Fourier Contour Embedding for Arbitrary-Shaped Text Detection

1.background

目前现有的任意形状文本检测器大多在图像的空间域中表示文本实例,基于空间域的表示方法大体上可以分为两种,即像素掩膜表示和轮廓点序列表示。其中,像素掩膜表示方法可能需要繁杂和耗时的后处理过程,同时对训练样本量的需求往往也会更大;而轮廓点序列表示方法对高度弯曲文本的表达能力有限。由于傅里叶系数表示在理论上可以拟合任意的封闭曲线,并且文本轮廓更多集中在低频分量上,所以通过在傅立叶域对不规则场景文字实例进行表征能很好地解决上述问题,并且具有简单、紧凑、对复杂轮廓表达能力好的特点。

本文采用傅里叶变换对文本实例轮廓进行傅里叶变换,在傅里叶域内而不是在空间域内建模,该方法可以稳健、简单地逐步逼近任何封闭轮廓。图 1a展示了傅里叶变换可以精确地拟合极其复杂的形状(例如,一个肖像草图)(例如,仅 K = 125),并且表明随着傅里叶度K的增加,重建的形状更接近真实。与极坐标系统下的SOTA文本轮廓点序列TextRay[25]相比,我们提出的傅里叶轮廓表示可以更好地建模高弯曲文本,如图1b-c所示。

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

图1:与傅里叶轮廓和TextRay轮廓[25]表示的比较。(a)表明,随着傅里叶度k的增大,傅里叶轮廓可以拟合极其复杂的物体形状,并得到更好的近似。(b)和(c)比较TextRay轮廓和我们提出的傅里叶轮廓,其中ground-truth轮廓为绿色,重建轮廓为红色。TextRay不能模拟高度弯曲的文本(最好的彩色观看)。

FCE用于文本实例表示的优点有三:

1,Flexible:任何封闭轮廓,包括极其复杂的形状,都可以精确拟合;

2,Compactness:傅里叶特征向量是我们方法的紧凑性。在我们的实验中,傅里叶度K = 5可以实现非常精确的文本近似。

3, Simplicity:文本轮廓的采样点序列与傅里叶签名向量之间的转换可分为傅里叶变换和逆傅里叶变换。因此,FCE方法易于实现,无需引入复杂的后处理。

配备了FCE,我们进一步构造了FCENet用于任意形状的文本检测。特别是,它由ResNet50主干组成,其中包含可变形卷积网络(DCN)[38]、特征金字塔网络(FPN)[9]和傅里叶预测头。报头有两个独立的分支。即分类分支和回归分支。前者预测文本区域掩码和文本中心区域掩码。后者在傅里叶域内预测文本傅里叶签名向量,将其输入傅里叶反变换(IFT)重构文本轮廓点序列。采用真实文本轮廓点序列作为监测信号。由于FCE的重采样方案,虽然CTW1500[13]和Total-Text[2]等数据集对于每个文本实例有不同数量的轮廓点,但我们在回归分支中的损失在不同的数据集之间是兼容的。

实验验证了FCENet对任意形状文本检测的有效性和良好的泛化能力。此外,我们的FCENet优于CTW1500和Total-Text上的最先进的(SOTA)方法,特别是在其高度弯曲的文本子集上。

我们将这项工作的贡献总结如下:

1,我们提出了傅里叶轮廓嵌入(FCE)方法,该方法可以精确地近似任何封闭形状,包括任意形状的文本轮廓,作为紧凑的傅里叶签名向量。

2,该算法首先在傅里叶域预测文本实例的傅里叶特征向量,然后通过傅里叶反变换(IFT)在图像空间域重构文本轮廓点序列。它可以端到端学习,无需任何复杂的后处理就可以进行推断。

3,我们广泛评估了提议的FCE和FCENet。实验结果验证了FCENet在小数据集上的泛化能力,特别是在高弯曲文本上的泛化能力。此外,FCENet在CTW1500和Total-Text上也达到了最先进的性能。

2.The principle

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

用f(t)表示任意形状文本封闭轮廓,x(t) 和 y(t) 表示具体时刻t的空间坐标,因此该函数可以通过傅里叶逆变换为:

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

k为频率,c_k为复值傅里叶系数,用于表征频率k的初始状态。每个c_ke^2πikt 表示固定 频率的圆周运动。因此,可以将轮廓视为不同频率圆形运动的组合,低频成分负责粗略的文本轮廓,而高频成分负责轮廓的细节。

由于在实际应用中无法得到文本轮廓函数f的解析形式,我们可以将连续函数f离散为N个点,N∈[1,. . .,N]。在这种情况下,可以通过傅里叶变换计算出c_k在 Eq. 2为:

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

其中(x(t), y(t))表示轮廓曲线上的点,f(t)通过采样和傅里叶变换得到傅里叶系数c_k,其中c_0表示轮廓的中心点位置。将傅里叶系数c_k拆分为实部和虚部,则轮廓可通过固定长度(2(2K +2))的实数向量进行表示。

通过IFT和NMS将检测结果从傅里叶域重构到空间域,如图4所示。

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

3.Illustration of FCE

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

FCE包含两个阶段: Resampling:基于ground truth point(红色)得到稠密点序列(绿色); Fourier Transformation:用重采样点序列计算傅里叶因子c_k。将不同固定频率的圆形运动(用粉色圆圈表示)与c_k相结合,可以重建出轮廓。

4.Overview of overall architeture

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

上图是本文提出的FCENet网络结构,采用了典型的Backbone+FPN作为主干网络,其FPN输出的特征图会经过共享的预测头进行分类预测和回归预测。在分类分支中(如绿框上半部分所示),网络通过预测文本区域和文本中心区域概率图并将其相乘,得到属于文本分类的得分图;在回归分支中(绿框下半部分所示),会直接预测每个像素位置上的傅立叶特征向量。在后处理过程(如蓝框所示),算法通过在具有高于得分阈值的区域上,对傅里叶特征向量进行逆傅里叶变换(IFT) 重建文本轮廓,并使用非极大值抑制(NMS)滤除重合度高的文本实例。

5.Losses

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

其中L_tr和lL_tcr分别表示文本区域(TR)和文本中心区域(TCR)的交叉熵损失。在L_tr中正负样本 为3:1

对于L_reg,我们没有最小化预测的傅里叶签名向量与其相应的地面真值之间的距离。相比之下,我们在图像空间域最小化重构文本轮廓,这更关系到文本检测质量。在形式上,

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

6.Experiments

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

表2所展示的消融实验结果表明文本中心区域及空间域上的回归损失对网络预测精度有显著的提升效果。

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

从表3所展示的结果,可以看到FCENet在减少训练样本时,依然能保持较好的检测性能,比其他方法有最少超过5%的性能优势,具有良好的泛化能力。

Fourier Contour Embedding for Arbitrary-Shaped Text Detection

7.Conclusion

本文着重于对任意形状文本包围框的表示方法建模,提出了可以精确地逼近任何封闭曲线的傅里叶轮廓嵌入方法和针对此文本框表达方法设计的FCENet。该算法在高度弯曲文本上具有优异的检测性能,且具有良好的泛化能力。在没有额外数据集参与预训练的情况下,在CTW1500、Total-Text上的检测效果达到了SOTA。

Original: https://blog.csdn.net/m0_46434334/article/details/118178891
Author: 不许人间见白头
Title: Fourier Contour Embedding for Arbitrary-Shaped Text Detection

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548015/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球