《武汉工程大学学报》  2022年03期 309-314   出版日期:2022-06-30   ISSN:1674-2869   CN:42-1779/TQ
基于DenseNet的自然场景文本检测


近年来,深度学习与机器学习的不断发展,使得目标检测技术在各领域的应用获得了出色的成果[1]。文本检测技术在其影响下也从传统的手工设计特征转为神经网络提取特征[2]。随着文本检测技术在交通标志识别、盲人文本阅读系统、图像与视频中的文本信息提取等方面的应用越来越广泛,使得准确获取文本中的文字位置并识别语义内容成为文本分析与计算机视觉领域的重点研究课题[3]。由于自然场景中的文本受背景混乱、文本方向不同、空间分布不均匀、光照强度等因素影响,使得文本检测技术面临更大的挑战[4]。
为了解决自然场景中不同因素对文本检测带来的影响,提出了许多基于深度学习的场景文本检测方法。主要方法有:(1)基于区域建议的文本检测方法。如:Shi等[5]提出了SegLink文本检测方法,该方法思路与SSD[6]算法一致,并融入了CTPN[7]算法的细粒度候选框,使得模型不再受限于默认比例的人工设定文本框,最终得到的网络在多方向文本与长文本中有较好的检测结果,但该模型对于弯曲文本和间距较大文本检测结果较差。文献[8]提出了SegLink++文本检测方法弥补了SegLink的不足,该方法通过明确分块间的关系,使得模型对密集文本进行分离,改进损失函数增加检测难度较大区域的损失权重,最终实现对旋转、密集以及水平文本的检测;(2)基于图像分割的文本检测方法。如Long等[9]提出了TextSnake模型,该模型对文本几何属性的表示很灵活,采用圆环作为基础,使用FCN来逐渐预测文本区域、文本的中心线以及圆环表示的属性,通过堆叠圆环来构成序列以表示文本行属性,最终的模型可以较好地检测不规则文本。
现有的深度学习文本检测方法主要由特征提取、预测网络以及NMS组成,在进行特征提取时由于网络没有表明感兴趣的特征信息且没有融合多层特征,因此在特征映射时会忽略一些重要的信息,造成对文本与非文本的误判,使得整个文本检测过程存在耗时、误检等问题。
针对上述问题,本文提出一种以DenseNet[10]网络为基础的文本检测模型。DenseNet由核心模块dense block构成,该网络可以提取更深层的文本特征,并减缓了因网络深度造成的梯度消失问题,加强了特征传播和特征重用,同时极大地降低了网络参数数目;同时为了明确感兴趣的特征,在特征提取网络中引入协调注意力(coordinate attention,CA)[11],通过在通道信息中嵌入位置信息来明确感兴趣的特征;为了使网络可以提取内容更丰富的特征,在网络中使用特征融合技术。
1 文本检测算法设计
1.1 注意力模块
注意力机制在计算机视觉领域发挥重要的作用,如:文献[12]通过简单的压缩每一个二维特征图,建立了通道间的相互依赖关系;注意力模型(convolutional block attention module,CBAM)[13]在建立通道依赖关系基础上,通过引入大尺寸卷积核实现空间信息的编码;文献[14]利用非局部机制去获取特征图不同类型的空间信息。但这些注意力模块内部计算量大,将其用于文本检测网络中会消耗大量的计算资源。
CA降低了对计算资源的消耗,且可以很好的表示感兴趣的特征。该机制的工作流程为:首先通过坐标注意力将通道注意力分解为两个一维的特征编码过程,并分别从两个空间方向去聚集特征;其次从一个空间方向获取长距离的依赖关系,同时在另一空间方向保存准确的位置信息;最后将获得的特征图分别编码成对方向感知和对位置敏感的注意力,将其互补的应用在输入特征图中以增强对感兴趣特征的表示。
CA的框架如图1所示,它可以输入任意的特征向量,并输出一个增强后相同大小的特征向量。其中X Avg Pool和Y Avg Pool分别表示一维水平全局池化和一维垂直全局池化。为了使注意力模块利用准确的位置信息获取空间上的远程交互信息,将全局池化分解为两个一维的特征编码操作。具体操作如下:使用空间范围是[H,1]、[1,W]的池化内核沿水平与垂直方向对每个通道编码,得到高度[h]、宽度[w]处第[c]信道的输出,如公式(1)、(2)所示:
[zhch=1W0≤i<Wxch,i] (1)
[zwcw=1H0≤j<Hxcj,w] (2)
其中,[H]、[W]为特征图的高和宽。将得到的信道输出结果送入共享[1×1]卷积的函数[F1]中聚合特征,输出结果如公式(3)所示:
[f=δF1zh,zw] (3)
其中,[?,?]表示在某一空间维度的串联操作,[δ]表示非线性激活函数,表示在水平与垂直方向编码的中间过程特征图,[C]为通道数,[r]表示控制块的缩小比。然后将[f]拆分为和,利用[1×1]的卷积变换[Fh]和[Fw]将其变化为通道数相同的张量,得到结果如式(4)~式(5)所示:
[gh=σFhfh] (4)
[gw=σFwfw] (5)
其中,[σ]表示Sigmoid函数。将输出结果展开并用于注意力权重,得到CA的输出结果如式(6)所示:
[yci, j=xci, j×ghci×g·cj] (6)
CA在考虑通道重要性的同时也考虑了对空间信息的编码,得到的两个注意力,图1中的所有元素都可以反映行与列中是否存在感兴趣的特征,更准确的定位出特征图中感兴趣特征的具体位置,使得网络模型提取特征的性能更好。
1.2 特征提取网络
DenseNet网络使用密集连接的方式将先前层的特征用于后续层的输入,该网络降低了梯度消失的影响,提高特征的传播,实现特征重用,极大地减少模型的参数量,其结构如图2所示。计算公式如式(7)所示:
[xl=Hlx0,x1,...,xl-1] (7)
其中,[xl-1]表示[l-1]层生成的特征图,[x0,x1,...,xl-1]表示拼接[0]至[l-1]层生成的特征图,[Hl?]表示复合函数,包含批量标准化、激活函数(ReLU)以及[3×3]卷积。
DenseNet网络使用跳跃拼接保留原本的特征,降低了梯度消失现象的发生,然而由于网络深度不断加深,导致通道数与参数量增多,使得模型很难提取深层次的特征,因此DenseNet设置了转换模块,其结构如图3所示。该模块用于Dense Block之后,主要用来减少通道数。同时为了使通道数更少,在每次Dense Block拼接前都添加瓶颈结构,使通道数更少。
<G:\武汉工程大学\2022\第3期\宋彭彭-3.tif>[转换模块][BatchNorm][ReLU][Conv2d][AvgPool]
图3 转换模块
Fig. 3 Transition block
DenseNet网络经过批量标准化与转换模块后通道数目减少一半,同时使用下采样减小尺寸大小,从而减少了模型计算量,提升了计算效率。
1.3 融入协调注意力的DenseNet网络
随着卷积网络深度的增加,文本检测任务可以获取更深层次的特征,但是提取特征过程中出现梯度下降或消失现象的概率也变大,为了解决这个问题,本文使用去除全连接层的DenseNet-121网络提取文本特征,该网络有效缓解梯度消失问题,且加强特征传播,提升了特征重用,同时降低了模型参数数目。为了增强对特征图中感兴趣特征的表示,本文在特征提取网络中引入CA,通过将特征的位置信息嵌入通道注意力中,以表示对需要特征的关注。为了使输出特征可以包含丰富的文本信息,使用特征融合技术对批量标准化4输出的特征进行反卷积,并将该特征与Dense Block 3输出的特征拼接,最终获得多层文本特征,使得文本检测准确率得到提高。改进后的DenseNet网络结构如图4所示。
<G:\武汉工程大学\2022\第3期\宋彭彭-4.tif> [Convolution] [转换模块] [批量标准化1+协调注意力] [批量标准化2+协调注意力] [转换模块] [批量标准化3+协调注意力] [转换模块] [批量标准化4+协调注意力][Dense Block 1+协调注意力][Denselayer+协调注意力][Features][(14×14)][(14×14)][7×7][7×7][14×14][14×14][28×28][28×28][56×56][112×112][特征图大小][Deconvolution]
图4 融入协调注意力的DenseNet网络
Fig. 4 DenseNet network using coordinate attention
1.4 场景文本检测网络
基于DenseNet网络设计了自然场景文本检测网络,具体文本检测流程如下:首先利用改进的DenseNet网络获取输入文本图像的特征图(尺寸为:[W×H×C]),其中[W×H]为图像宽高,[C]为特征图通道数;其次使用[3×3]滑动窗口密集滑动在特征图上,每一个滑动窗口用[3×3×C]卷积特征来预测以获得256维特征向量;然后为了适应不同尺寸的文本框,设计了10个宽度固定为16像素,高度由11至273像素(每次除0.7)变化的锚框。检测时单独考虑独立文本框有可能会造成对非文本目标的误检,因此为了提升定位精度,将每个文本行转为一系列细粒度文本框,利用双向LSTM对细粒度文本框从两个方向编码;最后将编码得到的结果输入全连接层。改进后的文本检测网络如图5所示。
2 实验部分
2.1 数据集与评估指标
文本检测实验使用数据集ICDAR2011[15]和ICDAR2013[16]检测本文方法的有效性。ICDAR2011由229张训练集与255张测试集组成,图像中的文本区域均以单词级别来标注。ICDAR2013由229张训练集与233张测试集组成,图像中的文本区域由字符和单词级别来标注。两类数据集均从真实场景获取,且对自然场景中可能受到的遮挡、光照不均、模糊等现象考虑充分。因此这两种数据集满足评价本文方法的条件。
使用DetEval评价指标来评估两类数据集,该方法通过一对一、一对多以及多对一、3种方式判断检测框和标记框的匹配程度。最后通过精确度(P)、召回率(R)、F值判断模型有效性。其计算公式如式(8)~式(10)所示:
[PrecisionG,D,tr,tp=kjMatchDDkj,Gk,tr,tpkDk] (8)
[RecallG,D,tr,tp=kiMatchGGki,Dk,tr,tpkGk] (9)
[F=2×P×RP+R] (10)
其中,[Gk∈G,k=1,2,3,...,N]为标记框,[Dk∈D,k=1,2,3,...,N]为检测框。[tr∈0,1]、[tp∈0,1]分别为对召回率和精度的约束。[MatchG]、[MatchD]分别为对标记框和检测框的匹配函数。
2.2 对比实验
相同环境下,使用数据集ICDAR2011和ICDAR2013评估本文不同的改进方法,实验结果如表1、表2所示。通过表中数据发现,使用本文方法(DenseNet+CA+特征融合)检测文本时,在ICDAR2011中准确率(P)、召回率(R)、F值分别提高0.12、0.09、0.11,在ICDAR2013中准确率(P)、召回率(R)、F值分别提高0.11、0.10、0.10。
表1 不同改进方法在ICDAR2011实验结果
Tab. 1 Experimental results using different improvement methods in ICDAR2011
[方法 P R F CTPN(VGG16) 0.76 0.75 0.75 DenseNet 0.82 0.77 0.79 DenseNet+CBAM 0.83 0.78 0.80 DenseNet+CBAM+特征融合 0.84 0.80 0.82 DenseNet+CA 0.84 0.79 0.81 本文方法 0.88 0.84 0.86 ]
表2 不同改进方法在ICDAR2013实验结果
Tab. 2 Experimental results using different improvement methods in ICDAR2013
[方法 P R F CTPN(VGG16) 0.78 0.76 0.77 DenseNet 0.84 0.81 0.82 DenseNet+CBAM 0.87 0.82 0.84 DenseNet+CBAM+特征融合 0.87 0.85 0.86 DenseNet+CA 0.87 0.84 0.85 本文方法 0.89 0.86 0.87 ]
对特征提取网络以及注意力进行改进的对比实验如下:
实验一:分别使用VGG16与DenseNet网络作为特征提取网络进行文本检测,实验结果如图6所示。两类网络均存在误检、漏检问题,但是DenseNet网络对相同图像的检测准确度明显高于VGG16。
<G:\武汉工程大学\2022\第3期\宋彭彭-6-1.tif><G:\武汉工程大学\2022\第3期\宋彭彭-6-2.tif>[ a ][ b ]
图6 不同特征提取网络检测结果:
(a)VGG16,(b)DenseNet
Fig. 6 Detection results of feature extraction using different networks: (a)VGG16, (b)DenseNet
实验二:以DenseNet网络为特征提取网络,为了提取更深层次的网络特征对该网络进行特征融合,为了明确特征提取过程中的感兴趣特征,分别引入CA与CBAM注意力进行实验对比,实验结果如图7所示。通过对相同图像的对比可以发现,CA的引入降低了文本检测的误检率,提升了文本检测的准确率。
2.3 结果与分析
通过实验结果的对比发现,本文改进的自然场景中的文本检测方法有较好的检测结果。为了评估本文方法和其他算法在文本中的检测性能,本次实验选用ICDAR2011和ICDAR2013数据集进行实验,实验结果如表3、表4所示。在ICDAR2011中本文方法的准确率(P),召回率(R),F值分别为0.88,0.84,0.86;在ICDAR2013中本文方法的准确率(P)、召回率(R)、F值分别为0.89、0.86、0.87。与其他算法相比本文方法在准确率、召回率、F值上均有提高。
表3 ICDAR2011评估结果
Tab. 3 Evaluation results of ICDAR2011
[方法 P R F 文献[17] 0.88 0.73 0.80 文献[18] 0.79 0.71 0.75 文献[19] 0.87 0.81 0.84 文献[20] 0.82 0.75 0.78 本文方法 0.88 0.84 0.86 ]
表4 ICDAR2013评估结果
Tab. 4 Evaluation results of ICDAR2013
[方法 P R F 文献[17] 0.88 0.75 0.81 文献[18] 0.81 0.69 0.75 文献[19] 0.88 0.82 0.85 文献[20] 0.81 0.73 0.77 本文方法 0.89 0.86 0.87 ]
3 结 论
本文提出基于DenseNet改进的文本检测网络。该网络可以很好地处理自然场景中复杂多样的文本图像。为了获取文本图像的深层特征,使用DenseNet网络来进行文本特征提取。同时在DenseNet网络中使用特征融合技术,使改进后的网络可以获得文本内容更丰富的特征。此外,为了使特征提取过程明确感兴趣的特征,引入CA机制,使得网络在提取特征时能够准确获取需要的特征,减少文本检测过程中的漏检和误检问题。通过使用不同数据集进行实验发现,本文改进后的方法在文本检测任务中有较好的结果。然而本文只针对水平方向文本进行检测,对多方向文本检测效果较差,因此,后期将考虑对多方向文本检测的方法进行探讨。