国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于空間位置特征增強(qiáng)的文本檢測(cè)算法

2022-03-16 19:27:31高戰(zhàn)王國(guó)棟
關(guān)鍵詞:注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)圖像處理

高戰(zhàn) 王國(guó)棟

摘要:針對(duì)現(xiàn)有文本檢測(cè)算法缺少具有對(duì)文本特征空間化描述的問(wèn)題,基于DBNet文本檢測(cè)網(wǎng)絡(luò),將空間位置特征信息強(qiáng)化模塊嵌入到特征提取網(wǎng)絡(luò)中的殘差模塊中以增強(qiáng)文本特征。殘差模塊中的特征圖輸入到強(qiáng)化模塊后,拆分為2個(gè)空間方向的聚合特征,能夠保持通道間遠(yuǎn)程依賴和捕捉精確的特征位置信息。利用可形變卷積強(qiáng)化這兩種特征,將特征圖進(jìn)行分割識(shí)別。實(shí)驗(yàn)結(jié)果表明,本算法在多方向數(shù)據(jù)集和多語(yǔ)言數(shù)據(jù)集的平均精度分別為88.8%、86.4%,相比于其它算法均有一定的提升。

關(guān)鍵詞:圖像處理;卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;可形變卷積

中圖分類(lèi)號(hào):STP291???????? 文獻(xiàn)標(biāo)志碼:A

近年來(lái),場(chǎng)景文本檢測(cè)在場(chǎng)景解析、即時(shí)翻譯、盲導(dǎo)航、自動(dòng)駕駛等領(lǐng)域有著廣泛的應(yīng)用,場(chǎng)景文本檢測(cè)的目標(biāo)是定位圖像中每個(gè)文本實(shí)例的區(qū)域或邊界框。由于文本在比例、形狀、字體樣式和縱橫比方面具有多樣性,因此文本檢測(cè)仍然是一個(gè)富有挑戰(zhàn)性的課題。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[1-8]的發(fā)展,出現(xiàn)了很多優(yōu)秀的文本檢測(cè)算法[9-19]。根據(jù)檢測(cè)原理,文本檢測(cè)可分為基于回歸和基于分割的檢測(cè)方法,由于文字形狀具有任意性,基于回歸的文本檢測(cè)算法最初使用參數(shù)化的Bezier曲線自適應(yīng)地?cái)M合任意形狀的文本[9],但曲線擬合存在文本細(xì)節(jié)點(diǎn)位上的檢測(cè)誤差,于是提出一種尺度不敏感的自適應(yīng)區(qū)域建議網(wǎng)絡(luò)(Adaptive-RPN)來(lái)生成文本,用一組輪廓點(diǎn)表示文本區(qū)域[10],缺點(diǎn)是無(wú)法獲得文本組件之間更豐富的關(guān)系,無(wú)助于文本實(shí)例的劃分。因此文獻(xiàn)[11]通過(guò)推理中心節(jié)點(diǎn)與鄰近節(jié)點(diǎn)的關(guān)系,使用深度關(guān)系網(wǎng)絡(luò)進(jìn)一步推斷出文本組件與其相鄰組件之間的鏈接可能性,最終根據(jù)推理結(jié)果將文本組件聚合為整體的文本實(shí)例?;诜指畹奈谋緳z測(cè)算法核心在于區(qū)分相鄰的文本實(shí)例,通過(guò)設(shè)定固定的閾值大小,對(duì)文本像素進(jìn)行兩個(gè)階段的正負(fù)區(qū)分,實(shí)現(xiàn)了從分割圖中分割出密集文本實(shí)例[16],缺點(diǎn)是閾值設(shè)定固定,不能靈活的對(duì)文本進(jìn)行區(qū)分。隨后在閾值分割的基礎(chǔ)上引入了上下文本信息,利用文本間的關(guān)系調(diào)整像素的正負(fù)區(qū)分,進(jìn)一步提升了檢測(cè)精度[17]。以上兩種算法都是對(duì)像素進(jìn)行整體的區(qū)分,但無(wú)法區(qū)分兩個(gè)相鄰的文本實(shí)例,在進(jìn)行最終的文本框調(diào)整時(shí)不能很好的擬合文本邊緣。為此,文獻(xiàn)[18]提出了一種漸進(jìn)尺度擴(kuò)展算法,在像素級(jí)別上通過(guò)大小不同的核對(duì)整個(gè)文本區(qū)域逐步區(qū)分構(gòu)造文本實(shí)例,缺點(diǎn)是使用固定閾值來(lái)判斷前景背景,無(wú)法使用網(wǎng)絡(luò)將該部分流程放入網(wǎng)絡(luò)中訓(xùn)練。因此引入Threshmap,使用可微操作將閾值轉(zhuǎn)換放入到網(wǎng)絡(luò)中訓(xùn)練,得到的閾值更靈活精確,從而更好的判斷文本的前景和背景,提升檢測(cè)精度[19]?;诜指畹奈谋緳z測(cè)方法由于對(duì)任意形狀的文本具有很強(qiáng)的魯棒性而成為主流,但與基于回歸的方法相比,需要更精細(xì)的文本實(shí)例細(xì)節(jié)以便于定位,這一觀點(diǎn)已被最新的場(chǎng)景文本檢測(cè)方法所證實(shí)。如,DBNet[19]利用可變形卷積[20]為模型提供了一個(gè)靈活的感受野,可以保持文本實(shí)例的形狀特征。然而,由于缺乏考慮特征的空間距離信息和特征位置信息,對(duì)特征的強(qiáng)化能力較弱。針對(duì)上述問(wèn)題,本文設(shè)計(jì)了一種文本檢測(cè)框架SPDNet。借鑒文獻(xiàn)[20-21],采用注意力機(jī)制與可形變卷積相結(jié)合的模塊(SPD)對(duì)文本信息進(jìn)行處理,即利用H和W兩個(gè)方向的1×1卷積生成了通道間的交互信息和文本特征位置信息,通過(guò)可形變卷積操作強(qiáng)化了這兩種文本信息。

1 算法分析

1.1 基于回歸與基于分割的算法

基于深度學(xué)習(xí)的文本檢測(cè)算法可分為基于回歸和基于分割的算法?;诨貧w的算法通過(guò)CNN直接預(yù)測(cè)得出文本的邊界框;基于分割的算法將文本圖像中每個(gè)像素都賦予相應(yīng)的值,將大于預(yù)先設(shè)定閾值的像素作為文本區(qū)域,將小于預(yù)先設(shè)定閾值的像素作為背景區(qū)域?;诨貧w的算法一般先得到一個(gè)預(yù)測(cè)框,模型通過(guò)學(xué)習(xí)不斷的調(diào)整參數(shù),最終判斷得出包含文本區(qū)域的框,但通常情況下文本區(qū)域是一個(gè)狹長(zhǎng)的條形區(qū)域,即長(zhǎng)寬比較大,預(yù)定義的邊界框很難完全覆蓋這種文本區(qū)域。而基于分割的算法擺脫了邊界框的束縛,直接作用于像素,對(duì)被檢測(cè)圖像中每一個(gè)像素進(jìn)行預(yù)測(cè)分類(lèi),逐漸向外擴(kuò)展,進(jìn)而得到更精確的文本檢測(cè)框。在自然場(chǎng)景中,文本信息通常以更為復(fù)雜的形式出現(xiàn):彎曲、排列不規(guī)則、藝術(shù)字體等,由于基于回歸的算法需要預(yù)先設(shè)定邊界框,這種水平和垂直方向的矩形框無(wú)法擬合復(fù)雜的文本形狀。而基于分割的算法能夠在像素級(jí)別上對(duì)每一個(gè)像素進(jìn)行預(yù)測(cè),將大于預(yù)設(shè)定閾值的同一文本像素點(diǎn)進(jìn)行連接,逐步擴(kuò)展得到任意形狀的文本檢測(cè)框?;诨貧w的文本檢測(cè)算法在處理復(fù)雜的本文時(shí)很難做到精確的檢測(cè),而基于分割的算法能夠克服文本檢測(cè)中文本形狀任意,文本排列不規(guī)則的不利因素,因此實(shí)驗(yàn)選用分割算法作為基礎(chǔ)算法。

1.2 注意力機(jī)制

深度學(xué)習(xí)中的注意力和人類(lèi)視覺(jué)的注意力機(jī)制類(lèi)似,在眾多信息中把注意力集中在重點(diǎn)上,選出關(guān)鍵信息而忽略次要信息。對(duì)于一幅圖像,注意力機(jī)制作用于生成圖像描述,采用“編碼—解碼”的方式。編碼器為一個(gè)卷積網(wǎng)絡(luò),提取圖像的高層特征,表示為一個(gè)編碼向量;解碼器為一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,初始輸入為編碼向量,生成圖像的描述文本。在圖像描述生成的任務(wù)中,同樣存在編碼容量瓶頸以及長(zhǎng)距離依賴這兩個(gè)問(wèn)題,因此可以利用注意力機(jī)制來(lái)有效地選擇信息,如在圖像分割和圖像分類(lèi)中注意力機(jī)制的應(yīng)用能夠更好的幫助網(wǎng)絡(luò)學(xué)習(xí)圖像信息,更有針對(duì)性的學(xué)習(xí)圖像中的敏感信息。

在文本檢測(cè)任務(wù)中,自然場(chǎng)景下的文本信息多處于較為復(fù)雜的背景中,如何減弱無(wú)用信息的干擾并增強(qiáng)對(duì)文本特征信息的關(guān)注顯得尤為重要。注意力機(jī)制的使用對(duì)于提升模型性能具有顯著效果,但以往的注意力機(jī)制只關(guān)注了通道間的相互依賴關(guān)系,忽視了特征的精確位置信息,因此,引入具有捕獲位置信息和通道關(guān)系注意力機(jī)制的特征增強(qiáng)模塊SPD。一方面利用兩個(gè)空間方向聚合特征,得到一對(duì)方向感知的特征圖,這種轉(zhuǎn)換允許注意力模塊捕捉到沿著一個(gè)空間方向的長(zhǎng)期依賴關(guān)系,并保存沿著另一個(gè)空間方向的精確位置信息,有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。另一方面,通過(guò)加入可形變卷積操作將識(shí)別感受野更好的集中在物體周?chē)医档土吮尘靶畔⒌母蓴_。既有效收集了精確位置信息的通道間的關(guān)系信息,又對(duì)收集到的特征信息進(jìn)行了強(qiáng)化處理,更準(zhǔn)確地定位感興趣對(duì)象的確切位置,從而幫助整個(gè)模型更好地識(shí)別文本。

2 算法實(shí)現(xiàn)

2.1 總體結(jié)構(gòu)

1)為了增強(qiáng)文本特征,本文將原始圖像輸入到圖1(a),由SPD模塊生成特征,SPD模塊分別用50層和101層的ResNet作為主干網(wǎng)絡(luò),殘差模塊作用在ResNet中,對(duì)殘差模塊輸入x,使用尺寸為(H, 1)或(1,W)的卷積核進(jìn)行平均池化(Average pooling layer),生成大小為C×1×W和C×H×1的一維特征,對(duì)兩個(gè)一維特征分別沿著水平和垂直方向進(jìn)行擴(kuò)充,擴(kuò)充后兩個(gè)特征圖尺寸相同,對(duì)擴(kuò)充后的特征圖對(duì)應(yīng)相同位置進(jìn)行逐像素求和得到C×H×W的特征圖,然后使用ReLU進(jìn)行變換操作,對(duì)新生成的特征圖通過(guò)BatchNorm進(jìn)行歸一化處理,最后使用可形變卷積生成新的特征圖與殘差模塊輸入x進(jìn)行融合,生成大小為C×H×W新的特征圖作為殘差模塊的輸出。

2)經(jīng)過(guò)BiFPN生成特征圖{C1,C2,C3,C4,C5}融合生成特征圖,使用Sigmoid函數(shù)將特征圖I歸一化到0~1范圍內(nèi),得到分割圖,用特定閾值對(duì)分割圖像進(jìn)行二值化處理,其中,文本像素為1,背景像素為0。

3)處理二值圖時(shí),使用逐尺度擴(kuò)張算法(PSEA)[22],區(qū)分二值圖中不同的文本行,最終得到分割結(jié)果。

2.2 特征增強(qiáng)模塊

本文提出的特征增強(qiáng)模塊SPD由空間位置特征聚合模塊和可形變卷積特征增強(qiáng)模塊兩部分構(gòu)成,在空間位置特征聚合模塊中,對(duì)于全局池化方法通常用于通道注意編碼空間信息的全局編碼,但由于將全局空間信息壓縮到通道描述符中,導(dǎo)致難以保存特征位置信息。為了促使注意力模塊能夠捕捉具有精確特征位置信息的通道間的關(guān)系信息,分解了全局池化,轉(zhuǎn)化為一對(duì)一維特征編碼。

1)如圖2所示,對(duì)給定輸入x,使用尺寸為(H,1)或(1,W)的池化核(pooling kernel)分別沿著水平坐標(biāo)和垂直坐標(biāo)對(duì)每個(gè)通道進(jìn)行編碼,垂直坐標(biāo)即為特征的位置信息。因此,高度為h的第c通道的輸出

ghch=1W∑0≤i

2)寬度為w的第c通道的輸出

gwcw=1H∑0≤j

3)對(duì)這兩種特征進(jìn)行擴(kuò)充融合形成新的同時(shí)具有空間、位置信息的特征圖

yci,j=ghci+gwcj(3)

4)為了充分利用捕獲到的特征位置信息和通道間的關(guān)系信息,對(duì)新的特征圖經(jīng)過(guò)可形變卷積操作進(jìn)一步強(qiáng)化這兩種文本特征信息,生成的結(jié)果與x進(jìn)行融合

X=xc(i,j)+yc(i,j)(4)

其中,得出殘差模塊的輸出結(jié)果。通過(guò)可形變卷積操作,有效增強(qiáng)了特征位置信息和通道間關(guān)系信息。

2.3 優(yōu)化函數(shù)

對(duì)于訓(xùn)練SPDNet,采用多任務(wù)學(xué)習(xí)策略,將邊界二值映射的損失LΒ,概率映射的損失LP和融合二值映射的損失LF聯(lián)合起來(lái)作為加權(quán)求和,損失函數(shù)為

L=λ×LP+μ×LB+ν×LF(5)

其中,λ,μ,和v是控制損失平衡的3個(gè)超參數(shù),根據(jù)損失的數(shù)值,分別設(shè)置為1、10和5。

在概率映射和邊界二值映射上使用了二值交叉熵?fù)p失(BCE)[23],在二值交叉熵?fù)p失中應(yīng)用難分樣本挖掘,克服了正負(fù)數(shù)的不平衡。因此,概率映射的損失LP

LP? = ∑i∈Sl? yl lg xi? + (1-yi )lg (1-xi )(6)

其中,Sl是正負(fù)比為1:3的采樣集。

融合二值映射的損失由Dice系數(shù)[24]損失計(jì)算

Lf (Di,Gi ) = 2∑x,y (Di,x,y ×Gi,x,y )∑x,y D2i,x,y + ∑x,y G2i,x,y(7)

其中,Di,x,y和Gi,x,y分別表示融合二值圖和標(biāo)注圖中像素(x,y)的值。

此外,還要區(qū)分圖案,如柵欄、格子等,這些圖案與文字筆劃相似。使用在線困難樣本挖掘(OHEM)[25]來(lái)提高檢測(cè)器的識(shí)別能力。將OHEM設(shè)為O,最終融合二值映射的損失可表示為

LF=1-Lf(Di·O,Gi·O)(8)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

ICDAR 2019MLT數(shù)據(jù)集[26]是一個(gè)真實(shí)的自然場(chǎng)景文本數(shù)據(jù)集,由20 000個(gè)圖像組成,其中包含10種語(yǔ)言的文本(每種語(yǔ)言2 000個(gè)圖像)。這些圖像中,10 000張用于訓(xùn)練(每種語(yǔ)言1 000張圖像),10 000張用于測(cè)試,且只在訓(xùn)練前使用數(shù)據(jù)集。

MSRA-TD500數(shù)據(jù)集[27]是一個(gè)包含中文和英文的多語(yǔ)言數(shù)據(jù)集,由300幅訓(xùn)練圖像和20幅測(cè)試圖像組成。文本實(shí)例由文本行級(jí)別的轉(zhuǎn)錄和旋轉(zhuǎn)的矩形進(jìn)行注釋。遵循自然場(chǎng)景文字定位技術(shù)的原理[28],使用HUST-TR400[29]額外的400個(gè)圖像來(lái)訓(xùn)練模型。

ICDAR 2015數(shù)據(jù)集[30]由Google眼鏡捕獲,不考慮定位、圖像質(zhì)量和視點(diǎn),包括1 000個(gè)訓(xùn)練圖像和500個(gè)測(cè)試圖像,其中僅包含英語(yǔ)。文本實(shí)例在單詞級(jí)別使用四邊形框進(jìn)行標(biāo)記。

3.2 實(shí)驗(yàn)參數(shù)

對(duì)于所有的模型,使用ResNet-50[31]作為主干網(wǎng)絡(luò),經(jīng)過(guò)ImageNet [32]預(yù)訓(xùn)練,并采用兩種訓(xùn)練過(guò)程,首先使用IC 2019-MLT訓(xùn)練圖像對(duì)檢測(cè)器進(jìn)行600個(gè)epochs的訓(xùn)練,然后對(duì)每個(gè)基準(zhǔn)數(shù)據(jù)集上的模型進(jìn)行1 200個(gè)epochs的微調(diào)。在4個(gè)NVIDIA Tesla V100 GPU上訓(xùn)練所有批次大小為16的模型。在所有的訓(xùn)練過(guò)程中使用SGD優(yōu)化器,動(dòng)量為0.9。采用以DBNet[19]為基礎(chǔ)的poly學(xué)習(xí)率策略,其中每次迭代的學(xué)習(xí)率等于初始學(xué)習(xí)率乘以1-itermax_itepower,當(dāng)初始學(xué)習(xí)率設(shè)置為0.007時(shí),動(dòng)量為0.9。max_iter表示最大迭代次數(shù),其值取決于最大epoch。

對(duì)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)增強(qiáng)包括:(1)角度范圍為的隨機(jī)旋轉(zhuǎn);(2)隨機(jī)翻轉(zhuǎn)圖像;(3)隨機(jī)裁剪圖像。為了提高訓(xùn)練效率,將訓(xùn)練圖像的大小調(diào)整為640×640。在推斷期間,測(cè)試圖像保持寬高比,通過(guò)設(shè)置適當(dāng)?shù)母叨葋?lái)調(diào)整每個(gè)基準(zhǔn)的輸入圖像大小。使用單個(gè)線程在單個(gè)NVIDIA 1080Ti GPU上測(cè)試批次大小為1的模型。

3.3 評(píng)估指標(biāo)

本文通過(guò)一些指標(biāo)來(lái)評(píng)估方法的性能。精確度(Precision)表示為P,用于計(jì)算預(yù)測(cè)文本實(shí)例中可以匹配到ground truth標(biāo)簽的比例。召回率(Recall)記為R,是ground truth labels在預(yù)測(cè)結(jié)果中有對(duì)應(yīng)的比例。平均精度(F-measure)記為F=2×P×RP+R,用來(lái)表示新算法檢測(cè)文本的精度。

3.4 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本方法的有效性,在兩個(gè)標(biāo)準(zhǔn)測(cè)試平臺(tái)上進(jìn)行了實(shí)驗(yàn),并與其他方法做性能比較,其中包括一個(gè)多語(yǔ)言文本數(shù)據(jù)集、一個(gè)多方向文本數(shù)據(jù)集。(1)多方向文本檢測(cè)(Multi-oriented text detection)??紤]到icdar2015數(shù)據(jù)集包含大量小而低質(zhì)量的文本實(shí)例,在推理過(guò)程中,將測(cè)試圖像的短邊調(diào)整為1 152,長(zhǎng)邊保持相同的長(zhǎng)寬比。其他方法的定量結(jié)果見(jiàn)表1??芍?,在分別使用Resnet-50和Resnet-101作為主干網(wǎng)絡(luò)時(shí)的F-測(cè)度,比現(xiàn)有的方法分別高出0.7%和1.5%。

(2)多語(yǔ)言文本檢測(cè)(Multi-language text detection)。為了驗(yàn)證SPDNet在多語(yǔ)種文本中的性能,在MSRA-TD500數(shù)據(jù)集上與現(xiàn)有方法的性能進(jìn)行比較。測(cè)試時(shí),測(cè)試圖像的短邊調(diào)整為736。部分實(shí)驗(yàn)結(jié)果見(jiàn)表2。本方法的F-測(cè)度為86.1%和86.4%,比其他方法更高,本方法對(duì)多語(yǔ)言具有魯棒性。

3.5 實(shí)驗(yàn)結(jié)果分析

網(wǎng)絡(luò)中的特征圖如圖3所示。在網(wǎng)絡(luò)提取特征階段即編碼階段,使用空間位置聚合模塊,增加了文字區(qū)域的權(quán)重,導(dǎo)致文字特征對(duì)卷積核的響應(yīng)更敏感;同時(shí)使用可形變卷積將識(shí)別感受野更好的集中在物體周?chē)?,原圖中的文本區(qū)域都能在特征圖和二值圖中框出,且能夠緊密貼合文本區(qū)域,對(duì)于彎曲復(fù)雜的文本有著很好檢測(cè)能力,通過(guò)與已有的文本檢測(cè)算法進(jìn)行精度的對(duì)比,本文提出的基于特征增強(qiáng)的文本檢測(cè)網(wǎng)絡(luò)具有更好的檢測(cè)效果。

4 結(jié)論

本文通過(guò)提取特征的空間位置特征信息,將特征圖拆分為2個(gè)空間方向的聚合特征與原有特征信息進(jìn)行融合,在保持通道間遠(yuǎn)程依賴的同時(shí)能夠捕捉精確的特征位置信息,實(shí)現(xiàn)對(duì)文本特征的增強(qiáng)。實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)加入可形變卷積能夠?qū)⒆R(shí)別感受野更好的集中在物體周?chē)?,降低了背景信息的干擾,因此融合后的特征可通過(guò)可形變卷積進(jìn)一步的得到增強(qiáng)。文本數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本算法的平均精度均高于其他算法,充分驗(yàn)證了本算法的魯棒性。下一步研究將對(duì)算法作優(yōu)化處理,使其檢測(cè)速度能夠達(dá)到實(shí)時(shí)的效果。

參考文獻(xiàn)

[1]ZHANG H W, ZHA Z J, YAN S C, et al. Attribute feedback[C]//20th ACM international conference on Multimedia, New York, 2012: 79-88.

[2]LIU A A, SU Y T, NIE W Z, et al. Hierarchical clustering multi-task learning for joint human action grouping and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(1): 102-114.

[3]XU N, LIU A A, WONG Y K, et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2482-2493.

[4]WANG Y J, WANG G D, CHEN C L Z, et al. Multi-scale dilated convolution of convolutional neural network for image denoising[J]. Multimedia Tools and Applications, 2019, 78(14): 19945-19960.

[5]WANG Y J, HU S Y, WANG G D, et al. Multi-scale dilated convolution of convolutional neural network for crowd counting[J]. Multimedia Tools and Applications, 2020, 79(1-2): 1057-1073.

[6]LI D, HU J, WANG C H, et al. Involution: Inverting the inherence of convolution for visual recognition[C]//34th IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, 2021: 12321-12330.

[7]HU S Y, WANG G D, WANG Y J, et al. Accurate image super-resolution using dense connections and dimension reduction network[J]. Multimedia Tools and Application, 2020, 79(1-2):1427-1443.

[8]HE K M, ZHANG X, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 2016: 770-778.

[9]LIU Y L, CHEN H, SHEN C H, et al. ABCNet: Real-time scene text spotting with adaptive bezier-curve network[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nagoya, 2020: 9806-9815.

[10] WANG Y X, XIE H T, ZHA Z J, et al. Contournet: Taking a further step toward accurate arbitrary-shaped scene text detection[C]//33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2020: 11753-11762.

[11] ZHANG S X, ZHU X B, HOU J B, et al. Deep relational reasoning graph network for arbitrary shape text detection[C]//33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2020: 9699-9708.

[12] TIAN C W, XU Y C, ZUO W M, et al. Coarse-to-fine CNN for image super-resolution[J]. IEEE Transactions on Multimedia, 2021, 23: 1489-1502.

[13] WANG W J, XIE E Z, LIU X B, et al. Scene text image super-resolution in the wild[C]//16th European Conference on Computer Vision, Springer,2020: 650-666.

[14] ZHU Y X, DU J. Textmountain: Accurate scene text detection via instance segmentation[J]. Pattern Recognition, 2021, 110: 107336.

[15] 陳磊,王國(guó)棟.用于人群密度估計(jì)的多級(jí)融合卷積神經(jīng)網(wǎng)絡(luò)[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 33(4):31-36.

[16] TIAN Z T, SHU M, LYU PY, et al. Learning shape-aware embedding for scene text detection[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 4229-4238.

[17] XIE E Z, ZANG Y H, SHAO S, et al. Scene text detection with supervised pyramid context network[C]// 33rd AAAI Conference on Artificial Intelligence, Honolulu, 2019: 9038-9045.

[18] WANG W H, XIE E Z, LI X, et al. S. Shape robust text detection with progressive scale expansion network[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 9328-9337.

[19] LIAO M H, WAN Z Y, YAO C, et al. Real-time scene text detection with differentiable binarization[C]// 34th AAAI Conference on Artificial Intelligence, New York, 2020: 11474-11481.

[20] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]// 16th IEEE International Conference on Computer Vision (ICCV), Venice, 2017: 764-773.

[21] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//34th IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, 2021: 13713-13722.

[22] WANG W H, XIE E Z, LI X, et al. Shape robust text detection with progressive scale expansion network[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 9328-9337.

[23] DE BOER P T, KROESE D P, MANNOR S, et al. A tutorial on the cross-entropy method[J]. Annals of Operations Research, 2005, 134(1): 19-67.

[24] MILLETARI F, NAVAB N, AHMADI S A. V-Net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 4th IEEE International Conference on 3D Vision, Stanford, 2016: 565-571.

[25] SUTSKEVER I, MARTENS J, DAHL G, et al. On the importance of initialization and momentum in deep learning[C]//30th International Conference on Machine Learning, PMLR, 2013: 1139-1147.

[26] NAYEF N, PATEL Y, BUSTA M, et al. ICDAR 2019 Robust Reading Challenge on Multi-lingual scene text detection and recognition[C]//2019 International Conference on Document Analysis and Recognition, Sydney, 2019: 1582-1587.

[27] YAO, C, BAI X, LIU W Y, et al. Detecting texts of arbitrary orientations in natural images[C]//25th IEEE Conference on Computer Vision and Pattern Recognition, Providence, 2012: 1083-1090.

[28] LYU P Y, YAO C, WU W H, et al. Multi-oriented scene text detection via corner localization and region segmentation[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, 2018: 7553-7563.

[29] YAO C, BAI X, LIU W Y. A unified framework for multi-oriented text detection and recognition[J]. IEEE Transactions on Image Processing, 2014, 23(11):4737-4749.

[30] KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. ICDAR 2015 competition on robust reading[C]// 13th IAPR International Conference on Document Analysis and Recognition (ICDAR), Nancy, 2015: 1156-1160.

[31] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition, Seattle, 2016: 770-778.

[32] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//22nd IEEE Conference on Computer Vision and Pattern Recognition Workshops, Miami Beach, 2009: 248-255.

[33] LIAO M H, SHI B G, BAI X. Textboxes++: A single-shot oriented scene text detector[J]. IEEE Transactions. Image Processing, 2018, 27(8):3676-3690.

[34] LIAO M H, ZHU Z, SHI B G, et al. Rotation-sensitive regression for oriented scene text detection[C]//31st IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 5909-5918.

[35] LIU Z C, LIN G S, YANG S, et al. Learning markov clustering networks for scene text detection[C]//31st IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 6936-6944.

[36] LONG S B, RUAN J Q, ZHANG W J, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]//15th European Conference on Computer Vision, Munich, 2018: 19-35.

[37] XIE E Z, ZANG Y H, SHAO S, et al. Scene text detection with supervised pyramid context network[C]//33rd AAAI Conference on Artificial Intelligence, Honolulu, 2019, 33:9038-9045.

[38] BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]//32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 9357-9366.

[39] MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions? on Multimedia, 2018, 20(11):3111-3122.

[40] DENG D, LIU H F, LI X L, et al. Pixellink: Detecting scene text via instance segmentation[C]//32nd AAAI Conference on Artificial Intelligence, New Orleans, 2018, 6773-6780.

[41] XUE C H, LU S J, ZHAN F N. Accurate scene text detection through border semantics awareness and bootstrapping[C]// 15th European Conference on Computer Vision (ECCV), Munich, 2018, 370-387.

[42] XUE C H, LU S J, ZHANG W. MSR: multi-scale shape regression for scene text detection[C]//28th International Joint Conference on Artificial Intelligence, Macao, 2019: 989-995.

Text Detection Algorithm Based on Spatial Location Feature Enhancement

GAO Zhan,WANG Guo-dong

(College of Computer Science and Technology,Qingdao University,Qingdao 266071,China)

Abstract:

Existing text detectors lack spatial description of the text features. Based on the DBNet text detection network, the spatial location feature information reinforcement module was embedded into the residual module of the feature extraction network to enhance the text features. After the feature map of the residual module was input into the reinforcement module, it was divided into aggregated features in two spatial directions, which maintained the remote dependence between channels and capture accurate feature location information. Deformable convolution was used to reinforce these two features. The new algorithm divided and identified the feature map. The experimental results show that the average accuracy of this algorithm in multi-directional data set and multi language data set is 88.8% and 86.4% respectively, which is better than other algorithms.

Keywords:

image processing;convolutional neural network;attention mechanism;deformable convolutional networks

收稿日期:2021-07-09

基金項(xiàng)目:

山東省自然科學(xué)基金(批準(zhǔn)號(hào):ZR2019MF050)資助;山東省高等學(xué)校優(yōu)秀青年創(chuàng)新團(tuán)隊(duì)支持計(jì)劃(批準(zhǔn)號(hào):2020KJN011)資助。

通信作者:

王國(guó)棟,男,博士,副教授,主要研究方向?yàn)樽兎謭D像科學(xué)、人臉識(shí)別、三維重建和醫(yī)學(xué)圖像處理和分析等。E-mail: doctorwgd@gmail.com

猜你喜歡
注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)圖像處理
基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
機(jī)器學(xué)習(xí)在圖像處理中的應(yīng)用
電子制作(2018年18期)2018-11-14 01:48:20
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類(lèi)中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
模糊圖像處理,刑事偵查利器
圖像處理技術(shù)的實(shí)戰(zhàn)應(yīng)用
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
伊宁县| 舞阳县| 留坝县| 莎车县| 泾川县| 五莲县| 静宁县| 夏邑县| 贡觉县| 长泰县| 从化市| 罗江县| 泾阳县| 阿克苏市| 常熟市| 安庆市| 鸡东县| 洪泽县| 安新县| 上栗县| 安达市| 柳河县| 庆安县| 黑河市| 基隆市| 大洼县| 赤城县| 德江县| 广昌县| 泰安市| 勃利县| 揭西县| 精河县| 屏南县| 莎车县| 永嘉县| 于田县| 泰宁县| 宁远县| 威海市| 德清县|