国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于置信度融合的自然場景文本檢測方法

2021-08-27 06:38蔣志鵬潘坤榕張國林劉玉琪孫科學(xué)
關(guān)鍵詞:置信度文本框定位

蔣志鵬,潘坤榕,張國林,劉玉琪,張 瑛,孫科學(xué),2*

(1.南京郵電大學(xué) 電子與光學(xué)工程學(xué)院,江蘇 南京 210023;2.射頻集成與微組裝技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室,江蘇 南京 210023)

0 引 言

在自然場景圖像中包含大量文本,這些文本信息可以作為圖像信息的說明和補(bǔ)充,因此從自然場景圖像中定位文字區(qū)域并識別文本語義已經(jīng)成為計(jì)算機(jī)視覺和文檔分析領(lǐng)域重要的研究任務(wù)[1];該任務(wù)在圖像檢索[2]、圖像中敏感詞檢測、盲人導(dǎo)航[3]、輔助駕駛[4]等領(lǐng)域具有廣泛的應(yīng)用。背景單一、顏色紋理統(tǒng)一的文本檢測技術(shù)已經(jīng)十分成熟,并且已有廣泛的應(yīng)用,例如身份證、發(fā)票單據(jù)等各種稿件中的文本檢測與識別,但是由于自然場景背景復(fù)雜、光照不均勻、模糊遮擋等不同因素,都影響了文本檢測的定位精度和召回率,給文本檢測技術(shù)帶來了新的挑戰(zhàn)和難點(diǎn)[5-8]。

隨著計(jì)算機(jī)硬件計(jì)算能力的提升和深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,深度學(xué)習(xí)技術(shù)越來越多地應(yīng)用在一般目標(biāo)檢測任務(wù)(SSD[9]、YOLO[10]、Faster-RCNN[11])中,促進(jìn)了自然場景文本檢測任務(wù)性能的提升和應(yīng)用范圍的擴(kuò)大。深度卷積神經(jīng)網(wǎng)絡(luò)[12](convolutional neural network,CNN)中的卷積和池化運(yùn)算對圖像的平移、旋轉(zhuǎn)和縮放具有較強(qiáng)的魯棒性,其層層堆疊的結(jié)構(gòu)能夠?qū)⒁恍┑蛯哟蔚膱D像特征重組成一些高層次的語義特征,許多研究者將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到自然場景文本檢測任務(wù)中進(jìn)行特征提取。例如2014年,Girshick等人[13]提出了R-CNN算法,將深度學(xué)習(xí)技術(shù)應(yīng)用到一般目標(biāo)檢測技術(shù)中,隨后以R-CNN為基礎(chǔ)的Fast-RCNN[14]和Faster-RCNN[11]算法相繼問世。2015年,Jonathan等人[15]首次提出了全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),該網(wǎng)絡(luò)不包含全連接層,能夠?qū)崿F(xiàn)逐像素級別的預(yù)測和分類,對細(xì)小目標(biāo)的位置信息感知能力更強(qiáng),并且可以接受任意尺寸的圖像輸入。

基于卷積神經(jīng)網(wǎng)絡(luò)的自然場景文本檢測技術(shù)主要包括特征提取網(wǎng)絡(luò)、預(yù)測網(wǎng)絡(luò)和非極大抑制算法。在傳統(tǒng)的自然場景文本檢測方法[16-17]中,非極大抑制算法基于預(yù)測文本框的分類置信度對重復(fù)檢測的預(yù)測框進(jìn)行篩選和合并。然而,該過程忽略了預(yù)測框的定位精度,使得一些定位更精確而分類置信度略低的預(yù)測框可能在非極大抑制步驟中被抑制,影響文本檢測的準(zhǔn)確率。

為了改善上述不足,文中設(shè)計(jì)了置信度融合的文本檢測方法。在多任務(wù)預(yù)測網(wǎng)絡(luò)中設(shè)計(jì)一個(gè)新的分支預(yù)測錨框與真實(shí)文本框的交并比IOU(intersection over union)值,將該值作為預(yù)測文本框的定位置信度。在非極大抑制算法中,用分類置信度與定位置信度融合的結(jié)果取代分類置信度,保留定位更精確的預(yù)測文本框,提高文本檢測的準(zhǔn)確率。

1 基于置信度融合的文本檢測方法

1.1 方法總體設(shè)計(jì)

置信度融合的文本檢測方法包括特征提取網(wǎng)絡(luò)、多任務(wù)預(yù)測網(wǎng)絡(luò)和非極大抑制算法等三個(gè)部分,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。其中特征提取網(wǎng)絡(luò)的作用是從輸入圖像中提取多尺度的特征圖;多任務(wù)預(yù)測網(wǎng)絡(luò)的作用是對特征圖上每個(gè)預(yù)定義的錨框的文本信息進(jìn)行預(yù)測;非極大抑制算法的作用是對同一文本區(qū)域重復(fù)預(yù)測的預(yù)測框進(jìn)行合并和篩選。研究者通常先將分類置信度低于閾值的預(yù)測框刪除,再按照分類置信度對剩下的預(yù)測框進(jìn)行排序,保留分類置信度最大的預(yù)測框,剩下的預(yù)測框則會被抑制。在以上過程中,那些定位更加精確而分類置信度略低的預(yù)測框可能會被抑制。因此文中將分類置信度和定位置信度進(jìn)行融合以改進(jìn)非極大抑制算法。

圖1 置信度融合的文本檢測模型網(wǎng)絡(luò)結(jié)構(gòu)

1.2 基于VGG的特征提取網(wǎng)絡(luò)

VGGNet基礎(chǔ)網(wǎng)絡(luò)的泛化能力強(qiáng)、簡潔實(shí)用,后續(xù)成為檢測和識別任務(wù)中的主干網(wǎng)絡(luò)。文中選擇VGGNet網(wǎng)絡(luò)并對其進(jìn)行改進(jìn),作為特征提取網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。

VGG-16一共包括13個(gè)卷積層和2個(gè)全連接層,它的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)列于表1。

表1 VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)

特征提取網(wǎng)絡(luò)保留VGG-16的conv1到conv4層,將最后的兩個(gè)全連接網(wǎng)絡(luò)改成3*3的卷積層,為conv5,并在此基礎(chǔ)上增加conv6到conv11,如圖1灰色區(qū)域所示。其中conv4_3、conv7、conv8_2、conv9_2、conv10_2、conv11是文中在特征提取網(wǎng)絡(luò)中抽取的多尺度特征圖。

不同尺度的特征圖具有不同的感受野,提取不同層次的特征,通常越淺層的特征圖感受野越小,通??梢蕴崛∫恍┻吘?、局部特征,能夠檢測面積較小的文本區(qū)域,而越深層的特征圖感受野越大,通常可以提取圖像的一些語義特征,可以檢測面積較大的文本區(qū)域。

1.3 多任務(wù)預(yù)測網(wǎng)絡(luò)

(1)錨框設(shè)置。

多尺度特征圖從特征提取網(wǎng)絡(luò)輸出后,文中會在特征圖上密集采樣錨框,設(shè)特征圖的大小為N*N,將特征圖的每個(gè)像素點(diǎn)(i,j)視為不同橫縱比的錨框的中心坐標(biāo),那么像素點(diǎn)(i,j)處將會產(chǎn)生5種橫縱比ar的錨框,如式(1):

ar=[1,3,5,7,10]

(1)

則每個(gè)N*N的特征圖中會生成N*N*5個(gè)錨框。

由于不同輸出層的特征圖尺度不一樣,每層的感受野大小也不同,因此每層特征圖對應(yīng)的錨框的面積也不一樣,特征圖越淺,感受野越小,錨框的面積也就越小。文中設(shè)計(jì)的特征提取網(wǎng)絡(luò)一共輸出6層特征圖,將圖1中從左往右的特征圖依次記為特征圖1到6,那么第k層特征圖中的錨框面積大小如式(2):

(2)

式中,Smin表示最小錨框面積,即第一層特征圖上的錨框面積;Smax表示最大錨框面積,即第六層特征圖上的錨框面積;k表示特征圖的層數(shù)。

每個(gè)錨框的寬和高的計(jì)算方式如式(3)和式(4):

(3)

(4)

(2)文本框的預(yù)測和坐標(biāo)計(jì)算。

接下來,多任務(wù)預(yù)測網(wǎng)絡(luò)根據(jù)設(shè)計(jì)好的錨框預(yù)測特征圖上每一個(gè)錨框的類別置信度scorecls、定位置信度scoreiou和每個(gè)錨框的坐標(biāo)偏移量offsetloc,分別對應(yīng)如圖2中的“預(yù)測類別”分支、“預(yù)測交并比分支”和“坐標(biāo)信息”分支。

圖2中,“交并比預(yù)測”分支和“預(yù)測類別”分支分別采用兩個(gè)卷積層和兩個(gè)sigmoid激活函數(shù),“坐標(biāo)信息”分支采用兩個(gè)卷積層和ReLU激活函數(shù)。卷積核采用3*5而非3*3的尺寸,這種卷積核的尺寸是針對文本狹長的矩形特征設(shè)計(jì)的,這樣可以產(chǎn)生狹長的矩形感受野,有利于處理更大橫縱比的文本。

圖2 多任務(wù)預(yù)測網(wǎng)絡(luò)

設(shè)第k層特征圖的(i,j)位置處有一錨框b0=(x0,y0,w0,h0),多任務(wù)預(yù)測網(wǎng)絡(luò)在(i,j)處輸出(Δx,Δy,Δw,Δh,scorecls,scoreiou),scorecls、scoreiou為該預(yù)測文本框的分類置信度和定位置信度。假設(shè)該預(yù)測框的scorecls滿足閾值,被認(rèn)為是一個(gè)文本框,那么該預(yù)測文本框的中心坐標(biāo)和寬高為b=(x,y,w,h),計(jì)算方式如式(5):

(5)

式中,x0,y0,w0,h0為錨框的中心坐標(biāo)、寬和高;Δx,Δy,Δw,Δh為錨框與預(yù)測文本框之間的坐標(biāo)偏移量。

1.4 改進(jìn)的置信度融合的非極大抑制算法

在一般非極大抑制算法(NMS)中,當(dāng)一個(gè)真實(shí)文本框存在重復(fù)檢測時(shí),分類置信度最大的那個(gè)文本框?qū)槐A簟H欢?,由于分類置信度和定位置信度的不匹配,定位更?zhǔn)確而分類置信度偏低的文本候選框可能在NMS算法中被抑制,從而影響文本檢測性能。本小節(jié)在非極大抑制算法中,用融合的分類置信度與定位置信度取代傳統(tǒng)的分類置信度,改進(jìn)后的NMS算法稱為置信度融合的非極大抑制算法(FC-NMS)。

根據(jù)文獻(xiàn)[18]中的分析,候選文本框的IOU值與定位置信度高度相關(guān),而與分類置信度相關(guān)性較小??紤]到傳統(tǒng)NMS方法中分類置信度的作用,與文獻(xiàn)[18]中直接用定位置信度取代分類置信度作為NMS中候選框排序的依據(jù)不同,本小節(jié)將分類置信度scorecls與定位置信度scoreiou用不同的權(quán)重值進(jìn)行融合,得到一個(gè)融合置信度scoreFC。將融合置信度作為NMS步驟中文本框排序的依據(jù),scoreFC的計(jì)算方式如式(6):

scoreFC=Wcls×scorecls+Wiou×scoreiou

(6)

式中,Wcls=0.2、Wiou=0.8分別表示分類置信度和定位置信度的權(quán)重。

與傳統(tǒng)NMS算法類似,在候選框集合中,將融合置信度scoreFC最高的文本框記為A,計(jì)算剩下的候選框與A的交并比IOU值,計(jì)算公式如式(7):

(7)

式中,A和B表示兩個(gè)候選文本框,IOU(A,B)表示框A與框B的交集面積與并集面積之比,IOU越大,表示A與B重疊率越高。A與B的交集部分如圖3所示。

圖3中,框A與框B的交集部分是一個(gè)矩形。若框B與框A的IOU值大于閾值Qnms,表明框B與框A的重疊程度較高,將框B從候選框集合中刪除,同時(shí)更新A的分類置信度。比如要?jiǎng)h除框C,則框A的分類置信度重置為socreclsA,socreclsA的計(jì)算公式如式(8):

圖3 矩形框A和B的交并比示意圖

socreclsA=max(socreclsA,socreclsC)

(8)

式中,socreclsA表示框A的文本類別置信度,max表示求最大值,socreclsC表示框C的文本類別置信度。

置信度融合的非極大抑制算法(FC-NMS)的偽代碼如算法1所示。

算法1:FC-NMS。

輸入:Box={b1,b2,…,bn},cls,iou,Qnms

Box表示候選框的集合,bi表示第i個(gè)候選框

cls/iou/FC:映射每個(gè)候選框的分類置信度,定位置信度和融合置信度的函數(shù)

Qnms:FC-NMS的篩選閾值

輸出:Result_Box:最終的預(yù)測文本框

1:Result_Box = None

2:while Box!= None:

3: box = argmax(FC)

4: c = cls(box)

5: delete box from Box

6: for bjin Box:

7: if IOU(box,bj) > Qnms:

8: c =max(c, cls(bj))

9: delete bjfrom Box

10: end if

11: end for

12: Result_Box = Result_Box∪{[box,c]}

13:end while

14:return Result_Box

2 文本檢測器的訓(xùn)練

本章通過對交并比預(yù)測分支單獨(dú)訓(xùn)練增強(qiáng)交并比網(wǎng)絡(luò)的兼容性;通過旋轉(zhuǎn)、平移、縮放等手段手動變換訓(xùn)練集中所有的真實(shí)文本框,從而生成候選文本框集。將該候選框集合中與真實(shí)文本框交并比小于0.5的候選框去除。然后從該候選集合中抽取訓(xùn)練數(shù)據(jù)對交并比網(wǎng)絡(luò)進(jìn)行訓(xùn)練。這種憑借經(jīng)驗(yàn)增廣的數(shù)據(jù)集為交并比網(wǎng)絡(luò)帶來了更好的性能和魯棒性。

對于置信度融合的文本檢測模型的初始化,文中用預(yù)訓(xùn)練的VGG-16模型的權(quán)重參數(shù)初始化VGG-16部分,用預(yù)訓(xùn)練的TextBoxes模型初始化卷積6~11層的權(quán)重參數(shù)。從第11層卷積開始往后的多任務(wù)網(wǎng)絡(luò)中所有的參數(shù)都用均值為0,標(biāo)準(zhǔn)差為0.01的高斯分布進(jìn)行初始化。

定位置信度scoreiou經(jīng)過標(biāo)準(zhǔn)化后的取值范圍為[-1,1]。訓(xùn)練和測試圖像的大小均為700*700,訓(xùn)練時(shí)的數(shù)據(jù)批量大小為16張圖像,迭代次數(shù)為12萬次,學(xué)習(xí)率的初始值設(shè)為0.001,在迭代6萬次后,學(xué)習(xí)率調(diào)整為0.000 1,權(quán)重衰減系數(shù)和動量分別設(shè)為0.000 1和0.9。優(yōu)化算法采用隨機(jī)梯度下降法。本章中訓(xùn)練交并比網(wǎng)絡(luò)用IOU損失函數(shù)[19],訓(xùn)練坐標(biāo)偏移量回歸任務(wù)用smooth-L1作為損失函數(shù),而文本分類任務(wù)采用交叉熵作為損失函數(shù)。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與評價(jià)指標(biāo)

3.1.1 數(shù)據(jù)集

文中采用ICDAR2011和ICDAR2013這兩個(gè)水平文本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。ICDAR2011包括229張訓(xùn)練圖像、251張測試圖像,對文本區(qū)域進(jìn)行單詞級別的標(biāo)注。ICDAR2013包括229張訓(xùn)練圖像、233張測試圖像,對文本區(qū)域進(jìn)行字符級別和單詞級別的標(biāo)注。這兩種數(shù)據(jù)集中的圖像都來自于日常生活中的拍攝,數(shù)據(jù)樣本的分布充分考慮了自然場景圖像可能受到的光照不均勻、曝光過度、遮擋、模糊等影響,覆蓋了大部分復(fù)雜場景。使用這兩個(gè)數(shù)據(jù)集能夠?qū)ξ闹蟹椒ㄟM(jìn)行客觀公正的評價(jià)。

3.1.2 評價(jià)指標(biāo)

當(dāng)文本檢測器輸出一個(gè)預(yù)測文本框D時(shí),可以利用公式(7)計(jì)算D與真實(shí)文本框G的交并比IOU(D,G),并設(shè)置一個(gè)交并比閾值0.7,如果D與G的IOU值大于該閾值,就認(rèn)為預(yù)測出的D是與G匹配的檢測正確的文本框。

按照預(yù)測文本框的正例和反例、真實(shí)文本框的正例和反例,可以將檢測結(jié)果分為四種不同的組合情況,并據(jù)此對模型檢測正確的文本框數(shù)量、檢測錯(cuò)誤的文本框數(shù)量、未檢測出的文本框數(shù)量進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)規(guī)則列于表2。

表2 預(yù)測框與真實(shí)文本框的匹配數(shù)量

表2中,第一列的中間兩行分別表示預(yù)測結(jié)果為文本框和非文本框的情況,第一行的中間兩列表示實(shí)際情況下為文本框和非文本框的情況。預(yù)測為文本框?qū)嶋H也為文本框的為True Positive(TP),表示預(yù)測正確的文本框數(shù)量;預(yù)測為文本框?qū)嶋H不是文本框的為False Positive(FP),表示誤檢的文本框數(shù)量;預(yù)測不是文本框而實(shí)際是文本框的為False Negative(FN),表示漏檢的文本框數(shù)量。所有預(yù)測出的文本框的數(shù)量記作preT,所有實(shí)際的文本框的數(shù)量記作GTT。

3.2 實(shí)驗(yàn)結(jié)果分析

基于ICDAR2011數(shù)據(jù)集對候選框的分類置信度和定位置信度的融合系數(shù)作了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果列于表3。表3中,Wcls表示分類置信度的系數(shù),Wiou表示定位置信度的系數(shù)。第一行實(shí)驗(yàn)結(jié)果表示在非極大抑制算法中僅用分類置信度作為排序依據(jù),即原始方法。隨著定位置信度的加入和比重的增大,文本檢測的召回率逐漸提高,但是當(dāng)完全用定位置信度替代分類置信度(表3最后一行)時(shí),雖然召回率提高了,但是準(zhǔn)確率也有所下降,這可能是因?yàn)樘岣哒倩芈实倪^程中除了保留了許多正確的文本框也引入了一些誤檢的文本框。因此文中選取0.2作為分類置信度的系數(shù)、0.8作為定位置信度的系數(shù)。

表3 不同融合系數(shù)的實(shí)驗(yàn)對比

文中提出的置信度融合非極大抑制算法(FC-NMS)的文本檢測方法(下文簡稱為文中方法)與其他方法在數(shù)據(jù)集ICDAR2011和ICDAR2013上的性能對比結(jié)果列于表4和表5。

表4 基于ICDAR2011的實(shí)驗(yàn)結(jié)果

由表4和表5可以看出,文中方法與基準(zhǔn)方法(TextBoxes)相比,F(xiàn)值提高了1%,主要性能提升體現(xiàn)在準(zhǔn)確率上;在ICDAR2011數(shù)據(jù)集上,比TextBoxes在準(zhǔn)確率上提升了3%;在ICDAR2013數(shù)據(jù)集上,比TextBoxes在準(zhǔn)確率上提升了2%,這主要是因?yàn)樵诜菢O大抑制算法中融合了定位置信度,使得分類置信度較低但定位置信度較高的預(yù)測框能夠保留下來。綜上所述,置信度融合的文本檢測方法可以有效提高文本檢測的準(zhǔn)確率,改善文本檢測的性能。

表5 基于ICDAR2013的實(shí)驗(yàn)結(jié)果

4 結(jié)束語

提出了一種置信度融合的自然場景文本檢測方法,使得檢測的文本框更加緊致,包含的背景區(qū)域更少,能夠有效提高自然場景文本檢測的準(zhǔn)確率。然而,文中對新設(shè)計(jì)的交并比分支進(jìn)行單獨(dú)訓(xùn)練時(shí),需要自行準(zhǔn)備訓(xùn)練數(shù)據(jù),并對數(shù)據(jù)翻轉(zhuǎn)、縮放等增廣操作,這種數(shù)據(jù)準(zhǔn)備方式可能會使數(shù)據(jù)覆蓋范圍受限,從而影響模型的訓(xùn)練效果,降低定位置信度預(yù)測效率。因此未來的工作可以繼續(xù)探究交并比分支訓(xùn)練時(shí)對數(shù)據(jù)集的需求,滿足模型訓(xùn)練需求。

猜你喜歡
置信度文本框定位
基于數(shù)據(jù)置信度衰減的多傳感器區(qū)間估計(jì)融合方法
一種基于定位置信度預(yù)測的二階段目標(biāo)檢測方法
巧用文本框?qū)崿F(xiàn)PPT多圖片排版
PPT文本框的另類應(yīng)用
少兒智能定位鞋服成新寵
把握新定位、新要求 推動人大工作創(chuàng)新發(fā)展
難與易
圖片動畫玩異樣
校核、驗(yàn)證與確認(rèn)在紅外輻射特性測量中的應(yīng)用
文本框酷變3D效果