游洋彪,石繁槐
(同濟大學 電子與信息工程學院,上海 201804)
近年來,自然場景圖像中的文本檢測成為了計算機視覺領域的一個研究熱點。自然場景圖像文本檢測在圖像檢索、定位導航、盲人輔助、數(shù)據(jù)錄入等領域具有重要的實用價值。自然場景圖像背景千變?nèi)f化,并且自然場景圖像文本具有大小和長寬比變化劇烈、多方向等特點;此外,與一般目標檢測不同的是,文本目標框可能使用水平矩形、四邊形、旋轉矩形,甚至是多邊形等形式進行精確表達,所以自然場景圖像文本檢測一直是一個難點問題。
通用目標檢測(generic object detection)[1],定位圖像上預先定義類別的目標實例的位置,檢測結果通常以外接矩形框的形式呈現(xiàn),不同于專用目標檢測只適用于一種或一些類別,通用目標檢測適用于廣泛的類別,典型方法有Faster R-CNN[2]、SSD[3]等。隨著深度學習技術的迅速發(fā)展,通用目標檢測性能得到了顯著的提升。很多學者在通用目標檢測方法的基礎上提出了許多自然場景文本檢測方法。這些方法可以大致分為兩類:間接回歸方法與直接回歸方法。間接回歸方法,通常借鑒Faster R-CNN[2]、SSD[3]等目標檢測方法,預先設定一些錨(anchor)或先驗框(default box),利用卷積神經(jīng)網(wǎng)絡判定它們是否與文本區(qū)域高度重疊并調整它們的大小和位置以準確定位文本。然而自然場景中的文本方向多變,大小、長寬比變化劇烈,為了使預設的錨或先驗框能與文本區(qū)域高度重疊,很多方法增加了多種方向、多種大小及多種長寬比的預設框,但這無疑增加了方法的復雜度與計算量。
為適應文本的特性,Liao等[4]、Zhong等[5]分別在Faster R-CNN、SSD的基礎上增加了不同尺寸與長寬比的預設框。Ma等[6]、Liu等[7]為檢測多方向的文本設置了多方向的預設框。為了能夠輸出四邊形的檢測結果,Liu等[7]、Liao等[8]直接預測預設框與文本邊界四邊形4個頂點的坐標差;Jiang等[9]通過預測兩個頂點坐標與一條邊長得到旋轉矩形的檢測結果;Zhu等[10]通過預測多個文本邊界上的點得到多邊形的檢測結果。
直接回歸方法不需要預設框,相比于間接回歸方法,它更加靈活簡便。直接回歸方法借鑒了DenseBox[11]的思想,這類方法通常采用全卷積網(wǎng)絡[12](fully convolutional network,F(xiàn)CN)的架構,在分割出文本區(qū)域中的候選點的同時在每個點處預測對應的文本區(qū)域邊界。為了得到四邊形的檢測結果,He等[13]在分割出文本區(qū)域中像素點的同時預測該點與四邊形邊界頂點的坐標偏差。為了降低復雜度,Zhou等[14]預測文本區(qū)域中的點到文本外接旋轉矩形4條邊的距離與旋轉矩形的角度。Xue等[15]則在此基礎上還分割了文本的邊界區(qū)域以助于區(qū)分文本實例。
上述基于回歸的文本檢測方法或是通過調整預設框得到文本的外接四邊形,或是在每個點處直接預測文本的外接四邊形,都是直接預測文本的整個邊界框。這些方法能檢測到目標尺寸與網(wǎng)絡的感受野大小成正相關,當檢測更長的文本目標時,網(wǎng)絡需要更大的感受野。在面對長文本時,由于感受野大小有限,并且相應感受野內(nèi)背景干擾可能更多,這些直接預測整個文本邊界的方法難以得到理想的結果。
針對直接預測整個文本邊界的方法在檢測長文本時的缺陷,本文設計了一種短邊頂點回歸網(wǎng)絡,該網(wǎng)絡不再直接預測文本區(qū)域的所有邊界。具體來說,本文方法在直接回歸方法的基礎上,分割出文本的兩條短邊附近的區(qū)域以及中間區(qū)域。不同于其他直接回歸方法中文本區(qū)域中的點需要預測文本整個邊界框,本方法中,文本邊界框頂點由短邊附近區(qū)域中的點來預測,并且一條短邊區(qū)域內(nèi)的點只預測其附近短邊的兩個頂點,而不需預測另外一條更遠短邊的頂點。在檢測長文本時,相應感受野內(nèi)背景干擾相對更少,同時對感受野大小的要求更低,所以檢測結果更為準確。為了將預測的兩組短邊頂點結合,本文設計了一種新的后處理方法,利用中間區(qū)域與兩短邊區(qū)域相鄰或兩短邊區(qū)域直接相鄰的特點將文本的兩個短邊區(qū)域組合,兩組預測的短邊頂點隨之結合,便能得到精確完整的文本檢測結果。本文所提方法在多個自然場景文本檢測數(shù)據(jù)集上均取得了不錯的效果,結果超過了目前絕大部分方法,并且本方法更快速高效。
圖1為本文方法的原理流程圖,本方法采用了全卷積與多層特征融合的網(wǎng)絡架構。圖像輸入網(wǎng)絡后,網(wǎng)絡輸出3種像素級分類結果,即文本中間區(qū)域像素、文本左短邊區(qū)域像素、文本右短邊區(qū)域像素。文本短邊區(qū)域是指文本短邊邊界附近的區(qū)域。如圖1的區(qū)域分割結果所示,其中藍色、綠色、紅色區(qū)域分別為文本中間區(qū)域、左短邊區(qū)域與右短邊區(qū)域。在分類短邊區(qū)域像素的同時,網(wǎng)絡還在該點處預測附近一條短邊兩個頂點的坐標。最后通過后處理,本方法將左短邊頂點與右短邊頂點的預測結果結合起來,得到最終的檢測結果。
圖1 基于短邊頂點回歸網(wǎng)絡的文本檢測方法流程
本方法的網(wǎng)絡結構可以大致分為3個部分:特征提取、特征融合以及分類回歸。特征提取部分使用Resnet 50[16]的框架,去除Resnet 50后面的全連接層,圖1中綠色模塊為Resnet 50特征提取部分。相比于經(jīng)典的VGG16/19[17],Resnet 50參數(shù)量更少,計算存儲花銷更小,而且Resnet 50使用了殘差結構,能夠有效緩解訓練時發(fā)生梯度消失的情況。
自然場景圖像中文本具有尺度變化劇烈的特點,特征提取網(wǎng)絡越深,提取到的特征語義范圍越廣,越有利于大尺度文本的檢測,而檢測小的文本需要靠淺層局部的特征。為了能夠檢測不同大小的文本,本方法參考U-Net[18]的架構將Resnet 50提取到的多層特征進行融合。具體來說,高層的特征首先進行上采樣,與低一層的特征的長寬維度保持一致,然后沿通道方向將上采樣特征與低一層特征進行連接,最后使用一個1×1與一個3×3的卷積操作將特征進行融合。融合后的特征繼續(xù)融合更低層特征,直至融合的特征長寬為原圖像的1/4。
對于最小外接矩形長寬比接近于1的文本區(qū)域,它的中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域會有部分重疊。所以在網(wǎng)絡輸出的結果中,同一個像素可以同時屬于中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域。在最后分類時,中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域均與背景進行二分類,這樣能夠避免類間的競爭。具體來說,在最后融合的特征上分別使用一個1×1的卷積操作與一個sigmoid非線性函數(shù)來預測每個像素點屬于中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的概率。
短邊頂點回歸網(wǎng)絡的目標之一在于分割文本的中間區(qū)域、左短邊區(qū)域及右短邊區(qū)域。文本短邊區(qū)域是文本短邊邊界附近的部分區(qū)域,在確定文本左、右短邊區(qū)域前,首先需要規(guī)定文本的左短邊及右短邊。由于文本目標大多使用四邊形進行標注,而四邊形的兩條對邊不一定為最短的兩條邊,所以在此通過尋找四邊形最小包圍矩形的左短邊及右短邊來確定文本邊界四邊形的對應短邊。
如圖2(a)所示,黃色四邊形是文本區(qū)域原始的標注,紅色的矩形是該四邊形的最小包圍矩形R。矩形R順時針旋轉直至長邊與水平軸平行,假設此時底部長邊為w,轉過的角度為矩形R的傾角θ。當θ≤45°時,R旋轉后,位于w右側的短邊對應的是R的右短邊,位于w左側的短邊為R的左短邊,例如圖2(b)中的R1、R2、R3;當θ>45°時,R旋轉后,位于w左側的短邊對應的是R的右短邊,位于w右側的短邊為R的左短邊,例如圖2(b)中的R4、R5、R6、R7、R8。圖2(b)中矩形R綠色短邊為左短邊,紅色短邊為右短邊。文本四邊形的左、右短邊與其最小包圍矩形R的左、右短邊一一對應。
在確定文本的左短邊與右短邊后,再精確定義文本的中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域。首先定義四邊形Q={q0,q1,q2,q3},其頂點qi(i=0,1,2,3)的參考長度為
li=min(hi,(i+1)mod4,h(i+3)mod4,i)
(1)
圖2 左短邊、中間、右短邊區(qū)域標簽生成
本方法是基于直接回歸的文本檢測方法,所以設計損失函數(shù)時參考了其他同類的方法[13-15]。本方法損失函數(shù)為:
L=Lcls+Lreg
(2)
Lcls=α1Lm_cls+Ll_cls+Lr_cls
(3)
Lreg=Ll_reg+Lr_reg
(4)
式中:L為最后總損失;Lcls為3類區(qū)域的分類損失和;Lreg為短邊區(qū)域頂點回歸損失和;Lm_cls、Ll_cls、Lr_cls分別為中間區(qū)域、左短邊區(qū)域及右短邊區(qū)域的像素分類損失;Ll_reg為左短邊頂點回歸損失;Lr_reg為右短邊頂點回歸損失。由于中間區(qū)域起著確定文本實例的作用,相對更加重要,實驗中其分類損失權重α1設置為4。
在自然場景圖像中,文本區(qū)域往往只占很小一部分,如果分類損失函數(shù)使用交叉熵類型的損失函數(shù),很可能由于正負樣本不平衡,導致最后分類結果傾向于背景。本方法采用D(dice coefficient)函數(shù)[19]作為分類的損失函數(shù),分類損失為:
Lcls=α1D(Pm,Gm)+D(Pl,Gl)+D(Pr,Gr)
(5)
(6)
式中:Pm、Pl、Pr分別為中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的分類得分預測值;Gm、Gl、Gr為分類得分真實值;Px,y、Gx,y分別為點(x,y)分類得分的預測值與真實值。
(7)
(8)
(9)
(10)
(11)
從網(wǎng)絡的輸出中不能直接得到文本區(qū)域的檢測結果,還需要進行后處理才能得到完整的結果。對于點(x,y),用Sm、Sl、Sr分別表示該點屬于文本中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的分類得分。Tm、Tl、Tr分別表示中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的分類閾值。當Sm>Tm,Sl
整個后處理的流程如圖3(a)所示,具體如下:
1)尋找有效區(qū)域。遍歷所有的像素點,找到所有的有效中間區(qū)域、有效左短邊區(qū)域及有效右短邊區(qū)域,分別如圖3(c)中藍色、綠色、紅色區(qū)域所示。同時記錄下各有效區(qū)域的相鄰區(qū)域。當某個有效區(qū)域的點與其他有效區(qū)域的點相鄰或重疊時,則這兩個有效區(qū)域相鄰,如圖3(d)所示。
2)確定文本實例及其邊界頂點。遍歷所有的有效中間區(qū)域,當該有效中間區(qū)域相鄰的有效左短邊區(qū)域、有效右短邊區(qū)域數(shù)目均不小于1時,則3種區(qū)域共同構成一個文本實例。若相鄰的有效短邊區(qū)域數(shù)大于1,只選最大的有效短邊區(qū)域。遍歷所有的有效左短邊區(qū)域,當該有效左短邊區(qū)域相鄰的有效中間區(qū)域數(shù)為0,相鄰的有效右短邊區(qū)域數(shù)大于0時,則兩種短邊區(qū)域同樣構成一個文本實例。在確定文本實例后,綜合計算左、右短邊頂點坐標,計算方式為
(12)
式中:xi為由單個有效短邊區(qū)域點預測的短邊頂點坐標;si為該有效短邊區(qū)域點的短邊區(qū)域分類得分;n為該短邊區(qū)域有效點數(shù);x為最后綜合計算的短邊頂點坐標結果。
3)去除重復。當同一個連通區(qū)域內(nèi)有多個重疊的檢測結果,去除面積較小的。
圖3 后處理流程圖及中間結果示例
為了驗證本文方法的效果,本文將在常用的3個公開的自然場景文本檢測數(shù)據(jù)集及一個長文本數(shù)據(jù)集上進行測試比較。
1)長文本數(shù)據(jù)集。根據(jù)主觀經(jīng)驗,當一個文本實例長邊與短邊之比大于7時,認為該文本實例為長文本。從MLT數(shù)據(jù)集[20]中選取742張含有長文本實例的圖片作為長文本數(shù)據(jù)集。該數(shù)據(jù)集的文本實例均為英文。該數(shù)據(jù)集均為測試集。
2)MSRA-TD 500[21]。MSRA-TD 500包含500張圖片,其中訓練集有300張,測試集有200張。該數(shù)據(jù)集包含中文與英文兩種類型文本,標注的目標為文本行,標注的類型為旋轉矩形。該數(shù)據(jù)集中的文本具有大小變化劇烈、長寬比變化劇烈、多方向的特點。該數(shù)據(jù)集中含長文本的圖像占40%,長文本實例占總文本實例的27.3%。
3)ICDAR 2015[22]。該數(shù)據(jù)集來自于ICDAR 2015魯棒閱讀競賽。該數(shù)據(jù)集包含1 500張圖片,訓練集有1 000張,剩余的500張為測試集。該數(shù)據(jù)集包含的文本為英文,文本實例標注是英文單詞的邊界四邊形。與MSRA-TD 500相比,該數(shù)據(jù)集的文本同樣具有多方向的特點,但大小、長寬比變化相對較小。該數(shù)據(jù)集中長文本實例只占1.5%。
4)ICDAR 2013[23]。該數(shù)據(jù)集一共有462張圖片,訓練集有229張,測試集有233張。該數(shù)據(jù)集的文本為英文,對每一個詞進行標注,標注類型為軸向矩形。其中長文本實例占6%。
當一個文本實例的檢測結果與真實目標交占比大于0.5時,該檢測結果被認為是正確的檢測結果,否則為一個錯誤的檢測結果。文本檢測的評價指標有3個,召回率(r,recall),準確率(p,precision),綜合得分(f,f-score),其計算方式為:
(13)
(14)
(15)
式中:|TP|為正確的檢測結果數(shù)目;|GT|為真實的文本實例數(shù)目;|DT|為檢測結果數(shù)。
由于各個數(shù)據(jù)集訓練集規(guī)模都較小,本方法參考了多種文本檢測方法[6,8-9,13-14,24-28]通過加入其他數(shù)據(jù)與仿射變換的方式增大訓練數(shù)據(jù)量,提高模型的泛化能力。HUST-TR 400數(shù)據(jù)集是使用文本行標注,與方法[6,13-14,25-27]一樣,將該數(shù)據(jù)集加入到MSRA-TD 500訓練集中。參考方法[8-9,13-14,24-28],在ICDAR 2013訓練集中加入其他訓練樣本,將部分MLT數(shù)據(jù)集加入到ICDAR 2013訓練集中。本方法使用縮放、旋轉、隨機截取3種方式進行數(shù)據(jù)擴充。對于ICDAR 2013與ICDAR 2015訓練集,在保持長寬比不變的條件下,圖片長邊被隨機縮放到[640,2 560]之間。然后在[-10°,10°]之間隨機旋轉圖像。最后隨機截取512×512大小的圖像塊作為訓練樣本。對于MSRA-TD 500數(shù)據(jù)集,圖片長邊被隨機縮放到為原始長度的[0.5,2.0]倍,最后隨機截取1 024×512的圖像塊作為訓練樣本。
本方法使用Adam[29]作為網(wǎng)絡訓練優(yōu)化器,學習率設置為0.000 1。使用多步調整為學習率調整策略,每經(jīng)過10 000次迭代,學習率衰減為原來的0.94倍。使用在ImageNet[30]上預訓練的Resnet 50模型初始化本網(wǎng)絡中特征提取部分的模型參數(shù),其余新加入層的參數(shù)使用符合均值為0,方差為0.01的高斯分布的隨機數(shù)進行初始化。
在測試時,將3類區(qū)域的分類閾值均設置為0.9。實驗的硬件環(huán)境是Intel Core 7700 CPU,16 GB RAM,Nvidia GTX 1080顯卡,操作系統(tǒng)為Ubuntu 16.04。
表1為各方法在長文本數(shù)據(jù)集上測試結果。表中各方法均是在ICDAR 2015訓練集上進行訓練,在長文本數(shù)據(jù)集上進行測試。由于訓練集與測試集存在一定差異,所以總體指標數(shù)據(jù)均不高。但是本方法在準確率與召回率均高于其他方法,綜合得分至少高于其他方法5%。這充分表明了本方法在長文本檢測方面的優(yōu)勢。
表1 各方法在長文本數(shù)據(jù)集中測試結果比較
圖4(a)、(b)分別是一種間接回歸方法TextBox++[8]與一種直接回歸方法EAST[14]檢測一個較長文本的效果示例。圖4(a)中品紅色的虛線框為預設框,黃色框為最后檢測結果,TextBox++[8]只能檢測到長文本的一部分。圖4(b)中品紅色的四邊形是EAST[14]在文本區(qū)域中右側某像素點處預測的檢測結果。該點距離文本區(qū)域的左側邊界較遠,由于該點處的感受野不足導致其預測結果中左側兩個頂點的定位精度非常差,而該點距離右側邊界較近,右側邊界定位較為準確。
圖4(c)為本文方法檢測長文本結果,其中黃色框為最后檢測結果,綠色、紅色及藍色區(qū)域分別為文本左短邊區(qū)域、右短邊區(qū)域及文本中間區(qū)域,左短邊區(qū)域內(nèi)像素點只預測文本左短邊的兩個頂點,右短邊區(qū)域內(nèi)的點只預測右短邊的兩個頂點。與其他兩種方法比較,在預測文本邊界框頂點時,本文方法只需要關注文本短邊附近一小塊區(qū)域,而不用關注整個文本區(qū)域,對網(wǎng)絡的感受野要求較低。所以在檢測長文本時,本文方法檢測精度要明顯優(yōu)于預測整個文本邊界的方法。
圖4 長文本測試結果比較示例
表2為各方法在MSRA-TD 500數(shù)據(jù)集上測試結果,其中其他方法的結果來自各自的文獻。本方法在MSRA-TD 500測試集上分別使用了單尺度與多尺度圖像進行測試,單尺度圖像長寬被縮放為原圖像的0.6倍,多尺度圖像分別被縮放為原來的0.25、0.50、1.00倍。表2中一些方法的準確率高于本方法的原因在于它們犧牲了一定的召回率。本方法最高綜合得分為82.66%,高于文獻[27]中的1%。MSRA-TD 500數(shù)據(jù)集檢測目標是文本行,其中含有許多長文本。表2的結果再次表明了本方法在長文本檢測方面的有效性。
表2 各方法在MSRA-TD 500數(shù)據(jù)集中測試結果比較
表3所示為各方法在ICDAR 2015數(shù)據(jù)集上的測試結果比較,其中其他方法的結果來自各自的文獻。本方法測試圖像大小為1 728×972。從表3數(shù)據(jù)可以看到,雖然文獻[27]準確率高于本方法,但其召回率較低,所以綜合性能落后于本方法。與綜合得分為第2的方法RRD[26]相比,本方法的綜合得分為85.44%,高于其1.6%。
表3 各方法在ICDAR 2015數(shù)據(jù)集中測試結果比較
表4所示為多種方法在ICDAR 2013數(shù)據(jù)集上的測試結果,其中其他方法的結果來自各自的文獻。本方法在測試之前,將一些過大的圖像縮小為原來的0.5倍。本方法單尺度測試圖像大小基本為原圖像大小。而多尺度測試時,對于較小的圖像,所使用的尺度為0.5、1.0、2.0,對于較大的圖像,所使用的尺度為0.25、0.50、1.00。不同于表4中一些方法,本方法能在獲得較高準確率的同時,獲得高召回率,所以本方法綜合得分能達到90.1%,超過了表4中其他所有方法。
表4 各方法在ICDAR 2013數(shù)據(jù)集中測試結果比較
ICDAR 2015數(shù)據(jù)集、ICDAR 2013數(shù)據(jù)集的檢測目標為詞,長文本實例數(shù)目不多。相比于文本行,詞相對較短,而本方法在這兩個數(shù)據(jù)集上的效果依然超過了目前絕大部分方法。原因在于:1)詞通常是以多個密集出現(xiàn),短邊區(qū)域能夠將密集的文本實例分離開,縮小的中間區(qū)域能防止相鄰的文本實例誤連接;2)不再直接預測整個文本邊界,短邊區(qū)域內(nèi)的像素點只預測與之鄰近的短邊的頂點,這樣的任務相對更簡單,所以能更精準地預測文本邊界頂點。
圖5為本方法在各個數(shù)據(jù)集上的單尺度測試的一些結果樣例。1~4行分別為長文本數(shù)據(jù)集、MSRA-TD 500數(shù)據(jù)集、ICDAR 2015、ICDAR 2013數(shù)據(jù)集測試樣例結果。
圖5 本方法的測試結果樣例
表5所示為各方法運行速度測試結果。基本上所有基于深度學習的檢測方法測試過程都可分為兩階段,網(wǎng)絡前向推理階段與后處理階段,其中網(wǎng)絡前向推理階段占大部分時間開銷,測試圖像的大小對速度有直接的影響。各方法測試時,圖像大小與實驗設備平臺不一樣。
表5 各方法速度比較
表5列出了每種方法測試的圖像大小與使用的GPU。在測試圖像大小相近的條件下,EAST[14]只比本方法稍快一點,然而其測試所用GPU設備性能要大大強于本方法。本方法能夠如此快速,原因在于:1)本方法網(wǎng)絡為單階段的全卷積網(wǎng)絡;2)網(wǎng)絡輸出結果邊長為原圖的1/4,這不僅減少了特征融合部分的卷積運算量,還降低了后處理的運算量。
1)針對長文本難以有效檢測的問題,本文提出了一種全新的短邊頂點回歸網(wǎng)絡。本方法分割出文本的中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域,左、右短邊區(qū)域的點預測各自短邊的頂點,再利用區(qū)域的相鄰關系將兩種短邊區(qū)域連接組合起來,便可得到精確完整的文本檢測結果。
2)在長文本數(shù)據(jù)集,MSRA-TD 500,ICDAR 2015及ICDAR 2013文本檢測數(shù)據(jù)集上的實驗測試結果表明本方法高速有效。
3)本方法目前主要適用于直線文本,在未來的工作中,將研究如何改善本方法使其具有更強的泛化能力。