劉艷麗,王毅宏,張 恒,程晶晶
(1. 上海電機(jī)學(xué)院電子信息學(xué)院,上海 201306;2. 華東交通大學(xué)信息工程學(xué)院,江西 南昌 330000)
自然場(chǎng)景文本是指存在于任意自然情境下的文本內(nèi)容,例如廣告牌、商品包裝、商場(chǎng)指示牌等。近年來(lái),基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)與識(shí)別方法快速發(fā)展,廣泛應(yīng)用于智能機(jī)器人、無(wú)人駕駛等領(lǐng)域,并成為當(dāng)下研究熱點(diǎn)。與文檔圖像中的文本不同,自然場(chǎng)景中的文本檢測(cè)與識(shí)別方法主要存在以下三方面挑戰(zhàn):①自然場(chǎng)景圖像背景復(fù)雜、存在類文本目標(biāo)如窗戶或柵欄等;②圖像本文在字體大小、排列方向、文本稀疏程度等方面有很大的差異性;③自然場(chǎng)景圖像中文本上存在光照強(qiáng)度不均衡、拍照角度不統(tǒng)一等干擾因素。
為了應(yīng)對(duì)上述挑戰(zhàn),大量基于深度學(xué)習(xí)的自然場(chǎng)景文本識(shí)別方法被提出。其中,文本檢測(cè)與文本識(shí)別的研究大部分是分開(kāi)處理的,文本檢測(cè)階段通過(guò)訓(xùn)練有素的檢測(cè)器從原始圖像中定位文本區(qū)域?,F(xiàn)有的文本檢測(cè)方法主要包括以下幾種:基于區(qū)域建議的方法、基于語(yǔ)義分割的方法、基于區(qū)域建議和語(yǔ)義分割的方法。如文獻(xiàn)[1]提出一種基于筆畫(huà)角度變換和寬度特征的自然場(chǎng)景文本檢測(cè)方法;文獻(xiàn)[2]提出了嵌入注意力機(jī)制的自然場(chǎng)景文本檢測(cè)方法。文獻(xiàn)[3]中提出通過(guò)語(yǔ)義分割檢測(cè)多方向場(chǎng)景文本。相比于水平或多方向場(chǎng)景的文本檢測(cè),針對(duì)自然場(chǎng)景中的任意形狀文本的檢測(cè)方法不多。文本識(shí)別階段的主要任務(wù)是對(duì)定位好的文字區(qū)域進(jìn)行識(shí)別,現(xiàn)有的文本識(shí)別技術(shù)主要包括以下幾種:基于樸素卷積神經(jīng)網(wǎng)絡(luò)的方法、基與時(shí)序特征分類的方法、基于編碼器和解碼器的方法。如文獻(xiàn)[4]中使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取,用連接時(shí)序分類(connectionist temporal classification,CTC)輸出識(shí)別的序列;文獻(xiàn)[5]中提出通過(guò)注意力機(jī)制的序列到序列模型來(lái)識(shí)別場(chǎng)景文本。
雖然基于文本檢測(cè)加文本識(shí)別的方法看似簡(jiǎn)單有效,但檢測(cè)性能無(wú)法達(dá)到最佳,因?yàn)闄z測(cè)和識(shí)別階段是高度相關(guān)的:檢測(cè)質(zhì)量的高低決定了識(shí)別的準(zhǔn)確率、識(shí)別結(jié)果可以給檢測(cè)階段提供信息反饋,糾正檢測(cè)誤差。針對(duì)該問(wèn)題,端到端的文本識(shí)別框架[6-8]被提出。如文獻(xiàn)[9,10]等將實(shí)例分割應(yīng)用于文本檢測(cè)與識(shí)別。
圖1 場(chǎng)景文本檢測(cè)與識(shí)別
基于實(shí)例分割的方法解決了圖像文本形式多樣的問(wèn)題,并且可以從不同干擾因素下定位文本。但是檢測(cè)效果受到自然場(chǎng)景圖像背景復(fù)雜、各種噪聲的影響,極易導(dǎo)致文本檢測(cè)出現(xiàn)大量假陽(yáng)性樣本和不完整檢測(cè)等,如圖1(c)所示。
在實(shí)例分割任務(wù)中,文本掩膜的質(zhì)量分?jǐn)?shù)被量化為文本分類的置信度。然而真實(shí)文本掩膜的質(zhì)量分?jǐn)?shù)為實(shí)例掩膜與其對(duì)應(yīng)的地面真值的IoU(Intersection over Union),通常與文本分類分?jǐn)?shù)相關(guān)性不強(qiáng)。如圖1(d)所示,實(shí)例分割得到精確的文本框以及該文本框?qū)?yīng)的高分類置信度scls,然而文本分類置信度scls與文本掩膜置信度smask存在一定差異。使用文本分類的置信度來(lái)衡量文本掩膜的質(zhì)量是不恰當(dāng)?shù)模驗(yàn)槲谋痉诸愔眯哦葍H用于區(qū)分文本類別,而不知道文本掩膜的實(shí)際質(zhì)量和完整性,從而在一定程度上導(dǎo)致自然場(chǎng)景文本檢測(cè)出現(xiàn)大量假陽(yáng)性樣本。
為了解決文本檢測(cè)假陽(yáng)性問(wèn)題,本文提出嵌入重評(píng)分機(jī)制的自然場(chǎng)景文本檢測(cè)方法。該方法在實(shí)例分割網(wǎng)絡(luò)(Mask R-CNN)的基礎(chǔ)上進(jìn)行改進(jìn),實(shí)現(xiàn)了對(duì)自然場(chǎng)景中多方向、不規(guī)則文本的檢測(cè)。具體來(lái)說(shuō),本文方法首先參考實(shí)例分割中利用預(yù)測(cè)的掩膜與地面真值之間的像素級(jí)別IoU來(lái)描述實(shí)例分割質(zhì)量,提出一種學(xué)習(xí)掩膜交并比網(wǎng)絡(luò);其次通過(guò)引入重評(píng)分機(jī)制,將文本語(yǔ)義類別信息與文本掩膜完整性信息相結(jié)合,矯正真實(shí)文本掩膜質(zhì)量與文本掩膜置信度之間的偏差,提高文本檢測(cè)與實(shí)例分割的精確性??傊?,本文的主要內(nèi)容如下:
1) 使用實(shí)例分割網(wǎng)絡(luò)檢測(cè)自然場(chǎng)景中的文本,兼顧自然場(chǎng)景中規(guī)則文本與不規(guī)則文本的檢測(cè),并通過(guò)FPN融合深層、淺層CNN語(yǔ)義信息,兼顧小尺度文本與大尺度文本的檢測(cè),提升召回率。
2) 設(shè)計(jì)重評(píng)分機(jī)制,通過(guò)學(xué)習(xí)預(yù)測(cè)掩膜的分?jǐn)?shù),將預(yù)測(cè)得到的掩膜分?jǐn)?shù)與文本分類分?jǐn)?shù)相結(jié)合,重新評(píng)估文本掩模的質(zhì)量,提升實(shí)例分割的準(zhǔn)確性,保證檢測(cè)文本的完整,進(jìn)一步提高召回率。
3) 在三個(gè)文本檢測(cè)與識(shí)別模型常用的數(shù)據(jù)集ICDAR2013、ICDAR2015和Total-Text進(jìn)行對(duì)比試驗(yàn)從而分析、評(píng)估本文方法。
本文方法以Mask R-CNN[11]為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),如圖2所示。包括:用于提取圖像特征的特征金字塔網(wǎng)絡(luò)FPN[12]、用于生成文本區(qū)域建議的區(qū)域建議網(wǎng)絡(luò)RPN[13]、用于邊界框回歸的Fast R-CNN[13]、用于文本分割和字符分割的Mask Head分支、用于字符掩膜評(píng)分的重評(píng)分模塊。
自然場(chǎng)景中的文本復(fù)雜多樣,存在不同的尺寸,而不同尺寸的文本對(duì)應(yīng)著不同的特征。低層特征的語(yǔ)義信息較少,但目標(biāo)位置準(zhǔn)確,有利于檢測(cè)小尺寸的文本框;高層的特征語(yǔ)義信息較為豐富,但是目標(biāo)位置比較粗略,有利于檢測(cè)大尺度的文本框。針對(duì)該問(wèn)題,本文在CNN特征提取模塊使用了FPN,以ResNet-101為骨干網(wǎng)絡(luò),如圖3所示。對(duì)于在單尺度的圖像輸入,F(xiàn)PN使用自頂向下的體系結(jié)構(gòu)來(lái)融合不同分辨率的特性。圖中{C2,C3,C4,C5}分別表示ResNet-101中的conv2_x、conv3_x、conv4_x、conv5_x層,經(jīng)過(guò)FPN處理計(jì)算得到特征層集合表示為fi={f2,f3,f4,f5,f6},計(jì)算公式如下所示
(1)
其中,Upsample(.)表示步長(zhǎng)為2的上采樣,MaxPool(.)表示最大值池化計(jì)算;由于fi的每一層均會(huì)作為RPN的輸入并完成回歸與分類計(jì)算,所以Convi(.)為1×1卷積模板的卷積層,并約束fi的通道數(shù)為256。通過(guò)深層特征的上采樣與淺層特征進(jìn)行融合,在顧及小尺度目標(biāo)檢測(cè)的同時(shí),增強(qiáng)對(duì)大尺度目標(biāo)的感知,一定程度上提升文本檢測(cè)召回率。
圖2 本文方法流程圖
圖3 特征金字塔網(wǎng)絡(luò)
候選區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)為后續(xù)的Fast R-CNN和Mask分支生成文本候選區(qū)域(ROIs)起到關(guān)鍵的作用。針對(duì)自然場(chǎng)景中的文本大小不一致、方向不統(tǒng)一等問(wèn)題,RPN網(wǎng)絡(luò)參考FPN[12],根據(jù)錨的大小在不同階段分配錨。具體來(lái)說(shuō),在{P2,P3,P4,P5,P6}五個(gè)階段把錨的面積分別設(shè)置為{322,642,1282,2562,5122}像素,其次參考文獻(xiàn)[13],在不同的階段把錨的長(zhǎng)寬比設(shè)置為(0.5,1,2)。同樣的,本文方法采用RoI Align[11]對(duì)RPN生成的邊界框的特征進(jìn)行統(tǒng)一表示,相比于RoI池化,RoI Align保留了更準(zhǔn)確的位置信息,提升了生成掩膜的精度,這對(duì)于掩膜分支中的分割任務(wù)相當(dāng)重要。
Fast R-CNN分支的輸入由RoI Align根據(jù)RPN提出的文本區(qū)域建議生成,主要任務(wù)包括:邊界框分類和邊界框回歸,其主要目的是為檢測(cè)到的文本區(qū)域提供更加準(zhǔn)確的位置信息。Fast R-CNN將文本檢測(cè)視為分類問(wèn)題,首先利用已經(jīng)獲得的建議區(qū)域?qū)?yīng)的深度特征,通過(guò)全連接層與Softmax函數(shù)計(jì)算得到每個(gè)區(qū)域建議屬于什么類別(文本、背景),輸出類別概率向量;其次通過(guò)回歸文本邊界框獲取文本區(qū)域建議的位置偏移量,用于回歸更加精確的文本檢測(cè)框。
一般情況下,經(jīng)過(guò)RPN生成的得分高的ROIs中存在大量非文本實(shí)例即負(fù)樣本。因而在對(duì)文本、非文本分類的同時(shí),過(guò)濾更多的非文本區(qū)域,有助于提升正樣本的準(zhǔn)確性,生成更準(zhǔn)確的ROIs。本文方法將文本實(shí)例特征與其對(duì)應(yīng)的預(yù)測(cè)掩膜結(jié)合起來(lái)學(xué)習(xí),提出引入重評(píng)分機(jī)制的自然場(chǎng)景文本檢測(cè)方法,如圖4所示。
圖4 重評(píng)分機(jī)制
首先,在傳統(tǒng)實(shí)例分割任務(wù)中,雖然輸出結(jié)果是文本掩膜,但對(duì)掩膜打分卻是和文本邊界框檢測(cè)共享的,是針對(duì)文本區(qū)域分類置信度計(jì)算出來(lái)的分?jǐn)?shù),該分?jǐn)?shù)和文本分割掩膜的質(zhì)量未必一致,用來(lái)評(píng)價(jià)文本掩膜的質(zhì)量可能出現(xiàn)偏差。文本掩膜的質(zhì)量由文本預(yù)測(cè)的掩膜與該文本對(duì)應(yīng)的地面真值之間的像素IoU來(lái)描述,本文方法設(shè)計(jì)直接學(xué)習(xí)文本掩膜IoU的網(wǎng)絡(luò),通過(guò)將預(yù)測(cè)的文本掩膜分?jǐn)?shù)與分類分?jǐn)?shù)相乘,重新評(píng)估文本掩模置信度,最終文本掩模置信度將同時(shí)考慮文本語(yǔ)義類別信息與文本掩膜的完整性信息。
Smask表示文本掩膜置信度,理想的Smask量化為預(yù)測(cè)的文本掩膜和其對(duì)應(yīng)的地面真實(shí)掩膜的交并比。其中每一個(gè)文本掩膜只屬于一類,且Smask對(duì)有地面真值的類別只可能有正值,對(duì)于其它的類別的得分為零。本文方法將學(xué)習(xí)任務(wù)分為掩膜分類和MaskIoU回歸,所有對(duì)象類別表示為:Smask=Scls×Siou。其中Scls專注于掩膜分類,已在MaskHead分支階段的分類任務(wù)中完成,從而專注于掩膜交并比回歸的Siou將作為重評(píng)分模塊的主要任務(wù)。
圖5 Mask Head結(jié)構(gòu)圖
Mask Head分支主要負(fù)責(zé)三項(xiàng)任務(wù):文本實(shí)例分割、字符實(shí)例分割和文本序列識(shí)別,如圖5所示。輸入一個(gè)大小為16×64的ROI特征,連續(xù)經(jīng)過(guò)三個(gè)卷積層和一個(gè)反卷積層后,輸出38份概率圖,包括文本實(shí)例概率圖、字符(包含字符和數(shù)字)實(shí)例概率圖、字符背景概率圖。其中,文本概率圖用于預(yù)測(cè)矩形區(qū)域中的文本實(shí)例區(qū)域,不同的字符實(shí)例概率圖用于預(yù)測(cè)矩形區(qū)域中不同字符區(qū)域;字符背景概率圖用于預(yù)測(cè)矩形區(qū)域中非文本區(qū)域。
為了將預(yù)測(cè)的字符圖解碼為字符序列,文本采用像素投票算法首先對(duì)背景圖進(jìn)行二值化,其值從0到1,閾值為0.75;然后根據(jù)二值化圖中的連接區(qū)域獲得所有字符區(qū)域;計(jì)算所有字符圖每個(gè)區(qū)域的平均值;平均值可以看作是區(qū)域的字符分類概率,它可以看作字符的置信度,平均值最大的字符類將分配給該區(qū)域。具體過(guò)程如算法1所示。然后,根據(jù)英語(yǔ)的書(shū)寫(xiě)習(xí)慣將所有字符從左到右進(jìn)行分組。
算法1 像素投票
輸入:背景B,字符圖C
1)在二值化背景圖上生成連通域R
2)S←?
3) for r in R do
4) score←?
5) for c in C do
6) mean=Average(c[r])
7) score←scores+mean
8) S←S+Argmax(scores)
9) return S
重評(píng)分模塊的主要任務(wù)是將預(yù)測(cè)的文本掩膜與其對(duì)應(yīng)真實(shí)文本掩膜之間IoU進(jìn)行回歸。如圖6所示。
圖6 特征融合模塊
在重評(píng)分模塊中,將RoI Align層的特征和預(yù)測(cè)的掩膜連接起來(lái)作為該網(wǎng)絡(luò)的輸入。在連接時(shí),使用卷積核大小為2、步長(zhǎng)2的最大池化層使得預(yù)測(cè)的掩膜與RoI相同的空間尺寸。對(duì)于地面真值類,網(wǎng)絡(luò)中只選擇返回MaskIoU,而不是所有的類。重評(píng)分網(wǎng)絡(luò)由4個(gè)卷積層和3個(gè)全連接層組成。對(duì)于4個(gè)卷積層,將所有卷積層的核大小設(shè)置為3,濾波器個(gè)數(shù)設(shè)置為256。對(duì)于3個(gè)全連接層,前兩個(gè)全連接層的輸出設(shè)置為1024,最后一個(gè)全連接層的輸出設(shè)置為類別的數(shù)量。
本文方法在訓(xùn)練階段輸入圖像的地面真值由以下部分組成:P={p1,p2…pm}和C={C1=(cc1,cl1),C2=(cc2,cl2),…,Cn=(ccn,cln)},其中pi表示的是文本實(shí)例區(qū)域,由一個(gè)多邊形框構(gòu)成。ccj和clj分別代表了字符像素對(duì)應(yīng)的位置與類別。首先用最小的水平矩形來(lái)覆蓋多邊形,然后遵循Faster R-CNN中的方法為RPN網(wǎng)絡(luò)和Fast R-CNN網(wǎng)絡(luò)生成目標(biāo)。其中地面真值P、C以及RPN提供的建議區(qū)域?yàn)镸ask Head生成兩種類型的目標(biāo):用于預(yù)測(cè)矩形區(qū)域中文本實(shí)例區(qū)域的文本概率圖和用于預(yù)測(cè)矩形區(qū)域中不同字符區(qū)域的字符實(shí)例概率圖。給定建議區(qū)域r,Mask Head參考文獻(xiàn)[13]的匹配機(jī)制獲得最佳水平矩形,相應(yīng)的文本實(shí)例區(qū)域和字符區(qū)域進(jìn)一步得到。然后將匹配的多邊形和字符框移動(dòng)并調(diào)整大小來(lái)對(duì)齊建議區(qū)域,目標(biāo)地圖的 的計(jì)算根據(jù)以下公式
Bx=(Bx0-min(rx))×W/(max(rx)-min(rx))
(2)
By=(By0-min(ry))×H/(max(ry)-min(ry))
(3)
其中(Bx,By)和(Bx0,By0)分別表示的是更新后的多邊形頂點(diǎn)和原始多邊形頂點(diǎn)。(rx,ry)是提議r的頂點(diǎn)。之后,在初始化為零的遮罩上規(guī)范化多邊形并填充多邊形區(qū)域值為1。字符實(shí)例的生成如下:通過(guò)固定字符邊界框的中心點(diǎn)并將其邊縮短到原始邊的四分之一來(lái)縮小所有字符邊界框,將縮小字符邊界框中的像素值設(shè)置為其相應(yīng)的類別索引,將縮小字符邊界框之外的像素值設(shè)置為0,如果沒(méi)有字符邊框批注,則所有值都設(shè)置為-1。
本文方法是多任務(wù)的,依據(jù)MaskR-CNN中損失函數(shù)的設(shè)計(jì)思路,本文方法加入全局文本實(shí)例分割損失和字符分割損失。損失函數(shù)如下
L=Lrpn+α1Lcls+α2Lbox+α3Lglobal+α4Lchar
(4)
其中Lrpn、Lcls和Lbox是RPN和FastR-CNN的損失函數(shù),Lglobal和Lchar參考文獻(xiàn)[9],表示實(shí)例分割損失和字符分割損失。
+(1-yn)×log(1-S(xn))]
(5)
對(duì)于Lglobal,N表示全局文本地圖的像素總數(shù),yn(yn∈(0,1))代表像素標(biāo)簽,xn表示輸出N的像素。
(6)
(7)
對(duì)于Lchar,T表示類別數(shù),N表示每張地圖的像素?cái)?shù),其中輸出的地圖X可以看作為一個(gè)N×T的矩陣。其中Y對(duì)應(yīng)于地面真值X,權(quán)重W用于平衡字符類和背景類的損失值,Nneg表示背景像素的數(shù)量,其權(quán)重可以通過(guò)式(7)計(jì)算得出。
了驗(yàn)證本文方法的性能,該模型在ICDAR2013、ICDAR2015和Total-Text三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中ICDAR2013和ICDAR2015是主要的線性文本檢測(cè)與識(shí)別數(shù)據(jù)集,Total-text為彎曲文本檢測(cè)與識(shí)別的重要數(shù)據(jù)集。
1)Synth-Text:該數(shù)據(jù)集是一個(gè)合成的數(shù)據(jù)集,包括大約80K張圖片。在數(shù)據(jù)集中大部分文本實(shí)例都是多方向的。
2)ICDAR2013:該數(shù)據(jù)集是2013年ICDAR 舉行的穩(wěn)健閱讀競(jìng)賽(robust reading competition,簡(jiǎn)稱RRC)所提供的公共數(shù)據(jù)集。數(shù)據(jù)集的圖片包含路標(biāo)、書(shū)籍封面和廣告牌等清晰的場(chǎng)景文本(focused scene text)圖片,專注于水平文本的檢測(cè)與識(shí)別,如圖7所示。
3)ICDAR2015:該數(shù)據(jù)集是2015年ICDAR在RRC中增加的偶然場(chǎng)景文本(incidental scene text)閱讀競(jìng)賽提供的公共數(shù)據(jù)集,數(shù)據(jù)集是由 Google Glass 在未聚焦的情況下隨機(jī)拍攝的街頭或者商場(chǎng)圖片,旨在幫助文本檢測(cè)和識(shí)別模型提高泛化性能,如圖8所示。
4)Total-Text:彎曲的文字是一個(gè)很容易被忽視的問(wèn)題,Total-Text是一個(gè)針對(duì)曲線文本檢測(cè)的公開(kāi)數(shù)據(jù)集,數(shù)據(jù)集圖片中包含商業(yè)標(biāo)識(shí)、標(biāo)志入口等現(xiàn)實(shí)生活場(chǎng)景中的彎曲文本。該與ICDAR數(shù)據(jù)集不同,該數(shù)據(jù)集有大量面向曲線的文本和多方向的文本,如圖9所示。
目前文本檢測(cè)性能主要包括3個(gè)評(píng)價(jià)指標(biāo):召回率(Recall,R)、準(zhǔn)確率(Precision,P)和綜合評(píng)價(jià)指標(biāo)(F-Measure,F(xiàn)),如式(8)(9)(10)。此外,利用表征檢測(cè)速度的參數(shù)即每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)作為效率參考標(biāo)準(zhǔn)。
(8)
(9)
(10)
其中TP、FP和FN分別代表的是命中框的數(shù)量、錯(cuò)誤框的數(shù)量和遺漏框的數(shù)量。文本識(shí)別的評(píng)估方式分為兩類:End-to-End 和Word Spotting,其中End-to-End 表示檢測(cè)并識(shí)別圖像中的文本,Word Spotting 表示檢測(cè)并識(shí)別詞匯表單詞(將圖像中包含非法字符的文本視為無(wú)關(guān)文本)。與文本識(shí)別類似,端到端的文本識(shí)別任務(wù)提供3種不同的約束詞匯表:
1)Strong(S):每張圖像的強(qiáng)語(yǔ)境詞匯表(100個(gè)單詞),包括圖像中的所有單詞以及從訓(xùn)練或測(cè)試集的其余部分選擇的干擾詞。
2)Weak(W):包括訓(xùn)練和測(cè)試集中所有單詞的弱語(yǔ)境詞匯表。
3)Generic(G):源自Jaderberg等人的數(shù)據(jù)集,大約 90k 單詞的通用詞匯表。
文本識(shí)別的訓(xùn)練方法大多使用兩個(gè)不同的模塊來(lái)訓(xùn)練樣本即文本檢測(cè)與文本識(shí)別,或者使用交替訓(xùn)練的方式。本文方法的所有子網(wǎng)絡(luò)都以端到端的形式訓(xùn)練。整個(gè)訓(xùn)練步驟包括兩步:在Synth-Text數(shù)據(jù)集中與訓(xùn)練和在真實(shí)單詞數(shù)據(jù)集中調(diào)整。
在訓(xùn)練階中,首先采用小批量迭代法訓(xùn)練,mini-batch設(shè)置為8,并且將所有輸入圖像的短邊調(diào)整為800像素,同時(shí)保持圖片方向不變。其中RPN和Fast R-CNN的batch-size設(shè)置為256和512,每張圖片正負(fù)樣本比設(shè)為1:3。在Mask Head分支中batch-size設(shè)置為16。在微調(diào)階段,由于缺乏真實(shí)樣本,因此采用了數(shù)據(jù)擴(kuò)充和多尺度訓(xùn)練技術(shù),具體地說(shuō),對(duì)于數(shù)據(jù)增強(qiáng),將輸入的圖片隨機(jī)旋轉(zhuǎn)到某個(gè)角度范圍,然后加入一些其它增強(qiáng)技巧,如隨機(jī)修改色調(diào)、亮度、對(duì)比度等。在多尺度訓(xùn)練中,輸入圖像的短邊隨機(jī)調(diào)整為三個(gè)尺度600、800、1000。另外,使用額外的1162張來(lái)自文獻(xiàn)[14]的用于字符檢測(cè)的圖像作為訓(xùn)練樣本,mini-batch保持為8,且在每一個(gè)mini-batch中,Synth-Text、ICDAR2013、ICDAR2015、Total-Text和額外圖像的不同數(shù)據(jù)集的采樣比例分別設(shè)置為4:1:1:1:1。
使用SGD優(yōu)化本文模型,在預(yù)訓(xùn)練階段,訓(xùn)練模型進(jìn)行180k次迭代,初始學(xué)習(xí)率為0.005,在120k次迭代時(shí),學(xué)習(xí)率衰減到十分之一。在微調(diào)階段,初始學(xué)習(xí)率設(shè)置為0.001,在60k迭代時(shí)降低到0.0001,微調(diào)過(guò)程在80k迭代結(jié)束。
圖7 ICDAR2013數(shù)據(jù)集
圖8 ICDAR2015數(shù)據(jù)集
在測(cè)試階段,針對(duì)自然場(chǎng)景中的水平文本、多方向文本和不規(guī)則文本,本文方法分別在ICDAR2013、ICDAR2015和Total-Text數(shù)據(jù)集上評(píng)估它的性能,用準(zhǔn)確率(P)、召回率(R)、綜合評(píng)價(jià)指標(biāo)(F)和檢測(cè)時(shí)間(幀/秒,F(xiàn)PS)評(píng)價(jià)該方法的性能,S、W、G分別表示Strong、Weak、Generic三種不同的約束詞匯表,最優(yōu)結(jié)果用黑體加粗標(biāo)注,實(shí)驗(yàn)結(jié)果如圖(10-12)所示。
1)水平文本
針對(duì)水平文本,實(shí)驗(yàn)中輸入圖像的短邊長(zhǎng)度統(tǒng)一設(shè)置為1000像素,其次將本文模型與5個(gè)檢測(cè)器進(jìn)行比較,包括Textboxes[15]、Deep TextSpotter[16]、Li et al.[17]、Mask TextSpotter[9],Text Perceptron[7],對(duì)比結(jié)果如表1和表2所示。
圖9 Total-text數(shù)據(jù)集
即使只是在單尺度上檢測(cè),本文方法在準(zhǔn)確率、召回率和綜合評(píng)價(jià)三個(gè)指標(biāo)下均優(yōu)于之前提出的一些方法[7,9],達(dá)到了95.1%,90.9%,92.9%。尤其在召回率方面,超出最先進(jìn)的檢測(cè)模型Mask TextSpotter1.4%,在保證檢測(cè)效果的同時(shí),本文方法的時(shí)間損耗同樣良好,F(xiàn)PS為2.9。如表2所示,在數(shù)據(jù)集ICDAR2013的識(shí)別測(cè)試中,基于End-to-End的評(píng)估方式下,本文方法的文本識(shí)別性能在Strong、Weak、Generic三種不同的約束詞匯表中均優(yōu)于其它先進(jìn)的模型,綜合指標(biāo)分別達(dá)到了94.8%、92.1%、88.7%。
2)多方向文本
針對(duì)多方向文本,實(shí)驗(yàn)中輸入圖像的短邊長(zhǎng)度統(tǒng)一設(shè)置為1600像素,其次將本文方法與5個(gè)檢測(cè)器進(jìn)行比較,包括TextSpotter[18]、StradVision[19]、Deep TextSpotter[16]、Mask TextSpotter[9]、Text Perceptron[7],對(duì)比結(jié)果如表1和表3所示。
表1 在數(shù)據(jù)集ICDAR2013和ICDAR2015上文本檢測(cè)結(jié)果
表2 ICDAR2013數(shù)據(jù)集評(píng)估結(jié)果
表3 ICDAR2015數(shù)據(jù)集評(píng)估結(jié)果
表4 Total-Text數(shù)據(jù)集上的評(píng)估結(jié)果
圖10 ICDAR 2013數(shù)據(jù)集上的文本檢測(cè)與識(shí)別可視化結(jié)果
圖11 ICDAR 2015數(shù)據(jù)集上的文本檢測(cè)與識(shí)別的可視化結(jié)果
圖12 Total-Text數(shù)據(jù)集上文本檢測(cè)與識(shí)別的可視化結(jié)果
在召回率方面,本文方法比最先進(jìn)的Mask TextSpotter的87.3%還有所提升,召回率達(dá)到了90.6%。如表3所示,在數(shù)據(jù)集ICDAR2015的識(shí)別測(cè)試中,基于End-to-End的評(píng)估方式下,指標(biāo)比之前的網(wǎng)絡(luò)都要優(yōu)秀,綜合指標(biāo)達(dá)到了84.6%,78.9%和74.6%。
3)不規(guī)則文本
針對(duì)不規(guī)則文本,實(shí)驗(yàn)中輸入圖像的短邊長(zhǎng)度統(tǒng)一設(shè)置為1000像素,然后將本文方法與5個(gè)檢測(cè)器進(jìn)行比較,包括Ch′Ng et al.[20]、Liao et al.[15]、Mask TextSpotter[9],Char-Net[21],TextDragon[8],對(duì)比結(jié)果如表4所示。結(jié)果表明本文方法在不規(guī)則文本的檢測(cè)與識(shí)別上表現(xiàn)更優(yōu)異,準(zhǔn)確率、召回率、平均調(diào)和都有顯著性提高。雖然本文方法在檢測(cè)方面的性能次于最先進(jìn)的文本檢測(cè)模型Char-Net[21],但是文中網(wǎng)絡(luò)的綜合指標(biāo)是表現(xiàn)最好的網(wǎng)路之一,基于端到端的評(píng)估方式下,相較于Char-Net[21]提高了6.6%,比表現(xiàn)最優(yōu)的TextDragon[8]高出1%,綜合指標(biāo)達(dá)到了75.8%。
為了說(shuō)明本文方法設(shè)計(jì)的每個(gè)模塊對(duì)最終結(jié)果是否為正相關(guān),本文將進(jìn)行消融實(shí)驗(yàn)加以驗(yàn)證。本文以Mask R-CNN為基礎(chǔ)框架,引入FPN以滿足適合各尺度文本檢測(cè)要求;針對(duì)自然場(chǎng)景中文本內(nèi)容檢測(cè)不完整、假陽(yáng)性等問(wèn)題,提出重評(píng)分機(jī)制。
消融實(shí)驗(yàn)在Total-Text數(shù)據(jù)集進(jìn)行,從Mask R-CNN開(kāi)始逐步融合各個(gè)模塊并計(jì)算出對(duì)應(yīng)的準(zhǔn)確率、召回率與F值,實(shí)驗(yàn)結(jié)果如表5所示。實(shí)驗(yàn)過(guò)程其它參數(shù)均保持一致。
通過(guò)表5發(fā)現(xiàn),F(xiàn)PN網(wǎng)路中加入{P6}層,使本文方法召回率和F值分別提高了3.2%和1.6%,但準(zhǔn)確率下降了2.3%,經(jīng)分析由于{P6}層的增加擴(kuò)大了模型的感受野,使得更多較大的文本得到檢測(cè),但{P6}也會(huì)相對(duì)應(yīng)地增加干擾區(qū)域?qū)е聹?zhǔn)確率下降;最后完整地使用FPN網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò),通過(guò)重新評(píng)估文本掩膜的質(zhì)量使得文本區(qū)域減少各種因素的干擾。準(zhǔn)確率、召回率和F值分別達(dá)到72.3%、64.2%和68.0%。
表5 消融實(shí)驗(yàn)結(jié)果
檢測(cè)結(jié)果與對(duì)比圖如圖13所示,可以發(fā)現(xiàn)本文方法可以完整地檢測(cè)到文本區(qū)域,且未出現(xiàn)漏檢;對(duì)比其它模型的檢測(cè)結(jié)果,本文檢測(cè)到的文本區(qū)域更加精確、更加貼合實(shí)際的文本邊界。綜上所述,可見(jiàn)文本檢測(cè)準(zhǔn)確度的提高主要來(lái)源于更精確的定位輸出,即使用FPN結(jié)構(gòu)使得小文本得到一定程度檢測(cè),而文本檢測(cè)召回率的提高主要來(lái)源于對(duì)字符掩膜的評(píng)分,正確的評(píng)分帶來(lái)更加準(zhǔn)確的文本檢測(cè)。
圖13 消融實(shí)驗(yàn)可視化結(jié)果
本文提出了嵌入重評(píng)分機(jī)制的自然場(chǎng)景文本檢測(cè)方法,一個(gè)用于自然場(chǎng)景文本檢測(cè)與識(shí)別的端到端網(wǎng)絡(luò)。它在復(fù)雜多變的背景下可以高效的檢測(cè)出文本并分割出字符。與近些提出的文本識(shí)別模型相比,本文模型訓(xùn)練簡(jiǎn)單,識(shí)別速率快,且有能力檢測(cè)與識(shí)別自然場(chǎng)景中的不規(guī)則文本。在展開(kāi)的實(shí)驗(yàn)中,該模型在水平文本、多方向文本、不規(guī)則文本等數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn),提高了識(shí)別準(zhǔn)確率的同時(shí)還大幅度降低了假陽(yáng)性,在文本檢測(cè)和端到端識(shí)別方面展現(xiàn)出了高效率與魯棒性。在未來(lái)的工作中,將嘗試優(yōu)化該模型來(lái)提高文本檢測(cè)的速率以實(shí)現(xiàn)在現(xiàn)實(shí)生活中的應(yīng)用,其次,針對(duì)現(xiàn)階段該模型只能夠處理英文文本,探索中文文本的識(shí)別也是一項(xiàng)重要的工作。