袁建平,陳曉龍,陳顯龍,何恩杰,張加其,高宇豆
基于文本與視覺信息的細(xì)粒度圖像分類
袁建平1,陳曉龍1,陳顯龍1,何恩杰1,張加其2,高宇豆2
(1. 北京恒華偉業(yè)科技股份有限公司,北京 100011;2. 華北電力大學(xué)控制與計算機(jī)工程學(xué)院,北京 102206)
一般細(xì)粒度圖像分類只關(guān)注圖像局部視覺信息,但在一些問題中圖像局部的文本信息對圖像分類結(jié)果有直接幫助,通過提取圖像文本語義信息可以進(jìn)一步提升圖像細(xì)分類效果。我們綜合考慮了圖像視覺信息與圖像局部文本信息,提出一個端到端的分類模型來解決細(xì)粒度圖像分類問題。一方面使用深度卷積神經(jīng)網(wǎng)絡(luò)獲取圖像視覺特征,另一方面依據(jù)提出的端到端文本識別網(wǎng)絡(luò),提取圖像的文本信息,再通過相關(guān)性計算模塊合并視覺特征與文本特征,送入分類網(wǎng)絡(luò)。最終在公共數(shù)據(jù)集Con-Text上測試該方法在圖像細(xì)分類中的結(jié)果,同時也在SVT數(shù)據(jù)集上驗證端到端文本識別網(wǎng)絡(luò)的能力,均較之前方法獲得更好的效果。
計算機(jī)視覺;細(xì)粒度圖像分類;場景文本識別;卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制
圖像分類是計算機(jī)視覺領(lǐng)域的一個經(jīng)典研究課題,其中細(xì)粒度圖像分類是一項極具挑戰(zhàn)的研究任務(wù)。不同于一般粗粒度圖像分類任務(wù),細(xì)粒度圖像的類別精度更加細(xì)致,類間差異更加細(xì)微,往往只能借助于微小的局部差異才能區(qū)分出不同的類別。與人臉識別等對象級分類任務(wù)相比,細(xì)粒度圖像的類內(nèi)差異更加巨大,存在著姿態(tài)、光照、遮擋、背景干擾等諸多不確定因素,分類任務(wù)難度較大。而細(xì)粒度圖像分類無論在學(xué)術(shù)界還是工業(yè)界都有著廣泛的研究需求與應(yīng)用場景[1]。例如在生態(tài)保護(hù)中,需要有效識別不同種類生物,之前都只能依賴專家知識,研究成本大。如果能實(shí)現(xiàn)低成本細(xì)粒度圖像分類,那么無論對學(xué)術(shù)界還是工業(yè)界都有非常重要的意義。
對于細(xì)粒度圖像,能夠幫助圖像分類的信息往往只存在于很細(xì)小的局部區(qū)域中。因此,如何找到并有效利用有用的局部區(qū)域信息,成為了決定細(xì)粒度圖像分類算法成功與否的關(guān)鍵所在。早期的方法嚴(yán)重依賴人工標(biāo)注信息,包括標(biāo)注框(bounding box)和局部區(qū)域位置(part locations)等,同時使用了人工提取的圖像特征,很大程度上制約了該算法的實(shí)用性。近年來,深度學(xué)習(xí)日益發(fā)展,使得之前很多研究問題有了新的解決方法。越來越多的研究不使用標(biāo)注信息,僅僅使用圖像標(biāo)簽來進(jìn)行圖像分類,并且從深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural network,DCNN)中提取特征,比人工特征擁有更強(qiáng)大的描述能力[2]。之后DONAHUE等[3]提出DeCAF,將大數(shù)據(jù)集上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)遷移到小數(shù)據(jù)集上再訓(xùn)練,結(jié)果在鳥類數(shù)據(jù)庫圖像細(xì)分類任務(wù)中表現(xiàn)不錯。在使用深度學(xué)習(xí)方法基礎(chǔ)上,一些圖像細(xì)分類問題中,局部信息包含大量與圖像類別之間有關(guān)聯(lián)關(guān)系的文字,因此本文將圖像視覺信息與圖像中局部文字信息結(jié)合,共同參與細(xì)粒度圖像分類。同時圖像文本之間有一定的語義信息,而該信息能夠更好地反映圖像的類別。
本文設(shè)計了一個端到端的訓(xùn)練模型,幫助進(jìn)一步提升圖像細(xì)分類的效果。模型首先使用DCNN提取圖像的視覺信息,再利用基于注意力機(jī)制的文本識別網(wǎng)絡(luò)從圖像局部區(qū)域(圖像的文字區(qū)域)提取文字信息,然后使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本之間信息,計算文本行與圖像相關(guān)性,剔除不相關(guān)文本串,最后結(jié)合視覺特征信息與文本特征信息獲得圖像最終的分類結(jié)果。
由于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)在圖像問題上具有天然優(yōu)勢,加上最近幾年DCNN的快速發(fā)展,出現(xiàn)了很多優(yōu)秀的卷積網(wǎng)絡(luò)模型,使得基于DCNN的圖像分類算法效果越來越好。雖然CNN模型對于粗粒度的圖像分類可以獲得很好的分類效果,但是對于細(xì)粒度圖像分類目前仍然是一個具有挑戰(zhàn)性的任務(wù)。目前對于細(xì)粒度圖像分類問題,主要分為基于強(qiáng)監(jiān)督信息和弱監(jiān)督信息2類模型。其中基于強(qiáng)監(jiān)督信息的細(xì)粒度分類模型,如:基于部分的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型(part-based regions with convolution neural network,Part-based R-CNN)4],該模型利用R-CNN算法對細(xì)粒度圖像進(jìn)行物體級別(如鳥)與其局部區(qū)域(頭、身體等部位)的檢測,但Part-based R-CNN在訓(xùn)練和測試時都需要借助邊界框和標(biāo)注點(diǎn),限制了其在實(shí)際場景中的應(yīng)用?;谌醣O(jiān)督信息的細(xì)粒度圖像分類模型,如:基于整體與部分兩層的注意力模型(two level attention model)[5],主要關(guān)注物體主體和部分2個不同層次的特征,同時模型并不需要數(shù)據(jù)集提供標(biāo)注信息,完全依賴于本身的算法來完成物體和局部區(qū)域的檢測。最近提出的一種基于弱監(jiān)督信息分類模型(object-part attention driven discriminative localization for fine-grained image classification,OPADDL)[6]不需要大量邊界框與標(biāo)注點(diǎn)即可檢測到目標(biāo)區(qū)域,同時保持了對象主體與部分之間的關(guān)聯(lián)性,防止生成的多個部分包含大量背景區(qū)域的同時,又防止區(qū)域之間互相嚴(yán)重重疊。這些工作對細(xì)粒度對象分類有一定的幫助,但并未考慮將圖像中的文本信息用于圖像分類。文獻(xiàn)[7]雖然將視覺信息與文本信息結(jié)合應(yīng)用到圖像細(xì)分類問題中,并提出一個端到端的分類網(wǎng)絡(luò)獲得較好的效果,但是只考慮到圖像中單詞與圖像之間的關(guān)系。本文在其模型基礎(chǔ)上做出改進(jìn),將圖像中的文字之間的關(guān)系考慮進(jìn)來,進(jìn)一步提升模型細(xì)分類的能力。
文本檢測與識別問題在深度學(xué)習(xí)方法出現(xiàn)之前,手工提取特征為主要解決問題的思路。期間組件級別(如筆畫寬度變換,stroke width transform,SWT[8]),最大極致穩(wěn)定區(qū)域(maximally stable extremal regions,MSER[9])、字符級別[10]都是通過手工定義特征,包括基于連通區(qū)域的方法,以及基于方向梯度直方圖(histogram of oriented gradient, HOG)特征的檢測框描述方法。而深度學(xué)習(xí)方法之后,擺脫了手工定義特征繁瑣的工作,使得效率獲得很大的提升。目前文本檢測模型在深度學(xué)習(xí)中主要基于建議區(qū)間與基于圖像分割2種方向。其中前者使用比較廣泛。
在基于建議區(qū)間的方法中,如:基于聯(lián)結(jié)主義的文本區(qū)間建議網(wǎng)絡(luò)(connectionist text proposal network,CTPN)[11]、基于快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster regions with convolution neural network,F(xiàn)aster R-CNN)的方法,針對文字形狀和一般物體形狀的區(qū)別,實(shí)現(xiàn)了文字水平方向上非常好的識別效果。文獻(xiàn)[12]實(shí)現(xiàn)了文本端到端的識別,提出了針對文字串的對稱性特征,與傳統(tǒng)方法不同,不通過檢測字符、筆畫來確定文字區(qū)域,而是直接檢測文字串,但該方法速度很慢。而文獻(xiàn)[13]將Faster R-CNN中的感興趣區(qū)域池化層(regions of interest,RoI pooling)替換為可快速計算任意方向的模塊,對文本進(jìn)行自動處理,提升了檢測速度。另有文獻(xiàn)[14]考慮到文本在圖像中更多的是不規(guī)則多邊形輪廓,提出在生成建議框之后回歸一個任意多邊形而不是去回歸一個矩形框,并且在單方向多框架檢測(single shot multi box detector,SSD)[15]的框架基礎(chǔ)上,將回歸邊界框和匹配都加入到網(wǎng)絡(luò)結(jié)構(gòu)中,取得了較好的識別效果并且兼顧了速度?;趫D像分割的方法中,同樣有很多不錯的方法。比如,文獻(xiàn)[16]將文本行視為一個需要分割的目標(biāo),通過分割得到文字的顯著性區(qū)域(salience map),獲取到文字大概位置、整體方向及排列方式,再結(jié)合其他特征進(jìn)行高效的文字檢測。同時CNN可以同時預(yù)測字符的位置及字符之間的連接關(guān)系,這對定位文字具有很好的幫助。在實(shí)現(xiàn)文本端到端的識別問題中,目前文獻(xiàn)[17]獲得了較先進(jìn)的結(jié)果,其基于Faster R-CNN將文本檢測網(wǎng)絡(luò)與文本識別網(wǎng)絡(luò)整合到一起,實(shí)現(xiàn)端到端的文本識別,同時將注意力機(jī)制[18]用于自己的文本識別網(wǎng)絡(luò)中。本文在文 獻(xiàn)[17]提出的識別模型基礎(chǔ)上,將文本檢測網(wǎng)絡(luò)CTPN與基于注意力(attention)的序列到序列文本識別網(wǎng)絡(luò)整合設(shè)計,提出一種端到端的文本識別網(wǎng)絡(luò),用于提取圖像中的文本信息。
在引入注意力機(jī)制之前,圖像識別或語言翻譯都是直接把完整的圖像或語句直接輸入,然后給出輸出結(jié)果。如果圖像縮放成固定大小,便會引起信息的丟失,為此引入注意力機(jī)制使得模型關(guān)注更加感興趣的地方[19]。注意力機(jī)制廣泛應(yīng)用于多個領(lǐng)域,如自然語言處理、語音識別、機(jī)器翻譯、文本識別等,目前大多數(shù)注意力模型都附著在編碼-解碼(encoder-decoder)框架下,如文獻(xiàn)[20]將注意力機(jī)制用于文本識別方面,使用的就是這樣的架構(gòu)。在文本處理和語音識別方面,encoder 部分通常采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,圖像處理方面一般采用 CNN 模型。同時注意力機(jī)制也在計算機(jī)視覺領(lǐng)域中引起越來越多的關(guān)注。在計算機(jī)視覺領(lǐng)域,注意力機(jī)制有各種不同形式的實(shí)現(xiàn),可以大致分為軟注意力機(jī)制(soft attention)和硬注意力機(jī)制(hard attention)。Soft attention如文獻(xiàn)[18],其是可微的,可以通過反向傳播訓(xùn)練。而Hard attention 需要預(yù)測關(guān)注的區(qū)域,通常使用強(qiáng)化學(xué)習(xí)來訓(xùn)練。在文獻(xiàn)[7]中引入注意力機(jī)制自動分析文本與圖像之間的相關(guān)性,有助于選擇圖像中相關(guān)性最大的單詞來進(jìn)行細(xì)粒度的分類。本文在文本識別網(wǎng)絡(luò)與文本相關(guān)性計算都應(yīng)用注意力機(jī)制,在文本識別中,主要目的是快速學(xué)習(xí)文本序列,而文本與圖像關(guān)系中,主要是學(xué)習(xí)與圖像相關(guān)度最大的文本,去除圖像本身或文本識別過程中的噪音。
本文模型主要分為視覺特征提取、端到端文本識別與基于注意力機(jī)制的文本相關(guān)性計算3個模塊。模型主要架構(gòu)圖如圖1所示。
圖1 模型主架構(gòu)圖
(1) 使用預(yù)訓(xùn)練的DCNN提取圖像的視覺特征,同時為了最大程度減少計算量,該視覺特征又共享到文本識別網(wǎng)絡(luò)與最后的分類網(wǎng)絡(luò)中。其中在視覺特征提取模塊中,本文使用預(yù)訓(xùn)練的DCNN模型,但只保留特征提取部分。
(2) 視覺特征傳輸?shù)蕉说蕉说奈谋咀R別網(wǎng)絡(luò)(end-to-end recognition network),不同于一般的文本識別網(wǎng)絡(luò)將文本檢測與文本識別分開,在本文中使用一種端到端的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)以CPTN[11]網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),添加基于注意力的文字識別網(wǎng)絡(luò),完成對圖像文字的端對端識別。文本檢測網(wǎng)絡(luò)(text detection network,TDN)模塊主要實(shí)現(xiàn)圖像的文本檢測,RoI pooling主要將檢測到的文本區(qū)域與視覺特征結(jié)合,并送入文本識別網(wǎng)絡(luò)(text recognition network,TRN)模塊進(jìn)行文本識別。
(3) 將識別到的文本行信息送入相關(guān)性計算模塊(correlation calculation)中,模塊給出文本與圖像的相關(guān)權(quán)重,同時去除識別噪聲。
(4) 將圖像視覺信息與文本信息共同送入分類網(wǎng)絡(luò),獲得最終的圖像分類結(jié)果。
視覺幾何組網(wǎng)絡(luò)(visual geometry group net,VGGNet)是從亞歷克斯網(wǎng)絡(luò)(Alex-net)發(fā)展而來,其在基礎(chǔ)的DCNN上做了改進(jìn),使用更小的濾波器尺寸和間隔,同時在整個圖片和多尺度上訓(xùn)練和測試圖片。其中使用多個小尺寸濾波器組合相比一個大尺寸濾波器效果要好。主要表想在:
(1) 多個卷積層與非線性的激活層交替的結(jié)構(gòu),比單一卷積層的結(jié)構(gòu)更能提取出深層的更好的特征。
(2) 若所有的數(shù)據(jù)有個通道,那么單獨(dú)的7×7卷積層將會包含7×7×=49個參數(shù),而3個3×3的卷積層的組合僅有個3×(3×3×)=27個參數(shù)。由此可以看出選擇小濾波器的卷積組合更能表示特征。
(3) VGGNet中使用了1×1的濾波器,能在不影響輸入輸出維數(shù)的情況下,對輸入線進(jìn)行線性形變,然后通過Relu進(jìn)行非線性處理,進(jìn)而增加網(wǎng)絡(luò)的非線性表達(dá)能力。
正是由于其在少量參數(shù)下模型優(yōu)秀的表征能力,本文使用預(yù)訓(xùn)練的VGGNet16網(wǎng)絡(luò)模型提取圖像的表示特征,并同時舍棄VGGNet網(wǎng)絡(luò)模型中的全連接層,主要由于VGGNet模型中全連接層參數(shù)占很大一部分,而去掉全連接層又對模型表征能力沒有什么影響。通過DCNN提取的特征在本文模型后續(xù)計算中有很大的幫助,一方面圖像表示特征被送入文本檢測與識別網(wǎng)絡(luò),用來確定圖像中的文字區(qū)域以及識別文本,另一方面特征又被送入相關(guān)度度量模塊計算圖像文本與圖像的相關(guān)度,最后又送入分類網(wǎng)絡(luò)進(jìn)行信息融合分類。
TDN以Faster RCNN網(wǎng)絡(luò)為基礎(chǔ),參考CTPN網(wǎng)絡(luò)結(jié)構(gòu)。CTPN模型是第一個將RNN引入檢測問題,使得對圖像的檢測結(jié)果不是在字符級別,而是在行級別,對于學(xué)習(xí)圖像中的文本語義信息更有幫助。檢測網(wǎng)絡(luò)的主要結(jié)構(gòu)圖如圖2所示。
圖2 文本區(qū)域檢測模型圖
(1) 使用VGGNet16網(wǎng)絡(luò)獲得卷積層輸出的特征圖(××,對應(yīng)寬度×高度×通道數(shù))。在輸出特征圖的每個位置上取3×3×的窗口的特征,用于預(yù)測該位置k(本文設(shè)置k=10)個anchor(anchor的定義和Faster RCNN類似)對應(yīng)的類別信息、位置信息。
(2) 將每行的所有窗口對應(yīng)的3×3×的特征(×3×3×)輸入到雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BLSTM)中,得到×256的輸出。將BLSTM的×256輸入到512維的全連接層。
(3) 全連接層再將特征輸入到3個分類層中。2k scores表示的是k個anchor的類別信息(不同于Faster RCNN,本文只有2類,字符與非字符)。2k vertical coordinate和k side-refinement是用來回歸k個anchor的位置信息。2k vertical coordinate表示邊界框的高度和中心點(diǎn)軸坐標(biāo)(以此決定上下邊界),個side-refinement表示邊界框的水平平移量。本文只用了3個參數(shù)表示回歸的bounding box,因為本文默認(rèn)了每個anchor的寬度是16,且不再變化。
(4) 將文本/非文本分?jǐn)?shù)大于0.7作為正錨點(diǎn),得到固定寬度的小規(guī)模文本建議框,再利用文本行構(gòu)造算法[11],將多個相鄰的文本建議合并成一個文本行用于后續(xù)的文本識別。
首先RoIpooling模塊依據(jù)回歸之后的文本建議框與卷積層輸出的特征圖得到要識別文本的特征;之后將高度固定、長度不同的文本特征送入BLSTM中獲取到固定長度()的文本特征表示,適應(yīng)不同長度的文本識別;將統(tǒng)一長度的文本特征送入圖3所示的文本識別模型中。
圖3 文本識別模型圖
文本識別模型主要基于軟注意力機(jī)制檢測窗口中的文本信息,其不用預(yù)先對文字進(jìn)行分割,并且可以通過反向傳播的方式優(yōu)化損失函數(shù)。模型具體流程如圖3。