王潤民 桑農(nóng) 丁丁 陳杰 葉齊祥 高常鑫 劉麗
文本作為人類文明的標(biāo)志、信息交流的載體,廣泛地存在于自然場景圖像中(如:路牌、商品名稱、車輛牌照等),相較圖像中的其他自然場景內(nèi)容(如:樹木、行人、建筑物等),自然場景文本具有更強(qiáng)的邏輯性與更概括的表達(dá)性,能更加有效地提供高層語義信息,準(zhǔn)確地識(shí)別圖像中的文本將有助于場景內(nèi)容的分析與理解.
基于文本具有高度的概括性和抽象的描述能力,自然場景文本檢測技術(shù)在智能交通系統(tǒng)[1?3]、視障人導(dǎo)盲[4?5]、基于內(nèi)容的圖像/視頻檢索[6]以及可穿戴/便攜式視覺系統(tǒng)[7?10]等方面具有重要的應(yīng)用.隨著互聯(lián)網(wǎng)技術(shù)以及便攜式移動(dòng)設(shè)備的高速發(fā)展,越來越多的應(yīng)用場景需要利用圖像中的文本信息.目前自然場景文本檢測已成為計(jì)算機(jī)視覺與模式識(shí)別、文檔分析與識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn),一些國際頂級(jí)會(huì)議,如:CVPR、ICCV、ECCV,已將自然場景文本檢測列為其重要主題之一.特別是自2003年以來,作為文檔分析與識(shí)別領(lǐng)域最重要的國際學(xué)術(shù)會(huì)議–文檔分析與識(shí)別國際會(huì)議(International Conference on Document Analysis and Recognition,ICDAR)定期組織自然場景文本檢測競賽,通過競賽對(duì)該領(lǐng)域研究現(xiàn)狀、發(fā)展趨勢(shì)進(jìn)行分析,及時(shí)地跟蹤并推動(dòng)該技術(shù)的研究發(fā)展.
目前,自然場景文本檢測問題已受到國內(nèi)外研究人員的廣泛關(guān)注,一些國外研究團(tuán)隊(duì),比如牛津大學(xué)視覺幾何組(Visual geometry group,VGG)、捷克理工大學(xué)機(jī)器感知中心Jiri Matas組、日本九州大學(xué)Seiichi Uchida組以及微軟亞洲研究院等,在該領(lǐng)域取得了一些里程碑式的研究成果.國內(nèi)研究機(jī)構(gòu)與學(xué)者在文檔分析與識(shí)別領(lǐng)域也發(fā)揮著舉足輕重的作用[11?21].一些國內(nèi)研究者,比如,中科院自動(dòng)化所劉成林研究員、華中科技大學(xué)白翔教授、北京科技大學(xué)殷緒成教授、華南理工大學(xué)金連文教授、中國科學(xué)院大學(xué)葉齊祥教授以及中科院深圳先進(jìn)技術(shù)研究院喬宇研究員、黃偉林博士等在歷屆ICDAR自然場景文本檢測競賽中獲得了令人矚目的成績.特別是,華中科技大學(xué)白翔教授受邀作為ICDAR自舉辦26年來以來第一位來自中國的主講嘉賓在日本京都舉辦的ICDAR 2017上作大會(huì)特邀報(bào)告,展現(xiàn)了中國學(xué)者在此領(lǐng)域的影響力.一些國內(nèi)研究機(jī)構(gòu),比如中科院自動(dòng)化所、北京大學(xué)、清華大學(xué)、華中科技大學(xué)、北京科技大學(xué)、三星中國研究院、騰訊、百度、曠視科技等,在ICDAR組織的一系列活動(dòng)中表現(xiàn)活躍.2011年,由清華大學(xué)與中科院自動(dòng)化所合辦的第十一屆文檔分析與識(shí)別國際會(huì)議(ICDAR 2011)在北京舉辦(ICDAR首次在國內(nèi)舉辦),清華大學(xué)丁曉青教授擔(dān)任了大會(huì)主席.2017年,由華中科技大學(xué)白翔教授等組織了ICDAR 2017自然場景中的中文文本識(shí)別競賽(RCTW-17),共有來自高校、企業(yè)的17支隊(duì)伍參賽了RCTW-17競賽1競賽結(jié)果鏈接:http://mclab.eic.hust.edu.cn/icdar2017chinese/result.html.2017年,中科院自動(dòng)化所劉成林研究員領(lǐng)導(dǎo)的模式分析與學(xué)習(xí)團(tuán)隊(duì)(PAL團(tuán)隊(duì))與法國拉羅切爾大學(xué)、三星中國研究院等單位合作舉辦了多語言場景文本檢測與語種判別的競賽,發(fā)布了包括9種語言,18000幅圖像的多語言場景文本數(shù)據(jù)庫.
國內(nèi)研究團(tuán)隊(duì)在包括 TPAMI、TIP、PR、CVPR等各類主流國際期刊、會(huì)議的投稿數(shù)量逐年增加[11?19],在本次ICDAR 2017會(huì)議中來自國內(nèi)學(xué)者的投稿論文數(shù)高居第一.此外,國內(nèi)研究團(tuán)隊(duì)在該領(lǐng)域各項(xiàng)競賽中也取得了矚目的成績,在第14屆國際文檔分析與識(shí)別會(huì)議(ICDAR 2017)所組織的各項(xiàng)技術(shù)競賽中,中科院自動(dòng)化所劉成林研究員領(lǐng)導(dǎo)的PAL團(tuán)隊(duì)在頁面目標(biāo)檢測、中世紀(jì)文檔版面分析、視頻阿拉伯文本檢測與識(shí)別、中文場景文本閱讀等競賽中獲得了8項(xiàng)任務(wù)的第一名、2項(xiàng)任務(wù)的第二名的突出成績.華南理工大學(xué)金連文教授帶領(lǐng)的團(tuán)隊(duì),通過構(gòu)建高性能的基于深度學(xué)習(xí)的文本檢測與識(shí)別系統(tǒng),在場景文本檢測,端到端場景文本檢測及識(shí)別兩項(xiàng)任務(wù)中取得第一名的好成績(后者較其他參賽團(tuán)隊(duì)具有明顯的優(yōu)勢(shì)),在語種分類任務(wù)中以0.4%的微弱差距位居第二名.北京科技大學(xué)殷緒成教授團(tuán)隊(duì)再次(連續(xù)三屆)榮獲魯棒閱讀競賽冠軍.
盡管國內(nèi)學(xué)者在自然場景文本檢測領(lǐng)域取得了一些令人矚目的成果,在本領(lǐng)域重要的外文期刊上也發(fā)表了英文綜述性論文[22?25],然而我們以自然場景文本檢測為關(guān)鍵詞在國內(nèi)中文期刊數(shù)據(jù)庫中進(jìn)行檢索時(shí)卻遺憾地發(fā)現(xiàn),除了出現(xiàn)個(gè)別手寫文本識(shí)別的綜述[26]外,關(guān)于自然場景文本檢測的中文綜述幾近空白.據(jù)我們所知,最近的英文綜述[22?25]發(fā)表至今已逾兩年,然而在這兩年以來,一些新的測試數(shù)據(jù)庫與一些新的檢測結(jié)果的推出,以及一些新型深度學(xué)習(xí)方法在自然場景文本檢測領(lǐng)域的應(yīng)用都極大地推動(dòng)了相關(guān)技術(shù)的發(fā)展.此外,計(jì)算機(jī)視覺領(lǐng)域中的一些新的研究成果,比如目標(biāo)顯著性檢測、視覺上下文等,也被引入到自然場景文本檢測領(lǐng)域,進(jìn)一步提升了文本檢測性能.基于上述情況,有必要對(duì)自然場景文本檢測領(lǐng)域的相關(guān)研究工作進(jìn)行全面綜述和討論.本文系統(tǒng)綜述了自然場景文本檢測技術(shù)的研究進(jìn)展和目前面臨的挑戰(zhàn)與困難,以期為研究人員進(jìn)一步深入研究自然場景文本檢測以及拓展其應(yīng)用領(lǐng)域提供幫助,并期待能夠啟發(fā)更多的創(chuàng)新性工作.
本文首先論述了自然場景文本檢測的研究背景、現(xiàn)狀、自然場景文本特點(diǎn)以及主要技術(shù)路線.接下來,梳理、分析并比較了各類自然場景文本檢測方法的動(dòng)機(jī)、原理、優(yōu)勢(shì)與不足,揭示了各類方法之間的區(qū)別與聯(lián)系.本文還介紹了端對(duì)端文本識(shí)別技術(shù),闡述并討論了文本顯著性、視覺上下文等其他領(lǐng)域知識(shí)在自然場景文本檢測中的應(yīng)用.此外,本文還論述了自然場景文本檢測技術(shù)所面臨的挑戰(zhàn),并探討了相應(yīng)的解決方案.列舉了測試基準(zhǔn)數(shù)據(jù)集、評(píng)估方法,將最具代表性的自然場景文本檢測方法的性能進(jìn)行了比較.最后,給出了我們對(duì)該領(lǐng)域發(fā)展的一些思考.
相對(duì)人臉檢測、印刷體文檔中的光學(xué)字符檢測等經(jīng)典問題,自然場景文本檢測研究還相對(duì)滯后,直到20世紀(jì)90年代中期才開始出現(xiàn)該領(lǐng)域的研究報(bào)道[27?29].目前,自然場景文本檢測已成為計(jì)算機(jī)視覺領(lǐng)域的熱門研究課題,吸引了國內(nèi)外眾多的研究機(jī)構(gòu)與學(xué)者開展該課題的研究.特別是國際文檔分析與識(shí)別會(huì)議(ICDAR)定期舉辦的各項(xiàng)技術(shù)競賽極大地推動(dòng)了該領(lǐng)域的發(fā)展,從而使得自然場景文本檢測技術(shù)的瓶頸與難題不斷地被突破.比如在2011年,ICDAR 2011自然場景文本檢測競賽冠軍[30]所獲得的結(jié)果為召回率(Recall)0.63,準(zhǔn)確率(Precision)0.83,綜合指標(biāo)(F-measure)0.71.而在2017年,文獻(xiàn)[31]公布其在ICDAR 2011自然場景文本檢測數(shù)據(jù)庫上所獲得的指標(biāo)為召回率(Recall)0.82,準(zhǔn)確率(Precision)0.89,綜合指標(biāo)(F-measure)0.86.再如在2015年,ICDAR 2015非受限環(huán)境下的自然場景文本(Incidental scene text)檢測(Task 4.1)競賽冠軍[32]的指標(biāo)為召回率(Recall)0.37,準(zhǔn)確率(Precision)0.77,綜合指標(biāo)(F-measure)0.50.在2017年,文獻(xiàn)[33]公布對(duì)ICDAR 2015非受限環(huán)境下的自然場景文本檢測(Task 4.1)所獲得的結(jié)果為召回率(Recall)0.77,準(zhǔn)確率(Precision)0.73,綜合指標(biāo)(F-measure)0.75.由此可見,自然場景文本檢測技術(shù)在近幾年取得了長足的發(fā)展.
目前針對(duì)自然場景文本處理的研究工作主要包括三個(gè)方面:自然場景文本檢測、自然場景文本識(shí)別、以及端對(duì)端(End-to-end)自然場景文本檢測與識(shí)別.分析2017年發(fā)表在CVPR、ICCV、NIPS、IJCAI、AAAI、ICDAR 等各類頂級(jí)會(huì)議上的相關(guān)論文,超過80%的自然場景文本檢測論文主要關(guān)注多方向排列的文本檢測問題,大部分文獻(xiàn)主要處理英文文本,較少的文獻(xiàn)涉及自然場景文本識(shí)別以及端對(duì)端自然場景文本檢測與識(shí)別問題.從自然場景文本檢測技術(shù)的處理對(duì)象來看,主要經(jīng)歷了水平方向排列的文本檢測[34?37]到多方向排列的文本檢測[15,33,38?42],從單一的英文、阿拉伯?dāng)?shù)字的文本檢測[34?36]到多語種的文本檢測[37,41,43?44].從自然場景文本檢測所采用的描述特征來看,主要經(jīng)歷了兩個(gè)階段:首先是基于傳統(tǒng)手工設(shè)計(jì)的特征(Handcraft features),然后在2014年前后出現(xiàn)了基于深度學(xué)習(xí)的自然場景文本檢測方法[19,31,45?49].一些深度學(xué)習(xí)技術(shù),比如:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)等在自然場景文本檢測領(lǐng)域得到了很好的應(yīng)用,目前采用深度學(xué)習(xí)方法檢測自然場景文本已成為了該領(lǐng)域研究的主要技術(shù)手段.
不同于印刷體文檔中的文本,自然場景文本的字體大小、顏色、排列方向、稀疏性、對(duì)比度等有著很大的差異.與此同時(shí),還受到光照變化、復(fù)雜背景、噪聲干擾、拍攝視角等方面的影響.盡管對(duì)僅包含英文與數(shù)字的ICDAR 2011數(shù)據(jù)集已取得綜合指標(biāo)(F-measure)0.86[31]以及ICDAR 2015數(shù)據(jù)集已取得綜合指標(biāo)(F-measure)0.81的性能[50],但從最近剛落幕的ICDAR 2017自然場景中的中文文本識(shí)別競賽(RCTW-17)[51]所公布的結(jié)果來看,競賽冠軍所取得的準(zhǔn)確率為0.74,召回率為0.59,綜合指標(biāo)為0.66.從上述文本檢測結(jié)果中不難發(fā)現(xiàn),現(xiàn)有的自然場景文本檢測技術(shù)受限于被檢測文本的語種、排列方向、數(shù)據(jù)集公布的時(shí)間、數(shù)據(jù)集的規(guī)模等,由此表明該技術(shù)的成熟度、魯棒性還遠(yuǎn)非達(dá)到實(shí)用水平.綜上所述,基于自然場景文本檢測技術(shù)的研究現(xiàn)狀以及該技術(shù)廣闊的應(yīng)用前景,對(duì)該領(lǐng)域的深入研究具有重要的理論意義與應(yīng)用價(jià)值.
圖像中的文本根據(jù)其形成方式可以劃分為場景文本和疊加文本[52].疊加文本是人們?yōu)榱四撤N目的而后期人為添加的注釋性內(nèi)容(比如新聞內(nèi)容摘要、影視臺(tái)詞、體育賽況介紹等,如圖1所示);場景文本作為固有的自然場景內(nèi)容隨機(jī)地存在于圖像當(dāng)中(比如道路指示牌、商品名稱、廣告牌等,如圖2所示2示例圖像源自ICDAR系列數(shù)據(jù)庫以及MSRA-TD500數(shù)據(jù)庫.).與疊加文本相比,自然場景文本在字體大小、類型、顏色、排列方向等方面具有更大的復(fù)雜性.自然場景文本區(qū)域的視覺特性主要體現(xiàn)在以下幾個(gè)方面:
1)對(duì)比度屬性:文本作為人類社會(huì)人際溝通的信息載體,可讀性是自然場景文本具有存在意義的基本要求.自然場景文本相對(duì)其背景區(qū)域而言,其灰度、顏色信息往往具有較明顯的對(duì)比度.
2)梯度、邊緣屬性:文本通常具有復(fù)雜的空間結(jié)構(gòu),因此文本區(qū)域往往存在相對(duì)密集的邊緣以及較明顯的梯度信息.
3)灰度、顏色屬性:為了視覺上的舒適性,往往選擇與背景有明顯反差的顏色進(jìn)行書寫,且文本的顏色與灰度分布均勻.
4)筆畫寬度屬性:盡管文本由不同的筆畫組成,但同一個(gè)文本中的筆畫寬度近似相等.
5)幾何大小屬性:自然場景文本具有任意的尺寸大小,但為了滿足人眼視覺要求,自然場景文本的尺寸通常滿足一定的變化范圍.
6)視覺上下文屬性:在同一個(gè)文本行區(qū)域內(nèi),相鄰文本之間具有筆畫寬度、顏色、高度以及像素灰度值相近等特點(diǎn).
7)空間分布屬性:文本在圖像中通常以文本行的形式存在,相鄰文本之間的排列方式是任意的,其間隔距離通常滿足一定的規(guī)律.
圖1 疊加文本示例Fig.1 Examples of overlay text
圖2 自然場景文本示例Fig.2 Examples of natural scene text
除了受到復(fù)雜背景、光照變化、拍攝視角等外界因素影響外,相比一般性物體檢測問題,自然場景文本檢測技術(shù)還面臨著自身特征的諸多挑戰(zhàn).
1)從文本的種類來看:自然場景文本包含了不同的語種,每一種語種包含了數(shù)量規(guī)模不等的文本類型,比如英文包括了52個(gè)大、小寫字母,而中文漢字所包含的文本類別則更多,僅1980年制定的國標(biāo)GB2312-80編碼就定義了多達(dá)6763類常用漢字,不同語種或者相同語種的不同文本類型之間的視覺特征具有很大的差異.
2)從文本排列方向來看:相鄰自然場景文本之間的排列是沿任意方向的,從而導(dǎo)致很難找到合適的描述特征與邊界框來表示文本區(qū)域.
3)從文本行的組成來看:自然場景文本行通常由不同類別的文本所構(gòu)成,盡管每一種文本具有固定的空間結(jié)構(gòu),但是將不同類別的文本組合成文本行時(shí)就會(huì)呈現(xiàn)出雜亂的視覺特征.正因?yàn)椴煌谋拘兄g的結(jié)構(gòu)共性很少,所以我們很難找到一個(gè)區(qū)分性好的描述特征來表達(dá)文本行區(qū)域.
4)從文本行的大小及長寬比來看:文本行大小不一,且其長度與寬度的比值也不確定.對(duì)文本行進(jìn)行檢測時(shí),我們不僅需要考慮尺度大小問題,而且還需要考慮文本行長寬比問題,從而大大增加了文本行檢測的難度.
5)從文本行檢測結(jié)果來看:文本行檢測通常需要檢測一個(gè)文本序列.根據(jù)算法性能評(píng)測要求(比如ICDAR競賽測評(píng)標(biāo)準(zhǔn)),所有的自然場景文本檢測算法需要得到以單詞為單元的檢測結(jié)果,而不同單詞包括的字符數(shù)有所不同,單詞之間的間隔距離也會(huì)經(jīng)常受到單個(gè)文本檢測結(jié)果的影響,因此自然場景文本檢測較傳統(tǒng)的獨(dú)立目標(biāo)檢測更具挑戰(zhàn)性.
20世紀(jì)90年代中期,文獻(xiàn)[27?29]等率先開展了自然場景文本檢測研究.經(jīng)過20余年的發(fā)展,該領(lǐng)域涌現(xiàn)出大量行之有效的解決方法.特別是近年來目標(biāo)檢測技術(shù)與語義分割技術(shù)的快速發(fā)展使得文本檢測領(lǐng)域取得了重大的突破.依據(jù)文本檢測技術(shù)的發(fā)展歷程及文本區(qū)域描述特征分類標(biāo)準(zhǔn),自然場景文本檢測方法大體上可以歸納為:1)傳統(tǒng)的自然場景文本檢測方法;2)基于深度學(xué)習(xí)的自然場景文本檢測方法.
傳統(tǒng)的自然場景文本檢測方法主要沿用兩條技術(shù)路線;基于連通域分析的方法和基于滑動(dòng)檢測窗的方法.該方法首先獲得文本候選區(qū)域,然后采用傳統(tǒng)手工設(shè)計(jì)的特征(Handcraft features)對(duì)所獲得的候選區(qū)域進(jìn)行驗(yàn)證,并最終獲得文本位置信息.
5.1.1 基于連通域分析的方法
基于連通域分析的方法采用自底向上策略檢測文本.從獲得連通域的途徑來看可以分為邊緣檢測方法和文本級(jí)檢測方法,該類方法通常先檢測得到單個(gè)文本,然后將相鄰文本進(jìn)行關(guān)聯(lián)形成文本行.
1)邊緣檢測方法
考慮到自然場景文本具有豐富的邊緣以及角點(diǎn)信息,該類方法主要通過檢測邊緣或者角點(diǎn)等方式來獲得文本候選區(qū)域,然后對(duì)所獲得的文本候選區(qū)域利用規(guī)則或者分類器進(jìn)行分類.文獻(xiàn)[38,53?57]等采用了一些邊緣檢測算子(如:Sobel,Canny等)檢測出圖像的邊緣信息,然后對(duì)邊緣圖像進(jìn)行形態(tài)學(xué)處理以剔除偽文本區(qū)域.文獻(xiàn)[55]首先提取水平、垂直、左上、右上方向邊緣圖像,然后基于上述邊緣圖像采用K均值(K-means)聚類方法獲得初始的文本區(qū)域檢測結(jié)果,最后對(duì)初始的檢測結(jié)果采用經(jīng)驗(yàn)規(guī)則以及投影分析來進(jìn)行驗(yàn)證.文獻(xiàn)[38]采用K均值聚類方法對(duì)傅里葉–拉普拉斯濾波處理后的圖像像素進(jìn)行分類從而獲得文本連通區(qū)域,通過對(duì)各個(gè)連通區(qū)域的骨架進(jìn)行分析,將連通區(qū)域分為“簡單”和“復(fù)雜”兩類,保留簡單的連通區(qū)域并對(duì)復(fù)雜的連通區(qū)域進(jìn)行進(jìn)一步分析,最后根據(jù)文本行平直度以及邊緣密度等特征對(duì)文本候選區(qū)域進(jìn)行判斷以去除背景區(qū)域.文獻(xiàn)[57]首先提取邊緣,然后通過候選邊緣重組以及識(shí)別的方法獲得文本區(qū)域.Busta等在文獻(xiàn)[53]中通過定制Fast角點(diǎn)使其更有利于場景文本檢測,根據(jù)文獻(xiàn)[53]報(bào)道的結(jié)果,該方法所獲得的場景文本檢測召回率(Recall)較傳統(tǒng)MSER方法高25%,且速度是傳統(tǒng)MSER方法的4倍以上.除此以外,Jiri Matas課題組還參與推出了COCO-Text自然場景文本數(shù)據(jù)集[58].
2)文本級(jí)檢測方法
該類方法利用自然場景文本通常具有像素灰度值近似相等、顏色近似相同以及筆畫寬度相近等特點(diǎn),對(duì)自然場景圖像進(jìn)行特定處理后,文本中的相鄰像素在其空間結(jié)構(gòu)上表現(xiàn)出連通性,該類方法通過檢測圖像中的連通區(qū)域來獲得文本候選區(qū)域.為了獲得文本連通區(qū)域,該類方法采取了許多行之有效的手段,比如極值區(qū)域(Extremal regions,ERs)[47,49,59]、最大穩(wěn)定極值區(qū)域(Maximally stable extremal regions,MSER)[18,60?64]、顏色對(duì)比度增強(qiáng)極值區(qū)域(Color-enhanced contrasting extremal region,CER)[47,65]、顏色聚類方法(Color clustering)[66?68]、筆畫寬度變換(Stroke width transform,SWT)[34,69?71]、筆畫特征變換(Stroke feature transform,SFT)[72]、級(jí)聯(lián)空間變換[43]、圖割二值化[35,73?74]、手工閾值分割[75]等.在文本級(jí)檢測方法中,首先將圖像分割成若干個(gè)連通區(qū)域,然后對(duì)每一個(gè)連通區(qū)域的幾何特征進(jìn)行分析,利用文本候選區(qū)域的邊緣密度[38]、前景像素密度[18]、長寬比[34]、文本候選區(qū)域緊致度[13]、輪廓梯度[13]、筆畫寬度變化率[18,34]、平均方向偏差[76]等特征通過設(shè)定判斷規(guī)則,或者提取文本區(qū)域的描述特征并結(jié)合已訓(xùn)練好的分類器對(duì)其進(jìn)行判斷,從而將之分類為文本區(qū)域與背景區(qū)域.
圖3 基于筆畫寬度變換的自然場景文本檢測[34]Fig.3 Natural scenes text detection based on stroke width transformation[34]
圖4 任意方向文本檢測方法[39]Fig.4 Detecting texts of arbitrary orientations in natural images[39]
在文本級(jí)檢測方法中,最為代表性的方法主要包括:筆畫寬度變換(SWT)[34]、最大穩(wěn)定極值區(qū)域(MSER)[60]等.筆畫寬度變換算法由Epshtein等[34]于2010年首次提出(如圖3所示),該方法主要利用了位于同一個(gè)文本中的筆畫具有寬度近似相等的性質(zhì)來獲取文本候選區(qū)域.在實(shí)施筆畫寬度變換的過程中,首先利用Canny算子對(duì)輸入圖像進(jìn)行邊緣檢測,并計(jì)算邊緣像素點(diǎn)的梯度方向,沿著梯度方向的路線尋找與之匹配的像素.匹配像素p與q之間搜索路線上的每一個(gè)像素值被指定為上述兩個(gè)像素之間的筆畫寬度(即像素點(diǎn)p與像素點(diǎn)q之間的歐氏距離).對(duì)于某個(gè)像素而言,若其屬于多個(gè)搜索線路,則其像素值為上述搜索線路對(duì)應(yīng)的最小筆畫寬度值.文獻(xiàn)[39]采用圖4所示的檢測框架,較早地實(shí)現(xiàn)了任意方向排列的自然場景文本檢測任務(wù).該文獻(xiàn)通過筆畫寬度變換(SWT)處理獲得文本候選區(qū)域,用文本級(jí)分類器(簡單特征+隨機(jī)森林)過濾非文本區(qū)域;利用文本間的相似性連接成文本行,再用文本行級(jí)的分類器(簡單特征+隨機(jī)森林)進(jìn)一步過濾背景區(qū)域.采用筆畫寬度變換(SWT)處理可以提取出不同尺度和方向的文本候選區(qū)域,然而該方法在圖像邊緣檢測不準(zhǔn)確以及背景復(fù)雜的情況下魯棒性較差,此外,筆畫寬度變換的運(yùn)算效率也受到圖像邊緣像素?cái)?shù)目的影響.針對(duì)筆畫寬度變換方法的一些不足,在后續(xù)研究[70,72]中也出現(xiàn)了一些筆畫寬度變換的變體,比如文獻(xiàn)[72]考慮到傳統(tǒng)的筆畫寬度變換方法在應(yīng)對(duì)圖像中包含一些具有不規(guī)則梯度方向的邊緣時(shí)往往不能準(zhǔn)確地計(jì)算出筆畫寬度,該文獻(xiàn)利用了顏色信息來改進(jìn)筆畫寬度算子并提出了筆畫特征變換(Stroke feature transform)算子.最大穩(wěn)定極值區(qū)域(MSER)基于分水嶺的概念,該方法取[0,255]范圍的閾值對(duì)圖像進(jìn)行二值化處理,所獲得的二值化圖像經(jīng)歷了一個(gè)從全黑到全白的過程(猶如水位不斷上升的俯瞰圖).在此過程中,有些連通區(qū)域面積隨閾值上升的變化很小,定義該類區(qū)域?yàn)樽畲蠓€(wěn)定極值區(qū)域(MSER).根據(jù)MSER的工作原理,檢測得到的MSER內(nèi)部灰度值是小于邊界的,因此通過MSER方法檢測不到位于黑色背景中的白色區(qū)域.在實(shí)際處理的過程中,通常需要對(duì)原圖進(jìn)行一次MSER檢測后將其反轉(zhuǎn),然后再做一次MSER檢測,上述兩次操作分別稱MSER+ 和MSER?.Neumann等[60]提出將MSER方法應(yīng)用于自然場景文本檢測(如圖5所示),通過對(duì)圖像中的一些最大穩(wěn)定極值區(qū)域的檢測來獲得文本候選區(qū)域.最大穩(wěn)定極值區(qū)域能夠很好地描述文本內(nèi)部顏色的一致性,且可以克服噪聲和仿射變換等因素的影響.一些文獻(xiàn)[18,62?64]采用MSER方法在復(fù)雜的自然場景圖像上取得了優(yōu)異的文本檢測性能.此后,在文獻(xiàn)[60]的基礎(chǔ)上,最大穩(wěn)定極值區(qū)域的一些變體[20,47,77?80]相繼被提出,比如文獻(xiàn)[20,80]利用梯度信息來增強(qiáng)MSER,并提出了Edge-preserving MSER算子.文獻(xiàn)[81]采用局部自適應(yīng)閾值方法來增強(qiáng)MSER.考慮到MSER在處理“低對(duì)比度”圖像時(shí)不夠魯棒,Neumann等在文獻(xiàn)[59]中提出直接用極值區(qū)域(ER)來作為文本候選區(qū)域,并設(shè)計(jì)了一套能夠快速去除明顯非文本區(qū)域的方法.Sun等考慮到文獻(xiàn)[59]所獲得的極值區(qū)域的數(shù)量過大,進(jìn)而對(duì)后續(xù)的文本分類精度產(chǎn)生影響,因此在文獻(xiàn)[82]中提出了對(duì)比極值區(qū)域(Contrasting extremal region,CER)方法.文獻(xiàn)[82]所得到的CER是跟周圍的背景有一定對(duì)比度的極值區(qū)域,其數(shù)量遠(yuǎn)小于極值區(qū)域(ER),略多于最大穩(wěn)定極值區(qū)域(MSER),CER應(yīng)對(duì)“低對(duì)比度”圖像更為魯棒.此后,Sun等在文獻(xiàn)[83]中又提出了顏色增強(qiáng)的對(duì)比極值區(qū)域(Color-enhanced CER).
值得注意的是,區(qū)別于前述邊緣檢測方法以及文本級(jí)檢測方法.一些文獻(xiàn)[84?87]利用文本行上下邊緣近似平行或者文本行的上下部分近似對(duì)稱的性質(zhì),實(shí)現(xiàn)對(duì)文本行候選區(qū)域的檢測處理,該類文本行級(jí)檢測方法主要應(yīng)用于印刷體/手寫文檔中的文本處理[84?86].文獻(xiàn)[87]利用了自然場景文本行上下結(jié)構(gòu)相似的特點(diǎn),創(chuàng)新性地實(shí)現(xiàn)對(duì)場景文本的有效檢測.文獻(xiàn)[87]設(shè)計(jì)了一個(gè)具有對(duì)稱性的模板(如圖6(g)所示),通過該模板獲得文本區(qū)域的自相似度與區(qū)分度,即:上半部和下半部的對(duì)稱性、文本區(qū)域的上半部與背景的差異、文本區(qū)域的下半部與背景的差異等特征.該模板在不同尺度下掃描圖像,通過其響應(yīng)得到對(duì)稱的中心點(diǎn),在得到對(duì)稱中心點(diǎn)后通過文本的高度和連通性得到候選區(qū)域.與傳統(tǒng)的文本檢測方法所采用的手工設(shè)計(jì)的特征所不同的是,文獻(xiàn)[87]使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行后續(xù)處理.文本行級(jí)檢測方法能有效地減少單個(gè)文本檢測失誤所帶來的負(fù)面影響,但該方法對(duì)文本行的邊緣檢測結(jié)果以及邊緣對(duì)稱性較為敏感.
基于連通域分析的自然場景文本檢測方法主要通過提取圖像中的連通區(qū)域來獲得文本候選區(qū)域,從而能有效地減少自然場景文本的搜索范圍.該類方法依賴于文本連通區(qū)域的檢測結(jié)果,連通區(qū)域的檢測結(jié)果不僅影響文本檢測召回率,而且還會(huì)影響文本輪廓的準(zhǔn)確性.文本欠分割、過分割的處理結(jié)果將勢(shì)必影響該文本候選區(qū)域的準(zhǔn)確性,進(jìn)而對(duì)整個(gè)自然場景文本檢測結(jié)果產(chǎn)生負(fù)面影響,因此在保證文本連通區(qū)域檢測高召回率的情況下,獲得準(zhǔn)確的文本輪廓是提高文本檢測性能的重要途徑.事實(shí)上,在復(fù)雜的自然場景圖像中準(zhǔn)確地檢測出文本連通區(qū)域是一件非常困難的事情,光照變化、顏色褪色、噪聲干擾等因素都將可能導(dǎo)致相鄰文本出現(xiàn)粘連現(xiàn)象,從而極大地影響文本檢測系統(tǒng)的性能.與此同時(shí),對(duì)每一個(gè)作為文本候選區(qū)域的連通區(qū)域進(jìn)行驗(yàn)證時(shí),設(shè)計(jì)一個(gè)合理的連通區(qū)域分析器也是一件非常困難的事情.受上述因素的影響,基于連通區(qū)域分析的自然場景文本檢測方法在背景復(fù)雜、噪聲干擾、低對(duì)比度以及顏色多變等情況下難以魯棒地檢測自然場景文本.
5.1.2 基于滑動(dòng)檢測窗的方法
圖5 基于最大穩(wěn)定極值區(qū)域的自然場景文本檢測[18]Fig.5 Natural scenes text detection based on maximally stable extremal regions[18]
圖6 基于對(duì)稱性的自然場景文本行檢測[87]Fig.6 Symmetry-based text line detection in natural scenes[87]
基于滑動(dòng)檢測窗的方法采用了自頂向下策略檢測文本,該類方法[88?92]通過采用滑動(dòng)檢測窗口的方式對(duì)整幅自然場景圖像進(jìn)行掃描,將每一個(gè)檢測窗口所覆蓋的圖像區(qū)域視為文本候選區(qū)域,然后提取文本候選區(qū)域的手工設(shè)計(jì)的特征,結(jié)合已訓(xùn)練好的分類器獲得該文本候選區(qū)域的置信度值,通過將所獲得的文本候選區(qū)域的置信度值與所設(shè)定的置信度閾值進(jìn)行比較,將文本候選區(qū)域分類為文本區(qū)域或者背景區(qū)域.為了有效地應(yīng)對(duì)文本大小、文本行長度多變的情況,該類方法采用了多尺度滑動(dòng)窗口的方式來得到文本候選區(qū)域.基于滑動(dòng)檢測窗的自然場景文本檢測方法主要采用了二種技術(shù)途徑:1)一般性滑窗方法;2)基于特定單詞的方法.
自然場景文本檢測屬于一種特定目標(biāo)檢測,級(jí)聯(lián)自適應(yīng)增強(qiáng)算法(Cascaded adaboost)結(jié)合類哈爾(Haar-like)特征在人臉檢測[93?95]領(lǐng)域獲得了巨大成功,該技術(shù)方案為自然場景文本檢測提供一種解決思路,比如文獻(xiàn)[89,96?98]采用了Adaboost方法檢測自然場景文本.文獻(xiàn)[97]采用級(jí)聯(lián)Adaboost方式從一組特征池中選擇79個(gè)特征并訓(xùn)練得到4個(gè)強(qiáng)分類器.此后,在文獻(xiàn)[96]中,他們進(jìn)一步將文獻(xiàn)[97]中的特征提取方法擴(kuò)充至6種,即X?Y方向梯度信息、Gabor濾波器的局部能量、圖像紋理的統(tǒng)計(jì)直方圖、圖像小波變換系數(shù)的方差、邊緣間距以及連通區(qū)域分析等,進(jìn)而使得檢測性能得到了較大幅度的改善.然而值得注意的是,文獻(xiàn)[93?95]之所以能夠快速地實(shí)現(xiàn)人臉檢測,主要依賴于其采用的兩個(gè)關(guān)鍵技術(shù):1)構(gòu)建了一種有效的級(jí)聯(lián)檢測框架;2)使用了一種計(jì)算高效且對(duì)人臉分類性能好的類哈爾(Haar-like)特征.然而自然場景文本與人臉的視覺特性存在著較大的差異,文獻(xiàn)[93?95]中所采用的類哈爾(Haar-like)特征雖然能很好地反映人臉特征,然而上述特征在描述文本區(qū)域時(shí)卻表現(xiàn)差強(qiáng)人意.文獻(xiàn)[88]提出一種基于特定單詞的自然場景文本檢測方法.該方法首先通過滑動(dòng)檢測窗口的方式獲得單個(gè)的文本,然后根據(jù)相鄰文本之間的結(jié)構(gòu)關(guān)系對(duì)可能的組合進(jìn)行評(píng)分,最后從給定的列表中選出最相近的組合作為輸出結(jié)果.區(qū)別于前述一般性的基于滑動(dòng)檢測窗的方法,該方法只能檢測事先給定列表中的單詞,對(duì)于列表之外的單詞則無能為力.然而,在現(xiàn)實(shí)中不可能為每一幅圖像指定一個(gè)包含所有可能出現(xiàn)的單詞列表,從而使得該方法的適用范圍受到一定程度的限制.
基于滑動(dòng)檢測窗的自然場景文本檢測方法的一個(gè)關(guān)鍵問題就是如何找到區(qū)分度好的描述特征來區(qū)分文本區(qū)域與背景區(qū)域.傳統(tǒng)的自然場景文本檢測技術(shù)主要選擇了手工設(shè)計(jì)的特征,比如:梯度邊緣特征[99]、局部二值模式(Local binary patterns,LBP)[100?101]、邊緣局部二值模式(Edge local binary patern,eLBP)[102]、方向梯度直方圖(Histograms of oriented gradients,HOG)[90,103?104]、共生方向梯度直方圖(Co-occurrence histogram of oriented gradients,CoHOG)[105?106]、基于方向梯度直方圖的紋理特征(HOG-based texture descriptor,T-HOG)[107]、邊緣方向梯度直方圖(Histogram of gradients at edges,eHOG)[20]、小波變換特征[17,108?109]、離散小波變換特征[101]等.相應(yīng)地,為了分類文本區(qū)域與背景區(qū)域,一些監(jiān)督學(xué)習(xí)方法廣泛地應(yīng)用于自然場景文本檢測領(lǐng)域,比如支持向量機(jī) (Support vector machine,SVM)[17,101,110?114]、自適應(yīng)增強(qiáng)算法 (Adaptive boosting,Adaboost)[98,115?116]、隨機(jī)森林 (Random forest,RF)[104,117?119]、以及人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[120]等.大部分基于滑動(dòng)檢測窗的文本檢測方法利用了文本候選區(qū)域的全局特征,而文獻(xiàn)[121]則從文本的局部特征出發(fā),提出了一種基于文本部件的樹形結(jié)構(gòu)模型(Partbased tree-structured models),該算法[121]能較好地適應(yīng)文本的字體變化,對(duì)噪聲、模糊等干擾因素也相對(duì)不敏感.然而該模型依賴于詳細(xì)的標(biāo)注信息,對(duì)不同語種文本的適應(yīng)性也非常有限,不能直接推廣到新的語種文本.若要處理新的語種文本,則需要重新設(shè)計(jì)字符模板以及標(biāo)注文本部件.
基于滑動(dòng)檢測窗的自然場景文本檢測方法無需通過提取文本邊緣、角點(diǎn)、連通區(qū)域或者文本行邊緣等方式來獲得文本/文本行候選區(qū)域,該類方法在處理文本尺度較小或者對(duì)比度欠佳等情況具有較大的優(yōu)勢(shì),能有效地避免相鄰文本間的粘連現(xiàn)象對(duì)文本候選區(qū)域提取的影響.與此同時(shí),該類方法通常采用了區(qū)分性能好的手工設(shè)計(jì)的特征來區(qū)分文本區(qū)域與背景區(qū)域,因此能較好地應(yīng)對(duì)復(fù)雜自然場景中的文本檢測問題.考慮到自然場景圖像中的文本區(qū)域通常由單個(gè)文本或者由多個(gè)文本構(gòu)成,除了文本位置隨機(jī)分布以及相鄰文本間隔距離多樣化外,文本大小尺寸以及文本區(qū)域的長寬比也存在著多個(gè)自由度,此外,文本行的排列方向通常比較隨意,有橫行、豎行、斜行、甚至是彎曲的,這對(duì)檢測窗口的選取帶來了很大的難度.與此同時(shí),檢測窗口的滑動(dòng)步長的選取也是一個(gè)棘手的問題,上述參數(shù)若設(shè)置不恰當(dāng)將導(dǎo)致相當(dāng)部分的文本漏檢、欠分割、過分割以及出現(xiàn)虛警(如圖7所示),從而影響文本檢測性能.基于滑動(dòng)檢測窗的自然場景文本檢測方法采用多尺度滑動(dòng)檢測窗口的方式遍歷整幅圖像來獲得文本候選區(qū)域.為了有效地區(qū)分文本區(qū)域與背景區(qū)域,一些復(fù)雜的手工設(shè)計(jì)的特征被大量使用,從而增加了描述特征的計(jì)算復(fù)雜度,進(jìn)而導(dǎo)致了該類方法的檢測效率通常不盡人意.除此以外,基于滑動(dòng)檢測窗的自然場景文本檢測方法除了需要獲得一個(gè)分類性能好的描述特征外,還對(duì)正、負(fù)訓(xùn)練樣本的規(guī)模以及訓(xùn)練集的完備性提出了嚴(yán)格的要求.不少算法的訓(xùn)練不僅需要知道每張訓(xùn)練樣本中是否包含文本,而且還需要知道每個(gè)文本所處的位置.為了應(yīng)對(duì)單文本與多文本情形,還需要建立單文本訓(xùn)練樣本、多文本訓(xùn)練樣本.與此同時(shí),為了獲得良好的學(xué)習(xí)效果,需要大量貼近真實(shí)場景的樣本進(jìn)行訓(xùn)練,增加了標(biāo)注工作量與訓(xùn)練時(shí)間.盡管基于滑動(dòng)檢測窗口的方法在其他類型物體檢測問題上取得了很好的結(jié)果,但從ICDAR 2011[122]以及ICDAR 2013[123]的“Robust Reading Competition Challenge 2” 的競賽結(jié)果來看,該類方法尚遜于基于連通區(qū)域分析的方法,近幾年基于滑動(dòng)窗口的方法并沒有成為文本檢測算法的主流.
局限于手工設(shè)計(jì)的特征分類能力的不足,文本檢測性能在較長的一段時(shí)間內(nèi)難以取得較大突破,直至有了深度學(xué)習(xí)技術(shù)之后.深度學(xué)習(xí)作為神經(jīng)網(wǎng)絡(luò)模型的新發(fā)展[124],它模擬了人腦認(rèn)識(shí)事物機(jī)理.與傳統(tǒng)的淺層人工神經(jīng)網(wǎng)絡(luò)相比,深度學(xué)習(xí)含有多隱藏層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).區(qū)別于傳統(tǒng)的“手工設(shè)計(jì)的特征提取+分類器”的目標(biāo)識(shí)別框架,深度學(xué)習(xí)網(wǎng)絡(luò)通過組合低層特征形成更加抽象的高層來表示屬性類別,使計(jì)算機(jī)自動(dòng)學(xué)習(xí)數(shù)據(jù)的有效特征表示,應(yīng)用深度學(xué)習(xí)有一個(gè)很大的優(yōu)勢(shì)是可以避免繁瑣低效的人工特征工程.深度學(xué)習(xí)通過對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí)以自動(dòng)地獲取描述特征[125]的方式,特別適合于物體識(shí)別與語音識(shí)別等模式識(shí)別問題.典型的深度學(xué)習(xí)結(jié)構(gòu)包括:深度置信網(wǎng)絡(luò)(Deep belief network,DBN)[125?126]、卷積神經(jīng)網(wǎng)絡(luò) (Convolutional neural network,CNN)[127]以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)[128]等.
深度學(xué)習(xí)(如CNN/LSTM 等模型)在文本識(shí)別領(lǐng)域的應(yīng)用有著較長的歷史.上世紀(jì)90年代,深度學(xué)習(xí)的先驅(qū)者Lecun很早就用神經(jīng)網(wǎng)絡(luò)來解決文本識(shí)別,1998年,Lecun等合作設(shè)計(jì)了LeNet5模型[127],在MNIST數(shù)據(jù)集上的識(shí)別率高達(dá)99.1%;在加上變形樣本訓(xùn)練后,其識(shí)別率進(jìn)一步提升到99.2%.2003年微軟研究院Simard等[129]引入彈性變形(Elastic distortion)及仿射變形(Affine distortion)兩種數(shù)據(jù)增廣(Data argumentation)技術(shù),采用類似CNN的網(wǎng)絡(luò)結(jié)構(gòu),在MNIST數(shù)據(jù)集上將識(shí)別率提升至99.6%,從而有效地解決了手寫數(shù)字識(shí)別問題.牛津大學(xué)VGG組的Jaderberg等[48]較早地提出將深度學(xué)習(xí)方法運(yùn)用于自然場景文本檢測與識(shí)別領(lǐng)域,他們?cè)?014年利用深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了如圖8所示的自然場景文本識(shí)別框架.在第一階段,學(xué)習(xí)一個(gè)不區(qū)分大小寫的CNN文本分類器;在第二階段,根據(jù)需要將結(jié)果特征映射應(yīng)用于其他分類問題,比如文本/背景分類器,區(qū)分大小寫的文本分類器以及二元分類器等.
圖7 基于自頂向下策略文本區(qū)域的錯(cuò)誤提取結(jié)果[90]Fig.7 Error extraction result of text region based on top-down strategy[90]
圖8 基于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)[48]Fig.8 Feature learning using a convolutional neural network[48]
目前已涌現(xiàn)出大量的基于深度學(xué)習(xí)的自然場景文本檢測方法[12,19,31,33,37,41,45?49],這些方法通過深度學(xué)習(xí)獲得文本特征,并依據(jù)上述特征對(duì)自然場景文本進(jìn)行檢測.相比以前所使用的傳統(tǒng)手工設(shè)計(jì)的特征,該類方法取得了更加令人鼓舞的檢測結(jié)果.從檢測文本對(duì)象的排列方向這一角度來看,基于深度學(xué)習(xí)的文本檢測方法先后經(jīng)歷了水平方向排列的文本檢測[31,130]、任意方向排列的文本檢測[15,33,50,131?134]以及目前少數(shù)文獻(xiàn)[135?136]所涉及的弧形排列方向的文本檢測.在基于深度學(xué)習(xí)的自然場景文本檢測方法中,基于文本區(qū)域建議(Text region proposal)的方法使用最為廣泛,其次是基于圖像分割的方法.主要的深度學(xué)習(xí)文本檢測路線與一些代表性方法如圖9所示.
5.2.1 基于區(qū)域建議的文本檢測方法
圖9 主要的深度學(xué)習(xí)文本檢測路線與一些代表性方法((a)文獻(xiàn)[137]方法,該方法采用CNN與ACF提取文本候選區(qū)域;(b)文獻(xiàn)[130]方法,該方法對(duì)faster RCNN進(jìn)行改進(jìn),并提出Inception-RPN方式提取文本候選區(qū)域;(c)文獻(xiàn)[37]方法,該方法提出了Connectionist text proposal network檢測文本候選區(qū)域;(d)文獻(xiàn)[138]方法,該方法提出旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN);(e)文獻(xiàn)[139]方法,該方法提出了垂直回歸建議網(wǎng)絡(luò)(VRPN);(f)文獻(xiàn)[33]方法,該方法采用Segment linking方式解決多方向排列的文本檢測問題;(g)文獻(xiàn)[31]方法,該方法以SSD作為基礎(chǔ)框架,提出了一個(gè)端對(duì)端訓(xùn)練文本檢測器(TextBoxes);(h)文獻(xiàn)[15]方法,該方法創(chuàng)新性提出采用四邊形窗口(非矩形)的方式檢測任意方向排列的文本;(i)文獻(xiàn)[41]方法,該方法提出采用Text-block全卷積網(wǎng)絡(luò)獲得文本候選區(qū)域;(j)文獻(xiàn)[140]方法,該方法采用FCN綜合多信息屬性來獲得文本候選區(qū)域;(k)文獻(xiàn)[50]方法,該方法參考了DenseBox的架構(gòu),采用FCN網(wǎng)絡(luò)檢測任意方向排列的文本;(l)文獻(xiàn)[141]方法,該方法采用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)來學(xué)習(xí)文本的高級(jí)視覺表示+循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)處理文本序列.)Fig.9 The main deep learning text detection framework and some representative methods((a)method[137],the CNN and the ACF are integrated to obtain the text region proposal.(b)method[130],the inception-RPN has been proposed in this work.(c)method[37],the connectionist text proposal network has been proposed in this work.(d)method[138],the RRPN has been proposed in this work.(e)method[139],the VRPN has been proposed in this work.(f)method[33],the segment and linking has been proposed in this work.(g)method[31],the TextBoxes method has been proposed in this work.(h)method[15],the deep matching prior network(DMPNet)with tighter quadrangle has been proposed in this work.(i)method[41],the text-block FCN has been proposed in this work.(j)method[140],the FCN and multi-channel prediction method has been proposed in this work.(k)method[50],the DenseBox framework has been followed and the FCN has been proposed in this work.(l)method[141],the DCNN and the RNN has been adopted in this work.)
基于區(qū)域建議的文本檢測方法遵循一般目標(biāo)檢測的框架,通常采用回歸文本框的方式來獲得文本區(qū)域信息.文獻(xiàn)[119]提出了分層文本檢測策略,該方法首先采用CNN提取特征,從所獲得的最大穩(wěn)定極值區(qū)域中獲得種子文本并依據(jù)種子文本來定位其他退化的文本區(qū)域,然后采用隨機(jī)森林結(jié)合文本行的上下文信息精細(xì)地分類文本候選區(qū)域.文獻(xiàn)[130]對(duì)Faster RCNN進(jìn)行改進(jìn),提出采用Inception-RPN方式獲得文本候選區(qū)域,然后利用一個(gè)文本檢測網(wǎng)絡(luò)去除背景區(qū)域,最后對(duì)重疊的檢測結(jié)果進(jìn)行投票來獲得最優(yōu)的檢測結(jié)果.文獻(xiàn)[37]首次將RNN引入到場景文本檢測當(dāng)中,使用CNN得到深度特征,然后用固定寬度的Anchor來檢測文本建議區(qū)域(Text proposal),將同一行Anchor對(duì)應(yīng)的特征輸入到RNN中進(jìn)行分類,最后將正確的文本建議區(qū)域進(jìn)行合并,該方法得益于使用子塊(Block、Anchor)對(duì)文本進(jìn)行表示,因此在一定程度上也能解決文本方向變化的問題.文獻(xiàn)[12]針對(duì)單詞的分類問題,將CNN與RNN進(jìn)行聯(lián)合訓(xùn)練,首先,采用標(biāo)準(zhǔn)CNN提取圖像特征,并利用Map-to-sequence表示成特征向量;然后,使用雙向LSTM(BLSTM)學(xué)習(xí)場景文本的空間上下文信息;最后,對(duì)特征進(jìn)行編碼并得到最終的預(yù)測結(jié)果,該方法將檢測和識(shí)別模型結(jié)合之后得到了目前端到端模型中最好的文本檢測結(jié)果.文獻(xiàn)[33]通過加入方向信息使得SSD(Single shot detector)檢測器可以應(yīng)對(duì)任意方向排列的文本檢測問題.該方法多尺度預(yù)測文本片段及其連接關(guān)系,將文本信息轉(zhuǎn)換為兩個(gè)局部可檢測信息,即:文本級(jí)或者單詞級(jí)的Segments以及Segments之間的Links.其創(chuàng)新之處在于把這些Links加入到網(wǎng)絡(luò)中去學(xué)習(xí),從而使得網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)出哪些Segments屬于同一個(gè)文本行(或者單詞).文獻(xiàn)[137]較早地開展了端到端(End-to-end)場景文本識(shí)別研究,該方法針對(duì)文本檢測問題對(duì)R-CNN進(jìn)行了改造,其工作內(nèi)容主要分為二個(gè)部分:基于目標(biāo)候選區(qū)域(Region proposal)的文本檢測部分以及基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的文本識(shí)別部分.該方法獲得了很好的場景文本識(shí)別效果,并且在其后兩年內(nèi)一直保持領(lǐng)先地位.文獻(xiàn)[79]除了提出對(duì)比度增強(qiáng)的最大穩(wěn)定極值方法(Contrast-enhancement maximally stable extremal regions,CE-MSERs)來提高文本檢測召回率外,還提出了基于多任務(wù)學(xué)習(xí)的文本注意卷積神經(jīng)網(wǎng)絡(luò)(Text-attentional convolutional neural network,text-CNN)模型,該方法將底層像素級(jí)分割、高層的文本識(shí)別以及文本與背景分類融合到一個(gè)text-CNN模型中,從而獲得了較強(qiáng)的文本檢測器.傳統(tǒng)的文本檢測系統(tǒng)通常包含了多個(gè)處理流程,各處理環(huán)節(jié)的性能均將直接影響到最終的檢測結(jié)果,文獻(xiàn)[15]提出了一種深度匹配先驗(yàn)網(wǎng)絡(luò)(Deep matching prior network,DMPNet),該方法考慮到原來的方法都專注于用矩形框來對(duì)文本進(jìn)行定位,然而實(shí)際上自然場景圖像中的文本圖像可能存在透視變換等問題,從而導(dǎo)致圖像中的文本區(qū)域并不是嚴(yán)格地呈現(xiàn)為矩形,若繼續(xù)采用矩形框來定位將出現(xiàn)錯(cuò)誤的結(jié)果,文獻(xiàn)[15]創(chuàng)新性地提出采用四邊形窗口(非矩形)來表示文本區(qū)域.文獻(xiàn)[31]提出了Textboxes文本檢測方法,該方法對(duì)SSD框架進(jìn)行了改進(jìn),其目的能實(shí)現(xiàn)快速地計(jì)算文本在每個(gè)區(qū)域存在的可能性,文獻(xiàn)[31]發(fā)現(xiàn)長條形的卷積核比常用的1×1或3×3卷積核更適合自然場景文本檢測,該方法在設(shè)計(jì)默認(rèn)框(Default box)時(shí)考慮了包含較長的形狀,提出了一個(gè)實(shí)用的“檢測+識(shí)別”框架對(duì)文本候選區(qū)域進(jìn)行判斷.其后,Liao等在文獻(xiàn)[131]中對(duì)他們的前期工作[31]進(jìn)行了改進(jìn),提出了Textboxes++文本檢測方法,與前期工作Textboxes方法相比,文獻(xiàn)[131]除進(jìn)一步修改網(wǎng)絡(luò)結(jié)構(gòu)以外,其主要貢獻(xiàn)是將Textboxes水平排列文本檢測器擴(kuò)展為任意方向排列文本檢測器.文獻(xiàn)[139]提出了垂直回歸建議網(wǎng)絡(luò)(VRPN).為了生成具有文本方向角信息的傾斜候選框用于檢測任意方向文本區(qū)域,文獻(xiàn)[138]提出了旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(Rotation region proposal networks,RRPN).考慮到傳統(tǒng)的RoI池化層只能處理軸對(duì)齊的候選框,該文獻(xiàn)還提出了旋轉(zhuǎn)RoI(RRoI)池化層來調(diào)整RRPN生成的面向任意的候選框.文獻(xiàn)[134]為了檢測任意方向的文本,在R-CNN[142]構(gòu)架的基礎(chǔ)上提出了一種新的旋轉(zhuǎn)區(qū)域CNN(R2CNN)方法.該文獻(xiàn)使用RPN來生成軸對(duì)齊的包圍不同方向的文本邊界框,通過合并RPN生成的不同大小的每個(gè)軸對(duì)齊文本框的特征來分類文本與非文本區(qū)域;文獻(xiàn)[143]針對(duì)端對(duì)端文本識(shí)別問題提出了一個(gè)統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)模型,該模型主要包含了一個(gè)文本建議網(wǎng)絡(luò)(Text proposal network,TPN)以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN),該模型可以直接通過一次前向計(jì)算就可以同時(shí)實(shí)現(xiàn)文本檢測和文本識(shí)別任務(wù).對(duì)該網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練時(shí),只需要輸入圖像、圖像中文本的Bbox以及文本對(duì)應(yīng)的標(biāo)簽信息.與此同時(shí),文獻(xiàn)[143]無需實(shí)施諸如文本行形成、單詞分割等中間處理步驟,從而可以減少錯(cuò)誤.文獻(xiàn)[133]從實(shí)例感知語義分割(Instance-aware semantic segmentation)的角度提出了一種端對(duì)端訓(xùn)練框架(Fused text segmentation networks,FTSN)以應(yīng)對(duì)多方向場景文本檢測問題,該方法采用Resnet-101 backbone提取特征后利用區(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN)同時(shí)檢測與分割文本實(shí)例,通過非最大抑制方法(Non-maximum suppression,NMS)解決文本實(shí)例重疊的問題,最后生成適合每個(gè)文本實(shí)例區(qū)域的最小四邊形邊界框作為整終的檢測結(jié)果.文獻(xiàn)[144]為了應(yīng)對(duì)任意方向的文本檢測問題,創(chuàng)新性地設(shè)計(jì)RoIRotate算法將任意方向特征轉(zhuǎn)換為軸對(duì)齊特征.近年來少數(shù)研究者基于深度學(xué)習(xí)方法對(duì)弧形排列方向的文本檢測問題進(jìn)行了研究.文獻(xiàn)[136]提出了滑動(dòng)線點(diǎn)回歸(Sliding line point regression,SLPR)方法檢測任意方向排列的文本(包括弧形排列方向文本),該方法首先采用區(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN)生成包含文本的最小矩形框,然后分別沿著垂直方向和水平方向等距滑動(dòng)線并回歸文本的邊緣點(diǎn),最后基于這些點(diǎn)獲得文本的輪廓.文獻(xiàn)[135]提出了一種基于多邊形的弧形文本檢測算法(Curve text detector,CTD),此外該方法還提出了兩個(gè)簡單有效的后處理方法,即:非多邊形抑制(NPS)和多邊形非最大抑制(PNMS),以進(jìn)一步提高文本檢測精度.除此以外,文獻(xiàn)[135]還推出了主要包含弧度方向排列文本的數(shù)據(jù)集(SCUT-CTW1500),該數(shù)據(jù)集共包含了1500張圖片,其中1000張圖像作為訓(xùn)練集,500張圖片作為測試集,累積標(biāo)注了約10000個(gè)文本區(qū)域.
5.2.2 基于圖像分割的文本檢測方法
基于圖像分割的文本檢測方法[41,50,132,140?141]將文本檢測視為一種廣義的“分割問題”.該類方法通常利用語義分割中常用的全卷積網(wǎng)絡(luò)(FCN)等方式來進(jìn)行像素級(jí)別的文本/背景標(biāo)注.文獻(xiàn)[41]首次采用了全卷積網(wǎng)絡(luò)(Fully convolutional network,FCN)從像素層面對(duì)圖像進(jìn)行處理,該方法首先利用Text-block FCN進(jìn)行像素級(jí)的標(biāo)定,從而獲得每個(gè)像素屬于文本的概率,進(jìn)而得到文本區(qū)域顯著圖(Salient map),最后基于顯著圖得到文本候選區(qū)域(如圖10所示).文獻(xiàn)[145]提出了一種級(jí)聯(lián)卷積文本網(wǎng)絡(luò)(Cascaded convolutional text network,CCTN),該方法采用級(jí)聯(lián)的方式檢測文本,具體處理步驟主要包括:首先,采用一個(gè)Coarse-CNN進(jìn)行檢測得到粗略的文本區(qū)域,然后,對(duì)所獲得的文本區(qū)域檢測結(jié)果進(jìn)行判斷是否需要進(jìn)一步處理(Refine),若需要,則采用Fine-CNN進(jìn)行處理以得到更細(xì)致的文本線進(jìn)行輸出.文獻(xiàn)[50]提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與非最大抑制算法(Nonmaximum suppression,NMS)的簡單高效的文本檢測框架,該方法首先通過全卷積神經(jīng)網(wǎng)絡(luò)輸出文本區(qū)域像素級(jí)檢測結(jié)果,然后將上述結(jié)果通過非最大抑制算法獲得文本區(qū)域.文獻(xiàn)[132]提出基于深度直接回歸的多方向場景文本檢測方法,該文獻(xiàn)在其所提出的檢測框架中對(duì)全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了端對(duì)端的優(yōu)化并雙任務(wù)輸出,其中一個(gè)任務(wù)是對(duì)文本與非文本進(jìn)行像素級(jí)分類,另一個(gè)任務(wù)則是采用該文獻(xiàn)所提出的新貢獻(xiàn)―直接回歸的方式以確定四邊形文本邊界的頂點(diǎn)坐標(biāo).文獻(xiàn)[141]中先采用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)來學(xué)習(xí)文本的高級(jí)視覺表示,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)處理不規(guī)則文本(Irregular text)序列.為了獲得文本候選區(qū)域,文獻(xiàn)[141]采用了FCN網(wǎng)絡(luò)來完成密集的文本檢測任務(wù).文獻(xiàn)[140]方法基于全卷積網(wǎng)絡(luò),把“預(yù)測文本區(qū)域概率”、“預(yù)測字符概率”、“預(yù)測相鄰字符連接概率”三個(gè)問題整合到一個(gè)網(wǎng)絡(luò)中去進(jìn)行整體學(xué)習(xí)以獲得文本候選區(qū)域.
圖10 基于全卷積神經(jīng)網(wǎng)絡(luò)的自然場景文本檢測[41]((a)Text-Block全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);(b)Text-Block全卷積神經(jīng)網(wǎng)絡(luò)獲得的結(jié)果)Fig.10 Natural scenes text detection based on fully convolutional networks[41]((a)The network architecture of the Text-Block FCN,(b)The illustration of feature maps generated by the Text-Block FCN)
絕大部分基于深度學(xué)習(xí)的文本檢測方法主要包含了兩個(gè)部分內(nèi)容,即文本/非文本分類處理以及文本邊界框回歸處理,盡管文本邊界框回歸處理并不是必須的處理步驟,然而它對(duì)最終的檢測結(jié)果產(chǎn)生重要影響.區(qū)別于絕大部分基于深度學(xué)習(xí)的文本檢測方法,文獻(xiàn)[146]直接通過實(shí)例分割處理來獲得文本位置信息而無需進(jìn)行文本邊界框回歸處理.受到SegLink[33]方法的啟發(fā),文獻(xiàn)[146]所提出的PixelLink方法采用了一個(gè)深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)來實(shí)現(xiàn)二種像素級(jí)預(yù)測,即文本/非文本預(yù)測以及連接預(yù)測,將所有文本實(shí)例中的像素進(jìn)行標(biāo)注并形成連通區(qū)域,最后從分割結(jié)果中直接提取文本邊界框.文獻(xiàn)[147]為了降低文本排列方向以及文本區(qū)域長寬比變化的影響,該方法首先檢測文本角點(diǎn),然后通過對(duì)角點(diǎn)進(jìn)行采樣和分組得到文本候選區(qū)域的邊框,最后基于分割信息對(duì)所獲得的文本候選區(qū)域的邊框進(jìn)行評(píng)價(jià),并采用非極大抑制處理(NMS)來獲得最終的檢測結(jié)果.基于文本區(qū)域建議的文本檢測方法[15,31,131,134]通常遵循一般目標(biāo)檢測的框架,采用回歸文本框的方式來獲得文本區(qū)域的位置信息,該類方法受到文本排列方向的任意性以及文本區(qū)域長寬比多樣性的困擾.基于圖像分割的文本檢測方法[41,50,132,140?141]從另外的視角出發(fā),視文本檢測為一種廣義的“分割問題”,可以較好地避免文本排列方向以及文本區(qū)域長寬比變化的影響,然而該類方法的后續(xù)處理通常比較的復(fù)雜.此外,由于目前絕大部分文本檢測數(shù)據(jù)集的標(biāo)注都是文本框類型,僅僅將文本標(biāo)記在某一矩形區(qū)域內(nèi)而沒有詳細(xì)地標(biāo)注出哪些像素點(diǎn)是文本哪些是背景,因此基于圖像分割的文本檢測方法還面臨著像素級(jí)別圖像標(biāo)注的困難.考慮到人工標(biāo)注像素(Pixel)級(jí)別的標(biāo)記(Label)代價(jià)很高,采用人工合成數(shù)據(jù)是一個(gè)值得嘗試的替代手段.
為了獲得較現(xiàn)有方法更優(yōu)的檢測結(jié)果,選擇或者設(shè)計(jì)更有效的深度學(xué)習(xí)文本檢測框架顯得格外重要.仍然需要指出的是,盡管深度學(xué)習(xí)方法在基于大量訓(xùn)練樣本的情況下獲得了較傳統(tǒng)的手工設(shè)計(jì)的特征更優(yōu)的區(qū)分性能,但是自然場景文本檢測系統(tǒng)通常包含了多個(gè)處理環(huán)節(jié),任何環(huán)節(jié)的處理結(jié)果都將會(huì)影響整個(gè)系統(tǒng)的檢測性能.深度學(xué)習(xí)方法雖然能很好地解決文本分類這一局部問題,然而較難有效地利用文本的上下文信息以及其他知識(shí).雖然簡單直接地應(yīng)用深度學(xué)習(xí)技術(shù)可以達(dá)到還不錯(cuò)的檢測結(jié)果,但依然有必要將深度學(xué)習(xí)方法與其他的領(lǐng)域知識(shí)或者技巧相結(jié)合來設(shè)計(jì)文本檢測系統(tǒng).此外,采用深度學(xué)習(xí)方法進(jìn)行訓(xùn)練時(shí),訓(xùn)練集的規(guī)模將對(duì)訓(xùn)練結(jié)果產(chǎn)生重要影響.訓(xùn)練樣本規(guī)模小將容易導(dǎo)致訓(xùn)練過擬合,訓(xùn)練樣本規(guī)模大則使得構(gòu)建訓(xùn)練集及手工標(biāo)注的工作量過大.為了構(gòu)建大規(guī)模訓(xùn)練集,文獻(xiàn)[137,141,148?149]等提出通過合成的方法生成含有文本信息的樣本,進(jìn)而為擴(kuò)充訓(xùn)練集的規(guī)模提供了一種有效的解決途徑.牛津大學(xué)VGG組的Jaderberg等除了在文獻(xiàn)[149]中提出采用合成圖(Synthetic image)的方式訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)外,他們還在文獻(xiàn)[148]中詳細(xì)地介紹了如何通過合成的方法生成自然場景文本樣本,文獻(xiàn)[148]通過人工生成自然場景文本樣本在ICDAR 2011數(shù)據(jù)集上獲得了F-measure為82.3%的成績.此外,文獻(xiàn)[150]考慮到現(xiàn)有的真實(shí)文本數(shù)據(jù)集大多是在單詞或文本行級(jí)別進(jìn)行標(biāo)注的,因此該文獻(xiàn)提出了一個(gè)弱監(jiān)督的框架,基于單詞級(jí)訓(xùn)練數(shù)據(jù)庫來訓(xùn)練文本檢測器以解決文本訓(xùn)練數(shù)據(jù)集不足的難題.
區(qū)別于單獨(dú)的文本檢測與單獨(dú)的文本識(shí)別任務(wù),端到端文本識(shí)別包含了從自然場景圖像中檢測和識(shí)別文本的完整過程(如圖11所示).在端到端文本識(shí)別任務(wù)中,輸入的是自然場景圖像,輸出結(jié)果為圖像中的文本內(nèi)容.從本質(zhì)上來說,文本檢測和文本識(shí)別同屬于模式分類問題.文本檢測的核心任務(wù)是區(qū)分圖像中的文本和非文本成分,因此文本檢測是一個(gè)粗略的二分類問題;而文本識(shí)別則需要在文本檢測結(jié)果中進(jìn)一步區(qū)分文本的所屬類別,因此文本識(shí)別則需要完成更精細(xì)的分類任務(wù).從針對(duì)自然場景文本檢測與識(shí)別的研究內(nèi)容來看,目前大部分工作將文本檢測與文本識(shí)別作為兩個(gè)獨(dú)立的內(nèi)容來展開研究,只有少數(shù)工作將文本檢測與文本識(shí)別融合到一個(gè)框架中執(zhí)行粗糙檢測與精細(xì)化分類的兩個(gè)任務(wù),從而達(dá)到同時(shí)進(jìn)行文本檢測和文本識(shí)別的目的.相比單純的文本檢測與文本識(shí)別問題,端對(duì)端文本識(shí)別更加具有挑戰(zhàn)性.從ICDAR 2015自然場景文本檢測及識(shí)別競賽[32]的結(jié)果來看:非受限環(huán)境下的自然場景文本(Incidental scene text)在無語料信息的真實(shí)環(huán)境下的端到端識(shí)別任務(wù)(Task 4.4)的最好識(shí)別率僅為34.96%,可見端對(duì)端文本識(shí)別技術(shù)具有很大的提升空間.
圖11 端到端場景文本識(shí)別框架[22]Fig.11 Scene text end to end recognition framework[22]
文獻(xiàn)[34,73,151?152]較早地提出了端對(duì)端文本識(shí)別系統(tǒng),但這些系統(tǒng)主要關(guān)注文本檢測部分,文本的識(shí)別則依賴于已有的光學(xué)字符識(shí)別引擎.文獻(xiàn)[153]所提出的端對(duì)端文本識(shí)別系統(tǒng)則主要關(guān)注文本識(shí)別部分,其文本檢測部分利用了文獻(xiàn)[93,154]所提出的目標(biāo)檢測方法.與文獻(xiàn)[34,73,151]方法不同,Wang等[91]和Neumann等[60]在他們所提出的端到端文本識(shí)別系統(tǒng)中并沒有采用已有的光學(xué)字符識(shí)別軟件,而是自主設(shè)計(jì)了自然場景文本識(shí)別方法.Wang等[91]將單詞作為一種特殊的待檢測目標(biāo),視字符為單詞的組成部件,通過各個(gè)字符的置信度以及字符之間的空間約束關(guān)系搜索最可能的檢測和識(shí)別結(jié)果.捷克理工大學(xué)Jiri Matas以及Neumann等[60]通過提取圖像中的最大穩(wěn)定極值區(qū)域作為文本候選區(qū)域,然后通過訓(xùn)練好的分類器剔除非文本區(qū)域,將余下的候選區(qū)域輸入到字符識(shí)別模型屮進(jìn)行識(shí)別.Neumann等在前期工作[60]的基礎(chǔ)上,在文獻(xiàn)[59]中提出一個(gè)實(shí)時(shí)的端到端場景文本檢測和識(shí)別方法,其文本檢測部分基于一種高效的序貫選擇機(jī)制,從一個(gè)極值區(qū)域集合中挑選可能的文本區(qū)域,文本識(shí)別模型則由合成訓(xùn)練樣本得到.需要指出的是,文獻(xiàn)[59]是第一個(gè)在ICDAR 2011數(shù)據(jù)集上發(fā)布端對(duì)端文本識(shí)別結(jié)果報(bào)告的,該文獻(xiàn)所述方法現(xiàn)已被OpenCV 3.0所采用.文獻(xiàn)[34,59?60,91,151]只能處理水平方向或者接近水平方向排列的自然場景文本.考慮到上述方法的不足,華中科技大學(xué)研究團(tuán)隊(duì)Yao等在文獻(xiàn)[76]中率先提出了一種可以處理自然場景中任意方向文本的端到端識(shí)別方法.該方法將文本檢測和文本識(shí)別作為一個(gè)整體進(jìn)行考慮,在統(tǒng)一的框架中利用相同的特征和分類結(jié)構(gòu)同時(shí)完成檢測和識(shí)別任務(wù),此外該方法設(shè)計(jì)了一種基于字典搜索的糾錯(cuò)策略來提高文本識(shí)別準(zhǔn)確性.
圖12 基于卷積神經(jīng)網(wǎng)絡(luò)的端對(duì)端自然場景文本識(shí)別方法[137]Fig.12 Feature learning using a convolutional neural network[137]
由于傳統(tǒng)手工設(shè)計(jì)的特征不能有效地區(qū)分文本區(qū)域,從而導(dǎo)致端對(duì)端文本識(shí)別性能在較長的一段時(shí)間里難以取得突破,直至2014年前后深度學(xué)習(xí)方法為端對(duì)端文本識(shí)別問題提供了全新的解決方案.在文獻(xiàn)[48,137,143,148,155?156]等中設(shè)計(jì)了各種基于深度學(xué)習(xí)的端對(duì)端文本識(shí)別框架.牛津大學(xué)VGG組在2016年IJCV期刊的首卷首期發(fā)表了基于區(qū)域建議(Region proposal)的方法[137],該方法在端到端文本識(shí)別領(lǐng)域保持了近兩年的領(lǐng)先地位.文獻(xiàn)[137]從兩個(gè)方面展開對(duì)端到端(Endto-end)場景文本識(shí)別的研究(如圖12所示),即:基于目標(biāo)區(qū)域建議(Region proposal)的文本檢測部分以及基于卷積神經(jīng)網(wǎng)絡(luò)的文本識(shí)別部分.Shi等在文獻(xiàn)[12]中針對(duì)圖像中的序列物體的識(shí)別問題提出了Convolutional recurrent neural network(CRNN)端對(duì)端檢測框架.針對(duì)單詞的分類問題,該方法首先采用標(biāo)準(zhǔn)CNN提取圖像特征并利用Map-to-sequence表示成特征向量,然后使用雙向LSTM(BLSTM)學(xué)習(xí)場景文本的空間上下文信息,最后對(duì)特征進(jìn)行編碼并得到最終的預(yù)測結(jié)果,該方法得到了目前端到端模型中最好的文本檢測結(jié)果.Alsharif等[157]采用了一種包含分割、矯正以及文本識(shí)別的CNN網(wǎng)絡(luò),結(jié)合使用固定詞典的隱馬爾科夫模型(HMM)來獲得最終的識(shí)別結(jié)果.Liao等在文獻(xiàn)[31]中對(duì)SSD框架進(jìn)行了改進(jìn),針對(duì)水平方向排列的文本提出了一種“Textboxes”+“CRNN”的端對(duì)端識(shí)別框架,其中Textboxes用來實(shí)現(xiàn)文本檢測,CRNN則用來進(jìn)行文本識(shí)別;最近,Liao等在文獻(xiàn)[131]中對(duì)其前期工作[31]進(jìn)行了改進(jìn),提出了一種“Textboxes++”+“CRNN”的端對(duì)端的文本識(shí)別框架,文獻(xiàn)[131]的主要貢獻(xiàn)是將其前期工作Textboxes[31]進(jìn)行了擴(kuò)展,在其所提方法中設(shè)計(jì)了Textboxes++文本檢測方法以應(yīng)對(duì)任意方向排列的文本的檢測問題.文獻(xiàn)[158]借鑒人類閱讀文本的認(rèn)知機(jī)制,提出了一種基于卷積特征映射的端對(duì)端場景文本識(shí)別方法.該方法首先采用滑動(dòng)檢測窗口的方式對(duì)輸入圖像進(jìn)行掃描,并將輸入圖像按照檢測窗口大小切割出來,然后獲得所有切割后圖片的特征向量,由時(shí)序分類算法(Connectionist temporal classification,CTC)預(yù)測得到最終的識(shí)別結(jié)果.該方法表現(xiàn)出一些優(yōu)勢(shì),比如避免了復(fù)雜的字符分割過程以及可以識(shí)別基于單詞方法所不能識(shí)別的文本.文獻(xiàn)[144]提出了一種任意方向排列文本識(shí)別方法(Fast oriented text spotting system,FOTS),該方法考慮到提取特征是一個(gè)較耗時(shí)的過程,為了加快系統(tǒng)的處理速度,該方法采用共享特征的方式同時(shí)實(shí)現(xiàn)文本檢測與文本識(shí)別處理.為了應(yīng)對(duì)文本排列方向的任意性,文獻(xiàn)[144]設(shè)計(jì)了RoIRotate算法將任意方向特征轉(zhuǎn)換為軸對(duì)齊特征.在文獻(xiàn)[148]所提出的端對(duì)端文本識(shí)別方法中,首先訓(xùn)練了一個(gè)全卷積回歸網(wǎng)絡(luò)(Fully convolutional regression network,FCRN)以及文本位置回歸的方式檢測文本,然后通過文獻(xiàn)[149]所采用的單詞分類器(Word classifier)進(jìn)行文本識(shí)別.Li等在文獻(xiàn)[143]中提出了一種端對(duì)端文本識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)模型,該模型主要包含了一個(gè)文本建議網(wǎng)絡(luò)(Text proposal network,TPN)以及遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN),該模型可以直接通過一次前向計(jì)算就可以同時(shí)實(shí)現(xiàn)文本檢測和文本識(shí)別任務(wù).Patel等在文獻(xiàn)[159]中提出了E2E-MLT多語言場景文本識(shí)別算法,該方法集成了多個(gè)卷積神經(jīng)網(wǎng)絡(luò),有效地實(shí)現(xiàn)了自然場景文本檢測、識(shí)別以及文種分類等任務(wù).特別需要指出的是,文獻(xiàn)[159]所提的E2E-MLT模型是迄今為止第一個(gè)面向多種語言的文本識(shí)別方法.與大部分傳統(tǒng)的監(jiān)督訓(xùn)練方式不同,Bartz等在文獻(xiàn)[155,160]中對(duì)其提出的端對(duì)端文本檢測與識(shí)別系統(tǒng)采用了半監(jiān)督學(xué)習(xí)方法進(jìn)行了訓(xùn)練.為了應(yīng)對(duì)任意方向排列的自然場景文本,在文獻(xiàn)[156]所提出的端對(duì)端文本識(shí)別系統(tǒng)中,首先采用了旋轉(zhuǎn)文本建議網(wǎng)絡(luò)(Region proposal network,RPN)來獲得文本區(qū)域,然后采用基于合成文本樣本訓(xùn)練后得到的文本分類器進(jìn)行識(shí)別.對(duì)于單個(gè)文本的識(shí)別問題,基于深度學(xué)習(xí)文本識(shí)別方法的做法通常與傳統(tǒng)方法類似,采用CNN獲取文本的描述特征并進(jìn)行分類[46];對(duì)于由多個(gè)文本構(gòu)成的單詞,主要采用了CNN+LSTM結(jié)構(gòu)[12,16],首先利用CNN學(xué)習(xí)圖像相鄰像素之間的關(guān)系,然后利用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long short-term memory,LSTM)學(xué)習(xí)較長跨度的上下文關(guān)系.
隨著自然場景文本檢測這一研究領(lǐng)域的不斷發(fā)展,越來越多的文本數(shù)據(jù)集被推出以供研究人員來檢驗(yàn)其方法的性能.最為常見且使用最為廣泛的數(shù)據(jù)集有ICDAR自然場景文本檢測競賽的系列數(shù)據(jù)集.除此以外,自然場景文本檢測數(shù)據(jù)集還包括了MSRA-TD500、SVT、COCO-Text等.上述各種數(shù)據(jù)集的特點(diǎn)如表1所示.
表1 常用自然場景文本檢測數(shù)據(jù)集Table 1 Widely used natural scene text detection datasets and their download link
上述數(shù)據(jù)集的下載地址分別為:ICDAR0033Available at:http://algoval.essex.ac.uk/icdar/Datasets.html,ICDAR0114Available at:http://robustreading.opendfki.de/,ICDAR0135Available at:http://dag.cvc.uab.es/icdar2013competition,ICDAR0156Available at:http://www.iapr.org/archives/icdar2015/index.tml%3Fp=254.html,SVT7Available at:http://vision.ucsd.edu/~kai/grocr/,MSRA-TD5008Available at:http://pages.ucsd.edu/~ztu/Download front.htm,KIST9Available at:http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database,OSTD10Available at:http://media-lab.ccny.cuny.edu/wordpress/cyi/www/project_scenetextdetection.html,NEOCR11Available at:http://www.iapr-tc11.org/mediawiki/index.php?title=NEOCR:Natural_Environment_OCRDataset,USTB-SV1K12Available at:http://prir.ustb.edu.cn/TexStar/MOMV-text-detection/,COCO-Text13Available at:https://vision.cornell.edu/se3/coco-text-2/,RCTW-1714Available at:http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html,SCUT-CTW150015Available at:https://github.com/Yuliang-Liu/Curve-Text-Detector.
為了客觀地評(píng)測各種方法的檢測性能,目前已推出了幾種測評(píng)方法(后續(xù)小節(jié)中將對(duì)各種評(píng)測方法進(jìn)行詳細(xì)介紹).現(xiàn)有檢測性能評(píng)測方法主要考慮三個(gè)性能參數(shù),即:準(zhǔn)確率(Precision,P)、召回率(Recall,R)、綜合評(píng)價(jià)指標(biāo)(F-measure,F).準(zhǔn)確率(P)表示檢測得到的真實(shí)文本與所有檢測結(jié)果之間的比率,召回率(R)表示檢測得到的真實(shí)文本和所有手工標(biāo)注的真實(shí)文本之間的比值,綜合評(píng)價(jià)指標(biāo)(F)是準(zhǔn)確率與召回率的調(diào)和平均值,該值是評(píng)價(jià)文本檢測方法性能的綜合指標(biāo).
7.2.1 ICDAR 2003/2005評(píng)估方法
具體辦法是通過將檢測結(jié)果的最小外接矩形與手工標(biāo)注的文本區(qū)域矩形進(jìn)行比較以獲得其公共部分面積,并通過公共部分面積計(jì)算出文本檢測召回率、精確率以及綜合評(píng)價(jià)指標(biāo),最后根據(jù)上述三個(gè)性能指標(biāo)對(duì)檢測結(jié)果的優(yōu)劣性進(jìn)行評(píng)價(jià).匹配度mp定義為上述兩個(gè)矩形之間的公共部分面積與包含上述兩個(gè)矩形的最小外接矩形的面積之比.當(dāng)兩個(gè)矩形完全重合時(shí),匹配度mp=1;當(dāng)兩個(gè)矩形之間無公共部分時(shí),則匹配度mp=0.
一個(gè)矩形r與一組矩形Re之間的最佳匹配度采用式1進(jìn)行定義.
召回率(Recall,R)和準(zhǔn)確度(Precision,P)分別采用式(2)和式(3)進(jìn)行定義.
其中,T表示手工標(biāo)注文本區(qū)域的矩形集合,E表示檢測結(jié)果的矩形集合.綜合評(píng)價(jià)指標(biāo)(F-measure)為召回率(Recall)和精確率(Precision)的調(diào)和平均值,其定義如式(4)所示.
其中,參數(shù)α為檢測召回率與準(zhǔn)確率之間的權(quán)重,通常取值為:α=0.5.
7.2.2 ICDAR 2011/2013評(píng)估方法
ICDAR 2003以及ICDAR 2005評(píng)估方法沒有考慮檢測結(jié)果與手工標(biāo)注結(jié)果(Ground-truth)之間一對(duì)多(One-to-many)與多對(duì)一(Many-to-one)的匹配情形.事實(shí)上,檢測結(jié)果與Ground-truth之間一對(duì)多(One-to-many)與多對(duì)一(Many-to-one)的匹配情形在實(shí)際檢測結(jié)果中并不少見,因此在采用ICDAR 2003以及ICDAR 2005評(píng)估方法時(shí)容易低估自然場景文本檢測方法的實(shí)際性能.考慮到上述情況,ICDAR 2011以及ICDAR 2013自然場景文本檢測競賽采用了文獻(xiàn)[166]所提出的評(píng)估方法.需要指出的是,文獻(xiàn)[166]認(rèn)為多對(duì)多(Manyto-many)的匹配情形并不常見,因此在文獻(xiàn)[166]中暫未考慮多對(duì)多匹配情形.
文獻(xiàn)[166]所提出的評(píng)估方法主要考慮了檢測結(jié)果與Ground-truth之間的三種匹配情形,即:一對(duì)一(One-to-one)、一對(duì)多(One-to-many)以及多對(duì)一(Many-to-one)(如圖13所示).準(zhǔn)確率(P)與召回率(R)分別定義為
其中,G,D分別表示Ground-truth與檢測結(jié)果,tr∈[0,1]是召回率約束項(xiàng),tp∈[0,1]是精確率約束項(xiàng),其取值分別為tr=0.8,tp=0.4.函數(shù)MatchD與MatchP用來區(qū)分匹配類型,具體來說可以表示為
其中,fsc(k)為針對(duì)欠分割與過分割情況的懲罰函數(shù),文獻(xiàn)[166]取fsc(k)=0.8.
7.2.3 ICDAR 2015評(píng)估方法
ICDAR 2015自然場景文本檢測競賽采用了文獻(xiàn)[167]所提出的目標(biāo)檢測評(píng)價(jià)方法,通過比較檢測結(jié)果矩形框與Ground-truth矩形框之間的公共區(qū)域與并集區(qū)域之間的比值來進(jìn)行衡量.具體做法是,定義覆蓋面積比值為
其中,a0為覆蓋率,Bp和Bgt分別表示檢測結(jié)果與Ground-truth,area(Bp∩Bgt)與area(Bp∪Bgt)分別表示Bgt,Bp之間的交集區(qū)域與并集區(qū)域.若檢測結(jié)果與Ground-truth之間的實(shí)際面積覆蓋率a0>0.5,則認(rèn)為該檢測結(jié)果為正確的;反之,則認(rèn)為是虛警.當(dāng)同一文本行出現(xiàn)多個(gè)檢測結(jié)果時(shí),根據(jù)降序順序?qū)⒊说谝粋€(gè)檢測結(jié)果以外的其余檢測結(jié)果視為虛警.準(zhǔn)確率(P)與召回率(R)分別定義為
其中TP,E,T分別表示正確的檢測結(jié)果集合,檢測結(jié)果集合以及Ground-truth集合,綜合評(píng)價(jià)指標(biāo)(F)則定義為
7.2.4 MSRA-TD500評(píng)估方法
文獻(xiàn)[39]針對(duì)任意方向自然場景文本檢測提出了一種有效的評(píng)估方法.該方法采用了文獻(xiàn)[168]所提出的最小面積矩形框?qū)ξ谋緟^(qū)域進(jìn)行了標(biāo)記,圖14(a)為手工標(biāo)記的結(jié)果.對(duì)于任意方向排列的文本而言,采用文獻(xiàn)[168]所提出的最小面積矩形框相較軸對(duì)稱矩形框更加緊致(如圖14(b)所示).采用圖14(c)所示方式計(jì)算檢測結(jié)果與Ground-truth之間的覆蓋率,其中G,D分別表示為Ground-truth與檢測結(jié)果.考慮到在計(jì)算G,D之間的覆蓋率時(shí)不夠方便,文獻(xiàn)[39]將G,D按照其中心點(diǎn)CG,CD進(jìn)行旋轉(zhuǎn)至G0,D0所示位置(如圖14(c)所示).G,D之間的覆蓋率定義為
圖13 檢測結(jié)果與Ground-truth匹配模式[166]Fig.13 Matching model of the detection results and ground-truth[166]
圖14 MSRA-TD500數(shù)據(jù)集評(píng)估方法[39]Fig.14 Evaluation method of the MSRA-TD500 datasets[39]
A(G0∩D0)與A(G0∪D0)分別表示G0,D0之間的交集與并集區(qū)域,文獻(xiàn)[39]借鑒了PASCAL目標(biāo)檢測性能評(píng)估方法[169],其具體做法是:當(dāng)G,D之間的傾斜角之差小于π/8且覆蓋率m大于0.5時(shí),則認(rèn)為D為一個(gè)正確的檢測結(jié)果.對(duì)于同一文本行而言,若出現(xiàn)多個(gè)檢測結(jié)果,則根據(jù)降序順序?qū)⒊说谝粋€(gè)檢測結(jié)果以外的其余檢測結(jié)果視為虛警.準(zhǔn)確率(P)與召回率(R)分別定義為
其中,TP,E,T分別表示正確的檢測結(jié)果集合,檢測結(jié)果集合以及Ground-truth集合,綜合評(píng)價(jià)指標(biāo)(F)定義為
各種自然場景文本檢測方法在各類公開數(shù)據(jù)集上進(jìn)行測試,一些代表性的文本檢測方法的測評(píng)結(jié)果如表2所示[170?173].由表2可知,自然場景文本檢測技術(shù)在近幾年得到了長足發(fā)展,比如在ICDAR 2011數(shù)據(jù)庫上的綜合標(biāo)價(jià)指標(biāo)從0.71上升到0.85(2011~2017年),在ICDAR 2015數(shù)據(jù)庫上的綜合標(biāo)價(jià)指標(biāo)從0.50上升到0.81(2015~2017年).
近年來,盡管不少行之有效的文本檢測方法被提出,文本檢測的性能也獲得了大幅度提升,但自然場景文本檢測技術(shù)依然存在著一些不足.
端到端場景文本識(shí)別需要同時(shí)應(yīng)對(duì)文本檢測與文本識(shí)別雙重任務(wù)(如圖11所示),目前針對(duì)端對(duì)端自然場景文本識(shí)別的研究還相對(duì)的單薄;從已發(fā)表文獻(xiàn)所采用的技術(shù)手段來看,大部分工作[34,49,79,88]將端到端場景文本識(shí)別的二個(gè)任務(wù)獨(dú)立地進(jìn)行處理,只有少數(shù)文獻(xiàn)[59,137,143,174]將該問題作為一個(gè)整體來進(jìn)行研究.從ICDAR 2015自然場景文本檢測及識(shí)別競賽[32]的結(jié)果來看,在無語料信息的真實(shí)環(huán)境下的端對(duì)端(End-to-end)場景文本識(shí)別(Task 4.4)的最好識(shí)別率僅為34.96%,由此可見端對(duì)端場景文本識(shí)別性能尚有很大的提升空間.
從目前所提出的自然場景文本檢測方法來看,大多數(shù)方法主要針對(duì)直線方向排列(即:水平排列、垂直排列以及斜線排列)的文本進(jìn)行檢測.然而對(duì)于自然場景文本而言,相鄰文本之間的排列方向具有多樣性,除直線方向排列外,還可能沿弧形等不規(guī)則方向排列.對(duì)于多方向排列的場景文本,其邊界框可能是旋轉(zhuǎn)的矩形或者四邊形,因此很難設(shè)計(jì)有效的方法來統(tǒng)計(jì)相鄰文本之間排列方向的規(guī)律性.此外,形變場景文本的視覺特征的不規(guī)則性也阻礙了該技術(shù)的進(jìn)一步發(fā)展.
根據(jù)2009年聯(lián)合國教科文組織《瀕危語言圖譜》統(tǒng)計(jì)結(jié)果表明,全世界有7000種語言,其中有83種主要語言被80%的人所使用.目前大部分自然場景文本檢測方法只能檢測漢字、英文或者阿拉伯?dāng)?shù)字等單一語種文本或者極少數(shù)混合語種文本,而其他的少數(shù)語種以及混合語種的文本檢測問題卻關(guān)注很少.混合語種文本檢測所遇到的挑戰(zhàn)主要包括:文本種類繁多且不同種類文本的空間結(jié)構(gòu)存在多樣性,從而導(dǎo)致了文本區(qū)域的視覺特征具有很大的差異,以致很難找到區(qū)分性好的描述特征來分類文本區(qū)域與背景區(qū)域,此外,構(gòu)建多分類的識(shí)別框架也是一件困難的工作.
目前的評(píng)價(jià)方法主要采用交并比(Intersectionover-union,IoU)指標(biāo)來評(píng)價(jià)文本檢測結(jié)果,然而該方法并不能很好地反映文本檢測方法的性能.對(duì)于一般性的目標(biāo)檢測問題,如果能檢測出超過50%的IoU,則表明獲得了很好的檢測結(jié)果,然而對(duì)于文本檢測問題而言,即使IoU獲得了大于50%的結(jié)果,也不能保證在后續(xù)的文本識(shí)別與語義理解中能得到很好的結(jié)果,檢測框內(nèi)的內(nèi)容和細(xì)節(jié)同樣對(duì)后續(xù)處理產(chǎn)生很大的影響.目前絕大部分自然場景文本檢測方法采用了ICDAR性能評(píng)價(jià)標(biāo)準(zhǔn),在特定的、小規(guī)模的公開測試數(shù)據(jù)集上進(jìn)行評(píng)估,因此方法性能的魯棒性還有待于進(jìn)一步驗(yàn)證.
對(duì)2017年在 CVPR、ICCV、NIPS、ICDAR等頂級(jí)會(huì)議上發(fā)表的自然場景文本相關(guān)論文進(jìn)行分析后發(fā)現(xiàn),超過80%的自然場景文本檢測論文主要關(guān)注多方向排列的場景文本檢測問題,較少文獻(xiàn)涉及自然場景文本識(shí)別與端對(duì)端自然場景文本檢測與識(shí)別問題,從而導(dǎo)致了目前該領(lǐng)域的研究工作重檢測輕識(shí)別;另外,目前所提出的大部分文本檢測方法主要在一些公共數(shù)據(jù)集上測試性能,相當(dāng)一部分方法為了獲得更高的測試性能,往往簡單地堆積一些領(lǐng)域知識(shí)與反復(fù)調(diào)整參數(shù)(比如采用Faster R-CNN,SSD,FCN,RNN等模式識(shí)別領(lǐng)域知識(shí)),從而導(dǎo)致缺乏創(chuàng)新和深度思考,沒有形成文檔分析領(lǐng)域特色.
表2 近期主流自然場景文本檢測方法性能總結(jié)(數(shù)據(jù)都是原文報(bào)道的結(jié)果,帶(*)標(biāo)記的數(shù)據(jù)是引自相關(guān)論文)Table 2 Performance summary of recent dominant natural scene text detection methods(All results are quoted directly from original papers,except for those marked with(*),which are from a recent related paper.)
從自然場景文本檢測任務(wù)的實(shí)施步驟來看,主要需要解決三個(gè)問題:如何獲得文本候選區(qū)域、如何驗(yàn)證文本候選區(qū)域以及如何得到以單詞為分割單元的檢測結(jié)果.
對(duì)于第一個(gè)問題,可以考慮將自頂向下檢測方法與自底向上檢測方法進(jìn)行綜合運(yùn)用.因?yàn)槲覀冃老驳匕l(fā)現(xiàn),文本在自然場景中通常表現(xiàn)出聚集性,相鄰文本往往具有高度、寬度與顏色的相似性,即便是任意方向排列的文本區(qū)域,其相鄰文本間的排列方向也具有一定的規(guī)律,因此自然場景文本相較其他的物體往往具有顯著的視覺上下文信息.基于自然場景文本的上述特點(diǎn),我們可以考慮將前期自底向上方式處理后所獲得的文本區(qū)域作為種子區(qū)域,然后將種子區(qū)域的大小、排列方向等信息作為先驗(yàn)知識(shí),為后續(xù)將要開展的自頂向下處理方法提供線索,指導(dǎo)其檢測窗口的大小以及搜索方向的設(shè)定,進(jìn)而可以兼顧檢測效率與檢測召回率.
對(duì)于第二個(gè)問題,近年來基于深度學(xué)習(xí)的目標(biāo)檢測方法如Faster R-CNN、YOLO、SSD、R-FCN等為解決文本檢測問題提供了全新的思路.盡管文本檢測屬于目標(biāo)檢測中的一個(gè)特例,但是簡單地把深度學(xué)習(xí)中的目標(biāo)檢測框架應(yīng)用于文本檢測問題可能會(huì)達(dá)不到滿意的效果.然而,自然場景文本所具有的獨(dú)特性以及視覺上下文信息使得其具有了其他場景目標(biāo)所不具備的優(yōu)勢(shì).如果能設(shè)法將文本上下文信息融入深度學(xué)習(xí)框架,有望提升文本檢測系統(tǒng)的整體性能;另外,從訓(xùn)練文本分類器的方式來看,目前主要采用了監(jiān)督學(xué)習(xí)方法,半監(jiān)督,弱監(jiān)督甚至無監(jiān)督方法鮮有人關(guān)注,而事實(shí)上,上述學(xué)習(xí)方式可望在一定程度上減輕方法對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)集的依賴.
對(duì)于第三個(gè)問題,由于受到文本漏檢、誤檢等因素的影響,如果只是單向地通過經(jīng)驗(yàn)或者統(tǒng)計(jì)學(xué)習(xí)方法來設(shè)計(jì)單詞分割規(guī)則,往往難以獲取理想的分割結(jié)果.然而我們注意到,自然場景文本中的單詞絕大部分都是常用單詞,盡管單詞的總數(shù)有幾十萬個(gè),但是根據(jù)Test your vocab網(wǎng)站上兩百萬份測試的結(jié)果,大部分母語為英語人的單詞量為20000~35000之間,國內(nèi)英語專業(yè)研究生畢業(yè)應(yīng)掌握單詞量也才8000以上,因此我們可以考慮基于常用單詞建立字典進(jìn)而對(duì)所分割得到的結(jié)果進(jìn)行對(duì)比,(盡管單詞誤分割后有可能剛好成為一個(gè)新的單詞,但是這樣的幾率相對(duì)很少),在此基礎(chǔ)上可嘗試通過引入反饋機(jī)制來指導(dǎo)單詞分割.比如:如果發(fā)生比對(duì)錯(cuò)誤,則將出錯(cuò)的信息反饋到單詞分割處理的前端,在單詞分割的前端通過對(duì)該出錯(cuò)的單詞調(diào)整其閾值以獲得新的分割結(jié)果.此外,在設(shè)計(jì)自然場景文本檢測方法時(shí),我們還應(yīng)該借鑒計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域的一些新的研究成果,并挖掘一些技巧性處理辦法.
盡管自2012年以來,任意方向排列的自然場景文本檢測成為了該領(lǐng)域的研究熱點(diǎn),然而我們卻發(fā)現(xiàn)絕大部分任意方向排列的文本檢測方法[15,33,50,131?134]的檢測對(duì)象僅僅是直線方向排列(即:水平排列、垂直排列以及斜線排列)的文本,只有極少的文獻(xiàn)[135,136]對(duì)包含弧形排列方向的任意方向排列文本開展了檢測研究.對(duì)任意方向排列的文本進(jìn)行檢測時(shí)將面臨兩個(gè)關(guān)鍵性問題:1)文本區(qū)域描述;2)文本行的形成.
1)對(duì)于第一個(gè)問題,為了適應(yīng)文本的旋轉(zhuǎn)變化,需要設(shè)計(jì)文本級(jí)別以及文本行級(jí)別這兩組旋轉(zhuǎn)不變的描述特征.所幸的是,近年來所提出的深度學(xué)習(xí)方法[15,33,50,131?134]+合成文本數(shù)據(jù)技術(shù)[148?149]已能較好地突破一些傳統(tǒng)手工設(shè)計(jì)的特征[39,101,104]的局限,因此進(jìn)一步提出更優(yōu)的深度學(xué)習(xí)框架是一個(gè)有效的解決方法.即便如此,文本行相比其他獨(dú)立的物體而言,文本具有著特定的空間結(jié)構(gòu)與語義屬性,因此文本滿足一定的“典型性”與“描述性”特點(diǎn).根據(jù)文本行的組成特點(diǎn),除了設(shè)計(jì)更優(yōu)的深度網(wǎng)絡(luò)框架以外,我們還可以借助視覺特性好的文本檢測結(jié)果來提升視覺特性差的文本的檢測效果.文獻(xiàn)[74]采用自底向上策略從局部特征提取角度來描述文本行區(qū)域,為任意方向排列的文本行以及形變文本的檢測問題提供了一種思路.
2)對(duì)于第二個(gè)問題,由于任意方向排列的文本區(qū)域其邊界框可能是旋轉(zhuǎn)的矩形或者是不規(guī)則的四邊形,從而導(dǎo)致傳統(tǒng)的一般物體檢測方法[93,95,175]所采用的矩形檢測框很難有效地應(yīng)對(duì)任意方向排列的文本檢測問題.與此同時(shí),在文本行形成的過程中連接規(guī)則的設(shè)計(jì)也是一個(gè)非常重要的處理步驟,一些基于連接的檢測方法(Linking methods)[33,37,150]首先檢測單個(gè)文本,然后將單個(gè)文本通過一定的連接規(guī)則融合成文本行,然而該方法有一定的缺點(diǎn),當(dāng)出現(xiàn)大量堆疊的文本區(qū)域或者文本尺寸太小的情況時(shí),該類方法往往不能獲得一個(gè)滿意的效果.區(qū)別于傳統(tǒng)的基于連接的文本檢測方法,文獻(xiàn)[136]針對(duì)任意方向排列的文本(包含弧形排列方向)的檢測問題提供了一種新的解決思路,該文獻(xiàn)提出了滑動(dòng)線點(diǎn)回歸(Sliding line point regression,SLPR)方法.文獻(xiàn)[135]在提出基于多邊形的弧形方向排列的文本檢測方法的基礎(chǔ)上,首次推出了包含弧度方向排列文本的數(shù)據(jù)集(SCUT-CTW1500),從一定程度上為更廣泛的任意方向排列的文本檢測研究提供了方便.
自然場景文本檢測屬于一種典型的二分類模式識(shí)別問題,計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域中的其他目標(biāo)檢測方法可以為自然場景文本檢測提供思路.
9.3.1 視覺注意機(jī)制對(duì)文本檢測的影響
文本在自然場景圖像中表現(xiàn)出稀疏性特點(diǎn),大量的背景區(qū)域給真實(shí)文本檢測帶來了極大困難(特別是一些類文本的背景區(qū)域).事實(shí)上,采用視覺注意機(jī)制對(duì)特定目標(biāo)進(jìn)行顯著性檢測時(shí),可以在突出特定目標(biāo)的同時(shí)抑制其他背景信息,進(jìn)而減少背景干擾所帶來的虛警.一些研究者[20,79,176?182]對(duì)自然場景文本的顯著性檢測問題展開了研究,文獻(xiàn)[176?178]的研究結(jié)果表明可以通過構(gòu)建視覺注意模型來表示文本區(qū)域的顯著性.文獻(xiàn)[180]認(rèn)為圖像中的文本區(qū)域并不是所謂“最顯著”的區(qū)域,因此只使用了文獻(xiàn)[183]所提出的視覺注意模型中的強(qiáng)度突出圖作為顯著圖.文獻(xiàn)[79]提出了一種文本–注意卷積神經(jīng)網(wǎng)絡(luò)(Text-attentional convolutional neural network,Text-CNN),并采用了多任務(wù)學(xué)習(xí)的方式訓(xùn)練Text-CNN模型.在訓(xùn)練的過程中將低級(jí)的像素級(jí)信息(分割問題)、高級(jí)的字符多類信息(62類字符識(shí)別問題)以及字符與非字符信息(2類字符分類問題)融合到Text-CNN模型中,從而使得Text-CNN具有強(qiáng)大的識(shí)別歧義文本的能力,同時(shí)也增強(qiáng)了算法在應(yīng)對(duì)復(fù)雜背景時(shí)的魯棒性,最后通過采用訓(xùn)練后的Text-CNN對(duì)圖像進(jìn)行處理進(jìn)而獲得顯著性圖像,在顯著性圖像中文本區(qū)域往往具有高的置信度值,而背景區(qū)域所對(duì)應(yīng)的置信度值較低.最近,He等在文獻(xiàn)[184]中提出了一種視覺注意模型,該方法通過自動(dòng)地學(xué)習(xí)注意圖來初步地獲得文本區(qū)域.區(qū)別于大部分文本顯著性檢測方法,文獻(xiàn)[185]關(guān)注于檢測背景區(qū)域,反向思維地將檢測出的背景區(qū)域去除,從而凸顯待檢測文本區(qū)域.文獻(xiàn)[41]則采用了全卷積網(wǎng)絡(luò)(Fully convolutional network,FCN)直接得到文本區(qū)域的顯著圖(Salient map),然后基于該顯著圖進(jìn)行后續(xù)處理.通過對(duì)上述研究工作的分析我們可以發(fā)現(xiàn),結(jié)合自然場景文本的特點(diǎn)合理地設(shè)計(jì)一個(gè)視覺顯著性模型將有助于自然場景文本檢測問題的解決.
9.3.2 視覺上下文對(duì)文本檢測的影響
諸如人臉檢測、行人檢測以及車輛檢測等其他物體檢測的對(duì)象往往是一些獨(dú)立目標(biāo),然而自然場景文本檢測通常需要檢測一個(gè)文本序列.盡管自然場景文本種類多樣,由不同文本任意組合而成的文本行區(qū)域的視覺特征差異較大,但是我們欣喜地發(fā)現(xiàn):對(duì)于某一特定語種其包含的文本種類是有限的,而且文本序列中的相鄰文本之間通常具有著獨(dú)特的上下文信息,比如:相鄰文本之間具有相近的高度、顏色、筆畫寬度以及均勻的間隔距離等.根據(jù)自然場景文本的上述特點(diǎn),如果我們能合理地利用相鄰文本間的上下文信息,無疑將有助于提高文本區(qū)域的分類正確性.除此以外,自然場景文本檢測的目標(biāo)是判斷給定的圖像區(qū)域中是否包含文本,并不關(guān)心所包含文本的具體種類,因此自然場景文本檢測屬于二分類模式識(shí)別問題,從而為利用視覺上下文信息提供了便利.近年來,一些研究者開始關(guān)注自然場景文本視覺上下文信息對(duì)文本檢測性能的影響,文獻(xiàn)[35,64,74,80,184,186?189]通過利用相鄰文本間的視覺上下文信息設(shè)計(jì)了不同的文本檢測方法并取得了滿意的檢測結(jié)果.通過對(duì)前期研究工作的分析我們可以發(fā)現(xiàn),在深度學(xué)習(xí)的框架內(nèi)合理地融入文本視覺上下文信息可望有效地提升文本檢測的性能.
基于文本的高度抽象描述能力,自然場景文本檢測技術(shù)具有廣泛的應(yīng)用價(jià)值.在應(yīng)用需求的驅(qū)動(dòng)下,目前自然場景文本檢測技術(shù)在一些特定領(lǐng)域中獲得了應(yīng)用,比如:智能交通系統(tǒng)(如:美國Hi-Tech公司的See/Car System以及香港Asia Vision Technology公司的VECON-VIS等);基于內(nèi)容的視頻檢索系統(tǒng)(如:美國卡耐基梅隆大學(xué)的Informedia Digital Video Library[190]以及美國哥倫比亞大學(xué)的WebSeek[191]等);可穿戴/便攜式視覺系統(tǒng)(美國麻省理工學(xué)院的FingerReader[9]以及Goggles[10]等).除了上述應(yīng)用以外,一些研究者還將自然場景文本檢測技術(shù)應(yīng)用到圖像理解[192],文種識(shí)別[193]等領(lǐng)域.相比自然場景文本檢測技術(shù)的潛在應(yīng)用市場,上述應(yīng)用只是“冰山一角”.
文本具有高層的語義信息,而語義信息往往能有助于解決計(jì)算機(jī)視覺中的一些傳統(tǒng)問題以及拓展新的應(yīng)用,比如在特定目標(biāo)(如運(yùn)動(dòng)員、汽車)的跟蹤與重檢測的問題上,我們可以引入運(yùn)動(dòng)員的標(biāo)牌或者汽車的車牌來幫助實(shí)現(xiàn)上述任務(wù);再如無人駕駛汽車的輔助導(dǎo)航問題上,我們也可以通過引入自然場景文本檢測技術(shù)來獲得交通標(biāo)識(shí)信息,通過識(shí)別交通標(biāo)識(shí)牌的語義信息來提高汽車的智能感知與行駛規(guī)劃能力;還有無紙化辦公方面也可望使用文本檢測技術(shù),對(duì)于會(huì)議后書寫在白板上的工作安排,我們只需用智能設(shè)備拍照留存與分析處理,系統(tǒng)將根據(jù)白板上的文本識(shí)別結(jié)果來分類相關(guān)人員的后續(xù)工作.另外,自然場景文本檢測技術(shù)還可以與音頻信息結(jié)合起來共同解決諸如“以詞搜圖”的圖片檢索、地圖定點(diǎn)導(dǎo)航等實(shí)際問題.作為一項(xiàng)面向具體應(yīng)用場景的技術(shù),自然場景文本檢測的應(yīng)用領(lǐng)域?qū)⒃诟鞣N應(yīng)用需求的驅(qū)動(dòng)下不斷拓展、不斷成熟.
1)據(jù)報(bào)道,人臉的識(shí)別在大腦中有專用機(jī)構(gòu)[194?195],那么是否在大腦里存在類似的專用機(jī)構(gòu)處理文本的識(shí)別問題?盡管目前的深度學(xué)習(xí)是最接近人腦思維過程,相信神經(jīng)生物學(xué)家未來的研究成果將有助于深入理解大腦的工作原理,進(jìn)而為構(gòu)造更有效的文本識(shí)別機(jī)制提供依據(jù).
2)盡管深度學(xué)習(xí)在文本表示方面展現(xiàn)出顯著的優(yōu)勢(shì),但是自然場景文本相對(duì)圖片而言其尺寸較小,網(wǎng)絡(luò)的深度太深可能會(huì)對(duì)文本識(shí)別產(chǎn)生大的影響,從而面臨著網(wǎng)絡(luò)的深度規(guī)模如何選取的問題.
3)對(duì)于多語種文本檢測是否會(huì)存在分類性能好且通用的描述特征?通過觀察我們發(fā)現(xiàn):如果一個(gè)中國小孩不學(xué)英文,是不具備檢測與識(shí)別英文文本的能力的.
自然場景文本檢測是計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域中的一個(gè)新興的研究課題,具有重要的理論意義和實(shí)際應(yīng)用價(jià)值.國內(nèi)外許多學(xué)者對(duì)該課題展開了大量研究,然而復(fù)雜自然環(huán)境中所存在的諸多挑戰(zhàn)使得該技術(shù)與實(shí)際實(shí)用仍然有一定距離.為了全面分析文本檢測中的問題,本文對(duì)自然場景文本檢測技術(shù)的研究背景與意義、發(fā)展現(xiàn)狀等內(nèi)容進(jìn)行了闡述、對(duì)該技術(shù)的方法進(jìn)行了詳細(xì)的梳理和評(píng)述,并揭示了它們之間內(nèi)在聯(lián)系、優(yōu)勢(shì)與不足.與此同時(shí),本文介紹了端對(duì)端文本識(shí)別技術(shù),并對(duì)計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域中的一些新發(fā)展對(duì)自然場景文本檢測技術(shù)的影響進(jìn)行了介紹,拓寬了研究思路;本文還對(duì)一些主流數(shù)據(jù)庫進(jìn)行了總結(jié)和評(píng)述,并列舉了目前一些主流方法的性能參數(shù);在此基礎(chǔ)上,對(duì)自然場景文本檢測技術(shù)的未來發(fā)展方向以及該技術(shù)的一些潛在的應(yīng)用領(lǐng)域進(jìn)行了分析與展望.我們有理由相信,計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)步,將極大地促進(jìn)自然場景文本檢測問題的解決;與此同時(shí),文本檢測技術(shù)中的關(guān)鍵性問題的突破也將啟發(fā)計(jì)算機(jī)視覺相關(guān)領(lǐng)域的發(fā)展.