邢寶峻彭曉明王衛(wèi)星
(空軍預(yù)警學(xué)院,湖北 武漢 430019)
近年來,隨著人工智能和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,計(jì)算機(jī)視覺技術(shù)已深入到人們生活的方方面面。在軍事領(lǐng)域,隨著技術(shù)的發(fā)展,雷達(dá)的應(yīng)用也越來越廣泛,而國內(nèi)對(duì)于機(jī)載雷達(dá)視頻的分析依然停留在人工分析階段,不僅效率低,而且容易出現(xiàn)差錯(cuò),部隊(duì)迫切需要一種能夠?qū)C(jī)載雷達(dá)視頻進(jìn)行自動(dòng)化分析和評(píng)估的手段,滿足飛行訓(xùn)練復(fù)盤總結(jié)和飛行訓(xùn)練成績(jī)?cè)u(píng)定的需要,促進(jìn)部隊(duì)實(shí)戰(zhàn)化訓(xùn)練水平的提升。
連接文本提議網(wǎng)絡(luò)(CTPN)是于2016 年在歐洲計(jì)算機(jī)視覺國際會(huì)議提出的一種基于深度學(xué)習(xí)的文字檢測(cè)算法。CTPN 結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)與長短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò),可以有效地檢測(cè)出復(fù)雜場(chǎng)景下水平分布的字符。Tesseract是惠普實(shí)驗(yàn)室在1985~1995年間開發(fā)的一個(gè)開源的光學(xué)字符識(shí)別(OCR)引擎,并于2006 年由谷歌進(jìn)行維護(hù),目前仍是業(yè)內(nèi)識(shí)別精度較高的三大識(shí)別引擎之一。結(jié)合CTPN 與Tesseract對(duì)機(jī)載雷達(dá)視頻中的關(guān)鍵字符進(jìn)行識(shí)別,可以有效識(shí)別出機(jī)載雷達(dá)視頻中的關(guān)鍵字符,為下一步機(jī)載雷達(dá)操縱評(píng)估提供依據(jù)。
采用CTPN 與Tesseract相結(jié)合的方法對(duì)機(jī)載雷達(dá)視頻進(jìn)行識(shí)別,首先要對(duì)視頻進(jìn)行預(yù)處理,將視頻轉(zhuǎn)化為圖像,同時(shí)提高圖像的質(zhì)量,方便進(jìn)行識(shí)別;然后將預(yù)處理得到的圖像輸入到CTPN 網(wǎng)絡(luò)中,實(shí)現(xiàn)字符區(qū)域的檢測(cè);最后調(diào)用Tesseract對(duì)字符進(jìn)行識(shí)別,得到文本進(jìn)行輸出。視頻識(shí)別方法流程如圖1所示。
圖1 基于CTPN 與Tesseract的機(jī)載雷達(dá)視頻識(shí)別方法流程
由于本文對(duì)視頻的識(shí)別主要基于已有的視頻進(jìn)行,所以采用后端視頻識(shí)別方法,先將視頻轉(zhuǎn)化為圖像,而后對(duì)圖像進(jìn)行識(shí)別。因此,需要對(duì)機(jī)載雷達(dá)視頻進(jìn)行分析,首先要完成對(duì)機(jī)載雷達(dá)視頻的預(yù)處理。由于機(jī)載雷達(dá)視頻通常占用空間較大,視頻中存在一定的冗余信息,所以先要對(duì)視頻進(jìn)行壓縮。其次,由于機(jī)載雷達(dá)視頻畫面呈現(xiàn)二值化特點(diǎn),所以無需進(jìn)行灰度處理,可直接將視頻按幀截取成圖像,達(dá)到將視頻轉(zhuǎn)化為圖像的目的。由于圖像數(shù)量較多,單個(gè)識(shí)別時(shí)間較長,為提高識(shí)別效率,采用圖像拼接技術(shù)將截取的圖像進(jìn)行拼接,再對(duì)拼接后的圖像進(jìn)行識(shí)別。最后,由于機(jī)載雷達(dá)視頻本身分辨率較低,且進(jìn)行了圖像的拼接,為提升識(shí)別準(zhǔn)確率,利用形態(tài)學(xué)中圖像的開運(yùn)算,即先腐蝕后膨脹的操作(腐蝕操作可將圖像中影響識(shí)別的孤立的微小“白點(diǎn)”去掉,膨脹操作可以將關(guān)鍵的字符進(jìn)行“擴(kuò)大”,易于識(shí)別,所以通過開運(yùn)算可以起到在纖細(xì)處分離物體和平滑較大物體邊界的作用),達(dá)到使需要識(shí)別的目標(biāo)表面更加平滑的效果,便于進(jìn)行分析與識(shí)別。機(jī)載雷達(dá)視頻預(yù)處理步驟如圖2所示。
圖2 機(jī)載雷達(dá)視頻預(yù)處理步驟
CTPN 創(chuàng)新性地提出了垂直錨,利用垂直錨的回歸機(jī)制,將文本檢測(cè)任務(wù)轉(zhuǎn)化為一連串小尺度文本框的檢測(cè)。同時(shí),CTPN 還引入了雙向長短時(shí)記憶(BLSTM)神經(jīng)網(wǎng)絡(luò)技術(shù)。BLSTM 可用于處理和預(yù)測(cè)序列數(shù)據(jù),與CNN 結(jié)合后,能根據(jù)前后錨的序列來提取字符間的排列關(guān)系特征,找到文本與文本之間的聯(lián)系,最終用文本線構(gòu)造法將各個(gè)錨連接起來,得到文本行,以提升文本檢測(cè)效果。此外,針對(duì)文本檢測(cè)中文本邊緣容易因評(píng)分過低而被丟棄的問題,CTPN 提出了利用邊界細(xì)化來提升文本框邊界預(yù)測(cè)精準(zhǔn)度的方法,極大地提升了文本檢測(cè)的精度。
CTPN 的具體過程如下:
(1) 利用VGG16 網(wǎng)絡(luò)進(jìn)行特征提取。VGG16網(wǎng)絡(luò)中有5個(gè)卷積層,經(jīng)過前4個(gè)卷積層的池化,特征圖的大小與原圖的比例變?yōu)?∶16,即在特征圖上每移動(dòng)1個(gè)像素位置,在原圖上相對(duì)應(yīng)移動(dòng)16個(gè)像素位置。經(jīng)過第5個(gè)卷積層后,可得到最終用于分類和定位的特征圖,大小為××,這里的是寬度,是高度,是通道數(shù)。
(2) 對(duì)特征圖上每個(gè)位置以3×3的窗口進(jìn)行滑窗,每一行都可以得到個(gè)3×3×的特征矩陣,每進(jìn)行一次滑窗,即水平方向每移動(dòng)1個(gè)像素,則對(duì)應(yīng)在原圖水平方向上移動(dòng)16個(gè)像素。而由于CTPN 固定了水平方向上的位置,對(duì)豎直方向上的高度進(jìn)行了預(yù)測(cè),所以每個(gè)滑窗在原圖上對(duì)應(yīng)個(gè)錨,這些錨在水平方向上都是一樣的大小和位置,但在豎直方向上的高度各不相同。
(3) 將得到的特征矩陣按行輸入到雙向LSTM中,即每個(gè)雙向LSTM 中輸入個(gè)3×3×的特征矩陣,可以得到大小為×256的輸出。
(4) 將LSTM 輸出的×256輸入到全連接層(FCL)中。
(5) 全連接層特征輸入到3個(gè)分類或者回歸層中:2個(gè)縱向坐標(biāo),2個(gè)分?jǐn)?shù)和個(gè)的水平偏移量。由于一個(gè)錨用中心位置的高(坐標(biāo))和矩形框的高度2個(gè)值表示,所以1個(gè)錨用2個(gè)縱向坐標(biāo)輸出。而分類層將數(shù)據(jù)分為有字和無字2類,所以有2個(gè)分?jǐn)?shù)。個(gè)的水平偏移量可以稱之為文本框邊緣細(xì)化,這部分主要用來精修文本行的2個(gè)端點(diǎn),表示每個(gè)候選框的水平平移量。
(6) 使用基于圖的文本行構(gòu)造算法,將得到的文本段合并成文本行。
CTPN 架構(gòu)圖如圖3所示。
圖3 CTPN 架構(gòu)圖
2005年,惠普將Tesseract貢獻(xiàn)給開源社區(qū),美國內(nèi)華達(dá)州信息技術(shù)研究所獲得該源碼,同時(shí),谷歌開始對(duì)Tesseract 進(jìn)行功能擴(kuò)展及優(yōu)化。目前,Tesseract作為開源項(xiàng)目發(fā)布在谷歌計(jì)劃(Google Project)上,提供自定義字符庫訓(xùn)練方法,可以通過持續(xù)的訓(xùn)練增加字符庫,不斷增強(qiáng)圖像轉(zhuǎn)換為文本的能力,最終,Tesseract成為了目前公認(rèn)最優(yōu)秀、最精確的開源OCR 系統(tǒng)。
如圖4所示,Tesseract對(duì)字符進(jìn)行識(shí)別通常由5個(gè)部分構(gòu)成:頁面布局分析、查找目標(biāo)塊區(qū)域、定位文本行和單詞并進(jìn)行分割、2次字符分析識(shí)別、模糊區(qū)域改進(jìn)。
圖4 Tesseract識(shí)別架構(gòu)[5]
(1) 頁面布局分析。通過對(duì)文本進(jìn)行頁面布局分析,將圖像中的文本和非文本區(qū)分開,同時(shí)提取出文本區(qū)域,得到圖像中文本區(qū)域的排列布局和分布方式,并檢測(cè)出文本區(qū)域中的字符輪廓。
(2) 查找目標(biāo)塊區(qū)域。Tesseract可以通過對(duì)文本區(qū)域中的排列布局進(jìn)行分析,得到一個(gè)或多個(gè)相互關(guān)聯(lián)的“塊”狀連通區(qū)域,這些“塊”狀區(qū)域即目標(biāo)塊區(qū)域。
(3) 定位文本行和單詞并進(jìn)行分割。在定位完成目標(biāo)塊區(qū)域后,Tesseract通過對(duì)區(qū)域中相鄰字符之間的垂直重疊關(guān)系進(jìn)行檢測(cè),可以得到處于水平狀態(tài)的文本行。對(duì)字符間的水平關(guān)系進(jìn)行檢測(cè)并根據(jù)字符間隔對(duì)文本行進(jìn)行分割,可得到單詞。
(4)
2次分析識(shí)別。Tesseract采用自適應(yīng)分類器依次對(duì)每個(gè)單詞進(jìn)行分析,并將分類后的字符分別與相對(duì)應(yīng)的字典中的樣本進(jìn)行對(duì)比,找出相似度最高的樣本字符進(jìn)行確認(rèn)。同時(shí),自適應(yīng)分類器本身具有“學(xué)習(xí)能力”,可以將先前分析得到的滿足條件的單詞作為訓(xùn)練樣本,增加后面字符識(shí)別的準(zhǔn)確率。
(5) 模糊區(qū)域改進(jìn)。對(duì)于相互粘連的字符形成的模糊區(qū)域,Tesseract會(huì)根據(jù)字體形狀的幾何體頂點(diǎn)作為備選分割點(diǎn)進(jìn)行分割,并根據(jù)識(shí)別置信度來判別字符。如果都失敗,就認(rèn)為字符破損不全,則對(duì)字符進(jìn)行修補(bǔ),而后利用A算法搜索最優(yōu)的字符組合,得到識(shí)別結(jié)果。
為驗(yàn)證該方法的有效性,本文利用已有的機(jī)載雷達(dá)視頻進(jìn)行檢測(cè)。首先將視頻分為樣本集和測(cè)試集2類,其中,樣本集中的視頻要包含所有需要進(jìn)行識(shí)別的關(guān)鍵字符。其次,結(jié)合Tesseract提供的自定義字符庫的訓(xùn)練方法,結(jié)合樣本集,挑選出需要進(jìn)行識(shí)別的關(guān)鍵字符,并進(jìn)行訓(xùn)練,形成機(jī)載雷達(dá)視頻關(guān)鍵字符庫。然后,根據(jù)本文介紹的方法對(duì)測(cè)試集中的視頻進(jìn)行識(shí)別,主要檢測(cè)識(shí)別方法的可靠性。如圖5所示,根據(jù)本文所提方法創(chuàng)建了機(jī)載雷達(dá)視頻識(shí)別軟件,右側(cè)為機(jī)載雷達(dá)視頻,左側(cè)根據(jù)雷達(dá)視頻中的內(nèi)容對(duì)視頻中的字符進(jìn)行區(qū)分,對(duì)測(cè)試集中的視頻進(jìn)行識(shí)別后,由人工對(duì)視頻中每一幀識(shí)別結(jié)果的正確與否進(jìn)行檢驗(yàn),對(duì)視頻中需要識(shí)別的共50 435個(gè)字符進(jìn)行統(tǒng)計(jì)。結(jié)果表明,本文研究的方法對(duì)機(jī)載雷達(dá)視頻關(guān)鍵信息識(shí)別的準(zhǔn)確率達(dá)到86.25%。絕大部分關(guān)鍵字符識(shí)別正確,少數(shù)字符在識(shí)別過程中出現(xiàn)錯(cuò)誤,主要原因是在視頻中非字符部分與字符部分產(chǎn)生了交叉重疊,在CTPN 進(jìn)行字符的檢測(cè)和分割后,Tesseract無法在字符庫中找到與之相匹配的字符,影響了該字符的識(shí)別。隨著所識(shí)別的視頻數(shù)量的增加和訓(xùn)練數(shù)據(jù)的完善,識(shí)別的準(zhǔn)確率也會(huì)逐步提升。
圖5 視頻識(shí)別軟件圖
本文針對(duì)機(jī)載雷達(dá)視頻,提出了基于CTPN 和Tesseract相結(jié)合的視頻識(shí)別方法,通過視頻壓縮、圖像截取、圖像拼接、腐蝕與膨脹等預(yù)處理,借用CTPN 對(duì)字符進(jìn)行檢測(cè),再調(diào)用Tesseract進(jìn)行識(shí)別,最終輸出關(guān)鍵字符的文本。通過實(shí)驗(yàn),驗(yàn)證了該方法的有效性。但該方法也有一定的缺陷,隨著視頻的運(yùn)行,部分字符可能存在與非字符部分交叉的情況,在下一步研究的過程中會(huì)加入視頻的語義分析,根據(jù)視頻前后幀之間的關(guān)聯(lián)關(guān)系進(jìn)行判斷。同時(shí),在得到輸出文本后,將來還可以加入對(duì)關(guān)鍵字符的檢索,有利于快速得到評(píng)估飛行員雷達(dá)操縱水平的數(shù)據(jù)。