劉明珠 鄭云非 樊金斐 于芳
摘要:通過對視頻圖像進(jìn)行快速、準(zhǔn)確的文本定位與識別,有利于提高視頻信息處理的效率與準(zhǔn)確率,采用Gabor濾波器實現(xiàn)在橫、豎、撇、捺四個方向上的視頻圖像的紋理特征的提取,再通過RBM逐層增量深度學(xué)習(xí)算法構(gòu)建深度置信網(wǎng)絡(luò),實現(xiàn)對提取的紋理特征圖像中文本區(qū)域的定位.論文同時研究了利用形態(tài)學(xué)處理方法和OCR字符庫實現(xiàn)對視頻圖像文本識別的可行性,并分析了識別效果,測試結(jié)果表明,本文提出的深度學(xué)習(xí)算法與形態(tài)學(xué)字符識別方法相結(jié)合,不但能夠?qū)崿F(xiàn)對視頻圖像文本區(qū)域的準(zhǔn)確定位,還有利于提高字符識別的效率和準(zhǔn)確率。
關(guān)鍵詞:深度學(xué)習(xí)算法;視頻圖像;文本區(qū)域定位;形態(tài)學(xué)去噪;字符識別
DoI:10.15938/j.jhust.2016.06.012
中圖分類號:TP391.43
文獻(xiàn)標(biāo)志碼:A
文章編號:1007-2683(2016)06-0061-06
0.引言
視頻中的文字檢測與識別是視頻圖像檢測領(lǐng)域的一項重要研究內(nèi)容.在復(fù)雜背景下,視頻文本的準(zhǔn)確定位與識別有利于進(jìn)行視頻圖像檢測,只有準(zhǔn)確的視頻文本區(qū)域的定位,才能提高OcR字符識別系統(tǒng)的文本識別準(zhǔn)確率,進(jìn)而提高基于內(nèi)容的視頻圖像的正確檢測的效率,對視頻定位與檢索有十分重要的應(yīng)用價值,一般的文本定位方法主要包括:邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機(jī)器學(xué)習(xí)法等,本文采用2D-Gabor濾波器與深度學(xué)習(xí)算法相結(jié)合的方法,實現(xiàn)對復(fù)雜背景視頻中文本區(qū)域的定位,并研究了基于形態(tài)學(xué)的視頻圖像去噪方法,再通過OCR系統(tǒng)實現(xiàn)字符的識別,以提高OCR系統(tǒng)字符識別的準(zhǔn)確率。
1.深度學(xué)習(xí)視頻文本區(qū)域定位與識別流程
本文將深度學(xué)習(xí)算法理論應(yīng)用于視頻文本區(qū)域定位與識別過程,設(shè)計了一種基于紋理特征的逐層增量深度學(xué)習(xí)算法.該算法的處理流程如圖1所示.首先,將視頻圖像通過Gabor濾波器濾波,獲得視頻圖像文本中文字的紋理特征;接著,將紋理特征作為訓(xùn)練樣本,利用受限玻爾茲曼機(jī)(restricted bolt-zmann machine,RBM)逐層對紋理圖像進(jìn)行增量學(xué)習(xí),在學(xué)習(xí)過程中,用標(biāo)記樣本作為監(jiān)督數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)微調(diào),構(gòu)成深度置信網(wǎng)絡(luò)(deep belief network,DBN),并標(biāo)記文本區(qū)域和背景區(qū)域的二值圖像;之后,利用形態(tài)學(xué)方法對二值圖像去噪處理,再映射到定位圖像上,得到僅包含文本區(qū)域而去除背景區(qū)域的文本圖像,最后,再將圖像進(jìn)行二值化、灰度等后續(xù)處理,送入到OCR字符識別系統(tǒng)進(jìn)行字符識別.
2.逐層增量深度學(xué)習(xí)視頻文本定位算法
2.1視頻圖像紋理特征的提取
字符的紋理具有周期性,并且在一定的頻率范圍內(nèi)能量相對集中,所以可以利用二維Gabor濾波器對視頻圖像在不同尺度和方向上進(jìn)行濾波,Gabor濾波器理論最早由Daugman提出,能夠很好地描述對應(yīng)于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息。
鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成,所以Gabor濾波器要求能夠在這4個方向上反映中文字符的筆畫特征,并且要求能夠保證對這4個方向紋理區(qū)域的頻率分量均有很好的響應(yīng)。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關(guān)系,發(fā)現(xiàn)Gabor濾波器的中心頻率與周期入成倒數(shù)關(guān)系,且周期入是筆畫寬度η的一半,當(dāng)筆畫的方向與Gabor濾波器的方向處于正交時,Ga-bor濾波器輸出最優(yōu),因此,可以通過筆畫的寬度來確定Gabor濾波器的中心頻率,本文中Gabor濾波器所選擇的參數(shù)為低頻中心頻率U1,/sub>=0.2,高頻中心頻率U,sub>h0.4,方向數(shù)和尺度數(shù)分別為T=4,M=4。
圖2(b)所示為圖2(a)原視頻圖像在橫、撇、豎、捺4個方向進(jìn)行Gabor濾波后的結(jié)果.由圖2(b)可知,Gabor濾器能夠?qū)⑽淖旨y理和背景紋理分離,并使文字在橫、撇、豎、捺4個方向的紋理信息得到保持,同時背景區(qū)域的紋理被有效的抑制。
2.2深度學(xué)習(xí)算法基本原理
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中的一個新問題,其目的在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)算法是由深信度網(wǎng)絡(luò)(depth be-lief network,DBN)上的一系列受限玻爾茲曼機(jī)(re-stricted bohzmann machine,RBM)的概率模型組成.深度學(xué)習(xí)算法一般描述過程如下:假設(shè)有一個系統(tǒng)s,它有n層,S1,S2....Sn設(shè)輸入為I,輸出為o,學(xué)習(xí)的一般過程表示為:I=S1=S2,…Sn=O,如果輸出O等于輸入I即輸入I經(jīng)過這個系統(tǒng)變化之后沒有任何的信息損失或者損失很小,可以看作基本上保持不變,這意味著輸入,經(jīng)過每一層Si,都幾乎沒有信息的損失,即任何一層SI,都是原有信息(即輸入i)的另外一種表示,深度學(xué)習(xí)算法的核心思路有:①無監(jiān)督學(xué)習(xí)用于每一層網(wǎng)絡(luò)的預(yù)訓(xùn)練;②每次用無監(jiān)督學(xué)習(xí)只訓(xùn)練其中一層,將其訓(xùn)練結(jié)果作為其高一層的輸入;③用自頂而下的監(jiān)督算法去調(diào)整所有層。
2.3深度學(xué)習(xí)網(wǎng)絡(luò)(DBN)的構(gòu)建
本文采用的深度置信網(wǎng)絡(luò)的深度學(xué)習(xí)算法,是通過一系列受限波爾茲曼機(jī)(RBM)的概率模型組成.Hinton和sejnowski等設(shè)計了一種能夠用在機(jī)器學(xué)習(xí)中的隨機(jī)循環(huán)網(wǎng)絡(luò)一受限波爾茲曼機(jī),它是一種如圖3所示的兩層無向圖模型,包含可視層v和隱藏層h,同時限制同一層節(jié)點之間的連接,而不同的單元層之間有連接。
2.4網(wǎng)絡(luò)訓(xùn)練與權(quán)值調(diào)整
DBN網(wǎng)絡(luò)需要進(jìn)行訓(xùn)練以獲得最佳權(quán)值,通常DBN網(wǎng)絡(luò)訓(xùn)練包括自底向上非監(jiān)督學(xué)習(xí)和自頂向下的監(jiān)督學(xué)習(xí)兩個部分,其過程為先對紋理特征圖像采用RBM進(jìn)行逐層增量學(xué)習(xí),應(yīng)用最大似然估計法不斷地調(diào)整網(wǎng)絡(luò)中權(quán)值,使RBM達(dá)到能量平衡,再用監(jiān)督數(shù)據(jù),對整個DBN網(wǎng)絡(luò)進(jìn)行微調(diào),
在非監(jiān)督學(xué)習(xí)過程中,DBN網(wǎng)絡(luò)中每一個狀態(tài)值都對應(yīng)一層的結(jié)點,計算的輸入輸出數(shù)據(jù)都是對應(yīng)結(jié)點狀態(tài)值為“1”的概率值,而Hn層的輸入向量是每個文字區(qū)域的紋理樣本,通過交替的吉布斯采樣后,作為DBN網(wǎng)絡(luò)的輸入.設(shè)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)包含n個隱藏層,每層的節(jié)點數(shù)分別是L1,L1,…,LN,紋理特征圖像送入到DBN網(wǎng)絡(luò)中的輸入層Ho層,不斷的調(diào)整Hn和H1,之間權(quán)值Wo,根據(jù)式(8)、(9)將調(diào)整得到的權(quán)值Wn與初始數(shù)據(jù)根據(jù)式(7)計算出一組新的概率送入H1層,作為H1層的輸入數(shù)據(jù).重復(fù)上述計算過程得到WS1,WS1,…,Wn-1最終得到DBN網(wǎng)絡(luò)的初始權(quán)值Wi={Wo,w1,W2,…,Wn-1},DBN網(wǎng)絡(luò)包含n+2層,即H0,H1,H2,…,Hn層和樣本標(biāo)簽數(shù)據(jù)層,其中HSn作為輸入層,其節(jié)點數(shù)為64,標(biāo)簽樣本層為輸出層,中間n層的節(jié)點數(shù)分別是L1,L2,LSn,…采用無標(biāo)注的訓(xùn)練樣本構(gòu)建DBN網(wǎng)絡(luò),以HSo和H1之間的訓(xùn)練為例,HSn和Hn,層構(gòu)成了一個RBM,HN與可見層移的節(jié)點數(shù)相同,H1,與隱藏層h的節(jié)點數(shù)相同,利用交替的吉布斯抽樣來調(diào)整權(quán)值WSn,直到RBM收斂。
在非監(jiān)督學(xué)習(xí)過程中,保存RBM調(diào)整得到的權(quán)值,并作為自頂向下的監(jiān)督學(xué)習(xí)的初始權(quán)值,與監(jiān)督學(xué)習(xí)過程一樣,根據(jù)樣本的標(biāo)注,采用梯度下降法再次微調(diào)權(quán)值,這里,RBM網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)采用同樣的網(wǎng)絡(luò)結(jié)構(gòu),都具有相同的輸入層和隱藏層,包括每層的節(jié)點數(shù)目也都相同,只是DBN網(wǎng)絡(luò)最后還有一個輸出層.DBN網(wǎng)絡(luò)訓(xùn)練過程如圖4所示,
3.形態(tài)學(xué)視頻圖像去噪處理
通過深度置信網(wǎng)絡(luò)法對文本區(qū)域準(zhǔn)確定位后,再根據(jù)字符的特征,采用形態(tài)學(xué)處理方法實現(xiàn)對空洞區(qū)域和孤立點進(jìn)行填充、去噪、腐蝕以及膨脹等操作,最后再將獲得的標(biāo)記二值圖像映射到原圖像,實現(xiàn)清晰背景的文本圖像。
針對圖像中存在的孤立點噪聲問題,通過鄰域背景區(qū)域形態(tài)學(xué)比較,修改標(biāo)記二值圖像中孤立點背景區(qū)域值,實現(xiàn)孤立點去噪處理,如在標(biāo)記二值圖像過程中,由于字符之間存在間隔和中文標(biāo)點符號,經(jīng)過DBN網(wǎng)絡(luò)處理后,該區(qū)域易被判定為背景區(qū)域,此時需要根據(jù)形態(tài)學(xué)法進(jìn)行背景填充,即將背景區(qū)域值“0”修改為文字區(qū)域值“1”,為消除視頻圖像中次要文本區(qū)域的定位,以達(dá)到對視頻中主要文字信息的提取與識別,本文采用了基于形態(tài)學(xué)的圖像腐蝕與膨脹方法。
選用原點位于中心的5×5對稱結(jié)構(gòu)元素作腐蝕和膨脹運算,由于腐蝕運算,在去除噪聲點的同時,會對圖像中文本區(qū)域的形狀有影響,故在進(jìn)行腐蝕運算,去除部分噪聲點后,再進(jìn)行膨脹運算以消除腐蝕運算之后對文本區(qū)域的影響。
經(jīng)過DBN網(wǎng)絡(luò)、形態(tài)學(xué)去噪處理以及圖像映射后的效果如圖5所示,由圖5所示可見視頻圖像在經(jīng)過訓(xùn)練的DBN網(wǎng)絡(luò)處理后,可以有效定位出字符、文本區(qū)域信息,如圖5(b)所示;而經(jīng)過形態(tài)學(xué)處理后圖像中的噪點和不連續(xù)點被有效去除,獲得清晰的文本區(qū)域圖像,如圖5(c)所示。
4.OCR字符識別及結(jié)果分析
視頻圖像文本區(qū)域定位都是從最底層特征映射出相應(yīng)的頂層特征,依次層層映射,直到得到最頂層的結(jié)果。
通過對DBN網(wǎng)絡(luò)及經(jīng)形態(tài)學(xué)處理后文本區(qū)域,進(jìn)行二值化處理,去除與邊界相連的區(qū)域,將文本域背景黑白反轉(zhuǎn),再送到OCR軟件進(jìn)行識別。圖6所示為圖5中視頻幀圖像中的一段文本區(qū)域的二值反轉(zhuǎn)圖像,圖7為此二值反轉(zhuǎn)圖像經(jīng)OCR識別后的結(jié)果。
將本文提出的逐層增量深度學(xué)習(xí)算法與神經(jīng)網(wǎng)絡(luò)、經(jīng)典Kim方法以及SVM方法對文本區(qū)域的定位作對比.采用式(12)中的查全率(RR)、查準(zhǔn)率(PR)以及系數(shù)F來綜合評價這幾種方法的使用效果。
其中:c為圖像中正確檢測到的文本區(qū)域個數(shù);m為圖像中檢測到的文本區(qū)域總數(shù);n為圖像中實際存在的文本區(qū)域總數(shù);F系數(shù)用來對各個算法性能進(jìn)行綜合排名,是將查全率和查準(zhǔn)率這兩個性能的指標(biāo)線性合并而成。
4.1不同網(wǎng)絡(luò)結(jié)構(gòu)的比較
為研究不同DBN網(wǎng)絡(luò)結(jié)構(gòu)對算法性能的影響,故測試了不同DBN網(wǎng)絡(luò)層數(shù)的性能,實驗結(jié)果如表1所示,測試數(shù)據(jù)表明,隨著網(wǎng)絡(luò)層數(shù)的增加,DBN網(wǎng)絡(luò)的正確率逐步提高,網(wǎng)絡(luò)的逼近能力逐步增強(qiáng),但是,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)的復(fù)雜度也會不斷的增加,網(wǎng)絡(luò)的泛化力會逐步降低,所以并不是網(wǎng)絡(luò)層數(shù)越多越好,實驗中,認(rèn)為4-DBN網(wǎng)絡(luò)能夠滿足文本區(qū)域的需求,因此后續(xù)實驗選擇4-DBN網(wǎng)絡(luò)為基準(zhǔn)。
4.2與其他方法的比較
通過選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下,采用如上4種不同方法對文本區(qū)域進(jìn)行定位和對比,測試結(jié)果如表2所示。
從表2的試驗結(jié)果對比可以看出,DBN網(wǎng)絡(luò)文字區(qū)域定位的效果要明顯優(yōu)于其它3種方法,其查全率和查準(zhǔn)率均高于Kim和SVM法,并且其F系數(shù)也是最高的.針對表1中DBN網(wǎng)絡(luò)正確定位的文本區(qū)域總數(shù)378個,總字符數(shù)為5059個,進(jìn)行文本識別實驗,經(jīng)二值化和形態(tài)學(xué)去噪處理后再進(jìn)行OCR識別,表2測試結(jié)果表明,DBN網(wǎng)絡(luò)在文本定位方面與其他3種算法有著明顯的優(yōu)勢.通過正確定位出文本區(qū)域,使對視頻中的文本字符的正確識別率也明顯提高,保障了后續(xù)文本識別的正確率.
5.結(jié)論
本文將深度學(xué)習(xí)算法應(yīng)用在了文字區(qū)域的定位與識別中,根據(jù)文字區(qū)域的紋理特征,利用Gabor濾波器提取這些特征,通過逐層增量深度學(xué)習(xí)調(diào)整DBN網(wǎng)絡(luò)進(jìn)行文本區(qū)域定位,并對定位后的結(jié)果采用形態(tài)學(xué)等后續(xù)處理與OCR識別,實驗結(jié)果表明,逐層增量深度學(xué)習(xí)算法具有較高的定位準(zhǔn)確性,有利于視頻文本的正確識別。