一種基于角點與BP神經(jīng)網(wǎng)絡(luò)的文本檢測及定位算法

2016-03-15 19:20唐思源高琦邢俊鳳

現(xiàn)代電子技術(shù) 2016年4期

唐思源　高琦　邢俊鳳

摘要：檢測并提取視頻圖像中的文本信息對視頻圖像和內(nèi)容的理解意義重大。以現(xiàn)有的文本檢測算法為基礎(chǔ)，提出一種基于角點與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的文本檢測算法。該算法首先應(yīng)用多尺度角點算法提取文本角點信息并初步定位文本行，接著提取文本特征，最后應(yīng)用BP神經(jīng)網(wǎng)絡(luò)精確定位文本。實驗結(jié)果表明，此算法與經(jīng)典方法相比具有更高的正確率和魯棒性，視頻中文本的正確檢測率達到90.3%。

關(guān)鍵詞：文本檢測算法；多尺度角點算法； BP神經(jīng)網(wǎng)絡(luò)；文本信息提取

中圖分類號： TN911?34； TP317.4 文獻標(biāo)識碼： A 文章編號： 1004?373X（2016）04?0112?04

Abstract： The detection and extraction of text information in video image has important significance on understanding the video image and content. On the basis of the current text detection algorithm， an text detection algorithm based on the integration of angular?point and BP neural network is proposed. The multi?scale angular?point algorithm is used to extract the text angular?point information and primarily locate the text line， and then extract the text features. Finally the text is precisely located by BP neural network. The experimental results prove this method has higher accuracy and robustness in comparison with the classical method. The correct detection rate of text in the video can reach up to 90.3%.

Keywords： text detection algorithm； multi?scale angular?point algorithm； BP neural network； text information extraction

0 引言

在數(shù)字視頻中，常會有一些文本的信息內(nèi)容，這些文本信息大部分都是對視頻內(nèi)容起到補充及重要內(nèi)容提示的作用。比如，對人物姓名，產(chǎn)品介紹，交通指示標(biāo)牌等文字的說明，這些文字說明有助于人們更好地理解和分析相關(guān)的視頻內(nèi)容。因此，正確地檢測并提取出視頻中的文本信息，對圖像的理解、分析有重要的研究意義。在對視頻幀圖像進行文本檢測時，選取一個合適的文本區(qū)域檢測方法非常重要。因為在視頻幀中，文字與其他背景圖像存在特征差異，所以，研究者們用得最多的方法是基于特征的方法?？梢愿鶕?jù)文字特有的特征，比如：文字的排列多為水平、垂直方向，顏色多為單色，文字的大小是在肉眼觀察范圍內(nèi)，以及文字的筆畫比較豐富等來檢測并定位文本區(qū)域。研究者們可以根據(jù)這些特征，利用基于邊緣檢測或基于角點檢測[1]等方法來確定文本區(qū)域。但應(yīng)用上述等方法只能檢測出一些規(guī)范條件的文本，隨著制作視頻的復(fù)雜及處理圖像的進步，視頻中的文本也越來越多樣化，基于特定規(guī)則的傳統(tǒng)方法已經(jīng)無法檢測出比較復(fù)雜的文本，所以，本文提出了應(yīng)用基于特征的方法與基于學(xué)習(xí)的方法相結(jié)合的思想來更好地檢測文本區(qū)域?；趯W(xué)習(xí)的方法[2]是通過訓(xùn)練學(xué)習(xí)來獲取可靠的參數(shù)模型，通過此模型，可以檢測出在變化因素，如不同尺寸、字體、語種下的文本區(qū)域，從而提高檢測結(jié)果的精度，同時可以增加訓(xùn)練樣本，擴大學(xué)習(xí)區(qū)域來擴充檢測范圍，提高檢測率。

1 視頻中文本的檢測與定位

本文首先應(yīng)用基于角點的方法[3]對潛在文本區(qū)域進行粗檢測，由于采集的視頻中，主要是中文文字，中文的文字筆畫數(shù)比較多，具有大量的角點信息，而且相同的文本區(qū)域中字體和大小都是統(tǒng)一的，應(yīng)用該方法能生成準(zhǔn)確的候選文本區(qū)域。由于背景復(fù)雜等原因，有些和背景相似的文字區(qū)域可能遺漏，本文應(yīng)用BP神經(jīng)網(wǎng)絡(luò)[4]實現(xiàn)文本區(qū)域的精確檢測，精確定位出文本區(qū)域。

1.1 基于角點檢測的粗定位算法

角點和邊緣是圖像比較明顯的特征，視頻圖像中文本筆畫的邊緣及角點信息比較突出，本文通過檢測視頻圖像中角點信息來粗略地定位文本區(qū)域。

1.1.1 角點檢測算法的選取

比較經(jīng)典的角點檢測算法有：moravec，susan，mic和harris等[5]，本文選取harris角點算法來檢測圖像中的角點。傳統(tǒng)方法中檢測圖像的角點信息完全通過閾值來判斷，閾值大了部分角點會檢測不到，閾值小了會把一些非角點信息檢測成角點。為了改進傳統(tǒng)的算法，本文提出了多尺度角點檢測方法，該方法把圖像分割成不同尺度的圖像，在不同尺度的圖像上檢測角點信息，打破了單靠閾值來檢測角點的局限性。通常，尺寸小的參數(shù)可以檢測出細(xì)小的灰度變化，能反映一些特殊點的信息，但對噪聲比較敏感；而尺寸大的參數(shù)可以檢測出差異大的灰度變化，能反映一些劇烈變化點的信息，對噪聲不敏感。

1.1.2 多尺度角點算法實現(xiàn)

本文獲取的圖像都是彩色圖像，彩色圖像色彩變化大，獲取角點比較困難。首先將彩色圖像轉(zhuǎn)化成灰度圖像。本文應(yīng)用平均值法將彩色圖像轉(zhuǎn)化成灰度圖像，如圖2所示。

多尺度角點檢測算法流程圖如圖3所示。角點檢測后圖像的角點分布圖如圖4所示。

1.1.3 偽角點的濾除

由于文本區(qū)域角點分布比較集中、有一定規(guī)律，而非文本區(qū)域的角點分布雜亂無章。根據(jù)文本的特征，本文通過角點濾波算法[6]，去除偽角點。

其步驟如下：

Step1：文本信息基本都是按行排列，本文設(shè)定閾值n=5。用[corners（i）]表示統(tǒng)計后每一行角點的數(shù)目，如果[corners（i）≤N]，則第i行為非文本角點，否則為文本行角點。

Step2：有一些成片的干擾噪聲，通過模板運算去除。定義2個模板：[M1]為[8×10]，[M2]為[8×20]，用[Ni]表示每個模板對應(yīng)的閾值，本文設(shè)[N1=3，N2=4]。用[cornersP，Mi]表示在角點P處落在模板[Mi]里的總角點數(shù)，如果[cornersP，Mi

如圖5所示為經(jīng)過角點濾波算法去除偽角點的角點分布圖，根據(jù)去除前后對比，大部分偽角點信息都被去除，證明該算法是合理可行的。

1.1.4 二值化處理

圖像二值化[7]是把圖像分割成只有背景（黑色）和對象（白色）的一種操作，通過設(shè)定閾值來對圖像進行二值化。本文通過反復(fù)試驗的方法，來選取閾值，直到圖像產(chǎn)生比較好的區(qū)分結(jié)果為止。通過創(chuàng)建一個圖形控件來改變閾值的大小，確定閾值后，像素灰度值與閾值之差小于30，將像素置為0，即為黑色，否則置為255，即為白色。處理后的結(jié)果如圖6所示。

1.1.5 文本區(qū)域的粗定位

經(jīng)過二值化處理后，可以觀察到文本區(qū)域的角點比較分散，為了將角點聚集成塊，對其進行形態(tài)學(xué)運算[8]。通過形態(tài)學(xué)的膨脹運算將分散的角點連成片，再進行腐蝕運算去除周邊及內(nèi)部的孤立點，如圖7所示，經(jīng)過粗定位后，已經(jīng)去除了大部分背景區(qū)域，也盡可能多地留下文本區(qū)域，而且在一定程度上保證了文本區(qū)域不會被漏掉。

1.2 基于BP神經(jīng)網(wǎng)絡(luò)文本區(qū)域的精確定位

在完成文本區(qū)域的粗檢測后，有一些和文字筆畫及特征相似的區(qū)域被誤判為文本區(qū)域。本文繼續(xù)用紋理分析的方法去掉干擾的背景區(qū)域。最后經(jīng)過BP神經(jīng)網(wǎng)絡(luò)的鑒別，真實的文本將被定位出來。

1.2.1 Gabor濾波及文本特征的提取

Gabor[9]是一種窄帶帶通濾波器，主要是在方向上提取圖像的紋理特征，特別對文本的筆畫方向比較敏感。一般文字的筆畫特征比較豐富，筆畫方向基本都集中在垂直、水平、兩個對角線方向，且表現(xiàn)出一定的周期性，文字的筆畫可以看成是一種特殊的紋理，利用Gabor濾波器提取文字方向特性并結(jié)合一些其他的紋理特征可以很好地將文本與背景分開。

本文把圖像分成4×4個子區(qū)域，應(yīng)用多尺度Gabor濾波器對候選區(qū)的4個方向進行濾波。對每個子區(qū)域的候選區(qū)域提取均值、方差、能量、熵、慣量和局部統(tǒng)一性6個紋理特征[10]。計算Gabor特征向量為4×4×4=64維；同理，提取6個紋理特征的向量為4×4×6=96維，對這兩類特征進行歸一化后，將這兩類特征級聯(lián)就可以得到最終文本特征向量，該特征向量的維數(shù)為160維。

1.2.2 特征選擇

一共提取了160個特征，但并不是把所有提取的特征都放入特征訓(xùn)練集中，有一些特征相近的特征值選取其中一到兩個放入訓(xùn)練集中就可以，這樣可以減少特征提取的時間。本文通過生成圖像的傅里葉變換，并對變換數(shù)據(jù)進行分類，以便得到一組量度。通過量度值來選擇文本的紋理特征，經(jīng)過測試一共選取24個特征來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

1.2.3 BP神經(jīng)網(wǎng)絡(luò)定位及分類

在本課題的實驗中，應(yīng)用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)對文本的定位。BP網(wǎng)絡(luò)輸入層和輸出層的神經(jīng)元個數(shù)由試驗得出均為5；隱含層神經(jīng)元數(shù)目的確定一直沒有通用的方法。因此，設(shè)計一個可以在一定范圍內(nèi)調(diào)整隱層神經(jīng)元個數(shù)的BP網(wǎng)絡(luò)結(jié)構(gòu)，采用函數(shù)traingdx對網(wǎng)絡(luò)進行訓(xùn)練，該函數(shù)的學(xué)習(xí)算法是梯度下降動量法，而且學(xué)習(xí)速率是自適應(yīng)的。通過誤差對比，確定最佳的隱含層神經(jīng)元個數(shù)，得出網(wǎng)絡(luò)的訓(xùn)練誤差，如表1所示。

表1表明，在經(jīng)過2 000次訓(xùn)練后，隱含層神經(jīng)元為26的BP網(wǎng)絡(luò)對函數(shù)的逼近效果最好，它的誤差最小，而且網(wǎng)絡(luò)經(jīng)過232次訓(xùn)練就達到了目標(biāo)誤差。在BP反向傳播學(xué)習(xí)算法中，初始值采用隨機分配值的方法，這樣做是為了取得分布均勻的小數(shù)，但是這樣就為測試帶來了不便，因為沒有一個基準(zhǔn)點進行比較。因此，本文對誤差反向傳播訓(xùn)練算法進行改進，根據(jù)文本的特征，采取如下測試方法：

取50次學(xué)習(xí)平均值，運行程序50次，設(shè)定學(xué)習(xí)速率0.5，動向量0.5，輸入24節(jié)點，輸出2節(jié)點，誤差e<0.000 01，學(xué)習(xí)結(jié)束。本文共收集樣本161份，其中彩色圖像55份、視頻圖像52份、場景圖像54份。在彩色圖像中取35份、視頻圖像中取27份、場景圖像中抽取25份作為訓(xùn)練的樣本集，其余部分用作測試樣本集，使用改進后的BP算法進行試驗對比，括號內(nèi)的是改進的算法結(jié)果，如表2所示。

2 實驗結(jié)果

本文在Matlab 7.0開發(fā)環(huán)境中實現(xiàn)，實驗數(shù)據(jù)集中隨機選取新聞類、不規(guī)則文本類和廣告類三類，視頻數(shù)據(jù)圖像共500余張，在視頻文本定位中通過查全率R和精確率P來度量定位算法的性能[12]：查全率R=正確檢測到的文本數(shù)/視頻中的文本總數(shù)；精確率P=檢測正確文本區(qū)域數(shù)/檢測文本區(qū)域總數(shù)。經(jīng)過實驗后，對前后改進的定位算法數(shù)據(jù)進行了對比，其結(jié)果如表3所示。

由表3分析測試結(jié)果可見，該算法可以提取出大部分的文本區(qū)域，特別是新聞類視頻文本具有較高的準(zhǔn)確性，從數(shù)據(jù)看出，本文改進的算法對廣告類視頻定位的準(zhǔn)確率同樣優(yōu)于改進前的定位結(jié)果，改進前與改進后部分對比圖如圖9、圖10所示。

由圖9、圖10可知，改進后的定位算法很好地提取了大小不一的字體，避免了較大字符的漏檢，提高了定位精度，同時提高了對背景復(fù)雜的文字區(qū)域的檢測精度，但也存在對模糊文本區(qū)域的漏檢情況。實驗表明，本文提出的算法對于檢測定位文本區(qū)域具有良好的準(zhǔn)確性和魯棒性，平均正確的檢測率達到了90.3%。

參考文獻

[1] WU H C， CHANG C C. A novel digital image watermarking scheme based on the vector quantization technique [J]. Computers & security， 2005， 24（6）： 460?471.

[2] LIANG C W， CHEN P Y. Dwt based text localization [J]. International journal of applied science and engineering， 2014， 2（1）： 105?116.

[3] JUNG K， KIM K I， JANI A K. Text information extraction in images and video： a survey [J]. Pattern recognition， 2004， 37（5）： 977?997.

[4] 王學(xué)武，譚得健.神經(jīng)網(wǎng)絡(luò)的應(yīng)用與發(fā)展趨勢[J].計算機工程與應(yīng)用，2003，39（3）：98?100.

[5] 陳又新，劉長松，丁曉青.復(fù)雜彩色文本圖像中字符的提取[J].中文信息學(xué)報，2003，17（5）：55?59.

[6] 章毓晉.圖像處理與分析技術(shù)[M].北京：清華大學(xué)出版社，2000.

[7] 王曉丹.基于Matlab的系統(tǒng)分析與設(shè)計[M].西安：西安電子科技大學(xué)出版社，2000.

[8] 楊淑瑩.圖像模式識別[M].北京：清華大學(xué)出版社，2005.

[9] 岡薩雷斯.數(shù)字圖像處理[M].北京：電子工業(yè)出版社，2004.

[10] 郝文化，董秀芳.Matlab圖形圖像處理應(yīng)用教程[M].北京：中國水利水電出版社，2004.

[11] 歐文武，朱軍民，劉昌平.視頻文本定位[J].計算機工程與應(yīng)用，2004，40（30）：65?67.

[12] 陳又新，劉長松，丁曉青.復(fù)雜彩色文本圖像中字符的提取 [J].中文信息學(xué)報，2003，17（5）：55?59.

[13] 張引，潘云鶴.面向彩色圖像和視頻的文本提取新方法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報，2002，14（1）：36?40.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于角點與BP神經(jīng)網(wǎng)絡(luò)的文本檢測及定位算法