李敏強(qiáng),哈力旦·阿布都熱依木,閆 軻
(新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊 830047)
?
一種改進(jìn)型局部二值模式的維吾爾文定位算法
李敏強(qiáng),哈力旦·阿布都熱依木,閆 軻
(新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊 830047)
針對(duì)自然場(chǎng)景中復(fù)雜的背景紋理對(duì)文本區(qū)域檢測(cè)的干擾,提出了一種改進(jìn)型局部二值模式(ULBP)提取算法,用于維吾爾文文本特征提取,并用獲得的特征向量對(duì)候選維吾爾文本區(qū)域進(jìn)行分類。本算法首先利用同質(zhì)化映射來構(gòu)建圖像的同質(zhì)化空間;然后,在同質(zhì)化空間利用角點(diǎn)檢測(cè)快速獲取候選文本區(qū)域;最后,在候選文本區(qū)域里提取ULBP特征,把這些特征導(dǎo)入訓(xùn)練后的支持向量機(jī)(SVM)即可獲得精確的文本區(qū)域。實(shí)驗(yàn)結(jié)果表明:ULBP特征對(duì)維吾爾文本區(qū)域具有較高的區(qū)分度,且能使誤檢率降低到8.3%,魯棒性較強(qiáng)。
維吾爾文文本定位;自然場(chǎng)景;改進(jìn)型局部二值模式;支持向量機(jī)
自然場(chǎng)景圖像中的文字包含了很多重要的語義信息。由于文字的字體、大小、方向、位置的千變?nèi)f化,背景紋理豐富,顏色復(fù)雜,受獲取條件限制或被其他物體遮擋等因素,給文本檢測(cè)帶來了極大的困難。
目前,文本區(qū)域的定位提取算法大致分為基于邊緣、連通區(qū)和紋理等定位算法[1-3]。這些方法在對(duì)中、英字符的處理中都取得了一定的成果,但不同于中、英文字符,維吾爾文由32個(gè)字母組成,并且有120多個(gè)字符形式,其多變、復(fù)雜的結(jié)構(gòu)使得對(duì)自然場(chǎng)景中維吾爾文本的定位更具有挑戰(zhàn)性。
目前,對(duì)自然場(chǎng)景中維吾爾文本定位的研究處于起步階段。文獻(xiàn)[4]提出利用RGB彩色邊緣紋理特征對(duì)視頻圖像中的維吾爾文進(jìn)行處理,但其并未考慮維吾爾文獨(dú)特的紋理特征,導(dǎo)致背景紋理和文本紋理區(qū)分度不高,檢測(cè)效果不太理想。文獻(xiàn)[5]提出的方法對(duì)自然場(chǎng)景中背景復(fù)雜的圖像魯棒性較差。文獻(xiàn)[6]提出利用小波特征進(jìn)行定位,由于其并未考慮鄰域點(diǎn)信息,導(dǎo)致誤檢率較高。文獻(xiàn)[7]用到了基線特征,但其只適合于水平文字定位,對(duì)傾斜的文字檢測(cè)、定位效果不佳,魯棒性較差。
本文先通過同質(zhì)化映射來增強(qiáng)文本區(qū)域紋理。然后,充分結(jié)合維吾爾文獨(dú)特的結(jié)構(gòu)特征提出了一種改進(jìn)型局部二值模式特征,即ULBP,將其用于候選文字區(qū)域的分類確認(rèn)。該方法不僅考慮了文本區(qū)域的局部特殊性,還充分結(jié)合維吾爾文結(jié)構(gòu)特征加強(qiáng)了背景紋理和文本區(qū)域紋理的區(qū)分度。
1.1 局部二值模式特征
局部二值模式(LBP)算子[8]是一種無參數(shù)的操作符,其具有灰度單調(diào)和旋轉(zhuǎn)不變性,是圖像局部特征的有效表征。局部二值模式(LBP)算子的計(jì)算公式如下:
(1)
其中:ic表示窗口中心像素(xc,yc)的灰度值;in是以(xc,yc)為中心,半徑為R的P個(gè)等間隔分布的鄰域像素灰度值,當(dāng)鄰域值不能準(zhǔn)確落入像素中心時(shí),采用雙線性插值方法進(jìn)行估計(jì)相鄰像素的灰度值。函數(shù)s(x)定義如下:
(2)
對(duì)于一個(gè)(P,R)=(8,1)鄰域模板,LBP的編碼過程計(jì)算如圖1所示。
圖1 局部二值模式計(jì)算過程
1.2 ULBP特征
盡管傳統(tǒng)的LBP特征在字符紋理分類上取得了不錯(cuò)的效果,但仍存在如下問題:
(Ⅰ)文本檢測(cè)中把上下顛倒的文本區(qū)域和正常文本區(qū)域歸為一類文本,但依據(jù)LBP特征會(huì)將其誤判為兩種不同的文本(其LBP直方圖是兩種不同的形式)。
(Ⅱ)無法有效區(qū)分鄰域灰度值與中心灰度值相等和鄰域灰度值遠(yuǎn)大于中心灰度值時(shí)鄰域像素點(diǎn)的區(qū)別。
為了解決上述問題,已經(jīng)有學(xué)者提出了拓展局部二進(jìn)制模式(eLBP)[9]、多級(jí)eLBP[10]等改進(jìn)方法,很好地描述了漢字邊緣,但對(duì)于維吾爾文字卻不太適用。維吾爾文字有著自身獨(dú)特的結(jié)構(gòu)特點(diǎn),其主要特點(diǎn)[11-13]如下:
(Ⅰ)維吾爾文的結(jié)構(gòu)分為主體部分和附加部分,有些字母有主體和多個(gè)附加部分,另外一些則無附加部分。
(Ⅱ)附加部分分布于主體下部、上部或者中間,且不同的附加部分會(huì)構(gòu)成不同字母。
(Ⅲ)有些字母的附加部分一樣,主體部分不一樣就形成不同的字母。圖2給出了部分維吾爾文字母的獨(dú)立形式。
(Ⅳ)維吾爾文的書寫遵循從右到左的方向,對(duì)于多行的維吾爾文文檔遵循從上到下的行列方向,且其在結(jié)構(gòu)語法上屬于黏著語類型,圖3給出幾個(gè)維吾爾文字及其對(duì)應(yīng)的漢字。
圖2 維吾爾文字母單立式圖3 維吾爾文字及其對(duì)應(yīng)的漢字
通過以上對(duì)維吾爾文字結(jié)構(gòu)的分析,發(fā)現(xiàn)維吾爾文字是基于基線上下兩側(cè)分布,且其結(jié)構(gòu)近似對(duì)稱,其結(jié)構(gòu)圖見圖4。
圖4 維吾爾文字結(jié)構(gòu)圖
因此,本文基于維吾爾文上述特點(diǎn)提出一種改進(jìn)LBP(即ULBP),以準(zhǔn)確地描述維吾爾文文本邊緣區(qū)域。
ULBP算子在權(quán)重因子(2n)排布上充分考慮了維吾爾文字基于基線上下近似對(duì)稱的結(jié)構(gòu)特征,使權(quán)重因子的分布也呈現(xiàn)出基于基線對(duì)稱的分布特點(diǎn),如圖5中矩形框內(nèi)方框和圓圈標(biāo)記的權(quán)值對(duì)稱分布。另外,根據(jù)維吾爾文字符筆畫分布集中于基線上下兩側(cè)的特性,其在計(jì)算ULBP過程中將鄰域像素分為基線上側(cè)方向一類和基線下側(cè)方向一類,如圖5中方框和圓圈的兩類標(biāo)記。因此,把LBP值分為基線上側(cè)和下側(cè)兩類,即上側(cè)邊緣局部二值模式ULBPup算子和下側(cè)邊緣局部二值模式ULBPdown算子。當(dāng)窗口設(shè)置為3行×3列,其計(jì)算公式如下:
(3)
(4)
(5)
圖5 ULBPup算子和ULBPdown算子計(jì)算過程
基于ULBPup算子和ULBPdown算子可以得到兩個(gè)局部二值模式的直方圖,且它們分別具有24=16個(gè)bin的兩個(gè)直方圖,這樣進(jìn)行特征提取時(shí),特征維數(shù)將遠(yuǎn)遠(yuǎn)小于256維,明顯降低了維數(shù)。并且根據(jù)維吾爾文字自身特點(diǎn),使其權(quán)值分布基于基線上下兩側(cè)對(duì)稱,更能突出維吾爾文本區(qū)域邊緣的紋理,從而提高維吾爾文文本區(qū)域與非文本區(qū)域的區(qū)分度,相比于傳統(tǒng)LBP算子,具有更高的精度和效率。
2.1 同質(zhì)化文本區(qū)域增強(qiáng)
同質(zhì)性反映圖像中區(qū)域的均勻程度,是一種重要的圖像局部信息,其在圖像分割中扮演重要角色。圖像中的文本區(qū)域具有內(nèi)部基本均勻且性質(zhì)相似(高頻性和不連續(xù)性)的特性,為了減少復(fù)雜背景中文本與背景紋理相似造成的檢測(cè)錯(cuò)誤,可以在同質(zhì)性空間中進(jìn)行文本檢測(cè)。文獻(xiàn)[14]將同質(zhì)性定義為標(biāo)準(zhǔn)方差和強(qiáng)度不連續(xù)性的組合。標(biāo)準(zhǔn)方差體現(xiàn)了一個(gè)局部區(qū)域內(nèi)的變化程度,強(qiáng)度的不連續(xù)性則體現(xiàn)區(qū)域內(nèi)灰度級(jí)突變的程度。根據(jù)模糊邏輯理論,可以將標(biāo)準(zhǔn)方差理解為紋理信息,將強(qiáng)度不連續(xù)性理解為邊緣信息。
令W(x,y)、E(x,y)分別為像素點(diǎn)(x,y)的紋理信息和邊緣信息,定義一點(diǎn)(x,y)的同質(zhì)性T(x,y)如下:
T(x,y)=[I-(I-W(x,y))(I-E(x,y))]g(x,y),
(6)
其中:W(x,y)和E(x,y)的元素均屬于區(qū)間[0,1];g(x,y)為原圖像中位置(x,y)的特征值;I為單位向量。紋理信息和邊緣信息的計(jì)算方法采用文獻(xiàn)[14]介紹的方法,通過求出原始圖像中每一個(gè)像素點(diǎn)的同質(zhì)性值T(x,y),就可以把原始圖像映射到同質(zhì)性空間。
2.2 基于角點(diǎn)粗檢測(cè)
Harris角點(diǎn)檢測(cè)算子[15]作為一種經(jīng)典的提取算子,能有效降低灰度波動(dòng)、視點(diǎn)變化、噪聲干擾等極端條件對(duì)角點(diǎn)檢測(cè)的干擾。
在對(duì)圖像進(jìn)行角點(diǎn)檢測(cè)后,通過單閾值方法檢測(cè)候選文本區(qū)域,其公式描述如下:
(7)
其中:Nc為大小為M×N窗口中的角點(diǎn)數(shù);Tc為設(shè)定的檢測(cè)窗口內(nèi)角點(diǎn)個(gè)數(shù)的閾值。由于自然場(chǎng)景中字體大小的多變性,本文比較了不同檢測(cè)窗口大小和不同閾值的文本檢測(cè)效果。根據(jù)實(shí)驗(yàn)效果選取M=20,N=20作為檢測(cè)窗口大小,閾值Tc為2時(shí),能在最大限度保留文本區(qū)域的基礎(chǔ)上去除大部分的背景區(qū)域。
2.3 ULBP特征的提取
針對(duì)經(jīng)過粗檢測(cè)后的候選文本區(qū)域,利用ULBP算子,提取其鄰域模板P、R分別為(8,1)、(8,2)、(8,3)、(8,4)的上側(cè)邊緣局部二值模式ULBPup算子和下側(cè)邊緣局部二值模式ULBPdown算子。然后分別計(jì)算兩種算子的直方圖,得到8個(gè)分別具有16個(gè)bin的直方圖,提取直方圖每個(gè)bin的值,獲得128維的特征。
2.4 文本區(qū)域的確定
支持向量機(jī)(SVM)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,其對(duì)非線性、小樣本、高維度的分類問題,表現(xiàn)出了極高的分類效率,因此,在文本區(qū)域檢測(cè)領(lǐng)域得到了廣泛的應(yīng)用。本文采用SVM作為分類器,對(duì)候選文本框進(jìn)行確認(rèn)。本文采用738個(gè)文本塊作為正樣本(如圖6a所示)和1 466塊背景區(qū)域作為負(fù)樣本(如圖6b所示)對(duì)SVM進(jìn)行訓(xùn)練。
圖6 訓(xùn)練樣本
使用大小為16行與16列的滑動(dòng)窗口,對(duì)經(jīng)過粗檢測(cè)獲得的文字區(qū)域圖像進(jìn)行固定步長(zhǎng)為8的掃描。對(duì)每個(gè)窗口進(jìn)行4級(jí)2個(gè)方向的邊界局部二值模式算子計(jì)算,然后計(jì)算直方圖,提取128 維的紋理特征向量。用訓(xùn)練好的分類器對(duì)其進(jìn)行分類,按分類結(jié)果進(jìn)行標(biāo)記,將文本塊內(nèi)的像素值置為1,將非文本塊內(nèi)像素值置為0。
目前,國(guó)內(nèi)并沒有統(tǒng)一的關(guān)于維吾爾文本分析的標(biāo)準(zhǔn)數(shù)據(jù)庫,本實(shí)驗(yàn)采用的數(shù)據(jù)庫為本實(shí)驗(yàn)室自建的、自然場(chǎng)景下手機(jī)或者數(shù)碼相機(jī)拍攝的700張含有維吾爾文的圖片,其涵蓋了各種應(yīng)用場(chǎng)景,并且包含自然場(chǎng)景出現(xiàn)的光照不均、文字排序各異、背景復(fù)雜等極端情況。本實(shí)驗(yàn)是在Intel(R) core(TM) 2 Duo CPU主頻為2.20 GHz、內(nèi)存為2.00 GB、操作系統(tǒng)為Windows 7、仿真軟件為Matlab R2009a的計(jì)算機(jī)運(yùn)行。
3.1 ULBP特征有效性測(cè)試
表1 不同特征的樣本分類結(jié)果比較
本文分別采用eLBP特征[10]、灰度共生矩陣特征[16]、小波矩特征[17]與ULBP特征比較。實(shí)驗(yàn)中采用訓(xùn)練過的SVM分類器,對(duì)標(biāo)記過的測(cè)試樣本進(jìn)行分類,統(tǒng)計(jì)SVM分類準(zhǔn)確率,其維吾爾文文本區(qū)域的分類結(jié)果如表1所示。
通過表1可以看出:由于ULBP特征充分考慮了維吾爾文自身的結(jié)構(gòu)特征,使其文本區(qū)域紋理和背景區(qū)域紋理有了較高的區(qū)分度。
3.2 不同算法比較與文本定位結(jié)果展示
文獻(xiàn)[10]提出的eLBP特征與本文的算法思路相似,因此具有一定的可比性,所以將本算法與其相比較。以本實(shí)驗(yàn)室所收集到的自然場(chǎng)景維吾爾文圖片為實(shí)驗(yàn)對(duì)象,以正確檢測(cè)率和誤檢率及平均運(yùn)行時(shí)間為主要的性能指標(biāo),其結(jié)果如表2所示。
正確檢測(cè)率和誤檢率計(jì)算如式(8):
(8)
其中:Nr為正確檢測(cè)率;Nw為誤檢率;r為正確檢測(cè)出的文本區(qū)域個(gè)數(shù);w為檢測(cè)出的錯(cuò)誤的文本區(qū)域個(gè)數(shù);N為文本區(qū)域的總個(gè)數(shù)。
表2 定位算法的比較
由表2可以看出:針對(duì)維吾爾文的處理,本算法明顯優(yōu)于文獻(xiàn)[10]的算法,這是由于文獻(xiàn)[10]以eLBP為特征進(jìn)行處理,并未考慮維吾爾文獨(dú)特的結(jié)構(gòu)特征,所以直接應(yīng)用時(shí)對(duì)以維吾爾文為文本區(qū)域的圖片處理時(shí)就有一定的局限性。在算法運(yùn)行時(shí)間上,以上兩種特征提取過程相差不大,因此算法平均運(yùn)行時(shí)間大致相當(dāng)。相較于上述算法,本算法以維吾爾文獨(dú)特的結(jié)構(gòu)特征為基礎(chǔ),對(duì)LBP特征進(jìn)行改進(jìn),極大地提高了維吾爾文文本紋理與背景紋理的區(qū)分度,且通過粗檢測(cè)和二次檢測(cè),提高算法的效率和精度,經(jīng)過驗(yàn)證效果良好。
圖7 自然場(chǎng)景圖片維吾爾文字定位
本文選取3張比較有代表性(光照不均勻、文本排列不規(guī)則、背景復(fù)雜)的場(chǎng)景圖像,其實(shí)驗(yàn)結(jié)果如圖7所示。通過圖7a可以看出:該算法能很好地處理光照不均勻的情況。圖7b表明本算法能有效處理文字排序混亂的情況。圖7c證明了該算法對(duì)光照不均勻的處理效果。因此,該算法具有較強(qiáng)的魯棒性。這主要是由于粗檢測(cè)以角點(diǎn)為基礎(chǔ),角點(diǎn)對(duì)灰度變化、噪聲影響、視點(diǎn)變化有較強(qiáng)的適應(yīng)性,所以在面對(duì)光照強(qiáng)弱不均勻、文字排列不整齊的情況,能有效地保留文本區(qū)域,使其文本區(qū)域誤檢率降到8.3%。二次檢測(cè)中通過ULBP檢測(cè)這種維吾爾文獨(dú)特的紋理特征,其正確檢測(cè)率達(dá)到了94.6%,能把文字區(qū)域精確地從復(fù)雜背景中區(qū)分出來。
本文提出一種基于ULBP特征的自然場(chǎng)景中維吾爾文本區(qū)域定位算法。該算法以維吾爾文獨(dú)特的結(jié)構(gòu)特征(基線為對(duì)稱線且上下兩側(cè)呈現(xiàn)近似對(duì)稱)為基礎(chǔ),對(duì)LBP進(jìn)行改進(jìn),得到ULBP這種全新的局部紋理特征,極大地提高了背景紋理與文本區(qū)域紋理的區(qū)分度。并且通過角點(diǎn)檢測(cè)確定候選文本區(qū)域,利用ULBP特征對(duì)其二次檢測(cè),極大地降低了文本區(qū)域的誤檢率,提高了算法的精度和效率。通過實(shí)驗(yàn)測(cè)試,本文算法對(duì)光照不均勻、文字排序混亂、背景復(fù)雜的各種場(chǎng)景圖像均取得了較好效果,相比于其他紋理特征對(duì)維吾爾文的處理效果,本文提出的紋理特征表現(xiàn)出了極大的優(yōu)越性。
[1] Lyu M R,Song J,Cai M.A Comprehensive Method for Multilingual Video Text Detection,Localization,and Extraction[J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15(2):243-255.
[2]Shivakumara P,Phan T Q,Tan C L.A Laplacian Approach to Multi-oriented Text Detection in Video[J].IEEE Transactions on Software Engineering,2011,33(2):412-419.
[3] 馬磊,劉江.基于紋理譜描述子的文檔圖像檢索算法[J].計(jì)算機(jī)應(yīng)用,2010,30(11):2980-2982.
[4] 李凱,艾斯卡爾·艾木都拉.基于邊緣和基線的維吾爾文圖像文字定位算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(10):203-207.
[5] 鄧任任,哈力旦.維吾爾文字自適應(yīng)角度定位[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(3):1121-1125.
[6] 哈力旦·A,庫爾班·買提木沙.基于小波變換的圖像中維吾爾文字定位[J].計(jì)算機(jī)工程,2011,37(8):197-198.
[7] 圖爾洪江,方向忠.基于筆畫濾波的維吾爾文視頻文字定位算法[J].信息技術(shù),2011(4):69-72.
[8] Anthimopoulos M,Gatos B,Pratikakis L.A Hybrid System for Text Detection in Video Frames[C]//Document Analysis Systems.DAS’08.The 8th IAPR International Workshop on IEEE.2008:286-292.
[9] Ojala T,Pietik?inen M,Harwood D.A Comparative Study of Texture Measures With Classification Based on Featured Distributions[J].Pattern Recognition,1996,29(1):51-59.
[10] Anthimopoulos M,Gatos B,Pratikakis I.A Two-stage Scheme for Text Detection in Video Images[J].Image and Vision Computing,2010,28(9):1413-1426.
[11] 阿地力·依米提,劉吉超,王靜.彩色背景圖像中維吾爾文字定位的研究[J].新疆師范大學(xué)學(xué)報(bào):自然科學(xué)版,2012(4):42-45.
[12] 劉虎.脫機(jī)手寫體阿拉伯字符識(shí)別關(guān)鍵技術(shù)研究[D].武漢:武漢理工大學(xué),2011.
[13] 阿力木江·亞森,哈力木拉提·買買提.維吾爾文聯(lián)機(jī)手寫識(shí)別預(yù)處理和特征提取[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2010,27(2):232-241.
[14] 黃劍華,承恒達(dá),吳銳,等.基于模糊同質(zhì)性映射的文本檢測(cè)方法[J].電子與信息學(xué)報(bào),2008,30(6):1376-1380.
[15] 趙萬金,龔聲蓉,劉純平,等.一種自適應(yīng)的Harris角點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程,2008,34(10):212-214.
[16] 苑麗紅,付麗,楊勇,等.灰度共生矩陣提取紋理特征的實(shí)驗(yàn)結(jié)果分析[J].計(jì)算機(jī)應(yīng)用,2009,29(4):1018-1021.
[17] 王建宇,張峰,周獻(xiàn)中,等.利用小波變換和 K均值聚類實(shí)現(xiàn)字幕區(qū)域分割[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2006,18(10):1508-1512.
國(guó)家自然科學(xué)基金項(xiàng)目(61163026)
李敏強(qiáng)(1988-),男,河南駐馬店人,碩士生;哈力旦·阿布都熱依木(1959-),女,維吾爾族,新疆烏魯木齊人,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)閳D像處理和模式識(shí)別.
2014-09-15
1672-6871(2015)03-0043-05
TP391
A