李亞男,陳興文,張 丹
(大連民族學(xué)院,計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧大連116605)
相對(duì)已經(jīng)達(dá)到國(guó)際較先進(jìn)水平的印刷體漢字、英文識(shí)別技術(shù),印刷體維文文字識(shí)別技術(shù)還處于初步階段[1]。印刷體維文識(shí)別技術(shù)中,維文的準(zhǔn)確切分起著至關(guān)重要的作用,好的切分效果可以大大提高最終的識(shí)別率。像素積分投影法是目前常用的維文切分方法[2-3],但在進(jìn)行單詞切分時(shí),該方法不能很好的處理單詞切分時(shí)相鄰連體段在水平方向的覆蓋情況,在進(jìn)行字母切分時(shí),該方法存在過(guò)切分和漏切分現(xiàn)象。針對(duì)上述情況,提出將像素積分投影法與連通域搜索法相結(jié)合的方法對(duì)維文進(jìn)行行切分和單詞切分,以減少單詞的誤切分,并對(duì)字母切分部分的像素積分投影法進(jìn)行改進(jìn),僅對(duì)位于基線上方的部分進(jìn)行垂直投影,提高了字母切分的正確率。
維吾爾文的構(gòu)成特點(diǎn)和書寫特點(diǎn)都比較特殊,如維吾爾文字母之間前后粘連形成連體段,相鄰連體段在水平方向會(huì)有覆蓋的情況,字形的寬高不統(tǒng)一,詞匯中字母之間沒(méi)有明顯的界限等,如圖1。使得維文單詞切分與字母切分成為維文識(shí)別技術(shù)中的難點(diǎn)[4-5]。
圖1 維文字符
印刷體維文切分過(guò)程:首先對(duì)維文文本進(jìn)行行切分,然后對(duì)得到的每一行進(jìn)行單詞切分,最后對(duì)每個(gè)單詞進(jìn)行字母切分。行切分相對(duì)簡(jiǎn)單易行,單詞切分和字母切分則有一定的難度。
對(duì)印刷體維文切分,目前最常用的切分方法是像素積分投影法,該方法可以很好的對(duì)維文文本行進(jìn)行有效切分。但是像素積分投影法進(jìn)行單詞切分時(shí)不能處理相鄰連體段在水平方向覆蓋的情況,容易出現(xiàn)漏切分的現(xiàn)象,進(jìn)行字母切分時(shí)也存在一定的問(wèn)題:Amin把列投影值小于平均列投影值的位置作為候選字母連接部分,然后相鄰?fù)队胺逯档木嚯x以及大小關(guān)系去除部分不合理候選切分位置,但是這種方法需要預(yù)知字符的寬度;哈力木拉提取兩個(gè)峰值中間小于平均投影的位置作為字符的切分點(diǎn),該方法存在過(guò)切分或漏切分的情況,并且受到字符附加部分的影響。
對(duì)印刷體維文文字圖像進(jìn)行預(yù)處理之后得到的是一個(gè)整體的二值化圖片文檔,對(duì)文字部分和空白間隙部分進(jìn)行像素積分投影[3-5],空白間隙部分投影理論值為0(可能有噪聲的存在,實(shí)際上不一定為0),而文字行的水平積分投影不為0。因此可以逐行掃描每個(gè)像素點(diǎn),求出各行的水平積分投影,將整篇文檔的每一行切分開(kāi)。一幅文本圖象定義
式中 i:行數(shù),i=1,2,…,m;j:列數(shù),j=1,2,…,n。
各行水平積分投影公式為
一行文本的范圍通過(guò)計(jì)算圖象的水平投影確定。對(duì)經(jīng)過(guò)預(yù)處理后尚未切分的文本按照從下往上的順序進(jìn)行逐行像素搜索[3]:若第i行滿足(H(i)>q)∩(H(i+1)>q)∩..∩(H(i+m-1)>q),則將像素行i作為文本行的下界;若第i行滿足(H(i)<r)∩(H(i+1)<r)∩…∩(H(i+n-1)<r),則將像素行i作為文本行的上界。參數(shù)p、q、m、n、r均為根據(jù)預(yù)處理去噪效果和實(shí)驗(yàn)情況得到的常數(shù),其中 n=3,m=5,r=2,p=2,q=2,此數(shù)據(jù)作為參考,具體數(shù)據(jù)需根據(jù)實(shí)驗(yàn)情況而定。像素積分投影法簡(jiǎn)單易行,可以很好的對(duì)維文文本行進(jìn)行有效切分。
像素積分投影法進(jìn)行單詞切分時(shí)不能處理相鄰連體段在水平方向覆蓋的情況,容易出現(xiàn)漏切分的現(xiàn)象。對(duì)字符研究發(fā)現(xiàn),字符的根本特性在于其連通性[1,6],盡管維文單詞會(huì)出現(xiàn)相鄰連體段在水平方向覆蓋、傾斜、以及變形等情況,如圖2。但是每個(gè)單詞的連通性是不會(huì)改變的,因此可采用連通域搜索法來(lái)實(shí)現(xiàn)單詞切分。該方法可以充分利用字符的連通特性,較好地解決相鄰連體段在水平方向覆蓋的問(wèn)題,提高維文單詞切分的正確率。
圖2 水平方向有重疊的單詞
利用遞歸式區(qū)域生長(zhǎng)算法確定各連通域,找出連通域后,做出各個(gè)連通域的外接矩形[1]。由于32個(gè)維文字母中有20個(gè)字母包含附加筆畫,附加筆畫部分與字母主體部分上、下不粘連,因此一個(gè)維文字母可能包含多個(gè)連通域,所以還需要對(duì)連通域進(jìn)行合并,規(guī)則為:搜索每個(gè)連通域A最近的連通域B,如果B在A的上方或者下方,則視A和B是同一個(gè)字母的主體部分和附加部分,否則將B單獨(dú)看作一個(gè)字母。
運(yùn)用垂直投影法得到的單詞切分結(jié)果如圖3,運(yùn)用連通域搜索法得到的單詞切分結(jié)果如圖4。當(dāng)單詞上下重疊時(shí)(箭頭處),垂直投影法并不能將其很好的切分開(kāi),而連通域搜索法則可以。
圖3 垂直投影法單詞切分結(jié)果
圖4 連通域搜索法單詞切分結(jié)果
文獻(xiàn)[5]對(duì)字母進(jìn)行切分時(shí),首先對(duì)輸入的單詞進(jìn)行垂直積分投影,取有空隙的位置進(jìn)行切分,得到獨(dú)立的字母和連體段,如圖5,然后找到一段投影值為0的連續(xù)空白位置(該位置兩邊的投影值大于0),取其中間位置作為候選切分點(diǎn),最終實(shí)現(xiàn)字母切分。
圖5 單詞中的連體段
該方法需要預(yù)知字符寬度,容易出現(xiàn)漏切和過(guò)切的現(xiàn)象,并不普適。因此對(duì)這一部分進(jìn)行改進(jìn),算法如下:
(1)對(duì)輸入的單詞進(jìn)行垂直積分投影,投影后取有空隙的位置進(jìn)行切分。垂直積分投影公式為
(2)確定基線區(qū)域高度及位置。提取文字行中的所有豎直黑像素游程后統(tǒng)計(jì)不同長(zhǎng)度游程的數(shù)目,具有最多數(shù)目游程的游程長(zhǎng)度就是基線的高度Hb,H是文字行的高度,P是文字行的水平投影結(jié)果,E1和E2分別表示基線的上邊界和下邊界。在文字行無(wú)傾斜的情況下,行的基線位置可以根據(jù)式(4)得到,即文字行的基線就是高度為Hb,最大水平投影值最大的帶狀區(qū)域。
(3)提取出位于基線上方的維文部分,即提取出位于基線上邊界E1與文本行上邊界H1之間的字符部分,如圖6。對(duì)基線上方部分進(jìn)行垂直投影,找到一段投影值為0的連續(xù)空白位置,該位置兩邊的投影值大于0,取空白位置的中間位置作為候選切分點(diǎn),如圖7。
圖6 提取連體段位于基線上方部分
圖7 對(duì)基線上方部分進(jìn)行垂直投影
(4)閾值判定法去除誤切分。閾值T的定義為[4]:連體段的行高度H與連續(xù)空白間隙的寬度W做比的均值取整作為T,當(dāng)T過(guò)大時(shí),所切分的位置就比較高,可能造成誤切分,當(dāng)T過(guò)小時(shí),使連體字母不能被切開(kāi)。閾值T根據(jù)實(shí)際實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)得出,本文取T=16進(jìn)行判定。
采用未改進(jìn)的投影法字母切分結(jié)果如圖8,黑色箭頭處存在漏切分現(xiàn)象,采用改進(jìn)后的投影法字母切分結(jié)果如圖9。對(duì)比可見(jiàn),改進(jìn)后的方法對(duì)去除字母誤切分有很好的效果,提高了字母切分的正確率。
圖8 未改進(jìn)的投影法字母切分結(jié)果
圖9 改進(jìn)后的投影法字母切分結(jié)果
設(shè)計(jì)的印刷體維文識(shí)別系統(tǒng)是在Windows 7平臺(tái)下,以VC 6.0和Matlab 2012為開(kāi)發(fā)環(huán)境。
打開(kāi)的原始印刷體維文文本圖片如圖10。
圖10 原始印刷體維文文本圖片
原始維文文本圖片的最終識(shí)別結(jié)果如圖11。由結(jié)果可見(jiàn),采用改進(jìn)的維文切分方法,可以達(dá)到較好的識(shí)別效果。
討論了如何對(duì)掃描輸入的二值化維文文本圖象進(jìn)行行切分、單詞切分、字母切分。通過(guò)分析研究不同字符切分方法的優(yōu)缺點(diǎn),結(jié)合維文自身的書寫特點(diǎn)與結(jié)構(gòu)特點(diǎn),提出采用像素積分投影法和連通域搜索法相結(jié)合對(duì)印刷體維文進(jìn)行行切分和單詞切分,該方法較好的解決了像素積分投影法不能處理相鄰連體段在水平方向覆蓋的問(wèn)題。在字母切分部分,改進(jìn)了文獻(xiàn)[5]中字母切分部分的投影法,改進(jìn)后的方法不需要預(yù)知字符寬度,基本不存在漏切分現(xiàn)象,提高了字母切分的正確率。提出的維文切分方法能夠較好地應(yīng)用在印刷體維文識(shí)別系統(tǒng)中的切分部分。
圖11 最終識(shí)別結(jié)果
[1]尹芳,王衛(wèi)兵,陳德運(yùn).印刷體英文文檔識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].哈爾濱理工大學(xué)學(xué)報(bào),2008,13(6):9-12.
[2]萬(wàn)金娥,袁保社,李曉,等.一種改進(jìn)的印刷體維吾爾文投影切分方法[J].計(jì)算機(jī)工程,2013,39(4):263-266.
[3]董國(guó)君.印刷體俄文文字識(shí)別研究[D].烏魯木齊:新疆大學(xué),2009.
[4]袁保社,吾守爾·斯拉木.一種手寫維吾爾文字母識(shí)別算法[J].計(jì)算機(jī)工程,2010,36(2):186-188.
[5]李曉,袁保社,陳卿,等.基于像素積分投影的印刷體維文字母切分方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(4):41-44.
[6]靳簡(jiǎn)明,丁曉青,彭良瑞,等.印刷維吾爾文本切割[J].中文信息學(xué)報(bào),2005,18(5):76-83.