国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模板歸一化的維吾爾文字母識別算法

2016-05-03 13:03李和成
中文信息學(xué)報(bào) 2016年1期
關(guān)鍵詞:手寫字符字形

劉 衛(wèi),李和成

(1. 西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071;2. 青海師范大學(xué) 物理系,青海 西寧 810008)

基于多模板歸一化的維吾爾文字母識別算法

劉 衛(wèi)1,2,李和成2

(1. 西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071;2. 青海師范大學(xué) 物理系,青海 西寧 810008)

該文針對手寫維文字符識別中字符寬高比變化劇烈,單一模板歸一化后提取字符特征,不能有效增加異類字符之間的差異性,提出了針對維文字形特點(diǎn)的多模板歸一化算法。訓(xùn)練階段,由多模板歸一化字符圖像,提取特征并訓(xùn)練對應(yīng)分類器;識別階段,用主筆畫散度方向作為維文字形參數(shù), 對不同字形選用最優(yōu)模板進(jìn)行歸一化處理后提取特征,并送入該模板對應(yīng)的分類器。多模版歸一化有效利用了手寫維文字符字形特征,克服了單模板歸一化時(shí)異類維文字符差異減小的不利影響。實(shí)驗(yàn)結(jié)果表明多模板歸一化算法較單模板歸一化算法在識別性能上有所提高。

維吾爾文字符;歸一化;寬高比;分類器

1 引言

手寫字符識別是模式識別的經(jīng)典問題,并且一直是該領(lǐng)域的研究熱點(diǎn)。隨著對手寫漢字識別的研究取得的眾多成果[1],少數(shù)民族語言文字識別正成為手寫識別新的研究方向。其中,隸屬于阿爾泰語系突厥語支的維吾爾文,作為我國重要的少數(shù)民族文字,其印刷體和手寫識別研究,近年來逐漸受到了更多關(guān)注[2-4],其中文獻(xiàn)[4] 針對維吾爾文的連體結(jié)構(gòu),利用投影分離出連體段中的字母,對文本圖像進(jìn)行了切分,并提取外圍特征,在印刷體維吾爾文字符的識別中獲得了較滿意的結(jié)果。

脫機(jī)手寫字符識別中,字符圖像的預(yù)處理十分重要,歸一化字符圖像又是識別算法中最基本的一步[5-9]。字符樣本的歸一化被定義為使樣本成為相同規(guī)格的模式,以便形成特征向量進(jìn)行訓(xùn)練與識別。在手寫拉丁字符及漢字字符中,對不同類字符,雖然筆畫及字體結(jié)構(gòu)會發(fā)生較大變化,但不同類別字符的整體字形非常接近,尤其是字符的寬高比變化很小,所以,在字符歸一化的過程中,通常采用統(tǒng)一的標(biāo)準(zhǔn)模板。然而對維文字符,雖然其與拉丁字符同屬拼音字符,但兩者在字形上有很大差異:手寫維文字符相連,并且根據(jù)字符在文中位置又有不同的書寫方式,字符水平方向伸縮變化劇烈,不同類別字符的整體字形差異非常大。如果采用統(tǒng)一模板歸一化字符樣本,并不能體現(xiàn)出維吾爾文字符的字形特征,不利于字符分類。為克服這一缺陷,許多算法使用隱馬爾科夫模型對字符動態(tài)建模[10-11],但隱馬爾科夫模型參數(shù)魯棒性差,算法復(fù)雜度高,而基于維文字符字形的這些特點(diǎn),一些在字符識別中性能優(yōu)良的分類器,如人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī),修正二次判別函數(shù)等[12]又無法在單模板維文識別中有較好的表現(xiàn)。

本文根據(jù)維文整體字形特點(diǎn),提出了多模板歸一化算法(Multi-Template Normalization,MTN): 1)在訓(xùn)練階段,用不同規(guī)格的模板歸一化字符,并訓(xùn)練對應(yīng)分類器;2)在識別階段,為避免字符圖像的噪聲野點(diǎn)對字符寬高比的影響,采用主筆畫像素散度主方向作為字形參數(shù),根據(jù)樣本的字形選擇最優(yōu)模板歸一化,送入對應(yīng)分類器,獲得分類結(jié)果。算法充分的利用了維文的字形特征,取得了良好的分類效果。

2 維文字符及單模板歸一化

維文基于字母拼寫,共有字母32個(gè),其中八個(gè)元音字母,24個(gè)輔音字母。維吾爾文自右向左書寫,書寫時(shí),它的每一個(gè)字母根據(jù)其在單詞中的所在位置不同,一般分為獨(dú)立式,前連式,中間式和后連式四種。其中,兩個(gè)元音字母八種書寫形式,五個(gè)輔音字母有兩種寫法,還包括兩個(gè)復(fù)合字符,共有128種不同的字母書寫形式,本文算法是對維吾爾文單詞切分后的字母進(jìn)行的,其中單詞為新疆師范大學(xué)維吾爾族師生書寫,為保證切分質(zhì)量,由維吾爾族師生手工切分為字母,所以識別目標(biāo)是針對128個(gè)不同的字母書寫形式,圖1是部分維吾爾文字符實(shí)例。

圖1 部分維文字符

手寫識別中,歸一化處理是基本的預(yù)處理步驟,其作用是將每個(gè)輸入字符變換成統(tǒng)一大小的規(guī)格,在不降低異類間的差異的條件下增強(qiáng)同一類字符的相似性。對漢字及英文字母歸一化處理時(shí),由于字符長寬比穩(wěn)定,往往采用統(tǒng)一的標(biāo)準(zhǔn)模板,即訓(xùn)練樣本及測試樣本共用一個(gè)標(biāo)準(zhǔn)模板,圖2中第二行為單模板歸一化后的維文圖像。

圖2 維文字符單模板歸一化

3 維文多模板歸一化算法

由圖1、圖2可以看出,維文字母形狀并不規(guī)則,不同類字符寬高比很不規(guī)范,手寫字符尤為顯著。當(dāng)采用統(tǒng)一規(guī)格模板進(jìn)行歸一化處理時(shí),不僅不能降低維吾爾文字符異類間的差異,反而會縮小異類模式之間的差異性,如用不同的模板對字符進(jìn)行歸一化,則識別性能會有所不同。因此,為使識別效果最佳,應(yīng)針對不同字形使用不同規(guī)格的模板歸一化字符圖像。

3.1 主筆畫散度方向

MTN算法中,需要判斷維文字符的整體字形特征。影響手寫維文字符整體字形主要有兩方面原因:

1) 附加筆畫。維文字符筆畫較少,字符分為主筆畫部分及附加筆畫部分,附加筆畫雖然像素較少,但游離在主筆畫上下,在垂直方向上分布比較隨意,使得原字符的寬高比不夠穩(wěn)定,如直接用字符的寬高比來選擇歸一化模板,受附加筆畫影響,無法反映出原字符的形狀。

2) 噪聲影響。散布在字符周圍的噪聲野點(diǎn)占位,對字符長寬比判斷也產(chǎn)生不利影響。

根據(jù)以上兩點(diǎn),維文字符長寬比并不是穩(wěn)定的字形參數(shù)。通過分析維吾爾文字符的結(jié)構(gòu)特征,對主筆畫及附加筆畫前景點(diǎn)連通域分析表明,維文字符主筆畫像素散度方向相對穩(wěn)定,主筆畫像素?cái)?shù)量又遠(yuǎn)大于附加筆畫及噪聲像素?cái)?shù)量,而維文字符字形主要取決于其主筆畫像素散度方向,且其不受附加筆畫影響。因此,本文采用主筆畫像素散度主方向代替字符寬高比作為字形參數(shù)。

圖3 主筆畫散度方向

圖3(b)是(a)中字符的主筆畫部分,字符主筆畫前景點(diǎn)集合定義為:

(1)

式(1)中,si=(xi,yi)T是(b)中第i個(gè)前景點(diǎn)坐標(biāo)點(diǎn)對,xi,yi為前景點(diǎn)行列坐標(biāo),主筆畫像素散度矩陣如式(2)所示:

(2)

(3)

式(2)、式(3)中,Σ是一個(gè)2×2的實(shí)對稱矩陣,其性質(zhì)是主筆畫像素的坐標(biāo)散度矩陣,λ1,λ2和d1,d2分別是Σ的本征值和對應(yīng)的本征向量,其中d1,d2相互正交,當(dāng)對應(yīng)的特征值λ2<λ1時(shí),特征向量d1與水平坐標(biāo)軸的夾角α,即為主筆畫像素散度主方向,簡稱為主筆畫散度方向,如圖3(b)。

3.2 預(yù)處理及特征抽取

在對字符歸一化及提取特征之前,要對字符圖像進(jìn)行形態(tài)學(xué)預(yù)處理。為防止筆畫斷裂,首先對二值字符圖像進(jìn)行膨脹,歸一化筆畫寬度;再用開運(yùn)算平滑筆畫邊界;最后根據(jù)參考模板歸一化字符圖像,提取字符輪廓。

為克服筆畫邊界噪聲,通過選擇多維網(wǎng)格對邊界曲線進(jìn)行重新采樣,如圖4所示。將重采樣后的字符圖像的每個(gè)邊界像素按圖4賦予方向編碼值,同時(shí)設(shè)置與圖像相同大小的八個(gè)方向模板,每個(gè)像素編碼后,與編碼對應(yīng)的方向模板中該像素位置被賦值為1,每個(gè)邊界像素允許分配不同的方向編碼,方向模板中未被賦值的位置保持0值。得到八個(gè)賦值方向模板后,采用網(wǎng)格提取特征。本文采用m×n的均勻網(wǎng)格劃分方向模板,對每個(gè)方向模板采用Gauss濾波器進(jìn)行卷積,每個(gè)方向模板的每個(gè)網(wǎng)格中心位置卷積值作為一個(gè)字符特征,這樣獲得的維文字符特征向量維數(shù)為8×m×n維,得到的原特征向量采用線性判決分析(LinearDiscriminationAnalysis,LDA)降維,最終特征向量為127維,對特征抽取詳細(xì)過程參見文獻(xiàn)[5]。

圖4 特征抽取與多維網(wǎng)格重采樣

3.3 多模板維文識別算法

單一模板進(jìn)行訓(xùn)練和識別維文字符時(shí),特征向量來自于唯一的歸一化模板,模板選擇獨(dú)立于字符字形,損失了原字符的字形特征,無法針對字符字形選擇最優(yōu)模板,并在隨后抽取特征,不能獲得最優(yōu)的識別結(jié)果。多模板維文識別充分考慮識別性能與模板選擇相關(guān)性,根據(jù)測試樣本的所屬字形選擇最優(yōu)模板進(jìn)行歸一化。

圖5 維文字符的多模板歸一化

圖5為維文字符樣本經(jīng)預(yù)處理后,由多模板歸一化后的圖像。為選擇最優(yōu)模板進(jìn)行歸一化,設(shè)樣本集X按主筆畫散度方向α劃分為I個(gè)子集:X=X1∪X2∪...∪XI;字符歸一化模板為:T1,T2,...TJ,對多模板維文字符識別作如下定義:

定義1 設(shè)有測試樣本x∈Xi,則Pi=P(x∈Xi)為樣本空間中x∈Xi的概率。

定義2 模板損失函數(shù):γi,j(Tj,x∈Xi),γi,j表示i類字形采用模板Tj時(shí)的分類錯(cuò)誤率

定義3 模板期望代價(jià):R(γ)=∑iγi,j(Tj,x∈Xi)Pi

由定義1~3可知,若使R(γ)為最小,則對任意樣本?x∈Xi應(yīng)選擇模板Tj歸一化維文字符,使得γi,j(Tj,x∈Xi)為最小,本文中γi,j(Tj,x∈Xi)為樣本驗(yàn)證集上的分類錯(cuò)誤率。

多模板手寫維文字識別算方法分為訓(xùn)練與識別兩個(gè)部分,圖6為MTN算法訓(xùn)練與識別過程,分別描述如下:

在訓(xùn)練階段,所有訓(xùn)練樣本不分字形,按不同的參考模板T1,T2,...TJ分別進(jìn)行歸一化及預(yù)處理后,進(jìn)行特征提取,用每一種歸一化模板對應(yīng)的特征向量訓(xùn)練對應(yīng)分類器g1,g2,...gJ,如圖6(a)。

圖6 訓(xùn)練和識別過程

圖6(b)為MTN算法識別過程,設(shè)有任意待識別字符x,則MTN識別過程步驟如下:

步驟1 根據(jù)3.1中主筆畫散度方向α,判斷字符字形x∈Xi;

步驟2 根據(jù)定義2中模板損失函數(shù),選擇使γi,j(Tj,x∈Xi)最小的模板Tj對字符進(jìn)行歸一化,并提取字符特征;

步驟3 將在步驟2中獲得的字符x特征,送入由模板Tj對應(yīng)訓(xùn)練出的分類器gj,得到最終識別結(jié)果,此時(shí),在整個(gè)測試集上得到模板期望代價(jià)最小。

4 分類器設(shè)計(jì)

訓(xùn)練集中的字符,分別采用不同的模板進(jìn)行歸一化,抽取特征后,得到對應(yīng)不同模板的特征集。這些特征集被分別用于訓(xùn)練分類器,本文采用基于概率距離的三種分類器做比較。

3) 修正的二次判別函數(shù)(ModifyQuadraticDiscriminationFunction,MQDF):

(4)

以上三種分類器的判別準(zhǔn)則為: 當(dāng)g(x)為最小時(shí),x被判別為第i類。

5 實(shí)驗(yàn)結(jié)果及分析

本文所采用的維文數(shù)據(jù)集由新疆師范大學(xué)收集,原數(shù)據(jù)為維吾爾文手寫單詞,經(jīng)手工切分后共128類字符,每類有樣本105個(gè),全部由維族師生書寫,移動平臺采樣。

表1中選擇模板數(shù)量J=3,對其規(guī)格定義如下: 設(shè)維文字符歸一化模板的寬高比為r。r=2為模板T1,r=0.5為模板T2,r=1為模板T3。將手寫測試字符按照3.1節(jié)定義的主筆畫散度方向,劃分為三類,即I=3。α≥60°時(shí)為肥字母,α≤30°時(shí)為瘦字母,30°<α<60°時(shí)為正字母。

表1 各手寫字形采用不同模板錯(cuò)誤率/%

表1為使用NN分類器,在驗(yàn)證集上比較不同字形采用不同規(guī)格模板歸一化時(shí)的識別率。由于不同字形在樣本集中所占比率不同, 表1中最后一行是平均錯(cuò)誤率,按各字形在驗(yàn)證集中的所占比率加權(quán)平均。由表1各個(gè)模板的錯(cuò)誤率可見,采用單模板歸一化,不同規(guī)格的模板對識別結(jié)果有較為明顯的影響,并且,不同的字形對歸一化模板比較敏感,如,當(dāng)肥字母依照T3模板歸一化時(shí),錯(cuò)誤率較高,而采用T1模板時(shí)錯(cuò)誤率較低,瘦字母與正字母有相似的情況。所以,單模板歸一化會破壞字形特征,減少分屬不同字形字符類別間的差異性,分類錯(cuò)誤率較高。因此,字形是維文字符的重要特征,對不同的待識別字符,應(yīng)該采用不同的模板,可以獲得優(yōu)于單模板歸一化的識別性能。

表2中,手寫字符集按60%,20%,20%被分為訓(xùn)練集、驗(yàn)證集與測試集三部分。其中,驗(yàn)證集用于判斷不同字形Xi的最優(yōu)歸一化模板Tj,即對在3.1中x∈Xi,在驗(yàn)證集上選擇Tj,使得損失函數(shù)γi,j(Tj,x∈Xi)為最小。

定義模板數(shù)J=3,字形種類I=3,模板與字形的選取方式與表1實(shí)驗(yàn)相同。由表2可以看出,三種分類器中多模板歸一化識別率普遍好于單模板歸一化,這是因?yàn)槊款愖址季哂凶陨淼淖中翁攸c(diǎn),分屬于不同的字形Xi,MTN算法充分利用了不同字符的字形特征,選擇最優(yōu)模板,獲得優(yōu)于單模板的識別性能。

表2 單模板與多模板歸一化識別率/%

由表2同時(shí)可以看出,NN分類器表現(xiàn)出優(yōu)于其他兩類分類器性能,原因是NN分類器不依賴于模型參數(shù),對樣本在空間中的分布有較強(qiáng)的適應(yīng)性,是一種較強(qiáng)的分類器。而其他兩類分類器以樣本高斯分布作為前提,對樣本分布的假設(shè)并不一定附和樣本在空間中的實(shí)際分布情況。

MTN算法中,參考模板數(shù)J的選擇是開放的,可以提供更多的模板用于測試對不同字形歸一化后識別性能的影響,表3是不同模板數(shù)量下,采用最近鄰分類器(NN),MTN算法性能的比較。

表3 不同模板數(shù)量對應(yīng)錯(cuò)誤率/%

表3中,第一列為單模板錯(cuò)誤率(模板T2),其余為不同模板數(shù)量下,MTN算法識別性能,模板數(shù)量J的增加有利于對模板作出更優(yōu)的選擇,使識別性能提高,但當(dāng)J≥3時(shí),對識別性能影響卻很小,這是因?yàn)?,字形特征在三類形狀差別大的模板中表現(xiàn)出了比較強(qiáng)的異類分辨率,而相近形狀的模板對算法性能的貢獻(xiàn)接近,而且,因?yàn)槟0宓母?xì)劃分,導(dǎo)致驗(yàn)證集各字形數(shù)量減少,使模板代價(jià)可靠性下降。本文MTN算法中,模板數(shù)J=3,當(dāng)模板寬高比為r時(shí),規(guī)格分別為:r=2,r=0.5,r=1,字符歸一化時(shí)選用線性插值算法,對每個(gè)模板,特征抽取時(shí)的網(wǎng)格密度分別為4×8、8×4和4×8,則原始特征維數(shù)4×8×8,經(jīng)LDA降維后為127維。采用NN分類器分類,MTN算法最終識別率為88.17%。

6 結(jié)束語

手寫字符識別中,預(yù)處理起到相當(dāng)重要的作用,往往對分類性能有決定性的影響,本文提出的MTN維文識別算法,充分考慮維文字符字形的多樣性,用主筆畫散度方向判斷字形,利用多模板代替單模板,對不同字形選用代價(jià)最優(yōu)模板歸一化。與單模板歸一化算法比較,MTN算法易于實(shí)現(xiàn),原理清晰,充分利用異類字符在多模板歸一化后,由其字形的不同,而產(chǎn)生了不同的分辨率,在所屬分類器上取得了良好的實(shí)驗(yàn)結(jié)果。

[1] 趙繼印,鄭蕊蕊,吳寶春,李敏. 脫機(jī)手寫體漢字識別綜述[J]. 電子學(xué)報(bào), 2010, 38(2): 405-414.

[2]UbulK,HamdullA,AysaA,RaxidinA,MahmutR.ResearchonUyghurOff-lineHandwriting-basedWriterIdentification[C]//Proceedingsofthe9thInternationalConferenceonSignalProcessing.Beijing:IEEE,2008: 1656-1659.

[3] 袁保社,吾守爾·斯拉木. 一種手寫維吾爾文字母識別算法[J]. 計(jì)算機(jī)工程,2010, 36(2): 186-188.

[4] 哈力木拉提,阿孜古麗. 多字體印刷維吾爾文字符識別系統(tǒng)的研究與開發(fā)[J]. 計(jì)算機(jī)學(xué)報(bào),2004, 27(11): 1480-1484.

[5]Cheng-LinLiu,KazukiNakashima,HiroshiSako,etal.Handwrittendigitrecognition:investigationofnormalizationandfeatureexractiontechniques[J].PatternRecognition. 2004, 37(11): 265-279.

[6] 孫光民,李巖,王鵬,等. 用于神經(jīng)網(wǎng)絡(luò)手寫字符識別的自適應(yīng)歸一化處理方法[J]. 模式識別與人工智能,2005, 18(3): 268-272.

[7]deOliveiraJ.J.Jr,VelosoL.R,deCarvalhoJ.M.Interpolation/decimationschemeappliedtosizenormalizationofcharactersimages[C]//Proceedingsofthe15thInternationalConferencePatternRecognition.Barcelona:IEEE,2000:577-580.

[8] 門光福,潘晨,柳長青. 基于彈性網(wǎng)格的西夏文字識別[J]. 中文信息學(xué)報(bào),2011, 25(9): 109-113.

[9] 柳長青. 基于LevelSet方法的西夏字輪廓提取[J]. 中文信息學(xué)報(bào),2009, 23 (4): 71-76.

[10]SabriA.MahmoudandSamehM.Awaida.Recognitonofoff-lineHandwrittenArabic[J].TheArabianJournalforScienceandEngineering. 2009, 34(2): 429-455.

[11]MohamadRA,Likforman-SulemL,MokbelC.CombiningSlanted-FrameClassifiersforImprovedHMM-BasedArabicHandwritingRecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence. 2009, 31(7): 1165-1177.

[12]LorigoLM,GovindarajuV.Off-lineArabicHandwritingRecognition:ASurvey[J].IEEETransactionsonPatternAnalysisandMachineIntelligence. 2006, 28(5): 712-724.

[13]KimuraF,TakashinaK,TsuruokaS,etal.ModifiedQuadraticDiscriminateFunctionsandtheApplicationtoChineseCharacterRecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence. 1987, 9(7): 149-153.

Uighur Character Recognition Based on Multi-template Normalization

LIU Wei1,2, LI Hecheng2

(1. State Key Lab. of Integrated Service Networks, Xidian University, Xi’an, Shaanxi 710071, China; 2. Physics Department of Qinghai Normal University, Xining, Qinghai 810008, China)

Since the hand-written Uyghur characters can be dramatically changed in its aspect ratio, a single template normalization can not effectively increase the differences of characters in different classes. This paper proposes a multi-template normalization algorithm to deal with the shape characteristic of Uighur characters. In the training stage, features of characters are extracted with multi-template normalization for the training of different classifier. In the recognition stage, the divergence direction of main strokes is chosen to decide the best template, and then the features of normalized characters are extracted for the corresponding classifier. The experiment results show that the multi-template normalization algorithm has better recognition performance than the single template baselines.

Ugihur characters;normalization;aspect ratio;classifiers

劉衛(wèi)(1975-),博士研究生,副教授,主要研究領(lǐng)域?yàn)槟J阶R別,機(jī)器學(xué)習(xí)。E?mail:liuwei@qhnu.edu.cn李和成(1972-),博士,教授,主要研究領(lǐng)域?yàn)橹悄軆?yōu)化算法。E?mail:lihecheng@qhnu.edu.cn

1003-0077(2016)01-0156-06

2014-05-08 定稿日期: 2014-12-23

國家自然科學(xué)基金(61463045);青海省自然科學(xué)基金(2013-z-937Q)

TP391

A

猜你喜歡
手寫字符字形
我手寫我心
異體字字形類似偏旁的互用類型綜合字圖構(gòu)建
抓住身邊事吾手寫吾心
論高級用字階段漢字系統(tǒng)選擇字符的幾個(gè)原則
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
圖片輕松變身ASCⅡ藝術(shù)畫
甲骨文中的字形直立化二則
基于集成學(xué)習(xí)的MINIST手寫數(shù)字識別
復(fù)習(xí)生字字形的方法
凌海市| 长治县| 余江县| 仁化县| 佛学| 衡东县| 河西区| 长沙县| 印江| 阳泉市| 金溪县| 普洱| 库车县| 文水县| 桂东县| 铜川市| 屯门区| 浪卡子县| 留坝县| 洛南县| 苍梧县| 夹江县| 鹿邑县| 诸暨市| 高阳县| 绥德县| 克东县| 广宁县| 桃园县| 厦门市| 新龙县| 井陉县| 将乐县| 云安县| 平罗县| 屯留县| 青浦区| 兰考县| 宁阳县| 桐庐县| 建始县|