黃弋石
(南通大學(xué)公共衛(wèi)生學(xué)院實(shí)驗(yàn)中心 江蘇 南通 226019)
維吾爾文脫機(jī)手寫識(shí)別建模研究
黃弋石
(南通大學(xué)公共衛(wèi)生學(xué)院實(shí)驗(yàn)中心 江蘇 南通 226019)
為了解決維吾爾文的印刷文字與手寫文字的脫機(jī)識(shí)別,本文提出了新穎識(shí)別技術(shù)。規(guī)定了核心模型定義,使用五種機(jī)器讀法,來識(shí)別文字的特征。使用簡(jiǎn)捷方便的編碼方法,使得模型結(jié)構(gòu)舒暢美觀。對(duì)于常用文字的編碼,沒有重碼。在理論上,實(shí)現(xiàn)了眼睛能夠識(shí)別則機(jī)器即可辨認(rèn)的目標(biāo)。顯然,這種模型設(shè)計(jì),也可以改善其他研究者的方案,大幅度提高對(duì)應(yīng)效率與成功率。
維吾爾文手寫識(shí)別;手寫識(shí)別;脫機(jī)識(shí)別;連筆識(shí)別
維吾爾文十分類似于阿拉伯文,字母共有32個(gè)。每個(gè)獨(dú)立字母,有2到4種實(shí)際的書寫形式。見圖1與圖2。字母共有128種變化。其中,具有八種變化的有2個(gè)字母。具有四種變化的有24個(gè)字母。有兩種變化的有6個(gè)字母。另外,附屬字符的字母,共有四個(gè)。
書寫時(shí),筆順從右到左,布局從上至下。當(dāng)然,先完成主體筆畫,然后補(bǔ)充延遲筆畫。在實(shí)際書寫中會(huì)產(chǎn)生連寫形式。見圖三與圖四。
這些字母,在語言學(xué)中,被稱為前連體、雙連體、后連體、獨(dú)立體。由它們組合形成詞匯。幸好,常用的維吾爾文詞語,一共只有兩千多字,工作量不算大。
首先定義以下核心定義,然后使用,這些核心定義對(duì)每個(gè)字母與詞語,進(jìn)行編碼。會(huì)發(fā)現(xiàn),對(duì)于兩千多維吾爾語詞語的印刷體的編碼,根本沒有重碼。實(shí)現(xiàn)了,人眼能區(qū)分,計(jì)算機(jī)即可識(shí)別的數(shù)學(xué)建模效果。核心定義如下。
(1)橫、豎、斜、點(diǎn)。就是對(duì)橫線、豎線、斜線與點(diǎn)識(shí)別。由于維吾爾文的實(shí)際書寫特征,橫線有一定的角度搖擺范圍,同樣豎線也一樣,而斜線介于橫線與豎線之間。而點(diǎn)在幾何意義上,是尺度極短的橫線、豎線與斜線。有時(shí),點(diǎn)還會(huì)有尖鉤或彎尖鉤的特征,然而在維吾爾文中,我們不需要考慮這些尖鉤的變化,而一律將其識(shí)別為點(diǎn)即可。
(2)圓角、尖角。就是指,角一類的過渡是平滑的還是奇點(diǎn)突越。圓角與尖角,很形象的描述它們的幾何特征。顯然,在數(shù)學(xué)上要識(shí)別圓角與尖角是很容易的。
(3)連續(xù)、不連續(xù)、交叉與交叉點(diǎn)。就是從筆的落下點(diǎn)到抬起點(diǎn),是否連續(xù)。不同運(yùn)行筆跡是否有交叉,并產(chǎn)生了交叉點(diǎn)這個(gè)特征。交叉點(diǎn)分兩線交叉點(diǎn)、三線交叉點(diǎn)與四線交叉點(diǎn)。就是,一個(gè)點(diǎn)上連接幾條獨(dú)立的直線或射線。這種,交叉點(diǎn)的特征是維吾爾文所獨(dú)有的。
(4)圈與開圈。就是筆畫中,有閉合的圈與不閉合的圈。這一點(diǎn)利用幾何與拓?fù)鋵W(xué),很容易識(shí)別。
(5)相對(duì)八方向位置。就是,將平面坐標(biāo),平分八個(gè)角度,稱之為,上、下、左、右與左上、左下、右上、右下。
圖1 維吾爾文字母與變體
接著對(duì)每個(gè)文字與詞匯實(shí)施編碼。大致次序,為從右到左,從上到下。
圖2,給出了放大的字母。圖3,給出了放大了的詞語。請(qǐng)注意,有時(shí),圈看起來像巨大的點(diǎn),由于有圓角與尖角的定義,所以,不會(huì)將其誤認(rèn)為是各種各樣形式的點(diǎn)。
顯然,編碼是很容易的。當(dāng)然,合理或聰明的編碼設(shè)計(jì),將使得程序編寫的干練、高效與流暢。
圖四,是手寫體的示例。大體感覺上,以上方案同樣有效,但是,如果收集樣本,那么,相應(yīng)的工作量是巨大的,有點(diǎn)難以想象。但是,如果,已經(jīng)存在對(duì)應(yīng)的維吾爾文手寫體樣本數(shù)據(jù)庫,那么,下一步工作可以在理論上可行的。
圖2 維吾爾文字母放大示意
圖3 維吾爾文印刷體示意
其他學(xué)者比較成功的識(shí)別方案,介紹如下。
第一種是,組合特征識(shí)別。就是在外圍輪廓的限定下,加以附加筆畫限定、密度比例、筆畫數(shù)數(shù)據(jù)與位置關(guān)系,加以識(shí)別[1]??上ВR(shí)別率最高只有75.7%。使用的數(shù)學(xué)方法很先進(jìn),但是,初步效果不理想。
第二種是,使用LVQ神經(jīng)網(wǎng)絡(luò)建立字符識(shí)別方法。先對(duì)字符的最基本結(jié)構(gòu)進(jìn)行分解,然后使用自學(xué)習(xí)與自適應(yīng)的方法,融合協(xié)助,最后反復(fù)的提高識(shí)別效率[2]。也就是,對(duì)字符數(shù)據(jù)庫,根據(jù)全局統(tǒng)計(jì),對(duì)特征分析結(jié)果實(shí)施訓(xùn)練分析。最后,不斷自我改進(jìn)識(shí)別成功率。這個(gè)方法的好處,就是一旦程序完成,則后續(xù)工作較少。但是,該研究者沒有提供具體的識(shí)別成功率。
第三種方法,是模糊聚類識(shí)別。比如,使用穿刺法,獲得交匯密度特征。比如,用降維法,處理單位面積像素特征值[3]。比如,計(jì)算累計(jì)貢獻(xiàn)率。這種方法,對(duì)數(shù)學(xué)要求較高,計(jì)算極其復(fù)雜。同樣,文獻(xiàn)沒有提供識(shí)別率。
第四種方法,是使用中心距離特征建模。就是,對(duì)中心距離特征實(shí)施特征分析,反復(fù)訓(xùn)練,建立模板庫,反復(fù)實(shí)施識(shí)別測(cè)試[4]。這一方法,的確很新穎,但是,還處于研究階段。
第五種方法,使用統(tǒng)計(jì)法建立語法分析法則。這種語法或詞法約束,又分兩種,如上下文相關(guān)法則與上下文無關(guān)法則[5]。經(jīng)過對(duì)樣本庫的反復(fù)訓(xùn)練,可以大大提高識(shí)別率。而且,可以移植到,每個(gè)不同的識(shí)別模型中。的確是,一種很有價(jià)值的輔助提升效率的方法。
圖4 維吾爾文手寫體示意
本文提出新穎建模方法,在理論上解決了維吾爾文文字的脫機(jī)手寫識(shí)別的技術(shù)。識(shí)別的前提是,書寫者的字體較為傳統(tǒng)、較為規(guī)范。依照作者以往對(duì)中英文手寫識(shí)別解決方案的經(jīng)驗(yàn),這一方法,可以機(jī)動(dòng)靈活的移植到維吾爾文的聯(lián)機(jī)手寫識(shí)別[6-8]。至于,對(duì)藝術(shù)化的維吾爾文,能否識(shí)別。作者認(rèn)為,只要建立維吾爾文行書與草書或藝術(shù)體字符文字庫,那么同樣能夠正常工作。
同樣,其他研究者,如果采納或吸取本文方法,顯然能夠明顯提高他們的識(shí)別模型的識(shí)別成功率[1-5]。
[1]祖麗菲亞卡哈爾,瑪依熱依布拉音.組合特征的聯(lián)機(jī)手寫維吾爾字母識(shí)別[J].通信技術(shù),2013,46(5):95-97.
[2]齊向偉,艾孜爾古麗,玉素甫.維吾爾文手寫體基礎(chǔ)數(shù)據(jù)庫的構(gòu)建與在線識(shí)別研究[J].媒體技術(shù),2015,13:12-14.
[3]賈建忠,孫萍.脫機(jī)維吾爾文組合特征提取及模糊聚類識(shí)別[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,30(3):347-353.
[4]吾加合買提司馬義,艾斯卡爾艾木都拉.基于中心距離特征的聯(lián)機(jī)手寫維吾爾文全形態(tài)字母識(shí)別研究[J].電腦知識(shí)與技術(shù),2014,10(13):3097-3103.
[5]柳令令,趙暉.聯(lián)機(jī)手寫維吾爾文單詞識(shí)別中兩種語言模型的比較研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(9):151-153.
[6]黃弋石,梁艷.英文手寫聯(lián)機(jī)識(shí)別的基礎(chǔ)模型[J].軟件,2012,33(7):141-145.
[7]黃弋石,梁艷,陸崢嶸.漢字聯(lián)機(jī)手寫建模方法[J].軟件,2013,34(5):67-70.
[8]黃弋石,梁艷.手寫識(shí)別建模數(shù)學(xué)方法研究[J].軟件,2013,34(8):13-15.
Research of Offline Handwriting Recognition’s Modeling in Uighur
Huang Yishi.
Lab Center, School of Public Health, Nantong University, Nantong 226019,China.
In order to solve the Uighur printed text with handwritten words offline recognition, this paper proposes new recognition technology. The core model definition is defined, and five machine pronunciations are used to identify the features of the text. Using simple and convenient coding method, the model structure is pleasant and beautiful. For text coding, there is no duplicate code. In theory, the target is recognized by the eyes and the machine can recognize it. Obviously,this model design can also improve the other researchers' program, and greatly improve the corresponding efficiency and success rate.
Uighur handwriting character recognition; Handwriting recognition; Offline Recognition; Cursiverecognition
TP391 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1009-5624(2018)02-0089-03
黃弋石(1971-),男,江蘇啟東人,學(xué)士,實(shí)驗(yàn)師,主要研究方向?yàn)閿?shù)學(xué)建模與應(yīng)用。E-mail:huangyishint@126.com