王維蘭 ,盧小寶 ,蔡正琦 ,沈文韜 ,付 吉,才科扎西
(1. 西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅 蘭州 730030;2. 中國(guó)人民銀行 白銀中心支行,甘肅 白銀 730900)
基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成
王維蘭1,盧小寶2,蔡正琦1,沈文韜1,付 吉1,才科扎西1
(1. 西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅 蘭州 730030;2. 中國(guó)人民銀行 白銀中心支行,甘肅 白銀 730900)
“藏文—梵文”包括500多個(gè)現(xiàn)代藏文、6 000多個(gè)梵音藏文,在文字識(shí)別領(lǐng)域?qū)儆诖箢悇e的字符集,所以聯(lián)機(jī)手寫(xiě)樣本采集是龐大而復(fù)雜的工程。鑒于此,提供了一種基于部件組合的“藏文—梵文”手寫(xiě)樣本生成方法,主要包括: (1)確定“藏文—梵文”字符集和部件集;(2)獲取“藏文—梵文”字丁的部件位置信息;(3)采集聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本;(4)生成聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本庫(kù)。該文為聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究提供字符訓(xùn)練樣本庫(kù)和測(cè)試樣本庫(kù),提高了手寫(xiě)梵音藏文樣本采集效率,解決了樣本數(shù)量及多樣性問(wèn)題,降低了樣本采集成本,為進(jìn)一步聯(lián)機(jī)手寫(xiě)梵音藏文識(shí)別的研究與系統(tǒng)開(kāi)發(fā)奠定了基礎(chǔ)。
聯(lián)機(jī)手寫(xiě);藏文—梵文;字符集;部件組合;樣本生成
藏文輸入與其他文字一樣,有鍵盤輸入、手寫(xiě)識(shí)別輸入和掃描識(shí)別輸入等?,F(xiàn)代藏文通常又稱為藏文,有500多個(gè)字丁。梵音藏文是梵文的藏文轉(zhuǎn)寫(xiě)形式,有6 000多個(gè)字丁。本文所述的聯(lián)機(jī)手寫(xiě)識(shí)別字符集包括: ISO/IEC 10646-1: Tibetan Character Collection[1]即藏文基本集中42個(gè)字丁、《信息技術(shù) 藏文編碼字符集(擴(kuò)充集A)》[2]的1 536個(gè)字丁及《信息技術(shù) 藏文編碼字符集(擴(kuò)充集B)》[3]的5 662個(gè)字丁,以下分別簡(jiǎn)稱為: 基本集、擴(kuò)充集A和擴(kuò)充集B,藏文和梵音藏文共計(jì)7 240個(gè)字丁,本文中統(tǒng)稱為“藏文—梵文”識(shí)別字符集?!安匚摹笪摹弊址奶攸c(diǎn): 字符集大,在模式識(shí)別中就是 7 240 個(gè)類別?,F(xiàn)代藏文和幾十個(gè)常用梵音藏文共592個(gè)字丁的印刷體識(shí)別已有較多研究[4-6],所開(kāi)發(fā)的多字體印刷藏文字符識(shí)別系統(tǒng)已經(jīng)得到廣泛的應(yīng)用。近年來(lái),我國(guó)少數(shù)民族文字的脫機(jī)手寫(xiě)識(shí)別、聯(lián)機(jī)手寫(xiě)識(shí)別成為新的研究熱點(diǎn),在維吾爾文聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)中分別使用GMM和HMM兩種模型進(jìn)行建模并對(duì)其合并,確定最優(yōu)識(shí)別結(jié)果[7]、手寫(xiě)維吾爾文的預(yù)處理方法[8]。在脫機(jī)手寫(xiě)藏文識(shí)別方面,選擇667個(gè)藏文字符作為識(shí)別對(duì)象,在樣本庫(kù)構(gòu)建、預(yù)處理、特征提取、分類器設(shè)計(jì)及后處理等方面進(jìn)行了深入研究[9]。2009年,我們完成了現(xiàn)代藏文517個(gè)字丁和常用梵音藏文45個(gè)共計(jì)562個(gè)字丁的聯(lián)機(jī)手寫(xiě)輸入研發(fā),并獲得“一種聯(lián)機(jī)手寫(xiě)藏文字丁的識(shí)別方法”授權(quán)專利[10]。在近幾年的藏文識(shí)別研究中,中科院在基于部件的聯(lián)機(jī)手寫(xiě)藏文識(shí)別方面取得一定成果[11-14]。目前,涵蓋擴(kuò)充集A和擴(kuò)充集B的梵音藏文的聯(lián)機(jī)手寫(xiě)識(shí)別還未見(jiàn)相關(guān)報(bào)道。在實(shí)際應(yīng)用過(guò)程中,現(xiàn)代藏文和梵音藏文混合使用,對(duì)于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別軟件系統(tǒng)的研究與開(kāi)發(fā)至關(guān)重要,其中聯(lián)機(jī)手寫(xiě)字符樣本庫(kù)是數(shù)據(jù)基礎(chǔ),且樣本庫(kù)的質(zhì)量好壞也直接影響最后的識(shí)別效果。漢字的聯(lián)機(jī)手寫(xiě)識(shí)別研究已有各類樣本庫(kù)[14-15],然而,目前還沒(méi)有包含擴(kuò)充集A、擴(kuò)充集B的藏文及梵音藏文字丁的聯(lián)機(jī)手寫(xiě)樣本庫(kù)。當(dāng)字符集“藏文—梵文”以字丁作為識(shí)別單位時(shí),采集手寫(xiě)樣本將是一項(xiàng)非常龐大和復(fù)雜的工程。鑒于此,我們提出了一種基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成的方法,生成了7 240個(gè)字符集的聯(lián)機(jī)手寫(xiě)樣本庫(kù)。該方法不僅降低樣本采集的成本,也解決了大字符集“藏文—梵文”聯(lián)機(jī)手寫(xiě)識(shí)別樣本的數(shù)量及樣本的多樣性問(wèn)題,為進(jìn)一步聯(lián)機(jī)手寫(xiě)梵音藏文識(shí)別的研究與系統(tǒng)開(kāi)發(fā)奠定了基礎(chǔ)。
論文第二部分是基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成構(gòu)架;第三部分是字符集部件集的確定;第四部分為“藏文—梵文”字丁的部件位置信息獲取方法;第五部分是聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集;第六部分是最重要的部分,是聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成;第七部分是訓(xùn)練與測(cè)試的初步實(shí)驗(yàn)分析;最后是結(jié)語(yǔ)。
基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成構(gòu)架如圖1所示。
圖 1 基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成構(gòu)架圖
根據(jù)圖1,主要內(nèi)容有四個(gè)部分:
(1) 確定“藏文—梵文”字符集和部件集?!安匚摹笪摹弊址? 240個(gè)字丁組成,部件集由81個(gè)基本集字符和89個(gè)構(gòu)件組成,形成170個(gè)部件的部件集。
(2) “藏文—梵文”字丁的部件位置信息獲取。將7 240個(gè)“藏文—梵文”的每一個(gè)字丁放置于xy平面的大小為M×N的框內(nèi),標(biāo)注該字丁各個(gè)部件的外接矩形框,獲取并存儲(chǔ)該字丁各個(gè)部件的坐標(biāo)數(shù)據(jù)信息。
(3) 聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集。設(shè)計(jì)部件樣本采集軟件,書(shū)寫(xiě)者完成第1到第170個(gè)部件的采集和存儲(chǔ),形成一套樣本,采集信息包括部件的BMP位圖文件和部件筆跡信息文件。獲取所有采集人員完成的樣本,得到部件樣本庫(kù)。
(4) 聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成。設(shè)計(jì)樣本生成算法,根據(jù)步驟(2)所獲取的字丁各個(gè)部件的坐標(biāo)數(shù)據(jù)信息,將字丁的部件樣本從部件樣本庫(kù)中取出,依次按照它們組成一個(gè)字丁的各部件位置信息,映射到對(duì)應(yīng)的位置矩形,便得到字丁的樣本。生成7 240個(gè)“藏文—梵文”字丁的4 000~7 000套樣本。為聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究與開(kāi)發(fā)奠定字符集的樣本庫(kù)基礎(chǔ)。
3.1 “藏文—梵文”字符集
“藏文—梵文”包括基本集、擴(kuò)充集A、擴(kuò)充集B中的字丁。在我們整理字符集時(shí)發(fā)現(xiàn),擴(kuò)充集A與擴(kuò)充集B有一些重復(fù)的字丁,它們是:
擴(kuò)充集B內(nèi)部有兩個(gè)重復(fù)字丁,F(xiàn)1144和F1145完全一樣,如圖2所示。
圖2 擴(kuò)充集B中的兩個(gè)重復(fù)梵音藏文
刪除重復(fù)的字丁,最后確定“藏文—梵文”字符集包括基本集的42個(gè)、擴(kuò)充集A的1 536個(gè)和擴(kuò)充集B的5 662個(gè),共計(jì)7 240個(gè)字丁。
3.2 “藏文—梵文”部件集
為了提高樣本質(zhì)量和生成效率,降低采樣成本,本文提出了基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成方法。而“藏文—梵文”部件集的確定遵循三個(gè)原則:
(1) 部件集越小越好。因?yàn)椤安匚摹笪摹弊侄【褪腔炯幸粋€(gè)部件上下疊加組合而成。
部件集由81個(gè)基本集字符和89個(gè)相連部件組成,表1所示為“藏文—梵文”的170個(gè)部件。
表1“藏文—梵文”170個(gè)部件
3.3 “藏文—梵文”部件組合信息的數(shù)據(jù)庫(kù)
擴(kuò)充集A和擴(kuò)充集B中的字丁都是基本集中的字符上下疊加組合而成的,字丁不等高,基于以上三個(gè)原則,根據(jù)所確定的部件集拆分“藏文—梵文”字符集,可將字丁拆分為由一至六個(gè)不等的部件構(gòu)成,稱為一個(gè)字丁的部件個(gè)數(shù)或?qū)訑?shù)。同時(shí),基于藏文編碼暨國(guó)際標(biāo)準(zhǔn)基本集ISO/IEC 10646-1和與之相一致的Unicode國(guó)際標(biāo)準(zhǔn),使“藏文—梵文”字符集完全包括國(guó)際通用的內(nèi)碼,字符集字丁的拆分信息包括序號(hào)、Unicode碼、藏文—梵文顯現(xiàn)、部件個(gè)數(shù)、部件1到部件6的編號(hào)、部件1到部件6的顯現(xiàn)等。表2所示為“藏文—梵文”字符集字丁的拆分信息表的格式及部分字符的拆分信息,分別列出了序號(hào)為1、2、43、853、4 619、7 240的藏文或梵音藏文,反映了這些字符從第一到第六個(gè)部件的拆分信息。
表2 “藏文—梵文”字符集字丁的拆分信息表
4.1 “藏文—梵文”字丁的空間位置
部件集為“藏文—梵文”字丁的部件構(gòu)成奠定基礎(chǔ),我們的思路是: 獲取印刷體“藏文—梵文”字丁各個(gè)部件及部件的空間位置信息,將一個(gè)字丁的聯(lián)機(jī)手寫(xiě)部件,映射到對(duì)應(yīng)位置便可得到該字丁的手寫(xiě)樣本。
對(duì)同一字體、字號(hào)的7 240個(gè)“藏文—梵文”字丁都放置于xy平面的大小為MN的框內(nèi),所有字丁以基線對(duì)齊,基線之上有元音或者沒(méi)有。如圖3所示為四個(gè)字丁放置于xy平面MN框內(nèi)的示意圖,這四個(gè)字丁只有第二個(gè)字丁有上元音。
圖3 字符在xy平面、MN的框內(nèi)
將待標(biāo)注字丁顯示在MN的標(biāo)注平面上,實(shí)際標(biāo)注中寬M=240、高N=480,單位為像素。如圖4所示的字丁由兩個(gè)部件組成,上面部件位置矩形表示為Z(hd1,vd1,hd2,vd2),也就是標(biāo)注每一個(gè)部件的外接矩形,獲得其左上角坐標(biāo)(hd1,vd1)和右下角坐標(biāo)(hd2,vd2),就獲得了該部件的位置信息。
圖4 標(biāo)注平面示意圖
4.2 “藏文—梵文”字丁的部件位置標(biāo)注及其信息庫(kù)
圖5 部件標(biāo)注過(guò)程
對(duì)7 240個(gè)“藏文—梵文”字丁進(jìn)行部件位置信息的標(biāo)注,并將標(biāo)注過(guò)程中的信息存入數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)存儲(chǔ)的信息包括: ID(數(shù)據(jù)行號(hào))、Tibetan(“藏文—梵文”顯示)、Order(“藏文—梵文”序號(hào))、Code(從上到下各部件的序號(hào))、Sort(部件順序號(hào)),以及每個(gè)部件的左上角橫坐標(biāo)X1和縱坐標(biāo)Y1、右下角橫坐標(biāo)X2和縱坐標(biāo)Y2。表3所示為字符信息庫(kù)中
表3 字符信息庫(kù)中的部件位置信息(首、尾兩個(gè)字丁、)
5.1 部件的樣本采集設(shè)置、采集和存儲(chǔ)
為獲得自然、流暢、符合書(shū)寫(xiě)習(xí)慣的部件樣本庫(kù),我們?cè)O(shè)計(jì)了部件樣本采集軟件。在Android平臺(tái)的iPad上完成部件的樣本采集,采集信息包括部件的BMP位圖文件,圖6所示為一個(gè)采集者的部分部件樣本位圖。
圖6 一個(gè)采集者的部件位圖(部分)樣本
位圖文件便于查看,另一個(gè)存儲(chǔ)的是部件筆跡信息文件,筆跡信息文件中包含書(shū)寫(xiě)時(shí)筆跡經(jīng)過(guò)的點(diǎn)、筆畫(huà)結(jié)束和部件結(jié)束的標(biāo)記信息:
(x11,y11) (x12,y12)…(x1n1,y1n1)(-1,-1),
(x21,y21) (x22,y22)…(x2n2,y2n2)(-1,-1),
……
(xt1,yt1) (xt2,yt2)…(xtnt,ytnt)(-1,-1)(-2,-2)
其中(xtnt,ytnt)表示第t個(gè)筆畫(huà)的第nt個(gè)點(diǎn)的坐標(biāo),(-1,-1)表示從落筆到抬筆一個(gè)筆畫(huà)的結(jié)束,(-2,-2)表示一個(gè)部件書(shū)寫(xiě)結(jié)束。
5.2 部件樣本庫(kù)
每個(gè)人完成第1到第170個(gè)部件的采集和存儲(chǔ),形成一套部件樣本,樣本的實(shí)際分布包括書(shū)寫(xiě)者所在的地域、年齡、學(xué)歷等因素,共有300多人參加采集;為保證樣本的質(zhì)量,還需要對(duì)部件樣本進(jìn)行預(yù)處理,如去除或修正錯(cuò)誤樣本,甚至整套刪除,以及去除孤立點(diǎn)、進(jìn)行傾斜校正等,從而形成部件樣本庫(kù)。
6.1 部件樣本到字丁樣本的映射
根據(jù)字丁拆分和位置矩形標(biāo)注的結(jié)果,將構(gòu)成字丁的部件樣本逐一從部件樣本庫(kù)中取出,依次按照其位置信息映射到對(duì)應(yīng)位置矩形,便得到字丁的樣本;設(shè)“藏文—梵文”字丁Z由m個(gè)部件r1、r2、r3、…、rm-1、rm構(gòu)成,構(gòu)成字丁Z的部件中部件ri的樣本數(shù)為ksi,則字丁Z可生成的樣本有ks1×ks2×…×ksi×…×ksm種,實(shí)際中,部件樣本是成套采集的,因此ks1=ks2=…=ksi=…=ksm=k,其中k為部件樣本的套數(shù)。
“藏文—梵文”字丁(或其中的部件)相應(yīng)位置如圖7所示,圖7(a)是部件樣本的位置矩形,位置矩形表示為Z(hsc1,vsc1;hsc2,vsc2),其中hsc1和vsc1為矩形左上角的橫坐標(biāo)和縱坐標(biāo),hsc2和vsc2為矩形右下角的橫坐標(biāo)和縱坐標(biāo),M'×N'是部件采集平面;圖7(b)是圖7(a)所對(duì)應(yīng)部件映射平面的位置矩形,M"×N"為部件映射平面,圖7(b)中位置矩形,由“藏文—梵文”識(shí)別字符集信息庫(kù)中的部件位置信息,通過(guò)線性變換計(jì)算獲得,如式(1)所示。
這個(gè)變換確定了部件在映射平面中的位置,其中(hsc1,vsc1,hsc2,vsc2)為部件的位置信息。部件映射就是對(duì)采樣平面中位置矩形內(nèi)的部件做線性變換,然后復(fù)制到映射平面的過(guò)程,線性變換參數(shù),如式(2)所示。
圖7 部件樣本映射到“藏文—梵文”字丁相應(yīng)位置示意圖
圖8(a)、圖8(b)和圖8(c)是圖7(a)的部件樣本復(fù)制到映射平面的位置矩形后出現(xiàn)的三種情況,為了取得更好的字丁生成效果,需要校正部件在映射平面位置矩形內(nèi)的數(shù)值。設(shè)部件樣本上的任一點(diǎn)為(x,y),對(duì)應(yīng)校正后的點(diǎn)為(x’,y’),校正可分為三種情況:
圖8 部件樣本到映射平面的位置情況示意圖
6.2 7 240個(gè)字丁樣本的生成
用于7 240個(gè)類別的識(shí)別問(wèn)題,需要訓(xùn)練樣本和測(cè)試樣本4 000~7 000套,本次實(shí)施過(guò)程生成了5 000套。
對(duì)單部件字丁的樣本,采用非同比伸縮變換、稀疏化的方法,通過(guò)改變字丁中點(diǎn)的空間位置信息來(lái)增加樣本的數(shù)量,但是同比伸縮變換的長(zhǎng)寬比必須控制在一定范圍內(nèi),超出范圍將造成字符嚴(yán)重扭曲變形以致無(wú)法識(shí)別;稀疏化是一種類似于數(shù)據(jù)丟包的方法,通過(guò)隨機(jī)丟點(diǎn)的方法來(lái)改變字丁中筆畫(huà)的軌跡信息,丟點(diǎn)太多則有可能完全失去字符的空間信息,丟點(diǎn)太少則不足以改變字符的空間信息,選擇適當(dāng)?shù)姆秶彩顷P(guān)鍵所在。線性變換、稀疏化算法如下:
(1) 采用線性變換
(2) 稀疏化算法
稀疏化分四步:
① 讀取所采集的字丁存入數(shù)組中;
② 設(shè)置丟點(diǎn)的數(shù)目υ并計(jì)算數(shù)組大小len,丟點(diǎn)的數(shù)目υ的范圍是: 0.05len≤υ≤0.3len;
③ 產(chǎn)生υ個(gè)數(shù)組索引隨機(jī)數(shù)rand,0≤rand≤len-1;
④ 刪除υ個(gè)隨機(jī)數(shù)索引對(duì)應(yīng)的點(diǎn),存儲(chǔ)新生成的字丁樣本。
“藏文—梵文”字丁樣本生成的算法如下:
S1. 判斷待生成字丁的部件層數(shù);
S2. 如果字丁層數(shù)為1,則轉(zhuǎn)S3,如果字丁層數(shù)為2,則轉(zhuǎn)S4,如果字丁層數(shù)大于等于3,則轉(zhuǎn)S5;
S3. 將通過(guò)線性變換和稀疏化得到的樣本存放到一起,并隨機(jī)地將其分配到每一套“藏文—梵文”樣本中;
S4. 根據(jù)“藏文—梵文”字丁的部件位置信息標(biāo)注結(jié)果,將一個(gè)字丁的兩個(gè)部件從上到下按照其編號(hào)和位置信息從得到的信息數(shù)據(jù)庫(kù)中讀取,并映射到大小為M×N的位置矩形中;
S5. 根據(jù)“藏文—梵文”字丁的部件位置信息標(biāo)注結(jié)果,將組成字丁的部件從上到下均勻地從部件樣本庫(kù)中取出,然后映射到大小為M×N的位置矩陣中。
上述算法中,所謂均勻地從部件樣本庫(kù)中取出部件,方式如下:
通過(guò)以上過(guò)程,我們完成了7 240個(gè)類別聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本5 000套,共36 200 000個(gè)樣本。這些樣本再經(jīng)過(guò)消除孤立點(diǎn)、筆速均勻化、歸一化等預(yù)處理就可用于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究。
圖9 不同層數(shù)“藏文—梵文”字丁合成的樣本實(shí)例圖
7.1562個(gè)字丁在不同測(cè)試樣本集上的識(shí)別結(jié)果比較
字丁預(yù)處理、特征提取與壓縮、分類器設(shè)計(jì)等采用原有的方法[11],同時(shí),原來(lái)562個(gè)藏文字丁,315個(gè)人手寫(xiě)完成315套作為訓(xùn)練集、60人書(shū)寫(xiě)的60套作為測(cè)試樣本集,首選、三選、五選和十選識(shí)別率如表4的第一行所示。新的方法所生成的樣本訓(xùn)練的分類器,同樣取另外60套作為測(cè)試樣本集,測(cè)試的結(jié)果如表4的第三行所示。新的樣本集上測(cè)試識(shí)別率有較大幅度的提高。分析原因,一方面,可能原
表4 平均識(shí)別率比較
來(lái)采集樣本時(shí),每個(gè)采集者書(shū)寫(xiě)到后面相對(duì)都寫(xiě)得比較潦草。
另外,562個(gè)字丁十選識(shí)別率的分布情況如表5所示。由表5可見(jiàn),現(xiàn)在識(shí)別率在99%以上的占總字?jǐn)?shù)的35.76%;識(shí)別率在98%以上的占總字?jǐn)?shù)的61.38%;識(shí)別率在97%以上的占總字?jǐn)?shù)的77.94%;全部的字丁識(shí)別率都在90%以上。此外,雖然現(xiàn)在識(shí)別率100%的字丁比原來(lái)多3個(gè),但識(shí)別率99%以上的字丁大幅增加。表6是一套測(cè)試樣本中擴(kuò)展集A的幾個(gè)字丁識(shí)別的前十選排序情況,其中前三行都是首選正確,即選項(xiàng)為1;然后是四個(gè)字丁的正確識(shí)別結(jié)果為第二選;最后兩行正確的識(shí)別結(jié)果分別在三選、四選。由表6可見(jiàn),無(wú)論識(shí)別正確的是首選還是四選,前十個(gè)侯選序列基本都是極相似的字丁。
7.2 7 240個(gè)字丁的測(cè)試結(jié)果
7 240個(gè)字丁的5 000套樣本,隨意選取訓(xùn)練集4 500套樣本、測(cè)試集500套。
對(duì)500套樣本進(jìn)行測(cè)試,首選、三選、五選、十選
表5 十選識(shí)別率的分布情況
表6 一些擴(kuò)充集A中的字丁測(cè)試識(shí)別情況
表7 7 240個(gè)字丁500套樣本的平均識(shí)別率
表8 7 240個(gè)字丁第十選識(shí)別率字分布情況
表9是十選識(shí)別率100%的45個(gè)字丁,前三個(gè)是擴(kuò)充集A中的字丁,其余全部是擴(kuò)展集B中的字丁,除第一個(gè)字丁是基字加元音筆劃簡(jiǎn)單外,其他字丁都疊加層數(shù)多筆畫(huà)較為復(fù)雜。初步的判斷: 復(fù)雜字丁的識(shí)別率較簡(jiǎn)單字丁的識(shí)別率高。
表9十選識(shí)別率100%的45個(gè)字丁
根據(jù)藏文、梵音藏文的書(shū)寫(xiě)習(xí)慣,確定170個(gè)部件的“藏文—梵文”部件集,以及“藏文—梵文”字符集7 240個(gè)類別;開(kāi)發(fā)完成了“藏文—梵文”字丁的部件位置信息獲取軟件,形成該字符集各個(gè)字丁的部件位置信息數(shù)據(jù)庫(kù);開(kāi)發(fā)了聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集軟件,已采集了300多套部件樣本集;根據(jù)“藏文—梵文”部件位置信息數(shù)據(jù)庫(kù)、部件樣本集,設(shè)計(jì)字丁樣本生成的算法,完成了聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本庫(kù)生成軟件,現(xiàn)已生成7 240個(gè)聯(lián)機(jī)手寫(xiě)“藏文—梵文”的樣本庫(kù)5 000套,用于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別研究和開(kāi)發(fā)的訓(xùn)練樣本與測(cè)試樣本,提高了手寫(xiě)樣本采集效率和樣本多樣性,降低了樣本采集成本。初步的訓(xùn)練和測(cè)試結(jié)果: 對(duì)562個(gè)(現(xiàn)代藏文517個(gè)和常用梵音藏文45個(gè))字丁,在所生成的樣本庫(kù)上進(jìn)行訓(xùn)練和測(cè)試,平均識(shí)別率有了較大的提高;7 240個(gè)字丁的十選識(shí)別率達(dá)到95.956 5%。在此基礎(chǔ)上,將進(jìn)一步完善相關(guān)內(nèi)容,完成聯(lián)機(jī)手寫(xiě)“藏文—梵文”的識(shí)別系統(tǒng)。
[1] ISO/IEC 10646-1:Tibetan Character Collection[S].ISO/IEC JTC1/SC2/WG2,2000.
[2] 國(guó)家質(zhì)量技術(shù)監(jiān)督局.GB 22323—2008 信息技術(shù)藏文編碼字符集(基本集及擴(kuò)充集A)[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2008.
[3] 國(guó)家質(zhì)量技術(shù)監(jiān)督局.GB/T 25913—2010 信息技術(shù) 藏文編碼字符集(擴(kuò)充集B)[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2010.
[4] 王維蘭,丁曉青,祁坤鈺.藏文識(shí)別中相似字丁的區(qū)分研究[J].中文信息學(xué)報(bào),2002,16(4):60-65.
[5] 王華,丁曉青.多字體印刷藏文字符識(shí)別[J].中文信息學(xué)報(bào),2003,17(6):47-52.
[6] 丁曉青,王華,劉長(zhǎng)松,等.多字體多字號(hào)印刷體藏文字符識(shí)別方法[D].ZL200410034107.4,2004.
[7] 熱依曼·吐?tīng)栠d,吾守爾·斯拉木.一種維吾爾語(yǔ)聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)[J].中文信息學(xué)報(bào),2014,28(3):112-115.
[8] 劉衛(wèi),李和成.基于多模板歸一化的維吾爾文字母識(shí)別算法[J].中文信息學(xué)報(bào),2016,30(1):156-161.
[9] Huang Heming, Da Feipeng, Hang Xiaoxu. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J].Journal of Southeast University,2014(1):27-31.
[10] 王維蘭,錢建軍,多杰卓瑪,等.一種聯(lián)機(jī)手寫(xiě)藏文字符的識(shí)別方法[P].中華人民共和國(guó)國(guó)家知識(shí)版權(quán)局. ZL200910128595.8, 2011.
[11] Ma L L,Wu J. Semi-automatic Tibetan component annotation from online handwritten Tibetan character database by optimizing segmentation hypotheses[C]//Proceedings of the International Conference on Document Analysis amp; Recognition, 2013:1340-1344.
[12] Ma L L, Wu J. A Tibetan component representation learning method for online handwritten Tibetan character recognition[C]//Proceedings of the International Conference on Frontiers in Handwriting Recognition, 2014:317-322.
[13] Ma L L, Wu J. Online handwritten Tibetan syllable recognition based on component segmentation method[C]//Proceedings of the International Conference on Document Analysis amp; Recognition,2015:46-50.
[14] Wang Dahan, Liu Chenglin, Yu Jinlun, et al. CASIA-OLHWDB1: A database of online handwritten Chinese characters[C]//Proceedings of the 10th International Conference on Document Analysis and Recognition, 2009:1206-1210.
[15] Jin L, Gao Y, Liu G, et al. SCUT-COUCH2009-A comprehensive online unconstrained Chinese handwriting database and benchmark evaluation[J]. International Journal on Document Analysis and Recognition,2011,14(1):53-64.
王維蘭(1961—),學(xué)士,教授,主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別、智能信息處理與應(yīng)用軟件和藏文信息處理等。
E-mail: wangweilan@xbmu.edu.cn
盧小寶(1984—),碩士,工程師,主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。
E-mail:lxb198416@163.com
蔡正琦(1974—),碩士,副教授,主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別。
E-mail:caizhengqi@126.com
OnlineHandwrittenSampleGeneratedBasedonComponentCombinationforTibetan-Sanskrit
WANG Weilan1, LU Xiaobao2, CAI Zhengqi1, SHEN Wentao1, FU Ji1, CAIKE Zhaxi1
(1. Department of Math and Computer Science,Northwest University for Nationalities, Lanzhou, Gansu 730030, China;2. Baiyin Center Subbranch, People’s Bank of China, Baiyin, Gansu 730900, China)
Tibetan-Sanskrit includes more than 500 Tibetan characters, and more than 6000 Sanskrit. Belonging to the large class of character set, the sample collection of the online handwritten is a large and complex project. We present an online handwriting character sample generation method based on component combination for Tibetan-Sanskrit. The proposed method includes four main parts: (1) to determine the Tibetan-Sanskrit character set and component set; (2) to get location information of Tibetan-Sanskrit characters; (3) to collect online handwritten sample of component set for Tibetan-Sanskrit; and (4) to generate sample database of online handwritten Tibetan-Sanskrit character set. This provides the character's training sample set and test sample set for online handwritten Tibetan-Sanskrit.
online handwritten; Tibetan-Sanskrit; character set; component combination; sample generation
1003-0077(2017)05-0064-10
TP391
A
2016-11-26定稿日期2017-03-17
國(guó)家自然科學(xué)基金(61375029);國(guó)家民委領(lǐng)軍人才計(jì)劃;西北民族大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(31920170142)。