基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成

2017-11-27 08:57:49王維蘭盧小寶蔡正琦沈文韜才科扎西

中文信息學(xué)報(bào) 2017年5期

關(guān)鍵詞：字符集梵文聯(lián)機(jī)

王維蘭，盧小寶，蔡正琦，沈文韜，付吉，才科扎西

(1. 西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州 730030；2. 中國(guó)人民銀行白銀中心支行，甘肅白銀 730900)

基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成

王維蘭1，盧小寶2，蔡正琦1，沈文韜1，付吉1，才科扎西1

(1. 西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州 730030；2. 中國(guó)人民銀行白銀中心支行，甘肅白銀 730900)

“藏文—梵文”包括500多個(gè)現(xiàn)代藏文、6 000多個(gè)梵音藏文，在文字識(shí)別領(lǐng)域?qū)儆诖箢悇e的字符集，所以聯(lián)機(jī)手寫(xiě)樣本采集是龐大而復(fù)雜的工程。鑒于此，提供了一種基于部件組合的“藏文—梵文”手寫(xiě)樣本生成方法，主要包括： (1)確定“藏文—梵文”字符集和部件集；(2)獲取“藏文—梵文”字丁的部件位置信息；(3)采集聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本；(4)生成聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本庫(kù)。該文為聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究提供字符訓(xùn)練樣本庫(kù)和測(cè)試樣本庫(kù)，提高了手寫(xiě)梵音藏文樣本采集效率，解決了樣本數(shù)量及多樣性問(wèn)題，降低了樣本采集成本，為進(jìn)一步聯(lián)機(jī)手寫(xiě)梵音藏文識(shí)別的研究與系統(tǒng)開(kāi)發(fā)奠定了基礎(chǔ)。

聯(lián)機(jī)手寫(xiě)；藏文—梵文；字符集；部件組合；樣本生成

1 引言

藏文輸入與其他文字一樣，有鍵盤輸入、手寫(xiě)識(shí)別輸入和掃描識(shí)別輸入等?，F(xiàn)代藏文通常又稱為藏文，有500多個(gè)字丁。梵音藏文是梵文的藏文轉(zhuǎn)寫(xiě)形式，有6 000多個(gè)字丁。本文所述的聯(lián)機(jī)手寫(xiě)識(shí)別字符集包括： ISO/IEC 10646-1： Tibetan Character Collection[1]即藏文基本集中42個(gè)字丁、《信息技術(shù) 藏文編碼字符集(擴(kuò)充集A)》[2]的1 536個(gè)字丁及《信息技術(shù) 藏文編碼字符集(擴(kuò)充集B)》[3]的5 662個(gè)字丁，以下分別簡(jiǎn)稱為：基本集、擴(kuò)充集A和擴(kuò)充集B，藏文和梵音藏文共計(jì)7 240個(gè)字丁，本文中統(tǒng)稱為“藏文—梵文”識(shí)別字符集?！安匚摹笪摹弊址奶攸c(diǎn)：字符集大，在模式識(shí)別中就是 7 240 個(gè)類別?，F(xiàn)代藏文和幾十個(gè)常用梵音藏文共592個(gè)字丁的印刷體識(shí)別已有較多研究[4-6]，所開(kāi)發(fā)的多字體印刷藏文字符識(shí)別系統(tǒng)已經(jīng)得到廣泛的應(yīng)用。近年來(lái)，我國(guó)少數(shù)民族文字的脫機(jī)手寫(xiě)識(shí)別、聯(lián)機(jī)手寫(xiě)識(shí)別成為新的研究熱點(diǎn)，在維吾爾文聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)中分別使用GMM和HMM兩種模型進(jìn)行建模并對(duì)其合并，確定最優(yōu)識(shí)別結(jié)果[7]、手寫(xiě)維吾爾文的預(yù)處理方法[8]。在脫機(jī)手寫(xiě)藏文識(shí)別方面，選擇667個(gè)藏文字符作為識(shí)別對(duì)象，在樣本庫(kù)構(gòu)建、預(yù)處理、特征提取、分類器設(shè)計(jì)及后處理等方面進(jìn)行了深入研究[9]。2009年，我們完成了現(xiàn)代藏文517個(gè)字丁和常用梵音藏文45個(gè)共計(jì)562個(gè)字丁的聯(lián)機(jī)手寫(xiě)輸入研發(fā)，并獲得“一種聯(lián)機(jī)手寫(xiě)藏文字丁的識(shí)別方法”授權(quán)專利[10]。在近幾年的藏文識(shí)別研究中，中科院在基于部件的聯(lián)機(jī)手寫(xiě)藏文識(shí)別方面取得一定成果[11-14]。目前，涵蓋擴(kuò)充集A和擴(kuò)充集B的梵音藏文的聯(lián)機(jī)手寫(xiě)識(shí)別還未見(jiàn)相關(guān)報(bào)道。在實(shí)際應(yīng)用過(guò)程中，現(xiàn)代藏文和梵音藏文混合使用，對(duì)于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別軟件系統(tǒng)的研究與開(kāi)發(fā)至關(guān)重要，其中聯(lián)機(jī)手寫(xiě)字符樣本庫(kù)是數(shù)據(jù)基礎(chǔ)，且樣本庫(kù)的質(zhì)量好壞也直接影響最后的識(shí)別效果。漢字的聯(lián)機(jī)手寫(xiě)識(shí)別研究已有各類樣本庫(kù)[14-15]，然而，目前還沒(méi)有包含擴(kuò)充集A、擴(kuò)充集B的藏文及梵音藏文字丁的聯(lián)機(jī)手寫(xiě)樣本庫(kù)。當(dāng)字符集“藏文—梵文”以字丁作為識(shí)別單位時(shí)，采集手寫(xiě)樣本將是一項(xiàng)非常龐大和復(fù)雜的工程。鑒于此，我們提出了一種基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成的方法，生成了7 240個(gè)字符集的聯(lián)機(jī)手寫(xiě)樣本庫(kù)。該方法不僅降低樣本采集的成本，也解決了大字符集“藏文—梵文”聯(lián)機(jī)手寫(xiě)識(shí)別樣本的數(shù)量及樣本的多樣性問(wèn)題，為進(jìn)一步聯(lián)機(jī)手寫(xiě)梵音藏文識(shí)別的研究與系統(tǒng)開(kāi)發(fā)奠定了基礎(chǔ)。

論文第二部分是基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成構(gòu)架；第三部分是字符集部件集的確定；第四部分為“藏文—梵文”字丁的部件位置信息獲取方法；第五部分是聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集；第六部分是最重要的部分，是聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成；第七部分是訓(xùn)練與測(cè)試的初步實(shí)驗(yàn)分析；最后是結(jié)語(yǔ)。

2 基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成構(gòu)架

基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成構(gòu)架如圖1所示。

圖 1 基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成構(gòu)架圖

根據(jù)圖1，主要內(nèi)容有四個(gè)部分：

(1) 確定“藏文—梵文”字符集和部件集?！安匚摹笪摹弊址? 240個(gè)字丁組成，部件集由81個(gè)基本集字符和89個(gè)構(gòu)件組成，形成170個(gè)部件的部件集。

(2) “藏文—梵文”字丁的部件位置信息獲取。將7 240個(gè)“藏文—梵文”的每一個(gè)字丁放置于xy平面的大小為M×N的框內(nèi)，標(biāo)注該字丁各個(gè)部件的外接矩形框，獲取并存儲(chǔ)該字丁各個(gè)部件的坐標(biāo)數(shù)據(jù)信息。

(3) 聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集。設(shè)計(jì)部件樣本采集軟件，書(shū)寫(xiě)者完成第1到第170個(gè)部件的采集和存儲(chǔ)，形成一套樣本，采集信息包括部件的BMP位圖文件和部件筆跡信息文件。獲取所有采集人員完成的樣本，得到部件樣本庫(kù)。

(4) 聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成。設(shè)計(jì)樣本生成算法，根據(jù)步驟(2)所獲取的字丁各個(gè)部件的坐標(biāo)數(shù)據(jù)信息，將字丁的部件樣本從部件樣本庫(kù)中取出，依次按照它們組成一個(gè)字丁的各部件位置信息，映射到對(duì)應(yīng)的位置矩形，便得到字丁的樣本。生成7 240個(gè)“藏文—梵文”字丁的4 000～7 000套樣本。為聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究與開(kāi)發(fā)奠定字符集的樣本庫(kù)基礎(chǔ)。

3 “藏文—梵文”字符集和部件集

3．1 “藏文—梵文”字符集

“藏文—梵文”包括基本集、擴(kuò)充集A、擴(kuò)充集B中的字丁。在我們整理字符集時(shí)發(fā)現(xiàn)，擴(kuò)充集A與擴(kuò)充集B有一些重復(fù)的字丁，它們是：

擴(kuò)充集B內(nèi)部有兩個(gè)重復(fù)字丁，F(xiàn)1144和F1145完全一樣，如圖2所示。

圖2 擴(kuò)充集B中的兩個(gè)重復(fù)梵音藏文

刪除重復(fù)的字丁，最后確定“藏文—梵文”字符集包括基本集的42個(gè)、擴(kuò)充集A的1 536個(gè)和擴(kuò)充集B的5 662個(gè)，共計(jì)7 240個(gè)字丁。

3．2 “藏文—梵文”部件集

為了提高樣本質(zhì)量和生成效率，降低采樣成本，本文提出了基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成方法。而“藏文—梵文”部件集的確定遵循三個(gè)原則：

(1) 部件集越小越好。因?yàn)椤安匚摹笪摹弊侄【褪腔炯幸粋€(gè)部件上下疊加組合而成。

部件集由81個(gè)基本集字符和89個(gè)相連部件組成，表1所示為“藏文—梵文”的170個(gè)部件。

表1“藏文—梵文”170個(gè)部件

3．3 “藏文—梵文”部件組合信息的數(shù)據(jù)庫(kù)

擴(kuò)充集A和擴(kuò)充集B中的字丁都是基本集中的字符上下疊加組合而成的，字丁不等高，基于以上三個(gè)原則，根據(jù)所確定的部件集拆分“藏文—梵文”字符集，可將字丁拆分為由一至六個(gè)不等的部件構(gòu)成，稱為一個(gè)字丁的部件個(gè)數(shù)或?qū)訑?shù)。同時(shí)，基于藏文編碼暨國(guó)際標(biāo)準(zhǔn)基本集ISO/IEC 10646-1和與之相一致的Unicode國(guó)際標(biāo)準(zhǔn)，使“藏文—梵文”字符集完全包括國(guó)際通用的內(nèi)碼，字符集字丁的拆分信息包括序號(hào)、Unicode碼、藏文—梵文顯現(xiàn)、部件個(gè)數(shù)、部件1到部件6的編號(hào)、部件1到部件6的顯現(xiàn)等。表2所示為“藏文—梵文”字符集字丁的拆分信息表的格式及部分字符的拆分信息，分別列出了序號(hào)為1、2、43、853、4 619、7 240的藏文或梵音藏文，反映了這些字符從第一到第六個(gè)部件的拆分信息。

表2 “藏文—梵文”字符集字丁的拆分信息表

4 “藏文—梵文”的部件位置信息獲取

4．1 “藏文—梵文”字丁的空間位置

部件集為“藏文—梵文”字丁的部件構(gòu)成奠定基礎(chǔ)，我們的思路是：獲取印刷體“藏文—梵文”字丁各個(gè)部件及部件的空間位置信息，將一個(gè)字丁的聯(lián)機(jī)手寫(xiě)部件，映射到對(duì)應(yīng)位置便可得到該字丁的手寫(xiě)樣本。

對(duì)同一字體、字號(hào)的7 240個(gè)“藏文—梵文”字丁都放置于xy平面的大小為MN的框內(nèi)，所有字丁以基線對(duì)齊，基線之上有元音或者沒(méi)有。如圖3所示為四個(gè)字丁放置于xy平面MN框內(nèi)的示意圖，這四個(gè)字丁只有第二個(gè)字丁有上元音。

圖3 字符在xy平面、MN的框內(nèi)

將待標(biāo)注字丁顯示在MN的標(biāo)注平面上，實(shí)際標(biāo)注中寬M=240、高N=480，單位為像素。如圖4所示的字丁由兩個(gè)部件組成，上面部件位置矩形表示為Z(hd1,vd1,hd2,vd2),也就是標(biāo)注每一個(gè)部件的外接矩形，獲得其左上角坐標(biāo)(hd1,vd1)和右下角坐標(biāo)(hd2,vd2)，就獲得了該部件的位置信息。

圖4 標(biāo)注平面示意圖

4．2 “藏文—梵文”字丁的部件位置標(biāo)注及其信息庫(kù)

圖5 部件標(biāo)注過(guò)程

對(duì)7 240個(gè)“藏文—梵文”字丁進(jìn)行部件位置信息的標(biāo)注，并將標(biāo)注過(guò)程中的信息存入數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)存儲(chǔ)的信息包括： ID(數(shù)據(jù)行號(hào))、Tibetan(“藏文—梵文”顯示)、Order(“藏文—梵文”序號(hào))、Code(從上到下各部件的序號(hào))、Sort(部件順序號(hào))，以及每個(gè)部件的左上角橫坐標(biāo)X1和縱坐標(biāo)Y1、右下角橫坐標(biāo)X2和縱坐標(biāo)Y2。表3所示為字符信息庫(kù)中

表3 字符信息庫(kù)中的部件位置信息(首、尾兩個(gè)字丁、)

5 聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集

5．1 部件的樣本采集設(shè)置、采集和存儲(chǔ)

為獲得自然、流暢、符合書(shū)寫(xiě)習(xí)慣的部件樣本庫(kù)，我們?cè)O(shè)計(jì)了部件樣本采集軟件。在Android平臺(tái)的iPad上完成部件的樣本采集，采集信息包括部件的BMP位圖文件，圖6所示為一個(gè)采集者的部分部件樣本位圖。

圖6 一個(gè)采集者的部件位圖(部分)樣本

位圖文件便于查看，另一個(gè)存儲(chǔ)的是部件筆跡信息文件，筆跡信息文件中包含書(shū)寫(xiě)時(shí)筆跡經(jīng)過(guò)的點(diǎn)、筆畫(huà)結(jié)束和部件結(jié)束的標(biāo)記信息：

(x11,y11) (x12,y12)…(x1n1,y1n1)(-1,-1),

(x21,y21) (x22,y22)…(x2n2,y2n2)(-1,-1),

……

(xt1,yt1) (xt2,yt2)…(xtnt,ytnt)(-1,-1)(-2,-2)

其中(xtnt,ytnt)表示第t個(gè)筆畫(huà)的第nt個(gè)點(diǎn)的坐標(biāo)，(-1,-1)表示從落筆到抬筆一個(gè)筆畫(huà)的結(jié)束，(-2,-2)表示一個(gè)部件書(shū)寫(xiě)結(jié)束。

5．2 部件樣本庫(kù)

每個(gè)人完成第1到第170個(gè)部件的采集和存儲(chǔ)，形成一套部件樣本，樣本的實(shí)際分布包括書(shū)寫(xiě)者所在的地域、年齡、學(xué)歷等因素，共有300多人參加采集；為保證樣本的質(zhì)量，還需要對(duì)部件樣本進(jìn)行預(yù)處理，如去除或修正錯(cuò)誤樣本，甚至整套刪除，以及去除孤立點(diǎn)、進(jìn)行傾斜校正等，從而形成部件樣本庫(kù)。

6 聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成

6．1 部件樣本到字丁樣本的映射

根據(jù)字丁拆分和位置矩形標(biāo)注的結(jié)果，將構(gòu)成字丁的部件樣本逐一從部件樣本庫(kù)中取出，依次按照其位置信息映射到對(duì)應(yīng)位置矩形，便得到字丁的樣本；設(shè)“藏文—梵文”字丁Z由m個(gè)部件r1、r2、r3、…、rm-1、rm構(gòu)成，構(gòu)成字丁Z的部件中部件ri的樣本數(shù)為ksi，則字丁Z可生成的樣本有ks1×ks2×…×ksi×…×ksm種，實(shí)際中，部件樣本是成套采集的，因此ks1=ks2=…=ksi=…=ksm=k，其中k為部件樣本的套數(shù)。

“藏文—梵文”字丁(或其中的部件)相應(yīng)位置如圖7所示，圖7(a)是部件樣本的位置矩形，位置矩形表示為Z(hsc1,vsc1;hsc2,vsc2)，其中hsc1和vsc1為矩形左上角的橫坐標(biāo)和縱坐標(biāo)，hsc2和vsc2為矩形右下角的橫坐標(biāo)和縱坐標(biāo)，M'×N'是部件采集平面；圖7(b)是圖7(a)所對(duì)應(yīng)部件映射平面的位置矩形，M"×N"為部件映射平面，圖7(b)中位置矩形，由“藏文—梵文”識(shí)別字符集信息庫(kù)中的部件位置信息，通過(guò)線性變換計(jì)算獲得，如式(1)所示。

這個(gè)變換確定了部件在映射平面中的位置，其中(hsc1,vsc1,hsc2,vsc2)為部件的位置信息。部件映射就是對(duì)采樣平面中位置矩形內(nèi)的部件做線性變換，然后復(fù)制到映射平面的過(guò)程，線性變換參數(shù)，如式(2)所示。

圖7 部件樣本映射到“藏文—梵文”字丁相應(yīng)位置示意圖

圖8(a)、圖8(b)和圖8(c)是圖7(a)的部件樣本復(fù)制到映射平面的位置矩形后出現(xiàn)的三種情況，為了取得更好的字丁生成效果，需要校正部件在映射平面位置矩形內(nèi)的數(shù)值。設(shè)部件樣本上的任一點(diǎn)為(x,y)，對(duì)應(yīng)校正后的點(diǎn)為(x’,y’)，校正可分為三種情況：

圖8 部件樣本到映射平面的位置情況示意圖

6．2 7 240個(gè)字丁樣本的生成

用于7 240個(gè)類別的識(shí)別問(wèn)題，需要訓(xùn)練樣本和測(cè)試樣本4 000～7 000套，本次實(shí)施過(guò)程生成了5 000套。

對(duì)單部件字丁的樣本，采用非同比伸縮變換、稀疏化的方法，通過(guò)改變字丁中點(diǎn)的空間位置信息來(lái)增加樣本的數(shù)量，但是同比伸縮變換的長(zhǎng)寬比必須控制在一定范圍內(nèi)，超出范圍將造成字符嚴(yán)重扭曲變形以致無(wú)法識(shí)別；稀疏化是一種類似于數(shù)據(jù)丟包的方法，通過(guò)隨機(jī)丟點(diǎn)的方法來(lái)改變字丁中筆畫(huà)的軌跡信息，丟點(diǎn)太多則有可能完全失去字符的空間信息，丟點(diǎn)太少則不足以改變字符的空間信息，選擇適當(dāng)?shù)姆秶彩顷P(guān)鍵所在。線性變換、稀疏化算法如下：

(1) 采用線性變換

(2) 稀疏化算法

稀疏化分四步：

① 讀取所采集的字丁存入數(shù)組中；

② 設(shè)置丟點(diǎn)的數(shù)目υ并計(jì)算數(shù)組大小len，丟點(diǎn)的數(shù)目υ的范圍是： 0.05len≤υ≤0.3len；

③ 產(chǎn)生υ個(gè)數(shù)組索引隨機(jī)數(shù)rand,0≤rand≤len-1；

④ 刪除υ個(gè)隨機(jī)數(shù)索引對(duì)應(yīng)的點(diǎn)，存儲(chǔ)新生成的字丁樣本。

“藏文—梵文”字丁樣本生成的算法如下：

S1. 判斷待生成字丁的部件層數(shù)；

S2. 如果字丁層數(shù)為1，則轉(zhuǎn)S3，如果字丁層數(shù)為2，則轉(zhuǎn)S4，如果字丁層數(shù)大于等于3，則轉(zhuǎn)S5；

S3. 將通過(guò)線性變換和稀疏化得到的樣本存放到一起，并隨機(jī)地將其分配到每一套“藏文—梵文”樣本中；

S4. 根據(jù)“藏文—梵文”字丁的部件位置信息標(biāo)注結(jié)果，將一個(gè)字丁的兩個(gè)部件從上到下按照其編號(hào)和位置信息從得到的信息數(shù)據(jù)庫(kù)中讀取，并映射到大小為M×N的位置矩形中；

S5. 根據(jù)“藏文—梵文”字丁的部件位置信息標(biāo)注結(jié)果，將組成字丁的部件從上到下均勻地從部件樣本庫(kù)中取出，然后映射到大小為M×N的位置矩陣中。

上述算法中，所謂均勻地從部件樣本庫(kù)中取出部件，方式如下：

通過(guò)以上過(guò)程，我們完成了7 240個(gè)類別聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本5 000套，共36 200 000個(gè)樣本。這些樣本再經(jīng)過(guò)消除孤立點(diǎn)、筆速均勻化、歸一化等預(yù)處理就可用于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究。

圖9 不同層數(shù)“藏文—梵文”字丁合成的樣本實(shí)例圖

7 訓(xùn)練與測(cè)試的初步實(shí)驗(yàn)分析

7.1562個(gè)字丁在不同測(cè)試樣本集上的識(shí)別結(jié)果比較

字丁預(yù)處理、特征提取與壓縮、分類器設(shè)計(jì)等采用原有的方法[11]，同時(shí)，原來(lái)562個(gè)藏文字丁，315個(gè)人手寫(xiě)完成315套作為訓(xùn)練集、60人書(shū)寫(xiě)的60套作為測(cè)試樣本集，首選、三選、五選和十選識(shí)別率如表4的第一行所示。新的方法所生成的樣本訓(xùn)練的分類器，同樣取另外60套作為測(cè)試樣本集，測(cè)試的結(jié)果如表4的第三行所示。新的樣本集上測(cè)試識(shí)別率有較大幅度的提高。分析原因，一方面，可能原

表4 平均識(shí)別率比較

來(lái)采集樣本時(shí)，每個(gè)采集者書(shū)寫(xiě)到后面相對(duì)都寫(xiě)得比較潦草。

另外，562個(gè)字丁十選識(shí)別率的分布情況如表5所示。由表5可見(jiàn)，現(xiàn)在識(shí)別率在99%以上的占總字?jǐn)?shù)的35.76%；識(shí)別率在98%以上的占總字?jǐn)?shù)的61.38%；識(shí)別率在97%以上的占總字?jǐn)?shù)的77.94%；全部的字丁識(shí)別率都在90%以上。此外，雖然現(xiàn)在識(shí)別率100%的字丁比原來(lái)多3個(gè)，但識(shí)別率99%以上的字丁大幅增加。表6是一套測(cè)試樣本中擴(kuò)展集A的幾個(gè)字丁識(shí)別的前十選排序情況，其中前三行都是首選正確，即選項(xiàng)為1；然后是四個(gè)字丁的正確識(shí)別結(jié)果為第二選；最后兩行正確的識(shí)別結(jié)果分別在三選、四選。由表6可見(jiàn)，無(wú)論識(shí)別正確的是首選還是四選，前十個(gè)侯選序列基本都是極相似的字丁。

7.2 7 240個(gè)字丁的測(cè)試結(jié)果

7 240個(gè)字丁的5 000套樣本，隨意選取訓(xùn)練集4 500套樣本、測(cè)試集500套。

對(duì)500套樣本進(jìn)行測(cè)試，首選、三選、五選、十選

表5 十選識(shí)別率的分布情況

表6 一些擴(kuò)充集A中的字丁測(cè)試識(shí)別情況

表7 7 240個(gè)字丁500套樣本的平均識(shí)別率

表8 7 240個(gè)字丁第十選識(shí)別率字分布情況

表9是十選識(shí)別率100%的45個(gè)字丁，前三個(gè)是擴(kuò)充集A中的字丁，其余全部是擴(kuò)展集B中的字丁，除第一個(gè)字丁是基字加元音筆劃簡(jiǎn)單外，其他字丁都疊加層數(shù)多筆畫(huà)較為復(fù)雜。初步的判斷：復(fù)雜字丁的識(shí)別率較簡(jiǎn)單字丁的識(shí)別率高。

表9十選識(shí)別率100%的45個(gè)字丁

8 結(jié)語(yǔ)

根據(jù)藏文、梵音藏文的書(shū)寫(xiě)習(xí)慣，確定170個(gè)部件的“藏文—梵文”部件集，以及“藏文—梵文”字符集7 240個(gè)類別；開(kāi)發(fā)完成了“藏文—梵文”字丁的部件位置信息獲取軟件，形成該字符集各個(gè)字丁的部件位置信息數(shù)據(jù)庫(kù)；開(kāi)發(fā)了聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集軟件，已采集了300多套部件樣本集；根據(jù)“藏文—梵文”部件位置信息數(shù)據(jù)庫(kù)、部件樣本集，設(shè)計(jì)字丁樣本生成的算法，完成了聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本庫(kù)生成軟件，現(xiàn)已生成7 240個(gè)聯(lián)機(jī)手寫(xiě)“藏文—梵文”的樣本庫(kù)5 000套，用于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別研究和開(kāi)發(fā)的訓(xùn)練樣本與測(cè)試樣本，提高了手寫(xiě)樣本采集效率和樣本多樣性，降低了樣本采集成本。初步的訓(xùn)練和測(cè)試結(jié)果：對(duì)562個(gè)(現(xiàn)代藏文517個(gè)和常用梵音藏文45個(gè))字丁，在所生成的樣本庫(kù)上進(jìn)行訓(xùn)練和測(cè)試，平均識(shí)別率有了較大的提高；7 240個(gè)字丁的十選識(shí)別率達(dá)到95.956 5%。在此基礎(chǔ)上，將進(jìn)一步完善相關(guān)內(nèi)容，完成聯(lián)機(jī)手寫(xiě)“藏文—梵文”的識(shí)別系統(tǒng)。

[1] ISO/IEC 10646-1:Tibetan Character Collection[S].ISO/IEC JTC1/SC2/WG2,2000.

[2] 國(guó)家質(zhì)量技術(shù)監(jiān)督局.GB 22323—2008 信息技術(shù)藏文編碼字符集(基本集及擴(kuò)充集A)[S].北京：中國(guó)標(biāo)準(zhǔn)出版社，2008.

[3] 國(guó)家質(zhì)量技術(shù)監(jiān)督局.GB/T 25913—2010 信息技術(shù) 藏文編碼字符集(擴(kuò)充集B)[S].北京：中國(guó)標(biāo)準(zhǔn)出版社，2010.

[4] 王維蘭,丁曉青,祁坤鈺.藏文識(shí)別中相似字丁的區(qū)分研究[J].中文信息學(xué)報(bào)，2002,16(4):60-65.

[5] 王華,丁曉青.多字體印刷藏文字符識(shí)別[J].中文信息學(xué)報(bào)，2003,17(6):47-52.

[6] 丁曉青,王華,劉長(zhǎng)松,等.多字體多字號(hào)印刷體藏文字符識(shí)別方法[D].ZL200410034107.4，2004.

[7] 熱依曼·吐?tīng)栠d,吾守爾·斯拉木.一種維吾爾語(yǔ)聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)[J].中文信息學(xué)報(bào)，2014,28(3):112-115.

[8] 劉衛(wèi),李和成.基于多模板歸一化的維吾爾文字母識(shí)別算法[J].中文信息學(xué)報(bào)，2016,30(1):156-161.

[9] Huang Heming, Da Feipeng, Hang Xiaoxu. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J].Journal of Southeast University,2014(1):27-31.

[10] 王維蘭,錢建軍,多杰卓瑪，等.一種聯(lián)機(jī)手寫(xiě)藏文字符的識(shí)別方法[P].中華人民共和國(guó)國(guó)家知識(shí)版權(quán)局. ZL200910128595.8, 2011.

[11] Ma L L,Wu J. Semi-automatic Tibetan component annotation from online handwritten Tibetan character database by optimizing segmentation hypotheses[C]//Proceedings of the International Conference on Document Analysis amp; Recognition, 2013:1340-1344.

[12] Ma L L, Wu J. A Tibetan component representation learning method for online handwritten Tibetan character recognition[C]//Proceedings of the International Conference on Frontiers in Handwriting Recognition, 2014:317-322.

[13] Ma L L, Wu J. Online handwritten Tibetan syllable recognition based on component segmentation method[C]//Proceedings of the International Conference on Document Analysis amp; Recognition,2015:46-50.

[14] Wang Dahan, Liu Chenglin, Yu Jinlun, et al. CASIA-OLHWDB1: A database of online handwritten Chinese characters[C]//Proceedings of the 10th International Conference on Document Analysis and Recognition, 2009:1206-1210.

[15] Jin L, Gao Y, Liu G, et al. SCUT-COUCH2009-A comprehensive online unconstrained Chinese handwriting database and benchmark evaluation[J]. International Journal on Document Analysis and Recognition,2011,14(1):53-64.

王維蘭(1961—)，學(xué)士，教授，主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別、智能信息處理與應(yīng)用軟件和藏文信息處理等。

E-mail: wangweilan@xbmu.edu.cn

盧小寶(1984—)，碩士，工程師，主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。

E-mail:lxb198416@163.com

蔡正琦(1974—)，碩士，副教授，主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別。

E-mail:caizhengqi@126.com

OnlineHandwrittenSampleGeneratedBasedonComponentCombinationforTibetan-Sanskrit

WANG Weilan1, LU Xiaobao2, CAI Zhengqi1, SHEN Wentao1, FU Ji1, CAIKE Zhaxi1

(1. Department of Math and Computer Science,Northwest University for Nationalities, Lanzhou, Gansu 730030, China；2. Baiyin Center Subbranch, People’s Bank of China, Baiyin, Gansu 730900, China)

Tibetan-Sanskrit includes more than 500 Tibetan characters, and more than 6000 Sanskrit. Belonging to the large class of character set, the sample collection of the online handwritten is a large and complex project. We present an online handwriting character sample generation method based on component combination for Tibetan-Sanskrit. The proposed method includes four main parts: (1) to determine the Tibetan-Sanskrit character set and component set; (2) to get location information of Tibetan-Sanskrit characters; (3) to collect online handwritten sample of component set for Tibetan-Sanskrit; and (4) to generate sample database of online handwritten Tibetan-Sanskrit character set. This provides the character's training sample set and test sample set for online handwritten Tibetan-Sanskrit.

online handwritten; Tibetan-Sanskrit; character set; component combination; sample generation

1003-0077(2017)05-0064-10

TP391

2016-11-26定稿日期2017-03-17

國(guó)家自然科學(xué)基金(61375029)；國(guó)家民委領(lǐng)軍人才計(jì)劃；西北民族大學(xué)中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(31920170142)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成

1 引言

2 基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成構(gòu)架

3 “藏文—梵文”字符集和部件集

4 “藏文—梵文”的部件位置信息獲取

5 聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集

6 聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成

7 訓(xùn)練與測(cè)試的初步實(shí)驗(yàn)分析

8 結(jié)語(yǔ)