国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成

2017-11-27 08:57:49王維蘭盧小寶蔡正琦沈文韜才科扎西
中文信息學(xué)報(bào) 2017年5期
關(guān)鍵詞:字符集梵文聯(lián)機(jī)

王維蘭 ,盧小寶 ,蔡正琦 ,沈文韜 ,付 吉,才科扎西

(1. 西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅 蘭州 730030;2. 中國(guó)人民銀行 白銀中心支行,甘肅 白銀 730900)

基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成

王維蘭1,盧小寶2,蔡正琦1,沈文韜1,付 吉1,才科扎西1

(1. 西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅 蘭州 730030;2. 中國(guó)人民銀行 白銀中心支行,甘肅 白銀 730900)

“藏文—梵文”包括500多個(gè)現(xiàn)代藏文、6 000多個(gè)梵音藏文,在文字識(shí)別領(lǐng)域?qū)儆诖箢悇e的字符集,所以聯(lián)機(jī)手寫(xiě)樣本采集是龐大而復(fù)雜的工程。鑒于此,提供了一種基于部件組合的“藏文—梵文”手寫(xiě)樣本生成方法,主要包括: (1)確定“藏文—梵文”字符集和部件集;(2)獲取“藏文—梵文”字丁的部件位置信息;(3)采集聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本;(4)生成聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本庫(kù)。該文為聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究提供字符訓(xùn)練樣本庫(kù)和測(cè)試樣本庫(kù),提高了手寫(xiě)梵音藏文樣本采集效率,解決了樣本數(shù)量及多樣性問(wèn)題,降低了樣本采集成本,為進(jìn)一步聯(lián)機(jī)手寫(xiě)梵音藏文識(shí)別的研究與系統(tǒng)開(kāi)發(fā)奠定了基礎(chǔ)。

聯(lián)機(jī)手寫(xiě);藏文—梵文;字符集;部件組合;樣本生成

1 引言

藏文輸入與其他文字一樣,有鍵盤輸入、手寫(xiě)識(shí)別輸入和掃描識(shí)別輸入等?,F(xiàn)代藏文通常又稱為藏文,有500多個(gè)字丁。梵音藏文是梵文的藏文轉(zhuǎn)寫(xiě)形式,有6 000多個(gè)字丁。本文所述的聯(lián)機(jī)手寫(xiě)識(shí)別字符集包括: ISO/IEC 10646-1: Tibetan Character Collection[1]即藏文基本集中42個(gè)字丁、《信息技術(shù) 藏文編碼字符集(擴(kuò)充集A)》[2]的1 536個(gè)字丁及《信息技術(shù) 藏文編碼字符集(擴(kuò)充集B)》[3]的5 662個(gè)字丁,以下分別簡(jiǎn)稱為: 基本集、擴(kuò)充集A和擴(kuò)充集B,藏文和梵音藏文共計(jì)7 240個(gè)字丁,本文中統(tǒng)稱為“藏文—梵文”識(shí)別字符集?!安匚摹笪摹弊址奶攸c(diǎn): 字符集大,在模式識(shí)別中就是 7 240 個(gè)類別?,F(xiàn)代藏文和幾十個(gè)常用梵音藏文共592個(gè)字丁的印刷體識(shí)別已有較多研究[4-6],所開(kāi)發(fā)的多字體印刷藏文字符識(shí)別系統(tǒng)已經(jīng)得到廣泛的應(yīng)用。近年來(lái),我國(guó)少數(shù)民族文字的脫機(jī)手寫(xiě)識(shí)別、聯(lián)機(jī)手寫(xiě)識(shí)別成為新的研究熱點(diǎn),在維吾爾文聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)中分別使用GMM和HMM兩種模型進(jìn)行建模并對(duì)其合并,確定最優(yōu)識(shí)別結(jié)果[7]、手寫(xiě)維吾爾文的預(yù)處理方法[8]。在脫機(jī)手寫(xiě)藏文識(shí)別方面,選擇667個(gè)藏文字符作為識(shí)別對(duì)象,在樣本庫(kù)構(gòu)建、預(yù)處理、特征提取、分類器設(shè)計(jì)及后處理等方面進(jìn)行了深入研究[9]。2009年,我們完成了現(xiàn)代藏文517個(gè)字丁和常用梵音藏文45個(gè)共計(jì)562個(gè)字丁的聯(lián)機(jī)手寫(xiě)輸入研發(fā),并獲得“一種聯(lián)機(jī)手寫(xiě)藏文字丁的識(shí)別方法”授權(quán)專利[10]。在近幾年的藏文識(shí)別研究中,中科院在基于部件的聯(lián)機(jī)手寫(xiě)藏文識(shí)別方面取得一定成果[11-14]。目前,涵蓋擴(kuò)充集A和擴(kuò)充集B的梵音藏文的聯(lián)機(jī)手寫(xiě)識(shí)別還未見(jiàn)相關(guān)報(bào)道。在實(shí)際應(yīng)用過(guò)程中,現(xiàn)代藏文和梵音藏文混合使用,對(duì)于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別軟件系統(tǒng)的研究與開(kāi)發(fā)至關(guān)重要,其中聯(lián)機(jī)手寫(xiě)字符樣本庫(kù)是數(shù)據(jù)基礎(chǔ),且樣本庫(kù)的質(zhì)量好壞也直接影響最后的識(shí)別效果。漢字的聯(lián)機(jī)手寫(xiě)識(shí)別研究已有各類樣本庫(kù)[14-15],然而,目前還沒(méi)有包含擴(kuò)充集A、擴(kuò)充集B的藏文及梵音藏文字丁的聯(lián)機(jī)手寫(xiě)樣本庫(kù)。當(dāng)字符集“藏文—梵文”以字丁作為識(shí)別單位時(shí),采集手寫(xiě)樣本將是一項(xiàng)非常龐大和復(fù)雜的工程。鑒于此,我們提出了一種基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成的方法,生成了7 240個(gè)字符集的聯(lián)機(jī)手寫(xiě)樣本庫(kù)。該方法不僅降低樣本采集的成本,也解決了大字符集“藏文—梵文”聯(lián)機(jī)手寫(xiě)識(shí)別樣本的數(shù)量及樣本的多樣性問(wèn)題,為進(jìn)一步聯(lián)機(jī)手寫(xiě)梵音藏文識(shí)別的研究與系統(tǒng)開(kāi)發(fā)奠定了基礎(chǔ)。

論文第二部分是基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成構(gòu)架;第三部分是字符集部件集的確定;第四部分為“藏文—梵文”字丁的部件位置信息獲取方法;第五部分是聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集;第六部分是最重要的部分,是聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成;第七部分是訓(xùn)練與測(cè)試的初步實(shí)驗(yàn)分析;最后是結(jié)語(yǔ)。

2 基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成構(gòu)架

基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成構(gòu)架如圖1所示。

圖 1 基于部件組合的“藏文—梵文”聯(lián)機(jī)手寫(xiě)樣本生成構(gòu)架圖

根據(jù)圖1,主要內(nèi)容有四個(gè)部分:

(1) 確定“藏文—梵文”字符集和部件集?!安匚摹笪摹弊址? 240個(gè)字丁組成,部件集由81個(gè)基本集字符和89個(gè)構(gòu)件組成,形成170個(gè)部件的部件集。

(2) “藏文—梵文”字丁的部件位置信息獲取。將7 240個(gè)“藏文—梵文”的每一個(gè)字丁放置于xy平面的大小為M×N的框內(nèi),標(biāo)注該字丁各個(gè)部件的外接矩形框,獲取并存儲(chǔ)該字丁各個(gè)部件的坐標(biāo)數(shù)據(jù)信息。

(3) 聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集。設(shè)計(jì)部件樣本采集軟件,書(shū)寫(xiě)者完成第1到第170個(gè)部件的采集和存儲(chǔ),形成一套樣本,采集信息包括部件的BMP位圖文件和部件筆跡信息文件。獲取所有采集人員完成的樣本,得到部件樣本庫(kù)。

(4) 聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成。設(shè)計(jì)樣本生成算法,根據(jù)步驟(2)所獲取的字丁各個(gè)部件的坐標(biāo)數(shù)據(jù)信息,將字丁的部件樣本從部件樣本庫(kù)中取出,依次按照它們組成一個(gè)字丁的各部件位置信息,映射到對(duì)應(yīng)的位置矩形,便得到字丁的樣本。生成7 240個(gè)“藏文—梵文”字丁的4 000~7 000套樣本。為聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究與開(kāi)發(fā)奠定字符集的樣本庫(kù)基礎(chǔ)。

3 “藏文—梵文”字符集和部件集

3.1 “藏文—梵文”字符集

“藏文—梵文”包括基本集、擴(kuò)充集A、擴(kuò)充集B中的字丁。在我們整理字符集時(shí)發(fā)現(xiàn),擴(kuò)充集A與擴(kuò)充集B有一些重復(fù)的字丁,它們是:

擴(kuò)充集B內(nèi)部有兩個(gè)重復(fù)字丁,F(xiàn)1144和F1145完全一樣,如圖2所示。

圖2 擴(kuò)充集B中的兩個(gè)重復(fù)梵音藏文

刪除重復(fù)的字丁,最后確定“藏文—梵文”字符集包括基本集的42個(gè)、擴(kuò)充集A的1 536個(gè)和擴(kuò)充集B的5 662個(gè),共計(jì)7 240個(gè)字丁。

3.2 “藏文—梵文”部件集

為了提高樣本質(zhì)量和生成效率,降低采樣成本,本文提出了基于部件組合的聯(lián)機(jī)手寫(xiě)“藏文—梵文”樣本生成方法。而“藏文—梵文”部件集的確定遵循三個(gè)原則:

(1) 部件集越小越好。因?yàn)椤安匚摹笪摹弊侄【褪腔炯幸粋€(gè)部件上下疊加組合而成。

部件集由81個(gè)基本集字符和89個(gè)相連部件組成,表1所示為“藏文—梵文”的170個(gè)部件。

表1“藏文—梵文”170個(gè)部件

3.3 “藏文—梵文”部件組合信息的數(shù)據(jù)庫(kù)

擴(kuò)充集A和擴(kuò)充集B中的字丁都是基本集中的字符上下疊加組合而成的,字丁不等高,基于以上三個(gè)原則,根據(jù)所確定的部件集拆分“藏文—梵文”字符集,可將字丁拆分為由一至六個(gè)不等的部件構(gòu)成,稱為一個(gè)字丁的部件個(gè)數(shù)或?qū)訑?shù)。同時(shí),基于藏文編碼暨國(guó)際標(biāo)準(zhǔn)基本集ISO/IEC 10646-1和與之相一致的Unicode國(guó)際標(biāo)準(zhǔn),使“藏文—梵文”字符集完全包括國(guó)際通用的內(nèi)碼,字符集字丁的拆分信息包括序號(hào)、Unicode碼、藏文—梵文顯現(xiàn)、部件個(gè)數(shù)、部件1到部件6的編號(hào)、部件1到部件6的顯現(xiàn)等。表2所示為“藏文—梵文”字符集字丁的拆分信息表的格式及部分字符的拆分信息,分別列出了序號(hào)為1、2、43、853、4 619、7 240的藏文或梵音藏文,反映了這些字符從第一到第六個(gè)部件的拆分信息。

表2 “藏文—梵文”字符集字丁的拆分信息表

4 “藏文—梵文”的部件位置信息獲取

4.1 “藏文—梵文”字丁的空間位置

部件集為“藏文—梵文”字丁的部件構(gòu)成奠定基礎(chǔ),我們的思路是: 獲取印刷體“藏文—梵文”字丁各個(gè)部件及部件的空間位置信息,將一個(gè)字丁的聯(lián)機(jī)手寫(xiě)部件,映射到對(duì)應(yīng)位置便可得到該字丁的手寫(xiě)樣本。

對(duì)同一字體、字號(hào)的7 240個(gè)“藏文—梵文”字丁都放置于xy平面的大小為MN的框內(nèi),所有字丁以基線對(duì)齊,基線之上有元音或者沒(méi)有。如圖3所示為四個(gè)字丁放置于xy平面MN框內(nèi)的示意圖,這四個(gè)字丁只有第二個(gè)字丁有上元音。

圖3 字符在xy平面、MN的框內(nèi)

將待標(biāo)注字丁顯示在MN的標(biāo)注平面上,實(shí)際標(biāo)注中寬M=240、高N=480,單位為像素。如圖4所示的字丁由兩個(gè)部件組成,上面部件位置矩形表示為Z(hd1,vd1,hd2,vd2),也就是標(biāo)注每一個(gè)部件的外接矩形,獲得其左上角坐標(biāo)(hd1,vd1)和右下角坐標(biāo)(hd2,vd2),就獲得了該部件的位置信息。

圖4 標(biāo)注平面示意圖

4.2 “藏文—梵文”字丁的部件位置標(biāo)注及其信息庫(kù)

圖5 部件標(biāo)注過(guò)程

對(duì)7 240個(gè)“藏文—梵文”字丁進(jìn)行部件位置信息的標(biāo)注,并將標(biāo)注過(guò)程中的信息存入數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)存儲(chǔ)的信息包括: ID(數(shù)據(jù)行號(hào))、Tibetan(“藏文—梵文”顯示)、Order(“藏文—梵文”序號(hào))、Code(從上到下各部件的序號(hào))、Sort(部件順序號(hào)),以及每個(gè)部件的左上角橫坐標(biāo)X1和縱坐標(biāo)Y1、右下角橫坐標(biāo)X2和縱坐標(biāo)Y2。表3所示為字符信息庫(kù)中

表3 字符信息庫(kù)中的部件位置信息(首、尾兩個(gè)字丁、)

5 聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集

5.1 部件的樣本采集設(shè)置、采集和存儲(chǔ)

為獲得自然、流暢、符合書(shū)寫(xiě)習(xí)慣的部件樣本庫(kù),我們?cè)O(shè)計(jì)了部件樣本采集軟件。在Android平臺(tái)的iPad上完成部件的樣本采集,采集信息包括部件的BMP位圖文件,圖6所示為一個(gè)采集者的部分部件樣本位圖。

圖6 一個(gè)采集者的部件位圖(部分)樣本

位圖文件便于查看,另一個(gè)存儲(chǔ)的是部件筆跡信息文件,筆跡信息文件中包含書(shū)寫(xiě)時(shí)筆跡經(jīng)過(guò)的點(diǎn)、筆畫(huà)結(jié)束和部件結(jié)束的標(biāo)記信息:

(x11,y11) (x12,y12)…(x1n1,y1n1)(-1,-1),

(x21,y21) (x22,y22)…(x2n2,y2n2)(-1,-1),

……

(xt1,yt1) (xt2,yt2)…(xtnt,ytnt)(-1,-1)(-2,-2)

其中(xtnt,ytnt)表示第t個(gè)筆畫(huà)的第nt個(gè)點(diǎn)的坐標(biāo),(-1,-1)表示從落筆到抬筆一個(gè)筆畫(huà)的結(jié)束,(-2,-2)表示一個(gè)部件書(shū)寫(xiě)結(jié)束。

5.2 部件樣本庫(kù)

每個(gè)人完成第1到第170個(gè)部件的采集和存儲(chǔ),形成一套部件樣本,樣本的實(shí)際分布包括書(shū)寫(xiě)者所在的地域、年齡、學(xué)歷等因素,共有300多人參加采集;為保證樣本的質(zhì)量,還需要對(duì)部件樣本進(jìn)行預(yù)處理,如去除或修正錯(cuò)誤樣本,甚至整套刪除,以及去除孤立點(diǎn)、進(jìn)行傾斜校正等,從而形成部件樣本庫(kù)。

6 聯(lián)機(jī)手寫(xiě)“藏文—梵文”字丁樣本庫(kù)的生成

6.1 部件樣本到字丁樣本的映射

根據(jù)字丁拆分和位置矩形標(biāo)注的結(jié)果,將構(gòu)成字丁的部件樣本逐一從部件樣本庫(kù)中取出,依次按照其位置信息映射到對(duì)應(yīng)位置矩形,便得到字丁的樣本;設(shè)“藏文—梵文”字丁Z由m個(gè)部件r1、r2、r3、…、rm-1、rm構(gòu)成,構(gòu)成字丁Z的部件中部件ri的樣本數(shù)為ksi,則字丁Z可生成的樣本有ks1×ks2×…×ksi×…×ksm種,實(shí)際中,部件樣本是成套采集的,因此ks1=ks2=…=ksi=…=ksm=k,其中k為部件樣本的套數(shù)。

“藏文—梵文”字丁(或其中的部件)相應(yīng)位置如圖7所示,圖7(a)是部件樣本的位置矩形,位置矩形表示為Z(hsc1,vsc1;hsc2,vsc2),其中hsc1和vsc1為矩形左上角的橫坐標(biāo)和縱坐標(biāo),hsc2和vsc2為矩形右下角的橫坐標(biāo)和縱坐標(biāo),M'×N'是部件采集平面;圖7(b)是圖7(a)所對(duì)應(yīng)部件映射平面的位置矩形,M"×N"為部件映射平面,圖7(b)中位置矩形,由“藏文—梵文”識(shí)別字符集信息庫(kù)中的部件位置信息,通過(guò)線性變換計(jì)算獲得,如式(1)所示。

這個(gè)變換確定了部件在映射平面中的位置,其中(hsc1,vsc1,hsc2,vsc2)為部件的位置信息。部件映射就是對(duì)采樣平面中位置矩形內(nèi)的部件做線性變換,然后復(fù)制到映射平面的過(guò)程,線性變換參數(shù),如式(2)所示。

圖7 部件樣本映射到“藏文—梵文”字丁相應(yīng)位置示意圖

圖8(a)、圖8(b)和圖8(c)是圖7(a)的部件樣本復(fù)制到映射平面的位置矩形后出現(xiàn)的三種情況,為了取得更好的字丁生成效果,需要校正部件在映射平面位置矩形內(nèi)的數(shù)值。設(shè)部件樣本上的任一點(diǎn)為(x,y),對(duì)應(yīng)校正后的點(diǎn)為(x’,y’),校正可分為三種情況:

圖8 部件樣本到映射平面的位置情況示意圖

6.2 7 240個(gè)字丁樣本的生成

用于7 240個(gè)類別的識(shí)別問(wèn)題,需要訓(xùn)練樣本和測(cè)試樣本4 000~7 000套,本次實(shí)施過(guò)程生成了5 000套。

對(duì)單部件字丁的樣本,采用非同比伸縮變換、稀疏化的方法,通過(guò)改變字丁中點(diǎn)的空間位置信息來(lái)增加樣本的數(shù)量,但是同比伸縮變換的長(zhǎng)寬比必須控制在一定范圍內(nèi),超出范圍將造成字符嚴(yán)重扭曲變形以致無(wú)法識(shí)別;稀疏化是一種類似于數(shù)據(jù)丟包的方法,通過(guò)隨機(jī)丟點(diǎn)的方法來(lái)改變字丁中筆畫(huà)的軌跡信息,丟點(diǎn)太多則有可能完全失去字符的空間信息,丟點(diǎn)太少則不足以改變字符的空間信息,選擇適當(dāng)?shù)姆秶彩顷P(guān)鍵所在。線性變換、稀疏化算法如下:

(1) 采用線性變換

(2) 稀疏化算法

稀疏化分四步:

① 讀取所采集的字丁存入數(shù)組中;

② 設(shè)置丟點(diǎn)的數(shù)目υ并計(jì)算數(shù)組大小len,丟點(diǎn)的數(shù)目υ的范圍是: 0.05len≤υ≤0.3len;

③ 產(chǎn)生υ個(gè)數(shù)組索引隨機(jī)數(shù)rand,0≤rand≤len-1;

④ 刪除υ個(gè)隨機(jī)數(shù)索引對(duì)應(yīng)的點(diǎn),存儲(chǔ)新生成的字丁樣本。

“藏文—梵文”字丁樣本生成的算法如下:

S1. 判斷待生成字丁的部件層數(shù);

S2. 如果字丁層數(shù)為1,則轉(zhuǎn)S3,如果字丁層數(shù)為2,則轉(zhuǎn)S4,如果字丁層數(shù)大于等于3,則轉(zhuǎn)S5;

S3. 將通過(guò)線性變換和稀疏化得到的樣本存放到一起,并隨機(jī)地將其分配到每一套“藏文—梵文”樣本中;

S4. 根據(jù)“藏文—梵文”字丁的部件位置信息標(biāo)注結(jié)果,將一個(gè)字丁的兩個(gè)部件從上到下按照其編號(hào)和位置信息從得到的信息數(shù)據(jù)庫(kù)中讀取,并映射到大小為M×N的位置矩形中;

S5. 根據(jù)“藏文—梵文”字丁的部件位置信息標(biāo)注結(jié)果,將組成字丁的部件從上到下均勻地從部件樣本庫(kù)中取出,然后映射到大小為M×N的位置矩陣中。

上述算法中,所謂均勻地從部件樣本庫(kù)中取出部件,方式如下:

通過(guò)以上過(guò)程,我們完成了7 240個(gè)類別聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本5 000套,共36 200 000個(gè)樣本。這些樣本再經(jīng)過(guò)消除孤立點(diǎn)、筆速均勻化、歸一化等預(yù)處理就可用于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別的研究。

圖9 不同層數(shù)“藏文—梵文”字丁合成的樣本實(shí)例圖

7 訓(xùn)練與測(cè)試的初步實(shí)驗(yàn)分析

7.1562個(gè)字丁在不同測(cè)試樣本集上的識(shí)別結(jié)果比較

字丁預(yù)處理、特征提取與壓縮、分類器設(shè)計(jì)等采用原有的方法[11],同時(shí),原來(lái)562個(gè)藏文字丁,315個(gè)人手寫(xiě)完成315套作為訓(xùn)練集、60人書(shū)寫(xiě)的60套作為測(cè)試樣本集,首選、三選、五選和十選識(shí)別率如表4的第一行所示。新的方法所生成的樣本訓(xùn)練的分類器,同樣取另外60套作為測(cè)試樣本集,測(cè)試的結(jié)果如表4的第三行所示。新的樣本集上測(cè)試識(shí)別率有較大幅度的提高。分析原因,一方面,可能原

表4 平均識(shí)別率比較

來(lái)采集樣本時(shí),每個(gè)采集者書(shū)寫(xiě)到后面相對(duì)都寫(xiě)得比較潦草。

另外,562個(gè)字丁十選識(shí)別率的分布情況如表5所示。由表5可見(jiàn),現(xiàn)在識(shí)別率在99%以上的占總字?jǐn)?shù)的35.76%;識(shí)別率在98%以上的占總字?jǐn)?shù)的61.38%;識(shí)別率在97%以上的占總字?jǐn)?shù)的77.94%;全部的字丁識(shí)別率都在90%以上。此外,雖然現(xiàn)在識(shí)別率100%的字丁比原來(lái)多3個(gè),但識(shí)別率99%以上的字丁大幅增加。表6是一套測(cè)試樣本中擴(kuò)展集A的幾個(gè)字丁識(shí)別的前十選排序情況,其中前三行都是首選正確,即選項(xiàng)為1;然后是四個(gè)字丁的正確識(shí)別結(jié)果為第二選;最后兩行正確的識(shí)別結(jié)果分別在三選、四選。由表6可見(jiàn),無(wú)論識(shí)別正確的是首選還是四選,前十個(gè)侯選序列基本都是極相似的字丁。

7.2 7 240個(gè)字丁的測(cè)試結(jié)果

7 240個(gè)字丁的5 000套樣本,隨意選取訓(xùn)練集4 500套樣本、測(cè)試集500套。

對(duì)500套樣本進(jìn)行測(cè)試,首選、三選、五選、十選

表5 十選識(shí)別率的分布情況

表6 一些擴(kuò)充集A中的字丁測(cè)試識(shí)別情況

表7 7 240個(gè)字丁500套樣本的平均識(shí)別率

表8 7 240個(gè)字丁第十選識(shí)別率字分布情況

表9是十選識(shí)別率100%的45個(gè)字丁,前三個(gè)是擴(kuò)充集A中的字丁,其余全部是擴(kuò)展集B中的字丁,除第一個(gè)字丁是基字加元音筆劃簡(jiǎn)單外,其他字丁都疊加層數(shù)多筆畫(huà)較為復(fù)雜。初步的判斷: 復(fù)雜字丁的識(shí)別率較簡(jiǎn)單字丁的識(shí)別率高。

表9十選識(shí)別率100%的45個(gè)字丁

8 結(jié)語(yǔ)

根據(jù)藏文、梵音藏文的書(shū)寫(xiě)習(xí)慣,確定170個(gè)部件的“藏文—梵文”部件集,以及“藏文—梵文”字符集7 240個(gè)類別;開(kāi)發(fā)完成了“藏文—梵文”字丁的部件位置信息獲取軟件,形成該字符集各個(gè)字丁的部件位置信息數(shù)據(jù)庫(kù);開(kāi)發(fā)了聯(lián)機(jī)手寫(xiě)“藏文—梵文”部件的樣本采集軟件,已采集了300多套部件樣本集;根據(jù)“藏文—梵文”部件位置信息數(shù)據(jù)庫(kù)、部件樣本集,設(shè)計(jì)字丁樣本生成的算法,完成了聯(lián)機(jī)手寫(xiě)“藏文—梵文”字符集樣本庫(kù)生成軟件,現(xiàn)已生成7 240個(gè)聯(lián)機(jī)手寫(xiě)“藏文—梵文”的樣本庫(kù)5 000套,用于聯(lián)機(jī)手寫(xiě)“藏文—梵文”識(shí)別研究和開(kāi)發(fā)的訓(xùn)練樣本與測(cè)試樣本,提高了手寫(xiě)樣本采集效率和樣本多樣性,降低了樣本采集成本。初步的訓(xùn)練和測(cè)試結(jié)果: 對(duì)562個(gè)(現(xiàn)代藏文517個(gè)和常用梵音藏文45個(gè))字丁,在所生成的樣本庫(kù)上進(jìn)行訓(xùn)練和測(cè)試,平均識(shí)別率有了較大的提高;7 240個(gè)字丁的十選識(shí)別率達(dá)到95.956 5%。在此基礎(chǔ)上,將進(jìn)一步完善相關(guān)內(nèi)容,完成聯(lián)機(jī)手寫(xiě)“藏文—梵文”的識(shí)別系統(tǒng)。

[1] ISO/IEC 10646-1:Tibetan Character Collection[S].ISO/IEC JTC1/SC2/WG2,2000.

[2] 國(guó)家質(zhì)量技術(shù)監(jiān)督局.GB 22323—2008 信息技術(shù)藏文編碼字符集(基本集及擴(kuò)充集A)[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2008.

[3] 國(guó)家質(zhì)量技術(shù)監(jiān)督局.GB/T 25913—2010 信息技術(shù) 藏文編碼字符集(擴(kuò)充集B)[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2010.

[4] 王維蘭,丁曉青,祁坤鈺.藏文識(shí)別中相似字丁的區(qū)分研究[J].中文信息學(xué)報(bào),2002,16(4):60-65.

[5] 王華,丁曉青.多字體印刷藏文字符識(shí)別[J].中文信息學(xué)報(bào),2003,17(6):47-52.

[6] 丁曉青,王華,劉長(zhǎng)松,等.多字體多字號(hào)印刷體藏文字符識(shí)別方法[D].ZL200410034107.4,2004.

[7] 熱依曼·吐?tīng)栠d,吾守爾·斯拉木.一種維吾爾語(yǔ)聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)[J].中文信息學(xué)報(bào),2014,28(3):112-115.

[8] 劉衛(wèi),李和成.基于多模板歸一化的維吾爾文字母識(shí)別算法[J].中文信息學(xué)報(bào),2016,30(1):156-161.

[9] Huang Heming, Da Feipeng, Hang Xiaoxu. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J].Journal of Southeast University,2014(1):27-31.

[10] 王維蘭,錢建軍,多杰卓瑪,等.一種聯(lián)機(jī)手寫(xiě)藏文字符的識(shí)別方法[P].中華人民共和國(guó)國(guó)家知識(shí)版權(quán)局. ZL200910128595.8, 2011.

[11] Ma L L,Wu J. Semi-automatic Tibetan component annotation from online handwritten Tibetan character database by optimizing segmentation hypotheses[C]//Proceedings of the International Conference on Document Analysis amp; Recognition, 2013:1340-1344.

[12] Ma L L, Wu J. A Tibetan component representation learning method for online handwritten Tibetan character recognition[C]//Proceedings of the International Conference on Frontiers in Handwriting Recognition, 2014:317-322.

[13] Ma L L, Wu J. Online handwritten Tibetan syllable recognition based on component segmentation method[C]//Proceedings of the International Conference on Document Analysis amp; Recognition,2015:46-50.

[14] Wang Dahan, Liu Chenglin, Yu Jinlun, et al. CASIA-OLHWDB1: A database of online handwritten Chinese characters[C]//Proceedings of the 10th International Conference on Document Analysis and Recognition, 2009:1206-1210.

[15] Jin L, Gao Y, Liu G, et al. SCUT-COUCH2009-A comprehensive online unconstrained Chinese handwriting database and benchmark evaluation[J]. International Journal on Document Analysis and Recognition,2011,14(1):53-64.

王維蘭(1961—),學(xué)士,教授,主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別、智能信息處理與應(yīng)用軟件和藏文信息處理等。

E-mail: wangweilan@xbmu.edu.cn

盧小寶(1984—),碩士,工程師,主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。

E-mail:lxb198416@163.com

蔡正琦(1974—),碩士,副教授,主要研究領(lǐng)域?yàn)閳D像處理與模式識(shí)別。

E-mail:caizhengqi@126.com

OnlineHandwrittenSampleGeneratedBasedonComponentCombinationforTibetan-Sanskrit

WANG Weilan1, LU Xiaobao2, CAI Zhengqi1, SHEN Wentao1, FU Ji1, CAIKE Zhaxi1

(1. Department of Math and Computer Science,Northwest University for Nationalities, Lanzhou, Gansu 730030, China;2. Baiyin Center Subbranch, People’s Bank of China, Baiyin, Gansu 730900, China)

Tibetan-Sanskrit includes more than 500 Tibetan characters, and more than 6000 Sanskrit. Belonging to the large class of character set, the sample collection of the online handwritten is a large and complex project. We present an online handwriting character sample generation method based on component combination for Tibetan-Sanskrit. The proposed method includes four main parts: (1) to determine the Tibetan-Sanskrit character set and component set; (2) to get location information of Tibetan-Sanskrit characters; (3) to collect online handwritten sample of component set for Tibetan-Sanskrit; and (4) to generate sample database of online handwritten Tibetan-Sanskrit character set. This provides the character's training sample set and test sample set for online handwritten Tibetan-Sanskrit.

online handwritten; Tibetan-Sanskrit; character set; component combination; sample generation

1003-0077(2017)05-0064-10

TP391

A

2016-11-26定稿日期2017-03-17

國(guó)家自然科學(xué)基金(61375029);國(guó)家民委領(lǐng)軍人才計(jì)劃;西北民族大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(31920170142)。

猜你喜歡
字符集梵文聯(lián)機(jī)
多聯(lián)機(jī)安裝施工技術(shù)探討
MySQL數(shù)據(jù)庫(kù)字符集的問(wèn)題研究
Clear cell sarcoma in unusual sites mimicking metastatic melanoma
ORACLE字符集問(wèn)題的分析
《善說(shuō)集》文本概述*——以Bendall編校本與新見(jiàn)尼泊爾梵文寫(xiě)本爲(wèi)中心
從《心經(jīng)》音譯本及其他文獻(xiàn)看梵文j?a的發(fā)音
ORACLE數(shù)據(jù)庫(kù)字符集問(wèn)題及解決方法
醫(yī)院信息系統(tǒng)Oracle數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù)中文亂碼的解決技術(shù)
高溫多聯(lián)機(jī)空調(diào)系統(tǒng)的控制方式研究
CALIS聯(lián)機(jī)合作編目中的授權(quán)影印書(shū)規(guī)范著錄
南安市| 新沂市| 夏邑县| 萍乡市| 平乡县| 五华县| 涟水县| 奉节县| 西宁市| 广德县| 江油市| 元朗区| 如皋市| 山东省| 兴安县| 永川市| 大荔县| 石棉县| 孝昌县| 泰兴市| 容城县| 合山市| 宝应县| 新竹市| 宜都市| 太原市| 双流县| 昌江| 沙洋县| 天津市| 翁源县| 安国市| 友谊县| 五指山市| 定兴县| 海安县| 泰和县| 鄂州市| 佛冈县| 洛阳市| 冀州市|