国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多民族脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫的設(shè)計(jì)與構(gòu)建

2011-12-27 05:59:06鄭蕊蕊趙繼印于為民吳寶春
關(guān)鍵詞:手寫體單字脫機(jī)

鄭蕊蕊,趙繼印,李 敏,于為民,吳寶春

(大連民族學(xué)院信息與通信工程學(xué)院,遼寧大連 116605)

多民族脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫的設(shè)計(jì)與構(gòu)建

鄭蕊蕊,趙繼印,李 敏,于為民,吳寶春

(大連民族學(xué)院信息與通信工程學(xué)院,遼寧大連 116605)

設(shè)計(jì)并構(gòu)建了一種記錄書寫者民族信息的手寫體漢字?jǐn)?shù)據(jù)庫——大連民族學(xué)院DNU-Ⅰ型多民族脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫。包括單字庫、行文本庫和段文本庫3個(gè)子庫。為少數(shù)民族漢字書寫特征分析、中文文檔的行切分、漢字的切分識(shí)別、中文文本的無切分識(shí)別、筆跡鑒別和簽名驗(yàn)證等方面的研究奠定基礎(chǔ),并提供算法的驗(yàn)證平臺(tái)。同時(shí)介紹了字符識(shí)別數(shù)據(jù)庫的一般構(gòu)建流程和數(shù)據(jù)庫圖像二值化、歸一化、行分割等預(yù)處理算法,為少數(shù)民族文字?jǐn)?shù)據(jù)庫的構(gòu)建提供了技術(shù)支撐。

脫機(jī)手寫體漢字識(shí)別;數(shù)據(jù)庫;少數(shù)民族;圖像處理

脫機(jī)手寫體漢字識(shí)別是字符識(shí)別領(lǐng)域的研究難點(diǎn)與熱點(diǎn),涉及模式識(shí)別、圖像處理、統(tǒng)計(jì)理論等學(xué)科,呈現(xiàn)出綜合性的特點(diǎn),在少數(shù)民族語言文字信息處理、辦公和教學(xué)自動(dòng)化、銀行票據(jù)自動(dòng)識(shí)別、郵政自動(dòng)分揀等技術(shù)領(lǐng)域,都有著重要的理論意義和實(shí)用價(jià)值[1]。標(biāo)準(zhǔn)化的脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫在字符識(shí)別研究中起關(guān)鍵作用:一方面,數(shù)據(jù)庫為識(shí)別算法提供大量的訓(xùn)練樣本和測(cè)試樣本;另一方面,數(shù)據(jù)庫為不同識(shí)別算法的性能比較提供公共平臺(tái),有利于公正客觀地對(duì)比實(shí)驗(yàn)結(jié)果。因此,建立脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫是研究脫機(jī)手寫體漢字識(shí)別技術(shù)的首要環(huán)節(jié)和基礎(chǔ)。

目前國內(nèi)外的研究機(jī)構(gòu)已建立并公開了4種脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫,分別是ETL-8/ETL-9[2]、HCL2000[3]、HIT - MW[4]和 SCUT -COUCH2009[5]。ETL-8/ETL -9 字符數(shù)據(jù)庫由日本電子工業(yè)發(fā)展協(xié)會(huì)收集,包含日文、中文、拉丁文和數(shù)字的手寫和機(jī)器印刷字符,數(shù)據(jù)庫圖片有4種不同像素規(guī)格。該數(shù)據(jù)庫的不足是不包含書寫者信息,并且由于中文和日文的書寫習(xí)慣差異,該數(shù)據(jù)庫很少用于中文字符識(shí)別[4]。HCL2000是由北京郵電大學(xué)信息工程系研發(fā)的大規(guī)模脫機(jī)手寫漢字?jǐn)?shù)據(jù)庫系統(tǒng)。該數(shù)據(jù)庫包含了三千多個(gè)一級(jí)漢字的1300個(gè)手寫漢字樣本和對(duì)應(yīng)書寫者的個(gè)人信息,每個(gè)漢字樣本采用64×64個(gè)二值像素描述。HCL2000字庫是單字字庫,與日常手寫樣本仍存在巨大差別。SCUTCOUCH2009是華南理工大學(xué)開發(fā)的在線式大規(guī)模脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫,通過PDA和智能手機(jī)的觸摸屏收集手寫樣本,不僅包含單字庫,還有拼音庫、單詞庫、繁體字庫和符號(hào)庫等。SCUTCOUCH2009漢字庫雖然包含單字和單詞,但沒有整段文檔,且不包括書寫者信息,仍未達(dá)到日常手寫文本的級(jí)別。HIT-MW數(shù)據(jù)庫由哈爾濱工業(yè)大學(xué)構(gòu)建,是首個(gè)無監(jiān)督漢字文檔數(shù)據(jù)庫,書寫內(nèi)容約200字左右,均選自《人民日?qǐng)?bào)》,因此,HIT-MW數(shù)據(jù)庫中的手寫體樣本可以看作是真實(shí)的手寫體樣本。HIT-MW數(shù)據(jù)庫同時(shí)還包含了樣本書寫者的性別、年齡和職業(yè)信息。

上述4種數(shù)據(jù)庫中,只有HCL2000和HITMW數(shù)據(jù)庫考慮到了書寫者個(gè)人信息的錄入,但都不包含書寫者的民族信息。中國是一個(gè)和諧統(tǒng)一的多民族國家,藏族、蒙古族、維吾爾和朝鮮族等少數(shù)民族不僅使用本民族的語言文字,還能夠熟練掌握漢字。我國在研究漢字識(shí)別的同時(shí),也積極開展少數(shù)民族語言文字的識(shí)別與保護(hù)研究。漢字與少數(shù)民族文字在文字構(gòu)成和書寫行款上有著或多或少的差異:例如,漢字沒有圈、點(diǎn)、曲線等筆畫,蒙文、藏文和維文卻包含大量這種結(jié)構(gòu)元素;漢字目前多采用橫向的書寫方式,但是蒙文卻采用縱向的書寫方式。因此,少數(shù)民族同胞在使用漢字時(shí),其母語文字會(huì)對(duì)漢字的書寫習(xí)慣產(chǎn)生影響。所以,在脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫的構(gòu)建中,不僅要考慮涵蓋更多的漢字樣本,還應(yīng)考慮到樣本書寫者的民族信息。大連民族學(xué)院是國家民族事務(wù)委員會(huì)直屬的,以工科和應(yīng)用學(xué)科為主的民族高等學(xué)校,現(xiàn)有在校學(xué)生擁有56個(gè)民族成份,少數(shù)民族學(xué)生占60%以上,能夠?yàn)檠邪l(fā)多民族脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫提供強(qiáng)有力的人員和技術(shù)保障。

1 數(shù)據(jù)庫樣本設(shè)計(jì)

目前,大連民族學(xué)院信息與通信工程學(xué)院已完成多民族脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫的Ⅰ期數(shù)據(jù)庫(簡稱為DNU-Ⅰ)的構(gòu)建,包括單字、行文本和段文本3個(gè)子數(shù)據(jù)庫,書寫者為大連民族學(xué)院的部分教師和在校學(xué)生。為構(gòu)建脫機(jī)手寫體漢字?jǐn)?shù)據(jù)庫首先必須規(guī)劃樣本采集策略,設(shè)計(jì)滿足要求的樣本采集卡。由于DNU-Ⅰ數(shù)據(jù)庫包含單字、行文本和段文本3個(gè)子庫,為了方便后續(xù)字符圖像預(yù)處理,設(shè)計(jì)兩種樣本采集卡,即單字采集卡和段文本采集卡,分別如圖1和圖2。單字采集卡選擇《百家姓》和《三字經(jīng)》的部分篇章作為書寫內(nèi)容,供提取單字字符圖像使用。DNU-Ⅰ數(shù)據(jù)庫的段文本采集的書寫內(nèi)容不同于HIT-MW數(shù)據(jù)庫:HIT-MW數(shù)據(jù)庫的書寫內(nèi)容均來自《人民日?qǐng)?bào)》;DNU-Ⅰ數(shù)據(jù)庫的段文本采集卡選擇《毛主席詩詞》和《牡丹亭》的部分篇章作為書寫內(nèi)容,供提取行文本和段文本圖像使用。圖1和圖2的每種采集卡都包含書寫者姓名、性別、年齡、民族、學(xué)歷和職業(yè)等信息,在書寫者完全知情并同意的情況下完成樣本的采集。如圖3是兩種采集樣本實(shí)例。書寫者在完全自由的情況下完成樣本采集卡指定內(nèi)容的書寫,因此會(huì)出現(xiàn)涂抹、文本行傾斜、斷句方式不同等現(xiàn)象,如圖4,這些都符合實(shí) 際書寫情況。

圖1 單字采集卡 圖2 段文本采集卡

圖3 樣本采集實(shí)例

圖4 樣本不同情況示例

2 圖像預(yù)處理

原始的采集樣本通過EPSON EXPRESSION 10000XL掃描儀在300dpi×300dpi的分辨率下掃描成RGB彩色模型的JPEG圖片。但這些圖像并不能直接用于字符識(shí)別的研究,需經(jīng)過彩色圖像的灰度化、灰度圖像的二值化、字符圖像歸一化、行分割等預(yù)處理。

2.1 灰度化和二值化

目前字符的特征提取方法主要針對(duì)灰度圖像和二值圖像。為了便于數(shù)據(jù)庫用戶對(duì)字符圖像進(jìn)行去噪、細(xì)化、特征提取等處理,避免重復(fù)操作,必須對(duì)掃描的彩色圖像進(jìn)行灰度化,對(duì)灰度圖像進(jìn)行二值化處理。

RGB彩色圖像是一個(gè)包含紅、綠、藍(lán)三原色的3維數(shù)組。RGB彩色圖像轉(zhuǎn)換為灰度圖像的原理是將紅、綠、藍(lán)三種分量按照一定的比例換算成灰度值,如公式(1)所示:

式中,V代表灰度值,R代表紅色亮度值,G代表綠色亮度值,B代表藍(lán)色亮度值。

圖像的二值化是將灰度圖像通過選定的閾值將圖像灰度矩陣轉(zhuǎn)變成只有0或1的邏輯矩陣的方法。閾值的選取是圖像二值化的關(guān)鍵,對(duì)文檔的后續(xù)識(shí)別處理也有一定的影響。本文采用Otsu法[6]確定閾值。Otsu法的實(shí)質(zhì)是通過迭代法尋找使圖像前景和背景兩類的類內(nèi)方差最小的閾值。

2.2 歸一化

經(jīng)過二值化的圖像還需要?dú)w一化為統(tǒng)一的規(guī)格。歸一化的尺寸一般由用戶根據(jù)算法需要自行確定,缺乏相應(yīng)的準(zhǔn)則。實(shí)踐中,許多研究者和同類數(shù)據(jù)庫都將單個(gè)字符圖像歸一化為64×64像素,因此本數(shù)據(jù)庫將單字庫中的字符歸一化為64×64像素大小的二值圖像。如圖5顯示了單字庫中“趙”字經(jīng)過灰度化、二值化和歸一化處理后的結(jié)果。如果數(shù)據(jù)庫用戶要研究字符圖像的歸一化方法,則直接選擇原始的掃描圖像即可。

圖5 單字圖像預(yù)處理過程

2.3 行分割

行分割又稱行切分,是指將漢字以“行”為單位進(jìn)行分割。漢字切分的研究建立在行文檔的基礎(chǔ)之上,行分割是漢字切分的前提條件。目前通用的行分割算法是投影法[7]。投影法首先對(duì)段文本圖像進(jìn)行行像素點(diǎn)統(tǒng)計(jì),找到全部為白色像素點(diǎn)的行,即為行與行之間的間隔,如圖6。但是由于會(huì)出現(xiàn)行文本相連接的情況導(dǎo)致行間隔不是全白像素,因此許多學(xué)者在投影法的基礎(chǔ)上,提出了相應(yīng)的閾值算法,在某些特定規(guī)則下取得了較好的切分效果。本數(shù)據(jù)庫不僅提供段文本供用戶研究行分割算法,而且還提供行文本數(shù)據(jù)庫方便用于對(duì)字符分割的研究。因此需將數(shù)據(jù)庫的段文本掃描圖像分割成單獨(dú)的文本行,組成行文本數(shù)據(jù)庫。為了提高工作效率,采用Photoshop或“光影魔術(shù)手”等專業(yè)圖像處理軟件的圖像裁剪功能實(shí)現(xiàn)行分割,構(gòu)建用于字符分隔的行文本數(shù)據(jù)庫,樣本如圖7。

圖6 投影法行分割示意圖

圖7 行文本數(shù)據(jù)庫樣本

3 結(jié)語

大連民族學(xué)院DNU-Ⅰ數(shù)據(jù)庫是具有自主知識(shí)產(chǎn)權(quán)的,唯一一個(gè)記錄了書寫者民族信息的脫機(jī)手寫體漢字識(shí)別數(shù)據(jù)庫。該數(shù)據(jù)庫包含單字?jǐn)?shù)據(jù)庫、行文本數(shù)據(jù)庫和段文本數(shù)據(jù)庫3個(gè)子數(shù)據(jù)庫,每個(gè)數(shù)據(jù)庫有60個(gè)樣本,涵蓋了滿族、回族、維吾爾族、白族、土家族、壯族、蒙古族、彝族、苗族、哈尼族和朝鮮族等少數(shù)民族,少數(shù)民族書寫者共36人次,占總書寫人數(shù)的60%。該數(shù)據(jù)庫為研究不同民族的漢字書寫特征及影響識(shí)別率的相關(guān)因素提供了研究的基礎(chǔ),應(yīng)用領(lǐng)域主要集中在少數(shù)民族漢字書寫特征分析、中文文檔的行切分、漢字的切分識(shí)別、中文文本的無切分識(shí)別、標(biāo)點(diǎn)識(shí)別、筆跡鑒別和簽名驗(yàn)證等方面。本文還分析了字符圖像預(yù)處理的相關(guān)技術(shù),為少數(shù)民族文字?jǐn)?shù)據(jù)庫的構(gòu)建提供必要的技術(shù)支撐。目前該數(shù)據(jù)庫已完成了Ⅰ期數(shù)據(jù)庫的構(gòu)建,但是涵蓋的漢字范圍有待進(jìn)一步擴(kuò)充,目標(biāo)是盡量完全覆蓋一級(jí)漢字,并涵蓋少量二級(jí)漢字。同時(shí),還需擴(kuò)大書寫者的范圍,特備是針對(duì)少數(shù)民族書寫者,目標(biāo)是完全包含56個(gè)民族,并且加強(qiáng)少數(shù)民族書寫者的比重。

致 謝

感謝大連民族學(xué)院信息與通信工程學(xué)院通信094班、電子072班和機(jī)電信息工程學(xué)院自動(dòng)化096班的同學(xué)為本數(shù)據(jù)庫建立提供手寫樣本。感謝信息與通信工程學(xué)院電子072班王純、王野和王路平同學(xué)所做的圖像處理工作。

[1]趙繼印,鄭蕊蕊,吳寶春,等.脫機(jī)手寫體漢字識(shí)別綜述[J].電子學(xué)報(bào),2010,38(2):405 -415.

[2]http://www.is.aist.go.jp/etlcdb/[OL].2008-11-14.

[3]郭軍,藺志青,張洪剛.一個(gè)新的脫機(jī)手寫漢字?jǐn)?shù)據(jù)庫模型及其應(yīng)用[J].電子學(xué)報(bào),2000,28(5):115–116.

[4]SU Tonghua,ZHANG Tianwen,GUAN Dejun.HIT -MW Dataset for Offline Chinese Handwritten Text Recognition[C].Proceedings of the 10th International Workshop on Frontiers in Handwriting Recognition ,IWFHR,2006.

[5] JIN Lianwen,GAO Yan,LIU Guang,et al.SCUT -COUCH2009-a comprehensive online unconstrained Chinese handwriting database and benchmark evaluation[J].International Journal of Document Analysis and Recognition,2011,14(1):53-64.

[6]Otsu,N.A Threshold Selection Method from Gray -Level Histograms.IEEE Transactions on Systems,Man,and Cybernetics,1979,9(1):62 -66.

[7]于明,張彥云,薛翠紅,等.筆跡圖像中的單個(gè)漢字字符分割[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(9):180 -182.

DNU-Ⅰ Multi-national Offline Chinese Handwritten Database of Dalian Nationalities University

ZHENG Rui-rui,ZHAO Ji-yin,LI Min,YU Wei-min,WU Bao-chun
(College of Information & Communication Engineering,
Dalian Nationalities University,Dalian Liaoning,116605,China)

An offline Chinese handwritten characters and text database,DNU -Ⅰmulti-national offline Chinese handwritten database of Dalian Nationalities University,has been presented to record the writers’national information.Dalian Nationalities University has the copyright of the DNU - Ⅰdatabase.The DNU - Ⅰdatabase consists of 3 subsets,the single character dataset,the single line dataset and the paragraph dataset.Each sample of the DNU - Ⅰdatabase recorded the writer’s information,such as his or her name,nationality,gender and education.The proportion of writers from minority nationalities is 60%.The DNU-Ⅰdatabase can be used to conduct written features of minority nationalities,Chinese text line segmentation,Chinese characters segmentation,segmentation-free recognition,writer identification,signature verification and provide benchmark for algorithms comparison.Meanwhile,common construction procedures of character recognition database and the binarization,normalization,and line segmentation methods of character image pre-processing,which can provide technique support for minority nationalities’written languages,has been introuduceed.

Offline handwritten Chinese Recognition;database;minority nationality;image processing

TP391.1

A

1009-315X(2011)05-0502-05

2011-4-27;最后

2011-06-27

國家科技支撐計(jì)劃項(xiàng)目(2009BAH41B05);國家民委科研項(xiàng)目(10DL03);遼寧省教育廳項(xiàng)目(L2010094);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(DC10010103);大連民族學(xué)院人才引進(jìn)科研啟動(dòng)基金資助項(xiàng)目(20116203)。

鄭蕊蕊(1982-),女,河南開封人,講師,博士,主要從事智能圖像處理與模式識(shí)別研究。

(責(zé)任編輯 劉敏)

猜你喜歡
手寫體單字脫機(jī)
哐當(dāng)(外一首)
哐當(dāng)(外一首)
淺快呼吸指數(shù)相關(guān)指標(biāo)預(yù)測(cè)脫機(jī)結(jié)局的價(jià)值分析
河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語音學(xué)初探
基于大數(shù)據(jù)下的手寫體識(shí)別的設(shè)計(jì)與研發(fā)
披著書法外衣的手寫體
中國篆刻(2019年6期)2019-12-08 15:56:23
改良程序化脫機(jī)在老年患者呼吸機(jī)撤離中的應(yīng)用
中心靜脈血氧飽和度監(jiān)測(cè)在機(jī)械通氣患者脫機(jī)過程中的意義※
“對(duì)仗不宜分解到單字”毋庸置疑——答顧紳先生“四點(diǎn)質(zhì)疑”
中華詩詞(2016年11期)2016-07-21 14:56:16
鹽城方言單字調(diào)聲學(xué)實(shí)驗(yàn)研究
罗江县| 成安县| 秦皇岛市| 仁怀市| 洞口县| 内黄县| 安国市| 曲松县| 武平县| 米泉市| 峡江县| 广州市| 图木舒克市| 竹北市| 隆化县| 胶南市| 黄龙县| 关岭| 河津市| 买车| 盐津县| 邻水| 蒙山县| 洛宁县| 农安县| 大化| 古蔺县| 武胜县| 乐平市| 无极县| 西和县| 昭觉县| 容城县| 襄城县| 西藏| 闽侯县| 剑阁县| 米脂县| 中卫市| 玉树县| 思茅市|