安艷輝,陳韶霞,劉宗敏
(1.河北省工業(yè)和信息化廳,河北石家莊 050051;2.河北省農(nóng)業(yè)區(qū)劃委員會(huì)辦公室,河北石家莊 050051)
基于字符類別的識別反饋混排字符切分方法
安艷輝1,陳韶霞1,劉宗敏2
(1.河北省工業(yè)和信息化廳,河北石家莊 050051;2.河北省農(nóng)業(yè)區(qū)劃委員會(huì)辦公室,河北石家莊 050051)
字符切分是影響OCR系統(tǒng)識別的關(guān)鍵因素之一。對于中英文混排文檔,提出了基于字符類別的識別反饋混排字符切分方法,利用字符特征分類判別出文檔中的漢字類、英文、數(shù)字和標(biāo)點(diǎn)符號類、部件類,對漢字類和部件類借助識別技術(shù)分別進(jìn)行處理。該方法結(jié)構(gòu)簡單,容易實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果表明該方法切分效果好,字符類別判斷準(zhǔn)確。
字符切分;分類器設(shè)計(jì);字符類別判斷;字符識別
字符識別技術(shù)經(jīng)過幾十年的發(fā)展,取得了長足的進(jìn)步,目前,大多數(shù)字符識別是基于對單個(gè)字符的逐個(gè)識別,字符識別率的高低與字符切分的正確與否密切相關(guān),尤其是在中英文混排的情況下,顯得更為重要,它直接影響到識別的正確率。脫機(jī)印刷體字符識別系統(tǒng)雖然已形成商業(yè)產(chǎn)品,隨著中英文混排文檔圖像的日益增多,實(shí)用性不是很理想。
當(dāng)前字符切分技術(shù)主要有以下幾種方法[1]:
1)基于圖像分析的分割;
通過圖像分析尋找字符之間較為合理的分割點(diǎn),主要采用靜態(tài)的投影分析方法。
2)基于識別的分割;
在實(shí)際的分割前借助于識別能力對各種存在的分割進(jìn)行選擇合理的分割。
3)綜合了前面兩種技術(shù)的分割;
通過圖像分析產(chǎn)生較少的垂直分割的假設(shè),并通過識別對假設(shè)進(jìn)行篩選。
4)整體識別;
以整個(gè)詞為結(jié)識客體,根據(jù)詞的整體特征來識別,從而避免分割對字符的損傷,這種方法在一般識別有限的關(guān)鍵性詞匯時(shí)使用。
總結(jié)了近幾年[2,3]的字符切分技術(shù)后認(rèn)為,字符切分主要綜合考慮兩種信息:基于局部的特征,字符形狀和結(jié)構(gòu)等特征信息;基于整體的特征,切分出字符內(nèi)容的信息。由于對字符形狀與結(jié)構(gòu),字符內(nèi)容信息等描述較復(fù)雜,工作量較大,不易擴(kuò)展。由實(shí)驗(yàn)可知,單獨(dú)描述字符信息或使用某種切分方法,對于實(shí)際的中英文混排文檔的切分效果很不理想,因此采用基于字符類別的識別反饋混排字符切分方法。該方法結(jié)構(gòu)簡單,容易實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果表明該方法切分效果好,字符類別判斷準(zhǔn)確。
在自動(dòng)錄入書籍及其它一些文獻(xiàn)時(shí),會(huì)經(jīng)常遇到中文 、英文 、數(shù)字和標(biāo)點(diǎn)符號混排的文檔,中文和英文在字符的形狀和結(jié)構(gòu)上都存在著很大的差異,這些字符有各自比較明顯的特征,它們在印刷排版中也體現(xiàn)了不同的特性,針對實(shí)際的混排字符情況,應(yīng)分別采用不同的字符切分方法。因此,首先應(yīng)判斷待切分字符的類型,字符類型包括漢字、英文 、數(shù)字和標(biāo)點(diǎn)。文獻(xiàn)[4]提出了一種印刷體字符類型判斷方法,本文定義字符分類規(guī)則如下:
規(guī)則1 沿字符區(qū)域塊從左向右逐列進(jìn)行縱向掃描,記錄每一列經(jīng)過的白黑象素交換次數(shù)。如果白黑象素交換次數(shù)不低于4的列數(shù)與字符區(qū)域塊的寬度比高于閾值a1,同時(shí)規(guī)則排版中字符寬度和字符中心距均在一定范圍內(nèi)且趨于一致,則認(rèn)為該字符區(qū)域塊內(nèi)字符為漢字。這里,閾值a1來自實(shí)驗(yàn)值。
規(guī)則2 根據(jù)向上凹曲線的定義,求出區(qū)域塊的向上凹曲線的個(gè)數(shù),若個(gè)數(shù)不低于閾值b1,同時(shí)通過比較字符的高度、寬度、字符間距、字符中心距、字符所在位置和掃描線經(jīng)過英文數(shù)字的筆畫數(shù),若字符的高度均小于平均高則認(rèn)為該字符區(qū)域塊內(nèi)為英文和數(shù)字。這里,閾值b1來自實(shí)驗(yàn)值。
規(guī)則3 若區(qū)域塊的方向比(寬度:長度)低于字符最小方向比閾值c1,若區(qū)域塊內(nèi)的字符寬度 、高度與平均字符高度與寬度的差值的絕對值小于一定閾值d1時(shí),且該字符與后一字符間距比較大時(shí),則認(rèn)為該區(qū)域塊內(nèi)的字符為小標(biāo)點(diǎn);若區(qū)域塊內(nèi)的字符寬度 、高度與平均字符高度與寬度的差值的絕對值小于一定閾值d2時(shí),且該字符與后一字符間距比較大時(shí),則認(rèn)為該區(qū)域塊內(nèi)的字符為大標(biāo)點(diǎn);這里c1、d1、d2來自實(shí)驗(yàn)值 。
規(guī)則4 若區(qū)域塊的方向比位于單字區(qū)域塊最小方向比閾值e1和最大方向比閾值e2之間,并且區(qū)域內(nèi)有效字符的方向比位于單字字符最小方向比閾值f1和最大方向比閾值f2之間,則認(rèn)為該區(qū)域塊內(nèi)的字符為漢字 。這里,閾值e1,e2,f1,f2來自實(shí)驗(yàn)值。
規(guī)則5 對于左右結(jié)構(gòu)之分的漢字被切分成左右部件的情況,依據(jù)字符的基本信息(字符高度、字符寬度、字符間距、字符中心距、字符所在位置、平均行高、字符高寬比等),判斷該區(qū)域塊內(nèi)的字符是否為漢字部件;其合并過程借助于識別模塊來處理。
規(guī)則6 不滿足上述任何規(guī)則的區(qū)域塊,則認(rèn)為是英文字符。
字符類別判斷與字符切分流程如圖1所示。
圖1 字符類別判斷與字符切分流程
字符切分過程主要分為以下三步:
第一步:傾斜矯正及行列切分,傾斜矯正的目的是為后面分類器設(shè)計(jì)進(jìn)行正確的字符特征提取;
第二步:根據(jù)行列切分的結(jié)果,依據(jù)分類器進(jìn)行字符類別判斷,分類判斷出漢字類 、英文 、數(shù)字 、標(biāo)點(diǎn)符號類 、部件類;
第三步:根據(jù)分類結(jié)果進(jìn)行識別,若是正確的漢字類則作為切分結(jié)果保存記錄;若為英文 、數(shù)字 、標(biāo)點(diǎn)符號類直接保存記錄切分結(jié)果;若為部件類根據(jù)左右關(guān)系及合并算法進(jìn)行合并,然后識別,若結(jié)果正確,則作為切分結(jié)果保存記錄,若不正確重新合并識別[5,6],直至為正確結(jié)果。
判斷文字類別及部件合并、識別過程如圖2所示。
圖2 判斷字符類別及合并識別過程
分類器設(shè)計(jì)原則:假定特征向量各分量間相對于決策變量是相對獨(dú)立的,對于特征向量X=[x1, x2,…xd]T的訓(xùn)練樣本,它屬于Ci類的條件概率為:
對于漢字 、英文 、數(shù)字和標(biāo)點(diǎn)字符類別都計(jì)算條件概率,最終的識別結(jié)果作為條件概率最大的那一字符類別,判別出相應(yīng)的字符類別,依據(jù)字符類別進(jìn)行單獨(dú)處理,保存切分結(jié)果。
在進(jìn)行分類器設(shè)計(jì)時(shí),用到兩種類型特征,一種是字符形狀和結(jié)構(gòu)方面的特征,包括六種字符外形特征(字符高度、寬度、字間距離、覆蓋率、高寬比、縱向起始位置);另一種是字符內(nèi)容特征,包括16維方面線素特征(提取出水平、垂直、45°、135°四個(gè)方向的方向像素特征),第一種特征里,除了覆蓋率和高寬比外,其他的四種特征需要特征歸一化[7]。因此,切分過程的第一步是傾斜矯正和估計(jì)漢字平均高和寬,依據(jù)這些特征和定義的6種規(guī)則,分類器完成字符類別判斷,然后調(diào)用識別過程[8]進(jìn)行識別,若識別正確,最終保存切分結(jié)果。
筆者采用超星數(shù)字圖書館和國家圖書館掃描的書籍作為訓(xùn)練和測試對象,從訓(xùn)練圖像中挑選出三類字符(漢字類,英文 、數(shù)字 、標(biāo)點(diǎn)符號類,部件類)作為訓(xùn)練樣本,用訓(xùn)練樣本的特征分布估計(jì)部件條件概率,完成分類器設(shè)計(jì)。
部件條件概率公式:
實(shí)驗(yàn)結(jié)果表明該種切分方法能正確判斷出字符類別和對字符正確切分。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 總體實(shí)驗(yàn)結(jié)果
判斷為漢字類及部件類合并后再識別為正確結(jié)果的情況如圖4所示。
圖4 漢字類實(shí)驗(yàn)結(jié)果
判斷為英文數(shù)字標(biāo)點(diǎn)類的情況如圖5所示。
圖5 英文、數(shù)字、標(biāo)點(diǎn)類實(shí)驗(yàn)結(jié)果
我們從《求是》等雜志,《人民日報(bào)》《光明日報(bào)》等報(bào)紙及小說類的書籍作為樣張,各掃描100頁,統(tǒng)計(jì)結(jié)果如表1。
表1 字符分類前的切分統(tǒng)計(jì)結(jié)果
識別反饋后字符正確切分后的統(tǒng)計(jì)結(jié)果如表2。
表2 識別反饋后字符切分統(tǒng)計(jì)結(jié)果
對于中英文混排字符圖像,本文提出了一種基于字符類別的識別反饋混排字符切分方法。在該方法中,最佳閾值的選取需要大量的實(shí)踐來獲得,因此其可靠性以及魯棒性仍需在更多的具體實(shí)踐中得到驗(yàn)證和提高。結(jié)合識別后處理過程、自然語言理解和利用字符的上下文關(guān)系[9],進(jìn)行描述與分析,也是進(jìn)一步的研究工作。
[1] Richard G.Case,Eric Lecolinet.A Survey of Methods and Strategies in Character Segmentation[C].IEEE Transactionson Pattern Analysis and Machine Intelligence,1996,18(7):690-706.
[2] YILU.Machine Printed Characters Segmentation-An Overview[C].IEEE Transactions Pattern Recognition,1995,28(1):67 -80.
[3] YILU,M.Shridhar.Characters Segmentation in Handw ritten Words-An Overview[C].IEEE Transaction Pattern Recognition, 1996,29(1):77-96.
[4] 黃冬萍.OCR預(yù)處理技術(shù)—從版面分析到字符切分[D].東北大學(xué)碩士學(xué)位論文,1998.
[5] 馬少平,夏瑩,朱小燕,等.漢字系統(tǒng)的誤識模型[J].清華大學(xué)學(xué)報(bào),1999(38):108-111.
[6] 安艷輝,董五洲.粘連搭接字符切分方法研究[J].河北師范大學(xué)學(xué)報(bào),2005,29(2):137-141.
[7] 徐蔚然,于武貴,郭軍.基于統(tǒng)計(jì)方法的混排文字切分與分類[C].紹興,第七屆全國漢字識別會(huì)議論文集,2002:123-128.
[8] 苗秀芬.漢子字體識別研究[D].河北大學(xué)碩士學(xué)位論文,2003.6.
[9] 沈清,湯霖.模式識別導(dǎo)論[M].國防科技大學(xué)出版社,1991.
The segmen tation of the m ixed arranging character based on the sort and recogn ition of characters
AN Yan-hui1,CHEN Shao-xia1,LIU Zong-min2
(1.Industry and Information Technology Department of Hebei Province,Shijiazhuang,Hebei050051,China;2.Hebei Scheme of A gricultural Pursuits Bureau,Shijiazhuang,Hebei050051,China)
The characters′segmentation is one of the key facto rs w hich affect character recognition in OCR system.Aimed at the document image w ith both Chinese characters and English characters.this paper p resent themethod w hich is the segmentation of themixed arranging character based on the sort and recognition of characters.Classifying by the characters characteristic,it is distinguished into Chinese character class,English and number and punctuation mark class,and component class.Then Chinese character class and component class is p rocessed respectively w ith recognition technique.The structure of thismethod is simple and easy to realize.The result of the experiment indicates that this method has good effect on segmentation and has high accurate rate in character classification discrimination.
Character segmentation;Classification design;Character classification discrimination;Character recognition
TP319
:A
1001-9383(2011)01-0015-06
2011-01-12
河北省自然科學(xué)基金資助項(xiàng)目(602127)
安艷輝(1972-),男,河北省樂亭縣人,高級工程師,碩士,主要從事計(jì)算機(jī)圖像處理和數(shù)據(jù)庫方面的研究.