門光福,潘晨,柳長青
(1.寧夏大學數(shù)學計算機學院,寧夏銀川750021;2.中國計量學院信息工程學院,浙江杭州310018)
近年來西夏研究在國內外引起了廣大學者的高度重視,也取得了很大進展,大批西夏古籍文獻如《俄藏黑水城文獻》、《中國藏西夏文獻》、《英藏西夏文獻》經(jīng)整理被影印出版。目前,西夏文及西夏文獻的研究仍停留在傳統(tǒng)手工翻閱查找階段,研究工作因此耗時費力,異常辛苦。計算機技術的迅猛發(fā)展無疑給西夏研究工作帶來了契機,如何快速、準確地將這些文獻資料轉換為文本并為西夏文獻建立文本數(shù)據(jù)庫具有重要的研究與應用價值[1-2]。
當前國際上在西夏文字的計算機數(shù)字化方面的研究主要集中在日本、俄羅斯和中國臺灣[3]。日本國立亞非語言文化研究所1996年制作了西夏文字庫和排版系統(tǒng),1997年中國學者李范文教授和日本學者中島干起利用該排版系統(tǒng)合作出版了《電腦處理西夏文〈雜字〉研究》一書。該所副教授荒川懊太郎與俄羅斯西夏學專家克恰諾夫合作出版了《西夏文字典》。另外,值得一提的是國際合作中的國際敦煌項目[4]。1994年,旨在促進敦煌文物文獻保護和研究以及數(shù)字化的敦煌國際合作項目組(簡稱IDP)正式成立,秘書處設在大英圖書館。IDP早期工作主要集中在修復、保護與編目等方面,近年來加快了數(shù)字化步伐,目前正朝著將包括西夏文獻影印圖像在內的敦煌及絲綢之路文物文獻全部網(wǎng)絡化的目標而努力。在國內,馬希榮、柳長青[5-8]等從西夏文字識別的版面分析、二值化、傾斜檢測、尺寸歸一化及去噪等預處理技術到西夏文字的各種特征提取及西夏文字神經(jīng)網(wǎng)絡的識別等方面都做了一些研究。
西夏文獻中的西夏文字多以刻板文字或手寫體形式出現(xiàn),與印刷體文字有很大的區(qū)別,存在大小不固定,整體或局部位置產(chǎn)生偏移等情形,這對識別過程及識別率會產(chǎn)生很大的影響。西夏文獻中的西夏文字的識別可以借鑒手寫體漢字識別的相關技術,但由于西夏文字筆畫繁多,平均筆畫數(shù)在25畫左右,而且西夏文字之間具有很大的相似性,這無疑又增加了識別的難度。
近年來,大量的研究實驗表明,方向特征是一種較好的手寫體文字特征[9],彈性網(wǎng)格技術[10-14,20]可以提取字符圖像的局部特征,能很好地區(qū)分相似字,容忍不同書寫風格所引起的筆劃位置不穩(wěn)定、局部字形變形等變化,所以在手寫體字符識別中得到廣泛應用。本文將采用彈性網(wǎng)格對西夏文字進行網(wǎng)格劃分,并提取筆畫特征,然后對提取的筆畫特征采用LDA方法進行降維處理,給出西夏文字識別的一種有效方法。
在對西夏文字提取筆畫特征之前,首先采用大津方法[15]對西夏文字圖像進行二值化處理,然后對二值化后的西夏文字圖像采用形態(tài)學細化算法[16,21]進行細化。
盡管西夏文字結構復雜,但都是由直線段組成,而且這些直線段具有橫、豎、撇、捺4個方向。西夏文字中的“橫、豎、撇、捺”四種筆劃的多少客觀上來講可以代表其特征,并且“橫、豎、撇、捺”四種筆劃分量的結構組合是不同的,因此將西夏文字進行“橫、豎、撇、捺”四個方向分解后再提取統(tǒng)計特征,比起整體上提取特征來識別西夏文字更能反映西夏文字的組成結構,更具有區(qū)分性。具體的分解策略見圖1。考慮黑像素的8個鄰域,按如下方法確定4個方向分量:
(1)橫分量:P1或 P5為黑像素;
(2)豎分量:P3或 P7為黑像素;
(3)撇分量:P2或 P6為黑像素;
(4)捺分量:P4或P8為黑像素。
圖1 點P的八鄰域
圖2 給出了西夏文字分解的結果。
圖2 西夏文字分解結果
彈性網(wǎng)格是一種根據(jù)文字圖像的像素密度分布,用非均勻的網(wǎng)線劃分文字的網(wǎng)格方法。將西夏文字如圖2所示進行四種基本筆劃方向分解后,構造彈性網(wǎng)格并作用于分解后的各西夏文字分量上,然后提取各分量在網(wǎng)格內像素點的概率分布特征。
設水平方向的網(wǎng)線數(shù)為N1,垂直方向的網(wǎng)線數(shù)為N2,當滿足下面兩式時,分別得到水平、垂直方向的非均勻網(wǎng)線Ii,Ij:
非均勻網(wǎng)線 Ii,Ij兩兩相交即構成彈性網(wǎng)格,選取不同的網(wǎng)線數(shù)可以得到不同的網(wǎng)格。當 N1=8,N2=6時,構造的全局8×6彈性網(wǎng)格如圖 3所示。
假設得到的網(wǎng)格為B1,B2,…,Bn,西夏文字四個方向“橫”、“豎”、“撇”、“捺”子圖像為(x,y),則第i個子塊內的方向統(tǒng)計特征如下:
圖3 全局8×6彈性網(wǎng)格
在第2部分中將西夏文字采用彈性網(wǎng)格劃分,提取筆畫方向特征后,得到的高維特征向量可以直接用距離方式度量,但由于基于高維特征空間內的算法時間復雜度和空間復雜度都大大增加,并且不容易估計參數(shù)值。所以為優(yōu)化算法需要對特征空間進行降維處理。LDA方法是一種通用的提高類別分辨能力的線性變換,其優(yōu)點是通過對可分性測度函數(shù)的優(yōu)化,在變換后的低維特征空間內保留分類能力最強的一組特征[17-18]。本文選擇將選用 LDA方法對提取的西夏文字筆畫方向特征進行壓縮。
(3)設X為初始特征向量,通過Y=WTX變換得到壓縮后特征向量Y。
采用原寧夏大學計算中心夏漢字典第一區(qū)的前240個西夏文字的40套樣本作為實驗用西夏文字,每個西夏文字為48×48個像素。為檢驗各種識別方法的性能,實驗中選取v重交叉驗證法作為識別方法性能的衡量指標。用此方法把訓練集劃分成4個子集,每個子集包含10個樣本,訓練時用3個子集的樣本訓練,用剩下的1個子集的樣本做測試得到1次識別率,依次對每個子集都做測試可得到4次識別率,取4次識別率的平均值作為識別方法性能的衡量指標。實驗所采用的計算機的硬件配置為AMD Athlon Dual Core 4000+,內存為 2G DDR,硬盤為日立串口250G。軟件環(huán)境為WindowsXP SP3下的matlab7.0。圖4為實驗中用到的部分西夏古籍文獻中的西夏文字樣本。
圖4 實驗所采用的部分西夏古籍中西夏文字樣本
本小節(jié)實驗的目的是:討論用筆畫方向分解特征作為文字的特征,在歐式距離度量方式下,采用不同網(wǎng)格劃分下的識別效果。實驗數(shù)據(jù)如下:
表1 不同網(wǎng)格劃分方法下的識別率比較
由表1中的實驗結果可以看出:使用全局8×6網(wǎng)格時的識別率最高。因此,在實際應用時可以選用全局8×6網(wǎng)格共192維特征作為西夏文字的識別特征。
LDA方法可以有效壓縮特征并提高識別率,其中維數(shù)d的選擇對識別率有一定的影響。本實驗選歐氏距離分類器,取4重交叉驗證平均識別率,對提取的8×6彈性網(wǎng)格的筆畫特征共192維原始特征采用LDA方法降維。圖5給出了壓縮維數(shù)d從20到190時的識別率變化趨勢。
圖5 不同參數(shù)d下的識別率
由圖5可知,當壓縮維數(shù)在80左右時識別率達到最大。高維時識別率略有下降,主要是由于分類器模型的符合程度、參數(shù)的估計誤差等隨著維數(shù)的增大而逐漸惡化所導致。
通過上面實驗,選定維數(shù)d=80,采用不同距離度量方式下的識別率如表2所示。
表2 不同距離度量方式下LDA方法壓縮特征前后的識別率比較
表2結果表明,使用LDA方法將特征從192維壓縮到80維后,各種距離測度下的識別率都顯著提高,該實驗也說明了 LDA方法壓縮西夏文字彈性網(wǎng)格筆畫方向特征的有效性。
本實驗主要討論采用LDA方法壓縮全局8×6彈性網(wǎng)格的筆畫方向特征作為多個候選字的識別特征時的識別率比較,分類距離選用歐式距離,實驗結果如表3和圖6所示。從實驗結果中可以看出,隨著候選字個數(shù)的增加,識別率逐步提高。如果測試樣本作為前15個候選字時,識別率可達到99.05%。因此,用該特征及分類方式作為樣本的粗分類可以達到很高的準確率。
表3 前n個候選字的識別率
圖6 多候選字識別率
本文基于彈性網(wǎng)格上筆畫方向的特征分解和提取,采用LDA方法壓縮特征對西夏文字進行分類識別研究。實驗證明對于西夏文字這樣一種相似度遠遠高于漢字的象形文字,本文所提方法能夠有效的進行識別,識別率可達87.99%以上。本文的研究成果為以后的手寫體西夏文字、西夏文獻圖片資料中的西夏文字的自動識別等的深入研究打下基礎。
[1]柳長青.基于 Level Set方法的西夏字輪廓提取[J].中文信息學報,2009,23(4):71-75.
[2]李宇明.搭建中華宇符集大平臺[J].中文信息學報,2003,17(2):1-6.
[3]史金波,陳育寧.中國藏西夏文獻[M〕.甘肅:教煌文藝出版社,2005.
[4]劉扭,段慈明,王惠臨,等.中醫(yī)藥古文獻語料庫設計與開發(fā)研究[J].中文信息學報,2005,22(4):24-0.
[5]馬希榮,王行愚.西夏文字特征提取的研究[J].計算機工程與應用,2002,38(13):38-39.
[6]馬希榮,王行愚.神經(jīng)網(wǎng)絡的西夏字識別技術研究[J].計算機工程與應用,2001,37(18):10-11.
[7]柳長青,杜建錄.網(wǎng)絡下的西夏文及西夏文獻處理研究[J].寧夏社會科學,2008,(5):113-115.
[8]馬希榮,柳長青,等.夏漢字處理及電子字典[M].北京:清華大學出版社,1999.
[9]劉偉,朱寧波,何浩智,等.彈性網(wǎng)格模糊特征的手寫體漢字識別方法[J].中文信息學報,2007,21(3):117-121.
[10]陳章輝,黃小暉,陳鵬飛,等.基于雙彈性網(wǎng)格的手寫體漢字識別[J].計算機應用,2009,29(2):395:397.
[11]Lianwen Jin,Gang Wei.Handwritten Chinese Character Recognition with Directional Decomposition Cellular Features[J].Journal of Circuit,System and Computer,1998,8(4):517-524.
[12]S W Lee,J S Park.Nonlinear Shape Normalization M ethods for the Recognition of Large Set Handwritten Character[J].Pattern Recognition,1994,27(7):895-902.
[13]金連文,高學.幾種手寫體漢字網(wǎng)格方向特征提取方法的比較研究[J].計算機應用研究,2004,21(11):38-40.
[14]金連文.手寫體漢字識別的研究[D].廣州:華南理工大學,1996.
[15]Otsu.A Threshold Selection M ethod from Gray-Level Histogram[J].IEEE Trans on SMC-9,1979:62-66.
[16]楊淑瑩.VC++圖像處理程序設計[M].清華大學出版社,2003.
[17]Balakrishnama S,Ganapathiraju A,Picone J.Linear Discriminant Analysis for Signal Processing Problems.Southeastcon'99 Proceedings.IEEE 25-28,1999-04:78-81.
[18]姜錚銦,丁曉青.基于M QDF的英文OCR多模板分類器[J].計算機工程,2005,31(15):56-58.
[19]王華,丁曉青.多字體印刷藏文字符識別[J].中文信息學報,2003,17(6):47-52.
[20]金連文,徐秉錚.手寫體漢字識別中的一種新的特征提取方法——彈性網(wǎng)格方向分解特征[J].電路與系統(tǒng)學報,1997,2(3):7-12.
[21]門光福.一種基于多級分類的西夏文字識別算法[J].高師理科學報,2010,30(4):44-47.