周慶曙,陳勁杰,紀(jì)鵬飛
(上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)
?
基于SVM的多特征手寫(xiě)體漢字識(shí)別技術(shù)
周慶曙,陳勁杰,紀(jì)鵬飛
(上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)
針對(duì)傳統(tǒng)的模板匹配法對(duì)漢字的識(shí)別率較低,文中提出一種基于SVM的多特征手寫(xiě)體漢字識(shí)別技術(shù)。在提取網(wǎng)格特征的基礎(chǔ)上增加對(duì)漢字質(zhì)心特征、筆劃特征、特征點(diǎn)的提取,并采用SVM算法構(gòu)造分類(lèi)器,實(shí)現(xiàn)對(duì)手寫(xiě)體漢字的識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法的平均識(shí)別率為95.9%,高于傳統(tǒng)的模板匹配法。
SVM;網(wǎng)格特征;質(zhì)心特征;筆劃特征;特征點(diǎn)
漢字作為中華民族文化的信息載體,與人們的日常學(xué)習(xí)和工作密不可分。在網(wǎng)絡(luò)信息交流中,需要輸入大量的中文信息[1],重復(fù)、單調(diào)的傳統(tǒng)鍵盤(pán)手工輸入方式效率低下,已逐漸不能滿(mǎn)足迅速發(fā)展的信息化時(shí)代。而傳統(tǒng)的模板匹配法對(duì)于漢字的識(shí)別率不高,作者提出一種基于SVM的多特征手寫(xiě)漢字識(shí)別技術(shù),可大幅提高漢字的識(shí)別率以及錄入效率。
首先對(duì)漢字圖像進(jìn)行灰度化、二值化、形態(tài)學(xué)處理、傾斜校正、字符分割和歸一化、細(xì)化等圖像預(yù)處理操作,再對(duì)字符進(jìn)行特征提取,最后采用SVM算法構(gòu)造分類(lèi)器。系統(tǒng)識(shí)別流程如圖1所示。
SVM (Support Vector Machines)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,面對(duì)小樣本問(wèn)題,其能表現(xiàn)出良好的學(xué)習(xí)能力,并能做到與數(shù)據(jù)的維數(shù)無(wú)關(guān)[2]。
圖1 漢字識(shí)別流程圖
SVM方法是從線(xiàn)性可分情況下的最優(yōu)分類(lèi)超平面提出的,所謂最優(yōu)分類(lèi)超平面就是要求分類(lèi)平面不但能將兩類(lèi)無(wú)錯(cuò)地分開(kāi),且要使分類(lèi)平面兩側(cè)樣本之間的間隔最大[4]。過(guò)兩類(lèi)樣本中離最優(yōu)分類(lèi)超平面最近的點(diǎn),且平行于最優(yōu)分類(lèi)超平面的分類(lèi)超平面上的訓(xùn)練樣本稱(chēng)為支持向量[3]。設(shè)樣本集(xi,yi),xi∈Rd,yi∈{1,-1},i=1,…,n。在線(xiàn)性可分情況下,則可找到權(quán)向量w,使兩類(lèi)間隔最大,即‖w‖2最小,同時(shí)滿(mǎn)足
yi[(w,xi)+b]-1≥0
(1)
其中,i=1,…,n,n表示分類(lèi)樣本的數(shù)目。
為求解上述優(yōu)化問(wèn)題,引入拉格朗日函數(shù)
(2)
式中,α為拉格朗日乘子,αi≥0。
通過(guò)拉格朗日函數(shù)L分別對(duì)w,b求偏導(dǎo),并令偏導(dǎo)數(shù)值為0,結(jié)果代入超平面方程得到最優(yōu)分類(lèi)函數(shù)
(3)
漢字識(shí)別的分類(lèi)對(duì)象是非線(xiàn)性不可分的。對(duì)于不可分問(wèn)題,可通過(guò)引入非負(fù)松弛變量ξi加以解決,則約束條件變?yōu)?/p>
yi[(w·xi)+b]≥1-ξi
(4)
(5)
式中,C是懲罰因子,用來(lái)調(diào)節(jié)分類(lèi)的準(zhǔn)確率與泛化能力[5]。拉格朗日乘子α的取值范圍變?yōu)?≤αi≤C。對(duì)于低維空間的非線(xiàn)性可分問(wèn)題,可通過(guò)引入核函數(shù)解決。原始數(shù)據(jù)的核函數(shù)變換為(xi·xj)→K(xi·xj),則非線(xiàn)性情況下,使用核函數(shù)之后對(duì)應(yīng)的分類(lèi)函數(shù)為
(6)
3.1質(zhì)心特征的提取
質(zhì)心特征是字符筆劃分布的體現(xiàn)[6]。將二值圖像轉(zhuǎn)化成點(diǎn)陣形式,黑色像素點(diǎn)用“1”表示,白色像素點(diǎn)用“0”表示。設(shè)c(i,j)表示漢字點(diǎn)陣,質(zhì)心計(jì)算如下:水平質(zhì)心
(7)
垂直質(zhì)心
(8)
式中,i表示該點(diǎn)陣的行;j表示該點(diǎn)陣的行。
3.2筆劃特征的提取
漢字由橫、豎、撇、捺4種基本筆劃構(gòu)成,筆劃的構(gòu)成體現(xiàn)了漢字的基本形態(tài)[7]。下面對(duì)4種基本筆劃進(jìn)行提取。
(1)橫、豎筆劃的提取。橫筆劃中所有的像素點(diǎn)具有同一縱坐標(biāo),而豎筆劃中所有的像素點(diǎn)具有同一橫坐標(biāo)[8]。其特征明顯,提取算法也基本相同。本文提出一種將細(xì)化后圖像與原圖像相結(jié)合的筆劃提取方法,方法如下:1)對(duì)細(xì)化后圖像進(jìn)行自上而下、從左往右的水平掃描,若同一縱坐標(biāo)上連續(xù)的黑點(diǎn)個(gè)數(shù)大于或等于2,則記下這些黑點(diǎn)的坐標(biāo);2)對(duì)原圖像進(jìn)行水平掃描,若這些黑點(diǎn)依然連續(xù),則說(shuō)明這些黑點(diǎn)構(gòu)成一個(gè)橫筆劃,橫筆劃數(shù)量加1;3)重復(fù)第1、2步;4)當(dāng)細(xì)化后圖像水平掃描全部完成時(shí),記下橫筆劃數(shù)。同理,對(duì)細(xì)化后圖像進(jìn)行自左向右而下、從上往下的豎直掃描,可得到豎筆劃數(shù);
(2)撇、捺筆劃的提取。1)將細(xì)化后圖像中的橫、豎筆劃刪除,降低圖像的復(fù)雜性;2)自上而下、從左往右的水平掃描細(xì)化后圖像,如果第i行掃描到黑點(diǎn),記下該黑點(diǎn)的縱坐標(biāo)yi;3)跳出對(duì)第i行的掃描,依次掃描第i+1,i+2,i+3,…,20行,記下首次掃描到黑點(diǎn)的縱坐標(biāo)y2,y3,y4,…,y21-i;4)比較y2,y3,y4,…,y21-i,若滿(mǎn)足yj+1≤yj≤yj+1+1∪yj+2≤yj≤yj+2+2,j∈{1,2,3,…,20-i},則這些點(diǎn)構(gòu)成一撇筆劃,撇筆劃數(shù)量+1,若滿(mǎn)足yj≤yj+1≤yj+1∪yj≤yj+2≤yj+2,j∈{1,2,3,…,20-i},則這些點(diǎn)構(gòu)成一捺筆劃,捺筆劃數(shù)量+1;5)刪除已提取的撇、捺筆劃,重復(fù)第2)~4)步;6)掃描結(jié)束后,記下撇、捺筆劃數(shù)。
3.3特征點(diǎn)的提取
漢字筆劃特征點(diǎn)主要有端點(diǎn)、折點(diǎn)、歧點(diǎn)、交點(diǎn)[9]。端點(diǎn)是筆劃的起點(diǎn)或終點(diǎn)(不與其他筆劃相接);折點(diǎn)是指筆劃方向出現(xiàn)顯著變化的點(diǎn);歧點(diǎn)是三叉點(diǎn),要求其中兩個(gè)筆端的分支方向相同;交點(diǎn)是四叉點(diǎn),且有兩對(duì)等的對(duì)頂角。自左向右、自上而下的對(duì)二值圖像進(jìn)行掃描,統(tǒng)計(jì)各筆劃特征點(diǎn)的個(gè)數(shù)。
3.4構(gòu)造分類(lèi)器
SVM方法的關(guān)鍵環(huán)節(jié)是選取參數(shù)(C,γ)[10]。本文通過(guò)網(wǎng)格化尋優(yōu)和交叉驗(yàn)證的方法得到訓(xùn)練集500×10(10個(gè)漢字各有500個(gè)樣本)的最優(yōu)參數(shù)為(1.76,0.02)。500×10訓(xùn)練集的最優(yōu)參數(shù)網(wǎng)格化尋優(yōu)如表1所示。
表1 500×10訓(xùn)練集的最優(yōu)參數(shù)網(wǎng)格化尋優(yōu)
實(shí)驗(yàn)使用的計(jì)算機(jī)平臺(tái)為三星R467筆記本,2.13 GHz CPU,4 GB RAM,Win7 32位操作系統(tǒng),軟件平臺(tái)為Visual Studio 2010。實(shí)驗(yàn)圖片來(lái)自于HCL2000脫機(jī)手寫(xiě)漢字庫(kù),使用開(kāi)源的LIBSVM軟件包作為SVM的開(kāi)發(fā)工具。
作者選取訓(xùn)練集500×10、測(cè)試集200×10的樣本進(jìn)行3組實(shí)驗(yàn),第一組采用多特征模板匹配法,第二組采用網(wǎng)格特征SVM法,第三組采用多特征SVM法。3組實(shí)驗(yàn)的結(jié)果如表2~表4所示。由實(shí)驗(yàn)結(jié)果可知,多特征模板匹配法的平均識(shí)別率為81.1%,網(wǎng)格特征SVM法的平均識(shí)別率為89.1%,多特征SVM法的平均識(shí)別率為95.1%,相比于傳統(tǒng)的模板匹配法,多特征SVM法的識(shí)別率得到顯著提高,從而驗(yàn)證了該方法的有效性。
圖2 用于實(shí)驗(yàn)的10個(gè)漢字
真實(shí)值識(shí)別值千山鳥(niǎo)飛絕萬(wàn)徑人蹤滅識(shí)別率/%平均識(shí)別率/%千16623415510138381.1山81573337392578.5鳥(niǎo)53160655364380飛106315407390877絕007117216011286萬(wàn)873120153180876.5徑117311016805484人103580711610580.5蹤10509041175587.5滅837315611015678
表3 網(wǎng)格特征SVM法
表4 多特征SVM法
文中提出的基于SVM的多特征手寫(xiě)體漢字識(shí)別技術(shù),為提高漢字的識(shí)別率,提取了較為全面的字符特征,但提取更多的字符特征意味著算法更為復(fù)雜,這樣將影響程序的執(zhí)行效率,降低了識(shí)別速度。因此在今后的研究中,還需繼續(xù)努力改進(jìn)方法,進(jìn)一步提高系統(tǒng)的識(shí)別速度,使其兼?zhèn)漭^高的識(shí)別率和較快的識(shí)別速度,這樣才能更好地替代人工錄入。
[1]姜宇,張子潮,周富強(qiáng).基于OpenCV的車(chē)牌識(shí)別系統(tǒng)研究[J].遼寧師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(2):170-174.
[2]Gary Bradski,Adrian Kaehler.學(xué)習(xí)OpenCV:中文版 [M].于仕琪,劉瑞禎,譯.北京:清華大學(xué)出版社,2009.
[3]汪芳,康慕寧,李先國(guó).印刷體漢字識(shí)別技術(shù)[J].情報(bào)雜志,2004(2):32-33.
[4]王建平,錢(qián)自拓,王金玲,等.基于數(shù)學(xué)形態(tài)學(xué)的圖像漢字筆劃細(xì)化和提取[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2005,28(11):1431-1435.
[5]陳勝勇,劉盛.基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)[M].北京:科學(xué)出版社,2008.
[6]劉聚寧.印刷體漢字識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D].大連:大連理工大學(xué),2011.
[7]王曉雪.基于字型特征的脫機(jī)手寫(xiě)體漢字多分類(lèi)識(shí)別的研究[D].合肥:合肥工業(yè)大學(xué),2008.
[8]藺菲.手寫(xiě)體漢字識(shí)別的研究[D].合肥:合肥工業(yè)大學(xué),2006.
[9]高彥宇,楊揚(yáng).脫機(jī)手寫(xiě)體漢字識(shí)別研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2004(7):74-77.
[10] 尹芳,王衛(wèi)兵,陳德運(yùn).印刷體英文文檔識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].哈爾濱理工大學(xué)學(xué)報(bào),2009,13(6):9-12.
The Technology of Multiple Features Handwritten Chinese Character Recognition Based on SVM
ZHOU Qingshu,CHEN Jinjie,JI Pengfei
(School of Mechanical Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)
To solve the recognition rate of traditional template matching method is not high for Chinese character, a new method of multiple featureshandwritten Chinese character recognition based on SVM is proposed. In addition to the extraction grid features, also extract the centroid feature, stroke feature, feature point, and use SVM algorithmconstructclassifierto achieve the recognition of handwritten Chinese characters. Experimental results show that the average recognition rate of the proposed method is 95.9% higher than that of the traditional template matching method.
SVM; grid feature; centroid feature; stroke feature; feature point
10.16180/j.cnki.issn1007-7820.2016.08.040
2015-11-20
周慶曙(1992-),男,碩士研究生。研究方向:機(jī)器學(xué)習(xí)。
TP391
A
1007-7820(2016)08-136-04