幸堅炬,李軍,謝贊福
(廣東技術(shù)師范學(xué)院計算機(jī)科學(xué)學(xué)院,廣州510665)
PNN在手寫體數(shù)字識別中的應(yīng)用
幸堅炬,李軍,謝贊福
(廣東技術(shù)師范學(xué)院計算機(jī)科學(xué)學(xué)院,廣州510665)
稅務(wù)、金融等經(jīng)濟(jì)領(lǐng)域的手寫體數(shù)字信息通過計算機(jī)進(jìn)行自動識別處理,可以節(jié)省人力、物力和財力,具有較高的實用價值。介紹概率神經(jīng)網(wǎng)絡(luò)的基本原理,并將概率神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫體數(shù)字識別中,在一定的訓(xùn)練樣本和網(wǎng)絡(luò)擴(kuò)散速度情況下,實現(xiàn)基于概率神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別。通過MATLAB對MNIST手寫體數(shù)據(jù)庫數(shù)據(jù)進(jìn)行仿真實驗驗證,結(jié)果表明概率神經(jīng)網(wǎng)絡(luò)在手寫體數(shù)字識別中能夠取得較高的識別率,使用的算法可行有效。
概率神經(jīng)網(wǎng)絡(luò);手寫體數(shù)字識別;貝葉斯決策理論;圖像識別
光學(xué)字符識別技術(shù)(Optical Character Recognition,OCR)中的手寫體數(shù)字識別技術(shù),其主要識別0-9共10個字符,分類的類別比光學(xué)字符識別少得多[1]。近年來,伴隨著計算機(jī)技術(shù)和模式識技術(shù)的不斷發(fā)展,手寫體數(shù)字識別在郵政編碼識別、財務(wù)金額識別、稅表識別、電子商務(wù)數(shù)字處理、甚至是學(xué)生成績單識別等方面得到了廣泛應(yīng)用[2]。盡管模式識別技術(shù)不斷發(fā)展,各種各樣的分類器不斷出現(xiàn),但目前依然沒有一種算法能夠達(dá)到完美的效果。
具有強(qiáng)大的自學(xué)能力、自適應(yīng)性、分類能力、容錯能力和快速識別等特點(diǎn)的人工神經(jīng)網(wǎng)絡(luò)備受人們的關(guān)注,并且在字符識別中得到了廣泛應(yīng)用[3]。本文將概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Networks,PNN)[4]應(yīng)用于手寫體數(shù)字識別中,并使用MNIST數(shù)據(jù)庫進(jìn)行了實驗驗證。實驗結(jié)果表明,基于概率神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別得到了較好的識別率。
D.F.Specht博士在1989年提出了一種概率神經(jīng)網(wǎng)絡(luò)。這種概率神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)簡單,算法設(shè)計比較容易,可以用線性的學(xué)習(xí)算法實現(xiàn)非線性學(xué)習(xí)算法的功能,廣泛應(yīng)用于模式分類的問題中[5]。
1.1貝葉斯分類器
概率神經(jīng)網(wǎng)絡(luò)以貝葉斯決策理論為基礎(chǔ)。貝葉斯分類器的基本原理就是根據(jù)某對象的先驗概率,在有先驗概率的情況下,根據(jù)貝葉斯的計算公式可以得到其后驗概率,即該對象屬于哪一類,最后選擇后驗概率最大的類作為該對象所屬的類[6-7]。
這里我們把問題簡化為兩個類別(A1和A2)問題,對于A1和A2它們的先驗概率分別為h1和h2,并且滿足h1+h2=1。在一個向量需要分類時,我們先計算向量的后驗概率,進(jìn)行分類的依據(jù)是哪個類別的后驗概率大就將向量分到其中。假定x為輸入向量,p(A1|x)為x發(fā)生情況下A1的后驗概率,我們根據(jù)貝葉斯公式可以得出A1的后驗概率為:
但是在實際應(yīng)用中會存在損失與風(fēng)險問題,有可能將應(yīng)該屬于A1的樣本錯誤的分到了A2中,或者是將A2中的樣本錯誤的分到了A1中,因此所造成的損失往往相差很大,因此需要對分類的規(guī)則進(jìn)行調(diào)整。
將向量指派到A1的動作我們假設(shè)為動作α1,輸入向量屬于A2時卻采取動作α1所造成的損失定義為λ,則執(zhí)行動作α1我們就把它叫做期望風(fēng)險,期望風(fēng)險用R表示。那么這時的判定規(guī)則就變成:當(dāng)類別A1的期望風(fēng)險大于A2的后驗概率時,將向量分類到類別A1中。調(diào)整后的規(guī)則變成:
1.2概率神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
概率神經(jīng)網(wǎng)絡(luò)[8-9]四層結(jié)構(gòu)分別為輸入層、隱含層、求和層和輸出層。第一層接收訓(xùn)練樣本的值,神經(jīng)元個數(shù)與向量的長度相等。第二層隱含層接收輸入層傳過來的數(shù)據(jù),神經(jīng)元的節(jié)點(diǎn)個數(shù)與訓(xùn)練樣本數(shù)相同,并且所有的節(jié)點(diǎn)都有一個中心點(diǎn)。在第三層求和層對同類別的隱含層的輸出做加權(quán)平均,一個神經(jīng)元與一個相應(yīng)的類別對應(yīng)。最后一層是輸出層,對閾值進(jìn)行判斷,把最大的后驗概率的神經(jīng)元輸出為1,其他的輸出為0。概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 PNN網(wǎng)絡(luò)的結(jié)構(gòu)
在實際應(yīng)用時,手寫體數(shù)字一般是以圖像的形式提供的。原始圖像通過輸入設(shè)備(如光電掃描儀、電子傳真機(jī)等)獲取圖像信息,獲得圖像后不能直接用于識別,需要進(jìn)行預(yù)處理、字符分割、特征提取、選擇分類器等過程后,才開始進(jìn)行手寫體數(shù)字識別[10]。如圖2手寫體數(shù)字識別的完整過程。
2.1圖像預(yù)處理
與大多數(shù)的圖像處理算法類似,數(shù)字識別的第一步是對圖像進(jìn)行預(yù)處理。由于不同的輸入設(shè)備掃描得到的數(shù)字圖像通常情況下質(zhì)量不同,往往包含了各種各樣的噪聲,為了防止對后期的識別過程造成干擾,首先需要對圖像進(jìn)行去噪、濾波等處理。此外,在數(shù)字識別中使用的是二值圖像。所以如果輸入的是灰度圖像,需要先對圖像進(jìn)行二值化的過程,再做預(yù)處理。如果輸入的是彩色圖像,則需要先進(jìn)行灰度化。
由于預(yù)處理是為了提高后期的識別率,所以在整個手寫體數(shù)字識別中,對圖像進(jìn)行預(yù)處理的重要性是不言而喻的。預(yù)處理的效果好,就可以提高手寫體數(shù)字的識別率和識別速度。反之,在后期的識別中將會出現(xiàn)許多的不良后果,如錯誤識別、拒絕識別等[11]。
本文沒有完成圖2中的完整流程,而是直接加載MNIST數(shù)據(jù)庫進(jìn)行實驗。
圖2 手寫體數(shù)字識別流程
2.2特征提取算法
特征提?。?2]在手寫體數(shù)字識別的過程中很重要,提取特征有很多不同的方法,它對分類效果產(chǎn)生很大的影響。提取特征好將可以提高識別率。常用的手寫體數(shù)字特征有:結(jié)構(gòu)特征和統(tǒng)計特征。結(jié)構(gòu)特征在相似字區(qū)分方面具有較高的識別率。雖然結(jié)構(gòu)特征反映了數(shù)字的幾何結(jié)構(gòu),體現(xiàn)了數(shù)字結(jié)構(gòu)的本質(zhì)特征,但是容易受到外在因素的干擾。統(tǒng)計特征以二值或者灰度值點(diǎn)陣圖為基礎(chǔ),經(jīng)過傅立葉描述子、小波變換等數(shù)學(xué)變換對數(shù)字圖像點(diǎn)陣進(jìn)行提取特征。
為了取得良好的識別效果,本文特征提取采取了結(jié)構(gòu)特征與統(tǒng)計特征相結(jié)合的方式,共抽取了14維特征。其中結(jié)構(gòu)特征8個,統(tǒng)計特征6個。構(gòu)成一個長度為14的特征向量,用該特征向量代表了每一幅數(shù)字圖像[13]。
2.3手寫體數(shù)字識別的實現(xiàn)
不同的分類器有不用的特點(diǎn)。樸素貝葉斯分類器是各分量統(tǒng)計獨(dú)立時的最佳分類器;支持向量機(jī)是性能優(yōu)異、發(fā)展很快的一種分類器;人工神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的并行性和自適應(yīng)能力,具有實現(xiàn)任意非線性映射的能力。本實驗采用概率神經(jīng)網(wǎng)絡(luò)作為分類器,具有分類準(zhǔn)確,速度快的優(yōu)點(diǎn)[14]。圖3為實驗中構(gòu)建的概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。
圖3 實驗中的概率神經(jīng)網(wǎng)絡(luò)圖
網(wǎng)絡(luò)輸入層神經(jīng)元節(jié)點(diǎn)數(shù)與輸出向量維度相同,包含了14個神經(jīng)元。由于使用的訓(xùn)練樣本個數(shù)是35000,所以在徑向基層中有35000個神經(jīng)元節(jié)點(diǎn)。第三層為隱含層,神經(jīng)元節(jié)點(diǎn)個數(shù)為分類的類別數(shù),因此等于10。分類類別決定了輸出層只包含一個神經(jīng)元。使用newpnn函數(shù)創(chuàng)建的網(wǎng)絡(luò),輸出的類別是以向量的形式給出,例如輸出類別是第四類,則向量的表示形式為[0,0,0,1,0,0,0,0,0,0]T。
概率神經(jīng)網(wǎng)絡(luò)有多少個訓(xùn)練樣本就有多少個徑向基神經(jīng)元。每一次輸入新的樣本的時候都需要求出它在這個神經(jīng)元所在樣本的概率。之后輸出到隱含層中。得到所對應(yīng)樣本的概率。最后根據(jù)最大的概率判斷輸出。
實驗中使用包含了60000個訓(xùn)練樣本和10000個測試樣本的MNIST數(shù)據(jù)庫[15]。從訓(xùn)練庫中抽取35000張樣本輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后對測試庫中的10000張樣本進(jìn)行測試實驗。在表1中我們可以發(fā)現(xiàn),在樣本數(shù)保持不變的情況下,不同網(wǎng)絡(luò)擴(kuò)散速度的識別效果也有所不同。
由表1可以看出,當(dāng)網(wǎng)絡(luò)擴(kuò)散速度選擇0.15時,識別率是最好的。在另外一組實驗中,當(dāng)網(wǎng)絡(luò)擴(kuò)散速度(0.15)確定時,輸入的樣本數(shù)比較少,訓(xùn)練效果不理想,識別率也不高。不斷地增加訓(xùn)練樣本的數(shù)量進(jìn)行不同的實驗,發(fā)現(xiàn)樣本的增加與識別率成正比,如表2所示。所以,建立強(qiáng)大的樣本庫在整個識別過程中的地位是不言而喻的。在實際運(yùn)用中采用更多的訓(xùn)練樣本,識別率將會更高。
表1 概率神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)擴(kuò)散速度不同時的識別結(jié)果
表2 概率神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本個數(shù)不同時的訓(xùn)練結(jié)果
本文在對概率神經(jīng)網(wǎng)絡(luò)進(jìn)行深入分析的基礎(chǔ)上,探索了概率神經(jīng)網(wǎng)絡(luò)用于手寫體數(shù)字識別的可行性和有效性。最后,通過MNIST手寫體數(shù)字庫進(jìn)行實驗,結(jié)果表明,基于概率神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別方法基本能夠?qū)崿F(xiàn)對手寫體數(shù)字的準(zhǔn)確、快速識別,并且具有良好的抗干擾能力。進(jìn)一步改進(jìn)已有算法,在樣本數(shù)一定時,可以獲得更高的識別率和更快的識別速度。
[1]楊淑瑩,等.圖像識別與項目實踐[M].北京:電子工業(yè)出版社,2015:70-80.
[2]Basu S,Das N,Sarkar R,et al.Recognition of Numeric Postal Codes from Multi-script Postal Address Blocks[C].InternationalConference on Pattern Recognition and Machine Intelligence.Springer-Verlag,2009:381-386.
[3]Impedovo S,Pirlo G,Modugno R,et al.Zoning Methods for Hand-Written Character Recognition:An Overview[C].International Conference on Frontiers in Handwriting Recognition.IEEE Computer Society,2010:329-334.
[4]葛哲學(xué),孫志強(qiáng).神經(jīng)網(wǎng)絡(luò)理論與MATLAB R2007實現(xiàn)[M].北京:電子工業(yè)出版社,2007.
[5]黃鋒.基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的圖像研究識別[D].山西:太原理工大學(xué),2007:54-59.
[6]孫萬錄.傾斜車牌定位與識別算法的研究[D].哈爾濱:哈爾濱理工大學(xué),2013:13-18.
[7]王華青.基于局部幾何保持的人臉圖像姿態(tài)估計[D].西安:西安電子科技大學(xué),2013:2-20.
[8]U.Guclu,Marcel A J,Van Gerven.Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations Across the Ventral Stream[J].Journal of Neuroscience the Official Journal of the Society for Neuroscience,2015,35(27):10005-10014.
[9]B.Zhou,A.Lapedriza,J.Xiao,A.Torralba,and A.Oliva.Learning Deep Features for Scene Recognition using Places Database.Advances in Neural Information Processing Systems 27(NIPS2014).
[10]李三平,岳振軍.基于概率神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別系統(tǒng)的MATLAB實現(xiàn)[J].軍事通訊技術(shù),2005,26(1):54-57.
[11]王亞坤,曾德良,李向菊.一種新穎的數(shù)字識別算法[J].電力科學(xué)與工程,2009,25(1):76-78.
[12]N.Das,S.Basu,R.Sarkar,M.Kundu,M.Nasipuri,D.kumar Basu.An Improved Feature Descriptor for Recognition of Handwritten Bangla Alphabet,”Jan,2015.
[13]蘇玉彬,潘保昌.基于神經(jīng)網(wǎng)絡(luò)的手寫體字符識別技術(shù)研究[D].廣州:汕頭大學(xué),2003.
[14]卜富清,王茂芝,于慶剛.基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)字識別[J].長江大學(xué)學(xué)報(自然科學(xué)版),2009,6(2):293-294.
[15]李瓊,陳利,王維虎.基于SVM的手寫體數(shù)字快速識別方法研究[J].計算機(jī)技術(shù)與發(fā)展,2014,24(2):205-208.
Application of PNN in Handwritten Digits Recognition
XING Jian-ju,LI Jun,XIE Zan-fu
(Institute of Computer Sciences,Guangdong Polytechnic Normal University,Guangzhou510665)
Handwritten numeral recognition deals with the information of taxation,finance and other fields through computer or other machines for processing,makes it possible to save manpower and financial resources,with higher practical value.Although the type of identification number is not much,the required accuracy is very strict.Introduces the basic principle of probabilistic neural network,applies probabilistic neural network to handwritten digit recognition to select the best network diffusion speed and the number of training samples,and realizes the digital identification based on probabilistic neural network.MNIST handwritten database through MATLAB simulation experiment,the results show that the algorithm has high recognition rate,which is feasible and effective.
Handwritten Digit Recognition;Probabilistic Neural Networks;Bayesian Decision Theory;Image Recognition
1007-1423(2016)23-0020-04DOI:10.3969/j.issn.1007-1423.2016.23.005
幸堅炬(1989-),男,廣東興寧人,研究生,研究方向為圖像識別
李軍(1964-),女,浙江臨海人,教授,碩士,研究方向為移動互聯(lián)網(wǎng)、圖像識別、人工智能等,Email:janet-li@163.com
謝贊福(1956-),男,海南儋州人,教授,本科,研究方向為圖像識別、人工智能
2016-05-10
2016-08-05
廣東省科技計劃工業(yè)高新技術(shù)領(lǐng)域攻關(guān)項目(No.2013B010401032)