宋昌統(tǒng),黃力明,王輝
基于概率神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體數(shù)字識(shí)別
宋昌統(tǒng),黃力明,王輝
隨著手寫(xiě)體數(shù)字識(shí)別技術(shù)的發(fā)展以及概率神經(jīng)網(wǎng)絡(luò)的應(yīng)用,基于概率神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體數(shù)字識(shí)別技術(shù),即PNN技術(shù),是手寫(xiě)體數(shù)字識(shí)別領(lǐng)域才剛剛開(kāi)始的一個(gè)研究方向。本文把概率神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用在數(shù)字識(shí)別系統(tǒng)中,在特征提取技術(shù)的基礎(chǔ)上,設(shè)計(jì)了特征提取算法,通過(guò)手寫(xiě)體數(shù)字識(shí)別流程,構(gòu)造了概率神經(jīng)網(wǎng)絡(luò)的分類(lèi)器。最后在數(shù)據(jù)輸入、特征提取、模型訓(xùn)練、測(cè)試等幾個(gè)部分,實(shí)現(xiàn)了手寫(xiě)體數(shù)字識(shí)別,獲得了令人滿(mǎn)意的正確度。
神經(jīng)網(wǎng)絡(luò);手寫(xiě)體數(shù)字識(shí)別;特征處理;預(yù)處理
光學(xué)字符識(shí)別(OCR)是一種模式識(shí)別技術(shù),它起源于20世紀(jì)20年代。光學(xué)字符識(shí)別后來(lái)發(fā)展成為圖像處理以及模式識(shí)別領(lǐng)域一個(gè)重要的組成部分。手寫(xiě)體數(shù)字屬于光學(xué)字符識(shí)別的范疇,但分類(lèi)的識(shí)別比光學(xué)字符識(shí)別少得多,主要只需識(shí)別0-9共10個(gè)字符。近年來(lái),隨著計(jì)算機(jī)技術(shù)和數(shù)字圖像處理技術(shù)的飛速發(fā)展,手寫(xiě)體數(shù)字識(shí)別在電子商務(wù)、機(jī)器自動(dòng)輸入等場(chǎng)合逐步獲得推廣。與其他字符的識(shí)別相比,手寫(xiě)體數(shù)字識(shí)別的研究較為成熟,盡管就目前來(lái)說(shuō),機(jī)器自動(dòng)識(shí)別的性能依然無(wú)法與人類(lèi)的識(shí)別性能相比,但在許多自動(dòng)錄入、識(shí)別領(lǐng)域已經(jīng)發(fā)揮了重要的作用。
手寫(xiě)體數(shù)字識(shí)別一直是字符識(shí)別中的一個(gè)研究熱點(diǎn)。數(shù)字識(shí)別可分為印刷體數(shù)字識(shí)別和手寫(xiě)體數(shù)字識(shí)別。由于不同的人往往擁有不同的手寫(xiě)筆跡,因此手寫(xiě)體的識(shí)別難度遠(yuǎn)高于印刷體數(shù)字識(shí)別。盡管手寫(xiě)體數(shù)字識(shí)別僅需要區(qū)分10個(gè)類(lèi)別,但由于其應(yīng)用領(lǐng)域往往對(duì)識(shí)別率和可靠性具有較高的要求,因此這個(gè)領(lǐng)域一直是研究熱點(diǎn)之一,處于不斷的發(fā)展過(guò)程中。典型的應(yīng)用領(lǐng)域有郵政編碼自動(dòng)識(shí)別系統(tǒng),稅表和銀行支票自動(dòng)處理系統(tǒng)等。對(duì)于與金融相關(guān)的手寫(xiě)數(shù)字自動(dòng)識(shí)別,如支票、發(fā)票中的金額填寫(xiě)部分,要求系統(tǒng)具有極高的識(shí)別準(zhǔn)確率。近年來(lái)隨著模式識(shí)別技術(shù)的發(fā)展,新的分類(lèi)器不斷提出,但依然沒(méi)有算法能夠達(dá)到完美的效果。支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)[1]等算法具有較強(qiáng)的非線性映射能力,在識(shí)別中往往能有較好的性能。識(shí)別時(shí),手寫(xiě)體數(shù)字一般是以圖像的形式提供的。原始圖像是通過(guò)光電掃描儀、電子傳真機(jī)等設(shè)備獲得的圖像信號(hào)。手寫(xiě)體數(shù)字識(shí)別的完整處理過(guò)程[2]如圖1所示:
圖1 手寫(xiě)數(shù)字識(shí)別流程
預(yù)處理階段。與大多數(shù)圖像處理算法類(lèi)似,數(shù)字識(shí)別的第一步是對(duì)圖像進(jìn)行預(yù)處理。由于獲得的原始圖像往往包含各種各樣的噪聲,為了防止造成干擾,第一步應(yīng)對(duì)圖像進(jìn)行去噪、濾波等處理。常見(jiàn)的噪聲有椒鹽噪聲、高斯噪聲等。此外,在數(shù)字識(shí)別中,使用的是二值圖像。因此,如果輸入的是灰度圖像,應(yīng)首先選取恰當(dāng)?shù)拈撝颠M(jìn)行二值化,如果輸入的是彩色圖像,則還需要先進(jìn)行灰度化。經(jīng)過(guò)預(yù)處理后的圖片不僅能夠有效濾除噪聲,并且能夠?qū)⒉煌拇笮?、傾斜角度的字符進(jìn)行歸一化到一個(gè)固定大小,對(duì)大量數(shù)據(jù)進(jìn)行壓縮處理。預(yù)處理是整個(gè)識(shí)別過(guò)程中非常重要的一個(gè)環(huán)節(jié),預(yù)處理進(jìn)行得好,可以得到更好的識(shí)別效果,精度更高,性能更好。
特征提取階段。由于原始的字符圖像中本身的數(shù)據(jù)量較大,而且冗余信息較多,一般情況下不進(jìn)行直接識(shí)別,即使進(jìn)行識(shí)別,識(shí)別的準(zhǔn)確率也會(huì)較低。一般的操作是進(jìn)行提取有效特征數(shù)據(jù),然后再進(jìn)行識(shí)別。隨后需要將整張圖像分割為單個(gè)數(shù)字圖像,這也是數(shù)字識(shí)別的難點(diǎn)之一。粘連的圖像、連筆、打印機(jī)的隨機(jī)墨點(diǎn)都有可能造成分割不正確,后續(xù)的正確識(shí)別也就無(wú)從談起了。
分類(lèi)識(shí)別階段。分類(lèi)識(shí)別是數(shù)字字符識(shí)別中非常關(guān)鍵的步驟。分類(lèi)識(shí)別過(guò)程是指分類(lèi)器根據(jù)上一步特征提取階段所提取的圖像的關(guān)鍵特征[3],將采集得到的待識(shí)別的字符輸入分類(lèi)器中,進(jìn)行最后的字符分類(lèi)識(shí)別的過(guò)程。得到了數(shù)字的單個(gè)圖像后還不能直接用于分類(lèi),圖像為二維信號(hào),使用全部圖像數(shù)據(jù)進(jìn)行直接分類(lèi)是不可取的,必須將其表示為一個(gè)低維的向量。
2.1 特征提取算法
特征提取的目標(biāo)是得出n個(gè)向量{x1,x2,x3,…,xn},用來(lái)表示原始圖像。該向量應(yīng)滿(mǎn)足以下條件[4]:
當(dāng)圖像類(lèi)似時(shí),得出的特征向量也比較類(lèi)似;當(dāng)圖像差距很大時(shí),得出的特征向量也有可觀的距離;即該特征向量必須能夠代表這一圖像模式。
向量的長(zhǎng)度n盡量小,盡量不包含對(duì)分類(lèi)來(lái)說(shuō)沒(méi)有作用的分量,以有效地進(jìn)行分類(lèi)并減小計(jì)算量。
特征提取的好壞會(huì)直接影響其識(shí)別的分類(lèi)效果,進(jìn)而影響識(shí)別率,因此特征選擇是模式識(shí)別的關(guān)鍵。在本例中,采取了結(jié)構(gòu)特征與統(tǒng)計(jì)特征相結(jié)合的方式,共抽取了14個(gè)特征。其中,結(jié)構(gòu)特征有8個(gè)。包括豎直中線交點(diǎn)數(shù)、豎直1/4處交點(diǎn)數(shù)、豎直3/4交點(diǎn)數(shù)、水平中線交點(diǎn)數(shù)、水平1/3處交點(diǎn)數(shù)、水平2/3處交點(diǎn)數(shù)及主對(duì)角線與次對(duì)角線交點(diǎn)數(shù)。其中,豎直1/4處交點(diǎn)數(shù)是指,在圖像寬的1/4處沿著豎直方向繪制一條直線,然后計(jì)算圖中等于1的像素與該直線的交點(diǎn)個(gè)數(shù)。數(shù)字8的結(jié)構(gòu)特征提取模式如圖2所示:
圖2 水平和垂直結(jié)構(gòu)特征圖3對(duì)角線結(jié)構(gòu)特征
統(tǒng)計(jì)圖2中每條直線與數(shù)字的交點(diǎn)個(gè)數(shù),可以得到6維結(jié)構(gòu)特征。此外,還要統(tǒng)計(jì)兩條對(duì)角線與數(shù)字的交點(diǎn),共計(jì)8維結(jié)構(gòu)特征向量。
2.2 構(gòu)造分類(lèi)器----概率神經(jīng)網(wǎng)絡(luò)
概率神經(jīng)網(wǎng)絡(luò)屬于徑向基神經(jīng)網(wǎng)絡(luò)的一種[5],特別適用于分類(lèi)問(wèn)題。在本次實(shí)驗(yàn)中,構(gòu)造的概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示:
圖4 概率神經(jīng)網(wǎng)絡(luò)
網(wǎng)絡(luò)的第一層為輸入層,神經(jīng)元節(jié)點(diǎn)數(shù)與輸入向量維數(shù)相同,因此包含14個(gè)神經(jīng)元。第二層為徑向基層,神經(jīng)元節(jié)點(diǎn)數(shù)等于樣本個(gè)數(shù)1000。第三層為隱含層,神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)為分類(lèi)的類(lèi)別數(shù),因此等于10。輸出層只包含一個(gè)神經(jīng)元,對(duì)應(yīng)分類(lèi)的類(lèi)別。在MATLAB的工具箱函數(shù)newpnn中,輸出的類(lèi)別是以向量的形式給出的。例如共有10個(gè)類(lèi)別,則第4類(lèi)的向量表示形式為[0,0,0,1,0,0,0,0,0,0]2。
概率神經(jīng)網(wǎng)絡(luò)的徑向基層采用了高斯函數(shù)作為傳遞函數(shù),每個(gè)徑向基層神經(jīng)元對(duì)應(yīng)一個(gè)訓(xùn)練樣本。輸入的新樣本與每個(gè)神經(jīng)元的計(jì)算,相當(dāng)于求出新樣本屬于該神經(jīng)元對(duì)應(yīng)樣本的概率。徑向基層中的同類(lèi)神經(jīng)元輸入到隱含層神經(jīng)元中,得出新樣本屬于某一類(lèi)別的概率。最終,網(wǎng)絡(luò)將概率值最大的那個(gè)類(lèi)別作為判定類(lèi)別輸出。
手寫(xiě)體數(shù)字放置在1000張64*64二值圖像中。通過(guò)將所有圖片數(shù)據(jù)讀入,做一個(gè)簡(jiǎn)單的中值濾波,然后對(duì)每一幅圖像提取特征向量,最后通過(guò)概率神經(jīng)網(wǎng)絡(luò)建模,對(duì)數(shù)據(jù)實(shí)現(xiàn)分類(lèi)。將訓(xùn)練數(shù)據(jù)本身輸入到網(wǎng)絡(luò)中,分類(lèi)正確率可達(dá)100%,表明該特征提取的方法所得的特征向量能有效地表示圖像,使得不同類(lèi)型的圖像能夠被區(qū)分出來(lái),不存在不同類(lèi)型數(shù)據(jù)樣本的交錯(cuò)重疊現(xiàn)象[6]。
計(jì)算流程包含數(shù)據(jù)輸入、特征提取、模型訓(xùn)練、測(cè)試等幾個(gè)部分。
(1)數(shù)據(jù)輸入。將1000張圖像放在dig_pic子目錄中,其中數(shù)字i的第j張圖像文件名為i_j.bmp,j為三位寬度的整數(shù)。在MATLAB中定義函數(shù)I=getPicData(),用于讀取dig_pic目錄中的所有圖像,并保存于I中,I為64*64*1000數(shù)組。輸入數(shù)據(jù)主要代碼如圖5所示:
圖5 數(shù)據(jù)輸入
(2)特征提取。進(jìn)行特征提取前進(jìn)行去噪處理。特征提取的函數(shù)為[Feature,bmp,flag]=getFeature(A),該函數(shù)接受一個(gè)64*64二值矩陣輸入,返回的Feature為長(zhǎng)度為14的特征向量,bmp為圖像中的數(shù)字部分,flag為表示寬高比的變量。具體內(nèi)容如圖6所示:
Handwritten Digit Recognition Based on Probabilistic Neural Network
Song Changtong, Huang Liming, Wang Hui
(Electron and Information Department , Zhenjiang College, Zhenjiang 212003, China)
With the development of digit recognition technology and neural network, handwritten digit recognition technology based on probabilistic neural network, namely, PNN technology, is just an inchoate research direction in the field of handwritten digit recognition. In this paper, the probabilistic neural network technology is applied in the digital identification system. Based on the technology of feature extraction, it designs the feature extraction algorithm. It constructs the probabilistic neural network classifier through handwritten numeral recognition process. Finally, it achieves the handwritten numeral recognition in the parts of data input, feature extraction, model training, testing and others, and it obtains a satisfactory degree of accuracy.
Neural network; Handwritten digit Recognition; Feature processing; Preprocess
TP393
A
1007-757X(2016)10-0014-02
江蘇省現(xiàn)代教育研究課題(2012R22170);鎮(zhèn)江高等專(zhuān)科學(xué)??蒲谢痦?xiàng)目(GZ2015SJ104)
宋昌統(tǒng)(1980-),男,連云港人,鎮(zhèn)江高等專(zhuān)科學(xué)院,碩士,講師,研究方向:語(yǔ)義Web、分布式虛擬現(xiàn)實(shí),鎮(zhèn)江 212003
黃力明(1956-),男,溧陽(yáng)人,鎮(zhèn)江高等專(zhuān)科學(xué)院,教授,研究方向:智能優(yōu)化算法,數(shù)字圖像處理等,鎮(zhèn)江 212003
王 輝(1980-),女,漢族,鎮(zhèn)江人,鎮(zhèn)江高等專(zhuān)科學(xué)院,碩士,講師,研究方向:控制系統(tǒng),數(shù)據(jù)挖掘,鎮(zhèn)江 212003