陳德強(qiáng),潘 峰,李 偉
(貴州民族大學(xué) 數(shù)據(jù)科學(xué)與信息工程學(xué)院,貴州 貴陽550025)
字符識別最早可追溯到1929年德國科學(xué)家Dausheck提出光學(xué)字符識別的概念而得了專利權(quán)[1].1933年美國科學(xué)家Handel也獲得了字符識別相關(guān)專利權(quán)[2].在1945年出現(xiàn)了首個(gè)字符識別工具[3].在這一時(shí)期技術(shù)還不夠成熟,主要是對單個(gè)獨(dú)立的規(guī)范手寫字符或印刷體標(biāo)準(zhǔn)字符采用模板匹配的方法進(jìn)行識別.到20世紀(jì)60年代初,第一代商用OCR[4]系統(tǒng)已開始出現(xiàn),涌現(xiàn)了一些能對部分字型的字符進(jìn)行識別的字符識別系統(tǒng).到20世紀(jì)80年代初,我國開始對手寫漢字識別技術(shù)進(jìn)行研究[5].手寫字符識別技術(shù)[6-8]經(jīng)過近半個(gè)世紀(jì)的漫長發(fā)展后,隨著計(jì)算機(jī)的誕生與迅速發(fā)展,圖像處理技術(shù)與模式識別技術(shù)得到了有效的結(jié)合,并設(shè)計(jì)出了高精準(zhǔn)的字符識別算法,與此同時(shí)也不斷涌現(xiàn)字符識別軟件產(chǎn)品.手寫數(shù)字識別也在此時(shí)出現(xiàn),并在多種行業(yè)中得到了應(yīng)用,也是當(dāng)前模式識別領(lǐng)域的重要研究熱點(diǎn).面對各種來自不同行業(yè)和不同需求的手寫字體,其自由而隨意的字體識別是一件具有挑戰(zhàn)的課題,手寫數(shù)字的多變性和書寫的不確定性表明使用傳統(tǒng)識別方法的困難.機(jī)器學(xué)習(xí)是處理大數(shù)據(jù)的重要技術(shù),在手寫體識別方面有許多成熟、有效的算法.特征的選擇與提取是手寫數(shù)字識別的首要工作,它對分類器的識別效率至關(guān)重要.
圖像數(shù)字字符由于筆畫粗細(xì)、字符大小不統(tǒng)一,圖像背景中存在雜質(zhì)、以及噪聲等等與數(shù)字字符無關(guān)的信息,都會對圖像數(shù)字字符識別影響極大,為了提高圖像數(shù)字字符識別率,首先要對樣本集進(jìn)行數(shù)據(jù)預(yù)處理,去掉無用信息,提高真實(shí)有用數(shù)據(jù)的純度,增強(qiáng)有效數(shù)據(jù)的可檢測性,簡化圖像數(shù)字字符數(shù)據(jù),從而達(dá)到提高字符識別的魯棒性和可靠性.
預(yù)處理中簡化圖像數(shù)字字符數(shù)據(jù)可以采取將彩色圖片轉(zhuǎn)換為灰度圖,將所有樣本圖片轉(zhuǎn)換為二值圖[6].圖片灰度化方法有分量法、平均值法、最大值法、加權(quán)平均法等,各個(gè)灰度化方法的公式分別如下:
其中式(1)中 Gray(i,j)為轉(zhuǎn)換后的灰度圖像在(i,j)處的灰度值.R(i,j)、G(i,j)、B(i,j)分別是 RGB 彩色圖像中3通道紅、綠、藍(lán)3原色在(i,j)處的值;式(4)根據(jù)人眼對不同顏色的敏感程度和其它指標(biāo)及測試效果,調(diào)整3個(gè)分量權(quán)值,進(jìn)行加權(quán)平均得到比較理想的灰度圖.
圖像清除噪聲影響的方法通常有低通濾波法、平滑濾波法、中值濾波法、微分濾波法、鄰域平均法、小波變換等等,通過這些方法可以達(dá)到清除或減小噪聲的干擾影響;使用閾值分割法可清除圖像雜質(zhì)干擾識別.
圖像尺寸調(diào)整有很多方法,如雙線性內(nèi)插法、雙立方插值法(Bicubic interpolation)、最近鄰插值法、像素關(guān)系重采樣法等.雙立方插值能得到最精確、效果最好的插補(bǔ)圖形,是一種比雙線性內(nèi)插更為復(fù)雜的插值方法,通過此方法得到的圖像邊緣比雙線性插值更加平滑,計(jì)算式為:
圖像細(xì)化方法很多,較實(shí)用且使用最多的為Zhang提出的并行快速細(xì)化算法[2],見圖1.設(shè)P1是一個(gè)像素點(diǎn),在二值圖中為1,表示圖片中一個(gè)白點(diǎn),P2~P9為其鄰域點(diǎn).鄰域滿足下列步驟一或步驟二中所有條件時(shí),表明該點(diǎn)屬于圖片的邊界點(diǎn),可以刪除,即置為0.
圖1 像素點(diǎn)P1及鄰域圖
圖2 細(xì)化算法效果
步驟一條件:
(1)2≤N(P1),其中 N(P1)是指 P1 點(diǎn)的非零鄰點(diǎn)的個(gè)數(shù);(2)A(P1)變換,A(P1)是 P1 鄰域點(diǎn)的值按照P2~P9 的順序由 1 變?yōu)?0 的次數(shù);(3)P2×P4×P6;(4)P2×P6×P8.
步驟二條件的前兩個(gè)條件同步驟一相同,條件(3)為,條件(4)為.重復(fù)以上兩個(gè)步驟,按照圖像像素粗細(xì)度決定迭代次數(shù),達(dá)到細(xì)化效果.圖2為數(shù)字5通過細(xì)化算法后的效果圖.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是仿造動(dòng)物的視覺神經(jīng)機(jī)制,具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),因具有共享權(quán)值、稀疏連接、降采樣、局部感知域等特點(diǎn),非常適用于圖像處理,對圖像的放縮、旋轉(zhuǎn)、平移等處理適用性很強(qiáng)[9].增加多尺度卷積核的CNN提取圖像多尺度特征信息,可以減小過擬合現(xiàn)象,進(jìn)一步提高分類精度,又由權(quán)值共享,網(wǎng)絡(luò)的訓(xùn)練難度可得到很大程度的降低,且不影響學(xué)習(xí)能力,這就能在保證分類精度的情況下保證系統(tǒng)的運(yùn)行效率[10].
筆者樣本特征的提取與選擇使用多種不同尺度的卷積核即權(quán)值矩陣,得到若干組不同尺度的特征數(shù)據(jù)文件,將所有特征數(shù)據(jù)文件進(jìn)行歸一化處理.使用MATLAB提取訓(xùn)練集樣本和測試集特征,多尺度卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖3.
圖3中輸入的手寫數(shù)字5為經(jīng)過預(yù)處理后的圖形,通過構(gòu)建7×7、5×5和3×3三個(gè)尺度卷積核提取輸入樣本的多尺度特征信息,即卷積處理,使用16種不同權(quán)值分別進(jìn)行特征映射,得到卷積層C1層中的3組特征圖.卷積層C1經(jīng)過BatchNormalization(批歸一化BN)算法處理,可提高CNN擬合能力和收斂速度.
對融合后的14×14特征圖經(jīng)過5×5卷積后得到10×10個(gè)不同位置,即得到C3的10×10特征圖,對C3按照感知域?yàn)?×2的降采樣操作,可分割為5×5個(gè)小矩形,對每個(gè)包含四個(gè)像素的矩形求均值并分配一個(gè)權(quán)值,即得到池化層S4,池化后的圖像是原圖像的四分之一,達(dá)到降維目的,由C3中一個(gè)特征圖對應(yīng)一個(gè)權(quán)值,故S4中也應(yīng)是48個(gè)降采樣圖.S4再經(jīng)過5×5卷積后每一個(gè)特征圖就變?yōu)橐粋€(gè)點(diǎn),C5就是由48個(gè)這樣的點(diǎn)組合而成.最后通過歸一化指數(shù)函數(shù)(SoftMax函數(shù))處理后輸出.
圖3 多尺度卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
K近鄰算法(KNN,K-nearest neighbor algorithm)是一種數(shù)據(jù)挖掘分類技術(shù),一種無需訓(xùn)練時(shí)間、非參數(shù)、又高效簡單的算法,一種適用處理分類和回歸任務(wù)的方法,在模式識別的各個(gè)領(lǐng)域中應(yīng)用較廣[11].KNN基本原理是:在特征空間中尋找k個(gè)與測試樣本距離最小的訓(xùn)練樣本,這k個(gè)訓(xùn)練樣本多數(shù)屬于某個(gè)類,則該測試樣本就分于此類中.即把這個(gè)測試樣本用它最接近的k個(gè)鄰居中數(shù)量優(yōu)勢的類來代表.
設(shè)計(jì)構(gòu)建KNN分類器,使用Java語言編寫KNN分類器程序,利用重載方法設(shè)計(jì)多個(gè)特征選擇不同的方法,測試分類效果[12-14].并設(shè)計(jì)隨機(jī)子特征選擇算法、統(tǒng)計(jì)特征權(quán)重優(yōu)先選擇算法以及多個(gè)分類器集成方法測試分類效果,通過不斷演化比較,將分類精度高的特征選擇和特征提取算法作為最終結(jié)果.
實(shí)驗(yàn)測試數(shù)據(jù)集采用Mnist手寫數(shù)字圖像數(shù)據(jù)庫,數(shù)據(jù)集包含測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集兩部分,其中測試集手寫數(shù)字圖像樣本10 000個(gè),訓(xùn)練集手寫數(shù)字圖像樣本60 000個(gè),樣本圖像數(shù)字包括縮放、旋轉(zhuǎn)、扭曲、剪裁等變化,測試數(shù)據(jù)種類多、數(shù)量大、較齊全能夠真實(shí)地反應(yīng)測試結(jié)果.
訓(xùn)練過程:每一個(gè)訓(xùn)練樣本為一幅28×28像素的圖片,按照各設(shè)計(jì)環(huán)節(jié)要求設(shè)定相關(guān)參數(shù)(詳見前1、2節(jié)內(nèi)容介紹)并編寫處理程序;運(yùn)行程序生成數(shù)字0到9訓(xùn)練樣本;運(yùn)行歸一化處理程序生成數(shù)字0到9的歸一化處理后的訓(xùn)練樣本;把10類歸一化處理后的訓(xùn)練樣本數(shù)據(jù)文件合并為1個(gè)訓(xùn)練集文件allTr400.txt.
測試過程:同訓(xùn)練過程一樣編寫好相關(guān)環(huán)節(jié)的程序,即MATLAB和Java處理、識別程序;運(yùn)行程序生成數(shù)字0到9測試樣本;運(yùn)行歸一化處理程序生成數(shù)字0到9的歸一化處理后的測試樣本,數(shù)據(jù)文件為steSet400_j.txt,j=0、1…9;運(yùn)行識別程序MainKNN0803.java文件,K值分別取1、3、5時(shí)的各類實(shí)驗(yàn)測試結(jié)果見圖4.對10類樣本在K值為1、3、5的識別實(shí)驗(yàn)測試情況統(tǒng)計(jì),統(tǒng)計(jì)情況見表1.
從圖4實(shí)驗(yàn)測試結(jié)果可知,該算法實(shí)驗(yàn)的運(yùn)行處理時(shí)間為25~32 s間(運(yùn)行環(huán)境為i3-7130U處理器筆記本電腦);從表1的實(shí)驗(yàn)測試情況統(tǒng)計(jì)表可知該算法實(shí)驗(yàn)的識別準(zhǔn)確率都較高,最高可達(dá)99.74%,當(dāng)選取最佳K值時(shí)最低識別準(zhǔn)確率也有94.02%.與傳統(tǒng)算法比較,運(yùn)行處理時(shí)間有所縮短,且準(zhǔn)確識別率提高了1~3個(gè)百分點(diǎn).
圖4 實(shí)驗(yàn)測試結(jié)果圖
表1 實(shí)驗(yàn)測試情況
研究在于為圖像分類、識別提供一種通用的解決方案,同時(shí)為手寫數(shù)字識別提供一種高效的、切實(shí)可行的并行計(jì)算模型,使用簡單MATLAB、Java語言程序工具而無需復(fù)雜的計(jì)算環(huán)境,通過Mnist手寫數(shù)字圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),測試得到的數(shù)字圖像識別效果較好.