基于多尺度卷積核特征提取算法的手寫數(shù)字識別研究

2019-11-11 07:36陳德強(qiáng)

韶關(guān)學(xué)院學(xué)報(bào) 2019年9期

陳德強(qiáng)，潘峰，李偉

（貴州民族大學(xué) 數(shù)據(jù)科學(xué)與信息工程學(xué)院，貴州貴陽550025）

字符識別最早可追溯到1929年德國科學(xué)家Dausheck提出光學(xué)字符識別的概念而得了專利權(quán)［1］.1933年美國科學(xué)家Handel也獲得了字符識別相關(guān)專利權(quán)［2］.在1945年出現(xiàn)了首個(gè)字符識別工具［3］.在這一時(shí)期技術(shù)還不夠成熟，主要是對單個(gè)獨(dú)立的規(guī)范手寫字符或印刷體標(biāo)準(zhǔn)字符采用模板匹配的方法進(jìn)行識別.到20世紀(jì)60年代初，第一代商用OCR［4］系統(tǒng)已開始出現(xiàn)，涌現(xiàn)了一些能對部分字型的字符進(jìn)行識別的字符識別系統(tǒng).到20世紀(jì)80年代初，我國開始對手寫漢字識別技術(shù)進(jìn)行研究［5］.手寫字符識別技術(shù)［6-8］經(jīng)過近半個(gè)世紀(jì)的漫長發(fā)展后，隨著計(jì)算機(jī)的誕生與迅速發(fā)展，圖像處理技術(shù)與模式識別技術(shù)得到了有效的結(jié)合，并設(shè)計(jì)出了高精準(zhǔn)的字符識別算法，與此同時(shí)也不斷涌現(xiàn)字符識別軟件產(chǎn)品.手寫數(shù)字識別也在此時(shí)出現(xiàn)，并在多種行業(yè)中得到了應(yīng)用，也是當(dāng)前模式識別領(lǐng)域的重要研究熱點(diǎn).面對各種來自不同行業(yè)和不同需求的手寫字體，其自由而隨意的字體識別是一件具有挑戰(zhàn)的課題，手寫數(shù)字的多變性和書寫的不確定性表明使用傳統(tǒng)識別方法的困難.機(jī)器學(xué)習(xí)是處理大數(shù)據(jù)的重要技術(shù)，在手寫體識別方面有許多成熟、有效的算法.特征的選擇與提取是手寫數(shù)字識別的首要工作，它對分類器的識別效率至關(guān)重要.

1 樣本預(yù)處理

圖像數(shù)字字符由于筆畫粗細(xì)、字符大小不統(tǒng)一，圖像背景中存在雜質(zhì)、以及噪聲等等與數(shù)字字符無關(guān)的信息，都會對圖像數(shù)字字符識別影響極大，為了提高圖像數(shù)字字符識別率，首先要對樣本集進(jìn)行數(shù)據(jù)預(yù)處理，去掉無用信息，提高真實(shí)有用數(shù)據(jù)的純度，增強(qiáng)有效數(shù)據(jù)的可檢測性，簡化圖像數(shù)字字符數(shù)據(jù)，從而達(dá)到提高字符識別的魯棒性和可靠性.

預(yù)處理中簡化圖像數(shù)字字符數(shù)據(jù)可以采取將彩色圖片轉(zhuǎn)換為灰度圖，將所有樣本圖片轉(zhuǎn)換為二值圖［6］.圖片灰度化方法有分量法、平均值法、最大值法、加權(quán)平均法等，各個(gè)灰度化方法的公式分別如下：

其中式（1）中 Gray（i，j）為轉(zhuǎn)換后的灰度圖像在（i，j）處的灰度值.R（i，j）、G（i，j）、B（i，j）分別是 RGB 彩色圖像中3通道紅、綠、藍(lán)3原色在（i，j）處的值；式（4）根據(jù)人眼對不同顏色的敏感程度和其它指標(biāo)及測試效果，調(diào)整3個(gè)分量權(quán)值，進(jìn)行加權(quán)平均得到比較理想的灰度圖.

圖像清除噪聲影響的方法通常有低通濾波法、平滑濾波法、中值濾波法、微分濾波法、鄰域平均法、小波變換等等，通過這些方法可以達(dá)到清除或減小噪聲的干擾影響；使用閾值分割法可清除圖像雜質(zhì)干擾識別.

圖像尺寸調(diào)整有很多方法，如雙線性內(nèi)插法、雙立方插值法（Bicubic interpolation）、最近鄰插值法、像素關(guān)系重采樣法等.雙立方插值能得到最精確、效果最好的插補(bǔ)圖形，是一種比雙線性內(nèi)插更為復(fù)雜的插值方法，通過此方法得到的圖像邊緣比雙線性插值更加平滑，計(jì)算式為：

圖像細(xì)化方法很多，較實(shí)用且使用最多的為Zhang提出的并行快速細(xì)化算法［2］，見圖1.設(shè)P1是一個(gè)像素點(diǎn)，在二值圖中為1，表示圖片中一個(gè)白點(diǎn)，P2～P9為其鄰域點(diǎn).鄰域滿足下列步驟一或步驟二中所有條件時(shí)，表明該點(diǎn)屬于圖片的邊界點(diǎn)，可以刪除，即置為0.

圖1 像素點(diǎn)P1及鄰域圖

圖2 細(xì)化算法效果

步驟一條件：

（1）2≤N（P1），其中 N（P1）是指 P1 點(diǎn)的非零鄰點(diǎn)的個(gè)數(shù)；（2）A（P1）變換，A（P1）是 P1 鄰域點(diǎn)的值按照P2～P9 的順序由 1 變?yōu)?0 的次數(shù)；（3）P2×P4×P6；（4）P2×P6×P8.

步驟二條件的前兩個(gè)條件同步驟一相同，條件（3）為，條件（4）為.重復(fù)以上兩個(gè)步驟，按照圖像像素粗細(xì)度決定迭代次數(shù)，達(dá)到細(xì)化效果.圖2為數(shù)字5通過細(xì)化算法后的效果圖.

2 樣本特征的提取與選擇

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是仿造動(dòng)物的視覺神經(jīng)機(jī)制，具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，因具有共享權(quán)值、稀疏連接、降采樣、局部感知域等特點(diǎn)，非常適用于圖像處理，對圖像的放縮、旋轉(zhuǎn)、平移等處理適用性很強(qiáng)［9］.增加多尺度卷積核的CNN提取圖像多尺度特征信息，可以減小過擬合現(xiàn)象，進(jìn)一步提高分類精度，又由權(quán)值共享，網(wǎng)絡(luò)的訓(xùn)練難度可得到很大程度的降低，且不影響學(xué)習(xí)能力，這就能在保證分類精度的情況下保證系統(tǒng)的運(yùn)行效率［10］.

筆者樣本特征的提取與選擇使用多種不同尺度的卷積核即權(quán)值矩陣，得到若干組不同尺度的特征數(shù)據(jù)文件，將所有特征數(shù)據(jù)文件進(jìn)行歸一化處理.使用MATLAB提取訓(xùn)練集樣本和測試集特征，多尺度卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖3.

圖3中輸入的手寫數(shù)字5為經(jīng)過預(yù)處理后的圖形，通過構(gòu)建7×7、5×5和3×3三個(gè)尺度卷積核提取輸入樣本的多尺度特征信息，即卷積處理，使用16種不同權(quán)值分別進(jìn)行特征映射，得到卷積層C1層中的3組特征圖.卷積層C1經(jīng)過BatchNormalization（批歸一化BN）算法處理，可提高CNN擬合能力和收斂速度.

對融合后的14×14特征圖經(jīng)過5×5卷積后得到10×10個(gè)不同位置，即得到C3的10×10特征圖，對C3按照感知域?yàn)?×2的降采樣操作，可分割為5×5個(gè)小矩形，對每個(gè)包含四個(gè)像素的矩形求均值并分配一個(gè)權(quán)值，即得到池化層S4，池化后的圖像是原圖像的四分之一，達(dá)到降維目的，由C3中一個(gè)特征圖對應(yīng)一個(gè)權(quán)值，故S4中也應(yīng)是48個(gè)降采樣圖.S4再經(jīng)過5×5卷積后每一個(gè)特征圖就變?yōu)橐粋€(gè)點(diǎn)，C5就是由48個(gè)這樣的點(diǎn)組合而成.最后通過歸一化指數(shù)函數(shù)（SoftMax函數(shù)）處理后輸出.

圖3 多尺度卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

3 測試環(huán)境的設(shè)計(jì)及實(shí)驗(yàn)結(jié)果

K近鄰算法（KNN，K-nearest neighbor algorithm）是一種數(shù)據(jù)挖掘分類技術(shù)，一種無需訓(xùn)練時(shí)間、非參數(shù)、又高效簡單的算法，一種適用處理分類和回歸任務(wù)的方法，在模式識別的各個(gè)領(lǐng)域中應(yīng)用較廣［11］.KNN基本原理是：在特征空間中尋找k個(gè)與測試樣本距離最小的訓(xùn)練樣本，這k個(gè)訓(xùn)練樣本多數(shù)屬于某個(gè)類，則該測試樣本就分于此類中.即把這個(gè)測試樣本用它最接近的k個(gè)鄰居中數(shù)量優(yōu)勢的類來代表.

設(shè)計(jì)構(gòu)建KNN分類器，使用Java語言編寫KNN分類器程序，利用重載方法設(shè)計(jì)多個(gè)特征選擇不同的方法，測試分類效果［12-14］.并設(shè)計(jì)隨機(jī)子特征選擇算法、統(tǒng)計(jì)特征權(quán)重優(yōu)先選擇算法以及多個(gè)分類器集成方法測試分類效果，通過不斷演化比較，將分類精度高的特征選擇和特征提取算法作為最終結(jié)果.

實(shí)驗(yàn)測試數(shù)據(jù)集采用Mnist手寫數(shù)字圖像數(shù)據(jù)庫，數(shù)據(jù)集包含測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集兩部分，其中測試集手寫數(shù)字圖像樣本10 000個(gè)，訓(xùn)練集手寫數(shù)字圖像樣本60 000個(gè)，樣本圖像數(shù)字包括縮放、旋轉(zhuǎn)、扭曲、剪裁等變化，測試數(shù)據(jù)種類多、數(shù)量大、較齊全能夠真實(shí)地反應(yīng)測試結(jié)果.

訓(xùn)練過程：每一個(gè)訓(xùn)練樣本為一幅28×28像素的圖片，按照各設(shè)計(jì)環(huán)節(jié)要求設(shè)定相關(guān)參數(shù)（詳見前1、2節(jié)內(nèi)容介紹）并編寫處理程序；運(yùn)行程序生成數(shù)字0到9訓(xùn)練樣本；運(yùn)行歸一化處理程序生成數(shù)字0到9的歸一化處理后的訓(xùn)練樣本；把10類歸一化處理后的訓(xùn)練樣本數(shù)據(jù)文件合并為1個(gè)訓(xùn)練集文件allTr400.txt.

測試過程：同訓(xùn)練過程一樣編寫好相關(guān)環(huán)節(jié)的程序，即MATLAB和Java處理、識別程序；運(yùn)行程序生成數(shù)字0到9測試樣本；運(yùn)行歸一化處理程序生成數(shù)字0到9的歸一化處理后的測試樣本，數(shù)據(jù)文件為steSet400_j.txt，j=0、1…9；運(yùn)行識別程序MainKNN0803.java文件，K值分別取1、3、5時(shí)的各類實(shí)驗(yàn)測試結(jié)果見圖4.對10類樣本在K值為1、3、5的識別實(shí)驗(yàn)測試情況統(tǒng)計(jì)，統(tǒng)計(jì)情況見表1.

從圖4實(shí)驗(yàn)測試結(jié)果可知，該算法實(shí)驗(yàn)的運(yùn)行處理時(shí)間為25～32 s間（運(yùn)行環(huán)境為i3-7130U處理器筆記本電腦）；從表1的實(shí)驗(yàn)測試情況統(tǒng)計(jì)表可知該算法實(shí)驗(yàn)的識別準(zhǔn)確率都較高，最高可達(dá)99.74%，當(dāng)選取最佳K值時(shí)最低識別準(zhǔn)確率也有94.02%.與傳統(tǒng)算法比較，運(yùn)行處理時(shí)間有所縮短，且準(zhǔn)確識別率提高了1～3個(gè)百分點(diǎn).

圖4 實(shí)驗(yàn)測試結(jié)果圖

表1 實(shí)驗(yàn)測試情況

4 結(jié)語

研究在于為圖像分類、識別提供一種通用的解決方案，同時(shí)為手寫數(shù)字識別提供一種高效的、切實(shí)可行的并行計(jì)算模型，使用簡單MATLAB、Java語言程序工具而無需復(fù)雜的計(jì)算環(huán)境，通過Mnist手寫數(shù)字圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，測試得到的數(shù)字圖像識別效果較好.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多尺度卷積核特征提取算法的手寫數(shù)字識別研究

1 樣本預(yù)處理

2 樣本特征的提取與選擇

3 測試環(huán)境的設(shè)計(jì)及實(shí)驗(yàn)結(jié)果

4 結(jié)語