李斯凡,高法欽
(浙江理工大學(xué)信息學(xué)院, 杭州 310018)
?
基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別
李斯凡,高法欽
(浙江理工大學(xué)信息學(xué)院, 杭州 310018)
在LeNet-5模型的基礎(chǔ)上,改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)模型,對改進(jìn)后的模型及網(wǎng)絡(luò)訓(xùn)練過程進(jìn)行了介紹,推導(dǎo)了網(wǎng)絡(luò)模型訓(xùn)練過程中涉及到的前向和反向傳播算法。將改進(jìn)的模型在MNIST字符庫上進(jìn)行實驗,分析了卷積層不同濾波器數(shù)量、每批數(shù)量、網(wǎng)絡(luò)學(xué)習(xí)率等參數(shù)對最終識別性能的影響,并與傳統(tǒng)識別方法進(jìn)行對比分析。結(jié)果表明:改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)簡單,預(yù)處理工作量少,可擴(kuò)展性強(qiáng),識別速度快,具有較高的識別率,能有效防止網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,在識別性能上明顯優(yōu)于傳統(tǒng)方法。
卷積神經(jīng)網(wǎng)絡(luò);手寫數(shù)字;識別;LeNet-5
手寫數(shù)字識別是利用機(jī)器或計算機(jī)自動辨認(rèn)手寫體阿拉伯?dāng)?shù)字的一種技術(shù),是光學(xué)字符識別技術(shù)的一個分支[1]。該技術(shù)可以應(yīng)用到郵政編碼、財務(wù)報表、稅務(wù)系統(tǒng)數(shù)據(jù)統(tǒng)計、銀行票據(jù)等手寫數(shù)據(jù)自動識別錄入中。由于不同的人所寫的字跡都不相同,對大量的手寫體數(shù)字實現(xiàn)完全正確地識別不是一件簡單的事情。隨著全球信息化的飛速發(fā)展和對自動化程度要求的不斷提高,手寫體數(shù)字識別的應(yīng)用需求急迫[2],因此,研究一種準(zhǔn)確又高效的識別方法有著重要的意義。
傳統(tǒng)的識別方法如最近鄰算法[3]、支持向量機(jī)[4]、神經(jīng)網(wǎng)絡(luò)[5-7]等,對復(fù)雜分類問題的數(shù)學(xué)函數(shù)表示能力以及網(wǎng)絡(luò)的泛化能力有限,往往不能達(dá)到高識別精度的要求,隨著科技的發(fā)展和科學(xué)研究的不斷深入,卷積神經(jīng)網(wǎng)絡(luò)[8-10](convolutional neural networks,CNNs)的出現(xiàn)為解決這個問題提供了可能,它最初由美國學(xué)者Cun等[11]提出,是一種層與層之間局部連接的深度神經(jīng)網(wǎng)絡(luò)。作為深度學(xué)習(xí)中最成功的模型之一,其已成為當(dāng)前圖像識別領(lǐng)域的研究熱點。但研究發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)在識別訓(xùn)練過程中會出現(xiàn)過擬合現(xiàn)象。本文詳細(xì)介紹了基于LeNet-5進(jìn)行優(yōu)化改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型及其算法的實現(xiàn)過程,在算法的實現(xiàn)部分加入懲罰項,避免過擬合現(xiàn)象發(fā)生。在此基礎(chǔ)上,分析了不同網(wǎng)絡(luò)參數(shù)對識別的收斂速度和性能的影響。與傳統(tǒng)方法相比,本文的改進(jìn)模型減少了預(yù)處理工作量,同時還有效避免了人工提取特征的不足,提高了識別率和魯棒性。
卷積神經(jīng)網(wǎng)是一種主要用于二維數(shù)據(jù)處理的深度神經(jīng)網(wǎng)絡(luò)模型,它能夠?qū)W習(xí)大量輸入與輸出之間的映射關(guān)系。由卷積層和采樣層交替組成,每一層有多個特征圖,卷積層的每一個神經(jīng)元與上一層的一個局部區(qū)域相連,這種局部連接使網(wǎng)絡(luò)具有更少的參數(shù),有利于訓(xùn)練。通過卷積層的運(yùn)算,可以使原信號特征增強(qiáng)并且降低噪聲。通過采樣層降低特征圖的分辨率并抽樣出圖片的顯著特征,使模型具有抗噪能力,在保留圖像有用信息的同時又降低了特征的維度。
1.1 LeNet-5網(wǎng)絡(luò)模型
LeNet-5是典型的卷積神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)包含輸入一共有8層,除去輸入和輸出,中間的連接層C1到F6可看成是隱含層,輸入層由32×32個感知節(jié)點組成,接著是交替出現(xiàn)的卷積層和抽樣層,C1是第一個隱藏層也稱卷積層,進(jìn)行卷積運(yùn)算,S2層是采樣層,實現(xiàn)抽樣,C3作為第三隱藏層,進(jìn)行卷積操作,然后經(jīng)隱藏層S4進(jìn)行二次抽樣,其后是三個神經(jīng)元(節(jié)點)數(shù)分別為120、84、10的全連接層。LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
圖1 LeNet-5結(jié)構(gòu)
1.2 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計
對原始的LeNet-5模型進(jìn)行如下改進(jìn):在LeNet-5網(wǎng)絡(luò)中,激勵函數(shù)是雙曲正切函數(shù),現(xiàn)將sigmoid函數(shù)作為網(wǎng)絡(luò)的激勵函數(shù),使網(wǎng)絡(luò)各層的輸出均在[0,1]范圍內(nèi),并去掉C5層,直接將經(jīng)S4二次采樣的特征圖與F6以全連接的方式連接,同時改變各層神經(jīng)元的個數(shù)。具體模型結(jié)構(gòu)如圖2所示,對比改進(jìn)前后的模型可以看到,改進(jìn)后的網(wǎng)絡(luò)隱含層只有5層,模型神經(jīng)元數(shù)量減少了很多,具有更少的參數(shù),所以訓(xùn)練的時間也會大大的縮短,同時由于改進(jìn)后的網(wǎng)絡(luò)依舊是卷積層和采樣層交替出現(xiàn),所以改進(jìn)的網(wǎng)絡(luò)仍保留了圖像對位移、縮放和扭曲的不變性和良好魯棒性的優(yōu)點。
圖2 改進(jìn)的網(wǎng)絡(luò)模型結(jié)構(gòu)
模型結(jié)構(gòu)中,輸入層輸入規(guī)格為28×28的手寫數(shù)字圖片,接下來是交替出現(xiàn)的卷積和采樣層,C1層是第一個卷積層,該層有6個24×24的特征圖,這一層特征圖中的每個神經(jīng)元是輸入的圖像與一個5×5卷積核進(jìn)行卷積操作,然后經(jīng)過激活函數(shù)輸出形成的,在卷積時,同一特征映圖上的神經(jīng)元權(quán)值相同,網(wǎng)絡(luò)可以并行的學(xué)習(xí),卷積層的結(jié)果作為下一層(即S2層,也稱采樣層)的輸入,S2層特征圖中的每一個神經(jīng)節(jié)點與C1層中相應(yīng)的特征圖以2×2的區(qū)域相連,經(jīng)過采樣層后特征圖的個數(shù)不變,但輸出大小在兩個維度上都縮小2倍。C3是第2個卷積層,S4是第2個采樣層,其后連接的是單層感知器,將S4層的12個特征圖展開,最后是與S4層以全連接的方式相連得到輸出的輸出層,含有10個節(jié)點對應(yīng)10種輸出類別,整個CNN網(wǎng)絡(luò)模型一共有3966個參數(shù),與LeNet-5模型的60000個參數(shù)相比,參數(shù)個數(shù)大大減少。
1.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法
1.3.1 網(wǎng)絡(luò)訓(xùn)練過程
網(wǎng)絡(luò)模型的訓(xùn)練過程可分為兩個階段:
第一階段,前向傳播:
a)在開始訓(xùn)練前,建立網(wǎng)絡(luò)并進(jìn)行初始化設(shè)置,設(shè)置網(wǎng)絡(luò)層數(shù)以及卷積核大小,用小的隨機(jī)數(shù)對所有權(quán)值進(jìn)行初始化,設(shè)置學(xué)習(xí)率和迭代次數(shù),選定訓(xùn)練樣本和測試樣本集;
b)然后將訓(xùn)練樣本(x,y)輸入網(wǎng)絡(luò),通過各層網(wǎng)絡(luò)得到輸出t。
第二階段,反向傳播:
a)計算實際輸出與相應(yīng)的理想輸出的均方誤差;
b)反向傳播對權(quán)值參數(shù)優(yōu)化,通過梯度下降法,計算網(wǎng)絡(luò)中誤差對權(quán)值的偏導(dǎo)數(shù),調(diào)整權(quán)值矩陣,更新權(quán)值和偏置,不斷進(jìn)行迭代直到滿足預(yù)先設(shè)定的迭代次數(shù)要求,訓(xùn)練完成。
1.3.2 算法實現(xiàn)
下面對訓(xùn)練中的相關(guān)算法的具體實現(xiàn)進(jìn)行介紹,實驗中用l表示當(dāng)前層,那么當(dāng)前層的輸出可以表示為:
xl=f(ul),ul=Wlxl-1+bl
(1)
其中:ul為l層(當(dāng)前層)的輸入;Wl為l層特征圖的權(quán)值;xl-1為上一層的輸出;bl為當(dāng)前層的額外偏置(也稱基);f為激活函數(shù),實驗中將sigmoid函數(shù)作為激活函數(shù)。
使用卷積核對上一層的特征圖進(jìn)行卷積,然后通過激活函數(shù),得到卷積層的輸出特征圖。卷積層的計算形式如式(2)所示:
(2)
采樣層中,對上一卷積層的特征圖進(jìn)行下采樣,采樣后輸入輸出特征圖數(shù)量不變,其計算形式如下:
(3)
其中:n表示從卷積層到抽樣層的窗口大小,Mj表示選擇的輸入特征圖的集合。
對單個樣本(x,y),它經(jīng)網(wǎng)絡(luò)產(chǎn)生的誤差可用代價函數(shù)表示,如式(4)所示:
(4)
網(wǎng)絡(luò)在前向傳播過程中,使用每個訓(xùn)練樣本的誤差的總和表示全部訓(xùn)練集上的誤差,對于m個訓(xùn)練樣本((x1,y1),(x2,y2),…,(xm,ym))的誤差,可用平方誤差代價函數(shù)表示:
(5)
為了防止網(wǎng)絡(luò)出現(xiàn)過擬合,實驗時在平方誤差代價函數(shù)中加入懲罰項:
(6)
其中:yi表示第i個樣本的理想輸出。ti表示第i個樣本對應(yīng)網(wǎng)絡(luò)的實際輸出。 第一項是均方差項,用來表示代價函數(shù),第二項是權(quán)重衰減項,用來減小權(quán)重的幅度,防止過度擬合。λ為權(quán)重衰減參數(shù) ,用于控制公式中兩項的相對重要性。
在反向傳播過程中,對層l的每個神經(jīng)元對應(yīng)的權(quán)值的權(quán)值更新,需要先求層l的每一個神經(jīng)節(jié)點的靈敏度,那么對于第n層(輸出層)每個神經(jīng)節(jié)點根據(jù)式(7)計算靈敏度:
(7)
激活函數(shù)的具體函數(shù)形式為:
(8)
對式(8)求導(dǎo)可得:
(9)
因此輸出層的靈敏度可表示為:
(10)
對l=n-1,n-2,…,2的各個層,當(dāng)前層l每個神經(jīng)節(jié)點i對應(yīng)的靈敏度計算公式如下:
(11)
將式(11)中的n-1與n替換為l與l+1,就可以得到:
(12)
那么l=n-1,n-2,…,2的各個層的靈敏度為:
δl=Wl+1δl+1xl(1-xl)
(13)
那么各層中誤差對W和b的偏導(dǎo)數(shù)就可以表示如下:
(15)
最后就可以按照如下公式對層l中的參數(shù)W和b進(jìn)行調(diào)整和更新,其中η表示學(xué)習(xí)率:
(16)
(17)
實驗通過識別率來度量手寫字符的識別結(jié)果,識別率計算公式如下:
誤識別率/%=錯誤識別個數(shù)/樣本總數(shù)×100
(18)
2.1 實驗數(shù)據(jù)
實驗所用的數(shù)據(jù)來自MNIST手寫數(shù)字字符庫,該字符庫中含有0~9的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩種圖片,包括60000個樣例的訓(xùn)練樣本集和10000個樣例的測試樣本集,每張圖片的灰度級是8,大小為28*28,圖3為部分樣本,分別從MNIST字符庫的訓(xùn)練樣本集和測試樣本集中隨機(jī)抽取2000個和1000個樣本作為本實驗中的訓(xùn)練樣本和測試樣本。
圖3 字符庫部分樣本
2.2 實驗結(jié)果分析與討論
由于訓(xùn)練樣本較多,無法實現(xiàn)一次性將全部樣本輸入到網(wǎng)絡(luò),因此采取分批次輸入,使網(wǎng)絡(luò)得到充分訓(xùn)練,為研究每批輸入到網(wǎng)絡(luò)中的樣本數(shù)量對識別率的影響,分別將單次輸入網(wǎng)絡(luò)的樣本圖片數(shù)量設(shè)置為一批輸入50、100、200,得到的實驗結(jié)果如圖4所示。
圖4 每批輸入樣本數(shù)量對識別性能的影響
圖4中,橫坐標(biāo)表示網(wǎng)絡(luò)訓(xùn)練過程中的迭代次數(shù),縱坐標(biāo)表示測試樣本集的誤識別率。從圖4中可以看出,隨著迭代次數(shù)的增加,誤識別率逐漸減小,網(wǎng)絡(luò)逐漸達(dá)到收斂狀態(tài),當(dāng)每批輸入50個樣本到網(wǎng)絡(luò)時,迭代30次左右就可以取得較高的識別率,識別效果明顯,對樣本訓(xùn)練時,單次輸入樣本數(shù)量越少,網(wǎng)絡(luò)收斂速度越快,同時誤識別率比單次輸入100和200個樣本都要低。
在訓(xùn)練樣本、測試樣本數(shù)量相同,每批輸入的樣本數(shù)也相同的情況下,對網(wǎng)絡(luò)的規(guī)模進(jìn)行調(diào)整,分別將卷積層C1和C2的濾波器數(shù)量設(shè)置為2和8、6和12、10和16,測試網(wǎng)絡(luò)規(guī)模對泛化性能的影響,圖5為對訓(xùn)練集和測試集數(shù)據(jù)使用不同網(wǎng)絡(luò)規(guī)模進(jìn)行識別的結(jié)果。
圖5 網(wǎng)絡(luò)規(guī)模對識別性能的影響
從圖5中可以看出,在迭代30次以后,可達(dá)到高于90%的識別率,隨著迭代次數(shù)增加,不同網(wǎng)絡(luò)規(guī)模對樣本的識別率越來越高,但變化不大,可認(rèn)為這時網(wǎng)絡(luò)達(dá)到收斂,取得最佳識別效果,網(wǎng)絡(luò)結(jié)構(gòu)為6-6-12-12時,收斂速度最快,識別效果也比較好,這是因為這時的網(wǎng)絡(luò)規(guī)模在2000個訓(xùn)練樣本下能得到充分訓(xùn)練。同時,網(wǎng)絡(luò)性能達(dá)到一定程度后,繼續(xù)增加網(wǎng)絡(luò)中各層的規(guī)模,網(wǎng)絡(luò)也可以較快的收斂,但對識別率影響不大,這是因為網(wǎng)絡(luò)規(guī)模增大后,相應(yīng)需要學(xué)習(xí)的參數(shù)也增加了,網(wǎng)絡(luò)要充分訓(xùn)練需要的樣本相應(yīng)也會增加,而實驗中的2000個訓(xùn)練樣本可能無法滿足實際訓(xùn)練要求,使網(wǎng)絡(luò)無法得到充分訓(xùn)練,實驗表明,減小網(wǎng)絡(luò)規(guī)模,網(wǎng)絡(luò)的泛化能力有降低趨勢,但增加網(wǎng)絡(luò)規(guī)模,網(wǎng)絡(luò)的泛化能力并沒有明顯的提高,但仍具有較強(qiáng)的穩(wěn)定性能和可擴(kuò)展性。
如果學(xué)習(xí)率設(shè)置不合理,會使網(wǎng)絡(luò)陷入局部極小值,導(dǎo)致無法收斂,出現(xiàn)過擬合現(xiàn)象。為分析網(wǎng)絡(luò)學(xué)習(xí)率對網(wǎng)絡(luò)識別結(jié)果的影響,分別將網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.2、0.5、1.0、1.2、2.0,實驗結(jié)果如圖6所示。
圖6 不同學(xué)習(xí)率下的識別結(jié)果
從實驗結(jié)果可以看出:網(wǎng)絡(luò)學(xué)習(xí)率越大,收斂速度也越快,網(wǎng)絡(luò)識別率相對高一些,當(dāng)學(xué)習(xí)率取值為2.0時,開始網(wǎng)絡(luò)識別率會下降的很快,隨著迭代次數(shù)增加,識別率很高,但會出現(xiàn)在一個值附近上下波動,不穩(wěn)定,這是學(xué)習(xí)率取值過大,學(xué)習(xí)的速度較快引起的??梢钥吹阶R別曲線平穩(wěn)下降,沒有出現(xiàn)過擬合現(xiàn)象。
在式(4)中已經(jīng)詳述了訓(xùn)練樣本在前向傳播過程中產(chǎn)生的誤差,本文建立的網(wǎng)絡(luò)模型,在不同學(xué)習(xí)率下,樣本集在網(wǎng)絡(luò)中訓(xùn)練產(chǎn)生的均方誤差如圖7所示。
圖7 網(wǎng)絡(luò)在不同學(xué)習(xí)率下訓(xùn)練的誤差曲線
在圖7中,橫坐標(biāo)表示訓(xùn)練樣本的數(shù)量,縱坐標(biāo)表示計算得到的均方誤差,對網(wǎng)絡(luò)用幾個不同的學(xué)習(xí)速率進(jìn)行訓(xùn)練,從訓(xùn)練后誤差變化曲線可以看出,在訓(xùn)練過程中,隨著輸入樣本數(shù)量的增加,均方誤差逐漸減小,直到網(wǎng)絡(luò)達(dá)到一個較穩(wěn)定的值。隨著訓(xùn)練的進(jìn)行,當(dāng)學(xué)習(xí)率取值為1.0時,均方誤差下降的速度比0.2和0.5時要快,學(xué)習(xí)率取0.2時,均方誤差的曲線在一段時間變化比較平穩(wěn),收斂速度相對較慢,這是學(xué)習(xí)率取值偏小的緣故,隨著樣本數(shù)量的增加,收斂速度越快,識別效果也越好。
為了分析CNN網(wǎng)絡(luò)的識別性能,利用幾種常用的識別方法對MNIST字符庫進(jìn)行識別,結(jié)果如表1所示。
表1 幾種常用方法識別結(jié)果
從表1可以看出,卷積神經(jīng)網(wǎng)絡(luò)模型在MNIST手寫數(shù)字字符庫上的誤識別率為0.98%,和其它識別方法相比,其誤識別率更低,表明此方法在手寫體數(shù)字識別方面具有一定的優(yōu)勢。
本文對LeNet-5神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),改進(jìn)后的網(wǎng)絡(luò)模型結(jié)構(gòu)簡單,具有更少的參數(shù),使得網(wǎng)絡(luò)在相同訓(xùn)練集上訓(xùn)練消耗的時間更短。由于本文建立的網(wǎng)絡(luò)中間層是卷積層和采樣層的交替出現(xiàn),在網(wǎng)絡(luò)中添加或減少網(wǎng)絡(luò)層數(shù)容易實現(xiàn),網(wǎng)絡(luò)靈活性好,具有很強(qiáng)的擴(kuò)展性,網(wǎng)絡(luò)結(jié)構(gòu)可以根據(jù)實際需要進(jìn)行調(diào)整,以滿足實際識別要求,與其它常用的分類方法相比,具有明顯的優(yōu)勢。研究結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)能夠很好地提取輸入數(shù)據(jù)特征,識別率較高,懲罰項的加入消除了網(wǎng)絡(luò)識別過程中的過擬合現(xiàn)象。同時,通過對識別性能的研究還發(fā)現(xiàn),每批輸入樣本數(shù)量越小,其識別率越高,網(wǎng)絡(luò)收斂速度越快,識別性能越好。減少卷積層濾波器數(shù)量,對應(yīng)的網(wǎng)絡(luò)規(guī)模變小,網(wǎng)絡(luò)的泛化能力會下降,但增加網(wǎng)絡(luò)規(guī)模,網(wǎng)絡(luò)的泛化能力沒有太大變化。
本文的研究可為后續(xù)在識別方面卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)的設(shè)計提供參考。基于卷積神經(jīng)網(wǎng)絡(luò)的識別要取得良好的效果,往往需要大量的訓(xùn)練樣本,但在實際分類問題中,難以獲取到大量的樣本,在樣本數(shù)量有限的情況下,如何提高網(wǎng)絡(luò)的識別性能還有待進(jìn)一步研究。
[1] 關(guān)保林,巴力登.基于改進(jìn)遺傳算法的BP神經(jīng)網(wǎng)絡(luò)手寫數(shù)字識別[J].化工自動化及儀表,2013,40(6):774-778.
[2] 馬寧,廖慧惠.基于量子門神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別[J].吉林工程技術(shù)師范學(xué)院學(xué)報,2012,28(4):71-73.
[3] BABU U R, CHINTHA A K, VENKATESWARLU Y. Handwritten digit recognition using structural, statistical features and k-nearest neighbor classifier[J]. International Journal of Information Engineering & Electronic Business,2014,6(1):62-68.
[4] GORGEVIK D, CAKMAKOV D. Handwritten digit recognition by combining SVM classifiers[C]// The International Conference on Computer as a Tool. IEEE,2005:1393-1396.
[5] 杜敏,趙全友.基于動態(tài)權(quán)值集成的手寫數(shù)字識別方法[J].計算機(jī)工程與應(yīng)用,2010,46(27):182-184.
[6] 劉煬,湯傳玲,王靜,等.一種基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)字識別新方法[J].微型機(jī)與應(yīng)用,2012,31(7):36-39.
[7] ZHANG X, WU L. Handwritten digit recognition based on improved learning rate bp algorithm[C]// Information Engineering and Computer Science (ICIECS), 2010 2nd International Conference on IEEE,2010:1-4.
[8] BARROS P, MAGG S, WEBER C, et al. A multichannel convolutional neural network for hand posture recognition[C]//International Conference on Artificial Neural Networks. Springer International Publishing,2014:403-410.
[9] 宋志堅,余銳.基于深度學(xué)習(xí)的手寫數(shù)字分類問題研究[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2015,32(8):49-53.
[10] 呂國豪,羅四維,黃雅平,等.基于卷積神經(jīng)網(wǎng)絡(luò)的正則化方法[J].計算機(jī)研究與發(fā)展,2014,51(9):1891-1900.
[11] CUN Y L, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]// Advances in Neural Information Processing Systems 2. Morgan Kaufmann Publishers Inc.,1990:396-404.
(責(zé)任編輯: 陳和榜)
Handwritten Numeral Recognition Based on Convolution Neural Network
LISifan,GAOFaqin
(School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
The convolution neural network model is improved on the basis of LeNet-5 model. The improved model and the network training process are introduced, and forward and back propagation algorithms of network model in the process of training are deduced. The improved model is tested on the MNIST character library, and the effects of different filter number at the convolution layer, quantity of each batch and network learning ratio on the performance of the final recognition are analyzed. Meanwhile, and the traditional identification methods are compared with the recognition method in this paper. The experimental results show that the improved network structure is simple, with small workload of pretreatment, strong extensibility, fast recognition and high recognition rate. It can effectively prevent the network over-fitting phenomenon. The recognition performance is significantly superior to traditional methods.
convolution neural network; handwritten numbers; recognition; LeNet-5
10.3969/j.issn.1673-3851.2017.05.021
2016-09-16 網(wǎng)絡(luò)出版日期:2017-01-03
浙江省自然科學(xué)基金項目(LY14F030025);國家自然科學(xué)基金項目(61402417)
李斯凡(1991-),女,湖北鄂州人,碩士研究生,主要從事深度學(xué)習(xí)及大數(shù)據(jù)分析方面的研究。
高法欽,E-mail: gfqzjlg@126.com
TP391.4
A
1673- 3851 (2017) 03- 0438- 06