鄭延斌 ,韓夢云 ,樊文鑫
(1. 河南師范大學(xué)計算機與信息工程學(xué)院,河南新鄉(xiāng)453007;
2. 智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實驗室(河南師范大學(xué)),河南新鄉(xiāng)453007)
脫機手寫體漢字識別是模式識別領(lǐng)域的研究熱點之一,也是文字識別領(lǐng)域最為困難的問題之一[1]。它廣泛應(yīng)用于銀行票據(jù)識別、郵件分揀、辦公室自動化等領(lǐng)域,可以帶來巨大的經(jīng)濟效益和社會價值[2-3]。由于漢字種類繁多、相似漢字之間易混淆以及書寫風(fēng)格多樣等問題,過去幾十年,研究者提出了許多傳統(tǒng)的方法來提高脫機手寫體漢字的識別性能,但識別精度仍然遠(yuǎn)遠(yuǎn)落后于人類的表現(xiàn)[4]。
受深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在計算機視覺領(lǐng)域成功應(yīng)用的啟發(fā)[5-6],研究者將該方法應(yīng)用于手寫體漢字識別問題中,并取得了很好的結(jié)果。Ciresan[7-8]等提出了一種端對端的多列深度CNN 模型,在脫機手寫體漢字識別中取得了93.5%的識別率,為當(dāng)時最好的識別結(jié)果;Zhong 等[9]提出了一種改進(jìn)的 CNN 模型,通過手工提取的特征與CNN 相結(jié)合的方式將識別率提高到了96.74%;Zhang 等[10]將傳統(tǒng)的歸一化-協(xié)同方向分解特征圖與CNN 相結(jié)合,取得了96.95%的識別率。這些基于CNN 的識別方法雖然取得了較好的識別結(jié)果,但由于構(gòu)建神經(jīng)網(wǎng)絡(luò)需要很高的計算成本,因而無法部署在便攜設(shè)備上。
為了解決CNN 運行速度和存儲容量的問題,涌出了許多優(yōu)化CNN 模型的方法。Li 等[11]提出了一種新的加權(quán)平均池技術(shù),可以在不損失精度的前提下減少全連接層的參數(shù),并通過添加中間輸出,在單個CNN 中實現(xiàn)了級聯(lián)模型,顯著降低了識別時間;Xiao 等[4]提出了一種基于CNN 的快速和緊湊的手寫體漢字識別方法,通過全局監(jiān)督低秩擴展(Global Supervised Low-Rank Expansion,GSLRE)方法和自適應(yīng)降權(quán)(Adaptive Drop-Weight,ADW)技術(shù)來解決CNN 識別中速度和存儲容量的問題。
CNN 識別手寫體漢字需要的特征數(shù)量相當(dāng)大(圖像的特征維度可能達(dá)到幾百甚至幾千),因此,直接存儲和處理圖像時效率比較低。在實際的應(yīng)用中,大量的數(shù)據(jù)特征并不能刻畫數(shù)據(jù)的本質(zhì)特征,數(shù)據(jù)的冗余還可能會影響到后續(xù)的數(shù)據(jù)處理[12]。因此,在使用CNN 分類之前,對漢字圖像進(jìn)行特征提取,可以減少無關(guān)的數(shù)據(jù)特征,提升CNN 的運算速度。然而,在手寫體漢字識別方面還未發(fā)現(xiàn)相關(guān)研究。
目前,在手寫體漢字識別中常用的特征提取方法分為兩類[13]:一類是基于結(jié)構(gòu)的特征提取,但因為結(jié)構(gòu)提取特征困難,且對噪聲敏感,故很少使用;另一類是基于統(tǒng)計的特征提取。主成分分析(Principal Component Analysis,PCA)[14]是一種通過降低數(shù)據(jù)維度從而有效提取特征數(shù)據(jù)的方法,它的中心思想是將數(shù)據(jù)降維,以排除信息共存中相互重疊的部分[15]。在基于PCA 的圖像特征提取中,二維圖像必須先轉(zhuǎn)換為一維圖像向量,再求協(xié)方差矩陣的特征向量[16]。由此得到的圖像通常是一個高維的圖像向量空間(比如圖像的分辨率為64×64,轉(zhuǎn)化為一維向量的維數(shù)則高達(dá)為4 096)。由于利用PCA方法得到的協(xié)方差矩陣的維數(shù)較大,因此很難準(zhǔn)確地對特征向量進(jìn)行估計。
二維主成分分析(Two Dimensional Principal Component Analysis ,2DPCA)是 Yang 等[17]在 PCA 基礎(chǔ)上提出的一種基于二維矩陣的特征提取方法,在提取特征之前不需要預(yù)先將圖像矩陣轉(zhuǎn)換成一維向量,可以直接使用原始圖像矩陣構(gòu)造協(xié)方差矩陣。與PCA 的圖像協(xié)方差矩陣相比,使用2DPCA 的協(xié)方差矩陣要小得多。因此,與PCA 相比,2DPCA 有兩個重要的優(yōu)點。首先,它更容易準(zhǔn)確地評估協(xié)方差矩陣;其次,確定相應(yīng)的特征向量所需的時間更少。
針對CNN 識別手寫體漢字速度慢的問題,本文采用2DPCA 與CNN 相結(jié)合的方法識別手寫體漢字。該方法在保持手寫體漢字識別率的情況下,極大地提升了手寫體漢字的識別速度。該方法主要分為兩個階段:第一階段為圖像特征提取,即利用2DPCA 提取手寫體漢字的二維圖像特征;第二個階段為圖像分類,即將第一階段提取的二維圖像特征矩陣放入CNN 的輸入層中進(jìn)行分類。實驗結(jié)果表明該方法能著降低CNN的運行時間,驗證了方法的合理性和有效性。
CNN 是一種分層神經(jīng)網(wǎng)絡(luò),它通過將輸入與一組核濾波器進(jìn)行卷積來提取局部特征。然后對得到的卷積特征圖進(jìn)行子采樣(表示為池化),并過濾到下一層。下面是對CNN 算法[9]的簡單介紹。
對于采樣層來說,就是將卷積的特征圖降維,公式如式(3)所示。其中:down()是求和采樣函數(shù),計算映射中的每個n × n區(qū)域的最大值。
Softmax 主要用于多分類問題,它可以將多個神經(jīng)元的輸出映射到(0,1)區(qū)間內(nèi),從而將多分類的結(jié)果以概率的方式展現(xiàn)。假設(shè)有T 類標(biāo)簽,每個類別的訓(xùn)練數(shù)據(jù)用(xi,yi)表示,其中 i={1,2,…,N},xi和 yi分別為特征向量和標(biāo)簽。CNN 的目標(biāo)是最小化交叉熵?fù)p失函數(shù),如式(4)所示:
在CNN 的訓(xùn)練過程中,使用隨機梯度下降(Stochastic Gradient Descent,SGD)算法可以使J(θ)的損失函數(shù)最小化。
1.2.1 2DPCA算法思想
設(shè)X 表示一個n 維的單位列向量,2DPCA 的思想是通過式(5)將圖像A(一個m×n的圖像矩陣)投影到X上[18-20]:
從而得到一個m 維的投影向量Y,Y 為圖像A的投影特征向量。需要考慮如何計算X。實際上,投影樣本的總體散布矩陣可以用來測量X 的判別能力,而投影樣本的總體散布矩陣可以利用投影特征向量的協(xié)方差矩陣的跡來表示[21]。從這一點來看,可采用以下準(zhǔn)則:
其中,訓(xùn)練樣本投影特征向量的協(xié)方差矩陣由Sx表示,且Sx的跡用tr(Sx)表示。式(6)中準(zhǔn)則最大化的物理意義是求出一個X,所有的樣本都投射到它上面,使產(chǎn)生的投射樣本的總體散射是最大的。協(xié)方差矩陣Sx[22]可以表示為:
因此:
定義總體散布矩陣Gt如式(9)所示:
由定義可知,Gt是一個n × n 的非負(fù)定矩陣,可以直接使用訓(xùn)練圖像樣本來評估Gt。假設(shè)訓(xùn)練圖像樣本的總數(shù)為L,第j 個訓(xùn)練圖像用一個 m × n 的矩陣 Aj(j = 1,2,…,M)表示,所有訓(xùn)練樣本的均值圖像用表示,則Gt可以利用式(10)評估。
則式(6)中的準(zhǔn)則可以表示為:
其中:X 是一個單位列向量。這個準(zhǔn)則稱為廣義總體散射準(zhǔn)則。使準(zhǔn)則最大化的單位向量X稱為最優(yōu)投影軸。當(dāng)將圖像矩陣投影到X上之后,投影樣本的總散射將達(dá)到最大化。
若 X 的最優(yōu)投影軸用 Xopt表示,則 Xopt是最大化 J(X)的單位向量,即Gt的特征向量對應(yīng)于最大的特征值。一般來說,只有一個最優(yōu)投影軸是不夠的。通常需要選擇一組投影軸X1;X2;…;Xd,X1;X2;…;Xd受正交約束和最大化準(zhǔn)則J(X)的管制,如式(12)和式(13)[23]所示:
事實上,最優(yōu)投影軸X1;X2;…;Xd是Gt的標(biāo)準(zhǔn)正交特征向量對應(yīng)的前d個最大的特征值。
1.2.2 特征提取
2DPCA 的最優(yōu)投影向量X1;X2;…;Xd被用作特征提取。對于給定的圖像樣本A,令
然后,得到一組投影特征向量 Y1;Y2;…;Yd,Y1;Y2;…;Yd為樣本圖像A 的主成分。需要注意的是,2DPCA的每個主成分都是一個向量。所有的主成分構(gòu)成一個m × d的矩陣B =[Y1;Y2;…;Yd],B 稱為圖像樣本A 的特征矩陣或特征圖。
為了提升CNN 模型的識別性能,人們提出了許多方法來提高手寫體漢字的識別率,主要包括數(shù)據(jù)增加和采用更深的CNN 網(wǎng)絡(luò)。數(shù)據(jù)增加是一種非常重要的提升CNN 魯棒性及推廣能力的技術(shù),通常采用平移、尺度縮放、旋轉(zhuǎn)、仿射變換和彈性形變等方法對手寫體漢字圖像數(shù)據(jù)進(jìn)行擴充。然而,數(shù)據(jù)增加和更深的CNN 網(wǎng)絡(luò)模型都會導(dǎo)致計算成本增加、訓(xùn)練和識別時間過長。為了提高CNN 的識別速度,采用了一種基于2DPCA 與CNN 的手寫體漢字識別方法,該方法可以保持手寫體漢字的識別精度并提高識別效率。
利用2DPCA 與CNN 相結(jié)合方法識別手寫體漢字,首先輸入樣本圖像并對其進(jìn)行預(yù)處理。預(yù)處理的第一步是統(tǒng)一圖像的尺寸大小,即將所有樣本轉(zhuǎn)為大小相同的圖像。第二步是將相同大小的圖像作歸一化處理,歸一化之后所有圖像的像素值都在[0,1]區(qū)間內(nèi)。預(yù)處理之后,利用2DPCA 提取總體散布矩陣的特征向量對應(yīng)的前d 個最大特征值,即最優(yōu)投影向量,將圖像投影到最優(yōu)投影向量即可得到圖像的特征矩陣。最后,將特征矩陣放入CNN 的輸入層,通過卷積、池化、全連接等一系列操作,求取識別結(jié)果。識別的算法描述過程如下:
輸入 樣本集R,低維空間維數(shù)d;
過程
對樣本集R中的圖像A進(jìn)行預(yù)處理;
根據(jù)式(5)求A的投影向量Y;
利用式(7)求協(xié)方差矩陣Sx;
根據(jù)Sx求出協(xié)方差矩陣的跡;
求廣義總體散射準(zhǔn)則函數(shù):J(X) = XTGtX;
求最優(yōu)投影向量 Xk(k = 1,2,…,d),最優(yōu)投影軸 X1,X2,…,Xd是Gt的標(biāo)準(zhǔn)正交特征向量對應(yīng)的前d個最大的特征值X1,X2,…,Xd;
將圖像A投影到Xk,求投影特征向量Y1,Y2,…,Yd;
特征矩陣B =[Y1,Y2,…,Yd];
令 訓(xùn) 練 集 Al={(Bk,F(xiàn)k)}(l,k = 1),測 試 集 Am={(Bl+1,F(xiàn)l+1)}(m,k = l);
用Al訓(xùn)練一個CNN模型;
輸出 用CNN 對Am中的樣本進(jìn)行預(yù)測,預(yù)測結(jié)果與其標(biāo)簽作比較,得到一個預(yù)測精度。
通過2DPCA 與CNN相結(jié)合的方法識別手寫體漢字,首先求漢字圖像的二維特征,每個漢字圖像對應(yīng)一個特征矩陣,利用此矩陣,卷積神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)圖像的分類。整個識別過程在2.1~2.3節(jié)中詳細(xì)介紹。
1)尺寸統(tǒng)一化。
設(shè)整個手寫體漢字的數(shù)據(jù)集為R,由于其中的漢字圖像A的尺寸大小各不相同,為了便于處理,通過尺寸統(tǒng)一化將所有漢字圖像設(shè)置成相同的大小。統(tǒng)一尺寸后的圖像高為m,寬為n。
Resize(A) =[m,n]
2)圖像歸一化。
圖像歸一化就是通過一系列變換,將待處理的原始圖像轉(zhuǎn)換成相應(yīng)的唯一標(biāo)準(zhǔn)形式。在提取特征之前,對漢字圖像進(jìn)行歸一化處理,歸一化之后所有的像素值都在[0,1]區(qū)間內(nèi)。
預(yù)處理之后,漢字圖像為m × n 的歸一化圖像。2DPCA算法的目的是將每一張m × n 的漢字圖像降維成m × d 的特征矩陣(d 遠(yuǎn)遠(yuǎn)小于n),且將m × d 的特征矩陣放入CNN 中訓(xùn)練,手寫體漢字的識別率不會明顯降低。
設(shè)漢字圖像的最優(yōu)投影向量為X1,X2,…,Xd,通過Yk=AXk(k = 1,2,…,d)對 m × n 的漢字圖像A 作線性變換,投影特征向量Y1,Y2,…,Yd即可構(gòu)成特征矩陣B,特征矩陣B =[Y1,Y2…,Yd]。
通過2DPCA算法求特征矩陣的具體步驟如下:
步驟1 根據(jù)式(7)求得協(xié)方差矩陣Sx,由1.2.1 節(jié)知Sx= E[(A - E(A))X][(A - E(A))X]T。
步驟2 根據(jù)跡的定義求出協(xié)方差矩陣Sx的跡,tr(Sx)=XT[E(A - E(A))T(A - E(A))]X。
步驟3 求廣義總體散射準(zhǔn)則函數(shù)。定義總體散布矩陣Gt= E(A - E(A))T(A - E(A)),由1.2.1 節(jié)式(5)的準(zhǔn)則函數(shù)可得J(X) = XTGtX。
步驟4 求最優(yōu)投影向量Xk(k = 1,2,…,d)。最優(yōu)投影軸 X1,X2,…,Xd是 Gt的標(biāo)準(zhǔn)正交特征向量對應(yīng)的前 d 個最大的特征值。
步驟5 將圖像A 投影到Xk上,由式(5)可知投影特征向量為Y1,Y2,…,Yd。
步驟6 特征矩陣B =[Y1,Y2,…,Yd]。
特征矩陣作為CNN 的輸入在手寫體漢字識別方面展現(xiàn)了很好的性能,它不僅沒有降低手寫體漢字的識別率,還明顯提高了CNN 的識別速度。本文采用三種CNN 模型驗證該方法的有效性。它包括AlexNet(Alex Krizhevsky)模型與文獻(xiàn)[3]和文獻(xiàn)[8]提出的兩種深度卷積神經(jīng)網(wǎng)絡(luò)模型。文獻(xiàn)[3]和文獻(xiàn)[8]的模型分別命名為ACNN模型和DCNN模型。
文獻(xiàn)[3]的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含8 個卷積層、4 個池化層、1個全連接層和1個輸出層。全連接層連接上一層的所有激活,輸出層用Softmax 函數(shù)生成分類。如圖1 所示,圖中每一部分包含兩個卷積層和一個池化層。
AlexNet 采用與文獻(xiàn)[6]相同的體系結(jié)構(gòu),模型如圖2 所示。它由8 個加權(quán)層組成;前五層包括三組卷積層和最大池化層,以及兩個單獨的卷積層;其余三層是完全連接的層。在該模型中,所有濾波器的大小均為3×3,卷積步長為1,池化層的大小為2,步長也為2。
文獻(xiàn)[8]提出的 CNN 架構(gòu)如圖 3 所示,主要由 3 個卷積層、2 個池化層、1 個全連接層和一個Softmax 回歸層組成。其中,網(wǎng)絡(luò)的前6層用于特征提取,最后一層用于分類。
圖1 ACNN的模型架構(gòu)Fig. 1 Model architecture of ACNN
圖2 AlexNet的模型架構(gòu)Fig. 2 Model architecture of AlexNet
圖3 DCNN的模型架構(gòu)Fig. 3 Model architecture of DCNN
本研究采用中國科學(xué)院自動化研究所提供的手寫體漢字?jǐn)?shù)據(jù)集CASIA-HWDB1.1 進(jìn)行實驗。CASIA-HWDB1.1 數(shù)據(jù)集包含了3 755 個常用的GB2312 一級漢字,由300 個不同的編寫者書寫,每個漢字的樣本庫包含240 個訓(xùn)練樣本和60 個測試樣本。為了驗證本文提出的方法,隨機選取CASIAHWDB1.1 中的15 組相似手寫體漢字進(jìn)行驗證[24],每組包含10個相似樣本。部分相似手寫體漢字樣本如圖4所示。
在預(yù)處理中,將所有的漢字圖像統(tǒng)一為64 × 64 的大小,并對64 × 64的漢字圖像進(jìn)行歸一化處理。提取特征矩陣時,選擇d的個數(shù)為10,即每張圖像的特征矩陣大小為64 × 10。提取特征矩陣之后,對每個特征矩陣進(jìn)行標(biāo)準(zhǔn)化處理,保證每個維度的特征數(shù)據(jù)方差為1,均值為0。
特征矩陣輸入CNN 之前,首先打亂整個訓(xùn)練樣本,以減少訓(xùn)練時的過擬合。為了得到更好的手寫體漢字識別率,對三個CNN 模型通過多次重復(fù)實驗進(jìn)行調(diào)參。選取部分參數(shù)作對比,不同CNN 模型的識別率如表1所示,對3個CNN 模型的平均識別率作比較,可知第三組數(shù)據(jù)的識別率最高,效果最好。因此,CNN 模型的參數(shù)配置如下:批大小設(shè)置為48,正則化大小為0.8,學(xué)習(xí)率為0.000 2,每循環(huán)200 次學(xué)習(xí)率降低10%。
圖4 CASIA-HWDB1.1的相似數(shù)據(jù)樣本Fig. 4 Similar data samples in CASIA-HWDB1.1 dataset
實驗采用的平臺是基于Python 語言的深度學(xué)習(xí)框架tensorflow,硬件環(huán)境為Intel i5 CPU,8 GB 內(nèi)存,操作系統(tǒng)為Windows 10 64位。
表1 不同參數(shù)的手寫體漢字識別率對比Tab. 1 Comparison of handwritten Chinese character recognition rates under different parameters
將2DPCA 與CNN 相結(jié)合的方法用于手寫體漢字識別,并分別與2.3 節(jié)中的三種CNN 模型進(jìn)行對比。2DPCA 與三個CNN 模型相結(jié)合的方法分別命名為2DPCA-ACNN、2DPCAAlexNet 和2DPCA-DCNN,三種方法統(tǒng)稱為2DPCA-CNN。通過對比三種模型與2DPCA 結(jié)合前后的識別率和識別時間,驗證本文方法的合理性和有效性。
3.3.1 比較2DPCA-ACNN與ACNN
將 2DPCA-ACNN 與文獻(xiàn)[3]中的 ACNN 方法作對比,ACNN 的架構(gòu)如2.3 節(jié)的圖1 所示。在識別過程中,任選一組相似手寫體漢字分別采用本文方法與文獻(xiàn)[3]中的方法進(jìn)行訓(xùn)練和識別,隨著迭代次數(shù)的增加,相似手寫體漢字中測試集的識別率變化曲線如圖5 所示。其中橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為測試集的識別率,迭代次數(shù)設(shè)置為5 000。從圖5 中可以看出,隨著迭代次數(shù)的增加,測試集的識別率逐漸上升并趨于穩(wěn)定,且2DPCA-ACNN 與ACNN 識別率分別為94.88%和95.12%,2DPCA-ACNN 與ACNN 的識別方法在本次實驗中識別率相差不大。
圖5 2DPCA-ACNN與ACNN識別率變化Fig. 5 Recognition rate changes of 2DPCA-ACNN and ACNN
為了避免實驗結(jié)果的偶然性,隨機選擇了5 組相似手寫體漢字進(jìn)行實驗,并求出5 組相似手寫體漢字的平均識別率和識別時間。對比2DPCA-ACNN 與ACNN,得到的測試集的識別率和識別時間如表2 所示。從表2 可以看出,ACNN 和2DPCA-ACNN中每一組手寫體漢字的識別率波動不超過1%,2DPCA-ACNN 識別手寫體漢字所花費的時間相較ACNN 所花費時間卻減少了80%。
表2 2DPCA-ACNN與ACNN的識別率和識別時間對比Tab. 2 Comparison of 2DPCA-ACNN and ACNN on recognition rate and recognition time
3.3.2 比較2DPCA-AlexNet與AlexNet
該實驗采用的CNN 模型是文獻(xiàn)[6]中的AlexNet 模型,AlexNet 的模型架構(gòu)如2.3 節(jié)的圖2 所示。在本次識別過程中,隨著迭代次數(shù)的增加,相似手寫體漢字中測試集的識別率變化曲線如圖6 所示。由圖6 中可以看出,AlexNet 與2DPCAAlexNet 的識別率分別為92.45%和94.29%,2DPCA-AlexNet的識別率略大于AlexNet。由于每次實驗初始化參數(shù)值都是隨機的,樣本打亂順序也是隨機的,因此一定程度的波動屬于正常范圍。
圖6 2DPCA-AlexNet與AlexNet識別率變化Fig. 6 Recognition rate changes of 2DPCA-AlexNet and AlexNet
為了避免本次實驗結(jié)果的偶然性,仍然選擇了5 組相似手寫體漢字進(jìn)行實驗。對比2DPCA-AlexNet 與AlexNet,得到的測試集的識別率和識別時間如表3所示。從表3可以看出,隨著CNN 深度的增加,手寫體的識別率也逐漸增加,且2DPCA-AlexNet 與AlexNet 中每組手寫體漢字的識別率略小于2DPCA-ACNN與ACNN的識別率。此外,與AlexNet算法相比,2DPCA-AlexNet識別手寫體漢字花費的時間減少了78%。
3.3.3 比較2DPCA-DCNN與DCNN
本次實驗比較方式同3.3.1 和3.3.2 節(jié)一致,DCNN 識別手寫體漢字的架構(gòu)如2.3節(jié)的圖3所示。在識別過程中,隨著迭代次數(shù)的增加,相似手寫體漢字中測試集的識別率變化曲線如圖7 所示。此時測試集在2DPCA-DCNN 與DCNN 模型上的變化曲線基本重合,證明了兩種方法的識別率相差很小。
本次在2DPCA-DCNN 與DCNN 模型上進(jìn)行對比,得到每組的測試集的識別率和識別時間如表4 所示。在本次實驗中,兩種方法的手寫體漢字的識別率波動不大,且與DCNN 相比,2DPCA-DCNN 識別手寫體漢字所花費的時間降低了73%。
表3 2DPCA-AlexNet與AlexNet的識別率和識別時間對比Tab. 3 Comparison of 2DPCA-AlexNet and AlexNet on recognition rate and recognition time
圖7 2DPCA-DCNN與DCNN識別率變化Fig. 7 Recognition rate changes of 2DPCA-DCNN and DCNN
表4 2DPCA-DCNN與DCNN的識別率和識別時間對比Tab. 4 Comparison of 2DPCA-DCNN and DCNN on recognition rate and recognition time
比較3.3.1 與3.3.2 節(jié)中的實驗可知,隨著CNN 層數(shù)的增多,不僅手寫體漢字的識別率顯著提高,CNN識別手寫體漢字的時間也成倍增長。比較每次實驗中CNN 與2DPCA-CNN所花費的時間,可以發(fā)現(xiàn)CNN 層數(shù)越深,本文方法節(jié)省的時間也越多。
比較 3.3.1、3.3.2 和 3.3.3 節(jié)中的三次實驗,由圖 5~7 可以直觀地看出,隨著迭代次數(shù)的增加,2DPCA-CNN 與CNN 的識別率趨于穩(wěn)定并且識別率大小沒有明顯的差異。比較表2~4 中的每組數(shù)據(jù)和其平均值,可以看出每次實驗2DPCACNN 識別手寫體漢字的時間遠(yuǎn)遠(yuǎn)小于CNN 所花費的時間,證明了2DPCA 與CNN 相結(jié)合的方法與CNN 方法相比具有明顯的時間優(yōu)勢。
近年來,在手寫體漢字識別領(lǐng)域比傳統(tǒng)方法好的深度學(xué)習(xí)模型主要是基于CNN 及其改進(jìn)方法的。但是CNN 也有其缺陷,比如需要大量的訓(xùn)練樣本、更深的CNN 模型來保持其精度。由于增加樣本和采用更深的CNN 模型需要大量的參數(shù)計算,這無疑增加了CNN 的訓(xùn)練時間。針對CNN 訓(xùn)練時間長的問題,本文采用了2DPCA 與CNN 相結(jié)合的手寫體漢字識別方法。該方法首先去除圖像中的冗余信息,得到手寫體漢字的特征矩陣;然后再將特征矩陣放入CNN 中進(jìn)行識別。由于特征矩陣的參數(shù)變少,因此將特征矩陣放入CNN 模型中進(jìn)行卷積、池化等運算,能明顯地降低CNN的運行時間。