基于二維主成分分析與卷積神經(jīng)網(wǎng)絡(luò)的手寫體漢字識別

2020-09-04 10:01鄭延斌韓夢云樊文鑫

計算機應(yīng)用 2020年8期

鄭延斌，韓夢云，樊文鑫

（1. 河南師范大學(xué)計算機與信息工程學(xué)院，河南新鄉(xiāng)453007；

2. 智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實驗室（河南師范大學(xué)），河南新鄉(xiāng)453007）

0 引言

脫機手寫體漢字識別是模式識別領(lǐng)域的研究熱點之一，也是文字識別領(lǐng)域最為困難的問題之一［1］。它廣泛應(yīng)用于銀行票據(jù)識別、郵件分揀、辦公室自動化等領(lǐng)域，可以帶來巨大的經(jīng)濟效益和社會價值［2-3］。由于漢字種類繁多、相似漢字之間易混淆以及書寫風(fēng)格多樣等問題，過去幾十年，研究者提出了許多傳統(tǒng)的方法來提高脫機手寫體漢字的識別性能，但識別精度仍然遠(yuǎn)遠(yuǎn)落后于人類的表現(xiàn)［4］。

受深度卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）在計算機視覺領(lǐng)域成功應(yīng)用的啟發(fā)［5-6］，研究者將該方法應(yīng)用于手寫體漢字識別問題中，并取得了很好的結(jié)果。Ciresan［7-8］等提出了一種端對端的多列深度CNN 模型，在脫機手寫體漢字識別中取得了93.5%的識別率，為當(dāng)時最好的識別結(jié)果；Zhong 等［9］提出了一種改進(jìn)的 CNN 模型，通過手工提取的特征與CNN 相結(jié)合的方式將識別率提高到了96.74%；Zhang 等［10］將傳統(tǒng)的歸一化-協(xié)同方向分解特征圖與CNN 相結(jié)合，取得了96.95%的識別率。這些基于CNN 的識別方法雖然取得了較好的識別結(jié)果，但由于構(gòu)建神經(jīng)網(wǎng)絡(luò)需要很高的計算成本，因而無法部署在便攜設(shè)備上。

為了解決CNN 運行速度和存儲容量的問題，涌出了許多優(yōu)化CNN 模型的方法。Li 等［11］提出了一種新的加權(quán)平均池技術(shù)，可以在不損失精度的前提下減少全連接層的參數(shù)，并通過添加中間輸出，在單個CNN 中實現(xiàn)了級聯(lián)模型，顯著降低了識別時間；Xiao 等［4］提出了一種基于CNN 的快速和緊湊的手寫體漢字識別方法，通過全局監(jiān)督低秩擴展（Global Supervised Low-Rank Expansion，GSLRE）方法和自適應(yīng)降權(quán)（Adaptive Drop-Weight，ADW）技術(shù)來解決CNN 識別中速度和存儲容量的問題。

CNN 識別手寫體漢字需要的特征數(shù)量相當(dāng)大（圖像的特征維度可能達(dá)到幾百甚至幾千），因此，直接存儲和處理圖像時效率比較低。在實際的應(yīng)用中，大量的數(shù)據(jù)特征并不能刻畫數(shù)據(jù)的本質(zhì)特征，數(shù)據(jù)的冗余還可能會影響到后續(xù)的數(shù)據(jù)處理［12］。因此，在使用CNN 分類之前，對漢字圖像進(jìn)行特征提取，可以減少無關(guān)的數(shù)據(jù)特征，提升CNN 的運算速度。然而，在手寫體漢字識別方面還未發(fā)現(xiàn)相關(guān)研究。

目前，在手寫體漢字識別中常用的特征提取方法分為兩類［13］：一類是基于結(jié)構(gòu)的特征提取，但因為結(jié)構(gòu)提取特征困難，且對噪聲敏感，故很少使用；另一類是基于統(tǒng)計的特征提取。主成分分析（Principal Component Analysis，PCA）［14］是一種通過降低數(shù)據(jù)維度從而有效提取特征數(shù)據(jù)的方法，它的中心思想是將數(shù)據(jù)降維，以排除信息共存中相互重疊的部分［15］。在基于PCA 的圖像特征提取中，二維圖像必須先轉(zhuǎn)換為一維圖像向量，再求協(xié)方差矩陣的特征向量［16］。由此得到的圖像通常是一個高維的圖像向量空間（比如圖像的分辨率為64×64，轉(zhuǎn)化為一維向量的維數(shù)則高達(dá)為4 096）。由于利用PCA方法得到的協(xié)方差矩陣的維數(shù)較大，因此很難準(zhǔn)確地對特征向量進(jìn)行估計。

二維主成分分析（Two Dimensional Principal Component Analysis ，2DPCA）是 Yang 等［17］在 PCA 基礎(chǔ)上提出的一種基于二維矩陣的特征提取方法，在提取特征之前不需要預(yù)先將圖像矩陣轉(zhuǎn)換成一維向量，可以直接使用原始圖像矩陣構(gòu)造協(xié)方差矩陣。與PCA 的圖像協(xié)方差矩陣相比，使用2DPCA 的協(xié)方差矩陣要小得多。因此，與PCA 相比，2DPCA 有兩個重要的優(yōu)點。首先，它更容易準(zhǔn)確地評估協(xié)方差矩陣；其次，確定相應(yīng)的特征向量所需的時間更少。

針對CNN 識別手寫體漢字速度慢的問題，本文采用2DPCA 與CNN 相結(jié)合的方法識別手寫體漢字。該方法在保持手寫體漢字識別率的情況下，極大地提升了手寫體漢字的識別速度。該方法主要分為兩個階段：第一階段為圖像特征提取，即利用2DPCA 提取手寫體漢字的二維圖像特征；第二個階段為圖像分類，即將第一階段提取的二維圖像特征矩陣放入CNN 的輸入層中進(jìn)行分類。實驗結(jié)果表明該方法能著降低CNN的運行時間，驗證了方法的合理性和有效性。

1 相關(guān)基礎(chǔ)

1.1 卷積神經(jīng)網(wǎng)絡(luò)

CNN 是一種分層神經(jīng)網(wǎng)絡(luò)，它通過將輸入與一組核濾波器進(jìn)行卷積來提取局部特征。然后對得到的卷積特征圖進(jìn)行子采樣（表示為池化），并過濾到下一層。下面是對CNN 算法［9］的簡單介紹。

對于采樣層來說，就是將卷積的特征圖降維，公式如式（3）所示。其中：down（）是求和采樣函數(shù)，計算映射中的每個n × n區(qū)域的最大值。

Softmax 主要用于多分類問題，它可以將多個神經(jīng)元的輸出映射到（0，1）區(qū)間內(nèi)，從而將多分類的結(jié)果以概率的方式展現(xiàn)。假設(shè)有T 類標(biāo)簽，每個類別的訓(xùn)練數(shù)據(jù)用(xi，yi)表示，其中 i=｛1，2，…，N｝，xi和 yi分別為特征向量和標(biāo)簽。CNN 的目標(biāo)是最小化交叉熵?fù)p失函數(shù)，如式（4）所示：

在CNN 的訓(xùn)練過程中，使用隨機梯度下降（Stochastic Gradient Descent，SGD）算法可以使J(θ)的損失函數(shù)最小化。

1.2 二維主成分分析

1.2.1 2DPCA算法思想

設(shè)X 表示一個n 維的單位列向量，2DPCA 的思想是通過式（5）將圖像A（一個m×n的圖像矩陣）投影到X上［18-20］：

從而得到一個m 維的投影向量Y，Y 為圖像A的投影特征向量。需要考慮如何計算X。實際上，投影樣本的總體散布矩陣可以用來測量X 的判別能力，而投影樣本的總體散布矩陣可以利用投影特征向量的協(xié)方差矩陣的跡來表示［21］。從這一點來看，可采用以下準(zhǔn)則：

其中，訓(xùn)練樣本投影特征向量的協(xié)方差矩陣由Sx表示，且Sx的跡用tr(Sx)表示。式（6）中準(zhǔn)則最大化的物理意義是求出一個X，所有的樣本都投射到它上面，使產(chǎn)生的投射樣本的總體散射是最大的。協(xié)方差矩陣Sx［22］可以表示為：

因此：

定義總體散布矩陣Gt如式（9）所示：

由定義可知，Gt是一個n × n 的非負(fù)定矩陣，可以直接使用訓(xùn)練圖像樣本來評估Gt。假設(shè)訓(xùn)練圖像樣本的總數(shù)為L，第j 個訓(xùn)練圖像用一個 m × n 的矩陣 Aj(j = 1，2，…，M)表示，所有訓(xùn)練樣本的均值圖像用表示，則Gt可以利用式（10）評估。

則式（6）中的準(zhǔn)則可以表示為：

其中：X 是一個單位列向量。這個準(zhǔn)則稱為廣義總體散射準(zhǔn)則。使準(zhǔn)則最大化的單位向量X稱為最優(yōu)投影軸。當(dāng)將圖像矩陣投影到X上之后，投影樣本的總散射將達(dá)到最大化。

若 X 的最優(yōu)投影軸用 Xopt表示，則 Xopt是最大化 J（X）的單位向量，即Gt的特征向量對應(yīng)于最大的特征值。一般來說，只有一個最優(yōu)投影軸是不夠的。通常需要選擇一組投影軸X1；X2；…；Xd，X1；X2；…；Xd受正交約束和最大化準(zhǔn)則J(X)的管制，如式（12）和式（13）［23］所示：

事實上，最優(yōu)投影軸X1；X2；…；Xd是Gt的標(biāo)準(zhǔn)正交特征向量對應(yīng)的前d個最大的特征值。

1.2.2 特征提取

2DPCA 的最優(yōu)投影向量X1；X2；…；Xd被用作特征提取。對于給定的圖像樣本A，令

然后，得到一組投影特征向量 Y1；Y2；…；Yd，Y1；Y2；…；Yd為樣本圖像A 的主成分。需要注意的是，2DPCA的每個主成分都是一個向量。所有的主成分構(gòu)成一個m × d的矩陣B =[Y1；Y2；…；Yd]，B 稱為圖像樣本A 的特征矩陣或特征圖。

2 基于2DPCA與CNN的手寫體漢字識別

為了提升CNN 模型的識別性能，人們提出了許多方法來提高手寫體漢字的識別率，主要包括數(shù)據(jù)增加和采用更深的CNN 網(wǎng)絡(luò)。數(shù)據(jù)增加是一種非常重要的提升CNN 魯棒性及推廣能力的技術(shù)，通常采用平移、尺度縮放、旋轉(zhuǎn)、仿射變換和彈性形變等方法對手寫體漢字圖像數(shù)據(jù)進(jìn)行擴充。然而，數(shù)據(jù)增加和更深的CNN 網(wǎng)絡(luò)模型都會導(dǎo)致計算成本增加、訓(xùn)練和識別時間過長。為了提高CNN 的識別速度，采用了一種基于2DPCA 與CNN 的手寫體漢字識別方法，該方法可以保持手寫體漢字的識別精度并提高識別效率。

利用2DPCA 與CNN 相結(jié)合方法識別手寫體漢字，首先輸入樣本圖像并對其進(jìn)行預(yù)處理。預(yù)處理的第一步是統(tǒng)一圖像的尺寸大小，即將所有樣本轉(zhuǎn)為大小相同的圖像。第二步是將相同大小的圖像作歸一化處理，歸一化之后所有圖像的像素值都在［0，1］區(qū)間內(nèi)。預(yù)處理之后，利用2DPCA 提取總體散布矩陣的特征向量對應(yīng)的前d 個最大特征值，即最優(yōu)投影向量，將圖像投影到最優(yōu)投影向量即可得到圖像的特征矩陣。最后，將特征矩陣放入CNN 的輸入層，通過卷積、池化、全連接等一系列操作，求取識別結(jié)果。識別的算法描述過程如下：

輸入樣本集R，低維空間維數(shù)d；

過程

對樣本集R中的圖像A進(jìn)行預(yù)處理；

根據(jù)式（5）求A的投影向量Y；

利用式（7）求協(xié)方差矩陣Sx；

根據(jù)Sx求出協(xié)方差矩陣的跡；

求廣義總體散射準(zhǔn)則函數(shù)：J(X) = XTGtX；

求最優(yōu)投影向量 Xk(k = 1，2，…，d)，最優(yōu)投影軸 X1，X2，…，Xd是Gt的標(biāo)準(zhǔn)正交特征向量對應(yīng)的前d個最大的特征值X1，X2，…，Xd；

將圖像A投影到Xk，求投影特征向量Y1，Y2，…，Yd；

特征矩陣B =[Y1，Y2，…，Yd]；

令訓(xùn) 練集 Al={(Bk，F(xiàn)k)}(l，k = 1)，測試集 Am={(Bl+1，F(xiàn)l+1)}(m，k = l)；

用Al訓(xùn)練一個CNN模型；

輸出用CNN 對Am中的樣本進(jìn)行預(yù)測，預(yù)測結(jié)果與其標(biāo)簽作比較，得到一個預(yù)測精度。

通過2DPCA 與CNN相結(jié)合的方法識別手寫體漢字，首先求漢字圖像的二維特征，每個漢字圖像對應(yīng)一個特征矩陣，利用此矩陣，卷積神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)圖像的分類。整個識別過程在2.1～2.3節(jié)中詳細(xì)介紹。

2.1 預(yù)處理

1）尺寸統(tǒng)一化。

設(shè)整個手寫體漢字的數(shù)據(jù)集為R，由于其中的漢字圖像A的尺寸大小各不相同，為了便于處理，通過尺寸統(tǒng)一化將所有漢字圖像設(shè)置成相同的大小。統(tǒng)一尺寸后的圖像高為m，寬為n。

Resize(A) =[m，n]

2）圖像歸一化。

圖像歸一化就是通過一系列變換，將待處理的原始圖像轉(zhuǎn)換成相應(yīng)的唯一標(biāo)準(zhǔn)形式。在提取特征之前，對漢字圖像進(jìn)行歸一化處理，歸一化之后所有的像素值都在［0，1］區(qū)間內(nèi)。

2.2 基于2DPCA的漢字特征提取

預(yù)處理之后，漢字圖像為m × n 的歸一化圖像。2DPCA算法的目的是將每一張m × n 的漢字圖像降維成m × d 的特征矩陣（d 遠(yuǎn)遠(yuǎn)小于n），且將m × d 的特征矩陣放入CNN 中訓(xùn)練，手寫體漢字的識別率不會明顯降低。

設(shè)漢字圖像的最優(yōu)投影向量為X1，X2，…，Xd，通過Yk=AXk(k = 1，2，…，d)對 m × n 的漢字圖像A 作線性變換，投影特征向量Y1，Y2，…，Yd即可構(gòu)成特征矩陣B，特征矩陣B =[Y1，Y2…，Yd]。

通過2DPCA算法求特征矩陣的具體步驟如下：

步驟1 根據(jù)式（7）求得協(xié)方差矩陣Sx，由1.2.1 節(jié)知Sx= E[(A - E(A))X][(A - E(A))X]T。

步驟2 根據(jù)跡的定義求出協(xié)方差矩陣Sx的跡，tr(Sx)=XT[E(A - E(A))T(A - E(A))]X。

步驟3 求廣義總體散射準(zhǔn)則函數(shù)。定義總體散布矩陣Gt= E(A - E(A))T(A - E(A))，由1.2.1 節(jié)式（5）的準(zhǔn)則函數(shù)可得J(X) = XTGtX。

步驟4 求最優(yōu)投影向量Xk(k = 1，2，…，d)。最優(yōu)投影軸 X1，X2，…，Xd是 Gt的標(biāo)準(zhǔn)正交特征向量對應(yīng)的前 d 個最大的特征值。

步驟5 將圖像A 投影到Xk上，由式（5）可知投影特征向量為Y1，Y2，…，Yd。

步驟6 特征矩陣B =[Y1，Y2，…，Yd]。

2.3 基于特征矩陣的CNN模型

特征矩陣作為CNN 的輸入在手寫體漢字識別方面展現(xiàn)了很好的性能，它不僅沒有降低手寫體漢字的識別率，還明顯提高了CNN 的識別速度。本文采用三種CNN 模型驗證該方法的有效性。它包括AlexNet（Alex Krizhevsky）模型與文獻(xiàn)［3］和文獻(xiàn)［8］提出的兩種深度卷積神經(jīng)網(wǎng)絡(luò)模型。文獻(xiàn)［3］和文獻(xiàn)［8］的模型分別命名為ACNN模型和DCNN模型。

文獻(xiàn)［3］的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含8 個卷積層、4 個池化層、1個全連接層和1個輸出層。全連接層連接上一層的所有激活，輸出層用Softmax 函數(shù)生成分類。如圖1 所示，圖中每一部分包含兩個卷積層和一個池化層。

AlexNet 采用與文獻(xiàn)［6］相同的體系結(jié)構(gòu)，模型如圖2 所示。它由8 個加權(quán)層組成；前五層包括三組卷積層和最大池化層，以及兩個單獨的卷積層；其余三層是完全連接的層。在該模型中，所有濾波器的大小均為3×3，卷積步長為1，池化層的大小為2，步長也為2。

文獻(xiàn)［8］提出的 CNN 架構(gòu)如圖 3 所示，主要由 3 個卷積層、2 個池化層、1 個全連接層和一個Softmax 回歸層組成。其中，網(wǎng)絡(luò)的前6層用于特征提取，最后一層用于分類。

圖1 ACNN的模型架構(gòu)Fig. 1 Model architecture of ACNN

圖2 AlexNet的模型架構(gòu)Fig. 2 Model architecture of AlexNet

圖3 DCNN的模型架構(gòu)Fig. 3 Model architecture of DCNN

3 實驗與分析

3.1 數(shù)據(jù)集

本研究采用中國科學(xué)院自動化研究所提供的手寫體漢字?jǐn)?shù)據(jù)集CASIA-HWDB1.1 進(jìn)行實驗。CASIA-HWDB1.1 數(shù)據(jù)集包含了3 755 個常用的GB2312 一級漢字，由300 個不同的編寫者書寫，每個漢字的樣本庫包含240 個訓(xùn)練樣本和60 個測試樣本。為了驗證本文提出的方法，隨機選取CASIAHWDB1.1 中的15 組相似手寫體漢字進(jìn)行驗證［24］，每組包含10個相似樣本。部分相似手寫體漢字樣本如圖4所示。

3.2 實驗配置及實驗平臺

在預(yù)處理中，將所有的漢字圖像統(tǒng)一為64 × 64 的大小，并對64 × 64的漢字圖像進(jìn)行歸一化處理。提取特征矩陣時，選擇d的個數(shù)為10，即每張圖像的特征矩陣大小為64 × 10。提取特征矩陣之后，對每個特征矩陣進(jìn)行標(biāo)準(zhǔn)化處理，保證每個維度的特征數(shù)據(jù)方差為1，均值為0。

特征矩陣輸入CNN 之前，首先打亂整個訓(xùn)練樣本，以減少訓(xùn)練時的過擬合。為了得到更好的手寫體漢字識別率，對三個CNN 模型通過多次重復(fù)實驗進(jìn)行調(diào)參。選取部分參數(shù)作對比，不同CNN 模型的識別率如表1所示，對3個CNN 模型的平均識別率作比較，可知第三組數(shù)據(jù)的識別率最高，效果最好。因此，CNN 模型的參數(shù)配置如下：批大小設(shè)置為48，正則化大小為0.8，學(xué)習(xí)率為0.000 2，每循環(huán)200 次學(xué)習(xí)率降低10%。

圖4 CASIA-HWDB1.1的相似數(shù)據(jù)樣本Fig. 4 Similar data samples in CASIA-HWDB1.1 dataset

實驗采用的平臺是基于Python 語言的深度學(xué)習(xí)框架tensorflow，硬件環(huán)境為Intel i5 CPU，8 GB 內(nèi)存，操作系統(tǒng)為Windows 10 64位。

表1 不同參數(shù)的手寫體漢字識別率對比Tab. 1 Comparison of handwritten Chinese character recognition rates under different parameters

3.3 結(jié)果與分析

將2DPCA 與CNN 相結(jié)合的方法用于手寫體漢字識別，并分別與2.3 節(jié)中的三種CNN 模型進(jìn)行對比。2DPCA 與三個CNN 模型相結(jié)合的方法分別命名為2DPCA-ACNN、2DPCAAlexNet 和2DPCA-DCNN，三種方法統(tǒng)稱為2DPCA-CNN。通過對比三種模型與2DPCA 結(jié)合前后的識別率和識別時間，驗證本文方法的合理性和有效性。

3.3.1 比較2DPCA-ACNN與ACNN

將 2DPCA-ACNN 與文獻(xiàn)［3］中的 ACNN 方法作對比，ACNN 的架構(gòu)如2.3 節(jié)的圖1 所示。在識別過程中，任選一組相似手寫體漢字分別采用本文方法與文獻(xiàn)［3］中的方法進(jìn)行訓(xùn)練和識別，隨著迭代次數(shù)的增加，相似手寫體漢字中測試集的識別率變化曲線如圖5 所示。其中橫坐標(biāo)為迭代次數(shù)，縱坐標(biāo)為測試集的識別率，迭代次數(shù)設(shè)置為5 000。從圖5 中可以看出，隨著迭代次數(shù)的增加，測試集的識別率逐漸上升并趨于穩(wěn)定，且2DPCA-ACNN 與ACNN 識別率分別為94.88%和95.12%，2DPCA-ACNN 與ACNN 的識別方法在本次實驗中識別率相差不大。

圖5 2DPCA-ACNN與ACNN識別率變化Fig. 5 Recognition rate changes of 2DPCA-ACNN and ACNN

為了避免實驗結(jié)果的偶然性，隨機選擇了5 組相似手寫體漢字進(jìn)行實驗，并求出5 組相似手寫體漢字的平均識別率和識別時間。對比2DPCA-ACNN 與ACNN，得到的測試集的識別率和識別時間如表2 所示。從表2 可以看出，ACNN 和2DPCA-ACNN中每一組手寫體漢字的識別率波動不超過1%，2DPCA-ACNN 識別手寫體漢字所花費的時間相較ACNN 所花費時間卻減少了80%。

表2 2DPCA-ACNN與ACNN的識別率和識別時間對比Tab. 2 Comparison of 2DPCA-ACNN and ACNN on recognition rate and recognition time

3.3.2 比較2DPCA-AlexNet與AlexNet

該實驗采用的CNN 模型是文獻(xiàn)［6］中的AlexNet 模型，AlexNet 的模型架構(gòu)如2.3 節(jié)的圖2 所示。在本次識別過程中，隨著迭代次數(shù)的增加，相似手寫體漢字中測試集的識別率變化曲線如圖6 所示。由圖6 中可以看出，AlexNet 與2DPCAAlexNet 的識別率分別為92.45%和94.29%，2DPCA-AlexNet的識別率略大于AlexNet。由于每次實驗初始化參數(shù)值都是隨機的，樣本打亂順序也是隨機的，因此一定程度的波動屬于正常范圍。

圖6 2DPCA-AlexNet與AlexNet識別率變化Fig. 6 Recognition rate changes of 2DPCA-AlexNet and AlexNet

為了避免本次實驗結(jié)果的偶然性，仍然選擇了5 組相似手寫體漢字進(jìn)行實驗。對比2DPCA-AlexNet 與AlexNet，得到的測試集的識別率和識別時間如表3所示。從表3可以看出，隨著CNN 深度的增加，手寫體的識別率也逐漸增加，且2DPCA-AlexNet 與AlexNet 中每組手寫體漢字的識別率略小于2DPCA-ACNN與ACNN的識別率。此外，與AlexNet算法相比，2DPCA-AlexNet識別手寫體漢字花費的時間減少了78%。

3.3.3 比較2DPCA-DCNN與DCNN

本次實驗比較方式同3.3.1 和3.3.2 節(jié)一致，DCNN 識別手寫體漢字的架構(gòu)如2.3節(jié)的圖3所示。在識別過程中，隨著迭代次數(shù)的增加，相似手寫體漢字中測試集的識別率變化曲線如圖7 所示。此時測試集在2DPCA-DCNN 與DCNN 模型上的變化曲線基本重合，證明了兩種方法的識別率相差很小。

本次在2DPCA-DCNN 與DCNN 模型上進(jìn)行對比，得到每組的測試集的識別率和識別時間如表4 所示。在本次實驗中，兩種方法的手寫體漢字的識別率波動不大，且與DCNN 相比，2DPCA-DCNN 識別手寫體漢字所花費的時間降低了73%。

表3 2DPCA-AlexNet與AlexNet的識別率和識別時間對比Tab. 3 Comparison of 2DPCA-AlexNet and AlexNet on recognition rate and recognition time

圖7 2DPCA-DCNN與DCNN識別率變化Fig. 7 Recognition rate changes of 2DPCA-DCNN and DCNN

表4 2DPCA-DCNN與DCNN的識別率和識別時間對比Tab. 4 Comparison of 2DPCA-DCNN and DCNN on recognition rate and recognition time

比較3.3.1 與3.3.2 節(jié)中的實驗可知，隨著CNN 層數(shù)的增多，不僅手寫體漢字的識別率顯著提高，CNN識別手寫體漢字的時間也成倍增長。比較每次實驗中CNN 與2DPCA-CNN所花費的時間，可以發(fā)現(xiàn)CNN 層數(shù)越深，本文方法節(jié)省的時間也越多。

比較 3.3.1、3.3.2 和 3.3.3 節(jié)中的三次實驗，由圖 5～7 可以直觀地看出，隨著迭代次數(shù)的增加，2DPCA-CNN 與CNN 的識別率趨于穩(wěn)定并且識別率大小沒有明顯的差異。比較表2～4 中的每組數(shù)據(jù)和其平均值，可以看出每次實驗2DPCACNN 識別手寫體漢字的時間遠(yuǎn)遠(yuǎn)小于CNN 所花費的時間，證明了2DPCA 與CNN 相結(jié)合的方法與CNN 方法相比具有明顯的時間優(yōu)勢。

4 結(jié)語

近年來，在手寫體漢字識別領(lǐng)域比傳統(tǒng)方法好的深度學(xué)習(xí)模型主要是基于CNN 及其改進(jìn)方法的。但是CNN 也有其缺陷，比如需要大量的訓(xùn)練樣本、更深的CNN 模型來保持其精度。由于增加樣本和采用更深的CNN 模型需要大量的參數(shù)計算，這無疑增加了CNN 的訓(xùn)練時間。針對CNN 訓(xùn)練時間長的問題，本文采用了2DPCA 與CNN 相結(jié)合的手寫體漢字識別方法。該方法首先去除圖像中的冗余信息，得到手寫體漢字的特征矩陣；然后再將特征矩陣放入CNN 中進(jìn)行識別。由于特征矩陣的參數(shù)變少，因此將特征矩陣放入CNN 模型中進(jìn)行卷積、池化等運算，能明顯地降低CNN的運行時間。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡