国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)AlexNet卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體數(shù)字識(shí)別

2021-12-23 07:48謝東陽(yáng)李麗宏苗長(zhǎng)勝
關(guān)鍵詞:卷積尺寸神經(jīng)網(wǎng)絡(luò)

謝東陽(yáng), 李麗宏, 苗長(zhǎng)勝

(河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲 056038)

手寫(xiě)體數(shù)字識(shí)別是光學(xué)字符識(shí)別(Optical Character Recognition,OCR)的一個(gè)分支,是利用計(jì)算機(jī)將圖片中的文字信息轉(zhuǎn)換為計(jì)算機(jī)語(yǔ)言的過(guò)程。數(shù)字識(shí)別是一種圖像分類(lèi)問(wèn)題,一直是機(jī)器深度學(xué)習(xí)的一個(gè)熱點(diǎn)研究問(wèn)題,在快遞單號(hào)、財(cái)務(wù)報(bào)表、手寫(xiě)票據(jù)等領(lǐng)域廣泛應(yīng)用[1-2]。數(shù)字識(shí)別的重點(diǎn)在于算法對(duì)圖像本身的特征提取,傳統(tǒng)的分類(lèi)算法都存在特征提取不充分的問(wèn)題,如貝葉斯分類(lèi)法、K最近鄰算法、支持向量機(jī)(Support Vector Machines,SVM)、BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)等[3]。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的出現(xiàn),極大地提高了手寫(xiě)數(shù)字識(shí)別的準(zhǔn)確率。CNN是由美國(guó)學(xué)者Cun提出的一種深度前饋人工神經(jīng)網(wǎng)絡(luò),包括卷積層、池化層、全連接層和輸出層[4]。CNN通過(guò)對(duì)提取到的圖像特征自動(dòng)學(xué)習(xí),能夠獲得更高層次的特征表達(dá),使學(xué)習(xí)到的特征信息具有更好的泛化能力[5]。鄧長(zhǎng)銀等[6]通過(guò)改變LeNet-5模型的網(wǎng)絡(luò)層數(shù)、激活函數(shù)以及輸入圖片的尺寸,相較傳統(tǒng)方法識(shí)別率有所提高。茹曉青[7]等提出了一種基于形變卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法,利用形變卷積代替VGG16模型中的普通卷積,提高了多變外觀數(shù)字的識(shí)別精度。陳玄等[8]提出了一種融合卷積神經(jīng)網(wǎng)絡(luò),通過(guò)融合兩種網(wǎng)絡(luò)的高級(jí)特征,增加網(wǎng)絡(luò)層的高級(jí)尺寸,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力,識(shí)別的精度高于兩種模型單獨(dú)使用。

盡管卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)任務(wù)中表現(xiàn)優(yōu)越,但是對(duì)于分辨率較小的圖像,深度網(wǎng)絡(luò)會(huì)浪費(fèi)過(guò)多的計(jì)算資源。本文以AlexNet網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),減小模型的卷積核尺寸與數(shù)量,引入Inception-Resnet模塊提升算法的特征提取能力,并使用批標(biāo)準(zhǔn)化 (Batch Normalization,BN)加快模型的訓(xùn)練速度。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析,驗(yàn)證了本文方法的有效性。

1 相關(guān)工作

1.1 AlexNet網(wǎng)絡(luò)

AlexNet是由多倫多大學(xué)的Krizhevsky等[9]在2012年提出的,并在當(dāng)年的ImageNet大賽上打破了圖像分類(lèi)的記錄獲得了比賽的冠軍,使圖像分類(lèi)的準(zhǔn)確率提高了一倍多。

AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,AlexNet網(wǎng)絡(luò)模型結(jié)構(gòu)簡(jiǎn)潔,由5層卷積層、2層隱藏全連接層和一層輸出全連接層組成。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)使用ReLu代替Sigmoid作為激活函數(shù),能有效地解決Sigmoid在層數(shù)較多的網(wǎng)絡(luò)結(jié)構(gòu)中出現(xiàn)的梯度彌散問(wèn)題。同時(shí)網(wǎng)絡(luò)在全連接層后添加Dropout操作,利用隨機(jī)隱退神經(jīng)元個(gè)數(shù)的方法,在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中減少模型的參數(shù)量,能夠有效地防止過(guò)擬合現(xiàn)象的出現(xiàn)。在Relu激活函數(shù)后添加局部響應(yīng)歸一化(Local Response Norm,LRN),通過(guò)對(duì)局部神經(jīng)元?jiǎng)?chuàng)建響應(yīng)競(jìng)爭(zhēng)機(jī)制,提高了網(wǎng)絡(luò)的泛化能力。使用重疊的最大池化層代替平均池化,很好地解決了平均池化的模糊問(wèn)題,同時(shí)在一定程度上提高了圖像特征的豐富性。AlexNet模型相比于LeNet5和傳統(tǒng)的機(jī)器學(xué)習(xí)方法具有更高的識(shí)別精度,但是本身的參數(shù)量巨大,模型的訓(xùn)練時(shí)間長(zhǎng),識(shí)別速度慢。

圖1 AlexNet網(wǎng)絡(luò)模型Fig.1 AlexNet network model

1.2 Inception-Resnet模塊

Inception模塊將多個(gè)卷積層與一個(gè)池化層并聯(lián)在網(wǎng)絡(luò)中,模型在訓(xùn)練的過(guò)程中自主選擇使用哪種方式獲取特征信息,不需要人為地確定參數(shù),是一種高效的稀疏結(jié)構(gòu),有利于提取到豐富的特征[10]。使用多種尺寸的卷積核,提取不同層次的特征,增加了特征的多樣性。Inception將不同尺寸的特征融合在一起有利于后面的分類(lèi)任務(wù)。并利用小卷積代替大卷積,使用1×n,n×1的非對(duì)稱(chēng)卷積代替n×n的卷積核,大大減少了網(wǎng)絡(luò)的參數(shù)量,提升了網(wǎng)絡(luò)的運(yùn)算速度。Inception結(jié)構(gòu)增加了網(wǎng)絡(luò)的寬度,在深層卷積神經(jīng)網(wǎng)絡(luò)中能提高網(wǎng)絡(luò)的魯棒性和泛化能力。

殘差網(wǎng)絡(luò)(Residual Network,ResNet)是He[11]在2016年提出的一種深層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于解決在模型深度加大時(shí)出現(xiàn)的網(wǎng)絡(luò)退化現(xiàn)象,提升網(wǎng)絡(luò)的深度。ResNet運(yùn)用殘差學(xué)習(xí)的思想,在數(shù)據(jù)傳輸過(guò)程中添加一個(gè)shortcut連接,使信息可以直接傳輸?shù)饺我粚?,保護(hù)了信息的完整性,能獲得表達(dá)能力更強(qiáng)的特征,加速網(wǎng)絡(luò)的訓(xùn)練。

Inception-Resnet-v2模型是谷歌團(tuán)隊(duì)在2016年發(fā)布的卷積神經(jīng)網(wǎng)絡(luò),是Szegedy在Inception結(jié)構(gòu)的基礎(chǔ)上與ResNet相結(jié)合提出的一種新的網(wǎng)絡(luò)結(jié)構(gòu),使網(wǎng)絡(luò)的深度進(jìn)一步增加,并增強(qiáng)了網(wǎng)絡(luò)的非線(xiàn)性,加速了網(wǎng)絡(luò)的訓(xùn)練。

1.3 Batch Normalization

(1)

(2)

對(duì)輸入進(jìn)行歸一化處理

(3)

式中:ε為一個(gè)極小值,防止分母為0,k表示當(dāng)前的維度。這樣就將每個(gè)batch的輸入數(shù)據(jù)歸一化到N(0, 1)的正態(tài)分布。但是只對(duì)數(shù)據(jù)進(jìn)行歸一化可能會(huì)改變?cè)据斎霐?shù)據(jù)的特性或分布,會(huì)影響到當(dāng)前層所學(xué)習(xí)到的特征,所以又引入了兩個(gè)超參數(shù)對(duì)正態(tài)分布進(jìn)行平移和縮放:

(4)

式中:γ表示縮放,β表示平移,一般初始化γ=1,β=0。

BN層使模型可以使用大的學(xué)習(xí)率,加快網(wǎng)絡(luò)的收斂速度;有類(lèi)似于Dropout和正則化的效果,能防止網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,提高模型的泛化能力。

2 算法改進(jìn)

原始AlexNet模型的輸入尺寸為224×224,為了使AlexNet模型能應(yīng)用于MINIST數(shù)據(jù)集,將模型的第一個(gè)卷積層的卷積核從11×11改為5×5,步長(zhǎng)從4改為1,改變后的模型剛好能實(shí)現(xiàn)分辨率為28×28的MINIST數(shù)據(jù)集的識(shí)別任務(wù),得到了99.33%的識(shí)別精度。

更改后的AlexNet模型雖然能實(shí)現(xiàn)手寫(xiě)數(shù)字識(shí)別,但是Conv1和Conv2使用的是5×5的大卷積核,相對(duì)于28×28分辨率的圖像來(lái)說(shuō)尺寸較大,不能提取到足夠的細(xì)節(jié)特征。為了提取更多的細(xì)節(jié)特征,使用兩個(gè)3×3的卷積核堆疊,以獲取和5×5卷積核相同的感受野,同時(shí)能減少模型的參數(shù)量。將模型中前兩層最大池化的池化核從3×3修改為2×2,縮小特征圖尺寸的同時(shí),進(jìn)一步地減少了模型的參數(shù)量。

但是AlexNet的Conv3、Conv4和Conv5這三個(gè)卷積層的特征圖尺寸都為3×3,特征圖尺寸過(guò)小,通過(guò)卷積層的堆疊并不能提取到足夠的特征信息,反而會(huì)浪費(fèi)計(jì)算資源。為了獲得更加豐富的特征信息,使用改進(jìn)后的Inception-resnet結(jié)構(gòu)替換原模型中的Conv3和Conv4,使模型能學(xué)習(xí)到不同尺寸的特征信息,提升模型的特征提取能力,有助于分類(lèi)器的分類(lèi)。改進(jìn)后的Inception-resnet結(jié)構(gòu)如圖2所示,在模塊中每層卷積層之后添加BN層,將數(shù)據(jù)規(guī)范化處理,增快網(wǎng)絡(luò)的收斂速度。

圖2 添加的Inception-resnet模塊Fig.2 Inception-resnet module added

在AlexNet模型中使用了兩個(gè)隱藏全連接層,由于全連接層的參數(shù)量巨大,因此刪除一個(gè)全連接層,降低模型的參數(shù)量。為了使模型能夠快速收斂,在每一個(gè)卷積層之后,激活函數(shù)之前使用BN對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,加速網(wǎng)絡(luò)的訓(xùn)練。改進(jìn)后模型的具體參數(shù)說(shuō)明如表1所示。

表1 改進(jìn)模型具體參數(shù)

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)平臺(tái)

本實(shí)驗(yàn)平臺(tái)為戴爾筆記本,處理器為Intel(R) Core(TM) i5,4 GB內(nèi)存,主頻:1.7 GHz。運(yùn)行環(huán)境為Win10 64操作系統(tǒng),編譯器為Pycharm,編程語(yǔ)言為Python。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

MNIST數(shù)據(jù)集是一個(gè)手寫(xiě)體數(shù)字識(shí)別數(shù)據(jù)集,包含50 000條訓(xùn)練數(shù)據(jù)集和10 000條測(cè)試數(shù)據(jù)集。數(shù)據(jù)集包含250個(gè)不同人手寫(xiě)的阿拉伯?dāng)?shù)字0~9,共10類(lèi)手寫(xiě)體數(shù)字圖像。每條數(shù)據(jù)集由圖像和標(biāo)簽組成,每張圖像的大小為28×28=784的一維數(shù)組,標(biāo)簽類(lèi)型為One-Hot-Encoding編碼格式。部分?jǐn)?shù)據(jù)集圖像如圖3所示。

圖3 MNIST數(shù)據(jù)集部分圖像Fig.3 Partial images of the MNIST data set

3.3 實(shí)驗(yàn)結(jié)果

本文以AlexNet模型為基礎(chǔ)融合Inception-ResNet-C結(jié)構(gòu)進(jìn)行算法的改進(jìn),在MNIST數(shù)據(jù)集上進(jìn)行驗(yàn)證,設(shè)置訓(xùn)練的mini-batch為32,訓(xùn)練周期為30次,每次的訓(xùn)練樣本數(shù)為1 875。使用Adam優(yōu)化器對(duì)梯度反向傳播進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,經(jīng)過(guò)2個(gè)世代val-Loss不減少將學(xué)習(xí)率下調(diào)為原來(lái)的一半,加入Early Stopping機(jī)制,當(dāng)val-loss經(jīng)過(guò)6個(gè)世代不再減少時(shí)停止網(wǎng)絡(luò)的訓(xùn)練。圖4(a)為AlexNet網(wǎng)絡(luò)與本文算法在MNIST數(shù)據(jù)集上的訓(xùn)練損失函數(shù)曲線(xiàn)圖,可以看出本文算法在訓(xùn)練過(guò)程中的收斂速度快于AlexNet網(wǎng)絡(luò),說(shuō)明改進(jìn)后的算法提高了模型的訓(xùn)練速度。圖4(b)為兩種算法的測(cè)試準(zhǔn)確率曲線(xiàn)圖,可以看出改進(jìn)后的算法在測(cè)試時(shí)的識(shí)別率高于AlexNet模型,說(shuō)明改進(jìn)后的方法有效地提升了手寫(xiě)數(shù)字識(shí)別的精度。

圖4 模型訓(xùn)練與測(cè)試效果對(duì)比圖Fig.4 Comparison of model training and test results

本文方法是在AlexNet基礎(chǔ)上進(jìn)行的改進(jìn),其參數(shù)量從2.1×107減少到8×105為原來(lái)的1/26,模型訓(xùn)練一個(gè)世代的時(shí)間從1 400 s減少到280 s,為原來(lái)的1/5,大大加快了訓(xùn)練的速度,并且比AlexNet的準(zhǔn)確率提高了0.33%。為了驗(yàn)證本文算法的有效性,與其他算法進(jìn)行比較,結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明改進(jìn)后的算法有效地提高了網(wǎng)絡(luò)的檢測(cè)精度。

表2 不同算法的比較

4 結(jié)論

本文提出基于改進(jìn)AlexNet卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體數(shù)字識(shí)別方法,利用Inception-resnet模塊提取多層特征并融合,提高了模型特征的學(xué)習(xí)能力;通過(guò)BN層對(duì)輸入數(shù)據(jù)進(jìn)行批歸一化處理,有效地提升了模型的泛化能力;減少模型卷積核的數(shù)量,大大減少了網(wǎng)絡(luò)的參數(shù)量,提升了模型的訓(xùn)練速度。利用MNIST手寫(xiě)體數(shù)字集進(jìn)行實(shí)驗(yàn),本文算法的檢測(cè)精度達(dá)到了99.66%,相比于AlexNet模型提升了0.33%,與LeNet5模型相比提升了0.44%,證明了本文算法的有效性。

猜你喜歡
卷積尺寸神經(jīng)網(wǎng)絡(luò)
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶(hù)熱負(fù)荷預(yù)測(cè)
CIIE Shows Positive Energy of Chinese Economy
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對(duì)地攻擊型無(wú)人機(jī)自主能力評(píng)價(jià)
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱(chēng)空洞卷積模塊①
更換一只更大尺寸的低音炮和再買(mǎi)一只相同尺寸的低音炮 哪種方法比較合適?
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
周至县| 叙永县| 论坛| 台中县| 南木林县| 张家界市| 上栗县| 凤城市| 屯昌县| 长治市| 竹山县| 巴青县| 容城县| 绥宁县| 蓬溪县| 额尔古纳市| 武威市| 石楼县| 容城县| 长白| 德令哈市| 涞水县| 新宾| 武定县| 吉安市| 隆德县| 漳平市| 阳信县| 南开区| 伊吾县| 长沙县| 漳浦县| 静宁县| 灌南县| 贡嘎县| 阳城县| 巨野县| 武冈市| 五莲县| 新沂市| 绩溪县|