郭夢潔 楊夢卓 馬京九
摘 ?要:Keras是以TensorFlow+Theano為后端的深度學(xué)習(xí)框架,相比于TensorFlow,Keras更加靈活快速。相比于經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)對圖像的識別效率更高。文章基于Keras建立深度學(xué)習(xí)模型,以MNIST數(shù)據(jù)集為例,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練模型并進(jìn)行預(yù)測,得到的MNIST數(shù)據(jù)集識別模型,達(dá)到了99.23%的識別正確率。
關(guān)鍵詞:深度學(xué)習(xí);Keras;MNIST;數(shù)據(jù)集卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP751.1 ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)14-0018-03
Keras-based MNIST Data Set Recognition Model
GUO Mengjie1,YANG Mengzhuo1,MA Jingjiu2
(1.Anhui University,Hefei ?230601,China;2.Yangtze University,Wuhan ?430100,China)
Abstract:Keras is a deep learning framework based on TensorFlow+Theano. Keras is more flexible and faster than Tensorflow. Convolutional neural networks are more efficient at identifying images than classical neural network models. This paper builds a deep learning model based on Keras. Taking the MNIST data set as an example,constructing a convolutional neural network,training the model and predicting it,the obtained MNIST dataset recognition model achieves a recognition accuracy rate of 99.23%.
Keywords:deep learning;Keras;MNIST;data set convolution neural network
0 ?引 ?言
近年來,深度學(xué)習(xí)受到熱捧,發(fā)展勢頭迅猛,卷積神經(jīng)網(wǎng)絡(luò)已成為處理圖像數(shù)據(jù)的主流深度神經(jīng)網(wǎng)絡(luò)。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型通過調(diào)試神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),如隱藏層的數(shù)目、激活函數(shù)和優(yōu)化方法的選擇,也能在MNIST數(shù)據(jù)集上達(dá)到很好的正確率,但訓(xùn)練模型耗時長,需要編寫大量代碼。Keras以其強(qiáng)大的API,能快速調(diào)用模塊,定義模型,編譯模型并優(yōu)化算法。為此,這里基于Keras構(gòu)建深度學(xué)習(xí)框架,以最少的代碼,最高的效率,建立識別MNIST數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)模型。
1 ?MINIST數(shù)據(jù)集
MNIST數(shù)據(jù)集是Yann Lecun基于美國國家標(biāo)準(zhǔn)技術(shù)研究所構(gòu)建的一個研究深度學(xué)習(xí)的手寫數(shù)字的數(shù)據(jù)集,MNIST由70000張不同的人手寫的灰度圖組成,其中的每一張圖片都寫有0~9中的一個數(shù)字。訓(xùn)練圖像有600 00張,測試圖像有10000張,其圖像數(shù)據(jù)是28*28像素的灰度圖像。我們的識別模型就是根據(jù)這些圖片進(jìn)行0~9的10分類。如圖1展示了數(shù)字1及其對應(yīng)的14*14的像素矩陣。
MNIST數(shù)據(jù)集的一般使用方法是,先用訓(xùn)練圖像進(jìn)行學(xué)習(xí),再用學(xué)習(xí)到的模型度量能在多大程度上對測試圖像進(jìn)行正確的分類。輸出層的分類使用Softmax回歸算法,選擇概率值最大的那個數(shù)字輸出。
2 ?激活函數(shù)
為了實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的非線性建模能力,解決一些線性不可分的問題,我們通常使用激活函數(shù)將神經(jīng)網(wǎng)絡(luò)非線性化,它需要滿足數(shù)據(jù)的輸入和輸出都是可微的,因?yàn)樵谶M(jìn)行反向傳播的時候,需要對激活函數(shù)求導(dǎo)。常用的激活函數(shù)有Softmax、tanh、Relu等。
2.1 ?Softmax函數(shù)
Softmax(xj)=,分子是輸入信號xj的指數(shù)函數(shù),分母是所有輸入信號的指數(shù)函數(shù)的和,因此,Softmax函數(shù)的輸出值的總和是1。
Softmax回歸本身可以作為一個學(xué)習(xí)算法來優(yōu)化分類結(jié)果,但在TensorFlow中,Softmax回歸的參數(shù)被去掉了,它只是一層額外的處理層,將神經(jīng)網(wǎng)絡(luò)的輸出變成一個概率輸出。
2.2 ?Relu函數(shù)
Relu函數(shù)在輸入大于0時,直接輸出該值;在輸入小于等于0時,Relu是完全不被激活的,輸出為0。其數(shù)學(xué)公式為:
3 ?構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字
20世紀(jì)60年代,Hubel和Wiesel在研究貓腦皮層中用局部敏感和方向選擇的神經(jīng)元時,發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò),簡稱CNN。CNN是一種專門用來處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其模型主要以卷積為核心。
如圖2所示,一個卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層和Softmax層構(gòu)成。輸入層是整個神經(jīng)網(wǎng)絡(luò)的輸入,對于圖像而言,輸入層就是一張圖片的像素矩陣;Softmax層用來輸出當(dāng)前樣例屬于不同類別的一個一維概率輸出向量。
卷積層是一個卷積神經(jīng)網(wǎng)絡(luò)中最為重要的部分。和傳統(tǒng)的全連接層不同,卷積層中每一個節(jié)點(diǎn)的輸入只是上一層神經(jīng)網(wǎng)絡(luò)的一小塊,這個小塊常用的大小有3*3或者5*5。卷積層試圖將神經(jīng)網(wǎng)絡(luò)中的每一塊進(jìn)行更加深入的分析從而得到抽象程度更高的特征。一般來說,通過卷積層處理過的節(jié)點(diǎn)矩陣的深度會增加。
池化層神經(jīng)網(wǎng)絡(luò)是用來縮小數(shù)據(jù)規(guī)模的一種非線性計算,它不會改變?nèi)S矩陣的深度,但它可以縮小矩陣的大小。池化操作可以認(rèn)為是將一張分辨率較高的圖片轉(zhuǎn)化為分辨率較低的圖片。通過池化層可以進(jìn)一步縮小最后全連接層中節(jié)點(diǎn)的個數(shù),從而達(dá)到減少整個神經(jīng)網(wǎng)絡(luò)中參數(shù)的目的。一般有最大池化和平均池化兩種類型可供選擇。
全連接層用來將前面經(jīng)過幾輪卷積層和池化層提取的多維特征進(jìn)行整合,以給出最后的分類結(jié)果傳給Softmax進(jìn)行概率輸出。
3.1 ?利用Keras建立模型
實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng),采用編程語言python,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架采用Keras框架,導(dǎo)入Keras的相關(guān)模塊,基于Keras構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)模型,模型的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
從表1可看出構(gòu)建的模型由兩個卷積層、一個池化層、兩個全連接層構(gòu)成。輸入層輸入尺寸大小為28*28*1的mnist數(shù)據(jù)。經(jīng)過第一層卷積,使用32個3*3的卷積核,激活函數(shù)使用Relu,其輸出尺寸為26*26*32;經(jīng)過第二層卷積,使用64個3*3的卷積核,激活函數(shù)使用Relu函數(shù),其輸出尺寸為24*24*64;再通過最大池化層縮小矩陣大小,池化窗口為2*2,得到的輸出尺寸為12*12*64。在這里為了防止過擬合,加入Dropout正則化,隨機(jī)丟棄25%的神經(jīng)元,以達(dá)到簡化參數(shù)的目的,但并不影響尺寸大小。最后通過Flatten將卷積和池化提取的三維特征向量一維化。在第一個全連接層時,參數(shù)有1179776個,考慮到過多的參數(shù)會造成過擬合,加入Dropout再通過Softmax回歸輸出結(jié)果。
3.2 ?訓(xùn)練模型
針對構(gòu)建的模型應(yīng)用于歸一化后的MNIST數(shù)據(jù)集進(jìn)行特征提取與訓(xùn)練,Batch Size=128,epoch=10。在這里,我們選擇了Keras中多分類損失函數(shù)categorical_crossentropy,優(yōu)化器使用Adam。使用訓(xùn)練好的模型對MNIST訓(xùn)練集進(jìn)行測試,迭代10次后準(zhǔn)確率達(dá)到了99.20%。模型在測試集上達(dá)到的最高準(zhǔn)確率為99.23%。具體迭代過程如表2所示。
4 ?結(jié) ?論
本文基于Keras搭建卷積神經(jīng)網(wǎng)絡(luò),以MNIST數(shù)據(jù)集為例進(jìn)行了學(xué)習(xí)分析和應(yīng)用實(shí)踐,模型的準(zhǔn)確率達(dá)到了99.23%,是非??捎^的。但是應(yīng)用于實(shí)際,還需要搜集不同人群手寫的數(shù)字進(jìn)行測試,以考察模型真正的泛化能力,對訓(xùn)練模型進(jìn)一步改進(jìn),還可以將模型進(jìn)行推廣應(yīng)用于漢字識別等圖像識別項(xiàng)目。
參考文獻(xiàn):
[1] [美]Peter Harrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn) [M].李銳,李鵬,曲亞東,等譯.北京:人民郵電出版社,2013.
[2] 王振,高茂庭.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法設(shè)計與實(shí)現(xiàn) [J].現(xiàn)代計算機(jī)(專業(yè)版),2015(20):61-66.
[3] 蔣子陽.Tensorflow深度學(xué)習(xí)算法原理與編程實(shí)戰(zhàn) [M].北京:中國水利水電出版社,2019:301-306.
[4] Szegedy C,Liu W,Jia Y,et al. Going deeper with convoluteons [C].Boston:IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
作者簡介:郭夢潔(1996-),女,漢族,安徽安慶人,碩士,研究方向:深度學(xué)習(xí);楊夢卓(1995-),女,漢族,安徽六安人,碩士,研究方向:深度學(xué)習(xí);馬京久(1995-),男,漢族,安徽安慶人,碩士,研究方向:水文水生態(tài)。