基于Keras的MNIST數(shù)據(jù)集識別模型

2019-09-10 07:22郭夢潔楊夢卓馬京九

現(xiàn)代信息科技 2019年14期

郭夢潔楊夢卓馬京九

摘 ?要：Keras是以TensorFlow+Theano為后端的深度學(xué)習(xí)框架，相比于TensorFlow，Keras更加靈活快速。相比于經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型，卷積神經(jīng)網(wǎng)絡(luò)對圖像的識別效率更高。文章基于Keras建立深度學(xué)習(xí)模型，以MNIST數(shù)據(jù)集為例，構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)，訓(xùn)練模型并進(jìn)行預(yù)測，得到的MNIST數(shù)據(jù)集識別模型，達(dá)到了99.23%的識別正確率。

關(guān)鍵詞：深度學(xué)習(xí);Keras;MNIST;數(shù)據(jù)集卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號：TP751.1 ? ? 文獻(xiàn)標(biāo)識碼：A 文章編號：2096-4706（2019）14-0018-03

Keras-based MNIST Data Set Recognition Model

GUO Mengjie1，YANG Mengzhuo1，MA Jingjiu2

（1.Anhui University，Hefei ?230601，China;2.Yangtze University，Wuhan ?430100，China）

Abstract：Keras is a deep learning framework based on TensorFlow+Theano. Keras is more flexible and faster than Tensorflow. Convolutional neural networks are more efficient at identifying images than classical neural network models. This paper builds a deep learning model based on Keras. Taking the MNIST data set as an example，constructing a convolutional neural network，training the model and predicting it，the obtained MNIST dataset recognition model achieves a recognition accuracy rate of 99.23%.

Keywords：deep learning;Keras;MNIST;data set convolution neural network

0 ?引 ?言

近年來，深度學(xué)習(xí)受到熱捧，發(fā)展勢頭迅猛，卷積神經(jīng)網(wǎng)絡(luò)已成為處理圖像數(shù)據(jù)的主流深度神經(jīng)網(wǎng)絡(luò)。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型通過調(diào)試神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，如隱藏層的數(shù)目、激活函數(shù)和優(yōu)化方法的選擇，也能在MNIST數(shù)據(jù)集上達(dá)到很好的正確率，但訓(xùn)練模型耗時長，需要編寫大量代碼。Keras以其強(qiáng)大的API，能快速調(diào)用模塊，定義模型，編譯模型并優(yōu)化算法。為此，這里基于Keras構(gòu)建深度學(xué)習(xí)框架，以最少的代碼，最高的效率，建立識別MNIST數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)模型。

1 ?MINIST數(shù)據(jù)集

MNIST數(shù)據(jù)集是Yann Lecun基于美國國家標(biāo)準(zhǔn)技術(shù)研究所構(gòu)建的一個研究深度學(xué)習(xí)的手寫數(shù)字的數(shù)據(jù)集，MNIST由70000張不同的人手寫的灰度圖組成，其中的每一張圖片都寫有0～9中的一個數(shù)字。訓(xùn)練圖像有600 00張，測試圖像有10000張，其圖像數(shù)據(jù)是28*28像素的灰度圖像。我們的識別模型就是根據(jù)這些圖片進(jìn)行0～9的10分類。如圖1展示了數(shù)字1及其對應(yīng)的14*14的像素矩陣。

MNIST數(shù)據(jù)集的一般使用方法是，先用訓(xùn)練圖像進(jìn)行學(xué)習(xí)，再用學(xué)習(xí)到的模型度量能在多大程度上對測試圖像進(jìn)行正確的分類。輸出層的分類使用Softmax回歸算法，選擇概率值最大的那個數(shù)字輸出。

2 ?激活函數(shù)

為了實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的非線性建模能力，解決一些線性不可分的問題，我們通常使用激活函數(shù)將神經(jīng)網(wǎng)絡(luò)非線性化，它需要滿足數(shù)據(jù)的輸入和輸出都是可微的，因?yàn)樵谶M(jìn)行反向傳播的時候，需要對激活函數(shù)求導(dǎo)。常用的激活函數(shù)有Softmax、tanh、Relu等。

2.1 ?Softmax函數(shù)

Softmax（xj）=，分子是輸入信號xj的指數(shù)函數(shù)，分母是所有輸入信號的指數(shù)函數(shù)的和，因此，Softmax函數(shù)的輸出值的總和是1。

Softmax回歸本身可以作為一個學(xué)習(xí)算法來優(yōu)化分類結(jié)果，但在TensorFlow中，Softmax回歸的參數(shù)被去掉了，它只是一層額外的處理層，將神經(jīng)網(wǎng)絡(luò)的輸出變成一個概率輸出。

2.2 ?Relu函數(shù)

Relu函數(shù)在輸入大于0時，直接輸出該值;在輸入小于等于0時，Relu是完全不被激活的，輸出為0。其數(shù)學(xué)公式為：

3 ?構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字

20世紀(jì)60年代，Hubel和Wiesel在研究貓腦皮層中用局部敏感和方向選擇的神經(jīng)元時，發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，繼而提出了卷積神經(jīng)網(wǎng)絡(luò)，簡稱CNN。CNN是一種專門用來處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，其模型主要以卷積為核心。

如圖2所示，一個卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層和Softmax層構(gòu)成。輸入層是整個神經(jīng)網(wǎng)絡(luò)的輸入，對于圖像而言，輸入層就是一張圖片的像素矩陣;Softmax層用來輸出當(dāng)前樣例屬于不同類別的一個一維概率輸出向量。

卷積層是一個卷積神經(jīng)網(wǎng)絡(luò)中最為重要的部分。和傳統(tǒng)的全連接層不同，卷積層中每一個節(jié)點(diǎn)的輸入只是上一層神經(jīng)網(wǎng)絡(luò)的一小塊，這個小塊常用的大小有3*3或者5*5。卷積層試圖將神經(jīng)網(wǎng)絡(luò)中的每一塊進(jìn)行更加深入的分析從而得到抽象程度更高的特征。一般來說，通過卷積層處理過的節(jié)點(diǎn)矩陣的深度會增加。

池化層神經(jīng)網(wǎng)絡(luò)是用來縮小數(shù)據(jù)規(guī)模的一種非線性計算，它不會改變?nèi)S矩陣的深度，但它可以縮小矩陣的大小。池化操作可以認(rèn)為是將一張分辨率較高的圖片轉(zhuǎn)化為分辨率較低的圖片。通過池化層可以進(jìn)一步縮小最后全連接層中節(jié)點(diǎn)的個數(shù)，從而達(dá)到減少整個神經(jīng)網(wǎng)絡(luò)中參數(shù)的目的。一般有最大池化和平均池化兩種類型可供選擇。

全連接層用來將前面經(jīng)過幾輪卷積層和池化層提取的多維特征進(jìn)行整合，以給出最后的分類結(jié)果傳給Softmax進(jìn)行概率輸出。

3.1 ?利用Keras建立模型

實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng)，采用編程語言python，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架采用Keras框架，導(dǎo)入Keras的相關(guān)模塊，基于Keras構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)模型，模型的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

從表1可看出構(gòu)建的模型由兩個卷積層、一個池化層、兩個全連接層構(gòu)成。輸入層輸入尺寸大小為28*28*1的mnist數(shù)據(jù)。經(jīng)過第一層卷積，使用32個3*3的卷積核，激活函數(shù)使用Relu，其輸出尺寸為26*26*32;經(jīng)過第二層卷積，使用64個3*3的卷積核，激活函數(shù)使用Relu函數(shù)，其輸出尺寸為24*24*64;再通過最大池化層縮小矩陣大小，池化窗口為2*2，得到的輸出尺寸為12*12*64。在這里為了防止過擬合，加入Dropout正則化，隨機(jī)丟棄25%的神經(jīng)元，以達(dá)到簡化參數(shù)的目的，但并不影響尺寸大小。最后通過Flatten將卷積和池化提取的三維特征向量一維化。在第一個全連接層時，參數(shù)有1179776個，考慮到過多的參數(shù)會造成過擬合，加入Dropout再通過Softmax回歸輸出結(jié)果。

3.2 ?訓(xùn)練模型

針對構(gòu)建的模型應(yīng)用于歸一化后的MNIST數(shù)據(jù)集進(jìn)行特征提取與訓(xùn)練，Batch Size=128，epoch=10。在這里，我們選擇了Keras中多分類損失函數(shù)categorical_crossentropy，優(yōu)化器使用Adam。使用訓(xùn)練好的模型對MNIST訓(xùn)練集進(jìn)行測試，迭代10次后準(zhǔn)確率達(dá)到了99.20%。模型在測試集上達(dá)到的最高準(zhǔn)確率為99.23%。具體迭代過程如表2所示。

4 ?結(jié) ?論

本文基于Keras搭建卷積神經(jīng)網(wǎng)絡(luò)，以MNIST數(shù)據(jù)集為例進(jìn)行了學(xué)習(xí)分析和應(yīng)用實(shí)踐，模型的準(zhǔn)確率達(dá)到了99.23%，是非?？捎^的。但是應(yīng)用于實(shí)際，還需要搜集不同人群手寫的數(shù)字進(jìn)行測試，以考察模型真正的泛化能力，對訓(xùn)練模型進(jìn)一步改進(jìn)，還可以將模型進(jìn)行推廣應(yīng)用于漢字識別等圖像識別項(xiàng)目。

參考文獻(xiàn)：

[1] [美]Peter Harrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn) [M].李銳，李鵬，曲亞東，等譯.北京：人民郵電出版社，2013.

[2] 王振，高茂庭.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法設(shè)計與實(shí)現(xiàn) [J].現(xiàn)代計算機(jī)（專業(yè)版），2015（20）：61-66.

[3] 蔣子陽.Tensorflow深度學(xué)習(xí)算法原理與編程實(shí)戰(zhàn) [M].北京：中國水利水電出版社，2019：301-306.

[4] Szegedy C，Liu W，Jia Y，et al. Going deeper with convoluteons [C].Boston：IEEE Conference on Computer Vision and Pattern Recognition，2015：1-9.

作者簡介：郭夢潔（1996-），女，漢族，安徽安慶人，碩士，研究方向：深度學(xué)習(xí);楊夢卓（1995-），女，漢族，安徽六安人，碩士，研究方向：深度學(xué)習(xí);馬京久（1995-），男，漢族，安徽安慶人，碩士，研究方向：水文水生態(tài)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Keras的MNIST數(shù)據(jù)集識別模型