屈薇
摘要:深度學(xué)習(xí)在圖像識(shí)別方面的應(yīng)用方面技術(shù)優(yōu)勢(shì)明顯。傳統(tǒng)的方法不能有效滿足當(dāng)前圖像識(shí)別要求,因此,深度學(xué)習(xí)是圖像識(shí)別研究的熱點(diǎn)?;诖?,文章論述了深度學(xué)習(xí)的基本思想,探討了深度學(xué)習(xí)常用模型,如深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)算法原理。
關(guān)鍵詞:深度學(xué)習(xí);圖像識(shí)別算法;深度神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)09-0121-02
0 引言
大數(shù)據(jù)時(shí)代圖像數(shù)據(jù)規(guī)模快速增長(zhǎng),如何從海量圖像數(shù)據(jù)中快速準(zhǔn)確地識(shí)別出有價(jià)值的圖像數(shù)據(jù)成為迫切需要解決的問(wèn)題?;谏疃葘W(xué)習(xí)借助深度神經(jīng)網(wǎng)絡(luò)構(gòu)建圖像識(shí)別算法,通過(guò)分層方式采集圖像的特征信息,自動(dòng)學(xué)習(xí)圖像的特征信息,從而高效識(shí)別圖像。在此背景下,基于深度學(xué)習(xí)的圖像識(shí)別算法不斷出現(xiàn),其中具有代表性的算法模型包括深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)這三種。而卷積神經(jīng)網(wǎng)絡(luò)是目前基于深度學(xué)習(xí)的最為理想的算法模型,文章重點(diǎn)論述了基于深度學(xué)習(xí)的圖像識(shí)別算法。
1 基本思想
作為仿真人腦的計(jì)算方式,深度學(xué)習(xí)的“深度”是其最大特點(diǎn),這里的深度即包含多個(gè)層次的隱含層,深度學(xué)習(xí)并非傳統(tǒng)的I/O關(guān)系而是端對(duì)端的關(guān)系。如含有n層隱含層的深層網(wǎng)絡(luò)S,其各個(gè)隱含層可以用表示,其中輸入為I,輸出為O,系統(tǒng)分布式可用,表示,其中表示一種輸入形式,當(dāng)輸入I為0時(shí),說(shuō)明輸入I經(jīng)過(guò)逐層變換后,輸入輸出之間的信息沒(méi)有丟失,表示每一個(gè)隱含層的信息量相等,但這里輸入輸出理論上相等,但在時(shí)間中往往更能會(huì)丟失,因此需要持續(xù)修正系統(tǒng)參數(shù),降輸入輸出之間的誤差降到最低,以獲取I的層次特征表示:。通過(guò)多層堆疊將上層輸出設(shè)為下層輸入,分級(jí)表達(dá)數(shù)據(jù),通過(guò)調(diào)節(jié)參數(shù)減少誤差,這是深度學(xué)習(xí)的基本思想。
2 基于深度學(xué)習(xí)的圖像識(shí)別算法研究
2.1 通過(guò)深度神經(jīng)網(wǎng)絡(luò)重構(gòu)MNIST數(shù)字圖像
MNIST是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院的大型數(shù)據(jù)集中的子數(shù)據(jù)庫(kù),是一個(gè)手寫(xiě)體數(shù)字庫(kù),樣本由分辨率為28*28的0到9數(shù)字樣本組成。MNIST數(shù)據(jù)集可以無(wú)需做預(yù)處理即可應(yīng)用,因而被作為識(shí)別技術(shù)研究首選數(shù)據(jù)庫(kù)。
用限制波爾茲曼機(jī)建立四層深度信念網(wǎng)絡(luò)可以對(duì)MNIST樣本進(jìn)行重新構(gòu)建。第一步,提取圖像數(shù)據(jù)的多維特征,通過(guò)修正參數(shù)降圖像數(shù)據(jù)I/O之間的信息誤差。第二步,降低圖像維度有效壓縮數(shù)據(jù),節(jié)約圖像儲(chǔ)存空間。
2.2 通過(guò)神經(jīng)網(wǎng)絡(luò)識(shí)別MNIST數(shù)字圖像
2.2.1 變換層
圖像包含一些固定的特征,且一部分特征與其它圖像的特征相同,卷積神經(jīng)網(wǎng)絡(luò)基于此規(guī)律實(shí)現(xiàn)權(quán)值共享,精簡(jiǎn)參數(shù)。圖像可以被是為一個(gè)平面,保留圖像二維特性,然后采用線性/非線性變換方式對(duì)圖像進(jìn)行處理。
非線性操作即激勵(lì)函數(shù),常見(jiàn)的有三種非線性激勵(lì)函數(shù)。第一:sigmoid函數(shù),當(dāng)前應(yīng)用較少,因?yàn)樯窠?jīng)元激活值在0或1 附近時(shí),區(qū)域梯度接近0,在反向傳播時(shí)最初幾層權(quán)值變化很小,如初始權(quán)值過(guò)大神經(jīng)元會(huì)快速達(dá)到飽和。當(dāng)神經(jīng)元處理數(shù)據(jù)中心非0時(shí)對(duì)梯度下降動(dòng)態(tài)性將產(chǎn)生負(fù)面影響。第二:雙曲正切函數(shù)。第三:右一為非線性修正函數(shù),相比前兩個(gè)函數(shù)非線性修正函數(shù)計(jì)算更簡(jiǎn)潔,因而應(yīng)用越來(lái)越廣泛,但非線性修正函數(shù)的大梯度值經(jīng)過(guò)ReLU神經(jīng)元時(shí)ReLU神經(jīng)元不會(huì)被激活,ReLU單元較脆弱。
2.2.2 池化層
卷積提取特征維度高,存在冗余,因此需要降低維度,為實(shí)現(xiàn)這個(gè)目的可以統(tǒng)計(jì)聚合圖像各位置特征。如計(jì)算圖像某區(qū)域的某特征的最大值、均值,達(dá)到降低特征維度的目的,這樣的處理方式成為聚合叫池化。
3 算法分析
文章采用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)圖像特征,達(dá)到識(shí)別圖像的目的。傳統(tǒng)圖像識(shí)別算法需預(yù)處理圖像,有著非常大的不確定性,易受人為因素影響,準(zhǔn)確性欠缺,而且需要進(jìn)行復(fù)雜的參數(shù)調(diào)節(jié)。而卷積神經(jīng)網(wǎng)絡(luò)可直接輸入二維圖像在初始圖像中識(shí)別出視覺(jué)模式,無(wú)需太多的預(yù)處理,受人為因素影響小。卷積神經(jīng)網(wǎng)絡(luò)時(shí)一種端到端學(xué)習(xí)網(wǎng)絡(luò),識(shí)別準(zhǔn)確率達(dá)99.16%?;诰矸e神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法中計(jì)算梯度的值來(lái)自于輸入樣本的數(shù)目。
根據(jù)上個(gè)計(jì)算公式可知,如樣本數(shù)量較少,程序能正常運(yùn)行,反之則需要消耗大量的計(jì)算資源和計(jì)算時(shí)間,計(jì)算速度非常慢,需要大量的硬件空間資源支持。隨機(jī)選擇樣本更新參數(shù)稱為隨機(jī)梯度下降,將造成嚴(yán)重的代價(jià)損失函數(shù)震蕩,帶來(lái)較大的數(shù)據(jù)誤差。
4 softmax回歸
softmax回歸器是logistic回歸拓展形式,logistic回歸通常用來(lái)處理二類分類的問(wèn)題,而softmax回歸器通常用于處理互斥的多類分類任務(wù)。訓(xùn)練集類標(biāo)簽可以取k個(gè)值,輸出一個(gè)k維向量,用于表示樣本屬于k個(gè)類別的概率值,每一個(gè)類別j估算得出的概率值為。
5 深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的應(yīng)用趨勢(shì)
隨著圖像識(shí)別需求的持續(xù)增加,深度學(xué)習(xí)技術(shù)的不斷發(fā)展,而可以遇見(jiàn)未來(lái),圖像識(shí)別中的深度學(xué)習(xí)應(yīng)用日益廣泛,朝著智能化方向不斷發(fā)展。接下來(lái)將論述深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域應(yīng)用趨勢(shì)。
5.1 模型的層次越來(lái)越多,模型的結(jié)構(gòu)越來(lái)越復(fù)雜
基于深度學(xué)習(xí)應(yīng)該對(duì)圖像特征進(jìn)行逐層模型構(gòu)建,假如網(wǎng)絡(luò)模型的深度不足將使計(jì)算單元快速增加,大幅提高圖像識(shí)別的難度,使得需要我們對(duì)圖像進(jìn)行更多的局部區(qū)域劃分,導(dǎo)致模型的層次大幅增加。通過(guò)對(duì)圖像的多層特征進(jìn)行深度學(xué)習(xí),深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)到的特征全局性日益增強(qiáng),識(shí)別還原出來(lái)的圖片真實(shí)感不斷提升。例如,2012年AlexNet奪得ImageNet圖像識(shí)別競(jìng)賽第一名使用的網(wǎng)模型采用2個(gè)全連接層、3個(gè)pool層、5個(gè)卷積層;2014年GoogLeNet奪得ILSVRC賽事第一名使用的網(wǎng)絡(luò)模型采用2個(gè)全連接層、16個(gè)pool層、59個(gè)卷積層。
5.2 深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)規(guī)模不斷擴(kuò)大
當(dāng)前深度學(xué)習(xí)模型復(fù)雜度呈快速上升趨勢(shì),需要識(shí)別的圖像特征大幅增加,這需要深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行規(guī)模更多的學(xué)習(xí)訓(xùn)練,也就需要更大規(guī)模的學(xué)習(xí)數(shù)據(jù)來(lái)滿足學(xué)習(xí)訓(xùn)練要求,從而提高圖像識(shí)別準(zhǔn)確度。現(xiàn)階段,深度學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)規(guī)模主要在幾十萬(wàn)、上百萬(wàn)級(jí),Google、百度等大型企業(yè)的深度學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)規(guī)模已達(dá)千萬(wàn)級(jí)、億級(jí),但還是不能完全滿足快速增加的深度學(xué)習(xí)訓(xùn)練需求。
5.3 深度學(xué)習(xí)模型識(shí)別精度不斷提升
隨著深度學(xué)習(xí)模型的不斷發(fā)展,圖像識(shí)別精度,識(shí)別速度大幅提高。如初期的R-CNN模型處理一張圖像需13秒,準(zhǔn)確率53.7%。2015年,F(xiàn)aster R-CNN模型圖像識(shí)別速度達(dá)17FPS,準(zhǔn)確率達(dá)78.8%。2016 年YOLO 模型圖像識(shí)別速度達(dá)45FPS,識(shí)別效率、識(shí)別精度大幅提升。
6 結(jié)語(yǔ)
綜上所述,文章首先針對(duì)深度學(xué)習(xí)的基本思想進(jìn)行了簡(jiǎn)要論述,闡述了基于深度信念網(wǎng)絡(luò)對(duì)MNIST數(shù)據(jù)集進(jìn)行圖像重構(gòu)的方法,獲得可以表征圖像集最有效的特征。通過(guò)構(gòu)建5層卷積神經(jīng)網(wǎng)絡(luò)識(shí)別MNIST圖像。揭示了網(wǎng)絡(luò)層次越深代表可以更加準(zhǔn)確高效地識(shí)別圖像特征。
參考文獻(xiàn)
[1] 楊雄.深度學(xué)習(xí)在網(wǎng)絡(luò)色情圖像識(shí)別中的研究與應(yīng)用[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,36(06):902-905.
[2] 周宇杰.深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的應(yīng)用現(xiàn)狀與優(yōu)勢(shì)[J].中國(guó)安防,2016(07):75-78.
[3] 李衛(wèi). 深度學(xué)習(xí)在圖像識(shí)別中的研究及應(yīng)用[D].武漢理工大學(xué),2014.
Abstract:Deep learning has obvious technical advantages in the application of image recognition. Traditional methods can not effectively meet the current requirements of image recognition. Therefore, depth learning is a hotspot in image recognition research. Based on this, the basic idea of deep learning is discussed, and the common models of deep learning, such as deep belief network and convolution neural network, are discussed.
Key words:depth learning; image recognition algorithm; depth neural network; convolution neural network