国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)模型的圖像識別應(yīng)用研究

2020-12-16 09:11:26張寶燕
山西電子技術(shù) 2020年6期
關(guān)鍵詞:圖像識別卷積神經(jīng)網(wǎng)絡(luò)

張寶燕

(晉中學(xué)院,山西 晉中 030600)

0 引言

如今,圖像識別由于其廣泛的應(yīng)用而成為一個重要的研究領(lǐng)域。對于手寫分類等圖像識別問題,特征提取的好壞對提取結(jié)果至關(guān)重要。針對手寫體字符識別問題,Huang等人[1]從筆畫中提取出字符的結(jié)構(gòu)特征,并將其用于手寫體字符的識別。Rui等人[2]采用形態(tài)學(xué)方法改進(jìn)字符的局部特征,然后利用PCA提取字符的特征。這些方法都需要手動從圖像中提取特征。模型的預(yù)測能力對建模者的先驗知識有很強(qiáng)的依賴性。在計算機(jī)視覺領(lǐng)域,由于特征向量的高維性,手工特征提取非常繁瑣和不切實際[3]。

近年來,大多數(shù)分類和回歸機(jī)器學(xué)習(xí)方法都是淺層學(xué)習(xí)算法。復(fù)雜函數(shù)難以有效地表示,對于復(fù)雜的分類問題,其泛化能力有限[4,5]。

為了克服淺層表示和人工提取特征的問題,Hinton等人在2006年提出了深度學(xué)習(xí)[6]。深度學(xué)習(xí)的本質(zhì)是通過建立多層模型并用大量的數(shù)據(jù)對其進(jìn)行訓(xùn)練來實現(xiàn)自我學(xué)習(xí)。深度學(xué)習(xí)方法是一種具有多層表示的表示學(xué)習(xí)方法,通過組合簡單但非線性的模塊,每個模塊將一個級別的表示轉(zhuǎn)換為更高、更抽象的表示。有了足夠多的這樣的變換組合,就可以學(xué)習(xí)非常復(fù)雜的函數(shù)[7]。

1 卷積神經(jīng)網(wǎng)絡(luò)

1.1 卷積神經(jīng)網(wǎng)絡(luò)模型介紹

圖1是一個簡單的卷積神經(jīng)網(wǎng)絡(luò)模型。第一層是輸入層,輸入的圖像直接輸入到輸入層。第二層是BN層,它主要是對卷積層提取到的特征進(jìn)行歸一化處理??梢愿纳屏鹘?jīng)網(wǎng)絡(luò)的梯度,允許更大的學(xué)習(xí)率以及大幅提高模型的訓(xùn)練速度。第三層是池化層,它計算輸入要素圖的局部平均值或最大值,主要作用是進(jìn)行特征降維,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減小過擬合,同時提高模型的容錯性。接下來的卷積層,BN層和池化層以相同的方式運(yùn)行。最后輸出層是全連接層,輸出神經(jīng)元的最大值是最終分類器的結(jié)果。

圖1 卷積神經(jīng)網(wǎng)絡(luò)模型

1.2 卷積神經(jīng)網(wǎng)絡(luò)理論

卷積層使用卷積核對輸入信號的局部區(qū)域執(zhí)行卷積運(yùn)算,從而產(chǎn)生相應(yīng)的特性。權(quán)重共享是卷積層的最重要特征,這意味著當(dāng)每個卷積窗口遍歷整個圖像時,卷積窗口的參數(shù)是固定的。這樣可以避免因參數(shù)爆炸而導(dǎo)致的過擬合現(xiàn)象,并減少系統(tǒng)訓(xùn)練網(wǎng)絡(luò)所需的內(nèi)存。以第一層為例。如前所述,要素圖中的所有單位共享相同的權(quán)重集和相同的偏差,因此它們在輸入的所有可能位置上都保留相同的要素。卷積過程描述為:

(1)

批量歸一化(BN)層旨在減少內(nèi)部協(xié)方差的偏移,加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,提高網(wǎng)絡(luò)訓(xùn)練效率并增強(qiáng)網(wǎng)絡(luò)泛化能力。轉(zhuǎn)換過程描述為:

(2)

式中,γl(i)和βl(i)分別是BN層的標(biāo)度和偏移量,zl(i,j)是BN層的輸出,ε是保證數(shù)值不為零的常數(shù)項。

在CNN體系結(jié)構(gòu)中,通常在批處理規(guī)范化層之后添加池化層。神經(jīng)網(wǎng)絡(luò)操作的主要目的是降低采集層的參數(shù),本文選擇的最大池化層轉(zhuǎn)換描述為:

(3)

通過反向傳播算法和隨機(jī)梯度下降算法訓(xùn)練搭建的卷積神經(jīng)網(wǎng)絡(luò)。我們假設(shè)訓(xùn)練樣本總數(shù)為N,則CNN的損失函數(shù)可以表示為:

(4)

損失函數(shù)相對于卷積核系數(shù)和偏差的梯度為:

(5)

(6)

2 實驗驗證

2.1 實驗數(shù)據(jù)

我們選擇MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫來比較深度學(xué)習(xí)的性能。MNIST數(shù)據(jù)集來自美國國家標(biāo)準(zhǔn)與技術(shù)研究所,整個數(shù)據(jù)集由來自250個不同人手寫的數(shù)字構(gòu)成,其中50%是高中學(xué)生,50%來自人口普查局的工作人員,這說明了數(shù)據(jù)很分散,可以充分驗證模型的識別能力。MNIST包含60 000個訓(xùn)練樣本和10 000個測試樣本,圖像大小為28×28。一些來自MNIST手寫數(shù)據(jù)庫的真實樣本集如圖2所示。

圖2 MNIST數(shù)據(jù)庫部分真實樣本

2.2 實驗結(jié)果對比

首先為了驗證不同卷積核個數(shù)對卷積神經(jīng)網(wǎng)絡(luò)識別精度的影響,以及為了觀察卷積內(nèi)核的數(shù)量如何影響整體性能,我們選擇了三種不同的卷積神經(jīng)網(wǎng)絡(luò):784-4-12,784-8-24,784-16-48。其中784是輸入數(shù)據(jù)的維數(shù)。中間的兩個數(shù)字分別為第一個卷積層和第二個卷積層的內(nèi)核數(shù)。三個不同卷積神經(jīng)網(wǎng)絡(luò)的識別精度如表1所示,當(dāng)預(yù)測值與地面真實性之間的均方誤差小于0.001時,我們假設(shè)網(wǎng)絡(luò)達(dá)到收斂。從表1中我們可以看出,MNIST數(shù)據(jù)庫上三個CNN的準(zhǔn)確率非常的高,均達(dá)到了九十五以上。取得上述結(jié)果的原因是MNIST數(shù)據(jù)庫中包含有大量的訓(xùn)練樣本,足夠卷積神經(jīng)網(wǎng)絡(luò)提取到充分的關(guān)鍵特征。

表1 不同卷積核數(shù)量的卷積神經(jīng)網(wǎng)絡(luò)結(jié)果對比

由表1的對比結(jié)果可知,當(dāng)內(nèi)核數(shù)從4、12增加到8、24再增加到16、48時,基于MNIST數(shù)據(jù)集的準(zhǔn)確率不斷增加,從最初的97.31%增加到97.48%,最后增加到97.71%。上述的對比結(jié)果表明,如果訓(xùn)練樣本的數(shù)量能夠完全滿足學(xué)習(xí)方法的要求,則隨著核數(shù)的增加,從CNN提取的特征數(shù)量將增加,并且CNN的識別性能會越來越好。

為了充分驗證卷積神經(jīng)網(wǎng)絡(luò)的識別效果,本文選擇利用人工神經(jīng)網(wǎng)絡(luò)以及深度置信網(wǎng)絡(luò)進(jìn)行對比,其中人工神經(jīng)網(wǎng)絡(luò)為淺層神經(jīng)網(wǎng)絡(luò),深度置信網(wǎng)絡(luò)為深度學(xué)習(xí)網(wǎng)絡(luò),可以充分驗證所搭建卷積神經(jīng)網(wǎng)絡(luò)的圖像識別能力。其中,在該組實驗中,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為784-16-48,學(xué)習(xí)率為0.01,人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為784-100-10,學(xué)習(xí)率為0.05,深度置信網(wǎng)絡(luò)的結(jié)構(gòu)為784-150-100-10,學(xué)習(xí)率為0.1。實驗結(jié)果對比如表2所示。圖3展示了所有網(wǎng)絡(luò)的錯誤率隨著迭代次數(shù)的變換情況。

圖3 網(wǎng)絡(luò)的錯誤率隨著迭代次數(shù)的變化結(jié)果

表2 所有模型的識別對比結(jié)果

實驗結(jié)果表明,與淺層人工神經(jīng)網(wǎng)絡(luò)相比,CNN和DBN在MNIST數(shù)據(jù)庫都具有較高的準(zhǔn)確率。此外,深度學(xué)習(xí)可以主動學(xué)習(xí)數(shù)據(jù)的固有特征,而不是手動提取特征。但是,深度學(xué)習(xí)在實際應(yīng)用中的成功取決于標(biāo)記的數(shù)據(jù)。比較表2中的實驗結(jié)果,我們可以了解DBN和CNN之間的主要區(qū)別:DBN屬于無監(jiān)督學(xué)習(xí)方法,是一種生成深度模型;而CNN屬于監(jiān)督學(xué)習(xí)方法,是一種歧視深度模型。DBN通常適用于一維數(shù)據(jù)建模,如語音;,而CNN更適用于二維數(shù)據(jù)建模,如圖像。CNN本質(zhì)上是輸入和輸出的映射。它可以學(xué)習(xí)很多映射關(guān)系,不需要任何精確的數(shù)學(xué)表達(dá)式,而DBN則需要建立可見和隱藏單元之間的聯(lián)合概率分布,以及可見和隱藏單元的邊際概率分布。從實驗結(jié)果可知,在圖像識別方面,CNN擁有著得天獨(dú)厚的優(yōu)勢。

2.3 結(jié)果可視化

為了直觀地理解所提出的卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)過程,利用t分布隨機(jī)鄰居嵌入(t-SNE)對不同迭代步數(shù)階段學(xué)習(xí)到的深度特征進(jìn)行網(wǎng)絡(luò)可視化。本文總共選取了最初狀態(tài)、迭代十次、迭代五十次以及最終迭代得到的深度特征,如圖4所示。

圖4 可視化結(jié)果

從圖4可知,原始數(shù)據(jù)的十種類別隨機(jī)的混合在一起,很難清晰地將其分開。當(dāng)?shù)沃?,比最初的原始?shù)據(jù)辨識度稍微好些,但仍然很難直接將其分開。隨著迭代的繼續(xù)進(jìn)行,當(dāng)達(dá)到五十次后,十種類別的辨識度更高了,基本可以分開,當(dāng)達(dá)到最終迭代效果后,所有類別都可以完全清晰地分開。這體現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)隨著迭代的不斷進(jìn)行,學(xué)習(xí)到的特征也越來越有代表性。

3 結(jié)論

本文將深度學(xué)習(xí)應(yīng)用于實詞手寫字符識別,獲得了良好的圖像識別性能。通過比較實驗結(jié)果,分析了卷積神經(jīng)網(wǎng)絡(luò)的特征提取過程。深度學(xué)習(xí)可以通過深度非線性網(wǎng)絡(luò)模型來近似復(fù)雜函數(shù)。它不僅避免了手動提取特征的繁重工作,而且更好地描述了數(shù)據(jù)的潛在信息。未來我們將進(jìn)一步研究深度學(xué)習(xí)的優(yōu)化,并將其應(yīng)用于更復(fù)雜的圖像識別問題。

猜你喜歡
圖像識別卷積神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于Resnet-50的貓狗圖像識別
電子制作(2019年16期)2019-09-27 09:34:50
高速公路圖像識別技術(shù)應(yīng)用探討
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
電子制作(2018年19期)2018-11-14 02:37:04
圖像識別在水質(zhì)檢測中的應(yīng)用
電子制作(2018年14期)2018-08-21 01:38:16
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
厦门市| 张北县| 铜陵市| 卢氏县| 古交市| 连州市| 正定县| 阿勒泰市| 永兴县| 宜川县| 凤台县| 柘城县| 贡觉县| 巴彦淖尔市| 遵义市| 工布江达县| 峨山| 怀安县| 和顺县| 巨鹿县| 嘉峪关市| 华亭县| 巫溪县| 龙海市| 宜兰市| 三亚市| 新巴尔虎右旗| 孝义市| 筠连县| 太康县| 军事| 祁阳县| 大同县| 南丹县| 海淀区| 淮安市| 新田县| 民权县| 尉氏县| 肥城市| 余干县|