国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度卷積神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的研究

2021-09-28 10:11李一波郭培宜張森悅
關(guān)鍵詞:梯度神經(jīng)元卷積

李一波,郭培宜,張森悅

(沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院,遼寧 沈陽(yáng) 110000)

0 引 言

AlexNet網(wǎng)絡(luò)模型在圖像識(shí)別分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)音文字識(shí)別等方面都表現(xiàn)得十分突出[1]。AlexNet雖然不是首個(gè)被創(chuàng)建的卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural networks,CNN),可是它是首個(gè)引起眾多研究者所關(guān)注的卷積神經(jīng)網(wǎng)絡(luò),具有里程碑意義。AlexNet模型是由多倫多大學(xué)教授Geoffery Hinton同他的學(xué)生Krizhevsky等人共同設(shè)計(jì),2012年創(chuàng)下Imageclassification比賽的新記錄,并獲得了ImageNet Large Scale Visual Recognition Challenge(ILSVRC)挑戰(zhàn)賽的冠軍[2]。同年,Krizhevesky等[3]在大型圖像數(shù)據(jù)庫(kù)ImageNet[4]的圖像分類(lèi)競(jìng)賽中提出的AlexNet模型,以超越第二名11%的精確度獲得了冠軍,使得卷積神經(jīng)網(wǎng)絡(luò)成為學(xué)術(shù)界關(guān)注的焦點(diǎn)之一。隨著機(jī)器學(xué)習(xí)研究領(lǐng)域的不斷拓展,AlexNet也被許多學(xué)者作為首選的網(wǎng)絡(luò)模型,通過(guò)改進(jìn)和優(yōu)化,其分類(lèi)精度不斷提高。

深度卷積神經(jīng)網(wǎng)絡(luò)的觀點(diǎn)起初來(lái)源于人工神經(jīng)網(wǎng)絡(luò),而網(wǎng)絡(luò)中激活函數(shù)則是人工神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程和學(xué)習(xí)非線(xiàn)性函數(shù)過(guò)程中不能或缺的一部分。如果網(wǎng)絡(luò)模型不使用激活函數(shù),神經(jīng)網(wǎng)絡(luò)每一層的輸出都將等價(jià)于前一層輸入的線(xiàn)性函數(shù),那么無(wú)論神經(jīng)網(wǎng)絡(luò)將會(huì)有多少層,輸出都將是輸入的線(xiàn)性組合,這種情況使網(wǎng)絡(luò)模型成為最基本的感知器,深度神經(jīng)網(wǎng)絡(luò)將變得失去本身意義[5]。因此,使用激活函數(shù)作為神經(jīng)元來(lái)引進(jìn)非線(xiàn)性因素是十分必要的,可以使得神經(jīng)網(wǎng)絡(luò)能夠任意逼近任何非線(xiàn)性函數(shù),進(jìn)而使神經(jīng)網(wǎng)絡(luò)能夠應(yīng)用到更多的非線(xiàn)性模型中。Krizhevsky等人在AlexNet中提出了ReLU激活函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)[6],其優(yōu)點(diǎn)是前向區(qū)間為線(xiàn)性函數(shù),加快了模型訓(xùn)練的收斂速度,解決了softsign、Softsign、Tanh等常見(jiàn)激活函數(shù)中的梯度消失問(wèn)題,然而ReLU激活函數(shù)很可能導(dǎo)致一些神經(jīng)元在模型訓(xùn)練中無(wú)法激活。為了解決這種神經(jīng)元“死亡”現(xiàn)象,改進(jìn)了ReLU激活函數(shù),使其在x小于零的負(fù)軸區(qū)間由Swish函數(shù)來(lái)替代,使負(fù)半軸的ReLU激活函數(shù)稱(chēng)為非線(xiàn)性激活函數(shù),有效地解決了x小于零的部分神經(jīng)元不能激活的問(wèn)題,并且在x大于零的區(qū)間部分范圍內(nèi)由ReLU激活函數(shù)來(lái)替代,提高收斂速度的同時(shí)也能夠提升參數(shù)的利用率,并且降低了過(guò)擬合現(xiàn)象的發(fā)生率,很好地提高了AlexNet的魯棒性。

針對(duì)AlexNet網(wǎng)絡(luò)中激活函數(shù)ReLU在網(wǎng)絡(luò)訓(xùn)練中產(chǎn)生的神經(jīng)元死亡和均值偏移問(wèn)題,結(jié)合反正切函數(shù)和對(duì)數(shù)函數(shù)的優(yōu)勢(shì),在傳統(tǒng)激活函數(shù)ReLU基礎(chǔ)上提出了一種新的激活函數(shù)sArcReLU。將文中構(gòu)建的激活函數(shù)訓(xùn)練網(wǎng)絡(luò)模型并應(yīng)用于公開(kāi)數(shù)據(jù)集分類(lèi)實(shí)驗(yàn)中以驗(yàn)證其建立的網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果表明,利用sArcReLU激活函數(shù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)在分類(lèi)精度和適應(yīng)性方面均有明顯的改善。

1 AlexNet模型結(jié)構(gòu)

AlexNet總共有650 000個(gè)神經(jīng)元,63 000萬(wàn)個(gè)神經(jīng)連接,60 000 000個(gè)網(wǎng)絡(luò)參數(shù)。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,引入了許多新方法來(lái)達(dá)到穩(wěn)定的收斂速度[7],網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)模型結(jié)構(gòu)共8層,其中分別含有五層卷積層和三層全連接層,包括了LRN局部響應(yīng)歸一化層和Dropout正則化。此網(wǎng)絡(luò)模型在圖像分類(lèi)領(lǐng)域有著較為出色的優(yōu)勢(shì)[8]。

圖1 AlexNet結(jié)構(gòu)模型

圖像數(shù)據(jù)輸入格式是227×227×3,其中227表示輸入圖像的寬度和高度,3表示輸入圖像的三原色R、G、B通道模式,所以不需要對(duì)輸入的數(shù)據(jù)集進(jìn)行額外的格式裁剪。第一、二層計(jì)算均為卷積,ReLU,最大池化層和歸一化,第二層的輸出結(jié)果與256個(gè)特征圖進(jìn)行了卷積操作。網(wǎng)絡(luò)中的第三、四層只需要進(jìn)行卷積和ReLU操作。第五層的過(guò)程和第一層的過(guò)程類(lèi)似,區(qū)別只在于沒(méi)有經(jīng)過(guò)歸一化處理。網(wǎng)絡(luò)最后將其第五層的輸出轉(zhuǎn)變?yōu)殚L(zhǎng)向量,輸入到三層全連接結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型中,再運(yùn)用Softmax回歸函數(shù)即可計(jì)算其分類(lèi)準(zhǔn)確值。

2 模型的改進(jìn)

AlexNet網(wǎng)絡(luò)采用ReLU非飽和線(xiàn)性函數(shù),激活值的獲取相對(duì)簡(jiǎn)單,只用一個(gè)閾值,省去了原本復(fù)雜的運(yùn)算過(guò)程,相較于常見(jiàn)的非線(xiàn)性S型激活函數(shù)Tanh、Sigmoid等收斂速度更快[9],改善了梯度消失和收斂不穩(wěn)定的缺點(diǎn)。圖2為ReLU與其他常見(jiàn)激活函數(shù)的曲線(xiàn)對(duì)比。

圖2 ReLU與常見(jiàn)的激活函數(shù)曲線(xiàn)對(duì)比

Tanh函數(shù)換言之是Sigmoid函數(shù)的一種變換類(lèi)型,Tanh函數(shù)的輸出值在[-1,1]區(qū)間內(nèi),而Sigmoid函數(shù)的輸出值則在[0,1]區(qū)間[10]。Tanh和Sigmoid都擁有飽和區(qū),ReLu函數(shù)在x大于零時(shí)導(dǎo)數(shù)一直是1且不變,十分有助于解決梯度消失、梯度爆炸等問(wèn)題,促使加快訓(xùn)練速度。

一般地,當(dāng)網(wǎng)絡(luò)模型后向傳遞過(guò)程時(shí),且使用梯度下降法求解網(wǎng)絡(luò)參數(shù),Sigmoid激活函數(shù)向下傳導(dǎo)的梯度中包含了有關(guān)自身輸入的導(dǎo)數(shù)f'(x),當(dāng)輸入值進(jìn)入飽和區(qū)時(shí),f'(x)的輸出值逐漸接近于零。此特性十分容易導(dǎo)致梯度消失現(xiàn)象,所以深度神經(jīng)網(wǎng)絡(luò)一直很難得到有效的訓(xùn)練,也是阻礙神經(jīng)網(wǎng)絡(luò)發(fā)展的重要原因之一[11]。

其中ReLu激活函數(shù)的數(shù)學(xué)表達(dá)式為:

f(x)=max(0,x)

(1)

經(jīng)過(guò)圖2分析,ReLu激活函數(shù)曲線(xiàn)也存在很多不足,例如當(dāng)輸出值恒大于或等于零時(shí),易導(dǎo)致均值偏移的缺點(diǎn),均值偏移會(huì)導(dǎo)致神經(jīng)元將前一層網(wǎng)絡(luò)的非零均值輸出的信號(hào)作為輸入信號(hào),使參數(shù)的計(jì)算復(fù)雜度大幅度增加。處于網(wǎng)絡(luò)模型訓(xùn)練過(guò)程的前向傳播過(guò)程時(shí),“強(qiáng)制”稀疏性作用會(huì)使網(wǎng)絡(luò)中的某些神經(jīng)元一直不會(huì)被激活,與其相對(duì)應(yīng)的參數(shù)也一直不會(huì)被更新,所以會(huì)致使一些好的特征被屏蔽。眾所周知,神經(jīng)“死亡”和強(qiáng)制稀疏性的缺點(diǎn)對(duì)網(wǎng)絡(luò)模型的收斂速度和網(wǎng)絡(luò)性能影響很大[12]。

(2)

ArcReLU函數(shù)導(dǎo)數(shù)如下:

(3)

由圖3分析,ArcReLU激活函數(shù)導(dǎo)數(shù)值恒為正值。根據(jù)導(dǎo)數(shù)特征,可說(shuō)明函數(shù)明顯呈單調(diào)遞增特性。當(dāng)激活函數(shù)擁有單調(diào)特性時(shí),單層網(wǎng)絡(luò)能保證其為凸函數(shù),由此推斷出該函數(shù)在訓(xùn)練過(guò)程中更易收斂。

圖3 ArcReLU及其導(dǎo)數(shù)的圖像

由于ReLU歸類(lèi)于分段線(xiàn)性非飽和的函數(shù),其與傳統(tǒng)的S型激活函數(shù)作對(duì)比發(fā)現(xiàn),ReLU函數(shù)隨機(jī)梯度下降收斂速度更快,而且函數(shù)計(jì)算過(guò)程更加簡(jiǎn)潔明了。相較于Sigmoid激活函數(shù),ReLU稀疏特性更加明顯。然而稀疏性也將會(huì)帶來(lái)更高的錯(cuò)誤識(shí)別率并且降低了網(wǎng)絡(luò)模型的有效容量。通過(guò)分析激活函數(shù),不僅計(jì)算過(guò)程更加簡(jiǎn)潔,而且負(fù)半軸的輸出會(huì)得以更好的保存。在負(fù)軸使用了反正切函數(shù)進(jìn)行替換,不僅可以使均值更趨向于零,緩解了函數(shù)均值易偏移的缺點(diǎn),并且其負(fù)半軸部分具有軟飽和性,使其不會(huì)輕易出現(xiàn)神經(jīng)元“死亡”的現(xiàn)象,同時(shí)具備單調(diào)遞增的特性,進(jìn)一步提高了收斂速度。

文中結(jié)合ArcReLU激活函數(shù)設(shè)計(jì)了一種新的激活函數(shù),記為sArcReLU,表達(dá)式如公式(4)所示,函數(shù)圖像如圖3所示。

(4)

上述公式中,系數(shù)s表示超參數(shù),取值范圍為[0,1)。當(dāng)輸入為負(fù)值時(shí),函數(shù)的梯度與參數(shù)s不相關(guān);當(dāng)輸入為正值時(shí),函數(shù)值取決于超參數(shù)。

改進(jìn)后激活函數(shù)的圖像如圖4所示。由函數(shù)圖像分析可以得到初步結(jié)論,該函數(shù)在其定義范圍內(nèi)可導(dǎo)并且單調(diào)遞增,現(xiàn)只需證明該函數(shù)在其原點(diǎn)處的可導(dǎo)特性。以下證明過(guò)程中將x大于零的部分稱(chēng)為f1,x小于等于零的部分稱(chēng)為f2,過(guò)程證明如下:

圖4 sArcReLU函數(shù)圖像

f(0)=f(0-)=f(0+)=0

(5)

(6)

(7)

式(5)說(shuō)明sArcReLU在原點(diǎn)連續(xù)且具有定義。由式(6)與式(7)的結(jié)果分析,函數(shù)都存在且相同,依據(jù)導(dǎo)數(shù)的定義,該函數(shù)在零點(diǎn)處可導(dǎo)。

sArcReLU的偏導(dǎo)數(shù)為:

從上述公式可看出,sArcReLU激活函數(shù)的導(dǎo)數(shù)值始終大于零。根據(jù)導(dǎo)數(shù)定義,證明函數(shù)具有單調(diào)遞增特性。當(dāng)激活函數(shù)始終具有單調(diào)特性時(shí),單層網(wǎng)絡(luò)可以保證其為凸函數(shù)[14]。當(dāng)激活函數(shù)中x大于等于0,即神經(jīng)元處于興奮激活狀態(tài)時(shí),梯度隨著x的增加而不斷下降,并且最終收斂于1。當(dāng)x小于零,即神經(jīng)元處于抑制區(qū)域時(shí),具有接近于零的梯度s。

sArcReLU函數(shù)具有以下優(yōu)勢(shì):

①負(fù)軸的輸出值保持非零值,因此激活函數(shù)擁有保留梯度變化的特性,即可以有效解決由ReLU強(qiáng)制置零特性導(dǎo)致的神經(jīng)元“死亡”缺點(diǎn)。

②超參數(shù)s使得激活函數(shù)輸出值可變,消除了當(dāng)ReLU取正值時(shí)的線(xiàn)性特性,使得網(wǎng)絡(luò)更新過(guò)程更接近于生物神經(jīng)元接收刺激信號(hào)時(shí)展現(xiàn)的生物特性,并且應(yīng)用于不同的數(shù)據(jù)集將會(huì)得到不同的最優(yōu)值,也使改進(jìn)后的激活函數(shù)更具備適應(yīng)性。

③由于超參數(shù)s的存在,正半軸的值保持可變性,可以實(shí)時(shí)修正數(shù)據(jù)的分布稀疏性,保留了網(wǎng)絡(luò)快速收斂的特性。

3 實(shí)驗(yàn)與分析

UC Merced Land Use(UCM)數(shù)據(jù)集為公開(kāi)的遙感數(shù)據(jù)集。數(shù)據(jù)集中的遙感圖像由工作人員從美國(guó)地質(zhì)調(diào)查局“市區(qū)圖像”集合中的大圖像中手動(dòng)提取[15]。其中包括美國(guó)不同城市地區(qū)的21種地物的遙感圖像,數(shù)據(jù)集中每一類(lèi)有一百幅,共2 100幅,空間分別率為1英尺,分別具有R、G、B三個(gè)顏色通道。21類(lèi)場(chǎng)景分別為農(nóng)田、機(jī)場(chǎng)、棒球場(chǎng)、沙灘、建筑、叢林、密集住宅區(qū)、森林、高速公路、高爾夫球場(chǎng)、港口、十字路口、普通住宅區(qū)、房車(chē)停車(chē)場(chǎng)、立交橋、停車(chē)場(chǎng)、河流、跑道、高級(jí)住宅區(qū)、儲(chǔ)油罐、網(wǎng)球場(chǎng)。其中部分場(chǎng)景之間有部分重疊,比如住宅區(qū)分了密集住宅區(qū)、普通住宅區(qū)、高級(jí)住宅區(qū)三類(lèi)。21類(lèi)場(chǎng)景圖像的部分樣例如圖5所示。

圖5 UCM數(shù)據(jù)集樣例圖

實(shí)驗(yàn)采用開(kāi)源框架Tensorflow-1.10.0,編程軟件python3.6.6實(shí)現(xiàn)模型結(jié)構(gòu)構(gòu)建,采用的CPU是Intel(R)Core(TM)i5-8500 CPU @3.00 GHz,8G內(nèi)存,64位windows10操作系統(tǒng)。

按照9∶1的比例將UCM數(shù)據(jù)集中每一個(gè)場(chǎng)景的高分辨率圖像隨機(jī)分為90張訓(xùn)練數(shù)據(jù)、10張測(cè)試數(shù)據(jù)。初始學(xué)習(xí)率選取0.000 1、0.001、0.01、0.1、1,實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 不同初始學(xué)習(xí)率對(duì)應(yīng)的loss值

隨著學(xué)習(xí)率不斷擴(kuò)大,網(wǎng)絡(luò)的損失值逐漸減小,隨后loss值又開(kāi)始小幅度增大。由圖6分析選取0.1作為初始學(xué)習(xí)率最為合適。

為了驗(yàn)證激活函數(shù)參數(shù)s取值對(duì)分類(lèi)結(jié)果的影響,s分別取值0,0.01,0.1,0.4,0.7,1進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示。

表1 超參數(shù)s分析

實(shí)驗(yàn)結(jié)果表明,當(dāng)s=0時(shí),激活函數(shù)退化為ReLU,準(zhǔn)確率就是AlexNet經(jīng)典網(wǎng)絡(luò)模型訓(xùn)練得出的結(jié)果,即73.4%。當(dāng)s=0.1時(shí),網(wǎng)絡(luò)會(huì)在1 000次時(shí)最先達(dá)到收斂狀態(tài),而且分類(lèi)效果最好,網(wǎng)絡(luò)準(zhǔn)確率將會(huì)達(dá)到78.8%。

在數(shù)據(jù)集UCM和同等條件下對(duì)三種激活函數(shù)ReLU、ArcReLU、sArcReLU做了訓(xùn)練測(cè)試。實(shí)驗(yàn)結(jié)果如表2所示。

表2 數(shù)據(jù)集UCM下的準(zhǔn)確率

通過(guò)結(jié)果分析,用sArcReLU激活函數(shù)訓(xùn)練的AlexNet在分類(lèi)準(zhǔn)確率上比受其他兩個(gè)激活函數(shù)的AlexNet更勝一籌。

為了驗(yàn)證提出的激活函數(shù)的適應(yīng)性,新建了一個(gè)數(shù)據(jù)集UCM-NWPU,選取NWPU-RESISC45和UCMerced_LandUse中相同15種場(chǎng)景,每種場(chǎng)景有900張,總有13 500張,對(duì)圖像尺寸歸一化,調(diào)整輸入圖像的尺寸統(tǒng)一為256×256×3。訓(xùn)練集是在每類(lèi)圖像場(chǎng)景中隨機(jī)挑選出其中90%圖像,因此原有訓(xùn)練集共有12 150張圖像,剩下的1 350張圖像就將作為測(cè)試集。

若選取的學(xué)習(xí)率過(guò)大,十分有可能會(huì)直接越過(guò)最優(yōu)值;若選取的學(xué)習(xí)率過(guò)小,優(yōu)化的效率可能過(guò)低,長(zhǎng)時(shí)間就無(wú)法收斂。同上一個(gè)實(shí)驗(yàn)一致,經(jīng)過(guò)測(cè)試,本實(shí)驗(yàn)的學(xué)習(xí)率為0.1時(shí)測(cè)試結(jié)果最好,激活函數(shù)中超參數(shù)s選取0.1時(shí)效果最好。實(shí)驗(yàn)結(jié)果如下所示:

圖7和圖8分別是sArcReLU作為激活函數(shù)在數(shù)據(jù)集UCM-NWPU上訓(xùn)練驗(yàn)證的分類(lèi)準(zhǔn)確率和損失函數(shù)曲線(xiàn)。

圖7 準(zhǔn)確率

圖8 損失函數(shù)曲線(xiàn)

4 結(jié)束語(yǔ)

文中設(shè)計(jì)了一種新激活函數(shù)sArcReLU,并且與ReLU和ArcReLU激活函數(shù)進(jìn)行了實(shí)驗(yàn)分析和比較。實(shí)驗(yàn)證明:sArcReLU激活函數(shù)能夠明顯提高網(wǎng)絡(luò)迭代速度并且有效降低訓(xùn)練的誤差率。表明sArcReLU中超參數(shù)s對(duì)迭代次數(shù)和準(zhǔn)確率有一定的影響。下一步研究工作的重點(diǎn)將放在激活函數(shù)中超參數(shù)s的優(yōu)化上,以進(jìn)一步提高激活函數(shù)sArcReLU的性能。

猜你喜歡
梯度神經(jīng)元卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
AI講座:神經(jīng)網(wǎng)絡(luò)的空間對(duì)應(yīng)
一個(gè)具梯度項(xiàng)的p-Laplace 方程弱解的存在性
內(nèi)容、形式與表達(dá)——有梯度的語(yǔ)言教學(xué)策略研究
仿生芯片可再現(xiàn)生物神經(jīng)元行為
航磁梯度數(shù)據(jù)實(shí)測(cè)與計(jì)算對(duì)比研究
這個(gè)神經(jīng)元負(fù)責(zé)改變我們的習(xí)慣
玉门市| 岑溪市| 肥东县| 两当县| 盘山县| 伊吾县| 紫阳县| 天峨县| 恩施市| 长海县| 库尔勒市| 米泉市| 石屏县| 荥阳市| 龙胜| 唐河县| 和顺县| 盐亭县| 潞城市| 许昌市| 贺兰县| 天台县| 尖扎县| 武安市| 宜丰县| 社旗县| 资源县| 乌鲁木齐县| 内江市| 珠海市| 绵阳市| 内黄县| 海城市| 沙湾县| 保靖县| 如东县| 赤峰市| 合阳县| 洪洞县| 乐昌市| 开远市|