国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

激活函數(shù)的發(fā)展綜述及其性質(zhì)分析

2021-07-14 03:31于紀(jì)言
關(guān)鍵詞:半軸表達(dá)式梯度

張 煥,張 慶,于紀(jì)言

(南京理工大學(xué)機(jī)械工程學(xué)院,智能彈藥技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室,江蘇 南京 210094)

近年來(lái),深度學(xué)習(xí)[1](deep learning,DL)成為人工智能(artificial intelligence,AI)相關(guān)領(lǐng)域中發(fā)展最快、最有活力的研究方向之一。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為深度學(xué)習(xí)的最重要組成部分,其應(yīng)用范圍越來(lái)越廣,在語(yǔ)音識(shí)別、自然語(yǔ)言處理、圖像識(shí)別等領(lǐng)域表現(xiàn)優(yōu)異[2?6]。卷積神經(jīng)網(wǎng)絡(luò)是由傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)[7?9](artificial neural network,ANN)發(fā)展而來(lái)。激活函數(shù)(activation functions)是卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)必不可少的部分,它增加了網(wǎng)絡(luò)的非線性表達(dá)能力。

激活函數(shù)可以看作卷積神經(jīng)網(wǎng)絡(luò)模型中一個(gè)特殊的層,即非線性映射層。卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行完線性變換后,都會(huì)在后邊疊加一個(gè)非線性的激活函數(shù),在非線性激活函數(shù)的作用下數(shù)據(jù)分布進(jìn)行再映射,以增加卷積神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力。從模仿人類神經(jīng)科學(xué)的角度來(lái)看,激活函數(shù)在模型中對(duì)數(shù)據(jù)的作用過(guò)程是模擬了生物神經(jīng)元對(duì)電信號(hào)的處理過(guò)程。生物神經(jīng)元的作用過(guò)程是設(shè)定一定的閾值激活或抑制接收到的電信號(hào)而進(jìn)行生物信息和信號(hào)的傳播。模擬生物神經(jīng)元的作用過(guò)程,理想的激活函數(shù)應(yīng)該是將輸入數(shù)據(jù)通過(guò)一定的閾值直接輸出為“0”“1”這2 種結(jié)果。但是,卷積神經(jīng)網(wǎng)絡(luò)模型在前向傳播、誤差反向傳播的過(guò)程中要求激活函數(shù)具備連續(xù)性、可微性等性質(zhì),顯然目前理想生物神經(jīng)元激活函數(shù)不符合該要求。激活函數(shù)的自身函數(shù)性質(zhì)決定了在作用過(guò)程的優(yōu)勢(shì)和缺陷。研究激活函數(shù)的性質(zhì),分析激活函數(shù)性質(zhì)與優(yōu)缺點(diǎn)的關(guān)聯(lián)性,尋找時(shí)間、空間及特征采集度高效的激活函數(shù)成了一項(xiàng)比較重要的研究?jī)?nèi)容。

1 卷積神經(jīng)網(wǎng)絡(luò)中常見的激活函數(shù)

在深度學(xué)習(xí)發(fā)展初期,傳統(tǒng)S 型非線性飽和激活函數(shù)sigmoid 和 tanh 函數(shù)得到了廣泛的應(yīng)用[10]。然而,隨著模型深度的提高,S 型激活函數(shù)出現(xiàn)了梯度彌散的問(wèn)題,這也是早期神經(jīng)網(wǎng)絡(luò)不能深度化發(fā)展的原因之一[11?15]。2010 年,Hinton 首次提出了修正線性單元[16](rectified linear units,ReLU)作為激活函數(shù)。Krizhevsky 等[1]在2012 年 ImageNet ILSVRC 比賽中使用了激活函數(shù)ReLU。ReLU 表達(dá)式簡(jiǎn)單易于求導(dǎo),使得模型訓(xùn)練速度大大加快,且其正半軸導(dǎo)數(shù)恒定為1,很好地解決了S 型激活函數(shù)存在的梯度彌散問(wèn)題。但是ReLU 激活函數(shù)在負(fù)半軸的梯度始終為0,在模型學(xué)習(xí)率設(shè)置較大情況下,會(huì)發(fā)生神經(jīng)元“壞死”的情況[17?18]。

為了解決ReLU 激活函數(shù)的負(fù)半軸“神經(jīng)元壞死”的情況,研究者們提出Leaky ReLU[19]、PReLU[20]、Noisy ReLU[21]、ELUs[17]、ReLU-softplus[22]、ReLUsoftsign[23]、TReLU[24]等激活函數(shù)。這些激活函數(shù)有效緩減了“神經(jīng)元壞死”的問(wèn)題。下面將詳細(xì)介紹各類激活函數(shù)的性質(zhì)、優(yōu)缺點(diǎn),并總結(jié)得到優(yōu)秀激活函數(shù)應(yīng)該具備的特性。

1.1 sigmoid 和tanh 激活函數(shù)

sigmoid 和tanh 激活函數(shù)是深度學(xué)習(xí)初期常用的S 型激活函數(shù),其函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達(dá)式為式(1)(2)(3)(4);其函數(shù)、導(dǎo)數(shù)圖像如圖1、圖2 所示。

圖1 sigmoid 和tanh 的函數(shù)圖

圖2 sigmoid 和tanh 的導(dǎo)數(shù)圖

由圖1 知:sigmoid 激活函數(shù)值的范圍為(0,1),經(jīng)過(guò)它激活得到的數(shù)據(jù)為非0 均值;sigmoid 激活函數(shù)具有雙向飽和性,即在一定數(shù)據(jù)范圍內(nèi),其導(dǎo)數(shù)趨于0 收斂。由圖2 可知:sigmoid 激活函數(shù)導(dǎo)數(shù)范圍為(0,0.25),且不在(?3,3)的數(shù)據(jù)導(dǎo)數(shù)值很小,在反向傳播過(guò)程時(shí),導(dǎo)數(shù)相乘很容易造成梯度彌散;sigmoid 激活函數(shù)求導(dǎo)過(guò)程計(jì)算量較大,模型訓(xùn)練的時(shí)間復(fù)雜度較高。由圖1、圖2 對(duì)比知:tanh 激活函數(shù)解決了sigmoid 激活函數(shù)非0 均值的問(wèn)題,且其導(dǎo)數(shù)范圍為(0,1),從而略微緩減了sigmoid 激活函數(shù)梯度彌散的問(wèn)題;但tanh 激活函數(shù)存在的雙向飽和性仍然使得梯度彌散問(wèn)題存在,且模型訓(xùn)練的時(shí)間復(fù)雜度較高。

1.2 ReLU、Nosiy ReLU、Leaky ReLU、PReLU、RReLU 激活函數(shù)

激活函數(shù)ReLU 的提出和應(yīng)用很好地解決了sigmoid 和tanh 函數(shù)存在的“梯度消失”問(wèn)題。ReLU 可以擴(kuò)展為包括高斯噪聲的Noisy ReLU(noisy rectified linear unit),其在受限玻爾茲曼機(jī)解決計(jì)算機(jī)視覺任務(wù)中得到應(yīng)用[21]。

雖然ReLU 函數(shù)的稀疏性很好地解決了“S 型”軟飽和激活函數(shù)帶來(lái)的梯度消失的問(wèn)題,但是ReLU 負(fù)半軸存在的硬飽和置0,這可能會(huì)導(dǎo)致“神經(jīng)元壞死”,也使得它的數(shù)據(jù)分布不為0 均值,模型在訓(xùn)練過(guò)程可能會(huì)發(fā)生神經(jīng)元“壞死”的狀況。為了解決Relu 負(fù)半軸“神經(jīng)元壞死”的情況,研究者們對(duì)ReLU 的負(fù)半軸下功夫改造,提出了Leaky ReLU(leaky rectified linear unit)、PReLU(parametric rectified linear unit)、RReLU(randomized leaky rectified linear unit)等激活函數(shù)。其中,RReLU最初是在Kaggle NDSB 競(jìng)賽中得到使用。以上所提到的函數(shù)數(shù)學(xué)表達(dá)式為式(5)(6)(7)(8)(9),表達(dá)式中a為小于1 的正數(shù),它們的函數(shù)圖像如圖3所示。

圖3 幾種“變種”ReLU 激活函數(shù)的函數(shù)圖

由式(5)(7)(8)(9)以及圖3 知,Leaky ReLU、RReLU 和PReLU 分別通過(guò)手動(dòng)、隨機(jī)以及待訓(xùn)練的方式在負(fù)半軸添加一個(gè)很小的線性參數(shù),其目的是在一定程度上緩減ReLU 負(fù)半軸硬飽和的問(wèn)題,但是引入的參數(shù)給模型訓(xùn)練帶來(lái)了一定的麻煩。由式(6)知,Noisy ReLU(noisy rectified linear unit)在正半軸添加了高斯噪聲,但是和ReLU 存在一樣的問(wèn)題。

1.3 ReLU6 與神經(jīng)元的稀疏性

ReLU 的稀疏性給卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來(lái)了巨大的成功。無(wú)獨(dú)有偶,2003 年Lennie 等估測(cè)大腦同時(shí)被激活的神經(jīng)元只有1%~4%,進(jìn)一步表明神經(jīng)元工作的稀疏性。神經(jīng)元只對(duì)輸入信號(hào)的少部分選擇性響應(yīng),大量信號(hào)被刻意的屏蔽。類似神經(jīng)元信號(hào)傳播,在一定模型下,ReLU 的稀疏性可以提高學(xué)習(xí)的精度。然而傳統(tǒng)的sigmoid 激活函數(shù)幾乎同時(shí)有一半的神經(jīng)元被激活,這和神經(jīng)科學(xué)的研究不太相符,可能會(huì)給深度網(wǎng)絡(luò)訓(xùn)練帶來(lái)潛在的問(wèn)題。

在深度學(xué)習(xí)中,有研究者嘗試使用ReLU6 激活函數(shù)。ReLU6 是在ReLU 激活函數(shù)的基礎(chǔ)上將大于6 的數(shù)據(jù)部分置為0,以進(jìn)一步提高連接的稀疏性。式(10)為ReLU6 的函數(shù)表達(dá)式,圖4、圖5 為其函數(shù)、導(dǎo)數(shù)的圖像,圖6 為稀疏性連接的示意圖。

圖4 ReLU6 函數(shù)圖

圖5 ReLU6 導(dǎo)數(shù)圖

圖6 稀疏性連接示意圖

1.4 Swish 和Xwish 激活函數(shù)

Swish 激活函數(shù)[25]是谷歌提出的一個(gè)效果更優(yōu)于ReLU 的激活函數(shù)。經(jīng)過(guò)測(cè)試,在保持模型其他參數(shù)不改變的條件下,只把原模型中的ReLU激活函數(shù)修改為Swish 激活函數(shù),模型的準(zhǔn)確率均有提升。Swish 激活函數(shù)的數(shù)學(xué)表達(dá)式為式(11)所示,函數(shù)圖像為圖7 所示,導(dǎo)數(shù)圖像為圖8 所示。式(11)中β是常數(shù)或可訓(xùn)練的參數(shù)。Swish 激活函數(shù)沒有上界有下界,具有可微、非單調(diào)的性質(zhì)。當(dāng)β=0 時(shí),Swish 變?yōu)榫€性函數(shù);當(dāng)β→ ∞,Swish 成為了ReLU 函數(shù):因此,可以將Swish 函數(shù)看成線性函數(shù)和ReLU 函數(shù)之間的線性插值的平滑激活函數(shù)。

圖7 Swish 函數(shù)圖

圖8 Swish 導(dǎo)數(shù)圖

劉宇晴等提出的Xwish 激活函數(shù)[26]與Swish激活函數(shù)有相似的函數(shù)曲線及性質(zhì)。其函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達(dá)式為式(12)(13)所示,函數(shù)、導(dǎo)數(shù)圖像為圖9、圖10 所示。

圖9 Xwish 函數(shù)圖

圖10 Xwish 在不同參數(shù)下的導(dǎo)數(shù)圖

1.5 Maxout 激活函數(shù)

Maxout 激活函數(shù)的原理是通過(guò)線性分段函數(shù)來(lái)擬合可能的目標(biāo)凸函數(shù),并將其作為激活函數(shù)。它可以看作在卷積神經(jīng)網(wǎng)絡(luò)中添加的一層激活層。它包含1 個(gè)參數(shù)k。相比其他激活函數(shù),它的特殊之處在于,增加了k個(gè)神經(jīng)元,經(jīng)過(guò)神經(jīng)元輸出最大的激活值。Maxout 激活函數(shù)可以看作ReLU激活函數(shù)的推廣。Maxout 激活函數(shù)能增強(qiáng)Dropout函數(shù)的功能,實(shí)驗(yàn)證明二者一起使用時(shí)能發(fā)揮比較好的效果[27]。

任意的凸函數(shù)都可以由分段線性函數(shù)擬合,而Maxout 取k個(gè)線性隱藏層節(jié)點(diǎn)的最大值。圖11依次示出Maxout 激活函數(shù)擬合線性激活函數(shù)、絕對(duì)值激活函數(shù)、二次激活函數(shù)的過(guò)程。圖中展示了在一維輸入下Maxout 激活函數(shù)擬合二維平面函數(shù)的過(guò)程。實(shí)際上,Maxout 激活函數(shù)可以逼近擬合更高維度的凸函數(shù)。Maxout 具有ReLU 的優(yōu)點(diǎn),即線性和不飽和性,同時(shí)它也解決了ReLU 存在的“神經(jīng)元壞死”的問(wèn)題。但是,Maxout 引入了訓(xùn)練參數(shù)而導(dǎo)致了模型整體參數(shù)數(shù)量的激增,導(dǎo)致模型的復(fù)雜度增高。

圖11 Maxout 示意圖

1.6 ELU 和TReLU 激活函數(shù)

ELU 和TReLU 激活函數(shù)的正半軸與ReLU 激活函數(shù)保持一致,通過(guò)對(duì)負(fù)半軸引入軟飽和以代替置“0”。式(14)(15)為ELU 激活函數(shù)的函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達(dá)式,圖12、13 為其函數(shù)、導(dǎo)數(shù)圖像。從數(shù)學(xué)表達(dá)式(14)(15)和圖12、13 可以看出,ELU 激活函數(shù)[13]在正半軸具有與ReLU 激活函數(shù)一樣的優(yōu)勢(shì),同時(shí)引入了負(fù)半軸的定義使得整體輸出均值接近0。與LeakyReLU 和PReLU 相比,雖同樣都是激活了負(fù)半軸,但ELU 的負(fù)半軸為軟飽和區(qū),斜率具有衰減性,這使得其對(duì)噪聲有一些魯棒性。同時(shí),參數(shù)a控 制著函數(shù)的斜率變化。

圖12 ELU 在不同參數(shù)下的函數(shù)圖

圖13 ELU 在不同參數(shù)下的導(dǎo)數(shù)圖

張濤等同樣提出了負(fù)半軸為飽和區(qū)的TReLU激活函數(shù)[24]。式(16)(17)為其函數(shù)、導(dǎo)數(shù)數(shù)學(xué)表達(dá)式。式中a為可變參數(shù),用來(lái)控制非飽和區(qū)域的斜率變化。TReLU 擁有和ELU 相似的優(yōu)勢(shì):緩減了梯度彌散的問(wèn)題;激活了負(fù)半軸,從而緩減了“神經(jīng)元壞死”的問(wèn)題;近似于0 均值分布;負(fù)半軸的軟飽和性使得其對(duì)噪聲具有魯棒性。圖14、15 為其函數(shù)、導(dǎo)數(shù)圖像。

圖14 TReLU 在不同參數(shù)下的函數(shù)圖

圖15 TReLU 在不同參數(shù)下的導(dǎo)數(shù)圖

1.7 softplus、softsign 和relu-softplus、relu-softsign激活函數(shù)

softplus 是對(duì)所有輸入數(shù)據(jù)進(jìn)行非線性映射的一種激活函數(shù)。式(18)(19)為其函數(shù)、導(dǎo)數(shù)表達(dá)式,圖16、圖17 為其函數(shù)、導(dǎo)數(shù)圖像。從數(shù)學(xué)表達(dá)式和函數(shù)圖像可以看出:softplus 無(wú)上界,具有負(fù)半軸單向軟飽和性,函數(shù)值始終大于0;同時(shí)引入了對(duì)數(shù)和指數(shù)運(yùn)算,計(jì)算量較大。

圖16 softplus 和softsign 函數(shù)圖

圖17 softplus 和softsign 導(dǎo)數(shù)圖

softsign 激活函數(shù)是一種雙向軟飽和“S 型”激活函數(shù),可以看作tanh 激活函數(shù)的改進(jìn)版。式(20)(21)為其函數(shù)、導(dǎo)數(shù)表達(dá)式,圖16、圖17 為其函數(shù)、導(dǎo)數(shù)圖像。圖18 示出softplus、softsign、tanh 的函數(shù)圖像比較結(jié)果。圖19 示出softplus、softsign、tanh 的導(dǎo)數(shù)圖像比較結(jié)果。從式(20)(21)和圖18、圖19 可以看出,softsign 激活函數(shù)是0 均值分布的,且相比于tanh 激活函數(shù),softsign 激活函數(shù)的曲線變化更加平緩,其導(dǎo)數(shù)下降的速率較慢。從理論上看,相較于tanh 激活函數(shù),其能夠進(jìn)一步緩減雙向軟飽和“S 型”激活函數(shù)存在的梯度彌散問(wèn)題。

圖18 softplus/softsign/tanh 函數(shù)對(duì)比圖

圖19 softplus/softsign/tanh 導(dǎo)數(shù)對(duì)比圖

曲之琳等[22]將ReLU 激活函數(shù)和softplus 激活函數(shù)進(jìn)行了結(jié)合,并對(duì)softplus 的負(fù)半軸做減常數(shù)ln2 處理,提出了relu-softplus 組合激活函數(shù)。式(22)(23)為其函數(shù)、導(dǎo)數(shù)表達(dá)式,圖20、圖21 為函數(shù)、導(dǎo)數(shù)圖像。和ELU、TReLU 等激活函數(shù)一樣,relu-softplus 激活函數(shù)的負(fù)半軸軟飽和緩減了“神經(jīng)元壞死“問(wèn)題,且負(fù)半軸做減常數(shù)處理,巧妙地完成了與正半軸的連接。但是relu-softplus 激活函數(shù)存在指數(shù),在負(fù)半軸零點(diǎn)附近的導(dǎo)數(shù)存在突變,持續(xù)減小直至0。其存在的問(wèn)題是對(duì)學(xué)習(xí)率要求較高:若學(xué)習(xí)率設(shè)置過(guò)大,容易出現(xiàn)模型不收斂的問(wèn)題;學(xué)習(xí)率設(shè)計(jì)較小,模型收斂得慢。

王紅霞等[23]將ReLU 激活函數(shù)和softsign 激活函數(shù)進(jìn)行了結(jié)合,提出了relu-softsign 組合激活函數(shù)。式(24)(25)為其函數(shù)、導(dǎo)數(shù)表達(dá)式,圖20、圖21 示出relu-softplus 和relu-softsign 的函數(shù)、導(dǎo)數(shù)的比較結(jié)果。從公式(24)(25)以及圖20、圖21 中可以看出:relu-softsign 激活函數(shù)在正半軸為線性單元,其導(dǎo)數(shù)始終為1,這一特點(diǎn)保證了模型的加速收斂;relu-softsign 激活函數(shù)在負(fù)半軸為softsign 激活函數(shù)的負(fù)半軸軟飽和部分,其導(dǎo)數(shù)在零點(diǎn)不存在突變,導(dǎo)數(shù)值由1 減小至趨于0。relusoftsign 激活函數(shù)由于在負(fù)半軸提供的非0 導(dǎo)數(shù),增加了對(duì)非正值處理的魯棒性,也加速了模型的收斂速度。

圖20 relu-softsign 和relu-softplus 函數(shù)圖

圖21 relu-softsign 和relu-softplus 導(dǎo)數(shù)圖

比較二者的負(fù)半軸斜率,由圖20、圖21 可以看出,relu-softsign 激活函數(shù)在負(fù)半軸零點(diǎn)附近較relu-softplus 激活函數(shù)整體有更大的導(dǎo)數(shù),前者在零點(diǎn)附近導(dǎo)數(shù)由1 衰減較快,但保證了模型在零點(diǎn)附近的數(shù)據(jù)特征下有較快的收斂性;后者在零點(diǎn)附近導(dǎo)數(shù)值由1 突變?yōu)?.5,相較于前者,其模型在零點(diǎn)附近的數(shù)據(jù)特征下收斂性不足。王紅霞等[23]通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了此理論分析。

2 激活函數(shù)的性質(zhì)分析

依據(jù)上文的討論及激活函數(shù)的發(fā)展規(guī)律,可以初步得出一個(gè)良好的激活函數(shù)常具備以下一些特點(diǎn):1)非線性以及可微性;2)解決梯度消失問(wèn)題,也避免出現(xiàn)梯度爆炸問(wèn)題;3)解決“神經(jīng)元壞死“問(wèn)題;4)符合或近似符合0 均值分布;5)計(jì)算的時(shí)間、空間復(fù)雜度??;6)存在一定的稀疏性;7)模型收斂速度相對(duì)較快;8)對(duì)數(shù)據(jù)噪聲具有一定的魯棒性等。

sigmoid 和tanh 激活函數(shù)符合1)、4)特點(diǎn),但不符合2)、5)、6)、7);ReLU 激活函數(shù)緩和了“S”型激活函數(shù)存在的問(wèn)題2)、5)、6)、7),但是引入了問(wèn)題3)、4);Nosiy ReLU、Leaky ReLU、PReLU、RReLU 激活函數(shù)對(duì)ReLU 激活函數(shù)負(fù)半軸進(jìn)行改造,緩減了ReLU 激活函數(shù)存在的問(wèn)題3);ReLU6激活函數(shù)引進(jìn)稀疏性,因此符合特點(diǎn)6)、8);Swish和Xwish 激活函數(shù)可看成線性函數(shù)和ReLU 函數(shù)之間的線性插值的平滑激活函數(shù),其保留了負(fù)半軸的特征,緩和了ReLU 存在的問(wèn)題3)、4);Maxout激活函數(shù)緩和了ReLU 激活函數(shù)存在的問(wèn)題3),但是引入?yún)?shù)也帶來(lái)了問(wèn)題5);ELU 和TReLU 激活函數(shù)緩減了ReLU 激活函數(shù)的問(wèn)題3)、4),且引入的軟飽和滿足特點(diǎn)8);relu-softplus、relu-softsign激活函數(shù)結(jié)合了softplus/softsign 和ReLU 的正負(fù)半軸,不但緩和了ReLU 激活函數(shù)存在的問(wèn)題3)、4),且符合特點(diǎn)7)、8),將激活函數(shù)負(fù)半軸斜率變化快慢和模型收斂速度結(jié)合了起來(lái)。

為了進(jìn)一步分析激活函數(shù)的性質(zhì),本文以多層感知機(jī)為例,推導(dǎo)激活函數(shù)在前向傳播和反向傳播過(guò)程中的作用表達(dá)式。

2.1 損失函數(shù)

在多層感知機(jī)中,給定樣本集合,其整體代價(jià)函數(shù)為式(26)。其中,前一項(xiàng)為誤差項(xiàng),常見的有平方誤差項(xiàng)、交叉熵誤差項(xiàng)等;后一項(xiàng)為正則化項(xiàng),此處使用的是L2 正則化。

2.2 前向傳播

多層感知機(jī)中,輸入信號(hào)通過(guò)各個(gè)網(wǎng)絡(luò)層的隱節(jié)點(diǎn)產(chǎn)生輸出的過(guò)程稱為前向傳播。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,前向傳播會(huì)生成一個(gè)標(biāo)量損失函數(shù)。定義第i層的輸入、輸出為x[i]、a[i],上一層的輸出作為下一層的輸入。w[i]、b[i]為 第i層的權(quán)值參數(shù)和偏置,z[i]是 第i層 輸入神經(jīng)元未經(jīng)激活的值,g[i](x)為 第i層的激活函數(shù)。前向傳播過(guò)程的表達(dá)式為

分析式(27),在神經(jīng)網(wǎng)絡(luò)的前向傳播的過(guò)程中,輸入和本層的權(quán)值相乘,加上偏置,并將各項(xiàng)結(jié)果累加,得到下一層神經(jīng)元的初步輸入值,其與上一層的關(guān)系為線性關(guān)系。這個(gè)初步輸入值經(jīng)過(guò)激活函數(shù)的加工,對(duì)初步輸入值進(jìn)行非線性映射,增強(qiáng)了表達(dá)能力。因此激活函數(shù)應(yīng)該具備以下性質(zhì):

1)激活函數(shù)具有較強(qiáng)的非線性表達(dá)能力;

2)激活函數(shù)應(yīng)該符合或近似符合0 均值分布條件,以增加其對(duì)數(shù)據(jù)的適應(yīng)性;

3)激活函數(shù)應(yīng)該具有良好的計(jì)算特性。

2.3 反向傳播

多層感知機(jī)中,反向傳播過(guò)程是將損失函數(shù)的梯度信息沿著網(wǎng)絡(luò)向后傳播,以更新權(quán)值參數(shù)。其過(guò)程是將 da[j]作 為輸入,得到 dw[j]、db[j],作為輸出,a為學(xué)習(xí)率,其余參數(shù)表達(dá)參照2.2 中的前向傳播,其過(guò)程表達(dá)式如式(28)—(34)所示。

對(duì)于sigmoid 激活函數(shù),其求導(dǎo)展開式為

對(duì)于tanh 激活函數(shù),其求導(dǎo)展開式為

對(duì)于ReLU 激活函數(shù),其求導(dǎo)展開式為

對(duì)于ReLU6 激活函數(shù),其求導(dǎo)展開式為

對(duì)于Xwish 激活函數(shù),其求導(dǎo)展開式為

對(duì)于ELU 激活函數(shù),其求導(dǎo)展開式為

對(duì)于TReLU 激活函數(shù),其求導(dǎo)展開式為

對(duì)于relu-softplus 激活函數(shù),其求導(dǎo)展開式為

對(duì)于relu-softsign 激活函數(shù),其求導(dǎo)展開式為

分析式(28)—(43),可以得出,權(quán)值參數(shù)(Wb)的更新與激活函數(shù)導(dǎo)數(shù)值的大小存在線性相關(guān)關(guān)系,深層神經(jīng)網(wǎng)絡(luò)的參數(shù)更新中會(huì)出現(xiàn)激活函數(shù)的導(dǎo)數(shù)連乘。因此分析反向傳播過(guò)程,激活函數(shù)應(yīng)該具備以下性質(zhì):

1)在連乘情況下避免出現(xiàn)梯度消失問(wèn)題,也避免出現(xiàn)梯度爆炸問(wèn)題;

2)避免出現(xiàn)激活函數(shù)導(dǎo)數(shù)過(guò)于置0 從而導(dǎo)致參數(shù)不更新,出現(xiàn)“神經(jīng)元壞死“問(wèn)題;

3)激活函數(shù)的導(dǎo)數(shù)計(jì)算的時(shí)間、空間復(fù)雜度應(yīng)該較??;

4)由神經(jīng)科學(xué)學(xué)科的研究論證,激活函數(shù)應(yīng)該存在一定的稀疏性;

5)模型剛開始訓(xùn)練的時(shí)候,激活函數(shù)的導(dǎo)數(shù)應(yīng)該較大,加速模型收斂,在模型收斂后半段,激活函數(shù)有一定的軟飽和性,即導(dǎo)數(shù)漸漸趨于0,使得模型收斂至最優(yōu)值;

6)參數(shù)w的更新方向與該層的輸入a[j?1]有關(guān),參數(shù)的更新方向應(yīng)該自由,因此應(yīng)該選擇一個(gè)正負(fù)值都可以輸出的激活函數(shù);

7)模型對(duì)數(shù)據(jù)噪聲應(yīng)具有一定的魯棒性,因此激活函數(shù)應(yīng)該具備一定的飽和性。

3 結(jié)束語(yǔ)與展望

本文較詳細(xì)地列舉了激活函數(shù)的發(fā)展歷程及當(dāng)前主流激活函數(shù)所固有的特點(diǎn),并推導(dǎo)了多層感知機(jī)的前向傳播、反向傳播過(guò)程,結(jié)合激活函數(shù)的發(fā)展經(jīng)驗(yàn)提出了優(yōu)良激活函數(shù)應(yīng)該具備的一些性質(zhì)。這為深入了解激活函數(shù)提供了便利,為研究改進(jìn)激活函數(shù)提供了一種思路。隨著計(jì)算機(jī)計(jì)算水平以及深度學(xué)習(xí)理論的不斷發(fā)展,激活函數(shù)的角色還會(huì)發(fā)生變化。未來(lái)可能從以下幾個(gè)方向突破:1)從計(jì)算機(jī)的計(jì)算能力限制中解放出來(lái),應(yīng)用更復(fù)雜、特征映射更精細(xì)的激活函數(shù);2)深度學(xué)習(xí)理論的重大突破及神經(jīng)科學(xué)的解密可能會(huì)帶來(lái)激活函數(shù)發(fā)展的新思路;3)在ReLU 激活函數(shù)的模板下,對(duì)激活函數(shù)進(jìn)行負(fù)半軸改造;4)稀疏性連接理念在激活函數(shù)中的應(yīng)用啟發(fā);5)針對(duì)特定任務(wù)應(yīng)用而設(shè)計(jì)激活函數(shù)(精度與時(shí)間復(fù)雜度的權(quán)衡)。

激活函數(shù)作為卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)必不可少的組成部分,不論是在ReLU 的基礎(chǔ)上進(jìn)行改進(jìn),還是構(gòu)造全新激活函數(shù);不論是通用型激活函數(shù),還是單適用性激活函數(shù):其最終的目的是為了增強(qiáng)或更快速地對(duì)數(shù)據(jù)特征進(jìn)行非線性映射,最終實(shí)現(xiàn)模型的高泛化能力或低時(shí)間復(fù)雜度。

猜你喜歡
半軸表達(dá)式梯度
基于應(yīng)變梯度的微尺度金屬塑性行為研究
既有建筑結(jié)構(gòu)鑒定表達(dá)式各分項(xiàng)系數(shù)的確定分析
載貨汽車半軸套管的快速拆裝分析與探討
靈活選用二次函數(shù)表達(dá)式
汽車全浮式半軸的可靠性優(yōu)化設(shè)計(jì)
一個(gè)具梯度項(xiàng)的p-Laplace 方程弱解的存在性
內(nèi)容、形式與表達(dá)——有梯度的語(yǔ)言教學(xué)策略研究
航磁梯度數(shù)據(jù)實(shí)測(cè)與計(jì)算對(duì)比研究
農(nóng)用運(yùn)輸車后橋故障分析
議C語(yǔ)言中循環(huán)語(yǔ)句