(沈陽理工大學(xué) 遼寧 沈陽 110159)
近年來,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,其各個分支的優(yōu)化也在不斷進行。在機器學(xué)習(xí)當(dāng)中,每一個算法都會涉及一個目標函數(shù),而對該算法的求得最優(yōu)解的過程就是通過對該目標函數(shù)的不斷優(yōu)化。在目標識別與分類領(lǐng)域,經(jīng)常使用損失函數(shù)作為它的目標函數(shù)。損失函數(shù)的實質(zhì)就是計算實際輸出和理想輸出之間的差異。所以選用的損失函數(shù)越好,模型的性能越好,魯棒性相應(yīng)也會更加優(yōu)質(zhì)。不同的算法使用的損失函數(shù)也會不一樣。
損失函數(shù)的分類及原理:
1.平方損失函數(shù):
平方損失函數(shù)使用的是最小二乘算法。
最小二乘算法法歸屬于線性回歸問題的一種方法,它將問題轉(zhuǎn)變成為了一個凸優(yōu)化操作的問題。在線性回歸過程中中,它擬定樣本、噪聲都遵信高斯分布,然后用極大似然估計法驅(qū)推導(dǎo)得到最小的二乘式子。
最小二乘的基本原則:通過平方和最小算法去求得最優(yōu)擬合直線,所謂最優(yōu)擬合直線就是使每個點到定義的回歸直線的距離之和值最小的直線。而且,平方損失函數(shù)是基于距離的,而此處對距離的定義可以理解為歐幾里得距離。
最小二乘法優(yōu)點:
?簡單,計算方便;
?歐氏距離是一種很好的相似性度量標準;
?在經(jīng)過不同的區(qū)域變換后,特征性質(zhì)維持原樣。
2.log對數(shù)損失函數(shù):
?對數(shù)函數(shù)利用的邏輯回歸法。
?邏輯回歸算法的基本步驟如下,我們先擬定采用的數(shù)據(jù)遵循伯努利分布,接下來去計算似然函數(shù),求得的函數(shù)必須要滿足伯努利分布,最后對函數(shù)進行取對數(shù)運算去求得極值。要注意的一點是,邏輯回歸最后并不會去計算似然函數(shù)的極值,而是轉(zhuǎn)換了另外一種思維方式,把極值當(dāng)作一種思想,然后推導(dǎo)出它所對應(yīng)的損失函數(shù)。
3.經(jīng)典CNN模型的損失函數(shù)
設(shè)由 m 個樣本組成的樣本集為{(x1,y1),(x2,y2)…(xm,ym)},在這些樣本里有 n 類,yi表示xi的期望輸出. 傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為
(1)
其中:w 為每個神經(jīng)元的權(quán)值;b 為偏置項;Pw,b(xi)為實際輸出。模型通過訓(xùn)練調(diào)節(jié)參數(shù)w,b,使損失函數(shù) R(w,b)達到最小。
經(jīng)典 CNN 模型對損失函數(shù)進行參數(shù)更新與優(yōu)化,主要通過梯度下降法,它的迭代公式為:
(2)
(3)
其中:a 表示學(xué)習(xí)率。式(2)和式(3)使用 BP 算法計算出偏導(dǎo)數(shù)的值。在使用反向傳播算法時,先去進行前向傳播,得到最后一層的輸出值Pw,b(xi),然后計算實際輸出值與期望理想值之間的差距,這個差距表示為 R(w,b)。接下來通過最后一層的殘差反向逐層計算出前一層的殘差,最后得到更新后的權(quán)值和偏置項和神經(jīng)網(wǎng)絡(luò)參數(shù)。