呂新偉,魯淑霞*
(1.河北省機器學(xué)習與計算智能重點實驗室(河北大學(xué)),河北 保定 071002;2.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071002)
極限學(xué)習機(Extreme Learning Machine,ELM)自提出以來,已經(jīng)成功應(yīng)用于各種實際問題[1-5],成為廣泛使用的機器學(xué)習工具之一。ELM 主要依賴于給定的訓(xùn)練數(shù)據(jù)標簽,如基于L2范數(shù)損失函數(shù)的ELM[6]假設(shè)訓(xùn)練標簽的誤差是一個正態(tài)分布;然而,實際問題中的訓(xùn)練樣本不能保證誤差具有正態(tài)分布。此外,ELM 往往過分強調(diào)訓(xùn)練過程中殘差較大的異常點,導(dǎo)致ELM 對異常點的敏感性和魯棒性較差。因此,構(gòu)造能夠抑制異常點影響的魯棒極限學(xué)習機(Robust ELM,RELM)模型,在機器學(xué)習中是必要和有意義的。
ELM 的許多變體都致力于提高ELM 對異常點的魯棒性。引入正則化的極限學(xué)習機[7-9]通過在最小化目標函數(shù)中添加正則化項以減小結(jié)構(gòu)風險,如加權(quán)極限學(xué)習機(Weighted ELM,WELM)[10]和魯棒極限學(xué)習機(RELM)[11]為訓(xùn)練樣本分配適當?shù)臋?quán)值,但它們的性能在很大程度上依賴于權(quán)重估計的初始值。Chen 等[12]基于正則化項和損失函數(shù)的多種組合設(shè)計了迭代重加權(quán)極限學(xué)習機(Iteratively Re-Weighted ELM,IRWELM),并通過迭代加權(quán)算法實現(xiàn)。最近的一些研究則通過替換損失函數(shù)來增強極限學(xué)習機的魯棒性,例如使用Huber 損失函數(shù)[13]、L1范數(shù)損失函數(shù)[14]以及各損失函數(shù)的變體[15-16]等實現(xiàn)魯棒極限學(xué)習機,以減少異常點的影響;但它們?nèi)匀徊粔蚍€(wěn)健,因為這些損失函數(shù)受到殘差較大的異常點的影響。具有相關(guān)熵損失函數(shù)[17]和重標極差損失函數(shù)[18]的極限學(xué)習機改進版本傾向于構(gòu)造有界和非凸損失函數(shù),以提高對異常點的魯棒性。盡管這些損失函數(shù)具有良好的學(xué)習性能,但是求解該優(yōu)化問題的方法過于復(fù)雜。有界的損失函數(shù)可以抑制殘差較大異常點的影響,迭代重加權(quán)正則化極限學(xué)習機(Iterative Reweighted Regularized ELM,IRRELM)[19]通過有界的L2范數(shù)損失函數(shù)抑制較大異常點的負面影響;但過多的異常點反過來會影響損失函數(shù)對異常點的判定,影響回歸結(jié)果。因此本文在有界L2范數(shù)損失函數(shù)的基礎(chǔ)上使用迭代修正方法,提出了一種用于回歸估計的魯棒極限學(xué)習機,以抑制異常點的負面影響,采用迭代加權(quán)算法求解魯棒極限學(xué)習機。在每次迭代中,為本輪認為是異常點的標簽重新賦值,并在每次迭代的過程中逐漸去除異常點的影響,增強極限學(xué)習機的魯棒性。
本文的主要工作包括:為減小極端異常點的影響,采用了有界損失函數(shù),并在有界損失函數(shù)的基礎(chǔ)上提出了迭代修正魯棒極限學(xué)習機(Iteratively Modified RELM,IMRELM),讓這些殘差較大的異常點在迭代的過程中找到正確的標簽。實驗結(jié)果表明,當數(shù)據(jù)中的異常點數(shù)過多且殘差較大時,本文IMRELM 的結(jié)果優(yōu)于對比的幾種魯棒極限學(xué)習機算法。
假設(shè)有N個任意樣本,其中:xi∈Rd為輸入變量;yi∈R 是回歸估計中相應(yīng)的目標。ELM 是一個單隱層神經(jīng)網(wǎng)絡(luò),具有L個神經(jīng)元的ELM 的輸出函數(shù)可以表示為:
其 中:β=[β1,β2,…,βL]T為 ELM 輸出權(quán) 重;h(x)=[h1(x),h2(x),…,hL(x)]為隱含層矩陣;f(x)為回歸估計中相應(yīng)的目標預(yù)測值。
ELM 求解以下優(yōu)化問題來推導(dǎo)輸出權(quán)重β:
s.t.h(xi)β=yi-ei;i=1,2,…,N
其中:ei是訓(xùn)練誤差;C是平衡模型復(fù)雜度的正則化參數(shù)?;谧顑?yōu)性條件,得到式(2)的最優(yōu)解β:
其 中:數(shù)據(jù)的 真實標 簽y=[y1,y2,…,yN]T;H=[h(x1),h(x2),…,h(xN)}T是隱藏層輸出矩陣;I為適當大小的單位矩陣。
為了減小L2范數(shù)損失函數(shù)對于殘差較大異常點的敏感性,IRRELM 使用了非凸L2范數(shù)損失函數(shù)。
其中:z是一個變量;θ是一個常數(shù),θ是對大異常點的懲罰。g(z)的上界意味著損失在一定值后不會增加懲罰,并且它抑制了異常點的影響。
IRRELM 的優(yōu)化模型為:
s.t.h(xi)β=yi-ei;i=1,2,…,N
在迭代重加權(quán)中,每個樣本的權(quán)重通過殘差由下式給出:
IRRELM 的第k次迭代解為:
在IRRELM 中,βk為第k次迭代中求得的隱層輸出權(quán)重;wk=diag(w1,w2,…,wN)為第k次迭代樣本權(quán)重。
算法1 IRRELM 算法。
對于魯棒極限學(xué)習機,通常都是減小異常點的影響。但是基于L2范數(shù)損失函數(shù)的ELM 對異常點非常敏感,當數(shù)據(jù)中存在異常點時,異常點L2范數(shù)損失會很大。因此,選擇損失較小的數(shù)據(jù)進行訓(xùn)練模型是有效的。為了避免過多異常點污染模型以及數(shù)據(jù)和資源的浪費,同時解決模型泛化能力不強的問題,在每次迭代中,對于那些殘差較大的數(shù)據(jù)進行修正。
為了處理異常點,本文提出了一種迭代修正魯棒極限學(xué)習機算法。
在IRRELM 中,優(yōu)化模型又可以寫成:
令tik=1 -wik,提出以下?lián)p失函數(shù):
優(yōu)化模型為:
優(yōu)化模型關(guān)于β求導(dǎo)并令其等于零,得到迭代修正魯棒極限學(xué)習機的解為:
其中:H=[h(x1),h(x2),…,h(xN)]T;wk=diag(w1,w2,…,wN),tk=diag(t1,t2,…,tN);C1、C2為正則化參數(shù);I為適當大小的單位矩陣。
算法2 IMRELM 算法。
為了研究IMRELM 的有效性,在人工數(shù)據(jù)集和真實數(shù)據(jù)集上進行了數(shù)值實驗。通過10 次交叉驗證和網(wǎng)格搜索方法選擇實驗參數(shù)。所有上述算法選擇的參數(shù)的范圍如下:參數(shù)kmax:{10i,i=2,3,4},停止閾值p:{10i,i=-5,-4,…,1,2},正則化參數(shù)C1、C2:{10i,i=-5,-4,…,4,5}。所有的實驗都在3.40 GHz 的機器上使用Pycharm 2019 進行。
比較算法是極限學(xué)習機(ELM)和一些魯棒極限學(xué)習機,包括加權(quán)極限學(xué)習機(WELM)、迭代重加權(quán)極限學(xué)習機(IRWELM)和迭代重加權(quán)正則化極限學(xué)習機(IRRELM)。在實驗中,使用sigmoid 激活函數(shù)g(x)=1/(1+exp(-x))。迭代加權(quán)的算法中的迭代次數(shù)為200,采用均方誤差(Mean-Square Error,MSE)作為估計標準:
其中:N是測試集的數(shù)量;yi、f(xi)分別是真實值和相應(yīng)的預(yù)測值。通常,均方誤差越小,方法的性能越好。
在不同異常點水平的人工數(shù)據(jù)集上進行實驗,結(jié)果給出了IMRELM 算法和其他算法的實驗結(jié)果,并通過統(tǒng)計測試比較了這些算法的性能。人工數(shù)據(jù)集來源于回歸問題中廣泛使用的函數(shù),定義如下:
實驗在具有不同異常點水平的人工數(shù)據(jù)集上進行,并通過統(tǒng)計測試比較這些算法的性能。在實驗中,噪聲是[-10,10]上的均勻分布。按照數(shù)據(jù)的大小隨機生成不同占比的噪聲并添加到訓(xùn)練集上。為了揭示IMRELM 算法的魯棒性,在不同水平異常點(包括0%、10%、20%、…、80%)數(shù)據(jù)集上分別進行對比實驗。在具有不同異常點水平的噪聲環(huán)境情況下,對比了幾個改進的極限學(xué)習機的魯棒性。對于每個異常點水平,在50 次獨立運行中進行實驗,以避免不公平的比較,并獲得了表1 中的均方誤差和標準差(Std)。
表1 具有不同異常點水平的人工數(shù)據(jù)集上的實驗結(jié)果Tab.1 Experimental results on synthetic datasets with different outlier levels
從表1 可以看出,在沒有異常點的情況下,經(jīng)典ELM 表現(xiàn)出了很好的性能,具有最小的均方誤差值。IMRELM 的表現(xiàn)優(yōu)于WELM、IRWELM 和IRRELM。在不同異常點水平的情況下,ELM 在所有水平上的表現(xiàn)都較差,反映了它對異常點的敏感性。
對于人工數(shù)據(jù)集,得到=26.244 和FF=21.520 2。在Friedman 測試中,如果α=0.05,得到Fα=2.157<21.520 2。因此,拒絕“兩個算法性能相同”這一假設(shè)。繼續(xù)進行Nemenyi 檢 驗,α=0.1,qα=2.459,CD=1.832 8。如 表1 所示,IMRELM 和其他4 種魯棒性方法之間的排名差異為3,3,3,2 和1,因此,得出的結(jié)論是:IMRELM 的性能明顯不同于ELM、WELM、IRWELM,并且IMRELM 的性能最好。
為了更清楚地顯示這些算法的性能,圖1 顯示了在均勻分布噪聲下,5 種算法在不同異常點水平下的回歸曲線:當數(shù)據(jù)中沒有異常點時,5 種算法與原始曲線(SIN)擬合較好;當數(shù)據(jù)中異常點占比到30%時,WELM 開始偏離原始曲線;當數(shù)據(jù)中異常點占比到50%時,IRWELM 開始偏離原始曲線;當數(shù)據(jù)中異常點占比到60%時,IRRELM 開始偏離原始曲線。可以看出隨著數(shù)據(jù)中異常點水平的增加,ELM、WELM、IRWELM 和IRRELM 曲線部分偏離原始曲線,朝向異常點,而IMRELM 的曲線始終最接近原始曲線。
圖1 五種算法在不同異常點水平下的回歸曲線Fig.1 Regression curves of five algorithms under different outlier levels
在12 個真實數(shù)據(jù)集上進行了進一步的實驗,以驗證IMRELM 在處理噪聲和異常點的有效性。在數(shù)據(jù)準備過程中,根據(jù)訓(xùn)練樣本和測試樣本的數(shù)量,將每個數(shù)據(jù)集隨機分為兩部分(訓(xùn)練集和測試集)(見表2)。在訓(xùn)練集和測試集中,所有特征均歸一化為零平均值,標準殘差為1。真實數(shù)據(jù)集都來自UCI[20]。
表2 真實數(shù)據(jù)集Tab.2 Real datasets
從表3 可以看出,在沒有異常點的情況下,ELM 和極限學(xué)習機的其他4 種ELM 變體實現(xiàn)了相似的預(yù)測精度。當在具有異常點的數(shù)據(jù)集上進行訓(xùn)練時,如均方誤差所反映的,ELM 的性能最差,它的性能隨著異常點水平的增加顯著下降,這表明ELM 對異常點不具有魯棒性;其他算法的預(yù)測精度要高得多,且IMRELM 在大多數(shù)情況下都優(yōu)于其他算法。
表3 具有不同異常點水平的真實數(shù)據(jù)集上的實驗結(jié)果Tab.3 Experimental results on real datasets with different outlier levels
接下來通過Friedman 測試來討論這5 種算法在12 個真實數(shù)據(jù)集上的性能。表4 展示了幾種魯棒算法在實際數(shù)據(jù)集上的平均排名;表5 中展示了Friedman 測試的相關(guān)數(shù)據(jù),其中Δ(IMRELM-ELM)表示IMRELM 和ELM 的序值差。在真實數(shù)據(jù)集上FF均大于Fα,因此,拒絕在這12 個真實數(shù)據(jù)集上的“兩個算法性能相同”這一假設(shè)。因為Δ(IMRELMELM)、Δ(IMRELM-WELM)的值均大于CD值1.832 8,所以IMRELM 與ELM、WELM 和IRWELM 的性能有明顯的差異。Δ(IMRELM-IRRELM)、Δ(IMRELM-IRWELM)的值均 在1左右。
表4 五種算法在12個真實數(shù)據(jù)集上的平均序值Tab.4 Average order values of five algorithms on 12 real datasets
綜上,可以得到IMRELM 在含有異常點的數(shù)據(jù)集上的預(yù)測精度最好。
在實際應(yīng)用的真實數(shù)據(jù)集中往往含有離群值,這會導(dǎo)致ELM 的泛化性能較差。為了抑制異常點的負面影響,提高ELM 的魯棒性,提出了迭代修正魯棒極限學(xué)習機(IMRELM)算法,使用迭代重加權(quán)的方法進行優(yōu)化。IMRELM 在每次迭代中將離群值的權(quán)值設(shè)為0,并重新進行標簽賦值。因此,最小化目標函數(shù)時不涉及離群值,可以增強ELM 的魯棒性。在1 個人工數(shù)據(jù)集和12 個不同離群值水平的真實數(shù)據(jù)集上的對比實驗結(jié)果表明,IMRELM 具有良好的預(yù)測精度和魯棒性。但目前IMRELM 中只考慮了原始ELM 中的L2范數(shù)損失函數(shù),在未來的工作中也可以拓展到其他ELM 變體中的損失函數(shù),如Huber 損失極限學(xué)習機、L1范數(shù)損失極限學(xué)習機和鉸鏈損失極限學(xué)習機,以獲得穩(wěn)健的極限學(xué)習機模型。