迭代修正魯棒極限學(xué)習機

2023-05-24 03:18呂新偉魯淑霞

計算機應(yīng)用 2023年5期

呂新偉，魯淑霞*

（1.河北省機器學(xué)習與計算智能重點實驗室（河北大學(xué)），河北保定 071002；2.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院，河北保定 071002）

0 引言

極限學(xué)習機（Extreme Learning Machine，ELM）自提出以來，已經(jīng)成功應(yīng)用于各種實際問題［1-5］，成為廣泛使用的機器學(xué)習工具之一。ELM 主要依賴于給定的訓(xùn)練數(shù)據(jù)標簽，如基于L2范數(shù)損失函數(shù)的ELM［6］假設(shè)訓(xùn)練標簽的誤差是一個正態(tài)分布；然而，實際問題中的訓(xùn)練樣本不能保證誤差具有正態(tài)分布。此外，ELM 往往過分強調(diào)訓(xùn)練過程中殘差較大的異常點，導(dǎo)致ELM 對異常點的敏感性和魯棒性較差。因此，構(gòu)造能夠抑制異常點影響的魯棒極限學(xué)習機（Robust ELM，RELM）模型，在機器學(xué)習中是必要和有意義的。

ELM 的許多變體都致力于提高ELM 對異常點的魯棒性。引入正則化的極限學(xué)習機［7-9］通過在最小化目標函數(shù)中添加正則化項以減小結(jié)構(gòu)風險，如加權(quán)極限學(xué)習機（Weighted ELM，WELM）［10］和魯棒極限學(xué)習機（RELM）［11］為訓(xùn)練樣本分配適當?shù)臋?quán)值，但它們的性能在很大程度上依賴于權(quán)重估計的初始值。Chen 等［12］基于正則化項和損失函數(shù)的多種組合設(shè)計了迭代重加權(quán)極限學(xué)習機（Iteratively Re-Weighted ELM，IRWELM），并通過迭代加權(quán)算法實現(xiàn)。最近的一些研究則通過替換損失函數(shù)來增強極限學(xué)習機的魯棒性，例如使用Huber 損失函數(shù)［13］、L1范數(shù)損失函數(shù)［14］以及各損失函數(shù)的變體［15-16］等實現(xiàn)魯棒極限學(xué)習機，以減少異常點的影響；但它們?nèi)匀徊粔蚍€(wěn)健，因為這些損失函數(shù)受到殘差較大的異常點的影響。具有相關(guān)熵損失函數(shù)［17］和重標極差損失函數(shù)［18］的極限學(xué)習機改進版本傾向于構(gòu)造有界和非凸損失函數(shù)，以提高對異常點的魯棒性。盡管這些損失函數(shù)具有良好的學(xué)習性能，但是求解該優(yōu)化問題的方法過于復(fù)雜。有界的損失函數(shù)可以抑制殘差較大異常點的影響，迭代重加權(quán)正則化極限學(xué)習機（Iterative Reweighted Regularized ELM，IRRELM）［19］通過有界的L2范數(shù)損失函數(shù)抑制較大異常點的負面影響；但過多的異常點反過來會影響損失函數(shù)對異常點的判定，影響回歸結(jié)果。因此本文在有界L2范數(shù)損失函數(shù)的基礎(chǔ)上使用迭代修正方法，提出了一種用于回歸估計的魯棒極限學(xué)習機，以抑制異常點的負面影響，采用迭代加權(quán)算法求解魯棒極限學(xué)習機。在每次迭代中，為本輪認為是異常點的標簽重新賦值，并在每次迭代的過程中逐漸去除異常點的影響，增強極限學(xué)習機的魯棒性。

本文的主要工作包括：為減小極端異常點的影響，采用了有界損失函數(shù)，并在有界損失函數(shù)的基礎(chǔ)上提出了迭代修正魯棒極限學(xué)習機（Iteratively Modified RELM，IMRELM），讓這些殘差較大的異常點在迭代的過程中找到正確的標簽。實驗結(jié)果表明，當數(shù)據(jù)中的異常點數(shù)過多且殘差較大時，本文IMRELM 的結(jié)果優(yōu)于對比的幾種魯棒極限學(xué)習機算法。

1 相關(guān)工作

1.1 極限學(xué)習機

假設(shè)有N個任意樣本，其中：xi∈Rd為輸入變量；yi∈R 是回歸估計中相應(yīng)的目標。ELM 是一個單隱層神經(jīng)網(wǎng)絡(luò)，具有L個神經(jīng)元的ELM 的輸出函數(shù)可以表示為：

其中：β=[β1，β2，…，βL]T為 ELM 輸出權(quán) 重；h(x)=[h1(x)，h2(x)，…，hL(x)]為隱含層矩陣；f(x)為回歸估計中相應(yīng)的目標預(yù)測值。

ELM 求解以下優(yōu)化問題來推導(dǎo)輸出權(quán)重β：

s.t.h(xi)β=yi-ei；i=1，2，…，N

其中：ei是訓(xùn)練誤差；C是平衡模型復(fù)雜度的正則化參數(shù)?；谧顑?yōu)性條件，得到式（2）的最優(yōu)解β：

其中：數(shù)據(jù)的真實標簽y=[y1，y2，…，yN]T；H=[h(x1)，h(x2)，…，h(xN)}T是隱藏層輸出矩陣；I為適當大小的單位矩陣。

1.2 迭代重加權(quán)正則化極限學(xué)習機

為了減小L2范數(shù)損失函數(shù)對于殘差較大異常點的敏感性，IRRELM 使用了非凸L2范數(shù)損失函數(shù)。

其中：z是一個變量；θ是一個常數(shù)，θ是對大異常點的懲罰。g(z)的上界意味著損失在一定值后不會增加懲罰，并且它抑制了異常點的影響。

IRRELM 的優(yōu)化模型為：

s.t.h(xi)β=yi-ei；i=1，2，…，N

在迭代重加權(quán)中，每個樣本的權(quán)重通過殘差由下式給出：

IRRELM 的第k次迭代解為：

在IRRELM 中，βk為第k次迭代中求得的隱層輸出權(quán)重；wk=diag(w1，w2，…，wN)為第k次迭代樣本權(quán)重。

算法1 IRRELM 算法。

2 迭代修正魯棒極限學(xué)習機

對于魯棒極限學(xué)習機，通常都是減小異常點的影響。但是基于L2范數(shù)損失函數(shù)的ELM 對異常點非常敏感，當數(shù)據(jù)中存在異常點時，異常點L2范數(shù)損失會很大。因此，選擇損失較小的數(shù)據(jù)進行訓(xùn)練模型是有效的。為了避免過多異常點污染模型以及數(shù)據(jù)和資源的浪費，同時解決模型泛化能力不強的問題，在每次迭代中，對于那些殘差較大的數(shù)據(jù)進行修正。

為了處理異常點，本文提出了一種迭代修正魯棒極限學(xué)習機算法。

在IRRELM 中，優(yōu)化模型又可以寫成：

令tik=1 -wik，提出以下?lián)p失函數(shù)：

優(yōu)化模型為：

優(yōu)化模型關(guān)于β求導(dǎo)并令其等于零，得到迭代修正魯棒極限學(xué)習機的解為：

其中：H=[h(x1)，h(x2)，…，h(xN)]T；wk=diag(w1，w2，…，wN)，tk=diag(t1，t2，…，tN)；C1、C2為正則化參數(shù)；I為適當大小的單位矩陣。

算法2 IMRELM 算法。

3 實驗與結(jié)果分析

為了研究IMRELM 的有效性，在人工數(shù)據(jù)集和真實數(shù)據(jù)集上進行了數(shù)值實驗。通過10 次交叉驗證和網(wǎng)格搜索方法選擇實驗參數(shù)。所有上述算法選擇的參數(shù)的范圍如下：參數(shù)kmax：{10i，i=2，3，4}，停止閾值p：{10i，i=-5，-4，…，1，2}，正則化參數(shù)C1、C2：{10i，i=-5，-4，…，4，5}。所有的實驗都在3.40 GHz 的機器上使用Pycharm 2019 進行。

比較算法是極限學(xué)習機（ELM）和一些魯棒極限學(xué)習機，包括加權(quán)極限學(xué)習機（WELM）、迭代重加權(quán)極限學(xué)習機（IRWELM）和迭代重加權(quán)正則化極限學(xué)習機（IRRELM）。在實驗中，使用sigmoid 激活函數(shù)g(x)=1/(1+exp(-x))。迭代加權(quán)的算法中的迭代次數(shù)為200，采用均方誤差（Mean-Square Error，MSE）作為估計標準：

其中：N是測試集的數(shù)量；yi、f(xi)分別是真實值和相應(yīng)的預(yù)測值。通常，均方誤差越小，方法的性能越好。

3.1 IMRELM在人工數(shù)據(jù)集上的實驗

在不同異常點水平的人工數(shù)據(jù)集上進行實驗，結(jié)果給出了IMRELM 算法和其他算法的實驗結(jié)果，并通過統(tǒng)計測試比較了這些算法的性能。人工數(shù)據(jù)集來源于回歸問題中廣泛使用的函數(shù)，定義如下：

實驗在具有不同異常點水平的人工數(shù)據(jù)集上進行，并通過統(tǒng)計測試比較這些算法的性能。在實驗中，噪聲是［-10，10］上的均勻分布。按照數(shù)據(jù)的大小隨機生成不同占比的噪聲并添加到訓(xùn)練集上。為了揭示IMRELM 算法的魯棒性，在不同水平異常點（包括0%、10%、20%、…、80%）數(shù)據(jù)集上分別進行對比實驗。在具有不同異常點水平的噪聲環(huán)境情況下，對比了幾個改進的極限學(xué)習機的魯棒性。對于每個異常點水平，在50 次獨立運行中進行實驗，以避免不公平的比較，并獲得了表1 中的均方誤差和標準差（Std）。

表1 具有不同異常點水平的人工數(shù)據(jù)集上的實驗結(jié)果Tab.1 Experimental results on synthetic datasets with different outlier levels

從表1 可以看出，在沒有異常點的情況下，經(jīng)典ELM 表現(xiàn)出了很好的性能，具有最小的均方誤差值。IMRELM 的表現(xiàn)優(yōu)于WELM、IRWELM 和IRRELM。在不同異常點水平的情況下，ELM 在所有水平上的表現(xiàn)都較差，反映了它對異常點的敏感性。

對于人工數(shù)據(jù)集，得到=26.244 和FF=21.520 2。在Friedman 測試中，如果α=0.05，得到Fα=2.157＜21.520 2。因此，拒絕“兩個算法性能相同”這一假設(shè)。繼續(xù)進行Nemenyi 檢驗，α=0.1，qα=2.459，CD=1.832 8。如表1 所示，IMRELM 和其他4 種魯棒性方法之間的排名差異為3，3，3，2 和1，因此，得出的結(jié)論是：IMRELM 的性能明顯不同于ELM、WELM、IRWELM，并且IMRELM 的性能最好。

為了更清楚地顯示這些算法的性能，圖1 顯示了在均勻分布噪聲下，5 種算法在不同異常點水平下的回歸曲線：當數(shù)據(jù)中沒有異常點時，5 種算法與原始曲線（SIN）擬合較好；當數(shù)據(jù)中異常點占比到30%時，WELM 開始偏離原始曲線；當數(shù)據(jù)中異常點占比到50%時，IRWELM 開始偏離原始曲線；當數(shù)據(jù)中異常點占比到60%時，IRRELM 開始偏離原始曲線。可以看出隨著數(shù)據(jù)中異常點水平的增加，ELM、WELM、IRWELM 和IRRELM 曲線部分偏離原始曲線，朝向異常點，而IMRELM 的曲線始終最接近原始曲線。

圖1 五種算法在不同異常點水平下的回歸曲線Fig.1 Regression curves of five algorithms under different outlier levels

3.2 IMRELM在真實數(shù)據(jù)集上的實驗

在12 個真實數(shù)據(jù)集上進行了進一步的實驗，以驗證IMRELM 在處理噪聲和異常點的有效性。在數(shù)據(jù)準備過程中，根據(jù)訓(xùn)練樣本和測試樣本的數(shù)量，將每個數(shù)據(jù)集隨機分為兩部分（訓(xùn)練集和測試集）（見表2）。在訓(xùn)練集和測試集中，所有特征均歸一化為零平均值，標準殘差為1。真實數(shù)據(jù)集都來自UCI［20］。

表2 真實數(shù)據(jù)集Tab.2 Real datasets

從表3 可以看出，在沒有異常點的情況下，ELM 和極限學(xué)習機的其他4 種ELM 變體實現(xiàn)了相似的預(yù)測精度。當在具有異常點的數(shù)據(jù)集上進行訓(xùn)練時，如均方誤差所反映的，ELM 的性能最差，它的性能隨著異常點水平的增加顯著下降，這表明ELM 對異常點不具有魯棒性；其他算法的預(yù)測精度要高得多，且IMRELM 在大多數(shù)情況下都優(yōu)于其他算法。

表3 具有不同異常點水平的真實數(shù)據(jù)集上的實驗結(jié)果Tab.3 Experimental results on real datasets with different outlier levels

接下來通過Friedman 測試來討論這5 種算法在12 個真實數(shù)據(jù)集上的性能。表4 展示了幾種魯棒算法在實際數(shù)據(jù)集上的平均排名；表5 中展示了Friedman 測試的相關(guān)數(shù)據(jù)，其中Δ（IMRELM-ELM）表示IMRELM 和ELM 的序值差。在真實數(shù)據(jù)集上FF均大于Fα，因此，拒絕在這12 個真實數(shù)據(jù)集上的“兩個算法性能相同”這一假設(shè)。因為Δ（IMRELMELM）、Δ（IMRELM-WELM）的值均大于CD值1.832 8，所以IMRELM 與ELM、WELM 和IRWELM 的性能有明顯的差異。Δ（IMRELM-IRRELM）、Δ（IMRELM-IRWELM）的值均在1左右。

表4 五種算法在12個真實數(shù)據(jù)集上的平均序值Tab.4 Average order values of five algorithms on 12 real datasets

綜上，可以得到IMRELM 在含有異常點的數(shù)據(jù)集上的預(yù)測精度最好。

4 結(jié)語

在實際應(yīng)用的真實數(shù)據(jù)集中往往含有離群值，這會導(dǎo)致ELM 的泛化性能較差。為了抑制異常點的負面影響，提高ELM 的魯棒性，提出了迭代修正魯棒極限學(xué)習機（IMRELM）算法，使用迭代重加權(quán)的方法進行優(yōu)化。IMRELM 在每次迭代中將離群值的權(quán)值設(shè)為0，并重新進行標簽賦值。因此，最小化目標函數(shù)時不涉及離群值，可以增強ELM 的魯棒性。在1 個人工數(shù)據(jù)集和12 個不同離群值水平的真實數(shù)據(jù)集上的對比實驗結(jié)果表明，IMRELM 具有良好的預(yù)測精度和魯棒性。但目前IMRELM 中只考慮了原始ELM 中的L2范數(shù)損失函數(shù)，在未來的工作中也可以拓展到其他ELM 變體中的損失函數(shù)，如Huber 損失極限學(xué)習機、L1范數(shù)損失極限學(xué)習機和鉸鏈損失極限學(xué)習機，以獲得穩(wěn)健的極限學(xué)習機模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡