王帥帥 徐凱 孟凡芳
摘? 要:基于最小二乘方法的線性回歸估計(jì)方法,是通過最小化誤差平方和尋找參數(shù)向量最優(yōu)解,該方法對大的誤差點(diǎn)不具穩(wěn)健性。本文主要針對具有異常點(diǎn)的穩(wěn)健估計(jì)方法,研究在背景噪聲下的穩(wěn)健估計(jì)性能,并通過數(shù)值仿真證明近似高斯分布,如高斯混合噪聲模型下,單調(diào)型穩(wěn)健M估計(jì)方法較好;在具有無窮方差的柯西背景噪聲下,回降型M估計(jì)性能最優(yōu)。理論和仿真實(shí)驗(yàn)均可得到穩(wěn)健回歸方法比最小二乘方法具有更好的穩(wěn)健性。
關(guān)鍵詞:線性回歸? 最小二乘法? 穩(wěn)健估計(jì)? M估計(jì)? 穩(wěn)健性
中圖分類號:O212.1? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)01(a)-0072-06
Abstract: Based on the least squares estimation method of linear regression aims to find the optimal solution of the parameters by minimizing the sum of squared errors, which is not robust to large error points. Here, we focus on the robust estimation with outliers, investigating the performance of the robust estimation under various background noise. We prove that the monotone M-estimator shows a better performance under Gaussian mixed noise and the redescending M-estimator has a better efficiency under Cauchy noise with infinite variance. Both theory and simulation experiments show that the robust regression method has better robustness than the least square method.
Key Words:Linear regression; Least squares method; Robust estimation; M-estimation; Robustness
線性回歸模型是在實(shí)際工程建模中應(yīng)用十分廣泛的一類模型,例如無線通信、超聲波系統(tǒng)、計(jì)算機(jī)識別、電力系統(tǒng)、生物醫(yī)學(xué)信號分析等領(lǐng)域[1-3]。常用的估計(jì)回歸系數(shù)的方法是最小二乘法(OLS)[4]。最小二乘估計(jì)最大的優(yōu)點(diǎn)是對輸入數(shù)據(jù)沒有任何概率假設(shè),要求偏差平方和最小。當(dāng)數(shù)據(jù)服從高斯分布時(shí),最小二乘估計(jì)是最優(yōu)的估計(jì)。然而當(dāng)數(shù)據(jù)中存在野值(又稱異常值)時(shí),這種估計(jì)方法的估計(jì)性能變差,因此最小二乘法是不穩(wěn)健的。而真實(shí)觀測數(shù)據(jù)中,異常數(shù)據(jù)是難以避免的。因此,研究線性模型的穩(wěn)健估計(jì)方法很有必要,也具有實(shí)際意義[3]。
最小二乘估計(jì)與穩(wěn)健估計(jì)方法的區(qū)別是,最小二乘估計(jì)賦予樣本殘差相同的權(quán)重,而穩(wěn)健的估計(jì)方法的思想是賦予樣本殘差不同權(quán)重,殘差大的樣本賦予小的權(quán)重,殘差小的樣本賦予大的權(quán)重。相對于最優(yōu)的估計(jì)方法,穩(wěn)健估計(jì)損失了一定的效率,達(dá)到了很好的穩(wěn)健性。本文通過分析在不同的背景誤差噪聲下,如高斯誤差噪聲,高斯混合噪聲以及具有無窮方差的柯西噪聲,穩(wěn)健估計(jì)的性能與最小二乘回歸的性能比較,并通過仿真模擬,證明在不同類型的背景噪聲下,穩(wěn)健估計(jì)回歸方法比最小二乘方法具有更好的穩(wěn)健性,在實(shí)際中能夠得到更廣泛的應(yīng)用[3,5-8]。
1? 線性回歸模型
考慮線性回歸模型
用矢量或者矩陣表示公式(1)為
求解回歸系數(shù)的經(jīng)典方法最小二乘法的思想是:使觀測值yi與其擬合值之差的平方和最小,定義殘差,也就是使得殘差的平方和最小,即
當(dāng)觀測數(shù)據(jù)服從相互獨(dú)立同分布的高斯分布時(shí),最小二乘方法是一種最優(yōu)的估計(jì)方法。從公式(5)可以看出,最小二乘估計(jì)是將所有的樣本點(diǎn)賦予相同的權(quán)重,但是當(dāng)觀測數(shù)據(jù)中含異常值時(shí),該方法的估計(jì)結(jié)果受異常值的影響大,而實(shí)際觀測數(shù)據(jù)中有可能異常值是不可避免的,因此最小二乘估計(jì)穩(wěn)健性差。常用的方法是異常值識別并剔除,但并沒有一個(gè)客觀的標(biāo)準(zhǔn)確定哪些是異常值,易受主觀因素影響。另一種常用的策略是采用穩(wěn)健的回歸方法。穩(wěn)健回歸方法通過對不同的樣本數(shù)據(jù)賦予不同的權(quán)重來減小異常值對回歸帶來的影響。加權(quán)最小二乘估計(jì)是一種比最小二乘估計(jì)穩(wěn)健性強(qiáng)的估計(jì)方法,其原理是給每一個(gè)樣本點(diǎn)賦予不同的權(quán)重,偏差較大的樣本點(diǎn)給予小的權(quán)重,偏差小的樣本點(diǎn)給予大的權(quán)重,而常用的一種穩(wěn)健回歸估計(jì)方法為M估計(jì)穩(wěn)健回歸,其基本思想是采用迭代加權(quán)最小二乘估計(jì)回歸系數(shù)。本文以穩(wěn)健M回歸估計(jì)方法為基礎(chǔ),分析不同背景噪聲下的穩(wěn)健M估計(jì)的性能。
2? 穩(wěn)健回歸分析
M估計(jì)穩(wěn)健回歸是對如下目標(biāo)函數(shù)進(jìn)行優(yōu)化
其中W=diag(W1,W2,…,Wn)是n×n的對角陣。穩(wěn)健M估計(jì)的方法是合理的,對于大的標(biāo)準(zhǔn)化殘差ui,應(yīng)該給予小的權(quán)重Wi,權(quán)重Wi與評價(jià)函數(shù)ψ的形狀有關(guān)。對于背景噪聲方差隨時(shí)間變化時(shí),加權(quán)矩陣取W=C-1=diag是合適的。因?yàn)樵酱螅尚哦仍降?,給的權(quán)重則應(yīng)小。
穩(wěn)健估計(jì)量不像最小二乘估計(jì)量有明確的表達(dá)式,通常采用迭代加權(quán)方法得到最終的估計(jì)量,具體的步驟:
(1)選取迭代初始估計(jì)值為L1估計(jì)量;
(2)對k=0,1,2,…,計(jì)算求得標(biāo)準(zhǔn)化殘差和權(quán)重;
(3)利用公式(12)計(jì)算(k+1);
(4)當(dāng)時(shí),停止迭代。
3? 數(shù)值模擬
3.1 考慮一個(gè)直線回歸模型
其中xi和yi分別是預(yù)測變量與響應(yīng)變量,ei為隨機(jī)誤差。
令θ0=10,θ1=-2,隨機(jī)誤差ei為標(biāo)準(zhǔn)高斯分布隨機(jī)數(shù),樣本容量n=10,樣本中含有兩個(gè)異常點(diǎn)。我們分別采用最小二乘估計(jì)方法與穩(wěn)健回歸估計(jì)方法,得到的關(guān)于θ0和θ1的一次的估計(jì)值為表1所示。
通過作圖,可以看出采用穩(wěn)健回歸的方法,擬合得到的直線更接近真實(shí)的直線,如圖1所示。
3.2 不同背景噪聲下的穩(wěn)健回歸特性
考慮公式(15)中的線性回歸模型,真實(shí)直線的參數(shù)設(shè)置為θ0=0,θ1=-2,研究在高斯混合噪聲以及厚尾柯西噪聲下穩(wěn)健M估計(jì)的性能。
在高斯混合噪聲背景下,其概率密度函數(shù)為
其中。這里我們采用雙高斯混合模型
采用最小二乘估計(jì)方法,得到估計(jì)量和的估值分別為9.97和-1.99,對應(yīng)的估計(jì)量的方差分別為2.34和0.07。在混合高斯噪聲下,采用最小二乘方法,得到了較好的估計(jì)性能;相同的條件下,采用參數(shù)k=0.8的huber估計(jì)量,可以得到的和的估值分別為9.99和-2.00,對應(yīng)方差分別為2.21和0.06,可以看出穩(wěn)健的huber估計(jì)方法的估計(jì)性能比最小二乘方法略微好一點(diǎn),但相差不大。而此背景噪聲下,公式(11)中回降型的bisquare估計(jì)量反而沒能有較好的性能,其性能比最小二乘及huber估計(jì)量的性能略微差。
假設(shè)背景噪聲是具有厚尾分布的柯西噪聲,其概率密度函數(shù)為
在此背景噪聲下,我們分別采用公式(5)中的最小二乘估計(jì)方法,得到的估計(jì)量和的估值分別為7.18和-1.90,對應(yīng)的估計(jì)量的方差分別為1.22×104和8.02×102,可見通過最小二乘方法得到的估計(jì)量的方差很大,性能較差;采用公式(11)的bisquare估計(jì)方法,計(jì)算得到不同估計(jì)參數(shù)k下,估計(jì)量和的方差在表2及圖2中展示。由表2可以看出,對一定范圍的估計(jì)量參數(shù)k,得到的估計(jì)性能均優(yōu)于最小二乘方法的估計(jì)性能。由圖2可以看出,當(dāng)參數(shù)k選擇一個(gè)特定的非零值,會使得估計(jì)量的方差達(dá)到最優(yōu),因此,可以通過調(diào)節(jié)參數(shù)k,尋求最優(yōu)的估計(jì)量。
取使得估計(jì)量具有較小方差時(shí)對應(yīng)的k=2.5,得到bisquare估計(jì)方法得到的和的估值分別為10.00和-2.00,做出bisquare估計(jì)方法擬合的直線與最小二乘方法擬合的直線的圖形,如圖3所示。從圖3中可以明顯看出,最小二乘方法擬合得到的直線偏離真實(shí)直線遠(yuǎn),而通過bisquare方法得到的直線幾乎和真實(shí)直線重合。
4? 結(jié)語
本文基于穩(wěn)健M回歸估計(jì)方法,在高斯混合噪聲模型及柯西噪聲模型下,研究穩(wěn)健估計(jì)方法的性能。對于高斯混合模型,穩(wěn)健huber估計(jì)方法能夠具有較好的估計(jì)性能,對于具有無窮方差的厚尾柯西噪聲,采用回降型的bisquare估計(jì)方法得到的估計(jì)性能較好,無論采用何種方法,通過調(diào)節(jié)穩(wěn)健估計(jì)量的參數(shù),穩(wěn)健回歸估計(jì)方法都優(yōu)于最小二乘法。
參考文獻(xiàn)
[1] 畢瑞鋒,張發(fā)玲.加權(quán)最小二乘法線性回歸模型參數(shù)的理論推導(dǎo)與計(jì)算實(shí)例[J].計(jì)量與測試技術(shù),2016,43(2):67-68.
[2] 谷恒明,胡良平.簡單線性回歸分析及其應(yīng)用[J].四川精神衛(wèi)生, 2017(6):494-497.
[3] Zoubir A M, Koivunen V, Chakhchoukh Y, et al. Robust estimation in signal processing: A tutorial-style treatment of fundamental concepts[J]. IEEE Signal Processing Magazine,2012,29(4):61-80.
[4] 陳雨彤.基于最小二乘法的線性回歸方程推導(dǎo)與應(yīng)用分析[J].中國新通信,2018,20(24):206-208.
[5] 呂晶.幾類半?yún)?shù)回歸模型的穩(wěn)健估計(jì)與變量選擇[D].重慶:重慶大學(xué),2015.
[6] 傅可昂,丁麗,李君巧.重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布[J].數(shù)學(xué)物理學(xué)報(bào),2020,40(2):475-483.
[7] 姜佃高,張娟娟,葛永慧.穩(wěn)健估計(jì)方法在多元線性回歸中的有效性研究[J].統(tǒng)計(jì)與決策,2014(18):77-80.
[8] 劉曉芮,王清,陳植華,胡成.基于穩(wěn)健回歸-去趨勢波動分析法的山前平原地下水轉(zhuǎn)換關(guān)系研究[J].安全與環(huán)境工程,2019,26(5):17-24.