賴學(xué)方,賀興時(shí)
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
一種帶有自適應(yīng)懲罰權(quán)重的懲罰最小一乘估計(jì)
賴學(xué)方,賀興時(shí)
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
為有效解決誤差為重尾分布的高維線性回歸模型的參數(shù)估計(jì)問題,提出一種新的參數(shù)估計(jì)方法,將一種“對(duì)數(shù)-指數(shù)-和”型的懲罰項(xiàng)與最小一乘估計(jì)相結(jié)合,在參數(shù)估計(jì)過程中能夠自適應(yīng)地調(diào)整各系數(shù)的懲罰權(quán)重,使參數(shù)估計(jì)結(jié)果更加準(zhǔn)確穩(wěn)定.對(duì)該方法進(jìn)行數(shù)值實(shí)驗(yàn)測試,并選擇同類型的幾種參數(shù)估計(jì)方法進(jìn)行對(duì)比,結(jié)果證明了該參數(shù)估計(jì)方法的有效性.
高維線性回歸; 參數(shù)估計(jì); 最小一乘估計(jì)
隨著現(xiàn)代工程科技的不斷發(fā)展,越來越多的高維數(shù)據(jù)出現(xiàn)在生物醫(yī)學(xué)、基因工程、經(jīng)濟(jì)金融等研究領(lǐng)域,這為統(tǒng)計(jì)建模分析增加了難度[1-2].近幾十年來,統(tǒng)計(jì)學(xué)者提出和發(fā)展了一種利用懲罰進(jìn)行系數(shù)收縮的變量選擇方法,如橋回歸[3],嶺回歸[4],lasso[5](least absolute shrinkage and selection operator), SCAD[6](smoothlyclipped absolute deviation)及自適應(yīng)lasso[7](adaptive lasso)等對(duì)解決高維變量選擇問題具有較高的效率.文獻(xiàn)[1]對(duì)上述這些參數(shù)估計(jì)方法進(jìn)行了分析和總結(jié),統(tǒng)稱為罰最小二乘(PLS,penalized least squares)估計(jì)方法.
然而,最小二乘估計(jì)法穩(wěn)定性較低.當(dāng)數(shù)據(jù)中存在異常值或模型誤差服從重尾分布時(shí),罰最小二乘參數(shù)估計(jì)方法并不能得到一個(gè)理想的參數(shù)估計(jì)結(jié)果.在統(tǒng)計(jì)建模分析中,尤其是當(dāng)選擇變量的維數(shù)較高時(shí),尋找一個(gè)有效和穩(wěn)定的參數(shù)估計(jì)方法一直是統(tǒng)計(jì)學(xué)者不斷探索的問題[8-9].相比于普通最小二乘估計(jì),最小一乘估計(jì)(LAD,least absolute deviation)有著較好的穩(wěn)定性[10].眾多研究通過對(duì)最小一乘估計(jì)添加懲罰項(xiàng),以達(dá)到變量選擇和參數(shù)穩(wěn)定估計(jì)的效果.文獻(xiàn)[11]提出了LAD-lasso(least absolute deviation-least absolute shrinkage and selection operator),其在最小一乘估計(jì)的損失函數(shù)上增加了L1范數(shù)懲罰項(xiàng),并證明了當(dāng)變量的維數(shù)固定時(shí),在滿足一定條件下,LAD-lasso的估計(jì)結(jié)果滿足oracle性質(zhì).文獻(xiàn)[12]研究了帶有懲罰項(xiàng)的分位數(shù)回歸的參數(shù)估計(jì)方法,分別討論了懲罰項(xiàng)為SCAD懲罰和自適應(yīng)lasso懲罰的情況.文獻(xiàn)[13]對(duì)LAD-SCAD(Smoothly Clipped Absolute Deviation-Penalized Least Absolute Deviation) 進(jìn)行了研究,證明了在滿足一定條件下,當(dāng)變量的維數(shù)發(fā)散時(shí)LAD-SCAD的參數(shù)估計(jì)結(jié)果仍滿足相合性和漸進(jìn)正態(tài)性.注意到雖然最小一乘估計(jì)比最小二乘估計(jì)穩(wěn)定,但最小一乘估計(jì)的損失函數(shù)同樣是無界的,數(shù)據(jù)中的異常值同樣會(huì)影響其參數(shù)估計(jì)結(jié)果.文獻(xiàn)[14-15]則分別對(duì)LAD-SCAD和LAD-lasso進(jìn)行了改進(jìn),通過對(duì)最小一乘的損失函數(shù)增加權(quán)重,進(jìn)一步減少數(shù)據(jù)中異常值對(duì)估計(jì)結(jié)果的影響.文獻(xiàn)[16]研究帶有L1范數(shù)懲罰項(xiàng)的分位數(shù)回歸方法,指出對(duì)懲罰項(xiàng)施加適當(dāng)?shù)臋?quán)重,一方面能夠增強(qiáng)估計(jì)的穩(wěn)定性,對(duì)處理誤差為重尾分布的情形具有更好的效果,另一方面也能提高估計(jì)的準(zhǔn)確性.
本文進(jìn)一步研究高維線性回歸模型的參數(shù)穩(wěn)定性估計(jì)問題,提出一種帶有自適應(yīng)懲罰權(quán)重的懲罰最小一乘估計(jì)方法LAD-alasso(least absolute deviation-adaptive lasso).對(duì)各系數(shù)所采用的懲罰權(quán)重不僅考慮了各系數(shù)自身的大小,同時(shí)也考慮了與其他系數(shù)之間的關(guān)系;另外,在參數(shù)估計(jì)的過程中,該方法能對(duì)各系數(shù)的懲罰權(quán)重自動(dòng)調(diào)整,提高參數(shù)估計(jì)的準(zhǔn)確性.數(shù)值實(shí)驗(yàn)證明了LAD-alasso對(duì)解決誤差為重尾分布的高維線性回歸模型的參數(shù)估計(jì)問題有著較好的效果.
1.1 LAD-alasso
考慮如下的線性回歸模型
(1)
相比于普通最小二乘估計(jì),最小一乘估計(jì)更為穩(wěn)定,其估計(jì)結(jié)果受異常值影響較小.將懲罰最小二乘估計(jì)方法中的最小二乘準(zhǔn)則用最小一乘準(zhǔn)則代替,就可以得到一個(gè)受異常值影響較小,所選擇的模型也具有稀疏性的參數(shù)估計(jì)方法.文獻(xiàn)[11]提出一種將最小一乘估計(jì)準(zhǔn)則(LAD)與lasso懲罰項(xiàng)相結(jié)合的參數(shù)估計(jì)方法LAD-lasso,即
(2)
雖然LAD-lasso有著較好穩(wěn)定性和參數(shù)估計(jì)效果,各系數(shù)的最終估計(jì)結(jié)果受到第一步中基于最小一乘準(zhǔn)則下各系數(shù)的估計(jì)結(jié)果影響.為了選擇到一個(gè)更加有效的懲罰函數(shù)或者懲罰權(quán)重,使其能夠更好地處理模型誤差為重尾分布的情形,結(jié)合文獻(xiàn)[18]的思想,本文提出了一種將對(duì)數(shù)-指數(shù)-和(LES,log-exp-sum)型的懲罰函數(shù)項(xiàng)與最小一乘估計(jì)準(zhǔn)則相結(jié)合的參數(shù)估計(jì)方法,其準(zhǔn)則函數(shù)為
(3)
其中λ>0為調(diào)整參數(shù),a為(0,1)之間的一個(gè)常數(shù).相比于LAD-lasso參數(shù)估計(jì)方法,式(3)在參數(shù)估計(jì)過程中能夠不斷自適應(yīng)地調(diào)整懲罰權(quán)重,從而提高參數(shù)估計(jì)的穩(wěn)定性和準(zhǔn)確性,將此方法簡稱為LAD-alasso.
1.2 LAD-alasso的求解算法
如果式(3)中的優(yōu)化函數(shù)為凸的可導(dǎo)函數(shù),利用凸優(yōu)化的相關(guān)理論方法,可以快速地對(duì)式(3)進(jìn)行求解.可是絕對(duì)值函數(shù)在0點(diǎn)處并不可導(dǎo),而且式(3)中的LES懲罰函數(shù)也不是一個(gè)凸函數(shù),考慮采用其他的優(yōu)化方法對(duì)式(3)進(jìn)行求解.
(4)
將式(4)代入到式(3)中,得
(6)
直接對(duì)帶有懲罰項(xiàng)的最小一乘估計(jì)進(jìn)行求解較為困難,通??紤]將其轉(zhuǎn)化為普通最小一乘估計(jì)的求解問題,然后利用最小一乘估計(jì)求解方法進(jìn)行求解.根據(jù)文獻(xiàn)[11],對(duì)式(6)進(jìn)行如下變換:
(7)
其中
(8)
其中ej為第j個(gè)值為1,其余值為0的p維單位向量.式(7)為普通最小一乘估計(jì)問題,利用現(xiàn)有的統(tǒng)計(jì)軟件(如R 語言中的quantreg軟件包)就可以對(duì)其進(jìn)行快速的求解.求解LAD-alasso的算法具體步驟為:
1.3 參數(shù)選擇
算法的調(diào)整參數(shù)是影響算法求解結(jié)果的重要因素.在算法運(yùn)行過程中,需要對(duì)調(diào)整參數(shù)λ和a進(jìn)行選擇.為了使所選擇的模型能夠更好的收斂到真實(shí)的模型,利用最小BIC準(zhǔn)則[11],構(gòu)造參數(shù)選擇準(zhǔn)則函數(shù)
(9)
由于λ,a都是需要調(diào)整的參數(shù),且兩者之間存在影響.選擇出最優(yōu)的λ,a相當(dāng)于一個(gè)二維的組合優(yōu)化問題.因此,實(shí)驗(yàn)中可以采用控制變量交替選擇辦法,選擇出最優(yōu)的參數(shù)組合.
2.1 實(shí)驗(yàn)設(shè)計(jì)
對(duì)新提出的LAD-alasso參數(shù)估計(jì)的穩(wěn)定性和準(zhǔn)確性進(jìn)行數(shù)值實(shí)驗(yàn)測試.選取lasso[5],LAD-lasso[11],以及LAD-SCAD[13]這3種參數(shù)估計(jì)方法作為對(duì)照.實(shí)驗(yàn)測試均是在R語言軟件上進(jìn)行的,其中l(wèi)asso估計(jì)方法使用glmnet軟件包,而LAD-lasso,LAD-SCAD,LAD-alasso使用quantreg軟件包.記模擬的線性回歸模型為
其中xi,β均為p維向量,p為模型回歸系數(shù),分別選取p=8和p=50兩種維數(shù)進(jìn)行測試.當(dāng)p=8時(shí),βT=(3,4,0.5,2,0,0,0,0),即真實(shí)的模型中,只有前4個(gè)系數(shù)是有效的,而其他的系數(shù)均為0;同樣的,當(dāng)p=50時(shí),βT=(3,4,0.5,2,0),其中0表示一個(gè)46維的0向量.xi的生成方法與文獻(xiàn)[6]相同, 實(shí)驗(yàn)樣本數(shù)n取100.
εi為模型的誤差項(xiàng).實(shí)驗(yàn)分別選擇標(biāo)準(zhǔn)正態(tài)分布,標(biāo)準(zhǔn)柯西分布和混合正態(tài)分布作為模型的誤差項(xiàng).其中標(biāo)準(zhǔn)柯西分布是一個(gè)重尾分布,混合正態(tài)分布所采用的方式為0.8N(0,1)+0.2N(10,62).對(duì)于標(biāo)準(zhǔn)正態(tài)分布和標(biāo)準(zhǔn)柯西分布,分別考慮σ取值為1,2時(shí)的情況;而對(duì)于混合正態(tài)分布,σ只選擇為1的情況.
2.2 實(shí)驗(yàn)結(jié)果及分析
測試結(jié)果如表1~3所示.表1為模型誤差為正態(tài)分布時(shí)的測試結(jié)果.從表1可知,lasso和LAD-SCAD在模型的復(fù)雜度方面都有著較好的表現(xiàn)效果.無論σ取值為1還是2,lasso及LAD-SCAD的correct指標(biāo)值要大于LAD-lasso和LAD-alasso;而前兩者的incorrect指標(biāo)值要小于后兩者.然而在模型精確性方面,lasso的表現(xiàn)效果要差于LAD-lasso及LAD-alasso.當(dāng)σ變大,模型的維數(shù)增高時(shí),lasso的模型預(yù)測準(zhǔn)則性及參數(shù)估計(jì)準(zhǔn)確性迅速降低,而LAD-lasso和LAD-alasso則表現(xiàn)相對(duì)較穩(wěn)定.由此可見,當(dāng)模型的誤差較大、維數(shù)較高時(shí),最小一乘相關(guān)參數(shù)估計(jì)方法比最小二乘相關(guān)參數(shù)估計(jì)方法更穩(wěn)定.另外,在模型精確性方面,LAD-alasso所選擇的模型要優(yōu)于LAD-lasso及LAD-SCAD.
表 1 誤差為正態(tài)分布時(shí)的測試結(jié)果
表2為模型誤差為標(biāo)準(zhǔn)柯西分布時(shí)的測試結(jié)果.由表2可知,在模型復(fù)雜度方面,lasso及LAD-SCAD表現(xiàn)要好于LAD-lasso及LAD-alasso.但在模型預(yù)測的準(zhǔn)確性方面,隨著σ和p的增大,LAD-alasso的準(zhǔn)確性明顯要高于LAD-lasso及LAD-SCAD;而在系數(shù)估計(jì)的準(zhǔn)確性方面,LAD-alasso的Mbias值要小于lasso及LAD-lasso,而要略大于LAD-SCAD.因此,當(dāng)誤差為重尾分布時(shí),盡管LAD-alasso選擇的模型的復(fù)雜度要高于lasso及LAD-SCAD所選擇的模型,但所選擇的模型在精確度方面有著明顯的優(yōu)勢,因此,可見LAD-alasso有著較好的模型選擇效果.
表3是模型的誤差為混合正態(tài)分布時(shí)的情況.總的來說,LAD-SCAD和LAD-alasso表現(xiàn)較好.在多數(shù)情況,LAD-alasso的Average-MAPE,Median-MAPE,Mbias指標(biāo)值都要小于lasso及LAD-lasso,因此,在模型準(zhǔn)確性方面,LAD-alasso優(yōu)于LAD-lasso及l(fā)asso.在模型的復(fù)雜性方面,LAD-alasso也優(yōu)于后兩者的.LAD-alasso的模型預(yù)測誤差均值要低于LAD-SCAD,而在系數(shù)估計(jì)準(zhǔn)確性及模型稀疏性方面,LAD-alasso要差于后者.
由上述分析可知,盡管在模型的稀疏性方面LAD-alasso的表現(xiàn)并不是最優(yōu)的,但考慮到其所選模型精確性,LAD-alasso的總體表現(xiàn)還是較為滿意的.利用具有自適應(yīng)調(diào)整懲罰權(quán)重的LAD-alasso能夠更為有效的解決誤差重尾的高維線性回歸模型的參數(shù)估計(jì)問題.
表 2 誤差為標(biāo)準(zhǔn)柯西分布時(shí)的測試結(jié)果
表 3 誤差為混合正態(tài)分布時(shí)的測試結(jié)果
為解決誤差為重尾分布的高維線性回歸模型的參數(shù)估計(jì)問題,提出了一種帶有自適應(yīng)懲罰權(quán)重的懲罰最小一乘參數(shù)估計(jì)方法.這種方法在參數(shù)的估計(jì)過程中,能夠通過循環(huán)迭代的方式,自適應(yīng)調(diào)整各系數(shù)的懲罰權(quán)重,提高模型的準(zhǔn)確性和穩(wěn)定性.選取3種不同分布的誤差,對(duì)此方法進(jìn)行數(shù)值實(shí)驗(yàn)測試,測試結(jié)果證明了該參數(shù)估計(jì)方法的有效性.盡管LAD-alasso是一種較為穩(wěn)定的參數(shù)估計(jì)方法,但在模型的稀疏性方面,其表現(xiàn)還不是十分理想.后續(xù)考慮對(duì)LAD-alasso進(jìn)一步改進(jìn),減少模型的復(fù)雜度.
[1] FAN Jianqing,LI Runze.Statistical challenges with high dimensionality:Feature selection in knowledge discovery[C]//Proceedings of the International Congress of Mathematicians,Madrid,2006:595-622.
[2] FAN Jianqing,PENG Heng,HUANG Tao.Semilinear high-dimensional model for normalization of microarray data: A Theoretical analysis and partial consistency[J].Journal of the American Statistical Association,2005,100(9):781-796.
[3] FRANK I E,FRIEDMAN J H.A statistical view of some chemometrics regression tools[J].Technometrics,1993,35(35):109-135.
[4] HOERL Arthur E,KENNARD Robert W.Ridge regression:Biased estimation for nonorthogonal problems[J].Technometrics,2000,42(12):55-67.
[5] TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,1996,58(1):267-288.
[6] FAN Jianqing,LI Runze.Variable selection via nonconcave penalized likelihood and its oracle properties[J].Journal of the American Statistical Association,2001,96(10):1348-1360.
[7] ZOU H.The adaptive lasso and its oracle properties[J].Journal of the American Statistical Association,2006,101(476):1418-1429.
[8] 張成毅,羅雙華.缺失數(shù)據(jù)下的M估計(jì)[J].西安工程大學(xué)學(xué)報(bào),2012,26(4):524-529.
ZHANG Chengyi,LUO Shuanghua.The local linear M-estimation under missing response data[J].Journal of Xi′an Polytechnic University,2012,26(4):524-529.
[9] WANG X,JIANG Y,HUANG M,et al.Robust variable selection with exponential squared loss[J].Journal of the American Statistical Association,2013,108(502):632-643.
[10] 謝開貴,宋乾坤,周家啟.最小一乘線性回歸模型研究[J].系統(tǒng)仿真學(xué)報(bào),2002,14(2):189-192.
XIE Kaigui,SONG Qiankun,ZHOU Jiaqi.A linear regress model based on least absolute criteria[J].Journal of System Simulation,2012,14(2):189-192.
[11] WANG Hansheng,LI Guodong,JIANG Guohua.Robust regression shrinkage and consistent variable selection through the LAD-lasso[J].Journal of Business & Economic Statistics,2007,25(3):347-355.
[12] WU Y,LIU Y.Variable selection in quantile regression[J].Statistica Sinica,2009,19(2):801-817.
[13] WANG Mingqiu,SONG Lixin,TIAN Guoliang.SCAD-penalized least absolute deviation regression in high dimensional models[J].Communication in Statistics-Theory and Methods,2015,44(12):2452-2472.
[14] JUNG Kang M.Robust estimator with the SCAD function in penalized linear regression[J].The SIJ Transactions on Computer Science Engineering & its Applications (CSEA),2014,4(2):156-160.
[15] ARSLAN O.Weighted LAD-LASSO method for robust parameter estimation and variable selection in regression[J].Computational Statistics & Data Analysis,2012,56(6):1952-1965.
[16] FAN J,FAN Y,BARUT E.Adaptive robust variable selection[J].Annals of Statistics,2012,42(1):324-351.
[17] MALLICK H,YI N.Bayesian methods for high dimensional linear models[J].Journal of Biometrics & Biostatistics,2013,1:005.
[18] GENG Zhigeng.Variable selection via penalized likelihood[D].Madison:University of Wisonsin-Madison,2014:47-60.
編輯、校對(duì):師 瑯
A method of least absolute deviation estimator with adaptive weighted penalty
LAIXuefang,HEXingshi
(School of Science, Xi′an Polytechnic University, Xi′an 710048,China)
To solve the problem of parameter estimation in high dimensional linear models with high-tailed errors, a novel parameter estimation method is proposed.It combines a log-exp-sum type penalty with the least absolute criteria. In the process of parametric estimation,this method can adjust the weights of the penalty for parameters adaptively so as to get a more robust and accurate result. Numerical simulation test was conducted by comparing this new method with other similar methods of parameter estimation.The results demonstrate the effectiveness of this new method.
high-dimensional linear regression; parameter estimation; least absolute deviation
1006-8341(2016)04-0471-07
10.13338/j.issn.1006-8341.2016.04.010
2016-05-14
陜西省自然軟科學(xué)研究計(jì)劃項(xiàng)目(2014KRM28-01);西安市2015基礎(chǔ)教育研究大招標(biāo)項(xiàng)目(2015ZB-ZY04);西安工程大學(xué)研究生創(chuàng)新基金資助項(xiàng)目(CX201614)
賀興時(shí)(1960—),男,陜西省富平縣人,西安工程大學(xué)教授,研究方向?yàn)橹悄軆?yōu)化算法、數(shù)理統(tǒng)計(jì)等.
E-mail:xingshi-he@163.com
賴學(xué)方,賀興時(shí).一種帶有自適應(yīng)懲罰權(quán)重的懲罰最小一乘估計(jì)[J].紡織高?;A(chǔ)科學(xué)學(xué)報(bào),2016,29(4):471-477.
LAI Xuefang, HE Xingshi.A method of least absolute deviation estimator with adaptive weighted penalty[J].Basic Sciences Journal of Textile Universities,2016,29(4):471-477.
O 212
A