張拓,卜曉明,陳奕含,楊忻怡,楊璐
(渤海大學(xué)數(shù)理學(xué)院,遼寧錦州121013)
關(guān)于嶺參數(shù)k的選取問(wèn)題
張拓,卜曉明,陳奕含,楊忻怡,楊璐
(渤海大學(xué)數(shù)理學(xué)院,遼寧錦州121013)
對(duì)嶺估計(jì)中參數(shù)k的選取問(wèn)題進(jìn)行了研究,并對(duì)Hoerl-Kennard公式進(jìn)行了改進(jìn),使參數(shù)k的選取更為準(zhǔn)確。
嶺估計(jì);參數(shù);均方誤差;有偏估計(jì)
嶺回歸估計(jì)是應(yīng)用最廣泛的一種有偏估計(jì),其目的在于減小均方誤差,所以嶺參數(shù)k的選取也應(yīng)使MSE(β^(k))達(dá)到最小。k的選取不僅依賴于未知參數(shù)β和σ2,而且這種依賴關(guān)系也沒(méi)有明確確定,這都使k的選取存在很大難度[1]。目前關(guān)于k的選取方法已有10余種,主要方法包括嶺跡法、方差擴(kuò)大因子法、雙H公式法、Hoerl-Kennard公式法等。本文在已有文獻(xiàn)基礎(chǔ)之上,主要對(duì)Hoerl-Kennard公式[2-3]進(jìn)行研究與改進(jìn),以期獲得更小誤差。
考慮線性回歸模型
參數(shù)β的嶺估計(jì)定義為β^(k)=(X'X+kI)-1X'Y,其中:當(dāng)k>0時(shí),稱k為嶺參數(shù)或偏參數(shù);當(dāng)k=0時(shí),β^(0)=(X'X)-1X'y為β的LS估計(jì)[4]。
為方便討論,本研究采取典則形式。
定義設(shè)X'X的特征值為λ1,λ2,…,λp,對(duì)應(yīng)的標(biāo)準(zhǔn)正交化特征向量為φ1,φ2,…,φp,記Φ=(φ1,φ2,…,φp),Φ為p×p標(biāo)準(zhǔn)正交陣,即Φ'Φ=Ι。記Δ=diag(λ1,λ2,…,λp),則X'X=ΦΔΦ',線性模型:
可寫為
其中Z=XΦ,α=Φ'β。稱式(3)為線性回歸模型的典則形式,α為典則回歸系數(shù)。均方誤差在參數(shù)與估計(jì)的正交變換下保持不變,故典則回歸系數(shù)和原回歸系數(shù)擁有相同的均方誤差[5],即MSE(^α(k))=MSE(β^(k))。
由前文及文獻(xiàn)[1,6]可以得到:
引理1令H(k)=MSE(^α(k)),則H(k)=MSE(β^(k)),有
其中:k≥0;H(k)為光滑函數(shù)。又H'(0)<0,H'(+∞)>0,故使H(k)取得最小值的k必然存在。記k0=inf{ k:H'(k)=0},則H(k0)<H(0),α^(k0)改進(jìn)了LS估計(jì)α^(0)。
引理2存在使H'(k0)=0,其中按升序排列[7],且記α(i)=
將λ1,λ2,…,λp中與α(i)相對(duì)應(yīng)的值記為λ(i),i=1,2,…,p,Hoerl-Kennard公式給出的k值估計(jì)恰好為。當(dāng)α的各分量α均相等,即
定理1如果存在2≤r≤p,且α(r-1)<α(r),則存在k0>,使
證明因?yàn)棣粒╮-1)<α(r),所以若kα
對(duì)式(4)與(5)進(jìn)行加和,則有:
定理得證。
推論若2≤r≤p,且α(r-1)<α(r),則存在ki>k0,使MSE(ki))<MSE(k0))。時(shí),就可以按該定理方法持續(xù)進(jìn)行下去,使均方誤差逐漸減少,于是可以得到更進(jìn)一步的改進(jìn)。當(dāng)改進(jìn)參數(shù)取,同樣可以得到以下結(jié)論。
證明過(guò)程可以參考定理1。自此在Hoerl-Kennard公式基礎(chǔ)上更進(jìn)一步改進(jìn)了關(guān)于嶺參數(shù)k的選取方法,使嶺參數(shù)k的選取更為準(zhǔn)確。
[1]陳希孺,王松桂.近代回歸分析[M].合肥:安徽教育出版社,1986.
[2]Hoerl A E,Kennard R W.Ridge regression:biased estimation for non-orthogonal problems[J].Technometrics,1970,12(1):55-67.
[3]Hoerl A E,Kennard R W.Ridge regression:application for non-orthogonal problems[J].Technometrics,1970,12(1):69-72.
[4]王松桂.線性模型的理論及其應(yīng)用[M].合肥:安徽教育出版社,1987.
[5]Sarkar.Mean square error matrix comparison of some estimators in linear regressions with multicollinearity[J],Statistics and Probability Letters,1996,30(2):133 -138.
[6]王志福.嶺估計(jì)中參數(shù)選擇的一種新方法[J].錦州師范學(xué)院學(xué)報(bào):自然科學(xué)版,2003,24(1):47-49.
[7]李明奇,吳旭.回歸系數(shù)的部分嶺估計(jì)[J].河南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011,30(6):749-752.
[8]王浩華,李勝軍.嶺回歸中參數(shù)估計(jì)的討論[J].海南大學(xué)學(xué)報(bào):自然科學(xué)版,2009,27(1):5-7.
(責(zé)任編輯劉舸)
Selection of Ridge Parameter k
ZHANG Tuo,BU Xiao-ming,CHEN Yi-han,YANG Xin-yi,YANG Lu
(College of Mathematics and Physics,Bohai University,Jinzhou 121013,China)
An in-depth study on choosing parameter k in ridge estimation was researched.At the same time,in order to make parameter k more accurate,we did a proper improvement on Hoerl-Kennard formula.
ridge estimation;parameter;mean square error;biased estimation
O212.2
A
1674-8425(2015)04-0136-03
10.3969/j.issn.1674-8425(z).2015.04.027
2015-01-16
國(guó)家自然科學(xué)基金資助項(xiàng)目(11371030)
張拓(1989—),男,碩士研究生,主要從事應(yīng)用概率統(tǒng)計(jì)方面研究。
張拓,卜曉明,陳奕含,等.關(guān)于嶺參數(shù)k的選取問(wèn)題[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2015(4):136 -138.
format:ZHANG Tuo,BU Xiao-ming,CHEN Yi-han,et al.Selection of Ridge Parameter k[J].Journal of Chongqing University of Technology:Natural Science,2015(4):136-138.