王 蕾,曹連英
(東北林業(yè)大學)
半變系數(shù)模型的一般形式如下:
(1)
針對半變系數(shù)模型有很多研究方法[1-5],如一般級數(shù)方法[1],局部多項式擬合方法[2],小波估計法[3],等等.由于半變系數(shù)模型可用于數(shù)據(jù)分析,然而在收集數(shù)據(jù)時可能有個別數(shù)據(jù)因錄入錯誤或者測量錯誤,甚至缺少重要自變量,都會導致數(shù)據(jù)存在較大的誤差,這些有“問題”的數(shù)據(jù)也就是異常點,異常點會偏離其他數(shù)據(jù)點的回歸軌跡,所以對參數(shù)估計的結(jié)果會造成嚴重的干擾及影響,使模型的擬合效果變差,相關(guān)學者對于異常點問題也做了許多研究,如文獻[6]提出了一種用于可加性和創(chuàng)新異常點識別的遺傳算法,能有效地檢測異常點的位置和類型,估計異常點的大小;文獻[7]討論了基于貝葉斯統(tǒng)計理論的GNSS時間序列的異常點檢測問題,等等.該文利用輪廓最小二乘法,通過在模型中引入異常點Sl指示矩陣,對模型的異常點進行分析,并通過數(shù)值模擬對該文提出異常點分析模型進行驗證,數(shù)值結(jié)果表明模型方法可行有效.
(2)
利用局部加權(quán)最小二乘,使
(3)
為了方便敘述,引入一些記號:
ε=(ε1,ε2,…,εn)T,Wu0=Diag(Kh(u1-u0),Kh(u2-u0),…,Kh(un-u0)).模型(2)的矩陣形式為
Y-Xβ=M+ε
(4)
SlY-SlXβ=SlM+Slε
(5)
利用輪廓最小二乘法對上述模型給出參數(shù)和非參數(shù)部分的估計.由
得到γ(u0)的估計為
取u0=ui(i=1,2,…,n),可得未知系數(shù)函數(shù)α(ui)=(α1(ui),…,αq(ui))T的估計為
用以下兩種方法對所得異常點進行進一步檢驗.
(1)LYD檢驗:
下面通過數(shù)值模擬如下的半變系數(shù)模型來驗證異常點分析模型.模型為:
yi=xi1β1+xi2β2+zi·α(ui)+εi
(6)
表1 30組樣本數(shù)據(jù)的殘差平方和SSE(Sl),LYD和Cook統(tǒng)計量
圖1 模型中變系數(shù)函數(shù)的擬合曲線圖
數(shù)值結(jié)果表明,若模型存在異常點,則去除異常點后,該組數(shù)據(jù)產(chǎn)生的殘差平方和SSE(Sl)遠小于其他組樣本數(shù)據(jù)的SSE(Sl),根據(jù)表1可知第30組數(shù)據(jù)為異常點.再進一步對異常點進行檢驗,由第30組數(shù)據(jù)對應的LYD=5.2938>3,Cook統(tǒng)計量D=1.2133>4/30≈0.1333,綜合得,第30組數(shù)據(jù)為模型的異常點.圖1也給出了去除異常點前后的變系數(shù)函數(shù)α(u)的估計與真實函數(shù)的比較,由于異常點的存在使模型的系數(shù)函數(shù)軌跡發(fā)生改變,異常點分析模型對估計結(jié)果進行了修正.
該文主要討論半變系數(shù)模型的異常點問題,在傳統(tǒng)的輪廓最小二乘法的基礎上加入Sl指示矩陣,得到異常點分析模型.可先判斷模型是否存在異常點,利用殘差平方和SSE(Sl)最小找出模型中的異常點.在相同條件下,去除異常點的數(shù)據(jù)組產(chǎn)生的殘差平方和SSE(Sl)偏小,再利用LYD方法和Cook統(tǒng)計量對異常點進一步檢驗.
參 考 文 獻
[1] Ahmad I, Leelahanon S, Li Q. Efficient Estimation of a Semiparametric Partially Linear Varying Coefficient Model[J]. Annals of Statistics, 2005, 33(1):258-283.
[2] Zhang W, LEE SY, Song X. Local Ploynomial Fitting in Semivarying Coefficient Model[J]. Journal of Multivariate Analysis, 2002, 82(1):166-188.
[3] Zhou X, You J H. Wavelet estimation in varying-coefficient partially linear regression models[J]. Statistics & Probability Letters, 2004, 68(1):91-104.
[4] 魏傳華,吳喜之.部分線性變系數(shù)模型Backfitting估計的漸進性質(zhì)[J].高校應用數(shù)學學報A輯,2008, 23(2): 227-234.
[5] 羅羨華,李元,周勇,等.基于縱向數(shù)據(jù)的半?yún)?shù)變系數(shù)部分線性回歸模型[J].應用數(shù)學學報,2007, 30(3): 541-554.
[6] Baragona R, Battaglia F, Calzini C.Genetic algorithms for the identification of additive and innovation outliers in time series[J]. Computational Statistics & Data Analysis, 2001, 37 (1):1-12.
[7] Zhang Q, Gui Q. Bayesian methods for outliers detection in GNSS time series[J]. Journal of Geodesy, 2013, 87 (7):609-627.
[8] Wei C H,Wu X Z.Error Variance Estimation in Partially Linear Varying Coefficient Models[J].Mathematica Applicata, 2008, 21 (2):378-383.