朱寧,劉慶華
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西桂林541004)
修正LIU估計(jì)下數(shù)據(jù)刪除模型的強(qiáng)影響分析
朱寧,劉慶華
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西桂林541004)
在修正LIU估計(jì)下對單個(gè)數(shù)據(jù)刪除模型進(jìn)行研究,討論數(shù)據(jù)刪除模型估計(jì)量的性質(zhì),得到修正LIU估計(jì)MLE(i)與LIU估計(jì)LE間的關(guān)系,以及預(yù)測估計(jì)i可由MLE與yi線性表出等性質(zhì);同時(shí),本文在前人的基礎(chǔ)上推導(dǎo)得到CRi統(tǒng)計(jì)量和Cook統(tǒng)計(jì)量新的表達(dá)形式,并在實(shí)例中用Cook距離來識(shí)別強(qiáng)影響點(diǎn),驗(yàn)證其合理性.
修正LIU估計(jì);數(shù)據(jù)刪除模型;Cook統(tǒng)計(jì)量;強(qiáng)影響點(diǎn)
考慮一般的線性模型:
其中y為n×1階觀測,X為n×p階列滿秩設(shè)計(jì)陣,β為p×1階未知參數(shù)向量,ε為n×1隨機(jī)誤差向量,I為n階單位矩陣.在線性模型的參數(shù)估計(jì)理論和方法中,最小二乘法有很重要的位置.但隨著研究的深入,統(tǒng)計(jì)學(xué)家發(fā)現(xiàn)當(dāng)設(shè)計(jì)矩陣X'X出現(xiàn)多重共線性或近似的多重共線性時(shí),最小二乘估計(jì)(LSE)不再是良好的估計(jì)[1].為了解決這一問題,學(xué)者提出了一系列有偏估計(jì)來改進(jìn)最小二乘估計(jì).常用的有偏估計(jì)包括嶺估計(jì)[1-4]和主成分估計(jì)[1,5],除了這兩種估計(jì)之外,另外一類常用的有偏估計(jì)是Liu[6]基于Stein提出的Stein估計(jì)和嶺估計(jì)上提出的LIU估計(jì).目前很多學(xué)者對LIU估計(jì)的性質(zhì)進(jìn)行研究,例如文獻(xiàn)[7]提出了新的加權(quán)混合LIU估計(jì),并在均方誤差矩陣準(zhǔn)則下研究該估計(jì)的優(yōu)良性,文獻(xiàn)[8]對線性約束下的線性回歸模型進(jìn)行約束LIU型估計(jì),并證明該估計(jì)在均方誤差下比最小二乘估計(jì)好等.基于前人基礎(chǔ)上,Swindel[9]提出了一種修正的嶺估計(jì)MRE(k,b0)=(X'X+kI)-1(X'y+kb0),Yalian Li和Hu Yang[10]考慮先驗(yàn)信息,通過類似的思想將LIU估計(jì)進(jìn)行修正,得到一種修正的LIU估計(jì).
本文在Yalian Li和Hu Yang[10]所提出的一種修正LIU估計(jì)的基礎(chǔ)上,結(jié)合數(shù)據(jù)刪除模型的特點(diǎn),對修正LIU估計(jì)下的數(shù)據(jù)刪除模型的強(qiáng)影響問題進(jìn)行研究,推廣至有偏估計(jì)的數(shù)據(jù)刪除模型的強(qiáng)影響分析,證明修正LIU估計(jì)的相關(guān)性質(zhì),并在前人的基礎(chǔ)上提出CRi統(tǒng)計(jì)量和Cook統(tǒng)計(jì)量新的表達(dá)形式,并用該統(tǒng)計(jì)量來判斷強(qiáng)影響點(diǎn).
Liu[6]基于Stein提出的Stein估計(jì)和嶺估計(jì)上提出了LIU估計(jì),記為
Yalian Li和Hu Yang[10]在模型(1)下提出了未知參數(shù)β的修正LIU估計(jì)(MLE),即在LIU估計(jì)的基礎(chǔ)上對其進(jìn)行修正,記為:
我們將在下文中討論數(shù)據(jù)刪除模型與修正LIU估計(jì)統(tǒng)計(jì)量之間的關(guān)系.
其中y(i)為(n-1)×1階觀測,X(i)為(n-1)×p階列滿秩設(shè)計(jì)陣,β(i)為p×1階未知參數(shù)向量,ε(i)為(n-1)×1隨機(jī)誤差向量,I為(n-1)階單位矩陣.
證明:模型(1)中修正LIU估計(jì)為
可得到模型(2)中的修正LIU估計(jì):
[13]知,模型(2)的LIU估計(jì)有如下關(guān)系:
再根據(jù)和式求逆公式知
結(jié)合(4)(5)(6)式可得如下關(guān)系
證畢.
證明:
下面引入診斷統(tǒng)計(jì)量對強(qiáng)影響點(diǎn)的影響大小進(jìn)行刻畫,并利用統(tǒng)計(jì)量識(shí)別強(qiáng)影響點(diǎn).
2.1 協(xié)方差比統(tǒng)計(jì)量
引理1[1]設(shè)A為m×n陣,X為n×1隨機(jī)向量,Y=AX,則
定理2在修正的LIU估計(jì)下,協(xié)方差比統(tǒng)計(jì)量:
因?yàn)?/p>
結(jié)合引理1,可得到
證明:根據(jù)文獻(xiàn)[12]中模型y(i)=X(i)β(i)+ε(i)中β和σ2的最小二乘估計(jì)與模型(1)中的相對應(yīng)的和2有如下關(guān)系:
2.2 Cook統(tǒng)計(jì)量
定理3在修正LIU估計(jì)下,令M=(X'X+I(xiàn)),c=σ2,Cook統(tǒng)計(jì)量可表示成:
證明:文獻(xiàn)[12]中為了度量不同模型對LIU估計(jì)的影響程度,定義Cook統(tǒng)計(jì)量為:
利用(9)式代入(8)式并取M=(X'X+I(xiàn)),c=σ2,通過整理可推導(dǎo)出(7)式.
證畢.
案例數(shù)據(jù)來自文獻(xiàn)[1]中例4.2.1煤凈化問題,這組數(shù)據(jù)存在較為嚴(yán)重的共線性.為此我們通過修正LIU估計(jì)統(tǒng)計(jì)量來估計(jì)未知參數(shù)是必要的.在此,我們主要研究數(shù)據(jù)刪除模型擬合的好壞程度,并找出強(qiáng)影響點(diǎn).通過計(jì)算得到的影響度量統(tǒng)計(jì)量結(jié)果見圖1和表1.
根據(jù)文獻(xiàn)[10]本文取b0=0.95LSE,下面分別取不同的d值計(jì)算Cook距離,并通過Cook距離來找出強(qiáng)影響點(diǎn).
圖1 d=0.1or0.99時(shí)煤凈化數(shù)據(jù)的Cook距離比例圖
表1 d=0.05or0.01當(dāng)時(shí)煤凈化數(shù)據(jù)的Cook距離
當(dāng)Cook距離Di越大,則說明數(shù)據(jù)的影響越大.從圖1與表1中可以看出,不論取第d=0.05,d=0.01,d=0.1,d=0.99,第2,4,9號(hào)數(shù)據(jù)的Di較大,因此可認(rèn)為第2,4,9號(hào)數(shù)據(jù)點(diǎn)是強(qiáng)影響點(diǎn).我們還可以從上表及圖中各影響點(diǎn)對整體影響程度進(jìn)行分析,第2,4,9號(hào)數(shù)據(jù)點(diǎn)Di所占的比例均為23%左右,可見這三個(gè)影響點(diǎn)對整體數(shù)據(jù)影響相當(dāng).
在修正LIU估計(jì)下,數(shù)據(jù)刪除模型下與LIU估計(jì)下線性模型參數(shù)估計(jì)量間的關(guān)系,并得到兩者間的關(guān)系式.并利用修正LIU估計(jì)下得到的診斷統(tǒng)計(jì)量的表達(dá)式來判別強(qiáng)影響點(diǎn).通過上面討論,通過Di統(tǒng)計(jì)量得到第2,4,9號(hào)數(shù)據(jù)點(diǎn)是強(qiáng)影響點(diǎn),與文獻(xiàn)[1]中的結(jié)論相比,文獻(xiàn)[1]只識(shí)別了第9號(hào)數(shù)據(jù)點(diǎn)作為強(qiáng)影響點(diǎn),而本文通過加入先驗(yàn)信息,在修正的LIU估計(jì)下,利用更強(qiáng)的信息,不僅找出了第9號(hào)強(qiáng)影響點(diǎn),還得到了其他兩個(gè)強(qiáng)影響點(diǎn).因此,Cook統(tǒng)計(jì)量對診斷強(qiáng)影響點(diǎn)具有統(tǒng)計(jì)意義.
參考文獻(xiàn)
[1]王松桂,陳敏,陳立萍.線性統(tǒng)計(jì)模型線性回歸與方差分析[M].北京:高等教育出版社,1999.
[2]林路.協(xié)方差陣擾動(dòng)模型嶺估計(jì)的影響分析[J].工程數(shù)學(xué)學(xué)報(bào),1995,12(3):83-88.
[3]葉仁玉,曾建軍.廣義嶺估計(jì)優(yōu)于最小二乘估計(jì)的兩個(gè)充分條件[J].大學(xué)數(shù)學(xué),2006,22(6):66-69.
[4]劉棟富,田保光.廣義嶺估計(jì)的方差最優(yōu)性質(zhì)[J].科學(xué)技術(shù)與工程,2008(20):5642-5643.
[5]王松桂.主成分的最優(yōu)性與廣義主成分估計(jì)類[J].應(yīng)用概率統(tǒng)計(jì),1985(1):23-30.
[6]LIU K.A new class of biased estimate in linear-regression[J].Communications in Statistics Theory& Methods,1993,22(2):393-402.
[7]殷藝蕓.線性模型中LIU估計(jì)及兩參數(shù)估計(jì)的進(jìn)一步研究[D].重慶:重慶大學(xué),2012.
[8]黃文煥,戚佳金,黃南天.帶線性約束的回歸模型參數(shù)的LIU估計(jì)[J].系統(tǒng)科學(xué)與數(shù)學(xué),2009,29(7):937-946.
[9]SWINDEL B F.Good ridge estimators based on prior information[J].Commun Stat Theory Methods,1976,A5(11):1065-1075.
[10]LIYL,YANGH.AnewLiu-typeestimatorinlinearregressionmodel[J].StatPap,2012,53(2):427-437.
[11]汪國平.線性模型中兩參數(shù)估計(jì)及Jacknifed嶺估計(jì)的進(jìn)一步研究[D].重慶:重慶大學(xué),2014.
[12]韋博成,魯國斌,史建清.統(tǒng)計(jì)推斷引論[M].南京:東南大學(xué)出版社,1991.
[13]張莉莉,張尚立.線性回歸模型LIU估計(jì)的影響分析[J].科學(xué)技術(shù)與工程,2010,10(9):2049-2051.
[14]張堯庭,方開泰.多元統(tǒng)計(jì)分析引論[M].北京:科學(xué)出版社,1982.
Strong Impact Analysis of Data Delete Model Based on Modified LIU Estimator
ZHU Ning,LIU Qinghua
(School of Mathematics and ComputingScience,Guilin Universityof Electronic Technology,Guilin 541004,Guangxi,China)
Strong impact analysis of multiple data delete model based on modified Liu estimator is studied.The property of estimators is discussed for the data deletion model.Furthermore,the relation between modified Liu estimator and Liu estimator is obtained.The prediction can also be estimated byMLEand yi,and so on.Besides,the new expressions of CRi,Cook estimator is given on the basis of the former.Finally,the Cook estimator is used to identify the strong impact point in one case,and verify its rationality.
modified Liu estimator;data deletion model;Cook estimator;strong impact point
O212.1
A
1001-4217(2017)01-0030-08
2016-03-03
朱寧(1957—),男,湖南寧鄉(xiāng)人,教授,研究方向:線性統(tǒng)計(jì)模型。劉慶華(1990—),女,廣西平樂人,碩士研究生,研究方向:應(yīng)用統(tǒng)計(jì)。E-mail:lqh_1220@163.com