具有AR（1）誤差的線性回歸模型的統(tǒng)計(jì)診斷

2012-07-23 13:05:32言方榮

統(tǒng)計(jì)與決策 2012年2期

凌佳，言方榮

（1.江蘇廣播電視大學(xué)，南京 210036；2.中國(guó)藥科大學(xué) 數(shù)學(xué)教研室，南京 210009）

0 引言

線性回歸模型在許多實(shí)際問(wèn)題中得到了廣泛應(yīng)用，通常隨機(jī)誤差項(xiàng)都假設(shè)是正態(tài)白噪聲且具有方差齊性，但在一些復(fù)雜問(wèn)題中會(huì)顯得不太合適。當(dāng)觀測(cè)值與時(shí)間有關(guān)時(shí)，數(shù)據(jù)之間往往存在序列相關(guān)，尤其是自相關(guān)性。因此，這時(shí)對(duì)模型不僅要進(jìn)行異方差檢驗(yàn)，還要進(jìn)行相關(guān)性的檢驗(yàn)。對(duì)于具有AR（1）誤差的線性模型，Tsai（1986）得到了同時(shí)檢驗(yàn)異方差和相關(guān)性的Score統(tǒng)計(jì)量。

對(duì)于具有方差齊性的均值漂移模型和數(shù)據(jù)刪除模型，文獻(xiàn)[1]給出了相應(yīng)的估計(jì)量、診斷統(tǒng)計(jì)量以及二者的等價(jià)性證明。對(duì)于異方差的條件下的均值漂移模型，文獻(xiàn)[2]得到了有關(guān)的估計(jì)量。本文進(jìn)一步推廣和發(fā)展了他們的結(jié)果，首先討論具有AR（1）誤差的均值漂移模型，得到了均值擾動(dòng)值的Score檢驗(yàn)統(tǒng)計(jì)量，接下來(lái)再討論具有AR（1）誤差的數(shù)據(jù)刪除模型，證明了該模型與具有AR（1）誤差的均值漂移模型之間并不具有等價(jià)性。最后，通過(guò)boq數(shù)據(jù)來(lái)說(shuō)明了分析方法的合理性和有效性。

1 具有AR（1）誤差的均值漂移模型

其中Y=(y1,…yn)T為n維觀察向量，X=(x1,…xn)T為n×p階列滿秩矩陣，di表示一個(gè)n維向量，其第i個(gè)分量為 1，其他均為零；β=(β0,β1,…,βp-1)T為p維未知參數(shù)，γ為擾動(dòng)值。ε為n維隨機(jī)誤差向量，參數(shù)φ滿足而{at}為一白噪聲序列，為未知參數(shù)。

記參數(shù)θ=(γ,βT,φ,σ2)T，θ0=(0,β,φ,σ2)T。參數(shù)θ與θ0的極大似然估計(jì)（MLE）分別記為：

考慮如下假設(shè)檢驗(yàn)問(wèn)題：

顯然，若H0成立，則認(rèn)為(yi,xiT)不是異常點(diǎn)；若H0被否定，則認(rèn)為(yi,xiT)為異常點(diǎn)。

引進(jìn)a=(at)n×1，ε=(εt)n×1。n階矩陣：

則a～N(0,σ2In)

其中M-T=(M-1)T。從而具有AR（1）誤差的均值漂移模型中參數(shù)θ的對(duì)數(shù)似然函數(shù)為：

定理1 對(duì)于模型（1）、（2），假設(shè)檢驗(yàn)問(wèn)題（3）的Score檢驗(yàn)統(tǒng)計(jì)量為：

其中M在θ?0處計(jì)值。

證明：可求出l(θ)關(guān)于θ的前二階導(dǎo)數(shù)如下：

由此可得：

從而：

證畢.

H0成立時(shí)，β，φ，σ2的極大似然估計(jì)（MLE）分別為:

推論1若φ=0，則表示方差無(wú)自相關(guān)，由（6）式可得

（10）式的SCi實(shí)際上就是方差齊性時(shí)均值漂移模型的均值擾動(dòng)值的Score檢驗(yàn)統(tǒng)計(jì)量，這與已知結(jié)果吻合。

2 具有AR（1）誤差的數(shù)據(jù)刪除模型

其中Y(i)、X(i)、ε(i)分別為1中的Y、X、ε去掉第i行而得到的；β=(β0,β1,…,βp-1)T為p維未知參數(shù)。σ2為未知參數(shù)。

引進(jìn)a(i)=(a1,…,ai-1,ai+2,…,an)T(n-2)×1，ε(i)=(ε1,…,εi-1,εi+1,…,εn)T(n-1)×1。矩陣：

M(i)為M去掉第i行，第i+1行，第i列而得到的。則：

下面研究具有AR（1）誤差的均值漂移模型和數(shù)據(jù)刪除模型相應(yīng)的估計(jì)量是否相同，即二者是否具有等價(jià)性。首先：對(duì)于具有AR（1）誤差的均值漂移模型

由Y=Xβ+γdi+ε，兩邊同乘以M得到一個(gè)新的模型：

求該模型中的參數(shù)β的LSE就轉(zhuǎn)化為求模型（14）、（15）中的參數(shù)β的LSE。

由[1]中的單參數(shù)附加變量的參數(shù)估計(jì)公式可得β的LSE為：

其中Q=I-PMX=I-MX[(MX)TMX]-1(MX)T

其次：對(duì)于具有AR（1）誤差的數(shù)據(jù)刪除模型

由Y(i)=X(i)β+ε(i)，兩邊同乘以M(i)得到一個(gè)新的模型：

求具有AR（1）誤差的數(shù)據(jù)刪除模型中的參數(shù)β的LSE就轉(zhuǎn)化為求以上模型中的參數(shù)β的LSE。

由[1]中的參數(shù)估計(jì)公式可得β的LSE為：

矩陣A由n階單位陣去掉第i行和第（i+1）行而得到，矩陣B由n階單位陣去掉第i列而得到。

此時(shí)，M(i)=AMB，X(i)=BTX，代入上式經(jīng)過(guò)化簡(jiǎn)整理可得：

不等式的意義在于得到了在AR（1）誤差的條件下，均值漂移模型和數(shù)據(jù)刪除模型二者不是等價(jià)的。

這與文獻(xiàn)[5]中具有異方差的均值漂移模型和數(shù)據(jù)刪除模型二者是等價(jià)的結(jié)果是不同的。

3 實(shí)例分析

由[1]知boq數(shù)據(jù)的方差齊性不太好，如果用通常的線性回歸模型（誤差項(xiàng)服從標(biāo)準(zhǔn)正態(tài)分布），則有好幾個(gè)點(diǎn)擬合的效果都不夠理想，同時(shí)考慮到誤差項(xiàng)之間可能存在自相關(guān)。此時(shí)進(jìn)行異常點(diǎn)的診斷可運(yùn)用模型(1)。

利用（3）式計(jì)算假設(shè)檢驗(yàn)（2）的Score值如表1：

表1 Score檢驗(yàn)統(tǒng)計(jì)量的值

由表1知SC11=6.5189＞χ2(1)=3.841，所以第11號(hào)點(diǎn)可能有漂移。事實(shí)上，由下面的散點(diǎn)圖可以發(fā)現(xiàn)第11號(hào)點(diǎn)確實(shí)有漂移，與計(jì)算結(jié)果吻合。

4 結(jié)語(yǔ)

由于具有AR（1）誤差的均值漂移模型和數(shù)據(jù)刪除模型二者不是等價(jià)的，因此在討論具有AR（1）誤差的線性回歸模型的異常點(diǎn)時(shí)，不能像討論具有異方差的線性回歸模型那樣僅僅考慮更便于處理的均值漂移模型。用定理1的Score檢驗(yàn)統(tǒng)計(jì)量進(jìn)行異常點(diǎn)的診斷，經(jīng)過(guò)實(shí)例分析發(fā)現(xiàn)用該方法進(jìn)行異常點(diǎn)診斷的效果是比較好的。

圖1 方差擾動(dòng)時(shí)的散點(diǎn)圖

[1]韋博成，魯國(guó)斌，史建清.統(tǒng)計(jì)診斷引論[M].南京：東南大學(xué)出版社，1991．

[2]宗序平，韋博成.線性回歸診斷的若干問(wèn)題[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào)，1993，（3）．

[3]Sanford Weisberg.Applied LinearRegression[M].Chichester:John Wiley&Sons,1985．

[4]R.Dennis Cook,Sanford Weisberg.Diagnostics for Heteroscedasticity in Regression[J].Biometrika,1983，l70（1）.