關(guān)靜,陳永沛
(天津大學(xué)數(shù)學(xué)學(xué)院,天津300350)
基于線性回歸變量誤差模型的工具變量法與校正似然法的比較
關(guān)靜,陳永沛
(天津大學(xué)數(shù)學(xué)學(xué)院,天津300350)
文章介紹了線性回歸變量誤差模型參數(shù)估計(jì)的兩種方法——工具變量法和校正似然法,然后通過數(shù)值模擬的方式對這兩種方法的估計(jì)結(jié)果進(jìn)行比較,說明這兩種方法在不同假定下估計(jì)的優(yōu)劣,最后通過實(shí)例計(jì)算來進(jìn)行驗(yàn)證,并得到一些有用的結(jié)論。
線性回歸;變量誤差模型;工具變量法;校正似然法
變量誤差模型(Errors-in-variables model)起源于19世紀(jì),通常認(rèn)為,Adcock R J是最早研究自變量帶測量誤差的人。1902年,Karl Pearson提出測量誤差會影響到模型參數(shù)的估計(jì);1987年,F(xiàn)uller[1]在其著作中詳細(xì)論述了帶測量誤差線性回歸模型的統(tǒng)計(jì)分析方法。Wang Liqun和Cheng Hsiao將工具變量法應(yīng)用到帶變量誤差的刪失回歸模型中[2]。Abarin和Wang Liqun又將工具變量法應(yīng)用到帶測量誤差的廣義線性模型中[3]。Nakamura將校正似然函數(shù)法應(yīng)用到正態(tài)、poisson、inverse Gaussian等測量誤差回歸模型中[5]。工具變量法和校正似然法正是由于考慮測量誤差的存在,且參數(shù)估計(jì)的結(jié)果都具有無偏性,因此相對于傳統(tǒng)的估計(jì)方法能夠更真實(shí)、準(zhǔn)確的反映變量之間的關(guān)系。
本文重點(diǎn)介紹工具變量法與校正似然法,通過數(shù)值模擬對兩種方法進(jìn)行比較,說明兩種方法在處理不同分布情況下的優(yōu)劣。并應(yīng)用這兩種方法研究海水表面透明度與海水表面懸浮固體的關(guān)系。
考慮簡單的一元線性回歸變量誤差模型為:
其中y為因變量或響應(yīng)變量,w為指示變量或可觀測變量,x為潛變量或不可測變量,u為變量誤差,ε~N(0,σεε),u~N(0,σuu),x與ε,u兩兩不相關(guān)。
1.1 工具變量法
對于上述模型,如果用普通的矩估計(jì)方法,存在辨識問題,即σuu在實(shí)際中未知[5]。因此下面介紹工具變量法,即引入工具變量進(jìn)行參數(shù)估計(jì)。
在統(tǒng)計(jì)學(xué)中,工具變量也稱為輔助變量,簡單說來它是與真值x相關(guān)但與變量誤差無關(guān)的變量。
假設(shè)為z工具變量,并且與x有以下線性關(guān)系:
其中β1≠0,σzδ=0,δ~N(0,σδδ)。
在得到工具變量后,對模型參數(shù)進(jìn)行估計(jì)。首先,將式(3)帶入式(2)得到:
由于u+δ與z不相關(guān),由最小二乘法可得β0,β1的無偏估計(jì):
其次,將式(3)帶入式(1)得到:
其中 γ0=α0+α1β0,γ1=α1β1,τ=α1δ+ε。由于 τ與z不相關(guān),由最小二乘法可得 γ0,γ1的無偏估計(jì)
故由上面兩步可得到 α1的無偏估計(jì):
同時(shí),可以得到參數(shù)估計(jì)量的漸近性質(zhì)[1]:
其中v=ε-α1u。
1.2 校正似然法
為方便起見,將式(1)和式(2)表示成如下形式:
其中α=(α0,α1)T,X=(1,x),W=(1,w),U=(0,u)~N
設(shè)l(α,X,y),U(α,X,y),I+(α,X,y),I+(α,X,y)分別為模型(8)的對數(shù)似然函數(shù)、得分函數(shù)、觀察信息及Fisher信息,記E+為y關(guān)于的數(shù)學(xué)期望,不考慮變量誤差時(shí)有:
當(dāng)存在變量誤差時(shí),用W代替X,此時(shí)式(9)和式(10)并不恒成立,因此用校正似然法來估計(jì)參數(shù)[4]。設(shè)校正對數(shù)似然函數(shù)l*(α,W,y)滿足:
其中E*表示y,X給定時(shí)關(guān)于W的數(shù)學(xué)期望。記:
分別表示校正得分函數(shù)、觀察信息,如果E*與?α可交換,則有:
滿足U*(α∧,W,y)=0的參數(shù)α的估計(jì)α∧稱為校正似然估計(jì)。記E=E+E*,則有:
E[U*(α,W,y)]=E+E*[U*(α,W,y)]=E+[U(α,X,y)]=0(11)式(11)說明了校正得分函數(shù)是無偏的。
設(shè)(wi,yi)分別為(w,y)的樣本觀測值,i=1,2,…,n。將上述結(jié)果應(yīng)用到模型(8),則有:
令式(12)等于0,得到參數(shù)α的估計(jì):
對于模型(8),可以證明參數(shù)估計(jì)具有漸近正態(tài)性和相合性[4]。進(jìn)一步有,
而在實(shí)際問題中,σuu通常并不知道,可以通過對w進(jìn)行重復(fù)測量[6],估計(jì)σuu。記得到σuu的一致無偏估計(jì)uu[7],即:
應(yīng)用R軟件通過數(shù)值模擬來比較工具變量法和校正似然法估計(jì)結(jié)果的優(yōu)劣。
首先,取α0=3,α1=3,β0=-1,β1=1.3,且假設(shè)工具變量z~N(1,2)。變量誤差u分別為正態(tài)分布N(0,0.4),N(0,0.8),N(0,1.2);t分布t(5),t(15),t(25);以及均勻分布U(-1,1),U(-2,2),U(-3,3)。在模擬中,取迭代次數(shù)為N=1000,樣本容量n為100,500,1000。
2.1 模擬1
首先,通過模擬變量誤差u取3種不同的分布,來比較工具變量法以及校正似然法估計(jì)結(jié)果的優(yōu)劣,并且比較3種方法隨著測量誤差方差σuu的增大估計(jì)結(jié)果的變化。選取樣本大小,得到表1(見下頁)。其中,IVE表示工具變量法,CLE表示校正似然法,NAE表示普通極大似然法(不考慮變量誤差),Bias表示估計(jì)值與真值之間的偏差,RMSE表示均方根誤差。并且根據(jù)表1繪制了工具變量法與校正似然法得到的參數(shù)估計(jì)值的偏差Bias與誤差方差σuu的關(guān)系圖(圖1),其中橫坐標(biāo)S1,S2,S3分別表示3種不同分布的方差,縱坐標(biāo)為估計(jì)值的偏差。
表1 n=100時(shí),3種不同分布情況下的參數(shù)估計(jì)
通過表1可以看出,對于3種不同類型的分布,忽略變量誤差(NAE)時(shí)得到的估計(jì)的偏差明顯大于工具變量法(IVE)和校正似然法(CLE)得到的結(jié)果,并且隨著方差的增大,估計(jì)值的偏差明顯增大,最高可達(dá)到37%。而其他兩種方法得到的估計(jì)量的偏差隨著方差的增大并沒有顯著變化,并且偏差最大為2%。與此同時(shí)忽略變量誤差(NAE)的RMSE也較其他兩種方法的大。結(jié)果表明,測量誤差對估計(jì)結(jié)果的影響很大,并且不能忽略它,要通過其他方法減小測量誤差對參數(shù)估計(jì)的影響,比如工具變量法與校正似然法。
圖1 Bias與σuu的關(guān)系圖
下面對這兩種方法進(jìn)行比較。從表1與圖1可以看出,在相同條件下,校正似然法(CLE)得到的偏差都要比工具變量法(IVE)的大,并且隨著方差的增大,校正似然法(CLE)偏差增大的更快。例如對正態(tài)分布N(0,0.4),IVE的偏差為0.0009,而CLE的偏差為0.0038;且當(dāng)方差從0.4增大到1.2時(shí),IVE的偏差增大0.4%,CLE則增大0.8%。對于分布t(25),IVE的偏差為-0.0059,而CLE的偏差為0.0149;且當(dāng)自由度從25減小到5時(shí)(即方差從1.08增大到1.67),IVE的偏差增大0.5%,CLE則增大1.2%。對于均勻分布U(-1,1),IVE的偏差為0.0040,而CLE的偏差為0.0083;當(dāng)方差從0.33增大到3時(shí),IVE的偏差增大1%,CLE則增大2.2%,偏差會達(dá)到0.7%。同時(shí)可以看出相同條件下IVE比CLE的RMSE相對較小。
2.2 模擬2
選取變量誤差u~N(0,1),對樣本量n=100,500,1000分別進(jìn)行模擬,結(jié)果如表2。
表2 u~N(0,1)時(shí),不同樣本大小情況下的參數(shù)估計(jì)
從表2可以看出,隨著樣本量的增大,3種方法估計(jì)的偏差都在減小,但依然可以看出NAE的估計(jì)結(jié)果并不好,誤差偏差仍然在15%左右。相同條件下IVE的估計(jì)依舊是最好的,偏差最大為0.18%,CLE的偏差最大為0.5%。同時(shí)隨著樣本量的增大,CLE的估計(jì)與IVE的估計(jì)越來越接近,也就說明在大樣本情況下,CLE的估計(jì)效果與IVE的一樣好。因此,在大樣本情況下,這兩種方法都是不錯的選擇。但在實(shí)際問題中,由于Σuu是需要估計(jì)的,因此CLE的偏差會相對更大一些。
為研究海水表面透明度與海水表面懸浮固體之間的關(guān)系,選取香港維多利亞港VM1監(jiān)測站觀測的26組數(shù)據(jù)進(jìn)行分析(數(shù)據(jù)來自香港環(huán)境保護(hù)署網(wǎng)站)。由于監(jiān)測站觀測的只是某一處懸浮固體的值,并非整個海水表面,因此存在測量誤差。故采取變量誤差模型,此處y為海水表面透明度,w為海水表面懸浮固體,z為海水中部懸浮固體,w1為w的重復(fù)觀察值。
首先,用工具變量法進(jìn)行參數(shù)估計(jì)。分兩步完成,第一步選取海水中部懸浮固體量作為工具變量z,由圖2可以看到海水中部懸浮固體量z與海水表面懸浮固體量w具有一定的線性相關(guān)性。由式(5),可得到。第二步,由式(7),得到,此外還可以得到y(tǒng)的RMSE為0.41。
圖2 z和w的散點(diǎn)圖及回歸直線
圖3為y和w的散點(diǎn)圖以及兩種不同方法得到的回歸直線??梢钥闯鰯?shù)據(jù)均勻的落在IVE所得到的擬合直線左右,且由y的RMSE可以看到工具變量法(IVE)得到的RMSE明顯小于校正似然法(CLE)得到的結(jié)果。由估計(jì)的結(jié)果可以看到隨著懸浮固體數(shù)量的增多,海水的透明度在逐漸降低。
圖3 y和w的散點(diǎn)圖及回歸直線
本文主要討論了帶變量誤差的線性回歸模型的兩種參數(shù)估計(jì)方法,即工具變量法和校正似然法。這兩種方法得到的參數(shù)估計(jì)都具有無偏性和一致性。通過數(shù)值模擬的方式對這兩種方法進(jìn)行比較。從模擬結(jié)果看出,首先工具變量法(IVE)和校正似然法(CLE)得到的參數(shù)估計(jì)值都比普通方法(NAE)要好,并且IVE得到的參數(shù)估計(jì)較CLE有更小的偏差和RMSE;其次隨著測量誤差的方差增大,IVE和CLE得到的參數(shù)估計(jì)的偏差也增大,但CLE的偏差增大的更快;最后,針對同一分布,隨著樣本量的增大,IVE和CLE得到估計(jì)的偏差都越來越小,并且在大樣本情況下,這兩種方法得到的估計(jì)值都很好。本文最后通過研究香港維多利亞港灣海水表面透明度與海水表面懸浮固體之間的關(guān)系,進(jìn)一步驗(yàn)證了在樣本量較小情況下,IVE的估計(jì)比CLE的估計(jì)更好。
[1]Wayne A.Fuller.Measurement Error Models[M].John Wiley&Sons. Inc,1987.
[2]Wang LiQun,Cheng Hsiao.Two-stage Estimation of Limited Depen?dent Variable Models With Errors-In-Variables[J].Econometrics Journal,2007,(10).
[3]Abarin T,Wang LiQun.Instrumental Variable Approach to Covariate Measurement Error in Generalized Linear Models[J].Annals of the In?stitute of Statistical Mathematics,2012,(64).
[4]Nakamura T.Corrected Score Function for Errors-In-Variables Mod?els:Methodology and Application to Generalized Linear Models[J]. Biometrika,1990,(77).
[5]張衛(wèi)東.線性模型中的測量誤差問題與工具變量法[J].統(tǒng)計(jì)與決策,2008,(8).
[6]Liang H,H?rdle W,Carrol R J.Estimation in a Semiparametric Par?tially Linear Errors-In-Variables Models[J].Ann Statist,1999,(27). [7]Yang Y P,Li G R,Tong T J.Corrected Empirical Likelihood for a Class of Generalized Linear Measurement Error Models[J].Sci China Math,2015,(58).
(責(zé)任編輯/易永生)
Comparison of Instrumental Variable Estimation and Corrected Likelihood Method Based on Linear regression measurement error models
Guan Jing,Chen Yongpei
(School of Mathematics,Tianjin University,Tianjin 300350,China)
This paper introduces two methods of parameter estimation of linear regression measurement error models—Instrumental Variable Estimation and Corrected Likelihood Method.And then numerical simulation is given to compare the estimation results of the two methods.Advantages and disadvantages of these two methods under different assumptions are also described in the paper.Finally some useful conclusions are obtained through the case calculation and verification.
linear regression;variable error models;instrumental variable estimation;correction likelihood method
O212
A
1002-6487(2017)10-0081-04
關(guān)靜(1978—),女,天津人,博士,副教授,研究方向:測量誤差模型。
陳永沛(1992—),女,山西朔州人,碩士研究生,研究方向:測量誤差模型。