李夢含,夏小超
(重慶大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶401331)
近年來,半?yún)⒓夹g(shù)發(fā)展迅速并廣泛應(yīng)用到經(jīng)濟(jì)、金融、政治、生態(tài)等科技領(lǐng)域.一方面,參數(shù)模型常因設(shè)定錯(cuò)誤引起較大偏差,而半?yún)⒓夹g(shù)可以減少設(shè)定錯(cuò)誤的風(fēng)險(xiǎn)從而避免所謂的“維數(shù)災(zāi)難”;另一方面,半?yún)⒓夹g(shù)還擁有非參模型的靈活性.而在半?yún)⒛P椭校糠志€性模型發(fā)展尤為迅速,為研究溫度和用電量的關(guān)系,Engle等率先提出了以下形式的這種模型[1]
這里T代表向量或矩陣的轉(zhuǎn)置,Y∈R1為響應(yīng)變量,X∈Rp和T∈R1是協(xié)變量,g(·)是定義在[0,1]上的未知函數(shù),β=(β1,…,βp)T是未知參數(shù)變量.在協(xié)變量給定時(shí),誤差項(xiàng)ε獨(dú)立且條件均值為零.但在實(shí)際應(yīng)用中,可能由于測量工具或環(huán)境因素的影響,使得協(xié)變量的測量存在誤差,例如血清膽固醇水平、尿鈉氯化物水平和接觸污染物程度往往受測量誤差影響[2].
當(dāng)協(xié)變量的測量存在誤差時(shí),模型(1)被稱為協(xié)變量誤差模型或EV模型.一般有3種EV模型:
(i)只有X存在測量誤差,即W=X+ξ;
(ii)只有T存在測量誤差,即U=T+η;
(iii)X和T都存在測量誤差,即W=X+ξ,U=T+η.
致力于研究EV模型參數(shù)估計(jì)和統(tǒng)計(jì)推斷的文獻(xiàn)也很多.為處理情形(i),Liang等利用常用的衰減參數(shù)校正(parametric correction for attenuation)研究參數(shù)估計(jì)和非參估計(jì)的性質(zhì),并證明了估計(jì)值的漸近正態(tài)性和一致性[3];Cui和Li利用最近鄰廣義二乘法(nearest neighbor-generalized least square method)得到了參數(shù)估計(jì)值、模型誤差的方差和平滑函數(shù)[4],Cui考慮了反復(fù)測量觀察值時(shí)的參數(shù)估計(jì)問題[5];趙和周利用最小二乘和拉格朗日乘子檢驗(yàn)進(jìn)行了統(tǒng)計(jì)推斷[6];You等檢驗(yàn)了統(tǒng)計(jì)推斷的3個(gè)方面:帶寬選擇技術(shù)、擬合優(yōu)度的檢驗(yàn)、基于非凹懲罰似然法的變量選擇[7];這些文獻(xiàn)都是針對點(diǎn)估計(jì)進(jìn)行的,當(dāng)然也有很多基于經(jīng)驗(yàn)似然構(gòu)造參數(shù)置信區(qū)間的文獻(xiàn)[8-10].總的來說,非參誤差問題比參數(shù)誤差更難處理,更涉及了非參回歸模型中的反卷積技術(shù).為研究參數(shù)估計(jì)的性質(zhì),Liang首先將該方法推廣到函數(shù)帶誤差的部分線性模型中[11].為了處理情形(ii),Huang則采用經(jīng)驗(yàn)似然法構(gòu)造了參數(shù)的置信區(qū)間[12];此外Zhu和Cui也構(gòu)造了參數(shù)估計(jì)值和非參核估計(jì)[13].
此處重點(diǎn)研究參數(shù)包含輔助信息的情形(ii).在統(tǒng)計(jì)應(yīng)用中,樣本外得到的輔助信息可提高參數(shù)估計(jì)的有效性,正如Rao等在線性模型中所述,當(dāng)參數(shù)的先驗(yàn)信息表示成線性約束時(shí),約束最小二乘估計(jì)比普通最小二乘更有效[14].而當(dāng)線性部分的協(xié)變量存在測量誤差時(shí),Wei對變系數(shù)部分線性模型做了統(tǒng)計(jì)推斷[15].
受Wei的啟發(fā),對情形(ii)在如下約束條件下作統(tǒng)計(jì)推斷:
A是k×p的已知矩陣,b是k×1的已知常數(shù)向量,并假定rank(A)=k<p.
第2節(jié)提出參數(shù)分量的約束估計(jì)和其主要性質(zhì);第3節(jié)對約束條件的合理性進(jìn)行檢驗(yàn);第4節(jié)是數(shù)值模擬;主要結(jié)論的假設(shè)和證明則在第5節(jié)給出.
為完成各種證明,需假設(shè)一些條件成立.
令 xij為 Xi的第 j個(gè)分量,hj(t)=E(xij|Ti=t),ζij=xij-hj(Ti),ζi=(ζi1,…,ζip)T,1≤i≤n,1≤j≤p.首先提出平滑和超平滑的定義.
定義1[16]u的誤差分布被稱為α階平滑的,如果它的特征函數(shù)φu(·)滿足t→∞時(shí),
其中 d0,d1,α 均為正數(shù).
定義2[16]u的誤差分布被稱為α階超平滑的,如果它的特征函數(shù)φu(·)滿足t→∞時(shí),
這里 d0,d1同,α,γ 均為正數(shù),α0和 α1為常數(shù).
然后指出如下假設(shè)條件:
(C1)g(·)和hj(·)(1≤j≤p)一階Lipschitz連續(xù);
(C2)不可觀測協(xié)變量T的邊緣密度在區(qū)間[0,1]上從零到無窮有界,且有有界的m階導(dǎo)數(shù),m是正整數(shù);誤差u的分布是平滑或超平滑的,且其特征函數(shù)φu(·)不為0;
(C3)核函數(shù)K(·)對稱,且為 m階對稱,即滿足 K(-t)=K(t)(t)d t≠0,t)d t=0,其中 j=1,2,…,m-1.
(C4)誤差分布滿足下列兩個(gè)條件之一:
(i)誤差分布是 α 階平滑的,取平滑參數(shù) h=dn-1/(2m+2α+1),其中 d>0,2m>2α+1,并假定對于常數(shù) c≠0,當(dāng)t→∞ 時(shí)(t)=O(1),且有
這里,測量誤差 ui均值為零,獨(dú)立同分布,且獨(dú)立于(Ti,Xi,εi),β∈Θ?Rp,(X,T)給定時(shí) εi的條件均值為零,并假定εi同方差.另外為使模型(3)可識別,進(jìn)一步要求u有已知分布的特征函數(shù)φu(·).
記T和U的密度函數(shù)分別為fT(·),fU(·),定義fT(t)的反卷積核估計(jì)為[16]
下面的定理將說明式(7)和式(8)的一致性.
定理1 假設(shè)條件(C1)-(C6)成立,有
下面將用兩種方法構(gòu)造參數(shù)的約束估計(jì).
Liang證明了PLS估計(jì)值的一致性和漸進(jìn)正態(tài)性[11],但并沒有考慮約束條件的存在,而有效的約束可以減少估計(jì)偏差.本節(jié)考慮約束條件(2)并在第3節(jié)對約束條件的合理性進(jìn)行檢驗(yàn).首先,應(yīng)用拉格朗日乘數(shù)法構(gòu)造懲罰函數(shù)
最小化式(11)得到參數(shù)估計(jì)值.通過求解最優(yōu)化問題,即把Q(β,λ)分別對β和λ求偏導(dǎo)令其為零,得到
由式(5),定義g(t)的非參約束估計(jì)為
定理2(i)假設(shè)(C1)-(C5)成立,則有
推論1 在定理2的條件下,若β接近參數(shù)的真值,則有
接下來介紹另一種構(gòu)造β約束估計(jì)值的方法.
將Wei在部分線性EV模型中得到的參數(shù)約束估計(jì)方法應(yīng)用到本文的模型中[15],過程如下.
定義 p×(p-k)矩陣 R 使得 QT=^(AT,R)滿秩且 AR=0,此時(shí) R 存在但不唯一[17].記 Q-1=[AT(AAT)-1,R(RTR)-1],再令 θ=Qβ,則有 θ=(,其中 θ1=Aβ,θ2=RTβ.
令 G=(g(T1),…,g(Tn))T,ε=(ε1,…,εn)T,知模型(1)的矢量形式為 Y=Xβ+G+ε.再由 Aβ=b,則模型可改寫為
這里X*和Y*如式(6)中所定義,但權(quán)重Wnj(·)的Kn(·)卻是一般核函數(shù)的重新排列.當(dāng)替代變量U可觀測時(shí),類似于式(6)有θ2的估計(jì)值
考慮模型(3)線性部分參數(shù)帶有約束條件的情形,對約束條件的合理性進(jìn)行檢驗(yàn).不失一般性的考慮如下帶有線性假設(shè)的檢驗(yàn):
Fan和Huang提出部分變系數(shù)模型參數(shù)的profile廣義極大似然比檢驗(yàn)[18],并證明了Wilks現(xiàn)象的存在,即原假設(shè)成立時(shí)該統(tǒng)計(jì)量近似服從與σ2無關(guān)的卡方分布.應(yīng)用該方法檢驗(yàn)?zāi)P?3)的式(22),發(fā)現(xiàn)Wilks現(xiàn)象仍然存在,但當(dāng)線性部分存在測量誤差時(shí)卻不存在Wilks現(xiàn)象[15].本節(jié)檢驗(yàn)過程如下:
原假設(shè)成立,即Aβ=b時(shí),參數(shù)的約束估計(jì)βr和非參估計(jì)gnr(t)分別由式(13)和式(14)給出.相應(yīng)的殘差平方和為
如果H0為真,直觀上RSS0和RSS1不應(yīng)相差過大.所以當(dāng)GLR統(tǒng)計(jì)量較大時(shí),應(yīng)拒絕原假設(shè).理論說明由定理4給出.
定理4 若檢驗(yàn)式(22)的原假設(shè)和(C1)-(C6)成立,則有,,這里是自由度為k的卡方分布.
定理5 若檢驗(yàn)式(22)的備則假設(shè)和(C1)-(C6)成立,則有(δ),這里(δ)代表自由度為k,非中心化的卡方隨機(jī)變量,其中非中心參數(shù)為
注:定理4說明原假設(shè)成立時(shí),Tn與σ2,β和g(·)無關(guān),近似服從自由度為k的卡方分布.這個(gè)定理既提供函數(shù)帶誤差的部分線性模型參數(shù)分量檢驗(yàn)的方法,也說明了Wilks現(xiàn)象依然存在.雖然只考慮了約束參數(shù)分量的檢驗(yàn),但也可用類似的方法進(jìn)行非參函數(shù)的檢驗(yàn).
為對約束估計(jì)值和統(tǒng)計(jì)量Tn進(jìn)行檢驗(yàn),本節(jié)在有限樣本下作數(shù)值模擬,數(shù)據(jù)由下產(chǎn)生
這里(xi1,xi2)由相關(guān)系數(shù)為 0.4 的二維標(biāo)準(zhǔn)正態(tài)分布產(chǎn)生,Ti~N(0.5,0.252),g(t)=.為研究誤差分布對參數(shù)估計(jì)值的影響,檢驗(yàn)如下兩種情形:ui由雙指數(shù)分布(平滑情況)產(chǎn)生;ui由正態(tài)分布(超平滑情況)產(chǎn)生.假設(shè)為誤差ui的方差,并取),則該信噪比可達(dá) 0.7[16].
例1 雙指數(shù)誤差
假設(shè)誤差u有如下雙指數(shù)密度函數(shù)
核函數(shù)K(·)是高斯核,即標(biāo)準(zhǔn)正態(tài)密度.簡單計(jì)算可知式(4)中的核Kn(·)可由如下定義
根據(jù)條件(C4)(i)選取 h=1.16·sd(T)·n-1/9[19].
例2 正態(tài)誤差
根據(jù)(C4)(ii)選取 h=1.1σ0(log n)-1/2.
在模型(26)中,令β1=1,β2=3.考慮約束3β1+β2=6和模型誤差ε分別是均勻分布、正態(tài)分布、學(xué)生t-分布、卡方分布的情形,分別給出約束估計(jì)的樣本均方誤差(MSE)和樣本標(biāo)準(zhǔn)差(SD),其中
表1 和的均方誤差和標(biāo)準(zhǔn)差
表1 和的均方誤差和標(biāo)準(zhǔn)差
?
續(xù)表1
由表1知,當(dāng)樣本量增加時(shí),均方誤差和標(biāo)準(zhǔn)差在遞減.說明隨著樣本量增多,約束估計(jì)逐漸接近真實(shí)的參數(shù),與結(jié)論一致.
對模型式(26),考慮如下檢驗(yàn):
關(guān)于β1=2,β2=2-c,c=0表示原假設(shè),否則就是備則假設(shè).
原假設(shè)成立時(shí),對樣本量為n=100的情形運(yùn)行1 000次來檢驗(yàn)統(tǒng)計(jì)量Tn是否服從定理4的(k=1).圖1,2分別描繪了均勻誤差下例1,例2的誤差Q-Q圖,也揭示了1 000個(gè)GLR統(tǒng)計(jì)量的四分位數(shù)和分布四分位數(shù)的關(guān)系,可以看出GLR統(tǒng)計(jì)量可以很好的擬合期望的卡方分布,也與之前結(jié)果一致.
圖1 例1的Q-Q圖
圖2 例2的Q-Q圖
為評估第3節(jié)提出檢驗(yàn)過程的有效性,重復(fù)1 000次得到檢驗(yàn)統(tǒng)計(jì)量的功效曲線.圖3描繪了GLR檢驗(yàn)的功效曲線,拒絕率是根據(jù)顯著水平α=0.05在不同的樣本量下計(jì)算的,從圖3可以看出當(dāng)樣本量增大時(shí)檢驗(yàn)效果變好,這也說明了檢驗(yàn)過程是有效性.圖4描繪了固定樣本量n=100時(shí)施加不同模型誤差的情形,如圖所示,模型誤差時(shí)正態(tài)分布、卡方分布、學(xué)生t-分布的情形相似,但當(dāng)c離0較近時(shí),均勻分布下的情形有所不同.例2的結(jié)論類似可得(圖5,6).
圖3 不同樣本量下例1的功效曲線
圖4 不同模型誤差下例1的功效曲線
圖5 不同樣本量下例2的功效曲線
圖6 不同模型誤差下例2的功效曲線
最后在證明結(jié)論前,先介紹如下引理.
(ii)如果 U是超平滑誤差,X和 T獨(dú)立,(i)的結(jié)論對于 j=1,…,p仍然成立,但是
定理1的證明 首先證明式(9).由
再由式(9)就得到了(ii)的第一個(gè)結(jié)論.
由引理2和引理3知
所以,在原假設(shè)成立即 H0∶Aβ-b=0時(shí),可得.證畢.
定理5的證明 證明方法和定理4的證明相同,此處省略.
[1]ENGLE R,GRANGER C,RICE J,et al.Nonparametric Estimates of the Relation Between Weather and Electricity Sales[J].Journal of American Statistical Association,1986(81):310-320
[2]YOU J H,ZHOU Y,CHEN G M.Corrected Local Polynomial Estimation in Varying-coefficient Models with Measurement Errors[J].The Canadian Journal of Statistics,2006(34):391-410
[3]LIAN H,H?RDLEW,CARROLL R J.Estimation in a Semiparametric Partially Linear Errors-in-variables Model[J].The Annals of Statistics,1999(27):1519-1535
[4]CUI H J,LI R C.On Parameter Estimation for Semi-linear Errors-in-variable Models[J].Journal of Multivariable Analysis,1998(64):1-24
[5]CUI H J.Estimation in Partial Linear EV Models with Replicated Observations[J].Science China Mathematics,Series A.2004(34):467-482
[6]趙培信,周小雙.線性誤差協(xié)變量下部分線性模型的約束統(tǒng)計(jì)推斷[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2014,49(7):69-74
[7]YOU J H,XU Q F,ZHOU B.Statistical Inference for Partially Linear Regression Models with Measurement Errors[J].Chinese Annals of Mathematics,Series B,2008(29):207-222
[8]LI G R,XUE L G.Empirical Likelihood Confidence Region for the Parameter in Partially Linear Errors-in-variables Model[J].Communications in Statistics-Theory and Methods,2008(37):1552-1564
[9]WONG H,LIU F,CHEN M,et al.Empirical Likelihood Based Diagnostics for Heteroscedasticity in Partially Linear Errors-invariables Models[J].Journal of Statistical Planning and Inference,2009(139):916-929
[10]LIU Q,XUE L G.Empirical Likelihood Confidence Regions of Parameters in Nonlinear EV Models under Missing Data[J].Acta Mathematica Scientia,Chinese Series A,2012(32):233-245
[11]LIANGH.Asymptotic Normality of Parametric Part in Partially Linear Models with Measurement Errors in the Nonparametric Part[J].Journal of Statistical Planning and Inference,2000(86):51-62
[12]HUANG Z S.Empirical Likelihood for the Parametric Part in Partially Linear Errors-in-function Models[J].Statistics and Probability Letters,2012(82):63-66
[13]ZHU L X,CUI H J.A Semi-parametric Regression Model with Errors in Variables[J].Board of the Foundation of the Scandinavian Journal of Statistics,2003(30):429-442
[14]RAO CR,TOUTENBURG H,SHALABH,et al.Linear Models and Generalizations:Least Squares and Alternatives[M].Berlin:Springer,2008
[15]WEI C H.Statistical Inference for Restricted Partially Linear Varying Coeficient Errors-in-variables Models[J].Journal of Statistical Planning and Inference,2012(142):2464-2472
[16]FAN J Q,TRUONG Y.Nonparametric Regression with Errors in Variables[J].The Annals of Statistics,1993(21):1900-1925
[17]AMEMIYA T.Advanced Econometrics[M].Boston:Harvard University Press,1985
[18]FAN J Q,HUANG T.Profile Likelihood Inferences on Semiparametric Varying-coefficient Partially Linear Models[J].Bernoulli,2005(11):1031-1057
[19]CHEN X,CUI H J.Empirical Likelihood Inference for Parameters in a Partially Linear Errors-in-variables Model[J].Statistics,2011(46):745-757