函數(shù)帶誤差的部分線性模型約束下的統(tǒng)計(jì)推斷

2015-11-02 00:33李夢含夏小超

重慶工商大學(xué)學(xué)報(bào)（自然科學(xué)版） 2015年7期

李夢含，夏小超

(重慶大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，重慶401331)

0 引言

近年來，半?yún)⒓夹g(shù)發(fā)展迅速并廣泛應(yīng)用到經(jīng)濟(jì)、金融、政治、生態(tài)等科技領(lǐng)域.一方面，參數(shù)模型常因設(shè)定錯(cuò)誤引起較大偏差，而半?yún)⒓夹g(shù)可以減少設(shè)定錯(cuò)誤的風(fēng)險(xiǎn)從而避免所謂的“維數(shù)災(zāi)難”;另一方面，半?yún)⒓夹g(shù)還擁有非參模型的靈活性.而在半?yún)⒛Ｐ椭校糠志€性模型發(fā)展尤為迅速，為研究溫度和用電量的關(guān)系，Engle等率先提出了以下形式的這種模型［1］

這里T代表向量或矩陣的轉(zhuǎn)置，Y∈R1為響應(yīng)變量，X∈Rp和T∈R1是協(xié)變量，g(·)是定義在［0，1］上的未知函數(shù)，β=(β1，…，βp)T是未知參數(shù)變量.在協(xié)變量給定時(shí)，誤差項(xiàng)ε獨(dú)立且條件均值為零.但在實(shí)際應(yīng)用中，可能由于測量工具或環(huán)境因素的影響，使得協(xié)變量的測量存在誤差，例如血清膽固醇水平、尿鈉氯化物水平和接觸污染物程度往往受測量誤差影響［2］.

當(dāng)協(xié)變量的測量存在誤差時(shí)，模型(1)被稱為協(xié)變量誤差模型或EV模型.一般有3種EV模型:

(i)只有X存在測量誤差，即W=X+ξ;

(ii)只有T存在測量誤差，即U=T+η;

(iii)X和T都存在測量誤差，即W=X+ξ，U=T+η.

致力于研究EV模型參數(shù)估計(jì)和統(tǒng)計(jì)推斷的文獻(xiàn)也很多.為處理情形(i)，Liang等利用常用的衰減參數(shù)校正(parametric correction for attenuation)研究參數(shù)估計(jì)和非參估計(jì)的性質(zhì)，并證明了估計(jì)值的漸近正態(tài)性和一致性［3］;Cui和Li利用最近鄰廣義二乘法(nearest neighbor-generalized least square method)得到了參數(shù)估計(jì)值、模型誤差的方差和平滑函數(shù)［4］，Cui考慮了反復(fù)測量觀察值時(shí)的參數(shù)估計(jì)問題［5］;趙和周利用最小二乘和拉格朗日乘子檢驗(yàn)進(jìn)行了統(tǒng)計(jì)推斷［6］;You等檢驗(yàn)了統(tǒng)計(jì)推斷的3個(gè)方面:帶寬選擇技術(shù)、擬合優(yōu)度的檢驗(yàn)、基于非凹懲罰似然法的變量選擇［7］;這些文獻(xiàn)都是針對點(diǎn)估計(jì)進(jìn)行的，當(dāng)然也有很多基于經(jīng)驗(yàn)似然構(gòu)造參數(shù)置信區(qū)間的文獻(xiàn)［8-10］.總的來說，非參誤差問題比參數(shù)誤差更難處理，更涉及了非參回歸模型中的反卷積技術(shù).為研究參數(shù)估計(jì)的性質(zhì)，Liang首先將該方法推廣到函數(shù)帶誤差的部分線性模型中［11］.為了處理情形(ii)，Huang則采用經(jīng)驗(yàn)似然法構(gòu)造了參數(shù)的置信區(qū)間［12］;此外Zhu和Cui也構(gòu)造了參數(shù)估計(jì)值和非參核估計(jì)［13］.

此處重點(diǎn)研究參數(shù)包含輔助信息的情形(ii).在統(tǒng)計(jì)應(yīng)用中，樣本外得到的輔助信息可提高參數(shù)估計(jì)的有效性，正如Rao等在線性模型中所述，當(dāng)參數(shù)的先驗(yàn)信息表示成線性約束時(shí)，約束最小二乘估計(jì)比普通最小二乘更有效［14］.而當(dāng)線性部分的協(xié)變量存在測量誤差時(shí)，Wei對變系數(shù)部分線性模型做了統(tǒng)計(jì)推斷［15］.

受Wei的啟發(fā)，對情形(ii)在如下約束條件下作統(tǒng)計(jì)推斷:

A是k×p的已知矩陣，b是k×1的已知常數(shù)向量，并假定rank(A)=k＜p.

第2節(jié)提出參數(shù)分量的約束估計(jì)和其主要性質(zhì);第3節(jié)對約束條件的合理性進(jìn)行檢驗(yàn);第4節(jié)是數(shù)值模擬;主要結(jié)論的假設(shè)和證明則在第5節(jié)給出.

1 約束估計(jì)值的構(gòu)造及其性質(zhì)

為完成各種證明，需假設(shè)一些條件成立.

令 xij為 Xi的第 j個(gè)分量，hj(t)=E(xij|Ti=t)，ζij=xij-hj(Ti)，ζi=(ζi1，…，ζip)T，1≤i≤n，1≤j≤p.首先提出平滑和超平滑的定義.

定義1［16］u的誤差分布被稱為α階平滑的，如果它的特征函數(shù)φu(·)滿足t→∞時(shí)，

其中 d0，d1，α 均為正數(shù).

定義2［16］u的誤差分布被稱為α階超平滑的，如果它的特征函數(shù)φu(·)滿足t→∞時(shí)，

這里 d0，d1同，α，γ 均為正數(shù)，α0和 α1為常數(shù).

然后指出如下假設(shè)條件:

(C1)g(·)和hj(·)(1≤j≤p)一階Lipschitz連續(xù);

(C2)不可觀測協(xié)變量T的邊緣密度在區(qū)間［0，1］上從零到無窮有界，且有有界的m階導(dǎo)數(shù)，m是正整數(shù);誤差u的分布是平滑或超平滑的，且其特征函數(shù)φu(·)不為0;

(C3)核函數(shù)K(·)對稱，且為 m階對稱，即滿足 K(-t)=K(t)(t)d t≠0，t)d t=0，其中 j=1，2，…，m-1.

(C4)誤差分布滿足下列兩個(gè)條件之一:

(i)誤差分布是 α 階平滑的，取平滑參數(shù) h=dn-1/(2m+2α+1)，其中 d＞0，2m＞2α+1，并假定對于常數(shù) c≠0，當(dāng)t→∞ 時(shí)(t)=O(1)，且有

這里，測量誤差 ui均值為零，獨(dú)立同分布，且獨(dú)立于(Ti，Xi，εi)，β∈Θ?Rp，(X，T)給定時(shí) εi的條件均值為零，并假定εi同方差.另外為使模型(3)可識別，進(jìn)一步要求u有已知分布的特征函數(shù)φu(·).

記T和U的密度函數(shù)分別為fT(·)，fU(·)，定義fT(t)的反卷積核估計(jì)為［16］

下面的定理將說明式(7)和式(8)的一致性.

定理1 假設(shè)條件(C1)-(C6)成立，有

下面將用兩種方法構(gòu)造參數(shù)的約束估計(jì).

1.1 拉格朗日乘數(shù)法

Liang證明了PLS估計(jì)值的一致性和漸進(jìn)正態(tài)性［11］，但并沒有考慮約束條件的存在，而有效的約束可以減少估計(jì)偏差.本節(jié)考慮約束條件(2)并在第3節(jié)對約束條件的合理性進(jìn)行檢驗(yàn).首先，應(yīng)用拉格朗日乘數(shù)法構(gòu)造懲罰函數(shù)

最小化式(11)得到參數(shù)估計(jì)值.通過求解最優(yōu)化問題，即把Q(β，λ)分別對β和λ求偏導(dǎo)令其為零，得到

由式(5)，定義g(t)的非參約束估計(jì)為

定理2(i)假設(shè)(C1)-(C5)成立，則有

推論1 在定理2的條件下，若β接近參數(shù)的真值，則有

接下來介紹另一種構(gòu)造β約束估計(jì)值的方法.

1.2 方法 2

將Wei在部分線性EV模型中得到的參數(shù)約束估計(jì)方法應(yīng)用到本文的模型中［15］，過程如下.

定義 p×(p-k)矩陣 R 使得 QT=^(AT，R)滿秩且 AR=0，此時(shí) R 存在但不唯一［17］.記 Q-1=［AT(AAT)-1，R(RTR)-1］，再令 θ=Qβ，則有 θ=(，其中 θ1=Aβ，θ2=RTβ.

令 G=(g(T1)，…，g(Tn))T，ε=(ε1，…，εn)T，知模型(1)的矢量形式為 Y=Xβ+G+ε.再由 Aβ=b，則模型可改寫為

這里X*和Y*如式(6)中所定義，但權(quán)重Wnj(·)的Kn(·)卻是一般核函數(shù)的重新排列.當(dāng)替代變量U可觀測時(shí)，類似于式(6)有θ2的估計(jì)值

2 參數(shù)的約束條件檢驗(yàn)

考慮模型(3)線性部分參數(shù)帶有約束條件的情形，對約束條件的合理性進(jìn)行檢驗(yàn).不失一般性的考慮如下帶有線性假設(shè)的檢驗(yàn):

Fan和Huang提出部分變系數(shù)模型參數(shù)的profile廣義極大似然比檢驗(yàn)［18］，并證明了Wilks現(xiàn)象的存在，即原假設(shè)成立時(shí)該統(tǒng)計(jì)量近似服從與σ2無關(guān)的卡方分布.應(yīng)用該方法檢驗(yàn)?zāi)Ｐ?3)的式(22)，發(fā)現(xiàn)Wilks現(xiàn)象仍然存在，但當(dāng)線性部分存在測量誤差時(shí)卻不存在Wilks現(xiàn)象［15］.本節(jié)檢驗(yàn)過程如下:

原假設(shè)成立，即Aβ=b時(shí)，參數(shù)的約束估計(jì)βr和非參估計(jì)gnr(t)分別由式(13)和式(14)給出.相應(yīng)的殘差平方和為

如果H0為真，直觀上RSS0和RSS1不應(yīng)相差過大.所以當(dāng)GLR統(tǒng)計(jì)量較大時(shí)，應(yīng)拒絕原假設(shè).理論說明由定理4給出.

定理4 若檢驗(yàn)式(22)的原假設(shè)和(C1)-(C6)成立，則有，，這里是自由度為k的卡方分布.

定理5 若檢驗(yàn)式(22)的備則假設(shè)和(C1)-(C6)成立，則有(δ)，這里(δ)代表自由度為k，非中心化的卡方隨機(jī)變量，其中非中心參數(shù)為

注:定理4說明原假設(shè)成立時(shí)，Tn與σ2，β和g(·)無關(guān)，近似服從自由度為k的卡方分布.這個(gè)定理既提供函數(shù)帶誤差的部分線性模型參數(shù)分量檢驗(yàn)的方法，也說明了Wilks現(xiàn)象依然存在.雖然只考慮了約束參數(shù)分量的檢驗(yàn)，但也可用類似的方法進(jìn)行非參函數(shù)的檢驗(yàn).

3 數(shù)值模擬

為對約束估計(jì)值和統(tǒng)計(jì)量Tn進(jìn)行檢驗(yàn)，本節(jié)在有限樣本下作數(shù)值模擬，數(shù)據(jù)由下產(chǎn)生

這里(xi1，xi2)由相關(guān)系數(shù)為 0.4 的二維標(biāo)準(zhǔn)正態(tài)分布產(chǎn)生，Ti～N(0.5，0.252)，g(t)=.為研究誤差分布對參數(shù)估計(jì)值的影響，檢驗(yàn)如下兩種情形:ui由雙指數(shù)分布(平滑情況)產(chǎn)生;ui由正態(tài)分布(超平滑情況)產(chǎn)生.假設(shè)為誤差ui的方差，并取)，則該信噪比可達(dá) 0.7［16］.

例1 雙指數(shù)誤差

假設(shè)誤差u有如下雙指數(shù)密度函數(shù)

核函數(shù)K(·)是高斯核，即標(biāo)準(zhǔn)正態(tài)密度.簡單計(jì)算可知式(4)中的核Kn(·)可由如下定義

根據(jù)條件(C4)(i)選取 h=1.16·sd(T)·n-1/9［19］.

例2 正態(tài)誤差

根據(jù)(C4)(ii)選取 h=1.1σ0(log n)-1/2.

3.1 約束估計(jì)的一致性檢驗(yàn)

在模型(26)中，令β1=1，β2=3.考慮約束3β1+β2=6和模型誤差ε分別是均勻分布、正態(tài)分布、學(xué)生t-分布、卡方分布的情形，分別給出約束估計(jì)的樣本均方誤差(MSE)和樣本標(biāo)準(zhǔn)差(SD)，其中

表1 和的均方誤差和標(biāo)準(zhǔn)差

續(xù)表1

由表1知，當(dāng)樣本量增加時(shí)，均方誤差和標(biāo)準(zhǔn)差在遞減.說明隨著樣本量增多，約束估計(jì)逐漸接近真實(shí)的參數(shù)，與結(jié)論一致.

3.2 檢驗(yàn)統(tǒng)計(jì)量有效性檢驗(yàn)

對模型式(26)，考慮如下檢驗(yàn):

關(guān)于β1=2，β2=2-c，c=0表示原假設(shè)，否則就是備則假設(shè).

原假設(shè)成立時(shí)，對樣本量為n=100的情形運(yùn)行1 000次來檢驗(yàn)統(tǒng)計(jì)量Tn是否服從定理4的(k=1).圖1，2分別描繪了均勻誤差下例1，例2的誤差Q-Q圖，也揭示了1 000個(gè)GLR統(tǒng)計(jì)量的四分位數(shù)和分布四分位數(shù)的關(guān)系，可以看出GLR統(tǒng)計(jì)量可以很好的擬合期望的卡方分布，也與之前結(jié)果一致.

圖1 例1的Q-Q圖

圖2 例2的Q-Q圖

為評估第3節(jié)提出檢驗(yàn)過程的有效性，重復(fù)1 000次得到檢驗(yàn)統(tǒng)計(jì)量的功效曲線.圖3描繪了GLR檢驗(yàn)的功效曲線，拒絕率是根據(jù)顯著水平α=0.05在不同的樣本量下計(jì)算的，從圖3可以看出當(dāng)樣本量增大時(shí)檢驗(yàn)效果變好，這也說明了檢驗(yàn)過程是有效性.圖4描繪了固定樣本量n=100時(shí)施加不同模型誤差的情形，如圖所示，模型誤差時(shí)正態(tài)分布、卡方分布、學(xué)生t-分布的情形相似，但當(dāng)c離0較近時(shí)，均勻分布下的情形有所不同.例2的結(jié)論類似可得(圖5，6).

圖3 不同樣本量下例1的功效曲線

圖4 不同模型誤差下例1的功效曲線

圖5 不同樣本量下例2的功效曲線

圖6 不同模型誤差下例2的功效曲線

4 主要結(jié)論的假設(shè)和證明

最后在證明結(jié)論前，先介紹如下引理.

(ii)如果 U是超平滑誤差，X和 T獨(dú)立，(i)的結(jié)論對于 j=1，…，p仍然成立，但是

定理1的證明首先證明式(9).由

再由式(9)就得到了(ii)的第一個(gè)結(jié)論.

由引理2和引理3知

所以，在原假設(shè)成立即 H0∶Aβ-b=0時(shí)，可得.證畢.

定理5的證明證明方法和定理4的證明相同，此處省略.

［1］ENGLE R，GRANGER C，RICE J，et al.Nonparametric Estimates of the Relation Between Weather and Electricity Sales［J］.Journal of American Statistical Association，1986(81):310-320

［2］YOU J H，ZHOU Y，CHEN G M.Corrected Local Polynomial Estimation in Varying-coefficient Models with Measurement Errors［J］.The Canadian Journal of Statistics，2006(34):391-410

［3］LIAN H，H?RDLEW，CARROLL R J.Estimation in a Semiparametric Partially Linear Errors-in-variables Model［J］.The Annals of Statistics，1999(27):1519-1535

［4］CUI H J，LI R C.On Parameter Estimation for Semi-linear Errors-in-variable Models［J］.Journal of Multivariable Analysis，1998(64):1-24

［5］CUI H J.Estimation in Partial Linear EV Models with Replicated Observations［J］.Science China Mathematics，Series A.2004(34):467-482

［6］趙培信，周小雙.線性誤差協(xié)變量下部分線性模型的約束統(tǒng)計(jì)推斷［J］.山東大學(xué)學(xué)報(bào):理學(xué)版，2014，49(7):69-74

［7］YOU J H，XU Q F，ZHOU B.Statistical Inference for Partially Linear Regression Models with Measurement Errors［J］.Chinese Annals of Mathematics，Series B，2008(29):207-222

［8］LI G R，XUE L G.Empirical Likelihood Confidence Region for the Parameter in Partially Linear Errors-in-variables Model［J］.Communications in Statistics-Theory and Methods，2008(37):1552-1564

［9］WONG H，LIU F，CHEN M，et al.Empirical Likelihood Based Diagnostics for Heteroscedasticity in Partially Linear Errors-invariables Models［J］.Journal of Statistical Planning and Inference，2009(139):916-929

［10］LIU Q，XUE L G.Empirical Likelihood Confidence Regions of Parameters in Nonlinear EV Models under Missing Data［J］.Acta Mathematica Scientia，Chinese Series A，2012(32):233-245

［11］LIANGH.Asymptotic Normality of Parametric Part in Partially Linear Models with Measurement Errors in the Nonparametric Part［J］.Journal of Statistical Planning and Inference，2000(86):51-62

［12］HUANG Z S.Empirical Likelihood for the Parametric Part in Partially Linear Errors-in-function Models［J］.Statistics and Probability Letters，2012(82):63-66

［13］ZHU L X，CUI H J.A Semi-parametric Regression Model with Errors in Variables［J］.Board of the Foundation of the Scandinavian Journal of Statistics，2003(30):429-442

［14］RAO CR，TOUTENBURG H，SHALABH，et al.Linear Models and Generalizations:Least Squares and Alternatives［M］.Berlin:Springer，2008

［15］WEI C H.Statistical Inference for Restricted Partially Linear Varying Coeficient Errors-in-variables Models［J］.Journal of Statistical Planning and Inference，2012(142):2464-2472

［16］FAN J Q，TRUONG Y.Nonparametric Regression with Errors in Variables［J］.The Annals of Statistics，1993(21):1900-1925

［17］AMEMIYA T.Advanced Econometrics［M］.Boston:Harvard University Press，1985

［18］FAN J Q，HUANG T.Profile Likelihood Inferences on Semiparametric Varying-coefficient Partially Linear Models［J］.Bernoulli，2005(11):1031-1057

［19］CHEN X，CUI H J.Empirical Likelihood Inference for Parameters in a Partially Linear Errors-in-variables Model［J］.Statistics，2011(46):745-757

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡