張 文 佳
(南京理工大學(xué) 理學(xué)院,南京 210094)
作為非參數(shù)回歸模型的演化版本,許多學(xué)者已經(jīng)對(duì)其進(jìn)行過研究。為了充分利用已知數(shù)據(jù)中的有效信息,考慮半?yún)?shù)變系數(shù)部分非線性模型, 它可以定義為
Y=XTα(U)+g(Z,β)+ε
(1)
其中α(·)=(α1(·),α2(·),…,αp(·))T是一個(gè)p維未知變系數(shù)函數(shù),β=(β1,β2,…,βr)T是一個(gè)r維未知向量。Y是響應(yīng)變量,(X,Z)∈Rp×Rq及U∈R是協(xié)變量。為了避免維數(shù)禍根,一般簡(jiǎn)單假設(shè)U是單變量。ε是模型的隨機(jī)誤差且與協(xié)變量(X,Z,U)獨(dú)立,其期望和方差分別滿足E(ε|X,Z,U)=0,E(ε2|X,Z,U)=σ2。g(Z,β)是已知的非線性函數(shù),且Z和β不需要具有相同的維度。
變系數(shù)部分線性模型是最常見的半?yún)?shù)模型,被廣泛研究。ZHOU X和YOU J H[1],ZHAO P和XUE L G[2]及AHMAD I等[3]闡述了這種模型的許多經(jīng)典方法、例子和應(yīng)用。但在該模型中響應(yīng)變量Y和協(xié)變量Z之間的關(guān)系是線性的,這可能會(huì)增加模型估計(jì)過程中的誤差。因此,LI T Z和MEI C L[4]提出了變系數(shù)部分非線性模型。該模型包含許多其他重要的模型。例如,如果作為未知參數(shù)向量的α(·)≡α,或者p=1和X=1,則模型式(1)成為部分非線性模型。參見文獻(xiàn)[5],研究了帶有變量誤差的模型。若g(·;·)=0,則模型式(1)化為早期就開始研究的變系數(shù)模型,參見文獻(xiàn)[6-7],提出了一些基本的推斷方法。此外,當(dāng)模型式(1)中的g(Z,β)=ZTβ時(shí),即為變系數(shù)部分線性模型。因此,模型式(1)既有變系數(shù)模型的靈活性又有非線性模型的便于理解的特性。
目前的研究旨在用完整的數(shù)據(jù)集來估計(jì)模型式(1),然而在做觀測(cè)研究時(shí),研究中的一些變量值可能會(huì)丟失,因此完全數(shù)據(jù)集通常的推斷過程不能直接被應(yīng)用。許多作者在不同的回歸函數(shù)中研究了缺失數(shù)據(jù)的回歸分析。例如,ZHAO P X和XUE L G[8]研究了隨機(jī)缺失響應(yīng)變量的變系數(shù)部分線性模型的經(jīng)驗(yàn)似然估計(jì)。WANG Q H等[9]探討了缺失數(shù)據(jù)下的半?yún)?shù)回歸模型的估計(jì)。XU W L和GUO X[10]對(duì)響應(yīng)變量缺失下的變系數(shù)模型進(jìn)行了非參數(shù)檢驗(yàn)。牛翔宇和馮予[11]研究了數(shù)據(jù)缺失情況下廣義非線性回歸模型的統(tǒng)計(jì)診斷問題。
關(guān)于模型式(1),LI T Z和MEI C L[4]通過結(jié)合局部線性估計(jì)及剖面最小二乘估計(jì)的方法來估計(jì)未知系數(shù)函數(shù)α(·)和未知參數(shù)β。QIAN Y Y和HUANG Z S[12]討論了具有測(cè)量誤差的模型,并建立了一個(gè)GLR統(tǒng)計(jì)量來判斷α(·)是否是一個(gè)常數(shù)。本文提出了一種線性近似方法來估計(jì)隨機(jī)丟失響應(yīng)的模型式(1)的參數(shù)。通過樣條法將可變系數(shù)部分轉(zhuǎn)換為線性模型,并通過泰勒展開將非線性部分轉(zhuǎn)換為線性模型。最后,基于插補(bǔ)的思想得到估計(jì)方程,然后用牛頓迭代法回歸方程,得到α(·)和β的收斂估計(jì)。
因此有:
(2)
(3)
g(Z(i+1),β)+g(Z(i),β)}2
(4)
經(jīng)過第一步的轉(zhuǎn)換,模型化為變系數(shù)部分線性模型。令M階B樣條的基函數(shù)為B(u)=(B1(u),B2(u),…,BL(u))T,其中L=K+M,K是節(jié)點(diǎn)的數(shù)量。取αk(u)≈B(u)Tγk,k=1,2,…,p。當(dāng)Xi可以被完整觀測(cè)到時(shí),代入式(3),可以得到:
(5)
(6)
其中:
(7)
K(·)是一個(gè)核函數(shù),h是帶寬。
接下來研究得到估計(jì)量的漸近性質(zhì)。令α0(·)和β0是α(·)和β的真實(shí)值。為了不失一般性,假設(shè)αk0(·)=0,k=d+1,d+2,…,p,且αk0(·),k=1,2,…,d是α0(·)的所有非0部分。此外,假設(shè)βl0=0,l=s+1,s+2,…,q,且βl0,l=1,2,…,s是β0的所有非0部分。以下定理給出了估計(jì)量的一致性:
其中r在條件C1中定義。
從定理可以看出,通過選擇適當(dāng)?shù)恼{(diào)整參數(shù),估計(jì)過程是一致的,非參數(shù)分量的估計(jì)量就像真實(shí)零系數(shù)的子集一樣已經(jīng)達(dá)到最佳收斂速度,參見文獻(xiàn)[14]。
(7)
為方便起見,令C表示正數(shù),每次出現(xiàn)可表示不同的值。下面首先給出下列正則條件。
C1:α(u)在(0,1)上r次連續(xù)微分,其中r>1/2。
C2:U的密度函數(shù)由f(u)表示,它在[0,1]上是0到無窮大,此外,假設(shè)f(u)在(0,1)上是連續(xù)可微的。
C3:記G1(u)=E(ZZT|U=u),G2(u)=E(XXT|U=u)。因此對(duì)于u,G1(u),G2(u)及,E(ε|U=u)是連續(xù)的。此外,對(duì)于給定的u,G1(u)和G2(u)是正定矩陣,且它們的和的特征值是有界的。
C4:定義τ1,τ2,…,τK為[0,1]的內(nèi)部節(jié)點(diǎn)。取τ0=0,τK+1=1,hi=τi-τi-1,則存在一個(gè)常數(shù)C0滿足:
這些條件在非參數(shù)的文獻(xiàn)中很常見。 條件C4意味著τ1,τ2,…,τK按順序均勻分割[0,1]。 這些條件類似于文獻(xiàn)[2]中使用的條件。
為了證明結(jié)論,首先需要證明給任意的ε>0,存在一個(gè)足夠大的常數(shù)C使:
(8)
此外可以證明:
其中R(u)=(R1(u),R2(u),…,Rp(u))T,且Rk(u)=αk(u)-B(u)Tγk,k=1,2,…,p。由條件C1,C4及文獻(xiàn)[15]的推論6.21,有‖Rk(u)‖=O(K-r)。因此由φi(γ,β)的定義式可得:
=I11+I12+I13+I14
由條件C3,并經(jīng)過簡(jiǎn)單的化簡(jiǎn)可得:
=OP(τnK-1-r)‖T‖=OP(‖T‖)
因此得到:
I13=OP(τ2nK-1)‖T‖2=OP(‖T‖2),
(2)由上一部分的證明可得:
綜上所述,命題得證。
數(shù)據(jù)由半?yún)?shù)回歸模型式(1)生成:Y=XTα(U)+g(Z,β)+ε,其中g(shù)(Z,β)=3(ZTβ)2,β=1.3及α(U)=(4U)3-eU+10.8,協(xié)變量X~N(1,1),協(xié)變量Z和U分別服從平均值為-2,方差為2的正態(tài)分布,及均勻分布U(0,1)。ε是正態(tài)分布N(0,0.5)的模型誤差。 樣本大小n設(shè)置為100和300。本文對(duì)不同大小的樣本分別運(yùn)用了3組缺失概率,通過模擬的情況,來驗(yàn)證提出的估計(jì)方法。
首先對(duì)不同樣本大小的數(shù)據(jù)進(jìn)行模擬,然后在兩種樣本容量中對(duì)具有不同缺失率的數(shù)據(jù)進(jìn)行模擬,為了更清楚地觀察α(·)的模擬,將缺失數(shù)據(jù)下的3組擬合曲線、完整數(shù)據(jù)下獲得的擬合曲線及其對(duì)應(yīng)的實(shí)際曲線放在一張圖中作對(duì)比(見圖1)。
從圖1可以看出,樣本容量的大小對(duì)擬合精度有顯著的影響。隨著樣本量的增加,擬合過程中數(shù)據(jù)缺失的偏差和影響減小。 此外,估計(jì)量的準(zhǔn)確性隨著缺失率的增加而降低。 模擬結(jié)果報(bào)告在表1中。
可以看出,隨著U的變化,當(dāng)α(U)的值在較小的范圍內(nèi)變化時(shí),數(shù)據(jù)的浮動(dòng)對(duì)估計(jì)結(jié)果有很大的影響; 相反,估計(jì)曲線將相對(duì)準(zhǔn)確。且基于上述結(jié)果,可以知道數(shù)據(jù)缺失的概率越大,得到的數(shù)據(jù)分散度越大。此外,可以看到,β的估計(jì)比α(·)部分更準(zhǔn)確。 隨著樣本量增加,缺失率的降低,準(zhǔn)確率提高。
(a)a1缺失10%的數(shù)據(jù)及擬合曲線 (b)a2缺失20%的數(shù)據(jù)及擬合曲線 (c)a3缺失30%的數(shù)據(jù)及擬合曲線 (d)a4擬合曲線合并
(e)b1缺失10%的數(shù)據(jù)及擬合曲線 (f)b2缺失20%的數(shù) (g)b3缺失10%的數(shù)據(jù)及據(jù)及擬合曲線 (h)b4擬合曲線合擬合曲線
圖1樣本量分別為100(ai)和300(bi)時(shí)不同缺失率下的擬合曲線
Fig.1Thefittingcurvesofthesampleswith100(ai)and300(bi),respectively
注:a4、b4中實(shí)線代表真實(shí)曲線,虛線代表在完整數(shù)據(jù)下的擬合,點(diǎn)線、點(diǎn)劃線和長(zhǎng)虛線是對(duì)缺失率分別為10%、20%、30%的數(shù)據(jù)下進(jìn)行擬合的曲線。
表1 在不同樣本容量與不同缺失率下β與γ的估計(jì)值
基于變系數(shù)部分非線性回歸模型,首先,結(jié)合了非線性最小二乘與插補(bǔ)的方法,給出了β的初始估計(jì);其次,運(yùn)用泰勒展開與樣條估計(jì),將函數(shù)g(·)與X的變系數(shù)分別化為β與x的線性模型;然后,用插補(bǔ)的思想,結(jié)合文獻(xiàn)[8],運(yùn)用牛頓迭代的方法對(duì)感興趣的參數(shù)進(jìn)行估計(jì)。將線性近似方法與隨機(jī)缺失響應(yīng)變量的變系數(shù)部分非線性模型的樣條估計(jì)方程相結(jié)合,可以解決更復(fù)雜的模型且便于理解并且操作簡(jiǎn)單,得到了估計(jì)量較好的漸進(jìn)性質(zhì)。模擬的兩組結(jié)果顯示了方法具有良好的回歸結(jié)果,兩個(gè)步驟在有限樣本中表現(xiàn)良好,并隨著樣本數(shù)據(jù)量的增加及缺失率的降低,估計(jì)的精確性提高。
參考文獻(xiàn)(References):
[1] ZHOU X,YOU J H. Wavelet Estimation in Varying-coeffcient Partially Linear Regression Models[J].Statistics and Probability Letters,2004,68(1):91-104
[2] ZHAO P,XUE L G. Variable Selection for Semiparametric Varying-coefficient Partially Linear Models with Missing Response at Random[J].Acta Mathematica Sinica (English Series), 2011, 27(11):2205-2216
[3] AHMAD I,LEELAHANON S,LI Q. Efficient Estimation of a Semiparametric Partially Linear Varying Coefficient Model[J].Institute of Mathematical Statistics in the Annals of Statistics, 2005, 33(1):258-283
[4] LI T Z,MEI C L. Estimation and Inference for Varying-coefficient Partially Nonlinear Models[J]. Journal of Statistical Planning and Inference, 2013, 143 (11):2023-2037
[5] FENG S Y,LI G R,ZHANG J H. Efficient Statistical Inference for Partially Nonlinear Errors-in-variables Models[J].Acta Mathematica Sinica(English Series), 2014, 30(9):1606-1620
[6] FAN J Q,ZHANG W Y. Statistical Estimation in Varying-coefficient Models[J].The Annals of Statistics, 1999, 27(5):1491-1518
[7] CAI Z W,F(xiàn)AN J Q,LI R Z. Effcient Estimation and Inferences for Varying-coefficient Models[J].Journal of the American Statistical Association, 2000, 95(451):888-902
[8] ZHAO P X, XUE L G. Empirical Likelihood Inferences for Semiparametric Varying -coefficient Partially Linear Models with Missing Responses at Random[J].Chinese Journal of Engineering Mathematics, 2010, 27(5):771-780
[10] XU W L, GUO X. Nonparametric Checks for Varying Coefficient Models with Missing Response at Random[J].Metrika, 2016, 76(4):459-482
[11] 牛翔宇,馮予.缺失數(shù)據(jù)下廣義非線性回歸的經(jīng)驗(yàn)似然及診斷[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(6):15-21
NIU X Y,F(xiàn)ENG Y. Empirical Likelihood and Diagnosis of Generalized Nonlinear Regression under Data Missing[J]. Journal of Chongqing Technology and Business University(Naturnal Science Edition), 2016,33(6):15-21
[12] QIAN Y Y,HUANG Z S. Statistical Inference for a Varying-coefficient Partially Nonlinear Model with Measurement Errors[J].Statistical Methodology, 2016, 103(483):1187-1199
[13] YATCHEW A. An Elementary Estimator of the Partial Linear Model[J].Econometric Letters, 1997, 57(2): 135-143
[14] TANG Q G,CHENG L S. M-estimation and B-spline Approximation for Varying-coeffic-ient Models with Longitudinal Data[J].Journal of Nonparametric Statistics, 2008, 20(7): 611-625
[15] SCHUMAKER L L. Spline Functions[M].New York: Wiley, 1981
[16] LI R Z, NIE L. Efficient Statistical Inference Procedures for Partially Nonlinear Models and Their Applications[J].International Biometric Society, 2008, 64(3): 904-911