隨機(jī)丟失響應(yīng)的半?yún)?shù)變系數(shù)部分非線性模型的估計(jì)*

2018-07-10 01:02張文佳

重慶工商大學(xué)學(xué)報(bào)（自然科學(xué)版） 2018年4期

關(guān)鍵詞：估計(jì)量樣條線性

張文佳

(南京理工大學(xué) 理學(xué)院，南京 210094)

0 引言

作為非參數(shù)回歸模型的演化版本，許多學(xué)者已經(jīng)對(duì)其進(jìn)行過研究。為了充分利用已知數(shù)據(jù)中的有效信息，考慮半?yún)?shù)變系數(shù)部分非線性模型，它可以定義為

Y=XTα(U)+g(Z，β)+ε

(1)

其中α(·)=(α1(·)，α2(·)，…，αp(·))T是一個(gè)p維未知變系數(shù)函數(shù)，β=(β1，β2，…，βr)T是一個(gè)r維未知向量。Y是響應(yīng)變量，(X，Z)∈Rp×Rq及U∈R是協(xié)變量。為了避免維數(shù)禍根，一般簡(jiǎn)單假設(shè)U是單變量。ε是模型的隨機(jī)誤差且與協(xié)變量(X，Z，U)獨(dú)立，其期望和方差分別滿足E(ε|X，Z，U)=0，E(ε2|X，Z，U)=σ2。g(Z，β)是已知的非線性函數(shù)，且Z和β不需要具有相同的維度。

變系數(shù)部分線性模型是最常見的半?yún)?shù)模型，被廣泛研究。ZHOU X和YOU J H[1]，ZHAO P和XUE L G[2]及AHMAD I等[3]闡述了這種模型的許多經(jīng)典方法、例子和應(yīng)用。但在該模型中響應(yīng)變量Y和協(xié)變量Z之間的關(guān)系是線性的，這可能會(huì)增加模型估計(jì)過程中的誤差。因此，LI T Z和MEI C L[4]提出了變系數(shù)部分非線性模型。該模型包含許多其他重要的模型。例如，如果作為未知參數(shù)向量的α(·)≡α，或者p=1和X=1，則模型式(1)成為部分非線性模型。參見文獻(xiàn)[5]，研究了帶有變量誤差的模型。若g(·；·)=0，則模型式(1)化為早期就開始研究的變系數(shù)模型，參見文獻(xiàn)[6-7]，提出了一些基本的推斷方法。此外，當(dāng)模型式(1)中的g(Z，β)=ZTβ時(shí)，即為變系數(shù)部分線性模型。因此，模型式(1)既有變系數(shù)模型的靈活性又有非線性模型的便于理解的特性。

目前的研究旨在用完整的數(shù)據(jù)集來估計(jì)模型式(1)，然而在做觀測(cè)研究時(shí)，研究中的一些變量值可能會(huì)丟失，因此完全數(shù)據(jù)集通常的推斷過程不能直接被應(yīng)用。許多作者在不同的回歸函數(shù)中研究了缺失數(shù)據(jù)的回歸分析。例如，ZHAO P X和XUE L G[8]研究了隨機(jī)缺失響應(yīng)變量的變系數(shù)部分線性模型的經(jīng)驗(yàn)似然估計(jì)。WANG Q H等[9]探討了缺失數(shù)據(jù)下的半?yún)?shù)回歸模型的估計(jì)。XU W L和GUO X[10]對(duì)響應(yīng)變量缺失下的變系數(shù)模型進(jìn)行了非參數(shù)檢驗(yàn)。牛翔宇和馮予[11]研究了數(shù)據(jù)缺失情況下廣義非線性回歸模型的統(tǒng)計(jì)診斷問題。

關(guān)于模型式(1)，LI T Z和MEI C L[4]通過結(jié)合局部線性估計(jì)及剖面最小二乘估計(jì)的方法來估計(jì)未知系數(shù)函數(shù)α(·)和未知參數(shù)β。QIAN Y Y和HUANG Z S[12]討論了具有測(cè)量誤差的模型，并建立了一個(gè)GLR統(tǒng)計(jì)量來判斷α(·)是否是一個(gè)常數(shù)。本文提出了一種線性近似方法來估計(jì)隨機(jī)丟失響應(yīng)的模型式(1)的參數(shù)。通過樣條法將可變系數(shù)部分轉(zhuǎn)換為線性模型，并通過泰勒展開將非線性部分轉(zhuǎn)換為線性模型。最后，基于插補(bǔ)的思想得到估計(jì)方程，然后用牛頓迭代法回歸方程，得到α(·)和β的收斂估計(jì)。

1 估計(jì)過程

因此有：

(2)

1.1 線性近似

(3)

g(Z(i+1)，β)+g(Z(i)，β)}2

(4)

1.2 樣條估計(jì)

經(jīng)過第一步的轉(zhuǎn)換，模型化為變系數(shù)部分線性模型。令M階B樣條的基函數(shù)為B(u)=(B1(u)，B2(u)，…，BL(u))T，其中L=K+M，K是節(jié)點(diǎn)的數(shù)量。取αk(u)≈B(u)Tγk，k=1，2，…，p。當(dāng)Xi可以被完整觀測(cè)到時(shí)，代入式(3)，可以得到：

(5)

(6)

其中：

(7)

K(·)是一個(gè)核函數(shù)，h是帶寬。

接下來研究得到估計(jì)量的漸近性質(zhì)。令α0(·)和β0是α(·)和β的真實(shí)值。為了不失一般性，假設(shè)αk0(·)=0，k=d+1，d+2，…，p，且αk0(·)，k=1，2，…，d是α0(·)的所有非0部分。此外，假設(shè)βl0=0，l=s+1，s+2，…，q，且βl0，l=1，2，…，s是β0的所有非0部分。以下定理給出了估計(jì)量的一致性：

其中r在條件C1中定義。

從定理可以看出，通過選擇適當(dāng)?shù)恼{(diào)整參數(shù)，估計(jì)過程是一致的，非參數(shù)分量的估計(jì)量就像真實(shí)零系數(shù)的子集一樣已經(jīng)達(dá)到最佳收斂速度，參見文獻(xiàn)[14]。

(7)

2 定理證明

為方便起見，令C表示正數(shù)，每次出現(xiàn)可表示不同的值。下面首先給出下列正則條件。

C1：α(u)在(0，1)上r次連續(xù)微分，其中r>1/2。

C2：U的密度函數(shù)由f(u)表示，它在[0，1]上是0到無窮大，此外，假設(shè)f(u)在(0，1)上是連續(xù)可微的。

C3：記G1(u)=E(ZZT|U=u)，G2(u)=E(XXT|U=u)。因此對(duì)于u，G1(u)，G2(u)及，E(ε|U=u)是連續(xù)的。此外，對(duì)于給定的u，G1(u)和G2(u)是正定矩陣，且它們的和的特征值是有界的。

C4：定義τ1，τ2，…，τK為[0，1]的內(nèi)部節(jié)點(diǎn)。取τ0=0，τK+1=1，hi=τi-τi-1，則存在一個(gè)常數(shù)C0滿足：

這些條件在非參數(shù)的文獻(xiàn)中很常見。條件C4意味著τ1，τ2，…，τK按順序均勻分割[0，1]。這些條件類似于文獻(xiàn)[2]中使用的條件。

為了證明結(jié)論，首先需要證明給任意的ε>0，存在一個(gè)足夠大的常數(shù)C使：

(8)

此外可以證明：

其中R(u)=(R1(u)，R2(u)，…，Rp(u))T，且Rk(u)=αk(u)-B(u)Tγk，k=1，2，…，p。由條件C1，C4及文獻(xiàn)[15]的推論6.21，有‖Rk(u)‖=O(K-r)。因此由φi(γ，β)的定義式可得：

=I11+I12+I13+I14

由條件C3，并經(jīng)過簡(jiǎn)單的化簡(jiǎn)可得：

=OP(τnK-1-r)‖T‖=OP(‖T‖)

因此得到：

I13=OP(τ2nK-1)‖T‖2=OP(‖T‖2)，

(2)由上一部分的證明可得：

綜上所述，命題得證。

3 數(shù)值模擬

數(shù)據(jù)由半?yún)?shù)回歸模型式(1)生成：Y=XTα(U)+g(Z，β)+ε，其中g(shù)(Z，β)=3(ZTβ)2，β=1.3及α(U)=(4U)3-eU+10.8，協(xié)變量X～N(1，1)，協(xié)變量Z和U分別服從平均值為-2，方差為2的正態(tài)分布，及均勻分布U(0，1)。ε是正態(tài)分布N(0，0.5)的模型誤差。樣本大小n設(shè)置為100和300。本文對(duì)不同大小的樣本分別運(yùn)用了3組缺失概率，通過模擬的情況，來驗(yàn)證提出的估計(jì)方法。

首先對(duì)不同樣本大小的數(shù)據(jù)進(jìn)行模擬，然后在兩種樣本容量中對(duì)具有不同缺失率的數(shù)據(jù)進(jìn)行模擬，為了更清楚地觀察α(·)的模擬，將缺失數(shù)據(jù)下的3組擬合曲線、完整數(shù)據(jù)下獲得的擬合曲線及其對(duì)應(yīng)的實(shí)際曲線放在一張圖中作對(duì)比(見圖1)。

從圖1可以看出，樣本容量的大小對(duì)擬合精度有顯著的影響。隨著樣本量的增加，擬合過程中數(shù)據(jù)缺失的偏差和影響減小。此外，估計(jì)量的準(zhǔn)確性隨著缺失率的增加而降低。模擬結(jié)果報(bào)告在表1中。

可以看出，隨著U的變化，當(dāng)α(U)的值在較小的范圍內(nèi)變化時(shí)，數(shù)據(jù)的浮動(dòng)對(duì)估計(jì)結(jié)果有很大的影響；相反，估計(jì)曲線將相對(duì)準(zhǔn)確。且基于上述結(jié)果，可以知道數(shù)據(jù)缺失的概率越大，得到的數(shù)據(jù)分散度越大。此外，可以看到，β的估計(jì)比α(·)部分更準(zhǔn)確。隨著樣本量增加，缺失率的降低，準(zhǔn)確率提高。

(a)a1缺失10%的數(shù)據(jù)及擬合曲線 (b)a2缺失20%的數(shù)據(jù)及擬合曲線 (c)a3缺失30%的數(shù)據(jù)及擬合曲線 (d)a4擬合曲線合并

(e)b1缺失10%的數(shù)據(jù)及擬合曲線 (f)b2缺失20%的數(shù) (g)b3缺失10%的數(shù)據(jù)及據(jù)及擬合曲線 (h)b4擬合曲線合擬合曲線

圖1樣本量分別為100(ai)和300(bi)時(shí)不同缺失率下的擬合曲線

Fig.1Thefittingcurvesofthesampleswith100(ai)and300(bi)，respectively

注：a4、b4中實(shí)線代表真實(shí)曲線，虛線代表在完整數(shù)據(jù)下的擬合，點(diǎn)線、點(diǎn)劃線和長(zhǎng)虛線是對(duì)缺失率分別為10%、20%、30%的數(shù)據(jù)下進(jìn)行擬合的曲線。

表1 在不同樣本容量與不同缺失率下β與γ的估計(jì)值

4 結(jié) 論

基于變系數(shù)部分非線性回歸模型，首先，結(jié)合了非線性最小二乘與插補(bǔ)的方法，給出了β的初始估計(jì)；其次，運(yùn)用泰勒展開與樣條估計(jì)，將函數(shù)g(·)與X的變系數(shù)分別化為β與x的線性模型；然后，用插補(bǔ)的思想，結(jié)合文獻(xiàn)[8]，運(yùn)用牛頓迭代的方法對(duì)感興趣的參數(shù)進(jìn)行估計(jì)。將線性近似方法與隨機(jī)缺失響應(yīng)變量的變系數(shù)部分非線性模型的樣條估計(jì)方程相結(jié)合，可以解決更復(fù)雜的模型且便于理解并且操作簡(jiǎn)單，得到了估計(jì)量較好的漸進(jìn)性質(zhì)。模擬的兩組結(jié)果顯示了方法具有良好的回歸結(jié)果，兩個(gè)步驟在有限樣本中表現(xiàn)良好，并隨著樣本數(shù)據(jù)量的增加及缺失率的降低，估計(jì)的精確性提高。

參考文獻(xiàn)(References)：

[1] ZHOU X，YOU J H. Wavelet Estimation in Varying-coeffcient Partially Linear Regression Models[J].Statistics and Probability Letters，2004，68(1)：91-104

[2] ZHAO P，XUE L G. Variable Selection for Semiparametric Varying-coefficient Partially Linear Models with Missing Response at Random[J].Acta Mathematica Sinica (English Series)， 2011， 27(11)：2205-2216

[3] AHMAD I，LEELAHANON S，LI Q. Efficient Estimation of a Semiparametric Partially Linear Varying Coefficient Model[J].Institute of Mathematical Statistics in the Annals of Statistics， 2005， 33(1)：258-283

[4] LI T Z，MEI C L. Estimation and Inference for Varying-coefficient Partially Nonlinear Models[J]. Journal of Statistical Planning and Inference， 2013， 143 (11)：2023-2037

[5] FENG S Y，LI G R，ZHANG J H. Efficient Statistical Inference for Partially Nonlinear Errors-in-variables Models[J].Acta Mathematica Sinica(English Series)， 2014， 30(9)：1606-1620

[6] FAN J Q，ZHANG W Y. Statistical Estimation in Varying-coefficient Models[J].The Annals of Statistics， 1999， 27(5)：1491-1518

[7] CAI Z W，F(xiàn)AN J Q，LI R Z. Effcient Estimation and Inferences for Varying-coefficient Models[J].Journal of the American Statistical Association， 2000， 95(451)：888-902

[8] ZHAO P X， XUE L G. Empirical Likelihood Inferences for Semiparametric Varying -coefficient Partially Linear Models with Missing Responses at Random[J].Chinese Journal of Engineering Mathematics， 2010， 27(5)：771-780

[10] XU W L， GUO X. Nonparametric Checks for Varying Coefficient Models with Missing Response at Random[J].Metrika， 2016， 76(4)：459-482

[11] 牛翔宇，馮予.缺失數(shù)據(jù)下廣義非線性回歸的經(jīng)驗(yàn)似然及診斷[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版)，2016，33(6)：15-21

NIU X Y，F(xiàn)ENG Y. Empirical Likelihood and Diagnosis of Generalized Nonlinear Regression under Data Missing[J]. Journal of Chongqing Technology and Business University(Naturnal Science Edition)， 2016，33(6)：15-21

[12] QIAN Y Y，HUANG Z S. Statistical Inference for a Varying-coefficient Partially Nonlinear Model with Measurement Errors[J].Statistical Methodology， 2016， 103(483)：1187-1199

[13] YATCHEW A. An Elementary Estimator of the Partial Linear Model[J].Econometric Letters， 1997， 57(2)： 135-143

[14] TANG Q G，CHENG L S. M-estimation and B-spline Approximation for Varying-coeffic-ient Models with Longitudinal Data[J].Journal of Nonparametric Statistics， 2008， 20(7)： 611-625

[15] SCHUMAKER L L. Spline Functions[M].New York： Wiley， 1981

[16] LI R Z， NIE L. Efficient Statistical Inference Procedures for Partially Nonlinear Models and Their Applications[J].International Biometric Society， 2008， 64(3)： 904-911

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡