黃婉娟,羅雙華,張成毅
(1.西安工程大學(xué) 理學(xué)院,陜西 西安 710048;2.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安 710049)
在科學(xué)研究領(lǐng)域,常常由于一些抽樣個(gè)體不愿意提供所需信息,以及一些不可控的因素或調(diào)研人員本身原因,造成收集的數(shù)據(jù)缺失。因此,在進(jìn)行統(tǒng)計(jì)分析時(shí)經(jīng)常會(huì)遇到帶有缺失數(shù)據(jù)的回歸模型,尤其是生物領(lǐng)域和社會(huì)科學(xué)領(lǐng)域。針對(duì)缺失數(shù)據(jù)的研究已有很多[1-4]。在統(tǒng)計(jì)分析缺失數(shù)據(jù)的回歸模型時(shí),通常假設(shè)數(shù)據(jù)隨機(jī)缺失,普遍使用逆概率加權(quán)的方法:ROBINS提出使用逆概率加權(quán)的方法去對(duì)協(xié)變量缺失的回歸模型進(jìn)行參數(shù)估計(jì)[5];WANG等提出對(duì)協(xié)變量隨機(jī)缺失的廣義線性模型使用局部逆概率加權(quán)方法[6];LIANG等考慮對(duì)協(xié)變量缺失的部分線性模型使用逆概率加權(quán)方法進(jìn)行參數(shù)估計(jì)[7];SHEN等基于響應(yīng)數(shù)據(jù)缺失下的線性回歸模型,使用逆概率加權(quán)方法進(jìn)行參數(shù)估計(jì)[8]。
許多加權(quán)估計(jì)方法是基于最小二乘法展開(kāi)研究的。由于最小二乘法的模型誤差具有重尾或偏斜分布時(shí)可能會(huì)產(chǎn)生不可靠的估計(jì),所以對(duì)于數(shù)據(jù)隨機(jī)缺失的回歸模型,最小二乘法估計(jì)的有效性和穩(wěn)健性仍面臨巨大挑戰(zhàn)。與僅依賴數(shù)據(jù)中心趨勢(shì)的均值回歸方法相比,KOENKER和BASSETT提出的分位數(shù)回歸對(duì)異常值不太敏感,因而更穩(wěn)健。于是,SHERWOOD等提出了缺失協(xié)變量的逆概率加權(quán)分位數(shù)回歸模型[9];TANG等針對(duì)數(shù)據(jù)隨機(jī)缺失的線性回歸模型,考慮將分位數(shù)信息與最小二乘相結(jié)合以提高估計(jì)效率[10];CHEN等研究了在獨(dú)立非同分布誤差下觀測(cè)值隨機(jī)缺失的分位數(shù)回歸模型的參數(shù)估計(jì)問(wèn)題[11];YANG等基于分位數(shù)回歸方法研究了變系數(shù)部分非線性模型的統(tǒng)計(jì)推斷問(wèn)題[12]。
盡管分位數(shù)回歸有諸多的優(yōu)良性能,但是利用分位數(shù)回歸對(duì)實(shí)際問(wèn)題進(jìn)行預(yù)測(cè)時(shí),因部分預(yù)測(cè)值可能存在尾部過(guò)于左偏或右偏的情況,而導(dǎo)致分位點(diǎn)的選取難以抉擇,影響模型估計(jì)效率。因此,學(xué)者們認(rèn)為它不是最小二乘的可靠替代。為了克服這個(gè)缺點(diǎn),ZOU等提出了針對(duì)線性模型的復(fù)合分位數(shù)回歸估計(jì)[13];隨后,文獻(xiàn)[14-15]指出不同的分位數(shù)可能承載實(shí)質(zhì)上不同的信息量,適當(dāng)?shù)亟M合不同的分位數(shù)信息對(duì)增加估計(jì)效率至關(guān)重要,且復(fù)合分位數(shù)回歸相對(duì)于經(jīng)典最小二乘回歸,具有抗重尾誤差和高效率的優(yōu)點(diǎn);ZHAO等通過(guò)最佳組合分位數(shù)信息對(duì)回歸模型進(jìn)行參數(shù)估計(jì),所提出的方法可應(yīng)用于廣泛的參數(shù)和非參數(shù)估計(jì)[14];SUN等研究了一般誤差分布情況下的加權(quán)局部線性復(fù)合分位數(shù)回歸估計(jì)[15];NING等運(yùn)用復(fù)合分位數(shù)回歸研究了協(xié)變量隨機(jī)缺失的一般化線性模型[16];YANG等針對(duì)異方差變系數(shù)模型,運(yùn)用加權(quán)復(fù)合分位數(shù)回歸估計(jì)和變量選擇進(jìn)行統(tǒng)計(jì)研究[17];JIANG等研究了隨機(jī)截尾數(shù)據(jù)下的復(fù)合分位數(shù)回歸[18];KAI等基于復(fù)合分位數(shù)回歸提出了半?yún)?shù)變系數(shù)部分線性模型的系數(shù)的有效估計(jì)量[19];TANG等研究了隨機(jī)刪失數(shù)據(jù)的線性模型的加權(quán)復(fù)合分位數(shù)回歸估計(jì)[20];TANG等考慮了具有缺失協(xié)變量的變系數(shù)模型的復(fù)合分位數(shù)回歸估計(jì)和推斷,即當(dāng)選擇概率已知,非參數(shù)估計(jì)或參數(shù)估計(jì)時(shí),提出未知系數(shù)函數(shù)的加權(quán)局部線性估計(jì)[21];YANG等提出了協(xié)變量隨機(jī)缺失的線性模型的懲罰加權(quán)復(fù)合分位數(shù)回歸估計(jì)[22];JIN等提出了缺失協(xié)變量的部分線性變系數(shù)模型的懲罰加權(quán)復(fù)合分位數(shù)回歸[23]。上述研究表明,復(fù)合分位數(shù)回歸方法可以顯著提高估計(jì)的相對(duì)效率。
基于以上研究且受到復(fù)合分位數(shù)回歸方法良好性能的啟發(fā),本文擬考慮使用逆概率加權(quán)復(fù)合分位數(shù)回歸方法研究響應(yīng)數(shù)據(jù)缺失的模型,主要考慮如下一般線性模型:
Y=φT(X)β+ε
(1)
式中:Y∈R是響應(yīng)變量;φ(·)為已知的p×1向量函數(shù);β=(β1,β2,…,βp)T為p×1維未知參數(shù)向量;ε為隨機(jī)誤差且滿足P(εi 假設(shè){(Yi,Xi,δi),i=1,2,…,n}是模型的一組獨(dú)立同分布的不完全隨機(jī)樣本。當(dāng)δi=1時(shí),Yi有觀測(cè)值;當(dāng)δi=0時(shí),Yi缺失,隨機(jī)缺失機(jī)制如下: (2) 其中,稱π(x)=P(δ=1|X=x)為選擇概率函數(shù)。 ρτk(Yi-ak-φT(Xi)β) 式中:ρτ(u)=u(τ-I(u<0))為分位數(shù)回歸的損失函數(shù),其中I(·)為示性函數(shù);π(·)為選擇概率函數(shù),見(jiàn)式(2)。 (3) ρτk(Yi-ak-φT(Xi)β) 然而,當(dāng)式(3)中X的維數(shù)太高時(shí),非參數(shù)光滑估計(jì)π(·)將面臨維數(shù)災(zāi)難, 此時(shí)使用參數(shù)模型估計(jì)π(·)更適用。令π(x)=π(x,γ),隨機(jī)缺失機(jī)制被定義為 假設(shè) π(x,γ)=(1+exp(γ0+xTγ*))-1 首先給出定理所需要的一些正則化條件: C2)矩陣D,Ω,Λ,Σ都是正定且有限的; C4)核函數(shù)K(·)是一個(gè)具有緊支撐的有界對(duì)稱密度函數(shù); 定理1假設(shè)選擇概率π(x)是已知的,當(dāng)條件C1)~C5)成立時(shí),有 定理2假設(shè)選擇概率π(x)≥c>0是關(guān)于x的光滑函數(shù),當(dāng)條件C1)~C5)成立時(shí),有 式中: 定理3假設(shè)選擇概率π(x,γ)含有一個(gè)未知參數(shù)γ,當(dāng)條件C1)~C3)、C6)成立時(shí),有 式中: 其中 于是 [ρτk(εi-ak-n-1/2(vk+φT(Xi)u))- ρτk(εi-ak)] 根據(jù)文獻(xiàn)[24]中定理1的公式,?s≠0,有 ρτ(s-y)-ρτ(s)=y(I(s<0)-τ)+ 其中 定義 ?ε>0,有 類似文獻(xiàn)[20],容易證明 由于 于是 其中 E[f(ak|Xi)φ(Xi)φT(Xi)] 于是 其中D=D1+D2+…+Dq。 又因?yàn)?/p> var(Zn,k)=E[(Zn,k)2]-[E(Zn,k)]2= var(Wn)=E[(Wn)2]-[E(Wn)]2= 根據(jù)中心極限定理,于是有 根據(jù)文獻(xiàn)[24]中引理2和文獻(xiàn)[25],于是 其中 I(εi≤ak)]dt 注意到 其中 類似文獻(xiàn)[26]中定理3的證明,且在條件C3)~C5)下,有 由于 因此 于是 類似定理1的證明,于是有 其中 又根據(jù)條件C6)并令Γi=(1,Xi),可得 其中π′(Xi,γ)=gradγπ(Xi,γ)。于是 其中π′(Xi,γ)=π(Xi,γ)(1-π(Xi,γ))Γi, (δi-π(Xi,γ))Λ-2+οp(1) 其中 因此 (δi-π(Xi,γ))Λ-2+οp(1) 類似于文獻(xiàn)[9]中引理1的第二步,容易得到 類似定理1的證明,于是有 通過(guò)數(shù)值模擬驗(yàn)證所提出方法的有限樣本性。在模擬實(shí)驗(yàn)中,核函數(shù)為 K(t)=0.75(1-t2)I(|t|≤1) 復(fù)合水平q=9,樣本容量n=100,重復(fù)實(shí)驗(yàn)200次,利用交叉確認(rèn)法選擇最優(yōu)窗寬hopt。 例1為比較WCQR(加權(quán)復(fù)合分位數(shù)回歸估計(jì)), WLS(加權(quán)最小二乘回歸估計(jì))和WLAD(加權(quán)中位數(shù)回歸估計(jì))的估計(jì)效果, 現(xiàn)考慮如下模型: y=β1x1+β2x2+0.5ε π(x)=(1+exp(γ0+γ1x1+γ2x2))-1 式中:β1=2,β2=3;(x1,x2)是均值為0,方差為1,相關(guān)系數(shù)為0.5的二維變量。選擇不同的γ=(γ0,γ1,γ2)分別為 (2,-1,0),(2,0,-2),(1,-2,-2) 實(shí)現(xiàn)3種缺失比分別為15%、30%、45%;且考慮4種隨機(jī)誤差ε分布分別為N(0,1),t(3),F(4,6),Ca[-2,2],其中Ca[·,·]為柯西分布。 表1為3種加權(quán)回歸估計(jì)方法計(jì)算出參數(shù)β的均值和均方誤差結(jié)果。 表 1 3種加權(quán)回歸估計(jì)方法下參數(shù)β的均值和均方誤差 由表1可以看出: 1)當(dāng)模型誤差是正態(tài)分布時(shí),WCQR和WLS的估計(jì)效果相似,并且略好于WLAD; 2)WCQR在各種誤差分布之下都表現(xiàn)良好,且在同一誤差分布下,均方誤差隨缺失概率的增加而增加,而且較之WLS和WLAD,WCQR有更小的均方誤差。 例2在相同缺失概率下,比較3種加權(quán)復(fù)合分位數(shù)回歸估計(jì)的優(yōu)越性,考慮如下模型: y=β1x1+β2x2+0.5ε π(x)=(1+exp(γ0+γ1x1+γ2x2))-1 式中:β1=2,β2=3;(x1,x2)是均值為0,方差為1,相關(guān)系數(shù)為0.5的二維變量。當(dāng)γ=(γ0,γ1,γ2)=(2,0,-2),缺失比大約為30%;且考慮4種隨機(jī)誤差ε的分布分別為N(0,1),t(3),F(4,6),Ca[-2,2]。 表2為相同缺失概率下的3種加權(quán)復(fù)合分位數(shù)回歸估計(jì)在4種誤差分布下的參數(shù)估計(jì)結(jié)果。 表 2 相同缺失概率下的3種加權(quán)復(fù)合分位數(shù)回歸估計(jì) 由表2可以看出: 1)在缺失概率相同的條件下,加權(quán)復(fù)合分位數(shù)回歸估計(jì)方法在各種誤差分布情況下的估計(jì)效果都較好; 因此,在小樣本中,使用估計(jì)的權(quán)重進(jìn)行加權(quán)復(fù)合分位數(shù)回歸估計(jì)優(yōu)于使用真實(shí)的權(quán)重進(jìn)行加權(quán)復(fù)合分位數(shù)回歸估計(jì),且非參數(shù)估計(jì)略優(yōu)于參數(shù)估計(jì)。 本文利用逆概率加權(quán)法給出了響應(yīng)數(shù)據(jù)缺失下一般線性復(fù)合分位數(shù)回歸模型的3種參數(shù)估計(jì),即選擇概率已知、選擇概率未知時(shí)的非參數(shù)估計(jì)和參數(shù)估計(jì);使用復(fù)合分位數(shù)回歸方法減小了參數(shù)估計(jì)的方差,提高了估計(jì)效率,并且在一定條件下證明了所給估計(jì)量的漸近正態(tài)性。通過(guò)數(shù)值實(shí)驗(yàn)說(shuō)明了所得估計(jì)的有效性。1 主要結(jié)果
1.1 主要方法
1.2 主要定理
2 定理證明
2.1 定理1的證明
2.2 定理2的證明
2.3 定理3的證明
3 數(shù)值模擬
4 結(jié) 語(yǔ)