范 莉 王秀麗
(山東師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,250358,濟(jì)南)
考慮如下形式的變系數(shù)模型
Y=XTβ(U)+ε,
(1)
其中,Y是響應(yīng)變量,X,U為協(xié)變量,X∈RP,U∈R,β(·)=(β1(·),…,βp(·))T為一個(gè)p維未知的參數(shù)函數(shù)向量,ε為誤差項(xiàng)且滿足:E(ε|X,U)=0,var(ε2|U,X)=σ2(U).
這里主要考慮響應(yīng)變量Y隨機(jī)缺失的情況,樣本量為n的不完全數(shù)據(jù)可以表示為(δi,Xi,Yi,Ui),i=1,…,n,其中當(dāng)Yi缺失時(shí),δi=0,否則δi=1,且滿足
P{δi=1|Yi,Xi,Ui}=P{δi=1|Xi,Ui}=π(Xi,Ui).
(2)
變系數(shù)模型是一類應(yīng)用非常廣泛的模型,包含了常見的一些模型,如可加模型,部分線性模型,單指標(biāo)函數(shù)系數(shù)回歸模型等.它不僅避免了“維數(shù)禍根”,而且更加具有可解釋性,許多統(tǒng)計(jì)學(xué)者對(duì)該模型進(jìn)行了研究,取得了豐富的研究成果.Fan J Q等人[1]提出了兩步估計(jì)法,允許系數(shù)函數(shù)有不同的窗寬,并且證明了兩步估計(jì)要優(yōu)于一步估計(jì).盧一強(qiáng)等人[2]考慮到各個(gè)系數(shù)函數(shù)的差別,允許各個(gè)系數(shù)函數(shù)有不同的光滑參數(shù),在系數(shù)函數(shù)為三階B樣條函數(shù)的條件下,用貝葉斯模型平均的方法來估計(jì)函數(shù)系數(shù).
但在實(shí)際問題中經(jīng)常會(huì)遇到缺失數(shù)據(jù),分析缺失數(shù)據(jù)廣泛使用的是由Thompson P G等人[3]提出的逆概率加權(quán)方法,這個(gè)方法產(chǎn)生的估計(jì)在缺失機(jī)制假定正確的前提下是無偏的.杜海燕等人[4]考慮了協(xié)變量缺失下變系數(shù)部分非線性模型的統(tǒng)計(jì)推斷問題,基于逆概率加權(quán)利用輪廓最小二乘和經(jīng)驗(yàn)似然的方法得到參數(shù)和非參系數(shù)的估計(jì).陳盼盼等人[5]基于逆概率加權(quán)最小二乘方法研究了缺失數(shù)據(jù)下變系數(shù)部分線性模型的統(tǒng)計(jì)推斷問題.但是這種估計(jì)方法也只是用到了完全觀測(cè)的數(shù)據(jù).為了提高估計(jì)的效率,Robins J M等人[6]提出了擴(kuò)張的逆概率加權(quán)(Augmented Inverse Probability Weighting,AIPW),通過對(duì)每一個(gè)缺失的變量借補(bǔ)一個(gè)合適的值,利用觀測(cè)到的數(shù)據(jù)和借補(bǔ)的值進(jìn)行統(tǒng)計(jì)推斷,得到的估計(jì)量具有雙穩(wěn)健性.有很多學(xué)者利用它來處理缺失數(shù)據(jù)的問題[7-9].在運(yùn)用以上兩種方法構(gòu)造估計(jì)量時(shí),通常需要先估計(jì)出選擇概率,當(dāng)選擇概率模型和回歸模型都被指定正確時(shí),擴(kuò)張的逆概率加權(quán)就會(huì)得到很好的估計(jì),但是當(dāng)兩者都被指定錯(cuò)誤時(shí),擴(kuò)張的逆概率加權(quán)方法的雙穩(wěn)健性就會(huì)變差.為了解決這個(gè)問題,Kosuke I等人[10]提出了協(xié)變量平衡傾向得分(Covariate Balancing Propensity Score,CBPS)方法,這個(gè)方法通過最大化協(xié)變量平衡得到的參數(shù)值來降低潛在的選擇概率模型被錯(cuò)誤指定而導(dǎo)致的后果,所以這是一種穩(wěn)健的估計(jì)選擇概率的方法.Guo D L等人[11]基于協(xié)變量平衡傾向得分(CBPS)研究了非線性模型穩(wěn)健估計(jì),但對(duì)于變系數(shù)模型中的穩(wěn)健估計(jì)沒有進(jìn)行研究.本文將基于協(xié)變量平衡傾向得分研究在響應(yīng)變量隨機(jī)缺失條件下的變系數(shù)模型的經(jīng)驗(yàn)似然統(tǒng)計(jì)推斷.
在(2)式中π(Xi,Ui)是未知的,通常情況下假設(shè)π(Xi,Ui)是logistic模型,則有
(3)
(4)
若π(Z,γ)關(guān)于γ是二階連續(xù)可導(dǎo)的,則(4)式等價(jià)于如下一階條件
(5)
其中π′(Zi,γ)=?π(Zi,γ)/?γT.
雖然極大似然方法簡(jiǎn)單,但是當(dāng)選擇概率錯(cuò)誤的時(shí)候,該方法得到的回歸系數(shù)估計(jì)量是有偏的.為了使參數(shù)方法更穩(wěn)健,利用文獻(xiàn)[10]提出的協(xié)變量平衡的傾向得分(CBPS)方法對(duì)選擇概率模型中的未知參數(shù)γ進(jìn)行估計(jì),即令選擇概率π(Zi,γ)滿足協(xié)變量平衡條件
(6)
即使選擇概率模型被指定錯(cuò)誤,(6)式也能保證協(xié)變量的一階矩平衡,由(6)式可得協(xié)變量平衡條件的樣本形式為
(7)
若只考慮(5)式,此時(shí)參數(shù)的個(gè)數(shù)和方程的個(gè)數(shù)相等即為恰好識(shí)別,這種情況下利用矩方法的思想可以得到未知參數(shù)的矩估計(jì).在這里只考慮過識(shí)別的情形,聯(lián)合(5)式及(7)式可得
(8)
(9)
為了方便介紹,引入以下的記號(hào)和假設(shè)條件.
C1 對(duì)所有Zi,π(Zi,γ)在γ0附近都是一個(gè)已知可微的函數(shù);
C2E(Zi)、E[W(δi,Zi,γ)]存在且矩陣E(ZiZiT)滿秩;
C3 1)WE[U(δi,Zi,γ)]=0當(dāng)且僅當(dāng)γ=γ0,γ0∈Θ為緊集;
2)E(‖π′(Z,γ0)‖2)<且E(‖Zi‖2)<;
C4U有有界支撐Ω,且U的密度函數(shù)f(u)>0,f(u)為L(zhǎng)ipschitz連續(xù);
C6 核函數(shù)K(·)為有界支撐的對(duì)稱概率密度函數(shù);
C7 {β(U),i=1,2,…,p}在所有的U∈Ω有連續(xù)的二階導(dǎo)數(shù);
C8 存在r>0,使得E|X|2+r<,E|ε|2+r<;
C9 窗寬h滿足當(dāng)n→,h→0時(shí),nh5→0,nh→;
由參考文獻(xiàn)[13],可以得到下述的定理1.
定理1[13]假設(shè)Zi,i=1,2,…,n是一組獨(dú)立同分布的隨機(jī)向量,滿足條件C1-C3,γ0為γ的真值,則有
推論1[13]如果π(Zi,γ)是連續(xù)的,γ0為γ的真值,在條件C1-C3下,有
2.2回歸系數(shù)的經(jīng)驗(yàn)似然由Zhou X S等人[14]的研究結(jié)果可知,系數(shù)函數(shù)向量β(u)=(β1(u),β2(u),…,βp(u))T在u0處的局部線性估計(jì)可表示為
其中,IP和0p分別表示p階單位矩陣和p階零矩陣,
Y=(Y1,Y2,…,Yn)T,X=(X1,X2,…,Xn)T,ε=(ε1,…,εn)T,
W(u0)=Diag(Kh(U1-u0)δ1,Kh(U2-u0)δ2,…,Kh(Un-u0)δn),
(10)
構(gòu)造輔助隨機(jī)向量
(11)
(12)
利用Lagrange乘子法選擇最優(yōu)pi,可得
(13)
其中λ為拉格朗日乘數(shù)且為下述方程的解
(14)
定理2如果假設(shè)條件C1-C10成立,則當(dāng)β(u)為真值時(shí),有
其中χp2表示自由度為p的卡方分布.
基于定理2可以定義β(u)的近似置信水平為1-α的置信區(qū)間為
Iα(β(u))={β(u)|l(β(u))≤χp2(1-α)}.
下面給出定理2的證明,首先給出如下的引理1.
引理1若假設(shè)條件C4-C10成立,則有
其中
證經(jīng)計(jì)算有
類似于文獻(xiàn)[11]中定理2,可證
下面給出定理2的證明.
證由引理1的證明簡(jiǎn)單計(jì)算可得
(15)
由引理1的證明及文獻(xiàn)[15]中引理1的證明可得
(16)
類似于文獻(xiàn)[16]中的定理2的證明可知
λ=OP((n/h)-1/2).
(17)
由(15)式和(16)式,將(13)式進(jìn)行Taylor展開易得
(18)
又由(14)式,結(jié)合(15)-(17)式,可得
(19)
(20)
再根據(jù)(18)-(20)式,計(jì)算可知
結(jié)合引理1,定理2得證.
山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年1期