王鵬鵬, 肖燕婷
(西安理工大學(xué)理學(xué)院應(yīng)用數(shù)學(xué)系, 陜西 西安 710054)
縱向數(shù)據(jù)廣泛應(yīng)用于醫(yī)學(xué)、生物學(xué)、社會(huì)學(xué)、金融學(xué)和經(jīng)濟(jì)學(xué)等諸多領(lǐng)域.它是指對(duì)同一個(gè)受試個(gè)體在不同時(shí)間點(diǎn)上重復(fù)觀測(cè)若干次, 從而得到的由截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)結(jié)合在一起的數(shù)據(jù).縱向數(shù)據(jù)的最大特點(diǎn)是對(duì)不同個(gè)體觀測(cè)數(shù)據(jù)是獨(dú)立的, 但對(duì)同一個(gè)觀測(cè)個(gè)體所得到的數(shù)據(jù)往往具有相關(guān)性.因此, 在分析縱向數(shù)據(jù)時(shí), 需要充分考慮個(gè)體內(nèi)的相關(guān)性, 如果忽略這種相關(guān)性, 會(huì)對(duì)興趣參數(shù)的估計(jì)造成偏差, 從而降低統(tǒng)計(jì)推斷的可靠性.LIANG和Zeger[1]提出的廣義估計(jì)方程(GEE)方法, 通過(guò)估計(jì)工作相關(guān)矩陣中的調(diào)諧參數(shù), 可以得到模型中參數(shù)的相合估計(jì), 但當(dāng)工作相關(guān)矩陣被錯(cuò)誤指定時(shí), 調(diào)諧參數(shù)的矩估計(jì)使得對(duì)感興趣參數(shù)的估計(jì)并不是最優(yōu)的.為此, QU等[2]提出了二次推斷函數(shù)(QIF)方法, 該方法不僅可以提高估計(jì)的效率, 還能得到比GEE方法更加有效和穩(wěn)健的結(jié)果.
部分線性變系數(shù)模型作為一類重要的半?yún)?shù)模型, 不僅具有參數(shù)模型的可解釋性, 又具有非參數(shù)模型的靈活性, 在實(shí)際應(yīng)用中有著廣泛的適用性.一經(jīng)提出, 就得到了眾多學(xué)者的廣泛關(guān)注.該模型的研究已經(jīng)取得了一系列豐碩的成果, 主要集中在模型中參數(shù)和系數(shù)函數(shù)的估計(jì)、變量選擇及相關(guān)檢驗(yàn)等方面.考慮縱向數(shù)據(jù)下的部分線性變系數(shù)模型
其中Yij ∈R和(Xij,Zij)∈Rp ×Rq分別為第i個(gè)個(gè)體的第j次觀測(cè)的響應(yīng)變量和協(xié)變量,εij ~N(0,Σ2)且εij與(Xij,Zij)相互獨(dú)立.β= (β1,β2,··· ,βp)T為p維未知參數(shù)向量,α(t) =(α1(t),α2(t),··· ,αq(t))T為q維未知函數(shù)向量.E(Yij|Xij,Zij,tij)=μij,Var(Yij|Xij,Zij,tij)=V(μij), 其中μij為Yij的條件均值,V(·)為已知方差函數(shù).針對(duì)模型(1.1), ZHAO和XUE[3]提出了一種組經(jīng)驗(yàn)似然方法處理縱向數(shù)據(jù)的相關(guān)性; TIAN等[4]結(jié)合基函數(shù)近似和二次推斷函數(shù), 提出了模型的變量選擇方法; WANG和LIN[5]提出了一種穩(wěn)健的變量選擇方法;ZHAO和YANG[6]提出了一種基于正交分解技術(shù)的參數(shù)估計(jì)方法.
在實(shí)際數(shù)據(jù)分析中, 經(jīng)常會(huì)遇到協(xié)變量不能精確觀測(cè)的情形, 直接忽略測(cè)量誤差往往會(huì)導(dǎo)致估計(jì)量不再是無(wú)偏估計(jì).因此, 對(duì)測(cè)量誤差的糾偏成為統(tǒng)計(jì)學(xué)的研究熱點(diǎn)之一.針對(duì)部分線性變系數(shù)模型, 早期的研究主要集中在參數(shù)協(xié)變量X不能精確觀測(cè), 帶有可加型測(cè)量誤差的情形, 如YOU和CHEN[7]在測(cè)量誤差協(xié)方差陣已知情形下, 給出了模型中參數(shù)和非參數(shù)的估計(jì); WANG等[8]利用經(jīng)驗(yàn)似然方法, 構(gòu)造了模型中參數(shù)的經(jīng)驗(yàn)似然置信域估計(jì); TIAN和XUE[9]在縱向數(shù)據(jù)下, 提出了偏差修正的的參數(shù)估計(jì)和變量選擇方法.然而,除了參數(shù)協(xié)變量不能精確觀測(cè)以外, 在現(xiàn)實(shí)中, 還會(huì)遇到非參數(shù)部分帶有測(cè)量誤差的情形, 即Z帶有可加型測(cè)量誤差,X和U可以精確觀測(cè).針對(duì)非參數(shù)協(xié)變量Z帶有測(cè)量誤差的部分線性變系數(shù)模型, FENG和XUE[10]提出了參數(shù)分量的局部糾偏剖面最小二乘估計(jì)方法; 馮三營(yíng)等[11]和FAN等[12]基于經(jīng)驗(yàn)似然方法研究了模型中參數(shù)和系數(shù)函數(shù)的置信域估計(jì);FAN等[13-14]將模型推廣到高維情形, 分別基于懲罰經(jīng)驗(yàn)似然和懲罰最小二乘方法給出了模型的估計(jì).但以上成果研究的都是橫截面數(shù)據(jù), 針對(duì)縱向數(shù)據(jù)下非參數(shù)部分帶有測(cè)量誤差的情形,還少有研究.
本文主要研究非參數(shù)部分帶有可加型測(cè)量誤差時(shí), 縱向數(shù)據(jù)下的部分線性變系數(shù)模型, 提出模型中未知參數(shù)和系數(shù)函數(shù)的估計(jì)方法, 證明估計(jì)量的大樣本性質(zhì), 并用模擬試驗(yàn)和實(shí)際算例說(shuō)明所提方法對(duì)測(cè)量誤差的糾偏是有效的.
考慮縱向數(shù)據(jù)下非參數(shù)部分帶有測(cè)量誤差的部分線性變系數(shù)模型, 形式如下
由于某些原因, 協(xié)變量Zij不可觀測(cè), 真正觀測(cè)到的是替代變量Uij, 測(cè)量誤差ξij滿足E(ξij)=0,Cov(ξij)=Σξ.
記B(t) = (B1(t),B2(t),··· ,BL(t))T為M階的B樣條基函數(shù), 其中L=K+M,K為B樣條內(nèi)節(jié)點(diǎn)的個(gè)數(shù), 根據(jù)HE等[15]的思想, 系數(shù)函數(shù)αk(t),k= 1,2,··· ,q,可表示為αk(t)≈B(t)Tγk,其中γk為L(zhǎng)×1維未知B樣條回歸系數(shù)向量.
基于模型(2.2), 利用LIANG[16]提出的糾偏思想, 定義如下未知參數(shù)的偏差修正的廣義估計(jì)方程(GEE)
其中Mk為已知的基矩陣,ak為未知參數(shù).將(2.4)式帶入(2.3)式, 得到新的偏差修正的廣義估計(jì)方程為
這里, 并不需要估計(jì)未知參數(shù)ak, k=1,2,··· ,s.按照QU等[2]的思想, 可以定義如下的擴(kuò)展得分向量Gn0(θ)為
基于(2.8)式, 關(guān)于θ的基于二次推斷函數(shù)的偏差修正目標(biāo)函數(shù)為
最終, 系數(shù)函數(shù)αk(·)的估計(jì)為
本節(jié)討論上述估計(jì)結(jié)果的相關(guān)性質(zhì), 首先給出一些基本的假設(shè).
結(jié)合假設(shè)4和假設(shè)6可知,?a ∈Rp+qL, 滿足aTa= 1, E(aTNi) = 0, supiE(‖aTNi‖)≤‖a‖supi‖Ni‖3, 其中aTNi滿足中心極限定理
證假設(shè)δ=n-r/(2r+1), 令β=β0+δΔ1,γ=γ0+δΔ2, Δ = (ΔT1,ΔT2)T.下證?ε >0,?C >0, 使得
對(duì)Qn(θ)在θ0點(diǎn)泰勒展開, 可得,
由引理1和2可知
和
故有
通過(guò)計(jì)算可得
本節(jié)通過(guò)模擬試驗(yàn)來(lái)驗(yàn)證所提估計(jì)方法在有限樣本下的具體表現(xiàn).數(shù)據(jù)生成過(guò)程為
其中參數(shù)向量β= (1.5,0.8,2)T, 系數(shù)函數(shù)向量α(u) = (α1(u),α2(u))T,α1(u) = 5.5 +0.1exp(2u -1),α2(u) = sin(2πu).協(xié)變量Xij ~N(2,I3),Zij ~N(2,I2),tij ~U[0,1],模型誤差向量εi ~N(0,Corr(εi,ρ)), Corr(εi,ρ)為已知的相關(guān)矩陣, 這里取一階自回歸矩陣(AR-1)和可交換矩陣(EX)兩種不同的相關(guān)矩陣, 相關(guān)系數(shù)ρ= 0.2,0.5,0.8分別表示低度相關(guān)、中度相關(guān)和高度相關(guān).測(cè)量誤差ξij ~N(0),Σξ= 0.2,0.4分別代表兩種不同情形的測(cè)量誤差,i= 1,2,··· ,n,j= 1,2,··· ,5.樣本容量分別取為n= 150,200,300, 重復(fù)200次模擬試驗(yàn).
為了評(píng)價(jià)本文所提方法對(duì)參數(shù)分量的估計(jì)效果, 考察參數(shù)估計(jì)偏差(Bias)和均方誤差(MSE)兩個(gè)指標(biāo).表1和表2分別給出了當(dāng)相關(guān)系數(shù)取中度相關(guān)ρ=0.5時(shí), 不同相關(guān)結(jié)構(gòu)下參數(shù)估計(jì)的效果, 其中, “QIF”表示偏差修正的二次推斷函數(shù)方法, “NQIF”表示忽略測(cè)量誤差的二次推斷函數(shù)方法.
表1 AR-1 相關(guān)結(jié)構(gòu)下參數(shù)估計(jì)的偏差和均方誤差
表2 EX相關(guān)結(jié)構(gòu)下參數(shù)估計(jì)的偏差和均方誤差
表1和表2結(jié)果表明: 1)修正偏差的二次推斷函數(shù)方法(QIF)下的偏差(Bias)和均方誤差(MSE), 都要比忽略測(cè)量誤差方法(NQIF)下的小, 說(shuō)明偏差修正方法是有效的; 2)兩種估計(jì)方法的均方誤差差別不大, 這可能是由于非參數(shù)部分存在測(cè)量誤差, 而參數(shù)部分沒(méi)有測(cè)量誤差導(dǎo)致的; 3)隨著測(cè)量誤差的減小, 兩種方法估計(jì)的偏差和均方誤差都變小; 4)隨著樣本量的增大, 兩種方法的偏差和均方誤差顯著減小, 且QIF較NQIF方法估計(jì)的結(jié)果更加穩(wěn)定.
進(jìn)一步, 利用均方誤差平方根(RASE)來(lái)評(píng)價(jià)非參數(shù)函數(shù)的估計(jì)效果,其中
其中ut(t= 1,2,··· ,M)為(0,1)區(qū)間上等距的格子點(diǎn),M= 200.表3和表4分別給出了兩種不同相關(guān)結(jié)構(gòu)下系數(shù)函數(shù)的估計(jì)效果.
表3 AR-1相關(guān)結(jié)構(gòu)下非參數(shù)估計(jì)的RASE
表4 EX相關(guān)結(jié)構(gòu)下非參數(shù)估計(jì)的RASE
通過(guò)表3和表4可以看出: 1)在大部分情形下, 偏差修正的二次函數(shù)方法(QIF)下的RASE值都比忽略測(cè)量誤差方法(NQIF)下的值要小, 說(shuō)明所提偏差修正方法是有效的; 2)隨著測(cè)量誤差的減小, 兩種方法的估計(jì)效果都變的更好, 尤其是QIF方法表現(xiàn)甚佳; 3)隨著組內(nèi)相關(guān)程度的增大, 兩種方法的估計(jì)效果均有變?nèi)醯内厔?shì); 4)隨著樣本容量的增大, 兩種方法的估計(jì)效果都變得更好, 且QIF方法的估計(jì)效果較NQIF方法的估計(jì)效果更佳.
本節(jié)分析1984年到1991年期間感染HIV的185名同性戀患者的艾滋病(AIDS)群體研究數(shù)據(jù).趙培信[18]采用部分線性變系數(shù)模型分析了該數(shù)據(jù), 楊宜平和李佳[19]利用變系數(shù)EV模型分析了該數(shù)據(jù).數(shù)據(jù)包含觀測(cè)時(shí)間, 記為tij; 吸煙情況, 記為X1ij, 取值為0表示感染HIV后不吸煙, 取值為1表示感染HIV后吸煙; 患者感染HIV時(shí)的年齡, 記為X2ij; 感染HIV以前血液中CD4細(xì)胞含量的百分比, 記為Zij; 目前血液中CD4細(xì)胞含量的百分比, 記為Yij.利用該數(shù)據(jù)建立如下的部分線性變系數(shù)模型
類似于楊宜平和李佳[19]的研究, 假定非參數(shù)協(xié)變量Zij含有測(cè)量誤差, 即Uij=Zij+ξij.
測(cè)量誤差ξij服從N(0假定的取值分別為= 0,= 0.17, 和= 0.34三種情況.這里, 組內(nèi)相關(guān)結(jié)構(gòu)選取為AR-1結(jié)構(gòu).
表5給出了兩種不同測(cè)量誤差及不考慮測(cè)量誤差時(shí)參數(shù)的估計(jì)效果, 說(shuō)明吸煙狀況對(duì)血液中CD4細(xì)胞的百分比含量表現(xiàn)顯著, 并且為正相關(guān); 而年齡因素不是特別顯著; 若協(xié)變量數(shù)據(jù)帶有測(cè)量誤差, 本文所提的糾偏方法是有效的.圖1給出了各種情形下非參數(shù)函數(shù)α(t)的估計(jì),可以看出感染前血液中CD4細(xì)胞含量的百分比對(duì)目前的CD4細(xì)胞含量的百分比有著較強(qiáng)的相關(guān)性.
表5 AIDS 數(shù)據(jù)不同測(cè)量誤差下的參數(shù)估計(jì)
圖1 AIDS數(shù)據(jù)不同測(cè)量誤差下α(t)的估計(jì)
部分線性變系數(shù)模型融合了參數(shù)模型的可解釋性和非參數(shù)模型的靈活性, 是一類重要的半?yún)?shù)模型, 可以描述許多實(shí)際問(wèn)題, 有較強(qiáng)的解釋能力.縱向數(shù)據(jù)具有個(gè)體間獨(dú)立、個(gè)體內(nèi)相關(guān)的特征, 同時(shí)綜合了截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的特點(diǎn).測(cè)量誤差數(shù)據(jù)在一些實(shí)際問(wèn)題中比較常見(jiàn).本文研究的縱向數(shù)據(jù)下非參數(shù)部分帶有測(cè)量誤差的部分線性變系數(shù)模型的估計(jì)問(wèn)題具有一定的理論價(jià)值和現(xiàn)實(shí)意義.利用B樣條基對(duì)模型中的變系數(shù)函數(shù)進(jìn)行近似, 構(gòu)造了偏差修正的二次推斷函數(shù), 得到了模型中回歸參數(shù)和變系數(shù)函數(shù)的估計(jì).在一定的假設(shè)條件下, 證明了估計(jì)量的大樣本性質(zhì).模擬試驗(yàn)和實(shí)例分析說(shuō)明了本文所提方法的有效性.