劉佳樂 黃 彬
(北京化工大學 數(shù)理學院, 北京 100029)
縱向數(shù)據(jù)經(jīng)常出現(xiàn)在經(jīng)濟學和生物醫(yī)學研究中,它通過對相同的個體進行多次重復測量得到,因而具有組內(nèi)相關(guān)、組間獨立的特點;同時由于重復測量,一個個體的突變往往會使數(shù)據(jù)產(chǎn)生一系列的異常值,因此如何處理組內(nèi)相關(guān)性,提高估計的效率和穩(wěn)健性,一直是縱向數(shù)據(jù)研究的重要內(nèi)容。Koenker[1-2]提出的分位數(shù)回歸是研究縱向數(shù)據(jù)的一種重要方法,該方法不僅能實現(xiàn)穩(wěn)健估計,還可描述響應變量的整個條件分布。縱向數(shù)據(jù)下的分位數(shù)回歸最大的困難是估計相關(guān)矩陣,許多學者利用特定的相關(guān)結(jié)構(gòu)[3-5],或結(jié)合經(jīng)驗似然(EL)[4]、二次推斷函數(shù)(QIF)[5]、高斯copula函數(shù)以及改進Cholesky分解(MCD)法[6]等方法將數(shù)據(jù)相關(guān)性納入估計方程中,從而得到更有效的估計。
當數(shù)據(jù)相互獨立時,Zou等[7]提出了復合分位數(shù)回歸(CQR)估計,該方法充分利用多個分位數(shù)信息,從而進一步提高了參數(shù)估計的效率,因此CQR方法被廣泛應用于各種復雜數(shù)據(jù)中。在縱向數(shù)據(jù)下,Tang等[8]利用EL和QIF方法構(gòu)造權(quán)重,得到參數(shù)的加權(quán)CQR估計;Lv等[6]利用MCD分解對相關(guān)數(shù)據(jù)的協(xié)方差矩陣進行估計,并與CQR方法相結(jié)合得到了參數(shù)的有效估計; Zhao等[9]利用廣義矩估計(GMM)方法[10]將CQR和QIF方法相結(jié)合,得到了參數(shù)的復合分位數(shù)二次推斷函數(shù)估計(CQRQIF)。
統(tǒng)計推斷的另一個重要問題是對興趣參數(shù)置信域的構(gòu)造,通過EL得到的置信域具有一些很好的性質(zhì),如域保持性、變換不變性以及置信域的形狀完全由數(shù)據(jù)決定等。Zhao等[11-12]基于CQR和EL方法研究了線性模型和部分線性模型下參數(shù)的穩(wěn)健估計,并利用經(jīng)驗對數(shù)似然比的漸近卡方分布得到參數(shù)的置信域,該方法無需估計漸近方差,且比一些已有方法更加有效和穩(wěn)健,但是它們僅考慮獨立數(shù)據(jù)的情形。
在縱向數(shù)據(jù)下,本文進一步研究基于CQR的線性模型的EL推斷,利用QIF的思想將工作相關(guān)矩陣的逆表示為某些基矩陣的線性組合,從而將數(shù)據(jù)組內(nèi)相關(guān)性納入估計方程中;將CQR和EL方法相結(jié)合,得到了參數(shù)的復合分位數(shù)回歸經(jīng)驗似然估計(CQREL)估計,證明了所得估計的漸近正態(tài)性;另外,無需預先估計漸近方差,利用檢驗統(tǒng)計量服從漸近卡方分布,得到興趣參數(shù)的置信域;數(shù)值模擬結(jié)果進一步說明所得CQREL估計方法能更有效和更穩(wěn)健地估計參數(shù)。
(1)
式中,β為未知的回歸參數(shù),εij為隨機誤差,εi=(εi1,…,εimi)T與Xi相互獨立,且其均值為0,即E(εi)=0。假設(shè)縱向數(shù)據(jù)滿足不同個體間相互獨立,且相同個體內(nèi)存在某種相關(guān)性;當忽略數(shù)據(jù)組內(nèi)相關(guān)性時,令0<τ1<τ2<…<τK, 可用復合分位數(shù)回歸(CQR)[13]方法估計參數(shù)
(2)
式中,Zik=(Xi,Dik),Dik為第k列全為1且其余列全為0的mi×K矩陣;Sik(θ)=ψτk(yi-Zikθ),ψτk(u)=(ψτk(u1),…,ψτk(us))T,u=(u1,…,us)T為任意的s維向量,ψτk(ui)=τk-1(ui<0)。
(3)
給定Ri(α),E(Ui(θ0))=0,將CQR和EL方法相結(jié)合,重新組合Ui(θ0)(i=1,…,n)的信息,得到θ的經(jīng)驗對數(shù)似然比函數(shù)為
對給定的θ,當0位于{Ui(θ),i=1,…,n}的凸包之內(nèi)時,ln(θ)存在且唯一。利用拉格朗日乘子法可將ln(θ)表示為
式中,λ=λ(θ)為拉格朗日乘子,且滿足
最小化ln(θ),得到θ的CQREL為
(4)
值得注意的是,無需估計討厭參數(shù)和未知常數(shù)al,l=1,…,L,可以在R語言中通過軟件包emplik和optim來求解最小化問題式(4)。另外,與CQRQIF[9]相比,本文的CQREL方法不需選擇一個正定的權(quán)重矩陣,而且構(gòu)造置信域的形狀完全由數(shù)據(jù)本身決定,無需預先估計漸近方差,特別當漸近方差較難估計時,這一優(yōu)勢尤為重要。
對任意的i=1,…,n,j=1,…,mi,假設(shè)下列條件成立:
(1)Ω=E(Ui(θ0)Ui(θ0)T)是正定矩陣;
(2)εij的分布函數(shù)F(·)是二階連續(xù)可微的,其密度函數(shù)f(·)有界,且f(·)>0;
(3)Xij一致有界;
(4)β所在的參數(shù)空間為B,且B為Rp的緊子集,其真值β0為B的內(nèi)點。
為了便于證明,引入以下記號:
① 令Δik=f(b0k)Imi,Γ=(Γ1,Γ2);
證明:由文獻[15]可知,是θ0的相合估計,用‖·‖表示歐幾里德范數(shù)。記由文獻[16]得
(5)
且式(5)在Θn={θ∶‖θ-θ0‖=O(n-1/2)}上一致成立。由文獻[17]有
λ(θ)=Ω-1Dn(θ)+op(n-1/2)
(6)
且式(6)在Θn上一致成立。由條件式(1)~(4)和式(5)、(6),將ln(θ)泰勒展開得到
(7)
由條件式(1)~(4)可知,式 (5)、 (6)與式(7)在Θn上一致成立,且有
(8)
另外有
(9)
則當n→∞時, 有
由式(7)、(9)可得
本文感興趣的參數(shù)是β,所以可以利用profile經(jīng)驗對數(shù)似然比檢驗統(tǒng)計量對β進行檢驗或構(gòu)造β的置信域。欲檢驗H0∶β=β0, 需定義檢驗統(tǒng)計量
從而有
(10)
考慮以下4種不同的誤差分布情況進行模擬。
①多元正態(tài)分布。假設(shè)εi滿足多元正態(tài)分布,即εi~N(0,Σε(ρ))(Σε(ρ)為一階自回歸結(jié)構(gòu),相關(guān)系數(shù)ρ=0.7)。
②多元t分布。假設(shè)εi滿足自由度為2的t分布,即εi~t2(0,Σε(ρ)),Σε(ρ)同情形①。
③有異常值的多元正態(tài)分布。從情形①產(chǎn)生的數(shù)據(jù)中分別隨機選取2%的yij各加減20。
④有異常值的多元t分布。從情形②產(chǎn)生的數(shù)據(jù)中分別隨機選取2%的yij各加減20。
模擬中樣本容量n分別取100、 200,為簡單起見,取mi=m=5,模擬次數(shù)為300。數(shù)據(jù)由如下模型生成
式中,i=1,…,n,j=1,…,m,β=(β1,β2)T,β1=-1,β2=2,Xij=(xij1,xij2)T,xij1~N(0,1),xij2~N(0,1)。
將本文提出的CQREL方法分別與最小二乘經(jīng)驗似然估計(LSEL)和CQRQIF方法進行比較,采用均方誤差根(RMSE)評估不同估計的表現(xiàn)
模擬中,將工作相關(guān)矩陣Ri分別指定為獨立(WI)、可交換(EX)和一階自回歸(AR1)結(jié)構(gòu)。對基于CQR的估計方法,均選取9個不同的分位數(shù)τ1=0.1,…,τ9=0.9。
表1~4給出了4種情形下β估計的RMSE均值(Mean)和標準差(SD)。 限于篇幅,表中只列出了n=100的情形,當n=200時也得到了類似的結(jié)果,且RMSE有更小的Mean和SD,同樣驗證了3種估計的相合性。
表1 情形①下RMSE的模擬結(jié)果
a—β1;b—β2。
表2 情形②下RMSE的模擬結(jié)果
a—β1;b—β2。
表3 情形③下RMSE的模擬結(jié)果
a—β1;b—β2。
表4 情形④下RMSE的模擬結(jié)果
a—β1;b—β2。
由表1~4可以看出,對于3種方法,忽略了數(shù)據(jù)相關(guān)結(jié)構(gòu)(WI)的估計結(jié)果均較差,因此研究縱向數(shù)據(jù)時考慮組內(nèi)的相關(guān)結(jié)構(gòu)是很有必要的。當誤差服從正態(tài)分布(表1)時,LSEL的結(jié)果優(yōu)于CQREL和CQRQIF;當誤差服從非正態(tài)分布(表2)或數(shù)據(jù)存在異常值時(表3、4), CQREL和CQRQIF因其RMSE有更小的Mean和SD值,明顯優(yōu)于LSEL。說明CQREL和CQRQIF方法所得估計具有更好的有效性和穩(wěn)健性。CQREL和CQREL兩種方法具有相近的結(jié)果,原因主要是兩種方法的估計有相同的漸近協(xié)方差陣。
接下來考慮參數(shù)β的區(qū)間估計?;?00次模擬結(jié)果,表5給出了4種情形下(Case1、Case2、Case3、Case4)95%置信域的平均覆蓋率(CP)。從表中可以看出,當考慮相關(guān)性時,無論哪種情形,基于CQR的兩種方法的CP值均接近95%;而LSEL只在情形①下表現(xiàn)較好,當誤差服從非正態(tài)分布或數(shù)據(jù)存在異常值時,其CP值均偏離95%。
表5 參數(shù)95%置信域的平均覆蓋率
為了比較CQREL和CQRQIF的置信域性質(zhì),圖1給出了情形①下兩種方法的置信域。從圖中可以看出,基于AR1相關(guān)結(jié)構(gòu)的估計比基于EX相關(guān)結(jié)構(gòu)有更小的置信區(qū)域,并且在CP值都接近95%的情況下,CQREL方法所得的置信域在精度上明顯高于CQRQIF。
綜上所述,當誤差服從非正態(tài)分布或數(shù)據(jù)存在異常值時,本文的CQREL方法比LSEL方法有更好的估計效率和穩(wěn)健性;另外,盡管CQREL與CQRQIF方法所得估計RMSE的Mean、SD和置信域的CP均有相近的結(jié)果,但是CQREL能得到精度更高的置信域,從而比CQRQIF有更好的有限樣本性質(zhì)。
在縱向數(shù)據(jù)下,本文將CQR和EL方法相結(jié)合,得到了模型參數(shù)更加有效且穩(wěn)健的估計。同時在理論上證明了所得估計和經(jīng)驗對數(shù)似然比統(tǒng)計量的漸近性質(zhì)。借助QIF的思想考慮數(shù)據(jù)相關(guān)性,在估計過程中無需估計工作相關(guān)矩陣中的討厭參數(shù),并且所構(gòu)造的置信域的形狀完全由數(shù)據(jù)本身決定,無需預先估計漸近方差。通過數(shù)值模擬得到了更加有效和穩(wěn)健的參數(shù)估計結(jié)果,并且在平均覆蓋概率接近95%的情況下,構(gòu)造出精度更高的置信域。
本文僅究了縱向數(shù)據(jù)下線性模型的統(tǒng)計推斷問題,未來可將該方法推廣到部分線性變系數(shù)模型、單指標模型等半?yún)?shù)模型中,同時考慮響應變量缺失的情況。