縱向數(shù)據(jù)下基于復合分位數(shù)回歸的經(jīng)驗似然推斷

2020-06-22 02:39劉佳樂

北京化工大學學報（自然科學版） 2020年1期

劉佳樂黃彬

(北京化工大學數(shù)理學院, 北京 100029)

引言

縱向數(shù)據(jù)經(jīng)常出現(xiàn)在經(jīng)濟學和生物醫(yī)學研究中，它通過對相同的個體進行多次重復測量得到，因而具有組內(nèi)相關(guān)、組間獨立的特點；同時由于重復測量，一個個體的突變往往會使數(shù)據(jù)產(chǎn)生一系列的異常值，因此如何處理組內(nèi)相關(guān)性，提高估計的效率和穩(wěn)健性，一直是縱向數(shù)據(jù)研究的重要內(nèi)容。Koenker[1-2]提出的分位數(shù)回歸是研究縱向數(shù)據(jù)的一種重要方法，該方法不僅能實現(xiàn)穩(wěn)健估計，還可描述響應變量的整個條件分布。縱向數(shù)據(jù)下的分位數(shù)回歸最大的困難是估計相關(guān)矩陣，許多學者利用特定的相關(guān)結(jié)構(gòu)[3-5]，或結(jié)合經(jīng)驗似然(EL)[4]、二次推斷函數(shù)(QIF)[5]、高斯copula函數(shù)以及改進Cholesky分解(MCD)法[6]等方法將數(shù)據(jù)相關(guān)性納入估計方程中，從而得到更有效的估計。

當數(shù)據(jù)相互獨立時，Zou等[7]提出了復合分位數(shù)回歸(CQR)估計，該方法充分利用多個分位數(shù)信息，從而進一步提高了參數(shù)估計的效率，因此CQR方法被廣泛應用于各種復雜數(shù)據(jù)中。在縱向數(shù)據(jù)下，Tang等[8]利用EL和QIF方法構(gòu)造權(quán)重，得到參數(shù)的加權(quán)CQR估計；Lv等[6]利用MCD分解對相關(guān)數(shù)據(jù)的協(xié)方差矩陣進行估計，并與CQR方法相結(jié)合得到了參數(shù)的有效估計; Zhao等[9]利用廣義矩估計(GMM)方法[10]將CQR和QIF方法相結(jié)合，得到了參數(shù)的復合分位數(shù)二次推斷函數(shù)估計(CQRQIF)。

統(tǒng)計推斷的另一個重要問題是對興趣參數(shù)置信域的構(gòu)造，通過EL得到的置信域具有一些很好的性質(zhì)，如域保持性、變換不變性以及置信域的形狀完全由數(shù)據(jù)決定等。Zhao等[11-12]基于CQR和EL方法研究了線性模型和部分線性模型下參數(shù)的穩(wěn)健估計，并利用經(jīng)驗對數(shù)似然比的漸近卡方分布得到參數(shù)的置信域，該方法無需估計漸近方差，且比一些已有方法更加有效和穩(wěn)健，但是它們僅考慮獨立數(shù)據(jù)的情形。

在縱向數(shù)據(jù)下，本文進一步研究基于CQR的線性模型的EL推斷，利用QIF的思想將工作相關(guān)矩陣的逆表示為某些基矩陣的線性組合，從而將數(shù)據(jù)組內(nèi)相關(guān)性納入估計方程中；將CQR和EL方法相結(jié)合，得到了參數(shù)的復合分位數(shù)回歸經(jīng)驗似然估計(CQREL)估計，證明了所得估計的漸近正態(tài)性；另外，無需預先估計漸近方差，利用檢驗統(tǒng)計量服從漸近卡方分布，得到興趣參數(shù)的置信域；數(shù)值模擬結(jié)果進一步說明所得CQREL估計方法能更有效和更穩(wěn)健地估計參數(shù)。

1 參數(shù)估計方法

1.1 CQREL方法

(1)

式中，β為未知的回歸參數(shù)，εij為隨機誤差，εi=(εi1,…,εimi)T與Xi相互獨立，且其均值為0，即E(εi)=0。假設(shè)縱向數(shù)據(jù)滿足不同個體間相互獨立，且相同個體內(nèi)存在某種相關(guān)性；當忽略數(shù)據(jù)組內(nèi)相關(guān)性時，令0<τ1<τ2<…<τK, 可用復合分位數(shù)回歸(CQR)[13]方法估計參數(shù)

(2)

式中，Zik=(Xi,Dik),Dik為第k列全為1且其余列全為0的mi×K矩陣；Sik(θ)=ψτk(yi-Zikθ),ψτk(u)=(ψτk(u1),…,ψτk(us))T，u=(u1,…,us)T為任意的s維向量，ψτk(ui)=τk-1(ui<0)。

(3)

給定Ri(α)，E(Ui(θ0))=0，將CQR和EL方法相結(jié)合，重新組合Ui(θ0)(i=1,…,n)的信息，得到θ的經(jīng)驗對數(shù)似然比函數(shù)為

對給定的θ，當0位于{Ui(θ),i=1,…,n}的凸包之內(nèi)時，ln(θ)存在且唯一。利用拉格朗日乘子法可將ln(θ)表示為

式中，λ=λ(θ)為拉格朗日乘子，且滿足

最小化ln(θ)，得到θ的CQREL為

(4)

值得注意的是，無需估計討厭參數(shù)和未知常數(shù)al,l=1,…,L，可以在R語言中通過軟件包emplik和optim來求解最小化問題式(4)。另外，與CQRQIF[9]相比，本文的CQREL方法不需選擇一個正定的權(quán)重矩陣，而且構(gòu)造置信域的形狀完全由數(shù)據(jù)本身決定，無需預先估計漸近方差，特別當漸近方差較難估計時，這一優(yōu)勢尤為重要。

1.2 估計的漸近性質(zhì)

對任意的i=1,…,n，j=1,…,mi，假設(shè)下列條件成立：

(1)Ω=E(Ui(θ0)Ui(θ0)T)是正定矩陣；

(2)εij的分布函數(shù)F(·)是二階連續(xù)可微的，其密度函數(shù)f(·)有界，且f(·)>0；

(3)Xij一致有界;

(4)β所在的參數(shù)空間為B，且B為Rp的緊子集，其真值β0為B的內(nèi)點。

為了便于證明，引入以下記號：

① 令Δik=f(b0k)Imi，Γ=(Γ1,Γ2)；

證明：由文獻[15]可知，是θ0的相合估計，用‖·‖表示歐幾里德范數(shù)。記由文獻[16]得

(5)

且式(5)在Θn={θ∶‖θ-θ0‖=O(n-1/2)}上一致成立。由文獻[17]有

λ(θ)=Ω-1Dn(θ)+op(n-1/2)

(6)

且式(6)在Θn上一致成立。由條件式(1)～(4)和式(5)、(6)，將ln(θ)泰勒展開得到

(7)

由條件式(1)～(4)可知，式 (5)、 (6)與式(7)在Θn上一致成立，且有

(8)

另外有

(9)

則當n→∞時, 有

由式(7)、(9)可得

本文感興趣的參數(shù)是β，所以可以利用profile經(jīng)驗對數(shù)似然比檢驗統(tǒng)計量對β進行檢驗或構(gòu)造β的置信域。欲檢驗H0∶β=β0, 需定義檢驗統(tǒng)計量

從而有

(10)

2 數(shù)值模擬

考慮以下4種不同的誤差分布情況進行模擬。

①多元正態(tài)分布。假設(shè)εi滿足多元正態(tài)分布，即εi～N(0,Σε(ρ))(Σε(ρ)為一階自回歸結(jié)構(gòu)，相關(guān)系數(shù)ρ=0.7)。

②多元t分布。假設(shè)εi滿足自由度為2的t分布，即εi～t2(0,Σε(ρ)),Σε(ρ)同情形①。

③有異常值的多元正態(tài)分布。從情形①產(chǎn)生的數(shù)據(jù)中分別隨機選取2%的yij各加減20。

④有異常值的多元t分布。從情形②產(chǎn)生的數(shù)據(jù)中分別隨機選取2%的yij各加減20。

模擬中樣本容量n分別取100、 200，為簡單起見，取mi=m=5，模擬次數(shù)為300。數(shù)據(jù)由如下模型生成

式中，i=1,…,n，j=1,…,m，β=(β1,β2)T，β1=-1，β2=2，Xij=(xij1,xij2)T，xij1～N(0,1)，xij2～N(0,1)。

將本文提出的CQREL方法分別與最小二乘經(jīng)驗似然估計(LSEL)和CQRQIF方法進行比較，采用均方誤差根(RMSE)評估不同估計的表現(xiàn)

模擬中，將工作相關(guān)矩陣Ri分別指定為獨立(WI)、可交換(EX)和一階自回歸(AR1)結(jié)構(gòu)。對基于CQR的估計方法，均選取9個不同的分位數(shù)τ1=0.1,…,τ9=0.9。

表1～4給出了4種情形下β估計的RMSE均值(Mean)和標準差(SD)。限于篇幅，表中只列出了n=100的情形，當n=200時也得到了類似的結(jié)果,且RMSE有更小的Mean和SD，同樣驗證了3種估計的相合性。

表1 情形①下RMSE的模擬結(jié)果

a—β1；b—β2。

表2 情形②下RMSE的模擬結(jié)果

a—β1；b—β2。

表3 情形③下RMSE的模擬結(jié)果

a—β1；b—β2。

表4 情形④下RMSE的模擬結(jié)果

a—β1；b—β2。

由表1～4可以看出，對于3種方法，忽略了數(shù)據(jù)相關(guān)結(jié)構(gòu)(WI)的估計結(jié)果均較差，因此研究縱向數(shù)據(jù)時考慮組內(nèi)的相關(guān)結(jié)構(gòu)是很有必要的。當誤差服從正態(tài)分布(表1)時，LSEL的結(jié)果優(yōu)于CQREL和CQRQIF；當誤差服從非正態(tài)分布(表2)或數(shù)據(jù)存在異常值時(表3、4)， CQREL和CQRQIF因其RMSE有更小的Mean和SD值，明顯優(yōu)于LSEL。說明CQREL和CQRQIF方法所得估計具有更好的有效性和穩(wěn)健性。CQREL和CQREL兩種方法具有相近的結(jié)果，原因主要是兩種方法的估計有相同的漸近協(xié)方差陣。

接下來考慮參數(shù)β的區(qū)間估計?；?00次模擬結(jié)果，表5給出了4種情形下(Case1、Case2、Case3、Case4)95%置信域的平均覆蓋率(CP)。從表中可以看出，當考慮相關(guān)性時，無論哪種情形，基于CQR的兩種方法的CP值均接近95%；而LSEL只在情形①下表現(xiàn)較好，當誤差服從非正態(tài)分布或數(shù)據(jù)存在異常值時，其CP值均偏離95%。

表5 參數(shù)95%置信域的平均覆蓋率

為了比較CQREL和CQRQIF的置信域性質(zhì)，圖1給出了情形①下兩種方法的置信域。從圖中可以看出，基于AR1相關(guān)結(jié)構(gòu)的估計比基于EX相關(guān)結(jié)構(gòu)有更小的置信區(qū)域，并且在CP值都接近95%的情況下，CQREL方法所得的置信域在精度上明顯高于CQRQIF。

綜上所述，當誤差服從非正態(tài)分布或數(shù)據(jù)存在異常值時，本文的CQREL方法比LSEL方法有更好的估計效率和穩(wěn)健性；另外，盡管CQREL與CQRQIF方法所得估計RMSE的Mean、SD和置信域的CP均有相近的結(jié)果，但是CQREL能得到精度更高的置信域，從而比CQRQIF有更好的有限樣本性質(zhì)。

3 結(jié)束語

在縱向數(shù)據(jù)下，本文將CQR和EL方法相結(jié)合，得到了模型參數(shù)更加有效且穩(wěn)健的估計。同時在理論上證明了所得估計和經(jīng)驗對數(shù)似然比統(tǒng)計量的漸近性質(zhì)。借助QIF的思想考慮數(shù)據(jù)相關(guān)性，在估計過程中無需估計工作相關(guān)矩陣中的討厭參數(shù)，并且所構(gòu)造的置信域的形狀完全由數(shù)據(jù)本身決定，無需預先估計漸近方差。通過數(shù)值模擬得到了更加有效和穩(wěn)健的參數(shù)估計結(jié)果，并且在平均覆蓋概率接近95%的情況下，構(gòu)造出精度更高的置信域。

本文僅究了縱向數(shù)據(jù)下線性模型的統(tǒng)計推斷問題，未來可將該方法推廣到部分線性變系數(shù)模型、單指標模型等半?yún)?shù)模型中，同時考慮響應變量缺失的情況。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

縱向數(shù)據(jù)下基于復合分位數(shù)回歸的經(jīng)驗似然推斷

引 言

1 參數(shù)估計方法

1.1 CQREL方法

1.2 估計的漸近性質(zhì)

2 數(shù)值模擬

3 結(jié)束語

引言