劉娟芳,薛留根,胡玉琴,3
(1.北京工業(yè)大學(xué)應(yīng)用數(shù)理學(xué)院,北京 100124;2.河南師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,河南新鄉(xiāng) 453007;3.浙江財經(jīng)大學(xué)數(shù)據(jù)科學(xué)學(xué)院,杭州 310018)
縱向非單調(diào)缺失數(shù)據(jù)下部分線性模型的廣義經(jīng)驗似然推斷
劉娟芳1,2,薛留根1,胡玉琴1,3
(1.北京工業(yè)大學(xué)應(yīng)用數(shù)理學(xué)院,北京 100124;2.河南師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,河南新鄉(xiāng) 453007;3.浙江財經(jīng)大學(xué)數(shù)據(jù)科學(xué)學(xué)院,杭州 310018)
為了研究縱向非單調(diào)缺失數(shù)據(jù)下部分線性模型的估計問題,基于二次推斷函數(shù)提出了回歸系數(shù)和基準(zhǔn)函數(shù)的廣義經(jīng)驗似然比函數(shù),得到了相應(yīng)的極大經(jīng)驗似然估計.證明了所提出的經(jīng)驗對數(shù)似然比漸近于卡方分布,由此構(gòu)造了相應(yīng)的置信域和逐點置信區(qū)間,模擬研究比較了廣義經(jīng)驗似然與正態(tài)逼近方法的有限樣本性質(zhì).
縱向數(shù)據(jù);非單調(diào)缺失;廣義經(jīng)驗似然;二次推斷函數(shù)
縱向數(shù)據(jù)在計量經(jīng)濟(jì)學(xué)和生物醫(yī)學(xué)研究中常常遇到,此類數(shù)據(jù)集的特點是組間獨立、組內(nèi)相關(guān).考慮來自n個個體的數(shù)據(jù),第i(i=1,2,…,n)個個體有ni次觀測,總的觀測次數(shù)為設(shè)Yij和 Xij、Tij分別是第i個個體的第j(j=1,2,…,ni)次觀測的響應(yīng)變量和協(xié)變量,其中Xij是p×1向量,Tij是數(shù)量或時間.本文考慮部分線性模型
式中:β為p×1維未知回歸系數(shù)向量;g(t)為定義在閉區(qū)間[0,1]上的未知光滑函數(shù);εij為隨機(jī)誤差,且滿足E(εij|Xij,Tij)=0和假定來自不同個體的觀測相互獨立.為了表述方便,記Yi=(Yi1,Yi2,…,Yini)T,對Xi和Ti也類似,g(Ti)=(g(Ti1),…,g(Tini))T.
縱向數(shù)據(jù)的關(guān)鍵問題是如何處理個體觀測的組內(nèi)相關(guān)性.You等[1]和Xue等[2]在假定工作獨立(即忽略個體內(nèi)相關(guān)性)下,基于Owen[3]提出的經(jīng)驗似然(empirical likelihood,EL)方法分別構(gòu)造了模型(1)中參數(shù)的經(jīng)驗似然置信域.Liang等[4]在廣義線性模型下提出了廣義估計方程(generalized estimating equations,GEE)方法,通過假定工作相關(guān)矩陣并估計其中少量的討厭參數(shù)來得到模型中參數(shù)的估計.即使工作相關(guān)矩陣錯誤指定,GEE方法仍能得到參數(shù)的相合估計,但是估計的效率降低.為了解決這個問題,Qu等[5]提出二次推斷函數(shù)(quadratic inference function,QIF)方法,其主要思想是將工作相關(guān)矩陣的逆用一些已知基矩陣的線性組合來逼近,避免了對討厭參數(shù)的估計.在工作相關(guān)矩陣指定錯誤情況下,QIF方法比GEE方法更有效.該方法已經(jīng)成為處理縱向數(shù)據(jù)的重要工具.Bai等[6]研究了縱向數(shù)據(jù)下部分線性模型的QIF估計.Qu等[7]將QIF方法用于研究縱向數(shù)據(jù)變系數(shù)模型.這些都是在縱向數(shù)據(jù)下對QIF的研究,還很少見到將QIF方法用于研究不完全縱向數(shù)據(jù)的情形,這是本文感興趣的問題.
近年來,缺失數(shù)據(jù)問題在應(yīng)用領(lǐng)域引起人們的普遍關(guān)注.從缺失機(jī)制上可將缺失數(shù)據(jù)分為3類:完全隨機(jī)缺失,是指數(shù)據(jù)缺失的概率不依賴于任何觀測到的或缺失的數(shù)據(jù);隨機(jī)缺失,是指缺失概率只依賴于觀測到的數(shù)據(jù)而與缺失的數(shù)據(jù)無關(guān);非隨機(jī)缺失,是指缺失概率依賴于缺失數(shù)據(jù)本身.從數(shù)據(jù)缺失模式上,可以分為單調(diào)缺失和非單調(diào)缺失2種,前者指個體在某一時刻退出試驗后再也沒有回來,否則是非單調(diào)缺失,也稱為任意缺失模式.本文研究的是非單調(diào)缺失的情形.Robins等[8]提出了逆概率加權(quán)廣義估計方程(inverse probability-weighted generalized estimating equations,IPWGEE)方法,研究了單調(diào)缺失縱向數(shù)據(jù)下半?yún)?shù)模型中回歸參數(shù)的估計.Zhou等[9]研究了單調(diào)缺失縱向數(shù)據(jù)下的廣義部分線性模型,利用總體水平信息,結(jié)合偽經(jīng)驗似然和IPWGEE得到參數(shù)分量和非參數(shù)分量的估計.Sinha等[10]和Sanjoy等[11]研究了縱向非單調(diào)缺失,二者是基于偽似然或似然的方法.本文的想法是用經(jīng)驗似然方法處理非單調(diào)缺失縱向數(shù)據(jù)下半?yún)?shù)模型的估計問題,提出了回歸系數(shù)的基于QIF的廣義經(jīng)驗對數(shù)似然比統(tǒng)計量以及基準(zhǔn)函數(shù)的基于殘差調(diào)整的經(jīng)驗對數(shù)似然比統(tǒng)計量,并證明它們漸近服從χ2分布.最后,模擬研究了所提方法的有限樣本性質(zhì).
本文考慮響應(yīng)變量Yi缺失下的模型(1),引入變量δij表示Yij可以觀測到的示性函數(shù),即Yij觀測到時δij=1,否則δij=0.假定Yij為隨機(jī)缺失,即
式中π(·,·)未知.式(2)表明在給定協(xié)變量Xi和Ti下,δij和Yij條件獨立.該假定在實際應(yīng)用中通常是合理的[12].
注意到
兩端取給定Tij下的條件期望,得
下面記
為了構(gòu)造β的經(jīng)驗似然比函數(shù),提出廣義輔助隨機(jī)向量
式中:Δi=diag{δi1,δi2,…,δini};Vi為含有討厭參數(shù)α的工作協(xié)方差矩陣.根據(jù)Liang等[4]的研究,這里Ai=diag{Var(Yi1),Ri(α)是一個ni×ni的工作相關(guān)矩陣,而工作相關(guān)矩陣Ri(α)完全由參數(shù)向量α決定.如果工作相關(guān)矩陣指定錯誤,由式(3)得到的估計不再是最有效的估計.為此,Qu等[5]提出QIF方法,其主要思想是把工作相關(guān)矩陣的逆用一些已知基矩陣的線性組合進(jìn)行逼近,即
式中:M1,M2,…,Ms是已知的基矩陣;a1,a2,…,as是未知的常數(shù)系數(shù).QIF方法的優(yōu)點在于不需要估計這些討厭參數(shù)a1,a2,…,as.將式(4)帶入式(3),得到的輔助向量
為了避免估計討厭參數(shù),定義擴(kuò)展的廣義得分向量
首先給出所需要的一些正則化條件.
注 條件C1~C6是文獻(xiàn)中經(jīng)常用的普通條件.條件C1保證不需要欠光滑非參數(shù)估計,進(jìn)而可以用數(shù)據(jù)驅(qū)動的方法選擇窗寬.條件C2對核函數(shù)的緊支撐的要求僅僅是技術(shù)上的假定,在實際應(yīng)用中可以放寬到使用小尾的核,比如常用的標(biāo)準(zhǔn)Gauss核.條件C4保證了的分母以概率1有界且下確界大于0;再結(jié)合條件C3和C5可以保證有高階的收斂速度.條件C6是基本的假定.
定理1 假設(shè)條件C1~C6成立,如果β是參數(shù)真值,則有
定理2 假設(shè)條件C1~C6成立,那么當(dāng)n→∞時,有
定理3 假設(shè)條件C1~C6成立,那么
式中:σ2(t0)=ν2(t0)(f(t0))-2;b(t0)和ν2(t0)分別在式(21)和(22)中定義.
類似Xue等[2],如果用Nh2/ln N→∞和Nh5→0代替條件C1,即采用欠光滑的方法,偏差項b(t0)就不存在了.
定理4 假設(shè)條件C1~C6成立,如果g(t0)是基準(zhǔn)函數(shù)真值,則
模擬產(chǎn)生500個數(shù)據(jù)集,每個數(shù)據(jù)集包含n= 100個個體,并且每個個體觀測5次.考慮部分線性模型
應(yīng)用廣義經(jīng)驗似然(generalized empirical likelihood,GEL)以及正態(tài)逼近(normal approximation,NA)給出參數(shù)β1、β2的置信域,模擬結(jié)果見圖1.
從圖1可以看出,GEL給出了比NA更小的置信域,且GEL的覆蓋概率為0.942,而NA的覆蓋概率為0.939,這說明了GEL比NA給出的置信域精度更高.
對非參函數(shù)g(t),比較REL和NA.模擬結(jié)果見圖2、3.
從圖2、3可以看出,殘差調(diào)整的經(jīng)驗似然明顯優(yōu)于正態(tài),因為REL比NA給出更短的置信區(qū)間且覆蓋概率更接近0.95,這和不存在缺失數(shù)據(jù)時薛留根等[15]的結(jié)果類似.
1)考慮了數(shù)據(jù)的組內(nèi)相關(guān)性,并避免了對討厭參數(shù)的估計,給出了回歸系數(shù)的廣義經(jīng)驗對數(shù)似然比函數(shù),并證明是漸近中心卡方分布.
2)用填補(bǔ)技術(shù),給出了基準(zhǔn)函數(shù)的經(jīng)驗對數(shù)似然比函數(shù),證明了極大經(jīng)驗似然估計的漸近正態(tài)性,但是非中心卡方分布.
3)在結(jié)論2)的基礎(chǔ)上,提出殘差調(diào)整的經(jīng)驗對數(shù)似然比函數(shù),證明是漸近中心卡方分布,避免了對基準(zhǔn)函數(shù)的欠光滑.
為了表述方便,用c表示不同的常數(shù).
[1]YOU J H,CHEN G M,ZHOU Y.Block empirical likelihood for longitudinal partially linear regression models[J].Canadian J Statist,2006,34:79-96.
[2]XUE L G,ZHU L X.Empirical likelihood semiparametric regression analysis for longitudinal data[J].Biometrika,2007,94:921-937.
[3]OWEN A.Empirical likelihood ratio confidence intervals for a single function[J].Biometrika,1988,75:237-249.
[4]LIANG K Y,ZEGER S L.Longitudinal data analysis using generalized linear models[J].Biometrika,1986,73:13-22.
[5]QU A,LINDSAY B G,LI B.Improving generalised estimating equations using quadratic inference functions[J].Biometrika,2000,87:823-836.
[6]BAI Y,ZHU Z Y,F(xiàn)UNG W K.Partial linear models for longitudinal data based on quadratic inference function[J].Scand J Stat,2008,35:104-118.
[7]QU A,LI R.Quadratic inference functions for varyingcoefficient models with longitudinal data[J].Biometrika,2006,62:379-391.
[8]ROBINS J M,ROTNITZKY A,ZHAO L P.Analysis of semiparametric regression models for repeated outcomes in the presence of missing data[J].J Am Statist Assoc,1995,90:106-121.
[9]ZHOU X H,CHEN B J.Generalized partially linear models for incomplete longitudinal data in the presence of population-level information[J].Biometrics,2013,69: 386-395.
[10]SINHA S K,TROXEL A B,LIPSITZ S R,et al.A bivariate pseudolikelihoodforincompletelongitudinal binary with nonignorable nonmonotone missingness[J].Biometrics,2011,67:1119-1126.
[11]SANJOY K S,KAUSHAL A,XIAO W Z.Inference for longitudinal data with nonignorable nonmonotone missing responses[J].Comput Stat Data Analysis,2014,72: 77-91.
[12]DANIELSMJ,HOGANJW.Missingdatain longitudinal studies[M].London:Chapman and Hall,2008:91-94.
[13]NADARAYA E A.On non-parametric estimates of density function and regression curves[J].Theory Prob Appl,1965,10:186-190.
[14]RICE J A,SILVEMAN B W.Estimating the mean and covariance structure nonparametrically when the data are curves[J].J Roy Statist Soc Ser B,1991,53:233-243.
[15]薛留根,朱力行.縱向數(shù)據(jù)下部分線性模型的經(jīng)驗似然推斷[J].中國科學(xué),2007,37(1):31-44.XUE L G,ZHU L X.Empirical likelihood for partially linear models with longitudinal data[J].Science China,2007,37:31-44.(in Chinese)
[16]ZHANG T,ZHU Z Y.Empirical likelihood inference for longitudinal data with missing response variables and error-prone-cobariates[J].Cmmmun Statist-Theory and Method,2011,40:3230-3244.
[17]XUELG,ZHULX.Empiricallikelihoodin nonparametric and semiparametric models[M].Beijing: Science Press,2010:220-226.
[18]OWEN A.Empirical likelihood confidence regions[J].Ann Statist,1990,18:90-120.
[19]SERFLING R.Approximation theorems of mathematical statistics[M].New York:Wiley,1980:28-35.
(責(zé)任編輯 呂小紅)
Generalized Empirical Likelihood in Partially Linear Modes for Longitudinal With Non-monotone Missing Data
LIU Juanfang1,2,XUE Liugen1,HU Yuqin1,3
(1.College of Applied Sciences,Beijing University of Technology,Beijing 100124,China;2.College of Mathematics and Sciences,Henan Normal University,Xinxiang,Henan 453007,China;3.School of Data Sciences,Zhejiang University of Finance and Economics,Hangzhou 310018,China)
To study the estimation in partially linear models for longitudinal with non-monotone missing data,based on quadratic inference functions,the generalized empirical likelihood method is used to estimate the regression coefficients and the baseline function,and the corresponding maximum empirical likelihood estimators are derived.The empirical log-likelihood ratios are proven to be asymptotically chisquared,and the corresponding confidence regions and intervals are then constructed.The numerical study is conducted to compare the finite sample behavior of the generalized empirical likelihood and the normal approximation-based method.
longitudinal data;non-monotone missing;generalized empirical likelihood;quadratic inference functions
O 212.7
A
0254-0037(2016)10-1588-09
10.11936/bjutxb2015120013
2015-12-06
國家自然科學(xué)基金資助項目(11331011),北京市自然科學(xué)基金資助項目(1142003)
劉娟芳(1980—),女,博士研究生,主要從事半?yún)?shù)統(tǒng)計與數(shù)據(jù)分析方面的研究,E-mail:liujuanfang@emails.bjut.edu.cn