劉 宇,李 霓
(海南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,海南 海口 571158)
右刪失數(shù)據(jù)是刪失數(shù)據(jù)中最常見的一種,經(jīng)常出現(xiàn)在醫(yī)學(xué)研究和臨床試驗(yàn)。在試驗(yàn)中,試驗(yàn)的時(shí)間是固定的并且每一個(gè)被研究的對(duì)象是以不同的時(shí)間進(jìn)入試驗(yàn)中。在試驗(yàn)研究中,一些被研究的對(duì)象可能在研究未結(jié)束之前就已經(jīng)死亡,這種情況下,他們的生存時(shí)間是確定的;而有些被研究的對(duì)象可能在試驗(yàn)研究未結(jié)束之前中途退出或者突然失蹤,對(duì)于這種情況,他們的生存時(shí)間存在刪失;除了之前所提及的情況,還存在一些被研究的對(duì)象在試驗(yàn)結(jié)束之后仍然存活,因此他們的生存時(shí)間至少是進(jìn)入試驗(yàn)研究到研究結(jié)束這段時(shí)間。由于右刪失的存在,對(duì)回歸參數(shù)的估計(jì)通常使用秩估計(jì)方法,然而這種估計(jì)方法的算法很復(fù)雜并且參數(shù)的方差不容易被計(jì)算,因此,本研究考慮使用經(jīng)驗(yàn)似然方法進(jìn)行統(tǒng)計(jì)推斷。
經(jīng)驗(yàn)似然的方法是由Owen[1-3]提出,其思想起源于Thomas和Grunkemeier[4],該方法是一種非參方法并且對(duì)數(shù)據(jù)的分布函數(shù)不需要做任何的假設(shè),與傳統(tǒng)的正態(tài)逼近方法的不同之處是不需要估計(jì)協(xié)方差去構(gòu)造置信區(qū)間,自O(shè)wen 將經(jīng)驗(yàn)似然方法引入統(tǒng)計(jì)研究領(lǐng)域以來得到了廣泛的應(yīng)用。Qin 和Lawless 介紹了經(jīng)驗(yàn)似然方法以及該方法的核心估計(jì)方程[5]。Qin和Jing考慮了經(jīng)驗(yàn)似然方法在部分線性模型下的應(yīng)用,并通過數(shù)值模擬比較傳統(tǒng)的漸近正態(tài)方法,結(jié)果表明經(jīng)驗(yàn)似然方法的結(jié)果明顯優(yōu)于漸近正態(tài)方法[6]。Zhang和Zhao為區(qū)間刪失時(shí)間數(shù)據(jù)的線性變換模型提出了經(jīng)驗(yàn)似然方法[7]。
無偏轉(zhuǎn)換量法是處理右刪失數(shù)據(jù)的一種有效的方法,該方法有三種類型:Buckley-James估計(jì)[8-9]、KSV估計(jì)[10]和Class K估計(jì),其中KSV估計(jì)是Class K估計(jì)的一種特殊情形。在一般的模型研究中,首先采用合成數(shù)據(jù)方法將右刪失數(shù)據(jù)完整化,即用合成變量代替響應(yīng)變量,并且二者的期望是相等的,之后應(yīng)用經(jīng)驗(yàn)似然方法估計(jì)未知參數(shù)。如Li 和Wang 在對(duì)右刪失數(shù)據(jù)下的線性模型進(jìn)行經(jīng)驗(yàn)似然推斷中考慮了Koul、Susala 和Ryzin的KSV方法,并在此基礎(chǔ)之上構(gòu)造了調(diào)整因子,得到的調(diào)整經(jīng)驗(yàn)似然統(tǒng)計(jì)量收斂于標(biāo)準(zhǔn)的卡方分布,提高了線性模型中未知參數(shù)置信區(qū)間的精度[11]。Qin等利用KSV方法對(duì)刪失數(shù)據(jù)進(jìn)行處理分析,研究了部分線性模型中的經(jīng)驗(yàn)似然推斷[12]。孫志猛等提出了基于KSV 方法的線性變換模型回歸系數(shù)的經(jīng)驗(yàn)似然推斷[13]。鄧文麗等對(duì)刪失的響應(yīng)變量運(yùn)用無偏轉(zhuǎn)換量,并利用最小二乘方法得到回歸系數(shù)的估計(jì),其估計(jì)具有相合性和漸近正態(tài)性[14]。Fang等基于線性模型提出了一種新的經(jīng)驗(yàn)似然方法,在此過程中使用了Buckley-James估計(jì),證明了KSV方法比Buckley-James需要更強(qiáng)的假設(shè),并且進(jìn)行了數(shù)值模擬研究,結(jié)果顯示該方法優(yōu)于Li和Wang的方法[15]。
本研究基于線性轉(zhuǎn)換模型,采用Buckley-James估計(jì)將右刪失數(shù)據(jù)完整化,并對(duì)完整化后數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)似然推斷,之后進(jìn)行了數(shù)值模擬,模擬結(jié)果顯示在較弱的條件下,本研究所提出的方法優(yōu)于孫志猛等的方法。最后,給出了引理和定理的證明。
若H和μX是已知的,檢驗(yàn)假設(shè)H0就等于H。然而H和μX是未知的,因此需要估計(jì)H和μX的值并且將其代入式(3)中。首先對(duì)于μX,用樣本均值-X作為其估計(jì)值;其次對(duì)于H,采用Chen等基于鞅的性質(zhì)得到的H的有效估計(jì)值H?[16]。將所得到的估計(jì)值H?和-X代入式(3),記
為了更好地評(píng)估所提出的經(jīng)驗(yàn)似然方法的性能,本研究進(jìn)行了數(shù)值模擬,把基于Buckley-James方程所提出的經(jīng)驗(yàn)似然方法(ELBJ)和孫志猛等基于KSV方法所提出的經(jīng)驗(yàn)似然方法(ELSD)[13]相比較。模擬研究中考慮了兩種模型:模型1,協(xié)變量X的分布是伯努利分布且成功概率為0.5,刪失變量C的服從均勻分布[0,c],其中c決定刪失率,ε的分布是零均值的極值分布;模型2,協(xié)變量X服從正態(tài)分布N(0,0.52),其他變量與模型1的選擇是相同的。
在這兩種模型中,H選取自然對(duì)數(shù)函數(shù),回歸參數(shù)β= 1,響應(yīng)變量T由各個(gè)模型生成。此模擬研究考慮的刪失率(CR)為15%、30%、45%,樣本容量( )n為60、80、100。兩種模型所得出β的置信區(qū)間覆蓋率分別展示在表1和表2。
表1 模型1中β的置信區(qū)間覆蓋率Table 1 Coverage probabilities of confidence region for β in model 1
表2 模型2中β的置信區(qū)間覆蓋率Table 2 Coverage probabilities of confidence region for β in model 2
從表1和表2中很容易看出,在這兩種模型中,β的覆蓋率均接近正態(tài)水平且當(dāng)刪失率增大時(shí),β的覆蓋率減少。在刪失率較大且樣本量小時(shí),基于Buckley-James方程的經(jīng)驗(yàn)似然方法得出的β的覆蓋率明顯優(yōu)于基于KSV方法的經(jīng)驗(yàn)似然方法,此時(shí)顯示出文中所提出的方法是有效的。