熊 巍,王 娟,潘 晗,田茂再
(1.對外經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100029;2.北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100871;3.中國人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100872)
在實(shí)際應(yīng)用中,由于客觀條件的限制以及數(shù)據(jù)收集渠道、數(shù)據(jù)結(jié)構(gòu)的差異化,某些數(shù)據(jù)通常被標(biāo)記為未知、空白等,這種數(shù)據(jù)即為缺失數(shù)據(jù)。缺失數(shù)據(jù)問題普遍存在于抽樣調(diào)查、社會科學(xué)、教育學(xué)、流行病學(xué)等許多領(lǐng)域。新冠病毒感染疫情爆發(fā)以來,由于不同地區(qū)統(tǒng)計(jì)口徑、時間口徑以及數(shù)據(jù)收集手段的差異,某些地區(qū)的病例詳情在一段時間內(nèi)會出現(xiàn)缺失,給研究者們開展實(shí)際分析帶來重重困難。若不對缺失數(shù)據(jù)加以處理,統(tǒng)計(jì)分析工作中的有效樣本量將會縮小,導(dǎo)致統(tǒng)計(jì)效率下降及分析結(jié)果偏誤。另外,隨著科技的發(fā)展以及可獲取數(shù)據(jù)維度的增高,高維缺失數(shù)據(jù)已成為常態(tài),特別是高維隨機(jī)設(shè)計(jì)陣中缺失項(xiàng)通常具有厚尾特征,使得利用常規(guī)處理方法得到的結(jié)果往往不穩(wěn)健,難以有效代表總體。面對高維特征,如何利用不完全數(shù)據(jù)對總體做出科學(xué)準(zhǔn)確的推斷,已成為數(shù)據(jù)科學(xué)時代統(tǒng)計(jì)研究的難點(diǎn)和熱點(diǎn)問題。據(jù)此,本文圍繞高維缺失數(shù)據(jù),綜合使用加法模型和增強(qiáng)的逆概率加權(quán)估計(jì)并融入?yún)f(xié)變量平衡傾向性評分,提出一類新的穩(wěn)健有效的估計(jì)量,不僅發(fā)掘未充分利用的潛在信息,提升數(shù)據(jù)分析效率,還能避免高維非參數(shù)問題中的維數(shù)災(zāi)難,為有效處理高維缺失數(shù)據(jù)提供新的研究視角和可靠的統(tǒng)計(jì)工具。
本文重點(diǎn)研究隨機(jī)缺失機(jī)制下高維數(shù)據(jù)的穩(wěn)健插補(bǔ)問題。自Rubin提出缺失機(jī)制的概念以來[1],國內(nèi)外學(xué)者對缺失數(shù)據(jù)問題的研究日益增多,并涌現(xiàn)出大量成果探討缺失數(shù)據(jù)的處理方法,最常用的是插補(bǔ)法。研究者們可以利用最可能的值去替代缺失值,如人工填寫、均值插補(bǔ)等;也可以借助統(tǒng)計(jì)模型或機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)缺失值的填充,如回歸插補(bǔ)、基于極大似然估計(jì)、聚類和關(guān)聯(lián)規(guī)則的插補(bǔ)等。而在眾多的缺失數(shù)據(jù)插補(bǔ)研究中,最具有代表性的兩類插補(bǔ)方法為基于傾向性評分的插補(bǔ)方法以及逆概率加權(quán)法(IPW)。傾向性評分由Rosenbaum和Rubin提出,用來度量實(shí)驗(yàn)設(shè)計(jì)中不同治療組間的處理效應(yīng),其基本原理是將多個協(xié)變量的影響用一個傾向評分值加以表示,并根據(jù)評分值進(jìn)行不同組間的匹配(PSM)或加權(quán)(PSW),使觀察數(shù)據(jù)達(dá)到“接近隨機(jī)分配數(shù)據(jù)”的效果,實(shí)現(xiàn)有效降維[2]。傾向性評分模型自提出以來被廣泛應(yīng)用于各個領(lǐng)域,如抽樣調(diào)查中對總體參數(shù)的推斷問題,金勇進(jìn)和劉曉宇考慮到權(quán)數(shù)對模型推斷的影響,提出將權(quán)數(shù)引入傾向性評分模型及預(yù)測模型,構(gòu)造了一種雙重穩(wěn)健估計(jì)方法,有效提升了處理效應(yīng)估計(jì)結(jié)果的準(zhǔn)確率[3]。逆概率加權(quán)法由Horvitz和Thompson提出,要求先估計(jì)缺失概率,再利用缺失概率加權(quán)確定最終估計(jì)結(jié)果,但該方法僅當(dāng)缺失概率已知或模型被正確參數(shù)化時表現(xiàn)良好[4]。為此,Robins等提出了IPW估計(jì)量的增強(qiáng)版本,并表明該類估計(jì)量具有雙穩(wěn)健性,即缺失概率結(jié)構(gòu)和均值回歸函數(shù)的參數(shù)結(jié)構(gòu)只要有一個設(shè)定正確,IPW估計(jì)量就具有相合性[5]。這一優(yōu)良性質(zhì)激發(fā)了學(xué)者們借鑒逆概率加權(quán)思想對隨機(jī)缺失機(jī)制下的模型選擇與估計(jì)問題進(jìn)行更深入的研究[6-7]。
隨著可獲取數(shù)據(jù)維度的不斷增高,數(shù)據(jù)的缺失比例也在逐步攀升,若每一特征都以一定概率缺失,缺失數(shù)據(jù)的規(guī)模將相當(dāng)可觀。然而,高維數(shù)據(jù)的復(fù)雜性伴隨著其稀疏特性使得傳統(tǒng)插補(bǔ)方法幾乎失效,如Garcia等采用的基于EM算法的插補(bǔ)方法在維度增大時,計(jì)算量大幅度地膨脹,估計(jì)量的有效性極大削減[8]。為提高高維缺失數(shù)據(jù)插補(bǔ)的有效性同時減緩運(yùn)算壓力,近年來降維技術(shù)廣泛地應(yīng)用于缺失值插補(bǔ)中。祝麗萍和邵偉利用多元函數(shù)提出一種半?yún)?shù)降維方法,將高維數(shù)據(jù)轉(zhuǎn)化為一元數(shù)據(jù),并利用核回歸實(shí)現(xiàn)了缺失值插補(bǔ),在避免維數(shù)災(zāi)難的同時,保證了估計(jì)量的無偏性,但該方法在數(shù)據(jù)轉(zhuǎn)換過程中會損失原始數(shù)據(jù)信息[9];熊巍等針對高維成分?jǐn)?shù)據(jù)結(jié)合Lasso分位回歸及修正的EM算法提出了一種穩(wěn)健的近似零值插補(bǔ)方法,但該方法需對原始數(shù)據(jù)進(jìn)行一定的預(yù)處理[10]。Wang等利用增強(qiáng)的IPW并結(jié)合充分降維方法,將高維協(xié)變量映射到低維空間,實(shí)現(xiàn)了響應(yīng)變量的均值插補(bǔ)及雙穩(wěn)健特性,然而一旦模型被錯誤設(shè)定,該方法的估計(jì)效率會大打折扣[11]??梢娚鲜龇椒ɑ蚱茐脑紨?shù)據(jù)結(jié)構(gòu),或存在模型誤設(shè)的風(fēng)險,不宜直接應(yīng)用于高維缺失數(shù)據(jù),特別在實(shí)際應(yīng)用中,鮮少有先驗(yàn)信息表明響應(yīng)變量的條件期望是線性函數(shù)或?qū)儆谝粋€有限維參數(shù)空間。邰凌楠等結(jié)合傾向評分匹配和模型平均,提出了逆概率多重加權(quán)估計(jì),并在理論性質(zhì)及實(shí)際應(yīng)用中證實(shí)了傾向匹配方法可以顯著增強(qiáng)估計(jì)量的穩(wěn)健性及有效性[12]。然而如上方法需要準(zhǔn)確的傾向性評分估計(jì),輕微的傾向評分模型的誤設(shè)都會導(dǎo)致處理效應(yīng)的嚴(yán)重偏差[13-14]。這也凸顯了傾向性評分的矛盾性:其本質(zhì)為降低協(xié)變量的維數(shù),但其估計(jì)需要高維協(xié)變量的合理建模。雖然已有各種方法對PSM和PSW進(jìn)行改進(jìn)和完善[7,15],但尚缺乏穩(wěn)健性。而Imai和Ratkovic提出的協(xié)變量平衡傾向性評分(CBPS)方法[16]通過選擇使協(xié)變量平衡最大化的參數(shù)值能夠消除傾向評分模型誤設(shè)帶來的影響,當(dāng)PSM和PSW表現(xiàn)不好時,CBPS卻能顯著提升性能。目前,CBPS方法已應(yīng)用于缺失插補(bǔ)領(lǐng)域,然而相關(guān)方法仍基于線性模型[17]。綜上,已有高維缺失插補(bǔ)文獻(xiàn)或基于線性模型,或僅考慮IPW估計(jì)和CBPS中的一種方法,不夠穩(wěn)健,難以處理高維隨機(jī)設(shè)計(jì)陣中具有厚尾特征的隨機(jī)缺失項(xiàng)。于是本文綜合利用IPW估計(jì)和CBPS方法的優(yōu)勢,并通過引入一類更加靈活的非參數(shù)加法模型[18],以期對高維缺失問題的理論建立帶來有效改善,實(shí)現(xiàn)雙重降維及多重穩(wěn)健性。
加法模型(AM)如式(1)所示:
(1)
其中,α為截距項(xiàng),{mk(·),k=1,2,…,d}為未知的光滑函數(shù)集,ε為誤差項(xiàng),并滿足E(ε)=0,var(ε)=σ2<∞。為保證式(1)的可識別性,假定每一特征滿足E(mk(Xk))=0。由式(1),加法模型包含了線性模型,又顯著提高了線性模型的靈活度,允許協(xié)變量以一種全新的解析模式進(jìn)入線性模型,具有如下優(yōu)勢:一是能夠捕捉響應(yīng)變量與協(xié)變量之間的非線性關(guān)系,提高建模靈活度;二是在因變量分布不確定或不符合正態(tài)假設(shè)下依然適用;三是保持了非參數(shù)模型數(shù)據(jù)驅(qū)動的優(yōu)勢,同時避免了缺失值插補(bǔ)下協(xié)變量較多引發(fā)的維數(shù)災(zāi)難;四是有效獲取各協(xié)變量的邊際效應(yīng),在構(gòu)建的插補(bǔ)估計(jì)量中能夠充分利用協(xié)變量信息,提高插補(bǔ)精度??梢?應(yīng)用加法模型對高維缺失數(shù)據(jù)進(jìn)行插補(bǔ)是一種合理的選擇。
本文的主要貢獻(xiàn)及創(chuàng)新性如下:首先,已有缺失數(shù)據(jù)插補(bǔ)的文獻(xiàn)多基于線性模型,少數(shù)對高維缺失數(shù)據(jù)插補(bǔ)的穩(wěn)健性進(jìn)行研究。特別是文獻(xiàn)中利用非參數(shù)加法模型對高維缺失數(shù)據(jù)進(jìn)行插補(bǔ)的理論研究尚屬空白。為此,創(chuàng)新性地將增強(qiáng)的IPW方法與加法模型AM融合,應(yīng)用協(xié)變量平衡傾向評分法CBPS估計(jì)缺失概率,提出一種適用于高維缺失數(shù)據(jù)的可加協(xié)變量平衡傾向評分插補(bǔ)方法(CBPS-AM)。該方法不僅具有多重穩(wěn)健性,起到雙重降維的作用,還能實(shí)現(xiàn)建模的靈活性。其次,借鑒廣義矩估計(jì)方法(GMM)和Backfitting算法給出了CBPS估計(jì)算法[19]。該算法簡潔有效,能夠提高數(shù)據(jù)使用效率與插補(bǔ)精度。最后,基于廣義矩估計(jì)理論并綜合應(yīng)用Slutsky定理和加法模型的性質(zhì),證實(shí)了滿足一定條件下,所提CBPS-AM估計(jì)量具有相合性和漸近正態(tài)性。模擬研究與實(shí)證數(shù)據(jù)分析表明,CBPS-AM方法適用于多種場景下的缺失數(shù)據(jù)插補(bǔ)問題,可為高維缺失數(shù)據(jù)的穩(wěn)健插補(bǔ)提供合理的研究思路和有效的理論框架,也能為極端突發(fā)事件的預(yù)測分析提供一定的啟示。
假設(shè)有一個樣本容量為n的觀測數(shù)據(jù)集{(xij,yi):i=1,2,…,n,j=1,2,…,d},X=(X1,X2,…,Xd)為d維協(xié)變量,令xi=(xi1,xi2,…,xid)′,Y為存在部分缺失的一維響應(yīng)變量。本文僅考慮最常用的隨機(jī)缺失機(jī)制,即二元指示變量T的取值僅與X有關(guān):
P(T=1|Y,X)=P(T=1|X)=π(X)
(2)
其中,π(·)為選擇概率(缺失概率)函數(shù),π(x)=P(T=1|X=x)。當(dāng)響應(yīng)變量Y存在隨機(jī)缺失時,現(xiàn)有樣本的分布并不能代表總體的真實(shí)分布,因此僅利用完全觀測到的數(shù)據(jù)對總體進(jìn)行推斷會引起偏誤。為避免數(shù)據(jù)缺失帶來的統(tǒng)計(jì)推斷不準(zhǔn)確、插補(bǔ)失效等問題,本節(jié)從逆概率加權(quán)估計(jì)出發(fā),逐步提出適用于高維缺失數(shù)據(jù)的CBPS-AM插補(bǔ)方法并研究其理論性質(zhì)。
當(dāng)響應(yīng)變量出現(xiàn)隨機(jī)缺失時,Horvitz和Thompson提出IPW法估計(jì)總體均值μ[4]:
(3)
(4)
此外,在觀測性研究中,式(2)中的π(X)也稱為傾向性評分(PS)值,通常未知。為進(jìn)行估計(jì),研究者們經(jīng)常假定其具有某種參數(shù)結(jié)構(gòu),如Logistic模型:
(5)
其中,β為未知的d維參數(shù)向量。若再假定πβ(·)關(guān)于向量β二階連續(xù)可導(dǎo),易得估計(jì)方程:
(6)
(7)
已有高維缺失插補(bǔ)方法或基于線性模型,或僅考慮IPW估計(jì)和CBPS中的一種方法,不夠靈活穩(wěn)健,難以處理高維隨機(jī)設(shè)計(jì)陣中具有厚尾特征的隨機(jī)缺失項(xiàng)。于是本文綜合利用IPW估計(jì)和CBPS方法的優(yōu)勢,并融入加法模型,創(chuàng)新性地構(gòu)建CBPS-AM方法,有效避免維數(shù)災(zāi)難的同時,實(shí)現(xiàn)高維缺失數(shù)據(jù)的穩(wěn)健插補(bǔ)。本節(jié)給出CBPS-AM方法以及相應(yīng)算法:
第1步,利用CBPS估計(jì)選擇概率π(xi)。相應(yīng)估計(jì)方程為:
(8)
對于式(8),利用廣義矩估計(jì)方法(GMM),得到如下廣義矩估計(jì)量:
(9)
第3步,得到CBPS-AM插補(bǔ)估計(jì)值。基于以上兩步,總體均值的CBPS-AM估計(jì)為:
(10)
于是,CBPS-AM算法匯總?cè)缦?
輸入:一組觀測數(shù)據(jù)(yi,xij),i=1,2,…,n,j=1,2,…,d,其中Y為響應(yīng)變量并滿足隨機(jī)缺失機(jī)制,Ti為指示Yi是否缺失的二元指示變量,以及任意小常數(shù)γ。
(3)重復(fù);
(4)forl=1 toK,j=1 tod,執(zhí)行計(jì)算
綜上,CBPS-AM方法具有如下優(yōu)勢:
其一,該方法以增強(qiáng)的IPW為基礎(chǔ),具有雙穩(wěn)健性,只要缺失概率與響應(yīng)變量回歸模型有一結(jié)構(gòu)設(shè)定正確,估計(jì)量就具有相合性。當(dāng)上述兩個模型均被錯誤設(shè)定時,IPW方法表現(xiàn)非常差,而本文提出的CBPS-AM克服了這一問題,且在實(shí)際數(shù)據(jù)關(guān)系難以準(zhǔn)確設(shè)定時仍能得到較好的估計(jì)結(jié)果(見模擬例子)。
其二,應(yīng)用CBPS方法估計(jì)缺失概率,可以有效改進(jìn)缺失概率結(jié)構(gòu)誤設(shè)所帶來的偏誤,具有本文所謂的“穩(wěn)健性”;并且CBPS中通過將高維協(xié)變量匯總為一個評分值,能夠有效處理高維協(xié)變量情形,此為本文所謂的“第一重降維作用”。
其三,使用加法模型模擬均值回歸函數(shù)靈活高效,并能避免高維非參數(shù)的維數(shù)災(zāi)難問題,此為“第二重降維作用”。估計(jì)過程中假定各分量間相互獨(dú)立,估計(jì)效率可以大大提升??梢婋S機(jī)缺失機(jī)制下,利用本文的CBPS-AM方法進(jìn)行插補(bǔ)能夠達(dá)到多重穩(wěn)健、雙重降維的效果。
下面給出所提估計(jì)量CBPS-AM的漸近性質(zhì),對此給出如下所需要的條件和假設(shè)以及記號。令v(x)≡var(Y|X=x),hj表示核函數(shù)中的帶寬,j=1,2,…,d。
(A1)選擇概率(傾向得分)滿足0
(A2)πβ(x)關(guān)于β二階可導(dǎo),且有下界,即πβ(x)≥c0(c0為一正常數(shù));
(A3)設(shè)計(jì)矩陣X的概率密度為f(x),0 (A4)v(x)為連續(xù)函數(shù)且嚴(yán)格正,并具有二階連續(xù)導(dǎo)數(shù); (A5)對于每一個可加函數(shù)mj(x)均二階連續(xù)可微,j=1,2,…,d; (A6)核函數(shù)K(·)是定義在[-1,1]區(qū)間上的對稱密度函數(shù),且滿足李普希茨(Lipschitz)條件; (A7)當(dāng)n→∞時,有n1/5hj→δj(δj為正常數(shù)),j=1,2,…,d。 基于以上條件,可以得到如下定理1和定理2。 定理2在滿足條件(A1)~(A7)時,本文所提的CBPS-AM插補(bǔ)估計(jì)量具有漸近正態(tài)性: 例1(低維情形,d=4) 響應(yīng)變量Y分別來自如下三種不同模型: 模型1:Y=X1+X2+X3+X4+ε,存在模型誤設(shè); 模型2:Y=sin(X1)+sin(X2)+sin(X3)+sin(X4)+ε,存在模型誤設(shè); 模型3:Y=sin(X1)+sin(X2)+sin(X3)+sin(X4)+ε,模型設(shè)定正確。 log(π(X)/(1-π(X)))=-0.2(X1+X2+X3+X4)-0.6 表1 不同插補(bǔ)方法在例1下的模擬結(jié)果(BIAS×0.01(RMSE)) 第三,各插補(bǔ)方法結(jié)果在異方差情形與同方差情形下相似,除CBPS-AM與AM方法,其余五種方法均表現(xiàn)較差。一方面說明,與增強(qiáng)的逆概率加權(quán)方法相比,傳統(tǒng)的IPW方法不具有穩(wěn)健性,估計(jì)量的相合性難以保證,而基于線性模型的插補(bǔ)方法由于缺乏靈活性,也可能導(dǎo)致較高誤差;另一方面表明,缺失概率估計(jì)中,相比于Logistic回歸模型,更宜選擇CBPS方法。 綜上,本文提出的CBPS-AM方法在模型和缺失概率結(jié)構(gòu)存在誤設(shè)與否、均值回歸函數(shù)線性或非線性、誤差方差是同方差還是異方差情形下,與現(xiàn)有插補(bǔ)方法相比都具有更好的估計(jì)結(jié)果,表明了CBPS-AM方法在缺失插補(bǔ)中的優(yōu)越性及多重穩(wěn)健性。此外,隨樣本容量的增加,CBPS-AM方法的均方誤差也逐漸減小,與定理結(jié)論保持一致。 例2(高維情形,d=100) 本例考慮高維情形,響應(yīng)變量Y來自如下模型: Y=g1(X1)+g2(X2)+g3(X3)+g4(X4)+1.5g1(X5)+1.5g2(X6)+1.5g3(X7)+1.5g4(X8)+ log(π(X)/(1-π(X)))=0.2(X1+X2…+X5-X6-X7…-X10+2X11+2X12)+0.6 考慮n=50,200,1 000。令t=0,1,當(dāng)t=0時,協(xié)變量之間相互獨(dú)立;當(dāng)t=1時,協(xié)變量之間中度相關(guān),相關(guān)系數(shù)為0.5,插補(bǔ)結(jié)果如表2所示。 綜上,本文提出的CBPS-AM方法在高維缺失數(shù)據(jù)中具有良好的適應(yīng)性和穩(wěn)健性,不僅能夠有效避免高維“維數(shù)災(zāi)難”,還適用于自變量高度相關(guān)、誤差項(xiàng)厚尾及偏態(tài)分布的情形。 表2 例2不同插補(bǔ)方法模擬結(jié)果(BIAS×0.01(RMSE)) 艾滋病由人類免疫缺陷病毒(簡稱“HIV”)引起,已成為21世紀(jì)威脅人類健康最大的傳染病之一。HIV會破壞人體免疫系統(tǒng),使其喪失抵抗各種疾病的能力,進(jìn)而嚴(yán)重危害生命。人類免疫系統(tǒng)的CD4細(xì)胞在抵御HIV的入侵中起著重要作用,當(dāng)CD4被HIV感染裂解時,其數(shù)量會急劇減少,HIV將迅速增加,終至艾滋病發(fā)作。于是需要有效的治療手段盡量減少人體內(nèi)HIV的數(shù)量,同時激活更多的CD4,以提高人體免疫能力。為探究不同治療方案對患者的療效是否存在顯著差異,本文將CBPS-AM方法應(yīng)用于HIV數(shù)據(jù)集以建立科學(xué)的綜合評價以及針對療效的合理預(yù)測。 HIV數(shù)據(jù)集包含2 139個HIV感染患者[20],記錄了每個患者的人口統(tǒng)計(jì)學(xué)特征,如年齡、性別、種族、有無病史及給予抗轉(zhuǎn)錄病毒治療后的一些生理指標(biāo)在不同階段的表現(xiàn)。本文主要研究不同治療方案對患者的治療效果是否存在顯著差異,響應(yīng)變量為:接受抗轉(zhuǎn)錄病毒治療后96±5周的CD4數(shù)量(單位為:每立方毫米)。CD4 96±5細(xì)胞數(shù)量可以衡量艾滋病的發(fā)病風(fēng)險,其水平越低患病風(fēng)險越大。由于跟蹤病患會出現(xiàn)死亡及中途退出,CD4 96±5存在缺失,總體缺失率高達(dá)37.26%。本文還考慮了6個連續(xù)協(xié)變量,分別為:年齡、體重、CD4 0±5、CD4 20±5、CD8 0±5以及CD8 20±5。試驗(yàn)小組隨機(jī)地將這些病患分成四組,對應(yīng)四種不同日用藥,見表3。治療現(xiàn)狀(CD4 96±5)與CD4和CD8計(jì)數(shù)在0±5周、20±5周記錄有關(guān)。 表3 病患分組及治療方案 圖1 四種治療方案下96±5周CD4計(jì)數(shù)水平估計(jì) 缺失的96±5周的CD4計(jì)數(shù)受協(xié)變量的影響,如若跟蹤患者不能接受有效的治療,感染HIV低基線CD4計(jì)數(shù)的患者可能更容易退出。本文假定跟蹤受訪是隨機(jī)缺失的,即只與六個協(xié)變量有關(guān),而與缺失的96±5周CD4計(jì)數(shù)無關(guān),這在實(shí)際應(yīng)用中也是較為合理的。 為對比分析,利用觀測數(shù)據(jù)分別計(jì)算如上所述七個估計(jì)量,四種不同治療方案下各估計(jì)結(jié)果在圖1中給出,橫坐標(biāo)表示四種不同治療方案,縱坐標(biāo)代表經(jīng)過治療后的CD4水平。圖1表明,七種插補(bǔ)方法得到的估計(jì)結(jié)果相差不大。對比各治療方案療效可以發(fā)現(xiàn)在艾滋病的治療中,組合治療均優(yōu)于單一療法,單一療法中新藥DID療效更佳;和新藥DID搭配服用的治療方案3在所有方案中療效最佳。 表4 各插補(bǔ)方法在HIV臨床試驗(yàn)數(shù)據(jù)的預(yù)測能力 表4給出了200次模擬下預(yù)測誤差指標(biāo)的平均值,進(jìn)一步表明:(1)直接刪除缺失值預(yù)測性能最差,因其損耗原始數(shù)據(jù)信息,這也闡明了缺失值插補(bǔ)的必要性;(2)與模擬研究結(jié)果類似,基于CBPS和線性模型的插補(bǔ)方法預(yù)測性能相對較差,而基于加法模型的插補(bǔ)方法不論在預(yù)測的準(zhǔn)確性和穩(wěn)定性上都表現(xiàn)較優(yōu),尤其本文提出的CBPS-AM方法具有最小的預(yù)測誤差。因此,CBPS-AM方法能最大程度恢復(fù)數(shù)據(jù)原貌,更好地提升數(shù)據(jù)的預(yù)測性能。 2020年初,一場突如其來的新冠病毒感染疫情在全球大范圍蔓延。面對嚴(yán)峻形勢,中國政府積極采取防控措施切斷傳染源,對重點(diǎn)人群進(jìn)行核酸檢測,做到“應(yīng)檢盡檢”,啟用“小湯山”模式對確診患者實(shí)施醫(yī)療救治,使得疫情得到有效控制,疫情態(tài)勢逐漸向好。防控過程中,為有效把握疫情發(fā)展態(tài)勢,降低疑似病例流動率,及時掌握疫情動態(tài)變化是相關(guān)部門的重點(diǎn)關(guān)注問題。然而這類極端事件更易出現(xiàn)數(shù)據(jù)缺失,若利用缺失數(shù)據(jù)進(jìn)行統(tǒng)計(jì)預(yù)測可能高估疾病流行的嚴(yán)重程度,引發(fā)公眾恐慌,對遏制疫情產(chǎn)生極大的挑戰(zhàn)。于是本文將CBPS-AM方法應(yīng)用于新冠病毒感染疫情數(shù)據(jù),以期給出對于療效和疫情動態(tài)的合理預(yù)測。 本文采用的數(shù)據(jù)時間跨度為2020年2月6日至2020年4月27日,變量包括省份、市/區(qū)、省累計(jì)確診數(shù)、治愈數(shù)、死亡數(shù)、疑似病例數(shù)以及市/區(qū)確診、治愈、死亡和疑似病例數(shù),并人為產(chǎn)生100個來自標(biāo)準(zhǔn)正態(tài)分布的噪聲變量以滿足高維設(shè)定。本例主要研究缺失情形下,如何對日市/區(qū)的疫情狀況進(jìn)行準(zhǔn)確預(yù)測和插補(bǔ)。為此,在加法模型的建模中,本文將響應(yīng)變量設(shè)定為市/區(qū)確診病例數(shù)。為保證算法正常運(yùn)行,本文對省份及市/區(qū)數(shù)據(jù)進(jìn)行如下編碼:以武漢為中心,將湖北省設(shè)定為1,根據(jù)武漢到其他省會城市的距離,將其他各省份編碼為2,3,4,…,各市區(qū)對應(yīng)編碼為1.01,1.02,…,2.01,2.02,…。為驗(yàn)證本文的CBPS-AM方法的插補(bǔ)效果,隨機(jī)抽取2月13日、2月25日、3月11日、3月17日和4月26日五天的疫情數(shù)據(jù),變量描述統(tǒng)計(jì)如表5所示。 表5 各變量描述統(tǒng)計(jì)結(jié)果 表6 各插補(bǔ)方法在疫情數(shù)據(jù)中的預(yù)測能力比較(BIAS(SSE)) 表6展示了七種插補(bǔ)方法的偏差與平均誤差平方和。從偏差來看,CBPS估計(jì)量及CBPS1估計(jì)量分別在2月13日和2月25日插補(bǔ)偏差最小,表明了CBPS方法在選擇概率估計(jì)中的穩(wěn)健性;而本文提出的CBPS-AM方法在余下三個日期中均有最小的插補(bǔ)偏差,體現(xiàn)了加法模型應(yīng)用的合理性。另外,基于線性回歸的插補(bǔ)估計(jì)量不論在偏差還是誤差平方和方面均表現(xiàn)較差,也說明了線性模型在實(shí)際應(yīng)用中的局限性。綜上,本文提出的CBPS-AM方法不僅能實(shí)現(xiàn)穩(wěn)健準(zhǔn)確的缺失數(shù)據(jù)插補(bǔ),在極端突發(fā)事件的預(yù)測性能上也具有明顯的優(yōu)勢。 本文構(gòu)建了一種適用于高維缺失數(shù)據(jù)的插補(bǔ)方法CBPS-AM,并證明了該方法的相合性及漸近正態(tài)性。與現(xiàn)有高維缺失數(shù)據(jù)插補(bǔ)方法相比,CBPS-AM方法結(jié)合了逆概率加權(quán)與協(xié)變量平衡傾向評分方法的優(yōu)勢,有效避免了模型誤設(shè)和缺失概率結(jié)構(gòu)誤設(shè)對插補(bǔ)結(jié)果造成的影響,保證了算法的多重穩(wěn)健性;同時在隨機(jī)缺失機(jī)制下創(chuàng)新性地應(yīng)用加法模型,不僅實(shí)現(xiàn)了建模的靈活性,也與CBPS方法一起實(shí)現(xiàn)了雙重降維。模擬研究和實(shí)證分析表明,本文提出的CBPS-AM方法具有廣泛適用性,適用于多種情形和場景下的均值插補(bǔ)問題,包括:(1)線性或非線性均值回歸函數(shù)結(jié)構(gòu);(2)模型存在誤設(shè)與否(包括缺失概率結(jié)構(gòu));(3)誤差同方差或異方差,以及誤差項(xiàng)來自正態(tài)分布或偏態(tài)、厚尾分布;(4)協(xié)變量高度相關(guān);(5)醫(yī)藥衛(wèi)生等領(lǐng)域的高維及非高維缺失數(shù)據(jù)的插補(bǔ)問題。 充分認(rèn)識到數(shù)據(jù)時代數(shù)據(jù)缺失問題在統(tǒng)計(jì)工作中的重要地位,本文得到如下啟示:第一,缺失值插補(bǔ)已成為統(tǒng)計(jì)分析工作的重要環(huán)節(jié),提出的CBPS-AM方法可以有效提升數(shù)據(jù)質(zhì)量,為后續(xù)統(tǒng)計(jì)分析工作提供強(qiáng)有力的支持;第二,CBPS-AM方法為高維缺失數(shù)據(jù)的穩(wěn)健插補(bǔ)提供了一套合理的研究框架;第三,未來研究中,一方面可以借助于定理2中的漸近方差進(jìn)一步探究CBPS-AM估計(jì)量的統(tǒng)計(jì)推斷問題(區(qū)間估計(jì)和假設(shè)檢驗(yàn)),另一方面可以將CBPS-AM理論框架拓展至其他非參數(shù)模型,如變系數(shù)模型、部分線性可加模型等。為更好地進(jìn)行高維降維,可以將本文提出的方法與充分降維、投影尋蹤方法等進(jìn)行結(jié)合,也可以將該方法拓展到分位數(shù)回歸插補(bǔ)中,實(shí)現(xiàn)更穩(wěn)健的插補(bǔ),或通過并行運(yùn)算實(shí)現(xiàn)大數(shù)據(jù)的穩(wěn)健插補(bǔ)。三、模擬研究
四、實(shí)證研究
(一)HIV臨床實(shí)驗(yàn)數(shù)據(jù)的實(shí)證研究
(二)中國新冠病毒感染疫情數(shù)據(jù)的實(shí)證研究
五、結(jié)論