海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(200433) 秦宇辰 郭 威 阮一鳴 吳 騁 賀 佳
【提 要】 目的 介紹重疊加權(quán)方法的基本原理、方法特性、相對(duì)優(yōu)劣勢(shì)及具體實(shí)現(xiàn)方法并將其應(yīng)用于真實(shí)世界中比較兩種冠脈支架植入對(duì)患者住院時(shí)間的影響。方法 以逆概率加權(quán)方法為參照,介紹重疊加權(quán)方法的原理、實(shí)現(xiàn)方法、目標(biāo)人群,對(duì)比分析兩者異同點(diǎn)及相對(duì)優(yōu)劣勢(shì),評(píng)估其應(yīng)用價(jià)值。結(jié)果 相較于逆概率加權(quán),重疊加權(quán)具有諸如簡(jiǎn)便易行、不易產(chǎn)生極端權(quán)重、最小漸進(jìn)方差、協(xié)變量精確均衡、高檢驗(yàn)效能、目標(biāo)人群明確有意義且更易準(zhǔn)確估計(jì)處理效應(yīng)等優(yōu)點(diǎn),其方法優(yōu)勢(shì)在實(shí)例應(yīng)用中充分展現(xiàn)。結(jié)論 重疊加權(quán)具有良好方法學(xué)特性及廣闊應(yīng)用前景,可幫助觀察性研究更好實(shí)現(xiàn)其處理效應(yīng)發(fā)現(xiàn)職能并為實(shí)證研究提供可靠線索,值得在醫(yī)學(xué)研究中廣泛應(yīng)用。
傾向性評(píng)分法越來(lái)越多地被應(yīng)用于醫(yī)療衛(wèi)生領(lǐng)域,用于控制觀察性數(shù)據(jù)中的已知混雜因素,實(shí)現(xiàn)類似于“隨機(jī)化”的效果[1]。而傾向性評(píng)分法中的加權(quán)方法也因原理易懂、結(jié)果易讀、運(yùn)算迅速等優(yōu)點(diǎn)被廣泛應(yīng)用到實(shí)踐中。但傳統(tǒng)的加權(quán)方法,例如目前常用的逆概率加權(quán)方法,易出現(xiàn)極端值,且難以有效處理。Li[2]等人新近提出的重疊加權(quán)法(overlap weighting)可以很好克服傳統(tǒng)加權(quán)方法的缺點(diǎn)且擁有若干明顯方法學(xué)優(yōu)勢(shì),具有廣闊的應(yīng)用前景。本文旨在介紹重疊加權(quán)的方法原理,對(duì)比分析其優(yōu)劣勢(shì),并在真實(shí)世界研究中驗(yàn)證其方法特性、介紹其實(shí)現(xiàn)方法,以期能為該方法在醫(yī)療衛(wèi)生領(lǐng)域中的推廣應(yīng)用提供參考。
Rosenbaum 和 Rubin 于1983年首次提出傾向性評(píng)分(propensity score,PS)的概念[3],其基本原理是將受試者的多個(gè)協(xié)變量特征綜合表達(dá)為一個(gè)傾向評(píng)分值來(lái)表示,分值實(shí)際意義為受試者接受處理或者暴露的概率,相似的受試者應(yīng)具有相似的傾向性分值。而傾向性評(píng)分法即是使用傾向評(píng)分值進(jìn)行不同對(duì)比組間的分層、匹配或加權(quán)等操作以期能實(shí)現(xiàn)各協(xié)變量在區(qū)間均勻分布,由此實(shí)現(xiàn)處理效應(yīng)準(zhǔn)確估計(jì)[4]。傾向性評(píng)分加權(quán)方法實(shí)質(zhì)即為基于傾向性評(píng)分計(jì)算不同類型的均衡權(quán)重(balancing weights),并基于該權(quán)重加權(quán)構(gòu)建一個(gè)新的虛擬人群,該人群中各類混雜因素獨(dú)立于處理組分配,從而實(shí)現(xiàn)類似隨機(jī)化的效果,保證處理因素效應(yīng)的準(zhǔn)確估計(jì)。目前常用的逆概率加權(quán)方法(inverse probability weighting,IPW)與本文主要討論的重疊加權(quán)最大區(qū)別在于使用了不同的均衡權(quán)重。逆概率加權(quán)基于逆概率權(quán)重,而重疊加權(quán)使用重疊權(quán)重(overlap weights)。為方便讀者理解,我們以逆概率加權(quán)為參照,簡(jiǎn)要介紹重疊加權(quán)的原理、特點(diǎn)及優(yōu)劣勢(shì)。
1.逆概率加權(quán)的基本原理
逆概率加權(quán)的逆概率權(quán)重計(jì)算方法及效應(yīng)估計(jì)函數(shù),如下式所示:
(1)
(2)
2.重疊加權(quán)的原理及方法特點(diǎn)
重疊加權(quán)和逆概率加權(quán)的效應(yīng)估計(jì)函數(shù)一致(如式(2)),但權(quán)重計(jì)算方法不同。重疊權(quán)重的定義方式如式(3)所示:
Wi=Zi(1-psi)+(1-Zi)psi
(3)
由此可見(jiàn),重疊權(quán)重實(shí)際為受試者進(jìn)入其對(duì)立組的概率值,取值范圍為(0,1),傾向性分值趨近于0.5的受試者將被賦予較高的權(quán)重而具有極端傾向性分值的受試者將被賦予較小的權(quán)重。不同于逆概率加權(quán)的目標(biāo)人群是全人群(ATE)或者處理組人群(ATT),重疊加權(quán)的目標(biāo)人群是重疊人群,目標(biāo)效應(yīng)是重疊人群平均效應(yīng)(average treatment effect for the overlap population,ATO)。重疊人群是指全人群中對(duì)處理組及對(duì)照組沒(méi)有明顯偏向性(傾向性分值趨近于0.5),組間人群特征較相似的子人群。雖然與ATE及ATT的可明確識(shí)別的目標(biāo)人群相比,ATO所指向的重疊人群在現(xiàn)實(shí)條件下不能明確界定,但該“模糊”人群仍有較大的現(xiàn)實(shí)意義:ATO所指的重疊人群受試者無(wú)明顯入組傾向,組間受試者特征最相似(重疊度最高),因此其組間可比性最強(qiáng)、效應(yīng)估計(jì)最可靠,類似于實(shí)現(xiàn)了完全隨機(jī)化。在臨床實(shí)踐中,重疊人群指向的可能即是診療方案尚未達(dá)成共識(shí)的患病人群,臨床醫(yī)生尚不清楚哪種治療方案會(huì)使此類人群更受益。因此,此類人群無(wú)明顯的入組傾向,也應(yīng)是研究比較的重點(diǎn)。
此外,相較于其他的加權(quán)分析方法,重疊加權(quán)有兩點(diǎn)極具優(yōu)勢(shì)的特性。第一,可實(shí)現(xiàn)最小漸進(jìn)方法。Li等人證明了當(dāng)滿足結(jié)局變量方差齊性條件時(shí),重疊加權(quán)的漸進(jìn)方差最小。當(dāng)然在大多數(shù)實(shí)際應(yīng)用情況下,即便結(jié)局變量方差齊性條件不滿足(例如二分類結(jié)果)最小漸進(jìn)方差屬性不成立,重疊加權(quán)仍可實(shí)現(xiàn)較其他加權(quán)方法更小的方差;第二,可實(shí)現(xiàn)協(xié)變量精確均衡。當(dāng)傾向評(píng)分估計(jì)模型為基于最大似然估計(jì)的logistic回歸時(shí),重疊加權(quán)可實(shí)現(xiàn)組間所有協(xié)變量項(xiàng)(包括主效應(yīng)、交互項(xiàng)及高次項(xiàng))精確均衡,其標(biāo)準(zhǔn)化差異趨近于0。因此,重疊加權(quán)可以始終實(shí)現(xiàn)較其他加權(quán)算法更好的協(xié)變量均衡性,這也確保了其能始終聚焦于最可比的人群(重疊人群)并實(shí)現(xiàn)最準(zhǔn)確的效應(yīng)估計(jì)。
3.重疊加權(quán)與逆概率加權(quán)的優(yōu)劣勢(shì)對(duì)比
逆概率加權(quán)最大的問(wèn)題在于對(duì)極端權(quán)重很敏感,當(dāng)組間受試者差異較大、特征重疊性較差時(shí)很難實(shí)現(xiàn)準(zhǔn)確效應(yīng)估計(jì),此時(shí),必須科學(xué)消除極端權(quán)重,目前常用的方法為極端權(quán)重截尾,例如丟棄權(quán)重超過(guò)閾值的受試者或用閾值替換極端權(quán)重,或只加權(quán)分析傾向性分值在經(jīng)驗(yàn)最優(yōu)區(qū)間[0.1,0.9]內(nèi)的受試者(具有較好特征重疊性)[6-7]。但這些方法都存在閾值選擇隨意或者可能需要丟棄大量受試者的問(wèn)題。同時(shí),這些方法也會(huì)使估計(jì)效應(yīng)量偏離原先設(shè)計(jì)的逆概率加權(quán)效應(yīng)量,很難從個(gè)體層面定義該效應(yīng)量所對(duì)應(yīng)的人群。當(dāng)然,也有研究指出在實(shí)際分析中偏離傳統(tǒng)的效應(yīng)量常見(jiàn)且合理[8],例如組間重疊性較差時(shí)使用傳統(tǒng)效應(yīng)量會(huì)產(chǎn)生大量偏倚,必須采用偏離傳統(tǒng)效應(yīng)量但能得到較準(zhǔn)確效應(yīng)估計(jì)的方法。重疊加權(quán)及其對(duì)應(yīng)的ATO就是一個(gè)很好的備選。雖然在實(shí)際應(yīng)用中無(wú)法從個(gè)體層面確定ATO所對(duì)應(yīng)人群,但其所對(duì)應(yīng)的重疊人群有著明確的性質(zhì)特征,可映射到具有實(shí)踐意義的現(xiàn)實(shí)人群。重疊權(quán)重有界,因此重疊加權(quán)不易受極端權(quán)重影響,即便組間受試者特征重疊性較差時(shí)其仍可較準(zhǔn)確估計(jì)效應(yīng)量,此外,其獨(dú)具的最小漸進(jìn)方差及精確均衡特性也保證了其能獲得更準(zhǔn)確、更精確的效應(yīng)估計(jì)。雖然精確均衡特性也使傳統(tǒng)的協(xié)變量均衡性檢驗(yàn)方法(如標(biāo)準(zhǔn)化差異等)對(duì)重疊加權(quán)失效,但可首先使用傳統(tǒng)協(xié)變量均衡性檢驗(yàn)方法基于其他傾向評(píng)分分析方法確定最優(yōu)傾向性評(píng)分估計(jì)模型再進(jìn)行重疊加權(quán)的思路間接解決此問(wèn)題。此外,Mao等人的研究發(fā)現(xiàn)重疊加權(quán)相較于逆概率加權(quán)有更高的統(tǒng)計(jì)檢驗(yàn)效能[8]。由上述可知,相較于逆概率加權(quán),重疊加權(quán)具有明顯的方法學(xué)優(yōu)勢(shì),也具有更為廣闊的應(yīng)用前景。
1.實(shí)例背景
急性心肌梗死患者常需采用經(jīng)皮冠狀動(dòng)脈介入術(shù)植入冠脈支架再通梗塞血管。傳統(tǒng)的裸金屬冠脈支架易發(fā)生支架內(nèi)再狹窄,而藥物涂層支架可以較好地解決這個(gè)問(wèn)題[9],因此藥物涂層支架被越來(lái)越多地應(yīng)用于臨床實(shí)踐[10]。而不同的冠脈支架植入是否會(huì)影響患者的住院時(shí)間尚待探究。筆者擬以此問(wèn)題為例,演示如何基于R軟件的“survey”包實(shí)現(xiàn)重疊加權(quán)并進(jìn)行結(jié)果解釋。
2.資料概述及分析方法
實(shí)例來(lái)源于2014年美國(guó)住院數(shù)據(jù)中東北部醫(yī)院的住院患者數(shù)據(jù)[11],共納入8490條因急性心肌梗死入院并接受兩種冠脈支架植入患者的住院記錄。處理因素為接受裸金屬支架或者接受藥物涂層支架(Treat),結(jié)局為住院時(shí)間(LOS,天),納入患者人口學(xué)信息、身體狀況及并發(fā)癥信息、醫(yī)院特征信息等合計(jì)26個(gè)協(xié)變量。采用標(biāo)準(zhǔn)化差異(SMD)評(píng)價(jià)加權(quán)前后的協(xié)變量均衡性,分別使用兩獨(dú)立樣本t檢驗(yàn)、逆概率加權(quán)(IPW)及重疊加權(quán)(overlap weighing)估計(jì)處理因素效應(yīng),逆概率加權(quán)采用“survery”包默認(rèn)輸出的穩(wěn)健標(biāo)準(zhǔn)誤,重疊加權(quán)依據(jù)Li等人[2]的建議采用bootstrap法估計(jì)標(biāo)準(zhǔn)誤。重疊加權(quán)的R軟件實(shí)現(xiàn)方式請(qǐng)見(jiàn)附錄。
3.結(jié)果解釋
圖1展示了加權(quán)前后的各協(xié)變量的標(biāo)準(zhǔn)化差異,由圖可知,加權(quán)前接受金屬冠脈支架和藥物涂層冠脈支架的患者基線情況具有較大差異,各混雜因素在組間分布不均。逆概率加權(quán)后,所有協(xié)變量的標(biāo)準(zhǔn)化差異均遠(yuǎn)低于目前常用的推薦閾值0.1[12-13],提示加權(quán)后的協(xié)變量均衡性較好。由于傾向性評(píng)分由logistic回歸基于最大似然估計(jì)得到,重疊加權(quán)如預(yù)期的一樣實(shí)現(xiàn)了組間各協(xié)變量“精確均衡”,標(biāo)準(zhǔn)化差異趨近于0。
圖1 加權(quán)前及加權(quán)后兩組患者各基線協(xié)變量均衡性情況
如表1所示,三種方法均得出有統(tǒng)計(jì)學(xué)意義的效應(yīng)值,即相較于接受藥物涂層冠脈支架的心肌梗死患者,接受金屬冠脈支架患者的住院時(shí)間更多。未控制混雜時(shí),處理組比對(duì)照組平均多出0.90天的住院時(shí)間;采用逆概率加權(quán)控制混雜后兩組住院時(shí)間差異縮小到0.50天;而采用重疊加權(quán),該差值進(jìn)一步縮小到0.38天。由于重疊加權(quán)所具有的最小漸進(jìn)方差特點(diǎn),其取得了較其他方法更小的標(biāo)準(zhǔn)誤及95%置信區(qū)間,實(shí)現(xiàn)了更精確的效應(yīng)值估計(jì)。綜上可知,相較于接受裸金屬冠脈支架的心肌梗死患者,接受藥物涂層支架雖能獲得有統(tǒng)計(jì)學(xué)意義的住院時(shí)間減少,但客觀減少數(shù)較低,實(shí)際意義有限。此處需再次特別強(qiáng)調(diào):逆概率加權(quán)和重疊加權(quán)估計(jì)的效應(yīng)值分別指向兩類不同的人群,前者估計(jì)的是ATE指向全人群,后者估計(jì)的是ATO指向重疊人群。此點(diǎn)應(yīng)在分析結(jié)果的臨床意義解釋中予以關(guān)注。
表1 采用不同種類冠脈支架對(duì)住院時(shí)間的影響(接受藥物涂層冠脈支架患者為對(duì)照組)
#兩獨(dú)立樣本t檢驗(yàn);*bootstrap標(biāo)準(zhǔn)誤
傾向性評(píng)分方法近年來(lái)被越來(lái)越多地運(yùn)用到觀察性醫(yī)療衛(wèi)生數(shù)據(jù)的分析中,傾向評(píng)分加權(quán)方法因其簡(jiǎn)便易行、計(jì)算負(fù)荷小、協(xié)變量均衡效果好等特點(diǎn)倍受青睞。但其中最常用的逆概率加權(quán)法所具有的易受極端權(quán)重影響、極端權(quán)重處理方法瑕疵較大等缺點(diǎn)也很大程度限制了此類方法的實(shí)際應(yīng)用。而新近提出的重疊加權(quán)方法卻能很好地克服這些缺點(diǎn)且擁有極具優(yōu)勢(shì)的方法學(xué)特性。該方法可直接推廣到多分類處理組、生存分析、抽樣調(diào)查等多種實(shí)際應(yīng)用情境,可方便地與多種模型聯(lián)合應(yīng)用[2,8],因此具有極為廣闊的應(yīng)用前景。
需強(qiáng)調(diào)的是,重疊加權(quán)方法所對(duì)應(yīng)的目標(biāo)效應(yīng)量是ATO,該效應(yīng)量及其所對(duì)應(yīng)的重疊人群也應(yīng)獲得更廣泛應(yīng)用及更多關(guān)注。重疊人群具有明確、實(shí)用、顯著的臨床及公共衛(wèi)生意義,更重要的是其效應(yīng)量ATO相較于傳統(tǒng)的ATE、ATT、ATC效應(yīng)量更易準(zhǔn)確估計(jì)且具有更高的統(tǒng)計(jì)學(xué)效能,因此對(duì)通過(guò)觀察性研究判定某處理因素對(duì)特定人群的效應(yīng)是否為零并以此指導(dǎo)是否進(jìn)行實(shí)證性試驗(yàn)研究更具意義。此外,需強(qiáng)調(diào)的是重疊加權(quán)和其他傾向性評(píng)分方法一樣,需正確定義傾向性評(píng)分模型才可準(zhǔn)確估計(jì)目標(biāo)效應(yīng)量ATO。當(dāng)然由于其協(xié)變量“精確均衡”特點(diǎn),傳統(tǒng)基于協(xié)變量均衡性檢驗(yàn)判定是否存在傾向性評(píng)分模型假定錯(cuò)誤的方法不再適用,后續(xù)研究可聚焦于在重疊加權(quán)中判定傾向性評(píng)分模型是否存在假定錯(cuò)誤的方法展開(kāi)。