復旦大學公共衛(wèi)生學院生物統(tǒng)計學教研室和公共衛(wèi)生安全教育部重點實驗室(200032)
孫 婷 秦國友 武振宇△ 趙耐青
?
不同混雜結構條件下各傾向性評分方法的模擬比較研究*
復旦大學公共衛(wèi)生學院生物統(tǒng)計學教研室和公共衛(wèi)生安全教育部重點實驗室(200032)
孫 婷 秦國友 武振宇△趙耐青
目的 通過構建不同混雜結構的處理因素模型和結局模型、不同相關性的協(xié)變量,比較多種傾向性評分方法在結局模型為線性回歸模型的情況下估計處理效應的優(yōu)劣。方法 采用Monte Carlo模擬方法,通過構建四種由簡單到復雜的不同結構的混雜模型,生成相應的數據集,再分別應用傾向性評分匹配、回歸調整、加權以及分層的方法估計處理效應并進行比較。評價指標包括點估計、標準誤、相對偏倚、均方誤差。結果 在結局模型為線性回歸模型情況下,傾向性評分回歸調整法估計的相對偏倚最小,穩(wěn)定性也最好。匹配法卡鉗值取0.02較卡鉗值取傾向性評分標準差的0.2倍估計的相對偏倚更小。當處理因素模型中含有非線性效應時,用逆概率加權法估計的偏倚較大,并且加權法估計的標準誤也最大。傾向性評分分層法在各種情況下估計的相對偏倚都較大。結論 傾向性評分回歸調整法能夠較好地估計處理效應,并且在各種情況下估計都較為穩(wěn)健。建議當協(xié)變量與處理因素和結局變量的關系無法確定時,這四種方法中可以考慮優(yōu)先使用回歸調整法。
傾向性評分 混雜因素 Monte Carlo模擬 偏倚
隨機對照試驗(randomized controlled trial,RCT)被認為是評價干預作用設計的金標準,但由于RCT其自身的限制,在很多情況下無法實施[1]。而觀察性研究或回顧性電子醫(yī)療病歷的數據相對較易獲得,因此越來越多地被應用于不同干預效果的比較、食品和藥物安全研究、藥物不良反應監(jiān)測等。在觀察性研究中,受試對象的治療分組往往不是隨機分配的,因此會存在某些重要混雜因素在不同組間分布不均衡,從而無法準確評價干預因素對結局的作用[2]。在不同調整混雜的方法中,由Rosenbaum和Rubin提出的傾向性評分(propensity score,PS)方法逐漸受到重視[3],傾向性評分是指在給定一組協(xié)變量的情況下,任意一個研究對象被分到處理組的條件概率,計算PS時不存在未觀察到的混雜因素的假設條件下,基于PS的匹配法、分層法、回歸調整法均能得到處理效應的相合估計[3]。
目前傾向性評分主要有傾向性評分匹配法、回歸調整法、分層法和加權法四種應用方式。有文獻總結了2001-2009年高影響力的醫(yī)學和公共衛(wèi)生雜志中使用傾向性評分的文獻情況,其中匹配法是使用最多的方法,占所有查閱文獻的三分之一,其次是回歸調整法,約占24%,分層法和加權法分別占22%和18%[4]。評價各種傾向性評分方法估計效果的文獻有很多,我們可以看到在估計不同指標的情況下各種估計方法的優(yōu)劣有所不同[5-9]。在線性回歸模型情況下,有文獻指出PS回歸調整法可以得出相合估計[10]。另外,當結局變量為連續(xù)性變量時,基于不同組別的傾向性評分重疊情況,幾種不同的PS方法估計的優(yōu)劣情況也不同[4],當處理組傾向性評分分布被包含在對照組中時,匹配法估計偏倚較小,但如果處理組和對照組傾向性評分分布重疊很小時,回歸調整法表現(xiàn)更好。在醫(yī)學研究中,有很多情況下結局為連續(xù)性變量,并且協(xié)變量之間存在不同情況的相關性,當協(xié)變量與處理因素和結局變量之間的混雜結構不同時,例如協(xié)變量與處理因素或結局變量之間不僅含有線性關系,還有非線性關系時,這四種基于PS的方法估計處理效應的偏倚大小和穩(wěn)定情況還沒有明確的結論。因此,本研究通過設置不同混雜結構的模型,在連續(xù)性結局變量、不同相關程度自變量的情況下,比較各種傾向性評分方法估計真實處理效應優(yōu)劣的情況,為不同條件下觀察性數據的分析處理提供依據。
傾向性評分是指在給定一組協(xié)變量(Xi)條件下,將任意一個研究對象i(i=1,2,…,n)分配到處理組(Zi=1)的條件概率。第i個研究對象被分配到處理組的條件概率可以表示為:
e(Xi)=P(Zi=1|Xi)
(1)
其中,e(Xi)被稱為傾向性評分。傾向性評分相同的兩個不同組別的研究對象,其擁有的多個協(xié)變量整體上分布是相同的[11]。因此,組間協(xié)變量的不均衡性對處理效應估計的干擾被消除了。
傾向性評分的基本原理是用一個分值來替代多個協(xié)變量,均衡處理組和對照組間協(xié)變量的分布。對非隨機化研究中的混雜因素進行類似隨機化的均衡處理,減少選擇偏倚。計算得出PS分值后,可采用匹配、回歸調整、加權、分層的方法來均衡各組間協(xié)變量的差異,最終估計處理效應。
1.傾向性評分匹配法
傾向性評分匹配是從對照組中選出與處理組中某一個體傾向性評分值相同或相近的個體進行配對,常用的匹配方法有最鄰近匹配、卡鉗匹配、全局最優(yōu)匹配等。本研究采用的是最鄰近卡鉗匹配法,即將處理組和對照組的研究對象分別進行隨機排序,然后從處理組中依次選出一個研究對象,從對照組中選出與其最接近的傾向性評分值的研究對象進行匹配。配對時設置兩組傾向性評分的差值在一定范圍內,即卡鉗值(caliper)。根據以往研究建議[12],本研究設置兩種卡鉗值,分別為0.02和兩組傾向性評分標準差的0.2倍。在匹配的過程中一個關鍵的問題是是否允許放回。有無放回是指配對后的對照組對象是否參加下一組的配對。允許放回在方差估計的過程中需要考慮某一研究對象被多次使用的事實[13]。本研究統(tǒng)一采用無放回匹配。
2.傾向性評分回歸調整法
在四種基于傾向性評分的方法中,回歸調整法是最直接、使用最為方便的一種方法,因此在臨床醫(yī)學研究中使用也較為廣泛[4]。傾向性評分回歸調整法是指將估計的傾向性評分值作為一個協(xié)變量與處理因素一起納入到估計處理效應的回歸模型中。對于本研究中連續(xù)性的結局變量使用線性回歸方法,處理效應的估計是調整的均值差。盡管在某些條件下使用PS方法可以得到相應估計,但是當結局變量和PS值之間的線性關系不成立時,用這種方法估計的處理效應可能是有偏的[4]。
3.傾向性評分逆概率加權法(Inverse probability of weighting,IPW)
傾向性評分逆概率加權,是邊緣結構模型這類因果推斷方法中的一種[14],其基本原理與傳統(tǒng)的標準化法類似。根據傾向性評分值賦予每個研究對象一個相應的權重,從而構建出一個虛擬的人群,在這個虛擬人群中,協(xié)變量的組間分布沒有差異,因此消除了混雜因素的影響。在逆概率加權的方法中,權重被定義為研究對象實際分組情況的概率的倒數,計算如下:
(2)
計算權重后,再應用加權回歸的方法估計處理效應。
4.傾向性評分分層法(PS stratification)
分層法是非隨機化研究中控制偏倚的重要手段。傾向性評分分層法是指在估計出每個研究對象的傾向性評分值后,根據傾向性評分值將研究對象分為若干層。文獻指出,當估計線性處理效應的時候,將傾向性評分值分為五層可以消除組間近90%的混雜偏倚[15]。經過分層后,每一層內處理組與對照組的協(xié)變量分布應該是均衡的。分析過程中,先在每一層內估計處理效應,最后將每層的效應整合成總的處理效應。
在之前研究的基礎上[16],本研究構建了四種由簡單到復雜,不同結構的混雜模型,并且考慮協(xié)變量之間不同的相關性,分別使用傾向性評分回歸調整、匹配、加權以及分層的方法估計處理效應并通過Monte Carlo模擬方法進行比較。
1.數據集生成和參數設置
(1)生成自變量
本研究共模擬20個協(xié)變量,其中X1~X10設置為混雜因素,這10個協(xié)變量的產生我們設置了三種不同的情形:
情形I:X1~X5為服從N(0,1)標準正態(tài)分布的連續(xù)性變量,并且自變量之間相互獨立;X6~X10為服從Bern(0.5)分布的二分類變量,且相互獨立。
情形II:X1~X5為服從N(0,1)標準正態(tài)分布的連續(xù)性變量,X1和X2具有相關性,相關系數R12=0.2;X6~X10為服從Bern(0.5)分布的二分類變量,且相互獨立。
情形III:X1~X5為服從N(0,1)標準正態(tài)分布的連續(xù)性變量,X1和X2、X1和X3、X2和X4分別具有相關性,相關系數分別為R12=0.2,R13=0.3,R24=0.4;X6~X10為服從Bern(0.5)分布的二分類變量,且相互獨立。
為了模擬實際情況,又生成另外10個相互獨立的噪聲協(xié)變量(X11~X20),與處理因素和結局變量均無關。其中X11~X15為服從N(0,1)標準正態(tài)分布的連續(xù)性變量,X16~X20為服從Bern(0.5)分布的二分類變量。
(2)生成處理因素和結局變量
為了模擬不同復雜程度的結構,我們設置了四種混雜模型來生成處理因素和結局變量。其中,簡單混雜結構中只有線性關系,而復雜混雜結構分別是處理因素模型中含有非線性關系、結局變量模型中含有非線性關系以及兩個模型中均含有非線性關系。
簡單混雜結構:在這種簡單線性情況下,處理因素由公式(3)產生,結局變量由線性回歸模型公式(4)產生。其中α、β系數的值均從Unif(-1,1)中隨機產生,并且在之后的模擬中固定,αZ為處理因素效應,設為0.5,i~N(0,1)代表隨機測量誤差。
logit{ei(Xi;θ1)}=β0+β1X1,i+…+β10X10,i
(3)
yi=αzZi+α1X1,i+…+α10X10,i+i,(i=1,…,n)
(4)
復雜混雜結構I:保持公式(4)不變,但處理因素改為由公式(5)生成。在這種情況下,X2和處理因素不僅存在線性關系,還存在二次項關系。
(5)
復雜混雜結構II:保持公式(3)不變,但結局變量由公式(6)生成。在這種情況下,X1與結局變量之間的關系是非線性的。
(6)
復雜混雜結構III:處理因素由公式(5)生成,結局變量由公式(6)生成。在這種情況下,處理因素模型與結局變量模型中均含有非線性關系。
按上述組合,分別生成了樣本量為500和2000的數據集。因為實際情況中我們很難準確判斷協(xié)變量因素與處理因素之間的關系,所以在估計傾向性評分值的過程中,我們將按照通常分析此類數據的做法,線性納入所有20個協(xié)變量,再利用傾向性評分匹配法(兩種卡鉗值)、回歸調整法、逆概率加權法、分層法分別估計處理效應。各種情況下分別重復模擬1000次。
2.評價指標
本研究評價指標包括處理效應的點估計(Average(αZ))及其標準誤(SE(αZ))、相對偏倚(RB)、均方誤差(MSE)。相對偏倚(RB)是點估計與真實效應之差的絕對值占真實效應的百分比,均方誤差為偏倚的平方與標準誤平方之和。
3.軟件實現(xiàn)
本研究采用R 3.2.3軟件進行模擬實驗。其中傾向性評分匹配法使用R軟件中的MatchIt包實現(xiàn)。下面這段程序可以分別實現(xiàn)本研究中的幾種傾向性評分方法:
#估計傾向性評分值
>psfit=glm(treat~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13+x14+x15+x16+x17+x18+x19+x20,data,family=binomial())
>ps=fitted(psfit)
#傾向性評分回歸調整法
>yfit=lm(outcome~treat+ps,data)
>cov.est=coef(summary(yfit))[2,1]
#傾向性評分逆概率加權法
>dataf$wgt=treat/ps+(1-treat)/(1-ps)
>iptw.fit=lm(outcome~treat,data,weights=wgt)
>iptw.est=coef(summary(iptw.fit))[2,1]
#傾向性評分分層法
>quintiles=quantile(data$ps,prob=seq(from=0,to=1,by=0.2),na.rm=T)
>data$pstrata=cut(data$ps,breaks=quintiles,labels=1:5,include.lowest=T)
>stratified=dlply(.data=data,.variables=“pstrata”,.fun=function(DF){lm(outcome~treat,data=DF)})
>sub.est=mean(sapply(stratified,function(mod)mod$coef[“treat”]))
#傾向性評分匹配法
>psmatch=matchit(treat~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13+x14+x15+x16+x17+x18+x19+x20,distance=“l(fā)ogit”,caliper=0.2,method=“nearest”,data)
>psmatch.data=match.data(psmatch)
>match.fit=lm(outcome~treat,data=psmatch.data)
>match.est=coef(summary(match.fit))[2,1]
4.模擬實驗結果
從表1可見,當樣本量為500且自變量之間相互獨立時,傾向性評分回歸調整法在四種不同的方法中估計效果最好,相對偏倚范圍在0.17%~0.50%,并且隨著模型復雜度的增加,即模型中含有二次項時,這種優(yōu)勢保持不變。匹配法設置了兩種卡鉗值,其中匹配法-1代表卡鉗值為兩組傾向性評分標準差的0.2倍,匹配法-2代表卡鉗值為0.02。由結果可見,當卡鉗值設為0.02時,匹配法估計的較為準確,相對偏倚在2.86%~7.55%,在混雜結構最為復雜的情況下,即處理模型和結局模型均含有二次項時,相對偏倚達到最大(7.55%)。而匹配法-1估計的準確性則較差,相對偏倚均在10%以上,并且隨著混雜結構復雜性的增加,相對偏倚也逐漸增加。加權法在僅處理模型中含有非線性關系的情況下,估計情況較差,相對偏倚達到14.73%,在另外三種情況下偏倚相對較小,均保持在10%以內。分層法在各種情況下估計的偏倚較大,其中在復雜混雜結構II情況下偏倚達到了19.78%。在估計的穩(wěn)定性上,回歸調整法也較其他三種方法好,均方誤差最小,而加權法標準誤和均方誤差最大。
當增加了X1與X2之間的相關性,結果見表2,當處理因素模型和結局變量模型中均含有非線性關系時,回歸調整法的估計稍有偏倚,相對偏倚為3.58%,其余情況下,回歸調整方法仍估計準確,相對偏倚范圍為0.31%~0.46%,穩(wěn)定性也較其他方法好,均方誤差最小。匹配法-2在簡單混雜結構下,偏倚相對較小,而只要有一個模型中含有非線性關系時,相對偏倚增大,在復雜混雜結構III情況下,相對偏倚達到11.39%。與表1結果相似,匹配法-1估計的偏倚依然較大。僅處理因素模型中含有非線性關系時,逆概率加權法估計的相對偏倚達到13.6%,在其他三種情況下,相對偏倚都較小,但標準誤和均方誤差在四種方法中為最大。分層法估計的準確性仍舊較差,相對偏倚大部分都在10%以上,標準誤相對較小。繼續(xù)增加自變量之間的相關性,結果見表3,回歸調整法在準確性和穩(wěn)定性方面,表現(xiàn)均最好。匹配法-1估計的相對偏倚隨著自變量之間相關性的增加而增大,匹配法-2在簡單混雜結構情況下,估計也較前兩種情況準確性差??傮w來看,隨著協(xié)變量之間相關性的增加,這四種方法的估計的準確性和穩(wěn)定性優(yōu)劣模式差異不大。
當樣本量增加(n=2000),回歸調整法估計較為準確,匹配法-2表現(xiàn)較匹配法-1好,估計更為準確。加權法在處理因素模型中不含有二次項的情況下估計效果較好,相對偏倚都在1%以下。當處理因素與協(xié)變量之間含有非線性關系時,即在復雜混雜結構I和III兩種情況下,加權法估計偏倚較大,而且后者相對偏倚較前者小。分層法在樣本量增加后估計結果仍不準確。在穩(wěn)定性上,隨著樣本量增加,各種方法的標準誤和均方誤差均減小,回歸調整法的標準誤最小,均方誤差也最小,加權法估計的標準誤最大。
表1 不同模型情況下各種傾向性評分方法的估計結果(自變量之間獨立)
傾向性評分方法作為控制混雜的分析方法在醫(yī)學研究中應用越來越廣泛。本研究的主要目的是在不同混雜結構情況下,比較傾向性評分匹配法、回歸調整法、逆概率加權法以及分層法對處理效應的估計優(yōu)劣。Austin在多篇文獻中也比較過這幾種傾向性評分方法[7-11],但本研究內容和他之前的文獻有所不同。在本研究中我們設置了不同的生成處理因素的模型和結局變量模型,通過加入協(xié)變量與處理因素和結局變量的非線性關系逐步增加混雜結構的復雜性,根據文獻檢索,還沒有這方面深入的探討。另外,還模擬了協(xié)變量之間存在相關性的各種不同情況,更加貼近了實際。
表2 不同模型情況下各種傾向性評分方法的估計結果(R12=0.2)
表3 不同模型情況下各種傾向性評分方法的估計結果(R12=0.2,R13=0.3,R24=0.4)
傾向性評分回歸調整法在不同的情況下估計的相對偏倚較分層法和加權法都小,并且MSE最小,這與Austin得出的結論也相同[7]。由模擬結果可見,通過設置不同的卡鉗值,估計的結果相差較大??ㄣQ值設為0.02比卡鉗值設為傾向性評分標準差的0.2倍準確性好。傾向性評分匹配法是醫(yī)學文獻中應用較多的調整混雜的方法,而卡鉗值的選擇對結果的估計有很大的影響。本研究采用以往文獻中建議的兩種卡鉗取值分別進行匹配估計,得出的結果相差很大,因此在應用卡鉗匹配方法的過程中,卡鉗值應當根據實際匹配后組間均衡性來考慮,對于不同的數據集情況下,以往研究建議的參數需要慎重選擇。
當處理因素模型中不含有二次項時,即在簡單混雜結構和復雜混雜結構II這兩種情況下,傾向性評分加權法估計效果較好,并且隨著樣本量的增加,估計結果更為準確,均方誤差也減小。Austin也在文獻中提到,應用傾向性評分逆概率加權法可以得到風險差(risk difference,RD)的相合估計[9]。但在復雜混雜結構I、III情況下加權法估計的準確性又較差。在這兩種情況下,真實的處理因素模型含有非線性關系,而估計傾向性評分的過程中只納入了線性關系,因此計算的權重有誤,從而導致估計的處理效應偏差較大。Linder等在文獻中得出類似結論[17],即使結局模型指定錯誤,基于PS的逆概率加權方法也可以得出相合估計,而當PS模型指定錯誤時,基于PS的逆概率加權方法估計結果較差。模擬結果中,分層法估計的相對偏倚在各種情況下均較大,而這也是分層法的一個缺陷,有文獻顯示其估計的偏倚較其他傾向性評分法更大[18]。
本研究模擬了協(xié)變量之間不同相關程度的情況,但在不同的相關性情況下,各種方法的估計優(yōu)劣情況類似。傾向性評分是將多個協(xié)變量的影響綜合成一個變量,起到一個“降維”的作用,這也是傾向性評分方法優(yōu)于傳統(tǒng)多元回歸方法的一個優(yōu)點,傳統(tǒng)多元回歸方法中可能需要考慮協(xié)變量之間的相關性、共線性問題,但我們的模擬結果顯示在不同協(xié)變量相關性情況下使用傾向性評分方法估計的結果似乎差異不大。
總體來說,從估計的相對偏倚大小和穩(wěn)定性方面考慮,我們認為傾向性評分回歸調整法能夠更好地估計處理效應,并且在我們設置的各種混雜情況下的估計都較為穩(wěn)健,因此當協(xié)變量數目較多并且協(xié)變量與處理因素和結局變量的關系無法確定時,這四種方法中可以考慮優(yōu)先使用回歸調整法。本研究存在的局限性是未考慮結局變量是二分類、計數資料或生存資料的情況下,各種傾向性評分方法估計效果的優(yōu)劣。此外,值得注意的是,傾向性評分方法一個前提假定就是所有的混雜因素都已經觀察到,對于未觀察到的重要混雜因素并不能進行均衡,因此在后續(xù)研究中可以進一步探索未包含重要混雜協(xié)變量時傾向性評分估計的準確性。
[1]Johnston SC,Rootenberg JD,Katrak S,et al.Effect of a US National Institutes of Health programme of clinical trials on public health and costs.Lancet,2006,367(9519):1319-1327.
[2]Sturmer T,Joshi M,Glynn RJ,et al.A review of the application of propensity score methods yielded increasing use,advantages in specific settings,but not substantially different estimates compared with conventional multivariable methods.J Clin Epidemiol,2006,59(5):437-447.
[3]Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70(1):41-55.
[4]Hade E M,Lu B.Bias associated with using the estimated propensity score as a regression covariate.Stat Med,2014,33(1):74-87.
[5]Austin PC.The performance of different propensity score methods for estimating marginal odds ratios.Stat Med,2007,26(16):3078-3094.
[6]Austin PC,Grootendorst P,Anderson GM.A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects:a Monte Carlo study.Stat Med,2007,26(4):734-753.
[7]Austin PC.The performance of different propensity-score methods for estimating relative risks.J Clin Epidemiol,2008,61(6):537-545.
[8]Austin PC,Grootendorst P,Normand SL,et al.Conditioning on the propensity score can result in biased estimation of common measures of treatment effect:a Monte Carlo study.Stat Med,2007,26(4):754-768.
[9]Austin PC.The performance of different propensity-score methods for estimating differences in proportions(risk differences or absolute risk reductions)in observational studies.Stat Med,2010,29(20):2137-2148.
[10]Pfeiffer RM,Riedl R.On the use and misuse of scalar scores of confounders in design and analysis of observational studies.Stat Med,2015,34(18):2618-2635.
[11]Austin PC.An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies.Multivariate Behav Res,2011,46(3):399-424.
[12]Austin PC.Some methods of propensity-score matching had superior performance to others:results of an empirical investigation and Monte Carlo simulations.Biom J,2009,51(1):171-184.
[13]Hill J,Reiter JP.Interval estimation for treatment effects using propensity score matching.Stat Med,2006,25(13):2230-2256.
[14]Thoemmes FJ,Kim ES.A Systematic Review of Propensity Score Methods in the Social Sciences.Multivariate Behav Res,2011,46(1):90-118.
[15]Rosenbaum PR,Rubin DB.Reducing bias in observational studies using subclassification on the propensity score.Journal of the American Statistical Association,1984,79(387):516-524.
[16]Zou B,Zou F,Shuster JJ,et al.On variance estimate for covariate adjustment by propensity score analysis.Stat Med,2016,35(20):3537-3548.
[17]Linden A,Uysal SD,Ryan A,et al.Estimating causal effects for multivalued treatments:a comparison of approaches.Stat Med,2016,35(4):534-552.
[18]Austin PC.The performance of different propensity score methods for estimating marginal hazard ratios.Stat Med,2013,32(16):2837-2849.
(責任編輯:張 悅)
Comparison of Propensity Score Methods Under Different Confounding Structures:A Simulation Study
Sun Ting,Qin Guoyou,Wu Zhenyu,et al
(DepartmentofBiostatistics,SchoolofPublicHealthandKeyLaboratoryofPublicHealthSafety,MinistryofEducation,FudanUniversity(200032),Shanghai)
Objective The performance of propensity score(PS)methods were compared through constructing different confounding structures and generating covariates with different correlations when the outcome model was linear.Methods Monte Carlo method was used to simulate the datasets by constructing four confounding structures from simple to complex.Then four PS-based methods including PS matching,covariate adjustment,inverse probability of weighting(IPW)and stratification were applied to estimate the treatment effect.The results were compared from different aspects including the point estimate,standard error,relative bias and mean square error.Results When the outcome model was linear,covariate adjustment showed the least biased and stable estimates among the four methods.PS matching with caliper 0.02 performed better than the other matching methods when the caliper is 0.2 of the standard deviation of the PS value.When there were nonlinear relationship in the treatment model,IPW showed biased results and largest standard error.PS stratification resulted in biased estimates in all settings.Conclusion Covariate adjustment by PS is robust to complex confounding structure and achieved the least biased estimates.We propose that when the relationships between confounding factors and treatment or outcome variable cannot be confirmed,using PS covariate adjustment seems a better choice.
Propensity score;Confounding factor;Monte Carlo simulation;Bias
國家自然科學基金(編號:11371100);上海市科研計劃項目(編號:13411950406)
△通信作者:武振宇,E-mail:zyw@fudan.edu.cn