西安交通大學醫(yī)學部公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系(710061)吳立晨 閆淼佳 趙 芃 徐 坤 陳方堯 曾令霞 顏 虹 黨少農(nóng) 米白冰
【提 要】 目的 應用SAS CAUSALMED過程步進行反事實因果分析,為探討考慮混雜因素及交互作用下的中介作用及因果關系提供依據(jù)。方法 以“父母鼓勵是否影響兒童認知發(fā)展,父母鼓勵的效果是否受兒童學習動機的調(diào)節(jié)”為例,詳細介紹了使用SAS CAUSALMED過程步進行中介分析的步驟和結果的解釋。結果 通過實例,SAS CAUSALMED過程步可以便捷地對中介作用及其大小進行估計,包括對混雜因素的控制。結論 SAS CAUSALMED過程步可實現(xiàn)各類變量下的中介分析,特別是考慮混雜因素及交互作用下的中介分析。
醫(yī)學研究的最終目的之一是探討疾病與暴露之間的因果關系[1]。近年來,在流行病學和統(tǒng)計學領域中,因果推斷越來越受到重視。目前公認的估計因果效應的金標準是隨機對照試驗,但其實施難度大,成本高,并且只能提供因果關系的“黑箱圖”,不能解釋具體的因果通路。中介分析方法通過確定因果通路上的中間變量,探索產(chǎn)生因果關系的內(nèi)部作用機制,為探索疾病與暴露因素之間的因果關系提供證據(jù),在因果推斷中發(fā)揮重要作用[2-4]。
針對醫(yī)學領域中介分析的迫切需要,已有研究者開發(fā)了經(jīng)典的中介分析方法[5]。經(jīng)典回歸方法易于理解、使用廣泛,但是缺乏對因果中介效應和其他效應明確定義的一般框架[6],因此,經(jīng)典的方法不能有效地處理交互作用,不能在統(tǒng)一的框架內(nèi)處理多種變量類型,實際使用范圍受限。另一方面,隨著統(tǒng)計分析理論和分析方法的完善,因果解釋中如何有效控制混雜因素,以及如何在非線性和交互作用存在的情況下進行直接和間接效應的計算日益受到重視,成為當前研究的熱點和難點[4]。針對上述需求,有研究者提出了基于反事實框架理論的中介分析方法且應用于因果推斷,其價值日益受到人們的重視[6-9]。
SAS從9.4M5版本開始提供基于反事實框架理論直接進行中介效應分析的過程步(PROC CAUSALMED)。該過程步具有操作簡單、計算快捷、結果清晰、解釋有力的特點,同時它可以處理混雜因素,在線性和交互作用存在的情況下進行因果效應的計算。本文通過實例,介紹應用SAS CAUSALMED過程步進行中介效應分析的過程及其結果的解釋,展示其應用特點和價值。
1.反事實框架理論
反事實框架理論是通過設定與事實相反的條件,以確定變量之間的因果關系,使個體將事件真實現(xiàn)存狀態(tài)與假設的、希望的理想狀態(tài)進行比較的過程[10]。反事實框架提供直接效應和間接效應的明確定義,適用于有或無交互效應的線性和非線性模型。該框架還提供了形式化的標準,判斷何時可以從數(shù)據(jù)中得出因果關系的結論,也就是說需要作出足夠的假設,才能從結論中獲得真正的因果關系[11]。利用反事實框架,Vander Weele和Vansteelandt[12]建立了在各種處理變量和結果變量的參數(shù)模型下計算因果中介效應的分析方法。SAS中根據(jù)上述理論有CAUSALMED過程步來進行相關的中介效應分析。
2.因果效應的定義
中介分析的因果推理框架將中介效應定義為平均反事實結果的對比。Yxm表示暴露X等于x,中介M等于m時觀察到的反事實結果。YxMx*表示暴露X等于x,中介M等于暴露X為x*值時觀察到的反事實結果。需要注意的是,我們永遠無法觀察到反事實結果YxMx*和Yx*Mx。表1提供了因果中介效應的反事實定義。我們使用(x,x*)定義因果中介效應為任何兩個暴露水平。當X是二分類變量時,x取值為0或1。
表1 因果中介效應的反事實定義
3.因果效應的識別
為了使得因果解釋更有意義,可以進一步對混雜變量進行控制。SAS CAUSALMED采用VanderWeele[3]的回歸方法,對單個處理變量、中介變量、結果變量和多個混雜因素進行因果中介分析?,F(xiàn)有以下四個假設:
(1)處理-結果之間沒有未測量的混雜;
(2)中介-結果關系沒有未測量的混雜;
(3)處理-中介之間沒有未測量的混雜;
(4)沒有受處理影響的中介-結果混雜。
控制混雜因素后,為了識別控制直接效應,需要滿足前兩個假設;自然直接效應和間接效應的識別則需要滿足以上四個假設。在SAS CAUSALMED過程步中,(1),(2)組混雜將包含在協(xié)變量的整體集合C中。應注意的是,假設(1),(2)和(3)也需要時間順序的假設。故進行中介分析時,研究者應更仔細地考慮和收集關于混雜變量的數(shù)據(jù)并進行控制。
4.SAS CAUSALMED過程步計算原理
假設滿足上面的識別條件,SAS CAUSALMED過程步使用回歸的方法實現(xiàn)了因果中介效應的估計。SAS CAUSALMED 過程步基于兩個模型:給定T、M和C的Y的結果模型,給定T和C的M的中介模型。
應用廣義線性模型,VanderWeele和Vansteelandt[13-15]推導出了計算不同變量類型的各種因果中介效應的分析公式。PROC CAUSALMED實現(xiàn)了這些分析公式。以θ表示結果模型和中介模型中所有參數(shù)的向量。中介分析中的因果效應是在特定協(xié)變量值條件下關于θ的函數(shù)。也就是說,由ef表示的因果效應可以表示為給定C=c的關于θ的函數(shù),即
gef(θ|C=c)
其中c代表協(xié)變量C的一些固定值。對于連續(xù)的結果,中介效應gef(θ|C=c)是按原始尺度定義的。對于結果變量為二分類變量時,中介效應gef(θ|C=c)是在優(yōu)勢比或超額相對風險尺度上定義的[13-15]。由于模型中可能包含非線性和交互作用項,一般來說,對于不同的協(xié)變量集,因果效應gef(θ|C=c)是不同的。默認情況下,PROC CAUSALMED計算gef(θ|C=c)所用的協(xié)變量是C的樣本平均值。對于分類協(xié)變量,這種默認計算仍然適用。分類協(xié)變量的平均值是根據(jù)分類水平的虛擬編碼0-1值計算的。然后,這些平均值被放入計算整體因果中介效應的公式中(虛擬編碼和計算平均值過程在程序內(nèi)部完成)
1.研究問題
為介紹CAUSALMED過程步的應用,本研究用一個測試數(shù)據(jù)展示中介分析的具體過程,該數(shù)據(jù)集基于教育模式研究[16],主要包括CogPerform(孩子在認知測試中的得分)、Encourage(問卷中父母鼓勵行為三項評分之和)、Motivation(由孩子、老師和主要看護人評估的孩子的動機水平的總分)、FamSize(孩子的家庭規(guī)模)、SocStatus(孩子的社會地位,是衡量家庭收入、父母職業(yè)和父母教育水平的綜合指標)、SubjectID(孩子的編號)六個變量,旨在了解父母提供的鼓勵環(huán)境是否會影響兒童的認知發(fā)展。此測試數(shù)據(jù)集(名稱為“Cognitive”)含300個觀察值,每個觀測值有以上六個變量值,表2展現(xiàn)了該數(shù)據(jù)集的前10個觀測值。
表2 輸入數(shù)據(jù)集(Cognitive)的前10個觀察值
我們想要探究,父母的鼓勵對兒童認知發(fā)展的影響是否是由它在一定程度上增強了孩子的學習動機而實現(xiàn)。其中,在中介分析的術語中,鼓勵是處理,動機是中介,認知表現(xiàn)是結果。需要注意的是,家庭規(guī)模和社會地位可能是混雜因素,我們希望在觀察各種因果效應時加以控制。
2.SAS分析實現(xiàn)
首先,從簡化分析難度上考慮,不控制混雜因素,僅探索處理變量、結果變量和中介變量之間的關系,調(diào)用PROC CAUSALMED來估計各種效應,分析代碼如下:
proc causalmed data=Cognitive all;
model CogPerform=Encourage Motivation;
mediator Motivation=Encourage;
run;
PROC CAUSALMED語句中的ALL選項顯示所有可用輸出。MODEL語句指定認知的結果模型,它受鼓勵和動機的影響。MEDIATOR語句指定了動機的中介模型,它只受鼓勵的影響。PROC CAUSALMED產(chǎn)生的輸出如表3至表5所示。
表3顯示了各種效應的估計及其百分比??梢钥吹?,認知受鼓勵影響的總效應估計為8.04,分解為自然直接效應(NDE=4.28)和自然間接效應(NIE=3.76)。默認情況下以中介變量動機取平均值時,估計的控制直接效應(CDE)為4.28。在當前模型中,因為不考慮協(xié)變量和混雜變量的影響,CDE與NDE相同。動機的中介效應百分比(PM)為46.74%。這意味著在父母的鼓勵對兒童認知發(fā)展的影響中,只有不到一半可以歸因于兒童學習動機的增強。
表3 總效應、直接效應、間接效應估計
表4和表5中的結果有助于確定效應的方向。表4顯示了認知結果模型的估計值。表5顯示了動機中介模型的估計值??梢钥吹紼ncourage和Motivation參數(shù)的估計值均大于0且對應的P值小于0.001,說明對鼓勵和動機的直接效應的估計是積極且顯著的,從而證實了父母的鼓勵對兒童學習動機的積極影響。
表4 結果模型的估計
表5 中介模型的估計
3.考慮混雜因素
盡管前面的分析可以解釋中介效應,但它并沒有充分利用SAS CAUSALMED過程步中可用的因果分析技術。為了從觀測數(shù)據(jù)中得出有效的因果解釋,必須對所有重要的混雜因素和協(xié)變量進行控制,而CAUSALMED過程提供了相應的功能。假設“家庭規(guī)?!薄焙汀吧鐣匚弧笔切枰刂频膮f(xié)變量。在COVAR語句中將這兩個變量指定為協(xié)變量,并使用PROC CAUSALMED步,如下所示來擬合相應的因果中介模型:
proc causalmed data=Cognitive;
model CogPerform=Encourage Motivation;
mediator Motivation=Encourage;
covar FamSize SocStatus;
run;
表6展示了包含協(xié)變量家庭規(guī)模和社會地位時,因果效應估計的結果。鼓勵對認知功能的TE現(xiàn)在變?yōu)?.84,比不包含混雜協(xié)變量的TE低了1.2(見表3)。這種差異表明,在鼓勵和認知功能之間觀察到的部分關聯(lián)確實受到協(xié)變量的影響。前面的分析中因未能對協(xié)變量進行調(diào)整,導致對表3中總效應值估計過高。本次分析的NDE為4.30,與前一次分析相差不大。然而,NIE為2.55,比表3中的NIE低1.21。最后,PM只有37.22%,比表3所示的PM(46.74%)低9.52%。
表6 因果效應估計
這些結果表明,在進行因果中介分析時,必須仔細考慮混雜因素和協(xié)變量的影響。為了能夠?qū)π烙嬤M行因果解釋,進行調(diào)整的基線協(xié)變量必須足以控制處理-結果、中介-結果和處理-中介之間的效應修飾。
4.考慮交互作用
以下語句通過在結果模型中包含鼓勵和動機之間的交互項來拓展中介分析:
proc causalmed data=Cognitive decomp;
model CogPerform=Encourage | Motivation;
mediator Motivation=Encourage;
covar FamSize SocStatus;
run;
結果見表7,當包含交互作用項時,PM略有變化,從37.22%(未考慮交互作用)增加至38.91%。雖然表7中顯示的交互作用百分比是顯著的,但它僅為0.42%。因此,對結果的解釋與沒有交互作用的分析結果沒有太大的不同。
表7 存在交互作用時因果效應的估計
中介作用通過確定因果通路上的中間變量,為探索疾病與暴露因素之間的因果關系提供證據(jù),在因果推斷中發(fā)揮重要作用。但是在許多研究中,假設處理和中介對結果的影響無交互作用及無混雜因素是不現(xiàn)實的,若此時錯誤地進行中介分析可能導致無效的推斷[13]。因此,亟需適應范圍廣、分析功能完善的中介分析程序。
本文所介紹的PROC CAUSALMED過程步,具有操作簡單、計算快捷、結果清晰、解釋有力等特點。第一,它通過使用反事實的方法來定義因果效應及其可識別條件,從而在中介分析中進行因果解釋;第二,在暴露-中介交互作用存在的情況下也可以進行中介分析;第三,可以調(diào)整混雜因素和協(xié)變量的影響,控制處理-結果、中介-結果和結果-中介的混雜,從而使得因果解釋更加準確;第四,變量類型不僅限于連續(xù)性變量,還可對多種變量類型進行分析和建模。
總體來看,SAS CAUSALMED過程步可以用來了解病因,提供基于觀察性研究的證據(jù)以證實和駁斥某些理論假設,可以在無法改變暴露的情況下評估干預對中介的影響,也可以回顧性地了解某些干預研究中干預措施成功或失敗的原因,在醫(yī)學研究(特別是流行病學研究)中發(fā)揮重要作用[13]。但我們也要警惕對該方法的濫用。該過程步的作用是在滿足所有相關假設的情況下估計因果中介效應,因此研究者在進行中介分析時,需要特別注意控制混雜因素和待研究變量間的時序關系[17]。為解決這一問題,有研究者使用縱向研究或分階段收集數(shù)據(jù)的方法,來確保時序關系正確[13]。此外,使用該過程步時,也需要證明混雜因素和協(xié)變量在處理變量、中介變量和結果變量之前存在穩(wěn)定的關聯(lián),這需要有實質(zhì)性的已有研究來提供支持納入這些因素的證據(jù)[6]。最后,如果研究者認為可能存在未測量的混雜,則應考慮使用敏感性分析[18]。綜上所述,SAS CAUSALMED過程步可以作為一個有力的定量工具來分析疾病/健康狀態(tài)與暴露因素間因果效應的存在。