喻亞宇,許楊鵬,何倩,吳君怡,付文杰,陶圓,張超
· 循證理論與實(shí)踐·論著 ·
Meta分析中缺失數(shù)據(jù)的處理方法簡介
喻亞宇1,2,許楊鵬1,2,何倩1,2,吳君怡1,2,付文杰1,2,陶圓1,3,張超1
臨床試驗(yàn)設(shè)計(jì)之初,乃至中后期對數(shù)據(jù)追蹤與隨訪,都可能無法避免部分?jǐn)?shù)據(jù)丟失。然而當(dāng)缺失數(shù)據(jù)與研究結(jié)果可能存在聯(lián)系時(shí),可能會導(dǎo)致隨機(jī)對照試驗(yàn)(RCT)偏倚,并且偏倚風(fēng)險(xiǎn)也將被引入到Meta分析結(jié)果中。由于缺失數(shù)據(jù)的情況是非常復(fù)雜的,所以對于缺失數(shù)據(jù)處理要根據(jù)實(shí)際情況來選擇合適的方法。本文就隨機(jī)缺失、完全隨機(jī)缺失、非隨機(jī)缺失的數(shù)據(jù)缺失機(jī)制及其常見的處理方法給出相關(guān)簡介。
缺失數(shù)據(jù);完整案例分析;末次觀察推進(jìn)法;估算個(gè)案分析
臨床試驗(yàn)設(shè)計(jì)之初,乃至中后期對數(shù)據(jù)追蹤與隨訪,都可能無法避免部分?jǐn)?shù)據(jù)丟失。在最近的一項(xiàng)對五大醫(yī)學(xué)期刊調(diào)查顯示,87%已發(fā)表的臨床試驗(yàn)報(bào)告了結(jié)局指標(biāo)缺失[1]。當(dāng)缺失數(shù)據(jù)與研究結(jié)果可能存在聯(lián)系時(shí),這可能會導(dǎo)致隨機(jī)對照試驗(yàn)(RCT)偏倚,偏倚風(fēng)險(xiǎn)也將可能被引入到Meta分析結(jié)果當(dāng)中。推薦分級的評價(jià)、制定與評估系統(tǒng)中判斷合并效應(yīng)量的可信度時(shí),也強(qiáng)調(diào)充分考慮到缺失值相關(guān)偏倚風(fēng)險(xiǎn)[2]。Cochrane手冊和系統(tǒng)評價(jià)和Meta分析優(yōu)先報(bào)告條目(PRISMA)中均建議系統(tǒng)評價(jià)/Meta分析制作者就如何描述如何評估與缺失值相關(guān)的偏倚風(fēng)險(xiǎn)給出說明[3,4]。隨著意向性治療(ITT)原則在臨床試驗(yàn)中被廣泛認(rèn)可,如果部分?jǐn)?shù)據(jù)缺失,則無法得到一個(gè)純粹的ITT分析。目前已有許多研究就如何處理ITT分析中的數(shù)據(jù)缺失進(jìn)行討論[5,6]。本文就缺失數(shù)據(jù)機(jī)制及常見的處理方法給出相關(guān)簡介。
關(guān)于缺失數(shù)據(jù)的討論首要考慮的是數(shù)據(jù)缺失的原因,可能由于與試驗(yàn)無關(guān)的原因缺失,如參與者因車禍死亡而無法參與試驗(yàn)。也可能由于與試驗(yàn)相關(guān)的原因而缺失,如使用安慰劑的參與者可能因治療無效而退出。數(shù)據(jù)缺失的原因在如何處理數(shù)據(jù)缺失時(shí)有重要作用。缺失數(shù)據(jù)的研究分析包括參與者提前退出試驗(yàn)的原因,錯(cuò)誤假設(shè)會導(dǎo)致潛在偏倚效應(yīng)量,為了對缺失數(shù)據(jù)采取合適的處理,我們需要了解缺失數(shù)據(jù)的機(jī)制。Rubin和Rubin對于缺失數(shù)據(jù)分類有明確定義[7],這種分類方法取決于數(shù)據(jù)缺失原因。Little and Rubin機(jī)制包含以下三個(gè)類型:
1.1 隨機(jī)缺失(MAR)在MAR假設(shè)下,數(shù)據(jù)缺失原因取決于完全觀測到的協(xié)變量(如干預(yù)、基線),而與未觀測到的因素?zé)o關(guān)。如假設(shè)小學(xué)生被隨機(jī)分配到不同的干預(yù)組為了降低學(xué)生在學(xué)校的焦慮,通過癥狀嚴(yán)重程度量表測量,低齡學(xué)生可能更難收集到數(shù)據(jù),因?yàn)樗麄兒茈y理解癥狀嚴(yán)重程度量表。研究中,低齡學(xué)生缺失數(shù)據(jù)的比例與干預(yù)措施相關(guān),MAR假設(shè)意味著低齡兒童中中途退出者與完成試驗(yàn)者最終結(jié)果相似,在MAR假設(shè)中,盡管缺失數(shù)據(jù)與參與者或研究人員有一定聯(lián)系,但缺失數(shù)據(jù)不取決于實(shí)際結(jié)果[8]。統(tǒng)計(jì)學(xué)分析通常假設(shè)缺失數(shù)據(jù)為MAR,如果假設(shè)是正確的,僅分析完整的數(shù)據(jù)可以得到一個(gè)無偏倚的療效估計(jì)[9]。
1.2 完全隨機(jī)缺失(MCAR) 在MCAR假設(shè)下,數(shù)據(jù)缺失的原因與觀測到的變量和未觀測到的變量無關(guān),這意味著數(shù)據(jù)缺失的原因與這項(xiàng)試驗(yàn)無關(guān),所有參與試驗(yàn)的個(gè)體數(shù)據(jù)缺失的幾率都是相同的,我們假設(shè)研究中缺失數(shù)據(jù)與完整數(shù)據(jù)分布規(guī)律是一致的,干預(yù)措施對于缺失數(shù)據(jù)和完整數(shù)據(jù)影響一致,例如:參與者因?yàn)檐嚨溨型就顺龆鴽]有通知研究人員,這樣的缺失即為完全隨機(jī)缺失。因?yàn)閰⑴c者之間沒有存在系統(tǒng)性差異,因此MCAR不會導(dǎo)致療效結(jié)果偏倚[10]。
1.3 非隨機(jī)缺失(MNAR) 在MNAR假設(shè)下,數(shù)據(jù)缺失與觀測到或未觀測到的變量或結(jié)果有關(guān),參與者中途退出試驗(yàn)的原因可能與干預(yù)措施有關(guān),例如:精神病試驗(yàn)中,安慰劑組比抗精神病藥組退出率要高,因?yàn)榘参縿]有改善患者健康狀況。在MNAR情況下,對于完成試驗(yàn)的參與者進(jìn)行分析時(shí),應(yīng)該提供一個(gè)關(guān)于相對療效的偏差估計(jì),當(dāng)缺失數(shù)據(jù)是MCAR或MAR時(shí),偏差估計(jì)可以忽略的,當(dāng)缺失數(shù)據(jù)是MNAR時(shí),偏差估計(jì)是不可忽略的[11]。
2.1 完整案例分析(CC) 完整案例分析法是在Meta分析中最普遍和常用的缺失數(shù)據(jù)處理方法,在每個(gè)研究中,只有完成研究的個(gè)體可以被納入。這種方法要求缺失數(shù)據(jù)是可忽略的(MCAR或MAR),否則,這種方法會導(dǎo)致偏差估計(jì),如果數(shù)據(jù)是完全隨機(jī)缺失,采用完整案例分析則會得到一個(gè)無偏倚結(jié)果,當(dāng)數(shù)據(jù)是非隨機(jī)缺失時(shí),缺失數(shù)據(jù)比例越大,此項(xiàng)分析的研究結(jié)果就越不可信[12]。像完整案例分析這樣完全忽略缺失數(shù)據(jù)的方法,會降低結(jié)果的精準(zhǔn)度和研究的統(tǒng)計(jì)學(xué)功效,而且這種方法違背了ITT分析基本原則。如以下森林圖(圖1),所采用的數(shù)據(jù)來自于ACA方法估計(jì)。
2.2 末次觀察推進(jìn)法(LOCF) LOCF廣泛應(yīng)用于縱向研究缺失數(shù)據(jù)處理,這種方法可以用于參與者在試驗(yàn)結(jié)束前退出,但是提供了一個(gè)或多個(gè)中間觀測值。該方法以參與者退出前最后一次觀測值代替缺失最終結(jié)果,LOCF假設(shè)了參與者退出試驗(yàn)后最后得到的觀測值是典型的并且退出后情況沒有發(fā)生改變。在每個(gè)隨機(jī)組中,未觀測到的最終值的均值等于中途退出者末次觀察值的均值[13]。這種方法允許了所有個(gè)體被包含在分析之中,符合ITT原則。如果在中途有療效而在結(jié)果沒有療效,則LOCF所估測結(jié)果會夸大實(shí)際療效,反之亦然。如果未觀測到結(jié)果隨著時(shí)間改善了,則LOCF趨向于更少中途退出者的治療組;如果未觀測到的結(jié)果隨著時(shí)間惡化,則LOCF趨向于更多中途退出者的治療組[13]。對于LOCF適用的缺失機(jī)制尚有爭議,有人認(rèn)為使用這種方法需要數(shù)據(jù)為MCAR[14,15],而有人則認(rèn)為不需要。
2.3 估算個(gè)案分析(ICA) 這種方法是假設(shè)缺失值的參與人員從未離開過試驗(yàn),根據(jù)缺失值在試驗(yàn)組和對照組干預(yù)中不同情況來進(jìn)行分析,最常用的結(jié)局假設(shè)如下:
ICA-0:假設(shè)所有缺失參與者在兩個(gè)干預(yù)中都沒有經(jīng)歷這個(gè)事件。
ICA-1:假設(shè)所有缺失參與者在兩個(gè)干預(yù)中都經(jīng)歷了這個(gè)事件。
ICA-b(best case scenario):假設(shè)所有在試驗(yàn)干預(yù)組的缺失患者經(jīng)歷了事件,反之所有在對照組的缺失患者沒有經(jīng)歷事件。
ICA-w(worst case scenario):假設(shè)所有在試驗(yàn)干預(yù)組的缺失患者沒有經(jīng)歷事件,反之所有在對照組的缺失患者經(jīng)歷了事件。
ICA-p:假設(shè)對照組中缺失值事件風(fēng)險(xiǎn)與已觀測到的一致,試驗(yàn)組中缺失值事件風(fēng)險(xiǎn)與已觀測到的一致。這種方法相當(dāng)于MAR假設(shè)。這種效果估計(jì)與ACA相同。對每個(gè)假設(shè)都實(shí)施了Meta分析。Meta分析效應(yīng)量范圍反應(yīng)了結(jié)論穩(wěn)定性和MAR相關(guān)性,不一致的結(jié)果則指示缺失數(shù)據(jù)是MNAR。
ICA-pc:假設(shè)所有缺失值與對照組中已觀測到的參與者有相同的事件風(fēng)險(xiǎn)。
ICA-pe:假設(shè)所有缺失值與試驗(yàn)組中已觀測到的參與者有相同的事件風(fēng)險(xiǎn)。
以上方法皆可在Stata中使用metamiss命令完成[16]。Higgins,White和 Wood于2008年為這種方法定義,如果假設(shè)是合理的,則得到一個(gè)無偏倚結(jié)果[17]。這種方法主要優(yōu)點(diǎn)是保留了原始隨機(jī)化患者,ICA方法傾向于提高“精度”,可以限制它假設(shè)結(jié)果估算值作為觀察值,它忽略了這些估算值的不確定性,然而忽略估算值的不確定性時(shí)必須要小心不能低估了標(biāo)準(zhǔn)誤[12]。最后,這種方法另一個(gè)需要注意的是,只有數(shù)量有限的假設(shè)通常應(yīng)用敏感性分析。
模擬數(shù)據(jù)基于Cochrane協(xié)作網(wǎng)內(nèi)關(guān)于氟哌啶醇和安慰劑治療精神病療效比較[18]。選取了其中17項(xiàng)RCT結(jié)果作為模擬數(shù)據(jù),假定所有缺失數(shù)據(jù)都為MCAR。使用以上幾種缺失數(shù)據(jù)處理方法對模擬數(shù)據(jù)進(jìn)行處理,然后對各種方法處理后合并結(jié)果進(jìn)行匯總比較,結(jié)果見圖2。
經(jīng)ACA方法處理后結(jié)果(圖1)與ICA-p相同,ICA-b、ICA-w與ICA-1、ICA-0提供了兩個(gè)極端值,ICA-b假設(shè)所有缺失值在試驗(yàn)組中都是有利結(jié)局而在對照組中都是不利結(jié)局,而ICA-w則與之相反,這兩種估計(jì)提供了與觀測值相匹配的最大和最小的效果估計(jì),真實(shí)完整的試驗(yàn)結(jié)果則在這個(gè)區(qū)間以內(nèi)。ICA-1和ICA-0適用于缺失數(shù)據(jù)結(jié)局可以被預(yù)測時(shí)[17]。例如在戒煙干預(yù)中,中途退出者更可能的是繼續(xù)吸煙[19,20]。圖2反應(yīng)的是各種方法在處理這組缺失數(shù)據(jù)時(shí)的差異,而不是這些方法的優(yōu)缺點(diǎn),圖2顯示ICA-b與其他幾組方法間差異巨大,這反映的不是ICA-b的缺點(diǎn)而是對缺失數(shù)據(jù)結(jié)局估計(jì)錯(cuò)誤??梢钥闯鯥CA-1與ICA-pe更適合處理這組模擬數(shù)據(jù),即這兩種估計(jì)更接近缺失數(shù)據(jù)的真實(shí)情況,所得結(jié)果更為可靠。
圖1 經(jīng)ACA處理后的結(jié)果森林圖
圖2 不同假設(shè)下處理缺失數(shù)據(jù)后的結(jié)果比較圖
缺失數(shù)據(jù)帶來的風(fēng)險(xiǎn)偏倚取決于缺失數(shù)據(jù)機(jī)制,大多數(shù)統(tǒng)計(jì)學(xué)分析假設(shè)數(shù)據(jù)缺失機(jī)制為MAR,這種假設(shè)是理想化的假設(shè),在缺乏有力的證據(jù)時(shí),判斷數(shù)據(jù)缺失的機(jī)制可能會引入偏倚。Meta分析通常不具備檢測數(shù)據(jù)缺失原因的能力,僅憑經(jīng)驗(yàn)性判斷數(shù)據(jù)缺失的原因和機(jī)制是不科學(xué)的。敏感性分析通常是在不同情況下評估數(shù)據(jù)缺失機(jī)制唯一可行的方法[21]。忽略缺失數(shù)據(jù)不僅降低了試驗(yàn)統(tǒng)計(jì)效能,也會因此引入偏倚,對于缺失數(shù)據(jù)錯(cuò)誤估計(jì)則會為研究結(jié)果引入更大偏倚。對于任何臨床試驗(yàn)和系統(tǒng)評價(jià)而言,對于缺失數(shù)據(jù)處理方法并不是一成不變,而是要根據(jù)臨床事實(shí)與經(jīng)驗(yàn)做出合理科學(xué)的假設(shè)然后才能選擇合適的方法,例如在精神類試驗(yàn)中,數(shù)據(jù)缺失原因大都是因?yàn)闆]有療效或療效不顯著而導(dǎo)致參與者中途退出,對于這類情況選擇LOCF可能更為合理。缺失數(shù)據(jù)的處理難在樣本量的限制、RCT的設(shè)計(jì)、對數(shù)據(jù)缺失機(jī)制的假設(shè)以及合適方法的選擇。對于處理缺失數(shù)據(jù)沒有最佳方法,最好的方法就是通過制定嚴(yán)密的預(yù)案、仔細(xì)的收集數(shù)據(jù)和隨訪來避免出現(xiàn)缺失數(shù)據(jù)。同時(shí)在缺失數(shù)據(jù)出現(xiàn)后盡量找到缺失部分,如重新聯(lián)系到參與者[22]。由于缺失數(shù)據(jù)的情況是非常復(fù)雜的,統(tǒng)計(jì)學(xué)家不可能設(shè)計(jì)出一個(gè)可以處理所有缺失數(shù)據(jù)的通用方法,因此對于缺失數(shù)據(jù)處理要根據(jù)實(shí)際情況來選擇合適的方法,盡可能地降低誤差。
[1] Akl EA,Briel M,You JJ,et al. Potential impact on estimated,treatment effects of information lost to follow-up inrandomized controlled trials(LOST-IT):systematic review[J]. BMJ,2012,344:e2809.
[2] Guyatt GH,Oxman AD,Vist G,et al. GRADE guidelines:4.Rating the quality of evidence-study limitations (risk of bias)[J]. J Clin Epidemi ol,2011,64(4):407-15.
[3] J Higgins,SEGreen. The Cochrane Collaboration. Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 [updated March 2011]. http://www.cochrane-handbook.org
[4] Moher D,Liberati A,Tetzlaff J,et al. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement[J]. Ann Intern Med,2009,151(4):264-9.
[5] Hollis S,Campbell F. What is meant by intention to treat analysis? Survey of published randomised controlled trials[J]. BMJ,1999,319 (7211):670-4.
[6] ShihW. Problems in dealing with missing data and informative censoring in clinical trials[J]. Curr Control Trials Cardiovasc Med,2002,3(1):4.
[7] Mavridis D,Chaimani A,Efthimiou O,et al. Addressing missing outcome data in meta-analysis[J]. Evid Based Ment Health,2014,17(3):85-9.
[8] Little RJ,Ralph D,Cohen ML,et al. The prevention and treatment of missing data in clinical trials[J]. N Engl J Med,2012,367(14):1355-60.
[9] Groenwold RH,Donders AR,Roes K,et al. Dealing with missing outcome data in randomized trials and observational studies[J]. Am J Epidemiol,2012,175(3):210-7.
[10] Donders AR,van GJ,Stijnen T,et al. Review:a gentle introduction to imputation of missing values[J]. J Clin Epidemiol,2006,59(10):1087-91.
[11] MT Lozano Albalate,M Devy,J Miguel,et al. Addressing missing outcome data in meta-analysis[J]. Evid Based Mental Health,2014,17(3):85-9.
[12] Wood AM,White IR,Thompson SG. Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals[J]. Clin Trials, 2004,1(4):368-76.
[13] White IR. Including all individuals is not enough : Lessons for intention-to-treat analysis[J]. Clin Trials,2012,9(4):396-407.
[14] Geert M,Herbert T,Ivy J,et al. Analyzing incomplete longitudinal clinical trial data[J]. Biostatistics,2004,5(3):445-64.
[15] Lane P. Handling drop-out in longitudinal clinical trials: A comparison of the LOCF and MMRM approaches[J]. Pharm Stat,2008,7(2):93-106.
[16] White IR,Higgins JPT. Meta-analysis with missing data[J]. Stata J,2009,9(1):57-69.
[17] Higgins JP,White IR,Wood AM. Imputation methods for missing outcome data in meta-analysis of clinical trial[J]. Clin Trials,2008,5 (3):225-39.
[18] Irving CB,Adams CE,Lawrie S. Haloperidol versus placebo for schizophrenia[J]. Cochrane Database Syst Rev,2013,11:CD003082.
[19] Tashkin DP,Kanner R,Bailey W,et al. Smoking cessation in patients with chronic obstructive pulmonary disease: a double-blind,placebocontrolled,randomized trial[J]. Lancet, 2001,357(9268):1571-5.
[20] Hajek P,Stead LF. Aversive smoking for smoking cessation[J]. Cochrane Database Syst Rev, 2004,3:CD000546.
[21] Sterne JA,White IR,Carlin JB,et al. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls[J]. BMJ,2009,338:b2393.
[2 2]K L S a i n a n i. D e a l i n g w i t h n o n-n o r m a l d a t a[J]. PMR,2012,4(12):1001-5.
本文編輯:姚雪莉
Introduction of processing methods for missing data in Meta-analysis
YU Ya-yu*, XU Yang-peng, HE Qian, WU Jun-yi, FU Wen-jie, TAO Yuan, ZHANG Chao.*Center for Evidence-Based Medicine and Clinical Research, Taihe Hospital, Hubei University of Medicine, Shiyan 442000, China.
ZHANG Chao, E-mail: zhangchao0803@126.com
At the beginning of a clinical trial design, and even in the middle and later stages when data is tracked and followed up, partial data may be missed inevitably. However, when the missing data and research results are possibly linked, bias may be induced in a randomized controlled trial (RCT), and the bias risk will also be introduced to the results of Meta-analysis. Due to the status of missing data is very complex, processing methods for missing data should be selected according to actual situation. The aim of this paper is to present missing data mechanism including missing at random (MAR), missing completely at random (MCAR), missing not at random (MAR), and common processing methods.
Missing data; Available case analysis; Last observation carried forward; Imputed case analysis
R4
A
1674-4055(2016)12-1416-04
十堰市太和醫(yī)院院級項(xiàng)目課題(2016JJXM070)
1442000 十堰,十堰市太和醫(yī)院(湖北醫(yī)藥學(xué)院附屬醫(yī)院)循證醫(yī)學(xué)中心;2442000 十堰,湖北醫(yī)藥學(xué)院口腔醫(yī)學(xué)院12級;3442000 十堰,湖北醫(yī)藥學(xué)院影像醫(yī)學(xué)院12級
張超,E-mail:zhangchao0803@126.com
共同第一作者:喻亞宇,許楊鵬
10.3969/j.issn.1674-4055.2016.12.03