彭菊聰 孫甜甜 李 倫 田金徽 楊啟梅1, 張玲娟 王麗君
由于醫(yī)療技術(shù)的進步,繼發(fā)于常見病的不良事件(如心肌梗死)發(fā)生率降低,這一點對患者是有益的。但對臨床研究來說,事件低發(fā)生率卻帶來了更大的挑戰(zhàn),這意味著研究者需設(shè)計更大規(guī)模、更長時間的臨床試驗去評估新治療措施的安全性和療效,也就意味著花費更多的資金[1]。因此,研究者引入了復(fù)合終點(composite endpoints),即與臨床相關(guān)的多個終點事件的合并,經(jīng)常用作RCT的主要終點,可以提高結(jié)果指標(biāo)統(tǒng)計效能[2]。復(fù)合終點在臨床試驗中廣泛使用,尤其是在心血管疾病領(lǐng)域。如若將主要終點設(shè)置為心肌梗死、中風(fēng)和死亡等復(fù)合終點,這時終點事件的發(fā)生率會提高,檢驗出統(tǒng)計學(xué)差異所需的樣本量將大為減少,花費的時間和費用也將削減。此外,一項臨床試驗往往有多個結(jié)局指標(biāo),使用復(fù)合終點是用于處理具有多個結(jié)局指標(biāo)的一種有效的方法。
復(fù)合終點基本有兩種類型。第一類為等級量表(rating scale),即臨床上所用的各種量表及評分系統(tǒng),是由若干臨床指標(biāo)組成的復(fù)合終點。例如在抑郁研究中使用的漢密頓抑郁量表(HAMD)[3],主要用于精神病藥物的臨床試驗。這種類型的復(fù)合終點是否適用取決于等級量表的信度和效度,信度和效度都較高的量表才能得出可靠的結(jié)論。第二類為多個事件發(fā)生率或至事件發(fā)生時間(time to the event),源于生存期分析,將幾種終點事件合并定義一個復(fù)合終點。受試者只要出現(xiàn)了事先確定的構(gòu)成變量列表(如死亡、心肌梗死或中風(fēng)等)中的一個或多個事件,就認(rèn)為復(fù)合終點發(fā)生[4],這種情況在心血管疾病臨床試驗中最常見,在其他疾病臨床試驗中使用也逐漸增多。復(fù)合終點是否有效,取決于構(gòu)成指標(biāo)是否具有臨床相關(guān)性和臨床意義。
必須在臨床試驗開始前事先確定復(fù)合終點,并明確定義復(fù)合終點的各個組成變量[2]。只有滿足以下條件才能使用復(fù)合終點:首先,干預(yù)措施對復(fù)合終點的構(gòu)成指標(biāo)影響一致,即各指標(biāo)的相對危險度(RR)降低程度相似,避免選擇對治療不敏感的指標(biāo),否則會導(dǎo)致變異性增大,使不同治療組之間優(yōu)效性檢驗的敏感度降低。這主要根據(jù)既往同類型研究的經(jīng)驗判斷,若經(jīng)驗難以判斷,建議選擇不同臨床表現(xiàn)指標(biāo)時,應(yīng)基于相關(guān)病理生理過程的相似程度。第二,選擇的終點指標(biāo)的發(fā)生率應(yīng)相近,若各指標(biāo)發(fā)生率差別較大時,根據(jù)復(fù)合終點得出的結(jié)論可能會產(chǎn)生誤導(dǎo)[1, 5]。如復(fù)合終點為“死亡或心絞痛”且只有幾例患者死亡,根據(jù)復(fù)合終點得出治療能降低病死率及減少心絞痛發(fā)作次數(shù)的結(jié)論不具有說服力,因為心絞痛發(fā)生率遠(yuǎn)高于病死率,關(guān)于病死率結(jié)果沒有充分的數(shù)據(jù)支持。第三,各構(gòu)成指標(biāo)對患者有足夠的重要性且重要程度相似,避免選擇臨床意義較小的指標(biāo)[1, 6]。當(dāng)各終點指標(biāo)對患者的重要程度相似時,即使終點事件的發(fā)生率有一定差別,得出的臨床結(jié)論依然有參考價值,只要干預(yù)措施對復(fù)合終點的影響是有益的,就認(rèn)為該措施有效。若各指標(biāo)的重要程度不相同時,則需要賦予不同的權(quán)重,權(quán)重的分配依據(jù)主觀等級或客觀標(biāo)準(zhǔn),等級方案的制定根據(jù)本領(lǐng)域?qū)<谊P(guān)于不同事件嚴(yán)重程度的評價及事件發(fā)生率大小[6];以明確治療對各組分的影響程度。
首先,通過使用復(fù)合終點提高終點事件發(fā)生率,從而減少所需的樣本量及降低成本,縮短試驗周期[2, 4, 6, 7],這應(yīng)是研究者選擇復(fù)合終點最主要的原因。只要各構(gòu)成指標(biāo)風(fēng)險降低或危險比相似,那么所需樣本量通常比僅使用任何一個單獨指標(biāo)要小。例如,一項臨床試驗對照組某事件的發(fā)生率是5%,要觀察到危險度(HR)為0.75時(效能80%,α=0.05),需要2 460例患者,如對照組該事件發(fā)生率為20%,則只需要780例患者。但在某些情況下,如果治療對復(fù)合終點中的一個或多個事件無影響或影響較小,這種優(yōu)勢將會被削弱。
其次,由于各觀察指標(biāo)并不是相互獨立的,選擇多個指標(biāo)作為主要終點指標(biāo)時就會存在著競爭風(fēng)險,雖然已有多種統(tǒng)計學(xué)方法可用于處理競爭風(fēng)險,但至今仍然沒有一種方法令人滿意,此時使用復(fù)合終點可以避免競爭風(fēng)險[6]。例如,一項關(guān)于晚期心力衰竭患者的臨床試驗,選擇住院作為終點指標(biāo)是不恰當(dāng)?shù)?,因為部分患者入院前已?jīng)死亡,入院前死亡的患者與生存時間足夠長的患者出現(xiàn)住院結(jié)局指標(biāo)的概率不同,如由于死亡而刪除的患者在兩組分布不一致時,會導(dǎo)致對治療效果的評估產(chǎn)生偏倚。假如干預(yù)措施減少了住院率卻增加了病死率,僅用住院作為終點指標(biāo),就會誤以為該措施有效。此時解決的辦法就是使用復(fù)合終點,將死亡和住院這兩個指標(biāo)合并,避免了死亡成為住院的競爭風(fēng)險事件。
第三,當(dāng)幾個結(jié)局指標(biāo)的重要性相似時,選擇終點指標(biāo)有爭議,此時使用復(fù)合終點可以避免選擇主要結(jié)局指標(biāo)的困惑[8, 9],而且使用復(fù)合終點能全面的評價干預(yù)措施的療效,提高統(tǒng)計學(xué)效能,一個結(jié)局指標(biāo)只能反映干預(yù)措施有效性和安全性的一個方面[10]。例如,溶栓治療心肌梗死,能降低患者病死率但同時顯著地增加出血及中風(fēng)事件,如果僅用病死率作為終點指標(biāo),就不能觀察到溶栓的不良反應(yīng)。此外如使用多個終點指標(biāo),就需要對各指標(biāo)進行多重比較,而使用復(fù)合終點則可以避免了對多個指標(biāo)進行多重比較的麻煩[2]。但Neaton等[6]認(rèn)為對同等重要的終點指標(biāo)選擇有困難時不能成為使用復(fù)合終點的理由。
首先,使用復(fù)合終點最常見的缺陷是當(dāng)治療措施對各個終點指標(biāo)的影響不一致時,即每個指標(biāo)的發(fā)生率或RR降低程度存在很大差異,會削弱統(tǒng)計學(xué)效能,可能導(dǎo)致對結(jié)果解釋產(chǎn)生誤導(dǎo)[5, 10],最極端的情況是干預(yù)措施對構(gòu)成指標(biāo)的療效截然相反[6]。如果某治療措施能增加病死率,但對非致命的終點指標(biāo)有很好的療效,從復(fù)合終點上顯示出整體效果是有利的,在這種情況下,使用復(fù)合終點會掩蓋治療措施對致命終點指標(biāo)的不利影響。例如,一項關(guān)于糖尿病的RCT研究得出羅格列酮8 mg可使糖尿病高風(fēng)險人群糖尿病發(fā)生率和病死率降低60%,但單獨分析各終點事件,卻發(fā)現(xiàn)羅格列酮使糖尿病發(fā)生率降低60%(RR=0.40,95%CI:0.36~0.46),但對病死率無顯著影響(RR=0.91,95%CI:0.55~1.49)[11]。
其次,當(dāng)各終點事件對患者重要性不一致時,對結(jié)果的解釋可能有困難,而且制定復(fù)合終點也比較復(fù)雜,需要計算各指標(biāo)的權(quán)重。通常最嚴(yán)重的事件往往與最低的發(fā)生率相聯(lián)系,較不嚴(yán)重的事件發(fā)生率相對較高,這樣干預(yù)措施對復(fù)合終點的影響主要由較不嚴(yán)重的事件決定,從而導(dǎo)致對治療效果的錯誤評估、較重要變量的不良影響被整個復(fù)合終點的結(jié)局所掩蓋[2, 8]。
第三,使用復(fù)合終點需要準(zhǔn)確的確定每一個組成事件,而且為了得到干預(yù)措施對各組成事件影響的確切結(jié)論,需要調(diào)整Ⅰ類錯誤率[12]。因此不僅增加了研究者的工作量,也增加了準(zhǔn)確計算事件發(fā)生率的資源投入。
作者不僅要報告干預(yù)措施對復(fù)合終點的影響,同時也要對所有組成變量分別進行分析報道。例如,如果試驗報道100例患者出現(xiàn)了復(fù)合終點(死亡、非致命心肌梗死或中風(fēng)),那么還應(yīng)當(dāng)報道死亡事件、非致命心肌梗死或中風(fēng)事件的發(fā)生數(shù)[13]。Freemantle等[2]主張將復(fù)合終點所包含的各組成事件作為試驗的次要結(jié)局指標(biāo),并與復(fù)合終點的分析一起報告,最好列在同一個表格里。一方面為了確定干預(yù)措施對各構(gòu)成指標(biāo)的影響是否一致、判斷是否有某個指標(biāo)在復(fù)合終點中起主導(dǎo)作用,另一方面可以暴露出干預(yù)措施對某個指標(biāo)是否有不利影響[4]。對復(fù)合終點結(jié)果的報道必須清晰詳細(xì),避免諸如單個指標(biāo)顯示有效的籠統(tǒng)描述[2, 12]。此外,還應(yīng)隨訪患者至研究結(jié)束,以獲得所有可能發(fā)生的事件,收集到全部的數(shù)據(jù),即使是同一事件的重復(fù)發(fā)生,也能提高試驗結(jié)果的精確度[6]。如患者出現(xiàn)非致命中風(fēng)后,應(yīng)繼續(xù)隨訪觀察是否再次出現(xiàn)中風(fēng)或其他事件。Lubsen等[13]建議根據(jù)構(gòu)成指標(biāo)重要性不同分為不同的等級水平:等級一,全因病死率;等級二,病因別病死率;等級三,非致命的臨床事件;等級四,癥狀、體征和臨床相關(guān)指標(biāo)。分別報道各構(gòu)成指標(biāo)所有可能的組合,如患者死亡但沒有住院、住院后死亡、住院后存活、其他。如僅報道總病死率及住院率,會歪曲試驗結(jié)果的真實性,高估或低估干預(yù)措施療效。
復(fù)合終點已被廣泛應(yīng)用于臨床試驗,尤其是心血管疾病臨床試驗。Freemantle等[2]檢索了1997至2001年發(fā)表于Lancet、AnnalsofInternalMedicine、Circulation、BritishMedicalJournal、JAMA、ClinicalinfectiousDiseases、JournaloftheAmericancollegeofCardiology、NewEnglandJournalofMedicine和Stroke9種高影響力雜志的RCT,共檢出167篇文獻(包括300 267例患者)使用復(fù)合終點,其中心血管疾病領(lǐng)域107篇(64.1%),腫瘤領(lǐng)域15篇(9%),其他疾病如糖尿病、白血病、周圍血管疾病等應(yīng)用相對較少。 Lim等[14]對復(fù)合終點在心血管疾病臨床試驗中的應(yīng)用情況進行系統(tǒng)回顧,檢索了2000至2007年發(fā)表于心血管領(lǐng)域的14種雜志,共檢索出1 231篇RCT,其中454篇(37%)采用復(fù)合終點,排除非兩組平行對照試驗150篇后,221/304篇(73%)使用復(fù)合終點作為主要結(jié)局指標(biāo),83篇(27%)作為次要結(jié)局指標(biāo)。復(fù)合終點平均由3個事件構(gòu)成,死亡事件是最常用的構(gòu)成指標(biāo),常被定義為“全因死亡”。
復(fù)合終點雖然在臨床試驗被大量采用,但由于使用不規(guī)范,存在諸多問題。研究顯示,由于復(fù)合終點變量構(gòu)成不合理,最常見各組成事件的重要性及發(fā)生率不一致,復(fù)合終點定義前后不一致以及結(jié)果報道不全面等,常誤導(dǎo)讀者并夸大了干預(yù)措施的療效。Cordoba等[15]納入于2008年發(fā)表的采用復(fù)合終點的40篇RCT研究,發(fā)現(xiàn)僅有1項試驗對構(gòu)成變量的選擇進行說明,6項試驗復(fù)合終點各組成指標(biāo)的臨床重要性相近并進行可靠評估,28項(70%)試驗組成指標(biāo)的重要性不合適等,其中20項將病死率與住院率組合,13項試驗在摘要、方法、結(jié)果部分對復(fù)合終點的定義不相同。Ferreira-Gonzalez等[16]對2001至2003年發(fā)表于6種影響力較高雜志的心血管疾病RCT進行評估,發(fā)現(xiàn)114項試驗采用復(fù)合終點,其中79項(69%)試驗由藥廠提供資金贊助或者提供藥物及設(shè)備,大部分試驗僅報道復(fù)合終點。
在HOPE試驗中,9 297例具有冠狀動脈疾病高危因素的患者隨機分為雷米普利組(4 645例)和安慰劑組(4 652例),平均隨訪5年,由于心血管疾病死亡、心肌梗死、中風(fēng)臨床重要性相近,故將三者合為復(fù)合終點。雷米普利組和安慰劑組分別有651例、826例出現(xiàn)復(fù)合終點結(jié)局指標(biāo)(死于心血管疾病或出現(xiàn)中風(fēng)或發(fā)生心梗)。雷米普利組出現(xiàn)心血管疾病死亡、心肌梗死、中風(fēng)分別為282例、459例、156例,3個結(jié)局指標(biāo)的發(fā)生情況之和為897,大于復(fù)合終點指標(biāo)發(fā)生數(shù)(表1),同樣見于安慰劑組。1例患者發(fā)生心肌梗死后,有可能出現(xiàn)中風(fēng),然后死于心血管疾病。若采用復(fù)合終點對于同一患者只記錄1次,但若采用單個指標(biāo)則需要記錄了3次。因此在使用復(fù)合終點時,還需要記錄每個構(gòu)成變量發(fā)生情況,本試驗即為患者死于心血管疾病及出現(xiàn)中風(fēng)、心肌梗死的例數(shù)。在結(jié)果分析中評估雷米普利的療效,不僅報道其對復(fù)合終點的影響,同時還應(yīng)該分別報道其對各組成指標(biāo)的影響。
表1 HOPE試驗中主要結(jié)果指標(biāo)和死亡病例(n)
復(fù)合終點就像一把雙刃劍[12],能提高事件發(fā)生率從而減少了所需的樣本量,可提高統(tǒng)計學(xué)效能及評估干預(yù)措施的凈臨床效益,但前提是要滿足構(gòu)建復(fù)合終點的條件。若各構(gòu)成指標(biāo)對患者重要性不一致及治療對各指標(biāo)的影響不一致時,依然使用復(fù)合終點作為終點指標(biāo),不僅不能發(fā)揮其優(yōu)勢,反而會增加所需的樣本量,并導(dǎo)致解釋結(jié)果困難,甚至得出錯誤的結(jié)論,誤導(dǎo)臨床醫(yī)師及患者。因此,在確定終點指標(biāo)之前,應(yīng)對各組成指標(biāo)進行仔細(xì)地評價,如不滿足條件,不能勉強使用復(fù)合終點。
[1]Montori VM, Permanyer-Miralda G, Ferreira-González I, et al. Validity of composite end points in clinical trials. BMJ, 2005,330(7491):594-596
[2]Freemantle N, Calvert M, Wood J, et al.Composite outcomes in randomized trials: greater precision but with greater uncertainty?JAMA, 2003,289(19):2554-2559
[3]Behnke K, Sogaard J, Martin S, et al. Mirtazapine orally disintegrating tablet versus sertraline: a prospective onset of action study. J Clin Psychopharmacol, 2003,23(4):358-64
[4]Chi GY. Some issues with composite endpoints in clinical trials. Fundam Clin Pharmacol,2005,19(6):609-619
[5]Ferreira-Gonza L, Permanyer-Miralda G, Busse JW, et al. Composite endpoints in clinical trials: the trees and the forest. J Clin Epidemiol, 2007,60(7):660-661
[6]Neaton JD, Gray G, Zuckerman BD, et al. Key issues in end point selection for heart failure trials: composite end points. J Card Fail, 2005,11(8):567-575
[7]Braunwald E, Cannon CP, McCabe CH. An approach to evaluating thrombolytic therapy in acute myocardial infarction. The 'unsatisfactory outcome' end point. Circulation, 1992,86(2):683-687
[8]Carneiro AV. Composite outcomes in clinical trials: uses and problems. Rev Port Cardiol,2003,22(10):1253-1263
[9]Freemantle N, Calvert M. Weighing the pros and cons for composite outcomes in clinical trials. J Clin Epidemiol, 2007, 60:658-659
[10]Cannon CP. Clinical perspectives on the use of composite endpoints. Control Clin Trials, 1997,18(6):517-529
[11]Tomlinson G, Detsky AS. Composite end points in randomized trials: there is no free lunch. JAMA, 2010,303(3):267-268
[12]Ferreira-González I, Permanyer-Miralda G, Busse JW, et al. Methodologic discussions for using and interpreting composite endpoints are limited, but still identify major concerns. J Clin Epidemiol, 2007,60(7):651-657
[13]Lubsen J, Kirwan BA. Combined endpoints: can we use them? Stat Med,2002,21(19):2959-2970
[14]Lim E, Brown A, Helmy A, et al. Composite outcomes in cardiovascular research: a survey of randomized trials. Ann Intern Med, 2008,149(9):612-617
[15]Cordoba G, Schwartz L, Woloshin S, et al. Definition, reporting, and interpretation of composite outcomes in clinical trials: systematic review. BMJ,2010,341:1-7
[16]Ferreira-González I, Busse JW, Heels-Ansdell D, et al. Problems with use of composite end points in cardiovascular trials: systematic review of randomised controlled trials. BMJ, 2007,334(7597):1-7
[17]Yusuf S, Sleight P, Pogue J, et al. Effects of an angiotensin-converting-enzyme inhibitor, ramipril, on cardiovascular events in high-risk patients. The Heart Outcomes Prevention Evaluation Study Investigators. N Engl J Med, 2000,342(3):145-153