臨床試驗中救助治療對臨床效應(yīng)評價的影響研究*

2015-01-27 10:31閻小妍

中國衛(wèi)生統(tǒng)計 2015年3期

曾新姚晨，△ 郭翔閻小妍

·論著·

曾新1姚晨1，2△郭翔3閻小妍2

目的本文引入秩方法對含有救助治療的臨床試驗療效結(jié)果進(jìn)行分析，并與目前國內(nèi)常用方法進(jìn)行比較，為分析該類數(shù)據(jù)選擇合適的方法提供統(tǒng)計學(xué)依據(jù)。方法采用Monte Carlo模擬的方法，考慮調(diào)整患者不同時點觀測值之間的相關(guān)系數(shù)和救助閾值，分析療效評價的Ⅰ型錯誤和檢驗效能，并與目前國內(nèi)常用的完整案例分析和末次觀測結(jié)轉(zhuǎn)法進(jìn)行比較。結(jié)果 Ⅰ型錯誤方面，當(dāng)救助比例在20%左右時，不同方法差異較小，當(dāng)救助比例較大時，按時間和末次觀測值調(diào)整的秩方法是最佳的方法。效能方面，當(dāng)救助比例小于40%時，所有方法效能均大于0.8，當(dāng)救助比例較大時，按末次觀測值調(diào)整的秩方法是最佳的方法。結(jié)論在實際研究過程中，需要根據(jù)實際情況選擇合適的分析方法，而不是直接采用完整案例分析和末次觀測結(jié)轉(zhuǎn)法，以得到更有效的結(jié)果。救助治療的分析方法可以為安慰劑對照試驗提供一種新的設(shè)計和分析思路。

救助治療秩方法 Ⅰ型錯誤檢驗效能

在臨床試驗中，有時為保護(hù)受試者，在方案中會規(guī)定可合并的治療(或者用藥)，一類是基礎(chǔ)治療，還有一類是在受試者指標(biāo)達(dá)到警戒時的緊急救助治療。在臨床研究中，如果藥物療效不佳，患者可能會發(fā)生危險，這時需要研究者事先規(guī)定好一個閾值，一旦患者的主要指標(biāo)達(dá)到該閾值，就對該患者采用預(yù)先規(guī)定好的救助方式進(jìn)行治療。

顯然，救助治療后的試驗觀測值無法準(zhǔn)確反映試驗藥物的真實效果，因為反映的是試驗藥物和救助藥物的療效總和。一般而言，救助治療會使得觀察到的治療效果比未經(jīng)救助時的結(jié)果更好，救助治療對療效帶來的有利影響會減弱組間差異[1]。

在試驗規(guī)模較大或救助治療比例較小時，研究者可能忽略救助治療對結(jié)果的影響，直接分析觀測到的數(shù)據(jù)。如果研究者認(rèn)為救助治療會對療效分析產(chǎn)生影響，一般的思路是將救助治療后的數(shù)據(jù)視為缺失值，因此處理救助治療的辦法也就是常見的處理缺失數(shù)據(jù)的辦法。如果將救助治療之后的數(shù)據(jù)看作缺失，可以發(fā)現(xiàn)這種缺失往往屬于隨機(jī)缺失(missing at random,MAR)[2]，因為救助治療的發(fā)生與救助前的觀測值密切相關(guān)，但與救助后的觀測值無關(guān)。

在救助治療數(shù)據(jù)處理上，目前國內(nèi)廣泛采用的方法是完整案例分析(complete case analysis,CC)和末次觀測結(jié)轉(zhuǎn)法(last observation carried forward,LOCF)[3]。這兩種方法都簡單易行，但都是基于完全隨機(jī)缺失(missing completely at random,MCAR)的機(jī)制[4-5]，用來分析救助治療并不合適。多重填補(bǔ)法(multiple imputation,MI)和重復(fù)測量的混合模型(mixed-effects model repeated measures,MMRM)是兩種適用MAR機(jī)制的缺失數(shù)據(jù)處理的方法[6-8]，但處理方式相對復(fù)雜，在國內(nèi)使用較少。

目前國內(nèi)外針對救助治療數(shù)據(jù)處理的研究文獻(xiàn)很少，White提出了一種秩方法的思路[1]。在臨床試驗中，救助治療本身有時可以被看作是一種“壞”的結(jié)果，因為暗示著試驗藥物的真實治療效果并不樂觀。為此，一個合理的思路是給接受救助治療的患者安排一個相對靠后的秩[9]。

對象與方法

1.改進(jìn)的秩方法

對于未經(jīng)過救助治療的患者，他們的觀測值都能反映所用藥物的真實療效。在最壞秩假設(shè)中，所有接受過救助治療的患者的秩是一樣的，這樣并不合理。所以改進(jìn)的思路在于給這些患者排序。在最壞秩方法的基礎(chǔ)上還可以進(jìn)一步提出三個假設(shè)。

對于所有接受過救助治療的患者：

1.末次觀測值越大，說明潛在結(jié)果越壞；

2.救助之前最后一次觀測的值越大，說明潛在結(jié)果越壞；

3.救助時間越早意味著潛在結(jié)果越壞。

2.模擬研究方法

本研究共模擬比較以下幾種方法：

(1) 完整案例分析(CC)；

(2) 末次觀測結(jié)轉(zhuǎn)(LOCF)；

(3) 秩方法。

下面通過模擬一項降血糖的研究來比較各方法。數(shù)據(jù)模擬的一個優(yōu)勢在于，我們事先知道試驗藥物和對照藥物的實際療效，因此可以將前面提到的方法的結(jié)果與真實數(shù)據(jù)(REAL)的結(jié)果進(jìn)行比較。設(shè)該研究共有10個訪視點，主要指標(biāo)是末次訪視點的糖化血紅蛋白(HbA1c)。

數(shù)據(jù)模擬由計算機(jī)完成，模擬數(shù)據(jù)的軟件采用R 2.15.0。組間比較均采用Wilcoxon秩和檢驗。本研究設(shè)定的模擬次數(shù)為5000次，樣本量設(shè)定為100人，兩組各50人。

假定沒有救助治療時，各組患者不同時點的HbA1c值服從多元正態(tài)分布。根據(jù)以往試驗得到的數(shù)據(jù)，糖尿病患者基線時的HbA1c均值為9，同一患者不同時點HbA1c值之間的相關(guān)系數(shù)約為0.7，不同患者HbA1c值的標(biāo)準(zhǔn)差約為1.2，據(jù)此可以設(shè)置分布的均值向量和協(xié)方差矩陣。

我們規(guī)定，從第4個訪視點開始，如果某位患者的HbA1c值大于設(shè)定的救助閾值，將對其采取指定的救助治療。同樣假設(shè)各訪視點HbA1c的下降值服從正態(tài)分布，通過設(shè)置均值向量和標(biāo)準(zhǔn)差可以模擬該分布。

模擬結(jié)果

1.Ⅰ型錯誤的模擬比較

(1) 參數(shù)設(shè)置

在比較Ⅰ型錯誤時，模擬比較的兩組在末次訪視點的療效應(yīng)無差異，為此設(shè)在末次訪視點兩組的HbA1c均值為9.5。檢驗一類錯誤率時的具體參數(shù)見下表1。

對模擬產(chǎn)生的數(shù)據(jù)集用各方法進(jìn)行分析，計算所有的模擬檢驗中出現(xiàn)陽性結(jié)果(P≤α)的比例即該方法的Ⅰ型錯誤水平[10]。

(2) 模擬結(jié)果

從表2可以看出，隨著同一患者不同時點HbA1c值之間的相關(guān)系數(shù)增大，按時間和末次觀測值調(diào)整的秩方法(ARTLV)始終是最佳的方法，因為該方法的Ⅰ型錯誤最小且最接近真實數(shù)據(jù)(REAL)的結(jié)果；完整案例分析(CC)的Ⅰ型錯誤在相關(guān)系數(shù)為0.9時突然增大；末次觀測結(jié)轉(zhuǎn)法(LOCF)的Ⅰ型錯誤有逐漸減小的趨勢；在相關(guān)系數(shù)為0.9時除CC和按救助前最后一次觀測值調(diào)整的秩方法(ARLV-BR)之外其余方法的Ⅰ型錯誤都很接近。

從表3可以看出，隨著救助閾值的增大，按時間和末次觀測值調(diào)整的秩方法(ARTLV)始終是最佳的方法，該方法的Ⅰ型錯誤保持在0.05～0.06之間；完整案例分析(CC)的Ⅰ型錯誤在0.05～0.07之間波動；末次觀測結(jié)轉(zhuǎn)法(LOCF)的Ⅰ型錯誤逐漸減小；在救助閾值為11時各方法的Ⅰ型錯誤都很接近。

從表2和表3可以看出，從控制Ⅰ型錯誤的角度看，按時間和末次觀測值調(diào)整的秩方法(ARTLV)始終是最佳的方法，但是當(dāng)救助閾值達(dá)到11或者相關(guān)系數(shù)達(dá)到0.9時，LOCF方法和秩方法的Ⅰ型錯誤差異不大。同時，隨著救助閾值的增大和相關(guān)系數(shù)的增大，不同方法Ⅰ型錯誤的變化情況是相似的。事實上，救助閾值的增大和相關(guān)系數(shù)的增大，都將導(dǎo)致患者的救助比例減小，當(dāng)救助比例足夠小時，不同方法之間的自然不會有明顯差異。進(jìn)一步分析救助比例與Ⅰ型錯誤的關(guān)系見表4。可以發(fā)現(xiàn)，當(dāng)救助比例在20%左右時，LOCF方法得到的 Ⅰ 型錯誤和其他方法與秩方法差異不大，從簡單易行的角度考慮，LOCF是更合適的方法。

2.檢驗效能的模擬比較

(1) 參數(shù)設(shè)置

在比較檢驗效能(1-β)時，模擬比較的兩組在末次訪視點的療效應(yīng)有差異，為此設(shè)在末次訪視點試驗組的HbA1c均值為8.5，對照組為9.5。檢驗檢驗效能時的具體參數(shù)見下表5。

對模擬產(chǎn)生的數(shù)據(jù)集用前文所述的方法進(jìn)行分析，計算所有的模擬檢驗中出現(xiàn)陽性結(jié)果(P≤α)的比例即該方法的檢驗效能。

(2) 模擬結(jié)果

由表6可以看出，隨著同一患者不同時點HbA1c值之間的相關(guān)系數(shù)的上升，除真實數(shù)據(jù)(REAL)的結(jié)果外，按末次觀測值調(diào)整的秩方法(ARLV)始終保持效能最大，是最佳的方法，其次是按時間和末次觀測值調(diào)整的秩方法(ARTLV)；CC是效能最低的方法，這是因為CC會減少樣本量，自然導(dǎo)致效能降低；其他秩方法和LOCF的檢驗效能差異很小。

不同方法的檢驗效能與救助閾值的關(guān)系和與相關(guān)系數(shù)的關(guān)系類似，見表7，最佳方法是按最后一次觀測值調(diào)整的秩方法(ARLV)，其次是按時間和最后一次觀測值調(diào)整的秩方法(ARTLV)，CC最差，其余方法差異很小。

從效能最大的角度看，最佳方法始終是按末次觀測值調(diào)整的秩方法(ARLV)，其次是按救助時間和末次觀測值調(diào)整的秩方法(ARTLV)。同樣地，當(dāng)救助比例很小時，不同方法得到的檢驗效能差距不大，見下表8。當(dāng)救助比例小于40%時，所有方法的檢驗效能均大于0.8，從檢驗效能的角度看，這時所有方法均可以選擇。

討論與結(jié)論

如前所述，國內(nèi)大多直接采用處理缺失數(shù)據(jù)的方法處理救助治療數(shù)據(jù)。然而救助治療不同于一般的缺失數(shù)據(jù)，首先救助治療不符合完全隨機(jī)缺失的假定，而這是目前國內(nèi)常用處理方法CC的基本假設(shè)[11]。更重要的是，救助后的觀測值并不是缺失，而是確實存在的，只是其中混雜了很多信息救助藥物的信息。如果能從中提取出試驗藥物的信息，就可以最大化的利用所有數(shù)據(jù)。然而，缺失數(shù)據(jù)的分析方法，無論是簡單的LOCF還是復(fù)雜的MMRM都不可能利用到救助后的信息。

Ⅰ型錯誤和檢驗效能是反映一種檢驗方法是否合理的兩個重要指標(biāo)。筆者考察了預(yù)先設(shè)定的救助治療對臨床效應(yīng)評價的影響，模擬比較了完整案例分析、末次觀測結(jié)轉(zhuǎn)和秩方法。模擬結(jié)果說明，當(dāng)救助治療的比例在20%左右時，從方便實施的角度考慮，LOCF方法是可行的；當(dāng)救助治療比例大于30%時，使用筆者提出的按末次觀測值調(diào)整的秩方法(ARLV)和按救助時間和末次觀測值調(diào)整的秩方法(ARTLV)是更好的選擇?？紤]到一類錯誤率的上升意味著認(rèn)為假藥有效的可能性上升，而檢驗效能說明的是有效的藥物不能上市的風(fēng)險，藥監(jiān)局往往更關(guān)心前者。從這個角度看，按救助時間和末次觀測值調(diào)整的秩方法(ARTLV)是最佳方案。

預(yù)設(shè)救助治療的思路可以被應(yīng)用到安慰劑對照試驗中。對于有公認(rèn)療法的疾病,不顧拖延治療的后果,采用安慰劑對照的做法常常被認(rèn)為是不符合倫理的[12]。一個臨床試驗如果能夠顯示出試驗藥優(yōu)于對照藥，便能為試驗藥的有效性提供足夠證據(jù)，不需要外部信息的支撐。而一個陽性對照的“等效性”試驗本身并不能證明新療法的有效性，因為“等效性”也可以指兩種藥均無效，為了得出結(jié)論還需要外部信息證明陽性對照藥的有效性[12]。

因此，從療效評價的角度，安慰劑對照試驗比陽性藥對照試驗更可靠。但正如前文所說，安慰劑對照常常被認(rèn)為是不倫理的[13]。因為安慰劑組的患者，很有可能出現(xiàn)病情加重的情況，特別是對于亟需及時治療的疾病。這時為了保護(hù)患者，可以預(yù)先在臨床試驗中設(shè)計救助治療機(jī)制，如果出現(xiàn)問題便會采用救助治療。預(yù)設(shè)救助治療的安慰劑對照試驗是符合倫理的，但是目前國內(nèi)常用的分析方法并不合適。常用方法之一是將救助治療的患者視為脫落，最后比較兩組的脫落率，這樣的分析方式會降低樣本量，進(jìn)而降低檢驗效能。同時，如果救助治療比例大于20%，脫落率也將大于20%，高脫落率可能導(dǎo)致整個試驗設(shè)計被質(zhì)疑。

本研究討論的救助治療的分析方法可以為安慰劑對照試驗提供一種新的設(shè)計和分析思路。對于安慰劑對照試驗，如果預(yù)先設(shè)定好救助治療機(jī)制，并在試驗過程中詳細(xì)記錄各時間點信息，對于救助后的患者，也不將其視為脫落，而是繼續(xù)記錄其各時間點的數(shù)值，最后，在分析階段，就可以選擇恰當(dāng)?shù)姆绞綄Y(jié)果進(jìn)行分析。我們希望通過本研究能夠促進(jìn)大家對于救助治療的理解，期待同行的后續(xù)深入研究和探討。

[1]Ian RW,Christina B,Pollyanna H,et al.Randomized clinical trials with added rescue medication:some approaches to their analysis and interpretation.Statistics in Medicine,2001,20(20):2995-3008.

[2]唐健元，楊志敏，楊進(jìn)波，等.臨床研究中缺失值的類型和處理方法研究.中國衛(wèi)生統(tǒng)計，2011，28(3)：338-343.

[3]陳淵成，張菁.確證性臨床試驗中數(shù)據(jù)缺失的處理指南.中國新藥雜志，2012，21(7):732-736.

[4]European Medicines Agency.Guideline on missing data in confirmatory clinical trials.Committee for Medical Product for Human Use:London,2010.

[5]龐新生.缺失數(shù)據(jù)處理方法的比較.統(tǒng)計與決策，2010(24)：152-155.

[6]Ohidul S,HM James Hung,Robert O′Neill.MMRM vs.LOCF:a comprehensive comparison based on simulation study and 25 NDA datasets.Journal of Biopharmaceutical Statistics,2009,19(2):227-246.

[7]Ohidul S.MMRM versus MI in dealing with missing data-a comparison based on 25 NDA data sets.Journal of Biopharmaceutical Statistics,2011,21(3):423-436.

[8]Donald BR.Multiple imputation for non-response in surveys,vol.307.New York:Wiley,2009：15-17.

[9]John ML.Worst-rank score analysis with informatively missing observations in clinical trials.Control Clin Trials,1999,20(5):408-422.

[10]Andrea B,Douglas GA,Patrick R，et al.The design of simulation studies in medical statistics.Statistics in Medicine,2006,25(24):4279-4292.

[11]Roderick JA Little,Donald BR.Statistical analysis with missing data,vol.539.New York:Wiley,1987:7-10.

[12]Temple R,Ellenberg SS.Placebo-controlled trials and active-control trials in the evaluation of new treatment.中美生物醫(yī)學(xué)和健康研究倫理學(xué)高級研修培訓(xùn)班論文集，2005.

[13]王曉敏.安慰劑對照試驗的倫理辯護(hù).論理學(xué)研究，2013(2):124-127.

(責(zé)任編輯：郭海強(qiáng))

Research on the Impact of Rescue Therapy to the Evaluation of Clinical Effects in Clinical Trials

Zeng Xin,Yao Chen,Guo Xiang,et al.

(Medical Statistics office,Peking University First Hospital，Peking University(100034),Beijing)

Objective Author introduces and improves rank method to analyze the results of clinical trials containing rescue therapy,compares it with the conventional methods and provides statistical basis for the analysis of such data to select the appropriate method.Methods Through Monte Carlo simulation,consider adjusting the correlation coefficient of the observed values of the same patient at different points and rescue threshold,compare type I error and power of efficacy evaluation among rank method and conventional methods (complete case analysis (CC) and last observation carried forward (LOCF)).Results In terms of type I error,when the rescue proportion is about 20%,the difference between different methods is small;when the rescue proportion is large,rank method adjusted with time and last visit (ARTLV) is the best choice.In terms of power,when the rescue proportion is less than 40%,the power of all methods is larger than 0.8,when the rescue proportion is large,rank method adjusted with last visit (ARLV) is the best choice.Conclusion Researchers should select appropriate method based on actual situation to get accurate results.It′s ethical to set rescue therapy in placebo-controlled trials,so analysis method of rescue therapy can provide a new idea for the design and analysis of placebo-controlled trials.

Rescue therapy;Rank method;Type I error;Power

自身免疫性疾病和病毒性肝炎等重大疾病的國際化新藥臨床評價研究技術(shù)平臺建設(shè)(2012ZX09303019001)

1.北京大學(xué)第一醫(yī)院醫(yī)學(xué)統(tǒng)計室(100034)

2.北京大學(xué)臨床研究所

3.默沙東研發(fā)(中國)有限公司

△通信作者：姚晨，E-mail:13801378685@139.com

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

臨床試驗中救助治療對臨床效應(yīng)評價的影響研究*

對象與方法

模擬結(jié)果

討論與結(jié)論