基于生存資料的II/III期無縫設計期中分析方法評價*

2018-09-20 06:47:34劉麗亞

中國衛(wèi)生統(tǒng)計 2018年4期

姜超劉麗亞邵方于浩陳峰△

【提要】目的基于生存指標的無縫設計，考查PFS在什么條件下可以用于II/III期無縫設計期中分析時的劑量組篩選。方法采用模擬試驗的手段，分別研究基于生存資料下Fisher合并法和加權逆正態(tài)法在利用和不利用OS的信息兩種組別篩選策略下的總I類錯誤率和檢驗效能。結果加權逆正態(tài)合并法與Fisher合并法相比，兩者在控制總I類錯誤率方面無明顯差異，隨著PFS和OS相關性增強，加權逆正態(tài)合并法的檢驗效能要高于Fisher合并法，并且合并PFS和OS的信息將獲得更高檢驗效能。結論當PFS和OS的相關性較大，且效應趨勢一致時，建議采用加權逆正態(tài)合并法合并兩者的信息進行II/III期無縫臨床試驗的統(tǒng)計分析。

II/III期無縫試驗中，有時終點指標需要通過長時間的觀察才能得到，短期內無法獲得，這與需要基于終點指標快速挑選出最優(yōu)劑量組進入后續(xù)試驗的實際需要相矛盾。為此，人們在期中分析時往往采用短期替代(surrogate variable)指標對多個劑量組進行篩選[1]，同時對第一階段和第二階段的長期指標進行觀察，最后基于兩個階段的長期指標作出統(tǒng)計推斷[2]。

目前，雖然有很多學者發(fā)表了眾多有關無縫設計研究方法的論著，包括Stallard和Todd提出的成組序貫法(grouped sequential design,GSD)[3]、Bauer和Keiser提出的合并檢驗法[4]、 Koenig等人提出的適應性Dunnett法(adaptive Dunnett test，ADT)[5]。但是其中大部分所用到的早期指標和終點指標為定量或定性指標，對于生存類型的數(shù)據(jù)，有關的研究相對較少。本研究主要探討基于生存類型的結局指標的II/III期無縫設計，為敘述方便，本文以抗腫瘤藥物臨床試驗為例，以總生存時間(overall survival,OS)為終點指標，這是一個長期觀察指標；以無進展生存期(progression-free survival,PFS)為替代指標，這是一個短期指標。

無縫設計統(tǒng)計方法

假設一個臨床試驗最初包括一個對照組T0以及k1個試驗組，T1,…,Tk1，期中分析時淘汰掉劣效組，有k2個試驗組進入二階段的研究。令θi作為Ti超過T0程度的測量值，i=1,…,k1，用于衡量試驗組i與對照組之間的療效差異。若θi>0，則Ti優(yōu)效于T0。按此定義，產(chǎn)生了k1個原假設Hi:θi= 0，以及對應的單側備擇假設為Hi':θi> 0。檢驗統(tǒng)計量Zi,j(j=1,2)分別表示根據(jù)第一階段或第二階段獨立數(shù)據(jù)計算所得第i組的檢驗統(tǒng)計量值，Zi,1與Zi,2相互獨立。

1.期中分析的策略

期中分析時有兩種策略，一是只利用短期指標篩選，不考慮長期指標的信息；二是同時考慮短期指標信息和長期指標信息。我們將對這兩種策略進行比較。

短期結局指標與長期結局指標可以通過下面這個過程相結合，為了選擇一個有效的劑量組進入第二階段的研究，我們用公式(1)將搜集的PFS和OS的信息合并[6]。

utilj=wj·probj,PFS+(1-wj)·probj,OS

(1)

其中probj,Obs表示第j階段根據(jù)觀測的數(shù)據(jù)計算的相應概率值，wj表示兩個階段信息的權重。關于權重有不同的建議[6]，其中一種如下：

(2)

其中d1j,PFS和d1j,OS分別表示試驗組j在期中分析時進展和死亡的事件數(shù)，死亡事件賦予2倍權重。

2.信息合并的方法

由于最終的統(tǒng)計推斷是基于兩個階段獲得的主要結局數(shù)據(jù)進行的。因此在這個過程中就存在了對兩個階段的統(tǒng)計信息進行整合的問題，該問題可以通過以下兩種信息合并的方法解決。

(1)Fisher合并檢驗法

Fisher合并檢驗法是Fisher在1932年[7]提出的，表達式如下：

(3)

(2)加權逆正態(tài)法

該方法由Mosteller和Bush[8]在1954年提出，表達式為:

C(p1,p2)=1-Φ(w1Φ-1(1-p1)+w2Φ-1(1-p2))

(4)

上述兩種方法均為合并檢驗法。1999年，Bauer和Kieser[9]提出將合并檢驗應用于無縫設計的基本思想。該方法是運用閉合檢驗過程及合并檢驗過程來實現(xiàn)多重假設檢驗，其優(yōu)點在于適用各種合并檢驗方法以及任意一種交集假設。

模擬試驗

(5)

=ρ

對于生存資料仍可沿用正態(tài)分布理論，此時，θ表示為logHR，信息量I則為log-rank檢驗原假設條件下的方差[10]。

log-rank統(tǒng)計量比較的是在各個觀測事件時間點的兩組風險函數(shù)的估計值，該統(tǒng)計量的構建可以通過計算各事件時間點每組觀察到的事件數(shù)與期望事件數(shù)的差值，然后再求和以獲得對所有事件時間點的總體概括。令j=1,…,J為每組觀測到事件的具體時間點，O1j和O2j表示各組在時間點j觀測到的事件數(shù)并且定義Oj=O1j+O2j?？紤]到在時間點j兩組中有Oj個事件發(fā)生，那么在H0假設下，O1j服從參數(shù)為Nj,N1j和Oj的超幾何分布，這個分布的期望為E1j,方差為Vj。因此，log-rank統(tǒng)計量比較每一個O1j和它的期望值E1j，在H0假設下可以表示為以下：

(6)

(7)

(8)

因此在進行模擬試驗時，我們通過設置不同組的中位生存時間，通過計算各試驗組的HR來模擬產(chǎn)生在分析時會得到的log-rank統(tǒng)計量。短期指標與長期指標的相關性，我們通過在上述方差協(xié)方差矩陣中設置，在考查總一類錯誤率時，我們設置各組長期指標的中位生存時間相等，在考查檢驗效能時，我們設置其中某一組的中位生存時間不等。由于組別篩選僅根據(jù)短期指標，最終的分析時合并的統(tǒng)計量是由模擬產(chǎn)生并且與HR有關，因此在模擬試驗中并未考慮截尾問題。

1.模擬試驗A

(1)試驗目的

通過模擬試驗考察PFS、OS間相關系數(shù)的大小對總I類錯誤的影響，并探討在Bonferroni[12]法和Hochberg[13]法兩種校正方法下，F(xiàn)isher合并檢驗法(FCM)、加權逆正態(tài)法(WINM)對總I類錯誤的控制情況，同時考慮使用和不使用OS的部分信息兩種策略，觀察各種方法之間的差異。

(2)試驗步驟

圖1 模擬實驗A步驟

(3)參數(shù)設置見表1

表1 模擬試驗A參數(shù)設置

(4)主要結果

模擬試驗結果見表2、表3。其中FCM(PFS)表示Fisher合并法只考慮PFS，WINM(PFS)表示加權逆正態(tài)法只考慮PFS，WINM(PFS+OS)表示加權逆正態(tài)法同時利用PFS和OS的信息。

表2 在不同相關系數(shù)時，三種情景的總I類錯誤率(θ1=θ2=θ3=θ1*=θ2*=θ3*=0)

表2給出的總I類錯誤率表示的是錯誤地拒絕任意一個真實原假設的概率(FWER)，理論上FWER應該接近設定的0.025。

這部分結果表明：從試驗結果可以發(fā)現(xiàn)，模擬的兩種方法的錯誤率均控制在理論范圍內或接近理論值。隨著相關系數(shù)的降低，總I類錯誤率也隨之降低。這源于試驗組的篩選基于PFS，然而多重校正原本是根據(jù)OS篩選最優(yōu)試驗組。如果ρ=0,用于篩選的PFS和OS是相互獨立的，意味著試驗組的選擇是隨機的。隨著ρ增大，PFS的篩選結果越有可能與根據(jù)第一階段OS篩選結果相一致，所以保守性得以改善。

在僅采用PFS信息進行組別篩選的策略下，在Fisher合并檢驗法和加權逆正態(tài)法中，分別用Bonferroni法和Hochberg法進行多重比較校正，可以看出Bonferroni較Hochberg法保守。而在采用合并PFS和OS信息策略下，Bonferroni法較Hochberg法能更好地控制總I類錯誤。所以，在后面的研究中，在策略1下，F(xiàn)isher合并檢驗法和加權逆正態(tài)法中統(tǒng)一采用Hochberg法。在策略2下則采用Bonferroni法。

兩種方法的總I類錯誤差異并不明顯，總體來說加權逆正態(tài)法對α的控制略為嚴格。無論是否合并OS信息，都能很好控制總I類錯誤；合并OS信息的策略更接近檢驗水準，而不合并OS信息，僅應用PFS信息，結論將趨于保守。

表3 不同相關系數(shù)和θ1*時，三種情景的總I類錯誤率(θ1=θ2=θ3=θ2*=θ3*=0)

表3考察的是當3組試驗組與對照組的長期療效沒有差異的情況下，其中一組試驗組的短期指標提示有療效時，對總I類錯誤率的影響?？傮w來說，總I類錯誤率控制在理論水平，隨著HR值的降低，相關的作用越低，總I類錯誤率也越來越趨于ρ=0的情形。

2.模擬試驗B:相關系數(shù)對檢驗效能的影響

(1)試驗目的

探討PFS和OS不同相關系數(shù)時三種情景下的檢驗效能趨勢和相互間的差異。

(2)試驗步驟

設置不同的相關系數(shù)和PFS差異，模擬其在不同組合下的檢驗效能。觀察運用Fisher合并檢驗法、加權逆正態(tài)法兩種方法及兩種策略時檢驗效能隨相關系數(shù)以及短期結局指標變化的特征。

(3)參數(shù)設置見表4

(4)試驗結果

模擬試驗結果見表5。

在OS的不同HR值下，檢驗效能的變化趨勢大致相同，我們選擇其中一種進行展示。

這部分的模擬結果可以表明：

雖然PFS在固定的HR值下，檢驗效能的差異不大，但總體而言，在僅采用PFS信息進行組別篩選的策略下，無論是Fisher合并法還是加權逆正態(tài)合并法的檢驗效能都隨PFS和OS的相關性增強而增加。并且，就此試驗而言，加權逆正態(tài)法的效能要略高于Fisher合并法。而在采用合并PFS信息和部分OS信息進行組別篩選的策略下，加權逆正態(tài)法的檢驗效能反而隨著PFS和OS的相關性增強而降低。這是因為隨著PFS和OS的相關性增加，PFS對于OS的替代性也越來越好，與此同時PFS可以在較短時間內獲得，信息較為完全，而OS在早期所獲得的信息較少，也不完全，容易產(chǎn)生偏差，在這樣的情況下，采用合并兩者的策略將影響期中分析時組別篩選的準確性，相應地也降低了檢驗效能。

圖2 模擬實驗B步驟

參數(shù)意義(取值)nSims模擬次數(shù)(10000)α一類錯誤率(單側0.025)λ0,λ1,λ2,λ3長期指標估計各組中位生存時間(7.5,10,7.5,7.5)λ0?,λ1?,λ2?,λ3?短期指標估計各組中位生存時間(3.5,λ1?,3.5,3.5)λ1?為(3.5,3.75,4,4.25,4.5,4.75,5)ρn1n2d1OS與PFS的相關系數(shù)(0.2(0.2)0.8)一階段每組樣本量(180)二階段每組樣本量(360)期中分析時出現(xiàn)進展事件的比率(0.67)d2d3期中分析時出現(xiàn)死亡事件的比率(0.2)最終分析時出現(xiàn)死亡事件的比率(0.6)power實際把握度

隨著HR值的逐漸減小，各相關系數(shù)下的檢驗效能均呈上升趨勢，且差異逐漸縮小，這是由于HR值越小，則有療效的試驗組被選出進入II階段的概率就越大，只要HR值足夠小，那么無論在怎么樣的相關關系下，有療效的試驗組還是會被選中，此時相關系數(shù)對檢驗效能的影響被削弱了。

總體而言，合并部分OS信息進行組別篩選的策略，其檢驗效能總體要高于僅利用PFS信息的策略，尤其在PFS差異不大時。而當PFS差異逐漸增大時，合并OS信息帶來檢驗效能增大的效應將逐漸減弱。

表5 在不同相關系數(shù)時，三種情景的檢驗效能(HROS2=HROS3=HRPFS2=HRPFS3=1,HROS1=0.7)

討論

抗腫瘤新藥的開發(fā)是當今國際藥物研究力量投入最多、投資最大的領域。但是在過去的數(shù)十年，藥物研發(fā)方面花費的不斷增加，而制藥臨床研究成功率并沒有相應增加。II/III期無縫設計由于其靈活、科學且符合倫理的特點，受到了研究者和藥企及其主管部門的重視，2006年，美國FDA頒布了《關鍵性通道機遇目錄》(critical path opportunity list，CPOL)，要求進行創(chuàng)新的試驗設計，其中一個很重要的內容就是鼓勵適應性設計在臨床試驗中的應用[14]。但是目前為止，無縫設計尚未得到廣泛應用，其主要原因在于這種方法在設計和統(tǒng)計分析方面仍然存在一些尚未解決的問題。

本文基于腫瘤藥物研究過程中的生存資料對II/III期無縫設計組別篩選時采用的Fisher合并法與加權逆正態(tài)合并法的統(tǒng)計學特性進行了研究。同時研究了合并與不合并OS信息的策略對試驗結果的影響。通過模擬試驗可以發(fā)現(xiàn)，PFS與OS指標間的相關性對試驗結果會有影響，相關系數(shù)越大，則說明PFS對于OS的代表性越好。若組間的差異一定，相關系數(shù)越大則檢驗效能也越大，總I類錯誤率的控制也越理想。并且加權逆正態(tài)合并法要優(yōu)于Fisher合并法。相反，若相關系數(shù)越小，檢驗效能將逐漸下降，試驗也趨于保守。將PFS作為OS的替代指標，在很多腫瘤研究中已經(jīng)被成功應用，臨床實踐中，兩者通常都保持著一定正相關關系，所以本文的模擬試驗只考慮了相關系數(shù)為正值的情況。除了PFS和OS的相關性外，PFS的效應也在一定程度上影響著試驗結果。PFS的效應值之所以會影響到試驗結果，主要是因為期中分析時，以PFS作為OS的替代指標，并據(jù)此選擇最優(yōu)劑量組，短期結局指標的大小直接決定哪一組可以進入下一階段的試驗。如果短期指標與長期指標變化趨勢不同，則會導致長期指標最優(yōu)組與短期指標最優(yōu)組不一致的情況，此時，以短期指標為基礎篩選試驗組，就可能會導致長期指標最優(yōu)劑量組被淘汰，選入的試驗組有可能是實際療效最差的一組，而在最后分析時，采用的又是這組的長期指標數(shù)據(jù)，則必然會導致試驗結果不理想，甚至發(fā)現(xiàn)不到療效，造成損失。

本研究的模擬實驗，雖然已經(jīng)盡可能地考慮了其代表性，但也難以包含所有的復雜情況，有待進一步研究。如短期指標與長期指標變化趨勢不同時；不同期中分析時間點對于上述方法統(tǒng)計學性質的影響；以及實際工作中可能遇到的是失訪率、入組率、截尾等對其的影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡