鄭楚楚 張巖波 王 蕾 黃雪倩 余紅梅 陽楨寰 邢 蒙 范雙龍 趙志強(qiáng) 羅艷虹△
【提 要】 目的 基于一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Cox-nnet構(gòu)建彌漫性大B細(xì)胞淋巴瘤的預(yù)后預(yù)測模型,及早發(fā)現(xiàn)高危和低?;颊?,為進(jìn)一步的臨床治療提供參考。方法 首先構(gòu)建兩種常用的低維生存數(shù)據(jù)的Cox-nnet和Cox模型,驗(yàn)證Cox-nnet是否適用于低維的生存數(shù)據(jù),然后通過單因素Cox回歸和參考相關(guān)文獻(xiàn)篩選用于構(gòu)建彌漫性大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)模型的協(xié)變量,分別構(gòu)建DLBCL的Cox-nnet和Cox模型。結(jié)果 最終選入構(gòu)建DLBCL預(yù)后預(yù)測模型的協(xié)變量有25個,Cox-nnet的一致性指數(shù)(0.724)比Cox(0.685)提升了5.7%。肝硬化數(shù)據(jù)的Cox-nnet一致性指數(shù)(0.818)比Cox(0.804)提升了1.7%,乳腺癌數(shù)據(jù)的Cox-nnet一致性指數(shù)(0.660)比Cox(0.600)提升了10%。結(jié)論 Cox-nnet適用于低維的生存數(shù)據(jù),基于Cox-nnet構(gòu)建的彌漫性大B細(xì)胞淋巴瘤預(yù)后預(yù)測模型性能與傳統(tǒng)的Cox回歸相比較有較大提升。
彌漫性大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是非霍奇金淋巴瘤(non-hodgkin lymphoma,NHL)中常見的一種侵襲性B細(xì)胞淋巴瘤,約占非霍奇金淋巴瘤的30%左右,其可侵及各個年齡段的患者,且臨床表現(xiàn)各異[1-3]。聯(lián)合免疫化學(xué)療法R-CHOP(利妥昔單抗、環(huán)磷酰胺、阿霉素、長春新堿、潑尼松)是目前DLBCL最常用的前期治療方法,約50%~60%的患者被治愈[4]。R-CHOP療法顯著改善DLBCL患者的預(yù)后,使其生存率達(dá)到60%~90%。但是不同患者對治療的反應(yīng)各異,對于那些對R-CHOP療法耐藥或者病情緩解后復(fù)發(fā)的患者來說,預(yù)后較差[5-6]。因此對DLBCL患者進(jìn)行預(yù)后分析可以及早發(fā)現(xiàn)高危和低?;颊撸瑥亩M(jìn)一步為臨床醫(yī)生制定DLBCL患者個性化治療方案提供參考。
Cox比例風(fēng)險回歸模型是預(yù)后分析中最常用的模型。但是Cox比例風(fēng)險回歸模型受線性基線的影響,需滿足等比例風(fēng)險和協(xié)變量之間相互獨(dú)立這兩個假設(shè),實(shí)際數(shù)據(jù)往往難以滿足這些假設(shè)[7],例如影響疾病預(yù)后的因素錯綜復(fù)雜,很難滿足這兩個假設(shè)。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一種基于生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能建立的計算模型,具有類似于人腦的信息處理、學(xué)習(xí)和存儲功能[8]。ANN對數(shù)據(jù)分布無任何要求,可以處理復(fù)雜非線性關(guān)系[9],近年來ANN也被廣泛應(yīng)用于疾病的預(yù)后分析中,并表現(xiàn)出了較優(yōu)的預(yù)測性能,但是ANN將生存分析問題簡化為分類問題進(jìn)行分析預(yù)測[10-14],這在一定程度上會導(dǎo)致預(yù)測精度的下降。
Travers Ching等人提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Cox-nnet[15],該神經(jīng)網(wǎng)絡(luò)架構(gòu)沒有將預(yù)后分析作為分類處理,而是將神經(jīng)網(wǎng)絡(luò)和Cox回歸相結(jié)合,該方法對于高通量組學(xué)數(shù)據(jù)有較高的預(yù)測準(zhǔn)確度。本研究旨在探討對于低維的生存數(shù)據(jù),Cox-nnet的預(yù)測性能是否優(yōu)于Cox回歸,并構(gòu)建DLBCL患者預(yù)后預(yù)測模型,從而為臨床醫(yī)生預(yù)測患者死亡風(fēng)險并指導(dǎo)臨床治療提供參考。
1.資料獲取
本研究收集了某醫(yī)院355例2013-2017年確診為彌漫性大B細(xì)胞淋巴瘤患者的臨床隨訪數(shù)據(jù),隨訪截止時間為2018年1月,將死亡作為研究終點(diǎn),刪失比例為67%。我們還分別從Github網(wǎng)站(https://github.com/traversc/cox-nnet/tree/gh-pages/examples/PBC)和R軟件中獲取兩種低維生存數(shù)據(jù),分別為:PBC(肝硬化數(shù)據(jù))和WPBC(乳腺癌數(shù)據(jù)),具體數(shù)據(jù)特征及來源見表1。
表1 兩種低維生存數(shù)據(jù)的描述
2.方法及原理
(1)單因素Cox回歸篩選變量
根據(jù)單因素Cox回歸分析結(jié)果并參考B-Cell Lymphomas,Version 3.2019 Featured Updates to the NCCN Guidelines(2019年3月修訂版)及相關(guān)文獻(xiàn)[16-24],最終篩選出25個變量用于構(gòu)建DLBCL患者預(yù)后預(yù)測模型。具體變量及賦值見表2。本研究中使用SPSS 22.0進(jìn)行單因素Cox回歸篩選變量,檢驗(yàn)水準(zhǔn)α=0.05。本研究中GCB、CD3、CD5、CD20、CD21、CD10、BCL6、BCL2、MUM1、CMYC、p53是否陽性這些因素有較重要的臨床意義,無論其有無統(tǒng)計學(xué)意義均選入模型。
表2 355例DLBCL患者臨床特征及賦值
(2)Cox比例風(fēng)險回歸
傳統(tǒng)Cox比例風(fēng)險回歸模型(Cox proportional hazards regression model)是生存分析中使用最廣泛的預(yù)測模型,是一種半?yún)?shù)模型,可用于生存時間分布未知且含有刪失數(shù)據(jù)的資料[25]。具體的模型表達(dá)式為:
xi為個體的協(xié)變量;h(t|xi)為具有協(xié)變量xi的個體在時刻t的風(fēng)險函數(shù);h0(t)為基準(zhǔn)風(fēng)險函數(shù),即協(xié)變量xi全部為0的條件下t時刻的風(fēng)險函數(shù);β為各協(xié)變量所對應(yīng)的偏回歸系數(shù),解釋了個體的相對風(fēng)險比。由模型表達(dá)式可知Cox比例風(fēng)險回歸模型假設(shè)協(xié)變量與風(fēng)險函數(shù)之間是線性組合的關(guān)系。本研究使用R軟件中Survival包中的coxph函數(shù)擬合Cox回歸模型。
(3)Cox-nnet
Cox-nnet是由Travers Ching等人提出的一種新的人工神經(jīng)網(wǎng)絡(luò)模型。該人工神經(jīng)網(wǎng)絡(luò)模型將人工神經(jīng)網(wǎng)絡(luò)與Cox回歸相結(jié)合,包括輸入層、隱藏層、Cox回歸層,Cox回歸層輸出結(jié)果為預(yù)后指數(shù),具體的Cox-nnet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖1。該模型表達(dá)式為:
圖1 Cox-nnet神經(jīng)網(wǎng)絡(luò)架構(gòu)
θi=G(Wxi+b)Tβ
其中xi為隱藏層的輸入,W為輸入層與隱藏層的權(quán)重系數(shù)矩陣,b為輸入層對于每個隱藏層節(jié)點(diǎn)的偏置項(xiàng),G是tanh激活函數(shù):
Cox-nnet中使用偏似然對數(shù)作為損失函數(shù):
Cost(β,W)=pl(β,W)+λ(‖β‖2+‖W‖2)
使用Dropout正則化[26]防止過擬合并使用5折交叉驗(yàn)證來尋找最優(yōu)正則化參數(shù),一致性指數(shù)作為交叉驗(yàn)證性能評價指標(biāo)。本研究使用Python軟件中的Cox-nnet包擬合Cox-nnet模型,具體參數(shù)設(shè)置為:隱藏層節(jié)點(diǎn)數(shù)為輸入層特征數(shù)的平方根的整數(shù)部分;交叉驗(yàn)證的正則化參數(shù)范圍為(-6.5,-0.5);使用Nesterov梯度下降法[27]訓(xùn)練模型;學(xué)習(xí)率為0.01;衰減率為0.9;停止閾值為0.995;最大迭代次數(shù)1000次。
(4)評價指標(biāo)
本研究使用一致性指數(shù)[28]評價模型的預(yù)測準(zhǔn)確度。在含有刪失數(shù)據(jù)的生存分析中,一致性指數(shù)是最常用的評價指標(biāo),它指的是預(yù)測結(jié)果與實(shí)際結(jié)果一致的對子數(shù)占有用的對子數(shù)的百分比。首先在全部觀察單位中隨機(jī)配對產(chǎn)生所有可能的對子數(shù);其次計算有用對子數(shù),去除兩種無用對子數(shù):(1)有較短生存時間的刪失個體(2)兩個個體生存時間相同,但是都為刪失個體;然后計算預(yù)測結(jié)果與實(shí)際結(jié)果一致的對子數(shù);最后計算一致性指數(shù),即預(yù)測一致的對子數(shù)占有用對子數(shù)的百分比。一致性指數(shù)越大表明預(yù)測性能越好。本研究中使用R軟件中的Hmisc包中的rcorr.cens函數(shù)計算一致性指數(shù)。
(5)構(gòu)建模型
本研究中將數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測試集,訓(xùn)練集分別用于構(gòu)建Cox-nnet和Cox模型,測試集用于測試這兩個模型的預(yù)測準(zhǔn)確度,重復(fù)采樣并構(gòu)建模型100次,取中位一致性指數(shù)來比較Cox-nnet和Cox模型預(yù)測準(zhǔn)確性,并使用配對Wilcoxon符號秩檢驗(yàn)比較兩種模型的一致性指數(shù)差異是否具有統(tǒng)計學(xué)意義。檢驗(yàn)水準(zhǔn)α=0.05。
1.單因素Cox篩選變量結(jié)果
表3給出了單因素Cox回歸篩選變量的結(jié)果,由單因素Cox回歸結(jié)果可知,在本研究中DLBCL患者確診年齡、疾病等級、IPI得分、LDH是否升高、腫瘤長徑、β2-MG是否升高、ESR是否升高、KPS得分、是否原發(fā)胃腫瘤這些因素對患者生存的影響有統(tǒng)計學(xué)意義。
表3 單因素Cox回歸結(jié)果
2.Cox-nnet與Cox模型間的比較
由表4可知,DLBCL的Cox-nnet和Cox的一致性指數(shù)差異有統(tǒng)計學(xué)意義,Cox-nnet比Cox提升了5.7%。表5中顯示,PBC和WPBC的Cox-nnet和Cox的一致性指數(shù)差異也均有統(tǒng)計學(xué)意義,其中PBC的Cox-nnet一致性指數(shù)比Cox提升了1.7%;WPBC的Cox-nnet一致性指數(shù)比Cox提升了10%。
表4 DLBCL的Cox-nnet和Cox模型一致性指數(shù)
表5 兩種疾病的Cox-nnet和Cox模型一致性指數(shù)
標(biāo)準(zhǔn)的Cox比例風(fēng)險回歸模型是最常用的生存分析方法,它是一種半?yún)?shù)模型,不需要估計基準(zhǔn)風(fēng)險函數(shù),可用于生存時間分布未知且含有刪失數(shù)據(jù)的資料。但是Cox回歸受線性基線的影響,假設(shè)協(xié)變量之間是相互獨(dú)立的,且對協(xié)變量個數(shù)和樣本量之間的比例有一定的要求,這在實(shí)際中很難滿足。尤其在大數(shù)據(jù)時代,我們想利用患者的更多信息去更加精準(zhǔn)地預(yù)測事件的發(fā)生風(fēng)險,從而為臨床醫(yī)生為患者提供精準(zhǔn)治療提供參考,這些信息之間往往存在復(fù)雜的非線性關(guān)系,而ANN可以處理變量之間復(fù)雜的非線性關(guān)系。近年來,隨著ANN技術(shù)的不斷成熟,其也被廣泛應(yīng)用于生存分析中。黃德生等[29]應(yīng)用ANN構(gòu)建了time-coded model和single-time point model,證明ANN可以用于肺癌預(yù)后預(yù)測,預(yù)測性能與Cox無區(qū)別。賀憲民[30]等以Cox-snell殘差為ANN輸出訓(xùn)練網(wǎng)絡(luò),其研究結(jié)果表明:在處理非線性資料時,ANN預(yù)測性能優(yōu)于Cox。文獻(xiàn)[10-14,31-34]分別將生存分析問題轉(zhuǎn)化為分類問題構(gòu)建ANN用于癌癥的預(yù)后預(yù)測,并且表現(xiàn)出了較優(yōu)的預(yù)測性能。
本研究應(yīng)用的新的ANN架構(gòu),Cox-nnet沒有將生存分析問題轉(zhuǎn)換為分類問題,而是將ANN與Cox相結(jié)合,既利用了ANN處理非線性的能力,同時也保留了傳統(tǒng)的Cox比例風(fēng)險回歸方法,Cox-nnet的隱含層還實(shí)現(xiàn)了數(shù)據(jù)降維。該方法最初被應(yīng)用于高通量的組學(xué)數(shù)據(jù),表現(xiàn)出了較優(yōu)的預(yù)測性能。本研究分別構(gòu)建了DLBCL和兩種常用的低維生存數(shù)據(jù)的Cox-nnet與Cox模型,其中基于WPBC構(gòu)建的Cox-nnet的一致性指數(shù)較Cox提升最多,為10%;其次為DLBCL,Cox-nnet的一致性指數(shù)較Cox提升了5.7%;PBC的Cox-nnet一致性指數(shù)較Cox提升了1.7%。這表明Cox-nnet適用于低維的生存數(shù)據(jù),基于Cox-nnet所構(gòu)建的DLBCL患者預(yù)后預(yù)測模型性能優(yōu)于傳統(tǒng)的Cox回歸。Cox-nnet對生存資料的限制較少,預(yù)測性能優(yōu)于Cox,當(dāng)所分析資料不滿足Cox假設(shè)時,Cox-nnet是一種很好的選擇。
本研究的不足之處在于只探討了兩個常用生存數(shù)據(jù),其他類型的生存數(shù)據(jù)還有待探討;本研究所構(gòu)建的基于Cox-nnet的DLBCL患者預(yù)后預(yù)測模型性能雖然優(yōu)于Cox,但其性能還有待提升。由于生存分析中存在很多刪失數(shù)據(jù),這造成了刪失與死亡之間的數(shù)據(jù)不平衡,數(shù)據(jù)不平衡在一定程度上影響模型的預(yù)測性能[35]。所以本研究下一步將探討生存分析的數(shù)據(jù)不平衡對模型預(yù)測性能的影響,進(jìn)一步提高模型的預(yù)測性能。