郝兆華 林曉 宋瑋琦 梁伯衡
肝癌是全球第六大常見高發(fā)癌癥,也是癌癥相關(guān)死亡的第三大原因,僅次于肺癌和結(jié)直腸癌。我國的肝癌患者數(shù)量約占全球肝癌患者的一半以上,是肝癌負(fù)擔(dān)最重的國家之一[2]。對肝癌進(jìn)行早期診斷、精準(zhǔn)治療、延長患者的生存時間等一直是醫(yī)療工作者的研究重點(diǎn)。隨著統(tǒng)計(jì)學(xué)和信息技術(shù)的發(fā)展,已有多種生存分析模型在肝癌患者的生存預(yù)測方面得到了應(yīng)用,但不同模型預(yù)測效果的評價尚不多見。本研究通過運(yùn)用不同生存分析模型對廣州市某醫(yī)院肝癌患者的病案首頁資料進(jìn)行分析,比較其對肝癌患者生存預(yù)測和影響因素分析的效果,以期為肝癌的精準(zhǔn)治療和延長生存期提供參考依據(jù)。
1.1 資料來源基于廣州市某醫(yī)院2010 年至2015 年在該醫(yī)院就診的肝癌患者的病案首頁資料,并在2020 年進(jìn)行隨訪,了解其生存狀態(tài)。(1)納入標(biāo)準(zhǔn):①確診為肝癌;②定期隨訪;③有完整的病史記錄。(2)排除標(biāo)準(zhǔn):①病史資料不全;②無法隨訪到生存情況;③急診患者。
1.2 數(shù)據(jù)采集通過查閱病案首頁提取有效信息:性別、年齡、婚姻、職業(yè)、乙肝表面抗原(HBsAg)、丙肝抗體(HCV-Ab)、艾滋病病毒抗體(HIV-Ab)、血型、是否接受手術(shù)治療、是否有搶救史、是否合并其他疾病等。
1.3 統(tǒng)計(jì)學(xué)方法(1)統(tǒng)計(jì)描述與檢驗(yàn):連續(xù)型資料,服從正態(tài)采用均數(shù)±標(biāo)準(zhǔn)差描述,否則采用中位數(shù)(四分位間距);離散型資料,采用頻數(shù)(百分比)描述。詳情如表1。其次,組間比較采用Logrank 檢驗(yàn),多因素分析用Cox 比例風(fēng)險(xiǎn)回歸模型。檢驗(yàn)水準(zhǔn)為0.05。(2)生存預(yù)測統(tǒng)計(jì)建模:采用不同生存分析模型進(jìn)行生存風(fēng)險(xiǎn)評分計(jì)算,并通過一致性指數(shù)(C-index,C 指數(shù))對不同生存分析模型的肝癌生存預(yù)測準(zhǔn)確性進(jìn)行評估。生存分析模型包括:隨機(jī)生存森林模型(RSF)、深度學(xué)習(xí)模型(DeepSurv nonlinear model)、比 例 風(fēng) 險(xiǎn) 模 型(CoxPH)、彈性網(wǎng)絡(luò)風(fēng)險(xiǎn)模型(Elastic-net Cox)、梯度提升風(fēng)險(xiǎn)模型(Gradient Boosted Models)、多項(xiàng)核函數(shù)模型(Polynomial Kernel-SVM)、淺神經(jīng)網(wǎng)絡(luò)模型(Shallow Neural MTLR)等機(jī)器學(xué)習(xí)模型。以生存模型的C-index 為評判準(zhǔn)則,C-index 值范圍為0.5-1.0,<0.5 時說明無預(yù)測能力;≥0.5 且<0.7 時表示預(yù)測準(zhǔn)確度尚可接受;≥0.7 且<0.9 時說明預(yù)測準(zhǔn)確度較高;≥0.9 時說明預(yù)測準(zhǔn)確度高。最后,繪制ROC 曲線,分析不同生存分析模型預(yù)測肝癌病患生存預(yù)后的價值,計(jì)算ROC 曲線下面積(AUC)。分析采用Python3.6 和R4.1.0。
2.1 基本情況共納入肝癌患者661 例,其中男541 例(81.85%),女120 例(18.15%);年齡中位數(shù)是56 歲(四分位間距47-64 歲);已婚(96.67%),在業(yè)(87.59%)。HBsAg 陽性186 例(28.14%),HCVAb 陽性5 例(0.76%),HIV-Ab 陽性1 例。接受手術(shù)治療357 例(54.01%),搶救史16 例(2.42%),半數(shù)合并其他疾病354 例(53.56%)。
2.2 影響總體生存時間的單因素分析見表1。
表1 肝癌病人統(tǒng)計(jì)描述及組間比較(n=661)
2.3 影響總體生存時間的多因素分析見表2。
表2 肝癌病人總體生存時間的Cox 多因素分析(n=661)
2.3 不同生存分析模型的比較RSF、DeepSurv nonlinear model 可用于病人的生存風(fēng)險(xiǎn)評分分析,詳見表3。
表3 不同生存分析模型的C 指數(shù)和AUC 比較
本研究基于廣州市2010 年至2015 年的肝癌患者病案首頁資料及隨訪結(jié)局,系統(tǒng)地評估了廣州市肝癌患者的生存率及其影響因素,并以此為基礎(chǔ)構(gòu)建多種模型對患者生存率進(jìn)行預(yù)測。研究結(jié)果顯示,肝癌患者的中位生存時間為247 天,與文獻(xiàn)報(bào)道結(jié)果相似[3,4]。進(jìn)一步分析發(fā)現(xiàn),退休、有搶救史、合并其他疾病是影響肝癌生存率的危險(xiǎn)因素,而接受手術(shù)治療是影響肝癌生存率的保護(hù)因素。以此為基礎(chǔ)構(gòu)建的預(yù)測模型RSF、DeepSurv nonlinear model 模型對肝癌患者的生存率具有較好的預(yù)測能力。
近年來,以隨機(jī)森林、支持向量機(jī)等算法為代表的的機(jī)器學(xué)習(xí)正廣泛應(yīng)用于醫(yī)學(xué),特別是腫瘤學(xué)領(lǐng)域中[5]。在肝癌研究方面,機(jī)器學(xué)習(xí)的應(yīng)用已聚焦于病理診斷、臨床預(yù)后等[6,7]。有研究已證實(shí),機(jī)器學(xué)習(xí)算法在預(yù)測HCV 肝硬化患者發(fā)生肝癌的發(fā)生風(fēng)險(xiǎn)、肝癌患者術(shù)后死亡率等方面優(yōu)于傳統(tǒng)模型[8]。但所采用的方法多為人工神經(jīng)網(wǎng)絡(luò)模型(ANN)來分析治療后存活率的預(yù)測因素[9]。RSF 模型是非線性模型,能更好地基于變量間的相互作用以預(yù)測結(jié)果[10],已被用于乳腺癌[11]、結(jié)直腸癌患者的預(yù)后中[12]。但其與肝癌的預(yù)后的相關(guān)研究較少。此外,有研究表明DeepSurv nonlinear模型在預(yù)測患者的生存時間方面優(yōu)于其他線性和非線性生存分析方法[13],但仍未見其在腫瘤學(xué)領(lǐng)域的應(yīng)用。
本研究通過比較RSF、DeepSurv nonlinear model、CoxPH 等多種機(jī)器學(xué)習(xí)模型的C 指數(shù)和AUC,證實(shí)了其在廣州市肝癌患者人群中,RSF、DeepSurv nonlinear model 對其的生存具有良好的預(yù)測能力,但由于研究限制,未在模型中納入更多的相關(guān)因素??傊?,肝癌患者的預(yù)后涉及不同方面、多因素共同作用,只有在全面綜合分析各種指標(biāo)的前提下,才能更科學(xué)地指導(dǎo)臨床。