朱英浩,王詩淇,張緯,劉瑜
1.溫州醫(yī)科大學(xué)附屬第一醫(yī)院 心胸外科,浙江 溫州 325035;2.溫州醫(yī)科大學(xué) 第一臨床醫(yī)學(xué)院(信息與工程學(xué)院),浙江 溫州 325035;3.浙江大學(xué)醫(yī)學(xué)院附屬第四醫(yī)院廿三里院區(qū) 內(nèi)科,浙江 金華 322000
目前,肺癌是全球第二大常見惡性腫瘤,占所有癌癥病例的11.4%,占所有癌癥死亡人數(shù)的18%[1]。非小細(xì)胞型肺癌(non-small cell lung cancer, NSCLC)占所有原發(fā)性肺癌的80%以上,骨轉(zhuǎn)移是肺癌最常見的轉(zhuǎn)移途徑,而骨轉(zhuǎn)移是導(dǎo)致肺腺鱗癌預(yù)后變差的重要因素之一[2-3]。因此,一個準(zhǔn)確預(yù)測肺癌轉(zhuǎn)移到其他器官的預(yù)測模型對患者的治療至關(guān)重要。
機(jī)器學(xué)習(xí)可以識別復(fù)雜的非線性關(guān)系,并自動學(xué)習(xí)和提高性能,被認(rèn)為優(yōu)于傳統(tǒng)的識別和解決問題的方法[4-5]。機(jī)器學(xué)習(xí)已廣泛應(yīng)用于臨床,如圖像識別和癌癥預(yù)測[6]。本研究中展示了一種機(jī)器學(xué)習(xí)的方法來預(yù)測肺腺鱗的骨轉(zhuǎn)移。
1.1 數(shù)據(jù)收集本研究的隊列來自SEER數(shù)據(jù)庫以及溫州醫(yī)科大學(xué)附屬第一醫(yī)院。從SEER數(shù)據(jù)庫中收集了2010年至2018年診斷的患者數(shù)據(jù),使用ICDO-3代碼C34.0、C34.1、C34.2、C34.3、C34.8和C34.9以及組織學(xué)代碼8560/3來確認(rèn)肺腺鱗癌患者。選擇了包括年齡、TNM分期、腫瘤偏側(cè)性、原發(fā)部位、病理分級、轉(zhuǎn)移部位和生存期等特征。從其中挑選出年齡為15~85歲,生存期大于1個月,為原發(fā)性肺癌,有準(zhǔn)確的人種信息、病理分級、腫瘤位置、TNM分期以及腫瘤大小的病例。共收集1919例符合條件的病例,并以隨機(jī)分組的方式以7:3的比例分為訓(xùn)練集組(n=1366)以及測試集組(n=553)。從溫州醫(yī)科大學(xué)附屬第一醫(yī)院收集了2017年1月至2021年12月的患者數(shù)據(jù)共51例,將其分入外部驗證集組。
1.2 統(tǒng)計學(xué)處理方法所有數(shù)據(jù)分析均使用R 4.1.3 (https://www.r-project.org/)完成;所有機(jī)器學(xué)習(xí)算法代碼都由Python 3.10(https://www.python. org/)編寫和運(yùn)行;SEER*Stat(https://seer. cancer.gov/)用于獲取數(shù)據(jù)庫中患者數(shù)據(jù)。對于符合正態(tài)分布的兩組間比較采用Student’st檢驗;對于兩組間分類樣本的差異分析采用χ2檢驗進(jìn)行分析;采用Kaplan-Meier法計算和可視化未經(jīng)調(diào)整的生存曲線,采用Logistic回歸分析來計算各指標(biāo)的OR值以及其95%CI,以確定肺腺鱗癌患者發(fā)生骨轉(zhuǎn)移的獨(dú)立危險因素。使用了6種機(jī)器學(xué)習(xí)算法,包括隨機(jī)森林(random forest, RF)、支持向量機(jī)(support vector machine, SVM)、極端梯度提升(eXtreme Gradient Boosting, XGBoost)、梯度提升(Gradient Boosting Machine, GBM)、神經(jīng)網(wǎng)絡(luò)(Multi-Layer Perceptron, MLP)和k近鄰(K-Nearest Neighbor,kNN),使用受試者工作特征(receiver operating characteristic, ROC)曲線來評價模型的預(yù)測能力。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 患者特點(diǎn)在本研究的SEER隊列研究中,最終納入了1919例肺腺鱗患者,溫州醫(yī)科大學(xué)附屬第一醫(yī)院隊列納入51例符合條件肺腺鱗癌患者。各組的基本特征見表1。利用Spearman相關(guān)性分析對變量之間的相關(guān)性進(jìn)行分析和可視化,結(jié)果顯示骨轉(zhuǎn)移與其他器官的轉(zhuǎn)移以及TN分期最為相關(guān),見圖1。
圖1 Spearman相關(guān)性分析
表1 訓(xùn)練集、測試集及外部驗證集患者基本特征
2.2 生存分析使用Kaplan-Meier法比較肺腺鱗患者中有無骨轉(zhuǎn)移的相對生存率。骨轉(zhuǎn)移患者的癌特異性生存(cancer specific survival, CSS)較無骨轉(zhuǎn)移者明顯較差(P<0.001)。見圖2。肺腺鱗癌骨轉(zhuǎn)移患者的中位生存期為5個月,而無骨轉(zhuǎn)移患者的中位生存期為21個月。
圖2 肺腺鱗癌骨轉(zhuǎn)移和無骨轉(zhuǎn)移患者Kaplan-Meier曲線
2.3 單因素和多因素Logistic回歸分析單因素Logistic回歸分析顯示,年齡、TN分期、病理分級、腫瘤大小、肝轉(zhuǎn)移、腦轉(zhuǎn)移、遠(yuǎn)處淋巴結(jié)轉(zhuǎn)移與骨轉(zhuǎn)移顯著相關(guān)(P<0.05)。在多因素Logistic回歸分析中,骨轉(zhuǎn)移與淋巴轉(zhuǎn)移和肝腦轉(zhuǎn)移有很強(qiáng)的相關(guān)性,結(jié)果與熱圖一致。年齡、TN分期、病理分級、遠(yuǎn)處淋巴結(jié)轉(zhuǎn)移以及其他器官轉(zhuǎn)移差異有統(tǒng)計學(xué)意義(P<0.05)。見表2。
表2 單因素和多因素Logistic回歸分析
2.4 機(jī)器算法的性能機(jī)器學(xué)習(xí)算法將隊列隨機(jī)分為訓(xùn)練集組和測試集組,比較6個模型的預(yù)測屬性。訓(xùn)練集組用于建模,測試集組用于測試。從ROC曲線來看,XGBoost(AUC=0.86)、GBM(AUC= 0.83)和RF(AUC=0.80)所建立的模型表現(xiàn)優(yōu)于MLP(AUC=0.80)、SVM(AUC=0.79)、kNN(AUC=0.58),見圖3。其中各個預(yù)測模型的預(yù)測準(zhǔn)確率分別為,XGBoost:90.60%(95%CI=0.882~0.930),GBM:89.69%(95%CI=0.872~0.922),RF:89.87%(95%CI= 0.874~0.924),SVM:91.14%(95%CI=0.888~0.935),kNN:89.87%(95%CI=0.874~0.924),MLP:80.47%(95%CI=0.772~0.838)。筆者認(rèn)為XGBoost、GBM、RF 3種模型表現(xiàn)優(yōu)異可用于預(yù)測肺腺鱗患者的骨轉(zhuǎn)移,而其中又以XGBoost算法模型在測試集組的表現(xiàn)最佳,因此進(jìn)一步用3種內(nèi)部驗證集組表現(xiàn)優(yōu)異算法進(jìn)一步進(jìn)行外部驗證,以確認(rèn)其預(yù)測性能。
圖3 6種不同模型的機(jī)器學(xué)習(xí)ROC曲線
2.5 機(jī)器學(xué)習(xí)算法預(yù)測模型外部驗證使用溫州醫(yī)科大學(xué)附屬第一醫(yī)院的肺腺鱗癌患者數(shù)據(jù)進(jìn)行模型的外部驗證顯示,XGBoost(AUC=0.86)、GBM(AUC=0.83)和RF(AUC=0.81)機(jī)器學(xué)習(xí)模型依舊展示了優(yōu)秀的預(yù)測性能,以XGBoost預(yù)測性能最為優(yōu)異(見圖4)。
圖4 3種機(jī)器學(xué)習(xí)預(yù)測模型的外部驗證ROC曲線
2.6 患者特征的重要性基于XGBoost建立的預(yù)測模型表明肝轉(zhuǎn)移以及遠(yuǎn)處淋巴結(jié)轉(zhuǎn)移的肺腺鱗患者更可能發(fā)生骨轉(zhuǎn)移。TN分期在肺腺鱗向骨轉(zhuǎn)移的進(jìn)展中也很重要。見圖5。
圖5 XGBoost模型的特征重要性
肺腺鱗癌與肺腺癌或肺鱗癌相比是一種罕見但更具侵襲性的NSCLC組織亞型[2,7-8]。肺腺鱗癌發(fā)病率低,臨床樣本量少,因此肺腺鱗癌的進(jìn)展及其影響因素尚不清楚。肺腺鱗癌除了具有肺腺癌和肺鱗癌的一般生物學(xué)特征外,也有其獨(dú)特的生物學(xué)特 征[9]。有研究證明肺腺鱗癌的預(yù)后遠(yuǎn)比肺腺癌和肺鱗癌差[7,10]。肺腺鱗癌更容易引起局部浸潤、胸膜侵襲以及早期的淋巴或血液轉(zhuǎn)移,導(dǎo)致患者往往在晚期被診斷,無法進(jìn)行手術(shù)治療[11-12]。對于一些初診或術(shù)后早期復(fù)查已發(fā)生轉(zhuǎn)移但卻未及時發(fā)現(xiàn)的患者,倘若不進(jìn)行手術(shù)、及時全身化療或聯(lián)合靶向治療,可能導(dǎo)致癌癥轉(zhuǎn)移擴(kuò)散甚至死亡[13]。早期手術(shù)、化療、放療和靶向治療已被證明可以改善預(yù)后和延長總生存期[11,14-16]。因此,理想的預(yù)測模型用于預(yù)測肺腺鱗患者是否容易發(fā)生骨轉(zhuǎn)移至關(guān)重要,對于轉(zhuǎn)移風(fēng)險高的患者,可及早進(jìn)行臨床干預(yù)。
此前的研究發(fā)現(xiàn)肺腺鱗癌相比于肺腺癌或是肺鱗癌,腫瘤尺寸更大,發(fā)病年齡更小,且預(yù)后更差,我們的研究結(jié)果與他們的結(jié)果相符[8,17]。FILOSSO等[7]的研究發(fā)現(xiàn)遠(yuǎn)處轉(zhuǎn)移、腫瘤神經(jīng)周圍浸潤和腫瘤分期是肺腺鱗癌預(yù)后的危險因素。WATANABE等[18]的研究發(fā)現(xiàn)腫瘤周圍炎癥變化是肺腺鱗癌獨(dú)立的預(yù)后因素。徐振武等[19]的研究也發(fā)現(xiàn)分期、亞型方式和亞型類型也對肺腺鱗癌預(yù)后有著較大的影響。本研究可以分為三個部分:首先分析了患者特征的相關(guān)性,通過熱圖可視化我們可以大致了解與骨轉(zhuǎn)移相關(guān)的特征,并且使用Kaplan-Meier曲線得出發(fā)生骨轉(zhuǎn)移后的肺腺鱗癌患者的預(yù)后會明顯較差。其次,根據(jù)Logistic回歸分析結(jié)果,骨轉(zhuǎn)移與肝轉(zhuǎn)移、遠(yuǎn)端淋巴結(jié)轉(zhuǎn)移、腦轉(zhuǎn)移最為相關(guān),這些在之前肺腺癌和肺鱗癌的研究中得到證實[20]。最后共使用了6種不同的機(jī)器學(xué)習(xí)算法,包括RF、XGBoost、GBM、kNN、MLP和SVM去構(gòu)建肺腺鱗癌的骨轉(zhuǎn)移預(yù)測模型。我們可以得到在6種算法中XGBoost、RF、GBM無論是內(nèi)部驗證或是外部驗證都表現(xiàn)優(yōu)秀,適用于構(gòu)建肺腺鱗癌骨轉(zhuǎn)移預(yù)測模型。其中以XGBoost算法為基礎(chǔ)構(gòu)建的預(yù)測模型結(jié)果最為精確,其以肝轉(zhuǎn)移、遠(yuǎn)處淋巴結(jié)轉(zhuǎn)移、TN分期等作為預(yù)測因子,對肺腺鱗癌患者骨轉(zhuǎn)移風(fēng)險做出預(yù)測。通過機(jī)器學(xué)習(xí)算法模型確定肝轉(zhuǎn)移、遠(yuǎn)處淋巴結(jié)轉(zhuǎn)移、TN分期是肺腺鱗癌患者發(fā)生骨轉(zhuǎn)移最重要的危險因素。根據(jù)機(jī)器學(xué)習(xí)模型的結(jié)果,肺腺鱗癌合并肝轉(zhuǎn)移或遠(yuǎn)處淋巴結(jié)轉(zhuǎn)移的患者有較高并發(fā)骨轉(zhuǎn)移的風(fēng)險。
綜上所述,發(fā)生骨轉(zhuǎn)移是肺腺鱗癌患者預(yù)后變差的主要原因之一,但目前依舊缺少一個可以早期并且準(zhǔn)確預(yù)測骨轉(zhuǎn)移的預(yù)測模型工具。我們使用機(jī)器學(xué)習(xí)的方法,構(gòu)建了一種可以預(yù)測肺腺鱗癌患者骨轉(zhuǎn)移風(fēng)險的預(yù)測模型。該模型可以通過對患者的特征進(jìn)行分析,然后返回患者骨轉(zhuǎn)移的風(fēng)險概率,能夠在臨床上幫助醫(yī)師更早并且更準(zhǔn)確地對肺腺鱗癌患者的骨轉(zhuǎn)移風(fēng)險進(jìn)行預(yù)測。醫(yī)師可以根據(jù)不同的患者不同的骨轉(zhuǎn)移風(fēng)險,予以不同患者更加精確地治療,并且能夠更加及時地對患者的治療方案進(jìn)行有效地調(diào)整,能最終造福于肺腺鱗癌患者。
本研究存在一定的不足。因為肺腺鱗癌的發(fā)病率低,診斷相對困難,所以單靠單中心難以獲得足夠的數(shù)據(jù)樣本進(jìn)行建模并驗證。且有許多的數(shù)據(jù)是較難從數(shù)據(jù)庫中進(jìn)行獲得,比如血液標(biāo)志物、免疫組化結(jié)果等。后續(xù)也更希望能夠通過多中心的合作,以納入更多的患者數(shù)以及更多的患者特征來建立一個更加完善以及準(zhǔn)確的肺腺鱗癌骨轉(zhuǎn)移的預(yù)測模型。