李秀芹 李琳 張慢麗
摘? 要:在我國,惡性腫瘤死亡率最高的就是肺癌。為了提高肺癌存活性預測的準確性,本研究以隨機森林(Random Forest)、LightGBM(Light Gradient Boosting Machine)和CatBoost(Categorical Boosting)三種算法為基模型,通過線性回歸集成融合構建RF-LGC肺癌存活性預測模型,運用分層十折交叉驗證方法進行仿真實驗。實驗結果顯示,RF-LGC組合模型的預測精度達到了98.0242%,比單一的基模型提高了0.2%;敏感性達到了89.3957%,比單一的基模型提高了3%;特異性達到了78.4848%,比單一的基模型提高了1%。因此,該集成融合模型是一種精確、方便的肺癌存活性預測模型。
關鍵詞:集成學習;隨機森林;十折交叉驗證;癌癥預后
中圖分類號:TP311? ? ?文獻標識碼:A
文章編號:2096-1472(2022)-01-41-06
Abstract: In China, lung cancer has the highest mortality rates among all of the malignant tumors. In order to improve the accuracy of lung cancer survival prediction, this paper proposes to use linear regression integration and fusion to build a lung cancer survival prediction model RF-LGC, which is based on three algorithms — Random Forest, LightGBM (Light Gradient Boosting Machine) and CatBoost (Categorical Boosting). Simulation experiments are carried out by using the hierarchical ten-fold cross-validation method. Experimental results show that the prediction accuracy of the RF-LGC combined model reaches 98.0242%, which is 0.2% higher than that of a single-based model; the sensitivity has reached 89.3957%, which is 3% higher than the single-based model; the specificity has reached 78.4848%, which is 1% higher than the single-based model. Therefore, the integrated fusion model is an accurate and convenient lung cancer survival prediction model.
Keywords: ensemble learning; random forest; ten-fold cross validation; cancer prognosis
1? ?引言(Introduction)
2021年最新的癌癥死亡率調查顯示,男性和女性前十大癌癥死亡率中肺癌均占第一位,約為22%。另外,在確診五年后,肺癌的生存率只有15%,因此生存分析在醫(yī)學研究中是最常見的課題之一。為了預測癌癥的存活性,一些相關變量被用來表明考慮因素,如死亡或疾病的復發(fā)是否已經(jīng)在特定的時間內(nèi)發(fā)生[1]。預測模型必須估計病人在診斷后是否能存活一段特定的時間[2]。癌癥存活性預測是一項非常重要的工作,疾病預后準確性越高,醫(yī)療方面的決策就會越精準,進而也會提高治療效果和效率。所以,提高癌癥存活性預測的準確性非常重要。
醫(yī)院大部分使用統(tǒng)計學方法對數(shù)據(jù)進行回顧性分析,但對癌癥預后的研究很少?,F(xiàn)今機器學習技術的快速發(fā)展使得前瞻性的疾病預測成為可能,一些大數(shù)據(jù)算法在醫(yī)療領域有了很好的應用,如隨機森林[3-4]、人工神經(jīng)網(wǎng)絡[5-6]和支持向量機[7-8]等。王月等人利用最大最小爬山算法預測了五年后肺癌患者的生存情況[9];王宇燕等人運用遺傳算法改進隨機森林,構建GA-RF模型預測直腸癌的存活性[1];譚鈺潔等人利用LASSO回歸分析來建立Ⅳ期乳腺癌的生存預測模型[10];殷子博基于決策樹算法構建癌癥合成基因組的預后相關模型[11]。
機器學習在醫(yī)療大數(shù)據(jù)研究方向上通常都是基于單一預測模型算法進行優(yōu)化改進的,運行時間較長,泛化性差,很難達到理想的預測精度。本文運用集成融合思想,將好而不同的集成算法進行組合,融合單一基模型的優(yōu)點,通過混合模型來彌補單一預測模型的驅動性不足。基于此,本研究以隨機森林、LightGBM和CatBoost三種算法為基模型,提出構建集成學習融合RF-LGC模型來預測肺癌患者的存活性。
2? 肺癌預測模型RF-LGC的構建(Construction of lung cancer prediction model RF-LGC)
2.1? ?數(shù)據(jù)來源及變量選擇
本實驗所使用的數(shù)據(jù)是來自美國SEER(The Surveillance,Epidemiology,and End Results)數(shù)據(jù)庫中的肺癌數(shù)據(jù),它收錄了美國各個州幾十年來的癌癥病例相關信息,并且被認為是全世界相關癌癥機構的質量標準[12]。每個文件有149 個屬性,每個屬性記錄都與特定的癌癥發(fā)病率有關。本實驗在了解肺癌的相關資料,進行SEER數(shù)據(jù)庫的初始預處理和數(shù)據(jù)清洗后,在數(shù)據(jù)集中選取了23 個屬性,如表1所示。
對于肺癌存活性預測,以五年后生存情況作為評價指標,選擇患者術后生存情況為結果變量,即若患者生存狀況為“survive”則記錄為1,生存狀況為“dead”記錄為0。
2.2? ? 隨機森林模型分析
隨機森林屬于Bagging算法,它通過Bootstrap(自助法)進行重采樣,具有模型隨機性強、不易過擬合、抗噪性強等優(yōu)點。此外,它呈樹形結構,模型可解釋度高,能夠執(zhí)行回歸和分類任務[13],同時它也是一種數(shù)據(jù)降維手段。該算法可定義如下:
(1)預設模型的超參數(shù),設置決策樹的個數(shù)、樹的節(jié)點層數(shù)。
(2)對訓練集隨機采樣生成決策樹,然后進行訓練,在決策樹選擇特征時,應選擇基尼指數(shù)增益值最大的特征,作為該節(jié)點分裂條件,如式(1)所示:
(3)輸入測試樣本到每個樹中,再將每個樹的結構進行整合。對于分類問題,按多棵樹分類器投票決定最終分類結果;對于回歸問題,由多棵樹預測值的均值決定最終預測結果。
2.3? ?LightGBM模型分析
LightGBM屬于Boosting算法,是一種提升算法模型,它是一個實現(xiàn)GBDT(Gradient Boosting Decision Tree)算法的框架。GBDT屬于決策樹的加法模型,如式(2)所示:
其中,表示決策樹的參數(shù),表示決策樹;是決策樹的個數(shù),依據(jù)算法地向前分布,第步可以表示為式(3):
設是第 個樣本的真實值,是其預測值,則損失函數(shù)可以表示為式(4):
利用式(5)損失函數(shù)極小化得到參數(shù):
通過多次迭代,回歸樹更新得到最終模型。LightGBM通過部分樣本計算信息增益,降低了每次拆分增益的成本;并且內(nèi)置特征降維技術,降低內(nèi)存使用,處理困難樣本能力強;使用葉子節(jié)點直方圖進一步加速計算;LightGBM支持高效并行,降低并行學習的通信成本。
2.4? ?CatBoost模型分析
CatBoost是一種基于對稱決策樹為基學習器,實現(xiàn)參數(shù)較少、支持類別型變量和高準確性的機器學習框架,使用了組合類別特征,豐富了特征維度;采用排序提升的方法對抗訓練集中的噪聲點,從而避免梯度估計的偏差,它將樣本的二進制特征存儲在向量中,葉子節(jié)點中的值存儲在的向量中[14]。對于樣本,建立二進制向量,如式(6)所示:
其中,是樣本上的特征的值,是二進制特征的數(shù)目。構建向量是以數(shù)據(jù)并行方式,使得速度高達三倍。
2.5? ?RF-LGC肺癌存活性預測模型的構建
本文引入了集成學習法,集成學習不是一個特定的模型,而是一種思想,它結合了一組簡單的基本模型的優(yōu)點,從而構建一個相對更強大的模型。Bagging算法和Boosting算法是集成算法的兩大類,兩者存在異質性,好而不同的算法融合集成起來會有更好的預測效果。Bagging算法的代表隨機森林簡單穩(wěn)定,具有高維運行數(shù)據(jù)的能力,抗噪性強,不易過擬合,但并不具備處理困難樣本的能力。Boosting算法的代表LightGBM是一種新型提升算法,可以并行計算優(yōu)化,但它屬于迭代算法,使得模型偏差比較低,對噪點較為敏感。CatBoost算法具有魯棒性,可以處理類別型、數(shù)值型特征,但對于類別型特征的處理需要大量的內(nèi)存和時間。本文綜合三者優(yōu)缺點,使彼此相輔相成,另外使用stacking的結合策略構建RF-LGC模型,充分發(fā)揮每一個學習器的優(yōu)點,防止過擬合,而且不用過多地調參數(shù),能夠有效預測肺癌存活性。
本文融合構建的RF-LGC肺癌存活性預測模型如圖1所示,過程采用分層十折交叉驗證,進行stacking的結合策略。
(1)基于訓練集訓練模型。將90%的訓練集分別輸入隨機森林、LightGBM和CatBoost三個基模型中,在訓練模型LightGBM模型構建過程中,目標函數(shù)采用的是binary,評價函數(shù)采用的是AUC,目的是可以根據(jù)需要對評價函數(shù)作調整,設定一個或者多個評價函數(shù);CatBoost中eval_metrics參數(shù)設定為AUC;隨機森林模型采用Random Forest Classifier類構造函數(shù),并運用Predict_proba(X)預測函數(shù),同樣也采用AUC來計算訓練后的模型某一指定指標在每一輪迭代中的表現(xiàn),得到訓練集學習結果預測矩陣。
(2)將剩余10%的測試集,利用分層十折交叉驗證,先基于三個基模型訓練出的模型進行測試,得到測試預測結果矩陣。
(3)同樣采用分層十折交叉驗證,將步驟(1)訓練集預測結果作為新的訓練集樣本輸入線性回歸模型進行訓練,得到最終的訓練集預測結果;將步驟(2)測試集預測結果作為新的測試集樣本輸入線性回歸模型進行測試,得到最終預測結果。
基于本文的線性回歸模型,調用了LinearRegression包,采用最小二乘法線性回歸,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配,我們可以通過殘差之和最小化實現(xiàn)最佳擬合,也就是說模型預測的值與訓練集的數(shù)據(jù)最接近,如式(7)所示:
最終,在實現(xiàn)最佳擬合過程中,利用AUC值來證明模型的可靠性,實驗結果如表2所示,集成融合模型達到AUC最高,具有可行性。
3? 存活性預測實驗分析(Experimental analysis of survival prediction)
3.1? ?分類性能評價標準
評估一個預測模型,需要用合適的衡量手段,對于本文所研究的醫(yī)療診斷預測領域,選用的指標為敏感性[15]、特異性[16]和準確性[17],另外使用了分層十折交叉驗證[18]進行模型準確性測試。其中,敏感性評價患者被查出患病的可能性,如式(8)所示;特異性是對陰性者被正確排除患病可能性的評價,如式(9)所示;而準確性是由特異性和敏感性一起決定的,從整體角度來判斷預測是否準確。
其中,TP代表真正類[19],F(xiàn)P代表假正類,TN代表真負類,F(xiàn)N代表假負類。以上三個評價指標都是越大越好。分層十折交叉驗證是估計分類方法精度的一種方法,目的是測試所采用分類方法的泛化能力[20],解決數(shù)據(jù)不平衡性。分層十折交叉驗證是把全部數(shù)據(jù)集分成基本一致的十個子集,然后對模型進行十次訓練、測試。每次使用九個不同的子集來訓練模型,剩下的一個作為測試集。之后將十次計算的正確率取均值作為本方法的估計精度值。分層十折交叉驗證的正確率公式如式(10)所示:
其中,是第 折計算得到的正確率。通過分層十折交叉驗證計算得到的正確率,可以知道模型在整體上的性能情況,另外通過計算其平均值和標準差,比較不同模型的穩(wěn)定性。
3.2? ?實驗結果與分析
本實驗為了驗證提出的集成模型具有更好的存活性預測性能,將集成融合RF-LGC模型分別與單一的隨機森林、LightGBM和CatBoost模型進行對比。表3是對肺癌數(shù)據(jù)分類的實驗結果,包括四種模型在肺癌數(shù)據(jù)集上進行分層十折交叉驗證運算得到的各項指標、標準差和均值。
從表3中可以看到,隨機森林、LightGBM、CatBoost和集成模型RF-LGC這四種模型敏感性的均值分別是0.863338、0.872936、0.898075、0.893957,特異性的均值分別是0.774608、0.790723、0.780762、0.784848,準確性的均值分別是0.978158、0.979854、0.980033、0.980242,可以看出這三個指標在模型中的均值屬集成模型RF-LGC最高,次之是CatBoost;四種模型的敏感性標準差分別是0.020570、0.020015、0.025285、0.023157,特異性標準差分別是0.024972、0.017865、0.024759、0.017315,準確性標準差分別是0.002559、0.002003、0.002390、0.001904,可以看出這三個指標在模型中的標準差屬集成模型RF-LGC最低,次之是CatBoost。
為了更直觀地展示集成模型RF-LGC的優(yōu)越性,我們以圖形的方式對實驗結果進行展示。圖2以折線圖來展示這四種模型在分層十折交叉驗證中的敏感性值,圖3和圖4分別是特異性和準確性折線圖。從圖2中可以看出,由于正類樣本在驗證中分布不均,敏感性的值變化較大,CatBoost和集成模型RF-LGC優(yōu)劣難分,二者在整體上都要優(yōu)于LightGBM,次之是隨機森林。從圖3中可以看出,集成RF-LGC模型的波動與LightGBM、CatBoost大致相似,LightGBM的特異性優(yōu)于RF-LGC模型,RF-LGC模型的特異性優(yōu)于CatBoost。隨機森林波動過大,其穩(wěn)定性相對于其三個模型較差。從圖4中可以看出,在準確性上可以排序為:集成模型RF-LGC優(yōu)于CatBoost,CatBoost優(yōu)于LightGBM,LightGBM優(yōu)于隨機森林。從以上分析結果可以看出,本研究所提出的集成模型得到的三個指標的均值都大于各個基模型,而標準差也都更小,證明了該模型的泛化能力更強。
本研究所構建的集成融合模型不僅準確性最高,而且表現(xiàn)出了更好的穩(wěn)定性和泛化性,敏感性和特異性均值分別達到了0.893957和0.784848,這兩者也共同為準確性提供了較高的均值,達到了0.980242,因此本研究提出的模型能夠達到較好的預測結果,能夠有效地協(xié)助醫(yī)療領域做出相應的決策。
4? ?結論(Conclusion)
本文提出了一種肺癌存活性預測的集成融合模型。該模型基于集成學習兩大類不同的機器學習技術,充分發(fā)揮各個模型的優(yōu)點,能夠捕獲數(shù)據(jù)中的復雜模式,高效而簡潔,再利用線性回歸來融合構建模型,增強了各個基模型的穩(wěn)定性。本文使用了真實的肺癌數(shù)據(jù),且結果表明所提出的集成模型能夠達到理想的預測精度,穩(wěn)定性和泛化能力都較強,因此能夠推廣到醫(yī)療領域為癌癥病人預后預測提供決策,以彌補傳統(tǒng)經(jīng)驗預測帶來的不足,降低醫(yī)療成本,對癌癥的治療和預測都具有很大的現(xiàn)實意義。
參考文獻(References)
[1] 王宇燕,王杜娟,王延章,等.改進隨機森林的集成分類方法預測結直腸癌存活性[J].管理科學,2017,30(1):95-106.
[2] 郭占芳,張紅武,楊如意,等.益氣復脈對中晚期肺癌患者免疫功能和生存質量的影響[J].中國現(xiàn)代醫(yī)學雜志,2017,27(6):88-92.
[3] CHEN H, LIN Z, WU H G, et al. Diagnosis of colorectal cancer by near-infrared optical fiber spectroscopy and random forest[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2015, 135A:185-191.
[4] AZAR A T, ELSHAZLY H I, HASSANIEN A E, et al. A random forest classifier for lymph diseases[J]. Computer Methods and Programs in Biomedicine, 2014, 113(2):465-473.
[5] DEVI M A, RAVI S, VAISHNAVI J, et al. Classification of cervical cancer using artificial neural networks[J]. Procedia Computer Science, 2016, 89:465-472.
[6] LIN D, ATHANASIOS V V, TANG Y, et al. Neural networks for computer-aided diagnosis in medicine: A review[J]. Neurocomputing, 2016, 216(5):700-708.
[7] 趙巒嘯,劉金水,姚云霞,等.基于隨機森林算法的陸相沉積烴源巖定量地震刻畫:以東海盆地長江坳陷為例[J].地球物理學報,2021,64(2):700-715.
[8] AZAR A T, EI-SAID S A. Performance analysis of support vector machines classifiers in breast cancer mammography recongnition[J]. Neural Computing and Applications, 2014, 24(5):1163-1177.
[9] 王月,趙茂先.基于最大最小爬山算法的肺癌預后模型[J].山東科技大學學報(自然科學版),2020,39(2):105-110.
[10] 譚鈺潔,何子凡,余運芳,等.首診Ⅳ期乳腺癌生存預測模型建立并驗證:一項基于機器算法的研究[J].嶺南現(xiàn)代臨床外科,2020,20(3):273-279.
[11] 殷子博.基于決策樹算法的癌癥合成致死基因組合的預測及預后分析[D].南京:南京郵電大學,2020.
[12] DELEN D, WALKER G, KADAM A. Predicting breast cancer survivability: A comparison of three data mining methods[J]. Artificial Intelligence in Medicine, 2005, 34(2):113-127.
[13] 邱少明,楊雯升,杜秀麗,等.優(yōu)化隨機森林模型的網(wǎng)絡故障預測[J].計算機應用與軟件,2021,38(2):103-109,170.
[14] 蘇慶,林華智,黃劍鋒,等.結合CNN和Catboost算法的惡意安卓應用檢測模型[J].計算機工程與應用,2021,57(15):140-146.
[15] 陳志君,朱振闖,孫仕軍,等.Stacking集成模型模擬膜下滴灌玉米逐日蒸散量和作物系數(shù)[J].農(nóng)業(yè)工程學報,2021,37(5):95-104.
[16] 扈文秀,蘇振興,楊櫟.基于隨機森林方法的投資者概念關注對概念指數(shù)收益預測及交易策略的研究[J].預測,2021,40(1):60-66.
[17] 李昆明,厲文婕.基于利用BP神經(jīng)網(wǎng)絡進行Stacking模型融合算法的電力非節(jié)假日負荷預測研究[J].軟件,2019,40(9):176-181.
[18] 吳彤,李勇,葛瑩,等.利用Stacking集成學習估算柑橘葉片氮含量[J].農(nóng)業(yè)工程學報,2021,37(13):163-171.
[19] MOLINA-MAYO C, HERNNDEZ-BORGES J, BORGES-MIQUEL T M, et al. Determination of pesticides in wine using micellar electrokinetic chromatography with UV detection and sample stacking[J]. Journal of Chromatography A, 2007, 1150(1/2):348-355.
[20] 耿琪深,王豐華,金霄.基于Gammatone濾波器倒譜系數(shù)與鯨魚算法優(yōu)化隨機森林的干式變壓器機械故障聲音診斷[J].電力自動化設備,2020,40(8):191-196,224.
作者簡介:
李秀芹(1967-),女,博士,教授.研究領域:計算機網(wǎng)絡,數(shù)據(jù)庫與信息處理.
李? ?琳(1995-),女,碩士生.研究領域:數(shù)據(jù)挖掘.
張慢麗(1994-),女,碩士生.研究領域:數(shù)據(jù)挖掘.