基于機(jī)器學(xué)習(xí)的口咽癌死亡預(yù)測(cè)模型構(gòu)建與研究

2024-06-03 09:11:36潘逸菲

現(xiàn)代信息科技 2024年6期

收稿日期：2023-07-28

DOI：10.19850/j.cnki.2096-4706.2024.06.019

摘? 要：采用機(jī)器學(xué)習(xí)對(duì)口咽癌患者一年生存情況構(gòu)建預(yù)測(cè)模型，通過(guò)比較找到最優(yōu)模型，以期為相關(guān)疾病預(yù)后提供可靠的參考指標(biāo)。選取SEER數(shù)據(jù)庫(kù)中2020年的口咽癌患者2 636例，數(shù)據(jù)經(jīng)過(guò)SMOTE算法優(yōu)化后，運(yùn)用八種機(jī)器學(xué)習(xí)方法建立預(yù)測(cè)分類模型比較分析?；陔S機(jī)森林、決策樹(shù)算法的模型相對(duì)來(lái)說(shuō)預(yù)測(cè)性能更佳。機(jī)器學(xué)習(xí)算法建立的預(yù)測(cè)模型能夠較好地輔助口咽癌臨床診療及預(yù)后相關(guān)行為。

關(guān)鍵詞：口咽癌；機(jī)器學(xué)習(xí)；預(yù)測(cè)模型；SEER數(shù)據(jù)庫(kù)；SMOTE算法

中圖分類號(hào)：TP39；TP301.6；R780.1 文獻(xiàn)標(biāo)識(shí)碼：A? 文章編號(hào)：2096-4706（2024）06-0082-05

Construction and Research on Oropharyngeal Cancer Death Prediction Model

Based on Machine Learning

PAN Yifei

（Stomatological College of Nanjing Medical University， Nanjing? 210003， China）

Abstract： Machine Learning is used to construct a prediction model for the annual survival situation of oropharyngeal cancer patients. In order to provide a reliable reference index for the prognosis of related diseases， the optimal model is found through comparison. And 2 636 patients with oropharyngeal cancer in 2020 from the SEER database are selected. After the data are optimized by SMOTE algorithm， eight Machine Learning methods are used to establish a predictive classification model for comparative analysis. The Models based on Random Forest and Decision Tree algorithm have better predictive performance， relatively. The prediction model established by the Machine Learning algorithm can effectively assist the clinical diagnosis and treatment of oropharyngeal cancer and prognostic behaviors.

Keywords： oropharyngeal cancer; Machine Learning; prediction model; SEER database; SMOTE algorithm

0? 引? 言

口咽癌指發(fā)生在舌根部、扁桃體、軟腭及咽后壁黏膜的癌性病變，與口腔癌并稱為世界第六大最常見(jiàn)的癌癥[1]。在過(guò)去十年內(nèi)，伴隨著人乳頭瘤病毒因素比例的上升，口咽癌在頭頸部鱗癌中的占比正穩(wěn)步提高[2]，因此迫切需要采取相關(guān)措施來(lái)預(yù)測(cè)并降低口腔和口咽癌的發(fā)病率及死亡率。

近年來(lái)，隨著人工智能的迅速發(fā)展，越來(lái)越多的領(lǐng)域開(kāi)始在機(jī)器學(xué)習(xí)的基礎(chǔ)上構(gòu)建預(yù)測(cè)模型，在分析大規(guī)模數(shù)據(jù)等方面替代傳統(tǒng)方法，表現(xiàn)出良好的準(zhǔn)確率和穩(wěn)定性。如醫(yī)療領(lǐng)域中，面對(duì)復(fù)雜高維度的醫(yī)療數(shù)據(jù)，機(jī)器學(xué)習(xí)技術(shù)可通過(guò)建模訓(xùn)練，學(xué)習(xí)數(shù)據(jù)中的內(nèi)在統(tǒng)計(jì)模式和結(jié)構(gòu)，達(dá)到預(yù)測(cè)疾病預(yù)后、尋找疾病診斷指標(biāo)等可輔助臨床診療的目的。

因此國(guó)內(nèi)外許多研究在對(duì)疾病的診療探索中已將機(jī)器學(xué)習(xí)作為重要的輔助手段。如Sajjadian等發(fā)現(xiàn)機(jī)器學(xué)習(xí)可以較為準(zhǔn)確地預(yù)測(cè)重度抑郁癥的藥物療效，從而輔助抑郁癥的個(gè)性化治療[3]。Dong等建立的機(jī)器學(xué)習(xí)模型可為兒科重癥監(jiān)護(hù)急性腎損傷（Acute Kidney Injury， AKI）的診療提供早期預(yù)警并采取防治措施[4]。張博超等利用慢性阻塞性肺疾病中急性加重期患者的隨機(jī)森林預(yù)測(cè)模型識(shí)別患者肺功能等級(jí)[5]。

口腔醫(yī)學(xué)領(lǐng)域也是如此，Howard等建立的機(jī)器學(xué)習(xí)模型可以較好地預(yù)測(cè)能從頭頸部惡性腫瘤放化療中獲益的中度風(fēng)險(xiǎn)患者，從而更好地進(jìn)行治療[6]。吳宇佳等利用基于機(jī)器學(xué)習(xí)構(gòu)建了可摘局部義齒基牙選擇模型，并對(duì)其選擇結(jié)果進(jìn)行合理性評(píng)價(jià)的方法[7]。此外，機(jī)器學(xué)習(xí)在預(yù)測(cè)疾病死亡率、3D重建、三維形態(tài)計(jì)量學(xué)、自動(dòng)化治療計(jì)劃和制定個(gè)性化手術(shù)方案等方面均有廣闊的發(fā)展前景。

基于機(jī)器學(xué)習(xí)的廣泛應(yīng)用和有效性，本研究將采用邏輯回歸（Logistic Regression， LR）、決策樹(shù)（Decision Tree， DT）、隨機(jī)森林（Random Forest， RF）、樸素貝葉斯（Naive Bayes， NB）、支持向量機(jī)（Support Vector

Machine， SVM）、K近鄰（K-Nearest Neighbors， KNN）、梯度提升（Gradient Boosting， GB）、極限梯度提升（Extreme Gradient Boosting， XGBoost）八種機(jī)器學(xué)習(xí)算法建立預(yù)測(cè)分類模型，通過(guò)對(duì)比分析，尋找更適合構(gòu)建口咽癌死亡預(yù)測(cè)模型的方法，為口咽癌診療預(yù)后提供依據(jù)。

1? 算法和處理

1.1? SMOTE算法

SMOTE（Synthetic Minority Oversampling Technique）算法指合成少數(shù)類過(guò)采樣技術(shù)。它是在隨機(jī)過(guò)采樣算法基礎(chǔ)上分析并根據(jù)原有少數(shù)類樣本人工合成新樣本，從而使訓(xùn)練集數(shù)據(jù)分布更均衡[8]。

1.2? 邏輯回歸算法

LR屬于廣義線性回歸模型，可以測(cè)量關(guān)聯(lián)、預(yù)測(cè)結(jié)果和控制混雜變量效應(yīng)[9]。本研究中，該過(guò)程大概為先建立代價(jià)函數(shù)去代入初步的回歸分類模型，再迭代優(yōu)化，求解出最優(yōu)的模型參數(shù)，測(cè)試驗(yàn)證模型的好壞。

1.3? 決策樹(shù)算法

DT指通過(guò)建立可視化的結(jié)構(gòu)圖將每一個(gè)決策與對(duì)應(yīng)的結(jié)果連接起來(lái)，利用一系列的決策節(jié)點(diǎn)及其分支條件判斷最后所屬的類別[10]。具體過(guò)程為：處理、利用和訓(xùn)練數(shù)據(jù)，基于損失函數(shù)最小化的原則歸納算法，并建立可讀的規(guī)則和決策模型，然后使用決策樹(shù)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)分析。

1.4? 隨機(jī)森林算法

RF是基于分類回歸樹(shù)的集成算法。利用自助法重采樣技術(shù)，在原始訓(xùn)練集中，有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集，再根據(jù)自助樣本集生成k個(gè)分類樹(shù)組成隨機(jī)森林。即通過(guò)隨機(jī)抽樣和在分裂變量中加入隨機(jī)性，使樹(shù)之間的獨(dú)立性增強(qiáng)[11]。

1.5? 樸素貝葉斯算法

NB是以貝葉斯定理為基礎(chǔ)、基于特征條件獨(dú)立假設(shè)的分類模型。先假設(shè)特征詞之間獨(dú)立，通過(guò)給定的訓(xùn)練數(shù)據(jù)集來(lái)學(xué)習(xí)從輸入到輸出過(guò)程的聯(lián)合概率分布。然后基于學(xué)習(xí)到的模型，輸入給定的x值，求出使得后驗(yàn)的概率最大的輸出值Y [12]。

1.6? 支持向量機(jī)

SVM的基本模型是定義為特征空間上的間隔最大的線性分類器，其形式為一個(gè)凸二次規(guī)劃的求解問(wèn)題。它的目的是在兩個(gè)類別之間創(chuàng)建決策邊界，從而能夠從一個(gè)或多個(gè)特征向量進(jìn)行預(yù)測(cè)[13]。

1.7? K近鄰算法

KNN指的是給定一個(gè)訓(xùn)練集，輸入新的實(shí)例特征向量，算法識(shí)別訓(xùn)練數(shù)據(jù)集中具有預(yù)定義度量的與該實(shí)例最近鄰的k個(gè)實(shí)例，并從其類別中通過(guò)多數(shù)表決進(jìn)行預(yù)測(cè)及分類[14]。

1.8? 梯度提升算法

GB是提升樹(shù)的優(yōu)化算法，它的基本原理是利用模型損失函數(shù)的負(fù)梯度信息，得出提升算法中殘差近似值，把新加入的弱分類器訓(xùn)練后累加擬合到現(xiàn)有的模型中[15]，成為新的回歸樹(shù)。

1.9? 極限梯度提升算法

XGBoost是一種機(jī)器學(xué)習(xí)算法，它是基于梯度提升算法的若干擴(kuò)展和改進(jìn)。它的核心思想是在梯度提升樹(shù)算法中引入強(qiáng)化學(xué)習(xí)技術(shù)，通過(guò)對(duì)目標(biāo)函數(shù)的最優(yōu)化來(lái)提高模型的精度和泛化能力。極限梯度提升原理將多個(gè)弱學(xué)習(xí)器進(jìn)行串行或并行集成，從而構(gòu)建強(qiáng)大的集成模型。

2? 資料與方法

2.1? 一般資料

本研究在SEER（Surveillance， Epidemiology， and End Results）數(shù)據(jù)庫(kù)2023年4月發(fā)布的“Incidence-SEER Research Data， 17 Registries， Nov 2022 Sub（2000—2020）”中篩選出診斷年份為2020年的患者數(shù)據(jù)，排除部分信息不全及模糊的數(shù)據(jù)，最終納入2 636例患者的診療數(shù)據(jù)。

2.2? 實(shí)驗(yàn)方法

2.2.1? 數(shù)據(jù)采集及預(yù)處理

選取SEER數(shù)據(jù)庫(kù)中2020年就診的2 636例患者信息，進(jìn)行分析和預(yù)處理。在數(shù)據(jù)處理的過(guò)程中，發(fā)現(xiàn)生存者和因口咽癌死亡患者分布差別明顯，具體情況如圖1所示。

圖1? 存活者與因口咽癌死亡患者比例

從圖1可知，本研究數(shù)據(jù)集存在數(shù)據(jù)不平衡問(wèn)題，為了保證實(shí)驗(yàn)的合理性和可行性，本文采用SMOTE算法對(duì)數(shù)據(jù)集進(jìn)行處理。

2.2.2? 特征選擇

本研究考慮到臨床特征的有效性和合理性，選取了與口咽癌預(yù)后相關(guān)性較大的指標(biāo)，從流行病學(xué)、臨床分期、診療計(jì)劃等方面出發(fā)，建立了多維度口咽癌死亡預(yù)測(cè)模型。共選取年齡、性別、種族、原發(fā)部位、偏側(cè)、TNM分期、淋巴清掃、放化療選擇等22個(gè)輸入指征。

2.2.3? 模型構(gòu)建

用SMOTE算法對(duì)數(shù)據(jù)作不平衡預(yù)處理后，先將預(yù)處理后的數(shù)據(jù)以7：3的比例隨機(jī)劃分為訓(xùn)練集及測(cè)試集。利用訓(xùn)練集創(chuàng)建預(yù)測(cè)死亡預(yù)后的模型，然后利用測(cè)試集評(píng)估模型效果。在Windows 10平臺(tái)Python3.8環(huán)境下構(gòu)建LR、DT、NB、RF、SVM、KNN、GB、XGBoost分類預(yù)測(cè)模型。

2.2.4? 模型評(píng)估

在用訓(xùn)練集構(gòu)建模型以后，將使用測(cè)試集對(duì)上述模型的預(yù)測(cè)進(jìn)行客觀評(píng)價(jià)。本研究選取混淆矩陣、準(zhǔn)確度、精確度、召回率、ROC曲線面積等多個(gè)指標(biāo)對(duì)預(yù)測(cè)模型作出評(píng)價(jià)，混淆矩陣如表1所示。

表1? 混淆矩陣評(píng)價(jià)指標(biāo)

混淆矩陣樣本實(shí)際類別

正類樣本負(fù)類樣本

樣本預(yù)測(cè)類別正類樣本 TP FP

負(fù)類樣本 FN TN

基于混淆矩陣，準(zhǔn)確度（Accuracy）表示分類正確的樣本數(shù)所占比例，如式（1）所示：

（1）

精確度（Precision）表示預(yù)測(cè)為正類的樣本中真正樣本的數(shù)量，是針對(duì)“預(yù)測(cè)結(jié)果”的評(píng)價(jià)指標(biāo)，如式（2）所示：

（2）

召回率（Recall）是針對(duì)“原始樣本”的指標(biāo)，表示樣本中的分類正確的正例數(shù)量，如式（3）所示：

（3）

F1值表示精確度和召回率兩者之間的調(diào)和平均值，如式（4）所示：

（4）

Accuracy、Precision、Recall和F1值的值越大，表示機(jī)器學(xué)習(xí)模型的性能越好，預(yù)測(cè)的效果更為理想。

ROC（Receiver Operating Characteristic Curve）指接受者特征曲線，是反應(yīng)敏感性及特異性連續(xù)變量的一項(xiàng)綜合指標(biāo)，描述的是分類模型性能隨著其閾值變化而變化的過(guò)程。ROC曲線的面積用AUC值表示，是一個(gè)重要的評(píng)估值。面積值為0.5表示識(shí)別能力為0，為隨機(jī)分類；面積值越接近于1表示識(shí)別能力越強(qiáng)。

3? 評(píng)價(jià)與分析

對(duì)SMOTE算法處理后的數(shù)據(jù)模型采用Accuracy、Precision、Recall、F1值和AUC進(jìn)行性能評(píng)價(jià)后，得到的各項(xiàng)指標(biāo)值如圖2所示。

圖2? 各算法評(píng)價(jià)指標(biāo)值

從圖2結(jié)果可以看出，隨機(jī)森林、決策樹(shù)、梯度提升、極限梯度提升算法在準(zhǔn)確度、精確度、召回率、F1值指數(shù)方面都優(yōu)于其他機(jī)器學(xué)習(xí)算法，其中隨機(jī)森林和梯度提升算法的優(yōu)勢(shì)更為明顯，分別為98.8%和98.9%，說(shuō)明這兩種算法預(yù)測(cè)效果比較準(zhǔn)確。

如圖3所示，隨機(jī)森林、決策樹(shù)、梯度提升、極限梯度提升算法的ROC曲線面積最為理想，其中梯度提升算法最佳。這些算法建立的預(yù)測(cè)模型可以更好地?cái)M合數(shù)據(jù)，從而通過(guò)部分臨床特征預(yù)測(cè)口咽癌預(yù)后和死亡類型。然而，貝葉斯算法建立的預(yù)測(cè)模型雖然相對(duì)來(lái)說(shuō)AUC值也比較理想，但是，相對(duì)于其他算法模型顯得較低，不建議采用。

（a）邏輯回歸算法

（b）決策樹(shù)算法

（c）隨機(jī)森林算法

（d）樸素貝葉斯算法

（e）支持向量機(jī)算法

（f）K近鄰算法

（g）梯度提升算法

（h）極限梯度提升算法

圖3? 各算法ROC曲線

綜上，隨機(jī)森林算法和梯度提升算法在多個(gè)評(píng)價(jià)指標(biāo)上都優(yōu)于其他機(jī)器學(xué)習(xí)算法，可能是由于兩種算法均屬于集成分類算法，可以較好地適應(yīng)數(shù)據(jù)集并減小誤差，具有更優(yōu)良的性能，從而更好地輔助口咽癌的臨床診療。

本研究討論了多種機(jī)器學(xué)習(xí)方法在口咽癌死亡預(yù)測(cè)方面的應(yīng)用和評(píng)價(jià)，并且從結(jié)論可以得出這些機(jī)器學(xué)習(xí)方法均具有較好的統(tǒng)計(jì)學(xué)意義，但其中不足之處是，機(jī)器學(xué)習(xí)的預(yù)測(cè)模型缺乏與臨床相關(guān)的推理解釋，與臨床特征的診療推斷尚不能達(dá)到理論上的融會(huì)貫通，還需要進(jìn)一步的探索。

4? 結(jié)? 論

隨著經(jīng)濟(jì)社會(huì)的發(fā)展和致病因素的流行，口咽癌在頭頸部鱗癌中的占比正穩(wěn)步提高，因此口咽癌的臨床診療需要得到進(jìn)一步的優(yōu)化。本研究通過(guò)8種機(jī)器學(xué)習(xí)方法建立口咽癌死亡預(yù)測(cè)分類模型，SMOTE算法優(yōu)化后比較分析，發(fā)現(xiàn)基于隨機(jī)森林、決策樹(shù)、梯度提升、極限梯度提升的機(jī)器學(xué)習(xí)模型的性能指標(biāo)較高，能夠較好地輔助口咽癌臨床診療及預(yù)后。其中，隨機(jī)森林算法和梯度提升算法在多個(gè)評(píng)價(jià)指標(biāo)上綜合優(yōu)于其他機(jī)器學(xué)習(xí)算法，可以在口咽癌死亡和預(yù)后的診療中作為良好的輔助診斷工具，為口咽癌的早期診斷和治療提供科學(xué)依據(jù)，從而為口咽癌患者提供更理想且個(gè)性化的治療方案。

參考文獻(xiàn)：

[1] PSYRRI A，PREZAS L，BURTNESS B. Oropharyngeal Cancer [J].Clinical Advances in Hematology & Oncology，2008，6（8）：604-612.

[2] MARUR S，D'SOUZA G，WESTRA W H，et al. HPV-associated Head and Neck Cancer： A Virus-related Cancer Epidemic [J].the Lancet Oncology，2010，11（8）：781-789.

[3] SAJJADIAN M，LAM R W，MILEV R，et al. Machine Learning in the Prediction of Depression Treatment Outcomes： A Systematic Review and Meta-analysis [J].Psychological Medicine，2021，51（16）：2742-2751.

[4] DONG J Z，F(xiàn)ENG T，THAPA-CHHETRY B，et al. Machine Learning Model for Early Prediction of Acute Kidney Injury （AKI） in Pediatric Critical Care [J].Crit Care，2021，25（1）：288.

[5] 張博超，楊朝，郭立泉，等.基于機(jī)器學(xué)習(xí)的慢性阻塞性肺疾病急性加重預(yù)測(cè)模型的研究 [J].中國(guó)康復(fù)理論與實(shí)踐，2022，28（6）：678-683.

[6] HOWARD F M，KOCHANNY S，KOSHY M，et al. Machine Learning-Guided Adjuvant Treatment of Head and Neck Cancer [J].Journal of Clinical Oncology，2020，3（11）：6567.

[7] 吳宇佳，周崇陽(yáng)，徐子能，等.基于機(jī)器學(xué)習(xí)的可摘局部義齒基牙選擇模型的合理性評(píng)價(jià) [J].中國(guó)實(shí)用口腔科雜志，2023，16（3）：333-338.

[8] DABLAIN D，KRAWCZYK B，CHAWLA N V. DeepSMOTE： Fusing Deep Learning and SMOTE for Imbalanced Data [J].IEEE Transactions on Neural Networks and Learning Systems，2023，34（9）：6390-6404.

[9] STOLTZFUS J C. Logistic Regression： A Brief Primer [J].Academic Emergency Medicine，2011，18（10）：1099-104.

[10] 申泉，羅旭飛，石安婭，等.基于臨床實(shí)踐指南決策樹(shù)的設(shè)計(jì)與思考 [J].協(xié)和醫(yī)學(xué)雜志，2022，13（6）：1081-1087.

[11] 曹桃云.基于隨機(jī)森林的變量重要性研究 [J].統(tǒng)計(jì)與決策，2022，38（4）：60-63.

[12] 馬剛.樸素貝葉斯算法的改進(jìn)與應(yīng)用 [D].合肥：安徽大學(xué)，2018.

[13] HUANG S J，CAI N G，PACHECO P P，et al. Applications of Support Vector Machine （SVM） Learning in Cancer Genomics [J].Cancer Genomics Proteomics，2018，15（1）：41-51.

[14] GWEON H，SCHONLAU M，STEINER S H. The K Conditional Nearest Neighbor Algorithm for Classification and Class Probability Estimation [J].PeerJ Computer Science，2019，5：e194.

[15] 呂佳.梯度提升回歸樹(shù)算法研究及改進(jìn) [D].上海：上海交通大學(xué)，2017.

作者簡(jiǎn)介：潘逸菲（2001—），女，漢族，江蘇淮安人，本科在讀，研究方向：頜面部腫瘤研究與生物信息學(xué)結(jié)合。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機(jī)器學(xué)習(xí)的口咽癌死亡預(yù)測(cè)模型構(gòu)建與研究