9種結(jié)合式機器學(xué)習(xí)算法在腫瘤早期診斷中的準(zhǔn)確性比較研究

2022-08-04 00:39:44岳小飛

醫(yī)學(xué)信息學(xué)雜志 2022年5期

馮利岳小飛

(國家開放大學(xué)醫(yī)藥學(xué)院北京 100039) (北京康復(fù)醫(yī)院藥劑科北京 100144)

1 引言

1.1 研究背景

近年來組學(xué)技術(shù)如基因組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)迅速發(fā)展。醫(yī)學(xué)工作者可將組學(xué)、患者臨床診斷及影像學(xué)等數(shù)據(jù)整合以提高疾病診斷的準(zhǔn)確性，特別是惡性腫瘤等重大疾病[1]。雖然惡性腫瘤診斷方法發(fā)展迅速[2]，但其早期診斷仍較困難。組學(xué)可從系統(tǒng)、整體水平捕捉機體在疾病早期的生理、病理變化，為惡性腫瘤早期診斷提供重要參考依據(jù)[3-4]。組學(xué)數(shù)據(jù)通常變量數(shù)目多、樣本量少，這給數(shù)據(jù)分析帶來較大挑戰(zhàn)。多元統(tǒng)計分析方法及機器學(xué)習(xí)算法因具有強大的數(shù)據(jù)分析處理能力，在支持臨床決策及尋找早期診斷生物標(biāo)志物方面發(fā)揮了越來越重要的作用[5-8]。

1.2 研究內(nèi)容

本研究首先將原始數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集(約為全部數(shù)據(jù)的1/10)和測試數(shù)據(jù)集(約為全部數(shù)據(jù)的9/10)。先采用訓(xùn)練數(shù)據(jù)集建立數(shù)據(jù)處理模型，即通過偏最小二乘法(Partial Least Squares，PLS)降維，提取不同數(shù)量主成分導(dǎo)入到線性判別分析(Linear Discriminant Analysis，LDA)，K-最近鄰法(K-Nearest Neighbor，KNN),決策樹(Decision Tree，DT),支持向量機(Support Vector Machine，SVM)，人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)，裝袋法(Bagging)，隨機森林(Random Forest，RF)，二次判別分析(Quadratic Discriminant Analysis，QDA)及邏輯回歸(Logistic Regression，LR)9種分類器中對數(shù)據(jù)進行分類，采用10折交叉驗證法優(yōu)化各分類器參數(shù)及防止模型過度擬合，使之達到最佳分類效果，采用預(yù)測準(zhǔn)確率等指標(biāo)對其分類效果進行評價并將表現(xiàn)較好的幾種分類器組成集合式分類器。此外對潛在生物標(biāo)志物進行初步篩選。

2 原理與方法

2.1 基本原理

PCA和PLS是兩種常用的降維方法[9]。二者均通過對多變量數(shù)據(jù)信息調(diào)整組合提取少量綜合變量來解釋原數(shù)據(jù)的大部分變異，當(dāng)組間變異在總變異中不占主導(dǎo)地位時，PLS分類效果往往比PCA更好[10]。此外PLS算法在處理高維、共線性、干擾強的數(shù)據(jù)時功能強大。SVM可處理分類及回歸問題，其泛化能力優(yōu)秀，但運算量較大。RF、Bagging和DT這3種方法較簡便，易于解釋和可視化，但有時預(yù)測準(zhǔn)確性不高。LR的特點是運算速度快、模型簡單、易于理解，可直接看到各個變量的權(quán)重。LDA和LR相似，二者的區(qū)別是決策邊界的估計方法不同。當(dāng)決策邊界高度非線性時，KNN預(yù)測結(jié)果常優(yōu)于LDA和LR。QDA使用二次決策邊界，當(dāng)數(shù)據(jù)集滿足高斯分布假設(shè)時，其預(yù)測結(jié)果常比KNN好。評價機器學(xué)習(xí)模型分類效果的常用指標(biāo)有準(zhǔn)確率、曲線下方面積(Area Under the Curve，AUC)值、召回率、精密度、F1值等。其中準(zhǔn)確率最常用，其缺點是當(dāng)兩組樣本數(shù)量相差太大時該指標(biāo)會失真。召回率是陽性樣本的檢出率。精密度是陽性樣本的預(yù)測準(zhǔn)確率。AUC值為受試者工作特征(Receiver Operating Characteristic，ROC)曲線下方面積，在兩組樣本數(shù)不平衡時該指標(biāo)更為客觀；F1值是召回率和精密度的調(diào)和平均值，能直觀評價模型對疾病患者的檢出率及檢測準(zhǔn)確性。在醫(yī)學(xué)研究中，除疾病診斷外還可通過計算PLS模型中每個自變量的VIP值來篩選與樣本類別密切相關(guān)的重要變量(潛在生物標(biāo)志物)。一般認為，VIP值大于1以及變量峰面積(峰高或表達量等)組間t檢驗或方差分析(Analysis of Variance，ANOVA)有顯著性差異(P<0.05)的變量才是較為可靠的潛在生物標(biāo)志物。

2.2 數(shù)據(jù)集

本研究使用美國FDA-NCI蛋白質(zhì)組項目數(shù)據(jù)庫中的蛋白質(zhì)組公共數(shù)據(jù)集，包括SELDI-TOF-MS高分辨質(zhì)譜技術(shù)平臺采集的80例轉(zhuǎn)基因?qū)Ч芤认侔┬∈笱鍢颖竞?01例年齡相仿的正常小鼠血清樣本蛋白質(zhì)組數(shù)據(jù)，使用質(zhì)荷比(掃描范圍為800～11 992.91 Da)及對應(yīng)蛋白質(zhì)的峰面積作為特征變量，共6 771個變量[11](http://home.ccr.cancer.gov/ncifdaproteomics/ppat-terns.asp)。

2.3 數(shù)據(jù)預(yù)處理

組學(xué)數(shù)據(jù)十分復(fù)雜，噪音信號多，有時還有缺失值，因此其預(yù)處理非常重要。由于該數(shù)據(jù)集已進行譜峰的質(zhì)荷比(m/z)校準(zhǔn)，本研究首先對數(shù)據(jù)進行歸一化、中心化和標(biāo)度化等預(yù)處理，調(diào)整樣本間基線偏差，消除儀器不穩(wěn)定，以及各峰間由于峰面積數(shù)值存在較大差異對分析結(jié)果的影響。在本文中數(shù)據(jù)預(yù)處理以及后續(xù)所有數(shù)據(jù)統(tǒng)計處理均在R語言(版本：3.6.1)數(shù)據(jù)處理平臺完成[12]。

2.4 分類器與降維技術(shù)相結(jié)合的分類模型

參考相關(guān)文獻[10]及本研究數(shù)據(jù)初步分析結(jié)果，選取PLS作為降維方法。提取PLS不同數(shù)量的主成分與LDA等9種分類器組成結(jié)合式分類器。在本研究中，機器學(xué)習(xí)算法均采用R語言軟件包完成，SVM使用的是“e1071”軟件包(版本：1.7-0.1)；PLS使用的是“mixOmics”軟件包(版本：6.3.2)；BAGGING和RF使用的是“randomForest”軟件包(版本：4.6-14)；ANN使用的是“nnet”軟件包(版本：7.3-12)；DT使用的是“tree”軟件包(版本：1.0-39)；LDA和QDA使用的是“MASS”軟件包(版本：7.3-5)。LR用R語言“glm”函數(shù)完成。

2.5 模型預(yù)測能力評價

對模型預(yù)測效果用準(zhǔn)確率(Accuracy)、精密度(Precision)、召回率(Recall)、AUC、F1值進行評價。

3 結(jié)果與分析

3.1 各結(jié)合式分類器的分類準(zhǔn)確率

首先采用PLS和PCA方法選取20個主成分對數(shù)據(jù)集進行降維以初步觀察數(shù)據(jù)，得出各主成分的累計方差貢獻率，見圖1。PCA第1主成分即可解釋原始變量約95%的方差，這表明各自變量間相關(guān)性較大；PLS第1主成分可解釋自變量和因變量大約50%的方差。通過10折交叉驗證得出，選擇25個主成分時PLS的判別分析(PLS-DA)正確率為67%，這與原始數(shù)據(jù)集的變量數(shù)目太大及與分類不相關(guān)的干擾因素較多有關(guān)。參考PLS對方差的解釋能力，見圖1，選取PLS的前5、15及25個主成分構(gòu)建結(jié)合式分類器，PLS-LDA、PLS-LR、PLS-QDA、PLS-ANN、PLS-SVM的分類效果較好。使用25個主成分時，其分類正確率分別為100%、100%、99%、96%和96%，隨著主成分數(shù)目的增加其分類準(zhǔn)確性也增加。PLS-RF、PLS-BAGGING、PLS-DT和PLS-KNN的分類效果不理想，當(dāng)主成分數(shù)目增大時，其分類準(zhǔn)確率不僅沒有提高，反而下降，見圖2。將PLS-LR、PLS-LDA、PLS-ANN、PLS-SVM、PLS-QDA幾種分類器以多數(shù)投票表決法構(gòu)建集合式分類器(PLS-RES)，考察其分類準(zhǔn)確性和主成分數(shù)目的關(guān)系，PLS-RES在使用15個主成分時分類準(zhǔn)確度即可達到100%，見圖3。

圖1 PCA(A)及 PLS(B)提取的前20個主成分的方差貢獻率和累積方差貢獻率

圖2 10種分類器在主成分為5(10PCs)、15(15PCs)和25(20PCs)時的分類準(zhǔn)確率

圖3 采用不同主成分數(shù)時5種結(jié)合模型的分類正確率

3.2 模型預(yù)測指標(biāo)的評價

當(dāng)主成分數(shù)為5、10、20時PLS-ANN等5種分類器的5種評價指標(biāo)預(yù)測值，見表1。當(dāng)主成分數(shù)目為2和10時5種分類器各評價指標(biāo)預(yù)測值，見圖4。當(dāng)預(yù)測正確率接近100%時，5種評價指標(biāo)的差別不大。當(dāng)預(yù)測正確率逐漸降低時F1值和召回率顯著下降。選擇5個主成分時QDA的預(yù)測正確率為51%，其F1值和召回率分別僅為19%和12%。

表1 主成分數(shù)為5、10和20時各分類器5種評價指標(biāo)的預(yù)測值(%)

圖4 主成分數(shù)目為2(A)時和10(B)時5種結(jié)合分類器各評價指標(biāo)的預(yù)測值

3.3 潛在生物標(biāo)志物篩選

當(dāng)主成分數(shù)為20時采用PLS-DA結(jié)合模型，篩選得到前20個主成分的VIP均值>1且t檢驗P<0.05的變量(潛在生物標(biāo)志物)105個，見表2。本研究主要目的是構(gòu)建一種處理多維數(shù)據(jù)的結(jié)合式算法以對不同生理功能的生物樣本進行分類，因此篩選出的潛在生物標(biāo)志物為何種蛋白質(zhì)及其具有何種生物學(xué)功能需要進一步鑒定和分析。

表2 通過PLS-DA結(jié)合模型篩選出的潛在生物標(biāo)志物信息(部分)

4 結(jié)語

研究[11]發(fā)現(xiàn)，KRASG12D基因表達與成年(9周齡)小鼠侵入性胰腺導(dǎo)管癌密切相關(guān)，攜帶該致癌基因的小鼠成年后全部患癌。本研究中的數(shù)據(jù)集為攜帶KRASG12D基因的幼年(5周齡)轉(zhuǎn)基因小鼠及年齡相仿的正常對照組小鼠血清蛋白質(zhì)組學(xué)數(shù)據(jù)。采用本研究建立的結(jié)合式分類器在癌癥未發(fā)病時即可將攜癌基因幼年小鼠與正常對照組加以區(qū)分，表明本研究具有較大潛在應(yīng)用價值。在對本研究中數(shù)據(jù)集進行PCA分析時發(fā)現(xiàn)各變量之間具有較高相關(guān)性，當(dāng)變量之間高度相關(guān)時PLS的分類準(zhǔn)確性明顯優(yōu)于PCA[9]。此外有研究[13]發(fā)現(xiàn)，當(dāng)變量之間相關(guān)性較高時，基于特征提取的SVM比單獨使用SVM的分類效果好，這與本研究結(jié)果一致。本研究建立的方法也可用于基于光譜[9]、色譜、基因組、代謝組、影像等高維數(shù)據(jù)及包括少數(shù)幾種臨床診斷指標(biāo)的低維數(shù)據(jù)的腫瘤輔助診斷。低維數(shù)據(jù)可不降維直接進行分類。此外本研究提出的潛在生物標(biāo)志物的篩選方法有助于通過測定少數(shù)指標(biāo)即可對腫瘤進行早期診斷。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡