国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

9種結(jié)合式機器學(xué)習(xí)算法在腫瘤早期診斷中的準(zhǔn)確性比較研究

2022-08-04 00:39:44岳小飛
關(guān)鍵詞:組學(xué)分類器標(biāo)志物

馮 利 岳小飛

(國家開放大學(xué)醫(yī)藥學(xué)院 北京 100039) (北京康復(fù)醫(yī)院藥劑科 北京 100144)

1 引言

1.1 研究背景

近年來組學(xué)技術(shù)如基因組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)迅速發(fā)展。醫(yī)學(xué)工作者可將組學(xué)、患者臨床診斷及影像學(xué)等數(shù)據(jù)整合以提高疾病診斷的準(zhǔn)確性,特別是惡性腫瘤等重大疾病[1]。雖然惡性腫瘤診斷方法發(fā)展迅速[2],但其早期診斷仍較困難。組學(xué)可從系統(tǒng)、整體水平捕捉機體在疾病早期的生理、病理變化,為惡性腫瘤早期診斷提供重要參考依據(jù)[3-4]。組學(xué)數(shù)據(jù)通常變量數(shù)目多、樣本量少,這給數(shù)據(jù)分析帶來較大挑戰(zhàn)。多元統(tǒng)計分析方法及機器學(xué)習(xí)算法因具有強大的數(shù)據(jù)分析處理能力,在支持臨床決策及尋找早期診斷生物標(biāo)志物方面發(fā)揮了越來越重要的作用[5-8]。

1.2 研究內(nèi)容

本研究首先將原始數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集(約為全部數(shù)據(jù)的1/10)和測試數(shù)據(jù)集(約為全部數(shù)據(jù)的9/10)。先采用訓(xùn)練數(shù)據(jù)集建立數(shù)據(jù)處理模型,即通過偏最小二乘法(Partial Least Squares,PLS)降維,提取不同數(shù)量主成分導(dǎo)入到線性判別分析(Linear Discriminant Analysis,LDA),K-最近鄰法(K-Nearest Neighbor,KNN),決策樹(Decision Tree,DT),支持向量機(Support Vector Machine,SVM),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),裝袋法(Bagging),隨機森林(Random Forest,RF),二次判別分析(Quadratic Discriminant Analysis,QDA)及邏輯回歸(Logistic Regression,LR)9種分類器中對數(shù)據(jù)進行分類,采用10折交叉驗證法優(yōu)化各分類器參數(shù)及防止模型過度擬合,使之達到最佳分類效果,采用預(yù)測準(zhǔn)確率等指標(biāo)對其分類效果進行評價并將表現(xiàn)較好的幾種分類器組成集合式分類器。此外對潛在生物標(biāo)志物進行初步篩選。

2 原理與方法

2.1 基本原理

PCA和PLS是兩種常用的降維方法[9]。二者均通過對多變量數(shù)據(jù)信息調(diào)整組合提取少量綜合變量來解釋原數(shù)據(jù)的大部分變異,當(dāng)組間變異在總變異中不占主導(dǎo)地位時,PLS分類效果往往比PCA更好[10]。此外PLS算法在處理高維、共線性、干擾強的數(shù)據(jù)時功能強大。SVM可處理分類及回歸問題,其泛化能力優(yōu)秀,但運算量較大。RF、Bagging和DT這3種方法較簡便,易于解釋和可視化,但有時預(yù)測準(zhǔn)確性不高。LR的特點是運算速度快、模型簡單、易于理解,可直接看到各個變量的權(quán)重。LDA和LR相似,二者的區(qū)別是決策邊界的估計方法不同。當(dāng)決策邊界高度非線性時,KNN預(yù)測結(jié)果常優(yōu)于LDA和LR。QDA使用二次決策邊界,當(dāng)數(shù)據(jù)集滿足高斯分布假設(shè)時,其預(yù)測結(jié)果常比KNN好。評價機器學(xué)習(xí)模型分類效果的常用指標(biāo)有準(zhǔn)確率、曲線下方面積(Area Under the Curve,AUC)值、召回率、精密度、F1值等。其中準(zhǔn)確率最常用,其缺點是當(dāng)兩組樣本數(shù)量相差太大時該指標(biāo)會失真。召回率是陽性樣本的檢出率。精密度是陽性樣本的預(yù)測準(zhǔn)確率。AUC值為受試者工作特征(Receiver Operating Characteristic,ROC)曲線下方面積,在兩組樣本數(shù)不平衡時該指標(biāo)更為客觀;F1值是召回率和精密度的調(diào)和平均值,能直觀評價模型對疾病患者的檢出率及檢測準(zhǔn)確性。在醫(yī)學(xué)研究中,除疾病診斷外還可通過計算PLS模型中每個自變量的VIP值來篩選與樣本類別密切相關(guān)的重要變量(潛在生物標(biāo)志物)。一般認為,VIP值大于1以及變量峰面積(峰高或表達量等)組間t檢驗或方差分析(Analysis of Variance,ANOVA)有顯著性差異(P<0.05)的變量才是較為可靠的潛在生物標(biāo)志物。

2.2 數(shù)據(jù)集

本研究使用美國FDA-NCI蛋白質(zhì)組項目數(shù)據(jù)庫中的蛋白質(zhì)組公共數(shù)據(jù)集,包括SELDI-TOF-MS高分辨質(zhì)譜技術(shù)平臺采集的80例轉(zhuǎn)基因?qū)Ч芤认侔┬∈笱鍢颖竞?01例年齡相仿的正常小鼠血清樣本蛋白質(zhì)組數(shù)據(jù),使用質(zhì)荷比(掃描范圍為800~11 992.91 Da)及對應(yīng)蛋白質(zhì)的峰面積作為特征變量,共6 771個變量[11](http://home.ccr.cancer.gov/ncifdaproteomics/ppat-terns.asp)。

2.3 數(shù)據(jù)預(yù)處理

組學(xué)數(shù)據(jù)十分復(fù)雜,噪音信號多,有時還有缺失值,因此其預(yù)處理非常重要。由于該數(shù)據(jù)集已進行譜峰的質(zhì)荷比(m/z)校準(zhǔn),本研究首先對數(shù)據(jù)進行歸一化、中心化和標(biāo)度化等預(yù)處理,調(diào)整樣本間基線偏差,消除儀器不穩(wěn)定,以及各峰間由于峰面積數(shù)值存在較大差異對分析結(jié)果的影響。在本文中數(shù)據(jù)預(yù)處理以及后續(xù)所有數(shù)據(jù)統(tǒng)計處理均在R語言(版本:3.6.1)數(shù)據(jù)處理平臺完成[12]。

2.4 分類器與降維技術(shù)相結(jié)合的分類模型

參考相關(guān)文獻[10]及本研究數(shù)據(jù)初步分析結(jié)果,選取PLS作為降維方法。提取PLS不同數(shù)量的主成分與LDA等9種分類器組成結(jié)合式分類器。在本研究中,機器學(xué)習(xí)算法均采用R語言軟件包完成,SVM使用的是“e1071”軟件包(版本:1.7-0.1);PLS使用的是“mixOmics”軟件包(版本:6.3.2);BAGGING和RF使用的是“randomForest”軟件包(版本:4.6-14);ANN使用的是“nnet”軟件包(版本:7.3-12);DT使用的是“tree”軟件包(版本:1.0-39);LDA和QDA使用的是“MASS”軟件包(版本:7.3-5)。LR用R語言“glm”函數(shù)完成。

2.5 模型預(yù)測能力評價

對模型預(yù)測效果用準(zhǔn)確率(Accuracy)、精密度(Precision)、召回率(Recall)、AUC、F1值進行評價。

3 結(jié)果與分析

3.1 各結(jié)合式分類器的分類準(zhǔn)確率

首先采用PLS和PCA方法選取20個主成分對數(shù)據(jù)集進行降維以初步觀察數(shù)據(jù),得出各主成分的累計方差貢獻率,見圖1。PCA第1主成分即可解釋原始變量約95%的方差,這表明各自變量間相關(guān)性較大;PLS第1主成分可解釋自變量和因變量大約50%的方差。通過10折交叉驗證得出,選擇25個主成分時PLS的判別分析(PLS-DA)正確率為67%,這與原始數(shù)據(jù)集的變量數(shù)目太大及與分類不相關(guān)的干擾因素較多有關(guān)。參考PLS對方差的解釋能力,見圖1,選取PLS的前5、15及25個主成分構(gòu)建結(jié)合式分類器,PLS-LDA、PLS-LR、PLS-QDA、PLS-ANN、PLS-SVM的分類效果較好。使用25個主成分時,其分類正確率分別為100%、100%、99%、96%和96%,隨著主成分數(shù)目的增加其分類準(zhǔn)確性也增加。PLS-RF、PLS-BAGGING、PLS-DT和PLS-KNN的分類效果不理想,當(dāng)主成分數(shù)目增大時,其分類準(zhǔn)確率不僅沒有提高,反而下降,見圖2。將PLS-LR、PLS-LDA、PLS-ANN、PLS-SVM、PLS-QDA幾種分類器以多數(shù)投票表決法構(gòu)建集合式分類器(PLS-RES),考察其分類準(zhǔn)確性和主成分數(shù)目的關(guān)系,PLS-RES在使用15個主成分時分類準(zhǔn)確度即可達到100%,見圖3。

圖1 PCA(A)及 PLS(B)提取的前20個主成分的方差貢獻率和累積方差貢獻率

圖2 10種分類器在主成分為5(10PCs)、15(15PCs)和25(20PCs)時的分類準(zhǔn)確率

圖3 采用不同主成分數(shù)時5種結(jié)合模型的分類正確率

3.2 模型預(yù)測指標(biāo)的評價

當(dāng)主成分數(shù)為5、10、20時PLS-ANN等5種分類器的5種評價指標(biāo)預(yù)測值,見表1。當(dāng)主成分數(shù)目為2和10時5種分類器各評價指標(biāo)預(yù)測值,見圖4。當(dāng)預(yù)測正確率接近100%時,5種評價指標(biāo)的差別不大。當(dāng)預(yù)測正確率逐漸降低時F1值和召回率顯著下降。選擇5個主成分時QDA的預(yù)測正確率為51%,其F1值和召回率分別僅為19%和12%。

表1 主成分數(shù)為5、10和20時各分類器5種評價指標(biāo)的預(yù)測值(%)

圖4 主成分數(shù)目為2(A)時和10(B)時5種結(jié)合分類器各評價指標(biāo)的預(yù)測值

3.3 潛在生物標(biāo)志物篩選

當(dāng)主成分數(shù)為20時采用PLS-DA結(jié)合模型,篩選得到前20個主成分的VIP均值>1且t檢驗P<0.05的變量(潛在生物標(biāo)志物)105個,見表2。本研究主要目的是構(gòu)建一種處理多維數(shù)據(jù)的結(jié)合式算法以對不同生理功能的生物樣本進行分類,因此篩選出的潛在生物標(biāo)志物為何種蛋白質(zhì)及其具有何種生物學(xué)功能需要進一步鑒定和分析。

表2 通過PLS-DA結(jié)合模型篩選出的潛在生物標(biāo)志物信息(部分)

4 結(jié)語

研究[11]發(fā)現(xiàn),KRASG12D基因表達與成年(9周齡)小鼠侵入性胰腺導(dǎo)管癌密切相關(guān),攜帶該致癌基因的小鼠成年后全部患癌。本研究中的數(shù)據(jù)集為攜帶KRASG12D基因的幼年(5周齡)轉(zhuǎn)基因小鼠及年齡相仿的正常對照組小鼠血清蛋白質(zhì)組學(xué)數(shù)據(jù)。采用本研究建立的結(jié)合式分類器在癌癥未發(fā)病時即可將攜癌基因幼年小鼠與正常對照組加以區(qū)分,表明本研究具有較大潛在應(yīng)用價值。在對本研究中數(shù)據(jù)集進行PCA分析時發(fā)現(xiàn)各變量之間具有較高相關(guān)性,當(dāng)變量之間高度相關(guān)時PLS的分類準(zhǔn)確性明顯優(yōu)于PCA[9]。此外有研究[13]發(fā)現(xiàn),當(dāng)變量之間相關(guān)性較高時,基于特征提取的SVM比單獨使用SVM的分類效果好,這與本研究結(jié)果一致。本研究建立的方法也可用于基于光譜[9]、色譜、基因組、代謝組、影像等高維數(shù)據(jù)及包括少數(shù)幾種臨床診斷指標(biāo)的低維數(shù)據(jù)的腫瘤輔助診斷。低維數(shù)據(jù)可不降維直接進行分類。此外本研究提出的潛在生物標(biāo)志物的篩選方法有助于通過測定少數(shù)指標(biāo)即可對腫瘤進行早期診斷。

猜你喜歡
組學(xué)分類器標(biāo)志物
口腔代謝組學(xué)研究
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于UHPLC-Q-TOF/MS的歸身和歸尾補血機制的代謝組學(xué)初步研究
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
膿毒癥早期診斷標(biāo)志物的回顧及研究進展
冠狀動脈疾病的生物學(xué)標(biāo)志物
代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
腫瘤標(biāo)志物在消化系統(tǒng)腫瘤早期診斷中的應(yīng)用
MR-proANP:一種新型心力衰竭診斷標(biāo)志物
西乡县| 宝清县| 开平市| 通城县| 克东县| 桂平市| 河北省| 涡阳县| 陕西省| 桐柏县| 九龙城区| 浦东新区| 兴宁市| 武山县| 项城市| 武城县| 三门峡市| 邵阳市| 平果县| 黄梅县| 利津县| 大田县| 汾西县| 吕梁市| 清水县| 唐河县| 阿拉善盟| 阿尔山市| 安多县| 金湖县| 洛隆县| 伊春市| 新津县| 屏东市| 大安市| 余江县| 自治县| 武定县| 凤庆县| 海南省| 蓬溪县|