馮 利 岳小飛
(國家開放大學(xué)醫(yī)藥學(xué)院 北京 100039) (北京康復(fù)醫(yī)院藥劑科 北京 100144)
近年來組學(xué)技術(shù)如基因組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)迅速發(fā)展。醫(yī)學(xué)工作者可將組學(xué)、患者臨床診斷及影像學(xué)等數(shù)據(jù)整合以提高疾病診斷的準(zhǔn)確性,特別是惡性腫瘤等重大疾病[1]。雖然惡性腫瘤診斷方法發(fā)展迅速[2],但其早期診斷仍較困難。組學(xué)可從系統(tǒng)、整體水平捕捉機體在疾病早期的生理、病理變化,為惡性腫瘤早期診斷提供重要參考依據(jù)[3-4]。組學(xué)數(shù)據(jù)通常變量數(shù)目多、樣本量少,這給數(shù)據(jù)分析帶來較大挑戰(zhàn)。多元統(tǒng)計分析方法及機器學(xué)習(xí)算法因具有強大的數(shù)據(jù)分析處理能力,在支持臨床決策及尋找早期診斷生物標(biāo)志物方面發(fā)揮了越來越重要的作用[5-8]。
本研究首先將原始數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集(約為全部數(shù)據(jù)的1/10)和測試數(shù)據(jù)集(約為全部數(shù)據(jù)的9/10)。先采用訓(xùn)練數(shù)據(jù)集建立數(shù)據(jù)處理模型,即通過偏最小二乘法(Partial Least Squares,PLS)降維,提取不同數(shù)量主成分導(dǎo)入到線性判別分析(Linear Discriminant Analysis,LDA),K-最近鄰法(K-Nearest Neighbor,KNN),決策樹(Decision Tree,DT),支持向量機(Support Vector Machine,SVM),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),裝袋法(Bagging),隨機森林(Random Forest,RF),二次判別分析(Quadratic Discriminant Analysis,QDA)及邏輯回歸(Logistic Regression,LR)9種分類器中對數(shù)據(jù)進行分類,采用10折交叉驗證法優(yōu)化各分類器參數(shù)及防止模型過度擬合,使之達到最佳分類效果,采用預(yù)測準(zhǔn)確率等指標(biāo)對其分類效果進行評價并將表現(xiàn)較好的幾種分類器組成集合式分類器。此外對潛在生物標(biāo)志物進行初步篩選。
PCA和PLS是兩種常用的降維方法[9]。二者均通過對多變量數(shù)據(jù)信息調(diào)整組合提取少量綜合變量來解釋原數(shù)據(jù)的大部分變異,當(dāng)組間變異在總變異中不占主導(dǎo)地位時,PLS分類效果往往比PCA更好[10]。此外PLS算法在處理高維、共線性、干擾強的數(shù)據(jù)時功能強大。SVM可處理分類及回歸問題,其泛化能力優(yōu)秀,但運算量較大。RF、Bagging和DT這3種方法較簡便,易于解釋和可視化,但有時預(yù)測準(zhǔn)確性不高。LR的特點是運算速度快、模型簡單、易于理解,可直接看到各個變量的權(quán)重。LDA和LR相似,二者的區(qū)別是決策邊界的估計方法不同。當(dāng)決策邊界高度非線性時,KNN預(yù)測結(jié)果常優(yōu)于LDA和LR。QDA使用二次決策邊界,當(dāng)數(shù)據(jù)集滿足高斯分布假設(shè)時,其預(yù)測結(jié)果常比KNN好。評價機器學(xué)習(xí)模型分類效果的常用指標(biāo)有準(zhǔn)確率、曲線下方面積(Area Under the Curve,AUC)值、召回率、精密度、F1值等。其中準(zhǔn)確率最常用,其缺點是當(dāng)兩組樣本數(shù)量相差太大時該指標(biāo)會失真。召回率是陽性樣本的檢出率。精密度是陽性樣本的預(yù)測準(zhǔn)確率。AUC值為受試者工作特征(Receiver Operating Characteristic,ROC)曲線下方面積,在兩組樣本數(shù)不平衡時該指標(biāo)更為客觀;F1值是召回率和精密度的調(diào)和平均值,能直觀評價模型對疾病患者的檢出率及檢測準(zhǔn)確性。在醫(yī)學(xué)研究中,除疾病診斷外還可通過計算PLS模型中每個自變量的VIP值來篩選與樣本類別密切相關(guān)的重要變量(潛在生物標(biāo)志物)。一般認為,VIP值大于1以及變量峰面積(峰高或表達量等)組間t檢驗或方差分析(Analysis of Variance,ANOVA)有顯著性差異(P<0.05)的變量才是較為可靠的潛在生物標(biāo)志物。
本研究使用美國FDA-NCI蛋白質(zhì)組項目數(shù)據(jù)庫中的蛋白質(zhì)組公共數(shù)據(jù)集,包括SELDI-TOF-MS高分辨質(zhì)譜技術(shù)平臺采集的80例轉(zhuǎn)基因?qū)Ч芤认侔┬∈笱鍢颖竞?01例年齡相仿的正常小鼠血清樣本蛋白質(zhì)組數(shù)據(jù),使用質(zhì)荷比(掃描范圍為800~11 992.91 Da)及對應(yīng)蛋白質(zhì)的峰面積作為特征變量,共6 771個變量[11](http://home.ccr.cancer.gov/ncifdaproteomics/ppat-terns.asp)。
組學(xué)數(shù)據(jù)十分復(fù)雜,噪音信號多,有時還有缺失值,因此其預(yù)處理非常重要。由于該數(shù)據(jù)集已進行譜峰的質(zhì)荷比(m/z)校準(zhǔn),本研究首先對數(shù)據(jù)進行歸一化、中心化和標(biāo)度化等預(yù)處理,調(diào)整樣本間基線偏差,消除儀器不穩(wěn)定,以及各峰間由于峰面積數(shù)值存在較大差異對分析結(jié)果的影響。在本文中數(shù)據(jù)預(yù)處理以及后續(xù)所有數(shù)據(jù)統(tǒng)計處理均在R語言(版本:3.6.1)數(shù)據(jù)處理平臺完成[12]。
參考相關(guān)文獻[10]及本研究數(shù)據(jù)初步分析結(jié)果,選取PLS作為降維方法。提取PLS不同數(shù)量的主成分與LDA等9種分類器組成結(jié)合式分類器。在本研究中,機器學(xué)習(xí)算法均采用R語言軟件包完成,SVM使用的是“e1071”軟件包(版本:1.7-0.1);PLS使用的是“mixOmics”軟件包(版本:6.3.2);BAGGING和RF使用的是“randomForest”軟件包(版本:4.6-14);ANN使用的是“nnet”軟件包(版本:7.3-12);DT使用的是“tree”軟件包(版本:1.0-39);LDA和QDA使用的是“MASS”軟件包(版本:7.3-5)。LR用R語言“glm”函數(shù)完成。
對模型預(yù)測效果用準(zhǔn)確率(Accuracy)、精密度(Precision)、召回率(Recall)、AUC、F1值進行評價。
首先采用PLS和PCA方法選取20個主成分對數(shù)據(jù)集進行降維以初步觀察數(shù)據(jù),得出各主成分的累計方差貢獻率,見圖1。PCA第1主成分即可解釋原始變量約95%的方差,這表明各自變量間相關(guān)性較大;PLS第1主成分可解釋自變量和因變量大約50%的方差。通過10折交叉驗證得出,選擇25個主成分時PLS的判別分析(PLS-DA)正確率為67%,這與原始數(shù)據(jù)集的變量數(shù)目太大及與分類不相關(guān)的干擾因素較多有關(guān)。參考PLS對方差的解釋能力,見圖1,選取PLS的前5、15及25個主成分構(gòu)建結(jié)合式分類器,PLS-LDA、PLS-LR、PLS-QDA、PLS-ANN、PLS-SVM的分類效果較好。使用25個主成分時,其分類正確率分別為100%、100%、99%、96%和96%,隨著主成分數(shù)目的增加其分類準(zhǔn)確性也增加。PLS-RF、PLS-BAGGING、PLS-DT和PLS-KNN的分類效果不理想,當(dāng)主成分數(shù)目增大時,其分類準(zhǔn)確率不僅沒有提高,反而下降,見圖2。將PLS-LR、PLS-LDA、PLS-ANN、PLS-SVM、PLS-QDA幾種分類器以多數(shù)投票表決法構(gòu)建集合式分類器(PLS-RES),考察其分類準(zhǔn)確性和主成分數(shù)目的關(guān)系,PLS-RES在使用15個主成分時分類準(zhǔn)確度即可達到100%,見圖3。
圖1 PCA(A)及 PLS(B)提取的前20個主成分的方差貢獻率和累積方差貢獻率
圖2 10種分類器在主成分為5(10PCs)、15(15PCs)和25(20PCs)時的分類準(zhǔn)確率
圖3 采用不同主成分數(shù)時5種結(jié)合模型的分類正確率
當(dāng)主成分數(shù)為5、10、20時PLS-ANN等5種分類器的5種評價指標(biāo)預(yù)測值,見表1。當(dāng)主成分數(shù)目為2和10時5種分類器各評價指標(biāo)預(yù)測值,見圖4。當(dāng)預(yù)測正確率接近100%時,5種評價指標(biāo)的差別不大。當(dāng)預(yù)測正確率逐漸降低時F1值和召回率顯著下降。選擇5個主成分時QDA的預(yù)測正確率為51%,其F1值和召回率分別僅為19%和12%。
表1 主成分數(shù)為5、10和20時各分類器5種評價指標(biāo)的預(yù)測值(%)
圖4 主成分數(shù)目為2(A)時和10(B)時5種結(jié)合分類器各評價指標(biāo)的預(yù)測值
當(dāng)主成分數(shù)為20時采用PLS-DA結(jié)合模型,篩選得到前20個主成分的VIP均值>1且t檢驗P<0.05的變量(潛在生物標(biāo)志物)105個,見表2。本研究主要目的是構(gòu)建一種處理多維數(shù)據(jù)的結(jié)合式算法以對不同生理功能的生物樣本進行分類,因此篩選出的潛在生物標(biāo)志物為何種蛋白質(zhì)及其具有何種生物學(xué)功能需要進一步鑒定和分析。
表2 通過PLS-DA結(jié)合模型篩選出的潛在生物標(biāo)志物信息(部分)
研究[11]發(fā)現(xiàn),KRASG12D基因表達與成年(9周齡)小鼠侵入性胰腺導(dǎo)管癌密切相關(guān),攜帶該致癌基因的小鼠成年后全部患癌。本研究中的數(shù)據(jù)集為攜帶KRASG12D基因的幼年(5周齡)轉(zhuǎn)基因小鼠及年齡相仿的正常對照組小鼠血清蛋白質(zhì)組學(xué)數(shù)據(jù)。采用本研究建立的結(jié)合式分類器在癌癥未發(fā)病時即可將攜癌基因幼年小鼠與正常對照組加以區(qū)分,表明本研究具有較大潛在應(yīng)用價值。在對本研究中數(shù)據(jù)集進行PCA分析時發(fā)現(xiàn)各變量之間具有較高相關(guān)性,當(dāng)變量之間高度相關(guān)時PLS的分類準(zhǔn)確性明顯優(yōu)于PCA[9]。此外有研究[13]發(fā)現(xiàn),當(dāng)變量之間相關(guān)性較高時,基于特征提取的SVM比單獨使用SVM的分類效果好,這與本研究結(jié)果一致。本研究建立的方法也可用于基于光譜[9]、色譜、基因組、代謝組、影像等高維數(shù)據(jù)及包括少數(shù)幾種臨床診斷指標(biāo)的低維數(shù)據(jù)的腫瘤輔助診斷。低維數(shù)據(jù)可不降維直接進行分類。此外本研究提出的潛在生物標(biāo)志物的篩選方法有助于通過測定少數(shù)指標(biāo)即可對腫瘤進行早期診斷。