何文君,石張鎮(zhèn),胡南均,孫延霞
(吉林大學中日聯(lián)誼醫(yī)院 血液腫瘤科,吉林 長春130033)
急性髓系白血病(AML)是一種骨髓造血干/祖細胞的惡性克隆性疾病,其主要特征是骨髓和外周血中原始和未成熟的骨髓細胞發(fā)育不良。多數(shù)情況下病情急、重,預后差,不及時治療可能危及生命[1]。盡管已經(jīng)進行了廣泛的研究來識別和發(fā)現(xiàn)預后標記,但AML的死亡率仍然很高。近幾十年來,大量研究表明許多基因突變和基因異常表達與AML的預后密切相關(guān)。已經(jīng)報道的具有預后意義的突變基因包括FLT3、KIT、CEBPA、N-RAS、FES、FOS、GATA-1、JUN B、MPL、MYC、p53、PU.1、RB、WT1、RUNX1、WNT、NPM1、CBF、RAR-α、HOX、MLL[2-4]。目前臨床實踐中廣泛使用NPM1、WT1、CEBPA和FLT3突變來評估AML危險分層及指導治療[5],但是很多病例不存在上述基因突變,所以這些患者很難被準確評估其預后。最近的研究表明,新的AML生物標志物的識別有助于更好地理解疾病的分子基礎(chǔ),對AML的篩查、診斷、預后和監(jiān)測以及評估個體治療反應(yīng)都非常有益[4]。因此,迫切需要探索新的準確的生物標志物來改善AML風險分層,評估預后。本研究基于對AML患者基因表達譜的數(shù)據(jù)分析,運用機器學習算法,構(gòu)建了AML 1年預后生存模型。
首先,從GDC(Genomic Data Commons)的外部鏈接Broad Firehose數(shù)據(jù)庫(Firehose數(shù)據(jù)庫中AML項目源于美國麻省理工學院和哈佛大學研究所共建的Broadinstitute運行的GDAC,提供較為完善的以TCGA數(shù)據(jù)為基礎(chǔ)的各類信息檢索)中下載關(guān)于AML患者的臨床及轉(zhuǎn)錄組數(shù)據(jù),篩選出符合要求的生存期及mRNA測序數(shù)據(jù)的病歷共163例,病例截止時間為2016年1月28日。
基于R語言對上述數(shù)據(jù)集進行預處理:以生存期1年為界限將163例患者分為≥1年生存期、<1年生存期兩組,根據(jù)表達量對基因進行過濾,過濾掉低表達量的基因,本研究自定義該閾值為表達量為0的值≥10個的基因,并形成數(shù)據(jù)矩陣。利用R語言的DESeq程序包,以|log2FoldChange|>1.0,調(diào)整后P值<0.05作為篩選條件,鑒別差異表達基因(DEGs)。
篩選|log2FoldChange|≥1.4,校正后P值<0.05的差異表達基因共20個(表1),利用基于R語言的Rattle包,首先將20個差異表達基因數(shù)集進行背景矯正和歸一化處理,原始測序數(shù)據(jù)經(jīng)過[0,1]轉(zhuǎn)換,將163名患者以7∶3比例分為訓練集和內(nèi)部驗證集,構(gòu)建決策樹、RF、Boost、SVM、線性邏輯回歸、ANN生存分析模型,利用受試者工作特征曲線(ROC)評估模型預測預后能力,并進行內(nèi)部數(shù)據(jù)驗證,從而篩選出AUC值最高的Boost模型作為最理想的預后模型。
通過使用R語言DESeq程序包對數(shù)據(jù)集進行差異基因識別,以校正后P值<0.05,|log2FoldChange|≥1.4作為篩選標準,結(jié)果共發(fā)現(xiàn)20個差異表達基因。其中,表達水平上調(diào)的基因5個(EBF4、MTUS2、NT5E、AEF2、IGDCC4),表達水平下調(diào)的基因15個(ADAMTS2、TRPM4、PACSIN1、CACNG4、SPON1、CCDC3、C10orf72、MAOA、ESPN、CIQA、LILRA4、UBXN10、LIF、WDR86、PEG10)。差異表達基因的情況見表1。
表1 差異表達基因
機器學習模型對訓練集學習其規(guī)律后,對驗證集進行預測,從而評價決策樹、RF、Boost、SVM、線性回歸、ANN預測準確率。決策樹的AUC值為0.63,RF的AUC值為0.72,Boost的AUC值為0.75,SVM的AUC值為0.72,線性回歸的AUC值為0.71,ANN的AUC值為0.66。經(jīng)ROC曲線評判,結(jié)果顯示Boost對AML患者1年生存情況的預測效果更佳,詳情見圖1-6,6種預后模型預測能力對比見表2。
AML是一種異質(zhì)性血液系統(tǒng)惡性腫瘤,死亡率高,預后較差,遺傳學和表觀遺傳學異常在其發(fā)病的不同階段、疾病預后和臨床特點等方面起著至關(guān)重要的作用。因此,研究AML遺傳學和表觀遺傳學異常、全面認識發(fā)病機制、探索新的預后基因是目前亟待解決的問題。
圖1 決策樹預測模型ROC曲線 圖2 RF預測模型ROC曲線 圖3 Boost預測模型ROC曲線
圖4 SVM預測模型ROC曲線 圖5 線性回歸預測模型ROC曲線 圖6 ANN預測模型ROC曲線
表2 6種預后模型預測能力對比
一項納入200例確診為AML患者的TCGA-AML子研究通過全基因組(50例)、全外顯子測序(150例),以及RNA和miRNA測序和DNA甲基化分析,發(fā)現(xiàn)幾乎所有樣本在與發(fā)病機制有關(guān)的九類基因中至少有1個顯著突變,包括:轉(zhuǎn)錄因子融合、NPM1基因、腫瘤抑制基因、DNA甲基化相關(guān)基因、信號基因、染色質(zhì)修飾基因、髓樣轉(zhuǎn)錄因子基因、內(nèi)聚蛋白復合物基因和剪接體復合物基因,這些基因突變與患者預后密切相關(guān)[6]。而近年來的研究表明,影響患者預后的因素除了與患者的一般臨床資料、治療方案、染色體異常、表觀遺傳因子突變、DNA甲基化、組蛋白翻譯后修飾、miRNA、蛋白質(zhì)組學等相關(guān)外[4],基因表達量也可作為AML患者預后的標志。一項210名接受強化化療的細胞遺傳學正常患者的隊列研究表明,ERG基因高表達與較低的完全緩解率(CRs),較短的中位無進展生存期(PFS)相關(guān),高ERG表達水平是一種負性預測因子[7]。一項回顧性研究表明,骨髓中SET基因表達水平與AML發(fā)病及其預后有顯著相關(guān)性,SET基因高表達組中位總生存期 (OS)、PFS明顯低于低表達組[8]。最近一項納入111例正常核型AML患者的研究表明,BAALC和(或)MN1基因高表達組預后不佳,CRs降低,BAALC和MN1表達水平可用于更精確的正常核型AML患者的風險分層,特別是 FLT3-ITD-/NPM1-的患者,可將中間風險組轉(zhuǎn)變?yōu)轭A后不佳組[9]。
隨著大規(guī)?;蚪M學測序的興起,機器學習(ML)算法越來越多地被應(yīng)用到基因表達分析中,目的是對腫瘤進行分類,預測生存,確定治療目標,并根據(jù)功能對基因進行分類[10-13]。近年興起的機器學習算法,如基于統(tǒng)計學習理論的決策樹、RF、SVM、線性回歸、ANN適用于高維數(shù)據(jù)的分析,可以得到具有較好泛化能力的預測模型。董華等人使用機器學習中的決策樹算法實現(xiàn)了對三陰性乳腺癌的預測,預測模型的準確率達95.5%[14]。Luan等人使用支持向量機對乳腺癌患者進行智能決策,該實驗表明支持向量機在該疾病的診斷中效果良好[15]。Boost是一種通過累加弱模型來產(chǎn)生一個強模型的機器學習方法,他是通過不斷消除殘差來提高模型精度,著重優(yōu)化了兩個不同的方面:偏差 (Bias)和方差(Variance),能夠很靈活地擬合各種復雜的訓練樣本。一項預測668例顱內(nèi)腫瘤手術(shù)24小時內(nèi)發(fā)生早期術(shù)后并發(fā)癥的研究表明,應(yīng)用梯度Boost機器學習算法,可以創(chuàng)建一個優(yōu)于傳統(tǒng)統(tǒng)計方法的預測模型[16]。
本課題組前期已經(jīng)完成人工神經(jīng)網(wǎng)絡(luò)建立術(shù)前判斷進展期胃癌淋巴結(jié)轉(zhuǎn)移的診斷模型,其優(yōu)于傳統(tǒng)的Logistic多元回歸分析,有望幫助相關(guān)科室提高判斷淋巴結(jié)轉(zhuǎn)移的準確率[17]。本研究以AML為研究對象,利用Firehose數(shù)據(jù)庫數(shù)據(jù)進行差異基因表達分析。通過分析,篩選出20個基因為預后相關(guān)基因構(gòu)建AML預后預測模型,Boost模型AUC值0.7534,能較準確的通過基因表達水平預測AML預后,盡管本研究僅基于基因表達量,通過生物信息學分析角度研究急性髓系白血病潛在的預后標志物,但仍然為急性髓系白血病的進一步危險分層及預后評估提供了新的思路,希望在以后的工作中進行多組學分析建模,更加精準地判斷和評估AML預后。