秦 璞 郭志旺 郭維恒 張 蕊 劉學(xué)慧 王立芹,△
【提 要】 目的 應(yīng)用隨機(jī)森林和支持向量機(jī)算法處理乳腺癌基因數(shù)據(jù),篩選三陰性和非三陰性乳腺癌的差異基因,為臨床應(yīng)用提供更多的參考靶點(diǎn)。方法 使用TCGA乳腺癌基因數(shù)據(jù),通過(guò)t檢驗(yàn)和隨機(jī)森林進(jìn)行降維處理,然后使用支持向量機(jī)、支持向量機(jī)遞歸特征消除法、隨機(jī)森林進(jìn)行變量重要性排序,將隨機(jī)森林和支持向量機(jī)與向前變量選擇法結(jié)合進(jìn)行模型預(yù)測(cè)并完成最終變量篩選,通過(guò)Holdout驗(yàn)證評(píng)價(jià)模型效果。結(jié)果 數(shù)據(jù)經(jīng)t檢驗(yàn)的FDR降維后剩余18702個(gè)基因,經(jīng)隨機(jī)森林降維后剩余6326個(gè)基因;對(duì)降維后經(jīng)三種方法排序的數(shù)據(jù)建立預(yù)測(cè)模型,獲得各模型約登指數(shù)等評(píng)價(jià)指標(biāo);對(duì)排序結(jié)果中靠前的基因進(jìn)行文獻(xiàn)搜索,發(fā)現(xiàn)大部分基因和三陰性乳腺癌的轉(zhuǎn)移或者預(yù)后有關(guān)。結(jié)論 針對(duì)高維基因表達(dá)數(shù)據(jù)進(jìn)行變量選擇,使用t檢驗(yàn)的FDR進(jìn)行降維、隨機(jī)森林對(duì)變量進(jìn)行排序篩選、支持向量機(jī)進(jìn)行預(yù)測(cè)效果最佳;通過(guò)檢索重要性排序靠前基因發(fā)現(xiàn)大多數(shù)與三陰性乳腺癌有關(guān),但某些靠前基因與三陰性乳腺癌無(wú)文獻(xiàn)研究,建議研究這些基因與三陰性乳腺癌的相關(guān)性。
隨著云計(jì)算、計(jì)算機(jī)智能存儲(chǔ)等技術(shù)的快速發(fā)展,海量高維數(shù)據(jù)已滲入到各個(gè)領(lǐng)域,在醫(yī)學(xué)研究中比較常見(jiàn)的高維數(shù)據(jù)就是基因表達(dá)數(shù)據(jù)。傳統(tǒng)統(tǒng)計(jì)方法難以對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行有效的處理分析,機(jī)器學(xué)習(xí)[1]是目前處理高維數(shù)據(jù)的主要方法,這類方法具有強(qiáng)大的特征識(shí)別、分類和預(yù)測(cè)的能力。通過(guò)機(jī)器學(xué)習(xí)的方法從基因表達(dá)數(shù)據(jù)中篩選出與疾病密切相關(guān)的基因,可指導(dǎo)基礎(chǔ)研究和臨床實(shí)踐,降低基礎(chǔ)研究費(fèi)用,便于研究靶向治療藥物,減輕患者痛苦,因此疾病相關(guān)基因的篩選對(duì)疾病的診斷和治療具有重要的現(xiàn)實(shí)意義[2-3]。
三陰性乳腺癌是指癌組織免疫組織化學(xué)檢查結(jié)果為雌激素受體、孕激素受體及人表皮生長(zhǎng)因子受體2均為陰性的乳腺癌,約占乳腺癌的20%左右[4-5],具有惡性程度高、侵襲能力強(qiáng)和易遠(yuǎn)處轉(zhuǎn)移等特點(diǎn),與其他類型的乳腺癌相比5年生存率更低[6-9]。本研究應(yīng)用隨機(jī)森林(random forest,RF)和支持向量機(jī)(support vector machine,SVM)處理三陰性乳腺癌患者和非三陰性乳腺癌患者的基因表達(dá)數(shù)據(jù),篩選與三陰性乳腺癌有關(guān)的基因并通過(guò)一些指標(biāo)組合進(jìn)行模型評(píng)價(jià),為臨床診斷、治療和基礎(chǔ)研究提供參考。
1.數(shù)據(jù)
使用癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數(shù)據(jù)庫(kù)的乳腺癌RNA-seq數(shù)據(jù),應(yīng)用GDC Data Transfer Tool軟件下載數(shù)據(jù)樣本,對(duì)數(shù)據(jù)進(jìn)行合并處理后,通過(guò)臨床數(shù)據(jù)癌組織免疫組織化學(xué)檢查結(jié)果可明確診斷為三陰性乳腺癌病人169例,非三陰性乳腺癌病人820例,共989個(gè)樣本,每個(gè)樣本測(cè)得60483個(gè)基因。
2.原理與方法
(1)隨機(jī)森林
(2)支持向量機(jī)
支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在小樣本含量條件下具有較好的推廣能力和良好的泛化能力[12]。支持向量機(jī)可以通過(guò)核函數(shù)將原本線性不可分的數(shù)據(jù)轉(zhuǎn)化為線性可分?jǐn)?shù)據(jù),本研究使用運(yùn)算速度較快的線性核。使用R3.5.1軟件中的“e1071”包進(jìn)行分析。
(3)遞歸特征消除算法(recursive feature elimination,RFE)
遞歸特征消除法的主要思想是反復(fù)的構(gòu)建模型,該方法是一個(gè)循環(huán)過(guò)程,每個(gè)過(guò)程都包含以下3個(gè)步驟:①用當(dāng)前數(shù)據(jù)集訓(xùn)練分類器,獲得與分類器特征相關(guān)的信息即每個(gè)特征的權(quán)重;②根據(jù)事先制定的規(guī)則,計(jì)算所有特征的排序準(zhǔn)則分?jǐn)?shù)ci;③在當(dāng)前數(shù)據(jù)集中移除對(duì)應(yīng)于最小排序準(zhǔn)則分?jǐn)?shù)的特征。該循環(huán)過(guò)程一直執(zhí)行到特征集合中剩余最后一個(gè)變量時(shí)結(jié)束,執(zhí)行的結(jié)果為獲得一列按照特征重要性排序的特征序號(hào)列表,這個(gè)迭代循環(huán)過(guò)程實(shí)際上是一個(gè)序列后向選擇的過(guò)程,它在整個(gè)循環(huán)過(guò)程中先是去除了與判別不相關(guān)的特征,保留了對(duì)判別相對(duì)重要的優(yōu)化特征子集,因而可以達(dá)到優(yōu)化特征子集選擇,提高判別精度的目的。
將支持向量機(jī)與RFE算法整合可有較好的變量篩選效果,即SVM-RFE,該算法是由Isabelle Guyon等人[13]于2002年提出的,即SVM-RFE。該算法利用SVM線性核模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,得到每個(gè)特征的權(quán)向量,然后遞歸地刪除秩最小的特征,并將其存儲(chǔ)在堆棧數(shù)據(jù)結(jié)構(gòu)中,迭代過(guò)程一直持續(xù)到最后一個(gè)特征保留下來(lái)。使用R3.5.1軟件中“sigFeature”包進(jìn)行分析。
(4)變量重要性
變量重要性就是每個(gè)變量對(duì)分類結(jié)果的影響,變量的重要性評(píng)分是用來(lái)衡量預(yù)測(cè)變量對(duì)結(jié)局變量影響大小的評(píng)價(jià)指標(biāo)。本研究隨機(jī)森林變量重要性采用的是基尼系數(shù)下降值,支持向量機(jī)采用的是判別函數(shù)系數(shù)值w2。
(5)假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)
FDR[14]是對(duì)一個(gè)多重假設(shè)檢驗(yàn)陽(yáng)性結(jié)果中誤差比例的度量。通常直接經(jīng)t檢驗(yàn)得到的P值,若不經(jīng)過(guò)矯正發(fā)現(xiàn)的差異表達(dá)基因,則會(huì)存在大量的“假陽(yáng)性”,而通過(guò)FDR矯正則會(huì)降低其中假陽(yáng)性的比例。使用R3.5.1軟件中“qvalue”包進(jìn)行分析。
(6)統(tǒng)計(jì)分析方法
本研究基因表達(dá)數(shù)據(jù)有60483個(gè)基因,若使用全部基因建模,很多模型會(huì)出現(xiàn)高維失效,導(dǎo)致模型效果較差或者無(wú)法求解,因此對(duì)數(shù)據(jù)進(jìn)行降維處理。最常用的降維方法為t-FDR,即對(duì)t檢驗(yàn)得到的P值進(jìn)行FDR多重校正,刪除無(wú)統(tǒng)計(jì)學(xué)意義的基因。本研究還使用隨機(jī)森林進(jìn)行降維,計(jì)算每個(gè)變量基尼系數(shù)下降值和所有變量基尼系數(shù)下降值的均值,刪除基尼系數(shù)下降值位于均值以下的基因。
使用隨機(jī)森林、支持向量機(jī)、SVM-RFE來(lái)計(jì)算變量重要性,使用向前變量選擇法按照變量重要性評(píng)分,從大到小逐個(gè)引入變量,每加入一個(gè)變量就重新構(gòu)建一次模型。通過(guò)Holdout驗(yàn)證法對(duì)模型進(jìn)行評(píng)價(jià),將數(shù)據(jù)隨機(jī)分割成兩部分,其中2/3的樣本為訓(xùn)練集,另外1/3的樣本為測(cè)試集,計(jì)算測(cè)試集訓(xùn)練結(jié)果的敏感度、特異度、陽(yáng)性預(yù)測(cè)值(positive predictive value,PPV)、陰性預(yù)測(cè)值(negative predictive value,NPV)、準(zhǔn)確率、約登指數(shù)和F1統(tǒng)計(jì)量。本研究應(yīng)變量樣本不平衡,使用約登指數(shù)和F1統(tǒng)計(jì)量為主要評(píng)價(jià)指標(biāo),數(shù)據(jù)分析流程見(jiàn)圖1。
圖1 統(tǒng)計(jì)分析流程圖
(7)統(tǒng)計(jì)分析軟件及程序包
本研究使用R3.5.1軟件進(jìn)行數(shù)據(jù)處理和分析,除上述程序包以外還使用了“caret”等基礎(chǔ)軟件包。
1.降維
通過(guò)t-FDR降維,剩余18702個(gè)基因。通過(guò)隨機(jī)森林降維,剩余6326個(gè)基因。
2.變量排序結(jié)果
經(jīng)t-FDR和隨機(jī)森林降維后,分別使用隨機(jī)森林、支持向量機(jī)、SVM-RFE對(duì)基因變量的重要性進(jìn)行排序,前10位基因見(jiàn)表1。
3.預(yù)測(cè)結(jié)果與模型評(píng)價(jià)
使用隨機(jī)森林和支持向量機(jī)兩種分類器,對(duì)排序基因采用向前變量選擇法對(duì)是否為三陰性乳腺癌患者進(jìn)行分類,變量個(gè)數(shù)與評(píng)價(jià)指標(biāo)存在一定關(guān)系,結(jié)果見(jiàn)圖2~4。隨著納入模型的變量個(gè)數(shù)增多,指標(biāo)會(huì)有一定的上升趨勢(shì),而繼續(xù)增多則會(huì)趨向于平穩(wěn),綜合考慮變量個(gè)數(shù)和評(píng)價(jià)指標(biāo),選取變量少而評(píng)價(jià)指標(biāo)高的模型作為最終模型,最終模型選出變量個(gè)數(shù)及評(píng)價(jià)指標(biāo)見(jiàn)表2~4。
經(jīng)隨機(jī)森林降維結(jié)果各評(píng)價(jià)指標(biāo)不及經(jīng)t-FDR降維結(jié)果。使用SVM-RFE方法進(jìn)行重要性排序,建模后約登指數(shù)最高為0.8271;使用支持向量機(jī)進(jìn)行重要性排序,建模后約登指數(shù)最高為0.8392;兩種排序方法建模效果均不及隨機(jī)森林排序效果。
經(jīng)t-FDR降維、使用隨機(jī)森林排序后,使用隨機(jī)森林建模,入選變量個(gè)數(shù)為8個(gè)時(shí),模型各評(píng)價(jià)指標(biāo)均達(dá)到最優(yōu);若使用支持向量機(jī)建模,入選變量個(gè)數(shù)為8個(gè)時(shí)模型整體效果最好。經(jīng)隨機(jī)森林降維、使用隨機(jī)森林排序后,使用隨機(jī)森林建模,入選變量個(gè)數(shù)為8個(gè)時(shí),模型各評(píng)價(jià)指標(biāo)均達(dá)到最優(yōu);若使用支持向量機(jī)建模,入選變量個(gè)數(shù)為5個(gè)時(shí)模型整體效果最好,結(jié)果詳見(jiàn)圖2。
預(yù)測(cè)模型支持向量機(jī)的敏感度要遠(yuǎn)高于隨機(jī)森林,而隨機(jī)森林的陽(yáng)性預(yù)測(cè)值要高于支持向量機(jī),但整體上用支持向量機(jī)分類要優(yōu)于隨機(jī)森林。
圖2 基于RF重要性排序各模型評(píng)價(jià)指標(biāo)隨變量個(gè)數(shù)變化趨勢(shì)圖
圖3 基于SVM重要性排序各模型評(píng)價(jià)指標(biāo)隨變量個(gè)數(shù)變化趨勢(shì)圖
圖4 基于SVM-RFE重要性排序各模型評(píng)價(jià)指標(biāo)隨變量個(gè)數(shù)變化趨勢(shì)圖
排序t-FDR降維RFSVMSVM-RFERF降維RFSVMSVM-RFE1ESR1RPSAP42KIRREL3-AS1ESR1RP4-583P15.14OR7E110P2MLPHTRNP1WWTR1AGR3PROSPTMSB15B3GATA3IGKV2-26SF3B6GATA3SRD5A2VSNL14AGR3TMEM178ARAD51AP2LINC00504OR4C1PZNF518B5TTC6FRMPD2TTC39CTBC1D9MIR6726NT5DC26FOXA1RFX2IGKV2-26CCDC170RP11-13E1.5SRD5A27TBC1D9TRBV6-7ELOVL7CT62IGLV1-36NCLP28CCDC170ADAMTS1PF4V1MLPHRP11-361M10.4FTH1P199CT62GAPDHP24AC007292.7FOXCUTRPL31P54VRTN10RP11-279F6.1RP1-261G23.4LINC01675FOXA1SLC25A39P2LINC01015
表2 基于RF重要性排序各個(gè)模型評(píng)價(jià)指標(biāo)結(jié)果
表3 基于SVM重要性排序各個(gè)模型評(píng)價(jià)指標(biāo)結(jié)果
表4 基于SVM-RFE重要性排序各個(gè)模型評(píng)價(jià)指標(biāo)結(jié)果
4.統(tǒng)計(jì)分析結(jié)果與基因文獻(xiàn)研究的關(guān)聯(lián)性結(jié)果
對(duì)本研究的六種基因排序方法中排序前50的基因進(jìn)行文獻(xiàn)搜索,發(fā)現(xiàn)ESR1、AR、CCDC170、ERBB4、GATA3、FOXA1、THSD4、AGR2、AGR3、CXXC5、FAM171A1、FSIP1、CA12、FOXCUT、RHOB、SPDEF、TFF1、TFF3、MLPH、ADAMTS1等基因與三陰性乳腺癌相關(guān);ACADSB、BCAS1、DNALI1、SRD5A2等基因與乳腺癌相關(guān);AC007255.8、ANXA9、B3GNT5、CCDC125、DSC2、FZD9、MYB、SRARP、TTC6、LINC00504、LMX1B、ELOVL7、FRMPD2、RFX2、SF3B6等基因與其他癌癥有關(guān);因此排在前面的基因大部分和三陰性乳腺癌或者其他癌癥的轉(zhuǎn)移或者預(yù)后相關(guān),并且其中大部分基因是基于隨機(jī)森林重要性評(píng)分篩選出來(lái)的且多數(shù)是編碼基因,基于t_RF篩選出來(lái)的有31個(gè),基于RF_RF篩選出來(lái)的有28個(gè),基于t_SVM篩選出來(lái)的有3個(gè),基于RF_SVM篩選出來(lái)的1個(gè),基于t_RFE篩選出來(lái)的有2個(gè),基于RF_RFE篩選出來(lái)的有2個(gè)。
本研究顯示:t-FDR降維處理結(jié)果好于隨機(jī)森林降維結(jié)果,使用隨機(jī)森林重要性評(píng)分排序結(jié)果最好,使用支持向量機(jī)建模預(yù)測(cè)效果優(yōu)于隨機(jī)森林。
本研究數(shù)據(jù)有60483個(gè)基因,屬于超高維數(shù)據(jù),直接分析花費(fèi)時(shí)間長(zhǎng)、模型效果差,因此本研究先對(duì)數(shù)據(jù)降維處理。應(yīng)用隨機(jī)森林降維時(shí),以所有變量基尼系數(shù)下降值的均值為截?cái)帱c(diǎn)進(jìn)行變量刪除,降維后剩余基因數(shù)量遠(yuǎn)少于t-FDR降維,最終模型效果也不及t-FDR降維效果,可能是截?cái)帱c(diǎn)選取過(guò)大導(dǎo)致某些重要基因被刪除,使得結(jié)果差于t-FDR降維結(jié)果,所以在使用隨機(jī)森林降維時(shí)選用指標(biāo)及臨界值的設(shè)置有待深入研究。
本研究比較了SVM、SVM-RFE、RF三種基因排序方法,結(jié)果顯示隨機(jī)森林算法最優(yōu)。由于硬件設(shè)施的限制,放棄了SVM非線性核算法,僅使用SVM線性核算法進(jìn)行重要性排序,但是變量間可能存在非線性關(guān)系,最終導(dǎo)致變量的重要性排序不夠穩(wěn)定。RF本身就可處理線性和非線性問(wèn)題,所以RF的基因重要性排序較好,后期還可研究使用SVM非線性核算法進(jìn)行變量排序的效果如何。
Isabelle Guyon等人[15]將遞歸特征消除的思想與SVM相結(jié)合,這種融合后的方法選擇的基因具有更好的分類性能和生物學(xué)性能。通過(guò)SVM和SVM-RFE兩種排序方法最終模型效果比較,可以看出SVM-RFE基因排序效果明顯好于僅用SVM排序效果,指標(biāo)波動(dòng)有了很大收斂,見(jiàn)圖3~4。可能由于本研究SVM僅使用線性核的限制,導(dǎo)致SVM-RFE排序結(jié)果差于RF排序結(jié)果,后期還可將遞歸特征消除的思想與RF相結(jié)合做更深入的研究。
本研究顯示支持向量機(jī)進(jìn)行建模分類時(shí)結(jié)果好于隨機(jī)森林,使用支持向量機(jī)預(yù)測(cè)能力更強(qiáng)。機(jī)器學(xué)習(xí)方法中經(jīng)驗(yàn)風(fēng)險(xiǎn)指的是訓(xùn)練集的平均損失,當(dāng)樣本容量足夠大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證很好的學(xué)習(xí)效果,但樣本容量較小時(shí)會(huì)導(dǎo)致過(guò)擬合現(xiàn)象。支持向量機(jī)[16-20]以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為準(zhǔn)則,在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng),通過(guò)最大化不同類別之間的距離來(lái)尋找最優(yōu)分類超平面,提高了分類模型的泛化性,對(duì)維度過(guò)高和過(guò)擬合等問(wèn)題有著較好的抗性。
搜索文獻(xiàn)發(fā)現(xiàn)本研究中排序靠前的基因大部分已有基礎(chǔ)研究,并且與乳腺癌密切相關(guān)。其中有研究表明[21]ESR1啟動(dòng)子的高甲基化導(dǎo)致雌激素受體表觀遺傳沉默;孫嘉慧等人[22]研究發(fā)現(xiàn)ESR1基因敲除能夠增強(qiáng)乳腺癌細(xì)胞的侵襲能力。多項(xiàng)研究[23-26]表明基因CCDC170與ESR1表達(dá)高度相關(guān),還與不同的乳腺癌病理分子分型相關(guān),而且影響乳腺癌患者的預(yù)后,因此CCDC170可能參與乳腺癌的發(fā)病與轉(zhuǎn)移進(jìn)展,并影響患者的治療和預(yù)后。雄激素受體基因AR在三陰性乳腺癌中研究廣泛,大量臨床前研究[5,27-33]證實(shí)了AR在癌組織細(xì)胞增殖過(guò)程中的作用,并通過(guò)一系列的臨床試驗(yàn)對(duì)AR拮抗劑在乳腺癌中的安全性和有效性進(jìn)行了進(jìn)一步評(píng)估,得到AR可能成為治療三陰性乳腺癌的潛在靶點(diǎn)。最近基因SRARP[34]被鑒定為雄激素受體AR的一種新型輔抑制因子,SRARP與生存的基因組和表觀基因組范圍的關(guān)聯(lián)強(qiáng)烈支持它們的腫瘤抑制功能,特別是DNA高甲基化、低表達(dá)、體細(xì)胞突變和低拷貝數(shù)的SRARP與不良的癌癥結(jié)局相關(guān)。對(duì)于基因ERBB4、TFF1、TFF3、GATA3、FOXCUT等,目前均有研究[35-42]表明這些位點(diǎn)與三陰性乳腺癌診斷或預(yù)后相關(guān)。