基于遺傳算法的隨機森林模型在特征基因篩選中的應(yīng)用*

2016-10-26 03:22趙發(fā)林

中國衛(wèi)生統(tǒng)計 2016年4期

趙發(fā)林　張　濤　李　康

趙發(fā)林1張濤2李康3△

【提要】目的探索基于遺傳算法的隨機森林模型在特征基因篩選中的效果和特點。方法通過本文構(gòu)建的基于遺傳算法的隨機森林模型(GARF)對真實基因數(shù)據(jù)和模擬數(shù)據(jù)進行特征基因篩選，以篩選后基因進行判別分析，計算ROC曲線下面積AUC值，同時觀察GARF方法對模擬實驗中預(yù)設(shè)的差異基因排序結(jié)果。結(jié)果對真實基因數(shù)據(jù)和模擬數(shù)據(jù)的分析結(jié)果均顯示，采用GARF方法篩選得到的特征基因建立判別模型能獲得更好的分類效果，在模擬實驗中與隨機森林相比能將預(yù)設(shè)的差異基因排在更靠前的位置。結(jié)論GARF方法能夠有效地用于基因芯片數(shù)據(jù)特征基因篩選，在FDR控制上具備潛力，具有研究價值。

隨機森林遺傳算法特征基因篩選

特征基因篩選是基因組學(xué)研究的主要目的之一，不僅要求能夠通過篩選到的特征變量對樣本進行有效分類，而且要保證篩選得到的特征變量集有較小的假發(fā)現(xiàn)率(false discovery rate，F(xiàn)DR)，否則將極大增加生物學(xué)驗證的工作量，浪費大量資源，甚至無法實現(xiàn)生物學(xué)驗證。

近年來，隨機森林(random forests，RF)被廣泛應(yīng)用于高維數(shù)據(jù)分析并取得了良好的效果。RF可以在對樣本分類的同時給出變量重要性評分(variable importance measures，VIMs)作為特征篩選的依據(jù)。但當(dāng)變量個數(shù)非常多時，其中包含的大量對分類無作用的“噪聲”變量對分類效果仍會有較大影響，使VIMs不穩(wěn)定，真正對分類有作用的變量很可能在篩選得到的變量子集中排序靠后，甚至無法被選入[1]。遺傳算法(genetic algorithm，GA)是按照隨機搜索策略進行特征篩選的，可以由不同的染色體提供多樣化的特征篩選結(jié)果，采用適當(dāng)?shù)腉A與RF相結(jié)合將有可能降低“噪聲”對篩選結(jié)果的影響，同時降低FDR水平。

本研究期望給出一種基于GA的RF搜索策略GARF，用于高維數(shù)據(jù)的特征篩選。GARF在遺傳過程中加入基于VIMs的啟發(fā)式變量搜索方法，能夠降低噪聲變量對分類的影響，并采用基于Permutation的方法確定最終入選模型的變量篩選界值，既能夠避免人為確定篩選界值的主觀性，又能夠解決單純采用多變量啟發(fā)式搜索策略存在的變量競爭問題。

原理與方法

1.隨機森林的基本原理

隨機森林由Leo Breiman(2001)提出，它通過自助法(bootstrap)重采樣技術(shù)，從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機抽取b個樣本生成新的訓(xùn)練自助樣本集合，然后根據(jù)自助樣本集生成b個分類樹組成隨機森林，新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。隨機森林的主要特點是在處理高維數(shù)據(jù)時不會產(chǎn)生過擬合現(xiàn)象，在分類的同時能夠給出變量的重要性評分，依據(jù)該評分，可以篩選出對分類起重要作用的變量[2-4]。

2.遺傳算法的基本原理

遺傳算法由Michigan大學(xué)的J.Holland于1975年提出，是一種借鑒生物界自然選擇和生物體遺傳機制的隨機搜索算法，其基本原理是進化機制和自然選擇法則[5-6]。遺傳算法的特點是采用簡單編碼技術(shù)表示復(fù)雜結(jié)構(gòu)，并通對編碼的遺傳操作——復(fù)制(reproduction)、交叉(crossover)和變異(mutation)產(chǎn)生備擇解集，通過優(yōu)勝劣汰的選擇機制進行導(dǎo)向性搜索。進化算法不需要了解問題的全部特征，就可以通過體現(xiàn)進化機制的進化過程完成問題求解。

3.GARF算法的基本原理

GARF采用RF模型對變量在樣本分類中的作用進行評價，以permutation方法確定特征篩選界值作為最終確定特征變量的依據(jù)。為減少噪聲變量對RF變量評價結(jié)果的干擾，每個RF模型僅包含由GA算法選取的部分變量，并且在遺傳過程中加入了變量篩選步驟以進一步降低噪聲變量影響。GA算法的啟發(fā)特性使對分類作用較強的變量有更多的機會被評價，從而增強RF評價結(jié)果的穩(wěn)定性；同時，GA算法的“變異”過程使搜索結(jié)果向一定方向收斂的同時具備較強的多樣性，使分類作用較弱的變量也可以獲得一定的被評價機會。GA算法的上述兩點特性既保證了對變量評價的深度，也兼顧了評價的廣度。遺傳過程內(nèi)的變量篩選中，采用permutation方法獲得組間無差異變量重要性評分的經(jīng)驗分布，根據(jù)該經(jīng)驗分布自適應(yīng)確定變量篩選界值。

圖1　GARF算法過程流程圖

4.GARF算法實現(xiàn)

設(shè)數(shù)據(jù)分為A和B兩類，樣本量為N，變量個數(shù)為m，遺傳算法每一代種群包含M條染色體，采用二進制編碼方式，遺傳過程中保留最優(yōu)染色體的概率設(shè)為rE，變異率設(shè)為rM，變異中基因由0突變?yōu)?的概率為r0to1，算法的收斂條件為傳代數(shù)達(dá)到G代，則GARF算法步驟如下：

(1)采用二進制編碼方式，每一代種群均為由0,1構(gòu)成的M行k列的矩陣。0表示對應(yīng)位置的基因不表達(dá)(變量未被選入模型)，1表示對應(yīng)位置的基因表達(dá)(變量被選入模型)。

(3)以每條染色體中包含的變量建立隨機森林模型，獲取變量重要性評分作為自適應(yīng)降噪的依據(jù)。

(4)自適應(yīng)降噪：①計算每條染色體中包含的基因個數(shù)；②根據(jù)染色體中基因個數(shù)自適應(yīng)選擇相應(yīng)的變量重要性評分篩選界值，剔除變量重要性評分小于該界值的變量；③形成降噪后的新種群。

(5)對降噪后的染色體進行評價：①用新種群中的染色體建立隨機森林模型，獲取森林對袋外數(shù)據(jù)分類的投票結(jié)果；②基于隨機森林對袋外數(shù)據(jù)的投票計算模型判別結(jié)果的ROC曲線下面積AUC。AUC值在0.5～1.0之間，以1-AUC值作為對染色體的評價函數(shù)。

(6)獲取降噪后隨機森林模型對變量的評價結(jié)果，作為最終識別特征變量的依據(jù)。對變量在整個種群中獲得的變量重要性評分求中位數(shù)，作為變量在這一代獲得的評價結(jié)果。如某變量共獲得r次評價，則對這r個變量重要性評分求中位數(shù)，如果該變量在這一代未獲得評價則此處記為缺失。

(7)根據(jù)評價函數(shù)值由小到大的順序?qū)θ旧w進行排序，按設(shè)定的比例將排序靠前的部分染色體直接復(fù)制到子代種群中，不進行任何交叉和變異。子代中的其余染色體經(jīng)由交叉和變異產(chǎn)生。

(8)根據(jù)染色體評價函數(shù)排序確定父代中的每條染色體被選中參與交叉操作的概率，保證評價函數(shù)較優(yōu)的染色體有更高的概率被選中與其他染色體進行交叉。

(9)交叉：由父代中按一定概率選取兩條染色體，記為C1和C2，并從1-m的整數(shù)中隨機抽取一個整數(shù)mC作為交叉點，當(dāng)mC=1時以C1作為新產(chǎn)生的染色體，當(dāng)mC=m時以C2作為新產(chǎn)生的染色體，當(dāng)1

(10)變異：對由交叉產(chǎn)生的新染色體進行變異操作，如果染色體中的基因取值為0，則從0～1的均勻分布中隨機產(chǎn)生一個數(shù)mM，與預(yù)先設(shè)定的突變率rM比較，如果mM

(11)將步驟(7)與步驟(8)～步驟(10)產(chǎn)生的染色體合并，產(chǎn)生子代種群。

(12)重復(fù)上述步驟(3)～步驟(11)的操作，循環(huán)至第G代停止。

(13)將每一代中步驟(6)獲得的變量評價結(jié)果取中位數(shù)，作為GARF特征篩選方法對變量的最終評價，記為VIgene。

(14)確定最終篩選界值，識別特征變量：①計算最后一代種群中每條染色體中包含的基因個數(shù)；②取其平均值記為Mgene，作為permutation抽樣參數(shù)；③從數(shù)據(jù)集中隨機抽取Mgene個變量，將分類標(biāo)簽隨機打亂，建立隨機森林模型，記錄變量重要性評分，重復(fù)進行2000/Mgene次，共獲得2000個變量重要性評分；④以上述2000個變量重要性評出的百分位數(shù)P95或P99作為GARF算法特征篩選界值，如VIgene大于該界值則將該變量識別為特征變量。

(15)結(jié)束。

實例應(yīng)用

1.數(shù)據(jù)來源

實例分析中，采用對未知分類樣本的判別效果作為特征篩選結(jié)果的評價指標(biāo)。本研究首先用GARF方法對真實基因芯片數(shù)據(jù)進行特征篩選，采用特征篩選結(jié)果建立隨機森林分類模型，并與直接使用隨機森林模型的結(jié)果進行對比。研究中分析的基因芯片數(shù)據(jù)有前列腺癌基因芯片數(shù)據(jù)和糖尿病基因芯片數(shù)據(jù)，數(shù)據(jù)由公開數(shù)據(jù)庫獲得。對數(shù)據(jù)的判別效果采用10-fold交叉驗證評價，記錄錯分率。前列腺癌分為有病(A組)和無病(B組)兩類，糖尿病分為空腹血糖正常組(A組)和糖尿病組(B組)。比較中采用的高維組學(xué)實驗數(shù)據(jù)的基本信息如表1。

表1　基因芯片數(shù)據(jù)的樣本分布情況

2.分析結(jié)果

由表2可見，經(jīng)過GARF特征篩選，RF模型的判別能力增強?？紤]到實際中經(jīng)常采用單變量方法進行變量預(yù)篩選，我們同時采用了基于t檢驗的預(yù)篩選方法。首先根據(jù)t檢驗統(tǒng)計量絕對值大小排序，取絕對值較大的前2000個變量，然后分別采用隨機森林、GARF法進行分析。結(jié)果顯示，采用全部變量進行GARF特征篩選的效果要優(yōu)于預(yù)篩選之后的2000個變量的分析結(jié)果。為考察各種方法是否會產(chǎn)生過擬合現(xiàn)象，我們還將前列腺癌數(shù)據(jù)的分類標(biāo)簽打亂，產(chǎn)生新的實際上不包含分類信息的數(shù)據(jù)集，采用上述方法對該數(shù)據(jù)集進行分析。分析結(jié)果顯示，各種方法分類結(jié)果均很差，沒有出現(xiàn)過擬合現(xiàn)象。

表2　隨機森林及GARF對六個數(shù)據(jù)集分析的結(jié)果10-fold交叉驗證錯分率)

*：RF為隨機森林模型，后綴“p”表示采用基于t檢驗統(tǒng)計量對數(shù)據(jù)進行預(yù)篩選后再采用相應(yīng)模型分析；括號內(nèi)為交叉驗證過程中分類模型包含的變量個數(shù)的均數(shù)和中位數(shù)。隨機森林模型采用全部變量建模，基于預(yù)篩選的隨機森林模型采用預(yù)篩選得到的2000個變量建模。

模擬實驗

1.模擬實驗條件設(shè)置

(1)模擬數(shù)據(jù)1：該部分模擬數(shù)據(jù)用于考察GARF特征篩選后的判別效果。設(shè)定訓(xùn)練樣本為N=60，其中A類樣本例數(shù)nA=30，B類樣本例數(shù)nB=30；測試樣本1000例，兩類各500例。樣本中含有5個有差異的變量，兩類間的真實區(qū)分度用ROC曲線下面積AUC衡量，分別設(shè)AUC=0.85、AUC=0.95；ρ表示變量間的相關(guān)系數(shù)，研究中設(shè)定ρ=0.5；差異變量和無差異變量均服從正態(tài)分布；無差異變量的個數(shù)為2000，服從標(biāo)準(zhǔn)正態(tài)分布。模擬實驗數(shù)據(jù)重復(fù)產(chǎn)生，形成100個隨機樣本。

(2)模擬數(shù)據(jù)2：該部分模擬數(shù)據(jù)用于考察GARF法對預(yù)設(shè)的差異變量的識別能力。設(shè)定每一個模擬數(shù)據(jù)樣本為N=60，其中兩分類的樣本例數(shù)分別為nA=30和nB=30，差異變量和無差異變量均服從正態(tài)分布。兩類間的總真實區(qū)分度用ROC曲線下面積θ衡量，分別設(shè)θ=0.85、θ=0.95；樣本中含有5個有差異的變量，分別用X1,X2,X3,X4,X5表示，其中X1和X2兩個變量的相關(guān)系數(shù)ρ=0.9，其余3個變量的相關(guān)系數(shù)ρ=0。為簡單起見，各變量的方差和均數(shù)設(shè)為相同，方差σ2=1，均數(shù)μi(i=1,2,3,4,5)則根據(jù)θ值用編制的程序求出。在此基礎(chǔ)上，加入2000個無差異變量。無差異變量來自實際基因芯片數(shù)據(jù)，即由前列腺癌基因芯片數(shù)據(jù)的兩個分類中隨機抽取30例樣本，同時隨機抽取2000個變量，打亂樣本的分類標(biāo)簽。模擬實驗數(shù)據(jù)重復(fù)產(chǎn)生，形成100個隨機樣本。

2.模擬實驗結(jié)果

(1)GARF特征篩選后的判別效果

由表3可見，進行特征篩選后，隨機森林模型只需用少量的變量就能達(dá)到很好的判別效果；盡管設(shè)定的類間區(qū)分度不同，但分類模型對數(shù)據(jù)判別分類呈現(xiàn)的趨勢一致；設(shè)定的類間區(qū)分度值越高，則特征篩選后獲得的“最優(yōu)”分類模型的判別效果越接近實際區(qū)分度。

*：判別模型AUC估計的中位數(shù)；**斜線前為設(shè)定的差異變量被識別為特征變量的個數(shù)的中位數(shù)，斜線后為被識別為特征變量的變量個數(shù)的中位數(shù)。

圖2給出了變量篩選前后ROC曲線下面積AUC估計值的頻數(shù)分布情況。為便于分析和比較，同時給出了在不包含無差異變量干擾的情況下，隨機森林算法AUC估計值的頻數(shù)分布情況。結(jié)果顯示，GARF特征篩選后，ROC曲線下面積均有明顯的改善；當(dāng)設(shè)定的AUC值較大時，變量篩選后的AUC頻數(shù)分布與理想情況下(僅包含差異變量)的AUC頻數(shù)分布幾乎重合，得到了非常理想的結(jié)果。使用GARF算法進行變量篩選，有利于簡化判別模型和增強預(yù)測效果。

圖2　變量篩選前后及僅含差異變量的AUC頻數(shù)變化情況

(2)GARF差異變量的識別結(jié)果

對變量的排序結(jié)果見表4，與RF模型相比GARF能將預(yù)先設(shè)定的差異變量排在更靠前的位置。即便在組間差異較小的情況下(θ=0.85)，預(yù)設(shè)的差異變量被排在前20位的累積頻率也接近50%。

表4　差異變量在RF和GARF分析結(jié)果中的排序分布情況

討　　論

1.盡管隨機森林具有較強的抗噪聲能力，但基因芯片數(shù)據(jù)中的高噪聲仍對其判別結(jié)果產(chǎn)生較大影響，通過GARF方法進行特征篩選后，根據(jù)篩選結(jié)果建立的判別模型判別能力有較大提升。

2.對基于前列腺癌基因芯片數(shù)據(jù)產(chǎn)生的分類標(biāo)簽亂序數(shù)據(jù)的分析結(jié)果表明，RF模型本身有良好的防止過擬合能力，同屬于基于RF模型迭代算法的GARF法也沒有出現(xiàn)過擬合。

3.GARF特征篩選方法無需進行預(yù)篩選，采用全部變量進行特征篩選的效果更理想。預(yù)篩選的主要作用是減少變量個數(shù)，通常預(yù)篩選采用單變量分析方法(如t檢驗、SAM法等)，篩選結(jié)果不能體現(xiàn)變量間的相互作用。

4.本研究中沒有直接考察GARF特征篩選方法的FDR，但通過比較GARF與隨機森林對預(yù)設(shè)差異變量的排序結(jié)果可見，GARF能夠?qū)㈩A(yù)設(shè)的差異變量排在更靠前的位置，即如果采用相同的篩選界值，GARF特征篩選結(jié)果更有可能獲得較小的FDR。FDR的控制在生物學(xué)研究中十分重要，如果研究的主要目的是生物標(biāo)志物提取，使用GARF算法是更有效的。

[1]Amaratunga D,Cabrera J,Lee YS.Enriched random forests.Bioinformatics,2008,24(18):2010-2014.

[2]Cutler A,Stevens JR.Random forests for microarrays.Methods Enzymol,2006,411:422-32.

[3]武曉巖,李康.基因表達(dá)數(shù)據(jù)判別分析的隨機森林方法.中國衛(wèi)生統(tǒng)計,2006,6:491-494.

[4]李貞子，張濤，武曉巖,等.隨機森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計，2012,29(2):158-160,163.

[5]王小平.遺傳算法——理論、應(yīng)用與軟件實現(xiàn).西安：西安交通大學(xué)出版社,2002：1-4.

[6]Yang J,Honavar V.Feature Subset Selection Using a Genetic Algorithm.IEEE Intelligent Systems,1998,13(2):44-49.

[7]Diaz-Uriarte R,de Andres SA.Gene selection and classification of microarray data using random forest.BMC Bioinformatics,2006,7:3.

[8]Mootha VK,Lindgren CM,Eriksson KF,et al.PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes.Nat Genet,2003,34(3):267-73.

(責(zé)任編輯：郭海強)

An Optimized Random Forest Based on Genetic Algorithm and its Application to Feature Selection for Gene Data

Zhao Falin,Zhang Tao,Li Kang

(Harbin Medical University(150081),Harbin)

ObjectiveTo explore the effects and properties of an optimized random forest based on genetic algorithm(GARF)on feature selection.MethodsWe used GARF to select significant genes both on simulated data and real gene data then built discriminative models with significant genes.The area under the ROC curve was calculated to evaluate the discrimination performance.The ranks of significant genes assigned in simulated data were considered,too.ResultsThe discrimination performance based on the significant genes selected by GARF is better than on original data and selected by random forest.ConclusionThe proposed GARF method is suitable to analyze high dimensional data for feature selection and shows proper potency for controlling FDR.

Random forest;Genetic algorithm;Feature selection

浙江省自然科學(xué)基金項目(LQ12H26002)，杭州師范大學(xué)科研啟動基金項目(2011QDL12)

李康，E-mail:likang@ems.hrbmu.edu.cn

1.杭州師范大學(xué)醫(yī)學(xué)院健康管理系(310036)

2.山東大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系

3.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于遺傳算法的隨機森林模型在特征基因篩選中的應(yīng)用*

原理與方法

實例應(yīng)用

模擬實驗

討 論

討　　論