江健生,汪 妍
(1.安慶師范大學a.計算機與信息學院,b.安徽省智能感知與計算高校重點實驗室,安徽安慶246133;2.上海市浦東新區(qū)人民醫(yī)院腫瘤科,上海201299)
基因表達譜是一個高維度數(shù)據(jù)集,其為腫瘤診斷提供一定的有用信息[1]。常被用于高維數(shù)據(jù)集特征選取的有Filter(過濾式)和Wrapper(包裝式)方法[2]。其中:Filter方法從數(shù)據(jù)自身特點出發(fā),利用樣本可分性指標評定特征的重要性,選取有效分類特征;Wrapper方法則利用分類模型的內部結構信息,根據(jù)分類模型的輸出,在特征空間中搜索最佳特征集合,選取結果優(yōu)于Filter方法,但時間開銷大。已有學者利用Filter方法的計算復雜度小和Wrapper方法的準確度高的優(yōu)點,將二者結合進行特征基因選取,如Pirgazi等[3]基于Filter和Wrapper方法,利用Relief方法、IWSSr方法和隨機蛙跳算法(SFLA)的混合方法,在大規(guī)?;驍?shù)據(jù)集中選取有效特征;Hameed等[4]在高維數(shù)據(jù)集上使用Filter-Wrapper組合和嵌入式(LASSO)特征選擇方法選取特征基因;Sahu[5]利用信息增益技術和改進的二進制粒子群優(yōu)化(IBPSO)分別用于Filter和Wrapper方法,取得較好基因分類效果。
集成特征選取方法源自集成學習算法,在變化的特征選取環(huán)境(如不同的特征選取算法、不同的樣本數(shù)據(jù)、不同的樣本特征或不同的特征選取器)中選取不同的特征集合,通過集成這些特征集合得到最佳的分類特征[6]。遺傳算法基于生物進化思想模擬自然界的遺傳過程,種群的染色體通過選擇、交叉和變異等操作過程進化至下一代,其空間搜索和全局尋優(yōu)能力使之適宜完成高維數(shù)據(jù)集的特征選取[7],也被用于基因表達譜數(shù)據(jù)集的特征基因選取中,搜索具有豐富類別信息、能決定樣本類別的關鍵特征基因[8]。鑒于此,本文結合Filter和Wrapper方法,提出一種適于高維基因表達譜數(shù)據(jù)集的集成遺傳特征選取方法,以SVM(支持向量機)的分類結果作為個體適應度函數(shù)的參數(shù),在5個高維腫瘤基因表達譜中進行集成遺傳特征基因選取實驗,以期提高基于分類模型的遺傳特征選取方法性能。
數(shù)據(jù)集的數(shù)據(jù)特征可分為4類:信息特征、冗余特征、無關特征和噪聲特征[9]。噪聲特征不含樣本類別信息,對識別樣本類別起負作用。因此,在特征選取之前需進行噪聲特征過濾。Tang等[9]根據(jù)式(1)所示的特征相關性指標,合并標準差相對較小的正類特征集合S+和負類特征集合S-,即用SR=S+?S-過濾噪聲特征。
式中:σi,σi+,σi-分別是第i個基因在所有樣本、正類樣本、負類樣本中表達值的標準差;Ri+,Ri-分別為正類、負類相關性指標,這里僅考慮類內分布緊密的特性,忽略特征在正類、負類樣本中的期望分布。這樣,即便某些高相關性指標的特征也可能因為其在異類間期望差異太小而無法提供更多的分類信息。
根據(jù)特征在正類、負類樣本中的期望分布,定義特征在異類樣本中的相對分離指標Ei如
其中mi+和mi-分別是第i個基因在正、負類中表達值的期望。由式(2)篩選出正、負類期望分離程度相對較高的特征集合SE。
綜合考慮基因表達譜數(shù)據(jù)集的訓練集中基因在類內和類間的分散情況過濾噪聲基因。計算基因的正類、負類相關性指標,過濾低于正類、負類的相關性指標閾值的基因,形成基因集合SR;再根據(jù)基因在正類、負類樣本中的期望分布,篩選正、負類期望分離程度相對較高的基因集合SE;通過合并基因集合SFilter=SR?SE保證過濾后的基因集合具有豐富的樣本類別信息,將SFilter作為后面的特征基因選取范圍。
遺傳算法的個體由一組定長的二進制碼組成,個體長度與特征基因搜索范圍內的基因個數(shù)相等,每個個體代表一種特征基因選取方案。個體的二進制碼值代表其對應位置的基因是否被選中:“1”表示選中,“0”表示未選中。初始種群中個體的二進制碼值是隨機設置的,二進制碼值“1”決定遺傳算法的特征基因搜索范圍。為保證更多的基因進入遺傳算法的搜索范圍,在遺傳算法的初始階段,個體中碼值為“1”的元素應占個體80%以上。
個體適應度函數(shù)以其選取基因集合的分類性能為核心參數(shù),同時,將基因集合的維數(shù)設置為適應度函數(shù)的另一個重要參數(shù),鼓勵基因集合向低維的方向進化。式(3)定義的適應度函數(shù)f(S,g)可保證遺傳算法選出低維的高質量的基因集合。
式中:g為遺傳算法的進化代數(shù);S為第g代個體的選取的基因集合;pS為被選基因集合的分類性能;dS為基因集合維數(shù);dy為動態(tài)懲罰因子,為避免進化初期因基因集合維數(shù)降低過快而丟失重要特征,進化初期懲罰因子數(shù)值較小,后期逐漸變大。為防止進化因適應度變化過小而停滯不前,借鑒模擬退火算法,在適應度函數(shù)中加一個分母項0.999 99g。鑒于數(shù)據(jù)集中異類樣本分布不均,分別用基因集合在訓練集中支持向量機(SVM)分類AUC(接收者工作特征曲線下的面積)值評價基因集合的分類性能。
為防止遺傳算法掉入局部極小,引入禁忌搜索算法,并用前k代最優(yōu)個體信息組成禁忌表。為提高遺傳算法效率,建立由個體信息及其選取的基因集合在訓練集中的SVM分類AUC值組成對照表,避免進化過程中對相同的基因集合進行重復的性能分析,提高進化后期(因個體長度較小,產生重復個體的概率較大)的進化效率。當兩代種群的最優(yōu)個體適應度差值小于某任意小正數(shù)時,或者進化到指定最大遺傳代數(shù)時,遺傳算法終止,最后一代種群中最優(yōu)個體1碼(碼值為1)對應的基因為被選的特征基因。
集成遺傳特征基因選取的初始階段,在基因搜索范圍SFilter中隨機產生N組初始種群,進行選取、交叉和變異操作,經過遺傳進化得到N個最優(yōu)個體。隨機初始種群保證各遺傳算法基因搜索范圍的多樣性,有益于改善集成遺傳特征基因選取方法的魯棒性,提高被選特征基因的分類性能。
SVM特別適合于維數(shù)高、樣本數(shù)少的扁平數(shù)據(jù)集的樣本分類[10]。遺傳算法的個體適應度函數(shù)以其選取的基因集合的SVM分類結果為核心參數(shù),SVM分類結果是基于線性核函數(shù)的SVM分類器在訓練集中進行5 倍交叉校驗的分類AUC 值。集成N次遺傳算法進化最優(yōu)個體,用最優(yōu)個體對應基因集合的SVM 分類AUC值加權基因集合的基因,匯總N個最優(yōu)個體對應的基因權重,以基因權值評價基因對樣本分類的重要性?;驒嘀祑(F)的集成求和公式如
式中:F為每輪候選基因集合;Gi表示第i個遺傳算法的初始種群進化后的最優(yōu)遺傳個體對應的基因集合;A(Gi)為第i個基因集合在訓練集中的SVM分類AUC值。
用AUC值加權進化后的種群中最優(yōu)個體對應的基因,集成后的基因權值既能體現(xiàn)基因在N次遺傳算法中被選的頻數(shù),又能反映基因對樣本分類的貢獻。這種集成加權方法比簡單地統(tǒng)計基因被選頻數(shù)的方法更能量化基因所含的樣本類別信息,選取出代表樣本類別的關鍵特征基因。
在反向遞歸過程中用集成遺傳算法選取基因表達譜的特征基因,見圖1。數(shù)據(jù)集樣本被按3∶1∶1隨機分配至訓練集、校驗集和獨立測試集。在訓練集中對過濾噪聲后的特征集合SFilter采用集成遺傳算法進行特征選取,根據(jù)(4)式匯總基因的權值,保留權值較高的50%基因組成候選基因集合;然后,基于該候選基因集合,重新采用集成遺傳算法進行特征選取,刷新基因的權值,再由高權值的基因組成維數(shù)更低的、新的候選基因集合。重復上述過程,生成一組維數(shù)漸低的候選基因集合。
為客觀評價每個候選基因集合承載的類別信息,在校驗集中進行分類測試。用訓練集訓練分類器識別校驗集的樣本類別,以分類AUC值衡量候選基因集合的分類性能,分類AUC值最高的候選基因集合為最佳基因集合,其含有的類別信息量最高。分類測試模型選用SVM和KNN(K近鄰算法)分類器,考察候選基因集合的分類性能,防止候選基因集合過擬合于遺傳算法適應度函數(shù)中所用的SVM分類模型,保證選出的最佳特征基因集合有較好的分類能力。集成遺傳特征選取方法的流程圖見圖1,實驗重復20次。
圖1 集成遺傳特征選取方法的流程圖Fig.1 Flow chart of FSEGA method
在Colon,Acute LeukeMia,Multiple Myeloma,DLBCL和Prostate 5個腫瘤特征基因表達譜數(shù)據(jù)集中進行集成遺傳特征選取實驗,數(shù)據(jù)集樣本按3∶1∶1 隨機分配至訓練集、校驗集和獨立測試集。在噪聲基因過濾中,經過多次過濾和特征基因選取實驗,確定5個基因表達譜數(shù)據(jù)集的噪聲基因過濾參數(shù),見表1。
表1 5個基因表達譜數(shù)據(jù)集及其噪聲基因過濾參數(shù)Tab.1 Five gene expression profile data sets and their noise gene filtering parameters
為客觀評價集成遺傳特征選取方法的性能,避免因樣本分配不均產生的偏置對特征選取方法的評判,分別對5個基因表達譜數(shù)據(jù)集特征基因選取20次。同時,對于同一數(shù)據(jù)集,基于相同的訓練集、校驗集和獨立測試集及相同適應度函數(shù)進行單遺傳特征基因選取實驗,即遺傳算法的適應度函數(shù)同樣建立在SVM分類基礎上。遺傳算法由100 個個體組成種群,進化最大代數(shù)為50,選取、交叉、個體變異概率分別為0.8,0.5,0.05。禁忌搜索算法的禁忌長度(Tubo size)取最大遺傳進化代數(shù)的平方根近似值8。
特征選取的穩(wěn)定性是特征選取方法的重要性能之一[11]。文中使用Saeys 等[12]提出的基于相似度方法定義的穩(wěn)定性指標,表2 為集成遺傳特征選取方法和單遺傳特征選取方法在5 個數(shù)據(jù)集中20 次特征基因選取實驗的特征基因選取穩(wěn)定性指標。由表2可看出,對于5種特征基因表達譜數(shù)據(jù)集,集成遺傳特征選取方法的穩(wěn)定性指標均高于單遺傳特征選取方法的穩(wěn)定性指標,表明本文提出的集成方法有效提高了遺傳算法選取特征基因的穩(wěn)定性。
獨立測試集獨立于特征基因選取過程之外,能客觀地測試最佳特征基因集合的分類性能。為進一步客觀驗證被選出的最佳特征基因集合的分類性能,用訓練集訓練的SVM和KNN分類器識別獨立測試集樣本類別。表3為對于5個基因表達譜數(shù)據(jù)集,分別使用集成遺傳特征選取方法和單遺傳特征選取方法在20次特征基因選取實驗中,獲取的最佳特征基因集合在獨立測試集中的分類結果,平均值為5個基因表達譜數(shù)據(jù)集在SVM和KNN兩個分類器下獲得期望值和標準差的平均。
表2 2種特征選取方法的穩(wěn)定性指標Tab.2 Stability index of two feature selection methods
表3 最佳特征集合在獨立測試集中的分類結果Tab.3 Classification performance of the selected feature gene subsets on independent test set
由表3可知:集成遺傳特征選取方法在5個基因表達譜數(shù)據(jù)集里選取的特征基因在SVM和KNN兩個分類器下分類AUC期望值數(shù)據(jù)均優(yōu)于單遺傳特征選取方法,表明集成遺傳特征選取方法選取出的特征基因的類別識別能力優(yōu)于單遺傳算法特征選取方法選取的特征基因;同時,單遺傳特征選取方法選取的特征基因集合的分類AUC值標準差多數(shù)比集成遺傳特征選取方法選取的特征基因集合的分類AUC值標準差高,表明后者選取的特征基因集合分類穩(wěn)定性比前者好。
選取腫瘤基因表達譜樣本分類特征的目的是找出腫瘤中普遍異常表達的基因,探討腫瘤中普遍呈現(xiàn)出的、不同于正常組織細胞的基因表達特征存在的可能性。特征基因在異類樣本組織中的表達水平與其對樣本類型識別能力直接相關,可通過特征基因在異類樣本中的差異表達情況分析腫瘤在基因表達上的特點[13]。特征基因在正類和負類樣本中的表達均值為Ei+和Ei-,其在異類樣本間差異表達水平Δi=Ei+-Ei-,Δi≥0 表明該特征基因在正類樣本中相對于負類樣本呈現(xiàn)上調表達,Δi <0 表明該基因在正類樣本中呈現(xiàn)下調表達。上述表達可視為特征基因在異類樣本間的表達模式,說明腫瘤組織在基因表達上的特異性。
圖2為采用SVM的集成遺傳特征選取方法,在5個數(shù)據(jù)集中選取的20個最佳特征集合中頻度最高的前10個特征基因在原始數(shù)據(jù)集中的訪問碼及其在不同類型樣本中的差異表達情況,其中縱坐標Δ表示特征基因在兩類樣本中的表達差異。由圖2 可以看出,以Colon 數(shù)據(jù)集為例,基于SVM 的FSEGA 方法選取的前10 個特征基因中有4 個特征基因(T78104,M76378,D31716,U25138)呈上調表達,有6 個特征基因(T51023,T59878,T56604,T51261,T65758,H05899)呈下調表達。文獻[14-18]的研究結果表明選取的特征基因中M76378,U25138,T51023,T56604,T51261等基因與結腸癌相關,這些基因在兩類樣本中的表達水平差異反應了結腸癌組織和正常組織在基因表達上的特異性。特征基因在異類樣本中的差異表達也表明集成遺傳特征選取方法的有效性和可行性。
圖2 FSEGA方法在5個基因數(shù)據(jù)集上選取特征基因的差異情況Fig.2 Differences of feature genes selected from five gene data sets by FSEGA method
針對基因表達譜數(shù)據(jù)集的特征基因選取問題,結合Filter方法和Wrapper 方法,提出集成遺傳特征選取方法,研究分類模型對集成遺傳特征選取方法的影響。同時選用SVM和KNN兩個分類器從候選基因集合中選取最佳特征基因集合,有利于防止被選特征基因集合過擬合于集成遺傳算法適應度函數(shù)中的分類模型,提高特征選取方法的魯棒性。特征選取實驗表明,本文提出的集成特征選取方法可提高以分類結果為適應度函數(shù)的遺傳算法的特征基因選取性能,選取的特征基因集合含有豐富類別信息,重復性較好,提高了腫瘤特征基因選取的穩(wěn)定性和魯棒性。