王國(guó)胤,羅川江
(重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
生物科學(xué)與計(jì)算機(jī)科學(xué)是目前發(fā)展最迅速的兩大學(xué)科,而作為這兩大學(xué)科的交叉產(chǎn)物—生物信息學(xué)在基因組研究中發(fā)揮了重要的作用,基因芯片作為其中一個(gè)嶄新的研究領(lǐng)域,正日益受到國(guó)際研究者的廣泛關(guān)注?;蛐酒瑸榛蚬δ艿难芯刻峁┝艘环N強(qiáng)有力的工具,對(duì)疾病分類、病例診斷以及藥物研制等具有非常重要的實(shí)際意義。由于實(shí)驗(yàn)成本很高,基因樣本數(shù)量常常很少,只有幾十或者上百例,而檢測(cè)的基因數(shù)目相對(duì)而言很大,往往高達(dá)幾千甚至幾萬(wàn)[1]。因此,很多傳統(tǒng)的方法難以處理這種高維小樣本數(shù)據(jù)。一方面,高維基因數(shù)據(jù)集中存在大量的噪聲,這些噪聲基因?qū)︻悇e無分辨能力;另一方面,高維基因數(shù)據(jù)集中存在大量冗余,這些冗余的基因不會(huì)給分類帶來額外信息。噪聲和冗余基因不僅會(huì)導(dǎo)致分類器過度學(xué)習(xí),而且會(huì)導(dǎo)致計(jì)算復(fù)雜度急劇升高。Li等[2]指出,對(duì)于高維小樣本基因數(shù)據(jù),不到50個(gè)特征基因就能夠?qū)︻悇e進(jìn)行完全分辨。因此,對(duì)基因數(shù)據(jù)的處理,實(shí)質(zhì)上就是對(duì)具有“高維小樣本”特征的海量數(shù)據(jù)的挖掘過程。在此過程中,基因特征選擇就顯得尤為重要?;蛱卣鬟x擇去掉大部分噪聲和冗余基因,使得分類精度上升,計(jì)算復(fù)雜度下降;同時(shí),基因特征選擇留下小部分具有生物特性的基因,便于醫(yī)學(xué)研究,病例診斷。
目前,基因特征選擇方法主要包括2類[3]:過濾法(filter)和纏繞法(wrapper)。過濾法基于基因內(nèi)在結(jié)構(gòu)信息,設(shè)計(jì)不同的準(zhǔn)則函數(shù),對(duì)單個(gè)基因的分辨力進(jìn)行估計(jì),選擇權(quán)值較大的作為特征基因。該方法不依賴于分類器對(duì)基因子集的評(píng)價(jià),計(jì)算復(fù)雜度低,適合大規(guī)模的基因數(shù)據(jù)處理。例如統(tǒng)計(jì)學(xué)中的T統(tǒng)計(jì)量、F統(tǒng)計(jì)量、Wilcoxon秩和檢驗(yàn)以及Kruskal-Wallis秩和檢驗(yàn)廣泛用于基因特征選擇中。另外類似T統(tǒng)計(jì)量的基因顯著性分析方法(significance analysis ofmicroarray,SAM)[4],以及 F 統(tǒng)計(jì)量的集成特征選擇與分類的方法(prediction analysis formicroarrays,PAM)[5]同樣被證實(shí)對(duì)基因特征選擇的有效性。纏繞法將分類器嵌入到特征選擇過程中去,以分類器的準(zhǔn)確率為依據(jù),選擇的基因子集往往具有高分辨力、低冗余度。但該方法計(jì)算復(fù)雜度高,并不適合大規(guī)模的基因數(shù)據(jù)處理。例如,遞歸特征排除策略被廣泛用于纏繞法中,代表有SVM-RFE[6](support vectormachine recursive feature elimination)和 RFE-Relief[7](recursive feature elimination relief)。另外啟發(fā)式搜索策略同樣被用于纏繞法中,如王樹林等[8]首先對(duì)基因進(jìn)行初選,然后采用啟發(fā)式寬度優(yōu)先搜索策略對(duì)基因進(jìn)行精選。Peng等[9]同時(shí)考慮基因“分辨力”和“冗余度”,采用最小冗余最大關(guān)聯(lián)度量基因子集的重要性基因,然后搜索基因的方式選擇基因子集。
現(xiàn)有的基因特征選擇存在如下需要改進(jìn)的地方:1)基因選擇的數(shù)目依賴于先驗(yàn)知識(shí)。多數(shù)方法結(jié)合分類器準(zhǔn)確率,采用交叉測(cè)試的方法,人為地給定基因數(shù)目。然而,針對(duì)大規(guī)?;驍?shù)據(jù),基因選擇的數(shù)目應(yīng)該依賴于數(shù)據(jù)本身,基因選擇的方法應(yīng)該是數(shù)據(jù)自主式的;2)缺少高效的基因去冗方法。多數(shù)基因特征選擇方法并沒有考慮基因之間的相似性、冗余度。而另一些基因特征選擇方法采用纏繞法,搜索基因的方式選擇基因子集,復(fù)雜度較高,且基因選擇數(shù)量難以確定。針對(duì)以上問題,本文分兩步過濾噪聲和冗余基因,并結(jié)合置換檢驗(yàn)的方法,能自主地選擇出可解釋性高的基因子集,計(jì)算復(fù)雜度低,適合處理大規(guī)?;驍?shù)據(jù)。
基因特征選擇既要去掉噪聲基因,又要去掉冗余基因。針對(duì)該問題,Peng等[9]提出了一種最小冗余最大關(guān)聯(lián)基因特征選擇算法mRMR(minimal-redundancymaximal-relevance)。用VS表示基因子集S的分辨力,WS表示基因子集S的冗余度,則基因子集S的重要性可用如下表達(dá)評(píng)價(jià)
而φ(gi,h)表示基因與類別的關(guān)聯(lián)性,φ(gi,gj)表示基因之間的冗余度。
從mRMR不難發(fā)現(xiàn),一個(gè)好的基因子集應(yīng)該具有最強(qiáng)的分辨力、最小的冗余度。最強(qiáng)的分辨力要求該基因子集能夠?qū)λ蓄悇e加以分辨識(shí)別;最小的冗余度要求該基因子集中基因之間不應(yīng)具有相同的分辨力。然而,mRMR在選擇特征基因的時(shí)候需要搜索整個(gè)候選基因子集,復(fù)雜度高,不適合大規(guī)?;驍?shù)據(jù)處理,后文實(shí)驗(yàn)證實(shí)了分析結(jié)果;并且mRMR同時(shí)將“相關(guān)性”和“冗余度”融合在一起,并不能有效地去掉冗余基因,后文實(shí)驗(yàn)證實(shí)了分析結(jié)果。針對(duì)該問題,本文拆分mRMR中的“相關(guān)性”和“冗余度”,采用過濾噪聲和冗余基因方法,并結(jié)合置換檢驗(yàn),自主的選擇基因。
在基因特征選擇過程中,只要基因在不同類別不同樣本之間存在著顯著性差異,那么我們就認(rèn)為該基因具有分辨能力,應(yīng)該被選作特征基因。基因在不同類別上的差異可以通過方差分析度量。這種差異性的大小通過F統(tǒng)計(jì)量的值來度量
(4)式中:ˉg表示樣本在基因gi上的均值;ˉgk表示類別為k的樣本在基因gi上的均值;σ2表示樣本在各類別上的合并方差
顯然F(gi)值越大,基因在不同類別不同樣本的差異越大,而在相同類別不同樣本的差異越小,則該基因的分辨能力越大,應(yīng)該排在前面。
基因特征選擇的一個(gè)重要目的就是在不降低分類器分辨能力的前提下,選擇最少的,最有“鑒別”能力的基因子集。我們采用方差分析中的F統(tǒng)計(jì)量對(duì)DCOG數(shù)據(jù)集(數(shù)據(jù)集來自歐洲生物信息中心,編號(hào)為 E-GEOD-13351)基因排序,選擇權(quán)值最大的100個(gè)基因,對(duì)基因?qū)哟尉垲?,聚類結(jié)果如圖1所示。
圖1 DCOG數(shù)據(jù)基因?qū)哟尉垲惤Y(jié)果Fig.1 Hierarchical clustering of DCOG data
鄧林等[11]指出方差分析以及線性相關(guān)系數(shù)需要假設(shè)數(shù)據(jù)服從正態(tài)分布,才能夠采用假設(shè)檢驗(yàn)的方法確定基因選擇數(shù)目;而當(dāng)數(shù)據(jù)不服從正態(tài)分布時(shí),這些基因選擇方法便不能獲得最佳實(shí)驗(yàn)結(jié)果。采用假設(shè)檢驗(yàn)的方法對(duì)結(jié)腸癌數(shù)據(jù)集、白血病數(shù)據(jù)集和乳腺癌數(shù)據(jù)集以實(shí)驗(yàn)的方式進(jìn)行了正態(tài)性檢
從圖1中我們可以發(fā)現(xiàn)大量具有相同分辨能力的基因聚集在一起,這些基因大部分都是冗余的。對(duì)DCOG數(shù)據(jù)中排在第90位的基因228057_at,該基因?qū)yperdiploid類別有分辨能力,但是如果我們只選擇最好的89個(gè)或者更少的基因,將無法對(duì)該類別進(jìn)行識(shí)別。相反如果我們選擇最好的90個(gè)或者更多的基因,將造成大量冗余基因。一個(gè)好的方法是去掉96個(gè)冗余的基因,留下4個(gè)非冗余的基因。因此,基因特征選擇第二步需要檢驗(yàn)兩個(gè)基因是否存在相似性。
Mitra等[10]指出了3種度量基因相似性的方法,包括線性相關(guān)系數(shù)(correlation coefficient),最小二乘回歸誤差(least square regression error)以及最大信息壓縮指標(biāo)(maximal information compression index)。其中線性相關(guān)系數(shù)廣泛用于度量?jī)山M隨機(jī)變量之間的相似性。對(duì)于基因gi和gj,他們之間的線性相關(guān)系數(shù)被定義為驗(yàn),零假設(shè)是樣本服從高斯分布,所選取的顯著性水平為0.05,實(shí)驗(yàn)表明這3種腫瘤數(shù)據(jù)集都不服從正態(tài)分布。
從2.1節(jié)中我們知道,對(duì)于分辨能力基因,基因在不同類別中存在顯著性差異,基因表達(dá)值是不可“交換”的;相反,對(duì)于噪聲基因,基因服從隨機(jī)分布,基因表達(dá)值是可以“交換”的。同理,從2.2節(jié)中我們知道,對(duì)于存在相關(guān)性的兩個(gè)基因,基因表達(dá)值是不可以“交換”的;否則基因表達(dá)值是可以“交換”的?;谠撍枷?,我們采用置換檢驗(yàn)[12]來確定基因的分辨能力以及基因的相關(guān)性。首先給出F和C的顯著性和顯著性臨界值的定義。
定義1 基因顯著性。令Fobs和Cobs分別表示原始觀察數(shù)據(jù)的F和C值,F(xiàn)perm和Cperm分別表示隨機(jī)置換后的F和C值。經(jīng)過多次隨機(jī)置換后(Anderson等[12]指出隨機(jī)置換次數(shù) no.of perms不應(yīng)該少于1 000,5 000已經(jīng)足夠),F(xiàn)和C值的顯著性由如下表達(dá)式給出
顯然,對(duì)于噪聲基因,隨機(jī)置換不會(huì)改變?cè)紨?shù)據(jù)分布,F(xiàn)perm≥Fobs在隨機(jī)置換中出現(xiàn)頻率較高,則P-Value較大;相反,對(duì)于分辨能力的基因,隨機(jī)置換會(huì)改變?cè)紨?shù)據(jù)的分布,F(xiàn)perm≥Fobs在隨機(jī)置換過程中出現(xiàn)頻率較低,則P-Value較小。根據(jù)經(jīng)典的統(tǒng)計(jì)理論,當(dāng)P-Value小到一定程度,例如1% ,我們拒絕零假設(shè),認(rèn)為數(shù)據(jù)不服從隨機(jī)分布;并接受備擇假設(shè),認(rèn)為基因具有分辨能力,基因之間存在相關(guān)性。
定義2 顯著性臨界值。令Fperms和Cperms分別表示多次隨機(jī)置換后,統(tǒng)計(jì)值F和C從大到小的序列。給定置信度α和β,則F和C的顯著性臨界值Fcrit和Ccrit由如下表達(dá)式給出
我們提出的基于置換檢驗(yàn)的基因選擇算法描述如下。本文中,根據(jù)實(shí)驗(yàn)結(jié)果,分別取置信度α=1%和β=0.1%?;谥脫Q檢驗(yàn)的兩步基因特征選擇算法如下。
如圖2-圖5描述對(duì)DCOG數(shù)據(jù)集作特征選擇的過程。算法第1步去掉冗余噪聲,圖2表示對(duì)基因數(shù)據(jù)做5 000次隨機(jī)置換,得到關(guān)于F的統(tǒng)計(jì)分布。此時(shí)置信度α=1%,其顯著性臨界值Fcrit=4.18。當(dāng)FobsFcrit時(shí),我們接受零假設(shè),認(rèn)為基因無分辨能力;相反當(dāng)Fobs≥Fcrit,我們拒絕零假設(shè),認(rèn)為基因具有分辨能力。如圖3所示,從54 675個(gè)原始基因中,去掉39 172個(gè)噪聲基因,留下15 503個(gè)有分辨能力的基因。算法第2步去掉冗余基因,圖4對(duì)基因數(shù)據(jù)做5 000次隨機(jī)置換,得到關(guān)于C的統(tǒng)計(jì)分布。此時(shí)置信度β=0.1%,其顯著性臨界值Ccrit=0.32。當(dāng)CobsCcrit時(shí),我們接受零假設(shè),認(rèn)為基因之間不存在相關(guān)性;相反當(dāng) Cobs≥Ccrit,我們拒絕零假設(shè),認(rèn)為基因之間存在相關(guān)性。如圖5所示,從剩余15 503個(gè)基因中,去掉15 106個(gè)冗余基因,留下379個(gè)有分辨能力的基因。
容易計(jì)算算法的時(shí)間復(fù)雜度,算法第1步中,需要掃描數(shù)據(jù)集一次,計(jì)算每個(gè)基因的F統(tǒng)計(jì)量的表達(dá)值,即時(shí)間復(fù)雜度為O(nm)。算法第2步中,需要計(jì)算基因之間的相關(guān)系數(shù)C,其時(shí)間復(fù)雜度是O(n2m)。實(shí)際上,算法時(shí)間復(fù)雜度與剩余的基因數(shù)目相關(guān),假設(shè)最后選擇的基因個(gè)數(shù)為k,根據(jù)實(shí)驗(yàn)結(jié)果k?n。則復(fù)雜度分別是O(knm)。
本文采用一種簡(jiǎn)化的PAM(prediction analysis for microarrays)分類器評(píng)估基因子集的分辨能力。PAM是Tibshirani等[5]提出的一種集成特征選擇與分類方法,能夠?qū)Χ囝悇e問題進(jìn)行特征選擇與分類。本文采用Nikulin等[1]的方法,將PAM分類器簡(jiǎn)化為
圖5 C統(tǒng)計(jì)量在DCOG數(shù)據(jù)上的分布圖Fig.5 Frequency distribution of C under DCOG
本文主要采用了 RSCTC'2010 Discovery Challenge[1]12個(gè)競(jìng)賽數(shù)據(jù)集,數(shù)據(jù)集來自歐洲生物信息中心,在 http://tunedit.org/repo/RSCTC/2010/下載。數(shù)據(jù)集描述如表1所示。
表1 基因數(shù)據(jù)集Tab.1 Gene datasets
3.3.1 基因相似性分析
為了檢驗(yàn)冗余基因?qū)Ψ诸惤Y(jié)果的影響,我們?cè)O(shè)計(jì)去掉冗余基因與未去掉冗余基因分類器性能對(duì)比實(shí)驗(yàn)。首先觀察算法的3個(gè)階段:1)原始階段,沒有進(jìn)行特征選擇;2)第1步,去掉噪聲;3)第2步,去掉噪聲和冗余。采用PAM分類器對(duì)data1-data12等12個(gè)數(shù)據(jù)集進(jìn)行LOOCV留一測(cè)試。令Crr(S)表示基因子集S的正確識(shí)別率;Swfs,Sorn和Srnr分別表示:沒有進(jìn)行特征選擇(without feature selection)、去掉噪聲(only removed noisy)和去掉噪聲和冗余(removed noisy and redundancy)的基因子集。從圖6我們不難發(fā)現(xiàn):隨著算法處理步驟的增加,基因子集的識(shí)別率呈現(xiàn)階梯上升趨勢(shì),即Crr(Swfs)≤Crr(Sorn)≤Crr(Srnr)。原因是算法第1步,我們?cè)诩尤刖哂蟹直婺芰虻耐瑫r(shí)也加入了大量的冗余基因,這些冗余基因?qū)е路诸惼鬟^訓(xùn)練、過學(xué)習(xí)。當(dāng)加入算法第2步后,冗余基因被去掉,此時(shí)基因子集具有最強(qiáng)的分辨能力,最小的冗余度,因此分類器識(shí)別率達(dá)到最大值。
圖6 算法不同狀態(tài)識(shí)別率對(duì)比Fig.6 Correct recognition rate of different states
不僅如此,試驗(yàn)中我們還記錄每次基因選擇的數(shù)目,如表2所示。令Num(S)表示基因子集S的基因數(shù)目,從表2中不難發(fā)現(xiàn),雖然識(shí)別率上升了,但是我們選擇的基因數(shù)目卻下降了,即Num(Swfs)≥Num(Sorn)≥Num(Srnr)。Li等[2]認(rèn)為由于基因數(shù)據(jù)中樣本數(shù)目較少,試驗(yàn)中只需要50左右的少量基因,就能完全分辨所有的樣本。在本文中,雖然基因數(shù)目達(dá)到2~5萬(wàn),但最后留下的50~200基因子集能夠很好地識(shí)別樣本,證明了本算法在選擇基因數(shù)目上的有效性。
3.2.2 基因識(shí)別率分析
Nikulin等[1]采用集成 Wilcoxon秩和檢驗(yàn)與Fisher準(zhǔn)則函數(shù)融合方法ENS(WXN+FDC)對(duì)da-ta1-data6等6個(gè)基因數(shù)據(jù)集進(jìn)行特征選擇,并采用PAM分類器進(jìn)行LOOCV留一測(cè)試,得到正確識(shí)別率和基因選擇數(shù)目如表3所示,N表示基因選擇數(shù)目,P表示正確識(shí)別率。Piotr等[13]采用改進(jìn)的SAM5方法,對(duì)data7-data12等6個(gè)基因數(shù)據(jù)集進(jìn)行特征選擇,并采用類似PAM的加權(quán)投票分類器WVC-8_v1.4進(jìn)行LOOCV留一測(cè)試,得到正確識(shí)別率如表3所示。
表2 算法不同狀態(tài)基因數(shù)目對(duì)比Tab.2 Number of gene to select under different states
本文首先采用兩步基因特征選擇算法對(duì)基因進(jìn)行特征選擇,然后采用PAM分類器與LOOCV留一測(cè)試法,得到正確識(shí)別率和基因選擇數(shù)目如表3所示。從表3可以看出:1)本文(Ours)和文獻(xiàn)[1,13](Others)在進(jìn)行特征選擇后,分類器正確識(shí)別率較原始基因集(Orignal)大大提高,并且留下的基因數(shù)目大大減少;2)比較文獻(xiàn)[1,13]的結(jié)果,本文提出的算法在data1-data12等基因數(shù)據(jù)上不僅能選擇較少的基因子集,而且能獲得較高的識(shí)別率。其原因是文獻(xiàn)[1,13]并沒有考慮基因之間的冗余性,造成分類器過學(xué)習(xí)、過擬合。而本文采用兩步基因特征選擇算法,不僅去掉了噪聲基因,而且去掉了冗余基因。特征選擇后剩下的基因子集具有最強(qiáng)的分辨力、最小的冗余度,提高了分類器識(shí)別率。
Nikulin[1]和 Piotr[13]沒有考慮基因之間的冗余性,Peng[9]考慮基因之間的相似性、冗余度,采用貪心搜索算法,逐步向基因子集中添加基因,添加基因時(shí)采用最小冗余最大關(guān)聯(lián)度量基因的重要性。假設(shè)已經(jīng)選擇的基因子集用S表示,對(duì)基因gi∈{G}-{S},其權(quán)值為
(13)式中:φ(gi,h)表示基因 gi與類別 h的關(guān)聯(lián)性,用 F(gi,h)度量;φ(gi,gj)表示基因 gi,gj的冗余度,用 C(gi,gj)度量。
我們采用mRMR選擇最好的200個(gè)基因與本文的方法作對(duì)比。采用PAM分類器,對(duì)選擇的基因做LOOCV留一測(cè)試,得到正確識(shí)別率如表3所示,其中:時(shí)間P表示識(shí)別率;T表示時(shí)間,單位為秒;N表示基因數(shù)目。從表3中不難發(fā)現(xiàn),本文提出的算法不僅能選擇較少的基因子集,獲得較高的識(shí)別率,而且計(jì)算時(shí)間復(fù)雜度低,適合大規(guī)模的基因特征選擇。其原因是mRMR需要搜索整個(gè)候選基因集,并且不能很好地去掉冗余基因。例如,對(duì)于基因gi和gj,他們具有相同的分辨力,同時(shí)他們具有很強(qiáng)的相似性。然而,在式(12)中,gi和gj對(duì)基因子集S的冗余度可能較小,原因是基因子集S可能存在大量與gi和gj不相似的基因,這樣在冗余度計(jì)算的時(shí)候,弱化了gi和gj的相似性。
表3 算法正確識(shí)別率對(duì)比Tab.3 Comparison of different algorithm
高度相關(guān)的基因是冗余的,并不會(huì)對(duì)分類器性能帶來提升,因?yàn)槲覀儾荒軓闹蝎@取額外有用信息;相反,過多冗余的基因?qū)е路诸惼鬟^訓(xùn)練、過學(xué)習(xí),降低分類器性能。本文提出的基于置換檢驗(yàn)的兩步基因特征選擇算法,不僅能夠過濾噪聲基因,而且能夠過濾冗余基因,結(jié)合置換檢驗(yàn),能夠高效選擇基因子集。
[1]WOJINARSKIM,JANUSZA,NGUYENH S,etal.RSCTC'2010 Discovery Challenge:Mining DNA Microarray Data for Medical Diagnosis and Treatment[C]//Szczuka M,Kryszkiewicz M,Ramanna S,et al.RSCTC 2010.Heidelberg:Springer,2010:4-19.
[2]LIW T,YANG Y N.How many genes are needed for a discriminantmicroarray data analysis[EB/OL].(2011-06-30)[2011-12-21].http://wenku.baidu.com/view/885373e9172ded630b1cb692.html.
[3]周昉,呵潔月.生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J]. 計(jì)算機(jī)科學(xué),2007,34(12):143-150.
ZHOU Fang,HE Jie-yue.Survey of the Gene Selection Technologies Based on Microarray in Bioinformatics[J].Computer Science,2007,34(12):143-150.
[4]VTUSHER V G,TIBSHIRANIR,CHU G.Significance analysis of microarrays applied to the ionizing radiation response[J].Proceedings of the National Academy of Sciences,2001,98(9):5116-5121.
[5]TIBSHIRANIR,HASTIE T,NARASIMHAN B,et al.Diagnosis ofmultiple cancer types by shrunken centroids of gene expression[J].Proceedings of the National A-cademy of Sciences,2002,99(10):6567–6572.
[6]GUYON I,WESTON J,BARNHILL S,et al.Gene Selection for Cancer Classification using Support Vector Machines[J].Machine Learning,2002,46(1-3):389-422.
[7]李穎新,李建更,阮曉鋼.腫瘤基因表達(dá)譜分類特征基因選取問題及分析方法研究[J].計(jì)算機(jī)學(xué)報(bào),2006,29(2):324-330.
LIYing-xin,LI Jian-gen,RUAN Xiao-gang.Study of Informative Gene Selection for Tissue Classification Based on Tumor Gene Expression Profiles[J].Chinese Journal of Computers,2006,29(2):324-330.
[8]王樹林,王戟,陳火腫,等.腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):636-649.
WANG Shu-lin,WANG Ji,CHEN Huo-Zhong,et al.Heuristic Breadth-First Search Algorithm for Informative Gene Selection Based on Gene Expression Profiles[J].Chinese Journal of Computers,2008,31(4):636-649.
[9]PENG H C,LONG F H,DING C H.Feature selection based onmutual information:criteria ofmax-dependency,min-relevance,andmin-redundancy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[10]MITRA P,MURTHY CA,PAL SK.Unsupervised Feature Selection Using Feature Similarity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(3):301-311.
[11]鄧林,馬盡文,裴健.秩和基因選取方法及其在腫瘤診斷中的應(yīng)用[J].科學(xué)通報(bào),2004,49(15),1652-1657.DENG Lin,MA Jin-wen,PEI Jian.Gene Selection Method Based on Rank-Sum test and Its Application in Tumor Diagnosis[J].Chinese Science Bulletin,2004,49(15),1652-1657.
[12]ANDERSON M J.Permutation tests for univariate ormultivariate analysis of variance and regression [J].Canadian Journal of Fisheries and Aquatic Sciences,2001,58(3):626-639.
[13]PIOTR A.The Extraction Method of DNA Microarray Features Based on Experimental A Statistics[C]//Yao J T,Ramanna S,Wang G Y,et al.RSKT 2011.Heidelberg:Springer,2011:642-648.
(編輯:田海江)