楊 勤,董洪偉,薛燕娜
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用
楊勤,董洪偉,薛燕娜
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
摘要:針對微陣列數(shù)據(jù)樣本量少、維度高的特點,結(jié)合當(dāng)前數(shù)據(jù)降維方法中沒有考慮特征與特征之間相關(guān)性的缺點,提出一種核最小二乘的特征基因選擇方法。將解釋變量空間通過非線性映射轉(zhuǎn)換到高維空間上,再在高維空間上進(jìn)行最小二乘回歸,并采用極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練和預(yù)測。結(jié)果表明:對三種經(jīng)典數(shù)據(jù)集的分類精度分別達(dá)到90.47 %,88.89 %,88.23 %,高于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,充分表明本方法的優(yōu)越性。
關(guān)鍵詞:微陣列分類;基因選擇;核最小二乘;極限學(xué)習(xí)機(jī)
0引言
隨著人類基因組計劃的逐步實施和分子生物學(xué)迅猛發(fā)展,基因數(shù)據(jù)正在以前所未有的速度增長。微陣列技術(shù)就是順應(yīng)這一科學(xué)發(fā)展的產(chǎn)物,并且廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)等領(lǐng)域[1]。微陣列數(shù)據(jù)是大數(shù)據(jù)時代的又一突破,但其樣本少而維度高的特點極易給數(shù)據(jù)分析帶來"維度災(zāi)難"。研究者們在數(shù)據(jù)降維上提出了多種方法,如典型相關(guān)分析(CCA)、主成分分析(PCA)等[2],但是這些降維方法仍達(dá)不到高精度生物學(xué)的研究目的。普通的單變量法具有低復(fù)雜度、高性能的優(yōu)點,但它忽略了特征之間的聯(lián)系,會丟棄一些有用的特征。而傳統(tǒng)的多變量是基于條件熵之間的相交信息,仍然丟棄了一些被判定為冗余變量的特征,會對結(jié)果產(chǎn)生影響[3]。
偏最小二乘(PLS)綜合了CCA和PCA的優(yōu)點,常用于樣本值遠(yuǎn)大于樣本數(shù)的情況。傳統(tǒng)的PLS只是在原始空間利用線性回歸捕獲基因間的線性關(guān)系,在實際應(yīng)用中,線性方法常常不能捕獲所有的基因信息。本文提出的基于核的PLS方法則通過將原始數(shù)據(jù)隱射到高位空間來揭示原始數(shù)據(jù)間的內(nèi)在關(guān)系來提取有效的特征基因,并且利用極限學(xué)習(xí)機(jī)(ELM)[4]來對特征基因進(jìn)行訓(xùn)練,從而對待測數(shù)據(jù)進(jìn)行預(yù)測。
1微陣列分析概述
隨著基因微陣列技術(shù)的快速發(fā)展,生物學(xué)家可以在某一個實驗中檢測到成千上萬的基因表達(dá)水平,DNA基因序列通過轉(zhuǎn)錄變?yōu)閙RNA,將細(xì)胞中的mRNA定量雜交配種可以得到cDNA或者寡核苷酸陣列,這些體現(xiàn)細(xì)胞中相關(guān)mRNA平均分子數(shù)的數(shù)據(jù)即為微陣列數(shù)據(jù)[5]。微陣列數(shù)據(jù)通常被表示成矩陣形式,m個基因在n個mRNA雜交樣本上的基因表達(dá)數(shù)據(jù)以一個m×n矩陣表示,每列表示一個基因,每行表示一個mRNA樣本[6]。在微陣列數(shù)據(jù)的分析中,研究者通常采用有監(jiān)督的分類方法,比如K近鄰算法(KNN)、樸素貝葉斯或者支持向量機(jī)(SVM)[7]等方法。本文采用ELM對三個數(shù)據(jù)集分類,分類精度都高于目前研究中的經(jīng)典算法。
2核最小二乘和極限學(xué)習(xí)機(jī)
2.1核最小二乘算法
當(dāng)原始數(shù)據(jù)和類標(biāo)簽存在線性關(guān)系時,可運(yùn)用偏最小二乘回歸(PLS)來分析數(shù)據(jù)。對于非線性關(guān)系和復(fù)雜關(guān)系,偏最小二乘卻難以湊效。將核函數(shù)引入到PLS中,將其應(yīng)用到非線性領(lǐng)域,這樣改善了PLS只能用于線性模型分析的局限性,還能在一定程度上提高預(yù)測準(zhǔn)確率。
在本文中,X∈RN·D表示N維輸入數(shù)據(jù)矩陣(樣本),Y∈RN·C表示相應(yīng)的C維響應(yīng)矩陣(標(biāo)簽)。假設(shè)X和Y都是零均值數(shù)據(jù)。PLS的目的是針對
avgmax‖v‖=1,‖c‖=1cov(t,u)=cov(Xv,Yc)
(1)
優(yōu)化問題使用迭代方法計算v(X權(quán)重),c(Y權(quán)重),t(X貢獻(xiàn)值),u(Y貢獻(xiàn)值),其中,t=Xv,u=Yc分別是指X和Y的成分。當(dāng)?shù)谝唤M成分t1和u1給定,第二組成分t2和u2則分別可以通過殘差Ex=X-t1pT和EY=Y-t1qT計算出來,p和q指t針對X和Y的荷載,當(dāng)滿足一定條件時,這個過程才停止。本文提出的核最小二乘(KLS)利用非線性變換Φ將基因表達(dá)數(shù)據(jù)映射到高維的核空間K,不需要知道非線性映射的具體數(shù)學(xué)表達(dá),只需要在滿足Merser條件的情況下在原始空間上進(jìn)行點積運(yùn)算。為了在算法中實現(xiàn)點積操作,將v約束在這些點的一個線性跨度內(nèi),表達(dá)為
(2)
即
(3)
設(shè)Kx(xi,xj)為特征空間的格拉姆矩陣,h為期望的成分?jǐn)?shù)。KLS的第一個成分是平方核矩陣βΦ的特征值,βΦλ=KYKXβΦ,λ為特征值。無論原始矩陣中的X和Y中有多少變量,這些核矩陣不受影響。可見基于核的PLS是一個強(qiáng)大的能迅速解決問題的算法。
2.2極限學(xué)習(xí)機(jī)
針對普通前饋神經(jīng)網(wǎng)絡(luò)存在網(wǎng)絡(luò)結(jié)構(gòu)不穩(wěn)定、學(xué)校效率低、容易產(chǎn)生過擬合等問題,黃廣斌提出了極限學(xué)習(xí)機(jī),已經(jīng)證明在神經(jīng)網(wǎng)絡(luò)中隱含層節(jié)點的參數(shù)隨機(jī)賦值能夠大大提高網(wǎng)絡(luò)學(xué)習(xí)的效率,因而,本文在對微陣列數(shù)據(jù)分類中直接應(yīng)用極限學(xué)習(xí)機(jī),并與先前研究者用的SVM,KNN和ANN等分類算法進(jìn)行比較。ELM模型表述如下:
普通前饋神經(jīng)網(wǎng)絡(luò)中,N個樣本(xi,ti)∈Rm×Rn,m和n分別為輸入和輸出樣本的維度,隱含層節(jié)點個數(shù)為M,M≦N,所選擇的激活函數(shù)為g(·),因此,普通單層前饋網(wǎng)的模型為
(4)
式中(wi,bi)為隱含層神經(jīng)元的參數(shù)值,βi為輸出權(quán)值,j=1,2,…,N,則上述式(4)可以寫成
Hβ=T
(5)
式中
(6)
為隱含層節(jié)點的輸出矩陣,其第i列表示第i個隱含層神經(jīng)元關(guān)于輸入x1,x2,…,xN的輸出值
(7)
由文獻(xiàn)[8]知,當(dāng)M=N時,一旦給定(wi,bi)的值,輸出矩陣H可逆,這時,ELM可以以很小的誤差逼近各種學(xué)習(xí)樣本,但是一般情況M遠(yuǎn)大于N,H為M×N的矩陣,這就要求所求H的廣義逆H+,可采用奇異值分析法來求解廣義逆矩陣,此時,可由式(3)求解
(8)
使用ELM時一個重要的過程是對激活函數(shù)的選取,激活函數(shù)有sigmoid,sin,RBF等,文獻(xiàn)[8]中將這些激活函數(shù)應(yīng)用于同一非線性樣本數(shù)據(jù)上并作對比,發(fā)現(xiàn)sin函數(shù)在效率和精確度上最佳,因此,本文也選用sin作為ELM的激活函數(shù)。
3實驗與結(jié)果分析
3.1實驗數(shù)據(jù)準(zhǔn)備
在先前的研究中,使用最多的微陣列數(shù)據(jù)是白血病(Leukemia)、乳腺癌(Breast)和結(jié)腸癌(Lung)三個數(shù)據(jù)集,它們包括二分類和多分類,其相關(guān)信息如表1所示。
表1 本文使用的微陣列數(shù)據(jù)
分類器而言分類精度都最大,因此,在基因選擇數(shù)為25時,對數(shù)據(jù)集Leukemia中的選擇基因與文獻(xiàn)[9]進(jìn)行比較,發(fā)現(xiàn)重疊率達(dá)到76 %,說明本文提出的特征選擇方法是有效的,如表2所示(其中黑體表示本文選取的特征基因與文獻(xiàn)[9]重疊的基因名稱)。
表2 對Leukemia數(shù)據(jù)集選取的前25個特征基因名稱
3.2數(shù)據(jù)分類
本文對微陣列數(shù)據(jù)提取特征信息后,應(yīng)用極限學(xué)習(xí)機(jī)來訓(xùn)練和預(yù)測。由于極限學(xué)習(xí)機(jī)參數(shù)是隨機(jī)賦值的,因此其隱含層神經(jīng)元個數(shù)的設(shè)置至關(guān)重要,本文激活函數(shù)為sin函數(shù),隱含層神經(jīng)元數(shù)N由0到2000每間隔11取一次值,對分類精度進(jìn)行分析,發(fā)現(xiàn)隨著N值的變大,精度變高,當(dāng)N=1 800時,精度就達(dá)到了88 %,且當(dāng)N繼續(xù)增大時,精度變化不大;當(dāng)N=1 870時,精度最大,達(dá)到90.47 %,如圖1所示。
圖1 隱含層神經(jīng)元個數(shù)與分類精度效果圖Fig 1 Effect figure of numbers of hidden layer neurons and classification percision
對Lymphoma和Lung數(shù)據(jù)集采用同樣的方法進(jìn)行特征基因選擇和隱含層神經(jīng)元個數(shù)設(shè)置,最后得到本文方法(KPL_ELM)對其分類的精度,與先前的研究[12]對比情況如表3所示(黑體精度值為幾種方法中最大值)。
表3 本文方法與先前經(jīng)典算法的分類精度比較(%)
從實驗結(jié)果可以看出:本文提出的KPL_ELM算法對微陣列數(shù)據(jù)的特征基因選擇和分類效果有顯著的提高,說明本文方法是有效可行的。
4結(jié)束語
本文針對微陣列數(shù)據(jù)樣本量小而維度高的特點,結(jié)合當(dāng)前降維和特征提取方法速度慢、未考慮特征間聯(lián)系的劣勢,提出基于核的最小二乘方法來提取特征基因,并應(yīng)用極限學(xué)習(xí)機(jī)來對實驗數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測,與以往的研究對比,實驗精確度得到了很大程度的提高,充分說明本文算法的優(yōu)越性和實用性,為生物醫(yī)學(xué)中對疾病的診斷和分類開拓了新思路。
參考文獻(xiàn):
[1]于化龍,高尚,趙靖,等.基于過采樣技術(shù)和隨機(jī)森林的不平衡微陣列數(shù)據(jù)分類方法研究[J].計算機(jī)科學(xué),2012(5):190-194.
[2]金益,姜真杰.核主成分分析與典型相關(guān)分析相融合的人臉識別[J].計算機(jī)應(yīng)用與軟件,2014(1):191-193,270.
[3]Sun S,Peng Q,Shakoor A.A kernel-based multivariate feature selection method for micro-array data classification [J].PloS one,2014,9(7):102541.
[4]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applications [J].Neuro-computing,2006,70(1):489-501.
[5]呂娜.極限學(xué)習(xí)機(jī)及其在無線頻譜預(yù)測中的應(yīng)用研究[D].蘭州:蘭州大學(xué),2014.
[6]張麗娟,李舟軍.微陣列數(shù)據(jù)癌癥分類問題中的基因選擇[J].計算機(jī)研究與發(fā)展,2009(5):794-802.
[7]李強(qiáng),石陸魁,劉恩海,等.基于流形學(xué)習(xí)的基因微陣列數(shù)據(jù)分類方法[J].鄭州大學(xué)學(xué)報:工學(xué)版,2012(5):121-124.
[8]Chacko B P,Krishnan V R V,Raju G,et al.Handwritten character recognition using wavelet energy and extreme learning machin-e[J].International Journal of Machine Learning and Cybernetics,2012,3(2):149-161.
[9]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.
[10] Wang Y,Klijn J G M,Zhang Y,et al.Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer[J].The Lancet,2005,365(9460):671-679.
[11] Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses [C]∥Proceedings of the National Academy of Sciences,2001:13790-13795.
[12] 王剛,張禹瑄,李穎,等.一種微陣列數(shù)據(jù)降維新方法[J].吉林大學(xué)學(xué)報:工學(xué)版,2014(5):1429-1434.
Application of kernel-based multiple gene selection method and extreme learning machine in microarray analysis
YANG Qin,DONG Hong-wei,XUE Yan-na
(College of The Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)
Abstract:As quantity of microarray data sample is little and dimension of each sample is high,combined with disadvantages that in current data dimension reduction methods,correlation between features is not considered,put forward a kind of kernel-based least squares method for feature gene selection.Map explaining variable space to high dimension space,via nonlinear mapping transformation,and then carry out least-squares regression in high dimensional space;use extreme learning machine for training and predicting.The results show that classification precision of the three kinds of classic data set is 90.47 %,88.89 %,88.23 %,which is higher than traditional machine learning algorithms,which fully demonstrates superiority of this method.
Key words:microarray classification;gene selection;kernel least squares;extreme learning machine
DOI:10.13873/J.1000—9787(2016)05—0146—03
收稿日期:2015—08—17
中圖分類號:TP 183
文獻(xiàn)標(biāo)識碼:A
文章編號:1000—9787(2016)05—0146—03
作者簡介:
楊勤(1990-),男,湖北黃岡人,碩士研究生,主要研究方向為模式識別、生物信息學(xué)。