核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用

2016-06-24 01:59:30董洪偉薛燕娜

傳感器與微系統(tǒng) 2016年5期

關(guān)鍵詞：極限學(xué)習(xí)機(jī)

楊　勤，董洪偉，薛燕娜

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122)

核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用

楊勤，董洪偉，薛燕娜

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122)

摘要:針對微陣列數(shù)據(jù)樣本量少、維度高的特點，結(jié)合當(dāng)前數(shù)據(jù)降維方法中沒有考慮特征與特征之間相關(guān)性的缺點，提出一種核最小二乘的特征基因選擇方法。將解釋變量空間通過非線性映射轉(zhuǎn)換到高維空間上，再在高維空間上進(jìn)行最小二乘回歸，并采用極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練和預(yù)測。結(jié)果表明：對三種經(jīng)典數(shù)據(jù)集的分類精度分別達(dá)到90.47 %，88.89 %，88.23 %，高于傳統(tǒng)的機(jī)器學(xué)習(xí)算法，充分表明本方法的優(yōu)越性。

關(guān)鍵詞:微陣列分類；基因選擇；核最小二乘；極限學(xué)習(xí)機(jī)

0引言

隨著人類基因組計劃的逐步實施和分子生物學(xué)迅猛發(fā)展，基因數(shù)據(jù)正在以前所未有的速度增長。微陣列技術(shù)就是順應(yīng)這一科學(xué)發(fā)展的產(chǎn)物，并且廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)等領(lǐng)域[1]。微陣列數(shù)據(jù)是大數(shù)據(jù)時代的又一突破，但其樣本少而維度高的特點極易給數(shù)據(jù)分析帶來"維度災(zāi)難"。研究者們在數(shù)據(jù)降維上提出了多種方法，如典型相關(guān)分析(CCA)、主成分分析(PCA)等[2]，但是這些降維方法仍達(dá)不到高精度生物學(xué)的研究目的。普通的單變量法具有低復(fù)雜度、高性能的優(yōu)點，但它忽略了特征之間的聯(lián)系，會丟棄一些有用的特征。而傳統(tǒng)的多變量是基于條件熵之間的相交信息，仍然丟棄了一些被判定為冗余變量的特征，會對結(jié)果產(chǎn)生影響[3]。

偏最小二乘(PLS)綜合了CCA和PCA的優(yōu)點，常用于樣本值遠(yuǎn)大于樣本數(shù)的情況。傳統(tǒng)的PLS只是在原始空間利用線性回歸捕獲基因間的線性關(guān)系，在實際應(yīng)用中，線性方法常常不能捕獲所有的基因信息。本文提出的基于核的PLS方法則通過將原始數(shù)據(jù)隱射到高位空間來揭示原始數(shù)據(jù)間的內(nèi)在關(guān)系來提取有效的特征基因，并且利用極限學(xué)習(xí)機(jī)(ELM)[4]來對特征基因進(jìn)行訓(xùn)練，從而對待測數(shù)據(jù)進(jìn)行預(yù)測。

1微陣列分析概述

隨著基因微陣列技術(shù)的快速發(fā)展，生物學(xué)家可以在某一個實驗中檢測到成千上萬的基因表達(dá)水平，DNA基因序列通過轉(zhuǎn)錄變?yōu)閙RNA，將細(xì)胞中的mRNA定量雜交配種可以得到cDNA或者寡核苷酸陣列，這些體現(xiàn)細(xì)胞中相關(guān)mRNA平均分子數(shù)的數(shù)據(jù)即為微陣列數(shù)據(jù)[5]。微陣列數(shù)據(jù)通常被表示成矩陣形式，m個基因在n個mRNA雜交樣本上的基因表達(dá)數(shù)據(jù)以一個m×n矩陣表示，每列表示一個基因，每行表示一個mRNA樣本[6]。在微陣列數(shù)據(jù)的分析中，研究者通常采用有監(jiān)督的分類方法，比如K近鄰算法(KNN)、樸素貝葉斯或者支持向量機(jī)(SVM)[7]等方法。本文采用ELM對三個數(shù)據(jù)集分類，分類精度都高于目前研究中的經(jīng)典算法。

2核最小二乘和極限學(xué)習(xí)機(jī)

2.1核最小二乘算法

當(dāng)原始數(shù)據(jù)和類標(biāo)簽存在線性關(guān)系時，可運(yùn)用偏最小二乘回歸(PLS)來分析數(shù)據(jù)。對于非線性關(guān)系和復(fù)雜關(guān)系，偏最小二乘卻難以湊效。將核函數(shù)引入到PLS中，將其應(yīng)用到非線性領(lǐng)域，這樣改善了PLS只能用于線性模型分析的局限性，還能在一定程度上提高預(yù)測準(zhǔn)確率。

在本文中，X∈RN·D表示N維輸入數(shù)據(jù)矩陣(樣本)，Y∈RN·C表示相應(yīng)的C維響應(yīng)矩陣(標(biāo)簽)。假設(shè)X和Y都是零均值數(shù)據(jù)。PLS的目的是針對

avgmax‖v‖=1,‖c‖=1cov(t,u)=cov(Xv,Yc)

(1)

優(yōu)化問題使用迭代方法計算v(X權(quán)重),c(Y權(quán)重),t(X貢獻(xiàn)值),u(Y貢獻(xiàn)值)，其中，t=Xv,u=Yc分別是指X和Y的成分。當(dāng)?shù)谝唤M成分t1和u1給定，第二組成分t2和u2則分別可以通過殘差Ex=X-t1pT和EY=Y-t1qT計算出來，p和q指t針對X和Y的荷載，當(dāng)滿足一定條件時，這個過程才停止。本文提出的核最小二乘(KLS)利用非線性變換Φ將基因表達(dá)數(shù)據(jù)映射到高維的核空間K，不需要知道非線性映射的具體數(shù)學(xué)表達(dá)，只需要在滿足Merser條件的情況下在原始空間上進(jìn)行點積運(yùn)算。為了在算法中實現(xiàn)點積操作，將v約束在這些點的一個線性跨度內(nèi),表達(dá)為

(2)

即

(3)

設(shè)Kx(xi,xj)為特征空間的格拉姆矩陣，h為期望的成分?jǐn)?shù)。KLS的第一個成分是平方核矩陣βΦ的特征值，βΦλ=KYKXβΦ，λ為特征值。無論原始矩陣中的X和Y中有多少變量，這些核矩陣不受影響。可見基于核的PLS是一個強(qiáng)大的能迅速解決問題的算法。

2.2極限學(xué)習(xí)機(jī)

針對普通前饋神經(jīng)網(wǎng)絡(luò)存在網(wǎng)絡(luò)結(jié)構(gòu)不穩(wěn)定、學(xué)校效率低、容易產(chǎn)生過擬合等問題，黃廣斌提出了極限學(xué)習(xí)機(jī)，已經(jīng)證明在神經(jīng)網(wǎng)絡(luò)中隱含層節(jié)點的參數(shù)隨機(jī)賦值能夠大大提高網(wǎng)絡(luò)學(xué)習(xí)的效率，因而，本文在對微陣列數(shù)據(jù)分類中直接應(yīng)用極限學(xué)習(xí)機(jī)，并與先前研究者用的SVM，KNN和ANN等分類算法進(jìn)行比較。ELM模型表述如下：

普通前饋神經(jīng)網(wǎng)絡(luò)中，N個樣本(xi,ti)∈Rm×Rn，m和n分別為輸入和輸出樣本的維度，隱含層節(jié)點個數(shù)為M，M≦N，所選擇的激活函數(shù)為g(·)，因此，普通單層前饋網(wǎng)的模型為

(4)

式中(wi,bi)為隱含層神經(jīng)元的參數(shù)值，βi為輸出權(quán)值，j=1，2,…，N,則上述式(4)可以寫成

Hβ=T

(5)

式中

(6)

為隱含層節(jié)點的輸出矩陣，其第i列表示第i個隱含層神經(jīng)元關(guān)于輸入x1，x2，…,xN的輸出值

(7)

由文獻(xiàn)[8]知，當(dāng)M=N時，一旦給定(wi,bi)的值，輸出矩陣H可逆，這時，ELM可以以很小的誤差逼近各種學(xué)習(xí)樣本，但是一般情況M遠(yuǎn)大于N，H為M×N的矩陣，這就要求所求H的廣義逆H+，可采用奇異值分析法來求解廣義逆矩陣，此時，可由式(3)求解

(8)

使用ELM時一個重要的過程是對激活函數(shù)的選取，激活函數(shù)有sigmoid,sin,RBF等，文獻(xiàn)[8]中將這些激活函數(shù)應(yīng)用于同一非線性樣本數(shù)據(jù)上并作對比，發(fā)現(xiàn)sin函數(shù)在效率和精確度上最佳，因此，本文也選用sin作為ELM的激活函數(shù)。

3實驗與結(jié)果分析

3.1實驗數(shù)據(jù)準(zhǔn)備

在先前的研究中，使用最多的微陣列數(shù)據(jù)是白血病(Leukemia)、乳腺癌(Breast)和結(jié)腸癌(Lung)三個數(shù)據(jù)集，它們包括二分類和多分類，其相關(guān)信息如表1所示。

表1　本文使用的微陣列數(shù)據(jù)

分類器而言分類精度都最大，因此，在基因選擇數(shù)為25時，對數(shù)據(jù)集Leukemia中的選擇基因與文獻(xiàn)[9]進(jìn)行比較，發(fā)現(xiàn)重疊率達(dá)到76 %，說明本文提出的特征選擇方法是有效的，如表2所示(其中黑體表示本文選取的特征基因與文獻(xiàn)[9]重疊的基因名稱)。

表2　對Leukemia數(shù)據(jù)集選取的前25個特征基因名稱

3.2數(shù)據(jù)分類

本文對微陣列數(shù)據(jù)提取特征信息后，應(yīng)用極限學(xué)習(xí)機(jī)來訓(xùn)練和預(yù)測。由于極限學(xué)習(xí)機(jī)參數(shù)是隨機(jī)賦值的，因此其隱含層神經(jīng)元個數(shù)的設(shè)置至關(guān)重要，本文激活函數(shù)為sin函數(shù)，隱含層神經(jīng)元數(shù)N由0到2000每間隔11取一次值，對分類精度進(jìn)行分析，發(fā)現(xiàn)隨著N值的變大，精度變高，當(dāng)N=1 800時，精度就達(dá)到了88 %，且當(dāng)N繼續(xù)增大時，精度變化不大;當(dāng)N=1 870時，精度最大，達(dá)到90.47 %，如圖1所示。

圖1　隱含層神經(jīng)元個數(shù)與分類精度效果圖Fig 1　Effect figure of numbers of hidden layer neurons and classification percision

對Lymphoma和Lung數(shù)據(jù)集采用同樣的方法進(jìn)行特征基因選擇和隱含層神經(jīng)元個數(shù)設(shè)置，最后得到本文方法(KPL_ELM)對其分類的精度，與先前的研究[12]對比情況如表3所示(黑體精度值為幾種方法中最大值)。

表3　本文方法與先前經(jīng)典算法的分類精度比較(%)

從實驗結(jié)果可以看出：本文提出的KPL_ELM算法對微陣列數(shù)據(jù)的特征基因選擇和分類效果有顯著的提高，說明本文方法是有效可行的。

4結(jié)束語

本文針對微陣列數(shù)據(jù)樣本量小而維度高的特點，結(jié)合當(dāng)前降維和特征提取方法速度慢、未考慮特征間聯(lián)系的劣勢，提出基于核的最小二乘方法來提取特征基因，并應(yīng)用極限學(xué)習(xí)機(jī)來對實驗數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測，與以往的研究對比，實驗精確度得到了很大程度的提高，充分說明本文算法的優(yōu)越性和實用性，為生物醫(yī)學(xué)中對疾病的診斷和分類開拓了新思路。

參考文獻(xiàn):

[1]于化龍,高尚,趙靖,等.基于過采樣技術(shù)和隨機(jī)森林的不平衡微陣列數(shù)據(jù)分類方法研究[J].計算機(jī)科學(xué),2012(5):190-194.

[2]金益,姜真杰.核主成分分析與典型相關(guān)分析相融合的人臉識別[J].計算機(jī)應(yīng)用與軟件,2014(1):191-193，270.

[3]Sun S,Peng Q,Shakoor A.A kernel-based multivariate feature selection method for micro-array data classification [J].PloS one,2014,9(7):102541.

[4]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applications [J].Neuro-computing,2006,70(1):489-501.

[5]呂娜.極限學(xué)習(xí)機(jī)及其在無線頻譜預(yù)測中的應(yīng)用研究[D].蘭州：蘭州大學(xué),2014.

[6]張麗娟,李舟軍.微陣列數(shù)據(jù)癌癥分類問題中的基因選擇[J].計算機(jī)研究與發(fā)展,2009(5):794-802.

[7]李強(qiáng),石陸魁,劉恩海,等.基于流形學(xué)習(xí)的基因微陣列數(shù)據(jù)分類方法[J].鄭州大學(xué)學(xué)報：工學(xué)版,2012(5):121-124.

[8]Chacko B P,Krishnan V R V,Raju G,et al.Handwritten character recognition using wavelet energy and extreme learning machin-e[J].International Journal of Machine Learning and Cybernetics,2012,3(2):149-161.

[9]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.

[10] Wang Y,Klijn J G M,Zhang Y,et al.Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer[J].The Lancet,2005,365(9460):671-679.

[11] Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses [C]∥Proceedings of the National Academy of Sciences,2001:13790-13795.

[12] 王剛,張禹瑄,李穎,等.一種微陣列數(shù)據(jù)降維新方法[J].吉林大學(xué)學(xué)報：工學(xué)版,2014(5):1429-1434.

Application of kernel-based multiple gene selection method and extreme learning machine in microarray analysis

YANG Qin，DONG Hong-wei，XUE Yan-na

(College of The Internet of Things Engineering，Jiangnan University，Wuxi 214122，China)

Abstract:As quantity of microarray data sample is little and dimension of each sample is high,combined with disadvantages that in current data dimension reduction methods,correlation between features is not considered,put forward a kind of kernel-based least squares method for feature gene selection.Map explaining variable space to high dimension space,via nonlinear mapping transformation,and then carry out least-squares regression in high dimensional space;use extreme learning machine for training and predicting.The results show that classification precision of the three kinds of classic data set is 90.47 %,88.89 %,88.23 %,which is higher than traditional machine learning algorithms,which fully demonstrates superiority of this method.

Key words:microarray classification;gene selection;kernel least squares;extreme learning machine

DOI:10.13873/J.1000—9787(2016)05—0146—03

收稿日期：2015—08—17

中圖分類號:TP 183

文獻(xiàn)標(biāo)識碼:A

文章編號:1000—9787(2016)05—0146—03

作者簡介:

楊勤(1990-)，男，湖北黃岡人，碩士研究生，主要研究方向為模式識別、生物信息學(xué)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用