国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用

2016-06-24 01:59:30董洪偉薛燕娜
傳感器與微系統(tǒng) 2016年5期
關(guān)鍵詞:極限學(xué)習(xí)機(jī)

楊 勤,董洪偉,薛燕娜

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)

核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用

楊勤,董洪偉,薛燕娜

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)

摘要:針對微陣列數(shù)據(jù)樣本量少、維度高的特點,結(jié)合當(dāng)前數(shù)據(jù)降維方法中沒有考慮特征與特征之間相關(guān)性的缺點,提出一種核最小二乘的特征基因選擇方法。將解釋變量空間通過非線性映射轉(zhuǎn)換到高維空間上,再在高維空間上進(jìn)行最小二乘回歸,并采用極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練和預(yù)測。結(jié)果表明:對三種經(jīng)典數(shù)據(jù)集的分類精度分別達(dá)到90.47 %,88.89 %,88.23 %,高于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,充分表明本方法的優(yōu)越性。

關(guān)鍵詞:微陣列分類;基因選擇;核最小二乘;極限學(xué)習(xí)機(jī)

0引言

隨著人類基因組計劃的逐步實施和分子生物學(xué)迅猛發(fā)展,基因數(shù)據(jù)正在以前所未有的速度增長。微陣列技術(shù)就是順應(yīng)這一科學(xué)發(fā)展的產(chǎn)物,并且廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)等領(lǐng)域[1]。微陣列數(shù)據(jù)是大數(shù)據(jù)時代的又一突破,但其樣本少而維度高的特點極易給數(shù)據(jù)分析帶來"維度災(zāi)難"。研究者們在數(shù)據(jù)降維上提出了多種方法,如典型相關(guān)分析(CCA)、主成分分析(PCA)等[2],但是這些降維方法仍達(dá)不到高精度生物學(xué)的研究目的。普通的單變量法具有低復(fù)雜度、高性能的優(yōu)點,但它忽略了特征之間的聯(lián)系,會丟棄一些有用的特征。而傳統(tǒng)的多變量是基于條件熵之間的相交信息,仍然丟棄了一些被判定為冗余變量的特征,會對結(jié)果產(chǎn)生影響[3]。

偏最小二乘(PLS)綜合了CCA和PCA的優(yōu)點,常用于樣本值遠(yuǎn)大于樣本數(shù)的情況。傳統(tǒng)的PLS只是在原始空間利用線性回歸捕獲基因間的線性關(guān)系,在實際應(yīng)用中,線性方法常常不能捕獲所有的基因信息。本文提出的基于核的PLS方法則通過將原始數(shù)據(jù)隱射到高位空間來揭示原始數(shù)據(jù)間的內(nèi)在關(guān)系來提取有效的特征基因,并且利用極限學(xué)習(xí)機(jī)(ELM)[4]來對特征基因進(jìn)行訓(xùn)練,從而對待測數(shù)據(jù)進(jìn)行預(yù)測。

1微陣列分析概述

隨著基因微陣列技術(shù)的快速發(fā)展,生物學(xué)家可以在某一個實驗中檢測到成千上萬的基因表達(dá)水平,DNA基因序列通過轉(zhuǎn)錄變?yōu)閙RNA,將細(xì)胞中的mRNA定量雜交配種可以得到cDNA或者寡核苷酸陣列,這些體現(xiàn)細(xì)胞中相關(guān)mRNA平均分子數(shù)的數(shù)據(jù)即為微陣列數(shù)據(jù)[5]。微陣列數(shù)據(jù)通常被表示成矩陣形式,m個基因在n個mRNA雜交樣本上的基因表達(dá)數(shù)據(jù)以一個m×n矩陣表示,每列表示一個基因,每行表示一個mRNA樣本[6]。在微陣列數(shù)據(jù)的分析中,研究者通常采用有監(jiān)督的分類方法,比如K近鄰算法(KNN)、樸素貝葉斯或者支持向量機(jī)(SVM)[7]等方法。本文采用ELM對三個數(shù)據(jù)集分類,分類精度都高于目前研究中的經(jīng)典算法。

2核最小二乘和極限學(xué)習(xí)機(jī)

2.1核最小二乘算法

當(dāng)原始數(shù)據(jù)和類標(biāo)簽存在線性關(guān)系時,可運(yùn)用偏最小二乘回歸(PLS)來分析數(shù)據(jù)。對于非線性關(guān)系和復(fù)雜關(guān)系,偏最小二乘卻難以湊效。將核函數(shù)引入到PLS中,將其應(yīng)用到非線性領(lǐng)域,這樣改善了PLS只能用于線性模型分析的局限性,還能在一定程度上提高預(yù)測準(zhǔn)確率。

在本文中,X∈RN·D表示N維輸入數(shù)據(jù)矩陣(樣本),Y∈RN·C表示相應(yīng)的C維響應(yīng)矩陣(標(biāo)簽)。假設(shè)X和Y都是零均值數(shù)據(jù)。PLS的目的是針對

avgmax‖v‖=1,‖c‖=1cov(t,u)=cov(Xv,Yc)

(1)

優(yōu)化問題使用迭代方法計算v(X權(quán)重),c(Y權(quán)重),t(X貢獻(xiàn)值),u(Y貢獻(xiàn)值),其中,t=Xv,u=Yc分別是指X和Y的成分。當(dāng)?shù)谝唤M成分t1和u1給定,第二組成分t2和u2則分別可以通過殘差Ex=X-t1pT和EY=Y-t1qT計算出來,p和q指t針對X和Y的荷載,當(dāng)滿足一定條件時,這個過程才停止。本文提出的核最小二乘(KLS)利用非線性變換Φ將基因表達(dá)數(shù)據(jù)映射到高維的核空間K,不需要知道非線性映射的具體數(shù)學(xué)表達(dá),只需要在滿足Merser條件的情況下在原始空間上進(jìn)行點積運(yùn)算。為了在算法中實現(xiàn)點積操作,將v約束在這些點的一個線性跨度內(nèi),表達(dá)為

(2)

(3)

設(shè)Kx(xi,xj)為特征空間的格拉姆矩陣,h為期望的成分?jǐn)?shù)。KLS的第一個成分是平方核矩陣βΦ的特征值,βΦλ=KYKXβΦ,λ為特征值。無論原始矩陣中的X和Y中有多少變量,這些核矩陣不受影響。可見基于核的PLS是一個強(qiáng)大的能迅速解決問題的算法。

2.2極限學(xué)習(xí)機(jī)

針對普通前饋神經(jīng)網(wǎng)絡(luò)存在網(wǎng)絡(luò)結(jié)構(gòu)不穩(wěn)定、學(xué)校效率低、容易產(chǎn)生過擬合等問題,黃廣斌提出了極限學(xué)習(xí)機(jī),已經(jīng)證明在神經(jīng)網(wǎng)絡(luò)中隱含層節(jié)點的參數(shù)隨機(jī)賦值能夠大大提高網(wǎng)絡(luò)學(xué)習(xí)的效率,因而,本文在對微陣列數(shù)據(jù)分類中直接應(yīng)用極限學(xué)習(xí)機(jī),并與先前研究者用的SVM,KNN和ANN等分類算法進(jìn)行比較。ELM模型表述如下:

普通前饋神經(jīng)網(wǎng)絡(luò)中,N個樣本(xi,ti)∈Rm×Rn,m和n分別為輸入和輸出樣本的維度,隱含層節(jié)點個數(shù)為M,M≦N,所選擇的激活函數(shù)為g(·),因此,普通單層前饋網(wǎng)的模型為

(4)

式中(wi,bi)為隱含層神經(jīng)元的參數(shù)值,βi為輸出權(quán)值,j=1,2,…,N,則上述式(4)可以寫成

Hβ=T

(5)

式中

(6)

為隱含層節(jié)點的輸出矩陣,其第i列表示第i個隱含層神經(jīng)元關(guān)于輸入x1,x2,…,xN的輸出值

(7)

由文獻(xiàn)[8]知,當(dāng)M=N時,一旦給定(wi,bi)的值,輸出矩陣H可逆,這時,ELM可以以很小的誤差逼近各種學(xué)習(xí)樣本,但是一般情況M遠(yuǎn)大于N,H為M×N的矩陣,這就要求所求H的廣義逆H+,可采用奇異值分析法來求解廣義逆矩陣,此時,可由式(3)求解

(8)

使用ELM時一個重要的過程是對激活函數(shù)的選取,激活函數(shù)有sigmoid,sin,RBF等,文獻(xiàn)[8]中將這些激活函數(shù)應(yīng)用于同一非線性樣本數(shù)據(jù)上并作對比,發(fā)現(xiàn)sin函數(shù)在效率和精確度上最佳,因此,本文也選用sin作為ELM的激活函數(shù)。

3實驗與結(jié)果分析

3.1實驗數(shù)據(jù)準(zhǔn)備

在先前的研究中,使用最多的微陣列數(shù)據(jù)是白血病(Leukemia)、乳腺癌(Breast)和結(jié)腸癌(Lung)三個數(shù)據(jù)集,它們包括二分類和多分類,其相關(guān)信息如表1所示。

表1 本文使用的微陣列數(shù)據(jù)

分類器而言分類精度都最大,因此,在基因選擇數(shù)為25時,對數(shù)據(jù)集Leukemia中的選擇基因與文獻(xiàn)[9]進(jìn)行比較,發(fā)現(xiàn)重疊率達(dá)到76 %,說明本文提出的特征選擇方法是有效的,如表2所示(其中黑體表示本文選取的特征基因與文獻(xiàn)[9]重疊的基因名稱)。

表2 對Leukemia數(shù)據(jù)集選取的前25個特征基因名稱

3.2數(shù)據(jù)分類

本文對微陣列數(shù)據(jù)提取特征信息后,應(yīng)用極限學(xué)習(xí)機(jī)來訓(xùn)練和預(yù)測。由于極限學(xué)習(xí)機(jī)參數(shù)是隨機(jī)賦值的,因此其隱含層神經(jīng)元個數(shù)的設(shè)置至關(guān)重要,本文激活函數(shù)為sin函數(shù),隱含層神經(jīng)元數(shù)N由0到2000每間隔11取一次值,對分類精度進(jìn)行分析,發(fā)現(xiàn)隨著N值的變大,精度變高,當(dāng)N=1 800時,精度就達(dá)到了88 %,且當(dāng)N繼續(xù)增大時,精度變化不大;當(dāng)N=1 870時,精度最大,達(dá)到90.47 %,如圖1所示。

圖1 隱含層神經(jīng)元個數(shù)與分類精度效果圖Fig 1 Effect figure of numbers of hidden layer neurons and classification percision

對Lymphoma和Lung數(shù)據(jù)集采用同樣的方法進(jìn)行特征基因選擇和隱含層神經(jīng)元個數(shù)設(shè)置,最后得到本文方法(KPL_ELM)對其分類的精度,與先前的研究[12]對比情況如表3所示(黑體精度值為幾種方法中最大值)。

表3 本文方法與先前經(jīng)典算法的分類精度比較(%)

從實驗結(jié)果可以看出:本文提出的KPL_ELM算法對微陣列數(shù)據(jù)的特征基因選擇和分類效果有顯著的提高,說明本文方法是有效可行的。

4結(jié)束語

本文針對微陣列數(shù)據(jù)樣本量小而維度高的特點,結(jié)合當(dāng)前降維和特征提取方法速度慢、未考慮特征間聯(lián)系的劣勢,提出基于核的最小二乘方法來提取特征基因,并應(yīng)用極限學(xué)習(xí)機(jī)來對實驗數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測,與以往的研究對比,實驗精確度得到了很大程度的提高,充分說明本文算法的優(yōu)越性和實用性,為生物醫(yī)學(xué)中對疾病的診斷和分類開拓了新思路。

參考文獻(xiàn):

[1]于化龍,高尚,趙靖,等.基于過采樣技術(shù)和隨機(jī)森林的不平衡微陣列數(shù)據(jù)分類方法研究[J].計算機(jī)科學(xué),2012(5):190-194.

[2]金益,姜真杰.核主成分分析與典型相關(guān)分析相融合的人臉識別[J].計算機(jī)應(yīng)用與軟件,2014(1):191-193,270.

[3]Sun S,Peng Q,Shakoor A.A kernel-based multivariate feature selection method for micro-array data classification [J].PloS one,2014,9(7):102541.

[4]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applications [J].Neuro-computing,2006,70(1):489-501.

[5]呂娜.極限學(xué)習(xí)機(jī)及其在無線頻譜預(yù)測中的應(yīng)用研究[D].蘭州:蘭州大學(xué),2014.

[6]張麗娟,李舟軍.微陣列數(shù)據(jù)癌癥分類問題中的基因選擇[J].計算機(jī)研究與發(fā)展,2009(5):794-802.

[7]李強(qiáng),石陸魁,劉恩海,等.基于流形學(xué)習(xí)的基因微陣列數(shù)據(jù)分類方法[J].鄭州大學(xué)學(xué)報:工學(xué)版,2012(5):121-124.

[8]Chacko B P,Krishnan V R V,Raju G,et al.Handwritten character recognition using wavelet energy and extreme learning machin-e[J].International Journal of Machine Learning and Cybernetics,2012,3(2):149-161.

[9]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.

[10] Wang Y,Klijn J G M,Zhang Y,et al.Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer[J].The Lancet,2005,365(9460):671-679.

[11] Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses [C]∥Proceedings of the National Academy of Sciences,2001:13790-13795.

[12] 王剛,張禹瑄,李穎,等.一種微陣列數(shù)據(jù)降維新方法[J].吉林大學(xué)學(xué)報:工學(xué)版,2014(5):1429-1434.

Application of kernel-based multiple gene selection method and extreme learning machine in microarray analysis

YANG Qin,DONG Hong-wei,XUE Yan-na

(College of The Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)

Abstract:As quantity of microarray data sample is little and dimension of each sample is high,combined with disadvantages that in current data dimension reduction methods,correlation between features is not considered,put forward a kind of kernel-based least squares method for feature gene selection.Map explaining variable space to high dimension space,via nonlinear mapping transformation,and then carry out least-squares regression in high dimensional space;use extreme learning machine for training and predicting.The results show that classification precision of the three kinds of classic data set is 90.47 %,88.89 %,88.23 %,which is higher than traditional machine learning algorithms,which fully demonstrates superiority of this method.

Key words:microarray classification;gene selection;kernel least squares;extreme learning machine

DOI:10.13873/J.1000—9787(2016)05—0146—03

收稿日期:2015—08—17

中圖分類號:TP 183

文獻(xiàn)標(biāo)識碼:A

文章編號:1000—9787(2016)05—0146—03

作者簡介:

楊勤(1990-),男,湖北黃岡人,碩士研究生,主要研究方向為模式識別、生物信息學(xué)。

猜你喜歡
極限學(xué)習(xí)機(jī)
基于ELM和證據(jù)理論的紋理圖像分類
基于EEMD技術(shù)在電力信息安全中的多步時間序列預(yù)測方法
混沌理論和極限學(xué)習(xí)機(jī)的物流需求預(yù)測模型
改進(jìn)極限學(xué)習(xí)機(jī)的電子音樂分類模型
基于稀疏編碼器與集成學(xué)習(xí)的文本分類
神經(jīng)元的形態(tài)分類方法研究
基于判別信息極限學(xué)習(xí)機(jī)的高光譜遙感圖像分類
極限學(xué)習(xí)機(jī)修正誤差的體育成績預(yù)測模型
基于極限學(xué)習(xí)機(jī)的玻璃瓶口缺陷檢測方法研究
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
永清县| 德昌县| 南投市| 陇西县| 莎车县| 济阳县| 望江县| 崇文区| 奉化市| 措勤县| 望奎县| 宜黄县| 富民县| 积石山| 西乌珠穆沁旗| 乌苏市| 弋阳县| 南安市| 光泽县| 衢州市| 庄河市| 屏东市| 沙雅县| 安岳县| 乐陵市| 岳西县| 深州市| 昌平区| 灵川县| 商丘市| 台南县| 淮安市| 聂拉木县| 烟台市| 延安市| 苏尼特左旗| 若羌县| 延庆县| 德惠市| 万荣县| 黄大仙区|