国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進的SVM算法對miRNA表達譜的分析

2016-09-07 03:43:39柴華金
關(guān)鍵詞:特征選擇分類器準確率

梅 端,柴華金,黃 江

(廣東海洋大學(xué)理學(xué)院,廣東湛江 524088)

?

一種改進的SVM算法對miRNA表達譜的分析

梅端,柴華金,黃江

(廣東海洋大學(xué)理學(xué)院,廣東湛江524088)

基于miRNA表達譜數(shù)據(jù)集,提出了一種新的數(shù)據(jù)挖掘算法——tSVM-kNN(t statistic with support vector machine-k nearest neighbor).該算法的思想為:首先,采用統(tǒng)計量法對該數(shù)據(jù)集進行特征初選;其次,將融合了支持向量機和K-最近鄰判別法思想的算法——SVM-kNN算法作為分類器;最后,輸出分類結(jié)果.仿真實驗表明,SVM-kNN算法分類器的分類能力比單獨運行SVM和kNN都好;在miRNA “標(biāo)簽”的數(shù)量和識別精度方面,tSVM-kNN算法只需要取5個miRNAs即可獲得96.08%的分類準確率.與同類的算法相比,其具有明顯的優(yōu)越性.

miRNAs表達譜; 統(tǒng)計量;K-最近鄰;SVM-kNN算法

miRNAs是一類具有調(diào)節(jié)作用的非蛋白質(zhì)編碼的單鏈RNA分子,它可以調(diào)節(jié)人體內(nèi)三分之一的信使RNA(mRNA)的表達.然而一個miRNA表達異常,就可能引起數(shù)百個靶基因表達異常,從而導(dǎo)致相應(yīng)蛋白質(zhì)的差異表達.因此,miRNA對腫瘤的形成具有重要意義[1].近年來,研究者發(fā)現(xiàn),miRNA表達譜可以區(qū)分腫瘤組織和正常組織.此外,研究表明,一些miRNAs已經(jīng)直接參與到了人類癌癥(包括乳腺癌,肺癌,肝癌,結(jié)腸癌等)[2-5]中.然而,目前仍不太確定具體哪些miRNAs可以準確地區(qū)分正常組織和腫瘤組織.倘若我們能通過特定的方法找出一些具有較強分類能力的miRNAs“標(biāo)簽”,然后根據(jù)生物信息學(xué)中的某些原理,結(jié)合相關(guān)軟件預(yù)測這些 “標(biāo)簽”所對應(yīng)的靶基因,那么就有可能為腫瘤等疾病的診斷和治療找到新的靶點.因此,在臨床研究中對miRNA表達譜數(shù)據(jù)進行分析有較大的診斷價值.

2005年,Lu等[6]利用miRNA表達譜,對難以鑒別的腫瘤運用了K-最近鄰法和概率神經(jīng)網(wǎng)絡(luò)法進行了準確分類.該文中由實驗所取得的miRNA表達譜數(shù)據(jù)為研究者的后續(xù)研究提供了可能,此研究也是基于該數(shù)據(jù).在文獻[7]中,Zheng等運用離散函數(shù)學(xué)習(xí)算法尋找到一個具有較強分類能力miRNAs子集.2010年,Dang等[8]采用已有的數(shù)據(jù)集提出了兩步挑選特征法,得到了約95%的分類準確率.同年,Kyung等[9]以余弦系數(shù)作為特征選擇法選了25個特征,并結(jié)合K-最近鄰法作為分類器,得到了95%的分類準確率.

事實上,在研究腫瘤分類問題中,主要分為兩個階段.第一階段為尋找有效的特征選擇方法;第二階段為尋找分類效率高的分類器.然而,特征選擇的方法很多,如秩和檢驗(Wilcoxon-test)和Fisher準則法等,均取得了不錯的效果.但分類器算法卻相對比較單一,如SVM或kNN,故本文試圖從分類器算法著手來提高分類準確率.基于此,本文提出了一種新的數(shù)據(jù)挖掘算法——tSVM-kNN.該算法的思想是:首先采用統(tǒng)計量法對該數(shù)據(jù)集進行特征初選,其次將融合了支持向量機和k-最近鄰判別法思想的SVM-kNN算法作為分類器,最后輸出分類結(jié)果.

1 問題描述

首先用矩陣M將miRNA表達譜數(shù)據(jù)表示為

其中xi,j表示第j個miRNA在第i個樣本中的表達值,通常情況下miRNA的數(shù)目n多于樣本數(shù)目m.矩陣M的每一列(除最后一列)表示一個miRNA在不同樣本中的表達水平;矩陣M的每一行表示一個特定樣本在各miRNA上的表達水平;最后一列y1,y2,…,yn表示m個樣本所對應(yīng)的類別,即正樣本或負樣本,通常用1和-1表示.圖1描述了本文的主要研究過程.

圖1 miRNA表達譜分類問題描述

這里需要說明的是,圖1中的訓(xùn)練樣本和測試樣本是人為的從數(shù)據(jù)集中劃分出來的.此外,圖1中的圓角矩形內(nèi)容是本文的主要任務(wù).

2 方法與理論

2.1特征選擇

t檢驗是以樣本服從正態(tài)分布的假設(shè)為前提的參數(shù)檢驗方法,并且t統(tǒng)計量以及它的變形是如今較為常用的一種腫瘤識別性度量.t統(tǒng)計量為[10]

(1)

2.2SVM-kNN改進算法簡介

最近鄰判別法(1NN)是模式識別非參數(shù)法中最重要的方法之一,此算法的思想簡單直觀[11].計算待分類樣本與所有樣本的距離,考察與待分類樣本最近的1個樣本的類別,則待分類樣本也屬于該類別.1NN的特點是將各類中全部樣本點都作為代表點.k-最近鄰判別分析法(kNN)是1NN的推廣,其思想是:考察與待分類樣本最近鄰的k個樣本的類別,若其中大多數(shù)樣本都屬于某一個類別,則待分類樣本也屬于該類別.

Vapnik指出[12],在最優(yōu)分類面附近,SVM經(jīng)常會出現(xiàn)分類錯誤(有關(guān)支持向量機的基本理論知識及發(fā)展,可以參考文獻[12-15]).所以,對邊界區(qū)域附近的樣本點進行分類時,若能對分類算法做出改進,那么有可能在一定程度上提高分類準確率.然而在文獻[16]中,又證明了SVM分類器等價于每類只選一個代表點的1NN分類器.因此,對于降低位于最優(yōu)分類面附近樣本的錯誤分類率的問題,我們可以考慮將SVM與kNN這兩類分類器進行結(jié)合.為了使分類器具有更高的分類準確率,kNN可以將每一類所有的支持向量均看作代表點.

事實上,SVM-kNN組合算法可以描述為:當(dāng)樣本與SVM最優(yōu)超平面的距離大于給定的閾值時,即樣本離分界面較遠,使用SVM進行分類;反之,用支持向量作為代表點的kNN算法對待識別樣本進行分類.值得注意的是:我們是在映射后的特征空間中計算待識別樣本與每個支持向量的距離,而不是在原始的樣本空間中.因此,采用的距離公式不是歐氏距離公式,而是以下公式

(2)

其中,x為待識別樣本;xi為支持向量.

下面來構(gòu)建SVM-kNN分類器.先選擇合適的SVM分類器將給定的樣本數(shù)據(jù)集進行機器學(xué)習(xí),求出其支持向量集TSV和相應(yīng)的Lagrange系數(shù)以及常數(shù)b.

SVM-kNN算法:

輸入:測試集T,訓(xùn)練集Z,支持向量集TSV,相應(yīng)的Lagrange系數(shù)αSV和常數(shù)b,kNN算法的系數(shù)k,給定的分類閾值ε,核函數(shù)及其參數(shù);

輸出:測試集T的分類結(jié)果;

開始

Step 1:若T≠?,則取x∈T;若T=?,則算法停止,輸出類別向量;

2)將這些距離由小到大進行排序,選出最小的k個;

3)統(tǒng)計這k個距離所對應(yīng)的支持向量的類別個數(shù);

4)x的類別與數(shù)目多的類別相同,輸出.

Step 5:T←T-{x},返回Step 1.

上述算法中使用的核函數(shù)可以根據(jù)實際問題的不同進行選擇,分類閾值ε也可以根據(jù)實驗結(jié)果進行動態(tài)調(diào)整,其初始值一般設(shè)置為1.當(dāng)且僅當(dāng)ε=0時,上述算法就完全退化為SVM算法了.

2.3tSVM-kNN算法的應(yīng)用

為了更有效地對miRNA表達譜數(shù)據(jù)進行分析,本文繪制出了miRNA表達譜分析流程,如圖2所示.

圖2 miRNA表達譜分析流程

2.4交叉驗證

交叉驗證是用來驗證分類器性能的一種統(tǒng)計分析方法,其基本思想是在某種意義下將原始數(shù)據(jù)集進行分組,一部分作為訓(xùn)練集,另一部分作為驗證集.首先用訓(xùn)練集對分類器進行訓(xùn)練,再利用驗證集來測試訓(xùn)練得到模型,以此作為評價分類器的性能指標(biāo).本文采用10-折交叉驗證方法來評估tSVM-kNN算法的性能.

3 實證分析

3.1數(shù)據(jù)來源及處理

本文中所用到的實驗數(shù)據(jù)來自Lu等[6]公布的miRNA表達譜數(shù)據(jù)(miGCM_218 collection),數(shù)據(jù)可以從網(wǎng)站http://www.broadinstitute.org下載.該數(shù)據(jù)集共186個樣本并包含了多種癌癥類型,且每個樣本中含有217個miRNAs表達數(shù)據(jù).此外該數(shù)據(jù)集中有正樣本46個,負樣本140個.為了消除變量間的量綱關(guān)系以及使得數(shù)據(jù)具有可比性,在進行數(shù)據(jù)分析之前,先對樣本數(shù)據(jù)進行Z-score 標(biāo)準化處理.然后將正樣本和負樣本按近似5∶2 的比例隨機地分配到訓(xùn)練集和測試集中.根據(jù)miRNAs特征選擇法,本文實現(xiàn)了miRNA表達譜分析流程的完整代碼.所使用到的工具為Matlab7.1.

3.2特征初選

由于實驗的目的是希望挑選出少量的特征而達到好的分類效果,因此用統(tǒng)計量法計算出了2到8個特征作為特征子集對應(yīng)的SVM-kNN分類器分類效果(見表1).此外,表1中還給出了相應(yīng)的SVM-kNN分類器中分類閾值 .

表1 t統(tǒng)計量法特征初選個數(shù)比較

由表1可以看出,對于t統(tǒng)計量法,只要挑出排在最前面的5個特征,即可以取得良好的分類效果.現(xiàn)將t統(tǒng)計量法所挑選出的特征列出來,如表2所示.

表2 t統(tǒng)計量法挑選出的前5個特征

事實上,利用生物信息學(xué)預(yù)測和實驗研究,Wang等[17]發(fā)現(xiàn)hsa-miR-195能夠抑制基因Cdc42、CCND1以及FGF1的表達.他們還發(fā)現(xiàn),使用大鼠模型,hsa-miR-195通過腺病毒引入,可以大大減少在球囊損傷的頸動脈中形成新內(nèi)膜.Yan等[18]發(fā)現(xiàn),hsa-miR-101可用于修復(fù)DNA靶基因,從而敏化體內(nèi)和體外的腫瘤細胞的輻射,這為提高腫瘤的放射治療提供了新的途徑.Zhang等[19]發(fā)現(xiàn),hsa-miR-126具有重要的抑制癌癥作用,能夠通過負調(diào)控PI3K途徑對細胞增殖起到抑制作用.

3.3SVM-kNN模型中參數(shù)c,g和k的確定

在采用SVM(RBF kernel)分類器進行分類時,本文運用10-折交叉驗證選出的最佳懲罰參數(shù)C=0.108 8和g=0.062 5.另外,此過程還可以得到支持向量集TSV、相應(yīng)的Lagrange系數(shù)αSV以及常數(shù)b,由于這些數(shù)據(jù)所占用的篇幅比較大,這里就不一一列舉.

在調(diào)用kNN分類器時,k的取值應(yīng)該在1和支持向量的個數(shù)之間,且為奇數(shù)(避免出現(xiàn)k1=k2).本文采用t統(tǒng)計量進行特征初選,然后將選出的特征子集進行SVM機器學(xué)習(xí),得到的支持向量個數(shù)是71個,因此k的取值范圍為1到71之間的奇數(shù).之所以要討論k值的選取,是因為選用不同的k值模型分類正確率可能不同(見圖3).在本文中,最優(yōu)參數(shù)k的確定取決于SVM-kNN分類器的分類正確率達最大時所對應(yīng)的k值.

圖3 不同k值時tSVM-kNN的分類正確率

由圖3可以看出,在該算法中,最優(yōu)的k值并不唯一.對于tSVM-kNN這種算法,本文暫且選取k=5.

3.4結(jié)果分析

表3描述了SVM-kNN組合模型與分別進行單個的SVM分類器和kNN分類器的分類正確率的一個比較.可以看出SVM-kNN分類器的分類效果,比分別單獨運行SVM分類器和kNN分類器的分類效果都要好.其中,tSVM-kNN的分類準確率達到了96.08%.

表3 不同分類模型下的分類準確率

將圖3與圖4對比,亦可以很明顯的發(fā)現(xiàn)SVM-kNN的分類性能比kNN的好得多.而且從圖4可以看出,在k的取值范圍中,t-kNN(用t統(tǒng)計量法挑選特征,以kNN為分類器)這種分類模型的分類準確率小于90%.

圖4 不同k值時t-kNN的分類正確率

綜合以上的運算過程以及運算結(jié)果可以得出,SVM-kNN分類器的分類效果比分別單獨運行SVM分類器和kNN分類器的分類效果都好.

3.5比較

近年來,很多研究工作者都致力于miRNA表達譜數(shù)據(jù)的分析,并且希望通過尋找“特別的miRNAs”(即miRNAs“標(biāo)簽”)找到腫瘤的潛在治療靶點.因此,在腫瘤的分類問題中找到能夠較好區(qū)分正負樣本的miRNAs就顯得尤為必要.表4給出了針對相同數(shù)據(jù)集采用不同的特征選擇方法以及不同的分類器的實驗結(jié)果比較.實驗結(jié)果表明,本文的方法在miRNAs“標(biāo)簽”的數(shù)量和識別精度方面具有明顯的優(yōu)越性,同時tSVM-kNN算法與其他的算法具有更強的競爭優(yōu)勢,其最大的優(yōu)勢體現(xiàn)在分類器SVM-kNN上.

表4 相同數(shù)據(jù)集的不同分類方法的實驗結(jié)果比較

4 結(jié)論與展望

基于miRNAs表達譜數(shù)據(jù)集,本文提出了一種以統(tǒng)計量法為特征選擇法結(jié)合SVM-kNN算法為分類器的數(shù)據(jù)挖掘法——tSVM-kNN算法.實驗結(jié)果表明,SVM-kNN算法分類器的分類能力比單獨運行SVM和kNN都好;在miRNA “標(biāo)簽”的數(shù)量和識別精度方面,tSVM-kNN算法只需要取5個miRNAs即可獲得96.08%的分類準確率.與同類的算法相比,具有明顯的優(yōu)越性.

然而對于這些選出的miRNAs,從生物信息學(xué)的角度看,仍有許多問題需要解決,比如說,本文僅從miRNA表達譜數(shù)據(jù)的單一值進行特征選取,如果能結(jié)合生物數(shù)據(jù)庫的基因組、代謝基因組或蛋白質(zhì)組數(shù)據(jù)知識進行特征選擇,那么所得到的miRNAs“標(biāo)簽”將更具有生物意義,也更具有說服力.相信隨著生物信息學(xué)、機器學(xué)習(xí)等方面研究的深入和技術(shù)的不斷進步,miRNAs將會在癌癥的早期有效診治方面發(fā)揮重要作用.

[1]LEA M A.Recently identified and potential targets for colon cancer treatment[J].Future Oncology,2010,6(6):993.

[2]ZHANG B,PAN X,COBB G P,et al.MicroRNAs as oncogenes and tumor suppressors[J].Developmental Biology,2007,302(1):1.

[3]DALMAY T.MicroRNAs and cancer[J].Journal of Internal Medicine,2008,263(4):366.

[4]WU W,SUM M,ZOU G M,et al.MicroRNA and cancer:Current status and prospective[J].International Journal of Cancer,2007,120(5):953.

[5]DRAKAKI A,ILIOPOULOS D.MicroRNA gene networks in oncogenesis[J].Current Genomics,2009,10(1):35.

[6]LU J,GETZ G,MISKA E A,et al.MicroRNA expression profiles classify human cancers[J].Nature,2005,435:834.

[7]ZHENG Y,KWOH C K.Cancer classification with microRNA expression patterns found by an information theory approach[J].Journal of Computers,2006,1(5):30.

[8]TRAN D H,HO T B,PHAM T H,et al.MicroRNA expression profiles for classification and analysis of tumor samples[J].IEICE Transactons on Information and Systems,2011,94(3):416.

[9]KIM K J,CHO S B.Exploring features and classifiers to classify microRNA expression profiles of human cancer[C]//17th International Conference on Neural Information Processing.Berlin:Springer,2010:225.

[10]鄭明,汪嘉岡,陳子毅.數(shù)理統(tǒng)計講義[M].上海:復(fù)旦大學(xué)出版社,2007.

[11]COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21.

[12]VAPNIK V.The Nature of Statistical Learning Theory[M].New York:Springer,2000.

[13]VAPNIK V N.Statistical Learning Theory[M].New York:Wiley,1998.

[14]CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273.

[15]SCHIILKOP P B,BURGEST C,VAPNIK V.Extracting support data for a given task[C]//Proceedings of First International Conference on Knowledge Discovery and Data Mining.Menlo Park:AAAI press.1995:112.

[16]李蓉,葉世偉,史忠植.SVM-kNN分類器——一種提高SVM分類精度的新方法[J].電子學(xué)報,2002,30(5):745.

[17]YUNG S W.MicroRNA-195 regulates vascular smooth muscle cell phenotype and prevents neointimal formation[J].Cardiovascular Research,2012,95(4):517.

[18]YAN D,NG W L,ZHANG X,et al,Targeting DNA-PKcs and ATM with miR-101 sensitizes tumors to radiation[J].Plos One,2010,5(7):e11397.

[19]ZHANG J.The cell growth suppressor,miR-126,targets IRS-1[J].Biochemical and Biophysical Research Communications,2008,377(1):136.

(責(zé)任編輯孫對兄)

MiRNA expression profiling analysis based on an improved SVM algorithm

MEI Duan,CHAI Hua-jin,HUANG Jiang

(College of Science,Guangdong Ocean University,Zhanjiang 524088,Guangdong,China)

Based on miRNAs expression profiling data sets,new data mining algorithms—tSVM-kNN(t statistic with support vector machine-k nearest neighbor) is proposed.Firstly,an original selection is made to this set by characteristics using t-statistic method.After that,both ideas in support vector machine(SVM)and k nearest neighbor(kNN)algorithms are combined as a classifier,i.e.,SVM-kNN algorithm.Finally,the classification results as outputs can be obtained.Then,simulation experiments show that SVM-kNN algorithm as a classifier can display a stronger ability compared with running SVM and kNN,respectively.As to the aspects of quantity and recognition accuracy with a miRNAs label,tSVM-kNN algorithm only need five miRNAs but can get a precision of 96.08% in classification.Obviously,compared with some existed methods,the proposed algorithm has more advantages.

miRNAs expression profiling;t statistic;k-nearest neighbor discrimination;SVM-kNN algorithm

10.16783/j.cnki.nwnuz.2016.02.011

2015-08-20;修改稿收到日期:2015-12-25

廣東省自然科學(xué)基金資助項目(2015A030310354);廣東省教育廳創(chuàng)新強校工程項目(Q14606)

梅端(1989—),女,湖北黃岡人,助教,碩士.主要研究方向為機器學(xué)習(xí)與人工智能.

E-mail:380915496@qq.com

TP 301.6

A

1001-988Ⅹ(2016)02-0047-06

猜你喜歡
特征選擇分類器準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
高速公路車牌識別標(biāo)識站準確率驗證法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
辉县市| 霍山县| 壤塘县| 富源县| 康马县| 宁乡县| 辽阳市| 涿鹿县| 县级市| 绥中县| 龙门县| 五家渠市| 荆州市| 循化| 大竹县| 桦南县| 双辽市| 屏南县| 永兴县| 息烽县| 吴堡县| 亚东县| 游戏| 山丹县| 麻阳| 若羌县| 紫金县| 寻乌县| 交口县| 奇台县| 乐平市| 泾川县| 天峨县| 开原市| 裕民县| 博爱县| 淳化县| 旅游| 宜川县| 务川| 达尔|