国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成特征選擇方法在基因表達(dá)數(shù)據(jù)上的應(yīng)用

2019-02-20 01:59:30瀟寧
關(guān)鍵詞:特征選擇子集準(zhǔn)確度

,, ,瀟寧

(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院 山東 青島 266590)

隨著生物信息技術(shù)的快速發(fā)展,DNA微陣列技術(shù)得到了廣泛應(yīng)用。在分子生物學(xué)水平上,基于DNA微陣列技術(shù)的基因表達(dá)數(shù)據(jù)成為生物醫(yī)學(xué)領(lǐng)域上的一個(gè)重要課題。通常,基因表達(dá)數(shù)據(jù)具有高維度、小樣本和分布不平衡等特點(diǎn),如何獲取其中有價(jià)值的信息成為該領(lǐng)域研究的一個(gè)難題。1999年,Gloub等[1]利用基因表達(dá)數(shù)據(jù)在癌癥的診斷研究方面做出了開(kāi)創(chuàng)性的研究,引發(fā)了廣泛關(guān)注。從機(jī)器學(xué)習(xí)的角度看,在癌癥的診斷研究中尋找最有可能導(dǎo)致癌變的基因可以看作是一個(gè)分類(lèi)任務(wù)的特征選擇問(wèn)題,目標(biāo)是找到最好的一組基因來(lái)區(qū)分癌癥患者和正常人。

近年來(lái),使用特征選擇技術(shù)在高維度、小樣本的數(shù)據(jù)領(lǐng)域中獲取有價(jià)值的信息變得越來(lái)越重要。特別是在生物信息學(xué)和生物醫(yī)學(xué)領(lǐng)域。Guyon[2]提出特征選擇主要有三個(gè)方面的目標(biāo):①提高預(yù)測(cè)變量的預(yù)測(cè)性能;②提供更快更具成本效益的預(yù)測(cè)變量;③更好地理解數(shù)據(jù)生成的基礎(chǔ)過(guò)程。特征選擇可以通過(guò)消除不相關(guān)或嘈雜特征來(lái)建立功能更加強(qiáng)大的分類(lèi)模型,可以從原始數(shù)據(jù)集的特征中選取一小部分子集來(lái)構(gòu)建一個(gè)運(yùn)算速度更快的模型,并有助于研究者從中發(fā)現(xiàn)一些新的信息。研究[1,3]表明,基因表達(dá)數(shù)據(jù)中的大多數(shù)基因并不能為疾病分類(lèi)模型提供有用的信息,只和少數(shù)的基因有密切的關(guān)系。因此在基因表達(dá)數(shù)據(jù)的疾病診斷中運(yùn)用特征選擇技術(shù),可以使研究者在未來(lái)的臨床試驗(yàn)中只關(guān)注一部分有價(jià)值的特征基因,減少試驗(yàn)成本。特征選擇技術(shù)可以寬泛的分為過(guò)濾法(Filter)、封裝法(Wrapper)和嵌入法(Embedded)三類(lèi)[4]。過(guò)濾法只通過(guò)數(shù)據(jù)的內(nèi)在屬性來(lái)估計(jì)特征的相關(guān)性,而不考慮模型的學(xué)習(xí)算法或分類(lèi)器對(duì)特征的影響。封裝法通過(guò)評(píng)估分類(lèi)器的分類(lèi)性能在候選子集空間內(nèi)選取最佳的特征子集,對(duì)于特定的學(xué)習(xí)算法,封裝法可能會(huì)取得比過(guò)濾法更好的效果,但會(huì)增加計(jì)算成本。嵌入法利用分類(lèi)器的內(nèi)部參數(shù)來(lái)評(píng)估特征的重要性程度,通常能夠在分類(lèi)性能和計(jì)算成本上取得一個(gè)良好平衡。

通常,在機(jī)器學(xué)習(xí)上使用單一的學(xué)習(xí)模型解決一個(gè)給定的問(wèn)題。然而,最近的研究發(fā)現(xiàn)通過(guò)組合不同的學(xué)習(xí)模型可以得到更好的學(xué)習(xí)效果,這種方法稱(chēng)為集成學(xué)習(xí)[5-6],集成學(xué)習(xí)通常應(yīng)用于分類(lèi)模型。本研究將集成學(xué)習(xí)的思想引入到特征選擇上,期望得到比單個(gè)特征選擇方法更好的特征子集。由于過(guò)濾法(Filter)計(jì)算簡(jiǎn)潔快速且具有良好的泛化能力,因此使用三種過(guò)濾式特征選擇方法進(jìn)行集成學(xué)習(xí)。每種方法通過(guò)對(duì)數(shù)據(jù)集的學(xué)習(xí)都會(huì)得到一個(gè)按基因重要性排序的集合序列,不同的結(jié)果聚合在一起,得到一個(gè)最終的集合序列。選取排名靠前的一部分基因作為特征子集,最后使用支持向量機(jī)作為分類(lèi)器對(duì)特征子集的分類(lèi)性能進(jìn)行檢驗(yàn)。實(shí)驗(yàn)結(jié)果表明,集成學(xué)習(xí)特征選擇方法能夠提高基因表達(dá)數(shù)據(jù)的分類(lèi)準(zhǔn)確度。

1 集成特征選擇模型

特征選擇是數(shù)據(jù)挖掘預(yù)處理階段關(guān)鍵性的步驟。在高維分類(lèi)問(wèn)題中,通常用于選取與目標(biāo)高度相關(guān)的特征子集。集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。對(duì)于分類(lèi)問(wèn)題,集成學(xué)習(xí)的思路是在對(duì)新的實(shí)例進(jìn)行分類(lèi)的時(shí)候,把若干單個(gè)分類(lèi)器集成起來(lái),通過(guò)對(duì)多個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行某種組合來(lái)決定最終的分類(lèi),以取得比單個(gè)分類(lèi)器更好的性能。如果把單個(gè)分類(lèi)器比作一個(gè)決策者的話(huà),集成學(xué)習(xí)的方法就相當(dāng)于多個(gè)決策者共同進(jìn)行一項(xiàng)決策。Dietterich[7]研究表明,將弱或不穩(wěn)定的學(xué)習(xí)模型組合在一起能夠取得比單一模型更好的結(jié)果。類(lèi)似的,可以將集成學(xué)習(xí)的思想引入到特征選擇中,以此來(lái)提高特征選擇的效果。不同的特征選擇方法將會(huì)產(chǎn)生不同的特征子集,這些特征子集被認(rèn)為是局部最優(yōu)的,通過(guò)集成學(xué)習(xí)可能會(huì)產(chǎn)生近似于全局最優(yōu)的特征子集。集成特征選擇主要涉及兩個(gè)方面:①在特定訓(xùn)練集下創(chuàng)建不同的特征排序;②將不同的特征排序結(jié)果聚合在一起。

1.1 集成特征選擇模型介紹

假設(shè)基因表達(dá)數(shù)據(jù)訓(xùn)練集為D,有N個(gè)基因(即N個(gè)特征)。使用過(guò)濾式特征選擇方法對(duì)D進(jìn)行學(xué)習(xí),每個(gè)基因都會(huì)得到一個(gè)關(guān)于不同類(lèi)別差異程度評(píng)價(jià)的得分。例如在對(duì)特征基因使用t檢驗(yàn)或秩和檢驗(yàn)進(jìn)行特征選擇時(shí),可以計(jì)算假設(shè)檢驗(yàn)的p值,p值越小說(shuō)明兩類(lèi)樣本的統(tǒng)計(jì)學(xué)差異越顯著,特征基因也越重要。根據(jù)得分大小對(duì)所有的基因進(jìn)行降序排序,排名越靠前說(shuō)明基因越重要。使用i(i=1,…,m)種不同的特征選擇方法進(jìn)行特征選擇,每種方法都會(huì)得到一個(gè)基因序列Li,然后將m個(gè)不同的基因序列聚合在一起,最終輸出一個(gè)唯一的基因序列。由于不同方法的評(píng)價(jià)標(biāo)準(zhǔn)不同,基因得分有很大的差異,因此不同基因序列聚合之前需要將基因得分進(jìn)行標(biāo)準(zhǔn)化處理。因?yàn)樾枰x擇一部分基因作為特征子集,因此設(shè)定一個(gè)閾值α(0<α<1),選取排名靠前的αN個(gè)基因作為特征選擇的結(jié)果。設(shè)計(jì)的集成特征選擇模型具體流程如圖1所示。

圖1 集成特征選擇模型流程圖Fig.1 integrated feature selection model flow chart

(1)

表1 基因序列聚合方法Tab.1 Gene sequence polymerization

1.2 模型算法

1) 輸入基因表達(dá)數(shù)據(jù)集D,基因數(shù)目為N;

2) 循環(huán)步驟,對(duì)于第k(k=1,…,m)種特征選擇方法:

3) 使用聚合方法將不同基因序列聚合在一起,得到{t1,…,tN};

4) 根據(jù)設(shè)定的閾值α(0<α<1),選取排名靠前的αN個(gè)基因作為特征子集。

表2 基因表達(dá)數(shù)據(jù)集Tab.2 Gene expression dataset

2 實(shí)驗(yàn)及結(jié)果

本研究選用白血病、結(jié)腸癌和前列腺疾病3個(gè)基因表達(dá)數(shù)據(jù)集[15],數(shù)據(jù)集具體信息如表2所示。其中Colon數(shù)據(jù)集為結(jié)腸癌數(shù)據(jù)集,正類(lèi)為結(jié)腸癌樣本,負(fù)類(lèi)為正常組織樣本。Leukemia數(shù)據(jù)集為白血病數(shù)據(jù)集,正類(lèi)為急性淋巴細(xì)胞白血病(acute lymyhoblastic leubemia, ALL)樣本,負(fù)類(lèi)為急性髓性白血病(acute lymyhoblastic leubemia,AML)樣本。Prostate數(shù)據(jù)集為前列腺疾病數(shù)據(jù)集,正類(lèi)為前列腺樣本,負(fù)類(lèi)為正常組織樣本?;虮磉_(dá)數(shù)據(jù)為數(shù)值型數(shù)據(jù),列為樣本,行為基因。以Colon數(shù)據(jù)集為例,是一個(gè)62列2 000行矩陣形式的數(shù)據(jù)集。為了評(píng)價(jià)特征子集的分類(lèi)預(yù)測(cè)性能,使用支持向量機(jī)(support vector machine,SVM)作為分類(lèi)器進(jìn)行測(cè)試。在實(shí)驗(yàn)過(guò)程中,支持向量機(jī)的核函數(shù)選用線(xiàn)性核。為預(yù)防過(guò)擬合現(xiàn)象和人為因素的影響,對(duì)數(shù)據(jù)集進(jìn)行五折交叉驗(yàn)證實(shí)驗(yàn)。

模型算法使用R軟件 X64 3.3.3版本的腳本語(yǔ)言編寫(xiě),并在Windows 7上運(yùn)行。

2.1 分類(lèi)準(zhǔn)確度結(jié)果

研究表明,只有少數(shù)基因能夠?yàn)榧膊》诸?lèi)模型提供有用信息,因此將閾值α設(shè)定在1%~10%,比較不同條件下的模型預(yù)測(cè)準(zhǔn)確度。實(shí)驗(yàn)結(jié)果如表3所示。

表3 Colon數(shù)據(jù)集分類(lèi)準(zhǔn)確度Tab.3 Accuracy of Colon data set

表4 Leukemia數(shù)據(jù)集分類(lèi)準(zhǔn)確度Tab.4 Accuracy of Leukemia data set

表3~5展示了不同特征選擇方法在不同閾值α下獲得的特征子集使用支持向量機(jī)得到的分類(lèi)準(zhǔn)確度。加黑字體部分為同一閾值下不同特征選擇方法到達(dá)的最高準(zhǔn)確度。從實(shí)驗(yàn)結(jié)果可以看出,集成特征選擇方法得到的特征子集具有比單一方法更好的預(yù)測(cè)性能。采用的3種聚合方法中,中位數(shù)聚合方法在Colon數(shù)據(jù)集和Leukemia數(shù)據(jù)集表現(xiàn)出最佳的性能,但在Prostate數(shù)據(jù)集中,均值聚合方法表現(xiàn)的性能更好。說(shuō)明針對(duì)不同的數(shù)據(jù)集應(yīng)該選取不同的聚合方法。閾值α取值在0.05左右已經(jīng)可以達(dá)到一個(gè)較好的分類(lèi)準(zhǔn)確度,當(dāng)閾值α取值在[0.08,0.1]范圍時(shí),分類(lèi)準(zhǔn)確度不僅不會(huì)增加,反而會(huì)減小。原因是由于不同特征之間具有一定的相關(guān)性,過(guò)多的特征會(huì)造成數(shù)據(jù)的冗余,增加數(shù)據(jù)的噪聲,從而導(dǎo)致分類(lèi)性能的降低。如何減少特征子集的冗余是下一步研究的方向。

表5 Prostate數(shù)據(jù)集分類(lèi)準(zhǔn)確度Tab.5 Accuracy of Prostate data set

2.2 閾值α影響分析

閾值的變化體現(xiàn)在特征選擇的百分比上,特征數(shù)量的變化又會(huì)對(duì)最終分類(lèi)結(jié)果造成影響。為了得到更加客觀準(zhǔn)確的結(jié)果,對(duì)閾值α影響進(jìn)行分析。在原有區(qū)間[0.01,0.1]將α取值間隔設(shè)定為0.005,分析α的取值是否會(huì)對(duì)準(zhǔn)確度的變化產(chǎn)生較大的影響并增加隨機(jī)森林分類(lèi)器進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖2。

圖2顯示了三個(gè)基因表達(dá)數(shù)據(jù)集使用支持向量機(jī)與隨機(jī)森林作為分類(lèi)器,在更小的劃分間隔下不同特征選擇方法選擇特征子集獲得的分類(lèi)準(zhǔn)確度??梢钥闯鯟olon、Leukemia和Prostate 3個(gè)數(shù)據(jù)集在支持向量機(jī)上達(dá)到最高分類(lèi)準(zhǔn)確度的閾值α取值分別為0.05,0.055,0.04,在隨機(jī)森林上達(dá)到最高分類(lèi)準(zhǔn)確度閾值α取值分別為0.055,0.055,0.06,這說(shuō)明不同數(shù)據(jù)集之間具有一定的差異性,不同的分類(lèi)器對(duì)閾值α也有不同的影響;隨機(jī)森林的最高分類(lèi)準(zhǔn)確度相對(duì)于支持向量機(jī)要低一些,但也能達(dá)到一個(gè)較高的分類(lèi)準(zhǔn)確度,隨機(jī)森林在集成特征選擇方法上也能夠獲得比單一特征選擇方法更好的分類(lèi)性能,這說(shuō)明集成特征選擇方法對(duì)不同的分類(lèi)器具有較好的適應(yīng)性。對(duì)于特定的數(shù)據(jù)集需要尋找一個(gè)合適的閾值α,同時(shí)設(shè)置更小的閾值α不會(huì)引起分類(lèi)準(zhǔn)確度曲線(xiàn)產(chǎn)出較大的變化,這說(shuō)明閾值區(qū)間間隔設(shè)置為0.01是一個(gè)較好的選擇。

圖2 閾值α影響分析Fig.2 Impact analysis of threshold

3 結(jié)束語(yǔ)

特征選擇是模式識(shí)別系統(tǒng)的一個(gè)重要問(wèn)題,是從原始特征中選擇出一組最有價(jià)值的特征來(lái)降低數(shù)據(jù)集維度的過(guò)程,是提高模型學(xué)習(xí)算法性能的一個(gè)重要手段。單一特征選擇方法得到的特征子集可能會(huì)有偏差,因此,在特征選擇上引入集成學(xué)習(xí)的思想,構(gòu)建集成特征選擇模型。 針對(duì)基因表達(dá)數(shù)據(jù)的疾病診斷問(wèn)題,將三種過(guò)濾式特征選擇方法集成在一起,并分析了不同聚合方法在此模型上的集成效果,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)相對(duì)于單一的特征選擇方法集成特征選擇能夠有效的提高分類(lèi)準(zhǔn)確度。但只在三個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,實(shí)驗(yàn)具有一定的局限性,因此需要將該方法應(yīng)用于更多的基因表達(dá)數(shù)據(jù)集上,來(lái)進(jìn)一步驗(yàn)證該模型的有效性。此外,本研究發(fā)現(xiàn)只有少數(shù)的特征能給分類(lèi)模型帶來(lái)有用的信息,過(guò)多的特征會(huì)造成特征子集的冗余,降低分類(lèi)模型的預(yù)測(cè)準(zhǔn)確度。因此考慮不同特征之間的相關(guān)關(guān)系,降低特征子集的冗余也是需要進(jìn)一步研究的問(wèn)題。

猜你喜歡
特征選擇子集準(zhǔn)確度
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
建筑科技(2018年6期)2018-08-30 03:40:54
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
動(dòng)態(tài)汽車(chē)衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
聯(lián)合互信息水下目標(biāo)特征選擇算法
每一次愛(ài)情都只是愛(ài)情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
高爐重量布料準(zhǔn)確度的提高
天津冶金(2014年4期)2014-02-28 16:52:58
东乡| 吴川市| 敦化市| 玉田县| 邢台县| 安溪县| 桐庐县| 城市| 巴马| 桃源县| 万年县| 观塘区| 临夏县| 安国市| 长垣县| 柏乡县| 大英县| 莎车县| 凤山县| 佛坪县| 平谷区| 怀柔区| 阳城县| 乐平市| 江都市| 嘉善县| 沧州市| 托克逊县| 兰考县| 滨州市| 海阳市| 丽水市| 蒙城县| 保定市| 内江市| 鹤岗市| 山阳县| 金华市| 旺苍县| 申扎县| 通海县|