基于殘差超網(wǎng)絡(luò)的DNA 微陣列數(shù)據(jù)分類

2015-12-15 10:31朱文曉孫開偉陳喬松

重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年5期

王進(jìn)，朱文曉，孫開偉，2，鄧欣，陳喬松

(1.重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室，重慶400065;2.韓國(guó)仁荷大學(xué)信息與通信工程系，仁川402-751)

0 引言

DNA微陣列(DNA microarray)，又名基因芯片(gene chip)，是上世紀(jì)末分子生物學(xué)領(lǐng)域的一項(xiàng)重大技術(shù)突破。近年來(lái)，DNA微陣列技術(shù)已被廣泛應(yīng)用于生物醫(yī)學(xué)上的惡性腫瘤分子診斷、生物標(biāo)簽辨別、藥物開發(fā)、分子靶向治療等相關(guān)領(lǐng)域。相對(duì)于傳統(tǒng)的基于形態(tài)學(xué)的癌癥分型方法，利用惡性腫瘤基因表達(dá)模型的差異，基于DNA微陣列的癌癥分型技術(shù)能夠有效地提高識(shí)別精度，辨別新的癌癥亞型，促進(jìn)臨床治療。DNA微陣列數(shù)據(jù)具有基因數(shù)量多(通常數(shù)千甚至更多，其中包含大量冗余，不相關(guān)基因)，樣本少(遠(yuǎn)小于基因數(shù)量)的特點(diǎn)。針對(duì)上述特性，研究人員已提出了包括人工神經(jīng)網(wǎng)絡(luò)［1］、貝葉斯網(wǎng)絡(luò)［2］、支持向量機(jī)［3］等多種經(jīng)典分類器，以及多分類器集成［4］等方法來(lái)提高DNA微陣列數(shù)據(jù)分類精度。然而大量前期實(shí)驗(yàn)結(jié)果表明，不同的分類器對(duì)同一DNA微陣列數(shù)據(jù)集分類效果不同;即使對(duì)同一數(shù)據(jù)集采用同種分類器，隨著提取特征基因和分類器學(xué)習(xí)過(guò)程的差異，分類性能也會(huì)有較大波動(dòng)。在實(shí)際癌癥分子診斷應(yīng)用中偶然的一次失誤可能會(huì)造成嚴(yán)重的后果，因此對(duì)DNA微陣列數(shù)據(jù)分類穩(wěn)定性的研究具有重要意義。

超網(wǎng)絡(luò)(hypernetworks)是受生物分子網(wǎng)絡(luò)啟發(fā)而建立的一種基于超圖(hypergraph)的認(rèn)知學(xué)習(xí)模型。組成超網(wǎng)絡(luò)的超邊(hyperedge)包含多個(gè)模式特征，可以表達(dá)特征變量之間的關(guān)聯(lián)性。通過(guò)演化學(xué)習(xí)，超網(wǎng)絡(luò)可以有效獲取與模式分類相關(guān)的特征組合，因此非常適用于基于DNA微陣列數(shù)據(jù)的癌癥分子診斷以及生物標(biāo)簽發(fā)現(xiàn)等問(wèn)題。在癌癥分型應(yīng)用中，作者［5-6］已成功利用超網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)癌癥樣本與正常樣本分型和對(duì)癌癥基因間相互作用的有效挖掘。在傳統(tǒng)超網(wǎng)絡(luò)演化學(xué)習(xí)過(guò)程中，主要采用隨機(jī)的方式完成超邊庫(kù)初始化，超邊庫(kù)初始化的效果對(duì)演化學(xué)習(xí)后超網(wǎng)絡(luò)的分類性能有顯著影響。為提高超網(wǎng)絡(luò)分類性能，從改進(jìn)其演化學(xué)習(xí)方式的視角，近年來(lái)先后出現(xiàn)了基于權(quán)值調(diào)整［7］，和基于超邊替代［5-6］等學(xué)習(xí)方式。然而受隨機(jī)初始化超邊庫(kù)方法的制約，演化超網(wǎng)絡(luò)的分類性能通常不夠穩(wěn)定。本文從優(yōu)化超網(wǎng)絡(luò)的初始化過(guò)程入手，提出了一種基于殘差分析的演化超網(wǎng)絡(luò)分類模型。針對(duì)DNA微陣列數(shù)據(jù)中的海量基因，作者以基于95%的置信水平，運(yùn)用殘差分析從中提取關(guān)聯(lián)性強(qiáng)的基因組合，完成對(duì)超邊庫(kù)的初始化。急性白血病、前列腺癌和肺癌3個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，通過(guò)優(yōu)化超網(wǎng)絡(luò)初始化過(guò)程，本文方法不僅具有較好的分類精度，而且有效提高了分類器的穩(wěn)定性和收斂效果。

1 超網(wǎng)絡(luò)模型

1.1 超網(wǎng)絡(luò)定義

超網(wǎng)絡(luò)是超圖的推廣，超圖G是由超邊組成的無(wú)向圖，所謂超邊是指它所連接的頂點(diǎn)個(gè)數(shù)可以大于2，即G=(V，E)，其中V={v1，v2，…，vn}是包含n個(gè)頂點(diǎn)的集合，E={e1，e2，…，em}是包含m條超邊的集合，E中每個(gè)元素ei={vi1，vi2，…，vik}，(k≥1)是一條連接k個(gè)頂點(diǎn)的超邊。圖1為一個(gè)擁有7個(gè)頂點(diǎn)4條超邊的超圖。

圖1 具有7個(gè)頂點(diǎn)4條邊的超圖Fig.1 A hypergraph with 7 vertexes and 4 hyperedges

對(duì)超圖的每條超邊賦予權(quán)值和類別標(biāo)識(shí)形成超網(wǎng)絡(luò)模型，可以用1個(gè)三元組H表示:H=(V，E，W)。其中V是特征變量集合，n表示V的大小。E={e1，e2，…，em}為超網(wǎng)絡(luò)的超邊集合，超邊ei={vi1，vi2，…，vik，yi}由k個(gè)特征及類別標(biāo)識(shí)yi組成，k(1≤k≤n)稱為超邊的階數(shù)。W={w1，w2，…，wm}是超邊的權(quán)值集合。圖2是一個(gè)包含7個(gè)特征3條超邊的超網(wǎng)絡(luò)，圖中超邊線條的粗細(xì)代表了超邊權(quán)值的大小。

圖2 具有7個(gè)頂點(diǎn)3條超邊的超網(wǎng)絡(luò)Fig.2 A hypernetwork with 7 vertexes and 3 hyperedges

1.2 超網(wǎng)絡(luò)分類器

超網(wǎng)絡(luò)經(jīng)過(guò)演化學(xué)習(xí)形成分類器。超邊連接的頂點(diǎn)被看作決策屬性，超邊作為決策規(guī)則，大量超邊組成的超網(wǎng)絡(luò)就是一個(gè)決策系統(tǒng):對(duì)于給定的輸入模式X={X1，X2，…，Xn}，它能輸出該模式所對(duì)應(yīng)的類別。當(dāng)超邊包含的頂點(diǎn)特征值與樣本對(duì)應(yīng)的特征值相等，且超邊的類別標(biāo)識(shí)與樣本的類別相同時(shí)稱為2者正確匹配，否則為錯(cuò)誤匹配。

根據(jù)輸入訓(xùn)練集D，對(duì)其中每個(gè)樣本的特征進(jìn)行多次采樣，建立一個(gè)初始化超邊庫(kù);再通過(guò)演化學(xué)習(xí)形成超網(wǎng)絡(luò)分類器，超網(wǎng)絡(luò)分類器利用所有超邊共同做出決策，輸出該模式所對(duì)應(yīng)的類別Y。

D具有以下形式

(1)式中:N為訓(xùn)練集樣本總數(shù);Xi為第i個(gè)訓(xùn)練樣本;xij表示第i個(gè)樣本的第j維特征的表達(dá)值;n表示特征空間大小;yi為Xi的類別標(biāo)識(shí)。

超網(wǎng)絡(luò)分類器H(X)可以表示輸入模式X與輸出類別Y∈{0，1}的聯(lián)合概率P(X，Y)。該聯(lián)合概率可以通過(guò)對(duì)超邊進(jìn)行點(diǎn)估計(jì)近似得到

在分類過(guò)程中，超網(wǎng)絡(luò)的每條超邊與樣本X進(jìn)行匹配，通過(guò)計(jì)算輸入樣本X屬于每個(gè)類別的條件概率，取條件概率最大的類別作為分類結(jié)果

(4)式中，P(X)≈|M|/|L|表示輸入樣本X被超網(wǎng)絡(luò)學(xué)習(xí)記憶的概率，通過(guò)計(jì)算所有與輸入樣本X匹配的超邊數(shù)|M|與超邊總數(shù)的比值得出。由(2)式和(4)式得

超網(wǎng)絡(luò)分類器的分類過(guò)程如下:

1)對(duì)超網(wǎng)絡(luò)進(jìn)行初始化和演化學(xué)習(xí);

2)輸入待分類樣本X;

3)根據(jù)以下步驟對(duì)輸入樣本X進(jìn)行分類:

①將X與L中所有超邊進(jìn)行匹配，并將與X匹配的超邊放入集合M中。

②對(duì)集合M中的超邊根據(jù)超邊的類別標(biāo)識(shí)劃分:類別為0的超邊歸類到M0中，將類別為1的超邊歸類到M1中。

2 基于殘差算法的超網(wǎng)絡(luò)分類器

關(guān)聯(lián)性是指屬性之間的相互關(guān)聯(lián)，相互作用，廣泛應(yīng)用于屬性選擇、數(shù)據(jù)清理等方面。研究表明DNA微陣列數(shù)據(jù)特征維數(shù)高，包含噪音，屬性之間以及屬性與樣本類別之間有著很復(fù)雜的關(guān)聯(lián)性。而在傳統(tǒng)超網(wǎng)絡(luò)初始化過(guò)程中，一般通過(guò)從訓(xùn)練集中隨機(jī)挑選屬性值形成超邊，但是并非任意屬性組合都能與樣本的類別相關(guān)聯(lián)。為了解決這個(gè)問(wèn)題，本文采用殘差算法對(duì)超網(wǎng)絡(luò)進(jìn)行初始化，再利用梯度下降法對(duì)超網(wǎng)絡(luò)進(jìn)行演化學(xué)習(xí)，保證了每條超邊的分類性能。

殘差算法基于顯著性檢驗(yàn)，可以挖掘出關(guān)聯(lián)性強(qiáng)的屬性組合。首先假設(shè)選取的屬性相互獨(dú)立，然后判斷總體的真實(shí)情況與原假設(shè)是否有顯著性差異。殘差是指觀測(cè)值與預(yù)測(cè)值之間的差［8］，標(biāo)準(zhǔn)殘差有一個(gè)利于計(jì)算的特性，殘差的平方和服從卡方分布，故在其方差近似為1，均值近似為0時(shí)殘差服從正態(tài)分布［9］。為了精確計(jì)算，本文設(shè)定置信水平為95%，根據(jù)正太分布和置信水平計(jì)算得到拒絕域臨界值為1.96，把殘差值和臨界值比較，當(dāng)落入拒絕域時(shí)，拒絕原假設(shè)，即顯著表明真實(shí)的差異存在，也就選取出了彼此具有很強(qiáng)的關(guān)聯(lián)性的屬性組合。根據(jù)殘差方法選取頂點(diǎn)組成超邊也就可以保證超網(wǎng)絡(luò)的分類特性。

2.1 基于殘差算法的超網(wǎng)初始化

訓(xùn)練集D包含M個(gè)樣本，每個(gè)樣本包含N個(gè)屬性值，訓(xùn)練集D={D1，D2，…，DM}，Dm表示第m個(gè)樣本，屬性集X={X1，X2，…，XN}，XN為樣本類別集合，第n個(gè)屬性集Xn={x1n，x2n，…，xMn}屬性值xin∈{0，1}。初始超網(wǎng)絡(luò)超邊庫(kù)為空，訓(xùn)練集中的每個(gè)類別值形成100條階數(shù)為1的超邊。

超邊ej從訓(xùn)練集中挑選屬性值形成頂點(diǎn)。首先假設(shè)選取的屬性相互獨(dú)立，則超邊的邊界概率Pr應(yīng)與預(yù)測(cè)概率有顯著的差別。超邊ej={v1，v2，…，vp}未檢測(cè)過(guò)的屬性集為X*，X*?X。隨機(jī)從X*中選取屬性Xn，屬性值xn=0，將此屬性加入超邊ej。定義超邊頂點(diǎn)組合的觀測(cè)值為obs，它是訓(xùn)練集中可與超邊匹配的樣本數(shù)。例如:對(duì)于超邊ej，訓(xùn)練集中可與此屬性組合匹配的樣本數(shù)為26，則超邊ej的obs=26。

對(duì)于預(yù)測(cè)值e

(6)式中，D*為訓(xùn)練集中與該超邊類別相同的樣本數(shù)。邊界頻率Pr(vj=xin)=k/M，為超邊頂點(diǎn)vj相應(yīng)屬性值在訓(xùn)練集中的比例，k為vj出現(xiàn)的次數(shù)。如頂點(diǎn)對(duì)應(yīng)屬性X9，屬性值x9=0，在屬性集X9中有18個(gè)屬性值為0的元素，則k=18。因超邊階數(shù)過(guò)大時(shí)將難以進(jìn)行統(tǒng)計(jì)測(cè)試［8］，故限制預(yù)測(cè)值e＞ωe(ωe為常數(shù))以限制其階數(shù)范圍，使事件符合統(tǒng)計(jì)顯著性的測(cè)試條件。

區(qū)別Pr與預(yù)測(cè)概率等價(jià)于區(qū)別obs與e，用標(biāo)準(zhǔn)殘差z衡量他們之間的差異［8］

為了確保z的方差近似為1，均值近似為0，也就是保證殘差服從正態(tài)分布。對(duì)z進(jìn)行如下調(diào)整得到調(diào)整殘差d。如果d的絕對(duì)值大于1.96，則obs與e差異的顯著性水平大于95%，則原假設(shè)失敗

(8)式中，v是z的最大似然估計(jì)。v=(1－∏Pri)(1－Prn)，Pri表示超邊已有頂點(diǎn)的邊界概率，Prn表示新增頂點(diǎn)的邊界概率。如果e＞ωe且d＞1.96，說(shuō)明該屬性組合有較強(qiáng)的關(guān)聯(lián)性，則將此屬性值加入超邊，否則改變?cè)搶傩灾挡z測(cè)，滿足則加入超邊庫(kù)，否則繼續(xù)選取其他屬性進(jìn)行檢測(cè)?；跉埐罘治龅某W(wǎng)絡(luò)初始化過(guò)程如下

1)初始化。

初始化超邊庫(kù)L為空，訓(xùn)練集中的每個(gè)特征屬性形成100條階數(shù)為1的超邊;

2)超邊的頂點(diǎn)(屬性)選取。

①?gòu)脑摮呂礄z測(cè)過(guò)的屬性集中隨機(jī)選取一個(gè)屬性，屬性值設(shè)為0，加入超邊;

②根據(jù)新形成的屬性組合(超邊)，按(8)式和式(10)分別計(jì)算e和d，如果滿足e＞ωe且d＞1.96，則將此屬性加入超邊，執(zhí)行步驟④，否則執(zhí)行步驟③;

③將屬性值改為1，按照新的屬性組合，計(jì)算e和d，如果滿足條件，則將該屬性加入超邊，否則將該屬性刪除，并執(zhí)行步驟④;

④如超邊已將所有屬性檢測(cè)完畢，則執(zhí)行3)，否則執(zhí)行步驟①;

3)檢驗(yàn)是否完成全部超邊的頂點(diǎn)選取，如完成則結(jié)束，否則為下一條超邊選取頂點(diǎn)，執(zhí)行2)。

為了更直觀地說(shuō)明超網(wǎng)絡(luò)初始化過(guò)程中的超邊頂點(diǎn)選取操作，圖3描述了在數(shù)據(jù)集D中(包含6個(gè)樣本，10個(gè)屬性)，為超邊e={v1=1，y=0}選取并添加一個(gè)頂點(diǎn)的過(guò)程。

圖3 基于殘差算法的屬性選擇過(guò)程Fig.3 Process of vertex selection based on residual algorithm

2.2 超網(wǎng)絡(luò)的演化學(xué)習(xí)

本文采用梯度下降法對(duì)超網(wǎng)絡(luò)進(jìn)行演化學(xué)習(xí)。通過(guò)降低分類錯(cuò)誤超邊的權(quán)值，同時(shí)提高分類正確超邊的權(quán)值，增強(qiáng)分類正確超邊在分類過(guò)程中的作用，其學(xué)習(xí)過(guò)程如下:

對(duì)訓(xùn)練集中的每個(gè)樣本進(jìn)行超邊匹配，C表示匹配正確的超邊數(shù)，C0表示其中類別為0的超邊數(shù)，C1表示類別為1的超邊數(shù)。如果C0＞C1則Y=0，P=C0/C，反之Y=1，P=C1/C。若Y與該樣本的類別不同，說(shuō)明大多數(shù)超邊分類錯(cuò)誤，將其中分類錯(cuò)誤的超邊權(quán)值進(jìn)行以下變化，Weight=Weight+0.25*(0.0－P)，分類正確的超邊權(quán)值進(jìn)行以下變化Weight=Weight+0.25*(1.0－P)。

因在演化學(xué)習(xí)過(guò)程中改變了超邊的權(quán)值，故對(duì)所有超邊的權(quán)值按(9)式進(jìn)行歸一化處理

(9)式中:Weight表示超邊權(quán)值;MaxNum表示超邊總數(shù);tatal表示全部超邊原權(quán)值之和。

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集

本文采用急性白血病、前列腺癌和肺癌3個(gè)DNA微陣列數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。急性白血病數(shù)據(jù)集來(lái)源于麻省理工學(xué)院采集的72個(gè)不同病人的白血病樣本［5］，包含ALL和AML 2種類型。其中38個(gè)樣本(27個(gè)ALL，11個(gè)AML)作為訓(xùn)練集;另外獨(dú)立的34個(gè)樣本(20個(gè)ALL，14個(gè)AML)作為測(cè)試集。前列腺數(shù)據(jù)集［5］共136個(gè)樣本，其中102個(gè)樣本作為訓(xùn)練集(52個(gè)癌細(xì)胞樣本和50個(gè)正常樣本)，另外獨(dú)立的34個(gè)樣本作為測(cè)試集(包含25個(gè)癌細(xì)胞樣本和9個(gè)正常樣本)。肺癌數(shù)據(jù)集［5］包含惡性胸膜間皮瘤(malignant pleural mesothelioma，MPM)和肺腺瘤(lung adenocarcinoma，ADCA)2種類型，共181個(gè)樣本，其中32個(gè)樣本(16個(gè)MPM，16個(gè)ADCA)作為訓(xùn)練集，另外獨(dú)立的149個(gè)樣本(15個(gè)MPM，134個(gè)ADCA)作為測(cè)試集。用信噪比［5］方法對(duì)3個(gè)數(shù)據(jù)集進(jìn)行特征選擇，選取32個(gè)基因進(jìn)行分類實(shí)驗(yàn)。本文中所有平均實(shí)驗(yàn)結(jié)果都來(lái)自50次獨(dú)立實(shí)驗(yàn)。

3.2 參數(shù)設(shè)定對(duì)分類的影響

在超網(wǎng)絡(luò)模型中，超邊階數(shù)的設(shè)定對(duì)系統(tǒng)分類性能有著較大影響［5-7］。本文中預(yù)測(cè)值e的取值直接影響超邊階數(shù)的范圍:超邊階數(shù)總體隨e的下限ωe的增大而減小。本文通過(guò)對(duì)3個(gè)DNA微陣列數(shù)據(jù)集的訓(xùn)練集進(jìn)行留一交叉驗(yàn)證(leave one out cross validation，LOOCV)［5］測(cè)試，完成參數(shù) ωe的選擇和設(shè)定。

圖4給出了不同ωe設(shè)定下，殘差超網(wǎng)絡(luò)對(duì)急性白血病、前列腺癌和肺癌數(shù)據(jù)集訓(xùn)練集的平均LOOCV識(shí)別率。當(dāng)ωe為9時(shí)，殘差超網(wǎng)絡(luò)對(duì)急性白血病數(shù)據(jù)集的分類精度最高為99.87%，此時(shí)超邊階數(shù)在1到4之間;當(dāng)ωe為5時(shí)，對(duì)前列腺癌數(shù)據(jù)集的分類精度最高為94.5%，此時(shí)超邊階數(shù)為3或4;而對(duì)肺癌數(shù)據(jù)集，當(dāng)0＜ωe＜5時(shí)分類精度最高為100%，此時(shí)大多數(shù)超邊的階數(shù)為2。根據(jù)圖4，在后續(xù)對(duì)急性白血病、前列腺癌和肺癌的獨(dú)立測(cè)試集實(shí)驗(yàn)中，ωe分別取值為9，5和4。

圖4 不同ωe下殘差超網(wǎng)絡(luò)對(duì)3個(gè)數(shù)據(jù)集的訓(xùn)練集平均LOOCV識(shí)別率Fig.4 Average LOOCV-accuracy of residual hypernetworks with different parameters for three datasets

3.3 與傳統(tǒng)網(wǎng)絡(luò)分類器的性能比較

根據(jù)3.2節(jié)選取的ωe值，用3個(gè)數(shù)據(jù)集中的訓(xùn)練集對(duì)殘差超網(wǎng)絡(luò)進(jìn)行初始化和演化學(xué)習(xí)，然后對(duì)獨(dú)立的測(cè)試集進(jìn)行分類。表1給出了殘差超網(wǎng)絡(luò)和傳統(tǒng)基于梯度下降法的超網(wǎng)絡(luò)［7］在急性白血病、前列腺癌和肺癌3個(gè)數(shù)據(jù)集上的獨(dú)立測(cè)試集分類效果對(duì)比?？梢钥闯觯ㄟ^(guò)優(yōu)化超網(wǎng)絡(luò)初始化過(guò)程，本文提出的殘差超網(wǎng)絡(luò)相對(duì)于傳統(tǒng)超網(wǎng)絡(luò)不僅具有較高的識(shí)別率，而且具有更好的分類穩(wěn)定性。

表1 對(duì)3個(gè)數(shù)據(jù)集的獨(dú)立測(cè)試集分類結(jié)果對(duì)比Tab.1 Classification performance comparison of three datasets

圖5、圖6為殘差超網(wǎng)絡(luò)與傳統(tǒng)超網(wǎng)絡(luò)對(duì)急性白血病和前列腺癌數(shù)據(jù)進(jìn)行演化學(xué)習(xí)過(guò)程中的測(cè)試集識(shí)別率收斂效果對(duì)比。圖5、圖6中，對(duì)每個(gè)癌癥數(shù)據(jù)均進(jìn)行了45次基于梯度下降的迭代學(xué)習(xí)。因傳統(tǒng)超網(wǎng)絡(luò)在對(duì)肺癌數(shù)據(jù)進(jìn)行學(xué)習(xí)時(shí)，其首次迭代后的訓(xùn)練集分類精度即達(dá)到100%，導(dǎo)致無(wú)法進(jìn)行后續(xù)迭代學(xué)習(xí)，測(cè)試集分類精度無(wú)法提高(見表1)，故未對(duì)該數(shù)據(jù)集上殘差超網(wǎng)絡(luò)與傳統(tǒng)超網(wǎng)絡(luò)的收斂性進(jìn)行比較。

圖5 急性白血病數(shù)據(jù)的測(cè)試集識(shí)別率收斂效果對(duì)比Fig.5 Convergence comparison of the acute leukemia test datasets

圖6 前列腺癌數(shù)據(jù)的測(cè)試集識(shí)別率收斂效果對(duì)比Fig.6 Convergence comparison of prostate test datasets

根據(jù)圖5、圖6，殘差超網(wǎng)絡(luò)在迭代學(xué)習(xí)過(guò)程中對(duì)測(cè)試集的分類精度成穩(wěn)步上升趨勢(shì)，而且很快達(dá)到并保持最佳分類精度。而傳統(tǒng)超網(wǎng)絡(luò)的分類精度在迭代學(xué)習(xí)過(guò)程中上下震蕩周期較長(zhǎng)，難以達(dá)到平衡。殘差超網(wǎng)絡(luò)具備更好的收斂性能，主要在于其初始化過(guò)程中限定了e和殘差條件，產(chǎn)生的超邊能更好地表達(dá)基因間的關(guān)聯(lián)性;而傳統(tǒng)超網(wǎng)絡(luò)則是無(wú)條件限制地隨機(jī)生成超邊，這樣就可能造成超邊的分類性能較低的情況。

殘差分析方法的引入不僅提高了超網(wǎng)絡(luò)的分類精度、穩(wěn)定性和收斂性，在超網(wǎng)絡(luò)階數(shù)設(shè)定方面也有一定優(yōu)勢(shì)。殘差超網(wǎng)絡(luò)的階數(shù)根據(jù)參數(shù)ωe自適應(yīng)產(chǎn)生，避免了傳統(tǒng)超網(wǎng)絡(luò)對(duì)階數(shù)的硬性設(shè)定，進(jìn)而避免產(chǎn)生屬性冗余項(xiàng)。比如數(shù)據(jù)實(shí)際只有3階高階關(guān)聯(lián)性，傳統(tǒng)超網(wǎng)絡(luò)卻可能設(shè)定其超邊階數(shù)超過(guò)3階。

3.4 不同分類器分類精度比較

表2、表3和表4分別給出了殘差超網(wǎng)絡(luò)分類器與其他現(xiàn)有模式識(shí)別方法在3個(gè)數(shù)據(jù)集中的獨(dú)立測(cè)試集平均識(shí)別率?？梢钥闯觯瑲埐畛W(wǎng)絡(luò)具有與其他分類方法可比的分類精度。

表2 不同分類算法對(duì)急性白血病數(shù)據(jù)獨(dú)立測(cè)試集的平均識(shí)別率對(duì)比Tab.2 Average accuracy comparison of the acute leukemia test datasets with different classification algorithm

表3 不同分類算法對(duì)前列腺癌數(shù)據(jù)獨(dú)立測(cè)試集的平均識(shí)別率對(duì)比Tab.3 Average accuracy comparison of prostate test datasets with different classification algorithm

表4 不同分類算法對(duì)肺癌數(shù)據(jù)獨(dú)立測(cè)試集的平均識(shí)別率對(duì)比Tab.4 Average accuracy comparison of lung test datasets with different classification algorithm

4 結(jié)語(yǔ)

本文提出了一種基于殘差算法的演化超網(wǎng)絡(luò)超邊初始化方法.通過(guò)運(yùn)用殘差分析對(duì)超邊庫(kù)進(jìn)行初始化，其后采用梯度下降法演化學(xué)習(xí)超網(wǎng)絡(luò)分類模型，得到以下結(jié)論:

1)基于殘差算法初始化的超網(wǎng)絡(luò)可有效獲取關(guān)聯(lián)性較強(qiáng)的超邊組合，解決了傳統(tǒng)演化超網(wǎng)絡(luò)在超邊初始化過(guò)程中存在較大的隨機(jī)性，影響DNA微陣列數(shù)據(jù)分類效果的問(wèn)題。

2)因?yàn)槌呿旤c(diǎn)根據(jù)殘差算法自主生成，避免了超網(wǎng)絡(luò)階數(shù)設(shè)定的硬性要求。

3)殘差超網(wǎng)絡(luò)相較于傳統(tǒng)超網(wǎng)絡(luò)分類器在總體分類精度、分類穩(wěn)定性和學(xué)習(xí)算法收斂性方面都有一定的提高。

［1］SENAPATI M R，MOHANTY A K，DASH S，et al.Local linear wavelet neural network for breast cancer recognition［J］.Neural Computing and Applications，2013，22(1):125-131.

［2］MUTALIB M A，CHAI L E，CHONG C K，et al.Inferring gene networks from gene expression data using dynamic bayesian network with different scoring metric approaches［C］//Proceedings of International Symposium on Biomedical Data Infrastructure.Kuala Lumpur，Malaysia:Springer Berlin Heidelberg，2013:77-86.

［3］李凌波，張靜，陳丹.基于SVM和平均影響值的人腫瘤信息基因提?。跩］.生物信息學(xué)，2013，11(3):72-78.

LI Lingbo，ZHANG Jing，CHEN Dan.Selection of human tumor information genes based on the support vector machine and mean impact value［J］.Chinese Journal of Bioinformatics，2013，11(3):72-78.

［4］王進(jìn)，陳文，冉仟元，等.用于微陣列數(shù)據(jù)癌癥分類的演化硬件多分類器［J］.江蘇大學(xué)學(xué)報(bào):自然科學(xué)版，2013，34(4):410-415.

WANG Jin，CHEN Wen，RAN Qianyuan，et al.Multiple classifiers based on evolvable hardware for cancer classification with microarray data［J］.Journal of Jiangsu University:Natural Science Edition，2013，34(4):410-415.

［5］王進(jìn)，丁凌，孫開偉，等.演化超網(wǎng)絡(luò)在多類型癌癥分子分型中的應(yīng)用［J］.電子與信息學(xué)報(bào)，2013，35(10):2425-2431.

WANG Jin，DING Ling，SUN Kaiwei，et al.Applying evolutionary hypernetworks for multiclass molecular classification of cancer［J］.Journal of Electronics and Information Technology，2013，35(10):2425-2431.

［6］王進(jìn)，張軍，胡白帆.結(jié)合最優(yōu)類別信息離散的細(xì)粒度超網(wǎng)絡(luò)微陣列數(shù)據(jù)分類［J］.上海交通大學(xué)學(xué)報(bào)，2013，47(12):1856-1862.

WANG Jin，ZHANG Jun，HU Baifan.Optimal class-dependent discretization-based fine-grain hypernetworks for classification of microarray data［J］.Journal of Shanghai Jiao Tong University，2013，47(12):1856-1862

［7］王進(jìn)，任小龍，孫開偉，等.HSV顏色空間下用演化超網(wǎng)絡(luò)識(shí)別道路限速標(biāo)志的研究［J］.高技術(shù)通訊，2013，23(7):679-684.

WANG Jin，REN Xiaolong，SUN Kaiwei，et al.Road speed limit sign recognition using HSV color space and evolutionary hypernetwork［J］.Chinese High Technology Letters，2013，23(7):679-684.

［8］WONG A K C，WANG Y.High-order pattern discovery from discrete-valued data［J］.IEEE Transactions on Knowledge and Data Engineering，1997，9(6):877-893.

［9］CHIU D K Y，WONG A K C，CHEUNG B.Information discovery through hierarchical maximum entropy discretization and synthesis［J］.Knowledge Discovery in Databases，1991:125-140.

［10］TAN A C，GILBERT D.Ensemble machine learning on gene expression data for cancer classification［J］.Applied Bioinformatics，2003，2(3):75-83.

［11］王進(jìn)，黃萍麗，孫開偉，等.基于演化學(xué)習(xí)超網(wǎng)絡(luò)的微陣列數(shù)據(jù)分類［J］.江蘇大學(xué)學(xué)報(bào):自然科學(xué)版，2014，35(1):56-62.

WANG Jin，HUANG Pingli，SUN Kaiwei，et al.Microarray data classification based on evolutionary learning hypernetwork［J］.Journal of Jiangsu University:Natural Science Edition，2014，35(1):56-62.

［12］HA J W，KIM B H，LEE B，et al.Layered hypernetwork models for cross-model associative text and image keyword generation in multimodal information retrieval［C］//Proceedings of the PRICAI 2010.Berlin:Spring Berlin Heidelberg，2010:76-87.

［13］SHARMA A，IMOTO S，MIYANO S.A top-r feature selection algorithm for microarray gene expression data［J］.IEEE/ACM Transactions on Computational Biology and Bioinformatics，2012，9(3):754-764.

［14］CHENG Q.A sparse learning machine for high-dimensional data with application to microarray gene analysis［J］.IEEE/ACM Transactions on Computational Biology and Bioinformatics，2010，7(4):636-646.

［15］盧新國(guó)，林亞平，駱嘉偉，等.癌癥識(shí)別中一種基于組合GCM和CCM的分類算法［J］.軟件學(xué)報(bào)，2010，21(11):2838-2851.

LU Xinguo，LIN Yaping，LUO Jiawei，et al.Classification algorithm combined GCM with CCM in cancer recognition［J］.Journal of Software，2010，21(11):2838-2851.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡