王 進(jìn),朱文曉,孫開偉,2,鄧 欣,陳喬松
(1.重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶400065;2.韓國(guó)仁荷大學(xué)信息與通信工程系,仁川402-751)
DNA微陣列(DNA microarray),又名基因芯片(gene chip),是上世紀(jì)末分子生物學(xué)領(lǐng)域的一項(xiàng)重大技術(shù)突破。近年來(lái),DNA微陣列技術(shù)已被廣泛應(yīng)用于生物醫(yī)學(xué)上的惡性腫瘤分子診斷、生物標(biāo)簽辨別、藥物開發(fā)、分子靶向治療等相關(guān)領(lǐng)域。相對(duì)于傳統(tǒng)的基于形態(tài)學(xué)的癌癥分型方法,利用惡性腫瘤基因表達(dá)模型的差異,基于DNA微陣列的癌癥分型技術(shù)能夠有效地提高識(shí)別精度,辨別新的癌癥亞型,促進(jìn)臨床治療。DNA微陣列數(shù)據(jù)具有基因數(shù)量多(通常數(shù)千甚至更多,其中包含大量冗余,不相關(guān)基因),樣本少(遠(yuǎn)小于基因數(shù)量)的特點(diǎn)。針對(duì)上述特性,研究人員已提出了包括人工神經(jīng)網(wǎng)絡(luò)[1]、貝葉斯網(wǎng)絡(luò)[2]、支持向量機(jī)[3]等多種經(jīng)典分類器,以及多分類器集成[4]等方法來(lái)提高DNA微陣列數(shù)據(jù)分類精度。然而大量前期實(shí)驗(yàn)結(jié)果表明,不同的分類器對(duì)同一DNA微陣列數(shù)據(jù)集分類效果不同;即使對(duì)同一數(shù)據(jù)集采用同種分類器,隨著提取特征基因和分類器學(xué)習(xí)過(guò)程的差異,分類性能也會(huì)有較大波動(dòng)。在實(shí)際癌癥分子診斷應(yīng)用中偶然的一次失誤可能會(huì)造成嚴(yán)重的后果,因此對(duì)DNA微陣列數(shù)據(jù)分類穩(wěn)定性的研究具有重要意義。
超網(wǎng)絡(luò)(hypernetworks)是受生物分子網(wǎng)絡(luò)啟發(fā)而建立的一種基于超圖(hypergraph)的認(rèn)知學(xué)習(xí)模型。組成超網(wǎng)絡(luò)的超邊(hyperedge)包含多個(gè)模式特征,可以表達(dá)特征變量之間的關(guān)聯(lián)性。通過(guò)演化學(xué)習(xí),超網(wǎng)絡(luò)可以有效獲取與模式分類相關(guān)的特征組合,因此非常適用于基于DNA微陣列數(shù)據(jù)的癌癥分子診斷以及生物標(biāo)簽發(fā)現(xiàn)等問(wèn)題。在癌癥分型應(yīng)用中,作者[5-6]已成功利用超網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)癌癥樣本與正常樣本分型和對(duì)癌癥基因間相互作用的有效挖掘。在傳統(tǒng)超網(wǎng)絡(luò)演化學(xué)習(xí)過(guò)程中,主要采用隨機(jī)的方式完成超邊庫(kù)初始化,超邊庫(kù)初始化的效果對(duì)演化學(xué)習(xí)后超網(wǎng)絡(luò)的分類性能有顯著影響。為提高超網(wǎng)絡(luò)分類性能,從改進(jìn)其演化學(xué)習(xí)方式的視角,近年來(lái)先后出現(xiàn)了基于權(quán)值調(diào)整[7],和基于超邊替代[5-6]等學(xué)習(xí)方式。然而受隨機(jī)初始化超邊庫(kù)方法的制約,演化超網(wǎng)絡(luò)的分類性能通常不夠穩(wěn)定。本文從優(yōu)化超網(wǎng)絡(luò)的初始化過(guò)程入手,提出了一種基于殘差分析的演化超網(wǎng)絡(luò)分類模型。針對(duì)DNA微陣列數(shù)據(jù)中的海量基因,作者以基于95%的置信水平,運(yùn)用殘差分析從中提取關(guān)聯(lián)性強(qiáng)的基因組合,完成對(duì)超邊庫(kù)的初始化。急性白血病、前列腺癌和肺癌3個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,通過(guò)優(yōu)化超網(wǎng)絡(luò)初始化過(guò)程,本文方法不僅具有較好的分類精度,而且有效提高了分類器的穩(wěn)定性和收斂效果。
超網(wǎng)絡(luò)是超圖的推廣,超圖G是由超邊組成的無(wú)向圖,所謂超邊是指它所連接的頂點(diǎn)個(gè)數(shù)可以大于2,即G=(V,E),其中V={v1,v2,…,vn}是包含n個(gè)頂點(diǎn)的集合,E={e1,e2,…,em}是包含m條超邊的集合,E中每個(gè)元素ei={vi1,vi2,…,vik},(k≥1)是一條連接k個(gè)頂點(diǎn)的超邊。圖1為一個(gè)擁有7個(gè)頂點(diǎn)4條超邊的超圖。
圖1 具有7個(gè)頂點(diǎn)4條邊的超圖Fig.1 A hypergraph with 7 vertexes and 4 hyperedges
對(duì)超圖的每條超邊賦予權(quán)值和類別標(biāo)識(shí)形成超網(wǎng)絡(luò)模型,可以用1個(gè)三元組H表示:H=(V,E,W)。其中V是特征變量集合,n表示V的大小。E={e1,e2,…,em}為超網(wǎng)絡(luò)的超邊集合,超邊ei={vi1,vi2,…,vik,yi}由k個(gè)特征及類別標(biāo)識(shí)yi組成,k(1≤k≤n)稱為超邊的階數(shù)。W={w1,w2,…,wm}是超邊的權(quán)值集合。圖2是一個(gè)包含7個(gè)特征3條超邊的超網(wǎng)絡(luò),圖中超邊線條的粗細(xì)代表了超邊權(quán)值的大小。
圖2 具有7個(gè)頂點(diǎn)3條超邊的超網(wǎng)絡(luò)Fig.2 A hypernetwork with 7 vertexes and 3 hyperedges
超網(wǎng)絡(luò)經(jīng)過(guò)演化學(xué)習(xí)形成分類器。超邊連接的頂點(diǎn)被看作決策屬性,超邊作為決策規(guī)則,大量超邊組成的超網(wǎng)絡(luò)就是一個(gè)決策系統(tǒng):對(duì)于給定的輸入模式X={X1,X2,…,Xn},它能輸出該模式所對(duì)應(yīng)的類別。當(dāng)超邊包含的頂點(diǎn)特征值與樣本對(duì)應(yīng)的特征值相等,且超邊的類別標(biāo)識(shí)與樣本的類別相同時(shí)稱為2者正確匹配,否則為錯(cuò)誤匹配。
根據(jù)輸入訓(xùn)練集D,對(duì)其中每個(gè)樣本的特征進(jìn)行多次采樣,建立一個(gè)初始化超邊庫(kù);再通過(guò)演化學(xué)習(xí)形成超網(wǎng)絡(luò)分類器,超網(wǎng)絡(luò)分類器利用所有超邊共同做出決策,輸出該模式所對(duì)應(yīng)的類別Y。
D具有以下形式
(1)式中:N為訓(xùn)練集樣本總數(shù);Xi為第i個(gè)訓(xùn)練樣本;xij表示第i個(gè)樣本的第j維特征的表達(dá)值;n表示特征空間大小;yi為Xi的類別標(biāo)識(shí)。
超網(wǎng)絡(luò)分類器H(X)可以表示輸入模式X與輸出類別Y∈{0,1}的聯(lián)合概率P(X,Y)。該聯(lián)合概率可以通過(guò)對(duì)超邊進(jìn)行點(diǎn)估計(jì)近似得到
在分類過(guò)程中,超網(wǎng)絡(luò)的每條超邊與樣本X進(jìn)行匹配,通過(guò)計(jì)算輸入樣本X屬于每個(gè)類別的條件概率,取條件概率最大的類別作為分類結(jié)果
(4)式中,P(X)≈|M|/|L|表示輸入樣本X被超網(wǎng)絡(luò)學(xué)習(xí)記憶的概率,通過(guò)計(jì)算所有與輸入樣本X匹配的超邊數(shù)|M|與超邊總數(shù)的比值得出。由(2)式和(4)式得
超網(wǎng)絡(luò)分類器的分類過(guò)程如下:
1)對(duì)超網(wǎng)絡(luò)進(jìn)行初始化和演化學(xué)習(xí);
2)輸入待分類樣本X;
3)根據(jù)以下步驟對(duì)輸入樣本X進(jìn)行分類:
①將X與L中所有超邊進(jìn)行匹配,并將與X匹配的超邊放入集合M中。
②對(duì)集合M中的超邊根據(jù)超邊的類別標(biāo)識(shí)劃分:類別為0的超邊歸類到M0中,將類別為1的超邊歸類到M1中。
關(guān)聯(lián)性是指屬性之間的相互關(guān)聯(lián),相互作用,廣泛應(yīng)用于屬性選擇、數(shù)據(jù)清理等方面。研究表明DNA微陣列數(shù)據(jù)特征維數(shù)高,包含噪音,屬性之間以及屬性與樣本類別之間有著很復(fù)雜的關(guān)聯(lián)性。而在傳統(tǒng)超網(wǎng)絡(luò)初始化過(guò)程中,一般通過(guò)從訓(xùn)練集中隨機(jī)挑選屬性值形成超邊,但是并非任意屬性組合都能與樣本的類別相關(guān)聯(lián)。為了解決這個(gè)問(wèn)題,本文采用殘差算法對(duì)超網(wǎng)絡(luò)進(jìn)行初始化,再利用梯度下降法對(duì)超網(wǎng)絡(luò)進(jìn)行演化學(xué)習(xí),保證了每條超邊的分類性能。
殘差算法基于顯著性檢驗(yàn),可以挖掘出關(guān)聯(lián)性強(qiáng)的屬性組合。首先假設(shè)選取的屬性相互獨(dú)立,然后判斷總體的真實(shí)情況與原假設(shè)是否有顯著性差異。殘差是指觀測(cè)值與預(yù)測(cè)值之間的差[8],標(biāo)準(zhǔn)殘差有一個(gè)利于計(jì)算的特性,殘差的平方和服從卡方分布,故在其方差近似為1,均值近似為0時(shí)殘差服從正態(tài)分布[9]。為了精確計(jì)算,本文設(shè)定置信水平為95%,根據(jù)正太分布和置信水平計(jì)算得到拒絕域臨界值為1.96,把殘差值和臨界值比較,當(dāng)落入拒絕域時(shí),拒絕原假設(shè),即顯著表明真實(shí)的差異存在,也就選取出了彼此具有很強(qiáng)的關(guān)聯(lián)性的屬性組合。根據(jù)殘差方法選取頂點(diǎn)組成超邊也就可以保證超網(wǎng)絡(luò)的分類特性。
訓(xùn)練集D包含M個(gè)樣本,每個(gè)樣本包含N個(gè)屬性值,訓(xùn)練集D={D1,D2,…,DM},Dm表示第m個(gè)樣本,屬性集X={X1,X2,…,XN},XN為樣本類別集合,第n個(gè)屬性集Xn={x1n,x2n,…,xMn}屬性值xin∈{0,1}。初始超網(wǎng)絡(luò)超邊庫(kù)為空,訓(xùn)練集中的每個(gè)類別值形成100條階數(shù)為1的超邊。
超邊ej從訓(xùn)練集中挑選屬性值形成頂點(diǎn)。首先假設(shè)選取的屬性相互獨(dú)立,則超邊的邊界概率Pr應(yīng)與預(yù)測(cè)概率有顯著的差別。超邊ej={v1,v2,…,vp}未檢測(cè)過(guò)的屬性集為X*,X*?X。隨機(jī)從X*中選取屬性Xn,屬性值xn=0,將此屬性加入超邊ej。定義超邊頂點(diǎn)組合的觀測(cè)值為obs,它是訓(xùn)練集中可與超邊匹配的樣本數(shù)。例如:對(duì)于超邊ej,訓(xùn)練集中可與此屬性組合匹配的樣本數(shù)為26,則超邊ej的obs=26。
對(duì)于預(yù)測(cè)值e
(6)式中,D*為訓(xùn)練集中與該超邊類別相同的樣本數(shù)。邊界頻率Pr(vj=xin)=k/M,為超邊頂點(diǎn)vj相應(yīng)屬性值在訓(xùn)練集中的比例,k為vj出現(xiàn)的次數(shù)。如頂點(diǎn)對(duì)應(yīng)屬性X9,屬性值x9=0,在屬性集X9中有18個(gè)屬性值為0的元素,則k=18。因超邊階數(shù)過(guò)大時(shí)將難以進(jìn)行統(tǒng)計(jì)測(cè)試[8],故限制預(yù)測(cè)值e>ωe(ωe為常數(shù))以限制其階數(shù)范圍,使事件符合統(tǒng)計(jì)顯著性的測(cè)試條件。
區(qū)別Pr與預(yù)測(cè)概率等價(jià)于區(qū)別obs與e,用標(biāo)準(zhǔn)殘差z衡量他們之間的差異[8]
為了確保z的方差近似為1,均值近似為0,也就是保證殘差服從正態(tài)分布。對(duì)z進(jìn)行如下調(diào)整得到調(diào)整殘差d。如果d的絕對(duì)值大于1.96,則obs與e差異的顯著性水平大于95%,則原假設(shè)失敗
(8)式中,v是z的最大似然估計(jì)。v=(1-∏Pri)(1-Prn),Pri表示超邊已有頂點(diǎn)的邊界概率,Prn表示新增頂點(diǎn)的邊界概率。如果e>ωe且d>1.96,說(shuō)明該屬性組合有較強(qiáng)的關(guān)聯(lián)性,則將此屬性值加入超邊,否則改變?cè)搶傩灾挡z測(cè),滿足則加入超邊庫(kù),否則繼續(xù)選取其他屬性進(jìn)行檢測(cè)?;跉埐罘治龅某W(wǎng)絡(luò)初始化過(guò)程如下
1)初始化。
初始化超邊庫(kù)L為空,訓(xùn)練集中的每個(gè)特征屬性形成100條階數(shù)為1的超邊;
2)超邊的頂點(diǎn)(屬性)選取。
①?gòu)脑摮呂礄z測(cè)過(guò)的屬性集中隨機(jī)選取一個(gè)屬性,屬性值設(shè)為0,加入超邊;
②根據(jù)新形成的屬性組合(超邊),按(8)式和式(10)分別計(jì)算e和d,如果滿足e>ωe且d>1.96,則將此屬性加入超邊,執(zhí)行步驟④,否則執(zhí)行步驟③;
③將屬性值改為1,按照新的屬性組合,計(jì)算e和d,如果滿足條件,則將該屬性加入超邊,否則將該屬性刪除,并執(zhí)行步驟④;
④如超邊已將所有屬性檢測(cè)完畢,則執(zhí)行3),否則執(zhí)行步驟①;
3)檢驗(yàn)是否完成全部超邊的頂點(diǎn)選取,如完成則結(jié)束,否則為下一條超邊選取頂點(diǎn),執(zhí)行2)。
為了更直觀地說(shuō)明超網(wǎng)絡(luò)初始化過(guò)程中的超邊頂點(diǎn)選取操作,圖3描述了在數(shù)據(jù)集D中(包含6個(gè)樣本,10個(gè)屬性),為超邊e={v1=1,y=0}選取并添加一個(gè)頂點(diǎn)的過(guò)程。
圖3 基于殘差算法的屬性選擇過(guò)程Fig.3 Process of vertex selection based on residual algorithm
本文采用梯度下降法對(duì)超網(wǎng)絡(luò)進(jìn)行演化學(xué)習(xí)。通過(guò)降低分類錯(cuò)誤超邊的權(quán)值,同時(shí)提高分類正確超邊的權(quán)值,增強(qiáng)分類正確超邊在分類過(guò)程中的作用,其學(xué)習(xí)過(guò)程如下:
對(duì)訓(xùn)練集中的每個(gè)樣本進(jìn)行超邊匹配,C表示匹配正確的超邊數(shù),C0表示其中類別為0的超邊數(shù),C1表示類別為1的超邊數(shù)。如果C0>C1則Y=0,P=C0/C,反之Y=1,P=C1/C。若Y與該樣本的類別不同,說(shuō)明大多數(shù)超邊分類錯(cuò)誤,將其中分類錯(cuò)誤的超邊權(quán)值進(jìn)行以下變化,Weight=Weight+0.25*(0.0-P),分類正確的超邊權(quán)值進(jìn)行以下變化Weight=Weight+0.25*(1.0-P)。
因在演化學(xué)習(xí)過(guò)程中改變了超邊的權(quán)值,故對(duì)所有超邊的權(quán)值按(9)式進(jìn)行歸一化處理
(9)式中:Weight表示超邊權(quán)值;MaxNum表示超邊總數(shù);tatal表示全部超邊原權(quán)值之和。
本文采用急性白血病、前列腺癌和肺癌3個(gè)DNA微陣列數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。急性白血病數(shù)據(jù)集來(lái)源于麻省理工學(xué)院采集的72個(gè)不同病人的白血病樣本[5],包含ALL和AML 2種類型。其中38個(gè)樣本(27個(gè)ALL,11個(gè)AML)作為訓(xùn)練集;另外獨(dú)立的34個(gè)樣本(20個(gè)ALL,14個(gè)AML)作為測(cè)試集。前列腺數(shù)據(jù)集[5]共136個(gè)樣本,其中102個(gè)樣本作為訓(xùn)練集(52個(gè)癌細(xì)胞樣本和50個(gè)正常樣本),另外獨(dú)立的34個(gè)樣本作為測(cè)試集(包含25個(gè)癌細(xì)胞樣本和9個(gè)正常樣本)。肺癌數(shù)據(jù)集[5]包含惡性胸膜間皮瘤(malignant pleural mesothelioma,MPM)和肺腺瘤(lung adenocarcinoma,ADCA)2種類型,共181個(gè)樣本,其中32個(gè)樣本(16個(gè)MPM,16個(gè)ADCA)作為訓(xùn)練集,另外獨(dú)立的149個(gè)樣本(15個(gè)MPM,134個(gè)ADCA)作為測(cè)試集。用信噪比[5]方法對(duì)3個(gè)數(shù)據(jù)集進(jìn)行特征選擇,選取32個(gè)基因進(jìn)行分類實(shí)驗(yàn)。本文中所有平均實(shí)驗(yàn)結(jié)果都來(lái)自50次獨(dú)立實(shí)驗(yàn)。
在超網(wǎng)絡(luò)模型中,超邊階數(shù)的設(shè)定對(duì)系統(tǒng)分類性能有著較大影響[5-7]。本文中預(yù)測(cè)值e的取值直接影響超邊階數(shù)的范圍:超邊階數(shù)總體隨e的下限ωe的增大而減小。本文通過(guò)對(duì)3個(gè)DNA微陣列數(shù)據(jù)集的訓(xùn)練集進(jìn)行留一交叉驗(yàn)證(leave one out cross validation,LOOCV)[5]測(cè)試,完成參數(shù) ωe的選擇和設(shè)定。
圖4給出了不同ωe設(shè)定下,殘差超網(wǎng)絡(luò)對(duì)急性白血病、前列腺癌和肺癌數(shù)據(jù)集訓(xùn)練集的平均LOOCV識(shí)別率。當(dāng)ωe為9時(shí),殘差超網(wǎng)絡(luò)對(duì)急性白血病數(shù)據(jù)集的分類精度最高為99.87%,此時(shí)超邊階數(shù)在1到4之間;當(dāng)ωe為5時(shí),對(duì)前列腺癌數(shù)據(jù)集的分類精度最高為94.5%,此時(shí)超邊階數(shù)為3或4;而對(duì)肺癌數(shù)據(jù)集,當(dāng)0<ωe<5時(shí)分類精度最高為100%,此時(shí)大多數(shù)超邊的階數(shù)為2。根據(jù)圖4,在后續(xù)對(duì)急性白血病、前列腺癌和肺癌的獨(dú)立測(cè)試集實(shí)驗(yàn)中,ωe分別取值為9,5和4。
圖4 不同ωe下殘差超網(wǎng)絡(luò)對(duì)3個(gè)數(shù)據(jù)集的訓(xùn)練集平均LOOCV識(shí)別率Fig.4 Average LOOCV-accuracy of residual hypernetworks with different parameters for three datasets
根據(jù)3.2節(jié)選取的ωe值,用3個(gè)數(shù)據(jù)集中的訓(xùn)練集對(duì)殘差超網(wǎng)絡(luò)進(jìn)行初始化和演化學(xué)習(xí),然后對(duì)獨(dú)立的測(cè)試集進(jìn)行分類。表1給出了殘差超網(wǎng)絡(luò)和傳統(tǒng)基于梯度下降法的超網(wǎng)絡(luò)[7]在急性白血病、前列腺癌和肺癌3個(gè)數(shù)據(jù)集上的獨(dú)立測(cè)試集分類效果對(duì)比??梢钥闯觯ㄟ^(guò)優(yōu)化超網(wǎng)絡(luò)初始化過(guò)程,本文提出的殘差超網(wǎng)絡(luò)相對(duì)于傳統(tǒng)超網(wǎng)絡(luò)不僅具有較高的識(shí)別率,而且具有更好的分類穩(wěn)定性。
表1 對(duì)3個(gè)數(shù)據(jù)集的獨(dú)立測(cè)試集分類結(jié)果對(duì)比Tab.1 Classification performance comparison of three datasets
圖5、圖6為殘差超網(wǎng)絡(luò)與傳統(tǒng)超網(wǎng)絡(luò)對(duì)急性白血病和前列腺癌數(shù)據(jù)進(jìn)行演化學(xué)習(xí)過(guò)程中的測(cè)試集識(shí)別率收斂效果對(duì)比。圖5、圖6中,對(duì)每個(gè)癌癥數(shù)據(jù)均進(jìn)行了45次基于梯度下降的迭代學(xué)習(xí)。因傳統(tǒng)超網(wǎng)絡(luò)在對(duì)肺癌數(shù)據(jù)進(jìn)行學(xué)習(xí)時(shí),其首次迭代后的訓(xùn)練集分類精度即達(dá)到100%,導(dǎo)致無(wú)法進(jìn)行后續(xù)迭代學(xué)習(xí),測(cè)試集分類精度無(wú)法提高(見表1),故未對(duì)該數(shù)據(jù)集上殘差超網(wǎng)絡(luò)與傳統(tǒng)超網(wǎng)絡(luò)的收斂性進(jìn)行比較。
圖5 急性白血病數(shù)據(jù)的測(cè)試集識(shí)別率收斂效果對(duì)比Fig.5 Convergence comparison of the acute leukemia test datasets
圖6 前列腺癌數(shù)據(jù)的測(cè)試集識(shí)別率收斂效果對(duì)比Fig.6 Convergence comparison of prostate test datasets
根據(jù)圖5、圖6,殘差超網(wǎng)絡(luò)在迭代學(xué)習(xí)過(guò)程中對(duì)測(cè)試集的分類精度成穩(wěn)步上升趨勢(shì),而且很快達(dá)到并保持最佳分類精度。而傳統(tǒng)超網(wǎng)絡(luò)的分類精度在迭代學(xué)習(xí)過(guò)程中上下震蕩周期較長(zhǎng),難以達(dá)到平衡。殘差超網(wǎng)絡(luò)具備更好的收斂性能,主要在于其初始化過(guò)程中限定了e和殘差條件,產(chǎn)生的超邊能更好地表達(dá)基因間的關(guān)聯(lián)性;而傳統(tǒng)超網(wǎng)絡(luò)則是無(wú)條件限制地隨機(jī)生成超邊,這樣就可能造成超邊的分類性能較低的情況。
殘差分析方法的引入不僅提高了超網(wǎng)絡(luò)的分類精度、穩(wěn)定性和收斂性,在超網(wǎng)絡(luò)階數(shù)設(shè)定方面也有一定優(yōu)勢(shì)。殘差超網(wǎng)絡(luò)的階數(shù)根據(jù)參數(shù)ωe自適應(yīng)產(chǎn)生,避免了傳統(tǒng)超網(wǎng)絡(luò)對(duì)階數(shù)的硬性設(shè)定,進(jìn)而避免產(chǎn)生屬性冗余項(xiàng)。比如數(shù)據(jù)實(shí)際只有3階高階關(guān)聯(lián)性,傳統(tǒng)超網(wǎng)絡(luò)卻可能設(shè)定其超邊階數(shù)超過(guò)3階。
表2、表3和表4分別給出了殘差超網(wǎng)絡(luò)分類器與其他現(xiàn)有模式識(shí)別方法在3個(gè)數(shù)據(jù)集中的獨(dú)立測(cè)試集平均識(shí)別率??梢钥闯觯瑲埐畛W(wǎng)絡(luò)具有與其他分類方法可比的分類精度。
表2 不同分類算法對(duì)急性白血病數(shù)據(jù)獨(dú)立測(cè)試集的平均識(shí)別率對(duì)比Tab.2 Average accuracy comparison of the acute leukemia test datasets with different classification algorithm
表3 不同分類算法對(duì)前列腺癌數(shù)據(jù)獨(dú)立測(cè)試集的平均識(shí)別率對(duì)比Tab.3 Average accuracy comparison of prostate test datasets with different classification algorithm
表4 不同分類算法對(duì)肺癌數(shù)據(jù)獨(dú)立測(cè)試集的平均識(shí)別率對(duì)比Tab.4 Average accuracy comparison of lung test datasets with different classification algorithm
本文提出了一種基于殘差算法的演化超網(wǎng)絡(luò)超邊初始化方法.通過(guò)運(yùn)用殘差分析對(duì)超邊庫(kù)進(jìn)行初始化,其后采用梯度下降法演化學(xué)習(xí)超網(wǎng)絡(luò)分類模型,得到以下結(jié)論:
1)基于殘差算法初始化的超網(wǎng)絡(luò)可有效獲取關(guān)聯(lián)性較強(qiáng)的超邊組合,解決了傳統(tǒng)演化超網(wǎng)絡(luò)在超邊初始化過(guò)程中存在較大的隨機(jī)性,影響DNA微陣列數(shù)據(jù)分類效果的問(wèn)題。
2)因?yàn)槌呿旤c(diǎn)根據(jù)殘差算法自主生成,避免了超網(wǎng)絡(luò)階數(shù)設(shè)定的硬性要求。
3)殘差超網(wǎng)絡(luò)相較于傳統(tǒng)超網(wǎng)絡(luò)分類器在總體分類精度、分類穩(wěn)定性和學(xué)習(xí)算法收斂性方面都有一定的提高。
[1]SENAPATI M R,MOHANTY A K,DASH S,et al.Local linear wavelet neural network for breast cancer recognition[J].Neural Computing and Applications,2013,22(1):125-131.
[2]MUTALIB M A,CHAI L E,CHONG C K,et al.Inferring gene networks from gene expression data using dynamic bayesian network with different scoring metric approaches[C]//Proceedings of International Symposium on Biomedical Data Infrastructure.Kuala Lumpur,Malaysia:Springer Berlin Heidelberg,2013:77-86.
[3]李凌波,張靜,陳丹.基于SVM和平均影響值的人腫瘤信息基因提?。跩].生物信息學(xué),2013,11(3):72-78.
LI Lingbo,ZHANG Jing,CHEN Dan.Selection of human tumor information genes based on the support vector machine and mean impact value[J].Chinese Journal of Bioinformatics,2013,11(3):72-78.
[4]王進(jìn),陳文,冉仟元,等.用于微陣列數(shù)據(jù)癌癥分類的演化硬件多分類器[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2013,34(4):410-415.
WANG Jin,CHEN Wen,RAN Qianyuan,et al.Multiple classifiers based on evolvable hardware for cancer classification with microarray data[J].Journal of Jiangsu University:Natural Science Edition,2013,34(4):410-415.
[5]王進(jìn),丁凌,孫開偉,等.演化超網(wǎng)絡(luò)在多類型癌癥分子分型中的應(yīng)用[J].電子與信息學(xué)報(bào),2013,35(10):2425-2431.
WANG Jin,DING Ling,SUN Kaiwei,et al.Applying evolutionary hypernetworks for multiclass molecular classification of cancer[J].Journal of Electronics and Information Technology,2013,35(10):2425-2431.
[6]王進(jìn),張軍,胡白帆.結(jié)合最優(yōu)類別信息離散的細(xì)粒度超網(wǎng)絡(luò)微陣列數(shù)據(jù)分類[J].上海交通大學(xué)學(xué)報(bào),2013,47(12):1856-1862.
WANG Jin,ZHANG Jun,HU Baifan.Optimal class-dependent discretization-based fine-grain hypernetworks for classification of microarray data[J].Journal of Shanghai Jiao Tong University,2013,47(12):1856-1862
[7]王進(jìn),任小龍,孫開偉,等.HSV顏色空間下用演化超網(wǎng)絡(luò)識(shí)別道路限速標(biāo)志的研究[J].高技術(shù)通訊,2013,23(7):679-684.
WANG Jin,REN Xiaolong,SUN Kaiwei,et al.Road speed limit sign recognition using HSV color space and evolutionary hypernetwork[J].Chinese High Technology Letters,2013,23(7):679-684.
[8]WONG A K C,WANG Y.High-order pattern discovery from discrete-valued data[J].IEEE Transactions on Knowledge and Data Engineering,1997,9(6):877-893.
[9]CHIU D K Y,WONG A K C,CHEUNG B.Information discovery through hierarchical maximum entropy discretization and synthesis[J].Knowledge Discovery in Databases,1991:125-140.
[10]TAN A C,GILBERT D.Ensemble machine learning on gene expression data for cancer classification[J].Applied Bioinformatics,2003,2(3):75-83.
[11]王進(jìn),黃萍麗,孫開偉,等.基于演化學(xué)習(xí)超網(wǎng)絡(luò)的微陣列數(shù)據(jù)分類[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2014,35(1):56-62.
WANG Jin,HUANG Pingli,SUN Kaiwei,et al.Microarray data classification based on evolutionary learning hypernetwork[J].Journal of Jiangsu University:Natural Science Edition,2014,35(1):56-62.
[12]HA J W,KIM B H,LEE B,et al.Layered hypernetwork models for cross-model associative text and image keyword generation in multimodal information retrieval[C]//Proceedings of the PRICAI 2010.Berlin:Spring Berlin Heidelberg,2010:76-87.
[13]SHARMA A,IMOTO S,MIYANO S.A top-r feature selection algorithm for microarray gene expression data[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2012,9(3):754-764.
[14]CHENG Q.A sparse learning machine for high-dimensional data with application to microarray gene analysis[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010,7(4):636-646.
[15]盧新國(guó),林亞平,駱嘉偉,等.癌癥識(shí)別中一種基于組合GCM和CCM的分類算法[J].軟件學(xué)報(bào),2010,21(11):2838-2851.
LU Xinguo,LIN Yaping,LUO Jiawei,et al.Classification algorithm combined GCM with CCM in cancer recognition[J].Journal of Software,2010,21(11):2838-2851.