国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合特征與GA-SVM算法的腦疾病基因預(yù)測(cè)

2023-03-13 10:04:18譚卓昆羅龍飛王順芳
關(guān)鍵詞:樣本預(yù)測(cè)特征

譚卓昆,羅龍飛,王順芳

云南大學(xué) 信息學(xué)院,昆明 650500

近年來,腦部疾病率逐年上升,給人類身心健康和社會(huì)帶來了巨大影響及負(fù)擔(dān)[1]。大腦疾病通??赡苁怯梢粋€(gè)或一組基因的故障引發(fā)的,而識(shí)別腦部疾病基因不僅在實(shí)驗(yàn)上發(fā)現(xiàn)疾病基因具有重要的指導(dǎo)意義,并且對(duì)于理解腦部疾病機(jī)制和研發(fā)藥物也至關(guān)重要[2]。

本文以此為契機(jī),對(duì)腦部相關(guān)疾病基因的預(yù)測(cè)展開研究。在此之前,有不少的學(xué)者也進(jìn)行了探究。Zhang和Gao等人[3-4]的綜述文章中提到,不同數(shù)據(jù)構(gòu)建的網(wǎng)絡(luò)提供的特征信息是不一致的,多網(wǎng)絡(luò)集成的方法可以融合多個(gè)數(shù)據(jù)網(wǎng)絡(luò)的特征,把各網(wǎng)絡(luò)的優(yōu)勢(shì)集中起來,克服單一網(wǎng)絡(luò)特征種類不足的限制。秦小麟[5]使用多種基于腦功能超網(wǎng)絡(luò)特征進(jìn)行腦疾病基因的分類實(shí)驗(yàn),將具有腦部信息的相關(guān)特征加入了進(jìn)來,效果明顯提升,但是文中卻未曾考慮蛋白質(zhì)相互網(wǎng)絡(luò)(protein-protein interaction networks,PPI)與腦部基因預(yù)測(cè)之間的關(guān)聯(lián)性。胡春榮等人[6]對(duì)腦源性神經(jīng)營養(yǎng)因子作用的PPI功能進(jìn)行分析,證明了PPI與大腦調(diào)控、發(fā)育是有密切關(guān)聯(lián)的。Ye等人[7]基于Mashup中矩陣分解的不同數(shù)據(jù)源構(gòu)建的多個(gè)網(wǎng)絡(luò)中獲取基因的特征表示,進(jìn)而預(yù)測(cè)老年化疾病的相關(guān)基因,但是卻未結(jié)合老年化疾病中與腦部信息相關(guān)聯(lián)的特征信息。在上述學(xué)者的研究中,主要的不足之處是使用單一的分子相似性網(wǎng)絡(luò)或結(jié)合相關(guān)的基因網(wǎng)絡(luò)預(yù)測(cè)腦部相關(guān)的疾病基因,導(dǎo)致特征種類及信息受限,從而使最終的實(shí)驗(yàn)效果欠佳。因此,本文將PPI和大腦連接組信息結(jié)合,進(jìn)一步豐富特征種類及信息。

隨著技術(shù)的進(jìn)步,融合多網(wǎng)絡(luò)的方法不斷迭代更新,Gligorijevic和Peng等人[8-9]使用深度神經(jīng)網(wǎng)絡(luò)的方式對(duì)不同PPI以及疾病特異性基因的相似性網(wǎng)絡(luò)進(jìn)行融合操作,對(duì)此兩位學(xué)者分別提出了DeepNF和DeepMNE-CNN的方法。深度神經(jīng)網(wǎng)絡(luò)可以很好地挖掘生物網(wǎng)絡(luò)的特征信息,但是普遍耗時(shí)長,構(gòu)建的生物網(wǎng)絡(luò)較小時(shí),極易出現(xiàn)過擬合,并且兩者使用的方法中未把已知的先驗(yàn)信息進(jìn)行結(jié)合,對(duì)此本文使用半監(jiān)督的自編碼器解決上述方法的不足。此外,Wang等人[10]提出了一種名為brainMI的模型,利用堆疊半監(jiān)督自編碼器融合不同數(shù)據(jù)源的網(wǎng)絡(luò),預(yù)測(cè)腦部疾病基因,雖然考慮到了不同數(shù)據(jù)網(wǎng)絡(luò)的互補(bǔ)關(guān)系,但是并不全面,沒有將基于共表達(dá)數(shù)據(jù)的PPI相似性網(wǎng)絡(luò)加入實(shí)驗(yàn),并且未對(duì)預(yù)測(cè)模型超參數(shù)進(jìn)行優(yōu)化處理。對(duì)此,本文不僅在實(shí)驗(yàn)中加入了融合基于共表達(dá)數(shù)據(jù)的PPI,還增加消融實(shí)驗(yàn)對(duì)其必要性和有效性進(jìn)行驗(yàn)證,并且在設(shè)置模型超參數(shù)時(shí),提出使用遺傳算法進(jìn)行全局尋優(yōu),求解最優(yōu)參數(shù),進(jìn)而得到最佳預(yù)測(cè)模型。

綜上所述,在融合多網(wǎng)絡(luò)特征方面,本文首先構(gòu)建了基于大腦連接組數(shù)據(jù)的基因網(wǎng)絡(luò),以及基于共表達(dá)數(shù)據(jù)、基于實(shí)驗(yàn)數(shù)據(jù)、基于數(shù)據(jù)庫數(shù)據(jù)的PPI共四種相似性網(wǎng)絡(luò),然后利用重啟隨機(jī)游走算法(random walk with restart,RWR)提取每一網(wǎng)絡(luò)的特征信息,最后使用半監(jiān)督自動(dòng)編碼器進(jìn)行處理及融合。在模型優(yōu)化方面,為了提高腦部相關(guān)疾病的預(yù)測(cè)效果,本文根據(jù)腦疾病基因的預(yù)測(cè)結(jié)果對(duì)不同的分類器進(jìn)行篩選,得到最佳效果的分類器,即支持向量機(jī)(support vector machine,SVM)模型。并且在模型的優(yōu)化上,提出了GA-SVM算法,利用遺傳算法對(duì)SVM進(jìn)行優(yōu)化,進(jìn)一步提升模型對(duì)腦部疾病基因的預(yù)測(cè)性能。

1 多網(wǎng)絡(luò)特征融合策略

將來自不同數(shù)據(jù)源的多個(gè)網(wǎng)絡(luò)的特征進(jìn)行融合,可以結(jié)合每個(gè)網(wǎng)絡(luò)的優(yōu)勢(shì),克服單個(gè)網(wǎng)絡(luò)的特征信息不足的基本限制,同時(shí)也為模型提供更為豐富的輸入特征,提高腦疾病基因的預(yù)測(cè)效果[11]。本文的多網(wǎng)絡(luò)融合策略以單個(gè)數(shù)據(jù)網(wǎng)絡(luò)的特征提取為基底,使用半監(jiān)督自編碼器對(duì)不同網(wǎng)絡(luò)的特征進(jìn)行編碼操作獲取有效特征,然后根據(jù)設(shè)定的篩選規(guī)則選出約束特征,并結(jié)合經(jīng)過解碼操作的重建特征得到單個(gè)網(wǎng)絡(luò)特征,最終將每個(gè)網(wǎng)絡(luò)的特征融合成全局特征。

1.1 單個(gè)網(wǎng)絡(luò)的特征提取

單個(gè)生物數(shù)據(jù)網(wǎng)絡(luò)特征提取效果的優(yōu)劣,往往影響著最后融合的全局特征,本文選擇的是RWR算法,相比于傳統(tǒng)的隨機(jī)游走(random walk,RW)算法,多了一個(gè)回到初始節(jié)點(diǎn)的選擇。RWR算法不僅可以捕獲網(wǎng)絡(luò)節(jié)點(diǎn)之間的全局相關(guān)性,而且可基于高維網(wǎng)絡(luò)全局結(jié)構(gòu)信息,提取節(jié)點(diǎn)特征表示,可以很好地滿足實(shí)驗(yàn)的需求[12]。其中單個(gè)網(wǎng)絡(luò)可表示為G=(V,E),H表示網(wǎng)絡(luò)G的鄰接矩陣,重啟隨機(jī)游走過程可表示為式(1):

其中,α為重啟概率,T為轉(zhuǎn)移概率矩陣,ei為初始的節(jié)點(diǎn)特征向量,Pi(t)為節(jié)點(diǎn)i游走t步后的特征表示。另外Tij為節(jié)點(diǎn)i到節(jié)點(diǎn)j的轉(zhuǎn)移概率。Tij的計(jì)算如式(2)所示:

其中,Hikj表示從節(jié)點(diǎn)i到節(jié)點(diǎn)j的鄰接矩陣值,k表示游走的步數(shù)。最終對(duì)需要提取特征的網(wǎng)絡(luò)的鄰接矩陣H使用RWR算法,就能利用網(wǎng)絡(luò)的全局結(jié)構(gòu)信息得到節(jié)點(diǎn)的特征表示。此外,該算法只包含一個(gè)固定參數(shù)重啟概率α,本文在不同α取值的情況下,對(duì)提取單個(gè)網(wǎng)絡(luò)特征的效果進(jìn)行探究。

1.2 融合多網(wǎng)絡(luò)特征

在融合多網(wǎng)絡(luò)時(shí),首先利用RWR算法學(xué)習(xí)單個(gè)網(wǎng)絡(luò)的特征表示,再使用基于半監(jiān)督自編碼器中的編碼操作對(duì)每個(gè)網(wǎng)絡(luò)提取有效特征,然后選取皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC)大于0.5的基因?qū)ψ鳛榧s束特征并結(jié)合經(jīng)過解碼操作的重建特征得到單個(gè)網(wǎng)絡(luò)的特征表示,最后將每個(gè)網(wǎng)絡(luò)的特征融合成全局特征。

在本文中,半監(jiān)督自編碼器主要由編碼器和解碼器兩部分組成,相比于無監(jiān)督的自編碼器,雖然本質(zhì)上都是三層神經(jīng)網(wǎng)絡(luò),但半監(jiān)督自編碼器可以將許多不利于最終目標(biāo)預(yù)測(cè)的無關(guān)信息忽略,并且提取與目標(biāo)關(guān)聯(lián)性較高的特征,保證提取的網(wǎng)絡(luò)特征與腦疾病基因的相關(guān)性,從而提升模型最終的預(yù)測(cè)性能[13]。編碼器通過編碼操作可將輸入數(shù)據(jù)的高維特征表示編碼為有效特征h,其訓(xùn)練過程見式(3):

其中,W表示數(shù)據(jù)輸入層到低維有效特征輸出層的權(quán)重矩陣,x為輸入數(shù)據(jù),b為偏置向量。解碼器的效果則與編碼器相反,可以將提取的有效特征重建為輸出數(shù)據(jù)z,其訓(xùn)練過程見式(4):

式中,W′為隱藏層到輸出層的權(quán)重矩陣,b′為偏置向量。半監(jiān)督自編碼器的損失函數(shù)如式(5)所示:

式中,N表示樣本數(shù),ypre為目標(biāo)的預(yù)測(cè)值矩陣,λ為調(diào)整權(quán)重系數(shù)。此外,生物信息學(xué)中通常還利用PCC值來度量基因間的相似性,然后基于兩兩基因之間的PCC排序,為了方便實(shí)驗(yàn),本文選取PCC>0.50的基因?qū)ψ鳛榧s束特征。PCC計(jì)算基因之間的相似性公式如式(6)所示:

其中,gi、gj分別表示基因i和基因j。對(duì)基于大腦連接組的基因相似性網(wǎng)絡(luò),以及基于PPI相關(guān)的另外三個(gè)相似性網(wǎng)絡(luò)的特征融合流程如圖1所示。

圖1 多網(wǎng)絡(luò)的特征融合流程Fig.1 Feature fusion process of multi-networks

2 GA-SVM算法優(yōu)化策略

為了提升模型在腦疾病基因預(yù)測(cè)的性能及效果,本文使用GA-SVM算法對(duì)模型的關(guān)鍵超參數(shù)進(jìn)行求解。GA-SVM算法是以徑向基核函數(shù)(radial basis function,RBF)的SVM模型為基底,使用遺傳算法對(duì)SVM模型的懲罰系數(shù)C、gamma值進(jìn)行全局尋優(yōu),提升模型的預(yù)測(cè)性能。

2.1 遺傳算法

遺傳算法(genetic algorithm,GA)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)的生物進(jìn)化過程的計(jì)算模型,通過模擬“優(yōu)勝劣汰,適者生存”的進(jìn)化法則,搜索最優(yōu)解個(gè)體,主要操作為選擇、交叉和變異。此外,GA具有并行性、通用性、全局性和魯棒性特點(diǎn),為最穩(wěn)健和有效的全局優(yōu)化求解算法,廣泛應(yīng)用于模型參數(shù)優(yōu)化等全局優(yōu)化的場(chǎng)景之中,效果顯著[14]。因此,本文將GA應(yīng)用于模型的優(yōu)化上,提高腦部疾病基因的識(shí)別效果。

2.2 GA優(yōu)化SVM模型

SVM是目前最常用、效果最好的分類器之一。SVM分為線性可分和非線性可分,其基本原理是將低維空間的樣本訓(xùn)練數(shù)據(jù)映射到高維空間中,使得樣本訓(xùn)練數(shù)據(jù)線性可分,進(jìn)而對(duì)邊界進(jìn)行線性劃分,由于分類器僅由支持向量決定,SVM能夠有效避免過擬合,以及具有優(yōu)秀的泛化能力。

在非線性分類任務(wù)中,SVM關(guān)鍵在于將輸入空間中線性不可分的樣本映射到線性可分的特征空間中。而特征空間的好壞直接影響到了SVM的效果,因此,本文選擇RBF的SVM進(jìn)行分類實(shí)驗(yàn),該核函數(shù)對(duì)于處理類標(biāo)簽和樣本屬性之間是非線性關(guān)系的狀況具有很好的性能。RBF自帶的一個(gè)參數(shù)σ,不僅隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,還影響模型訓(xùn)練與預(yù)測(cè)的速度,其與模型的輸入?yún)?shù)gamma的關(guān)系見式(7):

因此使用遺傳算法對(duì)gamma及懲罰系數(shù)C尋優(yōu)求解。本文提出的GA-SVM算法優(yōu)化策略就是將SVM模型的gamma和C作為初始種群,不斷的迭代進(jìn)化,尋找出全局最佳的gamma和C值,實(shí)現(xiàn)對(duì)SVM模型的優(yōu)化,優(yōu)化流程如圖2所示。

圖2 GA-SVM算法優(yōu)化流程Fig.2 GA-SVM algorithm optimization process

2.3 結(jié)合全局特征的優(yōu)化預(yù)測(cè)算法步驟

在實(shí)驗(yàn)時(shí),首先要構(gòu)建單個(gè)的生物數(shù)據(jù)網(wǎng)絡(luò),通過RWR算法分別提取每個(gè)網(wǎng)絡(luò)的特征表示,再基于半監(jiān)督自編碼器使用編碼操作將提取每個(gè)網(wǎng)絡(luò)的有效特征,然后將篩選出的約束特征結(jié)合經(jīng)過解碼操作的重建特征提取單個(gè)網(wǎng)絡(luò)的特征,最后將每個(gè)網(wǎng)絡(luò)的特征融合,具體操作見圖1。然后是構(gòu)建GA,并對(duì)SVM模型的gamma和C值進(jìn)行全局尋優(yōu)求解,獲取最優(yōu)模型后根據(jù)融合后的全局特征作為輸入,預(yù)測(cè)腦部疾病基因,具體操作見圖2。

以融合多網(wǎng)絡(luò)后的全局特征作為輸入,并利用GASVM算法模型的腦疾病基因預(yù)測(cè)總流程如圖3所示,流程解釋如下:

圖3 腦疾病基因預(yù)測(cè)實(shí)驗(yàn)流程Fig.3 Brain disease gene prediction experimental process

步驟1從不同數(shù)據(jù)源獲取原始的生物數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、填充等處理,然后構(gòu)建四種生物數(shù)據(jù)網(wǎng)絡(luò)。

步驟2構(gòu)建重啟游走算法,并在步驟1得到的四個(gè)生物數(shù)據(jù)網(wǎng)絡(luò)中,分別使用重啟隨機(jī)游走算法捕捉每一個(gè)網(wǎng)絡(luò)的節(jié)點(diǎn)特征表示,最后得到四個(gè)網(wǎng)絡(luò)的特征表示矩陣。

步驟3使用半監(jiān)督自編碼器對(duì)四個(gè)生物網(wǎng)絡(luò)的特征表示矩陣進(jìn)行下一步處理,具體操作如下:

(1)通過編碼操作提取網(wǎng)絡(luò)的有效特征;(2)計(jì)算腦疾病基因之間的PCC,篩選約束特征,然后對(duì)網(wǎng)絡(luò)有效特征進(jìn)行重建處理;(3)重建特征與約束特征結(jié)合生成單個(gè)網(wǎng)絡(luò)的特征表示。

最后將每個(gè)網(wǎng)絡(luò)的特征表示進(jìn)行融合,即為預(yù)測(cè)腦部疾病所需的全局特征。

步驟4使用GA-SVM算法對(duì)模型參數(shù)進(jìn)行全局尋優(yōu),在獲得最佳gamma和懲罰系數(shù)C后,賦值于相應(yīng)的模型參數(shù),然后得到最佳的預(yù)測(cè)模型。

步驟5在得到最佳的預(yù)測(cè)模型后,利用四種生物網(wǎng)絡(luò)特征融合的全局特征作為輸入,即可進(jìn)行腦部疾病基因預(yù)測(cè)。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)環(huán)境介紹

本文的全部實(shí)驗(yàn)均在Window 10操作系統(tǒng)下完成,所有的代碼均使用Python編程語言實(shí)現(xiàn),并在PyCharm集成開發(fā)環(huán)境下進(jìn)行編寫與調(diào)試,實(shí)驗(yàn)所使用的軟件環(huán)境和硬件環(huán)境的相關(guān)信息分別如表1與表2所示。

表1 實(shí)驗(yàn)軟件環(huán)境Table 1 Experimental software environment

表2 實(shí)驗(yàn)硬件環(huán)境Table 2 Experimental hardware environment

3.2 數(shù)據(jù)集

本文在構(gòu)建基于大腦連接組的基因網(wǎng)絡(luò)時(shí)需要從The Human Connectome Projec(tversion S1200)提供的數(shù)據(jù)平臺(tái)下載R-fMRI數(shù)據(jù),并結(jié)合Wang和Ji等人[10,15]做的腦部功能映射研究構(gòu)建網(wǎng)絡(luò),而構(gòu)建基于實(shí)驗(yàn)、數(shù)據(jù)庫的蛋白質(zhì)相互作用網(wǎng)絡(luò),以及基于共表達(dá)的蛋白質(zhì)相互網(wǎng)絡(luò)的數(shù)據(jù)則需要從STRING數(shù)據(jù)庫(version 11.0)獲取并導(dǎo)出相應(yīng)的網(wǎng)絡(luò),STRING數(shù)據(jù)庫主要搜索已知蛋白質(zhì)之間和預(yù)測(cè)蛋白質(zhì)之間相互作用,是目前覆蓋的物種最多,信息最豐富的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)庫[16]。此外,腦部疾病基因的數(shù)據(jù)來自于Schriml等人[17]構(gòu)建的人類疾病本體(human disease ontology)數(shù)據(jù),并且從人類疾病本體數(shù)據(jù)中篩選人類所有已知的帕金森(Parkinson disease,PD)疾病、嚴(yán)重抑郁癥(major depressive disorder,MDD)疾病的相關(guān)基因分別作為正樣本。而負(fù)樣本則從融合多網(wǎng)絡(luò)后的全局特征的標(biāo)簽中進(jìn)行選擇。為了更好地綜合評(píng)估所提出模型在各數(shù)據(jù)集上的性能,本文將負(fù)樣本劃分為總負(fù)樣本和平衡負(fù)樣本,總負(fù)樣本為各數(shù)據(jù)集中除去正樣本后的所有樣本,而平衡負(fù)樣本為經(jīng)過隨機(jī)抽取與正樣本長度相同的樣本,以便于克服正、負(fù)數(shù)據(jù)集之間的不平衡現(xiàn)象,進(jìn)而更好地訓(xùn)練模型。計(jì)算PD和MDD數(shù)據(jù)集的不平衡比分別為10.1和32.6,結(jié)果表明為中度不平衡數(shù)據(jù)集,便于為后續(xù)模型評(píng)估指標(biāo)選取提供依據(jù)。在整個(gè)實(shí)驗(yàn)過程中,所用到的人類腦疾病基因數(shù)據(jù)集如表3所示。

表3 數(shù)據(jù)集Table 3 Datasets

3.3 評(píng)價(jià)指標(biāo)

交叉驗(yàn)證是評(píng)估分類模型性能的常用方法。在這項(xiàng)研究中,實(shí)驗(yàn)時(shí)將數(shù)據(jù)集分成十個(gè)不重疊的大小相等的集合,并在對(duì)其余集合進(jìn)行測(cè)試,最后記錄平均性能參數(shù)。此外,本文通過受試者工作特征曲線(receiver operating characteristic curve,ROC)的下面積(AUC)、準(zhǔn)確率(ACC)、F值(F-score)、精度-召回率曲線下面積(AUPR)這四個(gè)指標(biāo)來評(píng)價(jià)分類模型的整體預(yù)測(cè)性能,而且在正負(fù)樣本的二分類實(shí)驗(yàn)中AUC和AUPR值越高意味著模型綜合預(yù)測(cè)性能越好。ACC和F-score的計(jì)算見公式(8)、(9)。其中TP指原來是正樣本,分類成正樣本的數(shù)量,F(xiàn)P指本來是負(fù)樣本,卻被分類成正樣本的數(shù)量,TN指原來是負(fù)樣本,分類成負(fù)樣本的數(shù)量,F(xiàn)N指本來是正樣本,卻被錯(cuò)誤分類成負(fù)樣本的數(shù)量。在繪制ROC圖以及計(jì)算對(duì)應(yīng)的AUC時(shí),需要計(jì)算樣本的真陽性率(true positive rate,TPR)和假陽性率(false positive rate,F(xiàn)PR),TPR和FPR的計(jì)算見公式(10)、(11)。其中TPR指所有實(shí)際為正樣本中,被正確判斷為正樣本的比率,F(xiàn)PR指所有實(shí)際為負(fù)樣本中,被錯(cuò)誤判斷為負(fù)樣本的比率。評(píng)價(jià)樣本不平衡性的標(biāo)準(zhǔn)普遍使用不平衡比(imbalance ratio,IR),計(jì)算如式(12)所示,其中T和F分別代表正負(fù)樣本數(shù),當(dāng)負(fù)樣本數(shù)遠(yuǎn)大于正樣本數(shù)時(shí),即可判定為高度不平衡數(shù)據(jù)集。AUPR在不平衡數(shù)據(jù)集的模型效果評(píng)估上具有良好的性能,因此選用AUPR進(jìn)行不平衡數(shù)據(jù)集的評(píng)估,計(jì)算該指標(biāo)時(shí)需要先計(jì)算其中P和R,也就是查準(zhǔn)率和召回率,如式(13)和(14)所示。

3.4 分類器選取與實(shí)驗(yàn)參數(shù)分析

3.4.1 分類器性能評(píng)估及選取

為了評(píng)價(jià)不同分類器在腦部疾病數(shù)據(jù)集上的性能,本文在PD數(shù)據(jù)集上通過k折(k=5,10,15)交叉驗(yàn)證實(shí)驗(yàn),最終在使用10折交叉驗(yàn)證實(shí)驗(yàn)中獲得了最佳模型。因此選擇10折交叉驗(yàn)證來進(jìn)行接下來的比較。評(píng)估分類器精度的方法使用ROC曲線圖,這是分析分類器整體性能的常用方法。它是將真陽性率描述為假陽性率的函數(shù),在敏感性和特異性之間進(jìn)行不同的權(quán)衡。AUC通常被用作診斷準(zhǔn)確性的一種總結(jié)性測(cè)量。通過對(duì)數(shù)據(jù)集的10折交叉驗(yàn)證測(cè)試,將AdaBoost、ANN、BiLSTM、GBDT、MLP、RF和SVM分類器模型的預(yù)測(cè)結(jié)果進(jìn)行了比較(圖4),可以看到SVM模型效果最佳,其AUC值為0.794,相比于其他分類器,優(yōu)勢(shì)比較明顯。

圖4 十折交叉驗(yàn)證下的分類器性能分析Fig.4 Classifier performance analysis under 10-fold cross-validation

3.4.2 基于RWR算法的特征融合效果分析

重啟隨機(jī)游走算法是在隨機(jī)游走算法的基礎(chǔ)的改進(jìn)。算法包含一個(gè)參數(shù)α為重啟概率,1-α表示移動(dòng)到相鄰節(jié)點(diǎn)的概率,經(jīng)過迭代到達(dá)平穩(wěn),平穩(wěn)后得到的概率分布可被看作是受開始節(jié)點(diǎn)影響的分布。重啟隨機(jī)游走可以捕捉兩個(gè)節(jié)點(diǎn)之間多方面的關(guān)系,捕捉圖的整體結(jié)構(gòu)信息。重啟概率越大,結(jié)構(gòu)相關(guān)性對(duì)結(jié)果的影響越小[18]。因此本文從重啟概率大于0.5的RWR算法特征提取效果進(jìn)行探究,在實(shí)驗(yàn)中,首先對(duì)半監(jiān)督自編碼器的參數(shù)進(jìn)行設(shè)置,學(xué)習(xí)率設(shè)置為0.005,批次大小設(shè)置為256,迭代次數(shù)設(shè)置為1 800次,優(yōu)化器使用的是Adam,以便于融合各個(gè)網(wǎng)絡(luò)。然后以PD數(shù)據(jù)集展開實(shí)驗(yàn),結(jié)果如表4所示,最終找到最佳的重啟概率為0.95。實(shí)驗(yàn)結(jié)果表明并不是重啟概率越大效果越好,而是隨著α的變化,疾病基因的總體預(yù)測(cè)效果先上升后下降,而且α為1時(shí)RWR算法就會(huì)退化為一般的RW算法。

表4 不同重啟概率下模型的性能比較Table 4 Performance comparison of models under different restart probabilities

3.4.3 GA-SVM算法的實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)參數(shù)的選取會(huì)直接影響模型性能,GA-SVM算法的實(shí)驗(yàn)參數(shù)選取可分為兩個(gè)部分。首先是設(shè)置遺傳算法的相關(guān)參數(shù),如種群規(guī)模、最大迭代次數(shù)、變異概率,而且在實(shí)驗(yàn)過程中對(duì)輪盤選擇、排序選擇算子、交叉算子、變異算子進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明排序選擇算子效果優(yōu)于其他算子,因此設(shè)置該算子進(jìn)行后續(xù)的實(shí)驗(yàn)。其次是使用構(gòu)建好的遺傳算法對(duì)SVM模型的gamma值和懲罰系數(shù)C進(jìn)行全局尋優(yōu),求解出最佳的gamma值和C值。在實(shí)驗(yàn)中,設(shè)定的遺傳算法參數(shù)以及在PD數(shù)據(jù)集、MDD數(shù)據(jù)集中求得SVM模型的最佳參數(shù)值如表5所示,并且在參數(shù)設(shè)置時(shí)采取10折交叉驗(yàn)證評(píng)估模型性能。

表5 實(shí)驗(yàn)參數(shù)Table 5 Experimental parameters

3.5 實(shí)驗(yàn)對(duì)比

3.5.1 在MDD數(shù)據(jù)集上與其他分類模型比較

為了衡量本文提出的GA-SVM算法模型在預(yù)測(cè)腦部疾病基因的能力與通用性,使用MDD的數(shù)據(jù)集訓(xùn)練模型,并且采用了基于10折交叉驗(yàn)證的測(cè)試策略,將本文的GA-SVM算法模型與深度學(xué)習(xí)模型分類器ANN、BiLSTM模型和傳統(tǒng)的機(jī)器學(xué)習(xí)分類器AdaBoost、GBDT、MLP、RF模型的預(yù)測(cè)結(jié)果進(jìn)行了比較(表6)。結(jié)果表明,在不同的數(shù)據(jù)集下相比于其他分類模型,本文模型具有更佳的預(yù)測(cè)效果。

表6 分類模型比較Table 6 Classification model comparison

3.5.2 與現(xiàn)有的疾病基因預(yù)測(cè)模型對(duì)比

在PD數(shù)據(jù)集、MDD數(shù)據(jù)集上與現(xiàn)有的其他4種模型(分別是Mashup[7]、DeepNF[8]、DeepMNE-CNN[9]和BrainMI[10])依次進(jìn)行了性能比較。實(shí)驗(yàn)結(jié)果整體表明,相比于其他四種方法,本文的模型對(duì)腦部疾病基因的判別更為有效。在PD數(shù)據(jù)集上的F-score、ACC、AUC、AUPR四個(gè)評(píng)價(jià)指標(biāo)分別為0.727、0.731、0.805、0.792,除ACC與現(xiàn)有最佳模型持平外,其余指標(biāo)均有提升,其中AUC值比Mashup、DeepNF、DeepMNE-CNN和BrainMI分別提高了0.048、0.045、0.043、0.018,而AUPR值比其他四種模型提高了0.061、0.051、0.033、0.016。在MDD數(shù)據(jù)集的測(cè)試中分別達(dá)到了0.747、0.749、0.825、0.823,各指標(biāo)比現(xiàn)有模型更好,其中AUC為0.825,比Mashup、DeepNF、DeepMNE-CNN和BrainMI分別提高了0.065、0.059、0.047、0.034,而AUPR值也比其他四種模型分別提升了0.075、0.076、0.065、0.035,效果提升顯著。本文提出的模型不僅通用性強(qiáng),而且從實(shí)驗(yàn)結(jié)果的AUC和AUPR值來看,對(duì)疾病基因的預(yù)測(cè)精準(zhǔn)程度也比其他模型更好,并且能夠很好地應(yīng)用于平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集,模型的綜合預(yù)測(cè)性能更為優(yōu)秀。不同腦部疾病數(shù)據(jù)集與其他四種模型的性能比較具體如表7所示。

表7 不同模型效果比較Table 7 Comparison of effects of different models

3.5.3 消融實(shí)驗(yàn)分析

為了證明研究工作中,多網(wǎng)絡(luò)融合模塊及GA優(yōu)化SVM模塊的有效性,本文使用MDD數(shù)據(jù)集進(jìn)行了一系列的對(duì)照實(shí)驗(yàn)。首先將四個(gè)網(wǎng)絡(luò)的特征單獨(dú)輸入SVM模型,分別觀察各網(wǎng)絡(luò)對(duì)腦疾病基因的預(yù)測(cè)效果,結(jié)果表明四個(gè)網(wǎng)絡(luò)中預(yù)測(cè)效果最好的為基于大腦連接組數(shù)據(jù)的相似性網(wǎng)絡(luò),其ACC、F-score、AUC、AUPR為0.644、0.692、0.713、0.700,以此為基線逐漸疊加模塊進(jìn)行對(duì)比。其次是測(cè)試融合多網(wǎng)絡(luò)特征模塊提升效果,在使用半監(jiān)督自編碼器進(jìn)行多網(wǎng)絡(luò)融合后,ACC、F-score、AUC、AUPR可達(dá)到0.706、0.727、0.794、0.796,各項(xiàng)指標(biāo)均顯著提升,說明融合多網(wǎng)絡(luò)特征對(duì)預(yù)測(cè)疾病基因是十分有效的。最后,在使用多網(wǎng)絡(luò)融合的基礎(chǔ)上,對(duì)GA優(yōu)化SVM模型的效果進(jìn)行評(píng)估,在使用GA后各評(píng)價(jià)指標(biāo)可達(dá)到0.749、0.747、0.825、0.823,分別提升了0.033、0.020、0.031、0.027,進(jìn)一步提升了腦疾病基因的預(yù)測(cè)性能。此外,還對(duì)新增加的基于共表達(dá)的PPI相似性網(wǎng)絡(luò)進(jìn)行評(píng)估,在前面提及所有模塊進(jìn)行保留的基礎(chǔ)上,對(duì)未加入該網(wǎng)絡(luò)時(shí)的疾病預(yù)測(cè)模型進(jìn)行測(cè)試,得到的ACC、F-score、AUC、AUPR分別為0.697、0.725、0.779、0.766,相比于融合四種網(wǎng)絡(luò)的全局特征在MDD數(shù)據(jù)集的預(yù)測(cè)結(jié)果,分別下降了0.052、0.022、0.046、0.057,這證明了本文新增加的數(shù)據(jù)網(wǎng)絡(luò)對(duì)提升預(yù)測(cè)效果是有效的。各個(gè)模塊的消融實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 各模塊消融實(shí)驗(yàn)分析Fig.5 Ablation experiment results of each module

各個(gè)模塊的評(píng)估實(shí)驗(yàn)表明,只有把所有的模塊及數(shù)據(jù)結(jié)合在一起,才能充分提升預(yù)測(cè)性能,這也表明了每個(gè)數(shù)據(jù)及模塊在預(yù)測(cè)腦疾病基因模型中的必要性。

4 結(jié)束語

本文為了解決單個(gè)生物數(shù)據(jù)網(wǎng)絡(luò)特征信息受限的問題,通過構(gòu)建多個(gè)生物數(shù)據(jù)網(wǎng)絡(luò),利用重啟隨機(jī)游走算法提取不同網(wǎng)絡(luò)的節(jié)點(diǎn)特征,最后將不同網(wǎng)絡(luò)的節(jié)點(diǎn)特征表示融合為全局特征,有效集成了多個(gè)網(wǎng)絡(luò)的優(yōu)勢(shì)。此外,為提高模型在腦疾病基因預(yù)測(cè)的性能,提出了GA-SVM算法來解決訓(xùn)練時(shí)由于相關(guān)關(guān)鍵參數(shù)影響,而導(dǎo)致模型預(yù)測(cè)性能不佳的問題。最終的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文模型在預(yù)測(cè)腦疾病基因上具有更好的預(yù)測(cè)性能。這項(xiàng)關(guān)于預(yù)測(cè)腦疾病基因的研究也會(huì)為未來其他疾病基因的研究提供一個(gè)有競(jìng)爭(zhēng)力的工具。所提出的結(jié)合融合多網(wǎng)絡(luò)特征和GA-SVM算法的腦部基因預(yù)測(cè)模型也有許多其他潛在的應(yīng)用,如肝癌疾病基因預(yù)測(cè)、藥物靶點(diǎn)預(yù)測(cè)等。

猜你喜歡
樣本預(yù)測(cè)特征
無可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2-2期中考試預(yù)測(cè)卷(A卷)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
如何表達(dá)“特征”
不忠誠的四個(gè)特征
推動(dòng)醫(yī)改的“直銷樣本”
抓住特征巧觀察
不必預(yù)測(cè)未來,只需把握現(xiàn)在
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
江达县| 洛阳市| 兴隆县| 新巴尔虎右旗| 萨嘎县| 三河市| 河北省| 思南县| 上高县| 盐边县| 正蓝旗| 潼南县| 西城区| 金山区| 常德市| 英超| 抚顺市| 南昌市| 桐梓县| 巍山| 江阴市| 绵阳市| 海晏县| 宕昌县| 南郑县| 甘肃省| 盐山县| 麻阳| 北川| 改则县| 万州区| 浦江县| 栾城县| 九龙县| 昔阳县| 安龙县| 普陀区| 桃源县| 泸水县| 江孜县| 榆林市|