鐘堅(jiān)成 方 卓 瞿佐航 鐘 穎 彭 瑋 潘 毅
1(湖南師范大學(xué)信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410081) 2(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 昆明 650500) 3(中國(guó)科學(xué)院深圳理工大學(xué)計(jì)算機(jī)與控制工程學(xué)院 廣東深圳 518055)
蛋白質(zhì)作為構(gòu)成一切生物細(xì)胞和結(jié)構(gòu)必不可少的組成部分,與所有生物的生命活動(dòng)息息相關(guān),是生理功能的“基石”.由于不同氨基酸的排列順序和空間組合有所差異,導(dǎo)致了蛋白質(zhì)在各種生命活動(dòng)中扮演了不同的角色.蛋白質(zhì)可區(qū)分為關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì),關(guān)鍵蛋白質(zhì)在生物體內(nèi)的作用尤為重要,正常生物體內(nèi)如果缺少某類關(guān)鍵蛋白質(zhì),會(huì)造成生物體內(nèi)某項(xiàng)功能的喪失,影響其正常生命活動(dòng),進(jìn)而會(huì)導(dǎo)致該生物體的死亡[1].因此,準(zhǔn)確有效地識(shí)別關(guān)鍵蛋白質(zhì)對(duì)于研究疾病的源頭和生物細(xì)胞的生長(zhǎng)調(diào)控過程具有重要意義.
基于生物實(shí)驗(yàn)的關(guān)鍵蛋白質(zhì)驗(yàn)證方法有較高的準(zhǔn)確性,但存在實(shí)驗(yàn)周期較長(zhǎng)和消耗大量人力、財(cái)力等局限.針對(duì)此問題一些基于計(jì)算的方法被研究學(xué)者提出,分為有監(jiān)督和無監(jiān)督方法.有監(jiān)督方法是訓(xùn)練一個(gè)預(yù)測(cè)模型從已標(biāo)記的樣本中學(xué)習(xí)特征來訓(xùn)練模型以預(yù)測(cè)關(guān)鍵蛋白質(zhì).一些經(jīng)典的機(jī)器學(xué)習(xí)方法包括邏輯回歸、隨機(jī)森林、決策樹、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等都屬于有監(jiān)督的方法.Hwang等人[2]將不同種類的蛋白質(zhì)相互作用(protein-protein interaction, PPI)網(wǎng)絡(luò)拓?fù)涮卣鳎⒔Y(jié)合開放閱讀框(open reading frame, ORF)長(zhǎng)度、種系保留(PHY)等生物特征,利用SVM方法對(duì)關(guān)鍵蛋白質(zhì)進(jìn)行預(yù)測(cè).Acencio等人[3]結(jié)合了亞細(xì)胞定位的局部效應(yīng)、生物特征和網(wǎng)絡(luò)拓?fù)涮卣?,利用一種多決策樹投票策略進(jìn)行預(yù)測(cè).Deng等人[4]結(jié)合了樸素貝葉斯分類器、C4.5決策樹、CN2規(guī)則和邏輯回歸模型預(yù)測(cè)關(guān)鍵蛋白質(zhì).Zhong等人[5]結(jié)合拓?fù)涮卣骱蜕镄畔⑻卣鳎岢隽艘环NXGBFEMF框架預(yù)測(cè)關(guān)鍵蛋白質(zhì).Zeng等人[6]提出了一種深度學(xué)習(xí)框架來整合PPI拓?fù)涮卣饕约盎虮磉_(dá)數(shù)據(jù),并利用采樣來解決訓(xùn)練數(shù)據(jù)不平衡問題.Peng等人[7]結(jié)合隨機(jī)游走、神經(jīng)網(wǎng)絡(luò)和SVM對(duì)人類關(guān)鍵基因進(jìn)行識(shí)別.Dai等人[8]提出了一種多集成方法,將多個(gè)基分類器進(jìn)行結(jié)合從而達(dá)到提升識(shí)別率的目的.
無監(jiān)督的方法無需訓(xùn)練模型,主要通過挖掘關(guān)鍵蛋白質(zhì)的特征對(duì)蛋白質(zhì)進(jìn)行關(guān)鍵性打分.基于PPI網(wǎng)絡(luò)拓?fù)涮卣鞯慕?jīng)典算法是利用蛋白質(zhì)相互作用網(wǎng)絡(luò)中的拓?fù)涮卣鹘o蛋白質(zhì)打分.如:節(jié)點(diǎn)的度中心性(degree centrality, DC),根據(jù)蛋白質(zhì)節(jié)點(diǎn)在網(wǎng)絡(luò)中節(jié)點(diǎn)的度的大小來衡量節(jié)點(diǎn)的重要性[9];節(jié)點(diǎn)的介數(shù)中心性(betweenness centrality, BC),指某節(jié)點(diǎn)出現(xiàn)在其他節(jié)點(diǎn)之間的最短路徑的個(gè)數(shù)[10];節(jié)點(diǎn)的子圖中心性(subgraph centrality, SC),通過計(jì)算節(jié)點(diǎn)在網(wǎng)絡(luò)之中所參與的閉合回路的個(gè)數(shù)來體現(xiàn)節(jié)點(diǎn)的重要性[11];節(jié)點(diǎn)的特征向量中心性(eigenvector centrality, EC),是利用在網(wǎng)絡(luò)鄰接矩陣的主向量中每個(gè)頂點(diǎn)的分量來衡量節(jié)點(diǎn)的重要性[12];節(jié)點(diǎn)的信息中心性(information centrality, IC),通過調(diào)和平均路徑數(shù)衡量其重要性[13];鄰域中心性(neighborhood centrality, NC),利用相連邊的重要性[14];局部平均連通性的方法(local average connectivity-based method, LAC),利用鄰居節(jié)點(diǎn)的平均連通性來衡量節(jié)點(diǎn)重要性[15].然而,盡管這些中心性的方法取得了一定的效果,但也存在自身的局限性,網(wǎng)絡(luò)中存在的假陽性及假陰性數(shù)據(jù)降低了網(wǎng)絡(luò)的可靠性,對(duì)高度依賴網(wǎng)絡(luò)結(jié)構(gòu)的中心性方法造成了干擾.為了降低PPI網(wǎng)絡(luò)中假陽性和假陰性對(duì)實(shí)驗(yàn)造成的影響,一些研究人員通過融合蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣骱偷鞍踪|(zhì)生物信息來解決假陽性對(duì)PPI網(wǎng)絡(luò)的影響.Li等人[16]和Tang等人[17]分別提出了新的融合性方法PeC和WDC,通過在PPI網(wǎng)絡(luò)的基礎(chǔ)上融合了基因表達(dá)數(shù)據(jù)來提高關(guān)鍵蛋白質(zhì)的識(shí)別率.Lei等人[18]結(jié)合了網(wǎng)絡(luò)拓?fù)涮卣鳌⒒虮磉_(dá)、基因本體(gene ontology, GO)注釋數(shù)據(jù)、亞細(xì)胞定位和蛋白質(zhì)復(fù)合物,并利用隨機(jī)游走算法來對(duì)蛋白質(zhì)進(jìn)行關(guān)鍵性打分.胡健等人[19]融合基因表達(dá)、結(jié)構(gòu)域和蛋白質(zhì)復(fù)合物等生物信息構(gòu)建時(shí)序加權(quán)網(wǎng)絡(luò)識(shí)別關(guān)鍵蛋白質(zhì).Chen等人[20]構(gòu)建了一種蛋白質(zhì)-結(jié)構(gòu)域網(wǎng)絡(luò),并基于PageRank算法來推斷關(guān)鍵蛋白.Liu等人[21]從統(tǒng)計(jì)假設(shè)檢驗(yàn)的角度出發(fā),提出了一種基于p值的中心性計(jì)算方法.
此外,基因的表達(dá)呈現(xiàn)動(dòng)態(tài)性,而靜態(tài)PPI網(wǎng)絡(luò)忽略了動(dòng)態(tài)性,無法動(dòng)態(tài)刻畫網(wǎng)絡(luò)中蛋白質(zhì)的相互作用,一些學(xué)者融合了基因表達(dá)的時(shí)序數(shù)據(jù),根據(jù)基因動(dòng)態(tài)表達(dá)的特性構(gòu)建蛋白質(zhì)動(dòng)態(tài)關(guān)聯(lián)網(wǎng)絡(luò),以刻畫不同時(shí)刻下的蛋白質(zhì)相互作用關(guān)系[22].例如:Lichtenberg等人[23]通過結(jié)合不同時(shí)間點(diǎn)的基因表達(dá)數(shù)據(jù)和蛋白質(zhì)相互作用數(shù)據(jù)構(gòu)建了時(shí)間序列動(dòng)態(tài)網(wǎng)絡(luò).Xiao等人[24]在靜態(tài)PPI網(wǎng)絡(luò)的基礎(chǔ)上提出了一種時(shí)間序列模型并利用k_sigma原理去除噪聲數(shù)據(jù),構(gòu)建NF-PIN動(dòng)態(tài)網(wǎng)絡(luò).Li等人[25]結(jié)合基因表達(dá)譜和亞細(xì)胞定位信息構(gòu)建了TS-PIN動(dòng)態(tài)網(wǎng)絡(luò)來預(yù)測(cè)關(guān)鍵蛋白質(zhì).Li等人[26]在PPI網(wǎng)絡(luò)中融合了正交數(shù)據(jù),并利用擴(kuò)展Pareto模型預(yù)測(cè)關(guān)鍵蛋白質(zhì).
動(dòng)態(tài)網(wǎng)絡(luò)利用了基因表達(dá)的動(dòng)態(tài)性進(jìn)一步完善了網(wǎng)絡(luò),但并未考慮基因的周期性表達(dá)的特性.一些學(xué)者研究表明,基因在不同周期下的表達(dá)存在差異,且在不同表達(dá)周期下呈現(xiàn)節(jié)律性變化.Spellman等人[27]在釀酒酵母中鑒定了800個(gè)滿足細(xì)胞周期調(diào)節(jié)的基因.Rustici等人[28]使用DNA微陣列檢測(cè)了分裂酵母的基因的周期性表達(dá)對(duì)整個(gè)細(xì)胞周期的控制.Luan等人[29]提出了一種統(tǒng)計(jì)框架,利用基因表達(dá)數(shù)據(jù)和周期性表達(dá)的引導(dǎo)基因來識(shí)別周期性表達(dá)基因.為了更進(jìn)一步提升網(wǎng)絡(luò)的可靠性、降低網(wǎng)絡(luò)中假陰性及假陽性數(shù)據(jù)的影響,本文在基因表達(dá)動(dòng)態(tài)性的基礎(chǔ)上引入周期性表達(dá)的概念,提出了一種動(dòng)態(tài)網(wǎng)絡(luò)切分的方法.由于關(guān)鍵蛋白質(zhì)往往在生物體中參與了更多重要的生命活動(dòng),表現(xiàn)出更多的“活性”狀態(tài),本文通過構(gòu)建基因“活性”表達(dá)矩陣來對(duì)基因表達(dá)數(shù)據(jù)中的噪聲數(shù)據(jù)進(jìn)行過濾,將各時(shí)刻的表達(dá)分類成“活性”與“非活性”表達(dá)的狀態(tài).并根據(jù)基因“活性”表達(dá)矩陣來劃分周期從而刻畫連續(xù)時(shí)間段內(nèi)的基因表達(dá)的動(dòng)態(tài)變化,有利于從局部衡量蛋白質(zhì)的“活性”程度,更契合基因表達(dá)隨周期的改變而發(fā)生變化的特性,從而進(jìn)一步降低網(wǎng)絡(luò)中假陽性與假陰性的影響,提高關(guān)鍵蛋白質(zhì)識(shí)別的準(zhǔn)確性.
由于基因表達(dá)數(shù)據(jù)是由微陣列或新一代測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù),這類高通量的數(shù)據(jù)存在著不可避免的噪聲數(shù)據(jù),以基因隨時(shí)間動(dòng)態(tài)表達(dá)的特性為前提,利用在不同時(shí)刻下基因所呈現(xiàn)“活性”和“非活性”的性質(zhì)來去除基因表達(dá)數(shù)據(jù)中噪聲的影響.設(shè)置的動(dòng)態(tài)閾值計(jì)算公式為:
(1)
S(v)=U(v)+a×σ(v)×V(v),
(2)
其中,σ(v)表示基因在整個(gè)周期內(nèi)表達(dá)值的標(biāo)準(zhǔn)差,V(v)表示蛋白質(zhì)基因表達(dá)的波動(dòng)性,U(v)表示基因整個(gè)周期的平均表達(dá)值,S(v)表示基因的閾值參數(shù),a表示閾值系數(shù).
根據(jù)每個(gè)基因的表達(dá)曲線來設(shè)置閾值,如果某個(gè)時(shí)刻下基因的表達(dá)值不高于其閾值,那么該基因的該時(shí)刻被認(rèn)為是“非活性”的表達(dá)時(shí)刻,對(duì)于“非活性”時(shí)刻的表達(dá)值采用對(duì)其定義為“0”,對(duì)于高于閾值的“活性”的表達(dá)值時(shí)刻則維持其原有時(shí)刻下的表達(dá)值,以此進(jìn)一步降低其高通量數(shù)據(jù)帶來的假陽性及假陰性.由此構(gòu)建的表達(dá)值矩陣為:
(3)
(4)
蛋白質(zhì)與蛋白質(zhì)之間并不總是時(shí)刻存在相互作用關(guān)系,蛋白質(zhì)之間的相互作用關(guān)系會(huì)隨著時(shí)間的改變而發(fā)生改變.時(shí)間序列的基因表達(dá)數(shù)據(jù)為構(gòu)建動(dòng)態(tài)網(wǎng)絡(luò)提供了基礎(chǔ),在蛋白質(zhì)的活性動(dòng)力學(xué)基礎(chǔ)上結(jié)合基因具有周期表達(dá)性的特點(diǎn),對(duì)基因活性表達(dá)矩陣進(jìn)行周期切分.具體切分公式為:
(5)
(6)
為了反映基因隨周期表達(dá)這一特性,動(dòng)態(tài)網(wǎng)絡(luò)下2個(gè)蛋白質(zhì)在同一周期下的相同時(shí)刻同時(shí)存在著“活性”表達(dá),那么此相互作用關(guān)系則將在周期網(wǎng)絡(luò)中保留.動(dòng)態(tài)網(wǎng)絡(luò)切分表示為DDGS={G1,G2,…,Gk,…,Gp},Gk代表第k個(gè)周期下的子網(wǎng),Vk={vk1,vk2,…,vkn}代表第k個(gè)周期下的“活性”蛋白質(zhì)集合,Ek={ek1,ek2,…,ekm}代表第k個(gè)周期下基于活性共表達(dá)原則的蛋白質(zhì)相互作用關(guān)系集合.對(duì)于靜態(tài)PPI網(wǎng)絡(luò)下的蛋白質(zhì)相互作用e(v,u),如果蛋白質(zhì)v和蛋白質(zhì)u在第k個(gè)周期中的時(shí)刻t下同時(shí)處于“活性”表達(dá),構(gòu)建的蛋白質(zhì)相互作用關(guān)系集合為:
(7)
其中,ek(v,u)=1代表蛋白質(zhì)v和蛋白質(zhì)u在第k個(gè)周期下存在相互作用關(guān)系,反之則不存在相互作用關(guān)系.
以p=5,μ=10為例,將酵母(yeast)物種進(jìn)行動(dòng)態(tài)網(wǎng)絡(luò)切分的示意圖如圖1所示.酵母物種的“活性”表達(dá)矩陣周期為36個(gè)不同時(shí)刻,對(duì)其進(jìn)行5個(gè)周期的切分,5個(gè)周期的起始時(shí)間點(diǎn)和終止時(shí)間點(diǎn)分別為“活性”表達(dá)矩陣的T1與T20,T5與T24,T9與T28,T13與T32和T17與T36,再通過融合靜態(tài)PPI網(wǎng)絡(luò)相互作用邊來構(gòu)建子網(wǎng)G1,G2,G3,G4,G5.對(duì)于酵母蛋白質(zhì)周期1的時(shí)刻T1至T20來說,A,B存在靜態(tài)相互作用,蛋白質(zhì)A,B在時(shí)刻T9下存在“共活性”表達(dá)時(shí)刻,因此A,B在G1中存在動(dòng)態(tài)子相互作用.B,E即使在時(shí)刻T33下存在著“共活性”表達(dá)時(shí)刻,但在周期1,2,3中不存在“共活性”表達(dá)時(shí)刻,因此B,E在子網(wǎng)G1,G2,G3中不存在相互作用邊.
在圖1網(wǎng)絡(luò)中,蛋白質(zhì)A,C,E分別為關(guān)鍵蛋白質(zhì),B,D,F(xiàn)分別為非關(guān)鍵蛋白質(zhì).經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后,由于關(guān)鍵蛋白質(zhì)往往具備保守性的原因,使得關(guān)鍵蛋白質(zhì)更難在動(dòng)態(tài)網(wǎng)絡(luò)中被改變,而非關(guān)鍵蛋白質(zhì)的表達(dá)性更易受到外界的影響而發(fā)生變化,如蛋白質(zhì)F在周期1,2,3中并未表達(dá)出“活性”.
Fig. 1 Schematic diagram of dynamic network segmentation圖1 動(dòng)態(tài)網(wǎng)絡(luò)切分示意圖
由于動(dòng)態(tài)網(wǎng)絡(luò)中蛋白質(zhì)在不同周期下表達(dá)的“活性”不同,因此在計(jì)算最終關(guān)鍵蛋白質(zhì)識(shí)別得分考慮子網(wǎng)中表達(dá)為“活性”的蛋白質(zhì)出現(xiàn)次數(shù).對(duì)比分析靜態(tài)PPI網(wǎng)絡(luò)和動(dòng)態(tài)網(wǎng)絡(luò)切分下的關(guān)鍵蛋白質(zhì)識(shí)別方法,其動(dòng)態(tài)網(wǎng)絡(luò)切分下的蛋白質(zhì)關(guān)鍵得分為:
(8)
其中,n(v)表示蛋白質(zhì)v在k個(gè)子網(wǎng)中出現(xiàn)的次數(shù),Mk(v)表示在第k個(gè)周期下的蛋白質(zhì)v的關(guān)鍵得分,MMPN(v)表示蛋白質(zhì)v在融合p個(gè)周期后的最終關(guān)鍵得分.
近年來,隨著對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)的不斷深入研究,許多基于網(wǎng)絡(luò)拓?fù)涮卣鞯姆椒ê腿诤螾PI網(wǎng)絡(luò)與生物信息的方法被提出.本文選取了9種基于靜態(tài)PPI網(wǎng)絡(luò)的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法,其中包括7種網(wǎng)絡(luò)拓?fù)渲行男苑椒―C,IC,EC,SC,BC,NC,LAC和2種融合基因表達(dá)方法PeC和WDC.通過對(duì)基因“活性”表達(dá)矩陣劃分p個(gè)周期,其對(duì)應(yīng)的動(dòng)態(tài)網(wǎng)絡(luò)切分方法分別為DPN,IPN,EPN,SPN,BPN,NPN,LPN,PPN,WPN.具體動(dòng)態(tài)網(wǎng)絡(luò)切分的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法公式如表1所示:
Talbe 1 Prediction Essential Proteins Equation for Converting Static PPI Network Method to Dynamic Network Segmentation Method表1 靜態(tài)PPI網(wǎng)絡(luò)方法轉(zhuǎn)換為動(dòng)態(tài)網(wǎng)絡(luò)切分方法的預(yù)測(cè)關(guān)鍵蛋白質(zhì)公式
描述計(jì)算動(dòng)態(tài)網(wǎng)絡(luò)切分的算法在算法1中給出.
算法1.動(dòng)態(tài)網(wǎng)絡(luò)切分算法.
輸入:蛋白質(zhì)相互作用網(wǎng)絡(luò)G=(V,E)、基因表達(dá)數(shù)據(jù)V×T;
輸出:得分排名前q個(gè)關(guān)鍵蛋白質(zhì).
① 計(jì)算基因動(dòng)態(tài)表達(dá)閾值:
for eachv∈Vdo
根據(jù)式(1)計(jì)算V(v);
根據(jù)式(2)計(jì)算S(v);
end for
② 構(gòu)建基因“活性”表達(dá)矩陣:
for eachv∈Vdo
for eacht∈Tdo
end for
end for
根據(jù)式(4)構(gòu)建矩陣X′;
③ 構(gòu)建動(dòng)態(tài)網(wǎng)絡(luò)子網(wǎng):
for eachk∈[1,p] do
for eache(v,u)∈Edo
根據(jù)式(7)計(jì)算ek(v,u);
end for
end for
end for
④ 計(jì)算各子網(wǎng)中蛋白質(zhì)得分:
for eachk∈[1,p] do
for eachv∈Vdo
根據(jù)表1計(jì)算Mk(v);
end for
end for
⑤ 計(jì)算蛋白質(zhì)最終得分:
for eachv∈Vdo
根據(jù)式(8)計(jì)算MMPN(v);
end for
⑥ 根據(jù)MMPN(v)得分降序排列,取前q個(gè)蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)輸出.
動(dòng)態(tài)網(wǎng)絡(luò)切分算法主要由6部分組成:第1步計(jì)算基因動(dòng)態(tài)閾值,時(shí)間復(fù)雜度為O(n);第2步循環(huán)各蛋白質(zhì)各時(shí)間點(diǎn)的表達(dá)量,構(gòu)建基因“活性”表達(dá)矩陣,時(shí)間復(fù)雜度為O(nT);第3步對(duì)“活性”表達(dá)矩陣進(jìn)行切分,并結(jié)合靜態(tài)PPI網(wǎng)絡(luò)構(gòu)建動(dòng)態(tài)網(wǎng)絡(luò)子網(wǎng),時(shí)間復(fù)雜度為O(meT′);第4步計(jì)算各子網(wǎng)中蛋白質(zhì)得分,時(shí)間復(fù)雜度為O(mn);第5步對(duì)各個(gè)子網(wǎng)中的得分進(jìn)行累加求和再除以蛋白質(zhì)節(jié)點(diǎn)在動(dòng)態(tài)網(wǎng)絡(luò)中出現(xiàn)的次數(shù),以此作為蛋白質(zhì)最終得分,時(shí)間復(fù)雜度為O(n);第6步根據(jù)最終得分降序排列,輸出前q個(gè)蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì).總時(shí)間復(fù)雜度為O(n+nT+meT′+mn+n).其中,n代表蛋白質(zhì)節(jié)點(diǎn)的個(gè)數(shù),m代表切分子網(wǎng)的個(gè)數(shù),T代表基因周期長(zhǎng)度,T′代表切分后的基因周期長(zhǎng)度.
由于酵母蛋白質(zhì)網(wǎng)絡(luò)和關(guān)鍵蛋白質(zhì)數(shù)據(jù)是相對(duì)比較完善的,因此本文采用釀酒酵母(saccharomyces cerevisiae)來進(jìn)行實(shí)驗(yàn).另外,本文還采用了大腸桿菌(Escherichia coli, E.coli)和人類膀胱部位(bladder)的數(shù)據(jù)來進(jìn)一步驗(yàn)證實(shí)驗(yàn).
酵母和大腸桿菌的PPI網(wǎng)絡(luò)數(shù)據(jù)下載自DIP數(shù)據(jù)庫,丟棄掉網(wǎng)絡(luò)中的重復(fù)相互作用和自我相互作用,最終釀酒酵母的PPI網(wǎng)絡(luò)包含了5 093個(gè)蛋白質(zhì)和24 743個(gè)相互作用,大腸桿菌的PPI網(wǎng)絡(luò)包含了2 727個(gè)蛋白質(zhì)和11 803個(gè)相互作用.人類膀胱的PPI網(wǎng)絡(luò)數(shù)據(jù)從BioGRID(Version 3.5.182)下載得到,包含1 748 436條相互作用,去除重復(fù)和自環(huán)之后包含15 721個(gè)基因和322 406個(gè)相互作用.
基因表達(dá)數(shù)據(jù)從基因表達(dá)綜合數(shù)據(jù)庫(GEO)中獲取.酵母的基因表達(dá)數(shù)據(jù)下載自GESE3431,包含6 777個(gè)基因產(chǎn)物和36個(gè)時(shí)間點(diǎn),其中有4 858個(gè)基因參與釀酒酵母PPI網(wǎng)絡(luò).大腸桿菌表達(dá)數(shù)據(jù)在GSE3905中,包含7 312個(gè)基因產(chǎn)物和8個(gè)時(shí)間點(diǎn).人類膀胱的表達(dá)數(shù)據(jù)在GSE86354中,提供了基因型-組織表達(dá)(GTEx)項(xiàng)目產(chǎn)生的8個(gè)組織位點(diǎn)的1 558份樣本的表達(dá)譜,其中膀胱包含了11個(gè)時(shí)間點(diǎn).
關(guān)鍵蛋白質(zhì)數(shù)據(jù)通過整合MIPS[30],SGD[31],DEG[32],SGDP[33]四個(gè)數(shù)據(jù)庫,其中釀酒酵母的關(guān)鍵蛋白質(zhì)有1 285個(gè),其中有1 167個(gè)蛋白質(zhì)出現(xiàn)在釀酒酵母PPI網(wǎng)絡(luò)中.大腸桿菌在其PPI網(wǎng)絡(luò)中包含254個(gè)關(guān)鍵蛋白質(zhì).人類膀胱的關(guān)鍵基因數(shù)據(jù)在在線關(guān)鍵基因數(shù)據(jù)庫(OGEE)(downloaded at 20/10/2020)中下載得到21 556個(gè)基因座,在Uniprot網(wǎng)站上將其進(jìn)行映射對(duì)應(yīng)的18 900個(gè)基因,包含7 123個(gè)關(guān)鍵基因.實(shí)驗(yàn)數(shù)據(jù)集及代碼提交至開源網(wǎng)站:https://github.com/jczhongcs/DevideDynamicNetwork.
Fig. 2 Top ranking number analysis of essential proteins by dynamic network segmentation and other prediction methods in yeast圖2 酵母中動(dòng)態(tài)網(wǎng)絡(luò)切分方法與其他方法在關(guān)鍵蛋白質(zhì)預(yù)測(cè)的Top排序數(shù)量分析
Fig. 3 Top ranking number analysis of essential proteins by dynamic network segmentation and other prediction methods in E. coli圖3 大腸桿菌中動(dòng)態(tài)網(wǎng)絡(luò)切分方法與其他方法在關(guān)鍵蛋白質(zhì)預(yù)測(cè)的Top排序數(shù)量分析
本文對(duì)比多個(gè)參數(shù)實(shí)驗(yàn)結(jié)果,將設(shè)置u=10,p=5.對(duì)基因表達(dá)周期切分為5個(gè)周期,當(dāng)前周期與下一個(gè)周期的間隔占總周期長(zhǎng)度的1/10.為了充分體現(xiàn)經(jīng)過5個(gè)周期的動(dòng)態(tài)網(wǎng)絡(luò)切分方法的優(yōu)越性,本文將7種中心性方法(DC,IC,EC,SC,BC,NC,LAC)以及2種融合性方法(PeC和WDC),與其在動(dòng)態(tài)網(wǎng)絡(luò)切分后的預(yù)測(cè)方法(D5N,I5N,E5N,S5N,B5N,N5N,L5N,P5N,W5N)的預(yù)測(cè)結(jié)果進(jìn)行比較.選擇其預(yù)測(cè)的排名Top 100,Top 200,Top 300,Top 400,Top 500,Top 600的關(guān)鍵蛋白質(zhì),并判斷其中所包含的正確的關(guān)鍵蛋白質(zhì)數(shù)量.酵母與大腸桿菌的Top分析結(jié)果如圖2、圖3所示.在酵母預(yù)測(cè)得分的Top 100個(gè)蛋白質(zhì)中,中心性方法DC,IC,EC,SC,BC,NC,LAC,PeC,WDC分別預(yù)測(cè)了46,44,37,37,44,55,59,76,70個(gè)正確的關(guān)鍵蛋白質(zhì);D5N,I5N,E5N,S5N,B5N,N5N,L5N,P5N,W5N分別預(yù)測(cè)了49,50,56,53,43,79,81,80,78個(gè)正確的關(guān)鍵蛋白質(zhì).除B5N外,經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分之后的方法在得分Top 100個(gè)蛋白質(zhì)中所預(yù)測(cè)的正確關(guān)鍵蛋白質(zhì)數(shù)量都要大于原靜態(tài)網(wǎng)絡(luò)中的方法,其中L5N預(yù)測(cè)的關(guān)鍵蛋白質(zhì)達(dá)81個(gè),識(shí)別率為所有方法中最高.雖然B5N在Top 100中比BC少預(yù)測(cè)了一個(gè)關(guān)鍵蛋白質(zhì),但在Top 200,Top 300,Top 400,Top 500,Top 600中預(yù)測(cè)的關(guān)鍵蛋白質(zhì)都要高于原方法BC.在大腸桿菌中關(guān)鍵蛋白質(zhì)的Top分析中可以看出,在Top 100中D5N,I5N,E5N,S5N,B5N,N5N,L5N,P5N,W5N分別預(yù)測(cè)了39,38,35,41,37,39,33,40,39個(gè),相比于原方法分別高出了12,12,13,19,6,16,18,2,4個(gè),其中S5N預(yù)測(cè)了所有方法中最多的關(guān)鍵蛋白質(zhì)數(shù)量.在之后的Top 200,Top 300,Top 400,Top 500,Top 600的Top分析中,經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后的中心性方法相比融合性方法識(shí)別的關(guān)鍵蛋白質(zhì)也更多.從識(shí)別結(jié)果中可以看出,中心性方法與融合方法在動(dòng)態(tài)網(wǎng)絡(luò)切分后都能預(yù)測(cè)出更多的關(guān)鍵蛋白質(zhì),這表明經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分的方法相比靜態(tài)PPI網(wǎng)絡(luò)可以有效地提取各個(gè)周期中關(guān)鍵蛋白質(zhì)的活性信息,而關(guān)鍵蛋白質(zhì)更多地參與細(xì)胞中重要的生命活動(dòng),相比非關(guān)鍵蛋白質(zhì)具有更高的活性.因此,動(dòng)態(tài)網(wǎng)絡(luò)切分的方法對(duì)關(guān)鍵蛋白質(zhì)的識(shí)別擁有更高的準(zhǔn)確性.同時(shí),一方面動(dòng)態(tài)網(wǎng)絡(luò)切分對(duì)基因活性表達(dá)矩陣中不高于閾值的表達(dá)量置0,降低了處于非活性狀態(tài)中的基因表達(dá)值的影響,提高了活性表達(dá)量的可靠性,有助于進(jìn)一步過濾網(wǎng)絡(luò)中的假陰性及假陽性的噪聲數(shù)據(jù).另一方面也側(cè)面說明了引入基因隨周期表達(dá)的概念可以有效地挖掘各個(gè)周期中不同活性表達(dá)水平的關(guān)鍵蛋白質(zhì).
受試者工作特征ROC曲線常用來評(píng)估二分類系統(tǒng)的好壞,縱坐標(biāo)表示真陽性率,橫坐標(biāo)表示假陽性率,曲線上每一個(gè)點(diǎn)反映對(duì)同一信號(hào)刺激性的感受性.本文選取動(dòng)態(tài)網(wǎng)絡(luò)切分下的代表性方法W5N與其他方法進(jìn)行比較.酵母與大腸桿菌的ROC曲線如圖4和圖5所示:
Fig. 4 ROC curve and AUC value of dynamic network segmentation method and other prediction methods in yeast圖4 酵母中動(dòng)態(tài)網(wǎng)絡(luò)切分方法與其他預(yù)測(cè)方法的ROC曲線和AUC值
Fig. 5 ROC curve and AUC value of dynamic network segmentation method and other prediction methods in E.coli.圖5 大腸桿菌中動(dòng)態(tài)網(wǎng)絡(luò)切分方法與其他預(yù)測(cè)方法的ROC曲線和AUC值
如圖4酵母ROC曲線所示,在其經(jīng)過5個(gè)周期切分之后的動(dòng)態(tài)網(wǎng)絡(luò)中的W5N與原方法WDC的曲線下面積AUC分別為0.715 2和0.689 3,W5N高出了0.025 9;其他方法PeC,DC,IC,EC,SC,BC,NC,LAC的AUC分別為0.715 2,0.670 5,0.665 7,0.638 6,0.638 5,0.625 6,0.688 9,0.690 1,與之相比,W5N為所有方法中ROC曲線下面積最大.從圖4說明,動(dòng)態(tài)網(wǎng)絡(luò)切分后的方法相比原方法能區(qū)分出更多的關(guān)鍵蛋白質(zhì)與非關(guān)鍵蛋白質(zhì),使網(wǎng)絡(luò)變得更為可靠.
如圖5所示,在大腸桿菌ROC曲線中,W5N曲線下面積AUC為0.724 3,WDC,PeC,DC,IC,EC,SC,BC,NC,LAC分別為0.683 7,0.632 1,0.684 9,0.678 2,0.685 1,0.685 0,0.662 6,0.658 3,0.657 0,W5N的AUC為所有方法最高.這表明經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后的W5N能預(yù)測(cè)出更多的關(guān)鍵蛋白質(zhì).
Fig. 6 ROC curve and AUC value of N5N and L5N, NC and LAC in yeast圖6 酵母中N5N,L5N與NC,LAC的ROC曲線和AUC值
為了進(jìn)一步驗(yàn)證動(dòng)態(tài)網(wǎng)絡(luò)切分對(duì)預(yù)測(cè)關(guān)鍵蛋白質(zhì)性能的提升,本文選取酵母預(yù)測(cè)得分前1 167個(gè)蛋白質(zhì)和大腸桿菌預(yù)測(cè)得分前254個(gè)蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì),并利用ROC曲線下面積AUC、敏感性(SN)、特異性(SP)、假陽性率(FPR)、陽性預(yù)測(cè)值(PPV)、陰性預(yù)測(cè)值(NPV)、F-measure、準(zhǔn)確度(ACC)和Matthews相關(guān)系數(shù)(MCC)這9個(gè)指標(biāo)來對(duì)各個(gè)方法的性能進(jìn)行評(píng)估.
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
式(9)~(16)中,真陽性TP表示預(yù)測(cè)正確的關(guān)鍵蛋白質(zhì);真陰性TN表示預(yù)測(cè)正確的非關(guān)鍵蛋白質(zhì);假陽性FP表示關(guān)鍵蛋白質(zhì)錯(cuò)誤地被預(yù)測(cè)為非關(guān)鍵蛋白質(zhì);假陰性FN表示非關(guān)鍵蛋白質(zhì)錯(cuò)誤地被預(yù)測(cè)為關(guān)鍵蛋白質(zhì).
由于N5N和L5N整體的AUC略低于NC和LAC,本文又分別計(jì)算了N5N,NC,L5N,LAC預(yù)測(cè)得分Top 600的蛋白質(zhì)的AUC,結(jié)果如圖6所示.從圖6的ROC曲線圖不難看出,在研究人員更關(guān)心的預(yù)測(cè)排名靠前的ROC下曲線面積中,N5N,NC,L5N,LAC的AUC值分別為0.648 7,0.604 6,0.660 1,0.597 8,這也說明N5N和L5N在預(yù)測(cè)得分排名越高的情況下,相比NC和LAC的預(yù)測(cè)得分結(jié)果更為可靠.由表2可知,經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后的大部分方法的AUC相比原方法都得到了提升,其中W5N的AUC達(dá)到了最高的0.715 2.在其余的統(tǒng)計(jì)指標(biāo)中,除B5N的指標(biāo)略低于原有方法BC指標(biāo)之外,W5N,P5N,D5N,S5N,E5N,I5N,N5N,L5N的各項(xiàng)指標(biāo)全都超過了原有方法.這說明在酵母中進(jìn)行動(dòng)態(tài)網(wǎng)絡(luò)切分的方法可以提升在靜態(tài)PPI網(wǎng)絡(luò)中方法的性能.其中,酵母中W5N的SN,SP,PPV,NPV,F-measure,ACC,MCC分別為0.474 7,0.843 9,0.474 7,0.843 9,0.474 7,0.759 3,0.318 6,假陽性率FPR為最低的0.156 1,各項(xiàng)指標(biāo)均在同類型方法WDC和其他所有方法中達(dá)到了最高,這說明了W5N在預(yù)測(cè)酵母的關(guān)鍵蛋白質(zhì)中的識(shí)別率最高、性能最好.
由表3可知,在大腸桿菌中的動(dòng)態(tài)網(wǎng)絡(luò)切分中的各項(xiàng)方法AUC相比于原有方法均有較大提升,其中S5N的AUC達(dá)到了最高的0.729 7.在其他指標(biāo)中,其中D5N的SN,SP,PPV,NPV,F-measure,ACC,MCC分別為0.315 0,0.929 6,0.315 0,0.929 6,0.315 0,0.872 4,0.244 6,均為所有方法中最高,F(xiàn)PR為最低的0.070 4.各項(xiàng)方法經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后,相比原方法的指標(biāo)都得到了提升,使預(yù)測(cè)結(jié)果更為可靠.
Table 2 Evaluation and Analysis of Yeast表2 酵母評(píng)估分析
Table 3 Evaluation and Analysis of E.coli表3 大腸桿菌評(píng)估分析
為了進(jìn)一步分析動(dòng)態(tài)網(wǎng)絡(luò)切分方法在酵母與大腸桿菌中預(yù)測(cè)關(guān)鍵蛋白質(zhì)的表現(xiàn),本文將選取動(dòng)態(tài)網(wǎng)絡(luò)切分中的代表性方法W5N與其余9種關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法(DC,EC,SC,BC,IC,NC,LAC,PeC,WDC)預(yù)測(cè)得分的Top 100個(gè)關(guān)鍵蛋白質(zhì)進(jìn)行重疊分析.酵母中W5N與其他預(yù)測(cè)方法之間重疊數(shù)量如表4所示,大腸桿菌中W5N與其他預(yù)測(cè)方法之間重疊數(shù)量如表5所示.以表4中的W5N為例:Ci為其他關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法,CW5N∩Ci表示W(wǎng)5N和其余各關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法之間識(shí)別關(guān)鍵蛋白質(zhì)的重疊部分?jǐn)?shù)量,|Ci-CW5N|表示由W5N和其余各關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法識(shí)別關(guān)鍵蛋白質(zhì)的非重疊部分?jǐn)?shù)量.
Table 4 The Number of Overlaps Between W5N and Other Methods in Yeast表4 酵母中W5N與其他方法之間的重疊數(shù)量
Table 5 The Number of Overlaps Between W5N and Other Methods in E.coli表5 大腸桿菌中W5N與其他方法之間的重疊數(shù)量
從表4可以看出,在酵母中W5N與中心性方法(DC,EC,SC,BC,IC,NC,LAC)預(yù)測(cè)了較少的相同關(guān)鍵蛋白質(zhì),其中W5N與DC和NC的重疊部分最高,預(yù)測(cè)了41個(gè)相同的關(guān)鍵蛋白質(zhì),在其非重疊部分,W5N預(yù)測(cè)的關(guān)鍵蛋白質(zhì)百分比超過了80%.W5N與融合了生物信息的PeC和WDC相比有較高的重疊,但在非重疊部分預(yù)測(cè)的關(guān)鍵蛋白質(zhì)更多,其中與PeC的非重疊部分的關(guān)鍵蛋白質(zhì)達(dá)到了82%,這說明使用動(dòng)態(tài)網(wǎng)絡(luò)切分方法預(yù)測(cè)關(guān)鍵蛋白質(zhì)是很有必要的.在W5N與其他方法的重疊部分中預(yù)測(cè)的非關(guān)鍵蛋白質(zhì)更少,預(yù)測(cè)的關(guān)鍵蛋白質(zhì)更多.以SC為例,SC的|Ci-CW5N|的數(shù)量為77,在該77個(gè)非重疊蛋白質(zhì)中,SC識(shí)別的關(guān)鍵蛋白質(zhì)占比為24.68%,而W5N識(shí)別的關(guān)鍵蛋白質(zhì)占比為75.32%,說明在非重疊部分,W5N相比SC多識(shí)別了超過50%的關(guān)鍵蛋白質(zhì),同時(shí)也反映了W5N識(shí)別關(guān)鍵蛋白質(zhì)的可靠性.
從表5可以看出,由于大腸桿菌相比于酵母的關(guān)鍵蛋白質(zhì)占總體蛋白質(zhì)的比例較低,關(guān)鍵蛋白質(zhì)的數(shù)量較少,非關(guān)鍵蛋白質(zhì)數(shù)量較多,所以造成預(yù)測(cè)的關(guān)鍵蛋白質(zhì)占比相比酵母較低.經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后的W5N與中心性方法的重疊部分較低,與PeC和WDC的重疊部分較高.其中與原方法WDC的重疊部分最高為88個(gè),但在非重疊部分的12個(gè)蛋白質(zhì)中,WDC錯(cuò)誤地將非關(guān)鍵蛋白質(zhì)全部預(yù)測(cè)為關(guān)鍵蛋白質(zhì),而W5N預(yù)測(cè)正確的個(gè)數(shù)為6個(gè).且W5N與其他所有方法的非重疊部分相比,預(yù)測(cè)正確的關(guān)鍵蛋白質(zhì)全部高于其余對(duì)比方法.這也表明了W5N在大腸桿菌中能更好地識(shí)別關(guān)鍵蛋白質(zhì).
為了更加細(xì)致地分析動(dòng)態(tài)網(wǎng)絡(luò)切分方法的優(yōu)越性,本文引入Jackknife方法對(duì)其分析.橫軸表示預(yù)測(cè)為關(guān)鍵蛋白質(zhì)的數(shù)量,縱軸表示在預(yù)測(cè)為關(guān)鍵蛋白質(zhì)的數(shù)量中真實(shí)的蛋白質(zhì)數(shù)量.曲線下面積越大,表明預(yù)測(cè)的關(guān)鍵蛋白質(zhì)數(shù)量越多.酵母和大腸桿菌中W5N與P5N的Jackknife曲線分別如圖7和圖8所示:
Fig. 7 Jackknife overlap curve analysis of each method in yeast data圖7 酵母數(shù)據(jù)中各方法的Jackknife重疊曲線分析
Fig. 8 Jackknife overlap curve analysis of each method in E.coli data圖8 大腸桿菌數(shù)據(jù)中各方法的Jackknife重疊曲線分析
從圖7和圖8可以看出,圖7(a)和圖8(a)中P5N識(shí)別的關(guān)鍵蛋白質(zhì)數(shù)量在前段都處在最高位置,隨著預(yù)測(cè)排名的增加,W5N開始處于最高位置,識(shí)別的關(guān)鍵蛋白質(zhì)數(shù)目超過了P5N和其他方法.這說明P5N,W5N的關(guān)鍵蛋白質(zhì)識(shí)別率都在分別優(yōu)于原方法PeC和WDC的同時(shí),全部高過靜態(tài)網(wǎng)絡(luò)中心性的方法,從而說明經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)切分后的方法對(duì)識(shí)別關(guān)鍵蛋白質(zhì)的有效性和優(yōu)異性.
本文進(jìn)一步分析不同的基因活性表達(dá)矩陣閾值和不同的基因活性表達(dá)矩陣的周期劃分對(duì)于預(yù)測(cè)性能的影響.首先,針對(duì)酵母和大腸桿菌數(shù)據(jù),采用不同的基因活性表達(dá)矩陣閾值參數(shù),分別設(shè)置為1,1.5,2,2.5,3來分析對(duì)識(shí)別關(guān)鍵蛋白質(zhì)的影響程度,結(jié)果如附錄A的表A1、表A2所示.由酵母實(shí)驗(yàn)結(jié)果可見,在設(shè)置的5種閾值參數(shù)中,用于識(shí)別關(guān)鍵蛋白質(zhì)的9種方法在不同參數(shù)設(shè)置的結(jié)果略有差別.在參數(shù)為2時(shí),所構(gòu)建的基因活性表達(dá)矩陣中AUC值均相對(duì)最高;當(dāng)參數(shù)為2.5時(shí),在Top 100至Top 600分析時(shí)呈現(xiàn)出較好的結(jié)果.大腸桿菌的基因表達(dá)數(shù)據(jù)經(jīng)過5個(gè)閾值系數(shù)過濾得到5個(gè)基因活性表達(dá)矩陣,這5個(gè)基因活性表達(dá)矩陣的差別極小,劃分后的子網(wǎng)的邊對(duì)應(yīng)關(guān)系均完全一致,即中心性結(jié)果一致,最終分別計(jì)算出的5個(gè)P5N與W5N相差極小,最終5個(gè)閾值系數(shù)在9種方法中所得出的Top結(jié)果一致.
此外,本文設(shè)定不同的基因活性表達(dá)矩陣的周期劃分,將基因活性表達(dá)矩陣分別劃分為3,4,5,6,7個(gè)周期來測(cè)試周期的劃分對(duì)實(shí)驗(yàn)的影響,結(jié)果如附錄A表A3、表A4所示.由酵母與大腸桿菌的實(shí)驗(yàn)結(jié)果表明,基因活性表達(dá)矩陣的周期劃分對(duì)基于中心性方法關(guān)鍵蛋白質(zhì)的識(shí)別影響較小,在AUC值分析和Top結(jié)果上略有差別.
在之前的實(shí)驗(yàn)中,本文對(duì)比了動(dòng)態(tài)網(wǎng)絡(luò)切分識(shí)別方法與靜態(tài)網(wǎng)絡(luò)中識(shí)別方法.實(shí)驗(yàn)結(jié)果表明,經(jīng)過動(dòng)態(tài)網(wǎng)絡(luò)的切分關(guān)鍵蛋白質(zhì)的識(shí)別率可以得到有效的提升.為了進(jìn)一步討論動(dòng)態(tài)網(wǎng)絡(luò)切分對(duì)預(yù)測(cè)關(guān)鍵蛋白質(zhì)的有效性,本文還將動(dòng)態(tài)網(wǎng)絡(luò)切分方法與動(dòng)態(tài)網(wǎng)絡(luò)NF-PIN的識(shí)別結(jié)果進(jìn)行對(duì)比分析.
NF-PIN動(dòng)態(tài)網(wǎng)絡(luò)在進(jìn)行酵母實(shí)驗(yàn)時(shí),將基因表達(dá)數(shù)據(jù)中的36個(gè)時(shí)間點(diǎn)分為12個(gè)時(shí)間段.本文為了單獨(dú)比較方法的預(yù)測(cè)性能,將選取與NF-PIN一致的基因表達(dá)數(shù)據(jù)與PPI網(wǎng)絡(luò)進(jìn)行方法評(píng)估,實(shí)驗(yàn)結(jié)果如表6所示.由于大腸桿菌的基因表達(dá)數(shù)據(jù)中包含的時(shí)間點(diǎn)為8個(gè),在動(dòng)態(tài)網(wǎng)絡(luò)中難以形成5個(gè)有效的周期,鑒于此類情況,本文實(shí)驗(yàn)獲取了與酵母NF-PIN動(dòng)態(tài)網(wǎng)絡(luò)中時(shí)間相仿的人類膀胱的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),人類膀胱的時(shí)間點(diǎn)為11個(gè),實(shí)驗(yàn)結(jié)果如表7所示.
Table 6 Analysis of Various Prediction Methods for Dynamic Network Segmentation andNF-PIN Dynamic Network in Yeast Data表6 酵母數(shù)據(jù)中動(dòng)態(tài)網(wǎng)絡(luò)切分方法與NF-PIN動(dòng)態(tài)網(wǎng)絡(luò)各種預(yù)測(cè)方法分析
Table 7 Analysis of Various Prediction Methods for Dynamic Network Segmentation andNF-PIN Dynamic Network in Human Bladder Data表7 人類膀胱數(shù)據(jù)中動(dòng)態(tài)網(wǎng)絡(luò)切分方法與NF-PIN動(dòng)態(tài)網(wǎng)絡(luò)各種預(yù)測(cè)方法分析
從表6中可以看出,在動(dòng)態(tài)網(wǎng)絡(luò)切分與動(dòng)態(tài)網(wǎng)絡(luò)NF-PIN輸入了一致數(shù)據(jù)的實(shí)驗(yàn)中,所有經(jīng)過切分之后的方法相比原方法,其AUC均得到了一定程度的提升.其中NF-W5N的AUC達(dá)到了最高的0.695 5,相比NF-PIN中AUC最高的0.675 1還要高出2.04個(gè)百分點(diǎn),這表明由動(dòng)態(tài)網(wǎng)絡(luò)切分方法預(yù)測(cè)的關(guān)鍵蛋白質(zhì)準(zhǔn)確度更高.在中心性方法Top分析中,動(dòng)態(tài)網(wǎng)絡(luò)切分方法預(yù)測(cè)出的關(guān)鍵蛋白質(zhì)數(shù)量都基本超過了未經(jīng)切分的動(dòng)態(tài)網(wǎng)絡(luò)NF-PIN,其中NF-E5N,NF-S5N,NF-D5N,NF-I5N,NF-N5N相比NF-EC,NF-SC,NF-DC,NF-IC,NF-NC的識(shí)別率有全面提升.其中,NF-L5N在研究人員最關(guān)注的Top 100中預(yù)測(cè)了最多的85個(gè)關(guān)鍵蛋白質(zhì).這表明動(dòng)態(tài)網(wǎng)絡(luò)NF-PIN利用生物表達(dá)的動(dòng)態(tài)性,在識(shí)別關(guān)鍵基因中有著較高的準(zhǔn)確度,而動(dòng)態(tài)網(wǎng)絡(luò)切分在利用動(dòng)態(tài)性的基礎(chǔ)上進(jìn)一步結(jié)合了生物周期性表達(dá)的特性,降低了網(wǎng)絡(luò)中來自假陽性及假陰性數(shù)據(jù)的影響,相比僅利用基因表達(dá)動(dòng)態(tài)性的動(dòng)態(tài)網(wǎng)絡(luò)能夠有效識(shí)別出更多的關(guān)鍵蛋白質(zhì).
在表7中可以看出,在人類膀胱的數(shù)據(jù)集中,所有動(dòng)態(tài)網(wǎng)絡(luò)切分方法的AUC都要高于原方法.其中,NF-P5N在預(yù)測(cè)關(guān)鍵基因中AUC達(dá)到了最高的0.575 3.從Top分析中可以看出,所有動(dòng)態(tài)網(wǎng)絡(luò)切分方法相比原方法都得到了較大的提升,其中NF-E5N在Top 100中預(yù)測(cè)了最多的92個(gè)關(guān)鍵基因.實(shí)驗(yàn)結(jié)果表明,在人類膀胱數(shù)據(jù)集中,經(jīng)過切分后的網(wǎng)絡(luò)在各個(gè)方法上都比動(dòng)態(tài)網(wǎng)絡(luò)NF-PIN的識(shí)別率要高.這也說明了融合5個(gè)周期的動(dòng)態(tài)網(wǎng)絡(luò)相比于不切分的動(dòng)態(tài)網(wǎng)絡(luò)擁有更好的性能,能識(shí)別出更多的正確結(jié)果.
本文融合基因表達(dá)數(shù)據(jù)中的時(shí)序數(shù)據(jù)擴(kuò)展了PPI網(wǎng)絡(luò)的動(dòng)態(tài)性.實(shí)驗(yàn)通過對(duì)酵母、大腸桿菌及人類膀胱的蛋白質(zhì)數(shù)據(jù)的分析探索,將靜態(tài)PPI網(wǎng)絡(luò)劃分了多個(gè)周期及構(gòu)建融合多個(gè)子網(wǎng)信息的動(dòng)態(tài)網(wǎng)絡(luò),以盡可能避免靜態(tài)網(wǎng)絡(luò)中假陽性和假陰性數(shù)據(jù)的影響,最大限度地提取在蛋白質(zhì)隨環(huán)境變化時(shí)所具有的保守性.實(shí)驗(yàn)結(jié)果表明:在酵母、大腸桿菌及人類膀胱中進(jìn)行動(dòng)態(tài)網(wǎng)絡(luò)切分的方法可以有效地提高關(guān)鍵蛋白質(zhì)的識(shí)別率,識(shí)別出更多的關(guān)鍵蛋白質(zhì).
作者貢獻(xiàn)聲明:鐘堅(jiān)成和潘毅提出研究思路和實(shí)驗(yàn)方案,以及對(duì)論文的修改進(jìn)行審查;鐘堅(jiān)成和彭瑋進(jìn)行研究目標(biāo)分析和研究方案總結(jié);方卓負(fù)責(zé)實(shí)驗(yàn)推進(jìn)和論文初稿撰寫;瞿佐航負(fù)責(zé)數(shù)據(jù)整理和論文校對(duì);鐘穎參與實(shí)驗(yàn)測(cè)試.