代啟國(guó), 郭茂祖, 劉曉燕, 王春宇
(1.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; 2.大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 遼寧 大連 116600;3.大連市民族文化數(shù)字化重點(diǎn)實(shí)驗(yàn)室(大連民族大學(xué)), 遼寧 大連116600)
?
動(dòng)態(tài)-靜態(tài)混合的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法
代啟國(guó)1,2,3, 郭茂祖1, 劉曉燕1, 王春宇1
(1.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; 2.大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 遼寧 大連 116600;3.大連市民族文化數(shù)字化重點(diǎn)實(shí)驗(yàn)室(大連民族大學(xué)), 遼寧 大連116600)
目前已公開(kāi)的蛋白質(zhì)網(wǎng)絡(luò)多為靜態(tài)網(wǎng)絡(luò),不能有效描述細(xì)胞中蛋白質(zhì)的動(dòng)態(tài)活動(dòng)特點(diǎn). 通過(guò)融合基因表達(dá)數(shù)據(jù),研究人員可以構(gòu)建出描述蛋白質(zhì)動(dòng)態(tài)性的時(shí)序蛋白質(zhì)網(wǎng)絡(luò). 現(xiàn)有方法假設(shè)所有蛋白質(zhì)都是動(dòng)態(tài)變化的,而事實(shí)上除動(dòng)態(tài)蛋白質(zhì)外細(xì)胞中還包含相對(duì)穩(wěn)定的靜態(tài)蛋白質(zhì). 為此,提出了一種基于動(dòng)態(tài)-靜態(tài)蛋白質(zhì)混合的時(shí)序網(wǎng)絡(luò)構(gòu)建新方法. 該方法根據(jù)基因表達(dá)變化情況將蛋白質(zhì)分為動(dòng)態(tài)和靜態(tài)兩類,并在構(gòu)建各時(shí)刻網(wǎng)絡(luò)時(shí)考慮動(dòng)態(tài)與靜態(tài)蛋白質(zhì)之間的相互作用關(guān)系. 實(shí)驗(yàn)結(jié)果表明,利用本文方法構(gòu)建的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)可以提高蛋白質(zhì)復(fù)合體識(shí)別的準(zhǔn)確性,從而驗(yàn)證了本文方法的可行性.
時(shí)序蛋白質(zhì)網(wǎng)絡(luò);蛋白質(zhì)相互作用;基因表達(dá);生物網(wǎng)絡(luò);蛋白質(zhì)復(fù)合體識(shí)別
蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein-protein interaction network,簡(jiǎn)稱蛋白質(zhì)網(wǎng)絡(luò))是描述細(xì)胞中蛋白質(zhì)活動(dòng)的一種生物網(wǎng)絡(luò)[1-2]. 由于蛋白質(zhì)在生命活動(dòng)中具有十分重要的作用,因而基于蛋白質(zhì)網(wǎng)絡(luò)的分析和挖掘方法越來(lái)越受到關(guān)注. 蛋白質(zhì)復(fù)合體識(shí)別[3-5]、關(guān)鍵蛋白質(zhì)識(shí)別[6]等很多生物信息研究都是以蛋白質(zhì)網(wǎng)絡(luò)為基礎(chǔ)的.
現(xiàn)有公開(kāi)蛋白質(zhì)網(wǎng)絡(luò)通??杀硎緸橐粋€(gè)圖,其中節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)之間的相互作用關(guān)系. 這種網(wǎng)絡(luò)一般假設(shè)蛋白質(zhì)的豐度都是靜態(tài)不變的,所描述的蛋白質(zhì)之間相互作用也是持續(xù)穩(wěn)定的,因而稱為“靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)”. 然而,真實(shí)細(xì)胞系統(tǒng)中蛋白質(zhì)及其相互作用是隨時(shí)變化的,具有一定的動(dòng)態(tài)性. Lichtenberg等人研究發(fā)現(xiàn),大部分復(fù)合體都是由動(dòng)態(tài)和靜態(tài)兩類蛋白質(zhì)構(gòu)成[7]. 然而,靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)的簡(jiǎn)單圖結(jié)構(gòu)無(wú)法描述蛋白質(zhì)動(dòng)態(tài)特性[8-10],因此有必要構(gòu)建能夠描述蛋白質(zhì)動(dòng)態(tài)特性的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)模型.
在構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)的過(guò)程中,一個(gè)關(guān)鍵問(wèn)題是如何確定蛋白質(zhì)在何時(shí)處于激活狀態(tài). 采用單一固定閾值方法確定蛋白質(zhì)的活動(dòng)狀態(tài)與非活動(dòng)狀態(tài)雖然簡(jiǎn)單[8],但存在一定局限. 例如,一些蛋白質(zhì)的含量在整個(gè)細(xì)胞周期都較低. 如果采用單一的固定閾值,那么這些蛋白質(zhì)可能會(huì)被認(rèn)為是非激活狀態(tài)而被忽略掉. Hegde等人提出了利用不同基因表達(dá)數(shù)據(jù)中表達(dá)值的均值確定蛋白質(zhì)的活動(dòng)狀態(tài)[10]. 王建新等人[11]針對(duì)蛋白質(zhì)不同的表達(dá)模式特性,提出了3-σ閾值計(jì)算方法. 上述方法假設(shè)所有蛋白質(zhì)豐度都是動(dòng)態(tài)變化. 然而,生物學(xué)研究表明,細(xì)胞中蛋白質(zhì)并非全部都是動(dòng)態(tài)的,有些蛋白質(zhì)的豐度受細(xì)胞周期、環(huán)境等影響較小,表現(xiàn)出一定的靜態(tài)特性[12]. 因此,將所有蛋白質(zhì)均視為動(dòng)態(tài)的方法,不能準(zhǔn)確地刻畫(huà)細(xì)胞中真實(shí)的蛋白質(zhì)活動(dòng)規(guī)律.
為此,本文提出一種動(dòng)態(tài)-靜態(tài)蛋白質(zhì)混合的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法(A hybrid temporal protein network,HTPIN). 該方法首先將蛋白質(zhì)劃分為動(dòng)態(tài)和靜態(tài)兩類,然后同時(shí)利用動(dòng)態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)之間相互作用關(guān)系構(gòu)建時(shí)序網(wǎng)絡(luò). 通過(guò)相關(guān)實(shí)驗(yàn)測(cè)試與分析,利用本文方法所構(gòu)建的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)具有很好的可靠性,可以提高蛋白質(zhì)復(fù)合體識(shí)別的準(zhǔn)確性.
給出一種基于動(dòng)態(tài)-靜態(tài)蛋白質(zhì)混合的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法(HTPIN). 首先,以基因表達(dá)數(shù)據(jù)為基礎(chǔ),利用蛋白質(zhì)編碼基因在不同時(shí)刻表達(dá)值變化的波動(dòng)性,將蛋白質(zhì)劃分為動(dòng)態(tài)和靜態(tài)兩類;然后,采用3-σ閾值[11]判斷動(dòng)態(tài)蛋白質(zhì)激活時(shí)刻;最后,構(gòu)建各時(shí)刻蛋白質(zhì)網(wǎng)絡(luò). 該方法的基本流程如圖1所示.
1.1 動(dòng)態(tài)與靜態(tài)蛋白質(zhì)
以基因表達(dá)量作為判定蛋白質(zhì)動(dòng)、靜態(tài)屬性的依據(jù). 假設(shè)給定蛋白質(zhì)網(wǎng)絡(luò)中有N個(gè)蛋白質(zhì),基因表達(dá)數(shù)據(jù)中記錄了T個(gè)時(shí)間點(diǎn)的表達(dá)量. 對(duì)于蛋白質(zhì)i(1≤i≤N),其對(duì)應(yīng)編碼基因在所有時(shí)刻的表達(dá)值Expi可表示為
其中,eit表示蛋白質(zhì)i的編碼基因在t時(shí)刻的表達(dá)量. 則蛋白質(zhì)i表達(dá)量的方差[12]為
圖1 HTPIN方法構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)過(guò)程示意
Fig.1 Illustration of construction process of temporal protein networks with HTPIN
利用表達(dá)量波動(dòng)值EVi,表示蛋白質(zhì)i在所有時(shí)刻表達(dá)量的方差值. 具體來(lái)講,表達(dá)量方差值高于蛋白質(zhì)i表達(dá)量方差的蛋白質(zhì)數(shù)目記為ni,則蛋白質(zhì)i編碼基因表達(dá)量波動(dòng)值EVi=ni/N. 該值介于0和1之間,越接近于0表明蛋白質(zhì)表達(dá)量越穩(wěn)定;越接近于1則表示蛋白質(zhì)表達(dá)量波動(dòng)性越大.
引入波動(dòng)性閾值thDyn(0≤thDyn≤1)確定每個(gè)蛋白質(zhì)的動(dòng)、靜態(tài)屬性. 蛋白質(zhì)i的波動(dòng)值EVi大于或等于閾值thDyn,則認(rèn)為該蛋白質(zhì)是動(dòng)態(tài)蛋白質(zhì),否則為靜態(tài)蛋白質(zhì),具體可形式化為
其中isDyn(i) 值為1表示蛋白質(zhì)i是動(dòng)態(tài)蛋白質(zhì),為0表示蛋白質(zhì)是靜態(tài)蛋白質(zhì). 動(dòng)態(tài)閾值thDyn為HTPIN算法參數(shù).
1.2 確定蛋白質(zhì)激活時(shí)刻
1.2.1 動(dòng)態(tài)蛋白質(zhì)的激活狀態(tài)
動(dòng)態(tài)變化的蛋白質(zhì)只有在其處于激活狀態(tài)時(shí),才與其他蛋白質(zhì)發(fā)生相互作用. 因此,需要確定動(dòng)態(tài)蛋白質(zhì)處于激活狀態(tài)的時(shí)間點(diǎn). 動(dòng)態(tài)蛋白質(zhì)在不同時(shí)間點(diǎn)對(duì)應(yīng)表達(dá)量具有很大的波動(dòng)性. 對(duì)于某一時(shí)刻,如果一個(gè)動(dòng)態(tài)蛋白質(zhì)的表達(dá)量相對(duì)較高,則認(rèn)為其處于活動(dòng)狀態(tài);而表達(dá)量相對(duì)較低,則認(rèn)為是非活動(dòng)狀態(tài). 為此,引入激活閾值thiAct來(lái)判斷動(dòng)態(tài)蛋白質(zhì)在各時(shí)間點(diǎn)所處的狀態(tài). 對(duì)于動(dòng)態(tài)蛋白質(zhì)i(isDyn(i)=1),如果其在時(shí)間點(diǎn)t對(duì)應(yīng)基因的表達(dá)值eit高于該激活閾值thiAct,則認(rèn)為其在t時(shí)刻為激活狀態(tài),否則為未激活狀態(tài),即
其中,isActive(i, t)值為1表示激活,0表示未激活. 采用3-σ方法[11]確定激活閾值thiAct,其具體方法為
1.2.2 靜態(tài)蛋白質(zhì)的激活狀態(tài)
靜態(tài)蛋白質(zhì)對(duì)應(yīng)的基因表達(dá)量相對(duì)穩(wěn)定,因而通常認(rèn)為它們?cè)谡麄€(gè)生物過(guò)程中活動(dòng)狀態(tài)是持續(xù)穩(wěn)定的[7, 12]. 因此,靜態(tài)蛋白質(zhì)在所有時(shí)刻均處于激活狀態(tài).
1.3 構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)
基于動(dòng)態(tài)-靜態(tài)蛋白質(zhì)混合的時(shí)序網(wǎng)絡(luò)構(gòu)建方法主要分為兩個(gè)步驟:首先,抽取靜態(tài)蛋白質(zhì)之間相互作用網(wǎng)絡(luò),即靜態(tài)子網(wǎng)絡(luò);然后,以其為基礎(chǔ)在每個(gè)時(shí)間點(diǎn)增加在該時(shí)刻處于激活狀態(tài)的動(dòng)態(tài)蛋白質(zhì)及其相互作用關(guān)系.
1.3.1 輸入數(shù)據(jù)描述
輸入數(shù)據(jù)包括公開(kāi)蛋白質(zhì)網(wǎng)絡(luò)G和某個(gè)生物過(guò)程中的時(shí)序基因表達(dá)數(shù)據(jù)Exp. 其中,網(wǎng)絡(luò)G可描述為G=(V, E),V表示其中蛋白質(zhì)集合,E表示蛋白質(zhì)相互作用關(guān)系集合. 網(wǎng)絡(luò)中的蛋白質(zhì)數(shù)目記為N(N=|V|). 時(shí)序基因表達(dá)數(shù)據(jù)Exp中收錄了所有N個(gè)蛋白質(zhì)在T個(gè)時(shí)刻下對(duì)應(yīng)基因的表達(dá)量,即
1.3.2 抽取靜態(tài)子網(wǎng)絡(luò)
抽取靜態(tài)子網(wǎng)絡(luò)是指獲取輸入蛋白質(zhì)網(wǎng)絡(luò)G中所有靜態(tài)蛋白質(zhì)構(gòu)成的子網(wǎng)絡(luò). 通過(guò)預(yù)先抽取靜態(tài)子網(wǎng)絡(luò)可以避免在各時(shí)刻重復(fù)構(gòu)建,提高構(gòu)建時(shí)序網(wǎng)絡(luò)的效率. 所抽取的靜態(tài)子網(wǎng)絡(luò)可表示為GStat=(VStat, EStat),其中包含所有靜態(tài)蛋白質(zhì)VStat和它們?cè)贕中的相互作用關(guān)系EStat.
1.3.3 構(gòu)建各時(shí)刻動(dòng)態(tài)-靜態(tài)混合網(wǎng)絡(luò)
時(shí)序蛋白質(zhì)網(wǎng)絡(luò)GTC可表示為
(8)
其中,Gt為t時(shí)刻蛋白質(zhì)網(wǎng)絡(luò),表示為Gt=(Vt,Et),Vt和Et分別構(gòu)成該時(shí)刻網(wǎng)絡(luò)的蛋白質(zhì)和相互作用關(guān)系集合. 由于已經(jīng)預(yù)提取了每個(gè)時(shí)刻靜態(tài)子網(wǎng)絡(luò),因此構(gòu)建各時(shí)刻網(wǎng)絡(luò)可以轉(zhuǎn)化為在靜態(tài)子網(wǎng)絡(luò)基礎(chǔ)上,增加在該時(shí)刻處于激活狀態(tài)的動(dòng)態(tài)蛋白質(zhì)以及與它們之間的相互作用關(guān)系;此外,還增加它們與靜態(tài)蛋白質(zhì)之間的作用關(guān)系.
1.3.4 動(dòng)態(tài)-靜態(tài)混合時(shí)序蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法
以上述主要過(guò)程為基礎(chǔ),基于基因表達(dá)數(shù)據(jù)的動(dòng)態(tài)-靜態(tài)混合時(shí)序蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建算法(HTPIN)的描述如下.
輸入:蛋白質(zhì)相互作用網(wǎng)絡(luò)G=(V,E);基因表達(dá)數(shù)據(jù)Exp={Exp1,…,Exp|V|};動(dòng)態(tài)閾值thDyn.
輸出:混合型時(shí)序蛋白質(zhì)網(wǎng)絡(luò)GTC.
初始化靜態(tài)子網(wǎng)絡(luò)GStat=(VStat,EStat),VStat=?,EStat=?;
初始化動(dòng)態(tài)蛋白質(zhì)集合VDyn=?;
for each p in V/* 將蛋白質(zhì)分為動(dòng)態(tài)和靜態(tài)兩類蛋白質(zhì) */
if p為動(dòng)態(tài)蛋白質(zhì)isDyn(p,thDyn)
將p加入到動(dòng)態(tài)蛋白質(zhì)集合VDyn=VDyn∪{p};
else
將p加入到靜態(tài)蛋白質(zhì)集合VStat=VStat∪{p};
end if
end for
for each epqin E
if both p and q in Estat
將epq加入到EStat;
end if
end for
初始化時(shí)序網(wǎng)絡(luò)GTC={G1,…,GT}
for t=1 to T/* 獲取各時(shí)刻蛋白質(zhì)網(wǎng)絡(luò) */
初始化t時(shí)刻網(wǎng)絡(luò)Gt=(Vt,Et),Vt=?,Et=?;
for each p in VDyn/* 獲取t時(shí)處于激活狀態(tài)的動(dòng)態(tài)蛋白質(zhì) */
if 蛋白質(zhì)p在t時(shí)刻處于激活狀態(tài)isActive(p,t)
Vt=Vt∪{p};
end if
end for
for each p in Vt/* 獲取激活動(dòng)態(tài)蛋白質(zhì)之間的相互作用 */
for each q≠p in Vt
if 輸入網(wǎng)絡(luò)G中存在p和q的相互作用,即epqin E
將epq加入到Et;
end if
end for
end for
for each p in Vt/* 激活動(dòng)態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)相互作用*/
for each q in VStat
if 輸入網(wǎng)絡(luò)G中存在p和q的相互作用,即epqin E
將epq加入到Et;
end if
end for
end for
Vt=Vt∪VStat;
end for
輸出時(shí)序蛋白質(zhì)網(wǎng)絡(luò)GTC
為了驗(yàn)證本文HTPIN方法的合理性,對(duì)其進(jìn)行多方面的測(cè)試. 基于蛋白質(zhì)網(wǎng)絡(luò)識(shí)別復(fù)合體是針對(duì)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行信息挖掘的典型問(wèn)題. 蛋白質(zhì)網(wǎng)絡(luò)是計(jì)算識(shí)別復(fù)合體的重要數(shù)據(jù)依據(jù). 蛋白質(zhì)復(fù)合體是由多個(gè)蛋白質(zhì)通過(guò)物理相互作用結(jié)合形成,這些相互作用緊密的蛋白質(zhì)一般在蛋白質(zhì)網(wǎng)絡(luò)中對(duì)應(yīng)稠密的子圖結(jié)構(gòu)[1-2,13]. 因而,可以通過(guò)挖掘網(wǎng)絡(luò)中稠密子圖識(shí)別蛋白質(zhì)復(fù)合體. 也就是說(shuō),從蛋白質(zhì)網(wǎng)絡(luò)中識(shí)別復(fù)合體是一個(gè)圖聚類問(wèn)題. 因此,本文通過(guò)分析所構(gòu)建的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)是否可以提高復(fù)合體識(shí)別準(zhǔn)確性來(lái)評(píng)價(jià)HTPIN方法的有效性.
2.1 實(shí)驗(yàn)設(shè)計(jì)及實(shí)驗(yàn)數(shù)據(jù)
為了達(dá)到通過(guò)識(shí)別復(fù)合體驗(yàn)證時(shí)序網(wǎng)絡(luò)的目的,在實(shí)驗(yàn)中采用了如下方案:對(duì)于給定的一種復(fù)合體識(shí)別算法和構(gòu)建的時(shí)序網(wǎng)絡(luò)GTC={G1,G2,…,Gt,…,GT},首先將識(shí)別算法依次在每個(gè)時(shí)刻的蛋白質(zhì)網(wǎng)絡(luò)Gt上運(yùn)行,獲得在t時(shí)刻的識(shí)別結(jié)果Ct;然后將在所有時(shí)刻網(wǎng)絡(luò)上的識(shí)別結(jié)果集合在一起,去除重復(fù)復(fù)合體,形成復(fù)合體集合C,即為該識(shí)別算法在時(shí)序網(wǎng)絡(luò)GTC上最終識(shí)別結(jié)果. 通過(guò)分析識(shí)別結(jié)果C與已知復(fù)合體集合(CYC2008)[14]匹配的組合評(píng)分,以及功能一致性兩方面評(píng)價(jià)時(shí)序網(wǎng)絡(luò). 組合評(píng)分具體為F-Measure、ACC和MMR三項(xiàng)子指標(biāo)之和[15]. 為了更加客觀地進(jìn)行評(píng)價(jià),避免個(gè)別算法對(duì)時(shí)序網(wǎng)絡(luò)的偏好性,在實(shí)驗(yàn)中測(cè)試了CPL[16]、ClusterONE[17]和PLSMC[15]3種不同類型算法.
在基因表達(dá)數(shù)據(jù)方面,采用了GEO數(shù)據(jù)庫(kù)中與酵母代謝周期相關(guān)的GSE3431系列數(shù)據(jù)[18]. 該數(shù)據(jù)采集背景是限制營(yíng)養(yǎng)條件下連續(xù)培養(yǎng)酵母細(xì)胞的3個(gè)代謝周期,每個(gè)周期采樣12個(gè)時(shí)間點(diǎn),間隔為25 min.
在靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)方面,采用了酵母的BioGRID蛋白質(zhì)網(wǎng)絡(luò)[19]. 在兩種類型數(shù)據(jù)之間,采用ORF命名類型來(lái)作為關(guān)鍵字以建立兩種數(shù)據(jù)中的基因與蛋白質(zhì)之間的對(duì)應(yīng)關(guān)系. 濾掉兩種數(shù)據(jù)中未建立映射關(guān)系的基因或蛋白質(zhì).
2.2 波動(dòng)性閾值的影響
HTPIN時(shí)序網(wǎng)絡(luò)構(gòu)建方法的核心是動(dòng)態(tài)-靜態(tài)蛋白質(zhì)混合的思想. 為了驗(yàn)證這種方案的合理性,本文研究了控制靜態(tài)與動(dòng)態(tài)蛋白質(zhì)混合比例的波動(dòng)性閾值thDyn對(duì)所構(gòu)建網(wǎng)絡(luò)的影響. 測(cè)試了該閾值thDyn={0.0,0.1,…,0.9,10}的不同取值情況. 對(duì)于每個(gè)取值,統(tǒng)計(jì)分析不同算法在時(shí)序網(wǎng)絡(luò)上的復(fù)合體識(shí)別結(jié)果.
圖2描述了CPL、ClusterONE和PLSMC三種算法在采用不同波動(dòng)性閾值而構(gòu)建的時(shí)序網(wǎng)絡(luò)上識(shí)別復(fù)合體結(jié)果的對(duì)比情況. 當(dāng)thDyn=0時(shí)表明所有蛋白質(zhì)均被視為動(dòng)態(tài)蛋白質(zhì),并認(rèn)為這些蛋白質(zhì)只在部分時(shí)刻處于活動(dòng)狀態(tài);而當(dāng)thDyn=1時(shí)則表示所有蛋白質(zhì)都被視為靜態(tài)蛋白質(zhì),在所有時(shí)刻均出現(xiàn).
圖2 采用不同波動(dòng)性閾值thDyn構(gòu)建時(shí)序網(wǎng)絡(luò)對(duì)復(fù)合體識(shí)別性能的影響
Fig.2 The performance comparison of complex detection on time-course protein network constructed by HTPIN with different volatility threshold thDyn
從圖2可見(jiàn),不同算法識(shí)別結(jié)果的組合評(píng)分均隨波動(dòng)性閾值thDyn的改變而較大發(fā)生變化. 但所有參與測(cè)試的算法識(shí)別結(jié)果的組合評(píng)分峰值均出現(xiàn)在當(dāng)thDyn=0.2至0.4之間,即此時(shí)復(fù)合體識(shí)別結(jié)果要好于thDyn=0和thDyn=1兩種極端情況. 由此表明,在構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)時(shí),將動(dòng)態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)控制在合理的比例可以有效提高復(fù)合體識(shí)別的總體性能. 上述實(shí)驗(yàn)結(jié)果表明,本文提出的基于靜態(tài)-動(dòng)態(tài)蛋白質(zhì)混合思想構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)的方法具有一定的合理性.
圖3描述了在波動(dòng)性閾值thdyn=0.2條件下,YKL101w、YNL286w和YLR011w3個(gè)靜態(tài)蛋白質(zhì)及其相鄰接的部分動(dòng)態(tài)蛋白質(zhì),在時(shí)刻1、4、7、10等4個(gè)時(shí)間點(diǎn)所構(gòu)成的蛋白質(zhì)網(wǎng)絡(luò). 從4個(gè)示例網(wǎng)絡(luò)中可見(jiàn),在每個(gè)時(shí)刻,與指定的靜態(tài)蛋白質(zhì)鄰接的動(dòng)態(tài)蛋白質(zhì)有所差別,既體現(xiàn)了靜態(tài)蛋白質(zhì)的穩(wěn)定性,同時(shí)也刻畫(huà)了動(dòng)態(tài)蛋白質(zhì)的變化特點(diǎn).
圖3 在thDyn=0.2條件下,第1、4、7和10時(shí)刻點(diǎn)蛋白質(zhì)子網(wǎng)絡(luò)示意圖
Fig.3 Sub-networks on time 1, 4, 7 and 10 under the condition of thDyn=0.2
2.3 不同類型蛋白質(zhì)網(wǎng)絡(luò)的對(duì)比
下面將HTPIN方法構(gòu)建的時(shí)序網(wǎng)絡(luò)、同類方法DPIN方法[11]所構(gòu)建的時(shí)序網(wǎng)絡(luò)進(jìn)行比較. DPIN與HTPIN均是用來(lái)構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)的方法. 二者主要區(qū)別在于,DPIN方法將所有蛋白質(zhì)均視為動(dòng)態(tài)蛋白質(zhì),而HTPIN方法則根據(jù)表達(dá)量波動(dòng)情況將蛋白質(zhì)劃分為動(dòng)態(tài)、靜態(tài)兩類,并在此基礎(chǔ)上構(gòu)建混合蛋白質(zhì)網(wǎng)絡(luò). 通過(guò)比較兩類方法可以證明本文提出的基于“混合”思想構(gòu)建時(shí)序網(wǎng)絡(luò)方法的有效性. 此外,還與原始蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行了對(duì)比分析. 實(shí)驗(yàn)中,HTPIN方法采用了2.2節(jié)中獲得最優(yōu)組合評(píng)分的波動(dòng)性閾值.
2.3.1 識(shí)別復(fù)合體與已知復(fù)合體匹配評(píng)分
表1列出了CPL、ClusterONE以及PLSMC三種算法在不同類型蛋白質(zhì)網(wǎng)絡(luò)上識(shí)別復(fù)合體的評(píng)價(jià)指標(biāo),其中組合評(píng)分為F-Measure、ACC和MMR三項(xiàng)之和[15]. 在HTPIN和DPIN構(gòu)建的網(wǎng)絡(luò)上,ClusterONE和PLSMC算法識(shí)別結(jié)果的組合評(píng)分要好于在原始蛋白質(zhì)網(wǎng)絡(luò)評(píng)分值,表明通過(guò)融合基因表達(dá)數(shù)據(jù)構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)可以提高蛋白質(zhì)復(fù)合體識(shí)別的準(zhǔn)確性的. 值得注意的是,所有參與測(cè)試的復(fù)合體識(shí)別算法在HTPIN方法構(gòu)建的網(wǎng)絡(luò)上均取得了最優(yōu)的組合得分,表明本文方法較DPIN方法更有利于復(fù)合體的識(shí)別.
2.3.2 識(shí)別復(fù)合體的功能一致性分析
下面對(duì)復(fù)合體識(shí)別算法在不同類型網(wǎng)絡(luò)上識(shí)別復(fù)合體的GO功能一致性進(jìn)行了分析. 利用GOTermFinder工具[20]分析所識(shí)別復(fù)合體的功能一致性. 實(shí)驗(yàn)中計(jì)算了在p-value≤1.0E-10時(shí)功能一致性的復(fù)合體占所有識(shí)別復(fù)合體的比例. 該比例越高,表明所識(shí)別復(fù)合體功能一致性越高,具有更強(qiáng)的生物意義.
表1 不同蛋白質(zhì)網(wǎng)絡(luò)識(shí)別的復(fù)合體與已知復(fù)合體匹配
Tab.1 Comparison of matching between known complexes and the complexes detected by using different protein networks
復(fù)合體識(shí)別算法時(shí)序網(wǎng)絡(luò)構(gòu)建方法F-MeasureACCMMR組合評(píng)分HTPIN0.340.600.461.40CPLDPIN0.290.550.381.22原網(wǎng)絡(luò)0.350.600.351.30HTPIN0.610.710.491.81ClusterONEDPIN0.530.670.461.66原網(wǎng)絡(luò)0.490.630.411.53HTPIN0.630.720.571.92PLSMCDPIN0.520.670.461.65原網(wǎng)絡(luò)0.490.630.301.42
表2 不同蛋白質(zhì)網(wǎng)絡(luò)下識(shí)別復(fù)合體的功能一致性
Tab.2 Comparison of function homogeneity of the complexes detected by using different protein networks
復(fù)合體識(shí)別算法時(shí)序網(wǎng)絡(luò)構(gòu)建方法MFCCBPHTPIN0.290.410.35CPLDPIN0.270.350.30原網(wǎng)絡(luò)0.330.330.31HTPIN0.270.250.25ClusterONEDPIN0.250.240.23原網(wǎng)絡(luò)0.270.140.18HTPIN0.390.500.39PLSMCDPIN0.360.470.37原網(wǎng)絡(luò)0.400.490.36
表2列出了CPL、ClusterONE和PLSMC三種算法在不同類型網(wǎng)絡(luò)上識(shí)別復(fù)合體的功能一致性比例. 表2列出了關(guān)于GO所包含的三個(gè)方面功能注釋的分析結(jié)果,分別為分子功能(MF)、細(xì)胞組件(CC)和生物過(guò)程(BP). 從表2可以看出,所有參與測(cè)試識(shí)別算法在HTPIN與DPIN兩種時(shí)序蛋白質(zhì)網(wǎng)絡(luò)上所識(shí)別的復(fù)合體,在細(xì)胞組件和生物過(guò)程兩個(gè)方面的功能一致性均要優(yōu)于在原始網(wǎng)絡(luò)上的識(shí)別結(jié)果. 并且,基于HTPIN網(wǎng)絡(luò)的識(shí)別結(jié)果要優(yōu)于基于DPIN的識(shí)別結(jié)果. 上述實(shí)驗(yàn)結(jié)果表明,利用HTPIN方法構(gòu)建的時(shí)序網(wǎng)絡(luò)可以提高識(shí)別復(fù)合體的功能一致性.
動(dòng)態(tài)-靜態(tài)蛋白質(zhì)混合的時(shí)序蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法的主要特點(diǎn)是,在構(gòu)建各時(shí)刻網(wǎng)絡(luò)過(guò)程中,同時(shí)考慮動(dòng)態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)的相互作用關(guān)系. 實(shí)驗(yàn)結(jié)果表明,這種具有混合特征的時(shí)序網(wǎng)絡(luò)能夠提高復(fù)合體識(shí)別的準(zhǔn)確性,從而驗(yàn)證了基于“動(dòng)-靜混合”思想構(gòu)建時(shí)序蛋白質(zhì)網(wǎng)絡(luò)的方法是合理的.
值得注意的是,本文方法中的波動(dòng)性閾值本質(zhì)上是用于控制網(wǎng)絡(luò)中靜態(tài)與動(dòng)態(tài)蛋白質(zhì)比例的一種參數(shù). 文中雖然考察了該參數(shù)的不同取值對(duì)網(wǎng)絡(luò)構(gòu)建的影響,但并未關(guān)注該參數(shù)的具體計(jì)算方法. 作為下一步的工作,將繼續(xù)研究用于確定波動(dòng)性閾值的自動(dòng)計(jì)算方法,以增強(qiáng)本文方法的實(shí)際應(yīng)用能力.
[1] TONG A H, DREES B, NARDELLI G, et al. A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules[J]. Science, 2002, 295(5553): 321-324.
[2] SPIRIN V, MIRNY L A. Protein complexes and functional modules in molecular networks[J]. Proceedings of the National Academy of Sciences, 2003, 100(21):12123-12128.
[3]冀俊忠, 劉志軍, 劉紅欣, 等. 蛋白質(zhì)相互作用網(wǎng)絡(luò)功能模塊檢測(cè)的研究綜述[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(4):577-593.
JI Junzhong, LIU Zhijun, LIU Hongxin, et al. An overview of research on functional module detection for protein-protein interaction networks[J]. Acta Automatica Sinica, 2014, 40(4): 577-593.
[4]魚(yú)亮, 高琳, 孫鵬崗. 蛋白質(zhì)網(wǎng)絡(luò)中復(fù)合體和功能模塊預(yù)測(cè)算法研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(7):1239-1251.
YU Liang, GAO Lin, SUN Penggang. Research on algorithms for complexes and functional modules prediction in protein-protein interaction networks[J]. Chinese Journal of Computers, 2011,34(7): 1239-1251.
[5]湯?,|, 王建新, 胡秋玲. 蛋白質(zhì)復(fù)合物預(yù)測(cè)方法分析與比較[J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(10): 3611-3614.
TANG Xiwei, WANG Jianxin, HU Qiuling. Analysis and compare of methods predicting protein complex[J]. Application Research of Computers[J]. 2011, 28(10): 3611-3614.
[6]黃海濱, 楊路明, 王建新, 等. 基于復(fù)合參數(shù)的蛋白質(zhì)網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)識(shí)別技術(shù)[J]. 自動(dòng)化學(xué)報(bào), 2008, 34(11):1388-1395.
HUANG Haibin, YANG Luming, WANG Jianxin, et al. Identification technique of essential nodes in protein networks based on combined parameters[J]. Acta Automatica Sinica, 2008, 34(11): 1388-1395.
[7] LICHTENBERG U, JENSEN L J, BRUNAK S, et al. Dynamic complex formation during the yeast cell cycle[J]. Science, 2005, 307(5710):724-727.
[8] TANG Xiwei, WANG Jianxin, LIU Binbin, et al. A comparison of the functional modules identified from time course and static PPI network data[J]. BMC Bioinformatics, 2011, 12(1):1-15.
[9] WANG Jianxin, PENG Xiaoqing, PENG Wei, et al. Dynamic protein interaction network construction and applications[J]. Proteomics, 2014, 14(4-5): 338-352.
[10]HEGDE S R, MANIMARAN P, MANDE S C. Dynamic changes in protein functional linkage networks revealed by integration with gene expression data[J]. PLoS Computational Biology, 2008, 4(11):e1000237.
[11]WANG Jianxin, PENG Xiaoqing, LI Min, et al. Construction and application of dynamic protein interaction network based on time course gene expression data[J]. Proteomics, 2013, 13(2):301-312.
[12]KOMUROV K, WHITE M. Revealing static and dynamic modular architecture of the eukaryotic protein interaction network[J]. Molecular Systems Biology, 2007, 3(1):110.
[13]JANJIC V, SHARAN R, PRZULJ N. Modelling the Yeast Interactome[J]. Scientific Reports, 2014, 4:4273.
[14]PU S, WONG J, TURNER B, et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3):825-831.
[15]DAI Qiguo, GUO Maozu, GUO Yingjie, et al. A least square method based model for identifying protein complexes in protein-protein interaction network[J]. Biomed Research International, 2013,2014:720960-720960.
[16]DAI Qiguo, GUO Maozu, LIU Xiaoyan, et al. CPL: Detecting protein complexes by propagating labels on protein-protein interaction network[J]. Journal of Computer Science and Technology, 2014, 29(6): 1083-1093.
[17]NEPUSZ T, YU H, PACCANARO A. Detecting overlapping protein complexes in protein-protein interaction networks[J]. Nature Methods, 2012, 9(5): 471-472.
[18]TU B P, KUDLICKI A, ROWICKA M, et al. Logic of the yeast metabolic cycle: temporal compart-mentalization of cellular processes[J]. Science, 2005, 310(5751):1152-1158.
[19]STARK C, BREITKREUTZ B J, REGULY T, et al. BioGRID: a general repository for interaction datasets[J]. Nucleic Acids Research, 2006, 34(suppl 1):D535-D539.
[20]BOYLE E I, WENG S, GOLLUB J, et al. GO: TermFinder—open source software for accessing Gene Ontology information and finding significantly enriched Gene Ontology terms associated with a list of genes[J]. Bioinformatics, 2004, 20(18):3710-3715.
(編輯 王小唯 苗秀芝)
A method of constructing temporal protein networks by hybridizing dynamic and static proteins
DAI Qiguo1,2,3, GUO Maozu1, LIU Xiaoyan1, WANG Chunyu1
(1.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;2. School of Computer Science and Engineering, Dalian Minzu University, Dalian 116600, Liaoning, China;3.Dalian Key Lab of Digital Technology for National Culture(Dalian Minzu University), Dalian 116600, Liaoning, China)
Public available protein networks at present are static, which could not be used to describe the dynamic characteristics of proteins in a cell effectively. It is necessary to construct temporal protein network by integrating other biological data, which reflects the dynamic activities of proteins. Most of previous methods assume that all proteins are dynamic. However, in addition to dynamic protein, there are many static proteins in the cell. To this end, this paper proposes a new method to construct a temporal protein network both with dynamic and static proteins. In the method, proteins are classified into two types of dynamic and static, and then a protein network is constructed on each time point by both considering the interactions of dynamic and static proteins. Experimental test results show that the temporal protein network constructed by using the proposed method can improve the accuracy of the identification of protein complexes, which verified the reliability of the proposed method.
temporal protein network; protein interaction; gene expression; biological network; protein complex identification
10.11918/j.issn.0367-6234.2016.11.007
2015-05-08
國(guó)家自然科學(xué)基金(91335112,61571163,61532014,61402132,61271346);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(DC201501030)
代啟國(guó)(1985—),男,講師; 郭茂祖(1966—),男,教授,博士生導(dǎo)師
郭茂祖,maozuguo@hit.edu.cn
TP391
A
0367-6234(2016)11-0041-06