潘玉亮,關(guān)佶紅+,姚 恒,石運佳,周水庚
1.同濟大學(xué) 電子與信息工程學(xué)院,上海201804
2.同濟大學(xué) 嵌入式系統(tǒng)與服務(wù)計算教育部重點實驗室,上海201804
3.復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海200433
4.復(fù)旦大學(xué) 上海市智能信息處理重點實驗室,上海200433
作為生命活動的物質(zhì)基礎(chǔ),蛋白質(zhì)(proteins)存在于所有的生物細胞中,參與了幾乎所有的生命活動過程。大多數(shù)蛋白質(zhì)不是單獨地行使生物學(xué)功能,而是通過與其他蛋白質(zhì)相互作用形成蛋白質(zhì)復(fù)合物(protein complexes)來完成。因此,蛋白質(zhì)復(fù)合物預(yù)測有助于更加深入地理解細胞的組成及其生命過程。
盡管一些生物實驗技術(shù),例如串聯(lián)親和純化與質(zhì)譜(TAP-MS)和酵母菌雙雜交技術(shù)(Y2H)可以直接探測蛋白質(zhì)復(fù)合物,但實驗結(jié)果不僅存在較高的假陽性和假陰性,而且還存在諸多弊端,譬如在串聯(lián)親和純化與質(zhì)譜實驗中,吸附性較低的蛋白質(zhì)在多次沖洗后很難再次被檢測到;由于非穩(wěn)態(tài)蛋白質(zhì)復(fù)合物中蛋白質(zhì)之間相互作用動態(tài)可變,實驗方法也很難檢測到;有些復(fù)合物的合成需要某種特定的生物環(huán)境,如果生物實驗方法無法模擬相應(yīng)的環(huán)境,則相應(yīng)復(fù)合物將不能被檢測到;由于蛋白質(zhì)相互作用發(fā)生的時間、空間等信息難以捕獲,這也將影響復(fù)合物檢測的準確性;生物實驗方法存在耗時長、成本高等問題,不能滿足后基因組時代相關(guān)研究的實際需要。
隨著高通量實驗技術(shù)的發(fā)展,蛋白質(zhì)相互作用(protein-protein interaction,PPI)數(shù)據(jù)日益增多,這使得通過計算方法預(yù)測蛋白質(zhì)復(fù)合物成為了可能。針對生物實驗技術(shù)中存在的諸多問題,計算方法逐漸被應(yīng)用到該領(lǐng)域。計算方法具有速度快、成本低等優(yōu)勢,可以在短時間內(nèi)預(yù)測一些高置信度的蛋白質(zhì)復(fù)合物,有效地彌補了生物實驗的不足。利用大量的蛋白質(zhì)相互作用數(shù)據(jù),可以構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI network,PIN)。其中,網(wǎng)絡(luò)中的節(jié)點表示蛋白質(zhì),節(jié)點之間的連接表示對應(yīng)蛋白質(zhì)之間的相互作用,進而可以通過復(fù)雜網(wǎng)絡(luò)理論和機器學(xué)習(xí)方法在PIN 上預(yù)測蛋白質(zhì)復(fù)合物。
目前,針對基于計算的蛋白質(zhì)復(fù)合物預(yù)測問題,國內(nèi)外已有大量相關(guān)研究。最初,人們將圖聚類算法應(yīng)用到PPI 網(wǎng)絡(luò)中,通過挖掘局部密集子圖來預(yù)測蛋白質(zhì)復(fù)合物。這種方法不僅簡單直觀,而且取得了較好的效果,但預(yù)測準確率有待提高。鑒于PPI網(wǎng)絡(luò)存在較高的假陰性、假陽性問題,不少研究開始使用網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征、蛋白質(zhì)功能、基因表達等信息為PPI 網(wǎng)絡(luò)進行加權(quán)以提升網(wǎng)絡(luò)的可靠性,進而提高蛋白質(zhì)復(fù)合物預(yù)測的準確性。另外,通過對已有蛋白質(zhì)復(fù)合物結(jié)構(gòu)的研究,人們發(fā)現(xiàn)復(fù)合物具有核心-附屬結(jié)構(gòu),因而提出了基于核心-附屬結(jié)構(gòu)的預(yù)測方法。部分研究者針對蛋白質(zhì)間互作的動態(tài)性,提出了基于動態(tài)網(wǎng)絡(luò)的預(yù)測方法。有些研究團隊利用已知的蛋白質(zhì)復(fù)合物作為先驗知識,提出基于監(jiān)督學(xué)習(xí)的算法。還有的研究者提出從功能到互作的研究思路,從新的角度預(yù)測蛋白質(zhì)復(fù)合物。
針對蛋白質(zhì)復(fù)合物預(yù)測問題,這些年來國內(nèi)外已有少量相關(guān)評述和比較研究,但這些工作未能系統(tǒng)地將該領(lǐng)域的方法進行有效歸類和指出該領(lǐng)域有待解決的問題。其中,Chen 等人的綜述對靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)到動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的復(fù)合物預(yù)測算法進行了總結(jié),但由于其發(fā)表時間較早,缺乏近些年的預(yù)測方法;Wu 等人的綜述雖然涉及比較多的復(fù)合物預(yù)測方法,但是對于這些方法的分類界限較為模糊,不能有效區(qū)分和總結(jié)所述算法;于楊的綜述只囊括了基于靜態(tài)網(wǎng)絡(luò)的復(fù)合物預(yù)測方法,沒有涵蓋基于動態(tài)網(wǎng)絡(luò)的方法;代啟國和郭茂祖的綜述涉及方法較少,且只關(guān)注于方法本身,未對性能評估指標和測試數(shù)據(jù)集進行介紹,也沒有進行主要方法的性能比較。總的來說,目前的綜述工作存在如下三方面的不足:第一,涵蓋方法較少,未能對該領(lǐng)域進行全面描述。第二,對已有方法的分類標準模糊,不能有效將各個方法按類別分開,無法為研究者提供清晰的領(lǐng)域視野。第三,由于每年都會有不少基于計算的蛋白質(zhì)復(fù)合物預(yù)測新算法發(fā)表,鑒于之前綜述涵蓋的方法已經(jīng)比較陳舊,因此有必要對該領(lǐng)域的方法進行全新的梳理和評述以及性能比較。
本文旨在對現(xiàn)有蛋白質(zhì)復(fù)合物預(yù)測方法進行綜述,除介紹各種方法的技術(shù)特點外,還對比、分析了各類方法的優(yōu)、缺點,并指出蛋白質(zhì)復(fù)合物預(yù)測中的一些挑戰(zhàn)和開放性問題。此外,利用酵母菌PPI 數(shù)據(jù),對一些代表性方法的性能進行了測試和比較分析。本文希望通過對現(xiàn)有方法的全面、深入的闡述與分析,為該領(lǐng)域的研究者和用戶在使用這些方法和開發(fā)新方法方面提供一些有價值的參考意見和方向指導(dǎo)。
蛋白質(zhì)復(fù)合物是一組在特定的時間和空間上通過彼此相互作用聚集在一起完成特定生物功能或生物過程的蛋白質(zhì)集合。因此,蛋白質(zhì)復(fù)合物對于生物體正常生命運轉(zhuǎn)有著至關(guān)重要的作用。常見的蛋白質(zhì)復(fù)合物有在轉(zhuǎn)錄過程中用于合成RNA 的RNA聚合酶和用于分子降解的蛋白酶體等。圖1 所示為新型冠狀病毒RNA 依賴的RNA 聚合酶(PDB ID:6M71),其作為新冠病毒轉(zhuǎn)錄復(fù)制的核心部件,被認為是重要的抗病毒藥物靶標,目前緊急獲批的瑞德西韋便是基于此靶標的抗病毒藥物。圖中的不同顏色代表不同的肽鏈,綠色、橘色、紫色和藍色分別代表復(fù)合物中的A 鏈、B 鏈、C 鏈和D 鏈,不同鏈之間通過相互作用構(gòu)成了蛋白質(zhì)復(fù)合物。
圖1 RNA 聚合酶復(fù)合物(PDB ID:6M71)Fig.1 RNA polymerase complex(PDB ID:6M71)
目前,檢測蛋白質(zhì)復(fù)合物的生物學(xué)方法主要包括串聯(lián)親和純化與質(zhì)譜技術(shù)和酵母菌雙雜交技術(shù)。下面,對這兩種生物方法作簡要介紹。
串聯(lián)親和純化與質(zhì)譜技術(shù)是當(dāng)前蛋白質(zhì)組學(xué)研究中的重要工具。其主要步驟是嵌入一段蛋白質(zhì)標記并導(dǎo)入目標蛋白質(zhì),在生理條件下與目標蛋白質(zhì)發(fā)生相互作用的蛋白質(zhì)就可以一起被洗脫下來,然后通過質(zhì)譜技術(shù)進行鑒定,如此便可以快速地得到生理條件下真實的蛋白質(zhì)復(fù)合物。
酵母菌雙雜交技術(shù)檢測蛋白質(zhì)復(fù)合物,首先是把已知編碼的蛋白質(zhì)DNA 序列連接到帶有轉(zhuǎn)錄調(diào)控因子DNA 的表達載體上;然后將導(dǎo)入的酵母菌細胞與報告基因上游的啟動調(diào)控區(qū)相結(jié)合作為“誘餌”蛋白質(zhì);接下來將已知編碼轉(zhuǎn)錄激活結(jié)構(gòu)域的DNA 與待篩選cDNA 文庫中的不同片段連接獲得“獵物”載體;最后激活報告基因表達并獲得蛋白質(zhì)復(fù)合物。
雖然可以在生物實驗中使用串聯(lián)親和純化與質(zhì)譜和酵母菌雙雜交等技術(shù)直接探測蛋白質(zhì)復(fù)合物,但實驗結(jié)果存在較嚴重的假陽性和假陰性。另外,由于實驗技術(shù)限制,部分蛋白質(zhì)復(fù)合物很難被檢測到,而且存在實驗耗時長、成本高等問題,無法滿足后基因組時代相關(guān)研究的實際需求。隨著高通量實驗方法的發(fā)展,全基因組蛋白質(zhì)相互作用數(shù)據(jù)日益增多,為通過計算方法來預(yù)測蛋白質(zhì)復(fù)合物創(chuàng)造了條件。
基于計算的方法預(yù)測蛋白質(zhì)復(fù)合物可以有效彌補生物實驗的不足,短時間內(nèi)可在大型生物網(wǎng)絡(luò)上預(yù)測出許多高置信度的蛋白質(zhì)復(fù)合物。在現(xiàn)有的計算方法中,通常用無向網(wǎng)絡(luò)來表示蛋白質(zhì)之間相互作用關(guān)系,記為=(,)。其中,表示蛋白質(zhì)相互作用網(wǎng)絡(luò),代表蛋白質(zhì)集合,代表蛋白質(zhì)之間相互作用集合。圖2 所示為酵母菌蛋白質(zhì)相互作用網(wǎng)絡(luò)?;谟嬎愕姆椒A(yù)測蛋白質(zhì)復(fù)合物,主要是利用網(wǎng)絡(luò)所包含的拓撲結(jié)構(gòu)和節(jié)點所包含的生物屬性為特征,采用聚類方法在PPI 網(wǎng)絡(luò)上挖掘密集子圖,將得到的密集子圖作為最終的蛋白質(zhì)復(fù)合物。結(jié)果表明,基于計算的方法對于分析PPI 網(wǎng)絡(luò)、預(yù)測蛋白質(zhì)復(fù)合物等效果顯著。
圖2 蛋白質(zhì)相互作用網(wǎng)絡(luò)Fig.2 Protein-protein interaction network
目前,國內(nèi)外研究學(xué)者已經(jīng)提出多種基于計算的蛋白質(zhì)復(fù)合物預(yù)測算法,本文將這些方法分為如下七類:基于局部密集子圖的預(yù)測算法、基于核心-附屬結(jié)構(gòu)的預(yù)測算法、基于動態(tài)網(wǎng)絡(luò)的預(yù)測算法、基于監(jiān)督學(xué)習(xí)的預(yù)測算法、從功能到互作的預(yù)測算法、基于多源數(shù)據(jù)的預(yù)測算法以及其他方法。下面對以上七類方法分別加以闡述。
在現(xiàn)有七類預(yù)測算法中,基于局部密集子圖的預(yù)測算法誕生最早且數(shù)量最多。由于大部分蛋白質(zhì)需要與其他蛋白質(zhì)通過相互作用形成復(fù)合物才能完成相應(yīng)的生物功能,復(fù)合物中的蛋白質(zhì)組對應(yīng)于相互作用網(wǎng)絡(luò)中聯(lián)系緊密的若干個節(jié)點,即局部密集子圖。同時,大量針對蛋白質(zhì)相互作用網(wǎng)絡(luò)的研究表明,蛋白質(zhì)相互作用網(wǎng)絡(luò)具有模塊性。從網(wǎng)絡(luò)拓撲結(jié)構(gòu)的角度來看,PPI 網(wǎng)絡(luò)中的模塊是由聯(lián)系緊密的蛋白質(zhì)構(gòu)成。從生物學(xué)的角度看,PPI 網(wǎng)絡(luò)中的模塊代表了共同執(zhí)行某項生物功能的蛋白質(zhì)集合。由此可以通過挖掘PPI 網(wǎng)絡(luò)中的模塊結(jié)構(gòu)(即密集子圖或子網(wǎng)絡(luò))來預(yù)測蛋白質(zhì)復(fù)合物。根據(jù)PPI 網(wǎng)絡(luò)中的邊是否加權(quán),可將基于局部密集子圖的方法大致分為兩類:基于非加權(quán)網(wǎng)絡(luò)的預(yù)測算法和基于加權(quán)網(wǎng)絡(luò)的預(yù)測算法。
2003 年Bader 和Hogue 提出的MCODE方法,作為早期預(yù)測蛋白質(zhì)復(fù)合物的計算方法之一,分三個步驟完成對蛋白質(zhì)復(fù)合物的預(yù)測。首先,通過計算節(jié)點的-core 值和局部子圖密度的乘積得到節(jié)點的局部鄰居密度。然后將密度值較大的節(jié)點選為種子節(jié)點,并從種子節(jié)點開始遍歷其鄰居節(jié)點并進行擴展,將滿足相應(yīng)閾值的節(jié)點依次加入當(dāng)前子圖中,直到子圖不再擴展即得到初期的蛋白質(zhì)復(fù)合物。當(dāng)復(fù)合物預(yù)測完成后,若網(wǎng)絡(luò)中還有未被處理的節(jié)點,則作為新的種子節(jié)點,重復(fù)上述過程。最后,MCODE為提升預(yù)測結(jié)果的準確性,對上述預(yù)測出的初期復(fù)合物進行相應(yīng)后處理操作。第一,將節(jié)點數(shù)少于2 的復(fù)合物直接移除。第二,對于候選復(fù)合物中每個節(jié)點,若其直接鄰居(包括節(jié)點)所構(gòu)成子圖的密度高于給定參數(shù),則的所有鄰居節(jié)點依次加入到當(dāng)前復(fù)合物中并生成最終的蛋白質(zhì)復(fù)合物。
基于網(wǎng)絡(luò)的聚類算法被應(yīng)用到蛋白質(zhì)相互作用網(wǎng)絡(luò)中以挖掘密集子圖作為蛋白質(zhì)復(fù)合物,例如,MCL算法通過在蛋白質(zhì)相互作用網(wǎng)絡(luò)上模擬隨機游走,進而提取密集子圖來預(yù)測蛋白質(zhì)復(fù)合物。隨機游走在PPI 網(wǎng)絡(luò)構(gòu)建的鄰接矩陣上迭代執(zhí)行“擴展”和“膨脹”兩個操作,使得PPI 網(wǎng)絡(luò)中原本密集的區(qū)域更加密集,原本稀疏的區(qū)域更加稀疏,從而將連接緊密的節(jié)點組作為復(fù)合物輸出。由于該算法直接進行矩陣運算,是一個快速且可擴展的聚類算法。
根據(jù)蛋白質(zhì)相互作用網(wǎng)絡(luò)的特點,基于代價函數(shù)來識別復(fù)合物的算法被提出。其中,Nepusz 等人提出的ClusterONE 算法,是近幾年提出的經(jīng)典算法之一。作者為評估當(dāng)前子圖構(gòu)成蛋白質(zhì)復(fù)合物的概率,定義一個有效的“緊密度”函數(shù)。此函數(shù)描述了蛋白質(zhì)復(fù)合物應(yīng)該滿足的兩個基本結(jié)構(gòu)特征:復(fù)合物內(nèi)部的節(jié)點之間應(yīng)該連接緊密;不同復(fù)合物之間的節(jié)點應(yīng)該連接稀疏?!熬o密度”函數(shù)定義如下:
其中,()代表子圖內(nèi)所有邊上權(quán)重之和,()表示當(dāng)前子圖與子圖外節(jié)點之間連邊的權(quán)重之和,對于非加權(quán)網(wǎng)絡(luò),即為邊數(shù)之和,最后()作為懲罰因子,用來模擬蛋白質(zhì)互作網(wǎng)絡(luò)中存在但未被發(fā)現(xiàn)的互作連邊的不確定性。ClusterONE 選取度數(shù)最高的節(jié)點作為種子節(jié)點向外擴展,但異于其他只增加節(jié)點的擴展方法,它會同時進行添加和刪除節(jié)點兩項操作,直到?jīng)]有節(jié)點再加入或離開當(dāng)前子圖為止,以保證當(dāng)前子圖“緊密度”函數(shù)值最優(yōu)。然后將未處理的節(jié)點中以度數(shù)最高的節(jié)點選作種子節(jié)點,重復(fù)以上步驟,直到所有節(jié)點被處理完。該算法不但可預(yù)測出具有重疊性質(zhì)的蛋白質(zhì)復(fù)合物,而且具有很高的預(yù)測準確性。同樣GraphEntropy也是采用代函數(shù),利用種子點增長策略找到圖熵值最小的子圖作為復(fù)合物輸出。
基于局部密集子圖以及復(fù)合物內(nèi)部節(jié)點間應(yīng)緊密連接的思想,“完全圖”的概念被應(yīng)用到蛋白質(zhì)復(fù)合物預(yù)測中。Clique算法分別通過窮舉法、超順磁性聚類和蒙特卡洛模擬三種方法從PPI 網(wǎng)絡(luò)中提取完全圖,按照一定規(guī)則對完全圖進行進一步的后處理,包括舍棄、合并和選擇等操作。Li 等人提出的LCMA 算法首先為每個蛋白質(zhì)節(jié)點找到局部完全圖,然后將其中重疊率高的子圖合并生成極大密集區(qū)域,從而得到蛋白質(zhì)復(fù)合物。CFinder算法首先從PPI 網(wǎng)絡(luò)中找到k-完全圖,然后通過合并所有相鄰的k-完全圖生成更大的子圖,以此預(yù)測蛋白質(zhì)復(fù)合物。
除以上算法外,針對局部密集子圖的算法層出不窮。其中包括大量從種子節(jié)點出發(fā),按照一定規(guī)則向外擴展的算法。如Ucar 等人提出的Hub Duplication 方法選取度數(shù)大于25 的蛋白質(zhì)節(jié)點作為Hub 蛋白質(zhì),并通過加入其鄰居節(jié)點建立密集子圖以生成滿足要求的蛋白質(zhì)復(fù)合物。SCAN算法將公共鄰居數(shù)大于給定閾值的兩個蛋白質(zhì)認為是結(jié)構(gòu)可達的,以結(jié)構(gòu)可達節(jié)點最多的節(jié)點作為種子節(jié)點向外擴展,逐步將結(jié)構(gòu)可達的鄰居節(jié)點納入聚簇。Zhang 等人提出從計算子圖中三節(jié)點連通圖個數(shù)的角度來評價局部子圖的聯(lián)通緊密性,借鑒ClusterONE 方法的思想,從度數(shù)最大的節(jié)點開始擴展,通過加入新節(jié)點、刪除內(nèi)部節(jié)點兩個方向的操作,使子圖緊密度最大化。Ren 等人考慮蛋白質(zhì)復(fù)合物可能存在低密度高模塊化或高密度低模塊化的情況,對子圖定義了一個新的適應(yīng)度函數(shù),同時提出了LF_PIN 算法,通過局部最大適應(yīng)度值來擴展種子邊,從而預(yù)測蛋白質(zhì)復(fù)合物。
此外,Navlakha 等人將原PPI 網(wǎng)絡(luò)壓縮成概要圖,并在其上進行蛋白質(zhì)復(fù)合物預(yù)測。Geva和Sharan提出的CODEC 方法使用質(zhì)譜實驗獲取的數(shù)據(jù)建立二分圖,節(jié)點集合分別為誘餌、靶標蛋白質(zhì)。CODEC算法先從靶標及其鄰居中尋找潛在的復(fù)合物組成,再通過增減節(jié)點最大化子圖得分獲得最終的預(yù)測結(jié)果。此外,Jia 等人提出基于Co-Graph 社區(qū)概念的復(fù)合物預(yù)測算法。Hu 等人針對具有重疊性質(zhì)的蛋白質(zhì)復(fù)合物,采用模糊聚類的算法進行預(yù)測。Rahman 等人定義了點到點的聚類值概念,公式如下:
非加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò)僅考慮蛋白質(zhì)間是否存在相互作用。但由于目前的生物實驗尚不完備,蛋白質(zhì)相互作用數(shù)據(jù)中其實存在著一定的假陽性和假陰性,以此構(gòu)建的非加權(quán)網(wǎng)絡(luò)置信度低。因此,部分研究通過將PPI 網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、基因表達數(shù)據(jù)、蛋白質(zhì)功能等信息對邊進行加權(quán),提高PPI 網(wǎng)絡(luò)的可靠性,并在此基礎(chǔ)上提出相應(yīng)的基于加權(quán)網(wǎng)絡(luò)的復(fù)合物預(yù)測算法。
早期加權(quán)網(wǎng)絡(luò)的構(gòu)建是通過計算存在相互作用的一對蛋白質(zhì)之間的公共鄰居數(shù)為其連邊加權(quán)。Altaf-Ul-Amin 等人提出的DPClus 算法根據(jù)節(jié)點對的公共鄰居數(shù)給節(jié)點對之間的邊賦值,節(jié)點的權(quán)重為鄰接邊的權(quán)重之和。DPClus 將權(quán)重最大的節(jié)點作為種子,使用聚簇屬性將鄰居節(jié)點中與之連接較為緊密的節(jié)點加入聚簇。另外,IPCA在DPClus 的基礎(chǔ)上做出改進,提出了一種新的拓撲結(jié)構(gòu)用于預(yù)測蛋白質(zhì)復(fù)合物。Liu 等人提出基于最大完全圖的聚類方法CMC,首先根據(jù)節(jié)點的公共鄰居數(shù)來衡量相應(yīng)邊的權(quán)重,并迭代修改此值,然后找到PPI 網(wǎng)絡(luò)中的完全圖并對邊權(quán)打分,最后根據(jù)分數(shù)對其合并生成復(fù)合物。MKE算法根據(jù)每對蛋白質(zhì)的公共鄰居數(shù)生成有向加權(quán)圖,首先選取度數(shù)較高的蛋白質(zhì)作為第一層核心,然后將權(quán)值均高于給定閾值的鄰居節(jié)點與第一層核心相連,生成第二層核心,最后通過繼續(xù)擴展,生成最終的蛋白質(zhì)復(fù)合物。Ni等人也利用蛋白質(zhì)對的公共鄰居數(shù)為邊加權(quán),提出了WN-PC方法來預(yù)測蛋白質(zhì)復(fù)合物。ProRank+應(yīng)用輪輻模型根據(jù)節(jié)點類型和重要性值生成團簇,然后根據(jù)內(nèi)聚性合并得到最終的蛋白質(zhì)復(fù)合物。SPICi基于復(fù)合物的加權(quán)密度和團簇大小定義閾值,采取和DPClus 類似的策略生成復(fù)合物,可以在大型的生物網(wǎng)絡(luò)上快速生成聚類結(jié)果。
近幾年,涌現(xiàn)出大量利用拓撲結(jié)構(gòu)特征構(gòu)建目標函數(shù),并利用遺傳算法進行蛋白質(zhì)復(fù)合物預(yù)測的算法。其中,Cao 等人提出的MOEPGA 算法,根據(jù)PPI 網(wǎng)絡(luò)的多種網(wǎng)絡(luò)拓撲特征構(gòu)造目標函數(shù),利用遺傳算法的三個主要步驟,種群初始化、子圖突變和子圖選擇,迭代計算,實現(xiàn)蛋白質(zhì)復(fù)合物的識別。此外,Arnau 等人根據(jù)兩個節(jié)點之間的最短路徑長度為其邊加權(quán)。Ma 等人重新定義高階邊聚類系數(shù)概念對網(wǎng)絡(luò)進行加權(quán),具體計算公式如下:
其中,(,)表示邊聚集系數(shù),Z表示節(jié)點、的共同鄰居。Li 等人利用蛋白質(zhì)間連接親和度構(gòu)建加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò),同時提出了CACE 算法進行蛋白質(zhì)復(fù)合物預(yù)測。Chua 等人提出的PCP 方法使用拓撲結(jié)構(gòu)來衡量PPI 網(wǎng)絡(luò)中互作的可信度,將可靠度較低的邊剔除并通過有效的完全圖發(fā)現(xiàn)算法來預(yù)測復(fù)合物。Friedel 等人使用Bootstrap 采樣法尋找復(fù)合物,首先從PPI 數(shù)據(jù)中做有放回的采樣,通過計算蛋白質(zhì)形成相互作用的傾向程度為邊加權(quán),并采用MCL 算法生成蛋白質(zhì)聚簇,根據(jù)多次聚類的結(jié)果建立“Bootstrap 網(wǎng)絡(luò)”,其中節(jié)點為蛋白質(zhì),各邊的權(quán)重由相鄰蛋白質(zhì)在同一個初步聚類結(jié)果中出現(xiàn)的次數(shù)計算得到,最后在此網(wǎng)絡(luò)中使用MCL 算法生成復(fù)合物。Wu 等人提出的idenPC-MIIP方法通過在有權(quán)網(wǎng)絡(luò)上定義相互重要性鄰居來改變原始網(wǎng)絡(luò)權(quán)重,進而采用貪心算法識別蛋白質(zhì)復(fù)合物。隨著圖神經(jīng)網(wǎng)絡(luò)的興起,PPI 網(wǎng)絡(luò)的拓撲結(jié)構(gòu)信息可以通過圖神經(jīng)網(wǎng)絡(luò)來獲得更為高階的信息。Yao 等人通過使用圖自編碼器重構(gòu)PPI 網(wǎng)絡(luò),并使用一些經(jīng)典的聚類算法在重構(gòu)后的PPI 網(wǎng)絡(luò)上識別蛋白質(zhì)復(fù)合物。實驗發(fā)現(xiàn),經(jīng)過圖自編碼器重構(gòu)后的PPI 網(wǎng)絡(luò)可以有效去除噪聲數(shù)據(jù),使預(yù)測結(jié)果更為準確。
一般來說,形成功能團的蛋白質(zhì)具有相同的基因表達。Feng 等人提出的圖分裂算法GFA 使用最密子圖算法找到PPI 網(wǎng)絡(luò)中密度最大的子圖。其中,子圖密度通過基因表達數(shù)據(jù)計算,同一子圖內(nèi)蛋白質(zhì)表達量之和越高則子圖密度越大。Maraziotis 等人提出的DMSP 算法首先對基因表達數(shù)據(jù)進行模糊聚類,兩個蛋白質(zhì)的相互作用可以通過它們到各自聚類中心的距離與兩個聚類中心的距離之和估計。DMSP 從種子節(jié)點開始聚類,通過加入它的直接、間接鄰居使聚類密度大于一定閾值來預(yù)測功能團。
一些預(yù)測蛋白質(zhì)復(fù)合物的方法通過借助基因表達數(shù)據(jù)來估計PPI網(wǎng)絡(luò)中邊的權(quán)重以提高準確率。Ulitsky 等人提出的MATISEE 算法使用基因表達數(shù)據(jù)的相關(guān)度來衡量一對蛋白質(zhì)的互作強度,并以此得到蛋白質(zhì)節(jié)點權(quán)重。聚類算法從種子節(jié)點開始,通過加入、刪除其鄰居節(jié)點找到子圖,并根據(jù)一定條件合并子圖得到最終的預(yù)測結(jié)果。Ou-Yang 等人提出的SGNMF方法則是利用基因表達數(shù)據(jù)構(gòu)建帶符號的PPI 網(wǎng)絡(luò),并在此基礎(chǔ)上預(yù)測復(fù)合物。SEDMTG由Wang 等人提出,其在網(wǎng)絡(luò)的權(quán)重上既考慮拓撲結(jié)構(gòu)也加入了Go 基因信息,最后的聚類算法采用高內(nèi)聚低耦合的思想設(shè)計代價函數(shù)來識別蛋白質(zhì)復(fù)合物。
蛋白質(zhì)功能也為蛋白質(zhì)復(fù)合物預(yù)測提供了重要的信息。King 等人提出的RNSC 算法從 一個隨機聚簇開始,啟發(fā)式地改變其中的節(jié)點使該聚簇滿足代價最小,再利用蛋白質(zhì)功能注釋數(shù)據(jù)評估聚簇是否為蛋白質(zhì)復(fù)合物。Lubovac等人提出的SWEMODE算法,首先計算兩個蛋白質(zhì)功能的語義相似度,公式如下:
其中,p(t,t)是t,t最小子集的概率,然后構(gòu)建加權(quán)網(wǎng)絡(luò),節(jié)點權(quán)重通過加權(quán)聚類系數(shù)以及最近鄰居數(shù)給出,最后使用與MCODE類似的聚類算法從加權(quán)網(wǎng)絡(luò)中識別蛋白質(zhì)復(fù)合物。Cho 等人首先根據(jù)功能相似度給邊加權(quán),節(jié)點的權(quán)重為其連邊權(quán)重之和。隨后采用流模擬算法,從信息量(即節(jié)點權(quán)重)較大的節(jié)點開始,向鄰居節(jié)點發(fā)散出模擬的流,流的影響會根據(jù)先后經(jīng)過節(jié)點的相似度逐步衰減,直到小于某一閾值時停止,由此將PPI 網(wǎng)絡(luò)分割成多個子圖。
一個蛋白質(zhì)互作界面上的重合區(qū)域可能會阻止多對蛋白質(zhì)同時作用,結(jié)合蛋白質(zhì)結(jié)構(gòu)域互作信息可以考察多對蛋白質(zhì)組合是兼容還是互斥。Jung等人首先使用了MCODE和LCMA兩種方法生成聚簇。從兩個結(jié)果集中排除可能有沖突的互作,得到并發(fā)蛋白質(zhì)互作集合。Will和Helms提出的基于結(jié)構(gòu)域的緊密優(yōu)化算法DACO 將蛋白質(zhì)相互作用與結(jié)構(gòu)域相互作用結(jié)合,在PPI 網(wǎng)絡(luò)中使用圖聚類算法預(yù)測蛋白質(zhì)復(fù)合物時,要求預(yù)測到的蛋白質(zhì)集合內(nèi)的蛋白質(zhì)間存在結(jié)構(gòu)域互作。Maruyama 等人提出 的PPSampler2-PIME 算 法,其 在PPSampler2 算 法基礎(chǔ)之上,加入相互排斥邊對的考慮。根據(jù)作者的假設(shè):一個蛋白質(zhì)復(fù)合物中的邊與邊之間不能存在相互排斥現(xiàn)象,并據(jù)此設(shè)計目標函數(shù),以此達到最優(yōu)目標。實驗結(jié)果表明,通過引入相互排斥邊對的思想能夠有效提升蛋白質(zhì)復(fù)合物預(yù)測準確度。
基于局部密集子圖的蛋白質(zhì)復(fù)合物預(yù)測方法簡單直觀,但是受網(wǎng)絡(luò)本身的噪聲影響較大,而且無法有效預(yù)測小復(fù)合物(蛋白質(zhì)數(shù)量<3)及內(nèi)部連接稀疏的復(fù)合物。
除了基于局部密集子圖的預(yù)測算法,研究學(xué)者通過研究已知復(fù)合物的內(nèi)部結(jié)構(gòu)特征,提出了基于核心-附屬結(jié)構(gòu)的預(yù)測算法。Gavin 等人通過研究酵母菌蛋白質(zhì)復(fù)合物的結(jié)構(gòu),發(fā)現(xiàn)每個復(fù)合物由兩部分組成:存在大量互作的蛋白質(zhì)集合構(gòu)成復(fù)合物的核心結(jié)構(gòu),與核心結(jié)構(gòu)相連接且相對稀疏的蛋白質(zhì)構(gòu)成附屬結(jié)構(gòu)。
Leung 等人提出的CORE 算法通過兩個蛋白之間以及它們與公共鄰居的互作情況計算出它們?yōu)橥粡?fù)合物的核心蛋白質(zhì)的概率,具體計算公式如下:
其中,、是節(jié)點、的度,(|,,)是節(jié)點、具有相互作用的概率,(|,,,)是節(jié)點、具有相互作用并且共同鄰居數(shù)為的概率。之后,通過合并大小為2、3 的核心集合以獲得更大的核心集合,直到整合條件不再滿足為止,以此構(gòu)成最終的復(fù)合物核心結(jié)構(gòu)。之后根據(jù)其他節(jié)點與核心蛋白質(zhì)的連接強度添加附屬蛋白質(zhì),形成最終的蛋白質(zhì)復(fù)合物。
Wu 等人提出的COACH 算法則根據(jù)蛋白質(zhì)及其鄰居節(jié)點在網(wǎng)絡(luò)中的重要性(權(quán)重大小)尋找核心蛋白質(zhì),再添加其連接的附屬蛋白質(zhì)。WCOACH算法在COACH 算法的基礎(chǔ)之上,通過GO 語義相似性對邊進行加權(quán),將其改進為可在加權(quán)網(wǎng)絡(luò)上進行復(fù)合物預(yù)測的新算法,預(yù)測結(jié)果顯示加權(quán)網(wǎng)絡(luò)的預(yù)測效果要好于非加權(quán)網(wǎng)絡(luò)。Peng 等人提出的WPNCA 算法,首先在加權(quán)PPI網(wǎng)絡(luò)中利用PageRank-Nibble 算法,將PPI 網(wǎng)絡(luò)劃分為多個連接緊密的子圖,然后在每個子圖中,通過基于核心-附屬結(jié)構(gòu)的思想來預(yù)測蛋白質(zhì)復(fù)合物分子。Luo 等人提出的動態(tài)核心-附屬結(jié)構(gòu)(DCA)算法,從動態(tài)PPI 網(wǎng)絡(luò)(DPN)中挖掘連接緊密且在多個動態(tài)子網(wǎng)絡(luò)中共同活躍的蛋白質(zhì)集合作為核心結(jié)構(gòu),進而通過向核心添加緊密連接的直接鄰居節(jié)點以構(gòu)成最終的復(fù)合物集合。Mehranfar等人提出采用區(qū)間二型模糊表決模型融合GO 注釋、基因表達等生物數(shù)據(jù),建立可靠性比較高的加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò),并基于核心-附屬結(jié)構(gòu)預(yù)測蛋白質(zhì)復(fù)合物。EWCA算法首先為蛋白質(zhì)網(wǎng)絡(luò)重新設(shè)置邊權(quán),然后基于結(jié)構(gòu)相似性識別復(fù)合物的核,隨后以核為基礎(chǔ)辨別附屬蛋白和外圍蛋白,最后將核心蛋白和附屬蛋白結(jié)合形成復(fù)合物。
基于核心-附屬結(jié)構(gòu)的預(yù)測方法從生物角度出發(fā),考慮了復(fù)合物的結(jié)構(gòu)特征,在一定程度上提升了蛋白質(zhì)復(fù)合物預(yù)測的準確性,但泛化能力差,因為不是所有復(fù)合物均滿足核心-附屬結(jié)構(gòu),例如,小復(fù)合物、稀疏復(fù)合物等依然無法被有效預(yù)測。
早期的預(yù)測算法多是從靜態(tài)PPI 網(wǎng)絡(luò)中預(yù)測蛋白質(zhì)復(fù)合物,但蛋白質(zhì)之間的相互作用是動態(tài)的且隨時間改變,因此在靜態(tài)PPI 網(wǎng)絡(luò)上預(yù)測將會限制預(yù)測的準確性。近幾年,基于動態(tài)網(wǎng)絡(luò)的預(yù)測算法越來越多,研究者將基因表達等時序信息加入到蛋白質(zhì)復(fù)合物預(yù)測工作中,利用時序等信息幫助識別PPI 網(wǎng)絡(luò)中的靜態(tài)互作和動態(tài)互作,通過建立靜態(tài)網(wǎng)絡(luò)、動態(tài)網(wǎng)絡(luò)等工作有效提升了復(fù)合物預(yù)測的準確性。由此可見,基于動態(tài)網(wǎng)絡(luò)的預(yù)測算法大有可為。
Tang 等人利用時序表達數(shù)據(jù)建立多個動態(tài)的蛋白質(zhì)互作網(wǎng)絡(luò),其中時序表達數(shù)據(jù)包含了每種基因產(chǎn)物在36 個測試時間段的表達量,以此表示各基因、蛋白質(zhì)在各時間段的活躍程度。首先,為獲得各時間段內(nèi)活躍的蛋白質(zhì),作者通過設(shè)定全局閾值來過濾表達量低的蛋白質(zhì),即在某時間段內(nèi)表達量高于該閾值的蛋白質(zhì)屬于活躍蛋白質(zhì),反之亦然。該步驟得到36 個蛋白質(zhì)集合,每個集合對應(yīng)該時間段內(nèi)所有活躍的蛋白質(zhì)。然后,若一對在靜態(tài)PPI 網(wǎng)絡(luò)中有連邊的蛋白質(zhì)在某一時間段內(nèi)共同活躍,那么它們將構(gòu)成相應(yīng)時序動態(tài)網(wǎng)絡(luò)的一條邊,以此類推可以構(gòu)建得到36 個時序網(wǎng)絡(luò)。最后,作者將多種經(jīng)典算法,如MCL、RNSC、MCODE 等分別在靜態(tài)網(wǎng)絡(luò)和時序動態(tài)網(wǎng)絡(luò)上做實驗,通過顯著性分析發(fā)現(xiàn),其建立的動態(tài)網(wǎng)絡(luò)比靜態(tài)網(wǎng)絡(luò)、隨機網(wǎng)絡(luò)更具有生物意義。
鑒于不同蛋白質(zhì)表達水平的差異性,用全局閾值來篩選活躍蛋白質(zhì)顯然不太合理?;诖?,Wang等人通過自定的three-sigma 模型,基于每種蛋白質(zhì)的表達曲線,為其計算屬于自己的活躍閾值。實驗結(jié)果表明,針對蛋白質(zhì)特異性構(gòu)造出的動態(tài)網(wǎng)絡(luò)較全局閾值構(gòu)造出的網(wǎng)絡(luò)能更好地反映蛋白質(zhì)互作網(wǎng)絡(luò)的生物意義,在復(fù)合物預(yù)測上也取得更好的預(yù)測效果。
Ou-Yang 等人使用基因表達數(shù)據(jù)識別瞬態(tài)、穩(wěn)態(tài)蛋白質(zhì)互作。使用不同時間的表達數(shù)據(jù)建立動態(tài)互作網(wǎng)絡(luò),運用概率模型從各動態(tài)網(wǎng)絡(luò)中預(yù)測動態(tài)蛋白質(zhì)復(fù)合物以及在各時刻都存在的穩(wěn)定蛋白質(zhì)復(fù)合物。Mucha等人通過計算、比較蛋白質(zhì)組合在靜態(tài)網(wǎng)絡(luò)內(nèi)、臨近動態(tài)網(wǎng)絡(luò)間、全部動態(tài)網(wǎng)絡(luò)間的連邊數(shù)量來預(yù)測蛋白質(zhì)復(fù)合物。Jin 等人在預(yù)測蛋白質(zhì)復(fù)合物時要求其在靜態(tài)圖中聯(lián)通,且組成同一復(fù)合物的蛋白質(zhì)在不同時刻的表達水平具有相關(guān)性。Shen 等人基于核心-附屬結(jié)構(gòu)在動態(tài)PPI 網(wǎng)絡(luò)上預(yù)測復(fù)合物。Zhang 等人使用基因表達數(shù)據(jù)、通過改良后的three-sigma 方法識別瞬態(tài)、穩(wěn)定的蛋白質(zhì)互作,計算蛋白質(zhì)活躍概率,并利用核心-附屬結(jié)構(gòu)預(yù)測復(fù)合物,計算公式如下:
其中,取值為1、2、3,()與()分別是基因的算法平均值和標準差,G()表示在時刻基因的表達值,Pr()表示在時刻基因的活躍概率。如果在時刻基因的表達值大于等于(),那么時刻基因的活躍概率就是0.99。Lei 等人也是使用three-sigma 方法識別瞬態(tài)、穩(wěn)定蛋白質(zhì)互作,建立動態(tài)互作網(wǎng)絡(luò),然后采用螢火蟲算法對馬爾科夫聚類相關(guān)參數(shù)進行優(yōu)化。另外,Lei 等人提出的TP-WDPIN 算法也是先利用three-sigma 模型構(gòu)建動態(tài)PPI 網(wǎng)絡(luò),然后在每個子網(wǎng)絡(luò)上基于拓撲勢等信息為蛋白質(zhì)節(jié)點加權(quán),通過選取權(quán)值較高的部分節(jié)點作為種子節(jié)點進行擴展來預(yù)測蛋白質(zhì)復(fù)合物。CPredictor4.0基于動態(tài)加權(quán)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)復(fù)合物,其在動態(tài)PPI 網(wǎng)絡(luò)上采用核心-附屬結(jié)構(gòu)的方式來尋找蛋白質(zhì)復(fù)合物,通過合并重合率較高的復(fù)合物得到最終的預(yù)測結(jié)果。另外,李敏和Chen 等人的蛋白質(zhì)復(fù)合物預(yù)測綜述也對動態(tài)PPI 網(wǎng)絡(luò)上的復(fù)合物預(yù)測做了比較全面的評述,可見基于動態(tài)網(wǎng)絡(luò)的蛋白質(zhì)互作網(wǎng)絡(luò)是個值得深入研究的方向。
動態(tài)PPI網(wǎng)絡(luò)相較于靜態(tài)PPI網(wǎng)絡(luò)能夠更加準確反映蛋白質(zhì)相互作用的動態(tài)特性,但是目前構(gòu)建動態(tài)PPI網(wǎng)絡(luò)的方法較少,仍有待進一步研究。
除了無監(jiān)督方法外,有些人提出基于監(jiān)督學(xué)習(xí)的復(fù)合物預(yù)測算法,其本質(zhì)是借助標準蛋白質(zhì)復(fù)合物集合中的信息來預(yù)測潛在的蛋白質(zhì)復(fù)合物。Qi等人將真實的蛋白質(zhì)復(fù)合物作為訓(xùn)練集,選取了生物及拓撲結(jié)構(gòu)作為特征,使用概率貝葉斯模型對從PPI 網(wǎng)絡(luò)中隨機生成的子圖進行分類,判斷其是否為復(fù)合物,再使用模擬退火算法對候選子圖進行修改以預(yù)測復(fù)合物。Shi 等人使用神經(jīng)網(wǎng)絡(luò),采用與Qi等人類似的策略進行復(fù)合物預(yù)測。為了能夠預(yù)測僅由2、3 個蛋白質(zhì)組成的小復(fù)合物,Yong 等人以真實復(fù)合物作為訓(xùn)練數(shù)據(jù),融合了互作數(shù)據(jù)、功能、文本信息以及拓撲結(jié)構(gòu)來計算特征,使用貝葉斯模型估計所有蛋白質(zhì)互作對組成的小復(fù)合物、大復(fù)合物以及非復(fù)合物成員的概率,再從中提取大小為2、3 的小復(fù)合物。Yu 等人構(gòu)建正、負、中三種樣本作為訓(xùn)練集,且分別為非加權(quán)、加權(quán)網(wǎng)絡(luò)選取多種特征,利用以上訓(xùn)練集與特征集訓(xùn)練回歸模型來判斷當(dāng)前子圖為蛋白質(zhì)復(fù)合物的概率,并通過Clique 算法初始化復(fù)合物集合,以回歸模型為基礎(chǔ),選擇性向當(dāng)前子圖添加鄰居節(jié)點以達到回歸模型值最優(yōu)。SLPC首先將生物文獻中提取的PPI數(shù)據(jù)與現(xiàn)有PPI數(shù)據(jù)集進行整合,然后剔除置信度較低的相互作用實現(xiàn)網(wǎng)絡(luò)重構(gòu),最后通過基于監(jiān)督學(xué)習(xí)的算法完成重構(gòu)PPI 網(wǎng)絡(luò)上的蛋白質(zhì)復(fù)合物預(yù)測。SIKARNDAR 等人提出的IoMT方法認為蛋白質(zhì)的氨基酸序列決定蛋白質(zhì)的形成且對預(yù)測蛋白質(zhì)間的相互作用性質(zhì)具有重要意義。因此,在預(yù)測蛋白質(zhì)復(fù)合物時不僅使用了拓撲特征還計算了氨基酸序列的生物學(xué)特征,即離散小波系數(shù)、長度和熵值。最后基于部分樹和非嵌套廣義樣本等關(guān)聯(lián)規(guī)則,訓(xùn)練監(jiān)督學(xué)習(xí)方法來識別蛋白質(zhì)復(fù)合物。
基于監(jiān)督學(xué)習(xí)的預(yù)測方法有別于非監(jiān)督學(xué)習(xí)算法,其充分利用已知復(fù)合物信息作為先驗知識,能有效預(yù)測蛋白質(zhì)復(fù)合物,尤其在小復(fù)合物、稀疏復(fù)合物的預(yù)測上貢獻很大。但該類方法受特征選取影響較大,目前選取可以充分描述蛋白質(zhì)復(fù)合物的生物特征還有待進一步研究。
與上述研究思路不同,Xu 等人提出的CPredictor系列算法,提出從功能到互作的研究新思路。CPredictor首先根據(jù)基因本體中的生物過程項計算蛋白質(zhì)之間的功能相似度,然后使用譜聚類算法從中獲取功能相似的蛋白質(zhì)聚簇,最后利用蛋白質(zhì)相互作用數(shù)據(jù)從中依次提取聯(lián)通子圖,并擴展、合并子圖得到蛋白質(zhì)復(fù)合物。其中,子圖擴展時,對每個提取的聯(lián)通子圖,統(tǒng)計其在原蛋白質(zhì)相互作用網(wǎng)絡(luò)中的鄰居與子圖中節(jié)點的連接數(shù)量,并通過設(shè)定參數(shù)控制子圖擴展。
針對基于密集子圖的預(yù)測算法難以預(yù)測小復(fù)合物,而少數(shù)預(yù)測小復(fù)合物的方法很難用于大復(fù)合物預(yù)測的問題,Xu 等人在CPredictor算法基礎(chǔ)上提出兼顧大小復(fù)合物的CPredictor 2.0 算法。該算法采用更直觀的FunCat(function catalogue)功能目錄對蛋白質(zhì)進行功能分組,然后根據(jù)蛋白質(zhì)相互作用信息在每一個分組內(nèi)建立相互作用子網(wǎng)絡(luò),最后使用馬爾科夫聚類算法從中獲取蛋白質(zhì)復(fù)合物。實驗表明,從功能到互作的預(yù)測算法在預(yù)測兼顧大、小復(fù)合物上取得了良好的效果。隨著圖嵌入的興起,Yao 等人利用圖嵌入方法加權(quán)蛋白質(zhì)互作網(wǎng)絡(luò),并融合蛋白質(zhì)的功能信息來預(yù)測復(fù)合物。
鑒于生物實驗自身的局限性,蛋白質(zhì)相互作用數(shù)據(jù)存在假陽性和假陰性的問題。為解決這一問題,同時提高蛋白質(zhì)相互作用網(wǎng)絡(luò)的置信度,研究者們開始通過融合PPI 數(shù)據(jù)和其他多種相關(guān)數(shù)據(jù)資源來彌補蛋白質(zhì)互作實驗中缺失的信息,例如基因表達數(shù)據(jù)、蛋白質(zhì)功能注釋、蛋白質(zhì)域及蛋白質(zhì)序列等。目前,大多數(shù)方法通過融合多源數(shù)據(jù)構(gòu)建加權(quán)網(wǎng)絡(luò),在加權(quán)網(wǎng)絡(luò)上進行蛋白質(zhì)復(fù)合物預(yù)測。
基因表達數(shù)據(jù)代表了不同時刻編碼蛋白質(zhì)的相關(guān)基因表達水平。文獻[79-82]等方法,通過融合PPI數(shù)據(jù)和基因表達數(shù)據(jù)構(gòu)建加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò),以基因表達數(shù)據(jù)的相關(guān)度衡量蛋白質(zhì)相互作用強度。文獻[22-23,105]等方法,利用基因表達數(shù)據(jù)構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),更加準確描述了蛋白質(zhì)的動態(tài)特性。蛋白質(zhì)復(fù)合物通常由功能相似的一組蛋白質(zhì)構(gòu)成,通過蛋白質(zhì)功能注釋數(shù)據(jù)計算蛋白質(zhì)功能相似性,以此作為網(wǎng)絡(luò)權(quán)值,在一定程度上提升了網(wǎng)絡(luò)置信度。Xu 等人利用功能注釋數(shù)據(jù)對蛋白質(zhì)進行聚類或分組,然后再預(yù)測蛋白質(zhì)復(fù)合物。Wu 等人提出的idenPC-CAP方法在RNA-蛋白質(zhì)相互作用的異質(zhì)網(wǎng)絡(luò)上進行蛋白質(zhì)復(fù)合物的識別,這樣可以有效消除蛋白質(zhì)互作網(wǎng)絡(luò)的假陽性,提高預(yù)測的準確率。融合多源數(shù)據(jù)提升了蛋白質(zhì)相互作用網(wǎng)絡(luò)置信度,也在一定程度上提高了蛋白質(zhì)復(fù)合物預(yù)測的準確率。
除了上述幾類預(yù)測算法外,還有一些其他的預(yù)測算法。例如,Sharan 等人基于不同物種中復(fù)合物的組成具有保守性這一發(fā)現(xiàn),通過建立釀酒酵母菌和幽門螺桿菌的同源圖來尋找共有的保守蛋白質(zhì)復(fù)合物。Wu 等人對傳統(tǒng)的聚類集成進行了擴展,提出了EnsemHC 框架進行蛋白質(zhì)復(fù)合物預(yù)測。首先,將不同聚類結(jié)果結(jié)合構(gòu)建共簇矩陣來描述每對蛋白質(zhì)是否屬于同一復(fù)合物;然后,利用迭代加權(quán)方法對共簇矩陣進行處理后得到一個集成矩陣;最后,對集成矩陣層次聚類得到蛋白質(zhì)復(fù)合物。
為了便于方法的復(fù)現(xiàn)及擴展,根據(jù)不同的類別將可獲得代碼鏈接的方法展示在表1 中??梢钥闯觯诰植棵芗訄D的方法擁有較多公開代碼,可為讀者提供思路和實踐上的參考。由于歸類于“其他預(yù)測算法”的工作較少且沒有可獲得的方法鏈接,并未在表中列出具體方法鏈接。
表1 蛋白質(zhì)復(fù)合物預(yù)測主要方法及其代碼鏈接匯總Table 1 Summary of main methods and source code for protein complex prediction
盡管基于計算的蛋白質(zhì)復(fù)合物預(yù)測已經(jīng)取得了顯著的進展,且各種預(yù)測方法層出不窮,但是仍然存在一些不足?;诰植棵芗訄D的預(yù)測算法簡單直觀,但是對于小復(fù)合物(蛋白質(zhì)數(shù)量不超過3)的預(yù)測結(jié)果有待提高,而且這類方法非常依賴蛋白質(zhì)相互作用數(shù)據(jù)的準確度,而現(xiàn)有數(shù)據(jù)中過高的假陰性、假陽性使得網(wǎng)絡(luò)置信度低,導(dǎo)致預(yù)測結(jié)果準確率不足?;诤诵?附屬結(jié)構(gòu)的預(yù)測算法從蛋白質(zhì)復(fù)合物自身的生物結(jié)構(gòu)特性出發(fā),在一定程度上提高了實驗的準確率,然而不是所有的復(fù)合物都具有核心-附屬結(jié)構(gòu),這類算法無法預(yù)測具有其他結(jié)構(gòu)的蛋白質(zhì)復(fù)合物,因此泛化能力較差?;趧討B(tài)網(wǎng)絡(luò)的預(yù)測算法是近年來一個大有可為的研究方向,但是目前工作比較少,現(xiàn)有的構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法也比較少,無法準確描述蛋白質(zhì)的動態(tài)特性?;诒O(jiān)督學(xué)習(xí)的預(yù)測算法主要利用已知的蛋白質(zhì)復(fù)合物及其相關(guān)的結(jié)構(gòu)特征來訓(xùn)練分類模型,對提取的蛋白質(zhì)相互作用網(wǎng)絡(luò)中的子圖候選項進行預(yù)測,因此這類方法受復(fù)合物的特征表示影響較大,尋找和篩選真正符合要求的特征也太過耗時費力。
本章將對蛋白質(zhì)復(fù)合物預(yù)測問題中所用到的評估準則、數(shù)據(jù)集進行介紹,并在此基礎(chǔ)上比較不同的算法在同一數(shù)據(jù)集下的預(yù)測結(jié)果,并對其結(jié)果進行分析。
在介紹評估準則之前,首先要得到預(yù)測的復(fù)合物與標準蛋白質(zhì)復(fù)合物的匹配程度。假設(shè)預(yù)測復(fù)合物標記為=(V,E),標準復(fù)合物記為=(V,E),那么兩個蛋白質(zhì)復(fù)合物的匹配度(overlapping score,OS)可以用下面的公式表示,其中代表復(fù)合物中的蛋白質(zhì),表示蛋白質(zhì)間的相互作用。公式中的分子代表兩個復(fù)合物中公共蛋白質(zhì)節(jié)點個數(shù)的平方,分母為兩個復(fù)合物中蛋白質(zhì)個數(shù)的乘積。
當(dāng)兩個蛋白質(zhì)復(fù)合物的匹配度(,)≥(閾值),就可認為二者是匹配的,反之亦然。常見的匹配度閾值選擇包括0.20 和0.25 兩種。
目前,評估蛋白質(zhì)復(fù)合物識別算法性能的指標有很多種,下面對其中一些常見指標進行詳細介紹。假設(shè)算法的預(yù)測結(jié)果集為={,,…,p},復(fù)合物的標準驗證集表示為={,,…,r}。召回率()反映了算法對真實蛋白質(zhì)復(fù)合物的預(yù)測覆蓋率,值越大,說明算法能夠預(yù)測出更多真實的蛋白質(zhì)復(fù)合物。
其中,N為與至少一個預(yù)測復(fù)合物匹配的真實復(fù)合物的個數(shù)。精準度()則反映了一個預(yù)測算法的預(yù)測結(jié)果的精度,值越高,預(yù)測結(jié)果的精度越高。
其中,N為與至少一個真實復(fù)合物匹配的預(yù)測復(fù)合物的個數(shù)。1 值(1-measure)是與的調(diào)和平均值,用來評估一個蛋白質(zhì)復(fù)合物預(yù)測算法的整體性能。
敏感度()用來評估實驗結(jié)果中包含的蛋白質(zhì)占標準復(fù)合物中所包含蛋白質(zhì)的比例。
其中,T表示第個標準復(fù)合物與第個預(yù)測復(fù)合物的公共蛋白質(zhì)數(shù)量,N表示第個標準復(fù)合物中蛋白質(zhì)的數(shù)量。
表示實驗結(jié)果中被正確預(yù)測的蛋白質(zhì)復(fù)合物所占的比例。
準確度()是和的幾何平均值,當(dāng)或者某一值低時,那么值也低。因此,值高時表示和值均比較高。
隨著實驗技術(shù)的發(fā)展和數(shù)據(jù)的積累,蛋白質(zhì)相互作用數(shù)據(jù)不斷增加。這里主要介紹蛋白質(zhì)復(fù)合物預(yù)測實驗中常用的數(shù)據(jù)庫及相關(guān)數(shù)據(jù)集。
STRING 數(shù)據(jù)庫是一個包含大量蛋白質(zhì)相互作用的數(shù)據(jù)庫,覆蓋了2 000 多個物種,不僅整合了已被實驗驗證的蛋白質(zhì)相互作用數(shù)據(jù),還包括了通過生物信息學(xué)方法預(yù)測得到的蛋白質(zhì)相互作用數(shù)據(jù)。
DIP 數(shù)據(jù)庫主要存儲經(jīng)過實驗驗證的蛋白質(zhì)相互作用數(shù)據(jù),包括蛋白質(zhì)信息、蛋白質(zhì)相互作用信息和描述預(yù)測蛋白質(zhì)相互作用的實驗技術(shù)細節(jié)三部分內(nèi)容。DIP 數(shù)據(jù)庫的主要數(shù)據(jù)來源是各種科學(xué)雜志和其他蛋白質(zhì)數(shù)據(jù)庫,是研究蛋白質(zhì)相互作用的主要數(shù)據(jù)庫之一。
BioGRID 數(shù)據(jù)庫收集的蛋白質(zhì)和遺傳相互作用數(shù)據(jù)主要來自酵母菌、果蠅和人等。BioGRID 數(shù)據(jù)庫的主要數(shù)據(jù)來源是文獻研究和其他高通量相互作用數(shù)據(jù)庫,其中每一條相互作用數(shù)據(jù)都包括實驗驗證編碼,并且可以鏈接到支持的出版期刊。目前,最新的版本4.2.192 中包含了1 997 840 個蛋白質(zhì)和基因相互作用。
IntAct 數(shù)據(jù)庫是一個開源的分子相互作用數(shù)據(jù)庫,由高質(zhì)量文獻或用戶直接提交的蛋白質(zhì)相互作用數(shù)據(jù)組成。到目前為止,IntAct 數(shù)據(jù)庫包含了來自22 037篇出版物的1 130 596個精選的相互作用。上述4 個數(shù)據(jù)庫的鏈接地址如表2 所示。
表2 蛋白質(zhì)相互作用數(shù)據(jù)庫Table 2 Protein-protein interaction databases
上述4 個數(shù)據(jù)庫中均涉及多個物種的蛋白質(zhì)相互作用數(shù)據(jù),但酵母菌中的蛋白質(zhì)復(fù)合物被研究得更為廣泛,下面對常見的酵母菌蛋白質(zhì)相互作用數(shù)據(jù)集進行詳細介紹。
在酵母菌蛋白質(zhì)復(fù)合物預(yù)測實驗中,數(shù)據(jù)集被分為蛋白質(zhì)互作數(shù)據(jù)集和標準復(fù)合物數(shù)據(jù)集。Gavin數(shù)據(jù)集、Krogan數(shù)據(jù)集和Collins數(shù)據(jù)集是常用的蛋白質(zhì)相互作用數(shù)據(jù)集。其中,Gavin 數(shù)據(jù)集可從BioGRID 數(shù)據(jù)庫下載,包含1 855 個蛋白質(zhì)和7 669個相互作用。該數(shù)據(jù)集是Gavin 等人通過親和純化與質(zhì)譜技術(shù)檢測蛋白質(zhì)相互作用得到的,過程中采用socio-affinity 指數(shù)計算兩個蛋白質(zhì)之間相互作用被檢測到的概率。Krogan 數(shù)據(jù)集可由BioGRID 數(shù)據(jù)庫進行下載,含2 674 個蛋白質(zhì)和7 075 個相互作用。該數(shù)據(jù)集是Krogan 等人使用LC-MS/MS 技術(shù)檢測蛋白質(zhì)相互作用,并借助機器學(xué)習(xí)的方法評估蛋白質(zhì)相互作用的可信度。Collins 數(shù)據(jù)集也可由BioGRID數(shù)據(jù)庫進行下載,其中包含1 622 個蛋白質(zhì),9 074 個相互作用。上述3 個酵母菌數(shù)據(jù)集的具體信息如表3所示。
表3 蛋白質(zhì)相互作用數(shù)據(jù)集Table 3 Protein-protein interaction data sets
除了之前介紹的蛋白質(zhì)相互作用數(shù)據(jù)集,蛋白質(zhì)的標準復(fù)合物數(shù)據(jù)集通常采用MIPS和CYC2008數(shù)據(jù)集。其中,MIPS 數(shù)據(jù)集是常用的蛋白質(zhì)功能注釋數(shù)據(jù)集,包含了313 個蛋白質(zhì)復(fù)合物。CYC2008 數(shù)據(jù)集包含349 個通過生物方法檢測得到的蛋白質(zhì)復(fù)合物,每個復(fù)合物包含2 個或2 個以上的蛋白質(zhì),具體信息如表4 所示。
表4 蛋白質(zhì)復(fù)合物數(shù)據(jù)集Table 4 Protein complex data sets
為了比較各類算法在不同數(shù)據(jù)集下的預(yù)測效果,本章選取了21 種經(jīng)典且常用的蛋白質(zhì)復(fù)合物識別算法,如MCODE、ClusterOne 和CPredictor 算法等,并對其結(jié)果進行了比較分析。
實驗中的蛋白質(zhì)相互作用數(shù)據(jù)采用Collins 和Gavin 數(shù)據(jù)集,將CYC2008 數(shù)據(jù)集作為標準復(fù)合物數(shù)據(jù)集。表5 和表6 顯示了不同算法在Collins 與Gavin相互作用數(shù)據(jù)集上預(yù)測蛋白質(zhì)復(fù)合物的基本情況,其中小復(fù)合物表示構(gòu)成復(fù)合物的蛋白質(zhì)數(shù)量不大于3,而包含3 個以上蛋白質(zhì)的復(fù)合物稱為大復(fù)合物。復(fù)合物平均大小是指預(yù)測復(fù)合物中所含蛋白質(zhì)數(shù)量的平均值。從表5 中可以明顯看出,CPredictor2.0 算法預(yù)測到的蛋白質(zhì)復(fù)合物數(shù)量最多(764 個),并且小復(fù)合物數(shù)量在所列方法中數(shù)量最多。主要是因為CPredictor2.0 通過對蛋白質(zhì)進行分組后再采用馬爾科夫聚類算法將每個蛋白質(zhì)聚類到復(fù)合物中,更有利于產(chǎn)生小規(guī)模團簇。另外,EWCA 算法得到大復(fù)合物數(shù)量最多(588 個),且復(fù)合物平均尺寸最大,達到了21.6。表6 顯示的是Gavin 數(shù)據(jù)集上各種方法預(yù)測復(fù)合物屬性的結(jié)果比較。Clique方法在Gavin 數(shù)據(jù)集上預(yù)測的復(fù)合物數(shù)量最多(1 148 個),并且大復(fù)合物數(shù)量也是所列方法中最多的,這主要是由于Clique算法是基于局部密集子圖識別蛋白質(zhì)復(fù)合物。該類算法傾向于將圖中的密集團簇預(yù)測為復(fù)合物,因此傾向于輸出較大體積的團簇。
表5 Collins數(shù)據(jù)集上各種方法預(yù)測結(jié)果中蛋白質(zhì)復(fù)合物的屬性比較Table 5 Attribute comparison of protein complexes for different computational methods on Collins data set
表6 Gavin 數(shù)據(jù)集上各種方法預(yù)測結(jié)果中蛋白質(zhì)復(fù)合物的屬性比較Table 6 Attribute comparison of protein complexes for different computational methods on Gavin data set
表7 是CYC2008 作為標準復(fù)合物數(shù)據(jù)集時,不同算法在Collins 和Gavin 數(shù)據(jù)集上性能比較結(jié)果,這里使用了召回率()、精確率()和1 值來評估預(yù)測結(jié)果。在Collins 數(shù)據(jù)集中,召回率最高的方法是CPredictor5.0,達到了0.60,說明CYC2008中許多蛋白質(zhì)復(fù)合物大部分都可以匹配到預(yù)測的復(fù)合物,因而在真實蛋白質(zhì)復(fù)合物集合中被正確預(yù)測出的復(fù)合物比例較高。CPredictor4.0 算法通過采用動態(tài)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)復(fù)合物,并在這些方法中精確率達到最高的0.73,并且1 值也最高為0.63。1 值主要得益于較高的召回率和精確率,說明其預(yù)測結(jié)果質(zhì)量很高,預(yù)測得到的復(fù)合物基本和標準集中的復(fù)合物相匹配。在Gavin 數(shù)據(jù)集中,IPCA 算法以0.54的召回率高居第一,同時,發(fā)現(xiàn)CPredictor3.0 與CPredictor5.0 算法的召回率同樣具有競爭力,而且CPredictor 算法預(yù)測的復(fù)合物數(shù)量遠小于IPCA 算法。在精確率與1 值上發(fā)現(xiàn)CPredictor4.0 取得了最優(yōu)結(jié)果,這與在Collins 數(shù)據(jù)集上的發(fā)現(xiàn)相一致,說明基于動態(tài)網(wǎng)絡(luò)和從功能到互作的預(yù)測算法相比于其他方法更為準確。
表7 CYC2008 標準庫上各種方法的蛋白質(zhì)復(fù)合物預(yù)測結(jié)果比較Table 7 Comparison of protein complex prediction results for various methods on CYC2008 standard set
綜合上述比較,可以發(fā)現(xiàn)各種算法都存在各自的優(yōu)勢及不足?;诰植棵芗訄D的算法更加傾向于輸出大復(fù)合物,但對于小復(fù)合物的預(yù)測不盡如人意;基于核心-附屬結(jié)構(gòu)的算法雖然解決了重疊蛋白質(zhì)的預(yù)測問題,但如何定義核心蛋白質(zhì)和附屬蛋白質(zhì)仍需要進一步研究;基于動態(tài)網(wǎng)絡(luò)的預(yù)測方法取得了較好的預(yù)測結(jié)果,主要是由于其在多個靜態(tài)網(wǎng)絡(luò)上進行復(fù)合物的預(yù)測,使得其結(jié)果更加魯棒;從結(jié)構(gòu)到互作的預(yù)測算法預(yù)測的復(fù)合物大、小比例更加接近,相比其他算法得到的復(fù)合物數(shù)量較少,而且預(yù)測結(jié)果較好。目前,各類方法既有自己的優(yōu)勢也存在自己的劣勢,因此基于計算的蛋白質(zhì)復(fù)合物預(yù)測算法仍存在很大的發(fā)展空間。
蛋白質(zhì)復(fù)合物預(yù)測作為計算生物學(xué)和生物信息學(xué)領(lǐng)域的重要課題已被廣泛關(guān)注。該問題的研究有助于了解生命科學(xué)中細胞的功能是如何實現(xiàn)的,從而幫助醫(yī)學(xué)人員了解復(fù)雜疾病的各個階段并最終找到治療方案。隨著高通量技術(shù)的發(fā)展,蛋白質(zhì)相互作用數(shù)據(jù)日益增多,使基于計算的蛋白質(zhì)復(fù)合物預(yù)測方法成為可能。本文對基于計算的蛋白質(zhì)復(fù)合物預(yù)測算法進行了分類評述與性能比較,將已有的基于計算的蛋白質(zhì)復(fù)合物預(yù)測方法大致分為如下七個類別:基于局部密集子圖的預(yù)測算法、基于核心-附屬結(jié)構(gòu)的預(yù)測算法、基于動態(tài)網(wǎng)絡(luò)的預(yù)測算法、基于監(jiān)督學(xué)習(xí)的預(yù)測算法、從功能到互作的預(yù)測算法、基于多源數(shù)據(jù)的預(yù)測算法和其他方法。需要指出的是,在已有文獻中,對于現(xiàn)有預(yù)測方法可能會有不同的分類體系,這里不作深究。另外,由于文獻眾多,力求對主要的工作進行評述,但難免掛一漏萬。
盡管基于計算的蛋白質(zhì)復(fù)合物預(yù)測已經(jīng)經(jīng)歷了十多年的發(fā)展,取得顯著的進展,但仍然存在諸多不足?;诿芗訄D挖掘的預(yù)測方法主要對較大(包含的蛋白質(zhì)個數(shù)>3)的復(fù)合物效果較好;基于核心-附屬結(jié)構(gòu)的方法只能發(fā)現(xiàn)一部分復(fù)合物,泛化能力較差;基于動態(tài)PPI 網(wǎng)絡(luò)的預(yù)測方法是一個大有可為的研究方向,但目前的工作還很少,有待深入研究;基于監(jiān)督學(xué)習(xí)的方法受復(fù)合物表達屬性影響很大,而且很難尋找到真正符合蛋白質(zhì)復(fù)合物生物性質(zhì)的屬性,預(yù)測效果不盡如意。從高通量實驗獲得的蛋白質(zhì)互作本身可靠度較低,有大量的假陽性、假陰性存在,在這樣的數(shù)據(jù)上進行檢測,即便是結(jié)合了像互作網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征、基因表達數(shù)據(jù)、蛋白質(zhì)功能和蛋白質(zhì)域等某一類信息,也并不能取得令人滿意的效果,這方面也需要進一步的探索。未來的研究可以從以下幾個方面展開:
(1)具有重疊性質(zhì)的蛋白質(zhì)復(fù)合物預(yù)測
通常,一個蛋白質(zhì)具有多種功能,即參與到不同的蛋白質(zhì)復(fù)合物中。在PPI 網(wǎng)絡(luò)中,這些存在相同蛋白質(zhì)的復(fù)合物表現(xiàn)為具有重疊性質(zhì)的復(fù)合物。這些復(fù)合物可能形成于不同的細胞周期,出現(xiàn)在不同的位置,即使同時出現(xiàn),它們?nèi)詫儆趩为毜膫€體,即重疊復(fù)合物中的共有蛋白質(zhì)與不同復(fù)合物中的連邊不可同時出現(xiàn)。但是在靜態(tài)PPI 網(wǎng)絡(luò)中,這些信息并未被反映,因此如何有效預(yù)測出這些具有重疊性質(zhì)的復(fù)合物,有待進一步研究。
針對以上問題,研究者們利用結(jié)構(gòu)域(DDI)信息為互作信息構(gòu)建兼容、互斥數(shù)據(jù),并假設(shè)一個蛋白質(zhì)復(fù)合物中的邊與邊之間不能存在相互排斥現(xiàn)象。Ozawa 等人在原有經(jīng)典算法MCL 和MCODE 的實驗結(jié)果上,利用以上假設(shè)對實驗結(jié)果進行優(yōu)化,剔除復(fù)合物中具有互斥關(guān)系的邊。另外,Jung 等人利用結(jié)構(gòu)域信息將PPI 網(wǎng)絡(luò)劃分為多個子網(wǎng)絡(luò),其中每個子網(wǎng)絡(luò)中只包含沒有互斥關(guān)系的互作。由于復(fù)合物的形成要求其中的蛋白質(zhì)同時同地活躍,Liu 等人利用細胞定位基因本體術(shù)語對蛋白質(zhì)互作網(wǎng)絡(luò)進行劃分,其中每個子網(wǎng)絡(luò)中的蛋白質(zhì)出現(xiàn)在同一細胞空間。實驗結(jié)果表明,這些方法相較于其他方法提升了預(yù)測準確率,但是仍需要進一步的研究。
(2)稀疏性復(fù)合物的預(yù)測
目前,大部分預(yù)測算法以預(yù)測PPI 網(wǎng)絡(luò)中的密集子圖為出發(fā)點,進行蛋白質(zhì)復(fù)合物的預(yù)測。但是很多內(nèi)部連接稀疏的復(fù)合物不能被有效預(yù)測,加之PPI網(wǎng)絡(luò)的高假陰性,導(dǎo)致網(wǎng)絡(luò)中重要互作信息的缺失,這也為預(yù)測稀疏復(fù)合物增加了難度。PPI 網(wǎng)絡(luò)中互作信息的缺失源于多個方面。首先,某些在特定生物環(huán)境中才出現(xiàn)的互作信息,在生物實驗條件有限的情況下很容易被漏檢。其次,譬如在串聯(lián)親和純化與質(zhì)譜實驗中,吸附性較低的蛋白質(zhì)在多次沖洗后很難再被預(yù)測到。因此,基于不完整的互作網(wǎng)絡(luò)預(yù)測稀疏性復(fù)合物仍然是個挑戰(zhàn)。
鑒于以上問題,Srihari 等人在現(xiàn)有預(yù)測復(fù)合物方法的基礎(chǔ)上,結(jié)合蛋白質(zhì)功能等信息向初始復(fù)合物中添加具有強功能相似性的蛋白質(zhì)互作以幫助識別稀疏復(fù)合物,雖然在一定程度上提升了稀疏性復(fù)合物預(yù)測的準確性,但是并未取得令人滿意的效果,因此這方面還需進一步的探索。
(3)兼顧大、小復(fù)合物的預(yù)測
由2、3 個蛋白質(zhì)組成的復(fù)合物被稱為小復(fù)合物,研究表明,蛋白質(zhì)復(fù)合物大小的分布遵循冪律分布,即小復(fù)合物占據(jù)很大一部分比例。以目前較成熟的復(fù)合物參照集CYC2008 和MIPS 為例,小復(fù)合物的數(shù)量分別占總數(shù)的37.7%與63.6%。由此可見,小復(fù)合物的預(yù)測對于提升復(fù)合物預(yù)測的準確性至關(guān)重要。
目前,基于局部密集子圖的預(yù)測算法一般通過預(yù)測完全聯(lián)通子圖的方法預(yù)測小復(fù)合物,但是預(yù)測結(jié)果中假陽性很高,因此很難準確預(yù)測小復(fù)合物。此外,PPI 網(wǎng)絡(luò)的高假陰性導(dǎo)致互作信息的缺失,僅擁有較少連邊的小復(fù)合物預(yù)測依然極具挑戰(zhàn)。
針對這個問題,Yong 等人提出基于監(jiān)督學(xué)習(xí)的SSS 算法。通過選取互作數(shù)據(jù)、功能、文本信息以及拓撲結(jié)構(gòu)等多種數(shù)據(jù)設(shè)計特征向量,利用現(xiàn)有復(fù)合物參照集構(gòu)建分類模型來預(yù)測任意兩個蛋白質(zhì)屬于同一小復(fù)合物概率。Xu 等人提出的CPredictor2.0算法為小復(fù)合物的預(yù)測提供了新的思路。該方法認為復(fù)合物是完成某一生物功能的蛋白質(zhì)集合,因此依據(jù)功能信息將蛋白質(zhì)進行分組,將相同功能的蛋白質(zhì)分為一組,而沒有相同功能的蛋白質(zhì)被分離。通過使用功能對蛋白質(zhì)進行分組不僅更加直觀、快速、準確,而且得到的復(fù)合物也更具有生物意義。上述兩個方法在預(yù)測小復(fù)合物方面略優(yōu)于現(xiàn)存的其他方法,但是針對小復(fù)合物預(yù)測的工作還比較少,未來復(fù)合物預(yù)測方法可以從兼顧不同大小的蛋白質(zhì)復(fù)合物方向進行改進。
(4)動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建
細胞作為生物體的基本結(jié)構(gòu)和功能單位,具有高度的動態(tài)性和對環(huán)境刺激的響應(yīng)。同時,蛋白質(zhì)也隨著細胞周期的變化而不斷變化。相較于靜態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò),動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)能夠更加準確地描述蛋白質(zhì)相互作用的動態(tài)特性。然而目前構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的主要方法就是利用基因表達數(shù)據(jù),基于three-sigma 準則,根據(jù)蛋白質(zhì)在不同時刻的活躍狀態(tài)將靜態(tài)相互作用網(wǎng)絡(luò)劃分為動態(tài)的蛋白質(zhì)相互作用網(wǎng)絡(luò)。但是這種方法未充分考慮到某些處于活躍狀態(tài)的蛋白質(zhì)其基因表達值低的情況,因此如何有效構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)仍是一個研究熱點。
(5)基于深度學(xué)習(xí)算法的蛋白質(zhì)復(fù)合物預(yù)測
隨著深度學(xué)習(xí)在圖像領(lǐng)域的成功應(yīng)用,深度學(xué)習(xí)算法已被運用到了各行各業(yè)。近期,谷歌旗下DeepMind 團隊推出的Alphafold2,運用深度學(xué)習(xí)算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測上達到了可與生物實驗相匹敵的準確度,改變了人們對計算生物學(xué)的認知。而在蛋白質(zhì)復(fù)合物預(yù)測領(lǐng)域,基于深度學(xué)習(xí)算法預(yù)測蛋白質(zhì)復(fù)合物的方法還很少。目前主要是運用圖嵌入方法,如node2vec、圖自編碼器等算法,根據(jù)PPI網(wǎng)絡(luò)拓撲結(jié)構(gòu)為網(wǎng)絡(luò)中的每個節(jié)點計算特征,然后對PPI 網(wǎng)絡(luò)進行降噪處理,以此提高網(wǎng)絡(luò)質(zhì)量,進而為后期的相關(guān)聚類算法服務(wù)。這些方法都是將深度學(xué)習(xí)算法作為復(fù)合物預(yù)測的其中一步,并未完全基于深度學(xué)習(xí)算法端到端地輸出蛋白質(zhì)復(fù)合物。因此,將來可望針對蛋白質(zhì)復(fù)合物預(yù)測開發(fā)一套深度學(xué)習(xí)模型,用戶只需要輸入PPI 網(wǎng)絡(luò)即可得到較好的預(yù)測結(jié)果。
(6)蛋白質(zhì)復(fù)合物在線預(yù)測平臺
在線預(yù)測平臺的開發(fā)是生物信息學(xué)的重要研究內(nèi)容,目前蛋白質(zhì)復(fù)合物預(yù)測算法越來越多,但是缺少一個高效且直觀的在線預(yù)測平臺。未來可以融合多種公開數(shù)據(jù)資源,部署高性能計算模型,構(gòu)建蛋白質(zhì)復(fù)合物在線預(yù)測的平臺。