王曉旭,劉曉霞
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
蛋白質(zhì)作為生命的物質(zhì)基礎(chǔ),在細(xì)胞的生命活動中發(fā)揮著關(guān)鍵作用。由于蛋白質(zhì)并不是單獨(dú)作用,而是與其他蛋白質(zhì)一起形成復(fù)合物。因此,識別蛋白質(zhì)復(fù)合物對全面了解細(xì)胞組成和生命過程具有重要意義。雖然蛋白質(zhì)復(fù)合物的識別方法有很多,如串聯(lián)親和純化(TAP)和質(zhì)譜法可以直接識別蛋白質(zhì)復(fù)合物,但這種實(shí)驗(yàn)方法要耗費(fèi)大量的人力資源,因此如何快速、高效地從蛋白質(zhì)相互作用網(wǎng)絡(luò)中識別蛋白質(zhì)復(fù)合物成為了關(guān)鍵性問題。
近年來,隨著高通量技術(shù)的快速發(fā)展,產(chǎn)生了大量的蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)數(shù)據(jù)[1]。這使得利用計(jì)算方法從蛋白質(zhì)關(guān)系網(wǎng)絡(luò)中識別蛋白質(zhì)復(fù)合物成為可能。到目前為止,研究者提出了許多識別蛋白質(zhì)復(fù)合物的計(jì)算方法。我們可以將這些方法分為無監(jiān)督學(xué)習(xí)算法和監(jiān)督學(xué)習(xí)算法。無監(jiān)督學(xué)習(xí)算法是基于預(yù)先定義的規(guī)則來預(yù)測蛋白質(zhì)復(fù)合物的方法。大多數(shù)的無監(jiān)督學(xué)習(xí)方法都是利用PPI網(wǎng)絡(luò)的拓?fù)湫畔⒆R別蛋白質(zhì)復(fù)合物,然而PPI網(wǎng)絡(luò)中存在大量的假陰性和假陽性數(shù)據(jù),使其不能獲得令人滿意的結(jié)果。監(jiān)督學(xué)習(xí)算法是充分利用已知復(fù)合物進(jìn)行訓(xùn)練并預(yù)測蛋白質(zhì)復(fù)合物的方法。雖然現(xiàn)在的蛋白質(zhì)復(fù)合物研究中存在大量的已知復(fù)合物,但仍有許多蛋白質(zhì)復(fù)合物未被發(fā)現(xiàn),如何從有限的已知復(fù)合物中獲取充足的信息是監(jiān)督學(xué)習(xí)算法的關(guān)鍵問題。
本文提出了基于已知蛋白質(zhì)復(fù)合物拓?fù)湫畔⒑捅O(jiān)督學(xué)習(xí)的蛋白質(zhì)復(fù)合物識別算法(Protein Complex by Supervised Learning,NOBEL)。我們利用GO注釋和拓?fù)湫畔PI網(wǎng)絡(luò)加權(quán),并從加權(quán)網(wǎng)絡(luò)和未加權(quán)網(wǎng)絡(luò)中提取已知蛋白質(zhì)復(fù)合物豐富的拓?fù)湫畔⒆鳛樘卣?。通過這些特征來訓(xùn)練模型,然后將訓(xùn)練后的模型應(yīng)用于完全子圖的過濾、擴(kuò)張和候選復(fù)合物的合并,得到最終預(yù)測的蛋白質(zhì)復(fù)合物。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有蛋白質(zhì)復(fù)合物識別方法相比,我們的方法能有效提高蛋白質(zhì)復(fù)合物識別的性能。
本文組織結(jié)構(gòu)如下:第1節(jié)介紹國內(nèi)外研究現(xiàn)狀以及和本文研究相關(guān)的工作;第2節(jié)對本文提出的蛋白質(zhì)復(fù)合物識別算法NOBEL進(jìn)行詳細(xì)說明;第3節(jié)是實(shí)驗(yàn)驗(yàn)證和實(shí)驗(yàn)結(jié)果分析;第4節(jié)是論文總結(jié)和下一步工作展望。
蛋白質(zhì)相互作用網(wǎng)絡(luò)通常被描述為一個無向圖,其中,節(jié)點(diǎn)表示蛋白質(zhì),邊表示為蛋白質(zhì)間的相互作用。而蛋白質(zhì)復(fù)合物通常對應(yīng)于PPI網(wǎng)絡(luò)中的稠密子圖,這使得研究人員可以運(yùn)用PPI網(wǎng)絡(luò)的拓?fù)涮匦宰R別蛋白質(zhì)復(fù)合物。MCODE[2]是被提出最早的蛋白質(zhì)復(fù)合物識別算法之一。其首先為節(jié)點(diǎn)加權(quán),并選擇權(quán)重最高的節(jié)點(diǎn)作為種子節(jié)點(diǎn);然后,迭代的選擇其鄰居節(jié)點(diǎn)來擴(kuò)張種子節(jié)點(diǎn),形成候選復(fù)合物。ClusterONE[3]是一種新的衡量子圖的內(nèi)聚性的計(jì)算方法,它選擇度較高的節(jié)點(diǎn)作為種子節(jié)點(diǎn),然后使用貪婪算法擴(kuò)展種子節(jié)點(diǎn),使子圖獲得更高的內(nèi)聚性,直到?jīng)]有種子節(jié)點(diǎn)。SE-DMTG[4]通過公共鄰居和GO注釋為節(jié)點(diǎn)加權(quán)并排序,然后選擇權(quán)重最高的節(jié)點(diǎn)為種子節(jié)點(diǎn),并應(yīng)用迭代貪婪搜索擴(kuò)展種子節(jié)點(diǎn)生成蛋白質(zhì)復(fù)合物。HGCA[5]根據(jù)聚類系數(shù)和節(jié)點(diǎn)度提出了一種新的節(jié)點(diǎn)度量方法來量化節(jié)點(diǎn)的重要性,然后選擇權(quán)重最高的節(jié)點(diǎn)為種子節(jié)點(diǎn),并通過聚類模型擴(kuò)張種子節(jié)點(diǎn),形成最終復(fù)合物。
CMC[6]是基于最大子圖的蛋白質(zhì)復(fù)合物識別算法。它首先為PPI網(wǎng)絡(luò)加權(quán),然后從加權(quán)網(wǎng)絡(luò)中搜索最大子圖,并計(jì)算子圖加權(quán)密度,合并高重合的子圖形成蛋白質(zhì)復(fù)合物。COACH[7]是一種經(jīng)典的核心節(jié)點(diǎn)—附著結(jié)構(gòu)的蛋白質(zhì)復(fù)合物識別算法。它首先識別小的密集子圖,再通過合并這些密集子圖生成核心節(jié)點(diǎn),然后將附著蛋白連接到核心。Meng等人提出了DPC-HCNE[8]算法,它首先通過啟發(fā)式的分層壓縮將PPI網(wǎng)絡(luò)壓縮成更小的PPI網(wǎng)絡(luò)。然后應(yīng)用網(wǎng)絡(luò)嵌入算法DeepWalk構(gòu)建加權(quán)PPI網(wǎng)絡(luò),最后采用核連接聚類方法識別蛋白質(zhì)復(fù)合物。Xu等人提出了CPredictor2.0[9]算法,它首先將功能相似的蛋白質(zhì)分組,然后利用馬爾可夫聚類算法對各組進(jìn)行聚類分析,并合并重疊的蛋白質(zhì)復(fù)合物。Wang等人提出了EWCA[10]算法,它利用節(jié)點(diǎn)與其鄰域的結(jié)構(gòu)相似性來確定核心。另外,它提出了一種新的識別附著蛋白的方法,將附著蛋白加入相應(yīng)的核心形成蛋白質(zhì)復(fù)合物。GANE[11]算法利用團(tuán)挖掘方法生成候選核心,然后從候選核心中選出種子核心。如果蛋白質(zhì)與種子核心的連接程度超過閾值,則把該蛋白質(zhì)作為附著蛋白加入核心得到蛋白質(zhì)復(fù)合物。
在現(xiàn)今的蛋白質(zhì)復(fù)合物研究中,已經(jīng)存在了大量的已知蛋白質(zhì)復(fù)合物。監(jiān)督學(xué)習(xí)方法可以利用已知蛋白質(zhì)復(fù)合物的信息識別新的蛋白質(zhì)復(fù)合物。Yu等人提出了SLPC[12]方法,該方法首先由加權(quán)和未加權(quán)網(wǎng)絡(luò)得到蛋白質(zhì)復(fù)合物的特征并訓(xùn)練邏輯回歸模型;然后從PPI網(wǎng)絡(luò)中發(fā)現(xiàn)最大子圖作為核心,并使用模型為核心添加附屬節(jié)點(diǎn)得到蛋白質(zhì)復(fù)合物。Zhu[13]等人提出了一種半監(jiān)督的網(wǎng)絡(luò)嵌入模型,它首先選擇關(guān)鍵鄰域節(jié)點(diǎn)為頂點(diǎn)屬性并得到頂點(diǎn)的一階近似,然后它設(shè)計(jì)三層GCN計(jì)算頂點(diǎn)的二階近似,最后優(yōu)化一階近似和二階近似得到模型并利用模型識別蛋白質(zhì)復(fù)合物。Liu[14]等人提出了一種基于網(wǎng)絡(luò)嵌入的監(jiān)督學(xué)習(xí)方法,它首先從PPI網(wǎng)絡(luò)中獲得節(jié)點(diǎn)嵌入并構(gòu)建加權(quán)PPI網(wǎng)絡(luò),然后采用監(jiān)督學(xué)習(xí)方法識別蛋白質(zhì)復(fù)合物,最后利用隨機(jī)森林模型篩選候選復(fù)合物。Xu等人提出了XGBP[15]方法,它首先提取蛋白質(zhì)復(fù)合物的拓?fù)湫畔⒆鳛樘卣鞑⒂?xùn)練XGBoost模型,然后從PPI網(wǎng)絡(luò)中選取種子節(jié)點(diǎn),并運(yùn)用貪心算法擴(kuò)展種子節(jié)點(diǎn)得到候選蛋白質(zhì)復(fù)合物,最后應(yīng)用XGBoost[16]模型對候選蛋白質(zhì)復(fù)合物分類。Faridoon[17]等人將支持向量機(jī)與ECOC算法結(jié)合,以氨基酸的物理性質(zhì)和各種拓?fù)湫畔⒆鳛樘卣鳎瑥腜PI網(wǎng)絡(luò)中識別蛋白質(zhì)復(fù)合物。
本節(jié)將詳細(xì)介紹我們提出的蛋白質(zhì)復(fù)合物識別算法NOBEL。NOBEL包含四個部分:①網(wǎng)絡(luò)加權(quán); ②復(fù)合物特征; ③訓(xùn)練模型; ④蛋白質(zhì)復(fù)合物識別。
本文結(jié)合蛋白質(zhì)的生物信息和PPI網(wǎng)絡(luò)的拓?fù)湫畔ⅲ瑏砗饬康鞍踪|(zhì)間的可信程度,進(jìn)而構(gòu)建帶權(quán)重的PPI網(wǎng)絡(luò)。為了計(jì)算蛋白質(zhì)間的拓?fù)湎嗨菩?,我們引入了Wang[10]等人提出的基于Jaccard相似系數(shù)的相似性度量HOCN。兩個相鄰蛋白質(zhì)v和u的Jaccard相似系數(shù)定義如式(1)所示。
(1)
其中,N(v)和N(u)分別表示v和u的鄰接點(diǎn)集合,N(v)∪N(u)表示v和u的鄰接點(diǎn)的并集,CN(v,u)表示v和u的公共鄰接點(diǎn)集合,即N(v)∩N(u)。|N(v)∩N(u)|表示v和u的公共鄰接點(diǎn)的個數(shù),|N(v)∪N(u)|表示v和u鄰接點(diǎn)并集的個數(shù)。
HOCN的定義如式(2)所示。
HOCN(v,u)
(2)
蛋白質(zhì)v和蛋白質(zhì)u的拓?fù)湎嗨菩赃€與它們公共鄰域與邊(v,u)的連接程度有關(guān)。公共鄰域與邊(v,u)的連接程度定義為CNS,如式(3)、式(4)所示。
JCS*=JCS(v,w)*JCS(w,u)
(3)
(4)
基因本體GO包含描述基因和蛋白質(zhì)的生物學(xué)術(shù)語。GO中最基本的概念是術(shù)語(Term),本文根據(jù)GO術(shù)語的數(shù)量和GO術(shù)語注釋蛋白質(zhì)的個數(shù)計(jì)算蛋白質(zhì)間的生物相似性。蛋白質(zhì)v和u的生物相似性sim(v,u),如式(5)所示。
(5)
其中,C(v,u)表示蛋白質(zhì)v和u被相同的GO術(shù)語標(biāo)注的GO術(shù)語集合。Si(v,u)(1?i?n)表示在蛋白質(zhì)v和u共同擁有的GO術(shù)語中,每個GO術(shù)語標(biāo)注的蛋白質(zhì)的集合。Smax表示在所有的GO術(shù)語中,一個GO術(shù)語標(biāo)注的蛋白質(zhì)個數(shù)的最大值。
我們結(jié)合蛋白質(zhì)間的拓?fù)湎嗨菩耘c生物相似性計(jì)算蛋白質(zhì)v和u的相似性,其定義如式(6)、式(7)所示。
2.2 復(fù)合物特征
如何從蛋白質(zhì)復(fù)合物中提取關(guān)鍵的特征是我們研究中的關(guān)鍵問題。到目前為止,研究者們在這方面已經(jīng)做了很多相關(guān)研究。本文根據(jù)加權(quán)和未加權(quán)網(wǎng)絡(luò)中提取蛋白質(zhì)復(fù)合物的16個特征。特征的詳細(xì)描述如下所示。
(1)密度:對于無權(quán)圖,設(shè)G=(V,E)有|E|條邊,則密度定義為|E|除以圖中理論上最大可能的邊數(shù)|E|max,|E|max=|V|×(|V|-1)/2。對于加權(quán)圖,設(shè)G=(V,E,W),邊(v,u)的權(quán)重為w(v,u),其密度定義如式(8)所示。
(8)
(2)度統(tǒng)計(jì):對于無權(quán)圖,節(jié)點(diǎn)度定義為節(jié)點(diǎn)的鄰居節(jié)點(diǎn)數(shù);對于加權(quán)圖,節(jié)點(diǎn)度定義為節(jié)點(diǎn)與其相連節(jié)點(diǎn)間權(quán)重之和。本文選擇加權(quán)圖和未加權(quán)圖中節(jié)點(diǎn)度的最大值、平均值和中位數(shù)作為子圖特征。
(3)邊權(quán)重統(tǒng)計(jì):邊權(quán)重是加權(quán)圖的重要特征。本文中我們選擇子圖中所有邊權(quán)重的平均值和方差作為子圖的特征。
(4)度相關(guān)屬性:度相關(guān)屬性可以測試子圖中節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)的連通性。對于每個節(jié)點(diǎn),其定義為該節(jié)點(diǎn)最近鄰居節(jié)點(diǎn)的平均連接數(shù)目,即平均度。我們選擇子圖中節(jié)點(diǎn)度相關(guān)屬性的平均值和方差作為子圖的特征。
(9)
(6)聚類系數(shù):對于無權(quán)圖來說,節(jié)點(diǎn)v的聚類系數(shù)是通過它的三角形個數(shù)與可能形成的三角形個數(shù)比,其定義如式(10)所示。
(10)
其中,T(v)表示經(jīng)過節(jié)點(diǎn)v的三角形個數(shù)。我們選擇無權(quán)圖中聚類系數(shù)的方差作為其聚類系數(shù)特征。加權(quán)圖中聚類系數(shù)定義如式(11)所示。
(11)
w(v)=∑j∈N(v)w(v,j)
(12)
其中,kv表示節(jié)點(diǎn)v的鄰節(jié)點(diǎn)數(shù)目,w(v,j)表示節(jié)點(diǎn)v和j之間邊的權(quán)重。w(v)表示節(jié)點(diǎn)v與所有相鄰節(jié)點(diǎn)之間邊的權(quán)重和。我們選擇加權(quán)圖聚類系數(shù)的平均值和最大值作為聚類系數(shù)特征。
監(jiān)督學(xué)習(xí)方法有回歸和分類兩種類型,而蛋白質(zhì)復(fù)合物識別屬于分類問題。我們應(yīng)用監(jiān)督學(xué)習(xí)方法判斷一個蛋白質(zhì)子圖是否為真實(shí)蛋白質(zhì)復(fù)合物。本文經(jīng)過實(shí)驗(yàn)分析應(yīng)用SVC[18]方法來評估子圖是蛋白質(zhì)復(fù)合物的可能性。SVC是支持向量機(jī)算法的一種,主要用于解決分類問題。相比其他分類方法,SVC需要的樣本數(shù)據(jù)相對較少,并且由于SVC引入了核函數(shù),對于高維或非線性的數(shù)據(jù)樣本SVC也能輕松應(yīng)對。
本文分別從正例和負(fù)例中提取相應(yīng)的特征,并結(jié)合正負(fù)例特征得到數(shù)據(jù)集D。我們把數(shù)據(jù)集D分為訓(xùn)練集和測試集,其中,訓(xùn)練集占70%,測試集占30%。構(gòu)造完訓(xùn)練集后,我們將訓(xùn)練集作為輸入數(shù)據(jù)訓(xùn)練SVC模型。本文中使用的模型參數(shù)設(shè)置如表1所示。
表1 模型參數(shù)設(shè)置
在本節(jié)中,我們應(yīng)用上述訓(xùn)練的模型識別蛋白質(zhì)復(fù)合物,該方法可以分為三部分:子圖選擇、子圖擴(kuò)展和復(fù)合物過濾。
(1)子圖選擇我們使用Clique[19]算法搜索PPI網(wǎng)絡(luò)中的最大子圖,并選擇蛋白質(zhì)個數(shù)大于等于3的子圖作為初始子圖。由于初始子圖之間可能會產(chǎn)生重疊,故需要對初始子圖進(jìn)行過濾處理。我們使用訓(xùn)練后的模型判斷每個子圖是真復(fù)合物的概率,并按概率降序排列。對于任意子圖Ci,計(jì)算其與概率低于它的子圖Ck間的重疊蛋白質(zhì)個數(shù),若重疊蛋白質(zhì)個數(shù)高于給定的閾值α,則過濾子圖Ci。重復(fù)上述過程,形成最終的初始子圖集合,通過實(shí)驗(yàn)驗(yàn)證,閾值α設(shè)置為2。
(2)子圖擴(kuò)展對于任意子圖Ci,其鄰接點(diǎn)集合為N(Ci),選擇N(Ci)中的任意一個節(jié)點(diǎn)v加入子圖Ci。然后,使用訓(xùn)練后的模型判斷{Ci∪v}是真復(fù)合物的概率,選擇概率提升最高的節(jié)點(diǎn)v加入到子圖Ci中。重復(fù)上述過程,直到N(Ci)中沒有節(jié)點(diǎn)加入Ci。至此,子圖Ci擴(kuò)張完畢,形成候選復(fù)合物。
(3)復(fù)合物過濾候選復(fù)合物之間可能也會發(fā)生重疊,故需要對候選復(fù)合物做過濾處理。我們使用訓(xùn)練后的模型判斷候選復(fù)合物是真復(fù)合物的概率,并按概率降序排列。對于任意候選復(fù)合物Ci,計(jì)算它與概率低于它的候選復(fù)合物Ck間的重疊率overlap(Ci,Ck),其定義如式(13)所示。
(13)
如果重疊率大于設(shè)定的重疊閾值β,則合并兩個候選復(fù)合物并判斷合并后的候選復(fù)合物{Ci∪Ck}是真復(fù)合物的概率。如果概率提升則兩個候選復(fù)合物合并,否則過濾掉候選復(fù)合物Ck。重復(fù)上述過程,得到最終預(yù)測的蛋白質(zhì)復(fù)合物。通過實(shí)驗(yàn)驗(yàn)證,重疊閾值β設(shè)置為0.8。
本文分別在四個大規(guī)模酵母PPI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這四個PPI數(shù)據(jù)集分別是Gavin[20]、DIP[21]、WI-PHI_core[22]和WI-PHI_extend[22]。這四個PPI數(shù)據(jù)集的基本信息如表2所示。我們使用的標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物數(shù)據(jù)集是CYC2008[23],并且刪除了其中蛋白質(zhì)個數(shù)小于3的蛋白質(zhì)復(fù)合物,最后CYC2008含有236種蛋白質(zhì)復(fù)合物。
表2 四個PPI數(shù)據(jù)集的基本信息
我們的訓(xùn)練數(shù)據(jù)包含正例和負(fù)例兩部分,其中,正例是由MIPS[24]、SGD[25]、TAP60[20]、Aloy[26]四種常見的蛋白質(zhì)標(biāo)準(zhǔn)復(fù)合物數(shù)據(jù)集合并組成。由于從PPI網(wǎng)絡(luò)中識別的蛋白質(zhì)復(fù)合物不包含PPI網(wǎng)絡(luò)中不存在的蛋白質(zhì)分子。因此,在不同的PPI網(wǎng)絡(luò)上實(shí)驗(yàn)時,要過濾掉正例中不屬于該P(yáng)PI網(wǎng)絡(luò)的蛋白質(zhì)分子。同時,我們還過濾掉了正例中與CYC2008重疊的蛋白質(zhì)復(fù)合物。我們的負(fù)例是從PPI網(wǎng)絡(luò)中隨機(jī)選取節(jié)點(diǎn)生成的,其大小與正例保持一致。正例和負(fù)例中蛋白質(zhì)復(fù)合物包含的蛋白質(zhì)分子個數(shù)都是大于等于3的。在四個PPI數(shù)據(jù)集上使用的正例和負(fù)例的基本信息如表3所示。
表3 四個PPI數(shù)據(jù)集上正例和負(fù)例的基本信息
本文使用了兩組性能評價指標(biāo),分別是:①F值(F-Measure)、準(zhǔn)確率(Precision)和召回率(Recall); ②陽性預(yù)測值(PPV)、精確率(ACC)和敏感值(Sn)。
3.2.1F值、準(zhǔn)確率和召回率
假設(shè)B={b1,b2,…,bm}和P={p1,p2,…,pn}分別表示標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物集合和預(yù)測蛋白質(zhì)復(fù)合物集合,選擇一個真實(shí)蛋白質(zhì)復(fù)合物b∈B和一個預(yù)測的蛋白質(zhì)復(fù)合物p∈P,我們可以計(jì)算它們的鄰域親和度得分NA,其計(jì)算定義如式(14)所示。
(14)
其中,Vb和Vp分別表示復(fù)合物b和p中蛋白質(zhì)分子集合,|Vb∩Vp|表示兩個蛋白質(zhì)復(fù)合物中共有蛋白質(zhì)的數(shù)量。
一般來說,如果NA(b,p)>0.25,則認(rèn)為兩個蛋白質(zhì)復(fù)合物是匹配的。我們設(shè)Ncb表示至少匹配了一個預(yù)測蛋白質(zhì)復(fù)合物的標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物的數(shù)量,Ncp表示至少匹配了一個標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物的預(yù)測蛋白質(zhì)復(fù)合物的數(shù)量。則準(zhǔn)確率和召回率的定義如式(15)所示。
(15)
F值被定義為準(zhǔn)確率和召回率的調(diào)和平均值,其定義如式(16)所示。
(16)
3.2.2 陽性預(yù)測值、敏感值和精確率
敏感值(Sn)和陽性預(yù)測值(PPV)的定義如式(17)、式(18)所示。
(17)
(18)
其中,n是標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物的數(shù)量,m是預(yù)測蛋白質(zhì)復(fù)合物的數(shù)量,Tij表示第i個標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物和第j個預(yù)測蛋白質(zhì)復(fù)合物共有蛋白質(zhì)的個數(shù)。Ni表示每個標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物中蛋白質(zhì)的數(shù)量。精準(zhǔn)率(ACC)是敏感值(Sn)和陽性預(yù)測值(PPV)的幾何平均值,其定義如式(19)所示。
(19)
3.3.1 與其他模型的比較
本文選擇訓(xùn)練SVC模型用于蛋白質(zhì)復(fù)合物識別。為了驗(yàn)證SVC模型的有效性,本文也選擇訓(xùn)練其他監(jiān)督學(xué)習(xí)模型識別蛋白質(zhì)復(fù)合物。我們選擇訓(xùn)練XGBoost、樸素貝葉斯(Bayes)、邏輯回歸(Logistic)這三種監(jiān)督學(xué)習(xí)模型并將它們的實(shí)驗(yàn)結(jié)果與SVC模型進(jìn)行比較。SVC模型與其他監(jiān)督學(xué)習(xí)模型比較的結(jié)果如表4所示。由表4可以看到,SVC模型與其他監(jiān)督模型相比在Gavin、WI-PHI_core和WI-PHI_extend這3個數(shù)據(jù)集上都取得了最優(yōu)的性能,且在F-measure指標(biāo)上均優(yōu)于其他模型。在DIP數(shù)據(jù)集上,邏輯回歸模型取得了最優(yōu)的性能,不過SVC模型也取得了良好的性能,并且仍遠(yuǎn)優(yōu)于其他兩種模型。綜合考慮下來,SVC模型能夠有效提升蛋白質(zhì)復(fù)合物識別算法的性能。
表4 SVC模型與其他監(jiān)督學(xué)習(xí)模型的性能對比
3.3.2 與其他方法的比較
為了評估NOBEL方法在蛋白質(zhì)復(fù)合物識別方面的有效性,我們將NOBEL方法在四個不同的PPI網(wǎng)絡(luò)上與幾種蛋白質(zhì)復(fù)合物識別方法進(jìn)行比較。其中,包括經(jīng)典的無監(jiān)督方法MCODE[2]、ClusterONE[3]、COACH[7]、CMC[6]和近幾年出現(xiàn)的無監(jiān)督方法CPredictor 2.0[9]、GANE[11],以及監(jiān)督學(xué)習(xí)方法SLPC[12]。其中,MCODE和ClusterOne方法是使用Cytoscape[27]運(yùn)行得到的,參數(shù)設(shè)置為默認(rèn)設(shè)置,其他幾個方法的參數(shù)按照它們作者的建議進(jìn)行設(shè)置。NOBEL與其他蛋白質(zhì)復(fù)合物識別方法比較的實(shí)驗(yàn)結(jié)果如表5所示。
表5 基于CYC2008與其他方法的性能對比
在Gavin數(shù)據(jù)集上,NOBEL方法在評價指標(biāo)F-measure上取得了最高的性能為0.541 7,要遠(yuǎn)高于無監(jiān)督方法,同時也比監(jiān)督學(xué)習(xí)方法SLPC高4.39%。在DIP數(shù)據(jù)集上,NOBEL取得了最高的F-measure(54.15%)以及最高的Acc值(66.87%)。在WI-PHI_core和WI-PHI_extend兩個數(shù)據(jù)集上,NOBEL同樣取得了最高的F-measure,分別為71.36%和67.74%。NOBEL在四種PPI網(wǎng)絡(luò)上都取得了最高的F-measure,而監(jiān)督學(xué)習(xí)方法SLPC在所有網(wǎng)絡(luò)上都取得了第二高的F-measure。綜上所述,NOBEL方法在四個數(shù)據(jù)集上都取得了良好的性能。與現(xiàn)有的蛋白質(zhì)復(fù)合物識別方法相比,NOBEL方法具有優(yōu)越性。
3.4.1 不同參數(shù)對性能的影響
在NOBEL方法中,本文使用了SVC模型來判斷子圖是真實(shí)復(fù)合物的概率。在訓(xùn)練SVC模型時,改變SVC模型的參數(shù)會返回不同的模型。為了驗(yàn)證SVC模型的最佳參數(shù),我們選用了不同的參數(shù)訓(xùn)練模型。圖1表示不同參數(shù)的SVC模型在WI-PHI_core數(shù)據(jù)集上用F-measure測量性能的比較結(jié)果。圖中C表示懲罰參數(shù),degree表示多項(xiàng)式ploy函數(shù)的維度。當(dāng)C=3,degree=4時,SVC模型達(dá)到了71.36%的最高F-measure。在其他三個PPI網(wǎng)絡(luò)上,SVC模型在C=3,degree=4時也取得了優(yōu)異的性能。因此,在我們的實(shí)驗(yàn)中選擇C=3,degree=4為SVC模型的默認(rèn)參數(shù)。
圖1 在WI-PHI_core網(wǎng)絡(luò)上應(yīng)用不同參數(shù)SVC模型的性能比較
3.4.2 不同特征對性能的影響
每個特征對實(shí)驗(yàn)的影響是不同的,為了評價特征對實(shí)驗(yàn)性能的貢獻(xiàn),我們使用了三種不同的特征集進(jìn)行試驗(yàn),三種特征集分別為7個未加權(quán)特征、9個加權(quán)特征和全部的特征。表6顯示了三種特征集的實(shí)驗(yàn)結(jié)果,從表中可以看出,加權(quán)特征集的實(shí)驗(yàn)結(jié)果要比無權(quán)網(wǎng)絡(luò)特征集的實(shí)驗(yàn)結(jié)果好得多。另外,加權(quán)特征集的實(shí)驗(yàn)結(jié)果與全部特征集的實(shí)驗(yàn)結(jié)果相比也相差不多,這表明由加權(quán)網(wǎng)絡(luò)提取的特征對提高實(shí)驗(yàn)的性能十分有效。這主要是因?yàn)槲覀儗W(wǎng)絡(luò)加權(quán)時,不僅結(jié)合了網(wǎng)絡(luò)的拓?fù)涮匦?,還結(jié)合了蛋白質(zhì)的GO信息,這使得由加權(quán)網(wǎng)絡(luò)提取的特征包含了蛋白質(zhì)的拓?fù)湫畔⒑蜕镄畔ⅰ?/p>
表6 不同特征集實(shí)驗(yàn)的性能對比
本文中,為了衡量每個特征對實(shí)驗(yàn)的貢獻(xiàn),我們用Shap[28]值來計(jì)算SVC模型中每個特征的重要性。由于訓(xùn)練集由正例和負(fù)例兩類數(shù)據(jù)構(gòu)成,Shap值計(jì)算時會同時輸出兩組矩陣,分別對應(yīng)正例和負(fù)例兩個標(biāo)簽,兩個矩陣內(nèi)的值互為相反數(shù),結(jié)果如圖2所示,其中,Class0表示正例,Calss1表示負(fù)例,x軸表示Shap值的絕對平均值,y軸表示不同的特征。Shap值也可以選擇單獨(dú)輸出某一個標(biāo)簽對應(yīng)的矩陣,我們選擇輸出正例標(biāo)簽對應(yīng)的矩陣(圖3)。從圖2和圖3可以看出,每個特征按重要性降序排列,而加權(quán)特征的重要性要遠(yuǎn)高于無權(quán)特征。為了驗(yàn)證這一想法,我們?nèi)コ龣?quán)重網(wǎng)絡(luò)特征后,再次訓(xùn)練SVC模型并計(jì)算各個特征的Shap值(圖4、圖5)。由圖中可以看出,去除加權(quán)特征后,無權(quán)特征在模型訓(xùn)練過程中也能發(fā)揮重要作用。由此可以看出,加權(quán)特征和無權(quán)特征對實(shí)驗(yàn)性能的提升都有貢獻(xiàn),只是相比無權(quán)特征,加權(quán)特征更加重要,能更加有效地提升實(shí)驗(yàn)性能。
圖2 各個特征在SVC模型中的重要性(兩標(biāo)簽)
圖3 各個特征在SVC模型中的重要性(正例標(biāo)簽)
圖4 去除權(quán)重特征后各個特征在SVC模型中的重要性(兩標(biāo)簽)
圖5 去除權(quán)重特征后各個特征在SVC模型中的重要性(正例標(biāo)簽)
蛋白質(zhì)復(fù)合物參與多種生物進(jìn)程,因此蛋白質(zhì)復(fù)合物識別對我們理解細(xì)胞組織和功能具有重要意義。近年來,隨著技術(shù)的進(jìn)步,PPI網(wǎng)絡(luò)的規(guī)模正在快速增長,研究者提出了許多的蛋白質(zhì)復(fù)合物識別算法。然而,現(xiàn)有的算法大多都是只基于PPI網(wǎng)絡(luò)的拓?fù)湫畔⒒蛘呃靡阎鞍踪|(zhì)復(fù)合物信息的方法,它們都具有一定的局限性。
本文提出了一種結(jié)合已知蛋白質(zhì)復(fù)合物拓?fù)湫畔⒑捅O(jiān)督學(xué)習(xí)的蛋白質(zhì)復(fù)合物識別算法NOBEL。首先,我們通過蛋白質(zhì)的生物信息和拓?fù)湫畔PI網(wǎng)絡(luò)進(jìn)行加權(quán)處理;然后,我們根據(jù)加權(quán)后的PPI網(wǎng)絡(luò)和未加權(quán)的PPI網(wǎng)絡(luò)提取蛋白質(zhì)復(fù)合物的拓?fù)湫畔⒆鳛樗奶卣?;其次,依?jù)豐富的特征構(gòu)造訓(xùn)練集并訓(xùn)練SVC模型;最后,我們運(yùn)用Clique算法搜索PPI網(wǎng)絡(luò)中的子圖作為初始子圖,再通過SVC模型判斷子圖是真實(shí)復(fù)合物的概率來對子圖進(jìn)行過濾、擴(kuò)張和合并操作。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的蛋白質(zhì)復(fù)合物識別方法相比,NOBEL方法擁有更優(yōu)的性能。在未來工作中,我們希望能從蛋白質(zhì)復(fù)合物中自動獲取具有復(fù)合物信息的特征,例如,通過網(wǎng)絡(luò)表示學(xué)習(xí)方法得到復(fù)合物的特征。