国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)合物信息和亞細胞定位信息的關(guān)鍵蛋白質(zhì)識別

2020-07-14 00:05毛伊敏章宇盟
科學(xué)技術(shù)與工程 2020年17期
關(guān)鍵詞:關(guān)鍵性復(fù)合物關(guān)鍵

毛伊敏,章宇盟,胡 健

(1.江西理工大學(xué)信息工程學(xué)院,贛州 341000;2.江西理工大學(xué)應(yīng)用科學(xué)學(xué)院,贛州 341000)

關(guān)鍵蛋白質(zhì)一般是指通過基因剔除式突變將其移除后會造成生物體相關(guān)功能缺失,并導(dǎo)致生物體生病或無法生存的蛋白質(zhì)[1]。早期,在關(guān)鍵蛋白質(zhì)研究方面,主要是通過生物實驗方法進行預(yù)測,例如RNA干擾、單基因敲除、條件基因敲除。雖然該類方法的預(yù)測準確率高,但存在操作復(fù)雜、耗時成本代價高等缺陷。因此,研究人員逐漸轉(zhuǎn)向基于生物計算的預(yù)測方法。隨著高通量蛋白質(zhì)組技術(shù)、計算機相關(guān)技術(shù)的迅猛發(fā)展以及蛋白質(zhì)相互作用數(shù)據(jù)日益完善,這使得通過基于計算機的計算方法來識別關(guān)鍵蛋白質(zhì)成為可能。

Jeong等[2]在2001年就指出,在蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)中,存在著“中心-致死性”法則,即在PPI中鄰居節(jié)點較大的蛋白質(zhì)對細胞的生存起著非常重要的作用。Yu等[3]經(jīng)過研究蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)相關(guān)數(shù)據(jù)發(fā)現(xiàn),關(guān)鍵蛋白質(zhì)的平均度值大約是非關(guān)鍵蛋白質(zhì)的兩倍。基于這些網(wǎng)絡(luò)拓撲特征,眾多基于拓撲中心性的關(guān)鍵蛋白質(zhì)識別方法相繼被提出,如度中心性(degree centrality,DC)[4]方法、接近度中心性(closeness centrality,CC)[5]方法、介數(shù)中心性(betweenness centrality,BC)[6]方法、子圖中心性(subgraph centrality,SC)[7]方法、特征向量中心性(eigenvector centrality,EC)[8]、信息中心性(information centrality,IC)[9]方法、方法、鄰居中心性方法(network centrality,NC)[10]和局部連通中心性方法(local average connectivity,LAC)[11]。由于在PPI網(wǎng)絡(luò)中存在大量的假陽性和假陰性數(shù)據(jù)(噪聲數(shù)據(jù)),使直接利用拓撲中心性特征來識別關(guān)鍵蛋白質(zhì)的方法有缺陷;同時,這些中心性的方法也忽略了關(guān)鍵蛋白質(zhì)本生固有的生物屬性[12]。因此,為進一步提高關(guān)鍵蛋白質(zhì)的預(yù)測精度,研究者將一種生物信息或多種生物信息融入PPI網(wǎng)絡(luò)中。Li等[13]和Tang等[14]基于基因表達信息分別提出一種名為PeC(integrate ECC and person correlation)和WDC(weighted degree centrality)的關(guān)鍵蛋白質(zhì)預(yù)測方法;Peng等[15-16]基于蛋白質(zhì)同源信息和蛋白質(zhì)域信息,將其與蛋白質(zhì)在PPI網(wǎng)絡(luò)中的拓撲特性相結(jié)合,提出UDoNC(united the domain features and the normalized ECC)和ION(the integration of the properties of orthologous and the features of neighbors)關(guān)鍵蛋白質(zhì)預(yù)測方法;除此之外,研究者還提出基于蛋白質(zhì)在復(fù)合物內(nèi)的參與程度來衡量PPI網(wǎng)絡(luò)的可靠性以及關(guān)鍵蛋白質(zhì)與復(fù)合物之間緊密程度。胡賽等[17]通過計算兩個蛋白質(zhì)共享結(jié)構(gòu)域的概率和共享復(fù)合物的概率以構(gòu)建高可靠性加權(quán)PPI網(wǎng)絡(luò);Zhao等[18]利用PPI網(wǎng)絡(luò)的模塊化特性挖掘重疊的復(fù)合物,并通過計算蛋白質(zhì)在復(fù)合物內(nèi)的加權(quán)度來衡量蛋白質(zhì)的關(guān)鍵性。Qin等[19]提出了基于局部密度、介數(shù)中心性(BC)和復(fù)合物度中心性(in-degree centrality of complex,IDC)的關(guān)鍵蛋白質(zhì)識別算法LBCC。雖然基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)識別取得了一定的成效,但只考慮了蛋白質(zhì)在復(fù)合物內(nèi)的參與程度,忽略了蛋白質(zhì)的關(guān)鍵性與復(fù)合物參與頻率成正相關(guān)性這一特性。目前,基于拓撲特性的關(guān)鍵蛋白質(zhì)識別算法雖然取得了一定的成效,但是通過高通量生物技術(shù)獲得的大規(guī)模蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)中存在較高比例的噪聲數(shù)據(jù)和不完備數(shù)據(jù),以及基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)預(yù)測方法對復(fù)合物信息考慮不夠全面導(dǎo)致關(guān)鍵關(guān)鍵蛋白質(zhì)識別的準確性不高等缺陷,仍是亟待解決的問題。

針對以上問題,現(xiàn)提出一種名為基于復(fù)合物信息和亞細胞定位信息(united protein complexes and subcellular locallizations,PCSL)的關(guān)鍵蛋白質(zhì)預(yù)測方法。主要開展以下3個方面工作:①融合PPI網(wǎng)絡(luò)的拓撲屬性、生物屬性和空間屬性3個方面構(gòu)建加權(quán)網(wǎng)絡(luò),以降低原始PPI網(wǎng)絡(luò)中噪聲數(shù)據(jù)和不完整數(shù)據(jù)對關(guān)鍵蛋白質(zhì)預(yù)測精度的負面影響,其中拓撲屬性用邊聚集系數(shù)計算,生物屬性用生物功能相似性計算,空間信息用亞細胞定位信息計算;②基于復(fù)合物信息和亞細胞定位信息,綜合考慮復(fù)合物參與頻度和空間位置重要性,提出一種蛋白質(zhì)關(guān)鍵性度量,以提高關(guān)鍵蛋白質(zhì)預(yù)測精度;③基于加權(quán)PPI網(wǎng)絡(luò),利用改進的CPPK算法對PPI網(wǎng)絡(luò)進行尋優(yōu)操作,以提升關(guān)鍵蛋白質(zhì)挖掘的效率。

1 PCSL方法

針對蛋白質(zhì)PPI網(wǎng)絡(luò)中存在大量噪聲,現(xiàn)有大多關(guān)鍵蛋白識別方法對蛋白質(zhì)關(guān)鍵性描述不全面以及關(guān)鍵蛋白質(zhì)挖掘效率不高等問題,提出一種新的關(guān)鍵蛋白質(zhì)預(yù)測方法PCSL。首先該方法基于邊聚集系數(shù)、GO功能相似性和空間位置重要性,提出一種綜合性邊權(quán)值度量對PPI網(wǎng)絡(luò)進行加權(quán),從而構(gòu)建加權(quán)網(wǎng)絡(luò);然后,綜合考慮復(fù)合物參與度和復(fù)合物參與頻率,提出一個名為復(fù)合物參與頻度的度量,以更全面地描述關(guān)鍵蛋白質(zhì)與復(fù)合物之間的緊密聯(lián)系,然后結(jié)合復(fù)合物參與頻度和亞細胞定位信息,提出一個新的衡量蛋白質(zhì)關(guān)鍵性的公式;最后,基于應(yīng)用于PPI網(wǎng)絡(luò)的CPPK尋優(yōu)算法,對其擴張策略進行改進,利用聚集度設(shè)計一個試探策略,避免CPPK算法陷入局部最優(yōu),以提高挖掘關(guān)鍵蛋白質(zhì)的效率。

1.1 構(gòu)建加權(quán)網(wǎng)絡(luò)

由于高通量方法獲得的蛋白質(zhì)相互作用數(shù)據(jù)中存在假陽性、假陰性和不完整性(噪聲),因此僅僅依靠PPI網(wǎng)絡(luò)的拓撲特性來識別關(guān)鍵蛋白質(zhì)較依賴于網(wǎng)路本身,限制了關(guān)鍵蛋白質(zhì)識方法的性能。因此,基于PPI網(wǎng)路的拓撲特性和蛋白質(zhì)生物功能相似性,結(jié)合PPI網(wǎng)絡(luò)的空間屬性(亞細胞定位信息),對原始PPI網(wǎng)絡(luò)進行加權(quán),以提升原始PPI網(wǎng)絡(luò)的可靠性。

1.1.1 PPI網(wǎng)絡(luò)的拓撲特性

邊聚集系數(shù)[20]是網(wǎng)絡(luò)拓撲特性中的重要一種,不僅考慮了邊在網(wǎng)絡(luò)中的重要程度,還能評估節(jié)點u、v鄰居之間的緊密程度,且能較好地識別PPI網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì)。邊聚集系數(shù)的定義為

(1)

式(1)中:tanu、v表示節(jié)點u、v共同構(gòu)成三角形的個數(shù);du、dv分別表示節(jié)點u、v的度。

1.1.2 PPI網(wǎng)絡(luò)的生物功能相似性

考慮到兩個蛋白質(zhì)之間的功能相似程度越高,它們之間相互作用就越可靠[21]。已有研究表明,若兩個蛋白質(zhì)的共享的GO功能注釋越多,它們的生物功能相似程度越高。因此用GO語義相似度描述蛋白質(zhì)之間的功能相似度,其計算公式為

(2)

式(2)中:|Gu|和|Gv|分別表示蛋白質(zhì)u、v的GO功能注釋集合的大??;|Gu∩Gv|表示蛋白質(zhì)u、v之間的GO功能注釋交集的大小。

1.1.3 PPI網(wǎng)絡(luò)的空間屬性

由于現(xiàn)有的大多數(shù)關(guān)鍵蛋白質(zhì)預(yù)測方法都是從PPI網(wǎng)絡(luò)的拓撲特性和生物屬性兩個方面去衡量蛋白質(zhì)之間的可靠性,忽略了PPI網(wǎng)絡(luò)的空間屬性,對蛋白質(zhì)相互作用關(guān)系考慮不夠全面。文獻[22]表明,如果兩個蛋白質(zhì)出現(xiàn)在同一細胞區(qū)域,它們之間的關(guān)系就越可靠。因此,用Lin描述兩個蛋白質(zhì)之間的可靠性,其計算公式為

(3)

式(3)中:Lu和Lv分別表示蛋白質(zhì)u、v的亞細胞定位信息集合;Lu∩Lv為蛋白質(zhì)u、v之間的亞細胞定位信息交集。

為避免人為產(chǎn)生的假陰性的負面影響,綜合考慮PPI網(wǎng)絡(luò)的拓撲、生物特性和空間屬性,提出一種綜合性邊權(quán)值度量公式:

ESL(u,v)=[ECC(u,v)+1][Sim(u,v)+

1][Lin(u,v)+1]

(4)

1.2 蛋白質(zhì)關(guān)鍵性度量

1.2.1 復(fù)合物參與頻度

由于基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)識別方法大多用蛋白質(zhì)在復(fù)合物內(nèi)的參與程度來衡量關(guān)鍵蛋白質(zhì)與復(fù)合物之間的緊密聯(lián)系,忽略了蛋白質(zhì)的關(guān)鍵性與復(fù)合物參與頻率(蛋白質(zhì)出現(xiàn)在復(fù)合物的頻率)之間的相關(guān)性[18],為更加準確描述蛋白質(zhì)的模塊化特性,綜合考慮復(fù)合物參與度[19]和復(fù)合物參與頻率兩個方面,提出復(fù)合物參與頻度來衡量蛋白質(zhì)與復(fù)合物之間的緊密聯(lián)系,其計算公式為

(5)

1.2.2 空間位置重要性

已有研究表明,蛋白質(zhì)的關(guān)鍵性不僅僅與PPI網(wǎng)絡(luò)的生物屬性相關(guān),還與蛋白質(zhì)的空間位置相關(guān)。因此,充分利用亞細胞定位信息對關(guān)鍵蛋白質(zhì)預(yù)測有重要意義。從PPI網(wǎng)絡(luò)角度描述,蛋白質(zhì)的關(guān)鍵性與細胞位置的置信水平相關(guān)[23];從蛋白質(zhì)合成過程角度描述,蛋白質(zhì)的關(guān)鍵性與細胞位置本身相關(guān)[24]。綜合以上兩點,提出一種利用空間信息衡量蛋白質(zhì)關(guān)鍵性的度量公式:

(6)

式(5)中:li(v)表示蛋白質(zhì)v所在的細胞區(qū)域;Sli(v)表示對應(yīng)細胞區(qū)域中蛋白質(zhì)集合;Smax表示所有細胞區(qū)域中蛋白質(zhì)數(shù)量最大的集合;LI(li)表示相應(yīng)細胞區(qū)域的關(guān)鍵指數(shù)[24]。

鑒于蛋白質(zhì)的關(guān)鍵性與復(fù)合物、空間位置密切相關(guān),為了提高關(guān)鍵蛋白質(zhì)預(yù)測精度,將復(fù)合物參與頻度、空間位置重要性用線性組合模型整合。整合之后的蛋白質(zhì)關(guān)鍵性的度量式為

(7)

1.3 關(guān)鍵蛋白質(zhì)識別

現(xiàn)有的大多數(shù)關(guān)鍵蛋白質(zhì)識別方法都是首先根據(jù)蛋白質(zhì)的某種重要性指標(如局部中心性LAC)排序,然后取前P個。雖然這樣做可以識別關(guān)鍵蛋白質(zhì),但是這些方法都需要逐一計算頂點的某種指標并排序,無形中大大增加了計算量。為提高關(guān)鍵蛋白質(zhì)挖掘的效率,引入CPPK尋優(yōu)算法[25],并對其擴張策略進行改進。

1.3.1 CPPK算法的改進

由于CPPK算法本質(zhì)上是一種貪心算法,為避免該算法容易陷入局部最優(yōu)的缺陷,設(shè)計一種試探策略來實現(xiàn)跳出局部最優(yōu)的目的。試探策略大致思想如下:在種子節(jié)點擴張之前,先計算種子的聚集度[26],如果聚集度大于或等于閾值?,則向其鄰居擴張,如果聚集度小于閾值?,則從剩余的蛋白質(zhì)集合中隨機選取一個聚集度大于或等于閾值?的蛋白質(zhì)作為種子。

1.3.2 改進的CPPK算法描述

輸入:加權(quán)PPI網(wǎng)絡(luò)G,部分已知關(guān)鍵蛋白質(zhì)集合K,需要預(yù)測的關(guān)鍵蛋白質(zhì)數(shù)量n

輸出:包含n個關(guān)鍵蛋白質(zhì)的集合ES

ES=Φ,TES=Φ

For each node∈G

Compute C(node)

ES=K

WHILE(|ES|< n)

For each node∈K

TES=TES∪{u|max(PSLC(u)),u∈Nnode}

If(|ES|+|TES|<=n)

ES=ES∪TES

For each node∈TES

If(C(node)

Delete node from TES,select one in unprocessed proteins

K=TES

Else

Descend TES according to PSLC

ES=ES∪TESn-|ES|

Output ES

2 實驗結(jié)果與分析

2.1 實驗環(huán)境

實驗所用的計算機配置為windows 7操作系統(tǒng),Inter i5雙核處理器,2.6 GHz主頻和8 G內(nèi)存。實驗所用的程序代碼用python編寫,用IPython進行解釋和交互。

2.2 標準實驗數(shù)據(jù)集的選取

由于酵母PPI網(wǎng)絡(luò)數(shù)據(jù)相對比較完善。因此以酵母蛋白質(zhì)網(wǎng)絡(luò)為研究對象,并展開相關(guān)實驗。實驗所需數(shù)據(jù)介紹如下。

(1)PPI數(shù)據(jù)集。酵母PPI網(wǎng)絡(luò)數(shù)據(jù)從DIP數(shù)據(jù)庫[27]中下載,經(jīng)過數(shù)據(jù)預(yù)處理后得到5 093個蛋白質(zhì),24 743條相互作用關(guān)系邊。

(2)亞細胞定位信息。酵母蛋白的亞細胞定位數(shù)據(jù)分為11類,從COMPARTMENTS[28]中下載獲得。

(3)標準關(guān)鍵蛋白質(zhì)集合。通過整合MIPS[29]、SGD[30]、DEG[31]和SGDP[32]4個數(shù)據(jù)庫得到標準關(guān)鍵蛋白質(zhì)數(shù)據(jù),共有1 285個關(guān)鍵蛋白質(zhì)(1 167個關(guān)鍵蛋白質(zhì)出現(xiàn)在酵母PPI中)。

(4)酵母蛋白質(zhì)GO注釋信息[33]下載自基因本體數(shù)據(jù)庫(2016年12月24日的版本),它主要包括3部分:生物過程、分子組件和分子功能。

(5)蛋白質(zhì)復(fù)合物。蛋白質(zhì)復(fù)合物集合從文獻[34]中下載得到,其由CM270、CM425、CYC408和CYC428這4種蛋白質(zhì)復(fù)合物集合整合。

2.3 標準參數(shù)α對關(guān)鍵蛋白識別的影響

在PCSL方法中,蛋白質(zhì)的關(guān)鍵性評分由兩部分組成:①蛋白質(zhì)的復(fù)合物參與頻度得分;②蛋白質(zhì)的空間位置得分。由參數(shù)α調(diào)節(jié)兩種不同得分重要性的比重,其中α的取值范圍為[0,1],如表1所示。當α為1時,蛋白質(zhì)的關(guān)鍵性僅取決于由復(fù)合物信息決定的復(fù)合物參與頻度得分;當α為0時,蛋白質(zhì)的關(guān)鍵性僅依靠蛋白質(zhì)的空間位置。

表1 不同參數(shù)α對識別關(guān)鍵蛋白質(zhì)數(shù)量的影響比較Table 1 The number of true essential proteins correctly identified by PCSL with different α

從表1可以看出,當α的取值范圍為[0.3,0.5]時,PCSL方法的關(guān)鍵蛋白質(zhì)的識別數(shù)目較多。特別是當α值為0.4時,PCSL方法識別的關(guān)鍵蛋白質(zhì)最多。因此將α值設(shè)置為0.4。

2.4 關(guān)鍵蛋白質(zhì)預(yù)測方法性能比較分析

2.4.1 不同比例關(guān)鍵蛋白質(zhì)預(yù)測數(shù)量比較

為評估PCSL方法的關(guān)鍵蛋白質(zhì)識別性能,首先,只與基于拓撲特征的中心性方法DC、BC、SC、EC、IC、LAC進行比較,驗證PCSL方法中通過融合拓撲特性、生物功性能相似性和亞細胞定位信息而構(gòu)建的加權(quán)PPI網(wǎng)絡(luò)是否更加可靠,且有助于提高關(guān)鍵蛋白質(zhì)識別準確率;其次,與基于拓撲數(shù)據(jù)和基因表達數(shù)據(jù)的預(yù)測方法PeC、WDC比較,以檢驗PCSL方法是否降低了對原始蛋白質(zhì)相互作用網(wǎng)絡(luò)本身的依賴;最后,與基于復(fù)合物信息的關(guān)鍵蛋白質(zhì)預(yù)測方法LBCC比較,證明本文提出的蛋白質(zhì)關(guān)鍵性度量是否能夠識別更多的蛋白質(zhì)。實驗中,為得到較為精確的對比結(jié)果,首先將本文提出的PCSL方法應(yīng)用于酵母PPI網(wǎng)絡(luò)上,計算各個比例下關(guān)鍵蛋白質(zhì)的個數(shù);然后,利用以上提到的10種關(guān)鍵蛋白質(zhì)預(yù)測方法,根據(jù)各自的節(jié)點重要性指標對候選蛋白質(zhì)集合進行降序操作,得到一組根據(jù)各自節(jié)點重要性指標值降序排列的候選關(guān)鍵蛋白質(zhì)集合;最后,選取每個候選關(guān)鍵蛋白質(zhì)集合前1%、5%、10%、15%、20%、25%的候選蛋白質(zhì)與一組標準關(guān)鍵蛋白質(zhì)集合進行比較,獲取各方法在不同規(guī)模下預(yù)測正確的關(guān)鍵蛋白質(zhì)數(shù)量。圖1所示為各方法識別候選集前1%~前25%中的關(guān)鍵蛋白質(zhì)數(shù)量。

圖1 PCSL與其他方法在不同規(guī)模樣本中識別出的關(guān)鍵蛋白質(zhì)數(shù)量Fig.1 The number of true essential proteins predicted by PCSL and other ten methods on DIP datase

從圖1中可以明顯看出,PCSL方法要優(yōu)于其他10種預(yù)測方法,尤其是在前1%、5%、10%的候選關(guān)鍵蛋白質(zhì)集合當中,預(yù)測關(guān)鍵蛋白質(zhì)的準確率分別達到了86.3%、76.9%、63.5%。在僅基于PPI網(wǎng)絡(luò)拓撲特征的中心方法中,表現(xiàn)最好的是方法LAC,PCSL方法與其相比,關(guān)鍵蛋白質(zhì)預(yù)測精準率分別提高了29.4%、15.7%、11.0%、8.0%、4.5%、3.1%,其說明了PCSL方法構(gòu)建的加權(quán)PPI網(wǎng)絡(luò)擁有較高的可靠性;與融合基因表達信息的中心方法PeC相比,關(guān)鍵蛋白質(zhì)預(yù)測精準率分別提高了9.8%、10.2%、6.5%、8.5%、8.2%、9.1%,并且在關(guān)鍵蛋白質(zhì)候選集規(guī)模為1%、5%、15%的情況下,PCSL方法優(yōu)勢明顯,PCSL方法降低了對原始PPI網(wǎng)絡(luò)的依賴;與預(yù)測性能表現(xiàn)最佳的基于蛋白質(zhì)復(fù)合物信息的預(yù)測方法LBCC相比,隨著候選關(guān)鍵蛋白質(zhì)規(guī)模的增加,PCSL方法的優(yōu)勢保持穩(wěn)定。這說明PCSL方法在預(yù)測關(guān)鍵蛋白質(zhì)的過程中,其不但能進一步提高預(yù)測方法的精度,還能提升挖掘關(guān)鍵蛋白質(zhì)的效率。相比于其他10種關(guān)鍵蛋白質(zhì)預(yù)測方法,PCSL方法之所以性能較好,是因為其不但能通過構(gòu)建的加權(quán)網(wǎng)絡(luò)減少PPI網(wǎng)絡(luò)的噪聲的負面影響,而且從復(fù)合物信息和亞細胞定位信息兩個角度考慮蛋白質(zhì)的關(guān)鍵性,同時有通過改進CPPK尋優(yōu)算法提升挖掘關(guān)鍵蛋白質(zhì)的效率。

2.4.2 統(tǒng)計指標分析

為進一步分析PCSL方法的性能,基于文獻[21]中的敏感度(SN)、特異性(SP)、陽性預(yù)測值(PPV)、陰性預(yù)測值(NPV)、F-測度(F-measure)和準確率(ACC)這6個統(tǒng)計指標與其他10種預(yù)測方法進行比較實驗。由于從DIP數(shù)據(jù)庫下載的酵母PPI網(wǎng)絡(luò)中僅有1 167個關(guān)鍵蛋白,因此選取排序后的前1 167個蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì),并對比各方法在6個統(tǒng)計指標值,以深入分析PCSL方法的識別性能。由于現(xiàn)有方法預(yù)測準確率提升幅度不大,為盡可能表現(xiàn)出各指標的精度,避免各指標數(shù)據(jù)重合,對指標數(shù)據(jù)保留小數(shù)點后4位。PCSL方法與其他10種方法的比較結(jié)果如表2所示。

從表2可以看出,相比于其他方法,PCSL方法的6個指標均有所提升。與預(yù)測性能最差的中心方法CC相比,6項指標分別高出16.34%、4.96%、16.34%、4.96%、16.34%和7.65%,與最好的方法LBCC相比各項指標仍具有較好優(yōu)勢。PCSL方法預(yù)測性能比其他10種預(yù)測方法更好的原因主要有兩點:一是本文構(gòu)建的加權(quán)PPI網(wǎng)絡(luò)不僅降低了對原始PPI網(wǎng)絡(luò)的依賴和網(wǎng)絡(luò)中噪聲數(shù)據(jù)帶來的負面影響,提高了網(wǎng)絡(luò)的真實性和可靠性,而且從拓撲特性、生物特性和空間屬性3個方面考慮蛋白質(zhì)之間的緊密聯(lián)系;二是本方法綜合考慮復(fù)合物信息和亞細胞定位信息來衡量蛋白質(zhì)的關(guān)鍵性。

表2 PCSL方法與其他10種方法的統(tǒng)計指標比較Table 2 Comparison of the SN,SP,PPV,NPV,F and ACC between PCSL and other ten methods

3 結(jié)論

將關(guān)鍵蛋白質(zhì)識別方法的主要挑戰(zhàn)歸納為3個方面:①如何降低PPI網(wǎng)絡(luò)中假陽性和假陰性數(shù)據(jù)的負面影響,從而構(gòu)建更加真實可靠的PPI網(wǎng)絡(luò);②如何有效地整合多元生物和其他PPI網(wǎng)絡(luò)相關(guān)信息,設(shè)計一個能夠較好地衡量蛋白質(zhì)關(guān)鍵性的度量方式;③如何選擇合理的選擇計算算法,以提升挖掘關(guān)鍵蛋白質(zhì)的效率。

為改善關(guān)鍵蛋白質(zhì)識別方法識別準確率不高的問題,首先利用PPI網(wǎng)絡(luò)的拓撲特性、GO功能相似性和空間屬性構(gòu)建可靠的加權(quán)網(wǎng)絡(luò);其次,基于復(fù)合物信息和亞細胞定位信息設(shè)計一種衡量蛋白質(zhì)關(guān)鍵性的度量;最后,設(shè)計一種應(yīng)用于PPI網(wǎng)絡(luò)尋優(yōu)的試探策略,以提升挖掘關(guān)鍵蛋白質(zhì)的效率。實驗結(jié)果表明,利用DIP數(shù)據(jù)集進行關(guān)鍵蛋白質(zhì)預(yù)測精度比較,PCSL方法的識別準確率高于被比較的10種預(yù)測方法。

猜你喜歡
關(guān)鍵性復(fù)合物關(guān)鍵
TPEP管道頂管施工關(guān)鍵性技術(shù)研究
硝酸甘油,用對是關(guān)鍵
碳量子點黃芩素復(fù)合物對金黃色葡萄球菌抑菌作用的研究
從創(chuàng)新驅(qū)動看國防科技工業(yè)在國家經(jīng)濟建設(shè)中的關(guān)鍵性作用
淺談超高層建筑結(jié)構(gòu)設(shè)計的關(guān)鍵性問題
高考考好是關(guān)鍵
鹵代烴與小分子弱相互作用研究進展
WS2/TiO2/絹云母復(fù)合物的制備及性能表征
紫外-可見分光光度法測定多糖鐵復(fù)合物的鐵含量
寫作過程中結(jié)構(gòu)起著關(guān)鍵性的作用