陳心浩,胡 儉
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074)
基于多特征融合預(yù)測蛋白質(zhì)相互作用界面
陳心浩,胡 儉
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074)
為高效準(zhǔn)確地預(yù)測蛋白質(zhì)相互作用界面,提取了傳統(tǒng)特征,并采用多種方法改進(jìn)進(jìn)化信息特征,利用特征選擇構(gòu)建了一個(gè)14維的預(yù)測模型.通過5折交叉驗(yàn)證和獨(dú)立測試,預(yù)測結(jié)果表明:該預(yù)測模型不僅顯著降低特征維度,而且選擇的特征組合具有較好的預(yù)測能力和較強(qiáng)的泛化能力.
蛋白質(zhì)-蛋白質(zhì)界面;分類;進(jìn)化;特征選擇
AbstractTo build a model of efficient and accurate classification of protein-protein interfaces, this study constructs two characteristics of traditional features and evolutionary information, a 14-dimensional feature model is constructed by feature selection.By cross-validation of the main data set and independent test set testing, results show that selects the features combination has better predictive ability and strong extension ability. Compared with the best models at the present stage, this study significantly reduce the dimensionality of the model case classification has improved.
Keywordsprotein-protein interface; classification; evolutionary; feature selection
區(qū)分蛋白質(zhì)晶體中的生物學(xué)相互作用界面(Biological interfaces)和無生物學(xué)意義的晶體學(xué)界面(Crystal interfaces),是結(jié)構(gòu)生物信息學(xué)中的一個(gè)重要研究方向.
現(xiàn)有計(jì)算方法預(yù)測蛋白質(zhì)相互作用界面的特征主要分成兩大類:第一類是以界面面積、疏水性和溫度因子等幾何特性和氨基酸理化特性為代表的傳統(tǒng)特征[1];第二類則是以EPPIC方法為代表的進(jìn)化特征[2].為獲得良好的分類效果,目前的主要策略是將上述特征進(jìn)行聯(lián)合.然而,這類融合方法也存在弊端,如現(xiàn)階段分類效果最好的Luo方法[3],該方法具有較高的特征維度(46維),且進(jìn)化信息計(jì)算復(fù)雜,不利于快速構(gòu)建本地分類模型.因此,本文期望采用較為簡便的方式計(jì)算進(jìn)化特征,融合傳統(tǒng)特征并使用特征選擇技術(shù),構(gòu)建一個(gè)低維高效的蛋白質(zhì)互作界面分類模型.
1.1數(shù)據(jù)集,蛋白質(zhì)界面殘基、表面殘基的定義
在構(gòu)建和測試模型過程中使用了三個(gè)數(shù)據(jù)集,Duarte數(shù)據(jù)集[2]作為主數(shù)據(jù)集用于構(gòu)建模型和優(yōu)化參數(shù),Bernauer[4]和Ponstingl[5]兩個(gè)經(jīng)典數(shù)據(jù)集作為獨(dú)立測試集.
核心殘基(Core)位于互作界面中心,主要由疏水性氨基酸構(gòu)成.核心殘基周圍環(huán)繞著一圈殘基,此類型殘基稱之為環(huán)繞殘基(Rim).界面殘基、表面殘基、核心殘基與環(huán)繞殘基定義采用Proface方式定義[6].
1.2傳統(tǒng)特征
核心殘基(Core)與環(huán)繞殘基(Rim): 分別計(jì)算核心殘基與環(huán)繞殘基在界面殘基中的比例,構(gòu)成Core和Rim 這兩個(gè)特征.核心殘基數(shù)目(NoC) :每個(gè)蛋白質(zhì)復(fù)合體的核心殘基數(shù)構(gòu)成本特征.溫度因子(BF):將PDB中每個(gè)殘基溫度因子做Z-score歸一化,將歸一化后的界面殘基溫度因子平均值作為此蛋白質(zhì)復(fù)合體溫度因子.局部包裝密度( LD),熱點(diǎn)殘基數(shù)目(Nhs),氨基酸分布 (RP)定義方式來自Proface[6],界面疏水性 Hy)采用Jones定義[1].
1.3進(jìn)化特征
本文采用默認(rèn)參數(shù),使用PSI-BLAST程序?qū)δ繕?biāo)蛋白質(zhì)在NR數(shù)據(jù)庫中搜索其同源序列并構(gòu)建位置特異性矩陣.根據(jù)上述矩陣,采用Capra方法[7],對每一個(gè)殘基位置分別計(jì)算了SE(Shannon entropy of residues),SERP(Shannon entropy of residue properties),VNE(von Neumann entropy),RE(Relative Entropy)和JSD(Jensen-Shannon divergence score)5種保守性分值,并且對于計(jì)算出來的5種保守性分值采用3窗口平均,構(gòu)成另外5個(gè)保守性分值.計(jì)算公式如下:
SEi=-∑α∈AAp(α) lg[p(α) ] ,
(1)
SERPi=-∑α∈Term)p(β) lg[p(β) ] ,
(2)
VNEi=-Tr(ρlg(ρ) ) ,
ρ=diag[(p1,p2,…,p20)·BLUSUM62],
(3)
REi=-∑α∈AAp(α) lg[p(α)/q(α) ],
(4)
JSDi=λ∑α∈AAp(α) lg[p(α)/r(α) ]+
(1-λ) ∑α∈AAq(α) lg[q(α)/r(α) ],
(5)
WindowScorei=0.5Entropyi+
(6)
公式(1)中,p(α)是20種常見氨基酸在位置i出現(xiàn)的概率,公式(2)中的p(β)則是根據(jù)Mirny研究[8]對氨基酸根據(jù)化學(xué)屬性分成6組,計(jì)算出的每一組在整體出現(xiàn)的概率,具體分組可見表1.VNE計(jì)算方法[9]如公式(3)所示,特點(diǎn)是將原始的概率得分使用BLUSUM62矩陣重新計(jì)算.RE的計(jì)算方式與SE接近,不同點(diǎn)是使用背景概率q(α)重新定義,其概率分布見表1.JSD是將RE做了背景頻率改進(jìn)[10],可以將保守性分?jǐn)?shù)歸一化0~1之間,在本文中λ=0.5.公式(6)即3窗口的算法,序列上第i個(gè)殘基與其鄰近的兩個(gè)殘基加權(quán)平均.將上述獲得的5個(gè)保守性分值和5個(gè)窗口保守性分值分別作Z-score變換,以消除不同蛋白質(zhì)復(fù)合體間差異.
蛋白質(zhì)殘基保守性分值可以衡量殘基在進(jìn)化過程中變異程度,生物學(xué)界面殘基,特別是生物學(xué)界面上的核心殘基在進(jìn)化過程中相對保守.本文采用兩種方式計(jì)算核心殘基保守性分值[2],第一種是核心殘基-界面殘基保守性分值 (CI),計(jì)算核心殘基保守性分值平均值與界面殘基保守性分值平均值的差值,即將界面殘基保守性分值作為基準(zhǔn).第二種是核心殘基-表面殘基保守性分值( CS),計(jì)算核心殘基保守性分值平均值與表面殘基保守性分值平均值的差值.最終構(gòu)成20維進(jìn)化信息特征.
表1 氨基酸屬性
1.4特征選擇、分類器與分類評價(jià)
增L去R選擇算法是一種改進(jìn)了的前向特征選擇方法[11].算法初始特征選擇從空集開始,每輪先加入L維特征,然后從中除去R個(gè)特征,將每一輪AUC最高的特征組合挑選出來作為下一輪初始特征組合.
分類器采用R語言下隨機(jī)森林包,所涉及參數(shù)均采用默認(rèn)值.
對單個(gè)特征和聯(lián)合特征測試均在Duarte數(shù)據(jù)集上完成,采用5折交叉驗(yàn)證.為排除隨機(jī)影響,5折交叉驗(yàn)證采用50次獨(dú)立分組取平均的結(jié)果,兩個(gè)獨(dú)立測試采用50次重復(fù)平均結(jié)果.分類效果評價(jià)采用敏感度(SN)、特異度(SP)、準(zhǔn)確性、馬修相關(guān)性系數(shù)(MCC)、受試者工作曲線(ROC)及ROC曲線下面積(AUC)6個(gè)指標(biāo).MCC范圍是[-1, 1],當(dāng)MCC大于0代表正確的分類效果,越接近1代表分類效果越好.一般來說,當(dāng)MCC大于0.3表示有一定分類效果,大約0.5時(shí)分類效果較好.AUC也有類似的評價(jià)標(biāo)準(zhǔn),當(dāng)AUC處于0.5到0.6之間表示只有微弱的分類效果,當(dāng)AUC大于0.6表示此特征有一定的區(qū)分樣本能力,當(dāng)AUC大約0.8表示分類效果很理想.
2.1特征分類效果
根據(jù)表2,在傳統(tǒng)特征中,Hy、Core、Rim、RP和Nhs5個(gè)特征的單獨(dú)使用分類AUC均到達(dá)0.7以上,除Nhs每個(gè)特征的MCC都超過0.4,顯示出這些特征在生物學(xué)界面和晶體學(xué)界面上有較大的分布差異性.BF和NoC的AUC處于0.6到0.7之間,MCC大于0.3,有一定分類效果.LD分類效果較差,AUC不到0.6.
表2 特征獨(dú)立使用分類效果Tab.2 Independent feature classification results
在進(jìn)化信息特征中,并非所有的保守性分值算法都適合本問題,如CS-VNE的AUC小于0.5,產(chǎn)生相反的分類效果.若以AUC為評價(jià)準(zhǔn)則,整體上來說,相同算法計(jì)算出的CS要略優(yōu)于CI,這與Duarte得出的結(jié)論相同.在原始保守性分值與3維窗口計(jì)算出的保守性分?jǐn)?shù)比較中,不同種算法產(chǎn)生了不同的效果,如CI-SE-3WIN相比CI-SE分類效果提升明顯,而CS-SE-3WIN相比CS-SE分類效果卻變差.在20個(gè)進(jìn)化特征中,CS-SERPAUC達(dá)到0.758,MCC達(dá)到0.484,是28個(gè)特征中分類效果最好的特征之一.
圖1 特征選擇Fig.1 Feature selection
2.2特征選擇
以AUC為選擇標(biāo)準(zhǔn),本文采用增2去1選擇算法對28個(gè)特征做特征選擇.對于每一輪選擇出的特征組合,計(jì)算AUC和MCC,繪制的曲線如圖1所示,隨著特征數(shù)目的增加,AUC先快速上升,在第8輪特征選擇后達(dá)到頂點(diǎn),而后AUC緩慢下降;MCC上升速度相比于AUC較慢,而且在達(dá)到頂點(diǎn)后并沒有明顯的下降趨勢.綜合AUC和MCC分值,最終選擇第14個(gè)特征組合,分別是Hy、Core、CS-SERP-3WIN、CI-SE-3WIN、RP、Nhs、CI-SE、BF、CI-RE、CI-SERP、CI-JSD-3WIN、CI-RE-3WIN、CI-SERP-3WIN、LD.選擇出的14個(gè)特征AUC為0.918,MCC為0.713,而全部28個(gè)特征AUC為0.901,MCC為0.706,可見本文在消減了一半特征維度情況下,AUC還是獲得了較大程度提升,說明本文采用的特征選擇確實(shí)可以在保證預(yù)測準(zhǔn)確性條件下選擇出更有意義的特征組合.
在特征選擇中沒有被選擇出來的特征,其中Rim是因?yàn)榕cCore成對偶關(guān)系,所包含的信息是完全一致的;NoC是因?yàn)樵诒疚闹卸鄠€(gè)特征涉及到核心殘基,信息上存在冗余因而沒有被選擇出來.信息冗余同樣存在于20個(gè)進(jìn)化信息特征上,因此只有8個(gè)進(jìn)化信息特征被選擇出來.雖然CS單個(gè)特征效果略好,但是在選擇出的8個(gè)進(jìn)化信息特征中只有一個(gè)CS,而獨(dú)立使用LD分類效果較差卻可以被選擇出,說明并非聯(lián)合較強(qiáng)特征一定會(huì)取得良好的分類效果,還需要考慮各個(gè)特征之間的組合效應(yīng).
2.3交叉驗(yàn)證與獨(dú)立測試效果
表3所示的是Duarte數(shù)據(jù)集5折交叉驗(yàn)證結(jié)果和兩個(gè)獨(dú)立測試集的分類效果,圖2所示的是相應(yīng)的ROC曲線.可以看到,本文在Duarte數(shù)據(jù)集上取得了AUC為0.918,MCC為0.713這樣良好的分類效果.將本方法應(yīng)用于兩個(gè)獨(dú)立測試集上,Bernauer數(shù)據(jù)集AUC達(dá)到0.955,MCC達(dá)到0.745的MCC,Ponstingl數(shù)據(jù)集AUC為0.962,MCC為0.842,均獲得了良好的的分類效果,可見本方法有較強(qiáng)的泛化能力.
表3 Duarte數(shù)據(jù)集5折交叉驗(yàn)證和獨(dú)立測試集預(yù)測效果
圖2 Duarte數(shù)據(jù)集5折交叉驗(yàn)證和獨(dú)立測試集ROC曲線Fig2 The ROC curves of 5-fold cross validation test and two independent datasets
2.4與現(xiàn)有方法比較
為更加全面地評價(jià)本方法,本文采用現(xiàn)階段分類效果最好的兩個(gè)分類器,即Luo方法和EPPIC方法對Duarte數(shù)據(jù)集做5折交叉驗(yàn)證,與本方法得到的結(jié)果進(jìn)行比較.EPPIC方法的預(yù)測效果直接取自文獻(xiàn)報(bào)道;對Luo使用的特征數(shù)據(jù),采用與本文相同的50次5折交叉驗(yàn)證進(jìn)行評價(jià).本方法與這兩種方法比較見圖3,從對比結(jié)果上來看,除SN本方法與現(xiàn)有方法相仿之外,SP、ACC和MCC本方法均有顯著提升,采用符號秩和檢驗(yàn)SP、ACC和MCC本方法差異達(dá)到5.24E-10、3.01E-09、5.19E-09,可以得出本方法在Duarte數(shù)據(jù)集上分類效果優(yōu)于上述兩種方法的結(jié)論.
圖3 本文方法與Luo方法、EPPIC比較Fig.3 Comparison of the performances of our method and Luo's Method and EPPIC
本文提取了進(jìn)化特征和傳統(tǒng)特征,通過特征選擇構(gòu)建了一個(gè)高效的蛋白質(zhì)相互作用界面分類模型.交叉驗(yàn)證和獨(dú)立測試的結(jié)果表明本方法可以達(dá)到較為理想的預(yù)測效果.與現(xiàn)有方法相比,本方法大幅度降低了特征維度,卻并沒有降低分類效果.然而也有不完善的地方,如備選特征數(shù)目較少,對特征的生物學(xué)意義挖掘不深等,這些問題將是作者下一步研究的重點(diǎn).
[1] Jones S,JM Thornton. Analysis of protein-protein interaction sites using surface patches[J]. Journal of Molecular Biology, 1997, 272(1): 121-132.
[2] Duarte J M, Srebniak A, Scharer, M A, et al. Protein interface classification by evolutionary analysis[J]. BMC Bioinformatics, 2012, 13(1): 334-334.
[3] Luo J, Guo Y, Fu Y, et al. Effective discrimination between biologically relevant contacts and crystal packing contacts using new determinants[J]. Proteins, 2014, 82(11): 3090-3100.
[4] Bernauer J, Bahadur R P, Rodier, et al. DiMoVo: a Voronoi tessellation-based method for discriminating crystallographic and biological protein-protein interactions[J]. Bioinformatics, 2008, 24(5): 652-658.
[5] Ponstingl H, Kabir T, Thornton J M. Automatic inference of protein quaternary structure from crystals[J]. Journal of Applied Crystallography, 2003, 36(5): 1116-1122.
[6] Saha R P, Bahadur R P, Pal A, et al. ProFace: a server for the analysis of the physicochemical features of protein-protein interfaces[J]. BMC Struct Biol, 2006, 6: 11.
[7] Capra J A, Singh M. Predicting functionally important residues from sequence conservation[J]. Bioinformatics, 2007,23(15): 1875-1882.
[8] Mirny L A, Shakhnovich E I. Universally conserved positions in protein folds: reading evolutionary signals about stability, folding kinetics and function[J]. Journal of Molecular Biology, 1999, 291(1): 177-196.
[9] Caffrey D R, Somaroo S, Hughes J, et al. Are protein-protein interfaces more conserved in sequence than the rest of the protein surface[J]. Protein Science, 2004, 13(1): p. 190-202.
[10] Lin J, Divergence measures based on the Shannon entropy[J]. IEEE Transactions on Information Theory, 1991,37(1): 145-151.
[11] 姚 旭, 王曉丹, 張玉璽, 等. 特征選擇方法綜述[J]. 控制與決策,2012,27(2):161-166.
StudyonProtein-ProteinInterfacialClassificationBasedonMulti-featureFusion
ChenXinhao,HuJian
(College of Biomedical Engineering, South-Central University for Nationalities, Wuhan 430074, China)
Q811.4
A
1672-4321(2017)03-0080-04
2017-03-30
陳心浩(1968-),男,副教授,研究方向:醫(yī)學(xué)圖像處理與傳輸,E-mail: xinhaochen@mail.scuec.edu.cn
國家自然科學(xué)基金資助項(xiàng)目(61002046);中央高?;究蒲袠I(yè)務(wù)專項(xiàng)基金項(xiàng)目(CZP17025)