王明會(huì),龔 藝,王 強(qiáng),馮煥清,李 驁
(中國(guó)科學(xué)與技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)
整合序列與蛋白相互作用特征的亞細(xì)胞定位預(yù)測(cè)
王明會(huì),龔 藝,王 強(qiáng),馮煥清,李 驁
(中國(guó)科學(xué)與技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)
提出了一種基于序列和PPI特征的距離公式,可綜合序列氨基酸組成和PPI對(duì)象、強(qiáng)弱等信息對(duì)兩個(gè)蛋白質(zhì)的相似性進(jìn)行表征,并在此基礎(chǔ)上提出了一種用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的K近鄰算法。利用留一法對(duì)性能進(jìn)行了評(píng)估,結(jié)果顯示,在序列基礎(chǔ)上加入PPI特征,可明顯有助于亞細(xì)胞定位的預(yù)測(cè);同時(shí)基于上述距離的K近鄰算法也優(yōu)于使用相同特征的SVM算法,表明該算法可以對(duì)蛋白質(zhì)的亞細(xì)胞定位信息進(jìn)行準(zhǔn)確有效的預(yù)測(cè)。
生物信息學(xué); K近鄰算法; 蛋白質(zhì)相互作用; 亞細(xì)胞定位
生物體細(xì)胞內(nèi)存在許多細(xì)胞區(qū)域和細(xì)胞器,蛋白質(zhì)合成后只有轉(zhuǎn)運(yùn)到正確的細(xì)胞器或區(qū)域中才能發(fā)揮作用,參與各種生命活動(dòng)。因此蛋白質(zhì)的亞細(xì)胞定位(subcellular localization)信息對(duì)于揭示蛋白質(zhì)的功能及其生命活動(dòng)中發(fā)揮的作用是必不可少的[1-3]。同時(shí),蛋白質(zhì)亞細(xì)胞定位在藥物設(shè)計(jì)、藥物靶點(diǎn)的辨別和優(yōu)化等方面也發(fā)揮著重要的作用。
目前可確定蛋白質(zhì)亞定位的傳統(tǒng)實(shí)驗(yàn)技術(shù)主要有綠色熒光蛋白標(biāo)記[1]等,但由于實(shí)驗(yàn)效率較低,已經(jīng)無(wú)法滿足當(dāng)前蛋白質(zhì)組學(xué)快速發(fā)展的需求。為解決上述問(wèn)題,利用生物信息學(xué)方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位的研究現(xiàn)已取得了相當(dāng)多的成果[4-8]。這些方法首先提取反映蛋白質(zhì)亞細(xì)胞定位的相關(guān)特征信息,并將其轉(zhuǎn)化成輸入特征向量,在此基礎(chǔ)上選擇合適的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)方法加以預(yù)測(cè)?,F(xiàn)有研究表明,以氨基酸組成(amino acid composition,AAC)為主的蛋白質(zhì)序列信息對(duì)預(yù)測(cè)其亞定位有很大的幫助,蛋白質(zhì)的序列相似程度越高,則其越趨向于存在于相同的細(xì)胞區(qū)域或細(xì)胞器內(nèi),因此是目前蛋白質(zhì)亞細(xì)胞定位中的常用特征[4-8]。但是,僅通過(guò)序列特征并不能反映蛋白質(zhì)亞細(xì)胞定位的全部信息,相應(yīng)的預(yù)測(cè)方法性能不夠理想。另一方面,蛋白-蛋白相互作用(protein-protein Interaction,PPI)是反映蛋白相互作用和功能特性關(guān)系的重要特征[9-11],蛋白質(zhì)存在相互作用的前提是共處于細(xì)胞的同一位置,因此如果兩個(gè)蛋白質(zhì)存在較明顯的相互作用,則其很可能存在共同的亞細(xì)胞定位。因此,如能合理使用PPI信息,將有效地提高蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)性能。
蛋白質(zhì)亞細(xì)胞定位的常用預(yù)測(cè)算法有支持向量機(jī)(support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)等[1]。SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,該方法在結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則下,保證最小的分類錯(cuò)誤率,其缺點(diǎn)是在輸入特征維數(shù)很高時(shí)算法復(fù)雜度大,同時(shí)性能不夠理想。K近鄰是一種簡(jiǎn)單有效的有監(jiān)督分類方法,但是需預(yù)先定義數(shù)據(jù)之間的距離,目前大多方法是根據(jù)氨基酸組成等序列信息計(jì)算兩個(gè)蛋白質(zhì)的歐式距離[1-2,8],但這種距離計(jì)算方法無(wú)法有效地整合蛋白質(zhì)PPI信息。
針對(duì)上述問(wèn)題,本文提出了一種結(jié)合PPI和氨基酸組成信息的距離公式,用以綜合評(píng)估兩個(gè)蛋白質(zhì)在序列和內(nèi)在功能特性上的相似性,在此基礎(chǔ)上利用K近鄰算法對(duì)數(shù)據(jù)進(jìn)行了訓(xùn)練和測(cè)試,取得了令人滿意的效果。
1.1 數(shù)據(jù)
本文從現(xiàn)有的Uniprot、Organelle和LOCATE3個(gè)蛋白質(zhì)數(shù)據(jù)庫(kù)中獲得相關(guān)的蛋白質(zhì)亞定位信息,從中提取出有亞定位標(biāo)注的人類蛋白質(zhì),并對(duì)其進(jìn)行BLAST去冗余和去除序列過(guò)短的蛋白質(zhì),最終提取胞外區(qū)、細(xì)胞核、細(xì)胞質(zhì)、細(xì)胞骨架、細(xì)胞膜共5個(gè)具有代表性的亞細(xì)胞定位,具體信息如表1所示。此外,為獲得相關(guān)蛋白質(zhì)的PPI信息,從生物信息學(xué)數(shù)據(jù)庫(kù)STRING中下載了全部共80 138條PPI記錄,每條記錄中都包括一對(duì)相互作用的蛋白質(zhì)和相互作用強(qiáng)弱的數(shù)值,采用1~1 000之內(nèi)的整數(shù)表示。
1.2 評(píng)價(jià)方法
為了檢驗(yàn)算法的有效性,在評(píng)估算法性能的過(guò)程中采用以下4個(gè)評(píng)價(jià)指標(biāo):敏感性(Sn)、特異性(Sp)、準(zhǔn)確率(ACC)和馬氏相關(guān)系數(shù)(MCC),分別定義為:
式中,TN、TP、FN、FP分別表示用該模型測(cè)試得到的真陰性、真陽(yáng)性、假陰性和假陽(yáng)性數(shù)據(jù)的數(shù)目;Sn反映模型對(duì)陽(yáng)性數(shù)據(jù)的預(yù)測(cè)水平;Sp反映模型對(duì)陰性數(shù)據(jù)的預(yù)測(cè)水平;ACC反映整體數(shù)據(jù)的正確預(yù)測(cè)率;MCC反映了模型對(duì)整體數(shù)據(jù)的預(yù)測(cè)水平。
1.3 算法
K近鄰算法的基本思想是:對(duì)于一個(gè)分類標(biāo)簽的測(cè)試樣本,通過(guò)找到訓(xùn)練數(shù)據(jù)集中距離它最近的k個(gè)近鄰,再通過(guò)這k個(gè)近鄰的分類標(biāo)簽來(lái)確定該測(cè)試樣本的標(biāo)簽,因此確定測(cè)試樣本的近鄰是決定該算法性能的重要因素。在蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)研究中,對(duì)蛋白質(zhì)P可使用氨基酸組成特征向量AACP表征其序列信息,有:
式中,fi(i=1,2,,20)表示第i種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率。在此基礎(chǔ)上,可以定義任意兩個(gè)蛋白質(zhì)P、P′之間的距離,實(shí)際中通常采用歐氏距離進(jìn)行計(jì)算,如表2所示。
由于PPI強(qiáng)弱關(guān)系的數(shù)值與上述歐式距離在分布上具有明顯的差異,因此為將兩者相結(jié)合,采用了加權(quán)混合的方式計(jì)算兩個(gè)存在相互作用的蛋白間的距離,有:
式中,dPPI(P,P′)表示蛋白質(zhì)P、P′之間相互作用的強(qiáng)弱數(shù)值,若兩個(gè)蛋白之間的PPI作用越明顯,則其之間的距離越近;c為預(yù)先指定的權(quán)重系數(shù)。
在使用SVM算法進(jìn)行性能比較時(shí),所使用的PPI特征向量為:
式中,M為PPI數(shù)據(jù)集中出現(xiàn)的蛋白質(zhì)總數(shù);pi(i=1,2,,M)表示該蛋白質(zhì)P與第i個(gè)蛋白質(zhì)相互作用的強(qiáng)弱數(shù)值,如果沒(méi)有相互作用即為0。由此將氨基酸組成和PPI特征結(jié)合得到輸入SVM的最終特征向量為:
為檢驗(yàn)蛋白質(zhì)亞細(xì)胞定位與蛋白之間相互作用的聯(lián)系,首先利用獲得的PPI信息構(gòu)建了PPI的網(wǎng)絡(luò),同時(shí)將網(wǎng)絡(luò)節(jié)點(diǎn)的蛋白質(zhì)亞細(xì)胞定位信息用不同顏色標(biāo)示出來(lái),如圖1所示。由圖可以看出,該網(wǎng)絡(luò)由多個(gè)聚類構(gòu)成,每種聚類分別對(duì)應(yīng)于具有相同定位的蛋白質(zhì),它們之間具有密切的相互作用關(guān)系。而處于不同定位的蛋白質(zhì)之間盡管也存在一定程度的聯(lián)系,但相對(duì)共定位的蛋白而言其PPI作用明顯降低。因此,蛋白質(zhì)PPI信息可以反映出蛋白質(zhì)之間在亞細(xì)胞定位方面的內(nèi)在聯(lián)系。
本文提出的K近鄰算法中有兩個(gè)重要參數(shù):近鄰數(shù)k和計(jì)算蛋白距離公式中的系數(shù)c。在數(shù)據(jù)的訓(xùn)練和性能評(píng)估時(shí),需要對(duì)上述參數(shù)進(jìn)行選擇以保證最優(yōu)的分類性能。本文采用常見(jiàn)的網(wǎng)格搜索策略在整個(gè)參數(shù)空間進(jìn)行尋優(yōu),由于不同亞細(xì)胞定位的數(shù)據(jù)之間數(shù)目差別很大,因此使用了對(duì)有偏數(shù)據(jù)魯棒的馬氏相關(guān)系數(shù)(MCC)作為評(píng)估指標(biāo),如圖2所示。對(duì)于所有的亞細(xì)胞定位數(shù)據(jù),通過(guò)參數(shù)尋優(yōu)均可顯著提高預(yù)測(cè)性能。如對(duì)于胞外區(qū)數(shù)據(jù)選擇k=1、c=0時(shí),預(yù)測(cè)結(jié)果的MCC僅為0.22;而通過(guò)網(wǎng)格搜索確定最優(yōu)參數(shù)k=3、c=0.5后,K近鄰算法的預(yù)測(cè)性能獲得明顯提升,其MCC達(dá)到了0.41。
為客觀評(píng)估亞細(xì)胞定位的預(yù)測(cè)性能,進(jìn)一步使用留一法對(duì)本文的方法與僅使用氨基酸組成的K近鄰算法進(jìn)行了比較,如表2所示。除了對(duì)細(xì)胞質(zhì)定位的靈敏度略低(1%)以外,本文算法的性能指標(biāo)均具較明顯的優(yōu)勢(shì),如對(duì)于細(xì)胞核數(shù)據(jù)本文算法的馬氏相關(guān)系數(shù)和靈敏度分別達(dá)到了0.44和0.70,而使用氨基酸組成的K近鄰算法的相關(guān)指標(biāo)僅為0.36和0.62。上述結(jié)果表明,引入PPI信息有助于定位蛋白質(zhì)所屬的細(xì)胞區(qū)域并提升亞細(xì)胞定位的預(yù)測(cè)精度。此外,對(duì)相關(guān)研究中廣泛使用的SVM算法也進(jìn)行了性能比較。由于SVM的性能同樣也受參數(shù)影響,因此在實(shí)驗(yàn)中使用了LibSVM工具包[12]中提供的網(wǎng)格搜索函數(shù)對(duì)其進(jìn)行了參數(shù)優(yōu)化。表2的結(jié)果顯示,本文算法在所有測(cè)試中均好于使用相同特征的SVM算法,這可能是由于輸入SVM的PPI特征維數(shù)過(guò)高造成的。因此,在使用氨基酸組成和PPI信息時(shí),K近鄰算法能更好地對(duì)不同亞細(xì)胞區(qū)域進(jìn)行區(qū)分。
本文探討了蛋白質(zhì)相互作用信息對(duì)蛋白質(zhì)亞細(xì)胞器定位預(yù)測(cè)的影響。通過(guò)網(wǎng)絡(luò)聚類分析的結(jié)果表明,存在密切作用關(guān)系的蛋白質(zhì)具有相同亞細(xì)胞定位的趨勢(shì),因此上述信息可以用于蛋白質(zhì)的亞細(xì)胞定位的預(yù)測(cè)工作。為有效地整合蛋白質(zhì)序列和PPI信息,本文進(jìn)一步提出了一種表征蛋白質(zhì)在序列和功能上相似性的距離公式,在此基礎(chǔ)上使用K近鄰算法獲得了明顯的性能提升。本文的工作為蛋白質(zhì)亞細(xì)胞定位提供了一種新的思路,對(duì)相關(guān)預(yù)測(cè)方法的研究具有積極的意義。
[1] KENICHIRO I, KENTA N. Prediction of subcellular locations of proteins: Where to proceed[J]. Proteomics, 2010(10): 3970-3983.
[2] CHOU Kuo-chen, WU Zhi-cheng, XIAO Xuan. iLoc-Hum: Using the accumulation-label scale to predict subcellular locations of human proteins with both single and multiple sites[J] . Mol BioSyst, 2012(8): 629-641.
[3] DU Pu-feng, YU Yuan. SubMito-PSPCP: Predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J]. Biomed Res Int, 2013: 263829.
[4] PIERLEONI A, MARTELLI P L, CASADIO R. MemLoci: Predicting subcellular localization of membrane proteins in eukaryotes[J]. Bioinformatics, 2011, 27(9): 1224-1230.
[5] XIE Dan, LI Ao, WANG Ming-hui, et al. LOCSVMPSI: a web server for subcellular localization of eukaryotic proteins using SVM and profile of PSI-BLAST[J]. Nucleic Acids Research, 2005, 33(suppl 2): 105-110.
[6] LI Li-qi, ZHANG Yuan, ZOU Ling-yun, et al. An ensemble classifier for eukaryotic protein subcellular location prediction using gene ontology categories and amino acid hydrophobicity[J]. PLoS ONE, 2012, 7(1): e31057.
[7] MARCIN M, MARCIN P, JANUSZ B M. MetaLocGramN: a meta-predictor of protein subcellular localization for Gram-negative bacteria[J]. Biochimica ET Biophysica Acta (BBA)-Proteins and Proteomics, 2012, 1824(12): 1425-1433.
[8] CHOU Kuo-chen, SHEN Hong-bin. A new method for predicting the subcellular localization of eukaryotic proteins with both single and multiple sites: Euk-mPLoc 2.0[J]. PLoS ONE, 2010, 5(4): e9931.
[9] LIU Han-qing, BECK T N, GOLEMIS E A, et al. Integrating in silico resources to map a signaling network[M]. Methods Mol Biol, 2014, 1101: 197-245.
[10] LI Bi-qing, YOU Jin, CHEN Lei, et al. Identification of lung-cancer-related genes with the shortest path approach in a protein-protein interaction network[J]. BioMed Research International, 2013: 267375.
[11] PIETSCH J, RIWALDT S, BAUER J, et al. Interaction of proteins identified in human thyroid cells[J]. International Journal of Molecular Sciences, 2013, 14(1): 1164-1178.
[12] CHANG Chih-chung, LIN Chih-Jen. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27.
編 輯 黃 莘
Prediction of Protein Subcellular Localization by Incorporating Sequence and Protein-Protein Interaction Features
WANG Ming-hui, GONG Yi, WANG Qiang, FENG Huan-qing, and LI Ao
(School of Information Science and Technology, University of Science and Technology of China Hefei 230027)
Information of protein subcellular localization is indispensable to study protein function, as a protein can perform its function only after it is correctly transported to a specific subcellular compartment. Thus it is very important to provide accurate prediction of protein subcellular localization in biological studies. In contrast to sequence features (e.g. amino acids composition) that are widely used in subcellular localization prediction, features extracting protein-protein interaction (PPI) are largely ignored, although they reflect the co-localization information of different proteins. In this study, we propose a novel distance formula based on both protein sequence and PPI features, which precisely measures the similarity of proteins by incorporating protein information including amino acid composition, PPI and the corresponding interaction scores. Based on this distance formula, we further introduce a k-nearest neighbor (KNN) algorithm for predicting subcellular localization. The results of leave-one-out test on a benchmark dataset show that PPI features significantly improve the performance of protein subcellular localization. Meanwhile, this KNN algorithm also outperformes SVM algorithm adopting the same features, suggesting the efficiency of the proposed algorithm for predicting protein subcellular localization.
bioinformatics; K-nearest neighbor algorithm; protein-protein interaction; subcellular localization
TP391; Q71
A
10.3969/j.issn.1001-0548.2015.03.026
2013 ? 12 ? 18;
2014 ? 10 ? 27
國(guó)家自然科學(xué)基金(61101061, 31100955);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(WK2100230011);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20113402120028)
王明會(huì)(1982 ? ),女,博士,副教授,主要從事生物信息學(xué)和生物統(tǒng)計(jì)方面的研究.