楊慧慧,李柏林,李航,陳昊,劉程國,王玉堂
(1.東北農(nóng)業(yè)大學(xué) 食品學(xué)院,哈爾濱150030;2.東北農(nóng)業(yè)大學(xué) 生命科學(xué)學(xué)院,哈爾濱150030;3.東北農(nóng)業(yè)大學(xué) 分析測試中心,哈爾濱150030)
細(xì)菌素是由細(xì)菌在代謝過程中通過核糖體合成機制產(chǎn)生的一類具有抗菌活性的多肽或蛋白質(zhì)類物質(zhì),對其他細(xì)菌具有抗菌活性[1]。細(xì)菌素是一種無抗藥性、無殘留的天然蛋白類抗菌劑,具有成本低、生產(chǎn)快、廣譜殺菌等優(yōu)點,而且能安全有效地抑制病原體生長,是一種極具潛力的食品防腐劑[2]。近年來,科學(xué)家挑選少數(shù)的細(xì)菌素進行了深入的研究,開辟出細(xì)菌素新的研究領(lǐng)域,并拓寬了其應(yīng)用范圍。隨著遺傳學(xué)和納米技術(shù)的快速發(fā)展,細(xì)菌素極有可能發(fā)展成為下一代新型抗生素[3]、新型載體分子[4]、腫瘤治療的藥物[5]等。因此,如何發(fā)現(xiàn)更多的新型細(xì)菌素成為如今研究的熱點。
1925年首次命名細(xì)菌素以來,科研人員主要通過多種實驗手段研究細(xì)菌素、確定抑菌譜以及評價抑菌能力[6],這種方法耗費大量的時間、精力及費用。細(xì)菌素具有多種獨特的序列和結(jié)構(gòu)特征,因此,采用生物信息學(xué)技術(shù)發(fā)現(xiàn)細(xì)菌素并進行進一步研究逐漸成為一個趨勢。通過生物信息技術(shù)發(fā)掘細(xì)菌素主要分為兩種方法。一種是序列比對,最常見的是蛋白質(zhì)序列之間和核酸序列之間的兩兩比對。比對工具有FASTA[7]、CLUSTALW[8]、HMMER[9]、BLAST[10]等?;?于這種方法發(fā)現(xiàn)了一系列細(xì)菌素的結(jié)構(gòu)特征,可以用來識別細(xì)菌素。Yount等[11]在細(xì)菌素中發(fā)現(xiàn)了一個保守的“GXC”序列基序,這段基序在蛋白質(zhì)三級結(jié)構(gòu)中形成特定的結(jié)構(gòu)域。Schutte等[12]利用BLAST等分析工具在能表達細(xì)菌素的細(xì)菌的染色質(zhì)區(qū)域發(fā)現(xiàn)了防御素基因。由于細(xì)菌素的抗菌作用不取決于單一的蛋白質(zhì)序列信息、結(jié)構(gòu)信息及相應(yīng)氨基酸的理化信息,而是這些信息的綜合反映,因此這種方法準(zhǔn)確度一直不夠高[13]。另一種方法是基于細(xì)菌素氨基酸的理化性質(zhì)、三維結(jié)構(gòu)與空間特征進行預(yù)測,通過建立氨基酸理化性質(zhì)數(shù)據(jù)庫[14],計算細(xì)菌素的數(shù)學(xué)描述符,利用數(shù)學(xué)模型進行細(xì)菌素的識別和預(yù)測。這種方法更常見于二肽和三肽數(shù)學(xué)模型的構(gòu)建[15],在肽鏈長度較長且氨基酸數(shù)量相差較多的細(xì)菌素的研究中,模型準(zhǔn)確度也不高。
缺少建立生物大分子數(shù)學(xué)描述符的方法和數(shù)學(xué)模型選擇不準(zhǔn)確是導(dǎo)致上述研究準(zhǔn)確度不高的主要原因。本研究利用數(shù)據(jù)融合技術(shù),對細(xì)菌素氨基酸序列的排列信息、物理化學(xué)性質(zhì)、蛋白質(zhì)同源模型的結(jié)構(gòu)數(shù)據(jù)等進行篩選整合,作為細(xì)菌素的數(shù)學(xué)描述符;利用機器學(xué)習(xí)方法建立了一種從細(xì)菌分泌的類細(xì)菌素蛋白片段中發(fā)掘細(xì)菌素并進行類型判別的數(shù)學(xué)模型。此方法能夠極大提高細(xì)菌素的發(fā)現(xiàn)速度,為細(xì)菌素在食品、畜牧業(yè)養(yǎng)殖、醫(yī)療健康等多個領(lǐng)域的應(yīng)用提供幫助。
細(xì)菌素數(shù)據(jù)主要來源于研究細(xì)菌素的相關(guān)文獻和公開發(fā)表的細(xì)菌素數(shù)據(jù)庫,包括AMPs from Bacteria(http://bacteriocins.cpu-bioinfor.org/)[16]和BCAIBASE(http://bactibase.hammamilab.org/main.php)[17]。數(shù)據(jù)庫中細(xì)菌素的基本信息包括細(xì)菌素的氨基酸序列、英文名稱、細(xì)菌素分類、細(xì)菌素抑菌譜及相應(yīng)蛋白質(zhì)結(jié)構(gòu)文件等信息。從Uniprot(https://www.uniprot.org/)和PDB(http://www.rcsb.org/)數(shù)據(jù)庫及相關(guān)文獻中,篩選出來自細(xì)菌或真菌、氨基酸序列長度介于5~100之間[18]、經(jīng)研究不具抗菌抑菌能力的蛋白質(zhì),加入非細(xì)菌素蛋白質(zhì)數(shù)據(jù)集。從Uniprot數(shù)據(jù)庫和PDB數(shù)據(jù)庫中,篩選出來自細(xì)菌、氨基酸序列長度介于5~100之間、未經(jīng)抗菌抑菌能力研究的蛋白質(zhì),加入細(xì)菌分泌的類細(xì)菌素蛋白質(zhì)數(shù)據(jù)集。所有數(shù)據(jù)通過人工交叉復(fù)查,確保數(shù)據(jù)的準(zhǔn)確性及可信性。
將細(xì)菌素氨基酸序列通過MOE(Molecular Operating Environment)(v2015.10)和Swiss-Model[19-20]進行蛋白質(zhì)同源建模,得到細(xì)菌素蛋白質(zhì)三級結(jié)構(gòu)。一般情況下,模板序列和靶序列相似性大于30%就可以用于同源建模,序列的同源性越高則結(jié)構(gòu)模型的準(zhǔn)確性越高[21],本研究以細(xì)菌素氨基酸序列與模板序列之間的相似性大于50%為標(biāo)準(zhǔn)進行篩選,將得到細(xì)菌素的三級結(jié)構(gòu)與非細(xì)菌素蛋白質(zhì)三級結(jié)構(gòu)相結(jié)合。將細(xì)菌素的氨基酸序列與所得到的三級結(jié)構(gòu)分別利用MOE軟件和E-Dragon[22]生成2D、3D、pro3種描述符,接著,對描述符進行篩選,保留顯著性高的描述符。然后,將保留的描述符進行主成分分析,保留貢獻率大的主成分作為本文所構(gòu)建的新型細(xì)菌素描述符(以下稱為Pes描述符)。
1.3.1 模型構(gòu)建
細(xì)菌素發(fā)掘模型分別是由Pes、2D、3D、pro 4種描述符構(gòu)建的RF模型和支持向量機(Support Vector Machine,SVM)模型[23],均由R語言實現(xiàn)。SVM可由R中免費的“e1071”包用于實現(xiàn)該功能。RF可由R中Random Forest包(ver 4.6.14)來實現(xiàn)的。
1.3.2 模型評估
評估分類模型的指標(biāo)常采用準(zhǔn)確度。計算公式分別如下:
式中:真正例(True Positive,TP)、真負(fù)例(True Negative,TN)為正確的分類;假正例(False Positive,FP)為非細(xì)菌素蛋白質(zhì)被預(yù)測為細(xì)菌素的情況;假負(fù)例(False Negative,FN)為細(xì)菌素被預(yù)測為非細(xì)菌素蛋白質(zhì)的情況。
1.4.1 模型構(gòu)建
細(xì)菌素類別判定模型采用KNN和SVM。KNN模型由R語言kernlab包(ver 0.9.29)與kknn包(ver 1.3.1)實現(xiàn)。由于細(xì)菌素三級結(jié)構(gòu)數(shù)量不足,為了增加樣本量,選擇細(xì)菌素氨基酸序列描述符作為細(xì)菌素類別判定模型的變量。數(shù)據(jù)以3:1劃分為訓(xùn)練集和測試集。
1.4.2 模型驗證
測試集用于模型驗證,并比較兩個模型得出的結(jié)果和準(zhǔn)確率。其中,KNN模型是基于歐式距離得到最終的結(jié)果。其計算公式如下:
式中:n為描述符數(shù)量;xi、yi為細(xì)菌素在n維空間內(nèi)的坐標(biāo)。
本研究建立的細(xì)菌素數(shù)據(jù)集和非細(xì)菌素蛋白質(zhì)數(shù)據(jù)集用于建模,建立細(xì)菌分泌的類細(xì)菌素蛋白質(zhì)數(shù)據(jù)集用于發(fā)掘潛在細(xì)菌素。細(xì)菌素數(shù)據(jù)庫中共有405個細(xì)菌素,細(xì)菌素三級結(jié)構(gòu)140個,其中與同源建模模板序列相似性大于50%的三級結(jié)構(gòu)有100個。本文所建立的細(xì)菌素數(shù)據(jù)庫與其他同類型研究相比[16-17],加入了通過同源建模得到的蛋白質(zhì)三級結(jié)構(gòu),通過軟件計算獲得了共1979種描述符。
將細(xì)菌素與非細(xì)菌素蛋白質(zhì)的2D、3D、pro描述符進行主成分分析,由圖1計算得到前三個主成分累計貢獻率分別為71.321%、59.671%、70.382%,能夠較為準(zhǔn)確地表示每種描述符所包含的信息。圖1為細(xì)菌素與非細(xì)菌素蛋白質(zhì)在三維空間內(nèi)的分布情況,可以看出細(xì)菌素分布較為廣泛,細(xì)菌素與非細(xì)菌素蛋白質(zhì)在三維空間內(nèi)的區(qū)分度并不高。但是,細(xì)菌素內(nèi)部存在密集聚集的情況,說明部分細(xì)菌素三級結(jié)構(gòu)極為相似。同時也可以看出現(xiàn)有描述符對細(xì)菌素的區(qū)分效果并不好,通過進一步篩選并融合已有的描述符能夠更全面地表達其中所包含的信息,較為容易地分離細(xì)菌素與非細(xì)菌素蛋白質(zhì)。
圖1 細(xì)菌素-非細(xì)菌素蛋白質(zhì)三維分布散點圖
蛋白質(zhì)三級結(jié)構(gòu)共得到1979種描述符,分為2D、3D、pro3種;細(xì)菌素氨基酸序列得到1806種描述符。經(jīng)過篩選與融合描述符,我們得到氨基酸序列Pes描述符15種,蛋白質(zhì)三級結(jié)構(gòu)Pes描述符23種,其累積貢獻率分別為94.91%和86.14%。因此本文所構(gòu)建的描述符可以通過更少的數(shù)據(jù)有效表達細(xì)菌素蛋白質(zhì)結(jié)構(gòu)中所包含的信息。與其他描述符篩選方法相比[24],本文的方法在Frecer[25]、Hilpert[26]等人針對特定類型抗菌肽而建立的描述符基礎(chǔ)上,改進了Cherkasov[27-28]等人建立的多肽可通用的描述符,通過計算絕對電負(fù)性、共價半徑、分子間距離、相互作用力等多種物理化學(xué)性質(zhì)和蛋白質(zhì)相關(guān)參數(shù)來全面描述蛋白質(zhì)結(jié)構(gòu)中所包含的信息,并最終將這些信息整合在所構(gòu)建的描述符中。這樣不僅保留了更多的蛋白質(zhì)信息,同時降低數(shù)據(jù)維度,增加可解釋性。
圖2為PCA得分圖。A圖為氨基酸序列Pes描述符的PCA得分圖,前兩個主成分的累計貢獻率為70.70%。可以觀察到除IID類細(xì)菌素外,其余細(xì)菌素都有較為規(guī)律的分布區(qū)域。由于IID類細(xì)菌素其序列特異性較弱,為提高模型的準(zhǔn)確率,將IID類細(xì)菌素排除在外,只對其他四類細(xì)菌素進行模型判定。B圖為蛋白質(zhì)三級結(jié)構(gòu)Pes描述符的PCA得分圖,前兩個主成分的累計貢獻率為30.91%。通過篩選融合后得到的Pes描述符保留了細(xì)菌素與非細(xì)菌素蛋白質(zhì)中的主要信息,可以較為準(zhǔn)確地區(qū)分細(xì)菌素與非細(xì)菌素蛋白質(zhì)。
圖3為2種不同算法與4種描述符組合得到的8個模型的準(zhǔn)確率,可以觀察到RF模型準(zhǔn)確率優(yōu)于SVM模型準(zhǔn)確率,通過Pes描述符和RF算法建立的發(fā)掘模型準(zhǔn)確率最高,為0.9187,其余所有RF模型準(zhǔn)確率都保持在0.8000左右,說明Pes描述符能夠更準(zhǔn)確、全面地表征蛋白質(zhì)三級結(jié)構(gòu)信息。
圖3 模型準(zhǔn)確率
此前,VELTRID[29]利用單詞嵌入的方法來描述細(xì)菌素,發(fā)現(xiàn)通過DNN(Deep Neural Networks)深度學(xué)習(xí)算法建立的識別模型顯著優(yōu)于BLAST比對等其他幾種細(xì)菌素識別方法。其他同類研究中多采用分析蛋白質(zhì)一級結(jié)構(gòu)和氨基酸的組成等方法[30],本文通過同源建模,獲得更能代表蛋白質(zhì)真實形態(tài)的三級結(jié)構(gòu),并從中獲取其物理化學(xué)性質(zhì)等信息,得到了比以往方法更為準(zhǔn)確的模型。說明三級結(jié)構(gòu)內(nèi)包含了更多肽鏈中無法顯示的信息,也表示本文構(gòu)建的描述符可以準(zhǔn)確地用數(shù)字形式全面描述蛋白質(zhì)三級結(jié)構(gòu)。但該方法精確測得的蛋白質(zhì)三級結(jié)構(gòu)數(shù)量較少,而且通大部分機器學(xué)習(xí)的方法仍是黑箱方法,無法對學(xué)習(xí)過程做出合理的解釋,這也是今后研究中需要考慮的問題[31]。
氨基酸序列描述符建立的細(xì)菌素類別判定模型中,k NN模型準(zhǔn)確率為0.9000,SVM模型準(zhǔn)確率為0.8269。因此說明kNN模型更適用于細(xì)菌素類別判定模型的構(gòu)建。圖4為測試集結(jié)果得到的混淆矩陣,可以觀察到IIB類細(xì)菌素在k NN模型中易于被識別為IIA類細(xì)菌素,在SVM模型中幾乎全部被識別為Lantibiotic類細(xì)菌素,分類效果不理想,有待進一步添加更多信息,增加其與其他類別細(xì)菌素的區(qū)分度。
圖4 類別判定模型測試集混淆矩陣
學(xué)術(shù)界基于蛋白質(zhì)翻譯修飾類型、二硫鍵結(jié)構(gòu)、序列相似性以及細(xì)菌素來源等多種因素,提出了許多種對細(xì)菌素的分類標(biāo)準(zhǔn)。我們根據(jù)Kumariya[32]所介紹的細(xì)菌素分類標(biāo)準(zhǔn),選取數(shù)量較多的細(xì)菌素種類進行類別判定模型的構(gòu)建,得到了較高準(zhǔn)確率的類別判定模型,說明氨基酸序列描述符較好地涵蓋了上述分類標(biāo)準(zhǔn)所要求的信息,同時也說明氨基酸序列中除排列順序以外包含著更多有待發(fā)掘的信息。細(xì)菌素發(fā)掘模型的成功建立,表明今后蛋白質(zhì)三級結(jié)構(gòu)經(jīng)補充豐富后,利用蛋白質(zhì)三級結(jié)構(gòu)中提取的描述符建立起的類別判定模型將會有更高的準(zhǔn)確率。由于IID類細(xì)菌素分類效果不明顯,III類、IV類細(xì)菌素數(shù)量過少等,我們并未對全部細(xì)菌素種類進行類別判定模型的構(gòu)建。在今后明確不同細(xì)菌素的作用機理后,通過本文介紹的提取生物大分子描述符的方法進行細(xì)菌素的重新分類將更為科學(xué)合理。另外,為了解決數(shù)據(jù)不平衡的問題,對其中幾類進行欠采樣后可能會造成數(shù)據(jù)不完整,影響模型的擬合效果[33]。
表1是發(fā)掘出的7種細(xì)菌素,根據(jù)細(xì)菌素發(fā)掘模型,判定為細(xì)菌素準(zhǔn)確度>50%的蛋白質(zhì)極有可能具有細(xì)菌素活性。通過細(xì)菌素類別判定模型預(yù)測了可能的細(xì)菌素種類,預(yù)測結(jié)果中多數(shù)為Class IIB類細(xì)菌素。因此,本文所介紹的方法能夠在大量蛋白質(zhì)中進行高效的細(xì)菌素篩選與類別判定,在進一步完善后,將成為科研人員進行細(xì)菌素發(fā)現(xiàn)與鑒定的有效輔助工具。
表1 細(xì)菌素發(fā)掘表
本研究采用數(shù)據(jù)融合的方法,建立細(xì)菌素、非細(xì)菌素蛋白質(zhì)數(shù)據(jù)集,并將數(shù)據(jù)生成數(shù)學(xué)描述符。基于RF算法建立的細(xì)菌素發(fā)掘模型,準(zhǔn)確度最高,為0.9187;k NN算法建立的細(xì)菌素類別判定模型,準(zhǔn)確度最高,為0.9000。另外,發(fā)現(xiàn)了7種可能具有抗菌作用的蛋白質(zhì),將在后續(xù)的研究中進行進一步驗證。本文建立的生物大分子描述符生成方法不僅可以用于細(xì)菌素的發(fā)掘,且對研究其他類型蛋白質(zhì)的生物功能也具有一定的借鑒意義。