王夢源 常珊珊 解云英
(中國醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 醫(yī)藥生物技術(shù)研究所 藥物合成生物學(xué)重點實驗室,北京 100050)
微生物天然產(chǎn)物一直是藥物,尤其是抗感染藥物開發(fā)的重要來源[1]。但隨著微生物天然產(chǎn)物絕對數(shù)量的增多,重復(fù)發(fā)現(xiàn)越來越嚴(yán)重,如何去除重復(fù)、更高效地發(fā)現(xiàn)新結(jié)構(gòu)天然產(chǎn)物成為微生物天然產(chǎn)物研究的一個關(guān)鍵問題。
通過基因組測序發(fā)現(xiàn)微生物還蘊(yùn)藏著大量“隱形”生物合成基因簇[2],這表明其仍是新結(jié)構(gòu)天然產(chǎn)物的重要來源。得益于測序成本的快速下降、各類分析儀器的普及以及人工智能的應(yīng)用,天然產(chǎn)物研究領(lǐng)域進(jìn)入了一個全新的模式。基于生物信息學(xué)[3]和化學(xué)信息學(xué)[4]而建立起的基因組挖掘技術(shù)正在成為微生物研究的主要方法[5-6]。過去10年間,天然產(chǎn)物相關(guān)信息學(xué)研究一直處于加速發(fā)展階段,每年都會發(fā)布大量數(shù)據(jù)庫、算法及工具[7-9],及時了解并使用這些數(shù)據(jù)庫和工具對于微生物天然產(chǎn)物研究來說至關(guān)重要,鑒于此,本文對近兩年來天然產(chǎn)物研究領(lǐng)域,新開發(fā)或更新的各種生物信息學(xué)及化學(xué)信息學(xué)工具進(jìn)行了綜述,以便研究者能夠及時了解并選擇性應(yīng)用這些工具,以提高新化合物的發(fā)現(xiàn)效率。
自從天藍(lán)色鏈霉菌中發(fā)現(xiàn)編碼天然產(chǎn)物合成酶的基因成簇排列以來[10],生物信息學(xué)對于微生物天然產(chǎn)物研究就變得越來越重要,早期的天然產(chǎn)物生物信息學(xué)主要側(cè)重于生物合成基因簇的識別,隨著基因組數(shù)據(jù)指數(shù)級的增長,逐漸轉(zhuǎn)向多個基因簇的比較分析。同時,各種類型的生物合成基因簇數(shù)據(jù)庫建立,進(jìn)一步提高了比較分析的效率。
從基因組中識別次級代謝產(chǎn)物生物合成基因簇是天然產(chǎn)物基因組挖掘的基礎(chǔ)。AntiSMASH是目前微生物天然產(chǎn)物研究領(lǐng)域使用率最高的次級代謝產(chǎn)物生物合成基因簇(BGCs)分析工具,它是一種基于分布型隱馬爾可夫模型(pHMM)數(shù)據(jù)庫的BCGs識別算法。自2011年發(fā)布以來,antiSMASH不斷進(jìn)行更新[11-16],目前已經(jīng)更新到6.1版本,能夠預(yù)測細(xì)菌、真菌和植物基因組中50余類別的生物合成基因簇,并可在基因簇水平上,通過內(nèi)置的ClusterBlast算法與“生物合成基因簇最小信息”(MiBIG) 數(shù)據(jù)庫[17]及AntiSMASH-DB[18]數(shù)據(jù)庫中的基因簇進(jìn)行比較,分析基因簇的功能及新穎性。
PRISM4[19]是另一個基因簇識別和產(chǎn)物結(jié)構(gòu)預(yù)測工具,它在產(chǎn)物結(jié)構(gòu)預(yù)測方面要強(qiáng)于antiSMASH,而且還具有活性預(yù)測功能,但其只能分析細(xì)菌基因簇。以上2種工具都是基于蛋白相似性來識別生物合成基因簇,因此它們都不能預(yù)測pHMM數(shù)據(jù)庫中不存在的、非經(jīng)典的生物合成基因簇。為了彌補(bǔ)這一不足,近來還開發(fā)了基于進(jìn)化的BGCs識別算法,如針對古菌和細(xì)菌的EvoMining算法[20],針對真菌的CO-OCCUR算法[21],基于機(jī)器學(xué)習(xí)和模式識別預(yù)測核糖體肽(RiPP)BGCs的RRE-finder[22]和DecRippter[23]算法。除此之外,基于耐藥基因的活性靶向基因簇分析工具抗生素耐藥靶標(biāo)搜尋器(ARTS)近來也進(jìn)行了更新[24],將分析范圍從原來的放線菌門擴(kuò)展到整個細(xì)菌界以及宏基因組數(shù)據(jù)。
隨著基因組測序成本的大幅下降,人們可以輕易獲得大量基因組數(shù)據(jù),為了能夠比較成千上百個生物合成基因簇的異同,科研人員開發(fā)了生物合成基因簇分析比較工具。BiSCAPE/COROSON是第一個可以對非公開的、內(nèi)部基因組數(shù)據(jù)進(jìn)行生物合成基因簇相似性分析的工具[25],它以antiSMASH的分析結(jié)果為輸入文件,根據(jù)基因簇的相似性將基因簇聚合為不同的家族(GCFs),進(jìn)一步通過與MiBIG數(shù)據(jù)庫比較分析基因簇或基因簇家族的新穎性,并通過內(nèi)置的COROSON算法進(jìn)行家族內(nèi)基因簇多樣性分析。2021年BiSCAPE/COROSON開發(fā)團(tuán)隊又發(fā)布了一個適合百萬級別BGCs相似性分析的算法BiGSLICE[26],并在此基礎(chǔ)上建立生物合成基因簇家族數(shù)據(jù)庫BiG-FAM[27],該數(shù)據(jù)庫目前包括120余萬個BGCs同源比較結(jié)果,而且BiG-FAM數(shù)據(jù)庫提供了在線瀏覽和搜索功能,不但可以瀏覽特定類型的BGC在不同微生物中的分布,還可以快速地將用戶提供的BGCs在數(shù)據(jù)庫中進(jìn)行定位,以分析其新穎性或與其他生物合成基因簇的關(guān)系。
“生物合成基因簇最小信息”數(shù)據(jù)庫(MiBIG)是目前微生物天然產(chǎn)物研究中應(yīng)用最廣泛的數(shù)據(jù)庫之一,它主要收錄經(jīng)實驗驗證的生物合成基因簇數(shù)據(jù),目前已更新到第二版,包括2050個生物合成基因簇及其相關(guān)信息[17]。MiBIG數(shù)據(jù)不但可以提供在線檢索功能,而且還提供了多種格式的下載版本,可以方便地將其整合入其他微生物天然產(chǎn)物分析流程中,目前MiBIG已整合入antiSMASH、BiG-SCAPE等多種天然產(chǎn)物分析工具中。AntiSMASH-DB是antiSMASH團(tuán)隊發(fā)布的一個高質(zhì)量預(yù)測合成基因簇數(shù)據(jù)庫,最新發(fā)布的3.0版本包括來源于388個古菌、25236個細(xì)菌以及177個真菌基因組的147517個BGCs[18]。綜合生物合成基因簇合集(IMG-ABC)是聯(lián)合基因組研究所基于其微生物基因組平臺而建立的綜合生物合成基因簇數(shù)據(jù)庫,近來發(fā)布了5.0版本,不但包括基于antiSMASH V5預(yù)測的30余萬個BGCs,而且還加入了1285個實驗驗證的BGCs[28]。Prospect是2021年新發(fā)布的一個專門針對真菌生物合成基因簇的數(shù)據(jù)庫,包含來自1037株真菌基因組的3萬余個BGCs,為真菌來源天然產(chǎn)物的基因組挖掘提供了便利[29]。
從復(fù)雜代謝產(chǎn)物中快速鑒定目標(biāo)分子結(jié)構(gòu)一直是天然產(chǎn)物發(fā)現(xiàn)過程中極具挑戰(zhàn)性的工作,近年來隨著各類分析儀器的普及以及與之相應(yīng)的數(shù)據(jù)分析處理工具和各類數(shù)據(jù)庫的不斷開發(fā)和建立,天然產(chǎn)物的鑒定效率得到了極大的提高。
質(zhì)譜因其高靈敏度及較高的普及率已成為研究復(fù)雜代謝產(chǎn)物的主要方法,近來質(zhì)譜數(shù)據(jù)的處理和分析方法發(fā)展非常迅速。首先是質(zhì)譜數(shù)據(jù)處理軟件MZmine進(jìn)行了升級,發(fā)布了3.0版[30],與2.0版相比在批處理能力上有了很大提升,而且針對不同類型質(zhì)譜儀采集的數(shù)據(jù)提供了相應(yīng)的默認(rèn)參數(shù),使數(shù)據(jù)處理過程更加友好。其次是目前天然產(chǎn)物研究領(lǐng)域最流行的質(zhì)譜分析平臺—全球天然產(chǎn)物社交分子網(wǎng)絡(luò)(GNPS)[31]平臺更新和整合了多個質(zhì)譜排重和注釋工具。GNPS主要功能是分子網(wǎng)絡(luò)分析,原理是結(jié)構(gòu)相似的化合物可以產(chǎn)生相似的質(zhì)譜碎片離子,分子網(wǎng)絡(luò)分析算法可以將其聚集成簇,同時,因整合了實驗及理論質(zhì)譜數(shù)據(jù)庫,在分析的同時可以部分實現(xiàn)化合物的排重及分類。除經(jīng)典分子網(wǎng)絡(luò)之外,GNPS平臺近來還發(fā)布了:①特征分子網(wǎng)絡(luò)(FBMN)分析流程,不但可以進(jìn)行定量分析,而且可以區(qū)分經(jīng)典分子網(wǎng)絡(luò)無法分辨的同分異構(gòu)體[32];②Moldiscovery分析流程,通過理論質(zhì)譜庫搜索可以對2000 Da以下的各類結(jié)構(gòu)分子進(jìn)行排重和注釋[33],Moldiscovery算法可以看做是之前Dereplicator+算法的升級;③CycloNovo分析流程,CycloNovo是一種基于德布萊英圖(de Bruijn graphs)的環(huán)肽從頭解析算法[34],可以從復(fù)雜質(zhì)譜數(shù)據(jù)中特異識別環(huán)肽類化合物的質(zhì)譜,并進(jìn)一步利用分子網(wǎng)絡(luò)進(jìn)行相似性分析,或利用Dereplicator/VarQuest進(jìn)行排重分析;④SIRIUS分析流程,SIRIUS是一個致力于質(zhì)譜從頭解析的軟件[35],通過高分辨質(zhì)譜同位素分布以及“碎片樹”預(yù)測分子結(jié)構(gòu),不但可以進(jìn)行理論質(zhì)譜庫搜索,而且還可以預(yù)測數(shù)據(jù)庫中不存在的新分子結(jié)構(gòu)[36]或結(jié)構(gòu)類別[37]。目前SIRIUS分析流程已整合入GNPS平臺,可以基于GNPS平臺進(jìn)行分析,也可以獨立使用。除此之外,非核糖體肽分析平臺(NORINE)近來發(fā)布了一個專門針對肽類化合物的在線排重工具NRPro[38],經(jīng)實測,它是目前準(zhǔn)確度最高的理論質(zhì)譜搜索工具,但只能接受單個化合物的MS/MS數(shù)據(jù),為了便于從LC-MS/MS數(shù)據(jù)中提取單個化合物的數(shù)據(jù),本實驗室開發(fā)了一個在線工具M(jìn)S/MS Extraction(http://www.npba-xielab.com:8501/),可以批量提取單個目標(biāo)化合物的MS/MS數(shù)據(jù)。
NMR分析一直是新結(jié)構(gòu)天然產(chǎn)物確證的金標(biāo)準(zhǔn),最近在NMR圖譜自動分析和數(shù)據(jù)庫建設(shè)方面也有了一些突破性進(jìn)展。SMART 2.1是一個基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的NMR注釋算法,可以由1H-13C HSQC圖譜自動生成可能的化學(xué)結(jié)構(gòu)[39]。DP4-AI可以自動處理和注釋13C 和1H NMR原始數(shù)據(jù)[40]。天然產(chǎn)物核磁共振數(shù)據(jù)庫(NP-MRD)[41]是NIH資助建立的一個開源天然產(chǎn)物數(shù)據(jù),自2020年建立來,快速成為世界最大的天然產(chǎn)物核磁數(shù)據(jù)庫,目前已有超過4萬個天然產(chǎn)物的NMR數(shù)據(jù),超過817000個核磁共振譜(包括實驗、模擬及預(yù)測數(shù)據(jù)),支持瀏覽、檢索、下載和上傳。
天然產(chǎn)物數(shù)據(jù)庫對天然產(chǎn)物發(fā)現(xiàn)和排重至關(guān)重要。因此,天然產(chǎn)物數(shù)據(jù)庫的建設(shè)一直伴隨著天然產(chǎn)物的整個研究過程。據(jù)統(tǒng)計,自2000年以來共建立了120余個各種類型的天然產(chǎn)物數(shù)據(jù)庫[42]。其中,含有微生物天然產(chǎn)物數(shù)據(jù)的有11個[7],近來新建立或更新的有4個,即NP Atlas[43]、Streptome-DB[44]、NORINE[45]和COCONUT[46]。NP Atlas全稱the Natural Product Atlas,是2019年新建立的專門針對微生物天然產(chǎn)物的數(shù)據(jù)庫,并于2021年發(fā)布了2.0版,包括3萬余個化合物,更新后的數(shù)據(jù)庫添加了產(chǎn)生菌完整的分類單元描述,可以非常方便地檢索和瀏覽不同分類地位微生物的天然產(chǎn)物產(chǎn)生情況;Streptome-DB是一個專門收集鏈霉菌來源天然產(chǎn)物的數(shù)據(jù)庫,目前發(fā)布了3.0版本,包括約2500個化合物;NORINE數(shù)據(jù)庫是一個專門的非核糖體肽類化合物數(shù)據(jù)庫,更新后的數(shù)據(jù)庫包括1739個化合物[45];COCONUT全稱the COlleCtion of Open Natural ProdUcTs[46],是匯總目前所有開源、可用的天然產(chǎn)物數(shù)據(jù)庫而建立的一個非冗余、可檢索的在線數(shù)據(jù)庫,它也是使用MongoDB作為存儲管理系統(tǒng)的第一個大型化學(xué)數(shù)據(jù)庫,目前包括動植物、真菌、細(xì)菌等來源的40余萬個天然產(chǎn)物化學(xué)結(jié)構(gòu)。以上所綜述的近兩年發(fā)布或更新的微生物天然產(chǎn)物生物和化學(xué)信息學(xué)工具匯總于表1中。
表1 近兩年發(fā)布或更新的微生物天然產(chǎn)物生物、化學(xué)信息學(xué)開源工具和數(shù)據(jù)庫Tab.1 Open microbial natural product related bioinformatics and cheminformatics tools and databases released or updated in recent two years
基因組學(xué)和代謝組學(xué)技術(shù)的不斷進(jìn)步,使得微生物天然產(chǎn)物研究方法發(fā)展了革命性的變革,研究者越來越依賴基因組、代謝組等大數(shù)據(jù)及與之相應(yīng)的生物信息學(xué)、化學(xué)信息學(xué)分析方法來提高新化合物的發(fā)現(xiàn)效率。天然產(chǎn)物相關(guān)信息學(xué)研究正處于快速發(fā)展階段,以分析基因組數(shù)據(jù)為主的生物信息學(xué)和以分析代謝組數(shù)據(jù)為主的化學(xué)信息學(xué)各自都有了很大的進(jìn)展,大大提高了科研工作者的工作效率。在此基礎(chǔ)上,如果能綜合利用基因組和代謝組數(shù)據(jù),新型天然產(chǎn)物的發(fā)現(xiàn)效率會得到進(jìn)一步的提高,雖然目前還沒有開發(fā)出特別有效的多組學(xué)分析工具或平臺,但信息學(xué)家已經(jīng)向這方面努力,開始建立多組學(xué)數(shù)據(jù)平臺,如2021年建立的配對組學(xué)數(shù)據(jù)平臺(PoDP)將同一來源的基因組數(shù)據(jù)和代謝組學(xué)數(shù)據(jù)連接起來[47];微生物天然產(chǎn)物數(shù)據(jù)庫NP Atlas與生物合成基因簇數(shù)據(jù)庫MiBIG及質(zhì)譜數(shù)據(jù)庫GNPS進(jìn)行了關(guān)聯(lián)[43,48];生物合成基因簇預(yù)測平臺antiSMASH與肽類化合物數(shù)據(jù)庫NORINE進(jìn)行了關(guān)聯(lián)[11]。多組學(xué)數(shù)據(jù)必將進(jìn)一步促進(jìn)多組學(xué)算法的開發(fā),提高信息學(xué)對微生物天然產(chǎn)物發(fā)現(xiàn)的指導(dǎo)作用。天然產(chǎn)物化學(xué)家一生致力于化合物的分離與鑒定的日子已經(jīng)不復(fù)存在[49],新的發(fā)展趨勢下,要求化學(xué)工作者不僅要擅長分離和結(jié)構(gòu)鑒定,而且還要能夠熟練應(yīng)用各種信息學(xué)工具,甚至進(jìn)一步開發(fā)新方法,以實現(xiàn)天然產(chǎn)物的理性、高效發(fā)現(xiàn)。