国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基因組挖掘在天然產(chǎn)物發(fā)現(xiàn)中的應(yīng)用和前景

2021-11-29 06:40:36楊謙程伯濤湯志軍劉文
合成生物學(xué) 2021年5期
關(guān)鍵詞:基因簇基因組產(chǎn)物

楊謙,程伯濤,湯志軍,劉文,2

(1 中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所,生命有機(jī)化學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200032;2 中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所,湖州生物制造中心,浙江 湖州 313000)

自然界作為活性天然產(chǎn)物的重要來(lái)源孕育了數(shù)以萬(wàn)計(jì)的生命有機(jī)體。在過(guò)去的幾十年里,絕大多數(shù)抗癌、抗感染和抗菌藥物都源于生命體所產(chǎn)生的天然產(chǎn)物及其衍生物,如青霉素、洛伐他汀、紫杉醇[1-2]。其中,許多來(lái)源于土壤、海洋及特殊環(huán)境的微生物由于能夠產(chǎn)生一系列活性顯著且具有成藥潛力的天然產(chǎn)物而備受關(guān)注,這些化合物的發(fā)現(xiàn)也為新藥創(chuàng)制開(kāi)辟了新的思路。然而,人類疾病譜的變化以及多藥耐藥等一系列問(wèn)題的出現(xiàn),使得開(kāi)發(fā)新的藥物成為人類健康的迫切需求?;诨钚詫?dǎo)向藥物發(fā)現(xiàn)的方法雖然可以從植物、動(dòng)物及微生物中分離獲得具有生物活性的小分子,但是這些篩選方法不僅耗時(shí)耗力,而且不能避免重復(fù)性、盲目性以及低效率等弊端。

基因組時(shí)代的到來(lái)為我們提供了來(lái)源于不同有機(jī)體數(shù)以萬(wàn)計(jì)的DNA(deoxyribo nucleic acid,脫氧核糖核酸)序列,這些數(shù)據(jù)不僅能夠?yàn)樯飳W(xué)各個(gè)分支學(xué)科提供豐富的物質(zhì)基礎(chǔ),同時(shí)也為天然藥物的發(fā)現(xiàn)帶來(lái)了新的曙光?;蚪M數(shù)據(jù)不僅可以用來(lái)識(shí)別潛在的藥物靶標(biāo)[3],還能用于尋找先前被忽視的次級(jí)代謝產(chǎn)物的生物合成途徑[4],定向發(fā)現(xiàn)新的天然產(chǎn)物藥物。每一個(gè)旨在預(yù)測(cè)生理或代謝特性的生物信息學(xué)研究都可以被認(rèn)為是基因組挖掘(genome mining)。然而,在與天然產(chǎn)物相關(guān)的文獻(xiàn)中,“genome mining”經(jīng)常被賦予更特殊的意義,它不再局限于通過(guò)計(jì)算模擬的方法檢測(cè)生物合成基因,還涉及到它們的功能研究,最終闡明相關(guān)的化學(xué)機(jī)制。隨著基因組數(shù)據(jù)的豐富,次級(jí)代謝產(chǎn)物的基因簇不再匱乏,更大的挑戰(zhàn)轉(zhuǎn)向了如何高效快速地鎖定具有挖掘潛力的生物合成基因簇(biosynthetic gene clusters,BGCs),從而快速地獲得藥物實(shí)體分子。在生物信息學(xué)發(fā)展的同時(shí),許多專業(yè)的網(wǎng)絡(luò)工具也被研究人員運(yùn)用到基因組數(shù)據(jù)的挖掘過(guò)程中,目前已有許多綜述進(jìn)行了報(bào)道[5-13]。本文綜述了基因組挖掘在天然產(chǎn)物發(fā)現(xiàn)中的運(yùn)用,包括最新的生物信息學(xué)工具、常用的各類數(shù)據(jù)庫(kù)以及主要的挖掘方法,并對(duì)基因組挖掘在藥物發(fā)現(xiàn)和多個(gè)學(xué)科領(lǐng)域中的影響和發(fā)展進(jìn)行了展望。

1 基因組挖掘過(guò)程中的數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)工具

數(shù)字革命正在改變?nèi)藗儍?chǔ)存、傳播和使用信息的方式。隨著關(guān)聯(lián)數(shù)據(jù)、機(jī)器學(xué)習(xí)和大規(guī)模網(wǎng)絡(luò)推理等新技術(shù)的出現(xiàn),天然產(chǎn)物研究領(lǐng)域開(kāi)始實(shí)現(xiàn)數(shù)字化實(shí)驗(yàn)數(shù)據(jù)的實(shí)時(shí)共享和大規(guī)模分析。數(shù)據(jù)庫(kù)在這方面發(fā)揮了關(guān)鍵作用,因?yàn)樗鼈冊(cè)试S對(duì)基本和高級(jí)應(yīng)用程序的數(shù)據(jù)進(jìn)行系統(tǒng)的注釋和存儲(chǔ)[14]。

1.1 天然產(chǎn)物數(shù)據(jù)庫(kù)

2020 年,Maria Sorokina 等整理了 2000 年以來(lái)所有的天然產(chǎn)物數(shù)據(jù)庫(kù),到目前正在使用的數(shù)據(jù)庫(kù)超過(guò)了120個(gè),其中只有50個(gè)可以免費(fèi)訪問(wèn)[15]。在這些數(shù)據(jù)庫(kù)中,有3個(gè)在微生物領(lǐng)域運(yùn)用最為廣泛,即NPASS、StreptomeDB 和The Natural Products Atlas。其余常用的數(shù)據(jù)庫(kù)還包括Dictionary of Natural Products(DNP)[16]、PubMed[17]、MarinLit、AntiBase、KNApSAcK[18]、Norine[19](非核糖體肽專門的數(shù)據(jù)庫(kù))和MacrolactoneDB[20]等,這些數(shù)據(jù)庫(kù)包含了來(lái)源于植物、海洋微生物、真菌及細(xì)菌等生命有機(jī)體產(chǎn)生的天然產(chǎn)物。

NPASS 是 2018 年發(fā)展起來(lái)的一個(gè)數(shù)據(jù)庫(kù)[21],旨在提供天然產(chǎn)物的來(lái)源及其生物活性。它包含了部分來(lái)自植物、無(wú)脊椎動(dòng)物和微生物天然產(chǎn)物的化學(xué)結(jié)構(gòu),共含有超過(guò)35 000 種化合物,其中大約9000種來(lái)源于微生物。StreptomeDB是一個(gè)鏈霉菌屬天然產(chǎn)物的專門數(shù)據(jù)庫(kù)[22]。在2020 年的更新信息中,該數(shù)據(jù)庫(kù)包含了7100 多個(gè)化合物的來(lái)源、生物活性及其光譜信息。The Natural Products Atlas[23]是2019年建立的一個(gè)新的數(shù)據(jù)庫(kù),它提供了所有微生物產(chǎn)生的天然產(chǎn)物衍生物的化學(xué)結(jié)構(gòu)。當(dāng)前該數(shù)據(jù)庫(kù)包含了超過(guò)25 500 個(gè)化合物,它具有一個(gè)特殊的檢索鏈接,能夠雙向連接到另外兩個(gè)天然產(chǎn)物資源庫(kù):一是生物合成基因簇的MⅠBiG (Minimum Ⅰnformation about a Biosynthetic Gene cluster)[24]數(shù)據(jù)庫(kù);另一個(gè)是天然產(chǎn)物質(zhì)譜數(shù) 據(jù) 的 GNPS (Global Natural Products Social Molecular Networking)[25]數(shù) 據(jù) 庫(kù) 。 Dictionary of Natural Products是一個(gè)非開(kāi)源數(shù)據(jù)庫(kù),主要收錄天然產(chǎn)物的來(lái)源、物理特性及其生物學(xué)數(shù)據(jù),目前已經(jīng)收錄了超過(guò)29 萬(wàn)個(gè)條目。MarinLit 是一個(gè)海洋天然產(chǎn)物的文獻(xiàn)數(shù)據(jù)庫(kù),包含超過(guò)35 000 個(gè)化合物的化學(xué)結(jié)構(gòu)、分類及其全合成數(shù)據(jù)。它是目前海洋天然產(chǎn)物最新和最全面的數(shù)據(jù)庫(kù)。值得一提的是,目前世界上最大的兩個(gè)非開(kāi)放的天然產(chǎn)物數(shù)據(jù)庫(kù):Scifinder和Reaxys。這兩個(gè)平臺(tái)包括了來(lái)自天然產(chǎn)物文獻(xiàn)的大多數(shù)天然產(chǎn)物及其衍生物、合成中間體。

1.2 生物合成基因簇?cái)?shù)據(jù)庫(kù)

自2000 年以來(lái),越來(lái)越多的基因組數(shù)據(jù)被報(bào)道,而在NCBⅠGenBank[26]中能夠找到“基因-結(jié)構(gòu)”相對(duì)應(yīng)的數(shù)據(jù)屈指可數(shù)。為了解決這一問(wèn)題,研究者開(kāi)發(fā)了一系列專門的生物合成基因簇?cái)?shù)據(jù)庫(kù),例如ClusterMine360[27]、DoBⅠSCUⅠT(Database of BⅠoSynthesis clusters CUrated and ⅠnTegrated)[28]、MⅠBiG 2.0[24]、ⅠMG-ABC[29]、antiSMASH Database[30]和Recombinant ClustScan Database[31]。ClusterMine360作為早期的生物合成基因簇分析平臺(tái),將那些通過(guò)實(shí)驗(yàn)證實(shí)的生物合成基因簇與其對(duì)應(yīng)的化合物進(jìn)行了鏈接,主要聚焦于非核糖體肽(non-ribosomal peptide,NRP)和聚酮(polyketide,PK)類化合物,它包含了超過(guò)300個(gè)天然產(chǎn)物生物合成基因簇的信息。2015年,通過(guò)150多名天然產(chǎn)物科學(xué)家的共同努力發(fā)布了“生物合成基因簇的最小信息庫(kù)”(Minimum Ⅰnformation about a Biosynthetic Gene Cluster,MⅠBiG),對(duì)已被實(shí)驗(yàn)證實(shí)天然產(chǎn)物的生物合成基因簇進(jìn)行了人工注釋[32]。利用聯(lián)合基因研究所(Joint Genome Ⅰnstitute,JGⅠ)的細(xì)菌基因組平臺(tái)發(fā)布的 ⅠMG/M[29]和 ⅠMG-ABC[29],旨在發(fā)展成為一個(gè)最全面的細(xì)菌基因組數(shù)據(jù)庫(kù),它包含已知天然產(chǎn)物的生物合成基因簇(有些信息間接地來(lái)源于MⅠBiG)的信息,并且能夠通過(guò)計(jì)算模擬預(yù)測(cè)未知生物合成基因簇的功能。到目前為止,該數(shù)據(jù)庫(kù)包含了來(lái)源于antiSMASH 和ClusterFinder算法模擬獲得的超過(guò)100萬(wàn)個(gè)生物合成基因簇。由于JGⅠ的數(shù)據(jù)使用限制,部分?jǐn)?shù)據(jù)目前處于未公開(kāi)狀態(tài)。同樣由JGⅠ開(kāi)發(fā)的真菌基因組門戶MycoCosm[33],包含超過(guò)1000 個(gè)真菌基因組信息,它通過(guò)提供交互式網(wǎng)絡(luò)工具,支持真菌基因組序列和其他“組學(xué)”(omics)數(shù)據(jù)的整合、分析和共享。2016 年, antiSMASH 的開(kāi)發(fā)團(tuán)隊(duì)發(fā)布了antiSMASH database[30-34](antiSMASH-DB),作為antiSMASH 運(yùn)行的中央存儲(chǔ)庫(kù)。與ⅠMG-ABC 不同的是,antiSMASH-DB 旨在提供一個(gè)有限的、復(fù)雜的假定生物合成基因簇列表,這些生物合成基因簇來(lái)自最高質(zhì)量的細(xì)菌基因組。在2018 年發(fā)布的第二版中,antiSMASH-DB 包含了來(lái)源于24 000 多個(gè)細(xì)菌基因組的152 000 多個(gè)生物合成基因簇[35]。

1.3 蛋白家族數(shù)據(jù)庫(kù)

蛋白質(zhì)通常由一個(gè)或多個(gè)功能區(qū)域組成,識(shí)別這些功能區(qū)域有助于預(yù)測(cè)未知蛋白的功能。UniProtKB[36]是目前世界上最大的蛋白數(shù)據(jù)庫(kù),囊括了超過(guò)2 億個(gè)非重復(fù)的條目。它分為兩個(gè)部分 : UniProtKB/SwissProt 和 UniProtKB/TrEMBL。其中,UniProtKB/SwissProt 帶有功能性的注釋,這些注釋來(lái)源于各類文獻(xiàn)中已經(jīng)被人工核實(shí)的數(shù)據(jù)。截至 2020 年 6 月,SwissProt 收錄了 563 972 個(gè)條目,由于人工注釋并不能做到面面俱到,因此它收錄的功能并不是全面的,但是SwissProt 能夠接受使用者輸入注釋數(shù)據(jù),從而達(dá)到數(shù)據(jù)庫(kù)的實(shí)時(shí)更新。在UniProtKB/TrEMBL 中,基于序列同源性的分析會(huì)進(jìn)行自動(dòng)分配注釋,系統(tǒng)會(huì)自動(dòng)將滿足條件的注釋從儲(chǔ)存序列轉(zhuǎn)移到假定的同源序列中[37]。

目前,常用的蛋白家族數(shù)據(jù)庫(kù)包括Pfam[38]和ⅠnterPro[39]。Pfam[38-40]是注釋信息最為全面的蛋白家族數(shù)據(jù)庫(kù),每個(gè)家族都由多序列比對(duì)和隱馬爾可夫模型(HMMs)表示。在最新發(fā)布的版本Pfam 33.1 中,定義了18 259 個(gè)同源家族,有70%的條目與UniProtKB 密切相關(guān)。ⅠnterPro 是一個(gè)更大的蛋白家族數(shù)據(jù)庫(kù)。截至2020 年11 月,該數(shù)據(jù)庫(kù)定義了38 345個(gè)條目,包括3326個(gè)同源超家族、22 618 個(gè)家族、11 162 個(gè)功能域。但是,并不是所有的序列都能被Pfam和ⅠnterPro所包含,因此,在蛋白質(zhì)領(lǐng)域存在著大部分尚未注釋的基因組“暗物質(zhì)”,它們可能具有某些特殊的功能[5]。為此,生物學(xué)家開(kāi)發(fā)出了一系列能夠有效挖掘蛋白和基因組數(shù)據(jù)的工具,稱為“基因組酶學(xué)計(jì)算機(jī)模擬工具”[5]。

1.4 識(shí)別生物合成基因簇的網(wǎng)絡(luò)工具

自從第一個(gè)鏈霉菌基因組被測(cè)序[41],基因組挖掘迅速成為發(fā)現(xiàn)天然產(chǎn)物的一種重要方式,人們發(fā)現(xiàn)神秘的生物合成基因簇為新穎天然產(chǎn)物的發(fā)現(xiàn)開(kāi)啟了新的篇章?;蚪M挖掘利用遺傳/基因組信息來(lái)評(píng)估微生物產(chǎn)生新化合物的遺傳潛力,通過(guò)運(yùn)用多種生物信息學(xué)工具在眾多的基因序列中識(shí)別具有潛在價(jià)值的生物合成基因簇,并根據(jù)基因簇中的信息來(lái)預(yù)測(cè)其產(chǎn)物,最終闡明生物合成過(guò)程。

序列相似性搜索是一項(xiàng)非常重要的生物信息學(xué)任務(wù)。基于局部比對(duì)搜索工具BLAST(Basic Local Alignment Search Tool)[42]和利用隱馬爾可夫模型(hidden Markov model)進(jìn)行蛋白序列分析的網(wǎng)絡(luò)工具HMMer[43]是目前最簡(jiǎn)單的序列比對(duì)工具,它們使用人工構(gòu)建的基因列表作為查詢序列,對(duì)未知蛋白進(jìn)行序列比對(duì)從而初步預(yù)測(cè)其功能。此外,DⅠAMOND[44]是一種基于雙索引的開(kāi)源算法,速度比BLASTx快20 000倍,但靈敏度與其不相上下。如今,這些分析方法已經(jīng)變得越來(lái)越復(fù)雜,常用的分析工具包括:ClustScan(Cluster Scanner)[45]、 CLUSEAN (CLUster SEquence ANalyzer)[46]、np.searcher[47]、SMURF[48]和 anti SMASH[49-50]。ClustScan 是一個(gè)用于模塊化生物合成基因簇的半自動(dòng)注釋和新型化學(xué)結(jié)構(gòu)的計(jì)算機(jī)模擬預(yù)測(cè)的集成程序包。該程序包用于快速、半自動(dòng)地對(duì)編碼模塊化生物合成酶的DNA 序列進(jìn)行注釋,包括聚酮合酶(PKS)、非核糖體肽合成酶(NRPS)和聚酮-非核糖體雜合酶(PKS/NRPS)。但由于版權(quán)限制目前只能提供用戶30 天的試用期,屬于半開(kāi)放的程序包。CLUSEAN 是一個(gè)開(kāi)放式的自動(dòng)分析細(xì)菌次級(jí)代謝產(chǎn)物生物合成基因簇的計(jì)算機(jī)框架程序。它集成了標(biāo)準(zhǔn)的分析工具,如BLAST 和HMMer,以及能夠識(shí)別非核糖體肽合成酶(NRPS)/Ⅰ型聚酮合酶(TⅠPKS)功能域和基序的特定工具,并且能夠預(yù)測(cè)NRPS 的特異性。

為了促進(jìn)真菌基因組中次級(jí)代謝產(chǎn)物生物合成基因簇的系統(tǒng)定位,Natalie D. Fedorova 等開(kāi)發(fā)了一個(gè)基于網(wǎng)絡(luò)的軟件工具——Secondary Metabolite Unique Regions Finder (SMURF)[48],它基于真菌次級(jí)代謝產(chǎn)物生物合成途徑的三個(gè)特征:①存在骨架基因;②成簇出現(xiàn);③含有特征蛋白的結(jié)構(gòu)域,對(duì)真菌基因組中的生物合成基因簇進(jìn)行預(yù)測(cè)和歸類。2011 年,Eriko Takano 等開(kāi)發(fā)一個(gè)強(qiáng)大的網(wǎng)絡(luò)工具,用于細(xì)菌和真菌基因組序列中次級(jí)代謝物生物合成基因簇的快速識(shí)別、注釋和分析,并命名為antiSMASH (antibiotics &Secondary Metabolite Analysis Shell)[49]。直至2019年,antiSMASH 5.0[50]增加了編碼酰基氨基酸、β-內(nèi)酯、真菌RiPPs等多種類型基因簇的檢測(cè)規(guī)則,尤其是對(duì)于編碼Ⅱ型PKS 生物合成基因簇提供了更多詳細(xì)的預(yù)測(cè),同時(shí)在網(wǎng)頁(yè)運(yùn)行方面也縮短了一些時(shí)間。

近幾年一些新穎的分析工具相繼被開(kāi)發(fā)使用,它們能夠解決上述算法中的缺陷:在檢測(cè)已知基因簇方面具有高特異性,但是并不會(huì)識(shí)別未知的生物合成基因簇。從基因組中預(yù)測(cè)未知類別基因簇應(yīng)該是最具優(yōu)先級(jí)的,因?yàn)檫@些基因簇可能編碼了全新骨架的分子[51]。根據(jù)文獻(xiàn)報(bào)道,目前實(shí)驗(yàn)室可培養(yǎng)的微生物只占總數(shù)的1%[52],而這1%的微生物就含有超過(guò)200 萬(wàn)株細(xì)菌或真菌(http://www.wfcc.info/ccinfo/),這意味著含有數(shù)量級(jí)的未被識(shí)別的生物合成基因簇有待開(kāi)發(fā)和挖掘。這些基因簇被人們統(tǒng)稱為“微生物的暗物質(zhì)”,它們可能存在于未被開(kāi)發(fā)的菌株中,也可能存在于像大腸桿菌這樣被研究成熟的微生物中。這就需要運(yùn)用更為復(fù)雜的算法提供強(qiáng)有力的檢索能力來(lái)識(shí)別“暗物質(zhì)”,從而成功地獲取全新的天然產(chǎn)物分子。

目前開(kāi)發(fā)了3 個(gè)研究策略:①ClusterFinder[53]算法,它首先識(shí)別基因組序列中可能的基因編碼區(qū)域,利用Pfam 數(shù)據(jù)庫(kù)對(duì)編碼區(qū)域進(jìn)行蛋白功能域注釋,然后依據(jù)Pfam 數(shù)據(jù)庫(kù)中的蛋白功能域在訓(xùn)練集生物合成基因簇中出現(xiàn)的頻率,利用HMM 將其設(shè)定為 BGC 或者 non-BGC 狀態(tài)。ClusterFinder 能夠識(shí)別出富含 BGC 狀態(tài) Pfam 數(shù)據(jù)庫(kù)功能域的基因組區(qū)域。這種策略能夠發(fā)現(xiàn)新類型的基因簇,因?yàn)椴煌肿拥纳锖铣赏緩酵孟嗤易宓拿?,如氧化還原酶、甲基轉(zhuǎn)移酶、CoA 連接酶和 P450 氧化酶[53]。②基于所有次級(jí)代謝酶都是初級(jí)代謝酶同源物這個(gè)觀點(diǎn)發(fā)展了EvoMining[54]方法,通過(guò)檢測(cè)基因組中“額外”的代謝酶,使用系統(tǒng)發(fā)育分析來(lái)識(shí)別進(jìn)化上具有明顯差異的序列,并對(duì)其上下游基因進(jìn)行功能分析,從而發(fā)現(xiàn)新的生物合成基因簇。③使用大規(guī)模的基因組序列比對(duì)。首先利用BLASTp 尋找不同基因組中的同源基因,從同源基因出發(fā)通過(guò)局部比對(duì)識(shí)別種子區(qū)域(seed regions),對(duì)種子區(qū)域進(jìn)行擴(kuò)張,鎖定基因簇邊界并進(jìn)行共線性分析(synteny analysis),最終尋找到可能編碼新穎次級(jí)代謝產(chǎn)物的基因簇[55]。這三種策略的綜合運(yùn)用可能成為未來(lái)識(shí)別生物合成基因簇最有效的方法[7]。

核糖體合成和翻譯后修飾肽(RiPPs)是從基因編碼的前體肽衍生而來(lái)的一類天然產(chǎn)物,由于不同類別前體肽缺乏共同的序列特征,因此通過(guò)計(jì)算識(shí)別其生物合成基因簇一直是極具挑戰(zhàn)的任務(wù)。最近開(kāi)發(fā)了幾種新的算法,專門進(jìn)行RiPPs的生物合成基因簇的挖掘。Andrew W. Truman 等開(kāi)發(fā)了一種用于識(shí)別不同家族RiPP 前體肽工具RiPPER,運(yùn)用該方法在放線菌中找到了新的含有硫酰胺結(jié)構(gòu)的RiPPs[56]。許多RiPPs 后修飾的發(fā)生依賴于一個(gè)稱為RiPP 識(shí)別元件(RRE)的蛋白結(jié)構(gòu)區(qū)域。RRE 與前導(dǎo)肽(leader peptide)特異性結(jié)合,并引導(dǎo)翻譯后修飾酶作用于核心肽(core peptide)。Douglas A.Mitchell 等開(kāi)發(fā)了一種基因組挖掘的工具 RRE-Finder[57],它從 UniProtKB 蛋白數(shù)據(jù)庫(kù)中調(diào)取25 000 條高可信度的RRE 蛋白序列作為樣本數(shù)據(jù)庫(kù),進(jìn)一步識(shí)別基因組中可能包含RRE 序列的生物合成基因簇。此外,還有一些新的挖掘工具也被開(kāi)發(fā)出來(lái),例如DeepRiPP[58]和RODEO (Rapid ORF Description and Evaluation Online)[59]?;蚪M挖掘過(guò)程中常用的數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)工具見(jiàn)表1。

表1 基因組挖掘的數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)工具Tab.1 Database and web tools of genome mining

2 基因組挖掘在天然產(chǎn)物發(fā)現(xiàn)中的應(yīng)用

“基因組挖掘”,幾乎與每一個(gè)生物信息學(xué)研究相關(guān)聯(lián),它可以用于檢測(cè)生物活性天然產(chǎn)物的生物合成途徑。對(duì)天然產(chǎn)物研究領(lǐng)域而言,基因組挖掘就是在沒(méi)有化學(xué)結(jié)構(gòu)的前提下,基于遺傳信息來(lái)預(yù)測(cè)和分離活性天然產(chǎn)物。根據(jù)挖掘?qū)ο蟮牟煌?,可以大致分為基于核心骨架酶的挖掘、基于抗性基因的挖掘以及基于系統(tǒng)進(jìn)化的挖掘。

2.1 基于編碼核心骨架的酶進(jìn)行挖掘

以編碼合成核心骨架的酶出發(fā),挖掘具有特定結(jié)構(gòu)片段的天然產(chǎn)物,是一種經(jīng)典的基因組挖掘方法。盡管次級(jí)代謝產(chǎn)物的結(jié)構(gòu)多種多樣,但是同一類型代謝產(chǎn)物的生源途徑往往是非常保守的,這是由于許多核心骨架生物合成的酶在序列上具有高度的相似性。如聚酮類(polyketides)、非核糖體肽類(non-ribosomal peptides)以及氨基糖苷類(aminoglycosides)。利用天然產(chǎn)物結(jié)構(gòu)與其對(duì)應(yīng)的生物合成基因一一對(duì)應(yīng)的關(guān)系,在基因?qū)用姘l(fā)現(xiàn)含有特定結(jié)構(gòu)片段的天然產(chǎn)物,指導(dǎo)新化合物的發(fā)現(xiàn)。

烯二炔類抗生素是迄今為止發(fā)現(xiàn)的抗腫瘤活性最高的天然化合物[64](圖1),其活性中心是雙鍵偶聯(lián)兩個(gè)炔鍵構(gòu)成的烯二炔核心結(jié)構(gòu),目前已有20 余例烯二炔天然產(chǎn)物陸續(xù)被報(bào)道,雖然它們的核心環(huán)不同(九元環(huán)或者十元環(huán)),但是核心的烯二炔單元卻由相同的生物合成邏輯合成,由包含編碼特殊Ⅰ型聚酮合成酶PKSE、硫酯水解酶TE和3 個(gè)未知功能蛋白在內(nèi)的5 個(gè)連續(xù)基因組成的基因盒催化完成[65-66]。聚酮合成酶PKSE 重復(fù)使用7 次,完成結(jié)構(gòu)獨(dú)特的九元(C-1027)或十元(Calicheamicin)烯二炔核心結(jié)構(gòu)的不飽和聚酮前體的合成,再由3 個(gè)未知功能的酶以及TE 催化完成核心烯二炔單元的合成。為了挖掘更多的烯二炔類天然產(chǎn)物,Shen Ben 研究組以PksE核心基因?yàn)樘结?,?duì)4889個(gè)已經(jīng)測(cè)序的微生物基因組分析,又找到51 個(gè)基因組中含有合成烯二炔結(jié)構(gòu)特征的基因盒[67];此外,他們還基于實(shí)時(shí)PCR 技術(shù),開(kāi)發(fā)了基于核心基因盒快速分析菌株是否含有合成烯二炔的基因簇的高通量方法,從3000 株菌株中找到81 株具有烯二炔生物合成基因簇[68]。以上結(jié)果表明,雖然目前發(fā)現(xiàn)的烯二炔類天然產(chǎn)物很少,但是大自然有巨大的潛力合成更多這類高活性化合物。隨著沉默基因激活技術(shù)的成熟、異源表達(dá)體系的完善、發(fā)酵分離技術(shù)的提高,有望利用基因組挖掘的方法,分離得到更多、活性更優(yōu)的烯二炔類天然產(chǎn)物。

圖1 代表性的烯二炔類化合物Fig.1 Representative compounds of Enediyne

脫水氨基酸是羊毛硫肽和硫肽類天然產(chǎn)物共同具備的特征結(jié)構(gòu)片段。Ⅰ型羊毛硫肽和硫肽的脫水氨基酸通過(guò)相同的化學(xué)機(jī)制引入[69-70]。LanB蛋白的谷氨酰化結(jié)構(gòu)域催化前體肽中絲氨酸/蘇氨酸側(cè)鏈羥基的谷氨?;罨劝彼嵯Y(jié)構(gòu)域催化谷氨酸離去形成脫水氨基酸(圖2)。Van der Donk 研究組對(duì)超過(guò)100 000 個(gè)細(xì)菌基因組進(jìn)行LanB 蛋白搜索,尋找到超過(guò)600 個(gè)與LanB 谷氨?;Y(jié)構(gòu)域同源的基因,包含這些基因的基因簇或者基因組不包括LanB 谷氨酸消除結(jié)構(gòu)域同源基因[71]。他們利用來(lái)源于Pseudomonas syringaepv.maculicolaES4326 的tgl基因簇為研究對(duì)象,揭示了一類新的核糖體肽分子pearlin 的生物合成過(guò)程。tgl簇中包含LanB 同源蛋白TglB,其催化前體肽TglA 的羧基端半胱氨?;?,在前體肽上實(shí)現(xiàn)一分子半胱氨酸的延伸。在整個(gè)生物合成過(guò)程中,不涉及對(duì)前體肽TglA 的額外修飾,前體肽僅作為骨架,接受后修飾酶識(shí)別,承載修飾對(duì)象半胱氨酸。最終,半胱氨酸被轉(zhuǎn)化為thia-Glu成熟分子。

圖2 LanB蛋白的催化機(jī)制及pearlin的生物合成過(guò)程Fig.2 Catalytic mechanism of LanB and the biosynthesis of pearlin

polytheonamide(圖3)是一種具備高細(xì)胞毒性的核糖體肽類天然產(chǎn)物,成熟分子中含有DL-交替的氨基酸序列和AsmX5Asm 的天冬酰胺N-甲基化基序,保證成熟分子形成可插入細(xì)胞膜的穩(wěn)定β-螺旋構(gòu)象[72]。D構(gòu)型非天然氨基酸的引入由依賴于S-腺苷甲硫氨酸的PoyD 蛋白負(fù)責(zé)[73],天冬酰胺的側(cè)鏈N-甲基化則由N-甲基化酶PoyE 催化形成[74]。J?rn Piel 研究組以 polytheonamide 合成途徑的前體肽基因poyA、異構(gòu)酶基因poyD、N-甲基化酶poyE作為樣本序列,分別對(duì)非冗余蛋白序列數(shù)據(jù)庫(kù)進(jìn)行BLASTp搜索,集合同時(shí)含有三者同源序列的基因組,挖掘到aer基因簇[75]。該簇導(dǎo)向發(fā)現(xiàn)了polytheonamide 類似結(jié)構(gòu)終產(chǎn)物aeronamide A(圖3),其同樣具備高細(xì)胞活性,針對(duì)HeLa 細(xì)胞的ⅠC50值為1.48 nmol/L。

圖3 polytheonamide和aeronamide A的化學(xué)結(jié)構(gòu)Fig.3 Chemical structures of polytheonamide and aeronamide A

蛋白功能總是處在不斷進(jìn)化的過(guò)程中,盡管來(lái)源于相同的祖先序列,在經(jīng)歷如基因復(fù)制、水平基因轉(zhuǎn)移等生理過(guò)程后,基因的功能趨向差異化。因此,具備一定序列同源性的蛋白可能存在催化功能上的差異性。蛋白功能的差異導(dǎo)致天然產(chǎn)物結(jié)構(gòu)的差異。從催化特定反應(yīng)的蛋白出發(fā),建立其與同源蛋白之間的進(jìn)化關(guān)系,可能尋找到催化差異反應(yīng)的同源蛋白,定位到具備新結(jié)構(gòu)的天然產(chǎn)物,表現(xiàn)出相似或者差異的生理功能。

自由基SAM 酶(rSAM,圖4)普遍存在于核糖體肽合成途徑中,其利用[4Fe-4S]簇還原性裂解S-腺苷甲硫氨酸生成5'-脫氧腺苷自由基[76]。該自由基進(jìn)一步從底物中提取氫原子,從而引發(fā)不同的反應(yīng)。Sactipeptide 分子中存在特征性的S—Cα硫醚鍵,該鍵由具有額外的C端[4Fe-4S]簇結(jié)合基序(SPASM)的自由基SAM 酶催化形成[77]。從6 個(gè)已知的催化前體肽S—Cα鍵形成的rSAM 酶出發(fā),Douglas A. Mitchell 研究組利用 PSⅠ-BLAST 建立蛋白序列文庫(kù),并利用RODEO 注釋備選蛋白本地基因組序列,對(duì)潛在的前體肽序列進(jìn)行打分,通過(guò)該流程,他們極大地?cái)U(kuò)展了Sactipeptides 類化合物的序列多樣性[78]。

不僅如此,通過(guò)對(duì)獲得的蛋白文庫(kù)進(jìn)行序列相似性網(wǎng)絡(luò)分析(sequence similarity networks,SSN),他們發(fā)現(xiàn)與QhpD 蛋白同源性較高的rSAM酶催化S—Cβ和S—Cγ的形成,不同于已知的S—Cα硫醚鍵。這一發(fā)現(xiàn)拓寬了rSAM 酶催化形成的硫醚結(jié)構(gòu)多樣性。Streptide是一類由鏈球菌產(chǎn)生的長(zhǎng)度為9個(gè)氨基酸的核糖體肽,具有特征的賴氨酸Cβ和色氨酸吲哚C7 位碳碳鍵偶聯(lián)結(jié)構(gòu),該結(jié)構(gòu)由rSAM 蛋白 StrB 催化形成[79]。Streptide 的產(chǎn)生受到簇內(nèi)shp/rgg群集感應(yīng)系統(tǒng)的調(diào)控[80]。為了在鏈球菌中獲得更多類似的受到群集感應(yīng)系統(tǒng)調(diào)控的核糖體肽類天然產(chǎn)物,Mohammad R.Seyedsayamdost研究組對(duì)集合微生物基因組和微生物組[Ⅰntegrated Microbial Genomes and Microbiomes(ⅠMG/M) System]上的2875 個(gè)鏈球菌基因組進(jìn)行了分析[81]。利用系統(tǒng)中的 Function Profile tool 進(jìn)行搜索,列出所有包含Pfam04055(rSAM 蛋白)或者TⅠGR01716(Rgg/GadR/MutR family)的基因組。最終獲得592 個(gè)同時(shí)包含rSAM 和Rgg 蛋白的潛在基因簇。對(duì)所有的rSAM 蛋白建立序列相似性網(wǎng)絡(luò),并對(duì)相應(yīng)的前體肽生成序列標(biāo)識(shí)圖(sequence logo),以確定前體肽的保守序列區(qū)域。利用這種方法,他們獲得了一系列在shp/rgg群集感應(yīng)系統(tǒng)調(diào)控下可能產(chǎn)生的核糖體肽類產(chǎn)物。它們同樣由rSAM 蛋白修飾,產(chǎn)生多種類型的化學(xué)鍵,包括碳碳鍵[81-82]、碳氧鍵[83]、碳硫鍵[84-85]。這一發(fā)現(xiàn)極大地拓展了rSAM 在核糖體肽后修飾中催化形成的結(jié)構(gòu)類型及其酶學(xué)功能。

2.2 基于抗性基因的挖掘

活性導(dǎo)向天然產(chǎn)物的發(fā)現(xiàn)一直是高通量篩選活性化合物的重要方法。近年來(lái),迅速發(fā)展的基因組測(cè)序技術(shù)使得天然產(chǎn)物的發(fā)現(xiàn)發(fā)生了革命性的變化。這種以基因組掃描為基礎(chǔ)發(fā)現(xiàn)天然產(chǎn)物的策略已經(jīng)成功地發(fā)現(xiàn)了許多新穎的代謝產(chǎn)物,并通過(guò)大量實(shí)驗(yàn)證實(shí)了這些天然產(chǎn)物能夠極大地增加其化學(xué)結(jié)構(gòu)的多樣性[86]。盡管這些挖掘方法能夠發(fā)現(xiàn)獨(dú)特的生物合成酶和特異的化學(xué)物種,但在生物活性方面卻沒(méi)有一個(gè)明確的目標(biāo),如何利用基因組數(shù)據(jù)來(lái)預(yù)測(cè)天然產(chǎn)物生物活性成為基因組挖掘的一個(gè)熱點(diǎn)。為了避免被代謝產(chǎn)物所誤傷,微生物在產(chǎn)生活性天然產(chǎn)物的同時(shí)進(jìn)化出了能夠抵抗其毒性的基因,使其能夠在產(chǎn)生防御機(jī)制的同時(shí)完整地保存自己。因此,基于抗性基因的挖掘,不僅能夠發(fā)現(xiàn)結(jié)構(gòu)多樣的天然產(chǎn)物,而且能夠預(yù)測(cè)其潛在的生物活性及其作用靶點(diǎn),為新穎藥物的發(fā)現(xiàn)提供強(qiáng)有力的研究基礎(chǔ)。宿主的抗性或者自我保護(hù)機(jī)制主要包括以下幾種(圖5):其一,外排泵(主動(dòng)運(yùn)輸代謝產(chǎn)物到細(xì)胞外);其二,對(duì)天然產(chǎn)物本身進(jìn)行修飾從而防御其帶來(lái)的傷害; 其三, 修飾宿主內(nèi)部的管家酶(housekeeping enzyme)來(lái)避免天然產(chǎn)物的抑制作用[87-89]。

自然界用于自我保護(hù)的另一種策略是編碼一個(gè)功能等價(jià)的自抗性酶(self-resistance enzyme,SRE),它是管家酶的變體。自抗性酶在序列上與管家酶高度相似,它不僅擁有管家酶的功能,同時(shí)還能抵御代謝物對(duì)宿主的傷害。SRE 往往與天然產(chǎn)物生物合成基因成簇存在,也與天然產(chǎn)物生物合成基因同時(shí)轉(zhuǎn)錄。因此,利用SRE 的序列相似性挖掘策略能夠快速地定位細(xì)菌和真菌天然產(chǎn)物的生物合成基因簇[90-91]。DNA 的復(fù)制是一個(gè)基本的生命過(guò)程。然而,這種生命過(guò)程在細(xì)菌和真菌中卻不盡相同。由于這一過(guò)程在原核生物中是高度保守的,因此抑制細(xì)菌中DNA 的復(fù)制就成為抗生素篩選的一個(gè)理想靶點(diǎn)。G.M.Savage 等從葡萄球菌中首次發(fā)現(xiàn)了能夠抑制DNA 復(fù)制的抗生素novobiocin,研究表明該化合物的作用靶點(diǎn)是一個(gè)DNA 旋回酶(DNA gyrase),它屬于Ⅱ型拓?fù)洚悩?gòu)酶的一個(gè)亞型[92]。其生物合成研究顯示,該化合物的生物合成基因簇中存在的gyrB基因編碼一種對(duì)其不敏感的管家DNA 旋回酶的變種[93-94]。由于DNA 的復(fù)制在原核生物與真核生物之間的差異,尋找共同的、具有普適性的抗性基因挖掘策略成為微生物抗生素發(fā)現(xiàn)的關(guān)鍵?;厮莸缴锖铣苫虼兀瑓⑴c蛋白質(zhì)生物合成的酶是開(kāi)發(fā)抗生素的經(jīng)典靶點(diǎn)。在蛋白質(zhì)生物合成過(guò)程中,轉(zhuǎn)運(yùn)RNA(tRNA)優(yōu)先被20 個(gè)氨基?;?tRNA 合成酶(aminoacyl-tRNA synthetases,aaRSs)編碼的同源氨基酸進(jìn)行?;?。有幾個(gè)重要的天然產(chǎn)物以此為靶點(diǎn)被挖掘,如 mupirocin[95]、thiomarinol A[96]和borrelidin[97]( 圖 6)。 在 這 些 天 然 抑 制 劑 中 ,mupirocin 被FDA 批準(zhǔn)用于治療皮膚感染性疾病膿皰瘡。

許多參與脂類合成和降解的酶都是有機(jī)體所必需的,大部分天然產(chǎn)物的生物合成基因簇以脂肪酸生物合成路徑編碼的SRE 為靶標(biāo)來(lái)實(shí)現(xiàn)自抗。來(lái)源于真菌最為著名的天然產(chǎn)物洛伐他?。╨ovastatin),是一種被FDA 批準(zhǔn)治療高膽固醇的藥物,它針對(duì)的是甲羥戊酸途徑限速步驟中的3-羥基-3-甲基戊二酰輔酶 A 還原酶(HMGR)[98]。在土曲霉中,lovastatin 由lov生物合成基因簇編碼合成,推測(cè)該化合物可能是為了對(duì)抗真菌中其他的甾醇生物合成途徑而產(chǎn)生。在其基因簇中出現(xiàn)一個(gè)雙拷貝的HMGR,通過(guò)實(shí)驗(yàn)證實(shí)該基因確實(shí)具有自抗能力[99-100]。

活性天然產(chǎn)物不僅是人類治療藥物的重要來(lái)源,也是許多農(nóng)業(yè)藥物的主要來(lái)源。支鏈氨基酸生物合成途徑(branched-chain amino acid,BCAA)是植物生長(zhǎng)的重要途徑,它不存在于動(dòng)物中,因此是高度特異性除草劑的有效靶點(diǎn)[101]。植物中的BCAA生物合成途徑是由三種酶完成的:乙酰乳酸合成酶(acetolactate synthase,ALS)、乙酰羥基異構(gòu)還原酶(acetohydroxy acid isomeroreductase,KARⅠ) 以及二羥基酸脫水酶(dihydroxy-acid dehydratase,DHAD)。DHAD 是一種重要且高度保守的植物催化酶,它催化β-脫水反應(yīng)生成α-酮酸前體,進(jìn)一步生成異亮氨酸、纈氨酸和亮氨酸,發(fā)展DHAD 的抑制劑成為制備除草劑的重要工業(yè)手段。為了鑒定可能編碼DHAD 抑制劑的天然產(chǎn)物生物合成基因簇,Tang Yi 等[102]利用SRE 策略,假定其目標(biāo)生物合成基因簇中包含一個(gè)對(duì)抑制劑不敏感的DHAD 拷貝,從DHAD 出發(fā)進(jìn)行真菌基因組掃描,結(jié)合進(jìn)化樹(shù)分析等方法從土曲霉(Aspergillus terreus)中挖掘到一個(gè)與其高度同源的基因astD,對(duì)其所在的基因簇進(jìn)行異源表達(dá)獲得了新穎的天然產(chǎn)物分子,從而發(fā)現(xiàn)了一種天然除草劑aspterric acid(圖7),并確定了其作用機(jī)制。

隨著天然產(chǎn)物生物合成基因簇的進(jìn)化,與其共簇的SRE 也會(huì)隨之而進(jìn)化,SRE 不僅能夠?yàn)榭股氐哪退幮蕴峁┬碌囊?jiàn)解,同時(shí)也為抗生素的靶點(diǎn)提供新的切入點(diǎn)。然而,從SRE 出發(fā)利用現(xiàn)有的知識(shí)和信息獲得的天然產(chǎn)物,有時(shí)并不是我們期待的目標(biāo)產(chǎn)物[103],因此,準(zhǔn)確地預(yù)測(cè)SRE 還是目前天然產(chǎn)物發(fā)現(xiàn)過(guò)程中一個(gè)極具挑戰(zhàn)性的工作。

2.3 基于系統(tǒng)進(jìn)化進(jìn)行基因組挖掘

天然產(chǎn)物的結(jié)構(gòu)多樣性是生物合成基因簇不斷進(jìn)化的結(jié)果。分子系統(tǒng)發(fā)育是一種常用的跟蹤特定基因序列的進(jìn)化足跡,并確定其與同源序列的進(jìn)化關(guān)系的技術(shù)。以系統(tǒng)發(fā)育為導(dǎo)向發(fā)現(xiàn)新天然產(chǎn)物的基本思想是根據(jù)一個(gè)生物合成基因與其各自的生物合成基因簇共同進(jìn)化,可以作為系統(tǒng)發(fā)育標(biāo)志,代表其整個(gè)生物合成基因簇的進(jìn)化路徑,通過(guò)進(jìn)化關(guān)系的遠(yuǎn)近判斷天然產(chǎn)物的新穎程度[104](圖8)。

圖8 利用標(biāo)記基因序列建立系統(tǒng)發(fā)育樹(shù)來(lái)指導(dǎo)新天然產(chǎn)物的發(fā)現(xiàn)[104]Fig.8 Phylogenetic tree built with marker gene sequences for guiding the discovery of novel natural products

利用系統(tǒng)進(jìn)化分析挖掘天然產(chǎn)物最成功的案例是芳香聚酮類化合物[105-108]。芳香族聚酮是由Ⅱ型聚酮合酶(PKS)基因簇編碼合成的,在Ⅱ型PKS 中最小的PKS 模塊包括酮基合酶α(KSα)、酮基合酶β(KSβ)和酰基載體蛋白(ACP)[106]。這三個(gè)基因參與了芳香族聚酮生物合成過(guò)程的第一步,通過(guò)催化丙二酰輔酶A(malonyl-CoA)單元的重復(fù)縮合產(chǎn)生不同長(zhǎng)度的線性聚酮鏈(圖9)。這些最小的PKS 基因可能與它們各自的生物合成基因簇共同進(jìn)化,因此可以作為系統(tǒng)發(fā)育標(biāo)記。

圖9 最小化的PKS參與不同長(zhǎng)度的線性聚酮鏈的合成Fig.9 minPKS involved in the synthesis of diverse linear polyketide chains

蒽醌類化合物(anthracyclines)是一類具有抗腫瘤活性的天然產(chǎn)物[109],其中具有代表性的多柔比星(doxorubicin)已用于臨床抗癌化療超過(guò)30 年[110]。在系統(tǒng)發(fā)育分析中,宏基因組 DNA 衍生的擴(kuò)增子序列AZ129 與已知的蒽醌類化合物斯特菲霉素(steffimycin)生物合成基因簇的序列形成一個(gè)緊密的分支,Brady 等[111]利用 AZ129 擴(kuò)增子序列作為探針從宏基因組中重新獲得的AZ129基因簇的信息學(xué)分析表明,與斯特菲霉素生物合成基因簇相比,還存在一組額外的糖生物合成基因。在白色鏈霉菌(Streptomyces albus)中對(duì)AZ129 基因簇進(jìn)行異源表達(dá)獲得一個(gè)全新的天然產(chǎn)物arimetamycin A(圖10),在體外腫瘤細(xì)胞抗增殖實(shí)驗(yàn)中,arimetamycin A 表現(xiàn)出比多柔比星更強(qiáng)的活性,并且對(duì)多柔比星耐藥的癌細(xì)胞也表現(xiàn)出中等的抗腫瘤活性[111]。

系統(tǒng)進(jìn)化分析除了利用上述編碼聚酮合成酶這類骨架形成相關(guān)的基因作為標(biāo)簽,還可以利用前體供應(yīng)基因、編碼后修飾蛋白的基因、抗性基因等特征基因作為標(biāo)簽,通過(guò)進(jìn)化關(guān)系將其與相應(yīng)的代謝產(chǎn)物關(guān)聯(lián),指導(dǎo)新結(jié)構(gòu)、新活性天然產(chǎn)物的發(fā)現(xiàn)。

3 展 望

大自然從數(shù)十億年前就開(kāi)始以“自然實(shí)驗(yàn)師”的身份進(jìn)行生物工程實(shí)驗(yàn)。為了探究自然界神秘的面紗,人們開(kāi)發(fā)了許多基于基因組與宏基因組的策略來(lái)剖析生物進(jìn)化過(guò)程中涉及的途徑,并發(fā)現(xiàn)了許多新的藥物和高效的生物催化劑(酶),同時(shí)解析了這些新的反應(yīng)機(jī)制。天然產(chǎn)物及其衍生物一直都是藥物先導(dǎo)化合物的重要來(lái)源。在天然產(chǎn)物的獲取途徑中,傳統(tǒng)的分離分析方法無(wú)法避免重復(fù)性、滯后性等問(wèn)題,這不僅耗時(shí)耗力而且無(wú)法突破代謝產(chǎn)物“黑箱子”的魔咒。隨著基因組測(cè)序技術(shù)的快速發(fā)展,以基因組學(xué)為導(dǎo)向的天然產(chǎn)物發(fā)現(xiàn)已經(jīng)成為藥物研究領(lǐng)域的重要組成部分。盡管持續(xù)更新的基因組數(shù)據(jù)為天然產(chǎn)物的研究和開(kāi)發(fā)提供了源源不斷的資源,然而,如何利用現(xiàn)有的實(shí)驗(yàn)條件和技術(shù)進(jìn)行天然產(chǎn)物的挖掘還是一項(xiàng)極具挑戰(zhàn)的任務(wù)。就微生物領(lǐng)域而言,目前所報(bào)道的微生物種群和基因組數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)已知代謝產(chǎn)物的數(shù)量,換言之,還有數(shù)以萬(wàn)計(jì)的“沉默”基因簇等待著開(kāi)發(fā)和利用。以數(shù)據(jù)為研究中心的方法正在從根本上改變自然科學(xué)的許多領(lǐng)域[112],多組學(xué)技術(shù)、系統(tǒng)生物學(xué)方法與合成生物學(xué)理論的聯(lián)合使用推動(dòng)著基因組、轉(zhuǎn)錄組和代謝組數(shù)據(jù)的自動(dòng)化高通量分析,從而更有效地將基因與有機(jī)分子連接起來(lái)?;谶@些理論的結(jié)合使用以及網(wǎng)絡(luò)工具的更新與發(fā)展,許多新穎的挖掘技術(shù)被開(kāi)發(fā)出來(lái),研究方法已經(jīng)從傳統(tǒng)上基于活性導(dǎo)向天然產(chǎn)物的發(fā)現(xiàn),轉(zhuǎn)向基于核心骨架基因、基于抗性基因以及基于系統(tǒng)進(jìn)化的基因組挖掘,通過(guò)對(duì)化學(xué)結(jié)構(gòu)、基因組和代謝組學(xué)等數(shù)據(jù)的集成為我們提供了數(shù)據(jù)的優(yōu)先排序。這樣,基因組的挖掘不僅能發(fā)現(xiàn)“終點(diǎn)”藥物分子,而且對(duì)多個(gè)研究領(lǐng)域的發(fā)展也起到了非常關(guān)鍵的承接作用。同時(shí),參與次級(jí)代謝的酶催化各種各樣的反應(yīng),這些反應(yīng)可以在合成生物學(xué)中進(jìn)化和利用。天然產(chǎn)物本身在介導(dǎo)微生物-微生物相互作用、宿主-微生物相互作用以及影響疾病、生長(zhǎng)發(fā)育等方面都發(fā)揮著重要作用。許多合成化學(xué)家通過(guò)合成結(jié)構(gòu)復(fù)雜、活性顯著的有機(jī)小分子從而開(kāi)發(fā)了許多高效、綠色環(huán)保的合成路線,加快了藥物合成的步伐。生物學(xué)家通過(guò)研究生命體內(nèi)包括轉(zhuǎn)錄、調(diào)控以及相應(yīng)的酶學(xué)機(jī)制,闡明了生命傳承過(guò)程中許多重要的途徑。天然產(chǎn)物研究改革與創(chuàng)新正在創(chuàng)建一種多領(lǐng)域多學(xué)科交叉的研究模式,這種方式匯聚了多種學(xué)習(xí)方法、理論基礎(chǔ)以及實(shí)時(shí)更新的網(wǎng)絡(luò)信息學(xué)技術(shù)。如今,隨著科技的快速發(fā)展,人工智能(artificial intelligence)在各個(gè)領(lǐng)域都開(kāi)始嶄露頭角,在科技時(shí)代如何把握技術(shù)的更新和運(yùn)用將成為基因組挖掘研究領(lǐng)域發(fā)展的一大挑戰(zhàn)。

猜你喜歡
基因簇基因組產(chǎn)物
低共熔溶劑在天然產(chǎn)物提取中的應(yīng)用
牛參考基因組中發(fā)現(xiàn)被忽視基因
《天然產(chǎn)物研究與開(kāi)發(fā)》青年編委會(huì)
冬瓜高通量轉(zhuǎn)錄組測(cè)序及分析
腸球菌萬(wàn)古霉素耐藥基因簇遺傳特性
遺傳(2015年5期)2015-02-04 03:06:55
海洋稀有放線菌 Salinispora arenicola CNP193 基因組新穎PKS 和NRPS基因簇的發(fā)掘
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
有趣的植物基因組
動(dòng)物雙歧桿菌RH胞外多糖基因簇的克隆及分析
基因組生物學(xué)60年
贵阳市| 莎车县| 长寿区| 特克斯县| 大洼县| 清远市| 彰化县| 韶山市| 哈尔滨市| 昭觉县| 洛阳市| 武清区| 遵义市| 肥乡县| 十堰市| 庆城县| 鄂尔多斯市| 博白县| 桐柏县| 进贤县| 雅安市| 张家界市| 唐河县| 扎赉特旗| 环江| 华蓥市| 乐陵市| 黎城县| 南溪县| 富锦市| 盐山县| 峡江县| 息烽县| 孟连| 扎兰屯市| 民权县| 宜宾市| 德令哈市| 昔阳县| 清原| 绿春县|