張禮文,István MOLNáR,徐玉泉
(1 中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,北京 100081;2 美國亞利桑那大學(xué)西南天然產(chǎn)物研究中心,亞利桑那州 圖森85706,美國)
通過測(cè)序和注釋,發(fā)現(xiàn)真菌基因組中存在大量參與非核糖體多肽天然產(chǎn)物生物合成的基因簇[1],具有合成結(jié)構(gòu)多樣化合物的巨大潛力[2]。大多數(shù)真菌非核糖體多肽合成酶(nonribosomal polypeptide synthetase,NRPS)包括多個(gè)由腺苷?;╝denylation,A)、巰基化(thiolation,T)和縮合(condensation,C)等結(jié)構(gòu)域組成的模塊。在生物合成的過程中,腺苷?;Y(jié)構(gòu)域先將氨基酸或羥基酸前體單元加載到巰基化結(jié)構(gòu)域上,然后縮合結(jié)構(gòu)域縮合前體單元和中間產(chǎn)物合成非核糖體多肽[3]。除了這3個(gè)核心結(jié)構(gòu)域,非核糖體多肽合成酶還可能包含修飾前體單元或中間產(chǎn)物甲基化、差向異構(gòu)化的結(jié)構(gòu)域,以及終止延伸和釋放產(chǎn)物、末端縮合等功能的結(jié)構(gòu)域,從而使合成的產(chǎn)物結(jié)構(gòu)更加復(fù)雜多樣。
肉座菌目蟲生真菌能夠產(chǎn)生大量具有抗菌、殺蟲、抗癌、調(diào)節(jié)免疫等活性的天然產(chǎn)物,如環(huán)孢霉素和白僵菌素等,具有重要藥用和農(nóng)用價(jià)值[3-8]。通過基因缺失和互補(bǔ)、異源表達(dá)、化合物結(jié)構(gòu)解析等方法,闡明了部分肉座菌目蟲生真菌天然產(chǎn)物生物合成基因簇的功能,如合成破壞素(destruxins)、白僵菌素(beauvericin)、白僵菌環(huán)四肽(bassianolide)和serinocyclins 等[9-13],然而,很多基因簇在常規(guī)實(shí)驗(yàn)室條件下不表達(dá),因此絕大多數(shù)基因簇的產(chǎn)物未知[14-15]。在過去數(shù)年中,使用特定方法激活沉默基因簇的表達(dá)在發(fā)現(xiàn)新型真菌天然產(chǎn)物方面雖然取得了重大進(jìn)展[1,16-17],然而,面對(duì)數(shù)以千萬計(jì)的生物合成基因簇,通過實(shí)驗(yàn)的手段鑒定其功能十分費(fèi)時(shí)費(fèi)力。如何高效選取最具合成新穎天然產(chǎn)物潛力的基因簇成為亟待解決的問題。因此,本研究基于隱馬爾可夫模型從蟲生真菌基因組中預(yù)測(cè)可能合成非核糖體多肽類天然產(chǎn)物的非核糖體多肽合成酶,通過構(gòu)建序列相似性網(wǎng)絡(luò)將其分類,并與已知產(chǎn)物的標(biāo)簽結(jié)構(gòu)域進(jìn)行比較,從而推測(cè)出可能合成新穎產(chǎn)物的生物合成基因簇。準(zhǔn)確有效預(yù)測(cè)基因乃至基因簇的功能,不僅可以指導(dǎo)大規(guī)模實(shí)驗(yàn)鑒定和篩選,而且也為后續(xù)利用組合生物合成改造天然途徑提供了候選的基因元件。
本研究使用來自SwissProt(2019年發(fā)行版)審核和人工注釋的全部真菌蛋白作為標(biāo)簽蛋白。40種肉座菌目蟲生真菌的基因組序列和預(yù)測(cè)的蛋白序列來自于NCBⅠ數(shù)據(jù)庫。使用基于隱馬爾可夫模型(hidden Markov model,HMM)的 HMMSearch 方法預(yù)測(cè)腺苷酰化(PFAM00501.21) 和縮合(PFAM00668.13) 等結(jié)構(gòu)域 (表 1),并使用Python 提取相應(yīng)的序列。來自于SwissProt 已知功能的結(jié)構(gòu)域被定義為“標(biāo)簽”結(jié)構(gòu)域。
表1 非核糖體多肽合成酶結(jié)構(gòu)域注釋Tab.1 Annotion for NRPS domains in hypocrealean entomopathotenic fungi(HEF)
為了建立序列相似性網(wǎng)絡(luò),使用BLASTp程序計(jì)算數(shù)據(jù)集中每一對(duì)腺苷酰化結(jié)構(gòu)域的氨基酸序列一致性(identity)、覆蓋率(coverage)和e-value。經(jīng)統(tǒng)計(jì)分析得出,一致性數(shù)據(jù)在20%~60%區(qū)間符合正態(tài)分布的規(guī)律,高于60%則逐漸偏離正態(tài)分布,離群值的下邊界為62.06%,這表明當(dāng)兩個(gè)腺苷酰化結(jié)構(gòu)域的氨基酸序列一致性高于62.06%時(shí)為“真”相似的概率較高。因此在構(gòu)建網(wǎng)絡(luò)和聚類時(shí),將一致性0 參數(shù)的閾值設(shè)定為62.06%。類似地,覆蓋率值通常在91%~99%之間,低于75%為異常值,因此覆蓋率的閾值設(shè)定為75%。圖形可視化使用Cytoscape ver 3.7.2。利用馬爾可夫聚類算法(MCL),根據(jù)序列相似性矩陣來識(shí)別相關(guān)節(jié)點(diǎn)的分支。再根據(jù)NRPS的結(jié)構(gòu)域組成,并結(jié)合MultiGeneBlast 評(píng)估的特定分支中基因簇的相似性,來進(jìn)一步分析特定分支的特點(diǎn)并預(yù)測(cè)可能的代謝產(chǎn)物。
2014—2019年期間,已發(fā)表的肉座菌目蟲生真菌基因組序列數(shù)量大幅增加:2014 年以前為8 個(gè),2014年以后增至31個(gè),這為分析天然產(chǎn)物的合成潛力、比較基因簇之間的異同提供了豐富的數(shù)據(jù)。本研究選取的40種真菌來自于白僵菌屬(Beauveria)、冬蟲夏草屬(Cordyceps和Ophiocordyceps)、被毛孢屬(Hirsutella)、座殼孢屬(Hypocrella或Aschersonia)、棒束孢屬(Isaria)、輪枝孢屬(Lecanicillium)、莫勒菌屬(Moelleriella)、彎頸霉屬(Tolypocladium)等,為農(nóng)業(yè)上應(yīng)用廣泛的生防真菌,也是常用的藥用真菌(菌種目錄詳見http://www.researchgate.net/publication/354887574_Table S1)。
通過HMMsearch檢索所得的腺苷?;Y(jié)構(gòu)域、縮合結(jié)構(gòu)域和非核糖體多肽合成酶數(shù)量見表1、表2。腺苷?;Y(jié)構(gòu)域的氨基酸序列一致性的25%分位數(shù)為27.70%,75%分位數(shù)為41.30%,離群值的下邊界為62.06%。覆蓋率值通常在91%~99%之間,異常值低于75%。因此,在后續(xù)分析中,分別選擇62.06%和75%作為一致性和覆蓋率的閾值,從而得到了182 個(gè)腺苷酰化結(jié)構(gòu)域的分支(clade)。
表2 非核糖體多肽合成酶統(tǒng)計(jì)信息Tab.2 Statistic summary of NRPSs in hypocrealean entomopathotenic fungi(HEF)
序列相似性網(wǎng)絡(luò)(sequence similarity network,SSN)能夠通過同源蛋白之間成對(duì)的序列相似關(guān)系,自動(dòng)化評(píng)估蛋白的分類,并從家族/亞家族之間的關(guān)系來研究特定蛋白的功能。在SSN 中,每個(gè)蛋白用一個(gè)符號(hào)(“節(jié)點(diǎn)”)表示;如果兩個(gè)節(jié)點(diǎn)的序列相似性超過指定閾值,則通過一條線(“邊”)連接。已有多篇文章綜述了SSN 在蛋白質(zhì)序列與功能研究中的成功應(yīng)用[18-20]。
腺苷酰化和縮合結(jié)構(gòu)域均已成功用于非核糖體多肽合成酶系統(tǒng)發(fā)育研究[4,21-26]。本研究在網(wǎng)絡(luò)構(gòu)建和聚類分析腺苷?;Y(jié)構(gòu)域的基礎(chǔ)上,分析了部分非核糖體多肽合成酶的模塊和結(jié)構(gòu)域組成,以及所在的基因簇特征。研究結(jié)果顯示肉座菌目蟲生真菌的基因組中廣泛存在功能未知的非核糖體多肽合成酶家族,即使在親緣關(guān)系十分接近的種屬之間,它們?cè)诨蚧蚧虼厮缴弦泊嬖诟叨茸儺愋?,表明肉座菌目蟲生真菌是合成新型非核糖體多肽類天然產(chǎn)物的潛在資源。
大多數(shù)非核糖體多肽合成酶具有多個(gè)腺苷酰化結(jié)構(gòu)域,因此,利用對(duì)腺苷?;Y(jié)構(gòu)域進(jìn)行聚類分析來闡明合成酶的功能并預(yù)測(cè)產(chǎn)物結(jié)構(gòu)變得十分復(fù)雜。在真菌聚酮合酶中,酮脂酰合酶(ketoacyl synthase,KS)結(jié)構(gòu)域往往可以代表整個(gè)酶的特征;與此相對(duì)的,非核糖體多肽合成酶被視為具有不同系統(tǒng)發(fā)育特征的模塊復(fù)合體,而腺苷?;Y(jié)構(gòu)域的聚類則代表其所在模塊的特征。收集到的2676 個(gè)腺苷?;Y(jié)構(gòu)域(包括302 個(gè)已知功能的標(biāo)簽結(jié)構(gòu)域)的氨基酸序列平均一致性為36.30%,其中2358 個(gè)被成功地分為174 個(gè)分支(不含聚酮合酶-非核糖體多肽合成酶雜合酶中的腺苷?;Y(jié)構(gòu)域)。由于數(shù)目較多,本文圖中僅列出具有5 個(gè)以上節(jié)點(diǎn)的分支簇,且排除了參與短鏈脂肪酸合成的?;o酶A 連接酶(http://www.researchgate.net/publication/354887574_Table S1)。由此產(chǎn)生的網(wǎng)絡(luò)可將腺苷酰化結(jié)構(gòu)域分為多模塊、雙模塊、單模塊和雜合的非核糖體多肽合成酶。這與先前報(bào)道的系統(tǒng)發(fā)育分析基本一致,即真菌非核糖體多肽合成酶分為兩大分支:遠(yuǎn)古起源的單/雙模塊和新近起源的多/雙模塊[24,27-28]。
肉座菌目蟲生真菌基因組預(yù)測(cè)的2440 個(gè)腺苷酰化結(jié)構(gòu)域中,有1056 個(gè)來自于多模塊的非核糖體多肽合成酶(圖 1)[9,11-14,29-30],這類合成酶僅發(fā)現(xiàn)于真菌基因組,其腺苷?;Y(jié)構(gòu)域可能由垂直遺傳、基因重排(如復(fù)制、插入和丟失)或水平轉(zhuǎn)移事件進(jìn)化而來[4,24],是發(fā)現(xiàn)新型活性產(chǎn)物的寶貴資源。
圖1 肉座菌目蟲生真菌多模塊非核糖體多肽合成酶的相似性網(wǎng)絡(luò)圖Fig.1 Network for the subgroups of multi-modular NRPSs in Hypocrealean Entomopathogenic fungi
這些多模塊非核糖體多肽合成酶中,絕大多數(shù)的產(chǎn)物是未知的。如圖1 所示,第52~64 分支的非核糖體多肽合成酶形成了一個(gè)較大的超級(jí)分支(super clade)。根據(jù)氨基酸序列相似性,這些合成酶的最后一個(gè)結(jié)構(gòu)域?qū)儆诃h(huán)肽類的終端縮合結(jié)構(gòu)域,可以通過分子內(nèi)環(huán)化釋放延伸的肽鏈,因此推測(cè)其產(chǎn)物是環(huán)肽類化合物。其中,52~60分支可以進(jìn)一步劃分為3 種含有4 個(gè)以上模塊的非核糖體多肽合成酶,其代表為B. bassiana的BBA_06727、M. robertsii的 MAA_09953 和 MAA_09772(圖 1)。通過系統(tǒng)發(fā)育分析,這些非核糖體多肽合成酶曾被歸為“昆蟲病原菌特有”的進(jìn)化分支[3-4]。與BBA_06727 相似的蛋白有13 個(gè),結(jié)構(gòu)域組成均為(AT)-(CAT)-(CAT)-(CAT)-(CT),它們的第1 個(gè)腺苷?;Y(jié)構(gòu)域歸于第53 個(gè)分支,第3 個(gè)腺苷?;Y(jié)構(gòu)域歸于第54分支,第2個(gè)和第4個(gè)腺苷?;Y(jié)構(gòu)域均歸于分支52a。同一個(gè)非核糖體多肽合成酶中的兩個(gè)腺苷?;Y(jié)構(gòu)域聚類在一起通常表明它們來源于進(jìn)化上的復(fù)制事件。這一類非核糖體多肽合成酶所在的基因簇中還含有編碼細(xì)胞色素P450 單加氧酶和轉(zhuǎn)運(yùn)蛋白的基因[圖2(a)]。BBA_06727 的轉(zhuǎn)錄在昆蟲感染期間被激活[27],表明可能在昆蟲致病過程中起作用。52b~52h 亞分支和第55 分支的非核糖體多肽合成酶(如MAA_09953)存在于6 種綠僵菌屬真菌基因組中,其結(jié)構(gòu)域組成均為(AT)-(CAT)-(CATE)-(CAT)-(CAT)-(CAT)-(CAT)-(CT),所在基因簇中還包含編碼細(xì)胞色素P450 單加氧酶、β-內(nèi)酰胺酶和轉(zhuǎn)運(yùn)蛋白的基因。以MAA_09772 為代表的非核糖體多肽合成酶在8 種綠僵菌屬真菌中十分保守,具有(AT)-(CAT)-(CATE)-(CAT)-(CAT)-(CAT)-(CTT)的結(jié)構(gòu)域組成,其腺苷?;Y(jié)構(gòu)域歸于分支59、亞分支52i~52n、分支60,相應(yīng)的合成基因簇包含細(xì)胞色素P450 單加氧酶、Ser/Thr 蛋白磷酸酶和兩個(gè)轉(zhuǎn)運(yùn)蛋白的基因。亞分支52o 和分支58 的腺苷?;Y(jié)構(gòu)域也來源于相同的非核糖體多肽合成酶,其結(jié)構(gòu)域的組成為(AT)-(CATE)-(CT)-(CT),基因簇含有編碼細(xì)胞色素P450 單加氧酶、兩種氨基轉(zhuǎn)移酶、脫羧酶、雙加氧酶和含有腺苷酰化結(jié)構(gòu)域的連接酶/合成酶的基因。值得注意的是,超級(jí)分支52中幾乎所有的分支都是通過52i中的一個(gè)節(jié)點(diǎn)連接的,這個(gè)節(jié)點(diǎn)對(duì)應(yīng)于M.rileyi基因組中NOR_07696 的第2 個(gè)腺苷?;Y(jié)構(gòu)域(介數(shù)betweenness為0.826),表明這個(gè)腺苷?;Y(jié)構(gòu)域與共同的祖先最為相似。分支59~61中來自于線蟲草科(Ophiocordycipitaceae)和麥角菌科(Clavicipitaceae)的非核糖體多肽合成酶也通過NOR_07696相連。
圖2 肉座菌目蟲生真菌基因簇分析Fig.2 Analysis of representative biosynthetic gene clusters in hypocrealean entomopathogenic fungi
分支46~51 對(duì)應(yīng)的非核糖體多肽合成酶可能產(chǎn)生peptaibols 類線性多肽[30],其前體單元除氨基酸外,還包括由基因簇中其他酶合成的非常規(guī)前體。這些多模塊非核糖體多肽合成酶大多來自Trichotheciam和Tolypocladium屬真 菌[30],由 8 個(gè)以上CAT 模塊組成,有的還具有特殊模塊或結(jié)構(gòu)域,如T. inflatum的ctg24_orf003 具有一個(gè)酮酯酰合成酶和丙二酰/酰基轉(zhuǎn)移酶結(jié)構(gòu)域組成的加載模塊。O.australis的CDD81_5223 的終端結(jié)構(gòu)域?yàn)榱蝓ッ附Y(jié)構(gòu)域,而不是CT。這些非核糖體多肽合成酶所在的基因簇并不保守,普遍存在轉(zhuǎn)氨酶基因,可能用于合成非常規(guī)氨基酸前體。
當(dāng)非核糖體多肽合成酶兩兩比較時(shí),經(jīng)常發(fā)現(xiàn)它們的部分腺苷酰化結(jié)構(gòu)域能夠聚類在一起,而其余腺苷?;Y(jié)構(gòu)域則屬于不同的分支。例如,來自T.paradoxum的TPAR_05120 對(duì)應(yīng)于綠僵菌屬破壞素合成酶DtxS1 的第1 和第3 個(gè)結(jié)構(gòu)域,而TPAR_01525 則與 DtxS1 的第 5 或第 6 模塊相似[圖2(b)]。這種嵌套關(guān)系展示了非核糖體多肽合成酶復(fù)雜的進(jìn)化過程,使其產(chǎn)物有不同的結(jié)構(gòu)和生物學(xué)功能。
除此之外,一些分支包含產(chǎn)物已知的非核糖體多肽合成酶,具有相同的結(jié)構(gòu)域組成,所在的基因簇也高度相似,可能產(chǎn)生與已知化合物結(jié)構(gòu)類似的產(chǎn)物。其中,分支75~76 包含白僵菌素/白僵菌環(huán)四肽合成酶的腺苷?;Y(jié)構(gòu)域[11,31],分支27~32 和 33~39 則 分 別 包 含 破 壞 素[9-10]和serinocyclin[13]合成酶的腺苷?;Y(jié)構(gòu)域(圖1),說明這些分支中的菌株具有合成殺蟲化合物的潛力。
如圖3 所示,單/雙模塊的非核糖體多肽合成酶包括賴氨酸生物合成途徑中還原α-氨基己二酸的L-氨基己二酸半醛脫氫酶(分支23)[24],參與形態(tài)發(fā)育但產(chǎn)物未知的ChNPS10 合成酶(分支15)[40],產(chǎn)生聚硫二酮哌嗪的 ChNPS11/ETP 毒素合成酶(分支12 和13)等[41],其合成的代謝物參與了真菌重要的生物過程,如性發(fā)育、生殖、分生孢子發(fā)育等,因此在基因組中也較為保守[24,32-39]。其中,部分基因的生理功能已有研究,但其合成產(chǎn)物仍然未知。
圖3 肉座菌目蟲生真菌單模塊和雙模塊非核糖體多肽合成酶的相似性網(wǎng)絡(luò)圖Fig.3 Overview of the A domain distance network for monomodular,bimodular or siderophore-like NRPSs in Hypocrealean entomopathogenic fungal species
鐵載體是一種低分子量的鐵螯合物,可分為胞外和胞內(nèi)兩種類型,因與病原真菌的致病性相關(guān)而受到廣泛關(guān)注[37]。鐵載體合成酶具有保守的結(jié)構(gòu)域,合成產(chǎn)物的結(jié)構(gòu)和生物學(xué)功能相似,在各種營養(yǎng)模式的真菌中廣泛分布,包括動(dòng)植物病原菌和腐生菌。鐵載體合成酶是多模塊的非核糖體多肽合成酶,在系統(tǒng)發(fā)育中屬于較新的分支,然而由于其序列和功能的保守性,將它們與單/雙模塊的非核糖體多肽合成酶一起分析。大部分肉座菌目蟲生真菌的基因組中都有鐵載體合成酶NPS2/SidC(分支 1~4)[36]、NPS6(分支 9)[39]、SidN(分支7 和8)[38]和/或 SidⅠ(分支21)[37]的編碼基因。值得注意的是,分支5 和6 的腺苷?;Y(jié)構(gòu)域與NPS2/SidC 的第1 個(gè)腺苷?;Y(jié)構(gòu)域具有很近的親緣關(guān)系,但其所屬的非核糖體多肽合成酶與NPS2/SidC截然不同:僅有一個(gè)模塊,幾乎只存在于白僵菌/冬蟲夏草屬真菌中,與醇脫氫酶、細(xì)胞色素P450 單加氧酶、聚酮合酶或聚酮合酶-非核糖體多肽合成酶編碼基因成簇存在。這表明該分支的類SidC 非核糖體多肽合成酶可能是通過基因復(fù)制從鐵載體合成酶進(jìn)化而來,并獲得了不同的功能。分支10~11 的雙模塊非核糖體多肽合成酶與人類病原菌A.fumigatus的SidE相似[42]。SidE盡管與NPS2/SidC鐵載體合成酶有著密切的系統(tǒng)發(fā)育關(guān)系,但其產(chǎn)物不是鐵載體,而是反丁烯二酰丙氨酸,其結(jié)構(gòu)與已知具有免疫調(diào)節(jié)活性的藥物十分相似[42]。在球孢白僵菌中,類SidE 編碼基因BBA_07589 在感染小菜蛾期間上調(diào)[27]。因此,分支10~11 的非核糖體多肽合成酶可能產(chǎn)生類似反丁烯二酰丙氨酸的產(chǎn)物,用于抵抗宿主免疫系統(tǒng)的攻擊。
分支16~20 的腺苷?;Y(jié)構(gòu)域來自于單模塊非核糖體多肽合成酶。其中,分支16 主要存在于白僵菌/冬蟲夏草屬真菌的基因組中,它們的編碼基因與羧肽酶、雙加氧酶、鐵(Ⅱ)加氧酶、酰胺水解酶、磷酸酯酶和轉(zhuǎn)運(yùn)體蛋白等基因共同組成基因簇,其中一些基因簇還編碼聚酮合酶-非核糖體多肽合成酶雜合酶、酮基還原酶、烯基還原酶、甲基轉(zhuǎn)移酶和細(xì)胞色素P450 蛋白。分支17 中的腺苷?;Y(jié)構(gòu)域主要存在于綠僵菌中,它們的基因簇含有一個(gè)寡肽轉(zhuǎn)運(yùn)蛋白基因,但沒有修飾酶基因。分支19~20 中的腺苷酰化結(jié)構(gòu)域存在于大多數(shù)已測(cè)序的綠僵菌屬真菌中,與LpsC 或LpsB型麥角生物堿非核糖體多肽合成酶十分相似[32],其基因簇中包含萜烯合成酶,可能產(chǎn)生麥角酸α-羥乙基酰胺型或麥角堿類產(chǎn)物[43]。
肉座菌目蟲生真菌是一個(gè)極有特色的真菌類群,它們?cè)诓煌那闆r下從植物病原菌和腐生真菌進(jìn)化成為昆蟲病原菌,并發(fā)展出多種侵染昆蟲、抑制其免疫系統(tǒng)、利用昆蟲作為自身營養(yǎng)源的機(jī)制。同時(shí),許多肉座菌目蟲生真菌還保持著與植物共生以及營腐生生活的能力,研究它們的生物合成基因簇不僅有助于理解天然產(chǎn)物在生物和非生物相互作用中的功能,也有助于挖掘臨床、獸用或農(nóng)用藥物分子。
近年來基因組測(cè)序成本持續(xù)降低,基因組分析工具不斷完善,公共數(shù)據(jù)庫中高質(zhì)量真菌基因組序列數(shù)量激增,這些極大改變了基因和基因簇功能研究的模式。利用簡(jiǎn)并引物PCR、黏?;蛭膸旌皖愃频膫鹘y(tǒng)方法迅速被基于組學(xué)方法的基因功能研究所取代,如產(chǎn)生活性代謝產(chǎn)物的真菌菌株的基因組草圖測(cè)序與分析、基于目標(biāo)產(chǎn)物結(jié)構(gòu)的逆生物合成分析、針對(duì)產(chǎn)生類似產(chǎn)物菌株的比較基因組分析以及在產(chǎn)生和不產(chǎn)生目標(biāo)代謝產(chǎn)物的條件下的轉(zhuǎn)錄組分析等。類似的基因組學(xué)方法已經(jīng)成為挖掘活性代謝產(chǎn)物及其合成基因簇的主要手段。
越來越多的基因組序列也使得人們發(fā)現(xiàn)了大量產(chǎn)物未知的生物合成基因簇。利用異源表達(dá)方法,將基因簇轉(zhuǎn)入較為成熟的底盤細(xì)胞中激活并表達(dá),逐漸成為天然產(chǎn)物挖掘以及生物合成途徑研究的主流方法之一。然而,這些方法仍然面臨著重復(fù)發(fā)現(xiàn)已知產(chǎn)物的問題。因此,盡可能準(zhǔn)確地預(yù)測(cè)這些未知基因簇的功能、篩選最具潛力的研究對(duì)象是十分有必要的。對(duì)未知基因和基因簇進(jìn)行聚類分析可以:①發(fā)現(xiàn)與合成已知活性產(chǎn)物的基因簇相似的基因簇,從而得到活性產(chǎn)物的類似物,例如分支75~76、分支27~32 的合成酶產(chǎn)生具有殺蟲、抗菌、細(xì)胞毒性等活性的白僵菌素/白僵菌環(huán)四肽、破壞素類化合物,分支10~11 的合成酶產(chǎn)生可能具有免疫調(diào)節(jié)活性的類似反丁烯二酰丙氨酸的化合物;②挖掘全新的生物合成基因簇,得到新結(jié)構(gòu)、新功能的化合物,例如分支52~64 的合成酶可合成4~8 個(gè)氨基酸單體組成的環(huán)肽,這些合成酶與已知功能的非核糖體多肽合成酶的序列差異較大,且僅發(fā)現(xiàn)于肉座菌目蟲生真菌基因組中。由于大部分基因在實(shí)驗(yàn)室常規(guī)培養(yǎng)條件下不表達(dá),因此,研究其產(chǎn)物需要進(jìn)行異源表達(dá)、調(diào)控因子激活/抑制或其他轉(zhuǎn)錄激活方法。此外,在利用合成生物學(xué)方法創(chuàng)制新結(jié)構(gòu)人工產(chǎn)物方面,可根據(jù)聚類分析的結(jié)果,選取特定功能的基因或基因簇,異源表達(dá)部分基因簇、或來源于不同基因簇的基因(即組合生物合成)從而改造已知化合物。
通過對(duì)腺苷?;Y(jié)構(gòu)域的聚類來預(yù)測(cè)真菌非核糖體多肽合成酶的功能也存在一定的局限性。即使在系統(tǒng)發(fā)育上接近且整體氨基酸序列一致性很高的腺苷?;Y(jié)構(gòu)域之間,其底物范圍也有可能顯著不同,如在酶的活性部位的關(guān)鍵氨基酸位點(diǎn)發(fā)生改變,就可能改變被激活的氨基酸單體的范圍。與原核生物相比,真菌腺苷?;Y(jié)構(gòu)域的底物選擇性預(yù)測(cè)還不夠精確,這是因?yàn)楝F(xiàn)有的預(yù)測(cè)算法往往是根據(jù)細(xì)菌來源的非核糖體多肽合成酶構(gòu)建和訓(xùn)練的。因此,為了更好地建立蛋白序列與產(chǎn)物結(jié)構(gòu)之間的映射關(guān)系、從而實(shí)現(xiàn)更加準(zhǔn)確的功能預(yù)測(cè),需要更豐富完善的數(shù)據(jù)庫和更加先進(jìn)的分析方法。