王雪竹,羅曉霞,張利莉*
(1塔里木大學(xué)生命科學(xué)與技術(shù)學(xué)院,新疆 阿拉爾 843300)
(2塔里木盆地生物資源保護(hù)利用兵團(tuán)重點(diǎn)實(shí)驗(yàn)室,新疆 阿拉爾 843300)
學(xué)者們從放線菌、其他細(xì)菌和真菌中發(fā)現(xiàn)的天然產(chǎn)物對(duì)人類(lèi)醫(yī)學(xué)、動(dòng)物健康和植物保護(hù)有著重要的貢獻(xiàn)[1],然而使用傳統(tǒng)挖掘抗生素的方法已經(jīng)無(wú)法滿(mǎn)足日益增長(zhǎng)的藥物需求,因此學(xué)者們將注意力轉(zhuǎn)向了兩個(gè)具有吸引力的天然產(chǎn)物發(fā)現(xiàn)來(lái)源:極端環(huán)境中未開(kāi)發(fā)的放線菌的生物合成途徑以及放線菌基因組中隱藏的生物合成途徑[2]。生物基因組數(shù)據(jù)包含了其主要遺傳信息,全基因組測(cè)序有助于加深對(duì)微生物生命活動(dòng)的認(rèn)知。近年來(lái),隨著高通量測(cè)序技術(shù)的不斷發(fā)展,微生物基因組測(cè)序的成本不斷降低,這使得大部分科研工作者利用基因組學(xué)的方法對(duì)微生物進(jìn)行功能預(yù)測(cè)、進(jìn)化分析及代謝產(chǎn)物挖掘等方面的研究[3]。
婁徹氏鏈霉菌是一種極為重要的微生物資源,可以產(chǎn)生諸多結(jié)構(gòu)新穎、生物活性好的次級(jí)代謝產(chǎn)物,應(yīng)用于工業(yè)、農(nóng)業(yè)、醫(yī)藥及環(huán)境污染治理等多個(gè)方面,具有進(jìn)一步深入研究和開(kāi)發(fā)的潛力。本研究以一株分離自塔克拉瑪干沙漠駱駝蓬的婁徹氏鏈霉菌TRM65215和一株分離自胡楊濕地的婁徹氏鏈霉菌TRM68008為研究對(duì)象,采用平板對(duì)峙的方法發(fā)現(xiàn)兩株菌均對(duì)多種動(dòng)植物病原菌具有拮抗活性,且兩株菌的拮抗病原菌種類(lèi)及拮抗活性存在差異,分析可知具有潛在的研究?jī)r(jià)值,因此通過(guò)對(duì)兩株菌進(jìn)行基因組測(cè)序,分析其代謝潛能及差異。
菌株TRM65215分離自塔克拉瑪干沙漠駱駝蓬,菌株TRM68008分離自胡楊濕地,菌株于實(shí)驗(yàn)室?80℃冰箱甘油管中保存。
1.2.1 全基因組測(cè)序、組裝
菌株測(cè)序由上海派森諾生物科技有限公司采用全基因組鳥(niǎo)槍法完成,采用A5-MiSeq和SPAdes對(duì)去除接頭序列的測(cè)序數(shù)據(jù)進(jìn)行從頭拼裝得到contig和scaffold。
1.2.2 系統(tǒng)發(fā)育分析
采用San Prep柱式質(zhì)粒DNA抽提試劑盒提取菌株DNA,使用引物27F和1492R擴(kuò)增菌株16S rRNA基因片段并進(jìn)行測(cè)序。利用SeqMan軟件對(duì)序列進(jìn)行拼接,EzBioCloud[4](https://www.ezbiocloud.net/identify)對(duì)16S rRNA基因序列進(jìn)行多序列比對(duì)及計(jì)算序列相似性水平。使用MEGA 7[5]軟件鄰接法(neighbor-joining,NJ)構(gòu)建16S rRNA基因系統(tǒng)發(fā)育進(jìn)化樹(shù)及全基因組系統(tǒng)發(fā)育進(jìn)化樹(shù)。
1.2.3 基因組功能注釋
使用 GO[6]、COG[7]和 KEGG[8]數(shù)據(jù)庫(kù)對(duì)菌株蛋白編碼基因功能進(jìn)行注釋。
1.2.4 次級(jí)代謝產(chǎn)物預(yù)測(cè)
采用antiSMASH 5.0[9]軟件預(yù)測(cè)菌株次級(jí)代謝產(chǎn)物生物合成基因簇,并對(duì)次級(jí)代謝產(chǎn)物生物合成基因簇進(jìn)行分析。
1.2.5 基因組同源分析
通過(guò) NCBI網(wǎng)站(http://www.ncbi.nlm.nin.gov)下載3株婁徹氏鏈霉菌全基因組序列,Streptomyces rochei7434AN4(NZAP018517.1/AP018517.1)、StreptomycesrocheiNS1(JAJIRV000000000.1)和Streptomyces rocheiSID8161(JAAGMZ000000000.1)。將S.rochei7434AN4、S.rocheiNS1、S.rocheiSID8161和TRM65215、TRM68008全基因組序列上傳至 OrthoVenn2[10]數(shù)據(jù)庫(kù)進(jìn)行直系同源基因分析,通過(guò)交互式維恩圖顯示所選物種之間集群的分離和交叉的功能注釋和總結(jié)。
TRM65215及TRM68008基因組特征如表1所示。TRM65215的基因組大小為6 844 901 bp,DNA(G+C)mol%值為72.67%,共編碼5 947個(gè)基因,通過(guò)序列拼接獲得54個(gè)contings,非編碼RNA中含有1個(gè) 5S rRNA、1個(gè) 16S rRNA、1個(gè) 23S rRNA、79個(gè)tRNA以及1個(gè)tmRNA。
表1 基因組特征描述
TRM68008的基因組全長(zhǎng)為8 408 383 bp,DNA(G+C)mol%值為72.45%,共編碼7 420個(gè)基因,通過(guò)序列拼接獲得121個(gè)contings,非編碼RNA中含有1個(gè) 5S rRNA、1個(gè)16S rRNA、1個(gè)23S rRNA、86個(gè)tRNA以及1個(gè)tmRNA。
通過(guò)對(duì)TRM65215和TRM68008進(jìn)行16S rRNA基因鑒定,兩株菌均與Streptomyces rocheiNRRL B-2410為同種。使用鄰接法對(duì)TRM65215和TRM68008的16S rRNA基因序列構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹(shù),如圖1所示;對(duì)TRM65215和TRM68008的全基因組構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹(shù),如圖2所示。
圖1 基于16S rRNA基因鄰接法系統(tǒng)發(fā)育進(jìn)化樹(shù)
圖2 基于全基因組鄰接法系統(tǒng)發(fā)育進(jìn)化樹(shù)
2.3.1 TRM65215基因注釋
使用GO、COG和KEGG數(shù)據(jù)庫(kù)對(duì)菌株TRM65215蛋白編碼基因功能進(jìn)行注釋?zhuān)⑨尳y(tǒng)計(jì)結(jié)果如表2所示。
表2 TRM 65215基因組蛋白編碼基因功能的數(shù)據(jù)統(tǒng)計(jì)
菌株TRM65215的全基因組序列的GO注釋如圖3所示。在菌株TRM65215的全基因組序列的GO注釋中,與生物進(jìn)程(biological process)相關(guān)的GO注釋結(jié)果最多,有3 987個(gè),占GO注釋總數(shù)的50.23%;與分子功能(molecular function)相關(guān)的GO注釋結(jié)果有3 262個(gè),占GO注釋總數(shù)的41.09%;其中與細(xì)胞組件(cellular component)相關(guān)的GO注釋結(jié)果有689個(gè),占總體的8.68%。
圖3 TRM65215的GO功能注釋分類(lèi)圖
菌株TRM65215的全基因組序列的COG注釋如圖4所示。在TRM65215的全基因組COG注釋中,COG數(shù)據(jù)庫(kù)將編碼的蛋白分為22類(lèi),與轉(zhuǎn)錄(transcription)相關(guān)的蛋白編碼基因最多,有503個(gè),占COG注釋基因總數(shù)的11.45%;其次為碳水化合物的運(yùn)輸和代謝(carbohydrate transport and metabolism)相關(guān)的蛋白編碼基因,有475個(gè),占COG注釋基因總數(shù)的10.81%;與氨基酸轉(zhuǎn)運(yùn)與代謝(amino acid transport and metabolism)相關(guān)蛋白編碼基因有386條,占COG注釋基因總數(shù)的8.78%。
圖4 TRM65215的COG功能注釋分類(lèi)圖
菌株TRM65215的全基因組序列的KEGG注釋如圖5所示。TRM65215的KEGG注釋共包括39種,大致可分為6大類(lèi):與代謝(metabolism)相關(guān)的基因有1 896個(gè),占KEGG注釋基因的67.67%;與環(huán)境信息處理(environmental information processing)相關(guān)的基因有256個(gè),占KEGG注釋基因的9.14%;與遺傳信息處理(genetic information processing)相關(guān)的基因有245個(gè),占KEGG注釋基因的8.74%;與細(xì)胞過(guò)程(cellular processes)相關(guān)的基因有171個(gè),占KEGG注釋基因的6.10%;與生物系統(tǒng)(organismal systems)相關(guān)的基因有123個(gè),占KEGG注釋基因的4.39%;與人類(lèi)疾病(human diseases)相關(guān)的基因有111個(gè),占KEGG注釋基因的3.96%。
圖5 TRM65215的KEGG功能注釋分類(lèi)圖
2.3.2 TRM68008基因注釋
使用GO、COG和KEGG數(shù)據(jù)庫(kù)對(duì)菌株TRM68008蛋白編碼基因功能進(jìn)行注釋?zhuān)⑨尳y(tǒng)計(jì)結(jié)果如表3所示。
表3 TRM68008基因組蛋白編碼基因功能的數(shù)據(jù)統(tǒng)計(jì)
菌株TRM68008的全基因組序列的GO注釋如圖6所示。在菌株TRM68008的全基因組GO注釋結(jié)果中,與生物進(jìn)程(biological process)相關(guān)的GO注釋結(jié)果最多,有4 689個(gè),占GO注釋總數(shù)的50.56%;與分子功能(molecular function)相關(guān)的GO注釋結(jié)果有3 816個(gè),占GO注釋總數(shù)的41.15%;其中與細(xì)胞組件(cellular component)相關(guān)的GO注釋結(jié)果有769個(gè),約占總體的8.29%。
圖6 TRM68008的GO功能注釋分類(lèi)圖
菌株TRM68008的全基因組序列的COG注釋如圖7所示。在TRM68008的全基因組COG注釋結(jié)果中,COG數(shù)據(jù)庫(kù)將編碼的蛋白分為22類(lèi),與轉(zhuǎn)錄(transcription)相關(guān)蛋白編碼基因最多,有607個(gè),占COG注釋基因總數(shù)的11.65%;其次為碳水化合物的運(yùn)輸和代謝(carbohydrate transport and metabolism)相關(guān)蛋白編碼基因,有539個(gè),占COG注釋基因總數(shù)的10.35%;與氨基酸轉(zhuǎn)運(yùn)與代謝(amino acid transport and metabolism)相關(guān)蛋白編碼基因有423條,占COG注釋基因總數(shù)的8.12%。
圖7 TRM68008的COG功能注釋分類(lèi)圖
菌株TRM68008的全基因組序列的KEGG注釋如圖8所示。在TRM68008的全基因組序列中,TRM68008的KEGG注釋共包括40種,大致可分為6大類(lèi):與代謝(metabolism)相關(guān)的基因有2 149個(gè),占KEGG注釋基因的68.44%;與環(huán)境信息處理(environmental information processing)相關(guān)的基因有272個(gè),占KEGG注釋基因的8.66%;與遺傳信息處理(genetic Iinformation processing)相關(guān)的基因有256個(gè),占KEGG注釋基因的8.15%;與細(xì)胞過(guò)程(cellular processes)相關(guān)的基因有187個(gè),占KEGG注釋基因的5.96%;與生物系統(tǒng)(organismal systems)相關(guān)的基因有145個(gè),占KEGG注釋基因的4.62%;與人類(lèi)疾?。╤uman diseases)相關(guān)的基因有131個(gè),占KEGG注釋基因的4.17%。
圖8 TRM68008的KEGG功能注釋分類(lèi)圖
通過(guò)antiSMASH對(duì)TRM65215次級(jí)代謝潛能分析,TRM65215基因組中含有30個(gè)潛在天然產(chǎn)物生物合成基因簇。TRM65215合成基因簇包括6個(gè)非核糖體肽合成酶(non-ribosomal peptide synthetase,NRPS)基因簇,3個(gè)Ⅰ型聚酮合酶(polyketide synthase,PKSⅠ)基因簇,2個(gè)Ⅱ型聚酮合酶(PKSⅡ)基因簇,1個(gè)Ⅲ型聚酮合酶(PKSⅢ)基因簇,4個(gè)萜烯(terpene)基因簇,1個(gè)Ⅰ型羊毛硫肽(lanthipeptideclassⅠ)基因簇,2個(gè)Ⅲ型套羊毛硫肽(lanthipeptideclassⅢ)基因簇,1個(gè)Ⅴ型羊毛硫肽(lanthipeptideclassⅤ)基因簇。TRM65215的7個(gè)基因簇(cluster 1、cluster 5、cluster 7、cluster 8、cluster 15、cluster 22、cluster 24)與已知基因簇(albaflavenone、SapB、coelibactin、coelichelin、geosmin、hopene、ectoine)的相似度為100%,表明TRM65215具有完整的合成基因簇,具有產(chǎn)生這7種代謝產(chǎn)物的能力。TRM65215中的4個(gè)基因簇(cluster 6、cluster 15、cluster 16、cluster 19)未比對(duì)到已知的基因簇,具有產(chǎn)生結(jié)構(gòu)新穎的次級(jí)代謝產(chǎn)物的潛能。
通過(guò)antiSMASH對(duì)TRM68008次級(jí)代謝潛能分析,TRM68008基因組中含有36個(gè)潛在天然產(chǎn)物生物合成基因簇。TRM68008合成基因簇包括6個(gè)非核糖體肽合成酶基因簇,3個(gè)Ⅰ型聚酮合酶基因簇,1個(gè)Ⅱ型聚酮合酶(PKSⅡ)基因簇,1個(gè)Ⅲ型聚酮合酶(PKSⅢ)基因簇,6個(gè)萜烯(terpene)基因簇,2個(gè)Ⅰ型羊毛硫肽基因簇,2個(gè)Ⅲ型套羊毛硫肽基因簇,1個(gè)Ⅴ型羊毛硫肽基因簇。TRM68008的 8個(gè)基因簇(cluster 1、cluster 5、cluster 9、cluster 15、cluster 21、cluster 23、cluster 34、cluster 35)與已知基因簇(ectoine、hopene、coelichelin、geosmin、streptothricin、albaflavenone、7-prenylisatin)的相似度為100%,表明TRM68008具有完整的合成基因簇,具有產(chǎn)生這8種代謝產(chǎn)物的能力。TRM68008中的7個(gè)基因簇(cluster 2、cluster 7、cluster 10、cluster 12、cluster 16、cluster 17、cluster 21)未比對(duì)到已知的基因簇,可能會(huì)產(chǎn)生結(jié)構(gòu)新穎的次級(jí)代謝產(chǎn)物。
直系同源基因聚類(lèi)分析結(jié)果如圖9所示。使用OrthoVenn2比較和注釋5株婁徹氏鏈霉菌之間的直系同源基因簇,該物種形成7 135個(gè)簇,3 274個(gè)直系同源簇(至少包含兩個(gè)物種)和3 861個(gè)單拷貝基因簇。TRM65215和TRM68008共有5 686個(gè)直系同源簇,TRM65215有2個(gè)特有的基因簇,TRM68008有19個(gè)特有的基因簇。
圖9 直系同源基因聚類(lèi)分析
本研究通過(guò)16S rRNA基因比對(duì)發(fā)現(xiàn)TRM65215、TRM68008與Streptomyces rocheiNRRL B-2410 16S rRNA基因序列相似度均為100%,然而通過(guò)對(duì)TRM65215和TRM68008全基因組測(cè)序及系統(tǒng)發(fā)育進(jìn)化分析可知,TRM65215和TRM68008基因組仍存在較大差異。通過(guò)比較TRM65215及TRM68008全基因組測(cè)序及注釋信息可知,TRM65215和TRM68008作為放線菌均具有非常高的DNA(G+C)mol%含量,TRM68008的全基因組大小、編碼蛋白數(shù)量及非編碼RNA數(shù)量均比TRM65215多。
兩株菌全基因組測(cè)序后經(jīng)COG預(yù)測(cè)發(fā)現(xiàn)其蛋白功能主要集中在轉(zhuǎn)錄、碳水化合物和氨基酸轉(zhuǎn)運(yùn)和代謝方面,KEGG預(yù)測(cè)表明代謝通路中與代謝相關(guān)的蛋白占比例較高,GO預(yù)測(cè)與生物進(jìn)程相關(guān)的蛋白最多。在TRM68008基因組蛋白編碼基因功能注釋數(shù)量均比TRM65215基因組注釋數(shù)量多,GO注釋比其結(jié)果多551個(gè)蛋白編碼基因,COG注釋比其結(jié)果多816個(gè)蛋白編碼基因,KEGG注釋比其結(jié)果多338個(gè)蛋白編碼基因。TRM65215和TRM68008共有5 686個(gè)直系同源簇,TRM65215有2個(gè)特有的同源基因簇,TRM68008有19個(gè)特有的同源基因簇。
TRM65215與TRM68008有20個(gè)相似的基因簇,在這20個(gè)相似基因簇中有12個(gè)基因簇的基因是完全相同的,除了相似的基因簇,TRM65215還具有合成鋅離子載體coelibactin(cluster 7)、versipelostatin(cluster 10)、克拉維烷類(lèi)化合物alanylclavam/2-hydroxymethylclavam/2-formyloxymethylclavam(cluster 17)及大環(huán)內(nèi)酰胺類(lèi)抗生素vicenistatin(cluster 25)的潛力,TRM68008則具有5-異戊烯吲哚-3-羧酸β-D-糖苷酯 5-isoprenylindole-3-carboxylate β-D-glycosylester(cluster 19)、異胡蘿卜素isorenieratene(cluster 20)、大環(huán)內(nèi)酯類(lèi)抗生素阿扎霉素azalomycinF3a(cluster 25)、溶血脂質(zhì)lysolipin I(cluster 26)、30元環(huán)多醇大環(huán)內(nèi)酯 aculeximycin(cluster 28)、moomysin(cluster 30)、抗霉素antimycin(cluster 32)、異海綿烯isorenieratene(cluster 33)及異戊烯吲哚類(lèi)化合物7-prenylisatin(cluster 34)的潛能。
TRM65215和TRM68008雖然在16S rRNA基因序列分析中與Streptomyces rocheiNRRL B-2410相似度為100%,但通過(guò)對(duì)兩株菌的基因組測(cè)序分析,TRM68008與TRM65215在基因組大小、非編碼RNA數(shù)量、編碼蛋白數(shù)量及次級(jí)代謝產(chǎn)物合成基因簇等多個(gè)方面均存在差異,TRM68008基因組較大,編碼了更多的蛋白,能夠產(chǎn)生與TRM65215不同的生物特性。
由于基因組測(cè)序技術(shù)的快速發(fā)展,大規(guī)模的基因組測(cè)序不斷揭示著微生物中蘊(yùn)藏的豐富天然產(chǎn)物資源,微生物的生物合成潛力被大大低估,使得微生物天然產(chǎn)物挖掘進(jìn)入“基因組時(shí)代”[11]。基因組挖掘更善于合理利用生物信息學(xué)分析工具對(duì)次級(jí)代謝基因簇進(jìn)行預(yù)測(cè)從而實(shí)現(xiàn)產(chǎn)物的定向挖掘,目前是藥物發(fā)現(xiàn)工作的重要組成部分[12],結(jié)合基因組挖掘方法可以有效提高天然產(chǎn)物的成功率,從而加快藥物的開(kāi)發(fā)。同時(shí),菌株的基因組信息對(duì)探究菌株的進(jìn)化、反應(yīng)及環(huán)境的適應(yīng)機(jī)理有著重要意義[13]。
傳統(tǒng)Sanger測(cè)序技術(shù)由于耗時(shí)較長(zhǎng)且費(fèi)用較高,因此研究人員在對(duì)未知菌種鑒定時(shí)通常采用更加高效且經(jīng)濟(jì)的16S rRNA基因序列測(cè)序,然而這種方法是以犧牲分類(lèi)分辨率為代價(jià)的,通過(guò)保守的16S rRNA基因引物來(lái)檢測(cè)細(xì)菌,僅能檢測(cè)出菌株與微生物群落中的其他成員(如真菌、病毒和原生動(dòng)物)是沒(méi)有同源性的,對(duì)于同種間的差異卻難以鑒定[14],通過(guò)16S rRNA基因?qū)赀M(jìn)行鑒定只能初步判斷菌株種屬,存在一定的局限性,因此對(duì)于菌株的鑒定仍需要更多的鑒定方法及手段[15]。
本研究對(duì)兩株婁徹氏鏈霉菌TRM65215及TRM68008進(jìn)行了全基因組測(cè)序、組裝及功能基因注釋?zhuān)琓RM65215基因組大小為6 844 901 bp,GO功能注釋蛋白編碼基因2 993個(gè),COG功能注釋蛋白編碼基因4 394個(gè),KEGG功能注釋蛋白編碼基因2 802個(gè);TRM68008基因組大小為8 408 383 bp,GO功能注釋蛋白編碼基因3 544個(gè),COG功能注釋蛋白編碼基因5 210個(gè),KEGG功能注釋蛋白編碼基因3 140個(gè),研究表明兩株16S rRNA基因序列完全相同的菌株在基因功能等多方面仍存在差異。預(yù)測(cè)兩株婁徹氏鏈霉菌次級(jí)代謝產(chǎn)物合成基因簇,TRM65215基因組中含有30個(gè)潛在天然產(chǎn)物生物合成基因簇,TRM68008基因組中含有36個(gè)潛在天然產(chǎn)物生物合成基因簇,TRM65215及TRM68008均具有產(chǎn)生新型抗生素的潛能且均含有對(duì)方不具備的天然產(chǎn)物生物合成基因簇,進(jìn)一步驗(yàn)證了兩株菌的代謝差異,并為后續(xù)挖掘菌株次級(jí)代謝產(chǎn)物提供了理論依據(jù)。