錢文江 汪步青 李葳茜 楊雪苗 劉洪偉 張麗萍
(1. 河北工業(yè)大學化工學院,天津 300130;2. 河北省科學院生物研究所,石家莊 050081)
凝結芽孢桿菌(Bacillus coagulans)是一類革蘭氏陽性菌,在發(fā)酵培養(yǎng)過程中能分解糖類生成乳酸,也被稱作乳酸發(fā)酵菌[1]。凝結芽孢桿菌在自然界中廣泛分布,其在生長繁殖過程中產生一種抗菌肽-凝結素,對多種致病菌都具有殺菌活性[2]。凝結芽孢桿菌不僅具有乳酸菌和雙歧桿菌相同的營養(yǎng)特征,還具有很強的耐酸、耐熱、耐鹽等性狀[3]。1998年,Hyronimus等[4]研究發(fā)現(xiàn),凝結芽孢桿菌I4能產生凝結素,它是一類抗菌肽類物質,能夠抑制沙門菌、小球菌等諸多致病菌的生長。2006年,Huszcza等[5]發(fā)現(xiàn)凝結芽孢桿菌生長過程中會有多種表面活性素產生,其中surfactin是一種強大的脂肽類表面活性劑。同時,2009年,Kodali等[6]在凝結芽孢桿菌RK-02中分離出一種胞外多糖(EPS)具有乳化活性。2015年,趙鈺等[7]發(fā)現(xiàn)在凝結芽胞桿菌LL1103發(fā)酵液中存在可以抑制革蘭氏陽性菌生長的細菌素。劉全永等[8]發(fā)現(xiàn)凝結芽胞桿菌LU-B02發(fā)酵液對白色念珠菌生長有抑制作用。此外,也有研究表明凝結芽孢桿菌在生長過程中也會產生了乳糖酶、β-半乳糖苷酶、木聚糖酶、纖溶活性酶等物質。
到目前為止,在NCBI上可以查詢到的凝結芽孢桿菌共有33株并且都完成了基因組測序。屬于同一菌種的細菌菌株的基因含量之間差異很大,而泛基因組的遺傳信息要比單個菌株的遺傳信息含量大得多[9]。泛基因組的概念是由Tettelin等[10]在2005年提出,泛基因組是指某一個物種所有存在的基因,它包括核心基因組(在全部菌株中都包含的基因),非必須基因組(只有部分菌株都含有的基因)和菌株具有的特有基因[11]。最近幾年,泛基因組分析在細菌和真菌功能基因挖掘中應用廣泛[12]。根據(jù)泛基因總數(shù)與基因組個數(shù)的關系,細菌的泛基因組可以分為兩種類型,分別是開放型和閉合型[13]。開放型泛基因組是指隨著預測的基因組個數(shù)的增多,泛基因總數(shù)也相應增加,而閉合型泛基因組是指在預測的基因組個數(shù)增加到某一數(shù)值時泛基因總數(shù)趨于不變[14]。對細菌的次級代謝產物進行分析時,傳統(tǒng)的分析方法可能會有局限性,但是分析細菌中已知的基因組數(shù)據(jù),可能會挖掘出嶄新的次級代謝基因簇,并會有潛在的活性物質出現(xiàn)[15]。
本研究從NCBI上找到了33株凝結芽孢桿菌的基因組,首先對其中11株有完整基因組水平的凝結芽孢桿菌進行了泛基因組分析,找出了其泛基因組的大??;隨后利用antiSMASH軟件對33株凝結芽孢桿菌的次級代謝基因簇進行挖掘,發(fā)現(xiàn)了其最可能產生的活性物質[16]。本研究旨在對凝結芽孢桿菌的基因組信息進行探索,為以后研究凝結芽孢桿菌的進化,適應和種群結構的方式奠定一定的基礎。
從NCBI基因組數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/ genome)中查找到33株凝結芽胞桿菌的NCBI登錄號,在以GenBank格式下載獲得基因組信息。本研究中使用的33株凝結芽孢桿菌的基因組數(shù)據(jù)全部來自2020年1月5日之前在GenBank數(shù)據(jù)庫中提交的基因組信息,詳細信息如表1所示。
1.2.1 ANI值和DDH值分析 平均核苷酸一致性(ANI)可以用來判斷菌株是否為同一個種或亞種,而ANI值達到95%以上的菌株認為同一個種。本研究中使用在線軟件(http://enve-omics.ce.gatech.edu/g-matrix/)中的ANI/AAI matrix對33株凝結芽孢桿菌的基因組ANI值進行計算[17]。
DDH值是指基因組與基因組之間的距離,通常將DDH值大于70%的菌株認為是同種菌株使用。使用在線軟件(http://ggdc.dsmz.de/)中的GGDC計算33株凝結芽孢桿菌基因組的DDH值[18]。
1.2.2 基因組系統(tǒng)發(fā)育分析 對表1中33株凝結芽孢桿菌以genbank格式在NCBI數(shù)據(jù)庫上下載基因組數(shù)據(jù),利用REALPHY(基于參考序列比對的系統(tǒng)發(fā)生構建器)在線軟件進行全基因組數(shù)據(jù)比對,登錄http://realphy.unibas.ch網(wǎng) 址,以GenBank格式進行上傳基因組數(shù)據(jù),使用默認參數(shù)運行[19]。獲得的數(shù)據(jù)結果使用FigTree軟件構建進化樹[20]。
1.2.3 核心基因組和泛基因組分析 從NCBI數(shù)據(jù)庫中下載如表1中11株組裝到完整基因組水平的凝結芽孢桿菌的基因組序列文件(.fna)和基因組注釋文件(.ppt)作為上傳數(shù)據(jù),PGAweb軟件的PGAP-X模塊選擇GeneFamily Method(GF)算法對11個基因組進行分析,使用默認值運行[21]。下載結果文件中,選擇Orthologs_Cluster.txt文件,使用PanGP軟件進行泛基因組數(shù)據(jù)擬合[22]。
1.2.4 次級代謝產物合成基因簇分析 利用antiSMASH5.0(https://antismash.secondarymetabolites.org)在線軟件的細菌分析模塊中[22],輸入菌株NCBI登錄號,選擇relaxed預測模式對33株凝結芽孢桿菌次級代謝產物生物合成基因簇進行預測注釋,參數(shù)選用默認值[23]。
表1 研究分析中所使用的菌株
如 表1所 示,到2020年1月12日 為 止,在NCBI數(shù)據(jù)庫中查找到共有33株凝結芽孢桿菌的基因組,其中共有11株凝結芽孢桿菌基因組裝到完整基因組水平。由基因組數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),33株環(huán)狀芽孢桿菌的基因組大小范圍是2.059 47-3.694 84 Mb,而相應的GC含量范圍為46.2%-47.5%,預測到的基因數(shù)范圍是2 064-3 660個。
通過使用ANI值和DDH值對33株凝結芽孢桿菌的序列同源性進行了評估。本研究以Bacillus coagulan P38的全基因組序列為參考,計算了菌株兩兩間DDH值(圖1-A)和ANI值(圖1-B)。結果顯示,其中20株凝結芽孢桿菌兩兩間ANI 值均>95%,DDH值均>70%是同一種凝結芽孢桿菌,而剩余的13株菌兩兩間的DDH值≤70%和ANI值≤95%,這13株菌不是同一種凝結芽孢桿菌[24]。通過使用REALPHY在線軟件將33株凝結芽孢桿菌基因組進行了比對,然后使FigTree軟件構建進化樹。全基因組系統(tǒng)發(fā)育顯示(圖1-C),33株凝結芽孢桿菌在基因組系統(tǒng)進化樹上被歸為兩個分支,一個支包 括 有2-6、B4098、H-1、MA-13、XZL4、B4099、ATCC7050、DSM_1、DSM_1_1、ATCC7050_1、AF24-21、MGYG-HGUT-00191、AF24-19,其余菌株是另一支。最后,全基因組系統(tǒng)發(fā)育樹結果與ANI值和DDH值的觀察結果一致。
對11株組裝完整基因組水平的凝結芽孢桿菌進行了泛基因組分析。由圖2可知,共有34 647個蛋白質編碼的基因用于聚類分析,被分為5 899個基因家族中,每個基因家族可能代表一個的同源基因。核心基因組是指在全部基因組中均包含的基因,如圖3所示,在11株凝結芽孢桿菌的基因組中,核心基因組是由2 152個基因家族組成,共有的核心基因組約占凝結芽孢桿菌泛基因組的36.48%。發(fā)現(xiàn)特有基因2 255個,占凝結芽孢桿菌泛基因組的38.22%。
基于全基因組基因聚類結果,我們使用PanGP軟件計算了泛基因組、核心基因組和基因組數(shù)目之間的關系。如圖3所示,泛基因組大小(T)與基因組數(shù)(X)關系的擬合方程為T=1 801.66X0.38+1 417.71(R2=0.999 98),擬合方程表明凝結芽孢桿菌的泛基因組中的基因數(shù)是隨著基因組個數(shù)的增加而增多。核心基因的個數(shù)(D)與基因組數(shù)(N)關系的擬合方程為D=1 751.08e-0.53N+2 151.5(R2=0.980 9)。根據(jù)公式推測出凝結芽孢桿菌的核心基因組有2 152個基因組成。不同的基因組中有相同的基因家族,當每個基因家族覆蓋的基因組個數(shù)增多時,這個基因家族中的基因就相對開放[25]。在曲線中顯示了泛基因數(shù)和核心基因數(shù)隨基因組增加而發(fā)生的變化。在該曲線中可以看出凝結芽孢桿菌的泛基因組是開放性的。
推測出每增加一個新的凝結芽孢桿菌基因組,大約有150個新基因被發(fā)現(xiàn)。如圖4所示,PanGP軟件計算了新基因家族數(shù)量(M)與基因組數(shù)(F)的關系,并計算出擬合方程為M=876.572F-0.71(R2=0.996 822)。
AntiSMASH是一種強大而全面的生物信息學工具,可用于識別和注釋編碼次生代謝產物的生物合成基因簇,并已在該領域中廣泛使用[26]。利用antiSMASH軟件對33株凝結芽孢桿菌基因組中的次級代謝基因簇進行在線預測,預測結果總共注釋到8類、79個與次級代謝相關的基因或基因簇。與基因組大小無關,所測試的33株凝結芽孢桿菌中存在24株凝結芽孢桿菌都攜帶大量基因簇,并且這些基因簇編碼不同的潛在生物活性物質。鑒定出有細菌素的基因簇平均在每個菌株中介于一到兩個之間。如圖5和表2所示,可以注釋到的次級代謝基因簇中有11個糖類(Saccharide)、30個細菌素(Bacteriocin)、2個脂肪酸(Fatty acid)、10個Ⅲ型聚酮化合物合酶(T3PKS)、18個內酯(Betalactone)、3個LAP、2個萜烯(terpene)和3個硫肽(Thiopeptide)基因簇。Riazi等[27]在2009年研究發(fā)現(xiàn)了凝結芽孢桿菌ATCC 7050可以產生一種抗菌蛋白-乳酸菌素(Lactosporin),乳酸菌素和表2中對凝結芽孢桿菌ATCC 7050預測的次級代謝產物T3PKS都屬于核糖體途徑生成的抗菌蛋白類物質。在線預測結果表明,目前預測凝結芽孢桿菌的主要次級代謝產物可能是細菌素、T3PKS、硫肽、內酯和糖類等化合物。
圖1 33株凝結芽孢桿菌ANI值和DDH值分析及全基因組系統(tǒng)發(fā)育樹分析
圖2 凝結芽孢桿菌基因組中核心基因和非必須基因
圖3 凝結芽孢桿菌的泛基因組分析
圖4 凝結芽孢桿菌新基因數(shù)量與基因組的關系
對于上述預測的基因簇中,如圖6和表3所示,共有43個基因簇和與已知基因簇具有一定的同源性。在預測到的43個基因簇中,有11個預測基因簇與Amylocyclicin基因簇同源相似度達到66%,另外還有1個預測基因簇與Amylocyclicin基因簇的同源相似度為50%,此外,還有18個預測基因簇與Fengycin基因簇的同源相似度為40%,有3個預測基因簇與Listeriolysin S 基因簇的同源相似度為37%,剩余10個預測基因簇與已知基因簇的同源相似度均低于30%,其中基因Cluster26和Cluster76與Kanamycin基因簇的同源相似度最低為1%。預測結果表明,凝結芽孢桿菌中預測基因簇與已知基因簇可能會有不同的產物。
在NCBI數(shù)據(jù)庫中,有33株凝結芽孢桿菌菌株具有基因組相關數(shù)據(jù),其中有11株組裝到完整基因組水平。對這其中的11株凝結芽孢桿菌基因組進行了的泛基因組分析,泛基因組中包含5 899個基因,具體是包括2 152個核心基因、2 255個特有基因和1 492個非必須基因,并且核心基因的個數(shù)占凝結芽孢桿菌泛基因總數(shù)的36.48%。通過計算泛基因組、核心基因組和基因組個數(shù)之間的公式,發(fā)現(xiàn)隨著基因組個數(shù)的增加,凝結芽孢桿菌的泛基因總數(shù)為上升的趨勢,說明凝結芽孢桿菌的遺傳物質具有開放性,同時也說明凝結芽孢桿菌具有相對較高的遺傳多樣性。
通過對33株凝結芽孢桿菌的次級代謝產物合成基因簇分析,共注釋到8類、79個次級代謝基因簇,平均每株凝結芽孢桿菌有2-3個次級代謝基因簇,其中重復出現(xiàn)最多的代謝通路是細菌素、T3PKS、硫肽、糖類和內酯類化合物合成。此外,共有43個基因簇與已知基因簇具有一定同源性,其中有11個預測基因簇與Amylocyclicin基因簇同源相似度最高。這些結果表明,凝結芽孢桿菌可能具有相似的代謝產物合成途徑,最有可能的活性物質包 括 有Fengycin、Amylocyclicin、Rhizocticin A和exopolysaccharide。孫天擁[28]對635株細菌的基因組進行了挖掘,共注釋出有40種、6 174個次級代謝基因簇,平均每株細菌有9-10個次級代謝基因簇。Jeske等[29]對13株浮霉狀菌的基因組進行了挖掘,共挖掘到102個次級代謝基因簇,平均每個基因組有7-8個次級代謝基因簇。凝結芽孢桿菌與這些細菌相比,發(fā)現(xiàn)的次級代謝基因簇數(shù)量較少,有新型物質合成的可能性較低。
圖5 33株凝結芽孢桿菌中預測的次級代謝產物類型熱圖
表2 凝結芽孢桿菌中預測存在的次級代謝基因簇
表2 續(xù)表
表3 凝結芽孢桿菌中預測基因簇與已知基因簇的相似度
圖6 33株凝結芽孢桿菌中已知基因簇類型熱圖
本研究對33株凝結芽孢桿菌中的11株具有完整基因組的凝結芽孢桿菌進行泛基因組分析,檢索到其泛基因組含有5 899個基因,其中特有基因有2 255個,核心基因組有2 152個基因;此外,通過對33株凝結芽孢桿菌使用antiSMASH軟件進行了次級代謝基因簇挖掘,共注釋到8類、79個次級代謝基因簇,其中主要的次級代謝產物合成基因簇是關于內酯、細菌素和糖類化合物。