国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

細(xì)菌的泛基因組分析

2021-01-19 05:59:40關(guān)海霞
中國生物制品學(xué)雜志 2021年1期
關(guān)鍵詞:同源基因組物種

關(guān)海霞

天津大學(xué)理學(xué)院,天津300072

過去40 年中,基因測序技術(shù)不斷更新發(fā)展。最早提出以雙脫氧核苷酸末端終止法為代表的第一代測序技術(shù)推動了基因組學(xué)的建立。隨后不斷地開發(fā)出第二代測序技術(shù)(以Roche 公司的545 測序技術(shù)、ABI 公司的Solid 測序技術(shù)及illumina 公司的Hiseq和Solexa 技術(shù)為代表)及以單分子測序為特點的第三代測序技術(shù)。

DNA 測序技術(shù)的發(fā)展推動了生物學(xué)研究進入一個嶄新的層面[1]。研究人員發(fā)現(xiàn),對某一物種進行研究時,選取其中的一株菌株為研究對象不能完全反映該物種基因組的特征,而泛基因組分析方法的提出解決了這個難題[2]。本文就泛基因組的研究策略、模型構(gòu)建及其在細(xì)菌中的研究應(yīng)用作一綜述。

1 泛基因組概念

2005 年,泛基因組(pan-genome)概念被首次提出[3]。泛基因組表示某一物種全部基因的總稱,包括核心基因(core genome)及非必需基因(dispensable genome)。核心基因組是存在于所有菌株中的基因,管家基因是其重要的組成部分,參與基礎(chǔ)生物學(xué)過程,如基因表達(dá)、能量轉(zhuǎn)換、氨基酸代謝等。非必需基因由附屬基因(accessory gene)和特異性基因(unique gene)兩部分構(gòu)成[3-4]。附屬基因指存在于2株或多株菌株中編碼次級代謝途徑相關(guān)的基因;菌株特異性基因指某株菌株中獨特存在的基因,是通過基因水平轉(zhuǎn)移(horizontal gene transfer,HGT)的方式獲得,與該菌株的特定性狀相關(guān),如產(chǎn)抗生素、耐受性、毒力及環(huán)境適應(yīng)性等[5]。

維恩圖是泛基因組可視化的普遍形式,不同圓圈分別代表給定不同菌株的基因組,之間的重疊和非重疊部分分別代表該集合菌株的泛基因組的組分,即核心基因組、附屬基因及特異性基因,見圖1。

圖1 泛基因組成的維恩圖Fig.1 Venn diagram of pan-genome

泛基因組模型可提供基因組異質(zhì)性的信息(基因含量)。泛基因組的擬合模型可用于推測:①特定集合菌株的全基因組即泛基因組的大??;②該集合核心基因組的大?。虎勖總€新基因組測序分析平均增加的新基因數(shù)目,其與泛基因組的類型(開放/ 閉合)有關(guān)。對于閉合的泛基因組(close pan-genome),新菌株的基因組測序完成產(chǎn)生新基因的可能很小,物種的泛基因組大小增加到一定程度后會收斂于某一值附近;而對于開放的泛基因組(open pangenome),每增1 株新菌株通常有新的基因加入到物種的基因庫中,泛基因組也會隨之不斷增大[2,6]??茖W(xué)家對8 株鏈球菌(Streptococcus agalactiae)的基因組序列進行比較分析,結(jié)果顯示泛基因組大小為2 713,其中1 806 個基因?qū)俸诵幕颍ㄖ眯艆^(qū)間為95%),907 個基因?qū)俑綄倩颍?]。通過指數(shù)衰減模型擬合,可預(yù)測該物種每新增1 個基因組序列,將平均增加33 個新基因,表明鏈球菌擁有一個開放的泛基因組。同樣,在30 株大腸埃希菌的研究中[7],也呈現(xiàn)一個開放的泛基因組,大小為2 786,其中核心基因為2 344 個(約占49.7%),菌株特異性基因為539個(約占19.3%)。從大腸埃希菌泛基因組擬合曲線可推斷,每個新大腸埃希菌基因組完成測序平均約146 個新基因被發(fā)現(xiàn)。相反,在炭疽芽胞桿菌(Bacillus anthracis)的系統(tǒng)分析表明了一種不同的趨勢[8],線性擬合結(jié)果顯示,菌株特異性基因很快收斂至0,表明其擁有一個閉合的泛基因組。一般而言,泛基因組分類可反映物種基因組多樣性的程度,體現(xiàn)該物種適應(yīng)環(huán)境的能力及進化的快慢。

2 泛基因組研究策略

2.1 基因組的測序及組裝 基因組測序技術(shù)是現(xiàn)代分子生物學(xué)研究中重要的技術(shù),通過測序可精確且全面地反映基因組與轉(zhuǎn)錄組的遺傳信息,科學(xué)地揭示物種的多樣性及復(fù)雜性[9]。第二代測序技術(shù)在第一代測序技術(shù)基礎(chǔ)上,通過分析方法的并行化、自動化及計算機化提高了測序通量,這種技術(shù)上的飛躍使批量獲得基因組信息成為可能[10]。由于第二代測序技術(shù)存在一些局限性,表現(xiàn)在序列讀長比較短,如 illumina 平臺最長為 250 ~ 300 bp,454 平臺最長約為500 bp;PCR 富集序列建庫的過程中,含量較少的序列可能無法大量擴增,造成部分信息丟失。第三代測序技術(shù)一定程度上彌補了第二代的缺陷,以單分子為單位進行實時測序,不需進行PCR 擴增,進而可提供高質(zhì)量組裝參考的基因組序列[11]。泛基因組分析的科學(xué)性很大程度上取決于基因組組裝及注釋的準(zhǔn)確性,足夠完整的序列是一個先決條件。DNA測序技術(shù)及各種基因組組裝、注釋工具的不斷發(fā)展推動泛基因組學(xué)分析進入了一個新的發(fā)展時期[12]。

微生物基因組學(xué)研究是實現(xiàn)片段化測序到完整基因組的組裝,再到基因組遺傳信息的解密?;蚪M測序及組裝是泛基因組分析中的重要數(shù)據(jù)基礎(chǔ),序列組裝的質(zhì)量、完整性及精確性直接影響注釋和分析的結(jié)果。組裝旨在不引入錯誤的前提下創(chuàng)建最完整的重構(gòu)?;蚪M組裝的效果與測序的深度、覆蓋度及組裝的方法有關(guān)。測序深度與基因組覆蓋度間呈密切相關(guān)的非線性關(guān)系,測序深度帶來的基因錯誤檢測率或假陽性檢測結(jié)果隨基因組測序深度的提升而下降。常用的測序組裝工具有SOAPdenovo、Trimity 及 Abyss 等[13]。

2.2 直系同源序列的鑒定及基因組的注釋 目前,在物種基因組學(xué)的分析中,最重要的工作之一是通過判斷一段基因序列在該物種基因組中存在及分布的寬度,即多少菌株中有可能存在這一段基因序列。直系同源的基因(ortholog)即有共同來源的基因是物種形成過程中被復(fù)制保留下來具有相同功能的基因。直系同源基因通常被廣泛認(rèn)為是具有相似基因結(jié)構(gòu)及生物學(xué)功能的基因,在絕大多數(shù)生物中具有負(fù)責(zé)編碼核心基因的功能[14]。在泛基因組研究中,通過評估同源簇在菌株中的分布廣度來定義核心基因組及非必需基因基因。直系同源基因的識別在基因功能注釋、物種系統(tǒng)發(fā)育評估、系統(tǒng)發(fā)育樹構(gòu)建等分析中有廣泛的應(yīng)用[15]。

直系同源基因的識別主要通過生物信息學(xué)方法鑒定,進化關(guān)系越近的基因其結(jié)構(gòu)及功能越相似[16]。在多菌株基因組分析中,主要采用序列比對的方法來判斷序列間的同源關(guān)系。OrthoMCL 及OrthoFinder 是識別同源基因應(yīng)用較多的兩種工具[17-18]。OrthoMCL 利用馬爾可夫聚類算法改善了多基因組比對固有的多對多的直系同源關(guān)系,允許在相似性空間中同時對全局關(guān)系進行分類,可快速且準(zhǔn)確地處理復(fù)雜的結(jié)構(gòu)域。OrthoFinder 分析中有兩個選項:一個是序列搜索比對的方式,默認(rèn)比對方法為DIAMOND[19],另一個是同源關(guān)系樹的推斷方法,默認(rèn)選項為DendroBLAST[20]。該設(shè)置為用戶選擇分析方法提供了靈活性,針對不同分析對象可選擇更適合的算法。OrthoFinder 是一款基于正交群推理算法的識別工具,其優(yōu)點是高效、準(zhǔn)確且可擴展到數(shù)千個基因組。輸入文件為物種編碼蛋白的氨基酸序列文件(FASTA 文件),整個分析僅需一行命令即可啟動,操作方式簡潔。

隨著基因組分析技術(shù)的發(fā)展,基因組的結(jié)構(gòu)動態(tài)及功能也倍受關(guān)注?;蚪M注釋是確定基因在整個編碼區(qū)域的位置及其生物學(xué)功能,主要步驟為:①基因組中功能區(qū)域序列的識別;②定位基因組中的元素(該過程稱為基因預(yù)測);③將生物學(xué)信息附加至這些元素上。大多數(shù)注釋工具需先在特定數(shù)據(jù)庫進行同源基因搜索,再將同源基因信息對應(yīng)至基因組上,如 RAST[21]、xBASE2[22]及 Prokka[23]。

2.3 泛基因組的模型構(gòu)建 TETTELIN 等[2,6]率先提出了評估泛基因組大小、核心基因組及新基因發(fā)現(xiàn)率的算法。即向一個小的泛基因組模型(僅含2個基因組)里加基因組,會發(fā)現(xiàn)大量的新基因,因開始的基因庫很??;相反,核心基因組的大小將減少,因基因被所有基因組共享的可能減小。被研究的基因組數(shù)目越多,泛基因組越大,核心基因組的大小減小,收斂至一個臨界值,同時,新發(fā)現(xiàn)的基因數(shù)目將漸近地穩(wěn)定在某個值上。對于一個閉合的泛基因組,新基因數(shù)目收斂于0,可估計其泛基因組的大小;對于一個開放的泛基因組,該值不為0,且無法估計泛基因組的大?。ㄆ淇赡軣o限增長)。在泛基因組分析中,核心基因的數(shù)量及菌株特異性基因的數(shù)量取決于有多少株菌株被分析,采用迭代方法,通過模擬所有可能組合(G 個基因組中),可推斷核心基因組及菌株特異性基因的大小。對于n 個基因組(1 <n <G)的獨立測量總數(shù)N 見下式。

根據(jù)每個可能獨立測量的結(jié)果,評估核心基因、菌株特異性基因的數(shù)量及泛基因組的大小。對一定數(shù)量的菌株進行分析時,核心基因組的大小及菌株特異性基因的數(shù)量被擬合外推指數(shù)衰減函數(shù)見下式。

式中Fc 及Fs 分別表示保守基因和菌株特異性基因的數(shù)目;n 為測序菌株的數(shù)量;κc、κs、τc、τs 及Ω 為自由參數(shù);tg(θ)為代表泛基因組外推增長率的參數(shù)。泛基因組大小P(n)關(guān)于n 的函數(shù)見下式。

式中D 為輸入基因組的平均基因數(shù);P(n)擬合模型見下式。

通過將泛基因組大小、核心基因及特異性基因數(shù)目(以n 為函數(shù))與上述指數(shù)函數(shù)進行擬合,得到最適擬合參數(shù)及其相關(guān)系數(shù)。測序新的基因組,發(fā)現(xiàn)新基因的數(shù)量將漸近達(dá) tg(θ),因此,可將 tg(θ)值作為泛基因分類(開放或閉合)的依據(jù)。TETTELIN等[2]分析了8 個致病性鏈球菌的基因組并計算n株菌株所有可能的基因組集合,通過構(gòu)建指數(shù)衰減模型推測8 株鏈球菌的核心基因的漸近值達(dá)1 806,新基因約為33 個。

2.4 常用分析包及工具 近幾年,隨著泛基因組分析技術(shù)的普及,大量分析工具被開發(fā)應(yīng)用,它們在功能上有一定的相似性,能聚類同源基因、構(gòu)建系統(tǒng)發(fā)育樹及系統(tǒng)分析核心/ 非必需基因。這些工具在有各自特點的同時也存在一定的局限性,需不斷地改進及完善[24]。

PGAP(Pan-Genomes Analysis Pipeline)是一款基于功能基因聚類的自動化集成分析軟件[24],包括5 個功能模塊,分別呈現(xiàn)全基因組圖譜、物種進化、遺傳變異、給定全基因組的不同菌株和分離株的功能富集,分析通過命令執(zhí)行,集成性的過程極大提高了分析效率,其局限性在于輸出文件缺乏直觀性的文本文件。2014 年開發(fā)出帶有圖形界面的PanGP軟件包倍受研究者的青睞[25]。PanGP 是為分析大規(guī)模細(xì)菌基因集合而開發(fā)的,除完全隨機(totally random,TR)及距離指導(dǎo)(distance guide,DG)算法外,還提供了一種全面遍歷算法(TA algorithm)。其輸出結(jié)果以擬合的曲線圖像呈現(xiàn),通過非線性函數(shù)擬合了泛基因組、核心基因組及新基因集的數(shù)學(xué)模型。

此外,PAGE 等[26]開發(fā)了 Roary,一個典型的大規(guī)模構(gòu)建原核生物泛基因組的工具。Roary 從基因組注釋文件中提取編碼區(qū),并將其轉(zhuǎn)換為蛋白質(zhì)序列。一方面,過濾去除部分不完整序列,用CD-HIT進行迭代預(yù)聚類[27];另一方面,使用 BLASTP 對基因組序列進行相似性(默認(rèn)參數(shù)為95%)比對[28],借助 MCL 對序列進行聚類[29];最后將 CD-HIT 中的預(yù)聚類結(jié)果與MCL 的結(jié)果合并一起,利用保守的基因鄰域信息確定真正的同源簇?;谳斎胄蛄谐霈F(xiàn)的順序及在菌株中的覆蓋率,對聚類的同源簇進行排序,根據(jù)同源簇對菌株進行聚類,菌株親緣關(guān)系由聚類大小進行加權(quán)。該集成的程序使構(gòu)建成千上萬的原核生物基因組分析成為可能,并根據(jù)保守基因鄰域信息進行更深的分析,保證了結(jié)果的準(zhǔn)確性。

3 泛基因組分析的應(yīng)用

泛基因組分析運用高通量測序及生物信息分析手段,構(gòu)建泛基因組圖譜,豐富該物種的遺傳信息。目前研究趨勢逐漸轉(zhuǎn)向探索更大分類階元的進化關(guān)系,作為比較基因組學(xué)的重要研究手段,泛基因組學(xué)從群體角度對細(xì)菌進行研究分析,根據(jù)細(xì)菌基因組動力學(xué)特征,剖析進化過程的動態(tài)變化[30]。此外,泛基因組分析通過比較不同菌株基因組及基因組成的差異,為細(xì)菌的耐藥性、致病性及疫苗的制備等方面提供了重要的理論依據(jù)。目前,泛基因組已廣泛用于深入了解肺炎鏈球菌[31]、流感嗜血桿菌[32]、大腸埃希菌[7,33]及枯草芽孢桿菌[34]等物種的研究。

泛基因組分析通過挖掘全基因集的遺傳信息,深入全面了解特定物種的組成特征。為探索環(huán)狀芽孢桿菌的次級代謝通路,姚彩苗等[35]借助泛基因組分析方法對9 個環(huán)狀芽孢桿菌進行系統(tǒng)分析,發(fā)現(xiàn)泛基因組大小為9 572 個,核心基因組由3 622 個基因組成,特異性基因有4 593 個。通過對次級代謝產(chǎn)物合成基因簇分析,9 個環(huán)狀芽孢桿菌基因組中共發(fā)現(xiàn)6 類、32 個次級代謝基因簇,重復(fù)出現(xiàn)最多的代謝通路是羊毛硫肽、套索肽及萜烯類化合物合成通路。該結(jié)果有助于更全面地了解環(huán)狀芽孢桿菌,為其進一步研究提供了線索。

細(xì)菌種類通常根據(jù)基因含量、表型特征、生態(tài)位的性質(zhì)及16S 核糖體核糖核酸序列來定義[36]。物種進化的主要分子機制是基因突變及基因重組現(xiàn)象。近年來,泛基因組分析也廣泛應(yīng)用于物種分類學(xué)中[37]。泛基因組重點分析基因組結(jié)構(gòu)存在 / 缺失(presence / absence)的差異。泛基因組分析可通過兩方面構(gòu)建菌株間的進化關(guān)系:一方面選擇單拷貝的核心基因,將它們按順序聯(lián)接進行多序列比對,構(gòu)建系統(tǒng)發(fā)育關(guān)系;另一方面基于基因得失事件,不同菌株間基因比例及差異作為分析數(shù)據(jù)進行演化分析。泛基因組分析與傳統(tǒng)的分類鑒定的方法相結(jié)合,可更準(zhǔn)確地構(gòu)建物種間的進化關(guān)系。

D′AURIA 等[38]對 5 個嗜肺軍團菌(Legionella pneumophila)進行了系統(tǒng)的分析。嗜肺軍團菌是一種細(xì)胞內(nèi)的細(xì)菌,為一種人類病原體,該物種有一個開放的泛基因組?;贐LAST 的序列比對識別同源序列,確定核心基因組為1 979 個(占66.9%),非必需基因基因組大小為978 個(占33.1%)。核心基因組中大部分基因?qū)倩蚪M島,共分為6 類:3 個與耐藥相關(guān)的島,1 個與重金屬的分泌和運輸相關(guān)的島,3 個與 DNA 轉(zhuǎn)移相關(guān)的島,2 個 CRISPRs(clustered regularly interspaced short palindromic repeats)系統(tǒng),7 個與噬菌體相關(guān)的系統(tǒng),13 個功能不明的島。結(jié)果表明,嗜肺軍團菌的毒性及耐藥性均為核心基因編碼,這有利于進一步確定功能靶位點,為醫(yī)學(xué)研發(fā)抗性藥物提供理論基礎(chǔ)。

4 小 結(jié)

細(xì)菌的基因組因其個體僅有幾兆大小,先進的測序技術(shù)導(dǎo)致基因組數(shù)據(jù)大量的積累。泛基因組分析能更準(zhǔn)確地反映細(xì)菌種類的概念,有助于全面揭示基因組的多樣性。另外,通過對感染性細(xì)菌進行泛基因組分析,可挖掘毒力因子相關(guān)的基因,有助于醫(yī)學(xué)研發(fā)相關(guān)制劑。預(yù)計在未來的幾年里,收集到的細(xì)菌數(shù)據(jù)將超過實際能處理的數(shù)量,因此,需將泛基因組分析方法擴展到不同領(lǐng)域。本文為泛基因組分析的實際應(yīng)用提供了參考。

猜你喜歡
同源基因組物種
藥食同源
——紫 蘇
吃光入侵物種真的是解決之道嗎?
英語世界(2023年10期)2023-11-17 09:18:18
兩岸年味連根同源
華人時刊(2023年1期)2023-03-14 06:43:36
以同源詞看《詩經(jīng)》的訓(xùn)釋三則
牛參考基因組中發(fā)現(xiàn)被忽視基因
回首2018,這些新物種值得關(guān)注
電咖再造新物種
汽車觀察(2018年10期)2018-11-06 07:05:26
虔誠書畫乃同源
瘋狂的外來入侵物種
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
德安县| 葫芦岛市| 竹溪县| 科技| 南雄市| 西乌珠穆沁旗| 兰考县| 鄂托克旗| 丹巴县| 巴林右旗| 边坝县| 平泉县| 萍乡市| 永顺县| 民勤县| 大埔区| 广灵县| 阳高县| 和田市| 同仁县| 苍梧县| 铜鼓县| 莆田市| 兴城市| 和田市| 天等县| 海门市| 紫云| 谢通门县| 巴南区| 旌德县| 合江县| 潞城市| 郧西县| 秦安县| 治多县| 乌拉特前旗| 安塞县| 绥江县| 邵东县| 如皋市|