国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

[微綜述]湖泊微生物宏基因組學(xué)研究進(jìn)展*

2020-01-09 09:00羅建樺吳慶龍
湖泊科學(xué) 2020年1期
關(guān)鍵詞:基因組學(xué)湖泊基因組

羅建樺,陶 曄,邢 鵬,吳慶龍

(1:中國(guó)科學(xué)院南京地理與湖泊研究所,湖泊與環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京 210008) (2:中國(guó)科學(xué)院大學(xué)中丹學(xué)院,北京 100049) (3:中國(guó)科學(xué)院大學(xué),北京 100049)

湖泊是陸地生態(tài)系統(tǒng)重要的生態(tài)類型之一,是陸地水圈的重要組成部分[1-2]. 在湖泊生態(tài)系統(tǒng)中,生物和環(huán)境兩者緊密聯(lián)系、相互作用,在區(qū)域乃至全球尺度上的元素循環(huán)中發(fā)揮著重要作用. 微生物是湖泊生態(tài)系統(tǒng)中物質(zhì)循環(huán)和能量流動(dòng)的重要參與者,在維持生態(tài)系統(tǒng)平衡和驅(qū)動(dòng)元素循環(huán)中起著關(guān)鍵性作用[3]. 湖泊微生物的研究,對(duì)于揭示湖泊生態(tài)系統(tǒng)的元素循環(huán)過(guò)程及其對(duì)環(huán)境變化的響應(yīng)機(jī)制,以及深入了解湖泊生態(tài)系統(tǒng)結(jié)構(gòu)和功能有著重要意義[4].

在傳統(tǒng)的微生物相關(guān)研究中,微生物的分離與培養(yǎng)扮演著至關(guān)重要的角色[5-6]. 但是,由于對(duì)自然界中微生物生長(zhǎng)所需營(yíng)養(yǎng)物質(zhì)以及微生物之間普遍存在的復(fù)雜共生關(guān)系認(rèn)識(shí)有限[7],自然界中絕大部分微生物在實(shí)驗(yàn)室中難以被培養(yǎng),尤其是淡水和海洋中的浮游微生物,其可培養(yǎng)率分別為0.25%和0.001%~0.1%[8]. 因此,湖泊中的絕大多數(shù)微生物還未被人們所認(rèn)知,對(duì)其功能的認(rèn)識(shí)更為匱乏.

在過(guò)去的20年中,快速發(fā)展的測(cè)序技術(shù)和計(jì)算能力已經(jīng)為微生物生態(tài)學(xué)領(lǐng)域帶來(lái)革命性的影響. 不依賴培養(yǎng)的微生物研究技術(shù)方法不斷建立,宏基因組學(xué)技術(shù)就是其中發(fā)展最快、應(yīng)用最廣泛的方法之一[5,9]. 1998年,Handelsman首次提出了宏基因組(Metagenome)的概念,即環(huán)境樣本中全部微生物基因組的總和,宏基因組學(xué)(Metagenomics)是將環(huán)境中全部微生物的遺傳信息看作一個(gè)整體,自上而下地研究微生物與自然環(huán)境或其他生物體之間關(guān)系的一種方法[9]. 這里需要說(shuō)明的是,擴(kuò)增子測(cè)序(是對(duì)特定長(zhǎng)度的PCR產(chǎn)物或捕獲的片段進(jìn)行測(cè)序,分析序列中的變異和豐度,主要用于研究環(huán)境微生物多樣性及群落組成差異)盡管也被歸入宏基因組學(xué)方法,但其不在本文討論的范疇. 宏基因組學(xué)方法一定程度上突破了水體微生物難以培養(yǎng)的困境,而且通過(guò)與生物信息學(xué)的有機(jī)結(jié)合,在揭示水體微生物之間、微生物與環(huán)境之間相互作用的規(guī)律中發(fā)揮了巨大的支撐作用,有效地拓展了湖泊微生物的研究思路與方法,為從群落水平上全面認(rèn)識(shí)湖泊微生物的生態(tài)特征和功能開(kāi)辟了新的途徑[10-11].

目前,宏基因組學(xué)作為迄今為止最全面地了解微生物群落特征、最大限度地挖掘微生物資源的一種方法,已經(jīng)成為了國(guó)際上微生物生態(tài)學(xué)主要的研究手段. 隨著高通量測(cè)序技術(shù)的不斷發(fā)展,測(cè)序成本不斷下降,宏基因組學(xué)技術(shù)將會(huì)越來(lái)越多地應(yīng)用于湖泊微生物的相關(guān)研究. 本文通過(guò)文獻(xiàn)計(jì)量分析和數(shù)據(jù)庫(kù)檢索方法展示了宏基因組學(xué)在湖泊微生物生態(tài)學(xué)中的應(yīng)用現(xiàn)狀,重點(diǎn)介紹了目前的研究熱點(diǎn)問(wèn)題;在方法學(xué)部分著重介紹了湖泊宏基因組學(xué)生物信息學(xué)分析中關(guān)鍵步驟——數(shù)據(jù)分裝(Binning)的發(fā)展趨勢(shì);文末展望了未來(lái)湖泊微生物宏基因組學(xué)研究的發(fā)展趨勢(shì)和研究重點(diǎn).

1 湖泊宏基因組研究文獻(xiàn)計(jì)量分析

1.1 國(guó)際研究文獻(xiàn)計(jì)量分析

本文研究數(shù)據(jù)來(lái)源于Web of Science (WOS)中的科學(xué)引文索引擴(kuò)展版(Science Citation Index Expanded, 簡(jiǎn)稱SCI-E),分別以主題詞:lake & marine & ocean & soil & atmosphere & air & metagenom* 對(duì)SCI-E數(shù)據(jù)庫(kù)時(shí)間范圍為2008-2018年的文獻(xiàn)進(jìn)行檢索. 檢索時(shí)間為2018年11月20日,檢索文獻(xiàn)類型界定為“論文”和“綜述”,不包括會(huì)議錄文獻(xiàn)、會(huì)議摘要、書評(píng)、信函、社論材料等. 共檢索到文獻(xiàn)3551篇,其中涉及湖泊文獻(xiàn)282篇,海洋1474篇,土壤1125篇,大氣及其他環(huán)境670篇,湖泊微生物相關(guān)研究?jī)H占到檢索文獻(xiàn)總數(shù)的7.9%. 目前,宏基因組學(xué)研究方法在海洋和土壤微生物生態(tài)學(xué)研究中已經(jīng)受到普遍關(guān)注,而在湖泊生態(tài)系統(tǒng)中的應(yīng)用仍處于逐年增加的階段. 湖泊微生物宏基因組學(xué)相關(guān)文章從2008年的6篇增至2018年的超過(guò)50篇. 282篇有關(guān)湖泊微生物宏基因組的研究論文共發(fā)表在104種SCI-E期刊上,其中34篇發(fā)表在8種自然指數(shù)收錄期刊上,占全部檢索論文的12.1%. 國(guó)際微生物生態(tài)學(xué)會(huì)會(huì)刊The ISME Journal發(fā)表湖泊宏基因組相關(guān)研究論文23篇,位列8種自然指數(shù)期刊第一.

以檢索獲得的282篇文獻(xiàn)為研究對(duì)象,對(duì)數(shù)據(jù)合并、去重等清洗后進(jìn)行各指標(biāo)定量分析,同時(shí)結(jié)合文獻(xiàn)閱讀和湖泊生態(tài)學(xué)領(lǐng)域?qū)<业慕ㄗh,近10年來(lái),湖泊微生物宏基因組學(xué)研究大致可以歸納為以下幾個(gè)主要方向:1)探索各種類型湖泊中的未知微生物結(jié)構(gòu)和功能,不僅提供物種存在的基因組學(xué)證據(jù),還可以通過(guò)基因組代謝特征分析,直接預(yù)測(cè)未知微生物在生態(tài)系統(tǒng)中的功能;2)從微生物群落水平,揭示湖泊生態(tài)系統(tǒng)中物質(zhì)循環(huán)關(guān)鍵代謝途徑和其主要微生物功能類群;3)通過(guò)深度測(cè)序重構(gòu)微生物基因組草圖,開(kāi)展微生物在湖泊環(huán)境的適應(yīng)性進(jìn)化研究、揭示演化過(guò)程和規(guī)律.

1.2 湖泊宏基因組數(shù)據(jù)產(chǎn)出分析

在文獻(xiàn)計(jì)量分析學(xué)分析基礎(chǔ)上,本研究繼續(xù)對(duì)上傳到美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)數(shù)據(jù)庫(kù)的Sequence Read Archive(SRA)進(jìn)行檢索和信息提取. 將研究過(guò)程中產(chǎn)出的數(shù)據(jù)上傳到公共數(shù)據(jù)庫(kù),是目前主流SCI-E期刊對(duì)于論文投稿的基本要求. 由于數(shù)據(jù)庫(kù)中有大量尚未發(fā)表的研究工作提交的宏基因組數(shù)據(jù),因此對(duì)數(shù)據(jù)庫(kù)已有信息的挖掘和整合有助于更為全面地掌握湖泊微生物宏基因組學(xué)研究動(dòng)態(tài). 在https://www.ncbi.nlm.nih.gov/sra/下使用“l(fā)ake”作為關(guān)鍵詞進(jìn)行檢索,共獲得57943條記錄(檢索時(shí)間為2019年4月18日),其中DNA來(lái)源數(shù)據(jù)53993條. 通過(guò)設(shè)定篩選條件,可以對(duì)滿足條件的數(shù)據(jù)集進(jìn)行深度分析.

本研究重點(diǎn)分析了湖泊水體宏基因組全球數(shù)據(jù)分布的情況. 通過(guò)確定分析類型(Assay_Type=WGA: whole genome amplification & WGS: whole genome sequencing & other),設(shè)定數(shù)據(jù)量閾值(MBytes >100Mb)以及篩選測(cè)序方法后,獲得SRA數(shù)據(jù)1941條. 在SRA對(duì)應(yīng)的測(cè)序項(xiàng)目(Bioproject)和樣品(Biosample)信息中提取湖泊經(jīng)緯度、樣品數(shù)量和數(shù)據(jù)量,進(jìn)一步制作湖泊宏基因組數(shù)據(jù)全球分布圖(圖1). 根據(jù)數(shù)據(jù)來(lái)源湖泊歸屬國(guó)家和地區(qū)進(jìn)行排序,美國(guó)、非洲、南極洲、加拿大和中國(guó)是數(shù)據(jù)量排名前5位的區(qū)域. 世界儲(chǔ)水量和深度均排名第二的坦噶尼喀湖是目前儲(chǔ)備宏基因組數(shù)據(jù)最多的湖泊(0.62 TBytes). 太湖是我國(guó)目前微生物宏基因組學(xué)數(shù)據(jù)量最集中的湖泊,共有樣品記錄26個(gè),數(shù)據(jù)合計(jì)0.11 TBytes. 本文作者在撫仙湖開(kāi)展的宏基因組測(cè)序(PRJNA531348)是目前我國(guó)湖泊單樣品測(cè)序深度最大的數(shù)據(jù)集,5個(gè)樣品的數(shù)據(jù)量與太湖全部的數(shù)據(jù)量相當(dāng).

圖1 湖泊宏基因組數(shù)據(jù)全球分布概況Fig.1 Global contribution of lake metagenomic raw data in NCBI database

2 湖泊微生物宏基因組學(xué)研究主要進(jìn)展

隨著湖泊微生物研究的深入,僅僅獲取湖泊微生物群落結(jié)構(gòu)信息,已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足對(duì)湖泊生態(tài)系統(tǒng)認(rèn)識(shí)的需求. 宏基因組學(xué)利用免培養(yǎng)手段,對(duì)環(huán)境樣品中的全部基因組信息進(jìn)行分析,可以全面、真實(shí)地獲取湖泊微生物群落的功能,包括生理生化、物質(zhì)代謝過(guò)程和環(huán)境適應(yīng)機(jī)制等等;基于功能基因和代謝通路分析,可以對(duì)微生物在湖泊關(guān)鍵物質(zhì),例如碳、氮、硫等元素循環(huán)中發(fā)揮的作用有一個(gè)更為全面的認(rèn)識(shí). 開(kāi)展宏基因組學(xué)研究,有助于不斷豐富和提升對(duì)湖泊微生物原位代謝特征的認(rèn)識(shí),在此基礎(chǔ)上設(shè)計(jì)更有針對(duì)性的培養(yǎng)基和培養(yǎng)方法,擴(kuò)大可分離培養(yǎng)微生物的范圍,實(shí)現(xiàn)非培養(yǎng)與培養(yǎng)研究手段的有機(jī)融合.

2.1 獲得湖泊不可培養(yǎng)微生物基因組信息

隨著組學(xué)和測(cè)序技術(shù)地不斷發(fā)展,免培養(yǎng)研究手段為獲取湖泊中未培養(yǎng)微生物的基因組信息提供了可能[12]. 宏基因組學(xué)通過(guò)Binning手段,將整個(gè)樣本基因組集分裝成一個(gè)個(gè)單一物種的基因組子集,從而可以獲取較多的單一菌株的微生物基因組信息,即metagenome-assembled genomes(MAGs). 2011年,Hess首次利用宏基因組學(xué)Binning從268 Gb的牛瘤胃樣品宏基因組數(shù)據(jù)中成功獲取了15個(gè)高質(zhì)量的未培養(yǎng)微生物的基因組序列,并用單細(xì)胞全基因組測(cè)序方法加以驗(yàn)證[13]. 自此,宏基因組學(xué)Binning逐漸成為了微生物宏基因組學(xué)研究的常用手段. 2017年,Bowers RM聯(lián)合54位活躍在宏基因組研究前沿的學(xué)者,在《Nature Biotechnology》雜志發(fā)表論文提出MAGs質(zhì)量劃分標(biāo)準(zhǔn)體系[14](表1). 在獲得MAGs的基礎(chǔ)上,利用CheckM[15]等軟件依據(jù)相應(yīng)算法和通用標(biāo)記基因集對(duì)MAGs的完整度、污染度等進(jìn)行評(píng)估,確保MAGs的可靠性以及相關(guān)分析的科學(xué)性. 隨著測(cè)序質(zhì)量和深度地不斷提高,高質(zhì)量MAGs可以提供的基因組信息已經(jīng)逐漸接近單基因組的水平.

表1 基因組草圖質(zhì)量標(biāo)準(zhǔn)(MAGs)

近幾年來(lái),Binning方法在揭示湖泊微生物組成和功能研究中發(fā)揮著重要作用. Vavourakis等在高鹽湖泊的宏基因組樣品中,利用Binning手段獲得了分屬于細(xì)菌、古菌等45個(gè)門的871個(gè)MAGs(其中154個(gè)MAGs達(dá)到高質(zhì)量MAGs標(biāo)準(zhǔn),717個(gè)滿足中等質(zhì)量MAGs標(biāo)準(zhǔn)),并且對(duì)所有MAGs進(jìn)行了系統(tǒng)發(fā)育分析和碳、氮、硫循環(huán)相關(guān)功能基因分析. 結(jié)果顯示包括Actinobacteria在內(nèi)的至少4個(gè)門(phylum)中,存在與湖泊碳固定和異化相關(guān)的未知微生物[16]. Arora-Williams在Upper Mystic湖的宏基因組數(shù)據(jù)中利用Binning手段獲得了87個(gè)MAGs(完整度大于70%,污染度小于10%),并采用功能基因、16S rRNA和MAGs信息三者相結(jié)合的方法確定了在一系列生物化學(xué)過(guò)程,例如鐵氧化和還原、硫氧化和還原、甲烷氧化、甲醇氧化、氨氧化、反硝化,發(fā)揮作用的微生物,并發(fā)現(xiàn)部分微生物可以在氧化甲烷和硫化物的過(guò)程中耦合硝酸鹽還原過(guò)程[17]. Cabello-Yeves將貝加爾湖宏基因組數(shù)據(jù)Binning結(jié)果進(jìn)行系統(tǒng)發(fā)育分析和功能基因分析,發(fā)現(xiàn)盡管湖泊被厚冰或雪覆蓋,光合作用在湖泊微生物中仍普遍存在,且發(fā)現(xiàn)淡水中的SAR11亞型I/II與貝加爾湖中的Pelagibacterubique菌株極為相似[18]. 針對(duì)MAGs功能挖掘,填補(bǔ)了湖泊中不可培養(yǎng)微生物的物種信息及其在湖泊中所扮演的功能角色信息.

2.2 獲取湖泊微生物的群落功能特征

澳大利亞新南威爾士大學(xué)Ricardo Cavicchioli教授及其合作研究團(tuán)隊(duì),運(yùn)用宏基因組手段長(zhǎng)期開(kāi)展南極洲低溫高鹽湖泊微生物生態(tài)學(xué)研究,對(duì)揭示極端湖泊生態(tài)系統(tǒng)中微生物在物質(zhì)循環(huán)和能量流動(dòng)中的作用做出了重要貢獻(xiàn). Organic湖是一個(gè)由海水形成的高鹽淺水湖泊,且在湖泊水體中存在有文獻(xiàn)記載以來(lái)的自然水體中最高濃度的二甲基硫化物[19]. 研究人員通過(guò)在宏基因組數(shù)據(jù)中查找代謝過(guò)程關(guān)鍵功能基因,重構(gòu)代謝通路的方法,揭示了微生物對(duì)二甲基巰基丙酸的解離、碳混養(yǎng)(光能異養(yǎng)和無(wú)機(jī)質(zhì)化能異養(yǎng))和氮的循環(huán)礦化可能是微生物對(duì)Organic湖營(yíng)養(yǎng)限制等特殊環(huán)境條件的適應(yīng)機(jī)制. 有著14 ka發(fā)育歷史的Ace湖,是南極最典型的半混合型(meromectic)湖泊,綠硫細(xì)菌在Ace湖中占主導(dǎo)地位,執(zhí)行非常活躍的硫元素形態(tài)轉(zhuǎn)化過(guò)程,主要包括同化硫酸鹽還原、異化硫酸鹽還原和硫氧化等. 在湖泊無(wú)光處綠硫細(xì)菌主要驅(qū)動(dòng)硫酸鹽還原過(guò)程,而在湖泊有光處綠硫細(xì)菌主要驅(qū)動(dòng)硫化氫氧化為硫酸根的過(guò)程. 研究還表明,Ace湖生態(tài)系統(tǒng)的穩(wěn)定程度主要取決于極地光周期對(duì)綠硫細(xì)菌在初級(jí)生產(chǎn)和養(yǎng)分循環(huán)中主導(dǎo)作用的影響,以及噬菌體對(duì)于微生物群落內(nèi)各成員間合作的影響[20].

“藍(lán)藻界”(cyanosphere)內(nèi)藍(lán)藻與異養(yǎng)細(xì)菌之間的相互作用研究,為揭示藍(lán)藻水華暴發(fā)機(jī)制提供了線索. 淡水湖泊水體富營(yíng)養(yǎng)化以及隨之而來(lái)的藍(lán)藻水華暴發(fā)已經(jīng)成為世界范圍關(guān)注的重大水環(huán)境問(wèn)題. 通過(guò)宏基因組學(xué)研究不僅揭示了藍(lán)藻物種組成的變化伴隨著藍(lán)藻界內(nèi)異養(yǎng)細(xì)菌群落的顯著變化[21],而且還獲得了藍(lán)藻與異養(yǎng)細(xì)菌之間相互作用的證據(jù). 通過(guò)對(duì)惠氏微囊藻T100及其附生細(xì)菌群落進(jìn)行功能分析發(fā)現(xiàn),附生細(xì)菌不僅為微囊藻提供必須的維生素,還能夠消除周圍環(huán)境中對(duì)微囊藻生長(zhǎng)不利的因素,從而使微囊藻在條件適宜時(shí)迅速形成水華,同時(shí)產(chǎn)生更多的次級(jí)代謝物供附生細(xì)菌生長(zhǎng),這種互利關(guān)系有助于微囊藻和附生細(xì)菌在復(fù)雜的水體環(huán)境中更好地生存[22]. 此外,研究發(fā)現(xiàn)盡管微囊藻本身無(wú)法固氮,但是其與附生微生物作為一個(gè)整體可以進(jìn)行固氮,這可能成為非固氮藍(lán)藻在氮相對(duì)缺乏狀態(tài)下獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的重要原因[23].

2.3 生態(tài)基因組學(xué)在湖泊研究中的發(fā)展

新興的生態(tài)基因組學(xué)彌補(bǔ)了遺傳學(xué)在實(shí)驗(yàn)室和自然環(huán)境研究之間的空隙:當(dāng)前的實(shí)驗(yàn)室遺傳研究主要集中在認(rèn)識(shí)基本的細(xì)胞發(fā)育過(guò)程,而自然遺傳更注重在遺傳適應(yīng)性分析和生物體相互作用層面開(kāi)展系統(tǒng)研究. 研究人員分析了兩個(gè)淡水湖Mendota湖和Trout Bog湖的總計(jì)184個(gè)宏基因組樣品,通過(guò)Binning手段獲得了19個(gè)屬于Verrucomicrobia的MAGs. 研究中對(duì)MAGs所包含的糖苷水解酶類相關(guān)基因進(jìn)行了分析,結(jié)果顯示Verrucomicrobia在淡水湖泊糖降解中發(fā)揮重要作用;兩個(gè)湖泊糖苷水解酶基因豐度和功能存在顯著差異,反映了微生物對(duì)湖泊內(nèi)、外源有機(jī)碳組成差異的適應(yīng)特征[24]. Cuadrat等利用Anti-SMASH和NAPDOS相應(yīng)流程篩選MAGs中的次級(jí)代謝基因,在121個(gè)MAGs中鑒定出243個(gè)次級(jí)代謝物基因簇,且發(fā)現(xiàn)18個(gè)非核糖體肽合酶(NRPS)、19個(gè)聚酮合酶(PKS)和3個(gè)雜合PKS/NRPS簇,揭示了在湖泊中挖掘和研究次級(jí)代謝相關(guān)功能基因的潛力[25]. Mehrshad等在3個(gè)淡水湖泊的57個(gè)宏基因組樣品中利用Binning手段獲取了屬于Chloroflexi的53個(gè)MAGs,并對(duì)其系統(tǒng)發(fā)育關(guān)系和進(jìn)化進(jìn)行了分析,結(jié)果表明鹽度是海洋和淡水環(huán)境中Chloroflexi群落組成的主要影響因素[26]. 值得注意的是,Andrei等在分別位于捷克和瑞士的兩個(gè)淡水湖中利用宏基因組學(xué)Binning手段獲得了60個(gè)屬于Planctomycetes的MAGs,并進(jìn)行了后續(xù)的微生物進(jìn)化、系統(tǒng)發(fā)育和基因組功能信息相關(guān)的一系列分析[27],首次提出沉積物或土壤中的Planctomycetes成功過(guò)渡到水生環(huán)境,且在淡水環(huán)境中產(chǎn)生了新的特定進(jìn)化枝. 引入生態(tài)基因組學(xué)的理念,開(kāi)展微生物對(duì)湖泊生境的適應(yīng)性進(jìn)化研究、揭示演化過(guò)程和規(guī)律是湖泊微生物生態(tài)學(xué)發(fā)展的新方向.

3 宏基因組生物信息分析流程

數(shù)據(jù)分析是宏基因組學(xué)研究的基礎(chǔ),由于數(shù)據(jù)信息量和復(fù)雜程度遠(yuǎn)遠(yuǎn)高于擴(kuò)增子測(cè)序,因此在大規(guī)模的數(shù)據(jù)中獲取有效信息是宏基因組研究的目標(biāo)同時(shí)也是挑戰(zhàn). 目前Binning成為宏基因組生物信息分析流程中發(fā)展最快、創(chuàng)新最多的核心技術(shù),本節(jié)在簡(jiǎn)要介紹測(cè)序技術(shù)發(fā)展和宏基因組數(shù)據(jù)分析基本流程的基礎(chǔ)上,重點(diǎn)介紹了Binning策略的發(fā)展和應(yīng)用情況.

3.1 高通量測(cè)序技術(shù)和宏基因組生物信息學(xué)分析流程

宏基因組學(xué)研究與高通量測(cè)序技術(shù)的發(fā)展密不可分. 高通量測(cè)序技術(shù)又稱“下一代”測(cè)序技術(shù),以能一次并行對(duì)幾十萬(wàn)到幾百萬(wàn)條DNA分子進(jìn)行序列測(cè)定和一般讀長(zhǎng)較短等為標(biāo)志. 目前高通量測(cè)序以Illumina公司提供的平臺(tái)為主,也是湖泊微生物宏基因組學(xué)研究中應(yīng)用最廣泛的測(cè)序技術(shù). 第二代測(cè)序技術(shù)自身存在的局限性,如序列讀長(zhǎng)短(<500 bp)、樣品準(zhǔn)備過(guò)程繁瑣以及基因表達(dá)等相關(guān)分析準(zhǔn)確性低等[28],催生測(cè)序技術(shù)的革新. 以單分子實(shí)時(shí)測(cè)序[29]和納米孔單分子技術(shù)[30]為典型代表的第三代測(cè)序技術(shù)顯著提高序列讀長(zhǎng)(平均10~15 kb),但是較高的錯(cuò)誤率(可以達(dá)到15%)仍然影響組裝質(zhì)量. 盡管通過(guò)提高測(cè)序覆蓋度可以有效改善第三代測(cè)序的準(zhǔn)確性,但測(cè)序成本和所需時(shí)間遠(yuǎn)遠(yuǎn)超過(guò)第二代測(cè)序,導(dǎo)致第三代測(cè)序在宏基因組學(xué)研究中并未得到廣泛應(yīng)用. 目前,采用第二代測(cè)序和第三代測(cè)序相結(jié)合,通過(guò)高質(zhì)量的二代測(cè)序短片段來(lái)校正第三代測(cè)序產(chǎn)生的錯(cuò)誤堿基,可以有效改善細(xì)菌等小基因組測(cè)序的準(zhǔn)確性(錯(cuò)誤率低于1%). 由于宏基因組測(cè)序所要求的測(cè)序覆蓋度較大,數(shù)據(jù)量龐大,這種混合組裝的模式目前很難應(yīng)用于宏基因組學(xué)研究中. 本文以Illumina測(cè)序平臺(tái)獲得原始測(cè)序數(shù)據(jù)為例,開(kāi)展宏基因組學(xué)生物信息學(xué)分析主要環(huán)節(jié)如圖2所示.

圖2 宏基因組學(xué)生物信息學(xué)分析流程Fig.2 Metagenomics bioinformatics analysis flow based on Illumina sequencing

3.2 宏基因組學(xué)數(shù)據(jù)Binning發(fā)展趨勢(shì)

宏基因組學(xué)的序列分析重要的一步就是測(cè)序片段的Binning,其準(zhǔn)確性直接影響宏基因組學(xué)研究的精度和效率. 宏基因組學(xué)Binning是將樣本的整體序列集(reads或contigs等)分離成若干個(gè)不同個(gè)體的子序列集(Bins),即將同一物種的序列聚到一起,Bins中序列就是這個(gè)物種基因組的部分片段. 根據(jù)基于聚類的對(duì)象不同,可以將Binning分為3類:reads binning、contigs binning和genes binning. Reads binning是依據(jù)reads的核酸序列組成和特點(diǎn)將所有reads分成若干個(gè)子集,然后進(jìn)行后續(xù)宏基因組學(xué)分析. 由于相關(guān)軟件或者算法限制,reads binning的宏基因組數(shù)據(jù)利用率較低,故而并沒(méi)有被廣泛使用. Genes binning是將各個(gè)樣本中的整體基因集,依據(jù)基因在各個(gè)樣品中的豐度進(jìn)行關(guān)聯(lián)分析,利用相關(guān)性對(duì)基因進(jìn)行聚類得到基因子集. Contigs binning是發(fā)展最快、應(yīng)用最為廣泛的序列分裝手段. Contigs的序列長(zhǎng)度遠(yuǎn)大于reads序列長(zhǎng)度,依據(jù)核酸序列組成和特點(diǎn)的算法所得到的結(jié)果更加可靠且穩(wěn)定;而對(duì)于數(shù)據(jù)的利用率,contigs binning也遠(yuǎn)大于reads binning. 下面重點(diǎn)介紹contigs binning的方法和應(yīng)用.

多種binning技術(shù)的整合有助于獲得更多高質(zhì)量的MAGs. Contig binning的方法主要分為3種:基于核酸組成(nucleotide composition(NC)-based)、基于豐度差異(differential abundance(DA)-based)和基于核酸組成及豐度(nucleotide composition and abundance(NCA)-based)[31]. NC法主要依賴寡核苷酸頻率變化,DA法則依賴于微生物豐度不同的多個(gè)樣本中contigs的覆蓋度. NCA法結(jié)合了NC法和DA法,基于NC和DA創(chuàng)建復(fù)合距離矩陣進(jìn)行后續(xù)聚類,是目前宏基因組binning的主流技術(shù). 基于NCA算法的軟件工具有:MetaBAT[32]、CONCOCT[33]、GroopM[34]、MaxBin[35]和Databionuc ESOM工具[36]等. 2018年前后科研人員利用上述方法,大規(guī)模獲取人體、腸道、土壤、海洋、污水處理反應(yīng)池等生境中的微生物高質(zhì)量MAGs[37-45]. 然而,橫向比較發(fā)現(xiàn)針對(duì)不同生境的宏基因組數(shù)據(jù),各種分裝算法的表現(xiàn)并不相同,得到的MAGs在數(shù)量、污染度、基因組完整度指標(biāo)上有明顯的區(qū)別. 2018年5月,Sieber等開(kāi)發(fā)出一種整合多種binning算法的DAS工具,通過(guò)與常見(jiàn)的5種單獨(dú)binning算法進(jìn)行比較,DAS獲得了更多的高質(zhì)量MAGs[41]. 同年9月,Uritskiy等也開(kāi)發(fā)出整合多種binning算法的MetaWRAP工具[46],其在水體、土壤和腸道的測(cè)試宏基因組數(shù)據(jù)中表現(xiàn)明顯優(yōu)于單獨(dú)的binning算法,相對(duì)于其他整合工具,如DAS和Binning_refiner[47],也略有優(yōu)勢(shì). 針對(duì)自然界中普遍存在水平基因轉(zhuǎn)移現(xiàn)象[48],Song等開(kāi)發(fā)出MetaCHIP工具,使用BLASTN軟件鑒定MAGs中各個(gè)片段的物種來(lái)源,結(jié)合MAGs整體的物種注釋信息,可以有效判別樣品宏基因組中的水平基因轉(zhuǎn)移特征[49]. 各類binning整合分析工具與基因元件鑒定工具的出現(xiàn)為揭示更多微生物未知信息提供了可能,同時(shí)也方便科研工作者整合結(jié)果,還原更加完整、真實(shí)的環(huán)境微生物菌群基因信息.

4 展望

宏基因組學(xué)研究方法打破了基于微生物培養(yǎng)技術(shù)的傳統(tǒng)微生物研究的困境,可以全面、真實(shí)地獲取湖泊微生物多樣性和功能多樣性信息,同時(shí)也可以分析微生物與微生物之間、微生物與環(huán)境之間等的相互關(guān)系. 利用高通量測(cè)序技術(shù)和生物信息學(xué)分析手段,湖泊微生物宏基因組學(xué)研究時(shí)間周期遠(yuǎn)小于傳統(tǒng)微生物研究,一定程度上提高了研究效率. 隨著測(cè)序技術(shù)的不斷發(fā)展,宏基因組學(xué)研究的成本在不斷下降,微生物樣本的宏基因組學(xué)研究將變得更加普及. 與其他生境相比,湖泊微生物生態(tài)學(xué)研究處于落后狀態(tài),亟需開(kāi)展大規(guī)模的微生物宏基因組學(xué)研究,通過(guò)廣泛獲得未知微生物高質(zhì)量MAGs強(qiáng)化對(duì)湖泊微生物生態(tài)功能的認(rèn)識(shí).

微生物宏基因組學(xué)技術(shù)也存在方法自身的局限性[50](表2). 宏基因組結(jié)果可以表明功能基因存在與否,但無(wú)法確定功能基因的表達(dá)情況;測(cè)序結(jié)果容易受到污染序列的影響而降低研究的科學(xué)性和可靠性,避免或減少宏基因組樣本中的污染或宿主序列仍舊是一個(gè)較大的難題;隨著測(cè)序深度的不斷增加,單個(gè)樣品的宏基因組數(shù)據(jù)量可以達(dá)到幾十甚至上百Gb,但是由于微生物培養(yǎng)技術(shù)的局限性和相關(guān)軟件和數(shù)據(jù)庫(kù)的限制,較大比例的物種信息和功能基因信息都無(wú)法獲得注釋,對(duì)測(cè)序數(shù)據(jù)的利用效率十分有限;利用宏基因組學(xué)研究湖泊微生物間相互關(guān)系時(shí),采用數(shù)學(xué)統(tǒng)計(jì)和模型分析等手段常常會(huì)將樣本微生物關(guān)系更復(fù)雜化. 因此,通過(guò)微生物培養(yǎng)技術(shù)對(duì)微生物物種信息數(shù)據(jù)庫(kù)和功能基因數(shù)據(jù)庫(kù)進(jìn)行擴(kuò)充,對(duì)于宏基因組學(xué)研究是必需的. 將宏基因組學(xué)研究與微生物培養(yǎng)技術(shù)、宏轉(zhuǎn)錄組學(xué)、宏蛋白組學(xué)、宏代謝組學(xué)等相結(jié)合,有望打破其當(dāng)下的局限性,簡(jiǎn)化宏基因組學(xué)數(shù)據(jù)分析,提高研究結(jié)果的可靠性和科學(xué)性. 隨著生物信息學(xué)相關(guān)學(xué)科和技術(shù)的不斷發(fā)展,宏基因組學(xué)技術(shù)將在湖泊微生物研究中發(fā)揮更為重要的作用,成為人類了解湖泊生態(tài)系統(tǒng)功能和維持機(jī)制的有力工具.

表2 評(píng)估微生物群落的不同基因組分析方法優(yōu)缺點(diǎn)

猜你喜歡
基因組學(xué)湖泊基因組
“植物界大熊貓”完整基因組圖譜首次發(fā)布
牛參考基因組中發(fā)現(xiàn)被忽視基因
山西在谷子功能基因組學(xué)研究領(lǐng)域取得重大突破
科學(xué)家找到母愛(ài)改變基因組的證據(jù)
湖泊上的酒店
血清HBV前基因組RNA的研究進(jìn)展
新疆和西藏少數(shù)民族的群體基因組學(xué)研究
系統(tǒng)基因組學(xué)解碼反芻動(dòng)物的演化
奇異的湖泊
華法林出血并發(fā)癥相關(guān)藥物基因組學(xué)研究進(jìn)展
海南省| 大渡口区| 渑池县| 桑日县| 武宣县| 宿松县| 孟村| 竹溪县| 崇信县| 仙居县| 太湖县| 汕头市| 北海市| 水城县| 苗栗县| 囊谦县| 嘉义县| 星座| 康保县| 三门峡市| 内黄县| 温州市| 榆社县| 普兰县| 新邵县| 苏尼特左旗| 于都县| 青河县| 平凉市| 玉环县| 临沧市| 永善县| 北安市| 甘泉县| 炎陵县| 石泉县| 阿勒泰市| 洪湖市| 大足县| 始兴县| 汝阳县|