孫璐
(青海大學(xué)畜牧獸醫(yī)科學(xué)院,西寧 810000)
微生物是地球上分布最廣的生物群和重要的分解物,在許多方面起主導(dǎo)作用。傳統(tǒng)的微生物研究通常是在實(shí)驗(yàn)室中通過分離和培養(yǎng)進(jìn)行的,而在現(xiàn)實(shí)中,環(huán)境中大量的微生物是無法通過培養(yǎng)的方式被解析的。隨著高通量測序技術(shù)的發(fā)展,擴(kuò)增子測序被用于特定生態(tài)環(huán)境中的微生物組成、物種間的進(jìn)化關(guān)系和群落多樣性研究,而菌群的遺傳性、功能潛力及微生物、環(huán)境與宿主之間的關(guān)系則需要宏基因組來實(shí)現(xiàn)。宏基因組(metagenome)又被稱為微生物環(huán)境基因組(Microbial Environmental Genome)或元基因組,其概念早在1998 年由Handelsman J等提出,定義為“the genomes of the total microbiota found in nature”,即生境中全部微小生物遺傳物質(zhì)的總和,包括可培養(yǎng)和不可培養(yǎng)微生物的基因,目前主要指的是環(huán)境樣品中細(xì)菌和真菌的基因組總和[1]。宏基因組學(xué)(metagenomics)是以環(huán)境樣品中微生物群體的所有基因組為研究對(duì)象,以功能基因的篩選和測序分析為手段,以微生物多樣性、種群結(jié)構(gòu)、進(jìn)化關(guān)系、功能活性、協(xié)作關(guān)系以及環(huán)境之間的關(guān)系為目的的微生物研究方法[2]。
其研究流程包括微生物樣本DNA的提取,構(gòu)建文庫后上機(jī)測序,測序數(shù)據(jù)質(zhì)量控制后進(jìn)行組裝和拼接,對(duì)組裝好的大片段進(jìn)行基因預(yù)測、物種注釋和功能注釋等,從基因和功能水平進(jìn)行分析,拓展了微生物功能代謝研究。宏基因組的研究可以分為測序數(shù)據(jù)的產(chǎn)生和測序數(shù)據(jù)的生物信息學(xué)分析兩個(gè)部分。
宏基因組測序數(shù)據(jù)經(jīng)過樣品DNA提取、文庫構(gòu)建、上機(jī)測序等流程產(chǎn)生。
1.1樣品DNA提取
宏基因組樣品總DNA 的濃度、純度、片段大小和偏好性等將直接影響到宏基因組文庫的質(zhì)量和代表性。宏基因組研究中,DNA的提取方法分為直接提取法和間接提取法。直接提取法又稱原位裂解法,是通過物理、化學(xué)和酶法等直接裂解環(huán)境樣品中微生物的細(xì)胞壁提取和純化DNA的方法。該法獲得DNA的效率高、操作簡單、成本較低、具有良好的重復(fù)性,但是提取的DNA片段較小(1-50kb),純度較低,需通過純化處理之后才能繼續(xù)后續(xù)的分子生物學(xué)操作。間接提取法是將微生物細(xì)胞從樣品中分離出來,通過較溫和的方法提取 DNA并純化,該方法能夠獲得較高純度的DNA大片段(20-500kb),但是操作復(fù)雜,成本高,且在溫和的條件下一些具有較厚細(xì)胞壁的微生物DNA不容易提取。直接法和間接法各有優(yōu)缺點(diǎn),目前關(guān)于環(huán)境微生物樣本DNA 的提取大多采用直接提取法。
1.2文庫構(gòu)建
DNA片段的大小決定了基因組文庫的完整性,構(gòu)建宏基因組文庫時(shí)要考慮到研究的總體目的和獲得的DNA的數(shù)量、純度及片段的大小等。宏基因組常用的載體包括質(zhì)粒(plasmid)、細(xì)菌人工染色體(bacterial artificial chromosome)、柯斯載體(cosmid)、福斯黏粒(fosmid)等,能夠滿足不同插入片段大小的要求[3]。無論選用哪種載體構(gòu)建文庫,都必須使文庫最大程度地覆蓋樣本中所有微生物的基因組。宿主菌株的選擇主要考慮轉(zhuǎn)化效率、基因的表達(dá)、重組質(zhì)粒在宿主細(xì)胞中的穩(wěn)定性以及目標(biāo)性狀的篩選等[4]。最常用的宿主有大腸桿菌(E.coli)、芽胞桿菌(Bacillus)、變鉛青鏈霉菌(Streptomyceslividans)和惡臭假單胞菌(Pseudomonasputida)等[5]。
1.3上機(jī)測序
第二代測序技術(shù)依托的高通量測序平臺(tái)主要有羅氏公司的454測序儀、Illumina公司的Solexa Genoma Analyzer測序儀和ABI公司的SOLi D測序儀,它們的測序深度在一定程度上彌補(bǔ)了讀長較短的問題,深入且快速的測序過程使得他們成為目前應(yīng)用最廣泛的測序平臺(tái)。454焦磷酸測序儀是最早的循環(huán)微陣列測序平臺(tái),獲得的讀長可達(dá)400bp,但存在著無法精確測量同聚物長度和測序通量較低的缺點(diǎn)?;凇斑吅铣蛇厹y序”原理的Illumina 測序需要的樣品量較少,文庫構(gòu)建過程簡單,運(yùn)行成本較低,逐漸成為目前市面上的主流測序平臺(tái),但是由于光信號(hào)的衰減和移相,導(dǎo)致序列讀長較短。SOLi D平臺(tái)采用的是基于連接測序的雙堿基測序技術(shù),以一個(gè)熒光信號(hào)對(duì)應(yīng)兩個(gè)堿基為基礎(chǔ),使每個(gè)位點(diǎn)都被檢測兩次,具有誤差小和自主校正的優(yōu)點(diǎn)。
宏基因組的生物信息分析內(nèi)容主要包括質(zhì)量控制、序列比對(duì)、序列組裝、基因預(yù)測、物種鑒定等,分析工具也主要在Shell和R兩種語言環(huán)境下運(yùn)行,分析流程涉及到大量的軟件和數(shù)據(jù)庫,不同的分析流程影響著宏基因研究的準(zhǔn)確性和精確性。
2.1質(zhì)量控制和去除宿主序列
宏基因組測序的數(shù)據(jù)是由樣本中大量微生物的短序列組成,存在一定比例的低質(zhì)量數(shù)據(jù),在研究動(dòng)植物的微生物群落時(shí),宿主的遺傳物質(zhì)也會(huì)被測序,導(dǎo)致數(shù)據(jù)污染和測序成本增加,為了確保后續(xù)分析結(jié)果的精確性和可靠性,需要對(duì)原始序列進(jìn)行質(zhì)量控制(quality control,QC)和去除宿主序列的干擾,獲得純凈序列(clean reads)。
質(zhì)量控制指的是從測序數(shù)據(jù)中去除人為添加的引物、接頭以及產(chǎn)生的低質(zhì)量序列,常用的軟件主要有Trimmomatic、FASTX-Toolkit、Cutadapt、PRINSEQ等。基于Illumina平臺(tái)輸出而設(shè)計(jì)的Trimmomatic軟件是采用序列堿基和質(zhì)量分?jǐn)?shù)兩種信息對(duì)序列進(jìn)行過濾處理的分析工具,能夠去除引物、接頭和低質(zhì)量序列,并將序列剪切到一定長度且不干擾下游序列的分析。FASTX-Toolkit可以對(duì)序列進(jìn)行匯總統(tǒng)計(jì),但是產(chǎn)生結(jié)果的質(zhì)量不如Trimmomatic。Cutadapt可以去除任意指定的接頭。PRINSEQ可以剪切序列和堿基外,還可以通過 GC 含量過濾序列,對(duì)序列進(jìn)行匯總統(tǒng)計(jì)。采用比對(duì)宿主序列的方式去除宿主序列,使用的軟件主要有TopHat2和Bowtie2。TopHat2 是利用計(jì)算機(jī)將序列映射并與參考基因組比對(duì)的軟件,需要有較高計(jì)算能力的計(jì)算機(jī)支持。Bowtie2是將測序的reads比對(duì)到長的參考序列,是一個(gè)快速、節(jié)約內(nèi)存的序列比對(duì)工具。
2.2基于序列(Read-based)的分析
宏基因組研究中基于序列(Read-based)的分析是將質(zhì)量控制和去除宿主后的clean reads直接比對(duì)到數(shù)據(jù)庫,獲得物種組成和功能信息的研究方法,該方法需要依托較完善的參考數(shù)據(jù)庫,目前人類各項(xiàng)研究的數(shù)據(jù)庫質(zhì)量比較高,該方法較適合于人類相關(guān)研究。
MetaPhlAn2是分析宏基因組測序數(shù)據(jù)中微生物群落組成的工具,它是從全基因組數(shù)據(jù)庫中使用分支特異性標(biāo)記基因注釋序列,獲得細(xì)菌或古菌的物種水平分布。MetaPhlAn2很少單獨(dú)使用,目前被整合在有參宏基因組分析流程HUMANn2中,可直接使用reads獲得物種、功能、以及功能對(duì)應(yīng)物種組成信息。HUMANn2采用分層式算法比對(duì)標(biāo)記基因、泛基因組和蛋白數(shù)據(jù)庫,能夠快速、準(zhǔn)確獲得種水平的功能組成,建立物種與功能的聯(lián)系,并引入貢獻(xiàn)多樣性的概念(contributional diversity),解釋不同微生物群體類型生態(tài)學(xué)組裝的模式,使我們從類多樣性角度重新認(rèn)識(shí)微生物組功能組成,以及與物種間的聯(lián)系。
物種注釋用于表明物種間關(guān)系遠(yuǎn)近,不同分類數(shù)據(jù)庫注釋的結(jié)果差別較大,不同的注釋方法也會(huì)影響到物種注釋的準(zhǔn)確性、分類水平高低、注釋的速度、計(jì)算機(jī)的資源消耗、系統(tǒng)兼容性等。目前基于序列層面的宏基因組物種注釋主要有兩種:一是將待注釋的序列比對(duì)到數(shù)據(jù)庫中,通過序列的相似度進(jìn)行物種注釋,該方法受限于數(shù)據(jù)庫的完整性,比對(duì)結(jié)果不準(zhǔn)確。 二是基于k-mer頻數(shù)的打分策略,利用參考基因組中所有kmer根據(jù)LCA進(jìn)化樹,將reads的kmer進(jìn)行索引,利用比對(duì)kmer頻數(shù)確定物種分類豐度的方法,是目前宏基因組研究公認(rèn)的物種注釋較準(zhǔn)確的方法,常用軟件有Kraken系列、Clark、Kaiju等。
2.3基于組裝(Assembly-based)的分析
在實(shí)際研究中,我們通常面對(duì)的是環(huán)境中大量未知的微生物,且參考數(shù)據(jù)庫并不完善的情況下,無法采用基于序列的分析方法獲得微生物組成和功能。針對(duì)該問題,出現(xiàn)了基于組裝(Assembly-based)的分析方法,即將原始序列組裝成重疊群(contigs),對(duì)重疊群進(jìn)行基因注釋,根據(jù)已有的數(shù)據(jù)庫挖掘物種組成和功能。還可以在重疊群的層面上進(jìn)行分箱(Binning)或宏基因組組裝基因組(metagenome assembled genome,MAG),拼出未培養(yǎng)菌(未知菌)的基因組,探索細(xì)菌基因組中的代謝通路等。宏基因組基于組裝的分析主要分為組裝(assembly)和分箱(binning)兩個(gè)關(guān)鍵步驟。
2.3.1組裝(assembly)
將測序獲得的短基因片段拼接成較長基因片段的過程叫做組裝(assembly)。測序獲得的讀長通過計(jì)算機(jī)軟件根據(jù)讀長之間的重疊區(qū)關(guān)系進(jìn)行拼接獲得的更長的序列被稱為重疊群(contigs),將重疊群中間用N連接后形成的更長序列被稱為框架(scaffold)?;诘虏既R英圖(De Bruijn Graph,DBG)的組裝算法代表軟件有MEGAHIT,適合30G~300G范圍的多樣本混合組裝,默認(rèn)按95%相似度的種水平聚類,但是無法拼接至株水平。metaSPAdes是目前宏基因組領(lǐng)域組裝指標(biāo)最好,但最消耗時(shí)間和內(nèi)存的軟件,適合單樣本組裝,可以拼接株水平重疊群。
基于組裝的序列,我們可以實(shí)現(xiàn)基因預(yù)測、物種注釋、功能注釋等相關(guān)分析,研究微生物菌群的結(jié)構(gòu)、功能和作用機(jī)制。但是組裝過程中存在著兩大難題,一是宏基因組數(shù)據(jù)量大組裝過程復(fù)雜,序列相似性高組裝難度大。二是在開展動(dòng)物胃腸道微生物、植物內(nèi)生菌等研究時(shí),宿主污染不可避免,過濾宿主DNA的前提需要有宿主的基因組信息。Prodigal軟件是基于動(dòng)態(tài)規(guī)劃的評(píng)分模型進(jìn)行預(yù)測,主要用于細(xì)菌和古菌的基因預(yù)測,無法預(yù)測真核生物。該軟件被許多分析流程整合,運(yùn)行速度快,支持多線程讀取,本地安裝或conda安裝等都很方便,還有在線分析平臺(tái),適合初學(xué)者使用。MetaProdigal 是Prodigal基因預(yù)測的宏基因組版本,提高了宏基因組分析中的基因識(shí)別能力。GeneMark軟件采用的是無監(jiān)督學(xué)習(xí)模型的預(yù)測方法,是具有強(qiáng)大功能的軟件家族,可以實(shí)現(xiàn)多種類型的基因預(yù)測,包括宏基因組、宏轉(zhuǎn)錄組、真核生物、轉(zhuǎn)錄本、病毒、噬菌體、質(zhì)粒等,GeneMarkS-2是宏基因組基因預(yù)測的最新版本。組裝獲得的基因或基因集的功能需要通過基因注釋實(shí)現(xiàn),即在特定的功能數(shù)據(jù)庫中對(duì)基因或蛋白序列進(jìn)行比對(duì),將基因或蛋白質(zhì)與特定的功能聯(lián)系起來,幫助了解相關(guān)的代謝通路,并進(jìn)一步理解宿主與菌群、宿主與環(huán)境之間的關(guān)系,常用的功能注釋數(shù)據(jù)庫主要有KEGG、EggNOG、CAZy、CARD、VFDB、MetaCyc等。
2.3.2分箱(Binning)
將組裝的重疊群(contigs)按照物種、亞種或者屬進(jìn)行分類的過程被稱為Binning(中文翻譯為分箱)。宏基因組分箱技術(shù)有助于獲得不可培養(yǎng)微生物的全基因組序列、新物種的基因組序列和功能,是測序技術(shù)不成熟的產(chǎn)物,適用于研究復(fù)雜的微生物體系,對(duì)于分離的純菌和第三代測序技術(shù)獲得的準(zhǔn)確率和測序深度較高的長片段該技術(shù)不適用。早在2011年宏基因組分箱技術(shù)首次應(yīng)用于牛瘤胃的樣本研究,引起廣泛關(guān)注,也逐漸出現(xiàn)了很多宏基因組分箱工具,如MEGAN、 MG-RAST、 LikelyBin、TETRA、 SCIMM、Abundance-Bin、 Canopy、MetaBAT、MaxBin和GroopM等,各軟件分析結(jié)果差異很大,流程多樣復(fù)雜,耗時(shí)費(fèi)力,缺少評(píng)估和可視化的工具,使得宏基因組分箱研究帶來困難。2018年發(fā)布的兩款分箱提純工具 metaWRAP和 DAS Tool,將 3~5 款分箱工具進(jìn)行整合,從原始數(shù)據(jù)直接到宏基因組bin和相關(guān)下游分析,它包括混合算法,來實(shí)現(xiàn)多種軟件分箱結(jié)果的整合,在人工重組和自然樣本數(shù)據(jù)中結(jié)果均優(yōu)于大部分主流軟件,還包括物種注釋、豐度估計(jì)、功能注釋和可視化等多個(gè)宏基因組分箱結(jié)果的下游分析功能。[6]
3.1EBI Metagenomics
EBI Metagenomics是 2011 年由歐洲生物信息學(xué)研究所(EBI)開發(fā)的宏基因組數(shù)據(jù)管理、分析、存儲(chǔ)平臺(tái)。注冊后可以上傳宏基因組的原始核苷酸讀數(shù)并在平臺(tái)中保留2 年,且以唯一的登錄號(hào)自動(dòng)存儲(chǔ)在歐洲核苷酸檔案(European Nucleotide Archive,ENA)中。分析結(jié)果可以通過 EBI Metagenomics平臺(tái)的網(wǎng)絡(luò)界面獲得,提供多種下載格式,能夠?qū)崿F(xiàn)在線或獨(dú)立工具之間的兼容,平臺(tái)還提供比較分析工具,可以對(duì)數(shù)據(jù)庫中已經(jīng)存儲(chǔ)的樣本數(shù)據(jù)進(jìn)行快速比較分類和功能分析。[7]
3.2IMG/M
IMG是由美國能源部聯(lián)合基因組研究所(Joint Genome Institute,JGI)開發(fā)的宏基因組數(shù)據(jù)存儲(chǔ)、管理和分析系統(tǒng)。IMG/M是將宏基因組數(shù)據(jù)集與來自IMG系統(tǒng)的微生物基因組整合在一起,是IMG的一個(gè)特定領(lǐng)域的工具,能夠與微生物群落的測序數(shù)據(jù)兼容,為微生物基因組和宏基因組數(shù)據(jù)的注釋、分析和發(fā)布等提供了免費(fèi)支持。預(yù)處理、質(zhì)量控制和輸入數(shù)據(jù)的注釋由JGI的宏基因組注釋系統(tǒng)執(zhí)行。能夠使用KOG、FEGG、PFAM、GO等參考數(shù)據(jù)集對(duì)IMG/M存儲(chǔ)的數(shù)據(jù)進(jìn)行注釋,包括系統(tǒng)發(fā)育組成、單個(gè)微生物組內(nèi)的功能或代謝潛力,以及微生物組間的比較等內(nèi)容。[8,9]
3.3MG-RAST
MG-RAST是一個(gè)開源的服務(wù)器,最初構(gòu)建在 SEED 項(xiàng)目框架上,于 2007 年首次發(fā)布,是最早的宏基因組在線分析工具之一。它不完全依賴 SEED 技術(shù),而是使用 SEED 子系統(tǒng)作為首選數(shù)據(jù)源,實(shí)現(xiàn)微生物的組成和功能分類。除了數(shù)據(jù)訪問之外,用戶注冊后還可以提交自己的 FASTA、FASTQ 和 SFF 格式的原始宏基因組數(shù)據(jù)以及詳細(xì)的樣本信息。該服務(wù)器支持包括系統(tǒng)發(fā)育、功能、代謝和兩個(gè)或多個(gè)宏基因組的比較分析。還提供了選擇數(shù)據(jù)庫的工具,以便根據(jù)測序數(shù)據(jù)對(duì)微生物種群進(jìn)行定量分析。注冊用戶有權(quán)公開發(fā)布他們的數(shù)據(jù)或?qū)?shù)據(jù)保密,并可以在多個(gè)用戶之間共享數(shù)據(jù)并保護(hù)機(jī)密,在分析、隱私和數(shù)據(jù)共享方面提供了極大的靈活性。[10,11]
3.4NMDC
NMDC國家微生物科學(xué)數(shù)據(jù)中心是以中國科學(xué)院微生物研究所作為依托單位,聯(lián)合中國科學(xué)院海洋研究所、中國疾病預(yù)防控制中心傳染病預(yù)防控制所、中國科學(xué)院植物生理生態(tài)研究所,中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心等單位共同建設(shè)的關(guān)于微生物的免費(fèi)的一站式生物信息分析云平臺(tái)。截止2021年,中心數(shù)據(jù)資源總量超過3PB,數(shù)據(jù)記錄數(shù)超過40億條,數(shù)據(jù)內(nèi)容完整覆蓋了微生物資源、微生物和交叉技術(shù)方法、研究過程和工程、微生物組學(xué)、微生物技術(shù)以及微生物文獻(xiàn)、專利、專家、成果等微生物研究的整個(gè)生命周期??商峁┌ㄉ镄畔⒃诰€分析工具、計(jì)算資源、公共參考數(shù)據(jù)的整合在線服務(wù)。圖形化操作界面,每項(xiàng)分析都可以自定義分析參數(shù),實(shí)現(xiàn)在鼠標(biāo)點(diǎn)擊之間即可在線進(jìn)行生物信息數(shù)據(jù)分析。目前國家微生物科學(xué)數(shù)據(jù)中心已經(jīng)上線了84個(gè)分析工具和自定義的數(shù)據(jù)分析工作流,涵蓋了宏基因組分析流程、基因組拼接、基因組結(jié)構(gòu)分析、基因組注釋分析、元基因組分析、比較基因組分析、便攜分析等7大功能。
宏基因組學(xué)的研究經(jīng)過不斷的發(fā)展,已經(jīng)滲透到多個(gè)領(lǐng)域。在2019年武漢出現(xiàn)的原因不明肺炎,通過使用高通量測序技術(shù)迅速確定引起該病的病原為新型冠狀病毒,并獲得全基因組序列,為該病的病原核酸檢測、抗體檢測等檢測方法的建立提供了最重要信息,為發(fā)現(xiàn)早期病原提供了技術(shù)支持,在控制疫情傳播方面給予很大程度地幫助,為戰(zhàn)勝疫情提供了保障。動(dòng)物領(lǐng)域,宏基因研究主要關(guān)注動(dòng)物發(fā)育與免疫應(yīng)答、飼料利用率、疾病預(yù)防等。農(nóng)業(yè)領(lǐng)域主要研究集中于生物地球化學(xué)循環(huán)、作物栽培管理、病害預(yù)防和治理、土壤抗生素抗性機(jī)制研究、生物修復(fù)和生物肥料等。
宏基因組為捕捉不可接近的微生物世界提供了可能。同時(shí)將宏基因組學(xué)與宏轉(zhuǎn)錄組學(xué)、代謝組學(xué)、蛋白質(zhì)組學(xué)等的聯(lián)合應(yīng)用,以及伴隨著生物信息學(xué)、分子生物學(xué)等多學(xué)科理論知識(shí)的豐富,各類數(shù)據(jù)庫的完善,先進(jìn)數(shù)據(jù)分析工具的應(yīng)用,為微生物的研究帶來了新的曙光。