王慧麗郭安源
(1.文華學(xué)院城市建設(shè)工程學(xué)部環(huán)境工程系,武漢 430074;2.華中科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,武漢 430074)
環(huán)境微生物宏基因組學(xué)數(shù)據(jù)庫利用
王慧麗1郭安源2
(1.文華學(xué)院城市建設(shè)工程學(xué)部環(huán)境工程系,武漢 430074;2.華中科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,武漢 430074)
宏基因組學(xué)技術(shù)產(chǎn)生的數(shù)據(jù)是研究環(huán)境微生物的寶貴資源,國際上已有微生物計劃、海洋計劃、生命普查等大項目,采集和測序的樣本量數(shù)以百萬計,產(chǎn)生了海量的環(huán)境宏基因組學(xué)數(shù)據(jù),并以此建立了幾十個相關(guān)宏基因組數(shù)據(jù)庫和平臺。主要從以下幾個方面綜述環(huán)境宏基因組學(xué)的研究進展和已有資源:環(huán)境宏基因組學(xué)國際合作大項目、宏基因組學(xué)數(shù)據(jù)庫和宏基因組學(xué)數(shù)據(jù)在線分析平臺。將結(jié)合相應(yīng)的數(shù)據(jù)庫網(wǎng)站介紹其項目詳情、樣本來源、數(shù)據(jù)類型、使用方式和分析結(jié)果等,以便研究者全面了解此類數(shù)據(jù)并能快速找到和利用相關(guān)資源。
宏基因組學(xué);數(shù)據(jù)庫;資源;微生物
微生物在物質(zhì)合成、降解、碳氮元素循環(huán)等方面具有十分重要的生態(tài)功能[1]。微生物的種類和數(shù)量繁多,且大多數(shù)難以單獨分離、培養(yǎng)和鑒定。近年來,高通量二代測序技術(shù)的發(fā)展給環(huán)境微生物的研究帶來了新的方法和策略,其在微生物基因組中的應(yīng)用產(chǎn)生了宏基因組學(xué)(Metagenome)這一新的學(xué)科,為地球生物資源的普查和鑒定提供了新的技術(shù)和方法。
宏基因組這一概念由Handelsman[2]于1998年提出,其含義是將環(huán)境中全部微生物的遺傳信息看作一個整體,對環(huán)境樣品中細菌和真菌的基因組總和進行研究。宏基因組學(xué)研究方法避開了微生物需要培養(yǎng)提取的過程,還可以揭示微生物之間及其與環(huán)境之間相互作用的規(guī)律[1]。宏基因組學(xué)研究已經(jīng)成為微生物研究的熱點和前沿,在環(huán)境生物多樣性的探測、氣候變化、極端環(huán)境、人體腸道、石油污染修復(fù)、生物冶金等領(lǐng)域,取得了一系列重要成果[3]。國際上多個不同組織和研究聯(lián)盟對全球的不同環(huán)境進行微生物多樣性檢測和探查。這些研究采集和產(chǎn)生了大量的不同環(huán)境微生物的數(shù)據(jù),基于此,目前國際上建立了幾十個有關(guān)環(huán)境生物資源和宏基因組學(xué)數(shù)據(jù)的大數(shù)據(jù)庫?;谧髡邔ι飻?shù)據(jù)庫開發(fā)和使用方面的深入研究和體會,結(jié)合環(huán)境微生物學(xué)研究需求,本文著重介紹國際上大型的環(huán)境宏基因組學(xué)項目、環(huán)境宏基因組學(xué)相關(guān)數(shù)據(jù)庫和分析平臺,以便相關(guān)人員更好的利用這些資源。
宏基因組學(xué)技術(shù)實現(xiàn)以來,國際上針對全球的環(huán)境微生物普查實施了幾大項目計劃,主要有地球微生物組計劃(The Earth Microbiome Project,EMP)、全球海洋采樣(Global Ocean Sampling,GOS)和海洋生命普查(Census of Marine Life,CoML)。
1.1 地球微生物組計劃(EMP)
地球微生物組計劃(The Earth Microbiome Projectm,EMP)[4]是一個分析全球范圍內(nèi)微生物群落、描述全球微生物多樣性和功能的項目。其目標(biāo)是使用宏基因組、宏轉(zhuǎn)錄組和擴增子測序分析近20萬個來自不同地球環(huán)境和生態(tài)系統(tǒng)的樣本,產(chǎn)生了全球基因圖譜描述每個生物群落的蛋白質(zhì)和環(huán)境代謝模型,以及大約50萬個重建的微生物基因組,建立了全球代謝模型和數(shù)據(jù)可視化分析的門戶網(wǎng)站。
EMP項目主要目標(biāo)和任務(wù):(1)基因地圖集(Gene Atlas),研究中獲得的所有信息的集中存儲庫,提供可搜索的格式存儲所有的序列、注釋信息和環(huán)境元數(shù)據(jù)。(2)地球微生物組的基因組(Earth microbiome assembled genomes),包含所有EMP數(shù)據(jù)中組裝的基因組,并且使用自動注釋流程進行注釋和分析。(3)地球微生物組可視化接口(Earth Micro-biome Visualization Portal),建立交互式可視化軟件處理數(shù)據(jù),使之方便易用。人們能從微生物空間的角度查看地球,描述環(huán)境和基因組功能,以便整合EMP數(shù)據(jù)發(fā)現(xiàn)新的生態(tài)理論。(4)地球微生物組代謝重建(Earth microbiome metabolic reconstruction),基于宏基因組代謝組數(shù)據(jù)描述和軟件預(yù)測,描述代謝物隨時間和生物地理空間的改變。
EMP項目的數(shù)據(jù)存放在http://qiita.microbio. me/網(wǎng)站,這是一個完全開源的微生物組數(shù)據(jù)存儲和分析資源,建立在廣泛使用的QIIME包之上,可用于分析組學(xué)數(shù)據(jù)。目前Qiita網(wǎng)站中存儲有來自158個研究項目的33 285個樣本的數(shù)據(jù),需要注冊使用。注冊用戶登錄后,可以通過“Study”菜單下的“View Studies”子菜單來搜索已有的數(shù)據(jù),如搜索“Earth Microbiome Project”可以得到該項目的所有數(shù)據(jù),然后可以選擇相應(yīng)的數(shù)據(jù)點擊“Add to Analysis”進行分析,可選擇的分析有稀釋度和物種多樣性等。
1.2 全球海洋采樣(GOS)
全球海洋采樣(Global ocean sampling,GOS)是一個探測海洋生物基因組的項目,它的目標(biāo)是評估海洋微生物群落的遺傳多樣性,了解它們在自然的基本進程中扮演的角色。J. Craig Venter研究所(JCVI)的科學(xué)家們自2003年開始對全球范圍內(nèi)的海洋進行采樣,目的是通過對生活在這些水域中的微生物的DNA采樣、測序和分析以了解無盡海洋的奧秘。2003-2008年,采樣主要集中在美國西海岸,同時與其他合作者在一些極端環(huán)境進行了采樣。隨后于2009-2010年沿墨西哥海岸進行采樣,然后離開美洲進發(fā)到歐洲,對波羅的海、地中海和紅海水域的微生物進行采樣研究分析。對Sargasso海采樣測序的宏基因組數(shù)據(jù)分析,鑒定了1 800個獨特的基因組、148個之前研究未涉及的細菌種群和120萬個未報導(dǎo)的新基因[5]。該研究證明了基因組測序方法鑒定宏基因組的可行性,并為海洋微生物數(shù)據(jù)增添了許多資源和技術(shù)。為了分析這些數(shù)據(jù),科學(xué)家們還開發(fā)了一系列新的生物信息學(xué)分析方法和軟件,促進了多個相關(guān)學(xué)科的發(fā)展。
全球海洋采樣項目的數(shù)據(jù)同時也提交到了NCBI的SRA數(shù)據(jù)庫和高級海洋微生物生態(tài)研究和分析領(lǐng)域基礎(chǔ)設(shè)施CAMERA,CAMERA是一個在線海洋宏基因資源庫。
1.3 海洋生命普查(CoML)
海洋生命普查(Census of Marine Life,CoML)發(fā)起的目的是評估和解釋全世界海洋生命的多樣性、分布和豐富性,以及它們的過去、現(xiàn)在和未來。海洋生命普查(2000-2010年)已經(jīng)成為一個全球協(xié)作的科學(xué)項目,有超過80個國家的研究者參與,是世界上第一個全面的海洋生命普查,結(jié)果于2010年在倫敦發(fā)布。大部分研究報道發(fā)表在PLoS One雜志,并且有一個專門的文章合集(http://www.ploscollec tions.org/static/comlCollections.action)。海洋生命普查項目包含14個野外的普查項目和4個非野外項目(表1)。
表1 海洋生命普查項目包含的子項目信息
該普查同時形成了一個名為“First Census of Marine Life 2010:Highlights of a Decade of Discovery”(2010年第一次海洋生命普查:10年發(fā)現(xiàn)的亮點)的64頁的報告[6],描述海洋生命普查中10年探索、研究和分析發(fā)現(xiàn)的科學(xué)亮點。http://www.coml. org/census-resources網(wǎng)站列出了此普查項目的一些資源列表,對表1的各個項目都有網(wǎng)站詳細描述其成果。同時該項目主要的參與國家和地區(qū)也分別有各自的網(wǎng)站介紹本國參與和獲得的成果,包括澳大利亞、加拿大、加勒比海、中國、歐洲、印度洋和美國。
上述EMP、GOS和CoML三個國際環(huán)境宏基因組大項目獲得了大量的樣本和數(shù)據(jù),也分別建立了相應(yīng)的數(shù)據(jù)庫存儲數(shù)據(jù)。此外,國際上還有其他一些專業(yè)數(shù)據(jù)庫存儲環(huán)境微生物宏基因組學(xué)數(shù)據(jù),供全世界的研究者使用,以下分別介紹之(表2)。
2.1 基因組在線數(shù)據(jù)庫(GOLD)
基因組在線數(shù)據(jù)庫(Genomes Online Database,GOLD)[7],是一個存儲基因組和宏基因組測序項目信息及其元數(shù)據(jù)(Metadata)的網(wǎng)絡(luò)資源。GOLD中包含的研究項目有2萬多個,其中546個是宏基因組研究項目。這些宏基因組樣本的來源使用了谷歌地圖和谷歌地球來展示,遍布全世界各地,如美國、澳大利亞、新西蘭、巴拿馬、馬來西亞等,樣本來源環(huán)境包括溫泉、淡水、海洋、土壤、綠色肥料、人和動物身上的微生物群落等。GOLD包含的生物樣本中環(huán)境相關(guān)的樣本有6 777個。GOLD數(shù)據(jù)庫提供了3種檢索方式,快速搜索、高級搜索和元數(shù)據(jù)搜索。其中快速搜索允許用戶使用最常用的域或關(guān)鍵字檢索數(shù)據(jù)庫。高級檢索則可以對元數(shù)據(jù)的各個域和數(shù)據(jù)庫中各個分類層次進行精確的查找。元數(shù)據(jù)搜索的目的是使用各種元數(shù)據(jù)標(biāo)識符查詢數(shù)據(jù)庫。各種搜索選項卡包含圖形和表格表示其描述的項目或生物的數(shù)量,以便獲得一個項目和樣品的整體情況,同時可根據(jù)選擇標(biāo)準(zhǔn)產(chǎn)生一個可排序的表和餅形圖方便參考。
表2 國際上已有環(huán)境微生物宏基因組學(xué)數(shù)據(jù)庫資源列表
2.2 CAMERA
CAMERA[8]提供了很多重要的資源,包括質(zhì)量可靠的經(jīng)過校驗的環(huán)境基因組數(shù)據(jù)庫、用戶提交和保存環(huán)境相關(guān)分子序列數(shù)據(jù)的平臺,以及開放的計算資源用于宏基因組比較分析等,特別是CAMERA的計算資源,包括大規(guī)模的BLAST計算能力和其他流程化分析能力。CAMERA項目受到Gordon和Betty Moore 基金會(GBMF)的海洋微生物學(xué)計劃(Marine Microbiology Initiative)和美國國家自然科學(xué)基金委資助,主要服務(wù)于海洋微生物學(xué)領(lǐng)域和其他用戶。但是由于GBMF基金會資助的終止,CAMERA從2014年7月1日起不再為科學(xué)領(lǐng)域提供計算需求,即不再接受新的計算申請?zhí)峤弧5荂AMERA還將繼續(xù)維護其收集的大量校驗好的數(shù)據(jù),并提供免費的開放獲取服務(wù),這是通過CAMERA的數(shù)據(jù)分發(fā)中心來完成的,同時可以鏈接到海洋微生物真核轉(zhuǎn)錄組測序項目。其數(shù)據(jù)分發(fā)中心提供下載的數(shù)據(jù)包括:宏基因組和基因組數(shù)據(jù),該項目用到的參考基因組和蛋白質(zhì)序列,約750個來自數(shù)百個不同物種樣本的轉(zhuǎn)錄組測序數(shù)據(jù),以及微生物基因組測序計劃項目(The Microbial Genome Sequencing Project)中獲得的海洋環(huán)境宏基因組和生態(tài)基因組及其比較分析的數(shù)據(jù)。這些海洋環(huán)境宏基因組和基因組測序篩選的樣本主要是來自海洋和開放沿海的細菌浮游生物群落。該項目是JCVI研究所完成的,其完成了177個海洋微生物的測序、組裝和自動注釋。這些物種的生理多樣性較好,包括固碳、光能自養(yǎng)型、光能異養(yǎng)型、硝化細菌和甲烷氧化菌等。PLoS Biology雜志于2007年5月專門為此項目做了一期題為 Ocean Metagenomics Collection的???]。
2.3 MetagenomesOnline(MgOI)
MgOI是一個校準(zhǔn)過的環(huán)境宏基因組蛋白質(zhì)數(shù)據(jù)庫,包括病毒和微生物鳥槍法測序的宏基因組中的預(yù)測蛋白質(zhì)及其注釋資源。MgOI中的樣本信息比較豐富,包括樣品來源、地理描述、環(huán)境參數(shù)、取樣和制備方法及環(huán)境本體論條目(Environmental ontology terms)等,并且這些樣本進一步被用MgOI的樣本描述方法歸類,使之容易被理解和比較。MgOI最初是被設(shè)計為VIROME宏基因組項目[10]注釋流程中的環(huán)境蛋白質(zhì)數(shù)據(jù)庫。用戶可以在網(wǎng)站上使用MgOI BLAST工具對數(shù)據(jù)庫進行小規(guī)模(小于10條序列)的同源序列搜索,或者下載全部的數(shù)據(jù)庫進行本地化的搜索。目前,MgOI數(shù)據(jù)庫中包括50個項目的總共258個文庫(包括病毒、原核和真核)的數(shù)據(jù),其中總蛋白質(zhì)條數(shù)為56 254 299,總氨基酸數(shù)目達6 480 011 292。
2.4 Hydrocarbon Metagenomics Project(HMP)
為了應(yīng)對碳氫化合物相關(guān)能源研究,加拿大啟動了碳氫化合物的宏基因組項目(HMP)[11]。這個項目研究加拿大石油資源中的微生物群落的宏基因組特征,目的是開發(fā)新的和改進現(xiàn)有的生物過程,提高碳氫化合物的獲取,減少能源使用和溫室氣體排放。這個項目產(chǎn)生了大量序列和分析數(shù)據(jù),同時還開發(fā)了宏基因組分析工具和流程。HMP數(shù)據(jù)庫中含有來自31個項目的宏基因組數(shù)據(jù),主要樣本來自含油砂、油田、尾礦池、煤層等環(huán)境。宏基因組數(shù)據(jù)包括采用454或Illumina測序得到的原始或經(jīng)過質(zhì)控的測序數(shù)據(jù),經(jīng)過序列組裝的contig結(jié)果等。每個宏基因組樣本,都有一個單獨的頁面可以查看或者下載原始的和處理后的數(shù)據(jù),以及每一步的分析結(jié)果。這些項目數(shù)據(jù)絕大部分都上傳到IMG/M、MG-RAST或NCBI SRA數(shù)據(jù)庫中,并提供了其鏈接。
2.5 The EnvBase Data Catalogue
EnvBase是一個可搜索的環(huán)境組學(xué)數(shù)據(jù)索引,屬于英國國家環(huán)境研究委員會(National Environment Research Council,簡稱NERC)下的環(huán)境生物信息中心(NERC Environmental Bioinformatics Centre,簡稱NEBC)。EnvBase包括不同研究組提交的53組環(huán)境組學(xué)數(shù)據(jù)集。
2.6 IMG Data Management
這是美國能源部聯(lián)合基因組研究所(DOE's Joint Genome Institute,簡稱JGI)的整合微生物基因組系統(tǒng)(Integrated Microbial Genomes,簡稱IMG),該系統(tǒng)的目標(biāo)是注釋、分析和發(fā)布JGI測序的微生物基因組和宏基因組數(shù)據(jù),因此同時含有宏基因組數(shù)據(jù)庫和分析平臺。只要同意其數(shù)據(jù)發(fā)布政策,IMG面向全世界的科學(xué)家提供免費的宏基因組數(shù)據(jù)注釋、分析和整合的支持,同時也可以自由獲取整合的基因組和宏基因組的比較分析。截至2014年12月31日,IMG有來自6大洲,88個國家的10 310名用戶。IMG系統(tǒng)的數(shù)據(jù)分發(fā)政策是上傳的基因組和宏基因組數(shù)據(jù)自從這些數(shù)據(jù)可以用于分析時起保持私有狀態(tài)2年,之后將會公開給全世界的科研界共享。到2015年初,IMG共有來自所有生命界的32 802個基因組數(shù)據(jù)集和5 234個宏基因組數(shù)據(jù)集,其中IMG宏基因組數(shù)據(jù)倉庫(IMG/M)中包含245個項目的3 374個公開的宏基因組數(shù)據(jù)集,對應(yīng)3 161個獨立樣本,其中環(huán)境樣本數(shù)據(jù)集有2 021個(空氣31個,水環(huán)境1 207個,陸地環(huán)境783個),其他的為工程領(lǐng)域和宿主相關(guān)的樣本[12]。用戶可以免費注冊一個賬號,登錄后可以瀏覽查看和分析數(shù)據(jù)庫中已有的公共數(shù)據(jù),也可以上傳自己的數(shù)據(jù)進行分析。IMG數(shù)據(jù)中,20%的基因組和75%的宏基因組數(shù)據(jù)樣本是JGI測序的。
IMG中的基因使用了多個功能資源進行鑒定和注釋,這些資源包括COG、KOG、KEGG、PFAM、TIGRfam、MetaCyc和Gene Ontology。IMG數(shù)據(jù)統(tǒng)計頁面含有當(dāng)前IMG中的基本數(shù)據(jù)統(tǒng)計,包括基因組統(tǒng)計(如處于完成和草圖狀態(tài)的細菌、古細菌、真核、質(zhì)粒、病毒、微生物組和基因組片段的數(shù)目)、基因統(tǒng)計(各類蛋白質(zhì)編碼基因和RNA編碼基因的統(tǒng)計以及這些基因在COG、KOG、Pfam等數(shù)據(jù)庫中的注釋比例)、功能統(tǒng)計(有Gene ontology和KEGG pathway功能注釋的基因統(tǒng)計、各種功能酶統(tǒng)計等)和組學(xué)實驗統(tǒng)計(蛋白質(zhì)實驗、轉(zhuǎn)錄組研究、甲基化實驗和必需基因?qū)嶒灥龋?。其中基因組統(tǒng)計中的微生物組即為宏基因組(圖1-A)。點擊微生物組下面的數(shù)字或者首頁左邊的統(tǒng)計信息中的Metagenome后,進入“Find Genomes”頁面,也即“Genome Browser”頁面,此頁面使用分頁方式展示了所有公開的宏基因組研究項目信息,也可以使用關(guān)鍵字進行過濾篩選(圖1-B)。然后選擇其中一個數(shù)據(jù)集點擊其中的“Genome Name/Sample Name”可以進入該數(shù)據(jù)集的具體信息頁面,包括該研究名稱、樣本名、采集時間、地點等基本信息,同時也包含該數(shù)據(jù)集的基本統(tǒng)計信息和基因信息。此頁面中的功能還包括把該數(shù)據(jù)加入待分析的購物車、瀏覽已分析好的基因組、BLAST分析基因組和下載數(shù)據(jù)(圖1-C)。此頁面的數(shù)據(jù)統(tǒng)計信息包括宏基因組數(shù)據(jù)統(tǒng)計,如序列數(shù)目、堿基數(shù)目、G+C含量、基因數(shù)目等(圖1-D),也可以根據(jù)關(guān)鍵字查詢相關(guān)注釋基因信息,瀏覽基因組組裝的scaffold和瀏覽基因長度分布信息等(圖1-E)以及瀏覽基因組在進化和系統(tǒng)發(fā)生學(xué)上的分布(圖1-F)。
隨著宏基因組技術(shù)產(chǎn)生的大量數(shù)據(jù)需要分析,很多研究組發(fā)展了宏基因組學(xué)數(shù)據(jù)分析方法和工具。這些工具在用戶使用上可以分為兩類:一類是可以獨立下載安裝的宏基因組分析軟件包,使用它一般需要較強的生物信息學(xué)基礎(chǔ);另一類是在線的宏基因組數(shù)據(jù)分析平臺,這是為了使生物信息基礎(chǔ)薄弱的研究者也能分析宏基因組數(shù)據(jù)而開發(fā)的,因此較為簡單易用。本文著重介紹這一類在線的宏基因組分析平臺。這類平臺可以上傳和保存數(shù)據(jù),故通常也包含有存儲宏基因組數(shù)據(jù)的功能,即它們通常既是數(shù)據(jù)庫也是分析平臺。如上文提到的IMG整合微生物基因組系統(tǒng),該系統(tǒng)既可以分析IMG數(shù)據(jù)庫中存儲的公共數(shù)據(jù),也可以上傳新的數(shù)據(jù)進行分析。下面再介紹其他幾個比較常見的宏基因組數(shù)據(jù)在線分析平臺。
3.1 MG-RAST(the Metagenomics Analysis Server)
MG-RAST服務(wù)器是一個基于序列數(shù)據(jù)提供微生物群落的定量分析的宏基因組自動分析平臺[13],這個服務(wù)器主要提供數(shù)據(jù)上傳、質(zhì)量控制、自動注釋和分析原核宏基因組鳥槍法測序數(shù)據(jù)。MGRAST啟動于2007年,有超過12 000個注冊用戶。截至2015年9月,MG-RAST服務(wù)器含有208 481個宏基因組數(shù)據(jù)集,共83.42 Tb堿基數(shù)據(jù),其中近3萬個宏基因組數(shù)據(jù)是公開的。對這些公開的數(shù)據(jù),可以直接下載、分析和查詢注釋信息,如http://metagenomics.anl.gov/metagenomics.cgi?page=Ana lysis&metagenome=4440039.3是其中一個公開數(shù)據(jù)的分析頁面,用戶可以選擇不同的數(shù)據(jù)展示方式(如表格、樹圖、熱圖、柱圖等)進行分析和注釋,也可以查看某個宏基因組數(shù)據(jù)的詳細信息如頁面http:// metagenomics.anl.gov/?page=MetagenomeOverview&met agenome=4440036.3。
MG-RAST是目前使用最為廣泛的宏基因組數(shù)據(jù)在線分析服務(wù)器,目前更新到第3版本。注冊用戶可以上傳宏基因組數(shù)據(jù)(測序的fastq格式即可)進行分析。上傳數(shù)據(jù)后,可以使用其managebox工具提供的join paired-ends 功能把雙端測序的兩個文件整合成一個文件便于后續(xù)分析。接下來進行參數(shù)選擇,有一些對數(shù)據(jù)過濾的選項(如低質(zhì)量序列過濾和宿主物種序列過濾),可以根據(jù)具體情況選擇,或者使用默認參數(shù)。分析完成后,MG-RAST將對數(shù)據(jù)結(jié)果以多種形式展現(xiàn),如圖2所示。這些分析包括與各種注釋數(shù)據(jù)庫的匹配序列數(shù)目和相似性匹配程度(圖2-A)、各類蛋白質(zhì)在數(shù)據(jù)庫中的注釋類型統(tǒng)計(圖2-B)、Subsystems系統(tǒng)注釋[14]的蛋白質(zhì)分類和物質(zhì)分類信息統(tǒng)計、宏基因組中樣本分類在門綱目科屬的各分類層次數(shù)目統(tǒng)計(圖2-E)以及多個樣本的蛋白質(zhì)功能注釋樹形比較圖等(圖2-F)。
3.2 EBI Metagenomics
EBI Metagenomics[15]是歐洲生物信息學(xué)研究所(EBI)搭建的分析和存儲宏基因組數(shù)據(jù)的分析平臺。用戶經(jīng)注冊后可以提交自己產(chǎn)生的宏基因組數(shù)據(jù),提交后系統(tǒng)將自動存檔數(shù)據(jù)到歐洲核酸存檔 庫 中(European Nucleotide Archive,ENA), 并將自動分配數(shù)據(jù)登錄號以便于數(shù)據(jù)公開。提交到EBI Metagenomics的數(shù)據(jù)最后都必須要公開,但是用戶可以選擇一個不長于2年的數(shù)據(jù)保密期。EBI Metagenomics提供的分析宏基因組數(shù)據(jù)流程主要包括以下幾步:(1)數(shù)據(jù)質(zhì)量控制,如去除或者截斷低質(zhì)量的序列,序列片段長度過濾等;(2)通過rRNASelector程序?qū)y序的宏基因組序列片段進行核糖體RNA(rRNA)篩選,然后針對rRNA和非rRNA序列分開處理;(3)針對rRNA序列,使用QIIME軟件包對其中的16S rRNA序列進行分類分析,獲得宏基因組樣本中包含的物種類別;(4)對于非rRNA序列,使用FragGeneScan軟件預(yù)測其蛋白質(zhì)編碼區(qū)域,并使用InterProScan程序預(yù)測這些蛋白質(zhì)的功能結(jié)構(gòu)域和進行功能分析。除了單個樣本數(shù)據(jù)的分析,EBI Metagenomics還提供一個比較分析工具,可以選擇已經(jīng)存儲在該數(shù)據(jù)庫中的某個項目中的多個樣本數(shù)據(jù)進行比較分析。這個比較分析主要是對宏基因組數(shù)據(jù)中蛋白編碼序列的Gene Ontotolgy注釋進行比較分析。截至2015年9月,EBI Metagenomics中存儲的可以公開訪問的數(shù)據(jù)有來自127個項目的4 514個樣本的數(shù)據(jù),樣本來源于土壤、海洋等環(huán)境微生物和人的腸道微生物等。對于每個已經(jīng)公開的數(shù)據(jù),其基本的分析結(jié)果也可以瀏覽和下載,包括數(shù)據(jù)質(zhì)量控制結(jié)果、多種圖形方式展示的物種分類結(jié)果和功能分析結(jié)果等。
圖1 IMG系統(tǒng)中的宏基因組數(shù)據(jù)詳細信息瀏覽
圖2 MG-RAST宏基因組注釋系統(tǒng)的分析結(jié)果
3.3 宏基因組分析儀數(shù)據(jù)庫(MeganDB)
宏基因組分析儀數(shù)據(jù)庫(The MEtaGenome Analyzer Data-Base,MeganDB)是一個為宏基因組分析工具MEGAN[16]特別設(shè)計的宏基因組數(shù)據(jù)庫。MEGAN是一個分析宏基因組分類學(xué)和功能的獨立下載軟件包,目前已經(jīng)更新到第5版本,使用也比較廣泛。MEGAN使用NCBI的分類系統(tǒng)進行物種分類,同時使用SEED、KEGG、COG等多個系統(tǒng)進行功能注釋,以及進行其他一些比較、聚類和畫圖等分析。MeganDB數(shù)據(jù)庫目前存儲了235套宏基因組數(shù)據(jù),并提供了一個Java網(wǎng)絡(luò)版本的MEGAN程序,可以對一個或多個選擇的宏基因組樣本數(shù)據(jù)進行分析,也可以使用MEGAN分析用戶自己的數(shù)據(jù)(<100 MB)或比較公共數(shù)據(jù)與用戶自己的樣本數(shù)據(jù)。MEGAN服務(wù)器可以用于上傳數(shù)據(jù)和下載已有宏基因組數(shù)據(jù),也可以查詢和啟動分析這些數(shù)據(jù)。
3.4 CoMet
CoMet[17]是一個快速進行宏基因組功能譜比較分析的在線分析平臺。比較方便的是使用CoMet平臺不需要注冊即可上傳宏基因組數(shù)據(jù)分析。CoMet平臺對于用戶上傳的FASTA格式的DNA序列進行基因預(yù)測,然后預(yù)測其中編碼的Pfam功能結(jié)構(gòu)域,最后再進行統(tǒng)計分析和比較。值得注意的是CoMet沒有上述數(shù)據(jù)庫的保存數(shù)據(jù)功能,用戶提交用于分析的數(shù)據(jù)在2個月后將自動刪除,以節(jié)省空間。
上述內(nèi)容分別介紹了微生物宏基因組數(shù)據(jù)庫和平臺,接下來對其中幾個較大的數(shù)據(jù)庫進行比較分析。全球海洋采樣項目GOS的目標(biāo)是評估海洋微生物群落的遺傳多樣性,其大量的原始數(shù)據(jù)存儲于NCBI SRA數(shù)據(jù)庫中,同時也存儲于http://data.imicrobe.us/,具體數(shù)據(jù)見http://mirrors. iplantcollaborative.org/browse/iplant/home/shared/ imicrobe/projects/26/CAM_PROJ_GOS.read.fa。但是這兩個網(wǎng)站都只能下載原始數(shù)據(jù),沒有分析的結(jié)果,用戶只能自己根據(jù)需要下載原始測序數(shù)據(jù)分析。海洋生命普查CoML項目的普查對象也是海洋,但是不只限于微生物,還包括其他生物。其目的是評估和解釋全世界海洋生命的多樣性、分布和豐富性。樣本來自多個海域和不同地理環(huán)境,如北冰洋、深海、大陸邊緣、珊瑚礁等。其中的ICoMM項目是國際海洋微生物普查項目,旨在促進一個能加速發(fā)現(xiàn)、理解和意識到海洋微生物的全球意義的議程和環(huán)境[18]。ICoMM項目數(shù)據(jù)存儲在https://vamps.mbl. edu/portals/icomm/icomm.php/microbis/網(wǎng) 站 中, 需要注冊才能使用。IcoMM的信息主要包含 VAMPS(Visualization and Analysis of Microbial Population Structures)這一整合的數(shù)據(jù)庫和工具集,其提供了微生物的序列以及工具用于分析和可視化微生物群落結(jié)構(gòu),主要包括可視化分析和數(shù)據(jù)匝道(data ramp)2個必要元件??梢暬治霭ɑ趯蝹€微生物群落的物種分類或獨立起源的可操作物種單元(Operational taxonomic units,OTUs)所做的分析熱圖、餅圖、多樣性估計、稀釋曲線和表格數(shù)據(jù)輸出等。數(shù)據(jù)匝道是研究者將其自己的數(shù)據(jù)(序列或者物種分類數(shù)據(jù))導(dǎo)入VAMPS網(wǎng)站使之與目前共享的數(shù)據(jù)合并用于單獨或者比較分析。另一個大的項目地球微生物組計劃EMP,其收集和測序的樣本是來自不同地球環(huán)境和生態(tài)系統(tǒng)的微生物,然后同時使用宏基因組、宏轉(zhuǎn)錄組和擴增子測序分析,產(chǎn)生了全球基因圖譜描述每個生物群落的蛋白質(zhì)和環(huán)境代謝模型,以及重建的微生物基因組。所以EMP項目的數(shù)據(jù)類型更多,除宏基因組外,還有宏轉(zhuǎn)錄組、代謝組、蛋白質(zhì)和代謝模型等。
IMG Data Management 和MG-RAST作為兩個存儲較多微生物數(shù)據(jù)并且提供分析的平臺,它們都能分析數(shù)據(jù)庫本身存儲的數(shù)據(jù),也可以分析用戶上傳的數(shù)據(jù)。但是分析內(nèi)容有些不同,IMG分析內(nèi)容比較多,包括整合KEGG、PFAM等多個功能資源對數(shù)據(jù)進行鑒定和注釋,同時也有基本的數(shù)據(jù)統(tǒng)計如序列堿基數(shù)目、G+C含量等,還可以進行基因組組裝并展示基因組在系統(tǒng)發(fā)生學(xué)上的分布。而MG-RAST則主要是分析宏基因組數(shù)據(jù)中的物種分布類別組成,但是它提供了樹圖、柱狀圖、熱圖、組成分分析圖和表格等方式展示結(jié)果,結(jié)果形式多樣化。
宏基因組學(xué)是研究環(huán)境微生物的一個重要手段,這些宏基因組數(shù)據(jù)的解析依賴于很好的分析工具。目前雖然有不少宏基因組分析工具,但還是存在一些不足。對宏基因組測序數(shù)據(jù)處理最理想的結(jié)果就是通過組裝軟件組裝出其中各種微生物的基因組。但是目前還遠遠做不到,只能在很大測序數(shù)據(jù)量的情況下對少數(shù)序列差異較大的物種組裝有較好效果。組裝的效果一方面依賴于測序的深度和序列片段長度的加大,另一方面依賴于組裝算法的改進,需要能在宏基因組這樣的混合樣本中辨別出單個基因組序列并組裝。基因組組裝后需要進行基因預(yù)測,目前也有很多基因測序軟件,但是宏基因組中不同物種可能有不同的密碼子偏好性和物種特異的基因,因此需要有適應(yīng)性更廣的預(yù)測算法或者同時使用多種預(yù)測軟件和訓(xùn)練數(shù)據(jù)進行預(yù)測。宏基因組數(shù)據(jù)中的物種分類也是其中一個關(guān)鍵分析,目前有基于基因、參考基因組比較、序列組成等多種方式的物種分類[19]?;诤昊蚪M數(shù)據(jù)中預(yù)測到的基因的相似性注釋分類是目前最為普遍的物種分類方法。
上述宏基因組數(shù)據(jù)分析工具都需要有一定的生物信息學(xué)基礎(chǔ)和技能才能分析,這也是目前困擾環(huán)境微生物研究者的問題之一。因此,將已有的環(huán)境宏基因組數(shù)據(jù)建立方便易用的在線公開數(shù)據(jù)庫,搭建操作簡單的網(wǎng)絡(luò)版本宏基因組學(xué)分析平臺是非常有必要的,也是研究共享的必然趨勢??上驳氖?,國際上已有幾十個相關(guān)數(shù)據(jù)庫和平臺,這些資源存儲了許多重要的國際合作項目或者個人研究項目的環(huán)境宏基因組學(xué)數(shù)據(jù),其總的數(shù)據(jù)量達到上百萬個樣本的級別,樣本類型也是多種多樣,包括海洋、陸地、極端環(huán)境、油田等環(huán)境的樣本。此外,除了上述介紹的專門存儲環(huán)境微生物宏基因組數(shù)據(jù)的數(shù)據(jù)庫,NCBI的SRA數(shù)據(jù)庫也專門存儲各種高通量測序的數(shù)據(jù),包括各種基因組和轉(zhuǎn)錄組數(shù)據(jù),其中含有約6 000組非腸道微生物的環(huán)境宏基因組數(shù)據(jù)集。另一方面,這些數(shù)據(jù)的采樣和產(chǎn)生都耗費了大量人力物力和經(jīng)費,充分利用它們也是對資源的重利用,可以減少消耗,提高效率,節(jié)省各方面的開銷和能源。
如何充分利用和挖掘這些數(shù)據(jù),對它們進行綜合的二次深度分析,獲得新的發(fā)現(xiàn),是一個值得思考的問題。目前環(huán)境宏基因組領(lǐng)域內(nèi)的一個比較大的問題是數(shù)據(jù)分散在不同的數(shù)據(jù)庫中或者分布在不同的研究者手中。如果能收集所有數(shù)據(jù)并從不同的角度整理這些數(shù)據(jù),如從環(huán)境類型、數(shù)據(jù)類型等角度整合這些數(shù)據(jù),將能更加方便的為其他研究者提供便利。例如,研究熱泉環(huán)境的微生物就可以直接提取熱泉環(huán)境的宏基因組數(shù)據(jù)集進行整合分析,而不需要花費大量精力收集數(shù)據(jù),甚至重新采集樣本測序。合理有效的整合這些不同來源和類型的環(huán)境宏基因組數(shù)據(jù)將是一個發(fā)展方向和趨勢。本文介紹的這些環(huán)境宏基因組數(shù)據(jù)庫就是這方面的嘗試,介紹和了解這些不同大項目的數(shù)據(jù)或者不同研究者來源的數(shù)據(jù)。用戶可以根據(jù)自己的需求綜合這些數(shù)據(jù)庫進行使用,獲得最全面的所需要的數(shù)據(jù)。利用已有的宏基因組學(xué)數(shù)據(jù)從不同的角度整合、比較和分析發(fā)現(xiàn),新的微生物資源及其可利用規(guī)律,必將推動環(huán)境微生物的研究。
[1] 孫欣, 高瑩, 楊云鋒. 環(huán)境微生物的宏基因組學(xué)研究新進展[J].生物多樣性, 2013, 21(4):393-400.
[2] Handelsman J, Rondon MR, Brady SF, et al. Molecular biological access to the chemistry of unknown soil microbes:a new frontier for natural products[J]. Chemistry & Biology, 1998, 5(10):R245-R249.
[3] Chistoserdova L. Recent progress and new challenges in metagenomics for biotechnology[J]. Biotechnology Letters, 2010, 32(10):1351-1359.
[4] Gilbert JA, Jansson JK, Knight R. The Earth Microbiome project:successes and aspirations[J]. BMC Biology, 2014, 12(1):69.
[5]Venter JC, Remington K, Heidelberg JF, et al. Environmental genome shotgun sequencing of the Sargasso Sea[J]. Science,2004, 304(5667):66-74.
[6]CoML. First census of marine life 2010:highlights of a decade of discovery[R]. Washington:Census of Marine Life, 2010.
[7]Reddy TBK, Thomas AD, Stamatis D, et al. The Genomes OnLine Database(GOLD)v. 5:a metadata management system based on a four level(meta)genome project classification[J]. Nucleic Acids Research, 2015, 43 (D1): D1099-D1106.
[8]Sun S, Chen J, Li W, et al. Community cyberinfrastructure for advanced microbial ecology research and analysis:the CAMERA resource[J]. Nucleic Acids Research, 2011, 39(suppl. 1):D546-D551.
[9]Parthasarathy H, Hill E, MacCallum C. Global ocean sampling collection[J]. PLoS Biology, 2007, 5(3):e83.
[10]Wommack KE, Bhavsar J, Polson SW, et al. VIROME:a standard operating procedure for analysis of viral metagenome sequences[J]. Standards in Genomic Sciences, 2012, 6(3):427.
[11]An D, Caffrey SM, Soh J, et al. Metagenomics of hydrocarbon resource environments indicates aerobic taxa and genes to be unexpectedly common[J]. Environmental Science & Technology,2013, 47(18):10708-10717.
[12]Markowitz VM, Chen IMA, Chu K, et al. IMG/M 4 version of the integrated metagenome comparative analysis system[J]. Nucleic Acids Research, 2014, 42(D1):D568-D573.
[13]Meyer F, Paarmann D, D’Souza M, et al. The metagenomics RAST server-a public resource for the automatic phylogenetic and functional analysis of metagenomes[J]. BMC Bioinformatics,2008, 9(1):386.
[14]Overbeek R, Begley T, Butler RM, et al. The subsystems approach to genome annotation and its use in the Project to Annotate 1000 Genomes[J]. Nucleic Acids Research, 2007, 33(17):5691-5702.
[15] Hunter S, Corbett M, Denise H, et al. EBI metagenomics--a new resource for the analysis and archiving of metagenomic data[J]. Nucleic Acids Research, 2014, 42(D1):D600-D606.
[16]Huson DH, Auch AF, Qi J, et al. MEGAN analysis of metagenomic data[J]. Genome Research, 2007, 17(3):377-386.
[17]Lingner T, Asshauer KP, Schreiber F, et al. CoMet--a web server for comparative functional profiling of metagenomes[J]. Nucleic Acids Research, 2011, 39(8):W518-523.
[18]Amaral-Zettler L, Artigas LF, Baross J, et al. A global census of marine microbes[M]// Life in the World’s Oceans:Diversity,Distribution, and Abundance. Wiley-Blackwell, 2010.
[19]Teeling H, Gl?ckner FO. Current opportunities and challenges in microbial metagenome analysis--a bioinformatic perspective[J]. Briefings in Bioinformatics, 2012, 13(6):728-742.
(責(zé)任編輯 馬鑫)
An Introduction to Metagenome Databases of Environmental Microbiology
Wang Huili1Guo Anyuan2
(1. Department of Environmental Engineering,Urban Construction Engineering Division,Wenhua College,Wuhan 430074;2. College of Life Science and Technology,Huazhong University of Science and Technology,Wuhan 430074)
The huge data produced by metagenome are valuable resources for environmental microbiology research. Until now, there are many big projects such as the Earth Microbiome Project and Census of Marine Life, which generated huge metagenome data and also constructed various databases and platforms to store and analyze these data. In this review, we summarized the current big projects, databases and online analysis platforms for environmental metagenomes. We introduced the project background, the sample information, the data type, the usage mode and the webpage of those databases.
metagenome;database;resources;microbiology
10.13560/j.cnki.biotech.bull.1985.2015.11.008
2015-08-27
科技部科技基礎(chǔ)性工作專項(2012FY112900)
王慧麗,女,碩士,研究方向:環(huán)境微生物和水處理;E-mail:lypp1229@126.com
郭安源,男,博士,研究方向:生物信息和數(shù)據(jù)庫;E-mail:guoay@hust.edu.cn