程福東 丁嘯 李晟 孫嘯
(東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院 生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京 210096)
綜述與專論
宏基因組樣本數(shù)據(jù)的分析比較與分類
程福東 丁嘯 李晟 孫嘯
(東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院 生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京 210096)
宏基因組學(xué)研究試圖通過(guò)測(cè)序并分析微生物群落的DNA序列,以理解環(huán)境微生物的組成及其與環(huán)境的交互作用。宏基因組學(xué)革命性地改變了微生物學(xué),使得以免培養(yǎng)的方式研究復(fù)雜生物系統(tǒng)中的微生物群落成為可能。第二代測(cè)序技術(shù)的不斷進(jìn)步和生物信息學(xué)的高速發(fā)展促進(jìn)了高通量宏基因組研究的發(fā)展,大批高質(zhì)量的宏基因組數(shù)據(jù)不斷產(chǎn)生并對(duì)科學(xué)界開(kāi)放,宏基因組學(xué)的重要作用被科學(xué)界廣泛認(rèn)可。與此同時(shí),對(duì)應(yīng)個(gè)體不同健康狀態(tài)和人體不同部位的大量宏基因組樣本數(shù)據(jù)不斷產(chǎn)生,使得比較和分類宏基因組樣本在微生物學(xué)研究上變得更加重要,比較宏基因組學(xué)成為宏基因組學(xué)的重要分支。主要介紹了宏基因組數(shù)據(jù)的分析比較,以及樣本分類的相關(guān)研究和算法。
宏基因組;樣本分析比較;樣本分類;分類特征
宏基因組學(xué)研究以微生物群落為單位,不經(jīng)分離培養(yǎng),直接從環(huán)境中提取所有微生物的遺傳信息,試圖通過(guò)測(cè)序等手段獲得并分析群落中微生物的DNA序列,以理解環(huán)境微生物的組成及其 與環(huán)境的交互作用[1]。大量的宏基因組學(xué)項(xiàng)目為研究不同微生物群落提供了寶貴的素材和新的視角。對(duì)宏基因組的研究聚焦于人類健康相關(guān)的環(huán)境微生物群落,環(huán)境可分為外環(huán)境和內(nèi)環(huán)境,其中外環(huán)境包括空氣、水體及土壤等微生物生存環(huán)境;內(nèi)環(huán)境包括人體口腔、呼吸道及腸道等人體內(nèi)的微生物生存環(huán)境。
人體內(nèi)環(huán)境的微生物群落對(duì)人體健康、行為和疾病非常重要。迄今為止的微生物組研究已表明其在個(gè)體化醫(yī)療上的重要影響。例如,某些藥物在一些個(gè)體上的失活[2],微生物代謝副產(chǎn)物可以提高心血管疾病的幾率[3]。這些細(xì)菌群落參與人類的新陳代謝、營(yíng)養(yǎng)吸收、人體免疫[4]及具有其他一系列重要功能,目前已確認(rèn)哮喘、二型糖尿病及炎癥性腸?。?]等多種疾病與人體微生物群落息息相關(guān)。因此越來(lái)越多的研究聚焦于人體微生物群落。
自2008年以來(lái),美國(guó)國(guó)立衛(wèi)生研究院(national institutes of health,NIH)資助的人類微生物組計(jì)劃(human microbiome project,HMP)[6]產(chǎn)生了一大批高質(zhì)量的宏基因組數(shù)據(jù)并對(duì)科學(xué)界開(kāi)放。這些對(duì)應(yīng)于不同個(gè)體健康狀態(tài)和人體不同部位的大量宏基因組樣本不斷產(chǎn)生,使得比較和分類宏基因組樣本在微生物學(xué)研究上變得更加重要,比較宏基因組學(xué)[7]成為宏基因組學(xué)的重要研究方向。高質(zhì)量的宏基因組數(shù)據(jù)誕生,也使得信息量更多,更全面的全宏基因組樣本數(shù)據(jù)取代16S rRNA數(shù)據(jù)成為新的研究熱點(diǎn)。
其中人類腸道宏基因組信息量大(150倍于人類基因組),所含物種復(fù)雜(約千種),分析難度大[8],是一項(xiàng)極具挑戰(zhàn)性的研究。人類腸道宏基因組對(duì)人體健康有著極其重要的影 響,被一些研究者稱為人類的“第二大腦”[9]。有研究表明,人類腸道微生物群落與克氏?。?0]、潰瘍性結(jié)腸炎[10]、炎癥性腸?。╥nflammatory bowel disease,IBD)[8]、二型糖尿?。═2D)[5]及動(dòng)脈粥樣硬化[11]等多種疾病相關(guān),直接影響血糖和胰島素代謝。因此,如何更好的分析人類腸道宏基因組數(shù)據(jù)是一項(xiàng)重要的研究任務(wù)。
從研究方向上 看,宏基因組樣本的分析比較著力于揭示宏基因組所反映的環(huán)境微生物群落 結(jié)構(gòu),發(fā)現(xiàn)不同環(huán)境下微生物的差 異。宏基因組的樣本分類側(cè)重于歸納宏基因組樣本的共性,找出能夠鑒別樣本某種表型的特征。這些都離不開(kāi)信息的提取,即從原始數(shù)據(jù)中找出表征某些方面信息的特征,并利用特征進(jìn)行比較和分類。以下將就宏基因組樣本分析比較與宏基因組樣本分類兩個(gè)方面對(duì)比較宏基因組學(xué)進(jìn)行較全面的介紹。
宏基因組學(xué)研究的基礎(chǔ)是宏基因組樣本的分析與比較,通過(guò)對(duì)宏基因組樣本數(shù)據(jù)的分析,可以獲得環(huán)境微生物樣本的分類學(xué)構(gòu) 成、各類微生物的相對(duì)豐度及復(fù)雜微生物群落的功能等信息,在此基礎(chǔ)上的比較可以進(jìn)一步發(fā)現(xiàn)不同環(huán)境下微生物的差異,揭 示微生物群落與環(huán)境的交互作 用。
1.1 基于16S rRNA數(shù)據(jù)的分析
對(duì)rRNA子單元,尤其是16S rRNA的測(cè)序,可以為研究不同環(huán)境中的不同微生物群落提供有價(jià)值的數(shù)據(jù)。16S rRNA廣泛存在于原核微生物中,由于它們?cè)谶M(jìn)化中的高度保守性,常用于系統(tǒng)發(fā)生學(xué)的研究,所以這一類的序列被統(tǒng)稱為標(biāo)簽序列。
16S rRNA數(shù)據(jù)可以有效反應(yīng)不同環(huán)境中的不同微生物群落組成特征。在基于16S rRNA的研究中,被測(cè)得的16S rRNA首先被聚集為不同的分類單元(operational taxonomic units,OTUs),然后每一個(gè)OTU通過(guò)比對(duì)已知的16S rRNA數(shù)據(jù)庫(kù)(常見(jiàn)數(shù)據(jù)庫(kù)如RDP、Greengene 和 SILVA[12])被分入特定分類項(xiàng),即可獲得菌群的分類學(xué)目錄,通過(guò)設(shè)定比對(duì)的不同閾值可以調(diào)整OTU的精度。16S rRNA的數(shù)據(jù)集獲得成本低,通過(guò)對(duì)16S rRNA數(shù)據(jù)集的分析可以較為準(zhǔn)確的獲得樣本所含的微生物種類及對(duì)應(yīng)的豐度(以O(shè)UT頻率估計(jì)獲得),許多基于16S rRNA 的分類流程已經(jīng)被廣泛使用,如mothur[13]、Qiime[14]及 the RDP pipeline[15]等。
通過(guò)對(duì)16S rRNA的分析,可以獲得微生物群落中菌種的組成和各自的豐度信息。但是,基于1 6S rRNA的研究所提供的信息有很多局限性,如此類數(shù)據(jù)集以O(shè)UT頻率為主要特征,只能提供微生物群落中的種群結(jié)構(gòu)和豐度信息,無(wú)法獲得生物學(xué)研究者所關(guān)心的功能信息。此外,有研究者認(rèn)為,由于擴(kuò)增偏差的存在,基于OUT頻率特征所估計(jì)的物種相對(duì)豐度并不十分準(zhǔn)確[16-18]。相較而言,全宏基因組數(shù)據(jù)可以針對(duì)微生物群落提供更全面的信息,可以使人們更深入的研究微生物群落與環(huán)境的交互作用。
1.2 基于全宏基因組數(shù)據(jù)的分析
隨著高通量測(cè)序技術(shù)的不斷發(fā)展,測(cè)序通量不斷提高,測(cè)序成本不斷降低,全宏基因組數(shù)據(jù)的獲得難度不斷降低。相比于單一的16S rRNA數(shù)據(jù),全宏基因組數(shù)據(jù)包括了群落中菌群的全部遺傳信息,無(wú)疑能更好地表征環(huán)境微生物樣本。分析全宏基因組數(shù)據(jù)既可以獲得微生物群落的組成性信息,包括物種的組成和豐度等,又能獲得較全面的功能信息。例如,微生物蛋白質(zhì)編碼基因,生物代謝反應(yīng)的關(guān)鍵酶的表達(dá),乃至更詳盡的代謝反應(yīng)網(wǎng)絡(luò)。較高質(zhì)量的全宏基因組數(shù)據(jù)還可以從中提取出特定的核酸序列,如有算法提出可以從全宏基因組數(shù)據(jù)中提取出16S rRNA數(shù)據(jù)[19],并能較好地避免擴(kuò)增偏差。
全宏基因組數(shù)據(jù)分析的重要思路之一是基于比對(duì),即利用blast算法(或是改進(jìn)的比對(duì)算法如BWA[20]或DIAMOND[21])將宏基因組樣本中的測(cè)序片段(reads)與相關(guān)數(shù)據(jù)庫(kù)進(jìn)行比對(duì)以獲得生物學(xué)研究者所關(guān)心的信息,結(jié)果可以表示為系統(tǒng)發(fā)生樹(shù)或反應(yīng)網(wǎng)絡(luò),以便使用主成分分析等算法得到進(jìn)一步結(jié)論。例如,想要獲得微生物群落組成性方面的分析信息,可以與NCBI的分類學(xué)數(shù)據(jù)庫(kù)比對(duì);要想得到群落的功能分析可以用SEED數(shù)據(jù)庫(kù)比對(duì);要想提煉蛋白質(zhì)編碼基因可能的功能信息,可以使用COG數(shù)據(jù)庫(kù);使用KEGG數(shù)據(jù)庫(kù)則可以得到較為詳細(xì)的代謝網(wǎng)絡(luò)。目前使用較多的分析工具M(jìn)EGAN[22],F(xiàn)CMM[23]等都是采用類似的算法流程。
這種方法得到的信息由其所比對(duì)的數(shù)據(jù)庫(kù)決定,其優(yōu)點(diǎn)在于原理簡(jiǎn)單,軟件使用難度低,可以較方便的得到一個(gè)初步的分析結(jié)果,但當(dāng)前還存在一些短期內(nèi)難以克服的缺陷。一個(gè)重要的問(wèn)題是數(shù)據(jù)庫(kù)中信息的缺失與錯(cuò)誤,這一點(diǎn)后面會(huì)有進(jìn)一步的闡述。(2.1.1 基于比對(duì)的方式獲得分類特征)此外,樣本數(shù)據(jù)量太大時(shí),比對(duì)花費(fèi)時(shí)間較長(zhǎng),盡管比對(duì)算法在不斷改進(jìn)。例如,最新的TreeSeq[24]算法在較傳統(tǒng)的blast算法比對(duì)效率提高了數(shù)倍,但在處理大規(guī)模數(shù)據(jù)時(shí)所花費(fèi)的時(shí)間仍不令人滿意。MetaCV算法[25]通過(guò)重構(gòu)序列和參考基因組,將比對(duì)效率提高了數(shù)百倍,是目前使用比對(duì)算法確定reads歸屬的最優(yōu)方法之一,適用于大規(guī)模數(shù)據(jù)的分析。
另一類基于全宏基因組數(shù)據(jù)分析方法是通過(guò)免比對(duì)的方法進(jìn)行分裝,即通過(guò)序列特征對(duì)測(cè)序片段依據(jù)種系關(guān)系進(jìn)行歸類。高質(zhì)量的分裝結(jié)果可以拼接出未知菌種的基因組[26],這種方式可以最大化的利用樣本的序列信息,但分析難度較大,目前尚沒(méi)有較權(quán)威的分析流程。目前應(yīng)用廣泛的算法有Kislyuk等[27]提出的LikelyBin、Wu等[28]提出的AbundanceBin、Wang等[29,30]提出的MetaCluster等,但其在處理復(fù)雜樣本時(shí)準(zhǔn)確率較低。Ding等[31]在2014年提出了一種基于組合序列特征(ICO和四聯(lián)核苷酸頻率)和譜聚類算法的無(wú)監(jiān)督宏基因組分裝算法、HSS-bin 算法,使用不同的數(shù)據(jù)集測(cè)試,較目前常用的MetaCluster等算法準(zhǔn)確率提高了5%-30%。但單純使用這類方法目前還無(wú)法完成復(fù)雜樣本中種屬級(jí)別的分裝。通過(guò)對(duì)全宏基因組數(shù)據(jù)的分析可以獲得微生物群落的物種組成和相對(duì)豐度,相關(guān)的蛋白質(zhì)功能信息,以及代謝網(wǎng)絡(luò)的信息。盡管還有很多問(wèn)題有待解決,但已經(jīng)極大的促進(jìn)了微生物學(xué)的發(fā)展。
由于宏基因組數(shù)據(jù)分析的復(fù)雜,已有研究者嘗試將單細(xì)胞測(cè)序技術(shù)應(yīng)用于宏基因組研究[32]。隨著對(duì)微生物群落的研究不斷展開(kāi),對(duì)特定微生物的深入研究的需求也越來(lái)越多,單細(xì)胞測(cè)序技術(shù)有效地避免了宏基因組數(shù)據(jù)中裝配基因和分裝的難題[33]。在研究已知的特定基因功能和通路時(shí),使用單細(xì)胞測(cè)序技術(shù)數(shù)據(jù)處理難度較低,由于測(cè)序的DNA/RNA取自同一個(gè)細(xì)胞,測(cè)序結(jié)果很好地避免了由于細(xì)胞間差異導(dǎo)致的異質(zhì)性,可以獲得同一菌種的不同亞種[34]。單細(xì)胞測(cè)序技術(shù)擴(kuò)展了宏基因組學(xué)的應(yīng)用范圍,對(duì)于宏基因組中特定菌株的研究有很大幫助。這一技術(shù)的主要難度在于單細(xì)胞的隔離與分選,目前比較成熟的有熒光激活細(xì)胞分選技術(shù)(fluorescence-activated cell sorting,F(xiàn)ACS)[35],但成本較高,儀器價(jià)格高昂。且如何由單細(xì)胞中擴(kuò) 增獲得足夠的DNA樣本也是很有挑戰(zhàn)性的課題[36]。
1.3 宏基因組樣本比較
宏基因組樣本的比較是建立在樣本分析的基礎(chǔ)上的,通過(guò)對(duì)樣本數(shù)據(jù)的分析,提煉出有價(jià)值的信息作為樣本的一組特征,再通過(guò)不同樣本的比較直觀的反映樣本間的不同。因此,現(xiàn)有的樣本比較算法流程多是基于宏基因組樣本分析流程,對(duì)分析后的結(jié)果進(jìn)行比較。典型的算法如MEGAN、FCMM[23]等。
隨著生物信息技術(shù)的不斷發(fā)展,人體微生物群落與人類健康的密切聯(lián)系得到了越來(lái)越廣泛的關(guān)注,研究者試圖比較疾病樣本與健康樣本 之間的區(qū)別,為部分疾病的診斷和治療提供新的思路。典型的研究有針對(duì)二型糖尿病患者的人類腸道宏基因組研究[5],研究者首先對(duì)疾病組和對(duì)照組中樣本數(shù)據(jù)做了初步的分析,獲得了3個(gè)量化的數(shù)據(jù)集:(1)功能基因的列表。(2)KEGG的同源性分析文件。(3)eggNOG同源性分析 文件。通過(guò)比較3個(gè)數(shù)據(jù)集,可以在基因組成和功能層面上相對(duì)全面的比較疾病組和對(duì)照組的區(qū)別,研究者通過(guò)比較疾病組和對(duì)照組的不同,確定了與二型糖尿病相關(guān)的52 484個(gè)基因標(biāo)記(特征),并通過(guò)關(guān)聯(lián)性分析從中找出了47組相互關(guān)聯(lián)的基因群。通過(guò)比較這47個(gè)基因群,可以直觀的展示樣本間的差異??梢钥闯?,比較的主要難點(diǎn)在于樣本分析時(shí)如何對(duì)數(shù)據(jù)信息進(jìn)行特征化的提取。其他典型的研究有不同水域的宏基因組樣本比較,水體污染后環(huán)境微生物的變化[37]等。
此外,一些分析軟件,如FCMM[23],在多樣本比較時(shí),會(huì)直接得到相同功能基因列表和某一樣本的特殊功能基因列表。由此得到的結(jié)果更有利于下一步的統(tǒng)計(jì)分析。當(dāng)比較所獲得的信息較為復(fù)雜時(shí),也可以采用主成分分析的方法得到主要特征,以便進(jìn)行比較。
樣本數(shù)據(jù)的比較能夠較直觀的發(fā)現(xiàn)不同數(shù)據(jù)集的差異,所得到的結(jié)果可以方便的應(yīng)用于生物學(xué)研究。但是,常規(guī)的比較方法在比較水體、土壤等較簡(jiǎn)單的宏基因組數(shù)據(jù)時(shí)有很好的效果,但人體微生物群落更復(fù)雜多變,疾病對(duì)不同個(gè)體的影響也各不相同,樣本比較的結(jié)果往往很難得到有統(tǒng)計(jì)學(xué)意義的結(jié)論。
相比于宏基因組樣本的分析與比較,宏基因組樣本分類更關(guān)注于如何識(shí)別樣本,因此樣本分類需要對(duì)信息進(jìn)一步提煉,以獲得有區(qū)分度的分類特征。宏基因組樣本的分類,可以是按不同微生物群落類型將其分類。例如,不同的宏基因組樣本,可能是來(lái)自水體和土壤,也可能來(lái)自人體的不同部位。由于來(lái)自不同環(huán)境的宏基因組樣本差異往往較大,所以這種分類較為簡(jiǎn)單。更復(fù)雜的問(wèn)題是如何識(shí)別同樣環(huán)境下不同表型的宏基因組樣本,如對(duì)炎癥性腸炎患者與健康人群的腸道宏基因組進(jìn)行分類。
宏基因組樣本的分類研究在高效組織與搜索高速膨脹的宏基因組樣本數(shù)據(jù)集,檢測(cè)臨床樣本的疾病表型,法醫(yī)學(xué)鑒定[38]上均可能有很好的應(yīng)用。例如,建立宏基因組的大型數(shù)據(jù)庫(kù),判定未知樣本的來(lái)源,通過(guò)宏基因組樣本推斷宿主的健康狀態(tài)等。然而,盡管分類技術(shù)已經(jīng)在生物信息學(xué)領(lǐng)域廣泛應(yīng)用,如微陣列癌癥樣本[39]、基因表達(dá)譜[40]及蛋白質(zhì)組[41]分類等。但是,到目前為止復(fù)雜宏基因組樣本的分類問(wèn)題尚未得到很好的解決。
目前宏基因組樣本分類的方法可以分為兩類,即基于比對(duì)的方法和免比對(duì)的方法,其區(qū)別主要在于分類特征的獲取方法?;诒葘?duì)的方法通過(guò)樣本與數(shù)據(jù)庫(kù)的比對(duì),通過(guò)對(duì)樣本數(shù)據(jù)的分析,提煉出有價(jià)值的信息作為樣本的一組分類特征,可能是微生物的豐度信息,也可能是蛋白質(zhì)編碼基因的功能信息。使用機(jī)器學(xué)習(xí)的方法進(jìn)行特征篩選,找到其中有識(shí)別度的分類特征進(jìn)行樣本分類。免比對(duì)的方法,主要使用序列特征,即通過(guò)序列本身的固有性質(zhì),找出有區(qū)分度的特征參數(shù),而不依賴數(shù)據(jù)庫(kù)。
針對(duì)宏基因組樣本分類研究的基本過(guò)程如下:(1)確定數(shù)據(jù)集:為了研究能夠反映樣本間差異的特征和分類方法,所選數(shù)據(jù)集中兩類樣本的數(shù)量應(yīng)盡量大,正負(fù)樣本數(shù)偏差要小,數(shù)據(jù)集質(zhì)量較高以包括足夠的信息。(2)分類特征獲?。河袃煞N常規(guī)途徑,一是從已有的相關(guān)研究資料中獲得較為可信的有區(qū)分度的樣本特征應(yīng)用于樣本分類[42],為了提高特征的區(qū)分度,可以在此基礎(chǔ)上進(jìn)行篩選(軟件或人工的方式);二是分析兩類樣本,使用特別的算法從分析比較后的數(shù)據(jù)中篩選出有區(qū)分度的特征[43]。(3)數(shù)據(jù)集的預(yù)處理:確定特征后,將數(shù)據(jù)集中的樣本進(jìn)行特征化處理,用得到的多維特征代表各樣本,以便進(jìn)行下一步計(jì)算 。(4)對(duì)于針對(duì)特征的研究,使用有監(jiān)督或無(wú)監(jiān)督的分類方法,對(duì)樣本進(jìn)行分類,驗(yàn)證特征的有效性。(5)對(duì)于針對(duì)分類算法的研究,使用被廣泛認(rèn)可的特征,用模擬數(shù)據(jù)集和實(shí)際數(shù)據(jù)集驗(yàn)證算法是否優(yōu)于已有算法。
目前,國(guó)際上多數(shù)的針對(duì)宏基因組樣本分類的研究集中在分類特征的選取和分類算法的研究。宏基因組樣本分類研究的關(guān)鍵點(diǎn)在于分類特征和分類算法。
2.1 分類特征
分類特征的選取取決于宏基因組本身的性質(zhì)以及對(duì)宏基因組樣本的分析比較。高區(qū)分度或有針對(duì)性的特征可以使樣本分類事半功倍。從特征的獲取方式上可以分為基于比對(duì)和免比對(duì)兩種 方式。
2.1.1 基于比對(duì)的方式獲得分類特征 基于比對(duì)的方式獲取特征,前期工作與樣本分析相似,通過(guò)樣本與不同的數(shù)據(jù)庫(kù)比對(duì)生成各樣本的分類學(xué)描述,功能分析圖表,化學(xué)反應(yīng)網(wǎng) 絡(luò)等作為原始特征。由于分析的結(jié)果較為復(fù)雜,原始特征維數(shù)較高且區(qū)分度很低,很難直接用于分類,所以會(huì)使用多種 方式進(jìn)行特征提取。
2014年,Pookhao等[43]針對(duì)比對(duì)分析結(jié)果設(shè)計(jì)了一種基于彈性網(wǎng)絡(luò)和邏輯回歸的特征提取方法,研究者選取了124個(gè)人類腸道宏基因組樣本[8],分為4個(gè)組,其中肥胖組42例,包含3例IBD樣本,瘦削組82例,包含22例IBD樣本,通過(guò)將樣本中的基 因豐度與NCBI的蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫(kù)比對(duì)得到每組樣本中數(shù)百種蛋白質(zhì)直系同源簇的豐度,作為原始的功能特征,通過(guò)研究者開(kāi)發(fā)的特征提取算法確定了25個(gè)在4組中豐度差異最明顯的功能簇,由此找到了一組對(duì)IBD和肥胖的人類腸道宏基因組有區(qū)分度的特征。這個(gè)方法也可以應(yīng)用于其他原始特征,如通過(guò)blast將數(shù)據(jù)比對(duì)到NCBI的微生物基因組庫(kù),獲得樣本中微生物的豐度信息作為原始特征,同樣通過(guò)特征提取,可以獲得有區(qū)分度的特征。Shafiei等[44]設(shè)計(jì)了一個(gè)多層的貝葉斯網(wǎng)絡(luò)模型對(duì)樣本代謝網(wǎng)絡(luò)的分析結(jié)果進(jìn)行歸類,研究者使用了同樣的IBD數(shù)據(jù)集,通過(guò)貝葉斯模型找出了對(duì)IBD患者有區(qū)分度的代謝子網(wǎng)絡(luò),可以作為區(qū)分IBD樣本的特征。兩者用不同的特征提取方法從數(shù)據(jù)中都獲得了有高區(qū)分度的特征。2015年,Korem[10]及其同事使用了另一種思路,他們認(rèn)為reads的覆蓋模式能夠反映微生物的生長(zhǎng)(DNA復(fù)制)的速率,通過(guò)對(duì)高質(zhì)量的數(shù)據(jù)集進(jìn)行reads的覆蓋度分析,得到了一種新的特征——覆蓋度峰谷比(PTR),首次提出了從宏基因組樣本中獲得微生物動(dòng)態(tài)信息的方法。
基于比對(duì)的方法最大限度的利用了已有的數(shù)據(jù)庫(kù),可以利用數(shù)據(jù)庫(kù)中的已知信息解析樣本,直觀的展示樣本序列中隱藏的生物學(xué)信息。由此進(jìn)一步處理可以得到有區(qū)分度的特征,此類特征往往表現(xiàn)為系統(tǒng)發(fā)生樹(shù)的某種特殊性,某幾種蛋白或反應(yīng)的活躍,這些特征不僅能對(duì)兩類樣本進(jìn)行很好的區(qū)分,更重要的是此類特征有較明確的生物學(xué)意義,有利于進(jìn)一步研究其內(nèi)在的生物學(xué)原理,甚至可以由已知的大量信息推導(dǎo)未知信息,由此對(duì)生物學(xué)實(shí)驗(yàn)方向起指導(dǎo)性作用。這應(yīng)該是基于比對(duì)的方法在宏基因組分析與分類中應(yīng)用廣泛的重要原因。
但是,基于比對(duì)的方式其局限在于所得到的結(jié)果依賴數(shù)據(jù)庫(kù),但目前數(shù)據(jù)庫(kù)中的數(shù)據(jù)并不全面,在宏基因組學(xué)出現(xiàn)前,微生物基因組學(xué)的研究局限在少數(shù)模式菌和不足1%的可培養(yǎng)微生物上,更嚴(yán)重的是,來(lái)自不同隔離群的同種微生物基因組經(jīng)常表現(xiàn)出相當(dāng)大的基因組異質(zhì)性。這種變化可能來(lái)自于克隆偏差,環(huán)境適應(yīng)性,或是培養(yǎng)過(guò)程中很可能發(fā)生的人工誤差[45]。因此,即使是十幾年后的今天,數(shù)據(jù)庫(kù)中的微生物基因組數(shù)據(jù)也僅能代表自然界中微生物的一小部分[45],閾值選取較嚴(yán)格的比對(duì)會(huì)去除超過(guò)50%的reads,相當(dāng)部分的屬于未知菌種的序列會(huì)被忽視,這意味著在比對(duì)所獲得的組成信息是有大量缺失的。
比對(duì)所獲得的功能信息高度依賴于數(shù)據(jù)庫(kù)中基因組后期的注釋質(zhì)量。許多情況下人們認(rèn)為原核生物基因組結(jié)構(gòu)簡(jiǎn)單,因此目前數(shù)據(jù)庫(kù)如GenBank和EMBL中注釋的蛋白質(zhì)編碼基因都是準(zhǔn)確的。然而,近年越來(lái)越多的研究表明微生物基因組中蛋白質(zhì)編碼基因預(yù)測(cè)問(wèn)題遠(yuǎn)沒(méi)有達(dá)到人們預(yù)期的準(zhǔn)確度,數(shù)據(jù)庫(kù)中基因組的注釋質(zhì)量也不斷地被人質(zhì)疑。大量研究結(jié)果證明數(shù)據(jù)庫(kù)中微生物基因組已經(jīng)注釋的蛋白質(zhì)編碼基因并不都是真正的蛋白質(zhì)編碼序列,而存在錯(cuò)誤預(yù)測(cè)為編碼基因的隨機(jī)序列,這種現(xiàn)象被稱為過(guò)注釋[46]。Yu等[46,47]開(kāi)發(fā)了一種基于改進(jìn)的TN曲線(一種基于三聯(lián)體核苷酸的幾何分析方法)的微生物蛋白質(zhì)編碼基因重注釋方法,可以提高微生物基因組的注釋質(zhì)量。
另一個(gè)難解的問(wèn)題是當(dāng)樣本數(shù)據(jù)量極大時(shí),其用于比對(duì)的計(jì)算量極大,計(jì)算時(shí)間也變得難以控制。比對(duì)算法仍在不斷改進(jìn),有算法聲稱其效率3倍于BLAST算法[24],極大提高了比對(duì)效率,但仍不令人滿意,比對(duì)算法效率上的改進(jìn)仍未停止。
因此發(fā)現(xiàn),提取關(guān)鍵的分類特征、比對(duì)算法效率上的改進(jìn)和數(shù)據(jù)庫(kù)的完善是這方面研究的重點(diǎn)和難點(diǎn),近年來(lái)備受關(guān)注,都是生物信息學(xué)中極有挑戰(zhàn)性的工作。
2.1.2 基于免比對(duì)的方式獲得分類特征 另一種特征以免比對(duì)的方式,即利用宏基因組或是微生物基因序列的本質(zhì)屬性,從樣本中直接獲得多維序列特征。序列特征 辨識(shí)物種或者基因的能力直接影響分類方法的性能,基于統(tǒng)計(jì)的序列特征可分為組成性特征和關(guān)聯(lián)性特征。
簡(jiǎn)單的序列組成性特征如單核苷酸頻率,即A、T、C、G四種核苷酸在序列中所占的比例,尤其是其中的GC含量特征很早就因其在不同基因組中差異較大且被應(yīng)用于基因組分類[48],GC含量在不同環(huán)境的宏基因組樣本中同樣有很大差異,可以作為宏基因組數(shù)據(jù)分析的重要參數(shù)之一[49]。
為了更好的表征基因組,生物信息學(xué)研究者嘗試使用信息量更大的序列特征,如三聯(lián)核苷酸頻率(長(zhǎng)度為3的堿基子串如AA A的頻率),四聯(lián)核苷酸頻率(長(zhǎng)度為4的堿基子串如AATT的頻率)。已有文獻(xiàn)證實(shí)四聯(lián)核苷酸 頻率用于物種層級(jí)有最優(yōu)的分類效果[50],四聯(lián)核苷酸頻率成為用于基因組識(shí)別分類的‘基因組特征’,而廣泛應(yīng)用于宏基因組分裝[27,28,51]以聚類宏基因組片段。2009年,有研究試圖將此特征的使用拓展到宏基因組的比較與識(shí)別,取得了較好結(jié)果[42]。四聯(lián)核苷酸頻率作為一種“宏基因組特征”也得到了廣泛應(yīng)用。
然而宏基因組樣本所包含的信息遠(yuǎn)大于單個(gè)基因組,研究者嘗試計(jì)算長(zhǎng)度更長(zhǎng)的堿基子串頻率發(fā)現(xiàn),其作為宏基因組特征有更好的分類效果。例如,堿基子串長(zhǎng)度k=8時(shí)(如AAAAATTC),分類效果明顯強(qiáng)于四聯(lián)核苷酸頻率[52]。
隨著對(duì)特征研究的進(jìn)一步深入,有研究者發(fā)現(xiàn),單純使用組成性特征并 無(wú)法很好的完成宏基因組的分析與分類,處理復(fù)雜宏基因組樣本尤其困難[52],由此,一些基于堿基對(duì)關(guān)聯(lián)性的特征被開(kāi) 發(fā)出來(lái)以應(yīng)對(duì)新的挑戰(zhàn)。
序列關(guān)聯(lián)性特征則反映了基因組中兩兩組分之間或者多個(gè)組分之間的關(guān)聯(lián)信息。應(yīng)用 較多的如二核苷酸相對(duì)豐度(偏性)(dinucleotide relative abundances,DRA)[42],研究人員計(jì)算不同二核苷酸的使用頻率之比(如AC/GT)作為特征,這一特征在某些表型中非常穩(wěn)定,這意味著當(dāng)某種二核苷酸的相對(duì)豐度出現(xiàn)差異時(shí)可以被快速識(shí)別出來(lái)。此種特征的信息量較小,只能應(yīng)用于部分特殊情況,如估計(jì)環(huán)境微生物的被污染狀況[42]。
為了更好的表征宏基因組樣本,Ding等[31]提出了一種基于互信息的序列關(guān)聯(lián)性特征(intrinsic correlation of oligonucleotides,ICO),它反映了一個(gè)寡核苷酸中兩個(gè)連續(xù)組分之間的關(guān)聯(lián)信息。例如,對(duì)于一個(gè)四聯(lián)核苷酸,我們可以將它分割成一個(gè)單堿基和一個(gè)三聯(lián)核苷酸,或者分割成相鄰的兩個(gè)堿基對(duì)。那么,ICO特征向量就表示第一個(gè)單堿基和后續(xù)的三聯(lián)核苷酸,或者第一個(gè)三聯(lián)核苷酸和后續(xù)的單堿基,再或者是兩個(gè)堿基對(duì)之間關(guān)聯(lián)性的量化。將ICO 特征應(yīng)用于宏基因組樣本分類,結(jié)果表明結(jié)合ICO特征后分類結(jié)果優(yōu)于單獨(dú)使用多核苷酸頻率特征[52]。
免比對(duì)的方法近年來(lái)發(fā)展迅速,通過(guò)對(duì)不同長(zhǎng)度堿基子串(k-mer)頻率的統(tǒng)計(jì)結(jié)合不同的統(tǒng)計(jì)學(xué)算法,使用免比對(duì)方法用4k維的特征空間可以表征序列所屬的物種,序列功能甚至表觀遺傳信息[53]。基于免比對(duì)的方式獲得分類特征仍有很多潛力有待挖掘。免比對(duì)的方法不依賴于數(shù)據(jù)庫(kù),可在本地直接處理樣本得到分析結(jié)果,但很難就結(jié)果作出令人信服的生物學(xué)解釋。如果特征的計(jì)算方法復(fù)雜,其運(yùn)算量與計(jì)算時(shí)間和基于比對(duì)的方式相比并不占優(yōu)勢(shì)。
2.2 分類算法
分類算法是宏基因組樣本分類研究的另一重點(diǎn),由于樣本本身的復(fù)雜性,為了更好地表征樣本,所使用的特征向量往往是高維度的。本文中所討論的分類方法都是便于處理高維度特征的機(jī)器學(xué)習(xí)算法。
機(jī)器學(xué)習(xí)是人工智能的核心部分,機(jī)器學(xué)習(xí)算法主要包括兩大類:無(wú)監(jiān)督分類算法和有監(jiān)督分類方法。無(wú)監(jiān)督分類算法也稱聚類方法,可以看作觀察學(xué)習(xí)(learning from observation)。給定一些觀察對(duì)象,即一群客體,但是在無(wú)監(jiān)督的情況下對(duì)客體進(jìn)行分類,這種分類往往基于某種事先定義的距離。研究的目標(biāo)是尋找模式的相似性,也即自動(dòng)把這群客體分成若干組,屬于同一組的客體,彼此相似。有監(jiān)督分類是一種示例學(xué)習(xí),也即給定N個(gè)例子(訓(xùn)練集),通過(guò)訓(xùn)練確定判別規(guī)則,以測(cè)試集判斷判別規(guī)則是否高效準(zhǔn)確。聚類在分類問(wèn)題中很少單獨(dú)使用,但可以作為有力的輔助工具,典型的如HabiSign算法[54],提出了基于參考點(diǎn)的獨(dú)特特征,然后使用層次聚類法獲得了很好的分類效果。
有監(jiān)督分類在比較宏基因組學(xué)[7]的一個(gè)較早的應(yīng)用是,200 6年Yang等[7]使用支持向量機(jī)(support vector machines,SVM)和k近鄰算法分類不同環(huán)境下的土壤及水體沉淀樣本。2011年,Knights等[38]通過(guò)研究人體微生物的一些標(biāo)準(zhǔn)數(shù)據(jù)集驗(yàn)證有監(jiān)督分類技術(shù)應(yīng)用在宏基因組/16S rRNA數(shù)據(jù)上的可行性。上述算法均證實(shí)有效的機(jī)器學(xué)習(xí)技術(shù)可以解決宏基因組/16S rRNA數(shù)據(jù)處理上的某些挑戰(zhàn)。此后多種有監(jiān)督分類算法被引入宏基因組/16S rRNA數(shù)據(jù)處理,使 用較廣泛的有邏輯回歸模型(LR模型),貝葉斯方法,支持向量機(jī)(SVM)等。
MetaDistance[55]算法是第一個(gè)專用于人體微生物多類別分類的算法。這個(gè)算法結(jié)合使用基于實(shí)例和基于模型的算法(如k近鄰算法和SVM)的優(yōu)勢(shì),以同時(shí)滿足最小化的組內(nèi)距離和最大化的組間距離,在算法設(shè) 計(jì)時(shí)考慮到了宏基因組相關(guān)特征的稀疏性,用于宏基因組多樣本識(shí)別和特征選擇都有不錯(cuò)的效果。
2013年, Cui和Zhang[56]將一種改進(jìn)的SVM(R-SVM)用于宏基因組樣本分類,其主要思路是使用堿基子串頻率(k-mer頻率)作為特征,使用R-SVM算法進(jìn)行機(jī)器學(xué)習(xí)。研究者使用IBD數(shù)據(jù)集[8]作為真實(shí)數(shù)據(jù)集進(jìn)行測(cè)試,分類準(zhǔn)確率超過(guò)80%。R-SVM相較于傳統(tǒng)的支持向量機(jī)方法,其優(yōu)勢(shì)在于機(jī)器學(xué)習(xí)的過(guò)程中對(duì)特征不斷進(jìn)行篩選,k-mer的原始特征空間的維度為4k維,通過(guò) R-SVM算法,可以篩 選出高區(qū)分度的20維特征作為分類特征。
2014年,Tanaseichuk等[57]使用系統(tǒng)發(fā)生樹(shù)作為分類特征,通過(guò)多項(xiàng)式LR模型訓(xùn)練一個(gè)由分類特征到分類標(biāo)簽的映射,通過(guò)這種方式可以得到一個(gè)高準(zhǔn)確率的分類模型。與傳統(tǒng)的SVM、隨機(jī)森林(RF)等算法相比,錯(cuò)誤率降低了約20%。這種方法的優(yōu)勢(shì)是以微生物群落的系統(tǒng)發(fā)生關(guān)系作為特征的組織結(jié)構(gòu),將生物學(xué)信息引入機(jī)器學(xué)習(xí)過(guò)程,使得分類準(zhǔn)確率明顯提高,而此前大多數(shù)研究將OUT頻率作為互相孤立的特征使用。
Ding等[52]于2015年也提出了一種分類方法,DectICO算法,這種算法結(jié)合了動(dòng)態(tài)的 KPLS特征篩選算法和ICO序列特征,對(duì)原始特征進(jìn)行多輪篩選,可以由用戶自行確定特征篩選的輪數(shù),最后得到 的分類特征可以讓SVM分類器性能最優(yōu)。該研究分別使用哮喘(asthma)數(shù)據(jù)集[58]、炎癥性腸炎 數(shù)據(jù)集[8]及二型糖尿病數(shù)據(jù)集[5]對(duì)算法進(jìn)行驗(yàn)證,證明DectICO 算法較同類算法有更好的通用性和穩(wěn)定性,而動(dòng)態(tài)的特征篩選算法明顯提高了分類算法的性能。
宏基因組樣本分類算法仍在不斷的發(fā)展中,彈性網(wǎng)絡(luò)(elastic net)[43]、決策樹(shù)及最近鄰等常見(jiàn)算法思想都可以應(yīng)用于宏基因組樣本分類。
宏基因組學(xué)是以對(duì)宏基因組數(shù)據(jù)本身的分析比較為基礎(chǔ)的,對(duì)宏基因組樣本比較和分類問(wèn)題的研究可以加深對(duì)宏基因組數(shù)據(jù)的理解。宏基因組學(xué)近幾年來(lái)發(fā)展迅速,新的成果不斷出現(xiàn),宏基因組樣本的分析與分類成為新的研究熱點(diǎn),大量的機(jī)器學(xué)習(xí)算法和統(tǒng)計(jì)學(xué)相關(guān)理論知識(shí)被引入這一領(lǐng)域,許多簡(jiǎn)明易用的生物信息學(xué)工具被開(kāi)發(fā)出來(lái)投入使用,我們將宏基因組分析相關(guān)的部分軟件工具列在了表1中。但由于宏基因組數(shù)據(jù)的復(fù)雜性以及科學(xué)界目前對(duì)宏基因組數(shù)據(jù)本身了解的局限性,該領(lǐng)域仍有許多空白亟待填補(bǔ)。如對(duì)樣本分類問(wèn)題的研究較少,幾乎所有的算法工具在關(guān)于腸道宏基因組的分類問(wèn)題上準(zhǔn)確率都不超過(guò)85%,在分析、比較的流程上大多數(shù)工具也都趨于同質(zhì)化。這些問(wèn)題的解決需要更高效的特征,更優(yōu)秀的算法,同時(shí)也依賴于宏基因組學(xué)研究和生物信息學(xué)技術(shù)的進(jìn)一步發(fā)展。
表1 部分算法工具的用途及獲取地址簡(jiǎn)表
[1]Hu son DH, Mitra S, Ruscheweyh HJ, et al. Integrative analysis ofenvironmental sequences using MEGAN4[J]. Genome Research, 2011, 21(9):1552-1560.
[2]Ha iser HJ, Gootenberg DB, Chatman K, et al. Predicting and manipulating cardiac drug inactivation by the human gut bacterium Eggerthella lenta[J]. Science, 2013, 341(6143):295-298.
[3]Ko eth RA, Wang Z, Levison BS, et al. Intestinal microbiota metabolism of L-carnitine, a nutrient in red meat, promotes atherosclerosis[J]. Nat Med, 2013, 19(5):576-585.
[4]Ra makrishna BS. Role of the gut microbiota in human nutrition and metabolism[J]. J Gastroenterol Hepatol, 2013, 28(Suppl)4:9-17.
[5]Qin JJ, Li YR, Cai ZM, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes[J]. Nature, 2012, 490(7418):55-60.
[6]Grou p NHW, Peterson J, Garges S, et al. The NIH human microbiome project[J]. Genome Res, 2009, 19(12):2317-2323.
[7]Yang CY, Mills D, Mathee K, et al. An ecoinformatics tool for microbial community studies:supervised classification of Amplicon Length Heterogeneity(ALH)profiles of 16S rRNA[J]. Journal of Microbiological Methods, 2006, 65(1):49-62.
[8]Qin J, Li R, Raes J, et al. A human gut microbial gene catalogue established by metagenomic sequencing[J]. Nature, 2010, 464(7285):59-65.
[9]Rida ura V, Belkaid Y. Gut microbiota:the link to your second brain[J]. Cell, 2015, 161(2):193-194.
[10]Kor em T, Zeevi D, Suez J, et al. Growth dynamics of gut microbiota in health and disease inferred from single metagenomic samples[J]. Science, 2015, 349(6252):1101-1106.
[11]Wan g Z, Roberts AB, Buffa JA, et al. Non-lethal inhibition of gut microbial trimethylamine production for the treatment of atherosclerosis[J]. Cell, 2015, 163(7):1585-1595.
[12]Qua st C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene database project:improved data processing and web-based tools[J]. Nucleic Acids Res, 2013, 41(Database issue):D590-D596.
[13]Sch loss PD, Westcott SL, Ryabin T, et al. Introducing mothur:open-source, platform-independent, community-supported software for describing and comparing microbial communities[J]. Appl Environ Microbiol, 2009, 75(23):7537-7541.
[14]Cap oraso JG, Kuczynski J, Stombaugh J, et al. QIIME allows analysis of high-throughput community sequencing data[J]. Nat Methods, 2010, 7(5):335-336.
[15]Col e JR, Wang Q, Cardenas E, et al. The Ribosomal Database Project:improved alignments and new tools for rRNA analysis[J]. Nucleic Acids Res, 2009, 37(Database issue):D141-D145.
[16]Bro oks JP, Edwards DJ, Harwich MD, et al. The truth about metagenomics:quantifying and counteracting bias in 16S rRNA studies[J]. Bmc Microbiology, 2015, 15:66.
[17]Soh n MB, An LL, Pookhao N, et al. Accurate genome relative abundance estimation for closely related species in a metagenomic sample[J]. Bmc Bioinformatics, 2014, 15:242.
[18]Xia LC, Cram JA, Chen T, et al. Accurate genome relative abundance estimation based on shotgun metagenomic reads[J]. PLoS One, 2011, 6(12):e27992.
[19]Yuan C, Lei J, Cole J, et al. Reconstructing 16S rRNA genes in metagenomic data[J]. Bioinformatics, 2015, 31(12):i35-43.
[20]Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics, 2009, 25(14):1754-1760.
[21]Buchf ink B, Xie C, Huson DH. Fast and sensitive protein alignment using DIAMOND[J]. Nature Methods, 2015, 12(1):59-60.
[22]Huson DH, Richter DC, Mitra S, et al. Methods for comparative metagenomics[J]. BMC Bioinformatics, 2009, 10(Suppl)1:S12.
[23]Lee J, Lee HT, Hong WY, et al. FCMM:A comparative metagenomic approach for functional characterization of multiple metagenome samples[J]. J Microbiol Methods, 2015, 115:121-128.
[24]Winterm ans B, Brandt B, Vandenbroucke-Grauls C, et al. TreeSeq, a fast and intuitive tool for analysis of whole genome and metagenomic sequence data[J]. PLoS One, 2015, 10(5):e0123851.
[25]Liu J, Wang H, Yang H, et al. Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms[J]. Nucleic Acids Res, 2013, 41(1):e3.
[26]Alberts en M, Hugenholtz P, Skarshewski A, et al. Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes[J]. Nature Biotechnology, 2013, 31(6):533-538.
[27]Kislyuk A, Bhatnagar S, Dushoff J, et al. Unsupervised statistical clustering of environmental shotgun sequences[J]. Bmc Bioinformatics, 2009, 10:316.
[28]Wu YW, Ye YZ. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples[J]. Journal of Computational Biology, 2011, 18(3):523-534.
[29]Wang Y, Leung HCM, Yiu SM, et al. MetaCluster 5. 0:a tworound binning approach for metagenomic data for low-abundance species in a noisy sample[J]. Bioinformatics, 2012, 28(18):I356-I362.
[30]Wang Y, Leung HCM, Yiu SM, et al. MetaCluster-TA:taxonomic annotation for metagenomic data based on assembly-assisted binning[J]. Bmc Genomics, 2014( Suppl1)1:S12.
[31]Ding X, C ao CC, Sun X. Intrinsic correlation of oligonucleotides:a novel genomic signature for metagenome analysis[J]. J Theor Biol, 2014, 353:9-18.
[32]Rodrigue S, Malmstrom RR, Berlin AM, et al. Whole genome amplification and de novo assembly of single bacterial cells[J]. PLoS One, 2009, 4(9):e6864.
[33]Kodzius R, Gojobori T. Single-cell technologies in environmental omics[J]. Gene, 2016, 576(2 Pt 1):701-707.
[34]Kashtan N, Roggensack SE, Rodrigue S, et al. Single-cell genomics reveals hundreds of coexisting subpopulations in wild Prochlorococcus[J]. Science, 2014, 344(6182):416-420.
[35]Bergquist PL, Hardiman EM, Ferrari BC, et al. Applications of flow cytometry in environmental microbiology and biotechnology[J]. Extremophiles, 2009, 13(3):389-401.
[36]Lasken RS. Genomic sequencing of uncultured microorganisms from single cells[J]. Nat Rev Microbiol, 2012, 10(9):631-640.
[37]Paerl HW, Xu H, Hall NS, et al. Controlling cyanobacterial blooms in hypertrophic Lake Taihu, China:will nitrogen reductions cause replacement of non-N2 fixing by N2 fixing taxa?[J]. PLoS One, 2014, 9(11):e113123.
[38]Knights D, Kuczynski J, Charlson ES, et al. Bayesian communitywide culture-independent microbial source tracking[J]. Nat Methods, 2011, 8(9):761-763.
[39]Glaab E, Garibaldi JM, Krasnogor N. Learning pathway-based decision rules to classify micro array cancer samples[J]. German Conference on Conformations, 2010:123-134.
[40]Asyali MH, Colak D, Demirkaya O, et al. Gene expression profileclassification:a review[J]. Current Bioinformatics, 2006, 1(1):55-73.
[41]Yi G, Tho n MR, Sze SH. Supervised protein family classification and new family construction[J]. Journal of Computational Biology, 2012, 19(8):957-967.
[42]Willner D, Thurber RV, Rohwer F. Metagenomic signatures of 86 microbial and viral metagenomes[J]. Environ Microbiol, 2009, 11(7):1752-1766.
[43]Pookhao N, Sohn MB, Li Q, et al. A two-stage statistical procedure for feature selection and comparison in functional analysis of metagenomes[J]. Bioinformatics, 2015, 31(2):158-165.
[44]Shafiei M, Dunn KA, Chipman H, et al. BiomeNet:a bayesian model for inference of metabolic divergence among microbial communities[J]. Plos Computational Biology, 2014, 10(11):e1003918.
[45]Nielsen H B, Almeida M, Juncker AS, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
[46]Yu JF, Xi ao K, Jiang DK, et al. An integrative method for identifying the over-annotated protein-coding genes in microbial genomes[J]. DNA Res, 2011, 18(6):435-449.
[47]Yu JF, Su n X. Reannotation of protein-coding genes based on an improved graphical representation of DNA sequence[J]. J Comput Chem, 2010, 31(11):2126-2135.
[48]Rocha EPC, Danchin A. Base composition bias might result from competition for metabolic resources[J]. Trends in Genetics, 2002, 18(6):291-294.
[49]Raes J, F oerstner KU, Bork P. Get the most out of your metagenome:computational analysis of environmental sequence data[J]. Current Opinion in Microbiology, 2007, 10(5):490-498.
[50]Pride DT, Meinersmann RJ, Wassenaar TM, et al. Evolutionary implications of microbial genome tetranucleotide frequency biases[J]. Genome Res, 2003, 13(2):145-158.
[51]Chatterji S, Yamazaki I, Bai Z, et al. CompostBin:a DNA composition-based algorithm for binning environmental shotgun reads[M]//Vingron M, Wong L, editor, RECOMB, LNIB 4955, 2008:17-28.
[52]Ding X, C heng F, Cao C, et al. DectICO:an alignment-free supervised metagenomic classification method based on feature extraction and dynamic selection[J]. BMC Bioinformatics, 2015, 16:323.
[53]Pinello L, Lo Bosco G, Yuan GC. Applications of alignment-free methods in epigenomics[J]. Brief Bioinform, 2014, 15(3):419-430.
[54]Ghosh TS, Mohammed MH, Rajasingh H, et al. HabiSign:a novel approach for comparison of metagenomes and rapid identification of habitat-specific sequences[J]. BMC Bioinformatics, 2011, 12 Suppl 13:S9.
[55]Liu Z, Hs iao W, Cantarel BL, et al. Sparse distance-based learning for simultaneous multiclass classification and feature selection of metagenomic data[J]. Bioinformatics, 2011, 27(23):3242-3249.
[56]Cui H, Zh ang X. Alignment-free supervised classification of metagenomes by recursive SVM[J]. BMC Genomics, 2013, 14:641.
[57]Tanaseich uk O, Borneman J, Jiang T. Phylogeny-based classification of microbial communities[J]. Bioinformatics, 2014, 30(4):449-456.
[58]Hinks TSC, Handley S, Keller B, et al. Analysis of the lung microbiome in human asthma using whole genome shot-gun metagenomics[J]. Thorax, 2013, 68:A14.
(責(zé)任編輯 李楠)
Analysis,Comparison and Classification of Metagenomic Samples
CHENG Fu-dong DING Xiao LI Sheng SUN Xiao
(State Key Laboratory of Bioelectronics,School of Biological Science & Medical Engineering,Southeast University,Nanjing 210096)
Metagenomics attempts to understand the diversity of the environmental microbial community and the interaction between microorganisms and environment by analyzing the sequence data of metagenomic samples. Microbiology has been revolutionized by metagenomics,which makes it feasible to research the microbial communities in complex biological systems without cultivating the microbes. The high-throughput metagenomic study is promoted by the rapid development of next-generation sequencing technology and bioinformatics. As a mass of high-quality metagenomic sequencing data are produced,also are accessible to the scientific community,the role of metagenomics has been recognized by various scientific areas. On the other sides,huge metagenomic data for individuals with different health status,or for different habitats of the human body makes the comparison and classification of metagenomic samples more important,leading the comparative metagenomics to become an important branch of metagenomics. This review mainly introduces the related researches and algorithms in the analysis,comparison and classification of metagenomic sequencing data.
metagenome;sample analysis and comparison;sample classification;classification feature
10.13560/j.cnki.biotech.bull.1985.2016.05.001
2015-11-26
國(guó)家自然科學(xué)基金項(xiàng)目(61472078)
程福東,男,碩士,研究方向:宏基因組學(xué);E-mail:220143745@seu.edu.cn
孫嘯,男,教授,研究方向:生物信息學(xué);E-mail:xsun@seu.edu.cn