胡晴玥, 李德志, 劉 箐
(上海理工大學(xué) 健康科學(xué)與工程學(xué)院,上海 200093)
病毒是地球上數(shù)量最多的生物實(shí)體,分布在生物圈的每一個(gè)角落,其中噬菌體是感染細(xì)菌的病毒,據(jù)估計(jì)在地球上的數(shù)量約為1031個(gè),可能超過所有物種數(shù)量之和[1]。噬菌體廣泛存在于身體的各個(gè)部位,如皮膚、口腔、肺部、腸道和尿道[2],其中腸道中噬菌體數(shù)量尤為龐大,研究估計(jì)健康成人的每克糞便約有109~1010數(shù)量級(jí)的噬菌體[3-4]。一方面,腸道噬菌體通過與宿主細(xì)菌的相互作用,調(diào)節(jié)腸道菌群的結(jié)構(gòu),如消滅宿主細(xì)菌,傳遞新的細(xì)菌表型,調(diào)節(jié)細(xì)菌群落組成以及基因表達(dá)和進(jìn)化,進(jìn)而影響動(dòng)物宿主的生理健康[5];另一方面,噬菌體與哺乳動(dòng)物細(xì)胞的病毒有一些共同特征,可被先天宿主受體(如Toll樣受體家族)識(shí)別,調(diào)節(jié)免疫系統(tǒng)[6]。腸道噬菌體通過胞吞轉(zhuǎn)運(yùn)的方式跨過腸道上皮細(xì)胞進(jìn)入動(dòng)物宿主體內(nèi)血液、淋巴、器官甚至大腦,直接與體內(nèi)的細(xì)胞及器官相互作用,進(jìn)而直接影響哺乳動(dòng)物免疫系統(tǒng)和生理健康[7]。早期研究人員從腸道微生物群出發(fā),探索并奠定了腸道微生物對(duì)人體健康及功能的重要作用,提出了健康的腸道微生物群(Healthy gut microbiome)這一概念[8]。而腸道噬菌體對(duì)哺乳動(dòng)物的生理健康同樣有著不可忽視的重要影響,因此有學(xué)者受到啟發(fā),從噬菌體的角度出發(fā),提出健康的腸道噬菌體群(Healthy gut phageome),發(fā)現(xiàn)不同動(dòng)物個(gè)體間噬菌體差異較大,但在健康個(gè)體間存在著一些共有噬菌體,組成健康腸道噬菌體組 (Phageome)。雖然腸道內(nèi)噬菌體對(duì)人體健康以及疾病治療有著重要的作用,但是對(duì)噬菌體的了解相對(duì)于其宿主細(xì)菌而言只是些零星的數(shù)據(jù)[9-10],主要原因:①傳統(tǒng)實(shí)驗(yàn)室培養(yǎng)方法的局限;②噬菌體基因組的特殊特性;③相較于細(xì)菌而言缺乏通用的基因標(biāo)記;④病毒組數(shù)據(jù)庫(kù)非常不完善,超過80%的病毒缺少數(shù)據(jù)庫(kù)信息,早期研究發(fā)現(xiàn)大多數(shù)已鑒定的腸道噬菌體與數(shù)據(jù)庫(kù)中的序列沒有同源性,不同研究之間變異性很高[10];⑤缺乏病毒分析標(biāo)準(zhǔn)。隨著高通量測(cè)序和生物信息學(xué)以及機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,許多以研究病毒組為目的的生物信息分析軟件的開發(fā)與應(yīng)用,使得研究人員可以深入探尋腸道噬菌體對(duì)人體的影響。Gregory等[11]整合來自32個(gè)研究項(xiàng)目的2 697個(gè)腸道宏基因組,含有33 242個(gè)病毒群(長(zhǎng)度大于5 kb),覆蓋來自16個(gè)國(guó)家的1 986名個(gè)體,構(gòu)建了人類腸道病毒基因組數(shù)據(jù)庫(kù)(Human Gut Virome Database,GVD)。為了進(jìn)一步推進(jìn)對(duì)腸道噬菌體多樣性、進(jìn)化分支以及全球分布情況的分析,Camarillo-Guerrero等[12]將來自6個(gè)大洲28個(gè)國(guó)家的28 060個(gè)人類腸道宏基因組,共142 809個(gè)非冗余噬菌體基因組和2 898個(gè)培養(yǎng)的腸道細(xì)菌基因組匯編入腸道噬菌體數(shù)據(jù)庫(kù)(GPD),揭示了噬菌體的多樣性以及宿主腸道細(xì)菌范圍,類似病毒數(shù)據(jù)庫(kù)的建立和逐步完善幫助原始數(shù)據(jù)在下游分析過程中進(jìn)行分類和功能注釋,提高了分析的準(zhǔn)確性。通過生物信息學(xué)技術(shù),可以揭示噬菌體的多樣性、進(jìn)化分支、相應(yīng)宿主細(xì)菌以及功能,了解腸道噬菌體組在疾病中的角色,進(jìn)而為疾病的診斷與治療提供新的策略。腸道宏噬菌體組學(xué)的分析流程包括以下步驟:①原始數(shù)據(jù)質(zhì)量控制和預(yù)處理,主要是過濾接頭序列、低質(zhì)量序列(quality scores<30),以及來自宿主動(dòng)物或細(xì)菌等其他非病毒基因組序列;②腸道宏噬菌體組的拼接組裝;③評(píng)估組裝質(zhì)量;④類病毒顆粒的篩選以及系統(tǒng)分類和功能注釋;⑤進(jìn)化分析和預(yù)測(cè)宿主細(xì)菌。對(duì)于腸道噬菌體組的相關(guān)研究學(xué)者,尤其是沒有生物信息學(xué)背景的研究人員來說,選擇合適的軟件和分析方法成為一項(xiàng)挑戰(zhàn)。本文將概述現(xiàn)階段腸道噬菌體組數(shù)據(jù)分析主流的方法和思路,并對(duì)涉及到的軟件工具和數(shù)據(jù)庫(kù)進(jìn)行詳細(xì)介紹(圖1)。
圖1 腸道噬菌體組生物信息分析流程Fig.1 Bioinformatics analysis workflow of gut phageome
樣品測(cè)序后得到的原始數(shù)據(jù)(raw data)中包含許多非噬菌體基因組序列,例如構(gòu)建文庫(kù)時(shí)所產(chǎn)生的接頭序列、引物序列和在提取噬菌體過程中殘留的宿主基因等其他非病毒基因,以及由于測(cè)序錯(cuò)誤而產(chǎn)生的低質(zhì)量序列,非目標(biāo)基因序列的存在會(huì)影響后續(xù)的下游分析,為避免分析結(jié)果受到影響,需要將這些序列去除。最常見的質(zhì)量分析評(píng)估軟件為FastQC,在Windows、Linux和Mac操作系統(tǒng)中均可使用,F(xiàn)astQC是基于Java所編譯的,輸出的結(jié)果以網(wǎng)頁(yè)HTML的形式呈現(xiàn)。通過質(zhì)量評(píng)估得出的結(jié)果對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理。Cutadapt[13]是常用的數(shù)據(jù)預(yù)處理軟件,可以去除接頭序列和超出指定范圍長(zhǎng)度的序列以及低質(zhì)量序列(序列中含有較多的“N”),支持FASTA和FASTQ格式的文件輸入和輸出。在研究過程中常使用Minion[14]預(yù)測(cè)原始數(shù)據(jù)中的未知接頭序列,其默認(rèn)輸入格式為FASTQ,需要將預(yù)測(cè)結(jié)果通過NCBI上的BLASTN與核酸數(shù)據(jù)庫(kù)進(jìn)行比對(duì),確定其為生物學(xué)序列后再使用Cutadapt將其除去。AfterQC[15]是用Python開發(fā)的質(zhì)控軟件,可以發(fā)現(xiàn)并糾正絕大部分的錯(cuò)誤序列,并具備高度自動(dòng)化的數(shù)據(jù)過濾功能,還提供了校正重疊區(qū)域錯(cuò)誤堿基以及預(yù)估序列錯(cuò)誤率的功能,AfterQC可以自動(dòng)檢測(cè)和設(shè)置所有選項(xiàng),大多數(shù)情況下的運(yùn)行過程不需要添加參數(shù)和選項(xiàng),方便研究人員使用。Trimmomatic[16]是適用于Illumina測(cè)序數(shù)據(jù)的質(zhì)量控制過濾工具,常作為功能性軟件嵌合在16S擴(kuò)增子測(cè)序分析流程中[17],也可用于宏基因組數(shù)據(jù)前期的質(zhì)量過濾和序列修剪。Fastp[18]是同時(shí)具備FastQC、Cutadapt、 Trimmomatic、AfterQC 四款軟件中主要功能的數(shù)據(jù)前處理工具(表1),區(qū)別于前面提到的使用Java和Python編寫的軟件,F(xiàn)astp使用C/C++語(yǔ)言匯編而成,可以實(shí)現(xiàn)多線程運(yùn)行,運(yùn)行速度比同類軟件快2~5倍。
由于樣本中含有一定比例的動(dòng)物宿主基因,所以需要去除宿主基因或其他污染序列,再進(jìn)行后續(xù)分析。通常使用比對(duì)參考基因組的方式識(shí)別其他來源的基因組,使用Bowtie2[19]、BWA[20]、BLAST[21]將數(shù)據(jù)與宿主參考基因組比對(duì),識(shí)別出的污染序列可使用samtools[22-23]工具去除。FastQ Screen[24]同時(shí)包含質(zhì)量控制和去除非病毒來源污染基因組的功能,可以同時(shí)比對(duì)多種不同來源的參考基因組,通過嵌套Bowtie1、Bowtie2、BWA三款序列比對(duì)軟件包來識(shí)別其他污染序列,結(jié)果以文本和圖形兩種形式展現(xiàn)。MultiQC[25]可將所有樣本的輸出信息匯集到一個(gè)表格及圖形文件中,便于研究人員比較樣本間數(shù)據(jù)質(zhì)量差異,在腸道噬菌體的分析中常用于對(duì)數(shù)據(jù)分析流程處理結(jié)果的評(píng)估。Aozan[26]通過嵌套FastQC、MultiQC、FastQ Screen三款工具,可自動(dòng)處理原始數(shù)據(jù)(表2)。
表1 質(zhì)量控制軟件的數(shù)據(jù)輸入輸出格式和特點(diǎn)
表2 原始測(cè)序數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)前處理軟件工具
續(xù)表2
原始序列經(jīng)過質(zhì)量控制及預(yù)處理后得到的短序列需要拼接組裝成較長(zhǎng)的序列(contigs)才能進(jìn)行后續(xù)的物種注釋等下游分析。基因的組裝算法主要分為Comparative組裝和Denovo組裝兩類,Comparative組裝是利用參考數(shù)據(jù)庫(kù)中的同源序列來指導(dǎo)新基因組的構(gòu)建;Denovo組裝是將大量(短或長(zhǎng))DNA片段重新組裝的方法,無需預(yù)先知道這些DNA片段的正確序列或順序,在沒有參考序列的情況下對(duì)未知基因組進(jìn)行序列拼接[28]。由于目前數(shù)據(jù)庫(kù)對(duì)自然界病毒種類的覆蓋率不到20%,許多噬菌體在參考數(shù)據(jù)庫(kù)中很難找到同源物,所以針對(duì)腸道噬菌體宏基因組的研究主要是通過Denovo組裝來進(jìn)行后續(xù)的下游分析。Denovo組裝軟件根據(jù)不同的策略主要分為三類:①基于Greedy策略的組裝,這種方法在早期的基因組研究中比較常見,代表軟件有TIGR[29]、VCAKE[30],此類組裝策略的缺點(diǎn)是在合并reads或contigs的過程中過度注重局部序列最優(yōu)化的選擇而忽視序列之間的整體關(guān)系,從而導(dǎo)致在重復(fù)序列的組裝中會(huì)出現(xiàn)錯(cuò)誤;②基于Overlap-Layout-Consensus策略的組裝,適用于較長(zhǎng)reads的測(cè)序數(shù)據(jù)(Sanger、PacBio、Nanopore),常用的代表軟件有Celera Assembler[31]、Canu[32]、Falcon[33]、Arachne[34]、MIRA[35]。Celera Assembler的出現(xiàn)極大推動(dòng)了基因組學(xué)的研究,多細(xì)胞生物的第一個(gè)全基因組霰彈槍測(cè)序序列[36]和人類個(gè)體第一個(gè)二倍體序列[37]就是由Celera Assembler組裝完成的。Canu是Celera Assembler的一個(gè)分支,適用于高噪聲的單分子測(cè)序(PacBio RSII和Oxford Nanopore)。Falcon適用于復(fù)雜基因組的組裝。MIRA和Arachne支持拼接組裝全基因組霰彈槍序列;③基于DeBruijnGraph策略的組裝,適用于序列長(zhǎng)度較短的Illumina等二代測(cè)序數(shù)據(jù),是分析腸道噬菌體組中最常用的一種組裝策略,常用的軟件有IDBA-UD[38]、SPAdes[39]、Megahit[40]、SOAPdenovo2[41]、SKESA[42]。IDBA-UD適用于組裝測(cè)序深度不均勻的短讀長(zhǎng)序列,使用多個(gè)深度相對(duì)閾值來過濾低深度和高深度區(qū)域的錯(cuò)誤k-mers,以及采用雙端局部組裝技術(shù)解決低深度短重復(fù)區(qū)域的分支問題,準(zhǔn)確性要高于其他同類的短序列組裝軟件,但資源消耗較高。Megahit采用了簡(jiǎn)潔版的DeBruijngraph算法,在運(yùn)行時(shí)間和內(nèi)存需求方面相對(duì)于其他同類組裝軟件具有優(yōu)勢(shì),適用于組裝大型復(fù)雜的宏基因組數(shù)據(jù),在大量樣本混合組裝方面優(yōu)勢(shì)明顯,運(yùn)行速度很快,對(duì)硬件設(shè)備資源的消耗少(需要運(yùn)行內(nèi)存約30 G)。SOAPdenovo常用來組裝許多大型真核生物基因組,也可用于細(xì)菌和病毒基因組的組裝,SOAPdenovo2在SOAPdenovo的基礎(chǔ)上改進(jìn)了糾錯(cuò)算法,減少DeBruijnGraph構(gòu)造過程中的內(nèi)存消耗,在contigs組裝中能夠解析較長(zhǎng)的重復(fù)區(qū)域,并且組裝得到的contigs數(shù)量較多,增加了組裝長(zhǎng)度和scaffolding的覆蓋范圍,適用于較大基因組的短序列組裝,組裝速度快,但是錯(cuò)誤率較高。SPAdes是應(yīng)用最廣泛、各項(xiàng)指標(biāo)參數(shù)最突出的組裝工具,提供了很多樣品類型的分析技術(shù),當(dāng)前版本適用于Illumina和IonTorrent測(cè)序數(shù)據(jù),并且支持PacBio、Nanopore和Sanger測(cè)序數(shù)據(jù)的混合組裝,SPAdes由八種不同的組裝流程包構(gòu)成,用于宏基因組和宏轉(zhuǎn)錄組的組裝,可以從宏基因組數(shù)據(jù)集中組裝質(zhì)粒和生物合成基因簇,其中內(nèi)嵌的metaSPAdes[43]包是目前宏基因組領(lǐng)域組裝指標(biāo)較好的軟件,組裝得到的contigs數(shù)較多,不足之處是拼接時(shí)間較長(zhǎng),運(yùn)行過程設(shè)備的資源消耗較高,需要較大的運(yùn)行內(nèi)存(約250 G),適用于對(duì)腸道噬菌體組進(jìn)行拼接。SKESA是近幾年新開發(fā)的組裝軟件,適用于Illumina測(cè)序數(shù)據(jù)的組裝,可以過濾污染序列,得到的contigs具有較高的質(zhì)量和連續(xù)性,其運(yùn)行速度相較于SPAdes、MEGAHIT有明顯的提升,組裝得到的N 50平均長(zhǎng)度高于上述常用的兩種拼接軟件,并且組裝錯(cuò)誤率較低,現(xiàn)階段主要用于拼接SRA數(shù)據(jù)庫(kù)中的微生物基因組,并且嵌套于Pathogen Detection Project(PDP)分析流程中。序列組裝完成后通常需要評(píng)估組裝質(zhì)量,常用的工具有QUAST[44]、MetaQUAST、CheckV。QUAST支持FASTA格式的contigs和參考序列以及FASTQ、SAM和BAM格式[45]的數(shù)據(jù),QUAST融合了現(xiàn)有軟件(Plantagora、 GAGE、 GeneMark.hmm[46]、GlimmerHMM[47])的質(zhì)量度量方法,并對(duì)其進(jìn)行了擴(kuò)展,既可以通過比對(duì)參考基因組來評(píng)估已知物種的組裝質(zhì)量,也可以計(jì)算評(píng)估缺少參考基因組的未知物種,評(píng)估結(jié)果以圖表的形式輸出。MetaQUAST[48]是在QUAST基礎(chǔ)上衍生出的更加先進(jìn)的宏基因組組裝評(píng)估軟件,可以同時(shí)比對(duì)多個(gè)參考基因,并制作多個(gè)基因組的組裝質(zhì)量評(píng)估圖表,在分析評(píng)估常見的未知物種時(shí),會(huì)自動(dòng)檢測(cè)并從NCBI數(shù)據(jù)庫(kù)中下載相近的同源參考序列以提高評(píng)估準(zhǔn)確性,可以檢測(cè)嵌合序列并報(bào)告“種間裝配錯(cuò)誤”。CheckV[49]可以自動(dòng)評(píng)估宏病毒組組裝的完整性和病毒組single-contig中的宿主污染情況,通常將CheckV與MetaQUAST結(jié)合使用以準(zhǔn)確評(píng)估噬菌體組的組裝質(zhì)量(表3)。
表3 病毒基因組的拼接組裝和評(píng)估序列組裝質(zhì)量工具
組裝后的基因組需要確定其是否為噬菌體序列,因此需要注釋和篩選出病毒基因組,對(duì)噬菌體組進(jìn)行系統(tǒng)分類和注釋是功能分析的關(guān)鍵步驟,也是研究腸道噬菌體的重要問題[50]。系統(tǒng)分類和注釋的方法根據(jù)原理不同可分為兩類,一類是基于將序列或組裝得到的contigs與參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì),常用BLAST中的tBLASTx、BLASTn、BLASTx[51]工具對(duì)序列進(jìn)行比對(duì)注釋,或?qū)⒔M裝得到的scaffolds與NCBI中的Refseq virus數(shù)據(jù)庫(kù)進(jìn)行比對(duì)(ftp://ftp.ncbi.nlm.nih.gov/refseq/release/viral)。國(guó)際病毒分類委員會(huì)(ICTV)存儲(chǔ)了病毒分類、分類單元名稱和相關(guān)的宏病毒組數(shù)據(jù),包括每個(gè)已命名物種的示例病毒信息,ICTV官方網(wǎng)站(https://talk.ictvonline.org/)內(nèi)含病毒分類數(shù)據(jù)庫(kù),對(duì)每種經(jīng)過定義的病毒鏈進(jìn)行了完整的描述[52]。pVOGs[53](Prokaryotic Virus Orthologous Groups)數(shù)據(jù)庫(kù)包含近3 000個(gè)完整的原核宿主病毒基因組(超過97%為噬菌體)和9 518個(gè)直系同源組,該數(shù)據(jù)庫(kù)可以應(yīng)用于分析已知噬菌體的進(jìn)化分類、了解病毒蛋白家族的歷史、噬菌體基因組的重建以及幫助特征不佳的基因組注釋同源基因。IMG/VR[54](The Integrated Microbial Genome/Virus)是目前最大的致力于研究病毒組學(xué)的公共數(shù)據(jù)管理和分析平臺(tái),最新版本的IMG/VR包含18 373個(gè)已培養(yǎng)和2 314 329個(gè)未培養(yǎng)的病毒基因組,可以進(jìn)行基因組的注釋以及預(yù)測(cè)宿主細(xì)菌分類,支持用戶根據(jù)基因組特征或序列相似性高效地瀏覽、搜索和選擇未培養(yǎng)的病毒基因組。PHASTER[55]是用于對(duì)細(xì)菌和質(zhì)粒中的前噬菌體進(jìn)行快速鑒定和注釋的網(wǎng)頁(yè)服務(wù)器,輸入文件支持FASTA格式的原始核酸序列或GenBank格式的已注釋基因組數(shù)據(jù),也可以通過數(shù)據(jù)庫(kù)中的序列編號(hào)對(duì)相應(yīng)參考序列進(jìn)行分析,分析結(jié)果以圖表的形式直觀展現(xiàn),PHASTER提供用戶友好型的圖形交互界面便于研究人員使用,不足之處是單次上傳的文件大小不能超過40 M,需要使用腳本將FASTA文件分為多個(gè)小文件,并且網(wǎng)頁(yè)服務(wù)器運(yùn)行不穩(wěn)定。
由于噬菌體基因組系統(tǒng)發(fā)育受到類群內(nèi)廣泛的水平基因轉(zhuǎn)移和基因組模塊化的損害,導(dǎo)致環(huán)境樣本中大量的噬菌體顆粒復(fù)雜化增加,使得在參考數(shù)據(jù)庫(kù)中查找噬菌體的同源序列變得非常困難[56],并且相關(guān)數(shù)據(jù)庫(kù)包含的信息有限,采用同源序列比對(duì)的方法會(huì)有大量序列被標(biāo)記為“未知”[57]。為解決這些難題,許多分析工具使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的算法來進(jìn)行病毒的系統(tǒng)分類和注釋,有效解決了基于參考數(shù)據(jù)庫(kù)和同源序列比對(duì)的方法不能從宏基因組數(shù)據(jù)中識(shí)別未知病毒或短病毒序列的問題。Prophage Hunter[58]提供一站式的網(wǎng)絡(luò)服務(wù),從細(xì)菌中提取原噬菌體基因組并評(píng)估其活性,識(shí)別系統(tǒng)遺傳學(xué)相關(guān)的噬菌體,并注釋噬菌體蛋白功能,Prophage Hunter在建庫(kù)的過程中采用了基于序列相似性的搜索和噬菌體遺傳特征的機(jī)器學(xué)習(xí)分類算法,能夠識(shí)別參考數(shù)據(jù)庫(kù)之外的未知噬菌體。更多的宏基因組功能注釋方法可參考Prakash等[50]的文章。MARVEL[59]采用隨機(jī)森林機(jī)器學(xué)習(xí)的方法來預(yù)測(cè)篩選宏基因組數(shù)據(jù)中的雙鏈DNA噬菌體,篩選結(jié)果具有較高的準(zhǔn)確性。RNN-VirSeeker[60]是基于長(zhǎng)短期記憶網(wǎng)絡(luò)模型構(gòu)建的病毒識(shí)別軟件,模型通過數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,軟件可以自動(dòng)查詢基因組的高級(jí)特征,并根據(jù)softmax層的評(píng)分來預(yù)測(cè)病毒序列,在識(shí)別篩選較短的病毒序列(<500 bp)和人體腸道宏噬菌體組時(shí)具有較高的準(zhǔn)確性。VirSorter[61]是基于隱馬爾科夫模型(Hidden Markov model,HMM)建立的,能夠以較高的準(zhǔn)確性檢測(cè)多種類型微生物的較短(3 kb)組裝序列(contigs)中的病毒信號(hào),使用RefSeqABVir或Viromes[62]作為參考數(shù)據(jù)庫(kù)。VIBRANT[63]使用混合機(jī)器學(xué)習(xí)和蛋白質(zhì)相似性方法,從宏基因組組裝序列中表征病毒群落功能,突出病毒輔助代謝基因和代謝途徑,利用蛋白質(zhì)特征的神經(jīng)網(wǎng)絡(luò)和新開發(fā)的v-score度量標(biāo)準(zhǔn),可以最大限度地識(shí)別裂解噬菌體基因組,包括高度多樣化的噬菌體組。病毒和宿主有明顯不同的k-mer特征,通過基因組k-mer頻率分布來發(fā)掘病毒基因是常用的篩選腸道噬菌體組的分類鑒定方法,這類方法的代表軟件是VirFinder[64],它是第一個(gè)使用k-mer頻率的機(jī)器學(xué)習(xí)方法來篩選病毒序列。ViraMiner[65]包含了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的兩個(gè)分支,用于檢測(cè)原始宏基因組contigs中病毒模式和模式頻率,可以從不同人類樣本的原始宏基因組序列中檢測(cè)噬菌體序列。DeepVirFinder[66]同樣采用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法來自動(dòng)學(xué)習(xí)病毒基因組特征,并同時(shí)基于這些基因組特征建立預(yù)測(cè)模型來判斷序列是否源自噬菌體基因組,在研究分析中,通常將MARVEL與DeepVirFinder組合使用的準(zhǔn)確性和覆蓋率較高(表4)。
表4 類病毒基因組的篩選、系統(tǒng)分類注釋軟件以及常用的病毒數(shù)據(jù)庫(kù)
腸道噬菌體對(duì)相應(yīng)宿主細(xì)菌群落的調(diào)節(jié)和生化作用會(huì)直接或間接的影響哺乳動(dòng)物生理健康,了解噬菌體-宿主的感染性,對(duì)于從微生物群系出發(fā)理解噬菌體對(duì)細(xì)胞生命的影響以及它們作為腸道生態(tài)系統(tǒng)的重要組成部分至關(guān)重要。研究人員發(fā)現(xiàn)整合到宿主基因組的溶原噬菌體擁有與宿主細(xì)菌tRNA基因完全匹配的附著位點(diǎn)[67],因此Bellas等[68]將噬菌體基因組scaffolds通過BLASTN比對(duì)到tRNADB-CE數(shù)據(jù)庫(kù)中,用匹配tRNA的方法在門或綱的水平上推測(cè)宿主細(xì)菌。Boeckaerts等[69]通過構(gòu)建受體結(jié)合蛋白(RBP)序列數(shù)據(jù)庫(kù),使用機(jī)器學(xué)習(xí)的方法在種水平上預(yù)測(cè)噬菌體的宿主細(xì)菌。Young等[70]結(jié)合噬菌體基因組的k-mer組成和蛋白結(jié)構(gòu)域,開發(fā)了一種新的預(yù)測(cè)宿主細(xì)菌的計(jì)算框架,通過研究噬菌體基因組的核苷酸、氨基酸特性和蛋白質(zhì)結(jié)構(gòu)域等特征,并結(jié)合這些互補(bǔ)特征,提高宿主預(yù)測(cè)的準(zhǔn)確性,認(rèn)為感染同一宿主的噬菌體之間進(jìn)化關(guān)系所產(chǎn)生的系統(tǒng)發(fā)育信號(hào)也可以被預(yù)測(cè),這是由于在共同進(jìn)化過程中盡管發(fā)生了頻繁的宿主切換,但病毒和宿主系統(tǒng)發(fā)育樹傾向于一致。Villarroel等[71]開發(fā)了HostPhinder工具,該工具通過比較k-mers,根據(jù)基因組相似性預(yù)測(cè)噬菌體的細(xì)菌宿主,HostPhinder支持交互式網(wǎng)站服務(wù)。Ahlgren等[72]利用基于病毒和宿主寡核苷酸頻率模式來預(yù)測(cè)給定病毒的宿主細(xì)菌,并且提供了VirHostMatcher程序用于計(jì)算寡核苷酸頻率(ONF)分?jǐn)?shù)以及結(jié)果的可視化。Galiez等[73]開發(fā)的WIsH軟件使用齊次馬爾可夫模型(Homogeneous Markov Model)預(yù)測(cè)噬菌體contigs中的細(xì)菌宿主,WIsH可以快速準(zhǔn)確的預(yù)測(cè)短噬菌體序列的宿主。Leite等[74-75]基于噬菌體和宿主細(xì)菌結(jié)構(gòu)域相互作用的得分情況和蛋白質(zhì)一級(jí)結(jié)構(gòu)信息,應(yīng)用機(jī)器學(xué)習(xí)的方法預(yù)測(cè)相應(yīng)宿主細(xì)菌。Lu等[76]推出了原核病毒宿主預(yù)測(cè)器(Prokaryotic Virus Host Predictor,PHP),利用病毒和宿主基因組序列之間的k-mer頻率差異作為特征來預(yù)測(cè)原核病毒,PHP是使用高斯模型構(gòu)建的交互式網(wǎng)頁(yè)服務(wù)器,輸入文件支持FASTA格式的純核酸序列。相關(guān)機(jī)器學(xué)習(xí)的方法在識(shí)別噬菌體宿主細(xì)菌方面的應(yīng)用研究請(qǐng)參考Nami等[77]的文章。也有學(xué)者通過單細(xì)胞病毒熒光標(biāo)記的實(shí)驗(yàn)方法來預(yù)測(cè)和鑒別人類腸道中噬菌體相應(yīng)的宿主細(xì)菌[78],而生物信息軟件利用噬菌體和宿主細(xì)菌之間共有的生物特征或生物大分子模式通過機(jī)器學(xué)習(xí)的方法來預(yù)測(cè)宿主細(xì)菌,相較于實(shí)驗(yàn)方法可以在短時(shí)間內(nèi)大批量分析鑒別多個(gè)樣本中的噬菌體宿主細(xì)菌,提高研究效率,避免實(shí)驗(yàn)操作中出現(xiàn)的誤差。
系統(tǒng)發(fā)育分析用于研究基因或物種之間的歷史關(guān)系,并以分支圖的形式描述這些關(guān)系,稱為系統(tǒng)發(fā)育樹(Phylogenetic analysis)。構(gòu)建系統(tǒng)發(fā)育樹常用的軟件有MEGA[79]、ggtree[80]、FastTree[81]、Cytoscape[82],數(shù)理統(tǒng)計(jì)分析及可視化展現(xiàn)通常使用R語(yǔ)言來完成,常用的R包有g(shù)gplot2、ggplot、ggiraph、ggfortify,有關(guān)使用R語(yǔ)言進(jìn)行數(shù)據(jù)分析的詳細(xì)內(nèi)容可參考Chan[83]的文章。IMP[84](Integrated Meta-Omics Pipeline)是基于Denovo組裝的開源生物信息分析流程,可對(duì)多組學(xué)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化、自動(dòng)化、可重復(fù)的大規(guī)模集成分析,IMP嵌套了多種生物信息分析工具用于實(shí)現(xiàn)流程一體化運(yùn)行,包含的功能有原始數(shù)據(jù)的預(yù)處理、宏基因組或宏轉(zhuǎn)錄組數(shù)據(jù)的迭代共組裝、微生物群落結(jié)構(gòu)和功能的分析、自動(dòng)裝箱分類以及基于基因組特征的可視化展現(xiàn)(表5)。
表5 預(yù)測(cè)相應(yīng)宿主細(xì)菌和構(gòu)建系統(tǒng)發(fā)育樹的軟件工具
腸道內(nèi)存在大量噬菌體,它們?cè)谡{(diào)節(jié)腸道微生物群落動(dòng)態(tài)平衡,動(dòng)物宿主的生理機(jī)能與免疫系統(tǒng)中發(fā)揮著至關(guān)重要的作用。隨著高通量測(cè)序技術(shù)的發(fā)展以及相應(yīng)生物信息分析軟件的開發(fā)與應(yīng)用,使許多腸道病毒基因組數(shù)據(jù)可以被獲取,相關(guān)數(shù)據(jù)庫(kù)可以覆蓋種類更加豐富的病毒基因組,如GPD、ICTV、pVOGs、MG/VR、Viromes等數(shù)據(jù)庫(kù)的出現(xiàn),讓人們對(duì)腸道噬菌體以及其對(duì)腸道菌群和宿主生理健康的影響有了更廣泛的認(rèn)識(shí)。本文主要對(duì)腸道噬菌體宏基因組的分析流程和所需的相關(guān)工具軟件以及數(shù)據(jù)庫(kù)進(jìn)行綜述。機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)算法的興起,使得腸道噬菌體組的分析不再僅局限于使用參考數(shù)據(jù)庫(kù)和序列比對(duì)的方法,但是對(duì)噬菌體功能注釋和篩選的準(zhǔn)確性要低于序列比對(duì)得出的結(jié)果。并且宏基因組的數(shù)據(jù)量一般較大,在一些分析步驟中(如序列拼接組裝和序列比對(duì))會(huì)占用較大的內(nèi)存和主存(RAM)空間,硬件配置較低的計(jì)算機(jī)在運(yùn)行過程中會(huì)因此報(bào)錯(cuò),且運(yùn)行時(shí)間較長(zhǎng)。病毒基因變異性強(qiáng),只依據(jù)機(jī)器學(xué)習(xí)算法篩選噬菌體基因組或?qū)ζ溥M(jìn)行功能分析會(huì)有較大的誤差。因?yàn)樵S多腸道細(xì)菌不能通過傳統(tǒng)的體外培養(yǎng)技術(shù)存活,所以這些腸道細(xì)菌對(duì)應(yīng)的噬菌體無法有效分離純化,進(jìn)而造成運(yùn)用傳統(tǒng)的分離-純化-測(cè)序的研究思路分析噬菌體存在一定的局限性。腸道噬菌體組學(xué)另辟蹊徑,避開分離純化這個(gè)步驟,直接分析腸道噬菌體的結(jié)構(gòu)和組成,具有一定的先進(jìn)性,但是需要將生物信息分析與實(shí)驗(yàn)觀察分析相結(jié)合,以提高結(jié)果的準(zhǔn)確性。目前大多數(shù)噬菌體的功能特性仍然無法得到解釋,測(cè)序方法得到的噬菌體組序列大部分是新序列,噬菌體組的分類和功能注釋依賴于病毒序列數(shù)據(jù)庫(kù),而數(shù)據(jù)庫(kù)中記錄的病毒信息是通過實(shí)驗(yàn)培養(yǎng),質(zhì)譜分析和分子生物學(xué)研究等得出的結(jié)論,其宿主范圍,詳細(xì)的生物功能和形態(tài)記錄只能通過實(shí)驗(yàn)培養(yǎng)噬菌體來明確[86],體外培養(yǎng)噬菌體技術(shù)的限制導(dǎo)致現(xiàn)有的數(shù)據(jù)庫(kù)無法對(duì)許多新噬菌體組序列進(jìn)行分類和功能注釋,這也是噬菌體組研究目前面臨的瓶頸,并且需要開發(fā)通過更加精簡(jiǎn)的算法和腳本構(gòu)建而成的生物信息分析工具,以減少軟件在運(yùn)行過程中對(duì)硬件的消耗。