李相辰 柳正衛(wèi) 陸燁瑋 朱業(yè)蕾 張明五 蔣錦琴 彭小軍 王煒欣 高俊順 王曉萌
據(jù)世界衛(wèi)生組織估計(jì),2020年全世界約有990萬(wàn)例新發(fā)結(jié)核病患者,因結(jié)核病死亡的數(shù)量更是高達(dá)150萬(wàn)例[1]。為了應(yīng)對(duì)嚴(yán)峻的結(jié)核病疫情,世界衛(wèi)生組織發(fā)布了“終止結(jié)核病戰(zhàn)略(2016—2035年)”的目標(biāo),聯(lián)合國(guó)召開(kāi)了結(jié)核病高級(jí)別會(huì)議,形成了旨在加強(qiáng)終止結(jié)核病的行動(dòng)和投資的結(jié)核病政治宣言。但目前距離該目標(biāo)仍有很大差距,亟需研發(fā)新的技術(shù)和方法[2]。
自1998年首個(gè)結(jié)核分枝桿菌(Mycobacteriumtuberculosis, MTB)標(biāo)準(zhǔn)菌株(H37Rv)的基因組完成圖公布至今[3],全基因組測(cè)序(whole genome sequencing,WGS)技術(shù)經(jīng)歷了從第一代的Sanger測(cè)序到現(xiàn)在的第二代高通量短讀長(zhǎng)測(cè)序和第三代的單分子長(zhǎng)片段測(cè)序的快速發(fā)展[4]。隨著高通量測(cè)序技術(shù)的成熟和測(cè)序成本的降低,WGS技術(shù)已被廣泛應(yīng)用于MTB的研究中,產(chǎn)生了海量的基因組數(shù)據(jù),但對(duì)數(shù)據(jù)的深入分析面臨技術(shù)挑戰(zhàn)[5]。生物信息學(xué)作為一門(mén)將生物學(xué)、計(jì)算機(jī)科學(xué)及統(tǒng)計(jì)學(xué)結(jié)合起來(lái)的交叉學(xué)科,在生物數(shù)據(jù)的獲取、管理、分析和解釋方面都具有巨大優(yōu)勢(shì)[6]。為此,筆者對(duì)MTB基因組的生物信息學(xué)分析方法和應(yīng)用進(jìn)行綜述,為同領(lǐng)域研究者更方便、更靈活的開(kāi)展數(shù)據(jù)分析和快速選擇研究分析工具提供參考。
H37Rv標(biāo)準(zhǔn)株的基因組全長(zhǎng)約400萬(wàn)個(gè)堿基,包含3906個(gè)蛋白質(zhì)編碼基因,可編碼參與脂質(zhì)代謝的各種酶類(lèi),以及2個(gè)具有重復(fù)結(jié)構(gòu)的富含甘氨酸的蛋白質(zhì)家族PE和PPE,后兩者是MTB與其他細(xì)菌的區(qū)別之處[3]。人感染的MTB具有高度的克隆性,根據(jù)單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)的差異和缺失可以將感染人類(lèi)的結(jié)核分枝桿菌復(fù)合群分為7個(gè)主要的系統(tǒng)發(fā)育譜系,即第1至第7譜系[7]。MTB在人體內(nèi)的基因組突變速率大約為0.04~2.2突變·基因組-1·年-1,不同譜系間有明顯的差異[8]。由于MTB基因組的單克隆性,并且不同菌株間很難發(fā)生重組或者基因水平轉(zhuǎn)移,因此,其主要通過(guò)核心基因或啟動(dòng)子的自發(fā)變異獲得耐藥性[9]。目前已證實(shí)的耐藥靶基因有rpoB(利福平)、katG和inhA(異煙肼)、rpsl和rrs(鏈霉素)、embB(乙胺丁醇)、gyrA和gyrB(氟喹諾酮類(lèi))和pncA(吡嗪酰胺)等[10]。
MTB的基因組研究主要分為以下5個(gè)基本步驟,主要涉及MTB樣品的制備、WGS數(shù)據(jù)產(chǎn)出、數(shù)據(jù)質(zhì)控與預(yù)處理、變異檢測(cè),以及數(shù)據(jù)分析和可視化等內(nèi)容。
1.MTB樣品的制備:從痰液樣本培養(yǎng)物中提取MTB的DNA。
2.WGS數(shù)據(jù)產(chǎn)出:抽提樣品的DNA后,通過(guò)構(gòu)建測(cè)序文庫(kù)和進(jìn)行高通量測(cè)序來(lái)獲得WGS數(shù)據(jù)。
3.數(shù)據(jù)質(zhì)控與預(yù)處理:對(duì)測(cè)序所得原始數(shù)據(jù)(raw data)進(jìn)行質(zhì)量控制,重點(diǎn)關(guān)注測(cè)序數(shù)據(jù)的總測(cè)序數(shù)據(jù)量、高質(zhì)量測(cè)序數(shù)據(jù)比例(Q30)和GC含量等指標(biāo),以滿(mǎn)足下游分析的要求。數(shù)據(jù)預(yù)處理包括去除在測(cè)序和建庫(kù)過(guò)程中人為添加的引物、接頭,以及測(cè)序過(guò)程中產(chǎn)生的低質(zhì)量序列等。建議采用比對(duì)人類(lèi)和其他微生物基因組的方式去除可能的宿主和非MTB序列,再將獲得的純凈序列(clean data)與參考基因組進(jìn)行比對(duì)[5],并主要使用比對(duì)率(測(cè)序數(shù)據(jù)中成功比對(duì)到參考基因組的比例)、覆蓋率(參考基因組被成功比對(duì)的比例)以及平均測(cè)序深度這三個(gè)指標(biāo)對(duì)比對(duì)結(jié)果進(jìn)行質(zhì)控。
4.變異檢測(cè):基于比對(duì)結(jié)果進(jìn)行SNP、插入/缺失(insertion-deletion,indel)和結(jié)構(gòu)變異(structure variation,SV)等基因組變異的檢測(cè),并基于參考基因組對(duì)變異進(jìn)行注釋。PE/PPE基因家族、其他重復(fù)基因和可移動(dòng)遺傳元件等區(qū)域的變異檢測(cè)錯(cuò)誤率較高,通常在后續(xù)分析中被排除[5]。
5.數(shù)據(jù)分析和可視化:基于基因組變異信息,可以進(jìn)一步鑒定MTB的譜系或亞種、預(yù)測(cè)菌株的耐藥性、監(jiān)測(cè)MTB的傳播等。并可以選擇合適的圖形將數(shù)據(jù)可視化,提高結(jié)果的可讀性,有利于生物學(xué)規(guī)律的觀察和總結(jié)。
WGS數(shù)據(jù)分析需要在專(zhuān)門(mén)的軟件環(huán)境下開(kāi)展,熟悉常用的編程語(yǔ)言能夠幫助研究者更好地利用現(xiàn)有工具分析數(shù)據(jù)。目前,本領(lǐng)域的分析工具主要集中在Shell和Python這兩種語(yǔ)言環(huán)境下運(yùn)行。這兩類(lèi)語(yǔ)言環(huán)境下有很多可利用的生物信息學(xué)軟件,研究者只需要通過(guò)極少的代碼串聯(lián)現(xiàn)有的工具就可以實(shí)現(xiàn)數(shù)據(jù)分析的自動(dòng)化。對(duì)于高通量測(cè)序數(shù)據(jù)的處理則需要使用高性能的服務(wù)器,Linux是其最常用的服務(wù)器操作系統(tǒng)。
Shell語(yǔ)言是Linux操作系統(tǒng)的命令和程序設(shè)計(jì)語(yǔ)言,幾乎所有的生物信息學(xué)分析工具都可以在Linux服務(wù)器的Shell環(huán)境下運(yùn)行,而在其他系統(tǒng)環(huán)境中搭建分析流程則非常困難。如果研究者的電腦運(yùn)行的是Windows操作系統(tǒng),則需要安裝遠(yuǎn)程訪問(wèn)Linux服務(wù)器的軟件,如Xshell或PuTTY等。如果是Mac OS系統(tǒng),研究者就需要使用系統(tǒng)自帶的Terminal程序?qū)崿F(xiàn)遠(yuǎn)程訪問(wèn)Linux服務(wù)器。
Snakemake是基于Python的一款流程搭建工具,繼承了Python語(yǔ)言簡(jiǎn)單易讀、邏輯清晰、便于維護(hù)的特點(diǎn),同時(shí)還支持Python語(yǔ)法,非常適合新的使用者[11]。Snakemake的基本組成單位叫“規(guī)則”,即rule;每個(gè)rule里面又有多個(gè)元素(input、output、run等)。它的執(zhí)行邏輯就是將各個(gè)rule利用input/output 連接起來(lái),形成一個(gè)完整的工作流,即當(dāng)檢測(cè)到input,就執(zhí)行相應(yīng)rule;檢測(cè)到output,就跳過(guò)相應(yīng)rule,根據(jù)這一規(guī)則,Snakemake還可以實(shí)現(xiàn)斷點(diǎn)續(xù)投。結(jié)合Conda軟件包管理工具,Snakemake可以輕松解決各種軟件安裝的依賴(lài)問(wèn)題。Visual Studio Code是一款免費(fèi)跨平臺(tái)的代碼編輯軟件,支持使用SSH連接Linux服務(wù)器進(jìn)行遠(yuǎn)程開(kāi)發(fā),保持開(kāi)發(fā)與分析工作環(huán)境的一致性。
近年來(lái),隨著高通量測(cè)序技術(shù)的成熟和應(yīng)用,結(jié)核病WGS研究領(lǐng)域的相關(guān)分析方法和工具也取得了快速發(fā)展,大量?jī)?yōu)秀的軟件、流程、在線(xiàn)分析平臺(tái)相繼發(fā)布,對(duì)推動(dòng)本領(lǐng)域的研究做出了貢獻(xiàn)。
原始數(shù)據(jù)需要進(jìn)行數(shù)據(jù)質(zhì)量過(guò)濾,包括過(guò)濾測(cè)序接頭、低質(zhì)量序列、低復(fù)雜度序列、重復(fù)序列等,常用的質(zhì)控和過(guò)濾軟件有fastp[12]和Trimmomatic[13]等。原始測(cè)序數(shù)據(jù)經(jīng)低質(zhì)量序列過(guò)濾后,可用Kraken軟件去除來(lái)源于人和非MTB物種的序列[14]。測(cè)序數(shù)據(jù)經(jīng)過(guò)清理,下一步是將序列定位或比對(duì)到參考基因組上,序列比對(duì)常用BWA[15]和Bowtie[16]等工具,輸出的標(biāo)準(zhǔn)定位文件格式為SAM/BAM??墒褂肧AMtools[17]和Picard[18]軟件來(lái)處理和分析SAM/BAM文件。常用的基因組變異檢測(cè)工具有SAMtools/BCFtools[17]、GATK[18]和freebayes[19]等軟件。檢測(cè)到的所有變異結(jié)果存儲(chǔ)在VCF格式文件中,需要進(jìn)一步結(jié)合質(zhì)量值、測(cè)序深度、重復(fù)性等參數(shù)進(jìn)行過(guò)濾,最終得到可信度高的變異數(shù)據(jù)集。此外,還可以整合多種工具進(jìn)行變異檢測(cè),保留具有高度一致性的變異結(jié)果以進(jìn)一步提高可信度。為了從檢測(cè)到的變異中獲得生物學(xué)功能等方面的信息,可使用SnpEff軟件進(jìn)行變異注釋[20]。最后可以基于參考基因組通過(guò)SAMtools構(gòu)建多個(gè)菌株全部變異的一致性序列,用于后續(xù)的遺傳距離計(jì)算和系統(tǒng)發(fā)育樹(shù)構(gòu)建。
相比于標(biāo)準(zhǔn)基因分型技術(shù),WGS具有更高的鑒別能力,可以根據(jù)SNP的差異和缺失來(lái)精準(zhǔn)識(shí)別MTB菌株的譜系/亞型[21]。同時(shí),WGS可以在全基因組水平上檢測(cè)所有已知耐藥基因的變化信息,其效能已獲得世界衛(wèi)生組織的肯定[22]。國(guó)內(nèi)外研究者開(kāi)發(fā)了幾款自動(dòng)化分析工具,只需導(dǎo)入原始測(cè)序數(shù)據(jù)即可獲得菌株的基因組變異檢測(cè)、譜系鑒定和耐藥性預(yù)測(cè)結(jié)果。本文將重點(diǎn)介紹以下3款近期發(fā)表并被廣泛引用的軟件平臺(tái)。
1.TB-Profiler分析軟件:該軟件由倫敦衛(wèi)生與熱帶醫(yī)學(xué)院的Taane G. Clark教授團(tuán)隊(duì)在2015年發(fā)布[23],同時(shí)提供了網(wǎng)頁(yè)版在線(xiàn)工具以及開(kāi)源的可本地化的命令行版本,可通過(guò)Conda軟件包管理器快速安裝。此外,研究者可根據(jù)需求個(gè)性化地修改TB-Profiler使用的突變數(shù)據(jù)庫(kù),使之納入新發(fā)現(xiàn)的耐藥突變來(lái)提高耐藥檢測(cè)的準(zhǔn)確性。最新版本的TB-Profiler還進(jìn)一步支持了Oxford Nanopore MinION三代測(cè)序平臺(tái)產(chǎn)生的長(zhǎng)片段序列的分析。
2.Mykrobe分析軟件:同樣在2015年,歐洲生物信息中心Zamin Iqbal教授團(tuán)隊(duì)發(fā)布了基于Kmer算法的MTB分析軟件Mykrobe[24],提供了Windows和Mac OS系統(tǒng)的安裝版本,可輕松部署在PC和筆記本電腦上。該軟件同樣免費(fèi)開(kāi)源并且自帶圖形化操作界面,軟件分析速度快且易用性強(qiáng),但下游分析功能略少。
3.SAM-TB分析平臺(tái):該平臺(tái)是由復(fù)旦大學(xué)基礎(chǔ)醫(yī)學(xué)院高謙教授團(tuán)隊(duì)與深圳市慢性病防治中心合作建立的一個(gè)MTB綜合數(shù)據(jù)分析平臺(tái)[25],具有易于訪問(wèn)、界面友好、操作簡(jiǎn)單、功能豐富等優(yōu)點(diǎn)。該平臺(tái)在MTB譜系鑒定和耐藥性預(yù)測(cè)的基礎(chǔ)上,還提供了系統(tǒng)發(fā)育樹(shù)重建、菌株間SNP距離計(jì)算和非結(jié)核分枝桿菌混合感染鑒定等功能。SAM-TB測(cè)序數(shù)據(jù)分析平臺(tái)的建立為我國(guó)WGS技術(shù)在結(jié)核病耐藥和傳播監(jiān)測(cè)網(wǎng)絡(luò)上的建設(shè)提供了重要基礎(chǔ)[26]。
上述工具對(duì)耐藥性的檢測(cè)采用的是直接關(guān)聯(lián)法,即通過(guò)判斷是否存在數(shù)據(jù)庫(kù)中的已知耐藥相關(guān)變異來(lái)判斷是否耐藥。雖然其對(duì)一線(xiàn)抗結(jié)核藥物有很好的預(yù)測(cè)效果,但對(duì)預(yù)測(cè)二線(xiàn)抗結(jié)核藥物則不太理想。近年來(lái),一些基于WGS數(shù)據(jù)的機(jī)器學(xué)習(xí)類(lèi)耐藥預(yù)測(cè)方法被證明能夠快速且準(zhǔn)確地預(yù)測(cè)MTB的耐藥性,同時(shí)能夠發(fā)現(xiàn)新的耐藥位點(diǎn)并有助于解釋耐藥機(jī)制[27-29]。如GenTB是哈佛醫(yī)學(xué)院Maha R. Farhat教授團(tuán)隊(duì)2021年發(fā)布的一種基于神經(jīng)網(wǎng)絡(luò)的結(jié)核病耐藥在線(xiàn)預(yù)測(cè)工具,相較于TB-Profiler和Mykrobe軟件在一線(xiàn)和二線(xiàn)抗結(jié)核藥物耐藥性預(yù)測(cè)效果,其基準(zhǔn)測(cè)試的結(jié)果均有所提升[30]。
高通量測(cè)序技術(shù)的發(fā)展使得快速監(jiān)測(cè)MTB傳播成為可能。WGS技術(shù)可通過(guò)檢測(cè)菌株間SNP差異并結(jié)合分子進(jìn)化算法鑒定其傳播方向和傳播鏈,識(shí)別傳染源和傳播缺失環(huán)節(jié)[31]。鑒于MTB的遺傳多樣性非常低,通常使用5或12個(gè) SNP的差異閾值來(lái)表明流行病學(xué)聯(lián)系[31]。除此之外,研究人員近期還陸續(xù)開(kāi)發(fā)了一些方法來(lái)改進(jìn)WGS技術(shù)對(duì)MTB傳播的探測(cè)效果。PANPASCO軟件是一種基于線(xiàn)性泛基因組圖譜的遺傳距離計(jì)算方法,能夠有效減少不同譜系菌株測(cè)序數(shù)據(jù)比對(duì)的損失率,提高SNP檢測(cè)的分辨率,在多個(gè)數(shù)據(jù)集測(cè)試中表現(xiàn)出比傳統(tǒng)方法更好的傳播探測(cè)效果,具有較好的普適性[32]。PANPASCO也是基于Snakemake軟件的開(kāi)發(fā),適用于大規(guī)模樣本的傳播檢測(cè)。除了基于單一SNP差異閾值的菌株分型之外,Transcluster軟件是一種通過(guò)推測(cè)新的傳播事件來(lái)識(shí)別近期傳播簇的方法,其綜合考慮了菌株的傳播速率、可能發(fā)生傳播的病例采樣時(shí)間的間隔和基因組間SNP的差異數(shù),用以估計(jì)菌株間傳播事件發(fā)生的概率和次數(shù),以此判斷是否具有流行病學(xué)聯(lián)系[33]。
這些基于WGS的方法已被證明比接觸追蹤表現(xiàn)更好,并且較經(jīng)典分型方法(例如可變數(shù)目串聯(lián)重復(fù)序列分型)具有更高的分辨率[34]。在準(zhǔn)確識(shí)別近期傳播簇的基礎(chǔ)上,可以進(jìn)一步結(jié)合分子進(jìn)化方法推測(cè)其內(nèi)部的傳播網(wǎng)絡(luò)(傳播鏈),常用的軟件有SeqTrack[35]和TransPhylo[36]等。SeqTrack是最早的使用整體傳播樹(shù)的構(gòu)建對(duì)研究的樣本群體進(jìn)行傳播網(wǎng)絡(luò)推斷的工具之一,TransPhylo則是在此基礎(chǔ)上加入了對(duì)流調(diào)信息的分析,綜合考慮菌株在宿主體內(nèi)的進(jìn)化情況,從而對(duì)傳播網(wǎng)絡(luò)進(jìn)行推斷。因此,TransPhylo對(duì)樣本數(shù)據(jù)中的流調(diào)信息具有更高的要求[37]。傳播網(wǎng)絡(luò)可以通過(guò)Cytoscape[38]和igraph[39]等軟件進(jìn)行可視化,并結(jié)合病例之間時(shí)空分布和接觸情況進(jìn)一步分析傳播順序和傳播源。
國(guó)內(nèi)外已有較多研究運(yùn)用系統(tǒng)發(fā)育理論并結(jié)合復(fù)雜的進(jìn)化模型與方法,從MTB的遺傳序列中提取流行病學(xué)信息,進(jìn)而重建結(jié)核病流行過(guò)程中病原體時(shí)間、空間甚至表型范圍上的進(jìn)化過(guò)程[40-41]。系統(tǒng)發(fā)育樹(shù)是進(jìn)化研究的核心,主流建樹(shù)軟件眾多,其中MEGA屬于圖形化軟件,因界面友好而被廣泛使用[42],方法包括距離法、最大簡(jiǎn)約法、最大似然法和貝葉斯法,其中距離法又包括最少進(jìn)化法和鄰接法。由于鄰接法建樹(shù)極快,通常用于建樹(shù)嘗試階段,而正式建樹(shù)常選用可靠性高的最大似然法。其他常用的進(jìn)化樹(shù)構(gòu)建軟件還有RAxML[43]、IQ-TREE[44]和FastTree[45]。這三款軟件都是基于最大似然法進(jìn)行系統(tǒng)發(fā)育樹(shù)的構(gòu)建,RAxML和IQ-TREE可以構(gòu)建出更優(yōu)似然值的系統(tǒng)發(fā)育樹(shù),但是需要消耗更多的計(jì)算資源和時(shí)間,而FastTree則可以更加快速地完成系統(tǒng)發(fā)育樹(shù)構(gòu)建,但性能與穩(wěn)定性不如前者[46]。
近年來(lái),隨著新發(fā)和再發(fā)傳染病事件的上升趨勢(shì),一種新型的帶有時(shí)間戳的貝葉斯進(jìn)化樹(shù)正在興起,其節(jié)點(diǎn)和分支帶有病原體可能被引入當(dāng)?shù)貍鞑サ臅r(shí)間,有助于在結(jié)核病暴發(fā)和流行期間實(shí)時(shí)進(jìn)行疫情管理[47]。BEAST是目前最常用的貝葉斯物種分化時(shí)間估計(jì)軟件之一[48]。通過(guò)軟件的圖形界面導(dǎo)入序列、設(shè)置分類(lèi)群、序列收集日期、核苷酸替代模型、分子鐘類(lèi)型、樹(shù)先驗(yàn)?zāi)P筒⒄{(diào)整參數(shù)的權(quán)重,結(jié)合馬爾科夫鏈蒙特卡羅算法采樣,收斂后得到高可靠性的帶分歧時(shí)間的群體進(jìn)化樹(shù)以及分子鐘速率的估計(jì)。最后可利用Evolview[49]或iTOL[50]網(wǎng)站在線(xiàn)進(jìn)行進(jìn)化樹(shù)的可視化和美化。
一些其他領(lǐng)域的分析方法在MTB基因組學(xué)中的研究也得到了推廣和應(yīng)用,如全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)在人類(lèi)疾病相關(guān)基因的鑒定中發(fā)揮了巨大作用[51]。由于已知的耐藥突變位點(diǎn)不能解釋所有耐藥表型,近期GWAS分析也應(yīng)用于MTB研究中,用于大規(guī)模探索SNP與表型之間的關(guān)系[52]。事實(shí)上,關(guān)聯(lián)研究可以使用各種遺傳數(shù)據(jù)類(lèi)型,包括SNP、indel和SV等,以及不同的表型,如菌株毒性[53]和傳播性[54]等。近年來(lái)陸續(xù)有眾多的細(xì)菌GWAS分析工具公布,如基于回歸算法的pyseer[55]和基于收斂算法的hogwash[56]等。基于收斂算法的GWAS分析對(duì)于小樣本數(shù)據(jù)可以發(fā)現(xiàn)更優(yōu)的顯著性結(jié)果,但是對(duì)于克隆群體的效果不佳,同時(shí)對(duì)于大樣本數(shù)據(jù)需要較多的計(jì)算資源[53]。
此外,目前已發(fā)布的用于混合感染的檢測(cè)軟件如MixInfect[57]、QuantTB[58]和SplitStrains[59]等均可用于分辨由多菌株混合感染引發(fā)結(jié)核病的情況。其中,MixInfect是在SNP檢測(cè)結(jié)果的基礎(chǔ)上使用貝葉斯模型進(jìn)行混合感染的分析[57];QuantTB是將待檢測(cè)樣本的測(cè)序數(shù)據(jù)與已經(jīng)搭建好的混合感染代表菌株數(shù)據(jù)庫(kù)進(jìn)行比對(duì)來(lái)評(píng)估樣本的混合感染情況,評(píng)估結(jié)果的準(zhǔn)確性高度依賴(lài)數(shù)據(jù)庫(kù)中的數(shù)據(jù)[58];而SplitStrains則是使用更復(fù)雜的期望最大化算法來(lái)分析樣本的混合感染情況,對(duì)低深度的測(cè)序數(shù)據(jù)以及遺傳距離較近的菌株混合感染具有更優(yōu)的檢測(cè)性能[59]。
通常WGS測(cè)序的原始數(shù)據(jù)應(yīng)在文章發(fā)表時(shí)上傳至NCBI、EBI和DDBJ等國(guó)際數(shù)據(jù)中心。中國(guó)科學(xué)院建立的組學(xué)原始數(shù)據(jù)歸檔庫(kù)(Genome Sequence Archive, GSA)是國(guó)內(nèi)首個(gè)被國(guó)際期刊認(rèn)可的組學(xué)數(shù)據(jù)發(fā)布平臺(tái),填補(bǔ)了我國(guó)相關(guān)數(shù)據(jù)庫(kù)的空白,極大地便利了國(guó)內(nèi)研究者測(cè)序數(shù)據(jù)的遞交、管理和分享[60]。
越來(lái)越多的結(jié)核病研究文章在發(fā)表的同時(shí),會(huì)在Github之類(lèi)的平臺(tái)公開(kāi)分析代碼和測(cè)試數(shù)據(jù),并在研究者的反饋下不斷優(yōu)化和升級(jí),使后續(xù)相關(guān)分析結(jié)果更加合理。筆者基于Snakemake工具開(kāi)發(fā)了一套MTB全基因組測(cè)序數(shù)據(jù)自動(dòng)化分析流程——TBSeqPipe(https://github.com/KevinLYW366/TBSeqPipe)。該流程從原始測(cè)序數(shù)據(jù)出發(fā),可對(duì)MTB樣本進(jìn)行譜系鑒定、耐藥性預(yù)測(cè)、遺傳距離計(jì)算、群體進(jìn)化分析以及混合感染檢測(cè),并最終生成可視化的分析總結(jié)報(bào)告,方便了國(guó)內(nèi)外研究者的使用。
高通量測(cè)序技術(shù)通量的提高和價(jià)格的下降,極大地推動(dòng)了WGS技術(shù)在結(jié)核病分子流行病學(xué)研究中的應(yīng)用[5]。WGS技術(shù)可檢測(cè)完整的MTB基因組,既可以迅速獲得全面、詳細(xì)、準(zhǔn)確的臨床菌株及其耐藥性信息,及時(shí)為臨床用藥及個(gè)體化治療提供指導(dǎo),還可以進(jìn)一步應(yīng)用于MTB微進(jìn)化和分子流行病學(xué)研究,為結(jié)核病精準(zhǔn)防控策略提供重要依據(jù)。盡管如此,現(xiàn)在仍缺乏一致的、國(guó)際公認(rèn)的WGS數(shù)據(jù)分析金標(biāo)準(zhǔn),難以將不同流程間產(chǎn)生的異質(zhì)性很高的檢測(cè)結(jié)果進(jìn)行相互比較[61]。目前,雖然已經(jīng)有一些專(zhuān)門(mén)為MTB基因組學(xué)分析開(kāi)發(fā)的算法和軟件,但仍處于發(fā)展的初級(jí)階段,還有很多有待改進(jìn)的方向,如常用耐藥性檢測(cè)工具僅限于少數(shù)已知的編碼藥物靶向蛋白質(zhì)基因上的關(guān)鍵突變,對(duì)在耐藥機(jī)制中研究較少的二線(xiàn)抗結(jié)核藥物的預(yù)測(cè)結(jié)果較差[62]。提高M(jìn)TB基因組數(shù)據(jù)分析的效率,熟練掌握主流分析的基本思路和常用工具是基礎(chǔ),通過(guò)編程來(lái)實(shí)現(xiàn)分析自動(dòng)化可以極大地提高工作效率和可重復(fù)性。此外,對(duì)已發(fā)表的數(shù)據(jù)進(jìn)行歸納整理、提高可用性以及進(jìn)一步挖掘也十分必要。
利益沖突所有作者均聲明不存在利益沖突
作者貢獻(xiàn)李相辰、柳正衛(wèi)、陸燁瑋和朱業(yè)蕾:文獻(xiàn)檢索、資料收集整理和文稿撰寫(xiě);張明五、蔣錦琴和彭小軍:資料收集整理、文稿修訂和編輯;王煒欣和高俊順:數(shù)據(jù)分析、方法應(yīng)用、資源支持、文稿修訂和編輯;王曉萌:文章概念提出、項(xiàng)目分析、資金支持、初稿撰寫(xiě)、文稿修訂、審核和編輯