陳愛平,凌 華,葉 盛,張擁軍
2019年12月湖北武漢市出現(xiàn)聚集性不明原因肺炎疫情,經(jīng)過中國(guó)疾病預(yù)防控制中心調(diào)查,鑒定出一種新的冠狀病毒,后來被命名為嚴(yán)重急性呼吸綜合征冠狀病毒2(SARS-CoV-2),相關(guān)疾病被命名為2019年冠狀病毒病(COVID-19)[1-2]。COVID-19全球大流行迄今已經(jīng)累計(jì)確診>900萬(wàn)人,死亡超過47萬(wàn)(2020年6月24日)[3]。在全球大流行疫情持續(xù)蔓延的同時(shí),國(guó)內(nèi)外眾多研究機(jī)構(gòu)和實(shí)驗(yàn)室不斷獲得并分享SARS-CoV-2病毒基因組數(shù)據(jù),不斷刷新對(duì)該病毒生物學(xué)特征的全面認(rèn)識(shí)。本文旨在介紹目前SARS-CoV-2基因組流行病學(xué)研究進(jìn)展,以便更加深入地解析病毒基因組信息,全面了解病毒流行和傳播特征,促進(jìn)大流行疫情的防控。
作為第7種能夠感染人類的冠狀病毒,SARS-CoV-2病毒在分類上屬于冠狀病毒科β冠狀病毒屬,基因組為單股正鏈RNA,全長(zhǎng)約30 000核苷酸,編碼10個(gè)蛋白[1]。疫情暴發(fā)之初,由于各種公共數(shù)據(jù)庫(kù)中均無相關(guān)毒株完整的基因組信息,中國(guó)疾病預(yù)防控制中心在鑒定獲得完整的SARS-CoV-2基因組過程中,結(jié)合了Illumina測(cè)序、nanopore測(cè)序以及5′-或3′-cDNA末端快速擴(kuò)增(RACE)片段的毛細(xì)管測(cè)序等多種手段[1]。自第一株SARS-CoV-2基因組序列公開發(fā)布之后,根據(jù)參比毒株基因組序列,國(guó)內(nèi)外不同機(jī)構(gòu)先后推出了基于擴(kuò)增子的毛細(xì)管測(cè)序和高通量測(cè)序方案,以及直接從臨床樣品中進(jìn)行宏基因組測(cè)序分析的方案,例如美國(guó)疾病預(yù)防控制中心(CDC)在4月初將不同測(cè)序平臺(tái)的方案匯總后發(fā)布到github網(wǎng)站(https://github.com/CDCgov/SARS-CoV-2_Sequencing)[4], 美國(guó)加州大學(xué)圣克魯茲分校于5月初上線了SARS-CoV-2基因組瀏覽器 (https://genome.ucsc.edu/covid19.html)[5],以便全球研究人員對(duì)基因組進(jìn)行可視化注釋,推動(dòng)SARS-CoV-2基因組測(cè)序。
隨著SARS-CoV-2感染病例被發(fā)現(xiàn),來自世界各地的相關(guān)基因組數(shù)據(jù)迅速匯集到全球共享流感數(shù)據(jù)倡議組織(GISAID)數(shù)據(jù)庫(kù)EpiCoV,迄今已經(jīng)>55 000條(截至2020年6月24日)[6]。中國(guó)國(guó)家生物信息中心(CNCB)/國(guó)家基因組科學(xué)數(shù)據(jù)中心(NGDC)首先建立了病毒基因組序列信息庫(kù)(https://bigd.big.ac.cn/ncov)[7],中國(guó)國(guó)家微生物科學(xué)數(shù)據(jù)中心發(fā)布“全球冠狀病毒組學(xué)數(shù)據(jù)共享與分析系統(tǒng)”(http://nmdc.cn/coronavirus)[8],旨在促進(jìn)國(guó)內(nèi)外冠狀病毒數(shù)據(jù)的匯集、綜合分析及共享。在世界衛(wèi)生組織(WHO)宣布COVID-19全球大流行之后,英國(guó)一些公共衛(wèi)生實(shí)驗(yàn)室和學(xué)術(shù)機(jī)構(gòu)成立了英國(guó)COVID-19基因組聯(lián)合組織(COG-UK),為當(dāng)?shù)貒?guó)家健康體系(NHS)中心和政府提供大規(guī)??焖倩蚪M測(cè)序[9]。美國(guó)在2020年5月宣布成立由CDC牽頭的全國(guó)基因組聯(lián)合組織(SPHERES), 以便在全國(guó)監(jiān)測(cè)病毒變異,并在全國(guó)、全球范圍及時(shí)分享基因組數(shù)據(jù),參加的機(jī)構(gòu)包括聯(lián)邦、州公共衛(wèi)生實(shí)驗(yàn)室、學(xué)術(shù)機(jī)構(gòu)、國(guó)家實(shí)驗(yàn)室、非贏利研究所等100多個(gè)實(shí)驗(yàn)室[10],以上平臺(tái)獲得的基因組序列同時(shí)跟GISAID數(shù)據(jù)庫(kù)共享。其它國(guó)家也緊急啟動(dòng)了類似計(jì)劃,從全球不同地域感染者檢測(cè)到的病毒基因組序列源源不斷地傳送到GISAID數(shù)據(jù)庫(kù),促進(jìn)了當(dāng)前SARS-CoV-2實(shí)時(shí)基因組流行病學(xué)的實(shí)現(xiàn)。
相對(duì)于其它常見RNA病毒如流感病毒、人免疫缺陷病毒(HIV)等,SARS-CoV-2病毒基因組較大,編碼蛋白更復(fù)雜,生物信息學(xué)分析存在一定難度,尚未建立起約定俗成的分型體系。自疫情暴發(fā)以來,不同研究團(tuán)隊(duì)為了顯示不同來源(如地域、時(shí)間、群體等)病毒株之間的遺傳聯(lián)系,使用過單倍型(haplotype)、型(type)、分支(clade)、譜系(lineage)等術(shù)語(yǔ)[11-14]。
Forster等[11]將疫情初期來自全球的感染者共160株基因組序列進(jìn)行種系發(fā)生網(wǎng)絡(luò)分析,按照氨基酸改變區(qū)分出3種主要變異株,命名為A、B、C三種型(type)。A型最古老,與云南蝙蝠分離株BatCoV RaTG13遺傳關(guān)系最接近。B型主要在東亞,A和C型則主要在歐洲和美洲。A型和B型的差異體現(xiàn)在T8782C和C28144T 兩處突變,前者為無義突變,后者引起一個(gè)亮氨酸突變?yōu)榻z氨酸,而C型病毒與B型差異是G26144T,甘氨酸突變?yōu)槔i氨酸。
GISAID網(wǎng)站在收集、維護(hù)全球毒株基因組數(shù)據(jù)庫(kù)的同時(shí),也有團(tuán)隊(duì)專門從事基因組流行病學(xué)研究。疫情初期每日更新數(shù)據(jù),及時(shí)提供了基于全長(zhǎng)基因組序列的種系發(fā)生分析結(jié)果,以便公眾了解不同來源冠狀病毒之間遺傳聯(lián)系。隨著疫情持續(xù)積累了更多序列數(shù)據(jù),GISAID網(wǎng)站每周提供兩次更新,將毒株劃分為不同的分支(clade)[6]。其中,根據(jù)一些標(biāo)志性突變位點(diǎn),GISAID網(wǎng)站最初分為S和L 2個(gè)分支,分別在基因組8782和28144位點(diǎn)存在2個(gè)緊密聯(lián)系的單核苷酸多樣性(SNPs), 前者導(dǎo)致orf1ab基因無義突變T8517C,后者導(dǎo)致ORF8基因C251T變異,對(duì)應(yīng)氨基酸突變?yōu)镾84L[6,12]。隨后又分為S、G、V分支,分別表示在ORF8蛋白L84S、S蛋白D614G和NS3蛋白G251V的標(biāo)志性突變,以G分支毒株出現(xiàn)頻率最高,不具備上述特征的其余毒株則劃分為O分支(other clade)。將G分支再進(jìn)一步細(xì)分,其中GH分支是在S蛋白D614G突變基礎(chǔ)上同時(shí)具有NS3蛋白Q57H突變,GR分支是在S蛋白D614G突變基礎(chǔ)上同時(shí)存在N蛋白G204R突變。因此,目前GISAID網(wǎng)站存在S、L、V、G、GH、GR和O共7個(gè)分支。
Nextstrain團(tuán)隊(duì)(https://nextstrain.org/)一直致力于實(shí)時(shí)追蹤病原體進(jìn)化[13]。疫情暴發(fā)之后,利用GISAID數(shù)據(jù)庫(kù),Nextstrain網(wǎng)站提供基于全球毒株數(shù)據(jù)的實(shí)時(shí)進(jìn)化樹(https://nextstrain.org/ncov/global)。該團(tuán)隊(duì)命名病毒分支的原則是,當(dāng)具有共同特征的病毒在全球出現(xiàn)頻率達(dá)到20%,即可命名一個(gè)新的分支,以“首次出現(xiàn)年份+字母表中最近的第2個(gè)字母”形式表示,且1個(gè)新的分支應(yīng)當(dāng)與先前分支存在2個(gè)以上突變。目前分為19A、19B、20A、20B、20C共5個(gè)分支。
來自英國(guó)和澳大利亞的學(xué)者提議另外一種動(dòng)態(tài)命名方案,英文全稱為Phylogenetic Assignment of Named Global Outbreak LINeages,簡(jiǎn)稱PANGOLIN方案,與“穿山甲”的英文單詞“pangolin”相同。他們提議以字母開始標(biāo)記主要病毒譜系(lineage),譜系A(chǔ)病毒以Wuhan/WH04/2020 (EPI_ISL_406801)為代表,其ORF1ab基因8782位堿基及ORF8基因28144位堿基與蝙蝠分離株RaTG13一致;譜系B病毒以Wuhan-Hu-1 (Genbank accession MN908947)為代表。進(jìn)一步的劃分則在譜系字母后面加數(shù)字,如譜系A(chǔ).1、譜系B.2等。根據(jù)這個(gè)方案,他們將2685株病毒劃分為5種譜系A(chǔ)(lineage A.1-A.5),8種譜系B(lineage B.1-B.8)[14]。
以上幾種分型體系雖然都是以病毒全長(zhǎng)基因組序列為基礎(chǔ),Nextstrain體系側(cè)重于核苷酸序列差異,GISAID命名主要考慮關(guān)鍵位點(diǎn)標(biāo)志性氨基酸殘基變異。多數(shù)方案都關(guān)注了基因組8782和28144位點(diǎn)的變異,相對(duì)說來,PANGOLIN方案分型更加精細(xì)。根據(jù)近期GISAID網(wǎng)站更新數(shù)據(jù),GISAID體系中的S、L、V、G、GR、GH分支分別與PANGOLIN方案中A、B、B.2、B.1、B.1.1、B.1* 譜系對(duì)應(yīng)[6]。
3.1調(diào)查病毒起源 SARS-CoV-2基因組序列公布之后,學(xué)術(shù)界和社會(huì)公眾都關(guān)注這種新出現(xiàn)病毒的起源。武漢病毒所石正麗團(tuán)隊(duì)報(bào)道,最初發(fā)病的5例COVID-19患者所獲得病毒全長(zhǎng)基因組序列相似,但與2002年出現(xiàn)的嚴(yán)重急性呼吸綜合征冠狀病毒(SARS-CoV)相似性僅為79.6%,而與中國(guó)云南蝙蝠中分離的1株冠狀病毒毒株RaTG13全長(zhǎng)基因組相似達(dá)96%,但二者在刺突蛋白的受體結(jié)合區(qū)域(RBD)存在差異[15]。隨后,對(duì)中國(guó)南方截獲的從馬來西亞走私入境的穿山甲樣品進(jìn)行宏基因組分析,得到的冠狀病毒基因組片段與SARSCoV-2病毒相似,特別是其RBD殘基與疫情相關(guān)SARS-CoV-2非常相似[16]。因此,目前證據(jù)推測(cè)蝙蝠可能充當(dāng)貯存宿主,穿山甲可能為中間宿主。而最近調(diào)查發(fā)現(xiàn),世界各地報(bào)道從部分家貓、狗、動(dòng)物園里的虎、獅以及飼養(yǎng)的水貂等動(dòng)物中發(fā)現(xiàn)感染SARS-CoV-2, 多數(shù)懷疑是通過人-動(dòng)物傳播模式[17]。以上事實(shí)說明其它哺乳動(dòng)物宿主也可能存在SARS-CoV-2相關(guān)病毒,進(jìn)一步調(diào)查哺乳動(dòng)物有助于最終明確該病毒的真正起源[18]。
3.2追蹤病毒傳播路徑 每日不斷更新的SARS-CoV-2基因組數(shù)據(jù)讓實(shí)時(shí)基因組流行病學(xué)分析成為可能,便于及時(shí)追蹤病毒傳播路徑。Deng等[19]通過調(diào)查2020年1月底至2020年3月中加州北部來自9個(gè)郡和游輪的患者共計(jì)36名SARS-CoV-2感染病例的基因組流行病學(xué),根據(jù)與GISAID數(shù)據(jù)庫(kù)中789株進(jìn)行種系發(fā)生分析,顯示這個(gè)期間當(dāng)?shù)刂辽俅嬖?個(gè)不同譜系病毒的隱蔽輸入,包括與華盛頓州疫情相關(guān)的毒株WA1譜系、加州其它郡聚集性病例譜系、歐洲和紐約流行譜系、中國(guó)武漢譜系等。與此相似,研究人員對(duì)紐約市在西奈山健康體系就診(2020年2月29日至2020年3月18日)的COVID-19患者病毒基因組進(jìn)行分析,根據(jù)基因組的遺傳相似性和種系發(fā)生分析結(jié)果(包括截至2020年4月1日GISAID數(shù)據(jù)庫(kù)中2363株毒株序列),發(fā)現(xiàn)自紐約州出現(xiàn)第一例COVID-19病例以來的18天內(nèi),84株病例相關(guān)毒株多數(shù)與未追蹤到的傳播和可能的旅行暴露有關(guān),而且顯示主要來自歐洲和美國(guó)其它地方的多個(gè)、獨(dú)立輸入途徑,同時(shí)也有證據(jù)表明存在社區(qū)傳播的聚集性病例[20]。
3.3評(píng)估核酸檢測(cè)試劑 隨著COVID-19疫情的暴發(fā)和全球大流行,對(duì)患者、疑似感染者或密切接觸者樣品進(jìn)行核酸檢測(cè)成為評(píng)估感染狀態(tài)、患者管理、解除隔離等的關(guān)鍵指標(biāo)。對(duì)于不同機(jī)構(gòu)應(yīng)急研發(fā)的核酸擴(kuò)增體系,根據(jù)早期有限的基因組序列設(shè)計(jì)的引物是否具有足夠的特異性、能否涵蓋不同的病毒分支,一直備受關(guān)注。目前常見的核酸擴(kuò)增體系有德國(guó)Charité體系(靶基因RdRP、 E、N)、中國(guó)CDC體系(靶基因ORF1ab、N)、美國(guó)CDC體系(靶基因?yàn)镹基因3個(gè)區(qū)域)和香港大學(xué)體系(靶基因ORF1b-nsp14、N)。歐盟CDC推出了免費(fèi)資源ECDC PrimerScan,便于顯示基因組中實(shí)時(shí)熒光PCR檢測(cè)體系靶基因區(qū)域的突變(https://primerscan.ecdc.europa.eu/)[21]。GISAID則從疫情暴發(fā)之初,持續(xù)更新相關(guān)靶基因引物區(qū)域突變信息,據(jù)2020年6月23日更新的分析報(bào)告,通過對(duì)33 350個(gè)毒株高質(zhì)量基因組序列數(shù)據(jù)分析,實(shí)時(shí)熒光PCR引物區(qū)突變率在0.02%~1.66%之間,引物3′端5個(gè)堿基的突變率在0.01%~0.44%之間[6]。這些數(shù)據(jù)表明,目前的核酸檢測(cè)體系準(zhǔn)確可靠。
3.4疫苗研發(fā)和治療藥物研制 COVID-19疫情迅速引起全球大流行,也催生了對(duì)疫苗研發(fā)和治療藥物研制的巨大需求。截至2020年6月4日,共有10種候選疫苗處于臨床評(píng)估階段,屬于不同的疫苗平臺(tái)如mRNA疫苗、DNA疫苗、腺病毒/慢病毒/細(xì)菌載體疫苗和滅活疫苗。另外世界衛(wèi)生組織(WHO)報(bào)告有100多種候選疫苗處于臨床前評(píng)估階段[22]。研究發(fā)現(xiàn),病毒刺突蛋白S和核衣殼蛋白N適合作為研制SARS-CoV-2疫苗的靶標(biāo)[23]。通過計(jì)算機(jī)分析病毒基因組序列,得到S基因共有序列,然后利用免疫信息學(xué)工具鑒定病毒潛在的免疫原性區(qū)域,研制多個(gè)表位的亞單位疫苗[24]。在藥物治療方面,由于藥物研發(fā)需要漫長(zhǎng)的安全性評(píng)價(jià)和臨床試驗(yàn)過程,全新設(shè)計(jì)的藥物不能立即使用于突發(fā)的大流行疫情。但現(xiàn)有的部分抗病毒藥物、抗寄生蟲藥物、治療高血壓和高膽固醇藥物等,經(jīng)過臨床前評(píng)估和臨床試驗(yàn),如果能夠達(dá)到逆轉(zhuǎn)低氧血癥、提供足夠器官支持、降低病毒載量、減輕疾病嚴(yán)重程度的效果,就可能改變用途再利用于COVID-19治療[25]。先后有瑞德西韋(Remdesivir)、氯喹(Chloroquine)等藥物進(jìn)入臨床試驗(yàn)觀察。理論上,通過計(jì)算機(jī)模擬將不同候選藥物與病毒蛋白立體構(gòu)象進(jìn)行分子對(duì)接,能夠快速篩選出合適的抗病毒藥物[25]。在GISAID定期更新的基因組流行病學(xué)報(bào)告中,也同時(shí)提供基于新報(bào)告基因組序列的S糖蛋白受體結(jié)合區(qū)突變監(jiān)測(cè)結(jié)果。例如在6月23日?qǐng)?bào)告中,就觀察到3 597個(gè)毒株基因組中,其受體結(jié)合界面附近存在29種罕見變異。這些信息對(duì)疫苗設(shè)計(jì)和藥物研發(fā)具有一定參考價(jià)值[6]。
面對(duì)這場(chǎng)前所未有的COVID-19全球大流行疫情,世界各國(guó)政府、醫(yī)療機(jī)構(gòu)和科學(xué)家通力合作,信息共享,促進(jìn)了SARS-CoV-2病毒基因組流行病學(xué)研究的實(shí)時(shí)進(jìn)行。根據(jù)過去近6個(gè)月時(shí)間里的相關(guān)進(jìn)展,目前開展基因組流行病學(xué)研究需要考慮以下因素:1)亟待達(dá)成共識(shí),確定基因組流行病學(xué)相關(guān)通用的分析算法和命名規(guī)則。目前獨(dú)立存在的幾種分型體系,由于側(cè)重點(diǎn)和算法不一致,彼此之間沒有完全對(duì)應(yīng)。隨著疫情逐漸從暴發(fā)流行向季節(jié)性流行轉(zhuǎn)變,分型體系標(biāo)準(zhǔn)不一致的現(xiàn)狀不便于持續(xù)的學(xué)術(shù)交流以及不同領(lǐng)域之間溝通。2)充分利用在線分析平臺(tái)和資源。由于SARS-CoV-2病毒基因組相對(duì)較大、編碼較復(fù)雜,給序列數(shù)據(jù)處理分析帶來巨大挑戰(zhàn)。特別是大量基因組分析過程中,對(duì)計(jì)算機(jī)配置要求高,按照傳統(tǒng)方法構(gòu)建種系發(fā)生樹耗費(fèi)時(shí)間長(zhǎng)達(dá)數(shù)天。然而,通過云計(jì)算平臺(tái)分析,充分利用網(wǎng)絡(luò)資源特別是開源在線分析平臺(tái),能夠避免計(jì)算機(jī)配置不足的缺陷,促進(jìn)更多實(shí)驗(yàn)室開展基因組流行病學(xué)研究。3)謹(jǐn)慎解讀分析結(jié)果?;蚪M流行病學(xué)分析的是序列文件,在解讀這類結(jié)果時(shí),需要充分了解不同算法的特點(diǎn)和優(yōu)缺點(diǎn),特別是要注重結(jié)合病例相關(guān)流行病學(xué)資料,在合理的流行病學(xué)時(shí)間和空間框架下,進(jìn)行客觀地解讀。涉及病原本身的致病性和傳播能力的推論,需要足夠的實(shí)驗(yàn)證據(jù)。4)正確理解已經(jīng)測(cè)序毒株數(shù)目和實(shí)際病例數(shù)之間的差異。由于不同國(guó)家和地區(qū)開展基因組測(cè)序的能力存在差異,已經(jīng)測(cè)序毒株的多少主要反映實(shí)驗(yàn)室測(cè)序能力,而不是疾病在人群的實(shí)際罹患率。在計(jì)算突變頻率時(shí),盡可能使序列樣品時(shí)間和空間分布基本均勻,采樣數(shù)目與不同地理區(qū)域報(bào)告感染病例數(shù)成比例,以提高分析結(jié)果的可靠性。
綜上所述,在這場(chǎng)COVID-19全球大流行疫情中,廣泛開展病毒基因組測(cè)序和基因組流行病學(xué)研究不僅僅是調(diào)查不同地區(qū)早期病例的輸入來源,持續(xù)開展實(shí)時(shí)基因組流行病學(xué)研究,有助于深入了解病毒傳播方向、機(jī)制和進(jìn)化,為COVID-19提供更好的診斷、疫苗和治療手段,及時(shí)評(píng)價(jià)和調(diào)整區(qū)域性和階段性防控措施,促進(jìn)COVID-19全球大流行疫情的防控。
利益沖突:無