孫松陽(yáng) 綜述 汪希珂 審校
(1.貴州大學(xué),貴州 貴陽(yáng) 550000;2.貴州省人民醫(yī)院兒內(nèi)科,貴州 貴陽(yáng) 550002)
高通量測(cè)序技術(shù)的應(yīng)用已有近50年的歷史,在遺傳代謝性疾病的診斷分析,確定相關(guān)的致病基因,發(fā)現(xiàn)新的治療策略等方面起到了巨大的作用。尤其是21世紀(jì)以來(lái),高通量測(cè)序技術(shù)在速度,讀取長(zhǎng)度,數(shù)據(jù)吞吐量方面取得了長(zhǎng)足的發(fā)展,每堿基的測(cè)序成本也急劇下降,為在基礎(chǔ)科學(xué)以及轉(zhuǎn)化研究領(lǐng)域中大量新型測(cè)序技術(shù)的應(yīng)用和開(kāi)發(fā)鋪平了道路。在此,本文概述了高通量測(cè)序技術(shù)的發(fā)展,介紹了高通量測(cè)序技術(shù)的優(yōu)點(diǎn)與不足,探討了高通量測(cè)序技術(shù)當(dāng)前的應(yīng)用狀況,并展望未來(lái)的發(fā)展。
1.1簡(jiǎn)介 高通量測(cè)序技術(shù)又名第二代測(cè)序(NGS)技術(shù),特點(diǎn)是能一次對(duì)并行的幾十萬(wàn)到幾百萬(wàn)條DNA分子進(jìn)行測(cè)序和高精度短讀等。使用NGS,可以在一天內(nèi)對(duì)整個(gè)人類(lèi)基因組進(jìn)行測(cè)序,NGS徹底改變了基因組研究。相比之下,以前用于破譯人類(lèi)基因組的桑格測(cè)序技術(shù)需要十多年才能完成最終人類(lèi)基因組草圖[1]。NGS包括整個(gè)外顯子組測(cè)序(WES)和全基因組測(cè)序(WGS)。NGS的應(yīng)用包括RNA測(cè)序、ChIP-seq、ChIP芯片、全基因組測(cè)序、全基因組結(jié)構(gòu)變異、突變檢測(cè)和載體篩選、遺傳性疾病的確定、DNA文庫(kù)的制備、線粒體基因組測(cè)序和個(gè)體基因組學(xué)等。NGS在獲取有關(guān)遺傳、表觀遺傳調(diào)控網(wǎng)絡(luò),染色質(zhì)結(jié)構(gòu),核結(jié)構(gòu)和基因組變異的信息方面也有很大的貢獻(xiàn)。人類(lèi)基因組外顯子(編碼序列)測(cè)序被稱為全外顯子組測(cè)序(WES),測(cè)序期間,每個(gè)堿基都被多次測(cè)序,以提供高度準(zhǔn)確的數(shù)據(jù)。隨后,利用生物信息學(xué)分析,精確定位人類(lèi)參考基因組的個(gè)體讀數(shù)來(lái)得到統(tǒng)一的片段[1]。WES可以幫助確定與特定病癥相關(guān)的致病基因,發(fā)現(xiàn)新的治療策略。通過(guò)WES解決的第一個(gè)單基因疾病是2009年的多發(fā)畸形障礙米勒綜合征[2]。因?yàn)槌^(guò)80%的致病變異位于包含人類(lèi)基因組編碼區(qū)的外顯子中或附近[3],這些編碼區(qū)的堿基對(duì)突變最有可能會(huì)引起嚴(yán)重的直接病變表型,所以涵蓋所有已知外顯子及其側(cè)翼區(qū)域的WES已經(jīng)成為對(duì)遺傳代謝病進(jìn)行診斷分析的首選方法。隨著新的軟件和方法的迅速發(fā)展,WES成本更低且更有效,WES技術(shù)可以更好地檢測(cè)復(fù)雜的遺傳變化。WES與醫(yī)療保健的整合已經(jīng)在進(jìn)行中,在臨床的診斷、疾病預(yù)后、治療決策等方面,WES都扮演著不可或缺的角色。WGS是確定生物體基因組完整核苷酸序列的過(guò)程,通過(guò)對(duì)從頭組裝或映射到高質(zhì)量參考基因組的片段進(jìn)行“鳥(niǎo)槍”測(cè)序來(lái)實(shí)現(xiàn)[4]。普遍認(rèn)為WGS是比WES更為強(qiáng)大的工具,可捕獲幾乎所有已知的遺傳變異。
1.2測(cè)序技術(shù)的發(fā)展 在20世紀(jì)70年代,F(xiàn).Sanger等[5]和A.M.Maxam等[6]分別開(kāi)發(fā)了DNA測(cè)序的方法。F.Sanger及其同事開(kāi)發(fā)的技術(shù),通常稱為Sanger測(cè)序,與A.M.Maxam的方法相比,有毒化學(xué)品和放射性同位素處理更少。最后,Sanger測(cè)序成為未來(lái)30年流行的DNA測(cè)序方法,Sanger測(cè)序也被稱為第一代技術(shù)。在1977年至2005年期間,對(duì)高通量、低成本的測(cè)序需求推動(dòng)了大規(guī)模并行技術(shù)的發(fā)展,第二代測(cè)序技術(shù)NGS應(yīng)運(yùn)而生。相對(duì)于NGS,Sanger測(cè)序昂貴且耗時(shí),NGS可以同時(shí)對(duì)數(shù)百萬(wàn)乃至數(shù)十億個(gè)DNA同時(shí)進(jìn)行測(cè)序[7],極大地降低了成本,提高了測(cè)序的產(chǎn)量。454生命科學(xué)公司推出的基于焦磷酸測(cè)序法的超高通量基因組測(cè)序系統(tǒng):羅氏454測(cè)序系統(tǒng),開(kāi)創(chuàng)了第二代測(cè)序技術(shù)的先河。該技術(shù)是通過(guò)合成反應(yīng)而測(cè)序(SBS)的原理進(jìn)行測(cè)序的。2005年以來(lái),大規(guī)模平行測(cè)序(MPS)平臺(tái)已經(jīng)廣泛應(yīng)用。相對(duì)于Sanger測(cè)序,MPS將DNA測(cè)序的成本降低了幾個(gè)數(shù)量級(jí)[8]。2001年,人類(lèi)基因組計(jì)劃使用第一代Sanger測(cè)序技術(shù)對(duì)人類(lèi)基因組進(jìn)行測(cè)序,需要13年和27億美元[9]。2014年,Illumina發(fā)布了HiSeq X系統(tǒng),該系統(tǒng)運(yùn)行3天產(chǎn)生的的數(shù)據(jù)相當(dāng)于16個(gè)人類(lèi)基因組。每個(gè)人類(lèi)基因組按照30倍覆蓋率的金標(biāo)準(zhǔn)進(jìn)行測(cè)序,成本略高于1000美元[10]。Illumina,Solex,SOLID的第三代測(cè)序技術(shù)能確定單個(gè)DNA分子的堿基組成,還能夠?qū)崟r(shí)排序,包括單分子熒光測(cè)序技術(shù)和納米孔測(cè)序技術(shù)。以納米孔測(cè)序?yàn)槔?,它基于DNA分子通過(guò)納米孔,可以對(duì)單個(gè)分子進(jìn)行實(shí)時(shí)測(cè)序。主要特點(diǎn)是直接測(cè)序DNA或DNA,不需要文庫(kù)制備或測(cè)序試劑的RNA分子;可以進(jìn)行長(zhǎng)閱讀,但是精度偏低[11]。
1.3高通量測(cè)序的步驟 WES的步驟包括人類(lèi)基因組中所有外顯子的捕獲,測(cè)序和分析人類(lèi)基因組中所有蛋白質(zhì)編碼基因的所有外顯子。首先將整個(gè)基因組分成小片段,然后將這些小片段的脫氧核糖核酸連接到特殊的銜接子上,或者讓片段通過(guò)微小的通道,在通道中確定每個(gè)片段的序列。在二代測(cè)序中,來(lái)自整個(gè)基因組的數(shù)百萬(wàn)個(gè)這樣的基因片段被同時(shí)測(cè)序。二代測(cè)序設(shè)備采用這種MPS技術(shù)來(lái)產(chǎn)生序列數(shù)據(jù)。所研究區(qū)域的每個(gè)核苷酸將被包含在多次讀數(shù)中,反復(fù)分析。然后,數(shù)百萬(wàn)次分析的讀數(shù)序列被重新組裝,或者與人類(lèi)基因組進(jìn)行比較[12]。在NGS中,測(cè)序是通過(guò)重復(fù)循環(huán)由聚合酶介導(dǎo)的核苷酸延伸來(lái)完成的。NGS是一個(gè)大規(guī)模的并行過(guò)程,根據(jù)平臺(tái)的不同,產(chǎn)生數(shù)百兆到千兆位的核苷酸序列,可以有針對(duì)性的增加感興趣區(qū)域序列覆蓋率,成本更低,吞吐量更高。大多數(shù)大規(guī)模靶向測(cè)序方法都使用混合選擇方法選擇出變體,與WGS相比,WES平臺(tái)具有更少的原始序列和更低的成本。例如,需要90 Gb的序列才能獲得30倍的基因組平均覆蓋率,而使用當(dāng)前最先進(jìn)的靶向平臺(tái),只需要3 Gb序列的外顯子組就可以獲得75倍的平均覆蓋率[13]。
1.4下一代測(cè)序的不足 外顯子組富集是WES的基礎(chǔ),富集方法包括雜交捕獲或基于溶液的方法富集[14]。與Sanger測(cè)序不同的是,樣本的每次運(yùn)行都生成一個(gè)測(cè)序讀數(shù),每次讀取的特定位置必須通過(guò)計(jì)算確定,稱為映射或?qū)R。其次,需要多重覆蓋來(lái)分析樣品的完整等位基因含量[15],這一過(guò)程中存在效率低下的問(wèn)題。例如,不同外顯子間不平衡的捕獲效率可能導(dǎo)致外顯子序列覆蓋率低;目標(biāo)外雜交意味著至少20%的讀數(shù)序列來(lái)自外顯子組外的基因組DNA,而且外顯子組捕獲也沒(méi)有完成。序列捕獲方法中的探針是基于基因注釋數(shù)據(jù)庫(kù)(如CCDS數(shù)據(jù)庫(kù)和RefSeq數(shù)據(jù)庫(kù))中的信息設(shè)計(jì)的,未知或尚未注釋的外顯子、進(jìn)化保守的非編碼區(qū)域和調(diào)控序列(如增強(qiáng)子或啟動(dòng)子)通常不會(huì)被捕獲。WES的片段測(cè)序的測(cè)序錯(cuò)誤率比Sanger測(cè)序更高,但在一定程度上可以通過(guò)增加測(cè)序覆蓋的深度來(lái)糾正。因此,使用Sanger測(cè)序進(jìn)一步驗(yàn)證已鑒定的變異非常重要[16],但這也增加了成本。隨著測(cè)序和捕獲技術(shù)的不斷改進(jìn),這些效率問(wèn)題都有可能得到解決。外顯子組的高覆蓋率可以使大量樣本測(cè)序變得經(jīng)濟(jì)實(shí)惠,更有利于發(fā)現(xiàn)突變。由于序列結(jié)構(gòu)的性質(zhì),WES在某些基因組區(qū)域分析中也存在局限性。WES無(wú)法檢測(cè)某些類(lèi)型的基因組變異,包括插入/缺失,拷貝數(shù)變異,重復(fù)擴(kuò)增,深度內(nèi)含子變異和線粒體基因組變異[17]。WES還可能遺漏某些導(dǎo)致疾病的遺傳變異,這可能是由于含有變體的基因組區(qū)域捕獲不良引起的,WES只覆蓋外顯子及其側(cè)翼區(qū)域,不能檢測(cè)內(nèi)含子和非編碼調(diào)控區(qū)域以外的致病變異。結(jié)構(gòu)基因組變異,大型插入、缺失、重復(fù),拷貝數(shù)變異,變異線粒體基因組均不能探測(cè)到。由于技術(shù)的性質(zhì),使用錯(cuò)誤的過(guò)濾器或不適當(dāng)?shù)倪^(guò)濾器用于分析數(shù)據(jù)將導(dǎo)致錯(cuò)誤的診斷[18]??傊?,為了使WES適合臨床診斷,面臨的技術(shù)挑戰(zhàn)包括改進(jìn)外顯子捕獲,測(cè)序覆蓋率,讀取長(zhǎng)度,準(zhǔn)確檢測(cè)插入缺失以及減少假陽(yáng)性和假陰性率等[19]。在臨床應(yīng)用WES的另一個(gè)挑戰(zhàn)是在眾多臨床意義不確定的變異中識(shí)別臨床相關(guān)的變異。此外,現(xiàn)有數(shù)據(jù)庫(kù)中超過(guò)25%的致病變異是不正確的,這使得解釋測(cè)序結(jié)果變得非常困難[20]。在許多情況下,準(zhǔn)確的臨床病史和生化檢測(cè)信息是必不可少的,以避免對(duì)WES所得結(jié)果的誤讀。由于對(duì)候選基因的功能缺乏足夠的認(rèn)識(shí),無(wú)法做出明確的診斷,在這種情況下,可能需要廣泛的功能研究來(lái)證明候選基因和變異與患者臨床表型之間的因果關(guān)系。WGS覆蓋了整個(gè)人類(lèi)基因組的98%,WES與WGS相比,覆蓋了95%的編碼區(qū)域,但僅占基因組的1%~2%。WES的單樣本成本更低,目標(biāo)區(qū)域的覆蓋深度更大,存儲(chǔ)需求更少,并且數(shù)據(jù)分析更易于執(zhí)行。2018年A.Alfares等[21]比較WES和WGS在臨床上的檢出率,對(duì)WES的數(shù)據(jù)重新分析后發(fā)現(xiàn)WGS的檢出率僅高7%。同時(shí),每個(gè)WES成本約為1 200美元,WES重分析成本約為250美元,每個(gè)WGS的費(fèi)用約為4200美元。所以,盡管WGS比WES更強(qiáng)大,覆蓋的更均勻,但是臨床效用有限,且成本更高。
2.1遺傳代謝疾病定義 遺傳代謝病(IMD)是因維持機(jī)體正常生化代謝途徑中的酶、輔酶或載體蛋白缺陷或異常及膜泵生物合成發(fā)生遺傳缺陷,即編碼這類(lèi)多肽(蛋白)的基因發(fā)生突變,導(dǎo)致產(chǎn)物缺乏或底物堆積,從而引起相應(yīng)臨床癥狀的一組疾病。
2.2遺傳疾病分類(lèi) 遺傳疾病分為染色體疾病和單基因疾病,有學(xué)者[22]認(rèn)為染色體疾病是由人類(lèi)發(fā)育早期植入的異常染色體重排引起的,已經(jīng)發(fā)現(xiàn)了大約7000種不同的單基因疾病。染色體疾病包括染色體結(jié)構(gòu)變異,數(shù)目變異等,如18-三體、21-三體等;遺傳代謝病多為單基因遺傳病,包括代謝大分子類(lèi)疾病:溶酶體貯積癥、線粒體病等,代謝小分子類(lèi)疾?。喊被帷⒂袡C(jī)酸、脂肪酸等。遺傳代謝病部分病因是基因遺傳,還有一部分是后天基因突變?cè)斐桑l(fā)病時(shí)間覆蓋全年齡階段,受累人數(shù)約占全球總?cè)丝诘?%[23]。綜合所有染色體和單基因疾病的發(fā)病率,與諸如癌癥等更復(fù)雜的遺傳疾病相比,遺傳疾病被認(rèn)為是相對(duì)罕見(jiàn)的,但是作為世界上人口最多的國(guó)家,中國(guó)的罕見(jiàn)遺傳病患者數(shù)量眾多,大約有1000萬(wàn)患有遺傳代謝疾病的患者生活在14億人口中[24]。
2.3高通量測(cè)序的應(yīng)用
2.3.1高通量測(cè)序技術(shù)在產(chǎn)前診斷中的應(yīng)用 通過(guò)產(chǎn)前診斷,父母可以選擇終止受影響的妊娠,在醫(yī)院,母親血清篩查和胎兒超聲檢測(cè)可用于幫助檢測(cè)胎兒是否患有染色體疾病?;诟叻直媛赎嚵械娜旧w分析方法已經(jīng)可用于檢測(cè)染色體疾病,通過(guò)羊膜穿刺術(shù)和胎兒核型分析來(lái)確認(rèn)陽(yáng)性結(jié)果[25]。但是,性染色體疾病不能通過(guò)母體血清篩查檢測(cè)到,并且通常在超聲檢查中沒(méi)有任何明顯的臨床癥狀。由于大多數(shù)夫婦在懷孕前都不知道自己的攜帶者身份,所以預(yù)防單基因疾病在很大程度上是無(wú)效的。此外,由于識(shí)別致病突變所需的成本和時(shí)間,絕大多數(shù)具有遺傳疾病家族史且因此具有高風(fēng)險(xiǎn)的夫婦沒(méi)有進(jìn)行過(guò)基因檢測(cè),中國(guó)50%的人口生活在農(nóng)村地區(qū),沒(méi)有接受過(guò)良好的遺傳咨詢服務(wù),即使有更多的患者參加檢測(cè),目前的實(shí)驗(yàn)室基礎(chǔ)設(shè)施,人員專業(yè)知識(shí)和公共醫(yī)院診斷實(shí)驗(yàn)室的設(shè)備也不能充分滿足患者的需要。NGS技術(shù)的出現(xiàn),為中國(guó)的遺傳代謝疾病預(yù)防提供了新的希望。如無(wú)創(chuàng)產(chǎn)前檢測(cè)(NIPT)表現(xiàn)出非常高的靈敏度和特異性,可用于檢測(cè)常見(jiàn)的非整倍體,如21-三體、18-三體、13-三體以及性染色體[26]。對(duì)于高遺傳風(fēng)險(xiǎn)的夫婦,可以對(duì)胎兒進(jìn)行傳統(tǒng)的侵入性分子檢測(cè),這在大多數(shù)診斷實(shí)驗(yàn)室中廣泛可用;這些夫婦也可以選擇輔助生殖和植入前遺傳學(xué)診斷(PGD)來(lái)選擇正常胚胎進(jìn)行移植。在政府的支持下,NIPT在中國(guó)得到推廣,極大的有利于預(yù)防和減少患有染色體疾病嬰兒的出生[27]。中國(guó)目前的臨床研究活動(dòng)主要集中在開(kāi)發(fā)用于檢測(cè)全譜染色體疾病綜合征的新型NIPT策略,基于NGS的NIPT方法可以同時(shí)檢測(cè)常見(jiàn)的非整倍體以及亞顯微的缺失和重復(fù)。在臨床層面,一些省份正在進(jìn)行試點(diǎn)研究,以評(píng)估這些新方法的可靠性和準(zhǔn)確性。此外,基于單倍型的母體血漿靶向測(cè)序已被證明對(duì)于HHL和SMA的診斷是準(zhǔn)確的,另一種稱為循環(huán)單分子擴(kuò)增和重新測(cè)序技術(shù)(cSMART)的NIPT方法可以準(zhǔn)確地對(duì)患有Wilson病風(fēng)險(xiǎn)的胎兒進(jìn)行胎兒基因分型。隨著時(shí)間的推移,通過(guò)臨床實(shí)施第二代NIPT檢測(cè),可以大幅減輕中國(guó)遺傳代謝疾病的負(fù)擔(dān)。
2.3.2高通量測(cè)序技術(shù)在重大疫情中的應(yīng)用 2013年的甲型流感H7N9病毒導(dǎo)致數(shù)十人死亡。我國(guó)科學(xué)家對(duì)第1例H7N9患者工作的活禽市場(chǎng)臨近攤位的雞籠和二級(jí)活禽批發(fā)市場(chǎng)進(jìn)行了取樣,進(jìn)行全基因組測(cè)序,結(jié)果表明新型H7N9病毒最有可能從二級(jí)批發(fā)市場(chǎng)傳播到零售活禽市場(chǎng),然后傳播到患者身上,明確了傳播擴(kuò)散途徑,有利于幫助控制人類(lèi)感染[28]。在病毒的耐藥性突變、溯源和特異性單抗篩選等方面都取得了國(guó)際領(lǐng)先的成果。
2.3.3高通量測(cè)序技術(shù)在地中海貧血中的應(yīng)用 地中海貧血普遍存在于中國(guó)南方,在1993年1月至2003年12月期間,廣州市某中心實(shí)施了一項(xiàng)以醫(yī)院為基礎(chǔ)的預(yù)防計(jì)劃,篩查α和β地中海貧血的攜帶者,減少受影響胎兒的出生率。政府制定特殊教育計(jì)劃,使公眾意識(shí)到受地中海貧血影響胎兒出生率存在,這使得地中海貧血篩查計(jì)劃的接受率非常高。地中海貧血患者的出生率大幅下降[29]。
2.3.4高通量測(cè)序技術(shù)在在遺傳性耳聾研究中的應(yīng)用 耳聾是一種常見(jiàn)的嚴(yán)重出生缺陷,2017年,王翠翠等[30]總結(jié)了近5年高通量測(cè)序技術(shù)和目標(biāo)區(qū)域測(cè)序在遺傳性耳聾致病基因研究及臨床分子診斷中的應(yīng)用以及研究進(jìn)展,自2010年開(kāi)始,應(yīng)用WES已成功鑒定了30個(gè)非綜合征性耳聾(NSHL)基因新致病基因,約占已知NSHL致病基因的1/3;同時(shí)應(yīng)用WES至少發(fā)現(xiàn)了43個(gè)綜合征性耳聾(SHL)或伴有耳聾的復(fù)雜性疾病的致病基因,充分說(shuō)明了高通量測(cè)序技術(shù)為人類(lèi)對(duì)遺傳性耳聾深入了解發(fā)揮了巨大的作用。
高通量測(cè)序技術(shù)可用于鑒定新基因和新疾病,以及定義新表型或擴(kuò)大已知有害基因變異導(dǎo)致的表型譜,是一種有效的研究工具。隨著測(cè)序成本不可避免地下降,越來(lái)越多的患者將會(huì)選擇高通量測(cè)序技術(shù)來(lái)了解遺傳代謝疾病,減少患兒的出生,為社會(huì)和家庭減少負(fù)擔(dān)。而遺傳咨詢也將成為常規(guī)護(hù)理中一個(gè)必要和重要的組成部分,醫(yī)生將結(jié)合病史、家族史和基因組數(shù)據(jù)來(lái)識(shí)別高風(fēng)險(xiǎn)的變異,向患者解釋患病的原因及風(fēng)險(xiǎn)。隨著高通量測(cè)序技術(shù)成為醫(yī)學(xué)實(shí)踐的標(biāo)準(zhǔn)組成部分,向公眾宣傳這項(xiàng)技術(shù)并讓公眾參與使用這項(xiàng)技術(shù)將是非常重要的。高通量測(cè)序技術(shù)的發(fā)展也為臨床診斷和個(gè)性化疾病風(fēng)險(xiǎn)分析奠定了基礎(chǔ)。