欒洋,尤馨悅,楊勁
綜 述
高通量測序技術(shù)在低頻突變檢測中的應(yīng)用
欒洋1,尤馨悅1,楊勁2
1. 上海交通大學(xué)醫(yī)學(xué)院公共衛(wèi)生學(xué)院,上海 200025 2. 中國藥科大學(xué)藥學(xué)院,南京 210009
體細(xì)胞突變的累積與衰老、腫瘤及多種疾病的發(fā)生密切相關(guān)。在正常組織細(xì)胞中,基因組中自發(fā)突變和誘發(fā)突變的變異等位基因頻率極低,對這類低頻突變的檢測一直面臨挑戰(zhàn)。第二代和第三代高通量測序(next-generation sequencing,NGS)技術(shù)的出現(xiàn),可以實現(xiàn)任意物種全基因組上變異的直接檢測,克服傳統(tǒng)突變檢測技術(shù)的諸多局限性。但是常規(guī)NGS由于測序錯誤率較高從而限制了其在低頻突變檢測上的應(yīng)用,基于分子一致性測序策略進行錯誤矯正的高準(zhǔn)確性NGS測序技術(shù)作為有效的低頻突變檢測工具,有望在環(huán)境誘變劑的評價與研究、細(xì)胞與基因治療藥物風(fēng)險評估、人群健康風(fēng)險監(jiān)測和生命科學(xué)基礎(chǔ)研究領(lǐng)域發(fā)揮重要作用。本文對比經(jīng)典突變檢測方法,對基于NGS的低頻突變檢測技術(shù)研究進展進行綜述,并對應(yīng)用前景進行展望,以期為該技術(shù)的進一步開發(fā)、研究和在相關(guān)領(lǐng)域的應(yīng)用提供參考。
高通量測序技術(shù);低頻突變;分子一致性測序;致突變;風(fēng)險評估
基因突變是指基因組中遺傳物質(zhì)發(fā)生的永久性改變。突變可因DNA復(fù)制或修復(fù)錯誤等自發(fā)產(chǎn)生,也可被外源性因素如輻射、化學(xué)物質(zhì)、病原體、基因編輯和病毒載體轉(zhuǎn)入等誘導(dǎo)產(chǎn)生。發(fā)生在生殖細(xì)胞上的突變能夠傳遞給下一代,與遺傳性疾病的發(fā)生和進化有關(guān);而體細(xì)胞上的突變雖不會遺傳,但與衰老、癌癥的發(fā)生發(fā)展以及神經(jīng)退行性疾病和心血管疾病等多種疾病密切相關(guān)[1~6]。因此,對突變進行高效、準(zhǔn)確的檢測是實現(xiàn)人群風(fēng)險監(jiān)測及預(yù)警的關(guān)鍵途徑。過去幾十年間,一系列依賴于特定的報告基因、基于表型檢測的突變檢測方法已得到充分驗證,并被收入到相關(guān)毒性測試指南中,廣泛應(yīng)用于化學(xué)物致突變性評價。然而,上述方法大多需要使用特殊的細(xì)胞或者轉(zhuǎn)基因動物模型,欠缺普適性,并且基于報告基因的方法有可能產(chǎn)生結(jié)果的偏倚。此外,致突變因素的暴露雖然會引起基因突變頻率的升高[7],但是在細(xì)胞表型和功能未發(fā)生變化時,仍難以被現(xiàn)有技術(shù)檢測到。以腫瘤的發(fā)生為例,只有當(dāng)關(guān)鍵基因的癌基因或抑癌基因發(fā)生突變(驅(qū)動基因突變)時,才會使受到影響的細(xì)胞生長失去控制,細(xì)胞因此獲得增殖優(yōu)勢形成克隆,從而最終發(fā)展為腫瘤(圖1A)。而絕大多數(shù)位點的突變(中性突變)并不能讓細(xì)胞獲得選擇性的生長優(yōu)勢。因此,早期階段的細(xì)胞即使基因組突變頻率有所升高,但尚未被正向選擇因此在細(xì)胞群中占比很低,就難以被經(jīng)典的基于表型的突變檢測方法檢測到。
第二代和第三代高通量測序(next generation sequencing,NGS)技術(shù)可對任意物種、組織在全基因組上進行無偏倚測序,使得突變的直接檢測成為可能。但是,目前普遍使用的NGS測序錯誤率很高,達到千分之幾,因此會掩蓋掉低頻發(fā)生的突變。腫瘤作為惡變細(xì)胞的克隆,相同的突變存在于多數(shù)樣本細(xì)胞中,測序錯誤率并不影響結(jié)果判斷。因此,現(xiàn)行NGS技術(shù)多應(yīng)用于遺傳性基因改變的體細(xì)胞、腫瘤細(xì)胞以及體外誘導(dǎo)干細(xì)胞克隆或單細(xì)胞上的突變分析。然而,當(dāng)正常體細(xì)胞受到致突變因素作用后,全基因組上發(fā)生突變負(fù)荷的增加則難以通過現(xiàn)行NGS檢測,因為在人類()和小鼠()樣本中,檢測到的自發(fā)突變頻率約為10–9~10–7,即平均每107~109堿基對中才會出現(xiàn)1個突變[8~11]。細(xì)胞受到誘變作用后,突變頻率即使增加幾百倍,差別仍然會被在~10–3數(shù)量級的測序錯誤率所掩蓋。同樣,早期階段時,細(xì)胞群體里僅有少數(shù)細(xì)胞發(fā)生惡性轉(zhuǎn)化,以這樣異質(zhì)細(xì)胞混合體來源的DNA作為測序樣本,其低頻度發(fā)生的突變也難以通過現(xiàn)行NGS檢測到。因此,只有開發(fā)錯誤率足夠低的測序技術(shù),才能實現(xiàn)體細(xì)胞基因組上低頻突變的檢測[12](圖1B)。低頻突變的檢測一直是相關(guān)領(lǐng)域的技術(shù)難點,但作為研究熱點近年來也取得了快速進展。本文著重針對環(huán)境誘變劑和藥物風(fēng)險評估研究領(lǐng)域,概括介紹傳統(tǒng)突變檢測技術(shù),并就近年來基于NGS的低頻突變檢測方法進展進行綜述,并對其應(yīng)用和前景進行展望。
傳統(tǒng)的基因突變實驗多基于報告基因進行檢測,通過分析基因組上內(nèi)源性或者外源性報告基因產(chǎn)生的可檢測表型變化來反映報告基因的突變情況。通常利用報告基因突變的細(xì)胞數(shù)目比例計算突變頻率,還可借助PCR方法擴增突變細(xì)胞內(nèi)的報告基因序列,結(jié)合PCR產(chǎn)物測序獲得突變特征。常見的基因突變實驗包括經(jīng)典的基于細(xì)菌模型的細(xì)菌回復(fù)突變實驗(Ames實驗),利用哺乳動物細(xì)胞模型進行檢測的基因突變實驗、基因突變實驗和基因突變實驗等;利用轉(zhuǎn)基因動物模型(如Big Blue大鼠/小鼠、MutaMouse小鼠和delta轉(zhuǎn)基因大鼠/小鼠等)的體內(nèi)基因突變實驗,如基因突變實驗、基因突變實驗和基因突變實驗等。此外還有近年來發(fā)展起來的外周血/基因突變實驗[13~18]。/基因位于X染色體上,編碼了細(xì)胞表面的糖基磷脂酰肌醇錨定蛋白,該基因發(fā)生突變時,錨定蛋白連接的細(xì)胞表面分化抗原會缺失,利用流式細(xì)胞術(shù)可以實現(xiàn)快速檢測,從而推算/基因突變頻率[15],該實驗?zāi)壳耙延糜趪X類動物致突變性評價和人群風(fēng)險評估。
圖1 普通NGS對腫瘤細(xì)胞不同進展階段和低頻突變的檢測能力
A:細(xì)胞發(fā)生惡性轉(zhuǎn)化與不同階段的檢測技術(shù)。B:傳統(tǒng)NGS難以檢測體細(xì)胞超低頻突變。
基因突變實驗已被列入經(jīng)濟合作與發(fā)展組織(Organisation for Economic Co-operation and Deve-lopment,OECD)化合物遺傳毒性測試指南[19~22]、國際人用藥品注冊技術(shù)要求國際協(xié)調(diào)理事會(The International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)M7指導(dǎo)原則和我國各類化學(xué)品安全性評價的指南、程序或指導(dǎo)原則中。其中,Ames實驗是最經(jīng)典也是應(yīng)用最為廣泛的突變檢測方法,具有較高靈敏性,通常在化學(xué)物致突變性的早期評價中使用。利用哺乳動物細(xì)胞進行的體外基因突變實驗操作簡單,但由于體外代謝活化系統(tǒng)與人體和其他生物體內(nèi)代謝活化系統(tǒng)的差異并不能完全或真實反映化學(xué)物在體內(nèi)代謝條件下的毒性特征以及靶器官的特異性。轉(zhuǎn)基因動物體內(nèi)基因突變實驗?zāi)軌蚩朔w外實驗的不足,可對轉(zhuǎn)基因動物任意組織器官的突變進行檢測,但是其檢測需要將報告基因從基因組上切割并包裝為噬菌體,再轉(zhuǎn)染至細(xì)菌中,最終在細(xì)菌中檢測報告基因的突變情況[17,21,23],實驗操作繁瑣、成本高、實驗周期較長。嚙齒類動物外周血基因突變實驗比轉(zhuǎn)基因動物實驗操作簡便,并且可以整合到一般毒性實驗中,因此開始被廣泛使用[24]。但由于使用的是外周血紅細(xì)胞,因此只能反映骨髓造血器官的基因突變頻率,并且因為紅細(xì)胞無法獲得DNA從而無法進行測序以考察突變特征。
上述基于內(nèi)源或外源性報告基因的基因突變實驗結(jié)果可能存在偏倚,因為報告基因不能代表全基因組,并且因同義突變不改變表型從而導(dǎo)致突變頻率可能被低估;此外,對片段長度較短的報告基因分析突變特征也不能反映突變在全基因組位點、側(cè)翼序列和鏈的傾向性。最為關(guān)鍵的是,借助外源報告基因的體內(nèi)突變檢測方法只能依賴于特殊的轉(zhuǎn)基因動物模型,并不能直接用于一般人群或普通動物基因突變的檢測。
基于基因型篩選的分子生物學(xué)方法也可用于低頻突變的檢測,包括限制性片段長度多態(tài)性/聚合酶鏈反應(yīng)技術(shù)(PCR-RFLP)[25]、隨機突變捕獲技術(shù)(random mutation capture,RMC)[8]和微滴式數(shù)字PCR技術(shù)[26,27]等。前兩者利用限制性內(nèi)切酶酶切位點在突變前后經(jīng)限制性內(nèi)切酶酶切效果的不同進行突變的檢測,后者通過對目標(biāo)序列模板在單分子水平逐一進行PCR反應(yīng),從而對目標(biāo)序列上的突變進行檢測。與基于表型篩選的基因突變實驗不同,這類方法直接對堿基序列進行分析,可以檢測到108個堿基對中的1個突變,準(zhǔn)確性較高[8,25]。但上述方法可檢測的突變位點有限,PCR-RFLP和RMC只能對限制性內(nèi)切酶酶切位點的突變進行檢測,微滴式數(shù)字PCR主要用于對已知的突變進行定量檢測,并且方法檢測通量均較低。因此,與基因突變實驗類似,上述方法仍然不能完全反映真實狀態(tài)下全基因組水平的突變情況以及突變的序列偏向性。
綜上所述,無論是基于表型篩選的基因突變實驗還是基于基因型篩選的分子生物學(xué)檢測方法,盡管準(zhǔn)確性較高,能夠?qū)崿F(xiàn)達到自發(fā)突變水平的低頻突變的檢測,但由于對報告基因或序列的依賴,都會導(dǎo)致分析結(jié)果存在偏倚,也很難實現(xiàn)任意物種和任意組織細(xì)胞的全基因組水平的突變檢測,限制了其在更為一般的低頻突變檢測場景的應(yīng)用。
1990年啟動的人類基因組計劃(Human Genome Project,HGP)正式開啟了應(yīng)用測序技術(shù)解析基因組序列、探究生命奧秘的大門。在HGP 計劃完成之后出現(xiàn)的NGS技術(shù),革命性地推動了基因研究領(lǐng)域的發(fā)展,實現(xiàn)了自動化、高通量和低成本檢測,使其成為目前生命科學(xué)研究的常規(guī)手段,廣泛應(yīng)用于宏基因組學(xué)、進化研究、產(chǎn)前診斷和腫瘤研究等領(lǐng)域。NGS技術(shù)可對任一物種或組織細(xì)胞全基因組的序列進行高通量檢測,直接獲得核苷酸序列的變異信息,因此有可能直接對外源致突變劑誘導(dǎo)的突變進行定性和定量分析。理論上,NGS可以克服傳統(tǒng)的突變檢測手段對報告基因或檢測位點的依賴性,是一種非常有潛力的手段,但因為常規(guī)NGS的隨機測序錯誤率約為10–3~10–2[28,29],這樣高的測序錯誤率限制了其在低頻突變檢測中的應(yīng)用。NGS測序前樣本采集和DNA提取、文庫制備過程過程中的DNA片段化和DNA擴增、測序中的堿基識別過程以及測序后的生物信息學(xué)分析過程都有可能引入錯誤,從而影響突變檢測的準(zhǔn)確性[30~35]。千分之幾的測序錯誤率不會影響NGS檢測胚系突變和本質(zhì)上屬于細(xì)胞克隆的腫瘤細(xì)胞基因突變,通過提高NGS的測序深度仍然可以獲得可信的變異信息。但是,正常體細(xì)胞突變的發(fā)生率及變異等位基因頻率(variant allele frequency,VAF)很低,Lynch等[8]報道哺乳動物細(xì)胞每分裂一次,自發(fā)突變發(fā)生的概率約為10–9~10–8。在人類和小鼠樣本中,檢測到積累的自發(fā)突變頻率約為10–9~10–7,即平均每107~109堿基對中才會出現(xiàn)1個突變[9~12]。在腫瘤高發(fā)的Tg-rasH2轉(zhuǎn)基因小鼠模型中,即使給予致突變劑處理后,基因上絕大多數(shù)突變的VAFs值也只達到~10–4水平,且僅在單個DNA片段中被檢測到[36]。相比于這些驅(qū)動基因上的誘發(fā)突變,正常組織細(xì)胞中自發(fā)的體細(xì)胞突變其VAFs值可能會更低,甚至僅在少數(shù)幾個細(xì)胞中存在。也就是說,對于每個位點而言,其由于測序錯誤導(dǎo)致的變異的比例約為0.1%~1%;當(dāng)突變的VAF值遠(yuǎn)低于1%時,常規(guī)NGS很難對真實的變異進行識別。
單細(xì)胞測序技術(shù)(single cell sequencing,SCS)可以在單一細(xì)胞水平實現(xiàn)精確的低頻突變檢測[37~39],包括單細(xì)胞測序[37],以及通過體外培養(yǎng)獲得單細(xì)胞來源的細(xì)胞克隆[40]。如前所述,因為體細(xì)胞突變發(fā)生的豐度很低,并且對于正常組織每個細(xì)胞的突變都是唯一,而腫瘤組織也是異質(zhì)性細(xì)胞克隆組成的混合體,經(jīng)擴增后測序,突變與測序錯誤難以區(qū)分??朔@個問題的一種方法是使用基于單細(xì)胞的測序方法。SCS首先將單一的細(xì)胞從細(xì)胞群中分離出來,再進行全基因組擴增以獲得足夠的DNA用于文庫制備及測序。進行突變分析時,以人類基因組為例,其基因組為二倍體;當(dāng)發(fā)生體細(xì)胞突變時,其測序數(shù)據(jù)中對應(yīng)位點的堿基信息將由純合變?yōu)闉殡s合的,即~50%比對到參考基因組的序列信息為正常堿基,~50%為突變堿基信息。隨著測序深度的增加,待測位點突變堿基的變異等位基因頻率趨近于50%,遠(yuǎn)高于該位點NGS隨機測序錯誤的發(fā)生率(~1%);因此,此時可以忽略隨機測序錯誤的影響,得到可信度較高的突變信息。在一些研究中,利用SCS進行突變檢測的錯誤率可以低至10–7~10–9水平[40]。然而,利用SCS進行突變檢測仍然面臨著諸多問題[41]。制備細(xì)胞懸液從中分離單個細(xì)胞是SCS的第一步。對于大量的實體組織而言,分離出具有良好擴增效率的單細(xì)胞仍存在一定的技術(shù)限制。此外,與常規(guī)測序方法不同,SCS是對單個細(xì)胞進行測序,因此很容易受到選擇偏倚的影響。利用常規(guī)的機械法或酶法破碎組織、制備單細(xì)胞懸液時,會損失細(xì)胞在原始組織結(jié)構(gòu)中的信息,例如發(fā)生組織病理學(xué)改變的區(qū)域與正常組織區(qū)域的細(xì)胞難以區(qū)分,導(dǎo)致在選擇單細(xì)胞進行測序時產(chǎn)生偏倚,最終可能影響結(jié)果的分析。基因組擴增也是導(dǎo)致SCS突變分析產(chǎn)生偏倚的一個重要原因。由于SCS是從單個細(xì)胞進行擴增,加之PCR擴增反應(yīng)固有的偏向性,很容易出現(xiàn)擴增產(chǎn)物的不均勻以及基因組覆蓋度不足等問題,從而引起假陽性錯誤或者假陰性結(jié)果[39,42]。一些研究的結(jié)果顯示,基因組擴增會產(chǎn)生較高水平(15%~64%)的假陰性結(jié)果[40]。另外,在實踐中,為了降低SCS可能產(chǎn)生的偏倚,往往需要對多個單細(xì)胞進行測序,由此會帶來相應(yīng)的測序成本的升高。
針對單細(xì)胞測序的覆蓋度低和錯誤率高等缺點,研究近年來也取得一定進展。單個細(xì)胞在全基因組進行擴增時容易引起核苷酸序列中產(chǎn)生錯誤,導(dǎo)致測序錯誤掩蓋真實發(fā)生的突變。2017年,美國愛因斯坦醫(yī)學(xué)院的Jan Vijg博士發(fā)表了一種能夠準(zhǔn)確鑒定單細(xì)胞基因組基因突變(單核苷酸變異分析)的新方法[37],該方法結(jié)合單細(xì)胞多重置換擴增(multiple displacement amplification,MDA)和單細(xì)胞變異鑒定(single-cell-variant caller,SCcaller),經(jīng)驗證可以修復(fù)基因擴增過程中發(fā)生的核苷酸序列錯誤、從而從單個細(xì)胞準(zhǔn)確鑒定整個基因組的單核苷酸突變。該方法能夠?qū)讉€單細(xì)胞進行測序,檢測細(xì)胞中基因突變發(fā)生的頻率,從而對患癌早期風(fēng)險進行評估。此外,該方法還可以幫助揭示基因突變在人體衰老中的作用[43]。2023年,He等[44]發(fā)表了一項單細(xì)胞全外顯基因組測序研究策略,將MDA與基因組多位點qPCR檢測結(jié)合,通過單細(xì)胞分選、全基因組擴增、擴增均勻性評估和全外顯子文庫構(gòu)建到測序分析,在外顯子組捕獲之前就排除有潛在擴增偏倚風(fēng)險的單個細(xì)胞樣本,顯著提高了外顯子組的覆蓋率。該策略用于研究肝母細(xì)胞瘤腫瘤微環(huán)境,提升了腫瘤中的低頻突變檢出率。上述單細(xì)胞測序改進方案在檢測人類疾病的低頻突變、揭示疾病遺傳異質(zhì)性等方面的穩(wěn)定性及重要性,為疾病演進的研究以及臨床診斷和治療提供有效的參考及指導(dǎo)。
降低NGS測序錯誤率的策略主要包括建庫實驗條件優(yōu)化、生物信息學(xué)分析方法改進和分析一致性測序。實驗條件優(yōu)化是針對測序過程中可能導(dǎo)致測序錯誤的實驗步驟(DNA片段化過程和 PCR 擴增過程等),以減少文庫制備和測序過程引入的錯誤,例如利用高保真酶進行 PCR 擴增以減少 PCR 擴增時引入的堿基錯配、使用溫和的文庫制備條件或者加入 DNA 修復(fù)酶以減少文庫制備過程帶來的堿基損傷等[45];生物信息學(xué)分析方法改進包括對測序數(shù)據(jù)進行過濾,利用高質(zhì)量的堿基/序列進行分析、優(yōu)化序列比對算法,減少比對錯誤、根據(jù)突變堿基在讀段的分布進行過濾,減少讀段末端因比對錯誤導(dǎo)致的錯配、要求突變出現(xiàn)在同一位點多條具有不同比對方向的獨立讀段上,減少單鏈損傷導(dǎo)致的測序錯誤以及利用平行對照樣本進行系統(tǒng)誤差的校正等[45]。然而,上述兩種策略提高NGS突變檢測準(zhǔn)確性的能力仍然非常有限,僅能降低測序錯誤率至10–3左右。采用分子一致性測序策略(molecular consensus sequencing strategy)進行測序錯誤校正的分子一致性測序具有很高準(zhǔn)確性,可實現(xiàn)在單個DNA分子水平上準(zhǔn)確的突變檢測[45],目前被認(rèn)為是最有效的降低NGS測序錯誤率的策略。
該策略的基本原理是:利用同一模板來源的多個拷貝的測序信息(即多次測量)進行測序錯誤的校正,從而降低NGS的錯誤率(圖2)。分子一致性測序通常使用PCR擴增來獲得一條模板的多個拷貝片段,并利用模板上的分子標(biāo)簽(molecular barcodes)識別和標(biāo)記這些從一條模板來源的拷貝片段的測序信息。隨后,對這些拷貝片段分別進行測序并進行比對。理論上,這些同一模板來源的拷貝片段是同質(zhì)的,其序列信息應(yīng)當(dāng)是完全一致的。同一位點上一致的堿基信息代表了該位點真實的堿基信息,其中少數(shù)不一致的變異信息則提示可能源于測序錯誤。通過這種比對,可以去除大量因隨機測序錯誤導(dǎo)致的變異位點,得到與模板信息高度一致的序列信息用于突變檢測。根據(jù)待檢測的模板的不同,一致性測序分析又進一步可以分為基于單鏈的一致性測序方法(single strand consensus sequencing,SSCS)[46,47]和基于DNA互補雙鏈的一致性測序方法(duplex consensus sequencing,DCS)[45]。DCS對DNA雙鏈模板的兩條單鏈同時進行測序錯誤的校正,能夠進一步剔除在SSCS中不能去除的單鏈損傷所導(dǎo)致的測序錯誤,從而進一步提高了一致性測序分析的準(zhǔn)確性,理論上可以將NGS堿基識別的錯誤率降低至10–9[48]。
圖2 分子一致性測序策略原理圖
對待測模板添加外源性分子標(biāo)簽后進行PCR擴增及NGS測序,根據(jù)分子標(biāo)簽提取同一模板來源的PCR拷貝的序列。理論上,真實的變異(黃色圓點)會隨著PCR擴增而在絕大多數(shù)拷貝中被觀察到,而隨機測序錯誤導(dǎo)致的變異(紅色圓點)只會出現(xiàn)在部分拷貝中。利用這種區(qū)別,可以識別和去除由于隨機測序錯誤導(dǎo)致的變異,從而提高NGS進行突變檢測的準(zhǔn)確性。當(dāng)使用內(nèi)源性標(biāo)簽時,無需另外添加分子標(biāo)簽,直接使用序列在基因組上的比對坐標(biāo)作為分子標(biāo)簽提取同一模板來源的PCR拷貝序列。
2012年,Schmitt等[48]首次報道了基于分子一致性策略的低頻突變檢測方法,即Duplex sequencing (DupSeq)。該方法引入了雙鏈的單分子標(biāo)簽(unique molecular barcodes,UMIs)對DNA雙鏈模板同時進行標(biāo)記,從而將DNA雙鏈的拷貝片段的信息結(jié)合起來進行測序錯誤校正,其可以將NGS的錯誤率降低至10–7以下[48,49]。DupSeq目前已經(jīng)商業(yè)化,并被廣泛用于對各種致突變劑和致癌物誘發(fā)突變的檢測[34,50,51]。但是,DupSeq利用PCR擴增來獲得大量目標(biāo)基因片段的拷貝片段來進行測序錯誤校正,相對于常規(guī)的測序來說測序深度和測序成本很高,因此迄今為止主要用于對于少數(shù)目標(biāo)基因片段或者較小的基因組范圍進行檢測。針對這一不足,Hoang等[52]采用Bottleneck sequencing system (BotSeqS)通過在進行PCR 擴增前對文庫片段進行稀釋的策略以及利用DNA片段的斷裂位點作為內(nèi)源性的UMIs,實現(xiàn)了對于人類基因組全基因組范圍上的自發(fā)突變的檢測。Matsumura等[53]采用與BotSeqS類似的策略,開發(fā)了Hypothesis alignment with weak overlap (Hawk-SeqTM),并應(yīng)用于檢測小鼠基因組上誘發(fā)突變的檢測。作者團隊也經(jīng)過多年研究,利用了縮短的測序文庫經(jīng)雙端測序產(chǎn)生的重疊片段,開發(fā)了一種不依賴于PCR擴增的DCS檢測方法:DNA互補鏈雙端測序一致性測序方法,命名為PECC-Seq (paired-end and complementary consensus sequen-cing)。技術(shù)原創(chuàng)點包括截短片段,PCR-free文庫制備,DNA互補雙鏈通過雙端測序產(chǎn)生4條重疊片段,與參考基因組比對進行錯誤校正[54]。該策略降低了NGS測序的錯誤率,同時提高了測序效率從而降低了測序成本。后續(xù)又經(jīng)深入分析,找到測序錯誤主要來源于文庫制備過程中發(fā)生單鏈損傷,在末端修復(fù)過程中可能會向模版中引入難以去除的末端修復(fù)錯誤,從而干擾DCS檢測的準(zhǔn)確性,據(jù)此在文庫制備時利用單鏈特異性的核酸酶對末端修復(fù)位點進行特異性切除,測序錯誤率進一步降低至~3.7×10–8[55]。Otsubo等[56]也報道了類似發(fā)現(xiàn)并采取相應(yīng)優(yōu)化措施,如使用單鏈特異性核酸酶的Jade-SeqTM(基于Hawk-SeqTM)。采用雙脫氧核苷酸阻斷損傷位點合成的NanoSeq (基于BotSeqS)由Sanger研究所開發(fā),將NGS錯誤率進一步降低至~5×10–9,并且測序效率高,目前代表了本領(lǐng)域最前沿水平[57]。Bae等[58]提出Concatenating original duplex for error correction (CODEC)嘗試了另一種思路,通過將DNA雙鏈串聯(lián)成單鏈進行DCS分析,可以同時兼容全基因組測序和靶向測序的策略。
此外,第三代測序平臺的PacBio single-molecule real-time sequencing (SMRT)測序也可實現(xiàn)基于DCS的低頻突變檢測。三代測序邊合成邊測序,可提供目前最長的讀取長度。將樣本中的雙鏈DNA通過兩端加上接頭構(gòu)建啞鈴狀分子結(jié)構(gòu),得到圓環(huán)結(jié)構(gòu)分子可進行滾環(huán)復(fù)制,通過對環(huán)狀文庫分子循環(huán)測序即可消除測序錯誤率[41]。基于上述原理的三代測序技術(shù) High-fidelity sequencing (HiFi sequencing)已被證明可以在全基因組水平上檢測細(xì)菌、線蟲和哺乳動物細(xì)胞上的低頻突變,測序準(zhǔn)確性達到自發(fā)突變頻率的水平[41]。利用同樣策略加發(fā)夾結(jié)構(gòu)接頭、利用滾環(huán)復(fù)制擴增和錯誤校正的還有SMM-seq,該技術(shù)使用具有強鏈置換活性的人工耐熱聚合酶對環(huán)狀DNA單鏈分子進行有效且無偏倚放大后測序,應(yīng)用在誘變劑和衰老研究中已實現(xiàn)了準(zhǔn)確、經(jīng)濟高效的測序[59]。
分子一致性測序策略能夠顯著提高NGS用于低頻突變檢測的準(zhǔn)確性,已應(yīng)用于人群、小鼠和微生物等諸多場景的自發(fā)突變檢測和致突變劑誘發(fā)突變的低頻突變檢測[50,52,53,57]。但是相較于常規(guī)的NGS檢測,其所需的測序深度和測序成本很高。在常規(guī)的NGS測序中,理論上每一個模板至多只應(yīng)當(dāng)被檢測一次以避免PCR重復(fù)片段帶來的偏倚。而在分子一致性測序中,同一個模板來源的多個拷貝需要被測序以進行錯誤校正,因此分子一致性測序方法的測序深度比常規(guī)的NGS要高很多,由此帶來測序成本昂貴的問題使得該技術(shù)的實際應(yīng)用受限,現(xiàn)階段大多報道僅用于靶向測序或用于小型基因組物種上的測序。因此,對于大型基因組(如人類和大小鼠基因組)全基因組范圍的突變檢測,如何降低分子一致性測序成本成為一個亟需解決的問題,例如BotSeqS和NanoSeq對文庫片段依據(jù)算法進行稀釋[52,57]、PECC-Seq利用PCR-free策略減少拷貝數(shù)[54,55],都是提高測序效率、降低測序成本的策略。在低頻突變檢測中,單一方法可能很難同時滿足低頻突變檢測的廣度和深度兩個維度,需要根據(jù)具體研究目的進行方法的選擇和設(shè)計。
長期以來,基于表型篩選的突變檢測方法是最常用的評價外源化合物致突變性的手段[20~22],但是如前所述,均存在諸多局限性,低頻突變NGS檢測技術(shù)未來有望與一般毒性實驗整合,替代經(jīng)典體內(nèi)致突變實驗用于外源化學(xué)物致突變性的評價。將測序技術(shù)整合現(xiàn)有毒性檢測終點,不僅能夠用突變頻率進行受試物致突變性的定性評價,還能通過定量分析推算安全閾值,最后還能進行突變特征分析更好地理解誘變機制。目前,已有關(guān)于ecNGS被用于細(xì)菌、哺乳動物細(xì)胞和小鼠模型中環(huán)境誘變劑誘發(fā)突變檢測的研究報道[34,53,54]。作者團隊在前期工作中,在delta轉(zhuǎn)基因小鼠模型中同時應(yīng)用PECC-Seq和基因突變實驗對誘變劑馬兜鈴酸I誘導(dǎo)的突變進行檢測,發(fā)現(xiàn)與基因突變實驗相比,PECC-Seq在突變頻率檢測上表現(xiàn)出更高的靈敏度和特異性。此外,鑒定的化合物突變特征與臨床馬兜鈴酸相關(guān)腫瘤上檢測到的突變標(biāo)簽高度接近,而這樣的突變譜是難以通過報告基因PCR產(chǎn)物測序(基因長度僅為456 bp)獲得[55]。目前,國際多機構(gòu)已經(jīng)開展了對于ecNGS在致突變性和致癌性評價應(yīng)用的討論[60]。2023年,國際健康與環(huán)境科學(xué)研究機構(gòu)(Health and Environmental Sciences Institute,HESI)下屬的遺傳毒性測試專家工作組開展了評估,隨后,國際相關(guān)研究機構(gòu)、多國制藥企業(yè)和安評機構(gòu)于2023年5月聯(lián)合在雜志上發(fā)表評論文章[61],呼吁采取行動,進一步表征ecNGS并將其標(biāo)準(zhǔn)化,使其盡早成為被監(jiān)管機構(gòu)認(rèn)可的重要遺傳毒性測試方法列入指南,用于藥物研發(fā)或環(huán)境誘變劑的風(fēng)險評估。
細(xì)胞與基因編輯作為革命性技術(shù)在全球范圍內(nèi)高速推進,在不同適應(yīng)癥領(lǐng)域內(nèi)均展示巨大應(yīng)用潛力,全球首款CRISPR基因編輯治療藥物Exa-cel在2023年底獲批用于治療鐮狀細(xì)胞性貧血病,成為領(lǐng)域的里程碑事件。與此同時,細(xì)胞與基因編輯治療藥物潛在的健康風(fēng)險也愈發(fā)引起關(guān)注,近期FDA調(diào)查CAR-T治療后有T細(xì)胞惡性腫瘤的嚴(yán)重風(fēng)險,提示上述藥物潛在的細(xì)胞惡性轉(zhuǎn)化、基因編輯的插入突變和脫靶效應(yīng)的風(fēng)險亟需評估。但是,針對上述風(fēng)險的篩查方案尚未達成普遍共識。目前多采納的計算機預(yù)測工具(prediction,ISP)基于算法對sgRNA人類基因組同源性可能的錯配序列進行比對和預(yù)測,結(jié)合靶向測序技術(shù)或全基因組測序考察可能的切割位點,以評估脫靶風(fēng)險。但是由于現(xiàn)有數(shù)據(jù)庫數(shù)據(jù)量有限、個體差異的存在和NGS高成本和高錯誤率,使監(jiān)管機構(gòu)對上述方案的檢測能力存在擔(dān)憂,而新興的低錯誤率和低成本的ecNGS作為替代工具被期待,被國際領(lǐng)域?qū)<衣?lián)合呼吁盡早進行驗證研究[61]。此外,針對基因修飾的免疫細(xì)胞或干細(xì)胞的成瘤性/致瘤性風(fēng)險,目前體外細(xì)胞評價普遍采用的技術(shù)包括核型分析(評估遺傳毒性)、軟瓊脂克隆形成實驗(檢測轉(zhuǎn)化細(xì)胞)、端粒酶活性檢測和數(shù)字PCR(檢測未分化iPSCs或ESCs)。上述技術(shù)檢測到的細(xì)胞多為表型已發(fā)生改變,而基因組上突變負(fù)荷的增加,或驅(qū)動基因已發(fā)生突變但是細(xì)胞尚未惡性轉(zhuǎn)化的早期狀態(tài)則無法被上述技術(shù)檢測到。在體外培養(yǎng)階段對細(xì)胞全基因組范圍進行ecNGS,可考察基因突變發(fā)生頻率是否升高,結(jié)合針對遞送載體序列整合到宿主基因組中的預(yù)期位點進行靶向ecNGS,都有望在早期識別細(xì)胞致瘤性/成瘤性風(fēng)險。
腫瘤的發(fā)生是環(huán)境因素和遺傳因素相互作用的結(jié)果。人類腫瘤的發(fā)生90%與環(huán)境因素有關(guān),但真實世界中人類接觸的環(huán)境物質(zhì)極為復(fù)雜,闡明復(fù)雜環(huán)境因素與人類相關(guān)腫瘤的關(guān)聯(lián)及機制是科學(xué)家持續(xù)努力解決的科學(xué)問題。不同的環(huán)境誘變因素會誘導(dǎo)各自不同的突變類型,包括堿基突變類型、突變發(fā)生的序列偏向性和突變發(fā)生的鏈偏向性等??茖W(xué)家通過對大量腫瘤樣本進行基因組測序和突變分析,得出的特征性印記被稱為突變標(biāo)簽(mutational signature),突變標(biāo)簽對于了解腫瘤的發(fā)生機制、診斷和治療具有重要意義。迄今已鑒定出超過50種的突變標(biāo)簽,例如吸煙可以引起以非轉(zhuǎn)錄鏈上G>T為主的突變(COSMIC數(shù)據(jù)庫突變標(biāo)簽4);而中藥致癌成分馬兜鈴酸暴露可以引起以T>A為主的顛換突變,并且易發(fā)生于非轉(zhuǎn)錄鏈的5′-CpApG-3′序列上(COSMIC數(shù)據(jù)庫突變標(biāo)簽22)[1,62~64]。然而,上述突變標(biāo)簽是從腫瘤組織的突變數(shù)據(jù)中通過非負(fù)矩陣分解的統(tǒng)計方法分離的[65],其可能混雜了不同的致突變過程的作用、測序錯誤和數(shù)據(jù)分析引入的偏倚等,并不一定真實反映單一誘變因素的不良結(jié)局,仍有許多致突變過程和其突變特征之間尚未建立聯(lián)系。將動物實驗與人群流行病研究結(jié)果整合分析,有可能為闡明復(fù)雜環(huán)境因素與人類相關(guān)腫瘤發(fā)生的關(guān)聯(lián)提供重要參考。借助基于NGS的低頻突變檢測手段,可以對實驗動物給予單個誘變劑或混合物,在正常靶器官基因組上進行基因組的突變頻率與突變特征分析。同時結(jié)合流行病學(xué)研究,在相關(guān)癌癥患者上進行內(nèi)暴露檢測或DNA加合物組研究以分析致癌物暴露特征,利用NGS技術(shù)分析腫瘤組織基因組突變特征,與COSMIC數(shù)據(jù)庫中的突變標(biāo)簽進行比對,同時把實驗動物研究結(jié)果與臨床研究數(shù)據(jù)進行關(guān)聯(lián)分析,有可能鑒定出與腫瘤發(fā)生最為相關(guān)的環(huán)境因素。
低頻突變檢測技術(shù)對腫瘤的多階段發(fā)展研究也具有潛在價值。不同階段的突變特征動態(tài)地記錄了機體經(jīng)歷的不同誘變過程,例如貫穿整個生命周期的胞嘧啶自發(fā)脫氨基作用、個體既往或者正在經(jīng)歷的外源性誘變劑的暴露和由于突變積累導(dǎo)致的DNA修復(fù)酶缺陷等[62,65]。同時,一些與疾病發(fā)生密切相關(guān)的關(guān)鍵基因的突變也提示了疾病發(fā)生發(fā)展過程中經(jīng)歷的關(guān)鍵步驟[66]。通過監(jiān)測腫瘤發(fā)生發(fā)展過程中基因組上突變特征的動態(tài)變化以及關(guān)鍵基因的突變情況,將有可能揭示整個疾病發(fā)展過程中不同階段不同致突變因素的作用情況,以及影響疾病發(fā)生進展的關(guān)鍵步驟,從而闡明腫瘤發(fā)生發(fā)展的機制以及可能的防治靶點。
生物學(xué)標(biāo)志對于外源致癌物的暴露評估、致癌風(fēng)險評估和癌癥早期診斷和預(yù)防等方面具有重要作用,其主要包括效應(yīng)標(biāo)志、暴露標(biāo)志和易感標(biāo)志[67]?;蛲蛔兪悄[瘤發(fā)生的起始事件,尤其是腫瘤相關(guān)基因上的驅(qū)動突變的不斷積累意味著個體遠(yuǎn)期腫瘤發(fā)生風(fēng)險的增加。目前,ecNGS檢測低頻突變的錯誤率可達10–7以下,接近人類基因組的自發(fā)突變水平[45,48,49,55,57,58],表明低頻突變檢測方法可以用于一般人群的體細(xì)胞的突變檢測?;蚪M上突變頻率的升高可以作為腫瘤早期效應(yīng)標(biāo)志用于預(yù)測患病風(fēng)險。因此,對于暴露于特定環(huán)境致癌因素下的人群,例如高污染地區(qū)、職業(yè)暴露的健康高風(fēng)險人群,或使用具有誘變作用藥物治療疾病的患者,在致癌因素相對已知的情況下,對其外周血或者尿液樣本來源DNA,通過基于NGS的低頻突變檢測技術(shù)考察基因組上突變負(fù)荷的升高、與特定致癌物突變標(biāo)簽相關(guān)聯(lián)的突變特征、疾病相關(guān)易感基因的突變狀態(tài)等,將有助于監(jiān)測其健康狀態(tài)以及預(yù)測遠(yuǎn)期疾病風(fēng)險。
除健康高風(fēng)險人群外,低頻突變檢測技術(shù)還有望用于腫瘤患者的風(fēng)險監(jiān)測,因為低頻突變與腫瘤的復(fù)發(fā)和耐藥性的產(chǎn)生密切相關(guān)。微小殘留病灶(minimal residual disease,MRD)是癌癥患者在經(jīng)過治療后體內(nèi)仍然存在難以被常規(guī)醫(yī)學(xué)手段鑒別的殘留腫瘤細(xì)胞,通過液體活檢才能被發(fā)現(xiàn)[68]。治療中可先對原發(fā)腫瘤測序篩查患者特異性突變的基因,術(shù)后對外周血中凋亡腫瘤細(xì)胞釋放入血的DNA片段通過PCR技術(shù)或基于NGS的低頻突變檢測技術(shù)進行分析,評估腫瘤復(fù)發(fā)風(fēng)險。MRD檢測最早應(yīng)用于血液腫瘤,目前用于實體瘤的臨床實踐研究也廣泛開展。由于NGS成本的限制,很難實現(xiàn)全基因組或全外顯子組超高深度測序,因此多利用靶向測序策略,例如CAPP-Seq通過篩選139個肺癌相關(guān)高頻突變基因,縮小測序片段大小進而實現(xiàn)高準(zhǔn)確性的超深度測序[69];Tam-Seq通過設(shè)計特異性引物對靶基因的目標(biāo)區(qū)域進行PCR擴增之后再測序[70];Safer-Seq利用分子條形碼以及巢式PCR區(qū)分正反義鏈,識別PCR及測序錯誤,進一步提高ctDNA突變檢測的靈敏度及特異度[71]。近年來采用ecNGS技術(shù)的還有用于評估急性髓細(xì)胞性白血病MRD的報道,可以識別到VAFs在0.05%~0.10% 的相關(guān)突變,并提示了MRD狀態(tài)與疾病復(fù)發(fā)和預(yù)后的相關(guān)性[72~74]。類似檢測用于術(shù)后也有可能檢測到治療藥物耐藥性的發(fā)生,以此依據(jù)選擇最佳用藥方案?,F(xiàn)階段MRD檢測仍然面臨很多挑戰(zhàn),包括ctDNA豐度過低導(dǎo)致假陰性結(jié)果,腫瘤時空異質(zhì)性導(dǎo)致所檢測樣本難以反映腫瘤整體情況,以及MRD的腫瘤細(xì)胞與原發(fā)腫瘤的突變發(fā)生變化等;另外,將低頻突變檢測技術(shù)用于人群的相關(guān)研究報道還很有限,還需要更多的人群研究結(jié)果挖掘其潛在應(yīng)用價值。
以ecNGS為代表的低頻突變檢測技術(shù)的出現(xiàn),為生命科學(xué)領(lǐng)域待解難題的體細(xì)胞突變、發(fā)育與衰老的深入研究提供了重要研究工具。2021年的一期雜志連續(xù)刊發(fā)四篇相關(guān)論文揭示人體體細(xì)胞突變規(guī)律。其中,利用NanoSeq技術(shù)的團隊對人體不同組織進行突變分析,發(fā)現(xiàn)生殖細(xì)胞獲得突變的速度異常的低,可能由于基底精原細(xì)胞的細(xì)胞分裂率較低,而結(jié)腸組織自發(fā)突發(fā)頻率相對其他組織更高[75]。來自中國的研究團隊則利用顯微切割技術(shù)對腫瘤組織取樣進行低頻突變測序,發(fā)現(xiàn)不同正常組織器官的體細(xì)胞均存在大量的突變積累,而體細(xì)胞突變負(fù)荷及等位基因突變頻率表現(xiàn)出明顯的器官差異性,其中正常肝組織的體細(xì)胞突變負(fù)荷最高,而胰腺實質(zhì)細(xì)胞中的突變負(fù)荷是最低的[76]。此外,在許多需要對高異質(zhì)性樣本檢測的場景,例如對環(huán)境中耐藥菌株的監(jiān)測等,基于NGS的低頻突變檢測方法都可能成為新的檢測和研究工具。
綜上所述,經(jīng)典的突變檢測技術(shù)已得到廣泛應(yīng)用和驗證,方法簡便,可對外源化學(xué)物在早期突變篩查中進行快速檢測,因此可針對不同目的與NGS技術(shù)進行互補使用?;贜GS的低頻突變檢測技術(shù)具有更高的準(zhǔn)確性、更豐富的數(shù)據(jù)輸出以及跨物種和跨位點的適用性,隨著技術(shù)的不斷發(fā)展,有望在藥物研發(fā)領(lǐng)域、環(huán)境科學(xué)和生命科學(xué)基礎(chǔ)研究領(lǐng)域不斷擴大應(yīng)用空間,為解明生命現(xiàn)象和活動規(guī)律、疾病準(zhǔn)確診斷、降低環(huán)境健康風(fēng)險以及保障臨床用藥安全等方面發(fā)揮更重要的作用,成為突變研究、監(jiān)管安全測試和新興臨床應(yīng)用的強大新工具。
感謝中國人民解放軍海軍軍醫(yī)大學(xué)的張?zhí)鞂毥淌趯ξ恼陆o予的建議和討論。
[1] Alexandrov LB, Nik-Zainal S, Wedge DC, Aparicio SAJR, Behjati S, Biankin AV, Bignell GR, Bolli N, Borg A, B?rresen-Dale AL, Boyault S, Burkhardt B, Butler AP, Caldas C, Davies HR, Desmedt C, Eils R, Eyfj?rd JE, Foekens JA, Greaves M, Hosoda F, Hutter B, Ilicic T, Imbeaud S, Imielinski M, J?ger N, Jones DTW, Jones D, Knappskog S, Kool M, Lakhani SR, López-Otín C, Martin S, Munshi NC, Nakamura H, Northcott PA, Pajic M, Papaemmanuil E, Paradiso A, Pearson JV, Puente XS, Raine K, Ramakrishna M, Richardson AL, Richter J, Rosenstiel P, Schlesner M, Schumacher TN, Span PN, Teague JW, Totoki Y, Tutt ANJ, Valdés-Mas R, van Buuren MM, van 't Veer L, Vincent-Salomon A, Waddell N, Yates LR, Australian Pancreatic Cancer Genome Initiative, ICGC Breast Cancer Consortium, ICGC MMML-Seq Consortium, ICGC PedBrain, Zucman-Rossi J, Futreal PA, McDermott U, Lichter P, Meyerson M, Grimmond SM, Siebert R, Campo E, Shibata T, Pfister SM, Campbell PJ, Stratton MR. Signatures of mutational processes in human cancer.,2013, 500(7463): 415–421.
[2] Haradhvala NJ, Polak P, Stojanov P, Covington KR, Shinbrot E, Hess JM, Rheinbay E, Kim J, Maruvka YE, Braunstein LZ, Kamburov A, Hanawalt PC, Wheeler DA, Koren A, Lawrence MS, Getz G. Mutational strand asymmetries in cancer genomes reveal mechanisms of DNA damage and repair., 2016, 164(3): 538–549.
[3] Burrell RA, McGranahan N, Bartek J, Swanton C. The causes and consequences of genetic heterogeneity in cancer evolution.,2013, 501(7467): 338–345.
[4] Beckman RA, Loeb LA. Evolutionary dynamics and significance of multiple subclonal mutations in cancer.,2017, 56: 7–15.
[5] Schmitt MW, Loeb LA, Salk JJ. The influence of subclonal resistance mutations on targeted cancer therapy.,2016, 13(6): 335–347.
[6] Martincorena I, Campbell PJ. Somatic mutation in cancer and normal cells., 2015, 349(6255): 1483–1489.
[7] Kucab JE, Zou XQ, Morganella S, Joel M, Nanda AS, Nagy E, Gomez C, Degasperi A, Harris R, Jackson SP, Arlt VM, Phillips DH, Nik-Zainal S. A compendium of mutational signatures of environmental agents., 2019, 177(4): 821–836.e16.
[8] Bielas JH, Loeb LA. Quantification of random genomic mutations., 2005, 2 (4): 285–290.
[9] Roach JC, Glusman G, Smit AFA, Huff CD, Hubley R, Shannon PT, Rowen L, Pant KP, Goodman N, Bamshad M, Shendure J, Drmanac R, Jorde LB, Hood L, Galas DJ. Analysis of genetic inheritance in a family quartet by whole-genome sequencing.,2010, 328(5978): 636–639.
[10] Milholland B, Dong X, Zhang L, Hao XX, Suh YS, Vijg J. Differences between germline and somatic mutation rates in humans and mice., 2017, 8: 15183.
[11] Besenbacher S, Liu SY, Izarzugaza JMG, Grove J, Belling K, Bork-Jensen J, Huang SJ, Als TD, Li ST, Yadav R, Rubio-García A, Lescai F, Demontis D, Rao JH, Ye WJ, Mailund T, Friborg RM, Pedersen CNS, Xu RQ, Sun JH, Liu H, Wang O, Cheng XF, Flores D, Rydza E, Rapacki K, Damm S?rensen J, Chmura P, Westergaard D, Dworzynski P, S?rensen TI, Lund O, Hansen T, Xu X, Li N, Bolund L, Pedersen O, Eiberg H, Krogh A, B?rglum AD, Brunak S, Kristiansen K, Schierup MH, Wang J, Gupta R, Villesen P, Rasmussen S. Novel variation andmutation rates in population-wideassembled Danish trios.,2015, 6: 5969.
[12] Salk JJ, Kennedy SR. Next-generation genotoxicology: using modern sequencing technologies to assess somatic mutagenesis and cancer risk.,2020, 61(1): 135–151.
[13] White PA, Luijten M, Mishima M, Cox JA, Hanna JN, Maertens RM, Zwart EP.mammalian cell mutation assays based on transgenic reporters: a report of the international workshop on genotoxicity testing (IWGT).,2019, 847: 403039.
[14] Kirkland D, Uno Y, Luijten M, Beevers C, van Benthem J, Burlinson B, Dertinger S, Douglas GR, Hamada S, Horibata K, Lovell DP, Manjanatha M, Martus HJ, Mei N, Morita T, Ohyama W, Williams A.genotoxicity testing strategies: report from the 7th international workshop on genotoxicity testing (IWGT).,2019, 847: 403035.
[15] Gollapudi BB, Lynch AM, Heflich RH, Dertinger SD, Dobrovolsky VN, Froetschl R, Horibata K, Kenyon MO, Kimoto T, Lovell DP, Stankowski LF Jr, White PA, Witt KL, Tanir JY. ThePig-a assay: a report of the international workshop on genotoxicity testing (IWGT) workgroup.,2015, 783: 23–35.
[16] Nohmi T. Past, present and future directions ofdelta rodent gene mutation assays.,2016, 4(1): 1–13.
[17] Nohmi T, Masumura K, Toyoda-Hokaiwado N. Transgenic rat models for mutagenesis and carcinogenesis.,2017, 39: 11.
[18] Ames BN, Lee FD, Durston WE. An improved bacterial test system for the detection and classification of mutagens and carcinogens., 1973, 70(3): 782–786.
[19] OECD/OCDE. Test no. 470: mammalian erythrocyte Pig-a gene mutation assay, OECD guidelines for the testing of chemicals, section 4.,2022.
[20] OECD/OCDE. Test no. 471: bacterial reverse mutation test, OECD guidelines for the testing of chemicals, section 4.,2020.
[21] OECD/OCDE. Test no. 488: transgenic rodent somatic and germ cell gene mutation assays, OECD guidelines for the testing of chemicals, section 4.,2020.
[22] OECD/OCDE. Test no. 490:mammalian cell gene mutation tests using the thymidine kinase gene, OECD guidelines for the testing of chemicals, section 4.,2016.
[23] Nohmi T, Masumura K. Gpt delta transgenic mouse: a novel approach for molecular dissection of deletion mutations.,2004, 38: 97–121.
[24] Dertinger SD, Bhalli JA, Roberts DJ, Stankowski LF Jr, Gollapudi BB, Lovell DP, Recio L, Kimoto T, Miura D, Heflich RH. Recommendations for conducting the rodent erythrocyte Pig-a assay: a report from the HESI GTTC Pig-a workgroup.,2021, 62(3): 227–237.
[25] Parsons BL, Heflich RH. Genotypic selection methods for the direct analysis of point mutations.,1997, 387(2): 97–121.
[26] Postel M, Roosen A, Laurent-Puig P, Taly V, Wang-Renault SF. Droplet-based digital PCR and next generation sequencing for monitoring circulating tumor DNA: a cancer diagnostic perspective., 2018, 18(1): 7–17.
[27] Hindson BJ, Ness KD, Masquelier DA, Belgrader P, Heredia NJ, Makarewicz AJ, Bright IJ, Lucero MY, Hiddessen AL, Legler TC, Kitano TK, Hodel MR, Petersen JF, Wyatt PW, Steenblock ER, Shah PH, Bousse LJ, Troup CB, Mellen JC, Wittmann DK, Erndt NG, Cauley TH, Koehler RT, So AP Dube S, Rose KA, Montesclaros L, Wang SL, Stumbo DP, Hodges SP, Romine S, Milanovich FP, White HE, Regan JF, Karlin-Neumann GA, Hindson CM, Saxonov S, Colston BW. High-throughput droplet digital PCR system for absolute quantitation of DNA copy number.,2011, 83(22): 8604–8610.
[28] Chen LX, Liu PF, Evans TC Jr, Ettwiller LM. DNA damage is a pervasive cause of sequencing errors, directly confounding variant identification.,2017, 355(6326): 752–756.
[29] Costello M, Pugh TJ, Fennell TJ, Stewart C, Lichtenstein L, Meldrim JC, Fostel JL, Friedrich DC, Perrin D, Dionne D, Kim S, Gabriel SB, Lander ES, Fisher S, Getz G. Discovery and characterization of artifactual mutations in deep coverage targeted capture sequencing data due to oxidative DNA damage during sample preparation.,2013, 41(6): e67.
[30] Do HD, Dobrovic A. Sequence artifacts in DNA from formalin-fixed tissues: causes and strategies for minimization., 2015, 61(1): 64–71.
[31] Peng Q, Xu C, Kim D, Lewis M, DiCarlo J, Wang YX. Targeted single primer enrichment sequencing with single end duplex-UMI.,2019, 9(1): 4810.
[32] The Somatic Mutation Working Group of the SEQC-II Consortium. Achieving reproducibility and accuracy in cancer mutation detection with whole-genome and whole-exome sequencing.,2019, 626440.
[33] Maslov AY, Quispe-Tintaya W, Gorbacheva T, White RR, Vijg J. High-throughput sequencing in mutation detection: a new generation of genotoxicity tests?.,2015, 776: 136–143.
[34] Valentine CC 3rd, Young RR, Fielden MR, Kulkarni R, Williams LN, Li T, Minocherhomji S, Salk JJ. Direct quantification ofmutagenesis and carcinogenesis using duplex sequencing.,2020, 117(52): 33414–33425.
[35] Fox EJ, Reid-Bayliss KS, Emond MJ, Loeb LA. Accuracy of next generation sequencing platforms., 2014, 1: 1000106.
[36] Shendure J, Ji H. Next-generation DNA sequencing.,2008, 26(10): 1135–1145.
[37] Dong X, Zhang L, Milholland B, Lee M, Maslov AY, Wang T, Vijg J. Accurate identification of single- nucleotide variants in whole-genome-amplified single cells.,2017, 14(5): 491–493.
[38] Zong CH, Lu SJ, Chapman AR, Xie XS. Genome-wide detection of single-nucleotide and copy-number variations of a single human cell.,2012, 338(6114): 1622– 1626.
[39] Gonzalez-Pena V, Natarajan S, Xia YT, Klein D, Carter R, Pang YK, Shaner B, Annu K, Putnam D, Chen WA, Connelly J, Pruett-Miller S, Chen X, Easton J, Gawad C. Accurate genomic variant detection in single cells with primary template-directed amplification.,2021, 118(24): e2024176118.
[40] Gawad C, Koh W, Quake SR. Single-cell genome sequencing: current state of the science.2016, 17 (3): 175–188.
[41] Revollo JR, Miranda JA, Dobrovolsky VN. PacBio sequencing detects genome-wide ultra-low-frequency substitution mutations resulting from exposure to chemical mutagens.,2021, 62(8): 438–445.
[42] Bai X, Li YX, Zeng XM, Zhao Q, Zhang ZW. Single-cell sequencing technology in tumor research.,2021, 518: 101–109.
[43] Zhang L, Lee M, Maslov AY, Montagna C, Vijg J, Dong X. Analyzing somatic mutations by single-cell whole-genome sequencing.,2023.
[44] He J, Meng M, Zhou XC, Gao R, Wang H. Isolation of single cells from human hepatoblastoma tissues for whole- exome sequencing.,2023, 4(1): 102052.
[45] Salk JJ, Schmitt MW, Loeb LA. Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations.,2018, 19(5): 269– 285.
[46] Lou DI, Hussmann JA, McBee RM, Acevedo A, Andino R, Press WH, Sawyer SL. High-throughput DNA sequencing errors are reduced by orders of magnitude using circle sequencing.,2013, 110(49): 19872–19877.
[47] Kinde I, Wu J, Papadopoulos N, Kinzler KW, Vogelstein B. Detection and quantification of rare mutations with massively parallel sequencing.,2011, 108(23): 9530–9535.
[48] Schmitt MW, Kennedy SR, Salk JJ, Fox EJ, Hiatt JB, Loeb LA. Detection of ultra-rare mutations by next-generation sequencing.,2012, 109(36): 14508–14513.
[49] Kennedy SR, Schmitt MW, Fox EJ, Kohrn BF, Salk JJ, Ahn EH, Prindle MJ, Kuong KJ, Shen JC, Risques RA, Loeb LA. Detecting ultralow-frequency mutations by duplex sequencing., 2014, 9(11): 2586–2606.
[50] Chawanthayatham S, Valentine CC 3rd, Fedeles BI, Fox EJ, Loeb LA, Levine SS, Slocum SL, Wogan GN, Croy RG, Essigmann JM. Mutational spectra of aflatoxin B1establish biomarkers of exposure for human hepatocellular carcinoma.,2017, 114(15): E3101–E3109.
[51] LeBlanc DPM, Meier M, Lo FY, Schmidt E, Valentine C 3rd, Williams A, Salk JJ, Yauk CL, Marchetti F. Duplex sequencing identifies genomic features that determine susceptibility to benzo(a)pyrene-inducedmutations.,2022, 23(1): 542.
[52] Hoang ML, Kinde I, Tomasetti C, McMahon KW, Rosenquist TA, Grollman AP, Kinzler KW, Vogelstein B, Papadopoulos N. Genome-wide quantification of rare somatic mutations in normal human tissues using massively parallel sequencing.,2016, 113(35): 9846–9851.
[53] Matsumura S, Sato H, Otsubo Y, Tasaki J, Ikeda N, Morita O. Genome-wide somatic mutation analysisHawk- SeqTMreveals mutation profiles associated with chemical mutagens.,2019, 93(9): 2689–2701.
[54] You XY, Thiruppathi S, Liu WY, Cao YY, Naito M, Furihata C, Honma M, Luan Y, Suzuki T. Detection of genome-wide low-frequency mutations with paired-end and complementary consensus sequencing (PECC-Seq) revealed end-repair-derived artifacts as residual errors.,2020, 94(10): 3475–3485.
[55] You XY, Cao YY, Suzuki T, Shao J, Zhu BZ, Masumura K, Xi J, Liu WY, Zhang XY, Luan Y. Genome-wide direct quantification ofmutagenesis using high-accuracy paired-end and complementary consensus sequencing.,2023, 51(21): e109.
[56] Otsubo Y, Matsumura S, Ikeda N, Yamane M. Single-strand specific nuclease enhances accuracy of error-corrected sequencing and improves rare mutation-detection sensitivity..2022, 96(1): 377–386.
[57] Abascal F, Harvey LMR, Mitchell E, Lawson ARJ, Lensing SV, Ellis P, Russell AJC, Alcantara RE, Baez-Ortega A, Wang YC, Kwa EJ, Lee-Six H, Cagan A, Coorens THH, Chapman MS, Olafsson S, Leonard S, Jones D, Machado HE, Davies M, ?bro NF, Mahubani KT, Allinson K, Gerstung M, Saeb-Parsy K, Kent DG, Laurenti E, Stratton MR, Rahbari R, Campbell PJ, Osborne RJ, Martincorena I. Somatic mutation landscapes at single-molecule resolution.,2021, 593(7859): 405–410.
[58] Bae JH, Liu RL, Roberts E, Nguyen E, Tabrizi S, Rhoades J, Blewett T, Xiong K, Gydush G, Shea D, An ZY, Patel S, Cheng J, Sridhar S, Liu MH, Lassen E, Skytte AB, Grońska-P?ski M, Shoag JE, Evrony GD, Parsons HA, Mayer EL, Makrigiorgos GM, Golub TR, Adalsteinsson VA. Single duplex DNA sequencing with CODEC detects mutations with high sensitivity.,2023, 55(5): 871–879.
[59] Maslov AY, Makhortov S, Sun SX, Heid J, Dong X, Lee M, Vijg J. Single-molecule, quantitative detection of low-abundance somatic mutations by high-throughput sequencing., 2022, 8(14): eabm3259.
[60] Lynch AM, Zanoni TB, Salk JJ, Martincorena I, Young RR, Kucab J, Valentine CC, Yauk C, Escobar PA, Witt KL, Fr?tschl R, Reed SH, Ashford A. Next generation sequencing workshop at the royal society of medicine (London, May 2022): how genomics is on the path to modernizing genetic toxicology.,2023, 38(4): 192–200.
[61] Marchetti F, Cardoso R, Chen CL, Douglas GR, Elloway J, Escobar PA, Harper T, Heflich RH, Kidd D, Lynch AM, Myers MB, Parsons BL, Salk JJ, Settivari RS, Smith-Roe SL, Witt KL, Yauk C, Young RR, Zhang SF, Mino-cherhomji S. Error-corrected next-generation sequencing to advance nonclinical genotoxicity and carcinogenicity testing.,2023, 22(3): 165–166.
[62] Helleday T, Eshtad S, Nik-Zainal S. Mechanisms underlying mutational signatures in human cancers.,2014, 15(9): 585–598.
[63] Alexandrov LB, Kim J, Haradhvala NJ, Huang MN, Tian Ng AW, Wu Y, Boot A, Covington KR, Gordenin DA, Bergstrom EN, Islam SMA, Lopez-Bigas N, Klimczak LJ, McPherson JR, Morganella S, Sabarinathan R, Wheeler DA, Mustonen V, PCAWG Mutational Signatures Working Group, Getz G, Rozen SG, Stratton MR, PCAWG Consortium. The repertoire of mutational signatures in human cancer.,2020, 578(7793): 94–101.
[64] Alexandrov LB, Ju YS, Haase K, Van Loo P, Martincorena I, Nik-Zainal S, Totoki Y, Fujimoto A, Nakagawa H, Shibata T, Campbell PJ, Vineis P, Phillips DH, Stratton MR. Mutational signatures associated with tobacco smoking in human cancer., 2016, 354(6312): 618–622.
[65] Nik-Zainal S, Kucab JE, Morganella S, Glodzik D, Alexandrov LB, Arlt VM, Weninger A, Hollstein M, Stratton MR, Phillips DH. The genome as a record of environmental exposure., 2015, 30(6): 763– 770.
[66] Martínez-Jiménez F, Mui?os F, Sentís I, Deu-Pons J, Reyes-Salazar I, Arnedo-Pac C, Mularoni L, Pich O, Bonet J, Kranas H, Gonzalez-Perez A, Lopez-Bigas N. A compendium of mutational cancer driver genes., 2020, 20(10): 555–572.
[67] He YD. Genomic approach to biomarker identification and its recent applications.,2006, 2(3–4): 103–133.
[68] Yin JA, O'Brien MA, Hills RK, Daly SB, Wheatley K, Burnett AK. Minimal residual disease monitoring by quantitative RT-PCR in core binding factor AML allows risk stratification and predicts relapse: results of the United Kingdom MRC AML-15 trial., 2012, 120(14): 2826–2835.
[69] Gale D, Lawson ARJ, Howarth K, Madi M, Durham B, Smalley S, Calaway J, Blais S, Jones G, Clark J, Dimitrov P, Pugh M, Woodhouse S, Epstein M, Fernandez-Gonzalez A, Whale AS, Huggett JF, Foy CA, Jones GM, Raveh- Amit H, Schmitt K, Devonshire A, Green E, Forshew T, Plagnol V, Rosenfeld N. Development of a highly sensitive liquid biopsy platform to detect clinically- relevant cancer mutations at low allele fractions in cell-free DNA., 2018, 13(3): e0194630.
[70] Newman AM, Bratman SV, To J, Wynne JF, Eclov NCW, Modlin LA, Liu CL, Neal JW, Wakelee HA, Merritt RE, Shrager JB, Loo BW Jr, Alizadeh AA, Diehn M. An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage.,2014, 20(5): 548–554.
[71] Cohen JD, Douville C, Dudley JC, Mog BJ, Popoli M, Ptak J, Dobbyn L, Silliman N, Schaefer J, Tie J, Gibbs P, Tomasetti C, Papadopoulos N, Kinzler KW, Vogelstein B. Detection of low-frequency DNA variants by targeted sequencing of the watson and crick strands., 2021, 39(10): 1220–1227.
[72] Patkar N, Kakirde C, Shaikh AF, Salve R, Bhanshe P, Chatterjee G, Rajpal S, Joshi S, Chaudhary S, Kodgule R, Ghoghale S, Deshpande N, Shetty D, Khizer SH, Jain H, Bagal B, Menon H, Khattry N, Sengar M, Tembhare P, Subramanian P, Gujral S. Clinical impact of panel-based error-corrected next generation sequencing versus flow cytometry to detect measurable residual disease (MRD) in acute myeloid leukemia (AML)., 2021, 35(5): 1392–1404.
[73] Hourigan CS, Dillon LW, Gui GG, Logan BR, Fei MW, Ghannam J, Li YS, Licon A, Alyea EP, Bashey A, Deeg HJ, Devine SM, Fernandez HF, Giralt S, Hamadani M, Howard A, Maziarz RT, Porter DL, Scott BL, Warlick ED, Pasquini MC, Horwitz ME. Impact of conditioning intensity of allogeneic transplantation for acute myeloid leukemia with genomic evidence of residual disease.,2020, 38(12): 1273–1283.
[74] Balagopal V, Hantel A, Kadri S, Steinhardt G, Zhen CJ, Kang WJ, Wanjari P, Ritterhouse LL, Stock W, Segal JP. Measurable residual disease monitoring for patients with acute myeloid leukemia following hematopoietic cell transplantation using error corrected hybrid capture next generation sequencing., 2019, 14(10): e0224097.
[75] Moore L, Cagan A, Coorens THH, Neville MDC, Sanghvi R, Sanders MA, Oliver TRW, Leongamornlert D, Ellis P, Noorani A, Mitchell TJ, Butler TM, Hooks Y, Warren AY, Jorgensen M, Dawson KJ, Menzies A, O'Neill L, Latimer C, Teng M, van Boxtel R, Iacobuzio-Donahue CA, Martincorena I, Heer R, Campbell PJ, Fitzgerald RC, Stratton MR, Rahbari R. The mutational landscape of human somatic and germline cells.,2021, 597(7876): 381–386.
[76] Li RY, Di L, Li J, Fan WY, Liu YC, Guo WJ, Liu WL, Liu L, Li Q, Chen LP, Chen YM, Miao CW, Liu HJ, Wang YQ, Ma YL, Xu DS, Lin DX, Huang YY, Wang JB, Bai F, Wu C. A body map of somatic mutagenesis in morphologically normal human tissues.2021, 597 (7876): 398– 403.
Application of next-generation sequencing in the detection of low-abundance mutations
Yang Luan1, Xinyue You1, Jin Yang2
Mutation accumulation in somatic cells contributes to cancer development, aging and many non-malignant diseases. The true mutation frequency in normal cells is extremely low, which presents a challenge in detecting these mutations at such low frequencies. The emergence of next-generation sequencing (NGS) technology enables direct detection of rare mutations across the entire genome of any species. This breakthrough overcomes numerous limitations of traditional mutation detection techniques that rely on specific detection models and sites. However, conventional NGS is limited in its application for detecting low-frequency mutations due to its high sequencing error rate. To address this challenge, high-accuracy NGS sequencing techniques based on molecular consensus sequencing strategies have been developed. These techniques have the ability to correct sequencing errors, resulting in error rates lower than 10–7, are expected to serve as effective tools for low-frequency mutation detection. Error-corrected NGS (ecNGS) techniques hold great potential in various areas, including safety evaluation and research on environmental mutagens, risk assessment of cell and gene therapy drugs, population health risk monitoring, and fundamental research in life sciences. This review highlights a comprehensive review of the research progress in low-frequency mutation detection techniques based on NGS, and provides a glimpse into their potential applications. It also offers an outlook on the potential applications of these techniques, thereby providing valuable insights for further development, research, and application of this technology in relevant fields.
next-generation sequencing; low-abundance mutations; molecular consensus sequencing; mutagenesis; risk assessment
2023-12-14;
2024-01-14;
2024-01-15
國家自然科學(xué)基金項目(編號:82304267)資助[Supported by the National Natural Science Foundation of China (No. 82304267)]
欒洋,博士,研究員,研究方向:遺傳毒理學(xué)。E-mail: yluan@sjtu.edu.cn
10.16288/j.yczz.23-309
(責(zé)任編委: 盧大儒)