国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大規(guī)模平行測序技術在STR 遺傳標記檢測中的應用進展

2022-11-22 22:03陶瑞旸董新宇陳安琪呂葉輝張素華李成濤
法醫(yī)學雜志 2022年2期
關鍵詞:法醫(yī)學等位基因法醫(yī)

陶瑞旸,董新宇,陳安琪,呂葉輝,張素華,李成濤

1.司法鑒定科學研究院 上海市法醫(yī)學重點實驗室 司法部司法鑒定重點實驗室 上海市司法鑒定專業(yè)技術服務平臺,上海 200063;2.上海健康醫(yī)學院基礎醫(yī)學院,上海201318

從Sanger測序到焦磷酸測序,快速DNA 測序方法的出現極大地推動了生物學和醫(yī)學的研究和發(fā)展,隨著人們對低成本、高通量測序需求的與日俱增,大規(guī)模平行測序(massively parallel sequencing,MPS)技術,也被稱為下一代測序或二代測序(next-generation sequencing,NGS)技術,在迅速發(fā)展的同時,其在測序速度、測序通量和讀取長度方面均取得了巨大進步[1]。現今,MPS 技術已廣泛應用于基礎醫(yī)學、臨床診斷、微生物組學和農業(yè)基因組學等諸多研究領域,成為不可或缺的檢測方法[2-5]。在法醫(yī)遺傳學領域,MPS 技術也從十年前的“嶄露頭角”到目前的“略有所成”。隨著越來越多的法醫(yī)遺傳學實驗室引入MPS 平臺,應用MPS技術檢測法醫(yī)學相關遺傳標記、解決法醫(yī)科學問題的研究顯著增長。正如在其他科學領域的應用,MPS 技術可檢測單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入/缺失(insertion/deletion,InDel)等分子遺傳標記,同時也適用于法醫(yī)學經典遺傳標記,如線粒體DNA(mitochondrial DNA,mtDNA)控制區(qū)和短串聯重復序列(short tandem repeat,STR)的檢測,更為線粒體全基因組測序、微單體型檢測等新型法醫(yī)學應用提供了支持。2019 年9 月,在捷克布拉格召開的第28 屆國際法醫(yī)遺傳學大會所討論的法醫(yī)遺傳學研究熱點,如遺傳標記多態(tài)性檢測、表型推斷、混合樣本檢測、犯罪現場體液斑鑒定等,均有MPS技術的參與[6]。

STR 在法醫(yī)遺傳學中有著不可撼動的地位,雖然目前毛細管電泳(capillary electrophoresis,CE)技術檢測STR 仍是法醫(yī)學應用中的“金標準”,但是MPS 技術用于分析STR 的優(yōu)勢也吸引了法醫(yī)遺傳學領域學者們的廣泛關注。MPS 平臺的優(yōu)勢之一在于能夠在單個工作流程實現數百甚至數千種不同的DNA 遺傳標記的并行檢測,另外,其還能確定序列水平的遺傳變異。與傳統(tǒng)的CE 平臺相比,使用MPS 技術分析STR 標記主要有以下幾大優(yōu)勢:(1)可同時檢測的STR基因座數量增加;(2)可識別CE 平臺無法識別的STR等位基因序列多態(tài)性,提高STR 基因座的多態(tài)性,從而提高STR 基因座用于個體識別和親權鑒定的系統(tǒng)效能;(3)可并行檢測多個DNA 樣本。然而,在全球范圍法醫(yī)實驗室日常工作中實現MPS 技術的普及之前,我們仍需面對很多挑戰(zhàn)??上驳氖牵澜缍鄠€法醫(yī)DNA 科學學會、工作組,各種跨國研究項目以及提供MPS 技術的行業(yè),正在采取多項舉措來應對這些挑戰(zhàn),對包括MPS 技術運行成本較高,數據龐大、分析困難,缺乏統(tǒng)一的命名和報告標準,以及與現有CESTR 數據庫相兼容等問題逐步提出建議,同時促進各國實驗室之間的交流,共同發(fā)展。

本文擬概述用于法醫(yī)遺傳學STR 分子標記檢測的主流MPS 平臺和原理,回顧MPS 技術用于STR 檢測的策略和現狀,介紹針對STR 標記的商品化MPS 檢測體系及其性能評估,應用廣泛的MPS-STR 數據分析工具以及基于MPS-STR 的群體學調查研究,總結現階段世界范圍內多個國際項目、法醫(yī)工作組等為促進MPS 技術的法醫(yī)學應用的各種舉措,討論將MPS技術應用于STR 檢測所面臨的難題和建議,相信隨著技術的發(fā)展和研究的深入,MPS 技術在法醫(yī)遺傳學實踐中將發(fā)揮更大的作用。

1 法醫(yī)遺傳學常用的MPS 檢測平臺

2005 年瑞士Roche 公司推出的454 測序儀以焦磷酸測序原理為基礎,開啟了高通量測序的新紀元。由于其讀長長、準確性高,454 測序儀也是最早用于檢測法醫(yī)學STR 標記的MPS平臺[7-8](2016年停止生產)。目前法醫(yī)學領域應用的主要為美國Thermo Fisher Scientific 公司和Illumina 公司提供的測序平臺。

1.1 Ion PGMTM、Ion S5TM 系列、Ion GeneStudio S5系列測序平臺

自2010—2011 年推出第一臺半導體測序儀Ion PGMTM后,Thermo Fisher 公司以Ion TorrentTM技術為基礎不斷更新和提高其測序通量、測序速度和自動化程度等,陸續(xù)推出Ion S5TM、Ion S5TMXL、Ion GeneStudio S5 系列測序平臺,均適用于法醫(yī)學研究。以STR 標記靶向測序為例,首先通過擴增目標STR 片段生成DNA 文庫,并添加條碼和連接接頭以區(qū)分樣本,經乳液PCR 對純化的DNA 文庫進行克隆擴增;應用Ion TorrentTM技術對每個擴增子進行平行測序,通過結合化學試劑和半導體技術,將化學信號(A、C、G、T)轉換成數字信息,即將核苷酸按順序加入測序反應中,每摻入1 個或多個核苷酸會釋放1 個或多個氫離子,該氫離子被半導體芯片上大規(guī)模并行的離子傳感器檢測到,輸出數字信息,實現高靈敏度的堿基檢測。該過程無修飾的核酸,無需化學級聯酶促反應,無需熒光、化學發(fā)光或復雜的光路系統(tǒng)。一般而言,半導體測序平臺的運行時間相對較短,因為信號檢測為實時執(zhí)行,而非通過成像完成。但該技術由于對多聚核苷酸的檢測仍不夠完善,在檢測同一堿基連續(xù)出現時可能出現測序錯誤[9]。

以上Ion TorrentTM半導體測序平臺均支持不同通量的半導體芯片,以最大的靈活性幫助研究人員配置MPS 實驗,兼容不同的測序需求。以最新的Ion GeneStudio S5 系列測序平臺為例,可根據需要選擇5 種芯片(Ion 510、520、530、540 及550)使測序數據通量范圍涵蓋500 Mb(1 張Ion 510 芯片)至50 Gb(Ion GeneStudioTMS5 Prime 系統(tǒng)聯合2 張Ion 550 芯片)[10]。此外,Ion ChefTM儀器的使用為測序之前自動化的Ion AmpliSeqTM文庫制備和芯片加載提供了解決方案,極大簡化了工作流程:手工操作時間短(15 min),節(jié)省精力和時間;每次運行可自動制備8 個文庫樣本或自動加載兩張半導體芯片;降低手工加載芯片造成的不穩(wěn)定因素;可實現樣本追蹤并與Torrent Suite Software(TSS)[11]或實驗室信息管理系統(tǒng)(laboratory information management system,LIMS)結合。

Thermo Fisher 公司的法醫(yī)學商品化試劑盒中,除Precision ID GlobalFilerTMNGS STR Panel 檢測常染色體STR(autosomal STR,A-STR)外,還包括檢測124 個SNP 的Precision ID Identity Panel[12]和165 個SNP 的Precision ID Ancestry Panel[13],分別用于個體識別和祖源推斷,以及檢測mtDNA 控制區(qū)和全序列的Precision ID mtDNA Control Region Panel[14]和Precision ID mtDNA Whole Genome Panel[15],均可在Ion PGMTM、Ion S5TM系列和Ion GeneStudio S5 系列測序平臺上進行測序。然而由于Ion PGMTM平臺實驗流程較為繁瑣,手動操作時間長,已逐步淡出人們視野,Thermo Fisher 公司2017 年推出的Precision ID GlobalFilerTMNGS STR Panel v2 亦不再適用于Ion PGMTM平臺。

1.2 MiSeq FGxTM Forensic Genomics System

MiSeq FGxTMForensic Genomics System(簡稱MiSeq FGx 測序平臺)是Illumina 公司專用于法醫(yī)基因組學研究的MiSeq 測序平臺,目前隸屬于美國Verogen 公司,聯合Verogen 公司的ForenSeqTMDNA Signature Prep 試劑盒與ForenSeqTMUniversal Analysis Software(USA 軟件)[16]共同完成從DNA 樣本到200 多個遺傳標記測序數據產出并分析的完整流程。ForenSeqTMDNA Signature Prep 試劑盒推薦的DNA輸入量為1 ng,其文庫生成包括兩步擴增,通過第一步PCR 擴增目標STR 和SNP,第二步擴增連接接頭和唯一索引。加入的接頭序列與芯片流動池表面固定的寡核苷酸互補,促使文庫與流動池結合以進行橋式擴增;索引用于標記某一特定DNA 樣本,在一次運行中可平行檢測96 個樣本。每次運行可檢測的樣本數目由預期達到的測序深度和芯片通量共同決定,如應用ForenSeqTMDNA Signature Prep 試劑盒的標準芯片同時檢測80 個DNA 文庫樣本,A-STR 的平均測序深度達1 800×以上。在測序之前,將各DNA 文庫樣本混合、變性,并加載到測序試劑盒中[17]。橋式擴增能夠以附著于流動池表面的純化文庫為模板,產生數百萬的單個DNA 片段克隆簇;通過加入帶有熒光基團的可逆終止子標記的脫氧核苷三磷酸(deoxynucleoside triphosphate,dNTP)進行讀取,接著切割終止子以允許下一個堿基的加入,不斷循環(huán)上述過程從而完成邊合成邊測序(sequencing-by-synthesis,SBS)。每個測序循環(huán)中,4 種dNTP 均存在且濃度相同,通過自然競爭,最大程度地減少錯誤摻入的風險,有效將摻入偏差降至最低[18-19]。由于該過程中的堿基識別是通過直接測量信號強度實現,因此與其他MPS 方法相比,原始錯誤率大大降低[20-22]。在測序過程中,隨著熒光信號的減弱,序列后端的堿基準確性會受到一定程度影響,成為限制該測序平臺讀取長度的主要原因。目前,ForenSeqTMDNA Signature Prep 試劑盒聯合MiSeq FGx 測序平臺可用于398 bp 長度內DNA文庫的測序。

目前MiSeq FGx 測序平臺上另有商品化試劑盒ForenSeqTMmtDNA Whole Genome 試劑盒[23]和ForenSeqTMmtDNA Control Region試劑盒[24]分別用于檢測線粒體DNA 全序列和控制區(qū)。此外,美國Promega公司基于MiSeq 測序平臺(美國Illumina 公司)推出其PowerSeqTM系列MPS 試劑盒[25],用于檢測法醫(yī)學常用STR 基因座和(或)線粒體DNA 控制區(qū)。HiSeq X、HiSeq 2500 和NextSeq 500 測序平臺(美國Illumina公司)也應用于法醫(yī)學研究,包括進行全基因組測序以甄別同卵雙生子[26]、獲取單個細胞DNA 的法醫(yī)學遺傳信息[27]、獲得遺骸的基因組全測數據進行家系搜索[27],也用于檢測新型法醫(yī)學遺傳標記[28]及開展法醫(yī)微生物學研究[29]等。此外,由華大基因推出的國產測序 儀 如DNBSEQ-T7、MGISEQ-2000 和MGISEQ-200等以DNA 納米球測序技術(DNBSEQTM)為核心,性能良好,數據輸出準確性高,目前主要應用于分子生物學、醫(yī)學領域,今后或可應用于法醫(yī)學領域。

2 應用MPS 技術檢測STR 的研究現狀

2.1 商品化STR 檢測體系及其性能評估

2013年,Thermo Fisher公司推出了基于Ion PGMTM測序平臺的第一個STR 檢測體系Ion TorrentTMHID STR 10-plex[30]。應用Ion AmpliSeqTM技術構建DNA文庫,半導體測序技術進行正反向測序并使用TSS 中的插件分析序列數據。該體系與Ion PGMTM測序平臺的結合為MPS-STR 檢測提供了從PCR 到數據分析的首個集成化解決方案,能夠同時檢測CSF1PO、D16S539、D3S1358、D5S818、D7S820、D8S1179、TH01、TPOX、vWA和Amelogenin10 個遺傳標記。隨后,仍基于Ion PGMTM測序平臺,Early Access STR Kit v1[31]和Precision ID GlobalFilerTMNGS STR Panel[32]于2015 年和2016 年相繼問世,分別用于檢測24 個和30 個STR基因座。2018 年Thermo Fisher 公司推出的Precision ID GlobalFilerTMNGS STR Panel v2 能夠同時檢測20 個擴展聯合DNA 檢索系統(tǒng)(combined DNA index system,CODIS)核心STR基因座、11個non-CODIS STR基因座以及4 個性別相關遺傳標記。筆者所在的實驗室對該體系進行了初步驗證研究[33],包括其重復性、結果一致性、靈敏度、stutter 比例、基因座均衡性、混合物檢測等。結果證實:除Penta D的平均覆蓋深度較低(377×)外,其余基因座均表現良好,平均覆蓋深度為3 946×,可獲得可靠、一致性結果;當DNA 輸入量≥62.5 pg 時,使用該體系可獲得完整的STR 分型圖譜;混合物中次要貢獻者比例大于25%時,可獲得其完整STR 分型;該體系可用于血痕、指甲、毛發(fā)等常見法醫(yī)學檢材的檢測;使用該體系對50 個無關個體進行檢測,成功獲得序列多態(tài)性等位基因及STR 側翼區(qū)域序列變異信息等。此外,該體系文庫構建和芯片加載步驟均可在自動化操作平臺Ion ChefTM上進行,整個實驗過程自動化程度高,人工處理時間顯著縮短,有助于該體系在法醫(yī)學實踐中的應用。2019 年,Thermo Fisher 公司發(fā)布了將Precision ID STR 和SNP體系(共324 個遺傳標記)共同檢測的MPS 實驗流程[34],結果證實,當DNA 輸入量為1 ng、使用1 張Ion 530 芯片檢測12 個參考樣本時,可獲得完整、準確的測序結果,該共檢測流程仍需進一步研究以驗證其性能。

2014 年,基于MiSeq 測序平臺,美國Promega 公司推出其MPS-STR 體系的第一個版本[35],涵蓋全部13 個CODIS STR基因座、4 個non-CODIS STR 基因座以及Amelogenin遺傳標記。在此基礎上,又陸續(xù)推出PowerSeqTMAuto System、PowerSeqTMAuto/Y System和PowerSeqTMAuto/Mito/Y System[25]。其中PowerSeqTMAuto System包括22 個A-STR基因座、2個性別相關遺傳標記(Amelogenin和DYS391),評估實驗證實其可輸出穩(wěn)定的一致性結果,使用62 pg 單一來源DNA 可獲得完整基因型結果,混合物中次要貢獻者比例大于5%時可檢測到其部分基因分型,且該體系成功應用于模擬法醫(yī)學案例樣本的檢測[36]。2017 年Promega 公司推出的Auto/Y System,不僅在前者基礎上新加入22 個Y 染色體STR(Y-chromosome STR,Y-STR)基因座,還對樣本處理過程進行了優(yōu)化,用于減少污染概率或人為失誤事件,提高了實驗效率,同時亦能保證測序覆蓋率、結果一致性、靈敏度等原始數據質量[37]。而Auto/Mito/Y Panel[25]則 將Auto/Y System 與覆蓋線粒體控制區(qū)的10 個亞區(qū)(F109、F220、F317、F402、F15989、F16094、F16197、F16363、F16450 和F16533)進行結合,目前未見其他實驗室評估結果。

2016 年,CHURCHILL 等[38]對測試版ForenSeqTMDNA Signature Prep 試劑盒進行系統(tǒng)性評估,該試劑盒可基于MiSeq 測序平臺對63 個STR 基因座、95 個常染色體身份信息SNP(identity informative SNP,iiSNP)進行擴增和測序,另外可選擇檢測其他56 個祖先信息SNP(ancestry informative SNP,aiSNP)及22 個表型信息SNP(phenotype informative SNP,piSNP)。結果表明,該測試版試劑盒能夠產生可靠且可重復的測序結果,以1 ng DNA 獲得完整分型圖譜,可解析次要貢獻者占5%及以上的混合樣本,并且具有檢測疑難檢材的能力;僅個別基因座表現欠佳,該試劑盒可成為法醫(yī)學DNA 分型的有效工具。隨后,通過改進并剔除不佳基因座,商品化試劑盒ForenSeqTMDNA Signature Prep 試劑盒的引物混合液A 中最終包含58 個STR基因座[27 個A-STR、7個X染色體STR(Xchromosome STR,X-STR)、24個Y-STR]和94個iiSNP,引物混合液B 另包含56 個aiSNP 及22 個piSNP。GUO等[39]針對該試劑盒的研究發(fā)現:獲得完整STR 基因座分型圖譜需輸入DNA 不低于100 pg,而對于SNP,DNA 輸入量需不低于200 pg;次要貢獻者占5%及以上的樣本可被識別為混合物,占10%以上可獲得次要貢獻者的完整基因分型;該試劑盒可耐受一定濃度的PCR 抑制劑,如≤200 μmol/L 血紅素和≤50 μg/mL 腐殖酸,亦適用于法醫(yī)學案例樣本和一定程度的降解樣本(≥200 bp 的降解樣品中可獲得56%以上STR 分型結果和88%以上SNP分型結果)??傮w而言,經多個實驗室及法醫(yī)研究者的驗證和評估,ForenSeqTMDNA Signature Prep 試劑盒與MiSeq FGx 測序平臺和UAS軟件結合的工作流程性能良好、表現穩(wěn)定、結果可靠、重復性好且所得信息量豐富,可滿足法醫(yī)遺傳學中個體識別、親權鑒定等應用要求[40-43]。

除商業(yè)化MPS-STR 檢測體系外,一些國內外法醫(yī)實驗室亦自主構建了包含常用STR 標記的MPS 體系。如基于Ion PGMTM測序平臺檢測10 個A-STR[44]和13 個Y-STR[45]的體系,基于MiSeq 系列測序平臺檢測23 個A-STR[46]和23 個Y-STR[47]的體系等,這些體系所得結果與CE 分型結果相比均具有高度一致性。KIM 等[46]構建的體系中,擴增子長度短于常用商業(yè)化MPS-STR 及CE-STR 體系,該特性有助于提高降解DNA 分型的成功率;該體系采用與ForenSeqTMDNA Signature Prep 試劑盒中類似的文庫標記方法,與adapter 連接方法相比,可縮短實驗操作時間。這些自主研發(fā)體系目前主要用于群體遺傳學研究。

2.2 MPS-STR 數據分析軟件

一般而言,MPS-STR 測序數據分析主要包括3 個步驟:獲得原始數據,與參考基因組對比,檢出等位基因。大多數法醫(yī)實驗室使用2.1 節(jié)提及的公司提供的相應分析軟件進行MPS-STR 數據分析,如Thermo Fisher公司的TSS[11]和Converge 軟 件[48],Illumina 公司的UAS軟件[16]。這些軟件可顯示包括質量控制參數、測序讀長及序列對比等在內的基本信息,并提供測序數據標準輸出文件,如BAM 文件(基因數據分析中通用的比對數據存儲格式)或FASTQ 文件(保存生物序列及其測序質量得分信息的數據格式),可用于其他數據分析流程或軟件。

Converge 軟件可用于分析來自Precision ID GlobalFilerTMNGS STR Panel v2、Precision ID mtDNA Control Region Panel、Precision ID mtDNA Whole Genome Panel、Precision ID Identity Panel、Precision ID Ancestry Panel 以及其他定制的Ion AmpliSeqTMSNP系統(tǒng)的MPS 數據。分析STR 時,其結果包括STR 等位基因檢出、基因分型、側翼區(qū)域SNP 信息(附圖1A)以及亞型雜合基因型(具有相同片段長度但顯示不同序列的等位基因)的信息。通過與CE 平臺常用的GeneMapperTMID-X軟件(美國Applied Biosystems 公司)相似的界面,操作者可使用熟悉的等位基因、offladder(OL)峰等指標,并根據需要修改預配置的分析設置。此外,Converge 軟件通過將NGS 數據分析模塊與“案例管理”應用程序一起使用,可簡化NGS 和CE配置文件的比較;Converge 軟件的親緣/親子關系模塊可與GeneMapperTMID-X軟件集成在一起,幫助實現自動化親子關系和其他親緣關系分析,并進行遺傳似然率(likelihood ratio,LR)計算。該軟件可進行額外配置以滿足特定的實驗室工作流程、標準作業(yè)程序(standard operating procedure,SOP)和分析參數,還可使用內置于Converge 軟件的插件,將其集成到現有的LIMS 中,提高法醫(yī)實驗室的數據處理效率。

UAS 軟件安裝在一個獨立的服務器上,從測序運行設置到樣本數據進入最終的數據分析和報告生成階段,控制整個測序流程,能夠對運行指標和樣本質量進行整體評估,實現同時針對200 多個法醫(yī)學相關STR 和SNP 進行最終數據分析,包括多重基因座分離、序列比對、等位基因檢出、基因分型和報告輸出。此外,UAS 軟件具有靈敏的質量控制指標、自動樣本比較及群體參數統(tǒng)計的功能,有助于進行數據審查和其他下游分析,還可依據世界主要人種的群體數據,以主成分分析(principal component analysis,PCA)圖的方式呈現基于aiSNP 的祖源推斷結果等。然而該軟件有兩個主要的缺點:(1)以具體堿基序列輸出STR 結果(如ATCGATCG),而非重復結構和重復次數(如[ATCT]2),難以統(tǒng)計;(2)界面未顯示STR 側翼區(qū)域信息,雖可導出側翼區(qū)域報告,但針對序列變異只顯示不同顏色而不輸出變異的位置、rs 編號等信息(附圖1B),這對于復雜親緣關系和混合物的分析十分重要。

Converge 軟件和UAS 軟件僅用于分析其特定的MPS-STR 體系,若法醫(yī)工作者自主構建MPS-STR 體系,則可使用STRinNGS、STRait Razor 及FDSTools 等工具進行數據分析。其中,STRinNGS 的更新版本STRinNGS v2.0 是一個集成的python 腳本,其Docker鏡像或zip 文件可供下載使用[49]。STRinNGS v2.0 用于預測基因型的指標涉及測序深度、背景噪聲、側翼區(qū)域長度以及側翼區(qū)域中的堿基錯配、基因座平衡和雜合子均衡性等。其結果表中,另以“Warning flags”突出顯示可疑基因型或未被識別為等位基因(或噪聲)的可疑序列,提示可能需手動分析。STRinNGS v2.0分析STR 及側翼區(qū)域,根據STRidER 數據庫最新指南(https://strider.online/nomenclature)命名等位基因,包括側翼區(qū)域的變異。此外,STRinNGS v2.0 還可生成可直接上傳STRidER 數據庫的數據文件格式,提高工作效率。附表1 總結了近年來用于MPS-STR 數據分析的軟件[50-60]。

2.3 基于MPS-STR 的群體遺傳學調查

國際法醫(yī)遺傳學會(International Society for Forensic Genetics,ISFG)DNA委員會于2016年發(fā)布了法醫(yī)學MPS-STR 序列結構指南[61],后更新于2018 年[62]。2017 年,Forensic Science International:Genetics期刊就MPS 產生的群體遺傳學STR 數據作出建議[63],包括:(1)最少需50 例無關個體數據;(2)需上傳含有序列全部信息的FASTA 格式文件,依據ISFG 最新標準進行命名;(3)不允許等位基因漏檢(dropout);(4)需提交STRidER 數據庫(https://strider.online/)得到質量控制結果等。

美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)與美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)聯合啟動了STR 測序計劃(STRSeq[64],https://www.ncbi.nlm.nih.gov/bioproject/380127),研究和儲存基于序列特異性的STR 等位基因,用于法醫(yī)學個體識別。STRSeq 項目中的初始數據來自4 個國際實驗室4 612 個個體[NIST(n=1 786)、倫敦國王學院(n=1 043)、北得克薩斯州大學健康科學中心(n=839)和圣地亞哥德孔波斯特拉大學(n=944)]的靶向測序所觀察到的等位基因匯總。STRSeq 數據在NCBI 中擁有與GenBank 記錄穩(wěn)定鏈接的STR 序列目錄,每個等位基因包含STR 重復區(qū)域完整序列、STR 重復區(qū)域的位置、側翼區(qū)域堿基突變的位置和rs 編號(來自dbSNP 數據庫)、測序數據質量、相應的長度特異性等位基因等。這些數據經NCBI 中的BioProject 管理分為A-STR、備用A-STR、Y-STR 和X-STR,可通過瀏覽器搜索、BLAST 搜索或ftp 下載訪問。STRSeq 項目為進行MPS-STR 人群樣本研究的實驗室提供了新觀察到序列特異性等位基因的上傳和交流途徑。

其中,圣地亞哥德孔波斯特拉大學的PHILLIPS等[65]應用ForenSeqTMDNA Signature Prep 試劑盒和MiSeq FGx 測序平臺對人類多態(tài)性研究中心(Centre d’Etude du Polymorphisme Humain,CEPH)的人類基因組多樣性計劃(Human Genome Diversity Project,HGDP)中944 個個體進行了測序研究,這批樣本來自世界范圍內51 個不同人群。該研究詳細報告了ForenSeqTMDNA Signature Prep試劑盒中58個STR基因座內部的序列變異;依據人類參考基因組GRCh38進行STR 重復區(qū)域結構標識,對其輸出的20 個STR基因座,需先獲得其反向互補序列并重新對比參考基因組;序列特異性所帶來的等位基因數目和雜合基因型數目的增長特別表現在D12S391、D21S11、D2S1338、D3S1138、D9S1122、DXS10135、DYS389Ⅰ/Ⅱ和DYF387S1基因座。由于少數特殊的序列變異僅發(fā)生在個別樣本中,就HGDP-CEPH 中的樣本量而言,無法對該低頻率STR 等位基因作出可靠判斷,因此,仍建議擴大MPS 平臺檢測STR 的樣本量規(guī)模。此外,PHILLIPS 等也指出:該檢測體系包含1 個高度多態(tài)性STR 基因座SE33,但UAS 軟件并不輸出其測序結果;DYS460和DYS461均包含在檢測體系中,但只輸出DYS460的結果;建議輸出一些位于側翼區(qū)域多態(tài)性較高的SNP(如rs4847015、rs25768、rs16887642、rs11642858),并注意與特定STR 等位基因連鎖遺傳的側翼SNP 等。

附表2 總結了近年來國內外學者基于MPS-STR數據所展開的群體遺傳學調查研究[32-33,42,44-47,66-86],在世界不同人群中檢測得到大量新的STR序列多態(tài)性等位基因(STR 重復區(qū)域內和側翼區(qū)域的變異),可顯著提高這些法醫(yī)相關STR 基因座的識別能力和系統(tǒng)效能,對各群體中個體識別和親權鑒定等法醫(yī)學應用具有重要意義。眾所周知,CE技術檢測STR標記自20世紀90年代以來開始應用于法醫(yī)日常工作[87],經過30年的積累,世界不同人群幾乎均有相應的CE-STR 群體遺傳學數據,我國數據庫中亦儲存有大量CE-STR 數據可應用于法醫(yī)學實踐。MPS 技術自2010 年用于法醫(yī)STR檢測,其成熟應用需要時間和實踐,只要越來越多的實驗室應用MPS 技術檢測DNA 樣本,收集MPSSTR 數據,就能逐漸建立起信息量更為豐富的MPSSTR 數據庫。

3 MPS-STR 命名建議

將MPS 技術應用于法醫(yī)學實踐,需實現數據比對和共享,就每個STR 基因座的等位基因命名和注釋而言,需采用國際化的統(tǒng)一標準化框架。所用命名法一方面應與各國家DNA 數據庫和人群調查數據庫中使用的基于CE 平臺的STR 命名法相兼容,另一方面應包括MPS 所檢測到的所有STR 相關序列變異(STR重復區(qū)和側翼區(qū)),并允許不同法醫(yī)實驗室和數據庫之間互相檢索和查閱。就MPS-STR 數據標準化命名,ISFG 的DNA 委員會從序列信息、與參考基因組的對比和等位基因注釋3 個不同水平提出了初步建議:

(1)進行MPS 分析時應輸出STR 序列,并將其以文本形式保存于數據庫中,以獲得最大程度的有效信息。

(2)應用DNA 正鏈進行序列與參考基因組的比對。

(3)參考基因組GRCh38 或GRCh37 的選擇對于標準化STR 命名至關重要。目前,建議使用新版本GRCh38 進行序列比對、定義STR 重復區(qū)域及輸出堿基變異(如SNP)。

(4)對于目前以DNA 反鏈定義STR 重復區(qū)域的基因座,需要重新以正鏈定義,嚴格明確其起止位置基因組坐標。

(5)今后可能會采用更簡易的MPS-STR 命名系統(tǒng)以達到溝通和數據交流的目的,為確保當前MPSSTR 數據能為將來所用,現階段依然建議采用全面、完整的命名法?;赟TR 序列信息將其命名為CE 中相應的依據片段長度的、描述重復次數的命名,即與CE 片段長度命名法相兼容,同時記錄STR 序列信息,包括側翼序列及其起止位置基因組坐標,如D13S317[CE12]-Chr13-GRCh38 82148025-82148068 [TATC]1282148001-A;82148069-T。

(6)使等位基因頻率數據庫保持更新,以充分發(fā)揮MPS-STR 數據帶來的更高的識別能力。

(7)未來法醫(yī)學應用的MPS-STR 多重檢測體系應保留現有遺傳標記以實現數據對接,同時依據群體學、分子生物學、法醫(yī)學研究者與生物公司之間的數據共享進行更多遺傳標記的篩選。

(8)仍需努力確立統(tǒng)一的命名標準體系,實現全球人口數據庫的兼容性。

ISFG DNA 委員會在2016 年的法醫(yī)學MPS-STR命名規(guī)則[61]中特別提到,以DNA 反鏈進行基因組序列比對的23 個STR 基因座,轉換為正鏈后,其中17 個存在潛在移碼現象,并以D19S433、DYS389Ⅰ/Ⅱ和DYS385a/b基因座為例,詳述了該情況。目前MPS 數據分析軟件,如Converge v2.0,即應用該23 個STR 的反鏈進行對比,以保持與CE-STR 的長度分析結果相兼容。文中另以D18S51、D13S317和D19S433為例,說明了MPS 生成的詳細序列信息在某些情況下也為描述既定的STR 重復基序帶來了潛在困難。此外,文中還提供了法醫(yī)學常用35 個A-STR、29 個Y-STR 和7 個X-STR 的STR 重復區(qū)及側翼區(qū)(上、下游各50 bp)人類基因組參考序列(正鏈,GRCh37 和GRCh38 坐標)等信息。2018 年,PHILLIPS 等[62]對2016 年的版本[61]進行了修訂和擴展,現共包括71 個A-STR、48 個Y-STR 和14 個X-STR 的上述信息及各自上、下游100 bp 的側翼序列。目前,該STR 序列結構文件作為法醫(yī)遺傳學中進行MPS-STR 分析的最新參考標準,可在STRider 網站(https://strider.online/nomenclature)下載使用。

4 MPS-STR 數據保存

STR 標記的CE 基因分型文件主要包括樣本編號、基因座名稱和基因分型,也可添加峰高、所用STR試劑盒等額外信息。針對CE-STR 的等位基因,全球公認且統(tǒng)一為基于長度多態(tài)性進行命名,各法醫(yī)實驗室及STR 試劑盒生產公司均以此為標準。對于MPSSTR,盡管ISFG DNA 委員會的專家學者提出了一些建議和舉措[61-62],但仍未有統(tǒng)一標準的測序平臺和命名準則。鑒于世界范圍內大多數國家仍在發(fā)展擴大其國家STR 數據庫(主要為CE 數據),上述ISFG 建議使用的既與CE 命名相兼容又可收集所有序列變異的MPS-STR 命名法有利于STR 數據庫的檢索及法醫(yī)學報告中MPS-STR 數據的應用。然而由于堿基序列的多樣性,即使采用標準化的命名法,僅用較簡短的文本字符來描述MPS 所識別的所有STR 序列多態(tài)性等位基因仍然非常困難。

YOUNG 等[88]認為,基于ISFG 發(fā)布的MPS-STR 相關命名格式雖然滿足了序列特異性標記的要求,但對于軟件識別或數據庫保存來說該格式長度過長,于是提出了序列標識符(sequence identifier,SID)編碼法來解決這個問題,該方法使用哈希函數SHA-256 將DNA 序列轉換為54 或55 個字母的SID,生成用于標識單一來源或案例樣本STR 序列的唯一短標簽。根據具體應用,某樣本STR 基因座的序列特異性等位基因可僅用2~3 個SID 字符進行標記(如“6TK”表示TH01[CE6]-Chr11-GRCh38-2171088-2171115[AATG]6),從而使記錄格式緊湊。SID 標簽亦可用于識別和過濾非等位基因序列(如stutter),并且具有區(qū)分等位基因與非等位基因序列的能力。該編碼法還適用于接受任何字符值(而非數字值)的軟件進行下游混合物分析,如與ArmedXpert 軟件中MixtureAce 插件的聯合應用。

JUST 等[89]建議使用最長不間斷延伸(longest uninterrupted stretch,LUS)的方法表示STR 重復區(qū)域內的序列變異,有利于NGS 分型結果在概率解釋中的分析應用,避免了進行字符串搜索所帶來的算法復雜性。LUS 指STR 重復區(qū)域中連續(xù)相同的重復基序最多的重復次數,聯合命名由基因座名稱、基于長度的等位基因和LUS(以粗體表示)組成,如D12S39120_12 表示D12S391基因座上[AGAT]12[AGAC]7AGAT等位基因。然而一些基因座的多個等位基因可能具有相同的代號,如上述D12S39120_12 也可表示[AGAT]12[AGAC]8。通過將其命名擴展到二級或三級參考區(qū)域,該聯合命名法可表示80%以上MPS-STR的等位基因。但該方法在少數基因座上無法區(qū)分等位基因,以D21S11為例,該基因座上存在5 個常見基序的變異(以粗體n表示)[TCTA]n[TCTG]n[TCTA]nTA[TCTA]nTCA[TCTA]2TCCATA[TCTA]n。LUS命名等位基因的方法保持了先前基于重復基序的命名法,因此能夠與現有STR 數據庫相兼容,且LUS 的長度本身保持一致,不會因NGS 體系或分析軟件的不同而改變。此外,當分析軟件(如LRmix Studio v2.1.3)不要求等位基因只能為整數時,可應用LUS 法標識等位基因,其包含的序列信息有助于對樣本(單一或混合來源)STR 分型結果的解釋。GILL 教授亦將LUS 等位基因命名法應用于EuroForMix 軟件[90],證實了該方法的適用性[91]。雖然該方法無法表示STR 側翼區(qū)域的堿基變異,但很大程度上彌補了目前基于STR 長度的概率解釋系統(tǒng)的不足,促進了MPS 技術在法醫(yī)遺傳學實踐中的應用。

DNASeqEx 項目提出了將Nomenclature Authority(NOMAUT)系統(tǒng)用于STR 數據庫的保存和對接[92],該系統(tǒng)是一個在線存儲庫,建立在已知的序列變異STR基因分型結果上,可較為便捷且安全地輸入新增數據。已知序列變異的STR 結果和其對應的CE-STR 結果形成目錄,可進行序列特異性等位基因的查詢;允許用戶上傳序列,以小寫字母表示數據庫中新的序列特異性等位基因(如D1S165611+a),若為數據庫中已有等位基因則轉換為大寫字母(如D1S165611+A),經確定后納入系統(tǒng)目錄中保存,完成系統(tǒng)的自我更新。為確保其可靠性和實用性,NOMAUT 被構建為一種網頁服務,而非本地軟件,并允許各MPS-STR 數據分析軟件對NOMAUT 數據進行調用,另外,其也可離線使用,但需保證數據庫定期更新。NOMAUT 系統(tǒng)將來可作為STR 序列等位基因的集中存儲庫,從而在世界范圍內保證MPS-STR 數據的一致性、穩(wěn)定性和高質量。

KNIJFF 教授提出,可以考慮應用類似人類白細胞抗原(human leucocyte antigen,HLA)系統(tǒng)的等位基因編碼系統(tǒng)[93]命名MPS-STR,其優(yōu)點是STR 序列多態(tài)性等位基因可以重新編碼為很短的等位基因代號,方便機器對比和儲存,如上文提到的SID 編碼。但同時,法醫(yī)工作者需要很長時間去識別這些編碼,且編碼的應用使MPS-STR 數據失去了與CE-STR 命名的直接關聯,也無法直接觀察到序列變異。其實,簡化STR 序列信息并不是必需的,用較長而完整的文本字符儲存等位基因不失為一種方法。總之,我們依然期待早日能夠達成一個信息全面、實用的法醫(yī)MPSSTR 統(tǒng)一命名系統(tǒng),以避免模棱兩可、不準確、不一致的等位基因命名,甚至可自動命名基于序列特異性的MPS-STR等位基因,從而便于法醫(yī)學工作者進行MPSSTR 數據的有序儲存、搜索和更新。

5 存在的問題及前景展望

在MPS 技術替代CE 成為常規(guī)的法醫(yī)遺傳學檢測工具之前,我們仍有很多工作要做,主要涉及完備的使用指南、規(guī)范,以期為所有可能的技術問題、結果解釋和報告內容提供參照標準。此外,還需解決諸多實際問題,包括如何將MPS 檢測的STR 序列多態(tài)性等位基因(包括側翼區(qū)域的遺傳變異)與各國現有STR 數據庫相兼容等。與CE 技術相比,不同的MPS 檢測平臺、分析軟件無疑會產生更多的問題,使得制定統(tǒng)一、完備的規(guī)范和標準變得更加復雜。目前主要涉及以下問題:

(1)基于MPS 技術的STR 等位基因應確立統(tǒng)一命名方式,命名需盡量能夠觀察到遺傳變異的全部信息而無需回溯原始測序數據。

(2)對MPS 相關運行參數的建議,包括目標靶點的最低測序深度、堿基識別正確率、堿基識別質量等。

(3)對于法醫(yī)學中不同類型樣本獲得可靠STR 等位基因所需的最低測序深度的建議,如分別針對構建數據庫的參考樣本、單一來源樣本或犯罪現場混合樣本的建議。

(4)有關非目標靶點的測序讀數、測序產生的錯誤讀數等的建議,包括用于標記樣本的barcode 和index 的讀數等。

(5)關于所使用MPS 技術的建議。reads 1 和reads 2 分別進行正、反向測序,存在STR 重復序列結構難以組裝和比對的問題;只使用正向測序結果,其長度取決于MPS 平臺,存在能否檢測PCR-STR 擴增子的全長等問題。

(6)關于存儲MPS 所得結果的格式的建議。

(7)針對MPS-STR 分析軟件提出要求。之前開發(fā)的軟件,多采用與CE-STR 結果相匹配的命名方式,建議調整為基于MPS 技術的新等位基因命名法;至少應輸出“(6)關于存儲MPS 所得結果的格式的建議”中的格式。

迄今為止,法醫(yī)學研究者們在應用MPS 技術檢測STR 標記方面已然取得了階段性成果。針對不同生物公司開發(fā)的用于檢測不同STR 標記的商品化MPS-STR 體系(或STR 聯合SNP 檢測體系)進行了充分的驗證研究,結果說明這些體系靈敏性高,能夠得到可重復、可靠的結果,證實了MPS-STR 檢測能夠達到法醫(yī)DNA 工作的要求。研究中幾乎都進行了MPSSTR 數據與CE-STR 數據的一致性對比,有助于MPSSTR 數據與現在CE-STR 數據庫的對接。MPS-STR數據分析是研究工作中的一大難題,除了商品化分析軟件,也涌現出很多優(yōu)秀的可用于自主構建MPSSTR 體系的數據分析軟件和方法,這將在很大程度上促進MPS-STR 研究的發(fā)展。近年來基于MPS-STR數據的群體學調查研究表明,相對于常規(guī)的CE 檢測,MPS 技術提高了STR 標記的多態(tài)信息含量和雜合度,檢測到大量新的序列特異性等位基因,提高了STR 體系的系統(tǒng)效能,這不僅有利于法醫(yī)學個體識別和親權鑒定,也為混合物的檢測和解析提供了新的機會。此外,在MPS 檢測中使用較短的擴增子有助于法醫(yī)工作中降解檢材和微量檢材的檢測。ISFG和其他法醫(yī)學組織為MPS-STR 命名方法、數據儲存、與CE-STR 數據庫對接等問題做出了努力,STRSeq[64]和DNASeqEx[92]等合作項目促進了法醫(yī)工作者的交流。盡管針對上述待解決問題,我們仍然缺乏足夠且可靠的經驗和數據,然而世界范圍內越來越多的法醫(yī)實驗室開始關注并開展MPS 技術的研究,期待法醫(yī)工作者堅持不懈,共同推動MPS 技術在STR 標記基因分型方面的應用與發(fā)展。

猜你喜歡
法醫(yī)學等位基因法醫(yī)
留學教育與近代法醫(yī)學的建立
用數學思維分析遺傳的基本規(guī)律
Goldeneye 20A試劑盒檢測發(fā)現TPOX基因座三等位基因一例
法醫(yī)的正義之路
法醫(yī)學:解密那些“不可告人”的細節(jié)
關于我國法醫(yī)學人員培養(yǎng)制度的困境與改革
科學神探,真相即將揭開
揭露真相的“醫(yī)生”
愛笑不愛笑,基因早知道
孟德爾定律的擴展及其應用
监利县| 西藏| 新巴尔虎左旗| 仁寿县| 图们市| 桦川县| 稷山县| 郁南县| 昔阳县| 江达县| 拜泉县| 双鸭山市| 广德县| 荆州市| 湄潭县| 图木舒克市| 伊金霍洛旗| 诸暨市| 南康市| 闵行区| 长治市| 江华| 灵山县| 庄河市| 镇坪县| 兖州市| 房产| 上犹县| 禄劝| 舞阳县| 图片| 驻马店市| 灵石县| 临武县| 峨山| 山东省| 镇康县| 历史| 莎车县| 循化| 临城县|