牛青山 宋志豪 杜馨雨
(中國刑事警察學(xué)院科研處 遼寧 沈陽 110035)
Y-STR分型技術(shù)在法庭科學(xué)的實際案件中的親緣排查、篩選、種群的推定,甚至個人識別都有著不可替代的作用。自Y-STR數(shù)據(jù)庫在全國各地公安機關(guān)建立以來發(fā)揮了重大作用,典型的如在偵破甘肅省“白銀案”中的成功應(yīng)用。但隨著法庭科學(xué)對Y-STR基因座的繼續(xù)研究發(fā)現(xiàn),目前常用的Y-filer Plus PCR Amplification Kit系統(tǒng)的27個Y-STR基因座普遍存在突變率較高的情況,這可能導(dǎo)致在實際鑒定工作中出現(xiàn)基因座突變而產(chǎn)生錯誤的排除。而Y-SNP憑借著其極低的突變率、強群體特異性與更短的擴增子受到法庭科學(xué)的關(guān)注[1],特別是近些年隨著對Y-SNP研究的不斷深入,Y-SNP位點對于法醫(yī)學(xué)更突顯出其重要意義與價值。
Y-SNP位點是指位于Y染色體上的單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNPs)。單核苷酸多態(tài)性是指在基因組的水平上由單個核苷酸變異而導(dǎo)致DNA序列的多態(tài)性,是人類可遺傳變異中非常重要的一種,在人類基因組中廣泛分布,被認為是繼STR后的第三代遺傳標記。它主要體現(xiàn)為二等位基因變異,由單個基因轉(zhuǎn)換導(dǎo)致的,基因的插入或缺失同樣也可導(dǎo)致。目前學(xué)術(shù)上將SNP位點分為4類,包括個人識別SNP(IISNP)、家系SNP(LISNP)、祖先SNP(AISNP)與表型SNP(PISNP)[2]。人體的Y染色體屬于近端著絲粒染色體,包含長臂Yq短臂Yp,長度約為60Mb。位于Y染色體兩端的95%為非重組區(qū),而擬常染色區(qū)僅占總長的5%。非重組區(qū)呈現(xiàn)單倍型獨立向下遺傳,表現(xiàn)為由父親傳遞給兒子[3]。Y-SNP突變模式目前主流學(xué)術(shù)界認為是“一次性發(fā)生”的具有時間順序的點突變。因此,Y-SNP擁有高度的種群特異性,多Y-SNP位點所構(gòu)成的系譜樹已經(jīng)為研究群體遺傳學(xué)提供了重要幫助。由于Y-SNP位點的低突變率(約為10-9),在Y-STR基因庫構(gòu)建的基礎(chǔ)上具有輔助作用,可以更好地幫助實際工作中尋找與排除家系,并有望在法醫(yī)學(xué)領(lǐng)域的種群認定與個人識別方A)或巔換面發(fā)揮更重要的作用。
在實際檢驗工作中,往往需要對降解或陳舊檢材進行相關(guān)Y-SNP位點擴增檢驗,但因其極易受到其他生物樣本的污染,從而增加了對Y-SNP擴增結(jié)果判斷的難度。因此,對Y-SNP特異性的研究對實際工作中檢材樣本來源的確定具有重大意義。
Y-SNP位點在研究其特異性時與Y-STR位點類似,大體可分為種屬特異性與Y染色體特異性。黃曾杰等人對人類男性的29個Y-SNP位點進行特異性研究中發(fā)現(xiàn),在29個位點中有23個位點針對男性有較好的特異性,可以擴增出相應(yīng)的PCR產(chǎn)物;29個位點中有3個位點對人,還有部分動物均有部分擴增產(chǎn)物,但兩者長度具有顯著差異;有3個位點對人還有動物有相應(yīng)的擴增產(chǎn)物,且長度類似;有5個位點對于男性女性均有擴增產(chǎn)物且其長度大小類似。因此,絕大多數(shù)Y-SNP位點對男性具有較好的特異性。部分位點人與動物均可擴增出相應(yīng)的片段,種屬特異性差。極少數(shù)位點不具有Y染色體特異性,男性女性均可擴增出相應(yīng)的片段(如M7、P256、M178、M175、P31等),這可能與X染色體與Y染色體含有相應(yīng)的同源區(qū)段相關(guān)[4]。因此,在選擇Y-SNP位點時要充分考慮其選取位點的種屬特異性與Y染色體特異性,這在為科研與法庭科學(xué)檢驗中選取Y-SNP位點時提供了一定的參考。
Y染色體上的突變率是種群遷徙、基因、醫(yī)學(xué)遺傳與法醫(yī)學(xué)研究的重要參數(shù)。往往由于Y染色體的突變相對獨立,通常是中性的,并且成為非重組部分唯一的變異源,所以對Y染色體上遺傳位點的研究可以作為良好的分子鐘來研究種群、家系、遷徙等問題。因此,為了矯正這個分子鐘,需要對Y染色體上各遺傳位點的突變率加以研究分析。對于Y-STR突變率的研究目前在學(xué)術(shù)界已經(jīng)有了一定的成果,但是對于Y-SNP突變率的了解卻知之甚少。目前,在學(xué)術(shù)界對Y-SNP的大規(guī)模測序工作已經(jīng)展開,并產(chǎn)生了幾個對Y-SNP突變速率的估計。
Y-SNP突變率大體可分為遺傳突變率與進化突變率。遺傳突變率是指由于血統(tǒng)所引起的不同程度的改變,而進化突變率主要是指從人口事件中所獲得的任何對該位點產(chǎn)生影響的任何速率(如校正因子、古DNA等)。
在早期研究中,Xue等人在2009年對具有單一中國血統(tǒng)的Y染色體進行分析,通過Sanger測序法對13代所分離的兩個人的Y染色體進行檢測分析,分析結(jié)果產(chǎn)生了4個突變,并可以在其他家庭成員中得到驗證,首次揭示了Y染色體單倍群SNPs的突變。由于已知祖先出生年代與后代的數(shù)量已知,故由此可以計算其每年的遺傳突變率為1.0×10-9,每一代的遺傳突變率為3.0×10-8[5]。
O.Balanovsky等人在2015年對9名哈薩克斯坦人進行了Y-SNP位點的遺傳學(xué)分析,這9名哈薩克斯坦人的系譜樹共同構(gòu)成了傳統(tǒng)系譜樹的拓撲結(jié)構(gòu),從而可以將他們與相同的歷史人物聯(lián)系在一起,進而分析計算遺傳突變率。結(jié)果在測序深度為71×下,觀察到了44個位點的改變(不排除假陽性與陰性情況的發(fā)生),測得其遺傳突變率為0.78×10-9[6]。O.Balanovsky在2017年對此進行了回顧性分析,分析了從2009年至2015年4位不同學(xué)者對Y-SNP位點檢測所得遺傳突變率的結(jié)果,其平均值為0.89×10-9,并認為該突變率可作為一種Y染色體X退化序列良好的遺傳突變率[7]。
進化突變率主要影響因素分為兩種:由校正因子帶來的影響與古DNA所帶來的影響。在計算Y-SNP進化突變率時主要考慮上述兩種因素。
4.2.1 通過校正因子所計算的進化突變率
Poznik等人在2013年對總計69條Y染色體進行了測序,并以此為基礎(chǔ)構(gòu)建了一個全球范圍的Y染色體樹。他們通過對外顯子測序來驗證43個位點,進而得出其進化突變率為0.82×10-9[8]。雖然該結(jié)果與全球線粒體DNA樹的TMRCA相吻合,但是其突變率是由美國校準的特殊子樹中獲得的,要考慮到該血統(tǒng)人種種族遷徙、分離等多方面因素,故該結(jié)果具有爭議性。
Francalacci等人在2013年與2015年分別對1204名撒丁島人的Y染色體進行低測序深度(2×)與高測序深度(17×)的測序,并重點將其聚焦于Y染色體退變區(qū)。他們通過結(jié)果證實了 I2a1a-δ單倍群是撒丁島人所獨有的,因為其帶有明顯的人口爆炸信號,分析其原因可能與新石器時代殖民統(tǒng)治的擴張與改造相關(guān)。通過低測序深度所檢測的進化突變率為0.53×10-9,其結(jié)果由于對假陽性的高度過濾,在實際測序中可能忽略了個別突變的SNPs位點,因而所測得進化突變率偏低。通過高測序深度所檢測的 I2a1a-δ單倍群所得的進化突變率更快,通過標準正態(tài)分布計算所得的CI為0.62×10-9至0.68×10-9[9]。
4.2.2 通過古DNA所計算的進化突變率
FU等人在2014年對一位約為45000歲的西西伯利亞人進行了完整的基因組測序(測序深度為22×),發(fā)現(xiàn)其古老的Y染色體與東/北歐的單倍群NO相類似。其他的研究往往使用概率論的方法直接計算突變并估計突變率,但該學(xué)者率先通過貝葉斯建模的方式在構(gòu)建樹的同時,也將其應(yīng)用于對進化突變率的估計,估計的結(jié)果為0.76×10-9(95%CI為0.67×10-9到0.86×10-9)[10]。Trombetta等人在2015年對數(shù)百個現(xiàn)代人樣本的X退變區(qū)(1.5Mb)進行了檢測,并以此為數(shù)據(jù)通過貝葉斯模型建立系統(tǒng)遺傳樹。后將其與Ust’-Ishim和歐洲舊石器時期晚期的Loshbour樣本相結(jié)合,通過將古DNA的年齡加入到樹中后進行分析計算,最后得到0.71×10-9的進化突變率(95%CI為0.62×10-9到0.82×10-9)[11]。
4.3.1 測序覆蓋深度與SNP過濾設(shè)置所帶來的影響
由于樣本本身的差異,在檢測時相應(yīng)參數(shù)的設(shè)置對最后突變率的測量會帶來不同的影響。如為了避免假陽性與假陰性所帶來的影響,在測序時要特別注意要尋找一個合適的測序覆蓋深度。過低的測序深度會造成相應(yīng)的錯誤從而造成假陰性,進而低估突變率。正如Francalacci等人通過測序深度為2×增加到17×進而增加了23%的突變率[12];當(dāng)測序深度過高時,由于儀器設(shè)備的限制,就會造成精準度的偏差,從而造成假陽性。當(dāng)然,同樣也是由于SNP分析閾值由2增加到10進而也可以減少測序的假陽性發(fā)生率。故對SNP分析閾值的設(shè)置,O.Balanovsky認為要分局部樣本(單一位置單一樣本)、復(fù)合樣本(單一位置多樣本)與系統(tǒng)樣本三種情況分別進行處理。
4.3.2 世代傳遞時間對突變率所帶來的影響
根據(jù)對常染色體突變率進行估算時所用計算方法的特點,世代傳遞時間主要以兩種方式來影響對突變率的估算。第一,在對突變率進行估算時,通常所測量的值TMRCA以幾代人的速度表達,后轉(zhuǎn)化為以年代為單位。所以,每代人的持續(xù)時間將會直接影響到對突變率的估算。第二,隨著父親年齡的增長,隨之帶來突變的可能性便會加大。但幸運的是,對Y-SNP突變率的估算通常是以年為單位,因而第一種方式可以很好地被避免,但第二種方式卻存在,父親的年齡增加了突變率,并隨著世代而變化。因此,男性的青春期年齡、男性精子生長周期與男性生育平均年齡對突變率的估算都將產(chǎn)生影響。
4.3.3 在Y染色體的回文序列與X退化序列突變率的差異
盡管學(xué)術(shù)界在研究Y-SNP的突變率時重點關(guān)注X退化序列,但是Helgason等人在2015年預(yù)見性地將大量基于血緣基礎(chǔ)的數(shù)據(jù),應(yīng)用于對Y染色體擴增序列中的回文序列、X退化序列與X轉(zhuǎn)位序列。其在研究中發(fā)現(xiàn),在X退變序列中并沒有回文序列與X轉(zhuǎn)位序列所含有的旁系同源基因,而該基因是研究對Y-SNP的突變率進行估算的主要研究對象。因此,如果發(fā)生突變,則不能確定具體是哪個序列中攜帶了該突變,則每個序列都被認為是含有突變的,突變大小分別占33%。最后必須通過這些突變在不同序列中的權(quán)重來分別進行計算,進而得到一個無偏見的Y-SNP突變率。該學(xué)者發(fā)現(xiàn),在這些區(qū)域中,回文序列的突變率最低(0.74×10-9,CI:0.64×10-9-0.85×10-9),X退化序列的突變率最高(0.89×10-9,CI:0.80×10-9-0.99×10-9)[13]。
自20世紀DNA的發(fā)現(xiàn)到現(xiàn)如今,經(jīng)歷了近百年的SNP分析技術(shù)已日益成熟,但由于SNP獨特的生理結(jié)構(gòu)特點導(dǎo)致了其各類分析方法均無法達到最完美的結(jié)果。目前學(xué)術(shù)界對SNP位點的研究主要集中在兩個方面:其一為對SNP位點進行篩選,從而建立SNP數(shù)據(jù)庫;其二為對不同SNP位點的功能進行研究,從而為醫(yī)學(xué)領(lǐng)域治療、用藥或預(yù)防等提供幫助。因此,就法醫(yī)學(xué)對SNP進行分析時,主要應(yīng)當(dāng)結(jié)合樣本條件與實驗要求等進行綜合分析,分析方法既要在擁有良好的復(fù)合擴增體系的同時保證高精準度,也應(yīng)兼顧高通量與低成本問題,進而選取最恰當(dāng)?shù)姆绞健?/p>
對于Y-SNP來說,目前所用分析技術(shù)與常染色體SNP相類似,主要分為兩類:傳統(tǒng)凝膠檢測法與新型(現(xiàn)代)分析技術(shù)方法。其中傳統(tǒng)凝膠的分析方法主要包括PCR-RFLP、單鏈構(gòu)象多態(tài)性分析技術(shù)(SSCP)、等位基因特異性探針(ASO)等。新型(現(xiàn)代)分析技術(shù)方法主要包括DNA芯片技術(shù)、變性高效液相色譜分析(DHPLC)、TapMan熒光探針技術(shù)、MassARRAY質(zhì)譜分析技術(shù)、SNaPShot技術(shù)、基質(zhì)輔助激光解吸電離/飛行時間(MALDITOF)質(zhì)譜法等。傳統(tǒng)分析技術(shù)由于其通量低、成本高、時間長的缺點,較少應(yīng)用于Y-SNP的分析中,對此,本文不再贅述。對于高通量的分析方法,目前SNaPShot技術(shù)以其獨特的優(yōu)勢被大量應(yīng)用于Y-SNP的分析。
DHPLC技術(shù)是在溫度調(diào)控高效液相色譜技術(shù)(TmHPLC)的基礎(chǔ)上改進而來的,通過固定相對相同長度片段內(nèi)部不同堿基對親和力的不同,從而將3’端按照C、G、A、T的順序依次洗脫,因而該方法可以分析目的片段與已知片段之間的微小差異。由于該方法在分析進樣前無需對樣本進行純化,因此在實際操作中可以應(yīng)用于高通量的基因分析。但該分析方法不能測出變異位點的具體序列,需要更進一步的測序。正是該方法具有的高通量、操作簡便、高效、檢出率高(95%~100%)特點,故被廣泛地應(yīng)用于變異SNP位點的發(fā)現(xiàn)與篩查[14]。
石美森在2005年首次將DHPLC技術(shù)應(yīng)用于對Y-SNP位點的分析研究。該學(xué)者通過將Y染色體M9、M35、M98三個SNP位點進行SNuPE復(fù)合位點擴增,后將得到的擴增樣本在完全變性的條件下用DNASep?分析柱進行洗脫[15]。根據(jù)DNA分析片段的長度及每條單鏈堿基不同構(gòu)成的順序被依次洗脫,然后以峰值的形式記錄下來,隨后通過分析同一條件下所檢測樣品的圖譜來確定基因型。該方法操作簡便、快捷,同時由于無需對擴增樣本進行純化,因此適用于高通量的Y-SNP分型。但由于其本身技術(shù)特點限制,尚不能用于明確變異,只能對Y-SNP變異進行初篩、初檢,最后仍然需要測序來明確具體變異。
質(zhì)譜是通過測定待測樣品電離后離子的質(zhì)荷比來判斷樣品的構(gòu)成與性質(zhì)的,最早應(yīng)用于蛋白質(zhì)的分析與檢測中。在20世紀90年代,隨著一些電離技術(shù)的出現(xiàn),質(zhì)譜技術(shù)被應(yīng)用于高通量的DNA遺傳分析。根據(jù)不同的電離技術(shù),可以將質(zhì)譜技術(shù)分為基質(zhì)輔助激光解吸飛行時間質(zhì)譜(MALDI-TOFMS)、電噴霧離子化質(zhì)譜(ESI-MS)、MassARRAY質(zhì)譜分析技術(shù)等。楊何義等人在2003年率先將生物質(zhì)譜應(yīng)用于SNP的分型檢測。他們通過對MALDITOF-MS技術(shù)與ESI-MS技術(shù)對SNP分型的準確度與分辨率數(shù)據(jù)的分析來評價生物質(zhì)譜對SNP分型的優(yōu)劣勢[16]。由于質(zhì)譜技術(shù)為直接對樣品電離后的離子進行分型,對比傳統(tǒng)的電泳技術(shù)可以消除其對擴增片段的抑制效應(yīng),從而具有高效、簡便、快捷與高通量的特點,通過二等位基因檢測體系適合實驗室大規(guī)模樣本試驗[17]。但是,其劣勢在于對靶序列寡核苷酸的要求高,長度一般不能超過45個堿基,過長的序列可能會導(dǎo)致質(zhì)譜在分辨率與精度方面的下降,從而造成錯誤的判定。該技術(shù)特點嚴重影響了多重SNP位點的的檢測能力,不利于復(fù)合SNP擴增體系的檢測。楊何義等人在ESI-MS技術(shù)的基礎(chǔ)上,嘗試通過使用ESI-Qq-TOF-MS技術(shù)以提高對靶序列核苷酸的檢測長度。結(jié)果發(fā)現(xiàn),對于多重SNP位點體系分型方面,該技術(shù)相對于傳統(tǒng)質(zhì)譜技術(shù)在準確度與分辨率上具有明顯優(yōu)勢。王琳等人在2016年通過將MassARRAY生物芯片與MALDI-TOFMS技術(shù)相結(jié)合來對Y-SNP復(fù)合位點進行檢測,其方法技術(shù)大大提高了傳統(tǒng)MALDI-TOF-MS技術(shù)對復(fù)合SNP位點的檢測能力。同時,相比目前常用的SNaPshot技術(shù),極大地節(jié)約了分型所需的時間與成本,可以應(yīng)用于基礎(chǔ)科學(xué)研究。但其對所需樣本量有相應(yīng)的要求,且對組織樣本分型效果差,故難以在日常法醫(yī)檢驗中開展。
SNaPshot技術(shù)又稱小測序、微測序,它主要是在傳統(tǒng)電泳凝膠的基礎(chǔ)上結(jié)合熒光標記單堿基延伸技術(shù),后在通過對含有四色熒光標記(ddNTP)的單鏈DNA進行熒光信號記錄,從而達到對DNA進行測序的目的。由于SNaPshot技術(shù)在同一體系內(nèi)可對多個SNP位點同時進行檢測,具有分型準確、價格低廉的特點,可以達到中等通量,同時輔以毛細管電泳儀分析技術(shù)而被大量應(yīng)用于對SNP的科學(xué)研究。婁春光等人在使用SNaPshot技術(shù)對44個復(fù)合SNPs位點進行檢測時提出了多種對該技術(shù)的優(yōu)化方法以提升該分型的準確率,如前期對多重PCR反應(yīng)體系與緩沖液的調(diào)整、Mg2+與dNTP濃度的優(yōu)化、后期單堿基引物延伸反應(yīng)與反應(yīng)產(chǎn)物檢測的優(yōu)化等[18]。目前,SNaPshot技術(shù)對于Y-SNP位點的分型也已日趨成熟,特別是在對連鎖信息性Y-SNP遺傳性分析中起到了關(guān)鍵作用。
二代測序技術(shù)(Next-generation Sequencing,NGS)又稱深度測序,這是一種以邊合成邊測序與大規(guī)模平行測序(Massively Parallel Sequencing,MPS)思想為基本思想,通過檢測在合成新子鏈時所結(jié)合的帶有熒光標記的dNTP,從而對母鏈進行測序[19]。相比以前較傳統(tǒng)的Sanger測序方法,二代基因測序技術(shù)具有在較短時間內(nèi)高效獲取大量序列數(shù)據(jù)的優(yōu)勢,是一種高通量的測序技術(shù)[20]。但由于二代基因測序技術(shù)所用儀器總體價格昂貴而限制了其發(fā)展。
美國FDA在2013年批準了Illumina公司的MiSeqDx測序儀生產(chǎn),其是第一臺應(yīng)用二代基因測序技術(shù)的測序儀。隨后,相繼的二代基因測序技術(shù)平臺不斷涌現(xiàn),如Applied Biosystems公司的SOLiD測序儀、羅氏公司的FLX系統(tǒng)測序儀、赫利克斯公司的Heliscope測序儀等。
羅氏公司的FLX系統(tǒng)主要是基于焦磷酸測序法,可以對中長片段進行讀取,適合于適合轉(zhuǎn)錄組測序、宏基因組研究、De novo測序等。但是由于其樣本制作困難,儀器價格昂貴而較少被使用。
Illumina公司的MiSeqDx測序儀主要是基于可逆鏈終止物和合成測序法,可以對100bp~150bp的片段進行讀取,適用于適合micoRNA鑒定、DNA甲基化和表觀遺傳學(xué)的研究。其缺點在于用于儀器與后期數(shù)據(jù)整理及分析所需的費用昂貴。
Applied Biosystems公司的SOLiD測序儀主要是基于連接反應(yīng)測序原理,其讀長在所有平臺中最短,可低至50bp~75bp,因而適于基因組重測序和SNP檢測。但是由于其檢測的片段短,導(dǎo)致測序時間長、分析困難等造成了其昂貴的成本[21]。
二代基因檢測技術(shù)已經(jīng)徹底改變了生物醫(yī)學(xué)的研究,并將對醫(yī)學(xué)實踐產(chǎn)生深遠的影響。它增強了我們對基因的識別、量化與功能方面的研究,進而對法醫(yī)遺傳學(xué)產(chǎn)生了深遠的影響。近年來,二代基因檢測技術(shù)在人類個體識別與表型形狀研究方面已經(jīng)得以應(yīng)用,如基因診斷、SNP位點的檢測等。對于Y-SNP的檢測,二代基因檢測技術(shù)已經(jīng)成為其主要檢測手段之一[22]。但由于二代基因測序技術(shù)對讀長的限制,不太適用于需要讀取較長的序列來分析復(fù)雜基因組中SNP關(guān)系的研究。同時,在實踐中儀器的價格、運行時間與成本等多方面考慮,該技術(shù)的推廣也受到了相應(yīng)的限制。
第三代測序技術(shù)又稱SMRT測序,這是一種相比二代測序在檢測小基因序列時更為精準的測序方式。該技術(shù)主要是基于熒光標記核苷酸實時成像技術(shù),通過檢測整合到DNA模板中的新生成DNA分子的熒光信號來對序列進行閱讀。該技術(shù)特點在于其使用DNA聚合酶來驅(qū)動并對單個分子進行成像,信號隨著時間的推移并不會衰減。目前PacBio RS測序儀的平均讀長是3000bp,有的讀長可能為2萬個甚至更長,相比二代測序技術(shù)在讀長方面特別是新基因組的de novo測序更具優(yōu)勢[23]。
Xiaoge Guo等人于2015年通過使用SMRT測序技術(shù)對酵母菌細胞與人體腫瘤細胞中特定片段SNPs之間的關(guān)聯(lián)研究中發(fā)現(xiàn),SMRT測序技術(shù)適用于大量獨立樣本中的少量目標,同時很容易揭示多態(tài)SNPs分析樣本中存在的單倍體類型之間的聯(lián)系,可以替代目前由于二代測序復(fù)雜的計算方法,節(jié)約科研與實踐工作的時間周期,尤其適用于法醫(yī)遺傳學(xué)中基于Y-SNP位點家族譜系的建立[24]。但是,該技術(shù)在發(fā)展上仍然具有相應(yīng)的不足,特別是在DNA聚合酶與計算誤差的減少方面。
目前在法庭科學(xué)中Y-SNP主要應(yīng)用于以下兩個方面:一是推測未知樣本來源,參與構(gòu)建Y染色體單倍群進化樹,從而實現(xiàn)對種族人群的區(qū)分;二是通過選取相應(yīng)的Y-SNP,并根據(jù)其豐富的遺傳多樣性來實現(xiàn)個人識別與父系親權(quán)鑒定。
Y-SNP由于其本身的遺傳特性與突變類型決定了它具有較強的地域性。對此,國際Y染色體協(xié)會在2002年對來自于74個男性個體的245個Y-SNP標記進行基因分型,從而在全球范圍內(nèi)構(gòu)建了153個基于Y-SNP系統(tǒng)的Y染色體單倍群進化樹[25]。這不僅是世界范圍內(nèi)構(gòu)建最早的基于Y-SNP系統(tǒng)的單倍群進化樹,同時也制定了一系列的命名規(guī)則,該命名規(guī)則可兼容于基于系譜的命名與基于突變的命名規(guī)則,為后期單倍群進化樹的研究奠定了基礎(chǔ)。
如今在法庭科學(xué)上通過對Y-SNP單倍群的研究,可以將東亞人種主要分為9種大類單倍群,分別為C*-M130、DE*-YAP、F*-M9、O3*-M122、K*-M9、O3a3c-M134、O1a-M119、O2a-M95與P*-M45[26]。目前學(xué)者們普遍關(guān)注于東亞人所特有的O類單倍群,如O3*-M122,對法庭科學(xué)中嫌疑樣本的種屬鑒定可起到十分重要的作用。
由于Y-SNP突變具有累積效應(yīng),對于Y染色體單倍群的遷徙與各地區(qū)基因交流等方面的研究同樣具有重要意義。于露等人在對209名無血緣河南人的Y-SNP單倍群研究中發(fā)現(xiàn),即使同為東亞地區(qū)但不同區(qū)域單倍型仍然具有其獨特性[27]。河南地區(qū)主要以O(shè)3單倍群為主,占比約為30.62%。通過不同區(qū)域單倍群占比的分析研究,對后期Y-SNP數(shù)據(jù)庫的建立與分析嫌疑樣本Y-SNP單倍群的地域性具有重要意義。
Y-SNP位點不僅可以在構(gòu)建單倍群進化樹上提供幫助,對于個人識別同樣具有重要的輔助作用。雖然Y-SNP本身所攜帶的信息量少,但是由于Y-SNP位點數(shù)量龐大,因此,其組成的單倍型便可提供豐富的遺傳信息,如表型特征信息與個人身份信息等。目前在學(xué)術(shù)領(lǐng)域主要是通過對常染色體個人識別SNP(IISNP)進行位點分析,但對Y-SNP應(yīng)用于個人識別還鮮有報道。
近幾年,利用SNP進行身份鑒別在法庭科學(xué)的取證環(huán)節(jié)上取得了突飛猛進的發(fā)展。GenPlex HID系統(tǒng)通過對48個IISNP的檢驗,獲得了至少達5.0 × 10-19的匹配概率[28]。Pakstis AJ等人隨后將19個無關(guān)聯(lián)SNP、40個無關(guān)聯(lián)SNP、92個無關(guān)聯(lián)SNP應(yīng)用于法醫(yī)個人識別以驗證其效能,并指出通過40個無關(guān)聯(lián)IISNPs即可達到2.02 × 10-17到1.29 × 10-13的匹配概率[29]。同時該研究表示,這些標記相對容易被識別,這對于法庭科學(xué)中對SNP檢驗工作具有重大意義。M. Heath Farris等人在2018年通過開發(fā)一種基于大規(guī)模平行測序(MPS)的IISNP孤島算法(同一離散基因組區(qū)域的多個身份相關(guān)SNP的單倍型)用以對不同的嫌疑樣本進行區(qū)分與個人識別,該方法同樣可以在已知SNP位點變異的基礎(chǔ)上識別新的變異并進行區(qū)分[30]。
隨著全球人口SNP數(shù)據(jù)庫的成熟與保真度的提高,以及新MPS技術(shù)的出現(xiàn),Y-SNP位點分析在個人識別領(lǐng)域?qū)⒕哂袕V闊的應(yīng)用前景。
與常染色體STR類似,Y-STR同樣在突變率上有高低之分。目前在對Y-STR基因座的檢驗中,對于突變率高于10‰的快速突變基因座(RM STRs)的判讀需要十分謹慎,需結(jié)合案情等進行綜合判定,以求對犯罪嫌疑人達到準確刻畫,便于刑事案件中犯罪嫌疑人家系的排查[31]。隨著Y-STR基因庫的構(gòu)建,基因庫人數(shù)不斷地增加,出現(xiàn)了無關(guān)個體享有相同的Y-STR單倍群的情況發(fā)生[32]。通常情況下,對應(yīng)的策略為選取突變率更低的Y-STR基因座[33]與增加Y-STR基因座的位點[34]來增強對家系的區(qū)分。針對此現(xiàn)象,Kaye N.Ballantyne等人認為可以在Y-STR基因庫所選取的位點中適當(dāng)增加少量RM Y-STR位點,以提升各單倍群的特異性,從而增強對不同家系的區(qū)分[35]。但隨著對Y-STR單倍群的繼續(xù)研究,張文瓊等人在對4個RM Y-STR的研究報道中指出,異常分型的出現(xiàn)概率高達7.94%[36]。Kaye N.Ballantyne等人在對部分非RM Y-STRs基因座的研究中發(fā)現(xiàn),同樣出現(xiàn)了高達1.51×10-3~7.27×10-3不等的突變率。因此,對于來自一個家系的男子,理論上擁有相同的Y-STR單倍型,但是由于Y-STR基因座的突變?nèi)匀粫斐苫蚍中偷牟灰弧?/p>
SNP基因座相比于STR基因座有著低突變率、穩(wěn)定的性質(zhì),使其具有不易降解的特性。Hathaichanoke等人在對泰國人群的降解DNA分型中發(fā)現(xiàn),當(dāng)STR分型已不能提供足夠的信息時,所選取的54個SNP基因位點分型仍然可以提供足夠的基因型數(shù)據(jù)[37],這與SNPs分析時所選取的片段大小相關(guān)(45bp~150bp),相對較短的SNP位點擴增子檢驗對于降解檢材或是腐敗檢材仍然擁有可以挖掘的重要信息。因此,實際工作中對降解與腐敗檢材的檢驗,Y-SNP位點就突顯其重要的檢驗價值。同樣,Y-SNP不僅可以應(yīng)用于常規(guī)檢材的個人識別,對于混合斑中的個人識別同樣具有重要意義。
對此,筆者認為在當(dāng)前條件下,可在所構(gòu)建的Y-STR基因庫相應(yīng)地添加Y-SNP位點,從而在現(xiàn)有條件下更準確地對家系進行區(qū)分。Y-SNP相比Y-STR,具有穩(wěn)定不易突變性、耐降解性與地域性。特別是在地域性方面,由于Y-SNP位點所具有的單倍型父系遺傳可以有效避免染色體重組的發(fā)生,同時輔以其極低的突變率在對目前所構(gòu)建的Y-STR基因庫有極大的輔助作用。由于其擴增子短,便于進行大規(guī)模的儀器批量檢測。目前SNP作為第三代遺傳標記在法庭科學(xué)中越來越突顯其地位,在國際范圍內(nèi)的人類SNP基因庫也在逐步構(gòu)建中。因此,在傳統(tǒng)Y-STR基因庫的基礎(chǔ)上加入篩選的具有家系特征與個人識別特征的Y-SNP,從而以其極低的突變率保障對犯罪嫌疑人家系排查的準確率,輔以RM Y-STR位點甚至有望可達到個人識別水平。這不僅對于公安實戰(zhàn)中混合斑、降解與腐敗檢材的鑒定,前期家系排查工作,甚至是犯罪嫌疑人的同一認定均具有一定的價值,同樣對于公安實戰(zhàn)從第二代遺傳標記(STR)向第三代遺傳標記(SNP)的過渡也具有重大意義。但不得不說的是,在選取相應(yīng)Y-SNP位點時要格外注意,為避免檢材因受到其他生物來源及女性成分來源的污染時出現(xiàn)假陽性的情況,要選擇對男性有較好種屬特異性的Y-SNP位點進行分析。
目前傳統(tǒng)檢測方法鮮有將Y-STR與Y-SNP復(fù)合擴增后進行平行檢測的案例,主要體現(xiàn)為分別通過聚合酶鏈反應(yīng)—毛細管電泳分型技術(shù)(Polymerase Chain Reaction-capillary Electrophoresis,PCR-CE)與MPS平臺分別進行測序,后通過整合在一個數(shù)據(jù)庫中。再使用FSindex分析平臺對這兩種位點的突變率進行校正綜合分析(NGS+)[38]。但是,隨著檢測技術(shù)的不斷提升,目前已有通過MPS平臺對包括STRs、SNPs、mtDNA、Y-STRs和X-STRs在內(nèi)的遺傳位點進行平行基因型測序分析的研究,這不僅可以大大減少檢測的操作與時間,同時也可減少對檢測樣本的消耗。MPS檢測平臺的發(fā)展可為Y-STR與Y-SNP基因庫的構(gòu)建解決技術(shù)難題,并有望成為一項很有前途的法醫(yī)學(xué)應(yīng)用技術(shù)。