国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合STR分型分析方法研究進展

2022-02-13 06:42李永久嚴安心趙禾苗趙興春
刑事技術 2022年1期
關鍵詞:等位基因分型組分

彭 柱,徐 珍,凃 政,楊 帆,李永久,嚴安心,聶 昊,趙禾苗,趙興春

(公安部物證鑒定中心,北京 100038)

隨著DNA提取及檢驗技術靈敏度的提高,案件中檢出混合STR分型的情況也越來越多,其中不同組分的等位基因相互疊加,彼此影響,導致這一法醫(yī)物證學研究與辦案的難題愈加復雜難解。目前,通過差異裂解、孔徑過濾、顯微操作、激光顯微切割、光鑷捕獲、流式細胞分選以及基于微流控芯片的核酸適配體篩選、電泳分離等技術,均能實現(xiàn)不同類型的細胞分離[1-4],獲得較為單一的STR分型。但是對于同類細胞混合的生物檢材,目前只能對提取到的混合DNA樣品進行檢測分析。同二代測序(next generation sequencing,NGS)技術[5]、缺失或插入多態(tài)性片段與STR連鎖的新型遺傳標記(deletion-insertionpolymorphism-STR,DIP-STR)技術[6]、微單倍型技術[7]相比,基于傳統(tǒng)PCR和毛細管電泳(PCR-capillary electrophoresis,PCR-CE)平臺的STR檢測技術在模板用量、檢測系統(tǒng)成熟度、結(jié)果解析及應用推廣等方面更符合當前實際需求。本文總結(jié)了混合STR分型分析方法的相關研究進展,展望了人工智能時代混合STR分型分析方法研究的發(fā)展方向。文中的混合STR分型均為基于傳統(tǒng)PCR-CE平臺對混合DNA樣本進行STR遺傳標記檢測分析得到的STR分型。

1 混合STR分型分析概述

目前關于混合STR分型的解釋與分析,其策略主要參照由Clayton等提出并獲得國際法醫(yī)遺傳學會(International Society of Forensic Genetics,ISFG)DNA委員會認可的“克萊頓法則”[8-9]。

1)確定檢出的STR分型是否為混合STR分型,需結(jié)合閾值對等位基因峰和影子(stutter)峰、拔起峰等偽峰進行區(qū)分,尤其需要注意微量DNA(low template DNA,LT-DNA)及罕見的染色體異常的情況。

2)確定混合STR分型中的組分數(shù),一般根據(jù)單個基因座上的最大等位基因峰的數(shù)量及峰高比來判斷。

3)評估各組分之間的大致混合比例(mixture proportion,Mx),可根據(jù)峰高/峰面積等定量信息推測各組分之間的大致比例。

4)確定各組分可能的STR分型組合,根據(jù)確定的組分數(shù)和混合比例,結(jié)合定量信息及雜合子均衡度(heterozygote balance,Hb)剔除掉不可能的基因型組合。

5)將混合STR分型中拆分出的STR分型同待定個體(person of interest,POI)分型進行比較。

6)結(jié)合統(tǒng)計學評估計算分型證據(jù)和POI之間的關聯(lián)度,統(tǒng)計方法有多種,如聯(lián)合包含概率(combined probability of inclusion,CPI)法、修正的隨機匹配概率(modifi ed random match probability,mRMP) 法以及似然比(likelihood ratio,LR)法。

完整的混合STR分型分析結(jié)論應當包含對混合STR分型證據(jù)與POI之間量化的統(tǒng)計學評估,方便后續(xù)環(huán)節(jié)檢察和審判人員對混合STR分型證據(jù)力度的理解,也易于和其他的量化證據(jù)進行統(tǒng)一分析。

2 國內(nèi)混合STR分型分析方法的研究進展

關于混合STR分型的解釋,國內(nèi)仍然以人工定性分析為主,即依靠鑒定人對混合STR分型的認識與經(jīng)驗進行人工拆分,并結(jié)合參考STR分型出具是否包含POI的定性結(jié)論;若嫌疑人STR分型未知,可將拆分出的未知單一STR分型進行入庫檢索,為偵查提供線索,以上主要適用于兩組分混合的情況。人工分析過程基于一些假定前提,如Hb不小于60%[10],stutter峰高比例不超過15%,各組分的混合比例經(jīng)過復合擴增后保持不變,并且與基因座內(nèi)各自等位基因峰高的比值大致相同,等位基因存在共享時其峰值是相互疊加的[11]等。我國現(xiàn)有行業(yè)標準中關于混合STR分型解釋的內(nèi)容較少,僅限于兩組分混合下,存在已知對照樣本拆分另一未知個體分型或者當兩者混合比例差異較大(1∶10)且均為雜合子時的無對照拆分[12]。人工分析方法在實際案件中已有多起成功報道,如苑美青等利用人工拆分方法對包含已知受害人分型的兩組分混合STR分型進行解釋并在DNA快比平臺中成功比中了嫌疑人[13];陳靜等對21起未破獲案件中的混合STR分型進行人工拆分,19起案件拆分出不完整的STR分型,5起案件比中前科人員或與異地案件串并[14];劉小瑩等在檢出二組分混合STR分型的15起案件中,借助已知受害人分型拆分出另一未知分型,其中11起案件直接認定嫌疑人[15];蘇艷佳等在已知受害人分型的前提下,通過計算雜合子重疊等位基因峰高比值的變化率,設置響應閾值,對二組分混合中含重疊等位基因的基因座進行拆分,為人工拆分處理含重疊基因的混合STR分型提供了可資借鑒的解決方案[16]。

除人工分析外,國內(nèi)也在積極探索智能比對、分析算法等在混合STR分型解析中的應用,如王禹等從比對角度出發(fā),先根據(jù)CPI的變化來判斷可疑等位基因的取舍,CPI即混合STR分型包含隨機無關個體分型的概率,混合STR分型的等位基因數(shù)越少,CPI值越小,混合STR分型的識別力越強;然后對混合STR分型在數(shù)據(jù)庫中比中的所有個體分型分別計算對應的聯(lián)合被包含概率(combined probability of being included,CPBI)來對個體進行排序,優(yōu)先分析等位基因頻率低、雜合基因座多的個體分型(相應的CPBI值低),從而提高工作效率,將以往人工先拆分后比對的工作模式轉(zhuǎn)化為先比對后拆分驗證的路徑[17];康艷榮等利用以圖論為基礎的混合物組分拆分(mixtures component deconvolution using graph theory,MDG)算法,將混合STR分型中基因座上每個等位基因作為頂點V,以任意兩個等位基因的峰面積比值為邊E,當E∈(0.67,1.67)時,此時兩個等位基因?qū)捻旤c有邊相連,將混合STR分型拆分轉(zhuǎn)化為圖集挖掘問題,借助計算機運算可快速獲得大量的基因型組合,為解決混合STR分型分析問題提供了一種新的解決思路[18];周密通過計算混合STR分型的多基因座某表觀組分數(shù)累積概率(cumulative probability of apparent component number,CPA)而對混合DNA樣本的組分數(shù)進行輔助判斷,并利用隨機模擬法產(chǎn)生的混合數(shù)據(jù)對該值計算公式的準確性進行驗證[19]。

以上方法僅在分析兩組分混合的情況下顯現(xiàn)優(yōu)勢,隨著混合組分數(shù)的增加,每個基因座的基因型組合情況變得異常復雜,即使存在已知參考分型,人工拆分出未知個體分型也十分困難,若采取先比對后拆分的模式,則耗時更長,系統(tǒng)硬件要求也更高,此外上述方法均無法給出量化的統(tǒng)計學評估結(jié)果,影響了混合STR分型證據(jù)的進一步解讀與應用。

3 國外混合STR分型分析方法研究進展

國外率先開展了法醫(yī)DNA檢驗技術的應用[20-21],故其關于混合STR分型解析的研究較為成熟[8,22]。CE結(jié)合激光誘導熒光檢測系統(tǒng)具有高靈敏度和高分辨率,既有研究表明,在一定范圍內(nèi)CE系統(tǒng)檢出的峰高度與電泳樣品中DNA含量呈線性相關[23-24],而且同板凝膠系統(tǒng)相比,CE系統(tǒng)產(chǎn)生的STR等位基因峰的峰形更對稱,峰高被大多數(shù)實驗室用于混合STR分型的定量解析[25],國外關于混合STR分型的統(tǒng)計分析模型也主要以峰高作為定量分析的參考依據(jù)[26-27]。

3.1 二進制模型(binary model)

國外最早用于解釋混合STR分型的方法模型為二進制模型,即根據(jù)基因座上等位基因的有無對相關基因型組合的概率權重指定為1(包含)或者0(排除)。早期的二進制模型未考慮峰高和Mx信息,使用無限制性組合方法[28]計算LR,稱為定性二進制模型;隨后出現(xiàn)的半定量二進制模型能夠依據(jù)經(jīng)驗準則和人工判斷, 結(jié)合Mx、Hb的限定,對基因型組合進行篩選,排除可能性低的組合[8,29];在等位基因可能發(fā)生缺失(drop-out)的基因座,該模型采用更為保守的2p法則或者直接忽略該基因座的方式處理,2p法則是對于只檢測到一個等位基因a并且其峰高低于隨機閾值的基因座,用2pa表示該基因座分型概率的保守方法,但當嫌疑人分型為ab雜合型,考慮共祖效應且drop-out概率小于0.5時,2p法則被證明并不保守[30]。除了2p法則外,還有使用替代符表示缺失等位基因的方法,即用“F”標記該基因座上的任意一個等位基因和用“Q”標記該基因座上除已有等位基因外任意一個等位基因。這兩種方法在分析含有LT-DNA的混合STR分型時用于計算LR比較方便。但改進的二進制模型仍無法很好地解決POI分型的等位基因在混合STR分型中缺失所導致的不匹配問題,也難以處理復雜的多組分混合及同時分析多個平行重復擴增數(shù)據(jù)的情況[24]。

3.2 基因型概率模型

基因型概率模型(probabilistic genotyping model,PG model)簡稱PG模型,該模型不僅可以同時分析多個重復數(shù)據(jù),而且考慮了等位基因缺失的概率(probability of drop-out,Pr(D))和插入的概率(probability of contamination,Pr(C)),能夠較好處理POI分型與混合STR分型不匹配的問題,也可以基于給定的基因型組合計算出相應的概率權重,數(shù)值為0~1之間的常數(shù)?;蛐透怕誓P头譃榘脒B續(xù)模型(semi-continuous model)和完全連續(xù)模型(full-continuous model)。

3.2.1 半連續(xù)模型

半連續(xù)模型 又稱離散模型或缺失模型,該模型在二進制模型的基礎上,將Pr(D)/Pr(C)納入到分析過程中。對Pr(D)的評估,Gill等通過仿真數(shù)據(jù)計算經(jīng)驗似然函數(shù),通過最大似然法求Pr(D)[31];Tvedebrink等通過已知驗證數(shù)據(jù),使用邏輯回歸對Pr(D)建模,結(jié)合混合STR分型中的峰高信息估計Pr(D)[32-34]。對Pr(C)的評估,則往往通過空白/陰性對照的經(jīng)驗數(shù)據(jù)估計[35]。然而,半連續(xù)模型對混合STR分型信息的利用仍不充分,既沒有對stutter峰等偽峰進行模擬,計算前需要分析人員對混合STR分型中的等位基因峰和偽峰加以區(qū)分;也沒有充分利用可用信息,峰高信息僅用于評估Pr(D),對于混合STR分型的基因型組合拆分仍類似于定性二進制模型,對所有基因型組合分配相同的概率權重。

3.2.2 完全連續(xù)模型

完全連續(xù)模型在半連續(xù)模型的基礎上,能對混合STR分型中每個基因座上各種基因型組合分別賦予相應的概率權重,較為客觀地描述當前基因型組合能夠產(chǎn)生實際混合STR分型的可能性。該值的計算依賴于生物模型、概率分布和馬爾科夫鏈-蒙特卡洛(Markov Chain-Monte Carlo,MCMC)算法。生物模型的功能是預測峰高,影響峰高的因素很多,包括DNA模板量、降解系數(shù)、基因座特異擴增系數(shù)、基因型劑量系數(shù)、影子峰率等。在假定相應參數(shù)后生物模型可根據(jù)不同基因型組合模擬產(chǎn)生大量的混合STR分型[36],模擬過程兼顧等位基因缺失/插入等隨機效應;在將模擬圖譜和實際圖譜進行擬合比較的過程中,借助MCMC算法,對每種基因型組合的期望權重進行統(tǒng)計估算,選擇最佳基因型組合[37]。MCMC算法是一種隨機采樣的方法,在參數(shù)期望值無法直接計算時,通過后驗概率密度函數(shù)對變量進行多次隨機采樣并計算,從而對真實參數(shù)期望值進行模擬評估的方法。MCMC在深度學習、語言處理等理論研究以及航空航天、天氣預報等生產(chǎn)生活領域都有著廣泛的應用。完全連續(xù)模型能夠更好地利用混合STR分型中的可用信息,同其他模型相比,有效增強了結(jié)果的客觀性和準確性[38-39],也方便在不同假設條件下計算LR值。意大利的Yara Gambirasio命案[40]、西班牙的一起失蹤人口案和一起謀殺案[41]以及美國紐約波茨坦男孩被殺案[42]均是通過借助完全連續(xù)模型為基礎的分析軟件對現(xiàn)場物證混合STR分型進行分析,最終為案件偵查或訴訟提供了重要支撐。

3.3 不同模型比較總結(jié)

完全連續(xù)模型同其他模型相比,在混合STR分型的前處理、適用范圍、結(jié)果的客觀性與準確性上具有較大的優(yōu)勢,然而該模型的計算原理復雜,涉及大量的概率論與統(tǒng)計學知識,對于初學者猶如“黑匣子”,法庭解釋較為困難。此外,完全連續(xù)模型分析所需計算量大,為確保結(jié)果的準確性,往往采取多條MCMC鏈進行上百萬次的迭代計算,算法復雜且耗時長。相對而言,半連續(xù)模型忽略了峰高定量信息,程序簡單,分析迅速;而二進制模型原理最為簡單,容易理解,對于經(jīng)驗豐富的鑒定人而言,可能更傾向于人工參與程度高的二進制模型,因其有助于增強鑒定人的信心。表1集中展示了不同統(tǒng)計模型的基本特征。

表1 不同統(tǒng)計模型的特征對比Table 1 Comparison among characteristics from different statistical models

為進一步對比并闡述不同統(tǒng)計模型的基本原理,分別采用上述統(tǒng)計模型對模擬2組分混合的SE33基因座混合STR分型進行分析,分型詳細信息如表2所示。

表2 SE33基因座混合STR分型示例Table 2 The exampled SE33 locus where to harbor value-various mixed-STR constituents

設定隨機閾值為300 RFU,混合組分數(shù)為2,假定根據(jù)其他基因座信息,確認POI為組分1,分別計算POI分型為16/19和16/26.2時,混合STR分型包含POI和隨機個體的概率。對于二進制模型和半連續(xù)模型,分析前需人工將stutter峰與等位基因峰進行區(qū)分,結(jié)果如表3所示。由于完全連續(xù)模型的概率權重計算過程過于復雜,此處不詳細展示。

表3 不同統(tǒng)計模型計算結(jié)果Table 3 Results from calculation with different statistical models

隨著理論模型的不斷成熟,近幾年又有多個混合STR分型分析軟件相繼問世,其中基于PG模型的混合分析軟件成為國際主流。部分軟件如EuroForMix、TrueAllele?及STRmixTM等已經(jīng)通過大量實驗數(shù)據(jù)驗證,結(jié)果符合預期[43-50],在三人以上混合及組分包含LT-DNA的情況下,完全連續(xù)分型軟件計算比傳統(tǒng)的人工分析更具優(yōu)勢[48]。當前部分軟件計算的結(jié)果已經(jīng)作為證據(jù)的一部分被引入刑事訴訟程序中,如英國和丹麥的法院已經(jīng)將DNAmixtures軟件用于混合STR分型證據(jù)的計算評估[40],美國也至少有一半以上的DNA實驗室正在使用或準備使用該類軟件解決日常案件中的混合STR分型問題[51]。表4列舉了目前國際上比較常用的PG模型軟件系統(tǒng)。

表4 基于PG模型解釋混合STR分型的常用軟件[51]Table 4 Mainstream PG-model-based software for deciphering mixed STR profi les [51]

4 總結(jié)與展望

4.1 混合STR分型分析的發(fā)展趨勢

我國人口基數(shù)大,案件數(shù)量多,在混合STR分型結(jié)果解析方面一直更注重以實際應用為導向。國內(nèi)前期研究主要集中在前期投入少而經(jīng)驗要求相對高的人工分析領域;我國擁有世界上數(shù)據(jù)量最大的DNA數(shù)據(jù)庫,間接導致國內(nèi)混合STR分型分析智能化、自動化研究側(cè)重于混合STR分型直接入庫比對,而非混合STR分型本身的智能算法解析。國外混合STR分型分析起步早,從理論模型研究到系統(tǒng)平臺搭建都更為成熟,在自動化和智能算法領域,確有其可借鑒之處。雖然完全連續(xù)型模型是目前公認的比較成熟的概率解釋模型,其注釋結(jié)果便于進行統(tǒng)計學量化評估,符合實際需求,但是該模型在前期實驗室相關參數(shù)校正以及模板降解嚴重的混合STR分型解析方面仍有一定的局限性。近年來NGS技術在法醫(yī)遺傳學領域嶄露頭角,NGS的擴增模式獨特,測序結(jié)果包含完整的序列信息,在STR基因座識別能力、降解檢材的分析以及LT-DNA的檢測靈敏度等方面可填補傳統(tǒng)PCR-CE技術的短板[52],目前該技術在實際案例中已有成功應用[53],但NGS的結(jié)果數(shù)據(jù)如何同傳統(tǒng)的STR分型數(shù)據(jù)兼容并納入模型分析計算仍是一個難題。如何結(jié)合我國DNA數(shù)據(jù)庫的優(yōu)勢,開發(fā)出適應數(shù)據(jù)范圍更廣、計算速度更快、原理更易理解的新型智能算法模型并為其注釋結(jié)果設計量化評估方式將是今后的一個重要理論研究方向。

應用研究層面,由于遺傳分析儀的電耦合元件(charge coupled device,CCD)檢測器對熒光的線性響應以及光譜校正均存在一定的有效區(qū)間,為保證分析結(jié)果的準確性,混合DNA的模板量是不可忽略的一個因素。未來,結(jié)合檢材前端預處理甄別技術,不僅能夠針對不同類型細胞混合的生物檢材進行細胞水平的篩選并對DNA定量,還能對同一類型細胞混合的生物檢材DNA樣本進行整體定量。針對不同的檢測儀器和擴增試劑盒,結(jié)合擴增循環(huán)數(shù)及模板量對混合STR分型進行質(zhì)量評估,為下一步模型分析提供最佳的數(shù)據(jù)源。當然,應用研究也可與算法模型理論的基礎研究相結(jié)合,開發(fā)出一種全方位的分析方法,完整解決混合STR分型的分析難題。

4.2 人工智能技術在混合STR分型解析中的應用

近年來,人工智能(artifi cial intelligence,AI)作為繼計算機、互聯(lián)網(wǎng)之后對人類社會產(chǎn)生重大深遠影響的新一代技術,在各行業(yè)領域中都呈現(xiàn)出廣泛的應用前景,法醫(yī)DNA鑒定領域當然也不例外。人工智能獨特的優(yōu)勢將有助于目前既有統(tǒng)計模型的優(yōu)化,尤其在面對新的實驗環(huán)境以及前期模型試驗中未涉及的特殊情況時,人工智能機器自主學習和智慧算法可在計算過程中自動對模型參數(shù)進行校正,可極大地節(jié)省人工勞動成本。人工智能的模式識別技術不僅能在檢材前端的預處理上發(fā)揮作用,更好地“分類”并“定量”,獲得峰高更適于分析的STR分型,而且更有望替代人工完成對混合STR分型電泳數(shù)據(jù)的前處理,盡可能減少因經(jīng)驗差異導致的主觀誤差,將混合生物檢材從前端處理到后續(xù)結(jié)果分析的完整流程進行系統(tǒng)整合,形成一個功能更加強大的人工智能分析系統(tǒng)。屆時,其高度自動化的工作流程,將能有效擴大應用范圍并降低使用門檻,有助于從根本上解決混合STR分型分析應用的難題。

猜你喜歡
等位基因分型組分
改進貝葉斯統(tǒng)計挖掘名老中醫(yī)對肺痿的證候分型經(jīng)驗
近紅外定標法分析黏/錦/氨三組分纖維含量
組分分發(fā)管理系統(tǒng)在天然氣計量的應用
親子鑒定中男性個體Amelogenin基因座異常1例
CT在早期預測新型冠狀病毒肺炎不同臨床分型的應用
煤的族組分基本特性研究
用數(shù)學思維分析遺傳的基本規(guī)律
復雜分型面的分型技巧
愛笑不愛笑,基因早知道
錫鈷合金鍍液組分及工藝條件如何?
柏乡县| 广河县| 青阳县| 阿巴嘎旗| 原平市| 揭东县| SHOW| 德清县| 昭通市| 闸北区| 麻栗坡县| 桃源县| 乌恰县| 沭阳县| 霍山县| 梁山县| 龙川县| 武宣县| 津市市| 五大连池市| 朝阳市| 通化市| 黎城县| 石泉县| 常宁市| 武城县| 宁夏| 治县。| 福建省| 湟源县| 濮阳市| 伊通| 岱山县| 云安县| 正安县| 民丰县| 濮阳市| 汶川县| 普定县| 钟祥市| 铜鼓县|