国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微單倍型遺傳標(biāo)記的法醫(yī)基因組學(xué)研究

2021-11-01 10:30李茜王浩宇曹悅巖朱強(qiáng)舒潘寅侯婷蕓王雨婷張霽
遺傳 2021年10期
關(guān)鍵詞:等位基因染色體多態(tài)性

李茜,王浩宇,曹悅巖,朱強(qiáng),舒潘寅,侯婷蕓,王雨婷,張霽

研究報(bào)告

微單倍型遺傳標(biāo)記的法醫(yī)基因組學(xué)研究

李茜,王浩宇,曹悅巖,朱強(qiáng),舒潘寅,侯婷蕓,王雨婷,張霽

四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,成都 610041

微單倍型(microhaplotype, MH)是在一定DNA片段范圍之內(nèi),由至少兩個單核苷酸多態(tài)性位點(diǎn)組成的遺傳標(biāo)記。MH兼具無stutter偽峰、多態(tài)性豐富以及擴(kuò)增子較小等特點(diǎn),有望成為法醫(yī)學(xué)上的一種新型遺傳標(biāo)記。為了從全基因組維度上分析MH的特征,進(jìn)一步發(fā)掘其應(yīng)用潛能,本研究基于千人基因組計(jì)劃中105個中國南方漢族個體的全基因組測序數(shù)據(jù),構(gòu)建了迄今為止最全面的MH數(shù)據(jù)集。結(jié)果表明,人類基因組中350 bp范圍之內(nèi)的MH位點(diǎn)數(shù)量共計(jì)9,490,075個,且微單倍型分布密度對染色體變異水平具有提示作用。從多種堿基跨度范圍對MH的多態(tài)性分析表明,其多態(tài)性潛能可達(dá)到或者超過常用短串聯(lián)重復(fù)序列位點(diǎn)的水平。此外,本文歸納總結(jié)了MH組裝靈活等特點(diǎn),并提出了構(gòu)建微單倍型數(shù)據(jù)庫的方案。

法醫(yī)遺傳學(xué);微單倍型;千人基因組計(jì)劃;中國南方漢族群體

近些年,微單倍型(microhaplotype,MH)逐漸受到法醫(yī)學(xué)領(lǐng)域研究人員的關(guān)注。MH由Kidd實(shí)驗(yàn)室(美國,耶魯大學(xué)醫(yī)學(xué)院)在2013年首先提出[1],是一種在幾百個核苷酸以內(nèi),由兩個或多個緊密連鎖的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點(diǎn)組合而成的多等位基因分子標(biāo)記。MH與其他遺傳標(biāo)記相比具有以下特點(diǎn):(1)擴(kuò)增子沒有stutter峰。微單倍型沒有短串聯(lián)重復(fù)結(jié)構(gòu),不會出現(xiàn)stutter峰所帶來的諸如增加不平衡混合樣本分析的復(fù)雜性等干擾問題[2,3]。(2)多態(tài)性通常高于SNP。MH具有多個等位基因,經(jīng)過篩選的微單倍型擁有比SNP位點(diǎn)更高的雜合度[4]。(3)MH為序列多態(tài)性,其檢測依賴于對堿基序列的讀取。二代測序技術(shù)可以在幾百個堿基的DNA單鏈上進(jìn)行連續(xù)測序,直接對緊密排列的SNP位點(diǎn)進(jìn)行“定相”(phase),獲得真實(shí)的單倍型[5]。MH的可檢測片段長度隨著測序技術(shù)的發(fā)展一直在增加,由最初定義的200 bp逐漸擴(kuò)大到300~500 bp[1,6,7]。而其片段長度下限,根據(jù)報(bào)道可低至20 bp或70 bp[8,9]。MH的這些特點(diǎn),使其有望成為短串聯(lián)重復(fù)序列(short tandem repeat, STR)位點(diǎn)基因分型的補(bǔ)充方法。

目前已有多個應(yīng)用于法醫(yī)DNA分析的MH體系。de la Puente等[10]開發(fā)了包含118個MH的復(fù)合體系,由于位點(diǎn)的平均長度僅51個核苷酸,對降解的DNA表現(xiàn)出高度的敏感性。MH的等位基因頻率在不同大陸群體之間表現(xiàn)出差異,聯(lián)合使用118個MH可以提供比常用STR體系更低的隨機(jī)匹配概率。Oldoni等[11]報(bào)道的74-MH體系在混合DNA分析方面表現(xiàn)出優(yōu)勢,MH在二代測序平臺檢測到的等位基因覆蓋度(allele coverage, AC)可以一定程度反映混合斑比例,更利于對次要貢獻(xiàn)者的等位基因進(jìn)行拆分。Wu等[12]認(rèn)為具有較高有效等位基因數(shù)(the effective number of alleles,)的MH有利于在混合斑中檢測到更多的等位基因,從而減少貢獻(xiàn)者之間的等位基因共享,幫助判斷貢獻(xiàn)者個數(shù)。一些研究人員測試了MH體系對法醫(yī)親緣關(guān)系鑒定的適用性[13~15]。結(jié)果表明,聯(lián)合使用30~60個MH在親子鑒定和全同胞鑒別方面可優(yōu)于現(xiàn)有STR或SNP體系,但涉及二級或更遠(yuǎn)的親緣關(guān)系判斷仍然需要添加更多的位點(diǎn)。上述研究均強(qiáng)調(diào)了開發(fā)足夠數(shù)量的、多等位基因、高多態(tài)性MH的重要性。

根據(jù)統(tǒng)計(jì),目前約有470個微單倍型被報(bào)道[10,12~20],其中多數(shù)位點(diǎn)的值在2.0~4.0,達(dá)到4.0以上的位點(diǎn)有120個。SNP遺傳標(biāo)記在人類基因組中是廣泛存在的,相應(yīng)的,由多個SNP參與定義的微單倍型的數(shù)量也是極為豐富的。相對于MH在全基因組中的廣泛分布,目前已開發(fā)報(bào)道的微單倍型僅是其中很小的一部分。想要進(jìn)一步了解MH的數(shù)目和屬性,更好地滿足個人識別、混合DNA分析以及親緣關(guān)系鑒定等法醫(yī)學(xué)應(yīng)用的需求,需要更全面的MH位點(diǎn)信息作為支持。據(jù)此,我們從特定群體入手,以期在全基因組維度上對MH的特征進(jìn)行分析與歸納。本研究使用的是千人基因組計(jì)劃第三階段中國南方漢族群體的遺傳數(shù)據(jù)??紤]到法醫(yī)學(xué)領(lǐng)域不同應(yīng)用目的下的擴(kuò)增子長度、常用測序平臺的閱讀長度以及位點(diǎn)側(cè)翼需預(yù)留引物設(shè)計(jì)空間等因素,我們對350 bp范圍內(nèi)的微單倍型進(jìn)行全面篩查,并統(tǒng)計(jì)了多種片段長度限制下MH的多態(tài)性,進(jìn)一步認(rèn)識和發(fā)掘這種新興法醫(yī)學(xué)遺傳標(biāo)記的應(yīng)用潛能。

1 材料與方法

1.1 SNP預(yù)過濾

本研究使用的全基因組測序數(shù)據(jù)下載自千人基因組計(jì)劃第三階段(GRCh37.p13)的數(shù)據(jù)庫網(wǎng)站[21]。涉及的105個樣本均屬于中國南方漢族(Southern Han Chinese, CHS)。首先使用VCFtools工具對這些樣本的變異檢測格式(variant call format, VCF)文件進(jìn)行預(yù)過濾,獲取可用于后續(xù)組裝微單倍型的SNP集合。預(yù)過濾的標(biāo)準(zhǔn)如下:(1)染色體定位在1~22號常染色體;(2)排除插入/缺失(insertion or deletion, InDel)變異,即在統(tǒng)計(jì)MH的分型和參數(shù)時不將InDel納入考慮;(3) SNP位點(diǎn)在相應(yīng)群體中的最小等位基因頻率(minor allele frequency,)大于0.01;(4)對SNP位點(diǎn)進(jìn)行Hardy-Weinberg平衡檢驗(yàn),需滿足>0.05。

1.2 微單倍型的組裝和過濾

本研究對于構(gòu)建MH的要求是:獲取全基因組范圍內(nèi)所有長度在350 bp以內(nèi)、至少包含2個SNP的潛在微單倍型。

通過1.1部分的預(yù)過濾,可以在22條常染色體上分別獲得SNP物理位置依次遞增的預(yù)篩選集合。首先,以某一條染色體上第一個SNP (即物理位置最小的SNP)作為潛在MH的“起始SNP”,依次納入后續(xù)相鄰的位點(diǎn)。然后,判斷當(dāng)前組合是否為滿足要求的潛在微單倍型。每納入一個SNP,則需判斷一次:如果滿足要求,則將其輸出;如不滿足要求,則將“起始SNP”的坐標(biāo)依次向后移動,循環(huán)上述過程。當(dāng)“起始SNP”的坐標(biāo)移動至該染色體預(yù)篩選集合的最后一個位點(diǎn)時,該染色體的檢索結(jié)束。最后,對所有常染色體進(jìn)行檢索,并對輸出的微單倍型進(jìn)行編號。

1.3 統(tǒng)計(jì)學(xué)分析

2 結(jié)果與分析

2.1 人類基因組中MH位點(diǎn)的數(shù)量

對千人基因組計(jì)劃數(shù)據(jù)進(jìn)行初步篩選之后,在22條人類常染色體上共得到5,977,655個SNP位點(diǎn)。按照1.2所述策略進(jìn)行無差別組裝,獲取350 bp范圍之內(nèi)所有可能的MH (“完整集”)共計(jì)9,490,075個。過濾子集之后,仍保留30.47%的位點(diǎn)(2,891,927個),其中2號染色體的MH最多,22號染色體的MH最少,分別為235,330和40,808 (表1)。平均每百萬個堿基對(Mb)檢索到大約1000 (2,891,927/3000 Mb)個微單倍型。

圖1以密度圖的形式展示了每條染色體上MH“最長片段集”的分布情況。一些分布特征與人類已知的變異模式相匹配:例如,在6號染色體主要組織相容性復(fù)合體(the major histocompatibility com-plex, MHC)周圍觀察到了極大數(shù)量的MH;在8q21.2周期性新著絲粒(neocentromere)的附近[23],也發(fā)現(xiàn)MH高密度分布區(qū)。此外,16號染色體短臂或長臂近端粒處(16q23)的“亮黃色”區(qū)域可能提示MH數(shù)量高于平均水平。其余MH的分布相對均勻。

2.2 350 bp范圍內(nèi)MH的統(tǒng)計(jì)學(xué)參數(shù)

如前所述,微單倍型標(biāo)記的組裝過程會將一定范圍內(nèi)的SNP進(jìn)行重復(fù)組合和輸出。為了減少冗余數(shù)據(jù),此部分的分析只針對350 bp范圍內(nèi)、移除子集的MH集合(“最長片段集”)。

表1 SNP及MH在不同染色體上的數(shù)量統(tǒng)計(jì)

a本研究在組裝微單倍型過程中使用的SNP總數(shù);A:當(dāng)前堿基長度范圍內(nèi),所有可能的MH數(shù)量,即“完整集”;B:當(dāng)前堿基長度范圍內(nèi),去除子集后潛在MH的數(shù)量,即“最長片段集”。

2.2.1 總體特征

用于定義微單倍型的SNP數(shù)量在2~51之間,其中由兩個SNP構(gòu)成的標(biāo)記數(shù)量最多,占比45.42%。觀察到至少3個等位基因的遺傳標(biāo)記共計(jì)2,494,157個,約占86.25%;等位基因數(shù)超過10的位點(diǎn)多達(dá)14,133個。有50%的微單倍型長度范圍集超過263 bp,所有位點(diǎn)的平均長度是239 bp。

根據(jù)千人基因組計(jì)劃數(shù)據(jù)庫中發(fā)布的“確定相位”(phased)的基因分型數(shù)據(jù),估計(jì)微單倍型的等位基因頻率信息??偟膩碚f,微單倍型在中國南方漢族群體中,具有非??捎^的遺傳多態(tài)性。值超過0.8的MH共計(jì)11,712個;值超過0.9的MH多達(dá)21,355個。之前一項(xiàng)研究提出了值的閾值(= 3)[22],超過這一閾值的微單體型被認(rèn)為具有較高的法醫(yī)學(xué)應(yīng)用價(jià)值。本部分共涉及2,891,927個微單倍型,值在1.02~66.62之間。值高于3的標(biāo)記共計(jì)199,176個,高于5的標(biāo)記共計(jì)6935個;387個MH的值在10~20之間(不包括10),41個MH的值大于20。表2給出了值位于前10的微單倍型位點(diǎn)信息,參與構(gòu)成這些MH的SNP互不重復(fù),且MHC周圍的位點(diǎn)沒有納入。

圖1 人類基因組中微單倍型遺傳標(biāo)記的密度分布圖

使用350 bp范圍內(nèi)、移除子集的MH數(shù)據(jù)繪制。色階代表每Mb染色體序列的MH總數(shù)。性染色體數(shù)據(jù)未收集。

表2 Ae值前10的微單倍型位點(diǎn)信息

參與構(gòu)成MH的SNP互不重復(fù),Chr6 MHC周圍的MH沒有納入。

2.2.2 特征參數(shù)之間的關(guān)系

為了探究微單倍型遺傳標(biāo)記值、值、值、bp、構(gòu)成MH的SNP數(shù)以及等位基因數(shù)之間的關(guān)系,研究者分別對每條染色體上的MH繪制這六個特征參數(shù)的散點(diǎn)圖矩陣。以位點(diǎn)數(shù)量居中的9號染色體為例展示了MH特征參數(shù)之間的相關(guān)性(圖2,其余染色體的散點(diǎn)圖矩陣見附圖1~21)。對角線處分別為各參數(shù)的核密度估計(jì)圖,其余位置為任意兩參數(shù)之間的散點(diǎn)圖。核密度估計(jì)是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布特征的方法,曲線下方的面積和等于1;當(dāng)存在多個波峰時,所有波峰下方的面積之和為1。某區(qū)間所對應(yīng)的曲線下面積越大,代表樣本在該區(qū)間分布的概率越大。散點(diǎn)圖直觀的反映了這六個特征參數(shù)之間的關(guān)系。首先,值、值、值三者之間具有較強(qiáng)的相關(guān)關(guān)系。其次,隨著等位基因數(shù)的增加,值的最低值逐漸升高,二者存在一定的相關(guān)性。其余參數(shù)之間的相關(guān)程度均較差。

圖2 微單倍型遺傳標(biāo)記特征參數(shù)之間的關(guān)系

使用位于9號染色體、350 bp范圍內(nèi)、移除子集的MH數(shù)據(jù)繪制(共計(jì)128,051個)。#SNPs:構(gòu)成MH的SNP數(shù);#Alleles:等位基因數(shù)。

綜合22條常染色體的MH數(shù)據(jù),計(jì)算這些參數(shù)之間的成對Pearson相關(guān)系數(shù)()并繪制熱圖(圖3)。值和值的相關(guān)系數(shù)最高(=0.97);值與值和值的相關(guān)系數(shù)分別為0.85和0.88;等位基因數(shù)與值和構(gòu)成MH的SNP數(shù)呈中等程度相關(guān);其余參數(shù)之間的相關(guān)系數(shù)均小于等于0.4。

圖3 微單倍型遺傳標(biāo)記特征參數(shù)之間的成對相關(guān)系數(shù)

使用人類基因組350 bp范圍內(nèi)、移除子集的MH數(shù)據(jù)繪制(共計(jì)2,891,927個)。#SNPs:構(gòu)成MH的SNP數(shù);#Alleles:等位基因數(shù)。

2.3 不同片段長度范圍內(nèi)的MH的數(shù)量及Ae值分布情況

如前所述,350 bp范圍之內(nèi)所有可能的MH (即“完整集”)共計(jì)9,490,075個;過濾子集之后,仍保留2,891,927個位點(diǎn)(即“最長片段集”,占比30.47%)。當(dāng)將片段長度的上限分別設(shè)置為150 bp、100 bp和50 bp時,相對應(yīng)的“完整集”中MH的數(shù)量分別為4,259,567、2,915,475和1,543,349 (表1);移除子集之后潛在位點(diǎn)的數(shù)量分別減少了50.61%、42.13%和30.38% (圖4A)。目標(biāo)區(qū)域的堿基跨度越大,可能納入的SNP數(shù)目就會越多,從而產(chǎn)生更多的組合形式,“子集”占比也隨之增高。

本研究對不同片段長度范圍內(nèi)的“最長片段集”微單倍型的值分布情況進(jìn)行了統(tǒng)計(jì)(表3)。在加強(qiáng)堿基長度的限制之后,具有高多態(tài)性的微單倍型仍然十分豐富:在150 bp和100 bp范圍內(nèi),值大于等于3.0的MH數(shù)量分別是199,334和63,596;長度降低至50個堿基之內(nèi)時,仍有13,362個位點(diǎn)的值大于等于3.0 (圖4B)。

圖4 不同片段長度范圍內(nèi)的微單倍型遺傳標(biāo)記

A:350 bp、150 bp、100 bp、50 bp內(nèi)MH“子集”與“最長片段集”的百分比堆積柱形圖;B:不同片段長度范圍內(nèi)值大于等于3的MH數(shù)量統(tǒng)計(jì),使用“最長片段集”的MH數(shù)據(jù)繪制。

表3 不同片段長度范圍內(nèi)微單倍型Ae值的分布

使用相應(yīng)片段長度范圍內(nèi)移除子集的MH數(shù)據(jù)繪制,即“最長片段集”。

3 討論

本研究使用千人基因組計(jì)劃中國南方漢族群體的基因分型數(shù)據(jù),構(gòu)建了350 bp范圍內(nèi)的微單倍型標(biāo)記庫,展示了迄今為止最全面的人類MH集合,并對MH的特征和應(yīng)用潛能有了更深刻的認(rèn)識。

第一,微單倍型在人類基因組中的數(shù)量極為豐富。為了盡可能不高估MH的數(shù)量,本研究僅從“最長片段集”水平考慮,在22條常染色上共檢索到2,891,927個位點(diǎn)。法醫(yī)遺傳學(xué)學(xué)者所熟知的STR基因座在人類基因組中的分布密度約100個/Mb[24],相較而言微單倍型遺傳標(biāo)記的數(shù)量更為豐富,平均每Mb堿基序列檢索到1000個MH位點(diǎn)(2,891,927/ 3000 Mb)。

從微單倍型密度分布圖(圖1)可以觀察MH在基因組測序數(shù)據(jù)缺失序列(gap)之外的分布情況。MH的高密度分布區(qū)與人類基因組中一些已知的高變異區(qū)域相匹配,說明MH的分布密度可以一定程度體現(xiàn)人類基因組的變異水平。MH的高密度分布本質(zhì)上來源于SNP的高密度分布,這提示了微單倍型多態(tài)性來源于歷史性基因突變的可能性,而MH多態(tài)性水平與基因重組的關(guān)系則需要在家系中進(jìn)一步探究。我們建議在解決親緣關(guān)系鑒定的問題時,對于MH位點(diǎn)的選擇和使用需要慎重考慮。

第二,MH多態(tài)性不僅優(yōu)于SNP,而且可達(dá)到甚至超過常用的STR基因座。MH擁有比SNP位點(diǎn)更高的雜合度,這一觀點(diǎn)基本被法醫(yī)遺傳學(xué)家所公認(rèn)。其與STR基因座之間的比較,Oldoni等[11,25]認(rèn)為后者更具優(yōu)勢。本研究雖然沒有考慮引物設(shè)計(jì)、位點(diǎn)序列與基因組對齊(BLAST)結(jié)果等因素對最終能夠用于構(gòu)建實(shí)驗(yàn)體系的MH位點(diǎn)數(shù)量的影響,但從理論上對MH的多態(tài)性潛能做出了評估?;?05個CHS樣本的數(shù)據(jù)統(tǒng)計(jì),值超過0.8、值超過0.9的MH數(shù)量分別為11,712和21,355;達(dá)到4.0的位點(diǎn)數(shù)量也由已報(bào)到的120個[10,12~20],增加至27,697個。更有14,133個MH的等位基因數(shù)超過10,870個MH的等位基因數(shù)超過50,這完全超出了研究人員對于MH以往的印象。因此我們認(rèn)為,通過篩選可以得到等位基因數(shù)和多態(tài)性都優(yōu)于STR的微單倍型,而這樣的MH有望在DNA混合物的分析中,特別是在混合斑的確認(rèn)以及貢獻(xiàn)者數(shù)量的推斷方面發(fā)揮巨大優(yōu)勢。

第三,MH的值與值和值之間均具有較強(qiáng)的線性相關(guān)關(guān)系。三者分別由不同的參數(shù)計(jì)算得到(等位基因頻率、表型頻率、雜合子頻率),其中值與值是表征遺傳標(biāo)記本身多態(tài)性的指標(biāo),而值是評價(jià)遺傳標(biāo)記識別不同個體效能大小的指標(biāo),三者無法直接由公式推導(dǎo)而進(jìn)行轉(zhuǎn)換。作者通過對數(shù)百萬個MH位點(diǎn)的值、值和值進(jìn)行成對相關(guān)性分析,觀察到值與值、值之間具有較強(qiáng)的相關(guān)性(r分別為0.85、0.88)。這再次印證了當(dāng)篩選MH應(yīng)用于法醫(yī)學(xué)領(lǐng)域時,以值(而不計(jì)算值、值)作為主要篩選標(biāo)準(zhǔn)具有一定的合理性。此外,值與位點(diǎn)的等位基因數(shù)之間存在一定的相關(guān)性(=0.59),提示一些研究以等位基因數(shù)作為MH篩選標(biāo)準(zhǔn)具有理論依據(jù)。值與片段長度、構(gòu)成MH的SNP數(shù)之間的相關(guān)系數(shù)不超過0.4。這表明,雖然隨著片段長度范圍的增加、可納入SNP數(shù)量的增多可能會豐富微單倍型位點(diǎn)的基因多樣性,但提升效果非常有限。在評價(jià)MH效能之時,不能僅以片段長度或構(gòu)成MH的SNP數(shù)作為標(biāo)準(zhǔn)。

與此同時,由于組裝“靈活性”而產(chǎn)生的大量子集也給MH數(shù)據(jù)庫構(gòu)建以及遺傳標(biāo)記頻率信息共享帶來挑戰(zhàn)。隨著MH的研究與應(yīng)用越來越廣泛,各科研團(tuán)隊(duì)由于研究目的不同,采用的位點(diǎn)組裝標(biāo)準(zhǔn)(例如群體、、片段長度等)也會有所差異。那么同一段靶序列可能會記錄多種MH,或者多個MH中包含有相同的SNP。這會導(dǎo)致數(shù)據(jù)記錄缺乏兼容性,不利于數(shù)據(jù)庫的整合與共享。因此我們提議,除了將MH作為整體進(jìn)行一系列信息的記錄和儲存之外,參與定義MH的SNP基因分型,尤其是“確定相位”(phased)的基因分型結(jié)果也應(yīng)被記錄在數(shù)據(jù)庫之中。這樣的數(shù)據(jù)儲存方式,具有良好的“向后兼容性”,可以使任何公開發(fā)表的MH信息與之后的研究人員充分共享。

綜上所述,本研究提供了一套詳盡的微單倍型組裝方案,證明了MH在人類全基因組中數(shù)量豐富,同時在不同的堿基范圍尺度上揭示了MH多態(tài)性水平。對MH的特征進(jìn)行了更全面的展示,并結(jié)合其特點(diǎn)提出構(gòu)建微單倍型數(shù)據(jù)庫的方案,為未來群體遺傳學(xué)和法醫(yī)遺傳學(xué)的研究與應(yīng)用提供支持。

附加材料詳見文章電子版www.chinagene.cn。

[1] Kidd KK, Pakstis AJ, Speed WC, Lagace R, Chang J, Wootton S, Ihuegbu N. Microhaplotype loci are a powerful new type of forensic marker., 2013, 4(1): e123–e124.

[2] Oldoni F, Podini D. Forensic molecular biomarkers for mixture analysis., 2019, 41: 107–119.

[3] Bennett L, Oldoni F, Long K, Cisana S, Madella K, Wootton S, Chang J, Hasegawa R, LagacéR, Kidd KK, Podini D. Mixture deconvolution by massively parallel sequencing of microhaplotypes., 2019, 133(3): 719–729.

[4] Cheung EYY, Phillips C, Eduardoff M, Lareu MV, Mcnevin D. Performance of ancestry-informative SNP and microhaplotype markers., 2019, 43: 102141.

[5] B?rsting C, Morling N. Next generation sequencing and its applications in forensic genetics., 2015, 18: 78–89.

[6] Turchi C, Melchionda F, Pesaresi M, Tagliabracci A. Evaluation of a microhaplotypes panel for forensic genetics using massive parallel sequencing technology., 2019, 41: 120–127.

[7] Jin XY, Cui W, Chen C, Guo YX, Zhang XR, Xing GH, Lan JW, Zhu BF. Developing and population analysis of a new multiplex panel of 18 microhaplotypes and compound markers using next generation sequencing and its applica-tion in the Shaanxi Han population., 2020, 41(13–14): 1230–1237.

[8] Cao YY, Wang QY, Zhu Q, Huang YG, Hu YH, Zhou YJ, Wang YF, Zhang J. Preliminary exploration of a novel method for the deconvolution of DNA mixtures by pyrosequencing., 2019, 7(1): 843–845.

[9] van der Gaag KJ, de Leeuw RH, Laros J, den Dunnen JT, de Knijff P. Short hypervariable microhaplotypes: A novel set of very short high discriminating power loci without stutter artefacts., 2018, 35: 169–175.

[10] de la Puente M, Phillips C, Xavier C, Amigo J, Carracedo A, Parson W, Lareu MV. Building a custom large-scale panel of novel microhaplotypes for forensic identification using MiSeq and Ion S5 massively parallel sequencing systems., 2020, 45: 102213.

[11] Oldoni F, Bader D, Fantinato C, Wootton SC, Lagace R, Kidd KK, Podini D. A sequence-based 74plex microhap-lotype assay for analysis of forensic DNA mixtures., 2020, 49: 102367.

[12] Wu RG, Li HX, Li R, Peng D, Wang NN, Shen XF, Sun HY. Identification and sequencing of 59 highly polymor-phic microhaplotypes for analysis of DNA mixtures., 2021, 135(4): 1137–1149.

[13] Qu N, Lin SB, Gao Y, Liang H, Zhao H, Ou XL. A microhap panel for kinship analysis through massively parallel sequencing technology., 2020, 41(3–4): 246–253.

[14] Sun SL, Liu Y, Li JN, Yang ZD, Wen D, Liang WB, Yan YQ, Yu H, Cai JF, Zha L. Development and application of a nonbinary SNP-based microhaplotype panel for paternity testing involving close relatives., 2020, 46: 102255.

[15] Wen D, Sun SL, Liu Y, Li JN, Yang ZD, Kureshi A, Fu Y, Li HN, Jiang BW, Jin C, Cai JF, Zha L. Considering the flanking region variants of nonbinary SNP and phenotype- informative SNP to constitute 30 microhaplotype loci for increasing the discriminative ability of forensic applica-tions., 2021, 42(9–10): 1115–1126.

[16] Chen P, Deng CW, Li Z, Pu Y, Yang JW, Yu YF, Li K, Li D, Liang WB, Zhang L, Chen F. A microhaplotypes panel for massively parallel sequencing analysis of DNA mixtures., 2019, 40: 140–149.

[17] Voskoboinik L, Motro U, Darvasi A. Facilitating complex DNA mixture interpretation by sequencing highly polymorphic haplotypes., 2018, 35: 136–140.

[18] Kidd KK, Speed WC, Pakstis AJ, Podini DS, Lagace R, Chang J, Wootton S, Haigh E, Soundararajan U. Evaluating 130 microhaplotypes across a global set of 83 populations., 2017, 29: 29–37.

[19] Chen P, Yin CY, Li Z, Pu Y, Yu YJ, Zhao P, Chen DX, Liang WB, Zhang L, Chen F. Evaluation of the microhap-lotypes panel for DNA mixture analyses., 2018, 35: 149–155.

[20] Kureshi A, Li J, Wen D, Sun SL, Yang ZD, Zha L. Construction and forensic application of 20 highly polymorphic microhaplotypes., 2020, 7(5): 191937.

[21] 1000 Genomes Project Consortium; Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, Mccarthy S, Mcvean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.

[22] Kidd KK, Speed WC. Criteria for selecting microhap-lotypes: mixture detection and deconvolution., 2015, 6(1): 1.

[23] Logsdon GA, Vollger MR, Hsieh P, Mao YF, Liskovykh MA, Koren S, Nurk S, Mercuri L, Dishuck PC, Rhie A, de Lima LG, Dvorkina T, Porubsky D, Harvey WT, Mikheenko A, Bzikadze AV, Kremitzki M, Graves-Lindsay TA, Jain C, Hoekzema K, Murali SC, Munson KM, Baker C, Sorensen M, Lewis AM, Surti U, Gerton JL, Larionov V, Ventura M, Miga KH, Phillippy AM, Eichler EE. The structure, function and evolution of a complete human chromosome 8., 2021, 593(7857): 101–107.

[24] Collins JR, Stephens RM, Gold B, Long B, Dean M, Burt SK. An exhaustive DNA micro-satellite map of the human genome using high performance computing., 2003, 82(1): 10–19.

[25] Oldoni F, Kidd KK, Podini D. Microhaplotypes in forensic genetics., 2019, 38: 54–69.

Forensic genomics research on microhaplotypes

Xi Li, Haoyu Wang, Yueyan Cao, Qiang Zhu, Panyin Shu, Tingyun Hou, Yuting Wang,Ji Zhang

Microhaplotype loci (microhaplotype, MHs), defined by two or more closely linked single nucleotide polymorphisms, are a type of molecular marker within a short segment of DNA. As emerging forensic genetic markers, MHs have no stutter artefacts and higher polymorphism, and permit the design of smaller amplicons. In order to identify the markers from a genome wide perspective and explore their potential application further, we constructed the most comprehensive MH dataset to date, based on the whole genome sequencing data of 105 Han individuals in Southern China from 1000 Genomes Project. The results showed that there were 9,490,075 MH loci in the range of 350 bp in the human genome, and the distribution density of microhaplotypes suggests gene variation. Polymorphism analysis of MHs from various base spans showed that the polymorphism of MHs could reach or exceed common short tandem repeat sites. In addition, based on their flexible assembly, a scheme to build the public database of microhaplotypes was proposed.

forensic genetics; microhaplotypes; 1000 Genomes; Southern Han Chinese

2021-05-26;

2021-07-29

國家自然科學(xué)基金項(xiàng)目(編號:81571861, 81630054)資助[Supported by the National Natural Science Foundation of China (Nos. 81571861, 81630054)]

李茜,在讀碩士研究生,專業(yè)方向:法醫(yī)遺傳學(xué)。E-mail: lixi1105@foxmail.com

王浩宇,在讀碩士研究生,專業(yè)方向:法醫(yī)遺傳學(xué)。E-mail: wanghy0707@gmail.com

李茜和王浩宇并列第一作者。

張霽,博士,教授,研究方向:法醫(yī)遺傳學(xué)。E-mail: zhangj@scu.edu.cn

10.16288/j.yczz.21-186

2021/8/10 14:02:00

URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210810.1125.001.html

(責(zé)任編委: 朱波峰)

猜你喜歡
等位基因染色體多態(tài)性
單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
親子鑒定中男性個體Amelogenin基因座異常1例
廣東漢族人群D18S51基因座等位基因分型現(xiàn)象分析
廣東漢族人群Penta D基因座off-ladder稀有等位基因分析
多一條X染色體,壽命會更長
為什么男性要有一條X染色體?
能忍的人壽命長
WHOHLA命名委員會命名的新等位基因HLA-A*24∶327序列分析及確認(rèn)
馬鈴薯cpDNA/mtDNA多態(tài)性的多重PCR檢測
蒙古斑在維吾爾族新生兒中分布的多態(tài)性