沈春梅,解通,梅書燕,方雅婷,蘭瓊,劉艷芳,朱波峰,3,邰發(fā)道
(1.陜西師范大學生命科學學院,陜西 西安 710062;2.南方醫(yī)科大學法醫(yī)學院,廣東 廣州 510515;3.西安交通大學口腔醫(yī)院 陜西省顱頜面精準醫(yī)學研究重點實驗室,陜西 西安 710004)
近年來,祖先信息標記(ancestry informative marker,AIM)已經(jīng)引起人類學、群體遺傳學以及法醫(yī)物證學研究者的廣泛關注,這類分子遺傳標記在不同地域的群體間等位基因頻率存在較大差異。群體遺傳學研究結果[1-4]表明:生活在不同地域的人群,因其地理距離相隔較遠,人群間的基因交流也相對較少;而生活在同一或鄰近區(qū)域內(nèi)的人群,往往存在較多的基因交流,因此,其基因構成也會較為相似,通常認為他們具有共同的祖先來源。祖先信息推斷是利用AIM推斷未知個體可能的生物地理祖先起源或某一群體祖先信息成分構成比例。祖先信息推斷研究在法醫(yī)學、人類學等領域已被廣泛應用,其研究有助于現(xiàn)場檢材來源人的生物地理祖先推斷和犯罪嫌疑人表型特征刻畫,能夠縮小偵察范圍,為案件的偵破提供指向性線索[5-9]。
新疆位于我國西北地區(qū),地處歐亞大陸腹地,是我國少數(shù)民族主要聚居地區(qū)之一。新疆地區(qū)因其地域廣闊、少數(shù)民族眾多,從而引起人類學、群體遺傳學和法醫(yī)物證學研究者的廣泛關注。蒙古族是我國人口數(shù)量較多的少數(shù)民族之一。根據(jù)2010年第六次人口普查結果[10],蒙古族人口約為650萬,主要分布在內(nèi)蒙古、東北、新疆、青海以及河北等地,對其遺傳背景和遺傳結構進行深入研究具有重要的法醫(yī)學實踐意義。
插入/缺失(insertion/deletion,InDel)多態(tài)性是指人類基因組中插入或缺失不同長度的DNA片段所形成的遺傳多態(tài)性[11]。InDel多表現(xiàn)為二等位基因,其擴增片段較短,適用于陳舊、降解檢材的DNA檢測分析[12],因而在法醫(yī)學中應用較為廣泛。本研究應用課題組前期構建的39個AIM-InDels位點熒光復合擴增檢測體系[13],以新疆維吾爾自治區(qū)烏魯木齊市的常住蒙古族群體為研究對象,進行蒙古族的祖先信息和遺傳背景初探。
采集烏魯木齊市145名蒙古族無關健康志愿者的全血樣本。樣本納入原則:(1)世居在新疆維吾爾自治區(qū)烏魯木齊市;(2)個體相互間無血緣關系、身體健康的成年個體;(3)家族成員在三代內(nèi)無與其他民族通婚及遷居史。本研究獲得南方醫(yī)科大學和西安交通大學醫(yī)學部倫理委員會的批準,并嚴格遵照國家生物倫理的相關規(guī)定和要求,所有志愿者在納入本研究前均知悉并同意,并在書面知情同意書上簽名確認。
本研究利用課題組前期構建的39個AIM-InDels位點復合擴增檢測體系[13],對145名烏魯木齊蒙古族個體的血樣,采用9700型PCR儀(美國AB公司)進行擴增,反應總體積為25μL,包括1mm×1mm血痕卡一片,12.5 μL的2×反應混合物,2.5 μL的引物混合物,并用超純水補足至25 μL。39個InDels位點的復合PCR條件:95℃變性5 min;94℃變性45 s,56℃退火1min,72℃延伸1min,共35個循環(huán);60℃延伸60min。隨后,取1 μL的PCR產(chǎn)物、0.5 μL內(nèi)標和8.5 μL去離子甲酰胺混勻;混合物95℃變性3min,立即置冰上冷卻3min;然后放入3500xL基因分析儀(美國AB公司)進行電泳。最后,采用GeneMapper?ID-X軟件v1.5(美國Thermo Fisher Scientific公司)對39個InDels位點進行基因分型。選取女性標準品F312(北京閱微基因技術有限公司)作為陽性對照,以超純水作為陰性對照。
參考群體選自千人基因組計劃第三期(1000 Genome ProjectⅢ)數(shù)據(jù)中三個洲際(非洲、東亞及歐洲)的17個不同群體(表1),包含了1668個健康無關個體的原始分型數(shù)據(jù)[14]?;谶@些參考群體,對烏魯木齊蒙古族樣本分型數(shù)據(jù)與17個群體進行系統(tǒng)的比較分析。
表1 千人基因組計劃中三個主要洲際人群詳細信息
(1)應用Powerstates v1.2軟件(美國Promega公司)對所有位點的等位基因頻率及其群體遺傳學參數(shù)進行計算,其中各位點的期望雜合度采用Arlequin v3.5[15]進行計算,隨后,應用R軟件包繪制18個群體的38個位點(因位點rs3034941在千人基因組計劃中缺乏群體數(shù)據(jù)而未參與后續(xù)的比較分析)的插入等位基因頻率熱圖。(2)基于不同群體38個InDels位點的基因型數(shù)據(jù),應用Genepop v4.0軟件[16]計算烏魯木齊蒙古族和參考群體間配對的遺傳分化指數(shù)(fixation index,F(xiàn)st)值。此外,群體間遺傳距離(Nei’sDAdistance,DA)值采用DISPAN軟件(賓夕法尼亞州大學)進行計算,基于獲得的DA距離應用MEGA v7.0.14軟件(分子進化遺傳學研究所)構建系統(tǒng)發(fā)育樹[17]。(3)基于38個InDels位點的基因型數(shù)據(jù),應用Structure v2.3.4軟件(斯坦福大學普里查德實驗室)分析群體的遺傳結構,并利用 Distruct 1.1(設置參數(shù)K=2~7,run=15,10000 burn-in,10000 MCMC)(斯坦福大學羅森博格實驗室)將計算得到的每個群體的祖先信息成分比例,可視化成條形圖。將Structure 2.3.4分析結果上傳于線上軟件Structure Harvester(http://taylor0.biology.ucla.edu/structureHarvester/)確定最適宜K值,并應用Structure 2.3.4輸出三角聚類圖。(4)基于38個InDels位點的基因型數(shù)據(jù),采用Snipper軟件(http://mathgene.usc.es/snipper/)進行個體水平上的主成分分析(principal component analysis,PCA)[18]。
烏魯木齊蒙古族39個InDels位點的插入等位基因頻率分布和群體遺傳學參數(shù)見表2。所有39個位點均符合Hardy-Weinberg平衡。群體遺傳學參數(shù)期望雜合度(expected heterozygosity,He)、多態(tài)信息含量(polymorphism information content,PIC)、個體識別率(discrimination power,DP)、非父排除率(probability of paternity exclusion,PE)、匹配概率(probability of match,MP)、典型父權指數(shù)(typical paternity index,TPI)分別在0.1108~0.5009、0.1043~0.3746、0.1880~0.645 2、0.006 8~0.259 1、0.354 8~0.812 0 及 0.259 1~1.0662。所有18個群體在38個相同InDels位點插入等位基因頻率熱圖和聚類結果見圖1。聚類結果顯示:18個群體共形成三個大的聚類,分別是非洲群體聚類支、歐洲群體聚類支以及蒙古族和東亞群體聚類支。整體而言,不同洲際群體間具有較大的等位基因頻率分布差異,同一洲際群體間具有相似的等位基因頻率分布,烏魯木齊蒙古族各位點的插入等位基因頻率分布與東亞群體大體一致。
表2 烏魯木齊蒙古族39個InDels位點的插入等位基因頻率及群體遺傳學參數(shù) (n=145)
續(xù)表2
圖1 18個群體在38個相同InDels位點的插入等位基因頻率分布熱圖(熱圖中等位基因的頻率從低到高,依次由綠色過渡到粉色)
兩兩配對的群體間Fst和DA值見圖2。結果顯示:同一洲際內(nèi)配對群體間具有較小的Fst值(≤0.04)和DA值(<0.01);不同洲際配對群體間具有較大的Fst值與DA值。其中,非洲與東亞群體間遺傳分化程度最大(Fst>0.35),其次是歐洲與東亞(Fst>0.29),最后是歐洲與非洲群體(Fst>0.17)。烏魯木齊蒙古族與非洲群體間Fst值相對較大(Fst>0.28),歐洲群體(Fst>0.23)與東亞群體間的Fst相對?。‵st<0.03)。對于DA值,東亞群體與非洲群體顯示出最大的遺傳距離(DA>0.12),其次是東亞與歐洲(DA>0.09),最后是非洲與歐洲(DA>0.04)。烏魯木齊蒙古族與東亞群體遺傳距離最近(DA=0.01),其次是歐洲(DA>0.06),與非洲群體遺傳距離最大(DA>0.09)。進一步對烏魯木齊蒙古族與17個群體配對的DA與Fst值進行了分析,其中烏魯木齊蒙古族與CHB、JPT、KHV、CHS及CDX這些東亞群體具有較小的DA值與Fst值,其中烏魯木齊蒙古族與CHB群體的DA值(0.007 2)和Fst值(0.018 7)最小。相反,烏魯木齊蒙古族群體與ESN群體顯示出最大的DA值(0.1344),與YRI群體顯示出最大的Fst值(0.3808)。
圖2 18個群體兩兩配對的Fst值與DA距離分布熱圖
基于38個相同的InDels位點的等位基因頻率,對烏魯木齊蒙古族與17個參考群體在個體水平上進行PCA分析(圖3)。結果顯示:來自三個洲際群體的1 668個個體形成三個主要的聚類簇,即歐洲聚類簇(藍色)、東亞聚類簇(粉色)和非洲聚類簇(橙色)。烏魯木齊蒙古族(綠色)個體大部分散落在東亞簇上,有個別樣本散落在東亞與歐洲之間,但靠近東亞。同時,基于配對群體間DA值構建18個群體的系統(tǒng)發(fā)育樹(圖4)。圖中顯示兩個大的分支:一支為東亞人群,另一支為非洲與歐洲人群。烏魯木齊蒙古族群體位于東亞分支上。
圖3 18個群體在個體水平上的PCA分析圖;圖4基于DA距離構建的18個群體的系統(tǒng)發(fā)育樹
應用Structure 2.3.4軟件,對烏魯木齊蒙古族和參考群體進行群體遺傳結構分析,在K=3時顯示出最大值,表明K=3時最適宜(圖5)。同時,隨機抽取K=3時的一次運算結果,進行遺傳結構分析。圖6顯示烏魯木齊蒙古族樣本主要散落在東亞聚類(集合Ⅱ)中,有個別樣本散布在歐洲群體的聚類里(集合Ⅲ)。為進一步明晰18個群體在個體水平的祖先信息成分構成比例,應用Distruct 1.1軟件直觀展示了1813個樣本(其中蒙古族樣本145個,參考群體樣本1 668個)估計的祖先信息成分比例,結果見圖7A。在群體水平上對烏魯木齊蒙古族的祖先信息成分進行分析,結果見圖7B。以上結果表明:無論從個體水平或群體水平上分析,烏魯木齊蒙古族樣本的祖先信息成分比例與東亞人群最為接近。烏魯木齊蒙古族源于東亞、歐洲和非洲群體的祖先信息成分比例分別為89%、7%和3%。
圖5 ΔK在不同K值條件下的數(shù)值折線圖
圖6 利用Structure 2.3.4軟件構建的三個洲際18個群體三角聚類圖
圖7 18個群體祖先信息成分比例條形圖
揭示某一群體的祖先信息構成,明晰群體遺傳結構,探索群體間遺傳關系,以及推斷現(xiàn)場檢材來源人的生物地理祖先,不僅有利于全基因組關聯(lián)分析研究時,避免群體分層的影響,而且在法醫(yī)學實踐中亦可為案件的偵破提供指向性的線索。
近年來,雖然有不少基于SNP分子遺傳標記構建的用于祖先信息推斷的分型檢測體系[19-21],但鑒于InDel標記同時兼具STR與SNP標記的優(yōu)勢,同時表現(xiàn)為長度多態(tài)性,可以利用毛細管電泳平臺進行分型檢測,易于在基層法醫(yī)DNA實驗室應用推廣的特點,本研究使用課題組前期構建的39個AIM-InDels的祖先信息推斷體系[13]對烏魯木齊蒙古族進行祖先信息探索研究。根據(jù)LAN等[13]對該體系的研究,證實了該體系在非洲、歐洲及東亞人群間有良好的祖先信息推斷區(qū)分效能。為了進一步驗證該體系在我國其他人群的祖先信息推斷效能,本次以烏魯木齊蒙古族為研究對象,初步探明其祖先信息構成,進一步揭示其遺傳背景。
首先,我們應用多種群體遺傳學參數(shù)和生物信息學分析方法,包括Fst值、DA值、系統(tǒng)發(fā)育樹的構建以及PCA分析,結果顯示烏魯木齊蒙古族與東亞人群的遺傳距離較近。其次,本研究利用基于貝葉斯模型算法的Structure 2.3.4軟件對烏魯木齊蒙古族祖先信息成分比例進行了預測。該分析是在設定不同的K值條件下對群體進行聚類分析,其中K值指的是在運行Structure軟件進行祖先信息成分聚類時,假定的全部群體可分為幾個亞群。最優(yōu)K值的選擇是基于所有樣本原始分型數(shù)據(jù)的分析結果以及比較群體遺傳結構的綜合考量,本研究中確定最優(yōu)K值為3。群體遺傳結構分析結果表明,烏魯木齊蒙古族在東亞、歐洲、非洲群體中的祖先信息成分占比分別為89%、7%、3%。既往有學者基于不同分子遺傳標記對蒙古族的遺傳多態(tài)性進行了研究,例如:JIANG等[22]分析了21個插入/缺失多態(tài)性遺傳標記在中國7個群體中的遺傳分布,結果表明這些群體(包括內(nèi)蒙古蒙古族)具有相似的遺傳多樣性分布;CHEN等[23]在基于X染色體的11個相同的STR遺傳標記對新疆蒙古族的研究中指出,新疆蒙古族群體和亞洲群體,包括內(nèi)蒙古的蒙古族顯示出一定的遺傳差異;WEI等[24]基于19個常染色體STR對新疆蒙古族調(diào)查研究中指出,新疆蒙古族與新疆維吾爾族以及其他中國群體之間存在較近的遺傳關系。本次研究與上述基于不同分子遺傳標記對蒙古族和其他民族的群體遺傳關系的研究結果基本一致。
本研究基于既往研發(fā)的39個AIM-InDels熒光標記復合擴增檢測體系,通過和不同洲際群體進行比較分析,探討了烏魯木齊蒙古族群體的祖先信息成分比例以及遺傳背景。群體遺傳結構分析揭示了烏魯木齊蒙古族在東亞、歐洲和非洲群體中的祖先信息成分占比分別為89%、7%、3%,其他群體遺傳學分析的結果也表明烏魯木齊蒙古族和東亞群體具有較近的遺傳關系。