張秀秀,喻艷琴,田薇,張婷,王嬋娟,單可人,何燕
(1.地方病與少數(shù)民族性疾病教育部重點實驗室/貴州醫(yī)科大學,貴州 貴陽 550004;2.貴州省醫(yī)學分子生物學重點實驗室,貴州 貴陽 550004)
Y染色體的非重組區(qū)域單核苷多態(tài)性(Y-SNP)已被廣泛用于研究人類種群的起源[1]和遷徙[2-4]。 Y-SNP單倍群的分布頻率有地區(qū)特異性[5],且和語言分類高度相關(guān)[6],研究人員可以通過單倍群頻率來推斷群體可能的地理起源[7]和種族起源[8]。壯侗語族是一個歷史非常悠久的民族群體,與古代南方百越族群有淵源關(guān)系,在距今4 000年前的新石器時代文化遺址中存在他們曾經(jīng)生活過的跡象,百越民族在千百年的分化融合過程中逐漸發(fā)展成黎族、侗族、水族、仫佬族、仡佬族、壯族等[9]。本文利用 Y-SNP遺傳多態(tài)性分析貴州壯侗語族 7個民族(水族、布依族、侗族、仡佬族、壯族、毛南族、仫佬族)男性群體的遺傳結(jié)構(gòu),探討與其他民族以及其他語族的遺傳關(guān)系。
從課題組根據(jù)知情同意原則建立的貴州世居少數(shù)民族 DNA 樣本庫中,采用整群隨機抽樣方法,從本民族聚集地采集樣本,3代內(nèi)無族外通婚史,個體間無親緣關(guān)系,篩選出語言學分類隸屬壯侗語族的貴州7個世居少數(shù)民族(水族、布依族、侗族、仡佬族、壯族、毛南族和仫佬族)男性DNA樣本,樣本例數(shù)及采樣地點等信息見表1。
表1 貴州省壯侗語族7個少數(shù)民族種類、樣本例數(shù)和采樣地點一覽表Table 1 List of the 7 ethnic minorities,sampled ethnic groups and sample numbers of Zhuang-Dong Language in Guizhou Province
每份DNA樣本用Thermo ScientificTMNanoDrop Lite分光光度計定量后,取少量標化為20 ng/μL作為實驗的模板,-40 ℃保存?zhèn)溆谩?/p>
1.2.1 21個 Y-SNP多重PCR 擴增及純化 多重PCR擴增:在Y染色體進化樹選取東亞主要的單倍群[10]上的 M145、RPS4Y711、M89、M9、M214、M175、M119、P31、M95、SRY465、47Z、M122、M324、P201、M159、M7、M134、M133、M217、M48、M407 21 個 Y-SNP 為研究靶點,依據(jù)文獻[11]分成4組(Ⅰ、Ⅱ、Ⅲ、Ⅳ組)進行 PCR 擴增(引物序列及分組情況見表 2)。體系包括:20 ng/μL 的模板 DNA 1.5 μL、引物 MIX 15 μL、10 nmol/L dNTP 3.0 μL、10×Buffer 2.5 μL、TaqDNA聚合酶0.5 μL、1 mmol/L甜菜堿 1.0 μL(其作用在于:① 富含GC模板的PCR擴增;② 提高TaqDNA 聚合酶的穩(wěn)定性)、5 mmol/L MgCl21.0 μL、500 μg/mL 牛血清蛋白(BSA)0.5 μL。循環(huán)條件:95 ℃ 10 min; 95 ℃ 30 s,58 ℃ 30 s,72 ℃ 30 s,循環(huán)35次;72 ℃ 7 min,產(chǎn)物置 4 ℃ 保存。
純化:第Ⅰ、Ⅱ組PCR產(chǎn)物各取1 μL 混合,加入1 U/μL 蝦堿酶(shrimp alkaline phosphatase,SAP)1 μL和1 U/μL大腸桿菌核酸外切酶Ⅰ(exonuclease,ExoⅠ)1 μL,37 ℃保溫 70 min 后 75 ℃ 15 min 滅活酶,即得純化后的多重 PCR 產(chǎn)物,4 ℃ 保存,充當單堿基擴增時A 組的模板。第 Ⅲ、Ⅳ 組擴增產(chǎn)物也如法純化,充當單堿基擴增時B組的模板。
1.2.2 SNapShot 單堿基擴增及純化 分A、B兩組進行單堿基擴增(分組情況及引物信息見表2)。體系包括:模板0.75 μL、SNapShot Mix 1.25 μL、單堿基擴增引物 MIX 0.5 μL。循環(huán)條件:96 ℃ 10 s,50 ℃ 5 s,60 ℃ 30 s,循環(huán)28 次,產(chǎn)物4 ℃保存。
純化:單堿基擴增產(chǎn)物加入1 U/μL的SAP0.5 μL,混勻,瞬時離心,37 ℃保溫70 min后75 ℃ 15 min滅活酶,即得純化后的 SNapShot單堿基延伸產(chǎn)物,4 ℃ 保存。
1.2.3 ABI 3130毛細管電泳檢測 純化的單堿基延伸產(chǎn)物0.5 μL、GeneScan-120LIZ Size Standard 0.05 μL和Hi-DiTM甲酰胺9.45 μL,混勻,離心并用ABI 3130遺傳分析儀(Applied Biosystems)進行毛細管電泳分析,ABI 3130 Genetic Analyzer Data Collection Software v3.0進行數(shù)據(jù)收集。
用直接計數(shù)法計算21個Y-SNP等位基因頻率、單倍型頻率與單倍群頻率。單倍型多樣性(HD)和基因多樣性(genetic diversity,GD)根據(jù)公式HD或GD=n(1-ΣP2i)/(n-1)(Pi為單倍型頻率或等位基因頻率,n為樣本數(shù))計算。運用SPSS 24軟件進行主成分分析( principle component analysis, PCA )。
本文采用 SNapShot 法對貴州省壯侗語族7個世居少數(shù)民族445例男性樣本的21個Y-SNP位點進行基因分型,等位基因頻率見圖1,基因多態(tài)性見圖2。21個Y-SNP位點中7個世居少數(shù)民族男性樣本的 M407、47Z 的突變頻率均為0,水族群體的M175、M214、M9、M89 的突變頻率均為1,上述位點均沒有多態(tài)性(GD=0.000 0);M324、M122、M119、M95、P31 在7個世居少數(shù)民族男性樣本中均具有多態(tài)性,M48位點僅侗族有多態(tài)性(GD=0.030 8),SRY465和M159僅仡佬族有多態(tài)性,GD值均為0.029 8。
表2 21個Y-SNP位點的多重PCR引物和SNapShot單堿基擴增引物及分組情況Table 2 The sequences of Multiplex PCR primers and SNapShot microsequencing primers and grouping for 21 SNPs on Y-chromosome
經(jīng)單倍型多態(tài)性公式計算水族、布依族、侗族、仡佬族、壯族、毛南族、仫佬族單倍型多態(tài)性分別為0.597 7、0.945 6、0.885 6、0.886 9、0.768 6、0.358 7、0.707 8;依照國際系譜遺傳(International Society of Genealogy, ISOGG)網(wǎng)站 https://isogg.org/tree/index. html 上發(fā)布的Y單倍群系統(tǒng)進化樹進行單倍群的劃分,通過直接計數(shù)法獲得單倍群頻率(見表3);通過Excel繪制貴州省7個世居少數(shù)民族Y染色體單倍群頻率熱圖,該熱圖對不同單倍群在7個世居少數(shù)民族的分布情況進行直觀觀測,綠色→藍色→紅色單倍群頻率逐漸增加,顯而易見,在7個世居少數(shù)民族中主要單倍群為O1b1a1a-M95,該單倍群在毛南族、仫佬族、水族人群中呈高頻分布(0.816 7 、0.569 2 、0.500 0),在侗族人群中分布頻率較低(0.092 3)。
通過 Excel 繪制貴州省壯侗語族的7個世居少數(shù)民族和其他9個少數(shù)民族 Y 染色體單倍群頻率熱圖,見表4,該熱圖對不同單倍群在 16個民族的分布情況進行直觀觀測,綠色→藍色→紅色單倍群頻率逐漸增加,可以看到單倍群O1b1、O2a2在壯侗語族和苗瑤語族的分布頻率較高;O1a僅在壯侗語族存在高頻分布;單倍群C在北方民族群體中的分布頻率明顯高于南方民族群體。運用SPSS 24軟件對表 4 進行主成分分析(見圖3)。如圖3所示,北方民族與南方民族各自聚在一起,其中歸屬壯侗語族的毛南族、壯族、水族、仫佬族緊密相聚后再與仡佬族相聚,而同屬壯侗語族的侗族和布依族則與苗瑤語族的苗族、瑤族、畬族較近,提示上述民族之間可能發(fā)生了基因交融。
為了驗證貴州省壯侗語族和其他語族之間的關(guān)系,通過直接計數(shù)法獲得貴州省壯侗語族的單倍群頻率,通過文獻報道的民族單倍群頻率計算語族的單倍群頻率,通過Excel繪制貴州省壯侗語族和其他語族 Y 染色體單倍群頻率熱圖,見表5,該熱圖對不同單倍群在7個語族間的分布情況進行直觀觀測,綠色→藍色→紅色單倍群頻率逐漸增加,很明顯單倍群 C 在北方民族群體分布頻率較高;O2a2在南方群體分布頻率較高,O1b1在壯侗語族群體存在較高頻率分布,該單倍群可能與壯侗語族群體相關(guān);O2在漢語族群體中分布頻率較高。根據(jù)表5的單倍群頻率采用SPSS 24軟件進行主成分分析(見圖 4)。圖4中,前三個主成分解釋了84.79%的總方差,圖中歸屬漢藏語系的壯侗語族、苗瑤語族、漢語族聚在一起,歸屬阿爾泰語系的突厥語族、蒙古語族相聚后再與滿通古斯語族聚在一起,藏緬語族位于兩組之間。
圖1 貴州壯侗語族7個民族人群 21 個 Y-SNP的基因頻率Fig.1 Frequency of 21 Y-SNPs loci 7 ethnic groups in Guizhou Zhuang-Dong Language
圖2 貴州壯侗語族人群7個民族 21個 Y-SNP 的基因多態(tài)性Fig.2 GD value of 21 Y-SNPs loci 7 ethnic groups in Guizhou Zhuang-Dong Language
民族例數(shù)C-RPS4Y711C2-M217D-M145F-M89K-M9NO1-M214O-M175O1a-M119O1b-P31水族640.000 00.000 00.000 00.000 00.000 00.000 00.000 00.390 6 0.000 0布依族580.000 00.000 00.103 4 0.000 00.000 00.000 00.017 2 0.051 7 0.017 2 侗族650.000 00.046 20.000 00.000 00.030 8 0.030 8 0.000 00.184 60.000 0仡佬族670.000 00.044 8 0.194 00.014 90.000 00.014 90.000 00.209 00.000 0壯族660.045 5 0.015 2 0.000 00.000 00.000 00.015 2 0.000 00.227 30.000 0毛南族600.016 70.000 00.066 70.000 00.000 00.016 70.000 00.033 3 0.016 7 仫佬族650.000 00.015 4 0.000 00.000 00.000 00.000 00.000 00.184 60.000 0民族例數(shù)O1b1a1a-M95O1b2-SRY465O2-M122O2a-M324O2a2-P201水族640.500 00.000 00.015 60.000 00.000 0布依族580.172 40.000 00.034 5 0.017 20.000 0侗族650.092 30.000 00.276 90.046 20.000 0仡佬族670.223 90.014 90.000 00.029 90.000 0壯族660.363 6 0.000 00.000 00.030 30.015 2 毛南族600.816 70.000 00.016 70.016 7 0.000 0仫佬族650.569 2 0.000 00.000 00.076 90.030 8 民族例數(shù)O2a2a1a1a-M159O2a2a1a2-M7O2a2b1-M134O2a2b1a1a-M133Other水族640.000 00.093 80.000 00.000 00.000 0布依族580.000 00.206 90.017 2 0.362 1 0.000 0侗族650.000 00.107 7 0.015 4 0.169 2 0.000 0仡佬族670.014 90.134 3 0.074 6 0.029 9 0.000 0壯族660.000 00.000 00.000 00.000 00.287 9 毛南族600.000 00.000 00.000 00.000 00.000 0仫佬族650.000 00.076 90.000 00.046 20.000 0
1)表中數(shù)字(≤1)代表單倍群在該民族中所占比例,綠色:0.000 0~0.010 0(不含);藍色:0.010 0~0.180 0(不含);藍色加粗:0.180 0~0.300 0(不含); 紅色:0.300 0~0.600 0(不含);紅色加粗:≥0.600 0
表 4 貴州省壯侗語族的 7 個世居少數(shù)民族和其他 9 個少數(shù)民族 Y 染色體單倍群頻率1)Table 4 Y-SNP haplotype frequency of Y chromosomeof Guizhou seven ethnic groups and 9 ethnic minority population
1)表中數(shù)字(≤1)代表單倍群在該民族中所占比例,綠色:0.000 0~0.010 0(不含);藍色:0.010 0~0.180 0(不含);藍色加粗:0.180 0~0.300 0(不含); 紅色:0.300 0~0.600 0(不含);紅色加粗:≥0.600 0
表 5 貴州省壯侗語族和其他語族 Y 染色體單倍群頻率1)Table 5 Y-SNP haplotype frequency of Y chromosome of Guizhou Zhuang-Dong Language and other language population
1)表中數(shù)字(≤1)代表單倍群在該民族中所占比例,綠色:0.000 0~0.010 0(不含);藍色:0.010 0~0.180 0(不含);藍色加粗:0.180 0~0.300 0(不含); 紅色:0.300 0~0.600 0(不含);紅色加粗:≥0.600 0
圖3 貴州 7個世居少數(shù)民族和9個少數(shù)民族人群Y 染色體主成分分析三維圖Fig.3 The principal component analysis of Y chromosomeof Guizhou seven ethnic groups and 9 ethnic minority population
圖4 壯侗語族和其他語族人群Y染色體主成分分析三維圖Fig.4 The principal component analysis of Y chromosome of Guizhou Zhuang-Dong Language and other language population
Y-SNP 多態(tài)性分布具有明顯的民族特異性[16],各個民族之間具有其獨特的遺傳結(jié)構(gòu)[17-18]。本研究對貴州省壯侗語族7個世居少數(shù)民族445例無關(guān)男性個體進行基因分型,并對結(jié)果進行相關(guān)統(tǒng)計分析。首先對表 2 進行單倍群相關(guān)性分析,O1b1a1-M95與O2-M122的皮爾遜相關(guān)性R=-0.526 0,呈負相關(guān),但顯著性(雙尾)P=0.225 0,說明負相關(guān)未達到顯著水平;O1a-M119 與 O1b-P31為顯著負相關(guān)(R=-0.804 0,P=0.029 0)。通過熱圖繪制對不同單倍群在 7個民族分布情況進行直觀觀測(見表3),單倍群 D、F、O1b2、O2a 的頻率在各個語族的分布頻率均很低;O2-M122在各語族之間無顯著差異;O1a 在壯侗語族中分布頻率較高;O1b1、O2a2 在壯侗語族和苗瑤語族中分布頻率均較高。水族人群中,主要單倍群為 O1b1(0.500 0)和 O1a(0.390 6);O2a2(0.586 2)和 O1b1(0.172 4)在布依族人群中具有代表性;O1a(0.184 6)、O2(0.276 9)、O2a2(0.292 3)在侗族人群中具有代表性;仡佬族的主要單倍群有 D(0.194 0)、O1a(0.209 0)、O1b1(0.223 9)、O2a2(0.253 7);壯族除了主要單倍群O1a(0.227 3)、O1b1(0.363 6)之外,存在完全野生型 SNP 的頻率達0.287 9,可能提示部分壯族人群攜帶的是最古老的遺傳標記,也可能是本研究選擇的Y-SNP位點有限,未包含突變的基因座;毛南族的單倍群O1b1高達0.816 7;仫佬族的主要單倍群有O1a(0.184 6)、O1b1(0.596 1)、O2a2(0.153 9)。通過以上數(shù)據(jù)分析很明顯可以看出,除了毛南族,本研究的其他 6 個民族均具有復雜的父系遺傳結(jié)構(gòu),提示毛南族的父系遺傳結(jié)構(gòu)比較單一,與毛南族土著說[19]相符。單倍群O*是東亞現(xiàn)今人群中分布最廣泛的特異單倍群,綜合頻率約占 50%以上[20]。在本研究中,水族、布依族、侗族、仡佬族、壯族、毛南族、仫佬族單倍群O*的分布頻率分別為1.000 0、0.896 4、0.892 3、0.731 4、0.636 4、0.900 1、0.984 6,平均頻率高達86.30%,與上述文獻相符。O1 單倍群占大多數(shù)壯侗語族的 60.00% 以上[6],經(jīng)直接計數(shù)法計算這7個民族水族(0.890 6)、布依族(0.241 3)、侗族(0.276 9)、仡佬族(0.447 8)、壯族(0.590 9)、毛南族(0.866 7)、仫佬族(0.753 8)中約一半的人群在O1單倍群所占比重與之相符。O1b1a1a-M95 是高度分化的支系,在七個壯侗語民族群體中是最常見的單倍群,在東南亞頻率較高,其次是中國南部[6],本研究中,在水族(0.500 0)、毛南族(0.816 7)、仫佬族(0.569 2)呈高頻分布(均大于50%),提示水族、毛南族、仫佬族遺傳背景較為單一,與土著說的觀點相符,尤其是毛南族高達81.67%,提示毛南族經(jīng)歷了非常強烈的瓶頸效應。O2a2a1a2-M7 與苗瑤語族、孟-高棉語族的人群分布有關(guān)[21],貴州省壯侗語族長期與苗瑤語族混居,故O2a2a1a2-M7 在壯侗語族也占有一定比例,但是壯族與毛南族人群的分布頻率卻為 0,壯族有就近嫁娶,民族內(nèi)婚的習俗[22],但是毛南族婚姻比較復雜[23],為何O2a2a1a2-M7 為0,還不得而知。壯侗語族在我國歷史上起源于百越族群,前期有學者研究發(fā)現(xiàn) O1a-M119是百越群體的特征性單倍群[24],我們的研究展示了這個結(jié)果——壯侗語族7個民族群體均含有單倍群O1a-M119的頻率分布與上述觀點吻合,進一步印證了壯侗語族與百越族群的關(guān)系:在民族學中,壯侗語族族群來源于百越民族。
壯侗語族7個民族的單倍群頻率與已有文獻報道的9個少數(shù)民族人群的單倍群頻率(見表4)運用SPSS 24軟件進行主成分分析。結(jié)果如圖3所示,歸屬漢藏語系的壯侗語族(水族、布依族、侗族、仡佬族、壯族、毛南族、仫佬族)與苗瑤語族(苗族、瑤族、畬族)聚在一起;提示壯侗語族與苗瑤語族之間的遺傳關(guān)系較近,這與梁祚仁[25]在廣西10個少數(shù)民族 Y 染色體17個STR基因座的遺傳多態(tài)性研究中根據(jù)14個民族人群之間的遺傳距離繪制的N-J系統(tǒng)進化樹中壯侗語族民族群體與苗瑤語族民族群體聚為一類的研究結(jié)果相一致,也與何燕等[26]的研究結(jié)果吻合。
為了驗證貴州省壯侗語族和其他語族之間的關(guān)系,將貴州省壯侗語族7個民族的數(shù)據(jù)通過直接計數(shù)法獲得貴州省壯侗語族的單倍群頻率,通過文獻報道的民族單倍群頻率計算語族的單倍群頻率(見表5),然后進行主成分分析,得到圖4,結(jié)果顯示漢藏語系(壯侗語族、苗瑤語族、漢語族)聚在一起,歸屬阿爾泰語系的突厥語族、蒙古語族聚在一起后再與滿通古斯語族相聚,而歸屬漢藏語系的藏緬語族位于上述兩聚群之間,這與各語族民族的地理分布、歷史源流等相對應。其中歸屬漢藏語系的壯侗語族與苗瑤語族發(fā)生了部分重疊,進一步提示了兩語族民族由于長期毗鄰而居,可能發(fā)生了基因交融,顯示出較近的親緣關(guān)系。