張秀秀, 何 燕*
(1.貴州醫(yī)科大學(xué) 地方病與少數(shù)民族疾病教育部重點(diǎn)實(shí)驗(yàn)室, 貴州 貴陽 550004; 2.貴州醫(yī)科大學(xué) 貴州省醫(yī)學(xué)分子生物學(xué)重點(diǎn)實(shí)驗(yàn)室, 貴州 貴陽 550004)
現(xiàn)代人類走出非洲后,由于地理的隔離和氣候上的差異以及歷史長期的積淀[1]和語言交流不通[2]等因素,形成許多不同的族群。遠(yuǎn)古時期,人類沒有文字,在了解這些族群的演變及融合過程時只能通過口頭的傳承得到這些族群的起源、變遷過程[3]。由于沒有具體文字的記載,從而使得很多族群在生物學(xué)起源和遷徙的問題上變得越來越模糊;在群體的起源以及與其他群體關(guān)系的研究中,相對于語言、歷史、考古來說,分子生物學(xué)的方法會相對精準(zhǔn)和科學(xué)得多[4]。因?yàn)殡S著時間推移,任何語言都會不斷的發(fā)生變化,并可能受到其他語言的影響,歷史記載無法排除主觀性的存在[5]。考古學(xué)數(shù)據(jù)的可靠性有時會讓人懷疑,而脫氧核糖核酸(deoxyribonucleic acid,DNA)作為人類的遺傳物質(zhì)[6],雖受到環(huán)境的影響會在一定程度發(fā)生變異,但這些變異是有規(guī)律且遵循一定速度的,繼而可用作遺傳時間和距離的標(biāo)尺??梢哉f,在人類起源和遷徙過程中,外部留下的痕跡不多、卻可在體內(nèi)留下了清晰的“足印”:人群分開的時間短,遺傳信息相似性就大;分開的時間長,相似性就小。因此,分子生物學(xué)可以作為一個很好的測量工具,通過研究人群間的這些有規(guī)律可循的變異或多態(tài)(即遺傳標(biāo)記),進(jìn)而度量人群間的相互關(guān)系,可為錯綜復(fù)雜的人類起源、遷徙和融合等研究帶來契機(jī)。因此,利用遺傳標(biāo)記研究不同民族群體的遺傳多樣性對于了解漢藏語系的起源、遷徙以及相互關(guān)系有著重要意義。
人類Y染色體 DNA (Y chromosome DNA,Y-DNA)長約5.9×104kb的DNA,由兩端的擬常染色體區(qū)(pseudoautosomal regions,PAR) 和中間的男性特異區(qū) (male specific region of Y chromosome,MSY) 組成。擬常染色區(qū)(大約占5%)位于Y染色體的兩端,在男性減數(shù)分裂過程中,擬常染色體區(qū)可與X染色體重組交換,其余95%為Y染色體男性特異區(qū)[7]。男性特異區(qū)不發(fā)生重組呈單倍型傳遞,在父系遺傳中能夠忠實(shí)地記錄傳代過程中所產(chǎn)生的突變[8],形成特異的遺傳標(biāo)記,在人類遺傳與進(jìn)化方面意義重大。
Y染色體上常用的遺傳標(biāo)記有單核苷酸多態(tài)性(Y chromosome single nuclear polymorphism,SNP,Y-SNP)和短串聯(lián)重復(fù)序列(Y chromosome short tandem repeat,Y-STR)兩種[9],其中Y-SNP突變速率較低,可反映較為久遠(yuǎn)的人群父系事件;Y-STR突變速率較高,多用于評估較近的歷史事件。由于單一遺傳標(biāo)記所傳達(dá)的信息量較少,分子遺傳學(xué)研究中,往往是以單倍型(haplotype)甚至單倍群(haplogroup)來對人群的進(jìn)化和遷徙展開研究。單倍型是單倍體基因型的簡稱,在遺傳學(xué)上是指在同一染色體上進(jìn)行共同遺傳的多個基因座上等位基因的組合[10],如由多個突變位點(diǎn)構(gòu)成的一種突變譜。一般情況下,單倍型可由SNP或STR等遺傳標(biāo)記來進(jìn)行確認(rèn),在分子進(jìn)化的研究中,單倍群(或稱單倍型類群)是指一組類似的單倍型,它們有一個共同的單核苷酸多態(tài)性祖先[11],即祖先單倍型與所有后代單倍型合稱一個單倍群。多年來,科學(xué)家們通過對世界多地人群的Y-SNP和Y-STR等遺傳標(biāo)記的研究發(fā)現(xiàn),Y 染色體單倍群分布具有很強(qiáng)的地理特異性[12]。研究不同地域及不同人群的 Y 染色體單倍群的頻率分布,可用于推測人群進(jìn)化、遷移及歷史[13]。2003年Jobling MA等[14]修訂了人類Y染色體單倍群系統(tǒng)發(fā)育樹,即YCC(2003),圖中根據(jù)Y染色體單倍型類群的不同可把全部現(xiàn)代智人分為18個單倍群,用從A到R的18個字母代表;18個單倍群下,又可分為多個更小的“子”單倍群,用其上“父”單倍群的字母和數(shù)字及其他字母來表示(圖1)。譜系樹中的父節(jié)點(diǎn)代表的對應(yīng)基因突變是所有子節(jié)點(diǎn)共有的,但反之不然。例如單倍群D對應(yīng)的基因突變是M174,單倍群D1對應(yīng)的基因突變除了“父”單倍群D的M174外還有“子”單倍群D1特有的M15。YCC(2003)譜系圖同時還推導(dǎo)出了全球Y單倍群圖[15],見圖2。圖中展現(xiàn)了世界各地人群的Y染色體單倍群的主要分屬類型,并可根據(jù)各單倍群對應(yīng)基因突變出現(xiàn)的時間[16],推測出相應(yīng)人群的遷徙路徑[17]。
在人類起源和遷徙等研究中,語言學(xué)是一種較為科學(xué)的方式。根據(jù)語言的發(fā)展和演變、直接而明顯的關(guān)聯(lián),對語言進(jìn)行歸類的方法稱為語言系屬分類。 語言系屬分類主要依據(jù)語言語音、詞匯、語法規(guī)則之間某些對應(yīng)關(guān)系,把具有相似的語言歸于同一類語群,這種語群稱為同族語言即“語族”。按“語族”之間的某些對應(yīng)關(guān)系,又歸在一起,這類同類語族稱為同系語言即“語系”[18]。其中東亞主要為漢藏語系,其下包含漢語族、藏緬語族、苗瑤語族、壯侗語族等[19],見圖3。
關(guān)于人類起源,目前較公認(rèn)的“非洲起源說”認(rèn)為,十多萬年前,現(xiàn)代人共同起源于非洲[20],部分Y染色體上帶有M168位點(diǎn)突變的人群在 9萬多年前走出非洲,后到了中東與尼安德特人的祖先有一些基因上的交流[21]。 6萬年前攜帶 M130 突變的人群沿南線順時針遷徙進(jìn)入印度[22]沿著印度洋進(jìn)入東南亞[23],成為了現(xiàn)代亞洲人的祖先,5萬年前其中一支前往東南亞島嶼和太平洋諸島產(chǎn)生支系 C2-M38和C4-M210,而后,C3-M48和C3-M407向北進(jìn)入東亞、中亞等地區(qū)[8]。一部分人在3萬年前,抵達(dá)我國珠江流域形成百越民族,還有一部分人,大約于1.5萬年前由云南進(jìn)入中國,到達(dá)了河套地區(qū)和黃河中上游的盆地形成了漢藏語系民族[23]。單倍群O3-M122(O3a1c-002611,O3a2c1 *-M134,O3a2c1a-M117等)在漢藏語系民族幾乎所有人群中都非常普遍[24],是漢藏人群中主要的父系單倍群[25],因此,在揭示這些群體的源流方面比其他單倍群更具信息性。Su等[26]也發(fā)現(xiàn)幾乎所有的漢藏人群在單倍群 O3-M122存在高頻分布,并推測古羌人群是漢藏語系民族的祖先。在西藏以東的羌族群體中發(fā)現(xiàn) O3a2c1a-M117 有很高的頻率[27],提示這個地區(qū)很有可能是漢藏群體的起源地。下面對漢藏語系民族各語族(漢語族、侗臺語族、苗瑤語族和藏緬語族)進(jìn)行一一探討。
漢族和回族歸屬于漢語族,從父系遺傳學(xué)角度來看,居住在黃河中上游地區(qū)的氐羌人群中出現(xiàn)單倍群 O3a2c1 *-M134 和 O3a2c1a-M117形成了炎黃部落,以及東向分支攜帶 O3a1c- 002611發(fā)展成為東夷部落[28]。炎黃部落與東夷部落一起逐漸發(fā)展成為一個被稱為漢族的大人群[28]。O3a2c1 *-M134,O3a2c1a-M117和O3a1c-002611作為 O3-M122 的亞群分別占漢族的12%~17%[29], O3a2c1 *-M134 和 O3a2c1a-M133 經(jīng)常在一起出現(xiàn),在漢族中尤其常見[30]。
圖1 單倍群劃分樹譜
圖2 Y染色體單倍群世界分布圖
圖3 漢藏語系民族主要的四大類語族
漢族名稱正式使用是在漢朝時期[31]。任賀[32]通過南方漢族與北方漢族樣本的結(jié)果進(jìn)行比較,發(fā)現(xiàn) Y 染色體上的基因分布隨著地域不同,遺傳結(jié)構(gòu)也存在著差異。而李輝等[19]分析了28個地區(qū)漢族群體顯示北方漢族和南方漢族在父系遺傳結(jié)構(gòu)上非常相似。
苗族、瑤族、畬族歸屬于苗瑤語族。苗瑤語族主要分布在中國南部及東南亞地區(qū),孟高棉語族和苗瑤語族在Y染色體遺傳上有非常高的相似度,XIAO Y C等[33]通過對47個群體進(jìn)行分析發(fā)現(xiàn)苗瑤語族與孟高棉族群在遺傳上密切相關(guān),在兩個群體中發(fā)現(xiàn)O3a4-M7的頻率都很高。此外,單倍群O3a4在其他群體中幾乎不存在[34]。 梁祚仁[35]對14個民族17個Y-STR進(jìn)行遺傳數(shù)據(jù)分析并根據(jù)遺傳距離進(jìn)行系統(tǒng)進(jìn)化樹的繪制,在進(jìn)化樹上明顯的看到,苗瑤語族(苗族、瑤族)與壯侗語族(仫佬族、侗族、仡佬族、水族、壯族、毛南族)以及漢語族(漢族)之間的遺傳關(guān)系較近。
中國西南地區(qū)喜馬拉雅南麓西起巴基斯坦,東到尼泊爾、越南等國家,分布著大約300多種藏緬語族語言,有的語言還跨境分布[36],各族群之間存在唇齒相依的族源關(guān)系,藏緬群體源于中國西北的古老族群,在過去2 000~3 000年里,由于受到秦朝和其他王朝的壓迫,他們被迫從中國西北地區(qū)南遷[37]。幾乎所有的藏緬群體中單倍群O3*和O3e都存在高頻分布[18],然而,單倍型類群 O3a1c-002611被發(fā)現(xiàn)在藏緬語族群體中頻率非常低,這表明該譜系可能沒有參與藏緬語族種群的形成[38]。韓建利[39]對云南大理白族男性人群43個Y-SNP位點(diǎn)進(jìn)行遺傳學(xué)分析,發(fā)現(xiàn)單倍群O3-M122、O3a1c-002611在白族的分布頻率分別為0.428 1、0.097 1,與其他學(xué)者的研究結(jié)果相符。
壯族、侗族、水族、黎族、傣族、布依族、仫佬族和毛南族歸屬于壯侗語族[40](圖4)。目前學(xué)術(shù)界在壯侗語族源流問題上認(rèn)為,壯侗語族與古代的百越族同源[41],O2a1-M95與O1-M119被認(rèn)為是壯侗語族的高頻單倍群[42]。
圖4 壯侗語族的 8 個民族
在新石器時代,中國東南部人口擴(kuò)張時壯侗語族群體衍化出單倍群O- M175[33],O2a1-M95 譜系在大約2~4萬年起源于東亞南部的壯侗語族[43]。YANG Z等[44]對云南少數(shù)民族Y染色體單倍群進(jìn)行遺傳學(xué)分析,發(fā)現(xiàn)水族在單倍群O3a2c1 -M134具有高頻分布(55.0%),O2a1-M95為壯族和布依族的主要單倍群,頻率分布分別為38.3%和41.7%。
綜上所述,從Y染色體父系遺傳角度分析,漢藏語系民族的父系起源不是單一的,而是多元的,漢藏語系民族是語族間、民族間以及與其他語系、語族、民族之間發(fā)生基因交融的結(jié)果;在某一地域的同一民族或語族人群可以認(rèn)為有相同或相近的Y染色體父系遺傳結(jié)構(gòu)。 Y 染色體與人群的關(guān)聯(lián)研究必然成為研究群體起源和演變、遷徙的重要方式, Y 染色體非重組區(qū)多態(tài)性在鑒別民族的起源和遷移研究中具有較大的準(zhǔn)確度和可操作性,必將繼續(xù)發(fā)揮其巨大作用。
隨著生命科學(xué)各領(lǐng)域尤其是分子生物學(xué)的突破性進(jìn)展,人類學(xué)、民族學(xué)、遺傳學(xué)等的目光已經(jīng)從語言學(xué)、歷史學(xué)、考古學(xué)轉(zhuǎn)移到了分子生物學(xué),Y-STR 和 Y-SNP可以為各語族提供近期和早期的遺傳學(xué)證據(jù),為各個語族的源流提供分子生物學(xué)依據(jù),其目標(biāo)將是建成一個綜合的、系統(tǒng)的DNA 數(shù)據(jù)庫(DNA database),為相關(guān)研究提供可參考的依據(jù)。