黃慶海,吳亞萌,李震,謝維
(“發(fā)育與疾病相關(guān)基因”教育部重點實驗室 東南大學(xué)生命科學(xué)研究院,江蘇 南京 210096)
編碼人類白細(xì)胞抗原(human leukocyte antigen,HLA)的基因是人體最為復(fù)雜、多態(tài)性最高的遺傳系統(tǒng),屬雙親共顯性遺傳,也是最早用于研究人群遺傳親緣關(guān)系的標(biāo)記物之一[1]。20世紀(jì)70年代初期,HLA血清型(低分辨率)即已被用于人群親緣關(guān)系研究,但由于HLA血清型屬表現(xiàn)型,分辨率低,不能完全反映群體遺傳關(guān)系。20世紀(jì)90年代以來,隨著HLA高分辨率分型技術(shù)中的相繼應(yīng)用,HLA基因型(高分辨率)分型技術(shù)越來越成熟,多樣性也越來越多。國際組織相容性工作組(The International Histocompatibility Working Group, IHWG)在第11屆[2]、12屆[3]、13屆[4]學(xué)術(shù)會議中專題報道了大量人群HLA基因型的分布特征,13屆(2001年)學(xué)術(shù)會議結(jié)束后,專門設(shè)立了人類學(xué)/人類遺傳多樣性專項,繼續(xù)采集人群HLA及其免疫分子的多樣性數(shù)據(jù)。再加上很多學(xué)者關(guān)注與HLA群體分布特征有關(guān)的骨髓捐獻(xiàn)庫分型、HLA與疾病相關(guān)性等研究,HLA基因型數(shù)據(jù)越來越多,可使用的分析數(shù)據(jù)也越來越豐富。盡管這些數(shù)據(jù)為人類學(xué)研究,特別是人口歷史、人群擴張途徑等提供了很好的資源,但卻未見利用如此大量的數(shù)據(jù)勾畫出全球人群間的親緣關(guān)系。有觀點認(rèn)為,HLA并不適合用于歷史基因組的研究[5]。我們收集了全球110個人群的HLA高分辨率配型數(shù)據(jù),對所有數(shù)據(jù)的等位基因命名和統(tǒng)計方法進(jìn)行了歸一化處理,運用N- J法構(gòu)建了多種全球人群關(guān)系樹,證明HLA分子的多態(tài)性無論是在全球范圍還是在某一局部地區(qū)都能很好地用于分析人群的親緣關(guān)系。
本研究收集了PubMed (www.ncbi.nlm.nih.gov/pubmed)、CNKI (China National Knowledge Infrastru-cture, www.cnki.net)和IHWG會議論文集[2- 4]中發(fā)表的、針對本地(非近期遷徙而來)不相關(guān)健康人群的高分辨率(配型在2節(jié),舊命名系統(tǒng)的4位及以上)的HLA分型數(shù)據(jù)的文獻(xiàn),并且去除那些相似作者群體研究相同地區(qū)、相同民族人群的文獻(xiàn)。將這些人群數(shù)據(jù)構(gòu)建成本地VFP(Visual FoxPro, VFP)數(shù)據(jù)庫,后續(xù)所有的計算和編程都在VFP環(huán)境中執(zhí)行。本研究根據(jù)國際人類學(xué)研究慣例[6- 8],將全球人群分為10個區(qū)域:撒哈拉沙漠以南非洲(sub- Saharan Africa, SSA)、北非(North Africa, NAF)、歐洲(Europe, EUR)、 西南亞(Southwest Asia, SWA)、 東北亞(Northeast Asia, NEA)、東南亞(Southeast Asia, SEA)、大洋洲(Oceania, OCE)、 澳大利亞(Australia, AUS)、北美洲(North America, NAM)和南美洲(South America, SAM)。
考慮到國際HLA命名系統(tǒng)在不斷更新,為方便數(shù)據(jù)間進(jìn)行相互比較,本研究將所有人群數(shù)據(jù)的等位基因均更新為最新的名稱(HLA ambiguity release version 3.13.0, www.ebi.ac.uk/ipd/imgt/hla/ambig.html[9]),例如將HLA- A*010101替換為HLA- A*01∶01∶01。同樣為了便于數(shù)據(jù)比較,我們將HLA的分型精度定位為2節(jié),將編碼抗原肽結(jié)合凹槽的HLA Ⅰ類基因的第2、第3外顯子相同的等位基因視為同一種等位基因,例如將HLA- A*01∶01∶01∶01, A*01∶01∶01, A*01∶01∶02, A*01∶04N, A*01∶22N等歸一為HLA- A*01∶01;將編碼抗原肽結(jié)合凹槽的HLA Ⅱ類基因的第3外顯子相同的等位基因視為同一等位基因,例如HLA- DRB1*01∶01包括HLA- DRB1*01∶01∶01, DRB1*01∶01∶02, DRB1*01∶50等。
為了提高數(shù)據(jù)小數(shù)的精度,以達(dá)到更為精確的比較效果,所有人群的等位基因頻率用公式1和公式2重新進(jìn)行計算:
n=Af’*2N
(1)
Af=n/2N
(2)
其中的n代表等位基因頻數(shù),Af’代表原文中的等位基因頻率,Af代表重新計算出的等位基因頻率(下同),N代表樣本個體數(shù)量。
對于那些用表現(xiàn)型頻率統(tǒng)計的文獻(xiàn),根據(jù)Hardy- Weinberg平衡原理,用公式3將表現(xiàn)型頻率轉(zhuǎn)換為基因型頻率:
(3)
其中的Pf代表表型頻率。為達(dá)到更為穩(wěn)定的計算效果,本研究通過公式4將同一人群的HLA- A,- B, 和- DRB1座位的等位基因頻率合并成一個虛擬的、聯(lián)合的HLA- ABD座位的等位基因頻率:
AfABD=(AfA+AfB+AfDRB1)/3
(4)
其中AfABD代表聯(lián)合座位HLA- ABD的等位基因頻率,AfA、AfB和AfDRB1分別代表HLA- A,- B和- DRB1座位的等位基因頻率。
本研究選擇馬氏距離(亦稱為曼哈頓距離,Manhattan distance)[10- 11]計算人群間的遺傳距離,距離計算如公式5所示:
(5)
其中xi和yi分別代表第x個人群和第y個人群中的第i個等位基因頻率,M為參與比較的兩個人群共同擁有的等位基因數(shù)目。再選擇N- J法(neighbor- joining method)[12],用MEGA5 (http://www.megasoftware.net/)[13]構(gòu)建人群關(guān)系樹。
本研究中不同地區(qū)的人群數(shù)量差異較大,最多的是東南亞地區(qū),人群數(shù)量為33個,最少的是澳大利亞地區(qū),人群數(shù)量僅為2個。為了分析不同地區(qū)的人群數(shù)量不同是否影響人群關(guān)系樹的拓?fù)浣Y(jié)構(gòu),我們在每個地區(qū)中隨機挑選了2個人群,構(gòu)建了10個地區(qū)20個人群的關(guān)系樹。為了更進(jìn)一步分析這種影響,更好地區(qū)分不同地區(qū)人群的親緣關(guān)系,本研究計算了各地區(qū)人群間的平均遺傳距離,再用平均遺傳距離重新構(gòu)建了10個地區(qū)人群間的關(guān)系樹。各地區(qū)人群間的平均遺傳距離如公式6所示:
(6)
其中M代表參與比較的某一地區(qū)人群的數(shù)量,N代表參與比較的另一地區(qū)人群的數(shù)量。Di,j代表參與比較的第一個地區(qū)的第i個人群與第二個地區(qū)的第j個人群間的遺傳距離。
為了便于與以往其他學(xué)者運用mtDNA、NRY、全基因組SNP或者其他分子標(biāo)記物對各地人群研究的結(jié)果進(jìn)行比較,作者以取自津巴布韋的紹納人(Shona)作為人群關(guān)系樹的根節(jié)點,根據(jù)人群的地理位置對一些人群在關(guān)系樹的分布進(jìn)行了相應(yīng)旋轉(zhuǎn)。
本研究收集了國內(nèi)、外用于人類學(xué)、民族學(xué)、骨髓庫配型以及疾病對照研究產(chǎn)生的HLA高分辨率配型數(shù)據(jù),總計110個健康本地人群,分布于非洲、歐洲、亞洲、北美洲、南美洲以及大洋洲(太平洋島嶼和澳大利亞)。HLA- A、- B、- DRB1座位的樣本量分別為454 071、455 233和496 221個染色體,合并成聯(lián)合的HLA- ABD座位后代表1405 525個染色體。HLA- ABD由HLA- A、- B和- DRB1 三個座位合并而來,其攜帶了更為豐富、更為穩(wěn)定的遺傳信息,由此而構(gòu)建的人群關(guān)系也更為穩(wěn)定,更具代表性。因此,我們的結(jié)果與討論將主要針對HLA- ABD座位展開。
用聯(lián)合的HLA- ABD構(gòu)建的全球110個人群的關(guān)系樹顯示,各大區(qū)域內(nèi)的人群相互聚類,不同區(qū)域間的人群完全分離(圖1)。撒哈拉以南非洲人群聚于人群樹的根部,這與本研究選擇了津巴布韋人作為關(guān)系樹的根節(jié)點有關(guān)。美籍非洲人居于南部非洲人群的中部,喀麥隆人、南非共和國人更靠近關(guān)系樹的根部,西部非洲人群則與北非人群靠近。北非的3個人群與西亞人群聚為一大支,顯示出北非的阿拉伯人或者柏柏爾人(Berbers)與西亞的阿拉伯人在遺傳上有較高的相似性。歐洲人群將西南亞人群分為兩部分,一部分是向北非人群靠近的西亞人群,另一部分是與東亞人群靠近的南亞次大陸人群(印度人);南歐人群與中/北/西歐人群在法國相匯,暗示了歐洲南北部人群的基因成分是沿地中海東西兩岸進(jìn)行交流的,這也與用全基因組的SNP分析歐洲人群的遺傳結(jié)構(gòu)的結(jié)果[14]相一致。北亞人群(本分析中主要指韓國人和日本人,也包括部分中國北方少數(shù)民族)盡管與東南亞人群聚為一大支,但更接近于中亞人群,暗示了東北亞人群與中亞人群有較多的基因交流。14個漢族人群聚為一支,并基本以由北向南的順序相鄰接,南方漢族人群與北方漢族人群在長江一帶相匯,該結(jié)果與早期的多個基因座位聯(lián)合研究的結(jié)果[15]相一致,再一次說明中國南北方人群的分界線是長江天塹,而不是作為中國南北方氣候分界線的秦嶺淮河一線。中國臺灣原住民(高山族和平埔族)與菲律賓人、巴布亞新幾內(nèi)亞人等聚類,該支與澳大利亞原住民比較靠近,顯示了作為南島語系的臺灣原住民的遺傳特征,以及與南太平洋島嶼人群的遺傳相似性。美洲印第安人群聚為一大支,該支又分為兩簇,一個是北美印第安人,另一支是南美印第安人,并且基本按由北向南的順序排列。
為了測試不同地區(qū)的人群數(shù)量不同是否影響人群關(guān)系樹的拓?fù)浣Y(jié)構(gòu),我們從各地理區(qū)域內(nèi)隨機挑選 2個共計20個人群構(gòu)建了新的人群樹。結(jié)果顯示,各區(qū)域內(nèi)的兩個人群聚為一支,各區(qū)域之間人群的毗鄰關(guān)系與前述110個人群的關(guān)系樹的總體拓?fù)浣Y(jié)構(gòu)一致(圖2),說明不同地區(qū)人群數(shù)量的不平衡并不影響人群樹的總體拓?fù)浣Y(jié)構(gòu)。為了更進(jìn)一步驗證這一結(jié)果,本研究用各地區(qū)間人群的平均遺傳距離構(gòu)建了10個區(qū)域的關(guān)系樹,仍然顯示出與前述兩種關(guān)系樹相一致的拓?fù)浣Y(jié)構(gòu),自人群關(guān)系樹的根部至頂部,分別是撒哈拉以南的非洲、北非、歐洲、西南亞、東北亞、東南亞、大洋洲、澳洲、北美洲和南美洲(圖3)。
3種方法構(gòu)建的人群樹都能穩(wěn)定展示出全球人群同樣的親緣關(guān)系,我們也用HLA- A、- B、- DRB1三個座位的等位基因頻率分別構(gòu)建了全球人群的關(guān)系樹,并且又用Cavalli- Sforza距離、修改后的Cavalli- Sforza距離、Nei的標(biāo)準(zhǔn)距離和Rogers- Wright距離等常用的另外4種遺傳距離算法[11]構(gòu)建了基于HLA- ABD等位基因頻率的全球人群關(guān)系樹。不同數(shù)據(jù)、不同算法構(gòu)建的人群樹均顯示了同樣的結(jié)果(數(shù)據(jù)未發(fā)表),并且與應(yīng)用全基因組SNP構(gòu)建的全球人群關(guān)系樹有著相似的拓?fù)浣Y(jié)構(gòu)[16- 17]。說明作為常染色體1個片段的HLA基因能夠穩(wěn)定地顯示全球人群的親緣關(guān)系。
圖1用HLA-ABD等位基因頻率構(gòu)建的10地區(qū)110個人群的N-J樹
Fig1N-JTreeof110populationsfromthetengeographicbasedonallelefrequencyofcombinedHLA-ABD
圖2用HLA-ABD等位基因頻率構(gòu)建的10地區(qū)20個隨機人群的N-J樹
Fig2N-JTreeof20populationsselectedrandomlyfromeachofthetengeographicregionsbasedonallelefrequencyofcombinedHLA-ABD
圖3用各地區(qū)間平均遺傳距離構(gòu)建的10地區(qū)人群的N-J樹
Fig3N-JTreeofpopulationsfromthetengeographicpopulationgroupsusingtheaveragedistancesbetweenanytwogeographicregions
20多年來,如此大量的HLA配型數(shù)據(jù)為人們提供了很好的分析人群親緣關(guān)系的資源,但卻未見應(yīng)用該基因多態(tài)性構(gòu)建全球人群關(guān)系樹的報道。一般歸結(jié)于HLA與環(huán)境的選擇壓力、遺傳性或者病原性疾病的選擇壓力有關(guān)。在本研究中,美籍非洲人已經(jīng)在北美洲定居了300多年,但在人群關(guān)系樹中仍與非洲的喀麥隆人聚類,美籍歐洲人、美籍亞洲人也都與其遷出地的人群聚類,至少說明在短期內(nèi),環(huán)境的壓力并不會對人群的HLA頻率分布特征產(chǎn)生影響,人群的HLA頻率分布特征是人群固有的遺傳特征。本研究也將一些病人的HLA等位基因頻率與正常健康人群的進(jìn)行了比較對照,結(jié)果各地的病人群體仍與各地的健康人聚類,而并非不同地區(qū)的同一類病人群體聚類(數(shù)據(jù)未發(fā)表)。某一類病人在總?cè)巳褐兄徽家恍〔糠郑⑶夷切┡c疾病相關(guān)的某個座位的某一個或某幾個等位基因頻率的改變對人群的總體HLA頻率分布特征影響很小。本研究應(yīng)用HLA等位基因頻率構(gòu)建的人群關(guān)系樹與用中性無選擇壓力的分子標(biāo)記物—全基因組SNP構(gòu)建的關(guān)系樹有相似的拓?fù)浣Y(jié)構(gòu)[16- 17]和人群親緣關(guān)系,同樣證明HLA基因的多態(tài)性是各人群固有的遺傳特征,適合作為分子標(biāo)記物用于全球人群的親緣關(guān)系分析。
我們在數(shù)據(jù)整理和分析過程中發(fā)現(xiàn),那些混合人群會對關(guān)系樹的結(jié)構(gòu)產(chǎn)生較大影響,例如,很多研究發(fā)現(xiàn)瑞典的少數(shù)民族Sami[18- 20]存在亞洲基因成分,當(dāng)我們將Sami的數(shù)據(jù)并入研究時發(fā)現(xiàn),Sami與芬蘭人、瑞典的非Sami人聚為一小支,該支脫離歐洲主支而向亞洲方向靠近,并且東北亞人群在關(guān)系樹中的位置也發(fā)生了變化,從而影響了對芬蘭人、瑞典的主要人群和東北亞人群的遺傳關(guān)系分析。表明這些混合人群將吸引他的幾種祖先人群相互靠近,從而打亂了關(guān)系樹的拓?fù)浣Y(jié)構(gòu),影響了對主要人群的遺傳分析。除了瑞典的Sami外,我們在研究過程也排除了阿留申群島人(excluded Aleuts)[21]、新西蘭的毛里人(Maori)[22]和復(fù)活節(jié)島人(Easter Islander)[23]的配型數(shù)據(jù),因為原文明確表明取樣人群存在與近期遷入人群的混血成分。這種現(xiàn)象提醒我們,在進(jìn)行全球人群的數(shù)據(jù)分析時,應(yīng)當(dāng)非常仔細(xì)地甄別那些近期混合人群,注意這些人群對關(guān)系樹造成的影響。
20多年來,隨著HLA高分辨率配型方法的不斷改進(jìn),統(tǒng)計方法也各不相同,特別是在用限制片段長度多態(tài)性(restriction fragment length polymorphism, RFLP)配型時,有的文獻(xiàn)使用的是基因型頻率統(tǒng)計,有的文獻(xiàn)使用的是表現(xiàn)型頻率統(tǒng)計,這兩種統(tǒng)計方法的基本原理完全不同,需要通過Hardy- Weinberg平衡原理將表型頻率轉(zhuǎn)換成基因型頻率后才能進(jìn)行比較。另外,不同的文獻(xiàn)HLA配型的分辨率也不相同,需要對其歸一化后才能進(jìn)行統(tǒng)一比較。本研究以編碼PBR區(qū)域的基因多態(tài)性為基準(zhǔn),將配型數(shù)據(jù)定為2節(jié),例如,將HLA*02∶01∶01,HLA*02∶01∶02等等位基因的頻率并為HLA*02∶01的頻率統(tǒng)計。經(jīng)過數(shù)據(jù)重新處理和統(tǒng)計后,長達(dá)20多年的配型數(shù)據(jù)才能進(jìn)行相互比較,這也是多年來未能將如此豐富的人類學(xué)數(shù)據(jù)用于人類學(xué)研究和分析的主要原因。
經(jīng)過對等位基因名稱、統(tǒng)計方法等的標(biāo)準(zhǔn)化和歸一化,出自不同實驗室、不同實驗方法、不同統(tǒng)計方法的HLA等位基因頻率數(shù)據(jù)可以進(jìn)行相互比較,并且構(gòu)建了完整清晰的人群關(guān)系樹,無論是在全球范圍內(nèi)還是在各個地理區(qū)域,根據(jù)關(guān)系樹都能很好地解釋和分析人群間的遺傳差異性和相似性,說明HLA基因的多態(tài)性也是一種高效的研究人類學(xué)的分子標(biāo)記物。
致謝上海交通大學(xué)醫(yī)學(xué)院范麗安教授和劉祥箴同學(xué)對本研究給予了幫助。
[1] GAUDIERI S,DAWKINS R L,HABARA K,et al.SNP profile within the human major histocompatibility complex reveals an extreme and interrupted level of nucleotide diversity[J].Genome Res,2000,10(10):1579- 1586.
[2] IMANISHI I,AKAZA T,KIMURA A,et al.Allele and haplotype frequencies for HLA and complement loci in various ethnic groups[C]// TSUJI K,AIZAVA M,SASAZUKI T.HLA 1991:Proceedings of the Eleventh International Histocompatibility Workshop and Conference,vol I.Oxford,UK:Oxford University Press,1991:1065- 1220.
[3] BODMER J,CAMBON- THOMSEN A,HORS J,et al.Report of the anthropology component[C]// CHARRON D,FAUCHET R.HLA:Proceedings of the Twelfth International Histocompatibility Workshop and Conference,Vol I.Paris,France:EDK,1997:269- 274.
[4] MACK S,ERLICH H.Anthropology/Human genetic diversity joint report[C]// HANSEN J.Immunobiology of the human MHC:Proceedings of the 13th International Histocompatibility Workshop and Conference,Vol I.Seattle,USA:IHWG Press,2007:557- 766.
[5] ARNAIZ- VILLENA A.Historic genomics:an emergent discipline[J].Hum Immunol,2001,62(9):869- 870.
[6] SOLBERG O,MACK S,LANCASTER A,et al.Balancing selection and heterogeneity across the classical human leukocyte antigen loci:a meta- analytic review of 497 population studies[J].Hum Immunol,2008,69(7):443- 464.
[7] MEYER D,SINGLE R,MACK S,et al.Signatures of demographic history and natural selection in the human major histocompatibility complex loci[J].Genetics,2006,173(4):2121- 2142.
[8] MACK S,SANCHEZ- MAZAS A,MAYER D,et al.Methods used in the generation and preparation of data for analysis in the 13th International Histocompatibility Workshop[C]// HANSEN J .Immunobiology of the human MHC:Proceedings of the 13th International Histocompatibility Workshop and Conference,Vol I.Seattle,USA:IHWG Press,2007:564- 579.
[9] ROBINSON J,HALLIWELL J,McWILLIAM H,et al.The IMGT/HLA database[J].Nucleic Acids Res ,2013,41(Database issue):D1222- 1227.
[10] POWELL J,LEVENE H,DOBZHANSKY T.Chromosomal polymorphism in drosophila pseudoobscura used for diagnosis of geographic origin[J].Evolution,1972,26(4):553- 559.
[11] NEI M,TAJIMA F,TATENO Y.Accuracy of estimated phylogenetic trees from molecular data.Ⅱ.Gene frequency data[J].J Mol Evol,1983,19(2):153- 170.
[12] SAITOU N,NEI M.The neighbor- joining method:a new method for reconstructing phylogenetic trees[J].Mol Biol Evol ,1987,4(4):406- 425.
[13] TAMURA K,PETERSON D,PETERSON N,et al.MEGA5:molecular evolutionary genetics analysis using maximum likelihood,evolutionary distance,and maximum parsimony methods[J].Mol Biol Evol,2011,28(10):2731- 2739.
[14] SELDIN M,SHIGETA R,VILLOSLADA P,et al.European population substructure:clustering of northern and southern populations[J].PLoS Genet,2006,12:e143.
[15] 杜若甫,肖春杰,CAVALLI- SFORZA L.用38個基因座的基因頻率計算中國人群間遺傳距離[J].中國科學(xué):C輯,1998,28(1):83- 89.
[16] LI J,ABSHER D,TANG H,et al.Worldwide human relationships inferred from genome- wide patterns of variation[J].Science,2008,319(5866):1100- 1104.
[17] ABDULLA M,AHMED I,ASSAWAMAKIN A,et al.Mapping human genetic diversity in Asia[J].Science,2009,326(5959):1541- 1545.
[18] TAMBETS K,ROOTSI S,KIVISILD T,et al.The western and eastern roots of the Saami- - the story of genetic "outliers" told by mitochondrial DNA and Y chromosomes[J].Am J Hum Genet,2004,74(4):661- 682.
[19] INGMAN M,GYLLENSTEN U.A recent genetic link between Sami and the Volga- Ural region of Russia[J].Eur J Hum Genet ,2007,15(1):115- 120.
[20] JOHANSSON A,INGMAN M,MACK S,et al.Genetic origin of the Swedish Sami inferred from HLA class Ⅰ and class Ⅱ allele frequencies[J].Eur J Hum Genet,2008,16(11):1341- 1349.
[21] MOSCOSO J,CRAWFORD M,VICARIO J,et a.HLA genes of Aleutian Islanders living between Alaska(USA)and Kamchatka (Russia) suggest a possible southern Siberia origin[J].Mol Immunol,2008,45(4):1018- 1026.
[22] TRACEY M,CARTER J.Class Ⅱ HLA allele polymorphism:DRB1,DQB1 and DPB1 alleles and haplotypes in the New Zealand Maori population[J].Tissue Antigens,2006,68(4):297- 302.
[23] THORSBY E,FLAM S,WOLDSETH B,et al.Further evidence of an Amerindian contribution to the polynesian gene pool on Easter Island[J].Tissue Antigens,2009,73(6):582- 585.