郝興杰,胡 林,張淑君
(華中農(nóng)業(yè)大學動物科學技術(shù)學院/動物醫(yī)學院 動物遺傳育種與繁殖教育部重點實驗室,武漢 430070)
?
全基因組關(guān)聯(lián)分析方法的研究進展
郝興杰,胡林,張淑君*
(華中農(nóng)業(yè)大學動物科學技術(shù)學院/動物醫(yī)學院 動物遺傳育種與繁殖教育部重點實驗室,武漢 430070)
摘要:全基因組關(guān)聯(lián)分析目前已經(jīng)成為研究復雜性狀和疾病遺傳變異的有效方法,但是由于群體結(jié)構(gòu)的存在,導致分析結(jié)果出現(xiàn)虛假關(guān)聯(lián)。經(jīng)過數(shù)十年的發(fā)展,各種新方法不斷出現(xiàn)和完善,用于減少群體結(jié)構(gòu)對分析的影響。本綜述將對在全基因組關(guān)聯(lián)分析中能夠處理群體結(jié)構(gòu)的方法進行介紹,以期為進一步選擇GWAS方法準確揭示各種性狀的遺傳背景提供參考。
關(guān)鍵詞:全基因關(guān)聯(lián)分析;群體結(jié)構(gòu);虛假關(guān)聯(lián)
全基因組關(guān)聯(lián)分析(Genome-wide association study,GWAS)是一種在全基因組范圍內(nèi),通過高密度單核苷酸多態(tài)性(SNP)挖掘影響表型性狀(如疾病,身高)基因的統(tǒng)計分析方法[1]。自從2005年,R.J.Klein等[2]利用GWAS第一次成功鑒定了影響年齡相關(guān)性視網(wǎng)膜黃斑變異的重要遺傳因子之后,掀起了利用GWAS揭示復雜性狀遺傳基礎(chǔ)的熱潮,越來越多地被用來揭示人類以及動植物的常見疾病和復雜性狀的遺傳機理。目前GWAS主要采用兩種試驗設計,一種是基于無關(guān)個體的病例-對照(Case-control)設計[3-4],假設受試個體來源于單一群體,且個體之間互不相關(guān),然而試驗中無論如何控制,不同程度的親緣關(guān)系和群體分層等群體結(jié)構(gòu)都是無法避免的,尤其是在樣本數(shù)量巨大的情況下;另一種是基于有親緣關(guān)系的群體(Population-based cohorts)設計[5-6],假設受試個體來源于不同群體,在同一群體內(nèi)的個體之間存在一定的親緣關(guān)系,這種情況在動植物研究中極為常見。
在進行GWAS時,要求遺傳背景一致或者相似的群體,然而無論采用哪種設計,試驗個體都會面臨著群體分層和親緣關(guān)系等群體結(jié)構(gòu)導致虛假關(guān)聯(lián)(Spurious association)的結(jié)果。群體結(jié)構(gòu)指來源于不同組別、群體或者地理區(qū)域的個體存在遺傳差異,會導致群體之間的等位基因頻率不同,表現(xiàn)為群體分層和親緣關(guān)系。在進行關(guān)聯(lián)分析時,如果忽略了群體結(jié)構(gòu)的影響,將可能導致分析結(jié)果出現(xiàn)偏差,增加了假陽性錯誤的產(chǎn)生風險,在合并的群體中顯著的SNP在各個群體中并不顯著[7],如圖1。
由于存在群體結(jié)構(gòu),不同亞群(Sub-population)之間基因交流的頻率很低,等位基因頻率存在差異性,在合并群體中,基因型的頻率出現(xiàn)偏離哈代溫伯格平衡檢測(Hardy-Weinberg equilibrium test,HWE)預測值,這種現(xiàn)象稱為華倫德效應(Wahlund effect)[8]。在對遺傳疾病和復雜性狀進行全基因組關(guān)聯(lián)分析時,首先要進行的就是對SNP進行質(zhì)控,其中就包括HWE,如果存在群體結(jié)構(gòu),尤其是不同亞群的遺傳差異性較小,就需要增加樣本數(shù)量來檢測由于華倫德效應導致的HWE偏移。
在過去十幾年內(nèi),出現(xiàn)了許多處理群體結(jié)構(gòu)的GWAS方法,主要分為4種,分別為基因組控制法(Genomic control)、分層分析法(Stratification analysis)、主成分分析法(Principal components analysis,PCA)和混合線性模型分析法(Mixed-linear-model association,MLMA)。本文將對目前能夠處理群體結(jié)構(gòu)的GWAS方法作一綜述,并對GWAS的方法研究進行展望,以期為進一步選擇GWAS方法,準確揭示各種性狀的遺傳基礎(chǔ)提供參考。
1基因組控制法
B.Devlin等最早提出利用基因組控制法來衡量群體結(jié)構(gòu)對關(guān)聯(lián)分析的影響[9-10]。在進行GWAS時,標準的關(guān)聯(lián)檢驗方法一般為卡方檢驗或者趨勢卡方檢驗(Armitage’s trend test),當群體結(jié)構(gòu)存在時,統(tǒng)計量服從λχ2分布,其中λ為基因組膨脹因子(Genomic inflation factor),大小由群體結(jié)構(gòu)控制,同時也受樣本數(shù)量影響,可以用來衡量群體結(jié)構(gòu)對關(guān)聯(lián)分析的影響程度。在基因組控制法中,通過對原始的關(guān)聯(lián)統(tǒng)計量統(tǒng)一除以λ得到新的統(tǒng)計量,實現(xiàn)對群體結(jié)構(gòu)的校正?;蚪M膨脹因子λ可以通過基因組數(shù)據(jù)進行估測,假定選擇了一組非關(guān)聯(lián)的位點,那么每個位點的檢驗統(tǒng)計量服從λχ2分布,期望為λ,原假設為隨機變量的統(tǒng)計量服從自由度為1的χ2分布,期望為1,由于中位數(shù)比平均數(shù)更加穩(wěn)健,在實際計算過程中多采用中位數(shù)進行比較,膨脹因子的計算公式:
盡管基因組控制法能夠處理群體結(jié)構(gòu)造成的影響,但也有一些限制。對原始統(tǒng)計量統(tǒng)一進行校正,在一定程度上降低了檢驗的功效,尤其當群體結(jié)構(gòu)的影響很大時,基因組控制法就比較保守[11-12]。根據(jù)經(jīng)驗,當λ<1.01時,認為群體結(jié)構(gòu)影響很??;當1.01<λ<1.05時,認為群體結(jié)構(gòu)的影響中等,但仍然在接受的范圍之內(nèi);當λ>1.1時,表明群體結(jié)構(gòu)影響很大,基因組控制法缺少檢驗的功效,需要選擇其他方法對群體結(jié)構(gòu)的影響進行校正[13]。
2分層分析法
在進行GWAS時樣本可能混合了多個有遺傳差異的亞群,對于亞群的劃分可以根據(jù)地理區(qū)域、體型特征、經(jīng)緯度等標準。然而這種劃分方法比較主觀,不能準確反映群體結(jié)構(gòu)。如何準確的將試驗個體聚類分群并與遺傳信息相匹配,將有利于進一步研究相關(guān)問題。J.K.Pritchard等提出,在病例-對照設計中可以利用非關(guān)聯(lián)的分子標記去檢測群體結(jié)構(gòu)[14]。隨后,J.K.Pritchard等[15]采用貝葉斯聚類分析方法,假設有k個亞群,利用基因組上等位基因的基因型信息將受試個體分別指定到各個亞群中,并開發(fā)出相應的程序STRUCTURE。在對群體進行劃分之后,可以在亞群之內(nèi)進行關(guān)聯(lián)分析,J.K.Pritchard等[16]認為,經(jīng)過分群之后,亞群內(nèi)將不再存在群體結(jié)構(gòu),關(guān)聯(lián)分析將不再受群體結(jié)構(gòu)的影響,不會出現(xiàn)虛假關(guān)聯(lián)結(jié)果。
分層分析法的重要一步是對樣本進行聚類分群,由于樣本群體的遺傳差異可能是連續(xù)的,分界不是絕對的,有些受試個體可能會被聚類到多個亞群中[15],該方法在用于全基因組大數(shù)據(jù)時,由于計算量太大限制了其使用[12]。D.H.Alexander等對STRUCTURE的貝葉斯方法中的最大似然估計進行優(yōu)化,開發(fā)了ADMIXTURE程序,提高了計算效率,使其在聚類時可以適用于更多的標記[17]。
3主成分分析法
主成分分析在應用GWAS之前主要是作為一種數(shù)據(jù)降維的技巧,將大量相關(guān)變量轉(zhuǎn)換成一組很少的不相關(guān)變量,這些無關(guān)變量被稱為主成分,通過主成分盡可能多的解釋初始變量的變異程度。N.Patterson等[18]根據(jù)主成分分析的思想,利用受試個體之間的親緣關(guān)系來研究樣本的群體結(jié)構(gòu)。具體步驟包括:首先,根據(jù)全基因組等位基因頻率構(gòu)建親緣關(guān)系矩陣(Kinship matrix);然后,計算親緣關(guān)系矩陣的特征值和特征向量,特征向量揭示了樣本中的非隨機成分,即群體結(jié)構(gòu);最后,根據(jù)特征值的大小選擇幾個特征向量代替親緣關(guān)系矩陣。A.L.Price等[12]將主成分分析應用于GWAS,首先通過主成分分析基因型數(shù)據(jù)特征值和特征向量,然后用特征向量對初始基因型和表型進行校正,最后采用卡方趨勢檢驗對校正后的基因型和表型進行關(guān)聯(lián)分析。
主成分分析和分層分析有很多聯(lián)系和區(qū)別,分層分析的目的是通過聚類將樣本分成明確的k個亞群,更直觀的解釋了群體結(jié)構(gòu),而主成分分析沒有具體的模型,可適用于亞群分界不明顯的樣本群體,通過特征向量反映個體間的遺傳差異是連續(xù)的,相較于分層分析更加穩(wěn)健[17-18]。在進行主成分分析時,各個特征向量是正交的,A.L.Price等[12]發(fā)現(xiàn),特征向量的使用數(shù)目對初始基因型和表型校正影響不顯著,默認的特征向量使用數(shù)目為10個,使用過多的特征向量去校正反而會減低檢驗的功效,N.Patterson等[18]建議采用k個顯著的特征向量去校正初始基因型和表型。
4混合線性模型法
上述提到的基因組控制法、分層分析法和主成分分析法主要是為了校正群體結(jié)構(gòu)中的群體分層的影響,但是對于群體結(jié)構(gòu)中的親緣關(guān)系的影響上述3種方法都存在不足[19-20]?;旌暇€性模型法[21]在常規(guī)遺傳育種中用于最佳線性無偏預測(Best linear unbiased prediction,BLUP)動物的育種值,可以直接將兩兩個體之間的親緣關(guān)系整合到模型中,考慮各種固定因素和隨機因素的效應,J.Yu等[11]首次將混合線性模型用于GWAS,可以很好的控制群體結(jié)構(gòu)的影響,降低虛假關(guān)聯(lián)的產(chǎn)生并保持較高的檢驗功效。在GWAS中混合線性模型:
y=Xβ+Zu+e
在混合線性模型中,最重要也是最耗時的一步就是方差組分的估計。J.Yu等研究的方法在對每個標記進行關(guān)聯(lián)分析時,都需要對方差組分重新迭加估計,計算壓力過大僅適用于樣本量較少時進行GWAS,在樣本量較大時利用混合線性模型不能夠?qū)崿F(xiàn)GWAS。W.M.Chen等[22]發(fā)現(xiàn),當SNPs的效應很小時,方差組分可以近似等于全部SNPs估計的方差組分,只需要估計一次,使得混合線性模型法可以適用于大樣本的GWAS。不斷有研究者優(yōu)化混合線性模型應用于GWAS的算法,采用兩步計算的策略(Two-stage approach)將方差組分估計與關(guān)聯(lián)分析分開,開發(fā)出新的GWAS方法,其中包括GRAMMAR[23]、EMMA[24]、GAPIT[25]、EMMAX[26]、GRAMMAR-Gamma[27]、Fast-LMM[28]、GCTA[29-30]和GEMMA[31]等方法,在這些方法中,GRAMMAR、GAPIT、EMMAX、GRAMMAR-Gamma屬于近似算法,其他幾種方法屬于精確算法。
相較于基因組控制法、分層分析法和主成分分析法,混合線性模型法應用于GWAS有許多優(yōu)勢,但也存在一些不足和需要進一步改進的地方[19-20],例如在構(gòu)建親緣關(guān)系矩陣時如何選擇全基因組上的分子標記才可以準確估計群體結(jié)構(gòu),在混合線性模型法運用于病例對照設計時會降低檢驗功效,將候選標記用于構(gòu)建親緣關(guān)系矩陣也將降低檢驗功效。M.Pirinen等[32]發(fā)現(xiàn),將混合線性模型用于病例-對照設計時,在混合線性模型中添加一些已知的協(xié)變量作為固定效應時,如果是常見疾病(發(fā)病率高于20%),將會提高檢驗功效,但是對于罕見疾病,將會降低其檢驗功效,不能檢測出新的遺傳標記。在混合線性模型中,多基因效應和群體結(jié)構(gòu)都會使GWAS的統(tǒng)計分布出現(xiàn)膨脹,現(xiàn)有的方法不能區(qū)別膨脹是來源于多基因效應還是群體結(jié)構(gòu)造成的偏差,B.K.Bulik-Sullivan等[33]基于這點開發(fā)了新的方法“連鎖不平衡評分回歸”分析法(LD score regression),也證實了在大樣本的GWAS中,統(tǒng)計分布的膨脹主要是由多基因效應造成的?,F(xiàn)有的混合線性模型法大部分都建立在混合線性模型為無窮小的模型(Infinitesimal model)的假設之上,即所有的標記的影響都很小且都服從獨立的正態(tài)分布,但實際上有影響的標記可能只有幾千個,采用貝葉斯方法,可以區(qū)別效應大和效應小的標記,P.R.Loh等[34]基于這種情況,采用非無窮小的混合線性模型并優(yōu)化了算法BOLT-LMM,減少了計算過程中的迭代次數(shù),也提高了檢驗功效。
5展望
GWAS目前作為一種研究復雜性狀和疾病遺傳機理的重要方法,經(jīng)過數(shù)十年的發(fā)展,各種方法不斷出現(xiàn)和完善,混合線性模型法在處理群體結(jié)構(gòu)上具有很大優(yōu)勢,目前被廣泛運用于GWAS中。由于在動物群體中一般都存在較復雜的群體結(jié)構(gòu),我們應該結(jié)合群體結(jié)構(gòu)和研究目的選擇合適的GWAS方法?,F(xiàn)有的GWAS方法大部分只考慮了加性效應,在進行關(guān)聯(lián)分析時采用的單位點分析(Single-maker association)將導致一些稀有突變(Rare mutation)不能被有效檢測出,在今后的GWAS方法研究中,多位點分析[35-36]、非加性效應以及互作效應[37]對GWAS的影響都應該成為一個重要的研究方向。
參考文獻(References):
[1]RISCH N,MERIKANGAS K.The future of genetic studies of complex human diseases[J].Science,1996,273(5281):1516-1517.
[2]KLEIN R J,ZEISS C,CHEW E Y,et al.Complement factor H polymorphism in age-related macular degeneration[J].Science,2005,308(5720):385-389.
[3]CHARLIER C,COPPIETERS W,ROLLIN F,et al.Highly effective SNP-based association mapping and management of recessive defects in livestock[J].NatGenet,2008,40(4):449-454.
[4]SIRONEN A,UIMARI P,NAGY S,et al.Knobbed acrosome defect is associated with a region containing the genes STK17b and HECW2 on porcine chromosome 15[J].BMCGenomics,2010,11(699):1471-2164.
[5]PREISSLER R,TETENS J,REINERS K,et al.A genome-wide association study to detect genetic variation for postpartum dysgalactia syndrome in five commercial pig breeding lines[J].AnimGenet,2013,44(5):502-508.
[6]AI H,XIAO S,ZHANG Z,et al.Three novel quantitative trait loci for skin thickness in swine identified by linkage and genome-wide association studies[J].AnimGenet,2014,45(4):524-533.
[7]TEO Y Y.Common statistical issues in genome-wide association studies:a review on power,data quality control,genotype calling and population structure[J].CurrOpinLipidol,2008,19(2):133-143.
[8]WAHLUND S.Zusammensetzung von Populationen und Korrelationserscheinungen vom Standpunkt der Vererbungslehre aus betrachtet[J].Hereditas,1928,11(1):65-106.
[9]DEVLIN B,ROEDER K.Genomic control for association studies[J].Biometrics,1999,55(4):997-1004.
[10]DEVLIN B,ROEDER K,WASSERMAN L.Genomic control,a new approach to genetic-based association studies[J].TheorPopulBiol,2001,60(3):155-166.
[11]YU J,PRESSOIR G,BRIGGS W H,et al.A unified mixed-model method for association mapping that accounts for multiple levels of relatedness[J].NatGenet,2006,38(2):203-208.
[12]PRICE A L,PATTERSON N J,PLENGE R M,et al.Principal components analysis corrects for stratification in genome-wide association studies[J].NatGenet,2006,38(8):904-909.
[13]ZEGGINI E,MORRIS A.Analysis of complex disease association studies:a practical guide[M].Academic Press,2010.
[14]PRITCHARD J K,ROSENBERG N A.Use of unlinked genetic markers to detect population stratification in association studies[J].AmJHumGenet,1999,65(1):220-228.
[15]PRITCHARD J K,STEPHENS M,DONNELLY P.Inference of population structure using multilocus genotype data[J].Genetics,2000,155(2):945-959.
[16]PRITCHARD J K,STEPHENS M,ROSENBERG N A,et al.Association mapping in structured populations[J].AmJHumGenet,2000,67(1):170-181.
[17]ALEXANDER D H,NOVEMBRE J,LANGE K.Fast model-based estimation of ancestry in unrelated individuals[J].GenomeRes,2009,19(9):1655-1664.
[18]PATTERSON N,PRICE A L,REICH D.Population structure and eigenanalysis[J].PLoSGenet,2006,2(12):e190.
[19]PRICE A L,ZAITLEN N A,REICH D,et al.New approaches to population stratification in genome-wide association studies[J].NatRevGenet,2010,11(7):459-463.
[20]YANG J,ZAITLEN N A,GODDARD M E,et al.Advantages and pitfalls in the application of mixed-model association methods[J].NatGenet,2014,46(2):100-106.[21]HENDERSON C.Application of linear models in animal breeding[D].Guelph:University of Guelph,1984.
[22]CHEN W M,ABECASIS G R.Family-based association tests for genomewide association scans[J].AmJHumGenet,2007,81(5):913-926.
[23]AULCHENKO Y S,DE KONING D J,HALEY C.Genomewide rapid association using mixed model and regression:a fast and simple method for genomewide pedigree-based quantitative trait loci association analysis[J].Genetics,2007,177(1):577-585.
[24]KANG H M,ZAITLEN N A,WADE C M,et al.Efficient control of population structure in model organism association mapping[J].Genetics,2008,178(3):1709-1723.
[25]ZHANG Z,ERSOZ E,LAI C Q,et al.Mixed linear model approach adapted for genome-wide association studies[J].NatGenet,2010,42(4):355-360.
[26]KANG H M,SUL J H,SERVICE S K,et al.Variance component model to account for sample structure in genome-wide association studies[J].NatGenet,2010,42(4):348-354.
[27]SVISHCHEVA G R,AXENOVICH T I,BELONOGOVA N M,et al.Rapid variance components-based method for whole-genome association analysis[J].NatGenet,2012,44(10):1166-1170.
[28]LIPPERT C,LISTGARTEN J,LIU Y,et al.FaST linear mixed models for genome-wide association studies[J].NatMethods,2011,8(10):833-835.
[29]YANG J,MANOLIO T A,PASQUALE L R,et al.Genome partitioning of genetic variation for complex traits using common SNPs[J].NatGenet,2011,43(6):519-525.
[30]YANG J,LEE S H,GODDARD M E,et al.GCTA:a tool for genome-wide complex trait analysis[J].AmJHumGenet,2011,88(1):76-82.
[31]ZHOU X,STEPHENS M.Genome-wide efficient mixed-model analysis for association studies[J].NatGenet,2012,44(7):821-824.
[32]PIRINEN M,DONNELLY P,SPENCER C C.Including known covariates can reduce power to detect genetic effects in case-control studies[J].NatGenet,2012,44(8):848-851.
[33]BULIK-SULLIVAN B K,LOH P R,F(xiàn)INUCANE H K,et al.LD Score regression distinguishes confounding from polygenicity in genome-wide association studies[J].NatGenet,2015,47(3):291-295.
[34]LOH P R,TUCKER G,BULIK-SULLIVAN B K,et al.Efficient Bayesian mixed-model analysis increases association power in large cohorts[J].NatGenet,2015,47(3):284-290.
[35]KORTE A,VILHJALMSSON B J,SEGURA V,et al.A mixed-model approach for genome-wide association studies of correlated traits in structured populations[J].NatGenet,2012,44(9):1066-1071.
[36]SEGURA V,VILHJALMSSON B J,PLATT A,et al.An efficient multi-locus mixed-model approach for genome-wide association studies in structured populations[J].NatGenet,2012,44(7):825-830.
[37]THOMAS D.Gene-environment-wide association studies:emerging approaches[J].NatRevGenet,2010,11(4):259-272.
(編輯郭云雁)
Progresses in Research of Genome-wide Association Study Methods
HAO Xing-jie,HU Lin,ZHANG Shu-jun*
(KeyLaboratoryofAnimalBreedingandReproductionofMinistryofEducation,CollegeofAnimalScienceandTechnology/CollegeofVeterinaryMedicine,HuazhongAgriculturalUniversity,Wuhan430070,China)
Key words:genome-wide association study (GWAS);population structure;spurious association
Abstract:The genome-wide association study (GWAS) has become an effective approach to identify genetic variants associated with complex traits and diseases.However,population structure can result in spurious association.In the past few decades,new approaches were developed and improved to minimize the influence of population structure.In this review,we summarize some new approaches to treat population structure for selecting the best method for any GWAS to reveal the genetic backgroud of some traits.
doi:10.11843/j.issn.0366-6964.2016.02.001
收稿日期:2015-06-01
基金項目:促進與美大地區(qū)科研合作與高層次人才培養(yǎng)項目(52902-0650104);歐盟FPT構(gòu)架項目瑪麗居里夫人人才基金(Marie Curie Action,P11FR-GA-2012-912205)
作者簡介:郝興杰(1990-),男,湖北南漳人,博士,主要從事動物遺傳疾病的研究,E-mail:xingjiehao@webmail.hzau.edu.cn *通信作者:張淑君,教授,E-mail:sjxiaozhang@mail.hzau.edu.cn
中圖分類號:S813.3
文獻標志碼:A
文章編號:0366-6964(2016)02-0213-05