陶 林,賀小云,狄 冉,劉秋月,胡文萍,王翔宇,儲明星
(中國農(nóng)業(yè)科學院北京畜牧獸醫(yī)研究所,農(nóng)業(yè)農(nóng)村部動物遺傳育種與繁殖重點實驗室,北京 100193)
全基因組關聯(lián)分析(Genome-wide Association Study,GWAS)最早應用于人類疾病,是用于解析復雜性狀的重要研究手段[1]。過去十多年中,高通量測序技術的快速發(fā)展和測序成本降低使得GWAS 用于畜禽相關經(jīng)濟性狀研究成為可能,尤其是各種商用畜禽基因芯片的成功研發(fā)極大推動了GWAS 的發(fā)展。在全基因組選擇育種時代,GWAS 是預測畜禽生產(chǎn)性能和評價畜禽遺傳資源的有力工具。本文綜述了GWAS 的基本原理、方法、優(yōu)劣勢以及GWAS 在畜禽生長發(fā)育相關性狀中的應用現(xiàn)狀,并對GWAS 在今后畜禽育種中的應用前景進行展望,以期為GWAS 在畜禽育種中的深入研究提供參考。
1.1 GWAS的基本原理 GWAS依賴于連鎖不平衡(Linkage Disequilibrium,LD)檢測群體的遺傳變異(主要是SNP)與性狀之間的關聯(lián),然后通過統(tǒng)計基因型和表型的關聯(lián)性大小篩選出影響顯著的遺傳變異。因此,GWAS 通過分析遺傳變異和表型變異的關聯(lián)性,定位影響表型性狀的重要數(shù)量性狀位點(QTL)和候選基因,從而確定其遺傳機制[2]。GWAS 的一般分析流程為采集樣品和表型記錄、基因分型、群體分層分析、關聯(lián)分析、SNP 注釋和候選基因篩選、連鎖不平衡分析和單倍型分析。
GWAS 常用的高通量基因分型手段有基因芯片技術、全基因組重測序、簡化基因組測序、全基因組外顯子測序等?;蛐酒梢詫崿F(xiàn)對特定群體特定SNP 位點的快速分型。全基因組重測序?qū)蚪M遺傳信息挖掘全面,但數(shù)據(jù)量大,成本較高。全基因組外顯子測序極大降低了待測序列總量,但并未過多降低遺傳信息。與全基因組外顯子測序相類似,簡化基因組測序只針對基因組中特定區(qū)域進行遺傳變異檢測。較低的分型成本、時間成本、儲存成本和分析成本是目前基因芯片技術的優(yōu)勢所在。GWAS 常用高通量基因分型方法見表1。根據(jù)具體情況適當選擇或有機結合多種分型方法尤為重要。
1.2 試驗設計與分析方法 根據(jù)實驗階段可以分為單階段和多階段,單階段一般直接選擇大群體進行關聯(lián)分析,多階段一般先選擇小群體,然后在大群體中進行驗證。根據(jù)研究群體親緣關系可分為基于無關個體的設計和基于家系的群體設計,前者包括用于研究數(shù)量性狀的基于隨機群體的關聯(lián)分析和研究質(zhì)量性狀的病例-對照設計。由于樣本量和系譜信息的限制,畜禽中的GWAS 設計通常基于無關個體。
GWAS 的任務是挖掘遺傳變異和表型性狀的關系,其前提假設是芯片密度足夠檢測出致因突變和SNP 之間的連鎖不平衡。線性回歸、方差分析、t檢驗等方法都可以用于GWAS 研究。將多個SNP 合并為一個單倍型與復雜性狀進行關聯(lián)分析的方法叫做單倍型關聯(lián)分析,其應用較多且效果較好。標簽SNP(tag SNP)的鑒定對于確定單倍型和闡明潛在的遺傳機制十分重要。此外,計算雜合親本將等位基因傳遞給患病子代的概率是否高于50%,即傳遞不平衡檢驗(Transmission Disequilibrium Test,TDT),其主要用于存在家系群體的研究。用于群體結構和親緣關系估計的常見軟件有STRUCTURE、EIGENSOFT、ADMIXTURE 和SPAGeDi,用于GWAS分析的常見軟件有PLINK、TASSEAL、EMMAX、GCTA和QTXNetwork 等[9]。通常樣本和基因型數(shù)據(jù)的質(zhì)量控制條件:①個體SNP 檢出率>95%;②除去不符合Hardy-Weinberg 平衡檢驗的SNP;③最小等位基因頻率≥1%;④重復樣品檢出結果>95%。
1.3 GWAS 的優(yōu)勢和缺陷 QTL 定位是研究變異的首選方法。與傳統(tǒng)方法(基因組掃描和候選基因分析)相比,GWAS 對低效致因變異的檢測效力更強,能進行QTL精細定位,進一步縮短基因區(qū)段范圍??蓪崿F(xiàn)高通量分析是GWAS 的最大優(yōu)勢。利用基因芯片進行基因分型是GWAS 的常用方式。GWAS 對數(shù)以萬計個SNP 或變異位點同時進行關聯(lián)分析,對影響性狀的變異信息檢出率較高,因此特別適合于復雜性狀的遺傳機制的研究。GWAS 數(shù)據(jù)通過網(wǎng)絡等途徑共享,這對研究相同問題的同行非常有價值。
GWAS 的不足和常見對應方法:①研究群體遺傳背景的不一致將出現(xiàn)分層現(xiàn)象,導致結果不可靠??衫弥鞒煞址治觥⒔Y構關聯(lián)分析等統(tǒng)計手段進行分層控制。②多重假設檢驗可能會導致假陽性結果,目前常采用Bonferroni 校正法和控制錯誤發(fā)現(xiàn)率法(FDR)進行校正。③群體重復性不強,要求對大樣本量的群體進行多次驗證。同時各種后GWAS 策略的出現(xiàn)將有助于完善GWAS 的結果。
微效多基因效應系統(tǒng)使得影響性狀的基因組合情況非常復雜??紤]到等位基因數(shù)量和效應的大小,GWAS仍不能很好解釋遺傳方差。因此,基于基因芯片的GWAS 主要關注[10]:①影響研究群體目標性狀的位點數(shù)量;②位點的聯(lián)合分布效應和等位基因頻率;③實驗群體大?。虎芑蛐酒娜蚪M變異數(shù)量;⑤性狀的變異度。
表1 GWAS 常用高通量基因分型方法
表2 GWAS 在畜禽體重和體型性狀中的應用
本文總結的生長發(fā)育相關性狀主要指體重和體型性狀(表2)、耳性狀、角性狀、毛性狀、乳頭數(shù)性狀、骨性狀和肉品質(zhì)性狀等。一次基因分型數(shù)據(jù)與畜禽多種性狀同時進行關聯(lián)分析,可以達到充分挖掘多性狀間的遺傳機制和節(jié)約實驗成本的目的。畜禽的體型大小和體重通常呈正相關,考慮到動物表型數(shù)據(jù)準確獲取的難度較大,且多數(shù)研究未區(qū)分二者,本文綜述了二者的GWAS 研究進展。
2.1 體重體型相關性狀的GWAS
2.1.1 豬 針對前肢結構、背部結構、后肢結構和整體結構性狀,Le 等[11]利用GWAS 在長白豬、大白豬和杜洛克豬3 個品種分別檢測到14、12 個和13 個相關QTL,發(fā)現(xiàn)最顯著的SNP 分別解釋了長白豬 2% 背部結構、大白豬 2.3%整體結構和杜洛克豬 11.4%背部結構的遺傳變異,也篩選出骨骼和肌肉發(fā)生相關基因LRPPRC、WRAP73、VRTN和PPARD以及生長過程相關基因IGF2BP2、GH1、CCND2和MSH2。Ji 等[12]利用Illumina 公司Porcine SNP60K 芯片分別篩選出611個和79 個與白杜洛克和二花臉豬雜交二代群體210 d 體尺(體高、體長、胸圍、胸深、胸寬、管圍、腹圍和臀圍)和體重相關SNP,并鑒定出7 個新QTL 和5 個候選基因。562 頭大白豬的GWAS 檢測出6 個與生長性狀(體重達到100 kg 和115 kg 的日齡以及30~100 kg 和30~115 kg的平均日增重)顯著相關的SNP,并注釋到9 個骨骼、肌肉、脂肪和肺發(fā)生相關基因上[13]。
2.1.2 牛 Nellore 牛的GWAS 結果表明,全基因組范圍內(nèi)最顯著的SNP 位于區(qū)段BTA14:25376827,該區(qū)段跨越多個已報道與初生重、性成熟體重、胴體重、體高和斷奶前平均日增重相關QTL[14]。1 562 頭婆羅門牛的GWAS 結果 表 明,ADAMTSL3、CAPN2、FABP6和ZEB2等候選基因與其初生重、斷奶重和周歲重顯著相關[15]。Zhang 等[16]利用Bovine SNP50 v2 BeadChip對中國荷斯坦牛4 個生長階段(6、12、18、24 月齡)的胸圍和臀高進行GWAS 發(fā)現(xiàn),在基因組水平顯著的27 個SNP 位點周圍尋找到的66 個候選基因在16 個信號通路和互作網(wǎng)絡中發(fā)揮重要生物學功能。1 314 頭中國荷斯坦奶牛29 個體型性狀的GWAS 篩選出59 個基因組范圍內(nèi)顯著的SNP,其中16 個位于或鄰近已經(jīng)發(fā)現(xiàn)的QTL,22 個位于注釋基因區(qū)段[17]。Zhang 等[18]利用3 種GWAS 方法篩選出影響西門塔爾牛平均日增重的28 個共同SNP 和候選基因區(qū)段DCAF16-NCAPG,并在轉(zhuǎn)錄水平得以驗證。外顯子測序發(fā)現(xiàn)影響西門塔爾牛胸圍和體長的稀有變異,GO 富集分析和KEGG 通路分析將注釋到的基因富集到生物體生長發(fā)育相關通路[19]。
2.1.3 山羊 Rahmatalla 等[20]利用Goat SNP52 BeadChip對蘇丹4 個品種山羊的14 個體型性狀關聯(lián)分析發(fā)現(xiàn),2 號染色體上的CNTNAP5基因與胸寬顯著關聯(lián),3 號染色體上的SNP 位點56482-scaffold89-467312 與體長顯著關聯(lián)。樣本量?。╪=95)和多品種是影響該研究結果準確性的主要因素。解決多性狀GWAS 實施性不強的辦法可以利用參考算法整合GWAS 信息或者進行主成分分析。一項結合GWAS 和GBA 的研究篩選出39 個與Frizarta 奶山羊體尺性狀顯著相關的基因,其中前5 個 分 別 是TP53、BMPR1A、PIK3R5、RPL26和PRKDC,這與之前GWAS 得到的結果相似[21]。最開始基于重測序的GWAS 發(fā)現(xiàn)KDM6A是影響嶗山奶山羊繁殖力的候選基因[40],最近在陜西白絨山羊中也證實了KDM6A基因內(nèi)的1 個16 bp InDel 突變與生長性狀顯著相關,其中II 型個體的體重、體高、胸深、體長、胸圍和臀高顯著高于DD 和ID 型個體[22]。
2.1.4 綿羊 GWAS 篩選出大量影響綿羊體重的SNP和候選基因。位于6 號染色體40.3~42.9 Mb 區(qū)段的13個SNP 被證明與體重相關,其中最顯著的2 個SNP 可以解釋24.33% 和24.57% 澳大利亞美利奴羊的體重表型標準方差[23]。GWAS 發(fā)現(xiàn)5 個新基因(CAMKMT、TRHDE、RIPK2、MEF2B和RFXANK)與蘇尼特羊、杜泊羊和德國肉用綿羊的斷奶體重相關[24]。Baluchi綿羊的GWAS 鑒定出2 個影響平均日增重的候選基因MAGI1和ZNF770[25]。Lori-Bakhtiari 綿羊初生重性狀的GWAS 挖掘出RAB6B、Tf serotransferri和GIGYF23 個候選基因[26]。
2.1.5 馬 16 個品種馬的GWAS 發(fā)現(xiàn),分別位于3 號、6 號、9 號和11 號染色體的4 個區(qū)段可以解釋83% 的體型變異,其中注釋到的LCORL、HMGA2和ZFAT基因被報道與人、牛和狗的體型相關[27]。隨后的研究證明,LCORL基因的相對表達量和馬體型大小存在顯著相關,CT 型和CC 型相對于TT 型體型分別減小40%和56%[28]。結合XP-CLR 分析的GWAS 表明,位于ANKRD1基因的標記ECA1:37676322 bp 與體高變異顯著相關[29]。3 種檢測拷貝數(shù)變異算法同時篩選出50個與馬體型大小相關的拷貝數(shù)變異(CNV),這提高了GWAS 的準確性[30]。以蒙古馬和伊犁馬為參照,通過FST 和XP-EHH 分析方法發(fā)現(xiàn)德寶矮馬X 染色體上5 個區(qū)段受到強烈選擇,其中最顯著的2 個SNP 位于骨形態(tài)發(fā)生蛋白(BMP)超家族中與BMP4 存在拮抗關系 的CHRDL1基 因[31]。184 匹Quarter 馬 的GWAS 證實WWOX和AAVPR1A基因與其形態(tài)(體重、體長和尻長)顯著相關[32]。
2.1.6 家禽 惠陽胡須雞和快大型肉雞F2代雜交群體的GWAS 發(fā)現(xiàn)與22 個生長相關性狀的44 個QTL,其中39 個QTL 同時影響多個性狀[33]。烏骨雞和白洛克雞雜交群體GWAS 表明,4 號染色體上LDB2基因與7~12 周齡體重和6~12 周齡的日增重均顯著相關[34]。結合GWAS 和表達譜實驗篩選出與體重相關的QTL miR-16 后,進一步發(fā)現(xiàn)miR-15a-16 上游的54 bp 插入突變可以顯著提高肉雞體重、肌肉產(chǎn)量和增大骨架[35]。5 個家系444 只雞通過CornellGBS 方法的GWAS 找到了20 個與飼料轉(zhuǎn)化效率相關的SNP、1 個與5 周齡體重相關的SNP 以及大量與生產(chǎn)性狀相關的SNP[36]。該方法參考數(shù)據(jù)庫中來自小染色體的SNP 信息密度更高。利用特定區(qū)段擴增片段測序(Specific-Locus Amplified Fragment Sequencing,SLAF-seq)技術對汶上壩雞的GWAS 鑒定出6 個達到全基因組顯著水平與體重相關的SNP,并定位到PRSS23、ME3、FAM181B、NABP1、SDPR、TSSK6L2和RBBP8 7個基因附近[37]。與芯片技術相比,SLAF-seq 技術的優(yōu)勢包括[41]:①深度測序確保分型準確;②成本較低;③優(yōu)化的標記效率;④適合大群體檢測。運用廣義線性模型和壓縮混合線性模型對Arian 肉雞× 伊朗Orumieh 本地雞F2群體開展的GWAS 表明,定位到的10 個基因與細胞分裂、骨骼肌生成和轉(zhuǎn)錄活性的調(diào)節(jié)等生物學過程相關[38]。在GWAS 的基礎上,結合qPCR 和高通量染色體構象捕獲(High-Throughput Chromosome Conformation Capture,Hi-C)等技術發(fā)現(xiàn),IGF2BP1的1 個突變能使鴨飼料效率提高6%,且體型(體重、頭重、翅重、心臟重、肝臟重、腿重、胸寬、跖骨長)增大15%[39]。
2.2 其他生長發(fā)育相關性狀的GWAS
2.2.1 耳性狀 豬耳朵在實踐中具有較高的經(jīng)濟價值。通過GWAS 篩選出位于5 號染色體的與豬耳面積相關的LEMD3和WIF1基因,并驗證了WIF1是主效基因[42]。劉晨龍[43]對蘇太豬和白色杜洛克和二花臉F2代群體的GWAS 表明,LEMD3、MSRB3和HMGA2是影響耳面積的3 個候選基因;但在隨后萊蕪豬、二花臉豬和杜長大群體中的GWAS 結果表明,位于5 號染色體上的MSRB3是影響豬耳面積的主效基因。不同品種存在的遺傳背景差異可能是導致相同性狀定位到不同基因的主要原因。Brito 等[44]通過GWAS 發(fā)現(xiàn),SIX2和WNT5A基因與山羊耳發(fā)生與形態(tài)相關。多浪羊的GWAS 研究發(fā)現(xiàn),DCC、PTPRD、SOX5是影響耳面積的重要基因[45]。
2.2.2 乳頭數(shù)性狀 大白豬乳頭數(shù)的GWAS 研究鑒定了VRTN、Prox2、MPP7、ARMC4和MKX等候選基因,且發(fā)現(xiàn)這些基因均與椎骨數(shù)相關[46]。SCAMP2 g.25280 G>A 位點、HDDC3 g.1319 G>A 位點和SCAMP2 g.14198 G>A 位點分別與總乳頭數(shù)、左側乳頭數(shù)和右側乳頭數(shù)顯著相關[47]。對3 個群體的GWAS 和薈萃分析表明,VRTN和KDM6B是影響豬乳頭數(shù)量的候選基因[48]。阿爾卑斯山羊和薩能奶山羊副乳頭的GWAS 發(fā)現(xiàn)該性狀由多基因控制,但未檢測出相關基因[49]。GWAS 檢測出63 個達到染色體水平、顯著影響洼地綿羊乳頭數(shù)的SNP,并將其注釋到1 號染色體上的BBX和CD47基因[50]。
2.2.3 毛性狀 Kijas 等[51]研究發(fā)現(xiàn),KIT和MITF是影響綿羊毛色的候選基因。Li 等[52]研究發(fā)現(xiàn),ASIP、TYRP1和MITF是影響芬蘭綿羊毛色的候選基因。全球50 個品種山羊群體的拷貝數(shù)變異群體研究也證實,ASIP 是影響毛色的重要基因[53]。利用66K SNP 芯片進行GWAS 發(fā)現(xiàn),AKT1和ALX4是影響綿羊絨細度的候選基因[54]。Yang 等[55]通過GWAS 發(fā)現(xiàn)NUAK1和SHH可能是影響雞羽毛黑色素沉積的候選基因。最近研究證明MITF基因的1 個內(nèi)含子插入可導致鴨出現(xiàn)白羽性狀[39]。
2.2.4 角性狀 角是動物性選擇的產(chǎn)物,實際生產(chǎn)中人們更傾向于培育無角動物。Johnston 等[56]研究發(fā)現(xiàn),RXFP2是影響Soay 野生綿羊角型的主效基因,可以解釋正常角型大小形狀76% 的加性遺傳方差。利用RXFP2基因上的OAR10_29458450 位點為GG 和OAR10_29546872.1 位點為TT,可以預測美利奴綿羊的無角性狀[57]。Greyvenstijn 等[58]通過GWAS 篩選出了影響Damara 綿羊角數(shù)量的HOXD家族候選基因。Jacob 綿羊和Navajo-Churro 綿羊的GWAS 研究也發(fā)現(xiàn)MTX2基因和HOXD家族基因影響角的數(shù)目[59]。大角羊角長和角基部周長性狀的GWAS 并未找到顯著相關SNP[60]。單步加權GWAS 研究發(fā)現(xiàn),Nelore 牛的角型相關候選基因IFNAR1、IFNAR2、IFNGR2、KRTAP11-1、MIS18A、OLIG1、OLIG2和SOD1[61]。GWAS 研究表明,SYNJ1、PAXBP1和C1H21orf62基因顯著影響牦牛的無角性狀[62]。
2.2.5 骨性狀 結合重測序技術和GWAS 定位到了影響大白豬和民豬雜交F2代群體肋骨數(shù)性狀的潛在型轉(zhuǎn)化生長因子β結合蛋白基因LTBP2[63]。長白豬和韓國本地豬雜交F2代群體的GWAS 也證實了LTBP2是影響胸椎數(shù)的候選基因[64]。利用SNP 芯片對300 日齡巴馬香豬檢出的CNV 進行GWAS,尋找到18 個位于2、5 和7 號染色體上、顯著影響骨骼(肩胛骨、臂骨、前臂骨、股骨和小腿骨)長度的拷貝數(shù)變異區(qū)域[65]。孫艷發(fā)等[66]的GWAS 研究發(fā)現(xiàn),LDB2、BOD1L1、QDPR是影響雞脛長和脛圍的重要候選基因。運用一步法SNP-GWAS 發(fā)現(xiàn),F(xiàn)AM184B、LAP3、LCORL和NCAPG是影響牛骨重的重要候選基因[67]。
2.2.6 肉品質(zhì)性狀 張立敏[68]對620 頭西門塔爾育肥公牛的肉質(zhì)性狀進行GWAS 研究,發(fā)現(xiàn)7 號染色體上CAST基因周圍的7 個SNP 與剪切力顯著相關,2 號染色體上CXCR4基因附近6 個SNP 與肌內(nèi)脂肪顯著相關。GWAS 研究結果發(fā)現(xiàn),F(xiàn)GF9、SPIDR、LAMA4、TCF4等基因與西門塔爾牛的屠宰率和凈肉率性狀顯著相關[69],CDC42BPA、VPS41、COX7C、PALM2、GLIS3和EFNA5基因與西門塔爾牛的里脊重顯著相關[70],PLAG1基因內(nèi)Bovine HD1400007259 位點與西門塔爾牛的和尚頭重、金錢腱重和后腱子重以及雪龍黑牛的金錢腱重顯著相關[71],S100A10是影響牛肉pH 的重要候選基因[67]。京海黃雞腿肌和胸肌脂肪含量、腿肌和胸肌蛋白含量的GWAS 找到LOC101747478、CBLN2、HPGDS、SETD2、ANKRD46、ZFPM2和GRM4等相關基因[72]。大尾寒羊和小尾寒羊的GWAS 篩選出了影響尾脂的部分候選基因CREB1、STEAP4、CTBP1和RIP140[73]。
通過特定位點的分型可以預測畜禽的某些性狀或生產(chǎn)力,這對畜禽育種中經(jīng)濟性狀的選擇至關重要。GWAS 在闡明畜禽復雜性狀的遺傳機制上的應用越來越廣泛,其研究結果為畜禽多基因聚合育種和基因組編輯奠定了堅實的基礎。但必須認識到,群體分層現(xiàn)象、多重假設檢驗不準確、群體重復性不強、基因的精細定位和解釋相應的遺傳機制對GWAS 是不可避免的挑戰(zhàn)。作為一種研究手段和方法,GWAS 只能對遺傳信息進行初步挖掘,加上后續(xù)的各項實驗驗證才能較具體說明相關問題。常見的驗證手段有候選基因的qRT-PCR 驗證、同源基因的比對、多組學結合驗證、擴大群體驗證和轉(zhuǎn)基因驗證等。
今后的研究中,由于樣本數(shù)限制等原因,基因芯片分型的方法有望被全基因組測序取代;選擇遺傳力較高和容易精確度量的性狀可提高GWAS 統(tǒng)計效力;表型有向分子層面延伸的趨勢,如基因表達水平、DNA 甲基化水平和代謝物水平;統(tǒng)計分析方法和相關算法的完善以及多組學等后GWAS 分析策略的出現(xiàn)將會極大提高GWAS 準確度。之前的十多年中,GWAS 在人類疾病和畜禽相關性狀的遺傳研究方面碩果累累。在全基因組選擇育種時代,期待GWAS 在今后的畜禽育種和動物遺傳資源保護與利用中得到更加廣泛的應用。