王 玨,劉成琨,2,劉德武,王克君,4,陳 潔,吳珍芳,方美英*
(1.中國農(nóng)業(yè)大學動物科技學院,北京 100086;2.北京貝瑞和康生物技術有限公司,北京 102200;3.華南農(nóng)業(yè)大學動物科學學院,廣州廣東 510642;4.河南農(nóng)業(yè)大學牧醫(yī)工程學院,河南鄭州 450002)
全基因組選擇自2001 年提出以來[1],在奶牛育種工作中已被廣泛應用,但在其他物種中應用還處于起步階段?;蚪M選擇基于SNP 標記與數(shù)量性狀位點(QTL)之間的關聯(lián)開展,因此SNP 芯片中標記的密度對于基因組選擇的準確性十分重要,而高密度SNP 芯片的成本較高,使其應用受限;另一方面,由于性狀和群體的差異,篩選對所有性狀都具有遺傳效應的共同SNP 位點較為困難?;蛐吞畛淇梢栽谝欢ǔ潭壬辖鉀Q這一問題[2-3]?;蛐吞畛涫抢靡延械姆中托畔嶋H未分型的位點進行基因型預測[4]。大部分基因型填充是根據(jù)已有的單倍型信息進行單倍型構建填充,這其中又根據(jù)是否利用家系信息分為不依賴于家系信息而僅利用群體連鎖不平衡信息構建單倍型、根據(jù)家系信息和標記連鎖信息共同構建單倍型2 種策略[5]。根據(jù)算法不同,使用單倍型進行填充又有3 種不同方法:馬爾可夫-門特卡羅方法(Markov Chain Monte Carlo,MCMC),如IMPUTE2[6]、BEAGLE[7]等;最大簡約法(Maximum Parsimony,MP),如findhap[8];最大期望法(Expectation-Maximization,EM),如plink[9]?;蛐吞畛浞椒ū姸?,填充的可靠性以及效率在生產(chǎn)過程中最被關注。Johnston 等[10]研究發(fā)現(xiàn)Beagle[11]、Fimpute[12]和Findhap[13]3 種軟件填充的準確率都在95%左右。Larmer等[14]也比較了Beagle2[11]和Fimpute[12]在不同牛染色體上的填充效果,結果表明,雖然兩種方法在不同品種中表現(xiàn)不同,但總體都可以得到95%以上的較高基因型填充準確率。
現(xiàn)階段基因組選擇在奶牛中主要用于縮短世代間隔[1,15],可將傳統(tǒng)后裔測定由5~6 年的世代間隔縮短到1.5 年[16-17]。豬的全基因組選擇應用正在逐步推進,但與奶牛不同的是,豬的世代間隔時間較短,通過全基因組選擇方法降低豬的世代間隔意義不如奶牛明顯。全基因組選擇在豬育種中的應用主要是提高選種的準確性以期獲得更大的遺傳進展,同時可根據(jù)其基因組育種值進行早期選種以節(jié)約飼養(yǎng)成本。本研究選取1 068 頭杜洛克公豬作為研究對象,分別采用高密度SNP 芯片、與性狀緊密關聯(lián)的低密度SNP 芯片、與性狀緊密關聯(lián)的低密度SNP 芯片與基因型填充并用的3 種不同分析策略進行基因組育種值估計,以探索低密度SNP 芯片在豬全基因組選擇中應用的可能性,同時也為今后基因組選擇技術在豬育種中的應用提供參考。
1.1 實驗群體 本實驗選用的1 068 頭杜洛克公豬均來自于廣東溫氏食品集團國家生豬種業(yè)工程技術研究中心的沙湖種豬場。所有個體均為67 個父本和464 個母本的后代。樣本采集時取活體耳組織樣,裂解液裂解后用氛仿法提取基因組DNA,取3 μg 基因組DNA,稀釋至50 ng/μL,-20℃保存。
1.2 性能測定 用于實驗分析的性狀包括日增重(Average Daily Gain,ADG)、背膘厚(Back Fat Thickness,BF)以及飼料轉(zhuǎn)化率(Feed Conversion Ratio,F(xiàn)CR)。
控制待測公豬體重在85~105 kg,稱重前停料12 h以上,記錄體重及測定日期,使用公式校正日齡=測定日齡-(實測體重-100)/CF 計算校正日齡,其中CF=實測體重×1.826040、測定日齡。
使用SFK2 背膘儀PIGLOG105 測定活體兩點背膘厚:背膘A 為倒數(shù)第3~4 腰椎距背中線約7 cm;背膘B 為倒數(shù)第3~4 肋骨、距背中線7 cm 處,取A 與B 的平均值,并用公式校正背膘厚(cm)=實測背膘厚×CF進行校正,其中CF=16.684/(13.648+0.11525×實測體重-100)。
ADG(kg/d)=(100-入試體重)/(100kg 日齡-入試日齡)
FCR=采食量/測定期增重
1.3 SNP 芯片檢測 使用Illumina 公司研發(fā)的Porcine SNP60 芯片對1 068 個個體進行SNP 分型,分析工作由DNA Landmarks 公司完成,其使用的SNP 分型平臺為Illumina Infinium 平臺。
1.4 數(shù)據(jù)質(zhì)控 Call Rate 小于95% 的位點和個體;最小等位基因頻率(Minor Allele Frequency,MAF)小于1% 的位點;哈代溫伯格平衡卡方檢驗(Hardy-Weinberg Equilibrium,HWE)P值小于10-4 的位點。質(zhì)控后共得到35 694 個SNP 位點。
1.5 低密度SNP 位點的選擇 如圖1 所示,從Porcine 60K 芯片中篩選一部分位點模擬低密度SNP。在染色體上每105 劃分一個區(qū)域,在區(qū)段內(nèi)分別選出ADG、BF、FCR 3 個性狀SNP 效應最高的位點。本實驗中SNP 效應使用GBLUP-CE 進行計算。經(jīng)過篩選,共得到5 989 個SNP 可用于低密度芯片構建,每條染色體上的芯片分布如圖2 所示。
圖2 篩選得到的低密度SNP 芯片在每條染色體上的部分情況
1.6 基因型填充分析 已有的研究表明[18-20],參考群與驗證群之間的親緣關系會對填充的準確性產(chǎn)生一定影響。本研究將參考群和驗證群設計:①隨機填充:從1 068 個個體中隨機抽取317 個個體作為填充群體,使用其余751 個個體作為參考群體;②全同胞填充:從1 068 個個體中按全同胞的關系抽取317 個個體作為填充群體,其余751 個個體作為參考群體,即填充群體和參考群體之間為全同胞關系。利用Beagle 4.0[7]中的MCMC 算法,分別針對不同的群體在考慮系譜和不考慮系譜2 種條件下進行填充。
1.7 準確性估計 在準確性估計過程中為了更準確地進行比較,未被填充的基因型不應被考慮到準確性的計算公式中。同時,等位基因的計算方法忽略了基因型的整體性,采用公式進行準確性評估。錯誤率(Er)=填充錯誤的基因型/所有被填充的基因型。
1.8 育種值估計 本實驗使用了3 種基因型數(shù)據(jù)分別進行育種值估計。根據(jù)已有報道,GBLUP-CE 對復雜性狀估計的準確性有一定優(yōu)勢[21],因此使用該方法對3 種SNP 芯片(低密度SNP 芯片、經(jīng)過填充得到的高密度SNP 芯片和高密度SNP 芯片)的數(shù)據(jù)分別估計ADG、BF 和FCR 的GEBV。GBLUP-CE方法由GVCBLUP軟件[22]提供。
1.9 相關性比較 經(jīng)過育種值估計后,將使用低密度SNP 芯片與使用基因型填充后的SNP 芯片估計得到的GEBV 分別與使用高密度SNP 芯片估計得到的GEBV進行比較,計算皮爾遜積矩相關系數(shù)[23],從而比較SNP 芯片密度對GEBV 估計的影響。
2.1 低密度SNP 芯片篩選與基因型填充方案分析 本研究使用PorcineSNP60 芯片對1 068 個杜洛克公豬個體進行基因型分型,經(jīng)過質(zhì)控后共獲得35 694 個SNP 位點作為高密度SNP 芯片數(shù)據(jù)用于后續(xù)分析。通過篩選高密度SNP 芯片數(shù)據(jù)中選取與ADG、BF 和FCR 3 個性狀關聯(lián)效應最高的位點,共得到5 989 個SNP 位點,將其作為低密度SNP 芯片數(shù)據(jù)。
為了探索全同胞個體與隨機個體對GEBV 準確性估計的影響,本實驗分別使用隨機填充和全同胞填充2種設計方案在考慮系譜和不考慮系譜2 種條件下進行基因型填充。如果使用全同胞填充得到的SNP 芯片數(shù)據(jù)與隨機填充得到的SNP 芯片數(shù)據(jù)之間沒有明顯差異,則表明當群體的遺傳背景一致性較高時可使用隨機個體進行基因型填充以獲得更大的便利性。填充后,通過與原有高密度SNP 芯片進行比較,4 種方案填充后的錯誤率如表1 所示,不管是使用隨機個體還是全同胞個體進行基因型填充,系譜信息的有無都沒有對本實驗中的基因型填充的準確性產(chǎn)生影響。使用隨機個體進行基因型填充的錯誤率為6.19%,而使用全同胞的錯誤率則為6.00%,可以看出當使用全同胞個體進行填充時,其基因型填充錯誤率更低。進一步觀察4 種方案的每個SNP 的填充錯誤率,發(fā)現(xiàn)4 種不同填充方案之間的錯誤率分布沒有明顯差異,每個SNP 的填充錯誤率都在0~0.75,而在每個染色體兩端的區(qū)域錯誤率較高(圖3)。
表1 不同方案基因型填充平均錯誤率表
2.2 不同密度的SNP 芯片在全基因組選擇中的效果分析 如表2 所示,低密度SNP 芯片數(shù)據(jù)與原有的高密度SNP 芯片數(shù)據(jù)在估計3 個性狀的GEBV 時兩者的相關 性 都 在0.95 以 上(ADG:0.971 9,BF:0.958 0,F(xiàn)CR:0.953 6),表明與原有的高密度SNP 芯片相比,沒有經(jīng)過基因型填充的低密度SNP 芯片就已經(jīng)可以達到較高的準確性。因此,與性狀緊密相關的基因位點組成的低密度SNP 芯片雖然不能完全代替高密度SNP 芯片,但在經(jīng)費投入有限的情況下仍擁有一定的使用價值。
圖3 不同方案基因型填充錯誤率示意圖
進一步使用不考慮系譜的隨機填充方案得到的高密度SNP 芯片數(shù)據(jù)時,其估計GEBV 結果和原有高密度SNP 芯片估計結果的相關性有了進一步提升,ADG、BF、FCR 分別達到0.991 8、0.990 0、0.990 8,即經(jīng)過基因型填充后估計所得的GEBV 相關性都達到了99%以上,其GEBV 估計幾乎和原有的高密度SNP 芯片一致。說明在SNP 芯片密度相同的情況下,使用經(jīng)過基因型填充得到的SNP 芯片和高密度SNP 芯片估計GEBV 所得到的結果沒有顯著差異,而基因型填充SNP芯片的成本較高密度SNP 芯片直接分型更有優(yōu)勢。
表2 低密度SNP 芯片與高密度SNP 芯片估計性狀GEBV 的相關性分析
總體而言,雖然和性狀緊密相關的低密度SNP 芯片已經(jīng)擁有了較高的準確性,但是由于芯片密度的差異還是使得其與高密度SNP 芯片結果之間一致性較低。當使用基因型填充技術提高芯片密度時,GEBV 的估計準確性有了巨大提升。以上研究結果表明,低密度SNP芯片與基因型填充技術聯(lián)合使用可替代高密度SNP 芯片用于分子選種。
本實驗通過將含有5 989 個位點的低密度SNP 芯片進行填充,研究了不同的基因型填充方案的準確性差異,結果顯示不論是親緣關系還是系譜信息,對基因型填充的準確率都沒有顯著影響。根據(jù)之前的研究[24-25],參考群體與驗證群體的親緣關系對準確性有一定影響。當參考群與驗證群之間的親緣關系較近時,會共享較多的單倍型片段,因此準確率會有一定提升。本研究發(fā)現(xiàn),使用隨機個體進行填充時錯誤率為6.19%,而使用全同胞群體進行填充時錯誤率為6.00%??梢钥闯鍪褂萌麄€體進行填充,準確率雖然有所提升,但是提升不明顯。這可能是由于本實驗所用的個體均來自于同一個種豬場,其中大部分個體的親緣關系本身較近,再加上本實驗使用的杜洛克豬樣本具有較高的遺傳關聯(lián),上述因素導致了本實驗中親緣關系對填充的準確率作用較小這一結果。
另一方面,針對本實驗所使用的Beagle 填充軟件,其從4.0 版本開始可以結合系譜信息進行基因型填充,但并未報道系譜的有無對于基因型填充準確率的影響。本實驗結果顯示,在2 種不同的群體中,不管使用系譜與否,其得到的結果基本一致,說明Beagle 軟件能在群體內(nèi)親緣關系較近的情況下有效利用基因型當中包含的潛在系譜信息進行基因型填充,這在實際的豬育種工作中,可以極大地簡化信息采集工作。
從整條染色體上的填充錯誤率分布來看,在每條染色體的兩端均出現(xiàn)了較高的填充錯誤率,這可能是由于染色體兩端連鎖的SNP 較少從而導致基因型填充過程中信息不全。另外,Larmer 等[14]比較了在荷斯坦奶牛中的結果,其基因型填充錯誤率在5%左右,略低于本研究結果,但是差異不大。
本研究所使用的低密度SNP 芯片是由豬的60K SNP 芯片經(jīng)過基因關聯(lián)分析而來的,因此低密度SNP芯片和性狀具有較高的相關性。但本研究結果顯示,經(jīng)過填充的高密度SNP 芯片的準確性更高。也就是說,即使在低密度SNP 芯片和性狀相關性較高的前提下,對芯片進行基因型填充可以進一步提高育種值估計的準確性。
本研究研究結果表明,應用與目標性狀緊密關聯(lián)的低密度SNP 芯片結合基因型填充技術可以達到較高的育種值估計準確性,并發(fā)現(xiàn)在遺傳背景較為類似的群體中親緣關系對基因型填充結果的準確性影響不大,不會影響個體基因組育種值的估計效果。