周子文,王雪,丁向東
研究報(bào)告
基于高密度SNP標(biāo)記估計(jì)群體間遺傳關(guān)聯(lián)
周子文,王雪,丁向東
中國農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,畜禽育種國家工程實(shí)驗(yàn)室,農(nóng)業(yè)農(nóng)村部動(dòng)物遺傳育種與繁殖重點(diǎn)實(shí)驗(yàn)室,北京 100193
聯(lián)合育種的準(zhǔn)確性受到群體間遺傳關(guān)聯(lián)程度的影響。本研究通過比較基于系譜數(shù)據(jù)和基因組數(shù)據(jù)計(jì)算的群體遺傳關(guān)聯(lián),探究高密度SNP標(biāo)記在遺傳關(guān)聯(lián)估計(jì)中的應(yīng)用前景。本研究同時(shí)使用了模擬數(shù)據(jù)和真實(shí)數(shù)據(jù),采用6種不同的遺傳關(guān)聯(lián)計(jì)算方法,包括PEVD (prediction error variance of differences)、PEVD(x)、VED (variance of estimated difference)、CD (generalized coefficient of determination)、r (prediction error correlation)和CR (connectedness rating),比較基于構(gòu)建不同的關(guān)系矩陣(A、G、Gs、G0.5和H矩陣)的群體間遺傳關(guān)聯(lián)。模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)結(jié)果表明,除PEVD(x)和VED方法外,PEVD、CD、r和CR基于基因組信息的G、Gs和G0.5陣計(jì)算的遺傳關(guān)聯(lián)程度均高于基于系譜信息的A陣,基于同時(shí)利用系譜和基因組信息的H陣遺傳關(guān)聯(lián)結(jié)果一般介于A陣與G陣之間。當(dāng)CR和r為0時(shí),CD都較高,高估了群體遺傳關(guān)聯(lián)。用r度量3個(gè)遺傳分化程度不同的豬場間遺傳關(guān)聯(lián)時(shí),基于G陣的r值均為0.01,不能準(zhǔn)確反映群體真實(shí)遺傳關(guān)聯(lián)。隨著遺傳力的提高,所有群體遺傳關(guān)聯(lián)評(píng)估方法都有所改善,但遺傳力為0.1時(shí),PEVD基于A陣結(jié)果優(yōu)于G陣,中高遺傳力性狀用于估計(jì)遺傳關(guān)聯(lián)優(yōu)于低遺傳力性狀。本研究證明高密度SNP標(biāo)記比系譜信息估計(jì)群體間遺傳關(guān)聯(lián)更有優(yōu)勢(shì),CR是衡量遺傳關(guān)聯(lián)穩(wěn)健而可靠的評(píng)價(jià)指標(biāo),計(jì)算簡單,受性狀遺傳力影響較小。PEVD可以作為補(bǔ)充,量化具體群體遺傳關(guān)聯(lián)下的育種值預(yù)測誤差情況。G矩陣比Gs、G0.5陣能更好反映群體遺傳關(guān)聯(lián)。
豬;遺傳關(guān)聯(lián);系譜;基因組;關(guān)系矩陣
聯(lián)合評(píng)估是家畜育種中一種有效方式,可將不同國家、地區(qū)、育種組織的育種數(shù)據(jù)聯(lián)合起來對(duì)個(gè)體進(jìn)行遺傳評(píng)估,由于擴(kuò)大了群體規(guī)模,從而提高了育種值估計(jì)的準(zhǔn)確性,而且能夠進(jìn)行大范圍內(nèi)種畜的比較和選種,實(shí)現(xiàn)聯(lián)合育種。奶牛、豬育種中這一做法十分通行,但多個(gè)群體的聯(lián)合遺傳評(píng)估,群體間存在關(guān)聯(lián)是前提,表現(xiàn)為群體具有遺傳上的關(guān)聯(lián)或者由于相同環(huán)境造成的關(guān)聯(lián)[1],從而使多個(gè)群體的聯(lián)合評(píng)估可以在同一尺度上進(jìn)行比較。相同環(huán)境所造成的群體關(guān)聯(lián)主要通過不同群體在中心測定站統(tǒng)一進(jìn)行性能測定實(shí)現(xiàn),但由于中心測定站測定規(guī)模限制,此種群體關(guān)聯(lián)影響有限。群體關(guān)聯(lián)更多是由于場間遺傳交流產(chǎn)生的遺傳聯(lián)系,如我國生豬遺傳改良計(jì)劃開展的聯(lián)合遺傳評(píng)估,通過場間遺傳交流建立不同生豬核心育種場之間的遺傳聯(lián)系,形成了杜洛克、長白和大白3個(gè)品種多個(gè)遺傳關(guān)聯(lián)組[2]。每個(gè)關(guān)聯(lián)組聯(lián)合評(píng)估與單場遺傳評(píng)估相比,遺傳參數(shù)估計(jì)和個(gè)體育種值估計(jì)準(zhǔn)確性更高[3],并且可以進(jìn)行個(gè)體跨場比較,挑選優(yōu)秀種豬。
群體遺傳關(guān)聯(lián)有多種估計(jì)方法,可以分為兩大類:育種值估計(jì)預(yù)測誤差方差和育種值比較的可靠性或相關(guān)系數(shù)。第一種主要有預(yù)測誤差方差方法(prediction error variance of differences, PEVD)[4]、PEVD(x)[5]和場效應(yīng)差異的估計(jì)方差(variance of estimated difference, VED)[4]。從理論上說,PEVD是一種較為理想的度量遺傳關(guān)聯(lián)的方法,該方法通過計(jì)算不同個(gè)體之間育種值(estimated breeding value, EBV)差異的預(yù)測誤差方差,評(píng)價(jià)兩個(gè)個(gè)體育種值比較的準(zhǔn)確性,但該方法計(jì)算復(fù)雜,難以用于育種實(shí)踐[4]。PEVD(x)和VED是PEVD的近似估計(jì)方法,PEVD(x)通過構(gòu)建一個(gè)差異向量x近似估計(jì)PEVD,進(jìn)行簡化計(jì)算[5],VED主要計(jì)算場效應(yīng)之間的預(yù)測誤差方差[4]。第二類群體遺傳關(guān)聯(lián)估計(jì)方法主要有廣義決定系數(shù)方法(generalized coefficient of deter-mination, CD)[5]、預(yù)測誤差相關(guān)系數(shù)(prediction error correlation, r)[6]和場間關(guān)聯(lián)率(connectedness rating, CR)[7]。CD定義為估計(jì)育種值比較的可靠性,即預(yù)測值差異與真實(shí)值差異間相關(guān)系數(shù)的平方[5],r通過計(jì)算兩個(gè)群體之間兩兩配對(duì)的預(yù)測誤差相關(guān)系數(shù)均值來評(píng)價(jià)遺傳關(guān)聯(lián)程度[6]。CR主要計(jì)算場效應(yīng)之間的相關(guān),或者群體均值估計(jì)誤差之間的相關(guān)[7]。
遺傳關(guān)聯(lián)計(jì)算通常基于系譜數(shù)據(jù)[8],但是系譜數(shù)據(jù)難以保證其完整性和準(zhǔn)確性,會(huì)導(dǎo)致部分場間遺傳關(guān)聯(lián)低于真實(shí)情況,或者產(chǎn)生錯(cuò)誤的場間遺傳關(guān)聯(lián)。如果兩個(gè)群體均有基因組數(shù)據(jù),則即便缺乏完整準(zhǔn)確的系譜記錄,也可以估計(jì)遺傳關(guān)聯(lián),從而拓展了遺傳關(guān)聯(lián)方法的使用范圍。使用基因組數(shù)據(jù)估計(jì)遺傳關(guān)聯(lián)的另一個(gè)主要優(yōu)勢(shì)為基因組數(shù)據(jù)能夠真實(shí)反映個(gè)體間親緣關(guān)系,通過基因組數(shù)據(jù)構(gòu)建的個(gè)體間關(guān)系矩陣比基于系譜信息的更加準(zhǔn)確[9~11],可以捕捉到系譜數(shù)據(jù)中不存在的遺傳關(guān)聯(lián)。
本研究旨在通過比較不同群體關(guān)聯(lián)估計(jì)方法基于系譜和SNP芯片數(shù)據(jù)計(jì)算的遺傳關(guān)聯(lián),探究基因組數(shù)據(jù)在遺傳關(guān)聯(lián)估計(jì)中的應(yīng)用效果及各種群體關(guān)聯(lián)估計(jì)方法的優(yōu)劣。
本研究采用GPOPSIM[12]軟件模擬基因組數(shù)據(jù)。模擬了18條染色體,每條染色體長度為100 cM, 染色體總長度為18 M,總共模擬了306個(gè)QTL,隨機(jī)分布在染色體組上。SNP標(biāo)記和QTL的突變率分別為1.25×10–6和2.5×10–3。從每條染色體上均勻抽取2834個(gè)SNP,共51,012個(gè)SNP,生成基因型數(shù)據(jù)。表型數(shù)據(jù)由軟件模擬生成,遺傳力設(shè)定為0.3,遺傳方差為2。
群體模擬首先生成一個(gè)1000世代的歷史群體,每個(gè)世代群體規(guī)模保持不變,均由300頭公畜和300頭母畜組成,公母隨機(jī)交配,每頭母畜產(chǎn)生10個(gè)后代,公母各半。從第1000個(gè)世代群體后代中隨機(jī)抽取,生成兩個(gè)亞群,每個(gè)亞群均由20頭公畜和600頭母畜構(gòu)成。每個(gè)亞群內(nèi),每頭公畜與30頭母畜隨機(jī)交配,每頭母畜產(chǎn)生10個(gè)后代,公母比例1∶1,記為世代1。從世代2開始,每個(gè)亞群內(nèi)均從上一世代隨機(jī)選擇20頭公畜與1500頭母畜交配,母畜產(chǎn)生后代數(shù)與性別比例同世代1,不同世代群體大小保持不變。重復(fù)上述過程,直至世代7,兩個(gè)亞群間不發(fā)生遺傳交流。兩個(gè)亞群世代1至世代7所有個(gè)體均有表型,僅第5世代至第7世代每個(gè)亞群各有3000個(gè)體(每個(gè)公畜家系中一半個(gè)體)具有基因型數(shù)據(jù)。
本研究同時(shí)利用3家國家生豬核心育種場(以下簡稱“核心場”)北京六馬養(yǎng)豬科技股份有限公司(場代碼BJLM,簡稱“北京六馬”)、北京養(yǎng)豬育種中心(場代碼BBSC,簡稱“養(yǎng)豬中心”)及新疆天康畜牧科技有限公司(場代碼XJTC,簡稱“新疆天康”) 2012~2019年大白豬數(shù)據(jù)。北京六馬和養(yǎng)豬中心種豬來源于美國,新疆天康來源于加拿大。3家核心場生長性狀達(dá)100 kg體重日齡和100 kg活體背膘厚表型數(shù)據(jù)分別為33,883、13,259和13,763條,系譜數(shù)據(jù)各有36,577、75,255和14,409條,具有SNP芯片基因型個(gè)體數(shù)為2382、1712和1239頭。
北京六馬和養(yǎng)豬中心的基因型數(shù)據(jù)均采用PorcineSNP80K Beadchip芯片(簡稱80K)測定,共包含68,528個(gè)SNP位點(diǎn);新疆天康的基因型數(shù)據(jù)則由PorcineSNP50K Beadchip芯片(簡稱50K)測定,共包含50,697個(gè)SNP位點(diǎn)。兩種芯片均參照豬參考基因組11.1版本,除去未知染色體上的位點(diǎn)后,兩款芯片共同位點(diǎn)數(shù)為48,675。芯片基因型填充步驟分兩步進(jìn)行,首先對(duì)80K芯片個(gè)體進(jìn)行填充,剔除未知染色體和常染色體上的位點(diǎn),之后將其作為參考群對(duì)所有50K芯片個(gè)體進(jìn)行填充,芯片數(shù)據(jù)填充處理使用beagle[13]軟件完成。填充后對(duì)芯片數(shù)據(jù)進(jìn)行如下質(zhì)控處理:(1)個(gè)體檢出率(call rate)達(dá)到90%以上;(2)單個(gè)SNP檢出率達(dá)到90%以上;(3) SNP位點(diǎn)的最小等位基因頻率不低于0.05;(4)每個(gè)SNP位點(diǎn)哈代–溫伯格平衡檢驗(yàn)值大于10–6。質(zhì)控篩選后,所有基因型個(gè)體、45569個(gè)SNP位點(diǎn)滿足要求。
群體關(guān)聯(lián)估計(jì)主要基于育種值估計(jì),本研究所有群體遺傳關(guān)聯(lián)方法計(jì)算均基于以下育種值估計(jì)模型:
本研究使用PEVD、PEVD(x)、VED、CD、r和CR等6種方法估計(jì)群體遺傳關(guān)聯(lián)。PEVD計(jì)算公式如下:
PEVD(x)方法參照Lalo?等[5]。VED、CD、r 和 CR 方法計(jì)算公式如下:
本研究主要利用系譜數(shù)據(jù)和SNP芯片數(shù)據(jù),構(gòu)建1.3中的K陣,包括A陣、G陣、Gs陣、G0.5陣和H陣。G陣構(gòu)建參照VanRaden等[14],為防止G陣為奇異陣導(dǎo)致無法求逆,本研究中將G陣對(duì)角線元素均增加了0.01[15]。研究表明,使用G陣計(jì)算預(yù)測誤差相關(guān)系數(shù)r時(shí),r容易出現(xiàn)負(fù)值[16,17]。本研究通過將G陣中的負(fù)值替換為0,避免了r和CR方法結(jié)果出現(xiàn)負(fù)值。G陣構(gòu)建中需要每個(gè)標(biāo)記在基礎(chǔ)群體時(shí)的最小等位基因頻率,通常用當(dāng)前群體的最小等位基因頻率代替,G0.5矩陣將最小等位基因頻率均假設(shè)為0.5[18,19]。
為校正G陣中元素大小,使G陣與A陣尺度保持一致。本研究將G陣中的所有元素校正到給定的最小值和最大值的范圍之內(nèi),命名為Gs陣。Gs矩陣構(gòu)建方法如下:
其中Gsmax、Gsmin為給定的Gs矩陣的最大值和最小值,本研究分別設(shè)定為2和0,以模擬A陣中的最大值和最小值;Gmax、Gmin為G陣中的最大值和最小值;Gij為相應(yīng)的G陣元素。
本研究H陣構(gòu)建參照Legarra等[20],其中H陣中使用的G陣經(jīng)過了兩步校正,第一步校正參照Legarra等[20],生成一個(gè)新的矩陣Ga,保證G陣和A陣具有相同的尺度。由于基因型數(shù)據(jù)不能完全解釋基因組信息,賦予Ga陣和A陣不同的權(quán)重,生成新的Gw陣,最終用于H陣構(gòu)建。本研究Ga陣和A陣權(quán)重分別為0.95和0.05。
表1反映了基于模擬數(shù)據(jù),6種群體關(guān)聯(lián)估計(jì)方法和5種關(guān)系矩陣對(duì)群體關(guān)聯(lián)估計(jì)的影響。以模擬數(shù)據(jù)第5世代兩個(gè)亞群群體關(guān)聯(lián)結(jié)果為例,使用G陣相較于A陣能夠提高群體遺傳關(guān)聯(lián)。PEVD從1.65降至1.32,G0.5陣則進(jìn)一步使PEVD降低至0.9285?;贕s陣估計(jì)的PEVD高于G陣,但仍低于A陣,同時(shí)利用系譜和基因組信息的H陣PEVD與G陣接近。作為PEVD的擴(kuò)展,PEVD(x)和VED方法卻呈現(xiàn)了相反趨勢(shì),G、Gs、G0.5陣結(jié)果劣于A陣,基于A陣的PEVD(x)和VED過低,接近于0。由于受A陣影響,基于H陣的PEVD(x)和VED也很小,分別為0.002和0.004。G、Gs、G0.5矩陣PEVD(x)和VED在0.27~0.42間變化,G0.5最小,Gs最大。
對(duì)于r和CR,通過系譜數(shù)據(jù)計(jì)算兩個(gè)亞群遺傳關(guān)聯(lián)均為0,表明由于世代分隔較遠(yuǎn),兩個(gè)群體從系譜衡量已沒有遺傳聯(lián)系。但基于基因組信息的不同關(guān)系矩陣,r和CR結(jié)果均不為零,表明基因組數(shù)據(jù)能夠捕捉系譜中不存在的遺傳關(guān)聯(lián)。r和CR基于G和H很低,分別為(0.0008,0.0003)和(0.003,0.02),基于G0.5則高達(dá)0.75和0.91。r基于Gs由于出現(xiàn)負(fù)值導(dǎo)致不可計(jì)算,CR則與基于G陣接近。與r和CR相比,決定系數(shù)CD所有情況下都較高,在0.59~0.69之間,G陣高于A陣,Gs陣最高。對(duì)于大多數(shù)遺傳關(guān)聯(lián)估計(jì)方法,H陣結(jié)果均介于A陣與G陣之間。
表2反映了基于3家核心場的群體關(guān)聯(lián)估計(jì)方法和關(guān)系矩陣對(duì)群體關(guān)聯(lián)大小的影響。由于3個(gè)場之間沒有系譜聯(lián)系,沒有考慮綜合系譜和基因組信息的H矩陣。主成分分析表明3個(gè)群體在基因組信息上存在聯(lián)系,如圖1所示,養(yǎng)豬中心與北京六馬群體都為美系大白,遺傳背景較為接近,新疆天康和養(yǎng)豬中心群體分化最大。場間關(guān)聯(lián)結(jié)果也基本表明,大多數(shù)情況下養(yǎng)豬中心與北京六馬群體關(guān)聯(lián)更高些。在PEVD、PEVD(x)和VED三種方法中,由于沒有系譜聯(lián)系,基于A陣的PEVD最大,例外情況是,養(yǎng)豬中心與新疆天康之間的遺傳關(guān)聯(lián),基于G陣和Gs陣計(jì)算的PEVD高于A陣。所有情況下,G陣和Gs陣PEVD結(jié)果接近,基于G0.5的PEVD最小。與模擬數(shù)據(jù)結(jié)果類似,PEVD(x)和VED方法基于G、Gs、G0.5陣結(jié)果劣于A陣,基于A陣的PEVD(x)和VED為0.02~0.06,遠(yuǎn)低于G陣及其擴(kuò)展矩陣。在不同G陣結(jié)果中,G0.5陣PEVD(x)和VED最小,但對(duì)于養(yǎng)豬中心與新疆天康,G0.5陣PEVD(x)和VED高于G陣與Gs陣,所有情況下,G陣與Gs陣結(jié)果類似?;贏陣計(jì)算的3家核心場之間的預(yù)測誤差相關(guān)r和關(guān)聯(lián)率CR均為0,但決定系數(shù)CD較高,在0.55~0.67之間,與模擬數(shù)據(jù)結(jié)果反映的趨勢(shì)相似。使用基于基因組信息的G陣及其校正矩陣計(jì)算的r和CR都不為零,3個(gè)場基于G陣的 r均為0.01,CR分別為0.15、0.07和0.04。3個(gè)場基于Gs的r和CR與基于G陣接近,但3個(gè)場基于G0.5的r和CR很高,分別為(0.59,0.49,0.48)和(0.94,0.82,0.82)。同時(shí),3個(gè)場基于G、Gs、G0.5的CD值與基于A陣相差不大,在0.59~0.68之間變化。
表1中模擬數(shù)據(jù)結(jié)果表明兩個(gè)亞群經(jīng)過多個(gè)世代分離后,系譜上很難建立群體間遺傳聯(lián)系,但基因組信息仍能捕獲到群體間聯(lián)系。隨著世代增加,兩個(gè)亞群遺傳結(jié)構(gòu)差異會(huì)越來越大,群體間遺傳關(guān)聯(lián)也會(huì)減弱。如表3所示,隨著世代增加,所有群體關(guān)聯(lián)估計(jì)方法基于G陣結(jié)果均顯示群體間遺傳關(guān)聯(lián)程度不斷降低。PEVD、PEVD(x)和VED估計(jì)育種值預(yù)測誤差,從第5世代到第7世代,兩個(gè)亞群PEVD、PEVD(x)和VED逐漸增大,說明預(yù)測誤差變大。r和CR則從5世代的0.0008和0.0031逐漸下降至第7世代的0,說明隨著群體不斷分化,兩個(gè)群體之間的遺傳距離越來越遠(yuǎn)。與其他方法不同,CD變化幅度較小,僅從第5世代的0.6896減小到第7世代的0.6616。
表1 不同群體關(guān)聯(lián)估計(jì)方法基于關(guān)系矩陣A、G和H群體遺傳關(guān)聯(lián)匯總(模擬數(shù)據(jù)第5世代)
NaN表示因r分母中出現(xiàn)負(fù)值導(dǎo)致不可計(jì)算,表4同。
表2 3家豬育種場基于不同估計(jì)方法和關(guān)系矩陣A、G遺傳關(guān)聯(lián)匯總
圖1 3家核心場芯片數(shù)據(jù)主成分分析結(jié)果
PC1、PC2分別為第一和第二主成分,BBSC、BJLM、XJTC分別代表北京六馬、養(yǎng)豬中心及新疆天康3家國家生豬核心育種場。
表3 不同世代基于G陣的遺傳關(guān)聯(lián)變化情況
本研究采用模擬數(shù)據(jù)中第5世代數(shù)據(jù),通過設(shè)置不同的遺傳力大小(0.1、0.3、0.5和0.7),研究遺傳力大小對(duì)遺傳關(guān)聯(lián)統(tǒng)計(jì)量的影響。如表4所示。隨著性狀遺傳力從0.1增加到0.7,除了PEVD(x)方法基于A陣不同遺傳力下群體關(guān)聯(lián)值保持為0.0003不變之外,使用不同關(guān)系矩陣A、G、和H計(jì)算PEVD、PEVD(x)和VED均不斷降低。CD基于不同關(guān)系矩陣的值也是隨著遺傳力變大而變大,r和CR基于A陣的值在不同遺傳力水平下為0,它們基于G陣隨遺傳力變大而變大,但CR基于G陣變化幅度較小。從表4也可以看出,當(dāng)遺傳力為0.3~0.7時(shí),在相同遺傳力水平下,PEVD基于G陣優(yōu)于A陣,H陣介于兩者之間;對(duì)低遺傳力0.1,A陣最優(yōu),G陣最差。CD也呈現(xiàn)與PEVD相同的現(xiàn)象。PEVD(x)、VED則是所有遺傳力水平下,基于G陣的值最大,分別在0.22~0.4和0.22~0.42之間變動(dòng),遠(yuǎn)遠(yuǎn)大于基于A陣和H陣的0.0003~0.0095和0.0006~0.0063和0.001~0.012。
表4雖然說明隨著遺傳力變大,PEVD、PEVD(x)和VED減小,CD、r、CR變大,但不意味著群體關(guān)聯(lián)增強(qiáng)。
表5表示不同遺傳力水平下群體內(nèi)PEVD變化情況,所有關(guān)系矩陣群體內(nèi)PEVD值幾乎均隨著遺傳力的增加而降低??梢钥闯觯后w內(nèi)PEVD變化趨勢(shì)與群體間PEVD一致。群體內(nèi)個(gè)體之間的遺傳關(guān)聯(lián)程度遠(yuǎn)高于群體間個(gè)體之間,這表明無論個(gè)體間有無實(shí)質(zhì)遺傳關(guān)聯(lián),提高遺傳力水平對(duì)于PEVD均有類似的降低作用。因此,由于高遺傳力造成的PEVD的降低,不能說明群體間關(guān)聯(lián)程度有提高。
表4 不同遺傳力水平下各群體關(guān)聯(lián)估計(jì)方法基于關(guān)系矩陣A、G和H結(jié)果匯總
表5 不同遺傳力水平下群體內(nèi)個(gè)體關(guān)聯(lián)均值(基于PEVD)
通過系譜數(shù)據(jù)估計(jì)群體遺傳關(guān)聯(lián)程度時(shí),一個(gè)常見的問題是系譜不全或存在錯(cuò)誤,或者無法從系譜中追溯聯(lián)系。本研究表明,使用基因組數(shù)據(jù)能夠捕捉系譜中不存在的、由更久遠(yuǎn)的共同祖先導(dǎo)致的個(gè)體間遺傳關(guān)聯(lián)。即使根據(jù)系譜能夠建立群體關(guān)聯(lián),與基于系譜構(gòu)建的A矩陣相比,基因組數(shù)據(jù)可以更加準(zhǔn)確地估計(jì)個(gè)體間親緣關(guān)系[10],提高群體關(guān)聯(lián)估計(jì)準(zhǔn)確性。本研究模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)結(jié)果都顯示,大部分遺傳關(guān)聯(lián)估計(jì)方法基于高密度SNP標(biāo)記建立的個(gè)體親緣關(guān)系矩陣都優(yōu)于基于A矩陣。這與Yu等[16]、Zhang等[17]研究結(jié)果一致,說明利用SNP標(biāo)記估計(jì)群體關(guān)聯(lián)更有優(yōu)勢(shì)。
PEVD(x)和VED方法為PEVD方法的近似估計(jì)方法,這兩種方法相比于PEVD方法計(jì)算簡單,但本研究模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)結(jié)果表明,相同條件下PEVD(x)和VED均小于PEVD (表1,表2),PEVD(x)和VED 基于G、Gs、G0.5及H陣結(jié)果劣于A陣,基于A陣的PEVD(x)和VED過低,接近于0 (表1,表2),說明兩個(gè)群體個(gè)體間育種值預(yù)測誤差很小,這與實(shí)際情況有很大偏離。而且,當(dāng)遺傳力從0.1提高到0.7,PEVD(x)方法基于A陣一直保持為0.0003,但基于G陣卻在變小(表4),說明PEVD(x)和VED不是理想的度量群體關(guān)聯(lián)的方法。
PEVD及其近似估計(jì)方法的一個(gè)缺點(diǎn)是取值沒有范圍,如表1和表2所示,模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)估計(jì)值差異很大,因此難以判斷遺傳關(guān)聯(lián)程度。另外PEVD容易受到群體大小和結(jié)構(gòu)的影響,例如兩個(gè)群體基于背膘厚性狀計(jì)算得到的PEVD為0.8 mm,這個(gè)結(jié)果對(duì)于兩個(gè)大群體而言可能表示關(guān)聯(lián)程度較差,但是對(duì)于兩個(gè)小群體可能表示關(guān)聯(lián)程度較好[7]。CD、r和CR方法取值范圍在0~1之間,可以比較好度量群體關(guān)聯(lián)。但是CD值即使系譜上不存在遺傳聯(lián)系仍然很高,而CR和r為0 (表1,表2)。當(dāng)估計(jì)養(yǎng)豬中心和新疆天康群體關(guān)聯(lián)時(shí),CD基于A陣最高(表2),與其他統(tǒng)計(jì)量不太一樣,表明CD容易高估群體關(guān)聯(lián)程度。統(tǒng)計(jì)量r大多數(shù)情況下低于CR,但是在實(shí)際數(shù)據(jù)中,不能準(zhǔn)確反映群體間的實(shí)際群體關(guān)聯(lián)。當(dāng)用r度量養(yǎng)豬中心、北京六馬和新疆天康3個(gè)群體間遺傳關(guān)聯(lián)時(shí),基于G陣的r值均為0.1,區(qū)分不出群體的分化遠(yuǎn)近。而養(yǎng)豬中心–北京六馬、北京六馬–新疆天康、養(yǎng)豬中心–新疆天康基于G陣的CR分別為0.15、0.07、0.04,能很好說明群體之間的遺傳關(guān)聯(lián)情況。越來越多研究表明,CR可以作為衡量群體關(guān)聯(lián)程度的穩(wěn)定方法[21],MATHUR等[22]利用加拿大育種數(shù)據(jù)進(jìn)行分析,結(jié)果顯示場間平均遺傳關(guān)聯(lián)CR大于等于0.03時(shí)開展聯(lián)合遺傳評(píng)估效果較好。這表明雖然通過系譜無法開展3個(gè)核心場間的聯(lián)合遺傳評(píng)估,但是可以開展基于基因組信息的基因組聯(lián)合評(píng)估,如北京地區(qū)的大白豬基因組聯(lián)合育種[23]。而且與PEVD相比,CR不需要進(jìn)行個(gè)體間兩兩匹配求均值,計(jì)算簡單,并且可以同時(shí)估計(jì)多個(gè)群體之間的遺傳關(guān)聯(lián)程度。
基于SNP標(biāo)記構(gòu)建的個(gè)體關(guān)系矩陣可以更真實(shí)反映個(gè)體間親緣關(guān)系,但是要求每個(gè)標(biāo)記的等位基因頻率為基礎(chǔ)群體的,這個(gè)不易獲得,所以通常用當(dāng)前群體的等位基因頻率代替。因此除了經(jīng)典的G陣,還有其他方法來解決等位基因頻率問題,如Gs和G0.5。本研究表明,基于G陣與Gs陣的各種遺傳關(guān)聯(lián)估計(jì)方法結(jié)果比較接近,G0.5過于高估群體間遺傳關(guān)聯(lián)。當(dāng)用CR度量模擬數(shù)據(jù)兩個(gè)亞群和實(shí)際數(shù)據(jù)3個(gè)核心場間遺傳關(guān)聯(lián)時(shí),基于A陣的群體關(guān)聯(lián)都為0,說明群體間聯(lián)系很弱,基于G陣與Gs的模擬數(shù)據(jù)亞群分別為0.0031和0.0035,但基于G0.5則高達(dá)0.91;3個(gè)核心場間基于G陣與Gs均為0.15、0.07和0.04,而基于G0.5則為0.94、0.82和0.82。G0.5陣假定所有標(biāo)記的最小等位基因頻率均為0.5,此假設(shè)過于理想,既無法反映基礎(chǔ)群體的情況,也無法反映當(dāng)前群體的真實(shí)情況,從而導(dǎo)致遺傳關(guān)聯(lián)結(jié)果出現(xiàn)較大偏差。因此,G0.5陣不適合用于評(píng)估群體遺傳關(guān)聯(lián)。
本研究中H陣結(jié)果一般介于A陣和G陣之間,這與Yu等研究結(jié)果相同[16]。H陣由A陣和G陣混合而成,因此使用H陣估計(jì)遺傳關(guān)聯(lián)結(jié)果一般優(yōu)于僅使用系譜數(shù)據(jù)結(jié)果,而當(dāng)大部分個(gè)體均有基因組數(shù)據(jù)時(shí),H陣遺傳關(guān)聯(lián)結(jié)果提升幅度可能低于G陣。
本研究設(shè)定了高、中、低4種遺傳力水平檢驗(yàn)其對(duì)群體關(guān)聯(lián)估計(jì)方法影響。大多數(shù)情況下,群體關(guān)聯(lián)統(tǒng)計(jì)量會(huì)隨著遺傳力升高而改善,但就像群體內(nèi)個(gè)體遺傳關(guān)聯(lián)也呈現(xiàn)相同變化一樣(表5),不能說明群體間關(guān)聯(lián)程度有提高。遺傳力升高會(huì)提高育種值估計(jì)準(zhǔn)確性,降低了育種值預(yù)測誤差,因而改善了相應(yīng)的群體關(guān)聯(lián)統(tǒng)計(jì)量。因此,在育種實(shí)踐中,遺傳力不同的性狀估計(jì)的遺傳關(guān)聯(lián)結(jié)果之間缺乏可比性。另外,本研究發(fā)現(xiàn),低遺傳力(0.1)情況下,基于A陣的PEVD優(yōu)于G陣,與大多數(shù)情況下G陣優(yōu)于A陣相反,說明低遺傳力性狀不太適合用來估計(jì)群體遺傳關(guān)聯(lián)。
[1] Mathur PK, Sullivan BP, Chesnais JP. Measuring conne-ctedness: concept and application to a large industry breeding program., 2002, 19: 23.
[2] Zhang JX, Zhang SY, Qiu XT, Gao H, Wang CC, Wang Y, Zhang Q, Wang ZG, Yang HJ, Ding XD. The genetic connectedness of duroc, landrace and yorkshire pigs in China., 2017, 48(9): 1591–1601.張金鑫, 張鎖宇, 邱小田, 高虹, 王長存, 王源, 張勤, 王志剛, 楊紅杰, 丁向東. 我國杜洛克、長白和大白豬場間遺傳聯(lián)系分析. 畜牧獸醫(yī)學(xué)報(bào), 2017, 48(9): 1591– 1601.
[3] Gao H, Qiu XT, Wang CC, Zhang JX, Zhang SY, Wang Y, Zhang Q, Wang ZG, Yang HJ, Ding XD. The regional joint genetic evaluation of duroc, landrace and yorkshire pigs in China., 2018, 49(12): 2567–2575.高虹, 邱小田, 王長存, 張金鑫, 張鎖宇, 王源, 張勤, 王志剛, 楊紅杰, 丁向東. 我國杜洛克、長白、大白豬區(qū)域性聯(lián)合遺傳評(píng)估研究. 畜牧獸醫(yī)學(xué)報(bào), 2018, 49(12): 2567–2575.
[4] Kennedy BW, Trus D. Considerations on genetic conne-ctedness between management units under an animal model., 1993, 71(9): 2341.
[5] Lalo? D. Precision and information in linear models of genetic evaluation., 1993, 25(6): 557–576.
[6] Lewis RM, Crump RE, Simm G,Thompson R. Assessing connectedness in across-flock genetic evaluations. In: Proceedings of the British Society of Animal Science. Scarborough, 22–24 March, 1999, 121–122.
[7] Mathur PK, Sullivan B, Chesnais J. Estimation of the degree of connectedness between herds or management groups in the canadian swine population. 2002.
[8] Wang AG, Laloe D, Schaeffer LR. Measures of genetic connectedness between herds in swine under mixed linear models., 2000, 22(5): 295–297.王愛國,Laloe D.,Schaeffer LR. 混合線性模型下豬群間遺傳聯(lián)系的度量. 遺傳, 2000, 22(5): 295–297.
[9] Muir WM. Comparison of genomic and traditional BLUP- estimated breeding value accuracy and selection response under alternative trait and genomic parameters., 2007, 124(6): 342–355.
[10] Daetwyler HD, Villanueva B, Bijma P, Woolliams JA. Inbreeding in genome-wide selection., 2007, 124(6): 369–376.
[11] Calus MPL, Meuwissen THE, de Roos APW, Veerkamp RF. Accuracy of genomic selection using different methods to define haplotypes., 2008, 178(1): 553–561.
[12] Zhang Z, Li X, Ding X, Li J, Zhang Q. GPOPSIM: a simulation tool for whole-genome genetic data., 2015, 16(1): 1–6.
[13] Browning BL, Browning SR. A unified approach to genotype imputation and haplotype-phase inference for large data sets of trios and unrelated individuals., 2009, 84(2): 210–223.
[14] Vanraden PM. Efficient methods to compute genomic predictions., 2008, 91(11): 4414–4423.
[15] Fernando RL, Cheng H, Garrick DJ. An efficient exact method to obtain GBLUP and single-step GBLUP when the genomic relationship matrix is singular., 2016, 48(1): 80.
[16] Yu H, Spangler ML, Lewis RM. Genomic relatedness strengthens genetic connectedness across management units., 2017, 7(10): 3543–3556.
[17] Zhang SY, Olasege BS, Liu DY, Wang QS, Pan YC, Ma PP. The genetic connectedness calculated from genomic information and its effect on the accuracy of genomic prediction., 2018, 13(7): e0201400.
[18] Toro MA, García-Cortés LA, Legarra A. A note on the rationale for estimating genealogical coancestry from molecular markers., 2011, 43(1): 1–10.
[19] Vitezica ZG, Aguilar I, Misztal I, Legarra A. Bias in genomic predictions for populations under selection.,2011, 93(5): 357–366.
[20] Legarra A, Aguilar I, Misztal I. A relationship matrix including full pedigree and genomic information.,2009, 92(9): 4656–4663.
[21] Zhang Q, Ding XD, Chen YS. Development and App-lication of Swine Genetic Evaluation System in China., 2015, 51(08): 61–65.張勤, 丁向東, 陳瑤生. 種豬遺傳評(píng)估技術(shù)研發(fā)與評(píng)估系統(tǒng)應(yīng)用. 中國畜牧雜志, 2015, 51(08): 61–65.
[22] Mathur PK, Ssllivan BP, Chesnais JP. Measuring connectedness: concept and application to a large industry breeding program. In: Proceedings of 7th world congress on genetics applied to livestock production. Montpellier, 19–23 August, 2002.
[23] Zhang JX, Tang SQ, Song HL, Gao H, Jiang Y, Jiang YF, Mi SR, Meng QL, Yu F, Xiao W, Yun P, Zhang Q, Ding XD. Joint genomic selection of Yorkshire in Beijing., 2019, 52(12): 2161–2170.張金鑫, 唐韶青, 宋海亮, 高虹, 蔣堯, 江一凡, 彌世榮, 孟慶利, 于凡, 肖煒, 云鵬, 張勤, 丁向東. 北京地區(qū)大白豬基因組聯(lián)合育種研究. 中國農(nóng)業(yè)科學(xué), 2019, 52(12): 2161–2170.
Measuring genetic connectedness between herds based on high density SNP markers
Ziwen Zhou, Xue Wang, Xiangdong Ding
The accuracy of genetic evaluations in different herds is affected by the degree of genetic connectedness among herds. In this study, we explored the application of high density SNP markers in the assessment of genetic connectedness by comparing the genetic connectedness based on pedigree data and genomic data. Six methods, including PEVD (prediction error variance of differences between estimated breeding values), PEVD (x), VED (variance of estimated difference between the herd effects), CD (generalized coefficient of determination), r (prediction error correlation) and CR (connectedness rating), were implemented to measure the genetic connectedness based on different relationship matrices (A, G, Gs, G0. 5and H). Our results from both simulated data and SNP chip data indicated that, except for the PEVD (x) and VED methods, the genetic connectedness obtained by PEVD, CD, r and CR based on G. Gsand G0.5matrices (using genome information only) were superior to those based on A matrix (using pedigree information only). Generally, for most approaches, the genetic connectedness based on H matrix (using both pedigree and genome information) was somewhere between A matrix and G matrices. CD could overestimate the degree of genetic connectedness as it was still very high when CR and r were close to 0. The method r could not accurately reflect the true genetic connectedness of the populations. It generated 0.01 of genetic connectedness for all three pig breeding farms, which were actually genetically different with each other. With increasing of heritability, the degree of genetic connectedness obtained by all methods were increased as well. However, in the case of heritability 0.1, PEVD based on A matrix performed better than based on G matrix, suggesting that traits with medium and high heritability are more suitable for the assessment of genetic connectedness compared to traits with low heritability. Our findings indicated that high-density SNP markers have advantages over pedigree analysis for the measurement of genetic connectedness, and CR is a robust and reliable method to assess genetic connectedness. Further, CR is easily calculated and less affected by heritability of trait. PEVD is good supplement to quantify the prediction errors of estimated breeding values under the specific genetic connectedness. In comparison, G matrix can reflect genetic connectedness better than its extensions Gsand G0.5matrix.
swine; genetic connectedness; pedigree; genome; relationship matrix
2020-10-19;
2021-02-17
國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系項(xiàng)目(編號(hào):CARS-35),國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(編號(hào):2019YFE0106800)和河北省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(編號(hào):19226376D)資助[Supported by China Agriculture Research System (No. CARS-35), the National Key Research and Development Project (No. 2019YFE0106800) and Modern Agriculture Science and Technology Key Project of Hebei Province (No. 19226376D)]
周子文,在讀碩士研究生,專業(yè)方向:動(dòng)物遺傳育種。E-mail: zhouzw834@163.com
丁向東,博士,副教授,研究方向:豬遺傳育種和統(tǒng)計(jì)遺傳學(xué)。E-mail: xding@cau.edu.cn
10.16288/j.yczz.20-351
2021/3/29 16:45:30
URI: https://kns.cnki.net/kcms/detail/11.1913.r.20210326.1346.004.html
(責(zé)任編委: 李明洲)