張靜靜,高會(huì)江,吳 洋,朱 波,齊 欣,高 雪,張路培,陳 燕*
(1.吉林農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,長(zhǎng)春 130118; 2.中國(guó)農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193)
?
利用SNP標(biāo)記估計(jì)西門(mén)塔爾牛親緣關(guān)系系數(shù)的準(zhǔn)確性
張靜靜1,2,高會(huì)江2,吳洋2,朱波2,齊欣2,高雪2,張路培2,陳燕2*
(1.吉林農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,長(zhǎng)春 130118; 2.中國(guó)農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193)
摘要:本研究旨在利用SNP標(biāo)記估計(jì)西門(mén)塔爾牛親緣關(guān)系系數(shù),以期準(zhǔn)確確定估計(jì)個(gè)體間親緣關(guān)系系數(shù)所需的SNPs數(shù)量。研究以1 059頭出生于2008-2012年的西門(mén)塔爾牛為試驗(yàn)群體,利用Illumina bovineHD(770 k)芯片,根據(jù)最小等位基因頻率(MAF)區(qū)間,分別選擇100、500、1 000、1 500、2 000、2 500和3 000 個(gè)SNPs用于個(gè)體間親緣關(guān)系系數(shù)的估計(jì)。結(jié)果顯示,隨著標(biāo)記數(shù)目的增多,估計(jì)的親緣關(guān)系系數(shù)準(zhǔn)確性逐漸增加。且當(dāng)SNP標(biāo)記數(shù)目達(dá)到2 500時(shí),所估計(jì)的親緣關(guān)系系數(shù)與利用所有標(biāo)記估計(jì)的個(gè)體間親緣關(guān)系系數(shù)差異不顯著,二者相關(guān)系數(shù)達(dá)到0.89 以上。同時(shí),利用不同等位基因頻率區(qū)間內(nèi)標(biāo)記估計(jì)的個(gè)體間親緣關(guān)系系數(shù)差異不顯著。由此可以看出,當(dāng)所選標(biāo)記數(shù)目達(dá)到2 500以上時(shí),可以得到較高的親緣關(guān)系系數(shù)估計(jì)準(zhǔn)確性。本研究為基于SNP標(biāo)記信息估計(jì)親緣關(guān)系系數(shù)的進(jìn)一步研究提供了理論基礎(chǔ),同時(shí)為西門(mén)塔爾牛群體個(gè)體間親緣關(guān)系的研究提供依據(jù)。
關(guān)鍵詞:西門(mén)塔爾牛;親緣關(guān)系系數(shù);SNP;最小等位基因頻率
肉牛遺傳評(píng)估工作的核心內(nèi)容就是育種值估計(jì)。而在眾多的育種值估計(jì)的方法中,最佳線性無(wú)偏預(yù)測(cè)(Best Linear Unbiased Prediction,BLUP)仍是最為有效和使用最為廣泛的方法。其通過(guò)構(gòu)建個(gè)體間的遺傳關(guān)系矩陣來(lái)完成個(gè)體育種值的估計(jì)。BLUP方法的優(yōu)勢(shì)在于能夠充分利用個(gè)體之間的相關(guān)信息,即通過(guò)系譜信息構(gòu)建的加性遺傳關(guān)系矩陣(A matrix)來(lái)反映個(gè)體間的遺傳相關(guān)關(guān)系并估計(jì)育種值。然而在實(shí)際生產(chǎn)過(guò)程中,因?yàn)橥嬖谥底V錯(cuò)誤、缺失和近交等問(wèn)題,A陣可能有較低的準(zhǔn)確性[1]。而且這種只通過(guò)系譜資料所獲得的遺傳相關(guān)關(guān)系只是親緣關(guān)系的期望值,而真實(shí)的遺傳相關(guān)關(guān)系會(huì)由于孟德?tīng)柍闃诱`差而與期望值有所偏差[2]。
近年來(lái),育種技術(shù)的不斷發(fā)展使我國(guó)肉牛業(yè)取得了長(zhǎng)足的進(jìn)步。但是與發(fā)達(dá)國(guó)家相比,我國(guó)肉牛產(chǎn)業(yè)仍然處于初級(jí)階段。公牛遺傳評(píng)估技術(shù)的落后更是制約我國(guó)肉牛業(yè)發(fā)展的一個(gè)重要問(wèn)題。錯(cuò)誤的系譜信息將在很大程度上降低公牛遺傳評(píng)估的準(zhǔn)確性,進(jìn)而降低群體的遺傳進(jìn)展。為降低系譜錯(cuò)誤對(duì)育種帶來(lái)的不利影響,提高育種值估計(jì)的準(zhǔn)確性,進(jìn)而加快我國(guó)肉牛的遺傳進(jìn)展,建立完整、準(zhǔn)確的系譜信息顯得尤為重要。而準(zhǔn)確系譜信息的建立除嚴(yán)格的生產(chǎn)管理制度外,更有賴于個(gè)體間親緣關(guān)系的估計(jì)。
在過(guò)去的十年里,對(duì)利用分子標(biāo)記估計(jì)親緣關(guān)系進(jìn)行了很廣泛的研究,出現(xiàn)了很多新方法以及軟件[3-5]。多項(xiàng)研究表明,分子標(biāo)記如微衛(wèi)星和SNP是檢驗(yàn)和鑒定親子關(guān)系的有效工具[6]。 SNP標(biāo)記信息也被用于估計(jì)群體中個(gè)體之間的親緣關(guān)系[7-8]。此外,研究還表明,有限的SNPs標(biāo)記數(shù)目是限制親緣關(guān)系估計(jì)準(zhǔn)確性的主要瓶頸[9]。隨著高通量測(cè)序和高密度基因分型芯片的快速發(fā)展,數(shù)以千計(jì)的SNPs信息都能快速獲得,進(jìn)一步提高了分子標(biāo)記在估計(jì)親緣關(guān)系上的適用性。P.M.Vanraden首次提出了基于高密度SNP芯片獲得的SNPs信息估計(jì)親緣關(guān)系矩陣(Genomic Relationship Matrix,通常稱為G陣),它可以代替A陣進(jìn)行基因組育種值的估計(jì)[10]。結(jié)果表明,系譜缺陷和孟德?tīng)柍闃诱`差等因素導(dǎo)致了A陣估計(jì)不準(zhǔn)確,而利用高通量的SNP標(biāo)記估計(jì)的G陣更接近于真實(shí)的個(gè)體間遺傳相關(guān)關(guān)系[11-12]。
另一方面,新的高通量基因分型技術(shù)的快速發(fā)展和高密度SNP芯片的出現(xiàn)產(chǎn)生了海量數(shù)據(jù),也帶來(lái)了高額的檢測(cè)費(fèi)用以及復(fù)雜的計(jì)算方法。為降低基因分型檢測(cè)成本、節(jié)約計(jì)算時(shí)間,從高密度SNP標(biāo)記中篩選高信息度的標(biāo)記,用于估計(jì)個(gè)體親緣關(guān)系受到眾多研究者和育種家的關(guān)注。在豬的研究中,M.S.Lopes等研究表明需要至少有2 000 個(gè)SNPs標(biāo)記用來(lái)估計(jì)遺傳關(guān)系矩陣[13]。在牛的研究中,M.M.Rolf等研究發(fā)現(xiàn)利用2 500~10 000個(gè)標(biāo)記時(shí)就能獲得較高的親緣關(guān)系估計(jì)準(zhǔn)確性[14]。
本研究以西門(mén)塔爾牛為研究群體,使用Illumina bovineHD(770 k)牛高密度SNP芯片,依據(jù)不同的標(biāo)記密度和最小等位基因頻率(MAF),分別選擇100、500、1 000、1 500、2 000、2 500和3 000個(gè)標(biāo)記,估計(jì)個(gè)體間親緣關(guān)系系數(shù),并比較其準(zhǔn)確性,以期優(yōu)化標(biāo)記選擇方法和確定準(zhǔn)確估計(jì)親緣關(guān)系系數(shù)所需SNPs的數(shù)量。
1材料與方法
1.1試驗(yàn)材料
本研究的試驗(yàn)群體來(lái)自中國(guó)農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所牛遺傳育種研究室在內(nèi)蒙古烏拉蓋地區(qū)構(gòu)建的西門(mén)塔爾牛資源群體。試驗(yàn)動(dòng)物選自出生于2008~2012年的1 087頭西門(mén)塔爾公牛,詳細(xì)情況見(jiàn)表1。
表1西門(mén)塔爾牛出生年分布
Table 1Birth year distribution for the genotyped Simmental cattle
1.2基因型數(shù)據(jù)處理
試驗(yàn)群體使用了Illumina bovineHD(770 k)芯片進(jìn)行全基因組基因型測(cè)定,該芯片包含777 962個(gè)SNPs位點(diǎn)。在分析之前,所有SNP均進(jìn)行質(zhì)量控制,去除SNP檢出率<95%、最小等位基因頻率(Minor allele frequency,MAF)<1%、極端不符合哈代-溫伯格平衡檢驗(yàn)P<10-6以及沒(méi)有染色體位置信息的SNP位點(diǎn)和個(gè)體檢出率<90%的個(gè)體。質(zhì)量控制主要是利用PLINK軟件[15]完成。運(yùn)行命令如下:plink-cow—file filename—maf0.01—geno0.01—mind0.1—hwe0.000001-recode12-out filename。
1.3SNP的不同篩選方法
本研究中采用在3種不同MAF區(qū)間(0.01~0.2,0.2~0.4和0.4~0.5)中等距離篩選多個(gè)標(biāo)記密度形成分析數(shù)據(jù)集。標(biāo)記數(shù)目方面分為7個(gè)密度梯度等級(jí),分別為100、500、1 000、1 500、2 000、2 500和3 000個(gè)。然后,將不同MAF區(qū)域篩選的不同密度梯度的標(biāo)記信息用于估計(jì)個(gè)體之間親緣關(guān)系系數(shù)及它們的準(zhǔn)確性,每組重復(fù)100次,并進(jìn)行t檢驗(yàn)評(píng)價(jià)準(zhǔn)確性之間是否存在差異。以上工作,均是利用R語(yǔ)言自編程序計(jì)算完成。
1.4連鎖不平衡程度(LD)的計(jì)算
連鎖不平衡程度(LD)的計(jì)算已有多種不同的方法,每一個(gè)都有不同的統(tǒng)計(jì)效用,其中以D′[16]和r2[17]最為常用。但是r2對(duì)基因頻率和有效群體大小的變化不敏感[18],被廣泛認(rèn)為更加穩(wěn)健并且是描述LD水平更好的參數(shù)。本研究采用r2作為L(zhǎng)D的衡量指標(biāo)[19]。
假定有兩個(gè)位點(diǎn),A和B,每個(gè)位點(diǎn)分別有兩個(gè)等位基因,A1,A2和B1,B2。其等位基因頻率分別用PA1,PA2,PB1,PB2表示。用P11,P12,P21和P22指代單倍型A1B1,A1B2,A2B1和A2B2的頻率。計(jì)算這種連鎖不平衡的方法:
本研究運(yùn)用PLINK[15]軟件(http://pngu.mgh.harvard.edu/~purcell/plink/)計(jì)算各子集中SNP之間的r2。
1.5親緣關(guān)系系數(shù)的計(jì)算
把上下代個(gè)體間和同世代個(gè)體間的親緣關(guān)系稱為親緣相關(guān)或血緣相關(guān),有時(shí)也稱為個(gè)體間的遺傳相關(guān)。本研究使用J.Yang 等[20]提出的利用個(gè)體間基因組親緣關(guān)系系數(shù)的算法計(jì)算親緣關(guān)系系數(shù),公式:
其中,i為第i個(gè)SNP位點(diǎn),j為第j個(gè)個(gè)體,k為第k個(gè)個(gè)體,N為SNP位點(diǎn)總數(shù),Pi為第i個(gè)位點(diǎn)等位基因頻率。Xij對(duì)應(yīng)aa、Aa、AA基因型取0、1、2。
本研究使用 770 k SNP計(jì)算的親緣系數(shù)和篩選SNP計(jì)算的親緣系數(shù)的相關(guān)系數(shù)來(lái)表示準(zhǔn)確性,公式:
其中,r為準(zhǔn)確性,Kin1為使用所有標(biāo)記計(jì)算的親緣系數(shù),Kin2為使用抽取的標(biāo)記計(jì)算的親緣系數(shù)。
2結(jié)果
2.1數(shù)據(jù)質(zhì)控
數(shù)據(jù)詳細(xì)的質(zhì)控情況見(jiàn)表2。經(jīng)過(guò)質(zhì)控后共得到682 259 個(gè)SNPs位點(diǎn)和1 059個(gè)體用于下一步的分析。質(zhì)量控制前后SNP位點(diǎn)在各染色體上的分布情況如圖1所示,從圖中可以看出不合格SNP位點(diǎn)數(shù)在各條染色體上所占比例相當(dāng)。圖2表示的是用于本研究群體中SNPs最小等位基因頻率分布,從圖中可以看出,全部SNPs的MAF分布均勻。此群體的平均MAF為0.24。
表2SNPs質(zhì)量控制統(tǒng)計(jì)
Table 2SNPs quality control statistic
2.2親緣關(guān)系系數(shù)分析
本研究在3個(gè)MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2),分別選取100、500、1 000、1 500、2 000、2 500和3 000個(gè)標(biāo)記,總計(jì)獲得了21個(gè)SNP子集的數(shù)據(jù)。圖3展示了在3個(gè)MAF區(qū)間內(nèi)的標(biāo)記數(shù)目分布。統(tǒng)計(jì)了選取的每一個(gè)SNP子集中相鄰SNP間的連鎖不平衡程度r2值(表3)。隨著標(biāo)記數(shù)目增多,SNP之間的連鎖程度加大。其中,在選取3 000個(gè)來(lái)自于MAF區(qū)間(0.01~0.2)的SNP有最大的r2值,連鎖程度最高。在研究中將所篩選的不同密度梯度的標(biāo)記信息用于估計(jì)個(gè)體之間的親緣關(guān)系系數(shù),并和使用所有標(biāo)記獲得的親緣系數(shù)計(jì)算相關(guān)性。
對(duì)質(zhì)控后的1 059頭西門(mén)塔爾公牛使用所有682 259個(gè) SNPs估計(jì)個(gè)體間的親緣系數(shù),得到群體的親緣系數(shù)平均值為0.09,標(biāo)準(zhǔn)差為0.07。此外,對(duì)21個(gè)SNPs子集進(jìn)行了親緣系數(shù)估計(jì),所得結(jié)果顯示,當(dāng)所選標(biāo)記數(shù)目為N=3 000時(shí),通過(guò)3種MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2)篩選標(biāo)記計(jì)算的西門(mén)塔爾公牛個(gè)體間親緣關(guān)系系數(shù)與所有SNP數(shù)據(jù)計(jì)算的親緣系數(shù)有最高的相關(guān)性,分別為0.94±0.001(P=0.792)、0.94±0.001(P=0.339)和0.90±0.004(P=0.693),親緣系數(shù)分別為0.08、0.08和0.06。
表3相鄰標(biāo)記間的連鎖不平衡程度統(tǒng)計(jì)
Table 3Extent of linkage disequilibrium between 2 adjacent SNPs
表中所列數(shù)值為r2的平均值±標(biāo)準(zhǔn)誤
Values listed in the table as the mean ± standard error ofr2
圖4列出了3種MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2)下,不同SNP標(biāo)記數(shù)目所得親緣系數(shù)與所有SNP數(shù)據(jù)計(jì)算的親緣系數(shù)相關(guān)性的盒圖。從圖中可以看出,當(dāng)所選標(biāo)記為100時(shí),3種篩選方法所得準(zhǔn)確性均表現(xiàn)最低,分別為0.45±0.007(P=0.834),0.44±0.007(P=0.963)和0.43±0.023(P=0.680)。當(dāng)標(biāo)記數(shù)目從100逐漸增加至1 500時(shí),親緣系數(shù)的相關(guān)性隨著標(biāo)記數(shù)目增加顯著增加,之后增加的趨勢(shì)減緩。且可以看出在標(biāo)記數(shù)目為100時(shí),親緣系數(shù)的相關(guān)性有較大的波動(dòng)。但是,選自0.4~0.5和0.2~0.4 MAF區(qū)間的標(biāo)記,隨著其數(shù)目增加,從圖中可以看出親緣系數(shù)的相關(guān)性非常穩(wěn)定,而來(lái)自0.01~0.2區(qū)間標(biāo)記,其相關(guān)性還是有明顯的波動(dòng)。
圖5表示的是不同標(biāo)記數(shù)目下,不同MAF區(qū)間所得親緣系數(shù)的準(zhǔn)確性。從圖中可以得到,SNP選自MAF 0.4~0.5和0.2~0.4,親緣關(guān)系相關(guān)系數(shù)增長(zhǎng)趨勢(shì)一致,且基本吻合。SNP選自MAF 0.01~0.2,親緣系數(shù)準(zhǔn)確性也是保持增長(zhǎng)趨勢(shì),但是增長(zhǎng)速度相對(duì)較低。
綜上所述,我們可知選擇最小等位基因頻率大于0.2且不連鎖的SNP,在數(shù)目達(dá)到2 500個(gè)時(shí)親緣系數(shù)的估計(jì)值有高的準(zhǔn)確性(相關(guān)系數(shù)大于0.89)。
3討論
隨著高通量測(cè)序和基因分型技術(shù)的出現(xiàn),利用SNP標(biāo)記構(gòu)建基因組親緣關(guān)系矩陣(G陣)來(lái)替代傳統(tǒng)的加性遺傳矩陣已經(jīng)展開(kāi)了大量的研究[10,12,21-22]。本研究在不同最小等位基因頻率區(qū)間內(nèi)隨機(jī)抽取7個(gè)標(biāo)記密度(N=100、500、1 000、1 500、2 000、2 500和3 000)的SNPs,用于群體內(nèi)個(gè)體間親緣系數(shù)的計(jì)算。研究結(jié)果表明,標(biāo)記位點(diǎn)的最小等位基因頻率對(duì)個(gè)體間親緣關(guān)系系數(shù)的計(jì)算有一定的影響,且在標(biāo)記數(shù)目達(dá)到2 500時(shí)估計(jì)的親緣系數(shù)有高的準(zhǔn)確性。
3.1SNP的篩選
本研究中,將標(biāo)記位點(diǎn)的最小等位基因分為3個(gè)區(qū)間,區(qū)間內(nèi)位點(diǎn)隨機(jī)抽取,并沒(méi)有考慮位點(diǎn)之間是否關(guān)聯(lián)。但是,當(dāng)標(biāo)記密度足夠大的時(shí)候標(biāo)記之間存在連鎖不平衡狀態(tài),它們并不能完全獨(dú)立分離的傳遞給下一代。在遺傳信息傳遞過(guò)程中,每個(gè)子代總是精確的遺傳來(lái)自雙親常染色體遺傳物質(zhì)的一半。但對(duì)位于X染色體上的遺傳信息而言,它的傳遞往往與性別有關(guān),這就使得在計(jì)算親緣關(guān)系系數(shù)時(shí),位于X染色體上的SNP標(biāo)記信息將能更有效的估計(jì)出雌性個(gè)體間的親緣相關(guān)關(guān)系,對(duì)雄性間的親緣關(guān)系系數(shù)估計(jì)能力較差。而同性別后代的孟德?tīng)柍闃诱`差要比父本低[23]。此次研究群體以雄性個(gè)體為主,為此,該研究過(guò)程中,選擇了剔除X染色體上的標(biāo)記位點(diǎn)。
最小等位基因頻率和標(biāo)記密度是影響親緣相關(guān)系數(shù)準(zhǔn)確性的重要因素。C.Y.Chen等報(bào)道了在荷斯坦牛群體中使用相等的等位基因組頻率能夠獲得非常準(zhǔn)確的親緣相關(guān)系數(shù)和較小的偏差[24]。S.Ogawa等在日本黑牛群體中研究發(fā)現(xiàn),隨著標(biāo)記數(shù)目增加親緣相關(guān)系數(shù)估計(jì)準(zhǔn)確性增加,當(dāng)標(biāo)記數(shù)目達(dá)到10 000時(shí)達(dá)到穩(wěn)定[25]。因此,本研究在3個(gè)MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2),分別隨機(jī)選擇7組SNP(數(shù)目分別為100、500、1 000、1 500、2 000、2 500、3 000)形成子集,來(lái)估計(jì)親緣系數(shù)。
3.2親緣關(guān)系系數(shù)的估計(jì)
本研究選擇了西門(mén)塔爾牛資源群體,通過(guò)選擇3個(gè)MAF區(qū)間的SNP標(biāo)記來(lái)分析最小等位基因頻率對(duì)親緣關(guān)系系數(shù)估計(jì)的影響。結(jié)果表明,使用來(lái)自MAF 0.2~0.4和0.4~0.5兩個(gè)區(qū)間的SNP估計(jì)的群體的親緣系數(shù)的平均值和標(biāo)準(zhǔn)差是相近的,高于使用MAF 0.01~0.2區(qū)間內(nèi)的SNP。根據(jù)前人研究報(bào)道,增加標(biāo)記的數(shù)據(jù)量可能不會(huì)明顯增高親緣相關(guān)系數(shù)估計(jì)的準(zhǔn)確性,且群體親緣系數(shù)矩陣(G陣)的估計(jì)最好使用完全不連鎖的標(biāo)記[14]。另一項(xiàng)研究[26]認(rèn)為,隨著標(biāo)記密度增加,標(biāo)記的連鎖程度加大,導(dǎo)致了大量的標(biāo)記信息的浪費(fèi)。本研究使用了7個(gè)梯度的SNPs數(shù)目來(lái)估計(jì)親緣系數(shù),準(zhǔn)確性是用和所有標(biāo)記估計(jì)的親緣系數(shù)相關(guān)性來(lái)表示,結(jié)果也驗(yàn)證了降低標(biāo)記數(shù)目,沒(méi)有導(dǎo)致親緣系數(shù)準(zhǔn)確性的顯著下降。因此,使用低密度的SNP標(biāo)記能夠準(zhǔn)確估計(jì)群體間親緣相關(guān)系數(shù),這就使降低基因分型成本成為了可能。
對(duì)于群體親緣系數(shù)的估計(jì),使用的SNP標(biāo)記來(lái)自于MAF 0.2~0.4和0.4~0.5,這兩個(gè)區(qū)間估計(jì)準(zhǔn)確性非常相近,且都是顯著高于來(lái)自于MAF 0.01~0.2區(qū)間SNP估計(jì)的親緣系數(shù)。這個(gè)可能是很多低頻的SNP由于基因分型技術(shù)導(dǎo)致基因型錯(cuò)誤,進(jìn)而影響了親緣系數(shù)估計(jì)準(zhǔn)確性。因此在估計(jì)群體中個(gè)體間的親緣系數(shù)時(shí),應(yīng)選擇高頻的SNP標(biāo)記(MAF>0.2)。研究中還統(tǒng)計(jì)了每個(gè)子集中相鄰SNP間的連鎖程度(表3),r2值都是小于0.1的。隨著標(biāo)記數(shù)目的增多,連鎖程度增加,親緣系數(shù)估計(jì)的準(zhǔn)確性也增加,這個(gè)研究結(jié)果是和前人報(bào)道相一致的[25]。
當(dāng)前研究已經(jīng)顯示,在西門(mén)塔爾牛群體中利用大于等于2 500個(gè)不連鎖且最小等位基因頻率大于0.2的SNP標(biāo)記就能獲得準(zhǔn)確的親緣相關(guān)系數(shù)。這個(gè)研究結(jié)果是和M.M.Rolf等在安格斯牛群體估計(jì)SNP數(shù)目在2 500~10 000個(gè)時(shí)能夠獲得一個(gè)穩(wěn)健的親緣相關(guān)系數(shù)[14]相一致。M.S.Lopes等在豬中發(fā)現(xiàn),獲得一個(gè)高精度的親緣相關(guān)系數(shù),至少需要2 000個(gè)SNPs[13]。在豬群體中可以用比較少的SNPs來(lái)構(gòu)建G陣,這可能是因?yàn)樗鼈兓蚪M大小和單倍型塊長(zhǎng)度的差異引起的:J.A.Arias等觀測(cè)到牛的基因組遺傳長(zhǎng)度是3 249 cM[27];而豬的基因組遺傳長(zhǎng)度則在1 797和2 149 cM之間[28]。此外,R.Veroneze等發(fā)現(xiàn),豬群體中平均的單倍型塊大小是395 kb,遠(yuǎn)大于荷斯坦奶牛的平均單倍型塊大小(164 kb)[29-30]。
4結(jié)論
高密度的SNP芯片已經(jīng)在動(dòng)物育種中廣泛應(yīng)用。但是這種芯片的價(jià)格較貴,并需要花費(fèi)成倍時(shí)間運(yùn)算。因此利用少量SNP標(biāo)記進(jìn)行基因組選擇成為研究熱點(diǎn)。本研究探討了標(biāo)記最小等位基因頻率和密度對(duì)估計(jì)親緣系數(shù)準(zhǔn)確性的影響,結(jié)果表明,選擇最小等位基因頻率大于0.2且不連鎖的SNP,在數(shù)目達(dá)到2 500個(gè)時(shí)親緣系數(shù)的估計(jì)值有高的準(zhǔn)確性。
參考文獻(xiàn)(References):
[1]BAUMUNG R,S?LKNER J.Pedigree and marker information requirements to monitor genetic variability[J].GenetSelEvol,2003,35(4):369-383.
[2]VISSCHER P M,MEDLAND S E,F(xiàn)ERREIRA M A,et al.Assumption-free estimation of heritability from genome-wide identity-by-descent sharing between full siblings[J].PLoSGenet,2006,2(3):e41.
[3]LI C C,HORVITZ D G.Some methods of estimating the inbreeding coefficient[J].AmJHumGenet,1953,5(2):107-117.
[4]AULCHENKO Y S,RIPKE S,ISAACS A,et al.GenABEL:an R library for genome-wide association analysis[J].Bioinformatics,2007,23(10):1294-1296.[5]QUELLER D C,GOODNIGHT K F.Estimating relatedness using genetic markers[J].Evolution,1989,43(2):258-275.
[6]周磊,初芹,劉林,等.利用微衛(wèi)星和 SNP 標(biāo)記信息進(jìn)行奶牛親子鑒定的模擬研究[J].畜牧獸醫(yī)學(xué)報(bào),2011,42(2):169-176.
ZHOU L,CHU Q,LIU L,et al.Simulation study on paternity identification in dairy cattle with microsatellite and SNP markers[J].ActaVeterinariaetZootechnicaSinica,2011,42(2):169-176.(in Chinese)
[7]張哲,羅元宇,李晴晴,等.一種基于高密度遺傳標(biāo)記的親子鑒定方法及其應(yīng)用[J].遺傳,2014,36(8):835-841.
ZHANG Z,LUO Y Y,LI Q Q,et al.Developing and applying of a parentage identification approach based on high density genetic markers[J].Hereditas(Beijing),2014,36(8):835-841.(in Chinese)
[8]郭剛,周磊,劉林,等.利用 SNP 標(biāo)記進(jìn)行北京地區(qū)中國(guó)荷斯坦牛親子推斷的研究[J].畜牧獸醫(yī)學(xué)報(bào),2012,43(1):44-49.
GUO G,ZHOU L,LIU L,et al.Parentage inference with single nucleotide polymorphism markers in the Chinese holstein in Beijing[J].ActaVeterinariaetZootechnicaSinica,2012,43(1):44-49.(in Chinese)
[9]ZHANG Z,TODHUNTER R J,BUCKLER E S,et al.Technical note:Use of marker-based relationships with multiple-trait derivative-free restricted maximal likelihood[J].JAnimSci,2007,85(4):881-885.
[10]VANRADEN P M.Efficient methods to compute genomic predictions[J].JDairySci,2008,91(11):4414-4423.
[11]HILL W G,SALISBURY B A,WEBB A J.Parentage identification using single nucleotide polymorphism genotypes:application to product tracing[J].JAnimSci,2008,86(10):2508-2517.
[12]SANTURE A W,STAPLEY J,BALL A D,et al.On the use of large marker panels to estimate inbreeding and relatedness:empirical and simulation studies of a pedigreed zebra finch population typed at 771 SNPs[J].MolEcol,2010,19(7):1439-1451.
[13]LOPES M S,SILVA F F,HARLIZIUS B,et al.Improved estimation of inbreeding and kinship in pigs using optimized SNP panels[J].BMCGenet,2013,14:92.
[14]ROLF M M,TAYLOR J F,SCHNABEL R D,et al.Impact of reduced marker set estimation of genomic relationship matrices on genomic selection for feed efficiency in Angus cattle[J].BMCGenet,2010,11:24.
[15]PURCELL S,NEALE B,TODD-BROWN K,et al.PLINK:a tool set for whole-genome association and population-based linkage analyses[J].AmJHumGenet,2007,81(3):559-575.
[16]LEWONTIN R C.The interaction of selection and linkage.I.General considerations;heterotic models[J].Genetics,1964,49(1):49-67.
[17]HILL W G.Estimation of linkage disequilibrium in randomly mating populations[J].Heredity(Edinb),1974,33(2):229-239.
[18]ZHAO H,NETTLETON D,DEKKERS J C.Evaluation of linkage disequilibrium measures between multi-allelic markers as predictors of linkage disequilibrium between single nucleotide polymorphisms[J].GenetRes,2007,89(1):1-6.
[19]TERWILLIGER J D,HAGHIGHI F,HIEKKALINNA T S,et al.A bias-ed assessment of the use of SNPs in human complex traits[J].CurrOpinGenetDev,2002,12(6):726-734.
[20]YANG J,BENYAMIN B,MCEVOY B P,et al.Common SNPs explain a large proportion of the heritability for human height[J].NatGenet,2010,42(7):565-569.
[21]GUO S W.Variation in genetic identity among relatives[J].HumHered,1996,46(2):61-70.
[22]GARANT D,KRUUK L E.How to use molecular marker data to measure evolutionary parameters in wild populations[J].MolEcol,2005,14(7):1843-1859.
[24]CHEN C Y,MISZTAL I,AGUILAR I,et al.Effect of different genomic relationship matrices on accuracy and scale[J].JAnimSci,2011,89(9):2673-2679.
[25]OGAWA S,MATSUDA H,TANIGUCHI Y,et al.Effects of single nucleotide polymorphism marker density on degree of genetic variance explained and genomic evaluation for carcass traits in Japanese Black beef cattle[J].BMCGenet,2014,15:15.
[26]WEIR B S,ANDERSON A D,HEPLER A B.Genetic relatedness analysis:modern data and new challenges[J].NatRevGenet,2006,7(10):771-780.
[27]ARIAS J A,KEEHAN M,F(xiàn)ISHER P,et al.A high density linkage map of the bovine genome[J].BMCGenet,2009,10:18.
[28]TORTEREAU F,SERVIN B,F(xiàn)RANTZ L,et al.A high density recombination map of the pig reveals a correlation between sex-specific recombination and GC content[J].BMCGenomics,2012,13:586.
[29]VERONEZE R,LOPES P S,GUIMARES S E,et al.Linkage disequilibrium and haplotype block structure in six commercial pig lines[J].JAnimSci,2013,91(8):3493-3501.
[30]QANBARI S,PIMENTEL E C,TETENS J,et al.The pattern of linkage disequilibrium in German Holstein cattle[J].AnimGenet,2010,41(4):346-356.
(編輯郭云雁)
Estimation of the Kinship Coefficient in Simmental Cattle Based on SNP Markers
ZHANG Jing-jing1,2,GAO Hui-jiang2,WU Yang2,ZHU Bo2,QI Xin2,GAO Xue2,ZHANG Lu-pei2,CHEN Yan2*
(1.CollegeofAnimalScienceandTechnology,JilinAgriculturalUniversity,Changchun130118,China;2.InstituteofAnimalScience,ChineseAcademyofAgriculturalSciences,Beijing100193,China)
Key words:Simmental cattle;kinship coefficient;SNP;MAF
Abstract:The objective of the study was to determine the number of SNPs which could efficiently estimate the kinship coefficient in Simmental cattle.1 059 Simmental cattle born between 2008 and 2012 year were used as the reference population.Based on the interval of the minor allele frequency (MAF),100,500,1 000,1 500,2 000,2 500 and 3 000 SNPs located in Illumina bovineHD(770 k)chip were selected to estimate individual kinship coefficient.The results showed that with the increase of the SNPs’ number,the estimation accuracy showed an increasing trend as well.Especially,when the SNPs’ number reached to 2 500,there was no significant difference between relationship coefficients estimated using 2 500 SNPs and all SNPs,and the relationship coefficients were above 0.89 between them.Furthermore,the SNPs in the same interval with different allele frequency had no significant impact on the results.It was concluded that when the number of selected SNPs reached more than 2 500,a relatively higher estimation accuracy could be obtained.Our work has built a theoretical basis for further study of the kinship coefficient with high density SNP and provides a new clue for analyzing individual kinship relationship in Simmental cattle.
doi:10.11843/j.issn.0366-6964.2016.02.008
收稿日期:2015-03-30
基金項(xiàng)目:國(guó)家自然科學(xué)基金(31402039);北京市自然科學(xué)基金(6154032);中國(guó)農(nóng)業(yè)科學(xué)院基本科研業(yè)務(wù)費(fèi)(2014ywf-yb-4);農(nóng)業(yè)部物種資源保護(hù)(畜禽)項(xiàng)目(F557);中國(guó)農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程經(jīng)費(fèi)(cxgc-ias-03);科技支撐計(jì)劃(2011BAD28B04);863項(xiàng)目(2013AA102505-4);中國(guó)農(nóng)業(yè)科學(xué)院院本級(jí)增量業(yè)務(wù)費(fèi)(2013ZL031)
作者簡(jiǎn)介:張靜靜(1989-),女,山東莘縣人,碩士,主要從事動(dòng)物遺傳育種與繁殖研究,E-mail:zhang_jingjing89@163.com *通信作者:陳燕,E-mail:chenyan@caas.cn
中圖分類號(hào):S823;S813.3
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0366-6964(2016)02-0268-08