馬巖松 劉章雄 文自翔 魏淑紅 楊春明 王會(huì)才 楊春燕 盧為國(guó) 徐 冉 張萬海0 吳紀(jì)安 胡國(guó)華 欒曉燕 付亞書 郭 泰 王曙明 韓天富 張孟臣 張 磊 苑保軍 郭 勇 Jochen C. REIF 江 勇 李文濱 王德春 邱麗娟,*
?
群體構(gòu)成方式對(duì)大豆百粒重全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響
馬巖松1,2,13劉章雄1文自翔3魏淑紅4楊春明5王會(huì)才6楊春燕7盧為國(guó)8徐 冉9張萬海10吳紀(jì)安11胡國(guó)華12欒曉燕13付亞書14郭 泰15王曙明5韓天富1張孟臣7張 磊16苑保軍17郭 勇1Jochen C. REIF18江 勇18李文濱2王德春3邱麗娟1,*
1中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所 / 國(guó)家農(nóng)作物基因資源與遺傳改良重大科學(xué)工程 / 農(nóng)業(yè)部作物種質(zhì)資源與生物技術(shù)重點(diǎn)開放實(shí)驗(yàn)室, 北京 100081;2東北農(nóng)業(yè)大學(xué)農(nóng)學(xué)院, 黑龍江哈爾濱150030;3Department of Plant, Soil and Microbial Sciences, Michigan State University, East Lansing, MI 48824, USA;4黑龍江省農(nóng)業(yè)科學(xué)院育種研究所, 黑龍江哈爾濱 150081;5吉林省農(nóng)業(yè)科學(xué)院大豆研究所, 吉林長(zhǎng)春 130033;6內(nèi)蒙古赤峰市農(nóng)科所, 內(nèi)蒙古赤峰 024031;7河北省農(nóng)業(yè)科學(xué)院糧油作物研究所, 河北石家莊 050031;8河南省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)作物研究所, 河南鄭州 450002;9山東省農(nóng)業(yè)科學(xué)院作物研究所, 山東濟(jì)南 250010;10內(nèi)蒙古呼倫貝爾市農(nóng)科所, 內(nèi)蒙古呼倫貝爾 021000;11黑龍江省農(nóng)業(yè)科學(xué)院黑河分院, 黑龍江黑河 164300;12黑龍江省農(nóng)墾科研育種中心, 黑龍江哈爾濱 150090;13黑龍江省農(nóng)業(yè)科學(xué)院大豆研究所, 黑龍江哈爾濱 150086;14黑龍江省農(nóng)業(yè)科學(xué)院綏化分院, 黑龍江綏化 152052;15黑龍江省農(nóng)業(yè)科學(xué)院佳木斯分院, 黑龍江佳木斯 154007;16安徽省農(nóng)業(yè)科學(xué)院作物研究所, 安徽合肥 230031;17河南省周口市農(nóng)業(yè)科學(xué)院, 河南周口 466001;18Department of Breeding Research, Leibniz Institute of Plant Genetics and Crop Plant Research (IPK), Gatersleben 06466, Germany
百粒重是大豆產(chǎn)量的重要構(gòu)成因子, 在一定條件下與產(chǎn)量呈顯著正相關(guān)。百粒重是一個(gè)復(fù)雜的數(shù)量性狀, 用傳統(tǒng)的育種方法其遺傳增益不明顯。本研究對(duì)280份大豆品種進(jìn)行了多年多點(diǎn)田間鑒定, 通過混合線性模型預(yù)測(cè)獲得品種百粒重的最佳線性無偏預(yù)測(cè)值。同時(shí)利用分布在大豆全基因組的5361個(gè)SNP標(biāo)記鑒定參試品種基因型, 結(jié)合隨機(jī)回歸最佳線性無偏預(yù)測(cè)模型和交互驗(yàn)證方法, 探討了群體構(gòu)成方式對(duì)大豆百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響。結(jié)果表明, 大豆百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度變化范圍為–0.15~ +0.75; 群體構(gòu)成方式對(duì)百粒重的預(yù)測(cè)準(zhǔn)確度影響明顯; 亞群內(nèi)的預(yù)測(cè)準(zhǔn)確度(+0.24~ +0.75)高于亞群間(-0.15~ +0.29); 當(dāng)群體間遺傳距離由0.1566增加到0.2201時(shí), 預(yù)測(cè)準(zhǔn)確度下降27.87%; 相比隨機(jī)構(gòu)建的訓(xùn)練群體, 基于群體遺傳結(jié)構(gòu)構(gòu)建的訓(xùn)練群體能將百粒重的預(yù)測(cè)準(zhǔn)確度提高2.34%。本研究明確了大豆百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度, 闡明了群體結(jié)構(gòu)對(duì)大豆百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響, 為大豆分子育種提供了新的思路和方法。
大豆; 百粒重; 全基因組選擇; 預(yù)測(cè)準(zhǔn)確度; 遺傳結(jié)構(gòu)
大豆是人類植物蛋白和脂肪的重要來源, 在日常膳食中占重要地位[1]。隨著生活水平的提高和膳食結(jié)構(gòu)的調(diào)整, 我國(guó)對(duì)大豆的需求量與日俱增, 而我國(guó)大豆單位面積產(chǎn)量與世界平均水平差距仍較大,聯(lián)合國(guó)糧食及農(nóng)業(yè)組織的數(shù)據(jù)(http://www.fao.org/ faostat/zh/#data/QC)表明, 在1961—2014年間我國(guó)大豆與美國(guó)、阿根廷和巴西的大豆單產(chǎn)平均差距為41%~66%。因此, 如何有效提高我國(guó)大豆的單產(chǎn)水平是大豆育種中亟待解決的重大課題。
百粒重是大豆產(chǎn)量的重要構(gòu)成因子, 在一定條件下大豆百粒重與大豆產(chǎn)量呈顯著正相關(guān)[2-3]。大豆百粒重相關(guān)QTL研究已取得顯著進(jìn)展, 前人利用分離群體、自然群體、重組自交系和染色體片段代換系等群體, 結(jié)合復(fù)合區(qū)間作圖法、關(guān)聯(lián)分析和Meta分析等方法定位了大量與大豆百粒重相關(guān)的QTL[4-7]。截止到2015年, SoyBase數(shù)據(jù)庫(kù)收錄的與大豆粒重相關(guān)QTL共計(jì)230個(gè)(http://soybase.org/ search/index.php?search= true&result=qtl &qtl=Seed+ weight)。這些相關(guān)研究為開發(fā)分子標(biāo)記并用于育種創(chuàng)造了條件。然而, 標(biāo)記輔助選擇應(yīng)用于百粒重等由微效多基因控制的復(fù)雜數(shù)量性狀具有一定局限性, 全基因組選擇則為復(fù)雜性狀遺傳改良提供了新方法[8-10]。
全基因組選擇(GS)由Meuwissen等[11]首先提出, 是標(biāo)記輔助選擇(MAS)的一種新方法。該方法利用分布在染色體的高密度分子標(biāo)記估算候選個(gè)體的基因組估計(jì)育種值(GEBV), 并以此作為候選個(gè)體選擇的標(biāo)準(zhǔn)。與傳統(tǒng)的標(biāo)記輔助選擇(MAS)和基因組關(guān)聯(lián)分析(GWAS)相比, 全基因組選擇無需選擇標(biāo)記, 而將所有標(biāo)記用于估計(jì)育種值, 以提高對(duì)微效多基因控制復(fù)雜性狀的選擇效率[11]。近年來, 全基因組選擇已被廣泛應(yīng)用于玉米[12-13]、小麥[14-15]、大豆[16-17]、水稻[18]、大麥[19]、黑麥[20]、向日葵[21]等作物和桉樹[22]等林木育種研究。全基因組選擇的關(guān)鍵是通過交互驗(yàn)證方法構(gòu)建基于分子標(biāo)記選擇目標(biāo)性狀的預(yù)測(cè)模型。全基因組選擇首先利用同時(shí)具有表型數(shù)據(jù)和基因型數(shù)據(jù)的訓(xùn)練群體(TS), 建立目標(biāo)性狀全基因組選擇的預(yù)測(cè)模型, 再利用預(yù)測(cè)模型分析驗(yàn)證群體(VS)的基因型并預(yù)測(cè)其表現(xiàn)型, 通過表型鑒定驗(yàn)證預(yù)測(cè)結(jié)果的準(zhǔn)確度。預(yù)測(cè)準(zhǔn)確度通常由基因組估計(jì)育種值(GEBV)與表型值的Pearson相關(guān)系數(shù)表示。全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響因素很多, 主要包括群體連鎖不平衡程度、標(biāo)記類型和數(shù)量、目標(biāo)性狀遺傳力、訓(xùn)練群體與驗(yàn)證群體的關(guān)系、預(yù)測(cè)模型的選擇等[12-24]。
大豆的基因組序列數(shù)據(jù)的公布[25]及重測(cè)序[26-28]為全基因組選擇提供了豐富的標(biāo)記信息, 50k大豆芯片的開發(fā)與利用[29]為大豆全基因組選擇實(shí)踐提供了技術(shù)支持。然而, 關(guān)于大豆全基因組選擇影響因子方面的報(bào)道還較少。Shu等[16]利用基于內(nèi)含子序列開發(fā)的79個(gè)SCAR標(biāo)記對(duì)288個(gè)大豆品種百粒重進(jìn)行全基因組選擇分析, 使用隨機(jī)回歸最佳線性無偏預(yù)測(cè)模型(RRBLUP)和貝葉斯線性回歸模型(Bayesian linear regression)的預(yù)測(cè)準(zhǔn)確度最高值分別為0.854和0.904。Bao等[17]用282個(gè)品種的1536個(gè)SNP標(biāo)記預(yù)測(cè)大豆抗胞囊線蟲病的全基因組選擇準(zhǔn)確度的范圍為0.59~0.67, 隨著標(biāo)記數(shù)量的降低其預(yù)測(cè)準(zhǔn)確度呈下降趨勢(shì)。然而, 有關(guān)群體結(jié)構(gòu)對(duì)大豆全基因組選擇預(yù)測(cè)準(zhǔn)確度影響相關(guān)研究尚未見報(bào)道。
本研究以280份大豆品種組成的自然群體為材料, 利用分布在大豆全基因組的5361個(gè)SNP標(biāo)記和多年多點(diǎn)表型估算百粒重?cái)?shù)據(jù), 分析供試群體的遺傳結(jié)構(gòu)、訓(xùn)練群體與驗(yàn)證群體的構(gòu)成方式等對(duì)大豆百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響, 為大豆產(chǎn)量相關(guān)性狀的全基因組選擇育種提供理論依據(jù)。
280份大豆育成品種(系)構(gòu)成的自然群體包括北方春大豆240份, 黃淮夏大豆39份, 引進(jìn)國(guó)外種質(zhì)1份(見附表1)。
2008—2010年表型鑒定試驗(yàn)地點(diǎn)為黑龍江、吉林、內(nèi)蒙古、河北、河南和山東。采用隨機(jī)區(qū)組田間設(shè)計(jì), 3次重復(fù), 4行區(qū), 行長(zhǎng)5 m。2011—2012年表型鑒定試驗(yàn)地點(diǎn)為黑龍江、吉林、內(nèi)蒙古、河北、河南、山東和安徽。采用隨機(jī)區(qū)組田間設(shè)計(jì), 2次重復(fù), 3個(gè)行區(qū), 行長(zhǎng)3 m。均采用試驗(yàn)地常規(guī)大豆種植管理方式。收獲時(shí)每個(gè)小區(qū)隨機(jī)選擇中間長(zhǎng)勢(shì)均勻的10個(gè)單株參照邱麗娟等[30]編著的《大豆種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)(2006)》調(diào)查百粒重?cái)?shù)據(jù)。
表1 不同鑒定年份及試驗(yàn)地點(diǎn)間百粒重變化
針對(duì)本研究的表型性狀數(shù)據(jù)為非均衡數(shù)據(jù), 采用混合線性模型,Y =+G+Y+L+。其中Y表示第個(gè)品種在第年的地點(diǎn)的目標(biāo)性狀觀察值,代表目標(biāo)性狀群體平均數(shù),G、Y和L分別代表基因型(品種)效應(yīng)、年份效應(yīng)和地點(diǎn)效應(yīng),代表隨機(jī)誤差。將基因型(品種)、年份和地點(diǎn)作為隨機(jī)效應(yīng)。計(jì)算參試品種目標(biāo)性狀的最佳線性無偏預(yù)測(cè)值(BLUP), 以此作為目標(biāo)性狀的基因組選擇表型數(shù)據(jù)。采用費(fèi)爾等[31]的分析方法計(jì)算數(shù)量性狀遺傳力。
22 / (2 + σ2/2/2/2/)
式中,2表示廣義遺傳力,2表示基因型方差,2表示基因型與年份互作方差,2表示基因型與地點(diǎn)互作方差,2表示基因型、年份和地點(diǎn)互作方差,表示試驗(yàn)?zāi)攴?表示試驗(yàn)地點(diǎn),表示重復(fù)次數(shù)。
利用Illumina SoySNP 6k iSelect BeadChip大豆芯片完成供試群體的全基因組掃描。該芯片由分布于大豆20條染色體上的5361個(gè)SNP組成。這些SNP標(biāo)記是根據(jù)已發(fā)表大豆重要農(nóng)藝性狀QTL定位區(qū)間, 選自于Song等[29]構(gòu)建的Illumina SoySNP50k iSelect BeadChip。利用GenomeStudio程序檢測(cè)獲得供試群體的基因型數(shù)據(jù)。刪除缺失數(shù)據(jù)超過5%的標(biāo)記, 篩選出5354個(gè)SNP標(biāo)記用于進(jìn)一步分析。
采用基于貝葉斯理論的馬爾科夫鏈蒙特卡羅方法(MCMC)及Structure 2.2軟件分析供試群體遺傳結(jié)構(gòu)。亞群數(shù)量(值)設(shè)定范圍為1~10, Burn-in次數(shù)和MCMC重復(fù)次數(shù)均為10 000。依據(jù)Evanno等[32]D方法確定值。
利用主成分分析方法(principle component analysis, PCA)結(jié)合TASSEL 5.0軟件[33]分析供試群體的基因型。分別以第一主成分和第二主成分為坐標(biāo)軸, 繪制供試群體散點(diǎn)圖。
采用隨機(jī)回歸最佳線性無偏預(yù)測(cè)模型(random regression best linear unbiased prediction, RR-BLUP)和5倍交互驗(yàn)證方法研究大豆百粒重全基因組選擇。RR-BLUP模型為++e, 式中表示供試材料目標(biāo)性狀的最佳線性無偏預(yù)測(cè)值向量,表示群體平均值,表示標(biāo)記的加性效應(yīng),= (X)表示′維基因型矩陣,表示殘差項(xiàng)。模型中, 假設(shè)標(biāo)記效應(yīng)和殘差項(xiàng)符合各自的隨機(jī)分布, 即~(0,Iσ2α)和~(0,Iσ2), 其中I和I表示單位矩陣, 單位矩陣的維數(shù)分別為2=σ2/p和2=σ2/l,2和2分別表示基因型方差和誤差方差,和分別表示標(biāo)記數(shù)量和試驗(yàn)地點(diǎn)數(shù)量。
采用5倍交互驗(yàn)證方法, 首先將供試群體隨機(jī)分成5份, 隨機(jī)選擇其中4份構(gòu)成訓(xùn)練群體(training subset, TS), 剩余的一份為驗(yàn)證群體(validation subset, VS), 然后在訓(xùn)練群體中利用表型數(shù)據(jù)和基因型數(shù)據(jù)建立大豆全基因組選擇模型, 最后, 在驗(yàn)證群體中利用基因型數(shù)據(jù)和預(yù)測(cè)模型估算基因組估計(jì)育種值(genomic estimated breeding value, GEBV)。全基因組選擇預(yù)測(cè)準(zhǔn)確度GSMP/, 其中MP表示驗(yàn)證群體中基因組估計(jì)育種值與實(shí)際觀察值的相關(guān)系數(shù),表示遺傳力的平方根, 重復(fù)以上過程500次以消除取樣誤差。
在供試群體中采用五倍交互驗(yàn)證方式估算供試群體總體的百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度; 在群體遺傳結(jié)構(gòu)分析的基礎(chǔ)上, 將供試群體分成若干亞群, 在每個(gè)亞群中利用相同方法估算百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度; 分別以每個(gè)亞群為訓(xùn)練群體, 其他亞群為驗(yàn)證群體, 估算不同亞群間百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度; 分別以其中一個(gè)亞群為驗(yàn)證群體, 其他亞群為訓(xùn)練群體, 估算不同亞群間百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度; 將每個(gè)亞群隨機(jī)分成5個(gè)部分, 隨機(jī)選擇每個(gè)亞群的任意4個(gè)部分組成訓(xùn)練群體, 每個(gè)亞群的剩余的一個(gè)部分為驗(yàn)證群體, 估算基于群體結(jié)構(gòu)的訓(xùn)練群體對(duì)百粒重全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響。
通過R語言的“l(fā)me4”數(shù)據(jù)包計(jì)算供試群體目標(biāo)性狀最佳線性無偏預(yù)測(cè)值和遺傳力, 利用Structure 2.2軟件分析群體遺傳結(jié)構(gòu), 利用Tassel 5.0軟件分析基因型主成分, 由R語言的“rrBLUP”數(shù)據(jù)包完成RRBLUP模型及5倍交互驗(yàn)證。
利用混合線性模型獲得280份大豆品種的百粒重最佳線性無偏預(yù)測(cè)值, 供試品種的百粒重變化范圍為13.39~23.72 g, 平均18.97 g, 變異系數(shù)為7.80%。其中北方春大豆百粒重變化范圍為13.39~ 23.72 g, 平均18.92 g, 變異系數(shù)為7.45%; 黃淮夏大豆百粒重變化范圍為16.15~23.49 g, 平均19.29 g, 變異系數(shù)為9.59% (表2)。與北方春大豆相比, 黃淮夏大豆的平均百粒重呈上升趨勢(shì)但差異不顯著(測(cè)驗(yàn))。
方差分析表明, 品種間的百粒重差異均達(dá)到極顯著水平。此外, 百粒重在年份間、試驗(yàn)地點(diǎn)間、年份與品種互作以及品種、地點(diǎn)和年份間互作均達(dá)到極顯著水平。地點(diǎn)與品種互作間差異不顯著。利用方差分析估算的百粒重遺傳力較高為0.92 (表3)。
表2 不同群體間百粒重最佳線性無偏預(yù)測(cè)描述性分析
表3 供試品種百粒重方差分析及遺傳力
**表示在0.01水平上差異顯著。**means significant difference at the 0.01 level.
利用Structure軟件計(jì)算不同值下D的變化趨勢(shì)。當(dāng)= 3時(shí),D最大, 并且隨著值的增減,D顯著降低(圖1)。表明供試的280份大豆品種可被分成3個(gè)亞群。其中第I和第II亞群分別由133份和88份品種組成, 全部為北方春大豆, 第III亞群為混合亞群, 包括39份黃淮夏大豆和20份北方春大豆。不同亞群間的遺傳分化指數(shù), 亞群內(nèi)期望雜合度以及亞群間遺傳距離見附表2。
進(jìn)一步分析不同亞群中品種來源發(fā)現(xiàn), 第I亞群品種主要來自黑龍江省, 有115份, 占參試品種總數(shù)的86.46%, 其中吉林、內(nèi)蒙古、遼寧品種分別為13份、3份和1份, 還有1份國(guó)外品種。第II亞群以吉林品種為主, 為75份, 占比85.23%, 黑龍江、遼寧和山西品種分別為9份、3份和1份。第III亞群的品種來源較廣, 20份北方春大豆來源于遼寧、山西、吉林、北京、內(nèi)蒙古、河北等7個(gè)省(市、自治區(qū))。39份黃淮夏品種則來源于北京(11份)、山東(9份)、河南(6份)、河北(6份)、江蘇(3份)、安徽(2份)、山西(2份) 7個(gè)省(市)。
利用5354個(gè)SNP基因型數(shù)據(jù)對(duì)280份大豆品種進(jìn)行主成分分析。前2個(gè)主成分累計(jì)解釋總變異的15.43%。分別以第一主成分與第二主成分為坐標(biāo)軸, 繪制280份大豆品種散點(diǎn)圖, 在第一主成分將第III亞群與第I亞群和第II亞群分成兩部分, 在第二主成分, 第I亞群與第II亞群被分成兩部分, 日本品種十勝長(zhǎng)葉分到了第I亞群(圖2)。
2.3.1 供試群體及不同亞群內(nèi)目標(biāo)性狀預(yù)測(cè)準(zhǔn)確度比較 在第I亞群內(nèi)隨機(jī)選擇130份大豆品種, 第II亞群隨機(jī)選擇85份大豆品種, 第III亞群內(nèi)隨機(jī)選擇55份大豆品種作為每個(gè)亞群的抽樣群體。在每個(gè)抽樣群體中以5倍交互驗(yàn)證方法估算每個(gè)亞群的百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度。為消除取樣誤差, 以上過程均重復(fù)500次。通過比較發(fā)現(xiàn), 百粒重的預(yù)測(cè)準(zhǔn)確性在不同群體間差異明顯, 以第III亞群最高為0.75, 第I亞群最低為0.24, 而總體和第II亞群分別為0.54和0.51 (表4和圖3)。
圖1 不同K值下DK變化趨勢(shì)
圖2 280份大豆品種主成分分析散點(diǎn)圖
表4 不同群體構(gòu)成方式間百粒重預(yù)測(cè)準(zhǔn)確度比較
C1、C2、C3分別表示第一亞群、第二亞群和第三亞群。
C1, C2, and C3 mean the first, the second, and the third subset, respectively.
圖3 不同亞群間百粒重預(yù)測(cè)準(zhǔn)確度平均值及標(biāo)準(zhǔn)差柱狀圖
2.3.2 隨機(jī)取樣與基于群體結(jié)構(gòu)取樣構(gòu)成的群體間預(yù)測(cè)準(zhǔn)確度比較 為了比較群體結(jié)構(gòu)對(duì)百粒重全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響, 分別將3個(gè)亞群的抽樣群體隨機(jī)分成數(shù)量相等的5個(gè)部分, 在每個(gè)亞群中任意選擇4個(gè)部分構(gòu)成訓(xùn)練群體, 同時(shí)將每個(gè)群體的剩余的部分構(gòu)成驗(yàn)證群體, 建立了基于群體結(jié)構(gòu)的訓(xùn)練群體和驗(yàn)證群體, 估算目標(biāo)性狀的全基因組選擇預(yù)測(cè)準(zhǔn)確度, 重復(fù)500次以消除取樣誤差。利用2.3.1中總體的5倍交互驗(yàn)證方法估算百粒重的預(yù)測(cè)準(zhǔn)確度為對(duì)照。不同方法構(gòu)建的訓(xùn)練群體和驗(yàn)證群體目標(biāo)性狀預(yù)測(cè)準(zhǔn)確度結(jié)果表明, 基于群體結(jié)構(gòu)構(gòu)建的訓(xùn)練群體和驗(yàn)證群體百粒重的預(yù)測(cè)準(zhǔn)確度略高于隨機(jī)取樣構(gòu)建群體間百粒重的預(yù)測(cè)準(zhǔn)確度, 但差異經(jīng)測(cè)驗(yàn)未達(dá)到顯著水平(圖4)。
圖4 不同方法構(gòu)建的訓(xùn)練群體和驗(yàn)證群體百粒重的預(yù)測(cè)準(zhǔn)確度箱線圖
2.3.3 不同亞群間目標(biāo)性狀預(yù)測(cè)準(zhǔn)確度比較 分別以每個(gè)亞群為訓(xùn)練群體, 預(yù)測(cè)另外2個(gè)亞群的百粒重基因組估計(jì)育種值, 并估算預(yù)測(cè)準(zhǔn)確度(表3)。亞群內(nèi)相比, 不同亞群間百粒重的預(yù)測(cè)準(zhǔn)確度明顯降低。遺傳距離較近的亞群間(第I亞群和第II亞群)預(yù)測(cè)準(zhǔn)確度優(yōu)于遺傳距離遠(yuǎn)的亞群間的預(yù)測(cè)準(zhǔn)確度(第I亞群與第III亞群和第II亞群與第III亞群)。但是也有例外, 用第II亞群預(yù)測(cè)第III亞群時(shí), 預(yù)測(cè)準(zhǔn)確度為0.21, 超過其他亞群間百粒重預(yù)測(cè)準(zhǔn)確度。
以任意2個(gè)亞群為訓(xùn)練群體時(shí), 估算剩余亞群百粒重預(yù)測(cè)準(zhǔn)確度發(fā)現(xiàn), 以第I、第III亞群為訓(xùn)練群體, 第II亞群為驗(yàn)證群體時(shí)預(yù)測(cè)準(zhǔn)確度最高為0.29; 當(dāng)以第II, III亞群為訓(xùn)練群體, 第I亞群為驗(yàn)證群體時(shí), 百粒重的預(yù)測(cè)準(zhǔn)確度最低為0.07。比較結(jié)果發(fā)現(xiàn), 當(dāng)?shù)贗I亞群與第III亞群分別處于訓(xùn)練群體和驗(yàn)證群體, 能提高百粒重的預(yù)測(cè)準(zhǔn)確度。
大豆育成品種的群體結(jié)構(gòu)是在長(zhǎng)期的人工選擇過程中形成的, 反映了不同時(shí)期、不同生態(tài)類型大豆品種間的育種目標(biāo)的差異。明確大豆品種群體結(jié)構(gòu)對(duì)基于關(guān)聯(lián)分析方法的基因挖掘具有十分重要的意義。前人研究表明, 我國(guó)大豆育成品種及野生資源群體均存在復(fù)雜的遺傳結(jié)構(gòu), 并且與大豆品種(種質(zhì))的地理來源密切相關(guān)[34-36]。宋喜娥等利用248份栽培大豆微核心種質(zhì)也獲得了相似的結(jié)果[37]。張軍等[38]研究表明, 中國(guó)大豆育成品種群體在遺傳結(jié)構(gòu)上具有地理生態(tài)分化和育成時(shí)期分化, 不同亞群具有相對(duì)遺傳特異性?;谪惾~斯理論的Structure軟件和主成分分析方法成為群體結(jié)構(gòu)分析的主要手段[39-40]。
本研究利用Structure軟件明確了參試品種的群體結(jié)構(gòu), 并得到主成分分析方法驗(yàn)證。供試群體被劃分為3個(gè)亞群, 在第一主成分上, 不同生態(tài)類型品種被分成兩部分, 在第二主成分上, 不同省份品種被分開。這與前人研究中指出的大豆品種群體遺傳結(jié)構(gòu)與地理生態(tài)分類相關(guān)的結(jié)論[34-38]相同。引進(jìn)的日本品種十勝長(zhǎng)葉是我國(guó)大豆育成品種中重要的核心親本[41]。在本研究中, 十勝長(zhǎng)葉被劃分到北方春大豆的第一亞群中, 這與郭娟娟等[41]的研究結(jié)果相似。
利用模擬數(shù)據(jù)和試驗(yàn)數(shù)據(jù)研究表明, 訓(xùn)練群體的構(gòu)成以及訓(xùn)練群體與候選群體的關(guān)系是影響全基因組選擇預(yù)測(cè)準(zhǔn)確度的重要因素[14, 20, 42-44]。訓(xùn)練群體與候選群體遺傳關(guān)系越緊密, 預(yù)測(cè)準(zhǔn)確度越高[14, 43]; 訓(xùn)練群體和候選群體存在相同的群體結(jié)構(gòu)能提高全基因組選擇的預(yù)測(cè)準(zhǔn)確度[45]; 目標(biāo)性狀的遺傳結(jié)構(gòu)也能夠通過群體結(jié)構(gòu)對(duì)全基因組預(yù)測(cè)準(zhǔn)確度造成影響[14]。本研究比較了供試總體以及不同亞群內(nèi)的百粒重的預(yù)測(cè)準(zhǔn)確度, 發(fā)現(xiàn)在目標(biāo)性狀變異系數(shù)大的群體中, 全基因組選擇的預(yù)測(cè)準(zhǔn)確度高。百粒重在供試總體和第I、第II、第III亞群中的變異系數(shù)分別為7.80%、6.53%、7.56%和10.49%, 相應(yīng)百粒重的預(yù)測(cè)準(zhǔn)確度分別為0.54、0.24、0.51和0.75。說明訓(xùn)練群體中豐富的遺傳變異能夠提高大豆百粒重的預(yù)測(cè)準(zhǔn)確度。這與前人研究結(jié)果一致[42-43, 45]。
Habier等[46]將基因組選擇的預(yù)測(cè)準(zhǔn)確度來源歸結(jié)為標(biāo)記與QTL的連鎖不平衡和訓(xùn)練群體與候選群體的遺傳關(guān)系2個(gè)部分, 當(dāng)訓(xùn)練群體和驗(yàn)證群體遺傳距離較遠(yuǎn)時(shí), 目標(biāo)性狀的預(yù)測(cè)準(zhǔn)確度主要依靠標(biāo)記與QTL的連鎖不平衡關(guān)系。在本研究中第II亞群與第III亞群遺傳距離最遠(yuǎn), 但是以第II亞群預(yù)測(cè)第III亞群的百粒重的預(yù)測(cè)準(zhǔn)確度在不同亞群間最高。這可能是由于在第II亞群和第III亞群間標(biāo)記與百粒重的QTL具有相似的連鎖不平衡狀態(tài)。Asoro等[43]研究表明, 目標(biāo)性狀、群體構(gòu)成方式和全基因組選擇模型及其互作均能對(duì)預(yù)測(cè)準(zhǔn)確度產(chǎn)生影響。本研究只用隨機(jī)回歸最佳線性無偏預(yù)測(cè)方法估算了群體構(gòu)成方式對(duì)大豆百粒重全基因組選擇預(yù)測(cè)準(zhǔn)確度的影響, 在進(jìn)一步研究中可以考慮比較不同選擇模型對(duì)大豆百粒重預(yù)測(cè)準(zhǔn)確度的作用。Guo等[44]利用來自于28個(gè)國(guó)家的413份水稻品種研究表明, 當(dāng)訓(xùn)練群體與驗(yàn)證群體存在相同的群體結(jié)構(gòu)時(shí)有利于全基因組預(yù)測(cè)準(zhǔn)確度的提高。在本研究中, 基于群體結(jié)構(gòu)取樣產(chǎn)生的群體預(yù)測(cè)準(zhǔn)確度相比于隨機(jī)取樣的預(yù)測(cè)準(zhǔn)確度提高了2.34%, 差異不顯著。
本研究所用的標(biāo)記數(shù)量遠(yuǎn)高于群體數(shù)量, 符合全基因組選擇理論[8-11]。同時(shí)基于已發(fā)表的大豆重要農(nóng)藝性狀的QTL的位置選擇標(biāo)記, 保證了對(duì)大豆基因組的覆蓋程度。利用隨機(jī)回歸最佳線性無偏預(yù)測(cè)模型獲得的大豆百粒重的預(yù)測(cè)準(zhǔn)確度平均值為0.539。Shu等[16]利用79個(gè)SCAR標(biāo)記和288份大豆比較隨機(jī)回歸最佳線性無偏預(yù)測(cè)模型和貝葉斯線性回歸模型對(duì)大豆百粒重的預(yù)測(cè)準(zhǔn)確度發(fā)現(xiàn), 在不同預(yù)測(cè)模型間的預(yù)測(cè)準(zhǔn)確度平均值分別為0.692和0.690, 高于本研究獲得的預(yù)測(cè)準(zhǔn)確度。Shu等[16]所用的標(biāo)記數(shù)量較少, 但預(yù)測(cè)準(zhǔn)確度比本研究結(jié)果高, 可能與標(biāo)記中包括與大豆百粒重顯著相關(guān)6個(gè)的SCAR標(biāo)記有關(guān)。Bao等[17]也發(fā)現(xiàn), 在標(biāo)記密度較低的情況下(96個(gè)), 將與目標(biāo)性狀相關(guān)的標(biāo)記作為固定效應(yīng), 其他標(biāo)記作為隨機(jī)效應(yīng)時(shí), 可將大豆抗胞囊線蟲病的全基因組選擇預(yù)測(cè)準(zhǔn)確度提高20%。因此, 今后可以通過關(guān)聯(lián)分析篩選與百粒重相關(guān)的標(biāo)記并建立適宜的預(yù)測(cè)模型, 提高大豆百粒重的全基因組選擇預(yù)測(cè)準(zhǔn)確度。
利用隨機(jī)取樣方法和基于群體結(jié)構(gòu)的取樣方法構(gòu)建訓(xùn)練群體, 以隨機(jī)回歸最佳線性無偏預(yù)測(cè)模型和5倍交互驗(yàn)證的方法對(duì)大豆百粒重進(jìn)行全基因組選擇, 預(yù)測(cè)準(zhǔn)確度分別為0.5387和0.5513。群體構(gòu)成方式與百粒重全基因組選擇預(yù)測(cè)準(zhǔn)確度關(guān)系密切, 以亞群內(nèi)顯著高于亞群間、遺傳距離近群體優(yōu)于遺傳距離遠(yuǎn)群體; 提高訓(xùn)練群體百粒重的遺傳變異程度能顯著提高預(yù)測(cè)準(zhǔn)確度。本研究結(jié)果為大豆重要性狀選擇提供了一種分子育種新方法。
附表 請(qǐng)見網(wǎng)絡(luò)版: 1) 本刊網(wǎng)站http://zwxb.chinacrops. org/; 2) 中國(guó)知網(wǎng)http://www.cnki.net/; 3) 萬方數(shù)據(jù)http://c.wanfangdata.com.cn/Periodical- zuowxb.aspx。
[1] 蓋鈞鎰, 熊冬金, 趙團(tuán)結(jié). 中國(guó)大豆育成品種系譜與種質(zhì)基礎(chǔ)(1923–2005). 北京: 中國(guó)農(nóng)業(yè)出版社, 2015. pp 11–12 Gai J Y, Xiong D J, Zhao T J. The Pedigrees and Germplasm Bases of Soybean Cultivars Released in China (1923–2005). Beijing: China Agriculture Press, 2015. pp 11–12 (in Chinese)
[2] 徐東河, 李東艷, 程舜華. 大豆百粒重與抗旱性及產(chǎn)量的關(guān)系. 中國(guó)油料, 1991, (3): 64–66 Xu D H, Li D Y, Cheng S H. Relationship between 100-seed weight and anti-draught and yield of soybean., 1991, (3): 64–66 (in Chinese)
[3] 王占廷, 欒素榮, 程舜華. 大豆百粒重與產(chǎn)量的相關(guān)分析. 大豆通報(bào), 1997, (2): 9 Wang Z T, Luan S R, Cheng S H. Relationship analysis between 100-seed weight and yield in soybean., 1997, (2): 9 (in Chinese)
[4] 汪霞, 徐宇, 李廣軍, 李河南, 艮文全, 章元明. 大豆百粒重QTL定位. 作物學(xué)報(bào), 2010, 36: 1674–1682 Wang X, Xu Y, Li G J, Li H N, Gen W Q, Zhang Y M. Mapping quantitative trait loci for 100-seed weight in soybean (L. Merr.)., 2010, 36: 1674–1682 (in Chinese with English abstract)
[5] 陳慶山, 蔣洪蔚, 孫殿君, 劉春燕, 辛大偉, 曾慶力, 馬占洲, 胡國(guó)華. 利用野生大豆染色體片段代換系定位百粒重QTL. 大豆科學(xué), 2014, 33: 154–160 Chen Q S, Jiang H W, Sun D J, Liu C Y, Xin D W, Zeng Q L, Ma Z Z, Hu G H. QTL Mapping for 100-seed weight using wild soybean chromosome segment substitution lines., 2014, 33: 154–160 (in Chinese with English abstract)
[6] 張英虎, 孟珊, 賀劍波, 王宇峰, 邢光南, 趙團(tuán)結(jié), 蓋鈞鎰. 大豆重組自交系群體NJRSXG百粒重超親分離的遺傳解析. 中國(guó)農(nóng)業(yè)科學(xué), 2015, 48: 4408–4416 Zhang Y H, Meng S, He J B, Wang Y F, Xing G N, Zhao T J, Gai J Y. The genetic constitution of transgressive segregation of the 100-seed weight in a recombinant inbred line population NJRSXG of soybean., 2015, 48: 4408–4416 (in Chinese with English abstract)
[7] 齊照明, 孫亞男, 陳立君, 郭強(qiáng), 劉春燕, 胡國(guó)華, 陳慶山. 基于Meta分析的大豆百粒重的QTLs定位. 中國(guó)農(nóng)業(yè)科學(xué), 2009, 42: 3795–3803 Qi Z M, Sun Y N, Chen L J, Guo Q, Liu C Y, Hu G H, Chen Q S. Meta-analysis of 100-seed weight QTL in soybean., 2009, 42: 3795–3803 (in Chinese with English abstract)
[8] Goddard M E, Hayes B J. Genomic selection., 2007, 124: 323–330
[9] Jannink J L, Lorenz A J, Iwata H. Genomic selection in plant breeding: from theory to practice., 2010, 9: 166–177
[10] Nakaya A, Isobe S N. Will genomic selection be a practical method for plant breeding?, 2012, 110: 1303–1316
[11] Meuwissen T H E, Hayes B J, Goddar M E. Prediction of total genetic value using genome-wide dense marker maps., 2001, 157: 1819–1829
[12] Zhao Y, Gowda M, Liu W, Wurschum T, Maurer H P, Longin F H, Ranc N, Reif J C. Accuracy of genomic selection in European maize elite breeding populations., 2012, 124: 769–776
[13] Zhao Y, Gowda M, Longin F H, Wurschum T, Ranc N, Reif J C. Impact of selective genotyping in the training population on accuracy and bias of genomic selection., 2012, 125: 707–713
[14] Crossa J, Perez P, Hickey J, Burgueno J, Ornella L, Rojas J C, Zhang X, Dreisigacker S, Babu R, Li Y, Mathews K. Genomic prediction in CIMMYT maize and wheat breeding programs., 2014, 112: 48–60
[15] Dawson J C, Endelman J B, Heslot N, Crossa J, Poland J, Dreisigacker S, Manes Y, Sorrells M E, Jannink J L. The use of unbalanced historical data for genomic selection in an international wheat breeding program., 2013, 154: 12–22
[16] Shu Y J, Yu D S, Wang D, Bai X, Zhu Y M, Guo C H. Genomic selection of seed weight based on low-density SCAR markers in soybean., 2013, 12: 2178–2188
[17] Bao Y, Vuong T, Meinhardt C, Tiffin P, Denny R, Chen S Y, Nguyen H T, Orf J H, Young N D. Potential of association mapping and genomic selection to explore PI88788 derived soybean cyst nematode resistance., 2014, 7: 1–13
[18] Sprdel J, Begum H, Akdemir D, Virk P, Collard B, Redona E, Atlin G, Jannink J L, McCouch S R. Genomic selection and association mapping in rice (): effect of trait genetic architecture, training population composition, marker number and statistical model on accuracy of rice genomic selection in elite, tropical rice breeding lines., 2015, 11: e1004982
[19] Zhong S Q, Dekkers J C, Fernando R L, Jannink J L. Factors affecting accuracy from genomic selection in population derived from multiple inbred lines: a barley case study., 2009, 182: 355–364
[20] Wang Y, Mette M F, Miedaner T, Gottwald M, Wilde P, Rif J C, Zhao Y S. The accuracy of prediction of genomic selection in elite hybrid rye populations surpasses the accuracy of marker- assisted selection and is equally augmented by multiple field evaluation locations and test years., 2014, 15: 556–567
[21] Reif J C, Zhao Y S, Wurschum T, Gowda M, Hahn V. Genomic selection of sunflower hybrid performance., 2013, 132: 107–114
[22] Denis M, Bouvet J M. Efficiency of genomic selection with models including dominance effect in the context ofbreeding., 2013, 9: 37–51
[23] Desta Z A, Ortiz R. Genomic selection: genome-wide prediction in plant improvement., 2014, 19: 592–601
[24] Heslot N, Jannink J L, Sorrells M E. Perspective for genomic selection applications and research in plants., 2015, 55: 1–12
[25] Schmutz J, Cannon S B, Schlueter J, Ma J X, Mitros T, Nelson W, Hyten D L, Song Q J, Thelen J J, Cheng J L, Xu D, Hellsten U, May G D, Yu Y S, Sakurai T, Umezawa T S, Bhattacharyya M K, Sandhu D, Valliyodan B, Lindquist E, Peto M, Grant D, Shu S Q, Goodstein D, Barry K, Griggs M F, Abernathy B, Du J C, Tian Z X, Zhu L C, Gill N, Joshi T, Libault M, Sethuraman A, Zhang X C, Shinozaki K, Nguyen H T, Wing R A, Cregan P, Specht J, Grimwood J, Rokhsar D, Stacey G, Shoemaker R C, Jachson S A. Genome sequence of the palaeoployploid soybean., 2010, 463: 178–183
[26] Lam H M, Xu X, Liu X, Chen W B, Yang G H, Wong F L, Li M W, He W M, Qin N, Wang B, Li J, Jian M, Wang J, Shao G H, Wang J, Sun S S, Zhang G Y. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection., 2010, 42: 1053–1059
[27] Li Y H, Zhou G Y, Ma J X, Jiang W K, Jin L G, Zhang Z H, Guo Y, Zhong J B, Sui Y, Zheng L T, Zhang S S, Zou Q Y, Shi X H, Li Y F, Zhang W K, Hu Y Y, Kong G Y, Hong H L, Tan B, Song J, Liu Z X, Wang Y S, Ruan H, Yeung C K, Liu J, Wang H L, Zhang L J, Guan R X, Wang K J, Li W B, Chen S Y, Chang R Z, Jiang Z, Jackson S A, Li R Q, Qiu L J. De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits., 2014, 32: 1045–1052
[28] Zhou Z K, Jiang Y, Wang Z, Gou Z H, Lyu J, Li W Y, Yu Y J, Shu L Q, Zhao Y J, Ma Y M, Fang C, Shen Y T, Liu T F, Li C C, Li Q, Wu M, Wang M, Wu Y S, Dong Y, Wan W T, Wang X, Ding Z L, Gao Y D, Xiang H, Zhu B G, Lee S H, Wang W, Tian Z X. Re-sequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean., 2015, 33: 408–414
[29] Song Q J, Hyten D L, Jia G F, Quigley C V, Fickus E W, Nelson R L, Cregan P B. Development and evaluation of SoySNP50K, a high-density genotyping array for soybean., 2013, 8: e54985
[30] 邱麗娟, 常汝鎮(zhèn), 劉章雄, 關(guān)榮霞, 李英慧. 大豆種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn). 北京: 中國(guó)農(nóng)業(yè)出版社, 2006. pp 18–24 Qiu L J, Chang R Z, Liu Z X, Guan R X, Li Y H. Descriptors and Data Standard for Soybean (spp.). Beijing: China Agriculture Press, 2015. pp 18–24 (in Chinese)
[31] Fehr W R. Genetic contributions to yield gains of five major crop plants; proceedings of a symposium sponsored by Division C-1 of the Crop Science Society of America, in Atlanta, Georgia- ResearchGate, 1984.
[32] Evanno G, Regnaut S, Goudet J. Detecting the number of clusters of individuals using the software STRUCTURE: a simulation study., 2005, 14: 2611–2620
[33] Bradbury P J, Zhang Z W, Kroon D E, Casstevens T M, Ramdoss Y, Buckler E S. TASSEL: software for association mapping of complex traits in diverse samples., 2007, 23: 2633–2635
[34] 文自翔, 趙團(tuán)結(jié), 鄭永戰(zhàn), 劉順湖, 王春娥, 王芳, 蓋鈞鎰. 中國(guó)栽培和野生大豆農(nóng)藝品質(zhì)性狀與SSR標(biāo)記的關(guān)聯(lián)分析: I. 群體結(jié)構(gòu)及關(guān)聯(lián)標(biāo)記. 作物學(xué)報(bào), 2008, 34: 1169–1178 Wen Z X, Zhao T J, Zheng Y Z, Liu S H, Wang C E, Wang F, Gai J Y. Association analysis of agronomic and quality traits with SSR markers inandin China: I. Population structure and associated markers., 2008, 34: 1169–1178 (in Chinese with English abstract)
[35] 張軍, 趙團(tuán)結(jié), 蓋鈞鎰. 中國(guó)東北大豆育成品種遺傳多樣性和群體遺傳結(jié)構(gòu)分析. 作物學(xué)報(bào), 2008, 34: 1529–1536 Zhang J, Zhao T J, Gai J Y. Genetic diversity and genetic structure of soybean cultivar population released in Northeast China., 2008, 34: 1529–1536 (in Chinese with English abstract)
[36] 范虎, 趙團(tuán)結(jié), 丁艷來, 邢光南, 蓋鈞鎰. 中國(guó)野生大豆群體特征和地理分化的遺傳分析. 中國(guó)農(nóng)業(yè)科學(xué), 2012, 45: 414–425 Fan H, Zhao T J, Ding Y L, Xing G N, Gai J Y. Genetic analysis of the characteristics and geographic differentiation of Chinese wild soybean population., 2012, 45: 414–425 (in Chinese with English abstract)
[37] 宋喜娥, 李英慧, 常汝鎮(zhèn), 郭平毅, 邱麗娟. 中國(guó)栽培大豆((L.) Merr.) 微核心種質(zhì)的群體結(jié)構(gòu)與遺傳多樣性. 中國(guó)農(nóng)業(yè)科學(xué), 2010, 43: 2209–2219 Song X E, Li Y H, Chang R Z, Guo P Y, Qiu L J. Population sturcture and genetic diversity of mini core collection of cultivated soybean ((L.) Merr.) in China., 2010, 43: 2209–2219 (in Chinese with English abstract)
[38] 張軍, 趙團(tuán)結(jié), 蓋鈞鎰. 中國(guó)大豆育成品種群體遺傳結(jié)構(gòu)分化和亞群特異性分析. 中國(guó)農(nóng)業(yè)科學(xué), 2009, 42: 1901–1910 Zhang J, Zhao T J, Gai J Y. Analysis of genetic structure differentiation of released soybean cultivar population and specificity of subpopulations in China., 2009, 42: 1901–1910 (in Chinese with English abstract)
[39] 魏世平, 劉曉芬, 楊勝先, 呂海燕, 牛遠(yuǎn), 章元明. 中國(guó)栽培大豆群體結(jié)構(gòu)不同分類方法的比較. 南京農(nóng)業(yè)大學(xué)學(xué)報(bào), 2011, 34(2): 13–17 Wei S P, Liu X F, Yang S X, Lyu H Y, Niu Y, Zhang Y M. Comparison of various clustering methods for population structure in Chinese cultivated soybean ((L.) Merr.)., 2011, 34(2): 13–17 (in Chinese with English abstract)
[40] 黎裕, 李英慧, 楊慶文, 張錦鵬, 張金梅, 邱麗娟, 王天宇. 基于基因組學(xué)的作物種質(zhì)資源研究: 現(xiàn)狀與展望. 中國(guó)農(nóng)業(yè)科學(xué), 2015, 48: 3333–3353 Li Y, Li Y H, Yang Q W, Zhang J P, Zhang J M, Qiu L J, Wang T Y. Genomics-based crop germplasm research: advances and perspectives., 2015, 48: 3333–3353 (in Chinese with English abstract)
[41] 郭娟娟, 常汝鎮(zhèn), 章建新, 張巨松, 關(guān)榮霞, 邱麗娟. 日本大豆種質(zhì)十勝長(zhǎng)葉對(duì)我國(guó)大豆育成品種的遺傳貢獻(xiàn)分析. 大豆科學(xué), 2007, 26: 807–819 Guo J J, Chang R Z, Zhang J X, Zhang J S, Guan R X, Qiu L J. Contribution of Japanese soybean germplasm TOKACHI- NAGAHA to Chinese soybean cultivars., 2007, 26: 807–819 (in Chinese with English abstract)
[42] Toosi A, Fernando R L, Dekkers J C M. Genomic selection in admixed and crossbred populations., 2010, 88: 32–46
[43] Asoro F G, Newell M A, Beavis W D, Scott M P, Jannink J L. Accuracy and training population design for genomic selection on quantitative traits in elite North American oats., 2011, 4: 132–144
[44] Guo Z G, Tucker D M, Basten C J, Gandhi H, Ersoz E, Guo B H, Xu Z Y, Wang D L, Gay G. The impact of population structure on genomic prediction in stratified populations., 2014, 127: 749–762
[45] Daetwyler H D, Wong R P, Villanueva B, Woolliams J A. The impact of genetic architecture on genome-wide evaluation methods., 2010, 185: 1021–103
[46] Habier D, Fernando R L, Dekkers J C M. Impact of genetic relationship information on genome-assisted breeding values., 2007, 177: 2389–2397
Effect of Population Structure on Prediction Accuracy of Soybean 100-Seed Weight by Genomic Selection
MA Yan-Song1,2,13, LIU Zhang-Xiong1, WEN Zi-Xiang3, WEI Shu-Hong4, YANG Chun-Ming5, WANG Hui-Cai6, YANG Chun-Yan7, LU Wei-Guo8, XU Ran9, ZHANG Wan-Hai10, WU Ji-An11, HU Guo-Hua12, LUAN Xiao-Yan13, FU Ya-Shu14, GUO Tai15, WANG Shu-Ming5, HAN Tian-Fu1, ZHANG Meng-Chen7, ZHANG Lei16, YUAN Bao-Jun17, GUO Yong1, Jochen C. REIF18, JIANG Yong18, LI Wen-Bin2, WANG De-Chun3, and QIU Li-Juan1,*
1National Key Facility for Crop Gene Resources and Genetic Improvement / Institute of Crop Sciences, Chinese Academy of Agricultural Sciences, Beijing 100081, China;2College of Agriculture, Northeast Agricultural University, Harbin 150030, Heilongjiang, China;3Department of Plant, Soil and Microbial Sciences, Michigan State University, East Lansing MI 48824, USA;4Institute of Crop Breeding, Heilongjiang Academy of Agricultural Sciences, Harbin 150086, Heilongjiang, China;5Soybean Research Institute, Jilin Academy of Agricultural Sciences, Changchun 130033, Jilin, China;6Chifeng Institute of Agricultural Sciences, Chifeng 024031, Inner Mongolia, China;7Institution of Cereal and Oil Crops, Hebei Academy of Agriculture and Forestry Sciences, Shijiazhuang 050031, Hebei, China;8Economic Crops Institute, Henan Academy of Agricultural Sciences, Zhengzhou 450002, Henan, China;9Crop Research Institute, Shandong Academy of Agricultural Sciences, Jinan 250010, Shandong, China;10Hulunbeier Institute of Agricultural Sciences, Hulunbeier 021000, Inner Mongolia, China;11Heihe Branch Institute, Heilongjiang Academy of Agricultural Sciences, Heihe 164300, Heilongjiang, China;12Crop Research and Breeding Center of Land-Reclamation, Harbin 150090, Heilongjiang, China;13Soybean Research Institute, Heilongjiang Academy of Agricultural Sciences, Harbin 150086, Heilongjiang, China;14Suihua Branch Institute, Heilongjiang Academy of Agricultural Sciences, Suihua 152052, Heilongjiang, China;15Jiamusi Branch Institute, Heilongjiang Academy of Agricultural Sciences, Jiamusi 154007, Heilongjiang, China;16Crop Research Institute, Anhui Academy of Agricultural Sciences, Hefei 230031, Anhui, China;17Zhoukou Institute of Agricultural Sciences, Zhoukou 466001, Henan, China;18Department of Breeding Research, Leibniz Institute of Plant Genetics and Crop Plant Research (IPK), Gatersleben 06466, Germany
Hundred-seed weight is an important yield component and has positive relationship with soybean yield under certain conditions. The genetic gain of 100-seed weight based on traditional breeding or markers assisted-selection is limited because it is controlled by plenty of small effect genes. Genomic selection offers an approach to accelerate the soybean 100-seed weight breeding. However, the effect of population structure on soybean 100-seed weight prediction accuracy has not been elaborated. In our study 280 soybean varieties with phenotypic data evaluated in multi-location in 2008–2012 and 5361 SNPs genotype were used to explore the effect of population structure on 100-seed weight prediction accuracy. The best linear unbiased prediction of 100-seed weight of each variety was calculated according to mixed linear model. Ridge regression best linear unbiased prediction and five-fold cross validation were used to estimate the 100-seed weight prediction accuracy. Our research showed that the range of 100-seed weight, which was from –0.15 to +0.75. Hundred-seed weight prediction accuracy was affected by population structure significantly. The prediction accuracy within a subset (+0.24 to +0.75) was higher than that between subsets (-0.15 to +0.29). When the genetic distance between subsets increased from 0.1566 to 0.2201, the 100-seed weight prediction accuracy was decreased by 27.87%. Compared with random sampling training population, the training population composed based on genetic structure improved 100-seed weight prediction accuracy by 2.34%. In summary, we are clear about the soybean 100-seed weight genomic selection accuracy and the effect of population structure on genomic selection accuracy. The genomic selection is an efficient method to improve the soybean breeding.
; 100-seed weight; genomic selection; prediction accuracy; genetic structure
2017-02-10;
2017-09-10;
2017-10-30.
10.3724/SP.J.1006.2018.00043
通信作者(Corresponding author):邱麗娟, E-mail: qiulijuan@caas.cn, Tel: 010-82105840
E-mail: mys771007@hotmail.com
本研究由國(guó)家轉(zhuǎn)基因生物新品種培育重大專項(xiàng)(2014ZX08004001)和中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技創(chuàng)新項(xiàng)目資助。
This study was supported by the National Major Project for Developing New GM Crops (2014ZX08004001) and the Agricultural Science and Technology Innovation Program (ASTIP) of Chinese Academy of Agricultural Sciences.
URL: http://kns.cnki.net/kcms/detail/11.1809.S.20171030.0858.002.html