楊宗瑩 肖貴 張紅偉
(1 吉林農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,130118,吉林長春;2 定西市農(nóng)業(yè)科學(xué)研究院,743000,甘肅定西;3 中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,100193,北京)
玉米是我國第一大糧食作物,在我國乃至全世界都占據(jù)著至關(guān)重要的地位[1]。當(dāng)前,由于人口增加和資源短缺,糧食安全面臨著嚴(yán)峻的威脅,所以急需開發(fā)生物量和產(chǎn)量高的玉米品種[2]。與籽粒玉米相比,青貯玉米具有更高的經(jīng)濟(jì)價(jià)值。近年來,隨著畜牧業(yè)的快速發(fā)展,青貯玉米的需求也顯著提高,選育出更高產(chǎn)的青貯玉米品種尤為重要。植株鮮重即單位面積內(nèi)地上有機(jī)物質(zhì)總質(zhì)量代表著全株生物量,玉米鮮重與產(chǎn)量相關(guān)性較大,且生物量是青貯玉米品種選育中的重要參考指標(biāo)[3]。因此,對玉米生物量性狀進(jìn)行研究,可以為選育鮮重高的玉米新品種提供參考。
基因組預(yù)測(genomic prediction,GP)是由Meuwissen 最早提出的[4],它可以預(yù)測作物品種或種質(zhì)資源的表現(xiàn)。與其他分子育種工具相比,基因組預(yù)測能同時估計(jì)標(biāo)記效應(yīng)和計(jì)算育種值,不需要對標(biāo)記—性狀的相關(guān)性進(jìn)行檢測;基因組預(yù)測還可加快育種周期、提高遺傳增益來提高育種效率[5]。但不同群體間基因組預(yù)測準(zhǔn)確性較低,導(dǎo)致選擇效率降低,制約了該技術(shù)在田間的應(yīng)用[6-7]。
對雜交組合表型進(jìn)行預(yù)測可以減少雜交制種和田間測試的過程,大大減少工作量,節(jié)省雜交組合選育和測試的成本,并提高雜交組合的選育效率。Xu 等[8]利用全基因組選擇技術(shù)以278 份雜交種作為訓(xùn)練群體,預(yù)測了21 945 個潛在雜交種;Cui 等[9]以1495 個不同品種的雜交水稻作為訓(xùn)練群體,預(yù)測了3000 份水稻種質(zhì)育成的44 636 個潛在雜交組合的表現(xiàn),并在此基礎(chǔ)上確定了200 個最好的潛在雜交組合[10-11]。這都證明全基因組預(yù)測可以在大規(guī)模縮減工作量和經(jīng)費(fèi)的條件下,選出最好的雜交組合。
本研究構(gòu)建了4 個玉米雜交組合群體,并對群體的全株鮮重進(jìn)行評估。然后對所有材料進(jìn)行親緣關(guān)系分析,設(shè)計(jì)不同的基因組預(yù)測方案,評估不同基因組預(yù)測方案的準(zhǔn)確度,找到最佳的方案,為雜交組合基因組預(yù)測提供參考。
以青貯玉米材料的骨干自交系中北410 的父母本(SN915×YH-1)以及北農(nóng)368 的父母本(60271×2193)4 個材料為父本,中北410 和北農(nóng)368 為專用型青貯玉米,具有生物量大和產(chǎn)量高的優(yōu)勢。以實(shí)驗(yàn)室青貯性狀表型優(yōu)異的120 個自交系材料為母本,通過雜交組配出一個4×120 的群體,用于后續(xù)的表型鑒定。田間試驗(yàn)期間按照常規(guī)農(nóng)田管理。4 個群體依次命名為群體1(P1,SN915×母本)、群體2(P2,YH-1×母本)、群體3(P3,2193×母本)和群體4(P4,60271×母本)。
在2019 年,分別在河北廊坊、新疆昌吉和甘肅定西種植480 份F1材料,按照完全隨機(jī)設(shè)計(jì),每個地點(diǎn)設(shè)置2 個重復(fù),雙行區(qū)種植,行長5m,行距60cm,株距25cm,每行種植21 株。全株鮮重鑒定標(biāo)準(zhǔn)為散粉期45d 時,收獲2 行材料中生長一致的8 株進(jìn)行稱重,精確到0.05kg,取其平均值代表全株鮮重。3 個種植環(huán)境分別用LF(河北廊坊)、CJ(新疆昌吉)和DX(甘肅定西)表示。
對于獲得的一年多點(diǎn)數(shù)據(jù),首先利用R 語言分別計(jì)算每個環(huán)境的平均數(shù)、標(biāo)準(zhǔn)差、變異系數(shù)等基本統(tǒng)計(jì)量。根據(jù)田間試驗(yàn)設(shè)計(jì)計(jì)算材料的BLUE值和遺傳力等參數(shù),BLUE 值計(jì)算模型[12-13]:yikm=μ+gi+τk+gτik+δ(k)m+εikm。
式中,yikm代表第ith(i=1,2,...,480)個材料在第kth(k=1,2,3)個環(huán)境、mth(m=1,2)個重復(fù)下的表型值,μ是總體平均數(shù),gi是基因型效應(yīng),τk是環(huán)境效應(yīng),gτik是基因型和環(huán)境互作效應(yīng),δ(k)m是第k個環(huán)境內(nèi)第m個重復(fù)的效應(yīng),εikm是隨機(jī)誤差效應(yīng),服從正態(tài)分布并且相互獨(dú)立。計(jì)算材料的BLUE 值時,除了基因型效應(yīng)為固定效應(yīng)外,其他因素均為隨機(jī)效應(yīng),并假設(shè)服從正態(tài)分布。使用R 語言lm4 包進(jìn)行擬合[14]計(jì)算BLUE 值。
計(jì)算廣義遺傳力(H2)的公式[15]:H2=Vg/[Vg+(VGL/L)+(Ve/RL)]。
式中,Vg是材料的方差組分,VGL是材料與地點(diǎn)的交互方差組分,Ve為殘差方差組分,L是環(huán)境個數(shù),R是地點(diǎn)內(nèi)重復(fù)數(shù)。
取所有材料親本葉片,采用改良CTAB 方法提取DNA[16],使用中玉金標(biāo)記的10k 育種芯片進(jìn)行基因組鑒定,SNP 質(zhì)控標(biāo)準(zhǔn)如下:刪除親本有多態(tài)性的標(biāo)記;去除缺失率>20%、雜合率>20%的親本基因型;刪除沒有物理位置信息的SNP;去除最小等位基因頻率(MAF<0.05),對確實(shí)標(biāo)記利用Beagle 進(jìn)行填充,獲得親本基因型,包含7120 個SNP 位點(diǎn)。根據(jù)雙親的基因型信息,推測出每個雜交組合的基因型[9]。利用過濾后的SNP進(jìn)行主成分分析。
用4 個群體的BLUE 值進(jìn)行全基因組選擇??紤]加性和顯性遺傳效應(yīng)的基因組BLUP(GBLUP)模型為y=μ+ξa+ξd+ε。
式中,y是F1雜交種的BLUE 值,μ是總體平均值,ξa是服從ξa~N(0,Kaσa2)分布的加性多基因效應(yīng)向量,ξd是服從ξd~N(0,Kdσd2)分布的顯性多基因效應(yīng)向量,ε是正態(tài)分布的殘差ε~N(0,Iσε2),其中I是單位矩陣,σε2是殘差方差。ξa和ξd是由單位矩陣構(gòu)成的。利用R 包BGLR 對線性混合模型進(jìn)行擬合[17](參數(shù)nIter 和burnin 分別是15 000 和1000)。分別使用了GBLUP 和Bayes B這2 種全基因組預(yù)測模型。
通過設(shè)計(jì)不同的訓(xùn)練群體進(jìn)行全基因組預(yù)測,主要有2 種設(shè)計(jì),第1 種是4 個群體中的1個群體分別預(yù)測其他3 個群體;第2 種是4 個群體中的3 個群體和剩余1 個群體隨機(jī)選取一半預(yù)測剩余1 個群體的一半。利用BLUE 值進(jìn)行基因組預(yù)測,預(yù)測準(zhǔn)確性(PA)是預(yù)測值與測量值之間的相關(guān)系數(shù)。基因組預(yù)測模型采用5 折交叉驗(yàn)證方案,重復(fù)200 次。PA 為200 次的平均值。
在3 種環(huán)境中,甘肅定西的材料全株鮮重最高。在4 個雜交群體中,P2 的全株鮮重最高,其次是P1 和P4,最小的是P3(圖1)。結(jié)果表明這個群體中YH-1 的一般配合力最好(圖1,表1)。對于每個群體來說,3 個環(huán)境之間的相關(guān)性都顯著,這表明遺傳基礎(chǔ)在3 個環(huán)境中發(fā)揮了重要的作用(圖2)。利用BLUE 值計(jì)算,全株鮮重的H2為0.66,雖然3 個環(huán)境之間有所差異,但是每個環(huán)境都是穩(wěn)定的。以上結(jié)果表明遺傳因素對全株鮮重起主要作用。
表1 4 個群體鮮重基本統(tǒng)計(jì)數(shù)據(jù)匯總Table 1 Summary of the basic statistics of fresh weight of four groups
圖1 不同環(huán)境中材料及不同群體全株鮮重匯總Fig.1 Summary of fresh weight data of different environmental materials and different groups
圖2 3 個環(huán)境中全株鮮重相關(guān)性分析Fig.2 Correlation analysis of fresh weight per plant in three environments
經(jīng)過SNP 篩選和定位后,總共獲得7119 個高質(zhì)量的SNP。這些SNP 均勻分布在10 條染色體上(圖3a),而且標(biāo)記密度足夠高,可以用于全基因組預(yù)測[18]。對所有親本的進(jìn)化樹分析結(jié)果表明了北農(nóng)368 父母本(60271,2193)親緣關(guān)系較近,中北410 的親本(SN915,YH-1)親緣關(guān)系較遠(yuǎn),所有材料共分為3 個部分(圖3b)??紤]到群體之間存在親緣關(guān)系,利用基因型數(shù)據(jù)對4 個群體間的遺傳關(guān)系進(jìn)行分析。由主成分分析(PCA)結(jié)果(圖3c)可以看出,4 個群體中P3 和P4 的親緣關(guān)系最近,PC1 和PC2 可以解釋總方差的20.91%和14.85%。親緣關(guān)系熱圖(圖3d)顯示P3 和P4親緣關(guān)系較為密切,與PCA 的結(jié)果是一致的。聚類分析也表明所有材料分為3 個部分,YH-1 為父本組配的一個群體(P1)、SN915 為父本組配的一個群體(P2)以及60271 和2193 為父本組配的一個群體(P3,P4)(圖3c)。
圖3 測序標(biāo)記及遺傳相似性分析Fig.3 Sequencing markers and genetic similarity analysis
通過構(gòu)建不同的訓(xùn)練群體,利用GBLUP 和BayesB 這2 種模型進(jìn)行預(yù)測,發(fā)現(xiàn)2 種模型的預(yù)測準(zhǔn)確性差異不大(圖4)。全基因組預(yù)測的結(jié)果表明,第2 種預(yù)測方案的預(yù)測準(zhǔn)確性較高于第1種,即雜交群體間的基因組預(yù)測準(zhǔn)確性低于多群體作為訓(xùn)練群體的預(yù)測準(zhǔn)確性,且當(dāng)訓(xùn)練群體中包含預(yù)測群中的材料時,預(yù)期準(zhǔn)確性變高。親緣關(guān)系較近的2 個群體間預(yù)測準(zhǔn)確性更高。
圖4 利用GBLUP 和BayesB 模型對不同群體全株鮮重的全基因組預(yù)測Fig.4 Genome-wide prediction of fresh weight per plant in different populations using GBLUP and BayesB models
基因組預(yù)測是一種重要的分子育種技術(shù),對玉米品種的改良具有重要意義,特別是對復(fù)雜性狀的改良[19-20]。盡管以前報(bào)道過在動植物中基于多種群的基因組預(yù)測研究[6-7,21],但這些研究中使用的群體是自然群體或純合株系組成的群體。然而生產(chǎn)中應(yīng)用的是雜交種,因此對F1群體的基因組預(yù)測具有重要意義。本研究在分析F1群體親緣關(guān)系的基礎(chǔ)上,利用F1群體進(jìn)行全基因組預(yù)測,對于開展基于F1群體的全基因組選擇育種具有參考價(jià)值。
訓(xùn)練群體大小、訓(xùn)練群體與預(yù)測群體親緣關(guān)系都會影響基因組預(yù)測[22-23],我們也發(fā)現(xiàn)不同群體的全基因組預(yù)測的準(zhǔn)確性與訓(xùn)練和驗(yàn)證群體之間的關(guān)系有關(guān)。例如,我們通過嘗試不同的訓(xùn)練群體,發(fā)現(xiàn)訓(xùn)練和驗(yàn)證群體之間的關(guān)系是可以影響預(yù)測準(zhǔn)確性的。因此,訓(xùn)練群體與驗(yàn)證群體之間的遺傳關(guān)聯(lián)性是造成群體遺傳變異的重要因素之一。此外,4 個群體間性狀遺傳基礎(chǔ)的差異可能是影響全基因組預(yù)測準(zhǔn)確性的另一個重要因素[17]。訓(xùn)練群體和驗(yàn)證群體之間的遺傳關(guān)系越密切,它們共同的遺傳基礎(chǔ)就越多,進(jìn)行全基因組預(yù)測的準(zhǔn)確性會增加?;谶@一推測,當(dāng)預(yù)測群體的個體包含在訓(xùn)練群體中時,訓(xùn)練群體和驗(yàn)證群體的遺傳關(guān)系將是密切的。因此我們設(shè)計(jì)了第2 種預(yù)測方案來驗(yàn)證這一假設(shè),發(fā)現(xiàn)第2 種方案的預(yù)測準(zhǔn)確性高于群體間預(yù)測準(zhǔn)確性,這一結(jié)果支持了我們的推測。
雜交群體間的基因組預(yù)測準(zhǔn)確性較低。通過改進(jìn)訓(xùn)練群體的組成,加入與訓(xùn)練群體有關(guān)的群體可以提高雜交群體基因組預(yù)測的準(zhǔn)確性。