田 郎 譯,凌青根 校
(1.中國熱帶農(nóng)業(yè)科學(xué)院橡膠研究所,海南 儋州 571737;2.中國熱帶農(nóng)業(yè)科學(xué)院科技信息研究所,海南 ???571101)
林木植物的全基因組選擇
田 郎1譯,凌青根2校
(1.中國熱帶農(nóng)業(yè)科學(xué)院橡膠研究所,海南 儋州 571737;2.中國熱帶農(nóng)業(yè)科學(xué)院科技信息研究所,海南 ???571101)
基因組選擇(GS,也稱全基因組選擇)是利用捕捉到一個(gè)乃至多個(gè)數(shù)量性狀大多數(shù)基因位點(diǎn)的全基因組標(biāo)記估計(jì)基因組育種值(即所有標(biāo)記效應(yīng)的總和),并以此對(duì)目標(biāo)性狀進(jìn)行選擇的方法。目前,這種新的選擇方法正在給家畜育種實(shí)踐帶來一場(chǎng)革命性的變化。同樣的方法和設(shè)想也適用于林木育種。事實(shí)上,漫長的世代時(shí)間以及大多數(shù)復(fù)雜性狀晚期表達(dá)的特性歷來都是林木育種所面臨的巨大困難和挑戰(zhàn)。不僅如此,林木植物還具備諸多其它的有利條件有助于GS的開展和應(yīng)用,例如:易于收集并建立較大的參考群體且某些性狀已作過準(zhǔn)確的表型分析;一些改良群體的連鎖不平衡(LD)程度較高,這其中包括林木高世代育種程序中所常用到的一些有效群體大小(Ne)較小的群體。本研究利用確定性方程就LD(通過Ne和標(biāo)記間距離進(jìn)行模擬),訓(xùn)練集的大小,性狀遺傳力,以及數(shù)量性狀位點(diǎn)(QTL)的數(shù)目等因素對(duì)GS的預(yù)期準(zhǔn)確性的影響進(jìn)行了分析評(píng)估。結(jié)果顯示,GS有可能使樹木育種的有效性得到根本性的提高。當(dāng)Ne≤30時(shí),即便標(biāo)記密度僅大約2個(gè)標(biāo)記/厘摩(cM), 采用GS就能達(dá)到傳統(tǒng)BLUP(最佳線性無偏預(yù)測(cè))選擇的基準(zhǔn)精度。不過,當(dāng)Ne較大時(shí),標(biāo)記密度則需達(dá)到20個(gè)標(biāo)記/cM。采用GS可使育種周期縮短50%,進(jìn)而使育種效率增加100%或以上。隨著技術(shù)的快速進(jìn)步和基因分型成本的下降,我們謹(jǐn)慎而樂觀地看好GS在加速樹木育種進(jìn)程和提高育種效率上的巨大潛力。不過,在將此項(xiàng)技術(shù)推廣應(yīng)用之前,尚需作進(jìn)一步的模擬研究及概念驗(yàn)證試驗(yàn)。
基因組選擇;有效群體大?。贿B鎖不平衡;標(biāo)記輔助選擇(MAS)
通過標(biāo)記輔助選擇(MAS)加速林木育種的進(jìn)程已成為當(dāng)今對(duì)一些重要林木物種實(shí)施基因組計(jì)劃的主要依據(jù)和推動(dòng)力。完成一個(gè)育種周期需經(jīng)歷漫長的世代時(shí)間,建立和維持大規(guī)模后裔試驗(yàn)費(fèi)用高昂,以及大多數(shù)目標(biāo)性狀遺傳力低下一直以來都是林木常規(guī)育種所面臨的巨大困難,不過,采用MAS策略將有助于克服這些難題[1,2,3]。盡管MAS在林木育種上具有潛在的優(yōu)勢(shì),但基于眾多理由,該項(xiàng)技術(shù)早先并未被大多數(shù)林木育種計(jì)劃所采納,而今天看來這些理由大多數(shù)確有其合理性[4]。在當(dāng)時(shí)除了成本及技術(shù)障礙之外,主要的問題是人們?cè)谳^大的林木隨機(jī)交配群體中發(fā)現(xiàn)的連鎖不平衡(LD )非常有限,所觀察到的標(biāo)記-數(shù)量性狀位點(diǎn)(QTL)關(guān)聯(lián)往往都局限于特殊的遺傳背景。
盡管人們對(duì)MAS持有某些懷疑的看法,但對(duì)于該項(xiàng)技術(shù)的應(yīng)用前景卻一直秉持著樂觀的態(tài)度,而且隨著人工栽培樹種大量性狀QTL位點(diǎn)的成功鑒定,該領(lǐng)域的研究得以迅速發(fā)展。借助RFLP、RAPD、AFLP以及微衛(wèi)星等分子標(biāo)記連鎖圖的構(gòu)建,人們可以對(duì)林木數(shù)量性狀的遺傳組成作出進(jìn)一步的解析。不過,早期的研究大都局限于主效QTL位點(diǎn)[5,6,7],而且正如通過“Beavis”效應(yīng)所預(yù)測(cè)到的那樣,由于樣本較小,很多位點(diǎn)的效應(yīng)很可能被高估[8]。此后,當(dāng)人們采用樣本較大的后代群體,而且表型分析也愈加精確之后,對(duì)于數(shù)量性狀的遺傳解析(包括QTL位點(diǎn)的數(shù)量、分布及效應(yīng)等)遂變得日益準(zhǔn)確和可靠[9,10,11]。一般說來,分析的家系數(shù)及家系內(nèi)個(gè)體數(shù)越多,則對(duì)于QTL的檢測(cè)能力也越強(qiáng),此時(shí)不但檢測(cè)到的位點(diǎn)數(shù)增多,而且每個(gè)位點(diǎn)的效應(yīng)相應(yīng)變小,不過這些效應(yīng)在不同遺傳背景及環(huán)境間的非一致性也會(huì)變得愈加明顯。此外,為了確保QTL的有效檢測(cè)和分析,人們對(duì)于遺傳模型及取樣策略的選擇也有了更進(jìn)一步的認(rèn)知。目前,為了避免模型選擇的偏差,貝葉斯法正越來越受到人們的關(guān)注和重視。該模型選擇法既考慮到了模型本身的不確定性,而且根據(jù)后驗(yàn)概率對(duì)備擇模型作出推斷,因而較之常規(guī)模型選擇法往往更加準(zhǔn)確和可靠[12]。由于控制每個(gè)性狀的QTL數(shù)量較多,加上每個(gè)QTL的效應(yīng)微小、可變和不可預(yù)測(cè),故目前尚難以同時(shí)對(duì)多個(gè)數(shù)量性狀進(jìn)行有效的標(biāo)記輔助選擇(MAS)。就農(nóng)作物的MAS而言,大體情況也是如此,盡管有些作物群體相對(duì)狹窄的遺傳基礎(chǔ)及較長距離的LD通常更有助于MAS的實(shí)施和應(yīng)用[13]。
近年來,人們?cè)诹帜局幸蔡岢霾捎藐P(guān)聯(lián)遺傳學(xué)(AG)方法以克服數(shù)量性狀MAS內(nèi)在的局限性[14]。對(duì)于通常具有高核苷酸多態(tài)性及短距離LD的林木非結(jié)構(gòu)性群體而言,關(guān)聯(lián)分析不失為行之有效的方法之一。林木復(fù)雜性狀的遺傳解析及標(biāo)記-性狀關(guān)聯(lián)分析可為這類性狀的遺傳改良提供十分有用的信息。近年來,林木中有關(guān)材性、抗病性及耐旱性相關(guān)候選基因的SNPs(單核苷酸多態(tài)性)分析已有過一些報(bào)道[15,16,17]。不過,單個(gè)關(guān)聯(lián)位點(diǎn)及其等位變異的表型效應(yīng)大都較小,很少超過表型方差的5%。然而,這樣的結(jié)果并不令人感到詫異,與人類[18]、家畜[19]及農(nóng)作物[20]中采用檢測(cè)能力更為強(qiáng)大的全基因組關(guān)聯(lián)分析法所觀察到的結(jié)果相比,二者基本一致。以上結(jié)果無疑證實(shí)了數(shù)量性狀的復(fù)雜性,同時(shí)也使期望利用少數(shù)或幾個(gè)離散位點(diǎn)與性狀的關(guān)聯(lián)效應(yīng)直接達(dá)到復(fù)雜性狀一步改良的可能性受到進(jìn)一步的質(zhì)疑。除非MAS能捕捉到目標(biāo)性狀的大多數(shù)表型變異,否則還是常規(guī)的數(shù)量遺傳學(xué)方法更能有效地加速林木育種進(jìn)程。
隨著近年來基因分型技術(shù)的快速發(fā)展,人們?cè)诖嘶A(chǔ)上進(jìn)一步提出并建立了一種新的MAS方法,即基因組選擇(GS)法,也稱全基因組選擇法[21]。就常規(guī)的MAS或AG方法而言,通常首先需要通過連鎖或關(guān)聯(lián)作圖定位QTL,然后借助標(biāo)記及關(guān)聯(lián)信息進(jìn)行目標(biāo)性狀的選擇或其相關(guān)基因的篩選鑒定。而GS法則有所不同,該方法主要著眼于QTL加性遺傳效應(yīng)的預(yù)測(cè),無需作預(yù)先的定位及關(guān)聯(lián)分析。不過,盡管GS法無需作QTL定位分析,但對(duì)于QTL必須要有足夠的檢測(cè)能力,而且能夠有效地識(shí)別噪聲和真實(shí)效應(yīng)。為此,QTL的檢測(cè)需在一個(gè)由數(shù)量足夠多的個(gè)體(數(shù)百甚至數(shù)千個(gè))所構(gòu)建的 “訓(xùn)練”群體(即參考群體)中進(jìn)行。在GS中,首先是采用全基因組標(biāo)記分型芯片對(duì)參考群中的個(gè)體進(jìn)行基因型分析,同時(shí)對(duì)目標(biāo)性狀作表型鑒定。之后,利用該數(shù)據(jù)集,并采用適當(dāng)?shù)姆椒叭硬呗越㈩A(yù)測(cè)模型,以避免過度擬合。隨后,利用該模型估算候選群體中只有基因型而無表型記錄的候選個(gè)體的基因組育種值,并以此作為預(yù)測(cè)指標(biāo)實(shí)現(xiàn)對(duì)目標(biāo)性狀的選擇。GS的開展和實(shí)施通常需要開發(fā)出一整套數(shù)目龐大并能覆蓋整個(gè)基因組的分子標(biāo)記,而且有關(guān)的基因組區(qū)段預(yù)期至少與某些已作基因分型的標(biāo)記處于連鎖不平衡狀態(tài)。
目前,GS已成為家畜育種領(lǐng)域的研究熱點(diǎn),而在植物育種上,GS的研究也正方興未艾。在家畜育種中,為了充分了解GS的應(yīng)用前景,人們利用影響GS預(yù)期準(zhǔn)確性的多個(gè)參數(shù)及多種分析程序進(jìn)行過一系列模擬研究[22-27]。最近,一些學(xué)者還相繼就GS中的一些重要議題作了進(jìn)一步的分析和探討,例如跨種群基因組預(yù)測(cè)的可靠性[28],純種雜交性能的基因組選擇[29],混合及雜種群體的全基因組選擇[30],譜系可跟蹤條件下低密度基因分型芯片的利用[31],育種程序中GS不同測(cè)試策略的評(píng)估[32],以及相較于常規(guī)的后裔測(cè)定選種法GS法所能實(shí)現(xiàn)的額外增益[33]等。此外,還有學(xué)者已報(bào)道了動(dòng)物模型GS法的實(shí)證結(jié)果,明確證實(shí)了該方法的理論預(yù)期[34,35]。鑒于GS極其誘人的前景,該方法同樣引起眾多農(nóng)作物[36,37,38,39]及多年生植物[40]育種工作者的極大關(guān)注,盡管目前植物育種領(lǐng)域中尚無該方法的實(shí)證報(bào)道。
由于GS有望能夠增加多年生作物每單位時(shí)間的遺傳增益并提高其低遺傳力性狀的選擇準(zhǔn)確性,因而倍受人們的青睞。GS的準(zhǔn)確度主要取決于4個(gè)因素:(1)標(biāo)記與QTL之間的連鎖不平衡程度,而這又取決于有效群體大小(Ne)及標(biāo)記數(shù)量;(2)由既有基因型又具有表型數(shù)據(jù)的個(gè)體所構(gòu)成的訓(xùn)練集(即參考群)的大小,該群體被用于標(biāo)記效應(yīng)的估計(jì);(3)所選擇性狀的遺傳力;(4)QTL效應(yīng)的分布(包括位點(diǎn)數(shù)量及效應(yīng)大小)。以上的前2個(gè)參數(shù)通常可為育種工作者所控制,而后2者則取決于性狀本身[33]。GS能否有效地應(yīng)用于林木育種,連鎖不平衡的程度是極為重要的一個(gè)影響因素。有報(bào)道指出,由于林木物種的遠(yuǎn)交習(xí)性加之它們尚處于馴化及育種的初期階段,這不但使其未因馴化瓶頸而遭受多樣性的丟失,而且連鎖不平衡也大都存在于較短的距離范圍內(nèi),如楊樹及松樹的自然群體其LD就僅存在于200 bp的范圍之內(nèi)[41,14]。由于LD程度相對(duì)較低,因此,若要對(duì)這樣的群體進(jìn)行基因組選擇,必須借助數(shù)量極為龐大的分子標(biāo)記才能夠達(dá)到足夠的選擇準(zhǔn)確度。不過,在基因組選擇過程中,可以通過減少Ne以增加標(biāo)記與QTL之間的LD水平[42]。對(duì)于林木高世代育種計(jì)劃中所常用的優(yōu)良群體而言,當(dāng)Ne達(dá)到20-100時(shí)基本上就能夠達(dá)到基因組選擇所需較高的LD水平[2]。不過,為了確保獲得長期的遺傳增益,仍需對(duì)Ne較大的原始群體進(jìn)行備份以保持其遺傳多樣性。
本研究目的旨在評(píng)估上述4個(gè)重要參數(shù)對(duì)林木GS預(yù)期準(zhǔn)確度的影響。首先利用確定性公式分別評(píng)估訓(xùn)練集(即參考群)大小(N),性狀遺傳力( h2),以及QTL數(shù)量(NQTL)對(duì)5種不同規(guī)模選擇群體GS預(yù)期準(zhǔn)確度的影響,而這些候選群體的規(guī)?;旧细采w了林木高世代育種計(jì)劃中不同大小選擇群體的規(guī)模。最后,我們還就GS法較之基于最佳線性無偏預(yù)測(cè)(BLUP)的表型選擇法其選擇效率隨育種周期縮短而增加的變化趨勢(shì)作了進(jìn)一步的模擬分析。
1.1 確定性方法
(1)
(2)
上該式中bi和P分別為權(quán)重及與表型依基因型的回歸相關(guān)的標(biāo)記效應(yīng)的方差。
回歸因子與測(cè)定基因組育種值的BLUP混合模型方程中的收縮因素密切相關(guān)。在混合模型y=Xb+Zm+e下,基因組育種值的預(yù)測(cè)方程為:
如前所述, r2mq為標(biāo)記能夠解釋的所占位點(diǎn)遺傳變異(σ2q)的比例,即r2mq=σ2m/σ2q,由此則σ2m=r2mqσ2q。進(jìn)一步展開公式(2)我們可得出:
早先,Daetwyler等(2008)[45 ]假定σ2e=1和r2mq=1,于是得出 。
該式無疑顯示出參數(shù)λ(λ=N/N\%QTL)的重要性,因?yàn)棣伺c訓(xùn)練集中用于估算每個(gè)位點(diǎn)效應(yīng)的表型記錄數(shù)直接成正比。不過,我們并不作σ2e=1和r2mq=1的假定, 而是保留了更為一般的表達(dá)式,所用公式為:
(3)
根據(jù)Resende等人(2008)[ 43]的報(bào)道,上式中h2m=(h2gr2mq/NQTL)/[h2gr2mq+(1-h2g)] 。我們認(rèn)為該確定性方法行之有效,正如Meuwissen(2009)[44]已證實(shí)的那樣,當(dāng)訓(xùn)練及測(cè)評(píng)個(gè)體因來自同一群體而存在遺傳相關(guān)時(shí)尤其如此。
本研究基于目前或預(yù)期可用的林木基因分型技術(shù),分別就以下不同因素對(duì)林木基因組選擇預(yù)期準(zhǔn)確性的影響進(jìn)行模擬分析和評(píng)估:
(1)連鎖不平衡(LD)水平,即標(biāo)記所能解釋的遺傳變異的比例(r2mq)。不同有效群體大小(Ne=10,15,30,60,以及100)及不同標(biāo)記間隔長度(L=1.0,0.8,0.6,0.5,0.4,0.2,0.1,以及0.05,以厘摩(cM)表示)下的r2mq值可用Sved(1971)[49]的公式(即公式1)計(jì)算。以上所提標(biāo)記間間隔距離的長度可以轉(zhuǎn)變?yōu)槊坷迥?cM)上標(biāo)記的數(shù)量,分別為每厘摩(cM)上1.0, 1.25, 1.67, 2.0, 2.5, 5.0, 10.0,以及20.0個(gè)標(biāo)記,而這有助于對(duì)重組基因組大小不同的物種實(shí)施基因組選擇所必需的標(biāo)記總數(shù)作出必要的檢驗(yàn)。
(2)參考群體(即訓(xùn)練集)中同時(shí)具有基因型及表型記錄的個(gè)體的數(shù)量(N=200,500,1 000,2 000,4 000,以及8 000),這是基于林木育種計(jì)劃中大或較大群體的建立及其表型鑒定通常并不成其為一個(gè)限制因子。
(3)性狀的遺傳力( h2g=0.2,0.3,0.4,0.5,以及0.6),這些性狀包括林木育種中常常需要進(jìn)行遺傳力估算的一些重要性狀,如材積生長,木材比重,樹干通直度,以及木材化學(xué)性質(zhì)等[2]。
(4)QTL的數(shù)量(NQTL=1,3,5,10,20,30,50,100,150,以及200)。所有的QTL位點(diǎn)都具有加性效應(yīng),而人們?cè)赒TL及關(guān)聯(lián)作圖中所觀察到的與每一性狀相關(guān)聯(lián)的標(biāo)記位點(diǎn)數(shù)通常也是介于數(shù)個(gè)至數(shù)十個(gè)之間。
1.2 確定性方法的假設(shè)
確定性模擬目的旨在利用Sved(1971)[49 ]所提供的方程1計(jì)算得到相應(yīng)模擬條件下的群體平均數(shù)。該方程與某一指定長度的染色體區(qū)段內(nèi)不發(fā)生交換的概率密切相關(guān)。它假定所有這些染色體區(qū)段具有一個(gè)公共的QTL方差,并且相鄰基因組區(qū)段間的連鎖不平衡仍相互獨(dú)立。因此,該公式可用于預(yù)測(cè)整個(gè)基因組聯(lián)合效應(yīng)的總準(zhǔn)確度。不過,盡管如Meuwissen(2009)[44]報(bào)道的那樣,該公式能夠?yàn)閷?shí)施人工選擇后的多個(gè)世代提供一個(gè)合理的近似值,但它可能并不完全適用于預(yù)測(cè)未來世代的連鎖不平衡。 r2mq的最大期望值為1,盡管在某些具體情況下它可能與該E(r2mq)值略有差異。Hill早先(1981)[42]也曾對(duì)該問題作過理論探討,而且之后的一些實(shí)驗(yàn)結(jié)果[50,51,52,53]進(jìn)一步證實(shí)了該Sved公式的正確性,即便是用小的有效大小群體及不同世代間均如此,這表明隨機(jī)變異的累積效應(yīng)應(yīng)當(dāng)不是一個(gè)主要問題。
BLUP(最佳線性無偏預(yù)測(cè))是現(xiàn)今各種動(dòng)植物育種值估計(jì)的有效方法之一,在基因組選擇中也可利用該方法實(shí)現(xiàn)對(duì)標(biāo)記效應(yīng)(m)的同步估計(jì)和預(yù)測(cè)。該方法中m被視作隨機(jī)效應(yīng),并服從呈正態(tài)的先驗(yàn)分布m~N(0,σ2m) ,在此隨機(jī)效應(yīng)框架下得以同時(shí)估計(jì)出數(shù)以千計(jì)的標(biāo)記的效應(yīng),即便標(biāo)記的數(shù)量遠(yuǎn)多于表型記錄數(shù)。該BLUP法理論上基于無窮小位點(diǎn)模型(每性狀受大量乃至無窮多位點(diǎn)控制,而每位點(diǎn)效應(yīng)甚微),因此單個(gè)位點(diǎn)的效應(yīng)理論上將降低至近乎為零。其它基于貝葉斯框架的方法(如Bayes-B)由于將一些效應(yīng)值為零的染色體片斷考慮在內(nèi),因而在有些情況下可能顯得更為合理。該方法的可取之處也正是在于許多分離的等位基因其效應(yīng)幾乎可忽略不計(jì)。不過有報(bào)道指出,BLUP法在GS應(yīng)用中的效率與更為復(fù)雜的貝葉斯法相比并無太大差別[54,55],故本研究采用此方法對(duì)林木基因組選擇的潛力進(jìn)行初步評(píng)估。
由于BLUP法假定解釋遺傳方差的所有QTL其效應(yīng)相等并具有一個(gè)公共方差,因此如果對(duì)這些QTL的檢測(cè)效力低下,則所檢測(cè)到的QTL就只能解釋部分的遺傳方差,而基因組選擇的預(yù)期準(zhǔn)確性也就相應(yīng)較低。有鑒于此,在基因組選擇中,訓(xùn)練集(參考群體)的樣本含量必須大到能夠保證足夠的檢測(cè)效力。此外,從Sved公式可以看出,群體的連鎖不平衡(LD)水平與有效群體大小及標(biāo)記間的遺傳距離成反比,并與標(biāo)記密度成正比,故增加樣本含量及標(biāo)記密度將可提高LD水平進(jìn)而提高GS的準(zhǔn)確度,而這有賴于強(qiáng)大的QTL檢測(cè)效力。 基于以上原因,我們?cè)谀M研究中將訓(xùn)練集(參考群)的最大樣本量增加到了8 000個(gè),而在林木育種背景下,對(duì)這樣大的樣本群體進(jìn)行多個(gè)性狀的表型分析是完全切實(shí)可行的。
1.3 基因組選擇法的選擇響應(yīng)
根據(jù)定義,選擇響應(yīng)與育種周期的長度成反比。當(dāng)完成一個(gè)育種世代所需的時(shí)間減少時(shí),每單位時(shí)間的選擇響應(yīng)則相應(yīng)增加。因此,選擇響應(yīng)(SR,即年遺傳進(jìn)展)可從選擇準(zhǔn)確度與選擇所需總年份之間的比率得知。就基因組選擇(GS)而言,SRGS=(rGS)/(CGS),而對(duì)于傳統(tǒng)基于BLUP的選擇法(TS)來說,SRTS=(rTS)/(CTS),這里rGS和rTS分別為GS和TS的選擇準(zhǔn)確度,CGS和CTS則分別為GS和TS的育種周期長度。進(jìn)一步計(jì)算GS和TS二者選擇響應(yīng)之間的比率即可得知GS相較于TS的選擇效率,即RGS:TS=(rGSCTS)/(rTSCGS)。為了計(jì)算該選擇效率,利用前述的確定性公式(即公式3)可得到GS的準(zhǔn)確度?;诒硇秃拖底V信息的傳統(tǒng)BLUP選擇法的準(zhǔn)確度的上界可按Resende及Fernandes(1999)[56]所述REML/BLUP法計(jì)算得知。簡(jiǎn)言之,基于傳統(tǒng)BLUP表型選擇法的準(zhǔn)確度的最大值可由如下公式給出:
(4)$$
為了獲得單株BLUP選擇最大準(zhǔn)確度的估值,我們把N設(shè)置到一個(gè)很大的數(shù)目,同時(shí)將公式4中的單株狹義遺傳力( h2b)和單株廣義遺傳力(h2h)分別設(shè)定為0.2和0.3,因?yàn)樵诹帜救蚁翟囼?yàn)中生長性狀的遺傳力估值通常處于這一水平。
利用該公式及以上設(shè)定的參數(shù)值,我們算出傳統(tǒng)BLUP選擇法準(zhǔn)確度的上限為0.68。當(dāng)采用輪回選擇策略對(duì)一般配合力(GCA)進(jìn)行基因組選擇時(shí)(這里僅一般配合力最大的個(gè)體或其后代被用于下一輪選擇),即以該數(shù)值作為比較其相對(duì)遺傳增益的基準(zhǔn)。GS選擇效率增長的百分率可按(RGS:TS-1)*100%計(jì)算,之后還就其隨育種周期縮短而變化的趨勢(shì)作進(jìn)一步的分析。
2.1 基因分型密度對(duì)基因組選擇準(zhǔn)確度的影響
圖1 A-D 在狹義遺傳力(h2)與控制性狀的QTL總數(shù)不同組合條件下標(biāo)記密度(markers/cM)對(duì)基因組選擇(GS)準(zhǔn)確度的影響。訓(xùn)練集大小(N)均設(shè)定為1 000。各條曲線分別對(duì)應(yīng)于有效群體大小Ne=10(實(shí)心菱形坐標(biāo)點(diǎn)),Ne=15(實(shí)心正方形坐標(biāo)點(diǎn)),Ne=30(實(shí)心三角形坐標(biāo)點(diǎn)),Ne=60(實(shí)心圓形坐標(biāo)點(diǎn)),以及Ne=100(乘法號(hào)坐標(biāo)點(diǎn))。
2.2 訓(xùn)練集大小(參考群大小)對(duì)基因組選擇準(zhǔn)確度的影響
分析結(jié)果顯示,在本研究所設(shè)定的有效群體大小范圍內(nèi),訓(xùn)練集(參考群)大小對(duì)基因組選擇預(yù)期準(zhǔn)確度的影響相對(duì)較小。在圖2所示的4種情形下,當(dāng)訓(xùn)練集(參考群)中的單株數(shù)量超過2 000以后,選擇準(zhǔn)確度的提高就均已很少。當(dāng)標(biāo)記密度較高時(shí),不管所設(shè)定的有效群體大小Ne大或小,只要訓(xùn)練集中的單株數(shù)量達(dá)到1 000,選擇準(zhǔn)確度即可達(dá)到0.8以上。當(dāng)標(biāo)記密度較低時(shí),訓(xùn)練集中的單株數(shù)量需達(dá)到2 000且有效群體大小Ne要小于30才能使GS的選擇準(zhǔn)確度達(dá)到基準(zhǔn)值0.68或其以上。
2.3 性狀遺傳力對(duì)基因組選擇準(zhǔn)確度的影響
分析顯示,性狀遺傳力對(duì)基因組選擇預(yù)期準(zhǔn)確度的影響較小。從圖3中可以看出,所有繪制出的曲線都非常平直。當(dāng)遺傳力h2從0.2增加到0.6時(shí),不管有效群體大小Ne大或小,基因組選擇的準(zhǔn)確度僅略增10%~20%。不過,在h2一定的情況下,有效群體大小和標(biāo)記密度對(duì)選擇準(zhǔn)確度的影響仍然很大,而QTL數(shù)量的影響則較小。
圖2 A-D 在標(biāo)記密度(markers/cM)與控制性狀的QTL總數(shù)不同組合條件下訓(xùn)練集中的個(gè)體數(shù)量(N)對(duì)基因組選擇(GS)準(zhǔn)確度的影響。狹義遺傳力(h2)均設(shè)定為0.2。各條曲線分別對(duì)應(yīng)于有效群體大小Ne=10(實(shí)心菱形坐標(biāo)點(diǎn)),Ne=15(實(shí)心正方形坐標(biāo)點(diǎn)),Ne=30(實(shí)心三角形坐標(biāo)點(diǎn)),Ne=60(實(shí)心圓形坐標(biāo)點(diǎn)),以及Ne=100(乘法號(hào)坐標(biāo)點(diǎn))。
圖3 A-D 在標(biāo)記密度(markers/cM)與控制性狀的QTL總數(shù)不同組合條件下狹義遺傳力(h2)對(duì)基因組選擇(GS)準(zhǔn)確度的影響。訓(xùn)練集中的個(gè)體數(shù)量(N)均設(shè)定為1 000。各條曲線分別對(duì)應(yīng)于有效群體大小Ne=10(實(shí)心菱形坐標(biāo)點(diǎn)),Ne=15(實(shí)心正方形坐標(biāo)點(diǎn)),Ne=30(實(shí)心三角形坐標(biāo)點(diǎn)),Ne=60(實(shí)心圓形坐標(biāo)點(diǎn)),以及Ne=100(乘法號(hào)坐標(biāo)點(diǎn))。
2.4 QTL數(shù)量對(duì)基因組選擇準(zhǔn)確度的影響
當(dāng)標(biāo)記密度較低時(shí)(2 markers/cM),控制性狀的QTL總數(shù)(NQTL)對(duì)于選擇準(zhǔn)確度的影響較之標(biāo)記密度較高時(shí)(20 markers/cM)更為明顯。在標(biāo)記密度為20 markers/cM時(shí),隨著有效群體大小的增加,選擇準(zhǔn)確度的變化不大(圖4)。當(dāng)NQTL>150
且遺傳力低時(shí)(h2=0.2),如果采用較高的標(biāo)記密度(20 markers/cM),則預(yù)期的準(zhǔn)確度可達(dá)到基準(zhǔn)值0.68以上。當(dāng)控制目標(biāo)性狀的NQTL=100且遺傳力h2=0.4時(shí),如果有效群體大小Ne<30,此時(shí)即便所采用的標(biāo)記密度低至2 markers/cM,預(yù)期的準(zhǔn)確度也可達(dá)到0.68或以上。
圖4 A-D 在狹義遺傳力(h2)與標(biāo)記密度(markers/cM)不同組合條件下控制性狀的QTL總數(shù)(NQTL)對(duì)基因組選擇(GS)準(zhǔn)確度的影響。訓(xùn)練集中的個(gè)體數(shù)量(N)均設(shè)定為1 000。各條曲線分別對(duì)應(yīng)于有效群體大小Ne=10(實(shí)心菱形坐標(biāo)點(diǎn)),Ne=15(實(shí)心正方形坐標(biāo)點(diǎn)),Ne=30(實(shí)心三角形坐標(biāo)點(diǎn)),Ne=60(實(shí)心圓形坐標(biāo)點(diǎn)),以及Ne=100(乘法號(hào)坐標(biāo)點(diǎn))
2.5 GS與傳統(tǒng)表型BLUP選擇法選擇效率的比較
相較于傳統(tǒng)的表型BLUP選擇法, GS選擇效率隨育種周期縮短而增加的變化趨勢(shì)見圖5。事實(shí)上,通過早期對(duì)單株實(shí)施基因組選擇,完全有可能縮短育種周期。該圖所模擬的4種情形中,均假定性狀遺傳力h2=0.2且訓(xùn)練集大小N=1 000,標(biāo)記密度則設(shè)定為2或20 markers/cM,控制性狀的QTL設(shè)定為50和200。圖中X和Y軸交叉點(diǎn)處的0值相應(yīng)于傳統(tǒng)表型BLUP選擇法的效率。從圖中可以看出,在標(biāo)記密度低(2 markers/cM)和控制性狀的QTL數(shù)量為50的情況下,若有效群體大小Ne較小(≤15),則育種周期的長度縮短25%可導(dǎo)致GS選擇效率增加約50%(圖5a)。不過,當(dāng)同樣情形下但Ne較大或所涉及的QTL數(shù)量為200時(shí),育種周期縮短25%并不會(huì)導(dǎo)致GS選擇效率的實(shí)質(zhì)性增加,甚至比傳統(tǒng)表型BLUP選擇法的效率更低(沿Y軸的負(fù)值)(圖5c)。當(dāng)通過GS使育種周期的長度減少50%時(shí),如果控制性狀的QTL數(shù)量為50且Ne≤30,則選擇效率預(yù)期可增加100%以上(圖5a)。而當(dāng)控制目標(biāo)性狀的數(shù)量為200時(shí),必須采用較高的標(biāo)記密度(20 markers/cM)才能使選擇效率的增加達(dá)到或超過100%(圖5d)。如果育種周期的長度能減少75%,此時(shí)即便有效群體大小Ne大到100,只要采用較高的標(biāo)記密度(20 markers/cM),預(yù)期的選擇效率均可顯著增加達(dá)300%。在育種周期長度如此強(qiáng)烈減少的情況下,當(dāng)控制性狀的QTL數(shù)量為50時(shí),即便標(biāo)記密度低(2 markers/cM)且有效群體大小Ne=100,此時(shí)GS的選擇效率依然顯著增加達(dá)164%(圖5a)而在同樣條件下,控制性狀的QTL數(shù)量為200時(shí)選擇效率僅能增加76%。
圖5 A-D 基因組選擇(GS)較之傳統(tǒng)的BLUP選擇法(TS)其選擇效率隨育種周期縮短而增加的變化趨勢(shì)。訓(xùn)練集大小(N)及性狀狹義遺傳力(h2)均分別設(shè)定為1 000和0.2。各條曲線分別對(duì)應(yīng)于有效群體大小Ne=10(實(shí)心菱形坐標(biāo)點(diǎn)),Ne=15(實(shí)心正方形坐標(biāo)點(diǎn)),Ne=30(實(shí)心三角形坐標(biāo)點(diǎn)),Ne=60(實(shí)心圓形坐標(biāo)點(diǎn)),以及Ne=100(乘法號(hào)坐標(biāo)點(diǎn))。
自Meuwissen等2001[21]年首次提出基因組選擇(GS)以來,已有不少人通過模擬研究對(duì)影響GS預(yù)期表現(xiàn)的一些參數(shù)進(jìn)行過分析評(píng)估,同時(shí)還就其選擇效率與傳統(tǒng)的表型選擇法進(jìn)行了比較和探討[23,48,19,37,57,58,26]。然而,所有這些研究都是針對(duì)一些特定的育種對(duì)象,其中多數(shù)為家畜動(dòng)物。在此情形下,有效群體大小通常較大且不能加以控制,構(gòu)成訓(xùn)練群體的個(gè)體的可得性可能是GS的一個(gè)限制因素[19]。在植物中,已有GS應(yīng)用于近交的一年生作物如玉米的報(bào)道,其所用群體為雙單倍體系[36,59],目的為外來種質(zhì)的快速滲入[60]。就多年生作物而言,迄今為止人們僅在育種周期一般為19年的油棕中對(duì)GS的應(yīng)用前景進(jìn)行過評(píng)估,其結(jié)果顯示,按照每單位成本和時(shí)間獲得的遺傳增益,GS要優(yōu)于基于表型的選擇法[40]。不過,該研究是在預(yù)測(cè)測(cè)交性能的背景下,從一個(gè)單一的F2群體開始并利用一個(gè)數(shù)量為120-160個(gè)的標(biāo)記集模擬GS。這雖然很有意思,但在林木育種中實(shí)際已摒棄這種方案。
我們的研究目的旨在為各種林木植物GS的評(píng)估及應(yīng)用提供有效的參考和依據(jù),而不管其種類,重組基因組大小,以及育種周期的長度。本研究在一系列切合實(shí)際的條件下,包括目前可用的基因分型技術(shù)及林木高世代育種群體通常的有效群體大小等,對(duì)已知影響GS預(yù)期準(zhǔn)確性的4個(gè)主要參數(shù)[33]分別進(jìn)行了評(píng)估。結(jié)果顯示,標(biāo)記-QTL連鎖不平衡(LD)的程度(通過不同的有效群體大小及標(biāo)記密度進(jìn)行模擬)對(duì)林木GS的應(yīng)用前景影響最大。當(dāng)Meuwissen等2001年[21]首次提出GS時(shí)也直觀地感覺到了這一點(diǎn),之后Solberg等2008[27]年在評(píng)估不同標(biāo)記類型及密度的效應(yīng)時(shí)使之得到了證實(shí)。LD既可因祖先群體中的新突變而先前就存在,也可因遺傳漂移而產(chǎn)生新的LD[25]。在林木育種背景下,我們是以新LD產(chǎn)生為前提進(jìn)行確定性預(yù)測(cè)。標(biāo)記與QTL在原始自然群體中被假定處于連鎖平衡狀態(tài),因育種群體的選擇產(chǎn)生遺傳漂移進(jìn)而使這種關(guān)聯(lián)回復(fù)到連鎖不平衡(LD)狀態(tài)是成功實(shí)施林木GS的一個(gè)必要條件。
3.1 基因組選擇的準(zhǔn)確性主要依賴于有效群體大小及基因分型密度
我們的研究結(jié)果表明,只要滿足有效群體大小(Ne)和基因分型密度上的一定要求,GS有可能從根本上提高林木育種的速度和效率。我們?cè)谡麄€(gè)研究中均以表型BLUP選擇法的最大準(zhǔn)確度作為GS的基準(zhǔn)點(diǎn),結(jié)果顯示,只要有效群體大小(Ne)保持在60以下,即便標(biāo)記密度較低時(shí)(大約2-3 markers/cM)GS的效率也能達(dá)到該基準(zhǔn)值(圖1)。目前林木上可利用的基因型分析技術(shù)已經(jīng)能夠達(dá)到這樣的標(biāo)記密度。在桉屬(Eucalyptus)植物中,依據(jù)物種及群體遺傳結(jié)構(gòu),DNA差異芯片顯示技術(shù)(DArT)已能提供大約3 000到5 000個(gè)高質(zhì)量多態(tài)性全基因組標(biāo)記[61]。就一個(gè)1 500 cM(厘摩)的基因組[62]而言,這相當(dāng)于2-3 markers/cM的標(biāo)記密度。在火炬松(Pinus taeda)中,采用一個(gè)大小類似的重組基因組[63],一個(gè)具有大約7 000個(gè)SNP的SNP芯片可在群體水平上提供大約3 000個(gè)有效標(biāo)記[64]。在云杉(Picea sp.)中同樣也開發(fā)出了數(shù)百個(gè)SNPs,而且其中較大部分可有效覆蓋略為大一些的重組基因組(估計(jì)約3000cM)[65]。
然而,若考慮在有效群體大小(Ne)較大的情況下進(jìn)行基因組選擇,則標(biāo)記密度需達(dá)到10或直到20 markers/cM(圖1)。依據(jù)育種群體的重組基因組大小及有效群體大小,這樣一個(gè)靶基因分型密度需開發(fā)出能檢測(cè)大約2 000至≥5 000個(gè)標(biāo)記的基因分型芯片。在楊屬(Populus)植物中,由于已有參考基因組序列可用,通過利用新一代測(cè)序技術(shù)對(duì)多個(gè)單株基因組的測(cè)序及大規(guī)模SNP開發(fā),完全有可能開發(fā)出這樣大的SNPs基因分型芯片。目前,人們已開始為達(dá)成這一目標(biāo)而努力,并且有望很快獲得這種大規(guī)模的基因分型工具(C.Douglas及G.Tuskan私人通訊)。在桉屬(Eucalyptus)植物中,DArT芯片能被快速升級(jí)到較大數(shù)量的標(biāo)記。此外,鑒于該屬植物的核苷酸多態(tài)性高[66,67],故可按楊樹中所報(bào)道的同樣方法,利用即將從巨桉(Eucalyptus grandis)中獲得的參考基因組序列開發(fā)出大量SNPs[68]??梢灶A(yù)見的是,就基因分型密度而言,對(duì)目前普遍采用高世代育種計(jì)劃的主要林木物種實(shí)施GS并不存在技術(shù)上的限制。不過,成本將會(huì)是考慮的一個(gè)主要問題。采用目前通常能提供3 000至5 000個(gè)有效標(biāo)記的DArT基因分型芯片,多態(tài)性標(biāo)記每數(shù)據(jù)點(diǎn)的成本預(yù)計(jì)為1至5美分[61]。在提供信息的標(biāo)記檢出數(shù)相似時(shí),目前的SNP基因分型成本按一個(gè)數(shù)據(jù)點(diǎn)計(jì)略顯較高,而當(dāng)需要20 000個(gè)標(biāo)記時(shí),每樣本的成本將增加至數(shù)百美元。以如此較高的標(biāo)記密度實(shí)施GS至少需每個(gè)樣品的成本下降一個(gè)數(shù)量級(jí)。目前,人們?cè)谀繕?biāo)富集策略、基因組復(fù)雜性降低方法以及與之相結(jié)合的多重條形碼樣品的高通量測(cè)序研究上所取得的進(jìn)展[69,70]有望使育種工作者通過短序列深度測(cè)序以很高的密度及顯著下降的成本實(shí)現(xiàn)單株樣品的基因分型,進(jìn)而使基因分型的成本和效率得到根本性的改變。
3.2 準(zhǔn)確的基因組選擇需要一個(gè)相對(duì)大的訓(xùn)練集
我們的研究結(jié)果表明,除了育種群體中的LD水平之外,訓(xùn)練集的大小對(duì)GS的準(zhǔn)確性也有較大影響。我們觀察到,當(dāng)訓(xùn)練集中的個(gè)體數(shù)N達(dá)到1 000時(shí),GS的準(zhǔn)確性呈現(xiàn)快速增加,而N超過2 000之后,不論基因分型密度高低及Ne大小,準(zhǔn)確性的增加均趨于平穩(wěn)(圖2)。不過,如果QTL的分布違背每個(gè)位點(diǎn)效應(yīng)相等及具有一個(gè)共同方差的假定,則并不是所有的遺傳方差都能被解釋,而且預(yù)期的選擇準(zhǔn)確度也會(huì)較低。在此情形下,如果所利用的訓(xùn)練集其大小在2 000個(gè)單株以上,則或許可避免這樣的模型違例。我們的結(jié)果與Goddard等(2009)[19]的模擬研究也相一致,即除非Ne≤100,否則訓(xùn)練集的樣本含量需達(dá)到數(shù)千個(gè)體才能準(zhǔn)確地預(yù)測(cè)育種值。我們的研究還顯示,在基因分型密度較高的情況下,如果N達(dá)到1 000,則無論Ne大或小,GS的選擇準(zhǔn)確度均能達(dá)到甚至超過基準(zhǔn)點(diǎn)0.68(即基于BLUP的表型選擇法的最大準(zhǔn)確度),而當(dāng)N達(dá)到和超過2 000之后,GS的準(zhǔn)確度提高甚少(圖2)。基于這一結(jié)果,我們?cè)谠u(píng)估其它參數(shù)的效應(yīng)時(shí)將訓(xùn)練集的大小均設(shè)定為1 000。樣本含量為1 000個(gè)單株的訓(xùn)練集不但可提供令人滿意的GS準(zhǔn)確度,而且在大多數(shù)育種計(jì)劃中針對(duì)這種大規(guī)模的樣本群體作表型分析鑒定也都應(yīng)在可行范圍內(nèi)。一般說來,人們很容易對(duì)這種規(guī)模甚至更大規(guī)模群體的生長性狀(樹高和胸徑)進(jìn)行高精度測(cè)定。同樣,采用大規(guī)模木材質(zhì)量檢測(cè)方法[71,72,73,74]也能對(duì)數(shù)百或數(shù)千個(gè)樣本的各種理化性狀進(jìn)行測(cè)定。通過對(duì)訓(xùn)練集一些評(píng)估困難或測(cè)定費(fèi)用高昂的性狀(如耐旱或耐霜性,抗病性,以及生理或生物量相關(guān)性狀等)的表型分析,GS有可能成為改良這類復(fù)雜的多因子性狀更強(qiáng)有力的工具。
3.3 遺傳力及QTL數(shù)量對(duì)GS準(zhǔn)確度的影響相對(duì)較小
本研究中,當(dāng)訓(xùn)練集的樣本植株數(shù)均為1 000時(shí),無論設(shè)定的有效群體大小大或小,GS準(zhǔn)確性隨性狀遺傳力增加而增加的幅度均相對(duì)較小(圖3)。按前述確定性方法計(jì)算所得GS的準(zhǔn)確度直接與遺傳力和λ的乘積成正比,這里λ為訓(xùn)練集中的表型記錄數(shù)與所涉及的QTL數(shù)量之間的比率,即λ=N/NQTL[45]。圖3顯示,如果所用的訓(xùn)練集較大(N=1 000),則控制性狀的QTL數(shù)不管假定為50還是100,遺傳力對(duì)準(zhǔn)確性的影響均相對(duì)較小。該結(jié)果與Meuwissen等(2001)[21]、Solberg等(2008)[27]以及Nielsen等(2009)[57]的模擬研究也相一致,他們?cè)赋觯蜻z傳力下降導(dǎo)致的準(zhǔn)確度降低很容易通過利用較大的訓(xùn)練集而抵消。Hayes等(2009)[33]對(duì)性狀遺傳力,訓(xùn)練集大小,以及選擇準(zhǔn)確度之間的關(guān)系也進(jìn)行過評(píng)估和分析,結(jié)果顯示,當(dāng)對(duì)Ne大的群體(Ne=1 000)進(jìn)行GS時(shí),如果采用GS準(zhǔn)確度達(dá)到0.6-0.8所必需的表型記錄數(shù),則遺傳力從0.2增加至0.6其效應(yīng)增加會(huì)下降80%以上。從林木育種角度出發(fā),這些結(jié)果表明,如果一個(gè)來自Ne≤100的目標(biāo)群體的訓(xùn)練集相對(duì)較大(N≥1 000),即便通過提高該訓(xùn)練集的表型測(cè)定質(zhì)量(如通過無性系重復(fù))以努力提高性狀的遺傳力,GS準(zhǔn)確度的增加也不大。
雖然連鎖不平衡值,N,以及h2可根據(jù)模擬研究被給予較為切實(shí)的建議,但在選擇中對(duì)于控制性狀的QTL數(shù)量卻難以如此。目前,人們通過林木QTL作圖研究已能夠了解一些性狀QTL數(shù)量的下限,而與過去的傳統(tǒng)方法相比,該項(xiàng)技術(shù)顯然有著更為強(qiáng)大的檢測(cè)效力。例如,Rae等(2008)[11]利用組合毛果楊×美洲黑楊在三個(gè)地點(diǎn)從母本和父本中分別鑒定出了37和45個(gè)與莖干及生物量性狀相關(guān)的QTL;同年,Dillen等[10]定位了數(shù)十個(gè)控制材積生長量的QTL;之后,Novaes等(2009)[75]也定位了63個(gè)與20個(gè)生長及材質(zhì)性狀相關(guān)的QTL。正是基于這些研究,本文報(bào)道了控制多個(gè)生長及木材質(zhì)量性狀的QTL總數(shù)可能為50或100時(shí)GS的模擬研究結(jié)果。我們的研究還顯示,當(dāng)采用較低的基因分型密度且性狀遺傳力低時(shí),如果控制性狀的QTL數(shù)量由100增加至200個(gè),此時(shí)即便Ne小至15甚至10,GS的準(zhǔn)確度也低于其基準(zhǔn)值0.68(即基于BLUP的表型選擇法所能達(dá)到的最大準(zhǔn)確度)。不過,在標(biāo)記密度較高的情況下,即便Ne大遺傳力又低,此時(shí)QTL數(shù)量的增加對(duì)GS準(zhǔn)確度的影響并不太大(圖4)。假定100個(gè)QTL是控制一個(gè)目標(biāo)性狀較為符合實(shí)際的平均位點(diǎn)數(shù),當(dāng)育種群體的Ne≤30時(shí),采用2 markers/cM的基因分型密度即可使GS的準(zhǔn)確度達(dá)到傳統(tǒng)BLUP表型選擇法的水平。不過,如果控制性狀的QTL數(shù)達(dá)到200個(gè)且Ne≤100,則需將基因分型密度提高至20 markers/cM才能達(dá)到表型選擇法的準(zhǔn)確度。
3.4 基因組選擇可通過縮短育種周期的長度從根本上提高選擇效率
有賴于與GS相關(guān)的一系列重要條件(即Ne,基因分型密度,h2,以及NQTL),以及所用確定性方法的相關(guān)假定,GS的預(yù)期準(zhǔn)確度可以趕上或超過基于BLUP的傳統(tǒng)表型選擇法的水平。從本文圖1-4可以看出,在一定條件下,GS的預(yù)期準(zhǔn)確度均大于基準(zhǔn)值0.68,這表明GS這種方法本身可比BLUP表型選擇法更加有效。尤為重要的是,通過GS能夠?qū)崿F(xiàn)單株早期選擇進(jìn)而極大程度地縮短育種周期,而這種優(yōu)勢(shì)更是為普通的BLUP選擇法所難以比擬[21,25]。圖5顯示,隨著完成一個(gè)育種周期所需時(shí)間的縮短,選擇效率呈幾何級(jí)數(shù)增長。考慮到一般配合力的輪回選擇,借助GS以縮短林木育種周期值得關(guān)注和重視。為了加快育種周期,通過GS選出的單株必須使其開花并經(jīng)雜交重組得到下一代。開花誘導(dǎo)是目前大多數(shù)桉屬植物(Eucalyptus)育種程序中的例行步驟之一。通過人工誘導(dǎo),在熱帶物種大約12-24個(gè)月及溫帶物種約36-48個(gè)月時(shí)即可大量開花[76,77],而在自然條件下,這兩類植物通常需要4-8年才能開花。同樣,在火炬松(P.taeda)中,取自僅3年生種子苗的接穗在嫁接后即可經(jīng)誘導(dǎo)實(shí)現(xiàn)開花[78]。分析結(jié)果顯示,通過將育種周期長度縮短50%,例如將熱帶桉樹的育種周期從6年縮短到3年,或?qū)貛Щ鹁嫠傻挠N周期從16年縮短到8年,選擇效率預(yù)期可增加100%以上,而在Ne≤30的情況下,即便標(biāo)記密度較低時(shí)GS也能取得這樣的效果。如果Ne較大,而且涉及的QTL數(shù)甚至達(dá)200個(gè),但只要標(biāo)記密度較高同樣也可達(dá)到類似的選擇效率。設(shè)若育種周期的長度可縮短75%,則選擇效率更是會(huì)快速增加。例如,在基因分型密度高和(或)Ne≤30時(shí),選擇效率可增加200%或以上(圖5)。然而,由于GS選出的單株必須同時(shí)提早開花才能進(jìn)行雜交并獲得下一代,因而育種周期縮短75%實(shí)際上難以達(dá)到。
3.5 林木基因組選擇的機(jī)遇與挑戰(zhàn)
本研究結(jié)果表明,在目前的基因分型技術(shù)條件下,通過降低有效群體大小(Ne)產(chǎn)生新的LD是成功實(shí)施GS的一個(gè)關(guān)鍵因素。然而,Ne下降也存在一種潛在的負(fù)面效應(yīng),那就是會(huì)制約以后世代的選擇進(jìn)展。目前,一些小的優(yōu)良育種群體已越來越多地被用于獲取短期的遺傳增益,而較大的群體則作為后備材料以供獲取長期遺傳進(jìn)展之需。Ne為20-40的育種群體可支持幾個(gè)世代的選擇并使育種計(jì)劃獲得相當(dāng)可觀的遺傳增益[79,2]。例如在美國東南部,火炬松的第3個(gè)育種周期已開始采用一個(gè)由40個(gè)單株構(gòu)成的經(jīng)高度選擇的群體以期能取得快速的遺傳進(jìn)展[80]。這類高世代的改良群體將最有可能被應(yīng)用于GS。在桉樹中,由20-30個(gè)優(yōu)良親本構(gòu)成的群體通常也被用于合成群體間的相互輪回選擇,這一改良策略可開發(fā)利用來自多個(gè)物種的遺傳變異,而且無須分別運(yùn)用多個(gè)群體即可選擇出結(jié)合了多個(gè)優(yōu)良性狀(如耐寒或耐旱及生長和材質(zhì)優(yōu)異等)的雜種單株[81]。由于每一個(gè)多物種群體的Ne 小且LD水平高,因而這樣的群體和策略特別適用于GS。
我們的確定性研究建立在相關(guān)遺傳模型的一系列假定和種群歷史基礎(chǔ)之上,故在實(shí)際育種中未必一定有效。這樣,所估計(jì)的選擇進(jìn)展可能也就難以實(shí)現(xiàn)。例如,我們假定所有QTL都有同等效應(yīng),甚至標(biāo)記和QTL都均衡地分布于整個(gè)基因組,但實(shí)際上如果某一性狀涉及一些效應(yīng)較大的QTL并且它們以群集方式存在于基因組中,則顯然就不符合我們的假定。此外,我們的估算模型還假定不存在顯性效應(yīng)(即僅考慮加性效應(yīng)),對(duì)大多數(shù)林木植物而言,這是適合于育種值預(yù)測(cè)的。不過,當(dāng)GS是為了將選出的單株用作無性系而不是用作親本產(chǎn)生下一代時(shí),顯性效應(yīng)的預(yù)測(cè)對(duì)于預(yù)測(cè)總的遺傳值(即育種植)就有很大影響,這時(shí)顯然應(yīng)將顯性效應(yīng)加入到模型之中。就理論上而言,這應(yīng)當(dāng)不成問題,不過還必須得到進(jìn)一步的實(shí)驗(yàn)驗(yàn)證??偟膩碚f,我們認(rèn)為本研究有關(guān)4個(gè)GS評(píng)估參數(shù)的主要結(jié)論具有一定的普遍性,對(duì)于林木GS的評(píng)估和應(yīng)用應(yīng)當(dāng)具有一定的參考和指導(dǎo)作用。
以上我們還沒有談到GS所面臨的一些困難和挑戰(zhàn),而在考慮實(shí)施GS之前必須對(duì)這些問題有所認(rèn)識(shí)和了解。首先是,對(duì)于與訓(xùn)練集(參考群)間隔若干世代的群體基因組預(yù)測(cè)還會(huì)有多高的準(zhǔn)確性。在本研究GS的初步評(píng)估中,我們僅探討了在一個(gè)世代(即當(dāng)前世代)中的選擇。在經(jīng)過許多代輪回選擇之后,如果因標(biāo)記與QTL位點(diǎn)之間的重組而使得這些位點(diǎn)不能被有效選擇,則這種跨世代預(yù)測(cè)的有效性必然會(huì)迅速下降,這樣,訓(xùn)練集將不得不重新取樣。不過,也有模擬研究表明,與訓(xùn)練集間隔3代以內(nèi)每代的預(yù)期準(zhǔn)確度僅下降約5%,之后下降率還會(huì)有所收斂,甚至到第6代下降率也相對(duì)不大[21]。還有報(bào)道指出,如果標(biāo)記密度足夠高,隨著間隔世代數(shù)的增加,選擇準(zhǔn)確度依然不會(huì)發(fā)生劇烈下降[27]。在目前的林木育種中,即使通過開花誘導(dǎo)世代時(shí)間也仍長達(dá)2-4年,因此,在力求加快林木育種進(jìn)程的背景下,即便每6個(gè)世代就得重估預(yù)測(cè)模型也是值得的。此外,還有另外一種策略可供選擇,那就是將多基因效應(yīng)納入相應(yīng)的BLUP或貝葉斯模型以使不同世代間能保持持久的標(biāo)記效應(yīng)。由于相應(yīng)的擬合模型可使偏差下降故無而需每一代重估標(biāo)記效應(yīng)[27]。
第2個(gè)問題是GS在群體或種間相互輪回選擇中究竟會(huì)有怎樣的表現(xiàn),而在一些林木植物中,種間相互輪回選擇業(yè)已成為人們常用的一種育種手段。由于不同群體之間標(biāo)記效應(yīng)可能會(huì)有所不同,因而跨群體或跨物種基因組預(yù)測(cè)(GS)的一個(gè)困難是基因組育種值的估算。不過,最近動(dòng)物育種中的一些相關(guān)研究表明,盡管跨群體及跨物種GS的準(zhǔn)確度有可能下降,但依然能夠通過GS對(duì)純種的雜交性能作出準(zhǔn)確的選擇而無需利用譜系或品種信息[28,29,30]。
第3個(gè)問題是,猶如Muir早先[25]已指出的那樣,與普通的表型BLUP選擇法相比,采用GS有可能導(dǎo)致長期遺傳進(jìn)展下降。在動(dòng)物育種上,已有人針對(duì)該問題提出過一些應(yīng)對(duì)措施[48]。林木育種計(jì)劃的一個(gè)共同特點(diǎn)是可同步發(fā)展可供維持長期遺傳進(jìn)展的備用群體,而利用這些群體將新的遺傳多樣性不斷引入采用GS的優(yōu)良群體有望解決這一問題。
第4個(gè)問題是,與普通的表型BLUP選擇相比,采用GS是否會(huì)迅速增加群體的近交程度。Daetwyler等(2007)[82]的研究結(jié)果表明,GS不但可使不同性狀實(shí)現(xiàn)更均衡的選擇進(jìn)展,而且還能大大降低群體的近交率。對(duì)于林木植物而言,這無疑會(huì)增加其育種計(jì)劃的可持續(xù)性,就這點(diǎn)而論GS也頗受育種工作者的青睞。
最后一個(gè)重要問題是,在計(jì)劃實(shí)施GS之前必須仔細(xì)考慮GS的基因分型及數(shù)據(jù)處理成本。隨著技術(shù)的快速進(jìn)步及基因分型方法費(fèi)用的下降,并權(quán)衡GS的總成本與每單位時(shí)間遺傳進(jìn)展增加的潛力,我們謹(jǐn)慎而樂觀地認(rèn)為,GS在一些林木物種的高世代育種計(jì)劃種中具有很大的應(yīng)用潛力。不過,在林木育種中推薦及實(shí)施GS之前尚有大量工作需做,包括進(jìn)一步的模擬研究,本項(xiàng)初步研究中尚未涉及到的一些重要因素和問題的評(píng)估,尤為重要的是還要得概念驗(yàn)證試驗(yàn)的相關(guān)數(shù)據(jù)和資料。
[1] Grattapaglia D, Chaparro J, Wilcox P, et al.(1992) Mapping in woody plants with RAPD markers: applications to breeding in forestry and horticulture.Proceedings of the Symposium “Applications of RAPD Technology to Plant Breeding”.Crop Science Society of America, American Society of Horticultural Science, American Genetic Association, pp 37-40
[2] White TL, Adams WT, Neale DB (2007) Forest genetics.CABI, UK
[3] Williams CG, Neale DB (1992) Conifer wood quality and marker-aided selection-a case-study.Can J For Res-Revue Canadienne De Recherche Forestiere 22:1009-1017
[4] Strauss SH, Lande R, Namkoong G (1992) Limitations of molecularmarker-aided selection in forest tree breeding.Can J For Res-Revue Canadienne De Recherche Forestiere 22:1050-1061
[5] Grattapaglia D, Plomion C, Kirst M, et al.(2009) Genomics of growth traits in forest trees.Curr Opin Plant Biol 12:148-156
[6] Kirst M, Myburg A, Sederoff R (2004) Genetic mapping in forest trees: markers, linkage analysis and genomics.Genet Eng (N Y) 26:105-141
[7] Sewell M, Neale D (2000) Mapping quantitative traits in forest trees.In: Jain SM, Minocha SC (eds) Molecular biology of woody plants, vol.1 (Forestry Sciences, Vol 64).Kluwer Academic, The Netherlands, pp 407-423
[8] Beavis WD (1998) QTL analyses: power, precision, and accuracy.In: Patterson AH (ed) Molecular dissection of complex traits.CRC Publishing, Boca Raton, pp 145-162
[9] Brown GR, Bassoni DL, Gill GP, et al.(2003) Identification of quantitative trait loci influencing wood property traits in loblolly pine (Pinus taeda L.).III.QTL Verification and candidate gene mapping.Genetics 164:1537-1546
[10] Dillen S, Storme V, Marron N, et al.(2008) Genomic regions involved in productivity of two interspecific poplar families in Europe.1.Stem height, circumference and volume.Tree Genetics & Genomes 5:147-164
[11] Rae A, Pinel M, Bastien C, et al.(2008) QTL for yield in bioenergy Populus: identifying G × E interactions from growth at three contrasting sites.Tree Genet Genomes 4:97-112
[12] Sillanpaa MJ, Corander J (2002) Model choice in gene mapping: what and why.Trends Genet 18:301-307
[13] Bernardo R (2008) Molecular markers and selection for complex traits in plants: learning from the last 20 years.Crop Sci 48:1649-1664
[14] Neale DB, Savolainen O (2004) Association genetics of complex traits in conifers.Trends Plant Sci 9:325-330
[15] Eckert AJ, Bower AD, Wegrzyn JL, et al.(2009a) Asssociation genetics of coastal douglas fir (Pseudotsuga menziesu var.menziesii, Pinaceae).I.Cold-hardiness related traits.Genetics 182:1289-1302
[16] Gonzalez-Martinez SC, Huber D, Ersoz E, et al.(2008) Association genetics in Pinus taeda L.II.Carbon isotope discrimination.Heredity 101:19-26
[17] Gonzalez-Martinez SC, Wheeler NC, Ersoz E, et al.(2007) Association genetics in Pinus taeda L.I.Wood property traits.Genetics 175:399-409
[18] Visscher PM (2008) Sizing up human height variation.Nat Genet 40:489-490
[19] Goddard ME, Hayes BJ (2009) Mapping genes for complex traits in domestic animals and their use in breeding programmes.Nat Rev Genet 10:381-391
[20] Buckler ES, Holland JB, Bradbury PJ, et al.(2009) The genetic architecture of maize flowering time.Science 325:714-718
[21] Meuwissen TH, Hayes BJ, Goddard ME (2001) Prediction of total genetic value using genome-wide dense marker maps.Genetics157:1819-1829
[22] Calus MP, Meuwissen TH, de Roos AP, et al.(2008) Accuracy of genomic selection using different methods to define haplotypes.Genetics 178:553-561
[23] Dekkers JCM (2007) Prediction of response to marker-assisted and genomic selection using selection index theory.J Anim Breed Genet 124:331-341
[24] Long N, Gianola D, Rosa GJM, et al.(2007) Machine learning classification procedure for selecting SNPs in genomic selection: application to early mortality in broilers.J Anim Breed Genet 124:377-389
[25] Muir WM (2007) Comparison of genomic and traditional BLUPestimated breeding value accuracy and selection response under alternative trait and genomic parameters.J Anim Breed Genet 124:342-355
[26] Schaeffer LR (2006) Strategy for applying genome-wide selection in dairy cattle.J Anim Breed Genet 123:218-223
[27] Solberg TR, Sonesson AK, Woolliams JA, et al.(2008) Genomic selection using different marker types and densities.J Anim Sci 86:2447-2454
[28] de Roos AP, Hayes BJ, Goddard ME (2009) Reliability of genomic predictions across multiple populations.Genetics 183:545-553
[29] Ibanz-Escriche N, Fernando RL, Toosi A, et al.(2009) Genomic selection of purebreds for crossbred performance.Genet Sel Evol 41:12
[30] Toosi A, Fernando RL, Dekkers JC (2009) Genomic selection in admixed and crossbred populations.J Anim Sci 88:32-46
[31] Habier D, Fernando RL, Dekkers JCM (2009) Genomic selection using low-density marker panels.Genetics 182: 343-353
[32] Sonesson AK, Meuwissen THE (2009) Testing strategies for genomic selection in aquaculture breeding programs.Genet Sel Evol41:37
[33] Hayes BJ, Bowman PJ, Chamberlain AJ, et al.(2009) Invited review: genomic selection in dairy cattle: progress and challenges.J Dairy Sci 92:433-443
[34] Lee SH, van der Werf JHJ, Hayes BJ, et al.(2008) Predicting unobserved phenotypes for complex traits from whole-genome SNP Data.Plos Genetics 4
[35] Legarra A, Robert-Granie C, Manfredi E, et al.(2008) Performance of genomic selection in mice.Genetics 180:611-618
[36] Bernardo R, Yu JM (2007) Prospects for genomewide selection for quantitative traits in maize.Crop Sci 47:1082-1090
[37] Heffner EL, Sorrells ME, Jannink JL (2009) Genomic selection for crop improvement.Crop Sci 49:1-12
[38] Zhong SQ, Dekkers JCM, Fernando RL, et al.(2009) Factors affecting accuracy from genomic selection in populations derived from multiple inbred lines: a barley case study.Genetics 182:355-364
[39] Jannink JL, Lorenz AJ, Iwata H (2010) Genomic selection in plant breeding: from theory to practice.Brief Funct Genomics 9:166-177
[40] Wong CK, Bernardo R (2008) Genomewide selection in oil palm: increasing selection gain per unit time and cost with small populations.Theor Appl Genet 116:815-824
[41] Ingvarsson PK (2008) Multilocus patterns of nucleotide polymorphism and the demographic history of Populus tremula.Genetics 180:329-340
[42] Hill WG (1981) Estimation of effective population-size from data on linkage disequilibrium.Genet Res 38:209-216
[43] Resende MDV, Lopes PS, Silva RL, et al.(2008) Sele??o gen?mica ampla (GWS) e maximiza??o da eficiência do melhoramento genético.Pesqui Florestal Bras 56:63-77
[44] Meuwissen THE (2009) Accuracy of breeding values of 'unrelated' individuals predicted by dense SNP genotyping.Genet Sel Evol 41:35
[45] Daetwyler HD, Villanueva B, Woolliams JA (2008) Accuracy of predicting the genetic risk of disease using a genome-wide approach.PLoS ONE 3:e3395
[46] Lynch M, Walsh B (1998) Genetics and analysis of quantitative traits.Sinauer Associates, Sunderland
[47] Mrode RA (2005) Linear models for the prediction of animal breeding values.CABI, UK
[48] Goddard M (2009) Genomic selection: prediction of accuracy and maximisation of long term response.Genetica 136:245-257
[49] Sved JA (1971) Linkage disequilibrium and homozygosity of chromosome segments in finite populations.Theor Popul Biol 2:125-141
[50] Abasht B, Sandford E, Arango J, et al.(2009) Extent and consistency of linkage disequilibrium and identification of DNA markers for production and egg quality traits in commercial layer chicken populations.BMC Genomics 10:S2
[51] Amaral AJ, Megens HJ, Crooijmans RPMA, et al.(2008) Linkage disequilibrium decay and haplotype block structure in the pig.Genetics 179:569-579
[52] Heifetz EM, Fulton JE, O'Sullivan N, et al.(2005) Extent and consistency across generations of linkage disequilibrium in commercial layer chicken breeding populations.Genetics 171:1173-1181
[53] Megens HJ, Crooijmans RPMA, Bastiaansen JWM, et al.(2009) Comparison of linkage disequilibrium and haplotype diversity on macro- and microchromosomes in chicken.BMC Genetics 10:86
[54] Hayes BJ, Goddard ME (2008) Technical note: prediction of breeding values using marker-derived relationship matrices.J Anim Sci 86:2089-2092
[55] VanRaden PM (2008) Efficient methods to compute genomic predictions.J Dairy Sci 91:4414-4423
[56] Resende MDV, Fernandes JSC (1999) Procedimento BLUP (melhor predi??o linear n?o viciada) individual para delineamentos experimentais aplicados ao melhoramento florestal.Revista de Matemática e Estatística (Biometric Brazilian Journal - in Portuguese) 17:89-107
[57] Nielsen HM, Sonesson AK, Yazdi H, et al.(2009) Comparison of accuracy of genome-wide and BLUP breeding value estimates in sib based aquaculture breeding schemes.Aquaculture 289:259-264
[58] Piyasatian N, Fernando RL, Dekkers JCM (2007) Genomic selection for marker-assisted improvement in line crosses.Theor Appl Genet 115:665-674
[59] Mayor PJ, Bernardo R (2009) Genomewide selection and markerassisted recurrent selection in doubled haploid versus F-2 populations.Crop Sci 49:1719-1725
[60] Bernardo R (2009) Genomewide selection for rapid introgression of exotic germplasm in maize.Crop Sci 49:419-425
[61] Sansaloni CP, Petroli CD, Carling J, et al.(2010) A highdensity diversity arrays technology (DArT) microarray for genome-wide genotyping in Eucalyptus.Plant Meth 6:16
[62] Brondani RP, Williams ER, Brondani C, et al.(2006) A microsatellite-based consensus linkage map for species of Eucalyptus and a novel set of 230 microsatellite markers for the genus.BMC Plant Biol 6:20
[63] Sewell MM, Sherman BK, Neale DB (1999) A consensus map for loblolly pine (Pinus taeda L.).I.Construction and integration of individual linkage maps from two outbred three-generation pedigrees.Genetics 151:321-330
[64] Eckert AJ, Pande B, Ersoz ES, et al.(2009b) High-throughput genotyping and mapping of single nucleotide polymorphisms in loblolly pine (Pinus taeda L.).Tree Genet Genomes 5:225-234
[65] Pavy N, Pelgas B, Beauseigle S, et al.(2008) Enhancing genetic mapping of complex genomes through the design of highlymultiplexed SNP arrays: application to the large and unsequenced genomes of white spruce and black spruce.BMC Genomics 9:21
[66] Kulheim C, Yeoh SH, Maintz J, et al.(2009) Comparative SNP diversity among four Eucalyptus species for genes from secondary metabolite biosynthetic pathways.BMC Genomics 10:452
[67] Novaes E, Drost DR, Farmerie WG, et al.(2008) High-throughput gene and SNP discovery in Eucalyptus grandis, an uncharacterized genome.BMC Genomics 9:312
[68] Grattapaglia D, Kirst M (2008) Eucalyptus applied genomics: from gene sequences to breeding tools.New Phytol 179:911-929
[69] Mamanova L, Coffey AJ, Scott CE, et al.(2010) Target-enrichment strategies for next-generation sequencing.Nat Meth 7:111-118
[70] Myles S, Chia JM, Hurwitz B, et al.(2010) Rapid genomic characterization of the genus vitis.Plos One 5:e8219
[71] Raymond CA, Schimleck LR (2002) Development of near infrared reflectance analysis calibrations for estimating genetic parameters for cellulose content in Eucalyptus globulus.Can J For Res- Revue Canadienne De Recherche Forestiere 32:170-176
[72] Robinson AR, Mansfield SD (2009) Rapid analysis of poplar lignin monomer composition by a streamlined thioacidolysis procedure and near-infrared reflectance-based prediction modeling.Plant J 58:706-714
[73] Schimleck LR, Sussenbach E, Leaf G, et al.(2007) Microfibril angle prediction of Pinus taeda wood samples based on tangential face NIR spectra.IAWA J 28:1-12
[74] Tuskan G, West D, Bradshaw HD, et al.(1999) Two high-throughput techniques for determining wood properties as part of a molecular genetics analysis of hybrid poplar and loblolly pine.Appl Biochem Biotechnol 77-9:55-65
[75] Novaes E, Osorio L, Drost DR, et al.(2009) Quantitative genetic analysis of biomass and wood chemistry of Populus under different nitrogen levels.New Phytol 182:878-890
[76] Griffin AR, Whiteman P, Rudge T, et al.(1993) Effect of Paclobutrazol on flower-bud production and vegetative growth in 2 species of eucalyptus.Can J For Res-Revue Canadienne De Recherche Forestiere 23:640-647
[77] Hasan O, Reid JB (1995) Reduction of generation time in eucalyptusglobulus.Plant Growth Regul 17:53-60
[78] Greenwood MS (1980) Method for inducing early flowering on young forest trees.In: Office USPaT (ed).Weyerhaeuser Company, Tacoma
[79] Namkoong G, Kang HC, Brouard JS (1988) Tree breeding: principles and strategies.Springer, New York
[80] McKeand SE, Bridgwater FE (1998) A strategy for the third breeding cycle of loblolly pine in the southeastern US.Silvae Genetica 47:223-234
[81] Resende MDV, de Assis TF (2008) Selecào recorrente recíproca entre populacǒes sintéticas multi-espécies (SRR-PSME) de eucalipto.Pesqui Florestal Bras 57:57-60
[82] Daetwyler HD, Villanueva B, Bijma P, et al.(2007) Inbreeding in genome-wide selection.J Anim Breed Genet 124:369-376
全文譯自Tree Genetics & Genomes (2011) 7:241-255
Genomic selection in forest tree breeding Translator
TIAN Lang1, Proofreader LING Qing-gen2
(1.RubberResearchInstitute,ChineseAcademyofTropicalAgriculturalSciences,Danzhou,Hainan571737;2.InstituteofScientificandTechnicalInformation,ChineseAcademyofTropicalAgriculturalSciences,Haikou,Hainan571101)
Genomic selection (GS) involves selection decisions based on genomic breeding values estimated as the sum of the effects of genome-wide markers capturing most quantitative trait loci (QTL) for the target trait(s).GS is revolutionizing breeding practice in domestic animals.The same approach and concepts can be readily applied to forest tree breeding where long generation times and late expressing complex traits are also a challenge.GS in forest trees would have additional advantages: large training populations can be easily assembled and accuratelyphenotyped for several traits, and the extent of linkage disequilibrium (LD) can be high in elite populations with small effective population size (Ne) frequently used in advanced forest tree breeding programs.Deterministic equations were used to assess the impact of LD (modeled by Ne and intermarker distance), the size of the training set, trait heritability, and the number of QTL on the predicted accuracy of GS.Results indicate that GS has the potential to radically improve the efficiency of tree breeding.The benchmark accuracy of conventional BLUP selection is reached by GS even at a marker density ~2 markers/cM when Ne≤30, while up to 20 markers/cM are necessary for larger Ne.Shortening the breeding cycle by 50% with GS provides an increase ≥100% in selection efficiency.With the rapid technological advances and declining costs of genotyping, our cautiously optimistic outlook is that GS has great potential to accelerate tree breeding.However, further simulation studies and proof-of-concept experiments of GS are needed before recommending it for operational implementation.
Genome-wide selection;Effective population size;Linkage disequilibrium;Marker-assisted selection(MAS)
2015-01-18 譯者簡(jiǎn)介:田郎(1961-),男,侗族,湖南新晃侗族自治縣人,碩士,副研究員,現(xiàn)從事植物組織培養(yǎng)及分子生物學(xué)研究工作。E-mail:tianerlang@163.com。
凌青根(1965-),男,漢族,湖南雙峰縣人,大學(xué)本科,副研究員,現(xiàn)從事科技期刊編輯工作。E-mail: lqgen22@163.com。
Q946.885
A
1001-2117(2015)04-0115-17