張華,王秀全,何丹,龐啟華稅紅霞,盧庭啟,蔣曉芳
( 四川省綿陽(yáng)市農(nóng)業(yè)科學(xué)研究院,四川 綿陽(yáng) 621000)
作物的很多重要農(nóng)藝性狀,如產(chǎn)量、品質(zhì)、抗逆性、抗病性等均為數(shù)量性狀。相比質(zhì)量性狀,數(shù)量性狀受眾多的微效多基因控制,遺傳效應(yīng)較為復(fù)雜。形態(tài)、生化等傳統(tǒng)標(biāo)記方法由于固有的局限性,難以精確確定相關(guān)基因在染色體上的位置、效應(yīng)及多態(tài)性。隨著分子標(biāo)記技術(shù)的發(fā)展,在構(gòu)建分離群體的基礎(chǔ)上,利用RFLP、SSR等分子標(biāo)記進(jìn)行連鎖分析和QTL作圖已成為研究植物數(shù)量性狀的主要方法[1],常用的QTL作圖法有單標(biāo)記法、區(qū)間作圖法、混合區(qū)間作圖法等,應(yīng)用上述方法定位了很多玉米染色體上與數(shù)量性狀相關(guān)的區(qū)段,但傳統(tǒng)的QTL分析始終存在如下一些問(wèn)題:(1)需要專門構(gòu)建相應(yīng)的作圖群體,時(shí)間成本高。(2)由于分離群體規(guī)模較小,基因重組的次數(shù)有限,QTL作圖的精度一般只能達(dá)到10~30cM,即使運(yùn)用隨機(jī)交配群體,QTL作圖精度的提高也非常有限[2]。(3)QTL作圖僅涉及一個(gè)座位的少數(shù)幾個(gè)基因,只能代表該物種的小部分相關(guān)表型變異[3]。
近年來(lái),隨著玉米自交系B73測(cè)序工作的完成,大量SNP標(biāo)記相繼被開(kāi)發(fā),在SNP分子標(biāo)記基礎(chǔ)上進(jìn)行關(guān)聯(lián)分析已成為發(fā)掘玉米數(shù)量性狀基因的重要手段。關(guān)聯(lián)分析 (association analysis)又稱作關(guān)聯(lián)作圖 (association mapping)或連鎖不平衡作圖 (LD mapping),是以連鎖不平衡為基礎(chǔ),鑒定群體內(nèi)目標(biāo)性狀與分子標(biāo)記或候選基因關(guān)系的分析方法[4]。該方法最初用于人類疾病基因的研究,自Thornsberry等[5]于2001年運(yùn)用關(guān)聯(lián)分析對(duì)玉米花期變異進(jìn)行研究后,關(guān)聯(lián)分析已成為玉米基因組學(xué)研究的重要方法。相比傳統(tǒng)的QTL作圖,關(guān)聯(lián)分析具有以下優(yōu)點(diǎn):(1)以已有的自然或人工群體作為基礎(chǔ)材料,無(wú)需構(gòu)建專門的作圖群體,大大縮短了研究周期。(2)作圖精度較高,可以精確定位到染色體的某一區(qū)段。(3)能夠檢測(cè)到更加廣泛的遺傳多樣性,發(fā)掘更多的等位基因多態(tài)性,有利于玉米功能基因的挖掘與功能性分子標(biāo)記的開(kāi)發(fā)。
分子標(biāo)記技術(shù)相繼經(jīng)歷了RFLP、SSR、RAPD、AFLP等階段,在數(shù)量性狀的發(fā)掘與定位、遺傳多樣性研究以及分子標(biāo)記輔助育種中發(fā)揮著重要的作用。比如SSR分子標(biāo)記不僅可以進(jìn)行連鎖分析,也可以進(jìn)行關(guān)聯(lián)分析。Thornsberry等[5]對(duì)玉米花期變異的研究就是利用SSR分子標(biāo)記進(jìn)行關(guān)聯(lián)分析,定位了與dwarf8基因表達(dá)相關(guān)的多態(tài)位點(diǎn)。但SSR等分子標(biāo)記技術(shù)也存在著一些固有的缺陷,最主要的問(wèn)題就是分子標(biāo)記的低通量以及較低的自動(dòng)化程度,而新型分子標(biāo)記技術(shù)SNP的出現(xiàn)有望改變這一局面。
單核苷酸多態(tài)性 (Single Nucleotide Polymorphisms,SNP)是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性,在群體中的頻率>1%,相比SSR等分子標(biāo)記,SNP具有如下特點(diǎn):(1)SNP數(shù)量較多、分布廣泛,Wright等[6]對(duì)玉米和大芻草的774個(gè)基因進(jìn)行SNP多樣性比較,發(fā)現(xiàn)編碼區(qū)每124bp就存在1個(gè)SNP,非編碼區(qū)每31bp就存在1個(gè)SNP。(2)SNP相對(duì)穩(wěn)定,與微衛(wèi)星等重復(fù)序列多態(tài)性標(biāo)記相比,每一代中每個(gè)核苷酸變異頻率極低。(3)SNP作為二態(tài)性標(biāo)記,結(jié)合DNA芯片技術(shù),有利于實(shí)現(xiàn)高通量、自動(dòng)化的篩查和分析。近年來(lái),新型SNP分子標(biāo)記技術(shù)的發(fā)展極大地促進(jìn)了關(guān)聯(lián)分析在禾谷類作物,特別是玉米遺傳學(xué)研究中的應(yīng)用。
LD指的是同一條染色體上2個(gè)等位基因間的非隨機(jī)關(guān)聯(lián),即當(dāng)位于同一條染色體上不同座位的2個(gè)等位基因 (A,B)同時(shí)存在的概率大于因隨機(jī)分布使2個(gè)等位基因同時(shí)出現(xiàn)的概率時(shí),就稱這2個(gè)座位處于LD狀態(tài),包括2個(gè)標(biāo)記間或2個(gè)基因/QTL間或1個(gè)基因/QTL與1個(gè)標(biāo)記座位間的非隨機(jī)關(guān)聯(lián)[7]。LD的度量一般不直接使用D值進(jìn)行衡量,而是用LD系數(shù)r2和D’估計(jì)2個(gè)位點(diǎn)之間的LD水平。假設(shè)有2個(gè)連鎖的位點(diǎn)A (等位基因?yàn)锳、a)和B(等位基因?yàn)锽、b),各自的基因頻率分別為PA、Pa、PB、Pb,它們組成的單倍型有AB、Ab、aB、ab 4種,各自的基因型頻率分別為PAB、PAb、PaB、Pab,實(shí)際觀察到的單倍型頻率與期望頻率之間的差異D的計(jì)算公式為:D= (PAB-PAPB)。LD系數(shù)D’=D2/min (PAPb,PaPB)(D<0)或D’=D2/min (PAPB,PaPb)(D>0),D’是與頻率無(wú)關(guān)的量,當(dāng)D’=1時(shí),說(shuō)明兩位點(diǎn)間沒(méi)有發(fā)生重組;D’=0時(shí),稱為無(wú)LD或連鎖平衡,即4種單倍頻率相等。D’<1,說(shuō)明兩位點(diǎn)間發(fā)生過(guò)重組或突變,4種單倍型均可出現(xiàn)。LD系數(shù)r2=D2/PAPaPBPb,r2是與頻率有關(guān)的量,r2=1時(shí),說(shuō)明兩位點(diǎn)無(wú)重組,稱為完美LD,即觀察到一個(gè)標(biāo)記就可得到另一個(gè)標(biāo)記的全部信息。r2=0時(shí),稱為無(wú)LD或連鎖平衡,即4種單倍頻率相等。r2>0.33時(shí),表示有較強(qiáng)的LD。D’反映位點(diǎn)間的重組史,r2反映不僅反映重組史,也包括了突變史。相比D’,r2可以提供標(biāo)記是否能與QTL相關(guān)的信息,因此在關(guān)聯(lián)分析中通常使用r2來(lái)表示群體的LD水平。連鎖(linkage)與連鎖不平衡是相關(guān)但不相同的2個(gè)概念,連鎖指的是同一條染色體上非等位基因的聯(lián)合傳遞,而連鎖不平衡指的是群體內(nèi)等位基因之間的相關(guān)關(guān)系。
LD受多種因素影響,如物種的交配模式、群體大小、群體結(jié)構(gòu)、染色體的位置、突變和重組等。水稻、小麥、擬南芥等自交物種中,由于純合度高,不同基因間的重組率低,即使在很長(zhǎng)的物理距離內(nèi)(可達(dá)幾百bp)也存在LD。例如自交物種擬南芥,其LD的衰減要比玉米慢得多。對(duì)擬南芥的研究表明,其LD衰減距離可達(dá)1cM,而異交作物如玉米等,由于基因間重組程度與頻率較高,其LD衰減迅速[8]。群體內(nèi)的遺傳多樣性也是影響LD的重要因素,如在玉米中,地方品種在600bp范圍內(nèi)存在LD衰減,而對(duì)玉米自交系來(lái)說(shuō),由于連續(xù)自交導(dǎo)致不同座位基因間的純合程度大大提高,LD衰減較遺傳多樣性豐富的地方品種大大降低,遺傳多樣性較為豐富的玉米自交系在1500bp范圍內(nèi)存在LD衰減,而少數(shù)骨干自交系往往在100000bp內(nèi)都可能存在LD[9-11]。
關(guān)聯(lián)分析或LD作圖主要包括2種方法,分別是基于全基因組和基于候選基因的關(guān)聯(lián)分析。全基因組掃描方法 (genomewide association study,GWAS)采用一定數(shù)量的分布于基因組中的分子標(biāo)記對(duì)所選材料進(jìn)行基因型鑒定,一般不涉及候選基因的預(yù)測(cè),而基于候選基因的關(guān)聯(lián)分析是在基于目標(biāo)候選基因的序列水平上,應(yīng)用統(tǒng)計(jì)分析的方法發(fā)掘與目標(biāo)性狀相關(guān)的基因。Wilson等[12]對(duì)玉米籽粒淀粉合成有關(guān)的6個(gè)候選基因ae1、bt2、sh1、sh2、su1、wx1與玉米子粒組分進(jìn)行了關(guān)聯(lián)分析,結(jié)果表明,bt2、sh1、sh2基因與玉米籽粒組分存在顯著關(guān)聯(lián),ae1與sh2基因與淀粉糊化特性顯著關(guān)聯(lián),ae1與sh1基因與直鏈淀粉水平存在顯著關(guān)聯(lián)。Andersen等[13]對(duì)催化玉米中木質(zhì)素生物合成代謝的酶基因PAL進(jìn)行了關(guān)聯(lián)分析。結(jié)果表明,在考慮和不考慮群體結(jié)構(gòu)的2種情況下,均發(fā)現(xiàn)了基因中與這些自交系的飼用品質(zhì)存在顯著關(guān)聯(lián)的多態(tài)性。而在全基因組關(guān)聯(lián)分析方面,Beló等[14]等用8590個(gè)SNP對(duì)553個(gè)原始玉米材料進(jìn)行了油酸含量的全基因組關(guān)聯(lián)分析,首次運(yùn)用全基因組關(guān)聯(lián)分析證實(shí)了與控制油酸合成相關(guān)的fad2基因,并將該基因定位到與已知分子標(biāo)記相距2kb的精度。
兩種關(guān)聯(lián)分析方法各有特點(diǎn),其作圖精度均取決于作圖群體的大小與作圖群體的LD程度。基于候選基因的關(guān)聯(lián)分析方法則適用于LD程度相對(duì)較低的作圖群體,該方法獲得的物種遺傳信息相對(duì)較少,但它可以有效減少基因型檢測(cè)的數(shù)量,同時(shí)容易對(duì)目標(biāo)QTL進(jìn)行精細(xì)定位,是鑒定候選基因功能的有效方法;而全基因組掃描法適用于在很長(zhǎng)物理距離內(nèi)都存在LD的作圖群體,容易獲得較多的遺傳信息,可以發(fā)掘基因組中大量與數(shù)量性狀相關(guān)的位點(diǎn),但該方法需要數(shù)量龐大的SNP標(biāo)記和無(wú)群體結(jié)構(gòu)的大規(guī)模作圖群體,工作量龐大,不易完成。但隨著主要物種測(cè)序工作的相繼完成,大量SNP標(biāo)記的開(kāi)發(fā),全基因組關(guān)聯(lián)分析將在未來(lái)玉米基因組學(xué)研究中發(fā)揮重要的作用。
關(guān)聯(lián)分析在物種數(shù)量性狀研究中具有廣闊的應(yīng)用前景,但也受到多方面因素的影響,可能產(chǎn)生表型與基因型間的假陽(yáng)性關(guān)聯(lián)。影響LD的因素都會(huì)對(duì)關(guān)聯(lián)分析的結(jié)果產(chǎn)生影響,首要因素就是作物的群體結(jié)構(gòu)。許多重要作物都擁有漫長(zhǎng)的馴化史,復(fù)雜的選育過(guò)程以及來(lái)自野生近緣種的遺傳漂變,造成了種質(zhì)資源內(nèi)存在著復(fù)雜的群體結(jié)構(gòu)[15]。當(dāng)研究所使用的群體存在較多亞群時(shí),等位基因在基因組上的分布往往不平衡,可能造成標(biāo)記與數(shù)量性狀相關(guān)位點(diǎn)的假陽(yáng)性關(guān)聯(lián),從而使關(guān)聯(lián)分析更加復(fù)雜[16]。解決假陽(yáng)性關(guān)聯(lián)的辦法就是使用盡可能多的覆蓋全基因組的分子標(biāo)記和采用適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)方法,SNP分子標(biāo)記技術(shù)因其覆蓋范圍廣、數(shù)量眾多的特點(diǎn),成為進(jìn)行關(guān)聯(lián)分析的理想分子標(biāo)記技術(shù)。在統(tǒng)計(jì)學(xué)方面,目前也已發(fā)展出了多種可控制群體結(jié)構(gòu)影響的統(tǒng)計(jì)學(xué)方法以解決假陽(yáng)性關(guān)聯(lián)的問(wèn)題[17]。此外,對(duì)于遺傳多樣性較低的物種,基因多態(tài)性的降低往往造成LD作圖中統(tǒng)計(jì)能力的下降,在這種情況下連鎖分析往往比LD作圖更具優(yōu)越性。為了克服2種作圖方法的各自缺陷,目前已發(fā)展出基于連鎖作圖和連鎖不平衡作圖的整合作圖法,整合作圖法結(jié)合了2種類型的作圖群體,使得作圖群體進(jìn)一步增大,作圖效率也比單一作圖法有所增加,有望進(jìn)一步提高QTL定位的精度[18]。
數(shù)量性狀基因的定位、克隆的最終目的都是為分子標(biāo)記輔助育種工作進(jìn)行服務(wù),利用分子標(biāo)記技術(shù)選擇優(yōu)良的品系或品種,而基于SNP的關(guān)聯(lián)分析有望在該領(lǐng)域發(fā)揮重要的作用,主要體現(xiàn)在以下2個(gè)方面:(1)數(shù)量性狀基因的深度挖掘和精確定位。基于SNP的關(guān)聯(lián)分析能夠大大提高作圖精度,結(jié)合連鎖分析進(jìn)行整合作圖可以使QTL定位達(dá)到單基因水平,可以顯著提高與分子標(biāo)記緊密連鎖的的目標(biāo)性狀的選擇效率,從而整體推進(jìn)育種工作的速度與精度,這也是分子標(biāo)記育種的最終目的。(2)推動(dòng)功能標(biāo)記的開(kāi)發(fā)與應(yīng)用。功能標(biāo)記是指從影響性狀變異基因的功能域開(kāi)發(fā)出來(lái)的多態(tài)性標(biāo)記,其序列信息已完全獲得,而該基因與目標(biāo)性狀是否相關(guān)就可以通過(guò)基于LD的關(guān)聯(lián)分析進(jìn)行驗(yàn)證;在此基礎(chǔ)上就可以針對(duì)其特定序列,設(shè)計(jì)相應(yīng)的等位基因PCR引物,進(jìn)行相關(guān)標(biāo)記的開(kāi)發(fā),并在遺傳基礎(chǔ)廣泛的種質(zhì)資源中繼續(xù)進(jìn)行驗(yàn)證,以用于廣泛遺傳背景下的分子標(biāo)記輔助育種,從而提高優(yōu)良品系或品種的選擇效率。
近年來(lái),關(guān)聯(lián)分析在植物數(shù)量性狀的研究中的作用越來(lái)越重要,并伴隨分子生物學(xué)、生物信息學(xué)、基因組學(xué)、新型統(tǒng)計(jì)模型的發(fā)展而不斷改進(jìn)和完善。隨著玉米基因組學(xué)時(shí)代的到來(lái),利用關(guān)聯(lián)分析挖掘新基因、開(kāi)發(fā)新標(biāo)記、定位新性狀將日益成為玉米種質(zhì)資源研究的重要手段與方法。隨著關(guān)聯(lián)分析在玉米種質(zhì)資源研究中的廣泛應(yīng)用,玉米中控制各種重要農(nóng)藝性狀的優(yōu)異等位基因的發(fā)掘和利用的速度、精度將顯著提高,這將有利于推動(dòng)我國(guó)玉米種質(zhì)資源的遺傳改良和種質(zhì)創(chuàng)新,并最終實(shí)現(xiàn)為育種實(shí)踐服務(wù)的目標(biāo)。
[1]方宣均,吳為人,唐紀(jì)良.作物DNA標(biāo)記輔助育種 [M].北京:科學(xué)出版社,2001.
[2]Flint-Garcia S A,Thuillet A C,Yu J M,et al.Maize association population:a high-resolution platform for quantitative trait locus dissection [J].Plant J,2005,44:1054-1064.
[3]Myles S,Peiffer J,Brown P J,et al.Association mapping:critical considerations shift from genotyping to experimental design [J].The Plant Cell,2009,21:2194-2202.
[4]Yang X H,Yan J B,Zhang Y P,et al.Reviews of association analysis for quantitative traits in plant[J].Acta agronomica sinica,2007,33:523-530.
[5]Thornsberry J M,Goodman M M,Buckler E S,et al.Dwarf8polymor-phisms associate with variation in flowering time [J].Nature Genetics,2001,28:286-289.
[6]Wright S I,Vroh B I,Schroeder S G,et al.The effects of artificial selection on the maize genome[J].Science,2005,308:1310-1314.
[7]Gupta P K,Rustgi S,Kulwal P L.Linkage disequilibrium and association studies in higher plants:Present ststus and future prospects [J].Plant Mol Biol,2005,57:461-485.
[8]Nordborg M,Borevitz J O,Bergelson J,et al.The extent of linkage disequilibrium in Arabidopsis thaliana [J].Nat Genet,2002,30:190-193.
[9]Remington D L,Thornsberry J M,Matsuoka Y,et al.Structure of linkage disequilibrium and phenotypic association in the maize genome [J].Proc Natl Acad Sci USA,2001,98:156-158.
[10]Tenaillon M I,Sawkins M C,Long A D,et al.Patterns of DNA sequence polymorphism along chromosome 1of maize(Zea mays ssp.way L)[J].Proc Natl Acad Sci USA,2001,98:58-60.
[11]王榮煥,王天宇,黎裕.植物基因組中的連鎖不平衡 [J].遺傳,2007,29(11):1317-1323.
[12]Wilson L M,Whitt,S R,Ibanez A M,et a1.Dissection ofmaize kernel composition and starch production by candidate gene association [J].Plant Cell,2004,16:2719.
[13]Andersen J R,Schrag T,Melchinger A E.Validation of Dwarf8polymorphisms associated with flowering time in elite European inbred lines of maize [J].Theor Appl Genet,2005,111:206-217.
[14]BelóA,Zheng P,Luck S.Whole genome scan detects an allelic variant of fad2associated with increased oleic acid levels in maize[J].Mol Genet Genomics,2008,279:1-10.
[15]Sharbel T F,Haubold B,Mitchell T.Genetic isolation by distance in Arabidopsis thaliana:biogeography and postglacial colonization of Europe [J].Mol Ecol 2000,9:2109-2118.
[16]Knowler W C,Williams R C,Pettitt D J,et al.Gm3;5,13,14and type 2diabetes mellitus:an association in American Indians with genetic admixture[J].Am J Hum Genet,1988,43:520-526.
[17]Yu J M,Pressoir G,Briggs W H,et al.An unified mixed-model method for association mapping that accounts for multiple levels of relatedness[J].Nat Genet,2006,38:203-208.
[18]盧艷麗.不同類型玉米種質(zhì)分子特征分析及耐旱相關(guān)性狀的連鎖-連鎖不平衡聯(lián)合作圖 [D].成都:四川農(nóng)業(yè)大學(xué),2010.