武 晶
(中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081)
菜豆屬(Phaseolus L.)為同源二倍體作物,染色體基數(shù)為 11,染色體數(shù)多為 2n=22,極少數(shù)為2n=20,基因組大小為 0.4~1.9 pg(https://cvalues.science.kew.org/)。菜豆屬包含有80多個(gè)物種,多數(shù)為野生種,僅有5個(gè)栽培種,分別為普通菜豆(P.vulgaris L.)、多花菜豆(P.cocineus L.)、利馬豆(P.lunatus L.)、叢林菜豆(P.dumosus L.)和寬葉菜豆(P.acutifolius L.),其中普通菜豆在世界范圍內(nèi)種植范圍最廣、栽培面積最大、食用人群最多[1]。經(jīng)過長(zhǎng)期馴化和地理隔離,普通菜豆形成了安第斯和中美兩個(gè)栽培普通菜豆多樣性中心,均為二倍體,染色體數(shù)為2n=20,基因組大小相差不大,均在600 Mb左右[1]。由于普通菜豆籽粒富含蛋白質(zhì)和多種微量元素,且脂肪含量非常低,是人類極佳的植物蛋白來源,正日益受到大眾的青睞。據(jù)聯(lián)合國(guó)糧農(nóng)組織2018年統(tǒng)計(jì),我國(guó)年種植面積約1 000萬km2,年均產(chǎn)量為130萬t,居世界第五,其中,80%以上出口歐洲、南美洲等國(guó),是主要的出口創(chuàng)匯商品之一,也是食用豆類中出口量最大的豆種。
遺傳連鎖圖譜是開展基因定位和克隆的強(qiáng)有力工具。普通菜豆遺傳圖譜的研究與水稻、小麥、玉米等作物相比稍顯滯后,但也是經(jīng)歷了由表型標(biāo)記、限制性內(nèi)切酶切片段長(zhǎng)度多態(tài)性標(biāo)記(restriction fragment length polymorphism,RFLP)、擴(kuò)增片段長(zhǎng)度多態(tài)性標(biāo)記(amplified fragment length polymorphism,AFLP)、簡(jiǎn)單重復(fù)序列標(biāo)記(simple sequence repeats,SSR)、單核苷酸多態(tài)性標(biāo)記(single nucleotide polymorphisms,SNPs)等的發(fā)展歷程。十九世紀(jì)中葉,Gregor Mendel利用P.vulgaris和P.nanus的后代第一次對(duì)普通菜豆進(jìn)行遺傳分析,目的是驗(yàn)證利用豌豆所獲得的遺傳定律[2]。隨后,Shaw和Norton在1918年,利用普通菜豆種內(nèi)雜交試驗(yàn),確定籽粒顏色是由多個(gè)獨(dú)立因子控制[2]。1921年,Tjebbes和Kooiman報(bào)道了普通菜豆中的首個(gè)連鎖現(xiàn)象,開啟了普通菜豆的遺傳連鎖研究[2]。20世紀(jì)80年代,隨著RFLP、AFLP、SSR等分子標(biāo)記的出現(xiàn),開始了基于分子標(biāo)記的遺傳圖譜構(gòu)建。C.E.Vallejo等[3-4]利用來自中美基因庫(kù)的XR-235-1-1和安第斯基因庫(kù)的Calima雜交獲得的分離群體構(gòu)建了包含P基因、224個(gè)RFLP標(biāo)記、9個(gè)種子蛋白標(biāo)記和9個(gè)酶標(biāo)記,圖譜長(zhǎng)度為960 cM的遺傳連鎖圖譜。R.O.Nodari等[5]利用中美基因庫(kù)的BAT 93和安第斯基因庫(kù)的Jalo EEP 558雜交獲得的分離群體構(gòu)建了包含有108個(gè)RFLP標(biāo)記、7個(gè)同工酶標(biāo)記、7個(gè)RAPD標(biāo)記和3個(gè)表型標(biāo)記,圖譜長(zhǎng)度為827 cM的遺傳連鎖圖譜,之后P.Gepts等[6]又加密了該遺傳圖譜,將標(biāo)記增加到204個(gè),圖譜總長(zhǎng)度為1 060 cM。此外,還構(gòu)建了多個(gè)涉及回交群體(back cross,BC1)、重組自交系群體(recombinant inbrad strain,RIL)的包含 RFLP、AFLP和RAPD的遺傳圖譜[7-19]。同水稻、玉米和小麥等大作物一樣,SSRs或SCAR等基于單一位點(diǎn)的PCR標(biāo)記的開發(fā)為普通菜豆遺傳圖譜的構(gòu)建帶來了快速發(fā)展,迅速取代了RFLP、AFLP和RAPD等第一代標(biāo)記作為遺傳圖譜的首選標(biāo)記。2000年,Yu K.等[20]首次將15個(gè)SSR標(biāo)記錨定到包含RAPD和RFLP的圖譜上,隨后M.W.Blair等[21]利用81個(gè)基于基因組序列和69個(gè)基于序列表達(dá)標(biāo)簽(expressed sequence tag,EST)開發(fā)的 SSR 標(biāo)記,與RFLP、RAPD和AFLP標(biāo)記構(gòu)建了遺傳圖譜。日益增長(zhǎng)的普通菜豆EST序列和基因組序列為SSR、SNP等標(biāo)記的開發(fā)提供了海量的序列信息。2005年,M.Ramírez等[22]分析了中美基因庫(kù)的Negro Jamapa和安第斯基因庫(kù)的G19833材料的cDNA文庫(kù)中的21 000條EST序列,并開發(fā)SNP標(biāo)記。特別是近年來測(cè)序技術(shù)的飛速發(fā)展,標(biāo)記的開發(fā)更為便捷。Zou X.等[23-24]通過對(duì)36個(gè)普通菜豆種質(zhì)資源基因組的二代測(cè)序,鑒定出 43 698個(gè) SNPs和 1 267個(gè) InDels,其中 24 907個(gè)SNPs和692個(gè)InDels位于基因區(qū),Müller分析了52 270個(gè)BAC文庫(kù)的末端測(cè)序序列,鑒定出3 789個(gè)SSR位點(diǎn)。2013年Chen M.L.等[25]利用454測(cè)序結(jié)果開發(fā)了90對(duì)SSR標(biāo)記,并將其中的85對(duì)定位于染色體上。特別是針對(duì)抗病基因所開發(fā)的RGA標(biāo)記,2012年Liu J.等[26]利用454測(cè)序結(jié)果開發(fā)了365個(gè)與抗病相關(guān)基因的標(biāo)記,使得普通菜豆遺傳圖譜的質(zhì)量得到進(jìn)一步提升。SNP標(biāo)記由于其具有在基因組上分布廣、數(shù)量多等優(yōu)點(diǎn)而受到研究者青睞。2013年M.W.Blair等[27]利用Illumina Golden Gate assay方法開發(fā)了736個(gè)SNP引物,并利用這些標(biāo)記研究了236份材料間的多樣性?;谪S富的標(biāo)記信息,遺傳圖譜的質(zhì)量也進(jìn)一步提升。例如,C.H.Galeano等[28]2012年基于DOR364×BAT477群體,構(gòu)建了包含2 706個(gè)SNP標(biāo)記的連鎖圖譜,J.Schmutz等[29]2014年基于F2群體構(gòu)建了包含有7 015個(gè)SNP標(biāo)記的遺傳圖譜。特別值得一提的是,2020年中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所研究人員通過對(duì)683份普通菜豆種質(zhì)資源進(jìn)行10倍基因組覆蓋率的全基因組重測(cè)序,構(gòu)建了包含480萬個(gè)SNP的高密度、高精度的單倍型圖譜,為進(jìn)一步開展基因組結(jié)構(gòu)分析和基因定位提供了豐富的標(biāo)記信息[30]。
大量分子標(biāo)記的開發(fā)和高質(zhì)量的遺傳圖譜的構(gòu)建,也促進(jìn)了普通菜豆重要農(nóng)藝性狀的基因/位點(diǎn)的定位研究。首先,針對(duì)炭疽病和普通細(xì)菌性疫病等非生物脅迫抗性定位了大量的QTLs,例如,花葉病毒抗性(4個(gè) QTLs)、炭疽病抗性(17個(gè) QTLs)、普通細(xì)菌性疫病抗性(27個(gè)QTLs)、白霉病抗性(27個(gè)QTLs)、銹病抗性(12個(gè) QTLs)、根腐病抗性(30個(gè)QTLs)、角斑病抗性(24個(gè) QTLs)和白粉病抗性(36個(gè)QTLs)等[2]。其中,研究較為深入的是炭疽病抗性遺傳位點(diǎn)Co-1,陳明麗等[31]利用圖位克隆的方法將候選基因定位在46 Kb的區(qū)段內(nèi),包含4個(gè)候選基因,通過抗感親本間候選基因表達(dá)模式分析,初步確定Phvul.001G243700為候選基因。此外,針對(duì)效應(yīng)較大的QTL位點(diǎn)開發(fā)出可應(yīng)用于分子育種的分子標(biāo)記,例如在已發(fā)現(xiàn)的細(xì)菌性疫病抗性QTL中,BC 420、SU 91和SAP 6位點(diǎn)的抗病基因由于抗性水平高而得到較為廣泛的應(yīng)用,特別是其中兩個(gè)抗病基因同時(shí)存在時(shí)其抗性更強(qiáng)[32-36]。Shi C.等[36]針對(duì)BC 420和SU 91兩個(gè)重要位點(diǎn)開展了基因克隆工作,利用圖位克隆并結(jié)合關(guān)聯(lián)分析的方法初步明確了候選基因,并且開發(fā)了鑒定抗性候選基因的特異標(biāo)記。非生物逆境抗性QTL的定位主要集中在旱、養(yǎng)分利用效率等方面,2012年M.W.Blair等[37-38]在6個(gè)環(huán)境中利用RILs群體檢測(cè)抗旱相關(guān)性狀的QTLs;Asfaw檢測(cè)到15個(gè)根部性狀QTLs與抗旱性密切相關(guān)。還有針對(duì)缺鐵、鋅等微量元素耐受性位點(diǎn)定位的報(bào)道,例如利用RIL群體在第六連鎖群檢測(cè)到效應(yīng)比較高的遺傳位點(diǎn),此外,還在第2、3和4染色體定位到多個(gè)微效位點(diǎn)[39-40]。針對(duì)株高、生長(zhǎng)習(xí)性、開花期、百粒重、粒重和產(chǎn)量等重要農(nóng)藝性狀也定位到一系列遺傳位點(diǎn)[41-45]。近年來,全基因組關(guān)聯(lián)分析已經(jīng)成為定位基因的重要手段之一,最先在普通菜豆中開展全基因組關(guān)聯(lián)分析的對(duì)細(xì)菌性疫病的定位,Shi C.等[46]利用132個(gè)SNP標(biāo)記,基于395份種質(zhì)資源的自然群體開展了CBB抗性基因的定位,共有12個(gè)SNP與已經(jīng)報(bào)道的抗性QTL一致,還檢測(cè)到8個(gè)新的抗性位點(diǎn)。之后,利用關(guān)聯(lián)分析的方法陸續(xù)定位了開花期、生物量、產(chǎn)量性狀和籽粒性狀等性狀的基因/QTLs[47-49]。2020年中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所研究人員利用480萬個(gè)SNP開展了20個(gè)農(nóng)藝性狀的全基因組關(guān)聯(lián)分析,共定位到500余個(gè)遺傳位點(diǎn),為普通菜豆的分子育種提供了關(guān)鍵性狀的準(zhǔn)確標(biāo)記選擇依據(jù)[30]。
普通菜豆有兩個(gè)獨(dú)立的起源中心,中美基因庫(kù)和安第斯基因庫(kù)。因此,美國(guó)和西班牙科學(xué)家先后發(fā)起了對(duì)中美基因庫(kù)(G19833)和安第斯基因庫(kù)(BAT 93)代表性材料的全基因組測(cè)序計(jì)劃[29,50]。2014年美國(guó)等科學(xué)家領(lǐng)導(dǎo)的研究團(tuán)隊(duì)率先利用鳥槍法完成了G19833的測(cè)序,用454測(cè)序平臺(tái)獲得24.1 Gb的數(shù)據(jù)量,同時(shí)利用Sanger測(cè)序法完成了3個(gè)fosmid文庫(kù)和兩個(gè)BAC文庫(kù)的末端測(cè)序,并結(jié)合包含7 015個(gè)SNP標(biāo)記的基于F2群體和261個(gè)SSR標(biāo)記的基于RIL群體的遺傳圖譜進(jìn)行序列組裝。最終,組裝scaffold序列總長(zhǎng)度為521 Mb,而contig序列總長(zhǎng)度為472.5 Mb,占預(yù)估基因組大小587 Mb的80%。G19833基因組的重復(fù)序列約占45.4%,其中LTR反轉(zhuǎn)錄轉(zhuǎn)座子是最多的一類,占基因組的36.7%。同時(shí),研究團(tuán)隊(duì)完成了根、莖和葉等11個(gè)組織的轉(zhuǎn)錄組測(cè)序用于基因的預(yù)測(cè)和分析,共鑒定出27 191個(gè)基因[29]。J.Schmutz等[29]還證實(shí)了普通菜豆的多種馴化途徑,鑒定出1 875個(gè)中美基因庫(kù)的基因和748個(gè)安第斯基因庫(kù)的基因在馴化過程中進(jìn)行了選擇,僅有59個(gè)基因是兩個(gè)基因庫(kù)所共有的;同時(shí)也說明了馴化過程中的瓶頸效應(yīng),安第斯基因庫(kù)的遺傳變異減少了75%。2016年西班牙科學(xué)家領(lǐng)導(dǎo)的研究團(tuán)隊(duì)完成了BAT 93的全基因組測(cè)序,同美國(guó)科學(xué)家的測(cè)序策略基本一致,采用多種方法相結(jié)合進(jìn)行基因組的測(cè)序組裝,最終,獲得549.6 Mb的序列,與預(yù)期的基因組大小基本一致,重復(fù)序列占基因組的35%,LTR反轉(zhuǎn)錄轉(zhuǎn)座子仍是重復(fù)序列的主要類型。通過對(duì)34個(gè)不同的組織或是時(shí)期的RNA文庫(kù)的測(cè)序,鑒定出30 491個(gè)編碼基因[50]。兩個(gè)研究團(tuán)隊(duì)都發(fā)現(xiàn)了普通菜豆的兩個(gè)基因庫(kù)在豆科基因組發(fā)生復(fù)制之后再次發(fā)生了基因的復(fù)制現(xiàn)象[29,50]??偠灾?,基因組序列的公布,對(duì)于闡明普通菜豆的起源以及基因庫(kù)間的進(jìn)化關(guān)系提供了更加翔實(shí)的數(shù)據(jù),也為基因的發(fā)掘和利用奠定了基礎(chǔ)。
轉(zhuǎn)錄組測(cè)序可以在單核苷酸水平上檢測(cè)物種的整體的轉(zhuǎn)錄,可以獲得在特定組織、特定時(shí)間的轉(zhuǎn)錄本信息。2014年,O’Rourke首次在普通菜豆中開展轉(zhuǎn)錄組研究,構(gòu)建了普通菜豆中美基因庫(kù)材料Negro jamapa包括根、莖和葉等7個(gè)組織不同時(shí)期的21個(gè)轉(zhuǎn)錄組數(shù)據(jù)庫(kù),鑒定到11 010個(gè)組織間差異表達(dá)基因,15 752個(gè)同一組織不同時(shí)期的差異表達(dá)基因,2 315個(gè)組織特異表達(dá)基因[51],而安第斯基因庫(kù)典型材料BAT93的轉(zhuǎn)錄組分析說明,40%的基因是在根、葉和籽粒等7個(gè)組織中表達(dá),10%的基因可以被認(rèn)為是持家基因,當(dāng)然也存在小部分持家基因在大豆中的同源基因也是持家基因[50]。通過不同材料間的轉(zhuǎn)錄組數(shù)據(jù)可以編輯的研究逆境脅迫下的差異表達(dá)基因,O’Rourke鑒定了2 970個(gè)氮脅迫響應(yīng)的基因[51];中國(guó)農(nóng)科院作科所食用豆研究組利用轉(zhuǎn)錄組測(cè)序在在耐旱性強(qiáng)的材料和敏感材料分別檢測(cè)到4 139個(gè)和6 989個(gè)旱脅迫響應(yīng)基因,耐旱、敏感材料間有2 187個(gè)差異基因表達(dá)模式一致,僅有9個(gè)差異基因表達(dá)模式不一致,同時(shí),鑒定到24個(gè)響應(yīng)旱脅迫的 miRNAs[52-53]。Gómez-Martín 等[54]研究小組通過對(duì)不同裂莢性材料進(jìn)行轉(zhuǎn)錄組測(cè)序,鑒定了材料間差異表達(dá)基因,篩選到一批裂莢性相關(guān)基因。此外,通過轉(zhuǎn)錄組分析對(duì)菜豆枯萎病、細(xì)菌性疫病、根腐病和銹病等相關(guān)基因進(jìn)行研究[55-58]。最后,轉(zhuǎn)錄組數(shù)據(jù)還可以鑒定鑒定結(jié)構(gòu)變異、SSR和SNP等,例如,從抗旱性不同的材料構(gòu)建的轉(zhuǎn)錄組數(shù)據(jù)庫(kù)中鑒定出10 482個(gè)SNP和 4 099個(gè)SSR位點(diǎn)[52]。A.Xanthopoulou等[59]利用2個(gè)普通菜豆的資源的轉(zhuǎn)錄組數(shù)據(jù)庫(kù)鑒定了8 278個(gè)SSR位點(diǎn)和19 281個(gè)SNP,為進(jìn)一步開發(fā)遺傳標(biāo)記開展基因定位和認(rèn)識(shí)普通菜豆的遺傳結(jié)構(gòu)變異提供了信息。
比較基因組是通過對(duì)不同的物種,甚至不同屬間的基因組序列的比較分析,研究不同物種間的基因和基因組結(jié)構(gòu)、基因表達(dá)量和功能差異,進(jìn)而揭示物種的起源、演化等[60-62]。近年來,大量作物的基因組測(cè)序的完成,極大地方便了全基因組層面研究不同生物的起源進(jìn)化過程[63-65]。例如,2019年豌豆基因組草圖繪制完成之后,通過與已經(jīng)完成測(cè)序的豆科植物基因組比較研究發(fā)現(xiàn)了豆科植物的基因組重排現(xiàn)象,同時(shí)與其他豆科植物相比,豌豆的基因組表現(xiàn)出更加強(qiáng)烈的基因波動(dòng),而在豌豆的進(jìn)化過程中,易位和轉(zhuǎn)座在不同譜系中差異明顯[65]。普通菜豆被認(rèn)為是研究食用豆基因分子機(jī)制和基因的進(jìn)化過程的模式作物,因此開展了較多的比較基因組學(xué)研究[1,66]。有研究表明:大豆中WRKY等轉(zhuǎn)錄因子的數(shù)量是普通菜豆的2倍,這與之前所報(bào)道的大豆和菜豆從同一個(gè)祖先分化后,大豆經(jīng)歷了一次的基因組的復(fù)制相吻合[41,51,67-68]。但是,也有基因家族與此相反,例如普通菜豆中鑒定到376個(gè)核苷酸結(jié)合位點(diǎn)-富亮氨酸重復(fù)(nucleotide-binding site-leucinerich repeat)基因,而大豆中鑒定到319個(gè)NLR基因[69-70],NAC轉(zhuǎn)錄因子在大豆(101個(gè))和普通菜豆(86個(gè))中數(shù)量也相差不大[71,72]。那么,為什么菜豆中的抗性基因會(huì)比大豆中的多呢?可能原因是普通菜豆對(duì)生態(tài)環(huán)境的適應(yīng)性要比大豆強(qiáng),從而進(jìn)化出更多的抗性機(jī)制,導(dǎo)致有更多的抗性基因[50]。重要農(nóng)藝性狀的基因也是比較基因組的重點(diǎn)研究對(duì)象,普通菜豆光周期基因E1(Phvul.009G204600)是大豆E1基因的同源基因,過量表達(dá)Phvul.009G204600說明普通菜豆和大豆中的E1基因的功能一致,都是控制開花期[73],同樣,生長(zhǎng)素響應(yīng)因子(auxin response factor,ARF)基因家族在普通菜豆和大豆中也被認(rèn)為是功能保守的[74]。菜豆屬內(nèi)的普通菜豆和寬葉菜豆遺傳圖譜的比較分析研究表明,兩個(gè)菜豆種間具有高度的共線性,在少數(shù)染色體內(nèi)也發(fā)生重排[75]。越來越多的基因定位或克隆及基因組序列的不斷更新,豆科種間、種內(nèi)比較基因組的研究將為豆科間的遺傳進(jìn)化關(guān)系研究提供更加詳細(xì)且準(zhǔn)確的信息。
普通菜豆基因組及其相關(guān)研究對(duì)于研究和利用菜豆屬種質(zhì)資源具有重要意義,有助于理清菜豆屬不同種間的進(jìn)化關(guān)系,快速地從種質(zhì)資源中挖掘優(yōu)異基因資源并應(yīng)用于育種實(shí)踐。目前,基因組的研究進(jìn)展尚不能有效的支持普通菜豆的遺傳改良及相關(guān)研究,因此建議今后重點(diǎn)從以下幾方面展開研究:
盡管,美國(guó)和西班牙科學(xué)家先后完成了普通菜豆安第斯基因庫(kù)(G 19833)和中美基因庫(kù)(BAT 93)典型材料的基因組測(cè)序,由于這兩個(gè)基因組都是基于二代測(cè)序平臺(tái),基因組序列還不夠完整,未達(dá)到金標(biāo)基因組的水平,在一定程度上仍然限制普通菜豆的遺傳研究;同時(shí),單一材料的參考基因組并不能反映該物種的基因多樣性,而泛基因組反映了基因組中的結(jié)構(gòu)變異和多態(tài)性,能夠深入比較多個(gè)分類水平的基因組結(jié)構(gòu)變異。因此,應(yīng)該利用最新的測(cè)序技術(shù)開展金標(biāo)基因組和泛基因組的測(cè)序組裝,提供更為豐富的基因組序列。
群體基因組學(xué)是將基因組原理和技術(shù)同群體遺傳學(xué)有機(jī)結(jié)合的一種新的表現(xiàn)形式。推動(dòng)從單一基因研究向全基因組水平基因的全面研究,通過全基因組范圍內(nèi)的大量SNP、InDel和SV等變異來研究控制特異表型的基因或微端在全基因組的效應(yīng)等。在獲得基因組序列基礎(chǔ)上進(jìn)行普通菜豆安第斯基因庫(kù)群體、中美基因庫(kù)群體等遺傳群體材料的基因組重測(cè)序,在基因組水平開展不同基因庫(kù)間在基因組水平上的遺傳多樣性、連鎖不平衡、起源演化、自然和人工選擇過程和重要農(nóng)藝性狀的機(jī)制等研究。
基因組學(xué)的快速發(fā)展促進(jìn)了全基因組輔助育種的發(fā)展,基因組研究可以鑒定大量的優(yōu)異遺傳變異和有利基因;利用全基因組的標(biāo)記和基因信息,進(jìn)行種質(zhì)資源育種價(jià)值的評(píng)估、優(yōu)異基因或等位變異的聚合、基因互作網(wǎng)絡(luò)的協(xié)調(diào)、基因組結(jié)構(gòu)的優(yōu)化等研究,從而加快普通菜豆育種進(jìn)程、縮短育種時(shí)間和提高育種效率,選育抗病、優(yōu)質(zhì)和高產(chǎn)的新品種。