蘇 寧,何兆峰,歐平和,楊玉存,王鵬程,崔立操,聶小軍
(1.西北農(nóng)林科技大學(xué)農(nóng)學(xué)院,陜西楊凌 712100; 2.江西農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院,江西南昌 330045)
葉綠體是植物特有的進(jìn)行光合作用的細(xì)胞器,其具有自身的基因組可半自主地進(jìn)行遺傳物質(zhì)的復(fù)制和轉(zhuǎn)錄,參與植物許多重要的生理生化過程[1]。被子植物的葉綠體基因組通常為環(huán)狀四組分結(jié)構(gòu),包括1個(gè)大單拷貝區(qū)(large single copy,LSC)、小單拷貝區(qū)(small single copy,SSC)和2個(gè)反向重復(fù)序列區(qū)(inverted repeats,IRa/IRb),大小一般為120~180 kb[2]。與核基因組相比,葉綠體基因組小,結(jié)構(gòu)穩(wěn)定,遺傳重組率低[3],具有很強(qiáng)的保守性[4],但在IR邊界,不同物種又存在一定的擴(kuò)張與伸縮變異,這對(duì)研究綠色植物的進(jìn)化、揭示親緣關(guān)系具有重要價(jià)值,是物種分子鑒定、系統(tǒng)進(jìn)化和遺傳多樣性研究的重要信息來源[5]。
小麥?zhǔn)鞘澜缟献钪匾募Z食作物之一,其種植面積約占世界總耕作面積的17%,提供了全世界20%的糧食消耗[6]。小麥屬植物作為小麥的近緣種,一直以來都是普通小麥遺傳改良的重要種質(zhì)資源和基因庫。明確小麥屬植物的系統(tǒng)進(jìn)化關(guān)系,加強(qiáng)對(duì)小麥屬植物的開發(fā)與利用對(duì)豐富小麥種質(zhì)資源、克服小麥基因同質(zhì)化和促進(jìn)小麥育種均具有重要意義[7]。自2002年,小麥葉綠體全基因組序列被解析以來,前人圍繞小麥及其近緣種葉綠體基因組學(xué)測(cè)序及比較分析開展了大量研究工作[8]。郭長(zhǎng)虹等[9]對(duì)普通小麥與山羊草葉綠體基因組中的熱點(diǎn)突變區(qū)域序列變異進(jìn)行了系統(tǒng)分析,發(fā)現(xiàn)普通小麥葉綠體基因組B2片段可能起源于Ae.speltoides;楊新泉等[10]利用葉綠體SSR標(biāo)記對(duì)普通小麥、斯卑爾脫小麥、密穗小麥和中國(guó)特有小麥(新疆稻麥、西藏半野生小麥和云南鐵殼麥)等不同類型六倍體小麥葉綠體基因組的遺傳多樣性進(jìn)行分析,發(fā)現(xiàn)斯卑爾脫小麥和西藏半野生小麥遺傳多樣性豐富,為不同小麥的遺傳差異分析提供了依據(jù);Bahieldin等[11]利用高通量測(cè)序技術(shù)對(duì)中國(guó)春的葉綠體基因組進(jìn)行了優(yōu)化,修正了IR區(qū)的長(zhǎng)度,為利用葉綠體序列分析小麥屬物種的親緣關(guān)系提供了更準(zhǔn)確的參考;Gornicki等[12]系統(tǒng)測(cè)定了小麥屬和粗山羊草屬的40個(gè)物種的葉綠體基因組序列,并結(jié)合葉綠體基因組學(xué)的遺傳變異分析,全面研究了六倍體小麥的起源、演化和進(jìn)化關(guān)系。截止目前,有關(guān)小麥屬各物種間葉綠體基因組的變異及其起源與進(jìn)化的研究還未見報(bào)道。本研究以已發(fā)表的14個(gè)小麥屬葉綠體基因組為對(duì)象,利用比較基因組分析方法,對(duì)這些小麥屬植物葉綠體基因組的基因含量、序列變異、結(jié)構(gòu)特性、進(jìn)化關(guān)系和RNA編輯等進(jìn)行了系統(tǒng)的分析,以期從葉綠體角度解析小麥屬物種的起源進(jìn)化關(guān)系,為發(fā)掘和利用小麥屬植物應(yīng)用于小麥遺傳改良提供依據(jù)。
從GenBank中的細(xì)胞器基因組數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/genome/organelle/)檢索并下載已發(fā)表的14個(gè)小麥屬植物葉綠體全基因組序列,獲取注釋信息(表1)。
根據(jù)各物種葉綠體基因組的注釋信息,利用Excel統(tǒng)計(jì)14個(gè)小麥屬植物葉綠體基因組的大小以及LSC、SSC和IR的長(zhǎng)度;全基因組與編碼區(qū)的GC含量;總編碼以及編碼蛋白質(zhì)、tRNA和rRNA的基因數(shù)目;位于IR區(qū)段和含有內(nèi)含子的基因數(shù)目等基本結(jié)構(gòu)與組成特征信息;以中國(guó)春葉綠體基因組為參考,根據(jù)各個(gè)葉綠體基因組的注釋信息,對(duì)其IR邊界及其鄰近基因手工繪制圖譜,比較各個(gè)葉綠體基因組IR區(qū)的伸縮趨勢(shì);同時(shí),采用基因組在線分析程序mVISTA(http://genome.lbl.gov/vista/mvista/submit.shtml)進(jìn)行全基因組的多序列比對(duì),篩選其中的變異熱點(diǎn)區(qū);最后,以煙草葉綠體基因組為參考,利用MAUVE工具,對(duì)14個(gè)小麥屬葉綠體基因組進(jìn)行多序列比對(duì),鑒定分析其基因組的重排與倒位現(xiàn)象。
以二穗短柄草葉綠體基因組(NC_011032)為外源,對(duì)葉綠體全基因組構(gòu)建系統(tǒng)進(jìn)化樹。利用ClustalX 1.83軟件進(jìn)行多序列比對(duì),并進(jìn)行手工的校正,然后采用PAUP 4.0軟件構(gòu)建MP系統(tǒng)進(jìn)化樹,自展值(Bootstrap)設(shè)置為1000,通過后驗(yàn)概率值來表示系統(tǒng)發(fā)育樹各分支的可信度。
根據(jù)各個(gè)基因組的注釋文件,提取其所有蛋白質(zhì)編碼基因,轉(zhuǎn)化格式后提交到RNA編輯位點(diǎn)在線預(yù)測(cè)工具PREP RNA Editing(http://prep.unl.edu),對(duì)各物種葉綠體編碼蛋白基因中的潛在編輯位點(diǎn)進(jìn)行預(yù)測(cè),然后比較分析小麥屬各物種共同和特異的編輯位點(diǎn)。
分析發(fā)現(xiàn),14個(gè)小麥屬植物的葉綠體基因組均為四分體結(jié)構(gòu),沒有發(fā)現(xiàn)大片段缺失現(xiàn)象,各基因組長(zhǎng)度介于135 897~136 157 bp之間(表1)。LSC區(qū)長(zhǎng)度為79 998~80 256 bp,相差258 bp,其中提莫菲維的LSC區(qū)最長(zhǎng),達(dá)到80 256 bp。SSC區(qū)在12 790 bp左右,不同物種間僅相差幾個(gè)堿基。IR區(qū)長(zhǎng)度變異較小,為21 541~21 566 bp。由此表明,LSC區(qū)長(zhǎng)度變異大于SSC和IR區(qū),且基因組長(zhǎng)度變異主要是由LSC區(qū)的變化 引起。
進(jìn)一步統(tǒng)計(jì)各物種的編碼序列長(zhǎng)度,發(fā)現(xiàn)其編碼序列長(zhǎng)度存在較大的變異,其中6個(gè)物種為58 692 bp;硬粒小麥的最長(zhǎng),達(dá)61 746 bp,而提莫菲維的最短,只有51 441 bp。GC含量分析發(fā)現(xiàn),各物種葉綠體全基因組的GC含量差異較小,均在38.3%左右,基因編碼區(qū)的GC含量在 38.90%左右(表1)。基因數(shù)目分析發(fā)現(xiàn),小麥屬葉綠體基因組編碼的總基因數(shù)介于105~115個(gè)之間,其中提莫菲維小麥包含的基因數(shù)最多,為115個(gè)。rRNA編碼基因數(shù)最為保守,各物種均為4個(gè)。而蛋白質(zhì)編碼基因數(shù)存在一定差異,11個(gè)物種包含76個(gè)蛋白質(zhì)編碼基因,而西藏半野生小麥、硬粒小麥和提莫菲維小麥分別有79、80和81個(gè)蛋白編碼基因。另外,7個(gè)物種的tRNA編碼基因?yàn)?5個(gè),且這7個(gè)物種的基因編碼數(shù)目情況完全相同,可能存在較近的系統(tǒng)進(jìn)化關(guān)系。相關(guān)性分析發(fā)現(xiàn),tRNA編碼基因數(shù)與基因總數(shù)的相關(guān)性系數(shù)為0.917 29,表明小麥屬葉綠體的總基因數(shù)的差異主要是由tRNA編碼基因引起的。
對(duì)位于IR區(qū)的基因組成和數(shù)量進(jìn)行比較分析。結(jié)果發(fā)現(xiàn),小麥屬葉綠體IR區(qū)的基因數(shù)目存在較明顯的差異,普通小麥中國(guó)春和一粒系中烏拉爾圖小麥有18個(gè),西藏半野生小麥有19個(gè),而二粒系小麥的硬粒小麥、科爾希小麥和提莫菲維系的提莫菲維小麥IR區(qū)的基因數(shù)目分別為23、28和24個(gè),其余物種IR區(qū)基因數(shù)目均為16個(gè)。相較于普通小麥和一粒系小麥,二粒系小麥各物種的IR區(qū)發(fā)生了顯著的擴(kuò)張現(xiàn)象,IR區(qū)的變異可能是重要的進(jìn)化事件,在小麥起源進(jìn)化過程發(fā)揮了重要作用。
葉綠體基因組為由LSC、SSC、IRa、IRb構(gòu)成的環(huán)形結(jié)構(gòu),存在四個(gè)邊界,即LSC-IRb、IRb-SSC、SSC-IRa、IRa-LSC。在植物進(jìn)化過程中,葉綠體基因組IR區(qū)的擴(kuò)張與收縮是植物重要的進(jìn)化事件,并會(huì)引起葉綠體基因組大小和基因含量的變化。以中國(guó)春葉綠體基因組為參照,對(duì)小麥屬植物葉綠體基因組IR區(qū)的擴(kuò)張與收縮進(jìn)行了比較分析(圖1),發(fā)現(xiàn)小麥屬植物葉綠體的4個(gè)邊界(即LSC-IRb、IRb-SSC、SSC-IRa、IRa-LSC)均相對(duì)保守。14個(gè)小麥屬植物葉綠體中,LSC-IRb邊界與rpl22均間隔28 bp,除提莫菲維(53 bp)外,其余物種LSC-IRb邊界與rps19均間隔50 bp。大部分物種IRb-SSC邊界距ndhF基因有68 bp的間隔,硬粒小麥和烏拉爾圖小麥與ndhF基因的間隔為67 bp,而提莫菲維小麥與ndhF基因的間隔為77 bp,且13個(gè)物種ndhF基因長(zhǎng)度均為2 219 bp,僅提莫菲維小麥為2 216 bp。 SSC-IRa邊界位于ndhH基因內(nèi),13個(gè)物種ndhH位于SSC中的部分長(zhǎng)度為974 bp,而中國(guó)春的相對(duì)較短,只有474 bp,同時(shí)13個(gè)物種的ndhH基因位于IRa中的序列長(zhǎng)度為206 bp,只有硬粒小麥的長(zhǎng)度為236 bp,存在30 bp的差異,使得在IRb區(qū)產(chǎn)生一個(gè)ndhH假基因片段。IRa-LSC邊界位于rps19基因與psbA基因之間,距離rps19的位置高度保守,14個(gè)物種均為50 bp,而距psbA存在一定差異,12個(gè)物種為91 bp,而硬粒小麥和提莫菲維小麥分別為82 bp和94 bp。
以中國(guó)春葉綠體基因組為參照,利用mVISTA工具進(jìn)行多序列比對(duì),并將序列相似度比對(duì)結(jié)果可視化。結(jié)果發(fā)現(xiàn),14個(gè)小麥屬植物葉綠體基因組序列比較保守;在psbA和psbI-psbD基因間隔區(qū),13個(gè)其他小麥屬物種與中國(guó)春相比均存在序列變異;六倍體斯卑爾脫小麥在rps3-rpl22、rpl23-ndhB存在特異的序列差異,圓錐小麥在psbI-psbD、rbcL-psaI、rpl22-rps19、rpl23-ndhB存在變異,硬粒小麥在pcbC-psbZ、rpoC2、atpI-atpH、atpF、rbcL-psaI、rpl23-ndhB、trnL存在變異,并且在106~115kb段差異非常大,科爾希小麥在rbcL-psaI存在變異,提莫菲維小麥在trnG-trnM、trnD-psbM、petN-rpoB、trnF-ndhJ、psaJ-rpl33、rpl22存在差異。從葉綠體基因組的4個(gè)組分上看,IR區(qū)序列變異最低,LSC區(qū)的變異程度最高;基因間隔區(qū)變異高于編碼基因,內(nèi)含子變異高于編碼序列;變異度最高的是基因間隔區(qū),如:LSC-psbA、psbI-psbD、rbcL-psaI、rpl22-rps19等,這些位點(diǎn)為小麥屬物種的分子鑒定提供了新的位點(diǎn)資源。
同時(shí),以煙草葉綠體基因組(Z00044.2)為參照,利用MAUVE軟件對(duì)14個(gè)小麥屬植物葉綠體基因組的倒位和基因重排進(jìn)行分析(圖2)。結(jié)果發(fā)現(xiàn),相對(duì)于煙草,所有小麥屬植物葉綠體基因組發(fā)生了兩個(gè)明顯的倒位事件,在LSC區(qū)段的psbD-trnfM-CAU間發(fā)生了一個(gè)大的倒位,而在這個(gè)大的倒位中psbD-trnT-GGU又發(fā)生了小的倒位。這兩個(gè)倒位事件在所有植物葉綠體中均存在[13],說明這兩個(gè)倒位事件在葉綠體進(jìn)化過程中具有重要作用。在14個(gè)小麥屬物種間,基因組的結(jié)構(gòu)及基因排列順序基本一致,沒有明顯的基因重排現(xiàn)象發(fā)生。
以二穗短柄草為外源,對(duì)14個(gè)小麥屬植物的葉綠體基因組進(jìn)行全局比對(duì),構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹(圖3)。從圖中可以看出,具有AAGG基因型的提莫菲維小麥單獨(dú)聚為一支,其他13個(gè)小麥屬植物具有AABB基因型的小麥屬物種聚為另外一大支,反應(yīng)了其系統(tǒng)進(jìn)化關(guān)系。在這大分支中,圓錐小麥和斯卑爾脫小麥聚為1個(gè)小分支,其他11個(gè)小麥屬植物聚為另一小分支,其中馬卡小麥的3個(gè)種(T.macha.megrelicum、T.mach.palaeoimereticum和T.macha.Colchicum)聚在一起,但是其支持率只有54.757%,表明它們間存在較明顯序列分化。圓錐小麥與斯卑爾脫小麥兩個(gè)物種聚為一支,支持率為96.477%,明顯高于其他物種,說明兩者親緣關(guān)系很近。
以煙草葉綠體基因組為參考。
圖3 基于葉綠體全基因組對(duì)14個(gè)小麥屬植物進(jìn)行的系統(tǒng)發(fā)育進(jìn)化分析
通過對(duì)14個(gè)小麥屬植物葉綠體基因組的RNA編輯位點(diǎn)進(jìn)行預(yù)測(cè),共發(fā)現(xiàn)分布于19個(gè)基因上的58個(gè)RNA編輯位點(diǎn)(表2)。所有預(yù)測(cè)的編輯位點(diǎn)均為胞嘧啶(C)到胸腺嘧啶(T)的轉(zhuǎn)換,且所有的編輯均引起了氨基酸的變化。其中基因ndhB的編輯位點(diǎn)數(shù)量最多,達(dá)16個(gè);其次是ndhA(11個(gè))、rpoC(5個(gè))、rpoB(4個(gè))、ycf3(4個(gè))、atpB(2個(gè))、ndhF(2個(gè))、petB(2個(gè))、rpl2(2個(gè)),其余基因均只有1個(gè)編輯位點(diǎn)。進(jìn)一步分析發(fā)現(xiàn),發(fā)生編輯的位點(diǎn)中,有9個(gè)位點(diǎn)位于密碼子的第一位,剩余的都發(fā)生在密碼子的第二位,沒有發(fā)現(xiàn)密碼子第三位發(fā)生編輯的位點(diǎn)。比較分析發(fā)現(xiàn),小麥屬植物葉綠體編輯位點(diǎn)具有較強(qiáng)的保守性,其中10個(gè)基因中的15個(gè)位點(diǎn),包括atpA、atpB、matK、ndhD、ndhF、rpl20、rpoA、rpoB、rps8、ycf3,在所有小麥屬物種中均發(fā)生了編輯。但提莫菲維小麥RNA編輯情況與其他物種差異較大,只在11個(gè)基因中預(yù)測(cè)到了20個(gè)編輯位點(diǎn),尤其在ndhB和rpoC2處,RNA編輯位點(diǎn)明顯較其他物種少。本研究也預(yù)測(cè)到了部分物種特異的RNA編輯位點(diǎn),這為從葉綠體RNA編輯角度研究小麥屬物種的起源進(jìn)化提供了有益信息。
研究發(fā)現(xiàn),14個(gè)小麥屬植物葉綠體的基因組大小在135 897~136 157 bp,各物種間差異不到1 000 bp,IR區(qū)長(zhǎng)度在21 541~21 566 bp,與被子植物葉綠體基因組特征相吻合。進(jìn)一步分析發(fā)現(xiàn),小麥屬植物葉綠體的LSC區(qū)長(zhǎng)度的變異大于SSC和IR區(qū),基因組長(zhǎng)度的變異主要是LSC區(qū)長(zhǎng)度的差異引起的。大多數(shù)小麥屬植物葉綠體基因組的總基因數(shù)為105個(gè),rRNA編碼基因數(shù)物種間不存在差異,蛋白質(zhì)編碼基因在不同物種中基本一致,總基因數(shù)的差異主要是由tRNA編碼基因數(shù)不同引起的。 雖然IR區(qū)段長(zhǎng)度變異不大,但I(xiàn)R段基因數(shù)目存在較明顯的變異,尤其是二粒系小麥的3個(gè)物種硬粒小麥、科爾希小麥和提莫菲維小麥IR區(qū)基因數(shù)目明顯高于其他物種,說明二粒系小麥IR區(qū)較其他物種的遺傳差異大,變異明顯,這可能與二粒系小麥的遺傳多樣性相關(guān)。二粒系小麥中的提莫菲維小麥屬于AAGG基因型,與AABB基因型的系統(tǒng)進(jìn)化關(guān)系較遠(yuǎn),IR區(qū)的變異程度也反映了其系統(tǒng)進(jìn)化關(guān)系。葉綠體基因組上存在較高的基因轉(zhuǎn)換能力,確保了2個(gè)IR序列的一致與穩(wěn)定[14],選取的14個(gè)物種IR區(qū)長(zhǎng)度基本一致,并未發(fā)生像天竺葵、豌豆、蠶豆等植物中IR過長(zhǎng)、過短甚至完全丟失的情況[15]。
高等植物葉綠體基因組的4個(gè)邊界發(fā)生擴(kuò)張與收縮,是一個(gè)普遍的進(jìn)化現(xiàn)象[16]。小麥屬植物葉綠體基因組在LSC-IRb、SSC-IRa、IRa-LSC邊界幾乎不存在變異,最多有幾個(gè)堿基的差異,只有硬粒小麥和烏拉爾圖小麥在IRB-SSC邊界基因與其他小麥屬植物存在明顯差異。MAUVE分析基因組結(jié)構(gòu)重排和倒位也發(fā)現(xiàn)小麥屬葉綠體基因組都呈線性化排列,基因組中的同源基因集簇重合度高,較為保守,各物種間基因的排列順序基本一致且沒有大的基因重排現(xiàn)象。基于全基因組序列比對(duì)分析,發(fā)現(xiàn)不同小麥屬物種的基因間隔區(qū)序列差異大于基因編碼區(qū),其中psbI-psbD、rbcL-psaI、rpl22-rps19表現(xiàn)出較大的序列變異,可作為新的潛在序列資源用于小麥屬物種的分子鑒定與系統(tǒng)進(jìn)化研究?;谌~綠體基因組的系統(tǒng)進(jìn)化分析表明小麥屬物種是單一起源的,并且AAGG基因型的提莫菲維小麥與其他AABB基因型的物種完全分開,基本反映了其系統(tǒng)進(jìn)化與親緣關(guān)系,表明葉綠體全基因組序列是研究小麥屬物種的親緣關(guān)系和進(jìn)化提供重要的工具。
RNA編輯作為高等植物細(xì)胞器基因組轉(zhuǎn)錄后水平基因表達(dá)調(diào)控的一種重要方式,在植物生長(zhǎng)發(fā)育過程中發(fā)揮著重要的作用[17]。目前已知除地錢外,所有陸生植物都存在RNA編輯現(xiàn)象[18]。RNA編輯具有雙重功能,一是豐富蛋白質(zhì)的多樣性,二是維持種族發(fā)育的穩(wěn)定性與保守性。由于RNA編輯位點(diǎn)突變比普通位點(diǎn)要快,mRNA 編輯可增加蛋白質(zhì)的多樣性,同時(shí)通過遺傳變異又能維持一定的發(fā)育保守性,修復(fù)有害的基因組突變[19]。因此,RNA編輯可為揭示小麥屬作物的起源與進(jìn)化提供重要參考依據(jù)。通過對(duì)14個(gè)小麥屬植物葉綠體基因RNA編輯位點(diǎn)的預(yù)測(cè),發(fā)現(xiàn)有19個(gè)葉綠體基因發(fā)生了RNA編輯現(xiàn)象,共預(yù)測(cè)到58個(gè)RNA編輯位點(diǎn)。所有編輯位點(diǎn)均為胞嘧啶(C)到胸腺嘧啶(T)的轉(zhuǎn)換,且所有的編輯均引起了氨基酸的變化,且編輯位點(diǎn)以發(fā)生在第二位密碼子為主,少部分發(fā)生在密碼子第一位,密碼子第三位沒有發(fā)現(xiàn)發(fā)生編輯的位點(diǎn),這與前人發(fā)現(xiàn)的禾本科葉綠體基因編輯的特征一致[20]。ndhB基因上編輯位點(diǎn)最多,所有編輯位點(diǎn)堿基都是C→U的轉(zhuǎn)變,編輯產(chǎn)生S→L的氨基酸轉(zhuǎn)變形式最多,這與前人在禾本科的大麥[21]、玉米[22]上的研究結(jié)果一致,說明ndhB基因?qū)χ参锷砩^程具有重要調(diào)控作用。提莫菲維小麥葉綠體RNA編輯情況比其他小麥屬物種存在更大變異,特別是在ndhB和rpoC2基因上沒有發(fā)生編輯現(xiàn)象,這可能是該物種在長(zhǎng)期進(jìn)化過程中對(duì)環(huán)境適應(yīng)性變化或者物種特異性造成的,對(duì)其特異編輯位點(diǎn)生物學(xué)功能的研究將為揭示小麥屬物種的起源、進(jìn)化及相關(guān)分子機(jī)制提供重要信息。