朱強龍,朱子成,王鵬飛,呂慧玲,崔浩楠,欒非時
(農(nóng)業(yè)部東北地區(qū)園藝作物生物學與種質(zhì)創(chuàng)制重點實驗室·東北農(nóng)業(yè)大學園藝學院 哈爾濱 150030)
葫蘆科(Cucurbitaceae)有 95 個屬和 942~978個種[1],其中包括了黃瓜(Cucumis sativus)、甜瓜(Cucumis melo)、西瓜(Citrullus lanatus)、南瓜(Cucurbita moschata)、西葫蘆(Cucurbita pepo)等重要的蔬菜作物,且葫蘆科作物的經(jīng)濟價值僅次于茄科[2]。研究發(fā)現(xiàn)葫蘆科作物擁有獨特的半自主性的細胞器基因組(線粒體和葉綠體基因組)和目前已測序公布的高等植物中最大的線粒體基因組,且不同葫蘆科作物間的線粒體基因組差異顯著[2-7];葉綠體基因組相比其他高等植物葉綠體基因組缺失比較少。研究發(fā)現(xiàn)葫蘆科作物的細胞器基因不僅與光合作用、呼吸作用等重要的細胞代謝途徑相關(guān),還與抗冷性[3-4]、性別分化[5]等重要性狀相關(guān)。相比在葫蘆科作物間差異較大的核基因組和線粒體基因組,利用相對保守的葉綠體基因組的分子標記或基因序列能很好地解答葫蘆科作物之間的進化起源關(guān)系[1,6-8]。此外,大量研究揭示了黃瓜和甜瓜的線粒體基因組呈現(xiàn)父系遺傳[9-14],而與它們親緣關(guān)系較遠的西瓜和西葫蘆卻保持著母系遺傳方式[5,12,15],然而未能闡明其遺傳方式差異的機制。迄今為止,已有黃瓜[16]、西瓜和西葫蘆[17]3個作物的線粒體基因組測序完成,甜瓜線粒體基因組大部分雖然已經(jīng)測序公布,但仍然不完整且結(jié)構(gòu)不清楚[2];黃瓜[18-20]、甜瓜[2]和野生黃瓜[21]的葉綠體基因組測序完成,其他葫蘆科作物的線粒體和葉綠體基因組還未測序發(fā)表。本文主要綜述了葫蘆科作物線粒體和葉綠體基因組特征和細胞器基因組應(yīng)用等方面的研究進展,為進一步開展其他葫蘆科重要作物細胞器的測序工作及深入研究葫蘆科作物間細胞器基因組差異、進化關(guān)系、線粒體遺傳模式差異等科學問題提供理論指導。
目前已測序的葫蘆科作物,線粒體基因組結(jié)構(gòu)均為環(huán)狀結(jié)構(gòu)。然而不同葫蘆科作物之間的線粒體基因組結(jié)構(gòu)差異很大(表1),如黃瓜線粒體基因組中含有3個獨立復制的自主環(huán)狀染色體,除了一個大的主環(huán)以外,還有2個小的亞環(huán)結(jié)構(gòu),大小約為1 685 kb,其中的2個小環(huán)不含任何基因,類似于染色體外質(zhì)粒。而西瓜和西葫蘆中均為單環(huán),大小分別為379 kb和983 kb。目前,甜瓜線粒體基因組測序僅完成95%,結(jié)構(gòu)未能明確,含有5個Scaffolds和 4個 Contigs,大小約為 2.74 Mb,其中最大的Scaffold包含了大部分的蛋白編碼基因。甜瓜的線粒體基因組是葫蘆科中最大的,其大小分別是黃瓜、西葫蘆和西瓜的2、3和7倍之多。
表1 葫蘆科作物線粒體基因組特征
葫蘆科作物線粒體基因組包含復合體I~V基因、細胞色素C生物合成基因、核糖體蛋白基因、matR基因、mttB基因、3個 rRNA基因、13~24個tRNA基因和未知功能的ORFs(表2)。葫蘆科家族中不同作物線粒體的編碼蛋白基因比較保守,基因數(shù)目相似,如黃瓜、西瓜和西葫蘆均為37個,但黃瓜、西瓜和西葫蘆之間的編碼蛋白基因并不完全相同,如西瓜和西葫蘆都有rps19,黃瓜中則沒有;而黃瓜中有rpl10,西瓜和西葫蘆中卻沒有。甜瓜只有36個編碼蛋白基因,丟失了rpl10和rps19。研究認為葫蘆科植物進化過程中黃瓜和甜瓜丟掉了rps19或?qū)⑵滢D(zhuǎn)入核基因組中或作為假基因存在[2,16]。而rpl10在擬南芥、油菜和甜菜等雙子葉植物中已經(jīng)缺失,其功能需要由核基因來行使[22]。nad1、nad2和nad5在葫蘆科作物中均存在反式剪切外顯子[23]。黃瓜和甜瓜在進化的過程中cox2基因可能失去了1個內(nèi)含子[16],而cox1基因卻獲得了1個內(nèi)含子[17],cox1包含的內(nèi)含子也被稱為I型內(nèi)含子,通過基因水平轉(zhuǎn)移廣泛分布在被子植物中,其余基因僅包含的內(nèi)含子均為II型內(nèi)含子[17]。黃瓜、甜瓜、西瓜和西葫蘆線粒體基因組中基因編碼序列和內(nèi)含子序列的比例均與線粒體基因組大小成反比(表1),這可能是由于葫蘆科線粒體基因組中編碼序列和內(nèi)含子序列比較保守,長度變化小,而線粒體基因組基因間長度變化大的原因。此外,西瓜線粒體基因組雖然最小,但含有比黃瓜和西葫蘆更長的編碼序列,然而黃瓜和甜瓜則擁有更長的內(nèi)含子序列。
表2 葫蘆科線粒體基因組包含的基因
葫蘆科作物線粒體基因組中的tRNA差異較明顯,甜瓜線粒體基因組中的tRNA基因是葫蘆科作物中最多的,而西葫蘆是最少的(表1)。trnH-GTG、trnL-CAA、trnN-GTT和trnS-TGA-cp是甜瓜中特有的 tRNA 基 因(表2),trnD-GTC、trnM-CAT、trnR-ACG、trnR-ACG-cp、trnW-CCA等 5個 tRNA 僅存在于黃瓜和甜瓜中,這可能是黃瓜和甜瓜在進化過程中從核基因組或葉綠體基因組獲得的。trnK-TTT是西瓜和西葫蘆特有的tRNA基因,甜瓜和黃瓜可能在進化過程中均丟失了trnK-TTT基因。此外,葫蘆科作物中含有3個rRNA基因和4個未知功能的ORFs。
水平基因轉(zhuǎn)移(horizontal gene transfer,HGT),是細胞或細胞器間進行遺傳物質(zhì)交流的過程。植物細胞器基因組與細胞核基因組、細胞器基因組之間(線粒體與葉綠體)均存在著豐富的遺傳物質(zhì)交流:核基因組和線粒體基因組之間存在雙向轉(zhuǎn)移DNA序列;葉綠體基因組向細胞核和線粒體基因組中轉(zhuǎn)移DNA序列。葉綠體基因組比較保守,很少接受外源DNA片段的導入。黃瓜和甜瓜線粒體基因組中已發(fā)現(xiàn)了大量由核基因轉(zhuǎn)入或同源不能確定轉(zhuǎn)移方向的序列,分別為全線粒體基因組的30.5%和46.5%,線粒體基因組中大量的核基因起源序列是導致黃瓜和甜瓜線粒體基因組顯著擴增的主要原因之一[2,16]。相比之下,西瓜和西葫蘆線粒體基因組含有非常少的核序列。此外,葫蘆科作物線粒體基因組中也發(fā)現(xiàn)少量的葉綠體序列,其中西葫蘆中最多,依次是西瓜、黃瓜和甜瓜(表1)。西葫蘆線粒體基因組的擴張可能與吸入大量葉綠體序列和出現(xiàn)未知起源的大量短重復序列有關(guān)[17]。此外,研究表明,HGT現(xiàn)象在植物與原核生物之間也存在,如黃瓜線粒體基因組中發(fā)現(xiàn)類似變形桿菌和線粒體病毒的序列[16]。其他葫蘆科作物中還未有相似的報道,但在葡萄[24]和豇豆[25]等其他科植物中已有類似的研究報告。
RNA編輯是線粒體基因表達過程中一種特殊而重要的RNA加工過程,是指轉(zhuǎn)錄產(chǎn)物的核苷酸序列與其DNA模板相比發(fā)生了變化[26],主要為C→U的轉(zhuǎn)變,很少有U→C的轉(zhuǎn)換[17]。在RNA編輯的發(fā)現(xiàn)之前,人們認為線粒體使用一套異常的密碼子,然而自1989年起,植物中RNA編輯現(xiàn)象的陸續(xù)發(fā)現(xiàn)合理地解釋了這種現(xiàn)象[27],表明標準密碼子規(guī)則在線粒體基因組中也適用。RNA編輯主要發(fā)生在密碼子的第一和第二位點上,在很多被子植物中常常導致大于92%的氨基酸發(fā)生改變[17],甚至導致編碼基因的起始密碼子和終止密碼子的改變[26];在內(nèi)含子與外顯子之間的編輯常常影響內(nèi)含子的有效剪接。RNA編輯在高等植物線粒體基因中是非常普遍的現(xiàn)象,在擬南芥、水稻、油菜[28-30]中的RNA編輯總數(shù)均超過400次。此外,幾乎所有的線粒體編碼蛋白基因的轉(zhuǎn)錄產(chǎn)物都受到不同程度的RNA編輯,卻很少發(fā)生在rRNA、tRNA及內(nèi)含子中[28]。葫蘆科作物線粒體的基因也不例外,目前,黃瓜和甜瓜中線粒體基因RNA編輯的研究還未見發(fā)表;西瓜和西葫蘆線粒體基因組中編碼蛋白基因的RNA編輯位點總數(shù)分別為463和444,均為C→U的轉(zhuǎn)換,其中394個RNA編輯位點是2個物種共享的。不同基因的RNA編輯次數(shù)在葫蘆科作物中是不同的,核糖體蛋白基因(rpl2、rps1和rps7)相比其他基因受到較少的RNA編輯,而mttb、ccmB和ccmFn等基因卻有很高的RNA編輯次數(shù)。相同基因在不同作物之間RNA編輯效應(yīng)也是不同的,如ccmFc、cob、matR和mttB基因中大部分非同義編輯在西葫蘆中的是完全編輯,在西瓜中卻是部分編輯。此外,在西瓜和西葫蘆中RNA編輯為nad1、nad4和rps10等3個基因中創(chuàng)造了新的啟動子,在atp9和rps10中編輯產(chǎn)生了新的終止子[17]。
重復序列是指在一個基因組中含有2個以上的拷貝序列,葫蘆科作物線粒體基因組中分布著大量這樣的重復序列,其長度和構(gòu)象具有高度多樣性。如甜瓜線粒體基因組中含有接近一半的重復序列[2];黃瓜和西葫蘆線粒體基因組中分別含有35.9%和37.7%的重復序列[16-17],均超過總序列的三分之一;西瓜線粒體基因組中的重復序列僅為全基因組的10.0%[17]。黃瓜線粒體基因組中最多的重復序列片段長度小于50 nt,且這類短片段重復序列是導致黃瓜線粒體基因組擴增的主要原因[16,31];甜瓜線粒體基因組中長度為20~49 nt的重復序列占總重復序列的65.6%,僅有3條重復序列長于399 nt[2];西瓜中僅有一條長度為7.3 kb的重復2次的大片段重復序列,其余的重復序列均小于400 nt[17];西葫蘆線粒體基因組中所有的重復序列均小于621 nt,重復次數(shù)最多的片段長度在19~40 nt之間[17]。短片段重復序列也包含簡單重復序列、轉(zhuǎn)座子、插入重復序列和串聯(lián)正向重復序列。然而,研究表明它們在甜瓜、西瓜和西葫蘆等作物的線粒體基因組中含量均小于2%[2]。絕大部分重復序列都位于基因間區(qū),僅有少數(shù)位于編碼基因和內(nèi)含子中。而位于重復序列上的基因通常成為多拷貝基因,如西瓜中多拷貝的sdh3、trnQ和trnG便位于最長的重復序列上[17]。在葫蘆科作物線粒體基因組中重復序列的重組對葫蘆科作物線粒體基因組的基因組大小和基因排列進化有很大的影響[2],還可能導致植株表型突變,如經(jīng)過組培篩選突變體后連續(xù)多代自交獲得的黃瓜馬賽克表型突變系可能與線粒體基因組序列的重復或重組相關(guān)[32-34]。在其他高等植物中,重復序列的頻繁重組還導致了胞質(zhì)雄性不育,如玉米[35]和甜菜[36];還能改變啟動子的位置從而影響基因的表達模式[37]。
關(guān)于線粒體遺傳方式的研究開始于在線粒體中發(fā)現(xiàn)有DNA之后[38],并首先在動物線粒體中開展[39],緊接著在植物中也有線粒體遺傳方式的相關(guān)研究[40-41]。目前,研究發(fā)現(xiàn)線粒體的遺傳方式主要有3種類型:母系遺傳、父系遺傳和雙親遺傳[42],動物中線粒體表現(xiàn)出嚴格的母系遺傳;植物中線粒體的遺傳方式以母系遺傳為主,僅少數(shù)植物存在父系遺傳或雙親遺傳[10]。父系遺傳是一種非孟德爾遺傳方式,植物中線粒體的父系遺傳現(xiàn)象首先在綠藻中發(fā)現(xiàn)[43],之后研究發(fā)現(xiàn)黃瓜和甜瓜中的線粒體也呈現(xiàn)出父系遺傳,而西瓜和西葫蘆仍然保持著母系遺傳,且4個作物的葉綠體都仍為母系遺傳[12]。此后,有大量研究分別從細胞學和分子遺傳學等多種角度再次在黃瓜和甜瓜中驗證[9-11]。除了在甜瓜屬中發(fā)現(xiàn)線粒體的父系遺傳之外,在香蕉[44]和獼猴桃[45]等少數(shù)其他高等植物中發(fā)現(xiàn)線粒體也呈現(xiàn)父系遺傳。然而由于線粒體父系遺傳的種子植物種類很少,關(guān)于線粒體父系遺傳形成機制的研究非常少,在葫蘆科作物中,僅黃瓜中有2個相關(guān)的研究:Havey等研究認為在核基因組上存在一個Psm位點控制黃瓜的父系遺傳[46-47];在黃瓜基因組公布以后,Calderon等將該位點定位到黃瓜3號染色體上,并認為它是一個主效QTL[48]。在其他植物中,研究認為在萊茵衣藻中卵細胞形成后3~6h,線粒體選擇性地消失導致其線粒體基因組表現(xiàn)出嚴格的父系遺傳方式[49]。此外,被子植物生殖細胞中有絲分裂I期是決定細胞器基因組遺傳方式的關(guān)鍵時期,在這個時期細胞器遺傳方式取決于細胞器基因組的復制或降解[42]。近年來,一些研究認為線粒體基因組在系統(tǒng)進化、生物學分類、親緣關(guān)系分析等方面具有和葉綠體基因組相似的重要意義和作用[10,45],特別是父系遺傳的線粒體基因組,能從父系遺傳的角度對物種的系統(tǒng)發(fā)育關(guān)系作出獨特的解釋[50-51]。然而,目前在黃瓜和甜瓜中還未見線粒體基因組的相關(guān)研究報道。
目前,葫蘆科中只有黃瓜和甜瓜2個作物的葉綠體基因組已測序發(fā)表,其中黃瓜葉綠體基因組包括4個栽培品種[18-20]和1個野生種[21],甜瓜的僅有1個栽培品種完成了葉綠體基因組測序[2]。它們的葉綠體基因組均為典型的4段式雙鏈環(huán)狀分子結(jié)構(gòu),即 1個大的單拷貝區(qū)(Large Single Region,LSC)、1個小的單拷貝區(qū)(Small Single Copy Region,SSC)和2個長度基本相同的反向重復區(qū)(Inverted Repeat,IR)。目前NCBI中已收錄的其他植物的葉綠體基因組絕大部分屬于此類分子結(jié)構(gòu),如擬南芥、煙草、水稻[52-54]等,因此可以推測其他未測序的葫蘆科作物的葉綠體基因組的結(jié)構(gòu)也應(yīng)為雙鏈環(huán)狀分子結(jié)構(gòu)。然而其他植物中也有極少數(shù)葉綠體基因組為多環(huán)型或線型結(jié)構(gòu),如雙鞭甲藻的為多環(huán)型結(jié)構(gòu)[55],傘藻的為線型結(jié)構(gòu)[56]。研究表明黃瓜和甜瓜的葉綠體基因組大小分別為155 527 bp和156 017 bp,其中LSC、SSC和IR的比例也十分相似(表3)。其他大多數(shù)光合植物葉綠體基因組的大小一般在115~165 kb 之間[57],LSC 區(qū)的長度約為 81~90 kb,SSC 區(qū)長度介于18~20 kb之間,IR區(qū)長度變化則介于5~76 kb之間[58]。IR區(qū)可能對于植物的生長發(fā)育并不重要,并且在植物界的進化過程中可能經(jīng)歷過多次的縮減和擴增,如豌豆、日本柳杉的IR區(qū)完全消失[59];日本黑松的IR區(qū)序列已經(jīng)縮減至495 bp[60];天竺葵的IR區(qū)卻急劇增加了76 kb[61]。然而,葉綠體基因組的大小變化在進化過程中主要受到IR區(qū)的延展、縮小或丟失的影響[62]
植物葉綠體基因組一般擁有110~130個基因[57],黃瓜和甜瓜葉綠體基因組中分別有112和115個基因,且在基因組的組成及排列順序上具有高度保守性[2]。這些基因主要分為3大類:第一類是與光合作用相關(guān)的基因,包括光系統(tǒng)I(psa)、光系統(tǒng) II(psb)、細胞色素 b/f復合體(pet)、Rubisco 大亞基(rbcL)、ATP 合成酶(atp)、NAD(P)H 脫氫酶(ndh)等基因;第二類與葉綠體轉(zhuǎn)錄翻譯表達相關(guān),包括核糖體 RNA(rrn)、轉(zhuǎn)運 RNA(trn)、RNA 聚合酶(rpo)、核糖體蛋白(rpl)、翻譯起始因子(infA)等基因;第三類為開放式閱讀框(Open reading frame,ORF)和一些其他蛋白編碼基因,如ycf、matk等基因。黃瓜和甜瓜葉綠體基因組均含有21個內(nèi)含子,且含有內(nèi)含子的基因都相同,其中15個基因有1個內(nèi)含子,3個基因有2個內(nèi)含子(表3),且絕大多數(shù)內(nèi)含子為II型內(nèi)含子,只有trnL含有I型內(nèi)含子,此外rps12在2個物種中均為含有反式剪接內(nèi)含子的基因,進一步表明同屬植物葉綠體基因組比較保守。
表3 黃瓜和甜瓜葉綠體基因組特征
系統(tǒng)發(fā)育也稱為系統(tǒng)發(fā)展,是與個體發(fā)育而言的,它是指某一個類群的形成和發(fā)展過程。早期研究葫蘆科及其他高等植物的系統(tǒng)發(fā)育學,主要是通過研究化石記錄、比較形態(tài)學和比較生理學,來構(gòu)建出它們的進化歷史。隨著分子生物學和測序技術(shù)的高速發(fā)展,系統(tǒng)發(fā)育研究開始轉(zhuǎn)向分子系統(tǒng)發(fā)育學研究鄰域,即基于生物大分子序列或結(jié)構(gòu)所提供的信息來推測生物的進化史。目前,葫蘆科植物的系統(tǒng)發(fā)育研究主要是利用葉綠體基因組和核基因組的序列或分子標記。相比差異較大的葫蘆科作物核基因組和線粒體基因組,葉綠體基因組大小適中,便于測序,且各植物類群葉綠體基因組之間具有良好的共線性,堿基替換率較低,適用于不同階層的系統(tǒng)發(fā)育系研究。因此,葫蘆科作物葉綠體基因組序列或分子標記被廣泛地應(yīng)用于分子進化和系統(tǒng)發(fā)育的研究。通過對240個葫蘆科植物的葉綠體基因組中的5條基因序列進行測序和系統(tǒng)發(fā)育分析表明[63],黃瓜、甜瓜、西瓜和西葫蘆都來自于同一個祖先,西葫蘆在3 000萬年左右分離出去,西瓜在2 000萬年左右也被分離出去,而黃瓜和甜瓜則在1 000萬年左右彼此分開[17],并且被廣泛認可。早期研究表明黃瓜的起源和馴化都在亞洲,主要是印度西部喜馬拉雅山南麓到錫金、尼泊爾乃至我國的云南[64],在白堊紀晚期經(jīng)歷了多次飄洋過海的長距離擴散到了非洲、美洲和澳大利亞大陸,后來基于黃瓜葉綠體基因序列和分子標記也支持這一觀點[63]。相比黃瓜,甜瓜的地理起源仍存在較多爭議,在以前的研究中認為甜瓜的起源和馴化都在非洲[65-66],后來基于葉綠體基因的研究表明甜瓜起源于亞洲和澳大利亞[6,63],在甜瓜葉綠體基因組公布后,利用葉綠體基因組中更長片段的序列進行相似研究的報道又認為栽培甜瓜起源和馴化在非洲[1]。目前盡管西瓜和西葫蘆葉綠體基因組測序還未完成,但基于同源基因克隆西瓜中葉綠體基因組少數(shù)基因進行測序和系統(tǒng)發(fā)育分析,結(jié)果表明西瓜也起源于非洲[67-68],利用葉綠體基因組限制性酶切片段多態(tài)性標記和4個基因片段構(gòu)建的系統(tǒng)發(fā)育樹很好地證明西葫蘆起源于美洲[69-70]。但是葉綠體基因組在系統(tǒng)發(fā)育研究中也存在因隨機誤差和系統(tǒng)誤差導致的基于不同序列的不同系統(tǒng)發(fā)育結(jié)果不一致,或基因樹與物種樹不一致,或基因樹支持率很高卻不能反應(yīng)系統(tǒng)發(fā)育關(guān)系,以及葉綠體的單親遺傳性質(zhì)僅能反應(yīng)父系或母系的進化歷程等問題,需要引起注意[71]。
雖然葫蘆科植物資源較為豐富,目前僅有少數(shù)重要的葫蘆科蔬菜作物開展了相關(guān)的系統(tǒng)發(fā)育研究,絕大多數(shù)的葫蘆科植物的遺傳背景仍然不清楚。基于葉綠體基因組的分子系統(tǒng)發(fā)育學研究將有助于闡明葫蘆科植物的遺傳背景,促進葫蘆科植物種質(zhì)資源的利用和重要葫蘆科農(nóng)業(yè)作物的遺傳改良及品質(zhì)育種。
研究表明,葫蘆科作物獨特的線粒體和葉綠體基因組拓展了對高等植物線粒體和葉綠體基因組的認識,豐富了高等植物分子生物學數(shù)據(jù)庫,但關(guān)于葫蘆科作物的線粒體和葉綠體基因組仍有很多尚未探明的機制:黃瓜和甜瓜線粒體父系遺傳方式的機制;與它們同科的西瓜和西葫蘆卻是嚴格的母系遺傳的原因;黃瓜和甜瓜線粒體基因組的RNA編輯機制;基于線粒體基因組的植物分類、系統(tǒng)進化在葫蘆科中還未開展;研究葫蘆科作物線粒體和葉綠體基因組的目標之一,是對線粒體和葉綠體基因組進行人工修飾或轉(zhuǎn)化,雖然到目前為止線粒體轉(zhuǎn)化,在植物中尚未有成功案例的報道,但葉綠體轉(zhuǎn)化在其他植物中已有廣泛的應(yīng)用并已取得良好的成果[72],如煙草[73-74]、甜菜[75]和玉米[76]等,而在葫蘆科中至今仍未有相關(guān)研究報道。
隨著測序技術(shù)的不斷高速發(fā)展,更多葫蘆科作物的線粒體和葉綠體基因組將會被測序,從而促進很多基于葫蘆科作物線粒體和葉綠體基因組的相關(guān)研究,使研究者更好地了解葫蘆科作物的線粒體和葉綠體基因組及其功能。