張哲 黃建勛 戚繼
(復(fù)旦大學(xué)生命科學(xué)學(xué)院 植物科學(xué)研究所 遺傳與發(fā)育協(xié)同創(chuàng)新中心,上海 200433)
基于低拷貝核基因的組分特征研究十字花科植物的系統(tǒng)發(fā)生關(guān)系
張哲 黃建勛 戚繼
(復(fù)旦大學(xué)生命科學(xué)學(xué)院 植物科學(xué)研究所 遺傳與發(fā)育協(xié)同創(chuàng)新中心,上海 200433)
近年來人們在十字花科物種系統(tǒng)發(fā)生關(guān)系方面開展了大量工作,研究發(fā)現(xiàn)十字花科可分為3個主要類群,但是這些類群內(nèi)部以及類群間的進化關(guān)系還不明確。旨在快速準(zhǔn)確地解決十字花科物種系統(tǒng)發(fā)生關(guān)系,通過選取39個十字花科物種及兩個外類群物種作為研究材料,使用系統(tǒng)發(fā)生基因組學(xué)方法獲得了覆蓋所選物種的低拷貝同源基因集合。進一步通過CVTree方法分析低拷貝核基因的組分特征,得到了高度支持與穩(wěn)定的十字花科系統(tǒng)發(fā)育關(guān)系。結(jié)果顯示,十字花科被分為6個主要的類群,其中3個主要類群的劃分與前人的分類結(jié)果高度一致,并且增加了兩個新類群,此外,前人研究中存在爭議的第二類群在本研究結(jié)果中成為有穩(wěn)定支持的單系群。表明基于大量低拷貝同源基因集合并結(jié)合組分矢量分析,可以較為準(zhǔn)確地反映十字花科物種的系統(tǒng)發(fā)生關(guān)系。因此,CVTree方法不僅適用于研究原核生物、真菌等微生物的系統(tǒng)發(fā)生關(guān)系,也可以用來探究十字花科植物等高等生物的親緣關(guān)系。
十字花科;系統(tǒng)發(fā)生關(guān)系;組分矢量;低拷貝核基因
在真核生物的系統(tǒng)發(fā)生研究中,由于線粒體、葉綠體等細胞器基因較易獲得而被廣泛使用,例如,Zhu等[1,2]利用線粒體基因matR研究薔薇科的系統(tǒng)發(fā)育關(guān)系。由于線粒體基因組在不同植物類群中差異較大(300-600 kb),并且部分寄生類群植物的線粒體基因組中存在核基因的插入[3,4],這些特點在一定程度上限制了線粒體基因在植物系統(tǒng)發(fā)生研究中的應(yīng)用。不同物種的葉綠體基因具有組成和排列相似、大都是直系同源基因且基因序列比較保守等特點[5],同時已有大量的植物葉綠體基因組信息被測序發(fā)表,這些因素使得葉綠體基因成為研究植物系統(tǒng)發(fā)生關(guān)系的常用材料之一[6-8]。然而,由于葉綠體基因?qū)儆趩蜗颠z傳,攜帶的進化信息有限,難以揭示大類群內(nèi)部深層次的系統(tǒng)發(fā)生關(guān)系。隨著高通量測序技術(shù)的發(fā)展,快速、準(zhǔn)確及大規(guī)模獲取植物的核基因序列成為可能,因此目前越來越多的研究人員開始采用屬于雙親遺傳、攜帶更多遺傳信息的核基因來研究植物的親緣關(guān)系[9,10]。近年來大量有關(guān)工作通過轉(zhuǎn)錄組測序手段獲取被子植物或陸地植物的編碼序列,在多種尺度開展植物的系統(tǒng)發(fā)生關(guān)系研究[11-13]。
與細胞器基因相比,核基因具有復(fù)雜的進化模式,包括基因重復(fù)和基因丟失。研究表明,被子植物在進化過程中經(jīng)歷過多次全基因組重復(fù)事件(Whole genome duplication,WGD)[14];十字花科祖先經(jīng)歷過α和β兩次全基因組重復(fù)事件[15-17];還存在一定數(shù)量的種、屬特異的全基因組重復(fù)事件。例如,白菜近期經(jīng)歷過獨立的基因組三倍化[18],大豆也被證實近期發(fā)生過一次全基因組重復(fù)事件。祖先基因組多倍化事件導(dǎo)致的全基因組重復(fù),可能在后代類群中存在丟失不同基因拷貝的現(xiàn)象[19],使得部分基因退回到單拷貝狀態(tài),這可能導(dǎo)致不同物種間保留的基因為旁系同源關(guān)系。由于旁系同源基因無法提供正確的物種分化信息,因此在一定程度上限制了核基因在植物親緣關(guān)系研究中的應(yīng)用。面對這一挑戰(zhàn),研究人員不斷開發(fā)新的生物信息學(xué)方法,從大量物種的測序數(shù)據(jù)中獲取可能具有直系同源關(guān)系的單拷貝或低拷貝基因來構(gòu)建真實反映物種關(guān)系的進化樹,并且已經(jīng)取得了一定的進展[20,21]。
十字花科(Brassicaceae)是一個公認的自然大科,全科分為338個屬,共有3 700多個種[22],主要分布于地中海及西北美等北溫帶地區(qū),同時也廣泛分布于我國西南、西北及東北的高山區(qū)及丘陵區(qū)[23]。十字花科中不僅存在白菜、油菜等具有重要應(yīng)用價值的作物,還包含多種適應(yīng)干旱、鹽堿、低溫等不同極端環(huán)境的植物,被廣泛用于分子生物學(xué)研究的模式植物擬南芥也屬于這一類群,因此該科具有重要的經(jīng)濟和研究價值。目前已經(jīng)公布了十字花科中19個物種的基因組測序信息[2,24-33]。十字花科祖先以及物種分化以后等不同演化階段發(fā)生過多次基因組多倍化并可能導(dǎo)致一定程度的物種輻射[34-37],使得十字花科具有豐富的物種多樣性,為植物系統(tǒng)發(fā)生有關(guān)研究提供了優(yōu)良的素材。
近年來發(fā)表的關(guān)于十字花科植物族屬的界定及科內(nèi)系統(tǒng)演化關(guān)系方面的工作主要依靠葉綠體基因和少量核基因提供的進化信息。Beilstein等[38]利用來自113個十字花科物種的葉綠體基因ndhF序列信息,將十字花科劃分為主要的3個類群(I、II、III);同時Franzke等[39]定義了擴展的類群II(Extended II,EII),該類群包含了原類群II以及部分類群II的并系類群中的物種。由于類群EII的物種親緣關(guān)系還存在爭議,因此在十字花科進化樹上EII的內(nèi)部關(guān)系經(jīng)常以梳狀結(jié)構(gòu)呈現(xiàn)。最近Huang等[10]利用113個核基因?qū)⑹只品譃?個主要類群,在得到與前人研究一致的3個主要類群的基礎(chǔ)上,同時較好地解決了類群EII的系統(tǒng)發(fā)育關(guān)系。
在十字花科以及其它被子植物系統(tǒng)發(fā)生關(guān)系的研究中,少數(shù)基因集合所包含的物種演化信息不能反映一致的物種親緣關(guān)系。為了消除少數(shù)核基因的具體選擇在十字花科系統(tǒng)發(fā)生關(guān)系分析中的影響,本研究通過使用系統(tǒng)基因組學(xué)方法,從34個物種的轉(zhuǎn)錄組及7個物種的基因組中篩選出大量低拷貝核基因,并使用組分矢量方法分析氨基酸序列片段中所包含的共同祖征、演征信息,以期獲得穩(wěn)定的十字花科物種系統(tǒng)發(fā)生關(guān)系,為深入研究十字花科以及其它類群物種的系統(tǒng)發(fā)生關(guān)系提供新的視角。
1.1 材料
本研究采用了34個物種的轉(zhuǎn)錄組數(shù)據(jù)和7個物
種的基因組數(shù)據(jù),其中轉(zhuǎn)錄組數(shù)據(jù)包括來自于本實驗室測序的33個物種的轉(zhuǎn)錄組信息以及公共數(shù)據(jù)庫下載的1個物種的轉(zhuǎn)錄組信息(包括33個十字花科物種和1個醉蝶花科的Cleome serrulata作為外類群物種);基因組數(shù)據(jù)部分包括公共數(shù)據(jù)庫下載的7個物種的基因組信息(包括6個十字花科物種和1個番木瓜科的番木瓜作為外類群物種),41個物種的具體信息及數(shù)據(jù)來源信息,見表1。
1.2 方法
在西方文化的優(yōu)點和缺點的縫隙中中艱苦生活的藤尾不能平衡西洋文化的優(yōu)點、短處和封建性。這是藤尾死亡的主觀原因,藤尾自己在這個情況下,以死亡逃避現(xiàn)實。藤尾的母親迷女意識到自己的壞事也于事無補了。藤尾想擁有純粹的愛情,也不能舍棄以利益和個人為中心的本位意識。也不知道面對愛情被背叛的方法。實際上,這是一個非常大的西方化女性的狀況。
1.2.1 數(shù)據(jù)處理 利用Trinity軟件對轉(zhuǎn)錄組測序數(shù)據(jù)進行拼接[40](參數(shù)為默認參數(shù)),使用TGICL軟件(參數(shù):-p 0.98,-l 40,-v)來獲得更長的cDNA序列[41]。使用CD-HIT軟件對基因組或轉(zhuǎn)錄組數(shù)據(jù)中相似度高的序列進行過濾處理[42]。最后進行序列比對及同源基因簇構(gòu)建。為了準(zhǔn)確識別41個物種的同源基因簇,我們對任意兩物種間的蛋白質(zhì)序列進行了all-against-all blastP比對分析,隨后利用Inparanoid計算蛋白質(zhì)序列全局比對相似性并舍去比對相似性低于40%的比對結(jié)果[43]。接下來利用OrthoMCL整合分析41個物種所包含的1 149 041個基因之間的蛋白質(zhì)序列比對結(jié)果[44],最終得到35 948個同源基因簇,每個同源基因簇平均約包含29個基因,平均物種覆蓋度為41.88%。
1.2.2 低拷貝基因的篩選標(biāo)準(zhǔn) 以同源基因簇中單拷貝基因的物種數(shù)占總物種數(shù)的85%、80%及75%(對應(yīng)35、33及31個具有單拷貝基因的物種數(shù))作為閾值得到3個低拷貝同源基因簇集,作為后續(xù)分析的3個數(shù)據(jù)集。同時刪除低拷貝同源基因簇中其它物種的多拷貝基因,保證每個低拷貝同源基因簇中所有物種均為單拷貝同源基因。
1.2.3 十字花科親緣關(guān)系預(yù)測 在每個數(shù)據(jù)集中分別提取每個物種的所有氨基酸序列組成該物種的“縮略基因組”。使用CVTree構(gòu)建各個物種的組分矢量,同時計算兩物種組分矢量間的夾角余弦值并將其轉(zhuǎn)換為物種距離,最后使用鄰接法(Neighbor Joining Method,NJ)構(gòu)建十字花科物種系統(tǒng)發(fā)生樹。
2.1 物種基因組/轉(zhuǎn)錄組概況
本研究選擇來自于十字花科的39個物種(涵蓋了18個族及兩個未定族)和兩個外類群物種。首先對其中34個物種的轉(zhuǎn)錄組數(shù)據(jù)進行了轉(zhuǎn)錄本拼接處理,得到了每個物種約25 000-35 000個轉(zhuǎn)錄本(表1),每個轉(zhuǎn)錄本的平均氨基酸長度約為313(圖1)。由于高度相似的序列會對后續(xù)篩選低拷貝同源基因造成影響,因此對基因組數(shù)據(jù)以及拼接后的轉(zhuǎn)錄組數(shù)據(jù)中高度相似的序列進行了過濾處理。結(jié)果保留了平均每個物種約28 025個基因或轉(zhuǎn)錄本序列用于后續(xù)的相關(guān)分析。
表1 41個物種的物種信息、基因組或轉(zhuǎn)錄組信息及數(shù)據(jù)來源
圖1 41個物種的基因或轉(zhuǎn)錄本平均氨基酸長度分布
2.2 同源基因聚類
本研究對41個物種的氨基酸序列進行了allagainst-all blastP序列比對分析,得到了兩兩物種間的同源基因?qū)Ψ植记闆r。隨后,整合了所有物種的比對結(jié)果信息,進一步分析得到了41個物種間共計35 948個同源基因簇,其中平均每個同源基因簇中約含有來自17個物種的29個基因。通過觀察以上這些同源基因簇中基因數(shù)目的分布情況,得到了兩個較為集中分布的同源基因簇集,分別對應(yīng)直方圖上的兩個峰值(圖3-A)。其中第一個峰值周圍的同源基因簇中約含有0-15個基因,這部分同源基因簇集代表十字花科內(nèi)部分支部分物種的祖先基因;第二個峰值周圍的同源基因簇中約含有40-50個基因,這部分同源基因簇集則代表十字花科物種分化前的祖先基因,因此這部分同源基因簇保留了更全面的十字花科物種的遺傳信息。
表2 41個物種同源基因及孤兒基因的分布情況
2.3 單拷貝同源基因篩選
前期研究結(jié)果表明十字花科祖先在經(jīng)歷了兩次全基因組重復(fù)后,其產(chǎn)生的復(fù)制基因迅速丟失。其中有約4 000對重復(fù)基因在十字花科物種分化前仍
然保留了兩個以上拷貝。由于重復(fù)基因在不同類群中可能保留了不同的拷貝,使得建樹過程中可能采用了旁系同源基因而無法反映正確的物種關(guān)系(圖2)。為了盡量避免全基因組或基因重復(fù)事件對構(gòu)建十字花科系統(tǒng)發(fā)育關(guān)系的影響,從同源基因簇中挑選滿足一定物種覆蓋度且各物種同源基因為單拷貝的基因集。以物種覆蓋度為85%、80%及75%(對應(yīng)35、33及31個物種數(shù))作為閾值得到3個數(shù)據(jù)集合,分別包含2 058、3 047和4 001個單拷貝基因簇。在3種數(shù)據(jù)集中,大部分同源基因簇約包含40-50個基因(圖3-B),并且總物種覆蓋度約為98%(表3),表明3種數(shù)據(jù)集幾乎覆蓋所有物種,為后續(xù)的系統(tǒng)發(fā)生研究提供了較為充足的遺傳信息。
2.4 構(gòu)建十字花科系統(tǒng)發(fā)生關(guān)系
圖2 基因選擇對物種樹正確性的影響
圖3 總同源基因簇(A)及3個同源基因簇子集(B)的基因數(shù)分布情況
表3 三種同源基因簇集的基本信息
利用CVTree方法及3種同源基因簇集合分別構(gòu)建了十字花科系統(tǒng)發(fā)生樹。隨后整合分析了3種系統(tǒng)發(fā)育關(guān)系結(jié)果并最終得到了高度支持與穩(wěn)定的十字花科系統(tǒng)發(fā)生樹。如圖4所示,十字花科分為六大類群(類群A-F),與前人研究得到的十字花科六大類群的分類結(jié)果高度一致。其中類群A與類群B和C的結(jié)合類群互為姐妹類群,類群D為類群A、B、C結(jié)合類群的姐妹群,同時類群E為類群A、B、
C、D結(jié)合類群的姐妹群,Aethionemeae族為基部類群F。在大尺度上,我們的結(jié)果與前人構(gòu)建的十字花科三大類群(類群I、II、III)的系統(tǒng)發(fā)育關(guān)系基本一致,即類群A和類群B分別對應(yīng)類群I和類群II,同時類群III中的大部分物種被劃分至類群E中。在兩個小類群C、D中,分別包含了類群EII及類群III中的部分物種。此外,我們還較好地解決了類群EII的系統(tǒng)發(fā)育關(guān)系,將類群EII中的大部分物種劃分至類群B中(與類群II互為姐妹類群),其它物種則被劃分至類群C和類群D中??傮w來說,基于CVTree方法得出的十字花科系統(tǒng)發(fā)育關(guān)系與前人利用葉綠體基因以及核基因構(gòu)建的系統(tǒng)發(fā)育關(guān)系在大類群的親緣關(guān)系上基本一致。在我們構(gòu)建的系統(tǒng)發(fā)生樹上(圖4),節(jié)點處的實心圓點代表該拓撲結(jié)構(gòu)得到3種同源基因簇集合的共同支持,空心圓點代表該拓撲結(jié)構(gòu)得到兩種同源基因簇集合的共同支持。本研究系統(tǒng)發(fā)生樹中幾乎所有的節(jié)點都得到了高度支持,這也證明了該系統(tǒng)發(fā)育關(guān)系不隨基因集合的變化而改變,因此具有較高的穩(wěn)定性。
基于大量低拷貝核基因集合和CVTree方法構(gòu)建的十字花科系統(tǒng)發(fā)生樹在族、屬等尺度上與前人的研究結(jié)果高度一致,在一些個別分支的系統(tǒng)發(fā)生關(guān)系上存在一定程度的差異。例如,本研究結(jié)果與Kagale等[12]的研究結(jié)果相一致,認為Lepidieae族的分化晚于Cardamineae族。而Huang等[10]的研究結(jié)果則認為Lepidieae族的分化時間較早,屬于類群I的基部分支。有研究表明Lepidieae族經(jīng)歷過異源多倍化事件[45],因此采用不同的同源基因集合可能會對正確反映Lepidieae族的分化位置造成影響。其次,在類群I中Physaria newberryi的位置也與前人的研究結(jié)果存在差異,Huang等的研究結(jié)果中Physaria newberryi分支在c分支分化之后、b分支分化之前出現(xiàn)(圖4),而在我們的研究結(jié)果中Physaria newberryi位于類群I的基部。我們發(fā)現(xiàn)Huang等[10]構(gòu)建的系統(tǒng)發(fā)生樹中,Physaria newberryi在類群I物種中的枝長最長,表明該物種具有較快的進化速率,這可能會對不同的構(gòu)樹方法造成不同的影響。另外Huang等的研究認為Turritis glabra位于a類群基部(圖4),而在本結(jié)果中Turritis glabra與Boechera canadensis的親緣關(guān)系更接近,并且為a類群的姐妹群,這可能與Huang等的結(jié)果中包含Alyssopsis mollis、Murbeckiella pinnatifida等Turritis glabra的近鄰物種有關(guān)。
由于Schrenkiella parvula和Eutrema salsugineum均為耐鹽植物,早期研究認為這兩個物種同屬于鹽芥屬(Thellungiella)。Kagale[12]和Huang等[10]的研究結(jié)果均認為Schrenkiella parvuls的分化早于Eutrema salsugineum和其它EII-B類群物種,暗示這兩個物種的抗鹽性狀為物種分化后單獨獲得。而本研究結(jié)果與早期的分類保持一致,即Schrenkiella parvula和Eutrema salsugineum的親緣關(guān)系更接近,傾向于支持兩個物種鹽適應(yīng)能力的獲得發(fā)生在物種分化之前。此外,本研究結(jié)果穩(wěn)定支持Lunaria annua與類群II和EII的結(jié)合類群互為姐妹類群,即該物種在d分支分化之后出現(xiàn)(圖4),而Huang等的研究結(jié)果顯示Lunaria annua在d分支分化之前、e分支分化之后出現(xiàn)。由于d和e兩個分支的進化關(guān)系較近,這也在一定程度上加大了正確反映Lunaria annua系統(tǒng)發(fā)生關(guān)系的難度,因此可能需要加入其它近鄰物種才能確定Lunaria annua的進化位置。
基因重復(fù)和丟失等因素可能在一定程度上對依賴于直系同源基因比較的進化研究造成影響。在本研究結(jié)果中Brassiceae族物種約含有3萬-4萬個編碼基因(表1),顯著高于十字花科其它族物種的平均基因數(shù)目。這與Brassiceae族祖先經(jīng)歷過近期基因組多倍化事件相符,表明Brassiceae族物種在全基因組重復(fù)后保留了大量的旁系同源基因。與前人的研究結(jié)果相比,本研究結(jié)果中Brassica nigra和Brassica rapa的位置發(fā)生了調(diào)換,這可能與Brassiceae族物種中普遍存在的旁系同源基因的保留、丟失模式有關(guān),因此需要進一步深入研究才能為Brassiceae族構(gòu)建出正確的系統(tǒng)發(fā)生關(guān)系。
綜上所述,基于CVTree方法我們得到了穩(wěn)定支持的十字花科物種系統(tǒng)發(fā)育關(guān)系。我們將十字花科劃分為六大類群,其中類群A、B和E基本與前人研究結(jié)果中的類群I、II和III一一對應(yīng),同時還增加了兩個新類群(類群C、D)。此外,我們將EII類群中大部分物種劃分至類群B中,并且與類群II
互為姐妹類群,其它之前被認為屬于類群EII的物種則分布在類群C和類群D中。本研究結(jié)果在分類情況、各個類群內(nèi)及類群間的系統(tǒng)發(fā)生關(guān)系上與前人的研究結(jié)果基本一致,同時較好地解決了類群EII分類的爭議。以上結(jié)果表明,在全基因組尺度上進行同源基因聚類以及低拷貝同源基因篩選,將在一定程度上減少使用少數(shù)基因構(gòu)建進化樹研究中面臨的基因選擇問題,使得快速準(zhǔn)確地獲得物種進化關(guān)系成為可能??焖侔l(fā)展的高通量測序技術(shù)使得CVTree方法不僅適用于原核生物、真菌等微生物的
系統(tǒng)發(fā)生分析[46],也可以被應(yīng)用在十字花科或更多類群物種的進化研究中。
圖4 十字花科系統(tǒng)發(fā)生樹
本研究采用39個十字花科物種及兩個外類群物種,利用系統(tǒng)基因組學(xué)方法篩選低拷貝核基因并基于組分矢量方法得到了高度支持與穩(wěn)定的十字花科系統(tǒng)發(fā)育關(guān)系。本結(jié)果在分類情況、各個類群內(nèi)及類群間的系統(tǒng)發(fā)生關(guān)系上與前人研究結(jié)果基本一致,同時較好地解決了類群EII分類的爭議,為使用低拷貝核基因深入分析十字花科系統(tǒng)發(fā)生關(guān)系提供了框架。
[1]Zhu XY, Chase MW, Qiu YL, et al. Mitochondrial matR sequences help to resolve deep phylogenetic relationships in rosids[J]. BMC Evol Biol, 2007, 7:217.
[2]Anderson JT, Wagner MR, Rushworth CA, et al. The evolution of quantitative traits in complex environments[J]. Heredity(Edinb), 2014, 112(1):4-12.
[3]Bergthorsson U, Adams KL, Thomason B, et al. Widespread horizontal transfer of mitochondrial genes in flowering plants[J]. Nature, 2003, 424(6945):197-201.
[4]Westwood JH, Yoder JI, Timko MP, et al. The evolution of parasitism in plants[J]. Trends Plant Sci, 2010, 15(4):227-235.
[5]Olmstead R, Palmer J. Chloroplast DNA systematics:a review of methods and data analysis[J]. American Journal of Botany(USA), 1994, 81(9):1205-1224.
[6] Moore MJ, Soltis PS, Bell CD, et al. Phylogenetic analysis of 83 plastid genes further resolves the early diversification of eudicots[J]. Proc Natl Acad Sci USA, 2010, 107:4623-4628.
[7]Jansen RK, Saski C, Lee SB, et al. Complete plastid genome sequences of three Rosids(Castanea, Prunus, Theobroma):evidence for at least two independent transfers of rpl22 to the nucleus[J]. Mol Biol Evol, 2011, 28(1):835-847.
[8]Weng ML, Ruhlman TA, Gibby M, et al. Phylogeny, rate variation, and genome size evolution of Pelargonium(Geraniaceae)[J]. Mol Phylogenet Evol, 2012, 64(3):654-670.
[9]Zimmer EA, Wen J. Using nuclear gene data for plant phylogenetics:Progress and prospects II. Next-gen approaches[J]. Journal of Systematics and Evolution, 2015, 53(5):371-379.
[10]Huang CH, Sun R, Hu Y, et al. Resolution of Brassicaceae phylogeny using nuclear genes uncovers nested radiations and supports convergent morphological evolution[J]. Molecular Biology and Evolution, 2016, 33(2):394-412.
[11]Zeng L, Zhang Q, Sun R, et al. Resolution of deep angiosperm phylogeny using conserved nuclear genes and estimates of early divergence times[J]. Nature Communications, 2014, 5:4956.
[12] Kagale S, Robinson SJ, Nixon J, et al. Polyploid evolution of the Brassicaceae during the Cenozoic era[J]. Plant Cell, 2014, 26(7):2777-2791.
[13]Yang Y, Moore MJ, Brockington SF, et al. Dissecting molecular evolution in the highly diverse plant clade Caryophyllales using transcriptome sequencing[J]. Molecular Biology and Evolution, 2015, 32(8):2001-2014.
[14]Jiao Y, Wickett NJ, Ayyampalayam S, et al. Ancestral polyploidy in seed plants and angiosperms[J]. Nature, 2011, 473(7345):97-100.
[15]Bowers JE, Chapman BA, Rong J, et al. Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events[J]. Nature, 2003, 422(6930):433-438.
[16]Barker MS, Vogel H, Schranz ME. Paleopolyploidy in the Brassicales:analyses of the Cleome transcriptome elucidate the history of genome duplications in Arabidopsis and other Brassicales[J]. Genome Biol Evol, 2009, 1:391-399.
[17]Tang H, Bowers JE, Wang X, et al. Synteny and collinearity in plant genomes[J]. Science, 2008, 320(5875):486-488.
[18]Wang X, Wang H, Wang J, et al. The genome of the mesopolyploid crop species Brassica rapa[J]. Nat Genet, 2011, 43(10):1035-1039.
[19]Xu G, Ma H, Nei M, et al. Evolution of F-box genes in plants:different modes of sequence divergence and their relationships with functional diversification[J]. Proc Natl Acad Sci USA, 2009, 106(3):835-840.
[20]Fulton TM, Van der Hoeven R, Eannetta NT, et al. Identification, analysis, and utilization of conserved ortholog set markers for comparative genomics in higher plants[J]. Plant Cell, 2002, 14(7):1457-1467.
[21]Wu F, Mueller LA, Crouzillat D, et al. Combining bioinformatics and phylogenetics to identify large sets of single-copy orthologous
genes(COSII)for comparative, evolutionary and systematic studies:a test case in the euasterid plant clade[J]. Genetics, 2006, 174(3):1407-1420.
[22] Warwick SI, Al-Shehbaz IA, Sauder CA. Phylogenetic position of Arabis arenicola and generic limits of Aphragmus and Eutrema(Brassicaceae)based on sequences of nuclear ribosomal DNA[J]. Botany, 2006, 84(2):269-281.
[23]Zhou TY, Lu LL, Yang G, et al. Brassicaceae(Cruciferae)[J]. Flora of China, 2001, 8:1-200.
[24]Gong Q, Li P, Ma S, et al. Salinity stress adaptation competence in the extremophile Thellungiella halophila in comparison with its relative Arabidopsis thaliana[J]. Plant J, 2005, 44:826-839.
[25]Amasino R. Floral induction and monocarpic versus polycarpic life histories[J]. Genome Biol, 2009, 10(7):228.
[26]Dassanayake M, Oh DH, Haas JS, et al. The genome of the extremophile crucifer Thellungiella parvula[J]. Nat Genet, 2011, 43(9):913-918.
[27] Hu TT, Pattyn P, Bakker EG, et al. The Arabidopsis lyrata genome sequence and the basis of rapid genome size change[J]. Nat Genet, 2011, 43(5):476-481.
[28]Rushworth CA, Song BH, Lee CR, et al. Boechera, a model system for ecological genomics[J]. Mol Ecol, 2011, 20:4843-4857.
[29]Wu HJ, Zhang Z, Wang JY, et al. Insights into salt tolerance from the genome of Thellungiella salsuginea[J]. Proc Natl Acad Sci USA, 2012, 109(30):12219-12224.
[30]Slotte T, Hazzouri KM, Agren JA, et al. The Capsella rubella genome and the genomic consequences of rapid mating system evolution[J]. Nat Genet, 2013, 45(7):831-835.
[31]Verbruggen N, Juraniec M, Baliardini C, et al. Tolerance to cadmium in plants:the special case of hyperaccumulators[J]. Biometals, 2013, 26(4):633-638.
[32]Halimaa P, Blande D, Aarts MG, et al. Comparative transcriptome analysis of the metal hyperaccumulator Noccaea caerulescens[J]. Front Plant Sci, 2014, 5:213.
[33]Vekemans X, Poux C, Goubet PM, et al. The evolution of selfing from outcrossing ancestors in Brassicaceae:what have we learned from variation at the S-locus?[J]. J Evol Biol, 2014, 27(7):1372-1385.
[34]Vision TJ, Brown DG, Tanksley SD. The origins of genomic duplications in Arabidopsis[J]. Science, 2000, 290(5499):2114-2117.
[35]Simillion C, Vandepoele K, Van Montagu MC, et al. The hidden duplication past of Arabidopsis thaliana[J]. Proc Natl Acad Sci USA, 2002, 99(21):13627-13632.
[36]Couvreur TL, Franzke A, Al-Shehbaz IA, et al. Molecular phylogenetics, temporal diversification, and principles of evolution in the mustard family(Brassicaceae)[J]. Mol Biol Evol, 2010, 27(1):55-71.
[37]Edger PP, Heidel-Fischer HM, Bekaert M, et al. The butterfly plant arms-race escalated by gene and genome duplications[J]. Proc Natl Acad Sci USA, 2015, 112(27):8362-8366.
[38]Beilstein MA, Al-Shehbaz IA, Kellogg EA. Brassicaceae phylogeny and trichome evolution[J]. Am J Bot, 2006, 93(4):607-619.
[39]Franzke A, Lysak MA, Al-Shehbaz IA, et al. Cabbage family affairs:the evolutionary history of Brassicaceae[J]. Trends Plant Sci, 2011, 16(2):108-116.
[40]Grabherr MG, Haas BJ, Yassour M, et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol, 2011, 29(7):644-652.
[41]Pertea G, Huang X, Liang F, et al. TIGR Gene Indices clustering tools(TGICL):a software system for fast clustering of large EST datasets[J]. Bioinformatics, 2003, 19(5):651-652.
[42]Li W, Godzik A. Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics, 2006, 22(13):1658-1659.
[43]O'Brien KP, Remm M, Sonnhammer EL. Inparanoid:a comprehensive database of eukaryotic orthologs[J]. Nucleic Acids Res, 2005, 33(Database issue):476-480.
[44]Li L, Stoeckert CJ, Roos DS. OrthoMCL:identification of ortholog groups for eukaryotic genomes[J]. Genome Res, 2003, 13(9):2178-2189.
[45]Lee JY, Mummenhoff K, Bowman JL. Allopolyploidization and evolution of species with reduced floral structures in Lepidium L.(Brassicaceae)[J]. Proc Natl Acad Sci USA, 2002, 99(26):16835-16840.
[46]Qi J, Luo H, Hao B. CVTree:a phylogenetic tree reconstruction tool based on whole genomes[J]. Nucleic Acids Res, 2004, 32(Web Server issue):45-47.
(責(zé)任編輯 李楠)
Revealing Deep Phylogeny of Brassicaceae Using Composition Analysis of Low-copy Nuclear Genes
ZHANG Zhe HUANG Chien-hsun QI Ji
(Collaborative Innovation Center of Genetics and Development,Institute of Plant Biology,School of Life Sciences,F(xiàn)udan University,Shanghai 200433)
Brassicaceae,as many vegetable crops and important model plants,is one of the most successful and economically valuable angiosperm families. Recent phylogenetic studies revealed that plants of Brassicaceae were classified into 3 major lineages(I,II,and III),however,detailed evolutionary relationships among them and intra-lineage still remain unknown. In order to quickly and accurately understand the phylogeny of Brassicaceae species,39 Brassicaceae species and two species of other family were chosen as research materials,and a set of low copy orthologous genes covering all the selected species was acquired via phylogenetic genomics. Further,the composition characteristics of low copy nuclear genes were analyzed by CVTree,the phylogeny of Brassicaceae in highly supported and stable relationship was obtained. The results revealed that Brassicaceae could be classified into 6 major lineages,and 3 of which agreed well with the classification by the priors,and 2 new major lineages were defined. Moreover,lineage II that was in dispute in previous studies was confirmed as the single lineage with stable supports. This indicated that a large number of low copy orthologous genes set combined with the analysis of composition vector may more accurately reflect phylogeny of Brassicaceae species. Therefore,CVTree not only is suitable for studying the phylogeny of microorganisms such as prokaryotic organisms and fungi,but also for exploring the genetic relationship of higher organisms such as Brassicaceae plants
Brassicaceae;phylogeny;composition vector;low-copy nuclear gene
10.13560/j.cnki.biotech.bull.1985.2016.12.015
2016-04-08
國家自然科學(xué)基金項目(91131007)
張哲,男,研究方向:基因組遺傳變異和功能分化,E-mail:zhangzhe1020@126.com;黃建勛為本文并列第一作者
戚繼,男,博士,研究方向:基因組遺傳變異和功能分化;E-mail:qij@fudan.edu.cn