李 陽, 袁 娜, 劉大亮, 翟小杰, 徐照龍, 程 靜, 杜建廠
(1.南京農(nóng)業(yè)大學園藝學院/作物遺傳與種質(zhì)創(chuàng)新國家重點實驗室,江蘇 南京 210095; 2.江蘇省農(nóng)業(yè)科學院種質(zhì)資源與生物技術(shù)研究所/江蘇省農(nóng)業(yè)生物學重點實驗室,江蘇 南京 210014)
轉(zhuǎn)座元件(Transposable elements),又叫轉(zhuǎn)座子,是基因組中可以移動的DNA片段。根據(jù)轉(zhuǎn)座方式的不同,植物中的轉(zhuǎn)座子一般可分為2種類型,即以RNA為媒介的反轉(zhuǎn)座子和以DNA為媒介的DNA轉(zhuǎn)座子。根據(jù)結(jié)構(gòu)的不同,反轉(zhuǎn)座子又可以分為LTR(Long terminal repeat)類反轉(zhuǎn)座子和非LTR類反轉(zhuǎn)座子[1]。研究結(jié)果表明,LTR類反轉(zhuǎn)座子是植物基因組的主要組成部分。在玉米中,LTR類反轉(zhuǎn)座子的DNA含量可以達到75%[2]。根據(jù)序列相似性和轉(zhuǎn)座酶的先后順序,LTR類反轉(zhuǎn)座子又可以分為Copia和Gypsy 2個超家族。兩者在結(jié)構(gòu)上的區(qū)別主要在于整合酶INT的位置不同。Copia類反轉(zhuǎn)座子具有INT-RT-RH結(jié)構(gòu),而Gypsy型反轉(zhuǎn)座子則具有RT-RH-INT結(jié)構(gòu)[1]。
一個完整的LTR-反轉(zhuǎn)座子(Intact element)通常具有一些明顯的結(jié)構(gòu)特征,如包含2個正向重復的LTR序列,通常以TG開頭,CA結(jié)尾,往往在其插入位點附近形成4~6 bp的正向重復序列(Target site duplications,TSDs),含有與轉(zhuǎn)錄起始和終止有關(guān)的tRNA結(jié)合位點(Primer binding site,PBS)和多聚嘌呤序列(Polypurine tract,PPT)。除了完整的LTR-反轉(zhuǎn)座子(Intact element)外,基因組中也存在大量的單個LTR序列(solo LTR)以及部分缺失的LTR元件(Truncated element)[3-4]。一般認為,這2種類型的LTR轉(zhuǎn)座子是由于各種類型的重組事件而產(chǎn)生的[5-6]。
由于同一個LTR-反轉(zhuǎn)座子的2個LTR序列來自于同一個mRNA分子,因此,一個新的LTR-反轉(zhuǎn)座子在形成時具有2個序列完全一致的LTR序列[4]。隨著進化時間的推移,同樣的2個LTR序列逐漸產(chǎn)生和積累變異。因此,根據(jù)2個LTR序列之間的核苷酸序列差異,以及LTR-反轉(zhuǎn)座子的大致進化速率,可以估算LTR-反轉(zhuǎn)座子的插入時間。比如,在大豆基因組中,>90%的鑒定完整的LTR-反轉(zhuǎn)座子是在最近3.0 MYA產(chǎn)生的,并且>3 000個LTR-反轉(zhuǎn)座子在最近0.5 MYA內(nèi)產(chǎn)生[7]。
作為植物中主要的重復序列類型之一,Copia類反轉(zhuǎn)座子是構(gòu)成植物基因組的重要組成部分。已有研究結(jié)果表明,4%的水稻基因組DNA[8]、12%的大豆基因組DNA[9]以及24%的玉米基因組DNA[10]由各種類型的Copia類反轉(zhuǎn)座子組成。盡管大多數(shù)轉(zhuǎn)座元件含有插入/缺失、移碼突變、終止密碼子等,在基因組中不再活躍,一些Copia類反轉(zhuǎn)座子在特殊生長條件下仍然具有轉(zhuǎn)座活性。如在組織培養(yǎng)條件下,水稻中的Tos17轉(zhuǎn)座子被大量激活,并偏向性的插入到基因富集的區(qū)域[8]。利用Tos17這種特性,科研人員創(chuàng)造了大量的水稻突變體庫,從而更有助于水稻基因功能的研究[11]。另外,一些Copia類反轉(zhuǎn)座子還直接介導了植物器官的產(chǎn)生和性狀的形成。已有研究結(jié)果表明,Copia類反轉(zhuǎn)座子Rider參與了番茄SUN基因的復制,進而影響了番茄果實的形狀和大小[12]。橙子中Copia類反轉(zhuǎn)座子Tcs1插入到Ruby基因的上游,促進了花色素苷的合成,使得果肉顏色呈現(xiàn)紅色[13]。這些結(jié)果表明,Copia類反轉(zhuǎn)座子對于植物基因組的構(gòu)成,突變體庫的建立,以及植物表型的產(chǎn)生都可能具有重要作用。
綠豆(Vignaradiata)是一種重要的經(jīng)濟作物。由于其具有生長期短、適應性廣、營養(yǎng)價值高等優(yōu)點,被廣泛作為倒茬輪作、間作套種、減災救災等作物,以及用于豆芽、粉絲、糕點等食品的制作[14]。綠豆基因組具有22條染色體,基因組大小約579 Mb[15]。盡管綠豆基因組序列已組裝完成,但是由于其基因組進化時間較長,成分較多,很多重復序列種類多、結(jié)構(gòu)復雜。因此,綠豆基因組的注釋還有待于進一步完善,這對于后續(xù)功能基因的研究以及綠豆分子育種工作都可能提供更好的便利和數(shù)據(jù)來源。
鑒于Copia類反轉(zhuǎn)座子在植物基因和基因組進化過程中的重要作用,本研究利用公開發(fā)表的二倍體綠豆基因組序列(V.radiatavar.radiataVC1973A),從基因組水平上系統(tǒng)注釋了綠豆Copia類反轉(zhuǎn)座子,初步明確了綠豆Copia類反轉(zhuǎn)座子的數(shù)量、類型、分類、分布、親緣關(guān)系,以及與功能基因之間的相互關(guān)系,為后續(xù)深入研究Copia類轉(zhuǎn)座子在綠豆基因和基因組進化過程中所起的作用提供依據(jù),也為后續(xù)進一步開展綠豆功能基因的研究,活性轉(zhuǎn)座子的鑒定和篩選可利用的轉(zhuǎn)座子分子標記提供數(shù)據(jù)來源。
本研究中所用的綠豆(Vignaradiata)基因組數(shù)據(jù)來自GenBank數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)。基于結(jié)構(gòu)從頭尋找和同源比對相結(jié)合的方法,利用LTR_STRUC軟件搜索綠豆全基因組序列,獲得完整的LTR-反轉(zhuǎn)座子元件[16]。然后,以這些完整的LTR-反轉(zhuǎn)座子元件為目標序列,利用Cross_match軟件(默認參數(shù))對綠豆基因組序列進行同源比對搜索。根據(jù)比對結(jié)果,利用perl腳本進一步分析處理,再經(jīng)人工檢查確定所有LTR-反轉(zhuǎn)座子的結(jié)構(gòu)和插入位置。根據(jù)LTR-反轉(zhuǎn)座子的內(nèi)部結(jié)構(gòu)、同源性和80-80-80規(guī)則,鑒定出所有的Copia類LTR-反轉(zhuǎn)座子,并將它們分為不同的家族[1]。
本研究使用以下方法對綠豆LTR-反轉(zhuǎn)座子進行隨機性分布檢驗。首先,將綠豆基因組按連續(xù)無重疊1 Mb的窗口進行劃分,并對每個窗口內(nèi)鑒定的LTR-反轉(zhuǎn)座子數(shù)量進行統(tǒng)計。然后,借助perl腳本,將鑒定的所有LTR-反轉(zhuǎn)座子分別隨機分配到各個窗口中,并重復10 000次,同時計算每次每個窗口內(nèi)的LTR-反轉(zhuǎn)座子數(shù)量。最后,根據(jù)公式P=(m+1)/(10 000+1)計算每個窗口中的P值。其中,m指在10 000次模擬結(jié)果中有m次結(jié)果等于或小于實際統(tǒng)計數(shù)值,當0.025
提取含有TSD位點的完整LTR-反轉(zhuǎn)座子兩端的LTR序列,利用MUSCLE軟件(默認參數(shù))進行序列比對[18]。根據(jù)公式T=K/2r計算插入時間。其中進化速率r=1.3×10-8,核苷酸差異K用Jukes-Cantor方法進行計算。
提取綠豆Copia類反轉(zhuǎn)座子中反轉(zhuǎn)座酶RT基因的保守序列,并從每個家族中選取年輕且RT基因結(jié)構(gòu)相對完整的序列作為參照序列。利用MUSCLE軟件(默認參數(shù)),對Copia類家族的RT基因序列進行序列比對。用MEGA7軟件中的P-distance模塊構(gòu)建鄰近進化樹,重復500次。
根據(jù)綠豆Copia類反轉(zhuǎn)座子與基因間的位置關(guān)系,提取內(nèi)部和上下游1 kb范圍內(nèi)存在轉(zhuǎn)座元件的功能基因,利用Blast2GO 5軟件對這些功能基因進行注釋,并使用WEGO2.0軟件(http://wego.genomics.org.cn/)進行富集分析[19-20]。
本研究基于結(jié)構(gòu)從頭尋找和同源比對的方法,從綠豆基因組中共鑒定出2 236個插入位置明確的Copia類反轉(zhuǎn)座子,其中,1 198個為完整轉(zhuǎn)座子元件,1 038個為solo LTR。從數(shù)量上來看,兩者的比值(S/I)為0.87∶1.00。在1 198個完整轉(zhuǎn)座子元件中,長度在20 kb以上的元件有11個,15~20 kb的元件有9個,10~15 kb的元件有33個,5~10 kb的元件有212個,1~5 kb的元件有622個,1 kb以下的元件有311個。根據(jù)統(tǒng)一的轉(zhuǎn)座子的分類標準,這些元件可分為126個不同的家族,拷貝數(shù)從1到589不等。其中,共有111個Copia類反轉(zhuǎn)座子家族含有RT轉(zhuǎn)座酶序列,而剩余的15個家族不含有RT轉(zhuǎn)座酶序列,提示它們可能屬于非自主型轉(zhuǎn)座子??截悢?shù)最大的家族為Vrar_C1,含有333個完整轉(zhuǎn)座子元件和256個solo LTR;元件兩端含有2個120 bp的LTR序列;元件全長為6 134 bp(表1)。另外,其他高拷貝(>100)的家族有5個,分別是Vrar_C2(317個),Vrar_C3(277個),Vrar_C4(157個),Vrar_C5(112個),和Vrar_C6(109個)。元件長度最長的為Vrar_C2,達到16 029 bp,含有44個完整轉(zhuǎn)座子元件273個solo LTR(表1)。元件長度最短的為Vrar_C30,全長僅有909 bp,LTR序列為173 bp,僅含有6個拷貝(表1)。這些結(jié)果說明,盡管同屬于Copia類反轉(zhuǎn)座子,但不同家族具有各自的遺傳特征,可能在綠豆基因和基因組的進化過程中扮演著不同的角色。
表1 綠豆Copia類反轉(zhuǎn)座子部分家族信息匯總表
為了探討Copia類反轉(zhuǎn)座子在綠豆基因組中的分布規(guī)律及特征,我們對463個1 Mb窗口中LTR-反轉(zhuǎn)座子的分布進行了隨機性檢驗。其中,有61個(13%)窗口中Copia類反轉(zhuǎn)座子的模擬值與理論值之間存在顯著差異,說明這些LTR-反轉(zhuǎn)座子具有偏向分布的特點(圖1)。其發(fā)生的頻率遠低于大豆的79%,略高于梨的10%[7,21],提示在不同的基因組中,LTR-反轉(zhuǎn)座子在染色體上的分布存在較大差異。另外,我們的研究結(jié)果也顯示,solo LTR和完整轉(zhuǎn)座子元件具有相似的分布特點,均富集在染色體的異染色質(zhì)區(qū)域(圖1)。
A:染色體;B:基因;C:完整LTR元件;D:單個LTR元件。圖1 綠豆Copia類反轉(zhuǎn)座子在染色體上的分布Fig.1 Distribution of Copia retrotransposons along the chromosomes in mung bean
為了便于比較,我們用同樣的方法,對綠豆基因組中功能基因的分布也進行了隨機性檢驗。研究結(jié)果顯示,在綠豆中,336個(73%)窗口中的基因具有偏向性分布的特點。這一比例略低于大豆基因的80%,略高于梨基因的68%[7,21]。從染色體上的分布來看,綠豆中的基因更多分布在染色體兩端(圖1)。
為了明確Copia類反轉(zhuǎn)座子的分布是否與基因的分布呈一定的相關(guān)性,我們對兩者進行了相關(guān)性分析。結(jié)果顯示,在綠豆基因組中,Copia類反轉(zhuǎn)座子元件密度與基因密度之間呈現(xiàn)顯著的負相關(guān)關(guān)系(圖2)。這一結(jié)果提示,基因的密度可能是影響Copia類反轉(zhuǎn)座子分布的一個因素。
圖2 Copia類元件與基因的相關(guān)性Fig.2 The association between Copia element density and gene density
為估算綠豆Copia類反轉(zhuǎn)座子的大致插入時間,我們對含有TSD位點的完整轉(zhuǎn)座元件進行了進一步分析。結(jié)果顯示,在綠豆中,絕大多數(shù)元件(91.8%)在最近5.0 MYA插入到基因組中,并在1.0~2.0 MYA左右具有最高活性(圖3)。有84個元件在0.5 MYA內(nèi)插入到寄主基因組中(圖3)。需要特別指出的是,23個元件的插入時間為0,提示它們是新近插入到綠豆基因組中的,可能仍然具有轉(zhuǎn)錄和轉(zhuǎn)座活性(圖3)。
從單個家族來看,在126個Copia類反轉(zhuǎn)座子家族中,有106個家族(84.1%)中元件的平均插入時間<3.0 MYA;47個家族(37.3%)中元件的平均插入時間在1.0~2.0 MYA;28個家族(22.2%)中元件的平均插入時間<1.0 MYA;有6個家族中元件的平均插入時間為0,提示該家族可能仍然具有活性。
a:0~0.5 MYA;b:0.5~1.0 MYA;c:1.0~1.5 MYA;d:1.5~2.0 MYA;e:2.0~2.5 MYA;f:2.5~3.0 MYA;g:3.0~3.5 MYA;h:3.5~4.0 MYA;i:4.0~4.5 MYA;j:4.5~5.0 MYA;k:5.0~5.5 MYA;l:5.5~6.0 MYA;m:6.0~6.5 MYA;n:6.5~7.0 MYA;o:7.0~7.5 MYA;p:7.5~8.0 MYA;q:>8.0 MYA。圖3 綠豆Copia類反轉(zhuǎn)座子插入時間分布Fig.3 Insertion time of Copia retrotransposons in mung bean
我們前期在大豆上的研究結(jié)果表明,solo LTR與完整轉(zhuǎn)座子元件拷貝數(shù)之間的比例(S/I)與LTR長度存在顯著的相關(guān)性,而與平均插入時間不存在相關(guān)性[7]。為了驗證這一結(jié)論在綠豆中是否仍然成立,我們統(tǒng)計分析了拷貝數(shù)最多的前30個家族。研究結(jié)果顯示,綠豆中S/I值與LTR長度之間具有顯著的正相關(guān)關(guān)系(圖4)。這說明,隨著LTR長度的增加,可能更有利于同一個Copia類反轉(zhuǎn)座子2個LTR序列之間重組事件的發(fā)生,從而更有利于solo LTR序列的形成。研究結(jié)果也顯示,綠豆中S/I值與Copia類反轉(zhuǎn)座子家族的平均插入時間之間不存在相關(guān)關(guān)系(圖4),說明solo LTR的形成可能主要與重組率有關(guān),而與進化時間關(guān)系不大。這一結(jié)論可能不是物種特異性的,而可能適用于不同的豆類植物基因組中。
圖4 S/I與平均插入時間(A)和LTR長度(B)之間的相關(guān)性Fig.4 Association of S/I with average insertion time (A) and LTR size (B)
已有的研究結(jié)果表明,植物中Copia類反轉(zhuǎn)座子可大致分為6種譜系,包括Angela、Ale、Bianca、Ivana、Maximus和TAR[6,22-23]。為了進一步明確綠豆Copia類反轉(zhuǎn)座子在系統(tǒng)進化樹上的相互關(guān)系和發(fā)生的頻率,我們對保守的逆轉(zhuǎn)錄酶RT進行多序列比對。結(jié)果顯示,綠豆Copia類反轉(zhuǎn)座子具有植物普遍存在的6種譜系,但是家族的數(shù)量和每個家族的拷貝數(shù)差異很大(圖5、表2)。比如,在6種譜系中,Ivana譜系含有57個家族,占總家族數(shù)的51.4%,但是其對應的元件數(shù)量僅為118個,占總拷貝數(shù)的5.6%;Ale譜系含有37個家族,占總家族數(shù)的33.3%,其拷貝數(shù)則為1 277個,占總拷貝數(shù)的60.8%;Bianca譜系家族和拷貝數(shù)均較少,分別為6個和54個,分別占總家族數(shù)和總拷貝數(shù)的5.4%和2.6%;Maximus譜系家族數(shù)很少,但是拷貝數(shù)卻很多;TAR和Angela譜系含有的家族數(shù)和拷貝數(shù)均很低。這些結(jié)果表明,在不同的譜系中,家族數(shù)反映的是轉(zhuǎn)座元件遺傳多樣性的大小,而拷貝數(shù)反映的是轉(zhuǎn)座子元件轉(zhuǎn)座活性的高低和活性持續(xù)的時間長短。因此,家族數(shù)和拷貝數(shù)沒有必然的正相關(guān)關(guān)系。
為了明確綠豆中Copia類反轉(zhuǎn)座子與功能基因之間的關(guān)系,我們統(tǒng)計了綠豆中Copia類反轉(zhuǎn)座子插入基因及基因兩端臨近區(qū)域(<1 kb)的元件數(shù)量(表3)。統(tǒng)計結(jié)果顯示,共有43個家族的563個Copia類反轉(zhuǎn)座子插入到基因的內(nèi)部,48個家族的157個Copia類反轉(zhuǎn)座子插入到基因的附近區(qū)域(<1 kb)。功能富集分析結(jié)果顯示,這些基因的功能主要為細胞組分、分子功能和生物進程。進一步分析顯示,細胞組分方面主要集中在細胞,細胞組分及細胞器等;分子功能方面主要集中在催化活動及拼接;生物進程方面主要集中在細胞進程和代謝進程(圖6)。
●表示其它物種Copia類反轉(zhuǎn)座子家族RT基因序列。圖5 綠豆Copia類反轉(zhuǎn)座子譜系進化樹Fig.5 Phylogenetic relationships of Copia retrotransposon lineages in mung bean
表2 綠豆Copia類反轉(zhuǎn)座子譜系信息匯總表
表3 綠豆Copia類反轉(zhuǎn)座子與功能基因信息匯總表
a1:細胞;a2:細胞組分;a3:細胞器;a4:細胞器組分;a5:腔上包膜;a6:胞外區(qū);a7:含蛋白質(zhì)復合物;a8:膜;a9:胞外區(qū)組分。b1:催化活性;b2:結(jié)構(gòu)分子活性;b3:拼接;b4:轉(zhuǎn)錄調(diào)節(jié)活性;b5:轉(zhuǎn)運活性;b6:分子功能調(diào)節(jié)劑。c1:發(fā)展過程;c2:多細胞生物過程;c3:細胞組分組織或合成;c4:細胞進程;c5:定位;c6:代謝進程;c7:生長;c8:生物調(diào)節(jié);c9:細胞增殖;c10:生物過程調(diào)節(jié);c11:信號;c12:刺激反應;c13:再生。圖6 綠豆Copia類反轉(zhuǎn)座子相關(guān)基因的功能聚類分析Fig.6 Functional cluster analysis of genes related to Copia retrotransposons in mung bean
盡管綠豆基因組序列已于2014年對外公開發(fā)布,但是原有的研究主要是估算了轉(zhuǎn)座元件的DNA在整個基因組中所占的比例[15]。由于轉(zhuǎn)座元件種類多、結(jié)構(gòu)復雜,在基因組中又經(jīng)常以“巢式”的方式存在,通常的軟件(如RepeatMasker)僅能檢測轉(zhuǎn)座元件的某些片段,不能完整反映轉(zhuǎn)座元件在基因組中的準確位置和進化特征。具有TSD完整的LTR-反轉(zhuǎn)座子和solo LTR轉(zhuǎn)座子由于具有明確的插入位置,在許多完成測序的植物基因組中都先后被注釋出來[2,7,24]。本研究中,聯(lián)合運用基于結(jié)構(gòu)從頭尋找和同源比對的方法,我們從綠豆基因組中系統(tǒng)鑒定出1 198個完整轉(zhuǎn)座子元件和1 038個solo LTR的Copia類反轉(zhuǎn)座子。這些轉(zhuǎn)座元件的注釋為深入研究Copia類反轉(zhuǎn)座子在綠豆基因和基因組進化中的作用提供了數(shù)據(jù)來源。
從插入時間來看,絕大多數(shù)Copia類反轉(zhuǎn)座子是在最近5.0 MYA插入到綠豆基因組中的,這與之前水稻的研究結(jié)果是基本一致的[4]。而從爆發(fā)的時期來看,與大豆基因組中的LTR-反轉(zhuǎn)座子不同,綠豆Copia類反轉(zhuǎn)座子不是在最近(<0.5 MYA)具有最高的拷貝數(shù),而是在1.0~2.0 MYA具有最高的拷貝數(shù),提示它們在該時期具有一個活性升高的爆發(fā)時期。這一現(xiàn)象也在我們之前番茄的研究結(jié)果中得到了印證[25]。對番茄LTR-反轉(zhuǎn)座子插入時間的統(tǒng)計分析結(jié)果表明,其最活躍的時期是2.0~3.0 MYA[25]。而對于梨的Copia類反轉(zhuǎn)座子來說,除了最近(<0.5 MYA)具有最高的拷貝數(shù)以外,在2.5~3.0 MYA和5.0~5.5 MYA也具有較多的拷貝數(shù)[21]。這些結(jié)果表明,對于不同的植物基因組而言,盡管轉(zhuǎn)座元件的拷貝數(shù)呈現(xiàn)出隨進化時間延長逐漸減少的指數(shù)分布,但是爆發(fā)的集中時間和爆發(fā)所持續(xù)的時間不相同,也說明不同的基因組可能具有不同的進化歷史。
前人對擬南芥、水稻和麥類作物的599個Copia類反轉(zhuǎn)座子進行了系統(tǒng)進化樹構(gòu)建和比較研究[6]。結(jié)果表明,Copia類反轉(zhuǎn)座子可劃分為6個非常保守的譜系,即Angela、Ale、Bianca、Ivana、Maximus和TAR,并在單子葉和雙子葉植物分化之前就已經(jīng)產(chǎn)生[6]。我們在大豆上的研究結(jié)果也表明,除Bianca譜系外,大豆Copia類反轉(zhuǎn)座子也具有其他5個譜系[7]。本研究的結(jié)果表明,綠豆Copia類反轉(zhuǎn)座子也可以聚類到上述6個譜系中。這進一步說明,植物Copia類反轉(zhuǎn)座子的譜系具有古老性和保守性。需要指出的是,對于不同的基因組,同一譜系內(nèi)家族的數(shù)量和拷貝數(shù)可能不同。比如,在大豆中Maximus譜系和Ivana譜系具有較高的元件數(shù)量和家族數(shù)量[7],水稻中Maximus譜系和Ale譜系元件數(shù)量和家族數(shù)量較高[24],而在綠豆中,Ale譜系具有較高的元件數(shù)量,Ivana譜系具有較高的家族數(shù)量。這些結(jié)果也進一步表明,對于不同的基因組而言,Copia類反轉(zhuǎn)座子家族爆發(fā)的程度和持續(xù)的時間可能很不相同,這也可能是造成不同植物基因組大小具有明顯差異的原因之一。
總之,本研究以公開發(fā)表的綠豆基因組為研究對象,在對Copia類反轉(zhuǎn)座子進行精細注釋的基礎上,系統(tǒng)研究了其家族分類、染色體分布、插入時間、系統(tǒng)進化樹,以及與功能基因的關(guān)系,為后續(xù)進一步鑒定活性轉(zhuǎn)座子,開發(fā)可利用的轉(zhuǎn)座子分子標記,篩選相關(guān)的綠豆突變體,加快相關(guān)基因功能的研究提供了數(shù)據(jù)來源和理論依據(jù)。