(中國(guó)農(nóng)業(yè)科學(xué)院蜜蜂研究所,北京 100093)
轉(zhuǎn)座子(TEs)是能夠從基因組一個(gè)位點(diǎn)轉(zhuǎn)移到另一個(gè)位點(diǎn),在此過(guò)程中通常會(huì)發(fā)生自我復(fù)制的DNA 片段[1]。轉(zhuǎn)座子可分為逆轉(zhuǎn)錄轉(zhuǎn)座子和DNA 轉(zhuǎn)座子兩大類。逆轉(zhuǎn)錄轉(zhuǎn)座子借助轉(zhuǎn)座子轉(zhuǎn)錄后產(chǎn)生的mRNA 而完成轉(zhuǎn)座過(guò)程,轉(zhuǎn)座后逆轉(zhuǎn)錄轉(zhuǎn)座子的拷貝數(shù)增加;而DNA 轉(zhuǎn)座子是借助自身的DNA 序列發(fā)生轉(zhuǎn)座,可以是復(fù)制或非復(fù)制型的轉(zhuǎn)座[2,3]。在幾乎所有生物的基因組中都發(fā)現(xiàn)了轉(zhuǎn)座子,通常數(shù)量很多。例如在脊椎動(dòng)物基因組中,轉(zhuǎn)座子含量的變化范圍從綠河豚的6%到斑馬魚(yú)的55%以上[4]。在植物中,轉(zhuǎn)座子更為普遍,轉(zhuǎn)座子覆蓋了多達(dá)90%的玉米基因組[5]。在昆蟲(chóng)中,轉(zhuǎn)座子的基因組部分從南極蠓中的低至1%[6]到蝗蟲(chóng)中的高達(dá)65%[7]。由于轉(zhuǎn)座子可以在一個(gè)生物的基因組中發(fā)生跳動(dòng),這一方面可能破壞基因的編碼序列或調(diào)控序列,造成個(gè)體的表型發(fā)生變異;還可能為染色體的異位重組提供熱點(diǎn),從而導(dǎo)致宿主基因組中的染色體發(fā)生缺失、重復(fù)、倒位和易位等變異[8,9]。目前科學(xué)家利用活躍的轉(zhuǎn)座子可以破壞基因組中功能基因的這一特點(diǎn),為許多種生物創(chuàng)制了突變體,并利用這些突變體鑒定出了許多功能基因。例如,利用Sleeping Beauty轉(zhuǎn)座子誘變小鼠,鑒定出涉及膠質(zhì)瘤產(chǎn)生的候選基因[10];在逆轉(zhuǎn)座子Tos17誘導(dǎo)產(chǎn)生的水稻胎生突變體中捕獲了影響水稻脫落酸合成的OsABA1和OsTATC基因[11];根據(jù)P轉(zhuǎn)座子創(chuàng)造的果蠅突變體的表型特征,發(fā)現(xiàn)了與睡眠調(diào)節(jié)有關(guān)的SLEEPLESS基因[12]等。鑒定出的功能基因在生物的遺傳育種和品質(zhì)改良中發(fā)揮了重要作用。
熊蜂是植物重要的傳粉者,具有重要經(jīng)濟(jì)和生態(tài)價(jià)值[13]。在世界范圍內(nèi),熊蜂為超過(guò)4 萬(wàn)公頃的溫室作物授粉,產(chǎn)生的經(jīng)濟(jì)價(jià)值約為120 億歐元/年[14]。但目前只有少數(shù)幾種熊蜂能夠提供授粉服務(wù),其余大多數(shù)熊蜂由于繁育或授粉性能差而不能被很好地使用。近年來(lái),隨著全球環(huán)境變化的加劇,野外生存的熊蜂正在遭受自然界中各種生物和非生物因素的影響,導(dǎo)致一些熊蜂的數(shù)量顯著減少[15]。鑒于熊蜂在農(nóng)業(yè)生產(chǎn)上的重要性及它們?cè)谝巴猸h(huán)境中受到的威脅,挖掘出與熊蜂繁育、授粉及環(huán)境抗性等性狀相關(guān)的基因,對(duì)于促進(jìn)熊蜂更好地服務(wù)農(nóng)業(yè)生產(chǎn)、更好地提供生態(tài)服務(wù)非常重要。但是目前熊蜂中尚無(wú)高效的功能基因挖掘系統(tǒng)。
近年來(lái),科學(xué)家成功地在昆蟲(chóng)中應(yīng)用轉(zhuǎn)座子進(jìn)行了功能基因的挖掘,但相關(guān)研究主要集中于雙翅目的果蠅中[16-18]。本研究旨在對(duì)地熊蜂基因組中的轉(zhuǎn)座子進(jìn)行全面的鑒定、分類和注釋,并鑒定出具有潛在轉(zhuǎn)座活性的轉(zhuǎn)座子,以用于熊蜂功能基因的挖掘。
地熊蜂的基因組序列從NCBIGenebank 數(shù)據(jù)庫(kù)下載獲得(www.ncbi.nlm.nih.gov/),assembly accession:GCF_000214255.1。
RepeatModeler[19]是一個(gè)從頭(de novo) 鑒定和分類轉(zhuǎn)座子的軟件,其中包括RECON[20]和RepeatScout 兩個(gè)程序[21],用于轉(zhuǎn)座子家族的從頭鑒定并構(gòu)建全基因組轉(zhuǎn)座子的非冗余數(shù)據(jù)庫(kù)。此外,除了重復(fù)序列組裝的一般方法外,我們還采用基于結(jié)構(gòu)的轉(zhuǎn)座子預(yù)測(cè)方法,使用兩個(gè)專門(mén)的軟件來(lái)檢測(cè)小的非自主性轉(zhuǎn)座子,這是因?yàn)樗鼈內(nèi)鄙倬幋a區(qū),因此更難通過(guò)與同源物的分類來(lái)進(jìn)行區(qū)分。MITE-Hunter[22]用于鑒定一種屬于DNA 轉(zhuǎn)座子的微型反向重復(fù)轉(zhuǎn)座元件(MITEs)。SINE_scan[23]鑒定非自主型的非LTR逆轉(zhuǎn)座子,稱為短散在元件(SINE)。SINE_scan 是基于SINE-Finder[24]的從頭識(shí)別SINE 的軟件,不同于SINE-Finder 僅能鑒定tRNA 來(lái)源的SINE,SINE_scan 可以識(shí)別所有三種已知的SINE 類型,即tRNA、7SLRNA 和5SRNA。
將RepeatModerler、MITE-Hunter 和SINE_scan產(chǎn)生的一致性序列(consensus sequence)合并,并使用cd-hit[25]軟件去冗余(-n 5-d 0-aL 0.99-c 0.8-s 0.8),進(jìn)而得到整個(gè)基因組中非冗余的轉(zhuǎn)座子數(shù)據(jù)庫(kù)。
使用RepeatMasker 軟件對(duì)得到的轉(zhuǎn)座子一致性序列進(jìn)行注釋和分類(使用-a、-lib 參數(shù)),并使用軟件內(nèi)置的buildSummary.pl 腳本總結(jié)轉(zhuǎn)座子超家族估計(jì)的拷貝數(shù)和基因組比例(基于每個(gè)轉(zhuǎn)座子被屏蔽的堿基數(shù))。
一致性序列與不同拷貝之間的差異可以用K 值(kimura distance)[26]來(lái)表示。把buildSummary.pl 腳本的結(jié)果文件用作createrepeatlandscape.pl和calcdivergencefromalign.pl 腳本的輸入,以計(jì)算Kimura 距離,我們對(duì)createrepeatlandscape.pl 做出更改,對(duì)轉(zhuǎn)座子家族一致性的序列與拷貝之間的差異合并到類,并用編寫(xiě)的R 腳本繪制差異分布統(tǒng)計(jì)圖。三個(gè)腳本都是RepeatMasker 軟件包中的Perl腳本。
使用編寫(xiě)的shell 腳本對(duì)RepeatMasker 的結(jié)果.out文件進(jìn)行進(jìn)一步篩選,對(duì)于每個(gè)與其轉(zhuǎn)座子家族的一致性序列(推測(cè)的祖先序列)差異度小于等于2%、覆蓋度大于98%的轉(zhuǎn)座子,我們提取出它們的序列,并手動(dòng)驗(yàn)證其是否具有活躍轉(zhuǎn)座子的序列特征。對(duì)于滿足上述所有條件的轉(zhuǎn)座子,認(rèn)為它們是具有潛在活性的轉(zhuǎn)座子。
表1 地熊蜂全基因組轉(zhuǎn)座子統(tǒng)計(jì)分析結(jié)果
經(jīng)過(guò)RepeatMasker 的統(tǒng)計(jì)結(jié)果,我們?cè)诘匦芊浠蚪M中一共鑒定出了167 條一致性序列,被劃分到22 個(gè)超家族中(表1)。DNA 轉(zhuǎn)座子和逆轉(zhuǎn)錄轉(zhuǎn)座子占比幾乎相同,TcMar、Jockey 和Maverick 是含量最豐富的轉(zhuǎn)座子,代表了基因組中超過(guò)50%的轉(zhuǎn)座子,P 轉(zhuǎn)座子含量最低。LTR 主要的類別都存在于地熊蜂基因組中,其中Gypsy 和Pao 類別最多。與DNA、LINE、LTR 轉(zhuǎn)座子相比,SINE 轉(zhuǎn)座子所占比例最小。
圖1 基于Kimura distance計(jì)算的地熊蜂轉(zhuǎn)座子拷貝之間的差異性
我們通過(guò)計(jì)算K 值來(lái)估算轉(zhuǎn)座子的年齡和轉(zhuǎn)座歷史,其中每一個(gè)波峰可以代表物種在進(jìn)化過(guò)程中發(fā)生了轉(zhuǎn)座子拷貝數(shù)迅速增加(爆發(fā))。從結(jié)果可以看出,在地熊蜂的基因組中發(fā)生了兩次爆發(fā)事件(圖1)。在第一次爆發(fā)事件中,DNA 轉(zhuǎn)座子是最主要的成分,顯示出DNA 轉(zhuǎn)座子在此階段極為活躍。轉(zhuǎn)座子的第二次也就是最近的一次爆發(fā)中,DNA、MITE以及LINE 都出現(xiàn)了拷貝數(shù)的增加。對(duì)于地熊蜂基因組來(lái)說(shuō),DNA 轉(zhuǎn)座子的活躍轉(zhuǎn)座貫穿了兩次爆發(fā)事件。
在地熊蜂基因組中,我們鑒定出兩條MITE 轉(zhuǎn)座子,它們與祖先序列的分化程度小于2%并且具有完整的轉(zhuǎn)座子結(jié)構(gòu),我們認(rèn)為它們是具有潛在活性的轉(zhuǎn)座子。序列如下:
在基因組中對(duì)轉(zhuǎn)座子進(jìn)行全面注釋與研究至關(guān)重要,但是大多數(shù)測(cè)序項(xiàng)目都對(duì)與表型特征相關(guān)的基因組成分感興趣,通常會(huì)忽略基因組的重復(fù)序列或僅給予很少關(guān)注。轉(zhuǎn)座子是一大類在生物基因組中廣泛存在的序列。轉(zhuǎn)座子是挖掘功能基因的有力工具,果蠅中人們已經(jīng)成功地利用活躍的轉(zhuǎn)座子來(lái)創(chuàng)制果蠅的突變體,進(jìn)行功能基因的挖掘[27-29]。本研究在地熊蜂基因組鑒定出2 條潛在活躍的MITE 轉(zhuǎn)座子,若能進(jìn)一步通過(guò)實(shí)驗(yàn)驗(yàn)證其活性,將對(duì)熊蜂功能基因挖掘及優(yōu)良品種培育具有重要意義。