李亞軍 楊宇琭 孫 蓉 李旭凱 李紅英*
(1.山西農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院,山西 太谷 030801;2.山西農(nóng)業(yè)大學(xué) 生命科學(xué)學(xué)院,山西 太谷 030801)
轉(zhuǎn)座子(Transposable elements,TEs)最早由Barbara McClintock在玉米(Zeamays)中發(fā)現(xiàn),在細菌、病毒以及真核生物的基因組中廣泛分布[1-2]。轉(zhuǎn)座子類似內(nèi)源性病毒,能夠在宿主基因組中“復(fù)制粘貼”、“剪切粘貼”自己的序列,以達到自我“繁殖”的目的[3-6]。按其復(fù)制方式可分為逆轉(zhuǎn)錄轉(zhuǎn)座子(Class I retrotransposons)和非逆轉(zhuǎn)錄轉(zhuǎn)座子(Class II DNA transposons)[4]。LTR(Long terminal repeat)屬于Class I類逆轉(zhuǎn)錄轉(zhuǎn)座子,是植物基因組中占比較高的重復(fù)序列類型。在玉米、小麥等復(fù)雜基因組中,LTR類轉(zhuǎn)座子的比例超過70%[7-9]。Baduel等[10]研究發(fā)現(xiàn)TEs激活是擬南芥遺傳變異的主要變異方式,該遺傳變異受到遺傳和環(huán)境因素的雙重調(diào)控。應(yīng)激條件下誘導(dǎo)的TEs移動可能會導(dǎo)致新基因產(chǎn)生或者基因功能改變以適應(yīng)環(huán)境壓力[11]。TEs會誘導(dǎo)產(chǎn)生新的基因,這些新基因通常由重復(fù)序列兩側(cè)的蛋白質(zhì)編碼序列組成,對植物發(fā)育有著重要的作用,大多數(shù)TEs衍生的基因通過TEs介導(dǎo)的復(fù)制形成多拷貝基因家族,隨后通過各種進化過程及環(huán)境適應(yīng),發(fā)生功能分歧獲得多種功能[12-13]。FAR-RED IMPAIRED RESPONSE1(FAR1)基因家族,包括FHY3、FRS和FRF,是植物中一組主要的Mutator-like轉(zhuǎn)座子(MULE)衍生基因,被認為是為了適應(yīng)不斷變化的光照條件而進化來的,是有益于生產(chǎn)的農(nóng)藝性狀和植物適應(yīng)環(huán)境變化的結(jié)果[14]。因此,研究轉(zhuǎn)座子在作物基因組的變化以及介導(dǎo)基因功能變異對作物馴化與育種改良具有重要意義。
谷子(Setariaitalica)距今已有8 000年的栽培歷史[15],是中國古代主要的糧食作物[16],也是具有極高營養(yǎng)價值的雜糧作物[17],其籽粒脫殼后為小米,富含蛋白質(zhì)、脂肪、糖類、維生素及鈣、磷、鐵等人體所必需的微量元素。谷子為二倍體(2n=2X=18)C4自花授粉作物,基因組較小(約430 Mb)[17]。谷子由野生狗尾草馴化而來,狗尾草(Setariaviridis)是1種矮小的二倍體雜草[18],基因組約500 Mb。此外,狗尾草具有生命周期短(8~10周)、易種植、易誘變、易轉(zhuǎn)化,單花序通??僧a(chǎn)生數(shù)百個種子的特征。水稻(Oryzasativa)是禾本科一年生水生草本,基因組約為400 Mb。水稻在全世界各地都有廣泛的種植,全球近一半的人口以稻米為主食。在谷子、水稻基因組中,與馴化相關(guān)的功能基因中轉(zhuǎn)座子插入位置和數(shù)量變異的研究鮮見報道。本研究以谷子、水稻的栽培種與野生種為材料,通過對基因組進行轉(zhuǎn)座子注釋,分析比較各類轉(zhuǎn)座子在所選材料基因組中的插入數(shù)、位置以及在馴化相關(guān)功能基因內(nèi)的插入情況,旨在探究轉(zhuǎn)座子在谷子、水稻馴化過程中的變異,以期為谷子作物育種改良提供理論依據(jù)。
選取‘晉谷21’背景的早熟突變體xiaomi及‘豫谷1號’、狗尾草,其基因組數(shù)據(jù)分別來源于Multi-omics Database forSetariaitalica(MDSi,http:∥foxtail-millet.biocloud.net)和Phytozome(https:∥phytozome.jgi.doe.gov)數(shù)據(jù)庫。亞洲栽培稻‘日本晴’(Oryzasativajaponica)、‘9311’(Oryzasativaindica)、尼瓦拉野生稻(Oryzanivara)和普通野生稻(Oryzarufipogon)基因組數(shù)據(jù)來源于Ensembl Plants數(shù)據(jù)庫。在上述數(shù)據(jù)庫中檢索下載谷子、狗尾草、水稻基因組的序列FASTA文件與基因組注釋gff3文件。在國家水稻數(shù)據(jù)中心(https:∥www.ricedata.cn)檢索水稻中已報道與落粒(qSH1(Os01g0848400)[19-20])、矮稈(CYP724B1[21])、控制抽穗期、株高及每穗穎花數(shù)(DTH7[22])、八氫番茄紅素脫氫酶(OsPSY1(Os03g0184000)[23])、少分蘗矮稈(DLT[24]、OsGRAS-32[25])等馴化相關(guān)的基因信息。
依據(jù)下載的7個基因組序列,使用EDTA(The Extensive de novo TE Annotator)[26]和RepeatMasker[27]軟件對基因組序列中的TEs進行注釋,得到轉(zhuǎn)座子注釋的gff3文件。
依據(jù)物種基因注釋文件中的基因起始位置、終止位置、上游2 000 bp、下游500 bp數(shù)據(jù)為閾值,設(shè)定了11個分析區(qū)域分別為:包含基因上游2 000 bp位置的區(qū)域(TE_up_on)、基因上游2 000 bp至基因起始位置區(qū)域(TE_up_in)、包含基因起始位置的區(qū)域(TE_left_on)、基因內(nèi)部(TE_in)、包含基因終止位置的區(qū)域(TE_right_on)、基因終止位置至基因下游500 bp區(qū)域(TE_down_in)、包含基因下游500 bp位置的區(qū)域(TE_down_on)、基因間區(qū)(TE-I)、基因終止位置至基因500 bp區(qū)域(TE_con_down)、基因起始位置至基因終止位置區(qū)域(TE_con_Gene)、基因上游2 000 bp至基因起始位置區(qū)域(TE_con_up)。利用Python進行數(shù)據(jù)處理,對得到的結(jié)果進行統(tǒng)計分析,以探究轉(zhuǎn)座子在基因的插入情況。利用Phytozome與Ensembl Plants數(shù)據(jù)庫,對狗尾草、谷子、水稻進行同源序列比對,下載同源序列比對結(jié)果,探究轉(zhuǎn)座子在作物馴化相關(guān)基因中的插入情況。
由圖1、表1和表2可知,谷子與狗尾草的轉(zhuǎn)座子插入數(shù)目差異較大的為逆轉(zhuǎn)錄轉(zhuǎn)座子Gypsy,而水稻中栽培種與野生種插入數(shù)目差異較大的是逆轉(zhuǎn)錄轉(zhuǎn)座子Copia與Gypsy。依據(jù)所設(shè)定的11個區(qū)域,對各物種的轉(zhuǎn)座子進行統(tǒng)計,基因上游2 000 bp至基因起始位置區(qū)域(TE_up_in)、基因終止位置至基因下游500 bp區(qū)域(TE_down_in)、基因內(nèi)部(TE_in)這3個區(qū)域內(nèi)的轉(zhuǎn)座子數(shù)量有較為明顯的差異。尤其在基因內(nèi)部區(qū)域,栽培種與野生種差異較大,其中水稻栽培種轉(zhuǎn)座子插入數(shù)目約為野生種的一半,xiaomi中插入的轉(zhuǎn)座子數(shù)目比狗尾草多4 865個,‘豫谷1號’中插入的轉(zhuǎn)座子數(shù)目比狗尾草少6 286個。谷子、水稻栽培種與野生種中轉(zhuǎn)座子插入數(shù)目的不同,說明轉(zhuǎn)座子參與了作物馴化。
由表3可知,helitron轉(zhuǎn)座子(DNA轉(zhuǎn)座子)在谷子、水稻栽培種與野生種插入數(shù)目相較于其他轉(zhuǎn)座子的插入數(shù)目是最多的,狗尾草中31 024個,‘豫谷1號’中28 087個,xiaomi中32 394個,普通野生稻中42 899個,‘日本晴’中28 087個,尼瓦拉野生稻中38 697個,‘9311’中22 642個。發(fā)現(xiàn)helitron在水稻栽培種中的插入數(shù)目約為野生種的一半。Tc1轉(zhuǎn)座子在xiaomi基因組中的插入數(shù)少于狗尾草,而其他轉(zhuǎn)座子在xiaomi基因組中的插入數(shù)多于狗尾草,LINE轉(zhuǎn)座子在‘日本晴’基因組中的插入數(shù)遠多于‘9311’、尼瓦拉野生稻和普通野生稻。因此,不同種類轉(zhuǎn)座子插入物種基因組中存在一定的偏好性,且轉(zhuǎn)座子在作物栽培種和野生種基因組中的插入差異性可能是導(dǎo)致作物發(fā)生馴化的原因之一。
表3 轉(zhuǎn)座子在谷子、狗尾草、水稻基因內(nèi)部區(qū)域的插入數(shù)統(tǒng)計Table 3 Statistics of transposon insertion numbers in internal regions of foxtail millet,setaria and rice genes
由圖2可知,‘日本晴’參與調(diào)控落粒的基因qSH1(Os01g0848400)無轉(zhuǎn)座子的插入,在其他3種水稻的基因中也均無轉(zhuǎn)座子的插入,而在‘豫谷1號’的Seita.5G381300和xiaomi的Si5g38220的5’UTR區(qū)域均有轉(zhuǎn)座子的插入,狗尾草基因Sevir5G386500的5’UTR區(qū)域中則沒有轉(zhuǎn)座子的插入。Mamidi等[28]的研究發(fā)現(xiàn)狗尾草的落?;騍evir.5G085400無任何轉(zhuǎn)座子的插入,呈現(xiàn)了谷子經(jīng)過馴化的表型,而在xiaomi的Si5g09350和‘豫谷1號’的Seita.5G087200的基因中均有轉(zhuǎn)座子的插入。Liu等[29]通過QTL定位到的谷子落粒性狀相關(guān)基因Seita.9G154300,轉(zhuǎn)座子插入其基因內(nèi)影響了第二個轉(zhuǎn)錄本的轉(zhuǎn)錄,使得谷子喪失了落粒性。在xiaomi的Si9g15130和Si9g19290內(nèi)部同樣有轉(zhuǎn)座子的插入,在狗尾草的Sevir.9G153200內(nèi),轉(zhuǎn)座子更多地插入到基因上游,故谷子落粒性的喪失是由轉(zhuǎn)座子插入所導(dǎo)致。
Sevi,狗尾草;Seita,豫谷1號;Si,xiaomi;Os,粳稻基因;BGIOSGA,秈稻基因;ONIVA,尼瓦拉野生稻基因;ORUFI,普通野生稻基因。下同。Sevir,Setaria gene;Seita,Yugu 1;Si,xiaomi;Os,Japonica rice gene;BGIOSGA,Indica rice gene;ONIVA,Wild rice Niwala gene;ORUFI,Common wild rice gene.The same below.
由圖3可知,狗尾草的Sevir.7G140700、‘豫谷1號’的Seita.7G132100、xiaomi的Si7g14700中轉(zhuǎn)座子數(shù)目發(fā)生了變化,谷子栽培種中出現(xiàn)了較多的轉(zhuǎn)座子,轉(zhuǎn)座子插入數(shù)目的差異可能影響了谷子莖稈基因的表達(圖3(a))。而水稻的栽培種與野生種的基因內(nèi)部沒有任何轉(zhuǎn)座子的插入。在控制抽穗期、株高以及每穗花數(shù)的各物種基因中,谷子、水稻栽培種與野生種的基因內(nèi)部中均有轉(zhuǎn)座子的插入且插入數(shù)具有很高的相似性,但xiaomi的Si2g43940內(nèi)轉(zhuǎn)座子插入數(shù)目少于狗尾草基因內(nèi)的轉(zhuǎn)座子數(shù)目(圖3(b)),‘豫谷1號’的Seita.2G444300內(nèi)轉(zhuǎn)座子插入位置與狗尾草基因內(nèi)的轉(zhuǎn)座子插入位置不一致,因此,轉(zhuǎn)座子在谷子栽培種與野生種抽穗期、株高基因中的插入數(shù)目、位置均存在差異,這種差異可能影響了抽穗和株高基因的表達。
圖3 狗尾草、谷子、水稻的矮稈基因(a)、控制抽穗期與株高以及每穗穎花數(shù)基因(b)中轉(zhuǎn)座子的插入情況Fig.3 Transposon insertion in dwarf genes (a),genes controlling heading date and plant height,and spikelets per panicle (b) in green foxtail,foxtail millet,and rice
由圖4可知,‘日本晴’中調(diào)控八氫番茄紅素脫氫酶(PSY)的關(guān)鍵基因OsPSY1(Os03g0184000)與‘9311’、普通野生稻、尼瓦拉野生稻中相似基因的轉(zhuǎn)座子插入較為相似,水稻栽培種白色的米色并不是人工馴化的結(jié)果。谷子中調(diào)控PSY的關(guān)鍵基因Si4g27520與狗尾草基因Sevir.4G300900中的轉(zhuǎn)座子插入數(shù)目存在差異,狗尾草的該基因上游有1個長片段的helitron插入,而栽培種的‘豫谷1號’及突變體xiaomi基因上游無任何轉(zhuǎn)座子的插入(圖4(a)),因此,谷子栽培種黃色的米色是經(jīng)過馴化得到的性狀,谷子PSY1基因是與馴化相關(guān)的關(guān)鍵基因。轉(zhuǎn)座子在谷子栽培種與野生種米色基因中的插入數(shù)目存在差異,而在水稻中的插入數(shù)目、位置有較高的相似性,以此推測谷子與水稻米色上存在不同的馴化途徑。在少分蘗矮桿谷子和水稻的基因中,轉(zhuǎn)座子較為集中的插入在基因的上游(圖4(b)),轉(zhuǎn)座子的插入位置具有一定的相似性,因此,谷子栽培種與野生種分蘗性狀可能存在其他馴化途徑。
圖4 轉(zhuǎn)座子在狗尾草、谷子、水稻類胡蘿卜素合成基因(a)和少分蘗基因(b)中的插入情況Fig.4 Insertion of transposons in carotenoid synthesis genes (a) and tiller less genes (b) in Setaria,foxtail millet and rice
作物馴化是農(nóng)業(yè)發(fā)展中重要的事件之一[30]?,F(xiàn)代作物都是通過對野生種中特定的性狀進行長期定向選擇育種而來的。與野生種相比,栽培種往往具有更高的產(chǎn)量。栽培種通常具有分蘗減少[31]、頂端優(yōu)勢增強[32],開花期和成熟期趨于一致,產(chǎn)品器官變大,不落粒、休眠期變短等特征[33-34]。除了正常的農(nóng)業(yè)活動,耕作的環(huán)境以及土壤的變化使作物發(fā)生馴化的原因之外,Pierre等[11]研究分析了轉(zhuǎn)座子的遺傳和環(huán)境調(diào)控有利于擬南芥的適應(yīng)性進化,表明了轉(zhuǎn)座子作為內(nèi)源的誘變機制干擾或者改變基因的表達。CRISPR/Cas9技術(shù)為代表的基因編輯技術(shù)自誕生以來,已經(jīng)被廣泛用于農(nóng)作物特定基因的編輯,目前,這一技術(shù)已經(jīng)被用于定向改良作物的野生近緣種,實現(xiàn)了野生近緣種的加速馴化[35]。而通過谷子與“祖先”狗尾草轉(zhuǎn)座子的比較,發(fā)現(xiàn)轉(zhuǎn)座子在插入位置、插入數(shù)量以及一些馴化基因中的插入都具有一定的差異,這為探究作物馴化提供了思路。至于轉(zhuǎn)座子在馴化過程中的具體功能仍需要進一步試驗驗證。
轉(zhuǎn)座子可以通過多種方式影響宿主基因與基因組的結(jié)構(gòu),轉(zhuǎn)座子的插入影響了基因的表達,可能導(dǎo)致基因組選擇性剪接以及新的lncRNA的生成[36]。Zhang等[37]研究表明Copia轉(zhuǎn)座子家族的轉(zhuǎn)座子插入到玉米莖稈強度相關(guān)的主要數(shù)量性狀基因stiff1的啟動子序列,轉(zhuǎn)座子的插入抑制了stiff1的轉(zhuǎn)錄,導(dǎo)致了細胞壁中纖維素和木質(zhì)素含量的增加,從而增強了莖稈的強度。本研究中選取與馴化相關(guān)的基因進行了轉(zhuǎn)座子插入特性的分析,發(fā)現(xiàn)轉(zhuǎn)座子的插入存在差異,但轉(zhuǎn)座子對基因結(jié)構(gòu)與表達具體的影響,需要進一步的生物信息學(xué)分析與功能驗證。
通過對谷子、水稻及相應(yīng)野生種的基因組比較發(fā)現(xiàn),轉(zhuǎn)座子在基因內(nèi)部的插入數(shù)目、類型、位置均存在差異。‘晉谷21’的突變體(xiaomi)基因組中插入的轉(zhuǎn)座子數(shù)目比狗尾草多4 865個,‘豫谷1號’基因組中插入的轉(zhuǎn)座子數(shù)目比狗尾草少6 286個,水稻栽培種基因組中插入數(shù)目及其所占比例幾乎是野生種的1/2。轉(zhuǎn)座子在谷子、水稻栽培種與野生種基因組內(nèi)插入的差異說明轉(zhuǎn)座子在谷子與水稻野生種馴化為栽培種的過程中發(fā)生明顯的變異。由于轉(zhuǎn)座子的插入使調(diào)控落粒的基因無法正常表達,從而導(dǎo)致谷子落粒性的喪失。在谷子栽培種與野生種米色的基因中,轉(zhuǎn)座子在基因中的插入數(shù)目也存在差異。綜上,在谷子、水稻野生種馴化為栽培種的過程中,轉(zhuǎn)座子在基因組內(nèi)插入數(shù)目和位置的差異導(dǎo)致基因功能變異,縮短了谷子、水稻野生種馴化為栽培種的時間進程。