戴曉港, 劉景勝, 李淑嫻
(南京林業(yè)大學林學院/南方楊樹工程技術研究中心/江蘇省楊樹種質(zhì)創(chuàng)新與品種改良重點實驗室, 江蘇 南京 210037)
植物在整個生命活動過程中會不斷受到各種生物脅迫(如食草動物和害蟲的啃食、病原體侵染)和非生物脅迫(如干旱、低溫、高溫、土壤高鹽堿等)的影響,然而植物不能自由移動來躲避這些不利環(huán)境,因此在漫長的進化過程中,植物逐漸從形態(tài)、生理、細胞以及分子水平發(fā)生進化以應對這些不利環(huán)境條件。當植物受到脅迫時會產(chǎn)生相應的應答反應,相關基因、蛋白質(zhì)和代謝產(chǎn)物構(gòu)成復雜調(diào)控網(wǎng)絡以應答相應的脅迫。轉(zhuǎn)錄因子作為反式作用因子可以與靶標基因啟動子區(qū)域相應的順式作用元件特異結(jié)合,從而調(diào)控相關基因的轉(zhuǎn)錄,在植物應答生物脅迫和非生物脅迫中具有舉足輕重的作用[1]。WRKY轉(zhuǎn)錄因子是植物中的超級轉(zhuǎn)錄因子家族之一,其典型特征是在氨基酸N-端有保守的WRKYGQK結(jié)構(gòu)域,在C-端含有C2H2或C2HC型鋅指結(jié)構(gòu)[2]。根據(jù)上述保守結(jié)構(gòu)域數(shù)量和鋅指結(jié)構(gòu)類型可將WRKY轉(zhuǎn)錄因子分為3組:第I組包含2個WRKY結(jié)構(gòu)域和C2H2型鋅指結(jié)構(gòu);第II組含有1個WRKY結(jié)構(gòu)域和C2H2型鋅指結(jié)構(gòu);而第Ⅲ類是由1個WRKY保守結(jié)構(gòu)域和C2HC型鋅指結(jié)構(gòu)組成[2]。大量研究表明,WRKY在調(diào)控植物生長發(fā)育、生物脅迫和非生物脅迫[3-4]、次生代謝等多種生物過程中起著重要的作用[5-6]。如木本雞腳棉中GaWRKY1轉(zhuǎn)錄因子通過調(diào)控卡丁烯合酶-A的活性,從而參與棉酚等倍半萜烯類化合物的合成[5];從黃花蒿分泌型腺毛中分離的AaWRKY1通過上調(diào)倍半萜環(huán)化酶基因ADS的表達,從而提高抗瘧青蒿素的生物合成[6]。隨著基因組測序的發(fā)展,藥用植物越來越引起大家的關注,這也為鑒定更多的參與調(diào)控次生代謝的WRKY轉(zhuǎn)錄因子提供可能。
望春玉蘭(Yulaniabiondii)是木蘭科(Magnoliaceae)玉蘭屬多年生落葉喬木,是中國特有的珍稀瀕危樹種,原產(chǎn)湖北、河南、陜西、甘肅等地海拔600—1 200 m的闊葉林中[7]。望春玉蘭先花后葉,種子鮮紅,樹形優(yōu)美,被廣泛應用于園林綠化[7],其干燥的花蕾是中藥材“辛夷”的正品,具有散風寒、通肺竅、降壓、殺菌等作用,是一種用途廣泛的藥用植物[8]。望春玉蘭具有一定的耐寒性,喜微酸性土壤,但堿性土壤對生長的影響較大。望春玉蘭全基因組測序的完成為WRKY轉(zhuǎn)錄因子家族的鑒定和分析提供了基礎,本研究對望春玉蘭WRKY基因家族成員進行鑒定,同時對蛋白理化性質(zhì)、亞細胞定位、系統(tǒng)進化、保守結(jié)構(gòu)域、順式作用元件、以及在不同組織中的表達模式進行了初步研究,以期為深入研究該基因家族在望春玉蘭中應答非生物脅迫以及次生代謝的調(diào)控奠定基礎。
從國家基因庫生命大數(shù)據(jù)平臺(https://db.cngb.org/codeplot/)中下載望春玉蘭基因組和轉(zhuǎn)錄組原始數(shù)據(jù)(CNP0000884)[9],利用hmmsearch v3.3.2將WRKY隱馬爾可夫模型(Pfam: PF00847)和下載的望春玉蘭蛋白序列進行比對,保留E-value≤1e-5的蛋白序列,再采用SMART(http://smart.embl-heidelberg.de/)進行保守結(jié)構(gòu)域鑒定[10],去除不含WRKY保守結(jié)構(gòu)域的蛋白序列。采用Expasy[11](https://web.expasy.org/protparam/)在線預測蛋白分子量、等電點等理化性質(zhì),并利用Cell-PLoc 2.0(http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc-2/)對鑒定的WRKY基因進行亞細胞定位預測。
從擬南芥基因組數(shù)據(jù)庫(https://www.arabidopsis.org/browse/genefamily/WRKY-Som.jsp)下載擬南芥WRKY轉(zhuǎn)錄因子序列。根據(jù)SMART分析結(jié)果提取擬南芥和望春玉蘭WRKY轉(zhuǎn)錄因子的保守結(jié)構(gòu)域序列,并提交到MEGA-6.0[12]軟件中利用ClustalW進行多重比對,然后用鄰接法(Neighbor Joining method)構(gòu)建進化樹,bootstrap值設置為1 000,最后采用Figtree(http://tree.bio.ed.ac.uk/software/figtree/)對構(gòu)建的進化樹進行可視化,根據(jù)進化樹中擬南芥WRKY家族的分類對望春玉蘭WRKY家族進行類群的劃分。
利用MEME(https://meme-suite.org/meme/tools/meme)在線預測望春玉蘭WRKY蛋白的保守基序(Motif),Motif個數(shù)設置為10個,基序長度為6—70,其他參數(shù)均為默認值。根據(jù)MEME的分析結(jié)果,結(jié)合基因注釋的gff文件,利用TBtools[13]對保守基序、基因結(jié)構(gòu)和進化樹進行整合,繪制望春玉蘭WRKY轉(zhuǎn)錄因子保守基序和基因結(jié)構(gòu)圖。
利用perl腳本根據(jù)基因組注釋的gff文件,從基因組中提取目的基因上游2 000 bp序列,用PlantCARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)對啟動子區(qū)域進行順式作用元件分析,最后利用TBtools[13]結(jié)合進化樹并繪制順式作用元件分布圖。
根據(jù)基因組注釋的gff文件,使用TBtools[13]繪制望春玉蘭WRKY轉(zhuǎn)錄因子在染色體上的分布圖。串聯(lián)重復基因的鑒定參照Lehti-Shiu對毛果楊基因組串聯(lián)重復基因的鑒定標準:2個基因之間不超過350 kb且中間插入的基因不超過10個,進化樹上它們還需要同屬于1個亞家族[14]。
將從國家基因庫生命大數(shù)據(jù)平臺中下載的望春玉蘭葉片(CNX0149886)和花(CNX0149883)的轉(zhuǎn)錄組,以及實驗室測序的根系轉(zhuǎn)錄組,使用Trimmomatic[15]過濾低質(zhì)量序列,然后利用STAR[16]默認參數(shù)將上述過濾后的序列分別比對到望春玉蘭基因組,統(tǒng)計根、葉和花分別比對到每個WRKY基因的序列數(shù)量,采用RPKM(reads per kilobase of transcripts per million mapped reads)對每個基因表達量進行均一化。
本研究共鑒定出望春玉蘭WRKY基因家族有56個成員,各成員蛋白長度、理化性質(zhì)、理論等電點和亞細胞定位等信息如表1。從表1中結(jié)果可以看出,蛋白長度在106—1 675個氨基酸之間,不同基因氨基酸數(shù)量存在較大差異。通過Expasy在線分析了望春玉蘭WRKY轉(zhuǎn)錄因子蛋白理化性質(zhì),該家族基因蛋白分子量在12 215.15—191 326.88 Da之間,理論等電點在4.9—10.06之間。亞細胞定位結(jié)果顯示,55個基因家族成員定位在細胞核,其中MBI36866_MAGBIO成員同時定位在細胞外間隙和細胞核,而MBI24213_MAGBIO還定位在細胞質(zhì)。
表1 望春玉蘭WRKY家族基因基本信息及蛋白理化性質(zhì)
以望春玉蘭和擬南芥WRKY基因蛋白保守域序列構(gòu)建進化樹,參照擬南芥WRKY基因家族的分類,根據(jù)進化樹和保守域序列結(jié)構(gòu)特征,將望春玉蘭WRKY轉(zhuǎn)錄因子劃分為Group Ⅰ,Ⅱ和Ⅲ共3個組。Group Ⅰ具有2個WRKY保守結(jié)構(gòu)域,鋅指結(jié)構(gòu)為C2H2型,共有8個基因;Group Ⅱ只含有1個WRKY保守結(jié)構(gòu)域,鋅指結(jié)構(gòu)也是C2H2型,但根據(jù)進化樹分析結(jié)果又可將Group II進一步分為Ⅱa,Ⅱb,Ⅱc,Ⅱd,Ⅱe共5個亞組,其成員數(shù)量分別為9,7,10,7,4個;Group Ⅲ雖然也只含有1個WRKY保守結(jié)構(gòu)域,但其鋅指結(jié)構(gòu)(C2HC)和其他2組不同,該組中共有7個基因。還有3個基因(MBI36007_MAGBIO、MBI46007_MAGBIO和MBI29696_MAGBIO)雖然含有WRKY保守結(jié)構(gòu)域,但序列與其他基因分化較大而未被分類到現(xiàn)有的I,Ⅱ和Ⅲ組中(見圖1)。
圖1 望春玉蘭和擬南芥WRKY基因家族進化樹
利用MEME在線分析望春玉蘭WRKY基因家族的Motif,利用TBTools對Motif分析結(jié)果進行可視化(見圖2)。望春玉蘭WRKY蛋白共包含10個Motif,其中Motif 1,Motif 2和Motif 3是WRKY的保守結(jié)構(gòu)域,Motif 1含有保守序列WRKYGQK,望春玉蘭所有WRKY蛋白都含有這個保守結(jié)構(gòu)域;Motif 1尾端2個蛋白和Motif 2構(gòu)成了WRKY結(jié)構(gòu)域的鋅指結(jié)構(gòu)(C2H2),其中48個基因含有Motif 2結(jié)構(gòu)域;Motif 3是WRKY的完整結(jié)構(gòu)域,其中7個基因同時含有Motif 3和Motif 1,這類基因因含有2個保守的WRKY結(jié)構(gòu)域而被劃分為Group I。Motif 4—Motif 10雖然在數(shù)據(jù)庫中暫無功能記錄,但這些Motif也為望春玉蘭WRKY基因分類提供了重要參考,如Motif 8和Motif 10是Group I特有的,而Motif 5,Motif 6和Motif 9是Group IIa和Group IIb中特有??傮w而言,望春玉蘭WRKY基因家族不同分組中Motif是相似的,這個結(jié)果也有利地支持了進化樹對基因家族分類的可靠性。
圖2 望春玉蘭WRKY基因家族蛋白保守結(jié)構(gòu)域
利用PlantCARE注釋望春玉蘭56個WRKY基因上游2 000 bp啟動子區(qū)域序列,得到WRKY基因家族順式作用元件,除最基本的TATA box,CAAT box和光響應元件之外,還含有參與各種激素、調(diào)控生長、參與次生代謝和非生物脅迫等響應元件。在激素類響應元件中,分別有53個和47個基因含有脫落酸反應元件(abscisic acid responsiveness)和茉莉酸甲酯反應元件(MeJA-responsiveness);應答水楊酸、赤霉素和生長素響應元件的基因相對較少,分別有32,26,18個。參與非生物脅迫相關的主要有無氧誘導(the anaerobic induction)、干旱誘導(drought-inducibility)、低溫響應(low-temperature responsiveness)和防御脅迫(defense and stress responsiveness)等所必需的調(diào)節(jié)元件。MBI11137_MAGBIO含有多個干旱誘導響應順式作用元件,推測該基因可能調(diào)控望春玉蘭響應干旱脅迫。值得注意的是望春玉蘭WRKY基因除了參與激素響應和非生物脅迫的順式作用元件,其中還有9個基因(MBI08947_MAGBIO,MBI10258_MAGBIO,MBI10883_MAGBIO,MBI12228_MAGBIO,MBI19961_MAGBIO,MBI36613_MAGBIO,MBI36866_MAGBIO,MBI42321_MAGBIO,MBI46335_MAGBIO)含有類黃酮合成調(diào)節(jié)元件,參與植物的次生代謝。望春玉蘭的花蕾和根系入藥,表明了WRKY基因可能參與了次生代謝產(chǎn)物的合成調(diào)節(jié)。
望春玉蘭基因組共有19條染色體,而WRKY基因只分布在其中14條染色體上(見圖4),Chr08,Chr09,Chr12,Chr13和Chr17均不含有WRKY基因。在含有WRKY基因的染色體中,Chr15,Chr14和Chr04這3條染色體含有WRKY基因的數(shù)量約占總數(shù)的48.2%,分別有12,9,6個;其余11條染色體WRKY基因的數(shù)量在1—3個不等。串聯(lián)重復是導致基因家族擴張的主要方式之一,對望春玉蘭WRKY基因復制方式分析發(fā)現(xiàn),這個基因家族中有9個串聯(lián)復制事件,包含20個WRKY基因,其中7次串聯(lián)復制發(fā)生在Chr14和Chr15上,這也是引起WRKY基因家族成員在染色體上分布不均勻的主要原因。
圖4 望春玉蘭WRKY基因家族在染色體上的分布(串聯(lián)復制)
基因表達模式可以揭示植物不同組織的生物學功能。將望春玉蘭葉片、花和根系轉(zhuǎn)錄組測序序列分別比對到基因組,分析WRKY家族基因在不同組織中的表達模式,結(jié)果如圖5所示。從圖5中可以看出,Group I中除了MBI36007_MAGBIO在根系中不表達,Group IId中除了MBI36007_MAGBIO在根系和葉片中不表達外,其余基因在所有組織中均檢測到表達,且Group IId中的基因整體表達量均較高。Group IIa中只有MBI32392_MAGBIO和MBI46105_MAGBIO在3個組織中均能檢測到表達,有5個基因在3個組織中均未檢測到表達,而MBI37104_MAGBIO和MBI05415_MAGBIO是葉片組織特異性基因,只在葉片中有表達量。Group IIb中有1個基因MBI37844_MAGBIO在3個組織中表達量均較高,F(xiàn)PKM值均超過10,還有3個基因只在根系特異表達。Group IIc中除了MBI24029_MAGBIO在葉片中特異表達外,其余基因在不同的組織中也都能檢測到表達。
圖5 望春玉蘭不同組織WRKY基因家族表達模式
WRKY是植物中較大的基因家族,已被證實在調(diào)節(jié)植物生長、發(fā)育、非生物脅迫中起到重要作用。隨著全基因組測序發(fā)展,已有幾十種雙子葉植物全基因組WRKY基因家族被鑒定和分析,而其基因家族中基因數(shù)量在45—188個不等[17]。本研究從望春玉蘭基因組中鑒定了56個WRKY基因,比較分析發(fā)現(xiàn),望春玉蘭基因組(2.20 Gb)大小約是擬南芥(125 Mb)的18倍,但望春玉蘭WRKY基因的數(shù)量(56個)卻只有擬南芥(74個)的3/4;同樣,望春玉蘭基因組約是木本植物毛果楊(0.55 Gb)的4倍,但WRKY基因的數(shù)量卻不足毛果楊(122個)的1/2[17]。上述結(jié)果說明了基因組中,基因家族基因的數(shù)量并不是由基因組大小決定的。
根據(jù)WRKY基因保守結(jié)構(gòu)域序列和鋅指結(jié)構(gòu)類型,同時結(jié)合擬南芥WRKY基因家族的分類,將望春玉蘭WRKY基因家族分為3個組:Group Ⅰ,Group Ⅱ和Group Ⅲ,分別含有8,38和7個基因。然而在擬南芥和毛果楊中,Group I基因的數(shù)量占主導地位[18],而望春玉蘭中Group II基因數(shù)量占67.9%,說明Group II在進化過程中可能發(fā)生了更多的基因復制。這與對望春玉蘭WRKY基因家族串聯(lián)復制分析結(jié)果一致,在望春玉蘭WRKY基因家族中共發(fā)現(xiàn)9個串聯(lián)重復,其中Group II中有5個串聯(lián)重復共產(chǎn)生了11個基因。望春玉蘭WRKY基因家族Group II可進一步細分為IIa,IIb,IIc,IId和IIe共5個亞組,分別含有9,7,10,7,4個基因。對擬南芥、水稻、葡萄等7種植物基因組WRKY基因家族Group II基因數(shù)量分析發(fā)現(xiàn),Group IIa基因的比例為8.8%—12.2%之間[18],而望春玉蘭Group IIa基因的比例為23.7%,約是其他物種的2—3倍,說明Group IIa在望春玉蘭中發(fā)生了大量擴張。已有研究表明,WRKY基因家族的Group IIa基因可以提高擬南芥苗期和蘋果愈傷的滲透脅迫能力和抗鹽性[19],也是調(diào)節(jié)水稻先天免疫能力的重要轉(zhuǎn)錄因子[20],望春玉蘭Group IIa基因的大量擴張,可能是在長期進化過程中提高非生物脅迫的表現(xiàn)。
WRKY不僅調(diào)節(jié)植物生長、發(fā)育和參與非生物脅迫的調(diào)節(jié),還參與調(diào)控植物的次生代謝。Xu等在棉花中克隆的GaWRKY1轉(zhuǎn)錄因子可以調(diào)控卡丁烯合酶-A的活性,從而參與調(diào)節(jié)棉花倍半萜烯類化合物的合成[5];Liu等研究發(fā)現(xiàn)藥用植物杜仲WRKY轉(zhuǎn)錄因子參與苯基丙胺酸和黃酮類物質(zhì)合成代謝的調(diào)控[17]。望春玉蘭轉(zhuǎn)錄因子順式作用元件分析發(fā)現(xiàn),WRKY啟動子區(qū)域不僅含有大量參與非生物脅迫的順式作用元件,還有9個基因含有參與黃酮類物質(zhì)合成代謝的順式作用元件,其中MBI19961_MAGBIO和MBI08947_MAGBIO分別在根系和花中高表達,而根系和花是望春玉蘭藥物合成的主要組織,因此這2個基因可能影響望春玉蘭根系和花的次生代謝。