蔡 倩,趙甜甜,劉夢迪,王艷芳,趙彥宏,馬 臣,董紅霞
(1.魯東大學生命科學學院,山東煙臺 264025;2.魯東大學農(nóng)學院,山東煙臺 264025)
轉(zhuǎn)錄因子(transcription factor,TF)是一類能與DNA分子特異結(jié)合并通過激活或抑制下游靶基因的轉(zhuǎn)錄來調(diào)節(jié)基因表達的蛋白分子[1]。SBP(squamosa promoter binding protein)家族是植物特有的轉(zhuǎn)錄因子,具有編碼DNA結(jié)合結(jié)構(gòu)域的保守核苷酸序列,能夠在mRNA轉(zhuǎn)錄水平上調(diào)節(jié)基因表達[2]。SBP轉(zhuǎn)錄因子通常含有約80個氨基酸殘基高度保守的SBP結(jié)構(gòu)域,且基本具有相同的結(jié)構(gòu)特點[3]。該SBP結(jié)構(gòu)域包含2個鋅指結(jié)構(gòu)(Zn1和Zn2)與1個高度保守的核定位信號(nuclear localization signal,NLS)。其中鋅指結(jié)構(gòu)能伸入DNA溝中識別并結(jié)合在squamosa啟動子上;C端是核定位信號區(qū)域[4],能引導(dǎo)SBP蛋白進入細胞核行使功能[5]。
Klein等[6]首先在金魚草中發(fā)現(xiàn)了SBP基因,隨后在越來越多的植物中鑒定出SBP基因,如擬南芥[7]、水稻[8]、葡萄[9]、蘋果[10]、玉米[11]、高粱[12]、毛竹[13]等。SBP轉(zhuǎn)錄因子的功能涉及植物生長發(fā)育的許多方面:擬南芥中的2個SBP基因SPL3和SPL8分別影響植株的成花和花粉囊的發(fā)育[5];SPL9和SPL15缺失導(dǎo)致擬南芥營養(yǎng)生長時期葉原基形成間隔期變短、花序結(jié)構(gòu)分支增多[14];玉米SBP轉(zhuǎn)錄因子的lg1基因發(fā)生突變導(dǎo)致植株不能形成正常形態(tài)的舌葉和葉耳組織[15-16];在水稻生殖生長階段,過量表達OsSPL14可促進穗分支,提高籽粒產(chǎn)量[17-18]。
大麥是重要的禾本科作物之一,其總產(chǎn)量和種植面積位居全球第四[19],集飼用、啤用和糧食作物于一體。大麥作為麥類作物研究的模式植物,在遺傳、育種以及基因組等方面的研究已取得了顯著的進展[20],國際大麥全基因組測序同盟于2012年完成了大麥全基因組序列的測定[21],為大麥進行生物信息分析研究奠定了基礎(chǔ)。雖然大量研究報道了多種植物SBP轉(zhuǎn)錄因子的鑒定與功能分析,但關(guān)于大麥SBP轉(zhuǎn)錄因子的研究仍然較少。本研究擬采用生物信息學方法鑒定大麥全基因組的SBP家族基因,分析該家族成員基因的序列特征、染色體位置分布及其結(jié)構(gòu)等,構(gòu)建大麥、水稻和擬南芥SBP蛋白的進化樹,并利用公共數(shù)據(jù)庫中的RNA-seq數(shù)據(jù)對該家族成員在不同組織的表達模式進行研究,為大麥SBP家族的深入研究及其重要基因的功能研究提供依據(jù)。
從UniProt蛋白數(shù)據(jù)庫(https://www.uniprot.org)下載獲得52 397條大麥蛋白序列;從PlantTFDB數(shù)據(jù)庫(http://planttfdb.cbi.pku.edu.cn/)獲得水稻和擬南芥SBP蛋白序列及其相應(yīng)的基因序列;從EnsemblPlant數(shù)據(jù)庫(http://plants.ensembl.org/Hordeum_vulgare/Info/Index)獲得大麥RNA-seq表達數(shù)據(jù)。
利用HMMER軟件并基于SBP家族蛋白特征文件PF03110(下載自Pfam數(shù)據(jù)庫),從已下載的52 397條大麥蛋白序列中預(yù)測屬于SBP家族的大麥蛋白序列;同時,用PlantTFDB中的Prediction工具從這些已下載大麥蛋白序列中預(yù)測大麥SBP蛋白序列;將二者共同預(yù)測出的SBP蛋白作為候選的大麥SBP。然后,利用在線數(shù)據(jù)庫SMART(http://smart.embl-heidelberg.de/)對候選大麥SBP蛋白結(jié)構(gòu)域進行鑒定,進一步確定大麥SBP蛋白,排除不含SBP結(jié)構(gòu)域的序列。利用BLAST搜索工具,從EnsemblPlants數(shù)據(jù)庫(http://ensemblgenomes.org)和Phytozome數(shù)據(jù)庫(https://phytozome.jgi.doe.gov/)中檢索每個大麥SBP蛋白對應(yīng)的基因序列和CDS序列以及所在基因組位置。
利用在線軟件Protparam(https://web.expasy.org/protparam/)預(yù)測大麥SBP蛋白的基本理化性質(zhì)(包括分子量MW、等電點pI、平均親水系數(shù)GRAVY、不穩(wěn)定系數(shù)與脂肪系數(shù)等);利用在線軟件SWISS-MODEL(https://swissmodel.expasy.org/)預(yù)測大麥SBP蛋白的三維結(jié)構(gòu)。
基于大麥、擬南芥和水稻的SBP家族蛋白序列,運用MEGA 7.0軟件進行多序列比對,并通過鄰接法(neighbor-joining method,NJ)構(gòu)建系統(tǒng)進化樹Bootstrap設(shè)為1 000次。
利用GSDS 2.0(http://gsds.cbi.pku.edu.cn/index.php)軟件依據(jù)CDS序列和相應(yīng)的基因序列分析大麥SBP基因內(nèi)含子-外顯子結(jié)構(gòu);利用MEME(http://meme-suite.org /tools/meme)軟件分析大麥SBP蛋白家族保守基序,基序長度范圍為10~50個氨基酸殘基,其他參數(shù)為默認值。
基于已從EBI下載的大麥7個不同組織(萌動胚、幼苗、5 dpa穎果、15 dpa穎果、0.5 cm幼穗花序、1 cm幼穗花序和節(jié)間)的RNA-seq表達數(shù)據(jù),利用大麥SBP基因的FPKM值表示基因的表達豐度,使用Matrix2png繪制基因表達熱圖。
利用HMMER軟件與PlantTFDB數(shù)據(jù)庫中的Prediction工具從52 397條大麥蛋白序列中預(yù)測獲得28個大麥SBP候選蛋白;利用在線數(shù)據(jù)庫SMART對候選 SBP轉(zhuǎn)錄因子逐條進行結(jié)構(gòu)域鑒定,共獲得22個大麥中具有SBP蛋白典型結(jié)構(gòu)域的序列,將這些蛋白對應(yīng)的基因依次命名為HvSBP1~HvSBP22(表1)。根據(jù)大麥基因組信息,HvSBP基因家族定位在6條大麥染色體上(圖1),發(fā)現(xiàn)SBP基因在大麥染色體上分布不均勻,Chr6H和Chr7H上SBP基因數(shù)目分布最多,分別有7個和6個家族成員;Chr2H、Chr3H和Chr5H各自包含2~3個SBP基因;ChrUn上有1個SBP基因;Chr1H和Chr4H上面沒有發(fā)現(xiàn)SBP基因。大多SBP在染色體上成簇分布,每個簇內(nèi)的SBP基因之間距離都很近。這與許多別的基因家族在染色體上的分布特征非常相似。蛋白理化性質(zhì)分析顯示,22個大麥HvSBP基因的編碼區(qū)長度在549~3 009 bp之間,編碼的蛋白長度為182~1 002個氨基酸;其等電點(pI)在5.46~10.29之間,總平均親水系數(shù)(GRAVY)在-0.879~-0.280之間。
表1 大麥中鑒定出的SBP家族基因Table 1 SBP family genes identified in barley
圖1 大麥SBP基因的染色體定位
為了進一步研究大麥HvSBP基因結(jié)構(gòu),基于HvSBP基因?qū)?yīng)的基因組序列與CDS序列,利用MEME分析得到各HvSBP基因的外顯子、內(nèi)含子分布情況(圖2)。HvSBP9、HvSBP10和HvSBP11外顯子和內(nèi)含子數(shù)量最多,有11個外顯子和10個內(nèi)含子;其次是HvSBP8,有10個外顯子和9個內(nèi)含子;其他18個HvSBP基因的外顯子數(shù)介于1~6之間。第Ⅳ組中的各基因 (HvSBP6、HvSBP8、HvSBP9、HvSBP10和HvSBP11)的外顯子數(shù)最多,介于6~11。研究還發(fā)現(xiàn),不同組的HvSBP基因結(jié)構(gòu)不同,而同一組內(nèi)的基因往往具有相似的基因結(jié)構(gòu)。各基因之間不僅在外顯子和內(nèi)含子數(shù)量上存在差異,而且在外顯子與內(nèi)含子的長度上也存在著明顯的差異。這也直接導(dǎo)致了各基因?qū)?yīng)的CDS序列長度的差異(549~3 009 bp)和編碼的蛋白長度的差異(182~1 002 aa)。HvSBP19基因的CDS序列最短,僅為549 bp,其對應(yīng)的蛋白序列也最短,僅為182個氨基酸殘基;HvSBP8基因的CDS序列和蛋白序列最長,其長度分別為3 009 bp和1 002個氨基酸殘基(表1)。
黃色柱狀為外顯子,黑線為內(nèi)含子,藍色為上游的5′UTR或下游的3′UTR。
通過對大麥22個SBP蛋白進行多序列比對,分析其序列保守結(jié)構(gòu)域,結(jié)果(圖3)顯示,除了5個HvSBP蛋白(HvSBP7、HvSBP13、HvSBP15、HvSBP16和HvSBP21)外,其余17個大麥HvSBP蛋白都具有完整且典型的SBP結(jié)構(gòu)域。一般包含約80個氨基酸殘基,具備2個鋅指結(jié)構(gòu)(Zn1和Zn2)和核定位信號(NLS)。Zn1和Zn2分別為C3H(C-C-C-H)和C2HC(C-C-H-C)類型;Zn2和NLS之間存在4個氨基酸的重疊。 HvSBP7、HvSBP13、HvSBP15和HvSBP16蛋白具有Zn2和NLS結(jié)構(gòu),但缺少Zn1結(jié)構(gòu);另外,HvSBP13、HvSBP15和HvSBP16蛋白中Zn2保守序列不完整,缺少了3~5個氨基酸。 HvSBP21蛋白則具有典型的Zn1結(jié)構(gòu),但缺少Zn2和NLS結(jié)構(gòu),卻又包含Zn2的保守氨基酸序列(CQQCS)。
圖3 大麥SBP蛋白的多序列比對分析
用MEME對大麥22個SBP家族的氨基酸序列進行保守基序(motif)掃描,得到HvSBP轉(zhuǎn)錄因子蛋白質(zhì)保守序列的結(jié)構(gòu)特征圖,即motif分布圖(圖4)。結(jié)果顯示,在HvSBP轉(zhuǎn)錄因子蛋白中總共找到了4個保守的motif基序,其中motif2處在第一個鋅指Zn1的位置,motif3包含了Zn2結(jié)構(gòu)的前半部分,motif1包含了Zn2結(jié)構(gòu)域的后半部分和核定位信號NLS結(jié)構(gòu)域。這3個motif正好組成了SBP結(jié)構(gòu)域。在22個大麥SBP蛋白中,有17個蛋白全部包含motif1、motif2和motif3,并且其排列順序都為motif2-motif3-motif1;只有HvSBP21中不包含motif1,其余21個HvSBP都包含motif1;HvSBP7、HvSBP13、HvSBP15和HvSBP16中不包含motif2;HvSBP16只包含motif1;另外,有10個HvSBP蛋白中出現(xiàn)了另外1個保守基序motif4,它出現(xiàn)在SBP結(jié)構(gòu)域上游或下游。同一組的HvSBP蛋白一般具有相似的motif分布。通過motif分析可知,每個HvSBP蛋白保守的3個motif正好處于SBP結(jié)構(gòu)域,表明SBP特征序列是這些HvSBP蛋白中最為保守的區(qū)域。
圖4 大麥SBP蛋白的比對分析
保守的蛋白序列往往能形成保守的蛋白結(jié)構(gòu),保守的結(jié)構(gòu)往往又是其行使特定功能的重要保證。從大麥SBP蛋白的三維結(jié)構(gòu)的預(yù)測結(jié)果(圖5)可以看出,這些蛋白中具有典型的鋅指結(jié)構(gòu)與和核定位信號結(jié)構(gòu)。雖然這些蛋白的三維結(jié)構(gòu)存在一定的差異,但由于其存在共同的保守基序,使得它們的三維結(jié)構(gòu)具有SBP家族的共同蛋白結(jié)構(gòu)特征。
圖5 大麥SBP蛋白三維結(jié)構(gòu)
研究HvSBP基因的時空表達模式有助于了解其潛在的功能。本研究利用從EnsemblPlant數(shù)據(jù)庫中下載的大麥RNA-seq數(shù)據(jù),對大麥各HvSBP基因在不同發(fā)育階段的各組織(萌動胚、幼苗、幼穗花序(0.5 cm與1.0 cm)、穎果(5 dpa與15 dpa)和節(jié)間中的表達進行了分析,并根據(jù)其表達的FPKM值繪制了基因表達譜熱圖(圖6)。從圖6可以看出,22個HvSBP基因在不同發(fā)育階段的各組織中的表達有明顯的差異。HvSBP8、HvSBP9、HvSBP10、HvSBP11和HvSBP16在萌動胚、幼苗、幼穗花序(0.5 cm與1.0 cm)和穎果(5 dpa與15 dpa)和節(jié)間中均具有較高的表達量,其中HvSBP8和HvSBP16的表達量最高;HvSBP1~4和HvSBP6基因則僅僅在個別組織(幼穗花序和節(jié)間等)中具有較高表達水平;其他12個HvSBP基因則在大麥各組織中的表達量極低,甚至不表達??傊?,HvSBP基因的表達主要集中在幼穗花序(1.0 cm和0.5 cm)、穎果 (5 dpa)和節(jié)間中,其中在幼穗花序(1.0 cm)表達量最高。這就說明HvSBP基因與大麥開花發(fā)育密切相關(guān)。
圖6 大麥SBP基因表達熱圖
為了分析大麥SBP家族的進化情況,用擬南芥的30個SBP、水稻的27個SBP與大麥的22個SBP家族成員共同構(gòu)建了系統(tǒng)發(fā)育樹(圖7),結(jié)果顯示,3個物種的SBP家族成員可分為4個亞組(Ⅰ、Ⅱ、Ⅲ和Ⅳ亞組),每個亞組均含有3個物種的SBP。4個亞組(Ⅰ~Ⅳ)中分別包含6、7、4和5個大麥HvSBP。在染色體上處于同一簇的HvSBP基因進化關(guān)系接近,不僅屬于同一進化亞組,而且在進化樹上所處的分枝相鄰,說明同一簇的HvSBP基因進化關(guān)系最近,如在Chr6H上分布于同一簇的HvSBP1、HvSBP2和HvSBP3同屬于第Ⅰ亞組,而且進化關(guān)系非常接近;Chr7H上分布于同一簇的HvSBP17、HvSBP20和HvSBP21;Chr3H上的HvSBP13、HvSBP14和HvSBP15;Chr5H上的HvSBP9、HvSBP10和HvSBP11。分析HvSBP22/ORUF-104G22540.1、HvSBP4/ORUF 107G16070.1、HvSBP12/ORUF102G05950.1以及HvSBP7/ORUF108G24030.1發(fā)現(xiàn),這4對直系同源基因親緣關(guān)系最近,它們?nèi)縼碜源篼溑c水稻;在大麥HvSBP基因中也發(fā)現(xiàn)6對親緣關(guān)系最近的旁系同源基因,分別是HvSBP1/HvSBP3、HvSBP18/HvSBP19、HvSBP16/HvSBP17、HvSBP5/HvSBP20、HvSBP13/HvSBP15以及HvSBP9/HvSBP11,其中4對基因(HvSBP1/HvSBP3、HvSBP18/HvSBP19、HvSBP13/HvSBP15以及HvSBP9/HvSBP11)屬于成簇分布的串聯(lián)重復(fù)基因。
圖7 SBP蛋白的進化樹
高等植物中的轉(zhuǎn)錄因子有數(shù)千種,許多有關(guān)逆境脅迫的轉(zhuǎn)錄因子相繼被克隆[22],轉(zhuǎn)錄因子的全基因組鑒定及表達模式研究逐漸成為當前植物基因功能研究的熱點之一。SBP基因家族是植物所特有的一類重要轉(zhuǎn)錄因子,近年來有關(guān)SBP基因家族的研究備受重視。目前,利用生物信息學方法從基因組水平對多種植物SBP基因家族成員的功能進行分析,研究結(jié)果表明,SBP轉(zhuǎn)錄因子在調(diào)節(jié)植物生長發(fā)育以及多種生理生化過程中發(fā)揮極其重要的作用。大麥基因組測序的完成以及大麥蛋白數(shù)據(jù)庫信息等的日趨完善為從基因組水平分析HvSBP轉(zhuǎn)錄因子奠定了基礎(chǔ)。但是,目前有關(guān)大麥SBP基因家族的系統(tǒng)研究報道還比較少。
本研究基于大麥蛋白數(shù)據(jù)庫和全基因組測序數(shù)據(jù)庫等信息,利用三種預(yù)測工具(HMMER、PlantTFDB_ Prediction和SMART)共同預(yù)測并鑒定出22個大麥SBP基因(HvSBP1~HvSBP22)。該預(yù)測結(jié)果比單一軟件預(yù)測結(jié)果更加可靠,但是也增加了非典型大麥SBP蛋白被漏掉的風險。本研究鑒定出的22個大麥HvSBP基因被分為4個進化亞組,分別定位在Chr2H、Chr3H、Chr5H、Chr6H、Chr7H和ChrUn染色體上。除了HvSBP4、HvSBP6、HvSBP7和HvSBP22外,其他HvSBP基因在染色體上都是成簇分布的,屬于串聯(lián)重復(fù)基因。這種分布特征與已報道的其他基因家族的分布特征類似。
本研究發(fā)現(xiàn),處于同一簇串聯(lián)重復(fù)的HvSBP基因在序列、基因結(jié)構(gòu)、蛋白保守結(jié)構(gòu)域(motif)、理化性質(zhì)、基因表達上高度相似,并處于進化樹上最相鄰的分枝上。推測這些位于同一簇的串聯(lián)基因是由于在大麥進化過程中染色體的不對稱交換與復(fù)制產(chǎn)生的多拷貝基因進化而來的。目前的觀點認為,復(fù)制基因在進化中有3種不同的命運:(1)其中的1個基因繼承了祖先基因的功能,而其他拷貝的基因則變成了假基因;(2)其中的1個基因仍然保留了祖先基因原有的功能,而其他拷貝的基因則進化出了新的功能;(3)這些基因被亞功能化(sub-functionalized),它們一起承擔了祖先基因傳下來的基因功能[23-24]。由于本研究鑒定出的處于同一簇的大麥HvSBP基因在各個方面都存在著高度的相似性,他們的表達模式在不同大麥組織中高度一致,推測這些成簇分布的大麥HvSBP基因更加傾向于第3種進化學說。同一基因家族的各個基因一般都來自同一個祖先基因,屬于同源基因,是在進化過程中通過某種方式產(chǎn)生的多拷貝基因逐漸進化而來的。本研究鑒定出不同簇的大麥HvSBP基因之間雖然也屬于同源基因,存在共同的保守區(qū)域,但它們在CDS與蛋白的序列及長度、基因結(jié)構(gòu)、保守結(jié)構(gòu)域(motif)、理化性質(zhì)與基因表達方面卻存在明顯的差異。因此,推測不同簇的HvSBP基因之間在功能上存在一定差異。
進化分析結(jié)果顯示,大麥、擬南芥和水稻共79個SBP基因被分為4個進化亞組,每個亞組中都包含3個物種的SBP基因,而且在同一進化亞組中,各SBP基因的親緣關(guān)系并不完全是按照物種來區(qū)分的。推測在SBP基因家族產(chǎn)生且已分化出了這4個亞組之后,才出現(xiàn)了單、雙子葉植物的分化。前人的研究表明,SBP基因可能起源于綠藻和陸生植物祖先分化之前[25]。從進化樹上可以看出,與大麥HvSBP基因進化關(guān)系最近的是水稻的SBP基因。本研究發(fā)現(xiàn)的親緣關(guān)系最近的4對直系同源基因(HvSBP22/ORUF104G22540.1、HvSBP4/ORUF107G16070.1、HvSBP12/ORUF102G05950.1以及HvSBP7/ORU-F108G24030.1)全部都是來自大麥與水稻。可見,單子葉植物的大麥中的SBP基因與水稻的SBP基因親緣關(guān)系比雙子葉植物的擬南芥更近。
篩選出的22個大麥HvSBP在各個組織中的表達量差異很大,其中,HvSBP8、HvSBP9、HvSBP10、HvSBP11和HvSBP16在所有組織中均明顯的表達,HvSBP1~4和HvSBP6僅在個別組織中表達,其他12個HvSBP基因在所有組織中表達量極低或根本不表達。這暗示了各HvSBP基因的功能在進化中已經(jīng)出現(xiàn)了明顯的分化。本研究也發(fā)現(xiàn),成簇出現(xiàn)的串聯(lián)重復(fù)HvSBP基因具有共同的表達模式?;虮磉_分析還顯示,HvSBP基因主要集中在幼穗花序與穎果中表達,其中1 cm幼穗花序中HvSBP基因表達量最高,且多達10個HvSBP基因在該組織中表達。大麥HvSBP基因在0.5 cm幼穗花序中開始大量表達;當幼穗花序長度達到1.0 cm時,其表達量更高,逐漸達到了峰值;當開花授粉5 d后,HvSBP基因在穎果中的表達量開始下降;開花后15 d的穎果中表達量則進一步下降。由此可見,HvSBP基因在開花期進入表達高峰,隨著籽粒的形成及成熟,其表達量下降。這說明這些HvSBP基因參與了花的發(fā)育與調(diào)控,這與前人報道一致[7,26]。擬南芥SBP類似基因SPL3等可以調(diào)控擬南芥花的發(fā)育[27],擬南芥SBP8和SBP14可以調(diào)控其花粉的發(fā)育[7],進而影響擬南芥產(chǎn)量;玉米中控制花序發(fā)育的部分SBP基因與玉米產(chǎn)量密切相關(guān)[3]。因此,我們推測在大麥穎果和幼穗花序中大量表達的這些HvSBP基因也可能會在一定程度上對大麥產(chǎn)量產(chǎn)生影響,但還需進一步研究。