丁洪霞,楊 博,陳方軍,彭 悅,郭善利,陳世華
(煙臺大學(xué)生命科學(xué)學(xué)院,山東 煙臺 264006)
甜菜素主要存在于真菌(擔(dān)子菌:鵝膏菌[1])、細(xì)菌(重氮營養(yǎng)葡萄糖酸桿菌[2])、水生植物(藍(lán)藻[3-4])、開花植物(石竹目:莧菜、鸚鵡花[5]、大花馬齒莧[1])等物種中。甜菜素具有清除自由基的能力和一定的抗氧化活性,可被用作食品著色劑,并對幾種類型的癌癥有預(yù)防能力[6-7]。甜菜素是一類由酪氨酸衍生而來的植物色素,甜菜醛氨酸是甜菜素合成的重要中間產(chǎn)物,也是甜菜素最常見的發(fā)色基團(tuán)。DODA(3,4-dihydroxyphenylalanine 4,5-dioxygenase)基因編碼的4,5-多巴雙氧化酶是甜菜素生物合成的關(guān)鍵酶之一[8],它打開酪氨酸的氧化產(chǎn)物左旋多巴(L-DOPA)C-4和C-5之間的二羥基苯丙氨酸環(huán),生成不穩(wěn)定的Seco-DOPA,然后自發(fā)形成甜菜醛氨酸[9]。DODA屬于LigB基因家族成員,在石竹目中LigB基因復(fù)制產(chǎn)生了DODAα和DODAβ兩個分支,其中DODAα分支中的基因具有編碼該酶的功能[2,10],研究認(rèn)為DODAβ可以編碼打開左旋多巴的C-2和C-3位產(chǎn)生麝香黃素的酶[3]。DODA基因的同源基因在非合成甜菜素的植物中是已知的,如擬南芥(AtLigB)和水稻(AK104601)等,雖然是DODA基因的同源基因,但是它們編碼的酶不具有催化合成甜菜醛氨酸的功能[11]。
藜麥(ChenopodiumquinoaWilld.)是莧科藜屬的一年生雙子葉自花授粉的草本植物,屬于偽谷類作物。藜麥起源于南美洲安第斯地區(qū),但能適應(yīng)世界多地的生態(tài)環(huán)境,具有較好的耐鹽堿、耐干旱及耐低溫特性和極大的農(nóng)藝栽培價值和潛力[12]。藜麥被認(rèn)為是可以提高世界糧食安全的重要作物,全株可食用,具有豐富的營養(yǎng)成分,有色藜麥種子中含有高抗氧化能力的酚類和甜菜素[13-14]。已有研究表明利用有色藜麥品種建立藜麥愈傷組織培養(yǎng)體系,可以獲得具有產(chǎn)生甜菜素能力的藜麥細(xì)胞[15]。藜麥中分離和鑒定了CqDODA酶,基于多巴胺的色素生物合成途徑的所有中間化合物和產(chǎn)物都已明確[16]。目前國內(nèi)外對藜麥DODA(CqDODA)基因的研究較少,且對該基因家族尚無深入系統(tǒng)分析及研究。
2017年藜麥高質(zhì)量基因組的組裝[17],為藜麥基因組學(xué)研究及藜麥的遺傳、進(jìn)化及基因功能研究奠定了重要的遺傳基礎(chǔ)。為了進(jìn)一步了解CqDODA基因在藜麥中的作用,基于藜麥全基因組序列,本研究利用生物信息學(xué)的方法鑒定了CqDODA基因家族的全部成員,分析了蛋白理化性質(zhì),保守結(jié)構(gòu)域、啟動子順式作用元件、表達(dá)模式、系統(tǒng)發(fā)育關(guān)系、自身共線性及其與祖先種共線性等,為深入研究CqDODA基因的功能和藜麥甜菜素的研究提供新的方向。
藜麥基因組數(shù)據(jù)來源于NCBI藜麥數(shù)據(jù)庫,在NCBI上分別下載莧菜(AcDODA1)、擬南芥(AtLigB)、甜菜(BvDODA1)等16個物種的蛋白序列。用TBTools軟件將不同物種的DODA蛋白序列分別對比藜麥蛋白數(shù)據(jù)庫,選出質(zhì)量較高(E-value<1×10-20)的CqDODAs候選基因。用NCBI CDD (https://www.ncbi.nlm.nih.gov/cdd/)工具(Expect Value為 0.01)驗證候選基因是否含有4,5-DOPA-Dioxygenase(PSSMID 153375)結(jié)構(gòu)域,最終篩選出18個CqDODA基因。使用ExPASy 在線網(wǎng)站提供的Protparam工具(https://web.expasy.org/protparam/)對CqDODA基因家族成員編碼蛋白的氨基酸序列進(jìn)行一級結(jié)構(gòu)和二級結(jié)構(gòu)特性分析,得到DODA蛋白的氨基酸長度、分子量、等電點(diǎn)等理化性質(zhì)。Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/#)和CELLO(http://cello.life.nctu.edu.tw/)用于預(yù)測亞細(xì)胞定位。
根據(jù)獲得的18個CqDODA基因家族成員,提取它們的基因組DNA序列和CDS序列,使用GSDS 2.0在線網(wǎng)站(http://gsds.cbi.pku.edu.cn)對CqDODA基因結(jié)構(gòu)進(jìn)行作圖分析;使用MEME5.1在線網(wǎng)站(http://meme-suite.org/tools/meme)對CqDODA蛋白序列進(jìn)行蛋白保守基序(Motif)搜索,可被搜索的Motif數(shù)量設(shè)置為10。
從NCBI上下載藜麥及不同物種的DODA蛋白序列。CluastW程序用于多個DODA蛋白序列比對。利用MEGA7.0軟件,采用鄰接法和1000次Bootstrap重復(fù)構(gòu)建藜麥與不同物種的蛋白系統(tǒng)發(fā)育樹。用同樣的方法構(gòu)建了CqDODAs自身的系統(tǒng)發(fā)育樹。
使用MCScanX對C.quinoa、C.pallidicaule和C.suecicum進(jìn)行全基因組共線性分析,從共線性結(jié)果文件中篩選出CqDODA共線性基因?qū)σ约稗见溑cC.pallidicaule和C.suecicum之間的共線性基因?qū)?并用TBtools軟件繪圖。使用TBtools軟件計算藜麥自身CqDODA共線性基因?qū)Φ腒a/Ks值(非同義替換率/同義替換率)。
在NCBI的GEO數(shù)據(jù)庫中下載藜麥各組織器官和幾個品種的RNA-Seq數(shù)據(jù)(SRP226463、SRP116149),以RNA-Seq為基礎(chǔ)進(jìn)行l(wèi)og2轉(zhuǎn)換計算TPM(每百萬次讀取的轉(zhuǎn)錄本),分別找到CqDODA基因家族所有成員的TPM值,使用TBtools軟件繪制CqDODA基因家族的組織表達(dá)熱圖。
從藜麥基因組數(shù)據(jù)庫中獲得了CqDODAs轉(zhuǎn)錄起始點(diǎn)上游3000個堿基,作為相關(guān)基因的啟動子序列。這些序列用PlantCare(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)預(yù)測分析順式作用元件,并用GSDS2.0作可視化分析。
根據(jù)DODA蛋白的保守結(jié)構(gòu)域,通過對比藜麥數(shù)據(jù)庫和保守結(jié)構(gòu)域數(shù)據(jù)庫,在藜麥中鑒定出18個含4,5-多巴雙氧化酶結(jié)構(gòu)域的CqDODA蛋白。根據(jù)其基因在染色體上的位置(表1),分別命名為CqDODA1至CqDODA18。藜麥一共18對染色體,這18個CqDODA分布在3、4、5、12號染色體上,其中12個基因在5號和12號染色體上。
表1 CqDODA基因信息
表1(續(xù))
18個CqDODA蛋白的理化性質(zhì)和一、二級結(jié)構(gòu)特征如表2所示。CqDODA的長度在178~865個氨基酸殘基之間,分子質(zhì)量為19.72~99.46 kU,其中最小分子質(zhì)量的是CqDOPA9,最大分子質(zhì)量的是CqDOPA18;理論的等電點(diǎn)為5.27~8.02,大部分CqDODA蛋白呈酸性,其中CqDODA9和CqDODA17等電點(diǎn)大于7,為堿性蛋白;CqDODA蛋白中有9個蛋白不穩(wěn)定指數(shù)大于40,是不穩(wěn)定蛋白;蛋白親水性大于-0.5屬于親水蛋白,CqDODA6是疏水蛋白,其余均為親水蛋白;蛋白的二級結(jié)構(gòu)中α-螺旋和無規(guī)卷曲結(jié)構(gòu)較多。
基于CqDODA蛋白的亞細(xì)胞定位預(yù)測結(jié)果如表2所示,這些CqDODA蛋白具有葉綠體、線粒體、細(xì)胞壁、細(xì)胞質(zhì)和細(xì)胞核等多個亞細(xì)胞定位特征,CqDODA2、3、5、10、15、16等6個CqDODA蛋白存在細(xì)胞壁和細(xì)胞質(zhì)定位特征,CqDODA1、6、7、9、12、13、14、16、17等9個CqDODA蛋白具有葉綠體定位特征,多個CqDODA蛋白都有兩個以上的亞細(xì)胞定位特征。
表2 CqDODA蛋白理化性質(zhì)及一、二級結(jié)構(gòu)預(yù)測以及亞細(xì)胞定位
如圖1所示,CqDODA基因內(nèi)含子數(shù)目在2~15個之間,外顯子數(shù)目在2~16個之間,大部分CqDODA含有3 個外顯子,除了CqDODA18外均含有1~3個內(nèi)含子,分支2和分支3的基因結(jié)構(gòu)差異較大,CqDODA基因在分支1中相似度高。蛋白保守基序如圖2,CqDODA蛋白含有4~9個蛋白保守基序,Motif-1、2、5這樣的結(jié)構(gòu)存在于所有CqDODA成員中;CqDODA12和CqDODA13缺少M(fèi)otif-8,CqDODA9缺少M(fèi)otif-3,CqDODA18和CqDODA7的Motif-8被Motif-10取代,CqDODAs的蛋白基序組織高度保守。CqDODA基因家族雖然部分基因結(jié)構(gòu)差異較大,但是在CqDODA蛋白在進(jìn)化中卻相對保守。
圖1 CqDODAs系統(tǒng)發(fā)育關(guān)系和基因結(jié)構(gòu)
圖2 CqDODA 蛋白Motif結(jié)構(gòu)
DODA蛋白的系統(tǒng)發(fā)育和結(jié)構(gòu)分析來自包括藜麥在內(nèi)的15個不同物種,聚為A、B、C、D四個分支(圖3),分別包含2個、6個、6個和4個CqDODA蛋白。圖3中分支A和B對應(yīng)圖2中的分支1,分支C對應(yīng)圖2中的分支3,分支D對應(yīng)圖2中的分支2。分支B中CqDODA7、8、9、16、17、18與毯粟草MvDODA親緣較近;分支D中CqDODA11、14、12、13與甜菜BvDODA2b、菠菜SoDODA5親緣關(guān)系較近;CqDODA10、15與菠菜SoDODA4、鹽地堿蓬SsDODA2是同一支進(jìn)化而來;擬南芥、水稻和小麥等屬于分支B與分支B中的CqDODAs為同一祖先進(jìn)化而來。結(jié)合表2蛋白亞細(xì)胞定位預(yù)測可以發(fā)現(xiàn),分支A定位于細(xì)胞質(zhì)、細(xì)胞壁、線粒體;分支B定位于細(xì)胞壁、葉綠體、線粒體、細(xì)胞質(zhì)、細(xì)胞核;分支C定位于葉綠體、線粒體、細(xì)胞質(zhì)、細(xì)胞壁;分支D定位于細(xì)胞膜、細(xì)胞壁、葉綠體、細(xì)胞質(zhì)、高爾基體、核中。
圖3 CqDODA蛋白系統(tǒng)發(fā)育進(jìn)化樹
藜麥和兩個二倍體祖先種的共線性分析如圖4,CqDODA7、CqDODA18可能起源于C.pallidicaule,CqDODA1、2、5、13可能起源于C.suecicum。CqDODA基因自身共線性如圖5,在該基因家族中總共發(fā)現(xiàn)了3個基因復(fù)制事件,分別是CqDODA10和CqDODA13、CqDODA7和CqDODA16、CqDODA1和CqDODA5。CqDODA基因家族的擴(kuò)大主要?dú)w因于節(jié)段性復(fù)制事件。計算所有重復(fù)的CqDODA共線基因?qū)Φ腒a/Ks值如表3,發(fā)現(xiàn)3對基因?qū)鵎a?Ks,Ka/Ks值?1,這3對基因在進(jìn)化過程中受純化選擇,非同義替換率Ka小于同義替換率Ks[18]。
圖4 C. quinoa與C. pallidicaule、C. suecicum的全基因組共線性
表3 共線CqDODA基因的Ka/Ks
為了進(jìn)一步分析CqDODA基因在藜麥甜菜素合成中的作用,本研究基于正常生長中的藜麥不同組織的RNA-seq數(shù)據(jù),分析了CqDODA基因家族中各成員表達(dá)模式(如圖6)。結(jié)果表明,CqDODAs表達(dá)模式差異較大,CqDODA2、15、10、16、18幾乎在全藜麥的所有組織中均表達(dá),分支2的CqDODA1、14、11、13、12和分支3的CqDODA17、8幾乎不表達(dá)或者表達(dá)量很低,基因表達(dá)的時間和空間特異性不明顯。CqDODA4在花和未成熟的種子中存在高表達(dá),CqDODA16在莖和正在發(fā)育的種子中存在高表達(dá)。在進(jìn)化親緣關(guān)系較近的成對基因中,CqDODA1和CqDODA2、CqDODA3和CqDODA6、CqDODA9和CqDODA16、CqDODA18和CqDODA7表達(dá)差異非常大。對這些成對基因的順式作用元件(圖7)進(jìn)一步分析可以發(fā)現(xiàn),表達(dá)量高的CqDODA基因家族成員的順式作用元件種類和數(shù)量均多于表達(dá)量低的成員,在親緣較近的成對基因中表達(dá)量低的一方缺少如玉米醇溶蛋白代謝調(diào)節(jié)元件、干旱誘導(dǎo)性元件、在分生組織表達(dá)元件、在胚乳表達(dá)元件等。
圖5 CqDODA基因家族自身共線性分析
對CqDODA基因家族上游3000 bp啟動子區(qū)域順式作用元件分析如圖7所示,CqDODA基因家族存在基本的啟動子元件如CAAT-box、TATA-box等,每個基因都有脫落酸反應(yīng)元件(ABRE)厭氧誘導(dǎo)(ARE)和大量的光響應(yīng)元件(TCT-Motif、G-Box、Box4、GT1-Motif、AE-Box等);CqDODA16含根特異性調(diào)控元件,CqDODA1、11、14含柵欄葉肉細(xì)胞分化元件,CqDODA10、12、13含創(chuàng)傷反應(yīng)元件;在啟動子序列中還鑒定了一些激素調(diào)控的元件如脫落酸、生長素、赤霉素、水楊酸、茉莉酸甲酯等,還有一些環(huán)境誘導(dǎo)的調(diào)節(jié)元件如低溫響應(yīng)、光響應(yīng)、缺氧反應(yīng)元件等。
圖6 CqDODA基因在不同組織的表達(dá)模式
圖7 CqDODA基因上游3000 bp啟動子區(qū)域順式作用元件
DODA酶在甜菜素合成中有重要的作用,甜菜素與植物的顏色和抗逆性等多方面有密切聯(lián)系。本研究基于藜麥基因組數(shù)據(jù),首次對CqDODA全基因家族進(jìn)行系統(tǒng)研究。共確定了18個CqDODA基因,根據(jù)基因在染色體上的位置進(jìn)行了命名,18個CqDODA基因集中分布在3、4、5、12號染色體上(表1)。CqDODA蛋白的一級和二級結(jié)構(gòu)以及亞細(xì)胞定位的分析預(yù)測(表2)表明,CqDODA蛋白性質(zhì)接近,多為酸性蛋白且親水;這些蛋白理化性質(zhì)可以預(yù)測特異性位置以及CqDODA之間的底物選擇性。
基于多物種DODA蛋白進(jìn)化分析,CqDODAs可以分為四支(圖3),并與菠菜、鹽地堿蓬、甜菜毯粟草、莧菜來源的DODAs具有較高的相似性和親緣關(guān)系最近。擬南芥AtLigB、豬籠草NaDODA等屬于分支B,其基因?qū)儆贒ODAα分支,擬南芥和豬籠草等植物是產(chǎn)生花青素類色素的植物[19],不能產(chǎn)生甜菜素;AtLigB不具有打開C-4、C-5位二羥基苯丙氨酸環(huán)的功能,而是催化C-2、C-3位二羥基苯丙氨酸環(huán)生成麝香黃素[6]。CqDODAs與AtLigB、NaDODA均屬于分支B,三者的編碼基因?qū)偻恢ё嫦然蜻M(jìn)化而來,推測也屬于DODAα分支中[2];這一支中只有CqDODA8、CqDODA9和CqDODA16基因在藜麥不同組織中有表達(dá),因此推測CqDODA7、18、9、16、8、17這6個基因與AtLigB一樣不具有編碼4,5-多巴雙氧化酶的功能,且CqDODA8、9、16在藜麥中表達(dá)了并產(chǎn)生了其他物質(zhì)。圖1中分支2的基因在正常生長的藜麥各組織中表達(dá)量極低,幾乎不表達(dá)(圖6),分支3也推測出不具有編碼4,5-多巴雙氧化酶的功能,因此推測出分支1中的8個CqDODA基因在藜麥甜菜素合成中具有重要的作用[17]。根據(jù)CqDODA基因結(jié)構(gòu)和蛋白保守基序分析,可知分支1中的CqDODA基因所編碼的蛋白具有保守性,其中Motif-3、1、8、5、2、6高度保守(圖2);在分支1中僅有CqDODA15和CqDODA6基因所編碼的為穩(wěn)定蛋白,在熱圖上這兩個基因的表達(dá)量比同支的CqDODA10和CqDODA2等編碼不穩(wěn)定蛋白的基因表達(dá)量低,所以推測藜麥中的CqDODA在需要合成甜菜素時才表達(dá)產(chǎn)生 CqDODA蛋白,蛋白發(fā)揮活性以后CqDODA蛋白就立刻分解或者結(jié)合其他物質(zhì),最后失去酶的活性[20]。
CqDODA18和CqDODA7可能起源于C.pallidicaule,CqDODA1、2、5、13可能起源于C.suecicum,CqDODA1、2、5在進(jìn)化過程中仍維持較近的親緣關(guān)系。啟動子區(qū)域的順式作用元件可以預(yù)測出CqDODAs基因上游含有豐富的激素響應(yīng)和逆境脅迫響應(yīng)元件(圖7),暗示CqDODAs基因在受到低溫、缺氧、創(chuàng)傷或激素處理時可能會發(fā)揮一定的作用[21]。一些親緣關(guān)系較近的成對基因中(CqDODA1/CqDODA2、CqDODA16/CqDODA9、CqDODA18/CqDODA7)出現(xiàn)表達(dá)量差異很大的情況,可能是由于表達(dá)量高的一方較表達(dá)量低的一方擁有更多的上游調(diào)控元件,從而造成了這一現(xiàn)象[22]。本研究通過生物信息學(xué)的方法系統(tǒng)研究分析CqDODA基因家族成員在藜麥中的功能,特別是對甜菜堿色素合成中的作用,為深入探究CgDODA基因家族提供理論支持。