鄭喬木,黃思沛,李秋娥,蔣瑞平,周嘉裕,廖 海
(西南交通大學(xué) 生命科學(xué)與工程學(xué)院,成都 610031)
萜類化合物屬于次生代謝產(chǎn)物,由異戊二烯單元構(gòu)成其基本骨架,參與了光合作用、呼吸作用和細(xì)胞周期等生理過程。萜類化合物還具有藥用[1-3]、芳香和殺蟲[3]等生物活性,具有重要的臨床、保健與經(jīng)濟價值。植物主要利用兩個途徑生成萜類物質(zhì),分別是胞質(zhì)中的甲羥戊酸 (Mevalonate pathway,MVA) 途徑和位于質(zhì)體中的甲基赤蘚醇4-磷酸途徑(Methylerythritol 4-phosphate pathway,MEP)[4]。1-脫氧-D-木酮糖-5-磷酸合成酶 (1-deoxy-D-xylulose-5-phosphate synthase,DXS)是催化MEP途徑第一步反應(yīng)的關(guān)鍵酶,其基因的表達(dá)水平與下游代謝產(chǎn)物含量表現(xiàn)出正相關(guān)性[5]。過表達(dá)DXS基因的轉(zhuǎn)基因株系中,類胡蘿卜等萜類物質(zhì)的含量顯著增加[6-8]。豆科植物中含有多種不同類型的萜類化合物,許多豆科植物的DXS基因已被克隆并鑒定功能,這為了解DXS基因在萜類化合物生成中發(fā)揮的作用奠定了基礎(chǔ)。
密碼子偏好性指的是在編碼氨基酸時,同義密碼子有不同的使用頻率。不同生物體的密碼子偏好性有很大的差異性,即使在同一生物體中,編碼基因的不同也會造成偏好性的差異性[9]。由于密碼子偏好性,大腸桿菌作為宿主時,薰衣草的DXS基因表達(dá)量并不高[10],有較多研究證實,通過優(yōu)化密碼子在一定程度上增強了基因的表達(dá)效率[11-13]。
研究收集包括豆科16種植物及禾本科、藻類等其他物種共26種生物的DXS基因CDS序列,利用Codon W軟件和EMBOSS等程序來分析密碼子的偏好性,計算堿基組成、ENc與RSCU值等,結(jié)合ENc-plot和PR2-plot分析,找到最優(yōu)密碼子并評估聚類結(jié)果,分析豆科植物DXS基因的潛在合適宿主。研究系統(tǒng)地分析了豆科DXS基因的密碼子偏好性,為理解這些植物DXS基因的進(jìn)化規(guī)律及提高該基因異源表達(dá)效率提供依據(jù)。
決明(Cassiaobtusifolia)的DXS基因序列來源于課題組前期獲得的轉(zhuǎn)錄組數(shù)據(jù),SRA登錄號為SRP144670[14]。其余15種豆科植物、5種禾本科植物與5種藻類的DXS基因來自NCBI數(shù)據(jù)庫。具體序列信息見表1。
表1 26個物種DXS基因信息Table 1 The DXS genes information from 26 species
通過CodonW軟件獲得DXS基因的相對密碼子使用度(Relative synonymous codon usage,RSCU)、密碼子適應(yīng)指數(shù)(Codon adaptation index,CAI)、第3位堿基GC含量(GC3s)和GC含量。RSCU=1代表沒有偏好性差異,RSCU>1和RSCU<1分別代表該密碼子的使用頻率相對較低和較高。CAI值由0到1代表某基因中該密碼子使用偏好性從弱到強,CAI接近1時,表達(dá)水平較高[15]。
利用EMBOSS(http://vmbio-info.toulouse.inra.fr/emboss)的CUSP和CHIPS在線分析程序,計算各DXS基因編碼序列中密碼子出現(xiàn)的頻率和有效密碼子的數(shù)量(Effective number of codons,ENc) 。用ENc表示整體的密碼子偏好性水平。ENc的值從20至61,低于35且數(shù)值越低表示對指定的密碼子具有較高的偏好性[16]。
ENc-GC3關(guān)聯(lián)圖反映了只受突變壓力影響而無選擇壓力條件下兩者間關(guān)系,標(biāo)準(zhǔn)曲線公式為ENc=2+GC3+29/[GC32+(1-GC3)2][16]。若基因分布在標(biāo)準(zhǔn)曲線上,表明主要受到堿基突變影響,受到自然選擇及其他因素影響的基因則在曲線外。
以A3/(A3+T3)值為縱坐標(biāo)、G3/(G3+C3)值為橫坐標(biāo)繪圖,以坐標(biāo)(0.5,0.5)為中心,從這個中點出發(fā)的矢量可以反映奇偶偏好(parity rule2,PR2)[17]。如果偏好性主要是受到突變的影響,則A/T及G/C含量分布均勻,即A=T/G=C,否則偏好可能受自然選擇及其他因素影響。分析圖中兩條直線將圖分為4個區(qū)域,分布于直線上半部分,表明在第3個堿基上,A的使用頻率比T高,分布在直線的左半部分說明在第3位堿基上,C的使用次數(shù)比G高。
以26個物種DXS基因的RSCU值為變量,將密碼子參數(shù)的相關(guān)性系數(shù)用SPSS 26.0統(tǒng)計軟件分析聚類。用TBtools軟件作基于RSCU值的聚類熱圖。用MEGA-X軟件對這些物種的DXS基因基于CDS序列來構(gòu)建進(jìn)化樹。
以ENc作為偏好性標(biāo)準(zhǔn),分別選取ENc值最高和最低兩端各5個基因作為密碼子低偏好性組和高偏好性組。計算兩組RSCU值,分別記為RSCUhigh和RSCUlow,并計算密碼子的△RSCU值 (RSCUhigh-RSCUlow)作為ENc的差異。參照已有研究進(jìn)展將0.08作為臨界值[18]。將△RSCU>0.08且RSCU值>1的視為最優(yōu)密碼子。
豆科植物DXS基因偏好使用的密碼子有19個(RSCU>1),見圖 1,包括UUG、CUU、AUU、GUU、UCU、UCA、CCU、CCA、ACU、ACA、GCU、GCA、CAU、GAU、GAA、AGA、AGG、GGU與GGA。其中有11個密碼于U結(jié)尾,7個密碼子于A結(jié)尾。AUG、UGG和UGA密碼子無偏好性差異。在氨基酸水平上,編碼纈氨酸的GUU在所有豆科植物中都表現(xiàn)出強烈的偏好性,其次是編碼絲氨酸的UCU。16種豆科植物DXS序列通過與不同表達(dá)宿主的密碼子使用頻率表進(jìn)行對比發(fā)現(xiàn),在擬南芥和煙草的適應(yīng)指數(shù)相當(dāng),酒釀酵母的適應(yīng)指數(shù)高于大腸桿菌。
圖1 DXS基因密碼子RSCU聚類熱圖Figure 1 Cluster heat map of relative synonymous codon usage (RSCU) for the DXS genes
如表2所示,豆科植物DXS基因GC含量和GC3s均小于0.5,即堿基均偏向于A和U,且ENc值為48.66~53.4,平均為51.50。禾本科植物與藻類DXS基因的GC含量均大于0.5,ENc值為29.48~34.43,平均值僅為31.772,說明在豆科植物中,DXS基因的密碼子使用的偏好要低于禾本科植物。
表2 26個物種DXS基因密碼子使用參數(shù)Table 2 Codon usage parameters of DXS genes in 26 species
ENc-GC3關(guān)聯(lián)分析(圖 2)顯示,大部分點分布在標(biāo)準(zhǔn)曲線附近。通過比較ENc比值與頻數(shù),可以更清楚地說明ENc的預(yù)期值與實際間的差別,結(jié)果表明,豆科植物DXS基因的ENc值與預(yù)期的值相差較小,主要受堿基組成的影響。
圖2 26個物種DXS基因GC3s與ENc含量分布Figure 2 Distribution of ENc and GC3s content of DXS genes in 26 species
PR2-plot分析(圖 3)顯示,這些坐標(biāo)點相對于中心都有相對地偏離,豆科植物偏離程度和分布相對一致,禾本科植物坐標(biāo)點相對偏離較遠(yuǎn)且分散。該結(jié)果進(jìn)一步說明了來源于不同的科屬植物的DXS基因,偏好性的形成機制不同,其中豆科植物主要受到堿基突變的影響,而禾本科植物主要受到自然選擇的影響。豆科植物坐標(biāo)點均分布在A3/(A3+T3)<0.5區(qū)域,表明豆科植物DXS基因在堿基T的使用上有更強的偏好性。
圖3 PR2-plot偏倚分析Figure 3 PR2-plot analysis
基于RSCU值可將26個物種聚類為兩大支(圖 4),其中第一支包括禾本科植物與2種藻類,第二支為其余16個豆科物種和3種藻類。在第二支中,決明等16種豆科植物與2種藻類聚類為一個下級分支,萊茵衣藻單獨為另一個下級分支?;贑DS序列構(gòu)建的系統(tǒng)進(jìn)化樹將所有植物分為3支(圖 5),其中,16種豆科植物聚為一支,5種禾本科與2種藻類聚為一支,其余3種藻類聚為一支。
圖4 DXS基因的RSCU聚類分析Figure 4 Cluster analysis tree of RSCU of DXS genes
圖5 26個物種DXS基因的CDS序列系統(tǒng)進(jìn)化樹Figure 5 Phylogenetic tree of DXS genes of 26 species by CDS sequences
分析16種豆科植物DXS基因主要偏好密碼子,計算構(gòu)建的高低庫ΔRSCU值,ΔRSCU值大于0.08的有21個。對這些密碼子進(jìn)行分析與確定,同時滿足ΔRSCU>0.08和RSCU>1的為CCA、GGA。滿足ΔRSCU>0.08的密碼子中,有15個以G/C為結(jié)尾,6個以A/U結(jié)尾。
與禾本科和藻類相比,豆科植物DXS基因的CAI值偏低,說明使用偏好性整體偏低,這可能與豆科植物萜類物質(zhì)的低含量相關(guān)。若對豆科植物開展基因改造來提高萜類物質(zhì)的生產(chǎn)效率,DXS可能是一個較好的候選靶基因,已有通過提高DXS的表達(dá)來增強下游的萜類化合物生產(chǎn)效率的成功例子[6]。16種豆科植物的DXS基因GC含量偏低,且大多用A/U結(jié)尾,該特征與同樣來自MEP途徑的DXR基因相同[19]。然而,DXS基因的優(yōu)勢密碼子數(shù)量(19個)與最優(yōu)密碼子類型 (CCA、UGU) ,與DXR基因均不同(8個,AGA),表明來自同一代謝途徑的不同基因,在進(jìn)化過程中可能受到不同的選擇壓力,導(dǎo)致了不同的偏好性。余下的非優(yōu)勢密碼子,可能是DXR基因優(yōu)化的重點區(qū)域。與豆科不同,禾本科和藻類的DXS基因的末端更多以C/G作為結(jié)尾。研究表明,單子葉植物的編碼末端大多為G/C,而雙子葉植物大多為A/T(U)[20],這進(jìn)一步驗證了偏好密碼子分析結(jié)果。選擇和突變都能影響密碼子的偏好使用[21-22]。通過ENc-plot和PR2-plot等分析可以發(fā)現(xiàn),在豆科植物中,堿基突變是影響DXS基因密碼子偏好性的主要因素(圖 2和圖 3),這一結(jié)果與油茶[18]和木蘭科葉綠體基因組[23]等研究結(jié)果相似,與川芎COMT基因[24]研究結(jié)果相反,說明這些影響存在一定的多樣性。
基于RSCU值的聚類相近于基于CDS序列的聚類結(jié)果,表明進(jìn)化過程中,基因組的位點突變特征以及編碼區(qū)的序列信息均起到相應(yīng)作用。然而,基于RSCU值的聚類效果要弱于基于CDS序列的聚類效果,類似結(jié)果也出現(xiàn)在前人研究中[20,25]。以上研究表明,基于CDS序列的聚類為主,RSCU值的聚類為輔來研究豆科植物的系統(tǒng)發(fā)育研究能夠獲得更準(zhǔn)確的結(jié)果。為了選擇豆科DXS基因的合適表達(dá)宿主,比較其在大腸桿菌(Escherichiacoli) 、釀酒酵母(Saccharomycescerevisiae) 、擬南芥(Arabidopsisthaliana)和煙草(Nicotianatabacum)中的適應(yīng)指數(shù),表明擬南芥、煙草和酵母均是DXS基因的合適宿主。
DXS是MEP途徑的關(guān)鍵酶之一,其表達(dá)水平的高低與下游次生代謝產(chǎn)物具有密切的正相關(guān)性,由此,提高DXS基因的表達(dá)水平,可以增強下游萜類化合物產(chǎn)率,具有較高的理論及應(yīng)用價值。研究獲得了豆科植物DXS基因的密碼子的偏好使用信息,為認(rèn)識豆科植物DXS基因的進(jìn)化規(guī)律及合適宿主的選擇提供了理論依據(jù)。