王慶東 連政漢 王燃 趙林萍 趙市勇 林真 位芳 朱世新
摘要 分析GenBank公布的68條蕨類、裸子、單子葉和雙子葉植物的CCR蛋白,發(fā)現(xiàn)單子葉植物CCR基因的GC含量最高,CCR一級結(jié)構(gòu)的理化性質(zhì)基本一致,但主要氨基酸種類和含量不同;CCR是一類無導(dǎo)肽、信號肽及跨膜結(jié)構(gòu)域的親水性蛋白質(zhì),N-端存在3β-羥基類固醇脫氫酶/差向異構(gòu)酶/NAD結(jié)合蛋白的結(jié)構(gòu)域,存在9個功能保守區(qū);進化樹表明,該基因可用于植物高等級單元的分類;同源建模表明其三級結(jié)構(gòu)穩(wěn)定,建模結(jié)果可靠;CCR蛋白亞細胞定位于細胞質(zhì)、葉綠體和內(nèi)質(zhì)網(wǎng),除黑麥草和番茄外,同一物種CCR不同成員的亞細胞定位基本相同。
關(guān)鍵詞 CCR;木質(zhì)素;羥基肉桂酰輔酶 A 還原酶;生物信息學(xué)
中圖分類號 S188 文獻標識碼 A 文章編號 0517-6611(2014)26-08894-06
Bioinformatics Analysis of CCR Enzyme in Plant
WANG Qing-dong, LIAN Zheng-han et al
(School of Life Sciences, Zhengzhou University, Zhengzhou, Henan 450001)
Abstract In order to fully understand the characteristics of the CCR enzyme, 68 CCR genes were obtained from NCBI GenBank database. Bioinformatics methods were used to analyze the physics and chemical characteristics, amino acid composition, conserved domains. The leader peptide, signal peptide, transmembrane domain and hydrophilicity of peptide of CCR protein were analyzed likewise. The phylogenetic tree were constructed and analyzed as well as 3-dimensional structure. The results showed that GC content in monocotyledon was higher than dicotyledon or gymnosperm. There were nine conserved domains in the all CCR proteins and they had a highly similarity. The physics and chemical characteristics of CCR proteins were similar, but the kinds and content of primary amino acid were different. And neither the obvious leader or signal peptide nor the transmembrane domain were detected. The data showed that CCR protein was hydrophilicity protein and one 3beta_HSD/Epimerase/NAD_binding_4 domain were existed in the N-terminus. The phylogenetic tree showed that the CCR gene might be used to treat taxa at higher rank in plant. Based on sequence conservation and protein-protein interaction, subcellular localization prediction of protein showed that CCR might mainly be locate in the cytoplasm, followed by the cytoplasm and the endoplasmic reticulum.
Key words CCR; Lignin; Cinnamoyl-CoA reductase; Bioinformatics
木質(zhì)纖維素材料的資源化利用一直是飼料、能源和造紙等領(lǐng)域的研究熱點[1]。木質(zhì)素是植物細胞壁的第二大組成部分,是植物被降解和工業(yè)糖化作用的首要屏障[2]。研究表明,通過對木質(zhì)素合成的遺傳調(diào)控,可有效改善木質(zhì)素的抗降解性,利于生物質(zhì)糖化效率的提高、牧草品質(zhì)的改良和制漿造紙等[1,3]。
木質(zhì)素主要由3種結(jié)構(gòu)單元通過多種鍵型連接而成,但因不同物種木質(zhì)素單體的合成及單體聚合過程復(fù)雜,致使木質(zhì)素的合成途徑至今存在較多的爭議,國內(nèi)外現(xiàn)初步形成一個框架性認識,主要分為3步,依次為:莽草酸途徑、苯丙烷類代謝途徑和木質(zhì)素合成特異途徑,各種結(jié)構(gòu)單元在細胞質(zhì)內(nèi)合成后,轉(zhuǎn)運到木質(zhì)化沉積位點,在細胞壁脫氫聚合成木質(zhì)素[2,4]。羥基肉桂酰輔酶 A 還原酶(Cinnamoyl-CoA Reductase,CCR)是催化木質(zhì)素特異途徑的第一個關(guān)鍵酶[4-5],是調(diào)節(jié)木質(zhì)素單體生物合成的一個重要控制點[5]。研究表明,除水稻CCR基因可能是單拷貝外,大部分植物中的CCR基因是多拷貝的,要同時調(diào)控該基因的多個成員或者針對性調(diào)控某一重要成員,須要對其DNA序列和可能編碼蛋白的結(jié)構(gòu)等特征進行分析[6]。而生物信息學(xué)在分析序列和預(yù)測基因功能等方面具有獨特的優(yōu)勢[7],為此,筆者運用相關(guān)的專業(yè)軟件分析了GenBank數(shù)據(jù)庫目前公布的全部CCR蛋白及其編碼序列,涵蓋蕨類植物、裸子植物、單子葉和雙子葉植物等物種,旨在全面了解它們的基本特征,為進一步利用轉(zhuǎn)錄因子或多基因調(diào)控策略針對性遺傳改良植物奠定基礎(chǔ)。
1 材料與方法
1.1 材料
數(shù)據(jù)來源于NCBI數(shù)據(jù)庫,包括蕨類植物、裸子植物、單子葉植物及雙子葉植物共計48個物種68條CCR基因的核酸及其編碼的氨基酸序列(表1)。
1.2 方法
用DNAman和ORF Finder分析CCR基因的cDNA序列,用ClustalX2和Mega5.1構(gòu)建系統(tǒng)發(fā)育樹;基于NCBI Conserved Domains數(shù)據(jù)庫,分析氨基酸序列的保守區(qū);并分別用ExPASyProtParam、SMART、TargetP 1.1Server、SignalP 4.1 Server、TMHMM Server v.2.0、ExPASyProtScale、NetPhos 2.0Server、Wolf Psort Prediction及Cn3D對CCR基因編碼的氨基酸平均含量、理化性質(zhì)、CCR蛋白結(jié)構(gòu)域、PSORT Prediction導(dǎo)肽、信號肽、跨膜結(jié)構(gòu)域、親/疏水性、翻譯后修飾及活性位點、真核蛋白亞細胞定位和NADP及底物的結(jié)合位點進行預(yù)測和分析;最后,用Swiss-Model對CCR三級結(jié)構(gòu)同源建模,并對建模結(jié)構(gòu)進行處理。
2 結(jié)果與分析
2.1 CCR基因cDNA序列分析
2.1.1 GC含量。利用DNAman軟件及ORF Finder對CCR基因序列進行分析,結(jié)果見表2。由表2可知,單子葉植物GC含量明顯高于雙子葉植物、裸子植物及蕨類植物,其中象草和毛花雀稗的GC含量最高,超過70%,而雙子葉植物中苜蓿的GC含量最低,為41.2%。植物中該基因的編碼區(qū)長度為951~1 119 bp,相同物種中不同拷貝類型的CCR基因
2.2 CCR氨基酸的理化性質(zhì)及主要氨基酸種類分析
用ExPASyProtParam(http://web.expasy.org/protparam/)對CCR基因編碼的氨基酸序列進行分析[8],發(fā)現(xiàn)不同植物CCR氨基酸序列基本一致,除水稻和亞麻CCR為不穩(wěn)定性蛋白外(Unstable coefficient >40),其他植物的CCR均為穩(wěn)定性蛋白。氨基酸組成分析表明,48個物種的CCR中含量最高的3種氨基酸均為Ala、Leu、Val;但不同科屬中3種氨基酸所占比例略有不同,單子葉植物為Val(12.14%)>Ala(12.08%)>Leu(8.36%)>Asp(6.52%)>Gly(6.49%);雙子葉植物中Val(9.99%)>Leu(9.52%)>Ala(8.60%)>Lys(7.52%)>Glu(6.49%);裸子植物中Val(9.99%)>Leu(9.60%)> Ala(8.54%)>Lys(7.31%)>Gly(6.60%);而蕨類植物中Val(10.73%)>Ala(9.41%)>Leu(9.05%)>Lys(6.63%)>Glu(6.28%)。此外,在48個物種中所有的CCR均為親水性蛋白質(zhì),等電點介于5.44~8.68,其中高于7.0的有6種,介于6.0~7.0的44種,低于6.0的有18種。
2.3 氨基酸序列保守區(qū)分析 采用ClustalX(v2.1)對CCR基因編碼的氨基酸序列的保守區(qū)進行分析,由N末端到C末端依次可得到9個保守區(qū)域:VCVTGAGGFFASWLVKLLL;GYTVKGTVRNPDD;GCDGVFHTASPVT;VRRVVFTSSIGAVYMDPN;CWSDLDFCKNTKNWYCYGKAVAE;GVDLVVIN PVLVLGPLLQ;KTYANSVQAYVHVKDVALAH;VYESPSASGRYLCAE;ILAKFFPEYPIPTKCSD。用NCBI的Conserved domains數(shù)據(jù)庫對9個保守區(qū)進一步分析[9],發(fā)現(xiàn)9個保守區(qū)共同構(gòu)成NADB_Rossmann superfamily,其功能為Rossmann-fold NAD(P)(+)- binding proteins,在反應(yīng)中起結(jié)合底物和催化作用。
2.4 CCR蛋白結(jié)構(gòu)及功能分析
2.4.1 CCR蛋白導(dǎo)肽預(yù)測。
導(dǎo)肽是新生肽鏈N-端的一段氨基酸序列,對于蛋白質(zhì)的亞細胞定位具有重要作用。利用TargetP 1.1Server對CCR基因編碼的氨基酸進行預(yù)測和分析,發(fā)現(xiàn)68條序列中有5條(NP_001280189,CAA13176,NP_001105488,ACD13265,XP_002889086)可能存在信號肽,信號肽預(yù)測置信等級較高,有待進一步分析,剩余序列中只有銀合歡CCR蛋白可能含有葉綠體轉(zhuǎn)運肽,長度為22個氨基酸,其他62條CCR蛋白預(yù)測結(jié)果分值均較低,不含葉綠體轉(zhuǎn)運肽及線粒體靶向肽。
2.4.2 CCR蛋白信號肽的預(yù)測。
信號肽是位于蛋白質(zhì)N-端,指導(dǎo)分泌性蛋白質(zhì)到內(nèi)質(zhì)網(wǎng)等部位合成,在蛋白質(zhì)合成結(jié)束前被切除的一段序列。通常由15~30個氨基酸組成,包括帶正電荷的N-末端,一個中間疏水序列,它是信號肽的主要功能區(qū),以及一個帶負電荷的C-末端。用SignalP 4.1 Server對CCR基因編碼的氨基酸序列進行分析[10],并與TargetP預(yù)測結(jié)果比較,發(fā)現(xiàn)CCR蛋白不含信號肽。
2.4.3 CCR蛋白跨膜結(jié)構(gòu)域的預(yù)測及分析。
蛋白質(zhì)在質(zhì)膜上發(fā)揮作用時,根據(jù)親/疏水性氨基酸的數(shù)目和分布情況,可以對蛋白質(zhì)的跨膜結(jié)構(gòu)域進行預(yù)測。用TMHMM Server(v.2.0)對CCR跨膜結(jié)構(gòu)域的預(yù)測表明(圖2),僅光皮樺CCR蛋白(BlCCR)和丹參CCR蛋白(SmCCR2)存在跨膜區(qū),其他66條CCR蛋白不存在跨膜區(qū)。
2.4.4 CCR蛋白亞細胞定位預(yù)測與分析。
用Wolf Psort Prediction的最鄰近節(jié)點算法(k值為14)對CCR的氨基酸序列進行亞細胞定位預(yù)測[11]。根據(jù)預(yù)測結(jié)果,不同物種中CCR蛋白的定位有所不同,在細胞膜、葉綠體、線粒體、細胞核、微體中均有分布的可能。68個CCR蛋白最可能的分布情況:62%定位于細胞質(zhì),21%定位在葉綠體,剩余7%則定位于內(nèi)質(zhì)網(wǎng)。同一物種CCR蛋白不同成員的亞細胞定位基本相同,只有黑麥草和番茄中不同成員的亞細胞定位存在較大差異(表3)。此外,銀合歡的CCR蛋白因明顯具有葉綠體轉(zhuǎn)運肽的特征,其定位于葉綠體的可能性最大(表3)。
2.4.5 CCR蛋白親/疏水性的預(yù)測及分析。
用ExPASyProtScale預(yù)測CCR蛋白的親/疏水性特征,結(jié)果表明,多肽鏈中,親水性氨基酸與疏水性氨基酸均勻分布,且親水性氨基酸的總數(shù)高于疏水性氨基酸,推測CCR蛋白可能為親水性蛋白質(zhì),預(yù)測結(jié)果與“2.2”氨基酸理化性質(zhì)分析結(jié)果一致。
2.4.6 CCR蛋白翻譯后修飾預(yù)測。
多肽鏈合成后,一般需經(jīng)過磷酸化、糖基化或甲基化等修飾后,才能完成正確折疊,形成有效的三維結(jié)構(gòu),發(fā)揮特定功能。用NetPhos 2.0 Server對68條序列進行翻譯后修飾預(yù)測[12](圖3),發(fā)現(xiàn)不同物種的磷酸化修飾氨基酸的數(shù)目不同,總數(shù)15~18個,其中裸子植物磷酸化氨基酸數(shù)目較被子植物少。α-N-末端乙?;揎検且环N蛋白質(zhì)的共翻譯修飾,當新生肽鏈從核糖體中露出25~50個氨基酸殘基,即肽鏈與核糖體結(jié)合時發(fā)生修飾,作為翻譯后的修飾作用并不多見。用NetAcet 1.0 Server對蛋白質(zhì)序列乙?;揎椀姆治鼋Y(jié)果表明,泡桐PsCCR、藍莓VcCCR、油茶CoCCR、梅花PmCCR1、馬鈴薯StCCR、水稻OsCCR、玉米ZmCCR2和番茄LeCCR2可能存在α-N-末端乙?;揎?,其他蛋白均不發(fā)生乙?;揎?。此外,CCR蛋白不含信號肽(見“2.4.2”),可能在胞內(nèi)發(fā)揮生物學(xué)功能,發(fā)生糖基化修飾的幾率很高。O-GlcNAc糖基化修飾作為一種特殊的蛋白質(zhì)翻譯后修飾形式,動態(tài)調(diào)節(jié)細胞信號傳導(dǎo)途徑中很多酶的功能,并與磷酸化修飾有關(guān)聯(lián)。用YinOYang 1.2 Server對N-乙酰葡萄糖(O-β-GlcNAc)修飾位點進行分析,發(fā)現(xiàn)單子葉植物中發(fā)生糖基化修飾的位點明顯多于其他科植物;而同一物種不同類型的成員發(fā)生糖基化修飾的數(shù)目接近。Ser和Thr可能既發(fā)生糖基化修飾又發(fā)生磷酸化修飾,而細胞中此類氨基酸殘基位點發(fā)生磷酸化和糖基化修飾的特征是動態(tài)可逆的(Yin-Yang位點)。
2.4.7 CCR二級結(jié)構(gòu)特征預(yù)測。
蛋白質(zhì)分子三維結(jié)構(gòu)是由二級結(jié)構(gòu)組裝而成,二級結(jié)構(gòu)的種類(主要包括α-螺旋,β-折疊,β-轉(zhuǎn)角和不規(guī)則卷曲等)(圖4)和組成的空間結(jié)構(gòu)方式有限,對二級結(jié)構(gòu)的預(yù)測成為基于蛋白質(zhì)一級結(jié)構(gòu)預(yù)測其空間結(jié)構(gòu)的關(guān)鍵步驟。用SOPMA對68條氨基酸序列進行分析,發(fā)現(xiàn)不同物種中α-螺旋、延伸鏈、不規(guī)則卷曲和β-轉(zhuǎn)角的具體含量僅存在微小差異,未發(fā)現(xiàn)CCR蛋白含有β-折疊。CCR蛋白二級結(jié)構(gòu)種類中,α-螺旋(42.80%)與不規(guī)則卷曲(36.18%)含量較高,延伸鏈(14.20%)和β-轉(zhuǎn)角(6.83%)含量稍低。而不同物種CCR 4種二級結(jié)構(gòu)的含量不同,單子葉與裸子植物中的α-螺旋含量明顯高于雙子葉和蕨類植物,但不規(guī)則卷曲、β-轉(zhuǎn)角及延伸鏈的含量差異不大。
2.4.8 CCR蛋白結(jié)構(gòu)域的預(yù)測及分析。
結(jié)構(gòu)域分析用Conserved Domain database數(shù)據(jù)庫,相匹配的結(jié)構(gòu)域模型為FR_SDR_e[10]。用SMART分析CCR的氨基酸序列,表明其N-末端可能存在3β-羥基類固醇脫氫酶/差向異構(gòu)酶/NAD結(jié)合蛋白的結(jié)構(gòu)域。每一種酶所具有的獨特催化能力是由其特殊部位的結(jié)構(gòu)所決定的,通常,少數(shù)的氨基酸構(gòu)成底物結(jié)合位點,參與催化反應(yīng)。分析擬南芥CCR1和CCR2的活性位點:A(103/98),S(127/122),Y(161/156),K(165/160),發(fā)現(xiàn)CCR1和CCR2活性位點編號雖然不同,但氨基酸相同;同樣的現(xiàn)象也出現(xiàn)在NADP 結(jié)合位點和底物結(jié)合位點上,NADP結(jié)合位點:G(17/12),G(19/14),G(20/15),Y(21/16),I(22/17),V(41/36)R(42/37),A(67/62),D(68/63),L(69/64),T(88/83),A(89/84),S(90/94),P(91/86),M(92/87),T(125/120),S(126/121),Y(161/156),K(165/160),P(188/183),V(189/184),L(190/185),V(191/186),S(203/198);底物結(jié)合位點:M(92/87),D(94/89),S(127/122),I(128/123),G(129/124),Y(130/125),Y(161/126),P(188/183),V(189/184),L(190/185),S(203/198),H(206/201),N(220/215),V(224/219),F(xiàn)(290/285)。進一步比較CCR1和CCR2的全長氨基酸序列,發(fā)現(xiàn)CCR2蛋白的5′-端比CCR1少一段由5個氨基酸(VASPA)組成的序列,而兩者的中部核心區(qū)段存在較高的相似性,約為86.60%。
2.4.9 CCR三級結(jié)構(gòu)預(yù)測和分析。
蛋白質(zhì)只有折疊成正確的三級結(jié)構(gòu)才能有效行使其生物學(xué)功能,對蛋白質(zhì)三維結(jié)構(gòu)的分析有助于進一步理解結(jié)構(gòu)和功能的關(guān)系。目前,對蛋白質(zhì)三維結(jié)構(gòu)的分析主要依賴于X-ray和NMR(核磁共振)等技術(shù),應(yīng)用X射線晶體衍射能較快地測得晶體完整性的大量信息且不損傷樣品,無污染,但許多蛋白質(zhì)很難結(jié)晶或很難獲得足夠大的可供分析的晶體,使得其應(yīng)用大受限制;而NMR技術(shù)的應(yīng)用克服了結(jié)晶的限制并可對溶液中的蛋白質(zhì)進行檢測,但受研究對象的相對分子質(zhì)量等因素限制;而用生物信息學(xué)的方法可以很方便地預(yù)測蛋白質(zhì)的三級結(jié)構(gòu),其結(jié)果和用物理方法檢測的結(jié)果有很高的一致性。該研究用Swiss-Model對植物CCR進行同源建模,并處理建模結(jié)構(gòu)[13](圖5、6)。
結(jié)果表明,CCR蛋白以α-螺旋和無規(guī)則卷曲為主要結(jié)構(gòu)元件,延伸鏈分布于整條肽鏈之中。構(gòu)建的擬南芥CCR1蛋白3D模型顯示,NADP結(jié)合位點、底物結(jié)合位點、活性位點構(gòu)成一個腔狀結(jié)構(gòu),可與反應(yīng)物特異性結(jié)合,其中161號位Tyr是三者的共用殘基(青色標識)。
3 討論
阻礙木質(zhì)纖維素乙醇發(fā)酵大規(guī)模生產(chǎn)有2個主要因素:一是前期預(yù)處理的投入較大和由此帶來的環(huán)境污染問題,二是纖維素復(fù)合酶的過高價格增加了生產(chǎn)成本。預(yù)處理的目的主要是為了解除木質(zhì)素與半纖維素對纖維素的束縛,使得纖維素水解酶更有效地與纖維素接觸[1-4]。目前,實現(xiàn)這一目標的有效措施之一是利用基因工程技術(shù)調(diào)控植物的木質(zhì)素代謝途徑,現(xiàn)已取得一些可喜的進展,但就工業(yè)化應(yīng)用而言,這些研究尚未取得突破性進展,仍處于探索階段[14-15]。因此,運用生物信息學(xué)和分子生物學(xué)等方法和技術(shù),分析植物木質(zhì)素代謝調(diào)控系統(tǒng)涉及的關(guān)鍵酶和轉(zhuǎn)錄因子的基因序列、氨基酸序列和所編碼蛋白質(zhì)的結(jié)構(gòu)功能域特點以及它們相互之間的化學(xué)鍵連接類型和特征等,可為進一步改變高等植物的木質(zhì)纖維素組分和結(jié)構(gòu),遺傳改良木質(zhì)纖維素材料的可降解性提供指導(dǎo)。
高等植物功能基因常具有多拷貝的特征,其編碼蛋白的不同成員間常存在特定的功能分化,利用基因調(diào)控針對性遺傳改良植物的前提是對功能基因及其編碼的蛋白質(zhì)等進行分析[14],在此領(lǐng)域,生物信息學(xué)具有一些不可比擬的優(yōu)點,合理運用生物信息學(xué)技術(shù),可有效輔助實驗生物學(xué)進行相關(guān)研究。
參考文獻
[1] TANG W,TANG A Y.Transgenic woody plants for biofuel[J].J For Res,2014,25(2):225-236.
[2] 蔣挺大.木質(zhì)素[M].2版 北京:化學(xué)工業(yè)出版社,2009.
[3] HIMMEL M E.生物質(zhì)抗降解屏障-解構(gòu)植物細胞壁產(chǎn)生物能 [M].王祿山,張正,等,譯.北京:化學(xué)工業(yè)出版社,2010.
[4] SIMMONS B A,DOMINIQUE LOQUE,JOHN RALPH.Advances in modifying lignin for enhanced biofuel production[J].Curr Opin Plant Biol,2010,13:1-8.
[5] LACOMBE E,HAWKINS S,VAN DOORSSELAERE J,et al.Cinnamoyl CoA Reductase,the first committed enzyme of the lignin branch biosynthetic pathway:cloning,expression and phylogenetic relationships[J].Plant J,1997,11(3):429-441.
[6] LI L,CHENG X,LU S,et al.Clarification of cinnamoyl co-enzyme A reductase catalysis in monolignol biosynthesis of Aspen[J].Plant Cell Physiol,2005,46(7):1073-1082.
[7] 萬晶,馮沛春,王萬軍.細胞周期蛋白家族的生物信息學(xué)分析[J].安徽農(nóng)業(yè)科學(xué),2012,40(30):14668-14672.
[8] GASTEIGER E,HOOGLAND C,GATTIKER A,et al.Protein Identification and Analysis Tools on the ExPASy Server[M]//WALKER J M.The Proteomics Protocols Handbook.NJ,USA:Humana Press,2005:571-607.
[9] MARCHLER-BAUER A.CDD:a Conserved Domain Database for the functional annotation of proteins[J].Nucleic Acids Res,2011,39:225-229.
[10] PETERSEN T N,BRUNAK S,VON HEIJNE G,et al.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nat Methods,2011,8:785-786.
[11] HORTON P,PARK K J,OBAYASHI T,et al.WoLF PSORT:Protein Localization Predictor[J].Nucleic Acids Research,2007,35:585-587.
[12] BLOM N,GAMMELTOFT S,BRUNAK S.Sequence and structure based prediction of eukaryotic protein phosphorylation sites[J].J Mol Biol,1999,294(5):1351-1362.
[13] ARNOLD K,BORDOLI L,KOPP J,et al.The SWISS-MODEL Workspace:A web-based environment for protein structure homology modelling[J].Bioinformatics,2006,22:195-201.
[14] 王關(guān)林,方宏筠.植物基因工程[M].2版.北京:科學(xué)出版社,2002.
[15] 張麗,胡尚連,曹穎,等.植物木質(zhì)素生物合成轉(zhuǎn)錄因子及調(diào)控遺傳網(wǎng)絡(luò)分析[J].福建林業(yè)科技,2013,40(3):1-5.