王麗珊
?
玉米基因家族的鑒定和生物信息學(xué)分析
王麗珊
(閩西職業(yè)技術(shù)學(xué)院 醫(yī)學(xué)護(hù)理學(xué)院,福建 龍巖 364021)
旨在為今后研究單子葉植物基因家族進(jìn)化和功能奠定基礎(chǔ)。運用生物信息學(xué)方法從玉米基因組數(shù)據(jù)中鑒定出27個基因,分析其系統(tǒng)進(jìn)化、基因結(jié)構(gòu)和蛋白質(zhì)結(jié)構(gòu)。結(jié)果表明,27個屬于糖苷水解酶家族9,分為3個亞家族(GH9A、GH9B、GH9C),GH9B是進(jìn)化的祖先。均有保守GH9催化結(jié)構(gòu)域,GH9A有跨膜結(jié)構(gòu)域和胞質(zhì)結(jié)構(gòu)域,GH9B有信號肽,GH9C有跨膜結(jié)構(gòu)域、纖維素結(jié)合結(jié)構(gòu)域和信號肽;為兩性穩(wěn)定蛋白,二級結(jié)構(gòu)主要是無規(guī)則卷曲和α-螺旋。亞細(xì)胞定位于細(xì)胞膜或細(xì)胞壁,大部分是分泌蛋白,有1個跨膜螺旋。
玉米;纖維素酶基因;GH9家族;生物信息學(xué)
玉米是世界重要的飼料和工業(yè)原料,是中國第二大糧食作物。玉米秸稈又是全球數(shù)量最多的木質(zhì)纖維素生物質(zhì)原料之一。纖維素的酶解是將生物質(zhì)原料轉(zhuǎn)化為乙醇的一條高效的、無污染的關(guān)鍵途徑。植物合成的纖維素酶(),也稱為內(nèi)切-1,4-β-葡聚糖酶(endo-1,4-β-D-glucanases,EGases,EC 3.2.1.4),屬于糖苷水解酶家族9(glycoside hydrolase family 9,GH9),在纖維素的合成和分解過程中具有重要作用。研究玉米纖維素酶對世界糧食短缺、秸稈資源開發(fā)、環(huán)境污染等問題具有重要意義。
目前,已報道多種植物基因的研究,但對單子葉植物玉米基因家族的生物信息學(xué)分析報道較少。本研究在玉米基因組測序已經(jīng)完成的基礎(chǔ)上,利用生物信息學(xué)的方法,對玉米基因家族的系統(tǒng)發(fā)育進(jìn)化、基因結(jié)構(gòu)、蛋白質(zhì)的一級結(jié)構(gòu)、二級結(jié)構(gòu)、跨膜結(jié)構(gòu)、信號肽(signal peptide,SP)、亞細(xì)胞定位、結(jié)構(gòu)域、保守基序和三級結(jié)構(gòu)進(jìn)行預(yù)測和分析,為將來深入探究單子葉植物酶解秸稈資源的途徑和基因家族多樣性的功能奠定一些理論基礎(chǔ)。
本研究玉米、擬南芥和水稻基因家族成員的核苷酸序列和編碼的氨基酸序列等數(shù)據(jù)來源于植物信息資源網(wǎng)Phytozome、擬南芥數(shù)據(jù)庫TAIR、水稻數(shù)據(jù)庫RAP、碳水化合物活性酶數(shù)據(jù)庫CAZY、美國國立生物信息中心NCBI。
1.2.1玉米基因家族成員的鑒定和基因結(jié)構(gòu)分析
首先以“纖維素酶”或“內(nèi)切-1,4-β-葡聚糖酶”為關(guān)鍵詞,物種選擇玉米(18),在Phytozome上搜索;其次,以水稻氨基酸序列為檢索序列,利用BLAST進(jìn)行同源搜索,獲得核苷酸序列和編碼的氨基酸序列。去除氨基酸同源性小于35%、氨基酸個數(shù)少于50、重復(fù)的序列。利用在線分析系統(tǒng)SMART、Pfam、CDD預(yù)測獲得的氨基酸序列的結(jié)構(gòu)域,具有GH9家族催化結(jié)構(gòu)域(catalytic domain, CD)的氨基酸序列則屬于。利用在線基因結(jié)構(gòu)顯示系統(tǒng)GSDS 2.0預(yù)測和分析玉米基因家族成員的染色體位置、內(nèi)含子和外顯子數(shù)量、基因結(jié)構(gòu)。
1.2.2玉米基因家族成員系統(tǒng)進(jìn)化樹構(gòu)建和分類
利用軟件BioEdit、Clustal W和MEGA7.0,運用鄰接法(NJ method),校驗參數(shù)為Bootstrap 1 000次重復(fù),其它參數(shù)為默認(rèn)值,對玉米、水稻和擬南芥基因家族成員的氨基酸序列進(jìn)行多重比對,聚類分析,構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹。利用在線分析系統(tǒng)SMART、Pfam、CDD等預(yù)測和分析玉米基因家族成員的蛋白質(zhì)序列的保守功能域,再與水稻同源比對后進(jìn)行分類和命名。
1.2.3玉米基因家族成員蛋白質(zhì)的一級、二級和三級結(jié)構(gòu)特性分析
利用在線分析系統(tǒng)Protscale、Protparam預(yù)測和分析玉米基因家族成員的蛋白質(zhì)的理化性質(zhì)(氨基酸個數(shù)、蛋白質(zhì)分子量、理論等電點(PI)、蛋白質(zhì)穩(wěn)定性、親/疏水性等)。利用在線分析系統(tǒng)Sopma預(yù)測和分析玉米基因家族成員的蛋白質(zhì)的二級結(jié)構(gòu),如α-螺旋、β-轉(zhuǎn)角、延伸鏈(反向平行的β-折疊片)和無規(guī)則卷曲等。利用在線分析系統(tǒng)Swiss-Model對玉米基因家族成員的蛋白質(zhì)進(jìn)行同源建模。模板選擇與目標(biāo)序列相似度大于30%的序列。再利用Swiss-PdbViever分析建模的結(jié)果,構(gòu)建拉氏圖,圖中二面角位于允許區(qū)和最大允許區(qū)的比例大于90%,表明建模的結(jié)果是合理的。
1.2.4玉米基因家族成員蛋白質(zhì)的跨膜結(jié)構(gòu)、信號肽及亞細(xì)胞定位分析
利用在線分析系統(tǒng)TMHMM、Signalp、Plant-PLo預(yù)測和分析玉米基因家族成員的蛋白質(zhì)的SP、跨膜結(jié)構(gòu)及亞細(xì)胞定位。
1.2.5玉米基因家族成員蛋白質(zhì)的結(jié)構(gòu)域、保守基序和多序列比對分析
利用在線分析系統(tǒng)SMART、Pfam、CDD、Prosite預(yù)測和分析玉米基因家族成員的蛋白質(zhì)的保守結(jié)構(gòu)域。利用在線分析系統(tǒng)MEME預(yù)測和分析玉米基因家族成員的蛋白質(zhì)的保守基序。設(shè)置最大基序檢索值為25。利用Clustal W對玉米基因家族成員的氨基酸序列比對分析。
從玉米全基因組數(shù)據(jù)中鑒定出27個基因家族成員。Urbanowicz依據(jù)結(jié)構(gòu)域的不同,將GH9家族分為3個亞家族:GH9A、GH9B、GH9C[1]。GH9A成員的蛋白質(zhì)C端具有CD,N端具有胞質(zhì)結(jié)構(gòu)域(cytosolic domain,CT)和跨膜結(jié)構(gòu)域(transmembrane domain,TM);GH9B成員的蛋白質(zhì)C端具有CD,N端具有SP;GH9C成員的蛋白質(zhì)C端具有纖維素結(jié)合結(jié)構(gòu)域(Carbohydrate binding module,CBM)和連接肽,N端具有SP和CD。參照此分類方法,對玉米基因家族成員進(jìn)行分類和命名(表1)。玉米GH9A有5個成員,GH9B有19個成員,GH9C有3個成員。
系統(tǒng)進(jìn)化樹(圖1)分析顯示,單子葉植物和雙子葉植物相互交叉,沒有單獨聚類形成分支,玉米與水稻常聚成一支,3個亞家族沒有顯著地分為3大支。GH9B既能與GH9A聚成一支,又能與GH9C聚成一支?;蚣易宄蓡T中出現(xiàn)許多的旁系同源蛋白,其中GH9B的旁系同源蛋白數(shù)量明顯最多。
基因結(jié)構(gòu)(表1和圖2)分析顯示,27個基因在染色體上分布不均勻。第5號染色體上分布最多(10個)?;蜷L度在1.5~13.0 kb,基因轉(zhuǎn)錄產(chǎn)物長度在0.6~3.0 kb,編碼基因長度在0.5~2.9 kb,編碼的肽鏈長度約為166~956個氨基酸。基因結(jié)構(gòu)差異較大,具有多樣性特征。除93沒有內(nèi)含子和916有9個內(nèi)含子外,大部分含有2~5個內(nèi)含子(85%)。GH9A和GH9C成員的內(nèi)含子數(shù)量多于GH9B成員。GH9A成員中,除94和95外,其余基因結(jié)構(gòu)相似,推測94和95發(fā)生了內(nèi)含子丟失[2,3]。GH9B成員基因結(jié)構(gòu)具有顯著的多樣性。GH9C中,除93外,其余基因結(jié)構(gòu)相似,推測93發(fā)生了內(nèi)含子丟失。
表1 玉米纖維素酶基因家族成員信息
(注:GH9:糖苷水解酶9家族催化結(jié)構(gòu)域;TM: 跨膜結(jié)構(gòu)域;CT: 胞質(zhì)結(jié)構(gòu)域;CBM: 纖維素結(jié)合結(jié)構(gòu)域;)
蛋白質(zhì)結(jié)構(gòu)(表1)分析顯示,Cel蛋白質(zhì)分子量在20.2~76.6 kDa之間。PI大小不等,最高為9.33(92),最低為5.17(913)。根據(jù)不穩(wěn)定系數(shù)大于40為不穩(wěn)定蛋白,除91、93、915,3個成員為不穩(wěn)定蛋白,其余均為穩(wěn)定蛋白(89%)。根據(jù)親水性指數(shù)介于-0.5~0.5為兩性蛋白的原則,Cel蛋白質(zhì)均為兩性蛋白。Cel蛋白質(zhì)二級結(jié)構(gòu)相似,主要結(jié)構(gòu)元件是無規(guī)則卷曲和α-螺旋,特征為無規(guī)則卷曲>α-螺旋>延伸鏈>β-轉(zhuǎn)角。
蛋白質(zhì)跨膜螺旋(transmembrane helix)、SP和亞細(xì)胞定位分析(表1)顯示,GH9A和GH9C成員均具有1個跨膜螺旋(93除外);GH9B大部分成員不具有跨膜螺旋(58%)。GH9A成員均不具有SP;GH9B大部分成員具有SP(68%);GH9C成員均具有SP。15個Cel蛋白質(zhì)亞細(xì)胞定位于細(xì)胞膜(56%);11個定位于細(xì)胞膜或細(xì)胞壁(41%);1個定位于細(xì)胞壁(3%)。
蛋白質(zhì)結(jié)構(gòu)域(表1)分析顯示,Cel蛋白質(zhì)均含有CD,大部分成員在CD內(nèi)有1個DAGD氨基酸模塊(78%),其中918沒有DAGD氨基酸模塊,95為DGGD氨基酸模塊,98、910為GAMD氨基酸模塊,99為GAK氨基酸模塊,91為DSGD氨基酸模塊。GH9A成員蛋白質(zhì)N端均不具有SP,但均有TM(位于72~96氨基酸殘基片段上);C端有脯氨酸富集區(qū)域(最后16個氨基酸中有8-10個脯氨酸)。GH9B,只有少部分成員具有TM,且位置不一樣。GH9C成員蛋白質(zhì)N端均有SP和TM(位于2~35的氨基酸殘基片段上,93除外);C端均有CBM。GH9家族具有2個催化活性位點特征(active sites signature)。其中91~2、4~5、1~2、95~8、910,11個成員同時有催化活性位點特征1和2(41%)。93、96-7、911~14、95、91,9個成員具有RGD氨基酸模塊(33%),該模塊與細(xì)胞附著有關(guān)[4,5]。
蛋白質(zhì)保守基序分析(圖3),共鑒定出25個保守基序(motif 1~25),這些保守基序組成模式具有多樣性和復(fù)雜性的特征。其中最大基序長度為50個氨基酸,最小基序僅為8個氨基酸。motif 1~13、motif 15出現(xiàn)在多數(shù)基因成員中,且出現(xiàn)在CD內(nèi)。GH9A成員具有特有基序motif14、motif17、motif18、motif21、motif22、motif24、motif25;GH9C成員具有特有基序motif23;GH9B具有顯著多樣性的組成模式。motif14、motif17、motif18、motif21、motif22、motif23、motif24、motif25屬于稀少基序,呈現(xiàn)出不同亞家族特異性。
圖1 玉米、擬南芥和水稻Cel基因家族的無根進(jìn)化樹
圖3 玉米Cel基因家族保守模塊預(yù)測
將結(jié)構(gòu)域與保守基序結(jié)合,并利用SMART和Pfam進(jìn)行功能注釋分析發(fā)現(xiàn):motif 2在微生物有發(fā)現(xiàn),且較保守,一般第1個酪氨酸(tyrosine,Y)被色氨酸(tryptophan,W)取代,其中DAGD氨基酸模塊可能與金屬結(jié)合有關(guān)[6];motif 3和motif 11,只存在于植物的葡聚糖酶中,微生物中沒有[6];motif 7在植物和微生物中均有[6];motif 1和motif 5分別是GH9家族兩個催化活性位點所在區(qū)域,且相對保守;motif 4是RGD氨基酸模塊所在區(qū)域;motif 14是脯氨酸富集區(qū)所在區(qū)域;motif 23是CBM所在區(qū)域;motif 18是CT所在區(qū)域;motif 17、motif 21、motif 22、motif 24、motif 25的功能有待進(jìn)一步研究分析。
將保守結(jié)構(gòu)域(DAGD模塊、催化活性位點特征1和2、脯氨酸富集區(qū)域、CBM、CT)進(jìn)行多序列比對(圖4),發(fā)現(xiàn)序列相對保守區(qū)域與模塊預(yù)測的相對位置基本一致。
本研究挑選3個代表性氨基酸序列(91、91、92)進(jìn)行同源建模(圖5)。拉氏圖顯示,3個模型的二面角位于允許區(qū)和最大允許區(qū)比例均高于90%,說明建模空間構(gòu)象合理。對余下成員進(jìn)行建模,結(jié)果顯示,三級結(jié)構(gòu)非常相似,拉氏圖二面角均大于90%。對比分析,α-螺旋和無規(guī)則卷曲是蛋白的主要結(jié)構(gòu)。
圖5 玉米3個Cel蛋白的三維結(jié)構(gòu)模型和拉氏圖
(注:白色:無規(guī)則卷曲;紫色:α-螺旋;綠色:延伸鏈;)
利用現(xiàn)有的玉米生物信息資源,鑒定出27個基因。從系統(tǒng)進(jìn)化分析,單子葉和雙子葉植物基因家族成員相互交叉,沒有單獨聚類,表明在單雙子葉植物分化前,基因曾發(fā)生過大幅度擴張。玉米和水稻常聚為一支,表明玉米與水稻親緣關(guān)系較近,基因進(jìn)化關(guān)系密切?;蚣易宄蓡T具有較多的旁系同源蛋白,表明在單雙子葉植物分化后,基因家族眾多成員獲得了新功能,或出現(xiàn)假基因。3個亞家族沒有顯著地分為3大支,預(yù)測與糖苷水解酶結(jié)構(gòu)域的保守性有關(guān)。GH9B能與GH9A和GH9C各聚成一支,表明在結(jié)構(gòu)上GH9B與GH9A和GH9C具有相同點(CD, SP),與結(jié)構(gòu)域特征相吻合。
從基因結(jié)構(gòu)分析,玉米基因家族成員在染色體上的分布較散?;騼?nèi)含子數(shù)量0~9個,基因結(jié)構(gòu)差異大,表明基因具有明顯的多樣性特征,具有復(fù)雜的起源和進(jìn)化歷史。GH9A和GH9C成員的內(nèi)含子數(shù)量多于GH9B,表明GH9A和GH9C在進(jìn)化過程中插入不少內(nèi)含子,使其功能更為特化,產(chǎn)生的時間較晚。由此推測,GH9B是GH9A或GH9C的祖先,GH9A或GH9C屬于進(jìn)化過程中較新的亞家族。GH9A和GH9C成員中,基因結(jié)構(gòu)相似,表明在單子葉植物中GH9A和GH9C功能進(jìn)化較保守。94和95是GH9A中較早出現(xiàn)的成員。93是GH9C成員中較早出現(xiàn)的成員。GH9B基因結(jié)構(gòu)差異最大,具有顯著的多樣性特征。
從蛋白質(zhì)結(jié)構(gòu)分析,玉米蛋白質(zhì)分子量相似,PI大小不等,均為兩性蛋白,大部分成員為穩(wěn)定蛋白質(zhì)(74%),二級結(jié)構(gòu)相似,主要結(jié)構(gòu)元件是無規(guī)則卷曲和α-螺旋,特征為無規(guī)則卷曲>α-螺旋>延伸鏈>β-轉(zhuǎn)角。GH9A和GH9C成員均具有1個跨膜螺旋,表明這兩個亞家族成員,需經(jīng)跨膜轉(zhuǎn)運錨定于生物膜,發(fā)揮重要作用。GH9A均不具有信號肽,GH9C均具有信號肽,GH9B大部分成員具有信號肽(68%),表明GH9A成員均為非分泌蛋白,GH9C成員和大部分GH9B成員為分泌蛋白。亞細(xì)胞定位顯示位于細(xì)胞膜或細(xì)胞壁,表明蛋白合成后,需要經(jīng)過轉(zhuǎn)運到達(dá)細(xì)胞膜或細(xì)胞壁發(fā)揮重要作用。
從蛋白質(zhì)結(jié)構(gòu)域和保守基序分析,玉米蛋白質(zhì)的結(jié)構(gòu)域與保守基序位置一致。蛋白質(zhì)均具有CD。大部分Cel蛋白的CD內(nèi)含有1個DAGD氨基酸模塊(78%,motif 2)。大多數(shù)DAGD氨基酸模塊較保守,少數(shù)發(fā)生變異,95為DGGD模塊,98、910為GAMD模塊,99為GAK模塊,91為DSGD模塊。這個位點上的基因突變是否對其功能造成的影響,有待進(jìn)一步研究。GH9A成員蛋白質(zhì)N端有TM和CT(motif 18),C端有脯氨酸富集區(qū)(motif 14)。脯氨酸富集區(qū)與微生物的連接肽結(jié)構(gòu)相似,具有連接不同結(jié)構(gòu)域的作用。GH9C成員蛋白質(zhì)N端均有TM和SP,C端均有CBM(motif 23)。GH9B少部分成員蛋白質(zhì)具有跨膜結(jié)構(gòu)域,且位置不一樣。基因家族部分成員蛋白質(zhì)同時具有催化活性位點特征1和2(41%)。少部分成員具有RGD氨基酸模塊(33%,motif 4),推測該成員的功能與細(xì)胞附著有關(guān),有待進(jìn)一步研究。
GH9A成員具有特有基序motif14、motif17、motif18、motif21、motif22、motif24、motif25;GH9C成員具有特有基序motif23;GH9B具有顯著多樣化的組成模式。motif14、motif17、motif18、motif21、motif22、motif23、motif24、motif25屬于稀少基序,呈現(xiàn)出不同亞家族特異性。表明這些保守基序可能參與亞家族蛋白功能的形成,是決定亞家族功能的關(guān)鍵保守基序。
同源建模獲得玉米蛋白質(zhì)高級結(jié)構(gòu)模型,拉氏圖表明所建模型是合理的。蛋白的主要結(jié)構(gòu)是無規(guī)則卷曲和α-螺旋。
[1] Urbanowicz B R, Bennett A B, Del Campillo E,et al. Structural organization and a standardized nomenclature for plant endo-1,4-beta-glucanases() of glycosyl hydrolase family 9 [J]. Plant Physiology, 2007,144(4):1693-1696.
[2] Lin H, Zhu W, Silva C J, et al. Intron gain and loss in segmentally duplicated genes in rice [J]. Genome Biol, 2006, 7:41-42.
[3] Roy S W, Penny D. Patterns of intron loss and gain in plants: Intron loss-dominated evolution and genomewide comparison of O.sativa and A.thaliana [J]. Mol Biol Evol, 2006, 24:171-181.
[4] D’Souza S, Ginsberg M H, Plow E F. Arginyl-glycyl-aspartic acid (RGD): a cell adhesion motif [J]. Trends Biochem Sci, 1991, 16:246-250.
[5] Ruoslahti E , Pierschbacher M D. Arg-Gly-Asp: A versatile cell recognition signal [J]. Cell, 1986, 44:517-518.
[6] Hayashi T, Yoshida K, Woo P, et al. Cellulose metabolism in plants[J]. International Review of Cytology, 2005, 247:8-20.
Identification and Bioinformatic Analysis ofGene Family in
WANG Li-shan
(Faculty of Nursing, MinXi Vocational and Technial College, Longyan, Fujian, 364000, China)
The article aims to lay the foundation for future studies about phylogenesis and physiological function of the cellulase gene family in monocotyledon. This article adopts bioinformatics methods to identity 27genes from the genome date ofand analyzed their phylogenesis, gene structure, protein structure. The results showed that those 27genes are members of Glycoside hydrolase family 9(GH9), which had been classified into three sub-families(GH9A, GH9B, GH9C). Among those three sub-families, the CH9B sub-family plays an ancestral role in the evolutionary history of GH9. Allgenes have conserved GH9 catalytic domain. Among them, the GH9A sub-family contains the transmembrane domain, and the cytosolic domain; the GH9B sub-family contains the signal peptide; the GH9C sub-family contains the transmembrane domain, the cellulose-binding domain, and the signal peptide. Cels are amphoteric and stable proteins, whose secondary structure are mainly random coil and α-helix and subcellular located in cytomembrane or cytoderm. Most Cels are the secretory protein with one transmembrane helix.
gene(); GH9 family; bioinformatics
2018-10-17
王麗珊(1990—),女,福建龍巖人,助教,碩士,研究方向:生物化學(xué)與分子生物學(xué)。
1673-1417(2018)04-0090-07
10.13908/j.cnki.issn1673-1417.2018.04.0018
S513
A