田亞珍, 武國凡, 秦緒軍, 牛世全, 孔維寶*
(1.西北師范大學(xué) 生命科學(xué)學(xué)院,甘肅 蘭州,730070;2.第四軍醫(yī)大學(xué) 預(yù)防醫(yī)學(xué)院,陜西 西安,710032)
淀粉是高等植物合成的具有重要功能的碳水化合物之一,并且是一種廉價(jià)易得的可再生性資源,已成為很多生產(chǎn)領(lǐng)域的重要原料[1]。淀粉作為植物中能量儲(chǔ)存分子以及許多動(dòng)物基本能量的來源[2],其合成主要發(fā)生在兩個(gè)階段,一是在形成臨時(shí)淀粉的光合作用階段,另一個(gè)則是在成為貯藏淀粉的營養(yǎng)積累階段[3]。淀粉的生物合成包括兩種形式:在光合組織葉綠體中進(jìn)行的瞬時(shí)淀粉合成和在非光合組織造粉體中完成的貯藏淀粉合成,淀粉合成酶是淀粉生物合成途徑中關(guān)鍵的酶[4]。淀粉合成酶(Starch Synthase,SS,EC 2.4.1.21 )是一個(gè)葡萄糖轉(zhuǎn)移酶,主要負(fù)責(zé)延伸直鏈淀粉和直鏈淀粉的葡萄糖鏈,通過轉(zhuǎn)移ADP葡萄糖的糖基到α-1,4葡萄糖的非還原性末端來延長α-1,4葡萄糖多聚體[5],多聚體又作為淀粉分支酶的底物合成支鏈淀粉[6]。生物信息學(xué)是在生命科學(xué)的研究中形成的建立在分子生物學(xué)基礎(chǔ)上的以計(jì)算機(jī)為工具對生物信息進(jìn)行儲(chǔ)存、檢索和分析的新興科學(xué),它以數(shù)學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)為主要手段,對原始序列數(shù)據(jù)進(jìn)行儲(chǔ)存、管理、注釋、加工,通過查詢、搜索、比對分析,從而預(yù)測其分子的結(jié)構(gòu)與功能及其兩者間的相互作用關(guān)系[7]。
作者用生物信息學(xué)的方法對馬鈴薯、紅薯等6種重要農(nóng)作物的SS基因及相應(yīng)的氨基酸序列進(jìn)行比對分析,進(jìn)而對其理化性質(zhì)、二級結(jié)構(gòu)、結(jié)構(gòu)域等進(jìn)行預(yù)測分析,以期為今后開展SS的深入研究和利用提供一定的理論依據(jù)。
馬鈴薯 (Solanum tuberosum)、 紅薯(Impomoea batatas)、 小麥 (Triticum aestivum)、 高粱(Sorghum bicolor)、 南瓜 (Cucurbita moschata) 、 水稻(Oryza sativa)SS mRNA序列和氨基酸序列來源于NCBI的基因數(shù)據(jù)庫,網(wǎng)址見表1[8]。登錄號分別為:X52417.1、U44126.1、D10657.1、U41446.1、JN828808.1和FJ750946.1。
表1 生物信息學(xué)分析數(shù)據(jù)庫和軟件的相關(guān)網(wǎng)址Table 1 Websites of bioinformatics database and software
通過NCBI網(wǎng)站檢索合適的DNA序列,在選擇基因序列的時(shí)候選擇完整的線性序列。利用CpG島分析6種物種的甲基化位點(diǎn);通過DNAstar程序中的EditSeq確定其完整編碼框并預(yù)測蛋白質(zhì)理化性質(zhì);通過ProtScale程序分析蛋白質(zhì)的親水性/疏水性;通過在線工具TMHMM 2.0 Server分析蛋白質(zhì)跨膜結(jié)構(gòu)域;通過PSIPRED網(wǎng)站的在線分析功能完成蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測;利用Smart分析物種的結(jié)構(gòu)域;利用Blast完成核酸及氨基酸序列的同源性比對;利用Mega 6.0構(gòu)建分子進(jìn)化樹。
DNA甲基化是最早發(fā)現(xiàn)的表觀遺傳修飾途徑之一,是指在DNA甲基化轉(zhuǎn)移酶的作用下,將S-腺苷甲硫氨酸提供的甲基基團(tuán)共價(jià)到CpG二核苷酸的胞嘧啶5’碳位上的過程[9]?;騿?dòng)子及其附近區(qū)域內(nèi)CpG甲基化是眾多基因?qū)崿F(xiàn)去表達(dá) (沉默)和基因印記的重要途徑,通過測定啟動(dòng)子CpG島甲基化狀態(tài)了解基因是否去表達(dá),為研究基因表達(dá)提供了DNA水平進(jìn)行的途徑[10]。DNA相關(guān)區(qū)域的每個(gè)CpG位點(diǎn)有特異性的甲基化修飾,導(dǎo)致復(fù)雜的信息類型,形成特異性CpG甲基化譜[11]。CpG島的甲基化是表觀遺傳中基因表達(dá)調(diào)控的重要機(jī)制。通過CpG島分析結(jié)果發(fā)現(xiàn)[12],紅薯、小麥、高粱和水稻都含有甲基化位點(diǎn),馬鈴薯和南瓜不含甲基化位點(diǎn)。紅薯含有3個(gè)甲基化位點(diǎn),小麥含有701個(gè)甲基化位點(diǎn),高粱含有154個(gè)甲基化位點(diǎn),水稻含有1 799個(gè)甲基化位點(diǎn)。
2.2.1 核苷酸及其對應(yīng)的氨基酸序列的組成成分和理化性質(zhì)分析用 DNAstar,ORF Finder和ProtParam分析馬鈴薯、紅薯、小麥、高粱、南瓜、水稻6種植物相關(guān)基因序列,對基因的核苷酸及其對應(yīng)的氨基酸序列的組成成分和理化性質(zhì)進(jìn)行分析,結(jié)果見表2。淀粉合成酶核苷酸序列的全長平均為1 847 bp,開放閱讀框的長度約為877 bp,起始密碼子為ATG,終止密碼子有TAA、TGA、GAC。開放閱讀框所編碼的氨基酸殘基平均數(shù)286;平均相對分子質(zhì)量為31 915.88;平均等電點(diǎn)為 8.264 5;pH為7的中性溶液中平均帶電荷為-0.598 1;平均親水氨基酸 63個(gè),平均疏水氨基酸 102個(gè),預(yù)測SS為疏水性蛋白。
表2 不同植物中SS組成成分及理化性質(zhì)分析Table 2 Composition analysis and physicochemical characteristics of SS in different plants
2.2.2 SS氨基酸疏水性/親水性分析蛋白質(zhì)疏水性/親水性的組成是蛋白質(zhì)折疊的主要驅(qū)動(dòng)力。蛋白質(zhì)折疊會(huì)形成親水內(nèi)核和親水表面,同時(shí)在潛在跨膜區(qū)形成高疏水值區(qū)域,據(jù)此可以推測跨膜二級螺旋等二級結(jié)構(gòu)和蛋白質(zhì)表面氨基酸分布。分析正值越大表示越疏水,負(fù)值越大表示越親水,而介于-0.5~+0.5之間的主要為兩性氨基酸[13]。用ProtScale對馬鈴薯等6種植物淀粉合成酶氨基酸序列進(jìn)行疏水性/親水性預(yù)測,結(jié)果見圖1。預(yù)測結(jié)果表明,馬鈴薯SS多肽鏈中的氨基酸(異亮氨酸,ILE)具有最高的分值(2.111)位于第130、131位,表明該位點(diǎn)的氨基酸疏水性最強(qiáng),而氨基酸(精氨酸,Arg)的分值最低(-0.667)位于第 1145、1146位,表明該位點(diǎn)的氨基酸親水性最強(qiáng)。而就整體來看,疏水性氨基酸多于親水性氨基酸。因此,整個(gè)多肽鏈表現(xiàn)為疏水性,可認(rèn)為馬鈴薯SS是疏水性蛋白。另外對其它5種物種的SS氨基酸序列進(jìn)行疏水性/親水性預(yù)測,結(jié)果表明其均為疏水性蛋白。SS整條鏈表現(xiàn)為疏水性,這與前面的預(yù)測結(jié)果一致,即表明SS為疏水性蛋白。
圖1 馬鈴薯SS疏水性/親水性預(yù)測分析Fig.1 Predictive analysis of hydrophobic/hydrophili of Ipomoea batatas SS
2.2.3 跨膜結(jié)構(gòu)域的預(yù)測和分析跨膜結(jié)構(gòu)域是膜內(nèi)在蛋白和膜脂相結(jié)合的主要部位,它可能作為膜受體起作用,也可能定位于膜的錨定蛋白或者離子通道蛋白等[14]。因而,預(yù)測和分析跨膜結(jié)構(gòu)域?qū)τ诹私獾鞍踪|(zhì)的結(jié)構(gòu)和功能以及在細(xì)胞中的作用部位具有十分重要的意義。使用TMHMM 2.0 Server對馬鈴薯等6種植物的SS氨基酸序列的跨膜結(jié)構(gòu)域進(jìn)行預(yù)測和分析,判定其跨膜結(jié)構(gòu)域,紅薯和水稻的預(yù)測結(jié)果見圖2。紅薯和水稻這兩種SS序列都含有結(jié)構(gòu)域,馬鈴薯、小麥、高粱、南瓜4種均沒有結(jié)構(gòu)域。
2.3.1 蛋白質(zhì)二級結(jié)構(gòu)元件組成蛋白質(zhì)的二級結(jié)構(gòu)指它的多肽主鏈中有規(guī)則重復(fù)的構(gòu)象,蛋白質(zhì)分子的多肽鏈通常折疊和盤曲成比較穩(wěn)定的空間結(jié)構(gòu),以形成特有的生物學(xué)活性和理化性質(zhì)[15]。因此,預(yù)測和分析蛋白質(zhì)的二級結(jié)構(gòu)對了解其功能和空間結(jié)構(gòu)有重要意義。蛋白質(zhì)的二級結(jié)構(gòu)預(yù)測是蛋白質(zhì)結(jié)構(gòu)組學(xué)研究的重點(diǎn)問題之一[16]。
目前預(yù)測二級結(jié)構(gòu)的方法有很多,但是準(zhǔn)確率卻不是很理想。目前的預(yù)測方法中,PSlPRED方法的預(yù)測結(jié)果比較理想,因此采用此方案。常見的二級結(jié)構(gòu)元件主要有α-螺旋、β-轉(zhuǎn)角、β-折疊片、無規(guī)則卷曲和延伸鏈等[17]。表3為PSlPRED法預(yù)測6種植物SS氨基酸的二級結(jié)構(gòu)原件比例,結(jié)果顯示其二級結(jié)構(gòu)以無規(guī)則卷曲和延伸鏈為主要構(gòu)件。圖3高粱SS氨基酸的二級結(jié)構(gòu)為:α-螺旋含有22個(gè),分別在53~64、97~106等區(qū)域其所占蛋白質(zhì)比例為13.33%。 β-折疊片含有 29 個(gè),分別在 5~15、19~23、86~90、116~121、161~162 等區(qū)域,所占蛋白質(zhì)比例17.58%。無規(guī)則卷曲和延伸鏈含有114個(gè),分別在1 ~4、16 ~18、24 ~52、65 ~85、91 ~96、107 ~115、122 ~160、163~165等區(qū)域,所占蛋白質(zhì)比例為69.09%。
表3 SS蛋白二級結(jié)構(gòu)分析Table 3 Analysis of SS protein secondary stucture
圖3 高粱SS二級結(jié)構(gòu)預(yù)測Fig.3 Prediction of secondary structure of Sorghum Bicolor SS
2.3.2 結(jié)構(gòu)域的分析結(jié)構(gòu)域是一種相對獨(dú)立的區(qū)域性的結(jié)構(gòu),是介于二級和三級結(jié)構(gòu)之間的另一種層次結(jié)構(gòu),是蛋白質(zhì)亞基中的緊密球狀結(jié)構(gòu)區(qū)域,在蛋白質(zhì)中起著獨(dú)立的結(jié)構(gòu)單位、功能單位與折疊單位的功能。一個(gè)蛋白質(zhì)可以包含一個(gè)結(jié)構(gòu)域也可以由幾個(gè)結(jié)構(gòu)域構(gòu)成功能單位,通過Smart對6種植物的SS結(jié)構(gòu)域進(jìn)行預(yù)測。對紅薯和水稻SS結(jié)構(gòu)域的預(yù)測結(jié)果見圖4,其中紅色小方塊表示低復(fù)雜度區(qū)域。紅薯SS預(yù)測結(jié)果表明,其低度復(fù)雜區(qū)位于98~115處,長度為17 bp。對水稻SS結(jié)構(gòu)域的預(yù)測結(jié)果表明其含有兩個(gè)低復(fù)雜度區(qū)域,其低復(fù)雜度區(qū)域位于2~14處和99~108處,總長度為21 bp。其余4種植物SS均不含有結(jié)構(gòu)域。
圖4 紅薯和水稻SS的結(jié)構(gòu)域預(yù)測Fig.4 Prediction of structural domain of SS in Impomoea batata and Oryza sativa
序列的相似性與序列的同源性有一定關(guān)系,一般來說,序列間的相似性越高,它們是同源序列的可能性就越高,所以通常通過序列的相似性推測序列是否同源。用Blast程序分別對6種物種的SS核酸(Blastn)及蛋白質(zhì)序列(Blastp)進(jìn)行同源性比對,結(jié)果見表4。表4數(shù)據(jù)顯示,南瓜與高粱的核酸序列同源度分別為74%,其他物種均無同源序列。
表4 6種植物間核酸序列的相關(guān)性比對Table 4 Correlation of nucleotides sequences between six different plants
Blastp比對5種植物蛋白質(zhì)序列的同源性,結(jié)果見表5。水稻與小麥、高粱的同源度分別為86%、87%。南瓜與高粱的同源度分別為82%,高粱與小麥的同源度為64%。
表5 5種植物間蛋白質(zhì)序列的相關(guān)性比對Table 5 Correlation between protein sequences of five different plants
Blastn與Blastp的結(jié)果對比發(fā)現(xiàn),核酸的同源度遠(yuǎn)遠(yuǎn)低于蛋白質(zhì)的同源度,這是因?yàn)槊艽a子的簡并性即由一種以上的密碼子編碼同一個(gè)氨基酸的現(xiàn)象,對應(yīng)于同一氨基酸的密碼子又稱為同義密碼子[18]。Blastp比對結(jié)果顯示:紅薯與歐洲山楊(Populustremula,CAI77773.1)、 抗 寒 性 煙 草(Nicotiana sylvestris,XP009777240.1)、 柑橘(Citrus clementinal,XP 006441435.1)、 葡 萄 (Vitis vinifera,CAN63617.1)、 可 可 (Theobromacacao,XP 0070029360.1)的同源度分別為 37%、33%、36%、32%、32%。 小 麥 與 高 粱 (Sorghum bicolor,KXG39419.1)、 節(jié) 節(jié) 麥 (Aeqilopstauschii,EMT23342.1)、 大 麥 (Hordeumvulqare,AAA32972.1)、 秈 稻 (Oryza sativaindica group,EEC82681.1)、小米(Setaria italica,XP004958680.1)同源度分別為 64%、92%、71%、64%、87%。高粱與玉米 (Zea mays,NP 001149266.1)、 秈 稻 (Oryza sativaindica group,EAZ09149.1)、 小 麥 (Triticum monococcum,AHJ14569.1)、大葉藻(Zostera marina,KMZ64620.1)、葡 萄 (Vitis vinifera,CAN76946.1)的同源度分別 89%、85%、71%、88%、57%。南瓜與西瓜 (Citrullus lanatus,AEV46188.1)、 草莓(Fragaria ananassa,AAT40976.1)、 山 荊 子 (Malus baccata,AED99204.1)、刺梨(Rosa roxburghii,AAT28434.1)、山葡萄(Vitis amurensis,AAR08831.1)的同源度分別為 83%、46%、45%、48%、45%。 水稻與小米(Setaria italica,XP 004977081.1)、 玉 米 (Zea mays,NP 001105759.1)、 小 麥 (Triticumaestivum,CBG91898.1) 、 高 粱 (Sorghumbicolor,XP 002455594.1)、 毛 果 楊 (Populus trichocarpa,XP 002320314.1)的同源度分別為 90%、86%、86%、87%、77%。
用MEGA 6.0[19]軟件分析淀粉合成酶的6個(gè)物種之間的親緣關(guān)系并構(gòu)建進(jìn)化樹,結(jié)果見圖5。結(jié)果顯示,參與分析的6個(gè)物種在進(jìn)化樹上呈現(xiàn)出一個(gè)大的分支:小麥和高梁SS進(jìn)化程度相似,和水稻進(jìn)化程度接近,和南瓜的進(jìn)化相距較遠(yuǎn)。其中南瓜和馬鈴薯、紅薯進(jìn)化程度相近。6個(gè)物種之間呈現(xiàn)明顯的親緣關(guān)系。
圖5 淀粉合成酶進(jìn)化樹分析Fig.5 Phylogenetic tree analysis of SS
紅薯、小麥、高粱和水稻都含有甲基化位點(diǎn),馬鈴薯和南瓜不含甲基化位點(diǎn)。紅薯含有3個(gè)甲基化位點(diǎn),小麥含有701個(gè)甲基化位點(diǎn),高粱含有154個(gè)甲基化位點(diǎn),水稻含有1 799個(gè)甲基化位點(diǎn)。
淀粉合成酶核苷酸序列的全長平均為1 847 bp,開放閱讀框的長度約為877 bp,起始密碼子為ATG,終止密碼子有TAA、TGA、GAC。開放閱讀框所編碼的氨基酸殘基平均數(shù)286,平均相對分子質(zhì)量為31 915.88;平均等電點(diǎn)為 8.264 5,pH為7的中性溶液中平均帶電荷為-0.598 1。平均親水氨基酸63個(gè),平均疏水氨基酸 102個(gè),預(yù)測SS為疏水性蛋白。
淀粉合成酶為疏水性蛋白,小麥和水稻分別存在一個(gè)跨膜結(jié)構(gòu)。6種植物淀粉合成酶的二級結(jié)構(gòu)表明,其二級結(jié)構(gòu)以無規(guī)則卷曲和延伸鏈為主要構(gòu)件。Blastn比對6種物種的同源性,結(jié)果表明,南瓜與高粱的同源度分別為74%,其他物種均無同源序列。Blastp比對5種植物蛋白質(zhì)的同源性表明,水稻與小麥、高粱的同源度分別為86%、87%。南瓜與高粱的同源度分別為82%,高粱與小麥的同源度為64%。通過進(jìn)化樹分析淀粉合成酶顯示,小麥和高梁進(jìn)化程度相似,和南瓜的進(jìn)化相距較遠(yuǎn)。這可能與淀粉合成酶在不同物種上進(jìn)化程度有關(guān)。