楊少斌 馮婧文 趙文鋮 王兆松 許世磊
摘要:斑馬魚TATA結(jié)合蛋白(TBP)是轉(zhuǎn)錄過程中的重要起始因子。利用生物信息學方法對斑馬魚TBP的理化性質(zhì)、物種間同源性、保守結(jié)構(gòu)域、跨膜區(qū)、親水性/疏水性,蛋白質(zhì)二級結(jié)構(gòu)、蛋白質(zhì)三級結(jié)構(gòu)、蛋白質(zhì)相互作用進行預測分析 分析表明,斑馬魚TBP全長302個氨基酸,等電點9.8,屬于TATA結(jié)合蛋白超家族,不含跨膜區(qū).屬于親水蛋白;二級結(jié)構(gòu)以無規(guī)則卷曲為主,含5個α螺旋區(qū)和8個β折疊區(qū),三維建??臻g結(jié)構(gòu)可信度98.9%,進一步分析建模結(jié)果可靠:與斑馬魚TBP相互作用的蛋白質(zhì)均為轉(zhuǎn)錄因子或TFⅡD復合物組分。分析結(jié)果對于深入研究斑馬魚TBP在基因轉(zhuǎn)錄中的作用具有一定的理論指導意義。關鍵詞:斑馬魚;TATA結(jié)合蛋白;生物信息學中圖分類號:Q811.4
文獻標識碼:A
文章編號:1007-7847(2015)02-0119-05Bioinformatic Analysis of TATA-binding Protein of ZebrafishYANG Shao-bin, FENG Jing-wen, ZHAO Wen-cheng, WANG Zhao-song, XU Shi-lei*(Tianjin Medical University Cancer Institute and Hospital, National Clinical Research Center for Cancer, Tianjin Key Laboratory of Cancer Prevention and Therapy, Tianjin 300060, China)Abstract : TATA-binding protein (TBP) is important in the process of transcription initiation in zebrafish. By means of bioinformatic methods, TBP of zebrafish is illustrated and analyzed by physicochemical property, sequence homology among different species, conserved domains, transmembrane structures, hydrophilici ty/hydrophobicity, protein secondary structure, protein tertiary structure, as well as protein-protein interactions. The results showed that zebrafish TBP consists of 302 amino acids, with isoelectric point of 9.8. This protein belongs to the TBP superfamily without transmembrane structure, and it is a hydrophilic protein. The secondary structure analysis showed that it contained 5 a. helices and 8 f3 sheets and random coil was the major structure element. The reliability of predicted three-dimensional structure of zebrafish TBP was up to 98.9%. Further analysis proved that the predicted protein structure was stable. It showed that the 10 most relevant interaction proteins with the zebrafish TBP were all transcription factors or TF II D complex members. Therefore, the results provided great information about zebrafish TBP in transcription regulation for further research.Key words: zebrafish; TATA-binding protein; bioinformatics(Life Science Research, 2015,19(2): 119?123)
TATA結(jié)合蛋白(TATA-binding protein,TBP)址一種特異性結(jié)合DNA序列上TATA框的轉(zhuǎn)錄因子。TATA序列存在于真核細胞基因啟動子中轉(zhuǎn)錄起始位點上游30個bp左右[1]。TBP與其他一些TBP相關蛋白共同組成廠TFⅡD復合物,TFⅡD是一種常見的轉(zhuǎn)錄因子,它是RNA聚合酶Ⅱ起始復合體的組成部分。TBP能夠幫助RNA聚合酶Ⅱ跨過轉(zhuǎn)錄起始位點。TBP在DNA雙鏈解鏈(double strand separation)的過程中也起到一定的作用,這是通過其能夠使DNA彎曲80°來實現(xiàn)[2-4]。TBP的另一個特點是含有一長串谷氨酰胺氨基酸殘基。這個區(qū)域調(diào)節(jié)TBP的C端和DNA的結(jié)合能力、轉(zhuǎn)錄復合體形成的比率以及轉(zhuǎn)錄的起始。斑馬魚屬于鯉科,鯉目。由于再生能力強的特性,斑馬魚經(jīng)常被當作研究脊椎動物的生物模型[5]。分析研究斑馬魚TBP有助于更好地理解斑馬魚基因轉(zhuǎn)錄過程。到目前為止,對斑馬魚TBP的生物學研究已經(jīng)有一定的進展,但是對其生物信息學分析還未見報道。為此,本研究采用生物信息學方法,對斑馬魚TBP的理化性質(zhì)、保守結(jié)構(gòu)域、跨膜區(qū)、親水性/疏水性、二級結(jié)構(gòu)、三級結(jié)構(gòu)、與其他物種親緣關系等進行預測和分析,為其后續(xù)研究奠定全面的理論基礎。1材料與方法1.1材料數(shù)據(jù)資料來源于UniProt網(wǎng)站已經(jīng)注冊的TBP氨基酸序列。其中TBP:斑馬魚zebrafish(Q7SXL3)、非洲爪蛙Xenopus laevis( P27633)、小鼠Mouse( P29037)、牛Bos taurus (Q2HJ52)、人Human( P20226)。1.2方法利用ProtParam分析蛋白質(zhì)理化性質(zhì);蛋白序列同源性、多序列比對及序列系統(tǒng)進化樹分別由NCBI protein blast .ClustalX2.0、njplot等軟件實現(xiàn);利用TMHMM、ProtScale分析蛋白質(zhì)的跨膜區(qū)和疏水性;NCBI Conserved Domains數(shù)據(jù)庫用來分析保守區(qū)域;Jpred、Swiss-Model和Structural Analysis and Verification Server分別預測蛋白質(zhì)二級、三級結(jié)構(gòu)及其合理性。String則用來預測蛋白質(zhì)的相互作用。各軟件、數(shù)據(jù)庫的相關信息如表1。2結(jié)果與分析2.1斑馬魚TBP的理化性質(zhì)預測和分析使用ProtParam蛋白質(zhì)理化性質(zhì)預測網(wǎng)站對5種TBP進行理化性質(zhì)預測,得到結(jié)果如表2。結(jié)果顯示,TBP基因在5個不同物種中編碼的氨基酸個數(shù)在297~339之間;相對分子質(zhì)量在32702.8~37698.1之間;各物種TBP等電點差異其微,均在9.8附近,說明TBP是堿性蛋白質(zhì);TBP在5個物種中的半衰期均達到了30h;5種蛋白的不穩(wěn)定系數(shù)均大于40,表明它們不是穩(wěn)定蛋白;各TBP的脂肪族系數(shù)在76.58~88.65之間;5種蛋白的平均疏水性均為負值,表明它們都是親水蛋白質(zhì)。2.2斑馬魚TBP的同源性預測和分析
使用Protein Blast軟件對斑馬魚TBP進行同源性分析,數(shù)據(jù)顯示,非洲爪蛙、小鼠、牛、人TBP與斑馬魚TBP進行比較時,比對序列覆蓋范圍(Query cover)分別是100%、100%、100%、75%;在此基礎上的序列相似性(Identity)分別為88%、86%、85%、93%,;利用ClustalX2.1程序?qū)Π唏R魚TBP與非洲爪蛙、小鼠、牛、人TBP序列進行多重比對,發(fā)現(xiàn)各物種問多聚谷氨酰胺區(qū)如圖1。結(jié)果顯示,由低等物種到高等物種,TBP多聚谷氨酰胺區(qū)谷氨酰胺氨基酸殘基數(shù)量在進化過程中不斷增加,推測谷氨酰胺區(qū)的長度與TBP的轉(zhuǎn)錄調(diào)節(jié)能力呈正相關。
同時在斑馬魚、非洲爪蛙、小鼠、牛、人的TBP比對結(jié)果中發(fā)現(xiàn)一個長保守區(qū),該保守區(qū)位于斑馬魚TBP肽鏈的C端(114-281aa),其序列為:PATPASESSGIVPQLQNIVSTVNLGCKLDLKTIALRARNAEYNPKRFAAVIMRIREPRTTALIFSSGKMVCTGAKSEEQSRLAARKYARVVQKLGFPAKFLDFKIQNMVGSCDVKFPIRLEGLVLTHQQFSSYEPELFPGLIYRMIKPRIVLLIFVSGKVVLTGAKVR。使用njplot軟件對Clusta1X2.1比對結(jié)果產(chǎn)生的系統(tǒng)進化樹進行可視化分析,結(jié)果如圖2。結(jié)果顯示小鼠、牛、人之間進化距離小于0.012,它們與非洲爪蛙和斑馬魚的進化距離分別為0.043和0.049。2.3斑馬魚TBP保守結(jié)構(gòu)域預測和分析使用NCBI提供的蛋白質(zhì)保守結(jié)構(gòu)域分析數(shù)據(jù)庫(Conserved domains database)對斑馬魚TBP進行保守結(jié)構(gòu)域分析,結(jié)果如圖3。結(jié)果表明斑馬魚TBP屬于TATA結(jié)合蛋白超家族,只含有一個保守結(jié)構(gòu)域(125-298aa),此結(jié)構(gòu)域用于識別轉(zhuǎn)錄調(diào)控區(qū)DNA的TATA框,并且此保守結(jié)構(gòu)域與ClustalX2.1分析得到的保守區(qū)位置基本一致(114-281aa)。2.4斑馬魚TBP跨膜區(qū)預測和分析使用在線蛋白質(zhì)跨膜區(qū)分析工具TMHMM軟件對斑馬魚TBP進行跨膜區(qū)分析(圖4) 結(jié)果顯示,斑馬魚TBP不含跨膜區(qū),說明斑馬魚TBP不是跨膜蛋白質(zhì)。TBP蛋白家族是在DNA轉(zhuǎn)錄起始過程中發(fā)揮作用,屬于細胞核定位,而非膜蛋白,預測結(jié)果與這一描述相符。2.5斑馬魚TBP親水性/疏水性預測和分析利用蛋白質(zhì)親水性/疏水性在線預測工具ProtScale對斑馬魚TBP進行親水性/疏水性分析(圖5)。結(jié)果顯示,斑馬魚TBP親水性最強位點出現(xiàn)在57、58、59三個連續(xù)的位點,分值為-3.611,這3個位點的氨基酸分別是精氨酸(Arginine,R)、谷氨酰胺(Glutamine,Q)、谷氨酰胺(Glutamine,Q);斑馬魚TBP疏水性最強位點出現(xiàn)存267位,分值為2.956,這個位置的氨基酸是異亮氨酸(Isoleucine,I)。ProtParam對斑馬魚TBP的預測結(jié)果顯示其平均疏水性(GRAVY)為-0.177,ProtScale的預測結(jié)果顯示斑馬魚TBP的泉水肽鏈分布在整個氨基酸序列中,且明顯多于疏水肽鏈,兩個預測結(jié)果均證明TBp是親水蛋白質(zhì),是一種水溶性蛋白質(zhì):2.6斑馬魚TBP二級結(jié)構(gòu)預測和分析
Jpred由Barton Group創(chuàng)建于1998年,現(xiàn)在版本為3.0。Jpred采用Jnnet神經(jīng)網(wǎng)絡算法來預測蛋白質(zhì)二級結(jié)構(gòu),平均準確率大于81% 使用Jpred3在線預測軟件對斑馬魚TBP的二級結(jié)構(gòu)進行預測,結(jié)果如圖6。結(jié)果顯示,斑馬魚TBP含有5個α螺旋區(qū)和8個β折疊區(qū)。α螺旋區(qū)和β折疊區(qū)氨基酸比率分別占到19.2%e和19.8%,說明斑馬魚TBP絕大部分氨基酸(71.0%)處于無規(guī)則卷曲狀態(tài)。2.7斑馬魚TBP三級結(jié)構(gòu)預測和分析蛋白質(zhì)三級結(jié)構(gòu)預測與分析對了解蛋白質(zhì)的結(jié)構(gòu)與功能之間的相關性至關重要,也對理解該蛋白質(zhì)與其他分子的相互作用機理及位點大有幫助。Swiss-Model是一款采用同源建模的方法預測蛋白質(zhì)三級結(jié)構(gòu)的在線軟件,此外它還能夠預測蛋白質(zhì)電荷分布、原子間距離和角度等。將斑馬魚TBP的氨基酸序列提交到Swiss-Model,網(wǎng)站給出了3個預測結(jié)果,結(jié)果如圖7。結(jié)果顯示A、B、C3個結(jié)果之間的差異非常微小,與模型蛋白比對覆蓋率A~C依次為分別為98.90%,98.90%,97.83%。分析斑馬魚TBP氨基酸序列與同源建模蛋白相似性波形圖,結(jié)果顯示,預測結(jié)果A的波形更加穩(wěn)定并趨近于最高值。表明預測模型A更趨近于真實情況。為了進一步驗證模型A的可靠性,采用拉曼圖(Ramachandranplot)的方法分析A模型中蛋白質(zhì)各氨基酸殘基二面角角和$角的合理性。使用美國國立衛(wèi)生研究院(NIH)提供的拉曼圖分析網(wǎng)站StructuralAnalysisandVerificationServer對模型A進行拉曼圖分析,結(jié)果如圖8。結(jié)果顯示,預測的蛋白質(zhì)殘基二面角位于黃色核心區(qū)域,表明該蛋白空間結(jié)構(gòu)穩(wěn)定,所以Swiss-Model的預測結(jié)果A可靠。2.8斑馬魚TBP相互作用蛋白預測和分析使用Strmg蛋白質(zhì)相互作用預測網(wǎng)站對斑馬魚TBP進行蛋白質(zhì)相互作用預測,結(jié)果如圖9。與斑馬魚TBP相互作用最緊密的10個蛋白質(zhì)及預測結(jié)果得分(可靠性)見表3。結(jié)果顯示,與與斑馬魚TBP相互作用最緊密的10個蛋白質(zhì)均為DNA轉(zhuǎn)錄因子[6-8]或TFⅡD的組成部分[9-12],這與斑馬魚TBP參與轉(zhuǎn)錄起始的事實相符合。3討論TBP蛋白主要在DNA轉(zhuǎn)錄的起始階段發(fā)揮作用,一方面它幫助DNA雙鏈解旋,另一方面它結(jié)合到TATA框,并與后續(xù)轉(zhuǎn)錄因子相互作用形成轉(zhuǎn)錄起始復合物,由于斑馬魚身體透明、繁殖能力強、養(yǎng)殖費用低等特點,斑馬魚被認定為是研究脊椎動物的理想生物模型。本研究主要從生物信息學角度解析了斑馬魚TBP的部分信息。經(jīng)研究發(fā)現(xiàn),斑馬魚TBP全長302個氨基酸,屬于TATA結(jié)合蛋白超家族,不含跨膜區(qū)。其N端保守性相對較低,氨基酸序列在各物種之間變化明顯,在靠近N端的位置存在一個多聚谷氨酰胺重復區(qū),能夠調(diào)節(jié)C端保守區(qū)域結(jié)合DNA的能力,這種對自身與DNA結(jié)合能力的調(diào)節(jié)能夠影響轉(zhuǎn)錄起始復合物的形成,并目.多聚谷氨酰胺區(qū)谷氨酰胺的數(shù)量增加脊髓小腦的共濟失調(diào)等疾病相關113];在不同物種間,多聚谷氨酰胺區(qū)的長度不同,其基本規(guī)律遵循由低等動物到高等動物多聚谷氨酰胺區(qū)不斷增長的特點斑馬魚TBP的C端保守性較高,它含有兩個長77個氨基酸的重復序列,組成一個馬鞍狀維結(jié)構(gòu)跨坐在DNA鏈上,這個區(qū)域與DNA相互作用并結(jié)合其他轉(zhuǎn)錄因子,突變將導致其對轉(zhuǎn)錄起始調(diào)節(jié)能力的喪失114]。數(shù)據(jù)顯示,斑馬魚TBP與DNA相互作用的保守區(qū)(114-281aa)堿性氨基酸(精氨酸+賴氨酸)數(shù)量高達26個,而酸性氨基酸(谷氨酸+天冬氨酸)數(shù)量只有11個,這種特點可能促進其自身與DNA鏈酸性核苷酸的結(jié)合有關,具體作用機理有待進一步研究。分析斑馬魚TBP的二級結(jié)構(gòu)和三級結(jié)構(gòu),兩種分析結(jié)果中a螺旋和yS折疊的數(shù)量及出現(xiàn)位置基本一致,拉曼圖分析進一步驗證了三級結(jié)構(gòu)預測模型的穩(wěn)定性,說明建模結(jié)果可靠,分析結(jié)果有助于闡明斑馬魚TBP與其他轉(zhuǎn)錄因子相互作用的空間結(jié)構(gòu)基礎「在斑馬魚TBP與其他蛋白的相互作用結(jié)果中,研究發(fā)現(xiàn)與斑馬魚TBP相互作用的蛋均為轉(zhuǎn)錄起始復合物和轉(zhuǎn)錄因子,其預測結(jié)果全部有文獻和數(shù)據(jù)庫兩方面的證據(jù),結(jié)果真實可靠:本研究的分析結(jié)果對于深入研究斑馬魚TBP在轉(zhuǎn)錄起始過程中的作用具有一定的指導意義。參考文獻(References):[1J KORNBERG R D. The molecular basis of eukaryotic transt-rip- tion[J]. Proceedings of the National Academy of Sc iences , 2007, 104(32):55-61.[2] HOCHHEIMER A, TJIAN R. Diversified transcription initia?tion complexes expand promoter selectivity and tissue-specific gene expression[J].Genes & Development, 2003, 17(1 1): 1309- 1320.[3]PUGH B F. Control of gene expression through regulation of the TATA-binding protein[J]. Gene.2000.255(1):1-14.[4]LEE T I, YOUNG R A . Transcription of eukaryotic protein- coding genes[J]. Annual Review of Genetics, 2000.34:77-137.[5]GOLDSHMIT Y, SZTAL T E,JUSUF P R,et al. Fgf-dependent glial cell bridges facilitate spinal cord regeneration in ze-brafish[J]. Journal of Neuroscience, 2012, 32(22): 7477-7492.[6]TAO Y, GUERMAH M,MARTINEZ E,et al. Specific interac?tions and potential functions of human TAFII100 [J]. Journal of Biological Chemistry,1997, 272(10): 6714-6721.[7]BUSHNELL D AWESTOVER K D,DAVIS R E, et al. Structural basis of transcription: an RNA polymerase II -TFIIB cocrysta at 4.5 Angstroms [J]. Science, 2004, 303(5660): 983- 988.[8]DEJONG J, BERNSTEIN R, ROEDER R G, et d. Human general transcription factor TFIIA: characterization of a cDNA encoding the small subunit and requirement for basal and activated transcription[J]. Proceedings of the National Academy of Sciences,1995, 92(8): 3313-3307.[9] SIEGERT J L, ROBBINS P D. Rb inhibits the intrinsic kinase activity of TATA-binding protein-associated factor TAFII250[J]. Molecular and Cellular Biology, 1999, 19(1): 846-854.[10]RUPPERT S, WANG E H, TJIAN K. Cloning and expression of human TAFII250: a TBP -associated factor implicated in cell-cycle regulation[J]. Nature, 1993, 362(6416): 175-179.[11]POINTUD J C,MENQUS G,BRANCORSINI S, et al. The in-tracellular localization of TAF7L, a paralogue of transcription factor TFIID subunit TAF7, is developmentally regulated during male germ-cell differentiation^. Journal of Cell Science , 2003, 116(Pt 9): 1847-1858.[12]FERG M, SANGES R, GEHRIG J. et al. The TATA-binding protein regulates maternal mRNA degradation and differential zygotic transcription in zebrafish[J].The KMBO Journal, 2007, 26 (17): 3945-3956.[13]HART D 0, RAHA T, LAWSON N D, et al. Initiation of ze-brafish haematopoiesis by the TATA-box—binding protein-re?lated factor Trf3[J]. Mature, 2007,450 (7172): 1082-1085.[141 NIKOLOV D B,HU S H,LIN J, et al. Crystal structure of TFIID TATA-box binding protein[J]. Nature, 1992, 360(6399): 40-46.