唐鶴云 楊嘯林 胡俊峰 張正國*
(徐州醫(yī)學院醫(yī)學影像學院,徐州 221004)2(中國醫(yī)學科學院基礎醫(yī)學研究所,北京協(xié)和醫(yī)學院基礎學院,北京 100005)
蛋白質的空間結構信息都包含在其氨基酸序列中[1]。研究氨基酸幾何結構的影響因素,對理解蛋白質獨特空間結構的形成具有重要意義[2-3]。同時,氨基酸幾何結構的變化規(guī)律也是蛋白質結構預測的理論基礎[4-5]。目前,研究氨基酸幾何結構的方法主要采用二面角(Φ 和 Ψ)[6-8]或 τ[9],Φ 表示氨基氮原子(N)和 α碳原子(Cα)間的空間角。Ψ表示 α碳原子(Cα)和羧基碳原子(C')間的空間角,而τ則是把 Φ和 Ψ結合在一起,計算的是 N、Cα和C'這3個原子間形成的空間角,這些方法通過計算骨架原子形成的兩個相鄰肽平面的空間角,描述氨基酸的空間結構。這些二面角也可以通過 Ramachandran圖進行可視化[10]。但是空間角度比較抽象,并且很難量化地計算相同氨基酸殘基在不同結構環(huán)境中的結構差異性。
筆者在研究多肽片段中氨基酸結構的實踐中,首次提出了C'散點圖這種研究氨基酸幾何結構的新方法,在應用中體現(xiàn)出了獨特的效率和便利,下面將詳細介紹這種描述氨基酸結構的新方法。
對于多肽片段中任一氨基酸而言,第i個殘基的骨架原子 Ni、Cαi和分布在兩個相鄰的肽平面上(見圖 1)。Ni和 Cαi與前一個氨基酸的 Cαi-1、、Oi-1這 3 個原子形成一個肽平面,而 Cαi、氧原子Oi和則與后一個氨基酸的Ni+1和 Ci+1處于同一個肽平面,Cαi是這兩個相鄰肽平面的軸心。目前,主要用這兩個肽平面形成的二面角來描述氨基酸骨架的結構。
圖1 轉換的參考坐標系Fig.1 The referred coordinate for transformation
在同一個肽平面中,各原子的相對位置是非常固定的。因此,可以用一個肽平面上的原子相對于相鄰肽平面的位置,描述這兩個平面的空間位置關系。根據(jù)骨架原子Ni、Cαi和的關系,選擇相對于前一個肽平面的坐標來描述氨基酸的結構。
由于蛋白質結構數(shù)據(jù)庫中各原子的坐標參考系是不同的,所以在運用原子進行氨基酸結構比較前,目標氨基酸中的原子坐標首先要進行轉換,使其坐標的原點、方向一致,才具有可比性。選擇的前一個肽平面作為參考平面,與原子所在同一個氨基酸的Ni和Cαi以及前一個氨基酸的Cαi-1、Oi-1在這個參考平面上。由于同一個肽平面上的原子分布固定,根據(jù)三點確定一個平面的原則,選擇前一個氨基酸的 Cαi-1、、Oi-1這 3個原子作為坐標轉換的參考。
具體的轉換方法可以分為以下3個步驟。
步驟1:以前一個原子的 Cαi-1作為新的坐標原點,也就是把原來的坐標原點平移到 Cαi-1,那么平移后所有原子的坐標變?yōu)?/p>
式中,(x,y,z) 為各原子的原始坐標值,(x0,y0,z0)為 Cαi-1的原始坐標,(x1,y1,z1)為各原子的新坐標值。
步驟 2:以 Cαi-1指向 C'i-1作為新的 X 軸。因Cαi-1已經是原點,所以這一步可以分為兩個子步驟。首先,整個坐標系繞X軸旋轉,直到落在X-Y平面上;然后,再繞Z軸旋轉,直到落在X軸上。
步驟2-1:使整個坐標系繞X軸旋轉,直到落在X-Y平面上,此時原子與X-Y平面的夾角為
需旋轉的角度為
旋轉完成后,原子與X-Y平面的夾角為
這時各原子的坐標變?yōu)?/p>
式中,(x1,y1,z1)為各原子在第一步后的坐標值,(x10,y10,z10)為在步驟 1 后的坐標值,(x21,y21,z21)為各原子此時的新坐標值。
旋轉的角度為
旋轉完成后各原子與X-Z平面的夾角變?yōu)?/p>
此時各原子的新坐標為
式中,(x21,y21,z21)為各原子在步驟2-1后的坐標值,(x210,y210,z210)為 C'i-1在步驟 2-1 后的坐標值,(x22,y22,z22)為各原子在步驟2-2后的新坐標值。
將步驟2-1和步驟2-2合并,那么步驟2完成后,各原子的坐標為
步驟 3:把 Cαi-1、、Oi-1作為新的X-Y平面。前兩步完成后,Cαi-1已經是新的原點,已經在X軸上,因此這一步的任務是繞X軸旋轉,直到 Oi-1落在 X -Y平面上。
此時,各原子與X-Y平面的夾角為
旋轉的角度為
旋轉完成后各原子與X-Y平面的夾角變?yōu)?/p>
那么各原子的坐標將變?yōu)?/p>
式中,(x2,y2,z2)為各原子在步驟2后的坐標值,(x20,y20,z20)為 Oi-1在步驟 2 后的坐標值,(x3,y3,z3)為各原子此時的新坐標值。
經過上述的坐標轉換,新的坐標系是由目標氨基酸的前一個殘基的 Cαi-1、和 Oi-1這 3 個原子作為參考而建立的,所以原子的三維坐標就包含了目標氨基酸的骨架結構信息,同時也反映了與前一個氨基酸殘基的相對位置關系。相同氨基酸殘基的原子在三維坐標圖中的分布(散點圖)情況,就可以反映這個氨基酸的結構變化情況。
運用C'散點圖,可以非常直觀地展示各氨基酸殘基在多肽片段中結構變化的情況。從蛋白質結構數(shù)據(jù)庫(PDB)可以下載所有目前已知三維結構的蛋白質數(shù)據(jù),截取相同組成的多肽片段,就可以運用C'散點圖這個方法來分析氨基酸在不同環(huán)境下的結構差異。
蛋白質結構數(shù)據(jù)庫(Protein Data Bank,http://www.rcsb.org)是一個開放的蛋白質結構數(shù)據(jù)庫。從中下載并選取了多種長度的多肽片段,運用C'散點圖的方法分析其結構特征。隨機選擇了FPA、TFPAV、CLV、GCLVK,用來說明 C'散點圖這種方法在分析氨基酸結構中的意義。在FPA和TFPAV這兩個多肽片段中,殘基P的C'散點圖如圖2所示;在CLV和GCLVK這兩個多肽片段中,殘基L的C'散點圖如圖3所示。
圖2 多肽片段FPA和TFPAV中殘基P的C'散點圖。(a)FPA;(b)TFPAVFig.2 The scatter plot of C'of residue‘P’from peptide fragments FPA and TFPAV.(a)FPA;(b)TFPAV
圖2顯示了殘基P的骨架結構分別在FPA和TFPAV的分布情況。在圖2中,可以非常直觀地看到,殘基P的 C'原子在片段 TFPAV中的分布要比在片段FPA中相對集中。在蛋白質中,片段FPA左右兩邊可以是任何氨基酸,TFPAV只是其中的一種情況。殘基P在TFPAV中比在FPA中的序列相似度更高。所以,圖2也印證了序列相似度越高,氨基酸結構相似度也越高,即序列決定結構。圖3顯示了殘基L的骨架結構在多肽片段CLV和GCLVK的C'散點圖。在圖3中,也可以明顯地看到GCLVK中的點要比 CLV集中。這表示,殘基 L的結構在GCLVK中要比在 CLV中的更相似,與圖2的結論是一致的。
本研究提出的C'散點圖,提供了一種描述多肽片段中氨基酸結構的新方法。與傳統(tǒng)的二面角方法不同,C'散點圖采用骨架原子C'相對于參考平面的坐標值來描述氨基酸結構的差異。由目標氨基酸的C'原子三維坐標描繪而成的散點圖反映了這些氨基酸骨架的結構變化,圖中每個點對應一個氨基酸的骨架結構。
圖3 多肽片段“CLV”和“GCLVK”中殘基“L”的 C'散點圖。(a)CLV;(b)GCLVKFig.3 The scatter plot of C'of residue‘L’from peptide fragments“CLV”and“GCLVK”.(a)CLV;(b)GCLVK
在運用C'散點圖對氨基酸結構進行分析前,需要對原子坐標進行轉換,使得C'原子的坐標值具有可比性,這比空間角的方法多一個步驟。不過整個轉換過程并不復雜,所需的計算資源也不多,普通計算機就可以實現(xiàn)。
由于C'散點圖是直接把原子的三維坐標顯示在散點圖中,所以這種方法比以往采用空間角的方法更加直觀。同時,通過計算散點圖中各點之間的距離,C'散點圖還可以量化地評價氨基酸結構的多樣性,使得用數(shù)字直接比較氨基酸結構的差異成為可能,這也是空間角的方法無法實現(xiàn)的。由于在散點圖中存在一些相對分散的點,如圖2(a),這些點的出現(xiàn)可能與蛋白質結構數(shù)據(jù)的誤差有關。用兩點間的最大距離計算氨基酸結構多樣性時,這些點的出現(xiàn)會大大增加數(shù)值。在實際計算氨基酸結構多樣性時如何處理這些點,是目前正在研究的問題。
圖2和圖3印證了氨基酸結構受序列相似度的影響。此外,從圖中也可以看到,即使是5個殘基相同的多肽片段,其中間的氨基酸結構還是有差異的。這說明影響氨基酸結構的因素是復雜的,局部的序列相同只能在一定程度上限制其結構的變化。今后,將運用C'散點圖這一工具,進一步深入地研究影響氨基酸結構的因素,尋找氨基酸結構變化的規(guī)律。這些研究的結果,將對蛋白質結構預測的發(fā)展具有重要意義。
本研究提出了描述氨基酸結構的一種新方法——C'散點圖。這種方法采用氨基酸骨架原子中C'的三維坐標值,反映對應氨基酸殘基的結構變化。通過計算散點圖上原子的分布情況,氨基酸結構的多樣性也可以進行量化評價。C'散點圖可以更加直觀地分析氨基酸的結構特征和規(guī)律,對進一步深化氨基酸結構的分析和研究具有重要意義。
[1]Anfinsen C.Principles that govern the folding of protein chains[J].Science,1973,181:223 -230.
[2]Bystroff C,Simons KT,Han KF,et al.Local sequencestructure correlations in proteins[J].Curr Opin Biotechnol,1996,7:417-412.
[3]Crooks GE,Wolfe J,Brenner SE.Measurements of protein sequence-structure correlations[J]. Proteins StructFunct Bioinform,2004,57:804-810.
[4]Kabsch W,Sander C.On The use of sequence homologies to predict protein structure:identicalpentapeptidescan have completely different conformations[J].Proc Natl Acad Sci USA,1984,81:1075-1078.
[5]Pavlopoulou A,Michalopoulos I.State-of-the-art bioinformatics protein structure prediction tools[J].Int J Mol Med.2011.705.[Epub ahead of print]
[6]Ramachandran GN,Ramakrishnan C,Sasisekharan V,et al.Stereochemistry of polypeptide chain configurations[J].J Mol Biol,1963,7:95 -99.
[7]Pauling L,Corey RB,Branson HR.The structure of proteins;two hydrogen-bonded helical configurations of the polypeptide chain[J].Proc Natl Acad Sci USA,1951,37:205 -211.
[8]Esposito L, Vitagliano L, ZagariA, etal. Experimental evidence for the correlation of bond distances in peptide groups detected in ultrahigh-resolution protein structures[J].Protein Eng,2000,13:825-828.
[9]Malathy Sony SM,Saraboji K,Sukumar N,et al.Role of amino acid properties to determine backbone τ(N - Ca-C')stretching angle in peptides and proteins[J].Biophys Chem,2006,120:24-31.
[10]Gopalakrishnan K,Sowmiya G,Sheik SS,et al.Ramachandran plot on the web(2.0)[J].Protein Pept Lett,2007,14(7):669-671.