管維紅
(江蘇信息職業(yè)技術(shù)學(xué)院 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214153)
蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)關(guān)系的研究
管維紅
(江蘇信息職業(yè)技術(shù)學(xué)院 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214153)
蛋白質(zhì)結(jié)構(gòu)與功能的研究一直是分子生物學(xué)研究的熱點(diǎn)之一.基于混沌理論對(duì)蛋白質(zhì)序列特性進(jìn)行研究,先將蛋白質(zhì)序列轉(zhuǎn)為時(shí)間序列,再對(duì)其進(jìn)行相空間重構(gòu),通過(guò)計(jì)算確定時(shí)間延遲t、嵌入維數(shù)m等參數(shù),最后計(jì)算得出蛋白質(zhì)序列的最大Lyapunov指數(shù),通過(guò)對(duì)蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)SCOP中七類(lèi)蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)序列最大Lyapunov指數(shù)計(jì)算和比較,發(fā)現(xiàn)蛋白質(zhì)整體序列和蛋白質(zhì)結(jié)構(gòu)沒(méi)有明顯關(guān)聯(lián).
蛋白質(zhì)序列;蛋白質(zhì)結(jié)構(gòu);混沌;最大Lyapunov指數(shù);關(guān)聯(lián)
分子生物學(xué)研究中還存在很多未解之謎,蛋白質(zhì)結(jié)構(gòu)和功能的研究還處在初始階段,蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測(cè)一直是研究熱點(diǎn),其中蛋白質(zhì)序列和蛋白質(zhì)結(jié)構(gòu)及功能之間是否存在某種關(guān)系也尚未明確[1].關(guān)于蛋白質(zhì)序列的特性早期也曾有不少學(xué)者做過(guò)相關(guān)研究:有的認(rèn)為蛋白質(zhì)序列是隨機(jī)的[2],有的認(rèn)為蛋白質(zhì)序列具有分形特征[3],筆者基于混沌理論并結(jié)合前人基礎(chǔ)進(jìn)行研究,給出蛋白質(zhì)序列具有混沌特性的結(jié)論[4-5],并且先后完善了蛋白質(zhì)序列最大Lyapunov指數(shù)的計(jì)算方法.關(guān)于蛋白質(zhì)序列與結(jié)構(gòu)的關(guān)系,也有學(xué)者給出一些結(jié)論,有的采用功率譜的方法對(duì)不同結(jié)構(gòu)類(lèi)蛋白質(zhì)序列進(jìn)行研究,認(rèn)為不同結(jié)構(gòu)類(lèi)蛋白質(zhì)序列具有與它們的結(jié)構(gòu)類(lèi)相對(duì)應(yīng)的不同的關(guān)聯(lián)特性[6].有的發(fā)現(xiàn)蛋白質(zhì)序列具有隱含的與結(jié)構(gòu)相同的對(duì)稱(chēng)性,序列的對(duì)稱(chēng)性可能決定結(jié)構(gòu)的對(duì)稱(chēng)性[7].
ANFINSEN曾通過(guò)實(shí)驗(yàn)證明:一般情況下,蛋白質(zhì)能夠自發(fā)折疊形成特定的結(jié)構(gòu)構(gòu)象,也就是說(shuō),蛋白質(zhì)的結(jié)構(gòu)信息就蘊(yùn)含于其序列之中[8].本文首先基于混沌理論計(jì)算蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)SCOP(Structural Classification of Proteins,蛋白質(zhì)結(jié)構(gòu)分類(lèi))[9]中的七大類(lèi)結(jié)構(gòu)的蛋白質(zhì)序列的最大Lyapunov指數(shù),通過(guò)對(duì)七類(lèi)結(jié)構(gòu)蛋白質(zhì)序列的最大Lyapunov指數(shù)的對(duì)比,分析研究蛋白質(zhì)序列和蛋白質(zhì)結(jié)構(gòu)的關(guān)系.
蛋白質(zhì)分類(lèi)數(shù)據(jù)庫(kù)很多,最為常用的蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)是SCOP和CATH(class, architecture, topology, homology).本研究蛋白質(zhì)序列來(lái)自蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)SCOP,是由MRC(Medical Research Council,英國(guó)醫(yī)學(xué)研究委員會(huì))的分子生物學(xué)實(shí)驗(yàn)室和蛋白質(zhì)工程研究中心開(kāi)發(fā)和維護(hù)[9].SCOP數(shù)據(jù)庫(kù)利用計(jì)算機(jī)程序自動(dòng)監(jiān)測(cè)和人工驗(yàn)證結(jié)合的方法,把PDB(protein data bank,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù))中的蛋白質(zhì)按傳統(tǒng)分類(lèi)方法分成α型、β型、α/β型、α+β型以及多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、小蛋白,一共七大類(lèi),在此基礎(chǔ)上再按折疊類(lèi)型、超家族、家族三個(gè)層次逐級(jí)分類(lèi)[9].蛋白質(zhì)序列按照七大類(lèi)結(jié)構(gòu)依次從SCOP數(shù)據(jù)庫(kù)中任意選取若干條,選取的原則是長(zhǎng)度適合,便于下載和獲取.
蛋白質(zhì)由氨基酸組成,蛋白質(zhì)序列中常見(jiàn)的氨基酸有20種.對(duì)蛋白質(zhì)序列進(jìn)行研究,首先要把序列轉(zhuǎn)化為時(shí)間序列,即對(duì)每種氨基酸進(jìn)行數(shù)值化,這里采用的是EIIP(electron interaction potential,電子—離子相互作用勢(shì))匹配法[10],氨基酸的電子—離子相互作用勢(shì)是一種表示氨基酸價(jià)電子平均能量的物理屬性,與蛋白質(zhì)的生物性質(zhì)有很大關(guān)聯(lián)[10-11].與其他氨基酸對(duì)應(yīng)數(shù)值的映射相比,EIIP匹配法對(duì)于蛋白質(zhì)序列分析是最為合適的[12].每個(gè)氨基酸對(duì)應(yīng)的EIIP值見(jiàn)表1.
表1 20種氨基酸對(duì)應(yīng)的EIIP值Tab.1 EIIP values for 20 amino acids
蛋白質(zhì)序列混沌特性的計(jì)算方法,在筆者以前的文章中曾詳細(xì)描述計(jì)算步驟并舉例說(shuō)明[5],這里只作簡(jiǎn)單介紹.蛋白質(zhì)序列轉(zhuǎn)化為時(shí)間序列后,要對(duì)其進(jìn)行相空間重構(gòu),采用時(shí)間坐標(biāo)延遲法[13].設(shè)蛋白質(zhì)時(shí)間序列為{xi},i=1,2,…,N,N為蛋白質(zhì)時(shí)間序列總長(zhǎng),時(shí)間延遲t,嵌入維數(shù)m,Yj為相空間中的一點(diǎn),Yj=(xj,xj+t,xj+2t,…,xj+(m-1)t),j=1,2,…,n,n=N-(m-1)t.首先需要確定時(shí)間延遲t和嵌入維數(shù)m.
2.1 時(shí)間延遲t的計(jì)算
時(shí)間延遲t采用去偏自相關(guān)法確定[13].對(duì)于一個(gè)時(shí)間序列{xi},i=1, 2, …,N,去偏自相關(guān)函數(shù)定義為[13-14]
(1)
2.2 嵌入維數(shù)m的計(jì)算
嵌入維數(shù)m的選擇采用G-P算法[13,15]:對(duì)于時(shí)間序列{xi},i=1,2,…,N,先嘗試取一個(gè)較小的嵌入維數(shù)m0,則對(duì)應(yīng)的相空間為Yj=(xj,xj+t,xj+2t,…,xj+(m0-1)t),j=1,2,…,n,n=N-(m0-1)t.計(jì)算其關(guān)聯(lián)函數(shù)
(2)
C(r)的值與r的取值有關(guān),在實(shí)際應(yīng)用中,通過(guò)給定一些m,r的值進(jìn)行計(jì)算.對(duì)于蛋白質(zhì)時(shí)間序列,經(jīng)前期實(shí)驗(yàn),r依次取1,0.9,0.8,…,0.1,嵌入維數(shù)m取1,2,3,4,5,6,7,8,…,可以得到比較好的結(jié)果[5].當(dāng)lnC(r)-lnr的曲線(xiàn)圖上通過(guò)最佳擬合得到該直線(xiàn)斜率即為關(guān)聯(lián)維數(shù)D,即C(r)=rD,則
(3)
一般隨著m增大,關(guān)聯(lián)維數(shù)D也相應(yīng)增大,當(dāng)m增大到一定值M時(shí),D達(dá)到峰值,則M即為嵌入維數(shù).如果D隨m的增長(zhǎng)而增長(zhǎng),不收斂于一個(gè)穩(wěn)定的值,表明該序列具有隨機(jī)性,它在有限維的相空間中不存在吸引子[13-14].
2.3 最大Lyapunov指數(shù)的計(jì)算
最大Lyapunov指數(shù)的計(jì)算采用改進(jìn)的最大Lyapunov指數(shù)的方法[13-14].設(shè)有一條蛋白質(zhì)時(shí)間序列{xi},i=1,2,…,N,通過(guò)時(shí)間延遲t和嵌入維數(shù)m重構(gòu)相空間,相空間中的點(diǎn)為Yj=(xj,xj+t,xj+2t,…,xj+(m-1)t),j=1,2,…,n,n=N-(m-1)t.任意選取兩相鄰初始位置(通常取初始點(diǎn)與其最鄰近點(diǎn)),計(jì)算兩點(diǎn)間的初始距離d1(0),計(jì)算經(jīng)過(guò)時(shí)間延遲t演化后兩點(diǎn)間的距離為d1(t),則可得
(4)
接著選取第j個(gè)點(diǎn),計(jì)算第j個(gè)點(diǎn)與其最近鄰之間的距離dj(0),再計(jì)算經(jīng)過(guò)時(shí)間t后兩點(diǎn)間的距離變?yōu)閐j(t),則
(5)
所以最大Lyapunov指數(shù)為
(6)
該方法十分簡(jiǎn)單,而且充分利用了所有數(shù)據(jù),是一種既簡(jiǎn)便又適用于小數(shù)據(jù)量的方法[13].當(dāng)?shù)鞍踪|(zhì)時(shí)間序列的最大Lyapunov指數(shù)λ1大于0時(shí),即說(shuō)明蛋白質(zhì)時(shí)間序列具有混沌特性[13-14].
從蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)SCOP中按α型、β型、α/β型、α+β型以及多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、小蛋白這七大類(lèi)分別隨機(jī)選取多條蛋白質(zhì)序列,每類(lèi)隨機(jī)給出10條計(jì)算結(jié)果,為了便于比對(duì)分析,依次給出時(shí)間延遲t、嵌入維數(shù)m、關(guān)聯(lián)維數(shù)D以及最大Lyapunov指數(shù)λ1,并且按最大Lyapunov指數(shù)λ1從小到大的順序進(jìn)行排序.具體結(jié)果見(jiàn)表2~表8.
表2 α型結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.2 The analysis results of all alpha protein time sequences
表3 β型結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.3 The analysis results of all beta protein time sequences
表4 α/β型結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.4 The analysis results of alpha and beta proteins (a/b) protein time sequences
表5 α+β型結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.5 The analysis results of alpha and beta proteins (a+b) protein time sequences
表6 多結(jié)構(gòu)域蛋白結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.6 The analysis results of Multi-domain proteins (alpha and beta) protein time sequences
表7 膜蛋白和細(xì)胞表面蛋白結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.7 The analysis results of membrane and cell surface proteins and peptides protein time sequences
續(xù)表7 膜蛋白和細(xì)胞表面蛋白結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.7(Continued) The analysis results of Membrane and cell surface proteins and peptides protein time sequences
表8 小蛋白結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的分析結(jié)果Tab.8 The analysis results of Small protein time sequences
從表2~表8中可以看出,每條蛋白質(zhì)序列的延遲時(shí)間t都為1,這和之前的研究結(jié)果一致,說(shuō)明每個(gè)氨基酸都是獨(dú)立的個(gè)體, 都可能對(duì)蛋白質(zhì)時(shí)間序列系統(tǒng)造成影響[5,8].嵌入維數(shù)m的值總體在[5,8]這個(gè)區(qū)間上,每類(lèi)結(jié)構(gòu)嵌入維數(shù)m的值都不同,α型、β型大多為6,α/β型6、7幾乎各占一半,α+β型則是集中在5、6,多結(jié)構(gòu)域蛋白幾乎都為7,膜蛋白和細(xì)胞表面蛋白比較分散,從5到8都有,小蛋白則大多為5.關(guān)聯(lián)維數(shù)D最小值為1.586 5,最大值為3.137 9,每類(lèi)結(jié)構(gòu)的值總體差異不大,最大Lyapunov指數(shù)值λ1的數(shù)值分布及差異也不大,為了便于觀(guān)察,現(xiàn)把每類(lèi)結(jié)構(gòu)的最大Lyapunov指數(shù)值λ1集中在一張圖上進(jìn)行對(duì)比,見(jiàn)圖1.
圖1 七種結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列最大Lyapunov指數(shù)的對(duì)比圖Fig.1 The comparison of the largest Lyapunov exponents for seven structures of protein time sequences
從對(duì)比圖可以看出七種結(jié)構(gòu)的蛋白質(zhì)時(shí)間序列的最大Lyapunov指數(shù)值區(qū)間非常接近,除了小蛋白的值偏低,以及α+β型有一個(gè)最大Lyapunov指數(shù)值較為偏高,總的來(lái)說(shuō)蛋白質(zhì)結(jié)構(gòu)及功能的差異和蛋白質(zhì)時(shí)間序列表現(xiàn)出的混沌特性之間的差異相比要大得多,蛋白質(zhì)整體序列和蛋白質(zhì)結(jié)構(gòu)之間沒(méi)有發(fā)現(xiàn)明顯關(guān)聯(lián).
首先從蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)SCOP中按照七大結(jié)構(gòu)分類(lèi)分別隨機(jī)選取多條蛋白質(zhì)序列,并且通過(guò)氨基酸的電子—離子相互作用勢(shì)EIIP值轉(zhuǎn)換為時(shí)間序列,再對(duì)其進(jìn)行相空間重構(gòu),利用去偏自相關(guān)系數(shù)和經(jīng)典G-P算法分別得出時(shí)間延遲t和嵌入維數(shù)m兩個(gè)最為關(guān)鍵參數(shù),最后通過(guò)改進(jìn)的最大Lyapunov指數(shù)計(jì)算方法計(jì)算序列的最大Lyapunov指數(shù)值.在此說(shuō)明,在計(jì)算中也還是有一些序列不收斂[5],沒(méi)有吸引子,無(wú)法計(jì)算最大Lyapunov指數(shù)值,文中沒(méi)有列出這些序列,占比很少,可能和蛋白質(zhì)序列準(zhǔn)確性以及本身特性有關(guān).
通過(guò)對(duì)七大類(lèi)蛋白質(zhì)結(jié)構(gòu)最大Lyapunov指數(shù)值的對(duì)比發(fā)現(xiàn),蛋白質(zhì)整體序列和蛋白質(zhì)結(jié)構(gòu)沒(méi)有明顯關(guān)聯(lián).對(duì)于想從蛋白質(zhì)整體序列上進(jìn)行研究推測(cè)蛋白質(zhì)結(jié)構(gòu)的做法不大可行.蛋白質(zhì)整條序列是混沌的,蛋白質(zhì)序列里一些短的片段可能蘊(yùn)含結(jié)構(gòu)信息,以促使蛋白質(zhì)自發(fā)進(jìn)行折疊形成特定的結(jié)構(gòu),以行使其生物學(xué)功能.蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)某些序列到底具有怎樣的關(guān)聯(lián)性,有很多蛋白質(zhì)序列很相似,但是結(jié)構(gòu)和功能差異非常大,這個(gè)差異可能就在某些關(guān)鍵的氨基酸或者氨基酸組合上.這需要結(jié)合蛋白質(zhì)序列和蛋白質(zhì)結(jié)構(gòu)在大量的數(shù)據(jù)基礎(chǔ)上再作進(jìn)一步研究.
[1] 葉子弘.生物信息學(xué)[M].浙江: 浙江大學(xué)出版社, 2011:2-16.
[2] HUANG Y Z, XIAO Y. Nonlinear deterministic structures and the randomness of protein sequences[J]. Chaos, Solitons and Fractals, 2003, 17(5): 895-900.
[3] GOPAKUMAR G, NAIR A S. Lacunarity analysis of protein sequences reveal fractal like behavior of amino acid distributions[J]. Advances in computing and communications in computer and information science, 2011, 190(4):320-327.
[4] 管維紅,張立婷, 徐振源,等. 蛋白質(zhì)序列混沌特性的研究[J].生物信息學(xué), 2008, 6(4): 148-151.
[5] 管維紅.基于混沌理論的蛋白質(zhì)序列特性的研究[J].生物信息學(xué), 2012,10(3):194-198.
[6] 黃敏,沈暉,肖奕.不同結(jié)構(gòu)類(lèi)蛋白質(zhì)序列中的關(guān)聯(lián)特性[J].生物物理學(xué)報(bào), 2000,16(4):755-759.
[7] 肖奕, 馮建輝, 黃延昭.對(duì)稱(chēng)蛋白質(zhì)序列與結(jié)構(gòu)關(guān)系研究[J].生命科學(xué), 2010, 22 (11) :1129-1137.
[8] ANFINSEN C B. Principles that govern the folding of protein chains[J]. Science,1973,181:223-230.
[9] Medical Research Council. Structural Classification of Proteins[DB/OL]. 2009-2-23[2016-3-1]. http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.html.
[10] TRAD C H, FANG Q, COSIC I. Protein sequence comparison based on the wavelet transform approach[J]. Protein Engineering, 2002, 15(3): 193-203.
[11] SAMBUK N, KONJEVODA P, POKRIC B, et al. Resonant recognition model defines the secondary structure of bioactive proteins[J]. Croatica Chemica Acta, 2002, 75(4): 899-908.
[12] 劉宏德, 孫嘯. 蛋白質(zhì)序列的特征周期研究[J].生物物理學(xué)報(bào), 2008, 24 (2) :145-154.
[13] 陳士華, 陸君安. 混沌動(dòng)力學(xué)初步[M]. 武漢: 武漢水利大學(xué)出版社, 1998:95-106.
[14] 黃延林, 韓曉剛, 盧金鎖. 基于Lyapunov指數(shù)的混沌預(yù)測(cè)方法及在水質(zhì)預(yù)測(cè)中的作用[J]. 西安建筑科技大學(xué)學(xué)報(bào) (自然科學(xué)版), 2008, 40(6): 846-851.
[15] 王衛(wèi)寧, 汪秉宏, 史曉平. 股票價(jià)格波動(dòng)的混沌行為分析[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2004, 21(4): 141-147.
ResearchontheRelationshipBetweenProteinSequencesandProteinStructures
GUAN Weihong
(InternetofThingsEngineeringDepartment,JiangsuCollegeofInformationTechnology,Wuxi214153,China)
The research on protein structure and function is one of the hotspots in molecular biology. The characteristics of protein sequences based on chaos theory is studied. Firstly, the protein sequences are transformed into numerical time series, then reconstructed phase space for the series, and calculated the related parameters of the system: delay timetand embedding dimensionm, at last the largest Lyapunov exponent is calculated by improved maximal Lyapunov exponent method. Through the calculation and comparison in the largest Lyapunov exponent of seven structures protein sequences from SCOP (Structural Classification of Proteins) database, it is found that the whole protein sequence and protein structure has no obvious correlation.
protein sequence; protein structure; chaos; the largest Lyapunov exponent; correlation
2017-10-22
江蘇省現(xiàn)代教育技術(shù)資助項(xiàng)目(2016-R-48107,2016-R-48055)
管維紅(1983—),女,江蘇連云港人,江蘇信息職業(yè)技術(shù)學(xué)院物聯(lián)網(wǎng)工程學(xué)院實(shí)驗(yàn)師.
10.3969/j.issn.1007-0834.2017.04.009
Q516
A
1007-0834(2017)04-0037-06