国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于概率轉(zhuǎn)移矩陣的氨基酸連接偏好性研究

2012-01-11 05:10:22唐旭清
關(guān)鍵詞:氨基酸概率蛋白質(zhì)

張 堃, 唐旭清

(江南大學(xué) 理學(xué)院,江蘇 無(wú)錫 214122)

基于概率轉(zhuǎn)移矩陣的氨基酸連接偏好性研究

張 堃, 唐旭清*

(江南大學(xué) 理學(xué)院,江蘇 無(wú)錫 214122)

在Markov模型的基礎(chǔ)上,提出了狀態(tài)空間上合并映射的概念,以及合并過程下轉(zhuǎn)移概率的計(jì)算方法。在已有氨基酸分類方法的基礎(chǔ)上,結(jié)合Markov模型的概率轉(zhuǎn)移矩陣,對(duì)氨基酸連接的偏好性進(jìn)行了研究。結(jié)果表明:同一家族的蛋白質(zhì)序列的氨基酸連接具有一定的偏好性,這種偏好性與氨基酸的分類有關(guān),從而進(jìn)一步說明了分類的科學(xué)性,同時(shí)這種偏好性對(duì)氨基酸序列的預(yù)測(cè)具有一定的作用。

氨基酸分類;合并映射;概率轉(zhuǎn)移矩陣;偏好性

蛋白質(zhì)空間結(jié)構(gòu)的所有信息均隱藏在蛋白質(zhì)的線性結(jié)構(gòu)里面,確切的說,均隱藏在氨基酸序列里面。因此研究蛋白質(zhì)序列就成了生物信息學(xué)研究領(lǐng)域的一個(gè)關(guān)鍵問題。目前已經(jīng)發(fā)現(xiàn)的構(gòu)成蛋白質(zhì)分子鏈上的氨基酸類型有20種之多,直接研究蛋白質(zhì)分子的折疊問題有困難,用分類法研究蛋白質(zhì)結(jié)構(gòu),已有多種嘗試,三聯(lián)子串(氨基酸)依據(jù)其物理和化學(xué)特征,或者是依據(jù)氨基酸的空間結(jié)構(gòu)特征來進(jìn)行的不同的分類方式,目前的研究主要集中在幾種簡(jiǎn)化的模型上。K.A.Dill等人[1]提出的HP模型將氨基酸分為4類。石秀凡及朱平等人[2]提出的擬氨基酸編碼方法將氨基酸分為16類,杜曉林等人[3]應(yīng)用信息聚類的方法將氨基酸分為5類,Soumalee Basu等人[4]在蛋白質(zhì)序列的混沌游走表達(dá)一文中將20種氨基酸分為12類研究它們的分布情況。分類的依據(jù)和偏重不同,分類結(jié)果也不同。而這些分類事實(shí)上是一種狀態(tài)合并的問題,即將具有一定關(guān)聯(lián)的對(duì)象合并到一個(gè)類中,不同的分類對(duì)應(yīng)著不同的粒度劃分。在實(shí)際問題求解中,粒度劃分是動(dòng)態(tài)的,常用的氨基酸分類方法都是靜態(tài)的。Markov過程是由其轉(zhuǎn)移概率矩陣和初始概率分布構(gòu)成的,其中的概率轉(zhuǎn)移矩陣描述了其動(dòng)態(tài)性。馬氏鏈預(yù)測(cè)法[5]是通過對(duì)事物不同狀態(tài)的初始概率及狀態(tài)之間的轉(zhuǎn)移概率的研究,預(yù)測(cè)事物的未來狀態(tài),在股票預(yù)測(cè)[6],外匯收益預(yù)測(cè)[7],基因預(yù)測(cè)[8-9]等方面都有廣泛的應(yīng)用。作者針對(duì) Markov模型,結(jié)合氨基酸分類方法,對(duì)氨基酸連接的偏好性進(jìn)行了研究,并以木聚糖酶家族[10]的蛋白質(zhì)序列為例進(jìn)行了分析。

1 材料與方法

1.1 數(shù)據(jù)來源

文中的數(shù)據(jù)來自Swiss-prot和Genebank中木聚糖酶家族的6條蛋白質(zhì)序列O43097,P07528,P14768,P23030,P19127,P35811進(jìn)行研究。另外文中的相關(guān)性分析是通過統(tǒng)計(jì)軟件SPSS來完成的。

1.2 基于粒度下的Markov鏈

1.2.1 合并映射設(shè) {X n,n≥0}有限狀態(tài)空間X上的齊次Markov鏈,其中X= {x1,x2,…,x N},如果將X中N個(gè)狀態(tài)分類成M個(gè)狀態(tài)分類成C={C(1),C(2),…,C(M)},(M<N)。對(duì)于給定的分類,建立了一個(gè)從X= {x1,x2,…,x N}到Y(jié)= {y1,y2,…,y M}的一個(gè)映射φ:?x k∈X,?y l∈Y,φ(x k)=y(tǒng)1?k∈C(l),其中映射φ稱為合并映射或壓縮映射,C稱為X的一個(gè)劃分。同時(shí)這一過程{Y n=φ(X n)}就成為相對(duì)于映射φ的合并過程[11]。

事實(shí)上,這里所給出的合并映射φ所起的作用就是給定了原始狀態(tài)空間X上的一個(gè)商空間[12-13]Y= [X],以這個(gè)商空間作為狀態(tài)空間(或觀測(cè)空間)來研究原始馬爾科夫鏈在這較粗狀態(tài)空間(即X的商空間[X]下)的性質(zhì)。在隨機(jī)線性動(dòng)力系統(tǒng)中,若給定輸入 — 輸出動(dòng)力系統(tǒng):x n+1=Ax n,y n=Cx n,則在什么樣的條件下,y n具有線性動(dòng)力系統(tǒng)的性質(zhì),特別是當(dāng)x n是隨機(jī)變量X n的概率分布時(shí),這個(gè)序列與Markov鏈相應(yīng),這里A是Markov鏈{X n,n≥0}的轉(zhuǎn)移矩陣,而矩陣C就是壓縮映射φ,即y n是隨機(jī)變量φ(X n)的概率分布。1.2.2 合并過程的概率轉(zhuǎn)移矩陣 若Markov鏈{Xn,n≥0}的狀態(tài)空間為I= {1,2,…,N},設(shè)φ為從I到集合Y= {y1,y2,…,y M}(M<N)的合并映射,即,?k∈I,?y l∈Y,φ(k)=y(tǒng) l?k∈φ-1(y l),此時(shí)稱Y為I的商空間,{Y n=φ(Xn)}就成為相對(duì)于映射φ的合并過程。若{Xn,n≥0}的初始概率向量為X0= (π1,π2,…,πN),則

令ast=P(Y1=y(tǒng) t|Y0=y(tǒng)s),矩陣A=(ast)s,t∈Y為合并過程{Y n=φ(X n)}在狀態(tài)空間Y上的轉(zhuǎn)移矩陣。

1.2.3 應(yīng)用舉例 對(duì)于一條由610個(gè)氨基酸構(gòu)成的蛋白質(zhì)序列來說,作如下假設(shè),設(shè)610個(gè)位置為610個(gè)時(shí)刻,{A,F(xiàn),I,L,M,P,V,W,Y,T,S,Q,N,G,C,H,K,R,D,E}為由20種氨基酸構(gòu)成的狀態(tài)空間,該狀態(tài)空間對(duì)應(yīng)于一個(gè)號(hào)碼集合I= {1,2,…,20},令X(n)表示氨基酸n后面所連接的氨基酸種類,顯然X(n)是一個(gè)隨機(jī)變量,{X(n),n=1,2,…,20}是一個(gè)離散參數(shù)的隨機(jī)過程,并且每個(gè)氨基酸后面所連接氨基酸與前面的狀態(tài)無(wú)關(guān),只與蛋白質(zhì)序列本身有關(guān),氨基酸i與氨基酸j連接的概率與i所在的時(shí)刻無(wú)關(guān),因此氨基酸之間的連接過程可以看成是一個(gè)Markov過程。于是Markov預(yù)測(cè)模型可以定義為一個(gè)三元組(X,P,π),其中X為20種氨基酸構(gòu)成的狀態(tài)空間,P為一階概率轉(zhuǎn)移矩陣,π為初始分布。定義X到Y(jié)1= {y1,y2,y3,y4,y5,y6,y7,y8,y9,y10,y11,y12}上 的 合 并 映 射φ1,X到Y(jié)2={y1,y2,y3,y4}上的合并映射φ2。

φ1(x i)=y(tǒng) i,x i∈ {{C},{H},{N},{P},{Q},{W},{Y,F(xiàn)},{A,G},{S,T},{K,R},{D,E},{I,L,V,M}}

φ2(x j)=y(tǒng) i,x j∈ {{A,F(xiàn),I,L,M,P,V,W},{Y,T,S,Q,N,G,C},{H,K,R},{D,E}}

這樣我們就得到了6個(gè)初始概率和6個(gè)20×20的一階概率轉(zhuǎn)移矩陣,通過合并映射φ1,φ2和公式(1)可得合并后的12×12,4×4轉(zhuǎn)移矩陣。

2 結(jié)果與分析

2.1 相關(guān)性分析

衡量事物之間或變量之間線性相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來,這個(gè)過程就是相關(guān)分析[14]。它是研究變量間密切程度的一種常用統(tǒng)計(jì)方法。主要分為線性相關(guān)分析,偏相關(guān)分析,距離相關(guān)分析3類,作者主要研究線性相關(guān)分析。線性相關(guān)分析是研究?jī)蓚€(gè)變量間線性關(guān)系的程度,相關(guān)系數(shù)是描述這種線性關(guān)系程度和方向的統(tǒng)計(jì)量,用r來描述,若變量Y與X間是函數(shù)關(guān)系,則r=1或r=-1;如果變量Y與X間是統(tǒng)計(jì)關(guān)系,則-1<r<1,一般地,|r|>0.95存在顯著性相關(guān);|r|>0.8高度相關(guān);0.5≤|r|<0.8中度相關(guān);0.3≤|r|<0.5低度相關(guān);|r|<0.3關(guān)系極弱,認(rèn)為不相關(guān)。

在1.2.3節(jié)中得到了6條序列的12×12和4×4概率轉(zhuǎn)移矩陣,以序列O43097為例,令α=(α1T,…,α2T,α12T)T,其中αi表示該序列所對(duì)應(yīng)的12×12概率轉(zhuǎn)移矩陣中的第i列,則α為含144個(gè)分量的列向量,同樣的方法可以得到其他五條序列的所對(duì)應(yīng)的列向量,利用SPSS軟件對(duì)這六個(gè)列向量進(jìn)行了相關(guān)性分析,結(jié)果如表2.1所示。按照同樣的步驟可以得到4×4概率轉(zhuǎn)移矩陣所對(duì)應(yīng)的列向量,相關(guān)性分析如表2.2所示。

表1 合并映射φ1下6條序列概率轉(zhuǎn)移矩陣的相關(guān)性分析Tab.1 Correlation analysis of the probability transition matrix of the six sequences under the lumping mapφ1

續(xù)表1

表2 合并映射φ2下6條序列概率轉(zhuǎn)移矩陣的相關(guān)性分析Tab.2 Correlation analysis of the probability transition matrix of the six sequences under the lumping mapφ2

在上述相關(guān)性分析表中,Pearson Correlation表示的是相關(guān)系數(shù)r,Sig.表示的是顯著性概率,N表示的是向量中分量的個(gè)數(shù)。

從表1中可以看出除序列O43097和序列P07528之間的顯著性概率值介于0.01和0.05之間外,其他序列間的顯著性概率均小于0.01,從表2中可以看出,所有序列之間的顯著性概率值都小于0.01,均高度相關(guān),而且相關(guān)系數(shù)均大于0.7,相關(guān)性都非常顯著。這說明在映射φ1,φ2下6條序列都是高度相關(guān)的,因此可以將6條序列合并處理,得到了合并序列所對(duì)應(yīng)的20×20概率轉(zhuǎn)移矩陣及初始分布。

2.2 合并后的概率轉(zhuǎn)移矩陣

根據(jù)1.1節(jié)得到的數(shù)據(jù),包括木聚糖酶家族的6條蛋白質(zhì)序列,按照1.2.3節(jié)定義的合并映射以及公式(1),得到了2.1節(jié)中合并序列在φ1,φ2下的概率轉(zhuǎn)移矩陣,如表3和表4所示。矩陣中的元素表示兩個(gè)氨基酸類之間的連接概率,例如,0.025 641表示的是氨基酸C后面連接的氨基酸為H的概率是0.025 641,0.307 692表示的是氨基酸C后面連接的氨基酸為A或者G的概率為0.307 692。

表3 合并序列在φ1下的概率轉(zhuǎn)移矩陣Tab.3 Probability transition matrix of the lumped sequence under the lumping mapφ3

表4 合并序列在φ2下概率轉(zhuǎn)移矩陣Tab.4 Probability transition matrix of the lumped sequence under the lumping mapφ2

觀察表3和表4,可以發(fā)現(xiàn)氨基酸之間的連接具有一定的偏好性,通過比較兩種分類方式的轉(zhuǎn)移概率,發(fā)現(xiàn)該家族的蛋白質(zhì)序列均偏好使用氨基酸A,G,S,T,I,L,V,M 均不偏好使用氨基酸 H,K,R,D,E等,同時(shí)還發(fā)現(xiàn)氨基酸之間連接的偏好性與氨基酸的分類有關(guān),極性不帶電荷R基團(tuán)氨基酸,即{C,N,Y,G,Q,S,T},后面連接{C,N,Y,G,Q,S,T}的概率接近二分之一,而與帶正電荷的氨基酸{H,K,R}及帶負(fù)電荷的氨基酸{D,E}相連的概率則非常小。

3 結(jié)語(yǔ)

氨基酸之間的連接并非隨機(jī)的均勻的,而是具有一定偏好性的,作者在Markov模型的基礎(chǔ)上,結(jié)合已有氨基酸的分類方法,提出了一種基于概率轉(zhuǎn)移矩陣的氨基酸連接偏好性的研究方法,并以木聚糖酶家族的蛋白質(zhì)序列為例進(jìn)行了系統(tǒng)的闡述。研究表明,氨基酸之間的連接具有一定的偏好性,這種偏好性與氨基酸的分類密切相關(guān),同時(shí)與密碼子使用的偏好性有關(guān)。對(duì)于木聚糖酶家族而言,極性不帶電荷R基團(tuán)氨基酸,后面連接極性不帶電荷R基團(tuán)氨基酸的概率接近二分之一,而與帶正電荷的氨基酸及帶負(fù)電荷的氨基酸相連的概率則非常小。這些氨基酸之間連接的偏好性研究對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)具有一定的指導(dǎo)意義,一方面可以進(jìn)一步說明氨基酸分類方式的科學(xué)性,同時(shí)對(duì)蛋白質(zhì)氨基酸序列的預(yù)測(cè)有一定的作用,相對(duì)于實(shí)驗(yàn)室測(cè)序、拼裝這樣預(yù)測(cè)節(jié)省人力物力財(cái)力,這將是下一步研究的主要內(nèi)容。

(References):

[1]Lau K F,Dill K A.A lattice statistical mechanics model of the conformation and sequence spaces of proteins[J].Macromolecules,1989,22:3986.

[2]朱平,高雷,徐振源.基于擬氨基酸編碼方法下的同義密碼子的偏好性仍與結(jié)合強(qiáng)度密切相關(guān)[J].物理學(xué)報(bào),2009,6:714-719.

ZHU Ping,GAO Lei,XU Zhen-yuan.The usage degree of synonymous codon is close correlated with the strength of combination based on the quasi-amino acid coding[J].Acta Physica Sinica,2009,6:714-719.(in Chinese)

[3]杜曉林,郝玉蘭.氨基酸數(shù)量化分類的研究初探[J].生物數(shù)學(xué)學(xué)報(bào),1994,9(5):105-107.

DU Xiao-lin,HAO Yu-lan.Preliminary study on the quantified Classification of amino acid[J].Journal of Biomathematiccs,1994,9(5):105-107.(in Chinese)

[4]Soumalee B,Archana P,Chitra D,et al.Chaos game representation of proteins[J].Journal of Molecular Graphics and Modelling,1997,15:279-289.

[5]Huseyin P,Wenliang D,Sahin R,et al.Private predictions on hidden markov models[J].Artifical Intelligence Review,2010,34(1):153-172.

[6]Md.Rafiul H,Baikunth N,Michael K.A fusion model of HMM,ANN and GA for stock market forecasting[J].Expert Systems with Applications,2007,33:171-180.

[7]Dueker M,Christopher J.Neely.Can Markov switching models predict excess foreign exchange returns?[J].Journal of Banking & Finance,2007,31(2):279-296.

[8]馬寶山,朱義勝.基于隱馬爾科夫模型的基因預(yù)測(cè)算法[J].大連海事大學(xué)學(xué)報(bào),2008,34(4):41-44.

MA Bao-shan,ZHU Yi-sheng.Gene-prediction algorithm based on hidden Markov model[J].Journal of Dalian Maritime University,2008,34(4):41-44.(in Chinese)

[9]張新生,王梓坤.生命遺傳信息中若干數(shù)學(xué)問題[J].科學(xué)通報(bào),2000,45(2):113-119.

ZHANG Xin-sheng,WANG Zi-kun.Several methematical problems of genetic information of life[J].Chinese Science Bulletin,2000,45(2):113-119.(in Chinese)

[10]劉亮偉,楊海玉,胡瑜,等.F/10木聚糖酶研究進(jìn)展[J].食品與生物技術(shù)學(xué)報(bào),2009,6:727-732.

LIU Liang-wei,YANG Hai-yu,HU Yu,et al.A review of F/10 xylanase[J].Journal of Food Science and Biotechnology,2009,6:727-732.(in Chinese)

[11]Leonid G,James L.Markov property for a function of a markov chain:A linear algebra approach[J].Linear Algebra and its Applications,2005,404:85-117.

[12]張鈴,張鈸.問題求解理論與應(yīng)用:商空間粒度計(jì)算理論及應(yīng)用[M].北京:清華大學(xué)出版社,2007.

[13]Tang X Q,Zhu P,Cheng J X.The structural clustering and analysis of metric based on granular space[J].Pattern Recognition,2010,43:3768-3786.

[14]朱建平,殷瑞飛.spss在統(tǒng)計(jì)分析中的應(yīng)用[M].北京:清華大學(xué)出版社,2007.

Research on the Connection Bias of Amino Acids Based on Probability Transition Matrix

ZH ANGKun,TANGXu-qing*

(School of Science,Jiangnan University,Wuxi 214122,China)

In this manuscript,a novel concept of lumping map and a computing method of the transition probability in lumped process were suggested based on Markov model,to investigate the connection bias of amino acids.The results demonstrated that the connection of amino acids had a particular preference which was related to the classification of amino acids,and further verified the scientific of the classification of amino acids.At the same time,the preference would give some help for the prediction of amino acids sequence.

classification of amino acids,lumping map,probability transition matrix,bias

Q 71;O 29

A

1673-1689(2012)01-0106-06

2011-01-03

唐旭清(1963-),男,安徽望江人,工學(xué)博士,教授,主要從事智能計(jì)算,生態(tài)系統(tǒng)建模與仿真及生物信息學(xué)研究。Email:txq5139@jiangnan.edu.cn

猜你喜歡
氨基酸概率蛋白質(zhì)
蛋白質(zhì)自由
肝博士(2022年3期)2022-06-30 02:48:48
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
人工智能與蛋白質(zhì)結(jié)構(gòu)
海外星云(2021年9期)2021-10-14 07:26:10
概率與統(tǒng)計(jì)(二)
概率與統(tǒng)計(jì)(一)
月桂酰丙氨基酸鈉的抑菌性能研究
UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
中成藥(2018年1期)2018-02-02 07:20:05
蛋白質(zhì)計(jì)算問題歸納
一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
桃源县| 安塞县| 宝山区| 焦作市| 南昌市| 都昌县| 鱼台县| 平阳县| 石河子市| 自治县| 县级市| 奉化市| 福泉市| 磐石市| 明溪县| 富民县| 凉城县| 交口县| 沾化县| 北碚区| 遂宁市| 乡城县| 皮山县| 高陵县| 六枝特区| 武城县| 湖州市| 吴忠市| 凤阳县| 洱源县| 翼城县| 汶川县| 调兵山市| 新晃| 凭祥市| 德惠市| 镇平县| 彰化市| 云和县| 彰武县| 虹口区|