一種有效的基于4D圖形表示法的DNA序列相似性比較方法

2012-01-05 00:43:26黃大榮

湖北民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2012年2期

阮靜，黃大榮

(1.云南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南昆明 650009；2.重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)

隨著基因測(cè)序技術(shù)及數(shù)據(jù)庫的發(fā)展，在過去的20年里發(fā)布在GenBank數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov)里的序列數(shù)量正在以指數(shù)增長.許多序列需要知道它們的功能，或者已知功能同源性等來判定序列，因此序列比較已經(jīng)成為了一個(gè)非常重要的研究領(lǐng)域之一.近年來，出來了很多計(jì)算機(jī)和統(tǒng)計(jì)的方法來對(duì)序列的比較.一些DNA序列的圖形表示方法也隨之出現(xiàn)，比如2D圖形表示法，3D圖形表示法，4D圖形表示法[1-4].Liao等人[5-10]也提出了許多圖形表示法.同時(shí)，在這些非退化的方法中，幾何中心學(xué)的概念也被引用進(jìn)來，結(jié)合相似性及不相似性矩陣來對(duì)DNA序列進(jìn)行比較[11-12].然而，Chi等人[13]采用的4D圖形表示方法的結(jié)果也出現(xiàn)了進(jìn)化事實(shí)不相符合的相似性物種對(duì)，如人-山雞、山雞-老鼠.在Liao等人[14]用中心幾何的方法來比較11個(gè)種類的相似性中，從比較的結(jié)果來看，存在與進(jìn)化事實(shí)不太相符合的相似性物種對(duì)，如山羊-大猩猩、兔子-黑猩猩、牛-黑猩猩等.Tang等人[15]基于Z曲線的4D圖形表示法相似性比較，其結(jié)果統(tǒng)計(jì)顯著性不是很明顯.

基于以上用4D圖形表示方法對(duì)DNA序列進(jìn)行比較的思想，本文提出了一種更有效的計(jì)算DNA序列相似性及不相似性的方法，通過這樣的方法能夠避免出現(xiàn)與進(jìn)化事實(shí)不相符合的相似性物種，并且相似性與不相似性結(jié)果差異大，其統(tǒng)計(jì)顯著性很明顯

1 DNA序列的基本概述及中心幾何點(diǎn)歐式距離計(jì)算方法

DNA序列由4個(gè)堿基組成，分別是A腺嘌呤，G鳥噤呤，C胞嘧啶，T胸腺嘧啶.根據(jù)不同的化學(xué)性質(zhì)，Zhang[19]將它們分為3類，分別是：

(i)根據(jù)堿基化學(xué)結(jié)構(gòu)的分類:R(嘌呤)=A,G;Y(嘧啶)=T,C.

(ii)根據(jù)堿基官能團(tuán)的分類:M(氨基)=A,C;K(酮基)=G,T.

(iii)根據(jù)堿基配對(duì)的氫鍵強(qiáng)度分類:S(強(qiáng)氫鍵)=G,C;W=(弱氫鍵)A,T

對(duì)于每一條DNA序列本文把它平均分成兩個(gè)片段，比如對(duì)于一條DNA序列G=g1,g2,…,gN，通過平分可以把它表示成兩個(gè)片段并映射為A,B，即φ(G)=(A,B).

其中當(dāng)N為偶數(shù)時(shí)，A=φ(g1)φ(g2)…φ(gN/2),B=φ(g(N+1)/2)φ(g(N+2)/2)…φ(gN);當(dāng)N為奇數(shù)時(shí),A=φ(g1)φ(g2)…φ(g(N+1)/2),B=φ(g(N+2)/2)φ(g(N+3)/2)…φ(gN).例如對(duì)于一條DNA序列G=ATGGCT，通過上述方法可以映射成{[(1,1,1,0),(0,0,1,1/2),(1,0,0,2/3)],[(1,0,0,3/4),(0,1,0,4/5),(0,0,1,5/6)]}.

在這里引入了幾何中心點(diǎn)[18]的概念作為序列比較的指標(biāo).對(duì)任何一條DNA序列，都可以得到點(diǎn)(xi,yi,zi,si)構(gòu)成的集(i=0,1,2,…,N,其中N是被研究的DNA序列長度).設(shè)這個(gè)幾何中心點(diǎn)的坐標(biāo)為(x0,y0,z0,s0),則通過公式(1)計(jì)算如下：

(1)

通過計(jì)算，得到幾何中心坐標(biāo)為：

(2)

其中:AN,GN,CN,TN分別表示為所研究的DNA序列中堿基A,G,T和C出現(xiàn)的次數(shù).所以可以看出當(dāng)x0≤y0時(shí)，說明Gn≤Cn否則Gn≥Cn;當(dāng)y0≤z0時(shí)說明Cn≤Tn否則Cn≥Tn;當(dāng)x0≤z0時(shí)說明Gn≤Tn否則Gn≥Tn.

在本文中，對(duì)于一條DNA序列G=g1,g2…gN其映射為φ(G)=(A,B),令點(diǎn)集A的幾何中心坐標(biāo)點(diǎn)為(x00,y00,z00,s00);點(diǎn)集B的幾何中心坐標(biāo)點(diǎn)為(x11,y11,z11,s11),其中：

例如對(duì)于序列G=ATGGCT，其幾何中心坐標(biāo)為[(2/3,1/3,2/3,7/18),(1/3,1/3,1/3,143/180)].

2 DNA序列的相似性分析模型構(gòu)建

假設(shè)兩條序列的幾何中心坐為:{[(x00(i),y00(i),z00(i),s00(i)],[x11(i),y11(i),z11(i),s11(i)]}和{[(x00(j),y00(j),z00(j),s00(j)],[x11(j),y11(j),z11(j),s11(j)]},本文用歐式距離來計(jì)算向量終點(diǎn)距離dij,dij定義如下：

很顯然，歐式距離(dij)越小，說明相似性越大；反之，歐式距離越大，說明相似性越小.

表1 11個(gè)不同物種β-球蛋白基因的第一個(gè)外顯子序列的幾何中心坐標(biāo)

3 實(shí)驗(yàn)論證

為了驗(yàn)證本文所論證的DNA序列相似性的有效性，本文選取了11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子作為研究對(duì)象,并在表1中給出了這11個(gè)不同物種的β-球蛋白基因的第一個(gè)外顯子序列的幾何中心.從表2中可以看出歐式距離越小其DNA序列相似性越高，進(jìn)化上同源物種的歐式距離比進(jìn)化上非同源的物種歐式距離小很多.從結(jié)果中可以發(fā)現(xiàn)山雞與其他物種的相似性最小,其結(jié)果很顯著，這是與進(jìn)化事實(shí)相符的.因?yàn)樯诫u是非哺乳動(dòng)物,而其他10種物種都是哺乳動(dòng)物.另還發(fā)現(xiàn)負(fù)鼠與其他物種的差異也較大,因?yàn)樗潜碇形ㄒ坏挠写鼊?dòng)物.另外,最相似的物種對(duì)是人-黑猩猩、人-大猩猩、大猩猩-黑猩猩、牛-山羊、牛-兔子，從生物進(jìn)化關(guān)系來看,這是符合事實(shí)的.

表2 基于向量終點(diǎn)之間歐氏距離的11個(gè)物種的相似性矩陣

4 結(jié)論

本文在基于4D圖形表示方法的基礎(chǔ)上提出了一種更有效的DNA序列相似性或不相似性比較的方法，并對(duì)11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子進(jìn)行相似性分析,得到了很好結(jié)果.這種方法通過把DNA序列平均分成兩個(gè)片段，從而把更多的位置信息保存下來，再引用幾何中心學(xué)說的概念，利用歐式距離對(duì)這些幾何中心集合進(jìn)行計(jì)算，從而得到更加顯著的相似性和不相似性結(jié)果.與最近提出的4D方法[13-14,16-17]的相似性分析結(jié)果相比,這種方法得到的結(jié)果更接近已知的進(jìn)化事實(shí).Liao等人[14]和Tang等人[15]得出的結(jié)果沒有統(tǒng)計(jì)上的顯著性，也就是說11個(gè)物種得到的歐式距離都非常小，而本文中的結(jié)果(表3)具有相似性的物種其歐式距離均小于0.1，而相似性很小的物種其歐式距離均大于0.1，沒有同源性的物種其歐式距離均大于0.2.

[1] Nandya.A new graphical representation and analysis of DNA sequence structure I. methodology and application to globin genes[J].Curr Sci,1994,66:309-314.

[2] Randic M,Vracko M,Lers N,et al.Novel 2-D graphical representation of DNA sequences and their numerical characterization[J].Chem Phys Lett,2003,368:1-6.

[3] Randic M,Vracko M,Nandy A,et al.On 3-D graphical representation of DNA primary sequences and their numerical characterization[J].J Chem Inf Comput Sci,2000,40:1235-1244.

[4] Randic M.Graphical representations of DNA as 2-D map[J].Chem Phys Lett,2004,386:468-471.

[5] Liao B,Wang T M.Analysis of similarity/dissimilarity of DNA sequences based on 3-D graphical representation[J].Chem Phys Lett,2004,388:195-200.

[6] Liu Z B,Liao B,Zhu W,et al.A 2D graphical representation of DNA sequence based on dual nucleotides and its application[J].Int J Quantum Chem,2009,109:948-958.

[7] Liao B,Wang T M.New 2D graphical representations of DNA sequences[J].J Comput Chem,2004,25:1364-1368.

[8] Liao B.A 2D graphical representation of DNA sequence[J].Chem Phys Lett,2005,401:196-199.

[9] Liao B.Analysis of similarity/dissimilarity of DNA sequences based on a condensed curve representation[J].J Mol Struct (THEOCHEM),2005,717:199-203.

[10] Liao B,Wang T M.3-D graphical representation of D NA sequences and their numerical characterization[J].J Mol Struct (THEOCHEM),2004,681:209-212.

[11] Zhang R,Zhang C.Z curves,an intuitive tool for visualizing and analyzing the DNA sequences[J].J Biomol Struct Dyn,1994,11:767-782.

[12] Zhang C T,Zhang R,Ou H Y.The Z curve database: A graphic representation of genome sequence[J]. Bioinformatics,2003,19:593-599.

[13] Chi R,Ding K.Novel 4D numerical representation of DNA sequences[J].Chem Phys Lett,2005,407:63-67.

[14] Liao B,Tan M,Ding K.A 4D representation of DNA sequences and its application[J].Chemical Phys Letter,2005,402:380-383.

[15] Tang X C,Zhou P P,Qiu W Y.On the similarity/dissimilarity of DNA sequences based on 4D graphical representation[J].Chinese Science Bulletin,2010，55(8):701-704.

[16] Zhang C T.A symmetrical theory of DNA sequences and its applications[J].J Theor Biol,1997,187:297-306.

[17] Chenglong YU,Mo DDENG,STEPHEN S T Y.DNA sequence comparison by a novel probabilistic method[J].Information Science，2011，181：1484-1492.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種有效的基于4D圖形表示法的DNA序列相似性比較方法

1 DNA序列的基本概述及中心幾何點(diǎn)歐式距離計(jì)算方法

2 DNA序列的相似性分析模型構(gòu)建

3 實(shí)驗(yàn)論證

4 結(jié)論