阮 靜,黃大榮
(1.云南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南 昆明 650009;2.重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)
隨著基因測(cè)序技術(shù)及數(shù)據(jù)庫的發(fā)展,在過去的20年里發(fā)布在GenBank數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov)里的序列數(shù)量正在以指數(shù)增長.許多序列需要知道它們的功能,或者已知功能同源性等來判定序列,因此序列比較已經(jīng)成為了一個(gè)非常重要的研究領(lǐng)域之一.近年來,出來了很多計(jì)算機(jī)和統(tǒng)計(jì)的方法來對(duì)序列的比較.一些DNA序列的圖形表示方法也隨之出現(xiàn),比如2D圖形表示法,3D圖形表示法,4D圖形表示法[1-4].Liao等人[5-10]也提出了許多圖形表示法.同時(shí),在這些非退化的方法中,幾何中心學(xué)的概念也被引用進(jìn)來,結(jié)合相似性及不相似性矩陣來對(duì)DNA序列進(jìn)行比較[11-12].然而,Chi等人[13]采用的4D圖形表示方法的結(jié)果也出現(xiàn)了進(jìn)化事實(shí)不相符合的相似性物種對(duì),如人-山雞、山雞-老鼠.在Liao等人[14]用中心幾何的方法來比較11個(gè)種類的相似性中,從比較的結(jié)果來看,存在與進(jìn)化事實(shí)不太相符合的相似性物種對(duì),如山羊-大猩猩、兔子-黑猩猩、牛-黑猩猩等.Tang等人[15]基于Z曲線的4D圖形表示法相似性比較,其結(jié)果統(tǒng)計(jì)顯著性不是很明顯.
基于以上用4D圖形表示方法對(duì)DNA序列進(jìn)行比較的思想,本文提出了一種更有效的計(jì)算DNA序列相似性及不相似性的方法,通過這樣的方法能夠避免出現(xiàn)與進(jìn)化事實(shí)不相符合的相似性物種,并且相似性與不相似性結(jié)果差異大,其統(tǒng)計(jì)顯著性很明顯
DNA序列由4個(gè)堿基組成,分別是A腺嘌呤,G鳥噤呤,C胞嘧啶,T胸腺嘧啶.根據(jù)不同的化學(xué)性質(zhì),Zhang[19]將它們分為3類,分別是:
(i)根據(jù)堿基化學(xué)結(jié)構(gòu)的分類:R(嘌呤)=A,G;Y(嘧啶)=T,C.
(ii)根據(jù)堿基官能團(tuán)的分類:M(氨基)=A,C;K(酮基)=G,T.
(iii)根據(jù)堿基配對(duì)的氫鍵強(qiáng)度分類:S(強(qiáng)氫鍵)=G,C;W=(弱氫鍵)A,T
對(duì)于每一條DNA序列本文把它平均分成兩個(gè)片段,比如對(duì)于一條DNA序列G=g1,g2,…,gN,通過平分可以把它表示成兩個(gè)片段并映射為A,B,即φ(G)=(A,B).
其中當(dāng)N為偶數(shù)時(shí),A=φ(g1)φ(g2)…φ(gN/2),B=φ(g(N+1)/2)φ(g(N+2)/2)…φ(gN);當(dāng)N為奇數(shù)時(shí),A=φ(g1)φ(g2)…φ(g(N+1)/2),B=φ(g(N+2)/2)φ(g(N+3)/2)…φ(gN).例如對(duì)于一條DNA序列G=ATGGCT,通過上述方法可以映射成{[(1,1,1,0),(0,0,1,1/2),(1,0,0,2/3)],[(1,0,0,3/4),(0,1,0,4/5),(0,0,1,5/6)]}.
在這里引入了幾何中心點(diǎn)[18]的概念作為序列比較的指標(biāo).對(duì)任何一條DNA序列,都可以得到點(diǎn)(xi,yi,zi,si)構(gòu)成的集(i=0,1,2,…,N,其中N是被研究的DNA序列長度).設(shè)這個(gè)幾何中心點(diǎn)的坐標(biāo)為(x0,y0,z0,s0),則通過公式(1)計(jì)算如下:
(1)
通過計(jì)算,得到幾何中心坐標(biāo)為:
(2)
其中:AN,GN,CN,TN分別表示為所研究的DNA序列中堿基A,G,T和C出現(xiàn)的次數(shù).所以可以看出當(dāng)x0≤y0時(shí),說明Gn≤Cn否則Gn≥Cn;當(dāng)y0≤z0時(shí)說明Cn≤Tn否則Cn≥Tn;當(dāng)x0≤z0時(shí)說明Gn≤Tn否則Gn≥Tn.
在本文中,對(duì)于一條DNA序列G=g1,g2…gN其映射為φ(G)=(A,B),令點(diǎn)集A的幾何中心坐標(biāo)點(diǎn)為(x00,y00,z00,s00);點(diǎn)集B的幾何中心坐標(biāo)點(diǎn)為(x11,y11,z11,s11),其中:
例如對(duì)于序列G=ATGGCT,其幾何中心坐標(biāo)為[(2/3,1/3,2/3,7/18),(1/3,1/3,1/3,143/180)].
假設(shè)兩條序列的幾何中心坐為:{[(x00(i),y00(i),z00(i),s00(i)],[x11(i),y11(i),z11(i),s11(i)]}和{[(x00(j),y00(j),z00(j),s00(j)],[x11(j),y11(j),z11(j),s11(j)]},本文用歐式距離來計(jì)算向量終點(diǎn)距離dij,dij定義如下:
很顯然,歐式距離(dij)越小,說明相似性越大;反之,歐式距離越大,說明相似性越小.
表1 11個(gè)不同物種β-球蛋白基因的第一個(gè)外顯子序列的幾何中心坐標(biāo)
為了驗(yàn)證本文所論證的DNA序列相似性的有效性,本文選取了11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子作為研究對(duì)象,并在表1中給出了這11個(gè)不同物種的β-球蛋白基因的第一個(gè)外顯子序列的幾何中心.從表2中可以看出歐式距離越小其DNA序列相似性越高,進(jìn)化上同源物種的歐式距離比進(jìn)化上非同源的物種歐式距離小很多.從結(jié)果中可以發(fā)現(xiàn)山雞與其他物種的相似性最小,其結(jié)果很顯著,這是與進(jìn)化事實(shí)相符的.因?yàn)樯诫u是非哺乳動(dòng)物,而其他10種物種都是哺乳動(dòng)物.另還發(fā)現(xiàn)負(fù)鼠與其他物種的差異也較大,因?yàn)樗潜碇形ㄒ坏挠写鼊?dòng)物.另外,最相似的物種對(duì)是人-黑猩猩、人-大猩猩、大猩猩-黑猩猩、牛-山羊、牛-兔子,從生物進(jìn)化關(guān)系來看,這是符合事實(shí)的.
表2 基于向量終點(diǎn)之間歐氏距離的11個(gè)物種的相似性矩陣
本文在基于4D圖形表示方法的基礎(chǔ)上提出了一種更有效的DNA序列相似性或不相似性比較的方法,并對(duì)11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子進(jìn)行相似性分析,得到了很好結(jié)果.這種方法通過把DNA序列平均分成兩個(gè)片段,從而把更多的位置信息保存下來,再引用幾何中心學(xué)說的概念,利用歐式距離對(duì)這些幾何中心集合進(jìn)行計(jì)算,從而得到更加顯著的相似性和不相似性結(jié)果.與最近提出的4D方法[13-14,16-17]的相似性分析結(jié)果相比,這種方法得到的結(jié)果更接近已知的進(jìn)化事實(shí).Liao等人[14]和Tang等人[15]得出的結(jié)果沒有統(tǒng)計(jì)上的顯著性,也就是說11個(gè)物種得到的歐式距離都非常小,而本文中的結(jié)果(表3)具有相似性的物種其歐式距離均小于0.1,而相似性很小的物種其歐式距離均大于0.1,沒有同源性的物種其歐式距離均大于0.2.
[1] Nandya.A new graphical representation and analysis of DNA sequence structure I. methodology and application to globin genes[J].Curr Sci,1994,66:309-314.
[2] Randic M,Vracko M,Lers N,et al.Novel 2-D graphical representation of DNA sequences and their numerical characterization[J].Chem Phys Lett,2003,368:1-6.
[3] Randic M,Vracko M,Nandy A,et al.On 3-D graphical representation of DNA primary sequences and their numerical characterization[J].J Chem Inf Comput Sci,2000,40:1235-1244.
[4] Randic M.Graphical representations of DNA as 2-D map[J].Chem Phys Lett,2004,386:468-471.
[5] Liao B,Wang T M.Analysis of similarity/dissimilarity of DNA sequences based on 3-D graphical representation[J].Chem Phys Lett,2004,388:195-200.
[6] Liu Z B,Liao B,Zhu W,et al.A 2D graphical representation of DNA sequence based on dual nucleotides and its application[J].Int J Quantum Chem,2009,109:948-958.
[7] Liao B,Wang T M.New 2D graphical representations of DNA sequences[J].J Comput Chem,2004,25:1364-1368.
[8] Liao B.A 2D graphical representation of DNA sequence[J].Chem Phys Lett,2005,401:196-199.
[9] Liao B.Analysis of similarity/dissimilarity of DNA sequences based on a condensed curve representation[J].J Mol Struct (THEOCHEM),2005,717:199-203.
[10] Liao B,Wang T M.3-D graphical representation of D NA sequences and their numerical characterization[J].J Mol Struct (THEOCHEM),2004,681:209-212.
[11] Zhang R,Zhang C.Z curves,an intuitive tool for visualizing and analyzing the DNA sequences[J].J Biomol Struct Dyn,1994,11:767-782.
[12] Zhang C T,Zhang R,Ou H Y.The Z curve database: A graphic representation of genome sequence[J]. Bioinformatics,2003,19:593-599.
[13] Chi R,Ding K.Novel 4D numerical representation of DNA sequences[J].Chem Phys Lett,2005,407:63-67.
[14] Liao B,Tan M,Ding K.A 4D representation of DNA sequences and its application[J].Chemical Phys Letter,2005,402:380-383.
[15] Tang X C,Zhou P P,Qiu W Y.On the similarity/dissimilarity of DNA sequences based on 4D graphical representation[J].Chinese Science Bulletin,2010,55(8):701-704.
[16] Zhang C T.A symmetrical theory of DNA sequences and its applications[J].J Theor Biol,1997,187:297-306.
[17] Chenglong YU,Mo DDENG,STEPHEN S T Y.DNA sequence comparison by a novel probabilistic method[J].Information Science,2011,181:1484-1492.