国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種有效的基于4D圖形表示法的DNA序列相似性比較方法

2012-01-05 00:43:26黃大榮
關(guān)鍵詞:表示法歐式相似性

阮 靜,黃大榮

(1.云南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南 昆明 650009;2.重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)

隨著基因測(cè)序技術(shù)及數(shù)據(jù)庫的發(fā)展,在過去的20年里發(fā)布在GenBank數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov)里的序列數(shù)量正在以指數(shù)增長.許多序列需要知道它們的功能,或者已知功能同源性等來判定序列,因此序列比較已經(jīng)成為了一個(gè)非常重要的研究領(lǐng)域之一.近年來,出來了很多計(jì)算機(jī)和統(tǒng)計(jì)的方法來對(duì)序列的比較.一些DNA序列的圖形表示方法也隨之出現(xiàn),比如2D圖形表示法,3D圖形表示法,4D圖形表示法[1-4].Liao等人[5-10]也提出了許多圖形表示法.同時(shí),在這些非退化的方法中,幾何中心學(xué)的概念也被引用進(jìn)來,結(jié)合相似性及不相似性矩陣來對(duì)DNA序列進(jìn)行比較[11-12].然而,Chi等人[13]采用的4D圖形表示方法的結(jié)果也出現(xiàn)了進(jìn)化事實(shí)不相符合的相似性物種對(duì),如人-山雞、山雞-老鼠.在Liao等人[14]用中心幾何的方法來比較11個(gè)種類的相似性中,從比較的結(jié)果來看,存在與進(jìn)化事實(shí)不太相符合的相似性物種對(duì),如山羊-大猩猩、兔子-黑猩猩、牛-黑猩猩等.Tang等人[15]基于Z曲線的4D圖形表示法相似性比較,其結(jié)果統(tǒng)計(jì)顯著性不是很明顯.

基于以上用4D圖形表示方法對(duì)DNA序列進(jìn)行比較的思想,本文提出了一種更有效的計(jì)算DNA序列相似性及不相似性的方法,通過這樣的方法能夠避免出現(xiàn)與進(jìn)化事實(shí)不相符合的相似性物種,并且相似性與不相似性結(jié)果差異大,其統(tǒng)計(jì)顯著性很明顯

1 DNA序列的基本概述及中心幾何點(diǎn)歐式距離計(jì)算方法

DNA序列由4個(gè)堿基組成,分別是A腺嘌呤,G鳥噤呤,C胞嘧啶,T胸腺嘧啶.根據(jù)不同的化學(xué)性質(zhì),Zhang[19]將它們分為3類,分別是:

(i)根據(jù)堿基化學(xué)結(jié)構(gòu)的分類:R(嘌呤)=A,G;Y(嘧啶)=T,C.

(ii)根據(jù)堿基官能團(tuán)的分類:M(氨基)=A,C;K(酮基)=G,T.

(iii)根據(jù)堿基配對(duì)的氫鍵強(qiáng)度分類:S(強(qiáng)氫鍵)=G,C;W=(弱氫鍵)A,T

對(duì)于每一條DNA序列本文把它平均分成兩個(gè)片段,比如對(duì)于一條DNA序列G=g1,g2,…,gN,通過平分可以把它表示成兩個(gè)片段并映射為A,B,即φ(G)=(A,B).

其中當(dāng)N為偶數(shù)時(shí),A=φ(g1)φ(g2)…φ(gN/2),B=φ(g(N+1)/2)φ(g(N+2)/2)…φ(gN);當(dāng)N為奇數(shù)時(shí),A=φ(g1)φ(g2)…φ(g(N+1)/2),B=φ(g(N+2)/2)φ(g(N+3)/2)…φ(gN).例如對(duì)于一條DNA序列G=ATGGCT,通過上述方法可以映射成{[(1,1,1,0),(0,0,1,1/2),(1,0,0,2/3)],[(1,0,0,3/4),(0,1,0,4/5),(0,0,1,5/6)]}.

在這里引入了幾何中心點(diǎn)[18]的概念作為序列比較的指標(biāo).對(duì)任何一條DNA序列,都可以得到點(diǎn)(xi,yi,zi,si)構(gòu)成的集(i=0,1,2,…,N,其中N是被研究的DNA序列長度).設(shè)這個(gè)幾何中心點(diǎn)的坐標(biāo)為(x0,y0,z0,s0),則通過公式(1)計(jì)算如下:

(1)

通過計(jì)算,得到幾何中心坐標(biāo)為:

(2)

其中:AN,GN,CN,TN分別表示為所研究的DNA序列中堿基A,G,T和C出現(xiàn)的次數(shù).所以可以看出當(dāng)x0≤y0時(shí),說明Gn≤Cn否則Gn≥Cn;當(dāng)y0≤z0時(shí)說明Cn≤Tn否則Cn≥Tn;當(dāng)x0≤z0時(shí)說明Gn≤Tn否則Gn≥Tn.

在本文中,對(duì)于一條DNA序列G=g1,g2…gN其映射為φ(G)=(A,B),令點(diǎn)集A的幾何中心坐標(biāo)點(diǎn)為(x00,y00,z00,s00);點(diǎn)集B的幾何中心坐標(biāo)點(diǎn)為(x11,y11,z11,s11),其中:

例如對(duì)于序列G=ATGGCT,其幾何中心坐標(biāo)為[(2/3,1/3,2/3,7/18),(1/3,1/3,1/3,143/180)].

2 DNA序列的相似性分析模型構(gòu)建

假設(shè)兩條序列的幾何中心坐為:{[(x00(i),y00(i),z00(i),s00(i)],[x11(i),y11(i),z11(i),s11(i)]}和{[(x00(j),y00(j),z00(j),s00(j)],[x11(j),y11(j),z11(j),s11(j)]},本文用歐式距離來計(jì)算向量終點(diǎn)距離dij,dij定義如下:

很顯然,歐式距離(dij)越小,說明相似性越大;反之,歐式距離越大,說明相似性越小.

表1 11個(gè)不同物種β-球蛋白基因的第一個(gè)外顯子序列的幾何中心坐標(biāo)

3 實(shí)驗(yàn)論證

為了驗(yàn)證本文所論證的DNA序列相似性的有效性,本文選取了11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子作為研究對(duì)象,并在表1中給出了這11個(gè)不同物種的β-球蛋白基因的第一個(gè)外顯子序列的幾何中心.從表2中可以看出歐式距離越小其DNA序列相似性越高,進(jìn)化上同源物種的歐式距離比進(jìn)化上非同源的物種歐式距離小很多.從結(jié)果中可以發(fā)現(xiàn)山雞與其他物種的相似性最小,其結(jié)果很顯著,這是與進(jìn)化事實(shí)相符的.因?yàn)樯诫u是非哺乳動(dòng)物,而其他10種物種都是哺乳動(dòng)物.另還發(fā)現(xiàn)負(fù)鼠與其他物種的差異也較大,因?yàn)樗潜碇形ㄒ坏挠写鼊?dòng)物.另外,最相似的物種對(duì)是人-黑猩猩、人-大猩猩、大猩猩-黑猩猩、牛-山羊、牛-兔子,從生物進(jìn)化關(guān)系來看,這是符合事實(shí)的.

表2 基于向量終點(diǎn)之間歐氏距離的11個(gè)物種的相似性矩陣

4 結(jié)論

本文在基于4D圖形表示方法的基礎(chǔ)上提出了一種更有效的DNA序列相似性或不相似性比較的方法,并對(duì)11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子進(jìn)行相似性分析,得到了很好結(jié)果.這種方法通過把DNA序列平均分成兩個(gè)片段,從而把更多的位置信息保存下來,再引用幾何中心學(xué)說的概念,利用歐式距離對(duì)這些幾何中心集合進(jìn)行計(jì)算,從而得到更加顯著的相似性和不相似性結(jié)果.與最近提出的4D方法[13-14,16-17]的相似性分析結(jié)果相比,這種方法得到的結(jié)果更接近已知的進(jìn)化事實(shí).Liao等人[14]和Tang等人[15]得出的結(jié)果沒有統(tǒng)計(jì)上的顯著性,也就是說11個(gè)物種得到的歐式距離都非常小,而本文中的結(jié)果(表3)具有相似性的物種其歐式距離均小于0.1,而相似性很小的物種其歐式距離均大于0.1,沒有同源性的物種其歐式距離均大于0.2.

[1] Nandya.A new graphical representation and analysis of DNA sequence structure I. methodology and application to globin genes[J].Curr Sci,1994,66:309-314.

[2] Randic M,Vracko M,Lers N,et al.Novel 2-D graphical representation of DNA sequences and their numerical characterization[J].Chem Phys Lett,2003,368:1-6.

[3] Randic M,Vracko M,Nandy A,et al.On 3-D graphical representation of DNA primary sequences and their numerical characterization[J].J Chem Inf Comput Sci,2000,40:1235-1244.

[4] Randic M.Graphical representations of DNA as 2-D map[J].Chem Phys Lett,2004,386:468-471.

[5] Liao B,Wang T M.Analysis of similarity/dissimilarity of DNA sequences based on 3-D graphical representation[J].Chem Phys Lett,2004,388:195-200.

[6] Liu Z B,Liao B,Zhu W,et al.A 2D graphical representation of DNA sequence based on dual nucleotides and its application[J].Int J Quantum Chem,2009,109:948-958.

[7] Liao B,Wang T M.New 2D graphical representations of DNA sequences[J].J Comput Chem,2004,25:1364-1368.

[8] Liao B.A 2D graphical representation of DNA sequence[J].Chem Phys Lett,2005,401:196-199.

[9] Liao B.Analysis of similarity/dissimilarity of DNA sequences based on a condensed curve representation[J].J Mol Struct (THEOCHEM),2005,717:199-203.

[10] Liao B,Wang T M.3-D graphical representation of D NA sequences and their numerical characterization[J].J Mol Struct (THEOCHEM),2004,681:209-212.

[11] Zhang R,Zhang C.Z curves,an intuitive tool for visualizing and analyzing the DNA sequences[J].J Biomol Struct Dyn,1994,11:767-782.

[12] Zhang C T,Zhang R,Ou H Y.The Z curve database: A graphic representation of genome sequence[J]. Bioinformatics,2003,19:593-599.

[13] Chi R,Ding K.Novel 4D numerical representation of DNA sequences[J].Chem Phys Lett,2005,407:63-67.

[14] Liao B,Tan M,Ding K.A 4D representation of DNA sequences and its application[J].Chemical Phys Letter,2005,402:380-383.

[15] Tang X C,Zhou P P,Qiu W Y.On the similarity/dissimilarity of DNA sequences based on 4D graphical representation[J].Chinese Science Bulletin,2010,55(8):701-704.

[16] Zhang C T.A symmetrical theory of DNA sequences and its applications[J].J Theor Biol,1997,187:297-306.

[17] Chenglong YU,Mo DDENG,STEPHEN S T Y.DNA sequence comparison by a novel probabilistic method[J].Information Science,2011,181:1484-1492.

猜你喜歡
表示法歐式相似性
有趣的數(shù)字表示法
一類上三角算子矩陣的相似性與酉相似性
淺析當(dāng)代中西方繪畫的相似性
基于Creo軟件的石材歐式壁爐三維造型設(shè)計(jì)
石材(2020年2期)2020-03-16 13:12:56
一類特殊混合跳擴(kuò)散Black-Scholes模型的歐式回望期權(quán)定價(jià)
歐式城堡——木炭與色彩的碰撞
對(duì)我國小城鎮(zhèn)建設(shè)過程中歐式古典風(fēng)格建筑興起的思考
否定意義的四種特殊表示法
從一道小題聯(lián)想到的整數(shù)表示法
考試周刊(2016年88期)2016-11-24 21:47:37
低滲透黏土中氯離子彌散作用離心模擬相似性
普兰县| 京山县| 三门峡市| 汨罗市| 太保市| 江津市| 张北县| 岑巩县| 南安市| 江华| 海宁市| 临颍县| 营山县| 洛南县| 云安县| 雅安市| 南漳县| 上栗县| 武鸣县| 茂名市| 青阳县| 呼伦贝尔市| 新余市| 行唐县| 离岛区| 大理市| 宁津县| 昌黎县| 廉江市| 三江| 盘锦市| 磴口县| 新安县| 璧山县| 武乡县| 伊春市| 江津市| 孝感市| 崇阳县| 濉溪县| 临城县|