萬力超 周小安
摘 要:針對傳統(tǒng)方法在分析DNA序列相似性方面的不足,提出了一種基于樣本熵的DNA序列相似性分析方法。以五種東亞鉗蝎神經(jīng)毒素的基因序列作為分析對象,首先通過DNA序列的圖形表示把DNA序列轉(zhuǎn)換為時間序列,然后運(yùn)用樣本熵算法計(jì)算出時間序列的樣本熵值,將樣本熵的互值大小作為分析序列之間相似性的依據(jù),最后將樣本熵方法與DTW(Dynamic Time Warping,動態(tài)時間彎曲)方法的實(shí)驗(yàn)結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,樣本熵分析方法能有效分析序列之間的相似性,與DTW分析方法相比較,顯示出更強(qiáng)的相似性和區(qū)別度,可將其進(jìn)一步應(yīng)用于生物序列的分析。
關(guān) 鍵 詞:樣本熵;DNA序列;序列相似性;DTW距離
中圖分類號: TP391文獻(xiàn)標(biāo)識碼: A文章編號:2095-2163(2016)01-
Abstract:This paper studies the application of sample entropy for similarity analysis of DNA sequences. The gene sequences of five kinds of Buthus martensi Karsch neurotoxins are analyzed. The graphical representation of DNA sequences are converted into digital sequences, and their sample entropy are calculated based on sample entropy method. The mutual value between different sample entropy is used to analysis sequence similarity. Analysis result is compared with the method of DTW distance. The analysis result of the proposed method provides good analysis efficiency and higher sensitivity and distinction than the results of DTW distance method. The method of sample entropy can be used for further biological sequences analysis.
Key words: DNA sequence; similarity analysis; sample entropy; DTW distance
0 引 言
隨著生物序列測序技術(shù)的不斷進(jìn)步,人們已經(jīng)獲得了海量的生物序列信息,對于如何提取挖掘生物序列中的有用內(nèi)容,解讀DNA序列中的遺傳信息和功能信息,DNA序列的相似性分析即已成為研究關(guān)注熱點(diǎn)和實(shí)施應(yīng)用亮點(diǎn)。DNA序列的相似性是指兩條DNA序列的相似程度,相似程度越高表明兩物種“同源”的可能性越大,反之,兩物種的結(jié)構(gòu)和功能差別越大。每當(dāng)?shù)玫揭粋€新物種的DNA序列,人們總是想通過比較該物種與其他已知序列的相似性,由此來分析其基因的功能,如果兩個基因序列相似程度越高,新物種的結(jié)構(gòu)和功能就與已知物種越相似,對于預(yù)測新物種基因信息就越有利,如此將會大大降低基因檢測與測序的工程量,這在龐大的基因序列面前即顯得尤為重要。
目前國內(nèi)外有關(guān)分析DNA相似性的方法已有很多[ - ],但其研究的基本思想都是:將DNA序列轉(zhuǎn)化為圖形表示,利用圖形構(gòu)造矩陣,再利用矩陣的不變量進(jìn)行DNA相似性分析,這種方法存在一定缺陷,有的計(jì)算過程比較復(fù)雜,有的容易丟失結(jié)構(gòu)信息?;诖?,后續(xù)研究則旨在尋找一種方法簡單、具有較高準(zhǔn)確性以及更能從相關(guān)性角度反映序列的生物特性的相似性度量方法。
文獻(xiàn)[9]利用近似熵方法研究了DNA序列的相似性,該方法被證明是一種量化時間序列復(fù)雜度的方法,并在現(xiàn)實(shí)項(xiàng)目中成功應(yīng)用于生物序列的相似性分析[ ]。但是,近似熵的值與數(shù)據(jù)長度有關(guān),而且為防止出現(xiàn)ln(0),計(jì)算過程中特別比較了自身數(shù)據(jù)段,然而比較數(shù)據(jù)和其自身卻毫無關(guān)聯(lián)意義,而且還會產(chǎn)生誤差。為了顯著提高相似性分析方法的準(zhǔn)確度和效率,本文引入了樣本熵算法,相比于近似熵算法,樣本熵在準(zhǔn)確性、效率、以及理論建樹上更占獨(dú)有優(yōu)勢,研究最后則通過與DTW方法[ ]的實(shí)驗(yàn)結(jié)果進(jìn)行比較后可知,樣本熵方法的分析結(jié)果顯示出更強(qiáng)的相似性,因而可將其進(jìn)一步應(yīng)用在生物序列的研究中。
1 分析方法
Richman等提出了一種有關(guān)時間序列復(fù)雜度的分析方法——樣本熵[ ],通過對近似熵算法實(shí)施一定改進(jìn),有效地消除了實(shí)驗(yàn)中的誤差。樣本熵計(jì)算的是和的對數(shù),計(jì)算過程中不包含自身數(shù)據(jù)段的比較,同時避免了近似熵算法過程中的ln(0)值的出現(xiàn),在計(jì)算效率上占據(jù)明顯優(yōu)勢,而且又減少了實(shí)驗(yàn)中的誤差,其他算法過程兩者基本相似[ ]。樣本熵的物理意義與近似熵一致,樣本熵值越大,序列的復(fù)雜程度越高,產(chǎn)生出新模式的概率就越大;樣本熵值越小,序列的復(fù)雜程度越低,序列的自我相似性越高。樣本熵的具體算法實(shí)現(xiàn)過程如下:
4 實(shí)驗(yàn)結(jié)果
4.1 DNA序列動態(tài)分析
基因序列可以轉(zhuǎn)換為時間序列,因此分析DNA相似性等同于時間序列相似性的比較,按照上述時間序列轉(zhuǎn)換方法,對各個時間序列采用20點(diǎn)的時間窗口分別計(jì)算其樣本熵,并將計(jì)算結(jié)果與序列BMTX1結(jié)果展開比對,實(shí)驗(yàn)結(jié)果如圖1所示,由此即可分析DNA序列的動態(tài)信息和相似性[9]。
從圖1中可以看出,BMTX1和BMTX4的曲線覆蓋度較高,表明這兩者之間DNA相似度較高。其他圖像則表現(xiàn)出較少的覆蓋度,由此可知其與BMTX1相似度較低。從生物進(jìn)化關(guān)系看出,分析結(jié)果與實(shí)際相符,表明樣本熵可用于分析DNA相似性。
4.2 樣本熵實(shí)驗(yàn)結(jié)果
利用上述時間序列轉(zhuǎn)換方法,將5種東亞鉗蝎神經(jīng)毒素基因序列轉(zhuǎn)換成時間序列,然后利用樣本熵算法分別求出五種時間序列的樣本熵,所得樣本熵則如表2所示。
觀察表4數(shù)據(jù),BMTX1和BMTX4所對應(yīng)的DTW距離較小,親緣關(guān)系非常接近,所得實(shí)驗(yàn)結(jié)果與樣本熵方法基本一致。比較兩種方法的實(shí)驗(yàn)結(jié)果,樣本熵方法得到的相對數(shù)值差異較大,例如,表3實(shí)比表4中的BMTX1與BMTX4、BMCT的相對數(shù)據(jù)差異明顯較大,顯示出較高的敏感性和區(qū)別度。
5 結(jié)束語
本文提出一種基于樣本熵算法的DNA相似性分析方法,并通過實(shí)例驗(yàn)證了此方法的有效性和準(zhǔn)確性,與DTW距離方法比較,樣本熵方法的分析結(jié)果顯示出更強(qiáng)的相似性和準(zhǔn)確性。這有助于提高親緣關(guān)系較近的分析對象間的區(qū)別度,可將其進(jìn)一步應(yīng)用在生物序列的分析中,對更多物種的基因序列進(jìn)行分析,發(fā)現(xiàn)更多未知的物種之間的關(guān)系,提高此方法的說服力和應(yīng)用價值。