姜 林,劉湘?zhèn)?/p>
(電子工程學(xué)院,合肥 230037)
?
基因識(shí)別的綜合優(yōu)化算法及精確性分析
姜 林,劉湘?zhèn)?/p>
(電子工程學(xué)院,合肥 230037)
針對(duì)現(xiàn)有算法難以精確地確定基因外顯子的2個(gè)端點(diǎn),結(jié)合 “基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法”、“基于DNA序列上“移動(dòng)序列“信噪比曲線的基因識(shí)別方法”、“小波算法”3種方法,采用綜合優(yōu)化算法對(duì)基因進(jìn)行識(shí)別,最后通過誤差評(píng)估驗(yàn)證了算法的精確性。
綜合優(yōu)化算法;基因識(shí)別;誤差評(píng)估;精確性
對(duì)給定的DNA序列,如何識(shí)別出其中的編碼序列(即外顯子)也稱為基因預(yù)測(cè),是一個(gè)尚未完全解決的問題,也是當(dāng)前生物信息學(xué)的一個(gè)最基礎(chǔ)、最首要的問題?,F(xiàn)在已經(jīng)有一些研究者提出了識(shí)別基因的算法。目前利用信噪比的基因識(shí)別算法通常有2種:一種是固定長(zhǎng)度窗口滑動(dòng)法[1-2];另一種是移動(dòng)信噪比曲線識(shí)別法[3]。但由于DNA序列隨機(jī)噪聲的影響等原因,還很難“精確地”確定基因外顯子區(qū)間的2個(gè)端點(diǎn)。鑒于上述原因,本文以“基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法”和“基于DNA序列上“移動(dòng)序列“信噪比曲線的基因識(shí)別方法”為基礎(chǔ),進(jìn)而可創(chuàng)造性地研究小波算法,嘗試解決DNA序列隨機(jī)噪聲的影響,可以比較精確地確定基因外顯子區(qū)間的2個(gè)端點(diǎn),進(jìn)而通過分析對(duì)比“基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法”、“基于DNA序列上“移動(dòng)序列“信噪比曲線的基因識(shí)別方法”、“小波算法”和“綜合優(yōu)化算法”,建立誤差評(píng)估函數(shù),并運(yùn)用圖表形象地展示評(píng)估算法的結(jié)果。
本文首先在“基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法”和“基于DNA序列上“移動(dòng)序列“信噪比曲線的基因識(shí)別方法”,2種方法的基礎(chǔ)上,對(duì)算法結(jié)果的充分性和準(zhǔn)確性進(jìn)行了進(jìn)一步的改進(jìn);進(jìn)而創(chuàng)造性地將信號(hào)處理方面的小波算法運(yùn)用到基因識(shí)別中,有效地去除了DNA序列中隨機(jī)噪聲的影響,比較精確地確定了基因外顯子區(qū)間的2個(gè)端點(diǎn)。下面以所查基因數(shù)據(jù)為例來說明此算法。
2.1 基于固定窗口滑動(dòng)法得出外顯子大致區(qū)域
(1) 在參考文獻(xiàn)中有此種方法的闡述,對(duì)基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法的滑動(dòng)進(jìn)行MATLAB編寫程序,實(shí)現(xiàn)算法;
(2) 對(duì)窗口按照FFT算法進(jìn)行快速傅里葉變換,進(jìn)而求出基因的功率譜;
(3) 通過MATLAB程序中的循環(huán)語句,實(shí)現(xiàn)窗口自動(dòng)移動(dòng),實(shí)現(xiàn)算法的軟件自動(dòng)化;
(4) 對(duì)所研究的基因的功率譜進(jìn)行歸一化處理;
(5) 運(yùn)用MATLAB軟件作出基因的功率譜圖像(見圖1)。
圖1 人類的基因序列的功率譜(1)
2.2 移動(dòng)信噪比曲線法對(duì)區(qū)域進(jìn)一步細(xì)化
(1) 對(duì)基于DNA序列上“移動(dòng)序列”信噪比曲線的基因識(shí)別方法的移動(dòng)進(jìn)行MATLAB程序編寫,實(shí)現(xiàn)算法;
(2) 通過MATLAB程序中的循環(huán)語句,使區(qū)域進(jìn)行步長(zhǎng)為3的變化,實(shí)現(xiàn)算法的軟件自動(dòng)化;
(3) 對(duì)所研究的基因序列區(qū)域進(jìn)行快速傅里葉變換(FFT),得到基因序列的功率譜圖像(見圖2)。
圖2 人類的基因序列的功率譜(2)
因?yàn)镈NA序列的信噪比移動(dòng)曲線的峰、谷與基因外顯子區(qū)間的端點(diǎn)也具有較“明顯的”的對(duì)應(yīng)關(guān)系。所以運(yùn)用基于DNA序列上“移動(dòng)序列”信噪比曲線的基因識(shí)別方法,可以對(duì)區(qū)域進(jìn)一步精化,從而使區(qū)域范圍更加準(zhǔn)確,得出外顯子的大致范圍為:(4 554,5 109),(5 256,5 583),(7 419,7 974)。
2.3 小波算法的精確化處理
小波分解是時(shí)間和頻率的局域變換,因而能有效地從信號(hào)中提取信息,通過伸縮和平移等運(yùn)算功能對(duì)信號(hào)進(jìn)行多尺度分析。實(shí)際中使用的是離散小波變換、工程上常用二進(jìn)制小波變換。與標(biāo)準(zhǔn)傅里葉變換相比, 小波分析中所用到的小波函數(shù)具有不唯一性,即小波函數(shù)具有多樣性。目前主要是通過用小波分析方法處理信號(hào)的結(jié)果與理論結(jié)果的誤差來判定小波基的好壞,并由此選定小波基。
(1) 小波理論簡(jiǎn)介
設(shè)x(t)是平方可積函數(shù),ψ(t)是基本小波或母小波(MW)函數(shù),且滿足容許條件:
(1)
則:
(2)
式中:ωx(a,b)為x(t)的小波變換式;b為位移,其值可正可負(fù);上標(biāo)*代表共扼。
這就稱為x(t)的小波變換。
如果x(t)為信號(hào)函數(shù),則小波變換是信號(hào)與小波函數(shù)的內(nèi)積,是對(duì)信號(hào)滿足一定附加條件的濾波,這種附加條件反映在小波函數(shù)及小波因子選擇上。高頻時(shí)使用小尺度a值,時(shí)軸上觀察范圍小,而頻域上相當(dāng)于用高頻小波作細(xì)致觀察;低頻時(shí)使用大尺度a,時(shí)軸上考察范圍大,而頻域上相當(dāng)于用低頻小波作概貌觀察[4]。利用小波變換所具有的這種數(shù)學(xué)顯微鏡特點(diǎn)和頻域帶通特性,把所有的信號(hào)分離出來,再進(jìn)行分析研究。
(2) 基因小波變換模型的建立
在實(shí)際運(yùn)用中,尤其在計(jì)算機(jī)實(shí)現(xiàn)時(shí),一般采用離散小波變換。最常用的是二進(jìn)小波變換,b=k×2-j,a=2-j,j,k∈Z,其小波序列為:
(3)
對(duì)任意平方可積函數(shù)y(t)來說,其離散小波變換(DWT)為:
(4)
對(duì)任意y(t)∈Vj,若yk為信號(hào)的離散采樣數(shù)據(jù),令cj,k=yk(應(yīng)用中常以c0,k=yk作為計(jì)算的初始信號(hào)序列),則有信號(hào)的多分辨率分析公式為:
(5)
(6)
式中:cj,k為信號(hào)的逼近信號(hào);dj,k為信號(hào)的細(xì)節(jié)。
相應(yīng)地,有基因小波變換模型為:
(7)
可見,一個(gè)信號(hào)可以由小波進(jìn)行系數(shù)重構(gòu)。本文使用小波算法進(jìn)行信號(hào)重構(gòu),以消除DNA序列隨機(jī)噪聲的影響,較精確地確定了基因外顯子區(qū)間的2個(gè)端點(diǎn)。
(3) 利用基因小波變換模型進(jìn)行基因識(shí)別(如圖3)
圖3 小波基因識(shí)別流程
對(duì)DNA序列數(shù)值化映射后得到{uA[n]}、{uG[n]}、{uC[n]}、{uT[n]},使用MATLABTOOLBOXES中的WAVELET,對(duì)數(shù)據(jù)進(jìn)行相關(guān)的小波變換處理,并與FFT結(jié)果比較,得到外顯子的相應(yīng)區(qū)間:(4 562,5 047),(5 253,5 427),(7 445,7 983)。
在基因的識(shí)別算法中可能存在一定的誤差,為此對(duì)上述建立的基因識(shí)別綜合算法模型進(jìn)行了逐步深入的研究,并建立誤差評(píng)估函數(shù),用數(shù)據(jù)形象證明了算法逐步優(yōu)化的過程,最終確定算法的高效性。
3.1 基因識(shí)別算法的誤差評(píng)估函數(shù)
誤差評(píng)估函數(shù)如下:
;i=0,1,2
(8)
所得到的函數(shù)值hi越大,表明在確定外顯子區(qū)域時(shí)的誤差越大。
對(duì)于一段DNA序列,可能有N段外顯子,則對(duì)于這段DNA序列來講,對(duì)外顯子的識(shí)別誤差為:
(9)
3.2 精確性分析
(1) 在所查數(shù)據(jù)中可以得到人類基因序列中外顯子的準(zhǔn)確位置:(4 577,4 996),(5 251,5 398),(7 458,7 996)。
(2) 對(duì)單獨(dú)使用“基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法”、 “基于DNA序列上“移動(dòng)序列“信噪比曲線的基因識(shí)別方法”、“小波算法”對(duì)外顯子的識(shí)別與使用“綜合優(yōu)化算法”的結(jié)果比較,得到數(shù)據(jù)如表1所示。
表1 4種算法對(duì)外顯子識(shí)別結(jié)果與準(zhǔn)確值的對(duì)比
表1中,算法1為“基于固定長(zhǎng)度滑動(dòng)窗口上頻譜曲線的基因識(shí)別方法”;算法2為“基于DNA序列上“移動(dòng)序列“信噪比曲線的基因識(shí)別方法”;算法3為“小波算法”;算法4為“綜合優(yōu)化算法”。
(3) 運(yùn)用誤差評(píng)估函數(shù)得到每種算法對(duì)單個(gè)外顯子以及整個(gè)DNA序列的誤差如表2所示。
表2 誤差評(píng)估分析表
(1) 數(shù)值越大,說明該種算法的誤差越大。
(2) 從表中可以看出,對(duì)每一列進(jìn)行對(duì)比時(shí),通過新算法的逐步優(yōu)化,得到的結(jié)果也層層推進(jìn),逐步接近正確值,誤差越來越小,說明精確度越來越高,通過新算法可以使誤差保持在0.1 左右。
(3) 對(duì)每一行進(jìn)行對(duì)比時(shí),發(fā)現(xiàn)區(qū)域越小(尤其100左右時(shí)),誤差越大,說明僅通過信噪比對(duì)區(qū)域過小的外顯子序列進(jìn)行區(qū)分是不精確的。
[1] 王玉.基于傅里葉技術(shù)快速預(yù)測(cè)DNA序列編碼區(qū)[J].電子科技大學(xué)學(xué)報(bào),2006,35(5):837-840.
[2]BerrymanMJ,AlisonA.Reviewofsignalprocessingingenetics[J].FluctuationandNoiseLetters,2005,5(4):13-35.
[3]YinC,YauS.Predictionofproteincodingregionsbythe3-baseperiodicityanalysisofaDNAsequence[J].JournalofTheoreticalBiology,2007,2(47):687-694.
[4] 王正林.精通MATLAB[M].北京:電子工業(yè)出版社,2009.
Analysis of Integrated Optimized Algorithm and Accuracy of Gene Identification
JIANG Lin,LIU Xiang-wei
(Electronic Engineering Institute,Hefei 230037,China)
Because existing algorithms can not accurately judge the two points of expressed region of gene,this paper combines three methods:gene identification method based on spectrum curve of slip window with fixed length,gene identification method based on mobile sequence signal-to-noise ratio (SNR) curve of DNA sequence,wavelet algorithm,uses integrated optimized algorithm to identify the gene,finally validates the accuracy of the algorithm through error estimation.
integrated optimized algorithm;gene identification;error estimation;accuracy
2014-09-09
TP391.9
A
CN32-1413(2015)01-0080-04
10.16426/j.cnki.jcdzdk.2015.01.019