DBN在蛋白質(zhì)編碼區(qū)識別問題中的應用研究

2020-02-18 15:20:40胡青渝劉廣臣

計算機工程與應用 2020年4期

胡青渝，劉廣臣

1.魯東大學數(shù)學與統(tǒng)計科學學院，山東煙臺264025

2.重慶大學數(shù)學與統(tǒng)計學院，重慶401331

1 引言

目前人類基因組的全部序列已陸續(xù)測定完成，人類獲取了大量的生物信息序列，并且隨著外顯子生物技術(shù)的不斷發(fā)展，需要預測的DNA序列也在不斷增加，而DNA序列中的堿基排序又十分復雜，人們想要快速又準確地獲取所需要的信息十分困難。因此，如何對大量的DNA序列進行預測和分類是當代生物科學領(lǐng)域重要的研究課題。在過去的二十多年中，基因組序列的測定吸引了許多研究者的注意，幾十種蛋白質(zhì)編碼區(qū)的預測方法被提出[1]。對于眾多的編碼區(qū)識別算法，根據(jù)其構(gòu)造機理不同，可以分為兩類[2-4]：依賴模型和不依賴模型。依賴模型又稱為基因相似性識別算法，是以歷史的基因數(shù)據(jù)作為標準，創(chuàng)建有標識的標準基因數(shù)據(jù)庫，再根據(jù)標準基因數(shù)據(jù)庫對待識別的DNA序列進行相似性識別。這種方法的準確度較高，但是對待識別的DNA序列要求十分嚴格。它要求待識別序列與標準數(shù)據(jù)庫中的樣本具有較高的同源性，而對于同源性低或者非同源的序列則無法識別。基于此，越來越多的研究者將目光轉(zhuǎn)向了不依賴模型，也可稱為基于統(tǒng)計模型的識別算法。這類方法主要建立在成熟的統(tǒng)計分析上，具有扎實的數(shù)據(jù)理論支撐，所獲得的研究成果也遠遠超過依賴模型。目前較為成熟的統(tǒng)計模型識別算法有：Henderson和Agoes提出的隱馬爾可夫模型[5]、Gelfand等提出的拼接對齊算法[6]、Howe提出的動態(tài)規(guī)劃[7]、Dong等提出的語言學方法[8]、Uberbacher等提出的神經(jīng)網(wǎng)絡(luò)模型[9]、Zhang提出的線性判別分析[10]、Zhu等提出的多元熵距法[11]、Kotlar等的傅里葉分析法[12]、王飛宇等提出的基于全相位頻譜分析基因識別算法[13]等。

根據(jù)已有文獻可以看出，對于蛋白質(zhì)編碼區(qū)的識別方法雖然十分豐富，但大部分的識別算法都是建立在傳統(tǒng)方法的基礎(chǔ)上，它們有各自的適用對象，并且都還存在一些難以解決的問題。例如：編碼區(qū)定位過界，找不到終止信息，將非編碼區(qū)識別為外顯子，對于較長序列的識別能力較低以及處理效率低等問題。面對當下龐大的基因數(shù)據(jù)以及不斷提高的研究需求，許多算法因無法滿足要求而被逐步取代。針對這個問題，2001年華盛頓大學開發(fā)了用于真核生物蛋白質(zhì)編碼區(qū)預測的TwinScan軟件[14]，它主要通過與已知的基因組序列的比較來判定待預測序列，這個方法被廣泛用于哺乳動物、線蟲和酵母菌等。2002年Mathe[15]提出在蛋白質(zhì)編碼區(qū)的識別問題中，要合理結(jié)合多種判定預測方法，對于各種方法取長補短，從而提高組合算法的識別精度?；诖耍?004年Allen等[16]將動態(tài)規(guī)劃法和二次判別分析等多種算法相結(jié)合，通過實驗發(fā)現(xiàn)，該方法顯著提高了識別模型的準確度。在此之后，2006年Wei和Brent[17]將TwinScan和EST相結(jié)合，提出了TwinScan_EST系統(tǒng)。TwinScan_EST的敏感度和特異性都優(yōu)于TwinScan系統(tǒng)。這些結(jié)合算法使得模型對蛋白質(zhì)編碼區(qū)的識別更加準確，但也讓實驗變得更加復雜，對計算機的內(nèi)存空間耗費較大，從而使得運行速度緩慢。在此基礎(chǔ)上，提出了基于頻譜分析的編碼區(qū)識別算法。其關(guān)鍵技術(shù)是通過某些數(shù)值映射，把基因序列的堿基字符映射成數(shù)值，然后通過傅里葉變換去判斷外顯子所在位置。Rogic和Voss等觀察發(fā)現(xiàn)經(jīng)過傅里葉變換后的頻譜序列在蛋白質(zhì)編碼區(qū)有明顯峰值出現(xiàn)，在非編碼區(qū)則沒有這一表現(xiàn)[18-19]。此后，Tiwari證實了該推論，也就是蛋白質(zhì)編碼區(qū)存在3-周期性。

外顯子的3-周期性被提出后，基于頻譜的分析方法被不斷提出。基于頻譜分析方法的實質(zhì)是通過某種數(shù)值映射方法將DNA的堿基序列映射成數(shù)值序列。2011年Sharma等對比分析了各種映射方法的構(gòu)造原理[20]，并對常用的12種映射方法進行了概述。其中最常見的是Voss映射，它的優(yōu)點是算法的輸出結(jié)果與DNA序列特征量的真實值是一致的，但是Voss映射通常用于長度為3的整數(shù)倍的序列，且效率較低，資源損耗較高。其他使用較廣的方法還有Z_curve映射，它的復雜程度相對較低，但對于長度不是3的整數(shù)倍序列，它的識別效果并不理想，并且它的輸出結(jié)果不能展示相應特征向量的真實值。在近幾年的蛋白質(zhì)編碼區(qū)識別中，許多學者還提出了一些新的數(shù)值映射方法，但它們都存在各自的缺陷和弊端，如識別精度不高，識別效率較低，輸出結(jié)果無法直接給出準確判斷，外顯子內(nèi)含子識別不夠準確，噪聲數(shù)據(jù)算法不穩(wěn)定等。

根據(jù)以上分析，可以發(fā)現(xiàn)目前許多結(jié)合算法依然無法做到多方兼顧，它們大多是從模型疊加或組合以及創(chuàng)新映射方法等角度去提高識別模型的準確度，很少從組合模型結(jié)構(gòu)上進行優(yōu)化。而真核生物的蛋白質(zhì)編碼區(qū)往往具有序列長，結(jié)構(gòu)更復雜（如圖1所示，不僅有編碼區(qū)和非編碼區(qū)，而且編碼區(qū)中的外顯子和內(nèi)含子一般會間隔出現(xiàn)），編碼區(qū)占比較大等特點。因此，面對龐大又復雜的DNA序列，從結(jié)構(gòu)上對組合模型進行優(yōu)化是十分必要的。深度置信網(wǎng)絡(luò)則可以從結(jié)構(gòu)上解決蛋白質(zhì)編碼區(qū)識別過程中，特征信息提取不全，分類預測不準確以及實驗效率低等問題[21]。

圖1 真核生物的蛋白質(zhì)編碼區(qū)圖示

深度置信網(wǎng)絡(luò)主要通過組合底層的基礎(chǔ)特征形成抽象的高層屬性類別特征，從而發(fā)現(xiàn)數(shù)據(jù)的分布式特征的智能學習方法[22]。它可以根據(jù)問題的復雜程度，構(gòu)建層數(shù)和每層神經(jīng)元數(shù)目不同的網(wǎng)絡(luò)模型，它的實質(zhì)是通過大量的訓練數(shù)據(jù)和構(gòu)建多層限玻爾茲曼機來學習有用的特征，從而提升模型的分類和預測能力。深度置信網(wǎng)絡(luò)強調(diào)了模型結(jié)構(gòu)的深度，突出了特征學習的重要性，通過逐層特征變換，將樣本在原有空間中的特征變換到一個新的特征空間，從而使得分類預測更加容易，同時還提高了分類預測的效率[23]。與傳統(tǒng)的僅使用人工構(gòu)造的規(guī)則來提取編碼區(qū)特征的方法相比，深度置信網(wǎng)絡(luò)利用大數(shù)據(jù)來訓練模型，從而獲得編碼區(qū)特征，該特征能夠更詳細準確地刻畫數(shù)據(jù)的豐富內(nèi)在信息。

基于此，本文提出了可以綜合多種數(shù)值映射方法，并且能夠更加準確地判別預測和定位蛋白質(zhì)編碼區(qū)的組合識別模型。它主要通過多層玻爾茲曼機進行特征降維，并提取影響編碼區(qū)識別的關(guān)鍵因素，并在深度置信網(wǎng)絡(luò)最后一層加上神經(jīng)網(wǎng)絡(luò)判別分類器，實現(xiàn)對蛋白質(zhì)編碼區(qū)的判別和預測。通過實證表明，基于深度置信網(wǎng)絡(luò)的非監(jiān)督方法能夠在一定程度上提高蛋白質(zhì)編碼區(qū)識別問題的預測精度，提高組合模型的有效性和實用性，同時還大大降低了訓練模型的復雜程度。這對于真核生物蛋白質(zhì)編碼區(qū)的識別問題具有十分重要的意義。

綜上所述，本文的主要工作是對復雜的真核生物蛋白質(zhì)編碼區(qū)結(jié)構(gòu)中的外顯子和內(nèi)含子進行判別和定位，并且充分利用深度置信網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)勢來提高識別模型的準確度和實驗效率。模型的具體構(gòu)造過程如下：

（1）利用信號轉(zhuǎn)換算法將復雜的DNA字符串轉(zhuǎn)變?yōu)閿?shù)值序列，也就是將四種堿基轉(zhuǎn)換成數(shù)值形式，然后再結(jié)合基礎(chǔ)統(tǒng)計學方法對這些數(shù)值序列進行特征提取。

（2）由于特征數(shù)量眾多，并且某些特征存在相關(guān)性，利用隨機森林的方法對眾多特征進行變量選擇。

（3）將提取出的特征集作為判別變量，已知的編碼區(qū)判別結(jié)果作為判別目標來構(gòu)建深度置信網(wǎng)絡(luò)模型，最后將經(jīng)過數(shù)值轉(zhuǎn)換的DNA序列分為訓練集和測試集對模型進行訓練和測試。

2 數(shù)據(jù)的采集與預處理

2.1 數(shù)據(jù)的采集

對于蛋白質(zhì)編碼區(qū)的識別問題，本文主要是對真核生物的DNA序列進行判別分析，因此使用的數(shù)據(jù)也是真核生物的DNA序列，包括BG570、HMR195以及GENSCAN65數(shù)據(jù)。數(shù)據(jù)的主要來源是BG570數(shù)據(jù)集（http：//www1.imim.es/databases/genomics96/），HMR195數(shù)據(jù)集（http：//www.cs.ubc.ca/～rogic/evaluation/），GENSCAN65數(shù)據(jù)集（http：//www.ncbi.nlm.nih.gov/nuccore/FO081497），這里統(tǒng)稱它們?yōu)樵紨?shù)據(jù)。因為原始數(shù)據(jù)中有部分DNA序列是小于20bp的，這些數(shù)據(jù)包含的信息是不全面的，所以本文首先將這些數(shù)據(jù)從數(shù)據(jù)集中剔除，然后從原始數(shù)據(jù)中選取長度為20bp以上的外顯子和內(nèi)含子。新建的基本數(shù)據(jù)集中外顯子和內(nèi)含子的個數(shù)如表1所示。

表1 剔除信息缺失序列后的外顯子和內(nèi)含子數(shù)據(jù)分布表

2.2 數(shù)據(jù)的預處理

為了能夠使深度學習算法對真核生物蛋白質(zhì)編碼區(qū)進行分類和預測，首先需要對DNA序列進行數(shù)值化映射，也就是將DNA字符序列轉(zhuǎn)換為數(shù)值序列，然后再提取這些數(shù)值序列的數(shù)字特征，最后將這些數(shù)值序列作為訓練數(shù)據(jù)輸入到深度置信網(wǎng)絡(luò)模型中對DNA序列進行分類訓練。

近年來，DNA譜分析技術(shù)已被引入蛋白質(zhì)編碼區(qū)識別的研究中，這類算法主要利用數(shù)字信號處理技術(shù)，通過計算比較蛋白質(zhì)編碼區(qū)和非編碼區(qū)的功率譜密度信噪比曲線的特征，例如三周期特性等差異來進行編碼區(qū)識別。這類方法并沒有利用傳統(tǒng)的序列對比思想，如BLAST，因此稱它為非序列比對特征提取。非序列比對特征提取主要包括兩個階段：一是對DNA序列進行數(shù)值化映射；二是提取DNA數(shù)值序列的特征。

2.2.1 DNA序列的數(shù)值化映射

本文主要采用信號處理技術(shù)對DNA序列進行數(shù)值轉(zhuǎn)換。本文所采用的信號處理技術(shù)[24-25]主要可以分為兩種類型：第一類是K字符相對頻率技術(shù)，K字符指的是DNA序列中長度為K的連續(xù)核苷酸片段，例如K=1表示核苷酸A、C、G、T；K=2是指AA,AC,…,TT,以此類推。第二類是重編碼技術(shù)，包括8種固定映射技術(shù)[26-27]，7種基于物理化學性質(zhì)的映射方法[28-29]，4種基于DNA圖表達的長程相關(guān)性方法[30]。映射公式如表2～表4所示。

表2 固定映射技術(shù)公式表

表3 基于物理化學性質(zhì)的映射方法公式表

表4 基于DNA圖表達的長程相關(guān)性方法公式表

2.2.2 DNA序列的特征提取

本文通過2.2.1小節(jié)將DNA字符序列轉(zhuǎn)換為數(shù)值序列，若要實現(xiàn)深度置信網(wǎng)絡(luò)模型對蛋白質(zhì)編碼區(qū)的分類預測，還需要從這些數(shù)值序列中提取出數(shù)字特征，進而構(gòu)成訓練集和測試集。下面著重介紹本文所采用的特征提取方法以及所提取出的數(shù)字特征[31]。

（1）基于K-tuple的數(shù)值特征提取

以K=2時GT的相對豐度為例，進行數(shù)值特征的提取：

其中，fG、fT、fGT分別代表核苷酸G、T和雙核苷酸GT在基因片段中的頻率。相似的，可以根據(jù)相對豐度的公式及其推廣來計算其他情況下的相對豐度。對于較長的DNA序列，提取出的K-tuple數(shù)量將自動地隨序列數(shù)量的變化而變化，即由min(Si)來確定，這將決定不同長度的序列所提取的數(shù)值特征的準確性及最終預測的準確性。

綜上所述，利用相對豐度可以提取到85個數(shù)值特征。

（2）基于重編碼的數(shù)值特征提取

根據(jù)不同的重編碼技術(shù)，可以獲得不同的數(shù)值映射結(jié)果，具體方法已在數(shù)值化映射中做出了闡述，對于這些不同的重編碼技術(shù)獲得的數(shù)值序列，將采用計算各階矩的方法進行特征提取。根據(jù)重編碼器獲得的數(shù)值特征可以分為兩類：一類是實數(shù)類重編碼技術(shù)的數(shù)值特征提??；另一類是復數(shù)類重編碼技術(shù)的數(shù)值特征提取。

對于實數(shù)類重編碼技術(shù)的數(shù)值特征提取，首先是Voss方法，它具有良好的特征表達作用，這也使它成為了基因組譜分析中最著名的數(shù)值映射技術(shù)。對于Voss變換后的數(shù)值序列，通過計算其一、二、三階矩的方法來提取數(shù)值統(tǒng)計特征，總共得到了12個特征。其次對于實數(shù)類序列，計算其他常用特征，如均值、標準差、偏度值和峰度值，并得到了88個特征。最后通過計算各實數(shù)序列的Hurst指數(shù)來對數(shù)據(jù)的特征進行提取。Hurst指數(shù)是英國水文學者Hurst在研究尼羅河水文時基于R/S法提出的一種用來刻畫時間序列相關(guān)性的指標，后來成功被引入來比較DNA序列的相似性。利用該方法可以獲得24個特征。

對于復數(shù)類重編碼技術(shù)的數(shù)值特征提取，經(jīng)過快速傅里葉變換得來的復數(shù)序列，可以計算其傅里葉系數(shù)的平方值序列，然后計算其功率譜均值，這樣一共可以得到28個特征。

綜上所述，利用重編碼方法一共可以獲得152個特征。而經(jīng)過計算K-tuple的相對豐度和重編碼計算的各類數(shù)值特征提取，一條無論長度為多少的DNA序列都可以用一條長度為85+152=237的數(shù)值特征序列來代替，不過這237類數(shù)值特征可能存在共線性或?qū)幋a區(qū)識別的不顯著性，因此下文將會用到隨機森林的方法來消除具有共線性和不顯著性的特征變量。本例共有7 081條不同長度的DNA序列，經(jīng)過上述轉(zhuǎn)換和特征提取后，將會得到7081×237的數(shù)字矩陣，稱為原始特征矩陣，矩陣的行向量表示原始的DNA序列，列向量表示每條DNA序列的一個數(shù)值特征。具體矩陣如表5所示。

2.3 基于隨機森林的特征子集選擇

根據(jù)上文可知，經(jīng)過特征提取一共獲得了152個特征變量，而這些變量中不乏許多噪音，也就是對DNA序列的判別沒有顯著性關(guān)系的特征，這些特征非但不能幫助模型識別蛋白質(zhì)編碼區(qū)，反而會干擾模型的判別能力，因此考慮對152個特征進行降維。由于這些數(shù)值特征是離散的，并且無法通過理論分析判斷它們與模型識別效果的相關(guān)程度與重要性，本文考慮利用隨機森林對特征變量進行降維選取。隨機森林是一種集成機器學習算法[31-33]，它可以利用隨機重采樣技術(shù)(bootstrap)和節(jié)點隨機分裂技術(shù)構(gòu)建一片由決策樹組成的森林，并且讓這片森林里的所有決策樹都參與投票，計算出每一個特征變量的重要程度值，最后根據(jù)計算所得的重要性對這些特征進行排序。相較于其他降維方法，隨機森林在對變量進行選擇時具有以下優(yōu)勢：

表5 DNA數(shù)值特征表

（1）對于DNA序列這種變量數(shù)據(jù)集較多的數(shù)據(jù)精確度較高。

（2）不易發(fā)生過擬合的現(xiàn)象，這對于模型在測試集上的預測效果有重要的意義。

（3）可以處理離散化的數(shù)據(jù)，因此對于種類眾多的基因特征數(shù)據(jù)，無需進行歸一化處理就可以選出與DNA判別具有顯著關(guān)系的變量特征。

（4）具有良好的處理缺失數(shù)據(jù)的能力，由于使用的DNA序列集中序列長度并不是一定相等的，就算去掉長度小于20bp的序列，仍會在特征提取時存在特征數(shù)據(jù)不全的情況。而隨機森林這一特性則很好地解決了這個問題。

（5）最重要的一點是它不但可以對特征變量進行降維，還可以得到特征變量的重要性排序，這對人們選擇進入深度置信網(wǎng)絡(luò)判別模型的初始特征變量提供了十分重要的理論依據(jù)。

（6）具有以上優(yōu)點的隨機森林的實現(xiàn)并不復雜，且容易并行化，這在構(gòu)建組合模型時大大提高了模型的判別和預測效率。

基于此，本文利用R語言中的RandomForest包實現(xiàn)了特征變量的提取，計算出了每個特征變量的得分，并根據(jù)其重要性排序選出了前50%的變量，即119個變量，放入判別模型中。

圖2展示了得分較高的30個特征變量，其中得分最高的特征變量為V 129，最后選定了前50%的特征變量放入深度置信模型中，實現(xiàn)了對特征變量的降維。利用隨機森林對特征變量進行降維，首先可以剔除無關(guān)變量或者與模型顯著性關(guān)系較小的變量，降低由無關(guān)特征變量引起的噪聲對模型判別效果的影響；其次提升了特征變量的可解釋性，并且特征變量的減少還提高了組合模型的實驗效率；最后將處理后的特征變量作為初始變量放入深度置信網(wǎng)絡(luò)中，可以使模型更有效地習得識別蛋白質(zhì)編碼區(qū)的方法，從而提高模型的判別和預測能力。

2.4 確定訓練集和測試集數(shù)據(jù)

圖2 部分重要變量得分曲線圖

為了更好地對深度置信模型進行訓練，將原始數(shù)據(jù)集分為兩部分，一部分作為訓練集，另一部分作為測試集，其中前70%的數(shù)據(jù)作為測試集，后30%的數(shù)據(jù)作為訓練集。具體數(shù)據(jù)分布如表6所示。

表6 訓練集和測試集數(shù)據(jù)分布表

3 真核生物蛋白質(zhì)編碼區(qū)識別模型的建立3.1 構(gòu)建深度置信網(wǎng)絡(luò)模型

深度置信網(wǎng)絡(luò)（Deep Belief Network，DBN）是深度學習方法中的一種常用模型[34-35]，也是神經(jīng)網(wǎng)絡(luò)的一種。深度置信網(wǎng)絡(luò)既可以用于非監(jiān)督學習，將它看作一個自動編碼器；也可以用于監(jiān)督學習，將它看作一個分類器。本文主要將深度置信網(wǎng)絡(luò)作為分類器來使用，首先通過無監(jiān)督學習框架得出特征向量，然后再將特征向量賦給神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）模型完成分類。

深度置信網(wǎng)絡(luò)是由多個限波爾茲曼機（Restricted Boltzmann Machine，RBM）模型構(gòu)成的。RBM是由神經(jīng)網(wǎng)絡(luò)所衍生出的一種感知器，主要由顯層和隱層兩部分構(gòu)成，其中顯層和隱層的神經(jīng)元為雙向鏈接。任意兩個相連神經(jīng)元之間的鏈接強度由權(quán)重W表示；對于每一個顯層神經(jīng)元都有一個偏置系數(shù)b用來表示它的自身權(quán)重；對于每一個隱層神經(jīng)元也都有一個偏置系數(shù)c用來表示它的自身權(quán)重。

RBM的能量函數(shù)為：

其中，h表示隱層神經(jīng)元(hidden),v表示顯層神經(jīng)元(visible)。

RBM中隱層神經(jīng)元被顯層神經(jīng)元激活的概率函數(shù)為：

RBM中顯層神經(jīng)元被隱層神經(jīng)元激活的概率函數(shù)為：

因為同層神經(jīng)元之間是相互獨立的，所以它們的概率密度也是相互獨立的，由此可以得到：

當給顯層神經(jīng)元輸入一列數(shù)據(jù)后，RBM可以根據(jù)式（3）計算出每個隱層神經(jīng)元被激活的概率P(hj|x),j=1,2,…,Nh，取閥值μ為0～1的隨機數(shù)，概率大于該閥值的隱層神經(jīng)元被激活，否則不被激活，判別式為：

由此可以判斷隱層的每個神經(jīng)元是否被激活。若賦值給隱層，顯層的神經(jīng)元是否被激活的計算方法也是一樣的。

3.2 對限波爾茲曼機（RBM）模型的訓練

RBM中共有5個參數(shù)h、v、b、c、W，其中v是輸入向量，h是輸出向量，b、c、W是相應的權(quán)重和偏置值，是通過數(shù)據(jù)學習得到的。對于一系列樣本數(shù)據(jù)x，主要采用對比散度的算法進行訓練[36]。

（1）將一系列數(shù)據(jù)x賦給顯層v1，然后利用式（3）計算出每個隱層神經(jīng)元被激活的概率P(hj|x),j=1,2,…,Nh；

（2）從這些計算得出的激活概率分布中采用Gibbs方法抽取一個樣本集：h1～P(h1|v1)；

（3）利用隱層神經(jīng)元h1重構(gòu)顯層，即通過隱層反推顯層，可以通過式（4）計算出顯層中每個神經(jīng)元被激活的概率：P(v2|h1)；

（4）從計算得到的激活概率分布中再利用Gibbs抽樣法抽取一個樣本集：v2～P(v2|h1)；

（5）通過v2再次計算每個隱層神經(jīng)元被激活的概率，得到的概率分布為：P(v2|h1)；

（6）更新權(quán)重：

經(jīng)過反復的訓練后，隱層神經(jīng)元不但能較為準確地顯示出顯層神經(jīng)元所包含的特征，并且還能夠還原顯層信息。當隱層神經(jīng)元數(shù)量小于顯層神經(jīng)元數(shù)量時，就會起到“壓縮數(shù)據(jù)”的效果。

最后將若干個RBM“串聯(lián)”起來就能構(gòu)成一個深度置信網(wǎng)絡(luò)，其中上一個RBM的輸出層也就是下一個RBM的輸入層，上一個RBM的隱層即為下一個RBM的顯層。在整個訓練過程中，對上一層的RBM進行充分訓練后才能接著訓練當前層的RBM，直到最后一層。

3.3 深度置信網(wǎng)絡(luò)模型的求解

3.3.1 分類結(jié)果及分析

對于模型的實現(xiàn)本文采用加拿大多倫多大學Ruslan Salakhutdinov和Geoff Hinton的軟件包[35-36]，利用訓練集對模型進行訓練，然后利用測試集對模型進行了誤差分析。本文所用的數(shù)據(jù)集一共包含7 081個樣本，需要判別的類型有外顯子和內(nèi)含子兩類。本文將70%的數(shù)據(jù)作為訓練集，30%的數(shù)據(jù)作為測試集。

首先利用訓練集對深度置信網(wǎng)絡(luò)模型進行無監(jiān)督訓練。本文所構(gòu)建的深度置信模型由4個RBM模型“串聯(lián)”而成，因此模型分為4層，根據(jù)Kolmogorov定理確定每層所含隱藏神經(jīng)元個數(shù)分別為119,50,50,200。本文列出了深度置信網(wǎng)絡(luò)里每層神經(jīng)元的輸出結(jié)果，也就是每層神經(jīng)輸出的特征向量。具體結(jié)果如表7所示。

最后將深度置信網(wǎng)絡(luò)無監(jiān)督學習得來的特征向量放入深度置信網(wǎng)絡(luò)的分類器中，本文所用的分類器是神經(jīng)網(wǎng)絡(luò)分類器，由此可以得到蛋白質(zhì)編碼區(qū)的預測結(jié)果。根據(jù)放入測試集的分類標簽可知，當預測結(jié)果為1時，該測試序列被模型判別為外顯子，當預測結(jié)果為2時，該測試序列被模型判別為內(nèi)含子。對比DNA序列原有的分類標簽，可以得出本文提出的深度置信網(wǎng)絡(luò)模型的準確率為83.43%。

3.3.2 對比分析

為了進一步驗證深度置信網(wǎng)絡(luò)對蛋白質(zhì)編碼區(qū)識別問題的準確度，還運用了傳統(tǒng)的Logistic回歸分類器和貝葉斯判別法對蛋白質(zhì)編碼區(qū)進行了判別分析。具體預測結(jié)果分析如表8所示，其中正確率為外顯子被正確預測的比率；靈敏度為所有實際外顯子中被正確預測為外顯子的比例；精確率為預測為外顯子的序列中真正為外顯子的比例；特異度為所有真實的內(nèi)含子序列被正確預測為內(nèi)含子的比例。由于靈敏度和精確率兩個指標有時會出現(xiàn)方向不同的結(jié)果，因此引入F得分，即靈敏度和精確率加權(quán)后的調(diào)和平均。根據(jù)以上五種評價指標[31]可以看出，相比于利用傳統(tǒng)的Logistic回歸和貝葉斯判別法對蛋白質(zhì)編碼區(qū)進行識別，本文所使用的深度置信網(wǎng)絡(luò)對蛋白質(zhì)編碼區(qū)具有更好的識別功能，也就是說，本文所使用的深度置信網(wǎng)絡(luò)模型能夠從眾多的DNA序列數(shù)據(jù)中提取出有效的信息對外顯子和內(nèi)含子進行識別。

表7 DBN每層特征向量的輸出結(jié)果展示

表8 三類判別分析的結(jié)果分析指標表 %

3.4 預測結(jié)果分析

為了更加準確地判斷組合模型的識別效果，本文以測試DNA序列的前5條為例，由于每條測試序列中既包含編碼區(qū)也包含非編碼區(qū)，且它們一般是無規(guī)律間斷出現(xiàn)的，本文采用了一個移動平滑框?qū)π蛄羞M行截取。圖3是移動平滑框截取DNA序列的模擬圖。

圖3 移動平滑框截取DNA序列的模擬圖

如圖3所示，數(shù)據(jù)框沿著測試DNA序列滑動，位于數(shù)據(jù)框結(jié)尾位置的堿基為C，數(shù)據(jù)框中包含有堿基C及其上游的一共250個堿基。如果被截取的序列被模型判定為外顯子，則說明堿基C之前的250個堿基構(gòu)成的序列被判定為外顯子，此時模型的輸出值為“1”。然后數(shù)據(jù)框?qū)⒀刂鳧NA序列向前移動一個堿基，此時數(shù)據(jù)框結(jié)尾處的堿基為G，若此時模型的輸出值為“1”則說明堿基G也為外顯子，若模型的輸出值為“2”則說明堿基G被模型判定為內(nèi)含子中的堿基。以此類推，一條長度為N的DNA序列可以被切分成N-249條測試序列放入模型中進行判別，從而確定該條序列中外顯子和內(nèi)含子的具體位置和數(shù)量。本文所采用的5條測試序列長度分別為2 176、4 775、13 054、7 658、3 967。為了更清晰地展示本文所提出的模型對蛋白質(zhì)編碼區(qū)的預測效果，利用混合矩陣將預測值和真實值進行比較，結(jié)果如表9～表13所示，其中1表示外顯子，2表示內(nèi)含子。

表9 第一條DNA序列混淆矩陣對外顯子識別結(jié)果

表10 第二條DNA序列混淆矩陣對外顯子識別結(jié)果

表11 第三條DNA序列混淆矩陣對外顯子識別結(jié)果

表12 第四條DNA序列混淆矩陣對外顯子識別結(jié)果

表13 第五條DNA序列混淆矩陣對外顯子識別結(jié)果

通過查看表9～表13對角線上的數(shù)據(jù)可以看出，在DNA測試序列上本文所提出的組合模型的判別效果是比較準確的，被錯誤判斷的序列占比較小。

為了更加直觀地評估模型的性能，在混淆矩陣的基礎(chǔ)上分別計算了5條測試序列的準確率、靈敏度、精確率、特異度以及F得分。具體結(jié)果如表14所示。

表14 5種評價指標得分表 %

根據(jù)表14的5種指標可以看出，利用移動平滑框結(jié)合深度置信網(wǎng)絡(luò)對DNA序列中的蛋白質(zhì)編碼區(qū)進行預測是可行的，并且準確率較高。并且對于不同的DNA序列，模型識別的精確程度有小范圍的不同，但準確率都基本維持在98.48%左右。評測了模型的預測效果后，考慮如何對內(nèi)外顯子進行準確定位，本文主要采用了短時傅里葉變換技術(shù)（Short Time Fourier Transform，STFT）對編碼區(qū)進行準確定位。

最后，為了更清晰地看出模型所預測的蛋白質(zhì)編碼區(qū)所在區(qū)域位點，本文采用了STFT定位技術(shù)來對DNA測試序列的深度置信網(wǎng)絡(luò)判別模型輸出值進行分析。STFT是一種常見的時頻分析方法，通過一個時間窗口內(nèi)的一段信號來表示某一時刻的信號特征，也就是把深度置信網(wǎng)絡(luò)模型的輸出值和窗函數(shù)相乘，然后進行一維傅里葉變換，再通過窗函數(shù)的滑動得到一系列的頻譜值，將這些結(jié)果映射到坐標軸上便得到一個二維的時頻圖。結(jié)果發(fā)現(xiàn)外顯子和內(nèi)含子通過DBN輸出的頻譜值差別是很大的，那么找到頻譜出現(xiàn)變化的起始點，也就找到了蛋白質(zhì)編碼區(qū)，即外顯子的確切位置。

本文以測試集的前5條DNA序列為例，將深度置信網(wǎng)絡(luò)模型的輸出值輸入STFT模型中對編碼區(qū)進行定位，由此可以得到不同DNA序列的時頻譜在位置軸上的投影，如圖4所示。從圖中可以看出，外顯子區(qū)域和內(nèi)含子區(qū)域在固定頻率上是不一樣的，也就是說在位置軸上投影的幅頻特性有明顯區(qū)別。因此根據(jù)DNA序列的STFT時頻分析，可以確定出編碼區(qū)的位置，其中峰值為2的是內(nèi)含子所在區(qū)域，峰值為1的為外顯子所在區(qū)域。

圖4 5條測試DNA的時域波形圖

根據(jù)圖4可以看出，藍線代表DNA序列的真實位點，紅線代表DNA序列的預測位點，它們時域圖重合的部分表明模型正確預測內(nèi)外顯子的位點，反之則預測有誤。從圖中可以看出，本文提出的基于深度置信網(wǎng)絡(luò)的組合識別模型的判別能力較強，預測的位點也比較準確。

4 總結(jié)

本文著重探討了如何利用生物統(tǒng)計學方法從真核生物DNA序列中識別出蛋白質(zhì)編碼區(qū)域，主要闡述了對DNA序列的數(shù)值轉(zhuǎn)換、特征變量的提取、特征變量的降維以及對DNA序列的分類預測和對蛋白質(zhì)編碼區(qū)的準確定位。本文涉及了多種生物統(tǒng)計學方法，其中包括信號處理技術(shù)、重編碼技術(shù)、隨機森林、深度置信網(wǎng)絡(luò)以及STFT定位技術(shù)。將深度置信網(wǎng)絡(luò)模型運用到蛋白質(zhì)編碼區(qū)的識別問題，突破了傳統(tǒng)蛋白質(zhì)編碼區(qū)識別技術(shù)的壁壘。為了更好地證明模型的可行性，本文還利用了Logistic回歸模型和貝葉斯判別模型與深度置信網(wǎng)絡(luò)模型進行了對比，最后發(fā)現(xiàn)基于深度置信網(wǎng)絡(luò)模型的蛋白質(zhì)編碼區(qū)識別技術(shù)在各項指標的評定下具有更好的實證效果，這對于生物信息學的研究起著十分重要的作用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡