基于一維卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)ATP綁定位點(diǎn)預(yù)測(cè)

2019-12-23 07:19張?jiān)?/span>於東軍

計(jì)算機(jī)應(yīng)用 2019年11期

張?jiān)? 於東軍

摘要：在生物內(nèi)部活動(dòng)中，蛋白質(zhì)和配體之間的互相作用是非常常見而又重要的一種活動(dòng)，腺嘌呤核苷三磷酸（ATP）是其中一種非常重要的配體。為了提高預(yù)測(cè)腺嘌呤核苷三磷酸（ATP）綁定位點(diǎn)的準(zhǔn)確率，提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)（1DCNN）的方法。首先，以蛋白質(zhì)的序列信息為基礎(chǔ)，融合位置特異性得分矩陣信息、二級(jí)結(jié)構(gòu)信息和水溶性信息，使用隨機(jī)下采樣的方法消除數(shù)據(jù)不平衡的影響，再對(duì)缺失的特征進(jìn)行再編碼補(bǔ)齊，得到訓(xùn)練特征。訓(xùn)練一個(gè)1DCNN來預(yù)測(cè)蛋白質(zhì)ATP綁定位點(diǎn)，優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)，并且進(jìn)行實(shí)驗(yàn)來對(duì)比所提方法和其他機(jī)器學(xué)習(xí)方法的優(yōu)劣。實(shí)驗(yàn)結(jié)果展示了所提方法的有效性，并且該方法與傳統(tǒng)支持向量機(jī)（SVM）相比在AUC指標(biāo)上有部分的提升。

關(guān)鍵詞：蛋白質(zhì)ATP;卷積神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)不平衡問題;分類

中圖分類號(hào)：TP391.4

文獻(xiàn)標(biāo)志碼：A

ProteinATP binding site prediction based on 1Dconvolutional neural network

ZHANG Yu， YU Dongjun*

School of Computer Science and Engineering， Nanjing University of Science and Technology， Nanjing Jiangsu 210094， China

Abstract：

Interaction between proteins and ligands is a very common and important activity in the internal activities of organisms. Adenosine TriPhosphate （ATP） is one of the most important ligands. To improve the accuracy of proteinATP （Adenosine TriPhosphate） binding sites， an algorithm was proposed by using One Dimensional Convolutional Neural Network （1DCNN）. Firstly， based on the protein sequence information， position specific score matrix information， secondary structure information and water solubility information were combined and random undersampling was used to eliminate the impact of data imbalance. Then， the missing features were completed by recoding. Finally， the training features were obtained. A 1DCNN was trained to predict proteinATP binding sites， the network structure was optimized， and experiments were carried out to compare the proposed method and other machine learning methods. Experimental results show that the proposed method is effective and can achieve better performance on AUC （Area Under Curve） compared to the traditional Support Vector Machine （SVM）.

Key words：

proteinATP （Adenosine TriPhosphate）; Convolutional Neural Network （CNN）;data imbalance problem;classification

0?引言

腺嘌呤核苷三磷酸（Adenosine TriPhosphate， ATP）是大部分生物體力最直接的能量來源，它水解時(shí)能釋放出大量的能量，這些能量參與了很多人類的基礎(chǔ)的生命活動(dòng)，因此，ATP是人體內(nèi)極為重要的一種分子[1-2]。蛋白質(zhì)ATP綁定位點(diǎn)指的是在綁定有ATP的蛋白質(zhì)的殘基中和ATP配體距離小于一定距離的殘基，如果能夠正確定位蛋白質(zhì)ATP綁定位點(diǎn)，就能變相地確定ATP分子的位置，這對(duì)藥物設(shè)計(jì)和進(jìn)一步的生物生命活動(dòng)研究都有著重大的意義[3-4]。

在傳統(tǒng)的生物學(xué)實(shí)驗(yàn)中，通常要通過生物濕實(shí)驗(yàn)來測(cè)定蛋白質(zhì)的ATP綁定位點(diǎn)，但是做生物濕實(shí)驗(yàn)較為耗時(shí)而且經(jīng)濟(jì)成本高昂。隨著數(shù)字化信息時(shí)代的開始，很多的生物信息以數(shù)字化的方式得以保存[5]，隨后就出現(xiàn)了使用已知的生物信息來預(yù)測(cè)未知的信息的方法，最開始使用的方法一般是基于模板的匹配算法[6-7]，隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展，開始出現(xiàn)使用機(jī)器學(xué)習(xí)來預(yù)測(cè)未知的綁定位點(diǎn)[8-9]的方法。

在機(jī)器學(xué)習(xí)方法中，有效的特征提取是提高預(yù)測(cè)性能的關(guān)鍵。在蛋白質(zhì)的特征工程方面，開始只是使用原本的序列信息來預(yù)測(cè)，后來，蛋白質(zhì)序列中的一些隱藏的信息被挖掘了出來，例如：位置特異性得分矩陣（Position Specific Score Matrix， PSSM）[10]、二級(jí)結(jié)構(gòu)（Secondary Structure， SS）信息、溶液接觸面積（Solvent Accessibility， SA）信息、物理化學(xué)屬性[11]、三級(jí)結(jié)構(gòu)信息[12-13]等，這些信息也被用于參與預(yù)測(cè)，而且提高了預(yù)測(cè)的性能; 然而這些信息很多也是未經(jīng)過實(shí)驗(yàn)測(cè)定的。針對(duì)這個(gè)問題，后續(xù)出現(xiàn)了使用預(yù)測(cè)器來預(yù)測(cè)這些隱藏信息，并且把預(yù)測(cè)結(jié)果作為特征參與預(yù)測(cè)的集成預(yù)測(cè)器[14-15]。隨著方法的不斷改進(jìn)，預(yù)測(cè)的準(zhǔn)確率也越來越高。

近幾年來，深度學(xué)習(xí)技術(shù)開始逐漸應(yīng)用于生物信息學(xué)，DeepBind[16]使用了深度卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了脫氧核糖核酸（DeoxyriboNucleic Acid， DNA）和核糖核酸（RiboNucleic Acid，RNA）的蛋白質(zhì)綁定位點(diǎn)。DeepSite[17]直接使用蛋白質(zhì)的三級(jí)結(jié)構(gòu)特征訓(xùn)練一個(gè)深度三維卷積神經(jīng)網(wǎng)絡(luò)，對(duì)綁定口袋在蛋白質(zhì)三維空間中的位置進(jìn)行預(yù)測(cè)。隨著這些深度學(xué)習(xí)的方法的產(chǎn)生，預(yù)測(cè)的準(zhǔn)確率又被提高了一個(gè)層次。

本文提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)（One Dimensional Convolutional Neural Network， 1DCNN）的方法來預(yù)測(cè)蛋白質(zhì)ATP綁定位點(diǎn)，使用蛋白質(zhì)的序列信息、PSSM矩陣、二級(jí)結(jié)構(gòu)特征、溶液接觸面積特征來訓(xùn)練模型，預(yù)測(cè)每個(gè)殘基是綁定位點(diǎn)的概率。最后和其他使用支持向量機(jī)（Support Vector Machine， SVM）的方法進(jìn)行比較，分析本文方法的優(yōu)點(diǎn)和缺點(diǎn)。

1?數(shù)據(jù)集

本文所使用的數(shù)據(jù)集為論文ATPbind[14]中所使用的數(shù)據(jù)集，該數(shù)據(jù)集由429個(gè)和ATP綁定的蛋白質(zhì)鏈構(gòu)成。該數(shù)據(jù)集來自2016年5月之前PDB（Protein Data Bank）[18]中的數(shù)據(jù)，并且使用CDhit[19]軟件將同源性超過40%的蛋白質(zhì)全部除去。在這429個(gè)蛋白質(zhì)鏈中，將其中388個(gè)作為訓(xùn)練集（PATP388），剩下41個(gè)蛋白質(zhì)鏈作為獨(dú)立測(cè)試集（PATPTEST）。PATP388包含5-657個(gè)ATP綁定位點(diǎn)殘基和142-086個(gè)非ATP綁定位點(diǎn)殘基，PATPTEST包含674個(gè)ATP綁點(diǎn)位點(diǎn)殘基和14-159個(gè)非ATP綁點(diǎn)位點(diǎn)殘基。

2?蛋白質(zhì)殘基的特征表示

蛋白質(zhì)的每個(gè)殘基都是20種氨基酸脫水縮合后中的一種，一條蛋白質(zhì)鏈可以簡(jiǎn)單表示為一個(gè)由20種殘基組成的字符串，但是每條蛋白質(zhì)鏈中的信息遠(yuǎn)多于一個(gè)字符串所表達(dá)的信息。蛋白質(zhì)的特征工程問題一直是生物信息學(xué)中復(fù)雜而又重要的問題。本文選取了幾個(gè)常用而又有效的特征，在對(duì)其進(jìn)行一些處理后，作為最終的訓(xùn)練特征。

2.1?特征選取

本文選用了PSSM特異性得分矩陣、蛋白質(zhì)二級(jí)結(jié)構(gòu)特征、溶液接觸面積作為基本的特征組成成分。

PSSM矩陣可以反映出該蛋白的序列信息和族譜信息。通常使用PSIBLAST[20]程序?qū)⒋葘?duì)蛋白的信息放到SwissProt[21]蛋白質(zhì)數(shù)據(jù)庫中搜索并和結(jié)果進(jìn)行比對(duì)，最后得到PSSM矩陣。PSSM矩陣是一個(gè)N×20的矩陣，N為蛋白質(zhì)殘基的數(shù)量，每個(gè)殘基對(duì)應(yīng)著20個(gè)元素，這20個(gè)元素代表著20種氨基酸的每一種出現(xiàn)的可信度得分。在得到PSSM矩陣后，使用歸一化函數(shù)將PSSM矩陣的每個(gè)得分進(jìn)行歸一化處理。歸一化函數(shù)如下：

f（x）=x-minmax-min（1）

蛋白質(zhì)的二級(jí)結(jié)構(gòu)（SS）指的是多個(gè)殘基在局部所表現(xiàn)出的一種鏈接形狀。蛋白質(zhì)的二級(jí)結(jié)構(gòu)被分為α螺旋（H）、β折疊（E）和無規(guī)律的卷曲（C）。本文中用已有的預(yù)測(cè)器psipred[22]來預(yù)測(cè)蛋白質(zhì)的每個(gè)殘基屬于某一種二級(jí)結(jié)構(gòu)的概率，并把得到的結(jié)果作為特征。預(yù)測(cè)器得到的結(jié)果為N×3的矩陣，即每個(gè)殘基有3個(gè)元素，分別指3種不同二級(jí)結(jié)構(gòu)的概率。

蛋白質(zhì)的溶液接觸面積（SA）是指蛋白質(zhì)每個(gè)殘基可以和水接觸的面積大小，間接反映了這個(gè)殘基是否可溶于水。每個(gè)殘基對(duì)應(yīng)著三種狀態(tài)：易于和水接觸、不易于和水接觸、中性。本文中使用已有的預(yù)測(cè)器Sann[23]來預(yù)測(cè)，得到N×3的矩陣，即每個(gè)殘基對(duì)應(yīng)3個(gè)元素，分別代表3種狀態(tài)的概率。

融合以上特征，每個(gè)殘基一共有20+3+3=26維的基本向量。然而，一個(gè)ATP綁定位點(diǎn)的確定和鄰近的殘基有相互作用的關(guān)系，所以，一般使用一個(gè)滑動(dòng)窗口把指定殘基的鄰近殘基也作為特征輸入，針對(duì)ATP綁定位點(diǎn)預(yù)測(cè)問題的滑動(dòng)窗口大小一般都取17[24]，指定殘基的前8個(gè)和后8個(gè)殘基也都在滑動(dòng)窗口之內(nèi)。但是一條蛋白質(zhì)鏈的前8個(gè)殘基和后8個(gè)殘基的滑動(dòng)窗口區(qū)域并不存在17個(gè)殘基。針對(duì)這個(gè)問題，本文使用了補(bǔ)位的方法，在頭部和尾部補(bǔ)上缺失的殘基，對(duì)于這些補(bǔ)位的殘基，使用了一種類似于onehot編碼的方法。針對(duì)選取的3種基本特征，本文在這3個(gè)基本特征中每個(gè)額外加入一個(gè)維度也就變成了21（PSSM）、4（SS）、4（SA），一共29個(gè)維度。對(duì)于正常的殘基，這3個(gè)額外的維度值都為0，而針對(duì)補(bǔ)位的殘基，這3個(gè)維度值為1而其余的維度值為0。

最后，每個(gè)殘基的維度數(shù)量就變成了29×17=493個(gè)，這493個(gè)維度也是作為最終的輸入向量的構(gòu)成。

2.2?隨機(jī)下采樣

由于正負(fù)樣本數(shù)量極為不平衡，正負(fù)類比達(dá)到1∶24。這就造成了不平衡問題[25]。如果不對(duì)數(shù)據(jù)進(jìn)行處理，直接進(jìn)行訓(xùn)練，那么分類器將傾向把所有樣本都預(yù)測(cè)為負(fù)類。針對(duì)不平衡問題，通常會(huì)使用上采樣或者下采樣方法來平衡樣本。文中所使用的是最常用的隨機(jī)下采樣，即隨機(jī)選取指定數(shù)目的負(fù)類樣本，使之?dāng)?shù)目和正類樣本平衡。每次隨機(jī)拿取正類樣本數(shù)目的負(fù)類樣本，和所有正類樣本混合作為一輪神經(jīng)網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練樣本。

3?卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和訓(xùn)練

3.1?網(wǎng)絡(luò)模型結(jié)構(gòu)

由于蛋白質(zhì)序列信息是一維信息而且具有局部關(guān)聯(lián)性，本文使用一維卷積神經(jīng)網(wǎng)絡(luò)作為模型進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)的大致結(jié)構(gòu)如圖1所示。神經(jīng)網(wǎng)絡(luò)的輸入是一個(gè)17×29的矩陣，即長度為17，深度為29。

網(wǎng)絡(luò)的第一層和第二層都為卷積層（Conv Layer），卷積的窗口大小為2，步長為1，第一層卷積核的數(shù)量為400，第二層卷積核的數(shù)量也為400，所以經(jīng)過2層卷積之后，輸出的數(shù)據(jù)的深度就為400。

由于序列所攜帶的信息量比較少，在圖像領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)中常用的池化層在本文中并沒有使用。

第三層為平鋪層（Flatten Layer），用來連接卷積層和全連接層。

第四層和第五層都為全連接層（Dense Layer），第四層的神經(jīng)元的數(shù)量為500，第五層為200。

第六層是帶有丟棄[26]（Drop out）的全連接層，隨機(jī)丟棄一些輸入來防止神經(jīng)網(wǎng)絡(luò)過擬合，本文中丟棄輸入的概率設(shè)為50%。

最后一層為輸出層（Output），神經(jīng)元的數(shù)量為2。這兩個(gè)神經(jīng)元的輸出就分別代表著正類和負(fù)類的預(yù)測(cè)置信度。

在每一層得到輸入計(jì)算出結(jié)果后，會(huì)使用激活函數(shù)對(duì)結(jié)果進(jìn)行調(diào)整。除最后輸出層外，每一層都使用了ELU激活函數(shù)。第五層則使用了sigmoid函數(shù)。ELU和sigmoid函數(shù)如下：

elu（x）=x， x≥0α（exp（x）-1），x<0 （2）

sig（x）=11+e-x（3）

最后對(duì)這兩個(gè)輸出結(jié)果使用Softmax函數(shù)，得出正類和負(fù)類的預(yù)測(cè)概率。Softmax函數(shù)如下：

σ（z）j=ezj∑Kk=1ezk（4）

本次實(shí)驗(yàn)使用TensorFlow[27]進(jìn)行神經(jīng)網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練，在硬件上使用了兩塊GTX Titan XP，并且使用CUDA（Compute Unified Device Architecture）運(yùn)算平臺(tái)進(jìn)行加速計(jì)算。

為了優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)，本文還構(gòu)建了一些不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。文中主要通過改變網(wǎng)絡(luò)模型中卷積層的層數(shù)和每層卷積層中卷積核的個(gè)數(shù)來改變結(jié)構(gòu)。層數(shù)越多，卷積核數(shù)量越多的網(wǎng)絡(luò)的學(xué)習(xí)能力也就越強(qiáng)，但是同時(shí)也會(huì)導(dǎo)致學(xué)習(xí)的速度慢、梯度爆炸和梯度消失的情況發(fā)生。

3.2?模型訓(xùn)練

本文將一次隨機(jī)下采樣的樣本作為一輪的訓(xùn)練樣本進(jìn)行訓(xùn)練，將每次Softmax函數(shù)得到的正類和負(fù)類的預(yù)測(cè)概率和真實(shí)類別的交叉熵函數(shù)作為損失函數(shù)，使用梯度下降法對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。交叉熵函數(shù)如下：

H（p，q）=∑ip（i）*ln（1/q（i））（5）

其中：p為樣本的真實(shí)值; q為樣本的預(yù)測(cè)值; p（i）、q（i）表示向量p、q的第i個(gè)元素。

為了使模型收斂的速度加快，將正負(fù)樣本交替輸入進(jìn)模型進(jìn)行訓(xùn)練，每輸入一個(gè)殘基的特征就進(jìn)行一次梯度下降操作，即batch size=1。本文以對(duì)獨(dú)立測(cè)試集預(yù)測(cè)結(jié)果的AUC（Area Under Curve）作為第一評(píng)估指標(biāo)，訓(xùn)練多輪直至AUC收斂。

4?實(shí)驗(yàn)結(jié)果和比較分析

4.1?評(píng)判標(biāo)準(zhǔn)

本文涉及的是一個(gè)二分類問題，所有樣本只有正類和負(fù)類。根據(jù)獨(dú)立測(cè)試集的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽，可以把每個(gè)樣本的預(yù)測(cè)結(jié)果分成4種情況：TP（True Positives）、FP（False Positives）、TN（True Negatives）和FN（False Negatives）。

根據(jù)這些基礎(chǔ)數(shù)據(jù)，演化出了特異性（Specificity，Spe）、敏感性（Sensitivity，Sen）、準(zhǔn)確性（Accuracy，Acc）、馬修斯相關(guān)系數(shù)（Matthews Correlation Coefficient，MCC）。由于本文的分類器是軟分類器，即輸出的是屬于正類的概率，必須先確定一個(gè)閾值才能確定預(yù)測(cè)的樣本是正類還是負(fù)類，如果得到的正類概率大于閾值那么這個(gè)樣本就會(huì)被預(yù)測(cè)為正類; 反之，就會(huì)被預(yù)測(cè)為負(fù)類。所以，一個(gè)已經(jīng)被預(yù)測(cè)好的結(jié)果的TP、FP、FN、TN是會(huì)隨著閾值而改變的，MCC等數(shù)據(jù)也會(huì)隨之改變。

Spe=TNTN+FP（6）

Sen=TPTP+FN（7）

Acc=TP+TNTP+TN+FP+FN（8）

MCC=

TP*TN-FP*FN（TP+FP）*（TP+FN）*（TN+FP）*（TN+FN）（9）

AUC可以更加穩(wěn)定地去描述一個(gè)預(yù)測(cè)結(jié)果的好壞，將閾值從0到100%遍歷，根據(jù)TP/TP+FN（縱坐標(biāo)）和FP/FP+TN（橫坐標(biāo)），畫出ROC（Receiver Operating Characteristic）曲線，AUC為ROC曲線下與坐標(biāo)軸圍成的面積，而這個(gè)值是不需要一個(gè)確定的閾值的。

由于本文所涉及的問題是個(gè)樣本不平衡問題，如果使用Acc作為衡量標(biāo)準(zhǔn)是無法判別預(yù)測(cè)器好壞的，因?yàn)榧词拱阉蓄惗碱A(yù)測(cè)為多數(shù)類，Acc也能達(dá)到很高的數(shù)值，所以，一般用AUC指標(biāo)作為分類器的評(píng)判標(biāo)準(zhǔn)。

4.2?實(shí)驗(yàn)結(jié)果

本文將隨機(jī)下采樣后得到的一組數(shù)據(jù)作為一輪訓(xùn)練的所需數(shù)據(jù)。針對(duì)每種結(jié)構(gòu)不同的神經(jīng)網(wǎng)絡(luò)，會(huì)動(dòng)態(tài)調(diào)正學(xué)習(xí)速率，并且讓其訓(xùn)練多輪。在每輪訓(xùn)練結(jié)束后，使用獨(dú)立測(cè)試集對(duì)當(dāng)前的網(wǎng)絡(luò)進(jìn)行一次測(cè)試。前170輪次在獨(dú)立測(cè)試集上的結(jié)果如圖2所示。

可以看出，大概第50輪次訓(xùn)練開始，AUC指數(shù)就已經(jīng)收斂并且趨向于穩(wěn)定。但是，從40輪開始，MCC卻以非常慢的速度上升，而且60輪往后的MCC表現(xiàn)得非常不穩(wěn)定。隨著損失的不斷減小，AUC和MCC并沒有出現(xiàn)下降的趨勢(shì)，說明并沒有發(fā)生過擬合的現(xiàn)象。

可以得出，卷積神經(jīng)網(wǎng)絡(luò)模型在本文的問題中對(duì)AUC指標(biāo)的優(yōu)化是非常有效的，但是對(duì)MCC指標(biāo)的優(yōu)化卻有所不足，而且從50輪開始，AUC數(shù)值基本穩(wěn)定，但是MCC卻緩慢提高。MCC指標(biāo)優(yōu)化緩慢的問題有可能和本文神經(jīng)網(wǎng)絡(luò)所使用的交叉熵?fù)p失函數(shù)核梯度下降的優(yōu)化方法有關(guān)。

將這種方法在獨(dú)立測(cè)試集上，和其他方法進(jìn)行比較，結(jié)果如表3所示。

從表3可以看出：雖然Acc并不是特別優(yōu)秀，不及ATPseq的99.27%，但也達(dá)到了一般預(yù)測(cè)器96%的水平;而本文所提出的方法較于其他方法在AUC上有不少提升，比最好的ATPseq也要高出0.4個(gè)百分點(diǎn)，達(dá)到了88.2%。這可能就是神經(jīng)網(wǎng)絡(luò)著重于AUC的優(yōu)化才導(dǎo)致了這一結(jié)果。

5?討論

5.1?一維卷積神經(jīng)網(wǎng)絡(luò)還是二維卷積神經(jīng)網(wǎng)絡(luò)

二維卷積神經(jīng)網(wǎng)絡(luò)目前被廣泛應(yīng)用于圖像領(lǐng)域，而且取得了很好的成果。然而，在本文所討論的問題中，我們認(rèn)為并沒有必要使用二維卷積神經(jīng)網(wǎng)絡(luò)。

本文所使用的序列信息是一個(gè)一維的信息，雖然產(chǎn)生的PSSM、SS、SA矩陣看似是個(gè)二維的信息，但是本文中只有殘基之間是有順序關(guān)系的，也就是矩陣中的各個(gè)橫列是順序關(guān)系的。而矩陣中的縱列只是殘基在各個(gè)指標(biāo)上的得分，各個(gè)指標(biāo)之間并沒有明顯的順序關(guān)系。

本文使用了規(guī)模大體一致的一維卷積神經(jīng)網(wǎng)絡(luò)（1DCNN）和二維卷積神經(jīng)網(wǎng)絡(luò)（Two Dimensional Convolutional Neural Network， 2DCNN）進(jìn)行訓(xùn)練，并且對(duì)比了它們的訓(xùn)練過程中在獨(dú)立測(cè)試集上的結(jié)果，如圖3所示。

一維卷積網(wǎng)絡(luò)使用的是2層卷積層、400卷積核的結(jié)構(gòu)。二維卷積網(wǎng)絡(luò)的卷積窗口大小為2×2，因此卷積窗口的數(shù)量就變多了。為了保證網(wǎng)絡(luò)大小規(guī)模的平等性，所以削減了卷積核的數(shù)目，為2層卷積層、20個(gè)卷積核的結(jié)構(gòu)。

通過實(shí)驗(yàn)可以看出，在40輪訓(xùn)練前，二維網(wǎng)絡(luò)的AUC收斂地稍微快一些。在40輪訓(xùn)練后，兩個(gè)網(wǎng)絡(luò)在AUC指標(biāo)上基本就沒有什么明顯的差距，而且一維的網(wǎng)絡(luò)比二維的網(wǎng)絡(luò)更為穩(wěn)定。因此，針對(duì)序列信息的預(yù)測(cè)方面，二維卷積網(wǎng)絡(luò)和一維卷積網(wǎng)絡(luò)并沒有明顯的差距。

5.2?深度卷積神經(jīng)網(wǎng)絡(luò)還是普通卷積神經(jīng)網(wǎng)絡(luò)

一般來說，深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和泛化能力都強(qiáng)于淺層的神經(jīng)網(wǎng)絡(luò)，但是針對(duì)本文中的序列信息來說，淺層的神經(jīng)網(wǎng)絡(luò)已經(jīng)足夠?qū)W習(xí)到里面的規(guī)律。在DNA蛋白質(zhì)綁定位點(diǎn)的預(yù)測(cè)問題上，有學(xué)者使用了只有1層卷積層的卷積神經(jīng)網(wǎng)絡(luò)[30]，就完成了對(duì)綁點(diǎn)位點(diǎn)較好的預(yù)測(cè)。

為此，本文使用了3折交叉驗(yàn)證比較了不同規(guī)格的卷積神經(jīng)網(wǎng)絡(luò)，其結(jié)果如圖4所示（1layer_400表示1層卷積層400卷積核）。

可以看出，2層400卷積核的神經(jīng)網(wǎng)絡(luò)模型已經(jīng)有很好的學(xué)習(xí)能力和學(xué)習(xí)速率，較深網(wǎng)絡(luò)可能出現(xiàn)了梯度爆炸的問題導(dǎo)致收斂困難，而且在卷積神經(jīng)網(wǎng)絡(luò)的深度和神經(jīng)元數(shù)量達(dá)到一定規(guī)模時(shí)，再增加深度或者神經(jīng)元數(shù)量并不會(huì)對(duì)最終結(jié)果產(chǎn)生很大的改變。

6?結(jié)語

本文主要研究了蛋白質(zhì)ATP綁定位點(diǎn)的預(yù)測(cè)問題，使用了蛋白質(zhì)的特異性得分矩陣、二級(jí)結(jié)構(gòu)、溶液接觸面積的融合特征，基于一維卷積神經(jīng)網(wǎng)絡(luò)的算法，并且采用隨機(jī)下采樣解決了不平衡問題，完成了對(duì)蛋白質(zhì)ATP綁定位點(diǎn)的較好的預(yù)測(cè)，并且在獨(dú)立測(cè)試集上得到了驗(yàn)證。

參考文獻(xiàn) （References）

[1]GAO M， SKOLNICK J. The distribution of ligandbinding pockets around proteinprotein interfaces suggests a general mechanism for pocket formation[J]. Proceedings of the National Academy of Sciences of the United States of America， 2012， 109（10）： 3784-3789.

[2]TURTON D A， SENN H M， HARWOOD T， et al. Terahertz underdamped vibrational motion governs proteinligand binding in solution [EB/OL]. [2018-11-20].http：//europacat.co.uk/staff/wynne/pubs/r/2014NatCommproteins.pdf.

[3]SIRIMULLA S，BAILEY J B， VEGESNA R，et al. Halogen interactions in proteinligand complexes： implications of halogen bonding for rational drug design [J]. Journal of Chemical Information and Modeling， 2013， 53（11）： 2781-2791.

[4]AMARI S， AIZAWA M， ZHANG J， et al. VISCANA： visualized cluster analysis of proteinligand interaction based on the ab initio fragment molecular orbital method for virtual ligand screening[J]. Journal of Chemical Information and Modeling， 2006， 46（1）： 221-230.

[5]BILOFSKY H S，BURKS C. The GenBank genetic sequence data bank[J]. Nucleic Acids Research， 1988， 16（5）： 1861-1863.

[6]LEVITT D G， BANASZAK L J. POCKET： a computer graphics method for identifying and displaying protein cavities and their surrounding amino acids[J]. Journal of Molecular Graphics， 1992， 10（4）： 229-234.

[7]LASKOWSKI R A. SURFNET： a program for visualizing molecular surfaces， cavities， and intermolecular interactions[J]. Journal of Molecular Graphics， 1995， 13（5）： 323-330.

[8]CHEN K， MIZIANTY M J， KURGAN L. ATPsite： sequencebased prediction of ATPbinding residues[J]. Proteome Science， 2011， 9（S1）： S4.

[9]石大宏. 基于序列的蛋白質(zhì)—核苷酸綁定位點(diǎn)預(yù)測(cè)研究[D]. 南京：南京理工大學(xué)， 2015.（SHI D H. Sequential proteinGDP binding residues prediction[D]. Nanjing： Nanjing University of Science and Technology， 2015.）

[10]JONES D T， WARD J J. Prediction of disordered regions in proteins from position specific score matrices[J]. ProteinsStructure Function and Bioinformatics， 2003， 53（S6）：573-578.

[11]LAURIE A T R， JACKSON R M. QSiteFinder： an energybased method for the prediction of proteinligand binding sites [J]. Bioinformatics， 2005， 21（9）： 1908-1916.

[12]ZHANG Y， SKOLNICK J. TMalign： a protein structure alignment algorithm based on the TMscore[J]. Nucleic Acids Research， 2005， 33（7）： 2302-2309.

[13]楊驥.基于序列與結(jié)構(gòu)特征結(jié)合的蛋白質(zhì)與DNA綁定位點(diǎn)預(yù)測(cè)[J]. 計(jì)算機(jī)與現(xiàn)代化， 2016（1）：20-25.（YANG J. Prediction of DNAprotein binding sites based on combining sequence with structure information[J]. Computer and Modernization， 2016（1）：20-25.）

[14]於東軍，胡俊，於鉉.基于查詢驅(qū)動(dòng)的蛋白質(zhì)配體綁定位點(diǎn)預(yù)測(cè)方法： 201310573950.9[P]. 2014-03-05.（YU D J，HU J，YU X. Prediction of proteinligand binding sites based on querydriven： 201310573950.9[P]. 2014-03-05.）

[15]HU J， LI Y， ZHANG Y， et al. ATPbind： accurate proteinATP binding site prediction by combining sequenceprofiling and structurebased comparisons[J]. Journal of Chemical Information and Modeling， 2018， 58（2）： 501-510.

[16]ALIPANAHI B， DELONG A， WEIRAUCH M T， et al. Predicting the sequence specificities of DNA and RNAbinding proteins by deep learning [J]. Nature Biotechnology， 2015， 33（8）： 831-838.

[17]JIMENEZ J， DOERR S， MARTINEZROSELL G， et al. DeepSite： proteinbinding site predictor using 3Dconvolutional neural networks [J]. Bioinformatics， 2017， 33（19）： 3036-3042.

[18]DESHPANDE N， ADDESS K J， BLUHM W F， et al. The RCSB protein data bank： a redesigned query system and relational database based on the mmCIF schema[J]. Nucleic Acids Research， 2005， 33（S1）： D233-D237.

[19]LI W， GODZIK A. Cdhit： a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics， 2006， 22（13）： 1658-1659.

[20]SCHAFFER A A， ARAVIND L， MADDEN T L， et al. Improving the accuracy of PSIBLAST protein database searches with compositionbased statistics and other refinements[J]. Nucleic Acids Research， 2001， 29（14）： 2994-3005.

[21]BAIROCH A， APWEILER R. The SWISSPROT protein sequence database and its supplement TrEMBL in 2000[J]. Nucleic Acids Research， 2000， 28（1）： 45-48.

[22]JONES D T. Protein secondary structure prediction based on positionspecific scoring matrices[J]. Journal of Molecular Biology， 1999， 292（2）： 195-202.

[23]JOO K， LEE S J， LEE J. Sann： solvent accessibility prediction of proteins by nearest neighbor method[J]. Proteins， 2012， 80（7）： 1791-1797.

[24]YU D J， HU J， TANG Z M， et al. Improving proteinATP binding residues prediction by boosting SVMs with random undersampling [J]. Neurocomputing， 2013， 104：180-190.

[25]COHEN G， HILARIO M， SAX H， et al. Learning from imbalanced data in surveillance of nosocomial infection [J]. Artificial Intelligence in Medicine， 2006， 37（1）： 7-18.

[26]SRIVASTAVA N， HINTON G， KRIZHEVSKY A， et al. Dropout： a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research， 2014， 15（1）：1929-1958.

[27]ABADI M. TensorFlow： learning functions at scale[J]. ACM SIGPLAN Notices， 2016， 51（9）： 1.

[28]CHEN K， MIZIANTY M J， KURGAN L. Prediction and analysis of nucleotidebinding residues using sequence and sequencederived structural descriptors [J]. Bioinformatics， 2012， 28（3）： 331-341.

[29]YU D J， HU J， HUANG Y， et al. TargetATPsite： a templatefree method for ATPbinding sites prediction with residue evolution image sparse representation and classifier ensemble [J]. Journal of Computational Chemistry， 2013， 34（11）： 974-985.

[30]ZENG H， EDWARDS M D， LIU G， et al. Convolutional neural network architectures for predicting DNAprotein binding[J]. Bioinformatics， 2016， 32（12）： i121-i127.

This work is partially supported by the National Natural Science Foundation of China （61772273， 61373062）.

ZHANG Yu， born in 1995， M. S. candidate. His research interests include bioinformatics computing， pattern recognition.

YU Dongjun， born in 1975， Ph. D.， professor. His research interests include bioinformatics computing， machine learning， pattern recognition， intelligence system.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于一維卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)ATP綁定位點(diǎn)預(yù)測(cè)