国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)和支持向量機(jī)的基因結(jié)合蛋白預(yù)測

2021-09-03 09:41陳佐瓚丁小軍甘井中
關(guān)鍵詞:氨基酸蛋白質(zhì)樣本

陳佐瓚, 徐 兵, 丁小軍, 甘井中

(1. 玉林師范學(xué)院 計算機(jī)科學(xué)與工程學(xué)院, 廣西 玉林 537000; 2. 南京師范大學(xué) 地理科學(xué)學(xué)院, 江蘇 南京 210023;3. 中南大學(xué) 計算機(jī)學(xué)院, 湖南 長沙 410083)

基因與蛋白質(zhì)的結(jié)合是生物體的重要功能。隨著科技的進(jìn)步,基因測序技術(shù)不斷完善,諸多專家學(xué)者致力于挖掘基因序列,探索蛋白質(zhì)在生物學(xué)上的意義[1-3]。每個生物都有蛋白質(zhì),預(yù)測蛋白質(zhì)原始序列是當(dāng)今生物信息學(xué)領(lǐng)域的研究熱點(diǎn)[4-6]。蛋白質(zhì)與脫氧核糖核酸(DNA)結(jié)合的能力稱為DNA結(jié)合蛋白(DBP)。 DNA通過與蛋白質(zhì)結(jié)合,可以實(shí)現(xiàn)多種功能, 調(diào)節(jié)生物體的機(jī)制[7]。 生物信息學(xué)領(lǐng)域的熱點(diǎn)問題集中在計算機(jī)資源和一些分類算法的集成上[8-9],其中蛋白質(zhì)數(shù)據(jù)的積累、人工計算工作量以及人力物力成本等都是需要考慮的問題。

近年來,一些學(xué)者認(rèn)為DNA結(jié)合蛋白預(yù)測是一個分類任務(wù),因此諸多基于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法應(yīng)用于DNA結(jié)合蛋白研究[10-13]。以上方法確實(shí)比人工分類方法的效率有所提升,但是在預(yù)測精度和速度方面還需要提升和改進(jìn)?;诮y(tǒng)計學(xué)的生物實(shí)驗(yàn)預(yù)測方法的優(yōu)點(diǎn)是預(yù)測效果好,準(zhǔn)確性極高,但也存在成本高、預(yù)測時間長的缺點(diǎn)?;跈C(jī)器學(xué)習(xí)算法通過蛋白質(zhì)的結(jié)構(gòu)以及功能特性來學(xué)習(xí)其特征集合,采用機(jī)器學(xué)習(xí)中非線性映射方法,根據(jù)集合特征實(shí)現(xiàn)分類,但是如何保持集合向量分類,獲得可以有效輸出特征分類的結(jié)果還需要重點(diǎn)研究[14]。目前,人工智能中的深度學(xué)習(xí)方法已成為DNA結(jié)合蛋白預(yù)測方向上生物學(xué)信息的研究熱點(diǎn), 并取得了顯著成果[15],但是,在當(dāng)今日益增長的生物數(shù)據(jù)中,如何使用當(dāng)前的深度模型來解釋生物信息甚至生物問題,是一個很有意義的研究課題。基于此,本文中提出一種基于深度學(xué)習(xí)和支持向量機(jī)(SVM)的DNA結(jié)合蛋白預(yù)測算法(簡稱本文算法)。

1 DNA結(jié)合蛋白預(yù)測方法

1.1 模型框架

給定結(jié)構(gòu)序列A1A2A3A4A5A6A7…AL,該結(jié)構(gòu)序列包含20個堿性氨基酸和噪聲蛋白,長度為L。通過嵌入操作,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和門控循環(huán)單元 (gated recurrent unit, GRU)深度學(xué)習(xí)方法構(gòu)建模型(見圖1),構(gòu)建深層神經(jīng)網(wǎng)絡(luò)對原始氨基酸序列進(jìn)行編碼和解碼,得到氨基酸序列預(yù)測結(jié)果。通過特定的氨基酸序列的預(yù)測實(shí)例,分析模型各個模塊的功能。

GRU—門控循環(huán)單元。

在圖1所示的模型框架結(jié)構(gòu)中,輸入流為模擬氨基酸序列“MSFMVPT”特征的工作流程,主要包括4個階段: 1)原始氨基酸序列成為固定長度的整數(shù)序列,需要進(jìn)行編碼; 2)通過嵌入操作將特征序列進(jìn)行向量化表示; 3)將經(jīng)過編碼標(biāo)注后的特征序列轉(zhuǎn)化得到的特征向量饋入Convolution(卷積)中,進(jìn)行特征提?。?4)不同于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)常用的Softmax分類器方法,本文中將提取后的特征序列饋入到GRU中進(jìn)行解碼輸出,該輸出為一個定長的向量,然后通過SVM進(jìn)行分類輸出。

1.2 序列編碼

本文算法的一個顯著特點(diǎn)是需要對原始的蛋白質(zhì)序列進(jìn)行饋入,將原始蛋白質(zhì)序列編碼為可由計算機(jī)處理、分析的數(shù)據(jù)。在生物信息學(xué)領(lǐng)域,特征的擴(kuò)展需要通過嵌入進(jìn)行擴(kuò)展,從而構(gòu)建氨基酸詞典,如表1所示。每個氨基酸都是一一對應(yīng)于從小到大的整數(shù),其順序不會影響實(shí)驗(yàn)效果,只是完成字符到整數(shù)的轉(zhuǎn)換[16]。由于輸入深度學(xué)習(xí)模型所需的數(shù)據(jù)規(guī)模是固定的,因此必須要進(jìn)行序列填充。當(dāng)氨基酸序列“MSFMVPT”的長度為7時,輸入長度設(shè)置為閾值8,該序列用“X”填充并變?yōu)椤癤MSFMVPT”。

表1 氨基酸詞典

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集

使用Zhang等[16]設(shè)計的蛋白質(zhì)資料庫PDB14189基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集是通過搜索“DNA結(jié)合”關(guān)鍵字,并使用UniProt數(shù)據(jù)庫[17]篩選和收集得到的DNA結(jié)合蛋白的集合。為了使數(shù)據(jù)集的品質(zhì)更加高效,必須篩去全部氨基酸序號小于50且大于6 000的蛋白質(zhì)序列,還要刪除全部不規(guī)則氨基酸,如表1中的“X”和“Z”等序列蛋白質(zhì)。最后,使用BLAST軟件對相似程度超40%的序列進(jìn)行冗余過濾操作[18]。

2.2 評價指標(biāo)

通過在基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)指標(biāo)來評估本文算法的優(yōu)越性,衡量模型的預(yù)測效果。由于單一的準(zhǔn)確率σacc指標(biāo)不能完全表征本文算法的預(yù)測效果,因此還需要引入其他評估指標(biāo),如靈敏度σsen、 特異性σspe等[19-21]。其中,準(zhǔn)確率σacc表征算法正確預(yù)測的樣本的能力,靈敏度σsen表征算法正確預(yù)測的陽性樣本的能力,特異性σspe表征算法正確預(yù)測的陰性樣本的能力。評估指標(biāo)的計算公式分別為

(1)

(2)

(3)

式中:NTP為正確預(yù)測的陽性樣本的數(shù)量;NTN為正確預(yù)測的陰性樣本的數(shù)量;NFP為錯誤預(yù)測的陽性樣本的數(shù)量;NFN為錯誤預(yù)測的陰性樣本的數(shù)量。

2.3 對比實(shí)驗(yàn)

2.3.1 蛋白質(zhì)不同尺度特征對比

蛋白質(zhì)不同尺度特征在PDB14189基準(zhǔn)數(shù)據(jù)上的表現(xiàn)如表2所示。 由表可以看出, 本文算法獲得的準(zhǔn)確率、 靈敏度、 特異性數(shù)值均大于前4個序列的, 表明該算法對基準(zhǔn)數(shù)據(jù)的識別能力更強(qiáng)。為了評估本文算法的預(yù)測能力,分別繪制了不同方法(文獻(xiàn)[2]、 [22]、 [23]中的方法)的受試者工作特征曲線(ROC)和召回率(PR)曲線,如圖2所示。由圖可以得出,本文算法在單尺度特征的基礎(chǔ)上結(jié)合了不同尺度的特征,得到了更有意義的結(jié)果。

(a) ROC曲線

表2 蛋白質(zhì)不同尺度特征在基準(zhǔn)數(shù)據(jù)上的表現(xiàn)

2.3.2 與傳統(tǒng)方法的比較

為了檢驗(yàn)本文算法的穩(wěn)健性,在獨(dú)立數(shù)據(jù)集PDB2272上對其進(jìn)行了評估,結(jié)果見表3。由表可以看出,與文獻(xiàn)[2]、 [22]、 [23]中的方法相比,本文算法的準(zhǔn)確率為66.88%,靈敏度為69.93%, 特異性為65.95%, 3個數(shù)值都為最大值, 可見本文算法優(yōu)于的其他傳統(tǒng)方法的, 表現(xiàn)了本文算法的優(yōu)越性。

表3 不同算法在3個評估指標(biāo)上的對比

實(shí)際上,非DNA結(jié)合蛋白的數(shù)量遠(yuǎn)比DNA結(jié)合蛋白的多。本文中基于PDB2272基準(zhǔn)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),測試了本文算法的性能,并使用不同的陰性樣本與陽性樣本的數(shù)量比率來進(jìn)行驗(yàn)證,結(jié)果如圖3所示。從圖可以看出,隨著陰性樣本數(shù)與陽性樣本數(shù)比率的減小,準(zhǔn)確率緩慢增大。在不平衡測試集的情況下,本文算法的性能仍然穩(wěn)定,并且在DNA結(jié)合蛋白的預(yù)測中表現(xiàn)良好。

圖3 本文算法在PDB2272上的預(yù)測準(zhǔn)確率

2.3.3 本文算法的應(yīng)用

為了測試模型的魯棒性,張戈[7]收集了2 859個蛋白質(zhì)編號(identity document,ID)。經(jīng)分析發(fā)現(xiàn),果蠅的2種不同蛋白質(zhì)的ID對應(yīng)了相同的蛋白質(zhì)序列。經(jīng)過預(yù)收集和排序后,獲得了2 858個DBP(即DBP2858數(shù)據(jù)集)。DBP2858數(shù)據(jù)集中包含人類DBP 的樣本數(shù)量為1 049,擬南芥(A.thaliana)的為929,小鼠(mouse)的為424,啤酒酵母(S.cerevisiae)的為314,而果蠅(D.melanogaster)的為142。使用PDB14189基準(zhǔn)數(shù)據(jù)集來訓(xùn)練模型,結(jié)果如表4所示。在DBP數(shù)據(jù)集中,本文算法可以正確識別57.83%的蛋白質(zhì)序列。

表4 本文算法對不同生物物種的預(yù)測性能

3 結(jié)論

由于DNA結(jié)合蛋白在對生物體的調(diào)控機(jī)制中具有重要作用, 因此本文中提出了一種基于深度學(xué)習(xí)和支持向量機(jī)的算法用來預(yù)測DNA結(jié)合蛋白。 在同一數(shù)據(jù)集上, 分別對本文中提出的深度學(xué)習(xí)模型和其他傳統(tǒng)預(yù)測方法進(jìn)行了訓(xùn)練和實(shí)驗(yàn)對比。 實(shí)驗(yàn)結(jié)果表明, 本文算法對平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集都有較好的預(yù)測效果, 并且具有較高的預(yù)測精度和效率。

猜你喜歡
氨基酸蛋白質(zhì)樣本
胰島素受體底物氨基酸相互作用網(wǎng)絡(luò)魯棒性研究
蛋白質(zhì)自由
飼料氨基酸釋放動態(tài)對豬氮素利用影響的研究進(jìn)展
人工智能與蛋白質(zhì)結(jié)構(gòu)
鵝掌柴蜂蜜氨基酸組成識別研究
低蛋白日糧平衡氨基酸對生長豬生產(chǎn)性能的影響
用樣本估計總體復(fù)習(xí)點(diǎn)撥
規(guī)劃·樣本
隨機(jī)微分方程的樣本Lyapunov二次型估計
“官員寫作”的四個樣本
临漳县| 四会市| 吉隆县| 柞水县| 桃江县| 华安县| 尼勒克县| 乐山市| 卓资县| 明光市| 沙洋县| 疏勒县| 金华市| 安乡县| 隆昌县| 河南省| 广德县| 宁津县| 肥西县| 东乌珠穆沁旗| 天台县| 株洲市| 嵊泗县| 乃东县| 扎鲁特旗| 佛坪县| 潜江市| 乌鲁木齐市| 凤凰县| 靖远县| 余江县| 岗巴县| 江源县| 夏邑县| 博罗县| 波密县| 霍城县| 固安县| 大埔区| 永德县| 资中县|