国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主成分分析優(yōu)化參數(shù)預(yù)測水解酶的亞類

2018-05-07 06:52:04王瑩程薇薇
科技創(chuàng)新導(dǎo)報 2018年1期
關(guān)鍵詞:水解酶模體主成分分析

王瑩 程薇薇

摘 要:本文基于前人建立的數(shù)據(jù)庫,以氨基酸組分、氨基酸緊鄰組分、預(yù)測的二級結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來表示序列信息,用主成分分析對序列向量進(jìn)行分析,選取20個主要成分。將每條序列由20維向量來表示。用SVM算法對水解酶的亞類分別進(jìn)行分類預(yù)測,在Jack-knife檢驗(yàn)下的預(yù)測總精度為96.9%。

關(guān)鍵詞:SVM算法 主成分分析 水解酶 模體

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2018)01(a)-0143-02

酶是一種生物催化劑,存活在細(xì)胞中,影響著細(xì)胞生長、代謝等生命過程的化學(xué)反應(yīng)[1]近些年,許多研究者通過利用生物信息學(xué)建立了相應(yīng)的酶序列的數(shù)據(jù)庫,并通過分類預(yù)測算法及酶序列的相關(guān)特征建立數(shù)學(xué)模型對酶的家族類及其亞類的研究上取得了較好的預(yù)測結(jié)果。隨著酶序列的相關(guān)特征的增多,用來表示序列的向量維數(shù)也相應(yīng)的增加,急需對其進(jìn)行優(yōu)化,降低向量的維數(shù),以提高預(yù)測的總精度。因此,本文將用主成分分析的方法來降低序列特征的維數(shù),得到較好的預(yù)測精度。

1 數(shù)據(jù)庫和方法

1.1 數(shù)據(jù)庫

本文選取2011年由我們小組構(gòu)建和整理新數(shù)據(jù)庫,其中水解酶5個亞類共4498條序列。

1.2 特征參數(shù)

1.2.1 氨基酸組分

蛋白質(zhì)序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數(shù),來表示酶的序列信息。我們可以將一條酶序列替換為一個20維的向量。

1.2.2 氨基酸緊鄰組分

本文用氨基酸緊鄰組分將每條酶序列用400維向量來表示,以反映序列的結(jié)構(gòu)信息。將一條酶序列替換為一個400維的向量,同上一個參數(shù)。

1.2.3 預(yù)測的二級結(jié)構(gòu)

對于蛋白質(zhì)分子來說,它不僅只具有一級結(jié)構(gòu),還有二級結(jié)構(gòu)等。而二級結(jié)構(gòu)反映其空間結(jié)構(gòu)信息。因此,本文選取預(yù)測的二級結(jié)構(gòu)信息(P)作為特征參數(shù)。

本文所使用的二級結(jié)構(gòu)信息是PSIpred(Position Specific Iterated pred)軟件[2]。對于一條酶序列,我們用一個3維的向量來表示3種二級結(jié)構(gòu)在該序列中出現(xiàn)的頻數(shù)。

1.2.4 低頻功率譜密度值(F)

功率譜密度可以反映蛋白質(zhì)序列的次序信息,本文將用其作為參數(shù)取得了較好的預(yù)測效果[3],功率譜密度值的提取方法如下[4]。

(1)將酶序列轉(zhuǎn)為成數(shù)字序列。

由于酶具有強(qiáng)疏水性,因此我們使用疏水值作為參數(shù)[6],使得每條酶序列變成數(shù)字序列。

(2)離散傅里葉變換。

酶序列數(shù)字化后,對它進(jìn)行離散傅里葉變換,具體公式如下:

1≤k≤L

(3)提取功率譜密度值:,其中T為周期。

(4)功率譜密度值的處理。

因?yàn)槊織l酶序列長短不同,比較和分析其特性有一定的限制,需將長度不同的酶序列變?yōu)橄嗤L度。因此,根據(jù)信號的組成特點(diǎn),本文將每條酶序列都轉(zhuǎn)換成15維的向量。

1.2.5 MEME模體和功能模體

模體是刻畫蛋白質(zhì)結(jié)構(gòu)和執(zhí)行功能的重要部分。因此,通過對模體的研究,我們就能得到該序列的功能信息及結(jié)構(gòu)特征。本文選用已被廣泛用于DNA及蛋白質(zhì)序列中模體搜索的MEME在線搜索器作為搜索工具[3]來搜索水解酶中的模體。本文限定6~15個氨基酸殘基作為模體的長度,并且每類亞類搜索5個模體類數(shù),統(tǒng)計(jì)每條酶序列。

我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語言編譯實(shí)現(xiàn)。用來搜索水解酶的亞類的蛋白質(zhì)序列中出現(xiàn)的模體。對于每一條酶序列來說,記錄模體在序列中出現(xiàn)的頻數(shù)。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統(tǒng)計(jì)模體,水解酶共得到30個模體頻數(shù)值。

1.3 主成分分析

主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發(fā)展。主成分分析是一種通過降維的方法把多個變量化成幾個主成分的統(tǒng)計(jì)分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

本文以氨基酸組分、氨基酸緊鄰組分、預(yù)測的二級結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來表示序列信息,將468維向量利用主成分分析的方法優(yōu)選出貢獻(xiàn)率較高的20維向量特征。因此,通過該方法每一條酶序列將由20維向量來表示。

1.4 支持向量機(jī)算法

支持向量機(jī)[4](SVM)是一種新型分類預(yù)測方法。SVM的基本思想是將把輸入數(shù)據(jù)通過非線性映射映射到一個高維的空間,然后在找到最優(yōu)超平面,最終超平面與樣本之間的距離最大。其中最優(yōu)超平面的判別函數(shù)為:,這里是內(nèi)積核函數(shù)。本文選取徑向基核函數(shù)進(jìn)行計(jì)算。

2 結(jié)語

本文基于前人建立的數(shù)據(jù)庫,以氨基酸組分、氨基酸緊鄰組分、預(yù)測的二級結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進(jìn)行分類預(yù)測,在Jack-knife檢驗(yàn)下進(jìn)行預(yù)測,總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

參考文獻(xiàn)

[1] 閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.

[2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

[3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

[4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

[5] 許忠能.生物信息學(xué)[M].北京:清華大學(xué)出版社,2008.

[6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

猜你喜歡
水解酶模體主成分分析
無底物情況下來白Rhoclococcus zopfii的腈水解酶中親核進(jìn)攻試劑CYS165的活性狀態(tài)的探究(英文)
腈水解酶反應(yīng)機(jī)制與催化性能調(diào)控研究進(jìn)展
氨基甲酸乙酯水解酶的家族生物信息學(xué)分析
基于Matrix Profile的時間序列變長模體挖掘
植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
石油化工應(yīng)用(2018年3期)2018-03-24 14:54:36
基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
主成分分析法在大學(xué)英語寫作評價中的應(yīng)用
江蘇省客源市場影響因素研究
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
沁源县| 如东县| 射洪县| 治县。| 泉州市| 伊金霍洛旗| 东海县| 六盘水市| 绵阳市| 澄城县| 佳木斯市| 吉隆县| 肃宁县| 鄢陵县| 遂宁市| 长寿区| 汝阳县| 桐梓县| 兴仁县| 兴义市| 滕州市| 石台县| 汤原县| 台北市| 延边| 澄江县| 沅江市| 芜湖市| 神池县| 喀什市| 兴文县| 丰镇市| 潮安县| 彰武县| 乐都县| 仙居县| 宁都县| 府谷县| 康保县| 庆安县| 彭水|