數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)結(jié)構(gòu)預測方面的應用

2016-03-14 02:14長春醫(yī)學高等?？茖W校130031

電子測試 2016年13期

劉妍（長春醫(yī)學高等?？茖W校，130031）

劉妍
（長春醫(yī)學高等?？茖W校，130031）

摘要：隨著生物信息學的高速發(fā)展，人們通過蛋白質(zhì)序列測定和結(jié)構(gòu)分析獲得大量的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)，從而建立了眾多的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。本文主要介紹了六種蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫，并對PDB數(shù)據(jù)庫進行了深入分析，闡述了蛋白質(zhì)序列和結(jié)構(gòu)的切片數(shù)據(jù)庫之間的聯(lián)系和內(nèi)在規(guī)律。利用蛋白質(zhì)數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)來處理大量的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)是未來蛋白質(zhì)研究的一個重要發(fā)展方向。

關鍵詞：數(shù)據(jù)挖掘技術(shù)；蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫；PDB數(shù)據(jù)庫；結(jié)構(gòu)預測

1 數(shù)據(jù)挖掘技術(shù)的簡介

目前，隨著大數(shù)據(jù)時代的來臨，人們利用信息技術(shù)和數(shù)據(jù)獲取技術(shù)能力的大幅提高，大量用于商業(yè)管理、政府辦公、科學研究和項目開發(fā)的數(shù)據(jù)庫如雨后春筍般脫穎而出。未來數(shù)據(jù)庫信息爆炸式的增長，信息的優(yōu)劣性及有效性等類似的問題就逐漸脫穎而出。為了解決這一問題我們引入數(shù)據(jù)挖掘技術(shù)來處理大量的、帶噪聲的、不完全的、事先并不明確的，并且可能具有潛在有用信息的。利用數(shù)據(jù)挖掘技術(shù)可以對這些無序、雜亂和不完整的信息進行管理、查詢、優(yōu)化和決策等。通過數(shù)據(jù)收集、整理、處理和評定，最后經(jīng)過多次循環(huán)才能達到預期效果。

2 數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)結(jié)構(gòu)預測上的應用

蛋白質(zhì)的結(jié)構(gòu)在很大程度上影響著蛋白質(zhì)的功能，所以對其結(jié)構(gòu)的預測也就成為判斷其功能化的重要內(nèi)容。隨著基因技術(shù)的不斷發(fā)展，借助蛋白質(zhì)結(jié)構(gòu)和序列的測定從而獲得了海量的數(shù)據(jù)。雖然蛋白質(zhì)結(jié)構(gòu)預測方法種類繁多，但是面對種類繁多的蛋白質(zhì)其預測方法往往差強人意。從最早的統(tǒng)計學方法到多層神經(jīng)網(wǎng)絡、決策樹，蛋白質(zhì)預測方法的準確性不斷提高。

通過理論和實踐證明蛋白質(zhì)的結(jié)構(gòu)預測主要圍繞其二級結(jié)構(gòu)預測和空間結(jié)構(gòu)預測。同種蛋白質(zhì)在不同環(huán)境下往往會呈現(xiàn)出不同的結(jié)構(gòu)，特別是其二級結(jié)構(gòu)中片段中心的殘基是α螺旋或β折疊影響蛋白質(zhì)整體功能。而引入數(shù)據(jù)挖掘技術(shù)來預測蛋白質(zhì)結(jié)構(gòu)，可以對確立蛋白質(zhì)結(jié)構(gòu)及其序列之間的關系，從而更深層次的了解蛋白質(zhì)結(jié)構(gòu)的確定機理和蛋白質(zhì)的功能變化。由于蛋白質(zhì)中氨基酸的序列和蛋白質(zhì)的二級結(jié)構(gòu)之間不具有明顯的關系，應用數(shù)據(jù)挖掘技術(shù)處理種類繁多信息量巨大的氨基酸序列，可以提取出有用的信息。通常來說蛋白質(zhì)結(jié)構(gòu)測序方法主要有：模式對比、折疊識別和從頭算法三類組成。其中，模式對比主要是利用已知蛋白質(zhì)結(jié)構(gòu)中的特征來對比其中的蛋白質(zhì)。這種方法具有很大的局限性，特別是蛋白質(zhì)序列不同而結(jié)構(gòu)相似的蛋白質(zhì)。折疊識別方法則可以描述大部分的蛋白質(zhì)結(jié)構(gòu)，這種方法基于蛋白質(zhì)折疊核心的數(shù)據(jù)庫，并且把折疊核心同蛋白質(zhì)序列聯(lián)系起來，從而得到最優(yōu)的結(jié)構(gòu)。從頭算法對比前兩種方法來說更合適預測蛋白質(zhì)結(jié)構(gòu)，它可以根據(jù)蛋白質(zhì)的氨基酸序列來預測蛋白質(zhì)的結(jié)構(gòu)。

3 數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)數(shù)據(jù)庫上的應用

本節(jié)中主要討論蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫，并對這些數(shù)據(jù)庫中所應用的數(shù)據(jù)挖掘技術(shù)進行歸納總結(jié)，主要介紹PDB（Protein Data Bank）數(shù)據(jù)庫、NRL-3D（Naval Research Laboratory-3D）數(shù)據(jù)庫、HSSP（homology-derived second structures of proteins）數(shù)據(jù)庫、SCOP（Structural classification of proteins）數(shù)據(jù)庫、DSSP（Definition of Secondary Structure of Protein）、FSSP（Families of Structural Similar Protein）這六種主要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。這些數(shù)據(jù)庫各具特色，其中PDB數(shù)據(jù)庫主要依靠實驗數(shù)據(jù)（核磁共振和X射線）獲得蛋白質(zhì)結(jié)構(gòu)；NRL-3D數(shù)據(jù)庫可以對已知結(jié)構(gòu)的蛋白質(zhì)序列進行比對；HSSP數(shù)據(jù)庫則利用蛋白質(zhì)的同源性對不同序列但是結(jié)構(gòu)相似的蛋白質(zhì)進行歸類；SCOP數(shù)據(jù)庫可以對某一蛋白質(zhì)數(shù)據(jù)與已知蛋白質(zhì)結(jié)構(gòu)進行比對；而DSSP數(shù)據(jù)庫則提供了蛋白質(zhì)二級結(jié)構(gòu)的構(gòu)象參數(shù)；FSSP數(shù)據(jù)庫包含了整個蛋白質(zhì)家族。雖然這六種數(shù)據(jù)庫特點鮮明，但是它們卻都有一個共性特點，那就是都含有大量的蛋白質(zhì)結(jié)構(gòu)信息，這就凸顯出數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫應用中的重要作用。下面對PDB數(shù)據(jù)中數(shù)據(jù)挖掘技術(shù)進行詳細討論。引入數(shù)據(jù)挖掘技術(shù)就是為了找到蛋白質(zhì)結(jié)構(gòu)自身的一般性規(guī)律，也就是說從海量數(shù)據(jù)信息中萃取出有效的信息以及獲得精準的結(jié)論。為了挖掘有效數(shù)據(jù)和規(guī)律性變化本文從三個方面入手：蛋白質(zhì)二級結(jié)構(gòu)、蛋白質(zhì)長度序列同其二級結(jié)構(gòu)之間的關系和蛋白質(zhì)序列追蹤。利用數(shù)據(jù)挖掘技術(shù)可以有效的統(tǒng)計三類蛋白質(zhì)二級結(jié)構(gòu)（α螺旋、β折疊和其他結(jié)構(gòu)），很多結(jié)構(gòu)的組合在現(xiàn)實的蛋白質(zhì)結(jié)構(gòu)中并不存在?？梢蕴暨x出這些結(jié)構(gòu)的組合為未來蛋白質(zhì)結(jié)構(gòu)的預測提供便利。同樣將一定數(shù)量的蛋白質(zhì)結(jié)構(gòu)和其對應固定長度的蛋白質(zhì)序列進行挖掘分析可知，由于在數(shù)據(jù)庫中存在大量的序列出現(xiàn)次數(shù)很少，那么其所對應的可能的結(jié)構(gòu)概率分布就很均勻。通過數(shù)據(jù)挖掘技術(shù)來追蹤蛋白質(zhì)數(shù)據(jù)庫序列，得出結(jié)構(gòu)相對確定的序列切片占所有序列切片總數(shù)比重相同。

4 總結(jié)和展望

隨著大數(shù)據(jù)和網(wǎng)絡時代的到來，數(shù)據(jù)挖掘技術(shù)逐漸演變成大規(guī)模數(shù)據(jù)庫中數(shù)據(jù)分析和提取的重要手段之一。將蛋白質(zhì)結(jié)構(gòu)預測與信息挖掘技術(shù)相結(jié)合的方法已經(jīng)逐漸演變成蛋白質(zhì)數(shù)據(jù)庫發(fā)展進程的關鍵技術(shù)之一。本文主要研究蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘技術(shù)在PDB數(shù)據(jù)庫中的應用，總結(jié)了數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)二級結(jié)構(gòu)預測、固定序列同蛋白質(zhì)結(jié)構(gòu)的關系和蛋白質(zhì)數(shù)據(jù)追蹤的結(jié)果。發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)以完全可以為蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫服務，并且可以獲得更為準確和規(guī)律性結(jié)論。

參考文獻

［1］冉麗，鄒先霞，許龍飛，基于數(shù)據(jù)挖掘技術(shù)的蛋白質(zhì)結(jié)構(gòu)分類的研究，計算機工程與應用，2006.18

［2］萬躍華，何立民，網(wǎng)上生物信息學數(shù)據(jù)庫資源，情報學報，2002.04

［3］姜鑫，生物信息學數(shù)據(jù)庫及其利用發(fā)放，現(xiàn)代情報，2005.06

Application of data mining techniques in protein structure prediction

Liu Yan
（changchun medical college，130031）

Abstract：With the fast development of Bioinformation，a great amount of protein structure data are gained by protein sequencing and protein structure analysis，therefore lots of protein structure databases have been built up.This paper introduced six protein databases，and discussed the PDB database in detail，showed the relationship between protein sequence and structure slice database，and its inner laws.Protein databases and data mining techniques are useful technology for analyzing the great amount of protein structure data，and will be an important direction for the future development.

Keywords：data mining technology；protein structure database；PDB database；structure prediction

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)結(jié)構(gòu)預測方面的應用

1 數(shù)據(jù)挖掘技術(shù)的簡介

2 數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)結(jié)構(gòu)預測上的應用

3 數(shù)據(jù)挖掘技術(shù)在蛋白質(zhì)數(shù)據(jù)庫上的應用

4 總結(jié)和展望