陳鵬
摘 要
隨著現(xiàn)代計算機信息技術的快速發(fā)展,生物信息學與計算機技術的結合度也越來越高,在生物信息學的數(shù)據(jù)庫中就很好地應用了計算機信息技術,而數(shù)據(jù)庫的建立與完善對生物信息學的發(fā)展也具有重要的作用,本文中主要對數(shù)據(jù)庫的應用進行分析。
【關鍵詞】生物信息學 數(shù)據(jù)庫 應用
現(xiàn)代社會是一個信息化的社會,人們每天進行各種信息的交流愈加頻繁,在這個信息化的時代,計算機以及信息技術為人們信息的交流提供了重要的工具。生物信息學數(shù)據(jù)庫的建設與應用就是利用了現(xiàn)代的計算機信息技術對生物信息進行存儲、檢索與分析。
1 生物信息學數(shù)據(jù)庫
生物信息學是建立在應用數(shù)學、計算機科學以及生命科學等多學科基礎之上的交叉學科,這門學科的主要任務就是探究如何高效地獲取生物學信息,對信息進行處理與分析,存儲信息以及應用生物學信息。數(shù)據(jù)庫技術主要解決了將世界海量的生物學數(shù)據(jù)、已有的研究成果以及技術信息等收納并存儲在數(shù)據(jù)庫中,這樣可以大大方便人們的生物研究與信息的查詢與借鑒。
2 數(shù)據(jù)庫的分類與特點
生物信息學數(shù)據(jù)庫中的數(shù)據(jù)種類極為多樣,其數(shù)據(jù)庫中的信息覆蓋面也極為廣泛,數(shù)據(jù)信息很全面;數(shù)據(jù)庫的信息更新速度快,信息的內(nèi)容更新的也很豐富;數(shù)據(jù)庫的規(guī)模在不斷地擴大,數(shù)據(jù)庫的復雜性也在不斷增加;在使用上更加地網(wǎng)絡化、便捷化。
2.1 一級數(shù)據(jù)庫(一次數(shù)據(jù)庫)
在生物信息學數(shù)據(jù)庫中的一級數(shù)據(jù)庫主要包括了核酸和蛋白質(zhì)一級結構序列數(shù)據(jù)庫,基因組數(shù)據(jù)庫以及生物大分子(主要為蛋白質(zhì))的三維空間結構數(shù)據(jù)庫,通常稱為基本數(shù)據(jù)庫。一級數(shù)據(jù)庫的明顯優(yōu)勢就是在這個數(shù)據(jù)庫中數(shù)據(jù)的信息量很大,海量信息存儲在數(shù)據(jù)庫中并且數(shù)據(jù)每天都在增加,數(shù)據(jù)的信息也會及時更新并且更新速度很快,一級數(shù)據(jù)庫的用戶量也很多并且用戶面也很廣泛。因此以及數(shù)據(jù)庫的建立是需要性能高的、磁盤的容量很大的并且擁有專門的數(shù)據(jù)庫信息管理系統(tǒng)的計算機作為載體來支撐這些功能的完成。另外,數(shù)據(jù)信息還需要一些大型的商業(yè)軟件作為數(shù)據(jù)管理的支撐。例如,在我國的生物信息學研究所中使用的是Oracle數(shù)據(jù)庫系統(tǒng),這種軟件管理系統(tǒng)可以較好地將數(shù)據(jù)進行管理與分類。研究所中針對基因組的數(shù)據(jù)庫進行管理以及運行則主要是基于Sybase數(shù)據(jù)庫系統(tǒng)來完成的。
2.2 二級數(shù)據(jù)庫
所謂的二級數(shù)據(jù)庫主要是以一級數(shù)據(jù)庫以及文獻資料為基礎建立起來的數(shù)據(jù)庫,也稱專業(yè)數(shù)據(jù)庫。二級數(shù)據(jù)庫相較于一級數(shù)據(jù)庫,其數(shù)據(jù)信息的容量也小得多,數(shù)據(jù)信息的更新速度也相對要慢一些。二級數(shù)據(jù)庫不需要大型的商業(yè)軟件來支撐數(shù)據(jù)庫的管理,可以直接使用一些基本的瀏覽器,如web瀏覽器。二級數(shù)據(jù)庫有很多種類,例如,基于核酸數(shù)據(jù)庫建立的二級數(shù)據(jù)庫中有真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫的TransFac數(shù)據(jù)庫,以及真核基因啟動子數(shù)據(jù)庫EPD,密碼子使用表數(shù)據(jù)庫CUTG等。基于三維空間結構為基礎構建的數(shù)據(jù)庫有蛋白質(zhì)二級結構構象參數(shù)數(shù)據(jù)庫DSSP,已知空間結構的蛋白質(zhì)家族數(shù)據(jù)庫FSSP等。
3 生物信息學數(shù)據(jù)庫的應用
3.1 序列的比較
所謂的序列的比較主要是指將兩個序列中的各個元素放在一起然后按照對應等同的關系對元素進行有關的排列。對于兩個序列中共有的那些排列順序表示的是這兩個序列的相似程度是較高的,是對序列的一種較為定性的描述。對于最優(yōu)的排列主要是反應在這兩個序列中的最大相似程度以及最少相異處,現(xiàn)在較為普遍尋找最優(yōu)排列的方法是通過動態(tài)的規(guī)劃算法來尋找最優(yōu)序列。一般來說,對于一個新的序列以及數(shù)據(jù)庫中的某個序列的比較是可以在非常短的時間內(nèi)就可以比較出來的,但是由于基因數(shù)據(jù)庫中的數(shù)據(jù)極為繁多,因此在這個序列中的比較會相對花費較長的時間才可以比較出來,尤其是逐個對比的時候,所需要的時間更長。所以,現(xiàn)在對于基因數(shù)據(jù)庫中的序列的比較主要是使用搜索計較算法來進行序列的比較。另外,關于序列的搜索主要是有兩種使用較為普遍的使用程序,一個是BLASR程序,另外一個是FASTA程序,這兩個程序在實踐應用中是比較成功的,其可以根據(jù)給定的序列,然后在基因數(shù)據(jù)庫中快速地找出一些同源的序列,進而提高搜素與比較的速度。例如,在BLASR這個程序中主要使用的是一種對于序列的數(shù)據(jù)進行局部的對比與分析,這可以較快找出一些同源的序列,然后進行比較找出較優(yōu)的序列,因為這種程序可以較快提高比較速度,軟件的使用性能也不錯,因而在實踐中應用度較廣。
3.2 數(shù)據(jù)挖掘技術
隨著生物信息學的數(shù)據(jù)庫的數(shù)據(jù)在飛速增長,怎樣在海量的信息中提取出用戶需要的信息成為一個問題的關鍵,也是在生物技術信息數(shù)據(jù)庫的應用中需要解決的一個問題。另外,如何在已有的數(shù)據(jù)信息中以及從基因數(shù)據(jù)庫中識別出編碼的蛋白質(zhì)的基因,如何對識別的基因進行多種信息的表達與控制,如何解讀出生物的遺傳密碼,分析出蛋白質(zhì)的相關結構以及功能等都是需要面對以及解決的問題,也在當下生物信息學數(shù)據(jù)庫中面臨著的比較棘手的困難。針對上述問題,在實踐應用中比較常用的是一種數(shù)據(jù)的挖掘技術。這種信息挖掘技術可以高效地從數(shù)據(jù)庫的海量信息中挖掘出有效的信息或者生物知識。這種數(shù)據(jù)挖掘的技術主要就是從數(shù)據(jù)庫中這些海量的信息、隨機的信息數(shù)據(jù)中提取出一些人們以前不知道的但確實是有用的信息來提供給用戶使用。用戶通過這種技術可以高效地找出自己需要的信息與知識,因此這種技術具有很強的應用性,值得推廣與應用。
4 結束語
關于生物信息學數(shù)據(jù)庫以及應用方面還有很多需要探究的方面,本文主要是對其進行了一些簡單的介紹,并沒有很詳細的延展開來,需要在今后繼續(xù)分析與研究。但可以肯定的是很多的生物技術的研究都是需要數(shù)據(jù)庫的支撐來促進世界生物技術的發(fā)展與進步。
參考文獻
[1]趙屹,谷瑞升,杜生明.生物信息學研究現(xiàn)狀及發(fā)展趨勢[J].醫(yī)學信息學雜志.2012,33(5):2-6.
[2]孫清鵬,賈棟,萬善霞.生物信息學應用教程[M].北京:中國林業(yè)出版社.2012:23-56.
作者單位
重慶醫(yī)科大學 重慶市 400016endprint