馬青原
【摘 要】人類社會進入到新時期,各學科、各領域之間相互交叉和交融,衍生出了很多新學科。其中生物信息學作為一門新興學科,是生物學與信息技術學科交叉產生的新學科,主要是分析和研究生物信息的學科。生物學科自身具有復雜性特點,為了能夠更好地實現(xiàn)對生物信息學的研究,我們積極引進數(shù)據挖掘技術,能夠有效收集和處理信息的同時,還能夠將研究成果應用到實踐當中。本文將從數(shù)據挖掘技術概念入手,分析并了解生物信息學,最后探討技術在生物信息學中的應用。
【關鍵詞】數(shù)據挖掘技術 生物信息學 應用
信息時代背景下,計算機、信息技術在醫(yī)學領域得到了廣泛推廣和普及,在提高醫(yī)學水平的同時,為生物學、信息學等學科之間的融合創(chuàng)造了契機,并形成了生物信息學學科。醫(yī)學信息化建設促使醫(yī)學數(shù)據呈現(xiàn)幾何級數(shù)增長,具有非常明顯的大數(shù)據等特點。任何事物都有屬于自身的獨特發(fā)展規(guī)律,為了能夠更好地挖掘其中的規(guī)律,我們需要引進數(shù)據挖掘技術。數(shù)據挖掘技術作為一項新型技術,以其自身強大的存儲能力、分析能力,為生物信息學健康發(fā)展提供了一定支持和幫助。因此加強對該課題的研究具有非常重要的現(xiàn)實意義。
1 數(shù)據挖掘技術概念
所謂數(shù)據挖掘技術,主要是指數(shù)據庫知識發(fā)現(xiàn)的一個環(huán)節(jié),建立在計算機基礎之上,從大量數(shù)據中通過算法搜索隱藏于其中信息的過程,具體是由統(tǒng)計、在線分析處理、情報檢索等方法構成[1]。當今社會中,信息資源逐漸成為企業(yè)發(fā)展核心資源,能夠為企業(yè)帶來更多發(fā)展契機,因此數(shù)據挖掘技術在社會各領域中的應用范圍較廣,圖1為數(shù)據挖掘系統(tǒng)結構。
該項技術最早起源于上個世紀九十年代后期,是一門跨學科綜合研究領域,涉及數(shù)據庫系統(tǒng)、統(tǒng)計學等多項內容。該項技術出現(xiàn)的終極目標是為了從數(shù)據當中發(fā)現(xiàn)規(guī)律,預測事件未來發(fā)展趨勢,為決策者提供科學依據。
2 生物信息學概述
上個世紀八十年代,生物學隨著人類基因組計劃興起,比數(shù)據挖掘技術發(fā)展較早。生物信息學提出的終極目標是揭示基因組信息結構特點、遺傳語言規(guī)律等,以此來充分掌握人類基因變化情況,認識人類自身,從中挖掘出更多具有研究價值的知識與內容。生物信息學的出現(xiàn),在很大程度上豐富和發(fā)展當前物理學、生物學及化學等多個學科,為學科群持續(xù)發(fā)展奠定了堅實的基礎,成為學科群中最具活力和影響力的新學科[2]。
相比較其他學科,生物信息學起步較晚,正處于發(fā)展階段,但很多學者都被學科奧秘所吸引,并鉆研其中。在未來,生物信息學將成為電子信息技術之后的又一個科技革命,且會創(chuàng)造巨大的社會與經濟效益?,F(xiàn)階段,國內外出現(xiàn)了將生物信息學作為基礎的企業(yè),并開展了對基因工程藥學、生物芯片等方面的研究。就本質上來說,生物信息學研究主要是對知識發(fā)現(xiàn)、數(shù)據挖掘的過程,現(xiàn)有研究成果已經應用到實踐當中,并取得了不錯的成效。
3 數(shù)據挖掘技術在生物信息學中的應用
生物信息分布范圍較廣,除了基本DNA序列外,還存在蛋白質以及結構等內容,其中將cDNA序列作為基礎的數(shù)據庫記錄能夠達到上萬條,大量數(shù)據共同構成了生物學數(shù)據海洋。面對大量數(shù)據信息,我們能夠明確的是其中存在很多有價值的內容,但是如何更好地挖掘和提煉出來,成為需要解決的難點。因此將數(shù)據挖掘技術應用于生物信息學當中非常必要。筆者結合自身實踐經驗,認為可以從以下幾個方面入手:
3.1 蛋白質序列數(shù)據庫
蛋白質結構直接決定其自身生物功能。因此在研究蛋白質過程中,我們需要充分了解蛋白質的空間結構。實際研究中,蛋白質結構測定方法較少,且成熟度偏低,無法滿足實際研究要求。核酸霉變性及重折疊實驗,能夠從蛋白質的氨基酸序列當中預測出蛋白質的三維空間結構,為實踐提供強大的支持。蛋白質結構預測主要針對二級結構進行預測。實踐表明,不同的氨基酸殘基在不同的環(huán)境當中能夠形成對應的二級結構傾向性,所以對于二級結構的預測具有模式識別問題。為了能夠提高研究有效性,可以選擇立體化學、圖論及統(tǒng)計等方法。
就理論層面而言,蛋白質一級結構是其折疊后的基礎,能夠從氨基酸序列當中獲得自然折疊的蛋白質結構。但是蛋白質自身具有多膚鏈特點,將會促使構象是一個天文數(shù)字,現(xiàn)有計算能力遠遠不能夠滿足構象構建的構建。因此需要采取一定的啟發(fā)式方法,找到接近構象的方法[3]。具體來說,可以采取從頭預測的方法,構建同源模型,并在此基礎上判斷亞細胞定位、信號膚剪切位點等。
3.2 基因序列數(shù)據庫
基因組不僅僅是簡單的基因排列,其還具有獨特的組織、信息結構,結構在長期發(fā)展過程中勢必會形成這種特性,究其根本,是受到基因功能自身的影響。對此,我們可以利用EST數(shù)據,從基因序列當中挖掘出新基因,并分析和預測各種功能位點,其中研究基因調整和控制網絡成為近年來的主要發(fā)展方向。具體來說,主要體現(xiàn)在兩個方面:一是從頭算方法;二是同源列比較方法。前者主要根據蛋白質編碼基因的性質及特點進行識別,通過統(tǒng)值區(qū)別外顯子、內含子等之間的關系;而后者主要是借助數(shù)據庫當中現(xiàn)存的基因信息進行對比,找到其中沒有的新基因。
針對新DNA序列而言,我們主要找到與現(xiàn)有蛋白質相似的區(qū)域,并將新編碼提煉出來。針對此,我們選擇最理想的方法就是合并兩類方法的優(yōu)點,形成一種新型的混合算法,以此來提高研究有效性。在DNA序列當中,除了基本的基因,還存在很多其他信息,信息與核算結構特點存在一定的相似之處,也是DNA與蛋白質之間的關系的具體表現(xiàn),將此作為基礎,能夠實現(xiàn)對DNA序列的分析,并從中發(fā)現(xiàn)新事物、新規(guī)律,新特點,推進生物信息學持續(xù)發(fā)展。
3.3 生物序列數(shù)據庫
比較作為生物信息學研究的一種方式和方法,其中序列比較作為一項基礎性操作方法,通過序列比較,能夠發(fā)現(xiàn)生物序列當中的功能、結構及進化信息等。通常來說,在生物信息學領域,序列即結構,而結構直接決定功能。因此在實踐中,我們通過對生物序列進行比較和分析,能夠發(fā)現(xiàn)它們的相似性與不同處。研究序列相似性的根本目標在于結合相似的序列找到相似的結構與功能[4]?;谏镒陨硖厥庑缘挠绊懀谘芯恐?,我們仍然能夠發(fā)現(xiàn)完全不同的序列,但卻具有同樣的功能,而這一發(fā)現(xiàn),能夠為我們的序列研究提供更多支持和幫助,促進序列研究進一步發(fā)展。
在實際操作中,我們借助數(shù)據挖掘技術,主要將兩個序列的字符排列出來,找到序列之間的相似與不同處,同時將打分矩陣作為序列比較的基礎,堅持具體問題具體分析原則,找到針對性打分矩陣后,對結果進行分析和對比。如針對核算序列打分舉證來說,可以由BLAST、轉換—顛換等矩陣;而針對蛋白質的矩陣而言,可以有遺傳密碼、PAM及BLOSUM等矩陣。在矩陣中進行序列對比研究,不僅能夠提高研究有效性,還能夠降低數(shù)據研究難度,從而為生物信息學研究提供更大的支持和幫助。
3.4 結構數(shù)據庫
結構數(shù)據庫涉及范圍較廣,如蛋白質、核算及小分子等,筆者主要針對蛋白質結構數(shù)據庫進行分析。PDB作為全世界范圍內認可的唯一一個生物大分子結構數(shù)據庫,最早建立在美國。針對PDB數(shù)據收集來說,主要來源于X光晶體衍射等方面,后經過整理后存檔形成的數(shù)據庫[5]。
在數(shù)據庫當中,包含著非常詳細的蛋白質結構情況,且由RCSB負責。我們在數(shù)據庫中能夠提煉出原子坐標數(shù)據,并通過Chime等瀏覽器實現(xiàn)對三維圖像的觀察和分析,為具體研究工作奠定堅實的數(shù)據基礎。
3.5 基因數(shù)據表達
現(xiàn)階段,基因數(shù)據表達作為生物信息學研究的新熱點,受到了眾多學者的關注。基因數(shù)據表達主要是為了更加直觀、客觀表達基因。目前,針對基因數(shù)據表達的處理主要采取聚類分析方法,將基因聚作為劃分主要依據,并在此基礎上尋找到有關基因,分析基因的基本功能[6]。結合當前數(shù)據挖掘技術來看,主要采取相關分析法、層次聚類方法等多種方法,如果進一步研究還能夠探索基因中的調節(jié)網絡等,明確在不同環(huán)境當中,基因的變化形態(tài)有哪些。
在實踐中,我們借助基因數(shù)據表達,能夠結合聚類分析研究基因的啟動子、分析表達模式相同的一類基因啟動子組成特點。通過多重列比對的方式,將各個基因序列作為研究對象進行針對性研究。不可否認的是聚類方法是基因表數(shù)據分析的基礎,但是該方面僅能夠發(fā)現(xiàn)基因的表面、簡單的特點,尚不能夠挖掘基因之間的深層次關系,還有待進一步改進和完善[7]。近年來,隨著計算機技術的發(fā)展,數(shù)據挖掘技術也隨之發(fā)展,新技術的應用被應用到陣列表達數(shù)據處理工作當中,如支持向量機方法,最早出現(xiàn)在上個世紀九十年代末,主要是為了解決小樣本、非線性等問題的方法,能夠充分考慮各方面因素后構建良好的模型,實現(xiàn)對數(shù)據的有效分析,并進行回歸性分析,在實際應用中得到了廣泛推廣和普及。
3.6 可視化工具的應用
眾所周知,基因自身結構具有復雜性特點,且序列模式一般難以在腦海中構建立體圖形,對可視化工具提出了更高要求。因此在實踐中,我們可以將圖、樹及方體等多種可視化工具應用其中,促進對模式的理解和掌握。目前,知識發(fā)現(xiàn)、數(shù)據交互是較為常見的工具[8]。如針對大規(guī)?;虮磉_數(shù)據的挖掘,已經能夠達到利用簡單的圖形顯示出聚類結果,將原始數(shù)據通過可視化途徑展示出來,能夠為基因表達分析提供更好地支持,從不同的角度觀察基因組的變化情況??梢?,可視化在生物信息學數(shù)據挖掘中占據非常重要的位置,值得我們給予更多關注,并加強對數(shù)據挖掘技術的實踐應用。
4 結語
根據上文所述,生物信息學作為一項綜合性、系統(tǒng)性學科,是計算機技術與生物技術結合的產物。在具體實踐中,我們能夠為了進一步挖掘其中的規(guī)律與特點,應充分利用數(shù)據庫資源,并將自身已有的檢索系統(tǒng),實現(xiàn)對生物數(shù)據信息的探索。隨著科學技術不斷發(fā)展,生物信息學的研究也會朝著深層次發(fā)展。龐大的生物信息對于數(shù)據挖掘技術提出了巨大的挑戰(zhàn),且?guī)砹烁喟l(fā)展機遇?;诖?,我們還應加大對數(shù)據挖掘技術的研究,創(chuàng)新更多新技術,加大對生物信息的深度研究,從而促進生物信息學科的積極作用得到最大限度發(fā)揮,造福人類。
參考文獻:
[1]潘偉.數(shù)據倉庫技術在生物信息學中的應用研究[J].成都信息工程學院學報,2010(02):142-145.
[2]張敏輝,高曉玲.計算機技術在生物信息學中的應用研究[J].中國西部科技,2010(32):93-94.
[3]張贊,劉金定,黃水清,李飛.生物信息學在昆蟲學研究中的應用[J].應用昆蟲學報,2012(01):1-11.
[4]謝騰,王升,馬炯,郭蘭萍.生物信息學在中藥資源研究中的應用[J].中國中藥雜志,2012(24):3684-3690.
[5]王洪昌,丁立軍,黃宇.生物信息學中模式識別技術應用與發(fā)展[J].醫(yī)學信息學雜志,2013(11):7-10.
[6]魏子艷,金德才,鄧曄.環(huán)境微生物宏基因組學研究中的生物信息學方法[J].微生物學通報,2015(05):890-901.
[7]王可鑒,石樂明,賀林,張永祥,楊侖.中國藥物研發(fā)的新機遇:基于醫(yī)藥大數(shù)據的系統(tǒng)性藥物重定位[J].科學通報,2014(18):1790-1796.
[8]胡瑞峰,邢小燕,孫桂波,孫曉波.大數(shù)據時代下生物信息技術在生物醫(yī)藥領域的應用前景[J].藥學學報,2014(11):1512-1519.