潘 偉
(西華師范大學(xué)計(jì)算機(jī)學(xué)院,四川南充637002)
生物信息學(xué)是在生命科學(xué)的研究中,生物學(xué)與計(jì)算機(jī)科學(xué)及應(yīng)用數(shù)學(xué)等多學(xué)科相互交叉而形成的一門新興的綜合性學(xué)科[1]。它以海量生物學(xué)實(shí)驗(yàn)數(shù)據(jù)為基本研究對象,進(jìn)行數(shù)據(jù)的獲取、加工、存儲(chǔ)、檢索與分析,從而實(shí)現(xiàn)揭示相關(guān)生物學(xué)意義的目的。在人類基因組計(jì)劃的推動(dòng)下,各種類型的生物數(shù)據(jù),如核酸序列、蛋白質(zhì)序列和蛋白質(zhì)結(jié)構(gòu)的生物信息數(shù)據(jù),呈現(xiàn)指數(shù)增長的迅猛趨勢。為了對這些規(guī)模龐大、結(jié)構(gòu)復(fù)雜的生物數(shù)據(jù)進(jìn)行有效的管理和使用,早在七、八十年代,世界各地的科研人員就建立了大量的生物信息數(shù)據(jù)庫,現(xiàn)在它們已經(jīng)成為生物信息學(xué)工作的基礎(chǔ)和重要內(nèi)容。
目前,廣泛使用的生物信息數(shù)據(jù)庫主要有美國國家生物信息中心(NCBI)管理維護(hù)的GeneBank、歐洲生物信息研究所(EBI)管理的EMBL數(shù)據(jù)庫、以及日本的國家級(jí)核酸數(shù)據(jù)庫DDBJ,以及共同組成的GeneBank/EMBI/DDBJ國際核酸序列數(shù)據(jù)庫,定時(shí)保持同步更新。然而,在實(shí)際使用中,傳統(tǒng)的數(shù)據(jù)庫技術(shù)已經(jīng)不能很好的勝任,將數(shù)據(jù)倉庫思想引進(jìn)生物信息數(shù)據(jù)的管理則應(yīng)運(yùn)而生。
基于生物信息數(shù)據(jù)的特點(diǎn),針對目前各大基因數(shù)據(jù)庫之間互聯(lián)、互通和相互利用中存在的一些問題,設(shè)計(jì)了基于數(shù)據(jù)挖掘技術(shù)的異地異構(gòu)生物信息共享的數(shù)據(jù)倉庫解決方案,并給出了該方案的實(shí)現(xiàn)框架——基于Web的生物信息數(shù)據(jù)倉庫(Data Warehouse of Bioinformation based on Web,DWBW)。
生物信息學(xué)是一門生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交匯融合所形成的交叉學(xué)科[1]。在生物信息學(xué)的發(fā)展過程中,逐步建立起了大量基于網(wǎng)絡(luò)的生物數(shù)據(jù)庫,如PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫、SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫和GenBank核酸序列數(shù)據(jù)庫等;開發(fā)了眾多檢索工具,如SRS、CLUSTALW、PROSITESEARCH等強(qiáng)有力的搜索工具;從而實(shí)現(xiàn)了生物信息數(shù)據(jù)的智能處理和綜合分析。目前,生物信息數(shù)據(jù)庫中主要包括核酸數(shù)據(jù)、蛋白質(zhì)數(shù)據(jù)以及功能數(shù)據(jù)等內(nèi)容,來自于世界各地不同的實(shí)驗(yàn)室。有些是從實(shí)驗(yàn)獲得的未經(jīng)任何處理的原始數(shù)據(jù),有些經(jīng)過簡單的歸類整理和注釋,有些則是針對特定目標(biāo)通過理論分析和復(fù)雜處理得到的。因此,生物信息數(shù)據(jù)在具有增長迅猛、更新及時(shí)、種類繁多等特點(diǎn)的同時(shí),更表現(xiàn)出高度的復(fù)雜性、多樣性和不一致性。
隨著生物信息數(shù)據(jù)量的激增以及數(shù)據(jù)處理能力的復(fù)雜程度不斷提高,現(xiàn)有的生物信息數(shù)據(jù)庫已經(jīng)逐漸暴露出許多問題。三大核酸數(shù)據(jù)庫依靠傳統(tǒng)方式交換數(shù)據(jù),無法及時(shí)反應(yīng)出其他專用生物信息數(shù)據(jù)庫(特別是三大核酸數(shù)據(jù)庫以外的其它生物信息數(shù)據(jù)庫)的變化情況以及非核酸類數(shù)據(jù)信息。網(wǎng)上所提供的大部分?jǐn)?shù)據(jù)分析工具采用面向問題的搜索方法,搜索效率隨著問題規(guī)模的擴(kuò)大而降低,并且無法智能地對數(shù)據(jù)中存在的未知知識(shí)進(jìn)行發(fā)掘。為此,在后基因組時(shí)代,需要將數(shù)據(jù)倉庫思想及智能數(shù)據(jù)挖掘技術(shù)運(yùn)用到生物信息學(xué)領(lǐng)域中。
生物信息學(xué)是一門內(nèi)涵非常豐富的學(xué)科,是生物、數(shù)學(xué)、計(jì)算機(jī)等多領(lǐng)域?qū)<业墓餐瑓f(xié)作的成果。在生物信息學(xué)中通常需要進(jìn)行基因比對、基因預(yù)測和功能基因組信息分析等工作,主要涉及了大規(guī)?;虮磉_(dá)譜分析的相關(guān)算法、基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究、軟件研究、核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測和模擬、以及蛋白質(zhì)功能預(yù)測等方面。目前,在生物信息學(xué)中,基因比對(Alignment)是最常用和最經(jīng)典的研究手段。在核酸序列或蛋白質(zhì)序列之間進(jìn)行兩兩比對,比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者的相似形、同源性,進(jìn)而探尋可能的分子進(jìn)化關(guān)系,揭示序列中蘊(yùn)涵的結(jié)構(gòu)、功能等信息。
數(shù)據(jù)挖掘主要存在以下幾種經(jīng)典分析模式[2]:關(guān)聯(lián)模式分析、序列模式分析、分類分析、聚類分析,其中關(guān)聯(lián)模式分析應(yīng)用最為廣泛。關(guān)聯(lián)模式分析通過對一組給定的Item和一個(gè)記錄集合進(jìn)行分析,推導(dǎo)出Item間的相關(guān)性,進(jìn)而挖掘隱藏的關(guān)系??梢?通過數(shù)據(jù)挖掘技術(shù),開發(fā)面向功能解釋和功能預(yù)測的工具,能夠發(fā)現(xiàn)不同基因、蛋白質(zhì)序列中的相關(guān)性,從而進(jìn)一步比較分析其功能。
傳統(tǒng)的針對數(shù)據(jù)庫的開發(fā)工具多為聯(lián)機(jī)事物處理(Online Transaction Process,OLTP)模式,它主要是面向具體的查詢和統(tǒng)計(jì),有著較為具體的應(yīng)用目的。然而,隨著越來越多數(shù)據(jù)庫的出現(xiàn),數(shù)據(jù)量的迅猛增長,OLTP在數(shù)據(jù)資源的充分利用、為用戶提供有效支持和幫助等方面,則顯得力不從心[2]。因此,基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理(Online Analysis Process,OLAP)以及數(shù)據(jù)挖掘(Data Mining,DM)引起了日益廣泛的關(guān)注和應(yīng)用。
OLAP是一種自上而下、不斷深入的分析工具。用戶提出問題或假設(shè),OLAP則負(fù)責(zé)從上而下深入地提取出關(guān)于該問題的詳細(xì)信息,并以可視化的方式呈現(xiàn)給用戶。DM是一種決策支持過程和挖掘性工具,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地對原始數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,做出歸納性和預(yù)測性的推理。
目前生物信息數(shù)據(jù)庫的特點(diǎn)以其所存在的問題,都為數(shù)據(jù)倉庫的使用提供廣闊的活動(dòng)空間,但同時(shí)也對數(shù)據(jù)挖掘提出了新的問題和難點(diǎn)。生物信息學(xué)的進(jìn)一步發(fā)展需要數(shù)據(jù)倉庫的支撐。
實(shí)現(xiàn)數(shù)據(jù)挖掘的一個(gè)前提條件是必須具有海量數(shù)據(jù)[2],而這恰恰是數(shù)據(jù)倉庫的基本特點(diǎn)之一,二者的緊密結(jié)合可以有效地解決大量實(shí)際應(yīng)用中出現(xiàn)的問題。在生物信息學(xué)領(lǐng)域,使用數(shù)據(jù)挖掘技術(shù)可以大幅提高研究人員的工作效率,改變原有的利用傳統(tǒng)工具人為的或機(jī)械的逐項(xiàng)比較功能的預(yù)測法;數(shù)據(jù)挖掘算法還可以結(jié)合生物信息專業(yè)領(lǐng)域的公式算法,根據(jù)研究人員的設(shè)想,對數(shù)據(jù)進(jìn)行全面的、高效率的分析。
基于數(shù)據(jù)挖掘等技術(shù)發(fā)展起來的智能決策技術(shù)[3]具備了在生物信息學(xué)領(lǐng)域中大展身手的“天賦”,特別是基于海量數(shù)據(jù)的數(shù)據(jù)挖掘和開采技術(shù)更具有廣泛的需求和應(yīng)用背景。另一方面,目前生物信息學(xué)的研究方法和發(fā)展情況,已經(jīng)形成了一整套較為完善的智能決策系統(tǒng),成為數(shù)據(jù)倉庫和數(shù)據(jù)開采的一個(gè)較為成功的應(yīng)用案例。另外,現(xiàn)有的各種生物信息應(yīng)用分析軟件,雖然其基本出發(fā)點(diǎn)仍然是傳統(tǒng)的數(shù)據(jù)庫技術(shù),但是從一定程度上講,已經(jīng)反映并且實(shí)現(xiàn)了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的思想和技術(shù)。
已有的生物信息數(shù)據(jù)庫都已經(jīng)提供基于互聯(lián)網(wǎng)的數(shù)據(jù)提交、序列查詢、基因比對等功能,且?guī)状髷?shù)據(jù)庫之間也實(shí)現(xiàn)了準(zhǔn)實(shí)時(shí)的互聯(lián)互通。但是,基于這些生物信息數(shù)據(jù)的分析比較工具,都不能從面向主題的角度對全部數(shù)據(jù)進(jìn)行分析以找出具有價(jià)值的規(guī)律,更不具有決策支持的能力?;诂F(xiàn)有的生物信息數(shù)據(jù)庫,運(yùn)用數(shù)據(jù)倉庫思想,利用OLAP和數(shù)據(jù)挖掘技術(shù),建立生物信息數(shù)據(jù)倉庫,是一種不需要大幅增加硬件設(shè)備以及物理裝置的前提下,實(shí)現(xiàn)基于Web平臺(tái)的生物信息集成與處理平臺(tái)的可行方案。
設(shè)計(jì)一個(gè)基于Web的生物信息數(shù)據(jù)倉庫(Data Warehouse of Bioinformation based on Web DWBW),其主要結(jié)構(gòu)由5個(gè)主要部分組成:外部數(shù)據(jù)源,包括各大綜合生物信息數(shù)據(jù)庫以及各類專用生物信息數(shù)據(jù)庫系統(tǒng);基于Web的數(shù)據(jù)調(diào)度,傳輸;數(shù)據(jù)的“變形”(抽取、變換、裝載、刷新等)整合;元數(shù)據(jù)規(guī)則,以及元數(shù)據(jù)的管理;基于Web的綜合管理平臺(tái)(包括請求分類服務(wù)器、各種分析工具服務(wù)器)。
DWBW以DDBJ/EMBI/GeneBank作為主要數(shù)據(jù)源,同時(shí)以其他主要的生物信息數(shù)據(jù)庫作為整個(gè)數(shù)據(jù)倉庫的基本數(shù)據(jù)源。通過分析數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)類型,建立DWBW的元數(shù)據(jù)規(guī)則,即為來源不同的數(shù)據(jù)建立統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)、字段內(nèi)容、存儲(chǔ)結(jié)構(gòu)等基本項(xiàng)目。這樣,基于上述各種數(shù)據(jù)庫就可以建立起一個(gè)基于Web的虛擬數(shù)據(jù)倉庫。由于不存在一個(gè)物理上位于某地的存儲(chǔ)中心來保存這些數(shù)據(jù),用戶面對的只是一個(gè)基于網(wǎng)絡(luò)的分布式虛擬的數(shù)據(jù)倉庫。其模型、算法的運(yùn)行由專用的分析工具服務(wù)器來完成,而對于數(shù)據(jù)的調(diào)用和整理都是在源數(shù)據(jù)庫上進(jìn)行的,根據(jù)不同用戶提交問題的不同,具體的分析過程則由分配服務(wù)器交給相關(guān)的服務(wù)器去完成分析工作,只是最終將結(jié)果返回請求分類服務(wù)器,顯示給用戶。DWBW的原理框圖見圖1所示。
DWBW將通過一個(gè)統(tǒng)一的基于Web的頁面與用戶進(jìn)行交互,在后臺(tái)則主要由請求分類服務(wù)器、Web服務(wù)器以及專用分析工具服務(wù)器共同完成對用戶問題的提交和分析,實(shí)現(xiàn)對數(shù)據(jù)倉庫元數(shù)據(jù)規(guī)則的理解,然后根據(jù)問題分類的結(jié)果,與相關(guān)的分析工具進(jìn)行匹配,將問題提交到相應(yīng)的專用分析工具服務(wù)器進(jìn)行處理。處理完成后返回給請求分類服務(wù)器,進(jìn)而返回給提交問題的用戶。
4.2.1 生物信息學(xué)元數(shù)據(jù)的抽取
數(shù)據(jù)的整理和抽取,是開發(fā)所有數(shù)據(jù)倉庫時(shí)所遇到的最難解決也是最具挑戰(zhàn)性的問題之一。將不同時(shí)期生成的大量歷史數(shù)據(jù)中的數(shù)據(jù)結(jié)構(gòu)、字段的定義以及對象之間的關(guān)系等一系列的描述信息整理出來,并制定出一套通用可行的規(guī)范,本身就是一個(gè)工作量巨大、難度極高的問題;特別針對來自于世界各地、不同門類、不同背景、不同應(yīng)用目的的專業(yè)生物信息數(shù)據(jù)庫,就更加復(fù)雜了。因此,數(shù)據(jù)倉庫元數(shù)據(jù)的抽取整理,成為建立DWBW的關(guān)鍵問題。數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和裝載過程與一般數(shù)據(jù)倉庫建立過程中的數(shù)據(jù)整理不完全相同,其數(shù)據(jù)具有規(guī)范性強(qiáng),存儲(chǔ)結(jié)構(gòu)相對簡單,轉(zhuǎn)換、裝載容易等特點(diǎn)。
圖1 基于Web的生物信息數(shù)據(jù)倉庫系統(tǒng)(DWBW)
4.2.2 虛擬生物信息數(shù)據(jù)倉庫的建立
虛擬生物信息數(shù)據(jù)倉庫實(shí)現(xiàn)對生物信息平臺(tái)相關(guān)數(shù)據(jù)的組織和集成,并且將不同主題的數(shù)據(jù)對象分別存儲(chǔ)到各個(gè)數(shù)據(jù)集市中,同時(shí)還將建立起部分有價(jià)值數(shù)據(jù)的在線OLAP數(shù)據(jù)庫。與傳統(tǒng)的數(shù)據(jù)倉庫不同,虛擬數(shù)據(jù)倉庫采用中間件充當(dāng)數(shù)據(jù)中心,提供信息的訪問接口,對存貯在不同數(shù)據(jù)源的生物信息數(shù)據(jù)進(jìn)行存取操作。虛擬數(shù)據(jù)倉庫的中間件對各個(gè)數(shù)據(jù)源(各生物信息數(shù)據(jù)庫)的請求采用的是標(biāo)準(zhǔn)的XML,最終都將轉(zhuǎn)換為各數(shù)據(jù)源的標(biāo)準(zhǔn)查詢語言,提交給相應(yīng)的數(shù)據(jù)庫服務(wù)器進(jìn)行處理。數(shù)據(jù)庫處理完成后,中間件又將返回結(jié)果重新封裝成為XML格式的數(shù)據(jù),并進(jìn)行發(fā)送。由于虛擬生物信息數(shù)據(jù)倉庫一般不是針對實(shí)時(shí)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),所以對于時(shí)間效率的要求不如一般查詢統(tǒng)計(jì)那么高,這就確保了開發(fā)處于不同物理位置數(shù)據(jù)源的虛擬DWBW具有可行性。同時(shí),對于一般性的查詢比對等基本操作,不會(huì)影響其工作效率和準(zhǔn)確性。
4.2.3 基于Web面向用戶的綜合平臺(tái)的開發(fā)設(shè)計(jì)
基于Web的面向用戶的綜合平臺(tái)主要提供一個(gè)用戶操作的平臺(tái),除了集成基因比對、功能預(yù)測、序列分析、基因提交等傳統(tǒng)的操作以外,還允許用戶對虛擬數(shù)據(jù)倉庫中的數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘技術(shù),提供更多的分析支持工具。
DWBW與傳統(tǒng)的數(shù)據(jù)倉庫概念特征相比,兩者都是對海量的、復(fù)雜數(shù)據(jù)進(jìn)行處理;能在解決“不明確問題”過程中顯示很強(qiáng)的能力;面向數(shù)據(jù)分析,把輔助決策作為一個(gè)重要的最終目標(biāo)。DWBW還具有幾個(gè)特性:實(shí)時(shí)性要求較強(qiáng);與一般的數(shù)據(jù)倉庫相比對單個(gè)記錄的準(zhǔn)確性要求更高;數(shù)據(jù)倉庫不是物理存在的,而是通過互聯(lián)網(wǎng)絡(luò)將多個(gè)數(shù)據(jù)庫連接在一起,共同發(fā)揮作用的虛擬數(shù)據(jù)倉庫。
DWBW在解決目前互聯(lián)網(wǎng)中許多具有相似特性領(lǐng)域中的問題時(shí)具有很多的借鑒意義[4]。例如在基于網(wǎng)絡(luò)的B2B、B2C的商業(yè)網(wǎng)站的客戶資料分析、商品(貨品)銷售分析等方面都可以采用相同的思想。擴(kuò)展開來,這一設(shè)計(jì)方法在大型的全球連鎖超市、各地的家電分銷中心以及股票市場的評估分析等等方面均有指導(dǎo)意義。在這方面成功的應(yīng)用主要集中在大型連鎖超市的銷售記錄分析,股票、金融市場分析方面,它提供的輔助決策內(nèi)容有貨物配售方案的選擇,超市選址,股票分類投資,防止金融詐騙等。
感謝西華師范大學(xué)科研啟動(dòng)基金(05B061)
[1]鐘揚(yáng),張亮.簡明生物信息[M].北京:高等教育出版社,2001.
[2]王珊.數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理[M].北京:科學(xué)出版社,1998.
[3]陳文偉.智能決策技術(shù)[M].北京:電子工業(yè)出版社,1998.
[4]劉智琚.數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用[J].軟件導(dǎo)刊,2009,(7).
[6]楊文,韓濤,孫志茹.生物信息學(xué)序列庫與文獻(xiàn)庫的整合模式淺[J].實(shí)踐研究,2008,(1).