何芳原
[摘要]隨著科學技術飛速的發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,計算機應用系統(tǒng)的不斷發(fā)展和完善,在各個領域產(chǎn)生了大量的歷史數(shù)據(jù),這些歷史數(shù)據(jù)可能已經(jīng)不被應用系統(tǒng)引用,但它們卻有著非常大的查詢和分析價值。對海量的信息加以利用都離不開底層對數(shù)據(jù)的操作。然而,數(shù)據(jù)不斷膨脹往往給應用系統(tǒng)帶來一些難以忍受的后果,最典型的是系統(tǒng)在運行過程中資源消耗需求量越來越大,運行效率明顯降低,隨著時間的推移,達到難以忍受的程度。提出對于海量數(shù)據(jù)查詢效率問題的一種解決方案,主要探討海量數(shù)據(jù)在關系數(shù)據(jù)庫中的應用。
[關鍵詞]海量數(shù)據(jù) 數(shù)據(jù)處理 關系數(shù)據(jù)庫
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0420059-02
一、海量數(shù)據(jù)的產(chǎn)生及現(xiàn)狀
在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。在信息技術飛速發(fā)展,信息數(shù)據(jù)迅猛增長的今天,企業(yè)快速有效的分析決策越來越依賴于其信息系統(tǒng)的設計開發(fā)。因此,面對“數(shù)據(jù)爆炸但知識貧乏”的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力,數(shù)據(jù)挖掘技術可以用它的超能力產(chǎn)生巨大的商業(yè)機會。
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。還有很多和這一術語相近似的術語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結構化的,如關系型數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結構化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學者和工程技術人員。
和數(shù)據(jù)挖掘同時出現(xiàn)或交互使用的是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。知識發(fā)現(xiàn)是人工智能、機器學習和數(shù)據(jù)庫技術相結合的產(chǎn)物?!爸R發(fā)現(xiàn)”(Knowledge Discovery in Databases, KDD)一詞是1989年在美國底特律市召開的第一屆KDD國際學術會議上正式形成的。知識發(fā)現(xiàn)是指從數(shù)據(jù)庫大量的數(shù)據(jù)中通過分析提取出隱含的新穎的、有效的并能被人理解的規(guī)則或模式的高級處理過程。這里的規(guī)則或模式即我們所說的知識。它給出數(shù)據(jù)的某些特性或數(shù)據(jù)之間的關系,是對數(shù)據(jù)處理后獲取的更深層次的可利用決策支持的信息。數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟,但又是最重要的一步。一般在研究領域被稱作數(shù)據(jù)庫中知識發(fā)現(xiàn)的,在工程領域則稱之為數(shù)據(jù)挖掘。
二、海量數(shù)據(jù)查詢的問題
只要是對海量的信息加以利用,不論是數(shù)據(jù)挖掘也好,知識發(fā)現(xiàn)也好,數(shù)據(jù)倉庫也好,都離不開底層對數(shù)據(jù)的操作。然而對于大多數(shù)的數(shù)據(jù)中心來講,數(shù)據(jù)膨脹的壓力是巨大的。數(shù)據(jù)不斷膨脹往往給應用系統(tǒng)帶來一些難以忍受的后果,最典型的是系統(tǒng)在運行過程中資源消耗需求量越來越大,運行效率明顯降低,隨著時間的推移,達到難以忍受的程度。于是,針對于海量數(shù)據(jù),人們提出了各種解決辦法。
三、海量數(shù)據(jù)的存儲與訪問
產(chǎn)生海量數(shù)據(jù)、訪問海量數(shù)據(jù)、存儲海量數(shù)據(jù)和保護海量數(shù)據(jù)的網(wǎng)絡存儲系統(tǒng),因其在數(shù)據(jù)使用、管理、存儲、備份和復制等方面的先進性,越來越為廣大企業(yè)所推崇和認可。所以,許多企業(yè)在組建企業(yè)網(wǎng)絡時,都將根據(jù)自己網(wǎng)絡信息處理和運用的特點,配有技術先進、性能優(yōu)異、容量巨大、速度迅捷,且安全可靠和維護方便的網(wǎng)絡存儲設備。目前,在網(wǎng)絡系統(tǒng)存儲備份設備中,應用最廣泛的,仍然是磁盤陣列、磁帶庫和光盤塔或光盤庫幾大類。其中,磁帶庫、磁盤陣列、光盤塔或光盤庫等存儲設備因其信息存儲特點的完全不同,應用環(huán)境也有較大區(qū)別。其中,磁帶庫更多的是用于網(wǎng)絡系統(tǒng)中的海量數(shù)據(jù)的定期備份,而磁盤陣列則主要用于網(wǎng)絡系統(tǒng)中的海量數(shù)據(jù)的即時存取,光盤塔或光盤庫主要用于網(wǎng)絡系統(tǒng)中的海量數(shù)據(jù)的訪問。
利用先進的數(shù)據(jù)庫管理技術和大容量存儲管理技術,綜合考慮數(shù)據(jù)的查詢頻度的需求,將數(shù)據(jù)按照近期、中期、遠期三個階段進行分級存儲管理:將時間較近、訪問頻繁的數(shù)據(jù)存儲在磁盤陣列中,提供高速的訪問響應;將時間較遠、訪問較少的數(shù)據(jù)存儲在低成本、大容量、易擴展的光盤庫設備中,在保證合理響應速度的前提下盡量降低系統(tǒng)成本。為了實現(xiàn)上述目標,系統(tǒng)提供了對磁盤、光盤數(shù)據(jù)的一致性訪問接口,對系統(tǒng)中的數(shù)據(jù)提供統(tǒng)一、透明的訪問機制;系統(tǒng)同時提供了數(shù)據(jù)遷移的內(nèi)部管理機制,保證數(shù)據(jù)從磁盤遷移到光盤時對用戶的透明性。
對海量數(shù)據(jù)的訪問,比較原始的做法是,由技術人員將已備至磁帶的數(shù)據(jù)倒回數(shù)據(jù)庫,根據(jù)要求查找記錄。此種查詢方式基本由手工完成,效率極低,同時造成巨大的人工浪費。加上查詢范圍及時間跨度有限,無法充分利用歷史數(shù)據(jù)這一重要資源。因此許多用戶產(chǎn)生了這樣的希望:在生產(chǎn)系統(tǒng)之外建立一個獨立的歷史數(shù)據(jù)歸檔和查詢系統(tǒng),將生產(chǎn)系統(tǒng)數(shù)據(jù)庫內(nèi)的歷史數(shù)據(jù)自動歸檔,將歷史數(shù)據(jù)從主機分離開來,從而使主機在必要時可以將歷史數(shù)據(jù)剝離,輕裝前進。同時保證歷史數(shù)據(jù)脫離主機后仍能使用,即脫離主機和數(shù)據(jù)庫后,仍可直接訪問。這就意味著歸檔后的歷史數(shù)據(jù)的存儲結構應該是可用的(accessible),并且是可查詢的(query ready)。
四、海量數(shù)據(jù)的數(shù)據(jù)庫處理技術
目前,關系數(shù)據(jù)庫的應用范圍最廣,占據(jù)了數(shù)據(jù)庫主流地位。關系數(shù)據(jù)庫最初設計為基于主機/終端方式的大型機上的應用,其應用范圍較為有限,隨著客戶機/服務器方式的流行和應用向客戶機方的分解,關系數(shù)據(jù)庫又經(jīng)歷了客戶機/服務器時代,并獲得了極大的發(fā)展。隨著Internet應用的普及,由于Internet上信息資源的復雜性和不規(guī)范性,關系數(shù)據(jù)庫初期在開發(fā)各種網(wǎng)上應用時顯得力不從心,表現(xiàn)在無法管理各種網(wǎng)上的復雜的文檔型和多媒體型數(shù)據(jù)資源,后來關系數(shù)據(jù)庫對于這些需求作出了一些適應性調(diào)整,如增加數(shù)據(jù)庫的面向?qū)ο蟪煞忠栽黾犹幚矶喾N復雜數(shù)據(jù)類型的能力,增加各種中間件(主要包括CGI、ISAPI、ODBC、JDBC、ASP等技術)以擴展基于Internet應用能力,通過應用服務器解釋執(zhí)行各種HTML中嵌入腳本來解決Internet應用中數(shù)據(jù)庫數(shù)據(jù)的顯示、維護、輸出以及到HTML的格式轉(zhuǎn)換等。此時關系數(shù)據(jù)庫的基于Internet應用的模式典型表現(xiàn)為一種三層或四層的多層結構。在這種多層結構體系下,關系數(shù)據(jù)庫解決了數(shù)據(jù)庫的Internet應用的方法問題,使得基于關系數(shù)據(jù)庫能夠開發(fā)各種網(wǎng)上數(shù)據(jù)庫數(shù)據(jù)的發(fā)布、檢索、維護、數(shù)據(jù)管理等一般性應用。
首先,從關系數(shù)據(jù)庫結構來分析查詢的內(nèi)部處理。
從組織結構上來看,關系數(shù)據(jù)庫都是由集合組成:數(shù)據(jù)庫是表的集合,表是元組的集合。一個表就是一個關系,對關系的操作有選擇、投影、連接。所以我們的查詢操作其實就是關系操作。
目前計算機能處理的數(shù)據(jù)信息大體可以分為兩類:一類是結構化數(shù)據(jù),如數(shù)字、符號等;另一類是非結構化數(shù)據(jù),如圖像、聲音和網(wǎng)頁等。對于結構化數(shù)據(jù),數(shù)據(jù)庫存儲技術發(fā)展到今天,關系型數(shù)據(jù)庫已經(jīng)成為處理結構化數(shù)據(jù)的首選產(chǎn)品,而且關系型數(shù)據(jù)庫也是距今為止使用得最為廣泛的數(shù)據(jù)存儲軟件。但是隨著網(wǎng)絡和軟件技術的飛速發(fā)展,Internet時代的數(shù)據(jù)越來越顯示出兩個最主要的特點,即非結構化數(shù)據(jù)大量涌現(xiàn)和海量數(shù)據(jù)的產(chǎn)生。這對數(shù)據(jù)存儲和檢索技術提出了完全不同的新需求,集中表現(xiàn)在數(shù)據(jù)庫管理系統(tǒng)本身的存儲和檢索技術上。特別是隨著非結構化數(shù)據(jù)應用領域的不斷拓展,擅長于處埋結構化數(shù)據(jù)的關系數(shù)據(jù)庫開始暴露出越來越多的局限,這些局限性也集中表現(xiàn)在對海量信息的存儲利檢索方面。在數(shù)據(jù)檢索方面,海量信息對查詢速度有較高的要求,查全率、查準率是衡量檢索效率的標準。我們知道,關系數(shù)據(jù)庫的索引是基于B+樹的方法,這種方法對海量數(shù)據(jù)的檢索效率是非常低的,甚至幾乎不可行。而產(chǎn)生于70年代主要針對數(shù)值和字符處理的關系數(shù)據(jù)庫模型由于當時應用的局限,在設計時幾乎沒有考慮到多媒體、網(wǎng)頁等非結構化數(shù)據(jù)處理的問題,沒有料到Internet會發(fā)展得如此迅速,沒有料到會出現(xiàn)數(shù)據(jù)急速膨脹的局面。所以,關系數(shù)據(jù)庫在Internet時代的非結構化數(shù)據(jù)和海量信息數(shù)據(jù)的處理方面存在著許多問題,特別是關系數(shù)據(jù)庫對數(shù)據(jù)類型的處理只局限于數(shù)字、字符,對非結構化信息的處理只是停留在簡單的二進制代碼文件的存儲,已經(jīng)不適應用戶從原先數(shù)據(jù)的簡單存儲上升為對數(shù)據(jù)的識別、檢索和深入加工的要求,基于Internet內(nèi)容的應用尤其使關系數(shù)據(jù)庫相形見絀,因此有人說,數(shù)據(jù)庫技術將進入“后關系數(shù)據(jù)庫時代”,進入基于網(wǎng)絡應用和內(nèi)容管理的非結構化數(shù)據(jù)庫時代,數(shù)據(jù)的存儲管現(xiàn)技術和檢索技術也會隨之發(fā)生相應的變化,數(shù)據(jù)庫技術與Web技術的結合成為研究的熱點。
關系型數(shù)據(jù)庫具有一個基本的規(guī)則,即保持事物的分離;它可以處理多個表;存在簡單的數(shù)據(jù)關系,即:一對多、多對多的關系。鑒于其關系模型具有簡單、堅實的數(shù)學基礎的優(yōu)點,一經(jīng)提出,立即引起學術界和產(chǎn)業(yè)界的廣泛重視,從理論與實踐兩方面對數(shù)據(jù)庫技術產(chǎn)生了強烈的沖擊。在關系模型提出之前已經(jīng)存在的基于層次模型和網(wǎng)狀模型的數(shù)據(jù)庫產(chǎn)品很快走向衰敗以至消亡,一大批商品化關系數(shù)據(jù)庫系統(tǒng)很快被開發(fā)出來并迅速占領了市場,其交替速度之快,是軟件開發(fā)歷史上罕見的。由于數(shù)據(jù)庫是計算機各種應用的基礎,關系模型的提出不僅為數(shù)據(jù)庫技術的發(fā)展奠定了基礎,同時也成為促進計算機普及應用的極大推動力。在考特提出關系模型以后,IBM投巨資開展關系數(shù)據(jù)庫管理系統(tǒng)的研究,其“SystemR”項目的研究成果極大地推動了關系數(shù)據(jù)庫技術的發(fā)展,在此基礎上推出的DB2和SQL等產(chǎn)品成為IBM的主流產(chǎn)品。System R本身雖作為原型并未問世,但鑒于其影響,ACM把1988年的“軟件系統(tǒng)獎”授予了System R開發(fā)小組。這一年的軟件系統(tǒng)獎還破例同時獎勵兩個軟件,另一個得獎軟件也是關系數(shù)據(jù)庫管理系統(tǒng),即著名的INGRES。
隨著技術的進步和市場需求的推動,關系數(shù)據(jù)庫系統(tǒng)的功能越來越強,種類不斷增加,其應用領域己多得難以統(tǒng)計,如聯(lián)機事務處理、聯(lián)機分析處理、決策支持系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市等新概念。面向?qū)ο蟮臄?shù)據(jù)性系統(tǒng)及通用數(shù)據(jù)庫系統(tǒng)大多也是在關系系統(tǒng)基礎上進行的擴展。Internet時代的到來對傳統(tǒng)關系型數(shù)據(jù)庫提出了新的挑戰(zhàn)。出于傳統(tǒng)的關系數(shù)據(jù)庫主要是為企業(yè)內(nèi)部員工提供服務的,并且主要處理格式化的信息,而對Internet的特殊需求,傳統(tǒng)的關系型數(shù)據(jù)庫必須進一步發(fā)展,以適應Internet時代的要求,才能生存并發(fā)展下去。Internet時代的到來對傳統(tǒng)關系型數(shù)據(jù)庫也提供了新的機遇。隨著 Internet的普及,信息技術將滲透到普通人生活的方方面面,從而進一步推動IT的發(fā)展。隨著信息的膨脹,必然會對信息的管理提出更高的要求,將來可能會出現(xiàn)另一種數(shù)據(jù)庫--對象數(shù)據(jù)庫,而關系型數(shù)據(jù)庫作為一種成熟的數(shù)據(jù)管理平臺,仍然會在整個IT系統(tǒng)中占有非常重要的作用,并且仍會平穩(wěn)地發(fā)展。隨著各主流廠商的關系型數(shù)據(jù)庫逐步轉(zhuǎn)向Internet,數(shù)據(jù)庫還將迎來一個新的發(fā)展高峰。
參考文獻:
[1]施伯樂、何繼潮、崔靖,關系數(shù)據(jù)庫的理論及應用,河南:河南科學技術出版社.
[2]馬垣,關系數(shù)據(jù)庫理論,北京:清華大學出版社,廣西:廣西科學技術出版社.
[3]徐曉春、李高健,軟件配置管理,北京:清華大學出版社,2002.
[4]楊靜、顧軍華,基于海量數(shù)據(jù)的數(shù)據(jù)產(chǎn)品存儲技術研究,徐州師范大學學報自然科學版,徐州:徐州師范大學學報自然科學版編輯部,2003,27-29.
[5]陸昌輝、吳曉華,SQL Server 2000核心技術揭秘,北京:宇航出版社.
[6]彭木根,數(shù)據(jù)倉庫技術與實現(xiàn),北京:電子工業(yè)出版社,2002.