朱明苑
摘要本文就數(shù)據(jù)挖掘的定義和功能,數(shù)據(jù)挖掘系統(tǒng)分類,數(shù)據(jù)挖掘過程 ,現(xiàn)代數(shù)據(jù)挖掘技術(shù)與其發(fā)展以及數(shù)據(jù)挖掘面臨的問題做了分析。
關(guān)鍵詞數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘過程
中圖分類號:TP39文獻標識碼:A
1 引言
近年來,數(shù)據(jù)挖掘引起了極大關(guān)注。數(shù)據(jù)挖掘能夠充分利用了當今服務(wù)器的運算能力,將大量數(shù)據(jù)轉(zhuǎn)換為有用的信息,其利用了來自統(tǒng)計學(xué)、人工智能等一些領(lǐng)域的思想,一些其他領(lǐng)域也起到重要的支撐作用。計算機不斷增長的物理存儲能力和處理能力,使得復(fù)雜的數(shù)據(jù)分析成為可能。為了以種種方法來挖掘數(shù)據(jù),理解那些可用的技術(shù),以及對特定的數(shù)據(jù)存儲如何應(yīng)用這些技術(shù)的理解十分重要。
2 數(shù)據(jù)挖掘的定義和功能
2.1數(shù)據(jù)挖掘的定義
2.1.1 數(shù)據(jù)挖掘的技術(shù)定義
數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中挖掘有用知識。
(1)原始數(shù)據(jù)可以是結(jié)構(gòu)化或半結(jié)構(gòu)化的,甚至是異構(gòu)的。
(2)數(shù)據(jù)挖掘是一門交叉學(xué)科,它涉及到了AI、機器學(xué)習(xí)、統(tǒng)計學(xué)、可視化技術(shù)等多個學(xué)科領(lǐng)域。
2.1.2 數(shù)據(jù)挖掘的商業(yè)定義
(1)數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識,即從一個數(shù)據(jù)庫中自動發(fā)現(xiàn)相關(guān)商業(yè)模式。
(2)數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
2.2數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘綜合了各個學(xué)科技術(shù),有很多的功能。當前的主要功能以及它們可以發(fā)現(xiàn)的模式類型如下:
2.2.1概念/類描述:特征化和區(qū)分
數(shù)據(jù)可以與類或者是概念相關(guān)聯(lián)。數(shù)據(jù)特征化是目標類數(shù)據(jù)的一般特征或特性的匯總。通常,用戶指定類的數(shù)據(jù)通過數(shù)據(jù)庫查詢收集。數(shù)據(jù)特征的輸出可以用多種形式提供。其中包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內(nèi)的多維表。 數(shù)據(jù)區(qū)分是將目標類對象的一般特性與一個或多個對比類對象的一般特性比較。
2.2.2關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)
關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。規(guī)則歸納是數(shù)據(jù)挖掘的一種主要形式,并且是無教師學(xué)習(xí)系統(tǒng)中最普遍的知識發(fā)現(xiàn)形式。
2.2.3分類和預(yù)測
分類就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別,即將未知事例映射到某種離散類別之一。在一些情況下,需要預(yù)測某數(shù)值屬性的值(連續(xù)數(shù)值),這樣的分類就被稱為預(yù)測。
2.2.4聚類分析
聚類:識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。分析數(shù)據(jù)對象,而不考慮已知的類標記。對象根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則進行聚類或分組。所形成的每個簇可以看作一個對象類,由它可以導(dǎo)出規(guī)則。
2.2.5演變分析
數(shù)據(jù)演變分析描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類,這類分析的不同特點包括時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。
3 數(shù)據(jù)挖掘系統(tǒng)分類
為幫助正確認識數(shù)據(jù)挖掘系統(tǒng)并準確有效使用合適的數(shù)據(jù)挖掘系統(tǒng)解決實際問題,這里將對數(shù)據(jù)挖掘系統(tǒng)分類標準作詳細介紹。一個數(shù)據(jù)挖掘系統(tǒng)可以按照其所挖掘的數(shù)據(jù)庫類型進行分類:
(1)數(shù)據(jù)庫系統(tǒng)本身就有多個劃分標準,這些數(shù)據(jù)庫系統(tǒng)均與各自的數(shù)據(jù)挖掘技術(shù)相對應(yīng)。因此數(shù)據(jù)挖掘系統(tǒng)可以按照數(shù)據(jù)庫系統(tǒng)類型進行劃分。(2)若根據(jù)數(shù)據(jù)模型進行分類,就會有關(guān)系類型、事務(wù)類型、面向?qū)ο箢愋汀ο箨P(guān)系類型和數(shù)據(jù)倉庫類型等數(shù)據(jù)挖掘系統(tǒng)。(3)若按照所處理數(shù)據(jù)類型進行劃分,就會有空間數(shù)據(jù)類型、時序數(shù)據(jù)類型、文本類型和多媒體類型等數(shù)據(jù)挖掘系統(tǒng),或互聯(lián)網(wǎng)挖掘系統(tǒng)。(4)其他的系統(tǒng)類型還包括:異構(gòu)數(shù)據(jù)挖掘系統(tǒng)和歷史數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的知識進行分類,可以根據(jù)所挖掘的知識類型對數(shù)據(jù)挖掘系統(tǒng)進行分類。
4 數(shù)據(jù)挖掘的過程
前面討論了數(shù)據(jù)挖掘的定義、功能和系統(tǒng)分類,現(xiàn)在關(guān)鍵的問題是如何實施,其一般的過程如下:
般過程包括:定義商業(yè)問題—>建立數(shù)據(jù)挖掘模型—>分析數(shù)據(jù)—>數(shù)據(jù)準備—>數(shù)據(jù)整理—>建立模型—>評價和解釋—>實施。
(1)定義商業(yè)問題:在開始知識發(fā)現(xiàn)之前最先的同時也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。
(2)建立數(shù)據(jù)挖掘庫:建立數(shù)據(jù)挖掘庫包括以下幾個步驟:a數(shù)據(jù)收集;b數(shù)據(jù)描述;c選擇;d數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理;e合并與整合;f構(gòu)建元數(shù)據(jù);g加載數(shù)據(jù)挖掘庫;h維護數(shù)據(jù)挖掘庫。
(3)分析數(shù)據(jù):分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。
(4)數(shù)據(jù)準備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個問題是如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。
(5)數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),就要對數(shù)據(jù)進行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。
(6)建立模型:建立模型是一個反復(fù)的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確性。
(7)評價和解釋:模型建立好之后,必須評價得到結(jié)果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。經(jīng)驗證有效的模型并不一定是正確的模型。因此直接在現(xiàn)實世界中測試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣。
(8)實施:模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。
以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復(fù)進行。每一個數(shù)據(jù)挖掘過程模型都隨著社會發(fā)展、人們需求的改變而不斷發(fā)展。
5 現(xiàn)代數(shù)據(jù)挖掘技術(shù)與其發(fā)展
現(xiàn)代數(shù)據(jù)挖掘技術(shù)是指20世紀80年代末所出現(xiàn)的數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)倉庫中提取人們感興趣的、事先不知的、隱含在數(shù)據(jù)中的信息和知識。
數(shù)據(jù)挖掘中的現(xiàn)代挖掘技術(shù)按其不同的技術(shù)特點,可以分成規(guī)則型、決策樹型、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集等多種技術(shù)。下面主要闡述一下規(guī)則型和決策樹型技術(shù)。
5.1規(guī)則型
規(guī)則歸納是數(shù)據(jù)挖掘的一種主要形式,并且是無教師學(xué)習(xí)系統(tǒng)中最普遍的知識發(fā)現(xiàn)形式。關(guān)聯(lián)分析的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,即對于給定的一組項目和一個記錄集,通過對記錄集的分析,得出項目集中的項目之間的相關(guān)性。項目之間的相關(guān)性用關(guān)聯(lián)規(guī)則來描述,關(guān)聯(lián)規(guī)則反映了一組數(shù)據(jù)項之間的密切程度或關(guān)系。
5.2決策樹型
a.決策樹又稱為判定樹,是運用于分類的一種樹結(jié)構(gòu)。其中的每個內(nèi)部結(jié)點代表對某個屬性的一次測試,每條邊代表一個測試結(jié)果,葉結(jié)點代表某個類或者類的分布,最上面的結(jié)點是根結(jié)點。
b.ID3算法是分類規(guī)則挖掘算法中最有影響的算法。ID3即決策樹歸納。早期的ID算法只能就兩類數(shù)據(jù)進行挖掘;經(jīng)過改進后,現(xiàn)在ID算法可以挖掘多類數(shù)據(jù)。待挖掘的數(shù)據(jù)必須是不矛盾的、一致的,也就是說,對具有相同屬性的數(shù)據(jù),其對應(yīng)的類必須是唯一的。在ID3算法挖掘后,分類規(guī)則由決策樹來表示。
6 數(shù)據(jù)挖掘的主要問題
數(shù)據(jù)挖掘技術(shù)在社會生活中得到充分運用,但也面臨諸多問題:
(1)在數(shù)據(jù)庫中挖掘不同類型的知識 :由于不同的用戶可能對不同類型的知識感興趣,數(shù)據(jù)挖掘系統(tǒng)應(yīng)當覆蓋范圍很廣的數(shù)據(jù)分析和知識發(fā)現(xiàn)任務(wù)。這些任務(wù)可能以不同的方式使用相同的數(shù)據(jù)庫,并需要開發(fā)大量數(shù)據(jù)挖掘技術(shù)。
(2) 多個抽象層的交互知識挖掘 :由于很難準確地知道能夠在數(shù)據(jù)庫中發(fā)現(xiàn)什么,數(shù)據(jù)挖掘過程應(yīng)當是交互的。對于包含大量數(shù)據(jù)的數(shù)據(jù)庫,應(yīng)當使用適當?shù)某闃蛹夹g(shù),進行交互式數(shù)據(jù)探查。交互式挖掘允許用戶聚焦搜索模式,根據(jù)返回的結(jié)果提出和精煉數(shù)據(jù)挖掘請求。
(3)結(jié)合背景知識:需要使用背景知識或關(guān)于所研究領(lǐng)域的信息來指導(dǎo)發(fā)現(xiàn)過程,并使得發(fā)現(xiàn)的模式以簡潔的形式在不同的抽象層表示。
(4)數(shù)據(jù)挖掘查詢語言和特定的數(shù)據(jù)挖掘:關(guān)系查詢語言允許用戶提出特定的數(shù)據(jù)檢索查詢。類似地,需要開發(fā)高級數(shù)據(jù)挖掘查詢語言,使得用戶通過說明分析任務(wù)的相關(guān)數(shù)據(jù)集、領(lǐng)域知識、所挖掘的數(shù)據(jù)類型、被發(fā)現(xiàn)的模式必須滿足的條件和約束,描述特定的數(shù)據(jù)挖掘任務(wù)。
(5)數(shù)據(jù)挖掘結(jié)果的表示和顯示 :發(fā)現(xiàn)的知識應(yīng)當用高級語言、可視化表示或其他表示形式表示,使得知識易于理解,能夠直接被人們使用。如果數(shù)據(jù)挖掘系統(tǒng)是交互的,這一點尤為重要。
7結(jié)束語
在數(shù)據(jù)庫日益龐大的今天,利用數(shù)據(jù)挖掘從數(shù)據(jù)倉庫中提取自己感興趣的知識,可最終為決策發(fā)現(xiàn)提供有效的支持,對社會經(jīng)濟等方面發(fā)展起到關(guān)鍵作用。數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識,將大大提高我們的工作效率和決策的準確性。數(shù)據(jù)挖掘技術(shù)仍未形成統(tǒng)一理論,許多問題在實踐上的可行性不夠,有待進一步發(fā)展與研究。