趙 穎
摘要:隨著計算機技術(shù)和信息技術(shù)的發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,如何從中發(fā)現(xiàn)有價值的信息或知識,成為一項非常艱巨的任務(wù)。一種去粗存精、去偽存真,能夠從海量的數(shù)據(jù)中提取知識和信息的數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù),使傳統(tǒng)分析方法遠遠不能滿足現(xiàn)實的需求。面對海量數(shù)據(jù),如何從中發(fā)現(xiàn)有價值的信息或知識,成為一項非常艱巨的任務(wù)。人們急切的需要一種去粗存精、去偽存真的技術(shù),能夠從海量的數(shù)據(jù)中提取知識和信息的數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。于是,人們結(jié)合統(tǒng)計學(xué)、數(shù)據(jù)庫、機器學(xué)習(xí)等技術(shù),提出數(shù)據(jù)挖掘來解決這一難題。
1數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術(shù)和人工智能以及知識工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是一個交叉學(xué)科領(lǐng)域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等技術(shù)。
2 數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘綜合了各個學(xué)科技術(shù),數(shù)據(jù)挖掘的功能主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。
2.1 關(guān)聯(lián)分析(association analysis)
兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
2.2 聚類分析(clustering)
聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。
2.3 時序模式(time-series pattern)
時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。
2.4 分類(classification)
分類就是找出一個類別的概念描述,按照分析對象的屬性、特征,建立不同的組類來描述事物。它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。
2.5 預(yù)測(predication)
預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常用預(yù)測方差來度量。
2.6 偏差分析(deviation)
在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別,對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。
3 數(shù)據(jù)挖掘的方法
傳統(tǒng)統(tǒng)計方法。① 抽樣技術(shù):我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進行合理的抽樣。② 多元統(tǒng)計分析:因子分析,聚類分析等。③ 統(tǒng)計預(yù)測方法,如回歸分析,時間序列分析等。
決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
神經(jīng)網(wǎng)絡(luò)。模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進行調(diào)整,計算,最后得到結(jié)果,用于分類和回歸。神經(jīng)網(wǎng)絡(luò)方法具有處理非線性數(shù)據(jù)和含噪聲數(shù)據(jù)的能力。神經(jīng)網(wǎng)絡(luò)的常用算法包括前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。
遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法、凝聚算法、劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。
粗糙集。粗集理論是一種研究不精確、不確定知識的數(shù)學(xué)工具。粗集方法有幾個優(yōu)點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。目前成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅實的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實用化的難點。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
4數(shù)據(jù)挖掘的主要步驟
數(shù)據(jù)挖掘是一個復(fù)雜的過程,它的一般步驟是:
分析問題。 在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標有明確的定義。
提取、清洗和校驗數(shù)據(jù)。獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,提取的數(shù)據(jù)放在一個結(jié)構(gòu)上與數(shù)據(jù)模型兼容的數(shù)據(jù)庫中。一旦提取和清理數(shù)據(jù)后,瀏覽所創(chuàng)建的模型,以確保所有的數(shù)據(jù)都已經(jīng)存在并且完整。
創(chuàng)建和調(diào)試模型。將算法應(yīng)用于模型后產(chǎn)生一個結(jié)構(gòu),確認它對于源數(shù)據(jù)中"事實"的準確代表性,這是很重要的一點。雖然可能無法對每一個細節(jié)做到這一點,但是通過查看生成的模型,就可能發(fā)現(xiàn)重要的特征。
查詢數(shù)據(jù)挖掘模型的數(shù)據(jù)。一旦建立模型,該數(shù)據(jù)就可用于決策支持了。
維護數(shù)據(jù)挖掘模型。數(shù)據(jù)模型建立好后,初始數(shù)據(jù)的特征,如有效性,可能發(fā)生改變。一些信息的改變會對精度產(chǎn)生很大的影響,因為它的變化影響作為基礎(chǔ)的原始模型的性質(zhì)。因而,維護數(shù)據(jù)挖掘模型是非常重要的環(huán)節(jié)。
結(jié)束語
數(shù)據(jù)挖掘技術(shù)是一個充滿希望的研究領(lǐng)域,越來越多人們已經(jīng)認識到數(shù)據(jù)挖掘技術(shù)能將原始數(shù)據(jù)轉(zhuǎn)換為有意義的形式,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。隨著數(shù)據(jù)挖掘技術(shù)不斷被應(yīng)用到新的領(lǐng)域和各種算法不斷被應(yīng)用到數(shù)據(jù)挖掘領(lǐng)域中,將更大激發(fā)數(shù)據(jù)挖掘技術(shù)的潛力,進一步推進數(shù)挖掘技術(shù)的發(fā)展和普及。
參考文獻
[1]安淑芝等. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘. 北京:清華大學(xué)出版社. 2005-06-01.
[2]Jiawei Han. 數(shù)據(jù)挖掘概念與技術(shù). 機械工業(yè)出版社. 2002. 9 .
[3]徐菁,劉保旭,許榕生. 基于數(shù)據(jù)挖掘技術(shù)的入侵檢測系統(tǒng)設(shè)計與實現(xiàn)[J].計算機工程.
作者簡介:趙穎(1976-),女,黑龍江鶴崗人,講師。