牛猛
摘要:數(shù)據(jù)挖掘是集成了多方面技術(shù)的交叉學(xué)科。該文詳細(xì)介紹了分析方法、決策樹、粗糙集法、神經(jīng)網(wǎng)絡(luò)法、遺傳算法、關(guān)聯(lián)規(guī)則、數(shù)據(jù)可視化以及聯(lián)機(jī)分析處理等眾多研究方法;詳細(xì)闡述了類/概念描述、分類和預(yù)測、關(guān)聯(lián)分析、聚類分析和偏差分析等主要挖掘功能。
關(guān)鍵詞:數(shù)據(jù)挖掘;方法;功能
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)14-0006-02
Abstract: Data mining is an interdisciplinary subject which integrates many technologies. This paper introduces numerous research techniques such as the analytic method, decision tree, rough sets method, neural network method, genetic algorithms, association rules,data visualization and online analysis processing in detail. The main mining functions such as class / concept description, classification and prediction, association analysis, clustering analysis and deviation analysis are also described in detail.
Key words: Data mining, Method, Function
1 數(shù)據(jù)挖掘(Data Mining)的簡介
數(shù)據(jù)挖掘是集成了多方面技術(shù)的一門交叉學(xué)科,在數(shù)理統(tǒng)計(jì)、人工智能、知識(shí)工程等領(lǐng)域現(xiàn)有研究成果的基礎(chǔ)上,構(gòu)造自己的理論體系。數(shù)據(jù)挖掘的實(shí)質(zhì)是發(fā)現(xiàn)知識(shí)、獲取有價(jià)值的信息[1],是知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟。
2 數(shù)據(jù)挖掘的方法
(1)分析方法(Analytic Method)
數(shù)據(jù)挖掘的統(tǒng)計(jì)分析方法較多,如描述統(tǒng)計(jì)、概率論、回歸分析、時(shí)間序列分析、多元分析等。
統(tǒng)計(jì)分析方法是利用統(tǒng)計(jì)學(xué)、概率論的原理進(jìn)行分析統(tǒng)計(jì),從而找出相應(yīng)規(guī)律的方法?;貧w分析是通過使用變量之間相互依存的定量關(guān)系來分析和預(yù)測的統(tǒng)計(jì)分析方法;時(shí)間序列分析是按照對象的規(guī)律或趨勢建立時(shí)間序列模型,利用時(shí)間序列模型進(jìn)行分析的方法。多元分析主要對主成分、因子、判別、聚類及典型相關(guān)等進(jìn)行分析的方法,通常用于對多維隨機(jī)變量進(jìn)行分析。
(2)決策樹(Decision Tree)
決策樹是在情況發(fā)生概率已知的前提下,構(gòu)建決策樹來分析項(xiàng)目的概率,用樹形結(jié)構(gòu)圖解評價(jià)是否可行的概率分析方法[2]。
在機(jī)器學(xué)習(xí)領(lǐng)域,決策樹是能進(jìn)行模型預(yù)測的監(jiān)督學(xué)習(xí)方法。優(yōu)點(diǎn)是邏輯上易于描述、理解和實(shí)現(xiàn),數(shù)據(jù)準(zhǔn)備要求低,易于通過測試來預(yù)測模型;缺點(diǎn)是不擅長處理連續(xù)性的數(shù)值,時(shí)順數(shù)據(jù)的預(yù)處理工作較多,類別數(shù)據(jù)越多,導(dǎo)致正確率越低。
常見算法有經(jīng)典的ID3算法、適用于連續(xù)屬性的C4.5算法以及適用于大數(shù)據(jù)集C5.0算法。
(3)粗糙集法(Rough Sets Method)
粗糙集法即粗糙集理論,通常用來處理含糊、不精確、不完備的數(shù)據(jù),能發(fā)現(xiàn)不確定數(shù)據(jù)或者噪聲數(shù)據(jù)內(nèi)在的相關(guān)聯(lián)系,有時(shí)也能用于特征歸約和相關(guān)分析。
粗糙集法的優(yōu)點(diǎn)是簡單、實(shí)用性高,應(yīng)用廣泛。因其對數(shù)據(jù)各方面的要求較低,因此,廣泛應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等不確定、不完整的信息分類和獲取問題;其缺點(diǎn)是難以直接處理連續(xù)的屬性,必須先將連續(xù)屬性離散化。
(4)神經(jīng)網(wǎng)絡(luò)法(Neural Network)
神經(jīng)網(wǎng)絡(luò)法是在神經(jīng)心理學(xué)和認(rèn)知科學(xué)基礎(chǔ)上,使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)而完成學(xué)習(xí)的一種非線性的預(yù)測模型。通過不斷的網(wǎng)絡(luò)學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)法能從未知模式的大量復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)相應(yīng)的規(guī)律和結(jié)果。其優(yōu)點(diǎn)是具有抗干擾性,具有聯(lián)想記憶功能,具有非線性學(xué)習(xí)功能及具有準(zhǔn)確預(yù)測復(fù)雜情況的結(jié)果的功能;其缺點(diǎn)是缺少統(tǒng)計(jì)理論基礎(chǔ),導(dǎo)致解釋性不強(qiáng),因隨機(jī)性較強(qiáng)導(dǎo)致應(yīng)用范圍不廣泛,高維數(shù)值的處理需要較大的人力和時(shí)間。其適用于分類、聚類、特征挖掘等多方面的挖掘任務(wù)[3]。
(5)遺傳算法(Genetic Algorithms)
遺傳算法是通過對生物進(jìn)化論及遺傳學(xué)的自然選擇、遺傳、進(jìn)化、變異等進(jìn)行計(jì)算機(jī)模擬的搜索最優(yōu)解的機(jī)器學(xué)習(xí)方法[4]。其優(yōu)點(diǎn)主要是可以處理多種類型的數(shù)據(jù),能并行處理數(shù)據(jù),能采用動(dòng)態(tài)自適應(yīng)技術(shù);其缺點(diǎn)主要是隨著問題規(guī)模的增加,所需參數(shù)、組合優(yōu)化、搜索空間和計(jì)算量都急劇增大,甚至采用枚舉法都很難求出最優(yōu)解。其適用于機(jī)器學(xué)習(xí)、并行處理、與智能計(jì)算方法融合、與人工生命滲透、與EP和ES結(jié)合等。
(6)關(guān)聯(lián)規(guī)則(Association Rules)
關(guān)聯(lián)規(guī)則是簡單、實(shí)用、易于理解的數(shù)據(jù)挖掘方法,能在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。關(guān)聯(lián)規(guī)則比較經(jīng)典的是對零售業(yè)中的“尿布和啤酒”的分析,其在市場營銷、通訊領(lǐng)域都有廣泛應(yīng)用。挖掘出的規(guī)律,能輔助科學(xué)研究和決策。
常見算法有經(jīng)典的Apriori、ARGen及眾多的功能增強(qiáng)算法。
(7)數(shù)據(jù)可視化(Data Visualization)
數(shù)據(jù)可視化通過采用圖元元素描述數(shù)據(jù)庫中的數(shù)據(jù),并根據(jù)數(shù)據(jù)構(gòu)建數(shù)據(jù)圖像,同時(shí)使用多維數(shù)據(jù)表述數(shù)據(jù)的不同屬性,從而從多個(gè)維度觀察數(shù)據(jù),實(shí)現(xiàn)對數(shù)據(jù)的理解和分析。
數(shù)據(jù)可視化在挖掘系統(tǒng)中融入了人的交互,能極大提升挖掘的速度、層次和內(nèi)容,是數(shù)據(jù)挖掘的研究方向之一。
(8)聯(lián)機(jī)分析處理(On Line Analysis Processing)
聯(lián)機(jī)分析處理簡稱OLAP,是針對大型數(shù)據(jù)庫或數(shù)據(jù)倉庫,支持快速、高效、復(fù)雜的大數(shù)據(jù)量的查詢處理,以提供決策支持的信息分析過程。其主要優(yōu)點(diǎn)是快速性、可分析性、多維性、信息性和共享性等。
OLAP通過對大量的操作數(shù)據(jù)進(jìn)行分析,包括當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù),以提供決策支持。通常需要進(jìn)行大量的查詢操作,對時(shí)間的要求不太嚴(yán)格。其典型的應(yīng)用有銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測等。
(9)其他方法
除以上方法外,數(shù)據(jù)挖掘還有公式發(fā)現(xiàn)、覆蓋正例排斥反例、模糊數(shù)學(xué)、Web頁挖掘等其他方法。
3 數(shù)據(jù)挖掘的功能
(1)類/概念描述(Class/Concept Description)
通過匯總、分析和比較對相關(guān)對象的內(nèi)涵及相應(yīng)特征進(jìn)行總結(jié)性的、簡要的、準(zhǔn)確的描述。類/概念描述可通過數(shù)據(jù)特征化(Data Characterization)、數(shù)據(jù)區(qū)分(Data Discrimination)以及數(shù)據(jù)特征化和區(qū)分獲得,可以是特征性描述,也可以是區(qū)別性描述。特征性描述描述出相關(guān)對象的共同特征,區(qū)別性描述描述出相關(guān)對象之間的差異。數(shù)據(jù)特征輸出形式多種多樣,可采用曲線、條圖、餅圖及多維表等,也可采用泛化關(guān)系或特征性規(guī)則。
(2)分類和預(yù)測(Classification and Prediction)
分類和預(yù)測主要用于處理預(yù)測問題。分類是指將數(shù)據(jù)映射到預(yù)先定義的數(shù)據(jù)類或概念集中。預(yù)測是建立連續(xù)值函數(shù)模型,并用來預(yù)測空缺的或不知道的數(shù)據(jù)值。
在分類和預(yù)測之前,應(yīng)進(jìn)行相關(guān)分析(Relevance Analysis),將排除對分類或預(yù)測過程無用的屬性。
(3)關(guān)聯(lián)分析(Association Analysis)
關(guān)聯(lián)分析是通過挖掘數(shù)據(jù)中的頻繁模式(Frequent Pattern),建立關(guān)聯(lián)規(guī)則(Association Rule)的一種重要的發(fā)現(xiàn)知識(shí)的方法。通過建立的關(guān)聯(lián)規(guī)則,可為某些決策提供支持。關(guān)聯(lián)分簡單、因果、數(shù)量和時(shí)序等[5]。對時(shí)間上存在前后關(guān)系的數(shù)據(jù)項(xiàng)進(jìn)行挖掘,稱之為時(shí)序關(guān)聯(lián)挖掘。對邏輯上存在因果關(guān)系的數(shù)據(jù)項(xiàng)進(jìn)行挖掘,稱之為因果關(guān)聯(lián)挖掘。數(shù)據(jù)項(xiàng)間存在統(tǒng)計(jì)相關(guān)性并不能確定數(shù)據(jù)項(xiàng)間存在因果關(guān)聯(lián);數(shù)據(jù)項(xiàng)間存在因果關(guān)聯(lián)并不能保證數(shù)據(jù)項(xiàng)間存在統(tǒng)計(jì)相關(guān)性。
(4)聚類分析(Clustering Analysis)
聚類分析源于數(shù)學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)以及生物學(xué)等眾多學(xué)科領(lǐng)域,通過描述數(shù)據(jù)項(xiàng)間的相似性從而進(jìn)行分類的探索性分析方法[6]。把數(shù)據(jù)項(xiàng)分類到不同的簇(Cluster),同簇中的個(gè)體存在很大相似性,不同簇間的個(gè)體存在很大差異性。也可作為分類算法、定性歸納算法等的預(yù)處理步驟。
(5)偏差分析(Deviation Analysis)
偏差分析即離群點(diǎn)分析。是依據(jù)數(shù)據(jù)的歷史、現(xiàn)狀以及相應(yīng)標(biāo)準(zhǔn),探索實(shí)際出現(xiàn)明顯偏離或者變化數(shù)據(jù)的分析方法。在實(shí)際結(jié)果出現(xiàn)了偏離預(yù)期較大、分類或模式中出現(xiàn)反常或例外的時(shí)候,均可采用偏差分析。在海關(guān)檢測、銀行欺詐、金融洗錢等領(lǐng)域,發(fā)現(xiàn)偏差數(shù)據(jù)(噪聲或異常數(shù)據(jù))則更具實(shí)際意義。
參考文獻(xiàn):
[1]陳富贊,寇繼凇,王以直.數(shù)據(jù)挖掘方法的研究[J].系統(tǒng)工程與電子技術(shù),2000,22(8):78-81
[2]劉宇陽.一種改進(jìn)的ID3決策樹算法研究[D].哈爾濱:哈爾濱工程大學(xué),2009.
[3]蔡博文.高維數(shù)據(jù)集中離群數(shù)據(jù)挖掘方法的研究[D].合肥:合肥工業(yè)大學(xué),2006.
[4]韓少鋒,陳立潮.數(shù)據(jù)挖掘技術(shù)及應(yīng)用綜述[J].機(jī)械管理開發(fā),2006(1):23-24.
[5]劉永彬.關(guān)聯(lián)規(guī)則分析及其在空間數(shù)據(jù)挖掘中的應(yīng)用研究[D].南寧:廣西大學(xué),2007.
[6]何堃.基于聚類的用戶特征分析[D].揚(yáng)州:揚(yáng)州大學(xué),2008.