□ 井 力
隨著互聯(lián)網(wǎng)的普及,人們逐漸進(jìn)入了信息化時(shí)代,人們每天都會(huì)接觸到各種各樣大量的信息。與此同時(shí),企業(yè)、科研機(jī)構(gòu)、政府部門等都有了更多的機(jī)會(huì)接觸到大量的信息,將這些信息存儲(chǔ)在數(shù)據(jù)庫中,使得數(shù)據(jù)庫的規(guī)模、廣度和深度都在不斷擴(kuò)大,從而形成了海量的,不同形式的數(shù)據(jù)資料。那么問題來了,如何從這些海量數(shù)據(jù)中提取出有價(jià)值的信息從而避免“數(shù)據(jù)豐富但信息貧乏”的現(xiàn)象?數(shù)據(jù)挖掘技術(shù)就是解決這一問題而迅速發(fā)展起來的數(shù)據(jù)處理技術(shù)。而且這一技術(shù)已經(jīng)應(yīng)用于許多領(lǐng)域,給這些領(lǐng)域產(chǎn)生了重大影響。
數(shù)據(jù)挖掘這一概念源于著名的“尿布和啤酒”現(xiàn)象:沃爾瑪通過大量的數(shù)據(jù)發(fā)現(xiàn)了一個(gè)現(xiàn)象,下班的男人去超市給孩子買尿布的時(shí)候喜歡順手買幾瓶啤酒,于是沃爾瑪就把尿布和啤酒擺在一起捆綁銷售,結(jié)果大大提高了銷量。這個(gè)實(shí)例中沃爾瑪基于大量的數(shù)據(jù)分析,發(fā)現(xiàn)了關(guān)于銷售的有價(jià)值的信息,結(jié)果大大提高了銷售量,這就是著名的數(shù)據(jù)挖掘的實(shí)例。
數(shù)據(jù)挖掘(Date Mining,DM)就是從龐大的數(shù)據(jù)庫中挖掘出人們感興趣的知識(shí)和信息。這些知識(shí)和信息有:概念、規(guī)則、規(guī)律和模式等,并且這些知識(shí)和信息是隱含的、事先未知的潛在有用信息。數(shù)據(jù)挖掘所做的事情就是從龐大的數(shù)據(jù)庫中挖掘出有價(jià)值的隱藏的信息,將這些信息加以評(píng)估和總結(jié),然后將評(píng)估和總結(jié)的結(jié)果提供給有關(guān)部門在決策時(shí)進(jìn)行參考。
數(shù)據(jù)挖掘不是對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行簡單的檢索和查詢,而是面對(duì)海量的信息進(jìn)行統(tǒng)計(jì)、分類以及進(jìn)一步分析從而得出有價(jià)值的信息。數(shù)據(jù)挖掘領(lǐng)域是一門綜合性的領(lǐng)域,它綜合了數(shù)據(jù)庫、人工智能以及應(yīng)用了統(tǒng)計(jì)學(xué)的相關(guān)方法。
(一)數(shù)據(jù)挖掘的過程。
1.?dāng)?shù)據(jù)輸入。數(shù)據(jù)挖掘系統(tǒng)首先要進(jìn)行數(shù)據(jù)輸入,一方面挖掘系統(tǒng)可以利用數(shù)據(jù)庫中的查詢語言(SQL語言)從數(shù)據(jù)庫中抽取數(shù)據(jù)。另一方面信息分析員可以完成數(shù)據(jù)的輸入,信息分析員可以更加細(xì)致地輸入數(shù)據(jù)的結(jié)構(gòu)、層次以及相應(yīng)的規(guī)則,而這種方式則更為有效具體。
2.?dāng)?shù)據(jù)選擇。此過程根據(jù)相應(yīng)的指導(dǎo)規(guī)則從輸入的數(shù)據(jù)中更精確地選擇模式識(shí)別和關(guān)系識(shí)別算法所需要的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型。
3.模式識(shí)別和關(guān)系識(shí)別。挖掘系統(tǒng)選擇相應(yīng)的模式識(shí)別和關(guān)系識(shí)別算法,加上系統(tǒng)已經(jīng)選擇的數(shù)據(jù),從而發(fā)現(xiàn)這些元數(shù)據(jù)間的模式和關(guān)系,從而抽取有價(jià)值的信息。
4.發(fā)現(xiàn)描述。此過程將模式識(shí)別和關(guān)系識(shí)別過程中識(shí)別的元數(shù)據(jù)之間的模式和關(guān)系進(jìn)行分析以及可視化描述,然后將關(guān)注性的發(fā)現(xiàn)結(jié)果保存以備使用,最后將發(fā)現(xiàn)結(jié)果轉(zhuǎn)換成可行性的建議以供決策層參考。
(二)數(shù)據(jù)挖掘的技術(shù)。數(shù)據(jù)挖掘的關(guān)鍵技術(shù)就是選擇相應(yīng)的算法進(jìn)行模式識(shí)別和關(guān)系識(shí)別。
1.決策樹方法。決策樹方法是利用樹來逼近離散的目標(biāo)函數(shù)的方法。樹由根節(jié)點(diǎn)和葉子節(jié)點(diǎn)組成,每一個(gè)葉子節(jié)點(diǎn)是實(shí)例的一個(gè)屬性的測試,而它的后繼節(jié)點(diǎn)對(duì)應(yīng)該屬性的一個(gè)可能的值。分類一個(gè)實(shí)例的時(shí)候從根節(jié)點(diǎn)開始對(duì)這個(gè)實(shí)例進(jìn)行指定節(jié)點(diǎn)的屬性測試,然后將測試出來的值和后繼節(jié)點(diǎn)進(jìn)行對(duì)比進(jìn)而選擇后繼節(jié)點(diǎn),這樣不斷地一層一層地精確分類。這種方法主要針對(duì)數(shù)據(jù)的分類,常用的算法有:Classification and Regression Trees(CART),AC2,CN2 和 ID3。
2.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)方法是模擬人的大腦的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及部分工作機(jī)制所建立起來的一種非線性的預(yù)測模型。這種方法模擬人的大腦功能,使其具有分布存儲(chǔ)、聯(lián)想記憶、大規(guī)模并行處理、自我學(xué)習(xí)、自我組織和自我適應(yīng)的功能,因此其可以通過自己學(xué)習(xí)來識(shí)別相對(duì)應(yīng)的模式。與傳統(tǒng)的分析方法相比,這種方法的好處是分析的時(shí)候不用進(jìn)行模式設(shè)定,它可以自動(dòng)識(shí)別模式,但缺點(diǎn)是這一分析的過程是無法展示出來的,每個(gè)階段所做的操作也無法明顯地展示出來。因此,資料具有高度非線性化,變量有相當(dāng)程度交互效應(yīng)特點(diǎn)的資料一般會(huì)用這種方法處理。
3.遺傳算法。遺傳算法模擬生物進(jìn)化的過程,它的基本觀點(diǎn)是生物進(jìn)化論的觀點(diǎn)“適者生存”。遺傳算法的基本操作有三個(gè),分別是選擇,交叉重組和突變。選擇是從舊的種群中選擇生命力很強(qiáng)的個(gè)體,淘汰生命力差的個(gè)體從而形成新的種群的過程;交叉重組是將兩種不同個(gè)體的染色體上的基因部分進(jìn)行交換從而形成新的物種的過程;變異是某些個(gè)體的基因發(fā)生突變從而產(chǎn)生新的物種的過程。而數(shù)據(jù)挖掘的過程就是模仿生物進(jìn)化的過程反復(fù)進(jìn)行選擇,交叉重組和突變這三種操作最后找到最優(yōu)解。
4.關(guān)聯(lián)發(fā)現(xiàn)。數(shù)據(jù)關(guān)聯(lián)是指數(shù)據(jù)中的兩個(gè)或多個(gè)變量的取值之間存在著某種規(guī)律性的特征,關(guān)聯(lián)發(fā)現(xiàn)所做的就是發(fā)現(xiàn)這種規(guī)律性的特征,挖掘出數(shù)據(jù)之間有趣的關(guān)聯(lián)或者相關(guān)關(guān)系。最經(jīng)典的關(guān)聯(lián)發(fā)現(xiàn)的算法是Apriori,該算法的過程如下:首先該算法挖掘出所有的頻繁項(xiàng)集,然后從頻繁項(xiàng)集中產(chǎn)生關(guān)聯(lián)規(guī)則。利用這種算法挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,只有經(jīng)過有效的評(píng)價(jià)和篩選,才能真正找到有意義的關(guān)聯(lián)規(guī)則。
5.聚類分析。聚類方法探討的是樣本間的內(nèi)部關(guān)系,它根據(jù)所選的樣本間的關(guān)聯(lián)標(biāo)準(zhǔn)將其劃分為幾個(gè)組,使得同組內(nèi)的樣本具有很高的相似度,不同組的樣本則相異。常用的聚類分析算法有K均值和DBSCAN算法。
6.統(tǒng)計(jì)方法。在數(shù)據(jù)挖掘中許多判別和回歸分析方法都是以數(shù)據(jù)統(tǒng)計(jì)為基礎(chǔ)的,傳統(tǒng)的統(tǒng)計(jì)分析可用于分類挖掘和聚類挖掘,如今最具影響力的統(tǒng)計(jì)軟件有 SAS,SPSS和BMDP?;貧w分析用來找到關(guān)于輸入變量和輸出變量關(guān)系的一個(gè)最佳模型,回歸分析有線性回歸,對(duì)數(shù)回歸,方差分析,這些都是數(shù)據(jù)挖掘應(yīng)用中有力的工具。
(一)數(shù)據(jù)挖掘在金融領(lǐng)域的應(yīng)用。金融業(yè)務(wù)需要收集、存儲(chǔ)、處理大量的數(shù)據(jù),這些數(shù)據(jù)很難通過人工進(jìn)行處理,而且與其他行業(yè)相比,金融行業(yè)的數(shù)據(jù)較為完整,數(shù)據(jù)的質(zhì)量較高,因此數(shù)據(jù)挖掘已經(jīng)較為成熟地應(yīng)用于金融領(lǐng)域。在客戶關(guān)系管理、風(fēng)險(xiǎn)識(shí)別與管理、市場趨勢(shì)預(yù)測、識(shí)別金融欺詐等經(jīng)濟(jì)犯罪方面,數(shù)據(jù)挖掘起了非常重要的作用,并且取得了很好的社會(huì)效益和經(jīng)濟(jì)效益。
(二)數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用。電子商務(wù)是指商家的業(yè)務(wù)活動(dòng)是以數(shù)字化的電子方式進(jìn)行商務(wù)數(shù)據(jù)的交換和開展的。電子商務(wù)產(chǎn)生的海量數(shù)據(jù)具有不確定性、無結(jié)構(gòu)或者半結(jié)構(gòu)性、動(dòng)態(tài)性等特點(diǎn),利用人工分析這些數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。數(shù)據(jù)挖掘技術(shù)應(yīng)用于這一領(lǐng)域,更好地挖掘出這些數(shù)據(jù)背后隱藏的模式、趨勢(shì)和規(guī)律性的知識(shí),企業(yè)可以根據(jù)挖掘出來的這些信息優(yōu)化決策,更好地識(shí)別客戶需求和市場趨勢(shì),獲得更大的競爭優(yōu)勢(shì)。
(三)數(shù)據(jù)挖掘在電子政務(wù)領(lǐng)域的應(yīng)用。電子政務(wù)就是政府部門利用現(xiàn)代網(wǎng)絡(luò)技術(shù),在Internet上優(yōu)化重組政府的組織結(jié)構(gòu)和工作流程。近年來隨著電子政務(wù)相關(guān)技術(shù)的成熟,電子政務(wù)也產(chǎn)生了十分龐大的信息量,利用數(shù)據(jù)挖掘技術(shù),高效準(zhǔn)確地提取了數(shù)據(jù),提高了決策的科學(xué)性和規(guī)范性,進(jìn)一步提高了政府的辦公效率。
數(shù)據(jù)挖掘雖然出現(xiàn)的時(shí)間不長,但其廣闊的研究前景已經(jīng)吸引了眾多的研究人員,成為國際研究的一個(gè)熱點(diǎn)。如今數(shù)據(jù)挖掘技術(shù)很好地應(yīng)用于金融、電子商務(wù)、電子政務(wù)等領(lǐng)域,但是還遠(yuǎn)遠(yuǎn)沒有普及。并且數(shù)據(jù)挖掘技術(shù)也存在一些問題,例如挖掘算法的可行性和有效性還值得我們進(jìn)一步研究和探討。但是隨著挖掘技術(shù)應(yīng)用的經(jīng)驗(yàn)積累,硬件的發(fā)展,數(shù)據(jù)挖掘技術(shù)將更進(jìn)一步發(fā)展,也會(huì)更好地應(yīng)用于更多的領(lǐng)域,促進(jìn)社會(huì)的發(fā)展。
[1]王桂芹,黃道.?dāng)?shù)據(jù)挖掘技術(shù)綜述[J].電腦應(yīng)用技術(shù),2007,69
[2]賀清碧,胡久永.?dāng)?shù)據(jù)挖掘技術(shù)綜述[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,1
[3]楊玉珠.?dāng)?shù)據(jù)挖掘技術(shù)綜述與應(yīng)用[J].河南科技,2014,10