余奇
隨著數(shù)據(jù)庫(kù)技術(shù)的成熟和數(shù)據(jù)應(yīng)用的普及,人類積累的數(shù)據(jù)量的速度迅速增長(zhǎng)。進(jìn)入21世紀(jì)以后,隨著互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,企業(yè)內(nèi)部網(wǎng)和企業(yè)外部網(wǎng)以及虛擬私有網(wǎng)慢慢的推廣并應(yīng)用了,此后,人們就可以跨越時(shí)空地在網(wǎng)上交換數(shù)據(jù)信息和協(xié)同工作,完成一些之前無法想象的事情。這樣,展現(xiàn)在人們面前的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫(kù),而是大量的數(shù)據(jù),信息的海洋。當(dāng)數(shù)據(jù)量極度增長(zhǎng)時(shí),如果沒有有效的方法,由計(jì)算機(jī)及信息技術(shù)來提取有用信息和知識(shí),只簡(jiǎn)簡(jiǎn)單單地用人腦去面對(duì)海量數(shù)據(jù)時(shí),只能感到束手無策,所以,從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)及其核心技術(shù)——數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。
【關(guān)鍵詞】數(shù)據(jù) 數(shù)據(jù)挖掘過程模型
近年來,數(shù)據(jù)挖掘在信息產(chǎn)業(yè)界和整個(gè)社會(huì)都獲得了極大關(guān)注。因?yàn)閿?shù)據(jù)挖掘技術(shù)可以廣泛使用大量數(shù)據(jù),并且快速將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取了這些信息知識(shí)后在各種應(yīng)用中都可以廣泛運(yùn)用。例如進(jìn)行一定的市場(chǎng)分析、產(chǎn)品控制、顧客保有統(tǒng)計(jì)和科學(xué)探索等等。通俗的說,就像挖掘機(jī)從土山中挖掘土壤一樣,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”特定的知識(shí),并帶有一些智能的檢索、整理功能,也是一種知識(shí)發(fā)現(xiàn)過程的基本步驟。所以,在人們需要大量數(shù)據(jù)、大量知識(shí)或是從大量數(shù)據(jù)與知識(shí)中獲取對(duì)其有用的項(xiàng)目時(shí),往往會(huì)運(yùn)用數(shù)據(jù)挖掘技術(shù)。
1 數(shù)據(jù)挖掘的過程模型
倘若把數(shù)據(jù)挖掘技術(shù)“挖掘”知識(shí)比喻成挖掘機(jī)在挖掘土壤,那么數(shù)據(jù)挖掘的過程模型就是挖掘機(jī)的工作流程,可以有效指導(dǎo)數(shù)據(jù)挖掘技術(shù)進(jìn)行提取、整理數(shù)據(jù)和知識(shí)。數(shù)據(jù)挖掘的流程往往分為下面五個(gè)部分:數(shù)據(jù)庫(kù)模塊、挖掘前處理模塊、挖掘操作模塊、模式評(píng)估模塊、知識(shí)輸出模塊。現(xiàn)今,很多研究人員也提出了各種各樣的數(shù)據(jù)挖掘過程模型,其可以針對(duì)不同的挖掘?qū)ο蟀l(fā)揮不同的作用。
1.1 9步模型(Nine-stepsModel)
如圖1所示,9步模型將數(shù)據(jù)挖掘過程分為了9步,從確定數(shù)據(jù)挖掘目標(biāo)為起點(diǎn),以實(shí)現(xiàn)知識(shí)的發(fā)現(xiàn)為結(jié)束。
(1)定義、理解數(shù)據(jù)挖掘目標(biāo)。首先,展開數(shù)據(jù)挖掘的人需確定數(shù)據(jù)挖掘的目標(biāo)才能進(jìn)行數(shù)據(jù)挖掘工作的開展。
(2)選擇、創(chuàng)建數(shù)據(jù)集。在定義目標(biāo)之后,就需要找出可用的數(shù)據(jù)、獲取額外的輔助數(shù)據(jù)。
(3)數(shù)據(jù)準(zhǔn)備、清洗。在這一步驟中,對(duì)數(shù)據(jù)進(jìn)一步篩選,增強(qiáng)其正確性與可靠性。
(4)數(shù)據(jù)轉(zhuǎn)換。這個(gè)步驟中,可以將已獲得的數(shù)據(jù)轉(zhuǎn)換成挖掘所需的格式,只有格式正確才能方便數(shù)據(jù)的使用。
(5)選擇合適的數(shù)據(jù)挖掘方法。要根據(jù)不同的數(shù)據(jù)挖掘的目標(biāo)來制定不同的數(shù)據(jù)挖掘方法。
(6)選擇數(shù)據(jù)挖掘算法。算法是數(shù)據(jù)挖掘中必不可少的一項(xiàng)技術(shù),要結(jié)合數(shù)據(jù)本身的特點(diǎn)與其用途創(chuàng)建并優(yōu)化算法,才能更加精準(zhǔn)的獲得想要的數(shù)據(jù)。
(7)執(zhí)行數(shù)據(jù)挖掘算法。這一步開始啟用數(shù)據(jù)挖掘算法,并且可能調(diào)整參數(shù)執(zhí)行多次,直到得到滿意的結(jié)果。
(8)結(jié)果評(píng)價(jià)。這一步是在數(shù)據(jù)挖掘完成之后,對(duì)模型進(jìn)行重新分析。重點(diǎn)要關(guān)注模型的有用性和可理解性。然后進(jìn)行歸納與總結(jié)。
(9)使用發(fā)現(xiàn)的知識(shí)。這一步便是數(shù)據(jù)挖掘的最終目的。挖掘數(shù)據(jù)從而利用數(shù)據(jù),使用數(shù)據(jù)。當(dāng)然,知識(shí)數(shù)據(jù)一定要使用恰當(dāng),否則數(shù)據(jù)挖掘再精妙,也是徒勞。
以上步驟只是指導(dǎo)性意見,負(fù)責(zé)人員應(yīng)根據(jù)實(shí)際情況進(jìn)行統(tǒng)籌規(guī)劃。
1.2 CRISP-DM模型
如圖2所示,CRISP-DM數(shù)據(jù)挖掘方法論用層次過程模型描述,包括四個(gè)抽象層次構(gòu)成的任務(wù)集合:階段、一般任務(wù)、具體任務(wù)和過程實(shí)例。在模型的頂層,數(shù)據(jù)挖掘過程由很多階段構(gòu)成。第二層則是一般任務(wù)層,應(yīng)將一般任務(wù)進(jìn)行細(xì)分歸類和頂層進(jìn)行很好的邏輯聯(lián)系,才能確保其完整性與穩(wěn)定性。第三層為具體任務(wù)層,可以展示一般的任務(wù)如何在特定環(huán)境下執(zhí)行。第四層是過程實(shí)例,是有關(guān)一次實(shí)際數(shù)據(jù)挖掘項(xiàng)目的活動(dòng)、決策和結(jié)果的記錄。它表示一個(gè)特定項(xiàng)目中發(fā)生的實(shí)際情況,而不是一般情況。
圖3為CRISP-DM模型的過程描述。該模型將工程分為6個(gè)不同的,但順序并非完全不變的階段。上圖的循環(huán)往復(fù)表示著數(shù)據(jù)挖掘工作的無限性,簡(jiǎn)單來說,挖掘得到的知識(shí)還可以進(jìn)一步挖掘,往往在深度挖掘后,知識(shí)會(huì)更精準(zhǔn)合理。而圖中的箭頭指出了每個(gè)階段之間最重要和頻繁的關(guān)聯(lián)依賴。
2 數(shù)據(jù)挖掘的創(chuàng)新應(yīng)用
2.1 數(shù)據(jù)挖掘在銀行與金融業(yè)的創(chuàng)新應(yīng)用
數(shù)據(jù)挖掘在銀行與金融業(yè)有著廣泛的應(yīng)用。如在銀行業(yè)中,可以通過數(shù)據(jù)挖掘技術(shù)進(jìn)行欺詐檢測(cè)、潛在客戶的風(fēng)險(xiǎn)評(píng)估、趨勢(shì)分析等。在金融領(lǐng)域,用高水平的近似來預(yù)測(cè)股價(jià)和物價(jià)意味著大量的利潤(rùn)。數(shù)據(jù)挖掘中的一種算法——神經(jīng)網(wǎng)絡(luò)算法,被廣泛用于預(yù)測(cè)、股票預(yù)購(gòu)和債券買賣、證券管理和合并與兼并等領(lǐng)域。
2.2 在客戶關(guān)系管理方面
數(shù)據(jù)挖掘可以通過大量數(shù)據(jù),分析出適合客戶的產(chǎn)品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理。舉個(gè)例子,很多時(shí)候,我們會(huì)發(fā)現(xiàn)當(dāng)消費(fèi)者需要一件產(chǎn)品的時(shí)候,這件產(chǎn)品便會(huì)促銷打折,很多人會(huì)認(rèn)為這是巧合,實(shí)際上是依靠數(shù)據(jù)挖掘技術(shù)基于顧客生活周期模型來實(shí)施的。
2.3 在零售業(yè)和市場(chǎng)營(yíng)銷方面
零售業(yè)和市場(chǎng)營(yíng)銷是數(shù)據(jù)挖掘技術(shù)應(yīng)用最早也是最重要的領(lǐng)域,例如超市中的貨架擺放順序、促銷活動(dòng)時(shí)間以及商場(chǎng)活動(dòng)等,都是數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用后的成果。并且,數(shù)據(jù)挖掘技術(shù)還可以進(jìn)行客戶統(tǒng)計(jì)與分析,能提升銷售和廣告業(yè)務(wù)的準(zhǔn)確性與有效性。
3 結(jié)語
本文簡(jiǎn)單闡釋了數(shù)據(jù)挖掘模型的概念,與創(chuàng)新其實(shí)際應(yīng)用距離。在今天這個(gè)互聯(lián)網(wǎng)時(shí)代,隨著數(shù)據(jù)庫(kù)的擴(kuò)大、數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的完善,為了得到有用信息,對(duì)決策進(jìn)行指導(dǎo)。數(shù)據(jù)挖掘,這一高效的技術(shù)應(yīng)用范圍也越來越廣。它也已經(jīng)成為統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等諸多領(lǐng)域的研究者和開發(fā)者的熱點(diǎn)課題之一,而各個(gè)學(xué)科交叉融合更會(huì)會(huì)進(jìn)一步促進(jìn)數(shù)據(jù)挖掘技術(shù)的發(fā)展與繁榮。
參考文獻(xiàn)
[1]陳文偉等.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.
[2]高洪深.決策支持系統(tǒng)[M].北京:清華大學(xué)出版社,2000.
[3]孟曉明.淺談數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2004(08).
作者單位
韓山師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 廣東省潮州市 521000