錢賀斌
四川師范大學(xué)成都學(xué)院, 四川 成都 611745
隨著互聯(lián)網(wǎng)與信息技術(shù)的發(fā)展,數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,數(shù)據(jù)的爆炸性增長預(yù)示著“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,都將開始這種進(jìn)程。數(shù)據(jù)挖掘正是這一進(jìn)程進(jìn)步發(fā)展的重要力量。
數(shù)據(jù)挖掘,顧名思義就是從大量的數(shù)據(jù)中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、隨機(jī)的、模糊的數(shù)據(jù)中,提取隱含其中的、規(guī)律性的、人們事先未知的、但又是潛在的有用信息和知識的過程。數(shù)據(jù)挖掘是一個(gè)在海量數(shù)據(jù)中利用各種分析工具發(fā)現(xiàn)模型與數(shù)據(jù)間關(guān)系的過程,它可以幫助決策者尋找數(shù)據(jù)間潛在的某種關(guān)聯(lián),發(fā)現(xiàn)被隱藏的、被忽略的因素,因而被認(rèn)為是在這個(gè)數(shù)據(jù)爆炸時(shí)代解決信息貧乏問題的一種有效方法。
數(shù)據(jù)挖掘作為一門交叉學(xué)科,融合了數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等多領(lǐng)域的理論與技術(shù)。數(shù)據(jù)庫、人工智能與數(shù)理統(tǒng)計(jì)為數(shù)據(jù)挖掘的研究提供了三大技術(shù)支持[1]。
數(shù)據(jù)挖掘的最終結(jié)果是從大量數(shù)據(jù)中發(fā)現(xiàn)可用的知識,這一過程一般包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)與解釋三個(gè)階段,如圖1所示。
數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘中的關(guān)鍵一環(huán),它直接影響到數(shù)據(jù)挖掘的效率、精準(zhǔn)度以及所得模式的有效性。該階段可分為數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理三個(gè)子階段。數(shù)據(jù)集成是把多個(gè)不同的數(shù)據(jù)源合并處理成一個(gè)共同的數(shù)據(jù)源,清洗臟數(shù)據(jù)、處理數(shù)據(jù)中的遺漏、解決語義模糊性等。數(shù)據(jù)選擇就是決定并選出需要分析的數(shù)據(jù),即目標(biāo)數(shù)據(jù),縮小處理范圍,提高數(shù)據(jù)挖掘質(zhì)量。數(shù)據(jù)預(yù)處理通常包括消除重復(fù)數(shù)據(jù)、消除噪聲、遺漏數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換等,目的是把數(shù)據(jù)處理成適合于數(shù)據(jù)挖掘的形式,并在數(shù)據(jù)選擇的基礎(chǔ)上對挖掘數(shù)據(jù)做進(jìn)一步的約簡,減少內(nèi)存資源和處理時(shí)間,使挖掘更有效。
數(shù)據(jù)挖掘是根據(jù)數(shù)據(jù)特點(diǎn)和結(jié)果知識表達(dá)方式選定某一適合的數(shù)據(jù)挖掘算法(分類、聚類、回歸、關(guān)聯(lián)等算法),把數(shù)據(jù)中潛在的有用的模式搜索出來。它是整個(gè)挖掘過程中最為關(guān)鍵的一步,也是技術(shù)難點(diǎn)。
結(jié)果表示是把所有最終經(jīng)挖掘發(fā)現(xiàn)的知識直觀地通過可視化技術(shù)展示給用戶,以幫助用戶理解和解釋數(shù)據(jù)挖掘的結(jié)果。若結(jié)果不能滿足挖掘任務(wù)的需要,則需要重新進(jìn)行以上的挖掘過程。
圖1 數(shù)據(jù)挖掘過程圖
在理解數(shù)據(jù)挖掘過程的這三個(gè)步驟時(shí),應(yīng)注意以下幾點(diǎn):第一,數(shù)據(jù)挖掘只是整個(gè)挖掘過程中的關(guān)鍵一步;第二,不但所選用的數(shù)據(jù)挖掘方法可以影響挖掘質(zhì)量的好壞,所挖掘數(shù)據(jù)的數(shù)量和質(zhì)量同樣會決定挖掘結(jié)果的成敗。如果在挖掘過程中選取了不適當(dāng)?shù)纳踔潦清e(cuò)誤的數(shù)據(jù),或者是對數(shù)據(jù)進(jìn)行了錯(cuò)誤的處理,挖掘結(jié)果都不會成功;第三,整個(gè)挖掘過程是一個(gè)不斷反饋、循環(huán)往復(fù)的過程。例如,在挖掘過程中用戶發(fā)現(xiàn)由于目標(biāo)數(shù)據(jù)或者是挖掘方法的原因而產(chǎn)生了不理想的挖掘結(jié)果,此時(shí)都需要重復(fù)以前的挖掘過程,甚至重新開始;第四,在數(shù)據(jù)挖掘的每個(gè)階段,可視化技術(shù)都起著重要作用。在數(shù)據(jù)預(yù)處理階段,為了更好地選取目標(biāo)數(shù)據(jù),用戶需要對所選數(shù)據(jù)有一個(gè)初步的了解,此時(shí)可以用直方圖、散點(diǎn)圖等統(tǒng)計(jì)可視化技術(shù)來顯示相關(guān)數(shù)據(jù);在數(shù)據(jù)挖掘階段,用戶可根據(jù)具體研究領(lǐng)域的不同選擇相關(guān)的可視化工具;在結(jié)果表示階段,可視化技術(shù)的選擇應(yīng)該考慮到可以使發(fā)現(xiàn)的知識易于表達(dá)和理解[2]。
數(shù)據(jù)挖掘功能一般可以分為預(yù)測和描述兩類[3]。預(yù)測性挖掘是對目標(biāo)數(shù)據(jù)進(jìn)行推算處理,進(jìn)而達(dá)到預(yù)測的目的。描述性挖掘則是用來刻畫目標(biāo)數(shù)據(jù)集合的普通特性。概括起來,數(shù)據(jù)挖掘功能主要包含以下幾個(gè)方面:分類、聚類、偏差檢測、概念分析、概念描述、信息摘要、關(guān)聯(lián)分析、時(shí)序演變分析和元數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘功能一般是與目標(biāo)數(shù)據(jù)類型相關(guān)聯(lián)的。一些功能可以用在多種不同的數(shù)據(jù)類型上,而一些功能只能用在某一特定的數(shù)據(jù)類型上。因此在確定數(shù)據(jù)挖掘任務(wù)時(shí),必須綜合考慮目標(biāo)數(shù)據(jù)類型、數(shù)據(jù)挖掘功能和用戶的興趣。
由于數(shù)據(jù)挖掘可以從大量數(shù)據(jù)中發(fā)現(xiàn)原來未知的信息和知識,在當(dāng)下的大數(shù)
據(jù)時(shí)代,它給龐大的數(shù)據(jù)資源賦予了新的含義,它們不再是難以處理的垃圾,而是不可或缺的資源。以下主要從三個(gè)方面介紹數(shù)據(jù)挖掘在一些領(lǐng)域中的應(yīng)用。
(1)在DNA分析中的應(yīng)用
將基因的編碼序列和非編碼序列進(jìn)行區(qū)分是進(jìn)行基因研究的基礎(chǔ),兩種序列的區(qū)分不但需要大量的實(shí)驗(yàn),而且需要繁重的計(jì)算,所以在區(qū)分準(zhǔn)確度和分類方法上如果能夠有所提高,那么對于基因研究的貢獻(xiàn)無疑是巨大的。將編碼序列和非編碼序列進(jìn)行區(qū)分實(shí)質(zhì)是一個(gè)分類問題,分類問題在數(shù)據(jù)挖掘中已經(jīng)有了很多研究,可以使用比較成熟的分類算法對兩種序列進(jìn)行區(qū)分。
某些疾病不只與單個(gè)的基因有關(guān),而是某幾種基因組合起來共同作用的結(jié)果。此時(shí)可以利用數(shù)據(jù)挖掘中關(guān)聯(lián)分析的方法確定在目標(biāo)樣本中同時(shí)出現(xiàn)的基因種類。由此人們可以發(fā)現(xiàn)各基因組以及基因之間的關(guān)系。
(2)在金融業(yè)中的應(yīng)用
由于業(yè)務(wù)需要,金融業(yè)需要收集整理大量數(shù)據(jù),這些數(shù)據(jù)通常比較可靠、完整和高質(zhì)量,跟蹤分析這些數(shù)據(jù)可以發(fā)現(xiàn)隱含其中的數(shù)據(jù)模式及特征,并由此得到某個(gè)客戶或組織的金融和商業(yè)興趣,進(jìn)而察覺到金融市場的變化趨勢。數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用主要包括數(shù)據(jù)清理、金融市場分析與預(yù)測,賬戶分類、銀行擔(dān)保和信用評估等。
(3)在市場業(yè)中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)應(yīng)用在市場業(yè)主要體現(xiàn)在對消費(fèi)者行為分析和對市場定位上。它基于市場營銷學(xué)的市場細(xì)分原理,假定“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。通過收集處理有關(guān)消費(fèi)者消費(fèi)行為的大量信息,掌握特定消費(fèi)個(gè)體或群體的消費(fèi)傾向、消費(fèi)需求和消費(fèi)習(xí)慣,從而確定相應(yīng)個(gè)體或群體下一步的消費(fèi)行為,并以此為基礎(chǔ),對所識別出來的消費(fèi)人群進(jìn)行針對性極強(qiáng)的特定營銷,這與傳統(tǒng)的不針對特定消費(fèi)人群的大規(guī)模營銷手段相比,為企業(yè)大大節(jié)約了營銷成本,獲得了更好的營銷效果,也增加了企業(yè)利潤。
數(shù)據(jù)挖掘的研究如日中天,目前,國內(nèi)外很多公司、大學(xué)和研究機(jī)構(gòu)都非常
看好數(shù)據(jù)挖掘的發(fā)展前景,并且在這個(gè)方面開展了深入研究。今后研究的熱點(diǎn)可能有:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫相結(jié)合的研究,數(shù)據(jù)挖掘與數(shù)據(jù)倉庫一體化的研究;對各種非結(jié)構(gòu)化數(shù)據(jù),如:多媒體數(shù)據(jù)、圖形圖像數(shù)據(jù)和文本數(shù)據(jù)的挖掘;研究Internet上的數(shù)據(jù)挖掘方法;研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言。
數(shù)據(jù)挖掘滿足了大數(shù)據(jù)時(shí)代用戶對信息的需求,隨著大量的基于數(shù)據(jù)挖掘的面向用戶的決策支持產(chǎn)品的不斷問世,數(shù)據(jù)終將與能源、物質(zhì)一樣成為人類不可或缺的重要資源,也只有到那時(shí),信息時(shí)代才會真正到來。
[1]朱玉全,楊鶴標(biāo),孫蕾 數(shù)據(jù)挖掘技術(shù)[M].南京:東南大學(xué)出版社,2006.11
[2]朱明.數(shù)據(jù)挖掘(第二版)[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.11
[3]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào),2004(2):246-252