朱芷瑩 余思賢
摘 要:當(dāng)今世界正處于從IT時(shí)代向DT時(shí)代邁進(jìn)的過(guò)渡階段,大數(shù)據(jù)時(shí)代。數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)處理技術(shù),其前景非常理想,本文以數(shù)據(jù)挖掘的定義為出發(fā)點(diǎn),細(xì)致的介紹了各種數(shù)據(jù)挖掘的技術(shù)方法,總結(jié)其特點(diǎn),并給出相應(yīng)的應(yīng)用領(lǐng)域。
關(guān)鍵詞:DT時(shí)代;數(shù)據(jù)挖掘;應(yīng)用領(lǐng)域
大數(shù)據(jù)的概念最先出現(xiàn)于網(wǎng)絡(luò)上,它用于描述一個(gè)現(xiàn)象:互聯(lián)網(wǎng)公司日常運(yùn)營(yíng)所產(chǎn)生和積累的客戶數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),導(dǎo)致現(xiàn)有數(shù)據(jù)管理軟件無(wú)法駕馭,其難點(diǎn)在于,數(shù)據(jù)的獲取、存儲(chǔ)、處理和分析。這種數(shù)據(jù)量,不是用日常衡量單位G或T來(lái)衡量,而是P(220G)、E(230G)或Z(240G)或者更大的數(shù)量級(jí)來(lái)度量。所以被稱(chēng)為大數(shù)據(jù)[1]。大數(shù)據(jù)的主要來(lái)源有4個(gè)方面,分別為傳感器、網(wǎng)站點(diǎn)擊流、移動(dòng)設(shè)備和射頻識(shí)別。其特點(diǎn)是數(shù)據(jù)源異構(gòu)復(fù)雜和種類(lèi)繁多、數(shù)據(jù)量體量大、實(shí)時(shí)處理困難。
數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理技術(shù),能有效從大量數(shù)據(jù)中獲取有效信息,能較好針對(duì)大數(shù)據(jù)特點(diǎn),處理大數(shù)據(jù)。因此,其在大數(shù)據(jù)時(shí)代背景下,有遠(yuǎn)大的前景和充足的應(yīng)用空間。
1.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘作為一門(mén)新興的交叉學(xué)科[2],其廣義上的定義為,從數(shù)據(jù)集里面獲取隱晦的有用的信息和知識(shí)的過(guò)程。其操作的核心理念:基于對(duì)數(shù)據(jù)集的深刻認(rèn)識(shí),高度抽象并概括數(shù)據(jù)本質(zhì),將數(shù)據(jù)隱藏的信息變得易于讀取。這些數(shù)據(jù)集往往具有大規(guī)模性、不完全性、參雜噪聲、模糊性和隨機(jī)性的特點(diǎn),涵蓋了大數(shù)據(jù)的特點(diǎn)。所以,數(shù)據(jù)挖掘技術(shù)能很好地應(yīng)對(duì)大數(shù)據(jù)。
數(shù)據(jù)挖掘一般有五個(gè)步驟,分別是數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式評(píng)估和知識(shí)表達(dá)。
1.1數(shù)據(jù)選擇
由于原始數(shù)據(jù)集具有規(guī)模大、參雜噪聲的特點(diǎn),所以必須根據(jù)想要獲取信息的特點(diǎn),選擇相應(yīng)的數(shù)據(jù)集來(lái)進(jìn)行數(shù)據(jù)挖掘操作。這樣可以極大的減少運(yùn)算量,提升挖掘效率。
1.2數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)中各類(lèi)數(shù)據(jù)的單位、量級(jí)通常不同,為保證能快速挖掘出有用信息,必須進(jìn)行數(shù)據(jù)預(yù)處理操作。預(yù)處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約、數(shù)據(jù)離散化等。需要根據(jù)數(shù)據(jù)的特點(diǎn)和挖掘目標(biāo)選擇相應(yīng)的方法。
1.3模式發(fā)現(xiàn)
這是數(shù)據(jù)挖掘過(guò)程的關(guān)鍵環(huán)節(jié),是從預(yù)處理后的數(shù)據(jù)中進(jìn)行知識(shí)發(fā)現(xiàn)的過(guò)程。
1.4模式評(píng)估
這是評(píng)價(jià)環(huán)節(jié),對(duì)發(fā)現(xiàn)的知識(shí)進(jìn)行評(píng)估,得到對(duì)應(yīng)的知識(shí)模式。
1.5知識(shí)表示
這是數(shù)據(jù)挖掘的結(jié)果展示環(huán)節(jié)。將挖掘出的知識(shí)模式通過(guò)直觀感性的方式展示出來(lái),把機(jī)器可讀的數(shù)據(jù)變成人類(lèi)可讀的圖文。
2.數(shù)據(jù)挖掘的技術(shù)方法
數(shù)據(jù)挖掘的技術(shù)方法按模型建立方式的不同,可簡(jiǎn)單歸為兩類(lèi)。一類(lèi)是統(tǒng)計(jì)類(lèi),有聚類(lèi)分析和關(guān)聯(lián)分析等;一類(lèi)是機(jī)器學(xué)習(xí)類(lèi),有監(jiān)督性學(xué)習(xí)和無(wú)監(jiān)督性學(xué)習(xí)。每種方法都有其的功能特點(diǎn)和相應(yīng)的應(yīng)用領(lǐng)域,以下介紹數(shù)據(jù)挖掘中常用的幾種技術(shù)方法。
2.1關(guān)聯(lián)分析
關(guān)聯(lián)分析作為一種有效的數(shù)據(jù)挖掘技術(shù),其主要用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性。其基本思路可用“W->B”表示。其中W指屬性集,B指屬性個(gè)體。操作規(guī)則簡(jiǎn)單來(lái)說(shuō),就是在數(shù)據(jù)集中,W具有真值,則B具有真值的可能性和趨勢(shì)。最典型的關(guān)聯(lián)分析為貨籃分析。其屬性值有兩個(gè),分別是支持度和置信度。這樣W屬性集就由“支持度-置信度”構(gòu)成。比如,在生產(chǎn)過(guò)程中,事件A發(fā)生了,分析事件B發(fā)生的可能性。這個(gè)對(duì)于故障檢測(cè)和維修很有應(yīng)用價(jià)值。關(guān)聯(lián)分析能從關(guān)系數(shù)據(jù)中,獲取感興趣的知識(shí)模式,在眾多行業(yè)中都有應(yīng)用價(jià)值。
2.2 決策樹(shù)
決策樹(shù)主要是根據(jù)數(shù)據(jù)的屬性值來(lái)對(duì)數(shù)據(jù)進(jìn)行分類(lèi),其主要的規(guī)則是“If-then”。它的主要優(yōu)點(diǎn)就是直觀性,可以顯示出得出結(jié)果的決策過(guò)程。這點(diǎn),它優(yōu)于神經(jīng)網(wǎng)絡(luò)。但是,在面對(duì)復(fù)雜的數(shù)據(jù)時(shí),決策樹(shù)會(huì)產(chǎn)生很多的分支,這不便于管理。此外,在面對(duì)數(shù)據(jù)缺值問(wèn)題時(shí),它沒(méi)有較好的處理方法。目前,決策樹(shù)涵蓋的算法有ID3、CART、CHAID、SPRINT和SLIQ。
2.3 遺傳算法
遺傳算法用到了生物學(xué)中的一個(gè)概念--遺傳。物種的繁衍講究適者生存原則,同樣,遺傳算法也有著類(lèi)似原則。其通過(guò)模擬自然界物種的進(jìn)化機(jī)制,逐漸產(chǎn)生最合適的規(guī)則,并組建新群體,而后產(chǎn)生規(guī)則的子體。因此,可利用遺傳算法獲得最佳模型,優(yōu)化數(shù)據(jù)模型。遺傳算法是一種弱方法,對(duì)信息缺少問(wèn)題不敏感,效率高,運(yùn)用也較為靈活,可用于評(píng)估數(shù)據(jù)挖掘算法中的其他算法。
該算法在處理數(shù)據(jù)分類(lèi)問(wèn)題上,極其合適。利用時(shí)間類(lèi)比和空間類(lèi)比的手段,將大量的種類(lèi)豐富的信息數(shù)據(jù)系統(tǒng)化,從而發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),獲得合適的模型。在模型建立時(shí),可以與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,提高模型的可理解性。
2.4貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)作為建立在數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ)上一種方法,其理論依據(jù)就是后驗(yàn)概率的貝葉斯定理。其思路是將不確定事件用網(wǎng)絡(luò)關(guān)聯(lián)起來(lái),從而預(yù)測(cè)相關(guān)事件的發(fā)生概率。其網(wǎng)絡(luò)變量沒(méi)有明確要求,可以可見(jiàn),也可以隱藏于樣本中。其功能有聚類(lèi)、分類(lèi)、預(yù)測(cè)和因果分析。對(duì)比其他算法,貝葉斯網(wǎng)絡(luò)的優(yōu)勢(shì)在于可理解性好、預(yù)測(cè)效果好。不過(guò),對(duì)于低概率事件的處理問(wèn)題,它效果較差。
2.5 粗糙集方法
粗糙集方法作為一種數(shù)學(xué)工具,對(duì)于數(shù)據(jù)挖掘,意義重大。在面對(duì)含糊性的問(wèn)題時(shí),該方法可以找出不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。此外,還可以進(jìn)行特征歸約和相關(guān)性分析的操作。粗糙集主要優(yōu)點(diǎn)在于,不依賴(lài)數(shù)據(jù)的初始或附加信息。這樣,在應(yīng)對(duì)不完整的信息分類(lèi)時(shí),可以采用它。應(yīng)用粗糙集方法,可以極大提高數(shù)據(jù)挖掘的效率。
2.6 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)屬于最常見(jiàn)的數(shù)據(jù)挖掘技術(shù)。其基本思路是,通過(guò)模擬人腦的重復(fù)學(xué)習(xí)方式,對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,最終得到區(qū)分各種樣本的特征和模式。為保證精準(zhǔn)擬合各種樣本數(shù)據(jù),應(yīng)盡量挑選具有代表性的訓(xùn)練樣本集。它的最大特點(diǎn)在于,可理解性差,即無(wú)法知道通過(guò)何種規(guī)則得到這樣的結(jié)果。優(yōu)點(diǎn)在于,能處理復(fù)雜問(wèn)題、對(duì)噪聲數(shù)據(jù)不敏感以及能對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。
2.7 統(tǒng)計(jì)分析
統(tǒng)計(jì)分析是基于統(tǒng)計(jì)學(xué)和概率論的一種數(shù)據(jù)挖掘方法。它是基于數(shù)學(xué)模型的一種方法,具有易于理解,精準(zhǔn)計(jì)算結(jié)果的特點(diǎn)。統(tǒng)計(jì)分析主要包含回歸分析、因子分析和判別分析三種,實(shí)際應(yīng)用空間較大。
3.數(shù)據(jù)挖掘技術(shù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)應(yīng)用的領(lǐng)域很廣泛,下面簡(jiǎn)單的介紹四種應(yīng)用領(lǐng)域。
3.1市場(chǎng)銷(xiāo)售領(lǐng)域[3]
數(shù)據(jù)挖掘技術(shù)最早開(kāi)始應(yīng)用的領(lǐng)域和應(yīng)用最多的領(lǐng)域就是市場(chǎng)銷(xiāo)售,旨在分析消費(fèi)者的消費(fèi)習(xí)慣和特點(diǎn),增加銷(xiāo)售量。同時(shí),也常用發(fā)現(xiàn)潛在客戶,增加行業(yè)效益。常用的數(shù)據(jù)挖掘技術(shù)有關(guān)聯(lián)分析、決策樹(shù)和粗糙集方法[1]。需要注意的一點(diǎn),在對(duì)客戶數(shù)據(jù)進(jìn)行挖掘的同時(shí),注意保護(hù)好客戶信息不泄露,保護(hù)客戶的個(gè)人隱私。
3.2科研領(lǐng)域
分析各種實(shí)驗(yàn)數(shù)據(jù),是科研的必要步驟。數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理技術(shù),經(jīng)常會(huì)被用于分析各種實(shí)驗(yàn)數(shù)據(jù),尋找相關(guān)規(guī)律。在科研領(lǐng)域,數(shù)據(jù)挖掘就是一個(gè)工具,各種技術(shù)方法都會(huì)根據(jù)需要而被使用。
3.3制造領(lǐng)域
生產(chǎn)產(chǎn)品的過(guò)程中,也會(huì)生產(chǎn)出各種數(shù)據(jù)。這些數(shù)據(jù),反映著生產(chǎn)技術(shù)、產(chǎn)品、運(yùn)輸?shù)确矫娴男畔ⅰMㄟ^(guò)使用數(shù)據(jù)挖掘技術(shù),能找出影響產(chǎn)品質(zhì)量和生產(chǎn)效率的因素。消除這些因素,就可提高生產(chǎn)效率和產(chǎn)品質(zhì)量。在制造領(lǐng)域,常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、決策樹(shù)、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)分析。
3.4金融領(lǐng)域
金融行業(yè)的數(shù)據(jù)較為完整、齊全,且金融業(yè)的利潤(rùn)大。因此,數(shù)據(jù)挖掘技術(shù)在這個(gè)行業(yè)里,得到較為成熟的應(yīng)用。其主要通過(guò)數(shù)據(jù)挖掘來(lái)分析市場(chǎng)波動(dòng),建立對(duì)應(yīng)的預(yù)測(cè)模型,給投資分析提供便利。常用的數(shù)據(jù)挖掘技術(shù)有遺傳算法、粗糙集方法、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)分析。
總結(jié)
在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)作為能較好處理大數(shù)據(jù)的工具,其前途不可限量。
參考文獻(xiàn):
[1]唐雅璇, 李麗娟, 吳芬琳. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J]. 電子技術(shù)與軟件工程, 2017(21):159-159.
作者簡(jiǎn)介:
朱芷瑩(1998—),女,漢族,四川成都人,本科在讀,西安財(cái)經(jīng)大學(xué)信息管理與信息系統(tǒng)專(zhuān)業(yè)大三學(xué)生
余思賢(1999—),女,漢族,江西上饒人,本科在讀,西安財(cái)經(jīng)大學(xué)信息管理與信息系統(tǒng)專(zhuān)業(yè)大三學(xué)生