曲萍
摘 要:隨著計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息數(shù)據(jù)在生活中顯示出了越來(lái)越重要的作用,可以說(shuō)大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。因此人們需要高效自動(dòng)化的數(shù)據(jù)分析技術(shù)對(duì)大量冗雜無(wú)規(guī)律的信息進(jìn)行分類管理,數(shù)據(jù)挖掘技術(shù)由此應(yīng)運(yùn)而生。為了更好地利用大數(shù)據(jù)系統(tǒng),該文對(duì)大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析,并列舉了數(shù)據(jù)挖掘技術(shù)在實(shí)際生活領(lǐng)域中的廣泛應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;數(shù)據(jù)挖掘;信息數(shù)據(jù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A
1 大數(shù)據(jù)與數(shù)據(jù)挖掘的相關(guān)概述
1.1 大數(shù)據(jù)的概念及特點(diǎn)
大數(shù)據(jù)的概念最早是麥肯錫研究院在2011年提出的,他們?cè)凇洞髷?shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》中提到,數(shù)據(jù)已經(jīng)融入了人們的日常生活中。通過(guò)對(duì)大數(shù)據(jù)的研究和分析,能夠使人們的消費(fèi)以及生產(chǎn)水平都有一個(gè)跨越式的提升。截止至2018年,全球數(shù)據(jù)量增加了4.8 ZB,換句話說(shuō),世界上的每個(gè)人都具有至少500 GB的數(shù)據(jù)量,而且這一數(shù)據(jù)在未來(lái)的幾年還會(huì)以極快的速度向上增長(zhǎng)。
大數(shù)據(jù)的增長(zhǎng)存在以下4個(gè)方面的挑戰(zhàn):數(shù)據(jù)的含量、數(shù)據(jù)的傳輸速度、數(shù)據(jù)分類的多樣性以及數(shù)據(jù)的真實(shí)性。大量化是大數(shù)據(jù)“量”的特點(diǎn),多樣性特點(diǎn)表現(xiàn)在大數(shù)據(jù)的來(lái)源和格式都多種多樣,數(shù)據(jù)傳輸?shù)乃俣刃员憩F(xiàn)在數(shù)據(jù)產(chǎn)生的速度快、處理要求快,能夠滿足人們?nèi)粘?duì)數(shù)據(jù)及時(shí)性的要求。最后大數(shù)據(jù)的真實(shí)性指的是真正能夠?yàn)槿藗兲峁┓?wù)和幫助的并不是大數(shù)據(jù)的規(guī)模,而是大數(shù)據(jù)的質(zhì)量和真實(shí)程度,真實(shí)性是人們通過(guò)大數(shù)據(jù)制定計(jì)劃決策的前提和基礎(chǔ)。
1.2 數(shù)據(jù)挖掘的概念及意義
數(shù)據(jù)挖掘技術(shù)作為一種新興科技在20世紀(jì)80年代被提出,數(shù)據(jù)挖掘技術(shù)最初是被科學(xué)工作者應(yīng)用在人工智能技術(shù)的開(kāi)發(fā)和利用當(dāng)中的。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)挖掘就是對(duì)大量數(shù)據(jù)進(jìn)行發(fā)掘和創(chuàng)新的過(guò)程,即在大量冗雜、隨機(jī)的數(shù)據(jù)中挖掘出有用的目標(biāo)數(shù)據(jù),創(chuàng)造出挖掘價(jià)值和挖掘潛力。
隨著時(shí)代的發(fā)展以及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,現(xiàn)階段全球數(shù)據(jù)飛速擴(kuò)張,2011年全球數(shù)據(jù)就超過(guò)了1.8萬(wàn)億GB,預(yù)計(jì)幾年過(guò)后這個(gè)數(shù)值會(huì)達(dá)到90萬(wàn)億GB,短短10年時(shí)間增長(zhǎng)了50倍左右,毫無(wú)疑問(wèn)我們已經(jīng)邁入了大數(shù)據(jù)時(shí)代。數(shù)據(jù)挖掘技術(shù)正在發(fā)展成為一種通過(guò)計(jì)算機(jī)技術(shù)對(duì)企業(yè)運(yùn)營(yíng)生產(chǎn)產(chǎn)生重大影響的管理策略,尤其是在信息化發(fā)展和數(shù)據(jù)應(yīng)用較多的領(lǐng)域,數(shù)據(jù)挖掘技術(shù)的應(yīng)用意義更為重大。
2 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的技術(shù)方法
根據(jù)不同的目標(biāo)和需要,找出最為合適的分析方法??傮w來(lái)說(shuō)現(xiàn)階段常用的數(shù)據(jù)挖掘技術(shù)方法有以下幾種。
2.1 聚類分析
聚類分析是一種無(wú)預(yù)期、無(wú)監(jiān)督的分析過(guò)程,它通過(guò)對(duì)某些事物進(jìn)行集合和分組,將類似的事物組成新的集合,并找到其中有價(jià)值的部分。聚類分析的基礎(chǔ)是“物以類聚”,根據(jù)事物的特征將其劃分為不同的類別。
現(xiàn)階段數(shù)據(jù)挖掘領(lǐng)域中較常用的聚類算法包括CURE算法、BIRCH算法以及STING算法。
CURE算法:CURE將每個(gè)數(shù)據(jù)點(diǎn)定義為一簇,然后通過(guò)某一收縮條件對(duì)數(shù)據(jù)點(diǎn)進(jìn)行收縮,這樣相距最近的代表點(diǎn)的簇就會(huì)相互合并,這樣一個(gè)簇就可以通過(guò)多個(gè)代表點(diǎn)進(jìn)行表示,進(jìn)而使CURE能夠適應(yīng)非球形形狀。
BIRCH算法:該算法是一個(gè)綜合的層次聚類分析方法,對(duì)于具有N個(gè)數(shù)據(jù)點(diǎn)的簇{X}(i=1,2,3,4,5…N)其聚類特征向量可以表示為(N,,SS),其中N代表簇中含有點(diǎn)的數(shù)量,向量LS是這N個(gè)點(diǎn)的線性和,SS是各個(gè)數(shù)據(jù)點(diǎn)的平方和。另外,如果兩個(gè)類的聚類特征分別為(N1,S1,SS1)和(N2,S2,SS2),那么這2個(gè)類經(jīng)過(guò)合并后的聚類特征可以表示為(N1+N2,S1+S2,SS1+SS2)。BIRCH算法通過(guò)聚類以上特征可以科學(xué)的對(duì)中心、半徑、直徑以及類間距離進(jìn)行運(yùn)算。
STING算法:STING算法將整體空間劃分為若干個(gè)矩形單元,根據(jù)分辨率的不同,將這些矩形單元分為不同的層次結(jié)構(gòu)。幾個(gè)低層的單元組成了高一層的單元,因此高一層的統(tǒng)計(jì)參數(shù)可以通過(guò)對(duì)低層單元計(jì)算得出。這些統(tǒng)計(jì)參數(shù)包括最大值、最小值、平均數(shù)、標(biāo)準(zhǔn)差等。STING算法的特點(diǎn)是其計(jì)算與統(tǒng)計(jì)查詢是相互獨(dú)立的,因此其運(yùn)算效率較高且易于進(jìn)行并行處理以及增量更新。
2.2 分類預(yù)測(cè)
分類和預(yù)測(cè)是2個(gè)不同的重要步驟,其中分類是對(duì)各個(gè)類別中標(biāo)號(hào)的估計(jì),這些標(biāo)號(hào)是分散并且沒(méi)有規(guī)律的。預(yù)測(cè)則是通過(guò)連續(xù)的函數(shù)值建立的函數(shù)模型。分類是進(jìn)行數(shù)據(jù)挖掘的起始步驟,它是對(duì)可預(yù)測(cè)的數(shù)據(jù)按照相應(yīng)的描述或者特征構(gòu)建有關(guān)的不同區(qū)域;分類的方法有很多種,其中較為常見(jiàn)的包括神經(jīng)網(wǎng)路以及決策樹(shù)等。預(yù)測(cè)主要是以及回歸基礎(chǔ),對(duì)數(shù)據(jù)未來(lái)的動(dòng)態(tài)方向的估計(jì),現(xiàn)階段較為常見(jiàn)的預(yù)測(cè)方法包括回歸分析法和局勢(shì)外推法等。
2.3 關(guān)聯(lián)分析
人們?cè)谌粘Ia(chǎn)生活中不難發(fā)現(xiàn),各個(gè)不同的事物之間是具有盤根錯(cuò)節(jié)的關(guān)聯(lián)的,象一件事件的發(fā)生隨后會(huì)引起一系列相關(guān)事件的發(fā)生,一個(gè)意外的出現(xiàn)也會(huì)引發(fā)更多不同的意外。關(guān)聯(lián)分析法就是通過(guò)對(duì)一系列事件發(fā)生的概率及時(shí)地進(jìn)行分析,找到它們之間的規(guī)律,利用發(fā)現(xiàn)的規(guī)律對(duì)未來(lái)可能發(fā)生的事件進(jìn)行預(yù)估和決策。象著名的沃爾瑪啤酒和紙尿布案例的分析:沃爾瑪營(yíng)銷人員發(fā)現(xiàn)商場(chǎng)內(nèi)部啤酒的銷量和紙尿褲的銷量總是成正比,通過(guò)運(yùn)用關(guān)聯(lián)分析方法得出結(jié)論,嬰兒的父親在購(gòu)買紙尿褲的時(shí)候總是習(xí)慣性的順手買2罐啤酒,根據(jù)這一分析結(jié)果,沃爾瑪將紙尿褲貨架與啤酒貨架擺放在了一起,從而大大促進(jìn)了2種產(chǎn)品的銷量。
3 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1 金融領(lǐng)域
金融行業(yè)需要對(duì)數(shù)據(jù)進(jìn)行大量地收集和處理,通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行分析可以建立某些模型并發(fā)現(xiàn)相應(yīng)的規(guī)律,從而會(huì)發(fā)現(xiàn)一些客戶或者商業(yè)機(jī)構(gòu)的習(xí)慣和興趣,贏得客戶的信任。另外金融機(jī)構(gòu)通過(guò)數(shù)據(jù)挖掘技術(shù)可以更加迅速有效地觀察出金融市場(chǎng)的變化趨勢(shì),在第一時(shí)間贏得機(jī)會(huì)。數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用主要包括賬戶分類、數(shù)據(jù)清理、金融市場(chǎng)預(yù)測(cè)分析以及客戶信用評(píng)估等。
3.2 醫(yī)療領(lǐng)域
醫(yī)療領(lǐng)域也具有大量的數(shù)據(jù)需要處理,與其他行業(yè)不同的是,醫(yī)療領(lǐng)域的數(shù)據(jù)信息由不同的數(shù)據(jù)管理系統(tǒng)進(jìn)行管理,且保存的格式也不盡相同。在醫(yī)療領(lǐng)域中數(shù)據(jù)挖掘最重要的任務(wù)是對(duì)大量的數(shù)據(jù)進(jìn)行清理以及對(duì)醫(yī)療保健所需費(fèi)用進(jìn)行預(yù)測(cè)。
3.3 市場(chǎng)營(yíng)銷領(lǐng)域
大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)在市場(chǎng)營(yíng)銷領(lǐng)域的應(yīng)用,主要體現(xiàn)在對(duì)消費(fèi)者的消費(fèi)習(xí)慣以及消費(fèi)群體消費(fèi)行為的分析上,根據(jù)分析得出的結(jié)果在生產(chǎn)和銷售上進(jìn)行調(diào)整,提升產(chǎn)品的銷售量。另外通過(guò)數(shù)據(jù)挖掘技術(shù)能夠?qū)蛻羧后w進(jìn)行分類識(shí)別,從無(wú)規(guī)則無(wú)序的客戶群體中篩選出有潛力和有高忠誠(chéng)度的客戶,幫助企業(yè)尋找到優(yōu)質(zhì)客戶進(jìn)而對(duì)其進(jìn)行重點(diǎn)維護(hù)。
3.4 教育領(lǐng)域
在教育領(lǐng)域,數(shù)據(jù)挖掘系統(tǒng)也發(fā)揮著不可或缺的作用,通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可以更好地分析出學(xué)生的學(xué)習(xí)程度和學(xué)習(xí)特點(diǎn),教師可以根據(jù)分析數(shù)據(jù)及時(shí)地對(duì)教學(xué)進(jìn)度和教學(xué)內(nèi)容進(jìn)行調(diào)整,另外可以利用數(shù)據(jù)挖掘系統(tǒng)對(duì)學(xué)生的學(xué)習(xí)成績(jī)進(jìn)行分析,充分了解學(xué)生學(xué)習(xí)中的弱點(diǎn),并對(duì)學(xué)習(xí)資源進(jìn)行合理優(yōu)化配置,從整體上提升教學(xué)質(zhì)量。
3.5 科學(xué)研究領(lǐng)域
最后在信息量極為龐大的生物技術(shù)領(lǐng)域以及天文氣象等領(lǐng)域,數(shù)據(jù)挖掘技術(shù)更體現(xiàn)出了其強(qiáng)大、智能化的數(shù)據(jù)分析功能。
4 結(jié)語(yǔ)
總的來(lái)說(shuō),在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)作為一個(gè)新興技術(shù)具有較大的研究?jī)r(jià)值與發(fā)展空間,因此我們應(yīng)該在各個(gè)領(lǐng)域內(nèi)對(duì)該技術(shù)進(jìn)行研究與探索,借助大數(shù)據(jù)系統(tǒng)分析提升各行業(yè)的經(jīng)濟(jì)效益和社會(huì)效益。
參考文獻(xiàn)
[1]肖明.大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在企業(yè)中的應(yīng)用[J].中國(guó)管理信息化,2015(18):58.
[2]楊華坤.大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)探討[J].電腦編程技巧與維護(hù),2015(24):78-79.
[3]宋志秋.大數(shù)據(jù)時(shí)代營(yíng)銷中的數(shù)據(jù)挖掘技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2015(3):209.