陳健
摘要:基于云計(jì)算的海量數(shù)據(jù)挖掘模型中,進(jìn)行海量數(shù)據(jù)的處理和存儲(chǔ)時(shí)都是在云計(jì)算的環(huán)境之中所進(jìn)行的。隨著時(shí)代的不斷發(fā)展所需進(jìn)行數(shù)據(jù)挖掘的數(shù)量也在逐漸增加,這種新的數(shù)據(jù)挖掘方式更加能適應(yīng)時(shí)代的發(fā)展。
關(guān)鍵詞:云計(jì)算;海量數(shù)據(jù)挖掘研究;數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)07-0131-02
隨著時(shí)代的不斷發(fā)展,信息技術(shù)的發(fā)展也越來越快,所產(chǎn)生的數(shù)據(jù)的數(shù)量也在快速上升,據(jù)不完全統(tǒng)計(jì)現(xiàn)今18月的數(shù)據(jù)產(chǎn)生量相當(dāng)與以前幾千年所產(chǎn)生的數(shù)據(jù)量的總和[1]。隨著數(shù)據(jù)產(chǎn)生的量的不斷增多,人們可以得到的信息也在不斷增多,但隨著而來的是從海量數(shù)據(jù)中挖掘有用信息的難度也在不斷的增加?;谠朴?jì)算的海量數(shù)據(jù)挖掘是在云計(jì)算平臺(tái)基礎(chǔ)之上進(jìn)行海量數(shù)據(jù)挖掘,云計(jì)算平臺(tái)可以進(jìn)行動(dòng)態(tài)資源調(diào)度和分配、具有高度虛擬化和高可用性等特點(diǎn)[2],因此可以在很大程度上滿足海量數(shù)據(jù)挖掘的要求。
1 云計(jì)算概述
云計(jì)算從其開發(fā)到現(xiàn)在已經(jīng)有很長一段時(shí)間了,在其運(yùn)用方面仍然還存在一定的問題,因此從其開發(fā)到現(xiàn)在仍然沒有確切的定義。維基百科對其的定義為:云計(jì)算是一種能夠通過互聯(lián)網(wǎng)為用戶提供服務(wù)的計(jì)算模式,云計(jì)算提供的主要是能夠進(jìn)行動(dòng)態(tài)伸縮地虛擬化了的資源,用戶不需要了解如何管理那些支持云計(jì)算的基礎(chǔ)設(shè)施[3]。簡而言之就是可以將云計(jì)算看作一種比較新的商業(yè)模式,在進(jìn)行任務(wù)的處理時(shí)低成本的特點(diǎn),因?yàn)樗诠ぷ鲿r(shí)只需要大量的低成本的相互連接在互聯(lián)網(wǎng)上的計(jì)算機(jī)就可以完成。
2 基于云計(jì)算的海量數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中發(fā)現(xiàn)一些比較新的、有效的或者存在潛在價(jià)值的模式的過程[4]。而對于一個(gè)企業(yè)而言,海量數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出有用的、有價(jià)值的知識(shí),同時(shí)要求數(shù)據(jù)的規(guī)模要盡可能的大,數(shù)據(jù)的規(guī)模越大從中所挖掘的信息的準(zhǔn)確性也就越高。企業(yè)對于數(shù)據(jù)挖掘的要求是非常高的,為了達(dá)到高要求的海量數(shù)據(jù)挖掘的目的,就需要?jiǎng)?chuàng)造出高要求的開發(fā)環(huán)境和應(yīng)用環(huán)境。針對這一情況來說,采用基于云計(jì)算的海量數(shù)據(jù)挖掘是最好的方式,因?yàn)樵朴?jì)算平臺(tái)具有存儲(chǔ)量大、可以進(jìn)行動(dòng)態(tài)資源調(diào)度和分配、高度虛擬化和高可用性等特點(diǎn),采用云計(jì)算技術(shù)來結(jié)合海量數(shù)據(jù)挖掘技術(shù)可以在很大程度上保證數(shù)據(jù)挖掘的高效率和準(zhǔn)確性。
2.2 基于云計(jì)算的海量數(shù)據(jù)挖掘模型
基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)是在云計(jì)算的基礎(chǔ)之上所進(jìn)行的,它主要是通過云計(jì)算的特性來進(jìn)行海量數(shù)據(jù)的挖掘,如圖1所示??梢钥闯?,整個(gè)基于云計(jì)算的海量數(shù)據(jù)挖掘模型總體來說可以分為三個(gè)層次,分別是云計(jì)算服務(wù)層、數(shù)據(jù)挖掘處理層和與用戶層。對于云計(jì)算服務(wù)服層而言,它主要的任務(wù)是提供分布式并行數(shù)據(jù)處理及數(shù)據(jù)的海量存儲(chǔ)。對于數(shù)據(jù)挖掘處理層而言,它主要任務(wù)可以分為兩個(gè)方面:一方面是數(shù)據(jù)的預(yù)處理,其主要內(nèi)容是將海量的數(shù)據(jù)先進(jìn)行預(yù)處理,將一些不規(guī)則的數(shù)據(jù)先進(jìn)行一定的處理方便云計(jì)算進(jìn)行數(shù)據(jù)的處理;一方面是海量數(shù)據(jù)挖掘算法并行化,這是海量數(shù)據(jù)挖掘的關(guān)鍵點(diǎn)。對于用戶層而言,它所面對的是用戶,主要是接收用戶的請求并將其傳送給其他兩層進(jìn)行處理,處理完成以后將結(jié)果反饋給用戶。
3 結(jié)語
隨著時(shí)代的不斷變化,信息技術(shù)的不斷發(fā)展,現(xiàn)如今所產(chǎn)生的數(shù)據(jù)量也在逐年快速增長,傳統(tǒng)的數(shù)據(jù)挖掘方式已經(jīng)逐漸不能跟上時(shí)代的變化了,因此為了改善這一情況就需要改變以往的數(shù)據(jù)挖掘方法了。云計(jì)算技術(shù)是一種很早之前就存在的技術(shù),具有動(dòng)態(tài)資源調(diào)度和分配、高度虛擬化和高可用性等特點(diǎn),與此同時(shí)云計(jì)算在使用時(shí)的效率是非產(chǎn)高的,且所需要的成本也是非常低的,因此將云計(jì)算技術(shù)運(yùn)用到海量數(shù)據(jù)挖掘技術(shù)中可以在很大程度上改善傳統(tǒng)海量數(shù)據(jù)挖掘方式所存在的問題。總的來說,基于云計(jì)算的海量數(shù)據(jù)挖掘是一種非常好的方式來進(jìn)行海量數(shù)據(jù)的處理,并且在未來具有良好的發(fā)展趨勢,雖然云計(jì)算的安全還存在一些問題,但仍然值得推廣和發(fā)展。
參考文獻(xiàn)
[1]丁巖,楊慶平,錢煜明.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,19(1):53-56.
[2]趙華茗. 搭建基于云計(jì)算的開源海量數(shù)據(jù)挖掘平臺(tái)[C].全國計(jì)算機(jī)信息管理學(xué)術(shù)研討會(huì).2010:76-81.
[3]何清,莊福振,曾立,等.PDMiner:基于云計(jì)算的并行分布式數(shù)據(jù)挖掘工具平臺(tái)[J].中國科學(xué):信息科學(xué),2014,44(7):871-885.endprint