王婷婷 賀安坤 馬靖 孫求知 李力強(qiáng)
摘 要:分布式數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘技術(shù)中的一種,能夠?qū)植恐R(shí)進(jìn)行整合,從而獲取全局知識(shí),最終提高決策水平。鑒于此,本文對(duì)分布式數(shù)據(jù)挖掘概念進(jìn)行簡(jiǎn)要闡述,并在此基礎(chǔ)上探討兩個(gè)典型分布式數(shù)據(jù)挖掘系統(tǒng)及特點(diǎn),旨在進(jìn)一步提高分布式數(shù)據(jù)挖掘質(zhì)量,最大限度地發(fā)揮其應(yīng)用價(jià)值。
關(guān)鍵詞:分布式;數(shù)據(jù)挖掘;應(yīng)用價(jià)值
中圖分類號(hào):TP311.12 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)08-0035-02
未來(lái)計(jì)算機(jī)技術(shù)與通信技術(shù)的快速發(fā)展,相繼地拓展了移動(dòng)網(wǎng)、互聯(lián)網(wǎng)、廣電網(wǎng)等網(wǎng)絡(luò)及其衍生業(yè)務(wù),從而導(dǎo)致大量分布式數(shù)據(jù)的形成,這些數(shù)據(jù)能夠?yàn)闆Q策提供相應(yīng)的依據(jù)。傳統(tǒng)集中式的數(shù)據(jù)挖掘技術(shù)因其受到網(wǎng)絡(luò)平臺(tái)的兼容性與易購(gòu)性等影響,使其難以適應(yīng)分布式計(jì)算環(huán)境,由此而使得分布式的數(shù)據(jù)挖掘技術(shù)便運(yùn)用而生。但由于分布式的數(shù)據(jù)挖掘技術(shù)應(yīng)用尚不廣泛,大部分并不了解其系統(tǒng)及應(yīng)用狀況,因此需要對(duì)分布式數(shù)據(jù)挖掘技術(shù)進(jìn)行如下探討,以最大限度地提高分布式數(shù)據(jù)挖掘的質(zhì)量。
1 分布式數(shù)據(jù)挖掘概念
1.1 分布式數(shù)據(jù)挖掘定義
分布式數(shù)據(jù)網(wǎng)挖掘的定義為基于網(wǎng)絡(luò)空間的分布式計(jì)算環(huán)境的數(shù)據(jù)挖掘,此外人們還廣泛地認(rèn)為分布式的數(shù)據(jù)挖掘主要是基于分布式計(jì)算方式挖掘網(wǎng)絡(luò)空間內(nèi)的分布式數(shù)據(jù),并且通過整合局部知識(shí)的方式來(lái)獲取全局知識(shí),以此來(lái)為決策提供安全可靠的依據(jù)。數(shù)據(jù)挖掘質(zhì)量的高低,主要取決于局部知識(shí)整合方法和局部知識(shí)質(zhì)量,在局部知識(shí)質(zhì)量較高情況下必然可以保證數(shù)據(jù)挖掘質(zhì)量。
1.2 分布式數(shù)據(jù)挖掘框架
挖掘原則為“全局分布、局部集中”,主要是通過站點(diǎn)間純粹獨(dú)立挖掘方式,但并不都是獨(dú)立挖掘,數(shù)據(jù)挖掘可以利用某些站點(diǎn)進(jìn)行。具體框架圖如圖1所示。
2 兩個(gè)典型分布式數(shù)據(jù)挖掘系統(tǒng)分析
2.1 PADMA系統(tǒng)
PADMA體系主要由用戶接口、數(shù)據(jù)挖掘代理以及協(xié)調(diào)器三個(gè)部分構(gòu)成。其中用戶接口的主要功能是確保用戶與挖掘系統(tǒng)之間的信息交換,協(xié)調(diào)器在進(jìn)行分布式數(shù)據(jù)挖掘時(shí)是接受用戶標(biāo)準(zhǔn)SQL表示的查詢,并且通過廣播的方式對(duì)各個(gè)代理進(jìn)行通知。各個(gè)代理在此基礎(chǔ)上提供其提取到的與該查詢相關(guān)信息,最后通過協(xié)調(diào)器匯集起相關(guān)信息,并將相關(guān)信息提供給用戶數(shù)據(jù)挖掘代理模塊,使其用于數(shù)據(jù)訪問,并在數(shù)據(jù)訪問中獲得有效的高級(jí)信息。而數(shù)據(jù)挖掘代理主要是對(duì)某個(gè)挖掘活動(dòng)時(shí)指定予以完成,并通過協(xié)調(diào)器使數(shù)據(jù)挖掘代理對(duì)信息進(jìn)行共享。協(xié)調(diào)器在PADMA系統(tǒng)中的作用在于對(duì)各個(gè)代理進(jìn)行協(xié)調(diào),然后再將其挖掘到的有效信息向用戶接口提供,最終便能夠?qū)崿F(xiàn)從用戶到代理之間的反饋工作。除此之外,PADMA在實(shí)際應(yīng)用中包括并行數(shù)據(jù)分析、并行數(shù)據(jù)查詢和訪問、交互式聚類數(shù)據(jù)可視化三個(gè)功能。
2.2 CDM系統(tǒng)
CDM系統(tǒng)對(duì)學(xué)習(xí)新方法進(jìn)行了歸納,主要在分布式垂直劃分特征空間中進(jìn)行。其在實(shí)際應(yīng)用中的基本思想按照分布式的方式對(duì)待學(xué)習(xí)函數(shù)采用一組較為合適的基函數(shù)進(jìn)行表示。該系統(tǒng)在實(shí)際應(yīng)用中能夠允許各個(gè)數(shù)據(jù)點(diǎn)選擇不同的學(xué)習(xí)算法,從而便能夠生成整個(gè)數(shù)據(jù)集的全局分布式模式,最后分解整個(gè)建模問題。
一般來(lái)說(shuō),CDM為兩層體系結(jié)構(gòu),但其在實(shí)際應(yīng)用的過程中能夠擴(kuò)充到多層。在建立該體系結(jié)構(gòu)的過程中是將歸納學(xué)習(xí)分解成局部與非局部的基函數(shù)求解基礎(chǔ)上,因而系統(tǒng)便為每個(gè)數(shù)據(jù)點(diǎn)提供了由局部觀測(cè)變量的定義,然后將其用于計(jì)算基函數(shù)與局部分析等相關(guān)程序。最終通過各個(gè)數(shù)據(jù)點(diǎn)選擇通信方式、學(xué)習(xí)算法以及處理方法,能夠?yàn)槊總€(gè)程序分配一個(gè)自治度,此項(xiàng)過程便為軟件數(shù)據(jù)挖掘代理。通常來(lái)說(shuō),各個(gè)軟件代理在實(shí)際應(yīng)用中屬于獨(dú)立無(wú)關(guān)的狀態(tài),但如有必要也會(huì)進(jìn)行相互協(xié)作。
3 分布式數(shù)據(jù)挖掘系統(tǒng)特點(diǎn)
3.1 便于通訊工作
在本系統(tǒng)運(yùn)行的過程中,有效的分布式挖掘系統(tǒng)能夠在各個(gè)站點(diǎn)之間進(jìn)行通訊,通訊工作的完成是基于較高層次。并且該分布式數(shù)據(jù)挖掘系統(tǒng)中所具有的通訊功,能夠?qū)υ紨?shù)據(jù)、挖掘請(qǐng)求及其參數(shù)、挖掘知識(shí)等進(jìn)行方便處理,甚至可以傳送挖掘算法本身。
3.2 實(shí)現(xiàn)集中控制
為了能夠?qū)Ψ植际降臄?shù)據(jù)挖掘系統(tǒng)進(jìn)行更為方便地實(shí)現(xiàn),就必須確保用于集中控制的站點(diǎn)。為了能夠獲得全局知識(shí),在實(shí)際運(yùn)行中需要所有的站點(diǎn)能夠進(jìn)行大量廣播,此種方式會(huì)增加其開銷與難度。除此之外,在一部分分布式的數(shù)據(jù)挖掘算法的過程中還需要對(duì)全局范圍內(nèi)進(jìn)行決策,在引入全局控制站點(diǎn)后便能很好地支持系統(tǒng)的靈活性與可擴(kuò)展性。
3.3 挖掘系統(tǒng)靈活
分布式數(shù)據(jù)挖掘系統(tǒng)在實(shí)際應(yīng)用中能夠?qū)τ脩舻母鞣N數(shù)據(jù)挖掘要求進(jìn)行靈活地響應(yīng),例如能夠挖掘不同位置與不同大小的數(shù)據(jù)庫(kù)等。
3.4 實(shí)現(xiàn)移動(dòng)挖掘
在一部分?jǐn)?shù)據(jù)挖掘算法的過程中,需要挖掘算法順序訪問各個(gè)站點(diǎn)中的數(shù)據(jù)集,這就要求在采用分布式的數(shù)據(jù)挖掘系統(tǒng)中必須能夠支持挖掘算法的移動(dòng)性。這就表明,在本站點(diǎn)當(dāng)一個(gè)算法在一個(gè)站點(diǎn)上完成了數(shù)據(jù)挖掘任務(wù)后,便能夠繼續(xù)移動(dòng)至其它站點(diǎn)上進(jìn)行數(shù)據(jù)挖掘工作。
3.5 實(shí)現(xiàn)知識(shí)共享
在各個(gè)站點(diǎn)之間實(shí)行分布式挖掘的過程中必須要確保采取能夠被理解的知識(shí)形式,主要原因如下:其一,由于在分布式的數(shù)據(jù)挖掘中通常還包括面向知識(shí)挖掘,因此即使在本地知識(shí)基礎(chǔ)上仍然需要對(duì)全局知識(shí)進(jìn)行挖掘,因而這就表明必須在各個(gè)站點(diǎn)間采取同一理解的知識(shí)表達(dá)方式進(jìn)行協(xié)同挖掘工作;其二,由于各個(gè)站點(diǎn)上用戶可能還需要對(duì)其他站點(diǎn)上的知識(shí)進(jìn)行訪問,這就需要在實(shí)際應(yīng)用中采取通用的知識(shí)表示方式。
3.6 保證運(yùn)行安全
在采取分布式系統(tǒng)的過程中,進(jìn)行行數(shù)據(jù)挖掘時(shí)需要嚴(yán)格確保數(shù)據(jù)的安全性。需要考慮到以下幾點(diǎn):其一,數(shù)據(jù)存取的權(quán)限控制;其二,對(duì)知識(shí)存取與傳送的安全;其三,挖掘任務(wù)的設(shè)置權(quán)限。
3.7 容易擴(kuò)展
由于近年來(lái)不斷地出現(xiàn)了數(shù)據(jù)挖掘理論和算法研究新的知識(shí)形式與數(shù)據(jù)挖掘算法,因而在實(shí)際應(yīng)用的過程中為了能夠確保分布式數(shù)據(jù)挖掘系統(tǒng)的可持續(xù)利用,就需要將分布式數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)成容易擴(kuò)展的開放式系統(tǒng)。這項(xiàng)工作便能夠使新的算法與新的知識(shí)形式出現(xiàn)時(shí),該系統(tǒng)仍然能夠通過自身的擴(kuò)展性功能加入這些新的知識(shí)形式與算法中,不需要對(duì)系統(tǒng)進(jìn)行重新編寫或者構(gòu)造。
4 結(jié)語(yǔ)
綜上所述,本文對(duì)分布式數(shù)據(jù)挖掘技術(shù)定義及概念進(jìn)行了簡(jiǎn)要的分析,并在此基礎(chǔ)上對(duì)現(xiàn)階段兩種主要的分布式數(shù)據(jù)挖掘系統(tǒng)及特點(diǎn)進(jìn)行了深入探討,主要目的在于進(jìn)一步提高分布式數(shù)據(jù)挖掘的質(zhì)量與效率。但是需要注意的是,對(duì)于新建的分布式數(shù)據(jù)挖掘系統(tǒng)而言,因其與傳統(tǒng)相關(guān)系統(tǒng)有所不同,這就要求在應(yīng)用該系統(tǒng)前對(duì)其進(jìn)行仿真實(shí)驗(yàn),并對(duì)系統(tǒng)的可行性進(jìn)行驗(yàn)證,在確保該系統(tǒng)具有高可靠性后方能正式使用。
參考文獻(xiàn)
[1]張良防.基于用戶行為的數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué),2017.
[2]尚斯年.基于云計(jì)算分布式技術(shù)的海量AIS數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].大連海事大學(xué),2017.
[3]萬(wàn)新貴.分布式數(shù)據(jù)流聚類算法研究與應(yīng)用[D].南京郵電大學(xué),2017.
[4]余永紅,向曉軍,高陽(yáng),商琳,楊育彬.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索,2012,6(01):46-57.
[5]王建君.分布式數(shù)據(jù)挖掘研究[J].電子商務(wù),2017,(07):41-42.
[6]賈哲.分布式環(huán)境中信息挖掘與隱私保護(hù)相關(guān)技術(shù)研究[D].北京郵電大學(xué),2012.