国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于并行算法的數(shù)據(jù)挖掘平臺研究

2019-01-10 06:40李文明
關(guān)鍵詞:并行算法數(shù)據(jù)處理數(shù)據(jù)挖掘

王 霞, 李文明

(福建船政交通職業(yè)學(xué)院 a.信息工程系; b.航海技術(shù)系,福州 350007)

近年來,隨著IT信息技術(shù)和應(yīng)用的蓬勃發(fā)展,數(shù)據(jù)挖掘平臺的構(gòu)建已經(jīng)發(fā)展成為一個用戶數(shù)量多、信息量巨大的數(shù)據(jù)信息庫[1].隨著網(wǎng)絡(luò)普及,許多用戶已經(jīng)逐漸習(xí)慣網(wǎng)絡(luò)上針對重大數(shù)據(jù)挖掘進(jìn)行討論,分享自己的觀點(diǎn)[2-3].在互聯(lián)網(wǎng)時代,對大數(shù)據(jù)信息進(jìn)行并行化處理是挖掘數(shù)據(jù)的主要方法之一.此方法的實(shí)質(zhì)是依次抽取大數(shù)據(jù),通過對大數(shù)據(jù)的特征值進(jìn)行分析,找到其隨著時間變化而改變自身特性的現(xiàn)象,接著將具有一樣特性的信息數(shù)據(jù)進(jìn)行高效聚合,最后形成數(shù)據(jù)挖掘庫[4].但是,目前學(xué)者的研究大多集中在數(shù)據(jù)批量處理方面,而如何對大數(shù)據(jù)進(jìn)行并行運(yùn)算處理研究的比較少[5].

針對上述問題,本文通過在數(shù)據(jù)挖掘平臺的基礎(chǔ)上進(jìn)行數(shù)據(jù)并行化運(yùn)算,此數(shù)據(jù)挖掘方法伴隨著網(wǎng)絡(luò)大數(shù)據(jù)的不斷增加,用戶開始使用網(wǎng)絡(luò)進(jìn)行信息共享與交流,所以可以通過分析網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)態(tài)勢變化趨向以完成挖掘數(shù)據(jù)價值信息的目的.最后通過實(shí)驗(yàn)結(jié)果驗(yàn)證,本文設(shè)計的算法可高效挖掘出數(shù)據(jù)的價值信息,具有一定的實(shí)用性和價值性.

1 數(shù)據(jù)挖掘平臺的構(gòu)建

1.1 數(shù)據(jù)挖掘的定義

定義1 大數(shù)據(jù)中的數(shù)據(jù)

定義2 序列

E=

其中,ei表示一類數(shù)據(jù)符號,包含一種或多種相似的符號,n為種類的個數(shù).

定義3 并行數(shù)據(jù)挖掘向量

1.2 并行算法的實(shí)現(xiàn)

(1)

對于每個數(shù)據(jù)組特征項,運(yùn)算其在并行處理時間T內(nèi)的值來表示評價其重要程度,選用余弦相似度來分別驗(yàn)算大數(shù)據(jù)占據(jù)的空間及其相似度數(shù)值.數(shù)據(jù)組di和dj的相似度表達(dá)式如下:

S(i,j)i≠j=Sim(di,dj)=

β·SimNE(di,dj)+(1-β)·SimO(di,dj)

(2)

式中,β為平滑系數(shù)且β>0.5.

假如S(i≠j)的中值大小為η,第i個數(shù)據(jù)組d包含的待挖掘數(shù)據(jù)量為μ,數(shù)據(jù)組的平均可挖掘數(shù)據(jù)為ζ,使用Sigmoid函數(shù)對數(shù)據(jù)參考度進(jìn)行設(shè)置:

(3)

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)結(jié)果

假設(shè)數(shù)據(jù)并行運(yùn)算時間T的值設(shè)定為1 h,最短時間間隔t*的數(shù)值為1 min,來驗(yàn)證本文所提算法的實(shí)用性.設(shè)需要使用并行算法進(jìn)行處理的待挖掘數(shù)據(jù)為maxits=1 000,在數(shù)據(jù)聚類中心之間反復(fù)出現(xiàn)的數(shù)據(jù)次數(shù)為convits=20,挖掘數(shù)據(jù)重合度θ1為0.6,采用的余弦相似度的數(shù)值θ2和θ3全部選定0.8,為了驗(yàn)證本文設(shè)計的算法的有效性,在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下,如果使用人工分析數(shù)據(jù)將會耗費(fèi)大量時間,所以,使用從以下幾個指標(biāo)來評價本文算法.

(1)挖掘數(shù)據(jù)覆蓋率

數(shù)據(jù)覆蓋率是本文使用并行算法得到待挖掘數(shù)據(jù)占參考數(shù)據(jù)的比重,它主要能夠反映出并行算法的數(shù)據(jù)運(yùn)算能力.本文在參考各種數(shù)據(jù)處理算法的基礎(chǔ)上,用此算法作為基礎(chǔ)進(jìn)行數(shù)據(jù)運(yùn)算能力的判斷.從并行算法實(shí)現(xiàn)的過程,可以得出該算法能夠挖掘出數(shù)據(jù)的價值信息.所以,使用在實(shí)際數(shù)據(jù)處理中的挖掘數(shù)據(jù)很少會出現(xiàn)遺漏情況.

(2)挖掘數(shù)據(jù)準(zhǔn)確率

準(zhǔn)確率是對并行算法運(yùn)算后得到待挖掘數(shù)據(jù)精準(zhǔn)程度的描述.對于待挖掘數(shù)據(jù)集合,可以隨機(jī)抽取數(shù)據(jù)庫中的50個數(shù)據(jù),經(jīng)過并行運(yùn)算后,對挖掘數(shù)據(jù)的準(zhǔn)確率進(jìn)行比較.各種算法對比結(jié)果如表1所示.

表1 算法準(zhǔn)確率比較

從表1可以得出:本文所提的并行算法的準(zhǔn)確率很高,平均準(zhǔn)確率可達(dá)85%.而與其他四個數(shù)據(jù)處理算法相比,本文算法具有一定優(yōu)勢.

(3)挖掘數(shù)據(jù)運(yùn)算時間

挖掘數(shù)據(jù)處理時間是指從計算機(jī)網(wǎng)絡(luò)獲得的大數(shù)據(jù)與挖掘數(shù)據(jù)價值信息后,將其價值信息進(jìn)行反饋的時間段,它是對并行算法處理數(shù)據(jù)高效率的反映.并行處理挖掘數(shù)據(jù)越短,則表明算法可以迅速的挖掘出數(shù)據(jù)價值信息.

2.2 算法及結(jié)果分析

圖1 各數(shù)據(jù)挖掘算法的效率對比

從圖1的實(shí)驗(yàn)曲線圖可以得出,本文設(shè)計的并行算法能夠迅速的挖掘數(shù)據(jù)平臺的價值信息.實(shí)際上,本算法滿足網(wǎng)絡(luò)上大數(shù)據(jù)實(shí)時在線的請求,在并行算法處理后的大數(shù)據(jù)庫內(nèi)進(jìn)行挖掘數(shù)據(jù)的隨機(jī)抽取,約60%的數(shù)據(jù)被歸類到非挖掘數(shù)據(jù),使得在線處理挖掘數(shù)據(jù)的時間極大地得到了減少.雖然挖掘數(shù)據(jù)平臺一般含有2 000個待挖掘數(shù)據(jù),首先通過主成分分析法對挖掘數(shù)據(jù)進(jìn)行分析,此方法可以減少算法運(yùn)行時間,進(jìn)一步提高并行算法的數(shù)據(jù)處理時間和精確度.從圖1中可以看出,對于相同的數(shù)據(jù)庫,如果數(shù)據(jù)庫相對較小,各算法在處理數(shù)據(jù)的運(yùn)行時間上相差不是很大.但如果增加數(shù)據(jù)規(guī)模,算法的運(yùn)行時間曲線的斜率都會變大,即算法運(yùn)行所用時間減少的的速度將會變大.隨著挖掘數(shù)據(jù)的變多,本文算法的運(yùn)行時間趨于穩(wěn)定,這是因?yàn)楦鲾?shù)據(jù)間的通信隨著挖掘數(shù)據(jù)的增加,計算過程中的額外開銷也會總體較小,況且測試數(shù)據(jù)集本身并不發(fā)生改變,實(shí)驗(yàn)所搭建的集群也不改變,因此運(yùn)行時間的差異逐漸減小.

3 結(jié)論

隨著信息技術(shù)的不斷創(chuàng)新,大數(shù)據(jù)已經(jīng)呈現(xiàn)出爆炸式增長的趨勢,大數(shù)據(jù)產(chǎn)業(yè)同時也經(jīng)歷著從IT到DT的巨大轉(zhuǎn)變.如何提高挖掘大數(shù)據(jù)背后所隱藏的價值信息,成為現(xiàn)階段許多國內(nèi)外研究的一個難題.本文針對大數(shù)據(jù)背景下數(shù)據(jù)挖掘問題,提出了一種高效的數(shù)據(jù)挖掘方法,將并行算法應(yīng)用到數(shù)據(jù)挖掘平臺之中.實(shí)驗(yàn)證明,本文提出的方法具有較高的數(shù)據(jù)處理能力,能夠?qū)τ嬎銠C(jī)網(wǎng)絡(luò)中的大數(shù)據(jù)進(jìn)行在線數(shù)據(jù)挖掘.

猜你喜歡
并行算法數(shù)據(jù)處理數(shù)據(jù)挖掘
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計法*
基于低頻功率數(shù)據(jù)處理的負(fù)荷分解方法
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
地圖線要素綜合化的簡遞歸并行算法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
改進(jìn)型迭代Web挖掘技術(shù)在信息門戶建設(shè)中的應(yīng)用研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn)