国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于現(xiàn)代云環(huán)境的數(shù)據(jù)挖掘算法的并行化探討

2014-07-09 02:00張小軍金志偉張浩
科技創(chuàng)新與應(yīng)用 2014年20期

張小軍+金志偉+張浩

摘 要:在當(dāng)前信息化的時代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場競爭力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運營和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計算機網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱知識發(fā)現(xiàn),是計算機科學(xué)與統(tǒng)計學(xué)的一個交叉點,主要是指從不同的角度,對數(shù)據(jù)進行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過對企業(yè)在商業(yè)活動中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個方面:

1.1 分類分析

分類分析,是指對數(shù)據(jù)信息進行分類處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實現(xiàn)對未知數(shù)據(jù)類型的預(yù)測。分類的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對數(shù)據(jù)進行分類。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類模型是樸素貝葉斯模型和決策樹模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對未知數(shù)據(jù)或者模糊數(shù)據(jù)進行推導(dǎo)和預(yù)測。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對關(guān)聯(lián)規(guī)則進行研究時,通常也是在該算法的基礎(chǔ)上進行修改和擴展。但是,Apriori算法在對支持度進行計算時,需要對數(shù)據(jù)庫進行多次全面掃描,生成的候選集存在較多的冗雜項,因此存在一定的性能瓶頸,需要進行改進和解決。

1.3 聚類分析

聚類分析是一種具有良好實用性的數(shù)據(jù)挖掘技術(shù),可以對無規(guī)律的數(shù)據(jù)進行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類分析,實際上是通過觀察以及非示例性的學(xué)習(xí),完成對于數(shù)據(jù)對象的分類,以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識水平的英系那個,可能造成算法性能的不穩(wěn)定或者聚類結(jié)果的偏差,因此在利用時需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時代,面對海量的數(shù)據(jù)處理問題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問題,針對算法的性能瓶頸進行改進,使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實意義。

云計算是隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來的,是一種基于互聯(lián)網(wǎng)的計算方式,能夠結(jié)合用戶的實際需求,對于服務(wù)器、存儲、軟件、服務(wù)和網(wǎng)絡(luò)等資源進行動態(tài)分配,通過合理有效的設(shè)計和調(diào)整,使得資源的利用率達到最高。在云計算背景下,可以提供高效的并行化計算能力,從而提高數(shù)據(jù)挖掘的高效性和實用性,方便對于海量數(shù)據(jù)的處理。

這里主要針對MC-Apriori算法的并行化改進進行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來說,都是在Apriori算法的基礎(chǔ)上,進行改進和創(chuàng)新,這些算法主要是針對原有算法中存在的問題的改進,屬于一種串行算法。這些改進后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機算法對于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計算,對數(shù)據(jù)挖掘算法進行改進。描述如下:

設(shè)計算機集群中n臺計算機節(jié)點N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個節(jié)點存放子事務(wù)數(shù)據(jù)庫Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計算理論,對現(xiàn)有的關(guān)聯(lián)規(guī)則算法進行改進,可以實行多種新的算法,這些算法的并行點多在候選集和頻繁集計算。主要包括以下幾種:

(1)CD算法:這種算法是對Apriori算法的簡單并行,主要是將事務(wù)數(shù)據(jù)庫分到n個節(jié)點,然后在單個節(jié)點,運行Apriori算法,每一個節(jié)點的候選集支持度計算,最后,進行全局同步以及共享計數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒有對內(nèi)存進行有效利用。

(2)DD算法:DD算法是通過循環(huán)的方式,將候選集分配到多個節(jié)點,之后在單個節(jié)點上對候選集的支持度進行計算,需要使用其他節(jié)點的數(shù)據(jù)集時,可以通過網(wǎng)絡(luò)進行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計數(shù),但是,在實用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實現(xiàn)并行化運算,主要是在單機的情況下,結(jié)合計算項的個數(shù),對1-頻繁集進行計算,生成相應(yīng)的k-1-候選集,并通過對候選集的修剪,得到k頻繁集。在對候選集的支持度進行計算的過程中,可以并行化處理,在多個節(jié)點對本地候選集的本地支持度進行計數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個頻繁項集對應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個事務(wù)數(shù)據(jù)最好可以保存在單個數(shù)據(jù)塊中。

3 結(jié)束語

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對其進行改進。本文針對現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進行了分析和探討,希望能夠為相關(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計算,數(shù)據(jù)挖掘,通信技術(shù),職稱:講師。endprint

摘 要:在當(dāng)前信息化的時代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場競爭力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運營和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計算機網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱知識發(fā)現(xiàn),是計算機科學(xué)與統(tǒng)計學(xué)的一個交叉點,主要是指從不同的角度,對數(shù)據(jù)進行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過對企業(yè)在商業(yè)活動中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個方面:

1.1 分類分析

分類分析,是指對數(shù)據(jù)信息進行分類處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實現(xiàn)對未知數(shù)據(jù)類型的預(yù)測。分類的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對數(shù)據(jù)進行分類。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類模型是樸素貝葉斯模型和決策樹模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對未知數(shù)據(jù)或者模糊數(shù)據(jù)進行推導(dǎo)和預(yù)測。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對關(guān)聯(lián)規(guī)則進行研究時,通常也是在該算法的基礎(chǔ)上進行修改和擴展。但是,Apriori算法在對支持度進行計算時,需要對數(shù)據(jù)庫進行多次全面掃描,生成的候選集存在較多的冗雜項,因此存在一定的性能瓶頸,需要進行改進和解決。

1.3 聚類分析

聚類分析是一種具有良好實用性的數(shù)據(jù)挖掘技術(shù),可以對無規(guī)律的數(shù)據(jù)進行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類分析,實際上是通過觀察以及非示例性的學(xué)習(xí),完成對于數(shù)據(jù)對象的分類,以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識水平的英系那個,可能造成算法性能的不穩(wěn)定或者聚類結(jié)果的偏差,因此在利用時需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時代,面對海量的數(shù)據(jù)處理問題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問題,針對算法的性能瓶頸進行改進,使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實意義。

云計算是隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來的,是一種基于互聯(lián)網(wǎng)的計算方式,能夠結(jié)合用戶的實際需求,對于服務(wù)器、存儲、軟件、服務(wù)和網(wǎng)絡(luò)等資源進行動態(tài)分配,通過合理有效的設(shè)計和調(diào)整,使得資源的利用率達到最高。在云計算背景下,可以提供高效的并行化計算能力,從而提高數(shù)據(jù)挖掘的高效性和實用性,方便對于海量數(shù)據(jù)的處理。

這里主要針對MC-Apriori算法的并行化改進進行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來說,都是在Apriori算法的基礎(chǔ)上,進行改進和創(chuàng)新,這些算法主要是針對原有算法中存在的問題的改進,屬于一種串行算法。這些改進后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機算法對于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計算,對數(shù)據(jù)挖掘算法進行改進。描述如下:

設(shè)計算機集群中n臺計算機節(jié)點N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個節(jié)點存放子事務(wù)數(shù)據(jù)庫Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計算理論,對現(xiàn)有的關(guān)聯(lián)規(guī)則算法進行改進,可以實行多種新的算法,這些算法的并行點多在候選集和頻繁集計算。主要包括以下幾種:

(1)CD算法:這種算法是對Apriori算法的簡單并行,主要是將事務(wù)數(shù)據(jù)庫分到n個節(jié)點,然后在單個節(jié)點,運行Apriori算法,每一個節(jié)點的候選集支持度計算,最后,進行全局同步以及共享計數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒有對內(nèi)存進行有效利用。

(2)DD算法:DD算法是通過循環(huán)的方式,將候選集分配到多個節(jié)點,之后在單個節(jié)點上對候選集的支持度進行計算,需要使用其他節(jié)點的數(shù)據(jù)集時,可以通過網(wǎng)絡(luò)進行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計數(shù),但是,在實用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實現(xiàn)并行化運算,主要是在單機的情況下,結(jié)合計算項的個數(shù),對1-頻繁集進行計算,生成相應(yīng)的k-1-候選集,并通過對候選集的修剪,得到k頻繁集。在對候選集的支持度進行計算的過程中,可以并行化處理,在多個節(jié)點對本地候選集的本地支持度進行計數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個頻繁項集對應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個事務(wù)數(shù)據(jù)最好可以保存在單個數(shù)據(jù)塊中。

3 結(jié)束語

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對其進行改進。本文針對現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進行了分析和探討,希望能夠為相關(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計算,數(shù)據(jù)挖掘,通信技術(shù),職稱:講師。endprint

摘 要:在當(dāng)前信息化的時代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場競爭力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運營和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計算機網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱知識發(fā)現(xiàn),是計算機科學(xué)與統(tǒng)計學(xué)的一個交叉點,主要是指從不同的角度,對數(shù)據(jù)進行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過對企業(yè)在商業(yè)活動中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個方面:

1.1 分類分析

分類分析,是指對數(shù)據(jù)信息進行分類處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實現(xiàn)對未知數(shù)據(jù)類型的預(yù)測。分類的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對數(shù)據(jù)進行分類。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類模型是樸素貝葉斯模型和決策樹模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對未知數(shù)據(jù)或者模糊數(shù)據(jù)進行推導(dǎo)和預(yù)測。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對關(guān)聯(lián)規(guī)則進行研究時,通常也是在該算法的基礎(chǔ)上進行修改和擴展。但是,Apriori算法在對支持度進行計算時,需要對數(shù)據(jù)庫進行多次全面掃描,生成的候選集存在較多的冗雜項,因此存在一定的性能瓶頸,需要進行改進和解決。

1.3 聚類分析

聚類分析是一種具有良好實用性的數(shù)據(jù)挖掘技術(shù),可以對無規(guī)律的數(shù)據(jù)進行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類分析,實際上是通過觀察以及非示例性的學(xué)習(xí),完成對于數(shù)據(jù)對象的分類,以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識水平的英系那個,可能造成算法性能的不穩(wěn)定或者聚類結(jié)果的偏差,因此在利用時需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時代,面對海量的數(shù)據(jù)處理問題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問題,針對算法的性能瓶頸進行改進,使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實意義。

云計算是隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來的,是一種基于互聯(lián)網(wǎng)的計算方式,能夠結(jié)合用戶的實際需求,對于服務(wù)器、存儲、軟件、服務(wù)和網(wǎng)絡(luò)等資源進行動態(tài)分配,通過合理有效的設(shè)計和調(diào)整,使得資源的利用率達到最高。在云計算背景下,可以提供高效的并行化計算能力,從而提高數(shù)據(jù)挖掘的高效性和實用性,方便對于海量數(shù)據(jù)的處理。

這里主要針對MC-Apriori算法的并行化改進進行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來說,都是在Apriori算法的基礎(chǔ)上,進行改進和創(chuàng)新,這些算法主要是針對原有算法中存在的問題的改進,屬于一種串行算法。這些改進后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機算法對于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計算,對數(shù)據(jù)挖掘算法進行改進。描述如下:

設(shè)計算機集群中n臺計算機節(jié)點N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個節(jié)點存放子事務(wù)數(shù)據(jù)庫Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計算理論,對現(xiàn)有的關(guān)聯(lián)規(guī)則算法進行改進,可以實行多種新的算法,這些算法的并行點多在候選集和頻繁集計算。主要包括以下幾種:

(1)CD算法:這種算法是對Apriori算法的簡單并行,主要是將事務(wù)數(shù)據(jù)庫分到n個節(jié)點,然后在單個節(jié)點,運行Apriori算法,每一個節(jié)點的候選集支持度計算,最后,進行全局同步以及共享計數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒有對內(nèi)存進行有效利用。

(2)DD算法:DD算法是通過循環(huán)的方式,將候選集分配到多個節(jié)點,之后在單個節(jié)點上對候選集的支持度進行計算,需要使用其他節(jié)點的數(shù)據(jù)集時,可以通過網(wǎng)絡(luò)進行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計數(shù),但是,在實用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實現(xiàn)并行化運算,主要是在單機的情況下,結(jié)合計算項的個數(shù),對1-頻繁集進行計算,生成相應(yīng)的k-1-候選集,并通過對候選集的修剪,得到k頻繁集。在對候選集的支持度進行計算的過程中,可以并行化處理,在多個節(jié)點對本地候選集的本地支持度進行計數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個頻繁項集對應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個事務(wù)數(shù)據(jù)最好可以保存在單個數(shù)據(jù)塊中。

3 結(jié)束語

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對其進行改進。本文針對現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進行了分析和探討,希望能夠為相關(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計算,數(shù)據(jù)挖掘,通信技術(shù),職稱:講師。endprint

腾冲县| 亚东县| 普洱| 托克托县| 蛟河市| 隆林| 县级市| 马鞍山市| 建平县| 西乌| 邓州市| 台南市| 招远市| 彝良县| 锦州市| 高州市| 盐池县| 碌曲县| 谢通门县| 伊金霍洛旗| 鄂温| 萝北县| 沅江市| 三原县| 铜川市| 隆回县| 平邑县| 太和县| 新巴尔虎左旗| 和龙市| 泗水县| 江源县| 澳门| 石阡县| 额敏县| 广河县| 玉溪市| 尚义县| 宁德市| 毕节市| 普安县|