基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)分析

2018-03-26 08:07李艷紅

科技資訊 2018年27期

李艷紅

摘要：由于大數(shù)據(jù)具有其自身的獨(dú)特性，即數(shù)據(jù)量大、多樣性突出，所以在進(jìn)行大數(shù)據(jù)分析時(shí)，在處理速度、效率和實(shí)時(shí)性等方面要求都非常高。而數(shù)據(jù)挖掘技術(shù)主要就是從大量數(shù)據(jù)中基于建模算法，尋找在數(shù)據(jù)中所隱藏的信息，以此促使大數(shù)據(jù)的價(jià)值得以充分發(fā)揮。Spark平臺(tái)是一個(gè)針對(duì)超大數(shù)據(jù)集合的低延遲集群分布式計(jì)算系統(tǒng)，利用其進(jìn)行大數(shù)據(jù)挖掘與分析更具優(yōu)勢(shì)。據(jù)此，本文主要對(duì)基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)進(jìn)行了詳細(xì)分析。

關(guān)鍵詞：Spark平臺(tái) 大數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)分析

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-3791（2018）09（c）-0007-02

1 基于Spark平臺(tái)的大數(shù)據(jù)生態(tài)系統(tǒng)

1.1 Spark Runtime

Spark Core所包含的功能主要包括任務(wù)調(diào)度與內(nèi)存管理等，其中包含故障系統(tǒng)性恢復(fù)和存儲(chǔ)系統(tǒng)相互交互的對(duì)應(yīng)子元素。在Spark中利用RDD結(jié)構(gòu)，傳輸包裝數(shù)據(jù)時(shí)，需要先大體了解Spark的核心邏輯數(shù)據(jù)信息，此類數(shù)據(jù)與對(duì)象概念存在一定程度上相似性。首先，所有數(shù)據(jù)全集被劃分成若干子集，各子集都能夠被傳輸?shù)郊褐械娜我夤?jié)點(diǎn)中加以處理。其次，計(jì)算的中間結(jié)果得以良好保存，基于可靠性進(jìn)行問(wèn)題思考，可以獲得計(jì)算機(jī)結(jié)果相同并存放備份于子集節(jié)點(diǎn)的文件內(nèi)容。再次，任意數(shù)據(jù)子集如果在計(jì)算過(guò)程中出現(xiàn)失誤，必須重新整理子集，從而實(shí)現(xiàn)容錯(cuò)機(jī)制。

1.2 Graph X

Graph X是Spark中的關(guān)鍵子項(xiàng)目，需要基于Spark進(jìn)行構(gòu)建，在大規(guī)模圖計(jì)算基礎(chǔ)上，因?yàn)镚raph X的衍生，可以促使Spark生態(tài)系統(tǒng)在處理大圖的時(shí)候?qū)崿F(xiàn)更加豐富的計(jì)算，而且在和其他相關(guān)組件實(shí)現(xiàn)系統(tǒng)融合的基礎(chǔ)上，可以利用較強(qiáng)的數(shù)據(jù)處理能力，促使所有應(yīng)用都可以通過(guò)多項(xiàng)場(chǎng)景獲取。Graph X的作用是提供十分豐富的圖數(shù)據(jù)操作符，因?yàn)轭悗?kù)定義過(guò)多，主要包含核心和優(yōu)化操作符，而且部分被定義在Graph Ops操作符中。在利用Scale隱形語(yǔ)言轉(zhuǎn)換特征的時(shí)候，可以調(diào)動(dòng)Graph Ops的操作符。在Graph X中，可以基于多個(gè)分布集群進(jìn)行圖運(yùn)算，并且API接口充足，尤其是到達(dá)一定圖規(guī)模后，需要精益化算法，以此有助于利用分布式圖集做大規(guī)模處理。Graph X的優(yōu)點(diǎn)在于可以有效提高數(shù)據(jù)吸收與規(guī)模。

1.3 Spark Streaming

Spark系統(tǒng)是Spark Streaming數(shù)據(jù)分布式處理框架系統(tǒng)，在擴(kuò)展Spark數(shù)據(jù)能力的基礎(chǔ)上，促使Spark Streaming數(shù)據(jù)流嚴(yán)格按照時(shí)間方式分割單位，以此構(gòu)成RDD，以較小時(shí)間間隔處理流式數(shù)據(jù)，受處理延時(shí)狀況阻礙，從某種程度上來(lái)講，可以看作準(zhǔn)實(shí)時(shí)處理系統(tǒng)。Spark Streaming是極具有事的容錯(cuò)系統(tǒng)，在錯(cuò)誤處理與恢復(fù)方面水平非常高，因此在處理錯(cuò)誤上占據(jù)明顯優(yōu)勢(shì)。另外，Spark Streaming可以和相關(guān)Spark生態(tài)模塊實(shí)現(xiàn)無(wú)縫對(duì)接，所以在共同完成流數(shù)據(jù)后，還可以處理一些復(fù)雜現(xiàn)象。

2 基于Spark平臺(tái)的開(kāi)發(fā)環(huán)境及分布式集群構(gòu)建

2.1 硬件系統(tǒng)要求

要想確保較好的兼容性與運(yùn)行性，構(gòu)建Spark分布式集群利用的物理主機(jī)都應(yīng)采取Linux操作系統(tǒng)。選擇1臺(tái)主機(jī)的3臺(tái)虛擬機(jī)進(jìn)行環(huán)境測(cè)試，據(jù)此搭建Spark分布式集群，主要包含2個(gè)Worker節(jié)點(diǎn)與1個(gè)Master節(jié)點(diǎn)。其中Master的主要任務(wù)是單機(jī)編寫并調(diào)節(jié)Spark分布式應(yīng)用程序，配置相對(duì)較高。Master節(jié)點(diǎn)機(jī)器配置是4G內(nèi)存和四核處理器，Worker節(jié)點(diǎn)配置是2G內(nèi)存與二核處理器。各個(gè)節(jié)點(diǎn)的硬盤是以PCIE為基礎(chǔ)的SSD固態(tài)硬盤，其讀寫效率較高，能夠在很大程度上保證運(yùn)行速度與工作質(zhì)量。集群所構(gòu)成的形式，不僅能夠縮減運(yùn)行成本，還能夠依據(jù)需求對(duì)節(jié)點(diǎn)數(shù)量增加或減少進(jìn)行適當(dāng)調(diào)整。

2.2 構(gòu)造分布式Spark集群

首先應(yīng)安裝Scala語(yǔ)言，把每臺(tái)虛擬機(jī)的slaves文件內(nèi)容修改成集群中Worker節(jié)點(diǎn)主機(jī)名，同時(shí)還需修改節(jié)點(diǎn)的Spark安裝目錄的Spark-env.sh文件。其中配置系統(tǒng)的jdk環(huán)境變量，修改系統(tǒng)Scala安裝路徑是Scala-Home。在集群中Master節(jié)點(diǎn)的主機(jī)名與IP地址利用Spark_Master_IP的屬性值，其他選項(xiàng)則為默認(rèn)。同時(shí)還要保證集群所有節(jié)點(diǎn)的Spark-env.sh文件和Slaves文件的內(nèi)容保持高度一致，以此完成配置之后，通過(guò)jps命令查看集群?jiǎn)?dòng)狀況。

2.3 配置Spark的IDE開(kāi)發(fā)環(huán)境

IDEA是Scala語(yǔ)言的開(kāi)發(fā)環(huán)境，也是重要基礎(chǔ)，所以利用此作為Spark應(yīng)用程序編程與開(kāi)發(fā)環(huán)境。但是為了防止IDEA在使用中生產(chǎn)太多緩存文件，占據(jù)大量空間與消耗I/O資源，應(yīng)選取SSD固態(tài)硬盤進(jìn)行文件存儲(chǔ)，以此保證良好性能。IDEA在配置完成之后，便可以開(kāi)始測(cè)試Spark程序。

3 基于Spark平臺(tái)的Apriori算法分布式實(shí)現(xiàn)

3.1 概述

Apriori算法是基于挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，能夠反復(fù)掃描交易數(shù)據(jù)庫(kù)，利用候選頻繁集生成頻繁集，主要流程是定義最小支持度，選取所有頻繁項(xiàng)集，并以置信度為依據(jù)生成關(guān)聯(lián)規(guī)則。

3.2 基于Spark平臺(tái)的Apriori算法分布式實(shí)現(xiàn)

基于Spark平臺(tái)的Apriori算法分布式集群的具體流程，如圖1所示。其中算法的具體思路是：第一，產(chǎn)生頻繁項(xiàng)集，把事務(wù)集通過(guò)RDD形式在各機(jī)器上加以分布，累積項(xiàng)目數(shù)量并保留比支持度較高的項(xiàng)集。第二，就頻繁項(xiàng)集衍生頻繁項(xiàng)集，項(xiàng)集自連接生成Ck+1，再掃描數(shù)據(jù)庫(kù)，并依據(jù)C+1生成頻繁項(xiàng)集。

4 基于Spark平臺(tái)的分布協(xié)同過(guò)濾推薦實(shí)現(xiàn)

4.1 MLIib算法庫(kù)

因?yàn)闄C(jī)器算法的流程十分復(fù)雜，因此在進(jìn)行迭代計(jì)算時(shí)，任何計(jì)算都需要放入磁盤中，以待任務(wù)啟動(dòng)，但是這樣一來(lái)便會(huì)消耗大量CPU。對(duì)此，在具體利用Spark時(shí)，部分工作能夠直接在內(nèi)存中運(yùn)行，把迭代部分計(jì)算任務(wù)全部轉(zhuǎn)存于內(nèi)存，從而提高迭代計(jì)算水平與效率，還能夠在必要時(shí)進(jìn)行磁盤與網(wǎng)絡(luò)運(yùn)作。所以說(shuō)，Spark在迭代計(jì)算中極具優(yōu)勢(shì)，還能夠發(fā)展成分布式機(jī)器學(xué)習(xí)平臺(tái)。基于通信角度進(jìn)行思考，Spark十分出色且高效，通訊效率非常高。在開(kāi)展分布式機(jī)器算法學(xué)習(xí)的時(shí)候，部分資源都集中在各種集群節(jié)點(diǎn)，良好的通信效率可以進(jìn)一步保證分布式算法的運(yùn)行效果。

4.2 協(xié)同過(guò)濾算法

所謂協(xié)同過(guò)濾算法其實(shí)就是人們?cè)谑褂玫臅r(shí)候，會(huì)選擇一個(gè)靠譜想法，并將此想法提供給用戶。

4.2.1 系統(tǒng)過(guò)濾

在用戶中選擇興趣愛(ài)好相似的用戶，切實(shí)結(jié)合其喜好進(jìn)行物品選擇，并組織起來(lái)構(gòu)成新集合或序列。用戶可以直接定義成鄰居，但是在此過(guò)程中的核心問(wèn)題是怎樣對(duì)用戶間存在類似聘問(wèn)或怎樣對(duì)滿足相關(guān)條件的用戶進(jìn)行針對(duì)性組織與利用。

4.2.2 協(xié)同過(guò)濾核心思想

協(xié)同過(guò)濾核心思想需要通過(guò)三大環(huán)節(jié)加以實(shí)現(xiàn)，即進(jìn)行用戶興趣偏好收集，詳細(xì)分析用戶使用物品的相似性，依據(jù)計(jì)算加以推薦。系統(tǒng)推薦效果的關(guān)鍵性影響因素就是整合用戶興趣愛(ài)好。因?yàn)橛脩舨煌峁┑钠梅绞揭泊嬖谳^大差異，而且還會(huì)受各種場(chǎng)景影響。在一般場(chǎng)景中，應(yīng)選擇一種用戶系統(tǒng)，并依據(jù)用戶行為進(jìn)行小組劃分，分組方式主要有兩種：第一，就用戶不同行為為依據(jù)進(jìn)行分組。第二，就不同行為對(duì)用戶興趣愛(ài)好進(jìn)行分組并加權(quán)處理。在全面收集數(shù)據(jù)行為之后，進(jìn)行數(shù)據(jù)預(yù)處理。在此基礎(chǔ)上，依據(jù)用戶興趣愛(ài)好，向用戶推薦可能喜愛(ài)的物品，并采取一定的推薦方式，把協(xié)同過(guò)濾劃分成基礎(chǔ)用戶協(xié)同和基于物品的協(xié)同兩大類。在推薦中，選擇最為適合的鄰居，目前最常用的方式是固定鄰居數(shù)量與規(guī)定鄰居相似度門檻。

5 結(jié)語(yǔ)

總之，在Spark集群布置在Yam上后，既能夠?yàn)樗惴▽?shí)驗(yàn)提供良好的測(cè)試環(huán)境，還可以以線形適當(dāng)擴(kuò)大集群規(guī)模，切實(shí)應(yīng)用到企業(yè)生產(chǎn)中去。有機(jī)結(jié)合Spark與MLIib制定分布式協(xié)同過(guò)濾推薦在分布式集群中的運(yùn)行方案，并基于大數(shù)據(jù)集加以驗(yàn)證，便能夠有效應(yīng)用到大量推薦系統(tǒng)中去。而且基于Spark平臺(tái)的分布式Apriori算法，在很大程度上彌補(bǔ)了MLIib中關(guān)聯(lián)分析類算法的缺陷，并能夠有效應(yīng)用于大數(shù)據(jù)關(guān)聯(lián)分析中。

參考文獻(xiàn)

[1] 曹猛.基于Spark核心架構(gòu)的大數(shù)據(jù)平臺(tái)技術(shù)研究與實(shí)踐[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè)，2018（28）：130，132.

[2] 孟雅格.基于Spark平臺(tái)大數(shù)據(jù)推薦系統(tǒng)的研究[D].西安電子科技大學(xué)，2017.

[3] 何美斌，胡精英.基于Spark R的大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)[J].電子技術(shù)與軟件工程，2016（21）：184.

[4] 邢英俊.基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究[J].電腦知識(shí)與技術(shù)，2017，13（16）：19-20.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)分析