李艷紅
摘 要:由于大數(shù)據(jù)具有其自身的獨(dú)特性,即數(shù)據(jù)量大、多樣性突出,所以在進(jìn)行大數(shù)據(jù)分析時(shí),在處理速度、效率和實(shí)時(shí)性等方面要求都非常高。而數(shù)據(jù)挖掘技術(shù)主要就是從大量數(shù)據(jù)中基于建模算法,尋找在數(shù)據(jù)中所隱藏的信息,以此促使大數(shù)據(jù)的價(jià)值得以充分發(fā)揮。Spark平臺(tái)是一個(gè)針對(duì)超大數(shù)據(jù)集合的低延遲集群分布式計(jì)算系統(tǒng),利用其進(jìn)行大數(shù)據(jù)挖掘與分析更具優(yōu)勢(shì)。據(jù)此,本文主要對(duì)基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)進(jìn)行了詳細(xì)分析。
關(guān)鍵詞:Spark平臺(tái) 大數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)09(c)-0007-02
1 基于Spark平臺(tái)的大數(shù)據(jù)生態(tài)系統(tǒng)
1.1 Spark Runtime
Spark Core所包含的功能主要包括任務(wù)調(diào)度與內(nèi)存管理等,其中包含故障系統(tǒng)性恢復(fù)和存儲(chǔ)系統(tǒng)相互交互的對(duì)應(yīng)子元素。在Spark中利用RDD結(jié)構(gòu),傳輸包裝數(shù)據(jù)時(shí),需要先大體了解Spark的核心邏輯數(shù)據(jù)信息,此類數(shù)據(jù)與對(duì)象概念存在一定程度上相似性。首先,所有數(shù)據(jù)全集被劃分成若干子集,各子集都能夠被傳輸?shù)郊褐械娜我夤?jié)點(diǎn)中加以處理。其次,計(jì)算的中間結(jié)果得以良好保存,基于可靠性進(jìn)行問(wèn)題思考,可以獲得計(jì)算機(jī)結(jié)果相同并存放備份于子集節(jié)點(diǎn)的文件內(nèi)容。再次,任意數(shù)據(jù)子集如果在計(jì)算過(guò)程中出現(xiàn)失誤,必須重新整理子集,從而實(shí)現(xiàn)容錯(cuò)機(jī)制。
1.2 Graph X
Graph X是Spark中的關(guān)鍵子項(xiàng)目,需要基于Spark進(jìn)行構(gòu)建,在大規(guī)模圖計(jì)算基礎(chǔ)上,因?yàn)镚raph X的衍生,可以促使Spark生態(tài)系統(tǒng)在處理大圖的時(shí)候?qū)崿F(xiàn)更加豐富的計(jì)算,而且在和其他相關(guān)組件實(shí)現(xiàn)系統(tǒng)融合的基礎(chǔ)上,可以利用較強(qiáng)的數(shù)據(jù)處理能力,促使所有應(yīng)用都可以通過(guò)多項(xiàng)場(chǎng)景獲取。Graph X的作用是提供十分豐富的圖數(shù)據(jù)操作符,因?yàn)轭悗?kù)定義過(guò)多,主要包含核心和優(yōu)化操作符,而且部分被定義在Graph Ops操作符中。在利用Scale隱形語(yǔ)言轉(zhuǎn)換特征的時(shí)候,可以調(diào)動(dòng)Graph Ops的操作符。在Graph X中,可以基于多個(gè)分布集群進(jìn)行圖運(yùn)算,并且API接口充足,尤其是到達(dá)一定圖規(guī)模后,需要精益化算法,以此有助于利用分布式圖集做大規(guī)模處理。Graph X的優(yōu)點(diǎn)在于可以有效提高數(shù)據(jù)吸收與規(guī)模。
1.3 Spark Streaming
Spark系統(tǒng)是Spark Streaming數(shù)據(jù)分布式處理框架系統(tǒng),在擴(kuò)展Spark數(shù)據(jù)能力的基礎(chǔ)上,促使Spark Streaming數(shù)據(jù)流嚴(yán)格按照時(shí)間方式分割單位,以此構(gòu)成RDD,以較小時(shí)間間隔處理流式數(shù)據(jù),受處理延時(shí)狀況阻礙,從某種程度上來(lái)講,可以看作準(zhǔn)實(shí)時(shí)處理系統(tǒng)。Spark Streaming是極具有事的容錯(cuò)系統(tǒng),在錯(cuò)誤處理與恢復(fù)方面水平非常高,因此在處理錯(cuò)誤上占據(jù)明顯優(yōu)勢(shì)。另外,Spark Streaming可以和相關(guān)Spark生態(tài)模塊實(shí)現(xiàn)無(wú)縫對(duì)接,所以在共同完成流數(shù)據(jù)后,還可以處理一些復(fù)雜現(xiàn)象。
2 基于Spark平臺(tái)的開(kāi)發(fā)環(huán)境及分布式集群構(gòu)建
2.1 硬件系統(tǒng)要求
要想確保較好的兼容性與運(yùn)行性,構(gòu)建Spark分布式集群利用的物理主機(jī)都應(yīng)采取Linux操作系統(tǒng)。選擇1臺(tái)主機(jī)的3臺(tái)虛擬機(jī)進(jìn)行環(huán)境測(cè)試,據(jù)此搭建Spark分布式集群,主要包含2個(gè)Worker節(jié)點(diǎn)與1個(gè)Master節(jié)點(diǎn)。其中Master的主要任務(wù)是單機(jī)編寫并調(diào)節(jié)Spark分布式應(yīng)用程序,配置相對(duì)較高。Master節(jié)點(diǎn)機(jī)器配置是4G內(nèi)存和四核處理器,Worker節(jié)點(diǎn)配置是2G內(nèi)存與二核處理器。各個(gè)節(jié)點(diǎn)的硬盤是以PCIE為基礎(chǔ)的SSD固態(tài)硬盤,其讀寫效率較高,能夠在很大程度上保證運(yùn)行速度與工作質(zhì)量。集群所構(gòu)成的形式,不僅能夠縮減運(yùn)行成本,還能夠依據(jù)需求對(duì)節(jié)點(diǎn)數(shù)量增加或減少進(jìn)行適當(dāng)調(diào)整。
2.2 構(gòu)造分布式Spark集群
首先應(yīng)安裝Scala語(yǔ)言,把每臺(tái)虛擬機(jī)的slaves文件內(nèi)容修改成集群中Worker節(jié)點(diǎn)主機(jī)名,同時(shí)還需修改節(jié)點(diǎn)的Spark安裝目錄的Spark-env.sh文件。其中配置系統(tǒng)的jdk環(huán)境變量,修改系統(tǒng)Scala安裝路徑是Scala-Home。在集群中Master節(jié)點(diǎn)的主機(jī)名與IP地址利用Spark_Master_IP的屬性值,其他選項(xiàng)則為默認(rèn)。同時(shí)還要保證集群所有節(jié)點(diǎn)的Spark-env.sh文件和Slaves文件的內(nèi)容保持高度一致,以此完成配置之后,通過(guò)jps命令查看集群?jiǎn)?dòng)狀況。
2.3 配置Spark的IDE開(kāi)發(fā)環(huán)境
IDEA是Scala語(yǔ)言的開(kāi)發(fā)環(huán)境,也是重要基礎(chǔ),所以利用此作為Spark應(yīng)用程序編程與開(kāi)發(fā)環(huán)境。但是為了防止IDEA在使用中生產(chǎn)太多緩存文件,占據(jù)大量空間與消耗I/O資源,應(yīng)選取SSD固態(tài)硬盤進(jìn)行文件存儲(chǔ),以此保證良好性能。IDEA在配置完成之后,便可以開(kāi)始測(cè)試Spark程序。
3 基于Spark平臺(tái)的Apriori算法分布式實(shí)現(xiàn)
3.1 概述
Apriori算法是基于挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,能夠反復(fù)掃描交易數(shù)據(jù)庫(kù),利用候選頻繁集生成頻繁集,主要流程是定義最小支持度,選取所有頻繁項(xiàng)集,并以置信度為依據(jù)生成關(guān)聯(lián)規(guī)則。
3.2 基于Spark平臺(tái)的Apriori算法分布式實(shí)現(xiàn)
基于Spark平臺(tái)的Apriori算法分布式集群的具體流程,如圖1所示。其中算法的具體思路是:第一,產(chǎn)生頻繁項(xiàng)集,把事務(wù)集通過(guò)RDD
4 基于Spark平臺(tái)的分布協(xié)同過(guò)濾推薦實(shí)現(xiàn)
4.1 MLIib算法庫(kù)
因?yàn)闄C(jī)器算法的流程十分復(fù)雜,因此在進(jìn)行迭代計(jì)算時(shí),任何計(jì)算都需要放入磁盤中,以待任務(wù)啟動(dòng),但是這樣一來(lái)便會(huì)消耗大量CPU。對(duì)此,在具體利用Spark時(shí),部分工作能夠直接在內(nèi)存中運(yùn)行,把迭代部分計(jì)算任務(wù)全部轉(zhuǎn)存于內(nèi)存,從而提高迭代計(jì)算水平與效率,還能夠在必要時(shí)進(jìn)行磁盤與網(wǎng)絡(luò)運(yùn)作。所以說(shuō),Spark在迭代計(jì)算中極具優(yōu)勢(shì),還能夠發(fā)展成分布式機(jī)器學(xué)習(xí)平臺(tái)。基于通信角度進(jìn)行思考,Spark十分出色且高效,通訊效率非常高。在開(kāi)展分布式機(jī)器算法學(xué)習(xí)的時(shí)候,部分資源都集中在各種集群節(jié)點(diǎn),良好的通信效率可以進(jìn)一步保證分布式算法的運(yùn)行效果。
4.2 協(xié)同過(guò)濾算法
所謂協(xié)同過(guò)濾算法其實(shí)就是人們?cè)谑褂玫臅r(shí)候,會(huì)選擇一個(gè)靠譜想法,并將此想法提供給用戶。
4.2.1 系統(tǒng)過(guò)濾
在用戶中選擇興趣愛(ài)好相似的用戶,切實(shí)結(jié)合其喜好進(jìn)行物品選擇,并組織起來(lái)構(gòu)成新集合或序列。用戶可以直接定義成鄰居,但是在此過(guò)程中的核心問(wèn)題是怎樣對(duì)用戶間存在類似聘問(wèn)或怎樣對(duì)滿足相關(guān)條件的用戶進(jìn)行針對(duì)性組織與利用。
4.2.2 協(xié)同過(guò)濾核心思想
協(xié)同過(guò)濾核心思想需要通過(guò)三大環(huán)節(jié)加以實(shí)現(xiàn),即進(jìn)行用戶興趣偏好收集,詳細(xì)分析用戶使用物品的相似性,依據(jù)計(jì)算加以推薦。系統(tǒng)推薦效果的關(guān)鍵性影響因素就是整合用戶興趣愛(ài)好。因?yàn)橛脩舨煌峁┑钠梅绞揭泊嬖谳^大差異,而且還會(huì)受各種場(chǎng)景影響。在一般場(chǎng)景中,應(yīng)選擇一種用戶系統(tǒng),并依據(jù)用戶行為進(jìn)行小組劃分,分組方式主要有兩種:第一,就用戶不同行為為依據(jù)進(jìn)行分組。第二,就不同行為對(duì)用戶興趣愛(ài)好進(jìn)行分組并加權(quán)處理。在全面收集數(shù)據(jù)行為之后,進(jìn)行數(shù)據(jù)預(yù)處理。在此基礎(chǔ)上,依據(jù)用戶興趣愛(ài)好,向用戶推薦可能喜愛(ài)的物品,并采取一定的推薦方式,把協(xié)同過(guò)濾劃分成基礎(chǔ)用戶協(xié)同和基于物品的協(xié)同兩大類。在推薦中,選擇最為適合的鄰居,目前最常用的方式是固定鄰居數(shù)量與規(guī)定鄰居相似度門檻。
5 結(jié)語(yǔ)
總之,在Spark集群布置在Yam上后,既能夠?yàn)樗惴▽?shí)驗(yàn)提供良好的測(cè)試環(huán)境,還可以以線形適當(dāng)擴(kuò)大集群規(guī)模,切實(shí)應(yīng)用到企業(yè)生產(chǎn)中去。有機(jī)結(jié)合Spark與MLIib制定分布式協(xié)同過(guò)濾推薦在分布式集群中的運(yùn)行方案,并基于大數(shù)據(jù)集加以驗(yàn)證,便能夠有效應(yīng)用到大量推薦系統(tǒng)中去。而且基于Spark平臺(tái)的分布式Apriori算法,在很大程度上彌補(bǔ)了MLIib中關(guān)聯(lián)分析類算法的缺陷,并能夠有效應(yīng)用于大數(shù)據(jù)關(guān)聯(lián)分析中。
參考文獻(xiàn)
[1] 曹猛.基于Spark核心架構(gòu)的大數(shù)據(jù)平臺(tái)技術(shù)研究與實(shí)踐[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè),2018(28):130,132.
[2] 孟雅格.基于Spark平臺(tái)大數(shù)據(jù)推薦系統(tǒng)的研究[D].西安電子科技大學(xué),2017.
[3] 何美斌,胡精英.基于Spark R的大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)[J].電子技術(shù)與軟件工程,2016(21):184.
[4] 邢英俊.基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究[J].電腦知識(shí)與技術(shù),2017,13(16):19-20.