吳海建 呂軍
摘要
在信息時(shí)代,大數(shù)據(jù)得到了廣泛的應(yīng)用。在大數(shù)據(jù)應(yīng)用過程中,根據(jù)不同應(yīng)用模式其計(jì)算模式也有相應(yīng)的變化。而UCBerkeleyAMPLab的Spark系統(tǒng)將所有特征的數(shù)據(jù)及計(jì)算方式進(jìn)行的有效融合,如批處理計(jì)算、迭代計(jì)算、流式計(jì)算等.本文以Spark下的大數(shù)據(jù)混合計(jì)算模型為例,對大數(shù)據(jù)實(shí)時(shí)計(jì)算在物聯(lián)網(wǎng)中的實(shí)踐進(jìn)行了簡單的分析,以便為物聯(lián)網(wǎng)管理工作的順利進(jìn)行提供有效的借鑒。
【關(guān)鍵詞】大數(shù)據(jù) 實(shí)時(shí)計(jì)算 物聯(lián)網(wǎng) 實(shí)踐
物聯(lián)網(wǎng)是在互聯(lián)網(wǎng)應(yīng)用的基礎(chǔ)上進(jìn)行了進(jìn)一步拓展。其主要具有移動(dòng)、智能、多節(jié)點(diǎn)的特點(diǎn)。而Spark為大數(shù)據(jù)實(shí)時(shí)計(jì)算工作提供了一個(gè)優(yōu)良的數(shù)據(jù)儲(chǔ)存計(jì)算引擎,其在實(shí)際數(shù)據(jù)應(yīng)用過程中,可利用自身優(yōu)良的計(jì)算性能及多平臺(tái)兼容特性,實(shí)現(xiàn)大數(shù)據(jù)混合計(jì)算處理。因此為了保證物聯(lián)網(wǎng)數(shù)據(jù)處理效率,對大數(shù)據(jù)混合計(jì)算模式在物聯(lián)網(wǎng)中的實(shí)踐應(yīng)用進(jìn)行適當(dāng)分析具有非常重要的意義。
1 基于Spark的大數(shù)據(jù)混合計(jì)算模型
基于Spark的大數(shù)據(jù)混合計(jì)算模式在實(shí)際設(shè)計(jì)過程中,首先需要進(jìn)行數(shù)據(jù)源的確定,經(jīng)過逐步處理后將其進(jìn)行計(jì)算儲(chǔ)存,并通過實(shí)時(shí)查詢數(shù)據(jù)庫進(jìn)行提前數(shù)據(jù)Web接口的設(shè)置。在這個(gè)基礎(chǔ)上,將不同數(shù)據(jù)源數(shù)據(jù)通過分布式處理模式進(jìn)行移動(dòng)、收集、分發(fā)。然后利用Spark數(shù)據(jù)批處理工作,綜合采用直接走流處理、程序批處理的方式,將實(shí)施應(yīng)用數(shù)據(jù)調(diào)到己核算完畢的計(jì)算結(jié)果中間。最后基于物聯(lián)網(wǎng)應(yīng)用特點(diǎn),將數(shù)據(jù)源數(shù)據(jù)內(nèi)部數(shù)據(jù)移動(dòng)、收集及分發(fā)批處理模塊進(jìn)行有機(jī)整合,并結(jié)合大數(shù)據(jù)域內(nèi)數(shù)據(jù)處理需求,逐漸利用SparklShark架構(gòu)代替MapreducelHIve結(jié)構(gòu)。在這個(gè)基礎(chǔ)上進(jìn)行Spark混合計(jì)算規(guī)則融入,最終形成完善的Spark混合計(jì)算模型架構(gòu)。
2 大數(shù)據(jù)實(shí)時(shí)計(jì)算在物聯(lián)網(wǎng)中的實(shí)踐
2.1 以流處理為基礎(chǔ)的用量實(shí)時(shí)計(jì)算系統(tǒng)
以流處理為基礎(chǔ)的用量實(shí)時(shí)計(jì)算系統(tǒng)在物聯(lián)網(wǎng)中的實(shí)踐應(yīng)用,主要是利用開源分布式軟件結(jié)構(gòu)的架設(shè),結(jié)合Flume數(shù)據(jù)收集模塊的設(shè)置。同時(shí)將物聯(lián)網(wǎng)中不同數(shù)據(jù)源進(jìn)行接入差異化分析。在這個(gè)基礎(chǔ)上利用消息緩存系統(tǒng)保障模塊,將用量實(shí)時(shí)計(jì)算系統(tǒng)內(nèi)部相關(guān)模塊間進(jìn)行解耦設(shè)置。同時(shí)結(jié)合流式計(jì)算框架的運(yùn)行,保障系統(tǒng)并行計(jì)算性能拓展問題的有效處理。在具體基于流處理的用量實(shí)時(shí)計(jì)算系統(tǒng)設(shè)置過程中,主要包括數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理等幾個(gè)模塊。首先在數(shù)據(jù)收集模塊設(shè)置環(huán)節(jié),主要采用Flume集群,結(jié)合海量日志采集、傳輸、集成等功能的處理,可從exec、text等多數(shù)據(jù)源進(jìn)行數(shù)據(jù)收集。Flume集群的處理核心為代理,即在完整數(shù)據(jù)收集中心的基礎(chǔ)上,通過核心事件集合,分別采用話單文件代理、計(jì)費(fèi)消息代理等模式,對文件、消息進(jìn)行收集處理。需要注意的是,在消息接收之后,需要將不同代理數(shù)據(jù)進(jìn)行統(tǒng)一數(shù)據(jù)格式的處理,從而保證整體消息系統(tǒng)的核心統(tǒng)一。其次在實(shí)際應(yīng)用過程中,以流處理為基礎(chǔ)的大數(shù)據(jù)實(shí)時(shí)計(jì)算模型在數(shù)據(jù)接入環(huán)節(jié),主要采用Kafka集群,其在實(shí)際運(yùn)行中具有較為優(yōu)良的吞吐量。而且分布式訂閱消息發(fā)布的新模式,也可以在較為活躍的流式數(shù)據(jù)處理中發(fā)揮優(yōu)良的效用。在以流處理為基礎(chǔ)的用量實(shí)時(shí)計(jì)算系統(tǒng)運(yùn)行過程中,Kafka集群主要針對。(1)磁盤數(shù)據(jù),其主要通過對TB級(jí)別的消息進(jìn)行儲(chǔ)存處理,并維持相應(yīng)數(shù)據(jù)在對應(yīng)磁盤數(shù)據(jù)結(jié)構(gòu)中的平穩(wěn)運(yùn)行。同時(shí)在實(shí)際運(yùn)行中,Katka集群還可以依據(jù)消息儲(chǔ)存日期進(jìn)行消息類別劃分,如通過對消息生產(chǎn)者、消息消費(fèi)者等相應(yīng)類別的劃分,可為元數(shù)據(jù)信息處理效率的提升提供依據(jù)。
數(shù)據(jù)處理框架主要采用Storm集群,其主要具有容錯(cuò)率高、開源免費(fèi)、分布式等優(yōu)良特點(diǎn)。在基于Storm集群的數(shù)據(jù)處理框架計(jì)算過程中,可通過實(shí)時(shí)計(jì)算圖狀結(jié)構(gòu)的設(shè)計(jì),進(jìn)行拓?fù)浼禾峤?。同時(shí)通過集群中主控節(jié)點(diǎn)分發(fā)代碼設(shè)置,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)過濾處理。在實(shí)際運(yùn)行過程中,基于Storm集群的數(shù)據(jù)處理框架,具有Spout、Bolt兩種形式。前者為數(shù)據(jù)信息發(fā)送,而后者為數(shù)據(jù)流轉(zhuǎn)換。通過模塊間數(shù)據(jù)傳輸,Storm集群也可以進(jìn)行流量區(qū)域分析、自動(dòng)化閾值檢查、流量區(qū)域分析等模塊的集中處理。數(shù)據(jù)儲(chǔ)存模塊主要采用Redis集群,其在實(shí)際處理過程中,主要采用開源式的內(nèi)部儲(chǔ)存結(jié)構(gòu),通過高速緩存消息隊(duì)列的設(shè)置,可為多種數(shù)據(jù)類型處理提供依據(jù),如有效集合、列表、字符串、散列表等。
2.2 算例分析
在實(shí)際應(yīng)用過程中,基于流處理的大數(shù)據(jù)實(shí)時(shí)計(jì)算模型需要對多種維度因素進(jìn)行綜合分析,如運(yùn)營商區(qū)域組成維度、時(shí)間段儲(chǔ)存方案、APN、資費(fèi)組處理等。以某個(gè)SIM卡數(shù)據(jù)處理為例,若其ID為12345678,則在實(shí)際處理中主要包括APN1、APN2兩個(gè)APNa若其為聯(lián)通域內(nèi)的SIM卡,則其運(yùn)營商代碼為86。這種情況下就可以對其進(jìn)行高峰時(shí)段及非高峰時(shí)段進(jìn)行合理處理,分為為0、1。而資費(fèi)組就需要進(jìn)行All默認(rèn)程度的處理,若當(dāng)前流量話費(fèi)總體使用量為1.6KB,則APN1、APN2分別使用流量為1.1/0.4KB。而在高峰時(shí)段、非高峰時(shí)段流量損耗為1.1/0.5KB。這種情況下,就需要對整體區(qū)域維度及儲(chǔ)存變動(dòng)情況進(jìn)行合理評估。在這一環(huán)節(jié)儲(chǔ)存變動(dòng)主要為Storm集群,即為消息系統(tǒng)-流量區(qū)域分析-流量區(qū)域累積-自動(dòng)化規(guī)則閾值檢測/區(qū)域組合統(tǒng)計(jì)-緩存系統(tǒng)。
3 結(jié)束語
綜上所述,從長期而言,基于Spark的大數(shù)據(jù)混合計(jì)算模式具有良好的應(yīng)用優(yōu)勢,其可以通過批處理、流計(jì)算、機(jī)器學(xué)習(xí)、圖分析等模式的綜合應(yīng)用,滿足物聯(lián)網(wǎng)管理中的多個(gè)場景需要。而相較于以往物聯(lián)網(wǎng)平臺(tái)而己,基于流處理的大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)具有更為優(yōu)良的數(shù)據(jù)壓力處理性能。通過多種集群的整合,基于流處理的大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)在我國物聯(lián)網(wǎng)平臺(tái)將具有更加廣闊的應(yīng)用前景。
參考文獻(xiàn)
[1]歐陽晨.海關(guān)應(yīng)用大數(shù)據(jù)的實(shí)踐與思考[J].海關(guān)與經(jīng)貿(mào)研究,2016,37(03):33-43.
[2]余焯偉.物聯(lián)網(wǎng)與大數(shù)據(jù)的新思考[J].通訊世界,2017(01):1-2.
[3]孫學(xué)義.物聯(lián)網(wǎng)與大數(shù)據(jù)的新思考[J].科研,2017(03):00200-00200.