摘 要 本文將詳細(xì)介紹云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)的應(yīng)用方法,并在云環(huán)境下對新型大數(shù)據(jù)處理平臺進(jìn)行具體研究,其中包括大數(shù)據(jù)處理平臺的基本工作流程、平臺層次的劃分、平臺整體的設(shè)計(jì)架構(gòu)及其應(yīng)用集群的實(shí)際流程四個方面。當(dāng)前大數(shù)據(jù)平臺及技術(shù)已應(yīng)用到多項(xiàng)領(lǐng)域中,技術(shù)人員需采用科學(xué)化手段,合理完善新型大數(shù)據(jù)處理平臺。
關(guān)鍵詞 云環(huán)境;新型大數(shù)據(jù)處理平臺;大數(shù)據(jù)處理技術(shù)
前言
大數(shù)據(jù)技術(shù)的多樣化使其應(yīng)用到的領(lǐng)域逐漸增多,在科學(xué)發(fā)現(xiàn)、企業(yè)發(fā)展,甚至是社會變革都能看到大數(shù)據(jù)技術(shù)的影子。在該技術(shù)發(fā)展過程中,技術(shù)人員設(shè)置了新型大數(shù)據(jù)處理平臺,而在該平臺內(nèi)其復(fù)雜的工作流程,極高的技術(shù)門檻給應(yīng)用者帶去了較大的挑戰(zhàn),技術(shù)人員應(yīng)借助相關(guān)數(shù)據(jù)的調(diào)查與研究,加大對大數(shù)據(jù)處理平臺的了解力度,從而使該平臺更好地服務(wù)于社會中的各領(lǐng)域。
1云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)的應(yīng)用方法
1.1 云計(jì)算技術(shù)
在云環(huán)境下,企業(yè)與用戶都選擇了云計(jì)算技術(shù),該技術(shù)的主要特點(diǎn)有三個方面,其一,云計(jì)算技術(shù)具有自主配置服務(wù)特征,用戶或企業(yè)在進(jìn)行服務(wù)時可依照負(fù)載需求與自身的工作類型。其二,云計(jì)算技術(shù)的擴(kuò)展較為彈性化,依據(jù)不同的計(jì)算需求,用戶可自行縮小或增加資源量。其三,企業(yè)或用戶在采用與計(jì)算技術(shù)時應(yīng)按需付費(fèi),用戶的支付費(fèi)用主要為已應(yīng)用的工作量或資源量。
具體來說,云計(jì)算技術(shù)還有三種服務(wù)類別,即軟件服務(wù)、平臺服務(wù)與基礎(chǔ)設(shè)施服務(wù)等。在軟件服務(wù)模式中,云管理人員會定期發(fā)布Web服務(wù),即應(yīng)用程序,廣大用戶可借助網(wǎng)絡(luò)系統(tǒng)使用云數(shù)據(jù)庫與其內(nèi)部的應(yīng)用軟件,常用的服務(wù)軟件有Office365。對于平臺服務(wù)來說,該服務(wù)平臺的主要工作目標(biāo)為開發(fā)多種資源,如軟件開發(fā)內(nèi)部的工具與環(huán)境等,在此模式中,用戶可自行發(fā)布或開發(fā)軟件??傮w來說,平臺服務(wù)是搭建在基礎(chǔ)設(shè)施服務(wù)之上的,常用的平臺服務(wù)供應(yīng)商為Amazon Elastic Beanstalk或Google App Engine等。針對基礎(chǔ)設(shè)施服務(wù),其服務(wù)的基礎(chǔ)性資源為云主機(jī)、虛擬網(wǎng)絡(luò)與云硬盤等,借助應(yīng)用程序中的接口可讓用戶將工作負(fù)載轉(zhuǎn)移到云主機(jī)中,對于云主機(jī)的配置,廣大用戶可自行選擇,并將儲存容量進(jìn)行合理分配,基礎(chǔ)設(shè)施服務(wù)的供應(yīng)商有阿里云、Axure與AWS等。
1.2 大數(shù)據(jù)處理技術(shù)
大數(shù)據(jù)處理技術(shù)含有諸多計(jì)算模式,最為人們熟知的即是流式與批處理計(jì)算模式,流式計(jì)算主要處理的為新數(shù)據(jù),該模式的時效性較強(qiáng),其主要的處理方法為實(shí)時計(jì)算場景,其最為典型的框架為Storm模式,具體來說,Storm框架中包含計(jì)算單元、數(shù)據(jù)流與多項(xiàng)數(shù)據(jù)輸入信息等,在發(fā)起某一任務(wù)時,其計(jì)算任務(wù)就會一直處于運(yùn)行的狀態(tài)中,多項(xiàng)數(shù)據(jù)信息進(jìn)入數(shù)據(jù)輸入中,通過計(jì)算單元可有效完成相應(yīng)計(jì)算。
而另外一種計(jì)算模式為批處理計(jì)算模式,在開展批處理計(jì)算的過程中,技術(shù)人員先要收集與儲存相應(yīng)的數(shù)據(jù)信息,再借助對應(yīng)性框架對其實(shí)行分批處理。批處理的主要特征為靈活性強(qiáng)、容錯率高及吞吐量大等,該處理方法主要應(yīng)用在離線計(jì)算場景中,其主要的計(jì)算框架為Map Reduce。針對Map Reduce模式,其在開展計(jì)算任務(wù)時,其面對的鍵值對的形式也有些許不同。通常來講,Map Reduce需經(jīng)過兩種階段性任務(wù),即Map與Reduce,此計(jì)算模式的核心思維為將某一項(xiàng)大任務(wù)進(jìn)行合理拆分。運(yùn)用Map Reduce模式能將其內(nèi)部的計(jì)算邏輯轉(zhuǎn)化到數(shù)據(jù)儲存位置中,該任務(wù)的執(zhí)行時間會被有效縮短,從而使數(shù)據(jù)吞吐量獲得顯著提高。針對相關(guān)模式的開發(fā)者,在處理相應(yīng)數(shù)據(jù)時只需關(guān)注Map與Reduce的具體邏輯內(nèi)容,進(jìn)而更為高效地進(jìn)行批處理[1]。
2新型大數(shù)據(jù)處理平臺在云環(huán)境下的具體研究
2.1 基本工作流程
大數(shù)據(jù)有著極為廣泛的應(yīng)用場景與任務(wù)類型,對不同的行業(yè)也會產(chǎn)生對應(yīng)性需求,新型大數(shù)據(jù)處理平臺的基本工作流程有五個階段,即產(chǎn)生數(shù)據(jù)源、儲存數(shù)據(jù)信息、開展數(shù)據(jù)分析、進(jìn)行數(shù)據(jù)應(yīng)用及對應(yīng)到相應(yīng)的目標(biāo)客戶。
具體來說,技術(shù)人員在應(yīng)用新型大數(shù)據(jù)處理平臺前,先要輸入對應(yīng)性的數(shù)據(jù)信息,找到并產(chǎn)生數(shù)據(jù)源,數(shù)據(jù)源大多分為三種,人們最為熟悉的數(shù)據(jù)庫,其屬于結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù)則置于文件與XML中。此后三類數(shù)據(jù)經(jīng)過整合與提取后,價值含量較高的數(shù)據(jù)則進(jìn)入到儲存環(huán)節(jié)中,再歷經(jīng)集成、篩選與清洗,進(jìn)入到數(shù)據(jù)分析環(huán)節(jié),在此環(huán)節(jié)中,借助相應(yīng)的大數(shù)據(jù)處理技術(shù)與云計(jì)算技術(shù)對數(shù)據(jù)信息進(jìn)行深入挖掘,并實(shí)行實(shí)時統(tǒng)計(jì)。
在處理大數(shù)據(jù)的基本流程中,此類平臺的數(shù)據(jù)源種類較為豐富,在進(jìn)行正式的數(shù)據(jù)分析前,需將價值含量較低的數(shù)據(jù)清理掉,此類的數(shù)據(jù)分析結(jié)果會用在趨勢分析、用戶的商業(yè)決策等,通過對新型大數(shù)據(jù)處理平臺工作流程的了解,相關(guān)技術(shù)人員可更好地發(fā)現(xiàn)平臺中的優(yōu)勢與價值,若其在某一環(huán)節(jié)出現(xiàn)問題,也能及時找出,待查明原因后科學(xué)進(jìn)行大數(shù)據(jù)分析工作。
2.2 平臺層次的劃分
在新型大數(shù)據(jù)處理平臺中,該平臺依層次劃分為四個層級,即接入層、計(jì)算層、輸出層與應(yīng)用層。接入層主要包括日志、關(guān)系數(shù)據(jù)庫與消息等,借助相關(guān)技術(shù),此三種數(shù)據(jù)被帶入大數(shù)據(jù)平臺中,此類層級的經(jīng)典工具為Kafka、Flume等。而計(jì)算層中則帶有三種計(jì)算方式,即混合計(jì)算、實(shí)時計(jì)算與離線計(jì)算等,在該階段利用三種不同時間的計(jì)算方法對相關(guān)數(shù)據(jù)開展邏輯分析,其主要的工具為Spark、Storm、MapRedece等。多項(xiàng)數(shù)據(jù)到了輸出層后,即分成兩個部分,即數(shù)據(jù)分發(fā)與結(jié)果儲存,當(dāng)數(shù)據(jù)信息經(jīng)過前兩個階段產(chǎn)生分析結(jié)果后可自動進(jìn)入到結(jié)果儲存中,剩余數(shù)據(jù)則輸入到數(shù)據(jù)分發(fā)中。最后的階段為應(yīng)用層,輸出的數(shù)據(jù)則進(jìn)入到自助報表與用戶畫像中,此類數(shù)據(jù)大多在大數(shù)據(jù)平臺內(nèi)部移動。借助用用層,多項(xiàng)數(shù)據(jù)結(jié)果被輸入到多個系統(tǒng)中,值得一提的是,應(yīng)用系統(tǒng)屬第三方平臺,大數(shù)據(jù)平臺內(nèi)的集成種類多為查詢引擎或報表系統(tǒng)。此外,在大數(shù)據(jù)處理平臺的底部還包含存儲層,該層級的資源呈分布式特點(diǎn),主要有消息中間件、數(shù)據(jù)庫與存儲系統(tǒng)等。而調(diào)度層的主要任務(wù)為調(diào)度數(shù)據(jù)處理時的資源,其資源多為內(nèi)存與CPU等,該層級的主要工具為YARN。
2.3 大數(shù)據(jù)平臺的整體設(shè)計(jì)架構(gòu)
通過了解大數(shù)據(jù)處理平臺中的不同層級,技術(shù)人員需為該平臺設(shè)計(jì)出一套整體架構(gòu),經(jīng)分析后可得出該平臺的主要架構(gòu)有三個層級,即數(shù)據(jù)流層、應(yīng)用服務(wù)層與基礎(chǔ)資源層。數(shù)據(jù)流層的主要工作任務(wù)是嚴(yán)格控制處理數(shù)據(jù)的過程;應(yīng)用服務(wù)層中包含諸多軟件工具;而基礎(chǔ)資源層需科學(xué)把握云硬盤或云主機(jī)等資源。
首先,在基礎(chǔ)資源層中,技術(shù)人員可將云模式與大數(shù)據(jù)平臺模式進(jìn)行巧妙結(jié)合,借助云環(huán)境中的容量動態(tài)與資源數(shù),合理部署大數(shù)據(jù)集群,該方式不但快捷、簡單,還能有效改善硬件的利用效率。在基礎(chǔ)資源層內(nèi),技術(shù)人員可及時解決云硬盤服務(wù)封裝與自動化集群等相關(guān)問題,并運(yùn)用云計(jì)算技術(shù)科學(xué)對接應(yīng)用服務(wù)層。
其次,在應(yīng)用服務(wù)層內(nèi),技術(shù)人員可將信息處理工具改造為應(yīng)用服務(wù),其內(nèi)部所有的應(yīng)用服務(wù)都需進(jìn)行嚴(yán)格的監(jiān)控與管理,從而在云環(huán)境下使大數(shù)據(jù)的工具真正實(shí)現(xiàn)部署的自動化。應(yīng)用服務(wù)層中的主要內(nèi)容包含服務(wù)的卸載與安裝、服務(wù)監(jiān)控、服務(wù)管理及服務(wù)倉庫的搭建。設(shè)計(jì)應(yīng)用服務(wù)層的主要目的為借助大數(shù)據(jù)工具對大數(shù)據(jù)處理平臺開展自動化部署、監(jiān)控和運(yùn)行維護(hù)等。
最后,在開展數(shù)據(jù)流層時,利用其內(nèi)部的交互控制平臺,進(jìn)一步大數(shù)據(jù)的處理流程,在此過程中,技術(shù)人員應(yīng)保證數(shù)據(jù)的處理方式與具體流向。數(shù)據(jù)流層主要有兩種類型,即自定義數(shù)據(jù)流與數(shù)據(jù)流模板,都可有效增強(qiáng)數(shù)據(jù)流的擴(kuò)展度與可用性,在大數(shù)據(jù)處理平臺中,應(yīng)用數(shù)據(jù)流層能改善數(shù)據(jù)流模板的實(shí)現(xiàn)、設(shè)計(jì)。
2.4 應(yīng)用集群的實(shí)際流程
針對新型大數(shù)據(jù)處理平臺中的應(yīng)用集群,技術(shù)人員需設(shè)置出更加合理的數(shù)據(jù)工作流程,以促進(jìn)特定場景的應(yīng)用。應(yīng)用集群的詳細(xì)流程主要為三步,第一,技術(shù)人員應(yīng)搭建基礎(chǔ)集群,相關(guān)用戶借助云主機(jī)系統(tǒng)、模板或指定的集群名稱創(chuàng)建出系統(tǒng)性的云主機(jī),在安裝完成云主機(jī)后還需讓其集群初始化。第二,技術(shù)人員可創(chuàng)制數(shù)據(jù)流,其模式分為兩種,即數(shù)據(jù)流模板與自定義數(shù)據(jù)流,并將定義好的數(shù)據(jù)流進(jìn)行應(yīng)用場景的設(shè)置。第三,經(jīng)過系統(tǒng)中嚴(yán)格的分析與整合,可將價值量或服務(wù)性較強(qiáng)的數(shù)據(jù)流提取出來,并設(shè)立對應(yīng)的應(yīng)用服務(wù)組,技術(shù)人員可在初始化集群內(nèi)部將確認(rèn)的數(shù)據(jù)流放置到服務(wù)組中,進(jìn)而完成集群構(gòu)建[2]。
3結(jié)束語
綜上所述,隨著信息技術(shù)的發(fā)展與推進(jìn),新型大數(shù)據(jù)處理平臺可開展多項(xiàng)應(yīng)用,借用大數(shù)據(jù)處理技術(shù)與云計(jì)算技術(shù)能實(shí)現(xiàn)該信息平臺的搭建工作。若想讓平臺內(nèi)部的數(shù)據(jù)信息被有效開發(fā),技術(shù)人員需不斷提升應(yīng)用技術(shù)的水平,在搭建大數(shù)據(jù)處理平臺時能更加高效與科學(xué),從而使其內(nèi)部信息更加準(zhǔn)確,更好地應(yīng)用到多種行業(yè)中。
參考文獻(xiàn)
[1] 孫家良.基于云計(jì)算的大數(shù)據(jù)信息安全問題與解決方案探討[J].現(xiàn)代信息科技,2019,3(2):106-107,110.
[2] 趙帥.基于大數(shù)據(jù)的知識服務(wù)平臺構(gòu)建關(guān)鍵技術(shù)研究[J].自動化與儀器儀表,2018(12):44-46.
作者簡介
石玉峰(1981-),女,山西人;學(xué)歷:本科,職稱:講師,現(xiàn)就職單位:河南工業(yè)貿(mào)易職業(yè)學(xué)院,研究方向:計(jì)算機(jī)應(yīng)用。