劉蘇英,張晴晴
(安徽機(jī)電職業(yè)技術(shù)學(xué)院,安徽 蕪湖 241002)
互聯(lián)網(wǎng)與智能技術(shù)盛行的時(shí)代,網(wǎng)絡(luò)信息在消息傳達(dá)中起到不可替代的作用,人們的電子通信意識(shí)與理念也隨之日益更新[1]。社會(huì)各領(lǐng)域信息傳遞需求量千差萬(wàn)別,其中不乏大規(guī)模電子通信信息的傳遞與存儲(chǔ),為高效率、低能耗解決海量電子通信信息存儲(chǔ)問題,本研究基于Hadoop集群構(gòu)建大規(guī)模信息存儲(chǔ)模型[2]。Hadoop集群框架屬于開源云平臺(tái),創(chuàng)造了HDFS文件系統(tǒng)、MapReduce并行式計(jì)算模型的運(yùn)行環(huán)境,打造了良好的海量電子通信文件信息存儲(chǔ)條件[3]。本文提出的Hadoop海量電子通信信息存儲(chǔ)方法不僅構(gòu)建了Hadoop集群存儲(chǔ)模型,并且使用動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法協(xié)調(diào)海量信息存儲(chǔ)任務(wù),減少存儲(chǔ)節(jié)點(diǎn)的能量消耗與負(fù)載情況,實(shí)現(xiàn)高效率、低能耗信息存儲(chǔ)目標(biāo)。
傳統(tǒng)的Hadoop集群利用單節(jié)點(diǎn)主從結(jié)構(gòu)存儲(chǔ)文件,其缺點(diǎn)是對(duì)中心存儲(chǔ)節(jié)點(diǎn)造成極大壓力,甚至發(fā)生電子信息存儲(chǔ)停滯問題。為此利用圖1所示的單節(jié)點(diǎn)雙層Hadoop結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的主從結(jié)構(gòu),分擔(dān)節(jié)點(diǎn)壓力。
主Hadoop結(jié)構(gòu)的分析節(jié)點(diǎn)用于控制中心節(jié)點(diǎn)集群,基于用戶信息向服務(wù)器分配存儲(chǔ)任務(wù)。電子通信信息資源元數(shù)據(jù)全部保存在中心節(jié)點(diǎn)集群中,以Hadoop平臺(tái)的元數(shù)據(jù)為基礎(chǔ)構(gòu)建完整的數(shù)據(jù)庫(kù)。數(shù)據(jù)管理節(jié)點(diǎn)屬于低層次的數(shù)據(jù)節(jié)點(diǎn)集群控制單元,集群的心跳數(shù)據(jù)檢測(cè)、節(jié)點(diǎn)能量均衡負(fù)載、集群的其他事務(wù)管理均在此單元中進(jìn)行,不具備元數(shù)據(jù)存儲(chǔ)功能[4]。
圖1 單節(jié)點(diǎn)雙層Hadoop結(jié)構(gòu)圖
Hadoop集群環(huán)境中,存儲(chǔ)客戶端是電子通信信息上傳、接收行為的發(fā)出者,即電子信息傳輸?shù)紿DFS文件系統(tǒng)的行為由客戶端完成。Hadoop集群存儲(chǔ)結(jié)構(gòu)打造一個(gè)數(shù)據(jù)緩存單元作為發(fā)送端傳輸數(shù)據(jù)的存儲(chǔ)模塊,以降低存儲(chǔ)系統(tǒng)同硬盤交互的頻次,增強(qiáng)Hadoop集群存儲(chǔ)電子信息的效率[5]。數(shù)據(jù)緩存單元存儲(chǔ)規(guī)模自適應(yīng)確定,一般
圖2 基于數(shù)據(jù)緩存單元的海量電子通信信息存儲(chǔ)步驟圖
為128MB大小,如果緩存單元已滿此時(shí)數(shù)據(jù)自動(dòng)傳輸至HDFS文件系統(tǒng)內(nèi),此過(guò)程實(shí)現(xiàn)步驟見圖2所示。
MapReduce并行計(jì)算是Hadoop集群處理海量分布式數(shù)據(jù)存儲(chǔ)問題的優(yōu)質(zhì)編程模型,具有優(yōu)秀的并行計(jì)算性能[6]。MapReduce并行計(jì)算的原理是分擔(dān)海量數(shù)據(jù)計(jì)算任務(wù),同時(shí)開展大規(guī)模電子通信信息的計(jì)算行為,以合并的方式統(tǒng)計(jì)最終的處理結(jié)果[7]。圖3描述了MapReduce計(jì)算模型處理數(shù)據(jù)的基本原則。
圖3 MapReduce計(jì)算模型處理數(shù)據(jù)的基本原則
MapReduce計(jì)算模型處理海量電子通信信息存儲(chǔ)任務(wù)時(shí),基于分割法將數(shù)據(jù)劃分成若干個(gè)子任務(wù),每個(gè)計(jì)算節(jié)點(diǎn)擔(dān)負(fù)均衡的計(jì)算任務(wù),這樣在相同的時(shí)間內(nèi)可以完成更多數(shù)據(jù)計(jì)算任務(wù),節(jié)約了Hadoop存儲(chǔ)數(shù)據(jù)的時(shí)間開銷。
本文方法的創(chuàng)新之處在于使用Hadoop存儲(chǔ)海量信息的同時(shí),基于動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法均衡存儲(chǔ)節(jié)點(diǎn)的負(fù)載情況,避免個(gè)別或者少數(shù)節(jié)點(diǎn)負(fù)擔(dān)過(guò)重,既能節(jié)約數(shù)據(jù)存儲(chǔ)的時(shí)間又能延長(zhǎng)Hadoop存儲(chǔ)系統(tǒng)節(jié)點(diǎn)的使用壽命[8]。動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)存儲(chǔ)系統(tǒng)子節(jié)點(diǎn)的負(fù)載情況,精準(zhǔn)計(jì)算節(jié)點(diǎn)的存儲(chǔ)數(shù)據(jù)的負(fù)載量,根據(jù)負(fù)載量協(xié)調(diào)分配電子通信信息的存儲(chǔ)任務(wù)。
Hadoop集群的MapReduce模型任務(wù)調(diào)度依賴于JobTracker和TaskTrasker實(shí)現(xiàn),其中JobTracker與節(jié)點(diǎn)任務(wù)調(diào)度息息相關(guān),用于實(shí)時(shí)監(jiān)測(cè)與控制節(jié)點(diǎn)運(yùn)行狀態(tài),對(duì)存儲(chǔ)資源進(jìn)行有效管理。心跳數(shù)據(jù)是動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法實(shí)踐的核心依據(jù),此變量由TaskTrasker定期采集反饋,算法基于心跳數(shù)據(jù)求取節(jié)點(diǎn)負(fù)載量以及隊(duì)列任務(wù)承擔(dān)水平[9],據(jù)此生成能夠減少電子通信信息文件存儲(chǔ)時(shí)間的動(dòng)態(tài)優(yōu)先級(jí)G。算法實(shí)現(xiàn)的步驟如下:
1)定義k表示當(dāng)前并行任務(wù)數(shù)量,隊(duì)列承載能力為D,求取這兩個(gè)參量值,當(dāng)k達(dá)到并行任務(wù)數(shù)量上限值時(shí)執(zhí)行步驟7,否則按順序操作。
2)D值最大的隊(duì)列負(fù)責(zé)接收J(rèn)obTracker發(fā)送的數(shù)據(jù)存儲(chǔ)任務(wù),全部隊(duì)列遍歷后基于優(yōu)先級(jí)排序信息存儲(chǔ)任務(wù);進(jìn)而求取正常運(yùn)行節(jié)點(diǎn)的負(fù)載量獲取最大值的健康節(jié)點(diǎn),如果此節(jié)點(diǎn)符合隊(duì)列任務(wù)執(zhí)行資源標(biāo)準(zhǔn)則按順序步驟操作,反之執(zhí)行步驟6。
3)判斷當(dāng)前節(jié)點(diǎn)是否屬于健康節(jié)點(diǎn)范疇,若屬于執(zhí)行步驟4,若不屬于執(zhí)行步驟5。
4)當(dāng)前節(jié)點(diǎn)資源協(xié)調(diào)到當(dāng)前任務(wù)上,執(zhí)行步驟1。
5)標(biāo)記此節(jié)點(diǎn)的狀態(tài)為“非健康”,繼續(xù)選出最大值負(fù)載量的健康節(jié)點(diǎn)。
6)由其他隊(duì)列接收當(dāng)前存儲(chǔ)任務(wù),繼續(xù)遍歷隊(duì)列,根據(jù)優(yōu)先級(jí)排序任務(wù)列表。
7)終止節(jié)點(diǎn)任務(wù)調(diào)度與分配,動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法結(jié)束。
算法中隊(duì)列承載能力計(jì)算方法如公式(1)所示:
(1)
其中,G為普通健康節(jié)點(diǎn)的負(fù)載能力。
算法采用公式(2)描述的方法優(yōu)化優(yōu)先級(jí)計(jì)算方法,以減少小型任務(wù)排隊(duì)等待的時(shí)間過(guò)長(zhǎng)而降低信息存儲(chǔ)效率:
(2)
公式中,ta、tb分別表示任務(wù)等待隊(duì)列的時(shí)間開銷、任務(wù)資源量需求。此表達(dá)式中隊(duì)列等待時(shí)間越長(zhǎng)、任務(wù)優(yōu)先級(jí)則越大;任務(wù)資源量需求越小、任務(wù)優(yōu)先級(jí)越大,滿足了海量電子通信信息存儲(chǔ)時(shí)間降低、效率提升的需求。
使用Hadoop1.2版本集群利用虛擬機(jī)搭建Hadoop集群存儲(chǔ)環(huán)境,展開海量電子通信信息存儲(chǔ)測(cè)試,以驗(yàn)證本文方法在大規(guī)模信息存儲(chǔ)中的有效性及優(yōu)勢(shì)。實(shí)驗(yàn)集群包括4個(gè)節(jié)點(diǎn),其中1個(gè)節(jié)點(diǎn)命名為Master,其余3個(gè)節(jié)點(diǎn)命名為Slave。實(shí)驗(yàn)系統(tǒng)版本為L(zhǎng)inux Redhat9.0,實(shí)驗(yàn)數(shù)據(jù)為采集自某企業(yè)的海量電子通信信息數(shù)據(jù)集,為了突出本文方法的性能優(yōu)勢(shì),采用傳統(tǒng)Hadoop海量信息存儲(chǔ)方法、基于云計(jì)算的海量信息存儲(chǔ)方法進(jìn)行對(duì)比測(cè)試。
本次研究主要測(cè)試了本文方法存儲(chǔ)的時(shí)間消耗情況,測(cè)試期間選取2000個(gè)同等規(guī)模的電子通信數(shù)據(jù)作為測(cè)試集,記錄了文件數(shù)據(jù)增加情況下3種方法存儲(chǔ)文件的時(shí)間開銷情況,如表1所示。
由表1數(shù)據(jù)可知,隨著文件數(shù)量的增加,本文方法存儲(chǔ)時(shí)間穩(wěn)步增長(zhǎng),但增加幅度不大,存儲(chǔ)1000個(gè)文件僅花費(fèi)0.69s,存儲(chǔ)2000個(gè)文件時(shí)間開銷為1.27s,基本處于小幅度增加狀態(tài)。相比之下,傳統(tǒng)Hadoop海量信息存儲(chǔ)方法在處理200個(gè)文件的初始階段時(shí)間消耗便持續(xù)高走,當(dāng)文件數(shù)量增加至1000個(gè),存儲(chǔ)時(shí)間達(dá)到1.38s,最終處理2000個(gè)文件的時(shí)間開銷為2.68s?;谠朴?jì)算的海量信息存儲(chǔ)方法由于使用了云計(jì)算技術(shù),在數(shù)據(jù)存儲(chǔ)初期取得了較好的存儲(chǔ)效率,但是文件數(shù)量由1400個(gè)增加至1600個(gè)的過(guò)程中,時(shí)間驟然增加0.31s,文件增加至1800個(gè)時(shí),時(shí)間開銷增加了0.47s,增幅較大,文件增加到2000個(gè)時(shí),僅花費(fèi)了0.12s,恢復(fù)了正常的數(shù)據(jù)存儲(chǔ)效率;此情況是由于該方法沒有進(jìn)行均衡負(fù)載計(jì)算導(dǎo)致的,令部分節(jié)點(diǎn)過(guò)多承載存儲(chǔ)任務(wù),呈現(xiàn)了存儲(chǔ)時(shí)間的階段性波動(dòng)。
表1 3種方法存儲(chǔ)文件的時(shí)間開銷(s)
本文詳細(xì)研究了海量電子通信信息的高效率存儲(chǔ)問題,搭建Hadoop集群模型,最關(guān)鍵的是使用動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法對(duì)集群存儲(chǔ)節(jié)點(diǎn)任務(wù)進(jìn)行均衡調(diào)節(jié),降低部分節(jié)點(diǎn)任務(wù)負(fù)載量,避免節(jié)點(diǎn)過(guò)多承載數(shù)據(jù)存儲(chǔ)任務(wù)而增加存儲(chǔ)信息的時(shí)間開銷,降低節(jié)點(diǎn)硬件使用壽命。最后在測(cè)試中驗(yàn)證了本文方法存儲(chǔ)海量電子通信信息的高效性,具有一定的推廣應(yīng)用價(jià)值。未來(lái)關(guān)于電子通信大數(shù)據(jù)存儲(chǔ)問題研究的重點(diǎn)將放在如何降低存儲(chǔ)系統(tǒng)整體時(shí)間開銷方面,從宏觀角度提高海量文件信息存儲(chǔ)效率。