基于Hadoop的高效率海量電子通信信息存儲(chǔ)方法

2021-04-21 09:12劉蘇英張晴晴

安陽(yáng)師范學(xué)院學(xué)報(bào) 2021年2期

劉蘇英，張晴晴

(安徽機(jī)電職業(yè)技術(shù)學(xué)院，安徽蕪湖 241002)

0 引言

互聯(lián)網(wǎng)與智能技術(shù)盛行的時(shí)代，網(wǎng)絡(luò)信息在消息傳達(dá)中起到不可替代的作用，人們的電子通信意識(shí)與理念也隨之日益更新[1]。社會(huì)各領(lǐng)域信息傳遞需求量千差萬(wàn)別，其中不乏大規(guī)模電子通信信息的傳遞與存儲(chǔ)，為高效率、低能耗解決海量電子通信信息存儲(chǔ)問題，本研究基于Hadoop集群構(gòu)建大規(guī)模信息存儲(chǔ)模型[2]。Hadoop集群框架屬于開源云平臺(tái)，創(chuàng)造了HDFS文件系統(tǒng)、MapReduce并行式計(jì)算模型的運(yùn)行環(huán)境，打造了良好的海量電子通信文件信息存儲(chǔ)條件[3]。本文提出的Hadoop海量電子通信信息存儲(chǔ)方法不僅構(gòu)建了Hadoop集群存儲(chǔ)模型，并且使用動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法協(xié)調(diào)海量信息存儲(chǔ)任務(wù)，減少存儲(chǔ)節(jié)點(diǎn)的能量消耗與負(fù)載情況，實(shí)現(xiàn)高效率、低能耗信息存儲(chǔ)目標(biāo)。

1 基于Hadoop的高效率海量電子通信信息存儲(chǔ)技術(shù)

1.1 基于Hadoop集群的云存儲(chǔ)模型設(shè)計(jì)

傳統(tǒng)的Hadoop集群利用單節(jié)點(diǎn)主從結(jié)構(gòu)存儲(chǔ)文件，其缺點(diǎn)是對(duì)中心存儲(chǔ)節(jié)點(diǎn)造成極大壓力，甚至發(fā)生電子信息存儲(chǔ)停滯問題。為此利用圖1所示的單節(jié)點(diǎn)雙層Hadoop結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的主從結(jié)構(gòu)，分擔(dān)節(jié)點(diǎn)壓力。

主Hadoop結(jié)構(gòu)的分析節(jié)點(diǎn)用于控制中心節(jié)點(diǎn)集群，基于用戶信息向服務(wù)器分配存儲(chǔ)任務(wù)。電子通信信息資源元數(shù)據(jù)全部保存在中心節(jié)點(diǎn)集群中，以Hadoop平臺(tái)的元數(shù)據(jù)為基礎(chǔ)構(gòu)建完整的數(shù)據(jù)庫(kù)。數(shù)據(jù)管理節(jié)點(diǎn)屬于低層次的數(shù)據(jù)節(jié)點(diǎn)集群控制單元，集群的心跳數(shù)據(jù)檢測(cè)、節(jié)點(diǎn)能量均衡負(fù)載、集群的其他事務(wù)管理均在此單元中進(jìn)行，不具備元數(shù)據(jù)存儲(chǔ)功能[4]。

圖1 單節(jié)點(diǎn)雙層Hadoop結(jié)構(gòu)圖

Hadoop集群環(huán)境中，存儲(chǔ)客戶端是電子通信信息上傳、接收行為的發(fā)出者，即電子信息傳輸?shù)紿DFS文件系統(tǒng)的行為由客戶端完成。Hadoop集群存儲(chǔ)結(jié)構(gòu)打造一個(gè)數(shù)據(jù)緩存單元作為發(fā)送端傳輸數(shù)據(jù)的存儲(chǔ)模塊，以降低存儲(chǔ)系統(tǒng)同硬盤交互的頻次，增強(qiáng)Hadoop集群存儲(chǔ)電子信息的效率[5]。數(shù)據(jù)緩存單元存儲(chǔ)規(guī)模自適應(yīng)確定，一般

圖2 基于數(shù)據(jù)緩存單元的海量電子通信信息存儲(chǔ)步驟圖

為128MB大小，如果緩存單元已滿此時(shí)數(shù)據(jù)自動(dòng)傳輸至HDFS文件系統(tǒng)內(nèi)，此過(guò)程實(shí)現(xiàn)步驟見圖2所示。

1.2 基于MapReduce的電子通信信息并行計(jì)算存儲(chǔ)模型

MapReduce并行計(jì)算是Hadoop集群處理海量分布式數(shù)據(jù)存儲(chǔ)問題的優(yōu)質(zhì)編程模型，具有優(yōu)秀的并行計(jì)算性能[6]。MapReduce并行計(jì)算的原理是分擔(dān)海量數(shù)據(jù)計(jì)算任務(wù)，同時(shí)開展大規(guī)模電子通信信息的計(jì)算行為，以合并的方式統(tǒng)計(jì)最終的處理結(jié)果[7]。圖3描述了MapReduce計(jì)算模型處理數(shù)據(jù)的基本原則。

圖3 MapReduce計(jì)算模型處理數(shù)據(jù)的基本原則

MapReduce計(jì)算模型處理海量電子通信信息存儲(chǔ)任務(wù)時(shí)，基于分割法將數(shù)據(jù)劃分成若干個(gè)子任務(wù)，每個(gè)計(jì)算節(jié)點(diǎn)擔(dān)負(fù)均衡的計(jì)算任務(wù)，這樣在相同的時(shí)間內(nèi)可以完成更多數(shù)據(jù)計(jì)算任務(wù)，節(jié)約了Hadoop存儲(chǔ)數(shù)據(jù)的時(shí)間開銷。

1.3 基于動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法的節(jié)點(diǎn)均衡負(fù)載算法

本文方法的創(chuàng)新之處在于使用Hadoop存儲(chǔ)海量信息的同時(shí)，基于動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法均衡存儲(chǔ)節(jié)點(diǎn)的負(fù)載情況，避免個(gè)別或者少數(shù)節(jié)點(diǎn)負(fù)擔(dān)過(guò)重，既能節(jié)約數(shù)據(jù)存儲(chǔ)的時(shí)間又能延長(zhǎng)Hadoop存儲(chǔ)系統(tǒng)節(jié)點(diǎn)的使用壽命[8]。動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)存儲(chǔ)系統(tǒng)子節(jié)點(diǎn)的負(fù)載情況，精準(zhǔn)計(jì)算節(jié)點(diǎn)的存儲(chǔ)數(shù)據(jù)的負(fù)載量，根據(jù)負(fù)載量協(xié)調(diào)分配電子通信信息的存儲(chǔ)任務(wù)。

Hadoop集群的MapReduce模型任務(wù)調(diào)度依賴于JobTracker和TaskTrasker實(shí)現(xiàn)，其中JobTracker與節(jié)點(diǎn)任務(wù)調(diào)度息息相關(guān)，用于實(shí)時(shí)監(jiān)測(cè)與控制節(jié)點(diǎn)運(yùn)行狀態(tài)，對(duì)存儲(chǔ)資源進(jìn)行有效管理。心跳數(shù)據(jù)是動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法實(shí)踐的核心依據(jù)，此變量由TaskTrasker定期采集反饋，算法基于心跳數(shù)據(jù)求取節(jié)點(diǎn)負(fù)載量以及隊(duì)列任務(wù)承擔(dān)水平[9]，據(jù)此生成能夠減少電子通信信息文件存儲(chǔ)時(shí)間的動(dòng)態(tài)優(yōu)先級(jí)G。算法實(shí)現(xiàn)的步驟如下：

1)定義k表示當(dāng)前并行任務(wù)數(shù)量，隊(duì)列承載能力為D，求取這兩個(gè)參量值，當(dāng)k達(dá)到并行任務(wù)數(shù)量上限值時(shí)執(zhí)行步驟7，否則按順序操作。

2)D值最大的隊(duì)列負(fù)責(zé)接收J(rèn)obTracker發(fā)送的數(shù)據(jù)存儲(chǔ)任務(wù)，全部隊(duì)列遍歷后基于優(yōu)先級(jí)排序信息存儲(chǔ)任務(wù)；進(jìn)而求取正常運(yùn)行節(jié)點(diǎn)的負(fù)載量獲取最大值的健康節(jié)點(diǎn)，如果此節(jié)點(diǎn)符合隊(duì)列任務(wù)執(zhí)行資源標(biāo)準(zhǔn)則按順序步驟操作，反之執(zhí)行步驟6。

3)判斷當(dāng)前節(jié)點(diǎn)是否屬于健康節(jié)點(diǎn)范疇，若屬于執(zhí)行步驟4，若不屬于執(zhí)行步驟5。

4)當(dāng)前節(jié)點(diǎn)資源協(xié)調(diào)到當(dāng)前任務(wù)上，執(zhí)行步驟1。

5)標(biāo)記此節(jié)點(diǎn)的狀態(tài)為“非健康”，繼續(xù)選出最大值負(fù)載量的健康節(jié)點(diǎn)。

6)由其他隊(duì)列接收當(dāng)前存儲(chǔ)任務(wù)，繼續(xù)遍歷隊(duì)列，根據(jù)優(yōu)先級(jí)排序任務(wù)列表。

7)終止節(jié)點(diǎn)任務(wù)調(diào)度與分配，動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法結(jié)束。

算法中隊(duì)列承載能力計(jì)算方法如公式(1)所示：

(1)

其中，G為普通健康節(jié)點(diǎn)的負(fù)載能力。

算法采用公式(2)描述的方法優(yōu)化優(yōu)先級(jí)計(jì)算方法，以減少小型任務(wù)排隊(duì)等待的時(shí)間過(guò)長(zhǎng)而降低信息存儲(chǔ)效率：

(2)

公式中，ta、tb分別表示任務(wù)等待隊(duì)列的時(shí)間開銷、任務(wù)資源量需求。此表達(dá)式中隊(duì)列等待時(shí)間越長(zhǎng)、任務(wù)優(yōu)先級(jí)則越大；任務(wù)資源量需求越小、任務(wù)優(yōu)先級(jí)越大，滿足了海量電子通信信息存儲(chǔ)時(shí)間降低、效率提升的需求。

2 實(shí)驗(yàn)與分析

使用Hadoop1.2版本集群利用虛擬機(jī)搭建Hadoop集群存儲(chǔ)環(huán)境，展開海量電子通信信息存儲(chǔ)測(cè)試，以驗(yàn)證本文方法在大規(guī)模信息存儲(chǔ)中的有效性及優(yōu)勢(shì)。實(shí)驗(yàn)集群包括4個(gè)節(jié)點(diǎn)，其中1個(gè)節(jié)點(diǎn)命名為Master，其余3個(gè)節(jié)點(diǎn)命名為Slave。實(shí)驗(yàn)系統(tǒng)版本為L(zhǎng)inux Redhat9.0，實(shí)驗(yàn)數(shù)據(jù)為采集自某企業(yè)的海量電子通信信息數(shù)據(jù)集，為了突出本文方法的性能優(yōu)勢(shì)，采用傳統(tǒng)Hadoop海量信息存儲(chǔ)方法、基于云計(jì)算的海量信息存儲(chǔ)方法進(jìn)行對(duì)比測(cè)試。

本次研究主要測(cè)試了本文方法存儲(chǔ)的時(shí)間消耗情況，測(cè)試期間選取2000個(gè)同等規(guī)模的電子通信數(shù)據(jù)作為測(cè)試集，記錄了文件數(shù)據(jù)增加情況下3種方法存儲(chǔ)文件的時(shí)間開銷情況，如表1所示。

由表1數(shù)據(jù)可知，隨著文件數(shù)量的增加，本文方法存儲(chǔ)時(shí)間穩(wěn)步增長(zhǎng)，但增加幅度不大，存儲(chǔ)1000個(gè)文件僅花費(fèi)0.69s，存儲(chǔ)2000個(gè)文件時(shí)間開銷為1.27s，基本處于小幅度增加狀態(tài)。相比之下，傳統(tǒng)Hadoop海量信息存儲(chǔ)方法在處理200個(gè)文件的初始階段時(shí)間消耗便持續(xù)高走，當(dāng)文件數(shù)量增加至1000個(gè)，存儲(chǔ)時(shí)間達(dá)到1.38s，最終處理2000個(gè)文件的時(shí)間開銷為2.68s?；谠朴?jì)算的海量信息存儲(chǔ)方法由于使用了云計(jì)算技術(shù)，在數(shù)據(jù)存儲(chǔ)初期取得了較好的存儲(chǔ)效率，但是文件數(shù)量由1400個(gè)增加至1600個(gè)的過(guò)程中，時(shí)間驟然增加0.31s，文件增加至1800個(gè)時(shí)，時(shí)間開銷增加了0.47s，增幅較大，文件增加到2000個(gè)時(shí)，僅花費(fèi)了0.12s，恢復(fù)了正常的數(shù)據(jù)存儲(chǔ)效率；此情況是由于該方法沒有進(jìn)行均衡負(fù)載計(jì)算導(dǎo)致的，令部分節(jié)點(diǎn)過(guò)多承載存儲(chǔ)任務(wù)，呈現(xiàn)了存儲(chǔ)時(shí)間的階段性波動(dòng)。

表1 3種方法存儲(chǔ)文件的時(shí)間開銷(s)

3 結(jié)論

本文詳細(xì)研究了海量電子通信信息的高效率存儲(chǔ)問題，搭建Hadoop集群模型，最關(guān)鍵的是使用動(dòng)態(tài)優(yōu)先級(jí)負(fù)載均衡調(diào)度算法對(duì)集群存儲(chǔ)節(jié)點(diǎn)任務(wù)進(jìn)行均衡調(diào)節(jié)，降低部分節(jié)點(diǎn)任務(wù)負(fù)載量，避免節(jié)點(diǎn)過(guò)多承載數(shù)據(jù)存儲(chǔ)任務(wù)而增加存儲(chǔ)信息的時(shí)間開銷，降低節(jié)點(diǎn)硬件使用壽命。最后在測(cè)試中驗(yàn)證了本文方法存儲(chǔ)海量電子通信信息的高效性，具有一定的推廣應(yīng)用價(jià)值。未來(lái)關(guān)于電子通信大數(shù)據(jù)存儲(chǔ)問題研究的重點(diǎn)將放在如何降低存儲(chǔ)系統(tǒng)整體時(shí)間開銷方面，從宏觀角度提高海量文件信息存儲(chǔ)效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡