段軍紅 張小東 史慶華
互聯(lián)網(wǎng)信息技術(shù)的大面積普及,要求互聯(lián)網(wǎng)應(yīng)承擔(dān)著爆炸式的信息增長模式,特別是在對海量數(shù)據(jù)進(jìn)行繁雜處理期間,部分無序信息的智能化分析及就顯得尤為重要,通過智能化分析能了解到網(wǎng)絡(luò)海量數(shù)據(jù)信息的高度異構(gòu)性特點(diǎn),在多項(xiàng)海量數(shù)據(jù)信息異構(gòu)結(jié)構(gòu)使用中,提出新的云計(jì)算數(shù)據(jù)存儲管理模式。根據(jù)對其研究,能初步獲悉,系統(tǒng)開設(shè)的海量數(shù)據(jù)管理任務(wù)分析能讓整個管理的效率更高、安全性更好、維護(hù)性更強(qiáng)。
【關(guān)鍵詞】海量數(shù)據(jù) 平臺設(shè)計(jì) 開發(fā)
由于數(shù)據(jù)信息開始從GB、TB持續(xù)到PB的量級爆炸式模式進(jìn)行增長,所以數(shù)據(jù)的整體變化具有多樣性,特別是地理上分散性極好,能更好的對數(shù)據(jù)進(jìn)行海量的管理,從而提出更好的管理方式。為能讓海量數(shù)據(jù)的信息存儲狀況達(dá)到最優(yōu)狀態(tài),就要實(shí)現(xiàn)海量數(shù)據(jù)的無序繁雜處理模式,故此使用Hadoop云平臺海量數(shù)據(jù)存儲模式就顯得十分必要。
1 Hadoop框架簡介
Hadoop是系統(tǒng)性的開源組織結(jié)構(gòu),能對數(shù)據(jù)進(jìn)行海量的分布式處理作為系統(tǒng)性框架組織結(jié)構(gòu),它是以開源軟件的形式存在的,具有可靠性、伸縮性和高效性等特點(diǎn)。由于Hadoop是一種應(yīng)用程序,能提供更多的可透明接口,所以Hadop的運(yùn)行多集中在計(jì)算機(jī)集群上,能在大量的運(yùn)行中使用廉價(jià)的集群運(yùn)行,由于運(yùn)行的成本偏低,所以能根據(jù)當(dāng)前的所需適度的對Hadoop集群服務(wù)進(jìn)行添加或者刪除。我們知道Hadoop是為了分布式的數(shù)據(jù)存儲提供更多的數(shù)據(jù)方式,所以能對數(shù)據(jù)進(jìn)行海量的信息存儲。當(dāng)前Hadoop的組建可以如圖所示,在使用Hadoop框架進(jìn)行系統(tǒng)研發(fā)的同時(shí),要把HDFS分布式文件系統(tǒng)存儲在節(jié)點(diǎn)文件上面。MapReduce編程系統(tǒng)能對數(shù)據(jù)進(jìn)行系統(tǒng)化的海量分析和運(yùn)算,HBase是面向集群開設(shè)的分布式數(shù)據(jù)存儲系統(tǒng),能根據(jù)具體情況隨時(shí)隨地的進(jìn)行大規(guī)模的數(shù)據(jù)集群操作。
2 海量存儲平臺的設(shè)計(jì)
2.1 平臺設(shè)計(jì)的目標(biāo)與原則
根據(jù)現(xiàn)有的Hadoop的特點(diǎn),能了解到數(shù)據(jù)存儲平臺設(shè)計(jì)的主要特點(diǎn)之一是設(shè)計(jì)速度快,數(shù)據(jù)能進(jìn)行海量的處理。系統(tǒng)設(shè)計(jì)原則如下:
2.1.1 容易擴(kuò)展
系統(tǒng)的擴(kuò)展能根據(jù)現(xiàn)有的節(jié)點(diǎn)數(shù)量,保障存儲的可擴(kuò)展性。
2.1.2 節(jié)約成本
使用低廉的PC服務(wù)器進(jìn)行數(shù)據(jù)云存儲平臺的系統(tǒng)性搭建,節(jié)約平臺的部分投資成本。
2.1.3 快速高效的原則
當(dāng)前受到Hadoop云平臺的特性影響,能對海量的數(shù)據(jù)信息進(jìn)行系統(tǒng)性的分發(fā)操作,均使用Map/Reduce進(jìn)行計(jì)算,就能在不同的節(jié)點(diǎn)上開展本地計(jì)算,讓電信數(shù)據(jù)的存儲分析效率達(dá)到最高的狀態(tài)。
2.1.4 易于進(jìn)行管理
數(shù)據(jù)信息存儲管理期間,系統(tǒng)的應(yīng)用用戶能根據(jù)用戶使用狀況對應(yīng)提供多個異構(gòu)數(shù)據(jù)庫管理模式,在使用接口訪問的方式時(shí)能讓多個通訊設(shè)備具有良好的架構(gòu)實(shí)施條件。
2.2 海量數(shù)據(jù)存儲的整體架構(gòu)形式
系統(tǒng)能根據(jù)用戶的具體需要,使用云計(jì)算的方式對計(jì)算機(jī)進(jìn)行平臺處理,然后將經(jīng)過處理的所有原始數(shù)據(jù)均勻的分配到每個集群計(jì)算機(jī)節(jié)點(diǎn)之上,并對數(shù)據(jù)進(jìn)行分布式的存儲計(jì)算處理,讓開發(fā)系統(tǒng)滿足數(shù)據(jù)的高效處理要求。存儲架構(gòu)設(shè)計(jì)期間,使用HDFS存儲數(shù)據(jù)信息,由于該數(shù)據(jù)信息模式能提供多種API接口和系統(tǒng)操作指令,便于數(shù)據(jù)進(jìn)行加載存儲。所有待處理的源數(shù)據(jù)都要經(jīng)過分解處理以后,在將MapReduce分解成不同的小數(shù)據(jù)集,完成后再次進(jìn)行數(shù)據(jù)處理,最終能將所有的數(shù)據(jù)處理結(jié)果直接存儲到Hbade的分布數(shù)據(jù)庫內(nèi)。
2.3 Hadoop平臺系統(tǒng)結(jié)構(gòu)
Hadoop的平臺系統(tǒng)化結(jié)構(gòu),多是采用分層結(jié)構(gòu)化模式開設(shè)的。分布式的平臺結(jié)構(gòu)包括交互層、業(yè)務(wù)應(yīng)用層、數(shù)據(jù)挖掘?qū)拥确植际降挠?jì)算機(jī)層面。當(dāng)前分層計(jì)算機(jī)主要包含的項(xiàng)目有HDFS、MapReduce、系統(tǒng)模塊等。處理海量信息的前提是要通過存儲處理的方式像HDFS提供大量規(guī)模畫的數(shù)據(jù)存儲模式,通過存儲空間的內(nèi)容重塑,直接對數(shù)據(jù)進(jìn)行系統(tǒng)化的預(yù)處理和輸出計(jì)算結(jié)果的操作。MapReduce的擴(kuò)展性較好,能直接進(jìn)行底層的架構(gòu)設(shè)計(jì)活動,故此能在Hadoop計(jì)算集群系統(tǒng)的節(jié)點(diǎn)上進(jìn)行ETL模塊的數(shù)據(jù)挖掘模式,可以讓用戶使用MapReduce的透明調(diào)用頂層數(shù)據(jù)接口開展海量的數(shù)據(jù)化處理操作。
3 結(jié)束語
目前海量的數(shù)據(jù)存儲系統(tǒng)中,效率分析偏低,很難滿足使用者和管理者的切實(shí)需要。本文主要概述Hadoop的HIDFS和MapReduce的關(guān)鍵性技術(shù)分析,在以Hadoop為前提的情況下開展動態(tài)的可擴(kuò)展性海量數(shù)據(jù)存儲系統(tǒng)。使用這種存儲方式能讓數(shù)據(jù)的存儲更高效,也能通過新的設(shè)計(jì)方法和技術(shù)路線滿足數(shù)據(jù)處理的可行性,讓數(shù)據(jù)系統(tǒng)的安全性能得到切實(shí)保障。
參考文獻(xiàn)
[1]程蓓,孫勝春,李忠猛,耿洪健,周維.基于Hadoop技術(shù)的數(shù)字化校園海量數(shù)據(jù)存儲系統(tǒng)研究與設(shè)計(jì)[J].實(shí)驗(yàn)技術(shù)與管理,2015(06):14-15.
[2]王宏偉,高巖淵,崔錄庫,文鵬兵.大數(shù)據(jù)技術(shù)在卡口系統(tǒng)聯(lián)網(wǎng)方面的應(yīng)用——基于Hadoop的卡口系統(tǒng)云計(jì)算聯(lián)網(wǎng)平臺改造設(shè)計(jì)與開發(fā)[J].中國交通信息產(chǎn)業(yè),2016(11):12-13.
[3]劉玉梅,宋鐵琛.基于Hadoop的海量交通數(shù)據(jù)混合存儲查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(01):12-13.
[4]符永鈺,于小文,于元元,胡豪.基于Hadoop云存儲高速公路遠(yuǎn)程視頻監(jiān)控系統(tǒng)的研究與設(shè)計(jì)[J].電力系統(tǒng)保護(hù)與控制,2016(16):12-13.
[5]戚金嬡.微博輿情的Hadoop存儲和管理平臺設(shè)計(jì)與實(shí)現(xiàn)[J].吉林大學(xué),2015(08):12-13.