国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案

2019-06-26 01:31:56韓朵朵劉會(huì)杰許愛雪
關(guān)鍵詞:結(jié)構(gòu)化解決方案數(shù)據(jù)庫

韓朵朵 劉會(huì)杰 許愛雪

(石家莊鐵路職業(yè)技術(shù)學(xué)院 河北石家莊 050041)

1 引言

隨著21世紀(jì)進(jìn)入信息化時(shí)代,由人類日益普遍的網(wǎng)絡(luò)行為伴生的數(shù)據(jù)信息量呈爆發(fā)式增長,大數(shù)據(jù)概念也應(yīng)運(yùn)而生。由于大數(shù)據(jù)包含了超出傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的海量數(shù)據(jù),處理這些信息時(shí)必須采用與傳統(tǒng)數(shù)據(jù)處理方式不同的解決方案。目前,圍繞大數(shù)據(jù)的相關(guān)研究已經(jīng)大量存在,主要集中在對數(shù)據(jù)的快速捕獲、管理、存儲(chǔ)和分析等關(guān)鍵問題的解決上。其中,由Apache軟件基金研發(fā)的Hadoop技術(shù)在大數(shù)據(jù)分析處理領(lǐng)域占據(jù)了主流地位。

本文介紹了大數(shù)據(jù)的概念及Hadoop生態(tài)系統(tǒng)的組成框架,重點(diǎn)從大數(shù)據(jù)平臺(tái)中面臨的數(shù)據(jù)存儲(chǔ)、分析、管理及安全等關(guān)鍵問題入手,對基于Hadoop生態(tài)系統(tǒng)的解決方案進(jìn)行了分析綜述,并結(jié)合實(shí)際指出基于Hadoop的大數(shù)據(jù)平臺(tái)的研究和應(yīng)用發(fā)展方向。

1.1 大數(shù)據(jù)特征

當(dāng)數(shù)據(jù)量超過一定規(guī)模,致使常規(guī)軟件不能在可接受的時(shí)長內(nèi)完成對數(shù)據(jù)的捕獲、管理和處理工作時(shí),這些數(shù)據(jù)即可稱為大數(shù)據(jù)(big data)。大數(shù)據(jù)是物理世界在數(shù)字空間的映射,通過大數(shù)據(jù)平臺(tái)有效組織各類數(shù)據(jù),模擬物理世界屬性,即可用來分析和服務(wù)現(xiàn)實(shí)世界,這也是大數(shù)據(jù)所追求的最終目的。大數(shù)據(jù)具有典型的“4V”特征,分別為:

(1)體量(Volume):數(shù)據(jù)量級高,從TB量級躍增到PB量級,并持續(xù)增高。

(2)速度(Velocity):處理速度快,對于時(shí)間敏感的數(shù)據(jù)處理,一般要在秒級給出分析結(jié)果,時(shí)間太長就失去價(jià)值。比如發(fā)現(xiàn)詐騙事件,數(shù)據(jù)就必須要及時(shí)反饋給相應(yīng)機(jī)構(gòu)。

(3)多樣性(Variety):數(shù)據(jù)結(jié)構(gòu)復(fù)雜,包括各種結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),類型涵蓋視頻、文本、音頻、圖片和日志數(shù)據(jù)等。

(4)價(jià)值(Value):價(jià)值密度低但存在著可觀的商業(yè)價(jià)值,例同監(jiān)控視頻,連續(xù)不停頓的畫面里,有價(jià)值的可能僅有幾秒。

1.2 Hadoop生態(tài)系統(tǒng)

目前,遍觀國內(nèi)外現(xiàn)有的各種模式的大數(shù)據(jù)解決方案,由Apache軟件基金研發(fā)的Hadoop技術(shù)迅速崛起,并逐步演化形成了一個(gè)生態(tài)系統(tǒng),奠定了其在大數(shù)據(jù)分析處理領(lǐng)域的主流地位。Hadoop生態(tài)系統(tǒng)基本框架如圖1所示[1],其中最核心的是底層的Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和MapReduce編程框架,除此之外,還包括與之緊密關(guān)聯(lián)的HBase數(shù)據(jù)庫集群和ZooKeeper集群。需要指出的是,Hadoop生態(tài)系統(tǒng)中有的技術(shù)并不是由Apache組織提出的。例如HadoopDB屬于Yale大學(xué),HOP屬于Google,Ganglia屬于UC Berkeley。

圖1 Hadoop生態(tài)系統(tǒng)基本框架

2 Hadoop關(guān)鍵技術(shù)及應(yīng)用

構(gòu)建一個(gè)能夠有效支撐大數(shù)據(jù)應(yīng)用的平臺(tái),需要著重考慮幾個(gè)關(guān)鍵問題:大數(shù)據(jù)的存儲(chǔ)、大數(shù)據(jù)的分析、大數(shù)據(jù)的管理以及大數(shù)據(jù)的安全,而Hadoop系統(tǒng)在這些問題的處理上都有著較明顯的優(yōu)勢。

2.1 大數(shù)據(jù)的存儲(chǔ)問題

據(jù)統(tǒng)計(jì),當(dāng)前中國的數(shù)據(jù)量占了全球數(shù)據(jù)量的約13%,到2020年全球數(shù)據(jù)將可能達(dá)到40ZB,這些數(shù)據(jù)的類型以半結(jié)構(gòu)化和非結(jié)構(gòu)化為主,而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫系統(tǒng)比如SQL Server、Oracle等僅適于處理結(jié)構(gòu)化數(shù)據(jù),對于半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)還需要開發(fā)尋找其他合適的新系統(tǒng)。這類系統(tǒng)需具有高性價(jià)比、高可靠性和容量可橫向擴(kuò)展等特點(diǎn),并且滿足分布式計(jì)算的需求。為此,Google設(shè)計(jì)了以GFS為基礎(chǔ)的Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),并將其應(yīng)用到公司內(nèi)部多個(gè)項(xiàng)目中,比如存儲(chǔ)網(wǎng)絡(luò)爬蟲大數(shù)據(jù)、用戶Web請求的日志大數(shù)據(jù)等。HP利用StoreAll解決非結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)問題,可在單一命名空間內(nèi)支持文件存儲(chǔ)的同時(shí)支持對象存儲(chǔ),并且總數(shù)據(jù)量可達(dá)16PB。

目前,Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)研究中最熱門的解決方案之一,其通過HDFS分布式文件系統(tǒng)來解決非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),通過HBase項(xiàng)目來解決結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)。HDFS類同于Google的GFS,以Master/Slave形式為架構(gòu),以“一次寫入,多次讀取”訪問方式為核心設(shè)計(jì)思想,將需要存儲(chǔ)的大文件進(jìn)行分割,形成Block數(shù)據(jù)塊分別存放,從而完成大數(shù)據(jù)的存儲(chǔ)。對大數(shù)據(jù)進(jìn)行存儲(chǔ)主要依賴于并行數(shù)據(jù)庫,通過對數(shù)據(jù)的各個(gè)節(jié)點(diǎn)并行來實(shí)現(xiàn)對數(shù)據(jù)庫執(zhí)行的目的,但并行數(shù)據(jù)庫在讀寫并行上存在一定制約,所以大家一般盡可能采用移動(dòng)終端對信息進(jìn)行存儲(chǔ),而不使用并行數(shù)據(jù)庫。

2.2 大數(shù)據(jù)的分析問題

大數(shù)據(jù)不同于海量數(shù)據(jù),簡單來說,大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)。在生態(tài)系統(tǒng)出現(xiàn)之前,商業(yè)并行數(shù)據(jù)庫是對海量數(shù)據(jù)進(jìn)行分析的主要手段,這些并行數(shù)據(jù)庫主要采用的是shared-nothing架構(gòu),獨(dú)立設(shè)置網(wǎng)絡(luò)中每個(gè)Slave節(jié)點(diǎn)的本地CPU、本地存儲(chǔ)、本地內(nèi)存和本地?cái)?shù)據(jù)庫管理系統(tǒng),保持各個(gè)Slave節(jié)點(diǎn)間的獨(dú)立性。作為所有Slave節(jié)點(diǎn)的管理員,Master節(jié)點(diǎn)負(fù)責(zé)將客戶端提交的SQL查詢?nèi)蝿?wù)進(jìn)行透明化分解,分配給多個(gè)Slave節(jié)點(diǎn)并行執(zhí)行。

借助數(shù)據(jù)庫領(lǐng)域成熟領(lǐng)先的優(yōu)化技術(shù),如索引、數(shù)據(jù)壓縮等,并行數(shù)據(jù)庫在結(jié)構(gòu)化數(shù)據(jù)分析上表現(xiàn)出超強(qiáng)的性能優(yōu)勢。但是隨著以半結(jié)構(gòu)化和非結(jié)構(gòu)化為主的大數(shù)據(jù)出現(xiàn),并行數(shù)據(jù)庫的先天不足就開始顯現(xiàn)出來,主要表現(xiàn)在可擴(kuò)展性差,容錯(cuò)性能低和同構(gòu)性不足幾個(gè)方面。而最初就是針對大數(shù)據(jù)特征提出的Hadoop生態(tài)系統(tǒng),彌補(bǔ)了在半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理上的這些不足,并且隨著生態(tài)系統(tǒng)性能的不斷優(yōu)化調(diào)整,Hadoop的這種優(yōu)勢會(huì)越來越明顯。

Hadoop主要由兩部分組成:底部是HDFS,負(fù)責(zé)存儲(chǔ)工作,上部是MapReduce引擎,負(fù)責(zé)對大數(shù)據(jù)集進(jìn)行并行處理。MapReduce是一種簡化的分布式編程模式,核心思想是Map和Reduce,即任務(wù)的分解與結(jié)果的匯總,該種方式編寫的程序會(huì)被分布到一個(gè)超大集群中的若干個(gè)普通機(jī)器上并行執(zhí)行。作為影響MapReduce執(zhí)行效率的主要因素,調(diào)度算法的研究至關(guān)重要。目前常用的調(diào)度算法,如MapReduce提供的fair調(diào)度、FIFO調(diào)度及Chen Quan等人提出的“自適應(yīng)調(diào)度”算法,其主要思想和方法依然局限在分布式系統(tǒng)、操作系統(tǒng)或網(wǎng)格計(jì)算中。近些年針對MapReduce的計(jì)算模型的改進(jìn)研究,主要集中在數(shù)據(jù)集的掃描、分解和歸約等方面的并行性上,通過結(jié)合具體應(yīng)用來比較不同方法適用的數(shù)據(jù)類型及性能優(yōu)劣。

2.3 大數(shù)據(jù)的管理問題

一個(gè)Hadoop大數(shù)據(jù)解決方案只有有了一體化的管理系統(tǒng)才算得上是完備的,因?yàn)檫@個(gè)系統(tǒng)解決方案涉及太多方面,比如復(fù)雜的數(shù)據(jù)類型和數(shù)據(jù)來源、大量機(jī)器構(gòu)成的Hadoop集群和其它小集群、大量參數(shù)的配置和優(yōu)化、多個(gè)作業(yè)的部署和運(yùn)行等[5]。離開了專門的管理工具或系統(tǒng),系統(tǒng)就難以得到提升,系統(tǒng)推廣也就非常受限了。所以企業(yè)在利用Hadoop生態(tài)系統(tǒng)構(gòu)建平臺(tái)后,均會(huì)開發(fā)專門的管理工具或系統(tǒng)。

實(shí)際上,每個(gè)生態(tài)系統(tǒng)項(xiàng)目均會(huì)帶有一些基本工具,以HDFS和Hadoop MapReduce為例,有Eclipse插件、Web接口和Shell接口,但是功能尚不完善[5]。目前,Hadoop大數(shù)據(jù)管理工作中應(yīng)用較為廣泛的是Sqoop和Ganglia兩個(gè)項(xiàng)目,Sqoop主要實(shí)現(xiàn)的是Hadoop生態(tài)系統(tǒng)內(nèi)外數(shù)據(jù)轉(zhuǎn)換的工作,Ganglia可以Web的方式來實(shí)現(xiàn)監(jiān)控Hadoop集群[9]。

2.4 大數(shù)據(jù)的安全問題

在開發(fā)之初,Hadoop優(yōu)先考慮的是功能,安全問題并未得到過多考慮,而實(shí)際上大數(shù)據(jù)中可能包含大量的用戶敏感數(shù)據(jù)和隱私信息,隨著Hadoop大數(shù)據(jù)平臺(tái)應(yīng)用日益廣泛,企業(yè)不得不考慮如何保護(hù)這些敏感數(shù)據(jù),尤其是想將大數(shù)據(jù)放進(jìn)公用云上。因此,針對Hadoop平臺(tái)可能存在的安全隱患,開發(fā)者們通過加強(qiáng)平臺(tái)的身份驗(yàn)證、訪問授權(quán)、數(shù)據(jù)加密和操作審計(jì)等管控手段,對應(yīng)不同應(yīng)用場景設(shè)計(jì)出實(shí)用化的安全管控產(chǎn)品。

2009年,基于Kerberos的用戶身份驗(yàn)證方案的提出,正式拉開了Hadoop平臺(tái)安全管控研究工作的大幕。2013年,Intel牽頭啟動(dòng)了開源項(xiàng)目“Project Rhino”,致力于增強(qiáng)Hadoop平臺(tái)安全管控能力。到目前為止,通過引入Kerberos、配置防火墻、基礎(chǔ)的HDFS權(quán)限和ACLs,已經(jīng)形成了一套能滿足眾多組件且能橫向擴(kuò)展的安全管控基本解決方案。但其實(shí),要實(shí)現(xiàn)Kerberos與Hadoop服務(wù)的完美整合,還需要做一系列復(fù)雜的配置工作,導(dǎo)致其易用性表現(xiàn)較差,安全問題依舊有待得到更好地解決。

2.5 Hadoop商業(yè)應(yīng)用與發(fā)展

大數(shù)據(jù)的戰(zhàn)略意義在于從海量的數(shù)據(jù)中挖掘出有用的價(jià)值。譬如企業(yè)進(jìn)行大數(shù)據(jù)分析,期望從中發(fā)現(xiàn)隱含的商業(yè)價(jià)值,以便更好地提高產(chǎn)品和服務(wù)質(zhì)量。所以目前,Hadoop在商業(yè)領(lǐng)域應(yīng)用較多且取得了很大創(chuàng)新,商業(yè)應(yīng)用更加注重處理的效率和運(yùn)維的成本。其中,Cloudera CDH,Hortonworks和MapR 3家公司發(fā)行的Hadoop商業(yè)版本較為流行,通過對Apache的Hadoop進(jìn)行打包、改進(jìn),為確保生態(tài)圈的所有軟件協(xié)調(diào)工作提供技術(shù)支持。

在國外,作為大數(shù)據(jù)市場的積極推動(dòng)者,Google,IBM,Yahoo等巨頭也都是Hadoop的最大的應(yīng)用者。藍(lán)云Bluemix是IBM構(gòu)建云框架的基礎(chǔ)設(shè)施,基于Apache Hadoop構(gòu)建的IBM InfoSphere Biginsights可提供大規(guī)模的靜態(tài)數(shù)據(jù)分析功能,實(shí)時(shí)數(shù)據(jù)則可通過Infosphere Streams采用內(nèi)存計(jì)算方式分析。Amazon基于Hadoop構(gòu)建了A9.com,以此實(shí)現(xiàn)強(qiáng)大的商品搜索索引功能。Facebook使用Hadoop存儲(chǔ)內(nèi)部日志與多維數(shù)據(jù),基于Hive等進(jìn)行日志分析和數(shù)據(jù)挖掘。Twitter的微博數(shù)據(jù)、日志文件和中間數(shù)據(jù)的存儲(chǔ)依靠Hadoop的HDFS完成,并采用Cloudera's CDH2系統(tǒng)來存儲(chǔ)壓縮數(shù)據(jù)[12]。

在國內(nèi),越來越多的企業(yè)加入到應(yīng)用和研究Hadoop的行列,主要包括傳統(tǒng)企業(yè)如百度、淘寶、騰訊、網(wǎng)易等互聯(lián)網(wǎng)公司以及中國移動(dòng)、華為、農(nóng)業(yè)銀行等。阿里巴巴是國內(nèi)首先使用Hadoop的公司之一,百度是目前Hadoop的最大使用者之一,每天處理的數(shù)據(jù)量高達(dá)9000TB,針對自身需求百度對Hadoop進(jìn)行了改進(jìn),開發(fā)了HCE(HadoopC++)系統(tǒng)以及自己的日志分析平臺(tái)、數(shù)據(jù)倉庫系統(tǒng)等,為公司業(yè)務(wù)提供分析計(jì)算和存儲(chǔ)服務(wù)[12]。騰訊基于Hadoop和Hive構(gòu)建了分布式數(shù)據(jù)倉庫TDW(Tencent distributed Data Warehouse),克服了傳統(tǒng)數(shù)據(jù)庫可控性差,無法線性擴(kuò)展的缺陷,目前改進(jìn)為基于Spark框架。中國移動(dòng)在通信領(lǐng)域廣泛使用Hadoop,利用HDFS實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ),利用MapReduce進(jìn)行分布式數(shù)據(jù)處理。華為構(gòu)建了FusionInsight大數(shù)據(jù)平臺(tái),通過實(shí)時(shí)數(shù)據(jù)處理引擎,以事件驅(qū)動(dòng)模式有效地解決了高速事件流的實(shí)時(shí)計(jì)算問題。

3 結(jié)語

目前,大數(shù)據(jù)和Hadoop生態(tài)系統(tǒng)都處于一個(gè)快速發(fā)展的時(shí)期,相互影響和促進(jìn)。而Hadoop生態(tài)系統(tǒng)符合大數(shù)據(jù)本質(zhì)特點(diǎn),其成員具有多樣性、靈活性、擴(kuò)展性,尤其是對中小型用戶具有很大的吸引力,能按企業(yè)業(yè)務(wù)需求進(jìn)行比較自由的組合,相信利用Hadoop生態(tài)系統(tǒng)構(gòu)建小企業(yè)的大數(shù)據(jù)平臺(tái)將會(huì)成為一個(gè)趨勢。

另外,雖然圍繞大數(shù)據(jù)平臺(tái)的研究已經(jīng)大量存在,但還有一些問題有待進(jìn)一步解決:一是技術(shù)推廣,二是標(biāo)準(zhǔn)和法規(guī)的制定,三是應(yīng)用系統(tǒng)(平臺(tái))之間的兼容和整合,四是提高數(shù)據(jù)應(yīng)用能力,相信隨著研究的不斷深入,這些問題都可以慢慢得到解決或改進(jìn)。

猜你喜歡
結(jié)構(gòu)化解決方案數(shù)據(jù)庫
解決方案和折中方案
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
簡潔又輕松的Soundbar環(huán)繞聲解決方案
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
4G LTE室內(nèi)覆蓋解決方案探討
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
南漳县| 宿松县| 鹤峰县| 无极县| 乾安县| 泰宁县| 会昌县| 安吉县| 安泽县| 富顺县| 鹿邑县| 阿克苏市| 得荣县| 新蔡县| 刚察县| 新干县| 罗平县| 榆社县| 枞阳县| 喜德县| 刚察县| 碌曲县| 镇原县| 西城区| 游戏| 大同县| 阿图什市| 吴忠市| 秀山| 毕节市| 新龙县| 宣恩县| 潞城市| 新晃| 鹰潭市| 莫力| 嘉兴市| 隆德县| 南宫市| 元氏县| 海晏县|