国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)為何離不開Hadoop

2017-12-18 17:36:29李榮富
大眾科學 2017年10期
關鍵詞:高可用性數(shù)據(jù)處理工程師

李榮富

Hadoop是如今大數(shù)據(jù)革命的代表性技術,做Hadoop相關產(chǎn)品有很多,其中有很多不一樣的選擇和變種,比較知名的有Cloudera、Hortonwork、亞馬遜EMR、Storm和Spark。這些都是Hadoop的忠實“粉絲”。

想要搞清楚大數(shù)據(jù)和Hadoop的關系,我們還得先認識一下Hadoop。

一種數(shù)據(jù)存儲和分析的方法

如何理解Hadoop呢?官方給的定義是這樣的:作為一種軟件庫,Hadoop允許在集群服務器上使用簡單的編程模型對大數(shù)據(jù)集進行分布式處理。它被設計成能夠從單臺服務器擴展到數(shù)以千計的服務器,每臺服務器都有本地的計算和存儲資源。Hadoop的高可用性并不依賴硬件,其代碼庫自身就能在應用層偵測并處理硬件故障,因此能基于服務器集群提供高可用性的服務。

對于非專業(yè)人員,這個解釋顯得比較晦澀,我們從“系統(tǒng)”這個角度來理解。Hadoop是一個分布式系統(tǒng),這種系統(tǒng)的結(jié)構特點是表面上看起來是一個整體,實際上它的各個模塊和數(shù)據(jù)都具有高度的自治獨立性,系統(tǒng)中的若干臺計算機可以互相協(xié)作來完成一個共同的任務,或者說一個程序可以分布在幾臺計算機上并行地運行。比如說我們平時使用的萬維網(wǎng)就是一個很好的分布式系統(tǒng)的例子,表面看起來它是一個整體,實際上網(wǎng)頁中很多不同的部分都是獨立工作的。

具體到Hadoop中,我們會發(fā)現(xiàn)它的“獨立性”做得更徹底, Hadoop中幾乎所有的功能都是獨立模塊化的,也就是說具體在應用中使用者可以用其他軟件抽掉或替代那些不需要的模塊,這使得Hadoop的“兼容性”變得很高。

如果Hadoop還是沒給你留下深刻的印象的話,那么你只要記住,這個系統(tǒng)是由兩個部分構成的,一個是數(shù)據(jù)處理框架,另一個是分布式數(shù)據(jù)存儲文件系統(tǒng)(HDFS)。大數(shù)據(jù)存在HDFS中,需要用的時候就從這里拿到數(shù)據(jù)處理框架里面處理。

大數(shù)據(jù)為何離不開它

我們這里說的“大數(shù)據(jù)離不開Hadoop”其實是相對而言的,從技術上來說,大數(shù)據(jù)的處理非得Hadoop嗎?那倒不是,在Hadoop出現(xiàn)之前很多企業(yè)已經(jīng)開始處理大數(shù)據(jù)啦。不過,這些企業(yè)僅限于大企業(yè),因為只有他們有能力購買處理大數(shù)據(jù)的大型機器。

但是,大數(shù)據(jù)要想做出更多貢獻,必須讓更多的組織機構參與進來,在時代的呼喚下,一種成本相對較低的能夠處理大數(shù)據(jù)的系統(tǒng)就呼之欲出。這時候Google站了出來,他們的工程師經(jīng)過多番探討實踐,最后做出了Hadoop!

Hadoop的出現(xiàn)在大數(shù)據(jù)發(fā)展史上是有里程碑意義的,因為它的出現(xiàn)把大數(shù)據(jù)的應用從小眾變成了大眾。最直接的體現(xiàn)就是它降低了大數(shù)據(jù)處理成本!

首先,企業(yè)不用花太多錢在服務器硬件成本上,一般廉價的服務器也足以支撐起Hadoop。

其次,在軟件使用上Hadoop不像是昂貴的“大型機”——昂貴且很多東西不開放。Hadoop不僅對用戶開放源代碼和協(xié)議,可供自由修改,最主要的是,這些東西的使用時成本相對低廉的。

再次,Hadoop出自Google工程師之手,工程師們使用的時候都是二次開發(fā),其本身的結(jié)構合理性、安全性都有保障,在日常維護上的成本低了很多。當然,這里還有一個“后天”累計而成的優(yōu)勢不得不提,Hadoop自從出現(xiàn)之后就受到了熱捧,目前工程師們已經(jīng)自發(fā)的形成了非常熱鬧的討論社區(qū),新手在入門的時候可以享受到友好的學習環(huán)境和進階環(huán)境。

缺陷:不適合處理實時數(shù)據(jù)

Twitter在使用了Hadoop處理大數(shù)據(jù)后,他們又推出了自己的自己的另外一個系統(tǒng)——Storm,因為Hadoop并不適合處理實時大數(shù)據(jù),但在Twitter上用戶每天就要生成1.4億條新的推文。

相比較起來,雖然Hadoop吞吐數(shù)據(jù)的量比Storm大,但Storm在時延上比要比Hadoop優(yōu)得多,在實時數(shù)據(jù)較多的業(yè)務場景下,當然是Storm比較合適。這還得從它們的工作本質(zhì)說起。

Storm 與Hadoop之間不同之處在于它們的工作處理方式。Hadoop在本質(zhì)上是一個批處理系統(tǒng),數(shù)據(jù)被引入 Hadoop 文件系統(tǒng) (HDFS) 并分發(fā)到各個節(jié)點進行處理。當處理完成時,結(jié)果數(shù)據(jù)返回到 HDFS 供始發(fā)者使用。Storm 支持創(chuàng)建拓撲結(jié)構來轉(zhuǎn)換沒有終點的數(shù)據(jù)流,這些轉(zhuǎn)換從不停止,它們會持續(xù)處理到達的數(shù)據(jù)。

當然,我們在說Hadoop不適合處理實時數(shù)據(jù)的時候也得加上一個前提,那就是這個需要被處理的實時數(shù)據(jù)得足夠大,如果只是一般量的話,Hadoop還是應付得了的。(編輯/有慶)

猜你喜歡
高可用性數(shù)據(jù)處理工程師
分布式數(shù)據(jù)庫提升醫(yī)院信息系統(tǒng)高可用性的應用研究
《機械工程師》征訂啟事
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
Kenoteq的工程師研發(fā)環(huán)保磚塊
英語文摘(2021年10期)2021-11-22 08:02:40
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
青年工程師
安徽建筑(2020年4期)2020-05-23 01:37:12
超長公路隧橋高可用性監(jiān)控平臺方案分析
校園一卡通服務端高可用性改造實施方案
OpenStack云計算平臺高可用性的研究
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應用
固阳县| 新津县| 万载县| 仪征市| 通化市| 务川| 汉川市| 高碑店市| 惠州市| 黎平县| 错那县| 翁牛特旗| 宁都县| 三亚市| 沙洋县| 龙州县| 乡城县| 恩施市| 鲁山县| 普宁市| 周口市| 横峰县| 台南市| 策勒县| 安阳市| 赤城县| 永州市| 兴安盟| 嘉鱼县| 广南县| 翁牛特旗| 裕民县| 辰溪县| 太白县| 武邑县| 新干县| 札达县| 沙湾县| 思南县| 大英县| 岳池县|