国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

夢(mèng)想與現(xiàn)實(shí)

2014-09-02 09:09涂蘭敬
關(guān)鍵詞:分析

涂蘭敬

可以說,Hadoop的出現(xiàn)是計(jì)算技術(shù)發(fā)展進(jìn)程中一個(gè)重要的里程碑,它使實(shí)用的大規(guī)模分布式計(jì)算和存儲(chǔ)成為可能。因此,有專家評(píng)論,Hadoop是到目前為止最為成功的通用分布式處理框架,也是這些年來影響最為深遠(yuǎn)的系統(tǒng)性開源項(xiàng)目之一。

IDC發(fā)布的Hadoop軟件生態(tài)系統(tǒng)預(yù)測(cè)報(bào)告顯示,Hadoop市場(chǎng)正在以60%的年復(fù)合增長(zhǎng)率高速擴(kuò)張。Gartner也估計(jì),2014年,Hadoop生態(tài)系統(tǒng)市場(chǎng)規(guī)模在7700萬美元左右,2016年,該市場(chǎng)規(guī)模將快速增長(zhǎng)至8.13億美元。

另外,Allied Market Research調(diào)查報(bào)告顯示,2013年至2020年,全球Hadoop市場(chǎng)份額將以58.2%的年復(fù)合增長(zhǎng)率,從20億美元增長(zhǎng)至50.2億美元,增長(zhǎng)幅度超24倍。其中,大數(shù)據(jù)分析需求是整個(gè)Hadoop市場(chǎng)的主要驅(qū)動(dòng)力,也吸引了眾多IT淘金者參與。

Hadoop市場(chǎng)的火爆也體現(xiàn)在人才市場(chǎng)上。2013年,美國(guó)某求職網(wǎng)站列出的2013年高薪技術(shù)職位排行中,大數(shù)據(jù)相關(guān)技術(shù)職位囊括前三甲,分別為Hadoop、Big Data和NoSQL。

Gartner的一項(xiàng)研究表明,到2015年,65%的分析應(yīng)用程序和先進(jìn)分析工具都將基于Hadoop平臺(tái)。在未來一段時(shí)間內(nèi),Hadoop將變得更加流行。Hadoop的知名度是足夠高了,但是Hadoop在項(xiàng)目中到底表現(xiàn)怎么樣?有Hadoop項(xiàng)目經(jīng)驗(yàn)的工程師最有發(fā)言權(quán)。

上篇:優(yōu)勢(shì)與不足

事實(shí)上,很多初次接觸Hadoop的程序員都會(huì)把Hadoop當(dāng)做化解大數(shù)據(jù)疑難雜癥的靈丹妙藥,希望能夠迅速地做到藥到病除。但是,當(dāng)下載了Hadoop社區(qū)發(fā)行版之后,很多工程師才發(fā)現(xiàn)成功“馴服”Hadoop的過程是“路漫漫其修遠(yuǎn)兮”,隨之就會(huì)產(chǎn)生巨大的心理落差。

Hadoop難“馴服”

曾經(jīng)擔(dān)任雅虎首席云計(jì)算架構(gòu)師的Todd Papaioannou曾這樣評(píng)價(jià)Hadoop:它屬于底層基礎(chǔ)軟件,而今天大多數(shù)IT人員都不熟悉底層基礎(chǔ)軟件,因此實(shí)施難度大,極為難用。如果不解決技術(shù)復(fù)雜性問題,Hadoop將被自己終結(jié)。

當(dāng)年,Todd Papaioannou帶著團(tuán)隊(duì)要完成一項(xiàng)艱巨的任務(wù)——在擁有40萬個(gè)節(jié)點(diǎn)的雅虎私有云中配置4.5萬臺(tái)Hadoop服務(wù)器,為5000位雅虎開發(fā)人員創(chuàng)建一個(gè)穩(wěn)定的開發(fā)平臺(tái)。

雅虎負(fù)責(zé)建設(shè)Hadoop平臺(tái)的團(tuán)隊(duì)個(gè)個(gè)手忙腳亂,就像一群中學(xué)生在車庫(kù)中做手工,從Hadoop代碼庫(kù)中翻找可供粘貼整合的代碼。當(dāng)基礎(chǔ)架構(gòu)總算搭好的時(shí)候,開發(fā)者又花了4~5個(gè)月才開始發(fā)布應(yīng)用,這也嚴(yán)重影響了雅虎的產(chǎn)品創(chuàng)新進(jìn)度。

但是,并非所有人都那么懼怕Hadoop,一些技術(shù)實(shí)力強(qiáng)的互聯(lián)網(wǎng)公司在馴服了Hadoop之后,開始大膽地嘗試一些源于Hadoop尚未成熟但是更高效的開源新技術(shù),如Spark和Yarn。

8月12日,淘寶技術(shù)部數(shù)據(jù)挖掘與計(jì)算團(tuán)隊(duì)負(fù)責(zé)人明風(fēng)在其個(gè)人新浪微博上透露,Spark on Yarn已經(jīng)在淘寶上線一周年了。明風(fēng)表示,經(jīng)過團(tuán)隊(duì)成員一個(gè)多月的努力,終于成功地將Spark on Yarn接入阿里云梯的Yarn生產(chǎn)集群,并每日調(diào)度生產(chǎn)作業(yè)。目前,這個(gè)基于阿里云梯的Yarn集群規(guī)模是:100臺(tái)機(jī)器,8核CPU、單個(gè)作業(yè)最大可用內(nèi)存400GB。

“死磕”Hadoop

曾經(jīng)擔(dān)任原北京暴風(fēng)科技有限公司暴風(fēng)影音平臺(tái)研發(fā)經(jīng)理的童小軍,在2010年到2012年兩年多的時(shí)間里,一直在與Hadoop“死磕”。

回顧那段歷史,童小軍不無驕傲地說:“當(dāng)年,暴風(fēng)影音的業(yè)務(wù)部門離不開我們的數(shù)據(jù)部門,數(shù)據(jù)部門一癱瘓,業(yè)務(wù)部門就無法決策,第二天的工作也就停止了?!?/p>

當(dāng)時(shí),那頭被馴服的“小象”Hadoop成為暴風(fēng)影音搜索和數(shù)據(jù)平臺(tái)的核心角色。該平臺(tái)的順利運(yùn)行給當(dāng)時(shí)的暴風(fēng)影音帶來兩個(gè)最直接的變化:

第一是將暴風(fēng)影音每天20TB日志數(shù)據(jù)的分析時(shí)間從7小時(shí)縮減為不足1小時(shí)。

第二是將整個(gè)系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)作為業(yè)務(wù)部門第二天開展工作的依據(jù)。

例如,哪個(gè)服務(wù)崩潰了、什么地方的服務(wù)出現(xiàn)異常、什么服務(wù)的用戶量下降了等。該平臺(tái)還給暴風(fēng)影音帶來了意外收獲:隨著數(shù)據(jù)處理速度的提升,原來需要外包給其他公司分析的廣告數(shù)據(jù),可以由暴風(fēng)影音的數(shù)據(jù)部門來承擔(dān)。

童小軍直言:“雖然現(xiàn)在的Hadoop看起來沒有那么難掌控,但是當(dāng)初我們從零起步的時(shí)候著實(shí)為Hadoop傷透了腦筋,走了很多彎路?!?/p>

童小軍表示,Hadoop很多默認(rèn)配置都不能用,需要根據(jù)項(xiàng)目自己配置,而且每臺(tái)機(jī)器的配置都不一樣,對(duì)于初學(xué)者來說難度很大。另外,Hadoop平臺(tái)上的很多應(yīng)用是用C++或VC開發(fā)的,運(yùn)行前還需要轉(zhuǎn)碼。另外,一開始的Hadoop項(xiàng)目,并沒有得到公司領(lǐng)導(dǎo)的大力支持,公司只給數(shù)據(jù)部門配備了3臺(tái)低端服務(wù)器。

無論童小軍怎么努力,該平臺(tái)總是運(yùn)營(yíng)一段時(shí)間就崩潰。為了能夠把Hadoop系統(tǒng)運(yùn)行起來,童小軍曾經(jīng)給公司高層提議購(gòu)買100臺(tái)服務(wù)器,結(jié)果被領(lǐng)導(dǎo)痛批一通。萬般無奈的情況下,童小軍冒險(xiǎn)將該平臺(tái)系統(tǒng)搭在了公司正在使用的幾十臺(tái)服務(wù)器上,結(jié)果Hadoop系統(tǒng)一次就運(yùn)行成功了。

童小軍面臨的更大困難是把暴風(fēng)影音業(yè)務(wù)系統(tǒng)全部遷移到Hadoop平臺(tái)上來。從原來的平臺(tái)遷移到Hadoop平臺(tái)上,相當(dāng)于把全部的程序都重寫一遍,這個(gè)工作從2010年持續(xù)到2012年。工作量大是一方面,業(yè)務(wù)系統(tǒng)千差萬別而且復(fù)雜度高更讓童小軍頭疼,沒有一定的耐心是不可能完成遷移的。不過,暴風(fēng)影音的業(yè)務(wù)系統(tǒng)遷移到Hadoop平臺(tái)之后,至少在5年內(nèi)都可以滿足數(shù)據(jù)增長(zhǎng)的需求。

在Hadoop剛誕生的那幾年里,人們幾乎將Hadoop與大數(shù)據(jù)畫上了等號(hào)。似乎,企業(yè)只要下載一套Hadoop發(fā)行版馬上就能擁有大數(shù)據(jù)分析處理的能力了。但是,經(jīng)過這幾年的實(shí)踐,程序員們逐漸開始明白如何正確看待Hadoop,而Hadoop表現(xiàn)出來的優(yōu)勢(shì)和不足之處也更加鮮明。

實(shí)時(shí)分析能力不盡如人意

說到Hadoop的不足之處,星環(huán)信息科技(上海)有限公司CTO孫元浩談到,早期在把Hadoop應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)時(shí)碰到過很多困難。在GB級(jí)到TB級(jí)的數(shù)據(jù)量上,MapReduce的性能會(huì)比關(guān)系數(shù)據(jù)庫(kù)或者M(jìn)PP(massively parallel processing,大規(guī)模并行處理機(jī))數(shù)據(jù)庫(kù)慢10倍左右,再加上HiveQL支持的語(yǔ)法只是標(biāo)準(zhǔn)SQL語(yǔ)法的30%,導(dǎo)致當(dāng)初很多建設(shè)在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目失敗了。同時(shí),孫元浩表示,由于企業(yè)復(fù)雜的工作流通常需要多個(gè)階段的MapReduce任務(wù),而MapReduce的輸入輸出必須經(jīng)過低速磁盤,導(dǎo)致運(yùn)行過程復(fù)雜,迭代任務(wù)時(shí)效率非常低,因此不適合對(duì)延時(shí)要求高的交互式分析或者需要復(fù)雜迭代的數(shù)據(jù)分析任務(wù)。

Spark亞太研究院院長(zhǎng)王家林則具體指出,MapReduce進(jìn)行大數(shù)據(jù)處理是基于磁盤的,每次計(jì)算都要經(jīng)歷從磁盤讀取數(shù)據(jù)、計(jì)算數(shù)據(jù)、保存數(shù)據(jù)的三階段,這就使Hadoop難以滿足人們對(duì)大數(shù)據(jù)的特別查詢需求。

賽仕軟件研究開發(fā)(北京)有限公司(以下簡(jiǎn)稱SAS)總經(jīng)理劉政也指出,Hadoop在任務(wù)展開和執(zhí)行時(shí)犧牲了部分時(shí)效,而且Hadoop的Reduce任務(wù)只有在全部Map任務(wù)完成后才能啟動(dòng)執(zhí)行。因此,Hadoop對(duì)于企業(yè)的實(shí)時(shí)業(yè)務(wù)分析系統(tǒng)而言存在弱點(diǎn)。

北京永洪商智科技有限公司(以下簡(jiǎn)稱永洪科技)CEO何春濤認(rèn)為,Hadoop的最大不足是:Hadoop追求高吞吐量,導(dǎo)致時(shí)間延遲較高。Hadoop可以支持百億級(jí)的數(shù)據(jù)量,但很難應(yīng)對(duì)秒級(jí)響應(yīng)的需求,即使只是數(shù)億的數(shù)據(jù)量,Hadoop也只適合做分鐘級(jí)別的離線分析系統(tǒng)。因此,不適合做實(shí)時(shí)分析系統(tǒng)。何春濤從通信層的角度分析指出,當(dāng)Hadoop任務(wù)分配Server時(shí)不會(huì)將信息發(fā)送到計(jì)算節(jié)點(diǎn),而是讓計(jì)算節(jié)點(diǎn)通過心跳機(jī)制去拉動(dòng)任務(wù)。

基于框架的通用性,MapReduce代碼也會(huì)在HDFS(Hadoop Distributed File System,分布式文件系統(tǒng))中傳送,在各計(jì)算節(jié)點(diǎn)展開,再通過啟動(dòng)新JVM進(jìn)程裝載并運(yùn)行。類似的JVM進(jìn)程啟/停的動(dòng)作會(huì)有五六次之多。Reduce作業(yè)只能在全部Map 作業(yè)完成之后才能啟動(dòng)。此外,何春濤認(rèn)為,Hadoop缺少專業(yè)的商業(yè)支持服務(wù),傳統(tǒng)企業(yè)需要儲(chǔ)備專業(yè)的Hadoop技術(shù)人才才能保證系統(tǒng)的正常運(yùn)轉(zhuǎn)。

Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華也對(duì)Hadoop技術(shù)人才缺乏表示擔(dān)憂。Hadoop是一個(gè)性價(jià)比很高的數(shù)據(jù)抓取、數(shù)據(jù)管理、數(shù)據(jù)轉(zhuǎn)換平臺(tái)。有了這種比較廉價(jià)的數(shù)據(jù)處理平臺(tái),很多企業(yè)都可以把數(shù)據(jù)保存下來挖掘更多的數(shù)據(jù)價(jià)值。但是,企業(yè)真正要在Hadoop平臺(tái)上做數(shù)據(jù)分析、數(shù)據(jù)挖掘,最大的難題是需要找到一些基于Hadoop平臺(tái)懂?dāng)?shù)據(jù)、懂分析,又懂編程的技術(shù)人才。

同時(shí),王家林認(rèn)為,Hadoop難以應(yīng)對(duì)多元化的大數(shù)據(jù)處理業(yè)務(wù)。企業(yè)如果要同時(shí)部署在語(yǔ)言和運(yùn)行機(jī)制方面都有差異的Hadoop、Storm、Impala等三套系統(tǒng),那就需要三個(gè)獨(dú)立的技術(shù)團(tuán)隊(duì)開發(fā)、運(yùn)營(yíng)和維護(hù),同時(shí)三個(gè)系統(tǒng)之間共享數(shù)據(jù)的代價(jià)也是非常大的,更不用談直接共享彼此的操作算子。Hadoop近三年來在架構(gòu)上和性能上并無長(zhǎng)足進(jìn)步,很多新版本只不過是對(duì)系統(tǒng)錯(cuò)誤和不足的修修補(bǔ)補(bǔ)而已,這就導(dǎo)致了系統(tǒng)代碼越來越臃腫。

同時(shí),Hadoop系統(tǒng)編寫和開發(fā)語(yǔ)言采用Java,由于Java語(yǔ)言的特性導(dǎo)致在開發(fā)時(shí)語(yǔ)言的表現(xiàn)力差,在表達(dá)機(jī)器學(xué)習(xí)等算法時(shí)非常繁雜,這使得Hadoop在應(yīng)對(duì)大數(shù)據(jù)處理要求時(shí)的表現(xiàn)越來越糟糕。

高性價(jià)比的大數(shù)據(jù)處理平臺(tái)

孫元浩表示,Hadoop主要由HDFS和MapReduce組成:HDFS是一個(gè)高可擴(kuò)展的分布式文件系統(tǒng),是大數(shù)據(jù)軟件棧的基石;MapReduce在處理PB級(jí)別的數(shù)據(jù)時(shí)具有高容錯(cuò)性、高吞吐量的特點(diǎn)。

劉政認(rèn)為,Hadoop是下一代海量數(shù)據(jù)分布式處理的理想基礎(chǔ)架構(gòu),特別是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和處理,它可以讓用戶比較容易地構(gòu)建自己的分布式計(jì)算平臺(tái)。

Hadoop的優(yōu)勢(shì)不僅表現(xiàn)在海量數(shù)據(jù)存儲(chǔ)和處理能力方面的高可靠性,以及能夠自動(dòng)保存多個(gè)數(shù)據(jù)副本和自動(dòng)重新分配失敗任務(wù)的高容錯(cuò)性,還表現(xiàn)在它能夠在計(jì)算機(jī)集群數(shù)以千計(jì)的節(jié)點(diǎn)間分配數(shù)據(jù)和完成計(jì)算方面的高可擴(kuò)展性,另外還在于它在計(jì)算節(jié)點(diǎn)之間動(dòng)態(tài)移動(dòng)數(shù)據(jù)和保持計(jì)算負(fù)載均衡獲得較快處理速度的高效性?;贘ava技術(shù)開發(fā)的Hadoop能為企業(yè)系統(tǒng)提供穩(wěn)定可靠的API接口,為利用大規(guī)模廉價(jià)硬件設(shè)備上的計(jì)算能力構(gòu)建高性能分布式計(jì)算框架提供了可能。因此,Hadoop非常適合構(gòu)建非實(shí)時(shí)的離線分析系統(tǒng)。

Gartner預(yù)測(cè),到2018年大數(shù)據(jù)將帶來超過1000億美元的IT開支。IDC也預(yù)測(cè),2015年大數(shù)據(jù)市場(chǎng)規(guī)模將從2010年的32億美元增長(zhǎng)到170億美元,年復(fù)合增長(zhǎng)率為40%。

我們總是聽到大數(shù)據(jù)這個(gè)詞,那么多大的數(shù)據(jù)算是大數(shù)據(jù),Hadoop適用于多大的數(shù)據(jù)量呢?麥肯錫曾經(jīng)對(duì)大數(shù)據(jù)的范圍進(jìn)行定義:傳統(tǒng)數(shù)據(jù)庫(kù)有效工作的數(shù)據(jù)量一般在10TB至100TB,100TB被成為是大數(shù)據(jù)的門檻。

IDC在給大數(shù)據(jù)做定義時(shí)也同樣把閾值設(shè)在100TB。這兩家分析機(jī)構(gòu)認(rèn)為,大數(shù)據(jù)大到傳統(tǒng)數(shù)據(jù)分析工具已經(jīng)無法進(jìn)行正常采集、存儲(chǔ)、管理和分析過程,這個(gè)時(shí)候恰恰就是Hadoop最適合的應(yīng)用場(chǎng)景了。

自從IBM、甲骨文、SAP等將排名靠前的BI廠商收入囊中后,BI市場(chǎng)保持相對(duì)穩(wěn)定了很多年。在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,Teradata多次被Gartner數(shù)據(jù)倉(cāng)庫(kù)DBMS(數(shù)據(jù)庫(kù)管理系統(tǒng))魔力象限列為領(lǐng)導(dǎo)者。同時(shí),IDC的研究數(shù)據(jù)也表明,SAS在高級(jí)分析領(lǐng)域占有35.4%的市場(chǎng)份額,超過了排名第二的競(jìng)爭(zhēng)者兩倍以上。

Hadoop的出現(xiàn)似乎為打破原有的市場(chǎng)格局做著鋪墊。為了適應(yīng)大數(shù)據(jù)時(shí)代的企業(yè)新需求,為了繼續(xù)自己的領(lǐng)導(dǎo)者地位,很多國(guó)際IT巨頭都在向Hadoop伸出橄欖枝。

軟件巨頭擁抱Hadoop

數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的領(lǐng)導(dǎo)者Teradata在2011年收購(gòu)了Aster公司。同時(shí),Teradata開始與Hortonworks合作兼容其商用發(fā)行的Apatch Hadoop。并且,Teradata還推出了統(tǒng)一數(shù)據(jù)架構(gòu)(Teradata Unified Data Architecture,UDA),包含三層架構(gòu):Hadoop作為數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)轉(zhuǎn)換平臺(tái),Teradata數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)分析平臺(tái),Aster作為分析和探索平臺(tái)。

孔宇華表示,為了更增強(qiáng)Teradata統(tǒng)一數(shù)據(jù)架構(gòu)的功能,Teradata新收購(gòu)了一家公司Hadapt。收購(gòu)Hadapt之后,Teradata可以把SQL數(shù)據(jù)庫(kù)創(chuàng)建在Hadoop上,可以把Aster上的應(yīng)用更好地與Hadoop結(jié)合,也可以讓Teradata數(shù)據(jù)倉(cāng)庫(kù)和Aster更好地配合,最終目的是實(shí)現(xiàn)原本獨(dú)立的三個(gè)平臺(tái)的數(shù)據(jù)共享。Teradata的QueryGrid可以從Teradata或Aster任意一個(gè)平臺(tái)上發(fā)出指令,從其他平臺(tái)抽取數(shù)據(jù)做集中分析。

孔宇華強(qiáng)調(diào),Teradata最大的愿景是在不同平臺(tái)之間實(shí)現(xiàn)數(shù)據(jù)運(yùn)作、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用。

作為一家傳統(tǒng)的數(shù)據(jù)分析工具提供商,劉政表示,Hadoop項(xiàng)目和相關(guān)技術(shù)的廣泛應(yīng)用,并沒有影響到SAS這類數(shù)據(jù)分析軟件廠商。恰恰相反,由于Hadoop非常適合構(gòu)建時(shí)效性不是很強(qiáng)的離線分析系統(tǒng),Hadoop的廣泛應(yīng)用和成熟對(duì)擅長(zhǎng)數(shù)據(jù)分析的SAS而言是一種福音。

目前,SAS已經(jīng)將Hadoop 作為下一代內(nèi)存分析服務(wù)器系統(tǒng)的基礎(chǔ)架構(gòu)組件之一,并開發(fā)了相應(yīng)的數(shù)據(jù)訪問引擎。

另外,SAS對(duì)Hadoop的主要商業(yè)發(fā)行版本都有支持,包括Cloudera、Hortonworks、BigInsights、Pivotal HD和Cloudera Impala等。可以說,Hadoop被業(yè)界越多的采用,SAS就會(huì)有越多的潛在用戶。現(xiàn)在,SAS在Hadoop 平臺(tái)上引入了Embedded Process技術(shù)。該技術(shù)將融合SAS自身的內(nèi)存計(jì)算技術(shù)和Hadoop的各種服務(wù),更好地支持Hadoop的作業(yè)調(diào)度和計(jì)算負(fù)載分配機(jī)制。

劉政認(rèn)為,對(duì)SAS的用戶而言,并不存在所謂的數(shù)據(jù)和大數(shù)據(jù)的鴻溝,因?yàn)镾AS 語(yǔ)言隔離了用戶需要面對(duì)的純粹技術(shù)性挑戰(zhàn),畢竟在分析領(lǐng)域,用戶其實(shí)并不關(guān)心數(shù)據(jù)的存儲(chǔ)架構(gòu)和計(jì)算架構(gòu)。

SAS選擇Hadoop作為下一代商業(yè)智能的基礎(chǔ)支持組件,審慎地看待Hadoop技術(shù)的實(shí)質(zhì)并不斷挖掘Hadoop可能給用戶帶來的好處,降低用戶從傳統(tǒng)數(shù)據(jù)時(shí)代邁入大數(shù)據(jù)時(shí)代的技術(shù)門檻。

劉政指出,Hadoop給SAS帶來的直接挑戰(zhàn)是:許多用戶說要采用Hadoop來幫自己邁過大數(shù)據(jù)時(shí)代的門檻,但其實(shí)有些用戶并不明白Hadoop能夠給他們帶來什么價(jià)值,甚至很多用戶根本沒有必要使用大數(shù)據(jù)技術(shù)。

因此,SAS對(duì)應(yīng)的策略是,讓Hadoop對(duì)用戶完全透明。用戶只要知道他們的分析已經(jīng)被SAS高性能分析服務(wù)器所集成和使用,哪怕將來Hadoop本身不斷演進(jìn),用戶也不必?fù)?dān)心這種演進(jìn)給用戶帶來的新挑戰(zhàn)。

劉政做了一個(gè)形象的比喻:“如果說Hadoop是一頭日益強(qiáng)壯的小象,終有一天會(huì)在大數(shù)據(jù)分析領(lǐng)域恣意馳騁,那么我們希望SAS就是一位馴獸師。”

何春濤表示,Hadoop和敏捷BI各自適用于不同的業(yè)務(wù)場(chǎng)景,兩者是互補(bǔ)關(guān)系。在永洪科技的諸多客戶中,有不少是采用Hadoop實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。要實(shí)現(xiàn)這些企業(yè)的敏捷BI,只需要把Hadoop的數(shù)據(jù)導(dǎo)入永洪科技基于分布式內(nèi)存計(jì)算的高性能數(shù)據(jù)集市,然后進(jìn)行敏捷可視化分析即可。

由于現(xiàn)在Hadoop的應(yīng)用相當(dāng)廣泛,永洪科技產(chǎn)品支持開箱即用的Hadoop數(shù)據(jù)源連接,以擁抱Hadoop生態(tài)體系,既能滿足企業(yè)用戶海量數(shù)據(jù)存儲(chǔ)的需要,又能進(jìn)行實(shí)時(shí)數(shù)據(jù)分析。

事實(shí)上,IBM、微軟、甲骨文等國(guó)際IT巨頭在更早的時(shí)候就紛紛開始擁抱Apache Hadoop。

2011年,IBM宣布在SmartCloud平臺(tái)上新增一項(xiàng)基于Apache Hadoop的服務(wù)——InfoSphere BigInsights分析軟件。該軟件包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語(yǔ)言、針對(duì)IBM的DB2數(shù)據(jù)庫(kù)的連接件和IBM BigSheets。

2012年,IBM宣布與Cloudera合作,并開始支持其他Hadoop發(fā)行版本。與此同時(shí),IBM收購(gòu)大數(shù)據(jù)工具Vivisimo公司,將大數(shù)據(jù)的搜索和分析擴(kuò)展到Hadoop之外的傳統(tǒng)遺留應(yīng)用和數(shù)據(jù)倉(cāng)庫(kù)。日前,IBM與Veristorm合作提供業(yè)內(nèi)首個(gè)商業(yè)Hadoop for System z Linux,使得客戶無需將數(shù)據(jù)搬離主機(jī)就可以更快更安全地進(jìn)行基于Hadoop的各種分析。其中,zDoop軟件則是其在Hadoop方面的新產(chǎn)品,利用新存儲(chǔ)和Hadoop產(chǎn)品實(shí)現(xiàn)更佳的數(shù)據(jù)管理,獲取實(shí)時(shí)洞察。

為了更好地兼容Apache Hadoop,微軟與Hortonworks合作,推出了自己的Hadoop發(fā)布版HDInsight。微軟HDInsight平臺(tái)也完全兼容其他Apache Hadoop發(fā)行版,同時(shí)集成自己的商業(yè)智能工具,例如Excel、SQL Server和PowerBI。

隨后,微軟通過HDInsight與Active Directory的集成來增強(qiáng)Hadoop的安全性,通過與System Center集成,簡(jiǎn)化Hadoop的管理,并支持IT部門在同一面板上管理Hadoop集群、SQL Server數(shù)據(jù)庫(kù)和應(yīng)用程序。

Hadoop與SQL Server 2012兼容的特性是微軟與Hortonworks合作開發(fā)的結(jié)果。基于這次合作,微軟很快推出了基于SQL Server 2012的并行數(shù)據(jù)庫(kù)一體機(jī)PDW布局大數(shù)據(jù)市場(chǎng)。更為積極的事情是,Hortonworks在2013年2月25日發(fā)布了Windows版Hortonworks 大數(shù)據(jù)平臺(tái)HDP(Hortonworks Data Platform)。

2011年10月,甲骨文發(fā)布了新版NoSQL數(shù)據(jù)庫(kù)企業(yè)版,這是運(yùn)行于Hadoop 之上的大數(shù)據(jù)軟件之一。2012年,甲骨文加強(qiáng)與Cloudera的合作,將Cloudera's Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大數(shù)據(jù)機(jī)之中。

甲骨文同時(shí)還推出了Oracle Big Data Connectors,該系列軟件產(chǎn)品能夠幫助客戶輕松訪問通過Oracle數(shù)據(jù)庫(kù)11g集成存儲(chǔ)在CDH Hadoop分布式文件系統(tǒng)或Oracle NoSQL數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

硬件加速Hadoop

硬件廠商走在Hadoop行列里面,似乎有些讓人驚訝,但是,通過以往的經(jīng)驗(yàn)來看,基于硬件的數(shù)據(jù)加速,往往比單純軟件加速更加有效。為何硬件巨頭熱衷于Hadoop發(fā)行版?那是因?yàn)?,能夠駕馭大數(shù)據(jù)的最佳方法就是親自“玩”Hadoop。

2013年2月,英特爾宣布推出自己的Hadoop發(fā)行版Intel Distribution for Apache Hadoop,其中囊括了英特爾提供的HDFS、YARN、HBase和Hive等增強(qiáng)套件。

英特爾的想法是,通過硬件和軟件的改善,讓英特爾的芯片在預(yù)測(cè)分析、云數(shù)據(jù)收集和具體任務(wù)處理等領(lǐng)域有更好的性能,從而幫助客戶打造一個(gè)面向大數(shù)據(jù)應(yīng)用的Hadoop高效平臺(tái)。

不過,經(jīng)過一年多的實(shí)踐之后,英特爾最終還是在2014年3月停止發(fā)行自己的Hadoop發(fā)行版,轉(zhuǎn)而支持在Hadoop領(lǐng)域資格更老的Cloudera的

同時(shí),英特爾投資部門前后向Cloudera投資了數(shù)億美元。

與英特爾一樣的硬件廠商,還有EMC。2010年EMC通過收購(gòu)Greenplum正式進(jìn)入了數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)。EMC與Hadoop領(lǐng)域的翹楚Hortonworks合作,將自身存儲(chǔ)技術(shù)和Apache Hadoop結(jié)合起來,發(fā)布了自己的發(fā)行版Greenplum HD。

華為在Hadoop社區(qū)中的貢獻(xiàn)者和提交者也是國(guó)內(nèi)最多的,可謂是國(guó)內(nèi)在Hadoop領(lǐng)域關(guān)注時(shí)間較早,投入人力最多的公司之一。華為多年來在Hadoop方面的投入,使得華為與國(guó)際IT巨頭在大數(shù)據(jù)領(lǐng)域處于同一起跑線上。

目前來看,華為推出了一款基于開放社區(qū)發(fā)布的Hadoop發(fā)行版FusionInsight Hadoop。該版本基于華為自主研發(fā)的Hadoop HA平臺(tái),構(gòu)建NameNode、JobTracker、HiveServer的HA功能,進(jìn)程故障后系統(tǒng)自動(dòng)Failover,無需人工干預(yù)。

同時(shí),該版本包含了開放社區(qū)的主要軟件及其生態(tài)圈中的主流組件,并對(duì)這些組件在高可用性、安全、易管理、性能方面進(jìn)行了大量?jī)?yōu)化。并且,該版本針對(duì)開放社區(qū)Hadoop增強(qiáng)了商務(wù)智能分析能力,集成各種數(shù)據(jù)分析組件的同時(shí)加強(qiáng)與傳統(tǒng)商務(wù)智能分析平臺(tái)的集成,讓企業(yè)可以更快、更準(zhǔn)、更穩(wěn)地從各類繁雜無序的海量數(shù)據(jù)中洞察商機(jī)。

在傳統(tǒng)BI和數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,很難再有新公司還能撼動(dòng)現(xiàn)在的市場(chǎng)格局。在大數(shù)據(jù)需求旺盛的背景下,基于Hadoop開源項(xiàng)目的新公司將獲得得更多的新機(jī)遇。從Hadoop誕生的那一天起,國(guó)外如Cloudera、Hortonworks、MapR等新公司就相繼成立,搶占了市場(chǎng)的先機(jī)。如今,它們都已經(jīng)成為Hadoop領(lǐng)域的佼佼者,即使很多財(cái)大氣粗的國(guó)際IT巨頭要進(jìn)入Hadoop領(lǐng)域,也會(huì)優(yōu)先考慮與它們合作。

Cloudera公司成立于2008年,CDH為其Hadoop發(fā)行版。對(duì)于Cloudera來說,2014年與英特爾深度合作是一次英明的決定,這次合作讓Cloudera得以借助英特爾的渠道進(jìn)行全球化營(yíng)銷。

2009年成立的MapR公司,在Hadoop領(lǐng)域顯得有點(diǎn)特立獨(dú)行。MapR認(rèn)為,Hadoop的缺陷來自于其架構(gòu)設(shè)計(jì)本身,小修小補(bǔ)不能解決問題。于是,MapR用新架構(gòu)重寫了HDFS。結(jié)果證明,MapR是對(duì)的,HDFS的私有替代品比當(dāng)前的開源版本快3倍,同時(shí)也通過API與其他Hadoop 發(fā)行版保持兼容。

Hortonworks公司創(chuàng)立于2011年,HDP是其Hadoop發(fā)行版。Hortonworks最為吸引合作伙伴和客戶的地方是,公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,這些工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻(xiàn)了Hadoop 80%的代碼。

2011年,剛剛成立的Hortonworks曾因?yàn)椤罢l(shuí)對(duì)Hadoop貢獻(xiàn)最大”的爭(zhēng)論與Cloudera有一次小摩擦。不過,隨后Cloudera公布了一張各廠商貢獻(xiàn)的Hadoop源代碼百分比,顯示了當(dāng)時(shí)各廠商對(duì)Hadoop的貢獻(xiàn),同時(shí)也似乎在影射出各廠商在Hadoop領(lǐng)域的話語(yǔ)權(quán)。而國(guó)內(nèi)一些基于Hadoop項(xiàng)目建立起來的大數(shù)據(jù)新公司,正在踏實(shí)地前行,為國(guó)內(nèi)各行業(yè)的企業(yè)客戶普及和應(yīng)用Hadoop做出自己的努力。

不過,孔宇華認(rèn)為,國(guó)內(nèi)基于Hadoop的創(chuàng)業(yè)公司還有很多機(jī)會(huì),但是從基礎(chǔ)平臺(tái)的市場(chǎng)切入難度較大,而基于Hadoop做一些數(shù)據(jù)的應(yīng)用開發(fā)機(jī)會(huì)更多一些。

北京紅象云騰系統(tǒng)技術(shù)有限公司(以下簡(jiǎn)稱紅象云騰)成立于2013年5月,2014年5月份獲得百萬級(jí)天使投資。EasyHadoop社區(qū)發(fā)起人和負(fù)責(zé)人、Cloudera CCDH認(rèn)證中國(guó)區(qū)第一個(gè)通過者、紅象云騰創(chuàng)始人童小軍表示,紅象云騰專注于企業(yè)大數(shù)據(jù)引擎研發(fā),致力于將大數(shù)據(jù)(Hadoop/Spark等)技術(shù)帶給更多的中國(guó)企業(yè)?;贖adoop,紅象云騰定制開發(fā)了RedHadoop Enterprise CRH企業(yè)版(紅象大數(shù)據(jù)平臺(tái))。在這個(gè)平臺(tái)上,紅象云騰已經(jīng)構(gòu)建了相應(yīng)的分析應(yīng)用程序,例如,基于非結(jié)構(gòu)化數(shù)據(jù)庫(kù)技術(shù)構(gòu)建安防的“視頻分析系統(tǒng)”和基于實(shí)時(shí)分析查詢技術(shù)構(gòu)建商業(yè)智能的“數(shù)據(jù)工廠系統(tǒng)”。

童小軍透露,紅象云騰即將在8月底發(fā)布集成批處理(MapReduce)、流處理(Storm)和內(nèi)存計(jì)算(Spark)的三個(gè)引擎,并且提供一鍵式安裝部署,而且可以做到安裝過程清晰可見、簡(jiǎn)捷易懂。值得一提的是,童小軍還有一個(gè)遠(yuǎn)大的計(jì)劃,基于RedHadoop Enterprise CRH3打造一項(xiàng)面向移動(dòng)APP的大數(shù)據(jù)云平臺(tái)公有云服務(wù)——紅象數(shù)據(jù)云(RedCloud.cn)。

童小軍表示:“未來,我們將在RedCloud.cn上做一個(gè)開放的平臺(tái),吸引更多的初學(xué)者進(jìn)入社區(qū),所有移動(dòng)APP都可以直接調(diào)我們的API,租用我們的服務(wù)。”

同時(shí),Spark的出現(xiàn)也讓星環(huán)科技CTO孫元浩看到了商機(jī)。孫元浩認(rèn)為,Spark讓中國(guó)的創(chuàng)業(yè)公司可以與國(guó)外一流公司站在同一個(gè)起跑線上競(jìng)爭(zhēng),并且有機(jī)會(huì)超越國(guó)外公司,是一次難得的機(jī)遇。在Spark出現(xiàn)前,孫元浩受Google Dremel的誤導(dǎo),開發(fā)新的MPP處理引擎。經(jīng)過近一年的嘗試,孫元浩還是回到MapReduce計(jì)算模式這個(gè)起點(diǎn)上。2011年底至2012年初,大數(shù)據(jù)產(chǎn)品競(jìng)爭(zhēng)的焦點(diǎn)轉(zhuǎn)移到SQL on Hadoop上,當(dāng)時(shí)孫元浩正在尋找一種更高效的Hadoop MapReduce實(shí)現(xiàn)方案。

孫元浩認(rèn)為:“經(jīng)過近10年的演化,MapReduce計(jì)算模式被證明是高可擴(kuò)展和高度容錯(cuò)的,只是Hadoop MapReduce的實(shí)現(xiàn)比較低效。我們需要做的是重新實(shí)現(xiàn)MapReduce?!碑?dāng)Spark宣稱比MapReduce快100倍時(shí),一下就吸引了孫元浩的注意。經(jīng)過仔細(xì)評(píng)估后,孫元浩認(rèn)為,Spark是MapReduce計(jì)算模式的一個(gè)全新實(shí)現(xiàn),Spark架構(gòu)設(shè)計(jì)的巧妙、與Hadoop良好的兼容性成為最終促成孫元浩以Spark作為重點(diǎn)發(fā)展方向。孫元浩指出星環(huán)科技在Spark上的兩點(diǎn)創(chuàng)新。

創(chuàng)新之一是提出RDD(Resilient Distributed Dataset,彈性分布數(shù)據(jù)集)的概念,所有的統(tǒng)計(jì)分析任務(wù)由對(duì)RDD的若干基本操作組成。RDD可以被駐留在內(nèi)存中,后續(xù)的任務(wù)可以直接讀取內(nèi)存中的數(shù)據(jù),因此速度可以得到很大提升。創(chuàng)新之二是把一系列的分析任務(wù)編譯成一個(gè)由RDD組成的有向無環(huán)圖,根據(jù)數(shù)據(jù)之間的依賴性把相鄰的任務(wù)合并,從而減少大量的中間結(jié)果輸出,極大減少了磁盤I/O,使得復(fù)雜數(shù)據(jù)分析任務(wù)更高效。

基于這兩點(diǎn)創(chuàng)新,企業(yè)可以在Spark基礎(chǔ)上進(jìn)行批處理、交互式分析、迭代式機(jī)器學(xué)習(xí)、流處理,因此Spark可以成為一個(gè)用途廣泛的計(jì)算引擎,并在未來取代MapReduce的地位。

目前,星環(huán)科技提供的交互式分析引擎名叫Inceptor,從下往上有三層架構(gòu),最下面是一個(gè)分布式緩存(Transwarp Holodesk),可以建在內(nèi)存或者SSD上,中間層是Spark計(jì)算引擎層,最上層包括一個(gè)完整的SQL99和PL/SQL編譯器、統(tǒng)計(jì)算法庫(kù)和機(jī)器學(xué)習(xí)算法庫(kù),提供完整的R語(yǔ)言訪問接口。

無論是對(duì)企業(yè)用戶還是對(duì)初創(chuàng)企業(yè)來說,Hadoop都是一個(gè)美麗的夢(mèng)想,不過,擺在我們眼前的情況是,并非每個(gè)企業(yè)都有能力把這個(gè)夢(mèng)想變?yōu)楝F(xiàn)實(shí)。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
網(wǎng)購(gòu)中不良現(xiàn)象分析與應(yīng)對(duì)
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析
萨嘎县| 祥云县| 临猗县| 永年县| 独山县| 兰溪市| 酉阳| 威远县| 韶关市| 吉林省| 北流市| 旬邑县| 肥东县| 金川县| 出国| 永年县| 辉南县| 长乐市| 淮滨县| 铁岭市| 托克逊县| 楚雄市| 华容县| 武宁县| 铜鼓县| 南昌市| 江川县| 阿坝县| 永修县| 鹿泉市| 三穗县| 南雄市| 温泉县| 抚州市| 蒙自县| 林口县| 中江县| 扎囊县| 荔浦县| 桃源县| 仁怀市|