Marc Wilczek 陳琳華
端正成為企業(yè)加快數(shù)字化活動(dòng)的首選,以下是評(píng)估HaaS(Hadoop即服務(wù))提供商時(shí)應(yīng)考慮的事項(xiàng)。
Hadoop為一種基于開(kāi)放源代碼的軟件框架,能夠跨分布式集群以高吞吐量處理海量的大數(shù)據(jù)。
幾年前主攻小眾市場(chǎng)的Hadoop如今正進(jìn)軍主流市場(chǎng)。隨著數(shù)字化運(yùn)動(dòng)的快速發(fā)展,Hadoop提供了充足的應(yīng)用案例,允許使用普通的商品硬件進(jìn)行大數(shù)據(jù)處理。
Hadoop還具有很高的可擴(kuò)展性,可從單一服務(wù)器擴(kuò)展到多個(gè)服務(wù)器農(nóng)場(chǎng),同時(shí)每個(gè)集群都能夠運(yùn)行自己的計(jì)算和存儲(chǔ)。Hadoop為應(yīng)用層提供了高可用性,由于集群硬件可以是現(xiàn)成的,所以它們能夠?qū)崿F(xiàn)節(jié)點(diǎn)輕松互換,從而提高成本收益?!霸贫嘶卑l(fā)展趨勢(shì)
雖然早期使用者通常使用的是通過(guò)Apache發(fā)行版搭建的本地部署,但是目前企業(yè)開(kāi)始逐步加大對(duì)云計(jì)算的使用。相比之下,自己動(dòng)手DIY的方法無(wú)疑是繁瑣和耗時(shí)的。
隨著產(chǎn)品上市時(shí)間在數(shù)字時(shí)代的重要性逐漸突顯,越來(lái)越多的公司開(kāi)始使用迅速崛起并被大量采用的Hadoop即服務(wù)(Haas)產(chǎn)品。
從用戶的角度來(lái)看,將云作為首選具有重大意義。規(guī)?;?jīng)濟(jì)使得單位成本更加低廉,企業(yè)可以提高效率,減少資本支出,同時(shí)獲得更大的靈活性。
除了商業(yè)利益之外,云還開(kāi)辟了一系列全新的數(shù)字用例,特別是在物聯(lián)網(wǎng)環(huán)境下和需要實(shí)時(shí)數(shù)據(jù)處理的其他場(chǎng)景中。亞馬遜網(wǎng)絡(luò)服務(wù)的Elastic Map Reduce(EMR)即為該領(lǐng)域的開(kāi)拓性產(chǎn)品之一。
基本上所有的大型服務(wù)提供商都不約而同地在其產(chǎn)品組合中添加了基于云的Hadoop托管服務(wù),而且Hadoop發(fā)行版廠商自己也在努力“云端化”他們的框架,其中Cloudera的Altus就是最新的例子之一。Altus允許用戶利用MapReduce上的Hive或按需的Spark運(yùn)行數(shù)據(jù)處理作業(yè)。市場(chǎng)發(fā)展前景
在強(qiáng)大的云需求下,越來(lái)越多的公司選擇了Hadoop即服務(wù)。HaaS本質(zhì)上是一個(gè)平臺(tái)即服務(wù)(PaaS)的子類(lèi)別,它包括虛擬存儲(chǔ)和計(jì)算資源以及基于Hadoop的處理與分析框架。服務(wù)提供商通常運(yùn)維一個(gè)多租戶HaaS環(huán)境,允許在共享基礎(chǔ)設(shè)施上托管多個(gè)客戶。
據(jù)市場(chǎng)研究機(jī)構(gòu)Allied Market稱(chēng),隨著越來(lái)越多的公司接受了“云優(yōu)先”思維模式,預(yù)計(jì)到2020年,HaaS市場(chǎng)的收入將達(dá)到161億美元;從2014年到2020年,復(fù)合年增長(zhǎng)率(CAGR)將達(dá)到70.8%。從收入角度來(lái)看,北美地區(qū)仍然是領(lǐng)先的地區(qū),其次分別是歐洲和亞太地區(qū)。
預(yù)計(jì)到2020年,Haas的爆發(fā)將讓本地部署的Hadoop的增長(zhǎng)相形見(jiàn)絀。據(jù)市場(chǎng)研究機(jī)構(gòu)IDC的研究顯示,公有云部署已占全球業(yè)務(wù)分析軟件市場(chǎng)的12%,預(yù)計(jì)其復(fù)合年增長(zhǎng)率將達(dá)到25%。除了大型企業(yè)外,中小企業(yè)也在越來(lái)越多地選擇HaaS以獲得有可操作性的洞察力和創(chuàng)建以數(shù)據(jù)為中心的商業(yè)模式。
考慮HaaS時(shí)需要關(guān)注的事項(xiàng)
目前已經(jīng)有了許多HaaS用例,同時(shí)也暴露出了一些缺點(diǎn)。將大量數(shù)據(jù)移動(dòng)到云端可能會(huì)產(chǎn)生延遲問(wèn)題并且需要額外的帶寬。雖然只需點(diǎn)擊幾下即可方便地部署高度標(biāo)準(zhǔn)化的HaaS環(huán)境,但設(shè)計(jì)權(quán)限完全是由服務(wù)提供商自行決定。此外,云端上的數(shù)據(jù)會(huì)出現(xiàn)“引力場(chǎng)”并導(dǎo)致用戶被廠商鎖定。以下是評(píng)估HaaS提供商時(shí)還需要關(guān)注的事項(xiàng):
1.彈性
Hadoop支持適用于各種工作負(fù)載的彈性集群,這在考慮基于云的部署時(shí)尤為重要。有哪些可用的計(jì)算和存儲(chǔ)選項(xiàng)能夠支持不同的用例?例如,哪些額外的“計(jì)算刀片”可用于高I/O工作負(fù)載?環(huán)境的可擴(kuò)展性如何,以及調(diào)用額外資源(計(jì)算和存儲(chǔ))的難易程度如何?
2.HDFS的持續(xù)使用
盡管不需要將HDFS作為持久性數(shù)據(jù)存儲(chǔ),但在使用它們具有明顯的好處。HDFS使用的是商用直接附加存儲(chǔ)(DAS)并且分擔(dān)了底層基礎(chǔ)設(shè)施的成本。此外,HDFS可以無(wú)縫支持YARN和MapReduce,這使得其能夠本地處理查詢并充當(dāng)數(shù)據(jù)倉(cāng)庫(kù)。
3.計(jì)費(fèi)
服務(wù)提供商的基本價(jià)格指標(biāo)是什么(按訂單還是按消費(fèi)進(jìn)行計(jì)費(fèi))?如果能力未得到充分使用,退訂服務(wù)的靈活性如何?最重要的是,要記住“數(shù)據(jù)湖”是在快速擴(kuò)張的,那么價(jià)格水平將如何隨著時(shí)間的推移而變化?
4.高可用性
實(shí)現(xiàn)“零中斷”是一個(gè)微妙但卻非常重要的問(wèn)題。提供商的服務(wù)級(jí)協(xié)議和故障切換理念是什么?冗余是如何實(shí)現(xiàn)的?例如,提供商是否能夠在不中斷整個(gè)作業(yè)的情況下隔離并重新啟動(dòng)單臺(tái)機(jī)器(又稱(chēng)“不間斷運(yùn)行”)?
5.互操作性
用例往往會(huì)隨著時(shí)間的推移變得越來(lái)越復(fù)雜,那么將正在使用或計(jì)劃使用的服務(wù)集成在一起的難易程度如何?它們支持哪些數(shù)據(jù)流和API,以及它們的文檔文件完備程度如何?
6.人才需求
雖然與DIY相比,設(shè)置Haas環(huán)境所需的人力明顯減少,但是Hadoop并沒(méi)有完全實(shí)現(xiàn)“開(kāi)箱即用”。雖然節(jié)點(diǎn)的運(yùn)行只需點(diǎn)擊幾下鼠標(biāo),但是這只是在實(shí)際工作剛開(kāi)始時(shí)如此。定制仍然需要花費(fèi)時(shí)間和精力。