大數(shù)據(jù)走向融合

2015-01-06 08:56涂蘭敬

中國計算機報 2014年49期

涂蘭敬

大數(shù)據(jù)跨過了近幾年的炒作周期后，即將度過以落地實踐為核心的2014年。2015年，大數(shù)據(jù)將往哪個方向發(fā)展？近日，星環(huán)信息科技（上海）有限公司CTO孫元浩從基礎(chǔ)技術(shù)的角度預(yù)測了大數(shù)據(jù)的發(fā)展趨勢。

趨勢一：混合架構(gòu)將逐漸消失

當(dāng)初，Hadoop的誕生是為了更方便地處理非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)，但是處理結(jié)構(gòu)化數(shù)據(jù)的時候功能就顯得不夠完整。用戶還需要使用數(shù)據(jù)庫或者MPP（大規(guī)模并行處理）數(shù)據(jù)庫，協(xié)助Hadoop處理結(jié)構(gòu)化的數(shù)據(jù)。另外，Hadoop是為處理幾百TB和幾PB數(shù)據(jù)而設(shè)計的，但是，當(dāng)數(shù)據(jù)量小于10TB的時候，Hadoop的處理性能往往還不如MPP數(shù)據(jù)庫。

為解決這些問題，用戶往往會考慮混合架構(gòu)的部署方式：把實時數(shù)據(jù)放到MPP數(shù)據(jù)庫里，把歷史數(shù)據(jù)放到Hadoop里;或者把大部分數(shù)據(jù)放在Hadoop里，小部分數(shù)據(jù)放到MPP數(shù)據(jù)庫里進行計算。

過去三年，Hadoop發(fā)展非常迅猛，很多公司快速啟動了SQL on Hadoop的開發(fā)，其性能也有很大提升。目前，市場上在Hadoop系統(tǒng)里原生開發(fā)的SQL引擎技術(shù)主要有4種：第一種是Impala，采用類似于MPP的引擎;第二種是Tez，吸收了Spark的一些設(shè)計思想;第三種是Transwarp Inceptor，基于Spark開發(fā)的SQL引擎;第四種是Spark SQL和Drill。

隨著SQL on Hadoop技術(shù)的快速發(fā)展，SQL完整程度的大幅提高和性能的提升，孫元浩認為混合架構(gòu)正在逐漸消失。做出這樣的預(yù)測是因為，過去MPP數(shù)據(jù)庫的3個優(yōu)勢隨著SQL on Hadoop的成熟逐漸被削弱。第一，傳統(tǒng)MPP數(shù)據(jù)庫對SQL的支持相對完整，而現(xiàn)在，Hadoop對SQL的支持程度已經(jīng)接近MPP數(shù)據(jù)庫。第二，傳統(tǒng)MPP數(shù)據(jù)處理性能高，而現(xiàn)在，Hadoop的性能已經(jīng)超過MPP數(shù)據(jù)庫數(shù)倍。第三，傳統(tǒng)MPP數(shù)據(jù)庫上外延工具非常豐富，而現(xiàn)在，很多傳統(tǒng)BI廠商都已經(jīng)支持Hadoop，一些新興創(chuàng)業(yè)公司都已經(jīng)在Hadoop上開發(fā)了全新的BI工具，Hadoop系統(tǒng)上的外延工具也越來越豐富，Hadoop生態(tài)系統(tǒng)將很快超越傳統(tǒng)MPP數(shù)據(jù)庫。

未來，Hadoop將逐漸取代MPP數(shù)據(jù)庫，用戶將逐漸不需要使用混合架構(gòu)，不需要在不同數(shù)據(jù)庫之間遷移。MPP數(shù)據(jù)庫將逐漸消失并慢慢地融入Hadoop。用戶的數(shù)據(jù)量無論大小將全部都可以在Hadoop上處理，真正做到無限的線性擴展。

趨勢二：固態(tài)盤將替代內(nèi)存

隨著硬件技術(shù)的發(fā)展，孫元浩發(fā)現(xiàn)，作為緩存，內(nèi)存可以被大容量的SSD（固態(tài)硬盤）取代。內(nèi)存讀取數(shù)據(jù)的速度是磁盤的百倍甚至千倍，但是SSD 的性能已經(jīng)開始接近內(nèi)存了。同時，SSD的價格也在迅速下降。今天，在中國市場可以以1萬至2萬元的價格購買到1TB容量的SSD。孫元浩認為，用SSD替代內(nèi)存是當(dāng)前比較好的方案。

Hadoop2.6中提出一個概念叫Storage Tier（存儲層）。它在HDFS（分布式文件系統(tǒng)）上提供三層存儲：磁盤層、SSD層和內(nèi)存層。以大小為128MB的數(shù)據(jù)塊為單位，用戶可以把文件放在指定的層，以此來提升數(shù)據(jù)的存取速度。但是，用戶很快發(fā)現(xiàn)事情沒有那么簡單。因為，Hadoop最早是為大容量低速磁盤而設(shè)計的，SSD比普通磁盤順序讀寫性能高10倍，它的隨機訪問性能是磁盤的1000倍，如果不能利用隨機訪問的性能優(yōu)勢，提升的性能不會像硬件指標(biāo)這么顯著。

因此，孫元浩認為，基于磁盤讀寫的Hadoop在2015年將慢慢開始為SSD做優(yōu)化，未來會有更多的優(yōu)化專門針對SSD。另外，內(nèi)存數(shù)據(jù)庫廠商將開始感受到內(nèi)存不足的瓶頸，SSD將成為內(nèi)存最理想的替代品。

趨勢三：實時大數(shù)據(jù)得到更多關(guān)注

隨著傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)產(chǎn)生的速度越來越快，使得實時大數(shù)據(jù)的技術(shù)開始得到更多的關(guān)注。

到今天為止，沒有哪個技術(shù)既能處理實時數(shù)據(jù)又能處理大量歷史數(shù)據(jù)。孫元浩表示，針對實時數(shù)據(jù)和歷史數(shù)據(jù)的處理，Nathan Marz提出了Lambda架構(gòu)（一種基于MapReduce和Storm建立的流處理應(yīng)用）。實時數(shù)據(jù)進入一個流處理系統(tǒng)進行檢測分析，歷史數(shù)據(jù)在Hadoop上進行分析，然后將兩種數(shù)據(jù)分析的結(jié)果再進行融合，應(yīng)用程序可以訪問融合之后的數(shù)據(jù)庫。

但是，這種混合架構(gòu)還存在3個問題：第一，實時數(shù)據(jù)的流處理系統(tǒng)處理完之后就把數(shù)據(jù)丟棄了，只留下分析結(jié)果，用戶不能對實時數(shù)據(jù)進行隨機查詢;第二，把實時數(shù)據(jù)和歷史數(shù)據(jù)分離后，怎么形成統(tǒng)一的視圖，最后怎么拼接起來;第三，融合兩種分析結(jié)果的數(shù)據(jù)可以完成快速查詢但不能做復(fù)雜的統(tǒng)計分析和數(shù)據(jù)挖掘。

Druid項目的出現(xiàn)不僅解決了快速采集的問題，還化解了統(tǒng)一視圖的問題：把實時數(shù)據(jù)和歷史數(shù)據(jù)全部拼接起來制成一張視圖，把實時數(shù)據(jù)離線狀態(tài)下收集起來拼成一張歷史視圖。但是，Druid項目還沒能解決復(fù)雜的統(tǒng)計分析和數(shù)據(jù)挖掘的問題。

孫元浩指出，比較理想的架構(gòu)是全量數(shù)據(jù)經(jīng)過流處理以后直接進入一個數(shù)據(jù)庫。這個數(shù)據(jù)庫可以完整地把實時數(shù)據(jù)和歷史數(shù)據(jù)拼接起來，基于這些數(shù)據(jù)既可以進行高速查詢又能進行迭代分析。這樣，IT人員可以省去維護兩套架構(gòu)的麻煩，而且既能對實時數(shù)據(jù)進行分析，又能對歷史數(shù)據(jù)進行分析。

趨勢四：云計算與大數(shù)據(jù)終將融合

最近一兩年，虛擬化技術(shù)的快速發(fā)展不亞于一場新的技術(shù)革命。首先，輕量級Linux Container（簡稱LXC，一種內(nèi)核虛擬化技術(shù)）的出現(xiàn)，Container（容器）之間可以做資源隔離，這使得虛擬機變得非常輕量級。為此，Docker公司開發(fā)了一個工具，它讓用戶創(chuàng)建單個容器或者應(yīng)用時遷移起來更加容易。但是，當(dāng)創(chuàng)建多個容器或應(yīng)用時，用戶遷移起來還是會覺得很困難。此時，谷歌的一個開源項目Kubernetes出現(xiàn)了。它簡化了用戶創(chuàng)建Hadoop集群和傳統(tǒng)應(yīng)用，提供多容器集群的部署和一些基礎(chǔ)服務(wù)，例如一些調(diào)度服務(wù)。

2013年，Hadoop2.0資源管理方面一個革命性的框架Yarn（一種新的MapReduce框架）誕生了。Yarn把資源管理放在最底層，在其框架上可以運行多種計算框架。在應(yīng)用的過程中，用戶發(fā)現(xiàn)Yarn對內(nèi)存/磁盤/IO的資源隔離做得不夠好。為此，Hortonworks公司嘗試把谷歌的Kubernetes作為Yarn的應(yīng)用管理器，用Docker（一種開源的應(yīng)用容器引擎）進行資源調(diào)度。同時，Mesosphere公司以Mesos（一種集群管理器）計算框架為資源調(diào)度核心，以Docker為容器的管理工具，開發(fā)了一套分布式資源管理框架，并提出了數(shù)據(jù)中心操作系統(tǒng)的概念。

孫元浩指出，數(shù)據(jù)中心操作系統(tǒng)可以分三層。最底層與操作系統(tǒng)內(nèi)核的功能一樣，可以快速地創(chuàng)建、釋放計算資源，實現(xiàn)對CPU/網(wǎng)絡(luò)/內(nèi)存/存儲的管理。中間層是在最底層的基礎(chǔ)上繼續(xù)加一些基礎(chǔ)服務(wù)。最上面一層則提供平臺服務(wù)，可以創(chuàng)建和部署Hadoop、Spark等應(yīng)用。

根據(jù)數(shù)據(jù)中心操作系統(tǒng)的概念，目前市場上主要有兩大技術(shù)方向。第一個技術(shù)方向是把Yarn作為資源調(diào)度的基礎(chǔ)，Kubernetes作為運行在Yarn上的一個應(yīng)用框架，而且Kubernetes與Yarn并列在同一層。另外一個技術(shù)方向是把調(diào)度器抽象出來作為插件，例如Yarn和Mesos都可以作為Kubernetes的調(diào)度器，當(dāng)然也可以實現(xiàn)自己的調(diào)度程序，使用Docker或者CoreOS（一種基于Linux 內(nèi)核的輕量級操作系統(tǒng)）進行容器管理，而Hadoop等分布式服務(wù)運行在Kubernetes之上。第二個技術(shù)對底層能夠提供資源隔離和管理，對最上層能夠提供各種服務(wù)。孫元浩認為，第二個技術(shù)方向可能是明年的主流趨勢。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)走向融合