国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)走向融合

2015-01-06 08:56涂蘭敬
中國計算機報 2014年49期
關(guān)鍵詞:歷史數(shù)據(jù)磁盤內(nèi)存

涂蘭敬

大數(shù)據(jù)跨過了近幾年的炒作周期后,即將度過以落地實踐為核心的2014年。2015年,大數(shù)據(jù)將往哪個方向發(fā)展?近日,星環(huán)信息科技(上海)有限公司CTO孫元浩從基礎(chǔ)技術(shù)的角度預(yù)測了大數(shù)據(jù)的發(fā)展趨勢。

趨勢一:混合架構(gòu)將逐漸消失

當(dāng)初,Hadoop的誕生是為了更方便地處理非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),但是處理結(jié)構(gòu)化數(shù)據(jù)的時候功能就顯得不夠完整。用戶還需要使用數(shù)據(jù)庫或者MPP(大規(guī)模并行處理)數(shù)據(jù)庫,協(xié)助Hadoop處理結(jié)構(gòu)化的數(shù)據(jù)。另外,Hadoop是為處理幾百TB和幾PB數(shù)據(jù)而設(shè)計的,但是,當(dāng)數(shù)據(jù)量小于10TB的時候,Hadoop的處理性能往往還不如MPP數(shù)據(jù)庫。

為解決這些問題,用戶往往會考慮混合架構(gòu)的部署方式:把實時數(shù)據(jù)放到MPP數(shù)據(jù)庫里,把歷史數(shù)據(jù)放到Hadoop里;或者把大部分數(shù)據(jù)放在Hadoop里,小部分數(shù)據(jù)放到MPP數(shù)據(jù)庫里進行計算。

過去三年,Hadoop發(fā)展非常迅猛,很多公司快速啟動了SQL on Hadoop的開發(fā),其性能也有很大提升。目前,市場上在Hadoop系統(tǒng)里原生開發(fā)的SQL引擎技術(shù)主要有4種:第一種是Impala,采用類似于MPP的引擎;第二種是Tez,吸收了Spark的一些設(shè)計思想;第三種是Transwarp Inceptor,基于Spark開發(fā)的SQL引擎;第四種是Spark SQL和Drill。

隨著SQL on Hadoop技術(shù)的快速發(fā)展,SQL完整程度的大幅提高和性能的提升,孫元浩認為混合架構(gòu)正在逐漸消失。做出這樣的預(yù)測是因為,過去MPP數(shù)據(jù)庫的3個優(yōu)勢隨著SQL on Hadoop的成熟逐漸被削弱。第一,傳統(tǒng)MPP數(shù)據(jù)庫對SQL的支持相對完整,而現(xiàn)在,Hadoop對SQL的支持程度已經(jīng)接近MPP數(shù)據(jù)庫。第二,傳統(tǒng)MPP數(shù)據(jù)處理性能高,而現(xiàn)在,Hadoop的性能已經(jīng)超過MPP數(shù)據(jù)庫數(shù)倍。第三,傳統(tǒng)MPP數(shù)據(jù)庫上外延工具非常豐富,而現(xiàn)在,很多傳統(tǒng)BI廠商都已經(jīng)支持Hadoop,一些新興創(chuàng)業(yè)公司都已經(jīng)在Hadoop上開發(fā)了全新的BI工具,Hadoop系統(tǒng)上的外延工具也越來越豐富,Hadoop生態(tài)系統(tǒng)將很快超越傳統(tǒng)MPP數(shù)據(jù)庫。

未來,Hadoop將逐漸取代MPP數(shù)據(jù)庫,用戶將逐漸不需要使用混合架構(gòu),不需要在不同數(shù)據(jù)庫之間遷移。MPP數(shù)據(jù)庫將逐漸消失并慢慢地融入Hadoop。用戶的數(shù)據(jù)量無論大小將全部都可以在Hadoop上處理,真正做到無限的線性擴展。

趨勢二:固態(tài)盤將替代內(nèi)存

隨著硬件技術(shù)的發(fā)展,孫元浩發(fā)現(xiàn),作為緩存,內(nèi)存可以被大容量的SSD(固態(tài)硬盤)取代。內(nèi)存讀取數(shù)據(jù)的速度是磁盤的百倍甚至千倍,但是SSD 的性能已經(jīng)開始接近內(nèi)存了。同時,SSD的價格也在迅速下降。今天,在中國市場可以以1萬至2萬元的價格購買到1TB容量的SSD。孫元浩認為,用SSD替代內(nèi)存是當(dāng)前比較好的方案。

Hadoop2.6中提出一個概念叫Storage Tier(存儲層)。它在HDFS(分布式文件系統(tǒng))上提供三層存儲:磁盤層、SSD層和內(nèi)存層。以大小為128MB的數(shù)據(jù)塊為單位,用戶可以把文件放在指定的層,以此來提升數(shù)據(jù)的存取速度。但是,用戶很快發(fā)現(xiàn)事情沒有那么簡單。因為,Hadoop最早是為大容量低速磁盤而設(shè)計的,SSD比普通磁盤順序讀寫性能高10倍,它的隨機訪問性能是磁盤的1000倍,如果不能利用隨機訪問的性能優(yōu)勢,提升的性能不會像硬件指標(biāo)這么顯著。

因此,孫元浩認為,基于磁盤讀寫的Hadoop在2015年將慢慢開始為SSD做優(yōu)化,未來會有更多的優(yōu)化專門針對SSD。另外,內(nèi)存數(shù)據(jù)庫廠商將開始感受到內(nèi)存不足的瓶頸,SSD將成為內(nèi)存最理想的替代品。

趨勢三:實時大數(shù)據(jù)得到更多關(guān)注

隨著傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)產(chǎn)生的速度越來越快,使得實時大數(shù)據(jù)的技術(shù)開始得到更多的關(guān)注。

到今天為止,沒有哪個技術(shù)既能處理實時數(shù)據(jù)又能處理大量歷史數(shù)據(jù)。孫元浩表示,針對實時數(shù)據(jù)和歷史數(shù)據(jù)的處理,Nathan Marz提出了Lambda架構(gòu)(一種基于MapReduce和Storm建立的流處理應(yīng)用)。實時數(shù)據(jù)進入一個流處理系統(tǒng)進行檢測分析,歷史數(shù)據(jù)在Hadoop上進行分析,然后將兩種數(shù)據(jù)分析的結(jié)果再進行融合,應(yīng)用程序可以訪問融合之后的數(shù)據(jù)庫。

但是,這種混合架構(gòu)還存在3個問題:第一,實時數(shù)據(jù)的流處理系統(tǒng)處理完之后就把數(shù)據(jù)丟棄了,只留下分析結(jié)果,用戶不能對實時數(shù)據(jù)進行隨機查詢;第二,把實時數(shù)據(jù)和歷史數(shù)據(jù)分離后,怎么形成統(tǒng)一的視圖,最后怎么拼接起來;第三,融合兩種分析結(jié)果的數(shù)據(jù)可以完成快速查詢但不能做復(fù)雜的統(tǒng)計分析和數(shù)據(jù)挖掘。

Druid項目的出現(xiàn)不僅解決了快速采集的問題,還化解了統(tǒng)一視圖的問題:把實時數(shù)據(jù)和歷史數(shù)據(jù)全部拼接起來制成一張視圖,把實時數(shù)據(jù)離線狀態(tài)下收集起來拼成一張歷史視圖。但是,Druid項目還沒能解決復(fù)雜的統(tǒng)計分析和數(shù)據(jù)挖掘的問題。

孫元浩指出,比較理想的架構(gòu)是全量數(shù)據(jù)經(jīng)過流處理以后直接進入一個數(shù)據(jù)庫。這個數(shù)據(jù)庫可以完整地把實時數(shù)據(jù)和歷史數(shù)據(jù)拼接起來,基于這些數(shù)據(jù)既可以進行高速查詢又能進行迭代分析。這樣,IT人員可以省去維護兩套架構(gòu)的麻煩,而且既能對實時數(shù)據(jù)進行分析,又能對歷史數(shù)據(jù)進行分析。

趨勢四:云計算與大數(shù)據(jù)終將融合

最近一兩年,虛擬化技術(shù)的快速發(fā)展不亞于一場新的技術(shù)革命。首先,輕量級Linux Container(簡稱LXC,一種內(nèi)核虛擬化技術(shù))的出現(xiàn),Container(容器)之間可以做資源隔離,這使得虛擬機變得非常輕量級。為此,Docker公司開發(fā)了一個工具,它讓用戶創(chuàng)建單個容器或者應(yīng)用時遷移起來更加容易。但是,當(dāng)創(chuàng)建多個容器或應(yīng)用時,用戶遷移起來還是會覺得很困難。此時,谷歌的一個開源項目Kubernetes出現(xiàn)了。它簡化了用戶創(chuàng)建Hadoop集群和傳統(tǒng)應(yīng)用,提供多容器集群的部署和一些基礎(chǔ)服務(wù),例如一些調(diào)度服務(wù)。

2013年,Hadoop2.0資源管理方面一個革命性的框架Yarn(一種新的MapReduce框架)誕生了。Yarn把資源管理放在最底層,在其框架上可以運行多種計算框架。在應(yīng)用的過程中,用戶發(fā)現(xiàn)Yarn對內(nèi)存/磁盤/IO的資源隔離做得不夠好。為此,Hortonworks公司嘗試把谷歌的Kubernetes作為Yarn的應(yīng)用管理器,用Docker(一種開源的應(yīng)用容器引擎)進行資源調(diào)度。同時,Mesosphere公司以Mesos(一種集群管理器)計算框架為資源調(diào)度核心,以Docker為容器的管理工具,開發(fā)了一套分布式資源管理框架,并提出了數(shù)據(jù)中心操作系統(tǒng)的概念。

孫元浩指出,數(shù)據(jù)中心操作系統(tǒng)可以分三層。最底層與操作系統(tǒng)內(nèi)核的功能一樣,可以快速地創(chuàng)建、釋放計算資源,實現(xiàn)對CPU/網(wǎng)絡(luò)/內(nèi)存/存儲的管理。中間層是在最底層的基礎(chǔ)上繼續(xù)加一些基礎(chǔ)服務(wù)。最上面一層則提供平臺服務(wù),可以創(chuàng)建和部署Hadoop、Spark等應(yīng)用。

根據(jù)數(shù)據(jù)中心操作系統(tǒng)的概念,目前市場上主要有兩大技術(shù)方向。第一個技術(shù)方向是把Yarn作為資源調(diào)度的基礎(chǔ),Kubernetes作為運行在Yarn上的一個應(yīng)用框架,而且Kubernetes與Yarn并列在同一層。另外一個技術(shù)方向是把調(diào)度器抽象出來作為插件,例如Yarn和Mesos都可以作為Kubernetes的調(diào)度器,當(dāng)然也可以實現(xiàn)自己的調(diào)度程序,使用Docker或者CoreOS(一種基于Linux 內(nèi)核的輕量級操作系統(tǒng))進行容器管理,而Hadoop等分布式服務(wù)運行在Kubernetes之上。第二個技術(shù)對底層能夠提供資源隔離和管理,對最上層能夠提供各種服務(wù)。孫元浩認為,第二個技術(shù)方向可能是明年的主流趨勢。

猜你喜歡
歷史數(shù)據(jù)磁盤內(nèi)存
基于故障歷史數(shù)據(jù)和BP神經(jīng)網(wǎng)絡(luò)的接地選線方案研究
外部高速緩存與非易失內(nèi)存結(jié)合的混合內(nèi)存體系結(jié)構(gòu)特性評測
“春夏秋冬”的內(nèi)存
修改磁盤屬性
用好細節(jié)材料 提高課堂實效
磁盤組群組及iSCSI Target設(shè)置
創(chuàng)建VSAN群集
基于內(nèi)存的地理信息訪問技術(shù)
泰兴市| 张家川| 木兰县| 闽侯县| 广宗县| 谷城县| 昆山市| 柞水县| 安溪县| 黎平县| 杭锦旗| 凤冈县| 滦平县| 大连市| 宁阳县| 洛宁县| 依安县| 老河口市| 加查县| 靖远县| 桦甸市| 方正县| 连城县| 巴中市| 开平市| 凤凰县| 克东县| 台南县| 松潘县| 隆回县| 冀州市| 武鸣县| 正镶白旗| 潞西市| 乌审旗| 信阳市| 新和县| 天镇县| 岱山县| 宜丰县| 淮滨县|