国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MPP數(shù)據(jù)庫在中國移動大數(shù)據(jù)應(yīng)用中的前景分析

2017-03-27 03:27:32
關(guān)鍵詞:現(xiàn)網(wǎng)數(shù)據(jù)量架構(gòu)

(中國移動通信集團(tuán)設(shè)計院有限公司,北京 100080)

MPP數(shù)據(jù)庫在中國移動大數(shù)據(jù)應(yīng)用中的前景分析

田雯,劉倩,孫紅恩

(中國移動通信集團(tuán)設(shè)計院有限公司,北京 100080)

隨著云計算、大數(shù)據(jù)應(yīng)用的迅猛發(fā)展,中國移動IT系統(tǒng)的數(shù)據(jù)量呈現(xiàn)爆炸式的增長,而傳統(tǒng)的以小型機(jī)架構(gòu)為主的數(shù)據(jù)庫系統(tǒng)在存儲和分析能力等方面開始出現(xiàn)瓶頸,且造價高昂,因此中國移動對MPP數(shù)據(jù)庫的應(yīng)用需求量大幅增加。本文通過對MPP數(shù)據(jù)庫在中國移動的現(xiàn)網(wǎng)使用情況、產(chǎn)品技術(shù)優(yōu)劣及適用場景的分析,來探討MPP數(shù)據(jù)庫在中國移動大數(shù)據(jù)應(yīng)用中的發(fā)展前景。

大數(shù)據(jù)技術(shù);MPP數(shù)據(jù)庫;share-nothing架構(gòu)應(yīng)用

1 前言

由阿里巴巴造出的“去IOE”概念在IT圈已經(jīng)迅速火熱起來,中國移動也跟隨浪潮掀起了“去IOE”的運(yùn)動?!叭OE”即去掉造價高昂的IBM小型機(jī)、Oracle數(shù)據(jù)庫和EMC存儲設(shè)備,代之以廉價的國產(chǎn)化、開源化的軟硬件系統(tǒng),實質(zhì)就是以“分布式+開源”的架構(gòu)替換傳統(tǒng)的“集中式+封閉”架構(gòu),是系統(tǒng)云化的重要組成部分。而實現(xiàn)“去IOE”之路,就必須要借助云計算、大數(shù)據(jù)等新型技術(shù)。

2 大數(shù)據(jù)定義及大數(shù)據(jù)技術(shù)

研究機(jī)構(gòu)Gartner對于“大數(shù)據(jù)”(Big Data)給出的定義是“需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”。大數(shù)據(jù)具有大量(Volume)、高速(Velocity)、多樣(Variety)和價值(Value)四大特點,簡稱“4V”特征。而大數(shù)據(jù)技術(shù)則是對大容量、高周轉(zhuǎn)率、高可變性的信息資產(chǎn)的管理,它要求經(jīng)濟(jì)實惠的、創(chuàng)新的信息處理形式以提升洞察力和決策水平。

目前主流的大數(shù)據(jù)技術(shù)主要包括分布式數(shù)據(jù)庫(Massively Parallel Processing大規(guī)模并行處理, MPP數(shù)據(jù)庫)、Hadoop平臺、NoSQL和NewSQL技術(shù)等。

各種大數(shù)據(jù)技術(shù)擅長領(lǐng)域不同,如表1所示,用戶需要根據(jù)實際的應(yīng)用場景選取最優(yōu)匹配的大數(shù)據(jù)技術(shù)。

3 MPP數(shù)據(jù)庫在中國移動現(xiàn)網(wǎng)的應(yīng)用及適用場景分析

3.1 MPP數(shù)據(jù)庫在中國移動現(xiàn)網(wǎng)的應(yīng)用情況

隨著移動互聯(lián)網(wǎng)應(yīng)用的迅猛發(fā)展,中國移動IT系統(tǒng)的數(shù)據(jù)量呈現(xiàn)爆炸式的增長,帶來了海量的數(shù)據(jù)存儲、分析和管理需求。而傳統(tǒng)的以小型機(jī)架構(gòu)為主的數(shù)據(jù)庫系統(tǒng),在存儲、計算、查詢和分析能力等方面均開始出現(xiàn)瓶頸,且造價高昂,因此中國移動對MPP數(shù)據(jù)庫的應(yīng)用需求量大幅增加。

表1 各類大數(shù)據(jù)技術(shù)的適用領(lǐng)域

2015年最新調(diào)研結(jié)果顯示,中國移動各省約有40個IT系統(tǒng)使用了MPP數(shù)據(jù)庫,總數(shù)據(jù)量約為8PB。其中,47%用于數(shù)據(jù)共享平臺(多數(shù)為企業(yè)級或部門級內(nèi)部共享使用),22%用于經(jīng)分系統(tǒng),12%用于詳單云,7%用于集中性能管理系統(tǒng),其余用于深度分析庫、信令監(jiān)測系統(tǒng)、VGOP等系統(tǒng)。

從規(guī)模統(tǒng)計情況來看,中國移動MPP現(xiàn)網(wǎng)應(yīng)用規(guī)模主要集中在10~50個節(jié)點、50~500 TB數(shù)據(jù)量之間。同時各省根據(jù)系統(tǒng)滿足期、使用用戶、業(yè)務(wù)發(fā)展等情況對各系統(tǒng)終期將實現(xiàn)的規(guī)模進(jìn)行預(yù)測,預(yù)測結(jié)果顯示MPP遠(yuǎn)期業(yè)務(wù)發(fā)展將可達(dá)到100節(jié)點、1 000 TB數(shù)據(jù)量的規(guī)模。圖1、2為中國移動MPP現(xiàn)網(wǎng)應(yīng)用規(guī)模和遠(yuǎn)期預(yù)測規(guī)模分布圖。

3.2 MPP數(shù)據(jù)庫適用場景分析

根據(jù)上述應(yīng)用情況可以看出,MPP數(shù)據(jù)庫主要適用于具有以下特性的OLAP類應(yīng)用(數(shù)據(jù)倉庫/集市、數(shù)據(jù)分析類系統(tǒng)等):

離線批處理、復(fù)雜邏輯的關(guān)聯(lián)分析;

自定義查詢、自助取數(shù);

支持結(jié)構(gòu)化數(shù)據(jù)、少量的非結(jié)構(gòu)化數(shù)據(jù);

單集群一般100節(jié)點以下;

數(shù)據(jù)規(guī)模在TB~PB級。

MPP數(shù)據(jù)庫針對OLAP類應(yīng)用場景提供了大量的技術(shù)優(yōu)化,以充分發(fā)揮Share-Nothing架構(gòu)的性能優(yōu)勢和關(guān)系數(shù)據(jù)庫的數(shù)據(jù)關(guān)聯(lián)分析能力。相較于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫產(chǎn)品,MPP數(shù)據(jù)庫具有高性能處理能力和高數(shù)據(jù)吞吐能力,適合較大數(shù)據(jù)量、高計算負(fù)載度、低延時要求的關(guān)系型數(shù)據(jù)處理,可提供結(jié)構(gòu)化數(shù)據(jù)的深度分析挖掘以及多變的自助分析功能:

圖1 中國移動MPP現(xiàn)網(wǎng)應(yīng)用規(guī)模

圖2 中國移動MPP現(xiàn)網(wǎng)應(yīng)用遠(yuǎn)期預(yù)測規(guī)模

(1)深度分析與挖掘:承擔(dān)部分主庫結(jié)構(gòu)化數(shù)據(jù)處理任務(wù),執(zhí)行大量歷史信息處理和查詢?nèi)蝿?wù),完成海量數(shù)據(jù)挖掘任務(wù);

(2)即席查詢與自助分析:執(zhí)行非固定信息的分析任務(wù),以及臨時、即席、快速變化的分析任務(wù),提供更加開放的分析探索環(huán)境。

4 MPP數(shù)據(jù)庫產(chǎn)品介紹及技術(shù)前景分析

4.1 MPP技術(shù)特點及產(chǎn)品介紹

MPP數(shù)據(jù)庫依然是關(guān)系型數(shù)據(jù)庫。典型的MPP系統(tǒng)是通過Share-Nothing(無共享)的方式實現(xiàn)大規(guī)模的并行處理,它將任務(wù)并行的分散到多個節(jié)點上,每個節(jié)點都有獨(dú)立的磁盤存儲系統(tǒng)和內(nèi)存系統(tǒng),業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫模型和應(yīng)用特點劃分到各個節(jié)點上,每臺數(shù)據(jù)節(jié)點通過網(wǎng)絡(luò)互相連接,彼此協(xié)同計算,作為整體提供數(shù)據(jù)庫服務(wù)。其中,MPP又分為有Master節(jié)點和無Master節(jié)點兩種架構(gòu),Master節(jié)點承擔(dān)生產(chǎn)執(zhí)行計劃和任務(wù)調(diào)度等功能,有專職Master節(jié)點的架構(gòu)不會影響數(shù)據(jù)節(jié)點的效率,但缺陷在于Master節(jié)點本身可能會成為性能瓶頸。

MPP數(shù)據(jù)庫與傳統(tǒng)的Share-Disk架構(gòu)的SMP數(shù)據(jù)庫不同,SMP系統(tǒng)的節(jié)點之間共享文件存儲,特點是高并發(fā)、高可用性、數(shù)據(jù)量較小,適合OLTP類應(yīng)用場景,而MPP系統(tǒng)具有海量數(shù)據(jù)、低并發(fā)、低可用性的特點,因此更適合于OLAP類應(yīng)用場景。圖3為MPP數(shù)據(jù)庫系統(tǒng)和SMP數(shù)據(jù)庫系統(tǒng)的架構(gòu)圖。

圖3 MPP和SMP數(shù)據(jù)庫系統(tǒng)架構(gòu)圖

目前市面上的開源和商用MPP數(shù)據(jù)庫產(chǎn)品多達(dá)幾十種,而且還有新的產(chǎn)品不斷涌出。各種不同架構(gòu)和特性的MPP數(shù)據(jù)庫產(chǎn)品紛紛加入市場大混戰(zhàn),技術(shù)路線很難標(biāo)準(zhǔn)統(tǒng)一化,給用戶帶來了選型和管理上的困擾。表2為目前市面上主流MPP數(shù)據(jù)庫產(chǎn)品的技術(shù)優(yōu)劣對比情況。

MPP數(shù)據(jù)庫各產(chǎn)品技術(shù)存在著較大的差異,產(chǎn)品選型應(yīng)重點考慮系統(tǒng)的集群規(guī)模、部署環(huán)境、執(zhí)行效率和安全性等需求。綜合來講,Greenplum(EMC)、Vertica(HP)和Gbase(南大通用)這三種產(chǎn)品的技術(shù)更為成熟優(yōu)良。其中,南大通用作為國產(chǎn)MPP領(lǐng)域的第一品牌,技術(shù)發(fā)展水平與國外同類產(chǎn)品相當(dāng),甚至在架構(gòu)設(shè)計方面已趕超國外同類產(chǎn)品。

無論選擇何種產(chǎn)品,用戶在進(jìn)行產(chǎn)品選型之前,都應(yīng)先明確具體的應(yīng)用場景,并針對應(yīng)用場景對產(chǎn)品進(jìn)行功能和性能測試,重點比對產(chǎn)品的各項指標(biāo)數(shù)據(jù),從而選擇性價比最高的一款產(chǎn)品。

4.2 MPP技術(shù)缺陷及改進(jìn)

MPP架構(gòu)可以對大數(shù)據(jù)進(jìn)行分析處理,可有效支撐PB級別的結(jié)構(gòu)化數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)庫架構(gòu)無法達(dá)到的數(shù)據(jù)量,但MPP也具有一些局限性和技術(shù)缺陷:

MPP系統(tǒng)因為要在不同處理單元之間傳送信息,針對緊耦合的數(shù)據(jù)庫表訪問、較多事務(wù)同時處理的情況效率不佳,因此不適用于事務(wù)型數(shù)據(jù)及OLTP場景。

MPP系統(tǒng)的擴(kuò)展能力有限,目前的技術(shù)理論上可實現(xiàn)512節(jié)點的互聯(lián),但實際上系統(tǒng)處理性能不能隨著節(jié)

點數(shù)的增加呈線性增長趨勢,現(xiàn)網(wǎng)中100節(jié)點以上規(guī)模的應(yīng)用數(shù)量極少。

MPP系統(tǒng)的故障容忍度不高,單節(jié)點故障性能損失可高達(dá)50%,多節(jié)點故障則可能導(dǎo)致整個MPP系統(tǒng)不可用。

各大主流廠商為解決上述問題,對MPP技術(shù)做了優(yōu)化和改進(jìn),現(xiàn)今已有多Master節(jié)點、行列混合存儲、植入內(nèi)存計算等技術(shù)開始嘗試使用:

(1)Master節(jié)點主要承擔(dān)訪問入口、元數(shù)據(jù)管理、生成執(zhí)行計劃和任務(wù)調(diào)度等功能。有專職Master節(jié)點的架構(gòu)不會影響數(shù)據(jù)節(jié)點的效率,但大規(guī)模集群下Master節(jié)點本身會成為性能短板;而無專職Master節(jié)點的架構(gòu)擴(kuò)展性能更好,一個節(jié)點失效不影響數(shù)據(jù)庫整體狀態(tài),但任務(wù)調(diào)度等主節(jié)點工作分布在數(shù)據(jù)節(jié)點執(zhí)行會降低數(shù)據(jù)節(jié)點的性能。因此, 多Master節(jié)點是未來的發(fā)展方向,由多個子集群組成聯(lián)邦集群: Master集群、獨(dú)立的集群服務(wù)集群(比如Zookeeper)和計算集群組,可有效解決大規(guī)模集群部署的問題。這樣多節(jié)點的分層架構(gòu)提供良好的擴(kuò)展性和高可用的同時,也能夠保證數(shù)據(jù)節(jié)點的對等性。

表2 MPP數(shù)據(jù)庫主流產(chǎn)品技術(shù)優(yōu)劣對比表

(2)按行進(jìn)行Hash分布是MPP的主要特征,行式存儲更新速度快,適合多字段頻繁查詢;而列式存儲則能大幅降低分析負(fù)載的磁盤I/O,并且提供更高的數(shù)據(jù)壓縮率。行列混合式存儲可吸收兩者的優(yōu)勢,互補(bǔ)加成,可以按照應(yīng)用類型,隨需定制分區(qū)存儲方式,以達(dá)到最優(yōu)化的訪問性能,從而提高查詢速度和數(shù)據(jù)壓縮率。

(3)內(nèi)存的數(shù)據(jù)讀寫速度比磁盤要高出幾個數(shù)量級,將數(shù)據(jù)保存在內(nèi)存中相比從磁盤上訪問能夠極大地提高應(yīng)用的性能,適合小數(shù)據(jù)量的頻繁加載/修改。MPP通過植入內(nèi)存計算技術(shù),在內(nèi)存中為實時裝載數(shù)據(jù)開辟一塊專用存儲區(qū)域,利用內(nèi)存的快速讀寫能力為業(yè)務(wù)系統(tǒng)提供高并發(fā)、低延遲的數(shù)據(jù)處理能力,可滿足OLTP服務(wù)需求。

4.3 MPP技術(shù)發(fā)展前景

目前,中國移動IT系統(tǒng)使用MPP數(shù)據(jù)庫的主流解決方案是與Hadoop平臺形成混搭架構(gòu)來實現(xiàn)海量數(shù)據(jù)分析,Hadoop可對數(shù)據(jù)規(guī)模在PB級以上的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,MPP數(shù)據(jù)庫可以直接加載/卸載數(shù)據(jù)到Hadoop的HDFS文件系統(tǒng),提供結(jié)構(gòu)化數(shù)據(jù)分析功能,同時提供豐富的SQL和事務(wù)支持能力,二者屬于互補(bǔ)關(guān)系。

MPP的技術(shù)優(yōu)勢在于對結(jié)構(gòu)化數(shù)據(jù)的處理、響應(yīng)性能和外延工具齊全等方面,未來Hadoop系列技術(shù),會隨著大數(shù)據(jù)的發(fā)展逐漸成熟,包括Hadoop的SQL技術(shù)在性能、容錯和安全性上的不斷提升,BI工具越來越豐富等。同時,MPP技術(shù)發(fā)展也在向Hadoop靠攏,各主流廠商紛紛在做的新一代大數(shù)據(jù)產(chǎn)品,就是把MPP與Hadoop技術(shù)融合在一起,并結(jié)合一些內(nèi)存計算、流計算等技術(shù),一方面可為用戶提供透明的數(shù)據(jù)管理平臺,另一方面通過技術(shù)整合來有效節(jié)約投資成本。換句話說,未來不再有混搭架構(gòu)的概念,MPP數(shù)據(jù)庫和Hadoop生態(tài)系統(tǒng)將逐漸融為一體。

5 結(jié)束語

綜上所述,在大數(shù)據(jù)技術(shù)融合尚未完善的現(xiàn)階段,MPP數(shù)據(jù)庫依然是大數(shù)據(jù)環(huán)境下不可或缺的一部分,它可提高IT系統(tǒng)的通用性、可擴(kuò)展性和靈活性,而且成本低廉,獨(dú)立于硬件的純軟件架構(gòu),也符合中國移動集中采購現(xiàn)狀。

但是現(xiàn)今MPP技術(shù)也存在著擴(kuò)展節(jié)點有限、大規(guī)模集群可用性不高和節(jié)點故障性能下降嚴(yán)重等問題。在未來的IT系統(tǒng)建設(shè)過程中,需要結(jié)合大數(shù)據(jù)的技術(shù)發(fā)展、現(xiàn)網(wǎng)使用的經(jīng)驗積累等情況,不斷加深對MPP數(shù)據(jù)庫的研究,以便其能更好的支撐IT系統(tǒng)建設(shè),順應(yīng)大數(shù)據(jù)的發(fā)展。

[1] 魏進(jìn)武, 靳淑嫻, 張基恒, 等. 大數(shù)據(jù)關(guān)鍵技術(shù)及運(yùn)營商落地建議[J]. 郵電設(shè)計技術(shù),2015(5)

[2] 齊磊. 大數(shù)據(jù)分析場景下分布式數(shù)據(jù)庫技術(shù)的應(yīng)用[J]. 移動通信, 2015,39(12): 58-62.

[3] 孫元浩. 大數(shù)據(jù)基礎(chǔ)技術(shù)發(fā)展的兩大方向和最新進(jìn)展[R]. 北京:第六屆中國數(shù)據(jù)庫技術(shù)大會(DTCC),2015.

MPP database’s prospect analysis on big data applicated in China Mobile

TIAN Wen, LIU Qian, SUN Hong-en
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)

With the rapid development of cloud computing and big datatechnologies, the amount of data showing that China Mobile IT systems are growing explosively. But,traditionaldatabase systems with minicomputerbasedarchitecture began to appear a bottleneck in aspects of storage and analysis capability,and cost expensive, so China Mobile’s requirement for MPP databaseincreasesubstantial.This paper discusses the future of MPP database in big data applications, by analyzing MPP database used in China Mobile IT systems, differences of software products and applicable scenarios.

big data technologies; MPP database; share-nothing architecture applicated

TN929.5

A

1008-5599(2017)03-0087-05

2016-01-07

猜你喜歡
現(xiàn)網(wǎng)數(shù)據(jù)量架構(gòu)
企業(yè)
基于FPGA的RNN硬件加速架構(gòu)
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
汽車工程(2021年12期)2021-03-08 02:34:30
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
電子制作(2019年13期)2020-01-14 03:15:18
基于Relay架構(gòu)的移動核心網(wǎng)方案研究
LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
一種基于FPGA+ARM架構(gòu)的μPMU實現(xiàn)
郓城县| 连城县| 蓝山县| 遂昌县| 徐闻县| 阜新市| 昌宁县| 中卫市| 枞阳县| 安化县| 白银市| 若羌县| 孟连| 喀什市| 容城县| 塔河县| 东山县| 济阳县| 招远市| 屯留县| 康马县| 吉水县| 观塘区| 湘阴县| 金平| 昌邑市| 沽源县| 溆浦县| 东乡| 开封市| 金昌市| 建德市| 桐梓县| 天水市| 丰镇市| 瑞金市| 德庆县| 东乡县| 松溪县| 沁源县| 和政县|