国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

以分布式計(jì)算實(shí)現(xiàn)電信數(shù)據(jù)分析業(yè)務(wù)加速的研究

2012-06-11 11:04聞劍峰石屹嶸
電信科學(xué) 2012年2期
關(guān)鍵詞:分布式計(jì)算分布式方案

聞劍峰,石屹嶸

(中國電信股份有限公司上海研究院 上海200122)

1 引言

為了提高電信行業(yè)的工作效率和服務(wù)質(zhì)量,建立靈活的營銷機(jī)制,推動(dòng)新業(yè)務(wù)的開展和適應(yīng)激烈的市場(chǎng)競(jìng)爭(zhēng),商業(yè)智能(business intelligence,BI)開始進(jìn)入電信行業(yè)。BI應(yīng)用在電信行業(yè)又稱作電信數(shù)據(jù)分析系統(tǒng)。隨著電信全業(yè)務(wù)運(yùn)營時(shí)代的到來,電信傳統(tǒng)的數(shù)據(jù)分析系統(tǒng)正面臨著海量數(shù)據(jù)處理的壓力,亟需根據(jù)自身的管理需求和市場(chǎng)競(jìng)爭(zhēng)需要,構(gòu)建適合于自身管理特點(diǎn)的電信數(shù)據(jù)分析系統(tǒng)。本文研究的目的是如何利用分布式計(jì)算技術(shù)實(shí)現(xiàn)電信數(shù)據(jù)分析系統(tǒng)的業(yè)務(wù)處理加速,進(jìn)而提高系統(tǒng)性能,加強(qiáng)決策水平。

2 電信數(shù)據(jù)分析系統(tǒng)的現(xiàn)狀

隨著電信業(yè)務(wù)的快速發(fā)展以及市場(chǎng)競(jìng)爭(zhēng)的挑戰(zhàn),數(shù)據(jù)分析平臺(tái)作為各級(jí)領(lǐng)導(dǎo)制定策略的重要參考以及市場(chǎng)部門進(jìn)行推廣計(jì)劃的重要依據(jù),數(shù)據(jù)分析相關(guān)業(yè)務(wù)的重要性和應(yīng)用價(jià)值不斷提升。

隨著數(shù)據(jù)分析業(yè)務(wù)數(shù)據(jù)量的快速增加,分析維度的擴(kuò)展,某些業(yè)務(wù)已經(jīng)出現(xiàn)明顯的性能瓶頸,妨礙數(shù)據(jù)業(yè)務(wù)分析在電信業(yè)務(wù)發(fā)展和市場(chǎng)競(jìng)爭(zhēng)中發(fā)揮更大的作用。數(shù)據(jù)分析業(yè)務(wù)的性能瓶頸主要表現(xiàn)在以下3個(gè)方面。

·海量數(shù)據(jù)挑戰(zhàn):數(shù)據(jù)分析業(yè)務(wù)從話音的CDR(call detail record,呼叫詳細(xì)記錄)發(fā)展為數(shù)據(jù)業(yè)務(wù)的DPI(deep packet inspection,深度報(bào)文檢測(cè))的 UDR(user data record,用戶數(shù)據(jù)記錄);記錄規(guī)模從千萬條增長100倍發(fā)展到數(shù)十億條;存儲(chǔ)規(guī)模正由GB級(jí)別向TB級(jí)別發(fā)展。

·傳統(tǒng)方案失效:面對(duì)海量數(shù)據(jù),傳統(tǒng)的小型機(jī)+磁陣方案無法勝任;Oracle可處理數(shù)千萬條,無法處理數(shù)十億條記錄;傳統(tǒng)SQL查詢響應(yīng)慢,某些業(yè)務(wù)運(yùn)行時(shí)間超過數(shù)小時(shí)。

·并行分析瓶頸:分析維度需要同時(shí)支持多種業(yè)務(wù)的并行分析;業(yè)務(wù)平臺(tái)還需要同時(shí)支撐多部門、多地域的并發(fā)查詢;業(yè)務(wù)請(qǐng)求集中在月初,由于時(shí)間沖突,導(dǎo)致效率下降。

3 基于分布式計(jì)算框架的數(shù)據(jù)分析方案研究

3.1 分布式計(jì)算概述

分布式計(jì)算是近年提出的一種新的計(jì)算方式,它研究如何把一個(gè)需要巨大計(jì)算能力才能解決的問題分成許多小的部分,然后分配給許多計(jì)算機(jī)進(jìn)行處理,最后把計(jì)算結(jié)果綜合起來得到最終結(jié)果。分布式計(jì)算是云計(jì)算領(lǐng)域的重要研究方向,共享稀有資源和平衡負(fù)載是其核心思想之一。分布式計(jì)算能更好地使用計(jì)算資源,更智能地進(jìn)行大規(guī)模數(shù)據(jù)處理。基于高效的虛擬計(jì)算資源,應(yīng)用程序能以一種靈活且安全的方式實(shí)現(xiàn)快速擴(kuò)展和縮減,從而交付高品質(zhì)服務(wù)。分布式計(jì)算使得IT管理更加輕松,保證快捷響應(yīng)業(yè)務(wù)需求。業(yè)務(wù)或客戶服務(wù)以極為簡化的方式交付,這將大大推進(jìn)創(chuàng)新和高效決策。業(yè)界一致認(rèn)為,分布式計(jì)算平臺(tái)是提高海量數(shù)據(jù)分析性能的最佳解決方案。

電信企業(yè)信息化建設(shè)不斷發(fā)展,需要處理分析的數(shù)據(jù)量不斷快速增長,利用分布式計(jì)算架構(gòu)實(shí)現(xiàn)業(yè)務(wù)加速是一個(gè)可行的技術(shù)方案,并且,該方案可以廣泛地應(yīng)用在聯(lián)機(jī)分析和數(shù)據(jù)挖掘等需要進(jìn)行大規(guī)模數(shù)據(jù)處理的領(lǐng)域。其中,Hadoop是采用開源模式的分布式計(jì)算技術(shù)框架,以HDFS(Hadoop distributed file system)文件分散存儲(chǔ)和MapReduce并行計(jì)算為基礎(chǔ)的分布式計(jì)算平臺(tái),底層采用Linux操作系統(tǒng),利用低成本的PC設(shè)備組成大型集群,構(gòu)建下一代具備高性能的海量數(shù)據(jù)分布式計(jì)算服務(wù)平臺(tái)。

3.2 基于Hadoop框架的分布式計(jì)算技術(shù)實(shí)現(xiàn)方案

Hadoop分布式計(jì)算已經(jīng)集成了數(shù)十個(gè)高性能的應(yīng)用組件,可以滿足各種數(shù)據(jù)分析處理的需求。基于Hadoop框架的分布式計(jì)算平臺(tái)邏輯架構(gòu)如圖1所示。Hadoop分布式計(jì)算平臺(tái)主要包括以下應(yīng)用組件。

圖1 基于Hadoop框架的分布式計(jì)算平臺(tái)邏輯架構(gòu)

·Hive分布式數(shù)據(jù)倉庫:建立在Hadoop上的數(shù)據(jù)倉庫框架,提供方便的數(shù)據(jù)集成、特殊查詢以及建立在Hadoop文件上的大規(guī)模數(shù)據(jù)分析;支持MapReduce并行SQL查詢的分布式關(guān)系型數(shù)據(jù)倉庫,可以用于存儲(chǔ)海量結(jié)構(gòu)化數(shù)據(jù),并支持?jǐn)?shù)據(jù)分區(qū)以及建立索引等數(shù)據(jù)庫功能,對(duì)外提供JDBC/ODBC接口,可以快速替代傳統(tǒng)的Oracle數(shù)據(jù)庫。

·HBase列存儲(chǔ)數(shù)據(jù)庫:基于列存儲(chǔ)的分布式數(shù)據(jù)庫,采用國際最流行的NoSQL數(shù)據(jù)庫架構(gòu),支持列的動(dòng)態(tài)增加和刪除,最大可以支持到數(shù)萬列,特別適合于用戶行為分析的應(yīng)用。

·Mahout智能算法庫:提供各種k均值、神經(jīng)網(wǎng)絡(luò)等智能算法,滿足數(shù)據(jù)挖掘的各種算法需求,采用MapReduce并行計(jì)算,運(yùn)行效率極高,完全可以替代各種商業(yè)BI工具,從而節(jié)省大量成本。

·Ganglia實(shí)時(shí)監(jiān)控:可以實(shí)時(shí)監(jiān)控Hadoop平臺(tái)各個(gè)節(jié)點(diǎn)的資源分配、作業(yè)運(yùn)行、任務(wù)調(diào)度等,直接展示云平臺(tái)運(yùn)行情況。

3.3 分布式計(jì)算框架實(shí)現(xiàn)業(yè)務(wù)加速的應(yīng)用分析

基于分布式計(jì)算架構(gòu)的電信數(shù)據(jù)分析系統(tǒng)可以很好地實(shí)現(xiàn)業(yè)務(wù)加速能力,該平臺(tái)具有以下技術(shù)優(yōu)勢(shì)。

·并行導(dǎo)入 ETL(extract transform and load,提取轉(zhuǎn)換加載)加速:基于Hadoop的分布式計(jì)算采用HDFS分散存儲(chǔ)機(jī)制,可以多個(gè)節(jié)點(diǎn)同時(shí)導(dǎo)入多個(gè)數(shù)據(jù)文件,實(shí)現(xiàn)數(shù)據(jù)文件的并行導(dǎo)入功能,避免了磁盤I/O瓶頸,可以有效縮短導(dǎo)入時(shí)間加速ETL過程。

·MR并發(fā)查詢加速:數(shù)據(jù)表Table在Hive中以多個(gè)數(shù)據(jù)塊存儲(chǔ),采用MapReduce并行機(jī)制,將查詢作業(yè)映射為多個(gè)子任務(wù),子任務(wù)處理少量數(shù)據(jù)塊,然后輸出統(tǒng)一結(jié)果,發(fā)揮了多核協(xié)同的性能優(yōu)勢(shì)。

·橫縱分散取數(shù)加速:Hadoop支持?jǐn)?shù)據(jù)分區(qū)模式的橫向分散和按照列存儲(chǔ)的縱向分散,滿足不同的業(yè)務(wù)需求,其中分區(qū)橫向模式符合電信管理模式,可以用于業(yè)務(wù)寬表的取數(shù)加速。

4 應(yīng)用分布式計(jì)算實(shí)現(xiàn)海量取數(shù)加速案例研究

為了提高現(xiàn)有平臺(tái)的業(yè)務(wù)處理能力,一種方案是系統(tǒng)擴(kuò)容,目前電信使用的數(shù)據(jù)分析系統(tǒng)大多采用商業(yè)版本的軟件平臺(tái),例如Teradata平臺(tái)的系統(tǒng)擴(kuò)容價(jià)格非常昂貴,而且需要綁定硬件的存儲(chǔ)容量。另一種方案就是采用外部加速方式,即通過Hadoop云平臺(tái)可以有效提高業(yè)務(wù)處理速度。本章將著重介紹采用外部加速實(shí)現(xiàn)海量取數(shù)加速的應(yīng)用案例,案例對(duì)象是中國電信股份有限公司某省公司的大批量智能取數(shù)平臺(tái)(intelligent data acquire platform,IDAP),研究目的是通過基于Hadoop框架改造實(shí)現(xiàn)業(yè)務(wù)加速。

4.1 傳統(tǒng)大批量智能取數(shù)平臺(tái)面臨的挑戰(zhàn)及應(yīng)對(duì)

傳統(tǒng)大批量智能取數(shù)平臺(tái)的數(shù)據(jù)集市(采用Oracle數(shù)據(jù)庫)中存儲(chǔ)的數(shù)據(jù)量日漸龐大,由于數(shù)據(jù)量大并且并發(fā)業(yè)務(wù)多,當(dāng)多用戶在線操作或者取數(shù)量多時(shí)會(huì)存在著明顯的業(yè)務(wù)瓶頸。該平臺(tái)目前常用的功能包括資產(chǎn)取數(shù)、訂單類取數(shù)、收入類取數(shù)以及業(yè)務(wù)量取數(shù),日常操作中,在取1~3個(gè)月數(shù)據(jù)時(shí)有性能瓶頸,具體表現(xiàn)在以下幾個(gè)方面。

·如果數(shù)據(jù)量太大或數(shù)據(jù)庫對(duì)應(yīng)并發(fā)量大,可能會(huì)導(dǎo)致取數(shù)失敗。

·大數(shù)據(jù)量的提取,就意味著需要大的存儲(chǔ)空間來存儲(chǔ)數(shù)據(jù)。因此,存儲(chǔ)空間隨著業(yè)務(wù)的發(fā)展而需要擴(kuò)充,且存儲(chǔ)空間的增長不會(huì)影響性能。

·外部系統(tǒng)大數(shù)據(jù)量提取,數(shù)據(jù)庫處理性能低下。

目前的業(yè)務(wù)瓶頸主要是系統(tǒng)的性能不能滿足業(yè)務(wù)日益發(fā)展的需要,面對(duì)大數(shù)據(jù)量數(shù)據(jù)分析業(yè)務(wù),通過傳統(tǒng)的系統(tǒng)擴(kuò)容來解決問題的方式已經(jīng)行不通了。而基于對(duì)分布式計(jì)算的研究與理論論證,筆者認(rèn)為可以在較低的硬件成本投入下產(chǎn)生較好的業(yè)務(wù)加速。針對(duì)現(xiàn)有系統(tǒng)的性能瓶頸,筆者著手對(duì)其進(jìn)行基于Hadoop框架的分布式改造工作,圖2方框內(nèi)為改造后的技術(shù)架構(gòu),即將海量數(shù)據(jù)存儲(chǔ)于Hadoop平臺(tái)的HDFS分散存儲(chǔ)模型上,然后通過UDF方式將此數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫Hive中。

圖2 基于分布式計(jì)算的IDAP應(yīng)用改造方案

具體來說,就是在多臺(tái)PC服務(wù)器上部署Hadoop框架,包括了HDFS以及Hive分布式數(shù)據(jù)倉庫,然后通過接口將數(shù)據(jù)集市中的數(shù)據(jù)導(dǎo)入Hadoop集群。應(yīng)用Hadoop分布式計(jì)算框架提供的分布式文件系統(tǒng)以及Hive分布式數(shù)據(jù)倉庫服務(wù),替代原有的基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的IDAP數(shù)據(jù)集市,原有系統(tǒng)業(yè)務(wù)邏輯基本不變,仍然采用JDBC接口方式提交SQL業(yè)務(wù)查詢請(qǐng)求。在進(jìn)行數(shù)據(jù)表查詢時(shí),將一個(gè)SQL的查詢操作通過UDF自定義的方式調(diào)用Hadoop的MapReduce并行架構(gòu),從而將SQL查詢轉(zhuǎn)換為成百上千個(gè)子查詢?nèi)蝿?wù),因此可以有效地提高查詢速度,完成業(yè)務(wù)加速的目標(biāo)。

4.2 測(cè)試數(shù)據(jù)分析

本次分布式集群硬件采用6臺(tái)DELL R710服務(wù)器,具體配置為 2 個(gè) Intel E5620 CPU、8×4 GB 內(nèi)存、8×146 GB SAS硬盤以及4個(gè)吉比特網(wǎng)卡。筆者對(duì)基于分布式計(jì)算框架的IDAP大批量智能取數(shù)進(jìn)行了專門的測(cè)試驗(yàn)證。測(cè)試的基準(zhǔn)完全基于現(xiàn)有系統(tǒng)的數(shù)據(jù)集市的真實(shí)數(shù)據(jù),即總?cè)萘?.7 TB總計(jì)84億條記錄數(shù)。選取傳統(tǒng)平臺(tái)上17個(gè)SQL取數(shù)語句作為測(cè)試用例,測(cè)試數(shù)據(jù)如表1所示。

在實(shí)際測(cè)試驗(yàn)證過程中,筆者分別記錄傳統(tǒng)和分布式IDAP上收入類取數(shù)、訂單類取數(shù)、資產(chǎn)類取數(shù)、業(yè)務(wù)量取數(shù)等各主題的取數(shù)時(shí)間,然后進(jìn)行比較。通過對(duì)所有測(cè)試用例取數(shù)時(shí)間的分析,最后得出以下主要結(jié)論。

·傳統(tǒng)取數(shù)時(shí)間在3min以內(nèi)的測(cè)試用例,分布式改造之后,有的測(cè)試用例取數(shù)時(shí)間比傳統(tǒng)取數(shù)時(shí)間長,有的測(cè)試用例取數(shù)時(shí)間比傳統(tǒng)取數(shù)時(shí)間短,提升效率不明顯。

·傳統(tǒng)取數(shù)時(shí)間在3~60min的測(cè)試用例,分布式改造之后,所有的測(cè)試用例取數(shù)時(shí)間都比傳統(tǒng)取數(shù)時(shí)間縮短了,并且提升效率在5倍以上。

·傳統(tǒng)取數(shù)時(shí)間在60min以上的測(cè)試用例,分布式改造之后,所有的測(cè)試用例取數(shù)時(shí)間都比傳統(tǒng)取數(shù)時(shí)間縮短了,提升效率在10倍以上。

4.3 基于分布式架構(gòu)IDAP方案與傳統(tǒng)IDAP方案對(duì)比

通過基于分布式計(jì)算框架對(duì)傳統(tǒng)IDAP進(jìn)行業(yè)務(wù)加速改造,可以達(dá)到以下3個(gè)效果。

·改造成本低:Hadoop分布式計(jì)算平臺(tái)采用開源免費(fèi)的模式,硬件采用低成本PC設(shè)備,只需支付平臺(tái)的軟件服務(wù)費(fèi)即可,節(jié)省了大量系統(tǒng)升級(jí)成本。

表1 取數(shù)時(shí)間對(duì)比

表2 基于分布式架構(gòu)的IDAP方案與傳統(tǒng)方案對(duì)比

·系統(tǒng)改造少:傳統(tǒng)IDAP屬于生產(chǎn)系統(tǒng),其云加速平臺(tái)采用標(biāo)準(zhǔn)的數(shù)據(jù)訪問接口,對(duì)傳統(tǒng)IDAP改造工作量少,基本無需改動(dòng),實(shí)現(xiàn)了業(yè)務(wù)無縫升級(jí)加速。

·提速效果明顯:經(jīng)過實(shí)際業(yè)務(wù)數(shù)據(jù)的測(cè)試,采用Hadoop分布式平臺(tái)可以實(shí)現(xiàn)10倍以上的平均加速效果,完全滿足了業(yè)務(wù)加速的需求。

傳統(tǒng)的IDAP方案中大批量智能取數(shù)平臺(tái)部署在一臺(tái)P570上,后臺(tái)通過光纖連接SAN存儲(chǔ),大約占用兩個(gè)機(jī)柜,能耗超過10 000 W。表2為傳統(tǒng)IDAP方案與基于分布式計(jì)算框架的IDAP方案的詳細(xì)數(shù)據(jù)對(duì)比。

通過表2數(shù)據(jù)對(duì)比,可以得出以下結(jié)論。

·傳統(tǒng)方案基于關(guān)系型Oracle數(shù)據(jù)庫,無論從支持的節(jié)點(diǎn)數(shù)還是數(shù)據(jù)庫容量都是有限的,而分布式方案可以支持PB級(jí)別海量數(shù)據(jù),節(jié)點(diǎn)規(guī)模最大可以達(dá)到數(shù)千個(gè)。

·傳統(tǒng)方案通過小型機(jī)+存儲(chǔ)陣列方式構(gòu)建平臺(tái),初始投入的費(fèi)用相當(dāng)可觀,并且日后的維保開支也會(huì)很大,而分布式方案通過PC服務(wù)器或者工控機(jī)就可以組成高性能計(jì)算集群,費(fèi)用可以節(jié)省70%以上。

·傳統(tǒng)方案的擴(kuò)展成本除了實(shí)施成本之外,還需要額外的數(shù)據(jù)庫軟件許可費(fèi)用,而分布式方案只需要支付實(shí)施成本就可以了,顯然分布式方案在成本方面更節(jié)省。

·在硬件成本一致的前提下,采用工控機(jī)的分布式方案要比采用PC服務(wù)器的分布式方案性價(jià)比更高,即能夠?qū)崿F(xiàn)更好的加速效果。

·分布式方案在空間利用率以及能耗方面都要優(yōu)于傳統(tǒng)方案,也就是說分布式方案為機(jī)房的綠色節(jié)能提供了可能性。

5 結(jié)束語

隨著電信業(yè)務(wù)的不斷發(fā)展,海量數(shù)據(jù)存儲(chǔ)與分析的需求不斷涌現(xiàn),利用Hadoop分布式計(jì)算框架可以實(shí)現(xiàn)海量數(shù)據(jù)的超值存儲(chǔ)和分析統(tǒng)計(jì),提高數(shù)據(jù)分析的效率,讓企業(yè)更加能適應(yīng)快速變化的市場(chǎng),為快速推出新的產(chǎn)品提供數(shù)據(jù)依據(jù)。

1 聞劍峰,石屹嶸.基于云計(jì)算的全球眼業(yè)務(wù)平臺(tái)研究.電信科學(xué),2010,26(6)

2 龔德志,聞劍峰.虛擬化技術(shù)在電信服務(wù)器資源整合中的應(yīng)用研究.電信科學(xué),2009,25(9):21~23

3 石屹嶸,段勇.云計(jì)算在電信IT領(lǐng)域的應(yīng)用探討.電信科學(xué),2009,25(9):24~28

猜你喜歡
分布式計(jì)算分布式方案
爛臉了急救方案
定邊:一份群眾滿意的“脫貧答卷” 一種提供借鑒的“扶貧方案”
分布式光伏熱錢洶涌
分布式光伏:爆發(fā)還是徘徊
基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
基于DDS的分布式三維協(xié)同仿真研究
西門子 分布式I/O Simatic ET 200AL
穩(wěn)中取勝