国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Hodoop集群計(jì)算在電信業(yè)BI系統(tǒng)中的應(yīng)用

2013-12-17 10:42:36高小普萬(wàn)麟瑞
電子科技 2013年4期
關(guān)鍵詞:電信業(yè)集群運(yùn)營(yíng)商

高小普,萬(wàn)麟瑞

(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南京 210016)

自從Hadoop在2008年作為Apache開(kāi)源項(xiàng)目發(fā)布以來(lái),于它結(jié)合了成本低、可擴(kuò)展性佳以及無(wú)需構(gòu)建預(yù)定義模式便能靈活地處理任何數(shù)據(jù)等優(yōu)點(diǎn)。

商業(yè)智能(Business Intelligence,BI)。商業(yè)智能的概念于1996年提出。當(dāng)時(shí)將商業(yè)智能定義為一類(lèi)由數(shù)據(jù)倉(cāng)庫(kù)、查詢(xún)報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。目前,商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。商務(wù)智能系統(tǒng)中的數(shù)據(jù)來(lái)自企業(yè)其他業(yè)務(wù)系統(tǒng)[1-3]。

為將企業(yè)的績(jī)效管理戰(zhàn)略轉(zhuǎn)化成切實(shí)可行的計(jì)劃,需要更高效的計(jì)劃方案、更優(yōu)化的資源配置、更透明的企業(yè)管理及更細(xì)化的責(zé)任分擔(dān),企業(yè)管理者分析和決策行為從“以定性為主”向“以定量為主”轉(zhuǎn)變成為必然。

企業(yè)的信息化建設(shè)為從定性向定量的轉(zhuǎn)變提供了可能和基礎(chǔ)。特別是在電信業(yè),信息化歷程較長(zhǎng),信息化水平較高,其發(fā)展歷程伴隨著信息化的發(fā)展而一步步提升和加強(qiáng)。隨著電信業(yè)信息化的不斷深入,各大運(yùn)營(yíng)商計(jì)費(fèi)、營(yíng)賬、客服、網(wǎng)管等多種業(yè)務(wù)系統(tǒng)相繼建成,擁有并不斷產(chǎn)生大量的客戶(hù)和業(yè)務(wù)數(shù)據(jù),科學(xué)管理和合理開(kāi)發(fā)這些內(nèi)部和外部信息資源,將有助于正確決策,提高企業(yè)績(jī)效管理水平,增強(qiáng)企業(yè)競(jìng)爭(zhēng)力[4-7]。

而監(jiān)控企業(yè)的運(yùn)行、給管理者提供深入的企業(yè)洞察力,最終達(dá)到提升企業(yè)績(jī)效目的的一種信息化手段就是將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),作為幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。BI是將企業(yè)中的內(nèi)部數(shù)據(jù)與外部相關(guān)數(shù)據(jù)通過(guò)收集、分析,轉(zhuǎn)變成信息,并將信息應(yīng)用于商業(yè)活動(dòng)的過(guò)程。在BI這個(gè)以統(tǒng)一的、綜合各類(lèi)數(shù)據(jù)信息的平臺(tái)上,全面的、一致的企業(yè)信息視圖有助于企業(yè)在發(fā)現(xiàn)機(jī)會(huì)后迅速把握機(jī)會(huì),并將獲得的信息快速轉(zhuǎn)化為可以執(zhí)行的戰(zhàn)略戰(zhàn)術(shù)。

1 相關(guān)知識(shí)

1.1 Hadoop簡(jiǎn)介

Hadoop由Apache基金會(huì)開(kāi)發(fā),用戶(hù)可以在不了解底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,能夠充分利用集群的威力進(jìn)行高速運(yùn)算和數(shù)據(jù)存儲(chǔ)的一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)。簡(jiǎn)單地說(shuō)來(lái),Hadoop是一個(gè)更容易開(kāi)發(fā)、運(yùn)行和處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。Hadoop包括一 系 列 子 項(xiàng) 目:HDFS、MapReduce、HBase、Hive、ZooKeeper、Pig等。Hadoop的主要特點(diǎn)有:擴(kuò)容能力、成本低、高效率、可靠性。

Hadoop框架中最核心的兩個(gè)子項(xiàng)目是MapReduce和HDFS。MapReduce是 Google提出的一個(gè)軟件架構(gòu),是一個(gè)編程模型,用于大規(guī)模數(shù)據(jù)的并行運(yùn)算,MapReduce就是“任務(wù)的分解與結(jié)果的匯總”。Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),為分布式計(jì)算存儲(chǔ)提供了底層支持,是Java版本的GFS開(kāi)源實(shí)現(xiàn),HDFS有著高容錯(cuò)性的特點(diǎn),設(shè)計(jì)用來(lái)部署在低廉的硬件上,能夠提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。MapReduce的應(yīng)用方面一般包括:

(1)分布式的Grep。如果輸入行匹配給定的樣式,map函數(shù)就輸出這一行,reduce函數(shù)負(fù)責(zé)把中間數(shù)據(jù)復(fù)制到輸出。(2)計(jì)算URL訪問(wèn)pv。map函數(shù)處理web頁(yè)面請(qǐng)求的記錄,輸出(URL,1),reduce函數(shù)把相同URL的value都加起來(lái),產(chǎn)生一個(gè)(URL,記錄總數(shù))的對(duì)。(3)倒排索引。map函數(shù)分析每個(gè)文檔,然后產(chǎn)生一個(gè)(詞,文檔號(hào))對(duì)的序列,reduce函數(shù)接受一個(gè)給定詞的所有對(duì),排序相應(yīng)的文檔ID,并且產(chǎn)生一個(gè)(詞,文檔ID列表)對(duì)。所有的輸出對(duì)集形成一個(gè)簡(jiǎn)單的倒排索引,它可以簡(jiǎn)單的增加跟蹤詞位置的計(jì)算。(4)TeraSort。map函數(shù)從每個(gè)記錄提取key,并且產(chǎn)生一個(gè)(key,record)對(duì),然后進(jìn)行分布式reduce實(shí)現(xiàn)排序。MapReduce一般的運(yùn)行示意圖如圖1所示。

圖1 MapReduce運(yùn)行示意圖

HDFS采用主從式架構(gòu),一個(gè)HDFS集群是由一個(gè)名字節(jié)點(diǎn)(Namenode)和一定數(shù)目的數(shù)據(jù)結(jié)點(diǎn)(Datanode)組成。名字節(jié)點(diǎn)是一個(gè)管理文件的命名空間和調(diào)節(jié)客戶(hù)端訪問(wèn)文件的主服務(wù)器,數(shù)據(jù)節(jié)點(diǎn)一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理節(jié)點(diǎn)上附帶的存儲(chǔ)。HDFS的內(nèi)部機(jī)制是將一個(gè)文件分割成一個(gè)或多個(gè)的塊(Block),這些塊存儲(chǔ)在一組數(shù)據(jù)節(jié)點(diǎn)中。名字節(jié)點(diǎn)負(fù)責(zé)操作文件命名空間的文件或進(jìn)行目錄操作,如打開(kāi),關(guān)閉,重命名等。它同時(shí)確定塊與數(shù)據(jù)節(jié)點(diǎn)的映射。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)來(lái)自文件系統(tǒng)客戶(hù)的讀寫(xiě)請(qǐng)求。數(shù)據(jù)節(jié)點(diǎn)在名字節(jié)點(diǎn)指揮下執(zhí)行塊的創(chuàng)建、刪除和復(fù)制。名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都設(shè)計(jì)成可以運(yùn)行在普通的機(jī)器上。HDFS體系架構(gòu)如圖2所示。

圖2 HDFS體系架構(gòu)圖

HDFS與MapReduce的結(jié)合為分布式處理大數(shù)據(jù)提供強(qiáng)大的支持,當(dāng)Hadoop集群中的某些服務(wù)器出現(xiàn)錯(cuò)誤時(shí),整個(gè)計(jì)算過(guò)程并不會(huì)立即終止,同時(shí)HFDS可保障在整個(gè)集群中發(fā)生故障錯(cuò)誤時(shí)的數(shù)據(jù)冗余。HDFS對(duì)存儲(chǔ)的數(shù)據(jù)格式并無(wú)苛刻的要求,數(shù)據(jù)可以是非結(jié)構(gòu)化或其它類(lèi)別[8-10]。

1.2 Hadoop應(yīng)用案例

如今,Hadoop儼然已經(jīng)成為了互聯(lián)網(wǎng)公司的新寵,它是目前最受歡迎的在Internet上針對(duì)搜索關(guān)鍵字進(jìn)行網(wǎng)頁(yè)內(nèi)容分類(lèi)的工具,同時(shí)它也可以應(yīng)用在解決許多要求較大伸縮性的問(wèn)題上。例如,如果要grep一個(gè)10 TB的巨型文件,會(huì)出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上,這將需要很長(zhǎng)的時(shí)間。如果采用了Hadoop并行執(zhí)行機(jī)制,能大幅提高執(zhí)行效率。

百度,其Hadoop集群主要用于后端數(shù)據(jù)訓(xùn)練和計(jì)算,目前有4 000個(gè)節(jié)點(diǎn),超過(guò)10個(gè)集群,最大的集群規(guī)模在1 000個(gè)節(jié)點(diǎn)以上。每個(gè)節(jié)點(diǎn)由8核CPU以及16 GB內(nèi)存以及12 TB硬盤(pán)組成,每天的數(shù)據(jù)生成量在3 PB以上。規(guī)劃當(dāng)中的架構(gòu)將有超過(guò)1萬(wàn)個(gè)節(jié)點(diǎn),每天的數(shù)據(jù)生成量在10 PB以上。百度通過(guò)HCE對(duì)streaming作業(yè)的排序,壓縮,解壓縮,內(nèi)存控制進(jìn)行了優(yōu)化并提供了C++版的MapReduce接口。

淘寶網(wǎng),目前有會(huì)員約2億,日均UV高達(dá)4 000萬(wàn),日交易量高達(dá)10億元,每天產(chǎn)生大量的數(shù)據(jù),所以部署了一系列不同規(guī)模的Hadoop集群。淘寶生產(chǎn)系統(tǒng)所使用的Hadoop集群為目前國(guó)內(nèi)規(guī)模最大的Hadoo集群之一。集群規(guī)???cè)萘窟_(dá) 9.3 PB,利用率77.09%,共有1 100臺(tái)機(jī)器,每天處理約18 000道作業(yè),用戶(hù)數(shù)474人,用戶(hù)組38個(gè)。

2 Hadoop在電信業(yè)BI系統(tǒng)中的應(yīng)用

云計(jì)算的出現(xiàn)對(duì)電信運(yùn)營(yíng)商是一個(gè)難得的機(jī)遇,開(kāi)放與融合已經(jīng)成為未來(lái)電信業(yè)的發(fā)展方向,傳統(tǒng)的電信產(chǎn)業(yè)鏈將會(huì)產(chǎn)生變革,未來(lái)會(huì)涌現(xiàn)出大量的云計(jì)算運(yùn)營(yíng)商,新型業(yè)務(wù)模式和新的市場(chǎng)細(xì)分將因?yàn)樵朴?jì)算技術(shù)而成為可能。電信運(yùn)營(yíng)商需要樹(shù)立客戶(hù)需求導(dǎo)向的經(jīng)營(yíng)戰(zhàn)略,為用戶(hù)提供集成化的信息和通信技術(shù)解決方案而不是單一的產(chǎn)品,才能加快從電信服務(wù)提供商向綜合信息服務(wù)提供商的轉(zhuǎn)型步伐,不斷為用戶(hù)提供高附加值的業(yè)務(wù),走向價(jià)值鏈的上游。為實(shí)現(xiàn)這樣的目標(biāo),利用Hadoop,電信運(yùn)營(yíng)商在未來(lái)BI系統(tǒng)中以下領(lǐng)域?qū)⒋笥锌蔀?(1)數(shù)據(jù)集成。(2)數(shù)據(jù)質(zhì)量。(3)關(guān)鍵KPI指標(biāo)計(jì)算。(4)流計(jì)算。(5)Web網(wǎng)頁(yè)存儲(chǔ)和處理。(6)社交媒體數(shù)據(jù)分析與應(yīng)用。(7)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充。(8)文本數(shù)據(jù)挖掘。

3 結(jié)束語(yǔ)

電信業(yè)BI系統(tǒng)的一個(gè)典型特征,就是大數(shù)據(jù)量,電信運(yùn)營(yíng)商存儲(chǔ)的數(shù)據(jù)已經(jīng)開(kāi)始用PB來(lái)計(jì)算,數(shù)據(jù)源也越來(lái)越呈現(xiàn)多樣化、多渠道的趨勢(shì),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)在應(yīng)對(duì)數(shù)據(jù)激增的挑戰(zhàn)時(shí)顯現(xiàn)出較大的不足,而隨著Hadoop技術(shù)得到廣泛運(yùn)用,傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)不能解決的非結(jié)構(gòu)化數(shù)據(jù)將不再成為問(wèn)題,大數(shù)據(jù)概念也在不斷得到推廣,Hadoop與已有業(yè)務(wù)支撐系統(tǒng)的搭配將成為一種必然的趨勢(shì),對(duì)于電信運(yùn)營(yíng)商來(lái)說(shuō),需要抓住這一機(jī)遇,利用Hadoop等一系列云計(jì)算相關(guān)技術(shù),將企業(yè)各方面運(yùn)營(yíng)信息沉淀、提煉成知識(shí),以咨詢(xún)服務(wù)或輔助營(yíng)銷(xiāo)等手段,助力其業(yè)務(wù)發(fā)展,同時(shí)提升終端用戶(hù)的體驗(yàn)和粘性,最終促進(jìn)整個(gè)電信產(chǎn)業(yè)鏈的合作與共贏。

[1]王鵬.云計(jì)算的關(guān)鍵技術(shù)與應(yīng)用實(shí)例[M].北京:人民郵電出版社,2010.

[2]湯庸,冀高峰,朱君,等.協(xié)同軟件技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2007.

[3]TOM W.Hadoop:The Definitive Guide[M].O'Reilly Media,Inc,2009.

[4]陳國(guó)良,安虹,陳崚,等.并行算法實(shí)踐[M].北京:高等教育出版社,2004.

[5]MICHAEL M.云計(jì)算[M].史美林,姜進(jìn)磊,孫瑞志,等,譯.北京:機(jī)械工業(yè)出版社,2007.

[6]LIU Peng,SHI Yao,F(xiàn)RANCISCM,et al.Grid demo proposal:AntiSpamgird[C].Hong Kong:IEEE International Conference on Cluster Computing,2003.

[7]Hadoop.Hadoop技術(shù)論壇[EB/OL].(2010-08-05)[2012 -10 -12]http://www.bbs.hadoopor.com.

[8]DEAN J,GHEMAWAT S.MapReduce:simplifed data processing on large clusters[M].USA:Google,Inc,2004.

[9]LRI.MoGo[EB/OL].(2011 -03 -12)[2012 -01 -01]http://www.lri.fr/~ teytaud/mogo.html.

[10]徐志偉,馮百明,李偉.網(wǎng)格計(jì)算技術(shù)[M].北京:電子工業(yè)出版社,2005.

猜你喜歡
電信業(yè)集群運(yùn)營(yíng)商
中國(guó)電信產(chǎn)業(yè)改革績(jī)效研究的新視角與方法創(chuàng)新
海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:40
電信業(yè)新變局
民生周刊(2018年10期)2018-06-07 09:46:20
Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
勤快又呆萌的集群機(jī)器人
取消“漫游費(fèi)”只能等運(yùn)營(yíng)商“良心發(fā)現(xiàn)”?
中國(guó)電信業(yè)增長(zhǎng)質(zhì)量評(píng)價(jià)及其基本特征
第一章 在腐敗火上烤的三大運(yùn)營(yíng)商
三大運(yùn)營(yíng)商換帥不是一個(gè)簡(jiǎn)單的巧合
平定县| 佛冈县| 河曲县| 安化县| 大渡口区| 贵溪市| 隆尧县| 永德县| 镇平县| 嘉定区| 南丹县| 澜沧| 涟水县| 柘城县| 盐津县| 彰化县| 湖州市| 当阳市| 柳州市| 太康县| 灌云县| 读书| 清涧县| 东莞市| 涟水县| 望都县| 泾源县| 博白县| 龙江县| 湄潭县| 宁安市| 清镇市| 乌拉特前旗| 迁西县| 茂名市| 西青区| 阳谷县| 潼南县| 黄平县| 扶风县| 玉门市|