趙躍東 王雋峰 曾王平
【摘要】隨著互聯(lián)網(wǎng)的高速發(fā)展,全球數(shù)據(jù)生產(chǎn)高速增長,信息已成為企業(yè)戰(zhàn)略資產(chǎn),而大數(shù)據(jù)被業(yè)內(nèi)普遍認為是電信運營商“去管道化”最有可能的實現(xiàn)方式之一,大數(shù)據(jù)應用系統(tǒng)的建設對電信運營商而言迫在眉睫。本文對電信運營商大數(shù)據(jù)應用系統(tǒng)的建設進行探討,對大數(shù)據(jù)平臺的功能架構、數(shù)據(jù)庫建設方式、數(shù)據(jù)采集方案等進行研究,力圖從解決方案上對電信運營商省級公司部署大數(shù)據(jù)平臺提供借鑒。
【關鍵字】 互聯(lián)網(wǎng) 大數(shù)據(jù) 系統(tǒng)建設一、背景
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、數(shù)碼設備、物聯(lián)網(wǎng)等技術的發(fā)展,全球數(shù)據(jù)生產(chǎn)正在高速增長,信息已成為企業(yè)的戰(zhàn)略資產(chǎn),企業(yè)越來越需要長期保存各種數(shù)據(jù),以進行用戶行為分析、市場研究等,服務企業(yè)發(fā)展。目前,“去管道化”成為電信運營商提得最多和思考最多的問題,業(yè)內(nèi)認為大數(shù)據(jù)是運營商“去管道化”最有可能的實現(xiàn)形式之一,運營商發(fā)展大數(shù)據(jù)具有其他行業(yè)無可比擬的優(yōu)勢,主要體現(xiàn)在:運營商掌握數(shù)據(jù)充分全面;通信網(wǎng)絡數(shù)據(jù)提供的可持續(xù)性;運營商對數(shù)據(jù)可以有效利用。
在此背景下,本文將對電信運營商大數(shù)據(jù)應用系統(tǒng)建設方案進行探討,為省級電信運營商部署大數(shù)據(jù)平臺提供借鑒。
二、大數(shù)據(jù)應用系統(tǒng)功能架構
大數(shù)據(jù)系統(tǒng)目標架構,主要由五大核心平臺構成,如下圖所示:
采集分發(fā)平臺:解決異構數(shù)據(jù)源之間數(shù)據(jù)交互,滿足各種數(shù)據(jù)源之間數(shù)據(jù)統(tǒng)一采集和統(tǒng)一數(shù)據(jù)分發(fā),提升數(shù)據(jù)實時和準實時海量數(shù)據(jù)采集分發(fā)能力;
實時分析平臺:實現(xiàn)實時寬表數(shù)據(jù)整合,提供實時報表,提供統(tǒng)一實時查詢;
離線分析平臺:Hadoop平臺解決海量結構化數(shù)據(jù)和非結構化數(shù)據(jù)快速批處理效率、海量數(shù)據(jù)存儲能力;傳統(tǒng)ODS、EDW、數(shù)據(jù)集市采用MySQL平臺;
大數(shù)據(jù)運營監(jiān)控平臺:解決大數(shù)據(jù)運營監(jiān)控,調度,開發(fā),運營維護問題處理和運營分析平臺;
大數(shù)據(jù)數(shù)據(jù)服務平臺:滿足快速對外提供統(tǒng)一數(shù)據(jù)服務共享平臺。
三、大數(shù)據(jù)應用系統(tǒng)數(shù)據(jù)庫建設
對于大數(shù)據(jù)平臺數(shù)據(jù)庫,建議采用傳統(tǒng)關系型數(shù)據(jù)庫+Hadoop的混搭方式進行建設,主要基于以下考慮:1、對于傳統(tǒng)結構化業(yè)務數(shù)據(jù),采用關系型數(shù)據(jù)庫已非常成熟,新建平臺延續(xù)采用關系型數(shù)據(jù)庫處理傳統(tǒng)數(shù)據(jù),避免大量改動。2、對于非結構化數(shù)據(jù),則采用Hadopp架構進行處理,解決以下問題:海量數(shù)據(jù)儲存成本高;數(shù)據(jù)批量處理能力不足;計算和存儲擴展能力受限;流式數(shù)據(jù)處理能力缺失;缺乏非結構化數(shù)據(jù)的處理能力。
四、大數(shù)據(jù)應用系統(tǒng)數(shù)據(jù)采集方案
電信運營商大數(shù)據(jù)平臺數(shù)據(jù)主要來源為兩種:來自IT系統(tǒng)的結構化數(shù)據(jù)和來自網(wǎng)絡的非結構化數(shù)據(jù)。
4.1結構化數(shù)據(jù)采集
數(shù)據(jù)來源主要包括來自CRM系統(tǒng)的客戶/用戶資料、產(chǎn)品/銷售品、產(chǎn)品訂購、業(yè)務辦理等,來自計費系統(tǒng)的賬單、詳單、余額、繳費、欠費等,來自結算系統(tǒng)的結算清單、過往記錄等,來自客服系統(tǒng)的咨詢投訴、外呼等,來自網(wǎng)廳的電子訂購、業(yè)務辦理、電子渠道咨詢/投訴等,來自ITV的點播記錄、節(jié)目庫等,來自增值業(yè)務平臺的訂購與退訂等。
對于上述結構化數(shù)據(jù),目前主要通過ODS系統(tǒng)進行采集,大數(shù)據(jù)平臺直接與ODS系統(tǒng)做接口即可獲得,不需直接從系統(tǒng)采集,大大提升了數(shù)據(jù)采集的效率。
4.2非結構化數(shù)據(jù)采集
非結構化數(shù)據(jù)視圖如下圖所示:
1)固網(wǎng)DPI部署方案
以某電信省公司為例,其 IP城域網(wǎng)覆蓋所有地州,2015年底預計達到3000G出口鏈路,其中省會城域網(wǎng)出口1200G。
現(xiàn)網(wǎng)在IP城域網(wǎng)出口部署一套DPI系統(tǒng),具備280G帶寬的監(jiān)控能力(上下行),主要功能模塊為多終端私接監(jiān)控、 全協(xié)議分析。存在問題如下:覆蓋能力不足:覆蓋城域網(wǎng)規(guī)模9%,不具備對單地市出口的完整監(jiān)控能力。功能缺乏:無法實現(xiàn)終端識別、網(wǎng)站識別、應用識別等功能。
本期可采用如下方案:
方案一:全覆蓋部署
在城域網(wǎng)出口部署,實現(xiàn)全覆蓋,共3000G。
方案二:兩地州及省會兩區(qū)縣輪詢方式部署
地州輪詢:采集設備部署位置為163骨干機房,容量配置為同時覆蓋兩個地州共620G。
省會區(qū)縣輪詢:采集設備部署位置為省會CR機房,容量配置為同時覆蓋兩個縣區(qū)共680G。
方案三:一地州及省會一區(qū)縣輪詢方式部署
地州輪詢:采集設備部署位置為163骨干機房,容量配置為同時覆蓋一個地州共310G。
省會區(qū)縣輪詢:采集設備部署位置為省會CR機房,容量配置為同時覆蓋一個縣區(qū)340G。
輪詢方式說明:建議輪詢周期不短于一個月,以免頻繁輪詢影響大數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)可用性和精準度。
以上三種方案主要區(qū)別在于覆蓋范圍,以及相應的投資,在投資充分的情況下,建議采用方案一,對城域網(wǎng)出口進行全覆蓋部署,在投資緊張的情況下,建議采用方案三,對一地州及省會一區(qū)縣通過輪詢方式部署,后期根據(jù)投資情況再逐步擴大覆蓋范圍。
2)分組域DPI部署方案
新建分組域DPI,分為采集部分和處理部分,對3G、4G、AAA等數(shù)據(jù)進行采集,通過DPI解析后的數(shù)據(jù),同步給大數(shù)據(jù)平臺及其他相關平臺使用。
3)七號信令監(jiān)測系統(tǒng)改造方案
改造現(xiàn)有七號信令監(jiān)測系統(tǒng),提供對手機的信令采集,通過A口提供以下數(shù)據(jù):所有采集區(qū)域內(nèi)手機主叫的數(shù)據(jù);所有采集區(qū)域內(nèi)不處于關機或者占線的手機被呼的數(shù)據(jù)(不包含占線、關機被呼的數(shù)據(jù),信令中不包含此數(shù)據(jù));所有采集區(qū)域內(nèi)手機的短信數(shù)據(jù);所有采集區(qū)域內(nèi)手機的位置更新數(shù)據(jù)。
五、結論
某電信運營商省公司,在大數(shù)據(jù)平臺建成并投產(chǎn)后,成果顯著:帶動移動、寬帶用戶發(fā)展,增收相當于一個小型地市公司;以用戶為中心,構建倒三角的大數(shù)據(jù)運營體系,支撐線上線下精確營銷;線上營銷——基于大數(shù)據(jù)的客戶特征刻畫、利用互聯(lián)網(wǎng)入口面向客戶進行精準的業(yè)務推薦營銷;線下營銷——基于大數(shù)據(jù)支撐,讓精確營銷貫穿生產(chǎn)經(jīng)營的各個環(huán)節(jié)、無處不在。實踐證明,大數(shù)據(jù)應用系統(tǒng)的建設和使用,已成為電信運營商業(yè)務發(fā)展的重要支撐手段之一。