梁楊 孫淳曄 王智宏
【摘 要】以某運營商大數據相關建設經驗為背景,對某運營商在規(guī)劃建設中積累的先進經驗和教訓進行總結和分析,并提出針對性建議,最后提出三大IT支撐系統大數據融合的建設模式。
【關鍵詞】大數據 三域融合 IT支撐系統 資源池
1 引言
近幾年,某運營商一直以B域(即業(yè)務支撐域,簡稱“B域”)的經分系統為基礎建設大數據平臺,盡量減少系統數量,充分利用現有資源,減少系統間數據的復雜度,同時結合公司運營中的重點、難點問題,逐步進行了一些基于大數據分析的應用開發(fā)和系統建設。本文基于此將總結運營商在規(guī)劃建設中的經驗和教訓,給出相關建議,并提出三大IT支撐系統大數據融合的建設模式。
2 某運營商跨域融合建設情況
該運營商在大數據方面的建設從業(yè)務、基礎能力架構、組織架構三方面分別進行闡述。
2.1 業(yè)務
流量經營戰(zhàn)略地圖是將流量經營的關鍵要素進行圖形化分解的一種全息化經營視圖,依據空間地域掌控營銷范圍,實現精確微區(qū)域營銷。場景以戰(zhàn)略地圖為“顯微鏡”,深入透視微區(qū)域問題,排查問題尋找解決措施,通過跨域分析促進精細化工作的落地執(zhí)行,實現流量經營關鍵要素的可視化、網格化,有效推動流量經營的持續(xù)發(fā)展。
互聯網業(yè)務分析基于經分系統,通過打通B域、O域(網管支撐域,簡稱“O域”)接口,通過采集網絡信令并通過爬蟲獲取客戶上網信息,并結合用戶開銷戶和業(yè)務訂購信息進行統計分析、流量監(jiān)控,更新客戶上網策略,目前系統在建設中。
事件營銷基于經分系統,通過打通B域、O域接口,獲取網絡側實時信令消息,分析用戶行為變化,及時向用戶推薦相應產品,實現營銷的及時推送,建設基于事件的營銷分析,目前正在進行試點工作。
業(yè)財融合涉及到B域、M域(管理信息域,簡稱“M域”)之間多個系統的協作,通過引入M域成本數據,實現產品和客戶的成本精細分攤,為解決市場運營成本短板提供數據支撐。通過對業(yè)務線和財務線的業(yè)務流程分析,關聯兩條線的統一分析指標,加強分析的針對性和有效性;并通過鉆取和挖掘等技術手段,對差異進行定位和監(jiān)控,形成管理閉環(huán),貫通業(yè)務流程,以達成降本增效、提升效率、規(guī)避風險的目標。
2.2 基礎能力架構
某運營商在近兩年建設中不斷優(yōu)化系統基礎能力架構,為新型大數據分析工作提供保障。
從基礎資源層面、應用層面、管理層面統一協同考慮對B、O、M三域大數據融合建設,積極協同建設三域資源池,不斷提升X86化比例、統一分布式數據庫、虛擬化軟件的選型,并進行三域跨域數據的統一采集和去重處理等。
建設基于X86架構的經分歷史數據庫,通過降低建設成本延長歷史數據保留時間,有效提升歷史數據的使用價值,并為數據倉庫提供安全保障。
2.3 組織架構
某運營商已經建立了跨部門的虛擬組織架構,通過明確各部門的分工,協同制定企業(yè)IT運營系統集中化總體目標及演進策略;部署企業(yè)IT運營系統集中化工作;統籌協調企業(yè)IT運營系統集中化所需資源;決策企業(yè)IT運營系統集中化中的重大事項。
3 以往建設中的問題與難點
某運營商在以往的系統建設中曾經出現過問題,通過剖析,分析出類似建設中的問題以及大數據建設過程中的困難所在。
3.1 以往建設問題
前期O域某系統的建設與大數據平臺的建設存在很多類似的特點,某系統在近幾年的建設過程中,出現的問題值得借鑒:
(1)規(guī)劃考慮不全面:某系統定位為支撐全業(yè)務運營,實現網絡資源數據的全生命周期管理,但沒有與業(yè)務支撐、計劃工程管理領域的相關系統統一規(guī)劃,建設過程中業(yè)務開通的長流程難以貫通。
(2)演進思路不清晰:某系統的建設目標是替代專業(yè)網管的資源管理功能,但其與專業(yè)網管的分工原則一直不清晰,長期以來專業(yè)網管仍承擔較多的資源管理方面的建設要求,建設過程中專業(yè)網管與某系統的接口難協調,接口規(guī)范不標準。
(3)技術架構不先進:某系統數據源大部分為手工錄入,目前從專業(yè)網管同步資源數據后做資源比對,由于統一采集層方案一直以來未明確和建設,造成資源數據采集自動化程度低、人工維護工作量巨大及數據質量長期存在不及時、不完整、不準確的問題,難以支撐實際生產管理的需要。
3.2 大數據融合建設難點
大數據融合建設的難度體現在:
(1)存在數據整合困難、準確性提升需要系統和管理雙重保障的特點。
(2)大數據分析應用范圍又涉及多域應用,范圍極廣,必須有專業(yè)化的團隊支撐服務。
4 三域大數據融合發(fā)展思路
根據前文所述的建設經驗,某運營商在大數據方面建設已經逐步滲透到各個環(huán)節(jié),并在相關方面取得了一定的建設成果:
(1)系統建設方面:由統一門戶向開放式平臺演進;由建單的數據封裝向統一數據服務平臺演進;由分散的基礎平臺向統一的管理平臺演進;由小型機逐步向X86化演進;由結構化處理能力向非結構化處理能力演進。
(2)業(yè)務應用方面:開展了流量經營戰(zhàn)略地圖、互聯網分析、事件營銷、業(yè)財融合、歷史庫等跨域融合類業(yè)務。
(3)資源整合方面:協調多個部門,融合B、O、M三域數據,整合基礎大數據資源;建立大數據資源管理部門,明確各部門職責和分工。
根據前文所述的建設中遇到的問題,建議在大數據建設過程中統籌考慮,避免重蹈O域某系統建設的覆轍:
(1)加強數據的標準化、歸一化、集中化管理。上百個系統的管理分布在不同的部門和專業(yè),數據規(guī)范制作沒有統一標準,因此只有不斷建立有效的把控手段,才能從源頭上保證數據的可用性。
(2)強化專業(yè)服務。一定要由專業(yè)人員或組織來做(避免兼職和非專業(yè))。也許采用專業(yè)部門和第三方專業(yè)咨詢相結合的方式是一種更好的選擇,但第三方專業(yè)咨詢一定要考慮長期戰(zhàn)略合作與個性化合作相結合。
(3)加強三域分析平臺的統一規(guī)劃。O域的綜合分析系統、M域的財務主數據平臺、B域的經分系統,在建設規(guī)劃過程中要綜合考慮。
依據業(yè)界的建設經驗,大數據建設大致可以從兩個方向進行:一是從上到下,由應用帶動數據;二是自下而上,由數據帶動應用。本文提出了采用應用與數據互驅的方式進行三大IT支撐系統大數據融合建設。
4.1 應用帶動數據
結合公司運營中的重點難點,梳理分析應用需求,梳理相關數據需求,進而推動數據的標準化、自動獲取和集中管控,以及相關基礎軟硬件能力的建設。這也是目前大數據平臺建設的主要思路。
4.2 數據帶動應用
加強數據的標準化管理。大數據分析的基礎是數據獲取,因此各種基礎數據的歸一化、標準化管理至關重要,但為了避免先建設后改造所帶來的重復投資和時間限制,要不斷加強入網數據的準入管理,通過對數據準入管理的把控,提升數據的標準化和集中化管理。
逐步建立公司級的數據分布地圖。在標準化的基礎上,逐步建立起公司的標準化數據分布地圖,即哪些系統存放著哪些數據,哪些數據是標準化和非標準化的,以及數據的重要性權重,通過建立數據分布地圖,實現數據的分層級管理體系。
加強數據節(jié)點的定位。從管理角度要考慮真正有效的數據節(jié)點所處的位置或環(huán)節(jié)(系統運營、職責分配、工作運營、決策支撐各環(huán)節(jié)的數據生成節(jié)點等,以及與現有的數據生成節(jié)點的關系)。
在數據分布地圖的基礎上進一步建立數據需求地圖,數據需求地圖除了包含數據分布地圖的部分內容外,還應該包括公司主要管理流程中產生的數據,而這些管理流程可能在實施過程中并沒有進行信息化處理,但這些潛在的數據會對公司的運營決策產生重要影響,因此通過明晰數據需求地圖,不斷加強此類流程數據的IT化、可管理化和可使用化能力,豐富數據地圖的范圍。
4.3 應用與數據互驅
鑒于以上的分析,總體發(fā)展思路是應用與數據互驅演進:以跨域分析應用的梳理為突破,帶動B、O、M三域數據的集中管理;以三域數據的歸一化梳理和集中,為更多的分析應用奠定基礎。
根據某運營商規(guī)劃,將以“資源整合,數據集中,應用整合”原則為指導,打造三域融合的一體化支撐能力,資源池重點關注資源整合層面,而大數據平臺對應數據集中和應用整合層面。IT支撐系統云資源池將分階段分維度整合三域內及域間的IT基礎資源,后續(xù)大數據平臺所需的IT基礎資源將由融合后的IT支撐系統云資源池統一提供,三大IT支撐系統私有云資源池規(guī)劃演進階段和方式視具體情況而不同。圖1所列的是其中一種典型情況,即O、M兩域先融合,然后三域再統一融合,其他情況不再贅述。
IT支撐系統私有云資源池是大數據平臺的物理支撐平臺,在規(guī)劃建設中考慮適當的彈性冗余。大數據平臺定位為建設統一的企業(yè)運營數據中心,以提供統一、標準、開放、可共享、可控制的數據服務為目標,前期重點建設非結構化數據處理能力,完成數據處理框架搭建,后期以諸如流量經營、業(yè)財融合等成熟的應用專題為切入點,逐漸豐富數據應用。
某運營商大數據平臺架構:面向互聯網化的轉型需求,結合去IOE(即以IBM小型機、Oracle數據庫、EMC存儲陣列為代表的傳統IT軟硬件架構模式)化進程,進行系統架構升級改造,開展大數據平臺轉型建設。構建信息整合、數據資產、應用和運維管控等扁平化中心,實現應用與數據深度解耦,數據處理多樣化,硬件和數據資源池化。
針對大數據的目標架構和特點,在近兩期的建設中充分考慮了新技術的引入和應用,主要的關鍵技術體現在小型機的X86化進程中以及部分新功能模塊建設中所運用的數據庫相關技術、MPP關系型數據庫(如深度分析庫、歷史庫等)以及Hadoop(如互聯網分析、云化ETL、爬蟲等),通過分析研究,對兩種技術的特點和應用場景進行了對比,如表1所示:
通過對以上兩種主流技術的深入對比研究,總結如下:
(1)兩種技術根據各自的特點,具有各自的應用場景:
鑒于MPP合理的分布鍵設計(MPP按行Hash分布,不同于Hadoop按塊隨機分布)、庫內分析支持與分布式存儲及計算相結合等方面的特性,支持數據量大、響應速度要求高、并發(fā)用戶多的交互式數據分析,可以有效支撐PB級別的結構化數據分析,如:中等規(guī)模日志存儲處理、經分數據倉庫等。
Hadoop則適用于響應時間要求不高、并發(fā)任務少的數據初步、加工提煉以及批量處理等場景,如大規(guī)?;ヂ摼W社交網絡、Blog、微博、在線詳單查詢、大規(guī)模日志存儲處理、信令系統XDR數據存儲和分析預處理、經分ETL等。此外,Hadoop能勝任傳統關系型數據庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,目前最為典型的應用場景就是通過擴展和封裝Hadoop來實現對互聯網大數據存儲、分析的支撐;對于非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,也是Hadoop平臺擅長之處。
(2)基于列存儲+MPP架構的新型數據庫在核心技術上跟傳統數據庫有巨大差別,是為面向結構化數據分析設計開發(fā)的,能夠有效處理PB級別的數據量。在技術上為很多行業(yè)用戶解決了數據處理性能問題。
(3)新型數據庫是運行在X86服務器之上的,相比傳統小型機部署方式可以大大降低數據處理的成本(1個數量級)。
(4)新型數據庫將逐步與Hadoop生態(tài)系統結合混搭使用,用MPP處理PB級別的、高質量的結構化數據,同時為應用提供豐富的SQL和事務支持能力;用Hadoop實現半結構化、非結構化數據處理,這樣可同時滿足結構化、半結構化和非結構化數據的處理需求。
三大IT支撐系統大數據融合架構如圖2所示。
在三大IT支撐系統大數據融合建設進程中,要加強各類大數據應用的有效性和時效性管理,建立應用的全生命周期管理手段,避免無效的應用長期占用系統資源甚至是運維資金。
與此同時,建立公司級的數據運營團隊十分必要,通過專業(yè)的運營團隊,分析數據中隱含的決策支撐信息,建立分析的各種模型,定期形成分析結果的預評估,將經過預評估的模型通過軟件開發(fā)進行落地實施,并在實施的過程中不斷完善和修正,力爭實現運營效果對基礎數據管理能力的閉環(huán)反饋。
5 結論
三大IT支撐系統大數據融合旨在數據資產規(guī)范化、顯性化的基礎上,逐步由內而外發(fā)掘數據價值,并支撐上層應用,最終通過資產經營充分實現其價值,實現“應用與數據互相驅動”。展望未來,融合的大數據平臺這一新運營體系必然要經歷螺旋式上升的過程而得以完善。
參考文獻:
[1] 趙晶. 針對運營商的大數據建設方案研究[J]. 電信工程技術與標準化, 2015(3): 17-21.
[2] 梁楊. 大數據背景下企業(yè)級數據中心建設探索[J]. 互聯網天地, 2014(2).
[3] 張雨,蔡鑫,李愛民,等. 分布式文件系統與MPP數據庫的混搭架構在電信大數據平臺中的應用[J]. 電信科學, 2013(11): 12-16.
[4] 劉智慧,張泉靈. 大數據技術研究綜述[J]. 浙江大學學報(工學版), 2014(6): 957-972.
[5] 孟小峰,慈祥. 大數據管理:概念、技術與挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2013(1): 146-169.
[6] 嚴霄鳳,張德馨. 大數據研究[J]. 計算機技術與發(fā)展, 2013(4): 168-172.
[7] 程學旗,靳小龍,王元卓,等. 大數據系統和分析技術綜述[J]. 軟件學報, 2014(9): 1889-1908.
[8] 工業(yè)和信息化部電信研究院. 大數據白皮書[Z]. 2014.
[9] 中國移動通信集團公司. 中國移動省級NG2-BASS(v5.0)技術規(guī)范總冊[S]. 2014.
[10] 中國移動通信集團公司. 中國移動經營分析系統大數據技術指南[Z]. 2014. ★