高承山,張 勇,李福慶(中訊郵電咨詢設計院有限公司,河南鄭州450007)
目前,中國聯(lián)通核心網(wǎng)網(wǎng)管數(shù)據(jù)主要包括2G、3G和4G網(wǎng)管指標,其中2G和3G網(wǎng)管指標已經(jīng)納入中國聯(lián)通綜合網(wǎng)管,而4G網(wǎng)管指標仍然分散于各廠家的專業(yè)網(wǎng)管中。由于核心網(wǎng)網(wǎng)元眾多、網(wǎng)管數(shù)據(jù)來源復雜,業(yè)內(nèi)缺乏完善的網(wǎng)管數(shù)據(jù)收集和管理的手段,因此對工程建設過程中前期規(guī)劃建設階段的指導作用有限。為了解決這些問題,筆者及同事開發(fā)了核心網(wǎng)網(wǎng)絡建設運行支撐平臺,該平臺通過各種自動化工具對核心網(wǎng)網(wǎng)管數(shù)據(jù)進行自動整理分析匯總,為核心網(wǎng)網(wǎng)絡建設提供技術支撐。本文主要介紹該平臺所采用的一些技術。
核心網(wǎng)網(wǎng)管數(shù)據(jù)的分析包括兩部分。
a)后臺數(shù)據(jù)處理:包括數(shù)據(jù)清洗入庫和多維分析。核心網(wǎng)網(wǎng)管指標體系按照設備分為MSC Server、MGW、SGSN/MME、GGSN/GW、HLR/HSS 等5 種類型。由于設備存在入網(wǎng)、割接、調(diào)整、故障等各種非正常狀態(tài),廠家網(wǎng)管和綜合網(wǎng)管之間北向接口對接問題等都會影響網(wǎng)管數(shù)據(jù)質(zhì)量,因此網(wǎng)管數(shù)據(jù)入庫后需要進行清洗。清洗后的數(shù)據(jù),可以根據(jù)需求進行各種維度分析,如按照時間維度、地域維度等提取忙時數(shù)據(jù)。
b)前端數(shù)據(jù)展示:將后端處理之后的數(shù)據(jù),通過可視化的Web 界面展示給用戶,為規(guī)劃、建設及業(yè)務發(fā)展提供決策支持。
根據(jù)上述需求,核心網(wǎng)網(wǎng)絡建設運行支撐平臺的系統(tǒng)架構如圖1所示。
圖1 核心網(wǎng)管數(shù)據(jù)分析管理平臺架構
系統(tǒng)架構包括數(shù)據(jù)源、數(shù)據(jù)層、應用層、門戶等幾個模塊,其中數(shù)據(jù)層主要負責后端的數(shù)據(jù)處理,源數(shù)據(jù)經(jīng)過采集、清洗、入庫、多維分析后,以數(shù)據(jù)服務的形式提供給前端應用層展示。
本文著重介紹數(shù)據(jù)層所采用的數(shù)據(jù)清洗及分析技術。
綜合網(wǎng)管報表包含MSC Server、MGW、SGSN/MME、GGSN/GW、HLR/HSS 5 種設備類型的2G/3G 報表,每種設備類型包含配置報表和性能報表,共11 種類型的報表(其中MSC Server 的性能指標分布在2 個性能報表中),每種類型報表為1個CSV文件。其中性能報表為24 h報表:每套設備每個小時提取一次記錄;配置報表為日報表:每套設備每天提取一次記錄。每天的網(wǎng)管數(shù)據(jù)量約為11 個CSV 文件6 萬行記錄,共200個性能指標及70個配置指標。
廠家網(wǎng)管報表按照廠家和設備類型分省提取4G指標,目前共5個廠家、3種設備類型,分省提取約100個左右的CSV文件(見表1)。
由于需要入庫的文件、記錄數(shù)較多,使用數(shù)據(jù)庫本身提供的功能不能滿足自動入庫的需求,本文使用開源ETL工具Kettle對網(wǎng)管報表進行自動入庫及清洗。
Kettle 是一款開源ETL 工具,其包含2 種腳本文件:轉(zhuǎn)換和作業(yè)。其中轉(zhuǎn)換是ETL 解決方案中最主要的部分,它負責對數(shù)據(jù)進行抽取、轉(zhuǎn)換、過濾等操作,轉(zhuǎn)換包括一個或多個步驟,如讀取文件、過濾輸出行、數(shù)據(jù)清洗或?qū)?shù)據(jù)加載到數(shù)據(jù)庫;作業(yè)則完成對整個工作流的控制,一個作業(yè)包括一個或多個作業(yè)項,這些作業(yè)項以某種順序來執(zhí)行。
表1 網(wǎng)管報表信息
Kettle 工具集共包括4 個產(chǎn)品:Spoon、Pan、Chef、Kitchen。
Spoon:通過圖形界面(GUI)設計ETL轉(zhuǎn)換過程。Pan:通過命令行方式(CMD)批量執(zhí)行由Spoon設計的ETL轉(zhuǎn)換(例如使用時間調(diào)度器)。
Chef:通過圖形界面(GUI)方式創(chuàng)建作業(yè)。
Kitchen:通過命令行方式(CMD)批量執(zhí)行由Chef創(chuàng)建的作業(yè)。
將定期獲取的CSV 文件報表保存在“擬上傳報表”文件夾中,針對每種類型的報表創(chuàng)建一個轉(zhuǎn)換,將創(chuàng)建的所有轉(zhuǎn)換加入到作業(yè)中,使用時間調(diào)度器定期執(zhí)行作業(yè),通過此過程可以完成網(wǎng)管數(shù)據(jù)的自動入庫功能。
下面以MSC Server的性能報表為例,來說明Kettle轉(zhuǎn)換的創(chuàng)建。
a)將提取到的網(wǎng)管報表CSV文件保存至“擬上傳報表”文件夾中。
b)Kettle 轉(zhuǎn)換過程根據(jù)通配符自動從“擬上傳報表”文件夾中提取相應的報表文件。
c)Kettle轉(zhuǎn)換逐行讀取報表文件中的記錄。
d)Kettle 根據(jù)指定的報表表頭和數(shù)據(jù)庫字段對應關系將記錄保存至數(shù)據(jù)庫。
針對所有類型的報表,需要將各種轉(zhuǎn)換操作加入到作業(yè)中,具體如下(見圖2)。
a)分類型上傳報表,上傳完成后需要將“擬上傳報表”文件夾中對應文件移動至“已上傳報表”文件夾。
b)如果上傳錯誤,則將詳細的錯誤信息以郵件方式發(fā)送至監(jiān)控郵箱。
c)重復上述步驟。
由于網(wǎng)絡、設備等因素的影響,從綜合網(wǎng)管和廠家網(wǎng)管獲取的報表數(shù)據(jù)會存在大量的“臟數(shù)據(jù)”,即數(shù)據(jù)存在缺失、噪聲、重復等各種問題,如果直接使用會造成后續(xù)維度分析的結果出現(xiàn)較大的偏差甚至錯誤。因此需要對入庫后的源數(shù)據(jù)進行數(shù)據(jù)清洗,清洗工作可以采用ETL清洗輔助人工清洗方式。
a)數(shù)據(jù)分析:首先對報表各指標進行分析,通過分析確定數(shù)據(jù)的錯誤類型。
b)定義數(shù)據(jù)檢驗規(guī)則:根據(jù)數(shù)據(jù)分析得到的結果定義數(shù)據(jù)檢驗規(guī)則,如地(市)名稱為空、地(市)名稱不在標準的地(市)名稱范圍內(nèi)、CPU 利用率大于100%,VLR 登記用戶大于正常值、話務量大于正常值等均視為需要驗出的錯誤數(shù)據(jù)。
c)搜索、識別錯誤實例:根據(jù)數(shù)據(jù)檢驗規(guī)則,利用ETL 工具對原始表進行逐行檢查,將檢查出的錯誤數(shù)據(jù)字段的相關信息保存在數(shù)據(jù)庫中的錯誤表中(見表2)。
d)對錯誤數(shù)據(jù)進行修正:根據(jù)數(shù)據(jù)庫中錯誤信息表,利用數(shù)據(jù)庫存儲過程對錯誤數(shù)據(jù)進行修正。如地(市)名稱為空,則需要根據(jù)設備ID 生成地(市)名稱;如果地(市)名稱不是標準的地(市)名稱,則需要使用標準的地(市)名稱進行替換。CPU 利用率、VLR 登記用戶數(shù)、話務量等數(shù)值類型的錯誤需要用最近時間的正常值進行替換。
由于ETL清洗是針對全部同類型的設備設置統(tǒng)一規(guī)則,清洗后部分設備仍然存在錯誤數(shù)據(jù),此時需要配合人工進行清洗(見圖3)。
a)首先需要將ETL 清洗后的記錄按照設備維度以曲線顯示在Web頁面中。
b)各省維護人員按照設備容量及經(jīng)驗判斷是否有噪點。
圖2 Kettle作業(yè)流程示例
表2 數(shù)據(jù)庫錯誤信息表
圖3 通過Web圖形進行人工校驗數(shù)據(jù)
c)對噪點數(shù)據(jù)進行人工修改。
為了向規(guī)劃、建設及運行維護提供決策支持,需要對清洗后的網(wǎng)管數(shù)據(jù)進行多維度的分析,如端局VLR登記用戶數(shù)、話務量等指標的各時間維度(日、月、年)的忙時分析和各地域維度(地(市)、省分、全國)的忙時數(shù)據(jù)分析。在分析過程中使用了開源的多維分析工具Mondrian 及多維查詢語言Mdx,以下將介紹分析工具的使用及相關的多維分析流程。
a)多維數(shù)據(jù)集:多維數(shù)據(jù)集是聯(lián)機分析處理(OLAP)中的主要對象,是一項可對數(shù)據(jù)倉庫中的數(shù)據(jù)進行快速訪問的技術。多維數(shù)據(jù)集是一個數(shù)據(jù)集合,通常根據(jù)數(shù)據(jù)倉庫的子集構造,并組織和匯總成一個由一組維度和度量值定義的多維結構。
b)維度:多維數(shù)據(jù)集的結構性特性。它們被用于在事實數(shù)據(jù)表中描述數(shù)據(jù)的分類和級別,這些分類和級別描述了一些相似的成員集合,用戶將基于這些成員集合進行分析。
c)度量值:在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實數(shù)據(jù)表中的一列,而且通常為數(shù)字。此外,度量值是所分析的多維數(shù)據(jù)集的中心值。即度量值是最終用戶瀏覽多維數(shù)據(jù)集時重點查看的數(shù)字數(shù)據(jù)。
d)維度成員:維度的一個取值稱為該維的一個維度成員。
e)多維分析方法:上卷、下鉆、切片、切塊、旋轉(zhuǎn),從多個角度、多個側面觀察數(shù)據(jù)庫中的數(shù)據(jù)。
f)模式:多維數(shù)據(jù)的事實表、維表、聚集表等存儲于數(shù)據(jù)庫中,屬于物理模型;而數(shù)據(jù)立方體、維度、度量這些概念屬于邏輯模型。多維分析引擎必須要理解邏輯模型,并能夠映射到物理模型上。多維數(shù)據(jù)的模式就是用來描述這個邏輯模型以及到物理模型的映射的。
Mondrian 多維分析工具是一個以Java 實現(xiàn)的OLAP引擎。它本身不管理數(shù)據(jù)的儲存,而是通過Mdx語言從關系數(shù)據(jù)庫(RDBMS)中讀取數(shù)據(jù),然后經(jīng)過Java API以多維的方式對結果進行展示。
Mondrian OLAP 系統(tǒng)由4個層組成,從最終用戶到數(shù)據(jù)中心。
a)表現(xiàn)層:表現(xiàn)層決定了以何種方式向最終用戶顯示多維數(shù)據(jù)集,及它們?nèi)绾瓮到y(tǒng)產(chǎn)生交互。表現(xiàn)層可以使用Pivot 表(一種交互式的表)、Pie、Line 和圖表(Bar Charts)等方式。
b)維度層:維度層用來解析、驗證和執(zhí)行Mdx 查詢要求。一個Mdx 查詢要通過幾個階段來完成:首先是計算坐標軸(Axes),再者計算坐標軸Axes 中Cell 的值。
c)集合層:集合層負責維護和創(chuàng)建集合緩存,一個集合是在內(nèi)存中緩存一組單元值,這些單元值由一組維的值來確定。
d)存儲層:存儲層是一個關系型數(shù)據(jù)庫(RD?BMS)。它負責創(chuàng)建集合的單元數(shù)據(jù),和提供維表的成員。
Mdx為MultiDimensional Expressions 的縮寫,多維表達式,是標準的OLAP查詢語言。
Mdx 很多方面與結構化查詢語言(SQL)語法相似,但它不是SQL語言的擴展。
每個Mdx查詢都要求有數(shù)據(jù)請求(select子句)、起始點(from 子句)和篩選(where 子句)。這些關鍵字以及其他關鍵字提供了各種工具,用來從多維數(shù)據(jù)集析取數(shù)據(jù)的特定部分。Mdx 還提供了可靠的函數(shù)集,用來對檢索的數(shù)據(jù)進行操作,同時還具有用戶定義函數(shù)擴展Mdx的能力。
Mdx基本語法結構:
其中:[axis specification]表示軸的成員選擇;[silcer specification]表示切片上的成員,可以看成過濾信息;[silcer specification]為可選項,如果沒有指定,取系統(tǒng)默認的維度成員作為切片。
以入庫后的電路域Msc Server 報表為例進行多維分析。
a)構造多維數(shù)據(jù)集(Cube)。經(jīng)過清洗后的數(shù)據(jù)庫表mss_c 為事實表,它可分為2 個維度,時間維度的mss表和地域維度的mss表(見圖4和圖5)。
圖4 多維數(shù)據(jù)集
圖5 維度表關系圖
b)進行模式映射。一個模式定義了一個多維數(shù)據(jù)庫,它包含一個邏輯模型、一組數(shù)據(jù)立方、層次和成員,并映射到物理模型(關系數(shù)據(jù)庫)上。
(a)邏輯模型:為了編寫Mdx查詢語言而創(chuàng)建的,它包含數(shù)據(jù)立方、維、層次等。
(b)數(shù)據(jù)立方:事實表mss_c、維度表dim_time、維度表dim_area。
(c)度量包括:nbrcurrentsubs_g(VLR 中2G 登記用戶數(shù))、nbrcurrentsubs_u(VLR中3G登記用戶數(shù))、it?fatraffic(交換機的A 接口的占用話務量)、itfiucscall?traffic(交換機的Iu-CS接口話音業(yè)務的占用話務量)。
(d)維:dim_time、dim_area。
(e)層次(Hierarchies):time_type層次結構為(日、月、年),area_type 層次結構為(設備、地(市)、省分、全國)。
之后根據(jù)定義的邏輯模型編寫mondrian模式配置文件(xm l文件)。
c)編寫Mdx 查詢。如查詢鄭州的日、月、年忙時數(shù)據(jù),對應的Mdx查詢語句如下。
其中:columns軸維度包含的是度量。rows軸維度包含的是維度中層次的所有成員。
根據(jù)多維分析的結果,以圖形方式展示分析后的數(shù)據(jù)(見圖6)。
圖6 分析結果展示
電信運營商每年投入大量資金進行網(wǎng)管系統(tǒng)的建設,但是這些網(wǎng)管系統(tǒng)大部分都專注于不同網(wǎng)絡設備的運行維護,對網(wǎng)絡的建設規(guī)劃缺乏有效的指導。將離散的網(wǎng)管數(shù)據(jù)進行統(tǒng)一管理,構建網(wǎng)管大數(shù)據(jù)平臺,從海量的網(wǎng)管數(shù)據(jù)中挖掘有效信息,可以使其更好地為網(wǎng)絡建設服務。本文介紹了使用自動化工具對網(wǎng)管數(shù)據(jù)進行入庫,數(shù)據(jù)清洗,多維分析,實現(xiàn)了網(wǎng)管數(shù)據(jù)的有效利用。
[1] Matt Casters,Roland Bouman,Jos van Dongen,et al. Pentaho Kettle解決方案:使用PDI 構件開源ETL 解決方案[M].北京:電子工業(yè)出版社,2014:120-130.
[2] QB/CU 250-2013 中國聯(lián)通OSS-GSM/WCDMA/LTE 網(wǎng)絡管理指標體系第四部分:電路域核心網(wǎng)指標定義與映射[S].北京:中國聯(lián)通,2013:33-313.
[3] QB/CU 086-2010 中國聯(lián)通OSS-GSM/WCDMA 網(wǎng)絡管理指標體系第五部分:分組域核心網(wǎng)指標定義與映射[S]. 北京:中國聯(lián)通,2010:18-184.
[4] QB/CU 246-2013 中國聯(lián)通OSS-WCDMA/LTE網(wǎng)綜合網(wǎng)管系統(tǒng)與網(wǎng)元管理系統(tǒng)間接口技術規(guī)范第三部分:與電路域核心網(wǎng)相關的信息模型[S].北京:中國聯(lián)通,2013:3-126.
[5] QB/CU 248-2013 中國聯(lián)通OSS-WCDMA/LTE網(wǎng)綜合網(wǎng)管系統(tǒng)與網(wǎng)元管理系統(tǒng)間接口技術規(guī)范第七部分:與EPC相關的信息模型[S].北京:中國聯(lián)通,2013:10-168.
[6] QB/CU X13-212(2014)中國聯(lián)通OSS-GSM/WCDMA/LTE 總部移動綜合網(wǎng)管系統(tǒng)技術規(guī)范[S].北京:中國聯(lián)通,2014:30-36.
[7] QB/CU 252-2013 中國聯(lián)通OSS-GSM/WCDMA/LTE 網(wǎng)絡管理指標體系第七部分:EPC 指標定義與映射[S]. 北京:中國聯(lián)通,2013:3-179.
[8] Baron Schwartz,Peter Zaitsev,Vadim Tkachenko,et al. 高 性 能MySQL[M].3版.北京:電子工業(yè)出版社,2013:202-204.
[9] Paul DuBois.MySQL 技術內(nèi)幕[M].4版.北京:人民郵電出版社,2011:230-232.
[10]Pan Ning-Tan,Michael Steinbach,Vipin Kumar,et al. 數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫跰].北京:人民郵電出版社,2011:30-33.
[11]盧輝.數(shù)據(jù)挖掘與數(shù)據(jù)化運營實戰(zhàn):思路、方法、技巧與應用[M].北京:機械工業(yè)出版社,2013:129-130.
[12]Micheal Milton. 深入淺出數(shù)據(jù)分析[M]. 北京:電子工業(yè)出版社,2010:75-80.
[13]姚家奕.多維數(shù)據(jù)分析[M].北京:電子工業(yè)出版社,2007:50-56.
[14]Eric Thomsen. OLAP 解決方案:創(chuàng)建多維信息系統(tǒng)[M]. 2 版. 北京:電子工業(yè)出版社,2004:105-108.
[15]BD William,N Goodman,J Hyde. Mondrian in Action: Open source business analytics[M].Virginia:Manning Publications,2013:80-85.