中國移動(dòng)通信集團(tuán)江蘇有限公司南京分公司 周 雋
當(dāng)前服務(wù)質(zhì)量優(yōu)化工作,往往依賴于用戶投訴或故障觸發(fā),業(yè)務(wù)相關(guān)的薄弱環(huán)節(jié)難發(fā)現(xiàn)、難預(yù)知。因此,迫切需要建立一套從“服務(wù)性能監(jiān)視”到“服務(wù)瓶頸發(fā)現(xiàn)”到“主動(dòng)干預(yù)調(diào)整”的依賴流程驅(qū)動(dòng)的自激勵(lì)模式,使得事后維護(hù)向事前維護(hù)轉(zhuǎn)變,補(bǔ)救性維護(hù)向預(yù)防性維護(hù)轉(zhuǎn)變。
重點(diǎn)滿足互聯(lián)網(wǎng)運(yùn)維中如下幾個(gè)方面的需求:
1)建立全面、科學(xué)的寬帶運(yùn)營維護(hù)評(píng)估體系,實(shí)現(xiàn)服務(wù)質(zhì)量可視化;
2)提供基于拓?fù)涔芾淼脑O(shè)備和鏈路管理手段,實(shí)現(xiàn)對(duì)網(wǎng)元運(yùn)行狀態(tài)和故障的實(shí)時(shí)監(jiān)控;
3)建立預(yù)判告警手段,實(shí)現(xiàn)對(duì)潛在故障點(diǎn)和薄弱環(huán)節(jié)的前發(fā)現(xiàn)、提前改進(jìn),并能通過郵件、短信等方式進(jìn)行告警通知。
4)支持全面應(yīng)用環(huán)節(jié)監(jiān)控管理,提供DNS(域名系統(tǒng))用戶掉線、認(rèn)證性能等寬帶業(yè)務(wù)及應(yīng)用相關(guān)性能數(shù)據(jù),并進(jìn)行統(tǒng)計(jì)分析;
5)采用客戶端排障與網(wǎng)絡(luò)故障排查相結(jié)合的方式,提供直觀快速的故障排查手段,建立用戶維度上網(wǎng)接入設(shè)備的級(jí)聯(lián)模型,實(shí)現(xiàn)故障點(diǎn)的快速定位;
6)系統(tǒng)自動(dòng)對(duì)用戶賬號(hào)與IP地址動(dòng)態(tài)匹配關(guān)聯(lián),實(shí)現(xiàn)從用戶維度對(duì)用戶行為及網(wǎng)服務(wù)質(zhì)量的監(jiān)控管理。
系統(tǒng)采用指標(biāo)集中監(jiān)測(cè)、資源級(jí)聯(lián)發(fā)現(xiàn)及主動(dòng)仿真測(cè)試相結(jié)合的方式,將用戶感知與網(wǎng)絡(luò)質(zhì)量數(shù)據(jù)從用戶維度加以關(guān)聯(lián)分析和展現(xiàn)。系統(tǒng)結(jié)構(gòu)如圖1所示。
系統(tǒng)功能包括數(shù)據(jù)采集處理、接入質(zhì)量分析、傳輸質(zhì)量分析、用戶感知分析、寬帶認(rèn)證分析、流量分析、DNS性能分析、綜合告警管理、智能排障處理、統(tǒng)一資源管理、實(shí)時(shí)監(jiān)控、系統(tǒng)管理等功能模塊,見圖2。
2.2.1 數(shù)據(jù)采集處理
數(shù)據(jù)采集是所有服務(wù)質(zhì)量監(jiān)控與網(wǎng)絡(luò)管理的前提。數(shù)據(jù)采集主要包括數(shù)據(jù)的收集、數(shù)據(jù)整理和數(shù)據(jù)預(yù)處理(如過濾、對(duì)照、豐富等)。為了保證數(shù)據(jù)采集的完整性,系統(tǒng)提供對(duì)數(shù)據(jù)采集結(jié)果的瀏覽和手動(dòng)啟動(dòng)采集的能力,即通過定制采集的周期和時(shí)間,實(shí)現(xiàn)對(duì)日常數(shù)據(jù)的自動(dòng)采集,當(dāng)由于異常情況引起采集失敗的時(shí)候,通過啟動(dòng)手動(dòng)數(shù)據(jù)采集進(jìn)行數(shù)據(jù)補(bǔ)采。同時(shí),對(duì)采集到的性能數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)聚合、統(tǒng)計(jì)等處理工作,并靈活定義告警門限,及時(shí)生成告警信息;對(duì)采集到的用戶流量數(shù)據(jù)通過與RADUIS數(shù)據(jù)的比對(duì)處理,形成用戶賬號(hào)與IP流量對(duì)象的邏輯關(guān)聯(lián)。
2.2.2 接入質(zhì)量分析
系統(tǒng)定期自動(dòng)獲取本地網(wǎng)異常掉線用戶的相關(guān)信息,提供接入質(zhì)量相關(guān)的掉線匯總統(tǒng)計(jì)、掉線類型統(tǒng)計(jì)、用戶掉線排行、BAS掉線排行。
2.2.3 傳輸質(zhì)量測(cè)試分析
對(duì)用戶來說,鏈路質(zhì)量的好壞直接關(guān)系到整個(gè)網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)馁|(zhì)量,同時(shí)也會(huì)直接影響為客戶提供服務(wù)的質(zhì)量。系統(tǒng)提供了完善傳輸性能測(cè)試工具,并通過圖表的方式,對(duì)所關(guān)注的各鏈路性能進(jìn)行分析。系統(tǒng)可靈活定制測(cè)試任務(wù)計(jì)劃,對(duì)各考核路徑的丟包率、延時(shí)指標(biāo)進(jìn)行統(tǒng)計(jì)。
2.2.4 用戶感知分析
鑒于互聯(lián)網(wǎng)業(yè)務(wù)日趨多樣、用戶行為復(fù)雜等特點(diǎn),用傳統(tǒng)的網(wǎng)絡(luò)質(zhì)量評(píng)估方式很難有效反映客戶感知。系統(tǒng)通過仿真探針與客戶端方式實(shí)現(xiàn)網(wǎng)頁訪問、在線視頻、網(wǎng)絡(luò)游戲等主流業(yè)務(wù)端到端的服務(wù)質(zhì)量評(píng)估,從而指導(dǎo)維護(hù)優(yōu)化工作,改善網(wǎng)絡(luò)客戶感知,降低網(wǎng)絡(luò)客戶投訴。
2.2.5 寬帶認(rèn)證分析
系統(tǒng)實(shí)時(shí)采集RADIUS(遠(yuǎn)程用戶撥號(hào)認(rèn)證系統(tǒng))計(jì)費(fèi)和認(rèn)證消息數(shù)據(jù),提供在線用戶分析、RADIUS性能分析、掉線原因分析、多端口用戶分析、用戶認(rèn)證記錄查詢等功能。
2.2.6 流量與性能分析
系統(tǒng)對(duì)路由器、BAS、OLT、ONU的端口流量及性能指標(biāo)進(jìn)行周期性采集分析,提供全環(huán)節(jié)的監(jiān)控保障。同時(shí),通過自動(dòng)采集配置帶寬,實(shí)現(xiàn)端口占比及突變預(yù)警。
2.2.7 DNS性能分析
系統(tǒng)實(shí)時(shí)采集用戶的DNS報(bào)文分析,提供指定DNS服務(wù)器性能分析。
提供指定周期內(nèi),不同DNS服務(wù)器、各時(shí)段分布的壓力分析。統(tǒng)計(jì)數(shù)據(jù)項(xiàng)包括:請(qǐng)求總包數(shù)、回包數(shù)、成功解析包數(shù)、平均響應(yīng)時(shí)長、響應(yīng)成功率、解析成功率。
提供指定周期內(nèi),不同DNS服務(wù)器解析失敗原因分類分析,提供失敗數(shù)、失敗率統(tǒng)計(jì)。
2.2.8 綜合告警臺(tái)
綜合預(yù)警臺(tái)通過主動(dòng)檢測(cè)關(guān)鍵服務(wù)指標(biāo)、集中展現(xiàn)最新“預(yù)警信息”。運(yùn)維人員可根據(jù)預(yù)警級(jí)別進(jìn)行確認(rèn)和優(yōu)化處理。
告警信息包括:BAS在線人數(shù)告警、接口流量告警、RADIUS告警、DNS服務(wù)告警、鏈路質(zhì)量告警、設(shè)備故障告警等。
提供依據(jù)事件分類配置不同報(bào)警規(guī)則的設(shè)置頁面,報(bào)警信息將按照事件分類與通知規(guī)則的對(duì)應(yīng)關(guān)系通過短信、E-mail兩種方式及時(shí)通知到管理員。
2.2.9 智能排障處理
通過自動(dòng)建立“用戶上網(wǎng)設(shè)備級(jí)聯(lián)模型”,從“寬帶賬號(hào)”維度整合設(shè)備告警、流量擁塞、認(rèn)證失敗、異常掉線、網(wǎng)絡(luò)性能,方便運(yùn)維人員快速定位故障。代維及客服人員可以Web終端方式登錄,通過簡單操作實(shí)現(xiàn)報(bào)障提前診斷與預(yù)處理,簡化后續(xù)流程。
2.2.10 統(tǒng)一資源管理
鑒于傳統(tǒng)資源臺(tái)賬人工維護(hù)的工作量壓力與準(zhǔn)確性差異,資源管理重點(diǎn)實(shí)現(xiàn)PON(無源光網(wǎng)絡(luò))資源的自動(dòng)登記管理,根本解決手工維護(hù)信息問題。系統(tǒng)功能包括:設(shè)備信息管理、鏈路維護(hù)管理、鏈路群維護(hù)管理、區(qū)域信息管理、設(shè)備級(jí)聯(lián)關(guān)系查詢、設(shè)備資源占用率統(tǒng)計(jì)等功能。
2.2.11 系統(tǒng)管理
系統(tǒng)管理提供用戶權(quán)限管理、日志管理、參數(shù)管理等功能。
系統(tǒng)中各種基礎(chǔ)數(shù)據(jù)的獲取,主要通過協(xié)議適配器、測(cè)試管理工具、寬帶客戶端、應(yīng)用接口這4種方式進(jìn)行采集。
1)協(xié)議適配器:由分布式數(shù)據(jù)采集網(wǎng)關(guān)(GW)和適配器模塊組成,支持?jǐn)?shù)據(jù)的分布式采集、前置預(yù)處理、歸一化處理功能。提供基于通用設(shè)施(如線程池、數(shù)據(jù)庫連接池,任務(wù)隊(duì)列、消息緩存和過濾機(jī)制等)的各種協(xié)議采集,如SNMP(簡單網(wǎng)絡(luò)管理協(xié)議)、NetFlow(一種數(shù)據(jù)交換方式)/NetStream(提供報(bào)文統(tǒng)計(jì)功能)、RADUIS、NAT(網(wǎng)絡(luò)地址轉(zhuǎn)換)、DNS、Syslog(系統(tǒng)操作日志)等,同時(shí)協(xié)議適配器可基于新的數(shù)據(jù)采集要求進(jìn)行靈活的協(xié)議擴(kuò)充。
2)測(cè)試管理框架:實(shí)現(xiàn)基于分布式測(cè)試服務(wù)器的主動(dòng)測(cè)試管理,完成測(cè)試任務(wù)的統(tǒng)一下發(fā),測(cè)試結(jié)果數(shù)據(jù)的集中處理。主要功能包括統(tǒng)一任務(wù)管理器、服務(wù)通信模塊、多線程探測(cè)探針。探測(cè)探針可集中于核心服務(wù)器,也可根據(jù)測(cè)試需要靈活部署在網(wǎng)絡(luò)出口、接入層等網(wǎng)絡(luò)位置,實(shí)現(xiàn)對(duì)用戶端、網(wǎng)內(nèi)核心節(jié)點(diǎn)、網(wǎng)外目標(biāo)網(wǎng)站的雙向測(cè)試。
3)寬帶客戶端:寬帶撥號(hào)客戶端軟件在提供PPPoE(以太網(wǎng)上的點(diǎn)對(duì)點(diǎn)協(xié)議)撥號(hào)功能的同時(shí),實(shí)現(xiàn)用戶自助的故障診斷功能。同時(shí),客戶端內(nèi)置了應(yīng)用性能監(jiān)視引擎,可對(duì)關(guān)鍵網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行服務(wù)感知測(cè)試,并將測(cè)試結(jié)果上傳給服務(wù)器,供服務(wù)器質(zhì)量分析和排障使用。服務(wù)感知測(cè)試內(nèi)容包括:網(wǎng)絡(luò)端到端性能、電子信函、文件傳輸、Web網(wǎng)頁傳輸?shù)取?/p>
4)應(yīng)用接口:系統(tǒng)一方面可以通過SOAP(簡單對(duì)象訪問協(xié)議)、API(應(yīng)用程序接口)、文件等接口方式實(shí)與第三方EMS(網(wǎng)元管理系統(tǒng))和NMS(網(wǎng)絡(luò)管理系統(tǒng))的數(shù)據(jù)獲取,如:客戶業(yè)務(wù)資料庫、客戶業(yè)務(wù)受理單等。同時(shí)系統(tǒng)也可以為其他管理系統(tǒng)提供不同層次開放標(biāo)準(zhǔn)的接口,最大限度地充分利用本系統(tǒng)的管理數(shù)據(jù)?;ヂ?lián)網(wǎng)質(zhì)量數(shù)據(jù)獲取見圖3。
完成在基礎(chǔ)數(shù)據(jù)抽象和聚合處理,形成基礎(chǔ)的數(shù)據(jù)源。主要包括數(shù)據(jù)處理引擎和專題分析插件兩部分。
1)數(shù)據(jù)處理引擎:對(duì)采集到的數(shù)據(jù)進(jìn)行抽象和對(duì)象化處理,并根據(jù)數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)聚合、對(duì)比關(guān)聯(lián)等處理,為保證數(shù)據(jù)處理效率,該部分工作在內(nèi)存中處理完成。系統(tǒng)采用內(nèi)存數(shù)據(jù)庫和高效緩沖池等技術(shù),實(shí)現(xiàn)大數(shù)據(jù)量的分析處理。
2)專題分析插件:主要基于專題數(shù)據(jù)源的數(shù)據(jù)處理,如實(shí)現(xiàn)多層次數(shù)據(jù)收斂,以及基于歷史數(shù)據(jù)和閥值控制的自動(dòng)觸發(fā)等。包括接入質(zhì)量分析、寬帶認(rèn)證性能分析、網(wǎng)絡(luò)傳輸質(zhì)量分析、用戶感知性能、用戶流量分析、端口流量分析、DNS專題分析、NAT專題分析等插件。
PON設(shè)備的MIB(管理信息庫)消息中可提供ONU端口和MAC(媒體接入控制)的對(duì)應(yīng)關(guān)系,而系統(tǒng)同時(shí)監(jiān)聽用戶上網(wǎng)的RADIUS報(bào)文消息,系統(tǒng)通過MIB消息和RADIUS報(bào)文的動(dòng)態(tài)匹配,可獲取用戶上網(wǎng)級(jí)聯(lián)設(shè)備信息。該方式優(yōu)點(diǎn)是信息采集并發(fā)獲取,信息獲取效率高。
主要應(yīng)用于用戶報(bào)障的快速處理,運(yùn)維人員可通過輸入賬號(hào)進(jìn)行相關(guān)快捷查詢。系統(tǒng)可集中顯示用戶上網(wǎng)相關(guān)節(jié)設(shè)備狀態(tài),展現(xiàn)用戶最后認(rèn)證失敗原因、最后下線原因、級(jí)聯(lián)設(shè)備及端口信息、用戶上網(wǎng)記錄、用戶客戶端測(cè)試結(jié)果、用戶歷史故障等信息,根據(jù)系統(tǒng)給出的相關(guān)信息,方便維護(hù)人員快速定位故障并響應(yīng)處理。故障級(jí)聯(lián)見圖4。
1)從用戶的角度提升服務(wù):通過對(duì)異常掉線、用戶端口性能、寬帶認(rèn)證性能、網(wǎng)絡(luò)傳輸狀態(tài)、用戶感知性能等指標(biāo)的統(tǒng)計(jì)分析,可以建立對(duì)應(yīng)的質(zhì)量指標(biāo)考核體系和優(yōu)化辦法,從而實(shí)現(xiàn)對(duì)寬帶服務(wù)質(zhì)量的閉環(huán)管理;
2)從經(jīng)營的高度管理用戶:系統(tǒng)可以提供對(duì)每個(gè)用戶的網(wǎng)內(nèi)網(wǎng)外流量統(tǒng)計(jì)分析,進(jìn)而實(shí)現(xiàn)每個(gè)用戶流量成本的計(jì)算,為用戶評(píng)估和差異管理提供決策依據(jù);
3)從端口的粒度細(xì)化運(yùn)維:通過對(duì)ONU端口與用戶賬號(hào)的動(dòng)態(tài)關(guān)聯(lián)處理,可實(shí)現(xiàn)從用戶角度對(duì)每個(gè)指標(biāo)的查詢統(tǒng)計(jì),對(duì)用戶投訴與故障便于分析管理。
系統(tǒng)的應(yīng)用重點(diǎn)對(duì)互聯(lián)網(wǎng)運(yùn)維中如下幾個(gè)方面工作產(chǎn)生了較好的提升作用:
1)薄弱環(huán)節(jié)提前發(fā)現(xiàn),建立提前預(yù)警以及集中整改機(jī)制,有效降低萬投比(每月每萬收費(fèi)用戶中的投訴數(shù)量);
2)提升接入層資源的精細(xì)化管理,提高設(shè)備利用率,為新增采購提供指導(dǎo);
3)駐地網(wǎng)裝機(jī)質(zhì)量第一時(shí)間自動(dòng)分析,可在業(yè)務(wù)正式開通前完成不達(dá)標(biāo)整改。