(貴州移動,貴州 貴陽 550000)
在運營商故障監(jiān)控工作中,集中故障系統(tǒng)產(chǎn)生的OLT 退服告警對寬帶業(yè)務(wù)影響范圍、家寬實際影響用戶數(shù)一直是家寬業(yè)務(wù)關(guān)聯(lián)影響的重要環(huán)節(jié),明確OLT 退服影響是告警監(jiān)控重要的目標(biāo);而OLT 退服業(yè)務(wù)影響所造成的用戶投訴、投訴與退服的關(guān)聯(lián)分析工作也是監(jiān)控任務(wù)的重中之重。當(dāng)前,僅通過故障告警等粗放式故障分析模式使運維人員無法有效進行OLT 退服精確故障分析,OLT 故障無法快速有效解決,導(dǎo)致用戶投訴率高居不下,在投入大量運維工作但用戶滿意度仍未改善。
基于上述問題,究其原因是沒有一種切實有效的技術(shù)對OLT 業(yè)務(wù)退服影響范圍、影響用戶等關(guān)鍵指標(biāo)深入分析并指導(dǎo)運維工作。本文提出一種基于家寬網(wǎng)絡(luò)故障與業(yè)務(wù)精準(zhǔn)關(guān)聯(lián)技術(shù),當(dāng)OLT 退服故障發(fā)生時,通過獲取OLT 在線用戶數(shù)及其跌落關(guān)系信息,準(zhǔn)確判斷OLT退服后的業(yè)務(wù)影響,然后進行分層分級故障處理調(diào)度,盡可能縮減影響面積大的故障處理時長;并通過故障與投訴工單關(guān)聯(lián)算法準(zhǔn)確匹配到投訴客戶實施投訴關(guān)懷業(yè)務(wù),最終達(dá)到快速定位解決故障、減少用戶投訴及提升用戶滿意度的目的。
基于家寬網(wǎng)絡(luò)故障與業(yè)務(wù)精準(zhǔn)關(guān)聯(lián)技術(shù)實現(xiàn)分為三個階段來實現(xiàn)OLT 退服故障影響范圍分析、影響用戶數(shù)分析、分析結(jié)果的實施應(yīng)用,其組成如圖1所示。
圖1 家寬網(wǎng)絡(luò)故障與業(yè)務(wù)精準(zhǔn)關(guān)聯(lián)技術(shù)實現(xiàn)階段及步驟
該階段主要是完成OLT 退服影響范圍、影響用戶數(shù)等基礎(chǔ)數(shù)據(jù)支撐的改造,該階段可劃分為四個步驟:
步驟一:首先進行OLT/BAS 設(shè)備PPPoE+改造,通過在OLT 設(shè)備上部署PPPoE+,同時從Radius/3A 中得到的CID(用戶關(guān)聯(lián))信息進行用戶賬號與BRAS 及接入部分?jǐn)?shù)據(jù)分析,包括用戶賬號與類型,帶寬,BRAS名稱與IP,BRAS 端口,OLTIP,PON 口,ONU 的SN或LOID,及業(yè)務(wù)的內(nèi)外層VLAN 等,該環(huán)節(jié)主要用于對底層關(guān)鍵數(shù)據(jù)獲取的改造。
步驟二:增加Radius 系統(tǒng)用戶位置信息存儲,在OLT 退服告警發(fā)生前和發(fā)生后一段時間內(nèi),Radius 一直都存有實時的OLT 在線用戶數(shù);Radius 系統(tǒng)將OLT 實時在線用戶數(shù)存儲后推送至集中監(jiān)控系統(tǒng),當(dāng)OLT 退服告警發(fā)生時,集中監(jiān)控系統(tǒng)可通過OLT 告警退服前后一定范圍周期內(nèi)的用戶數(shù)變化情況來確認(rèn)影響范圍,其判斷流程如圖2所示。
圖2 OLT在線用戶文件定時推送接口
步驟三:增加集中故障至Radius 系統(tǒng)用戶信息查詢接口,通過在監(jiān)控流程中新增Radius 系統(tǒng)OLT 在線用戶查詢接口,可在OLT 發(fā)出告警時調(diào)用該接口,確認(rèn)OLT 上是否還存在使用用戶,進而確定OLT 的退服告警是系統(tǒng)中斷還是業(yè)務(wù)中斷。
圖3 OLT退服時OLT在線用戶查詢接口
基礎(chǔ)數(shù)據(jù)及接口改造階段完成后數(shù)據(jù)交互流程如圖3所示。
步驟四:集中故障用戶信息查詢改造,當(dāng)OLT 發(fā)生退服后,Radius 系統(tǒng)上的用戶數(shù)會在較短時間內(nèi)掉完;為避免過早查詢Radius 系統(tǒng)用戶因未完全掉線而影響分析效果,集中監(jiān)控系統(tǒng)將在收到OLT 退服告警后,根據(jù)告警發(fā)生時間延時閾值后再進行查詢(如:延時5min);同時增加Radius 主動告警接口,該接口采用“OLT 用戶跌落閾值算法”,通過判斷OLT 在線用戶數(shù)小于OLT 存量在線用戶數(shù)的20%時,發(fā)送告警至集中故障管理平臺,算法判斷規(guī)則如下:
(1)告警規(guī)則:OLT 在線用戶數(shù)小于OLT 存量在線用戶數(shù)的20%時(表示該OLT 在線用戶數(shù)相距上一個5min 用戶數(shù)下降80%),則會觸發(fā)OLT 在線用戶告警消息發(fā)送至數(shù)據(jù)網(wǎng)管,并將該OLT 標(biāo)識為告警狀態(tài),如果OLT 正處于告警狀態(tài)下又觸發(fā)告警,則不會將該告警發(fā)給集中故障管理平臺。
(2)解除告警規(guī)則:當(dāng)OLT 在線用戶數(shù)大于OLT存量在線用戶數(shù)的80%時,且OLT 處于告警狀態(tài)時,則會觸發(fā)解除告警消息發(fā)送至數(shù)據(jù)網(wǎng)管,同時將該OLT標(biāo)識為正常狀態(tài);當(dāng)OLT 正處于正常狀態(tài)又觸發(fā)解除告警消息時,則不會觸發(fā)解除告警消息發(fā)送至數(shù)據(jù)網(wǎng)管。
通過Radius 系統(tǒng)新增OLT 查詢接口與Radius 主動告警接口,可以多方面準(zhǔn)確定位OLT 故障。其結(jié)果如圖4所示。
圖4 用戶掉線分析結(jié)果
該階段主要根據(jù)故障和業(yè)務(wù)關(guān)聯(lián)結(jié)果進行業(yè)務(wù)的呈現(xiàn),并根據(jù)“業(yè)務(wù)影響判斷算法”判斷后進行分層分級調(diào)度,該階段可劃分為兩個步驟:
步驟五:通過OLT 退服后在線用戶數(shù)的獲取,準(zhǔn)確地判斷了OLT 退服后的業(yè)務(wù)影響;其業(yè)務(wù)影響采用了“業(yè)務(wù)影響判斷算法”,該業(yè)務(wù)算法規(guī)則為:前10min 用戶數(shù)均大于某個閾值(如:5個用戶),且后10min 用戶數(shù)為前10min 用戶數(shù)20%,則判斷該告警存在業(yè)務(wù)影響。獲取的數(shù)據(jù)已在省端家客場景中呈現(xiàn)監(jiān)控如圖5所示。
圖5 故障與業(yè)務(wù)關(guān)聯(lián)呈現(xiàn)界面
步驟六:分層分級故障處理調(diào)度。通過OLT 故障后在線用戶數(shù)的獲取,準(zhǔn)確的判斷了OLT 退服后的業(yè)務(wù)影響;并將業(yè)務(wù)影響范圍推送電子運維平臺,對OLT 故障進行分層分級處理調(diào)度,盡可能縮減影響面積大的故障處理時長,提高用戶滿意度。
業(yè)務(wù)影響與投訴關(guān)懷應(yīng)用,該階段在完成業(yè)務(wù)精確關(guān)聯(lián)的基礎(chǔ)上,將于投訴信息進行關(guān)聯(lián),該階段可劃分為兩個步驟:
步驟七:OLT 退服后,當(dāng)確認(rèn)OLT 退服時間點對業(yè)務(wù)有影響,且得到全部用戶賬號的明細(xì);但產(chǎn)生用戶的投訴一般會有延時,確認(rèn)OLT 退服時間點后,統(tǒng)計1h內(nèi)(按用戶賬號明細(xì))產(chǎn)生了相應(yīng)投訴工單的記錄總數(shù),以及統(tǒng)計相應(yīng)時段的投訴占比;并采用“用戶投訴短信關(guān)懷算法”進行用戶短信關(guān)懷,該算法具體如下:
(1)當(dāng)產(chǎn)生OLT 退服告警時,通過OLT 退服的業(yè)務(wù)影響算法判斷業(yè)務(wù)影響范圍后,涉及業(yè)務(wù)影響范圍的OLT 退服告警再與對應(yīng)的家寬系統(tǒng)提供的OLT 用戶小區(qū)關(guān)聯(lián)關(guān)系表進行匹配,獲取到影響的用戶明細(xì)。
(2)最后利用上述的影響用戶明細(xì)與投訴數(shù)據(jù)進行匹配,確認(rèn)是否存在投訴用戶;如果有則進行標(biāo)記,并通知家寬側(cè)進行用戶關(guān)懷的短信提醒;減少用戶重復(fù)投訴的概率。具體流程如圖6所示。
圖6 業(yè)務(wù)影響與投訴關(guān)懷業(yè)務(wù)處理流程
步驟八:家寬業(yè)務(wù)投訴故障協(xié)查。通過OLT 退服后在線用戶數(shù)的獲取,準(zhǔn)確的判斷了OLT 退服后的業(yè)務(wù)影響;當(dāng)產(chǎn)生用戶投訴時,可以查詢投訴的用戶賬號,通過寬帶用戶到MB 全路徑信息的寬表,及展示寬帶業(yè)務(wù)路徑拓樸和故障點信息,進行用戶投訴原因的協(xié)助定位;同時可通過ONU 在線用戶的光功率查詢及PON 口狀態(tài)性能等查詢,協(xié)助展示實時用戶寬帶使用情況。故障協(xié)查結(jié)果如圖7所示。
圖7 家寬業(yè)務(wù)投訴故障協(xié)查實現(xiàn)結(jié)果
結(jié)合實際中的使用,基于家寬網(wǎng)絡(luò)故障與業(yè)務(wù)精準(zhǔn)關(guān)聯(lián)技術(shù)具有如下三個創(chuàng)新點:
(1)通過Radius 系統(tǒng)中“OLT 在線用戶數(shù)”這個關(guān)鍵參數(shù),將故障與OLT 業(yè)務(wù)關(guān)聯(lián)起來:一是通過OLT在線用戶定時推送接口和OLT 故障告警用戶查詢接口,能夠明確每個現(xiàn)網(wǎng)故障的影響業(yè)務(wù)范圍和業(yè)務(wù)中斷情況;二是增加OLT 用戶查詢時延機制:為避免查詢時Radius 系統(tǒng)故障OLT 設(shè)備用戶未完全掉線而影響分析結(jié)果,該技術(shù)增加OLT 用戶查詢時延機制,即集中監(jiān)控系統(tǒng)在收到告警后,根據(jù)告警發(fā)生時間在經(jīng)歷延時閾值后再進行查詢(如:延時5min),從而使分析結(jié)果更準(zhǔn)確;三是根據(jù)故障與業(yè)務(wù)關(guān)聯(lián)分析結(jié)果,通過對故障分層分級調(diào)度處理,優(yōu)先處理業(yè)務(wù)影響范圍大的故障,實現(xiàn)用戶滿意度的提升。
(2)通過判斷OLT 退服后的業(yè)務(wù)影響用戶明細(xì)后,如果影響用戶明細(xì)中存在以往有投訴歷史的用戶,使用“用戶投訴短信關(guān)懷算法”,通過提前發(fā)送故障影響通知短信,進行用戶關(guān)懷提醒,減少用戶再次投訴機率,提高用戶滿意度。
(3)采用“OLT 用戶跌落閾值算法”,可以與其他接口多方面準(zhǔn)確定位OLT 故障。
采用基于家寬網(wǎng)絡(luò)故障與業(yè)務(wù)精準(zhǔn)關(guān)聯(lián)技術(shù)應(yīng)用后,取得成效如下:
(1)業(yè)務(wù)影響關(guān)聯(lián)準(zhǔn)確度極大提升:通過OLT 退服后在線用戶數(shù)的獲取,準(zhǔn)確的判斷了OLT 退服后的業(yè)務(wù)影響,為家寬告警監(jiān)控提供了有效支撐。PON 網(wǎng)絡(luò)業(yè)務(wù)中OLT 退服告警對業(yè)務(wù)影響的判斷準(zhǔn)確率由改造前的63%提高至改造后的97%,明確了業(yè)務(wù)影響范圍與影響的用戶明細(xì),也為寬帶用戶業(yè)務(wù)投訴提供業(yè)務(wù)判斷的依據(jù)。
(2)用戶故障原因定位更精確:當(dāng)產(chǎn)生用戶投訴時,可以查詢投訴的用戶賬號,通過寬帶用戶到MB 全路徑信息的寬表,及展示寬帶業(yè)務(wù)路徑拓?fù)浜凸收宵c信息,進行用戶投訴原因的協(xié)助定位;同時可通過ONU 在線用戶的光功率查詢及PON 口狀態(tài)性能等查詢,協(xié)助展示實時用戶寬帶使用情況。
(3)降低用戶重復(fù)投訴率:用戶重復(fù)投訴率由改造前的73%下降至改造后36%,該技術(shù)實施后極大減少用戶重復(fù)投訴概率。