楊士軍,于平蘋,謝紹富(中國聯通山東分公司,山東濟南 250101)
網絡KPI 直接關系著網絡質量和用戶感知,如何快速發(fā)現網絡指標異常波動并充分利用各方數據和經驗庫,高效對質差根因進行精準定位和及時處理是網絡維護和優(yōu)化人員一直面臨的挑戰(zhàn)。基于數據挖掘的5GC 網絡質差根因分析定位系統(tǒng)首先實時跟蹤5GC 和IMS 域的關鍵性能KPI,通過完善的算法及時發(fā)現質差指標,然后結合各類關聯數據進行聚類分析并匹配經驗庫完成根因定位,最后派發(fā)一線維護人員實施優(yōu)化。該系統(tǒng)可提高運營效率,是推動核心網數字化轉型工作落地的有效途徑。
首批確定指標及其定義如表1所示。
表1 關注指標及其定義
整個系統(tǒng)分為數據挖掘、KPI 異常檢測、關聯數據聚類分析、經驗庫匹配、與其他系統(tǒng)交互等模塊。不但實現指標波動告警、質差根因定位,而且與現網生產系統(tǒng)打通,全面實現告警派單和經驗庫優(yōu)化等全流程閉環(huán)管理。
質差根因分析系統(tǒng)整體設計邏輯如圖1 所示,所有數據均以網元為單位每15 min 提取分析,KPI 檢測規(guī)則支持靈活設置,檢測時間可分時段,時間粒度可以為15 min或1 h。
圖1 根因定位系統(tǒng)設計邏輯圖
2.2.1 數據采集入庫
數據源包括設備專業(yè)網管中原始性能統(tǒng)計數據,廠家專業(yè)工具(華為Discovery 等)中協議失敗原因、次數及用戶明細,端到端系統(tǒng)中的無線小區(qū)和IMEI等信息。如圖2 所示,定位系統(tǒng)通過專用接口完成這3 類數據的采集,然后解析入庫做進一步的匯總分析。
圖2 數據采集入庫
為便于后續(xù)及時精準分析,對采集入庫的數據有如下要求。
a)原始數據必須齊全:指標涉及嘗試、成功次數,各類原因失敗次數等原始統(tǒng)計項均需上報,以便對各統(tǒng)計項進行波動分析,可以有針對性地發(fā)現問題。
b)測量對象最小原則:網管上有關KPI 指標的測量對象齊全,并且細分統(tǒng)計到支持的最小粒度(如TAC),以便進行精準定位。
c)專業(yè)工具和端到端系統(tǒng)數據根據分析要求提供。
2.2.2 數據預處理
獲取到原始數據后的處理規(guī)則如下。
a)數據完整性檢查:如有網元、指標項統(tǒng)計數據缺失,系統(tǒng)會在告警界面發(fā)出告警。
b)異常數據剔除:該系統(tǒng)會刪除測量結果為0 的統(tǒng)計項。
2.2.3 操作網元數據處理
系統(tǒng)與網元操作登記或標工系統(tǒng)對接,獲取網元和操作時間,將操作時間段內對應網元的性能統(tǒng)計數據剔除,以免影響指標波動判斷。
2.2.4 KPI檢測參數
手動輸入用于指標檢測的閾值,如果該環(huán)節(jié)不輸入數據,則使用系統(tǒng)默認值,系統(tǒng)默認將表1中指標的檢測閾值設置為99%。
2.2.5 KPI檢測
KPI 檢測包括指標波動檢測和指標閾值檢測2 類規(guī)則,2類規(guī)則并行運行,均對單網元指標進行檢測。
2.2.5.1 指標波動檢測
假設當前需要檢測指標為Xt,取前31 天與Xt對應相同時段的KPI時序樣本,記為X=(x1,x2,x3,…,xn),如果前31 天數據不足,則按天向前順延,直到取到31 個樣本為止。
指標波動檢測采用3σ算法,具體算法步驟如下。
a)均值計算,均值μ=(X1+X2+…+Xn)/n。
b)標準差計算,標準差σ=sqrt{[(x1-μ)2+(x2-μ)2+......(xn-μ)2]/n}。
c)異常判斷,判斷規(guī)則如圖3所示。
圖3 3σ算法檢測規(guī)則
2.2.5.2 指標閾值檢測
根據A5環(huán)節(jié)輸入或系統(tǒng)默認值對指標進行檢測,低于閾值即判斷為異常。
2.2.6 符合檢測規(guī)則
只要在KPI 檢測的A6 或A7 環(huán)節(jié)(見圖1)被檢測出異常,都將進入聚類分析環(huán)節(jié),根據更多數據做進一步的分析和定位。
2.2.7 數據入庫
KPI 檢測正常和異常的數據都將做入庫處理,并且根據新入庫數據對之前告警做是否恢復的判斷。
a)正常指標入庫:A6、A7 環(huán)節(jié)未被檢測出異常,則入正常庫,作為X樣本在后續(xù)使用。入庫字段包括但不限于省、網絡類型、網元、時間、指標。
b)異常指標入庫:檢測出異常,則入異常庫,入庫字段包括但不限于省、網絡類型、網元、告警時間、指標、波動情況、統(tǒng)計子項波動情況。
c)前期告警恢復:如果某指標入正常庫,而異常庫中有該指標之前時間的異常告警,則生成之前異常告警的恢復告警,輸出字段包括省、網絡類型、網元、指標、告警時間、指標波動情況、恢復時間、恢復后指標值等。
2.2.8 聚類分析
針對某項指標從省分、網元和跟蹤區(qū)維度對各類失敗碼、失敗用戶/終端、無線區(qū)域涉及失敗次數進行占比分析,對各類失敗次數逐項與前7 個相同時段的平均值做比較,波動超過50%為異常。
通過多維度細化聚類分析和對比,實現質差問題定位。
2.2.9 經驗庫匹配
將原因明確或者經過回單驗證過的根因和處理方法逐一匯總到經驗庫,并通過智能算法對回單結果進行分析處理,不斷優(yōu)化更新經驗庫,經驗庫格式如表2所示,后續(xù)不斷補充完善。
表2 經驗庫格式
2.2.10 KPI異常波動告警處理
系統(tǒng)根據派單規(guī)則和根因定位情況,將KPI 指標異常的告警派發(fā)到相關單位/人員處理,攜帶信息主要包括網絡類型、網元名稱、KPI 名稱、時間、異常情況、波動子項信息、根因定位、建議處理步驟等。接單人進行KPI 異常波動告警工單處理,直至告警恢復。告警恢復后,總結處理步驟,按照固定格式回單。
2.2.11 更新經驗庫
系統(tǒng)支持根據回單結果對經驗庫中的根因定位進行更新,包括對指標檢測閾值進行調整優(yōu)化,不斷提升系統(tǒng)告警有效性和根因定位準確性。
a)經驗庫更新:系統(tǒng)根據關鍵字段對回單內容進行機器學習建模,自動分析學習回單內容,并輸出關鍵詞匯得到具體原因和處理步驟,并更新經驗庫。系統(tǒng)支持根據每次的回單內容及分詞結果評估情況進行自優(yōu)化。
b)如果KPI 屬于正常波動,則回單時提出算法更新和告警閾值參數設置調整建議。
該系統(tǒng)的優(yōu)勢如下。
a)根據自定義算法實現指標波動告警,支持全國指標排名波動告警。
b)根據TAI 歸屬對指標進行細化,實現地(市)和TAI 粒度指標統(tǒng)計。支持網元、用戶號碼、小區(qū)等多維度失敗次數統(tǒng)計分析,精準發(fā)現網絡中存在的局部問題,增強監(jiān)控靈敏度。
c)根據經驗庫實現網絡質差根因定位,精準高效支撐網絡優(yōu)化、提升。
該系統(tǒng)基于多維度對網絡指標中的失敗次數做波動分析,不但可以通過及時定位解決網元、無線區(qū)域甚至用戶/終端級別的問題來優(yōu)化指標,而且可以強化端網業(yè)匹配,提升網絡運營效能。
a)第一時間發(fā)現解決無線網絡和異常終端等問題。某省AMF 初始注冊成功率出現突降,從協議原因失敗次數上發(fā)現52+UE 無響應占比最高,無法進行根因定位,如圖4 所示,再從TAI 的維度做失敗次數排列,則可以看出TAI 4600133XXXX 明顯異常,該TAI下的失敗次數占到了總失敗次數的65%,其他TAI 變化不大,聯系網優(yōu)確認為該TAI無線擁塞引起。
圖4 協議原因失敗次數和TAI失敗次數排列圖
b)根據終端、無線區(qū)域用戶分布和指標情況加強端網業(yè)分析,指導建網和無線優(yōu)化。
基于數據挖掘的5GC 網絡質差根因分析定位系統(tǒng)給出了精準有效的指標波動預警算法,并通過對各類相關數據的聚類分析和派單等相關流程的設計,實現了KPI 異常波動的精準定位和快速處理,提升了網絡質量和用戶感知。后續(xù)在逐步完善優(yōu)化功能的基礎上,對其他網元指標進行迭代,不斷提升網絡數字化運營能力。