韓茹 程東 劉昊
(諾基亞通信技術(shù)(北京)有限公司浙江分公司 浙江省杭州市 310020)
5G 網(wǎng)絡(luò)的智能化、虛擬化程度遠(yuǎn)高于4G。尤其是云網(wǎng)融合、網(wǎng)隨云動、DC 下沉,使傳統(tǒng)移動網(wǎng)絡(luò)的無線網(wǎng)、承載網(wǎng)、核心網(wǎng)之間的邊界越來越模糊,在5G 云網(wǎng)融合的背景下,網(wǎng)絡(luò)邊界的模糊化使得分專業(yè)運(yùn)維的難度越來越高,迫切需要網(wǎng)絡(luò)一體化的診斷方法。
為此,我們基于運(yùn)營商現(xiàn)場的一體化診斷案例與經(jīng)驗(yàn),從資源聯(lián)動、告警聯(lián)動、性能聯(lián)動多個(gè)維度梳理了智能聯(lián)動、融合運(yùn)維的方法,最終建立起5G 云網(wǎng)融合的網(wǎng)絡(luò)一體化診斷方法。
5G 云網(wǎng)融合下的網(wǎng)絡(luò)一體化診斷方法,主要從資源聯(lián)動、告警聯(lián)動、性能聯(lián)動三個(gè)維度來實(shí)現(xiàn)。
承載網(wǎng)在整個(gè)5G 網(wǎng)絡(luò)中起到了承上啟下的作用,由于核心網(wǎng)側(cè)的DC 數(shù)量較少,基于5GC CE 和ASBR 設(shè)備可以很容易地建立起“承載網(wǎng)-核心網(wǎng)”的資源樹,因此5G 網(wǎng)絡(luò)的資源聯(lián)動難點(diǎn)主要體現(xiàn)在“無線網(wǎng)-承載網(wǎng)”這一段。
根據(jù)5G 承載網(wǎng)PW+L3VPN 組網(wǎng)策略,通過在A 設(shè)備和B 設(shè)備上采集相關(guān)的端口、PW、VRF 信息,可以自動判斷出每個(gè)A 設(shè)備下掛的基站設(shè)備IP 地址。
判定承載網(wǎng)與基站的資源聯(lián)動關(guān)系的算法為:同時(shí)滿足以下幾個(gè)條件時(shí),對應(yīng)的子接口下掛的即為基站業(yè)務(wù)。
(1)接入PW 終結(jié)在B 設(shè)備的2 層子接口上;
(2)3 層子接口上的VRF 為“CDMA-RAN”;
(3)GW 的IP 地址+1 即為基站的IP 地址;
(4)通過IP relay address 來判斷基站業(yè)務(wù)類型是5G NSA 還是5G SA。
1.2.1 告警采集方法
網(wǎng)管軟件采集網(wǎng)元告警的方法有多種,包括:
(1)SNMP Trap:由網(wǎng)元實(shí)時(shí)上報(bào),在5 秒內(nèi)完成告警的收集和處理;
(2)SNMP Get:由網(wǎng)管系統(tǒng)定時(shí)輪詢設(shè)備狀態(tài),輪詢周期一般設(shè)置為5 分鐘;
(3)Streaming Telemetry(流遙測技術(shù)):是一項(xiàng)從物理設(shè)備或虛擬設(shè)備上遠(yuǎn)程高速采集數(shù)據(jù)的網(wǎng)絡(luò)監(jiān)控技術(shù),可以支持毫秒級的數(shù)據(jù)采集能力,支持基于訂閱的推送模式(PushMode)主動向采集器推送數(shù)據(jù)信息,提供更實(shí)時(shí)、更高速、更精確的網(wǎng)絡(luò)監(jiān)控功能。
(4)閾值告警:由性能指標(biāo)超過一定閾值后產(chǎn)生的告警,如CPU 利用率告警、光功率異常告警等。
1.2.2 告警歸一化處理
系統(tǒng)將按照統(tǒng)一的告警模型,對采集到的告警數(shù)據(jù)進(jìn)行歸一化處理。
1.2.3 告警聯(lián)動處理
在5G 組網(wǎng)中,承載網(wǎng)絡(luò)承上啟下,對接包括5G 基站gNB、邊緣網(wǎng)關(guān)MEC、下沉的DC 節(jié)點(diǎn)、核心網(wǎng)5GC、入云業(yè)務(wù)的云資源池等。無論是對接哪類設(shè)備,都需要進(jìn)行告警的聯(lián)動處理。
承載網(wǎng)側(cè)網(wǎng)管將對圖中涉及到的設(shè)備都進(jìn)行設(shè)備告警、鏈路告警、協(xié)議告警、其他告警的監(jiān)測與聯(lián)動處理。通過接入與業(yè)務(wù)通斷、性能相關(guān)的告警,按照告警協(xié)同定位來定位業(yè)務(wù)異常根因點(diǎn)。當(dāng)業(yè)務(wù)故障或性能異常后,有些可通過顯性告警直接定位根因,例如設(shè)備掉電等;而有些則需通過告警逐級判定,例如鏈路正常但OSPF鄰居狀態(tài)異常等。
1.3.1 性能數(shù)據(jù)采集與聯(lián)動
承載網(wǎng)管通過SNMP 協(xié)議每5 分鐘采集一次全網(wǎng)所有A 設(shè)備、B設(shè)備的每個(gè)接口的流量,計(jì)算出相應(yīng)的5分鐘接收速率、發(fā)送速率,并按照基站業(yè)務(wù)自動發(fā)現(xiàn)的資源聯(lián)動信息,得到每個(gè)基站的5 分鐘接收流量、發(fā)送流量及總流量。
根據(jù)每個(gè)基站的IP 地址,承載網(wǎng)管可以匹配到該基站對應(yīng)的ID、名稱、經(jīng)度、緯度信息,從而通過GIS API 進(jìn)行分圖層的獨(dú)立值專題圖方式呈現(xiàn),按照基站的流量進(jìn)行分等級設(shè)置,不同級別以不同的顏色表示。如圖1 所示。
1.3.2 性能測量聯(lián)動
網(wǎng)絡(luò)的隱性問題,還可以通過性能測量來實(shí)現(xiàn)聯(lián)動與定位,如網(wǎng)絡(luò)的端到端Ping 測、基于RFC2544 的性能測量、Y.1731 測量等。
(1)端到端Ping 測:周期性對業(yè)務(wù)進(jìn)行PW 全程PING 操作,初步統(tǒng)計(jì)分析業(yè)務(wù)性能指標(biāo)。
(2)基于RFC2544 的性能測量:對于客戶業(yè)務(wù)性能異常,而無法判定原因,此類狀況可剝離客戶側(cè)設(shè)備及網(wǎng)絡(luò),再通過RFC2544 協(xié)議實(shí)時(shí)的對網(wǎng)絡(luò)端到端性能進(jìn)行探測及統(tǒng)計(jì),包含吞吐量、丟包率、時(shí)延及抖動等性能指標(biāo)。可用于判定網(wǎng)絡(luò)側(cè)或客戶側(cè)性能故障點(diǎn)。
(3)Y.1731 測量:自動/手動方式進(jìn)行測量,測量方式基于Y.1731 協(xié)議(對業(yè)務(wù)運(yùn)行無影響),分析端到端時(shí)延、丟幀率等性能指標(biāo)。
在上述的網(wǎng)絡(luò)一體化診斷方法中,最關(guān)鍵的幾項(xiàng)技術(shù)說明如下。
通過基站業(yè)務(wù)自動判定的方法,在不依賴其它系統(tǒng)平臺的情況下,直接由承載網(wǎng)管側(cè)發(fā)現(xiàn)每個(gè)A 設(shè)備下掛的基站IP、掛接的端口等信息,這也是在承載網(wǎng)管上實(shí)現(xiàn)無線網(wǎng)與承載網(wǎng)智能聯(lián)動的前提。
圖1:性能流量指標(biāo)的聯(lián)動GIS 呈現(xiàn)
A 設(shè)備、BB 對與基站的互動,是通過百度地圖的API 來實(shí)現(xiàn)的,但由于全省各類基站數(shù)量眾多,因此直接采用百度地圖的API 控件,會導(dǎo)致地圖在加載基站圖層后打開很慢(15s 左右),而且進(jìn)行地圖的操作會出現(xiàn)卡頓。因此對應(yīng)用做了優(yōu)化,包括:
2.2.1 批量入?yún)?yōu)化
百度地圖API 支持JSON 方式的入?yún)?,通過入?yún)⒌呐刻幚韮?yōu)化,在數(shù)據(jù)庫中直接轉(zhuǎn)換得到要求的JSON 方式,使百度地圖控件能夠批量處理,從而實(shí)現(xiàn)GIS 圖的加載時(shí)間在1s 左右。
2.2.2 多級動態(tài)合并
比如10 萬個(gè)基站同時(shí)作為一個(gè)圖層進(jìn)行顯示,則當(dāng)?shù)貓D縮小時(shí),基站圖層將完全覆蓋住底圖。因此,需要按照基站的實(shí)際經(jīng)緯度以及站間距,實(shí)現(xiàn)動態(tài)的基站圖標(biāo)合并。在不同的放大等級下,當(dāng)基站的站間距小于門限值時(shí),后臺會自動把這些基站合并為同一圖標(biāo),從而實(shí)現(xiàn)在不同的GIS 圖放大、縮小等級下,都能夠流暢地呈現(xiàn)基站位置、告警、流量等信息。
百度地圖自帶的API 在計(jì)算基站圖標(biāo)合并時(shí),速度較慢,這會導(dǎo)致GIS 操作時(shí)的響應(yīng)時(shí)間較長,采用多級動態(tài)合并技術(shù),由數(shù)據(jù)庫異步計(jì)算所有放大、縮小等級下全網(wǎng)基站的站間距以及圖標(biāo)的合并關(guān)系,當(dāng)在GIS 圖操作時(shí),響應(yīng)時(shí)間可以小于1s,從而解決了百度地圖API 在大數(shù)據(jù)量時(shí)處理能力不足的問題。
由于基站設(shè)備數(shù)量眾多,因此目前移動網(wǎng)網(wǎng)管只能提供最小粒度為小時(shí)的流量等性能指標(biāo)采集和統(tǒng)計(jì)能力。
根據(jù)無線網(wǎng)與承載網(wǎng)的智能聯(lián)動要求,需要實(shí)現(xiàn)基站流量5 分鐘粒度的采集和分析能力,為此我們采用Erlang 語言設(shè)計(jì)和開發(fā)了大規(guī)模分布式云采集服務(wù),可以同時(shí)通過云資源的集群分布調(diào)度數(shù)百萬的采集任務(wù)。
調(diào)度原理簡述為,所有的分布式采集Node(節(jié)點(diǎn))集群在一起組成一組Hash 環(huán)。每個(gè)采集任務(wù)由唯一的UUID 標(biāo)示,Master(主節(jié)點(diǎn))根據(jù)任務(wù)的UUID 作Hash 運(yùn)算,生成Key,然后在一組Hash 環(huán)中找到前置的Node(節(jié)點(diǎn)),將任務(wù)分配到該Node 進(jìn)行調(diào)度。
利用上述并發(fā)調(diào)度原理設(shè)計(jì)的框架,目前已經(jīng)實(shí)現(xiàn)每秒并發(fā)10000 個(gè)端口的采集和流量差值處理能力,按5 分鐘采集粒度,可以支持到全網(wǎng)300 萬端口。如果后續(xù)網(wǎng)絡(luò)設(shè)備數(shù)量增加,也可以通過相應(yīng)增加虛擬機(jī)采集服務(wù)器來擴(kuò)展。
根據(jù)上述資源聯(lián)動、告警聯(lián)動、性能聯(lián)動實(shí)現(xiàn)5G 云網(wǎng)融合下的網(wǎng)絡(luò)一體化診斷,不需要后端維護(hù)人員一直進(jìn)行值守和分析,只需在網(wǎng)絡(luò)出現(xiàn)異常后由系統(tǒng)自動通過短信、郵件等方式通知相關(guān)人員即可,這將有利于5G 業(yè)務(wù)大發(fā)展的背景下,進(jìn)行“能遠(yuǎn)程不現(xiàn)場、能自動不人工”的集約化運(yùn)維,也能夠顯著提升維護(hù)人員問題處理的工作效率和準(zhǔn)確率,從而提升5G 網(wǎng)絡(luò)的客戶滿意度。