文/陳彧嫻,中國聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司
LTE IP承載網(wǎng)質(zhì)量監(jiān)控體系建立探討
文/陳彧嫻,中國聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司
隨著LTE到來,我們已經(jīng)邁進(jìn)了4G時代,目前XX本地承載網(wǎng)已完成LTE網(wǎng)絡(luò)承載的部署,本文在分析LTE IP承載網(wǎng)現(xiàn)狀及監(jiān)控存在問題的基礎(chǔ)上,論述了IP承載網(wǎng)網(wǎng)絡(luò)質(zhì)量監(jiān)控需求、IP承載網(wǎng)網(wǎng)絡(luò)監(jiān)控系統(tǒng)應(yīng)用與維護(hù)部署。
承載網(wǎng);LTE;網(wǎng)絡(luò)質(zhì)量;質(zhì)量監(jiān)控
網(wǎng)絡(luò)質(zhì)量監(jiān)控體系主要面向IP網(wǎng)絡(luò)的網(wǎng)絡(luò)質(zhì)量監(jiān)控,可有效地運用于多廠商設(shè)備構(gòu)成的復(fù)雜網(wǎng)絡(luò)環(huán)境。IP網(wǎng)絡(luò)管理者通過探針測試服務(wù)器提供測試樣例,根據(jù)拓?fù)浣Y(jié)構(gòu)和測試需求部署網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng),可不間斷地進(jìn)行IP網(wǎng)絡(luò)性能監(jiān)測,并對存在的性能問題做深度的故障檢測??赏ㄟ^網(wǎng)絡(luò)質(zhì)量監(jiān)測系統(tǒng)提取的網(wǎng)絡(luò)各條鏈路的性能數(shù)據(jù)形成IP網(wǎng)絡(luò)性能和質(zhì)量報表,使網(wǎng)絡(luò)運營者能實時地掌握IP網(wǎng)絡(luò)的性能和發(fā)展趨勢,并為網(wǎng)絡(luò)規(guī)劃和業(yè)務(wù)擴(kuò)展提供客觀依據(jù)[1]。
本文結(jié)合現(xiàn)網(wǎng)監(jiān)控的實際情況,提出利用探針系統(tǒng)結(jié)合網(wǎng)管系統(tǒng),做到實時、貼近用戶感知的質(zhì)量監(jiān)控。
IP承載網(wǎng)原來承載著2G/3G移動網(wǎng)絡(luò)的語音、數(shù)據(jù)及增值業(yè)務(wù)。IP承載網(wǎng)網(wǎng)絡(luò)性能質(zhì)量的優(yōu)劣,將直接影響著交換系統(tǒng)語音及移動數(shù)據(jù)業(yè)務(wù)的質(zhì)量,進(jìn)而影響到最終用戶的滿意度。
4G業(yè)務(wù)流程,LTE與3G的區(qū)別在于,取消了RNC,因此需要MME來判斷CS域與PS域的業(yè)務(wù)。CS域的業(yè)務(wù)需要CSFB技術(shù),回落到現(xiàn)網(wǎng)的MSC,MGW,PS域業(yè)務(wù)將流向S-GW,P-GW。這每一步的過程,都需要經(jīng)過承載網(wǎng)。而HSS、DRA、Ud接口的改造,都需要接通過承載網(wǎng)來承載。同時,隨著LTE的演進(jìn),IP承載網(wǎng)的接入需求越來越多,業(yè)務(wù)量也在不斷增長。
LTE網(wǎng)絡(luò)架構(gòu)主要由無線側(cè)和核心網(wǎng)側(cè)兩部分構(gòu)成。無線側(cè)eNodeB除具有原Node B功能外,還承擔(dān)RNC的大部分功能;核心網(wǎng)側(cè)主要包括4種功能實體:MME、SGW(Serving Gateway,服務(wù)網(wǎng)關(guān))、PGW(PDN Gateway,分組數(shù)據(jù)網(wǎng)網(wǎng)關(guān))和HSS(Home Subscrib?er Server,歸屬簽在承載時延需求方面,不僅要滿足LTE的呼通率、服務(wù)質(zhì)量以及S1邏輯連接的承載延時要求:2~20ms,而且要滿足用戶業(yè)務(wù)的小區(qū)切換需求以及X2連接的承載延時要求:10~20ms。LTE網(wǎng)絡(luò)除了頻率同步要求外,還需要時間同步,精度要求為±1.5μs。每個eN o d e B與核心網(wǎng)元之間接口為S1接口,包括:S1-U接口,連接e N o d e B和S GW,用于承載用戶面數(shù)據(jù);S1-MME接口,連接eNodeB和MME,用于承載控制面數(shù)據(jù)。LTE引入SGW-pool和MME-pool功能,單個基站的S1接口可以歸屬到多個MME、SGW。同時LTE引入X2接口,X2接口為相鄰eNodeB間的邏輯接口,支持UE在不同eNodeB間漫游時,業(yè)務(wù)流可以在eNo?deB間直接交換,降低轉(zhuǎn)發(fā)時延。
承載網(wǎng)就像一條條看不見的管道,連接著各個網(wǎng)元,各個系統(tǒng)。網(wǎng)絡(luò)質(zhì)量直接影響用戶感知,承載網(wǎng)的網(wǎng)絡(luò)質(zhì)量變得越來越重要。
而據(jù)統(tǒng)計,電信業(yè)務(wù)由承載網(wǎng)承載后,80%的大面積的嚴(yán)重業(yè)務(wù)異常均來自于承載網(wǎng)故障。因此對承載網(wǎng)網(wǎng)絡(luò)質(zhì)量監(jiān)控顯得越來越重要。關(guān)鍵在于做到以下三點:
(1)對IP承載網(wǎng)出現(xiàn)的故障做到預(yù)防性發(fā)現(xiàn)。要在造成嚴(yán)重通信中斷或故障前發(fā)現(xiàn)并排除故障,對承載MGW、MSC Server、MME、HSS、SGW、PGW的IP承載網(wǎng)鏈路必須進(jìn)行嚴(yán)密監(jiān)控。
(2)對IP承載網(wǎng)網(wǎng)絡(luò)性能及可能發(fā)生的性能下降進(jìn)行不間斷的監(jiān)控。IP承載網(wǎng)的性能下降,特別是時延、丟包、抖動指標(biāo)的變化,將會造成用戶語音質(zhì)量下降或瞬斷,是語音IP化后的重點監(jiān)控目標(biāo)。一旦發(fā)現(xiàn)承載網(wǎng)質(zhì)量下降,需立刻定位故障點并予以排除。
(3)提高IP承載網(wǎng)故障定位和檢測速度。軟交換網(wǎng)絡(luò)的大容量特點,決定了IP承載網(wǎng)故障會對業(yè)務(wù)成大面積的影響,因此故障定位速度對解決問題的及時性至關(guān)重要。
由于承載網(wǎng)使用的是固定的路由器,沒有配套的廠家的監(jiān)控終端,主要依賴專業(yè)的網(wǎng)管廠家開發(fā)網(wǎng)管接口,實時采集設(shè)備的信息對設(shè)備進(jìn)行監(jiān)控。因此存在以下問題:
目前網(wǎng)絡(luò)硬件故障的發(fā)現(xiàn)只能通過在設(shè)備上show,或者由設(shè)備廠商給網(wǎng)管系統(tǒng)開發(fā)商提供的MIB,由網(wǎng)管系統(tǒng)讀取日志通過MIB來解析而呈現(xiàn),有些告警無法呈現(xiàn),并且在發(fā)生了故障之后才發(fā)現(xiàn)漏洞。據(jù)統(tǒng)計,IP路由器48%的硬件故障告警無法呈現(xiàn),
軟交換SCTP信令檢測機(jī)制中斷13.50 s會影響業(yè)務(wù),低于13.50 s閃斷連續(xù)出現(xiàn)將造成接通率下降,當(dāng)丟包率為2%~7%時承載網(wǎng)網(wǎng)管系統(tǒng)未能檢測異常,而業(yè)務(wù)側(cè)M3UA連接已中斷或擁塞。目前是依靠網(wǎng)絡(luò)本身的BFD機(jī)制進(jìn)行智能倒換。
傳輸造成的丟包,路由器設(shè)備端無告警設(shè)備故障導(dǎo)致的丟包,設(shè)備無告警綜合網(wǎng)管系統(tǒng)只涉及設(shè)備級管理,網(wǎng)絡(luò)時延、丟包及抖動等網(wǎng)絡(luò)性能和業(yè)務(wù)性能無有效的監(jiān)控手段,小包的丟包依靠設(shè)備上部署的BFD,但是大包丟包暫時無法檢測。
IP網(wǎng)絡(luò)的靈活路由使得業(yè)務(wù)路徑不可見,IP網(wǎng)絡(luò)故障點難以準(zhǔn)確定位。故障涉及核心網(wǎng)、承載網(wǎng)、傳輸?shù)葘I(yè),處理故障時需高度的全程全網(wǎng)組織才能及時完成搶通,在沒有明確故障提示和整網(wǎng)性能狀態(tài)不可見的情況下,只能通過逐點PING、Traceroute、查看日志、抓包、嘗試倒換等人工操作來進(jìn)行故障處理。
互聯(lián)鏈路多,如果以人工手段去ping測,ping測到每條鏈路的間隔較長,不利于主動發(fā)現(xiàn)故障。也無法實時監(jiān)控到。
基于LTE對網(wǎng)絡(luò)承載的高要求,以及激烈的市場競爭的挑戰(zhàn),必須建立一套完善的質(zhì)量監(jiān)控體系,提高用戶感知。下文對質(zhì)量監(jiān)控體系提出設(shè)想。IP承載網(wǎng)質(zhì)量監(jiān)測系統(tǒng)架構(gòu)IP承載網(wǎng)網(wǎng)絡(luò)質(zhì)量監(jiān)控體系架構(gòu)圖如下:由服務(wù)器、測試探針分別下掛在CS域和PS域網(wǎng)絡(luò)設(shè)備下,定時以點對點方式對網(wǎng)絡(luò)設(shè)備進(jìn)行測試。示意見圖1。
由上圖所示,在網(wǎng)絡(luò)中部署探針,一方面對整個IP承載網(wǎng)基礎(chǔ)網(wǎng)絡(luò)性能和故障進(jìn)行端到端的7×24小時監(jiān)測,另一方面采用仿真測試手段,對IP承載網(wǎng)各類信令及媒體流量、分組數(shù)據(jù)流量進(jìn)行仿真,模擬用戶體驗,以幫助維護(hù)人員對故障位置、嚴(yán)重性及層面進(jìn)行快速定位和分析。包括以下基本功能:
(1)PING性能。實時監(jiān)測任意2個測試代理節(jié)點間的PING業(yè)務(wù)性能(包括時延、丟包率、吞吐量及抖動情況)。當(dāng)時延、丟包率、吞吐量及抖動達(dá)到一定閾值時將產(chǎn)生告警,并傳送到相應(yīng)的網(wǎng)管平臺。
(2)網(wǎng)絡(luò)吞吐量。實時監(jiān)測任意2個測試代理節(jié)點間的網(wǎng)絡(luò)吞吐量。當(dāng)吞吐量達(dá)到一定閾值時將產(chǎn)生告警,并傳送到相應(yīng)的網(wǎng)管平臺。
(3)網(wǎng)絡(luò)抖動。實時監(jiān)測任意2個測試代理節(jié)點間的網(wǎng)絡(luò)抖動。當(dāng)網(wǎng)絡(luò)抖動達(dá)到一定閾值時將產(chǎn)生告警,并傳送到相應(yīng)的網(wǎng)管平臺。
(4)多協(xié)議路由跟蹤。支持TCP、UDP及ICMP等多協(xié)議路由跟蹤,測試任意2個網(wǎng)絡(luò)節(jié)點間的丟包率、時延、吞吐量及抖動等。
(5)度量指標(biāo)標(biāo)準(zhǔn)化。各種協(xié)議測試測量指標(biāo)(包括時延、丟包率、吞吐量及抖動等)
(6)仿真樣例可編輯。由于業(yè)務(wù)的種類日新月異,仿真的樣例需要根據(jù)業(yè)務(wù)的種類進(jìn)行實時的調(diào)整[2]。
在探針和服務(wù)器以及網(wǎng)管系統(tǒng)能夠?qū)崿F(xiàn)端到端業(yè)務(wù)監(jiān)控功能之后,更需要的完善的維護(hù)體系對出現(xiàn)的問題出現(xiàn)及時的處理。因此,需要有配套的網(wǎng)管系統(tǒng)。配套的網(wǎng)管系統(tǒng)對監(jiān)控系統(tǒng)所監(jiān)控到的問題進(jìn)行及時處理。系統(tǒng)與監(jiān)控人員聯(lián)動如圖2.
圖2 系統(tǒng)與運維聯(lián)動圖
由上圖所示,網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng),主要是利用所部署的探針對業(yè)務(wù)進(jìn)行實時端到端監(jiān)控,同時將信息匯總上報到承載網(wǎng)網(wǎng)管系統(tǒng),后臺運維監(jiān)控人員根據(jù)承載網(wǎng)網(wǎng)管系統(tǒng)的信息進(jìn)行處理。
將網(wǎng)絡(luò)質(zhì)量監(jiān)控與實時監(jiān)控進(jìn)行聯(lián)合,以便及時發(fā)現(xiàn)問題,避免由于監(jiān)控手段的不足,造成業(yè)務(wù)中斷卻無法及時發(fā)現(xiàn),無法快速響應(yīng)的情況出現(xiàn)。提高響應(yīng)速度有利于客戶滿意度的提升,雖然承載網(wǎng)只是一個中間的傳輸通道,但是這也是一個重要的、影響網(wǎng)絡(luò)質(zhì)量的通道,從用戶角度出發(fā),從業(yè)務(wù)的實際出發(fā),來研究如何保證網(wǎng)絡(luò)質(zhì)量、提高維護(hù)和服務(wù)水平,是我們需要在實踐中不斷總結(jié)和思考的問題。
[1]劉令凱.IP網(wǎng)絡(luò)質(zhì)量監(jiān)測系統(tǒng)在網(wǎng)絡(luò)中的應(yīng)用.
[2]張連營,翁頤,陳仲華.IP網(wǎng)絡(luò)質(zhì)量檢測方法分析.