摘要:5G時(shí)代,萬(wàn)物互聯(lián),然而網(wǎng)絡(luò)中總會(huì)有一些意外,面對(duì)網(wǎng)絡(luò)暴雷,如何讓核心網(wǎng)信令風(fēng)暴的雪球越滾越小,從而達(dá)到自愈呢。本文以日本電信運(yùn)營(yíng)商KDDI網(wǎng)絡(luò)事故為引題,嘗試分析KDDI事故原因,找出網(wǎng)絡(luò)共性問題,進(jìn)而給出一種新的信令風(fēng)暴防控思路-立體協(xié)控;并舉例介紹實(shí)際效果,使信令風(fēng)暴得到有效預(yù)防,網(wǎng)絡(luò)安全得到保障。
關(guān)鍵詞:擁塞;信令風(fēng)暴;立體協(xié)控;智能終端
一、引言
隨著移動(dòng)無線網(wǎng)絡(luò)技術(shù)的發(fā)展,全球?qū)⑦~入5G時(shí)代,5G支持的增強(qiáng)移動(dòng)寬帶(eMBB)、海量連接(mMTC)和低時(shí)延高可靠連接(uRLLC)三大場(chǎng)景的部署和使用越來越多;電信網(wǎng)絡(luò)作為國(guó)家的基礎(chǔ)建設(shè),在日常生活中發(fā)揮著越來越重要的作用。然而由于3GPP協(xié)議的發(fā)展總是快于物理世界網(wǎng)絡(luò)的建設(shè),我們要面對(duì)的是一張2G/3G/4G/5G融合的網(wǎng)絡(luò),其網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)復(fù)雜程度都是空前的,一旦網(wǎng)絡(luò)有點(diǎn)風(fēng)吹草動(dòng),如果應(yīng)對(duì)不力或者不及時(shí),隨之而來的蝴蝶效應(yīng)就會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生巨大影響,會(huì)對(duì)網(wǎng)絡(luò)設(shè)備造成信令沖擊,導(dǎo)致設(shè)備過載、宕機(jī)甚至網(wǎng)絡(luò)癱瘓,影響終端用戶的業(yè)務(wù)體驗(yàn)和人們的生產(chǎn)生活。尤其是5G網(wǎng)絡(luò)對(duì)于各產(chǎn)業(yè)數(shù)字化升級(jí)的影響更為明顯。據(jù)工信部數(shù)據(jù)顯示[1],截至2022年5月末,三家基礎(chǔ)電信企業(yè)發(fā)展蜂窩物聯(lián)網(wǎng)終端用戶15.9億戶,比上年末凈增1.96億戶(如下圖1)。蜂窩物聯(lián)網(wǎng)終端用戶規(guī)模占移動(dòng)網(wǎng)終端連接數(shù)的比重已達(dá)49%,可見物聯(lián)網(wǎng)連接正在高速增長(zhǎng),很快將成為移動(dòng)通信網(wǎng)絡(luò)連接的主力。而這些物聯(lián)網(wǎng)連接大多分布于各行業(yè)應(yīng)用中,因而未來也將成為網(wǎng)絡(luò)故障造成負(fù)面影響的主要領(lǐng)域。在這一背景下,網(wǎng)絡(luò)的穩(wěn)定性和可靠性就顯得尤為重要。
根據(jù)C114資訊,日本KDDI運(yùn)營(yíng)商2022年共發(fā)生三次通信事故[2-4],其中2022年7月2日,KDDI的移動(dòng)通信服務(wù)在日本全國(guó)范圍內(nèi)發(fā)生故障(詳細(xì)事故過程可參考日本KDDI官網(wǎng)通報(bào)[5]),超過2018年的軟銀通信故障事件,成為日本史上最大規(guī)模的故障[2]。此次通信故障持續(xù)長(zhǎng)達(dá)61小時(shí)25分鐘,影響全國(guó)3915萬(wàn)終端用戶和26萬(wàn)企業(yè)用戶,包括電話、短信、上網(wǎng)、緊急呼叫系統(tǒng)、銀行系統(tǒng)、天氣數(shù)據(jù)的傳輸、包裹遞送和網(wǎng)絡(luò)連接運(yùn)輸?shù)热恐袛啵湓斐傻闹苯佑绊懭缦拢?/p>
股價(jià)下跌:4%(在緊接著的一周內(nèi));
市值損失:268M USD(原市值*股價(jià)下跌比例);
收入影響:42M USD(ARPU*中斷時(shí)長(zhǎng));
品牌影響:日本首相親自關(guān)注,全網(wǎng)負(fù)面報(bào)道。
二、信令風(fēng)暴定義及發(fā)生場(chǎng)景分析
(一)什么是信令風(fēng)暴
信令風(fēng)暴(signaling storm)[6],是指網(wǎng)絡(luò)收到的終端信令請(qǐng)求超過了網(wǎng)絡(luò)各項(xiàng)信令資源的處理能力,當(dāng)信令負(fù)荷達(dá)到系統(tǒng)極限時(shí),會(huì)導(dǎo)致終端接入網(wǎng)絡(luò)失敗,進(jìn)而又會(huì)引發(fā)終端的反復(fù)多次嘗試接入,大量的信令超過了系統(tǒng)處理能力,引發(fā)網(wǎng)絡(luò)擁塞并產(chǎn)生蝴蝶效應(yīng),導(dǎo)致網(wǎng)絡(luò)不可用,我們稱之為“信令風(fēng)暴”。
(二)為什么會(huì)產(chǎn)生信令風(fēng)暴
1.網(wǎng)絡(luò)規(guī)模和拓?fù)淇涨褒嫶?/p>
當(dāng)前是一個(gè)信息爆炸的年代,網(wǎng)絡(luò)也在隨著技術(shù)的日新月異而快速演進(jìn),5G SA網(wǎng)絡(luò)已經(jīng)成為網(wǎng)絡(luò)演進(jìn)目標(biāo),但運(yùn)營(yíng)商不可能拋棄已有的2G/3G/4G網(wǎng)絡(luò),所以當(dāng)前看到的是一個(gè)龐大而復(fù)雜的通信系統(tǒng)[7]。如圖2所示(3GPP網(wǎng)站公開信息)。
2.智能終端比例大幅增長(zhǎng)
智能手機(jī)成本不斷下降,功能不斷增強(qiáng),以及其天生的便攜性,使智能機(jī)已經(jīng)成為市場(chǎng)的主流。
3.數(shù)據(jù)業(yè)務(wù)大幅提升:
隨著智能機(jī)終端上涌現(xiàn)出大量應(yīng)用app,尤其是交互式、推送服務(wù)軟件,引發(fā)大量信令開銷。主要?dú)w結(jié)為以下幾種情況:
(1)頻繁的空口連接和尋呼
IM(QQ、MSN、wechat)、Social Media(Facebook/meta)、在線游戲類軟件等,終端頻繁在idle態(tài)與connected態(tài)之間轉(zhuǎn)換。
(2)推送服務(wù)
為了提高用戶體驗(yàn),服務(wù)器會(huì)實(shí)時(shí)將好友的信息或用戶預(yù)定的信息推送到用戶的終端上,以便能讓用戶第一時(shí)間看到更新的信息。
(3)頻繁小包業(yè)務(wù)
聊天信息、在線游戲發(fā)送的命令等,數(shù)據(jù)量小且頻繁的業(yè)務(wù)。
(4)心跳
通過終端和服務(wù)器之間周期的頻繁心跳,來維持用戶的在線率;即使用戶長(zhǎng)時(shí)間不使用終端,也仍然會(huì)維持心跳。
4.其他導(dǎo)致信令負(fù)荷高的因素
(1)網(wǎng)絡(luò)規(guī)劃TAL規(guī)模過大導(dǎo)致的高信令負(fù)荷;
(2)網(wǎng)絡(luò)架構(gòu)變更引入的尋呼和業(yè)務(wù)接入的信令消息成百倍的增長(zhǎng);
(3)網(wǎng)絡(luò)RF不夠好,導(dǎo)致的頻繁切換造成的信令額外開銷。
(三)信令風(fēng)暴的發(fā)生場(chǎng)景
觸發(fā)信令風(fēng)暴的場(chǎng)景是多方面的,從觸發(fā)因素分類,可以分為外部因素觸發(fā)和內(nèi)部因素觸發(fā):
1.外部因素
UE觸發(fā):UE行為(開關(guān)機(jī)/移動(dòng)/發(fā)送異常消息)、APP應(yīng)用(建立會(huì)話、上傳信息)
應(yīng)用服務(wù)器觸發(fā):服務(wù)器行為(重啟/發(fā)送異常消息)、APP應(yīng)用(下行消息推送)
2.內(nèi)部因素
5GC自身觸發(fā):故障處理(通知UE恢復(fù)PDU會(huì)話)、網(wǎng)絡(luò)變更處理(觸發(fā)UE重新注冊(cè))。
3.外部因素觸發(fā)的信令浪涌場(chǎng)景
外部觸發(fā)因素導(dǎo)致信令風(fēng)暴的根因是:
(1)用戶集中行為
①重大活動(dòng)期間,話務(wù)量上升的沖擊:
重大活動(dòng)(世界杯、奧運(yùn)會(huì)、HAJJ等)期間,活動(dòng)片區(qū)用戶增多,大量用戶同時(shí)進(jìn)行業(yè)務(wù),以及大量用戶同時(shí)位置移動(dòng)(如進(jìn)場(chǎng)、散場(chǎng))造成的大量位置更新和切換,均會(huì)產(chǎn)生大量信令沖擊核心網(wǎng)。
②節(jié)假日期間,話務(wù)量上升的沖擊:
節(jié)假日(春節(jié)、圣誕節(jié)等)期間,活躍用戶增多,春節(jié)電話、短信、微信拜年、搶紅包、整點(diǎn)活動(dòng)等,使得語(yǔ)音、短信、數(shù)據(jù)業(yè)務(wù)明顯增多,給核心網(wǎng)帶來信令沖擊。例如:HAJJ朝覲期間,在麥加圣地中心區(qū)10平方公里聚集450萬(wàn)人,300萬(wàn)移動(dòng)用戶,其中包含大量國(guó)際漫游客戶,導(dǎo)致漫游業(yè)務(wù)和呼叫業(yè)務(wù)的話務(wù)激增;朝圣活動(dòng)有多個(gè)步驟,分布在不同的地點(diǎn),大規(guī)模用戶移動(dòng)造成的大量位置更新和切換;每天五次禮拜后,兩三百萬(wàn)用戶同時(shí)開機(jī)、通話、收發(fā)短信、上網(wǎng)等,產(chǎn)生短時(shí)大量信令沖擊。
③自然災(zāi)害發(fā)生后,話務(wù)量上升的沖擊:
自然災(zāi)害(如地震)發(fā)生時(shí),用戶頻繁移動(dòng)導(dǎo)致位置更新和切換業(yè)務(wù)增多;自然災(zāi)害發(fā)生時(shí),人們紛紛通過手機(jī)上網(wǎng)了解最新信息;語(yǔ)音主叫和被叫在某種場(chǎng)景下突然增多,大量的緊急呼叫求助電話、大量的打進(jìn)災(zāi)區(qū)的關(guān)懷電話等。
(2)網(wǎng)絡(luò)上的異常信令
外部網(wǎng)絡(luò)行為/攻擊:
智能終端為省電而快速休眠,導(dǎo)致頻繁關(guān)閉與網(wǎng)絡(luò)之間的連接。一些App應(yīng)用出現(xiàn)同時(shí)集中向大量用戶發(fā)送信息的業(yè)務(wù),比如微信發(fā)紅包、新聞/消息推送、搶票軟件等,此類業(yè)務(wù)屬于正常業(yè)務(wù)。Internet網(wǎng)絡(luò)存在對(duì)IP地址惡意掃描的情況,并短時(shí)間內(nèi)掃描大量連續(xù)的IP地址,此類情況屬于惡意攻擊。
(3)外部因素觸發(fā)導(dǎo)致的信令風(fēng)暴浪涌場(chǎng)景歸納如表1
4.內(nèi)部因素觸發(fā)的信令浪涌場(chǎng)景
內(nèi)部因素導(dǎo)致信令風(fēng)暴的根因是:
(1)網(wǎng)元設(shè)備、通信故障
斷電、自然災(zāi)害等導(dǎo)致網(wǎng)元設(shè)備故障,容災(zāi)平面的話務(wù)突增;網(wǎng)元設(shè)備通信故障、閃斷及恢復(fù)后的大話務(wù)沖擊。
(2)網(wǎng)元設(shè)備故障
網(wǎng)元設(shè)備、通信鏈路故障,周邊網(wǎng)元感知到后主動(dòng)恢復(fù)受影響用戶的業(yè)務(wù),為減少用戶業(yè)務(wù)損失,可能產(chǎn)生大量信令,由于各網(wǎng)元的處理能力不同,瓶頸網(wǎng)元會(huì)受到?jīng)_擊。
(3)內(nèi)部因素觸發(fā)導(dǎo)致的信令風(fēng)暴浪涌場(chǎng)景
內(nèi)部因素觸發(fā)導(dǎo)致的信令風(fēng)暴浪涌場(chǎng)景如表2所示。
三、KDDI網(wǎng)絡(luò)事故信令風(fēng)暴形成過程分析
以引言提到的日本KDDI網(wǎng)絡(luò)事故為例,不難推演出此次信令風(fēng)暴事故并非單一故障,而是由內(nèi)部因素(運(yùn)維操作)造成某一故障點(diǎn)所引發(fā)的一連串外部因素(用戶行為,重注冊(cè)等),導(dǎo)致問題進(jìn)一步惡化而產(chǎn)生的蝴蝶效應(yīng),使得故障持續(xù)了長(zhǎng)達(dá)60多個(gè)小時(shí)。讓我們嘗試分析這次信令風(fēng)暴事故為什么會(huì)成為超長(zhǎng)事故?(分析內(nèi)容基于媒體公開信息推演得出)
根據(jù)如圖3拓?fù)溥M(jìn)行信令沖擊分析,結(jié)果如表3所示。
歸納總結(jié)為以下三點(diǎn):
①網(wǎng)絡(luò)設(shè)備抗沖擊能力弱:?jiǎn)吸c(diǎn)路由器故障導(dǎo)致全路徑設(shè)備承受信令風(fēng)暴,無網(wǎng)絡(luò)分級(jí)精準(zhǔn)流控能力設(shè)計(jì),導(dǎo)致核心數(shù)據(jù)DB節(jié)點(diǎn)遭受信令沖擊。
②集中化數(shù)據(jù)節(jié)點(diǎn)造成影響雪崩:核心DB節(jié)點(diǎn)多區(qū)域共享,單大區(qū)故障帶來集中DB風(fēng)暴沖擊,全國(guó)用戶信令受損,海量終端重試帶來全網(wǎng)風(fēng)暴。
③無逃生打底數(shù)據(jù)語(yǔ)音同下線:4G語(yǔ)音不可用數(shù)據(jù)/語(yǔ)音同時(shí)下線,無CS逃生網(wǎng),導(dǎo)致短時(shí)間內(nèi)用戶4G重新注冊(cè);數(shù)據(jù)/語(yǔ)音信令風(fēng)暴進(jìn)一步加劇。
以上三點(diǎn)可總結(jié)為:網(wǎng)絡(luò)多點(diǎn)瓶頸,信令風(fēng)暴導(dǎo)致網(wǎng)絡(luò)崩盤。
四、一種多防線立體協(xié)控信令防范方案
如信令風(fēng)暴發(fā)生場(chǎng)景所述,網(wǎng)絡(luò)中總會(huì)由于一些內(nèi)外部因素導(dǎo)致異常的發(fā)生,比如地震導(dǎo)致光纖中斷,傳輸一旦恢復(fù),故障期間積攢的大量信令消息會(huì)像火山一樣突然爆發(fā),哪怕是深更半夜,智能終端也會(huì)不停地反復(fù)自動(dòng)嘗試接入網(wǎng)絡(luò)。面對(duì)如此雷暴,如何讓信令風(fēng)暴平息,讓網(wǎng)絡(luò)最終達(dá)到風(fēng)平浪靜的自愈效果呢?
根據(jù)KDDI網(wǎng)絡(luò)事故的分析和總結(jié),給出了一種網(wǎng)絡(luò)信令風(fēng)暴防控的方案。該方案基于如圖4所示的分層網(wǎng)絡(luò),防控方案基于以下兩個(gè)前提假設(shè):
①假設(shè)網(wǎng)絡(luò)有5個(gè)層級(jí)的網(wǎng)絡(luò)節(jié)點(diǎn)。
②每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)有請(qǐng)求、更新、終結(jié),共3類消息流程。
為了能夠盡快解除信令風(fēng)暴,需要重點(diǎn)關(guān)注如下兩點(diǎn):
①避免做無用功:假如不在前端流控,比如在流控點(diǎn)5部署流控手段,用戶一旦被拒絕后,那么在前4個(gè)點(diǎn)完成的工作就變成了無用功,只能從頭再來。
②避免惡化事態(tài):假如不是首消息流控,比如流控掉更新消息,那么本來已接入網(wǎng)絡(luò)的穩(wěn)態(tài)的用戶也會(huì)逐步轉(zhuǎn)變成非穩(wěn)態(tài)的新用戶,重新嘗試接入網(wǎng)絡(luò),導(dǎo)致信令風(fēng)暴持續(xù)加大。
因此,信令風(fēng)暴流控思路如下:
①四道防線,立體協(xié)控,后端過載,前端流控,不做無用功,珍惜每一個(gè)信令資源。
②首消息流控,確保已經(jīng)接入的穩(wěn)態(tài)用戶工作正常,絕不能惡化。
③提前部署流控,未雨綢繆比臨時(shí)抱佛腳的效果更好。
以圖5為例,在各流控點(diǎn)分層級(jí)部署防控防線。
防線一:PS域入口AMF/MME總控
①Inter SR/注冊(cè)流控:新用戶有序放通,老用戶不掉線;
②統(tǒng)一HTR流控/Gr流控:保護(hù)后端UDM/HSS/HLR;
③AMF會(huì)話流控:保護(hù)SMF/UDM/PCF。
防線二:SMF/GW-C針對(duì)不同業(yè)務(wù)(語(yǔ)音/數(shù)據(jù)/行業(yè)用戶)精準(zhǔn)布控
①APN wal流控:針對(duì)數(shù)據(jù)/語(yǔ)音/行業(yè)用戶區(qū)分流控;
②Gx/Gy wal流控:保護(hù)后端PCRF/OCS/AAA。
防線三:話音域入口SBC協(xié)控,進(jìn)一步降低信令負(fù)荷
①SBC整形流控:流控初始注冊(cè),放通重注冊(cè),確保老用戶不掉線;
②CSC流量整形:保護(hù)后端DRA/HSS。
防線四:信令匯聚點(diǎn)UDM/HSS/STP/DRA/SCP部署局向流控,保衛(wèi)后方司令部
①融合數(shù)據(jù)域:UDM/HSS/HLR手工流控(區(qū)分消息類型);
②分組域:S6a/Gx/Gy局向流控(不區(qū)分消息類型);
③話音域:Cx/Dx流控(不區(qū)分消息類型)。
五、信令防范方案實(shí)際效果
以G省Y客戶網(wǎng)絡(luò)信令風(fēng)暴為例說明,如圖6所示。
故障概述:2022年7月22日10:06和10:42左右,J友商路由器發(fā)生兩次雙平面故障,導(dǎo)致現(xiàn)網(wǎng)發(fā)生網(wǎng)絡(luò)注冊(cè)沖擊,信令沖擊量為平時(shí)的29倍,引發(fā)PS/IMS等網(wǎng)元流控,兩次沖擊均在15分鐘左右恢復(fù)。
業(yè)務(wù)故障分析如表4所示。
信令風(fēng)暴沖擊如圖7所示。
系統(tǒng)流控及流控后對(duì)系統(tǒng)的影響如表5所示。
信令風(fēng)暴產(chǎn)生原因:
①用戶上網(wǎng)異常主動(dòng)飛行;
②人網(wǎng)4G/5G交互異常,導(dǎo)致業(yè)務(wù)失敗,觸發(fā)終端重注冊(cè);
③物聯(lián)網(wǎng)用戶TAU切換異常,觸發(fā)終端重注冊(cè)。
故障恢復(fù)措施:
5GC/EPC/IMS領(lǐng)域均提前部署流控,數(shù)通路由器故障恢復(fù)后,流控預(yù)埋生效,快速消除信令風(fēng)暴。
六、結(jié)束語(yǔ)
本文對(duì)KDDI的事故進(jìn)行分析,引入信令風(fēng)暴的立體防控方案,通過分析產(chǎn)生信令風(fēng)暴的內(nèi)外部因素和浪涌場(chǎng)景,理順了立體防控的順序,并在實(shí)際網(wǎng)絡(luò)部署經(jīng)歷了網(wǎng)絡(luò)事故的考驗(yàn),證明立體防控方案效果明顯,為網(wǎng)絡(luò)安全防范提供了一個(gè)思路??偟膩碚f,減少人為動(dòng)網(wǎng)操作引入的風(fēng)險(xiǎn)可以降低大部分網(wǎng)絡(luò)風(fēng)險(xiǎn);但是對(duì)于不可抗拒因素,如地震等引入的網(wǎng)絡(luò)風(fēng)險(xiǎn),應(yīng)當(dāng)提前部署立體信令風(fēng)暴防控方案,平時(shí)做到備戰(zhàn)演練,以便網(wǎng)絡(luò)極限逃生可用,這是對(duì)網(wǎng)絡(luò)風(fēng)暴消除最好的方法,當(dāng)然我們期望的還是網(wǎng)絡(luò)自動(dòng)駕駛到來的那一天。
作者單位:陳東洋 華為技術(shù)有限公司
參? 考? 文? 獻(xiàn)
[1]https://mp.weixin.qq.com/s/SMnPTKEHHwZ6RBCzHlVmcg
[2]https://www.c114.com.cn/news/17/a1203260.html
[3]https://www.c114.com.cn/news/17/a1206611.html
[4]https://www.c114.com.cn/news/17/a1208894.html
[5]https://news.kddi.com/important/news/index.html
[6]3GPP TS 29.500 V16.12.0.3rd Generation Partnership Project;Technical Specification Group Core Network and Terminals;5G System;Technical Realization of Service Based Architecture;Stage 3(Release 16)[S]. 2022.09.
[7]https://github.com/nickel0/3GPP-Overall-Architecture/blob/master/diagram/3GPP_Overall_Architecture_and_Specifications.jpg