劉惜吾,馬丹丹,葉曉斌,李亞夢(mèng)(.中國(guó)聯(lián)通廣東分公司,廣東 廣州 5067;.中國(guó)聯(lián)通研究院,北京 0076)
5G網(wǎng)絡(luò)運(yùn)營(yíng)商面臨網(wǎng)絡(luò)新建和升級(jí)改造,網(wǎng)絡(luò)規(guī)模和業(yè)務(wù)容量極速增長(zhǎng),網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多維度復(fù)雜性,行業(yè)應(yīng)用需求呈現(xiàn)多樣化個(gè)性化,與此同時(shí),用戶對(duì)服務(wù)交付的質(zhì)量和高效性的期許值也逐年提升。新舊網(wǎng)絡(luò)的交織、客戶市場(chǎng)需求的變化對(duì)基礎(chǔ)維護(hù)工作提出更細(xì)致的要求和更高的挑戰(zhàn)。
另一方面,從經(jīng)驗(yàn)看網(wǎng)絡(luò)配置引發(fā)的問(wèn)題尤為突出,在配置下發(fā)過(guò)程中可能由于各種原因,如業(yè)務(wù)人員的技術(shù)水平、操作規(guī)范性等導(dǎo)致漏配、錯(cuò)配等問(wèn)題。2020 年廣東省某地(市)一起故障,4 個(gè)接入環(huán)和匯聚ASG 設(shè)備間互聯(lián)鏈路同時(shí)發(fā)生中斷,經(jīng)核實(shí)故障原因是由于備用平面相關(guān)環(huán)路中斷站點(diǎn)二三層聯(lián)動(dòng)漏配,主用平面中斷后網(wǎng)絡(luò)切換不成功導(dǎo)致業(yè)務(wù)中斷。為解決上述問(wèn)題及挑戰(zhàn),廣東聯(lián)通積極探索5G時(shí)代網(wǎng)絡(luò)發(fā)展的新模式,積極推進(jìn)網(wǎng)絡(luò)運(yùn)維智能化進(jìn)程,將大數(shù)據(jù)分析和AI技術(shù)引用到網(wǎng)絡(luò)設(shè)備配置稽核領(lǐng)域,創(chuàng)新性提出基于AI的關(guān)聯(lián)分析異常檢查方法,學(xué)習(xí)建立異常配置模型,對(duì)全網(wǎng)設(shè)備配置進(jìn)行全面高效的核查,充分發(fā)揮AI 算法分析與決策能力,將運(yùn)維人員從繁瑣的重復(fù)性工作中解放出來(lái),規(guī)避人為誤操作,提升網(wǎng)絡(luò)運(yùn)維效率和網(wǎng)絡(luò)質(zhì)量可用性等級(jí),在用戶感知之前解決故障,降低網(wǎng)絡(luò)故障率,提升用戶滿意度。
傳統(tǒng)的運(yùn)營(yíng)商網(wǎng)絡(luò)多采用OEM 廠家提供的軟硬件一體整體解決方案,如廣東聯(lián)通169城域網(wǎng)、IP承載網(wǎng)以華為、思科2 個(gè)廠家為主,IPRAN 承載網(wǎng)以華為、中興、烽火3 個(gè)廠家為主,這些OEM 廠家以其專有的軟硬件和私有協(xié)議、封閉的系統(tǒng)等控制行業(yè)生態(tài)。
以IPRAN 承載網(wǎng)為例,CSG、ASG、RSG 等設(shè)備的上線和業(yè)務(wù)開(kāi)通過(guò)程通常需要完成大量的配置,包括一些基礎(chǔ)配置(用戶信息、AAA 設(shè)置等)、端口配置(物理端口、VLAN 端口等)、協(xié)議配置(ISIS、MPLS、BGP等)以及各類的業(yè)務(wù)配置(Tunnel、PW、L2VPN、L3VPN等)?,F(xiàn)有的網(wǎng)絡(luò)配置核查方案由廠家“分而治之”,依賴大量的人工,對(duì)不同廠家設(shè)備、同一廠家不同型號(hào)、同一型號(hào)不同版本定制化處理,維護(hù)效率低下,運(yùn)營(yíng)成本高,存在較多弊端。
首先,廠家配置巡檢工具算法邏輯簡(jiǎn)單、稽核效率低。廣東現(xiàn)網(wǎng)3 個(gè)廠家雖已經(jīng)配置稽核工具,但巡檢邏輯單一,稽核效果不理想。如現(xiàn)網(wǎng)中興設(shè)備使用的巡檢工具ZXSEM/TIM400,通過(guò)編輯腳本定制巡檢任務(wù),通過(guò)網(wǎng)管對(duì)設(shè)備下發(fā)show 命令,查詢對(duì)應(yīng)配置信息,不僅稽核時(shí)間長(zhǎng),還容易因?yàn)榇罅康娜蝿?wù)處理導(dǎo)致死機(jī),單地(市)均有上千臺(tái)承載設(shè)備,配置命令總數(shù)達(dá)到200萬(wàn)行,例如某地(市)超過(guò)2 000臺(tái)設(shè)備稽核40多小時(shí)之后死機(jī)。
其次,現(xiàn)有工具通?;跈z測(cè)規(guī)則或者專家系統(tǒng),無(wú)法適應(yīng)網(wǎng)絡(luò)設(shè)備版本的更新迭代。專家系統(tǒng)做配置巡檢有其固有的優(yōu)勢(shì),但是缺乏通用性和靈活性,如中興的TIM400 系統(tǒng)、華為的NCE 系統(tǒng)均存在這樣的問(wèn)題,使用于某個(gè)地區(qū)或某個(gè)運(yùn)營(yíng)商網(wǎng)絡(luò)的巡檢工具在其他地區(qū)或其他運(yùn)營(yíng)商的網(wǎng)絡(luò)上就不適用了,更無(wú)法應(yīng)對(duì)5G 時(shí)代大量網(wǎng)絡(luò)新建和網(wǎng)絡(luò)改造帶來(lái)的爆發(fā)式增長(zhǎng)的工作量,無(wú)法適配網(wǎng)絡(luò)技術(shù)更新迭代的需求。
此外,現(xiàn)有工具的巡檢對(duì)象往往是單臺(tái)設(shè)備,沒(méi)有學(xué)習(xí)能力,無(wú)法實(shí)現(xiàn)網(wǎng)絡(luò)級(jí)沖突檢測(cè)、隱患核查,存在較大的盲區(qū),對(duì)于未知的配置錯(cuò)誤大概率會(huì)出現(xiàn)漏檢。5G新網(wǎng)絡(luò)的運(yùn)維也面臨著設(shè)備種類繁多、數(shù)量龐大,客戶業(yè)務(wù)多樣等挑戰(zhàn),專業(yè)運(yùn)維知識(shí)不可避免存在缺失,一些隱性的配置隱患,用傳統(tǒng)的單臺(tái)設(shè)備級(jí)視角或?qū)<医?jīng)驗(yàn)是很難發(fā)現(xiàn)的。
配置稽核的目的是發(fā)現(xiàn)配置數(shù)據(jù)中的錯(cuò)誤、隱患,從數(shù)據(jù)的角度看,就是要找到配置數(shù)據(jù)中的異常項(xiàng)。異常檢測(cè)是機(jī)器學(xué)習(xí)應(yīng)用的一個(gè)研究熱點(diǎn),神經(jīng)網(wǎng)絡(luò)、SVM、孤立森林、聚類等機(jī)器學(xué)習(xí)算法在網(wǎng)絡(luò)流量、性能異常方面有大量應(yīng)用。
基于AI的關(guān)聯(lián)分析是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,也是強(qiáng)有力的數(shù)據(jù)挖掘工具,可以在海量數(shù)據(jù)中快速發(fā)現(xiàn)數(shù)據(jù)、事件之間的依賴關(guān)系或者因果關(guān)系,例如apriori(入選數(shù)據(jù)挖掘領(lǐng)域十大經(jīng)典算法)、FpGrowth 等,能夠從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息。因此本文通過(guò)數(shù)據(jù)挖掘方法將配置文件中的關(guān)聯(lián)關(guān)系挖掘出來(lái),從而代替人工實(shí)現(xiàn)配置規(guī)則自挖掘、自學(xué)習(xí)。
通過(guò)上述現(xiàn)網(wǎng)配置稽核痛點(diǎn)分析及AI 算法的研究,本文提出將AI 關(guān)聯(lián)分析用于網(wǎng)絡(luò)設(shè)備配置稽核,融合了大數(shù)據(jù)分析、AI 關(guān)聯(lián)挖掘,借助統(tǒng)計(jì)分析對(duì)設(shè)備進(jìn)行配置基線識(shí)別,對(duì)設(shè)備在網(wǎng)絡(luò)中承擔(dān)的角色功能進(jìn)行層次化關(guān)聯(lián)分析,如圖1所示,按不同粒度分層檢測(cè),發(fā)現(xiàn)配置中的漏配、錯(cuò)配、沖突、冗余等配置異常,結(jié)束異廠家分而治之的局面,實(shí)現(xiàn)統(tǒng)一運(yùn)維及配置稽核規(guī)則自挖掘、自學(xué)習(xí),適應(yīng)網(wǎng)絡(luò)動(dòng)態(tài)發(fā)展。
圖1 基于AI的配置稽核系統(tǒng)邏輯架構(gòu)圖
基于AI關(guān)聯(lián)分析的配置稽核系統(tǒng)分為數(shù)據(jù)采集、關(guān)聯(lián)分析、人工標(biāo)注、自動(dòng)標(biāo)注、告警通知5個(gè)模塊:數(shù)據(jù)采集部分負(fù)責(zé)制定定期任務(wù),收集基礎(chǔ)網(wǎng)絡(luò)設(shè)備配置文件;關(guān)聯(lián)分析模塊利用AI數(shù)據(jù)統(tǒng)計(jì)技術(shù)對(duì)配置文件進(jìn)行異常檢測(cè);人工標(biāo)注模塊提供專業(yè)技術(shù)人員對(duì)異常列表進(jìn)行標(biāo)注的接口;自動(dòng)標(biāo)注模塊收集人工標(biāo)注數(shù)據(jù)集進(jìn)行自動(dòng)標(biāo)注模型訓(xùn)練,標(biāo)注之后的結(jié)果通過(guò)消息推送方式通知專業(yè)維護(hù)人員。系統(tǒng)架構(gòu)圖如圖2所示。
圖2 基于AI的配置稽核系統(tǒng)架構(gòu)圖
AI關(guān)聯(lián)分析配置稽核系統(tǒng)部署方案如圖3所示,由網(wǎng)絡(luò)數(shù)據(jù)中臺(tái)統(tǒng)一完成數(shù)據(jù)采集、處理,依托廣東聯(lián)通AI 孵化平臺(tái)AI 框架及算力,部署AI 關(guān)聯(lián)分析算法,完成配置基線學(xué)習(xí)、數(shù)據(jù)挖掘關(guān)聯(lián)分析、系統(tǒng)流程控制、用戶管理、權(quán)限控制等功能,訓(xùn)練異常配置稽核模型。
圖3 配置異常檢查系統(tǒng)部署方案
常見(jiàn)的配置錯(cuò)誤包括多配、少配、錯(cuò)配和沖突等,其中多配是指在某個(gè)場(chǎng)景或者業(yè)務(wù)的配置中出現(xiàn)了多余的命令或者參數(shù),而少配則是缺少了必須的配置命令或者參數(shù),錯(cuò)配通常表現(xiàn)為將一條配置命令配置成了和它相似的另一條命令,沖突則是配置數(shù)據(jù)中出現(xiàn)了2條或者多條不能同時(shí)配置的命令或者參數(shù)。對(duì)于每一種類型的設(shè)備,配置特征具備一定的共性,通過(guò)統(tǒng)計(jì)分析可以發(fā)現(xiàn)一些大致的規(guī)律,形成配置文件的基線。
如表1 所示,某地(市)500 臺(tái)網(wǎng)絡(luò)設(shè)備配置文件,約75 萬(wàn)行的統(tǒng)計(jì)分析中間結(jié)果,從表1 中可以看出某些配置出現(xiàn)機(jī)率非常大,說(shuō)明這些配置是普遍存在的高頻配置。同樣從表1中也可以分析出某些配置命令只出現(xiàn)在某些設(shè)備中,說(shuō)明某些配置具有個(gè)性化的統(tǒng)計(jì)特征,某些配置命令只出現(xiàn)在或更多地出現(xiàn)在某一類設(shè)備中。
表1 數(shù)據(jù)挖掘中間數(shù)據(jù)
本方案利用大數(shù)據(jù)統(tǒng)計(jì)分析進(jìn)行配置腳本的基線學(xué)習(xí),在海量配置數(shù)據(jù)中進(jìn)行數(shù)據(jù)預(yù)處理,去除干擾項(xiàng),完成數(shù)據(jù)清洗從而得出分類項(xiàng)集,進(jìn)一步用于關(guān)聯(lián)分析所需的訓(xùn)練集。
在基線學(xué)習(xí)完成的分類項(xiàng)集中,本文認(rèn)為配置錯(cuò)誤應(yīng)該是稀少的、偶現(xiàn)的,否則現(xiàn)網(wǎng)設(shè)備就不可能正常運(yùn)行了。基于AI 的配置稽核系統(tǒng)采用AI 關(guān)聯(lián)分析挖掘數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則,用絕對(duì)出現(xiàn)次數(shù)的占比作為配置正確的支持度參數(shù),配置腳本中出現(xiàn)的配置命令頻次越大,即表示其上下文呈強(qiáng)關(guān)聯(lián)性,配置越接近標(biāo)準(zhǔn),配置異常的可能性越?。怀霈F(xiàn)頻次越低的配置與上下文呈弱關(guān)聯(lián)性,異常的機(jī)率越大。
如圖4 所示,配置數(shù)據(jù)由一系列CLI 命令構(gòu)成,每條CLI命令包含一定數(shù)量的參數(shù),CLI命令之間可能存在一些特定的標(biāo)識(shí)符和分隔符,用于指示特定場(chǎng)景或者業(yè)務(wù)配置的起始和終結(jié)。其中左側(cè)配置樣式中的L11 出現(xiàn)次數(shù)是1 次,右側(cè)配置樣式中的L10 和L11 出現(xiàn)次數(shù)是1 731 次,則配置稽核系統(tǒng)認(rèn)為左側(cè)配置樣式中的L11 是錯(cuò)誤的,并且可以根據(jù)右側(cè)的配置樣式進(jìn)行修改調(diào)整。
圖4 關(guān)聯(lián)規(guī)則檢測(cè)異常配置
基于上述規(guī)則對(duì)采集到的海量設(shè)備配置數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析學(xué)習(xí),從中挖掘弱關(guān)聯(lián)規(guī)則構(gòu)建異常配置模型,基于訓(xùn)練得出的異常配置模型對(duì)設(shè)備配置數(shù)據(jù)進(jìn)行掃描,發(fā)現(xiàn)其中的可疑配置并上報(bào)運(yùn)維人員進(jìn)行處理。
通過(guò)AI關(guān)聯(lián)關(guān)系分析檢測(cè)出的異常配置項(xiàng),需要經(jīng)過(guò)標(biāo)注進(jìn)行異常分類,系統(tǒng)最初是采用人工標(biāo)注,人工標(biāo)注的內(nèi)容包括異常類型、嚴(yán)重程度、異常說(shuō)明、標(biāo)注者。
經(jīng)過(guò)標(biāo)注之后的檢查結(jié)果就可以用于配置異常的修改,但是每次掃描問(wèn)題列表都要經(jīng)過(guò)人工分析是不現(xiàn)實(shí)的,會(huì)給專業(yè)人員造成更多的工作負(fù)擔(dān),因此系統(tǒng)設(shè)計(jì)了自動(dòng)標(biāo)注方式,將人工標(biāo)注的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),按照異常情況進(jìn)行聚類分析并且一一映射對(duì)應(yīng)處理方案,使自動(dòng)標(biāo)注模型學(xué)會(huì)自動(dòng)識(shí)別異常問(wèn)題類型。
配置稽核系統(tǒng)對(duì)廣東某地(市)數(shù)據(jù)進(jìn)行掃描之后,檢測(cè)到異常192項(xiàng),經(jīng)過(guò)自動(dòng)標(biāo)注,一共標(biāo)注了170項(xiàng),其中高中風(fēng)險(xiǎn)有4 項(xiàng),沒(méi)有被標(biāo)注的22 項(xiàng)異常是因?yàn)樽詣?dòng)標(biāo)注模型中沒(méi)有學(xué)習(xí)到對(duì)應(yīng)的異常情況,經(jīng)過(guò)不斷的數(shù)據(jù)積累,無(wú)法自動(dòng)標(biāo)注的情況會(huì)越來(lái)越少。圖5是自動(dòng)標(biāo)注的結(jié)果。
圖5 配置稽核系統(tǒng)的自動(dòng)標(biāo)注結(jié)果
查準(zhǔn)率和查全率是評(píng)價(jià)機(jī)器學(xué)習(xí)模型有效性最常用的2 個(gè)指標(biāo)。從整個(gè)AI 配置稽核系統(tǒng)來(lái)看,查準(zhǔn)率是算法找出的錯(cuò)誤配置中到底有多少是錯(cuò)的,而查全率就是在所有的錯(cuò)誤中,算法找到了多少錯(cuò)誤。
首先考慮查準(zhǔn)率的評(píng)估。對(duì)于配置異常模型掃描得到的配置異常,由運(yùn)維人員進(jìn)行標(biāo)注確認(rèn),本文采集了廣東省內(nèi)3 個(gè)地(市)的設(shè)備配置數(shù)據(jù),各地(市)的配置數(shù)據(jù)量大小如表2 所示。表2 中第4 列的數(shù)值是AI配置異常模型掃描出來(lái)的可疑問(wèn)題數(shù)量,第5 列是人工標(biāo)注確認(rèn)后的問(wèn)題數(shù)量,可以發(fā)現(xiàn),3 個(gè)地(市)的查準(zhǔn)率都超過(guò)了80%,其中A 市的查準(zhǔn)率接近90%。另外,3 個(gè)地(市)的掃描耗時(shí)都在分鐘級(jí),檢查效率非常高。
表2 3個(gè)地(市)的配置數(shù)據(jù)量和掃描結(jié)果
要準(zhǔn)確評(píng)估查全率就需要提前知道數(shù)據(jù)集中到底有多少錯(cuò)誤配置,本文采用一種基于抽樣的近似檢測(cè)方法。首先由運(yùn)維專業(yè)人員挑選11個(gè)常見(jiàn)的、不同類型的錯(cuò)誤配置,然后將這些人為制造的錯(cuò)誤配置隨機(jī)加入到A 市的配置數(shù)據(jù)集中,再由配置異常模型進(jìn)行掃描,最后統(tǒng)計(jì)掃描結(jié)果中識(shí)別出人為制造的錯(cuò)誤配置,由此得出算法的查全率。表3 列出了挑選的11個(gè)錯(cuò)誤內(nèi)容,可見(jiàn)錯(cuò)誤類型即包含常見(jiàn)的CLI 命令漏配、錯(cuò)配,也有命令參數(shù)的漏配錯(cuò)配等,比較有代表性。掃描結(jié)果顯示,本文的算法可以發(fā)現(xiàn)其中的9 個(gè)錯(cuò)誤,查全率達(dá)到81.8%。
表3 人為制造的配置錯(cuò)誤
進(jìn)一步分析發(fā)現(xiàn),第7 個(gè)錯(cuò)誤配置未找到的主要原因是在A 市數(shù)據(jù)集中這種錯(cuò)誤非常多,導(dǎo)致異常配置模型未包含其特征,因此未能在掃描中識(shí)別出來(lái)。
本文通過(guò)分析大量現(xiàn)網(wǎng)驗(yàn)證數(shù)據(jù)發(fā)現(xiàn),基于AI的配置稽核算法是基于配置錯(cuò)誤是稀少的、偶現(xiàn)的這個(gè)假設(shè),當(dāng)某類錯(cuò)誤配置頻繁出現(xiàn)時(shí),該算法可能不能準(zhǔn)確獲得這個(gè)錯(cuò)誤特征導(dǎo)致未能檢查出此類錯(cuò)誤。后續(xù)需要結(jié)合更多的機(jī)器學(xué)習(xí)算法,進(jìn)一步提高配置異常檢查的查準(zhǔn)率和查全率。
本文提出了一種基于AI 關(guān)聯(lián)分析的設(shè)備配置異常檢測(cè)方法,該方案結(jié)合最前沿的AI技術(shù)與網(wǎng)絡(luò)運(yùn)維技術(shù),創(chuàng)造性地改變了傳統(tǒng)人工配置稽核方式,同時(shí)有別于以往的研究,創(chuàng)新性地采用逆向思維,將AI 關(guān)聯(lián)分析中的弱關(guān)聯(lián)規(guī)則作為配置異常的特征,在此基礎(chǔ)上從海量訓(xùn)練集中學(xué)習(xí)配置異常模型,進(jìn)而利用配置異常模型完成配置異?;?。從現(xiàn)網(wǎng)運(yùn)行結(jié)果顯示,此算法的查準(zhǔn)率和查全率都大于80%,部分場(chǎng)景準(zhǔn)確率達(dá)到90%,系統(tǒng)檢測(cè)時(shí)間低至分鐘級(jí),有效提升了配置稽核效率與配置風(fēng)險(xiǎn)識(shí)別率。
此外,該創(chuàng)新方案采用的AI算法具備強(qiáng)大的自學(xué)習(xí)、自挖掘能力,可以無(wú)縫移植到設(shè)備配置巡檢核查中,如城域網(wǎng)、承載網(wǎng)、分組網(wǎng)等,適配5G 時(shí)代海量設(shè)備運(yùn)維需求,具備良好的泛化能力,能有效應(yīng)對(duì)網(wǎng)絡(luò)的動(dòng)態(tài)發(fā)展,具備廣泛的實(shí)用性以及可推廣性,實(shí)現(xiàn)傳統(tǒng)運(yùn)維的智能化變革。