【摘 ?要】NFV技術(shù)降低了運(yùn)營(yíng)商組網(wǎng)的成本,實(shí)現(xiàn)了網(wǎng)絡(luò)的快速彈性部署,但同時(shí)也帶來了諸多問題。為了解決網(wǎng)元分層解耦之后故障定位和故障修復(fù)變得復(fù)雜,NFV網(wǎng)絡(luò)運(yùn)維難度增加的問題,提出了一種自適應(yīng)回環(huán)診斷算法。該算法基于自適應(yīng)診斷策略,針對(duì)各類多網(wǎng)元網(wǎng)絡(luò)進(jìn)行故障診斷的特性,利用MANO的集中管控,實(shí)現(xiàn)對(duì)VNF層故障的高效診斷。該算法理論上能達(dá)到100%的診斷效率,并且無論系統(tǒng)中有多少個(gè)VNFC發(fā)生故障都能準(zhǔn)確進(jìn)行定位。
【關(guān)鍵詞】NFV;MANO;VNF;自適應(yīng)診斷;回環(huán)診斷算法
doi:10.3969/j.issn.1006-1010.2019.12.016 ? ? ?中圖分類號(hào):TN929.5
文獻(xiàn)標(biāo)志碼:A ? ? ?文章編號(hào):1006-1010(2019)12-0084-05
引用格式:云龍,陽志明. NFV下自適應(yīng)診斷策略的運(yùn)用[J]. 移動(dòng)通信, 2019,43(12): 84-88.
Application of Adaptive Diagnosis Strategy in NFV
YUN Long, YANG Zhiming
(China Telecom Intelligent Network and Terminal Research Institute., Guangzhou 510630, China)
[Abstract]?NFV technology reduces the cost of operator networking and enables a rapid and flexible network deployment, while it also brings some challenges. Since the hierarchical decoupling of network elements complicates fault location and repair and increases the difficulty of NFV network operation and maintenance, an adaptive loopback diagnostic algorithm is proposed to solve these problems. The proposed algorithm is based on an adaptive diagnosis strategy, and performs fault diagnosis for various types of multi-element networks, and an efficient diagnosis of VNF layer faults is achieved using the centralized management of MANO. The algorithm theoretically reaches 100% diagnostic efficiency, and accurately locates faults no matter how many VNFC exists in the system.
[Key words]NFV; MANO; VNF; adaptive diagnosis; loopback diagnostic algorithm
0 ? 引言
在傳統(tǒng)的通信網(wǎng)絡(luò)中,每一類服務(wù)都由特定的專有服務(wù)器的專用設(shè)備承載,并通過專有的通信鏈路進(jìn)行通信。隨著業(yè)務(wù)種類的持續(xù)增加,現(xiàn)網(wǎng)累積了大量的專有設(shè)備,這就給運(yùn)營(yíng)商的運(yùn)維帶來了極大的不便。
為解決專有網(wǎng)絡(luò)業(yè)務(wù)增長(zhǎng)帶來的諸多問題,實(shí)現(xiàn)新業(yè)務(wù)的快速部署,達(dá)到網(wǎng)絡(luò)的高度自動(dòng)化和動(dòng)態(tài)配置,同時(shí)降低企業(yè)的支出和運(yùn)營(yíng)成本,NFV技術(shù)應(yīng)運(yùn)而生。NFV通過使用基于行業(yè)標(biāo)準(zhǔn)的X86服務(wù)器、交換機(jī)、存儲(chǔ)設(shè)備等通用硬件,取代專有設(shè)備,利用虛擬化技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)功能的承載[1]。ETSI提出的NFV架構(gòu)[2]已成為業(yè)界認(rèn)可的事實(shí)標(biāo)準(zhǔn)(如圖1)。NFV架構(gòu)可從縱向解構(gòu)為:基礎(chǔ)設(shè)施層、虛擬網(wǎng)絡(luò)層和運(yùn)營(yíng)支撐層;從橫向可解構(gòu)為:業(yè)務(wù)網(wǎng)絡(luò)域和管理編排域(MANO, Management and Orchestration)。NFV通過MANO能夠?yàn)橄到y(tǒng)提供可管理、可控制、可運(yùn)營(yíng)的服務(wù)環(huán)境[3]。MANO的本質(zhì)是實(shí)現(xiàn)VNF以及NS(Network Service,網(wǎng)絡(luò)服務(wù))的自動(dòng)化部署、彈性調(diào)度及高效運(yùn)維管理[4]。
圖1 ? ?ETSI提出的NFV框架
NFV的引進(jìn)使得運(yùn)營(yíng)商的網(wǎng)絡(luò)部署成本降低,并能快速適應(yīng)網(wǎng)絡(luò)需求的變化,但網(wǎng)元分層解耦后的故障定位問題增加了運(yùn)維的復(fù)雜性,在一定程度上對(duì)NFV的應(yīng)用前景產(chǎn)生了影響[5]。
系統(tǒng)級(jí)故障診斷作為一種針對(duì)多處理器系統(tǒng)的故障處理方法,為NFV的故障處理提供了一種新的解決方案。隨著業(yè)務(wù)的擴(kuò)展,NFV系統(tǒng)的規(guī)模也會(huì)越來越大,進(jìn)行系統(tǒng)級(jí)診斷也變得非常有必要。
1 ? 系統(tǒng)級(jí)故障診斷的相關(guān)概念
系統(tǒng)級(jí)故障診斷其研究的是如何根據(jù)已有的癥狀推出系統(tǒng)的故障節(jié)點(diǎn)的位置。根據(jù)已有癥狀找出系統(tǒng)的故障模式的這一過程就被稱之為“診斷”。
(1)系統(tǒng)級(jí)故障診斷[6]。基本思想是讓系統(tǒng)中的處理機(jī)相互測(cè)試,產(chǎn)生一組測(cè)試結(jié)果,隨后對(duì)該測(cè)試結(jié)果進(jìn)行分析,最終找出故障設(shè)備。這種方法不需要使用專門的測(cè)試設(shè)備,僅依靠系統(tǒng)內(nèi)的處理機(jī)和通信鏈路進(jìn)行,在不增加系統(tǒng)額外成本的情況下就可以實(shí)現(xiàn)系統(tǒng)的快速自診斷。
(2)自適應(yīng)測(cè)試策略[7]。這是系統(tǒng)級(jí)故障的一種具體診斷方法。它是指每次只選擇執(zhí)行部分測(cè)試,然后根據(jù)這些部分測(cè)試的結(jié)果進(jìn)行診斷。該種策略運(yùn)用“集中控制,分散處理”的思想,允許分時(shí)分塊地對(duì)系統(tǒng)進(jìn)行測(cè)試,對(duì)于系統(tǒng)中已安排的測(cè)試,可以先執(zhí)行某些測(cè)試,根據(jù)得到的診斷結(jié)果動(dòng)態(tài)地安排后面的測(cè)試,利用已確定節(jié)點(diǎn)測(cè)試未確定節(jié)點(diǎn),直到系統(tǒng)中所有故障節(jié)點(diǎn)都被檢測(cè)出來。
(3)PMC模型及其相關(guān)約定。為了更加方便地研究多機(jī)系統(tǒng),一般將具體的拓?fù)渚W(wǎng)絡(luò)抽象為圖,實(shí)際網(wǎng)絡(luò)中的通信鏈路抽象為測(cè)試邊,網(wǎng)絡(luò)中的各類硬件設(shè)備抽象為節(jié)點(diǎn)。系統(tǒng)中所有測(cè)試結(jié)果的集合稱為癥狀。在一個(gè)系統(tǒng)中,節(jié)點(diǎn)的狀態(tài)分為故障和非故障兩種,任意兩個(gè)節(jié)點(diǎn)之間的測(cè)試結(jié)果用0和1來表示,當(dāng)測(cè)試節(jié)點(diǎn)ai測(cè)試被測(cè)試節(jié)點(diǎn)aj為故障時(shí)用1表示;反之,ai測(cè)試aj為非故障時(shí)用0表示,因此,一個(gè)系統(tǒng)的癥狀即為一串0和1相間的序列。測(cè)試結(jié)點(diǎn)正常的時(shí)候,測(cè)試結(jié)果是可靠的;而當(dāng)測(cè)試結(jié)點(diǎn)故障時(shí),測(cè)試結(jié)果是不可靠的。表1給出了PMC模型具體的診斷規(guī)則[8]:
表1 ? ?PMC模型的診斷規(guī)則
測(cè)試節(jié)點(diǎn)狀態(tài) 被測(cè)試節(jié)點(diǎn)狀態(tài) 測(cè)試結(jié)果
非故障 非故障
故障 0
1
故障 非故障
故障 0或1
0或1
(4)分治回環(huán)診斷算法[8]。這是一種自適應(yīng)的診斷算法,其主要思想為將整個(gè)系統(tǒng)劃分為多個(gè)包含回測(cè)邊的01序列,對(duì)每個(gè)01序列進(jìn)行診斷得出故障節(jié)點(diǎn)位置,然后修復(fù)故障節(jié)點(diǎn),最終將所有故障節(jié)點(diǎn)診斷出來。
2 ? 自適應(yīng)測(cè)試策略在NFV故障診斷中的
應(yīng)用
2.1 ?NFV對(duì)故障管理的影響分析
網(wǎng)絡(luò)NFV化之后,對(duì)軟硬件進(jìn)行了分層解耦,引入了更多的廠商,這就使得系統(tǒng)內(nèi)可能發(fā)生故障的點(diǎn)更多。發(fā)生故障時(shí),故障的定位以及責(zé)任劃定也更為復(fù)雜。在故障處理方面,NFV網(wǎng)元相較于傳統(tǒng)的網(wǎng)元有很大不同,傳統(tǒng)網(wǎng)元設(shè)備都是軟硬件一體化,當(dāng)發(fā)生故障時(shí),只需定位到具體的物理設(shè)備進(jìn)行排查即可。而在NFV下,NFVI層、虛擬化層、應(yīng)用軟件層、業(yè)務(wù)邏輯層都會(huì)發(fā)生故障[9]。因此,如何對(duì)故障進(jìn)行定位和修復(fù)成為NFV系統(tǒng)是否可靠的關(guān)鍵。文獻(xiàn)[9]給出了一種NFV故障關(guān)聯(lián)及故障自愈方案,對(duì)NFV下的故障處理采用“逐層關(guān)聯(lián)、分類管理”的辦法,對(duì)物理資源、虛擬資源、虛擬網(wǎng)元、網(wǎng)絡(luò)服務(wù)進(jìn)行垂直式的逐層關(guān)聯(lián),對(duì)資源故障和業(yè)務(wù)故障進(jìn)行分類管理,為NFV場(chǎng)景下的故障定位和處理提供了很好的指引。
根據(jù)NFV的技術(shù)原理,一個(gè)虛擬業(yè)務(wù)網(wǎng)絡(luò)可以包含多個(gè)VNF和VL(不同VNF之間的虛擬連接),一個(gè)VNF可以劃分為一組VNFC(Virtualised Network Function Component,虛擬化網(wǎng)絡(luò)功能模塊的內(nèi)部組件)和VL(某個(gè)VNF內(nèi)的虛擬連接)。這些VNFC和VL構(gòu)成了一個(gè)巨大的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
將VNF解構(gòu)為VNFC,網(wǎng)絡(luò)功能細(xì)化為更小的功能,這樣能提供更靈活的應(yīng)用,更快的響應(yīng),發(fā)生故障時(shí)能更加精確地定位故障位置。
目前,NFV下網(wǎng)絡(luò)單元有動(dòng)態(tài)擴(kuò)縮容的場(chǎng)景,但大多數(shù)情況下網(wǎng)絡(luò)保持穩(wěn)定,也就是說,網(wǎng)絡(luò)在搭建完成之后,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)基本不變,這就符合了系統(tǒng)級(jí)診斷的要求。
2.2 ?系統(tǒng)級(jí)診斷在NFV下運(yùn)用的可行性
自適應(yīng)診斷的策略能夠屏蔽不同設(shè)備間的性能差異,只要求這些物理或者虛擬網(wǎng)元具備相應(yīng)計(jì)算功能即可。同時(shí)自適應(yīng)診斷策略的容錯(cuò)性很高,也就是說當(dāng)系統(tǒng)中同時(shí)出現(xiàn)多處故障時(shí),利用自適應(yīng)診斷的相應(yīng)方法仍能正確地確定故障位置。
系統(tǒng)級(jí)診斷要求網(wǎng)絡(luò)中的節(jié)點(diǎn)都有產(chǎn)生和接收信號(hào)的能力,在實(shí)際的電信網(wǎng)絡(luò)中,無論是物理設(shè)備還是虛擬網(wǎng)元都能產(chǎn)生和接收相應(yīng)的測(cè)試信號(hào)并且處理這些信號(hào),這就給系統(tǒng)級(jí)診斷的相關(guān)方法在電信網(wǎng)絡(luò)中應(yīng)用提供了基礎(chǔ)。
運(yùn)營(yíng)商發(fā)展NFV最重要的目標(biāo)是基于通用設(shè)備,利用虛擬化的技術(shù)實(shí)現(xiàn)傳統(tǒng)電信設(shè)備的功能。NFV的虛擬網(wǎng)絡(luò)層直接與網(wǎng)絡(luò)業(yè)務(wù)相關(guān),可將物理網(wǎng)元映射為VNF,在邏輯上實(shí)現(xiàn)IMS、EPC等網(wǎng)元的功能,利用VNF在基礎(chǔ)設(shè)施層提供的服務(wù)是NFV的主要運(yùn)營(yíng)目標(biāo),這意味著VNF左右著網(wǎng)絡(luò)虛擬化的前景。在云計(jì)算時(shí)代,網(wǎng)絡(luò)功能升級(jí)是由軟件來實(shí)現(xiàn)的,對(duì)硬件的依賴度很低,而像微服務(wù)、容器、Devops這些新技術(shù)的賦能對(duì)象應(yīng)該是VNF,可見VNF在整個(gè)NFV中的重要性。
NFV架構(gòu)下實(shí)現(xiàn)自動(dòng)化運(yùn)維的關(guān)鍵環(huán)節(jié)就是VNF生命周期管理,這也是MANO的核心支撐要求。MANO在進(jìn)行VNF的部署時(shí),根據(jù)系統(tǒng)實(shí)際的需求以及基礎(chǔ)硬件設(shè)施的性能進(jìn)行自動(dòng)化編排,實(shí)現(xiàn)VNF的實(shí)例化、擴(kuò)縮容、查詢、轉(zhuǎn)發(fā)、終結(jié)、自愈等功能。當(dāng)VNF發(fā)生故障時(shí),MANO能夠依據(jù)自適應(yīng)診斷的相關(guān)策略確認(rèn)故障位置,對(duì)故障進(jìn)行修復(fù)。大致步驟是OSS/MANO進(jìn)行集約管理,根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),提前安排好測(cè)試方向和測(cè)試輪回。按照一定的自適應(yīng)診斷算法診斷出故障位置,修復(fù)一部分故障,然后再次安排一輪自適應(yīng)診斷,修復(fù)一部分故障,如此反復(fù),最終修復(fù)系統(tǒng)中所有故障。
上文提到了網(wǎng)元功能分層解耦讓故障處理變得復(fù)雜,要涉及到故障關(guān)聯(lián)、責(zé)任劃分、組織結(jié)構(gòu)調(diào)整等問題。同時(shí),由于VNF在NFV中的重要性,因此本文只從宏觀上針對(duì)VNF層面的故障進(jìn)行診斷。解決好VNF層的故障,在很大程度上解決了NFV下最大的故障處理問題。
系統(tǒng)級(jí)診斷策略的實(shí)現(xiàn)需要系統(tǒng)中的節(jié)點(diǎn)能產(chǎn)生并處理測(cè)試信息,同時(shí)要求有相關(guān)模塊對(duì)整個(gè)系統(tǒng)進(jìn)行測(cè)試規(guī)劃、整體結(jié)果分析等。在NFV中,VNF具有相當(dāng)?shù)挠?jì)算能力,能處理系統(tǒng)分配的測(cè)試信號(hào);MANO進(jìn)行中央控制,完成整個(gè)系統(tǒng)的測(cè)試序列劃分,對(duì)診斷癥狀進(jìn)行分析,對(duì)故障節(jié)點(diǎn)進(jìn)行修復(fù)??梢奛FV自身的特性滿足了系統(tǒng)級(jí)診斷策略實(shí)施的條件。
系統(tǒng)級(jí)故障診斷能屏蔽各網(wǎng)元和鏈路之間的信息處理方式,只從宏觀層面上關(guān)注各節(jié)點(diǎn)之間是否產(chǎn)生測(cè)試,不關(guān)注測(cè)試是如何產(chǎn)生的,當(dāng)處理機(jī)之間有性能功能方面的差異時(shí)也不會(huì)影響整體的測(cè)試結(jié)果[10]。盡管VNF中各VNFC有功能和性能差異,系統(tǒng)級(jí)故障診斷策略仍適用。
2.3 ?分治回環(huán)診斷算法對(duì)VNF層的診斷