徐建偉
(中海油信息科技有限公司湛江分公司,廣東 湛江 524000)
隨著通信網(wǎng)絡(luò)的不斷發(fā)展,網(wǎng)絡(luò)可靠性和故障預(yù)測(cè)變得越來(lái)越重要。故障的發(fā)生會(huì)對(duì)用戶造成嚴(yán)重影響,因此提前預(yù)測(cè)和預(yù)防故障變得至關(guān)重要。本研究旨在研究不同的網(wǎng)絡(luò)故障預(yù)測(cè)技術(shù),提供了一種基于數(shù)學(xué)方法的模型來(lái)評(píng)估它們的性能。文章采用了多種模型,包括線性回歸、指數(shù)回歸、支持向量機(jī)回歸、神經(jīng)網(wǎng)絡(luò)等,引入了深度神經(jīng)網(wǎng)絡(luò)與自編碼器。此外,還使用連續(xù)時(shí)間馬爾可夫鏈分析來(lái)提供對(duì)網(wǎng)絡(luò)可靠性的額外洞察。
本文研究了不同的預(yù)測(cè)技術(shù),利用數(shù)學(xué)方法制定了各種瞬態(tài)分析模型。為了比較這些技術(shù)的性能差異,研究使用了標(biāo)準(zhǔn)化均方根誤差(Normalized Root Mean Squared Error,NRMSE)來(lái)計(jì)算誤差。NRMSE是一種常用的度量方法,它將各個(gè)殘差匯總為一個(gè)單一的預(yù)測(cè)準(zhǔn)確性指標(biāo)。NRMSE具有明顯的優(yōu)勢(shì),因?yàn)樗蔷礁`差(RMSE)的無(wú)量綱形式,允許比較具有不同單位的RMSE,從而提高了實(shí)用性[1]。計(jì)算NRMSE的方法是:
回歸模型用作與其他模型進(jìn)行比較的基準(zhǔn),以評(píng)估其他技術(shù)的表現(xiàn)。這些模型涉及2個(gè)變量:故障發(fā)生次數(shù)(用n表示)和以小時(shí)為單位的故障間隔時(shí)間(用τn表示)。數(shù)據(jù)被分為訓(xùn)練數(shù)據(jù)(占總數(shù)據(jù)的3/4)和測(cè)試數(shù)據(jù)(占總數(shù)據(jù)的1/4)。在MATLAB中,使用曲線擬合工具從訓(xùn)練數(shù)據(jù)生成了以下方程[2]:
τn=0.003454·n+2.246
指數(shù)回歸與線性回歸類似,但它旨在將數(shù)據(jù)擬合成具有形式f(x)=a·eb·x的指數(shù)函數(shù),而不是線性函數(shù)。同樣,利用MATLAB中的曲線擬合工具,從訓(xùn)練數(shù)據(jù)生成的方程是:
τn=2.304·e0.001161·n
支持向量機(jī)(Support Vector Machines,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模型,它將空間中的點(diǎn)映射到一個(gè)更高維度的空間,通過(guò)超平面來(lái)分割這個(gè)空間。盡管超平面是線性的,但SVM可以利用該技巧來(lái)使用非線性函數(shù),將輸入映射到高維度空間[3]。SMATLAB中使用SVM回歸,實(shí)現(xiàn)了線性epsilon不敏感SVM(E-SVM)回歸或L1損失。它訓(xùn)練數(shù)據(jù)的預(yù)測(cè)變量和觀測(cè)響應(yīng)值。SVM尋找一個(gè)函數(shù)f(x),它的偏差與每個(gè)訓(xùn)練點(diǎn)x的觀測(cè)響應(yīng)值yn不超過(guò)epsilon值ε,即:
?n:0≤αn≤C
而二進(jìn)制粒子群算法[6],速度更新公式不變,含義有所變化。狀態(tài)空間中的每一個(gè)粒子的位置xid值為0或1,選擇哪個(gè)則取決于vid的大小,即速度為位置取值的概率。分兩種情況:① vid較大,xid較大概率取1,較小概率取0;② vid較小,xid較大概率取0,較小概率取1。
其中,G(xn,x)是核函數(shù)。在MATLAB中,線性SVM回歸的核函數(shù)是:
而對(duì)于高斯或RBF回歸,核函數(shù)是:
G(x1,x2)=exp(-|x1-x2|2)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種處理單元,接收輸入并生成輸出。每個(gè)神經(jīng)元分配相關(guān)權(quán)重給每個(gè)輸入,可以調(diào)整這些權(quán)重強(qiáng)度[4]。神經(jīng)元對(duì)輸入求和并計(jì)算輸出,可以數(shù)學(xué)表示為:
Output=f(i1w1+i2w2+i3w3+…+bias)
本文使用MATLAB中的2個(gè)應(yīng)用程序:神經(jīng)網(wǎng)絡(luò)擬合工具和神經(jīng)網(wǎng)絡(luò)時(shí)間序列工具。這2個(gè)應(yīng)用程序?qū)?shù)據(jù)分為70%訓(xùn)練值、15%驗(yàn)證值和15%測(cè)試值的集合,每次重復(fù)3次,取平均誤差。除了不同的神經(jīng)元數(shù)量外,還嘗試了2種不同的算法:Levenberg-Marquardt和Bayesian Regulation。結(jié)果顯示最成功的組合是神經(jīng)網(wǎng)絡(luò)具有20個(gè)神經(jīng)元,使用Levenberg-Marquardt進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)擬合工具構(gòu)建了1個(gè)2層的前饋網(wǎng)絡(luò),具有1個(gè)sigmoid函數(shù)作為激活函數(shù)[5]。
自編碼器函數(shù)在MATLAB中使用,使用默認(rèn)的10個(gè)神經(jīng)元的隱藏層。自編碼器在測(cè)試數(shù)據(jù)上進(jìn)行訓(xùn)練,然后轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)。在測(cè)試數(shù)據(jù)上測(cè)試此網(wǎng)絡(luò)以計(jì)算NRMSE和RMSE。自編碼器的訓(xùn)練過(guò)程基于成本函數(shù)的優(yōu)化,該成本函數(shù)測(cè)量輸入x與其在輸出x^處的重建之間的誤差。向量x∈D_x被映射到z∈D(1)通過(guò):
其中,上標(biāo)(2)表示第二層。h(2):Dx→Dx是解碼器的傳遞函數(shù),W(2)∈Dx×D(1)是權(quán)重矩陣,b(2)∈Dx是偏置向量。這是一個(gè)層的數(shù)學(xué)表示,但對(duì)于自編碼器的其他層,數(shù)學(xué)仍然相同。
連續(xù)時(shí)間馬爾可夫鏈分析可以提供對(duì)蜂窩網(wǎng)絡(luò)狀態(tài)的額外洞察,因?yàn)樗菬o(wú)記憶的,只有過(guò)去故障的關(guān)鍵部分由轉(zhuǎn)移概率捕獲,故障間隔時(shí)間服從指數(shù)分布[6]。
對(duì)于連續(xù)時(shí)間馬爾可夫鏈分析,網(wǎng)絡(luò)只能存在于2個(gè)狀態(tài)中:健康和次優(yōu)。故障間隔時(shí)間的μ值是1/(均值)。在這種情況下,μ值為0.38625。維護(hù)時(shí)間的λ值以類似的方式計(jì)算,為0.01589。使用這些值,可以計(jì)算發(fā)生器矩陣Q和速率矩陣R。兩狀態(tài)系統(tǒng)的計(jì)算如下:
利用這2個(gè)矩陣,可以執(zhí)行各種瞬態(tài)分析。CTMC的行為由Kolmogorov微分方程描述,可以使用生成矩陣Q找到。然后,可以通過(guò)P(T)=P(0)×eQ(Γ)來(lái)獲得概率向量,其中P(0)是初始概率向量。本文采用均勻化方法,因?yàn)樗鼘?dǎo)致更高效的計(jì)算并具有更高的準(zhǔn)確性[7]。使用此方法,可以計(jì)算概率向量:
其中,P^是概率轉(zhuǎn)移矩陣,求和可以根據(jù)誤差公式進(jìn)行截?cái)?
使用了誤差值為0.0001。概率轉(zhuǎn)移矩陣形成了本文中使用的3個(gè)性能矩陣的計(jì)算基礎(chǔ)。第一個(gè)是占用時(shí)間,通過(guò)以下矩陣形式計(jì)算:
其中,pij(t)是轉(zhuǎn)移概率矩陣P的元素。
第二個(gè)是首次通過(guò)時(shí)間,這是系統(tǒng)從最佳狀態(tài)過(guò)渡到次優(yōu)狀態(tài)所需的預(yù)期時(shí)間。這使用以下方程:
模型的結(jié)果總結(jié)如表1所示。結(jié)果表明,除了使用自編碼器的深度神經(jīng)網(wǎng)絡(luò)外,大多數(shù)模型在預(yù)測(cè)測(cè)試數(shù)據(jù)上的故障間隔時(shí)間方面都取得了相對(duì)相似的成功。NRMSE顯著提高的結(jié)果表明,自編碼器比所有其他技術(shù)都具有更好的故障預(yù)測(cè)效果。
表1 模型測(cè)試結(jié)果
CTMC分析提供了整個(gè)網(wǎng)絡(luò)可靠性的關(guān)鍵信息。可以根據(jù)新值調(diào)整這些分析,計(jì)算占用時(shí)間、首次故障發(fā)生時(shí)間和穩(wěn)態(tài)分布的新預(yù)期時(shí)間[9]。網(wǎng)絡(luò)從健康狀態(tài)切換到不健康狀態(tài)的概率非常高。12小時(shí)后,系統(tǒng)處于不健康狀態(tài)的概率為95%。一天后,次優(yōu)狀態(tài)的值保持在0.9605不變?;谶@些概率值,制定了一個(gè)模型,使用了75%的閾值水平來(lái)表示故障發(fā)生。模型每隔4小時(shí)檢查1次,為期1周,預(yù)測(cè)準(zhǔn)確度為27/42,即64.29%。該模型避免了導(dǎo)致最多損害的二型錯(cuò)誤。在一個(gè)月內(nèi)(31天),網(wǎng)絡(luò)平均只會(huì)在健康狀態(tài)下度過(guò)1.3天,在次優(yōu)狀態(tài)下度過(guò)29.7天。這表明,網(wǎng)絡(luò)需要采取更好的主動(dòng)方法,以減少故障發(fā)生的次數(shù),提高客戶的質(zhì)量。首次通過(guò)時(shí)間計(jì)算為2.589小時(shí),與平均故障間隔時(shí)間2.589小時(shí)一致,因?yàn)镃MTC分析基于2個(gè)變量都遵循指數(shù)分布的事實(shí)。在其壽命內(nèi),網(wǎng)絡(luò)只會(huì)在健康狀態(tài)下度過(guò)3.95%的時(shí)間,而將在次優(yōu)狀態(tài)下度過(guò)96.05%的時(shí)間。這突顯了大規(guī)模密集化的事實(shí),因此,迫切需要具有在5G蜂窩網(wǎng)絡(luò)中可靠運(yùn)行所需的故障預(yù)測(cè)能力的主動(dòng)自愈技術(shù),以在訂戶受到影響之前提前預(yù)測(cè)網(wǎng)絡(luò)故障[10]。
本研究通過(guò)比較不同的網(wǎng)絡(luò)故障預(yù)測(cè)技術(shù)以及應(yīng)用數(shù)學(xué)方法構(gòu)建的模型,為提前預(yù)測(cè)和預(yù)防網(wǎng)絡(luò)故障提供了重要的參考。深度神經(jīng)網(wǎng)絡(luò)與自編碼器在預(yù)測(cè)效果上表現(xiàn)出色,而線性模型性能較差,突顯了網(wǎng)絡(luò)故障數(shù)據(jù)的復(fù)雜性。此外,連續(xù)時(shí)間馬爾可夫鏈分析提供了有關(guān)網(wǎng)絡(luò)可靠性的重要信息,強(qiáng)調(diào)了需要更主動(dòng)的方法來(lái)減少故障次數(shù)。這項(xiàng)研究對(duì)于網(wǎng)絡(luò)運(yùn)營(yíng)和維護(hù)領(lǐng)域有著重要的實(shí)際意義,有助于提高網(wǎng)絡(luò)的穩(wěn)定性和用戶體驗(yàn)。未來(lái)的研究可以進(jìn)一步改進(jìn)模型,以更準(zhǔn)確地預(yù)測(cè)網(wǎng)絡(luò)故障,探索更多先進(jìn)的預(yù)測(cè)技術(shù)。