冉 冉,胡 非,齊 俊,高 強(qiáng),白 亮
(國(guó)網(wǎng)遼寧省電力有限公司信息通信分公司,遼寧 沈陽(yáng) 110006)
很多云用戶通過(guò)云平臺(tái)實(shí)現(xiàn)計(jì)算、存儲(chǔ)等網(wǎng)絡(luò)行為,這種高度不間斷的動(dòng)態(tài)特點(diǎn)使異常點(diǎn)的出現(xiàn)概率增加,因此研究人員開(kāi)始對(duì)異常點(diǎn)檢測(cè)進(jìn)行研究[1]。異常點(diǎn)通常是指一些與預(yù)期行為模式不一致的數(shù)據(jù)源,在不同的場(chǎng)景中,異常點(diǎn)通常又被稱為離群點(diǎn)或污染點(diǎn)。傳統(tǒng)的云平臺(tái)異常點(diǎn)檢測(cè)主要分為無(wú)監(jiān)督的異常點(diǎn)檢測(cè)方法、有監(jiān)督的異常點(diǎn)檢測(cè)方法、半監(jiān)督的異常點(diǎn)檢測(cè)方法等[2]。但是這3種方法都有一定的局限性,由單一數(shù)據(jù)源計(jì)算得到的檢測(cè)方法在后續(xù)的分析中會(huì)導(dǎo)致近似估值檢測(cè)的結(jié)果具備極大的不確定性,且整體檢測(cè)準(zhǔn)確率較低,誤報(bào)率較高。因此本文提出了基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法,在保證算法準(zhǔn)確率的前提下提高了算法的計(jì)算速度,避免了算法結(jié)果的不確定性。
為進(jìn)一步提高檢測(cè)準(zhǔn)確率,對(duì)云平臺(tái)不同子系統(tǒng)的特征空間進(jìn)行優(yōu)化。在訓(xùn)練云平臺(tái)虛擬機(jī)學(xué)習(xí)時(shí),需要兼顧檢測(cè)風(fēng)險(xiǎn)和檢測(cè)經(jīng)驗(yàn),同時(shí)輸出最小化的權(quán)值。
(1)
式中:β為輸出權(quán)值;i為訓(xùn)練次數(shù);ξ為最小化的虛擬機(jī)學(xué)習(xí)訓(xùn)練誤差[3];ξi=[ξi1,ξi2,ξi3,…,ξim]T為虛擬機(jī)的訓(xùn)練誤差。
(2)
式中:β′為優(yōu)化后的輸出權(quán)值;ξ為優(yōu)化模型的虛擬機(jī)學(xué)習(xí)訓(xùn)練誤差;F為樣本集中非線性組合特征求解。如此就能夠?qū)崿F(xiàn)不同子系統(tǒng)之間的特征自動(dòng)融合。
基于構(gòu)建的子系統(tǒng)特征空間優(yōu)化模型,立足于對(duì)云平臺(tái)異常點(diǎn)的多元監(jiān)測(cè),設(shè)計(jì)基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法。
a.模型約束
完成云平臺(tái)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的構(gòu)建后,就需要引入模型約束,分別使用不同的可視化表達(dá)將V1、V2、V3作為多特征融合的異常特征,并在實(shí)現(xiàn)多特征融合的前提下設(shè)置模型參數(shù)。該模型必須滿足云平臺(tái)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的距離約束,以距離約束作為模型約束,進(jìn)而實(shí)現(xiàn)樣本數(shù)據(jù)的特征融合,因此式(2)直接拓展為
(3)
式中:i為樣本空間數(shù)據(jù)集,且i=1,2,…,N;β″為模型約束后的輸出權(quán)值。在約束下,子系統(tǒng)中擴(kuò)大特征樣本距離的元素值為
(4)
(5)
式中:N為樣本數(shù)據(jù)集的總量;i為數(shù)據(jù)集中傳輸數(shù)據(jù)的具體序號(hào);hi為第i個(gè)傳輸數(shù)據(jù)與上列傳輸數(shù)據(jù)的距離[7]。同時(shí)依據(jù)拉格朗日定理[8]得到更新后的多特征融合系數(shù)為
(6)
式中:si為更新后的特征系數(shù)[9];N為樣本數(shù)據(jù)集;β?為數(shù)據(jù)更新后的多特征融合輸出權(quán)值;r為隱藏輸出權(quán)值系數(shù)。
b.檢測(cè)流程
由式(6)可以得到基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)流程,如圖1所示。
由圖1可知,在計(jì)算云平臺(tái)異常點(diǎn)時(shí),首先通過(guò)離線訓(xùn)練的方式得到訓(xùn)練精度,設(shè)置最大迭代次數(shù)為100,當(dāng)?shù)螖?shù)大于100時(shí),得到最終的訓(xùn)練值;然后通過(guò)離線訓(xùn)練得到組合系數(shù),針對(duì)當(dāng)前訓(xùn)練樣本進(jìn)行特征融合;最后實(shí)現(xiàn)基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)。
a.試驗(yàn)準(zhǔn)備工作
為驗(yàn)證本方法優(yōu)于傳統(tǒng)方法,對(duì)基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法與基于SOM算法的異常點(diǎn)檢測(cè)方法和基于時(shí)間序列的異常點(diǎn)檢測(cè)方法進(jìn)行對(duì)比分析。試驗(yàn)由OpenStack技術(shù)搭建真實(shí)的云平臺(tái)環(huán)境,由8臺(tái)計(jì)算機(jī)組成,其中1臺(tái)計(jì)算機(jī)為云平臺(tái)提供控制功能,其他7臺(tái)為云平臺(tái)提供計(jì)算功能。在整體的LAN環(huán)境下,設(shè)置7個(gè)計(jì)算節(jié)點(diǎn)用于檢測(cè)組件與進(jìn)行應(yīng)用服務(wù),設(shè)計(jì)1個(gè)控制節(jié)點(diǎn)用于管理組件。
將管理節(jié)點(diǎn)生成器中的計(jì)算量全部用于模擬用戶的服務(wù)請(qǐng)求,使云服務(wù)器用于定向處理虛擬機(jī)的服務(wù)請(qǐng)求,再將8臺(tái)云平臺(tái)虛擬機(jī)的請(qǐng)求信息用于指向響應(yīng)邏輯,使數(shù)據(jù)庫(kù)虛擬機(jī)專注于處理存儲(chǔ)數(shù)據(jù),可以隨時(shí)添加故障注入程序,以驗(yàn)證基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法。設(shè)置4個(gè)試驗(yàn)的標(biāo)準(zhǔn)數(shù)據(jù)集,分別為Iris、Glass、Waveform、MLL。Iris是最小樣本集,只有250條樣本記錄;Waveform是最大樣本集,共有6000余條樣本記錄。這些樣本集用于機(jī)器學(xué)習(xí)算法的測(cè)試,驗(yàn)證算法的有效性和確定性。為確保試驗(yàn)結(jié)果的準(zhǔn)確性,每個(gè)數(shù)據(jù)集進(jìn)行3次試驗(yàn),最后計(jì)算數(shù)據(jù)結(jié)果的平均值。
b.試驗(yàn)結(jié)果分析
通過(guò)Matlab軟件將數(shù)據(jù)結(jié)果進(jìn)行對(duì)比分析,如表1所示。
表1 試驗(yàn)結(jié)果對(duì)比
由表1可知,基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法中,4個(gè)數(shù)據(jù)集的算法準(zhǔn)確率平均值為97.7%;基于SOM算法的異常點(diǎn)檢測(cè)方法中,4個(gè)數(shù)據(jù)集的算法準(zhǔn)確率平均值為95.1%;基于時(shí)間序列的異常點(diǎn)檢測(cè)方法中,4個(gè)數(shù)據(jù)集的算法準(zhǔn)確率平均值只有94.1%。因此基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法的準(zhǔn)確率高于其他2種方法;由于數(shù)據(jù)量小的數(shù)據(jù)集計(jì)算速度快,因此在同樣的數(shù)據(jù)集下,基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)速度快過(guò)其他2種方法。
在互聯(lián)網(wǎng)時(shí)代,云平臺(tái)因?yàn)槠錁O具開(kāi)放性的特點(diǎn),不可避免地受到更多用戶的關(guān)注,也因此帶來(lái)巨大的流量。在頻繁的訪問(wèn)下,為提高云平臺(tái)異常點(diǎn)檢測(cè)的準(zhǔn)確率和計(jì)算速度,對(duì)基于多特征融合的云平臺(tái)異常點(diǎn)檢測(cè)方法進(jìn)行研究,并通過(guò)試驗(yàn)驗(yàn)證方法的實(shí)用性,比其他傳統(tǒng)方法更為準(zhǔn)確可靠,計(jì)算速度更快。