国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合小波包與XGBoost的云平臺時序監(jiān)控數(shù)據(jù)異常檢測方法*

2022-08-03 05:22蘇海明亓開元逄立業(yè)郭濤張連法
數(shù)字技術(shù)與應用 2022年7期
關(guān)鍵詞:波包時序分類器

蘇海明 亓開元 逄立業(yè) 郭濤 張連法

1.高效能服務器與存儲技術(shù)國家重點實驗室;2.濟南浪潮數(shù)據(jù)技術(shù)有限公司云計算研發(fā)部

針對云平臺中單維時序監(jiān)控數(shù)據(jù)異常檢測的問題,單純的基于閾值的異常檢測方法無法滿足真實運維環(huán)境的需求,提出了一種結(jié)合小波分析與XGBoost的云平臺時序監(jiān)控數(shù)據(jù)異常檢測算法。考慮單維時序數(shù)據(jù)的變化,提取小波包能量特征,組成特征數(shù)據(jù)集,將特征數(shù)據(jù)集作為 輸入訓練XGBoost分類模型。在某高校云平臺監(jiān)控數(shù)據(jù)集上進行實驗,樣本數(shù)據(jù)由人工標注,在此數(shù)據(jù)集上驗證了該方法的準確性與有效性,最終異常檢測的誤報率為8.4%,準確率達到92.29%,相對傳統(tǒng)方案,本文方案在異常識別準確率上并沒有太大提升,但在誤報率上降低了50%以上。

云平臺也稱為云計算平臺,是指基于硬件資源和軟件資源的服務,提供計算、網(wǎng)絡(luò)和存儲能力。云平臺監(jiān)控系統(tǒng)不間斷的從平臺中采集大量時序KPI[1](Key Performance Indicators)即關(guān)鍵性能指標,例如CPU使用率,網(wǎng)絡(luò)吞吐量等,來判斷平臺的運行狀態(tài)。隨著云平臺[2]的越來越成熟,平臺規(guī)模也從最初的幾臺、十幾臺上升到幾百臺甚至上千臺,同時平臺自身的服務也越來越多、調(diào)用也越來越復雜,使監(jiān)控數(shù)據(jù)具有海量且復雜的特點。

傳統(tǒng)云平臺中針對KPI的異常檢測大多采用閾值的方式,即運維人員根據(jù)經(jīng)驗設(shè)置閾值,當KPI數(shù)據(jù)達到此閾值時,產(chǎn)生異常告警[3]。但實際的應用過程中發(fā)現(xiàn),閾值設(shè)置太依賴于經(jīng)驗,很難全面的對繁雜的KPI準確設(shè)置閾值;閾值太高,對異常情況產(chǎn)生漏報,質(zhì)量隱患難以發(fā)現(xiàn),閾值太低,往往引發(fā)告警風暴,干擾運維人員的判斷;另外對于一些數(shù)據(jù)抖動但低于閾值的情況,這種方式無法檢測,產(chǎn)生漏報。

綜上,單純基于閾值來判定異常的方式無法滿足云平臺中異常檢測的需求,這就要求我們使用機器學習和數(shù)據(jù)挖掘技術(shù)進行自動異常檢測。但在真實云平臺監(jiān)控中,異常發(fā)生概率比較低,難以積累大量異常樣本,這就導致在機器學習流程框架中需要具備自動化構(gòu)建樣本的能力,產(chǎn)生足夠的數(shù)據(jù)以支持異常檢測模型的訓練。另外由于時序監(jiān)控數(shù)據(jù)復雜,有時序數(shù)據(jù)的特點,即依賴于時間變化,用數(shù)值反應變化程度,這種變化可以有多種模式,常見的時序數(shù)據(jù)模式有平穩(wěn)型、波動型和周期型。在監(jiān)控系統(tǒng)中數(shù)據(jù)模式隨業(yè)務改變而發(fā)生變化,這就要求在針對時序監(jiān)控數(shù)據(jù)的異常檢測中,檢測模型有足夠的泛化能力在不同的數(shù)據(jù)模式下檢測出異常。

為了解決上述問題,本文開發(fā)一種基于XGBoost的異常檢測方法,并將其應用于自研系統(tǒng)中。包含了數(shù)據(jù)特征提取,特征選擇,XGBoost[4]模型訓練與檢測。

1 基本概念

1.1 小波包分解

在一個監(jiān)控系統(tǒng)中,采集的指標時序數(shù)據(jù)的一般表現(xiàn)為復雜的非平穩(wěn)序列。小波分析[5]兼具時域與頻域的分析能力,且具有可變的時頻分辨率,適合分析信號中的突變信號。但小波變換只對信號的低頻部分做進一步分解而對高頻部分不再繼續(xù)分解,而小波包變換不僅可以分解時序數(shù)據(jù)的低頻部分,也可以分解數(shù)據(jù)中的高頻部分,所以這種分解方式是一種更精細時序數(shù)據(jù)分解方法,提高了時序數(shù)據(jù)的時頻分辨率。

本文中使用的小波包分解可用一個二叉樹描述,如圖1所示。圖中每個節(jié)點表示一個信號頻帶,第一個數(shù)字表示小波包的分解層數(shù),經(jīng)過小波包分解不但可以覆蓋所有原始信號頻帶,還可以在任意多尺度分解信號,得到全面的局部信息。

圖1 小波包分解Fig.1 Wavelet packet decomposition

一般的對KPI數(shù)據(jù)進行j層小波包分解后,共可以得到2j個子頻帶。本文使用小波包能量特征作為分類特征,則第i個子頻帶對應的能量表示為:

1.2 XGBoost模型

XGBoost算法全稱為極端梯度提升算法,是一種基于集成學習的弱學習算法。弱分類器即為比隨機猜測略好但準確率不高的分類器。XGBoost的核心在于在分類器中不斷添加特征分裂樹,每一棵樹就相當于一個弱分類器,將這些樹進行集成組合,匯總所有弱分類器的建模結(jié)果,以獲取比單個模型更好的分類表現(xiàn)。

若輸入數(shù)據(jù)為{(x1,y1),(x2,y2),...,(xm,ym)},其中x為根據(jù)樣本提取的特征,y為數(shù)據(jù)標簽。則XGBoost模型的輸出可以表述為:

式中,fk(xi)表示第k個弱分類器,弱分類器的總量為K個。

這K個弱分類器,為了組成強分類器,需要最小化函數(shù):

其中i代表數(shù)據(jù)集中的第i個樣本,m表第k棵樹的數(shù)據(jù)總量,K表示所有樹的個數(shù)。l(?)為損失函數(shù),用于衡量真實標簽與輸出值之間的差異,Ω(?)為正則化函數(shù),代表了模型的復雜度。正則化項中T為樹的葉子節(jié)點個數(shù),w為葉子節(jié)點的權(quán)值,γ和λ為正則項中的超參數(shù)。在每一輪迭代時,只對第t棵回歸樹的目標函數(shù)進行優(yōu)化:

2 異常檢測流程

本文中使用的數(shù)據(jù)為某高校56節(jié)點云平臺四個月的監(jiān)控數(shù)據(jù),監(jiān)控數(shù)據(jù)采集工具為Telegraf,使用其自帶插件CPU、DISK、MEM采集,采集周期為60s。采集的數(shù)據(jù)包含CPU,內(nèi)存等關(guān)鍵性能指標的監(jiān)控數(shù)據(jù)。異常點使用機器識別與人工判定[6]的方式標注?;诨瑒哟翱诘姆绞綄?shù)據(jù)進行分割,窗口大小為60,步長大小為10,濾除數(shù)據(jù)中的缺失點,并添加數(shù)據(jù)標簽,正常樣本標記為負樣本,異常樣本標記為正樣本。共提取出樣本數(shù)據(jù)總數(shù)為21542,其中正常樣本總數(shù)為20074,異常樣本數(shù)為1468。異常樣本占據(jù)樣本集中的比例為6.81%。

本文基于XGBoost實現(xiàn)對KPI異常點檢測,其實現(xiàn)過程如圖2所示。

圖2 異常檢測流程Fig.2 Anomaly detection process

本文的流程包含了訓練流程與測試流程,訓練過程主要可以分為以下幾個步驟:

實驗前首先對KPI樣本數(shù)據(jù)集進行歸一化處理,使用min-max標準化方法,對原始數(shù)據(jù)進行線型變換,將數(shù)據(jù)映射到[0,1]之間,公式如下:

其中,x為原始數(shù)據(jù)的值,min為樣本數(shù)據(jù)的最小值,max為樣本數(shù)據(jù)的最大值,x*為歸一化以后的數(shù)據(jù)值。劃分訓練集與測試集的比例為7∶3,7份數(shù)據(jù)用作模型訓練,3份數(shù)據(jù)用作模型測試。

2.1 小波包特征提取與增強

基于數(shù)據(jù)樣本提取特征,構(gòu)造特征集。對KPI樣本值進行3層小波分解,小波基函數(shù)為Daubechies函數(shù)[7],是一種離散正交小波。共提取了8個頻帶,計算出各頻帶的能量值Ei。由于數(shù)據(jù)集中得異常樣本過少,正樣本占比僅為6.81%,為避免模型訓練時對正常數(shù)據(jù)樣本的傾斜過大,因此本文使用ADASYN算法[8]對特征數(shù)據(jù)集進行增強,平衡正常樣本與異常樣本的比例,一定程度上緩解了模型過擬合。

2.2 XGBoost模型訓練

XGBoost算法模型包含了大量參數(shù),設(shè)置恰當?shù)膮?shù)是決定數(shù)據(jù)異常檢測準確率的一個關(guān)鍵因素。通過對模型調(diào)參確定XGBoost算法最優(yōu)參數(shù),提高異常檢測的準確率。本文使用網(wǎng)格搜索的方法進行參數(shù)選擇,主要調(diào)整的參數(shù)為learning_rate學習率,n_estimators迭代次數(shù),max_depth數(shù)最大深度。

根據(jù)經(jīng)驗值最優(yōu)迭代系數(shù)設(shè)置范圍為[10,750],步長設(shè)置為5,最優(yōu)樹深度設(shè)置范圍為[3,20],步長設(shè)置為1,最優(yōu)學習率設(shè)置范圍為[0.01,0.3],步長設(shè)置為0.01。最終選擇出最佳參數(shù):{‘n_estimators’∶240,‘learning_rate’∶0.1,‘max_depth’∶5}。

2.3 XGBoost模型測試

XGBoost模型訓練后,模型以文件方式進行保存,提取測試數(shù)據(jù)的小波包能量特征,將特征輸入訓練好的模型中,輸出異常檢測結(jié)果。

3 結(jié)果評估

3.1 評估指標

為了評估模型的有效性,本文使用誤報率FPR,召回率Recall,精確率Pre和準確率Acc四個方面來進行評價。計算公式為:

式中:TP表示正確識別的異常,TN為正常樣本數(shù),F(xiàn)P為正常檢測為異常的樣本數(shù),F(xiàn)N為異常檢測為正常的樣本數(shù)。

3.2 結(jié)果評估

本文提出的方法與其他方法進行對比。結(jié)果如表1所示。

表1中的結(jié)果對比5種模型的異常檢測結(jié)果,其中支持向量機(SVM),SVM+PCA,隨機森林(RF)方法特征方面使用本文中特征進行模型構(gòu)建。反向傳播神經(jīng)網(wǎng)絡(luò)(BP)模型使用文獻[9]中的方案進行特征提取與模型構(gòu)建。

表1 不同模型異常檢測結(jié)果(%)Tab.1 Anomaly detection results of different models(%)

本文中的XGBoost模型誤報率與其他結(jié)果相比,從表1中的結(jié)果可以看出,SVM方法與本文中的XGBoost具有相似的召回率,但誤報率比SVM方法低的多,誤報率明顯降低,誤報率僅有8.4%,比SVM模型的結(jié)果低45%,與文獻[9]中的方案相比,誤報率降低了50%。但在召回率上表現(xiàn)不那么明顯,幾種模型表現(xiàn)都具有91%以上的召回率,但本文構(gòu)建出了模型在這幾種模型中異常樣本召回比例相對較高,達到了92.88%,與SVM模型相比有0.13%的優(yōu)勢。而在精確率與準確率上本文使用的方法具有更明顯的優(yōu)勢,文獻[9]使用的方法,僅有84.5%的精度與87.45%的準確率,本文使用的方法精確率相對提高了5.85%,準確率提高了4.84%。

4 結(jié)語

本文針對云環(huán)境下單維時序監(jiān)控數(shù)據(jù)異常檢測問題,提出了結(jié)合小波包分解與XGBoost模型的異常檢測方法,提取數(shù)據(jù)樣本小波包分解后各個頻帶上的能量特征,并使用XGBoost構(gòu)建異常檢測模型。對比RF,SVM與BP的異常檢測效果,證明了特征構(gòu)造的有效性與XGBoost異常檢測模型的可用性。該方式在異常表述上比較簡單并可較輕易的在工業(yè)生產(chǎn)中使用。

猜你喜歡
波包時序分類器
基于Sentinel-2時序NDVI的麥冬識別研究
基于小波包Tsallis熵和RVM的模擬電路故障診斷
BP-GA光照分類器在車道線識別中的應用
基于FPGA 的時序信號光纖傳輸系統(tǒng)
一種毫米波放大器時序直流電源的設(shè)計
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于小波包變換的電力系統(tǒng)諧波分析
小波包理論與圖像小波包分解
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
施秉县| 开原市| 弥勒县| 彩票| 台北县| 娄烦县| 治县。| 灵台县| 博兴县| 定日县| 太白县| 兰溪市| 昌乐县| 崇左市| 城固县| 乌恰县| 宁城县| 汾西县| 通化市| 鄱阳县| 平潭县| 绥滨县| 东台市| 青龙| 西乡县| 且末县| 莱阳市| 扶风县| 宁化县| 色达县| 平定县| 新野县| 河北省| 郑州市| 黄大仙区| 永靖县| 星子县| 慈利县| 莱州市| 扎兰屯市| 冀州市|