劉懺 張鵬 王朝暉 孫強(qiáng) 周翔豪
(中國鐵路信息科技集團(tuán)有限公司 北京市 100038)
隨著鐵路主數(shù)據(jù)中心的投入使用以及鐵路云平臺的應(yīng)用,鐵路信息系統(tǒng)基礎(chǔ)設(shè)施的數(shù)據(jù)規(guī)模也在不斷增長,鐵路信息系統(tǒng)基礎(chǔ)設(shè)施運維管理平臺每天要對不同監(jiān)控對象如網(wǎng)絡(luò)交換機(jī)、服務(wù)器、數(shù)據(jù)庫和中間件等進(jìn)行實時監(jiān)控,不僅體現(xiàn)在數(shù)據(jù)量的增長上,數(shù)據(jù)類型的種類也越來越復(fù)雜,每天產(chǎn)生的告警數(shù)量和告警類型也在不斷增長。應(yīng)鐵路運維管理的要求,保證鐵路信息系統(tǒng)的正常運行是當(dāng)前的第一要務(wù),這就要求一線運維人員能夠及時處理系統(tǒng)各項報警信息,在第一時間使系統(tǒng)恢復(fù)正常,因此引入異常數(shù)據(jù)檢測技術(shù)的必要性不言而喻?,F(xiàn)有的數(shù)據(jù)異常檢測通常依賴于設(shè)置固定的告警數(shù)值基線對各項監(jiān)控指標(biāo)進(jìn)行監(jiān)控,但由于監(jiān)測方式不夠智能,特別是考慮到鐵路信息系統(tǒng)數(shù)據(jù)與具體時刻的相關(guān)性,傳統(tǒng)的固定基線告警判定機(jī)制導(dǎo)致監(jiān)測的結(jié)果不夠精準(zhǔn),產(chǎn)生的告警信息會增加更多成本。因此引入動態(tài)基線管理技術(shù),依托大數(shù)據(jù)分析技術(shù)計算運行趨勢,配置動態(tài)告警閾值,使監(jiān)控預(yù)警更加符合鐵路業(yè)務(wù)實際使用情況,提高告警的精確性,最終實現(xiàn)提高鐵路運維能力的要求。
動態(tài)基線告警原理是當(dāng)監(jiān)控數(shù)據(jù)超出了上容忍邊界和下容忍邊界時,監(jiān)控系統(tǒng)將產(chǎn)生告警信息提醒運維人員,主要的流程如圖1所示。
圖1:動態(tài)基線告警流程
基線的主要作用是劃定一個區(qū)域,即數(shù)據(jù)正常產(chǎn)生波動的一個范圍,它通常作為信息系統(tǒng)基礎(chǔ)設(shè)施監(jiān)控告警的判定條件,傳統(tǒng)的簡單設(shè)置閾值設(shè)置規(guī)定了數(shù)據(jù)正常變化的固定上下基準(zhǔn)線,在此基礎(chǔ)上還含有兩個基準(zhǔn)線,分別名為上容忍邊界和下容忍邊界,以MySQL 數(shù)據(jù)庫DB time 監(jiān)控指標(biāo)為例,傳統(tǒng)的基線管理如圖2所示。
圖2:傳統(tǒng)基線管理
傳統(tǒng)的基線管理中設(shè)置的兩個容忍區(qū)域規(guī)定了數(shù)據(jù)可以容忍的波動范圍,當(dāng)實時獲取的數(shù)據(jù)超過了兩個容忍邊界時系統(tǒng)將迅速產(chǎn)生告警。但是無論上下基線還是上下容忍邊界,它們的數(shù)值都是在系統(tǒng)上線前人為規(guī)定的固定值,傳統(tǒng)基線管理未考慮到上線容忍邊界與其他變量的關(guān)系,特別是沒有考慮到鐵路業(yè)務(wù)與時間的相關(guān)性,比如客票業(yè)務(wù)的流量在不同時間段的差異,高鐵的售票高峰期分別是在早九點到九點半,十一點半以及下午一點到一點半,兩點到兩點半和四點半。值得一提的時,在夜間時段,售票系統(tǒng)暫停使用。這就意味著如果上下容忍線在24 個小時內(nèi)固定不變,將不符合數(shù)據(jù)的實際情況,假設(shè)上下容忍線根據(jù)白天的實際情況設(shè)置具體數(shù)值,那么夜間產(chǎn)生的告警可能因為容忍線不合適的取值區(qū)域而被漏掉,同時也會造成更多錯誤的告警,浪費更多資源最終導(dǎo)致運維效率的下降。圖3為鐵路主數(shù)據(jù)中心運維管理平臺中獲取到的連續(xù)六天客票系統(tǒng)MySQL 數(shù)據(jù)庫DB time 監(jiān)控指標(biāo)的數(shù)值變化曲線圖,我們可以發(fā)現(xiàn)監(jiān)控指標(biāo)DB time 在每日的變化趨勢相似,這說明不同時刻的業(yè)務(wù)數(shù)據(jù)量與具體時刻具有關(guān)聯(lián)性,所以根據(jù)不同時刻數(shù)據(jù)的具體數(shù)值設(shè)計的動態(tài)基線更加合理。
圖3:DB time 數(shù)據(jù)折線圖
表1:連續(xù)六天DB time 在整點的數(shù)據(jù) 單位:s
如果設(shè)定每間隔一小時取值一次,可以得到六天中共144 個數(shù)據(jù),整理后得到的完整數(shù)據(jù)如表1所示,波峰主要位于18:00、19:00、21:00 和22:00 四個時刻,波谷出現(xiàn)在2:00和5:00,因此不同時刻數(shù)值的波動決定了基于固定基線的告警規(guī)則不夠靈活,經(jīng)過改進(jìn)后的動態(tài)基線技術(shù)則針對此問題提供了新的解決方案,它可以根據(jù)不同時間段的數(shù)據(jù)流量根據(jù)以往的數(shù)據(jù)分布特征對基線和容忍邊界進(jìn)行動態(tài)調(diào)整,通過概率算法對在不同時間段特別是峰值與波谷值變化較大的監(jiān)控指標(biāo)如網(wǎng)絡(luò)流量以及MySQL 數(shù)據(jù)庫DB time 能夠?qū)崟r的改變基線和容忍邊界的參考值,合理的劃分?jǐn)?shù)據(jù)正常與數(shù)據(jù)異常的區(qū)域。改進(jìn)后的動態(tài)基線如圖4所示。
圖4:動態(tài)基線示意圖
排序法是一種常見取值法,主要計算原理如下首先獲取樣本,將得到的樣本數(shù)假設(shè)為X 個,然后設(shè)置樣本有效概率,一般取95%,即樣本空間中95%的數(shù)據(jù)為有效數(shù)據(jù),將樣本空間進(jìn)行排序,分別取取最大值與最小值作為上基準(zhǔn)線和下基準(zhǔn)線。再根據(jù)容忍度計算容忍區(qū)間。
首先對預(yù)處理后的有效數(shù)據(jù)進(jìn)行排序,假定共有N 個,分別記為x到x。假定有效數(shù)據(jù)的A%(對應(yīng)基線的樣本置信度)為可以接受而不用產(chǎn)生告警的指標(biāo)值,滑動排序數(shù)據(jù)的窗口(共N×A%個數(shù)據(jù)),計算該窗口中數(shù)據(jù)的均方差。計算該窗口中樣本的平均值作為期望值E(x)。計算窗口各個樣本點對于數(shù)學(xué)期望的偏離程度,單個偏離是:
X-E(x)
為消除符號影響,一般?。?/p>
(X-E(x))
雖然排序法計算過程簡單,但考慮到其結(jié)果不夠精確,最終選擇使用均方差概率算法來實現(xiàn)動態(tài)基線。
動態(tài)基線的計算過程分共分為四部分,分別是歷史數(shù)據(jù)樣本的采集、數(shù)據(jù)樣本降噪處理、動態(tài)基線算法計算處理數(shù)據(jù)、得到動態(tài)基線。計算流程圖如圖5所示。
圖5:動態(tài)基線計算流程
建立基線的第一步是選取數(shù)據(jù)點,在采集歷史數(shù)據(jù)時,需要主要樣本空間能夠包含盡可能完整的數(shù)據(jù)集合,首先樣本點需要包含各個時間段的歷史數(shù)據(jù),這樣才能確保得到的基線更加準(zhǔn)確,以鐵路主數(shù)據(jù)中心客票系統(tǒng)MySQL 數(shù)據(jù)庫DB time 為例,我們選擇采集一個月每天MySQL 數(shù)據(jù)庫DB time 具體數(shù)值,較前面連續(xù)六天數(shù)據(jù)量相比樣本空間含有更多的樣本數(shù)量,從而能夠得到較為精確的結(jié)果。圖 是來源于鐵路主數(shù)據(jù)中心運維管理平臺采集到的一個月內(nèi)MySQL數(shù)據(jù)庫DB time 在所有時刻的完整數(shù)據(jù)。整理后的數(shù)值如表3所示。
由于采集到的數(shù)據(jù)樣本受采集工具規(guī)定間隔時間影響,樣本數(shù)量較大,采集上來的時間并不一定是整點數(shù)據(jù),而在進(jìn)行數(shù)據(jù)計算時。就需要將采集的歷史數(shù)據(jù)先進(jìn)性平滑處理,將時間都換算為整點數(shù)據(jù),方便動態(tài)基線的計算。
計算動態(tài)基線上下限采用基于標(biāo)準(zhǔn)差的概率算法。為方便展示,取三十天內(nèi)每日九點整的數(shù)值進(jìn)行計算,經(jīng)過預(yù)處理后的樣本數(shù)據(jù)集如表2所示。
表2:三十天每日九時DB time 數(shù)據(jù)匯總表
取均方差最小的窗口中的數(shù)據(jù),以其最大值作為基線的上限,最小值作為基線的下限。首先對數(shù)據(jù)集進(jìn)行排序,得到的數(shù)列是[33.76,34.85,37.64,38.26,38.52,38.54,38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89,49.63,50.18,50.33,50.76,53.64]
首先去掉最大值與最小值,剩余28 個數(shù)據(jù),按照概率算法過程,我們將選取其中的有效數(shù)據(jù)。第二步是數(shù)據(jù)分組樣本空間最大值是53.64,所以得到9 個區(qū)間,分別為[0,6],[6.01,12],[12.01,18],[18.01,24],[24.01,30],[31.01,36],[36.01,42],[42.01,48],[48.01,54]。將28 個樣本放入九個區(qū)間中可以得到以下結(jié)果
區(qū)間1:[ ]
區(qū)間2:[ ]
區(qū)間3:[ ]
區(qū)間4:[ ]
區(qū)間5:[ ]
區(qū)間6:[34.85]
區(qū)間7:[37.64,38.26,38.52,38.54,38.79,38.97,39.73,39.88,40.85,41.74]
區(qū)間8:[43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61]
區(qū)間9:[48.32,48.89,49.63,50.18,50.33,50.76]
通過統(tǒng)計發(fā)現(xiàn)在區(qū)間8 中的樣本數(shù)最多,將區(qū)間8 的樣本和相鄰的區(qū)間7 與區(qū)間9 的樣本匯總可以得到最終有效的樣本空間:
[37.64,38.26,38.52,38.54,38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89,49.63,50.18,50.33,50.76]共計27 個數(shù)據(jù)。
設(shè)置窗口置信度為0.8,即80%作為作為歷史樣本的信賴程度,剩下的20%樣本屬于雜質(zhì)數(shù)據(jù),滑動窗口長度的計算公式圖下
L=N×A%
這里A 取0.8,N 取27,所以窗口長度為21.。使用滑動窗口對27 個樣本取值分別得到7 個窗口。
窗口1:[37.64,38.26,38.52,38.54,38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61]
窗口2:[38.26,38.52,38.54,38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32]
窗口3:[38.52,38.54,38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89]
窗口4:[38.54,38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89,49.63]
窗口5:[38.79,38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89,49.63,50.18]
窗口6:[38.97,39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89,49.63,50.18,50.33]
窗口7:[39.73,39.88,40.85,41.74,43,43.47,43.65,43.86,45.17,46.29,46.77,46.86,46.87,47.44,47.61,48.32,48.89,49.63,50.18,50.33,50.76]
分別對七個窗口的數(shù)據(jù)求均方差可以得到結(jié)果如表3所示:
表3:窗口均方差匯總表
可以發(fā)現(xiàn),第七個窗口內(nèi)的樣本具有最小的均方值,所以選取該窗口的最大值與最小值作為動態(tài)基線的上下基線在九點整的取值。所以上基線與下基線分別為50.76 和39.73。接下來計算上容忍邊界和下容忍邊界,容忍邊界的意義就在給數(shù)據(jù)一個可以容忍的超過基線的范圍,當(dāng)實時數(shù)據(jù)值越過了容忍邊界,系統(tǒng)將產(chǎn)生告警信息。容忍邊界的計算公式如下:
B=(1+T)×L
B=(1-T)×L
其中B和B分別代表上容忍邊界和下容忍邊界,T代表容忍度,L和L分別代表前面得到的上基線和下基線,這里我們將T 設(shè)置為0.1,也就是10%,最后得到上下容忍邊界為55.84 和35.76。最后我們得到了上午九點整的上下基線和上下容忍邊界具體數(shù)值。以此類推,根據(jù)30 天內(nèi)完整的整點時刻的樣本數(shù)據(jù),最終可以得到24 小時內(nèi)包含每個時刻的動態(tài)基線模型如圖6所示,動態(tài)基線模型使用歷史數(shù)據(jù)形成的24 小時內(nèi)閾值的變化趨勢,與傳統(tǒng)的固定基線模型相比性能更加優(yōu)異,能夠顯著減少錯誤告警的數(shù)量,提高運維管理工作效率。
圖6:動態(tài)基線預(yù)測圖
在監(jiān)控指標(biāo)繁多,設(shè)備數(shù)量巨大的背景下,引入閾值的智能配置功能的必要性不言而喻。區(qū)別于傳統(tǒng)閾值的人工手動配置,智能閾值配置主要實現(xiàn)告警閾值的自動計算與設(shè)置,不同監(jiān)控指標(biāo)的告警閾值可以根據(jù)實際業(yè)務(wù)的情況實時浮動變化,能夠進(jìn)一步提升告警的準(zhǔn)確性,最終實現(xiàn)提高運維效率的目的,實現(xiàn)智能閾值配置的主要方法是運用動態(tài)基線技術(shù),通過對海量歷史數(shù)據(jù)的計算與分析,預(yù)測某個時間點的正常數(shù)據(jù)范圍,當(dāng)實時數(shù)據(jù)超過了正常范圍,將會產(chǎn)生報警,提醒運維人員處理故障。
本文通過分析鐵路實際業(yè)務(wù)情況,對基于均方差的動態(tài)基線計算方法進(jìn)行了探討,以動態(tài)基線為基礎(chǔ)的智能閾值技術(shù)可以有效減少錯誤告警,為運維人員提供了有效的數(shù)據(jù)參考,提升運維效率。但本文中展示的計算過程中為方便展示,只提取了一個月內(nèi)的MySQL 數(shù)據(jù)庫DB time 整點數(shù)據(jù)。但在實際的運行環(huán)境中有更多影響動態(tài)基線的變量,例如在節(jié)假日時具體數(shù)據(jù)會較平日有所不同。所以在動態(tài)基線實際的應(yīng)用過程中,需要歷史數(shù)據(jù)形成的樣本空間足夠大,比如將整年的數(shù)據(jù)都放入樣本空間,從而能夠涵蓋更多時刻如重大節(jié)假日的監(jiān)控數(shù)據(jù),這樣才能保證最終獲得準(zhǔn)確的基線。除了樣本空間的選擇之外,在選擇基線算法時也可以考慮建立基于機(jī)器學(xué)習(xí)的動態(tài)基線模型,結(jié)果也將更為精準(zhǔn)。