基于均方差算法的鐵路信息系統(tǒng)智能監(jiān)控動態(tài)基線技術(shù)

2022-09-09 02:16劉懺張鵬王朝暉孫強(qiáng)周翔豪

電子技術(shù)與軟件工程 2022年11期

劉懺張鵬王朝暉孫強(qiáng) 周翔豪

（中國鐵路信息科技集團(tuán)有限公司北京市 100038）

隨著鐵路主數(shù)據(jù)中心的投入使用以及鐵路云平臺的應(yīng)用，鐵路信息系統(tǒng)基礎(chǔ)設(shè)施的數(shù)據(jù)規(guī)模也在不斷增長，鐵路信息系統(tǒng)基礎(chǔ)設(shè)施運維管理平臺每天要對不同監(jiān)控對象如網(wǎng)絡(luò)交換機(jī)、服務(wù)器、數(shù)據(jù)庫和中間件等進(jìn)行實時監(jiān)控，不僅體現(xiàn)在數(shù)據(jù)量的增長上，數(shù)據(jù)類型的種類也越來越復(fù)雜，每天產(chǎn)生的告警數(shù)量和告警類型也在不斷增長。應(yīng)鐵路運維管理的要求，保證鐵路信息系統(tǒng)的正常運行是當(dāng)前的第一要務(wù)，這就要求一線運維人員能夠及時處理系統(tǒng)各項報警信息，在第一時間使系統(tǒng)恢復(fù)正常，因此引入異常數(shù)據(jù)檢測技術(shù)的必要性不言而喻?，F(xiàn)有的數(shù)據(jù)異常檢測通常依賴于設(shè)置固定的告警數(shù)值基線對各項監(jiān)控指標(biāo)進(jìn)行監(jiān)控，但由于監(jiān)測方式不夠智能，特別是考慮到鐵路信息系統(tǒng)數(shù)據(jù)與具體時刻的相關(guān)性，傳統(tǒng)的固定基線告警判定機(jī)制導(dǎo)致監(jiān)測的結(jié)果不夠精準(zhǔn)，產(chǎn)生的告警信息會增加更多成本。因此引入動態(tài)基線管理技術(shù)，依托大數(shù)據(jù)分析技術(shù)計算運行趨勢，配置動態(tài)告警閾值，使監(jiān)控預(yù)警更加符合鐵路業(yè)務(wù)實際使用情況，提高告警的精確性，最終實現(xiàn)提高鐵路運維能力的要求。

1 動態(tài)基線技術(shù)

1.1 動態(tài)基線告警原理

動態(tài)基線告警原理是當(dāng)監(jiān)控數(shù)據(jù)超出了上容忍邊界和下容忍邊界時，監(jiān)控系統(tǒng)將產(chǎn)生告警信息提醒運維人員，主要的流程如圖1所示。

圖1：動態(tài)基線告警流程

1.2 基線管理

基線的主要作用是劃定一個區(qū)域，即數(shù)據(jù)正常產(chǎn)生波動的一個范圍，它通常作為信息系統(tǒng)基礎(chǔ)設(shè)施監(jiān)控告警的判定條件，傳統(tǒng)的簡單設(shè)置閾值設(shè)置規(guī)定了數(shù)據(jù)正常變化的固定上下基準(zhǔn)線，在此基礎(chǔ)上還含有兩個基準(zhǔn)線，分別名為上容忍邊界和下容忍邊界，以MySQL 數(shù)據(jù)庫DB time 監(jiān)控指標(biāo)為例，傳統(tǒng)的基線管理如圖2所示。

圖2：傳統(tǒng)基線管理

傳統(tǒng)的基線管理中設(shè)置的兩個容忍區(qū)域規(guī)定了數(shù)據(jù)可以容忍的波動范圍，當(dāng)實時獲取的數(shù)據(jù)超過了兩個容忍邊界時系統(tǒng)將迅速產(chǎn)生告警。但是無論上下基線還是上下容忍邊界，它們的數(shù)值都是在系統(tǒng)上線前人為規(guī)定的固定值，傳統(tǒng)基線管理未考慮到上線容忍邊界與其他變量的關(guān)系，特別是沒有考慮到鐵路業(yè)務(wù)與時間的相關(guān)性，比如客票業(yè)務(wù)的流量在不同時間段的差異，高鐵的售票高峰期分別是在早九點到九點半，十一點半以及下午一點到一點半，兩點到兩點半和四點半。值得一提的時，在夜間時段，售票系統(tǒng)暫停使用。這就意味著如果上下容忍線在24 個小時內(nèi)固定不變，將不符合數(shù)據(jù)的實際情況，假設(shè)上下容忍線根據(jù)白天的實際情況設(shè)置具體數(shù)值，那么夜間產(chǎn)生的告警可能因為容忍線不合適的取值區(qū)域而被漏掉，同時也會造成更多錯誤的告警，浪費更多資源最終導(dǎo)致運維效率的下降。圖3為鐵路主數(shù)據(jù)中心運維管理平臺中獲取到的連續(xù)六天客票系統(tǒng)MySQL 數(shù)據(jù)庫DB time 監(jiān)控指標(biāo)的數(shù)值變化曲線圖，我們可以發(fā)現(xiàn)監(jiān)控指標(biāo)DB time 在每日的變化趨勢相似，這說明不同時刻的業(yè)務(wù)數(shù)據(jù)量與具體時刻具有關(guān)聯(lián)性，所以根據(jù)不同時刻數(shù)據(jù)的具體數(shù)值設(shè)計的動態(tài)基線更加合理。

圖3：DB time 數(shù)據(jù)折線圖

表1：連續(xù)六天DB time 在整點的數(shù)據(jù) 單位：s

如果設(shè)定每間隔一小時取值一次，可以得到六天中共144 個數(shù)據(jù)，整理后得到的完整數(shù)據(jù)如表1所示，波峰主要位于18:00、19:00、21:00 和22:00 四個時刻，波谷出現(xiàn)在2:00和5:00，因此不同時刻數(shù)值的波動決定了基于固定基線的告警規(guī)則不夠靈活，經(jīng)過改進(jìn)后的動態(tài)基線技術(shù)則針對此問題提供了新的解決方案，它可以根據(jù)不同時間段的數(shù)據(jù)流量根據(jù)以往的數(shù)據(jù)分布特征對基線和容忍邊界進(jìn)行動態(tài)調(diào)整，通過概率算法對在不同時間段特別是峰值與波谷值變化較大的監(jiān)控指標(biāo)如網(wǎng)絡(luò)流量以及MySQL 數(shù)據(jù)庫DB time 能夠?qū)崟r的改變基線和容忍邊界的參考值，合理的劃分?jǐn)?shù)據(jù)正常與數(shù)據(jù)異常的區(qū)域。改進(jìn)后的動態(tài)基線如圖4所示。

圖4：動態(tài)基線示意圖

2 基線算法比較

2.1 排序法

排序法是一種常見取值法，主要計算原理如下首先獲取樣本，將得到的樣本數(shù)假設(shè)為X 個，然后設(shè)置樣本有效概率，一般取95%，即樣本空間中95%的數(shù)據(jù)為有效數(shù)據(jù)，將樣本空間進(jìn)行排序，分別取取最大值與最小值作為上基準(zhǔn)線和下基準(zhǔn)線。再根據(jù)容忍度計算容忍區(qū)間。

2.2 均方差概率算法

首先對預(yù)處理后的有效數(shù)據(jù)進(jìn)行排序，假定共有N 個，分別記為x到x。假定有效數(shù)據(jù)的A%（對應(yīng)基線的樣本置信度）為可以接受而不用產(chǎn)生告警的指標(biāo)值，滑動排序數(shù)據(jù)的窗口（共N×A%個數(shù)據(jù)），計算該窗口中數(shù)據(jù)的均方差。計算該窗口中樣本的平均值作為期望值E(x)。計算窗口各個樣本點對于數(shù)學(xué)期望的偏離程度，單個偏離是：

X-E(x)

為消除符號影響，一般?。?/p>

(X-E(x))

雖然排序法計算過程簡單，但考慮到其結(jié)果不夠精確，最終選擇使用均方差概率算法來實現(xiàn)動態(tài)基線。

3 基線計算過程

動態(tài)基線的計算過程分共分為四部分，分別是歷史數(shù)據(jù)樣本的采集、數(shù)據(jù)樣本降噪處理、動態(tài)基線算法計算處理數(shù)據(jù)、得到動態(tài)基線。計算流程圖如圖5所示。

圖5：動態(tài)基線計算流程

3.1 歷史數(shù)據(jù)樣本空間的建立

建立基線的第一步是選取數(shù)據(jù)點，在采集歷史數(shù)據(jù)時，需要主要樣本空間能夠包含盡可能完整的數(shù)據(jù)集合，首先樣本點需要包含各個時間段的歷史數(shù)據(jù)，這樣才能確保得到的基線更加準(zhǔn)確，以鐵路主數(shù)據(jù)中心客票系統(tǒng)MySQL 數(shù)據(jù)庫DB time 為例，我們選擇采集一個月每天MySQL 數(shù)據(jù)庫DB time 具體數(shù)值，較前面連續(xù)六天數(shù)據(jù)量相比樣本空間含有更多的樣本數(shù)量，從而能夠得到較為精確的結(jié)果。圖是來源于鐵路主數(shù)據(jù)中心運維管理平臺采集到的一個月內(nèi)MySQL數(shù)據(jù)庫DB time 在所有時刻的完整數(shù)據(jù)。整理后的數(shù)值如表3所示。

3.2 樣本預(yù)處理

由于采集到的數(shù)據(jù)樣本受采集工具規(guī)定間隔時間影響，樣本數(shù)量較大，采集上來的時間并不一定是整點數(shù)據(jù)，而在進(jìn)行數(shù)據(jù)計算時。就需要將采集的歷史數(shù)據(jù)先進(jìn)性平滑處理，將時間都換算為整點數(shù)據(jù)，方便動態(tài)基線的計算。

3.3 動態(tài)基線算法

計算動態(tài)基線上下限采用基于標(biāo)準(zhǔn)差的概率算法。為方便展示，取三十天內(nèi)每日九點整的數(shù)值進(jìn)行計算，經(jīng)過預(yù)處理后的樣本數(shù)據(jù)集如表2所示。

表2：三十天每日九時DB time 數(shù)據(jù)匯總表

取均方差最小的窗口中的數(shù)據(jù)，以其最大值作為基線的上限，最小值作為基線的下限。首先對數(shù)據(jù)集進(jìn)行排序，得到的數(shù)列是[33.76，34.85，37.64，38.26，38.52，38.54，38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89,49.63,50.18,50.33,50.76,53.64]

首先去掉最大值與最小值，剩余28 個數(shù)據(jù)，按照概率算法過程，我們將選取其中的有效數(shù)據(jù)。第二步是數(shù)據(jù)分組樣本空間最大值是53.64，所以得到9 個區(qū)間，分別為[0,6]，[6.01,12]，[12.01,18]，[18.01,24]，[24.01,30]，[31.01,36]，[36.01,42]，[42.01,48]，[48.01,54]。將28 個樣本放入九個區(qū)間中可以得到以下結(jié)果

區(qū)間1：[ ]

區(qū)間2：[ ]

區(qū)間3：[ ]

區(qū)間4：[ ]

區(qū)間5：[ ]

區(qū)間6：[34.85]

區(qū)間7：[37.64，38.26，38.52，38.54，38.79，38.97，39.73，39.88，40.85，41.74]

區(qū)間8：[43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61]

區(qū)間9：[48.32，48.89,49.63,50.18,50.33,50.76]

通過統(tǒng)計發(fā)現(xiàn)在區(qū)間8 中的樣本數(shù)最多，將區(qū)間8 的樣本和相鄰的區(qū)間7 與區(qū)間9 的樣本匯總可以得到最終有效的樣本空間：

[37.64，38.26，38.52，38.54，38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89,49.63,50.18,50.33,50.76]共計27 個數(shù)據(jù)。

設(shè)置窗口置信度為0.8，即80%作為作為歷史樣本的信賴程度，剩下的20%樣本屬于雜質(zhì)數(shù)據(jù)，滑動窗口長度的計算公式圖下

L=N×A%

這里A 取0.8，N 取27，所以窗口長度為21.。使用滑動窗口對27 個樣本取值分別得到7 個窗口。

窗口1：[37.64，38.26，38.52，38.54，38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61]

窗口2：[38.26，38.52，38.54，38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32]

窗口3：[38.52，38.54，38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89]

窗口4：[38.54，38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89,49.63]

窗口5：[38.79，38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89,49.63,50.18]

窗口6：[38.97，39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89,49.63,50.18,50.33]

窗口7：[39.73，39.88，40.85，41.74，43，43.47，43.65，43.86，45.17，46.29，46.77，46.86，46.87，47.44，47.61，48.32，48.89,49.63,50.18,50.33，50.76]

分別對七個窗口的數(shù)據(jù)求均方差可以得到結(jié)果如表3所示：

表3：窗口均方差匯總表

可以發(fā)現(xiàn)，第七個窗口內(nèi)的樣本具有最小的均方值，所以選取該窗口的最大值與最小值作為動態(tài)基線的上下基線在九點整的取值。所以上基線與下基線分別為50.76 和39.73。接下來計算上容忍邊界和下容忍邊界，容忍邊界的意義就在給數(shù)據(jù)一個可以容忍的超過基線的范圍，當(dāng)實時數(shù)據(jù)值越過了容忍邊界，系統(tǒng)將產(chǎn)生告警信息。容忍邊界的計算公式如下：

B=(1+T)×L

B=(1-T)×L

其中B和B分別代表上容忍邊界和下容忍邊界，T代表容忍度，L和L分別代表前面得到的上基線和下基線，這里我們將T 設(shè)置為0.1，也就是10%，最后得到上下容忍邊界為55.84 和35.76。最后我們得到了上午九點整的上下基線和上下容忍邊界具體數(shù)值。以此類推，根據(jù)30 天內(nèi)完整的整點時刻的樣本數(shù)據(jù)，最終可以得到24 小時內(nèi)包含每個時刻的動態(tài)基線模型如圖6所示，動態(tài)基線模型使用歷史數(shù)據(jù)形成的24 小時內(nèi)閾值的變化趨勢，與傳統(tǒng)的固定基線模型相比性能更加優(yōu)異，能夠顯著減少錯誤告警的數(shù)量，提高運維管理工作效率。

圖6：動態(tài)基線預(yù)測圖

4 智能閾值配置

在監(jiān)控指標(biāo)繁多，設(shè)備數(shù)量巨大的背景下，引入閾值的智能配置功能的必要性不言而喻。區(qū)別于傳統(tǒng)閾值的人工手動配置，智能閾值配置主要實現(xiàn)告警閾值的自動計算與設(shè)置，不同監(jiān)控指標(biāo)的告警閾值可以根據(jù)實際業(yè)務(wù)的情況實時浮動變化，能夠進(jìn)一步提升告警的準(zhǔn)確性，最終實現(xiàn)提高運維效率的目的，實現(xiàn)智能閾值配置的主要方法是運用動態(tài)基線技術(shù)，通過對海量歷史數(shù)據(jù)的計算與分析，預(yù)測某個時間點的正常數(shù)據(jù)范圍，當(dāng)實時數(shù)據(jù)超過了正常范圍，將會產(chǎn)生報警，提醒運維人員處理故障。

5 結(jié)束語

本文通過分析鐵路實際業(yè)務(wù)情況，對基于均方差的動態(tài)基線計算方法進(jìn)行了探討，以動態(tài)基線為基礎(chǔ)的智能閾值技術(shù)可以有效減少錯誤告警，為運維人員提供了有效的數(shù)據(jù)參考，提升運維效率。但本文中展示的計算過程中為方便展示，只提取了一個月內(nèi)的MySQL 數(shù)據(jù)庫DB time 整點數(shù)據(jù)。但在實際的運行環(huán)境中有更多影響動態(tài)基線的變量，例如在節(jié)假日時具體數(shù)據(jù)會較平日有所不同。所以在動態(tài)基線實際的應(yīng)用過程中，需要歷史數(shù)據(jù)形成的樣本空間足夠大，比如將整年的數(shù)據(jù)都放入樣本空間，從而能夠涵蓋更多時刻如重大節(jié)假日的監(jiān)控數(shù)據(jù)，這樣才能保證最終獲得準(zhǔn)確的基線。除了樣本空間的選擇之外，在選擇基線算法時也可以考慮建立基于機(jī)器學(xué)習(xí)的動態(tài)基線模型，結(jié)果也將更為精準(zhǔn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡