国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于APM應用全鏈路監(jiān)控工具設計

2019-06-11 09:23劉霞霞高阿朋任春雷文建軍史金奇
網(wǎng)絡安全技術與應用 2019年6期
關鍵詞:國網(wǎng)鏈路運維

◆劉霞霞 高阿朋 任春雷 文建軍 史金奇

?

一種基于APM應用全鏈路監(jiān)控工具設計

◆劉霞霞1高阿朋2任春雷2文建軍1史金奇1

(1.北京中電普華信息技術有限公司北京 100022;2.國網(wǎng)內蒙古東部電力有限公司信息通信分公司 內蒙古 010020)

為了加強國網(wǎng)蒙東電力有限公司信息通信分公司(以下簡稱:蒙東電力)信息運維的自動化建設,通過對現(xiàn)有APM廠商產品的了解和對比分析,提出了一套適合蒙東電力應用自動化、高精度、全鏈路的監(jiān)控工具架構和功能設計,并對拓撲發(fā)現(xiàn)與展示、鏈路深入診斷、應用系統(tǒng)預警三個模塊做出詳細介紹。此工具將在貼近于國網(wǎng)運維角色劃分、基于微服務微應用的工具集合、結合大數(shù)據(jù)挖掘PCA/邏輯回歸等先進算法的海量鏈路數(shù)據(jù)處理、加強AI技術在運維監(jiān)控的應用方面實現(xiàn)創(chuàng)新,研發(fā)成功并且推廣后,在智能運維和降低運維成本方面具有良好的社會效益。

全鏈路;微服務;智能運維

0 引言

在《國家電網(wǎng)信通[2018]108號國家電網(wǎng)公司關于印發(fā)2018年信息通信新技術創(chuàng)新發(fā)展行動計劃實施意見的通知》中,國家電網(wǎng)公司強調,以大云物移智作為創(chuàng)新性工作的創(chuàng)新點,進一步通過創(chuàng)新驅動現(xiàn)有信息化建設,讓信息系統(tǒng)的服務質量提高到更滿意的高度。

在進行信息化的過程中,IT基礎設施不斷增加,IT復雜性和多樣性也在不斷變化。隨著應用系統(tǒng)建設的愈發(fā)復雜,傳統(tǒng)的運維人員通過日志或者被動分析的方式進行應用系統(tǒng)監(jiān)控,這就使得原有傳統(tǒng)運維手段單一的問題越來越明顯,在這種情況下,很多運維人員的時間和精力都被無謂地浪費在排查故障當中[1]。

針對上述會議和存在的問題,蒙東電力從實際出發(fā)開展基于APM應用全鏈路監(jiān)控工具設計。

1 背景概述

1.1 背景描述

目前蒙東電力的信息系統(tǒng)缺乏對系統(tǒng)鏈路的異常分析、系統(tǒng)負載與瓶頸等的預測,只能通過被動預警方式,系統(tǒng)擴容手段來處理異常問題,現(xiàn)急需一套可靠的預測機制,提前對可能出現(xiàn)的問題和瓶頸進行預測,做到未卜先知。

因此,結合AIOps智能運維[2]的時代背景,通過建設貼近于國網(wǎng)信息化系統(tǒng)的全鏈路工具集的建設,基于國網(wǎng)SG-I6000運維體系,深入對信息系統(tǒng)應用端、網(wǎng)絡端整條鏈路進行深度的診斷,輔助AI人工智能與大數(shù)據(jù)[3]挖掘等創(chuàng)新技術對未來信息系統(tǒng)瓶頸和負載的預測,能夠切實解決目前蒙東電力信息系統(tǒng)監(jiān)控面臨的實際問題[4]。

1.2 技術對比

目前APM[5]廠商很多,使用技術和實現(xiàn)方法各有不同。以下主要從實現(xiàn)技術、是否開源、鏈路監(jiān)控粒度、可擴展性、部署和監(jiān)控復雜性等方面進行對比,結果如表1。

表1 APM領域技術能力對比

1.3 技術選型

本產品需要在盡可能小的影響應用系統(tǒng)性能并且能夠方便運維人員快速定位和解決問題的情況下進行設計,在系統(tǒng)指標達到瓶頸時能夠主動預警,出現(xiàn)宕機等情況能夠快速的定位(代碼級定位)和解決問題,減少人員投入,降低運維成本,部署和監(jiān)控易于操作,界面簡潔不失美觀。

通過全面了解和對比APM領域四種技術能力,最終確定采用Pingpoint作為技術選型,它能夠更大程度滿足設計需求。

2 架構和部署拓撲設計

2.1 系統(tǒng)總體架構

全鏈路監(jiān)控與智能分析工具集一期的整體架構一共分為4個部分,如圖1。

(1)Agent應用與探針端

Agent端負責從應用中搜集數(shù)據(jù),Agent 以jar包的形式,安插在業(yè)務應用系統(tǒng)中,只需在啟動腳本中加上一行參數(shù)就可以和應用一塊運行,如圖2。

圖1 整體架構圖

圖2 探針圖

Agent端利用JAVA Agent機制,采用修改應用字節(jié)碼的方式將探針邏輯植入到應用中,這樣的優(yōu)勢是對原有的應用無侵入。

Agent端將探針數(shù)據(jù)搜集出來,基于不同的網(wǎng)絡環(huán)境,通過TCP、UDP等多種傳輸方式將Agent數(shù)據(jù)傳遞到Collector搜集端。

(2)Collector搜集端

Collector端主要作用是,接收Agent端發(fā)送過來的數(shù)據(jù),將這些數(shù)據(jù)整理,然后加工、分析并處理,根據(jù)數(shù)據(jù)實時性的不同和用戶對探針數(shù)據(jù)的要求,存入到全業(yè)務數(shù)據(jù)中心中,實時數(shù)據(jù)存入到SG-RDB中,歷史數(shù)據(jù)采用Hbase格式,如圖3。

圖3 搜集圖

當Agent發(fā)送數(shù)據(jù)量比較大的時候,Collector端可以通過開啟Zookeeper集群的模式,通過多個Collector示例對搜集過來的數(shù)據(jù)進行減壓,Collector端整理、匯總、運算的指標,推送給SG-I6000系統(tǒng)。

(3)鏈路數(shù)據(jù)分析端

鏈路數(shù)據(jù)分析端,主要利用Collector搜集端存儲到全業(yè)務數(shù)據(jù)中心的SG-RDB、Hbase數(shù)據(jù),利用大數(shù)據(jù)挖掘與機器學習算法,計算出瓶頸、負載等的預測結果,如圖4。

圖4 AI學習圖

(4)工具展現(xiàn)端

用戶實際打交道的是工具展現(xiàn)端,基于不同角色、調度、運檢和領導決策等提供了方便的查看與數(shù)據(jù)展示工具,并且提供應用系統(tǒng)瓶頸與負載預測等指標用以預測。

2.2 部署拓撲

本項目的部署節(jié)點根據(jù)業(yè)務不同而改變,推薦的物理部署設計如下,如圖5。

圖5 物理部署圖

3 重點模塊介紹

3.1 拓撲發(fā)現(xiàn)與展示

通過從PC客戶端到服務器端,全方位展現(xiàn)應用系統(tǒng)、中間件、數(shù)據(jù)庫、網(wǎng)絡拓撲的結構,自動監(jiān)測服務端應用代碼、數(shù)據(jù)庫、外部服務等調用鏈路。操作流程及頁面展示如圖6、圖7。

圖6 拓撲發(fā)現(xiàn)與展示流程圖

圖7 應用拓撲展示頁面

3.2 鏈路深入診斷

基于鏈路的請求分析工具中的慢請求,通過深入診斷工具對鏈路進行鉆取,從系統(tǒng)網(wǎng)絡拓撲的節(jié)點深入到系統(tǒng)中的代碼行號級別,發(fā)現(xiàn)瓶頸位置,得出診斷結論提供給運維、研發(fā)人員用于解決問題的實際瓶頸。功能顯示如圖8。

圖8 鏈路深入診斷功能圖

3.3 應用系統(tǒng)預警

該工具記錄的業(yè)務系統(tǒng)的狀態(tài)信息,設置預警閥值,在系統(tǒng)某一狀態(tài)超出閥值的情況下進行告警,明確指明是哪一個系統(tǒng)出現(xiàn)問題,通過各種消息通知方式通知運維人員,方便運維人員隨時查看系統(tǒng)運行狀態(tài)。頁面設計如圖9。

圖9 應用系統(tǒng)告警頁面

4 創(chuàng)新性分析

全鏈路監(jiān)控工具集總共有4個創(chuàng)新點:

(1)貼近于國網(wǎng)運維角色劃分

傳統(tǒng)的性能分析工具并沒有突出角色化的限制,而智能鏈路分析與預測工具,以各種方便實用的工具,基于國網(wǎng)運維體系中的不同角色:調度、運檢、領導決策等進行規(guī)劃。調度人員使用工具首先通過預警信息監(jiān)測到哪個系統(tǒng)出現(xiàn)性能異常,并且可以通過拓撲工具定位到信息系統(tǒng)中鏈路具體哪一塊業(yè)務或者中間件、數(shù)據(jù)庫等出現(xiàn)的問題;運檢人員基于調度人員的定位點,通過工具深度排查業(yè)務,直至代碼行號,精準定位問題;領導與管理者通過工具看板,對調度與運檢的結果整體概覽進行查看,并根據(jù)關鍵問題進行決策。

(2)基于微服務[6]的監(jiān)控工具集,工具可裁剪

全鏈路監(jiān)控工具集集合,以微服務和微應用的方式進行單獨部署,每個獨立的工具都是一個獨立的微服務和微應用。

(3)基于大數(shù)據(jù)挖掘PCA、邏輯回歸等先進算法的海量鏈路數(shù)據(jù)處理

全鏈路監(jiān)控工具集一期最主要的創(chuàng)新,基于大數(shù)據(jù)挖掘分析工具和全鏈路監(jiān)控搜集來的數(shù)據(jù),通過先進的PCA算法、邏輯回歸算法,對鏈路數(shù)據(jù)進行處理和分析,可達到海量數(shù)據(jù)的處理。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關的表示,提取數(shù)據(jù)的主要特征分量,適用于全鏈路數(shù)據(jù)這種高維數(shù)據(jù)的降維分析。邏輯回歸算法,是分類和預測算法中比較先進性的一種,通過對歷史數(shù)據(jù)的等線性數(shù)據(jù)的回歸計算,提高了數(shù)據(jù)挖掘的結果的精確性,利于后續(xù)數(shù)據(jù)的分析。

(4)加強AI技術在運維監(jiān)控的應用

全鏈路監(jiān)控工具集借助于AI人工智能的技術,對數(shù)據(jù)挖掘整理的鏈路數(shù)據(jù),進行學習和訓練,用以對信息系統(tǒng)未來瓶頸和負載的預測。鏈路數(shù)據(jù)形態(tài)呈拉伸狀與非規(guī)律性,借助于AI通過鏈路數(shù)據(jù)的學習和訓練,預測出應用系統(tǒng)未來一段時間的信息系統(tǒng)的負載與瓶頸趨勢,協(xié)助運維人員未雨綢繆,早早做好峰值應對與問題解決措施。

5 社會效益

全鏈路監(jiān)控工具集研發(fā)成功并且推廣后,效益主要體現(xiàn)在兩個方面:

(1)解決實際信息化系統(tǒng)的性能問題,快速定位問題,降低運維成本

目前業(yè)務應用系統(tǒng)使用的運維工具都是事后分析問題,并且分析問題單一,隨著應用全鏈路監(jiān)控工具集的推廣,將會采用多種方式、智能化分析、快速準確定位問題,從而降低運維成本。形成應用按需分配和自主運維,降低整體建設、運維成本,滿足不斷快速調優(yōu)需求,提升可控、在控的能力,減少運維投入和降低運維難度。

(2)智能分析,提前預測

目前國網(wǎng)體系現(xiàn)狀是被動分析錯誤堆棧和Dump文件的做法,是當出錯的時候才進行補救,嚴重的甚至應用系統(tǒng)和服務器需要停機。而通過全鏈路監(jiān)控與智能分析工具集可以通過對全鏈路存儲現(xiàn)有數(shù)據(jù)的學習,進行訓練,對信息系統(tǒng)未來的應用瓶頸進行預測。

6 結束語

本文通過解決蒙東電力在運維方面存在的成本大、耗時長、工作重復煩瑣等問題,設計出了這套具有降低運維成本、快速敏捷、準確預測等的信息監(jiān)控工具,進一步完善和提高信息運維自動化建設,并在智能運維和降低運維成本方面具有良好的社會效益。

[1]劉嘉裕.基于分布式微服務全鏈路實時監(jiān)控系統(tǒng)設計與實現(xiàn)[D].北京交通大學,2018.

[2]LinkedAIOps開啟AIOps智能運維[J].網(wǎng)絡安全和信息化,2018(06):16.

[3]聞屏.構建全鏈路監(jiān)控打造面向大客戶的主動運維服務新體系[J].中國新通信,2016,18(22):162-163.

[4]彭兵,趙俊,李彥武.應用監(jiān)控管理系統(tǒng)在省級電力公司的應用研究[J].電力信息與通信技術,2014,12(06):83-87.

[5]梁飛.信息系統(tǒng)應用性能管理(APM)系統(tǒng)在企業(yè)信息化中的作用[J].電子技術與軟件工程,2014(22):19.

[6]劉丹.一種微服務架構最佳實踐[A].中國電機工程學會電力信息化專業(yè)委員會.2017電力行業(yè)信息化年會論文集[C].中國電機工程學會電力信息化專業(yè)委員會:人民郵電出版社電信科學編輯部,2017:5.

猜你喜歡
國網(wǎng)鏈路運維
一種移動感知的混合FSO/RF 下行鏈路方案*
基于凸優(yōu)化的FSO/RF 自動請求重傳協(xié)議方案
高速公路智能運維平臺
國網(wǎng)上海市電力公司圓滿完成春節(jié)長假保電任務
國網(wǎng)浙江電力 多措并舉抓好電力保供和能耗雙控“頭等大事”
天空地一體化網(wǎng)絡多中繼鏈路自適應調度技術
國網(wǎng)今年投資27億元 新建7.8萬個充電樁
國網(wǎng)電動汽車推出充電樁開放項目
基于BIM的供水管網(wǎng)智能運維管理系統(tǒng)設計
一種IS?IS網(wǎng)絡中的鏈路異常檢測方法、系統(tǒng)、裝置、芯片