李伯愷
關(guān)鍵詞 網(wǎng)絡(luò) 信息系統(tǒng) 大數(shù)據(jù) 智能運(yùn)維 組織轉(zhuǎn)型
為落實(shí)高效穩(wěn)定、可持續(xù)發(fā)展、從運(yùn)維到運(yùn)營(yíng)的轉(zhuǎn)型戰(zhàn)略要求,相關(guān)人員需要積極利用人工智能、云計(jì)算、邊緣計(jì)算、5G 等前沿技術(shù),積極推進(jìn)信息化、數(shù)字化、智能化轉(zhuǎn)型,以提升運(yùn)營(yíng)效率,保障IT 基礎(chǔ)架構(gòu)及信息系統(tǒng)的穩(wěn)定。
1高效運(yùn)維面臨的挑戰(zhàn)
隨著信息系統(tǒng)的業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)日益復(fù)雜,利用其構(gòu)架轉(zhuǎn)型、敏捷交付來(lái)快速響應(yīng)和支撐業(yè)務(wù)發(fā)展需求,運(yùn)維保障體系面臨更大的挑戰(zhàn)。
1.1打破監(jiān)控系統(tǒng)的“信息孤島”
隨著信息設(shè)備品牌、型號(hào)增多,我國(guó)已經(jīng)推出了涵蓋網(wǎng)絡(luò)、安全、服務(wù)器、數(shù)據(jù)庫(kù)、應(yīng)用系統(tǒng)等多種監(jiān)控工具,基本實(shí)現(xiàn)了各類軟硬件資源的全域覆蓋。但是,在故障定位及分析的過(guò)程中,需要各領(lǐng)域運(yùn)維專家在分散的監(jiān)控管理系統(tǒng)中提取及分析數(shù)據(jù)。打破運(yùn)維管理系統(tǒng)的“數(shù)據(jù)孤島”是高效協(xié)同運(yùn)維的關(guān)鍵。
1.2構(gòu)建有效的監(jiān)測(cè)體系
目前,檢測(cè)廣度方面涵蓋基礎(chǔ)的軟硬件設(shè)施,但日常運(yùn)維過(guò)程中不易分析和排查的故障時(shí)有發(fā)生;監(jiān)測(cè)深度方面涵蓋事件級(jí)、應(yīng)用級(jí)的精細(xì)化監(jiān)測(cè),有待繼續(xù)深入研究。為了構(gòu)建涵蓋運(yùn)行組件、服務(wù)、狀態(tài)、指標(biāo)、事件、日志的運(yùn)行監(jiān)測(cè)體系,需要將運(yùn)維對(duì)象數(shù)字化、可視化、精細(xì)化,從而幫助運(yùn)維人員快速、精確定位故障位置,及時(shí)發(fā)現(xiàn)各類對(duì)象的運(yùn)行風(fēng)險(xiǎn)[1] 。
1.3提升故障決策分析及快速處置能力
在故障分析定位和故障處置方面,通常需要運(yùn)維專家憑借經(jīng)驗(yàn),在復(fù)雜的信息架構(gòu)、監(jiān)控平臺(tái)下,借助大數(shù)據(jù)、機(jī)器學(xué)習(xí)等先進(jìn)技術(shù),實(shí)現(xiàn)監(jiān)控體系的智能化、可視化決策,為不同層級(jí)的運(yùn)維人員、管理者提供決策分析支撐。另外,當(dāng)故障發(fā)生后,為了快速恢復(fù)服務(wù)、減少故障恢復(fù)時(shí)間,需要相關(guān)人員制定標(biāo)準(zhǔn)化流程、做出標(biāo)準(zhǔn)化動(dòng)作、構(gòu)建標(biāo)準(zhǔn)化場(chǎng)景,發(fā)揮自動(dòng)化運(yùn)維系統(tǒng)的作用,可采用一鍵恢復(fù)的方式來(lái)提高問(wèn)題處理效率。
1.4提升運(yùn)維團(tuán)隊(duì)的管理效率
運(yùn)維團(tuán)隊(duì)由各個(gè)領(lǐng)域的技術(shù)專家組成,為了使各領(lǐng)域?qū)<腋咝f(xié)同,需要在實(shí)現(xiàn)智能化運(yùn)維感知和決策的基礎(chǔ)上,結(jié)合專家的工作日志,總結(jié)以往的成功經(jīng)驗(yàn)以及不足之處,不斷進(jìn)行摸索和實(shí)踐,以形成持續(xù)改進(jìn)和管理創(chuàng)新的機(jī)制,從而提升運(yùn)維管理能力。
2智能一體化平臺(tái)研究
2.1研究思路
(1)培養(yǎng)大數(shù)據(jù)處理和分析能力
運(yùn)維工具眾多,數(shù)據(jù)傳輸?shù)母袷?、維度也很復(fù)雜,這是因?yàn)榇嬖凇皵?shù)據(jù)孤島”且數(shù)據(jù)維度龐雜。數(shù)據(jù)中心的各類資源、數(shù)據(jù)隨著時(shí)間的增加呈指數(shù)級(jí)增長(zhǎng),構(gòu)建統(tǒng)一的運(yùn)維大數(shù)據(jù)分析平臺(tái)就非常重要。通過(guò)統(tǒng)一的平臺(tái),向各運(yùn)維工具提供海量數(shù)據(jù),進(jìn)行數(shù)據(jù)、流程的統(tǒng)一融合。平臺(tái)數(shù)據(jù)需要具備接入、處理、存儲(chǔ)、高并發(fā)訪問(wèn)消費(fèi)的能力,為各類數(shù)據(jù)消費(fèi)場(chǎng)景提供支撐,包括可視化分析、實(shí)時(shí)計(jì)算、離線分析等,滿足秒級(jí)響應(yīng)、實(shí)時(shí)計(jì)算的要求,提供大吞吐量的數(shù)據(jù)處理功能。
(2)基于AI 技術(shù)提升智能化、自動(dòng)化能力
隨著大數(shù)據(jù)、AI 等先進(jìn)技術(shù)在各行業(yè)中的應(yīng)用,在智能化輔助分析、提高管理效率、降低運(yùn)營(yíng)成本等方面得到了充分論證。在數(shù)據(jù)中心的運(yùn)維保障體系中,Gartner 提出了AIOps(Algorithmic IT Operations),其基于智能算法的IT 運(yùn)維,即通過(guò)使用統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的方法處理各IT 設(shè)備、業(yè)務(wù)應(yīng)用、運(yùn)維工具收集的數(shù)據(jù),以增強(qiáng)運(yùn)維系統(tǒng)的智能化、自動(dòng)化能力。
(3)提供靈活的可視化分析能力
集成各業(yè)務(wù)系統(tǒng)數(shù)據(jù),將抽象數(shù)據(jù)以可視化圖表的形式進(jìn)行呈現(xiàn),提供多業(yè)務(wù)統(tǒng)一展示平臺(tái)和管理平臺(tái),保證平臺(tái)在多個(gè)終端進(jìn)行集中展示。
(4)提供細(xì)粒度的數(shù)據(jù)消費(fèi)能力
在運(yùn)維管理系統(tǒng)運(yùn)行的過(guò)程中,通過(guò)內(nèi)部數(shù)據(jù)信息的整合與外部數(shù)據(jù)信息的拓展和引入,提升系統(tǒng)的可拓展性以及滿足未來(lái)可能出現(xiàn)的需求。
2.2智能一體化運(yùn)維平臺(tái)的實(shí)現(xiàn)方案
(1)構(gòu)建智能運(yùn)維的大數(shù)據(jù)基礎(chǔ)平臺(tái)
首先,須滿足海量數(shù)據(jù)分析、存儲(chǔ)及消費(fèi)的需求,平臺(tái)依托ElasticSearch,Neo4j,MySQL,Redis,TensorFlow 的基礎(chǔ)組件,滿足智能一體化運(yùn)維中的數(shù)據(jù)采集、存儲(chǔ)、實(shí)時(shí)計(jì)算、離線訓(xùn)練的典型場(chǎng)景需求。智能一體化運(yùn)維平臺(tái)如圖1 所示。
(2)構(gòu)建智能運(yùn)維的數(shù)據(jù)標(biāo)準(zhǔn)體系
各類運(yùn)維數(shù)據(jù)接入前,需要梳理運(yùn)維管理體系中各類數(shù)據(jù)的管理標(biāo)準(zhǔn)及接入技術(shù)標(biāo)準(zhǔn),指導(dǎo)各類管理工具能夠根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范利用相應(yīng)的監(jiān)控指標(biāo)及數(shù)據(jù),具體數(shù)據(jù)范圍包括各類基礎(chǔ)資源、系統(tǒng)軟件、業(yè)務(wù)系統(tǒng)的指標(biāo)類監(jiān)控?cái)?shù)據(jù)、日志監(jiān)控?cái)?shù)據(jù)、配置管理數(shù)據(jù)、IT 服務(wù)管理工單數(shù)據(jù)、自動(dòng)化運(yùn)維操作數(shù)據(jù)、設(shè)備和系統(tǒng)操作日志、網(wǎng)絡(luò)威脅監(jiān)控?cái)?shù)據(jù)等[2] 。與此同時(shí),平臺(tái)支持采用多種手段進(jìn)行數(shù)據(jù)集成,包括但不限于主動(dòng)獲取和被動(dòng)接收等方式,且支持多種語(yǔ)言的標(biāo)準(zhǔn)接口,便于各類工具系統(tǒng)能夠按需使用接口。
(3)提供可擴(kuò)展的采集監(jiān)控能力
監(jiān)控的基本目標(biāo)是“不漏報(bào)、快處理、不誤報(bào)”,構(gòu)建全域覆蓋的采集監(jiān)控體系的難度非常大,根據(jù)實(shí)際情況,需要通過(guò)持續(xù)迭代的方式不斷豐富監(jiān)控能力。因此,首先,通過(guò)對(duì)現(xiàn)有監(jiān)控平臺(tái)進(jìn)行梳理,構(gòu)建以CMDB 為基礎(chǔ)、滿足當(dāng)前管理需求的統(tǒng)一監(jiān)控平臺(tái),實(shí)現(xiàn)資源、指標(biāo)、告警、工單等的數(shù)據(jù)關(guān)聯(lián),并滿足場(chǎng)景化的運(yùn)維關(guān)聯(lián)分析展示需求。其次,平臺(tái)預(yù)留可擴(kuò)展的資源模型、指標(biāo)模型,以提高接入接口的擴(kuò)展性,滿足持續(xù)迭代的運(yùn)維數(shù)據(jù)接入與管理需求,輔助后續(xù)不斷豐富監(jiān)控廣度與深度。
(4)打造自動(dòng)化決策子系統(tǒng)
為了構(gòu)建跨平臺(tái)、跨應(yīng)用的統(tǒng)一的自動(dòng)化運(yùn)維子系統(tǒng),需要建立基于流程的跨應(yīng)用任務(wù)依賴關(guān)系,實(shí)現(xiàn)任務(wù)執(zhí)行自動(dòng)化,典型的應(yīng)用場(chǎng)景是批量業(yè)務(wù)操作,如系統(tǒng)初始化、數(shù)據(jù)批準(zhǔn)備和處理、定期開(kāi)關(guān)機(jī)、數(shù)據(jù)備份檢查、災(zāi)備切換等。
(5)實(shí)現(xiàn)靈活的數(shù)據(jù)查詢、多維度的決策分析
作為數(shù)據(jù)統(tǒng)一集成、管理、分析的平臺(tái),其具備靈活高效的查詢能力,支持通過(guò)統(tǒng)一的搜索引擎實(shí)現(xiàn)全局運(yùn)維數(shù)據(jù)的搜索,并結(jié)合用戶權(quán)限實(shí)現(xiàn)數(shù)據(jù)查詢的權(quán)限管控[3] 。此外,平臺(tái)提供各類可視化組件,通過(guò)組件間的組合可以形成不同視角的數(shù)據(jù)視圖,如IT基礎(chǔ)架構(gòu)視圖、統(tǒng)一故障分析視圖(整合基礎(chǔ)告警、應(yīng)用告警、日志告警等)、性能容量分析視圖(整合歷史基線)、故障性能關(guān)聯(lián)視圖(將故障數(shù)據(jù)和性能數(shù)據(jù)關(guān)聯(lián)分析),以進(jìn)行統(tǒng)一分析、展現(xiàn)。
(6)智能化應(yīng)用場(chǎng)景探索
通過(guò)智能化算法分析,實(shí)現(xiàn)智能化場(chǎng)景分析,主要包括:通過(guò)內(nèi)置算法或集成外部算法,對(duì)指標(biāo)時(shí)序數(shù)據(jù)進(jìn)行趨勢(shì)分析,以完成動(dòng)態(tài)基線繪制,并基于動(dòng)態(tài)基線趨勢(shì)進(jìn)行數(shù)據(jù)預(yù)測(cè),在數(shù)據(jù)偏離基線正常范圍時(shí)進(jìn)行異常告警;支持針對(duì)單一指標(biāo)的趨勢(shì)分析以及多指標(biāo)關(guān)聯(lián)趨勢(shì)分析;從多種維度對(duì)告警進(jìn)行聚合,推動(dòng)告警從列表化管理向場(chǎng)景化管理演進(jìn)。支持按照運(yùn)維對(duì)象、運(yùn)維對(duì)象關(guān)系、任意運(yùn)維對(duì)象屬性、運(yùn)維對(duì)象標(biāo)簽、運(yùn)維組織、業(yè)務(wù)系統(tǒng)、歷史告警發(fā)生概率進(jìn)行告警捏合,從而為面向告警場(chǎng)景的智能告警分組;通過(guò)圖算法,實(shí)現(xiàn)基于圖路徑的告警根源分析,并結(jié)合歷史數(shù)據(jù),自動(dòng)推送告警根原。以趨勢(shì)預(yù)測(cè)分析為例,對(duì)性能指標(biāo)數(shù)據(jù)接入后,通過(guò)對(duì)歷史數(shù)據(jù)的模型訓(xùn)練,揀選完成后實(shí)現(xiàn)對(duì)趨勢(shì)的分析預(yù)測(cè),如圖2 所示。
3成果應(yīng)用及實(shí)踐
3.1提升運(yùn)維團(tuán)隊(duì)的協(xié)同效率
通過(guò)統(tǒng)一的運(yùn)維管理平臺(tái),打破了各專項(xiàng)運(yùn)維工具的“信息孤島”,改變了傳統(tǒng)故障定位問(wèn)題時(shí)從各個(gè)系統(tǒng)中進(jìn)行數(shù)據(jù)查詢分析的現(xiàn)狀,提升了運(yùn)維決策效率以及運(yùn)維管理各專家團(tuán)隊(duì)的協(xié)作效率,并可通過(guò)平臺(tái)進(jìn)行故障處置。
3.2提升自動(dòng)化水平
通過(guò)建立自動(dòng)化流程,實(shí)現(xiàn)流程驅(qū)動(dòng)的業(yè)務(wù)系統(tǒng)運(yùn)維自動(dòng)化。做到自動(dòng)巡檢、故障診斷、安裝部署、配置管理,實(shí)現(xiàn)日常運(yùn)維工作的自動(dòng)化。自動(dòng)化運(yùn)維可以提高運(yùn)維人員的工作效率與準(zhǔn)度,提升產(chǎn)品系統(tǒng)運(yùn)行的安全性和可靠性。
3.3應(yīng)用智能化技術(shù)
可落地的智能化運(yùn)維場(chǎng)景非常多,通過(guò)本平臺(tái),在智能閾值分析、告警收斂、原因分析等方面進(jìn)行了初步探索。
4總結(jié)
隨著智能一體化運(yùn)維平臺(tái)的應(yīng)用,打破了傳統(tǒng)運(yùn)維的“信息孤島”,夯實(shí)了智能運(yùn)維的數(shù)據(jù)基礎(chǔ),在自動(dòng)化、標(biāo)準(zhǔn)化、智能化方面邁出了第一步,還需要繼續(xù)摸索及實(shí)踐,充分結(jié)合學(xué)術(shù)界的研究成果、同行業(yè)的先進(jìn)經(jīng)驗(yàn),真正實(shí)現(xiàn)智能化運(yùn)維,從而提升管理效率、降低運(yùn)維成本。
計(jì)算機(jī)應(yīng)用文摘·觸控2022年13期