李自尊 張一凡
收稿日期:
2023-06-06
作者簡介:
李自尊,女,高級工程師,碩士,研究方向為水利信息化及云數據中心建設。E-mail:lizizun@foxmail.com
引用格式:
李自尊,張一凡.智能運維監(jiān)控平臺在數字孿生黃河建設中的應用
[J].水利水電快報,2024,45(1):95-100,115.
摘要:
為解決信息系統依靠人工運維出現時效性差、運維工具繁多等問題,提出基于統一智能運維監(jiān)控平臺,實現面向業(yè)務、應用和IT基礎設施等全生命周期的運維管理方式。梳理總結黃河數據中心信息系統運維管理發(fā)展歷程,從黃河數據中心運維現狀及數字孿生黃河建設對智能運維管理的需求出發(fā),提出面向數字孿生黃河建設的智能運維監(jiān)控平臺設計方案,詳細闡述了建設目標、建設任務、平臺邏輯架構、平臺特性、特色功能等。通過智能運維監(jiān)控平臺建設,有效提高了黃河數據中心信息系統運維工作的精細化、自動化、智能化水平,提升了信息化運維保障支撐能力。
關鍵詞:
數字孿生黃河; 智能運維監(jiān)控; 業(yè)務視圖; CMDB; 可視化
中圖法分類號:TP391
文獻標志碼:A
DOI:10.15974/j.cnki.slsdkb.2024.01.017
文章編號:1006-0081(2024)01-0095-06
0? 引? 言
近年來,通過實施電子政務系統、黃河下游防洪非工程措施、黃委綜合管理信息資源整合與共享等重點項目[1],黃河數據中心部署的計算、存儲、網絡等基礎設施及業(yè)務系統已形成了相當的規(guī)模。隨著數字孿生黃河建設的深入開展,治黃業(yè)務對信息系統的依賴程度將越來越高,信息系統運維管理在數字化建設進程中承擔越來越重要的角色[2]。黃河數據中心通過多年的信息化服務支撐積累了一定的運維管理經驗,但仍存在運維時效性差、運維工具繁多等問題?;诮y一智能運維監(jiān)控平臺,實現面向業(yè)務、應用和IT基礎設施等全生命周期運維管理,有效保障業(yè)務系統的持續(xù)穩(wěn)定運行,具有十分重要的現實意義[3]。
本文從黃河數據中心運維現狀及數字孿生黃河建設對智能運維管理的需求出發(fā),提出面向數字孿生黃河建設的智能運維監(jiān)控平臺設計方案,旨在提升信息系統運維工作的精細化、自動化、智能化水平,提升信息化運維保障支撐能力。
1? 信息系統運維管理發(fā)展歷程
黃河數據中心信息系統運維管理主要經歷了起步、發(fā)展、穩(wěn)定、提升等4個階段的發(fā)展歷程。
(1) 起步階段。2004年以前,治黃信息系統運維無專職運維崗位,信息中心人員兼職從事運維工作。運維管理不成體系,配置了部分零散的監(jiān)控工具,管理能力處于較低水平。
(2) 發(fā)展階段。2004~2009年,黃河數據中心成立,逐步完成兼職運維團隊向專職運維團隊的轉變。運維人員有了不同崗位的劃分,運維工作事項和崗位職能逐步清晰,不同崗位之間的協作也有較明確的流程化要求。運維管理規(guī)范化工作初步完成,管理能力明顯提升。
(3) 穩(wěn)定階段。2009~2020年,隨著水利部于2009年頒布《水利信息系統運行維護定額標準》,運維工作在制度與經費上有了保證,形成了較完整的運維管理體系[4]。運維人員的崗位職能進一步精細化,管理目標從基礎設施的監(jiān)控向業(yè)務監(jiān)控持續(xù)優(yōu)化,并逐步借助智能運維工具開展運維工作。
(4) 提升階段。2020年至今,管理體系已較成熟,管理理念由傳統的保障轉為以服務為中心,即強調為治黃信息化建設與應用的相關用戶提供更全面、高效的運維支撐保障服務,強調保障的預見性與處置的敏捷性。同時隨著國產化、數字孿生黃河建設的推進,信息系統運維對智能運維監(jiān)控工具在兼容性、可靠性等方面提出更高要求,亟需具有自動化、現代化、智能化功能的智能運維監(jiān)控平臺,促進實現“全面化、可視化、自動化、移動化、決策可量化”的智慧運維體系建設[5]。
2? 智能運維監(jiān)控平臺設計
2.1? 建設目標
搭建智能運維監(jiān)控平臺,實現面向數字孿生黃河建設相關的計算、存儲備份、虛擬資源、網絡通信、機房動力環(huán)境等軟硬件設備及業(yè)務系統的統一運行監(jiān)控管理、配置管理數據庫(Configuration Management Database,CMDB)資產配置管理,建立電子化、規(guī)范化運維流程,實現各個運維系統模塊之間有效的數據聯動,并提供基于用戶角色、不同展示需求的可視化大屏展示,實現信息系統運維管理的現代化和智能化,具體目標如下。
(1) 提升信息系統運維管理水平。通過梳理信息系統運維管理基本原則、管理策略、組織架構、崗責制度、績效考核機制,構建信息系統運維管理體系,使運維管理模式和業(yè)務管理模式與應用特點有機融合,提升信息系統運維管理水平。
(2) 提升信息系統服務水平。通過對信息系統基礎設施、關鍵業(yè)務系統全鏈條視圖化監(jiān)控,從業(yè)務角度快速發(fā)現并定位故障點,實現從被動到主動的運維服務方式[6];以智能運維監(jiān)控平臺為抓手,引入服務級別管理及運維考核制度,促使服務質量的持續(xù)提升[7]。
(3) 提升信息資源管理水平。實現對各業(yè)務系統中多品牌型號的軟硬件設備及業(yè)務應用的統一管理、統一展現。
(4) 提高工作規(guī)范性及效率?;谶\維管理規(guī)章制度,梳理固化信息服務流程,使故障、服務等事件處理按照規(guī)則流程化執(zhí)行[8];通過固化日常運維作業(yè)計劃,逐步提供自動化的執(zhí)行手段,提高服務工作質量及效率,降低運維人員工作負荷。
(5) 輔助決策。通過可視化數據分析,在提升關鍵需求支撐水平的同時為信息化系統建設及優(yōu)化提供參考依據。
2.2? 建設任務
智能運維監(jiān)控平臺的建設任務主要包括集中監(jiān)控管理平臺、運維流程平臺、配置管理數據庫(Configuration Management Database,CMDB)系統、可視化展示平臺及與現有系統集成等(圖1)。
(1) 集中監(jiān)控管理平臺。實現對現有信息資源的實時監(jiān)控,包括通信網絡設備、服務器、數據庫、中間件、虛擬化資源、業(yè)務系統、機房等[9],通過自定義的分級告警、分時段智能閾值設置,實現對IT設備和業(yè)務的集中監(jiān)控管理,同時具備自動巡檢管理、自動生成統計分析報表等功能。
(2) 運維流程平臺。具備服務支持、值班排班管理、運維管理知識庫、多維度數據報表等功能,為運維管理人員提供統一服務窗口,重點在于可根據不同用戶需求提供各類統計報表服務。
(3) 資產配置管理平臺(CMDB管理平臺)。作為集中監(jiān)控平臺與運維服務管理平臺的核心,提供針對業(yè)務應用系統、服務器、存儲設備、網絡設備、安全設備、機柜、機房等CI(配置項)的資產履歷表,提供查詢與統計服務[10]。
(4) 可視化展示平臺。包含綜合可視化大屏展示及可視化機房展示[11]。綜合可視化大屏展示根據用戶角色、展示需求、展示時間段不同,設定不同的展示內容,整體可分為日常運維場景、緊急處置場景、接待展示場景及專題展示場景等。
(5) 與現有系統集成。主要包括集成機房現有動環(huán)監(jiān)控系統、集成現有短信平臺、實現與現有綜合信息門戶的單點登陸。
2.3 ?平臺邏輯架構
智能運維管理平臺從體系架構上分為資源層、數據采集層、數據處理層、邏輯層、展現層[12],具體如圖2所示。
(1) 資源層。資源層匯聚了智能運維監(jiān)控平臺監(jiān)控的全部對象,由黃河數據中心現有機房環(huán)境、網絡設備、服務器、安全設備、數據庫、中間件、虛擬化平臺等組成。
(2) 數據采集層。本層由各種協議適配器構成,向上層提供統一的接口訪問管理協議棧,獲取事件、性能、拓撲等管理信息,并在初始發(fā)現時作為驅動模塊構建信息模型。
(3) 數據處理層。對底層采集的數據進行統一描述,形成管理信息庫,向上提供統一的管理語義和調用接口,響應前臺應用的請求,完成數據查詢、處理等功能[13]。各業(yè)務模塊基于管理信息庫面對統一的數據模型,實現面向事務的并發(fā)管理,屏蔽底層協議的差異性。
(4) 邏輯層。提供集中監(jiān)控平臺、運維流程平臺、CMDB管理平臺及數據集成接口等,對外提供相應的功能服務。
(5) 展示層。前臺信息展示界面,從邏輯層得到數據加以匯總、分析、展現,主要包括個性化運維門戶管理、可視化大屏展示中心。利用分布式總線實現各邏輯層之間的通信,功能模塊之間通過內部定義數據接口,利用消息總線進行交互式操作。
2.4? 平臺特性
(1) 先進性?;谙冗M的理念和管理技術,采用成熟、先進的管理平臺,適應智能監(jiān)控技術的發(fā)展方向。
(2) 實用性、靈活性。滿足實際管理需要,真正解放管理人員的日常維護工作[14];用戶可根據需求靈活自定義專題視圖及運維流程,如根據項目建設需要將項目建設相關的軟硬件設備監(jiān)控、運維管理、CMDB管理等納入同一專題展示等。
(3) 規(guī)范性。接口的標準化和規(guī)范化原則,建立統一的運維管理規(guī)范。
(4) 開放性。系統應遵循行業(yè)的標準或規(guī)范,采用標準的、開放性的技術,并提供接口供其他系統調用,數據庫使用主流數據庫系統,可與黃委信息中心數據庫對接,實現對其數據的提取。
(5) 擴展性。既充分考慮到未來技術的發(fā)展變化又考慮運維管理的新需求,方便滿足新增的監(jiān)控需求,擴展新增的監(jiān)控功能。
(6) 安全性。系統本身具備較高的安全性,同時對納管設備不應產生較大的性能影響。
(7) 互動關聯性。集中監(jiān)控平臺、運維流程平臺及CMDB管理平臺存在內部數據接口和信息聯動,任何模塊監(jiān)控組件的信息變動、更改、增加、刪除等操作都會在其余模塊同步更新。
(8) 兼容性。運維監(jiān)控平臺兼容主流廠家的網絡設備、存儲設備、服務器設備、虛擬化、云平臺、數據庫等[15],可解決黃河數據中心信息系統來自多家供應商,信息出口不統一的問題。
2.5? 特色功能
2.5.1? 靈活的用戶權限管理
根據功能權限及設備監(jiān)測權限劃分人員角色,通過限定固定IP地址訪問、詳細的操作審核機制、用戶配置信息加密等方式提升平臺的安全性[16]。
用戶管理模塊基于用戶角色分配不同的用戶權限,在同一分組內的運維人員擁有相同的權限。最高級別的系統管理員可增加、修改、刪除用戶,為其他系統管理人員配置不同的用戶名、密碼和權限[17]。平臺包括業(yè)務視圖、資源列表、智能工具、可視化視圖等在內的所有功能均采用權限化管理,促進平臺管理規(guī)范化。
2.5.2? 數字孿生核心業(yè)務系統的深度監(jiān)控
針對數字孿生核心系統,通過動態(tài)圖形組合,對運維的信息系統進行業(yè)務建模,形成系統服務、使用部門與業(yè)務系統間的關聯關系。業(yè)務視圖以業(yè)務系統為中心,提供業(yè)務系統自底層基礎設施至上層端口各層級涉及到的監(jiān)控組件并實時主動集中展現,從而將零散的信息管理統一于業(yè)務視角,呈現信息部門的管理工作價值,實現信息系統管理與事業(yè)發(fā)展戰(zhàn)略相關聯(圖3)。
(1) 資源運行狀態(tài)可視化。通過在統一界面上基于不同顏色展現各類資源部件的狀態(tài)變化及性能,提供多層次可供擴展的圖形化監(jiān)控界面數據展現,及時提醒資源異常情況。
(2) 業(yè)務建模可視化。通過從用戶視角建立自定義個性化業(yè)務視圖,提升業(yè)務流和服務的可見性;基于業(yè)務視圖統一展現故障位置,以及時得到隔離、診斷和修復,降低對業(yè)務的干擾。
(3) 服務依賴關系可視化。通過自動發(fā)現功能,構建應用和底層IT資源的依存關系,展現業(yè)務服務與底層基礎系統架構部件間的依賴關系,增進運維人員對各種信息資源的整體掌控。
通過梳理關鍵業(yè)務系統及其依賴的中間件、數據庫、操作系統、網絡、服務器等基礎支撐軟硬件、安全環(huán)境的關系鏈條,形成業(yè)務拓撲圖,直觀反映業(yè)務系統及其依賴的運行狀態(tài)。通過業(yè)務拓撲圖,實時查看資源告警和指標信息,并可聯動查看資源的關鍵指標、維護信息、監(jiān)控配置、拓撲定位、業(yè)務結構、機房-定位等信息,從而快速判定故障點位置,提升運維質量及運維效率。
同時,通過RESTful接口、腳本管理,自動獲取接收各系統發(fā)送的監(jiān)控數據,并通過KPI指標(可用性比率、MTTR、MTBF、故障次數等)將業(yè)務系統的可用性、繁忙度、健康度等性能狀態(tài)進行展示[18],并最終繪制出整個業(yè)務運行的健康曲線,呈現在大屏展示系統中。
2.5.3? 面向管理實際的運維服務閉環(huán)管理
基于智能運維監(jiān)控平臺,將監(jiān)控平臺、運維流程、資產配置管理、可視化展示、知識管理、值班管理、變更管理、告警管理等完全打通,構建運維服務閉環(huán)管理。如圖4所示,以監(jiān)控告警為例,當業(yè)務系統產生告警信息,通過可視化拓撲展示定位故障區(qū)域,并基于完成的業(yè)務視圖進行告警關聯分析,精確定位產生故障告警的根源,明確責任部門,并支持以自動或手動觸發(fā)的方式聯動監(jiān)控生成運維事件處理流程,實時跟蹤事件處理結果。在處理問題時,若涉及到系統版本變更或軟件升級、硬件設備更換等,可
關聯發(fā)起資產配置變更流程,由事件或問題責任管理人員進行生產驗證,建立相關知識庫。
同時,結合通信鏈路、網絡及安全、計算存儲、數據資源、遙感業(yè)務、智能應用等維護及服務特點,梳理面向黃委信息中心業(yè)務的服務及故障分類及子類,便于從故障及服務類別、故障級別、解決時間、處理部門、處理人等多角度綜合統計分析運維工單,為運維考核及系統優(yōu)化提供參考依據。
2.5.4? 面向數字孿生黃河建設的綜合運維可視化大屏展示
可視化大屏展示中心可以根據用戶角色、展示需求、展示時間段不同,設定不同的展示內容。根據實際業(yè)務需求,可視化大屏主要分為面向運維人員與面向管理人員2個維度開展。
(1) 面向運維人員。
提供可托拉拽式的大屏展示配置,包括服務器、數據庫、中間件、存儲、網絡、業(yè)務和機房等專業(yè)領域的實時性能和告警視圖等。針對不同管理領域的運維人員,展示其權限范圍內的分類事件報告、基礎架構拓撲、業(yè)務系統視圖、告警等,并可通過告警信息直接定位出現故障的拓撲視圖,同時機房管理人員可通過機房綜合視圖直接獲知故障設備的物理位置,方便運維人員有效進行故障排除。
(2) 面向管理人員。
提供面向管理人員領導決策的大屏展示。整體分為3個部分,分別為運維信息展示、各監(jiān)控設備(系統)實時運行狀態(tài)、綜合拓撲展示。運維信息展示依照數字孿生黃河建設涉及的信息采集、通信網絡、黃河云、數據資源、智能業(yè)務等分類展示;設備(系統)實時運行狀態(tài)包括資源監(jiān)控總數、黃河云資源使用率、網絡安全狀態(tài)、實時告警展示等;綜合拓撲以輪播方式展示網絡拓撲、數據中心拓撲、黃河防汛通信網絡拓撲等。
2.5.5? 多云綜合可視化管理
通過數據接口實現對黃河數據中心現有華為、浪潮虛擬化資源的統一管理和展現,自上而下呈現數據中心、集群、主機、虛擬機、數據存儲之間的結構關系,實時展示虛擬機運行情況、資源消耗統計、資源TOP排行、虛擬機部署及運行密度,綜合計算平均每臺虛擬機占用的資源量及預計還可分配資源等。并可自定義導出按照不同時間周期虛擬機CPU、內存、存儲的占用率,從而得出高消耗及低消耗的虛擬機運行列表,協助對虛擬化資源進行精細化管理。
3? 結? 論
智能運維監(jiān)控平臺從黃河數據中心運維管理現狀及數字孿生黃河建設對智能運維的需求出發(fā),包含智能監(jiān)控平臺、運維平臺、資產管理平臺、可視化展示、系統集成等功能模塊?;诟鞴δ苣K的協作運行,實現了對信息化基礎支撐組件、業(yè)務系統等的統一運維管理、運維流程閉環(huán)管理及信息資產的全生命周期管理,有效支撐了黃河數據中心各類信息化資源的穩(wěn)定運行。智能運維監(jiān)控平臺較原有信息系統運維方式,提升了運維服務體驗,提高了運維工作效率,提升了運維工作的精細化、規(guī)范化、智能化水平,具體表現在以下幾個方面。
(1) 以智能運維監(jiān)控平臺中告警管理、工單管理、統計分析等功能模塊為支撐,結合單位業(yè)務管理模式,進一步規(guī)范運維監(jiān)督考核機制,使運維工作可量化、運維過程可追蹤,信息系統運維管理水平得到提升。
(2) 基于短信告警、業(yè)務視圖、全覆蓋資源監(jiān)控等功能,較原有運維模式更快速響應并定位故障點,提升信息系統服務水平及用戶體驗。
(3) 由原有眾多信息系統資源分散運維管理,轉變?yōu)榧薪y一監(jiān)控管理,資源管理的自動化、智能化水平得到提升,同時基于CMDB系統建立軟硬件資產履歷表,有效解決了原有資產管理出現的資產歸屬不清、維護和使用部門不明等問題,信息資源管理水平得到提升。
(4) 以制度為抓手,以智能運維監(jiān)控平臺作為保障,引導各項規(guī)章制度落地增效,工作規(guī)范性和效率得到提高。
(5) 以智能運維監(jiān)控平臺中積累的大量告警信息、資產履歷信息、運維流程信息、綜合性能分析等數據為依據,輔助運維工作持續(xù)改進。
參考文獻:
[1]? 李文學,寇懷忠.關于建設數字孿生黃河的思考[J].中國防汛抗旱,2022,32(2):27-31.
[2]? 王玉春.淺析醫(yī)院信息系統三級運維保障機制[J].信息系統工程,2018(12):92-93.
[3]? 王學剛.基于ITIL的運維服務管理系統設計與實現[D].鎮(zhèn)江:江蘇大學,2017.
[4]? 郭麗敏.煉化企業(yè)信息系統運維管理的分析與探索[J].中國管理信息化,2016,19(2):51-93.
[5]? 譚章祿,吳琦,肖懿軒,等.智慧礦山信息可視化研究[J].工礦自動化,2020(1):26-31.
[6]? 鄭凱,李秉哲.山東黃河綜合運維管理平臺應用分析[J].山東水利,2019(2):38-39.
[7]? 張杰全.基于ITIL的IT服務管理在制造業(yè)的應用研究[D].天津:天津工業(yè)大學,2014.
[8]? 劉瑞華.工程機械企業(yè)IT服務管理的應用分析[J].建筑機械化,2020(5):61-63.
[9]? 余前佳,李佳臨,李正,等.自然資源部國家級云數據中心運維管理探討[J].國土資源信息化,2018(3):8-11.
[10]? 王磊,伍治平,成名.一種支撐云管理平臺的CMDB設計方法[J].冶金自動化,2015(1):13-18,32.
[11]? 蔣召召.基于WebGL的數據中心3D可視化系統的設計與實現[D].杭州:浙江工業(yè)大學,2019.
[12]? 武琳荃.IT運維服務管理系統的設計和實現[D].廣州:華南理工大學,2016.
[13]? 任斌.基于智慧校園的智能感知平臺設計[J].辦公自動化,2019(23):43-45.
[14]? 黃龍.富達公司運維服務管理系統的設計與實現[D].大連:大連理工大學,2020.
[15]? 張楨,高宏.多云異構環(huán)境下統一云管平臺設計研究[J].中國新通信,2020(11):52-53.
[16]? 張強,馬興濤.利用新型信息管理平臺提升企業(yè)的信息水平[J].信息系統工程,2017(2):67.
[17]? 謝海波.嵌入安全控制模塊的裝備管理信息系統的設計與實現[D].成都:電子科技大學,2012.
[18]? 魏玉涵.IT全方位綜合管理BSM系統設計和實現[D].天津:天津大學,2016.
(編輯:李? 晗)
Application of intelligent operation and maintenance monitoring platform in construction of Digital Twin Yellow River
LI Zizun,ZHANG Yifan
(Information Center,Yellow River Conservancy Commission,Zhengzhou 450004,China)
Abstract:
In order to solve the problems such as poor timeliness of operation and maintenance of information system relying on human labor and various operation and maintenance tools,a unified intelligent operation and maintenance monitoring platform to realize the whole life cycle operation and maintenance management mode for business,application and IT infrastructure was proposed.We summarized the operation and maintenance management development history of Yellow River data center information system,starting from the operation and maintenance status of Yellow River data center and the demand of Digital Twin Yellow River construction for intelligent operation and maintenance management,puts forward the design scheme of intelligent operation and maintenance monitoring platform for Digital Twin Yellow River construction.The construction objectives,tasks,platform logical structure,platform characteristics,features and functions were elaborated.Through the construction of the intelligent operation and maintenance monitoring platform,the operation and maintenance of the Yellow River Data Center information system had been effectively improved at the level of refinement,automation and intelligence,and the informatization operation and maintenance support capability had been enhanced.
Key words:
Digital Twin Yellow River; intelligent operation and maintenance monitoring; business view; CMDB; visualization