安徽南瑞中天電力電子有限公司 孟元 錢立鵬 何義赟 周云鶴
面對新形勢、新挑戰(zhàn)和新要求,用電計量類業(yè)務(wù)公司按照“感知數(shù)據(jù)總?cè)肟?、控制指令總出口”的系統(tǒng)定位,聚焦“全量數(shù)據(jù)按需采集、設(shè)備狀態(tài)動態(tài)感知、臺區(qū)能源柔性控制、數(shù)據(jù)靈活高效共享”四大核心業(yè)務(wù)主線,以“量測、感知、控制、共享”為切入點,主動應(yīng)對“雙高、雙峰”問題,構(gòu)建性能卓越、功能豐富、安全穩(wěn)定的新一代用電計量類業(yè)務(wù)系統(tǒng)、能源互聯(lián)網(wǎng)營銷服務(wù)系統(tǒng),使之成為公司“碳達峰、碳中和”行動方案的重要落腳點和以能源互聯(lián)網(wǎng)為核心構(gòu)建新型電力系統(tǒng)的著力點。
用電計量類業(yè)務(wù)系統(tǒng)是電力行業(yè)規(guī)模、技術(shù)復(fù)雜度和實用化程度較高的核心信息系統(tǒng),為營銷、生產(chǎn)、調(diào)度、安檢等專業(yè)提供各項基礎(chǔ)數(shù)據(jù),有效支撐了計量資產(chǎn)閉環(huán)管理、電費核算、線損管理、配網(wǎng)搶修等各項業(yè)務(wù)的開展。隨著新型電力系統(tǒng)的建設(shè)推進,對新一代用電計量類業(yè)務(wù)系統(tǒng)的業(yè)務(wù)支撐能力和可靠穩(wěn)定運行提出了更高的要求。
新一代用電計量類業(yè)務(wù)系統(tǒng)運行監(jiān)控方面應(yīng)用成熟的大數(shù)據(jù)、人工智能、云計算等技術(shù),加強核心技術(shù)組件的運行監(jiān)控服務(wù),構(gòu)建完善的備份恢復(fù)策略、安全控制、運行管理監(jiān)控、故障智能處理等容錯能力,保障終端設(shè)備不間斷接入、業(yè)務(wù)不間斷訪問和數(shù)據(jù)不間斷共享,全面支撐新一代用電計量業(yè)務(wù)系統(tǒng)的“數(shù)據(jù)多樣化、采集實時化、信息互動化、業(yè)務(wù)增值化”發(fā)展趨勢,全面服務(wù)市場能源交易生態(tài),服務(wù)智能電網(wǎng)運營生態(tài),服務(wù)末端精益運維生態(tài),服務(wù)綠色能源低碳生態(tài),服務(wù)營商環(huán)境優(yōu)化生態(tài),全力助推用電計量類業(yè)務(wù)系統(tǒng)平穩(wěn)有序的向數(shù)字化轉(zhuǎn)型和智能化升級。
1.3.1 國內(nèi)外同類產(chǎn)品研究現(xiàn)狀
在國網(wǎng)層面,用電計量類業(yè)務(wù)系統(tǒng)已于2015年開展了用電信息采集主站性能在線監(jiān)測的研究,并將在線監(jiān)測與用電信息采集系統(tǒng)集成并配套使用。該系統(tǒng)在線監(jiān)測的對象在實際應(yīng)用中僅限于系統(tǒng)主站軟件和硬件,軟件包括中間件、數(shù)據(jù)庫管理軟件、操作系統(tǒng)軟件、采集前置程序;硬件包括采集系統(tǒng)應(yīng)用主機服務(wù)器、數(shù)據(jù)庫服務(wù)器、前置服務(wù)器和網(wǎng)絡(luò)交換設(shè)備。但該功能缺乏可全面推廣實施的應(yīng)用性能管理解決方案,缺乏可工程化及可實用化的應(yīng)用性能管理和分析手段,缺乏對用電信息采集系統(tǒng)各種異常日志的分析及提煉并預(yù)警的分析功能,缺乏對關(guān)鍵業(yè)務(wù)指標(biāo)監(jiān)控,缺乏針對采集系統(tǒng)各類大數(shù)據(jù)架構(gòu)組件的監(jiān)控兼容性,缺乏事件預(yù)警分析和故障處理指令自主執(zhí)行和推送等缺點。
1.3.2 發(fā)展趨勢
新一代用電計量類業(yè)務(wù)系統(tǒng)的建設(shè)啟動在設(shè)計原則上遵循“架構(gòu)普適前瞻、技術(shù)穩(wěn)定先進、功能獨立擴展、界面量身定制”設(shè)計理念,將廣泛應(yīng)用大數(shù)據(jù)、人工智能、云計算等技術(shù),構(gòu)建彈性擴展、平滑升級、穩(wěn)定可靠的技術(shù)架構(gòu)。新架構(gòu)背景開發(fā)設(shè)計的系統(tǒng)運行診斷監(jiān)測及維護技術(shù)的研究及應(yīng)用在運行環(huán)境監(jiān)控、軟件平臺監(jiān)控、應(yīng)用軟件監(jiān)控、關(guān)鍵指標(biāo)監(jiān)控、事件預(yù)警和自動化處理等方面提供了重要的運行診斷監(jiān)控手段,為信息化運維提供有效的性能和業(yè)務(wù)支撐工具,支撐用電計量類系統(tǒng)開展數(shù)字化運維,使得業(yè)務(wù)運行高效管控,為系統(tǒng)推廣和實用化提供重要保障。
新一代用電計量類業(yè)務(wù)系統(tǒng)運行監(jiān)測應(yīng)用先進人工智能技術(shù),通過全方位立體化監(jiān)控,集數(shù)字化運維服務(wù),統(tǒng)一事件管理等組件,打通監(jiān)測與業(yè)務(wù)應(yīng)用,在滿足快速響應(yīng)前臺的變化和創(chuàng)新需求的同時,保障業(yè)務(wù)系統(tǒng)穩(wěn)定可靠運行,支撐系統(tǒng)開展數(shù)字化運維與業(yè)務(wù)運行高效管控。
新一代用電計量類業(yè)務(wù)系統(tǒng)的運行監(jiān)測由采集層、存儲層、分析層、業(yè)務(wù)層和展現(xiàn)層組成。采集層基于Prometheus 和Cloudera Manager 收集各類組件和中間件的運行日志,將異常信息寫入消息總線。存儲層通過“讀寫分離”將日志存儲在ElasticSearch 和Hive 中,滿足日志復(fù)雜查詢和在線分析的需求。分析層運用流處理程序、人工智能算法,將不同節(jié)點、關(guān)鍵指標(biāo)、運行環(huán)境異常信息與應(yīng)用程序進行融合和實時分析,研判告警發(fā)生時間、持續(xù)時間和嚴重等級,研判對系統(tǒng)運行和業(yè)務(wù)的影響范圍。業(yè)務(wù)層根據(jù)告警推送策略,主動推送至系統(tǒng)主頁、App以及短信通知運維人員、業(yè)務(wù)主管等相關(guān)人員,同時支持日志、告警的查詢、統(tǒng)計和分析。展現(xiàn)層支持將告警信息、監(jiān)控指標(biāo)等信息,以大屏、移動端桌面PC等方式進行展現(xiàn)。
新一代用電計量類業(yè)務(wù)系統(tǒng)基于組件監(jiān)控(Prometheus)、全鏈路監(jiān)控(SkyWalking)等服務(wù)組件,構(gòu)建運行狀態(tài)監(jiān)測、異常實時監(jiān)測、主動告警與異常處置等能力,實現(xiàn)系統(tǒng)資源、技術(shù)組件、應(yīng)用服務(wù)的統(tǒng)一監(jiān)控。
運行監(jiān)控能力支撐系統(tǒng)可以對生產(chǎn)應(yīng)用、交互服務(wù)的各類軟硬件資源和服務(wù)實現(xiàn)一體化監(jiān)測與管理。資源監(jiān)測可以對基礎(chǔ)資源的使用情況和健康程度進行實時監(jiān)控,并提供歷史狀態(tài)查詢。組件監(jiān)控對系統(tǒng)內(nèi)大數(shù)據(jù)組件、中間件、微服務(wù)、容器等組件實現(xiàn)統(tǒng)一形式的狀態(tài)捕獲,對系統(tǒng)各組件服務(wù)的運行狀態(tài)、健康情況等實現(xiàn)一體化監(jiān)測與管理。業(yè)務(wù)監(jiān)控對微應(yīng)用、計算應(yīng)用進行實時監(jiān)控,在對任務(wù)執(zhí)行狀況監(jiān)測的基礎(chǔ)上,實現(xiàn)業(yè)務(wù)指標(biāo)的跟蹤監(jiān)測。日志監(jiān)測可以提供統(tǒng)一的日志收集、處理、分析、檢索能力。告警預(yù)警結(jié)合各維度監(jiān)控信息,結(jié)合日志分析,提供告警規(guī)則的配置與實現(xiàn),支持郵件、短信等多種告警形式,并提供可擴展接口,滿足不同網(wǎng)省的差異化需求。支持通過大屏、PC 端、移動端(App掌機、企業(yè)微信)等媒介進行展現(xiàn)[1]。
對平臺、組件、系統(tǒng)軟件和運行環(huán)境進行日志采集,為開展智能研判提供基礎(chǔ)數(shù)據(jù)。通過消息中間件實現(xiàn)日志的讀寫分離、快速存儲和高效查詢。基于告警信息匯聚,運用流處理和人工智能技術(shù)對網(wǎng)絡(luò)層、系統(tǒng)層、平臺組件層、統(tǒng)計層、應(yīng)用程序(微應(yīng)用)做實時監(jiān)測與分析,并對告警進行匯聚,開展告警綜合分析,為后續(xù)系統(tǒng)災(zāi)備切換提供可判斷的依據(jù)。
結(jié)合系統(tǒng)業(yè)務(wù)應(yīng)用層、中間件層、平臺層的日志和告警信息,推送消息中間件進行實時分析,分析結(jié)果用于系統(tǒng)運維、故障消缺和異常處理,為新一代用電計量類業(yè)務(wù)系統(tǒng)的自動化運維、同城災(zāi)備提供輔助支持功能。基于多維監(jiān)測信息,統(tǒng)一設(shè)計告警配置,利用AlertManager 實現(xiàn)多維告警信息聚合、過濾,結(jié)合消息中心和告警處理流程設(shè)計,實現(xiàn)告警信息的發(fā)布、推送及處理閉環(huán),形成告警管理綜合體系。
綜合監(jiān)測是新一代用電計量類業(yè)務(wù)系統(tǒng)運行監(jiān)測的基礎(chǔ)功能,也是核心功能。通過設(shè)定監(jiān)測指標(biāo),對監(jiān)測對象的運行狀態(tài)及性能進行監(jiān)測,包括監(jiān)測首頁、K8S 監(jiān)測、微服務(wù)監(jiān)測、調(diào)用鏈監(jiān)測、任務(wù)關(guān)聯(lián)監(jiān)測、組件監(jiān)測、基礎(chǔ)資源監(jiān)測和大數(shù)據(jù)組件監(jiān)測等。通過集成大數(shù)據(jù)、微服務(wù)、基礎(chǔ)資源、關(guān)鍵業(yè)務(wù)、K8S 等監(jiān)控信息,展示各類集群、節(jié)點、服務(wù)和業(yè)務(wù)指標(biāo)的輸出信息。采用集成自研圖形工具如KubeSphere、skywalking、springbootAdmin、Prometheus+grafana、cloudrea manager等第三方開元軟件實現(xiàn)[2]。
通過各資源拓撲結(jié)構(gòu)展示集群、服務(wù)器、組件、應(yīng)用之間的拓撲關(guān)系,可實現(xiàn)新增集群、新增服務(wù)器、新增組件、新增應(yīng)用的方式完成一鍵診斷、因素分析、新增資源、更新拓撲以及發(fā)布的功能,便于運行監(jiān)控資源關(guān)系的管理維護。
告警管理分為告警記錄和告警工單監(jiān)控,可對系統(tǒng)、組件、應(yīng)用等多維度匯聚的監(jiān)測信息進行綜合分析,發(fā)現(xiàn)影響系統(tǒng)運行的問題并進行告警。應(yīng)用場景方面為基礎(chǔ)資源擴容更新、組件升級、程序優(yōu)化提供支撐,實現(xiàn)異常告警處理與消缺,為系統(tǒng)災(zāi)備切換提供輔助決策依據(jù)。技術(shù)特征方面建立監(jiān)測告警基線模型,支持監(jiān)控信息的綜合分析、預(yù)警、告警、告警處理機制、異常等級劃分、多渠道實時推送告警信息及統(tǒng)一的監(jiān)測告警視圖。
消息中心提供統(tǒng)一的消息配置,將消息按照指定規(guī)則推送到指定終端,并對這一過程進行鏈路、業(yè)務(wù)監(jiān)控和輸出運維與運營報表的綜合功能模塊,利用消息分類、消息內(nèi)容、發(fā)送時間、狀態(tài)等條件,展示消息分類、消息標(biāo)題、消息內(nèi)容、狀態(tài)等信息??蓪崿F(xiàn)對消息分類、消息模板、消息發(fā)布及配置的新增、刪除、修改,可實現(xiàn)針對不同使用人群的新增消息普通推送、模板推送和主題推送。
提供監(jiān)控告警和預(yù)警策略、處理策略的配置功能,提供事件等級配置和告警發(fā)布配置功能,允許根據(jù)事件和故障等級實現(xiàn)消息訂閱,實現(xiàn)告警和故障實時推送和提醒,可實現(xiàn)對各類監(jiān)控、告警規(guī)則的新增、刪除、修改和啟用停用功能。
日志管理分為審計日志、業(yè)務(wù)日志、用戶操作日志、第三方接口日志、頁面停留日志、異常日志、運行日志、服務(wù)運行日志、API 網(wǎng)關(guān)日志、大數(shù)據(jù)日志等?;赑rometheus、Cloudera Manager或者其他大數(shù)據(jù)平臺日志采集軟件,針對應(yīng)用程序開發(fā)的探針,實現(xiàn)對服務(wù)器、大數(shù)據(jù)平臺、微服務(wù)器、容器、技術(shù)組件、運行程序和關(guān)鍵業(yè)務(wù)的日志信息采集,將日志信息送入Kafka,實現(xiàn)入庫存儲和實時分析。同時,管理頁面可實現(xiàn)對各個節(jié)點日志采集情況進行監(jiān)測,提供查詢和刪除操作。
新一代用電計量類業(yè)務(wù)系統(tǒng)運行監(jiān)測以數(shù)據(jù)為基礎(chǔ)、以算法為支撐、以場景為導(dǎo)向,采用先進的實時海量大數(shù)據(jù)處理方法和機器學(xué)習(xí)等人工智能技術(shù),通過研究輕量級、低侵入、松耦合的立體化監(jiān)控[3],集成管理工具集、數(shù)字化運維服務(wù)、統(tǒng)一事件管理等模塊化組件,實現(xiàn)了運行診斷監(jiān)測與前臺業(yè)務(wù)應(yīng)用之間的信息和管理聯(lián)系,提升了系統(tǒng)運行數(shù)據(jù)能力支撐和系統(tǒng)可靠性。運用各類數(shù)據(jù)采集軟件,實現(xiàn)對用電計量類業(yè)務(wù)系統(tǒng)的平臺、組件、程序和指標(biāo)等資源進行日志信息的全覆蓋、全采集,構(gòu)建全域數(shù)據(jù)感知。運用流處理技術(shù)實時檢測出系統(tǒng)的異常情況,運用故障診斷模型對異常進行綜合分析與故障診斷,定位故障節(jié)點及影響范圍,運用故障預(yù)測開展磁盤異常預(yù)測、服務(wù)器及程序故障預(yù)測等工作,實現(xiàn)系統(tǒng)故障智能分析。以異常分析與故障診斷為基礎(chǔ),通過構(gòu)建故障運維智能處理模型,自動觸發(fā)預(yù)定義規(guī)則腳本,依據(jù)監(jiān)測的系統(tǒng)數(shù)據(jù)及對數(shù)據(jù)的綜合分析,自動發(fā)出運維指令執(zhí)行相關(guān)運維操作,故障消缺智能運維監(jiān)控工作。