袁雅涵 馮勇 朱輝 孟金 陳澍
(山東省氣象信息中心 山東省濟(jì)南市 250031)
隨著氣象信息化、集約化、標(biāo)準(zhǔn)化進(jìn)程的加速推進(jìn),建立統(tǒng)一數(shù)據(jù)環(huán)境、整合業(yè)務(wù)應(yīng)用系統(tǒng)、建設(shè)集約共享的氣象云等各項(xiàng)工作都在穩(wěn)步推進(jìn)和實(shí)施,氣象業(yè)務(wù)信息化正由技術(shù)應(yīng)用走向工作協(xié)同。氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)——“天鏡”建設(shè)是推動(dòng)信息化和國(guó)家級(jí)業(yè)務(wù)現(xiàn)代化的一項(xiàng)重要舉措,對(duì)于促進(jìn)氣象數(shù)據(jù)融合,推動(dòng)氣象業(yè)務(wù)綜合化、集約化發(fā)展具有重大意義,可以全方位提升氣象業(yè)務(wù)、現(xiàn)代化管理和信息化水平。
目前,山東省已完成了“天鏡”省級(jí)通用版的本地化部署,實(shí)現(xiàn)了部分省級(jí)數(shù)據(jù)的傳輸監(jiān)控,但缺少對(duì)省內(nèi)特色資料及地市數(shù)據(jù)的全流程監(jiān)控,存在市級(jí)和縣級(jí)下游數(shù)據(jù)監(jiān)控的空白,業(yè)務(wù)應(yīng)用的數(shù)據(jù)完整性、時(shí)效性的監(jiān)控能力相對(duì)薄弱等問(wèn)題。另外,山東省氣象局正大力推進(jìn)業(yè)務(wù)系統(tǒng)集約化管理,面對(duì)日益精細(xì)化的監(jiān)控需求、日漸增長(zhǎng)的業(yè)務(wù)系統(tǒng),目前還存在監(jiān)控任務(wù)分散,運(yùn)行維護(hù)人力成本高、效率低的問(wèn)題,制約了山東氣象業(yè)務(wù)集約化的健康發(fā)展。為實(shí)現(xiàn)省-市-縣三級(jí)“全流程”、集約化的實(shí)時(shí)業(yè)務(wù)監(jiān)控運(yùn)維系統(tǒng),急需打通下游數(shù)據(jù)監(jiān)控流程,規(guī)范數(shù)據(jù)監(jiān)控接入的步驟和程序,規(guī)范山東特色資料和業(yè)務(wù)系統(tǒng)對(duì)接“天鏡”的技術(shù)流程,實(shí)現(xiàn)快速接入。
綜合上述問(wèn)題,本文展開(kāi)特色資料全流程和業(yè)務(wù)系統(tǒng)接入“天鏡”系統(tǒng)的規(guī)范化研究,實(shí)現(xiàn)特色數(shù)據(jù)全流程和業(yè)務(wù)系統(tǒng)重要指標(biāo)的實(shí)時(shí)監(jiān)控和告警。實(shí)現(xiàn)省內(nèi)特色資料、省-市-縣三級(jí)業(yè)務(wù)數(shù)據(jù)及業(yè)務(wù)系統(tǒng)的標(biāo)準(zhǔn)化快速接入和全流程監(jiān)控,數(shù)據(jù)全流程的實(shí)時(shí)監(jiān)控實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)加工處理、數(shù)據(jù)存儲(chǔ)服務(wù)、數(shù)據(jù)分析應(yīng)用的全過(guò)程監(jiān)控和實(shí)時(shí)的監(jiān)視告警,實(shí)現(xiàn)數(shù)據(jù)的快速監(jiān)控和全流程監(jiān)視。根據(jù)業(yè)務(wù)監(jiān)控和系統(tǒng)運(yùn)維需求實(shí)施集約化的監(jiān)控整合,實(shí)時(shí)監(jiān)控業(yè)務(wù)系統(tǒng)基礎(chǔ)資源狀態(tài)、應(yīng)用存儲(chǔ)目錄、產(chǎn)品完整性、頁(yè)面訪問(wèn)狀態(tài)等關(guān)鍵性指標(biāo),對(duì)異常狀態(tài)實(shí)時(shí)告警。業(yè)務(wù)系統(tǒng)的快速接入,實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)基礎(chǔ)資源、軟件運(yùn)行、各環(huán)節(jié)數(shù)據(jù)時(shí)效性及完整性、服務(wù)狀態(tài)、任務(wù)運(yùn)行情況的實(shí)時(shí)監(jiān)控,大大降低業(yè)務(wù)系統(tǒng)運(yùn)維難度,提高業(yè)務(wù)數(shù)據(jù)監(jiān)視的靈活性,滿足業(yè)務(wù)數(shù)據(jù)高質(zhì)量運(yùn)維的需求。
目前國(guó)內(nèi)外氣象行業(yè)都在積極開(kāi)展業(yè)務(wù)系統(tǒng)監(jiān)控的研究工作。
國(guó)外氣象行業(yè)的監(jiān)視系統(tǒng)主要圍繞著數(shù)據(jù)傳輸網(wǎng)絡(luò)、數(shù)據(jù)收集生成、數(shù)據(jù)質(zhì)量、觀測(cè)設(shè)備狀態(tài)進(jìn)行監(jiān)控,如歐洲中期天氣預(yù)報(bào)中心(ECMWF)通過(guò)告警系統(tǒng)來(lái)對(duì)數(shù)據(jù)可用性和數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控告警;美國(guó)國(guó)家海洋和大氣管理局(NOAA)通過(guò)建設(shè)觀測(cè)系統(tǒng)監(jiān)控中心對(duì)全球海洋觀測(cè)系統(tǒng)的性能進(jìn)行實(shí)時(shí)監(jiān)控;美國(guó)國(guó)家環(huán)境預(yù)報(bào)中心(NCEP)主要對(duì)數(shù)據(jù)完整性和時(shí)效性進(jìn)行實(shí)時(shí)監(jiān)控。
如圖1所示,國(guó)內(nèi)氣象行業(yè)的業(yè)務(wù)監(jiān)控系統(tǒng),主要功能是實(shí)現(xiàn)對(duì)觀測(cè)裝備、基礎(chǔ)資源、數(shù)據(jù)分發(fā)狀態(tài)、業(yè)務(wù)系統(tǒng)核心進(jìn)程的監(jiān)視和運(yùn)維,如全國(guó)綜合氣象信息共享系統(tǒng)業(yè)務(wù)監(jiān)控系統(tǒng)(CIMISS-MCP)對(duì)數(shù)據(jù)收集、分發(fā)、處理、存儲(chǔ)和共享進(jìn)行全流程的監(jiān)視和綜合分析,綜合氣象觀測(cè)系統(tǒng)運(yùn)行監(jiān)控平臺(tái)(ASOM)對(duì)天氣雷達(dá)、自動(dòng)氣象站、探空系統(tǒng)等運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控。
圖1:監(jiān)視信息接入“天鏡”技術(shù)框架
中國(guó)氣象局開(kāi)發(fā)了氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng),定位于對(duì)觀測(cè)、信息、預(yù)報(bào)預(yù)測(cè)、公共服務(wù)及政務(wù)管理的“全流程、一體化、可視化”監(jiān)控,按照“橫向集中、下沉一級(jí)、綜合監(jiān)控”的原則,建立橫縱一體化的氣象綜合業(yè)務(wù)全流程監(jiān)控。目前,山東省已完成了“天鏡”系統(tǒng)的本地
化建設(shè)和部署,實(shí)現(xiàn)了部分統(tǒng)一收集業(yè)務(wù)運(yùn)行信息和觀測(cè)資料的監(jiān)控,實(shí)現(xiàn)了省級(jí)監(jiān)控系統(tǒng)與國(guó)家級(jí)監(jiān)控系統(tǒng)的實(shí)時(shí)聯(lián)動(dòng),初步建成了集約化實(shí)時(shí)業(yè)務(wù)監(jiān)控與運(yùn)維體系。
結(jié)合“天鏡·山東”本地化建設(shè)需求,開(kāi)展數(shù)據(jù)全流程接入“天鏡”監(jiān)控的關(guān)鍵技術(shù)研究,實(shí)現(xiàn)特色資料數(shù)據(jù)全流程的實(shí)時(shí)監(jiān)控。以特色資料為主線,監(jiān)視數(shù)據(jù)在采集、收集、入庫(kù)、分發(fā)等各環(huán)節(jié)的關(guān)鍵性能指標(biāo)狀態(tài)。提供針對(duì)每類資料的全流程詳情查詢和耗時(shí)統(tǒng)計(jì)功能,根據(jù)時(shí)次、資料、數(shù)據(jù)來(lái)源等屬性可以查詢資料每條數(shù)據(jù)在各環(huán)節(jié)輸入輸出的詳細(xì)狀況。
基于“天鏡”的開(kāi)放性框架,研究業(yè)務(wù)系統(tǒng)對(duì)接 “天鏡”的重難點(diǎn)問(wèn)題和規(guī)范化流程,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)監(jiān)控的快速接入。監(jiān)控業(yè)務(wù)系統(tǒng)主要功能圍繞監(jiān)視信息的全生命周期,從監(jiān)控信息匯聚、分析到可視化展示、集中告警、運(yùn)維管理。對(duì)業(yè)務(wù)系統(tǒng)的基礎(chǔ)資源、軟件運(yùn)行、各環(huán)節(jié)數(shù)據(jù)時(shí)效及完整性、服務(wù)狀態(tài)、任務(wù)運(yùn)行情況等進(jìn)行實(shí)時(shí)監(jiān)控,根據(jù)業(yè)務(wù)系統(tǒng)需求進(jìn)行指標(biāo)的多維統(tǒng)計(jì)分析、業(yè)務(wù)影響分析等加工處理,生成監(jiān)控系統(tǒng)的多級(jí)別、多維度綜合性指標(biāo)、超閾值監(jiān)測(cè)指標(biāo)和關(guān)聯(lián)分析視圖,實(shí)現(xiàn)對(duì)超出各環(huán)節(jié)閾值信息進(jìn)行實(shí)時(shí)告警功能。
“天鏡·山東”按照高性能、大容量的原則設(shè)計(jì),提供平滑可伸縮的系統(tǒng)架構(gòu),支持高并發(fā)量用戶訪問(wèn),具備良好的擴(kuò)展性。
本文基于“天鏡·山東”開(kāi)展特色數(shù)據(jù)及業(yè)務(wù)系統(tǒng)的關(guān)鍵技術(shù)研究,根據(jù)監(jiān)控類型分為資源類監(jiān)控、數(shù)據(jù)全流程監(jiān)控、業(yè)務(wù)系統(tǒng)監(jiān)控、告警監(jiān)視四種,監(jiān)視信息接入“天鏡·山東”技術(shù)框架如圖1所示。結(jié)合數(shù)據(jù)輪詢、FTP推送、
消息隊(duì)列拆分、解碼入庫(kù)等步驟打通數(shù)據(jù)全流程通道,按照“天鏡”系統(tǒng)監(jiān)視信息采集接口規(guī)范開(kāi)發(fā)數(shù)據(jù)推送接口和數(shù)據(jù)采集接口,開(kāi)發(fā)DI/EI信息采集腳本并進(jìn)行指標(biāo)信息的可視化。對(duì)業(yè)務(wù)系統(tǒng)的基礎(chǔ)資源、軟件運(yùn)行、各環(huán)節(jié)數(shù)據(jù)時(shí)效性及完整性、服務(wù)狀態(tài)、任務(wù)運(yùn)行情況等進(jìn)行實(shí)時(shí)監(jiān)控,開(kāi)發(fā)相應(yīng)的多元可視化監(jiān)控頁(yè)面,實(shí)時(shí)展示告警信息。
表1:數(shù)據(jù)DI信息字段內(nèi)容
針對(duì)服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件等監(jiān)測(cè)采集,主要是通過(guò)在被監(jiān)測(cè)服務(wù)器上安裝“天鏡”的Agent(本地代理)或RemoteAgent(遠(yuǎn)程代理)來(lái)采集數(shù)據(jù),通過(guò)內(nèi)拉或外推的形式接入“天鏡”。針對(duì)第三方監(jiān)控平臺(tái)數(shù)據(jù),如云平臺(tái)、安全管理系統(tǒng)、機(jī)房動(dòng)力環(huán)境監(jiān)測(cè)系統(tǒng)等,按照“天鏡”接口要求開(kāi)發(fā)數(shù)據(jù)推送接口,將監(jiān)測(cè)DI(對(duì)氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控體系下監(jiān)控?cái)?shù)據(jù)進(jìn)行分類,定義監(jiān)控?cái)?shù)據(jù)包含的條目、條目含義、屬性、約束條件等業(yè)務(wù)內(nèi)容)信息發(fā)送至“天鏡”系統(tǒng)。
數(shù)據(jù)源通過(guò)FTP輪詢腳本推送到CTS(全國(guó)綜合氣象信息共享平臺(tái)山東省數(shù)據(jù)收發(fā)業(yè)務(wù)監(jiān)控系統(tǒng))進(jìn)行數(shù)據(jù)和消息隊(duì)列的處理和轉(zhuǎn)發(fā),接著進(jìn)行DPC解碼程序解碼拆分,將數(shù)據(jù)存儲(chǔ)到大數(shù)據(jù)云平臺(tái)的緩存庫(kù)。通過(guò)氣象大數(shù)據(jù)云平臺(tái)“天擎”的總控配置管理系統(tǒng)對(duì)資料的全流程的總配置、收集、分發(fā)、入庫(kù)、同步的各個(gè)環(huán)節(jié)進(jìn)行配置,其中總配置包括配置資料編碼、臺(tái)站級(jí)/文件級(jí)、提前延后時(shí)次、收集頻次、是否為關(guān)鍵資料、是否考核、是否監(jiān)視;收集配置包括配置節(jié)目表、是否告警、告警參數(shù)、應(yīng)收數(shù)、及時(shí)時(shí)間配置;分發(fā)配置包括配置分發(fā)用戶、分發(fā)頻次、節(jié)目表、是否告警、告警參數(shù)、應(yīng)分發(fā)數(shù)、及時(shí)時(shí)間配置;入庫(kù)配置包括配置目標(biāo)庫(kù)標(biāo)識(shí)(緩沖庫(kù)BFDB或?qū)崟r(shí)庫(kù)RADB等)、SOD編碼、入庫(kù)頻次、節(jié)目表、是否告警、告警參數(shù)、應(yīng)入庫(kù)數(shù)、及時(shí)時(shí)間配置;同步配置包括配置同步的目標(biāo)節(jié)點(diǎn)、目標(biāo)庫(kù)、目標(biāo)表、同步頻次、節(jié)目表、是否告警、告警參數(shù)、應(yīng)同步數(shù)配置。
如表1所示,各個(gè)環(huán)節(jié)的DI信息通過(guò)Transfer形式通過(guò)接口傳送到gateway中進(jìn)行白名單匹配關(guān)聯(lián),將匹配后的信息傳送到Kafka,通過(guò)數(shù)據(jù)處理腳本從Kafka中調(diào)取相關(guān)信息存入ElasticSearch數(shù)據(jù)庫(kù)中,最后基于“天鏡”系統(tǒng)按需調(diào)取相關(guān)監(jiān)視內(nèi)容信息,對(duì)數(shù)據(jù)加工處理并進(jìn)行可視化監(jiān)控展示。
以業(yè)務(wù)監(jiān)控需求和頁(yè)面展示設(shè)計(jì)為前提,根據(jù)業(yè)務(wù)系統(tǒng)監(jiān)視范圍確定監(jiān)視具體內(nèi)容,常用的業(yè)務(wù)系統(tǒng)監(jiān)視范圍主要分為四個(gè)層次,包括服務(wù)層、數(shù)據(jù)層、軟件運(yùn)行層、基礎(chǔ)資源層, 如圖2所示。根據(jù)業(yè)務(wù)應(yīng)用監(jiān)視需求,選擇提供應(yīng)用存儲(chǔ)目錄監(jiān)視、應(yīng)用進(jìn)程監(jiān)視、應(yīng)用服務(wù)端口監(jiān)視配置、產(chǎn)品完整性監(jiān)視、頁(yè)面訪問(wèn)狀態(tài)監(jiān)視等。
圖2:業(yè)務(wù)系統(tǒng)監(jiān)視范圍
根據(jù)業(yè)務(wù)應(yīng)用監(jiān)視需求,將業(yè)務(wù)系統(tǒng)的基礎(chǔ)資源監(jiān)視相關(guān)信息和核心業(yè)務(wù)監(jiān)視指標(biāo)信息根據(jù)接口開(kāi)發(fā)規(guī)范開(kāi)發(fā)數(shù)據(jù)推送接口,推送業(yè)務(wù)系統(tǒng)基礎(chǔ)資源監(jiān)視相關(guān)信息和核心監(jiān)視指標(biāo)信息DI,HTTP網(wǎng)關(guān)接入采集的數(shù)據(jù),使用Nginx Web反向代理所有的rest接口實(shí)現(xiàn)網(wǎng)關(guān)的負(fù)載均衡,采用Kafka、Spark streaming實(shí)時(shí)并行計(jì)算框架進(jìn)行數(shù)據(jù)的加工處理,實(shí)時(shí)將數(shù)據(jù)閾值分析、統(tǒng)計(jì)分析生成熱點(diǎn)數(shù)據(jù)存入內(nèi)存數(shù)據(jù)庫(kù)redis,將數(shù)據(jù)解析計(jì)算生成指標(biāo)數(shù)據(jù)存入ElasticSearch數(shù)據(jù)庫(kù)中,具體流程如圖3所示。
圖3:業(yè)務(wù)系統(tǒng)接入流程
最后,根據(jù)業(yè)務(wù)系統(tǒng)監(jiān)視需求進(jìn)行指標(biāo)的多維統(tǒng)計(jì)分析、業(yè)務(wù)影響分析等處理,生成監(jiān)控系統(tǒng)的多級(jí)別、多維度綜合性指標(biāo)監(jiān)控和關(guān)聯(lián)分析視圖,開(kāi)發(fā)多元可視化的展示頁(yè)面。
對(duì)于告警的監(jiān)視,首先對(duì)告警信息進(jìn)行接入,按照EI信息(對(duì)氣象信息化業(yè)務(wù)在運(yùn)行過(guò)程中產(chǎn)生的告警事件信息進(jìn)行分類,定義事件信息屬性,并對(duì)每個(gè)屬性的內(nèi)容描述規(guī)則進(jìn)行說(shuō)明。同時(shí)對(duì)氣象業(yè)務(wù)告警事件信息管理流程進(jìn)行說(shuō)明)接口規(guī)范開(kāi)發(fā)相關(guān)接口,將數(shù)據(jù)監(jiān)控和業(yè)務(wù)系統(tǒng)監(jiān)控各環(huán)節(jié)的EI告警信息通過(guò)告警接口推送到ElasticSearch數(shù)據(jù)庫(kù),告警EI示例如下,字段內(nèi)容如表2所示。
表2:告警EI信息字段內(nèi)容
圖4:告警監(jiān)視流程
接著對(duì)告警信息進(jìn)行分析處理,實(shí)現(xiàn)對(duì)超出各環(huán)節(jié)閾值的信息進(jìn)行實(shí)時(shí)警告功能,提高業(yè)務(wù)系統(tǒng)運(yùn)維效率,最大限度減少無(wú)效告警,并將監(jiān)控告警與運(yùn)維流程、配置管理工具進(jìn)行聯(lián)動(dòng),流程圖如4所示。在告警主頁(yè)面對(duì)告警信息及告警反饋信息流水式展示,掌握故障資源的相關(guān)信息,提升故障處理效率。
目前,山東省已完成了“天鏡”省級(jí)通用版的本地化部署,實(shí)現(xiàn)了部分省級(jí)數(shù)據(jù)的傳輸監(jiān)控。面對(duì)日益精細(xì)化的監(jiān)控需求、日漸增長(zhǎng)的業(yè)務(wù)系統(tǒng),目前還存在監(jiān)控任務(wù)分散,運(yùn)行維護(hù)人力成本高、效率低,缺少對(duì)省內(nèi)特色資料的全流程監(jiān)控及業(yè)務(wù)系統(tǒng)快速融入的方案,阻礙了推進(jìn)業(yè)務(wù)系統(tǒng)集約化管理的進(jìn)程。本文基于“天鏡·山東”的開(kāi)放性框架,對(duì)特色資料及業(yè)務(wù)系統(tǒng)接入“天鏡·山東”監(jiān)控展開(kāi)規(guī)范化研究,根據(jù)不同監(jiān)控類型研究了資源類監(jiān)控、數(shù)據(jù)全流程監(jiān)控、業(yè)務(wù)系統(tǒng)監(jiān)控、告警監(jiān)視四種監(jiān)視的接入方案。打通下游數(shù)據(jù)監(jiān)控流程,規(guī)范數(shù)據(jù)監(jiān)控接入的步驟和程序,規(guī)范山東特色資料和業(yè)務(wù)系統(tǒng)對(duì)接“天鏡·山東”的技術(shù)流程,實(shí)現(xiàn)快速接入,切實(shí)推進(jìn)省-市-縣三級(jí)“全流程”、集約化的實(shí)時(shí)業(yè)務(wù)監(jiān)控運(yùn)維系統(tǒng)建設(shè)。