● 國網(wǎng)湖南信通公司 易衍孜 黃 威 劉 星 凌 笑
電能質(zhì)量在線監(jiān)測系統(tǒng)(以下簡稱“電能監(jiān)測系統(tǒng)”)是一套具有數(shù)據(jù)采集管理、電能質(zhì)量指標在線統(tǒng)計、電能質(zhì)量指標在線分析、電網(wǎng)安全風險在線分析,以及質(zhì)量監(jiān)督管理等模塊功能的電力信息化系統(tǒng)。電能監(jiān)測系統(tǒng)的數(shù)據(jù)及時率和完整率不僅依賴于自身系統(tǒng)可靠性,而且依賴于PMS2.0供電電壓、OMS、用電采集、數(shù)據(jù)中心等其它對側系統(tǒng)是否及時傳入數(shù)據(jù)以及傳入數(shù)據(jù)是否完整。目前對業(yè)務指標的監(jiān)控和運維,僅僅采用人工每日監(jiān)測的方法進行,即一旦發(fā)現(xiàn)橫向或者縱向業(yè)務數(shù)據(jù)傳輸不及時或者不完整,只能靠人工進行問題分析、排查、重新采集和補錄。這種人工的運維方法不僅耗費大量人力物力,而且傳輸鏈路長,排查和分析耗時久,難以滿足系統(tǒng)業(yè)務實時需求,直接影響電能監(jiān)測系統(tǒng)傳輸及時率考核情況以及湖南省電力有限公司運營情況。因此,亟需開發(fā)一套面向電能監(jiān)測系統(tǒng)的業(yè)務數(shù)據(jù)指標自動化運維工具,以保證系統(tǒng)數(shù)據(jù)傳輸?shù)募皶r性。
盡管目前惠普、南瑞以及Ansible等眾多軟件商都開發(fā)了一系列的軟件部署、服務應用監(jiān)控、主機監(jiān)控、網(wǎng)絡設備監(jiān)控、網(wǎng)絡連通性監(jiān)控、網(wǎng)絡訪問質(zhì)量監(jiān)控、分布式系統(tǒng)監(jiān)控、報警預設、監(jiān)控圖形化與歷史數(shù)據(jù)等。但是,這些工具對于系統(tǒng)之間業(yè)務數(shù)據(jù)通道傳輸缺乏有效監(jiān)控、智能化排錯判斷以及自動化修復等智能功能。例如,惠普公司的SciteScope監(jiān)控軟件雖然能夠通過監(jiān)控系統(tǒng)數(shù)據(jù)庫中表格數(shù)據(jù),判斷系統(tǒng)間數(shù)據(jù)是否及時接入,但是不能實時判斷數(shù)據(jù)是否傳輸接入,且無法監(jiān)控和判斷整條數(shù)據(jù)傳輸鏈路是哪個地方出現(xiàn)了問題,這樣一來即使監(jiān)控發(fā)現(xiàn)數(shù)據(jù)未及時接入,也需要逐個進行原因排查,并重新人工補傳數(shù)據(jù)。因此,當前的自動化運維工具無法滿足電能監(jiān)測系統(tǒng)對于業(yè)務數(shù)據(jù)傳輸實時性監(jiān)控和業(yè)務數(shù)據(jù)運維智能化的需求,這些工具在業(yè)務數(shù)據(jù)運維方面判斷仍處在半人工、半自動的狀態(tài)。
針對目前電能監(jiān)測系統(tǒng)的業(yè)務數(shù)據(jù)傳輸運維技術的不足,本文提出一種面向電能監(jiān)測系統(tǒng)的業(yè)務數(shù)據(jù)指標自動化運維工具,通過實時監(jiān)控電能監(jiān)測系統(tǒng)接入數(shù)據(jù)表、中轉層系統(tǒng)情況,預警業(yè)務數(shù)據(jù)的指標情況,智能化判斷電能監(jiān)測系統(tǒng)的業(yè)務數(shù)據(jù)傳輸不及時原因并做出自動化操作。
如圖1所示,面向電能監(jiān)測系統(tǒng)的業(yè)務數(shù)據(jù)指標自動化運維工具由業(yè)務指標監(jiān)控部分和告警智能診斷維護兩部分組成,其中:業(yè)務指標監(jiān)控部分包括數(shù)據(jù)傳輸監(jiān)測模塊和消息通知模塊;告警智能診斷部分包括智能決策模塊和自動維護模塊。
圖1 體系架構圖
數(shù)據(jù)傳輸監(jiān)測模塊定時自動檢查數(shù)據(jù)是否及時完整地接入電能監(jiān)測系統(tǒng),以及根據(jù)告警智能診斷部分的判斷,按需自動監(jiān)測中轉層數(shù)據(jù)(即數(shù)據(jù)中心系統(tǒng)、供電電壓系統(tǒng)數(shù)據(jù))是否接入電能監(jiān)測系統(tǒng)運行情況。消息通知模塊根據(jù)告警智能診斷部分的需求以及告警信息,將信息以短信方式通知運維人員。
智能決策模塊根據(jù)電能監(jiān)測系統(tǒng)數(shù)據(jù)告警情況以及系統(tǒng)運行或者中轉層數(shù)據(jù)監(jiān)控信息,做出相應的判斷,觸發(fā)自動維護模塊和消息通知模塊。自動維護模塊根據(jù)智能決策模塊指示,進行電能監(jiān)測系統(tǒng)重啟或者數(shù)據(jù)重新抽取,同時,將運維操作信息傳輸給消息通知模塊。
數(shù)據(jù)傳輸監(jiān)測模塊包括自主監(jiān)測模塊和按需監(jiān)測模塊。自主監(jiān)測模塊根據(jù)電能系統(tǒng)的數(shù)據(jù)接入規(guī)則,定時自動檢查數(shù)據(jù)是否及時完整地接入電能系統(tǒng),若出現(xiàn)不及時或不完整情況,觸發(fā)智能決策模塊和消息通知模塊。按需監(jiān)測模塊按智能決策模塊的指示,按需自動監(jiān)測中轉系統(tǒng)的數(shù)據(jù)是否接入或者電能系統(tǒng)運行情況,并將結果發(fā)給智能決策模塊。
消息通知模塊包括消息觸發(fā)器、消息池模塊和短信消息發(fā)送模塊。消息觸發(fā)器接收到智能決策模塊、自動維護模塊、自主監(jiān)測模塊傳來的消息,編輯成短信,加入到消息池模塊。消息池模塊采用隊列結構,緩存即將發(fā)送的短信。短信消息發(fā)送模塊從消息池模塊取出短信,調(diào)用短信平臺服務webservices接口,發(fā)送短信給電能系統(tǒng)運維人員。
智能決策模塊包括指令收發(fā)模塊、決策控制模塊和知識庫模塊。指令收發(fā)模塊一方面接收來自自主監(jiān)測模塊或者按需監(jiān)測模塊的消息,發(fā)送給決策控制模塊,另一方面,接收決策控制模塊操作指令,將指令傳輸給自動維護模塊。決策控制模塊根據(jù)數(shù)據(jù)告警情況或者系統(tǒng)運行情況,啟動知識庫模塊獲取相應的知識,做出操作指令。知識庫模塊存儲電能系統(tǒng)的運維知識,根據(jù)決策控制模塊要求,給出相應的運維知識判斷,反饋給決策控制模塊。
自動維護模塊包括系統(tǒng)運行維護模塊和數(shù)據(jù)補傳觸發(fā)器。系統(tǒng)運行維護模塊若接收到指令收發(fā)模塊的重啟系統(tǒng)指令,則自動重啟電能系統(tǒng),并調(diào)用按需監(jiān)測模塊監(jiān)控電能系統(tǒng)恢復情況,然后按需觸發(fā)數(shù)據(jù)補傳觸發(fā)器。數(shù)據(jù)補傳觸發(fā)器若接收到指令收發(fā)模塊的指示,則按需自動補傳數(shù)據(jù);若接收到系統(tǒng)運行維護模塊消息,則全部重新抽取數(shù)據(jù)到電能系統(tǒng)。
將本工具部署在一臺虛擬機服務器上,實時監(jiān)控系統(tǒng)數(shù)據(jù)集成、傳輸情況,根據(jù)告警情況,做出相應運維操作。根據(jù)電能監(jiān)測系統(tǒng)集成規(guī)則,數(shù)據(jù)指標考核分成小時級指標、日級指標,因此,該工具也分為小時級數(shù)據(jù)監(jiān)控和日級監(jiān)控數(shù)據(jù)2組,進行電能系統(tǒng)的相關數(shù)據(jù)表接入監(jiān)控。同時,由于電能系統(tǒng)一方面將通過數(shù)據(jù)中心集成源數(shù)據(jù)端OMS、用電采集系統(tǒng)側數(shù)據(jù),另一方面,通過webservices方式集成供電電壓系統(tǒng)數(shù)據(jù),所以自動化運維工具將按需監(jiān)控與電能系統(tǒng)相關數(shù)據(jù)表數(shù)據(jù)接入情況,或按需監(jiān)控源端供電電壓系統(tǒng)FTP服務器上是否存放了當天需傳入到電能系統(tǒng)的數(shù)據(jù)。
面向電能監(jiān)測系統(tǒng)的自動化運維工具業(yè)務指標定時監(jiān)控部分數(shù)據(jù)采集信息:每小時15分定時監(jiān)測電能系統(tǒng)數(shù)據(jù)庫中是否接入來自OMS系統(tǒng)的電網(wǎng)電壓數(shù)據(jù)和電網(wǎng)頻率數(shù)據(jù);每天18:00定時監(jiān)測電能系統(tǒng)數(shù)據(jù)庫中是否接入來自PMS2.0系統(tǒng)和OMS2.0系統(tǒng)的設備臺賬數(shù)據(jù);每天凌晨4:00定時監(jiān)測電能系統(tǒng)數(shù)據(jù)庫中是否接入來自供電電壓系統(tǒng)和用電采集系統(tǒng)的數(shù)據(jù)。業(yè)務指標監(jiān)控部分一旦發(fā)現(xiàn)數(shù)據(jù)傳輸不及時或者不完整,則將數(shù)據(jù)指標告警信息傳給位于自動化運維工具的告警智能診斷維護部分,并以短信的方式告知電能系統(tǒng)運維人員。告警智能診斷維護部分結合日常運維信息,將傳來數(shù)據(jù)指標告警信息進行智能判斷分析,確定下一步分析策略,由此,按需調(diào)用業(yè)務指標監(jiān)控部分獲取的監(jiān)控診斷信息,即包含當前系統(tǒng)運行情況或數(shù)據(jù)中心是否接入源端數(shù)據(jù)或供電電壓系統(tǒng)是否采集到數(shù)據(jù)。接下來,根據(jù)業(yè)務指標監(jiān)控部分反饋的監(jiān)控診斷信息和數(shù)據(jù)指標告警信息,告警智能診斷維護部分智能排查告警原因后進行自動化操作,并以短信方式通知相應運維人員。如果原因是電能系統(tǒng)宕機,則自動重啟電能系統(tǒng),全部重新抽??;如果原因是電能系統(tǒng)從數(shù)據(jù)中心集成通道問題,則將自動發(fā)短信給通道運維人員,同時全部重新抽取數(shù)據(jù);如果原因是源端系統(tǒng)問題,則自動發(fā)短信給源端系統(tǒng)運維人員,當源端系統(tǒng)數(shù)據(jù)恢復后,自動抽取缺失的數(shù)據(jù)。
面向電能質(zhì)量在線監(jiān)測系統(tǒng)的業(yè)務數(shù)據(jù)指標自動化運維工具采用監(jiān)控和診斷維護兩部分交互結構,共同完成運維操作。該工具實現(xiàn)了業(yè)務指標自動化運維,保證了業(yè)務數(shù)據(jù)傳輸接入的及時性、完整性。與現(xiàn)有技術相比,該工具可智能化判斷系統(tǒng)的業(yè)務數(shù)據(jù)傳輸不及時原因并做出自動化操作,全程無需人工參與,提高了業(yè)務指標運維的高效性和智能化水平,最大程度地減輕了運維工作量。