丁瑞元
摘 要:隨著煤炭企業(yè)信息化、自動化、智能化建設的不斷發(fā)展,煤炭企業(yè)所使用的各類信息系統(tǒng)及配套設備大量增加,現(xiàn)有信息系統(tǒng)運維人員的工作任務隨之增加。該文通過建設一個具有集中網管、告警監(jiān)視、統(tǒng)一運維、可視化展現(xiàn)的集中調度網管平臺,將煤炭企業(yè)各類信息系統(tǒng)設備統(tǒng)一監(jiān)管,實現(xiàn)“集中監(jiān)控、集中管理、集中維護”,減少運維管理人員工作負擔,提高信息化運維管理水平和員工工作效率,達到降本增效的目的。
關鍵詞:信息化 網管 運維 監(jiān)測
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2019)02(b)-0049-02
隨著煤炭企業(yè)信息化、自動化、智能化建設的不斷發(fā)展,煤炭企業(yè)所使用的各類信息系統(tǒng)、硬件設備也不斷增加,運維工作量逐年加大。各系統(tǒng)都有自己的網管系統(tǒng)或告警平臺,如H3C網管系統(tǒng)、T2000傳輸告警平臺、視頻質量診斷平臺等,因設備廠家不同、告警編碼協(xié)議不同,導致各系統(tǒng)不能互聯(lián)互通、資源共享,存在一個個“信息孤島”,為運維人員的統(tǒng)一集中管理、運維帶來了難題。為了解決以上問題,該公司搭建一個“集中網管、告警監(jiān)視、統(tǒng)一運維、可視化展現(xiàn)”的集中調度網管平臺,實現(xiàn)信息系統(tǒng)日常的管理和調度功能,隨時準確地監(jiān)測各信息系統(tǒng)的運行情況,確保各系統(tǒng)穩(wěn)定運行。
1 平臺特點
1.1 高度模塊化
平臺采用了分層、模塊化的設計技術,模塊與模塊、層與層之間松散耦合。它具有3方面優(yōu)勢:一是模塊之間的松散耦合使其具備反應靈活快捷、適應能力強的特點;二是模塊內部實現(xiàn)了優(yōu)化整合,能夠高效率地完成該模塊各項功能;三是可以按需定制業(yè)務模塊,實現(xiàn)適合自身情況的特需功能。
1.2 開放性
平臺通過開放的接口可以采集第三方系統(tǒng)、設備的資源信息、告警信息等,通過分析處理模塊進行統(tǒng)一處理,可視化模塊進行逐一展現(xiàn)。
1.3 支持二次開發(fā)
利用平臺提供的API接口,擴展開發(fā)所需的功能。一般情況下利用系統(tǒng)提供的圖形化工具編寫腳本或規(guī)則即可,如事件關聯(lián)分析、工單流轉規(guī)則等。對于復雜的業(yè)務,可以利用系統(tǒng)提供的SDK包進行二次開發(fā)。
1.4 支持大規(guī)模網絡
針對大規(guī)模企業(yè)的區(qū)域性特征,系統(tǒng)提供了貼合實際應用的多級管理方案,在管理上可以做到分級管理和集中管理的有機統(tǒng)一。
2 平臺結構
集中調度網管平臺主要功能模塊包括專項工具、調度門戶、監(jiān)管中心、資源臺賬管理系統(tǒng)、度量中心和流程中心。
專項工具主要實現(xiàn)對網絡設備、操作系統(tǒng)、數(shù)據(jù)庫、存儲設備和視頻設備的監(jiān)控。利用這些專項工具,能夠實現(xiàn)對IT系統(tǒng)的全面管理,并對各類調度操作提供基礎支持。
監(jiān)管中心主要實現(xiàn)對IT基礎設施的集中監(jiān)控管理,提供一個標準的數(shù)據(jù)集成接口,對各類監(jiān)控工具產生的告警消息和外部工具集成的告警消息進行集中統(tǒng)一處理,對采集的數(shù)據(jù)進行統(tǒng)一存儲、處理,對系統(tǒng)內部的信息進行可視化展示。
資源臺賬管理系統(tǒng)實現(xiàn)資產管理功能,通過業(yè)務建模、自動采集、調和、變更控制等手段,保證IT資源的完整性和精準性,為其他系統(tǒng)提供數(shù)據(jù)支撐。
度量中心提供了面向調度系統(tǒng)的性能、事件告警、資源臺賬、運維工單等統(tǒng)計分析報表,并提供可以實現(xiàn)報表定制化的設計工具。
流程中心是通過規(guī)范服務流程和技術服務工作,建立一套標準的運維服務流程,圍繞服務建立事件管理、問題管理、變更管理、服務請求管理、服務目錄等,進行IT運維服務的流程化、規(guī)范化管理。通過完善知識庫建設,實現(xiàn)知識庫共享,從而提高信息服務效率,提高用戶的滿意度。系統(tǒng)還提供了常規(guī)的巡檢管理和值班管理功能。
調度門戶包括了統(tǒng)一門戶、報表展現(xiàn)和權限管理等主要模塊,是信息的集中呈現(xiàn)窗口和日常工作的平臺。
3 接口設計
整個集中調度網管平臺具有很好的開放性,在監(jiān)控功能、數(shù)據(jù)處理等不同架構層面都提供了擴展接口。
在監(jiān)控功能方面,系統(tǒng)提供一體化監(jiān)控平臺的同時通過插件機制,允許定制個性化監(jiān)控能力。監(jiān)控框架提供強大的基于腳本擴展的通用監(jiān)控器和豐富的二次開發(fā)監(jiān)控協(xié)議庫,可通過腳本配置或二次開發(fā),滿足特定環(huán)境的監(jiān)控管理需求。系統(tǒng)提供了基于SNMP協(xié)議和腳本的監(jiān)測擴展能力,對于支持SNMP協(xié)議管理的設備和系統(tǒng),用戶可以直接通過界面配置實現(xiàn)監(jiān)控;對于一些提供標準遠程訪問協(xié)議或管理命令行的設備和系統(tǒng),可以通過基于腳本的監(jiān)測器擴展實現(xiàn)監(jiān)控;另外監(jiān)控框架本身以插件體系構建,同時提供豐富的協(xié)議API接口,可以基于監(jiān)控插件框架擴展開發(fā)滿足特定的業(yè)務監(jiān)控需求。
在數(shù)據(jù)處理方面,通過數(shù)據(jù)匯聚接口能夠和其他業(yè)務應用系統(tǒng)等進行對接,接收第三方系統(tǒng)的資源數(shù)據(jù)、性能數(shù)據(jù)和告警事件信息進行綜合處理和統(tǒng)一調度展現(xiàn)。數(shù)據(jù)匯聚和管理層對外提供了數(shù)據(jù)匯聚和管理接口,第三方系統(tǒng)可以通過配置集成接口提交和查詢資源數(shù)據(jù),通過性能集成接口提交和查詢運行狀態(tài)、性能指標數(shù)據(jù),通過事件集成接口提交故障事件和查詢告警信息、觸發(fā)運維服務流程。
在系統(tǒng)提供平臺擴展接口的同時,還提供了豐富的Java二次開發(fā)包和二次開發(fā)說明文檔,便于系統(tǒng)擴展開發(fā)。
4 平臺功能
集中調度網管平臺主要是實現(xiàn)信息系統(tǒng)日常的管理和調度功能;隨時準確地監(jiān)測各信息系統(tǒng)的運行情況,具體功能如下所述。
(1)通過信息化、數(shù)字化和扁平化的改造,實現(xiàn)一張圖管理模式,能夠為管理層和運維人員提供多角度、多層次的展示界面。
(2)通過對交換機、存儲、服務器等IT基礎設施數(shù)據(jù)的采集和性能狀態(tài)的監(jiān)測,幫助運維人員進行故障分析和預診斷。
(3)資產統(tǒng)一管理和維護功能,提供各類資產報表。
(4)事件告警管理,利用現(xiàn)有設備和管理系統(tǒng)提供的集成接口,采集現(xiàn)有網管系統(tǒng)的告警信息,進行告警、故障查詢和處理。
(5)運維管理,對日常運維工作中的事件、問題和故障處理記錄進行記錄和管理,實現(xiàn)運維工作可記錄、可度量、可追溯。
5 監(jiān)測數(shù)據(jù)采集方式
5.1 基礎硬件設備監(jiān)測實現(xiàn)方式
集中調度網管平臺對網絡、存儲、數(shù)據(jù)庫等基礎設備數(shù)據(jù)、性能狀態(tài)監(jiān)測和告警進行采集。
(1)網絡設備監(jiān)測,采用SNMP協(xié)議,實現(xiàn)設備的真實面板管理。
(2)服務器監(jiān)測,通過CLI、WMI、代理Agent方式監(jiān)控服務器,Linux/Unix系統(tǒng)的CLI監(jiān)控方式同時支持SSH及Telnet兩種方式,監(jiān)測包括CPU利用率,系統(tǒng)、用戶、空閑時間的百分比,磁盤空間使用率,磁盤IO讀寫性能,磁盤的目錄,文件大小和進程運行情況等。
(3)存儲設備監(jiān)測,通過SMI-S協(xié)議或SNMP方式進行監(jiān)控,通過這兩種方式,可以為存儲設備和集中調度網管平臺之間提供標準化的通信協(xié)議,使得存儲管理系統(tǒng)能夠實現(xiàn)鑒別、分類、監(jiān)控和控制物理及邏輯資源的能力。
(4)網絡拓撲的管理,系統(tǒng)通過SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多種手段自動發(fā)現(xiàn)、識別各種設備,并能夠自動生成準確的物理拓撲、網絡拓撲和子網拓撲,同時提供可視化管理工具,可以根據(jù)實際環(huán)境和需要自定義拓撲圖。
(5)數(shù)據(jù)庫的管理,采用通用JDBC數(shù)據(jù)庫監(jiān)測器,通過JDBC執(zhí)行用戶SQL詞句,監(jiān)測執(zhí)行結果,支持各種平臺上的Oracle、MS SQL Server、MySQL、Sybase、DB2等數(shù)據(jù)庫系統(tǒng),連續(xù)地監(jiān)控數(shù)據(jù)庫引擎的關鍵參數(shù),包括數(shù)據(jù)庫緩沖區(qū)的使用率和命中率、進程的狀態(tài)、表空間的分配空間、已用空間的情況,以及Oracle等數(shù)據(jù)庫死鎖情況。
(6)視頻圖像監(jiān)測,視頻質量診斷服務系統(tǒng)與集中網管調度平臺之間通過服務接口(如WebService)交互,視頻質量診斷服務系統(tǒng)分析出視頻質量出問題后,將視頻的告警信息,通過接口推送到集中網管調度平臺。
5.2 現(xiàn)有網管系統(tǒng)告警監(jiān)測功能實現(xiàn)方式
(1)T2000網管系統(tǒng)。
華為T2000網管系統(tǒng)將處理好的告警信息以Corba接口方式向集中網管調度管理平臺推送,接收到來自T2000網管系統(tǒng)的告警后,對告警信息進行解析和標準化處理。
(2)LTE 4G網管系統(tǒng)。
通過4G網管服務系統(tǒng)的背向接口,接收SNMP Trap,即管理站及時獲取設備的告警信息,并在集中調度網管平臺中進行處理和展現(xiàn)。
(3)動力環(huán)境監(jiān)控系統(tǒng)。
機房環(huán)境監(jiān)控系統(tǒng)將自身采集到的各類UPS電源、水浸、發(fā)電機、機房溫濕度、配電柜電量儀、門禁等告警信息,以SNMP Trap等方式發(fā)送給集中網管調度管理系統(tǒng),集中網管調度管理系統(tǒng)對告警信息進行解析和標準化處理,建立配置項間的關聯(lián)關系,進行告警通知和工單派發(fā),同時在可視化界面上進行告警提醒。機房動力環(huán)境系統(tǒng)相對網絡、安全等管理系統(tǒng)有較大區(qū)別,因此在集成接口上提供了基于TCP/IP層面的數(shù)據(jù)接口,這樣集中調度網管平臺就可以通過應用程序層快速的進入機房監(jiān)控系統(tǒng)的功能和業(yè)務界面。
6 結語
煤炭企業(yè)從信息化系統(tǒng)管理和運維的實際應用情況入手,建立集中調度網管平臺,將系統(tǒng)的告警信息、狀態(tài)信息、資產信息等集成到網管平臺,給運維人員提供一個功能完善、界面統(tǒng)一的系統(tǒng),實現(xiàn)統(tǒng)一管理、統(tǒng)一調度和統(tǒng)一服務,完成報表數(shù)據(jù)的定制展示,實現(xiàn)監(jiān)、管、控一體化的運維管理調度格局。實現(xiàn)“集中監(jiān)控、集中管理、集中維護”,減少運維管理人員工作負擔,提高信息化運維管理水平和員工工作效率,達到降本增效的目的。
參考文獻
[1] 吳結根,楊俊.集中網管系統(tǒng)在現(xiàn)代通信網中的應用與展望[J].江西通信科技,2008(2):11-13.
[2] 徐川.基于信息技術基礎架構庫的IT運維服務體系構建[J].醫(yī)學信息學雜志,2018,39(1):37-40.
[3] 栗麗英,張成亮,韓旭東.基于綜合網管平臺的大客戶網絡四位一體集中管理體系建設[J].電信技術,2017(5):56-59.