曹齡兮 陳建譯
近兩年,隨著客運專線行車指揮集中控制的需要,調(diào)度集中系統(tǒng) (以下簡稱CTC)的各種新設(shè)備也隨之建設(shè)投入使用,其不斷增長的規(guī)模和復(fù)雜度向維護人員提出了更高的要求。然而,由于不同廠家不同設(shè)備及多種網(wǎng)絡(luò)協(xié)議等形成的異構(gòu)網(wǎng)絡(luò),使得對CTC設(shè)備的維護管理難度加大,僅靠人工的重復(fù)勞動已遠不能滿足行車設(shè)備的高安全性及高可靠性。為此,從網(wǎng)絡(luò)監(jiān)控的角度出發(fā),構(gòu)建一個調(diào)度集中系統(tǒng)監(jiān)控一體化平臺,可實時監(jiān)測事件及設(shè)備性能并集中處理,幫助運維人員及時了解設(shè)備狀況,根據(jù)故障指標統(tǒng)計、分析對相關(guān)業(yè)務(wù)的影響,快速給出決策判斷,保障CTC設(shè)備的穩(wěn)定運行。
調(diào)度集中系統(tǒng)監(jiān)控一體化平臺,可對調(diào)度集中系統(tǒng)實施綜合智能監(jiān)控。由于各客專的調(diào)度集中設(shè)備建設(shè)時間、生產(chǎn)廠家不一致,設(shè)備及網(wǎng)絡(luò)連接方式也不盡相同,監(jiān)控一體化平臺需要通過各種接口協(xié)議,對被管理對象的設(shè)備性能及各類事件進行管理集成。
監(jiān)控對象:①硬件設(shè)備,如交換機、路由器、通道質(zhì)量監(jiān)督設(shè)備等網(wǎng)絡(luò)設(shè)備,防火墻、網(wǎng)閘、安全邊界等安全設(shè)備,各線別應(yīng)用服務(wù)器、通信服務(wù)器,數(shù)據(jù)庫等;②操作系統(tǒng)、應(yīng)用軟件、中間件等系統(tǒng)軟件運行情況;③運維人員的自控管理。
類似人工對設(shè)備的巡視檢查,監(jiān)控平臺實時監(jiān)測各種基礎(chǔ)數(shù)據(jù),對超過閾值的數(shù)據(jù)所屬設(shè)備進行告警提示 (故障處理),同時分析處理歷史數(shù)據(jù),形成一定的決策判斷。另一方面,該平臺整合了所有設(shè)備的具體檔案信息,記錄設(shè)備中的所有板件維修、更新情況,做到對設(shè)備健康狀況一目了然。
調(diào)度集中系統(tǒng)監(jiān)控一體化平臺包括:設(shè)備層、采集層、分析層、展現(xiàn)層和統(tǒng)一信息庫,結(jié)構(gòu)如圖1所示。
1.設(shè)備層,為調(diào)度集中系統(tǒng)監(jiān)控一體化平臺的監(jiān)控管理對象,包括各類型的網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、中間件、應(yīng)用軟件以及能產(chǎn)生相關(guān)事件的信息系統(tǒng)。
2.采集層,通過各種協(xié)議適配器實現(xiàn)對網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器、數(shù)據(jù)庫、中間件、應(yīng)用軟件、機房環(huán)境等的運行狀態(tài)、實時事件日志、告警信息、配置數(shù)據(jù)、性能參數(shù)進行監(jiān)控,以及對各類事件數(shù)據(jù)進行標準化、歸并壓制、過濾、匯聚等預(yù)處理工作,并發(fā)送至統(tǒng)一信息庫集中存儲。
圖1 調(diào)度集中系統(tǒng)監(jiān)控一體化平臺
3.分析層,通過人工設(shè)定的閾值,判斷性能數(shù)據(jù)、日志數(shù)據(jù)、狀態(tài)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)等是否在正常范圍內(nèi),并通過實時性能、網(wǎng)絡(luò)拓撲、歷史趨勢和告警關(guān)聯(lián)等分析,給出能夠自動觸發(fā)人工干預(yù)的管理流程,實現(xiàn)閉環(huán)操作。
4.展現(xiàn)層,提供一個圖形化的顯示界面,提供資產(chǎn)管理、告警管理、性能管理、IP管理、網(wǎng)絡(luò)管理、系統(tǒng)管理等功能,并將趨勢分析結(jié)果展現(xiàn)在各功能中,提供決策服務(wù)。
5.統(tǒng)一信息庫,存儲各種性能數(shù)據(jù)、配置數(shù)據(jù)、故障數(shù)據(jù)、告警數(shù)據(jù)、資產(chǎn)信息和人工運維工單信息等,包括歷史數(shù)據(jù)和實時數(shù)據(jù),是集中展現(xiàn)平臺的重要數(shù)據(jù)支撐,同時也可通過數(shù)據(jù)總線供外部接口系統(tǒng)調(diào)用。
運行監(jiān)控功能是該系統(tǒng)最主要、最基礎(chǔ)的功能,主要完成機房環(huán)境3D監(jiān)控、設(shè)備性能監(jiān)控、網(wǎng)絡(luò)監(jiān)控、系統(tǒng)軟件監(jiān)控等。
機房環(huán)境3D監(jiān)控,利用3D物理視圖,直觀展現(xiàn)機房設(shè)備及位置,對機房環(huán)境進行實時監(jiān)控,對異常設(shè)備進行聲光報警,便于維護人員發(fā)現(xiàn)故障點,及時響應(yīng)。
設(shè)備性能監(jiān)控,包括對服務(wù)器、數(shù)據(jù)庫、網(wǎng)絡(luò)設(shè)備、安全設(shè)備等調(diào)度集中系統(tǒng)內(nèi)設(shè)備的實時監(jiān)控。監(jiān)控項目有服務(wù)器的 CPU、內(nèi)存、交換空間、磁盤空間、關(guān)鍵進程等;數(shù)據(jù)庫的 CPU、內(nèi)存、磁盤陣列、等待次數(shù)列表、Session數(shù)表空間、緩沖區(qū)、共享池命中率等;網(wǎng)絡(luò)及安全設(shè)備的CPU、內(nèi)存、端口列表、存儲、電源、風扇情況等。
網(wǎng)絡(luò)監(jiān)控,用來實現(xiàn)對局域網(wǎng)通道質(zhì)量的檢測,以及網(wǎng)段的發(fā)現(xiàn)、拓撲展示與刷新。網(wǎng)絡(luò)監(jiān)控功能便于維護人員及時發(fā)現(xiàn)斷開或者網(wǎng)絡(luò)設(shè)備異常的情況。
系統(tǒng)軟件監(jiān)控,用于對操作系統(tǒng)軟件以及應(yīng)用軟件版本 (含配置)的監(jiān)測,能記錄當前軟件版本以及該版本軟件的更新時間。
運維資產(chǎn)管理實現(xiàn)對硬件配置信息的統(tǒng)一管理,能掌握設(shè)備的類型、上線時間、更新維修等相關(guān)信息,具體細化到服務(wù)器中某塊板件。通過運維資產(chǎn)管理,對硬件設(shè)備逐個建檔維護,能有效地做到設(shè)備的全生命周期管理,對設(shè)備的維修保養(yǎng)周期給予一定的決策支持。
IP地址管理也是該平臺的一項重要功能。調(diào)度集中系統(tǒng)屬于國家認定的4級網(wǎng)絡(luò)安全系統(tǒng),高安全等級要求系統(tǒng)中每項設(shè)備的IP地址不可沖突,調(diào)度集中系統(tǒng)監(jiān)控一體化平臺很好的管理了各設(shè)備廠家的IP地址設(shè)置,智能化地檢測IP地址的唯一性。
告警管理是統(tǒng)一觸發(fā)、通知、展示、處理、查詢告警信息的集中平臺,為運維人員及時發(fā)現(xiàn)并處理故障提供了有力保障。告警按緊急程度分為提示、一般、重大、緊急 (故障)四個級別。運維人員可根據(jù)不同級別的告警,做相應(yīng)處理。
告警級別的閾值由管理人員設(shè)定,告警的形式包括在調(diào)度集中系統(tǒng)監(jiān)控一體化平臺上的3D展示,短信通知以及郵件通知等。
在運行一段時間后,平臺中的統(tǒng)一數(shù)據(jù)庫收集了一定的運行維護數(shù)據(jù),從這些維護指標可以得出被監(jiān)控設(shè)備運行的健康狀態(tài),并對告警信息進行合并、類比,挖掘出同類的故障隱患。如果某臺服務(wù)器近2個月出現(xiàn)多次電源告警,分析層的歷史趨勢分析組件將會將分析結(jié)果通過告警形式提醒運維人員,檢查電池及相關(guān)設(shè)備。
目前,調(diào)度集中系統(tǒng)監(jiān)控一體化平臺已在廣鐵集團公司調(diào)度指揮系統(tǒng)備用機房部署,采用IBM 3850服務(wù)器,搭載4個6核CPU,64GB內(nèi)存,運行環(huán)境為windows server 2008,數(shù)據(jù)庫采用oracle 10,可同時監(jiān)測200臺設(shè)備。
經(jīng)過半年多的使用,該平臺的優(yōu)勢顯而易見:①大量減輕了人工巡視、排查故障等工作量,利用平臺提供的告警管理,每次巡視時間由2 h減少到10 min;②通過歷史趨勢分析,對故障或隱患的處理提出智能化建議,不斷完善輔助決策,形成良性循環(huán);③在故障發(fā)生的緊要時刻,能第一時間通知到相關(guān)人員,并且在日常維護管理中,將告警信息以工作單處理的形式轉(zhuǎn)到人工,簡化作業(yè)流程;④對調(diào)度集中系統(tǒng)的資產(chǎn)形成了由點及面的細化管理,能按需求統(tǒng)計有關(guān)設(shè)備維護的各種報表。
綜上所述,該平臺實現(xiàn)了運行監(jiān)控自動化、輔助決策智能化、告警展現(xiàn)多樣化、運維資產(chǎn)精細化,將調(diào)度集中系統(tǒng)的維護提高到了一個新的臺階。
[1] 劉朝英.中國鐵路分散自律調(diào)度集中〔M〕.北京:中國鐵道出版社,2009.
[2] 譚鑫.IT業(yè)務(wù)系統(tǒng)監(jiān)控及其關(guān)鍵技術(shù)研究〔D〕.長沙:中南大學(xué),2012.