李周雨
綜合監(jiān)控系統(tǒng)是確保島橋隧可靠安全運營的重要保障,因此系統(tǒng)的高可靠性在島橋隧日常運行管理中就顯的尤為重要。本文結合了服務分布式設計、主中心的集群設計、主備中心冗余設計、數(shù)據(jù)存儲災備設計等技術設計了一套高可靠性島橋隧大型綜合監(jiān)控系統(tǒng)。該系統(tǒng)具有較高的自動化程度和可靠性,實現(xiàn)了島橋隧的監(jiān)控一體化,效果顯著。
【關鍵詞】分布式 集群 冗余 主備中心
1 前言
島橋隧大型綜合監(jiān)控系統(tǒng)由通風、給排水、供配電、環(huán)境氣象、交通信號、交通誘導、視頻檢測、照明監(jiān)控、視頻監(jiān)控等20多個子系統(tǒng)組成。綜合監(jiān)控系統(tǒng)是確保島橋隧可靠安全運營的重要保障,因此實現(xiàn)綜合監(jiān)控的高可靠性顯得尤為重要,本文針對如何提高島橋隧綜合監(jiān)控系統(tǒng)的可靠性進行了研究和探討。
2 系統(tǒng)總體結構設計
本方案共設置兩個中心(主中心、備中心)。主中心通過熱備方式提高系統(tǒng)的可靠性,保證日常情況下,系統(tǒng)的監(jiān)控都在主中心上實現(xiàn);同時考慮到主中心整個系統(tǒng)遭到災害性事故而整體停運時,備中心可以通過人工干預的方式啟用系統(tǒng)實現(xiàn)監(jiān)控,如圖1所示。
3 系統(tǒng)冗余切換設計
本項目冗余設計主要包括應用服務分布式設計、主中心的集群設計、主備中心冗余設計、數(shù)據(jù)存儲災備。
3.1 應用服務分布式設計
本監(jiān)控系統(tǒng)涉及的子系統(tǒng)多、設備種類多、監(jiān)控信號點多達幾十萬點,因此設置了兩組綜合監(jiān)控服務以分擔負載,避免單臺服務器負荷過大而影響系統(tǒng)性能。
本系統(tǒng)中供配電子系統(tǒng)和照明監(jiān)控子系統(tǒng)點數(shù)規(guī)模非常大,故設置綜合監(jiān)控服務1,用來接入該兩個子系統(tǒng)。綜合監(jiān)控服務2負責除其他系統(tǒng)的接入。
3.2 主中心集群設計
上述兩組綜合監(jiān)控服務均采用主、備機的成對方式部署。系統(tǒng)冗余服務通過定期的心跳信號(系統(tǒng)心跳檢測頻率在200ms,心跳包內(nèi)容:主備機彼此的問答信號、主機健康度評分,即各個關鍵進程狀態(tài))進行主備機的檢測。心跳檢測信號連續(xù)5次以上丟失,或者健康度評分滿足切換條件,冗余系統(tǒng)將將視為主機狀態(tài)異常,觸發(fā)冗余切換動作。主備機之間的數(shù)據(jù),由冗余服務從主機一側(cè)向備機一側(cè)操作實時數(shù)據(jù)庫同步,確保兩側(cè)數(shù)據(jù)一致。
集群冗余切換將考慮兩種異常情況下的切換策略設計:
(1)當各綜合監(jiān)控子系統(tǒng)的通訊鏈路出現(xiàn)異常,引發(fā)導致系統(tǒng)異常時,系統(tǒng)將通過心跳狀態(tài)監(jiān)測,傳遞的故障信息。系統(tǒng)將進行冗余切換,切換至備機開始嘗試由備機的通訊鏈路嘗試連接待各監(jiān)控子系統(tǒng)。與設備通訊連接正常后,完成系統(tǒng)切換,主機采集服務停止工作,實時數(shù)據(jù)同步方向改為,從備機向主機開始同步。直至用戶人工選擇恢復主機后,系統(tǒng)才將恢復至初始主備機功能狀態(tài)。
(2)當主機系統(tǒng)采集服務、數(shù)據(jù)服務、數(shù)據(jù)轉(zhuǎn)儲服務、報警服務異常且滿足切換冗余切條件,或因主機硬件設備異常,引發(fā)導致系統(tǒng)異常時,系統(tǒng)將通過心跳狀態(tài)監(jiān)測,判斷主機系統(tǒng)異常,進而觸發(fā)冗余切換操作。
當人工選擇恢復主備機運行狀態(tài)后,備機移交采集和控制功能回歸主機,同時開始從切換節(jié)點恢復備機運行期間所采集的實時數(shù)據(jù)庫數(shù)據(jù)。并恢復相關心跳檢測數(shù)據(jù)。
3.3 主備中心冗余實現(xiàn)設計
正常情況下,主中心和備中心的工作站都通過主中心節(jié)點的服務器進行信息采集和管理控制。如果主中心節(jié)點內(nèi)出現(xiàn)某一服務器軟硬件故障,那么可以自動進行熱備硬件的切換,實現(xiàn)系統(tǒng)無擾動切換。如果主中心節(jié)點內(nèi)出現(xiàn)兩臺服務器或者存儲硬件故障,那么需要啟動主備中心切換模式,切換到備用中心。
備中心作為災備中心,正常情況下集成監(jiān)控1和集成監(jiān)控2服務器上的應用服務端不啟動,磁盤陣列上的數(shù)據(jù)是通過遠程數(shù)據(jù)鏡像同步的方式,與主中心的磁盤陣列上數(shù)據(jù)保持一致。當采用設備故障切換模式時,須進行人工干預,先將主中心的綜合監(jiān)控服務器1和綜合監(jiān)控服務器2中的應用服務端關閉,再啟動備中心的綜合監(jiān)控服務器1和綜合監(jiān)控服務器2中的應用服務端,待服務開啟后,主中心和備中心的工作站上的客戶端,通過核心交換機與備中心服務端進行通信,即可以進行工作。
3.4 數(shù)據(jù)存儲災備設計
在主中心和備中心均設置基于SAN 架構的數(shù)據(jù)存儲系統(tǒng)。主中心和備中心配置的數(shù)據(jù)存儲系統(tǒng)能夠?qū)崿F(xiàn)兩地數(shù)據(jù)的實時同步。在正常情況下,兩地同時存儲數(shù)據(jù),對于上層應用系統(tǒng)來說就像虛擬成一套存儲一樣使用;當某地系統(tǒng)出現(xiàn)故障時,另一地系統(tǒng)獨立承擔數(shù)據(jù)存儲功能,故障恢復時,故障系統(tǒng)自動同步更新為最新數(shù)據(jù)。
4 結論
可靠性是系統(tǒng)工程,需要從多維度進行綜合設計。本文將應用服務分布式設計、主中心的集群設計、主備中心冗余設計、數(shù)據(jù)存儲災備設計等技術應用到島橋隧綜合監(jiān)控領域,極大的提升了綜合監(jiān)控系統(tǒng)的可靠性。
參考文獻
[1]何小良,陳志遠.地鐵大型綜合監(jiān)控平臺高可靠性設計研究[J].通訊世界,2016(15):263-264.
[2]雷濤,井鵬程.基于WMI的計算機監(jiān)控系統(tǒng)的設計與實現(xiàn)[J].計算機技術與發(fā)展,2010,20(12):232-235,239.
[3]孫懷義.冗余設計技術與可靠性關系研究[J].儀器儀表學報,2007,28(11):2089-2090.
作者單位
上海寶信軟件股份有限公司 上海市 201203