莫蔚然
摘要:本文對地鐵綜合監(jiān)控系統(tǒng)非計劃停機(jī)時所采用的雙機(jī)集群熱備和容錯機(jī)這兩種冗余設(shè)計進(jìn)行介紹,同時對兩種冗余處理方案的進(jìn)行研究分析及應(yīng)用方面的探討。
關(guān)鍵字:地鐵 綜合監(jiān)控系統(tǒng) 雙機(jī)冗余服務(wù)器
中圖分類號: U231文獻(xiàn)標(biāo)識碼: A
1.緒論
地鐵綜合監(jiān)控系統(tǒng)是一個面向調(diào)度和車站操作人員的大型計算機(jī)集成系統(tǒng),采用了當(dāng)代最先進(jìn)的計算機(jī)及網(wǎng)絡(luò)技術(shù),集成和互聯(lián)多個系統(tǒng),如電力監(jiān)控系統(tǒng)、消防報警系統(tǒng)、機(jī)電設(shè)備監(jiān)控系統(tǒng)、屏蔽門、防淹門、時鐘系統(tǒng)等等。
地鐵綜合監(jiān)控系統(tǒng)運行的非計劃停機(jī)時間(系統(tǒng)失效時間)對于系統(tǒng)的建造成本和運行成本有著巨大的影響,綜合監(jiān)控系統(tǒng)服務(wù)器作為系統(tǒng)的關(guān)鍵設(shè)備,其故障將會造成系統(tǒng)停用。因此,綜合監(jiān)控系統(tǒng)服務(wù)器架構(gòu)應(yīng)采用冗余設(shè)計。
2.地鐵綜合監(jiān)控系統(tǒng)冗余架構(gòu)設(shè)計方式
地鐵綜合監(jiān)控系統(tǒng)服務(wù)器主要滿足數(shù)據(jù)的傳輸和存儲處理的功能,國內(nèi)地鐵綜合監(jiān)控系統(tǒng)的服務(wù)器一般采用雙機(jī)集群熱備和容錯機(jī)這兩種冗余架構(gòu)。
2.1雙機(jī)熱備集群架構(gòu)
服務(wù)器集群技術(shù)是為了提高系統(tǒng)的穩(wěn)定性和網(wǎng)絡(luò)中心的數(shù)據(jù)處理能力及服務(wù)能力,將至少兩個系統(tǒng)連接到一起,使兩個服務(wù)器能夠像一臺機(jī)器那樣工作。因為集群能夠提供高可用性和可伸縮性,所以,它迅速成為企業(yè)和ISP計算的支柱。
目前國內(nèi)大多數(shù)地鐵綜合監(jiān)控系統(tǒng)服務(wù)器架構(gòu)均采用雙機(jī)集群熱備方案。雙機(jī)集群熱備的服務(wù)器架構(gòu)如下圖所示:
雙機(jī)熱備集群是一種較為簡單的集群技術(shù)應(yīng)用。雙機(jī)熱備集群中的主、備服務(wù)器同時工作,但只有一臺服務(wù)器處于聯(lián)機(jī)狀態(tài),響應(yīng)所有用戶的請求和操作,另外一臺作為“主”服務(wù)器的“熱備份”。兩臺服務(wù)器共享一個置于外部的磁盤陣列,以實現(xiàn)數(shù)據(jù)的一致性,同時通過心跳線進(jìn)行連接,監(jiān)測對方“心跳”,當(dāng)一臺服務(wù)器或一個應(yīng)用程序故障時,可根據(jù)事先定義的故障轉(zhuǎn)移策略屏蔽故障,并由另一臺服務(wù)器自動接替運行。故障恢復(fù)后,兩臺服務(wù)器重新進(jìn)入熱備狀態(tài)。
雙機(jī)熱備集群具有實現(xiàn)簡單,較高性能、低價格的特點。同時硬件和軟件上都有冗余,實現(xiàn)高可用性。其中一個服務(wù)器的切入和切出不會中斷服務(wù),對用戶完全透明。
雙機(jī)熱備集群提供了集群方案中最高的可用性,雖然其性能只能接近或等于單臺服務(wù)器,但對于不需要大量數(shù)據(jù)計算和處理的地鐵綜合監(jiān)控系統(tǒng)來說,雙機(jī)熱備集群方案完全滿足系統(tǒng)的數(shù)據(jù)傳輸和處理要求。由于其性價比高,所以被大多數(shù)地鐵綜合監(jiān)控系統(tǒng)所采用。
容錯機(jī)技術(shù)
容錯技術(shù)的一個典型應(yīng)用即容錯機(jī)。容錯機(jī)通過特殊的軟硬件設(shè)計,最大限度地提高了系統(tǒng)的可用性。
在容錯機(jī)中,每一個部件都采用模塊化、冗余設(shè)計,且雙工同步運行。從這一點來看,集群技術(shù)是部件級別冗余,而容錯機(jī)則是硬件執(zhí)行機(jī)制級別的冗余,避免了單一應(yīng)用下一主一備的雙機(jī)集群所產(chǎn)生的故障切換時間和數(shù)據(jù)的丟失等問題。
對用戶來說,完全可以將容錯機(jī)當(dāng)作單機(jī)看待,容錯機(jī)能有效的減少系統(tǒng)的節(jié)點,簡化了整個系統(tǒng)的維護(hù)量。同時,由于容錯機(jī)所有部件均采用冗余設(shè)計,這使得容錯計算機(jī)的所有部件均具備熱插拔的功能,大大減少了服務(wù)器硬件故障的修復(fù)時間。
另外,容錯機(jī)雖然是部件級冗余,系統(tǒng)內(nèi)部有雙重或者三重的冗余部件,但從軟件角度上來看,它是單軟件映像的,也就是說任何單機(jī)上開發(fā)的軟件可以無縫移植到容錯服務(wù)器上,而不需要進(jìn)行任何修改和二次開發(fā)。容錯機(jī)的這種單軟件映像在一定程度上節(jié)約了系統(tǒng)軟件的購買成本,簡化系統(tǒng)的軟件安裝調(diào)試過程。
3. 雙機(jī)集群熱備和容錯機(jī)技術(shù)優(yōu)選比較探討
3.1 性能結(jié)構(gòu)的比較
目前雙機(jī)集群技術(shù)的可靠性指標(biāo)通常在99.9%至99.99%之間,即集群技術(shù)可以保證系統(tǒng)的每年平均計劃外停機(jī)時間在8小時到53分鐘;容錯機(jī)的可靠性指標(biāo)則至少能達(dá)到99.999%, 同時包括操作系統(tǒng)在內(nèi)的年平均計劃外停機(jī)時間小于5分鐘。
典型的雙機(jī)熱備集群及容錯機(jī)方案的拓?fù)浣Y(jié)構(gòu)及軟硬件結(jié)構(gòu)比較如下圖所示:
集群與容錯方案拓?fù)浣Y(jié)構(gòu)
集群與容錯方案軟硬件結(jié)構(gòu)
3.2 服務(wù)器架構(gòu)選擇
兩種技術(shù)相比較,集群技術(shù)保證了服務(wù)器的較高性能,同時也具有較高可靠性;容錯技術(shù)則最大限度的保證了服務(wù)器的高可靠性。容錯機(jī)的單軟件鏡像方式節(jié)約了一定的系統(tǒng)軟件購買成本,但其本身特殊的軟硬件設(shè)計卻使其價格非常昂貴。再者,目前僅有國外的極少數(shù)廠商能夠提供容錯產(chǎn)品,綜合考慮以上因素,國內(nèi)地鐵綜合監(jiān)控系統(tǒng)多采用服務(wù)器集群熱備技術(shù)。
4.結(jié)束語
綜合監(jiān)控系統(tǒng)率先在廣州地鐵引進(jìn)實施后,現(xiàn)已在全國軌道交通全面使用。綜合監(jiān)控系統(tǒng)經(jīng)過多年的積累和改善,計算機(jī)硬件性能的提升,都使系統(tǒng)的可靠性、實時性、數(shù)據(jù)處理能力都有了很大提高。綜合監(jiān)控系統(tǒng)服務(wù)器架構(gòu)應(yīng)采用冗余設(shè)計是整個地鐵系統(tǒng)一切正常工作的保證,必須采取適當(dāng)?shù)拇胧﹣泶_保計算機(jī)系統(tǒng)的容錯性和不間斷性,以維護(hù)系統(tǒng)的高可用性和高安全性。所以深入研究雙機(jī)集群熱備和容錯機(jī)這兩種冗余架構(gòu)或進(jìn)一步改善綜合監(jiān)控系統(tǒng)功能是十分有必要的。
5.參考文獻(xiàn)
[1] 《處理器容錯技術(shù)研究與展望》 作者:傅忠傳,陳紅松等。
[2] 《高可靠容錯實時系統(tǒng)的支撐技術(shù)研究》 作者:陳宇。
[3] 《具有容錯結(jié)構(gòu)的高可用計算機(jī)雙系統(tǒng)研究》 作者:金士堯,胡華平,李宏亮
作者簡介:作者現(xiàn)就職佛山市南海區(qū)鐵路投資有限公司,負(fù)責(zé)南海區(qū)現(xiàn)代有軌電車工程建設(shè)及機(jī)電設(shè)備技術(shù)工作;曾在廣州市地下鐵道總公司從事機(jī)電設(shè)備技術(shù)管理工作。