李麗
摘要:DMHS系統(tǒng)是由北京航管科技有限公司研制開發(fā)的用于AFTN/SITA格式電報存儲交換的通信系統(tǒng)。大連空管站使用的是DMHS-H96路自動轉(zhuǎn)報系統(tǒng),于2014年7月引進,2015年8月,在該系統(tǒng)試運行期間日常巡檢過程中,值班員發(fā)現(xiàn)雙服務(wù)器互聯(lián)網(wǎng)線出現(xiàn)了告警提示,針對此問題對兩臺服務(wù)器鏈路進行進一步的檢查工作,找到產(chǎn)生告警的原因,并根據(jù)實際情況提交了解決方案,最終排除安全隱患。
關(guān)鍵詞:DMHS;物理結(jié)構(gòu);網(wǎng)卡
一、背景描述
1、DMHS-H系統(tǒng)物理結(jié)構(gòu)
96路H型轉(zhuǎn)報系統(tǒng)由兩臺HP DL580 G7服務(wù)器,兩臺同步單元,兩臺CISCO交換機及6臺異步單元組成。兩臺服務(wù)器之間通過COM口使用一條DB9交叉線連接,這條串口交叉線用來做雙機檢測;一塊集成網(wǎng)卡使用網(wǎng)線分別與兩臺交換機相連,承擔同步報文數(shù)據(jù)、配置參數(shù)等信息以及服務(wù)器對外的通訊工作。
其中,每臺服務(wù)器有一塊網(wǎng)卡,包含兩個網(wǎng)口, eth0口連接交換機1、eth1口連接交換機2,交換機1與交換機2互聯(lián),實現(xiàn)了雙網(wǎng)運行模式。但是當網(wǎng)卡硬件故障時,該通信方式便會無效。
具體結(jié)構(gòu)圖如圖1所示:
2014年1月引進的DMHS-H96路自動轉(zhuǎn)報系統(tǒng)服務(wù)器間的拓撲結(jié)構(gòu)如上面所述,在試運行期間基本穩(wěn)定,值班員每日對該系統(tǒng)進行兩小時定時巡檢,并詳細記錄運行信息。
二、事件描述
1、事件起因:
2015年8月,在設(shè)備巡檢的過程中,值班員發(fā)現(xiàn)DMHS-H系統(tǒng)服務(wù)器監(jiān)控軟件顯示兩臺服務(wù)器通信異常,無法進行數(shù)據(jù)同步工作,主機與備機中均顯示網(wǎng)絡(luò)狀態(tài)為:“?”,表示系統(tǒng)通信故障,需進一步檢查故障原因。
此時檢查主備機數(shù)據(jù)同步信息發(fā)現(xiàn),主備機中的數(shù)據(jù)及修改信息不能進行同步,同步指針中顯示未同步信息在逐漸增加,此現(xiàn)象同樣說明通信故障。
通信線路故障情況下,可以采取應(yīng)急切換操作,在主機上執(zhí)行雙機切換,執(zhí)行后主機提示信息為“無法進行切換,由于通信異常造成”,應(yīng)急切換操作失敗,需進一步處理查找切換失敗原因,經(jīng)排查發(fā)現(xiàn)主機找不到對等機。
對綜上結(jié)果進行分析,均可以判斷兩臺服務(wù)器間通信發(fā)生了異常,但仍需要進一步檢查測試,確定造成該異?,F(xiàn)象的原因并加以解決。
2、排查過程
根據(jù)MNG工具中提示的告警信息,需要對兩臺服務(wù)器的通信進行檢查,首先檢查系統(tǒng)中對于雙機信息的配置是否有誤,如果配置信息出錯,可能會造成通信中斷,檢查命令為:#cat dmhs_afs.ini,返回結(jié)果顯示雙機的配置信息均完整有效,沒有出現(xiàn)丟失或者錯誤的情況,可以排除雙機參數(shù)的配置問題。
第二步:檢查網(wǎng)卡狀態(tài),查看是否可以找到網(wǎng)卡,以及網(wǎng)卡的配置參數(shù)是否有效,檢查命令為:#ifconfig,執(zhí)行后結(jié)果顯示找不到網(wǎng)卡端口,沒有相應(yīng)的配置參數(shù),需要進一步檢查網(wǎng)卡配置是否存在,分別檢查ETH0和ETH1的網(wǎng)卡配置情況,結(jié)果顯示網(wǎng)卡配置參數(shù)正常有效,那么根據(jù)目前情況,可以采用重新啟動網(wǎng)卡的方式,看是否可以排除故障,命令為#service networkrestart,重啟網(wǎng)卡結(jié)果顯示,網(wǎng)卡端口不存在,重啟失效,此時網(wǎng)卡狀態(tài)顯示停止工作。
通過上述的網(wǎng)卡檢查工作,顯示找不到網(wǎng)卡硬件信息,通過命令重新加載網(wǎng)卡驅(qū)動,仍然無法重啟網(wǎng)卡,遂初步判斷是網(wǎng)卡板卡故障造成。需要聯(lián)系HP售后服務(wù)人員,進行檢測并更換網(wǎng)卡硬件。HP服務(wù)人員到達現(xiàn)場后,更換一塊新網(wǎng)卡,重新啟動服務(wù)器加載網(wǎng)卡信息,由廠家工程師遠程維護網(wǎng)卡配置參數(shù),并進行存儲后,服務(wù)器的通信狀態(tài)均顯示正常,雙機數(shù)據(jù)同步以及切換測試也恢復正常。至此,該通信狀態(tài)異常的故障徹底排除,恢復通信。
三、解決方案
單塊網(wǎng)卡的運行模式下,一旦網(wǎng)卡硬件故障,則該服務(wù)器的通信將會徹底中斷,所以解決單塊網(wǎng)卡獨立,真正實現(xiàn)雙網(wǎng)狀態(tài)運行是必要的。
通過研討決定每臺服務(wù)器增加一塊外置網(wǎng)卡,每一塊網(wǎng)卡中的一個端口連接一臺交換機,運行過程中,一旦一塊網(wǎng)卡出現(xiàn)故障則另一塊網(wǎng)卡仍會在網(wǎng)絡(luò)中承擔通信業(yè)務(wù),不會造成服務(wù)器的中斷,真正實現(xiàn)了一主、二備的工作模式。
四、過程實施
在系統(tǒng)的結(jié)構(gòu)建設(shè)中,96路DMHS-H自動轉(zhuǎn)報系統(tǒng)原配置一塊網(wǎng)卡,現(xiàn)在按照單網(wǎng)卡故障的解決方案,在以后的系統(tǒng)建設(shè)中,每臺服務(wù)器均可以配置兩塊外置網(wǎng)卡,實現(xiàn)網(wǎng)絡(luò)信號的一主、二備的傳輸模式,兩塊網(wǎng)卡分別加入兩臺交換機環(huán)境,形成雙環(huán)保障。
1、每臺服務(wù)器均配置兩塊網(wǎng)卡,分別為系統(tǒng)集成網(wǎng)卡一塊,使用網(wǎng)口ETH0、ETH2,外置網(wǎng)卡一塊,使用網(wǎng)口為ETH4,將ETH0連接交換機1,ETH2作為雙機互聯(lián)網(wǎng)口,ETH4連接交換機2,這樣實現(xiàn)了通信的雙環(huán)路,將ETH1網(wǎng)口設(shè)置為備用網(wǎng)口,如果雙機互聯(lián)網(wǎng)口ETH2出現(xiàn)故障,可以使用ETH1作為備用網(wǎng)口工作,如此,節(jié)點中任意的網(wǎng)口或者網(wǎng)卡故障,均不會影響通信業(yè)務(wù)的傳輸,保證了信號安全穩(wěn)定的傳遞工作。
2、參數(shù)設(shè)置
在etc/sysconfig/network-scripts/route-eth0添加192.168.11.1/2
在etc/sysconfig/network-scripts/route-eth1添加192.168.44.1/2
在etc/sysconfig/network-scripts/route-eth2添加192.168.33.1/2
在etc/sysconfig/network-scripts/route-eth4添加192.168.22.1/2
重新啟動網(wǎng)卡:/etc/int.d/network restart
至此,雙網(wǎng)卡設(shè)置成功,系統(tǒng)恢復正常,保證了服務(wù)器的雙網(wǎng)雙待功能。
五、總結(jié)
通過此次的故障排查和維護,目前DMHS-H轉(zhuǎn)報系統(tǒng)已經(jīng)可以穩(wěn)定安全的運行,成功的解決了單網(wǎng)模式下的薄弱環(huán)節(jié),實現(xiàn)了網(wǎng)絡(luò)狀態(tài)的雙網(wǎng)模式,在整體的硬件結(jié)構(gòu)拓撲中均實現(xiàn)了一主、二備的運行模式。大大提高了96路DMHS-H自動轉(zhuǎn)報系統(tǒng)的安全運運行系數(shù)。在今后的運行過程中,技術(shù)人員會更加細致的對設(shè)備進行巡檢和維護工作,詳細記錄認真分析,為設(shè)備的穩(wěn)定運行提供有效的維護工作。
參考文獻:
[1]DMHS-H系統(tǒng)部署手冊
[2]DMHS-H系統(tǒng)硬件手冊
[3]DMHS-H日常軟件基本維護手冊endprint