魚兆虎 王永艷 王勇
摘要:接入層交換機是局域網中連接用戶和匯聚層或核心層的重要橋梁設備,它的工作狀態(tài)的好壞直接影響著整個局域網的運行穩(wěn)定性。該文講術的是由于交換機操作系統(tǒng)存在BUG或系統(tǒng)版本低下引起的故障!由于這種因素引起的網絡故障現象發(fā)生機率并不高,解決起來可能會走一些彎路,為此現在就將該故障的具體解決過程詳細陳述出來,以提醒網管人員在處理類似的網絡故障時,重視對交換機操作系統(tǒng)的檢查,以便快速排除故障。
關鍵詞: 操作系統(tǒng);網絡故障;交換機
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)28-6627-02
隨著醫(yī)院信息化的發(fā)展,醫(yī)院的基礎網絡架構變得越來越復雜,新網老網并存,內外外網并存,醫(yī)院網絡帶寬需求也越來越大,網絡故障的頻率越來越高,而且,一些少見的比較隱性的、怪異的故障,解決起來費時費力,接入層交換機,作為網絡中的重要一環(huán),一般情況下,只要是主流的品牌交換,性能還是比較穩(wěn)定的,不過,這并不意味著交換機設備不會發(fā)生故障,隨著工作時間的推移,工作使用環(huán)境的變化,交換機內部的元器件也會發(fā)生老化現象,由于出廠時間較早,交換機本身的操作系統(tǒng)不夠成熟,當某個網絡事件發(fā)生時,容易觸發(fā)交換機工作性能下降,此時交換機發(fā)生故障的機率就比較高了。該文下面的一則網絡故障,就是由于交換機操作系統(tǒng)版本較低,使得在某一網絡環(huán)境下性能急劇下降,導致部分局域網出現無法上網的故障!由于該故障少有發(fā)生,解決起來比較棘手,為此筆者就將該故障的詳細排查經過還原出來,與各位朋友共同交流! [1]
1 故障現象
1.1 網絡環(huán)境
發(fā)生故障的區(qū)域是我院的體檢中心,其網絡環(huán)境見原拓撲圖,體檢中心共有26個終端工作站,用兩臺24口的華三S3100百兆交換機,通過又膠線級聯(lián)后再用多模光纖上聯(lián)至華三S7506E核心交換機,二層純內網架構,兩臺級聯(lián)的交換機單獨劃分在一個VLAN里,使用時間也就兩年多。
1.2故障表現
某天下午突然接到體檢中心電話說收費電腦的網不通了,工作站進不了,當信息科工作人打開威盾內網安全管理軟件查看時,發(fā)現該科室有多處工作站不通,隨到現場排查,發(fā)現Ping主服務器不通,但約二三分鐘后又都自動通了,通了后全天都正常,接下來的幾天,都是早上七點四十到八點剛上班那段時間,也總是出現類似故障,偶爾下午也會發(fā)生一兩次,開始時,一周只有一兩天發(fā)生,后來幾呼天天早上都會發(fā)生,早上體檢人多時,嚴重影響正常醫(yī)療工作。故障模擬如下:
部分PC(PC-1,PC-4) PING HIS服務器通暢,PC-2、PC-3 Ping主服務器不通暢;此時,交換機V30,V36的CPU使用率瞬時達到65%以上后立即又恢復正常;PC-1 ping PC-2通暢,PC-1 ping PC-3不通暢,ping HIS服務器不通暢。
2 分析與檢修
出現斷網后:1) 通過TELNET能夠遠程登錄到兩臺交換機,說明從核心到該接入層交換機是通的,查看了交換機的CPU使用率、日志及STP狀態(tài),除了個別端口反復UP或DOWN外,均未發(fā)現異常,懷疑是個別電腦跳線接觸不良引起的,于是,更換了端口反復UP或DOWN的那兩臺工作站電腦跳線、網卡及墻上的超五類模塊,交換機出錯日志如下:
2) 通過上面的排查處理后,故障還是存在,重啟交換機能好一會兒,但第二天還是有類似故障發(fā)生,只是交換的端口沒有上面的出錯日志了,日志發(fā)給交換機廠商分析說機器沒有問題,于是再自行排查,將原先兩臺做級聯(lián)的交換機,增加了一條鏈路,兩交換機都用光纖連到核心交換機上,如上圖中的現拓撲。
3) 采用不同鏈路以后,故障還是存在,于是又做了如下排查:
將一臺同型號的備用新24口交換機更換了其中一臺;懷疑電壓不穩(wěn),又給兩臺交換機配上了UPS后備電源;咨詢了幾家網絡公司,為防止STP波動,啟用了交換機的邊緣端口,甚至將STP協(xié)議濾過掉,故障還是會發(fā)生;懷疑是體檢中心某臺設備引起的,信息科人員早上去蹲點,一臺一臺幫他們開機,還是沒發(fā)現問題所在。
4) 懷疑有病毒或網絡風暴,請網絡公司過來測試流量也沒發(fā)現問題,考慮到總是在早上發(fā)生,當所有PC同時啟動時,交換機CPU使用率有個一過性的急速上升,數據處理能力下降,導致部分數據不能從交換機(V30)傳輸出去,由此懷疑交換機處理能力不足導致,于是,使用高性能24口千兆交換機H3C S5120 SI 替換V30(h3c s3100)百兆交換機,進行測試,結果,接在千兆交換機上的電腦,故障消除,接在百兆交換機上的電腦,故障依然存在。
5) 兩臺百兆交換機才用兩年,難道會同時老化,處理性能下降了,何況換了一個新的同型號的備用交換機也不行,難道真的都要用千兆的嗎?經多方咨詢懷疑是交換機系統(tǒng)版本太低引起的,雖然不能確認上述故障就是由交換機后臺系統(tǒng)的版本太低引起的,但是,我們知道最新版本的后臺系統(tǒng)存在的BUG會更少,運行起來自然也就更穩(wěn)定,于是,先將故障交換機通過搭建FTP服務器對交換機的操作系統(tǒng)進行升級,從低版本操作系統(tǒng)Release 5103P01升級到新版本Release R5203P07。[2] 結果,連接在千兆和百兆交換機上的電腦一切正常。
6) 將另一臺原先的百兆交換的操作系統(tǒng)也升級到最新版本,換回那臺千兆的交換機。升級后,兩臺原來的百兆交換機,除了交換機的內存使用率比原來高些,達到50%,其它情況一切正常,各終端工作站的應用也都能正常使用。
3 討論
交換機故障問題大致包括物理層故障、端口協(xié)商以及自環(huán)問題、Vlan問題、設備兼容問題等,從上面的故障排除過程來看,當出現網絡故障時通常按以下步驟檢查排除:(1)根據故障信息分析故障類型,盡量按照先易后難的順序,如:是硬件故障還是軟件引
起的故障;(2)確定故障范圍;(3)進行故障隔離,對故障范圍內的網絡基礎設備,在排查故障時盡可能地按照“終端工作站-連接線纜-端口模塊-網絡跳線-交換機”這樣的順序依次逐一進行排查[3]。當然,網絡故障原因復雜、多變,還存在一些用常規(guī)方法無法排查的疑難故障,比如網絡病毒、網絡拓撲缺陷、個別元器件老化等,這些故障沒有特有規(guī)律可尋,不妨靜下心來多想想自己平時很少注意到的一些細節(jié)因素,依靠自身的經驗積累和借助一些網絡工具來分析解決。另外,我們在購買交換機組建局域網的時候,應該去選用那些質量可靠、品牌過硬、內存容量較大的交換機設備,畢竟這樣的設備自身有較強的抗干擾能力。
參考文獻:
[1] http://network.51cto.com/art/201001/176044.htm.
[2] http://network.51cto.com/art/200912/169625.htm.
[3] 何其才,陳芳.網絡聯(lián)通性故障的排除方法[J].醫(yī)療衛(wèi)生裝備,2007,11,28(11).