高榮民
(扎煤公司培訓(xùn)中心,內(nèi)蒙古滿洲里 021412)
淺談路由器故障的幾點(diǎn)原因
高榮民
(扎煤公司培訓(xùn)中心,內(nèi)蒙古滿洲里 021412)
由于路由器往往位于網(wǎng)絡(luò)邊緣,用于實(shí)現(xiàn)網(wǎng)絡(luò)與Internet、以及網(wǎng)絡(luò)之間的相互連接。因此,路由器的故障相對(duì)較為容易判斷。也就是說(shuō),當(dāng)整個(gè)網(wǎng)絡(luò)都無(wú)法接入Internet,或者無(wú)法實(shí)現(xiàn)與其他網(wǎng)絡(luò)的互聯(lián)時(shí),在排除了可能的廣域網(wǎng)物理故障后,基本上可以判斷為路由器故障。
路由器;故障;原因
既然路由器既有硬件設(shè)備,也有操作系統(tǒng)和配置文件,因此其故障也可以大致分為兩類,即硬件故障和軟件故障。其中,硬件故障主要是業(yè)務(wù)板故障、接口故障和電源故障,而軟件故障則主要是系統(tǒng)軟件故障和配置故障。
1.1 硬件故障
路由器的硬件故障主要是指電源故障、主板故障(含CPU和各種內(nèi)存)、模塊故障和端口故障。
1.1.1 電源故障
電源故障表現(xiàn)為當(dāng)打開(kāi)路由器的電源開(kāi)關(guān)時(shí),路由器前面板的電源燈不亮,風(fēng)扇不轉(zhuǎn)。這時(shí)要重點(diǎn)檢查電源系統(tǒng),看供電插座是否有電,電壓是否在規(guī)定的范圍內(nèi)。如果供電正常,應(yīng)該檢查電源線是否完好,接觸是否牢靠,必要時(shí)可以換一根,如果還不行,可以判定問(wèn)題應(yīng)該出在路由器的電源上??梢圆榭绰酚善麟娫幢kU(xiǎn)是否完好,如果燒壞應(yīng)該更換。如果還不能解決問(wèn)題,送修返廠。
1.1.2 主板故障
主板故障的表現(xiàn)為雖然能夠正常加電,但系統(tǒng)無(wú)法正常引導(dǎo)至工作模式,所有接口的網(wǎng)絡(luò)通信中斷,路由器停止正常工作,或者循環(huán)重新啟動(dòng),或者系統(tǒng)掛起,或者系統(tǒng)沒(méi)有任何響應(yīng)。甚至借助Console端口和超級(jí)終端,也無(wú)法登錄至系統(tǒng)進(jìn)行診斷和管理。
1.1.3 模塊故障
系統(tǒng)其他部分都能正常識(shí)別并正常工作,但卻無(wú)法正確識(shí)別有故障的模塊?;蛘?,雖然模塊可以被正確識(shí)別,但即使正確配置后,該模塊上的所有接口仍然不能正常工作。此時(shí),往往是因?yàn)槟K存在物理故障。若欲確認(rèn)是否為模塊故障,可以使用相同型號(hào)的完好模塊替換懷疑有問(wèn)題的模塊,即以替換法進(jìn)行故障診斷。
1.1.4 端口故障
在保證配置正確的情況下,當(dāng)端口故障發(fā)生時(shí),將只影響發(fā)生故障的端口通信,而同一路由器,甚至位于同一模塊中的其他端口的正常通信不受影響。將其他同類型的端口修改為故障端口的配置進(jìn)行替換測(cè)試,可以確認(rèn)是端口故障。
1.1.5 硬件兼容性故障
路由器接口和模塊的兼容性故障大量發(fā)生。該故障最明顯的現(xiàn)象是安裝的網(wǎng)絡(luò)模塊不能被系統(tǒng)檢測(cè)到,或者模塊不能正常工作,甚至?xí)?dǎo)致路由器的循環(huán)重新引導(dǎo)。只需一些簡(jiǎn)單的操作步驟,就能夠識(shí)別和確定兼容性故障。
如果在show diag命令輸出中沒(méi)有顯示模塊硬件信息,重新安裝該硬件模塊,也可以將該模塊安裝至不同的插槽。一些模塊不支持熱插拔,因此,網(wǎng)絡(luò)模塊的插拔應(yīng)當(dāng)在電源關(guān)閉的情況下進(jìn)行。重新安裝模塊后,重新引導(dǎo)路由器。
如果在show diag命令輸出中顯示有模塊硬件信息,但是不能在show run命令或show ipinterface brief命令輸出信息中看到該模塊接口,檢查硬件安裝文檔。一些模塊需要在安裝后重新配置路由器。
在show diag命令輸出信息中,記錄類似Unknown WAN card或WIC modulenot supported/disabled in this slot的錯(cuò)誤信息,表明相應(yīng)插槽中的硬件不兼容。查閱路由器和模塊文檔,確認(rèn)該模塊被路由器所支持,并檢查支持該模塊的Cisco IOS軟件映像。
1.2 軟件故障
1.2.1 系統(tǒng)故障
IOS作為路由器操作系統(tǒng),保存在路由器Flash中,因?yàn)椴僮魇д`(如刪除了Flash中的文件)或者其他原因(如突然斷電),可能會(huì)使Flash中的IOS丟失,而使路由器無(wú)法正常啟動(dòng)。以Cisco的路由器為例,如果路由器開(kāi)機(jī)后總是進(jìn)入rmon狀態(tài),這時(shí)往往說(shuō)明系統(tǒng)軟件IOS存在問(wèn)題。
發(fā)生故障時(shí),可以使用保存在ROM中的備份操作系統(tǒng)軟件,雖然該IOS通常會(huì)比Flash中的IOS版本稍微低一點(diǎn),但完全可以使路由器繼續(xù)工作。當(dāng)路由器重新啟動(dòng)和工作后,必須重新將合適的IOS上傳到Flash中。
1.2.2 系統(tǒng)缺陷
路由器操作系統(tǒng)(IOS)也存在系統(tǒng)漏洞,也會(huì)遭到網(wǎng)絡(luò)黑客的惡意攻擊。例如,僅2007年2月,Cisco IOS操作系統(tǒng)就被發(fā)現(xiàn)存在3個(gè)嚴(yán)重的遠(yuǎn)程安全漏洞,遠(yuǎn)程攻擊者可能利用這些漏洞進(jìn)行攻擊,甚至完全控制網(wǎng)絡(luò)設(shè)備。雖然目前尚未有公開(kāi)的針對(duì)這些漏洞的攻擊程序,但是從漏洞本身的特點(diǎn)來(lái)看,找到攻擊方法并定出攻擊程序并不需要太長(zhǎng)時(shí)間,可能很快就會(huì)有相關(guān)攻擊程序和攻擊行為出現(xiàn)。因?yàn)槭褂孟嚓P(guān)Cisco設(shè)備的用戶應(yīng)當(dāng)盡快安裝相應(yīng)的IOS補(bǔ)丁。
同時(shí),由于路由器往往位于網(wǎng)絡(luò)的邊緣,直接連接至Internet,因此遭受攻擊的可能性非常大。而且路由器一旦癱瘓,將導(dǎo)致整個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)與其他網(wǎng)絡(luò)的通信,甚至無(wú)法接入Inernet。而對(duì)于使用路由器作為核心的網(wǎng)絡(luò)而言,將直接導(dǎo)致整個(gè)網(wǎng)絡(luò)陷入癱瘓。因此,路由器也應(yīng)當(dāng)與計(jì)算機(jī)一樣,必須定期更新IOS。
1.2.3 配置錯(cuò)誤
配置錯(cuò)誤是最容易出現(xiàn)也是最難排除的故障。容易發(fā)生配置故障的地方有很多,例如,接口配置錯(cuò)誤、路由協(xié)議錯(cuò)誤、IP地址和掩碼錯(cuò)誤、ACL(訪問(wèn)控制列表)錯(cuò)誤、修改配置后沒(méi)有保存等。
其中,最容易出錯(cuò)的就是ACL。ACL可能的錯(cuò)誤包括:錯(cuò)誤應(yīng)用了ACL端口;錯(cuò)誤禁止了源地址、目標(biāo)地址、端口號(hào);ACL語(yǔ)句的順序不恰當(dāng);列表最后沒(méi)有Permit語(yǔ)句。
路由器配置錯(cuò)誤導(dǎo)致故障,處理過(guò)程如下:
(1)借助Console線將計(jì)算機(jī)串口連接器Console端口,正確設(shè)置超級(jí)終端的參數(shù)。
(2)在路由器重新引導(dǎo)后的60秒內(nèi),按下計(jì)算機(jī)的(Break)鍵,將路由器引導(dǎo)至ROMmon模式。
(3)將寄存器配置修改為0×2142,并重新啟動(dòng)路由器。在“rommon1〉”提示符下執(zhí)行confreg0×2142命令。然后在“rommon2〉”提示符下鍵入reset,路由從Flash重新引導(dǎo),并且不加載配置文件。
(4)在每個(gè)設(shè)置問(wèn)題中都鍵入n,或者按(Ctrl+C)組合鍵跳過(guò)初始化配置過(guò)程。
(5)在Rorter〉提示符下鍵入enable并摟(Enter)鍵,進(jìn)入enable模式,顯示Router#提示符。
(6)執(zhí)行copy running-config startup-config保存空的配置。如果懷疑某個(gè)命令導(dǎo)致了該故障,也可以編輯配置文件。使用copy startup-config running-config復(fù)制該配置文件,鍵入configure terminal命令并按(Enter)鍵,然后修改該配置文件。
(7)配置文件修改完成之后,將寄存器配置修改回0×2012。執(zhí)行config-register0×2012命令修改寄存器配置,然后再執(zhí)行copy running-config startup-config命令保存該配置。
1.2.4 配置丟失
在路由器啟動(dòng)過(guò)程中,系統(tǒng)會(huì)搜索Srartup-Config文件,并根據(jù)該文件對(duì)系統(tǒng)進(jìn)行配置。如果找不到該文件,系統(tǒng)將進(jìn)入Setup模式,以人機(jī)對(duì)話方式進(jìn)行路由器的初始配置。也就是說(shuō),如果啟動(dòng)配置文件丟失,系統(tǒng)就不能對(duì)路由器進(jìn)行具體配置,即路由器無(wú)法完成其功能。
若要恢復(fù)配置文件,必須先通過(guò)Console口連接到路由器,通過(guò)TFTP方式將原來(lái)備份的配置文件復(fù)制到NVRAM,或者重新進(jìn)行配置。
1.2.5 密碼丟失
查看和配置路由器都必須有相應(yīng)的訪問(wèn)密碼。因此,該密碼一旦丟失,將無(wú)法繼續(xù)配置和管理路由器。借助密碼恢復(fù)技術(shù),可能通過(guò)Console端口重新設(shè)置路由器密碼。
1.3 安全故障
通常情況下,高CPU占用率往往由安全問(wèn)題所導(dǎo)致,如網(wǎng)絡(luò)中有蠕蟲(chóng)或病毒在運(yùn)行,特別是網(wǎng)絡(luò)拓?fù)浜团渲脹](méi)有改變的情況下。例如,當(dāng)網(wǎng)絡(luò)內(nèi)有計(jì)算機(jī)感染紅色代碼病毒后,Cisco路由器常表現(xiàn)為以下癥狀:
NAT或PAT表中有大量的流量(如果使用NAT或PAT)。
網(wǎng)絡(luò)中有大量的ARP請(qǐng)求或ARP風(fēng)暴(由IP地址掃描導(dǎo)致)。
IPInput、ARPInput、IPCache Ager和CEF進(jìn)程占用了過(guò)量的內(nèi)存。
APR、IPInput、CEF和IPC占用了大量的CPU處理能力。
高CPU占用率導(dǎo)致網(wǎng)絡(luò)中斷或傳輸速度率非常低。
如果使用NAT,還將導(dǎo)致IPInput占用高的CPU占用率。
達(dá)到中斷程度的低內(nèi)存環(huán)境和持續(xù)高的CPU占用率(甚至可能會(huì)達(dá)到100%)可能會(huì)導(dǎo)至Cisco IOS重新加載。
1.4 其他故障
1.4.1 網(wǎng)絡(luò)鏈路電磁干擾嚴(yán)重。例如,客戶機(jī)的網(wǎng)卡故障、網(wǎng)線接頭故障、線纜串?dāng)_等原因,都有可能產(chǎn)生數(shù)據(jù)碰撞、網(wǎng)絡(luò)流量增大。路由器負(fù)載增加、網(wǎng)絡(luò)變慢甚至癱瘓等問(wèn)題。
1.4.2 網(wǎng)絡(luò)規(guī)劃存在問(wèn)題。有些時(shí)候,路由器配置似乎沒(méi)有問(wèn)題,可路由器就是不能正常工作,或者工作不穩(wěn)定,總出現(xiàn)一些莫名其妙的問(wèn)題。這時(shí)不妨先放棄配置調(diào)試,回過(guò)頭來(lái)看看網(wǎng)絡(luò)規(guī)劃和拓?fù)浣Y(jié)構(gòu)是否存在問(wèn)題。比如,是不是重復(fù)使用網(wǎng)段,網(wǎng)絡(luò)掩碼的計(jì)算是否正確等,問(wèn)題往往就會(huì)迎刃而解。
1.4.3 版本功能受到限制。有時(shí)需要做某些特定的配置或?qū)崿F(xiàn)某種功能,雖然經(jīng)反復(fù)檢查確認(rèn)配置正確,但相應(yīng)的功能就是實(shí)現(xiàn)不了。這時(shí),先不要懷疑設(shè)備有問(wèn)題,最好先看一下系統(tǒng)軟件的版本號(hào),并查找相關(guān)的技術(shù)資料,看看所使用的版本軟件是否支持該功能。由于IOS系統(tǒng)軟件往往有許多版本,而每個(gè)版本支持不同的功能。如果支持的軟件版本不支持該功能,那就應(yīng)該找到相應(yīng)的軟件,先進(jìn)行升級(jí)或更換IOS。
1.4.4 閃存容量有限,有時(shí)在對(duì)系統(tǒng)軟件進(jìn)行升級(jí)時(shí),發(fā)現(xiàn)系統(tǒng)無(wú)論怎么樣也不能完成升級(jí),這時(shí)不防檢查一下要升級(jí)的軟件的大小是否超過(guò)了路由器的Flash容量。
2.1 故障診斷工具
網(wǎng)絡(luò)故障診斷從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點(diǎn),查找問(wèn)題的根源,排除故障,恢復(fù)網(wǎng)絡(luò)正常運(yùn)行。
網(wǎng)絡(luò)診斷可以使用多種工具,包括路由器診斷命令、網(wǎng)絡(luò)管理工具和包括局域網(wǎng)或廣域網(wǎng)分析儀在內(nèi)的其他故障診斷工具,ICMP的ping trace命令可用于診斷網(wǎng)絡(luò)的連通性,并可追蹤發(fā)生故障的位置。Cisc的show、debug命令,也是獲取故障診斷有用信息的網(wǎng)絡(luò)工具。例如使用show interface命令,可以非常容易地獲得待檢查的每個(gè)接口的信息,show buffers命令可以定期顯示緩沖區(qū)大小、用途及使用狀況。使用show processes cpu命令和show memory命令,可用于跟蹤處理器和內(nèi)存的使用情況。網(wǎng)管應(yīng)當(dāng)定期收集這些數(shù)據(jù),在故障出現(xiàn)時(shí)用于診斷參考。查看路由表顯示并輸出日志文件,也是查找和定位網(wǎng)絡(luò)故障的有效辦法。
與交換機(jī)類似,路由器的前面板也提供了許多LED指示燈,可用于進(jìn)行最直觀的故障診斷。
2.2 故障診斷步驟
當(dāng)發(fā)生路由器故障時(shí),建議采用以下步驟診斷和排除故障:
2.2.1 確定故障的具體,分析并列舉所有可能導(dǎo)致該故障的原因。例如,路由器不能正常工作,可能的原因非常多,可能是路由器文件系統(tǒng)丟失、配置文件錯(cuò)誤、模塊硬件故障、線路故障等。
2.2.2 收集所有能夠有助于隔離故障的信息,推斷最有可能的故障原因。從網(wǎng)絡(luò)管理系統(tǒng)、協(xié)議分析跟蹤、路由器診斷命令的輸出信息、路由器日志記錄,以及廠商技術(shù)文檔等資料中收集相關(guān)信息,并由此推斷出可能的故障原因。
2.2.3 制定診斷計(jì)劃,從最可能的原因開(kāi)始查起,從最可能導(dǎo)致故障的原因開(kāi)始,借助各種診斷工具和診斷方法,逐一排除可能的故障原因,并最后定位故障。
2.2.4 采取相應(yīng)的措施,排除路由器故障。根據(jù)導(dǎo)致故障原因的不同,采用更換路由器硬件、修改配置文件、更新系統(tǒng)映像、恢復(fù)物理鏈路等方式,徹底排除故障。
2.2.5 做好故障診斷排除記錄。將故障現(xiàn)象描述、故障診斷和排除過(guò)程詳細(xì)記錄下來(lái),并對(duì)故障作出點(diǎn)評(píng),分析避免可能導(dǎo)致該故障的措施和手段,以備日后查閱。
診斷網(wǎng)絡(luò)故障的過(guò)程應(yīng)該沿著OSI七層模型從物理層開(kāi)始向上進(jìn)行。首先檢查物理層(如硬件、端口和線路),然后檢查鏈路層(如接口屬性配置),再次檢查網(wǎng)絡(luò)層(如接口IP地址信息設(shè)置、路由協(xié)議設(shè)置等),以此類推,設(shè)法確定通信失敗故障點(diǎn),直接通信恢復(fù)正常為止。
物理層的故障主要表現(xiàn)為:設(shè)備的物理連接方式錯(cuò)誤;連接電纜故障;Modem、CSU/DSU等設(shè)備的配置及操作錯(cuò)誤。
確定路由器端口物理連接是否完好的最佳方法是使用show interface命令,檢查每個(gè)端口的狀態(tài),解釋屏幕輸出信息,查看端口狀態(tài),協(xié)議建立狀態(tài)和EIA狀態(tài)。
查找和排除數(shù)據(jù)鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數(shù)據(jù)鏈路的封裝情況。每對(duì)接口要和與其通信的其他設(shè)備有相同的封裝。通過(guò)查看路由器的配置檢查其封裝,或者使用show命令查看接口封裝情況。
排除網(wǎng)絡(luò)層故障的基本方法是:沿著從源到目標(biāo)的路徑,查看路由器路由表,同時(shí)檢查路由器接口的IP地址。如果路由沒(méi)有在路由表中出現(xiàn),應(yīng)該通過(guò)檢查來(lái)確定是否已經(jīng)輸入適當(dāng)?shù)撵o態(tài)路由、默認(rèn)路由或動(dòng)態(tài)路由。然后手工配置一些丟失的路由,或者排除一些動(dòng)態(tài)路由選擇過(guò)程的故障,包括RIP或IGRP路由協(xié)議出現(xiàn)的故障。例如,對(duì)于IGRP路由,選擇信息只在同一自治系統(tǒng)號(hào)(AS)的系統(tǒng)之間交換數(shù)據(jù),查看路由器配置的自治系統(tǒng)號(hào)的匹配情況。
TP368
A
1003-5168(2014)04-0001-03