■ 何春江
珠海大橫琴科技發(fā)展有限公司 廣東珠海 519000
通常我們把網(wǎng)絡(luò)故障按其性質(zhì)、對(duì)象或出現(xiàn)的區(qū)域等進(jìn)行網(wǎng)絡(luò)故障分類。
按網(wǎng)絡(luò)故障的性質(zhì)來分,網(wǎng)絡(luò)故障可分為物理故障與邏輯故障。物理故障也就是指設(shè)備或線路損壞、插頭松動(dòng)、線路受到嚴(yán)重的直接電磁干擾等情況,或者是人為的疏忽導(dǎo)致網(wǎng)絡(luò)連接錯(cuò)誤等硬件故障現(xiàn)象。時(shí)斷時(shí)續(xù)或網(wǎng)絡(luò)完全斷開都是此類故障所引起的故障表現(xiàn)。邏輯故障也就是軟件安裝或配置錯(cuò)誤引起的網(wǎng)絡(luò)異常或故障,通常此類故障相對(duì)硬件故障來說要復(fù)雜很多。網(wǎng)卡驅(qū)動(dòng)問題、網(wǎng)絡(luò)協(xié)議問題、IP地址沖突問題都是軟件故障的主要問題,而無法瀏覽網(wǎng)頁、時(shí)斷時(shí)續(xù)、網(wǎng)速緩慢等也就是軟件故障的主要表現(xiàn)。
按網(wǎng)絡(luò)故障的不同對(duì)象來分。網(wǎng)絡(luò)故障可分為線路故障、路由器故障、主機(jī)故障。線路不通、路由器配置錯(cuò)誤都是線路故障的主要表現(xiàn)。而路由器通常也會(huì)影響到線路故障,所以有一些線路故障也可以被歸結(jié)為路由器故障。路由器硬件故障(CPU中央處理器溫度過高或者內(nèi)存容量太小)、配置錯(cuò)誤等都是路由器故障的常見表現(xiàn)。主機(jī)的配置不當(dāng)常常會(huì)引起主機(jī)故障的出現(xiàn),如主機(jī)配置的IP地址與其他主機(jī)沖突,或lP地址不在子網(wǎng)范圍內(nèi)等都是主機(jī)故障的常見表現(xiàn)。另一故障就是安全故障,主要表現(xiàn)為如在啟動(dòng)了多余的服務(wù)情況下攻擊者通過這些多余進(jìn)程的正常服務(wù)或bug對(duì)該主機(jī)進(jìn)行攻擊。
網(wǎng)絡(luò)故障原因千變?nèi)f化,卻萬變不離其宗,基本上就是硬件問題和軟件問題,或者更準(zhǔn)確地說就是配置文件選項(xiàng)問題、網(wǎng)絡(luò)連接性問題以及網(wǎng)絡(luò)協(xié)議問題,但是具體問題的定位是難點(diǎn),下面我們將講述如何使用十字交叉法定位網(wǎng)絡(luò)故障問題。
十字交叉法即從鏈路和協(xié)議兩個(gè)方面去定位網(wǎng)絡(luò)故障點(diǎn),先從鏈路層大體定位問題所在,再從協(xié)議方面分析具體故障點(diǎn),即鏈路軸和協(xié)議軸的交叉點(diǎn)就是網(wǎng)絡(luò)故障所在。
鏈路軸的故障診斷是要大體上定位故障所在位置,即排除互聯(lián)網(wǎng)鏈路導(dǎo)致的網(wǎng)絡(luò)故障,大體定位故障所在區(qū)域。下面以舉例的方式進(jìn)行說明:
有一公司,總部在D處,有A、B和C三個(gè)分公司,某一天B在訪問公司D時(shí)出現(xiàn)緩慢現(xiàn)象,我們?cè)谔幚泶藛栴}時(shí)按照鏈路軸的診斷思想就是先考察A和C訪問D時(shí)是否存在緩慢問題,如A和D沒有出現(xiàn)訪問緩慢情況,則可排除D處的網(wǎng)絡(luò)服務(wù)問題,問題很大原因可能是B自身的原因?qū)е?。如下圖所示。
在確定了故障的大致位置后,需要對(duì)故障進(jìn)行具體定位,此時(shí)故障定位應(yīng)分為物理層故障診斷、流量與協(xié)議分析診斷和網(wǎng)絡(luò)設(shè)備搜尋與定位診斷三個(gè)部分。物理層故障診斷即確定物理層中物理設(shè)備相互連接失敗或者硬件及線路本身的問題;流量與協(xié)議分析診斷是確定數(shù)據(jù)鏈路層的網(wǎng)絡(luò)設(shè)備的接口配置問題,網(wǎng)絡(luò)層網(wǎng)絡(luò)協(xié)議配置或操作錯(cuò)誤,傳輸層的設(shè)備性能或通信擁塞問題,上三層或網(wǎng)絡(luò)應(yīng)用程序錯(cuò)誤;網(wǎng)絡(luò)設(shè)備搜尋與定位則是根據(jù)流量和協(xié)議分析結(jié)果確定具體故障點(diǎn)。下面以舉例的方式進(jìn)行說明:
某天上班時(shí)間,某公司網(wǎng)管接到投訴說上網(wǎng)和發(fā)郵件很慢,并且時(shí)斷時(shí)續(xù)。經(jīng)查證內(nèi)網(wǎng)間訪問一切正常,但在訪問外網(wǎng)時(shí)連接不穩(wěn)定甚至中斷,并且此故障存在于全網(wǎng)范圍內(nèi)。
此次故障只是針對(duì)訪問外網(wǎng),而在內(nèi)網(wǎng)一切正常。那么首先要排除是否為路由器故障。查看路由器工作的指示燈一切正常,登陸路由器查看WAN口流量也不大,不存在與外網(wǎng)連接鏈路帶寬被占用情況,更換路由器與交換機(jī)的連接線后故障依然存在,將路由器重啟,故障依舊,排除路由器的原因,同時(shí)確定不存在物理層故障診斷。
采用ES網(wǎng)絡(luò)通,在交換機(jī)上隨便找個(gè)接口連接到了網(wǎng)絡(luò)中,發(fā)現(xiàn)本地帶寬和廣播占用情況正常。
通過查看本地帶寬和帶寬占用情況得知網(wǎng)絡(luò)中沒有出現(xiàn)廣播風(fēng)暴,從查看的結(jié)果來看,各種數(shù)據(jù)包的占用情況屬于正常。接下來查看各協(xié)議的分布情況。
通過協(xié)議分布結(jié)果中看到ARP包的百分比占用率84.5%,這對(duì)于一個(gè)正常的網(wǎng)絡(luò)來說顯得有些過高,在詳細(xì)查看中發(fā)現(xiàn)設(shè)備QINHAON的發(fā)包量是其他設(shè)備的幾千倍,由此可以大致判斷設(shè)備QINHAON存在問題,很有可能是中了ARP病毒!
下面將通過協(xié)議分析工具,進(jìn)行捕獲數(shù)據(jù)包并進(jìn)行解包分析以驗(yàn)證判斷。
通過捕獲數(shù)據(jù)包發(fā)現(xiàn)ARP包均是從網(wǎng)關(guān)發(fā)來的應(yīng)答包,對(duì)捕獲的數(shù)據(jù)包進(jìn)行解包后,記錄數(shù)據(jù)包的IP地址和MAC地址,然后利用ES-LAN查找此IP地址對(duì)應(yīng)的主機(jī),發(fā)現(xiàn)IP地址和MAC并不是數(shù)據(jù)包解包后的IP地址,因此判斷出故障的原因是因?yàn)橛信_(tái)設(shè)備中了ARP病毒,在全網(wǎng)中發(fā)送ARP欺騙數(shù)據(jù)包,從而導(dǎo)致其他的設(shè)備無法找到網(wǎng)關(guān)路由器,也就無法訪問外網(wǎng)。此時(shí)已通過流量與協(xié)議分析診斷確定出了故障原因。
最后使用ES-LAN便攜式分析儀,定位故障設(shè)備的位置。定位到該中毒設(shè)備的交換機(jī)位置后,只需要斷開此設(shè)備進(jìn)行病毒查殺即可,此時(shí)就完成了網(wǎng)絡(luò)設(shè)備搜尋與定位診斷。
網(wǎng)絡(luò)發(fā)生故障是不可避免的。網(wǎng)絡(luò)建成運(yùn)行后,網(wǎng)絡(luò)故障診斷非常重要。本文闡述了在網(wǎng)絡(luò)發(fā)生故障時(shí),如何根據(jù)十字交叉法,從宏觀鏈路到微觀協(xié)議逐步確定故障點(diǎn),最終排除故障。需要注意的是,如果想順利地實(shí)施十字交叉法,那么建立規(guī)范的運(yùn)行有序的網(wǎng)絡(luò)系統(tǒng)是前提。如果網(wǎng)絡(luò)管理不規(guī)范,拓?fù)浠靵y,將會(huì)給十字交叉法的實(shí)施帶來很大的阻力,從而影響網(wǎng)絡(luò)故障定位的效率。