周佳明
(寧夏寧東供電局調(diào)度通信中心 寧夏 靈武 750411)
在排除比較復(fù)雜網(wǎng)絡(luò)的故障時,我們常常要從多種角度來測試和分析故障的現(xiàn)象,準(zhǔn)確確定故障點。
1.1 七層的網(wǎng)絡(luò)結(jié)構(gòu)分析模型方法
我們知道根據(jù)ISO組織發(fā)布的OSI(Open System Internetwork)即開放通信系統(tǒng)互聯(lián)參考模型。計算機網(wǎng)絡(luò)自下而上分為物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、會話層、表示層、應(yīng)用層。從這七層結(jié)構(gòu)的定義和功能上逐一進行分析和排查,這是傳統(tǒng)的而且最基礎(chǔ)的分析和測試方法。這里有自下而上和自上而下兩種思路。自下而上是:從物理層的鏈路開始檢測直到應(yīng)用。自上而下是:從應(yīng)用協(xié)議中捕捉數(shù)據(jù)包,分析數(shù)據(jù)包統(tǒng)計和流量統(tǒng)計信息,以獲得有價值的資料。
1.2 使用工具分析
工具型分析方法有強大的各種測試工具和軟件,它們的自動分析能快速地給出網(wǎng)絡(luò)的各種參數(shù)甚至是故障的分析結(jié)果,這對解決常見網(wǎng)絡(luò)故障非常有效。這里推薦使用的是FLUCK網(wǎng)絡(luò)測試工具。但是工具畢竟是工具,在使用過程中難免會出現(xiàn)一些人為的或者設(shè)備的誤差,會在處理的過程中擾亂處理思路。
1.3 依靠經(jīng)驗分析
在大多數(shù)的網(wǎng)絡(luò)維護工作人員的工作中是在不斷的積累處理故障的經(jīng)驗。從而在新的故障發(fā)生時依靠平時積累的經(jīng)驗首先對故障做出判斷。這種方式雖然在處理一些故障時迅速而且有效,但是容易產(chǎn)生慣性思維。當(dāng)出現(xiàn)新的故障無法用經(jīng)驗解決時就顯得比較棘手。
2.1 根據(jù)上面所述,對于某一臺聯(lián)網(wǎng)計算機上不了網(wǎng)的故障,我們使用網(wǎng)絡(luò)分層分析法自下而上進行分析。首先要分別確定此計算機的網(wǎng)卡安裝是否正確,是否存在硬件故障,網(wǎng)絡(luò)配置是否正確在實際工作中我們一般采用Ping本機的回送地址(127.0.0.1)來判斷網(wǎng)卡硬件安裝和TCP/IP協(xié)議的正確性。如果能Ping通,即說明這部分沒有問題。如果出現(xiàn)超時情況,則要檢查計算機的網(wǎng)卡是否與機器上的其它設(shè)備存在中斷沖突的問題。通過查看系統(tǒng)屬性中的設(shè)備管理器,查看是否在網(wǎng)絡(luò)適配器的設(shè)備前面有黃色驚嘆號或紅色叉號,如有則說明硬件的驅(qū)動程序沒有安裝成功,可刪除后重新安裝。另外,要確保TCP/IP協(xié)議安裝的正確性,并且要綁定在你所安裝的網(wǎng)卡上。如果重新安裝后還是Ping不通回送地址,最好換上一塊正常的網(wǎng)卡試一試。
當(dāng)確保了計算機的硬件設(shè)備和網(wǎng)絡(luò)配置正確后,接著就要查看計算機與交換機之間的雙絞線,交換機的RJ45端口或交換機的配置是否有問題。此時我們要Ping上網(wǎng)計算機所在VLAN的網(wǎng)關(guān),不通的話就要分段檢查上面所說的各項。最簡單的方法是檢查雙絞線。這里我們使用設(shè)備進行分析,用線纜測試儀檢測雙絞線是否斷開。雙絞線沒有問題,就要查看交換機的端口是否壞了。交換機每一個端口都有狀態(tài)指示燈以詢問一下其它網(wǎng)管人員就可以排除了,如果不放心可以對照查看。交換機的參數(shù)配置表也是網(wǎng)絡(luò)管理員必備的資料之一,并且隨著網(wǎng)絡(luò)用戶的變化要不斷地修改,檢測到此,如果端口指示燈不亮,就只能是端口損壞了,可以把跳線接到正常使用的端口上排除其它原因,確定是端口的問題。
這里要補充的一點是,作為一名網(wǎng)絡(luò)管理員還必須清楚單位的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。這一點在處理單臺計算機的問題上似乎顯的不是很重要但是其重要性體現(xiàn)在在處理一批計算機的網(wǎng)絡(luò)故障。
2.2 一批聯(lián)網(wǎng)計算機上不了網(wǎng)對于同時有一批計算機上不了網(wǎng)的故障,首先要找到這些計算機的共性,如是不是屬于同一VLAN或接在同一交換機上的,若這些計算機屬于同一VLAN,且屬于計算機分別連接于不同的樓層交換機,那么檢查一下路由器上是否有acl限制,在路由器上對該VLAN的配置是否正確,路由協(xié)議(如我局的OSPF協(xié)議)是否配置正確。若這些計算機屬于同一交換機,則應(yīng)到機房檢查該交換機是否有電源松落情況,或該交換機CPU負(fù)載率是否很高,與上一級網(wǎng)絡(luò)設(shè)備的鏈路是否正常。通常某交換機連接的所有電腦都不能正常與網(wǎng)內(nèi)其它電腦通訊,這是典型的交換機死機現(xiàn)象,可以通過重新啟動交換機的方法解決。如果重新啟動后故障依舊,則檢查一下那臺交換機連接的所有電腦,看逐個斷開連接的每臺電腦的情況,慢慢定位到某個故障電腦,會發(fā)現(xiàn)多半是某臺電腦上的網(wǎng)卡故障導(dǎo)致的。故障通常是交換機的某個端口變得非常緩慢,最后導(dǎo)致整臺交換機或整個堆疊慢下來。通過控制臺檢查交換機的狀態(tài),發(fā)現(xiàn)交換機的緩沖池增長得非常快,達到了90%或更多。原因及解決方法為:首先應(yīng)該使用其它電腦更換這個端口上原來的連接,看是否由這個端口連接的那臺電腦的網(wǎng)絡(luò)故障導(dǎo)致的,也可以重新設(shè)置出錯的端口并重新啟動交換機,個別時候,可能是這個端口損壞了。
另外,還要注意網(wǎng)絡(luò)回路問題,所謂網(wǎng)絡(luò)回路就是網(wǎng)絡(luò)中存在環(huán),簡單點比方說兩臺交換機相連,應(yīng)該使用一條線相連,達到級聯(lián)的效果。如果使用兩條線連接,就構(gòu)成了回路。因此在回路產(chǎn)生的時候需要對交換機配置生成樹協(xié)議,不然的話信息會無終止傳輸,引起廣播風(fēng)暴.整個網(wǎng)絡(luò)癱瘓。例如剛有新機器加入網(wǎng)絡(luò)的時候,從本身接入交換機產(chǎn)生一個mac地址和端口對照表,然后該交換機將該表傳到相鄰交換機,在另一個端口會穿回來,從而又增加一個mac地址表,這樣無限制的傳輸會引起網(wǎng)絡(luò)帶寬用盡,從而癱瘓。筆者所在單位的一個工區(qū)曾經(jīng)出現(xiàn)過這樣的情況,該網(wǎng)段的所有計算機均無法正常使用網(wǎng)絡(luò),在重啟交換機后的開始一小段時間網(wǎng)絡(luò)恢復(fù),但是過一段時間故障依舊。最后經(jīng)過檢查發(fā)現(xiàn)該工區(qū)的一間辦公室內(nèi)使用一臺8口交換機,該辦公室人員由于沒有基礎(chǔ)的網(wǎng)絡(luò)知識將一根雙絞線環(huán)接在了該交換機的兩個端口上,將該雙絞線摘除問題即解決。解決方法雖然簡單但是檢查的方法需要我們研究學(xué)習(xí)。
如果判斷網(wǎng)絡(luò)中存在回路的話,你可以用抓包分析軟件對這批計算機所在的網(wǎng)絡(luò)進行抓包。注意軟件的部署位置要正確,回路問題可能導(dǎo)致廣播風(fēng)暴,查看抓包后的數(shù)據(jù)包解碼,如有大量的數(shù)據(jù)包IP標(biāo)識相同,則可能存在回路問題,因為正常情況下網(wǎng)絡(luò)中每個數(shù)據(jù)包的IP標(biāo)識符都會是不同的。
3.1 監(jiān)控系統(tǒng)分析
通過網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)獲取告警和性能信息進行故障定位。我們單位使用了深信服網(wǎng)絡(luò)網(wǎng)管,可以對全單位的網(wǎng)絡(luò)設(shè)備進行管理,平時多觀察各端口、各鏈路、以及各業(yè)的流量。當(dāng)有人反映不能連接至網(wǎng)絡(luò)或網(wǎng)速很慢時,可通過網(wǎng)管觀察計算機與交換機的連接情況,是否有時斷時通的現(xiàn)象,交換機CPU負(fù)載率是否很高,線路流量是否很大。通過觀察設(shè)備端口狀態(tài),分析和觀察交換機哪個端口所接的計算機發(fā)包量不太正常。
3.2 查看網(wǎng)絡(luò)設(shè)備日志
經(jīng)常檢查網(wǎng)絡(luò)設(shè)備的日志,分析設(shè)備狀況。我曾經(jīng)通過檢查設(shè)備日志觀察到一變電站交換機的業(yè)務(wù)VLAN在一時間 down掉,然后在另一時間又up。因該變電站計算機很少有人使用,單位人員未感覺網(wǎng)絡(luò)中斷,在此期間我們檢查并確定了設(shè)備、網(wǎng)線、交換機配置、交換機端口均正常。后來又出現(xiàn)長時間down掉,由此我們立即該光路存在有故障,后經(jīng)通信專業(yè)人員檢查,發(fā)現(xiàn)該變電站的光纖配線盒的法蘭頭出現(xiàn)接觸問題。經(jīng)過更換問題得到長久的解決,從而減少了出現(xiàn)故障的隱患,并在最短時間內(nèi)恢復(fù)網(wǎng)絡(luò)。
3.3 替換法
替換法就是使用一個工作正常的物體去替換一個工作不正常的物體,從而達到定位故障、排除故障的目的。這里的物件可以是一段線纜、一個設(shè)備和一塊模塊。這種方法的好處是可以快速的處理故障,從而減少業(yè)務(wù)中斷的時間。通常應(yīng)急處置都使用該方法。
在日常辦公環(huán)境下的網(wǎng)絡(luò)故障種類繁多且十分復(fù)雜。單一得使用一種方法在處理故障時是很難獲得快速有效的結(jié)果。將各種方法有機的結(jié)合在一起,則會使得處理故障時事半功倍。本文只是介紹了常見的幾類故障及其維護方法,為了在網(wǎng)絡(luò)出現(xiàn)故障時及時對網(wǎng)絡(luò)進行維護,以最快的速度恢復(fù)網(wǎng)絡(luò)的正常運行,在網(wǎng)絡(luò)維護中還需要注意以下幾個方面:(1)建立完整的網(wǎng)絡(luò)檔案,以供維護時查詢。如系統(tǒng)需求分析報告、網(wǎng)絡(luò)設(shè)計總體思路和方案、網(wǎng)路拓?fù)浣Y(jié)構(gòu)圖、規(guī)劃圖、網(wǎng)絡(luò)設(shè)備和網(wǎng)線的選擇、網(wǎng)絡(luò)的布線、網(wǎng)絡(luò)的IP分配,網(wǎng)絡(luò)設(shè)備分布等等;(2)做好網(wǎng)絡(luò)維護日志的良好習(xí)慣,尤其是有一些發(fā)生概率低但危害大的故障和一些概率高的故障,對每臺機器都要作完備的維護文檔,以有利于以后故障的排查。這也是一種經(jīng)驗的積累;(3)提高網(wǎng)絡(luò)安全防范意識,提高口令的可靠性,并為主機加裝最新的操作系統(tǒng)的補丁程序和防火墻、防黑客程序等來防止可能出現(xiàn)的漏洞;(4)增強日常巡檢機制,對重要設(shè)備做到實時監(jiān)控,對非重要設(shè)備做出現(xiàn)問題能夠馬上獲知;(4)再好的技術(shù)手段也會存在漏洞,因此完備的行政管理措施在避免出現(xiàn)人為故障時顯的尤為重要。