江堅
摘要:校園網(wǎng)網(wǎng)絡大、業(yè)務多、故障問題定位復雜,網(wǎng)絡的安全性差、管理難度大,一旦發(fā)生網(wǎng)絡故障,涉及面廣而且損失嚴重。校園網(wǎng)絡故障是不可避免的,關鍵是如何建立一套系統(tǒng)地處理故障的思路及流程,盡快找出故障點及其原因。該文以河源技師學院校園網(wǎng)為縮影,基于校園網(wǎng)的應用特點,指出當前校園網(wǎng)的故障類型,剖析導致故障發(fā)生的原因,研討如何快速地查找和處理網(wǎng)絡故障。
關鍵詞: 校園網(wǎng);故障類型;故障原因;快速查找
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)35-0036-03
第一代校園網(wǎng)起源于 1996 年,以10/100Mbps以太網(wǎng)技術為分布的PC提供了一個便利的連接通道,滿足PC的大規(guī)模部署給學校用戶帶來的內部聯(lián)網(wǎng)的需求,其典型特征是資源共享。從2000年開始, 1000Mbps以太網(wǎng)技術使校園網(wǎng)發(fā)展到第二代,帶寬的提高給校園網(wǎng)的建設帶了新的生機,促進了應用的發(fā)展,出現(xiàn)了多媒體教學、辦公自動化、網(wǎng)絡圖書館、流媒體下載等應用,使網(wǎng)絡成為現(xiàn)代職業(yè)教育的一個不可或缺的平臺。2006年,校園網(wǎng)進入第三代,稱之為服務型多任務校園網(wǎng),能保證多業(yè)務安全、穩(wěn)定、高速的運行,適應和滿足用戶增添的不同應用,使學校的管理者不再關注增加一個新應用是否需要重建新網(wǎng)絡。圖1是校園網(wǎng)拓撲結構參考原型。
教育的不斷進步,對校園網(wǎng)提出了更高的要求,行政管理、圖書資料管理、資源信息等局域網(wǎng)應用加大;通過與廣域網(wǎng)的互聯(lián),實現(xiàn)校際間的信息共享及與因特網(wǎng)(INTERNET)的連接。通過與寬帶數(shù)字衛(wèi)星相聯(lián),實現(xiàn)遠程教育。此外,校園網(wǎng)還要為學校的教學、管理、日常辦公、內外交流等各方面提供全面、切實的支持。使校園網(wǎng)規(guī)模的逐漸擴大、系統(tǒng)應用的不斷深入,網(wǎng)絡環(huán)境越來越復雜。
校園網(wǎng)的完善帶來了便利,隨之而來的是校園網(wǎng)的故障問題,網(wǎng)絡系統(tǒng)在運行中會經(jīng)常不斷出現(xiàn)網(wǎng)絡不通、網(wǎng)速緩慢、登錄失敗、安全漏洞、電腦病毒等故障,影響了校園網(wǎng)的正常使用,成為阻礙高校校園網(wǎng)進一步深化和發(fā)展的瓶頸。校園網(wǎng)常見故障種類如下表1所示。
2 校園網(wǎng)常見故障的快速排查
校園網(wǎng)覆蓋范圍大、拓撲結構復雜,其故障率一直居高不下。高校日常教學和事務越來越依賴校園網(wǎng),一旦網(wǎng)絡發(fā)生故障又不能快速修復,其損失嚴重甚至是災難性的。如何快速查找故障對網(wǎng)絡管理員來說是個挑戰(zhàn),除了對網(wǎng)絡及其技術有著深入的理解,還必須結合一定的實戰(zhàn)經(jīng)驗,掌握一套快捷實用的故障查找及處理方法。
3 流程步驟分述
步驟一:故障判斷、范圍
1)收集故障信息,包括用戶主機的狀態(tài)、路由器的接口狀態(tài)、交換機的端口指示燈、進程命令、服務器的內存剩余值、CPU利用率、日志提示等。初步判斷故障性質以及故障表現(xiàn)特征。
2)根據(jù)故障表現(xiàn),通過最基本的檢查方法和實戰(zhàn)經(jīng)驗,判斷故障所涉及的范圍。若一個或多個子網(wǎng)的用戶訪問服務器失敗,就涉及全網(wǎng)的各結構層;若同一子網(wǎng)中不同用戶之間共享失敗,屬于單個子網(wǎng)故障;同一子網(wǎng)中只有一個用戶訪問服務器失敗,那是單用戶問題。從而判斷該故障只涉及單用戶?某個子網(wǎng)?還是全網(wǎng)?
步驟二:查找故障點
1)全網(wǎng)故障的查找步驟:
(1)檢查相關應用服務器的工作狀態(tài)(是否被攻擊或感染病毒、服務軟件系統(tǒng)是否正常)、網(wǎng)絡連接、服務設置等;
(2)檢查路由設備(三層交換機或路由器),包括端口IP地址、VLAN匹配、路由表等;
(3)檢查匯聚層交換機是否存在軟硬件故障;
(4)檢查主干傳輸鏈路(匯聚層到核心層、匯聚層到接入層)有否物理故障。若在故障查找過程中優(yōu)先使用網(wǎng)絡測試儀器和測試軟件,可大幅提高排查速度。
2)子網(wǎng)故障的查找步驟:
(1)檢查該子網(wǎng)所在的接入層交換機是否有軟硬件故障,例如端口接觸不良、配置文件丟失或被修改、VLAN設置出錯等;
(2)檢查相關用戶的節(jié)點傳輸鏈路有否物理故障;
(3)檢查故障用戶的IP參數(shù)設置,例如工作組名、網(wǎng)段號等;
(4)檢查本子網(wǎng)共享資源的設置狀況,例如權限或軟件防火墻的設置。
3)單用戶故障的查找步驟:
(1)檢查用戶主機是否有硬件故障;
(2)檢查操作系統(tǒng)是否有感染病毒或死機現(xiàn)象;
(3)確認主機系統(tǒng)正常之后檢查網(wǎng)卡的連接,包括網(wǎng)卡狀態(tài)及其IP參數(shù)設置、雙絞線和接入層交換機端口;
(4)檢查客戶端應用程序是否有問題。
步驟三:確認故障點并找出故障原因
在排查的過程中不要單憑一次的檢測或分析就急于下結論,應該通過分步排查,不斷地縮小搜索范圍,經(jīng)過反復測試和檢驗才確認,最終能夠圈定故障點。對于一些由多個故障構成的綜合型故障,必須邊排查邊處理,直到完全解決問題為止。此外,確認故障點后還要找出故障原因。例如最終排查結論是用戶計算機網(wǎng)卡故障,那么到底是網(wǎng)卡本身硬件質量問題?擴展槽接觸不良?還是無故丟失了相關的IP參數(shù)?又例如代理服務器故障,到底是主機的硬件故障還是服務軟件出錯?
步驟四:實施故障處理
故障查找完成之后,制定合理的故障排除方案。依照快速處理的原則,什么措施最快完成故障處理就用什么措施。例如網(wǎng)絡廣播風暴或計算機病毒初現(xiàn)時,首先就應該切斷相關的病患子網(wǎng)干路,防止故障進一步蔓延,而不是急于查找故障病源;處理交換機的端口問題應馬上轉接備用端口,而不是更換交換機;已查實某段線纜時通時斷,應首先考慮重接水晶頭,而并非沿線普查或更換線纜等??傊?,什么措施最快完成故障處理就用什么措施。
4 故障查找案例
我校園網(wǎng)所屬的教學管理區(qū)的拓撲簡圖如下圖3-1。當前的故障現(xiàn)象有兩個:一是A、B子網(wǎng)的用戶與日志服務器之間的FTP通信都很慢,大約只有0.6Mbps;二是將日志服務器的數(shù)據(jù)集中到B子網(wǎng)的備份服務器時,F(xiàn)TP 傳輸速度也很慢,大約只有0.8Mbps,嚴重影響了工作效率。
按上述故障查找流程,具體排查的步驟如下:
第一步:根據(jù)在現(xiàn)場收集到的有關信息,該故障性質可描述為網(wǎng)絡訪問緩慢故障。通過基本測試,發(fā)現(xiàn)B子網(wǎng)的用戶與備份服務器之間的FTP 傳輸速度約為10Mbps,屬于正常范圍;另發(fā)現(xiàn)A子網(wǎng)的客戶機因教學需要而數(shù)據(jù)量不斷在增長。以當前故障的屬性和測試結果進行分析及判斷,故障范圍涉及兩個子網(wǎng),即上述流程的全網(wǎng)區(qū)域。
第二步:①檢查備份服務器和日志服務器。鑒于B網(wǎng)段用戶訪問備份服務器的速度正常,可判斷備份服務器無問題。在非網(wǎng)絡連接狀態(tài)下,利用操作系統(tǒng)自帶的性能監(jiān)視器測試日志服務器的各項靜態(tài)指標,再檢查系統(tǒng)應用程序和職能服務項目,結論是一切正常。由此可排除服務器的影響。②檢查路由器。在A、B子網(wǎng)的兩個路由器之間直接采用tracert命令測試網(wǎng)關的響應,探測報文返回時長僅為9ms,表明路由狀態(tài)正常。③檢查匯聚層交換機。由于B子網(wǎng)內用戶與備份服務器的通信正常,可判斷B子網(wǎng)的匯聚層交換機無故障,只須檢查A子網(wǎng)的匯聚層交換機。采用OptiView網(wǎng)絡綜合協(xié)議分析儀直接測試交換機的傳輸性能,發(fā)現(xiàn)交換機輸出大量的廣播包和多播包,應該是這個故障點了,因為日志服務器需要花費大量資源來處理如此多的廣播和多播包,其傳輸速度必然減慢。
第三步:確認故障點并找出故障原因。為了證實判斷,斷開A子網(wǎng)的匯聚層交換機后,在B子網(wǎng)的客戶端訪問A子網(wǎng)的日志服務器,測得FTP 傳輸速度約為8.5Mbps,增加了10多倍,果然是網(wǎng)絡負載的影響,即A子網(wǎng)中廣播包太多了。經(jīng)了解,由于教學上的共享需求,每個用戶在交互操作中必需發(fā)送大量的廣播包和多播包,這是難以避免的客觀應用事實,不能因此而停止A子網(wǎng)的工作,只能在網(wǎng)絡配置上作適當?shù)恼{試。
第四步:實施故障處理。將日志服務器移到B子網(wǎng),用路由器隔離A子網(wǎng)的用戶群,使它與日志服務器不在同一廣播域,日志服務器就不必面對大量的廣播包和多播包,減少了服務資源的浪費,故障就較少出現(xiàn)了。
日志服務器移位之后重新測試兩個子網(wǎng)的傳輸性能,B子網(wǎng)完全正常,用戶與服務器之間、服務器與服務器之間均為10Mbps左右;但A子網(wǎng)訪問日志服務器的速度雖比原來快,卻只有1.3Mbps左右,達不到應有的標準,測試結果說明A子網(wǎng)還有未知故障。
第五步:依照故障查找流程,A子網(wǎng)還差主干傳輸鏈路尚未檢測。斷開路由器A到匯聚層交換機之間的線纜端口,采用線纜測試儀檢查該干路線纜(多模光纖)的傳輸性能,發(fā)現(xiàn)傳輸衰減系數(shù)比較大,初步分析可能傳輸介質發(fā)生故障。檢查該線路經(jīng)過的路線,發(fā)現(xiàn)在五樓暗角轉彎處,線纜彎曲度太大,致使多模光纖已斷裂了幾芯。修復之后再重新測試整段鏈路的傳輸特性,各項指標均達到要求。再測試A子網(wǎng)訪問日志服務器的速度,約為6Mbps,已滿足訪問需要。
至此,上述故障全部排除。
5 總結
如何快速診斷及處理校園網(wǎng)故障,一直困擾著不少網(wǎng)絡管理員,因為校園網(wǎng)規(guī)模大、信息點多、拓撲結構復雜和可管理性差,而且故障排查難度大,有時一種故障表現(xiàn)會由多種故障原因引起,加之人手少和缺乏排障經(jīng)驗。
傳統(tǒng)的故障查找基本上依賴實戰(zhàn)經(jīng)驗,而實戰(zhàn)經(jīng)驗需要長時間的歷練和積累,因此傳統(tǒng)的排障方法顯然跟不上飛速發(fā)展的校園網(wǎng)。本文提出的流程型快速查找校園網(wǎng)故障的方法,是基于故障的屬性判斷它發(fā)生在哪個范圍并分列不同的流程,然后再按照一定的經(jīng)驗和規(guī)律,例如先硬件后軟件、從核心層到接入層、或從網(wǎng)絡層到物理層,結合一些常用的網(wǎng)絡測試工具,分步及循環(huán)地反復排查,可以快捷地查找出校園網(wǎng)常見的故障。
參考文獻:
[1] 黎連業(yè).網(wǎng)絡綜合布線系統(tǒng)與施工技術[M].機械工業(yè)出版社,2006:158-266.
[2] 劉曉輝.網(wǎng)管從業(yè)寶典:故障排除經(jīng)典案例分冊[M].重慶大學出版社,2003:33-86.
[3] 王竹林.校園網(wǎng)組建與管理[M].清華大學出版社,2006:52-136.
[4] 譚珂,全惠民.局域網(wǎng)組建與管理實用手冊[M].中國青年出版社,2005:69-129.
[5] 許文勝.局域網(wǎng)故障排除[M].上海科學技術出版社,2002:165-191.
[6] 武程凱.中國遠程教育與校園網(wǎng)建設實務全書[M].銀聲音像出版社,2006:68-125.
[7] 符水波,童愛紅.校園網(wǎng)系統(tǒng)維護與故障診斷[M].清華大學出版社,2003:82-156.