王海飛
海軍指揮自動化工作站 北京 100841
隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展及逐步成熟,計算機(jī)網(wǎng)絡(luò)的規(guī)模和覆蓋范圍快速擴(kuò)大,及其應(yīng)用業(yè)務(wù)領(lǐng)域也不斷快速拓寬,人們在日常生活工作中對網(wǎng)絡(luò)的依賴也越來越大,網(wǎng)絡(luò)故障也隨之越來越多,給人們造成了難以預(yù)知的損失和不利影響。因此,為確保計算機(jī)網(wǎng)絡(luò)運(yùn)行的暢通、高效和穩(wěn)定,就必須要能在盡早時間內(nèi)捕捉到網(wǎng)絡(luò)故障點(diǎn),并快捷有效及時對故障進(jìn)行診斷及排除,將網(wǎng)絡(luò)故障損害和不利影響控制減少到最低。
網(wǎng)絡(luò)的故障類型有硬件故障和軟件故障兩種。硬件故障是指網(wǎng)絡(luò)線路或網(wǎng)絡(luò)設(shè)備出現(xiàn)的硬件類故障,常見硬件故障主要有網(wǎng)絡(luò)連接線故障(線纜或接頭問題)、網(wǎng)卡故障(網(wǎng)卡未正確安裝或接口問題)、交換機(jī)和路由器故障(電源、板卡或接口問題)、UPS電源故障以及其它硬件故障。軟件故障是指網(wǎng)絡(luò)系統(tǒng)的各類參數(shù)設(shè)置不正確、網(wǎng)絡(luò)設(shè)備的各種參數(shù)配置不當(dāng)及其他軟件原因而導(dǎo)致的網(wǎng)絡(luò)運(yùn)行異?;蚬收习l(fā)生,常見軟件故障主要有網(wǎng)卡的驅(qū)動程序未正確安裝、網(wǎng)絡(luò)協(xié)議配置錯誤、相關(guān)的網(wǎng)絡(luò)服務(wù)未開啟、重要進(jìn)程和端口的關(guān)閉、網(wǎng)絡(luò)數(shù)據(jù)流量大而導(dǎo)致的網(wǎng)絡(luò)擁塞、重要網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器和防火墻)參數(shù)配置錯誤以及其它軟件故障。
網(wǎng)絡(luò)故障診斷及排除是要以具有一定的計算機(jī)網(wǎng)絡(luò)相關(guān)知識為基礎(chǔ),從故障現(xiàn)象入手,使用各種網(wǎng)絡(luò)診斷工具,獲取故障診斷信息,分析并確定網(wǎng)絡(luò)故障的發(fā)生點(diǎn),深入查找故障問題根源,及時正確排除故障,使網(wǎng)絡(luò)恢復(fù)正常運(yùn)行。網(wǎng)絡(luò)故障診斷及排除的原則可歸納為三個方面:一是從遠(yuǎn)端到近端,即:網(wǎng)絡(luò)客戶端或其它網(wǎng)絡(luò)設(shè)備出現(xiàn)故障問題后,首先要確定排除是否是本端網(wǎng)絡(luò)機(jī)房以外網(wǎng)絡(luò)設(shè)備問題,再查找本端網(wǎng)絡(luò)機(jī)房設(shè)備問題,最后查找客戶端設(shè)備問題;二是從外部到內(nèi)部,即:網(wǎng)絡(luò)客戶端或其它網(wǎng)絡(luò)設(shè)備出現(xiàn)故障問題后,要先檢查其外部直接相連的并可看到的設(shè)備問題情況,再查找客戶端設(shè)備或其它網(wǎng)絡(luò)設(shè)備的內(nèi)部問題;三是從軟件到硬件,即:網(wǎng)絡(luò)客戶端或其它網(wǎng)絡(luò)設(shè)備出現(xiàn)故障問題后,要先從操作系統(tǒng)、網(wǎng)絡(luò)協(xié)議、網(wǎng)卡驅(qū)動程序及相關(guān)系統(tǒng)參數(shù)配置等方面查找原因,確定排除軟件方面問題后再檢查硬件方面的問題。
網(wǎng)絡(luò)故障診斷及排除的一般思路如圖1所示,可總結(jié)歸納為問詢識別并詳實(shí)記錄故障現(xiàn)象、分析列舉可能故障原因并制定相應(yīng)排除方案、進(jìn)行故障排除及故障排除過程記錄歸檔四個步驟。
圖1 網(wǎng)絡(luò)故障診斷及排除思路圖
故障出現(xiàn)之后,及時識別清楚故障現(xiàn)象是十分重要的,它是排除故障的重要前提,要認(rèn)真細(xì)致的做好相關(guān)故障問題情況的問詢工作(例如:在故障發(fā)生前,工作人員做了哪些操作,設(shè)備上正在運(yùn)行哪些程序,在什么操作后出現(xiàn)了不正常變化,等等),并做好詳實(shí)記錄;另外,要根據(jù)問詢情況上機(jī)進(jìn)行實(shí)際操作,并與系統(tǒng)正常運(yùn)行情況進(jìn)行比對,注意觀察有關(guān)細(xì)節(jié)變化,查看系統(tǒng)日志記錄,并注意錯誤信息提示,對收集到的所有問題和故障現(xiàn)象信息也要做好詳實(shí)記錄。
根據(jù)收集到的所有網(wǎng)絡(luò)問題和故障信息,進(jìn)行充分消化吸收,要真正弄清楚故障癥狀現(xiàn)象,對可能造成導(dǎo)致故障原因的軟件和硬件問題,進(jìn)行深入細(xì)致的分析與研究,并以網(wǎng)絡(luò)故障診斷及排除原則為依據(jù),分別列舉可能的不同故障原因,并制定相應(yīng)的診斷及排除實(shí)施方案。
根據(jù)分析列舉可能故障原因的診斷及排除方案,嚴(yán)格進(jìn)行實(shí)施操作,并認(rèn)真做好每一步的測試工作,進(jìn)行網(wǎng)絡(luò)運(yùn)行狀態(tài)及網(wǎng)絡(luò)設(shè)備狀態(tài)的仔細(xì)觀察,做好各項(xiàng)記錄工作,對每一步的測試工作都要有明確的實(shí)際結(jié)果,確定故障問題是否已排除,如果還未排除,則要繼續(xù)查找判斷可能的故障原因,并制定相應(yīng)的診斷及排除方案,再進(jìn)行故障排除,直到網(wǎng)絡(luò)故障的徹底解決。
在網(wǎng)絡(luò)故障排除之后,要對故障產(chǎn)生的原因、診斷及排除過程進(jìn)行總結(jié),并記錄于值勤維護(hù)管理日志內(nèi)或故障診斷排除專用文本上,這樣不僅可對網(wǎng)絡(luò)故障的處理有據(jù)可查,而且還可保存下來作為寶貴的參考資料,為以后的故障診斷及排除工作提供良好的方法借鑒。
網(wǎng)絡(luò)故障診斷及排除基本方法包括分層法、分段法及替換法三種。其中,分層法和分段法,運(yùn)用各類硬件、軟件診斷工具較多,診斷層次清晰,判斷確定故障點(diǎn)較快,有利于網(wǎng)絡(luò)故障的迅速排除處理,而替換法運(yùn)用診斷工具較少,容易實(shí)施操作,適用于簡單的網(wǎng)絡(luò)問題排除,對于復(fù)雜的網(wǎng)絡(luò)問題將會很困難,可作為分層法和分段法的有效補(bǔ)充。
分層法是指根據(jù)OSI七層結(jié)構(gòu)模型的定義和功能,從故障的實(shí)際癥狀現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,如圖2所示,自下而上從物理層開始,依次對數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、會話層、表示層、應(yīng)用層進(jìn)行分析和排查。由于網(wǎng)絡(luò)七層相對獨(dú)立,分層法排查可有效地發(fā)現(xiàn)和隔離故障。OSI的1至4層主要負(fù)責(zé)數(shù)據(jù)傳輸,可通過排查處理相關(guān)數(shù)據(jù)傳輸問題,其中,物理層負(fù)責(zé)介質(zhì)的連接,要重點(diǎn)關(guān)注網(wǎng)絡(luò)纜線是否良好、線纜連接頭是否良好、電氣性能是否良好及傳輸模式設(shè)置是否正確;數(shù)據(jù)鏈路層負(fù)責(zé)處理數(shù)據(jù)封裝問題和通路建立、維持和釋放管理,要重點(diǎn)關(guān)注交換機(jī)及路由器端口狀態(tài),查看協(xié)議是否正常,或查看端口等利用率情況作為參考;網(wǎng)絡(luò)層負(fù)責(zé)分段打包、重組及差錯報告,要重點(diǎn)關(guān)注網(wǎng)絡(luò)設(shè)備IP地址和子網(wǎng)掩碼設(shè)置是否正確、網(wǎng)絡(luò)設(shè)備接口IP地址的設(shè)置是否正確、路由協(xié)議配置是否正確及路由表情況檢查。OSI的5至7層屬于高層,最接近網(wǎng)絡(luò)終端用戶,主要提供負(fù)責(zé)支撐各種程序應(yīng)用,可通過排查處理相關(guān)程序應(yīng)用問題,多注意系統(tǒng)軟件和應(yīng)用軟件的實(shí)際操作使用,重點(diǎn)關(guān)注網(wǎng)絡(luò)終端設(shè)備軟、硬件運(yùn)行是否良好,網(wǎng)絡(luò)終端的高層協(xié)議是否正常。
圖2 分層法診斷步驟圖
分段法是指在同一網(wǎng)絡(luò)分層上,把故障分成幾個段落,再逐一排查,可縮小網(wǎng)絡(luò)故障涉及的設(shè)備和線路,以便更快地判定故障點(diǎn),然后逐級恢復(fù)原有網(wǎng)絡(luò)。在物理上或邏輯上,分段檢查包括網(wǎng)絡(luò)用戶端、網(wǎng)絡(luò)接入設(shè)備、網(wǎng)絡(luò)主干設(shè)備、網(wǎng)絡(luò)中繼設(shè)備等之間的鏈路連通及相應(yīng)端口的狀態(tài),其中,鏈路連通主要是指物理線路的介質(zhì)類型、物理線路的連通、物理線路的性能(包括線路的距離、衰耗、終端設(shè)備的電氣特性等)、物理線路的最大數(shù)據(jù)承載能力及收發(fā)線路的對應(yīng)等,相應(yīng)端口的狀態(tài)主要是指兩端設(shè)備對應(yīng)的端口類型(包括傳輸速率的匹配、傳輸模式的設(shè)置、收/發(fā)時鐘的時鐘源)的統(tǒng)一、數(shù)據(jù)收或發(fā)的線路接通、數(shù)據(jù)流控制及擁塞控制等。分段法故障診斷步驟如圖3所示,可從甲端的數(shù)據(jù)終端設(shè)備到網(wǎng)絡(luò)接入設(shè)備,再到網(wǎng)絡(luò)主干設(shè)備,再到網(wǎng)絡(luò)中繼設(shè)備,再到網(wǎng)絡(luò)主干設(shè)備,再到網(wǎng)絡(luò)接入設(shè)備,最后到乙端的數(shù)據(jù)終端設(shè)備的順序,依次分段進(jìn)行診斷分析故障問題。
圖3 分段法診斷步驟圖
替換法是指使用確認(rèn)能正常運(yùn)行的網(wǎng)絡(luò)設(shè)備部件,替代被懷疑有故障可能的網(wǎng)絡(luò)設(shè)備部件,觀察網(wǎng)絡(luò)運(yùn)行狀況,直到故障問題得到排除。替換法適用于解決單個或少數(shù)站點(diǎn)的網(wǎng)絡(luò)故障出現(xiàn)時,優(yōu)點(diǎn)是在沒有網(wǎng)絡(luò)診斷工具情況下,仍然可以解決網(wǎng)絡(luò)故障,缺點(diǎn)是要有足夠充裕的可替換設(shè)備,且排除網(wǎng)絡(luò)故障所耗費(fèi)時間較長,甚至有時不能很好的將網(wǎng)絡(luò)故障排除,即使排除問題后,對網(wǎng)絡(luò)故障發(fā)生的根本原因也不能真正查明認(rèn)知,只能了解熟悉故障癥狀的表面現(xiàn)象,對將來網(wǎng)絡(luò)故障的排除不能提供很多有效經(jīng)驗(yàn)的借鑒。
為確實(shí)保證在網(wǎng)絡(luò)出現(xiàn)故障時能及時診斷排除,以最快速度恢復(fù)網(wǎng)絡(luò)正常運(yùn)行,有力保障網(wǎng)絡(luò)的可靠性和高效性,要注意以下五個方面的問題:
一是要建立全面完整的計算機(jī)網(wǎng)絡(luò)維護(hù)管理文檔資料(包括機(jī)房管理維護(hù)規(guī)定、網(wǎng)絡(luò)值勤管理維護(hù)規(guī)定、網(wǎng)絡(luò)故障應(yīng)急處置預(yù)案、網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)圖、網(wǎng)絡(luò)設(shè)備分布情況及使用說明資料、網(wǎng)絡(luò)的IP地址分配及其它相關(guān)資料),可作為日常網(wǎng)絡(luò)維護(hù)管理和訓(xùn)練學(xué)習(xí)的瀏覽或查詢。
二是要緊密關(guān)注網(wǎng)絡(luò)維護(hù)管理新理論新技術(shù)的國內(nèi)外發(fā)展動態(tài),不斷加強(qiáng)相關(guān)網(wǎng)絡(luò)應(yīng)用理論知識的學(xué)習(xí),積極探索實(shí)踐,不斷提高動手能力,熟練掌握相關(guān)網(wǎng)絡(luò)維護(hù)管理軟件的使用。
三是要加強(qiáng)日常網(wǎng)絡(luò)的維護(hù)管理工作力度,嚴(yán)格執(zhí)行各項(xiàng)值勤維護(hù)管理規(guī)定,明晰管理職責(zé),清楚任務(wù)內(nèi)容,勤檢查勤維護(hù),實(shí)時監(jiān)控系統(tǒng)運(yùn)轉(zhuǎn)情況,及時發(fā)現(xiàn)網(wǎng)絡(luò)故障征兆并適時處理。
四是要加強(qiáng)網(wǎng)絡(luò)的安全管理工作,配置管理好系統(tǒng)防火墻、入侵檢測軟件系統(tǒng)、網(wǎng)絡(luò)安全漏洞掃描系統(tǒng)、漏洞補(bǔ)丁升級軟件系統(tǒng)及網(wǎng)絡(luò)防病毒軟件系統(tǒng)等網(wǎng)絡(luò)安全設(shè)備,防止內(nèi)外部對網(wǎng)絡(luò)的攻擊和入侵,并有效進(jìn)行病毒防治,同時要做好網(wǎng)絡(luò)系統(tǒng)的備份容災(zāi)工作。
五是要做好日常網(wǎng)絡(luò)值勤維護(hù)日志的記錄工作,記錄的格式要規(guī)范、內(nèi)容要詳實(shí)、過程描述要準(zhǔn)確,特別是對發(fā)生概率低但危害大的網(wǎng)絡(luò)故障處理過程的記錄,記錄日志可作為網(wǎng)絡(luò)值勤維護(hù)工作的可查之據(jù)和故障處理經(jīng)驗(yàn)的累積。
計算機(jī)網(wǎng)絡(luò)技術(shù)越發(fā)展越復(fù)雜,網(wǎng)絡(luò)故障的發(fā)生難以避免,網(wǎng)絡(luò)故障的及時診斷與排除越來越重要,已成為網(wǎng)絡(luò)管理中的重要工作之一,只有不斷在實(shí)際工作中勤于學(xué)習(xí)鉆研勇于探索實(shí)踐,不斷加強(qiáng)知識和經(jīng)驗(yàn)積累,才能逐步提高排除故障的技能水平,并摸索出適合本單位實(shí)際的故障診斷排除方法與實(shí)施方案。
[1]王金光,周子琨.淺談局域網(wǎng)計算機(jī)及網(wǎng)絡(luò)維護(hù)[J].甘肅科技.2008.
[2]閆立榮.如何做好網(wǎng)絡(luò)維護(hù)[J].科技信息.2009.
[3]關(guān)晶超.網(wǎng)絡(luò)安全技術(shù)探討[J].青年科學(xué).2010.