■山東 張紅 何鈺
網(wǎng)絡故障的出現(xiàn)往往是廣大網(wǎng)絡運維人員最不愿意看到的,但是網(wǎng)絡運營不會是一帆風順的,那么怎么樣才能保證網(wǎng)絡的一帆風順呢?
只有在網(wǎng)絡建設中做到規(guī)范和有序,熟練的網(wǎng)絡故障排查技能是必不可少的。筆者從事網(wǎng)絡數(shù)據(jù)運維10余年,本文將從自己的角度談下自己在處理網(wǎng)絡故障的心得。
通過多年網(wǎng)絡故障出現(xiàn)的情況來看,大都是組網(wǎng)或網(wǎng)絡使用不規(guī)范造成的。一個穩(wěn)定可靠的網(wǎng)絡需要合理的前期規(guī)劃,決不能腦袋一熱隨意買來設備組網(wǎng)使用。首先組網(wǎng)時要摸清網(wǎng)絡的需求,特別是要考慮到后期網(wǎng)絡的升級或擴展性。
舉個例子,一個網(wǎng)站設計維護的公司大概二三十人,租用我們的寬帶出口。公司負責人考慮問題就很簡單,只要把寬帶出口引進來,然后隨意買幾個家用路由器就可以上網(wǎng)了。
但這樣時間一久就會出現(xiàn)問題,因為沒有前期規(guī)劃,接入寬帶出口的ONU 設備隨意放置,路由器級聯(lián)串接,隨著天氣溫度的升高和網(wǎng)絡需求的增大,經(jīng)常出現(xiàn)上不網(wǎng)的情況發(fā)生。這就是一個隨意組網(wǎng)的典型案例。
這也是很多較小網(wǎng)絡通用的做法。這就和上面講到的“規(guī)范”二字相悖,規(guī)范的做法是將網(wǎng)絡設備集中統(tǒng)一放到機柜中,將諸如ONU 設備、交換機、路由器合理的放置在一起,保證設備運行的正常散熱。其次在設備選擇上還要根據(jù)上網(wǎng)的需求合理購置。
比如上面舉得例子,大概有二三十人上網(wǎng)辦公,那就要根據(jù)房間的布局合理選擇企業(yè)級路由器。
網(wǎng)絡故障除了沒有做到規(guī)范外,也有一部分是沒有良好的網(wǎng)絡預見造成的,也就是說一個合格的運維人員要有較好的網(wǎng)絡前瞻性,從而避免網(wǎng)絡故障的出現(xiàn)。
這一點可以從設備的及時巡檢和設備的備份上說起。設備的巡檢可以從表面上看是不是有異常告警聲音,紅色警示燈是否常亮,要做到定時定期專人巡檢,從而保證及時發(fā)現(xiàn)設備故障,及時處理。設備的巡檢同樣可以通過專業(yè)設備網(wǎng)管或通用設備網(wǎng)管進行及時查看,這樣也能將一些異常告警信息及時處理。
這里對設備的異常告警信息需要著重強調(diào)下,想要在網(wǎng)絡故障處理方面上升一個層次的話,需要會看,能看懂,能處理設備的異常告警信息,這是一個能力不斷遞增、向上進步的階段,有時候異常告警信息能夠幫助我們快速定位網(wǎng)絡故障,從而將故障迅速排除。
其次網(wǎng)絡設備是需要備份的,通常在核心網(wǎng)絡中設備是熱備的,但是如果滿足不了熱備條件可以選擇冷備。
上面我們著重從如何預防網(wǎng)絡故障談起的。接下來談網(wǎng)絡故障真的出現(xiàn)時,我們該怎么辦?
在談這個問題前,需要提前做好三個功課,第一,熟悉網(wǎng)絡組網(wǎng)情況;第二,熟讀設備說明書特別是設備配置說明書;第三,要做好細節(jié)工作,同時還要有繪制網(wǎng)絡拓撲圖的習慣。
做好上面三項功課后,可以說你對網(wǎng)絡已經(jīng)了然于胸了,下面要做的就是根據(jù)網(wǎng)絡出現(xiàn)的故障,如何處理呢?
首先要根據(jù)網(wǎng)絡影響的面積,在簡單了解故障現(xiàn)象后,自己要有主見,主見就是自己測試,看下網(wǎng)絡故障出現(xiàn)在核心層,匯聚層,還是接入層。那怎么判斷呢?這就需要ping 或者trace 命令,故障的處理前提是要確定出現(xiàn)故障的環(huán)節(jié),這是最關(guān)鍵的。有些運維人員處理故障半天都找不到故障點,這說明處理故障的思路和方向是不對的。
其次找到故障點后,迅速判斷是設備配置有誤還是設備硬件的問題。這里就需要用到我們上面談到的巡檢和設備告警信息的查看。
舉個例子,環(huán)路故障經(jīng)常困擾大家,但是現(xiàn)在市面上的很多交換機都支持loopback 檢測功能,我們只要將將設備的這個功能打開就可以。打開后不但可以將故障端口阻塞或者關(guān)閉,還可以通過查看告警信息迅速定位。
同樣,如果是硬件故障,就用上我們上面講到的設備的備份(冷備或熱備)。當然,如果設備是熱備那就不用操作,網(wǎng)絡就會自動切換過來,如果是冷備的話,直接更換設備就可以了。
再次就是網(wǎng)絡出現(xiàn)故障后,總結(jié)很重要,故障總結(jié)的同時也是自我提升的一個過程,自己的網(wǎng)絡故障能力也隨著不斷總結(jié)中潛移默化中得到提高。這里的總結(jié)是落實在紙面上,不要怕麻煩,只要做到事事有總結(jié),經(jīng)驗就會做到不斷積累。處理故障的能力就會不斷增強。
最后要和大家說的就是一個處理故障的心理素質(zhì),這個尤其重要,簡單的說出現(xiàn)故障后自己要做到心懷不亂,鎮(zhèn)定自若。這個素質(zhì)需要不斷的鍛煉,不斷的養(yǎng)成。
以上從兩個大的方面講了如何在組網(wǎng)規(guī)范和網(wǎng)絡預見性上降低網(wǎng)絡故障出現(xiàn)的頻次,接著又從解決網(wǎng)絡故障需要提前做好三個功課,最后又從四個方面談了故障出現(xiàn)后處理的步驟。
故障的出現(xiàn)是在所難免的,那么我們可以從預防故障的出現(xiàn),以及及時處理網(wǎng)絡故障兩個方面入手,將網(wǎng)絡運營好,在網(wǎng)絡故障迅速處理上做好工作。
大家所在的單位或部門網(wǎng)絡不盡相同,或者相差很大,網(wǎng)絡管理員的職責也不盡相同,但是網(wǎng)絡故障的處理思路是大致相同的,那就是要用心去經(jīng)營網(wǎng)絡,才能將將網(wǎng)絡最大限度的維護好,運營好。同時也希望以上心得能夠幫助到工作中的讀者。