路由是指路由器從一個接口上收到數(shù)據(jù)包,根據(jù)數(shù)據(jù)路由包的目的地址進行定向,并轉(zhuǎn)發(fā)到另一個接口的過程。路由器在查看路由表時會遵循最長匹配的原則,即掩碼最長的那條路由。筆者單位的某專線業(yè)務(wù)出現(xiàn)故障,具體的故障現(xiàn)象是終端采集器IP地址可以Ping通,但是數(shù)據(jù)采集不上來,經(jīng)過對網(wǎng)路拓?fù)浣Y(jié)構(gòu)的分析,使用ping、tracert、show等命令將故障定位在了路由的匹配上。經(jīng)過對靜態(tài)路由子網(wǎng)掩碼的修改,完成了對故障的排除。
圖1 電力遠(yuǎn)程抄表的組網(wǎng)拓?fù)?/p>
近日,有同事反映國家電網(wǎng)的電力抄表業(yè)務(wù)出現(xiàn)大面積故障,得知這一信息后。我們立即著手開始排查。
首先通過監(jiān)控大屏,對電力抄表的網(wǎng)管模塊進行查看,并沒有發(fā)現(xiàn)異常。該專線網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。
從圖1可以看到,位于末端的信息采集器設(shè)備,通過我們的EPON網(wǎng)絡(luò)將數(shù)據(jù)傳輸至電業(yè)局核心交換機,在電業(yè)局和我方基站機房之間部署了互聯(lián)路由器,該路由器主要用于路由的轉(zhuǎn)發(fā),并在網(wǎng)絡(luò)中起到一定的安全防范作用。
上面我們講到在監(jiān)控大屏上對電力抄表的整個網(wǎng)絡(luò)進行了梳理并沒有發(fā)現(xiàn)異常,根據(jù)圖1并結(jié)合監(jiān)控的體系,只監(jiān)測到基站機房三層交換機至信息采集器這一環(huán)節(jié)。接下來開始排查核心路由器之上的部分。
為了防止設(shè)備宕機以及來自外界的入侵,我們對該專線網(wǎng)絡(luò)中的核心設(shè)備進行了配置存檔。在對互聯(lián)路由器以及電業(yè)局核心交換機配置檢查核對無誤后,在主控服務(wù)器上對任一采集器IP地址10.218.7.2進行Ping測試,可以Ping通的,但是信息采集器的數(shù)據(jù)就是傳輸不上來。在10.218.7.2采集器上Ping網(wǎng)關(guān)(互聯(lián)路由器)沒有問題。
故障分析到這里,再一次梳理思路,采集器可以Ping通網(wǎng)關(guān),說明從采集器至互聯(lián)路由器的鏈路沒有問題。主控服務(wù)器可以Ping通信息采集器,說明從主控服務(wù)器至信息采集器也沒有問題,那問題究竟出在什么地方呢?會不會是路徑出現(xiàn)了問題?這里指的路徑是指主控服務(wù)器至信息采集器的路徑。
索性在主控服務(wù)器上對信息采集服務(wù)器進行trace測試,具體的路由跟蹤如下所示:
C:Useradministrator racert 10.218.7.2
通過最多30個躍點跟蹤到10.218.7.2的路由:
1 <1 毫秒 <1 毫秒<1 毫秒 200.200.200.66
2 3ms 4ms 4ms 10.141.194.1 4
3 5ms 4ms 4ms 10.253.141.34
4 10ms 10ms 10ms 192.168.96.1
5 * * * 請求超時。
6 * * * 請求超時。
7 * * * 請求超時。
8 16ms 14ms 19ms 172.16.1.2
9 11ms 11ms 11ms 10.218.7.2
根據(jù)上面的路由跟蹤信息,我們找到了故障的原因,具體原因是路由出現(xiàn)了問題。正常的路由應(yīng)該是第一跳到達電業(yè)局核心交換機,即10.158.223.13,第二調(diào)是互聯(lián)路由器10.253.223.16,第三條是我方的三層交換機,第四條就是采集器的IP,那么接下來要解決的是查找trace的第一跳IP地址200.200.200.66究竟是什么?
登錄到電業(yè)局核心三層交換機上,查看到該地址是和端口5/1互聯(lián)地址即:
interface GigabitEthernet5/1
no switchport
ip address 200.200.200.84 255.255.255.192
從上面的配置文件可以看到,trace結(jié)果的第一跳IP地址200.200.200.66和接口5/1接口地址200.200.200.84在同一個網(wǎng)段,并得知該地址是連接省電業(yè)局網(wǎng)絡(luò)的,而不是連接到圖1中的互聯(lián)路由器。使用命令show ip route |include 10.218.7.0查看路由學(xué)習(xí)情況,即:
O E1 10.218.7.0/26[110/3] via 200.200.200.66, 00:01:35,GigabitEthernet5/1
S 10.218.7.0/24[1/0] via 10.158.223.16
通過對路由學(xué)習(xí)情況的查看,顯而易見地 得 知10.218.7.2這一IP地址匹配上了10.218.7.0/26 [110/3] via 200.200.200.66這條路由,這是基于路由的最長匹配原則來計算的,并且該路由是OSPF的路由條目。而正常的靜態(tài)路由10.218.7.0/24[1/0] via 10.158.223.16由于子網(wǎng)掩碼較短于10.218.7.0/26,出現(xiàn)了文章開頭的路由匹配錯誤。
經(jīng)過和專線單位溝通聯(lián)系,其網(wǎng)絡(luò)工程師也不知情。當(dāng)時正值節(jié)假日,在搞清楚10.218.7.0/26網(wǎng)段只是集采器使用的情況下,為了盡快恢復(fù)電力抄表的數(shù)據(jù)暢通,有兩個辦法可以解決。第一,在電業(yè)局核心交換機的5/1端口上應(yīng)用路由策略,限制交換機學(xué)習(xí)到來至省電業(yè)局的非法路由。第二個辦法就是將電業(yè)局核心交換機指向互聯(lián)路由器的10.218.7.0/24網(wǎng)段進行小段劃分,保證該網(wǎng)段的子網(wǎng)掩碼長于10.218.7.0/26。
經(jīng)過對兩個方案的對比,方案一需要在上聯(lián)省電業(yè)局的端口應(yīng)用策略,風(fēng)險極大,一旦操作不慎會影響所有業(yè)務(wù)。方案二比較中庸,能夠快速解決故障,還不會影響其他業(yè)務(wù)的正常使用。選擇方案二進行實施后,接下來需要配置電業(yè)局的核心交換機,具體的配置命令即:
no ip route 10.218.7.0 255.255.255.0
刪除原有指向互聯(lián)路由器的靜態(tài)路由
//重新添加指向互聯(lián)路由器的靜態(tài)路由
完成路由的重新設(shè)置后,再一次使用命令show ip route | include 10.218.7.0查看路由的學(xué)習(xí)情況:
可以看到,路由學(xué)習(xí)恢復(fù)正常。通過對網(wǎng)絡(luò)進行驗證,采集器的數(shù)據(jù)恢復(fù)正常,故障排除。
上面我們從得知故障現(xiàn)象著手,首先按照網(wǎng)絡(luò)層次進行排查,利用ping、tracert和show命令將故障準(zhǔn)確定位到了交換機路由學(xué)習(xí)上,為了盡快恢復(fù)故障,通過延長子網(wǎng)掩碼長度的辦法,優(yōu)先解決了網(wǎng)絡(luò)故障。后期經(jīng)過電業(yè)局的排查,找到了真正的故障根源,從而達到了故障解決的目的。