陸震 郭騰飛 高小龍
中郵建技術(shù)有限公司
數(shù)據(jù)通信是通信技術(shù)與計(jì)算機(jī)技術(shù)相結(jié)合而產(chǎn)生的一種新的通信方式。數(shù)通設(shè)備作為數(shù)據(jù)通信的硬件基礎(chǔ),是最重要的數(shù)據(jù)承載及數(shù)據(jù)收發(fā)設(shè)備。本文中的數(shù)通設(shè)備主要指網(wǎng)絡(luò)系統(tǒng)中最為常用的兩個(gè)數(shù)據(jù)通信設(shè)備——交換機(jī)和路由器。隨著IT技術(shù)的迅猛發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)中心的網(wǎng)絡(luò)規(guī)模逐漸擴(kuò)大,數(shù)據(jù)流量增長(zhǎng)帶來(lái)的帶寬需求和網(wǎng)絡(luò)穩(wěn)定性需求成為數(shù)據(jù)通信工程師面臨的挑戰(zhàn)。
某日客戶網(wǎng)維人員反饋IDC網(wǎng)絡(luò)某局點(diǎn)部分網(wǎng)元托管,通過(guò)相關(guān)軟件初步對(duì)問(wèn)題進(jìn)行定位和故障恢復(fù)工作。涉及到的設(shè)備為華為NE40E路由器(NE40E是華為公司一款中高端路由器)、華為S5300匯聚交換機(jī)(S5300是華為公司一款中低端交換機(jī)),組網(wǎng)如下:
圖1 組網(wǎng)圖
(1)查看NE5000E(NE5000E是華為公司一款高端核心路由器)側(cè)鏈路一切正常,因中間過(guò)傳輸設(shè)備,因此初步認(rèn)為設(shè)備宕機(jī)或者傳輸?shù)絅E40E鏈路故障;
(2)緊急趕到機(jī)房現(xiàn)場(chǎng)后檢查設(shè)備硬件,NE40E路由器硬件運(yùn)行正常并未宕機(jī),登錄設(shè)備檢查log日志以及告警等信息也并未發(fā)現(xiàn)因斷電或其他原因?qū)е略O(shè)備重啟的告警;
(3)查看設(shè)備端口鏈路狀態(tài)后發(fā)現(xiàn),出口Eth-Trunk1中4條10GE鏈路有一條GE5/1/1處于DOWN的狀態(tài),查看端口狀態(tài)無(wú)收光現(xiàn)象,查看聚合端口配置并未啟用靜態(tài)LACP模式,判定此條故障鏈路導(dǎo)致設(shè)備托管。因?qū)τ诰酆隙丝谖磫⒂渺o態(tài)LACP模式,中間過(guò)傳輸設(shè)備時(shí)Eth-Trunk1有鏈路中斷而對(duì)于NE5000設(shè)備Eth-Trunk34端口并未感知,所以導(dǎo)致報(bào)文通過(guò)傳輸設(shè)備到達(dá)GE5/1/1端口時(shí)丟棄,剔除GE5/1/1端口,兩端配置靜態(tài)LACP模式后故障排除。
經(jīng)以上操作后,網(wǎng)管與網(wǎng)元脫管故障得到解決,恢復(fù)正常。對(duì)于靜態(tài)LACP模式,當(dāng)把一組接口加入Eth-Trunk接口后,這些成員接口中哪些接口作為活動(dòng)接口,哪些接口作為非活動(dòng)接口,需要經(jīng)過(guò)LACP協(xié)議報(bào)文的協(xié)商確定,對(duì)于中途過(guò)傳輸設(shè)備,通過(guò)LACP協(xié)議報(bào)文感知兩端聚合端口狀態(tài),同時(shí)實(shí)現(xiàn)負(fù)載分擔(dān)和冗余備份的雙重功能。
解決方案:核查全網(wǎng)設(shè)備,排除隱患。
措施:當(dāng)兩臺(tái)設(shè)備組成Eth-trunk經(jīng)過(guò)傳輸設(shè)備互聯(lián)時(shí),必須配置靜態(tài)LACP模式,對(duì)于工作模式未啟用靜態(tài)LACP模式的聚合端口及時(shí)整改。
對(duì)某局點(diǎn)的ME60(ME60是華為公司目前生產(chǎn)的寬帶接入路由器,作為匯聚層設(shè)備,一般承載一個(gè)區(qū)域的寬帶上網(wǎng)和大客戶業(yè)務(wù))設(shè)備版本升級(jí)過(guò)程中,出現(xiàn)主控板升級(jí)后所有業(yè)務(wù)單板無(wú)法正常注冊(cè)的問(wèn)題。
具體操作如下:
(1)00 :50分左右,開(kāi)始刪除并清空設(shè)備原補(bǔ)丁文件,指定下次啟動(dòng)文件為新的版本文件,進(jìn)行剔除用戶等操作;
(2)1 :01分左右,執(zhí)行reboot設(shè)備主控板重啟操作;
(3)1 :20分左右,設(shè)備主控板正常啟動(dòng)并能登錄設(shè)備,正常情況下主控板注冊(cè)成功后會(huì)下發(fā)版本軟件至各個(gè)業(yè)務(wù)單板;
(4)1 :40分左右,通過(guò)dis device查看設(shè)備單板注冊(cè)情況,發(fā)現(xiàn)除了主控板正常注冊(cè)外,其他所有單板均為Unregistered狀態(tài);通過(guò)disp ver查看設(shè)備版本,主控板已經(jīng)升級(jí)到目標(biāo)版本;
(5)1 :50分左右,嘗試做主控板主備切換操作,但提示“備用主控板MBUS不正常!”,無(wú)法進(jìn)行主備切換;
(6)1 :55分左右,聯(lián)系華為400專(zhuān)家(400是華為公司一個(gè)技術(shù)支持電話,參與400技術(shù)技持的人員都是相關(guān)設(shè)備的研發(fā)人員,又稱為研發(fā)工程師)配合診斷,400工程師建議通過(guò)手工下發(fā)版本軟件至業(yè)務(wù)單板的方式來(lái)升級(jí)業(yè)務(wù)單板;
(7)1 :58分左右,根據(jù)400工程師的建議,用手工下發(fā)軟件的方式升級(jí)業(yè)務(wù)單板,但由于手工下發(fā)方式比較慢,歷時(shí)60分鐘左右;
(8)3 :00左右,手工方式升級(jí)業(yè)務(wù)單板操作完成,但是升級(jí)后業(yè)務(wù)單板還是未能正常注冊(cè);
(9)3 :07分左右,嘗試下電拔插1槽位業(yè)務(wù)單板,3:15分查看1槽位單板狀態(tài)還是未注冊(cè);
(10)3 :20分左右,根據(jù)400專(zhuān)家建議將9槽位主控板拔出,只剩10槽位主控板在位并整機(jī)下電重啟設(shè)備;
(11)3 :27分左右,設(shè)備主控板正常啟動(dòng)并能登錄設(shè)備,從界面信息可看到正在upgrade各業(yè)務(wù)單板;
(12)3 :35分左右,查看其他業(yè)務(wù)單板均正常注冊(cè),各業(yè)務(wù)接口已正常up,用戶陸續(xù)上線。
升級(jí)成功后,通過(guò)采集升級(jí)操作記錄以及設(shè)備相關(guān)log記錄,華為400研發(fā)工程師分析,主控板第一次重啟后沒(méi)有下發(fā)軟件版本至各個(gè)業(yè)務(wù)單板,導(dǎo)致業(yè)務(wù)單板無(wú)法正常注冊(cè),原因是由于第一次重啟后主控9槽位單板升級(jí)后EPLD狀態(tài)異常,EPLD固件未正常升級(jí)成功,導(dǎo)致系統(tǒng)無(wú)法升級(jí)其他業(yè)務(wù)單板;整機(jī)重啟后,設(shè)備主控板正常啟動(dòng),狀態(tài)恢復(fù);系統(tǒng)升級(jí)各業(yè)務(wù)單板成功。
(1)9槽位主控異常時(shí)日志信息:
因華為ME60設(shè)備升級(jí)重啟后主控單板會(huì)出現(xiàn)EPLD狀態(tài)異常,所以根據(jù)設(shè)備特性分析及設(shè)備升級(jí)情況提出如下措施建議:
(1)設(shè)備升級(jí)后如果個(gè)別單板無(wú)法正常注冊(cè),可以嘗試通過(guò)手工升級(jí)業(yè)務(wù)單板的方式來(lái)升級(jí)未能正常注冊(cè)的單板,如果還不能成功,建議更換故障業(yè)務(wù)單板;
(2)如果設(shè)備升級(jí)后主控板正常注冊(cè),所有業(yè)務(wù)單板無(wú)法正常注冊(cè),那么可以嘗試再次重啟主控板來(lái)重新加載版本軟件;
(3)如果再次重啟后還是無(wú)法正常注冊(cè),則需更換主控板,重新升級(jí)。
某日發(fā)現(xiàn)S9312設(shè)備下掛二級(jí)匯聚老城機(jī)房的華為匯聚S9306交換機(jī)下掛的OLT設(shè)備,OLT入方向報(bào)文有丟包,導(dǎo)致下掛IPTV的直播和點(diǎn)播畫(huà)面卡頓;OLT上聯(lián)到華為匯聚S9306交換機(jī)的端口是GE1/0/12端口?,F(xiàn)網(wǎng)組網(wǎng)結(jié)構(gòu)為:
圖2 組網(wǎng)圖
分析二級(jí)匯聚老城機(jī)房的華為匯聚交換機(jī)S9306設(shè)備連接OLT的端口GigabitEthernet1/0/12,發(fā)現(xiàn)出方向有大量discard持續(xù)存在,端口信息如下:
經(jīng)過(guò)計(jì)算,該端口每秒鐘丟包在200至500個(gè)左右,這表明,該端口出方向有持續(xù)的擁塞丟包發(fā)生。進(jìn)一步通過(guò)端口鏡像抓包分析該端口的流量情況發(fā)現(xiàn),當(dāng)日白天的抓包記錄顯示,該端口在此次抓包的過(guò)程中,突發(fā)流量達(dá)到1G流量,單條單播源發(fā)的流量突發(fā)比較大的可達(dá)到600M,單條組播源發(fā)的流量突發(fā)比較大的可達(dá)到200M。單播流量經(jīng)過(guò)確認(rèn)為預(yù)留給用戶的點(diǎn)播視頻業(yè)務(wù),8021p優(yōu)先級(jí)是5;組播流量有的8021p優(yōu)先級(jí)是5,有的是0,組播復(fù)制點(diǎn)在NE設(shè)備,組播流量為組播源往多個(gè)用戶復(fù)制疊加的流量。
通過(guò)對(duì)數(shù)據(jù)的分析研究,得出:
(1)當(dāng)華為匯聚層交換機(jī)S9306設(shè)備的GE1/0/12端口出方向的帶寬被占滿時(shí),多余的報(bào)文就會(huì)緩存在緩存區(qū)內(nèi);
(2)當(dāng)端口出方向的帶寬有剩余帶寬時(shí),緩存區(qū)中積壓的報(bào)文就會(huì)逐步釋放;
(3)如果積壓在緩存中的報(bào)文越積越多,超過(guò)緩存大小時(shí),這些報(bào)文就會(huì)被丟棄,丟棄的報(bào)文數(shù)量會(huì)在端口的discard計(jì)數(shù)中體現(xiàn);
(4)如果端口突發(fā)的流量超過(guò)現(xiàn)有空閑的緩沖區(qū),就會(huì)存在端口擁塞,導(dǎo)致出方向不能及時(shí)得到處理,引起同優(yōu)先級(jí)的報(bào)文丟棄,這樣就可能影響到客戶的業(yè)務(wù),對(duì)外的表現(xiàn)可能有:上網(wǎng)速度比較緩慢,IPTV存在卡頓或馬賽克情況等。
綜上分析,導(dǎo)致IPTV業(yè)務(wù)受損的原因是客戶原先使用的華為匯聚交換機(jī)S9306設(shè)備的G24CA型號(hào)單板緩存較小,同時(shí)該單板的GE1/0/12接口下掛的用戶較多,當(dāng)網(wǎng)絡(luò)中突發(fā)訪問(wèn)量較大時(shí),產(chǎn)生擁塞丟包,引起機(jī)頂盒觀看的電視節(jié)目花屏。
由于華為匯聚交換機(jī)S9306設(shè)備的G24CA型號(hào)單板緩存較小,同時(shí)該單板的GE1/0/12接口下掛的用戶較多,所以在機(jī)房有條件的情況下,建議采取如下措施:
(1)建議將華為匯聚交換機(jī)S9306設(shè)備的G24CA型號(hào)單板,更換為緩存更大的單板;
(2)擴(kuò)容OLT上聯(lián)到華為匯聚交換機(jī)S9306設(shè)備的鏈路帶寬。但是擴(kuò)容需要注意的是,由于OLT現(xiàn)有上聯(lián)華為匯聚交換機(jī)S9306設(shè)備的端口是在1槽位,1槽位的G24CA型號(hào)單板已經(jīng)緩存較小,所以要擴(kuò)容到華為匯聚交換機(jī)S9306設(shè)備除1槽位外的其他槽位,這樣問(wèn)題就可以解決了。
通過(guò)三個(gè)典型案例的研究與分析,總結(jié)出如下數(shù)通設(shè)備故障的處理方法:
(1)在網(wǎng)絡(luò)維護(hù)中出現(xiàn)部分網(wǎng)元托管時(shí),首先核查全網(wǎng)設(shè)備進(jìn)行隱患排除,當(dāng)兩臺(tái)設(shè)備組成Eth-trunk經(jīng)過(guò)傳輸設(shè)備互聯(lián)時(shí),必須配置靜態(tài)LACP模式,及時(shí)整改工作模式未啟用靜態(tài)LACP模式的聚合端口。
(2)因華為ME60設(shè)備升級(jí)重啟后主控單板會(huì)出現(xiàn)EPLD狀態(tài)異常,所以設(shè)備升級(jí)出現(xiàn)EPLD狀態(tài)異常時(shí),可以重啟主控板,通過(guò)重新加載版本軟件進(jìn)行解決。
(3)在網(wǎng)絡(luò)維護(hù)中如果出現(xiàn)華為匯聚交換機(jī)S9306設(shè)備下掛IPTV的直播和點(diǎn)播畫(huà)面卡頓,首先排查設(shè)備上是否有G24CA型號(hào)單板,同時(shí)該單板下掛的用戶是否較多,如果有G24CA型號(hào)單板并且該單板下掛的用戶較多,可以直接更換為緩存更大的單板或者擴(kuò)容鏈路。
數(shù)通設(shè)備是數(shù)據(jù)中心不可缺失的一部分,數(shù)通設(shè)備的穩(wěn)定運(yùn)行是數(shù)據(jù)中心機(jī)房的核心。所以,在維護(hù)過(guò)程中要對(duì)數(shù)據(jù)機(jī)房中的每一個(gè)故障加以研究與分析,及時(shí)總結(jié)發(fā)現(xiàn)現(xiàn)網(wǎng)的漏洞,營(yíng)造一個(gè)安全穩(wěn)定的數(shù)據(jù)中心。