包 勵
(華東空管局,上海 200000)
上海浦東華為SDH光環(huán)網(wǎng)(簡稱“本場光環(huán)網(wǎng)”)是由華東空管局獨立投資建設(shè)的本場通信骨干基礎(chǔ)網(wǎng)絡(luò),投產(chǎn)于2015年,是空管行業(yè)華東地區(qū)首套光傳輸網(wǎng)絡(luò),在2018年之后進行了升級擴容,目前的網(wǎng)絡(luò)主體采用了四環(huán)相交結(jié)構(gòu),主要承載雷達、甚高頻、導(dǎo)航、氣象、航行情報、語音等信號傳輸。本場光環(huán)網(wǎng)采用具有智能特性的NG-SDH設(shè)備OptiX OSN系列,共配置44個節(jié)點。
2021年至今,本場光環(huán)網(wǎng)網(wǎng)管共上報2 245個告警,其中緊急告警973個、重要告警1 157個、次要告警115個,告警日志統(tǒng)計分析如下:在緊急告警中,告警數(shù)量排名前四的節(jié)點依次為航管樓、HGL-500M、HGL-500S、點對點-航管樓;在重要告警中,告警數(shù)量排名前四的節(jié)點依次為航管樓、大終端、浦東三甲港雷達、大終端輔助環(huán);在次要告警中,告警數(shù)量排名前四的節(jié)點依次為大終端、東場監(jiān)、航管樓、R5南航向??梢钥闯龈婢饕性诖蠼K端、航管樓的節(jié)點設(shè)備,這與這些地點需要大量業(yè)務(wù)開通操作、業(yè)務(wù)引接有關(guān),從側(cè)面反映出這些節(jié)點設(shè)備的活躍程度,應(yīng)在今后運維中著重關(guān)注。
本場光環(huán)網(wǎng)系統(tǒng)在建成投入之初由于配置不完整導(dǎo)致產(chǎn)生大量告警,我們進行了存量告警專項清理工作,在對網(wǎng)管告警詳細信息進行梳理歸類之后,可得出。
(1)緊急告警全部為ETH_LOS,網(wǎng)口連接丟失。
(2)重要告警主要為I N_PW R_A BN,輸入功率異常;APS_INDI,復(fù)用段保護協(xié)議狀態(tài)指示告警;MS_A PS_I N DI_EX,復(fù)用段倒換指示擴展;T_ALOS,E1/T1接口模擬信號丟失;POWER_ABNORNAL,電源丟失和LCAS_FOPR、LCAS接收方向協(xié)議失效。
(3)次要告警主要為PORTMODE_MISMATCH,遠端FE端口工作模式不匹配告警;UP_E1_AIS,上行方向2M信號告警指示;DOWN_E1_AIS,下行方向2M信號告警指示,CLK_NO_TRACE_MODE,時鐘進入非跟蹤工作模式。
告警總量共計122條,其中緊急告警4條、重要告警51條、次要告警67條。告警涉及本場光環(huán)網(wǎng)核心環(huán)、主環(huán)、環(huán)帶鏈以及點對點傳輸形式,涵蓋網(wǎng)元節(jié)點多,其中包括場外12個網(wǎng)元節(jié)點,場內(nèi)4個網(wǎng)元節(jié)點。部分告警級別設(shè)置不突出、層次不分明。綜上所述,網(wǎng)管告警呈現(xiàn)數(shù)量多、類型雜、涉及廣、告警信息級別設(shè)置不恰當(dāng)?shù)忍攸c。
通過對告警情況的梳理,制定了告警處理四原則:先主環(huán)后核心環(huán)、先外場后內(nèi)場、先無業(yè)務(wù)后有業(yè)務(wù)、先非停機后停機。以安全運行保障為前提,先易后難、先小后大、先外后內(nèi),進行專項告警清理工作。以下為展開主要告警類型的排查過程。
(1)IN_PWR_ABN,輸入功率異常告警,此類告警共計6條,涉及5個節(jié)點,包括大終端、航管樓、西場監(jiān)、R3北下滑及核心輔助環(huán)的二塔臺節(jié)點。我們秉持四原則,分批進行光纖中繼鏈路優(yōu)化。
①二塔臺輔助環(huán)節(jié)點為本場光環(huán)網(wǎng)核心輔助環(huán)網(wǎng)節(jié)點,該環(huán)網(wǎng)無在用重要業(yè)務(wù),前往二塔臺進行光纖中繼鏈路優(yōu)化調(diào)整,更換光纖鏈路(二塔臺—二次雷達遷—終端進線間—大終端);②西場監(jiān)節(jié)點停機維護,進行核心環(huán)航管樓節(jié)點OSN 3500至西場監(jiān)雷達節(jié)點OSN 500其中一條光纖中繼鏈路優(yōu)化調(diào)整,更換光纖鏈路(航管樓—R1南下滑—西場監(jiān)雷達);③大終端節(jié)點停機維護,進行主環(huán)A上大終端節(jié)點OSN 3500至浦東培訓(xùn)樓節(jié)點OSN 1500光纖中繼優(yōu)化調(diào)整,更換光纖鏈路(大終端—終端進線間—浦東培訓(xùn)樓1樓—浦東培訓(xùn)樓6樓);④大終端節(jié)點停機維護,進行核心環(huán)大終端節(jié)點OSN 3500至航管樓節(jié)點OSN 3500光纖中繼鏈路優(yōu)化調(diào)整,在大終端節(jié)點光接收口添加光衰減器;⑤R3北下滑節(jié)點停機維護,進行主環(huán)A上R3北下滑節(jié)點OSN 1500至R1北近臺節(jié)點OSN 500其中一條光纖中繼鏈路優(yōu)化調(diào)整,更換光纖鏈路(R3北下滑—R1北下滑—R1北航向—R1北近臺)。
歷經(jīng)4次停機維護,通過光纖中繼鏈路優(yōu)化調(diào)整,鏈路輸入光功率正常,共計消除異常告警6條,分別為輸入光功率過低5條,涉及大終端節(jié)點、西場監(jiān)節(jié)點、R3北下滑節(jié)點、大終端輔助環(huán)節(jié)點、二塔臺輔助環(huán)節(jié)點;輸入光功率過高1條,涉及大終端節(jié)點。
(2)POWER_ABNORNAL,電源丟失告警,此類告警共計1條。告警發(fā)生點為核心輔助環(huán)的二塔臺節(jié)點,前往二塔臺,發(fā)現(xiàn)整流模塊其中一路空開未啟用,在打開空開后電源接入正常,告警消除1條。
(3)APS_INDI,復(fù)用段保護協(xié)議狀態(tài)指示告警、MS_APS_INDI_EX,復(fù)用段倒換指示擴展[1],此兩類告警共計4條。該告警提示核心環(huán)航管樓節(jié)點曾經(jīng)發(fā)生過交叉板主備倒換。查看網(wǎng)管配置,航管樓節(jié)點至西場監(jiān)雷達節(jié)點采用線性復(fù)用段1+1保護,且倒換方式為單端非恢復(fù)式。在進行核心環(huán)航管樓節(jié)點至西場監(jiān)雷達節(jié)點其中一條光纖中繼鏈路的優(yōu)化調(diào)整后,更改配置為雙端恢復(fù)式,與環(huán)網(wǎng)其他采用線性復(fù)用段1+1保護的節(jié)點保持配置一致,主備倒換狀態(tài)顯示正常,清除告警4條。
(4)ETH_LOS,網(wǎng)口連接丟失告警,此類告警共計4條,查看業(yè)務(wù)配置資料表及網(wǎng)管配置后可將其分為以下兩種情況。
一是以太網(wǎng)單板端口業(yè)務(wù)已配置,端口開啟。查看現(xiàn)場發(fā)現(xiàn)未接入用戶側(cè)信號,根據(jù)業(yè)務(wù)配置資料表與用戶溝通,確認(rèn)業(yè)務(wù)是否接入使用。若沒有接入需求,立即刪除端口業(yè)務(wù)配置,釋放端口資源;若后期有接入需求,則進行告警反轉(zhuǎn)操作,并在業(yè)務(wù)配置資料表中記錄標(biāo)注。二是以太網(wǎng)單板端口業(yè)務(wù)已刪除,端口開啟。根據(jù)業(yè)務(wù)配置資料表進行設(shè)備現(xiàn)場核對,關(guān)閉未在用端口。我們將ETH_LOS的告警級別由緊急告警調(diào)整為重要告警。這樣能夠區(qū)別過去的緊急告警,有助于告警級別的及時分辨,提升全員對其他類型緊急告警的敏感度。
(5)T_ALOS,E1/T1接口模擬信號丟失,此類告警共計39條。查看網(wǎng)管E1單板端口業(yè)務(wù)配置及資料,結(jié)合現(xiàn)場排查和用戶溝通,明確告警涉及的業(yè)務(wù)主要分為兩類:一是用戶已不再使用;二是預(yù)留配置,用戶暫時未接入使用,之后會接入使用。對于第一類告警,進行刪除配置、釋放端口資源操作。對于第二類告警,進行網(wǎng)管SDH路徑去激活(僅網(wǎng)管側(cè)刪除業(yè)務(wù))操作,在業(yè)務(wù)配置資料表中記錄標(biāo)注,待用戶確認(rèn)使用后,重新激活。
(6)PORTMODE_MISMATCH,遠端FE端口工作模式不匹配告警[2],此類告警共計3條。查看網(wǎng)管以太網(wǎng)單板端口業(yè)務(wù)配置及資料,與用戶溝通明確該業(yè)務(wù)端口工作模式的訴求,將兩端配置匹配起來,告警清除。
(7)LCAS_FOPR,LCAS接收方向協(xié)議失效告警,此類告警共計1條。在網(wǎng)管上通過告警定位,確定兩端節(jié)點LCAS協(xié)議功能開啟或關(guān)閉是否一致,根據(jù)需求修改為一致,告警清除。
(8)UP_E1_AIS,上行方向2M信號告警指示,此類告警共計24條。在網(wǎng)管上查看該告警,確定產(chǎn)生告警的單板,經(jīng)排查分析,產(chǎn)生原因分為四類:一是與本端支路單板對接的支路單板存在TU_LOP、TU_AIS、DOWN_E1_AIS等告警;二是對接端接入2 Mbps信號的支路單板存在T_ALOS告警;三是與本端支路單板對接的支路單板存在PLL_FAIL、CHIP_FAIL等硬件故障告警;四是對端E1端口設(shè)置了內(nèi)環(huán)回。通過網(wǎng)管告警信息分析得出24條UP_E1_AIS告警分別屬于一類和二類,皆可采取T_ALOS告警處置方式,告警清除。
(9)DOWN_E1_AIS,下行方向2M信號告警指示,此類告警共計25條。在網(wǎng)管上查看該告警,確定產(chǎn)生告警的單板,經(jīng)排查分析,產(chǎn)生原因分為兩類:一是本端有高級別告警R_LOS、R_LOF、MS_AIS等存在;二是對端支路單板存在UP_E1_AIS、T_ALOS等告警。同樣皆可采取T_ALOS告警處置方式。
(10)CLK_NO_TRACE_NODE,時鐘進入非跟蹤工作模式,此類告警共計5條。該告警為網(wǎng)元節(jié)點未配置時鐘優(yōu)先級別,其中涉及點對點大終端節(jié)點至航管樓節(jié)點、點對點航管樓節(jié)點至Thales雷達節(jié)點、核心輔助環(huán)三個節(jié)點。在配置各節(jié)點時鐘優(yōu)先級后,告警消除。由于點對點和核心輔助環(huán)網(wǎng)SDH設(shè)備暫未接入外部時鐘信號,后期還需進一步優(yōu)化。
經(jīng)過4次停機,10人次前往機場飛行區(qū),清除共計122條網(wǎng)管側(cè)存量告警,包括緊急告警4條、重要告警51條、次要告警67條;涉及核心環(huán)、主環(huán)、環(huán)帶鏈以及點對點拓撲;包括場外12個網(wǎng)元節(jié)點、場內(nèi)4個網(wǎng)元節(jié)點。
網(wǎng)管告警遵循“收端檢測、收端上報”“高級別告警會引起低級別告警、高級別告警會抑制低級別告警上報”。通過多次的告警清理實踐,我們對于特定告警類型結(jié)合實踐形成了以下比較標(biāo)準(zhǔn)化的處置步驟。
(1)對于出現(xiàn)IN_PWR_ABN,輸入功率異常告警的處置步驟:①告警定位,確認(rèn)告警源,查詢本節(jié)點光功率;②停機維護中,對于輸入光功率過低,首先清潔本節(jié)點尾纖和線路板接收光口,確認(rèn)光纖連接正常;③檢查尾纖彎曲半徑,重新布放尾纖;④使用OTDR儀器進行逐段光路測試,對于異常進行調(diào)整;⑤對于輸入光功率過高,在接收光口添加合適光衰減器。需要格外注意的是,斷開兩節(jié)點設(shè)備光纖中繼鏈路時一端先斷開,避免出現(xiàn)由于資料錯誤導(dǎo)致的鴛鴦線,使得兩節(jié)點中繼全部中斷,尤其對于點對點節(jié)點更為關(guān)鍵。同時需要注意調(diào)整過程中雙芯光纖AB線,進行標(biāo)識及記錄。光功率異常需要引起相關(guān)人員重視,因為這會影響業(yè)務(wù)傳輸性能,嚴(yán)重會導(dǎo)致業(yè)務(wù)中斷[3]。
(2)對于出現(xiàn)T_ALOS,E1/T1接口模擬信號丟失告警的處置步驟:①查看該通道是否設(shè)置告警反轉(zhuǎn);②用戶業(yè)務(wù)是否接入;③電纜是否脫落或松動;④電纜是否故障;⑤E1/T1單板是否故障。
(3)對于出現(xiàn)R_LOS,接收線路側(cè)信號丟失告警的處置步驟:①檢查本節(jié)點單板光接口尾纖連接情況;②檢查對端節(jié)點單板激光器開關(guān)情況;③檢查傳輸線路光纖情況;④檢查傳輸線路衰減情況;⑤檢查對端節(jié)點單板發(fā)送部分情況;⑥檢查本節(jié)點接收部分情況。
R_LOS屬于最高級別告警,在告警發(fā)生時必須要高度重視,根據(jù)網(wǎng)管告警功能準(zhǔn)確定位、詳細分析、快速處理。
光傳輸在空管通信中占有重要地位,日常的運行維護更為重中之重,從業(yè)務(wù)開通,到與用戶持續(xù)跟進、優(yōu)化業(yè)務(wù)配置,網(wǎng)管的深化工作等任重而道遠,我們將持續(xù)加強與用戶溝通、排查梳理、進行針對性配置,靈活運用故障告警分析方法,實施有效的運行維護管理,深入挖掘發(fā)揮好網(wǎng)管等各種工具,向數(shù)字化運維轉(zhuǎn)型?!?/p>