□文/王青松 劉建璞
(中國聯(lián)合網(wǎng)絡(luò)有限公司邢臺(tái)市分公司 河北·邢臺(tái))
(一)誤碼檢測(cè)。SDH光傳輸系統(tǒng)對(duì)誤碼的檢測(cè),是以“塊”為單位的,所謂“塊”,是指一系列與通道有關(guān)的連續(xù)比特。當(dāng)同一塊內(nèi)的任意比特發(fā)生差錯(cuò)時(shí),就稱該塊為誤碼塊。
SDH光傳輸設(shè)備中按分段分層的思想對(duì)誤碼進(jìn)行全面系統(tǒng)的檢測(cè)。具體有再生段誤碼B1、復(fù)用段誤碼B2、高階通道誤碼B3、低階通道誤碼V5。它們之間的關(guān)系可以用圖1表示。(圖 1) 圖 1中,RST、MST、HPT、LPT 分別表示再生段終端、復(fù)用段終端、高階通道終端和低階通道終端;B1、B2、B3以及V5誤碼分別在這些終端間進(jìn)行監(jiān)測(cè)。由圖1可以看出,如果只是低階通道有誤碼,則高階通道、復(fù)用段和再生段將監(jiān)測(cè)不到該誤碼;如果再生段有誤碼,則將導(dǎo)致復(fù)用段、高階通道、低階通道出現(xiàn)誤碼。所以,一般來說,有高階誤碼則會(huì)有低階誤碼。例如,如果有B1誤碼,一般就會(huì)有B2、B3和V5誤碼;反之,有低階誤碼則不一定有高階誤碼。如有V5誤碼,則不一定會(huì)有B3、B2和B1誤碼。
由于高階誤碼會(huì)導(dǎo)致低階誤碼,因此在處理誤碼問題時(shí),我們應(yīng)按照先處理高階誤碼后處理低階誤碼的順序來進(jìn)行處理。
(二)誤碼相關(guān)的性能和告警事件。光傳輸系統(tǒng)本端檢測(cè)到誤碼時(shí),除本端上報(bào)誤碼性能或告警事件外,本端還將誤碼檢測(cè)情況通過開銷字節(jié)通知對(duì)端。根據(jù)本端和對(duì)端上報(bào)的這些性能和告警事件,可以方便地定位是哪一段通道或哪一個(gè)方向出現(xiàn)誤碼。表1給出了與誤碼相關(guān)的性能和告警事件列表。(表1)
誤碼產(chǎn)生的原因很多,但歸結(jié)起來有兩大類,外部原因和設(shè)備原因。
(一)外部原因。(1)光纖性能劣化、損耗過高。接收光功率低于接收靈敏度;(2)傳輸距離過短、未加衰減器,導(dǎo)致接受光功率過載;(3)光纖接頭不清潔或連接不正確;(4)設(shè)備附近有強(qiáng)烈干擾源;(5)設(shè)備接地不好;(6)設(shè)備散熱不良、工作溫度過高。
(二)設(shè)備原因。(1)線路板接收側(cè)信號(hào)衰減過大、對(duì)端發(fā)送電路故障、本端接收電路故障;(2)時(shí)鐘同步性能不好;(3)交叉板與線路板、支路板配合不好;(4)支路板故障;(5)風(fēng)扇故障,導(dǎo)致設(shè)備散熱不良。
(一)常用方法。對(duì)于誤碼問題的處理,常用的方法是先分析、二環(huán)回、三替換等,重點(diǎn)是告警性能分析法。
1、告警性能分析法。處理誤碼問題時(shí),通過對(duì)表1列出的誤碼性能、告警事件仔細(xì)分析,定位出故障點(diǎn),再通過環(huán)回或替換法進(jìn)行驗(yàn)證和排除故障。分析內(nèi)容包括:性能/告警事件的名稱:通過網(wǎng)管查詢BBE、FEBBE、指針調(diào)整 性 能 事 件 ,REI、B1OVER、B2OVER、B3OVER、BIP-EXC、SD、SF 等告警事件,告警/性能信息之間是否存在對(duì)告關(guān)系。產(chǎn)生性能/告警時(shí)間的網(wǎng)元/單板/通道:檢查告警/性能事件發(fā)生在哪些網(wǎng)元、哪些單板、哪些通道上,最好能給出受誤碼影響的業(yè)務(wù)通道路徑圖,尤其是那些運(yùn)行質(zhì)量極不穩(wěn)定(出現(xiàn)過業(yè)務(wù)中斷現(xiàn)象)的業(yè)務(wù)通道業(yè)務(wù)路徑圖。性能/告警事件發(fā)生的時(shí)間:對(duì)網(wǎng)管上報(bào)的性能/告警事件,要查詢是何時(shí)上報(bào)的,尤其是對(duì)由于瞬間誤碼過大而引起的業(yè)務(wù)瞬斷,要查詢告警/性能事件的產(chǎn)生時(shí)間,由于北方凌晨、午夜、中午、傍晚這4個(gè)時(shí)間點(diǎn)是氣溫變化比較大的時(shí)間點(diǎn),對(duì)于架空或裸露的光纖影響比較大,如果光纖質(zhì)量不好或敷設(shè)不好,在光纖的接頭處,受氣溫變化影響比較大,會(huì)發(fā)生短暫的突發(fā)性大誤碼,導(dǎo)致有規(guī)律性的業(yè)務(wù)瞬斷。性能/告警事件發(fā)生的頻度:通過查詢15分鐘和24小時(shí)的寄存器,可以看出性能/告警事件發(fā)生的頻度,是否有大致規(guī)律,這樣也有利于下一步的故障處理操作。如果是大誤碼頻繁出現(xiàn),導(dǎo)致業(yè)務(wù)不可用,將不得不采取緊急措施進(jìn)行環(huán)回、倒換、換板處理。如果是偶發(fā)性大誤碼,則需要摸清規(guī)律,在大誤碼出現(xiàn)時(shí)才能進(jìn)行相關(guān)故障的定位處理。
表1 誤碼越限告警及性能事件檢測(cè)位置與作用
圖1 誤碼檢測(cè)關(guān)系及檢測(cè)位置
2、逐段環(huán)回法。由于環(huán)回法尤其是對(duì)VC4和STM-N接口進(jìn)行環(huán)回,會(huì)造成VC4和STM-N通道內(nèi)其他業(yè)務(wù)的中斷,一般比較少用。但若條件允許,可使用環(huán)回法快速定位出故障站點(diǎn)。但環(huán)回的時(shí)間不能太長,以免造成通道內(nèi)其他正常業(yè)務(wù)長時(shí)間中斷。在出現(xiàn)誤碼過量導(dǎo)致業(yè)務(wù)中斷情況時(shí),可以對(duì)出現(xiàn)誤碼過量的單板通道進(jìn)行環(huán)回,如果本端做外環(huán)回后誤碼數(shù)量有明顯變化,則可以認(rèn)為本站或后續(xù)站點(diǎn)的單板存在問題。如果故障已經(jīng)定位到單站后,可以進(jìn)一步進(jìn)行光板、支路板或交叉板環(huán)回,定位出故障單板。由于環(huán)回法對(duì)正常業(yè)務(wù)有影響,因此此種方法慎用。
3、替換法。對(duì)于設(shè)備器件性能不良或性能劣化的情況,替換法通常都是故障定位的好方法。通過單板對(duì)調(diào)、光纖對(duì)調(diào)、交叉板主備倒換或網(wǎng)絡(luò)保護(hù)倒換,查看誤碼是否發(fā)生變化,進(jìn)而定位和排除故障。替換的對(duì)象可以是一段光纖、一個(gè)設(shè)備、一塊單板、一個(gè)業(yè)務(wù)通道或一個(gè)光器件等。替換法適用于排除傳輸外部設(shè)備的問題,如光纖、中繼電纜、交換機(jī)、供電設(shè)備等;或故障定位到單站后,用于排除單站內(nèi)單板、通道、模塊或纖芯的問題。
4、經(jīng)驗(yàn)處理法。在一些特殊的情況下,通過復(fù)位單板、掉電重啟等手段可有效排除故障、恢復(fù)業(yè)務(wù)。但因?yàn)樵摲椒ú焕诠收显虻膹氐撞榍?,所以除非情況緊急,一般盡量少用。
(二)處理步驟
第一步:首先排除外部的故障因素,如接地不好、工作溫度過高、線路板接收光功率過低或過高等問題。
第二步:分析線路板誤碼性能事件,排除線路誤碼。
觀察線路板誤碼情況,若某站所有線路板都有誤碼,則可能是該站時(shí)鐘板問題,更換時(shí)鐘板;若只是某塊線路板報(bào)誤碼,則可能是本站線路板問題,也可能是對(duì)端站或光纖的問題。若定位出是單板的故障,可通過更換相應(yīng)單板解決;若定位出是光纖的故障,可通過更換相應(yīng)單板光纖解決。
如果允許的話,可以使用環(huán)回法定位故障,包括VC4通道的環(huán)回、電口環(huán)回和通過尾纖光口環(huán)回。
第三步:分析支路誤碼性能事件,排除支路誤碼。若只有支路誤碼,則可能是本站交叉板或支路板有問題,更換相應(yīng)支路板或交叉板即可。
下面舉幾個(gè)典型的案例說明誤碼問題分析與處理的方法。
(一)線路故障導(dǎo)致的誤碼。組網(wǎng)圖如圖2所示,為一條無保護(hù)鏈。#1站為網(wǎng)管中心站,業(yè)務(wù)方式為集中型業(yè)務(wù),即每個(gè)站均與#1站有2M業(yè)務(wù)。(圖2)
故障現(xiàn)象:#1站2M支路板有LPBBE誤碼,#3站的東向光板有 RS-BBE、MS-BBE、HP-BBE性能數(shù)據(jù),#4站西向光板有MSFEBBE、HPFEBBE性能數(shù)據(jù),2M支路板有LPFEBBE性能數(shù)據(jù)。
處理步驟:
第一步:通過對(duì)上報(bào)的性能事件分析,可以判斷出問題可能出在#3站東向光板的接收端、光路(包括光纖和光接頭)、#4站西向光板的發(fā)送端。
第二步:在#3站通過尾纖自環(huán)東向光板,#3站東向光板誤碼和#1站2M支路板誤碼消失。說明是#4站西向光板問題或光路問題。
第三步:使用替換法,將#3站和#4站之間的兩根光纖對(duì)調(diào),觀察誤碼情況,若誤碼情況發(fā)生變化,#3站和#4站上報(bào)的數(shù)據(jù)與調(diào)換前的數(shù)據(jù)相反,則說明是光纖有問題,檢查光路情況。若調(diào)換后故障現(xiàn)象不變,說明故障點(diǎn)在4號(hào)站。
第四步:更換#4站西向光板后,誤碼消失。說明4站西向光板有故障。
(二)時(shí)鐘板故障導(dǎo)致的誤碼問題。組網(wǎng)如圖3所示:四個(gè)OptiX622站組成的一個(gè)單向通道環(huán),#1站為中心站,業(yè)務(wù)為集中型業(yè)務(wù),即每個(gè)站均與#1站有2M業(yè)務(wù),全網(wǎng)時(shí)鐘跟蹤方向?yàn)?4→3→2→1。(圖 3)
故障現(xiàn)象:#1站、#3站、#4站相應(yīng)的2M業(yè)務(wù)通道報(bào)誤碼性能LP-BBE、LPFEBBE;#2站2M業(yè)務(wù)通道上報(bào)LPFEBBE;#2站東向光板、#3站東西向光板、#4站西向光板報(bào)大量誤碼性能 RS-BBE、MS-BBE、HP-BBE 以及 MSFEBBE、HPFEBBE,其中 #1站、#3站、#4站還存在大量TU指針調(diào)整。
處理步驟:
第一步:從誤碼性能事件分析,可能是#2站的東向光板故障,或是#3站的時(shí)鐘板或交叉板故障。具體分析思路如下:通常情況下,誤碼不會(huì)引起指針調(diào)整,而大量的指針調(diào)整卻會(huì)導(dǎo)致誤碼。因此,當(dāng)故障中誤碼和指針調(diào)整同時(shí)出現(xiàn)時(shí),我們應(yīng)先從分析指針調(diào)整的原因著手。該故障現(xiàn)象中從#3站開始出現(xiàn)了支路指針調(diào)整,則說明#3站時(shí)鐘源的鎖定存在問題。由于其提取的時(shí)鐘源是線路時(shí)鐘源,則可能是上游站或本站的線路板提供參考時(shí)鐘源有問題,也可能是本站的時(shí)鐘板鎖定參考時(shí)鐘源有問題。
第二步:更改#3站、#4站的時(shí)鐘跟蹤方向,發(fā)現(xiàn)故障現(xiàn)象依舊。說明#3站時(shí)鐘板可能有問題。因?yàn)槿绻?2站東向線路或#3站西向線路提供的參考時(shí)鐘不好的話,更改時(shí)鐘跟蹤方向后,誤碼應(yīng)該消失。
第三步:更換#3站的時(shí)鐘板后,誤碼消失,故障排除。
(三)接地不好導(dǎo)致誤碼。組網(wǎng)配置如下:整個(gè)網(wǎng)絡(luò)由5個(gè)622M網(wǎng)元組成,構(gòu)成一條無保護(hù)鏈,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。#1站為網(wǎng)關(guān)網(wǎng)元連接網(wǎng)管終端,其他各站均只與#1站有2M業(yè)務(wù),#1站時(shí)鐘設(shè)為自由振蕩,其他各站均跟蹤西向線路時(shí)鐘。(圖4)
故障現(xiàn)象:
某一天,從網(wǎng)管系統(tǒng)查詢告警和性能情況時(shí)發(fā)現(xiàn)#1站、#2站、#3站的低階通道出現(xiàn)大量誤碼,同時(shí)有低階通道性能參數(shù)越限告警,#4站、#5站低階通道有少量誤碼。
故障分析定位:各站都出現(xiàn)了低階通道誤碼,由于其他站點(diǎn)只與#1站有業(yè)務(wù),所以#1站有問題很可能是故障產(chǎn)生的原因。如果#1站有問題,4塊支路板PL1出故障的可能性比較小,有可能是線路板SL4本身故障,或者是風(fēng)扇防塵網(wǎng)罩被灰塵阻塞,系統(tǒng)散熱不好,引起線路板SL4產(chǎn)生高階通道誤碼,進(jìn)而產(chǎn)生低階通道誤碼。#1站中繼電纜或電源接地不好導(dǎo)致誤碼。
處理步驟:
第一步:由于查到的是歷史性能數(shù)據(jù),為明確故障現(xiàn)象是否依然存在,復(fù)位各站性能數(shù)據(jù),查詢當(dāng)前性能,發(fā)現(xiàn)誤碼仍在產(chǎn)生。
第二步:查詢#1站和其他各站線路板性能,沒有發(fā)現(xiàn)高階通道誤碼,接著清除風(fēng)扇網(wǎng)罩灰塵,系統(tǒng)性能沒有改善。
第三步:隨后仔細(xì)檢查設(shè)備工作環(huán)境,發(fā)現(xiàn)電源線的工作地和保護(hù)地比較松,接觸不好,將兩根地線接好后,再觀察性能,已無誤碼產(chǎn)生,故障排除。后經(jīng)確認(rèn),可能是在布放中繼電纜時(shí)將其拽松了。
總之,在實(shí)際維護(hù)過程中,誤碼的表現(xiàn)形式多種多樣,在實(shí)際處理誤碼問題時(shí),一定要沉著、冷靜,不要被太多的告警和性能所迷惑干擾,按照先高階、后低階的順序來處理,先采用告警性能分析法,關(guān)注誤碼發(fā)生的時(shí)間、發(fā)生的頻度、誤碼數(shù)量,然后通過逐段環(huán)回,找出發(fā)生故障的單站甚至單板,最后使用替換法來解決故障。
[1]韋樂平主編.光同步數(shù)字傳送網(wǎng).人民郵電出版社,1998.
[2]吉澤升編.傳輸原理.哈爾濱工業(yè)大學(xué)出版社,2002.
[3]華為技術(shù)有限公司內(nèi)部資料.2006.