摘 要:數(shù)字同步網(wǎng)是電信網(wǎng)絡(luò)的基礎(chǔ)支撐網(wǎng)絡(luò)之一,是各業(yè)務(wù)網(wǎng)高質(zhì)量運(yùn)行的保證。華為BITS(通信樓綜合定時(shí)供給系統(tǒng))設(shè)備,作為整個(gè)通信樓內(nèi)及通信區(qū)域內(nèi)的專用定時(shí)供給發(fā)生器,是數(shù)字同步網(wǎng)的關(guān)鍵節(jié)點(diǎn),現(xiàn)網(wǎng)應(yīng)用中有V2與V3兩個(gè)版本。本文通過對(duì)中國移動(dòng)秦皇島分公司一則非典型的華為BITSV3設(shè)備參考源不可用故障,進(jìn)行儀表現(xiàn)場(chǎng)測(cè)試與問題排除,深入剖析故障原因,總結(jié)故障處理經(jīng)驗(yàn)與預(yù)防措施,為華為BITSV3設(shè)備的日常維護(hù)與故障修復(fù)提供借鑒與參考。
關(guān)鍵詞:華為BITSV3; 參考源不可用;測(cè)試;排除
一、故障現(xiàn)象描述
中國移動(dòng)秦皇島分公司華為BITS系統(tǒng)連接關(guān)系如圖1所示,
(1)秦皇島分公司機(jī)房樓BITSV2設(shè)備(二級(jí)鐘),一方面通過兩套PDH系統(tǒng)轉(zhuǎn)接至綜合樓,為綜合樓BITSV3設(shè)備提供輸入源;另一方面為SDH網(wǎng)絡(luò)提供輸入源。
(2)秦皇島分公司綜合樓BITSV3設(shè)備(三級(jí)鐘),主要為綜合樓不同的MGW/Server核心網(wǎng)交換機(jī)提供輸入源。
(3)8月23日晚22:11左右,秦皇島分公司“綜合樓BITS V3”設(shè)備產(chǎn)生“系統(tǒng)無主用源”、“MITE(最大時(shí)間間隔誤差)、TIE(時(shí)間間隔誤差)性能越限”等告警,系統(tǒng)處于自由振蕩狀態(tài),導(dǎo)致部分基站閃報(bào)TF(時(shí)鐘不同步)告警。
(4)8月24日凌晨2:00左右,通過對(duì)“綜合樓BITSV3”設(shè)備配置“參考源不參與選源控制”,“綜合樓BITSV3”設(shè)備重新鎖定參考源,系統(tǒng)恢復(fù)正常,同時(shí)基站TF告警消失。
(5)觀察兩天后,8月26日9:13,“綜合樓BITS V3”再次上報(bào)“主用源性能越限”告警,導(dǎo)致參考源不可用,并再次進(jìn)入保持狀態(tài)。
二、故障原因分析
根據(jù)以上故障現(xiàn)象,分析可能的故障原因有:
(1)機(jī)房樓BITSV2輸出或相關(guān)連接件故障;
(2)負(fù)責(zé)輸入源轉(zhuǎn)接的PDH系統(tǒng)或相關(guān)連接件故障;
(3)綜合樓BITSV3設(shè)備LCIM(輸入測(cè)試板 )板卡或相關(guān)連接件故障;
(4)環(huán)境溫度影響綜合樓BITSV3設(shè)備SOCU(衛(wèi)星信號(hào)接收及晶體振蕩器時(shí)鐘單元 )板卡工作異常。
三、現(xiàn)場(chǎng)測(cè)試與故障排除
(1)因本次故障現(xiàn)象多次反復(fù),且具有一定的隨機(jī)性,因此計(jì)劃通過現(xiàn)場(chǎng)儀表測(cè)試的方式,逐一排除可能的故障原因,并最終定位故障點(diǎn)。測(cè)試前再次確認(rèn)現(xiàn)網(wǎng)硬件連接情況(如圖1所示)。綜合樓BITS V3為三級(jí)鐘配置,2塊時(shí)鐘板均為SOCU,以恒溫晶振作為本振。綜合樓BITS V3通過PDH通道跟蹤上游BITS V2輸出的E1信號(hào),并提供時(shí)鐘信號(hào)給下游其他設(shè)備。
(2)8月27日凌晨測(cè)試BITS V2設(shè)備及BITS V3設(shè)備輸出:
本次測(cè)試使用兩塊儀表,一是XG7230 sync analyzer,其內(nèi)部配置銣鐘,除進(jìn)行測(cè)試外還可以為其他儀表輸出基準(zhǔn)源;二是JDSU MTS8000,該儀表測(cè)試需要外接基準(zhǔn)源。
本次儀表測(cè)試連接關(guān)系如圖2所示:XG7230 sync analyzer 的RX,連接一路“綜合樓BITS V3”的輸入源;TX為JDSU MTS8000提供外接基準(zhǔn)源。JDSU MTS8000的RX1連接“綜合樓BITS V3”TSOU板的1路輸出。
測(cè)試結(jié)果顯示,BITS V2輸出的頻率偏差小于0.1ppb,可以確認(rèn)BITS V2及PDH輸出正常。BITS V3輸出的E1信號(hào)與輸入源一致,小于0.1ppb。因此可排除第1、第2種故障的可能。由于故障現(xiàn)象暫時(shí)沒有重現(xiàn),決定掛表測(cè)試一段時(shí)間。
(3)8月28日凌晨,為了確定故障點(diǎn)是BITS V2設(shè)備還是BITS V3設(shè)備,使用兩臺(tái)測(cè)試儀表,分別同時(shí)測(cè)試BITS V3設(shè)備輸入(BITS V2的輸出)和輸出。多次測(cè)試發(fā)現(xiàn),BITS V3設(shè)備的輸出存在幾次較大的不穩(wěn)定,而輸入一直處于平穩(wěn)狀態(tài)。進(jìn)一步核對(duì)性能數(shù)據(jù)和操作步驟發(fā)現(xiàn),BITS V3設(shè)備輸出的幾次不穩(wěn)定與人員進(jìn)入機(jī)房時(shí)間相符,初步懷疑人員進(jìn)入機(jī)房對(duì)設(shè)備周邊環(huán)境產(chǎn)生的影響導(dǎo)致了輸出的變化。但由于這種變化沒有達(dá)到故障重現(xiàn)的程度,只能再次進(jìn)行持續(xù)測(cè)試。
(4)8月28日上午9:40,綜合樓BITS V3設(shè)備再次上報(bào)“系統(tǒng)無主用源”、“MITE、TIE性能越限”等告警,故障重現(xiàn)。查看測(cè)試儀表確認(rèn)BITS V3的輸出頻率發(fā)生了變化,儀表監(jiān)測(cè)值為5ppb。BITS V3的輸入源測(cè)試結(jié)果基本不變,為0.1ppb。與機(jī)房出入記錄核對(duì)發(fā)現(xiàn),此次告警與工程人員進(jìn)入機(jī)房時(shí)間相符。到機(jī)房現(xiàn)場(chǎng)查看發(fā)現(xiàn),BITS V3設(shè)備機(jī)柜門被打開,同時(shí)對(duì)面烽火設(shè)備機(jī)柜門關(guān)閉(前期測(cè)試時(shí),該機(jī)柜門一直處于打開狀態(tài)),此時(shí)在BITS V3設(shè)備旁明顯感覺到有空調(diào)強(qiáng)風(fēng)。重新恢復(fù)前天晚上的兩機(jī)柜門的位置,BITSV3輸出的頻率再次發(fā)生了變化。儀表監(jiān)測(cè)值為-2ppb,負(fù)向變化了7ppb。BITS V3的輸入源測(cè)試結(jié)果基本不變,為0.1ppb。初步判斷開關(guān)機(jī)柜門對(duì)BITS V3的輸出頻率有一定的影響。
(5)綜合樓機(jī)房現(xiàn)場(chǎng)環(huán)境及機(jī)架位置如圖3所示:
機(jī)房專用空調(diào)的出風(fēng)口距離BITS V3約3米,強(qiáng)勁出風(fēng)直接朝向BITS V3機(jī)柜。烽火設(shè)備的機(jī)柜門打開時(shí),可以恰好擋住風(fēng)力。經(jīng)過現(xiàn)場(chǎng)比對(duì),在BITS V3設(shè)備機(jī)柜門打開的情況下,烽火設(shè)備機(jī)柜門的打開與關(guān)閉,短時(shí)間內(nèi)BITS V3設(shè)備周邊的溫度會(huì)產(chǎn)生劇烈的變化。與工程人員核實(shí)后,結(jié)合設(shè)備歷史告警、性能發(fā)現(xiàn),BITS V3設(shè)備每次上報(bào)告警的時(shí)間都與工程人員施工時(shí)間相符合。
(6)8月29日凌晨,針對(duì)白天發(fā)生的場(chǎng)景再次進(jìn)行了測(cè)試。還原當(dāng)時(shí)的情況后,故障重現(xiàn),設(shè)備再次上報(bào)“系統(tǒng)無主用源”、“MTIE、TIE性能越限”等告警。為了驗(yàn)證開關(guān)機(jī)柜門對(duì)BITS V3輸出的影響,分別對(duì)三塊SOCU單板(兩塊現(xiàn)網(wǎng)單板和一塊備用板)均進(jìn)行機(jī)柜門開關(guān)的測(cè)試。驗(yàn)證發(fā)現(xiàn)對(duì)三塊SOCU輸出的的頻率輸出均有影響,三塊單板的影響分別為頻偏變化5ppb,0.4ppb,0.4ppb。其中一塊SOCU對(duì)溫度的影響表現(xiàn)比較大。
(7)最終確定故障點(diǎn)為:開關(guān)機(jī)柜門導(dǎo)致空調(diào)對(duì)綜合樓BITS V3設(shè)備溫度和風(fēng)速產(chǎn)生變化,引起了綜合BITS V3設(shè)備晶體輸出的頻偏發(fā)生變化,最終導(dǎo)致輸入源超限而系統(tǒng)進(jìn)入保持。現(xiàn)場(chǎng)解決及預(yù)防措施:首先,改變機(jī)房空調(diào)送風(fēng)方向,由橫向直吹改為上下垂直送風(fēng)。避免空調(diào)對(duì)設(shè)備直吹,以免設(shè)備周邊環(huán)境溫度變化劇烈。其次,將綜合樓BITS V3設(shè)備由三級(jí)鐘升級(jí)改造為更加穩(wěn)定的二級(jí)鐘,時(shí)鐘板使用SRCU(衛(wèi)星信號(hào)接收及銣振蕩器時(shí)鐘單元)。銣鐘板為二級(jí)鐘的本振。二級(jí)鐘任何情況下(自由、保持、跟蹤、快捕)系統(tǒng)輸出信號(hào)的頻偏均小于16ppb,滿足基站50ppb的要求。
四、故障經(jīng)驗(yàn)總結(jié)
(1)BITS V3的性能監(jiān)測(cè)數(shù)據(jù)TIE、MTIE、TDEV、頻率偏差等均使用本振系統(tǒng)輸出作為參考,對(duì)輸入源進(jìn)行監(jiān)測(cè)。系統(tǒng)輸出頻率的變化將導(dǎo)致BITS V3監(jiān)測(cè)的輸入源的性能監(jiān)測(cè)數(shù)據(jù)的變化。影響晶振輸出頻率的主要因素有溫度、電壓、振動(dòng)。開關(guān)機(jī)柜門會(huì)影響晶振的工作溫度。
(2)通過用儀器測(cè)試結(jié)果、以及BITS V3相對(duì)于輸入的性能監(jiān)測(cè)曲線數(shù)據(jù)可知,開關(guān)機(jī)柜門導(dǎo)致的溫度和風(fēng)速的變化,引起了BITS V3的晶體輸出的頻偏發(fā)生變化,導(dǎo)致了BITS V3上報(bào)性能監(jiān)測(cè)MTIE、TDEV、頻率偏差超限告警。而參考源性能超限告警參與了參考源選擇控制,這些超限告警導(dǎo)致參考源全部不可用,系統(tǒng)無主用源,BITS V3進(jìn)入保持狀態(tài)。
(3)系統(tǒng)保持七天后,進(jìn)入自由振蕩狀態(tài)。綜合樓BITS V3設(shè)備為晶體鐘,自由振蕩的時(shí)鐘精度無法滿足基站的要求,導(dǎo)致基站設(shè)備上報(bào)TF告警。
五、小結(jié)
本則非典型的華為BITSV3設(shè)備參考源不可用故障,具有一定的隱蔽性、巧合性和隨機(jī)性。正好趕上位于前后排的BITSV3設(shè)備與烽火設(shè)備同時(shí)處于施工期,且當(dāng)BITSV3機(jī)柜門打開時(shí),空調(diào)送風(fēng)直對(duì)BITSV3設(shè)備時(shí),溫度的強(qiáng)烈變化才會(huì)引起B(yǎng)ITSV3設(shè)備出現(xiàn)告警。針對(duì)這起疑難故障,最終通過現(xiàn)場(chǎng)儀表測(cè)試、故障現(xiàn)象還原、原因深入分析,終于準(zhǔn)確定位了故障點(diǎn)并使故障得以徹底排除。相信其排查思路、測(cè)試方法、處理經(jīng)驗(yàn)以及預(yù)防措施,均可對(duì)華為BITSV3設(shè)備的日常維護(hù)與類似故障處理提供借鑒與參考。
參考文獻(xiàn):
[1]程根蘭.數(shù)字同步網(wǎng).人民郵電出版社,2001.
[2]華為數(shù)字同步網(wǎng)設(shè)備SYNLOCK V3技術(shù)手冊(cè).
作者簡(jiǎn)介:李麗紅:通信工程師(高級(jí)),現(xiàn)任職于中國移動(dòng)通信集團(tuán)河北有限公司秦皇島分公司,網(wǎng)絡(luò)部傳輸班組。是中國移動(dòng)通信集團(tuán)公司傳輸專業(yè)(烽火)技術(shù)支援專家。主要從事傳輸網(wǎng)絡(luò)規(guī)劃、維護(hù)及優(yōu)化工作。