国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)管告警分析的重載鐵路通信設(shè)備故障診斷系統(tǒng)研究

2022-09-26 07:19吳明明
鐵道貨運(yùn) 2022年9期
關(guān)鍵詞:工單網(wǎng)管運(yùn)維

張 斌,王 巍,吳明明

(1.國(guó)能朔黃鐵路發(fā)展有限責(zé)任公司 科技部,河北 肅寧 062350;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司通信信號(hào)研究所,北京 100081;3.北京英諾威爾科技股份有限公司 產(chǎn)品方案部,北京100071)

隨著朔黃鐵路通信網(wǎng)絡(luò)各專業(yè)系統(tǒng)的不斷發(fā)展擴(kuò)大,廠家不斷多元化,網(wǎng)管也不斷多樣化,網(wǎng)絡(luò)中發(fā)生一個(gè)或多個(gè)故障時(shí)可能會(huì)觸發(fā)大量的告警數(shù)據(jù)。雖然告警信息可以幫助網(wǎng)管人員定位網(wǎng)絡(luò)故障點(diǎn),但大量的告警信息既增加了網(wǎng)管系統(tǒng)的開(kāi)銷,也掩蓋了表示故障的根源或?qū)嶋H具有業(yè)務(wù)分析價(jià)值的告警信息,非常不利于網(wǎng)管人員排查故障。由于大量告警信息的分析與故障定位都需要人工手動(dòng)處理,極大影響了網(wǎng)管分析人員故障處理的效率,降低通信網(wǎng)業(yè)務(wù)服務(wù)質(zhì)量,嚴(yán)重時(shí)甚至影響行車安全。因此,針對(duì)朔黃鐵路通信網(wǎng)絡(luò)和故障處理情況,提出一種基于網(wǎng)管告警分析的智能故障診斷系統(tǒng)方案。

1 朔黃鐵路通信設(shè)備故障處理現(xiàn)狀

朔黃鐵路(神池南—黃驊港)位于山西省東北部及河北省中部,基本呈西東走向,是神黃鐵路(大柳塔—黃驊港)的重要組成部分,西起山西省朔州站,西與神朔鐵路(大柳塔—朔州)相聯(lián),東至河北省滄州市黃驊港口貨場(chǎng)。線路設(shè)計(jì)為國(guó)家I級(jí)干線、雙線電氣化鐵路,重載路基,正線總長(zhǎng)594 km[1],共計(jì)34個(gè)車站33個(gè)區(qū)間,在全國(guó)鐵路網(wǎng)中占有重要地位,特別是對(duì)加快沿線地方經(jīng)濟(jì)發(fā)展、保證華東、東南沿海地區(qū)能源供應(yīng)、擴(kuò)大我國(guó)煤炭出口能力具有重要的戰(zhàn)略意義。朔黃鐵路先后于2001年12月開(kāi)通神肅段通信工程,2002年8月開(kāi)通肅黃段通信工程,2014年開(kāi)通LTE寬帶移動(dòng)通信工程,黃萬(wàn)鐵路(黃驊南—萬(wàn)家碼頭)LTE-R網(wǎng)絡(luò)已于2020年開(kāi)通運(yùn)營(yíng)。

通信設(shè)備在通信領(lǐng)域中是關(guān)鍵的基礎(chǔ)設(shè)施,如果通信網(wǎng)設(shè)備出現(xiàn)了障礙性問(wèn)題,則會(huì)影響到整個(gè)通信網(wǎng)和通信設(shè)備的運(yùn)行[2]。而且隨著通信網(wǎng)的功能更加強(qiáng)大,對(duì)通信設(shè)備的使用質(zhì)量要求也越來(lái)越高,整個(gè)通信網(wǎng)絡(luò)也變得更加龐大、復(fù)雜,故障分析十分困難。有些故障的發(fā)生可能會(huì)引起多個(gè)網(wǎng)管子系統(tǒng)同時(shí)產(chǎn)生大量告警,各通信專業(yè)子系統(tǒng)的告警數(shù)據(jù)較為分散,形成數(shù)據(jù)“孤島”;另外各通信專業(yè)子系統(tǒng)開(kāi)發(fā)廠商采用數(shù)據(jù)標(biāo)準(zhǔn)不一,難以確保數(shù)據(jù)的一致性和完整性;缺乏有效的分析手段,難以對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行分析挖掘,導(dǎo)致大量有價(jià)值的信息流失;數(shù)據(jù)共享能力弱。部分監(jiān)測(cè)、檢測(cè)系統(tǒng)較為老舊,采集內(nèi)容較少,誤警率高,不利于故障診斷分析;相關(guān)的檢測(cè)、監(jiān)測(cè)、運(yùn)維、管理等數(shù)據(jù)分散存儲(chǔ),難以集中,無(wú)法支撐數(shù)據(jù)的挖掘分析;設(shè)備狀態(tài)等數(shù)據(jù)的分析主要依靠現(xiàn)場(chǎng)人員經(jīng)驗(yàn)判斷,效率低下且難以發(fā)現(xiàn)一些趨勢(shì)類和跨專業(yè)的隱患;設(shè)備告警信息無(wú)法很好地進(jìn)行關(guān)聯(lián)性分析,不能更有效地保證設(shè)備健康、高效、低成本的運(yùn)用,實(shí)現(xiàn)精細(xì)化、智能化[3]故障處理管理。

為解決上述問(wèn)題,在朔黃鐵路電務(wù)智能運(yùn)維平臺(tái)[4-5]采集歸一化數(shù)據(jù)的基礎(chǔ)上,建立一種基于網(wǎng)管告警分析的通信設(shè)備智能故障診斷系統(tǒng)。

2 智能故障診斷系統(tǒng)架構(gòu)

智能故障診斷的系統(tǒng)架構(gòu)[6-7]設(shè)計(jì)共分為4層,分別為數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理與存儲(chǔ)層、數(shù)據(jù)挖掘?qū)?、?shù)據(jù)應(yīng)用層。

(1)數(shù)據(jù)采集層。通過(guò)與各通信專業(yè)子系統(tǒng)、監(jiān)測(cè)檢測(cè)系統(tǒng)的北向接口,完成數(shù)據(jù)采集指令的發(fā)送和接收,并把采集到的原始數(shù)據(jù)以文件的方式保存,為故障診斷系統(tǒng)提供資源、告警的原始數(shù)據(jù)。

(2)數(shù)據(jù)預(yù)處理與存儲(chǔ)層。實(shí)現(xiàn)對(duì)原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、標(biāo)記、索引等預(yù)處理操作,然后將原始數(shù)據(jù)轉(zhuǎn)換為可以滿足故障診斷所需信息的初始數(shù)據(jù)。

(3)數(shù)據(jù)挖掘?qū)印8鶕?jù)故障診斷系統(tǒng)需求實(shí)現(xiàn)對(duì)初始數(shù)據(jù)的挖掘分析,形成滿足故障診斷系統(tǒng)功能應(yīng)用層需要的結(jié)果數(shù)據(jù),用于支撐功能應(yīng)用層的故障診斷相關(guān)功能。

(4)數(shù)據(jù)應(yīng)用層。故障診斷的主要內(nèi)容和需求,實(shí)現(xiàn)告警監(jiān)控、工程告警管理、告警相關(guān)性分析、故障診斷、故障工單管理、經(jīng)驗(yàn)與案例等功能。

故障診斷的系統(tǒng)架構(gòu)如圖1所示。

圖1 系統(tǒng)架構(gòu)Fig.1 System architecture

3 故障診斷實(shí)現(xiàn)

故障診斷是通過(guò)工程告警標(biāo)記、告警疊加等方法從各通信專業(yè)子系統(tǒng)的大量告警數(shù)據(jù)中獲取少量有價(jià)值的告警數(shù)據(jù),以業(yè)務(wù)相關(guān)性為牽引,結(jié)合時(shí)間相關(guān)性、資源相關(guān)性,根據(jù)告警相關(guān)性規(guī)則給出根源和衍生告警,對(duì)告警實(shí)現(xiàn)端到端的業(yè)務(wù)告警監(jiān)控分析、輔助故障診斷、故障處理來(lái)實(shí)現(xiàn)。另外建立并不斷豐富完善告警經(jīng)驗(yàn)庫(kù)與故障案例庫(kù),可用于告警分析、故障分析推薦處理建議,提高告警分析、故障分析、故障處理效率,降低故障處理時(shí)延[8]。故障診斷流程如圖2所示。

圖2 故障診斷流程Fig.2 Fault diagnosis process

3.1 告警數(shù)據(jù)預(yù)處理

對(duì)采集到的各通信專業(yè)網(wǎng)管系統(tǒng)的告警數(shù)據(jù)進(jìn)行預(yù)處理。將不同廠家、不同設(shè)備類型的告警數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理成統(tǒng)一格式、告警等級(jí)的數(shù)據(jù)。另外對(duì)傳輸業(yè)務(wù)經(jīng)過(guò)的端口、時(shí)隙發(fā)生的告警數(shù)據(jù)標(biāo)記上業(yè)務(wù)影響范圍。

3.2 告警收斂

告警處理插件almserver根據(jù)告警過(guò)濾規(guī)則、工程告警標(biāo)記對(duì)預(yù)處理后的標(biāo)準(zhǔn)化的大量告警數(shù)據(jù)進(jìn)行收斂[9-10]。

(1)過(guò)濾規(guī)則。根據(jù)專業(yè)、網(wǎng)管、區(qū)域、設(shè)備類型、設(shè)備型號(hào)、告警名稱、告警等級(jí)、告警類型、告警對(duì)象、告警發(fā)生的起始時(shí)間和結(jié)束時(shí)間制定過(guò)濾規(guī)則,almserver將不需要參與分析的告警數(shù)據(jù)直接過(guò)濾到歷史告警庫(kù)中。

(2)重復(fù)告警收斂。當(dāng)系統(tǒng)在限定時(shí)間內(nèi)收到重復(fù)發(fā)送的同一告警時(shí),系統(tǒng)會(huì)自動(dòng)消除重復(fù)的告警,只保留最初一條告警,同時(shí)記錄告警重復(fù)上報(bào)的次數(shù)以及上報(bào)的時(shí)間。

(3)工程告警標(biāo)記。根據(jù)施工單信息對(duì)因施工原因引起的工程告警進(jìn)行工程標(biāo)記。工程告警標(biāo)記可以實(shí)現(xiàn)告警數(shù)量的收斂,減少無(wú)效告警的干擾,提高維護(hù)人員告警分析和故障排查的處理效率。系統(tǒng)根據(jù)用戶批量錄入的施工單信息,結(jié)合施工影響網(wǎng)元、施工真實(shí)時(shí)間范圍標(biāo)記工程告警。

可以滿足2種場(chǎng)景的工程告警標(biāo)記:①實(shí)時(shí)標(biāo)記工程告警。提前填寫(xiě)施工單信息,施工過(guò)程中系統(tǒng)實(shí)時(shí)根據(jù)施工計(jì)劃時(shí)間和施工網(wǎng)元標(biāo)記工程告警。②施工后標(biāo)記工程告警。施工后錄入施工單信息,填寫(xiě)施工單真實(shí)施工時(shí)間信息,點(diǎn)擊工程告警標(biāo)記按鈕即可實(shí)現(xiàn)施工范圍內(nèi)工程告警的標(biāo)記。

經(jīng)過(guò)上述步驟,對(duì)故障引起的告警進(jìn)行收斂;告警收斂后數(shù)量對(duì)比如表1所示。①對(duì)DWDM光纜中斷故障引起的告警數(shù)據(jù)進(jìn)行收斂,收斂前為22條告警,收斂后為7條告警,告警收斂率為68.18%;②對(duì)SDH系統(tǒng)2.5G雙向線路中斷故障引起的告警數(shù)據(jù)進(jìn)行收斂,收斂前為401條告警,收斂后為15條告警,告警收斂率為96.25%。

表1 告警收斂后數(shù)量對(duì)比Tab.1 Number comparison after alarm convergence

3.3 告警相關(guān)性分析

對(duì)告警收斂后的數(shù)據(jù),通過(guò)相關(guān)性分析規(guī)則對(duì)告警信息進(jìn)行關(guān)聯(lián)和分類[7],自動(dòng)關(guān)聯(lián)識(shí)別出相關(guān)性告警組和不具有相關(guān)性的獨(dú)立告警。相關(guān)性分析規(guī)則主要依據(jù)對(duì)活躍告警的業(yè)務(wù)相關(guān)性、時(shí)間相關(guān)性、資源相關(guān)性、事件相關(guān)性進(jìn)行關(guān)聯(lián)分析,對(duì)告警數(shù)據(jù)關(guān)聯(lián)分組。

(1)業(yè)務(wù)相關(guān)性。根據(jù)業(yè)務(wù)承載鏈路經(jīng)過(guò)的設(shè)備、端口、時(shí)隙信息,制定業(yè)務(wù)相關(guān)性分析規(guī)則。某一時(shí)間段內(nèi),同一個(gè)電路所涉及到的時(shí)隙/端口的活躍告警歸為一組。

(2)時(shí)間相關(guān)性。某種情況下同時(shí)發(fā)生的活躍告警。多個(gè)網(wǎng)元同時(shí)或者5 s內(nèi)發(fā)生的活躍告警歸為一組。

(3)資源相關(guān)性。告警對(duì)象存在資源關(guān)系。如相同資源、上下級(jí)資源、資源承載、復(fù)用段端口關(guān)系。資源相關(guān)性按照以下方法進(jìn)行匹配:①當(dāng)前活躍的告警中,同一告警對(duì)象的相同告警歸為一組;②當(dāng)前活躍的告警中,上下級(jí)對(duì)象(設(shè)備-板卡-端口)的告警歸為一組;③當(dāng)前活躍的告警中,同一個(gè)復(fù)用段兩端端口的所有告警歸為一組;④當(dāng)前活躍的告警中,同一個(gè)光纜段的復(fù)用段的端口的活躍告警歸為一組。

(4)事件相關(guān)性。告警名稱存在相關(guān)性,如當(dāng)發(fā)生復(fù)用段遠(yuǎn)端接收失效指示MS_RDI告警時(shí),相同或極短時(shí)間內(nèi)的對(duì)端站線路板發(fā)生的R_LOS,R_LOF,MS_AIS告警可以歸為一組。

上述相關(guān)性規(guī)則的獲取和不斷完善主要來(lái)源于專家處理故障經(jīng)驗(yàn),以及不斷豐富完善的告警處理經(jīng)驗(yàn)和故障案例庫(kù)。

3.4 故障診斷

故障診斷對(duì)收斂后的告警數(shù)據(jù)基于相關(guān)性規(guī)則進(jìn)行規(guī)制匹配,將符合相關(guān)性規(guī)制的每組相關(guān)性告警作為一個(gè)疑似故障,并及時(shí)提示相關(guān)運(yùn)維人員。同時(shí)結(jié)合告警處理經(jīng)驗(yàn)庫(kù)和故障案例庫(kù)羅列出該疑似故障可能影響業(yè)務(wù)范圍的故障信息和相應(yīng)的故障處理建議,運(yùn)維人員只需要通知現(xiàn)場(chǎng)人員線下根據(jù)故障信息進(jìn)行簡(jiǎn)單排查驗(yàn)證,即可快速對(duì)系統(tǒng)分析出的疑似故障信息進(jìn)行判斷確認(rèn)。當(dāng)疑似故障確認(rèn)為故障后,現(xiàn)場(chǎng)故障處理人員能夠根據(jù)系統(tǒng)提供的故障處理建議快速處理故障。

故障診斷功能[11-13]輔助運(yùn)維人員快速、及時(shí)地發(fā)現(xiàn)故障,并結(jié)合業(yè)務(wù)信息進(jìn)一步實(shí)現(xiàn)端到端的業(yè)務(wù)影響分析,提高影響業(yè)務(wù)的故障處理效率,極大地避免了因故障發(fā)生處理不及時(shí)而有可能產(chǎn)生的安全隱患[14]。

故障診斷還提供運(yùn)維人員對(duì)確認(rèn)后的故障信息直接下發(fā)故障工單功能。系統(tǒng)自動(dòng)填充故障分析結(jié)果和處理建議,同時(shí)運(yùn)維人員也可手動(dòng)修改相關(guān)故障分析結(jié)果和處理建議,簡(jiǎn)化人工勞動(dòng),提高故障工單下發(fā)效率。

3.5 故障工單管理

對(duì)故障處理的全面監(jiān)控,實(shí)現(xiàn)故障處理的閉環(huán)管理審批流程,便于運(yùn)維人員在最短的時(shí)間內(nèi)有效解決網(wǎng)絡(luò)故障問(wèn)題。故障工單處理流程如圖3所示。

圖3 故障工單處理流程Fig.3 Processing flow of fault work order

(1)分公司發(fā)起故障工單給通信工隊(duì);工單狀態(tài)為未接收;故障狀態(tài)為未恢復(fù)。

(2)通信工隊(duì)進(jìn)行工單受理,若維護(hù)人員發(fā)現(xiàn)不是自己負(fù)責(zé)的故障范圍,則轉(zhuǎn)派給負(fù)責(zé)處理該故障的維護(hù)人員;工單狀態(tài)為已接收;故障狀態(tài)為未恢復(fù)。

(3)通信工隊(duì)的維護(hù)人員進(jìn)行工單故障處理,當(dāng)“具備恢復(fù)條件,且故障已經(jīng)恢復(fù)”時(shí);維護(hù)人員填寫(xiě)實(shí)際完成時(shí)間和處理結(jié)果;然后進(jìn)行工單回復(fù);工單狀態(tài)為已接收;故障狀態(tài)為未恢復(fù)。

(4)分公司對(duì)回復(fù)工單進(jìn)行確認(rèn),處理方法分別為:①當(dāng)故障恢復(fù),則信息中心對(duì)工單確認(rèn)歸檔;②故障未恢復(fù),則信息中心進(jìn)行退單操作;確認(rèn)歸檔后,工單狀態(tài)為已接收;故障狀態(tài)為已恢復(fù)。

3.6 經(jīng)驗(yàn)與案例

告警知識(shí)庫(kù)描述各類告警的發(fā)生原因和處理建議,為告警監(jiān)控模塊處理告警時(shí)可以快速匹配出告警處理經(jīng)驗(yàn)提供完善的告警知識(shí)庫(kù),且在告警監(jiān)控模塊可以通過(guò)快捷錄入告警知識(shí)庫(kù)來(lái)實(shí)現(xiàn)對(duì)知識(shí)庫(kù)的積累完善操作。告警知識(shí)庫(kù)如圖4所示,系統(tǒng)根據(jù)告警名稱、專業(yè)、廠商自動(dòng)給出告警原因和告警處理建議,方便運(yùn)維人員快速排查故障。

圖4 告警知識(shí)庫(kù)Fig.4 Alarm knowledge base

故障案例庫(kù)則是記錄一些典型故障案例發(fā)生時(shí)將會(huì)產(chǎn)生的特征告警及故障關(guān)聯(lián)告警的詳細(xì)信息,為故障診斷提供重要依據(jù),為故障工單下發(fā)時(shí)的處理方法提供建議和依據(jù)。

4 結(jié)束語(yǔ)

智能故障診斷系統(tǒng)從海量告警信息中收斂出具有業(yè)務(wù)分析價(jià)值的少量告警,以業(yè)務(wù)相關(guān)性為牽引,結(jié)合時(shí)間相關(guān)性、資源相關(guān)性、事件相關(guān)性,對(duì)告警實(shí)現(xiàn)端到端的業(yè)務(wù)告警監(jiān)控分析、輔助故障診斷、故障處理等功能,并且結(jié)合日常故障分析處理經(jīng)驗(yàn),通過(guò)數(shù)據(jù)挖掘逐步完善告警識(shí)別規(guī)則、告警相關(guān)性規(guī)則、經(jīng)驗(yàn)與案例庫(kù)。隨著經(jīng)驗(yàn)與案例的積累,將以往發(fā)生的告警處理經(jīng)驗(yàn)和故障處理典型案例進(jìn)行學(xué)習(xí)再利用于故障診斷環(huán)節(jié),形成一個(gè)正反饋效應(yīng),而故障診斷功能的不斷使用,又促進(jìn)了經(jīng)驗(yàn)與案例的積累愈加豐富,故障診斷給出的疑似故障信息的影響范圍和故障處理建議也將更加精確。隨著經(jīng)驗(yàn)與案例的不斷積累和學(xué)習(xí),故障診斷的持續(xù)使用,朔黃鐵路通信網(wǎng)故障處理運(yùn)維人員的告警分析、故障處理的效率和質(zhì)量得到提高,工作量不斷簡(jiǎn)化,對(duì)降低故障時(shí)延、提高響應(yīng)速度、改善服務(wù)質(zhì)量、降低生產(chǎn)人力成本和時(shí)間成本、提高生產(chǎn)效率和安全性、提高通信網(wǎng)各專業(yè)系統(tǒng)及網(wǎng)絡(luò)運(yùn)行的穩(wěn)定性和可靠性、確保行車安全具有重要意義。

猜你喜歡
工單網(wǎng)管運(yùn)維
高職院校計(jì)算機(jī)類專業(yè)“工單制”教學(xué)的研究與探索
基于RPA技術(shù)的機(jī)器人在配網(wǎng)調(diào)度工單發(fā)布工作中的應(yīng)用
SDN 網(wǎng)絡(luò)管理關(guān)鍵技術(shù)應(yīng)用分析與改進(jìn)思路
基于GPS的電力運(yùn)維軌跡定位系統(tǒng)
IT運(yùn)維管理系統(tǒng)的設(shè)計(jì)及應(yīng)用
基于分布式數(shù)據(jù)庫(kù)Cedar的高效工單管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
人工智能新探索 打造銀行智能工單
北京市中小學(xué)網(wǎng)管教師培訓(xùn)需求研究
計(jì)算機(jī)網(wǎng)絡(luò)管理維護(hù)探析
電子政務(wù)甲方運(yùn)維管理的全生命周期