[李忠諭 遲景升 李哲]
現(xiàn)網(wǎng)發(fā)生網(wǎng)絡(luò)故障時(shí),通過系統(tǒng)結(jié)合網(wǎng)管告警和資源拓?fù)湫畔⑦M(jìn)行故障定位檢測(cè),進(jìn)而實(shí)施故障搶修,是當(dāng)前運(yùn)營(yíng)商的主要的網(wǎng)絡(luò)運(yùn)維方式。但是受設(shè)備或網(wǎng)管能力等原因影響,存在網(wǎng)管告警不完整的情況,表現(xiàn)為現(xiàn)網(wǎng)發(fā)生了故障,但是并沒有產(chǎn)生對(duì)應(yīng)的網(wǎng)管告警。這部分不能通過告警觸發(fā)檢測(cè)出來的故障,仍然需要依靠用戶申告業(yè)務(wù)故障后再進(jìn)行人工排查和定位故障點(diǎn),這不能滿足當(dāng)前智慧化運(yùn)維的要求。
本文通過應(yīng)用用戶申告工單觸發(fā)進(jìn)行光接入網(wǎng)故障分析,能夠快速自動(dòng)定位故障段落,作為一種通過告警觸發(fā)進(jìn)行故障分析的補(bǔ)充手段,實(shí)現(xiàn)系統(tǒng)檢測(cè)光接入網(wǎng)故障的全面覆蓋。
本方法通過用戶申告工單觸發(fā)系統(tǒng)流程,根據(jù)預(yù)設(shè)的故障分析流程,結(jié)合網(wǎng)管和資源信息定位故障段落,實(shí)現(xiàn)系統(tǒng)對(duì)光接入網(wǎng)故障的主動(dòng)檢測(cè)。
系統(tǒng)首先接收用戶申告工單,提取工單中的業(yè)務(wù)接入號(hào),查詢到接入號(hào)關(guān)聯(lián)的終端信息,進(jìn)而查詢網(wǎng)管上此終端所屬PON 口下的網(wǎng)管信息,獲取關(guān)聯(lián)ONU的運(yùn)行狀態(tài)和離線時(shí)間,再結(jié)合資源網(wǎng)絡(luò)拓?fù)湫畔?,通過故障分析邏輯實(shí)現(xiàn)故障段落定位,整體方案框架如圖1 所示。
圖1 故障分析方案框架
2.2.1 通過用戶申告工單關(guān)聯(lián)終端設(shè)備
當(dāng)用戶發(fā)現(xiàn)業(yè)務(wù)不可用時(shí),可以通過撥打10000 號(hào)或微信公眾號(hào)等渠道進(jìn)行故障申告,工單處理系統(tǒng)將生成相應(yīng)的申告工單,申告工單信息包括故障現(xiàn)象、故障業(yè)務(wù)接入號(hào)等(其中工單中故障現(xiàn)象為規(guī)范化的描述,比如網(wǎng)絡(luò)不可用、網(wǎng)速慢、頻繁掉線等)。系統(tǒng)采用JDBC的方式,接收工單處理系統(tǒng)的用戶申告工單信息,提取故障現(xiàn)象為“網(wǎng)絡(luò)不可用”的工單,按工單信息中的業(yè)務(wù)接入號(hào)查詢到對(duì)應(yīng)的終端設(shè)備,以此終端設(shè)備定義為申告設(shè)備,從而實(shí)現(xiàn)了從用戶申告轉(zhuǎn)變?yōu)榻K端告警行為。
2.2.2 查看申告設(shè)備同PON 口網(wǎng)管信息
以該用戶申告業(yè)務(wù)接入號(hào)查詢的終端為申告設(shè)備ONU,系統(tǒng)查詢網(wǎng)管上同PON 口下的所有ONU的運(yùn)行狀態(tài),獲取到所有終端的當(dāng)前狀態(tài)以及最后一次離線時(shí)間(LASTOFFTIME)。終端的運(yùn)行狀態(tài)主要分為三類,分別是UP 狀態(tài)、LOS 狀態(tài)和POWEROFF 狀態(tài)等,網(wǎng)管上ONU的最后一次離線時(shí)間記錄的是ONU 最后一次從在線狀態(tài)轉(zhuǎn)變?yōu)榉窃诰€狀態(tài)的時(shí)間,包括ONU 最后一次從UP 狀態(tài)轉(zhuǎn)變?yōu)長(zhǎng)OS 狀態(tài)的時(shí)間,或者ONU 最后一次從UP 狀態(tài)轉(zhuǎn)變?yōu)镻OWEROFF 狀態(tài)的時(shí)間。本文所述的ONU 離線時(shí)間,即是指該ONU的最后一次離線時(shí)間(LASTOFFTIME)。
2.2.3 結(jié)合資源拓?fù)湫畔⑦M(jìn)行分析
根據(jù)PON 網(wǎng)絡(luò)分光結(jié)構(gòu),上聯(lián)光路終端會(huì)引起下聯(lián)所有在線ONU 同時(shí)離線,因此,當(dāng)某條上聯(lián)光路下掛的所有在線ONU 同時(shí)離線時(shí),可以認(rèn)為是上聯(lián)光路發(fā)生了故障[1,2]。
結(jié)合資源拓?fù)溥M(jìn)行故障定位,以PON 網(wǎng)絡(luò)二級(jí)分光為例,輸出主光路斷(PON 口至一級(jí)OBD 段落故障)、分支光路斷(一級(jí)OBD 至二級(jí)OBD 段落故障)、皮纖斷(二級(jí)OBD 至ONU 段落故障)。為了提高故障定位準(zhǔn)確率,針對(duì)申告設(shè)備進(jìn)行光接入網(wǎng)故障分析,系統(tǒng)定義了4 個(gè)原則。
(1)同時(shí)離線定義:考慮到時(shí)延、系統(tǒng)交互影響等原因,以申告設(shè)備的離線時(shí)間作為故障分析基準(zhǔn)時(shí)間點(diǎn)T0,認(rèn)為在故障分析時(shí)間點(diǎn)前后10 分鐘時(shí)間段(記為T0±10)基準(zhǔn)時(shí)間段。在基準(zhǔn)時(shí)間段內(nèi)離線的ONU 屬于與申告設(shè)備同時(shí)離線。本文描述的同時(shí)離線,均是指在T0±10 分鐘時(shí)間段內(nèi)離線。
(2)上聯(lián)故障排除原則:現(xiàn)網(wǎng)發(fā)生上聯(lián)光路故障會(huì)導(dǎo)致該光路下掛所有ONU 立刻離線,如果故障發(fā)生后,上聯(lián)光路下掛的設(shè)備存在在線的、在T0±10 分鐘后離線的ONU(比如,有個(gè)設(shè)備離線了,但是它是在T0的30分鐘后離線的,那么造成申告設(shè)備離線的故障與這個(gè)設(shè)備離線的原因并不相同,申告設(shè)備離線的時(shí)候,這個(gè)設(shè)備是在線的。間接也可以證明,申告設(shè)備離線的原因并不是上聯(lián)光路引起的),那么排除上聯(lián)光路是造成申告設(shè)備通信故障的原因。
(3)向下判定故障原則:發(fā)生上聯(lián)光路故障,下掛所有對(duì)象都將離線,且多個(gè)對(duì)象是屬于同時(shí)離線的,如果在故障時(shí)間段只有一個(gè)對(duì)象離線,系統(tǒng)認(rèn)定是下聯(lián)線路發(fā)生故障,并不是上聯(lián)光路故障。對(duì)于分支光路是所有下掛ONU 都離線,且多個(gè)ONU 同時(shí)離線;對(duì)于主光路是所有二級(jí)OBD 下掛的ONU 都離線,且多個(gè)二級(jí)OBD的ONU 同時(shí)離線(即是說需要同時(shí)離線的ONU 分布在多個(gè)二級(jí)OBD 上,才認(rèn)為多個(gè)二級(jí)OBD 共用的主光路故障)。
(4)掉電影響原則:受終端性能影響,部分ONU不具備上報(bào)掉電能力(表現(xiàn)為網(wǎng)管無法識(shí)別ONU 是否發(fā)生了掉電),為了提高故障檢測(cè)準(zhǔn)確率,系統(tǒng)規(guī)定在故障發(fā)生時(shí)間段內(nèi),只要同PON 口下有掉電狀態(tài)的ONU,則認(rèn)為本次故障是由于市電停電或者用戶關(guān)電等因素引起。
那么判斷故障段落的規(guī)則是:
(l)主光路斷:申告設(shè)備所在PON 口下掛所有ONU均離線,且沒有在T0+10 分鐘后離線的ONU,且在故障發(fā)生時(shí)有多個(gè)ONU 同時(shí)離線(系統(tǒng)采用至少2 個(gè)ONU同時(shí)離線,理論上同時(shí)離線的ONU 越多,故障判定就越準(zhǔn)確),且同時(shí)離線的ONU 分布在多個(gè)OBD 上,判定為主光路斷。
(2)分支光路斷:申告設(shè)備所在二級(jí)OBD 下所有ONU 均離線,且沒有在T0+10 分鐘后離線的ONU,且在故障發(fā)生時(shí)有多個(gè)ONU 同時(shí)離線,但是在同一PON 口存在ONU 在線或T0+10 分鐘后離線的ONU,判定為分支光路斷。
(3)皮纖斷:故障發(fā)生時(shí),有且只有申告設(shè)備離線,判定為皮纖斷。
(4)ONU 掉電:在申告設(shè)備離線同時(shí),同PON 口下有ONU 發(fā)生掉電。
那么以申告設(shè)備觸發(fā)故障分析流程,對(duì)每個(gè)申告設(shè)備輸出對(duì)應(yīng)的故障結(jié)論,分析流程示意圖如圖2 所示。
圖2 故障分析流程示意圖
需要說明的是,當(dāng)現(xiàn)網(wǎng)發(fā)生故障,如果系統(tǒng)通過網(wǎng)管告警實(shí)現(xiàn)了主動(dòng)檢測(cè)到群障故障(群障故障是指比如主光路斷、分支光路斷等會(huì)影響多個(gè)用戶業(yè)務(wù)使用的故障),將直接主動(dòng)派出故障單給現(xiàn)場(chǎng)搶修,同時(shí)會(huì)發(fā)起群障攔截[3],對(duì)于該群障影響的用戶申告進(jìn)行攔截,不會(huì)再下申告工單,也不需要進(jìn)入本文所述故障檢測(cè)流程,不至于產(chǎn)生重復(fù)故障單。當(dāng)現(xiàn)網(wǎng)發(fā)生故障,由于網(wǎng)管告警丟失等其他原因?qū)е孪到y(tǒng)沒主動(dòng)檢測(cè)到故障時(shí),在首個(gè)受影響的用戶申告業(yè)務(wù)不可用故障后,系統(tǒng)經(jīng)過本文方法分析檢測(cè)到光接入網(wǎng)故障段落,輸出是主光路斷、分支光路斷等群障故障,或皮纖斷、ONU 掉電等單用戶故障,系統(tǒng)會(huì)即時(shí)發(fā)起故障搶修單或上門檢測(cè)單。對(duì)于檢測(cè)到的群障故障,系統(tǒng)也會(huì)同時(shí)發(fā)起群障攔截,當(dāng)該群障影響的其他用戶再申告業(yè)務(wù)不可用故障時(shí),將會(huì)被系統(tǒng)檢測(cè)到業(yè)務(wù)所在區(qū)域存在群障,而不需要再次進(jìn)入故障分析流程。
電信運(yùn)營(yíng)商依靠網(wǎng)管告警觸發(fā)故障檢測(cè),因?yàn)榇嬖诟婢煌暾脑?,僅僅能夠?qū)F(xiàn)網(wǎng)70%的光接入網(wǎng)故障主動(dòng)檢測(cè)并派單搶修,依舊有30%的故障需要人工上門排查分析。本文方法上線后,運(yùn)營(yíng)商實(shí)現(xiàn)了系統(tǒng)主動(dòng)檢測(cè)100%的光接入網(wǎng)故障,全面推進(jìn)落地網(wǎng)絡(luò)運(yùn)營(yíng)主動(dòng)維護(hù)模式,全面提升了光接入網(wǎng)監(jiān)控和維護(hù)支撐能力。
運(yùn)營(yíng)商通常管理的OLT 設(shè)備達(dá)到幾萬臺(tái),如果通過升級(jí)設(shè)備或網(wǎng)管能力來保障告警上報(bào)能力,進(jìn)而提升光接入網(wǎng)故障的主動(dòng)分析檢測(cè)能力,將是一個(gè)浩大的投資。而本文所述方法,可以在現(xiàn)有軟硬件能力的基礎(chǔ)上,通過生產(chǎn)流程的數(shù)據(jù)應(yīng)用,即可實(shí)現(xiàn)系統(tǒng)主動(dòng)檢測(cè)故障的全面覆蓋。