張亞杰,馬 濤,曹曉波,付 龍,李 兵,韓桂楠
(1.國網(wǎng)河北省電力有限公司雄安新區(qū)供電公司,河北 雄安新區(qū) 071800;2.國網(wǎng)河北省電力有限公司營銷服務(wù)中心,石家莊 050021)
用電信息采集系統(tǒng)營銷業(yè)務(wù)接口(簡稱“營銷接口”)承擔(dān)了營銷系統(tǒng)及采集系統(tǒng)間檔案及數(shù)據(jù)的傳輸工作,實(shí)現(xiàn)了系統(tǒng)間營銷業(yè)務(wù)的完整連接。如該業(yè)務(wù)接口在運(yùn)行過程中突發(fā)故障,勢必影響營銷業(yè)務(wù)工作的正常開展,造成采集運(yùn)維、遠(yuǎn)程復(fù)電、業(yè)擴(kuò)報裝等工作中斷,及時定位營銷業(yè)務(wù)接口故障原因、縮短故障持續(xù)時間在系統(tǒng)運(yùn)維工作中極其重要。本文對用電信息采集系統(tǒng)營銷業(yè)務(wù)接口業(yè)務(wù)流程進(jìn)行了深入研究,并結(jié)合日常故障處理經(jīng)驗(yàn),得出了一套行之有效的故障排查流程與處置方法。
營銷接口硬件設(shè)備主要由負(fù)載均衡設(shè)備、接口服務(wù)器、數(shù)據(jù)庫服務(wù)器、REDIS服務(wù)器、后臺服務(wù)器_、采集前置服務(wù)器、通信前置服務(wù)組成,以上設(shè)備相互合作共同支撐營銷接口的業(yè)務(wù)流程。用電信息采集系統(tǒng)營銷接口相關(guān)設(shè)備及功能,見表1。
表1 用電信息采集系統(tǒng)營銷接口相關(guān)設(shè)備及功能
營銷接口的工作以工單的形式開展,具體工作流程如下:
a.營銷系統(tǒng)完成相關(guān)檔案的整合,并將數(shù)據(jù)推送至營銷采集系統(tǒng)中間庫;
b.通過Webservice的方式通知采集系統(tǒng)側(cè)接口(即采集營銷接口),調(diào)用相關(guān)接口服務(wù),負(fù)載均衡設(shè)備將工單均衡的分配至各個接口服務(wù)器;
c.采集系統(tǒng)營銷接口讀取中間庫檔案及數(shù)據(jù);
d.將檔案及數(shù)據(jù)寫入采集系統(tǒng)數(shù)據(jù)庫,并開展檔案校驗(yàn)、檔案同步任務(wù);
e.檔案同步任務(wù)完成后通過Webservice反饋營銷系統(tǒng)調(diào)試成功;
f.采集系統(tǒng)繼續(xù)開展創(chuàng)建測量點(diǎn)、創(chuàng)建考核單元、配置任務(wù)、生成參數(shù)等業(yè)務(wù)環(huán)節(jié);
g.參數(shù)生成完成后將參數(shù)寫入Redis服務(wù)器,經(jīng)由采集前置、通信前置服務(wù)器開展相關(guān)的參數(shù)下發(fā)任務(wù),下發(fā)成功通知接口,下發(fā)失敗則任務(wù)轉(zhuǎn)入后臺服務(wù)器排隊,再由后臺服務(wù)器發(fā)起相關(guān)的參數(shù)下發(fā)指令;
h.進(jìn)行后續(xù)其他下發(fā)操作,并更新工單調(diào)試狀態(tài)。
用電信息采集系統(tǒng)營銷接口異??梢苑譃橐韵?種情景。
情景一:所有調(diào)試工單在完成營銷系統(tǒng)側(cè)流程后,調(diào)用接口服務(wù)一段時間后報錯,采集側(cè)未接收到相關(guān)工單,可以判斷為調(diào)用接口失敗,應(yīng)該依次核查接口運(yùn)行情況(含程序及硬件)、F5負(fù)載均衡設(shè)備(含程序及硬件)。
情景二:所有調(diào)試工單在完成營銷系統(tǒng)側(cè)流程后,調(diào)用接口服務(wù)立即報錯,采集側(cè)未接收到相關(guān)工單,可以判斷為數(shù)據(jù)庫接收檔案異常,應(yīng)該核查數(shù)據(jù)庫運(yùn)行情況(含程序及硬件)。
情景三:所有調(diào)試工單在完成營銷系統(tǒng)側(cè)流程后,調(diào)用接口服務(wù)一段時間后報錯,采集側(cè)已接收到相關(guān)工單,weblogic服務(wù)告警,可以判斷為數(shù)據(jù)庫死鎖,應(yīng)該對數(shù)據(jù)庫死鎖情況進(jìn)行核查。
情景四:所有調(diào)試工單在完成營銷系統(tǒng)側(cè)流程后,調(diào)用接口服務(wù)一段時間后報錯,采集側(cè)已接收到相關(guān)工單,weblogic服務(wù)未告警,可以判斷為營銷系統(tǒng)接受采集反饋異常,應(yīng)該對營銷系統(tǒng)情況進(jìn)行核查。
情景五:所有調(diào)試工單在參數(shù)生成異常及參數(shù)下發(fā)出現(xiàn)異常,則應(yīng)重點(diǎn)考慮后臺任務(wù)生成是否異常、REDIES運(yùn)行是否異常、前置參數(shù)下發(fā)是否異常,因此需要重點(diǎn)一次排查后臺服務(wù)器運(yùn)行情況、REDIES服務(wù)器運(yùn)行情況、前置服務(wù)器運(yùn)行情況。
經(jīng)過對以上異常現(xiàn)象與故障原因的長期分析,可得出如下故障排查流程。具體流程示意見圖1。
圖1 用電信息采集系統(tǒng)營銷接口故障排查及處置方法流程示意
a.首先發(fā)現(xiàn)異常情況,按照異常現(xiàn)象,判斷屬于哪種情景。
b.若屬于情景一則依次核查接口(含程序及硬件)、F5負(fù)載均衡設(shè)備(含程序及硬件)是否正常工作。若發(fā)現(xiàn)某設(shè)備或程序存在異常立刻進(jìn)行異常處理,處理完成后觀察工單調(diào)試是否正常,恢復(fù)正常則流程結(jié)束;沒有恢復(fù)正常,繼續(xù)核查其他設(shè)備,直到所有設(shè)備均核查完成,但工單調(diào)試仍異常,則回到第一步重新判斷屬于哪種情景,依次向下進(jìn)行。
c.若屬于情景二則核查通數(shù)據(jù)庫(含程序及硬件)是否正常工作。若發(fā)現(xiàn)該設(shè)備存在異常立刻進(jìn)行異常處理,處理完成后觀察工單調(diào)試是否正常,恢復(fù)正常則流程結(jié)束;沒有恢復(fù)正常,則返回到第一步重新判斷屬于哪種情景,依次向下進(jìn)行。
d.若屬于情景三則核查數(shù)據(jù)庫是否存在死鎖,若發(fā)現(xiàn)異常及時進(jìn)行異常處理。處理完成后,觀察工單調(diào)試是否恢復(fù)正常,若正常則結(jié)束。若不正常,則返回到第一步重新判斷屬于哪種情景,依次向下進(jìn)行。
e.若屬于情景四則依次核查營銷系統(tǒng)側(cè)接口是否正常工作。若發(fā)現(xiàn)存在異常立刻進(jìn)行異常處理,處理完成后觀察采集工單調(diào)試是否正常,恢復(fù)正常則流程結(jié)束;沒有恢復(fù)正常,則回到第一步重新判斷屬于哪種情景,依次向下進(jìn)行。
f.若屬于情景五則依次核查后臺服務(wù)器及程序、REDIES 服務(wù)器及程序、前置服務(wù)器及程序,若發(fā)現(xiàn)某設(shè)備或程序存在異常立刻進(jìn)行異常處理,處理完成后觀察工單調(diào)試是否正常,恢復(fù)正常則流程結(jié)束;沒有恢復(fù)正常,繼續(xù)核查其他設(shè)備,直到所有設(shè)備均核查完成但工單調(diào)試仍異常,則回到第一步重新判斷屬于哪種情景,依次向下進(jìn)行。
營銷接口是營銷系統(tǒng)的重要環(huán)節(jié),對其常見故障進(jìn)行分析并提煉出快速、高效的處理方法,對營銷業(yè)務(wù)的順暢流轉(zhuǎn)具有重要的意義。本文從多個維度對營銷接口故障排查進(jìn)行分析與判斷,首先確定營銷接口的異常狀態(tài),再根據(jù)異常狀態(tài)確定可能的異常位置,從而保證及時定位故障點(diǎn),快速地對營銷接口故障進(jìn)行排查和處理,適用于大范圍內(nèi)營銷接口工單故障的排查和處理。