劉君發(fā),胡文皖,胡鵬
(福建寧德核電有限公司,福建福鼎,355200)
某核電廠分散控制系統(tǒng)(簡稱DCS)根據(jù)設(shè)計安全等級不同劃分為NC級(非安全級)及1E級(安全級),盡管二者可以各自獨立的與其對應(yīng)安全等級設(shè)備進行聯(lián)動,但共用了同一人機交互平臺,因此不可避免的要進行數(shù)據(jù)交互[1]。
根據(jù)交互數(shù)據(jù)類型的不同,在NC/1E側(cè)分別配置有三對網(wǎng)關(guān),依次命名為L1a網(wǎng)關(guān)、L1b網(wǎng)關(guān)、L2網(wǎng)關(guān)。三種網(wǎng)關(guān)根據(jù)交互數(shù)據(jù)類型的不同軟件配置上存在細微差異。從設(shè)備運行可靠性角度考慮,設(shè)計上對每一種網(wǎng)關(guān)都是冗余配置的。網(wǎng)關(guān)冗余配置的類型為主從冗余,即一臺工作為主機、一臺工作為從機,主從機均分別從對側(cè)網(wǎng)關(guān)接收數(shù)據(jù)但僅由主機向人機界面?zhèn)魉蛿?shù)據(jù)。主從機間通過專用網(wǎng)絡(luò)“R網(wǎng)”彼此進行數(shù)據(jù)讀取、傳輸,以識別主從狀態(tài)及網(wǎng)關(guān)運行情況。當(dāng)主機發(fā)生故障時,從機自動升為主機來執(zhí)行數(shù)據(jù)傳輸功能。因此,“R網(wǎng)”運行狀況的好壞直接決定了主從冗余網(wǎng)關(guān)互為備用狀態(tài)的穩(wěn)定性。
本文將結(jié)合某核電廠實例對主從冗余網(wǎng)關(guān)“R網(wǎng)”故障的模式進行分析,并給出貼近生產(chǎn)現(xiàn)場的維修策略。
2020年9月25日07:02:52,主控制室觸發(fā)1KCS006KA2(報警名稱),至8:33:30恢復(fù),1KCS006KA2持續(xù)1.5小時,期間全日志(記錄所有事件信息的列表)伴隨有“61號非安全級網(wǎng)關(guān)(L1b網(wǎng)關(guān))R網(wǎng)故障”(閃發(fā)1s/次,共計4次)。全日志信息如圖1所示。
圖1 9月25日1KCS006KA2報警觸發(fā)全日志
同樣故障現(xiàn)象,分別在9月25日11時、9月26日11時、9月26日22時、9月27日6時出現(xiàn),區(qū)別僅在于1KCS006KA2持續(xù)時間不同。
1.2.1 1KCS006KA2報警觸發(fā)原因
1KCS006KA2為B列KCS機柜綜合故障報警,故障點需結(jié)合全志日比對就地機柜進行定位,最終定位為1E側(cè)L1b-GWP-B(安全級側(cè)B列網(wǎng)關(guān))故障報警。
讀取1E側(cè)網(wǎng)關(guān)日志,如圖2所示。
圖2 9月25日1KCS006KA2報警觸發(fā)KCS網(wǎng)關(guān)日志
日志記錄了07:02:50,1E側(cè)L1b-GWP-B網(wǎng)關(guān)接受到NC側(cè)送去的“L1bgwpb NC-GWP-RecvstatusFailuer”即“NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障”信息,1E網(wǎng)關(guān)再通過通訊反饋到NC側(cè)觸發(fā)報警。
因此,1E側(cè)L1b-B網(wǎng)關(guān)收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障信息是1KCS006KA2觸發(fā)的原因。
1.2.2 1E側(cè)L1b-B網(wǎng)關(guān)收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障原因
1KCS006KA2觸發(fā)期間,全日志閃發(fā)4次“61號非安全級網(wǎng)關(guān)R網(wǎng)故障”,除此之外未記錄到NC側(cè)L1b網(wǎng)關(guān)A/B機相關(guān)任何故障信息。
查詢趨勢(如圖3所示),發(fā)現(xiàn)在1KCS006KA2觸發(fā)期間,NC側(cè)L1b網(wǎng)關(guān)計數(shù)器(一種網(wǎng)關(guān)自加運算程序)計算速率明顯降低,且NC側(cè)L1b網(wǎng)關(guān)A/B機CPU負荷均有一定程度的降低。
圖3 9月25日1KCS006KA2報警期間計數(shù)器及CPU負荷趨勢
根據(jù)網(wǎng)關(guān)設(shè)計原理,主從冗余網(wǎng)關(guān)設(shè)計有用于監(jiān)視彼此狀態(tài)的網(wǎng)絡(luò)—即“R網(wǎng)”。NC側(cè)L1b網(wǎng)關(guān)A/B機通過“R網(wǎng)”實時傳送“數(shù)據(jù)包”用于彼此狀態(tài)監(jiān)視,當(dāng)“R網(wǎng)”出現(xiàn)故障但未徹底斷開時,冗余主從機間數(shù)據(jù)交互會存在丟包現(xiàn)象。當(dāng)“數(shù)據(jù)包”丟包率達到預(yù)設(shè)閾值時將在全日志報出“61號非安全級網(wǎng)關(guān)R網(wǎng)故障”,同時將由從機發(fā)送“NC側(cè)L1b-從機網(wǎng)關(guān)狀態(tài)故障”數(shù)據(jù)包至1E側(cè)網(wǎng)關(guān),告知對側(cè)本機存在故障。
冗余主從機間數(shù)據(jù)交互丟包到達閾值時將觸發(fā)“冗余超時”故障,設(shè)計機制會將網(wǎng)關(guān)運算周期自動降速,由原來的50ms降至500ms,表現(xiàn)出來的現(xiàn)象就是網(wǎng)關(guān)計數(shù)器計算速率降低、網(wǎng)關(guān)CPU利用率降低帶來的負荷下降。
因此,NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障是導(dǎo)致1E側(cè)L1b-B網(wǎng)關(guān)收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障的原因。
匯總?cè)罩炯?E網(wǎng)關(guān)日志,形成1KCS006KA2報警時序流如表1所示。
表1 9月25日1KCS006KA2報警時序流
L 1 b g w p b時間更新成功(L 1 b g w p b T i m e-C h a n g e-F a i l e d r e c o v e r e d)8:3 3:3 0 K C S 0 0 6 K A 2報警恢復(fù)(K C S L 1 b g w p b A l a r m)
不難發(fā)現(xiàn)時序流中存在兩個異常信息:
(1)1KCS006KA2報警是持續(xù)性的,而“61號非安全級網(wǎng)關(guān)R網(wǎng)故障”是閃發(fā)的;
(2)7:45:20,1E網(wǎng)關(guān)日志顯示1E側(cè)L1b-B網(wǎng)關(guān)已收到NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障的復(fù)位信息,但1KCS006KA2報警的恢復(fù)確發(fā)生在8:33:30。
這是因為,“R網(wǎng)故障”出現(xiàn)后立即發(fā)送信息給1E側(cè)網(wǎng)關(guān),進而觸發(fā)1KCS006KA2報警。而從“R網(wǎng)故障”到全日志記錄到“R網(wǎng)故障”是需要經(jīng)過濾波時間,如“R網(wǎng)故障”觸發(fā)時間小于濾波時間則全日志不會記錄到“R網(wǎng)故障”,只有觸發(fā)時間大于濾波時間的“R網(wǎng)故障”才會記錄進全日志。
1E側(cè)L1b-B網(wǎng)關(guān)收到“NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障”導(dǎo)致的報警恢復(fù)條件:一是要“NC側(cè)L1b-B網(wǎng)關(guān)狀態(tài)故障”復(fù)位,二是要1E側(cè)網(wǎng)關(guān)“時間更新成功”。1E側(cè)網(wǎng)關(guān)更新時間的機理是每個整點的第33分30秒向NC側(cè)網(wǎng)關(guān)比對并更新時間。由于NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障導(dǎo)致在7:33:30 1E側(cè)L1b-B網(wǎng)關(guān)更新時間失敗,需要等到下一個整點的第33分30秒即8:33:30才能再次觸發(fā)時間比對并更新,1E側(cè)L1b-B網(wǎng)關(guān)再次向NC側(cè)網(wǎng)關(guān)比對并更新時間,此時NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障已恢復(fù),時間更新成功進而1KCS006KA2報警復(fù)位。
上述兩條看似異常的信息,實際與“R網(wǎng)”故障及1E網(wǎng)關(guān)報警復(fù)位機理相符。
1.2.3 NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障原因
NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”用于主從冗余網(wǎng)關(guān)監(jiān)視彼此狀態(tài),由主從冗余網(wǎng)關(guān)的“R網(wǎng)”網(wǎng)卡、網(wǎng)線、光電裝換卡、光纖、光纖分配單元組成。
結(jié)合全日志信息、KIC趨勢信息及1E側(cè)網(wǎng)關(guān)日志信息,可以定位到1KCS006KA2報警觸發(fā)原因是NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障。但由于“R網(wǎng)”故障時間遠短于報警實際觸發(fā)時間且“R網(wǎng)”故障為閃發(fā)式,很難定位到“R網(wǎng)”具體故障點,因此采用故障樹模型對所有可能故障點進行分析并制定對應(yīng)檢修策略[2],故障樹模型如圖4所示。
圖4 NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障樹模型
綜合以上分析,1KCS006KA2報警觸發(fā)原因為NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障,涉及四項可能故障點,依次為:
(1)光纖公/母頭進灰、臟污導(dǎo)致衰減率異常;
(2)L1b-B機R網(wǎng)網(wǎng)卡故障;
(3)L1b-A機R網(wǎng)網(wǎng)卡故障;
(4)光電轉(zhuǎn)換卡故障。
根據(jù)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障樹分析結(jié)論,制定了三步走維修策略:
第一步:檢查光纖公/母頭有無臟污,對比測試光纖回路清潔前后衰減率,定位或排除光纖異常故障原因;
第二步:更換L1b-B機及本側(cè)光電轉(zhuǎn)換卡;
第三步:更換L1b-A機及本側(cè)光電轉(zhuǎn)換卡。
考慮到運行對機組控制的安全性及穩(wěn)定性要求,合并執(zhí)行第一步、第二步,執(zhí)行后觀察,如再次出現(xiàn)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障則執(zhí)行第三步維修策略。
檢修策略執(zhí)行:
檢查光纖公/母頭,未發(fā)現(xiàn)有明顯臟污情況;使用衰減率測試儀對比光纖清潔前后指標(biāo),無明顯差異,可排除“光纖臟污”原因。
更換L1b-B機及本側(cè)光電轉(zhuǎn)換卡,未再次閃發(fā)NC側(cè)L1b網(wǎng)關(guān)“R網(wǎng)”故障。
單獨對更換下的光電轉(zhuǎn)換卡拷機,未發(fā)現(xiàn)異常;單獨對更換下的L1b-B機拷機,R網(wǎng)偶現(xiàn)丟包情況,因此故障點定位為L1b-B主機故障。
主從冗余網(wǎng)關(guān)廣泛應(yīng)用于核電站DCS系統(tǒng),而“R網(wǎng)”作為主從監(jiān)測機制落地的載體,其重要性不言而喻。由于“R網(wǎng)”鏈路涉及環(huán)節(jié)眾多,且故障模式多種多樣,因此定位閃發(fā)故障的困難度是較高的?;诤穗娬緦\行安全性、穩(wěn)定性的要求,結(jié)合故障樹模型的分析方式,可快速恢復(fù)設(shè)備運行可靠性,通過技術(shù)手段對脫離系統(tǒng)連接的離線設(shè)備進行技術(shù)檢測最終定位故障點也不失為良策。