劉軍華
(廣東大唐國際潮州發(fā)電有限責(zé)任公司,廣東 潮州515723)
隨著科學(xué)技術(shù)的進步,DCS在火電廠過程控制領(lǐng)域的應(yīng)用水平得到了迅速提高,其控制范圍覆蓋了 MCS、FSSS、SCS、DEH、ETS等功能。而整個DCS的核心部件即CPU,CPU一旦發(fā)生故障,輕則導(dǎo)致DCS局部死機,對機組的安全穩(wěn)定運行帶來影響,重則引起整個DCS網(wǎng)絡(luò)通訊癱瘓,機組跳閘。本文就某單元機組的核心MCS1控制器CPU故障進行了詳細分析,并提出了解決辦法。
某電廠#2單元機組于2004年開始基建、投產(chǎn),其DCS控制系統(tǒng)為日立公司的HIACS-5000 M,該系統(tǒng)主要特點為:
(1)采取冗余設(shè)計,系統(tǒng)采用雙光纖環(huán)狀冗余網(wǎng)絡(luò)、令牌雙方向傳送、信息回繞(LOOPBACK)、雙CPU互為備用運行技術(shù),系統(tǒng)某一個部件出故障時迅速切換至備用部件,不影響整個系統(tǒng)運行。
(2)各CPU控制器自治分散控制各個系統(tǒng),即由某對獨立的互為冗余的CPU完成對相關(guān)工藝系統(tǒng)的控制。
(3)軟件系統(tǒng)人機界面(HMI)友好,維護人員通過使用維護站(EWS站、HIST站),便可完成對控制邏輯、畫面的組態(tài),并下裝至指定CPU控制器中;硬件系統(tǒng)配置靈活,擴展能力強。
(4)所有CPU控制器均掛靠在雙環(huán)網(wǎng)的光纖網(wǎng)絡(luò)上,機組所有實時信息通過光纖網(wǎng)絡(luò)實時共享給各CPU控制器;同時,CPU控制器也可以將實時的控制信息發(fā)送到網(wǎng)絡(luò)上。
2014年12月27日,#2機組滿負荷運行,15:00左右,DCS系統(tǒng)狀態(tài)畫面報“光纖單網(wǎng)故障”。維護人員立即趕往#2機組電子間、工程師站檢查確認,發(fā)現(xiàn)MCS1控制器備用CPU故障(脫網(wǎng))。
檢查發(fā)現(xiàn)CPU面板上有3處異常指示紅燈(常亮),其代表意義如下:
(1)ERR紅燈亮——該CPU故障,失去熱備用;
(2)NERR紅燈亮——NCP-F內(nèi)部發(fā)生錯誤;
(3)MEME紅燈亮——NCP-F發(fā)生SRAM校驗錯誤。
在這種情況下,MCS1控制器僅剩一個CPU在運行,機組由雙光纖冗余網(wǎng)絡(luò)運行變成單光纖網(wǎng)絡(luò)運行,極有可能隨時發(fā)生通信阻塞(光纖網(wǎng)絡(luò)中MCS1變成信息孤島)的危險,進一步直接造成與此控制器相關(guān)的設(shè)備失去監(jiān)視,遠方無法操作、控制。
常見的引起DCS系統(tǒng)CPU故障的原因主要有如下幾點:
(1)主、備CPU控制器之間切換不成功引發(fā)CPU控制器故障;
(2)主(備)CPU通訊接口硬件(CPU網(wǎng)板)故障,導(dǎo)致控制器單向通訊或故障不能切至備用運行;
(3)控制器電源切換擾動導(dǎo)致CPU死機;
(4)電子元器件老化導(dǎo)致控制器故障。
檢查DCS系統(tǒng)主、備冗余電源正常,電源模塊(交流220 V轉(zhuǎn)直流5 V)輸出電壓未見波動。主CPU控制器未發(fā)生故障,而發(fā)生故障的是備用CPU控制器,也排除了主、備CPU切換過程中發(fā)生的故障。故可大致推斷故障原因較有可能是備用CPU設(shè)備硬故障。
在工程師臺收集錯誤信息(MCS1+MDA、MCS1+MDADETAIL均可收集,而B控制器因故障,所有信息均無法收集),從 MCS1+MDA收集的錯誤信息最后一行error log(Initialization Err,datafile open failure)中可以看出,B控制器在打開某一文件時報錯,進而導(dǎo)致該CPU初始化時死機。
MCS1控制器CPU在控制邏輯設(shè)計中,作為單元機組核心的“大腦”部分,直接控制機爐協(xié)調(diào),具體涉及汽輪機主指令控制、鍋爐主指令控制、CCS綜合閥位指令控制、所有制粉系統(tǒng)的給煤量控制,機組部分重要調(diào)門控制、實發(fā)功率聯(lián)鎖汽輪機本體疏水門控制(DCS邏輯通訊點)、風(fēng)量低保護跳閘磨煤機控制、RB邏輯控制等。針對這一特殊情況,為防止處理故障CPU時出現(xiàn)其他不可控風(fēng)險,必須做好安全技術(shù)措施,主要從兩個大的方面著手:
首先,考慮本CPU控制器內(nèi)信號,為防止故障CPU恢復(fù)正常并進行初始化時相關(guān)控制信號異常,導(dǎo)致其控制的DCS邏輯、現(xiàn)場設(shè)備異常動作,應(yīng)做好以下安全技術(shù)措施:
(1)解除機組AGC控制,保持負荷穩(wěn)定;
(2)解除機組汽機主控、鍋爐主控自動控制;
(3)解除運行的制粉系統(tǒng)中的給煤量自動控制;
(4)將本控制器相關(guān)調(diào)節(jié)閥切至“就地位”。
其次,考慮與本CPU控制器相關(guān)的信號,為防止故障CPU恢復(fù)正常并進行初始化時與其他控制器間邏輯通訊點信號(包括DCS通訊點、機柜間硬接線)跳變,應(yīng)做好以下安全技術(shù)措施:
(1)DEH切至閥位控制,即DEH手動控制(正常運行時,DEH閥位即汽機綜合閥位指令受MCS1遙控控制);
(2)做好相關(guān)重要通訊點強置(在接收端強置);
(3)運行人員暫時減少其他不重要操作。
確認安全技術(shù)措施完成后,將故障CPU由RUN切至STOP,1 min后再由STOP切至RUN,此時CPU模板上的指示燈發(fā)生了變化,ERR、NERR紅燈仍亮,MEME紅燈滅,說明該CPU仍處于故障狀態(tài)。聯(lián)系日立公司技術(shù)人員并確認后,確定更換該故障CPU。
確認故障CPU在STOP位,在工程師臺上切至MCS1+MDB控制器,點擊維護,進入模板帶電插拔畫面,進行該控制器CPU的模板帶電插拔工作,確認無誤后,點擊preparation,系統(tǒng)自動將該CPU隔離出來。戴好防靜電手環(huán),按照CPU硬件更換操作步驟,將CPU拔出。
檢查被更換的CPU和將要更換的CPU的異同(僅需修改CPU的光網(wǎng)地址設(shè)置),確認新CPU在STOP位,再次對所有設(shè)置確認無誤后,將新CPU推入卡槽,依次恢復(fù)相關(guān)連接。
工程師臺上切至MCS1+MDB控制器,完成最后的初始化工作(點擊INITIAL,此時CPU會自動檢查,并自動將DCS控制邏輯下裝進去),大約5 min后操作界面提示“操作完成”,點擊確認后退出維護界面即可。進入電子間將該CPU由STOP位切至RUN位,RUN、STBY同時綠燈閃亮,大約1 min后RUN、STBY綠燈變?yōu)槌A?,在工程師臺上進行邏輯點強置工作,確認該CPU工作正常(熱備用狀態(tài))。逐步恢復(fù)相關(guān)安全技術(shù)措施,將邏輯強置點釋放,確認新更換的CPU工作正常,至此,工作全部結(jié)束。
發(fā)電機組在商業(yè)運行中,在線處理控制器CPU故障風(fēng)險較大,而處理類似直接關(guān)系到機組的協(xié)調(diào)自動控制、機爐重要聯(lián)鎖保護的主、重要CPU故障時,考慮到要采取的后備、安全隔絕措施,其難度無疑更大。一旦系統(tǒng)控制器發(fā)生故障,將直接造成局部或全部設(shè)備失去監(jiān)控,而若在處理CPU故障時因維護人員相關(guān)技術(shù)、安全后備措施做得不當,或故障處理失敗,更有可能導(dǎo)致設(shè)備跳閘甚至機組跳閘的嚴重后果。本文詳細闡述了某廠成功處理#2機組DCS系統(tǒng)中MCS1控制器CPU故障的過程,為其他機組運行時在線更換同類型系統(tǒng)DCS(或其他DCS系統(tǒng))的主、重要CPU控制器提供了可靠的參考依據(jù),積累了寶貴的經(jīng)驗。
[1]劉新亮.日立DCS控制系統(tǒng)H5000M的故障分析與預(yù)防[J].江西電力,2012(2):47-49.
[2]北京日立華勝控制系統(tǒng)有限公司.6-3-H-5000M 系統(tǒng)硬件維護說明[Z].
[3]電力行業(yè)熱工自動化技術(shù)委員會.火力發(fā)電廠分散控制系統(tǒng)典型故障處理預(yù)案:日立HIACS-5000M系統(tǒng)[M].北京:中國電力出版社,2012.