高龍剛,陳紅征,李誠(chéng)香
(山東萊城發(fā)電廠,山東 萊蕪 271113)
DCS系統(tǒng)已經(jīng)在火力發(fā)電廠得到廣泛應(yīng)用,但無論哪種DCS系統(tǒng),網(wǎng)絡(luò)通訊故障都是影響機(jī)組安全穩(wěn)定運(yùn)行的重要原因。由原國(guó)家電力公司發(fā)布的 《防止電力生產(chǎn)重大事故的二十五項(xiàng)重點(diǎn)要求》[1]對(duì)DCS系統(tǒng)的配置和緊急處理措施作了詳細(xì)的要求,各家電廠也根據(jù)自己的系統(tǒng)實(shí)際制定了專門的防止DCS系統(tǒng)失靈措施,這些都為DCS系統(tǒng)的安全可靠運(yùn)行奠定了基礎(chǔ)。
TELEPERM_XP系統(tǒng)由德國(guó)西門子公司制造,該系統(tǒng)主要包括自動(dòng)過程控制系統(tǒng)(AS620)、過程處理及監(jiān)視系統(tǒng)(OM650)、工程組態(tài)及調(diào)試系統(tǒng)(ES680)和SINEC總線系統(tǒng)。SINEC總線系統(tǒng)采用了以廠網(wǎng)和終端網(wǎng)為主體的雙環(huán)網(wǎng)結(jié)構(gòu),采用CSMA/CD,TCP/IP通訊協(xié)議,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其核心部件是星形耦合器[2]。
OM650系統(tǒng)主要由過程處理單元(PU)、歷史服務(wù)單元(SU)、操作員站(OT)、外部網(wǎng)絡(luò)連接單元(XU)組成。PU配雙網(wǎng)卡,一端聯(lián)接廠網(wǎng),一端聯(lián)接終端網(wǎng),完成數(shù)據(jù)的傳送、處理、短期歸檔及報(bào)警功能;SU掛在終端網(wǎng)上,完成數(shù)據(jù)的長(zhǎng)期歸檔及描述功能;OT掛在終端網(wǎng)上,完成畫面監(jiān)視及操作功能;XU配雙網(wǎng)卡,一端聯(lián)終端網(wǎng),一端聯(lián)SIS網(wǎng)絡(luò),完成DCS數(shù)據(jù)向SIS的傳輸。機(jī)組的OM650系統(tǒng)均配置 6臺(tái) OT、4臺(tái) PU、2臺(tái) SU、1臺(tái)XU。機(jī)組的AS620系統(tǒng)配置8個(gè)AP柜及一個(gè)APF柜。
圖1 TELEPERM_XP系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖
機(jī)組負(fù)荷288 MW,制粉系統(tǒng)A、B磨全磨運(yùn)行,C磨C1層噴燃器運(yùn)行,煤量161 t/h,爐膛負(fù)壓-71Pa,機(jī)組在手動(dòng)方式下穩(wěn)定運(yùn)行。17:11:19,BTG 盤“RB”報(bào)警發(fā)出,DCS上“RB 跳 B 磨”、“RB跳C磨”信號(hào)發(fā)出,B、C磨同時(shí)跳閘。機(jī)組MFT,首出原因“爐膛壓力低低”。風(fēng)機(jī)RB、一次風(fēng)機(jī)RB同時(shí)發(fā)出。
機(jī)組負(fù)荷296 MW,制粉系統(tǒng)A、B磨全磨運(yùn)行,煤量152 t/h,運(yùn)行人員發(fā)現(xiàn) 2臺(tái) OT(OT1、OT2)死機(jī)。然后其他OT相繼死機(jī),所有運(yùn)行參數(shù)均無法監(jiān)視,熱控人員檢查廠網(wǎng)及所屬AP均運(yùn)行正常。
以上兩次均為TXP系統(tǒng)典型故障,一個(gè)是底層通訊一個(gè)是上層通訊,而且此類故障在同型號(hào)DCS上或多或少均有出現(xiàn)。
TXP中的工業(yè)以太網(wǎng)(Ethernet)使用CSMA/CD訪問機(jī)制 (帶沖突檢測(cè)的載波偵聽多路存?。?。在CSMA/CD總線上,所有站都與總線檢查或偵聽相連,偵聽在總線上的發(fā)送。每個(gè)站在任何時(shí)候都有權(quán)在其它站不使用總線的情況下訪問傳輸介質(zhì) (邊對(duì)話邊偵聽)。如果其它站在傳輸數(shù)據(jù)時(shí),一個(gè)站想發(fā)送數(shù)據(jù),則該站只好等待,等到正在發(fā)送的數(shù)據(jù)包被接收后,再經(jīng)過一個(gè)時(shí)間間隔,此站才能開始發(fā)送數(shù)據(jù)。如果傳輸站檢測(cè)到?jīng)_突,該站會(huì)停止發(fā)送數(shù)據(jù),沖突后丟失的數(shù)據(jù)包重新發(fā)送。
過程圖象傳遞。AP<>AP及AP<>FUM卡件通訊通過傳遞過程圖像來完成,AP系統(tǒng)軟件從附屬層獲取過程數(shù)據(jù),并將其貯存在輸入的過程圖象(PAE)中。反過來,AP系統(tǒng)軟件將由用戶程序已經(jīng)產(chǎn)生的數(shù)據(jù)和貯存在輸出的過程圖象(PAA)中的數(shù)據(jù)傳送到附屬層。過程圖象傳遞能使用戶程序在兩個(gè)AP中通過SINEC H1 FO來交換數(shù)據(jù)。數(shù)據(jù)交換是通過AP<>AP鏈進(jìn)行的。鏈的數(shù)目(多達(dá)32個(gè))可以被組態(tài),每個(gè)鏈允許最長(zhǎng)256個(gè)字節(jié)的一個(gè)數(shù)據(jù)塊被接收或循環(huán)地傳遞。如果一個(gè)信息幀在一有關(guān)鏈的時(shí)間內(nèi)通過一個(gè)完整的鏈而沒有收到,則一個(gè)信息(DMZ)就產(chǎn)生了。如果一個(gè)AP<>AP鏈完全故障,則也發(fā)布一個(gè)信息。
圖2 AP處理器與FUM卡件過程圖像傳遞
圖3 AP處理器與上位系統(tǒng)過程圖像傳遞
TXP系統(tǒng)硬件連接如圖4所示,根據(jù)硬件接線及過程圖像通訊原理、AP源文件組態(tài),可以得出AP的通訊鏈路是左側(cè)AP與其他左側(cè)AP通訊,右側(cè)AP與其他右側(cè)AP通訊,該通訊通過網(wǎng)卡CP1430實(shí)現(xiàn),通訊時(shí)左右AP通過IM324R和IM304卡來保證兩側(cè)AP過程圖像一致,當(dāng)AP、CP1430故障導(dǎo)致其固有通訊中斷,則通過CP1430<>AP<>IM324<>IM304<>AP<>CP1430環(huán)形通訊鏈通訊,這時(shí)候如有硬件或軟件故障,則通訊中斷。
圖4 TXP系統(tǒng)硬件連接圖
本次底層故障前AP9右側(cè)AP故障,退出運(yùn)行,使右側(cè)AP通訊中斷,AP9與AP4通訊僅靠左側(cè)通訊,此時(shí)AP4左側(cè)AP故障重新啟動(dòng),造成左側(cè)通訊鏈路也中斷,此時(shí)兩AP自身及AP與上位系統(tǒng)通訊雖然正常,但兩AP之間數(shù)據(jù)中斷,送、引風(fēng)機(jī)、一次風(fēng)機(jī)運(yùn)行信號(hào)消失,導(dǎo)致AP9內(nèi)RB邏輯誤判斷發(fā)出跳磨煤機(jī)信號(hào),爐膛負(fù)壓瞬間下降機(jī)組MFT。
上層處理器 OT、PU、SU功能分布如表1所示,分別為人機(jī)接口(MMI)、AS 通訊(ASR)、短期歸檔(ARC)、處理功能(MAC)、描述數(shù)據(jù)管理程序(BDM)、長(zhǎng)期歸檔(LTA)、運(yùn)行記錄/打印(PRT)、筆記本(NTB)功能,同時(shí)SU由于長(zhǎng)期歸檔,每一個(gè)服務(wù)器單元通常配備磁光盤的內(nèi)部MOD驅(qū)動(dòng)器。
表1 上層處理器OT、PU、SU功能分布
目前該機(jī)型配置為CPU為奔騰II系列,主頻166 MHz,內(nèi)存64 MB;顯卡采用加拿大MATRON公司的彩顯,顯存8 MB,硬盤采用西捷公司的1.9G SCSI硬盤,SCSI卡為 ULTRA2-LVD/SE,版本2.0,網(wǎng)卡型號(hào)為3COM EtherLink III,ESIA接口,最大傳輸速率10 Mbps。SU配置有明顯的弱點(diǎn):硬盤容量較小,僅為1.9 G。傳輸速率較低,還配有MOD光驅(qū)?,F(xiàn)在運(yùn)行人員在操作及問題分析時(shí)經(jīng)常長(zhǎng)期調(diào)用歷史曲線,歷史曲線調(diào)用時(shí)耗費(fèi)大量的資源,特別是周期較長(zhǎng)曲線,有時(shí)還會(huì)讀取MOD,若此時(shí)通訊發(fā)生沖突或硬盤、MOD偶發(fā)小故障,導(dǎo)致歷史曲線較長(zhǎng)時(shí)間調(diào)不出來,通常會(huì)在其他OT上調(diào)用,導(dǎo)致數(shù)據(jù)傳輸量加大,通訊沖突加劇,系統(tǒng)會(huì)發(fā)送大量的故障信息,由于硬盤容量較小,信息積累到一定程度會(huì)導(dǎo)致SU、PU、OT死機(jī),整個(gè)上位系統(tǒng)癱瘓,而SU硬盤容量較大機(jī)組則不容易發(fā)生此類問題。
加強(qiáng)電子間環(huán)境、溫濕度檢查,特別做好灰塵、濕度控制,防止因?yàn)榛覊m積累在空氣濕度大情況下造成卡件故障。
加強(qiáng)設(shè)備巡回檢查,每天兩次對(duì)AP、卡籠通訊模塊狀態(tài)記錄,報(bào)警信息檢查記錄,出現(xiàn)問題及時(shí)分析并采取相應(yīng)措施。
對(duì)AP柜間通訊點(diǎn)進(jìn)行全面排查,對(duì)于重要的聯(lián)鎖保護(hù)、自動(dòng)通訊點(diǎn)進(jìn)行整理,盡量避免采用柜間通訊方式,減少通訊故障時(shí)危害,確實(shí)無法避免的柜間通訊,應(yīng)采取防誤動(dòng)措施,在邏輯中進(jìn)行甄別,可根據(jù)生產(chǎn)實(shí)際采取兩個(gè)以上通訊點(diǎn)同時(shí)發(fā)生中斷抑制措施。
硬件故障發(fā)生后,迅速進(jìn)行判斷,對(duì)于AP故障可以采取清灰、更換措施,IM通訊卡、CP1430網(wǎng)卡、電源模件應(yīng)在停機(jī)時(shí)更換,此時(shí)應(yīng)加大巡回檢查頻次,并對(duì)另一側(cè)AP采取通風(fēng)、抽濕等特護(hù)措施,做好事故預(yù)想,爭(zhēng)取合適機(jī)會(huì)予以停機(jī)消除。
對(duì)于卡籠通訊模塊IM614故障應(yīng)及時(shí)對(duì)本卡籠內(nèi)I/O卡件進(jìn)行檢查,排除現(xiàn)場(chǎng)因素,并對(duì)本卡籠I/O點(diǎn)失效進(jìn)行預(yù)想,避免問題擴(kuò)大。
1)減少長(zhǎng)時(shí)間調(diào)用長(zhǎng)周期歷史曲線次數(shù),特別要避免曲線調(diào)用不出時(shí)在其他多個(gè)OT上同時(shí)調(diào)用。
2)避免操作MOD光驅(qū),減少M(fèi)OD光驅(qū)產(chǎn)生故障信息及垃圾文件。
3)定期檢查工控機(jī)負(fù)荷、重啟機(jī)器,清除垃圾文件,防止硬盤空間過小。
4)保持工程師站環(huán)境、溫濕度合格,減少粉塵對(duì)上微機(jī)危害。
5)利用機(jī)組停運(yùn)機(jī)會(huì)加大SU硬盤容量、MOD,如無法更換暫時(shí)在軟件中將MOD設(shè)備刪除。
6)操作員站故障應(yīng)急處理措施:長(zhǎng)按XU主機(jī)電源按鈕,停掉XU;長(zhǎng)按所有OT主機(jī)電源按鈕,停掉OT(包括工程師站室內(nèi)的OT);從屏幕切換器或工程師站上對(duì)所有PU、SU執(zhí)行init 0操作,若無法執(zhí)行init操作時(shí),則長(zhǎng)按主機(jī)電源按鈕,停掉 PU、SU(可同時(shí)停);P1a上電重啟,若 OM軟件不自動(dòng)啟動(dòng),執(zhí)行Om.Start操作;用PL-t命令,查看P1a運(yùn)行正常后,P2a上電重啟,若OM軟件不自動(dòng)啟動(dòng),執(zhí)行Om.Start操作;P2a運(yùn)行正常后,SUa上電重啟,若OM軟件不自動(dòng)啟動(dòng),執(zhí)行Om.Start操作;SUa啟動(dòng)正常后,可將控制室內(nèi)的任一臺(tái)OT上電啟動(dòng),該OT的功能正常后,可依次啟動(dòng)控制室內(nèi)的其它OT;依次啟動(dòng)P1b、P2b、SUb、XU及工程師站內(nèi)OT;用PL-t檢查所有上位機(jī)的運(yùn)行情況。
注意事項(xiàng):不能同時(shí)啟動(dòng)兩臺(tái)及以上的OM上位機(jī);當(dāng)PU重啟不成功時(shí),將終端網(wǎng)停電,1min后上電,再次重啟PU;異常處理過程中,當(dāng)有OT功能正常后,運(yùn)行人員不要查看曲線,并盡量減少操作。
DCS系統(tǒng)上層及底層網(wǎng)絡(luò)通訊故障都會(huì)對(duì)電廠安全穩(wěn)定運(yùn)行造成重大影響,而通信問題則是DCS系統(tǒng)維護(hù)工作最為復(fù)雜和難以控制的。通信故障大都因通訊設(shè)計(jì)存在一定局限性,僅在特定工況下才表現(xiàn)出來,需要對(duì)通信原理進(jìn)行系統(tǒng)分析并找出薄弱環(huán)節(jié)才能制定針對(duì)性預(yù)防措施,從消除導(dǎo)致通訊故障的特定工況作為切入點(diǎn),完善應(yīng)急處理方案,保證DCS系統(tǒng)可靠穩(wěn)定運(yùn)行。