徐衛(wèi)中,陳勤
(華東桐柏抽水蓄能發(fā)電有限責任公司,浙江天臺317200)
桐柏電廠計算機監(jiān)控系統(tǒng)以冗余雙光纖環(huán)交換式工業(yè)以太網(wǎng)為工作平臺,以IEC870-5-104為通信規(guī)約。所有現(xiàn)地控制LCU都采用冗余的CPU(分別為C2和C4)和冗余網(wǎng)卡分別掛在雙光纖環(huán)網(wǎng)上,實現(xiàn)如下任務(wù):
(1)實現(xiàn)真正的雙機冗余,保證任何一套LCU的主用CPU或主用網(wǎng)卡發(fā)生故障時,均能快速可靠地切換至另一套熱備用的CPU或網(wǎng)卡,保證控制任務(wù)能平穩(wěn)無擾動的無縫切換。
(2)實現(xiàn)現(xiàn)地控制單元LCU之間、LCU與電廠控制級之間、LCU與保護、勵磁、調(diào)速器、機組在線監(jiān)測、SIS等設(shè)備之間的以太網(wǎng)冗余通信。
因此,監(jiān)控系統(tǒng)機組LCU的冗余主備CPU和冗余主備網(wǎng)卡的快速可靠平穩(wěn)無縫切換對于桐柏電廠的機組安全穩(wěn)定可靠運行具有極其重要的安全意義和極其重大的經(jīng)濟意義。
從2005年12月中旬桐柏電廠計算機監(jiān)控系統(tǒng)投產(chǎn)以來,在4臺機組的發(fā)電、抽水啟動過程中,每年均頻繁出現(xiàn)以下問題:
(1)桐柏電廠機組LCU的主備CPU會異常切換。
(2)機組LCU的主備CPU切換時間過長,長達50多s。
以上兩個原因最終導(dǎo)致機組開機啟動失敗,多次被上級調(diào)度部門考核,對桐柏電廠抽蓄機組的安全穩(wěn)定運行和電廠的安全、經(jīng)濟考核指標均造成了嚴重的影響。
桐柏電廠機組LCU所配的兩塊冗余CPU分別為C2和C4,其分別帶有獨立的以太網(wǎng)卡。
機組LCU主備CPU的冗余工作原理為:主備CPU分別通過內(nèi)部總線實時檢測自身和所有外圍板件(包括所配網(wǎng)卡)的工作狀態(tài),并通過內(nèi)部總線交換數(shù)據(jù)狀態(tài);冗余CPU將各自檢測到的自身和所有外圍板件(包括所配網(wǎng)卡)的健康值匯總之后進行比較,健康狀況好的作為主用CPU運行工作,備用CPU則通過內(nèi)部總線和主用CPU保持數(shù)據(jù)狀態(tài)實時同步。根據(jù)這一原理,結(jié)合機組LCU的冗余CPU主備切換控制邏輯程序RED_SWT.GPS,我們采用溯源的方法對機組LCU主備CPU(C2和C4)的切換邏輯進行了分析和研究:
(1)CPU主備切換控制邏輯中:GB-_C2_ACTIVE_C或GB-_C4_ACTIVE_C分別為切換激活機組LCUCPUC2(當CPUC4為主用時)或CPUC4(當CPUC2為主用時)的最終出口命令,根據(jù)邏輯可倒推出:產(chǎn)生GB-_C2_ACTIVE_C或GB-_C4_ACTIVE_C命令的條件是:命令LB-_activate_C2或LB-_activate_C4激活。
(2)命令LB-_activate_C2或LB-_activate_C4是由機組LCUCPUC2或CPUC4的相應(yīng)三部分健康值通過算術(shù)和運算及大小比較而產(chǎn)生,這三部分健康值分別為:
1)CPU本身健康值:LA_Res_C2、LA_Res_C4;其由CPU本身自檢產(chǎn)生。
2)網(wǎng)卡健康值:LA_Res_C2_128、LA_Res_C4_128;其由對應(yīng)的CPU實時檢測產(chǎn)生。
3)外圍板(指DI、DO、AI、AO板)健康值:LA_Res_C2_MPE1、LA_Res_C2_MPE2、LA_Res_C2_MPE3、LA_Res_C4_MPE1、LA_Res_C4_MPE2、LA_Res_C4_MPE3(MPE1、MPE2、MPE3分別指CPU所帶的三條外圍總線);其由對應(yīng)的CPU實時檢測產(chǎn)生。
系統(tǒng)對健康值的定義為:物理部件(如CPU、網(wǎng)卡、外圍板件)越健康(工作狀態(tài)越佳、故障越少越輕),其相應(yīng)的健康值越小。因此,可以推導(dǎo)出:當機組LCUCPUC2或CPUC4的總健康值(CPU本身健康值+網(wǎng)卡健康值+外圍板健康值)越大,表明該CPU當前的工作狀態(tài)越差,則系統(tǒng)邏輯會產(chǎn)生LB-_activate_C2或LB-_activate_C4的切換命令,命令系統(tǒng)切換到當前工作狀態(tài)更佳(總健康值更小)的CPU上去工作。
(3)至此,我們可以得出一個初步結(jié)果:導(dǎo)致機組LCU的主備CPU和主備網(wǎng)卡異常切換的原因是:當前主用CPU的總體健康值變大(大于備用CPU的當前健康值)。CPU的總體健康值是由三部分組成:CPU本身健康值+網(wǎng)卡健康值+外圍板健康值。因此,針對桐柏電廠的情況,進一步研究分析出究竟是哪一些健康值異常變大。
我們采用了在線動態(tài)實時監(jiān)測法進行進一步的分析和研究:在機組發(fā)電、抽水的啟動過程中,我們將裝有實時監(jiān)測軟件的筆記本電腦在線聯(lián)到機組LCU的主用CPU上,對邏輯中的CPUC2和CPUC4的三部分健康值進行實時監(jiān)測。通過對各臺機組的長期在線實時監(jiān)測,發(fā)現(xiàn):在機組發(fā)電、抽水啟動過程中,每次機組LCU發(fā)生主用CPU切換至備用CPU之前的瞬間,其對應(yīng)的網(wǎng)卡健康值LA_Res_C2_128或LA_Res_C4_128均不同程度的變大,使得當前主用CPU的總健康值大于備用CPU的總健康值,最終導(dǎo)致CPU切換。因此,可以認為:在機組發(fā)電、抽水啟動過程中,機組LCU主用CPU的網(wǎng)卡健康值異常變大,是導(dǎo)致CPU異常切換的原因。
(4)機組發(fā)電、抽水啟動過程中,機組LCU主用CPU的網(wǎng)卡健康值異常變大原因分析:
主用CPU的網(wǎng)卡健康值異常變大表明主用CPU的網(wǎng)卡工作狀態(tài)和性能下降,通過分析和歸納,導(dǎo)致網(wǎng)卡工作狀態(tài)和性能下降的原因不外乎以下幾種:
1)網(wǎng)卡本身軟、硬件損壞或存在軟、硬件性能下降缺陷;
2)該網(wǎng)卡所接的交換機相應(yīng)端口工作不穩(wěn)定,導(dǎo)致網(wǎng)卡通信異常;
3)連接該網(wǎng)卡的網(wǎng)線和RJ-45接頭工作不穩(wěn)定(接觸不良),導(dǎo)致網(wǎng)卡通信異常;
4)外界因素(如溫度、濕度、網(wǎng)卡網(wǎng)口通信流量等)的影響。
對于1)、2)、3)三種懷疑的原因,我們采用了替換法進行排查:
1)用新的網(wǎng)卡進行更換;
2)將該網(wǎng)卡所接的交換機端口更換至其它空閑的端口,甚至更換相應(yīng)的交換機;
3)重新制作網(wǎng)線和RJ-45接頭并進行更換;
上述所有替換完成后,再次進行在線動態(tài)開機啟動測試,結(jié)果仍然為主用CPU的網(wǎng)卡健康值異常變大。由此,可排除1)、2)、3)這三種原因。
這樣,外界因素如溫度、濕度、網(wǎng)卡網(wǎng)口通信流量等則成為下一步的排查目標。通過采用紅外測溫儀和濕度儀對機組LCU盤柜內(nèi)的溫度和濕度進行多次檢測,其溫度和濕度均在電子設(shè)備正常工作的范圍內(nèi),不可能導(dǎo)致CPU的網(wǎng)卡健康值異常變大。
因此,我們將排查分析重點放在網(wǎng)卡網(wǎng)口通信流量上。背景資料:
1)桐柏電廠機組為300MW的大型抽水蓄能機組,單臺機組的信號量要比同類常規(guī)水電廠機組的信號量多很多,接近5000點。
2)桐柏電廠的計算機監(jiān)控系統(tǒng)采用VATECH公司特有的海王星(NEPTUN)系統(tǒng),監(jiān)控系統(tǒng)、保護系統(tǒng)、勵磁系統(tǒng)以及調(diào)速器系統(tǒng)均統(tǒng)一接入雙光纖環(huán)網(wǎng)的監(jiān)控網(wǎng)絡(luò)平臺,現(xiàn)地控制單元LCU之間、LCU與電廠控制級之間、LCU與保護、勵磁、調(diào)速器、機組在線監(jiān)測、SIS等設(shè)備之間均通過IEC60870-5-104規(guī)約實現(xiàn)以太網(wǎng)冗余通信。
基于上述兩點,我們分析認為:在機組開機過程中,機組LCU與保護系統(tǒng)、勵磁系統(tǒng)、調(diào)速器系統(tǒng)等外圍系統(tǒng)會有大量數(shù)據(jù)通過網(wǎng)絡(luò)進行交換,同時機組LCU還有大量數(shù)據(jù)要通過網(wǎng)絡(luò)上送到監(jiān)控系統(tǒng)上位機,有可能會造成機組LCU的當前主用CPU自帶的網(wǎng)卡需處理的瞬時數(shù)據(jù)流量(負荷)過大,而目前所用的網(wǎng)卡SM-2554其緩存堆棧僅為50K,有可能會造成網(wǎng)卡緩存堆棧溢出,導(dǎo)致網(wǎng)卡死機。為驗證這一分析,我們用HERSIMAN交換機(桐柏監(jiān)控系統(tǒng)網(wǎng)絡(luò)系采用HERSIMAN交換機)管理軟件對機組開機過程和穩(wěn)態(tài)運行過程中的網(wǎng)卡端口(通過IP地址定位)流量進行實時監(jiān)測,發(fā)現(xiàn):在開機過程中,主用CPU自帶網(wǎng)卡的網(wǎng)口流量達到900kb/s,而在機組穩(wěn)態(tài)運行過程中,其網(wǎng)口流量僅為30kb/s。這樣就證實了我們上述分析:在機組開機過程中,主用CPU自帶網(wǎng)卡所需處理的瞬時數(shù)據(jù)流量(負荷)確實相對過大。
查看機組LCU的冗余CPU主備切換控制邏輯程序RED_SWT.GPS中生成網(wǎng)卡健康值LA_Res_C2_128或LA_Res_C4_128的邏輯模塊:GB_P00_C2_128至GB_P15_C2_128(GB_P00_C4_128至GB_P15_C4_128)這16個中間量用來表示本網(wǎng)卡通過104規(guī)約與網(wǎng)上其它站點的通信狀態(tài)(由104規(guī)約進行通信判斷),其賦值公式為GB_Pn_C_128=2n,其中GB_P15_C_128=215=32768代表本網(wǎng)卡死機,與全網(wǎng)所有的其它站點104通信全部中斷。這16個中間量通過多選一邏輯對LA_Res_C_128進行賦值,參與CPU總健康值累加和比較。為進一步證實我們的判斷,我們做了以下比較試驗:
1)在機組開機過程中,實時監(jiān)視邏輯中的LA_Res_C_128變量的賦值,我們發(fā)現(xiàn):每次切換發(fā)生時,LA_Res_C_128的賦值均為32768。
2)在機組開機過程中,人為拔出主用CPU網(wǎng)卡的網(wǎng)線,并實時監(jiān)視邏輯中的LA_Res_C_128變量的賦值,發(fā)現(xiàn):每次拔出網(wǎng)線時,LA_Res_C_128的賦值也均為32768。
這樣,就完全驗證了我們的判斷。
至此,我們可以得出結(jié)論:在抽水和發(fā)電啟動過程中,因桐柏機組LCU與保護系統(tǒng)、勵磁系統(tǒng)、調(diào)速器系統(tǒng)等外圍系統(tǒng)會有大量數(shù)據(jù)通過網(wǎng)絡(luò)進行交換,同時機組LCU還有大量數(shù)據(jù)要通過網(wǎng)絡(luò)上送到監(jiān)控系統(tǒng)上位機,就造成機組LCU的當前主用CPU自帶的網(wǎng)卡需處理的瞬時數(shù)據(jù)流量(負荷)過大(達900kb/s),而目前所用的網(wǎng)卡SM-2554其緩存堆棧僅為50K,這樣就極可能造成網(wǎng)卡緩存堆棧溢出使網(wǎng)卡死機,在邏輯上導(dǎo)致主用CPU的總體健康值變大(性能下降),最終發(fā)生主備CPU異常切換。
通過上述2.1對機組LCU的主備CPU異常切換的原因的分析,我們知道:對于桐柏機組LCU主備CPU異常切換的情況,在主備CPU冗余切換的邏輯程序RED_SWT.GPS中,CPU網(wǎng)卡健康值LA_Res_C2_128變量是啟動主備CPU冗余切換邏輯程序RED_SWT.GPS的源頭,只要LA_Res_C2_128變量發(fā)生變化,其后續(xù)的邏輯程序的執(zhí)行(直至最終切換激活命令GB-_C2_ACTIVE_C的產(chǎn)生)是無延時的,因此,我們初步判定:從主用CPU網(wǎng)卡死機(即網(wǎng)卡的IEC870-5-104通訊全部中斷)到主用CPU網(wǎng)卡健康值LA_Res_C2_128變量被附值為32768的時間應(yīng)是主備CPU切換時間過長的主要原因。
通過查閱研究IEC870-5-104通信規(guī)約的相關(guān)協(xié)議文件和規(guī)定,我們知道:IEC870-5-104通信規(guī)約判定網(wǎng)絡(luò)通信中斷一般是采用在連續(xù)一段時間(T104)內(nèi)收不到有效的報文為依據(jù)的。當桐柏機組LCU的主用CPU網(wǎng)卡因死機通信中斷,且在連續(xù)一段時間(T104)內(nèi)收不到有效的報文,則判斷104通信確實中斷,并產(chǎn)生激活GB_P15_C_128這一變量,由其對主用CPU網(wǎng)卡健康值LA_Res_C2_128賦值32768。因此,我們分析認為:桐柏電廠計算機監(jiān)控系統(tǒng)IEC60870-5-104通信規(guī)約中對時間參數(shù)T104的設(shè)置較大會導(dǎo)致CPU切換時間過長。而在開機過程中,機組LCU順控程序需要間斷地(間隔時間較短,加延時共約15~25s左右)與外圍系統(tǒng)(如勵磁、調(diào)速器系統(tǒng))進行信息交互(接受它們的狀態(tài)信息和向它們發(fā)出相關(guān)指令),CPU切換時間過長(在這一切換時間段內(nèi),CPU與外界的通信是中斷的)則會導(dǎo)致機組LCU順控程序接受不到外圍系統(tǒng)的狀態(tài)信息,也無法向它們發(fā)出相關(guān)指令,從而會導(dǎo)致順控程序執(zhí)行超時,使開機失敗。為驗證這一分析和判斷,我們做了如下試驗:
將裝有實時監(jiān)測軟件的筆記本電腦在線聯(lián)到試驗機組LCU的主用CPU上,打開冗余CPU主備切換控制邏輯程序RED_SWT.GPS中生成網(wǎng)卡健康值LA_Res_C2_128或LA_Res_C4_128的邏輯模塊,人為拔出主用CPU網(wǎng)卡上的網(wǎng)線(為了準確地定義104通信開始中斷的時刻),此時用秒表開始計時,當LA_Res_C2_128或LA_Res_C4_128被賦值32 768時,停止計時,秒表顯示的時長為49s。多次重復(fù)上述試驗,結(jié)果均為49s左右。
由此,我們可以得出結(jié)論:桐柏電廠計算機監(jiān)控系統(tǒng)IEC60870-5-104通信規(guī)約中對通信中斷判斷時間參數(shù)T104的設(shè)置較大(約為49s左右)應(yīng)是機組LCU的主備CPU切換時間過長并導(dǎo)致開機失敗的原因。
該問題的主要原因是:在機組抽水和發(fā)電啟動過程中,主用CPU自帶的網(wǎng)卡需處理的瞬時數(shù)據(jù)流量(負荷)過大(達900kb/s)和網(wǎng)卡上的緩存堆棧容量過小(僅為50K)。經(jīng)初步研究,解決方案有二:
(1)通過修改提高送給機組LCU的各類模擬量(如溫度、震動、擺度)的自發(fā)上送門檻值來降低開機過程中的瞬時數(shù)據(jù)流量。
(2)通過加大網(wǎng)卡上的緩存堆棧容量來提高網(wǎng)卡的數(shù)據(jù)通信和處理能力。
經(jīng)過進一步分析和研究,我們認為:
方案(1)盡管可以降低開機過程中的瞬時數(shù)據(jù)流量,但提高各類模擬量的自發(fā)上送門檻值后,會降低模擬量的精度,必然會降低監(jiān)控系統(tǒng)對相關(guān)目標的測控精度。方案(1)不可行。
經(jīng)過與VATECH公司的工程師聯(lián)系,得知:VATECH公司已有新版本的網(wǎng)卡SM-2556,該網(wǎng)卡有2M的緩存,其中用于緩存數(shù)據(jù)的存儲有1M,能保存更多的臨時數(shù)據(jù),可極大的提高網(wǎng)卡的數(shù)據(jù)通信和處理能力。因此,決定采用方案(2)。
該問題的主要原因是:桐柏電廠計算機監(jiān)控系統(tǒng)IEC60870-5-104通信規(guī)約中對通信中斷判斷時間參數(shù)T104的設(shè)置較大(約為49s左右)。初看,解決方案很簡單:只要將T104時間常數(shù)改小(小于15s)即可。但事實卻并非如此:VATECH公司在當初編程時,將T104設(shè)為不可修改的常數(shù),沒有向用戶和VATECH公司北京的工程技術(shù)人員提供任何可以修改T104的界面和程序,必須通過VATECH公司奧地利總部的編程工程師才能修改。通過VATECH公司北京的工程技術(shù)人員與VATECH公司奧地利總部聯(lián)系,答復(fù)為:無法修改。此方案被否。
通過對主備CPU冗余切換的邏輯程序RED_SWT.GPS進一步的研究和分析,我們構(gòu)思了一套創(chuàng)新的方案:采用一種新的網(wǎng)卡通信狀態(tài)即時判斷(脈沖判斷)和CPU即時切換機制。具體介紹如下:
如圖1所示:我們在監(jiān)控網(wǎng)絡(luò)中不同地點的交換機上增加2套冗余的實時網(wǎng)絡(luò)通訊狀態(tài)監(jiān)測裝置,分別同時向4臺機組的現(xiàn)地控制LCU發(fā)送2路周期為1s的脈沖信號,作為監(jiān)測機組LCU網(wǎng)卡工作是否正常的信號源。
圖1
4臺機組LCU的主備CPU通過各自的網(wǎng)卡同時接收來自2臺監(jiān)測裝置的脈沖信號,并將其送入主備CPU冗余切換的邏輯程序RED_SWT.GPS的相關(guān)模塊(需新加更新)用于監(jiān)測判斷其網(wǎng)卡通信狀態(tài)是否正常,當2路脈沖信號均丟失時,則即時判斷該網(wǎng)卡通信中斷。
基于上述構(gòu)思,我們相應(yīng)地對主備CPU冗余切換的邏輯程序RED_SWT.GPS中的相關(guān)模塊進行了更新設(shè)計,具體如下:
設(shè)計原則:在原來僅通過104規(guī)約判斷機制來測定網(wǎng)卡健康值的基礎(chǔ)上,增加通過檢測來自外部冗余的網(wǎng)絡(luò)通信檢測裝置的2路脈沖信號來即時測定健康值的邏輯,并將通過104規(guī)約判斷機制測定的網(wǎng)卡健康值和通過檢測2路脈沖測定的網(wǎng)卡健康值之和作為網(wǎng)卡的總健康值,參與主備CPU的切換邏輯運算,以實現(xiàn)快速切換。
設(shè)計更新后的相關(guān)邏輯共有4個,具體分別說明如下:
(1)脈沖檢測邏輯,其中GB_PULS1為來自于網(wǎng)絡(luò)通信監(jiān)測裝置1的脈沖信號,GB_PULS2為來自于網(wǎng)絡(luò)通信監(jiān)測裝置2的脈沖信號。
其邏輯功能是:當2路脈沖信號同時丟失超過5s,則立即判網(wǎng)卡通信中斷(LBX_PULSE_FAULT輸出信號躍變?yōu)楦唠娖?。具體介紹如下:
當GB_PULS1和GB_PULS2兩路周期為1s的脈沖信號均正常時,4個延時為5s的延時器輸出均為低電平,通過隨后的“或”、“與”運算后,LBX_PULSE_FAULT信號也為低電平(表示網(wǎng)卡工作正常);
當GB_PULS1和GB_PULS2兩路周期為1s的脈沖信號1路正常,另1路丟失(相應(yīng)的端口電平表現(xiàn)為持續(xù)高或持續(xù)低)超過5s,通過后續(xù)相應(yīng)的2個延時為5s的延時器和“或”運算后,輸出電平分別為一高一低,再通過“與”運算后,LBX_PULSE_FAULT信號也仍為低電平(表示網(wǎng)卡工作正常);
當GB_PULS1和GB_PULS2兩路周期為1s的脈沖信號均丟失(相應(yīng)的端口電平表現(xiàn)為持續(xù)高或持續(xù)低)超過5s時,通過后續(xù)相應(yīng)的2個延時為5s的延時器和“或”運算后,輸出電平全為為高電平,再通過“與”運算后,LBX_PULSE_FAULT信號為高電平(表示網(wǎng)卡通信中斷)。
(2)網(wǎng)卡健康值計算邏輯以及切換閉鎖邏輯
其邏輯功能為:完成當前主用CPU的網(wǎng)卡健康值邏輯計算和切換閉鎖邏輯的任務(wù)。具體介紹如下:
當LBX_PULSE_FAULT信號為高電平后會觸發(fā)切換命令LBC_CPU_SWITCH,LBC_CPU_SWITCH命令表明當前主用CPU的網(wǎng)卡工作不正常,需要進行切換,將此信號和當前主用、備用CPU的狀態(tài)信號GB-_C2_ACT、GB-_C4_ACT進行邏輯“與”運算之后觸發(fā)激活備用CPU命令LBC_C2_ACT、LBC_C4_ACT,該命令通過MUX模塊將健康值32768累加到當前主用網(wǎng)卡健康值上,產(chǎn)生當前主用網(wǎng)卡健康值中間變量LA_C2_128_PRIORITY、LA_C4_128_PRIORITY,將該健康值送往邏輯用以判斷CPU的健康狀態(tài)。
另外,LBC_CPU_SWITCH命令還通過R-S(置位復(fù)位)觸發(fā)器確保在120s內(nèi)不會被再次觸發(fā),即在120s內(nèi)將會閉鎖再次切換。此功能是為了防止CPU切換之后通訊沒有穩(wěn)定造成的CPU頻繁切換。
(3)CPU總健康值計算及比較邏輯
其邏輯功能為:完成主備CPU的總健康值計算及比較邏輯的任務(wù)。具體介紹如下:
CPU的健康值由三部分組成:CPU本身健康值(LA_Res_C2或LA_Res_C4)+網(wǎng)卡健康值(LA_C2_128_PRIORITY或LA_C4_128_PRIORITY)+外圍板健康值(LA_Res_C2_MPE1、LA_Res_C2_MPE2、LA_Res_C2_MPE3或LA_Res_C4_MPE1、LA_Res_C4_MPE2、LA_Res_C4_MPE3)。
正常情況下,在沒有故障的時候,主用CPU和備用CPU健康值都為0(健康值越小越好,說明沒有故障,健康值會隨著故障程度的增加而增加),所帶外圍版健康值也相同。如果主用CPU所帶網(wǎng)卡健康值LA_C2_128_PRIORITY、LA_C4_128_PRIORITY因為通訊故障而增大,經(jīng)過“和”運算后,主用CPU的總健康值也會增大,與備用CPU的總健康值經(jīng)過COMPARATOR模塊進行比較,并經(jīng)過防抖濾波之后產(chǎn)生激活備用CPU的命令LB-_activate_C2、LB-_activate_C4。如果兩個CPU健康值相同,則激活當前CPU保持命令LB-_keep_CPU。
(4)最終主備CPU切換命令出口邏輯
其邏輯功能為:完成對主備CPU進行切換的任務(wù)。具體介紹如下:
當有切換命令LB-_activate_C2、LB-_activate_C4或者保持信號LB-_keep_CPU,將會產(chǎn)生CPU激活命令GB-_C2_ACTIVE_C、GB-_C2_ACTIVE_C,從而完成最終主備CPU的切換或者保持當前主用CPU的工作狀態(tài)。
對本方案可靠性的分析:
本方案的核心是通過快速判斷送往主用CPU網(wǎng)卡的兩路脈沖信號的同時丟失來實現(xiàn)對主備CPU的快速切換。我們分析認為:以下幾種情況會導(dǎo)致送往主用CPU網(wǎng)卡的兩路脈沖信號的同時丟失:
1)2套網(wǎng)絡(luò)通信監(jiān)測裝置同時下電檢修
2)2套網(wǎng)絡(luò)通信監(jiān)測裝置本體同時故障
3)2套網(wǎng)絡(luò)通信監(jiān)測裝置的網(wǎng)卡同時故障
4)1套網(wǎng)絡(luò)通信監(jiān)測裝置本體故障另外1套下電檢修
5)1套網(wǎng)絡(luò)通信監(jiān)測裝置本體故障另外1套網(wǎng)卡故障
6)1套網(wǎng)絡(luò)通信監(jiān)測裝置下電檢修另外1套網(wǎng)卡故障
7)機組LCU主用CPU網(wǎng)卡故障,通信中斷。
我們認為,1)、2)、3)、4)、5)、6)出現(xiàn)的概率非常低,這種小概率事件可以忽略不計。因此在正常情況下,只要送往主用CPU網(wǎng)卡的兩路脈沖信號同時丟失,我們可以判定是機組LCU主用CPU網(wǎng)卡故障,通信中斷,從而進行正常切換。
再者,我們還設(shè)計了將網(wǎng)絡(luò)通信監(jiān)測裝置的故障信號實時上送到監(jiān)控系統(tǒng)的上位機。即使出現(xiàn)極端的情況:上述、2)、3)、4)、5)、6)幾種狀況萬一出現(xiàn),運行人員也能及時從監(jiān)控系統(tǒng)的上位機讀到該故障信息,從而進行人工干預(yù),以避免頻繁切換事件的發(fā)生。因此,本方案的可靠性是極高的。
所以,我們確信:采用這一新的方案,可以有效的實現(xiàn)我們的目標:當主用CPU的網(wǎng)卡通信中斷時,可以實現(xiàn)主備CPU的快速切換。
(1)將一號機組LCU主備CPU的網(wǎng)卡SM-2554升級為新網(wǎng)卡SM-2556,并在相關(guān)數(shù)據(jù)庫里面完成相應(yīng)的參數(shù)更新。
(2)進行多次重復(fù)開機試驗,觀察:是否會產(chǎn)生更換網(wǎng)卡之前的異常切換現(xiàn)象。結(jié)果:重復(fù)開機二十幾次,均未發(fā)生異常切換現(xiàn)象,且與各系統(tǒng)通訊也均正常。
(3)進行兩個星期的正常開停機觀測,結(jié)果:均未發(fā)生異常切換現(xiàn)象,且與各系統(tǒng)通訊也均正常。
(4)更換二號機組網(wǎng)卡,重復(fù)上述試驗,結(jié)果:均未發(fā)生異常切換現(xiàn)象,且與各系統(tǒng)通訊也均正常。
(5)對一、二號機組進行半年時間的監(jiān)測,結(jié)果:均未發(fā)生異常切換現(xiàn)象,且與各系統(tǒng)通訊也均正常。
(6)將三、四號機組網(wǎng)卡全部更新為SM-2556,重復(fù)上述試驗和監(jiān)測,結(jié)果:均未發(fā)生異常切換現(xiàn)象,且與各系統(tǒng)通訊也均正常。
(1)在中控樓公用LCU7現(xiàn)地控制柜內(nèi)安裝第一套網(wǎng)絡(luò)通信監(jiān)測裝置AMC1703(以下簡稱一號監(jiān)測裝置),硬件配置為:雙CPU、雙網(wǎng)卡和雙電源。
(2)在地下公用控制LCU5現(xiàn)地控制柜內(nèi)安裝第二套網(wǎng)絡(luò)通信監(jiān)測裝置AMC1703(以下簡稱二號監(jiān)測裝置),硬件配置為:雙CPU、雙網(wǎng)卡和雙電源。
(3)編寫上述邏輯程序模塊并下載,對原來的冗余CPU主備切換控制邏輯程序RED_SWT.GPS進行更新。
(4)進行網(wǎng)絡(luò)通信故障模擬試驗
分別對4臺機進行了網(wǎng)絡(luò)通信故障模擬試驗,以驗證所實施方案的有效性和可靠性。
模擬方式為:拔掉機組LCU主用CPU網(wǎng)卡的網(wǎng)線、一套網(wǎng)絡(luò)通信監(jiān)測裝置下電、網(wǎng)絡(luò)通信監(jiān)測裝置同時下電。以下是試驗結(jié)果:
1)拔掉機組LCU主用CPU網(wǎng)卡網(wǎng)線模擬主用CPU網(wǎng)卡故障。試驗記錄見表1:
表1 模擬主用CPU網(wǎng)卡故障
表1試驗數(shù)據(jù)表明:采用新的網(wǎng)卡通信狀態(tài)即時判斷(脈沖判斷)和CPU即時切換機制之后,主備CPU切換時間大幅度縮短,從原來的接近1min縮短到8s之內(nèi)。且所有切換均平穩(wěn)快速完成,從未發(fā)生因切換造成機組開機流程超時而導(dǎo)致開機啟動失敗或者停機現(xiàn)象。
2)將一套網(wǎng)絡(luò)通信監(jiān)測裝置下電,模擬一路脈沖信號丟失。試驗記錄見表2:
表2 模擬一套網(wǎng)絡(luò)通信監(jiān)測裝置故障
表2試驗數(shù)據(jù)表明:當一套網(wǎng)絡(luò)通信監(jiān)測裝置發(fā)生故障時,不會導(dǎo)致機組CPU誤切換。
3)將兩套網(wǎng)絡(luò)通信監(jiān)測裝置同時下電,1min之后再上電。模擬兩路脈沖信號同時丟失,1min后再恢復(fù)。試驗記錄見表3:
表3 模擬兩路脈沖信號同時丟失,1min后再恢復(fù)
以上試驗數(shù)據(jù)表明:當兩套監(jiān)測裝置同時故障后,機組CPU能正確切換,并且在120s內(nèi)不會發(fā)生二次切換,避免了主備CPU在短時間內(nèi)的頻繁切換。
本項目對華東桐柏抽水蓄能電廠4臺抽蓄機組在發(fā)電、抽水啟動過程中,頻繁出現(xiàn)的機組LCU的主備CPU異常切換,且切換不成功,導(dǎo)致機組開機啟動失敗的原因進行了研究和分析并闡述了解決方案的研究制定和實施、驗證。
通過試驗驗證和實際運行檢驗,本項目的研究是成功的,取得了理想的效果,有效地提高了桐柏電廠抽蓄機組的安全穩(wěn)定運行水平和電廠的安全、經(jīng)濟考核指標。研究成果對其他同類電廠也具有較強的借鑒意義。