, ,
(國家電網(wǎng)公司運行分公司宜賓管理處,四川 宜賓 644000)
特高壓直流控保系統(tǒng)網(wǎng)絡(luò)風暴造成主機死機機理分析及網(wǎng)絡(luò)測試方法研究
禹佳,劉俊杰,孫文
(國家電網(wǎng)公司運行分公司宜賓管理處,四川 宜賓 644000)
基于特高壓直流輸電工程實際發(fā)生的由于控制保護系統(tǒng)網(wǎng)絡(luò)風暴引發(fā)主機死機的事件,分析了相關(guān)機理,提出了造成主機死機的3個條件,并給出了事件發(fā)生原因,分析表明現(xiàn)有特高壓直流控制保護系統(tǒng)中,主機網(wǎng)絡(luò)報文篩查檢測功能不完善,在出現(xiàn)長報文自鎖時不能及時提醒CPU采取應(yīng)對措施的嚴重缺陷。因此,在保護主機中增加了對超長報文的篩查檢測功能,當信息子站與控制保護系統(tǒng)之間的報文超過255字節(jié)后,控保主機系統(tǒng)選擇不進行接收。同時,為了驗證網(wǎng)絡(luò)性能及分析相關(guān)事故,提出了特高壓換流站控制保護系統(tǒng)網(wǎng)絡(luò)測試方案。實際事件分析體現(xiàn)了分析的正確性。
特高壓直流;控保系統(tǒng);網(wǎng)絡(luò)風暴;測試方案
隨著中國西部大開發(fā)和電力能源戰(zhàn)略的推進,集中于四川金沙江、雅礱江流域的多條特高壓直流輸電工程已逐漸投運[1-3]。其中,宜賓地區(qū)兩條額定電壓±800 kV特高壓直流輸電線路,總額定容量達到14 400 MW,已經(jīng)成為“西電東送”重要的電力通道。
由于特高壓直流采用晶閘管這一電力電子元件進行交流與直流的換流,因此必須配置控制系統(tǒng)調(diào)節(jié)直流的電壓和電流[3-5]。如今,特高壓直流的控制保護系統(tǒng)由雙極控制、極控制、閥組控制等多個環(huán)節(jié)共同組成。為了保證控制環(huán)節(jié)間相互協(xié)調(diào),需要在不同環(huán)節(jié)間進行系統(tǒng)狀態(tài)、控制指令等信號的通信。一旦網(wǎng)絡(luò)系統(tǒng)出現(xiàn)故障,將導(dǎo)致特高壓直流異常運行,甚至出現(xiàn)雙極閉鎖,后果極為嚴重。
復(fù)奉直流是國家電網(wǎng)公司第一條特高壓直流工程,迄今為止已運行6年,其源源不斷地將西部清潔能源輸送至東部負荷中心。復(fù)奉直流采用ABB公司提供的DCC800直流控保系統(tǒng),在2016年7月19日由于網(wǎng)絡(luò)風暴導(dǎo)致雙極保護主機狀態(tài)丟失,引起了復(fù)奉直流雙極閉鎖,引發(fā)了業(yè)界極高的關(guān)注。
其實網(wǎng)絡(luò)風暴所引起的安全問題在智能變電站已經(jīng)得到了高度的重視,有學(xué)者在綜述智能變電站二次系統(tǒng)過程層網(wǎng)絡(luò)拓撲結(jié)構(gòu)可靠性和實時性分析的文章[6]中就指出,當智能變電站單個設(shè)備通信鏈路異常時,有可能會引起多個設(shè)備數(shù)據(jù)鏈路發(fā)生崩塌式異常,進而導(dǎo)致整個二次網(wǎng)絡(luò)系統(tǒng)癱瘓。
圖1 LAN網(wǎng)絡(luò)示意圖
圖2 控制保護系統(tǒng)監(jiān)視總線(以1極為例)
然而,換流站中由于網(wǎng)絡(luò)異常導(dǎo)致主機死機、雙極閉鎖等問題還鮮見報道。在此背景下,在介紹特高壓直流控制保護系統(tǒng)典型結(jié)構(gòu)的基礎(chǔ)上,對網(wǎng)絡(luò)風暴造成主機死機的機理進行了分析,并提出了特高壓換流站控制保護系統(tǒng)網(wǎng)絡(luò)測試方案。通過對復(fù)奉直流“7·19”典型事件的分析,驗證了機理分析的正確性,并提出了相應(yīng)的反故障措施。
以復(fù)奉直流為例,介紹特高壓直流控制保護的典型結(jié)構(gòu)。
復(fù)奉直流控制保護主機為ABB公司的DCC800系統(tǒng),采用Intime實時操作系統(tǒng)。每臺主機配置雙網(wǎng)絡(luò)分別接入交換機A和B,再通過BPSIA、BPSIB接入SCADA系統(tǒng),SCADA系統(tǒng)由南瑞供貨,如圖1所示。
每套極控系統(tǒng)(PCPA1、PCPB1)均通過eTDM總線監(jiān)視3套雙極保護系統(tǒng)(BCPA2、BCPB2、BPC2)的狀態(tài),如圖2。從PCP軟件中能看到,在PCP控制主機無法檢測到3套BCP保護主機狀態(tài)時,會導(dǎo)致PCP控制主機發(fā)出極S停運的指令,可造成極停運??紤]到eTDM總線運行正常,極有可能是交換機故障引起雙極控制保護主機死機,PS932板卡監(jiān)測到主機狀態(tài)不為ACTIVE,并將信息發(fā)送至極控。
2.1機理分析
控制保護系統(tǒng)主機死機是一種極為罕見的事件??紤]到普通的數(shù)據(jù)掉包、交換機故障只會引起通信故障,因此若要引起特高壓直流控制保護主機死機,須滿足以下條件:
1)由于一旦網(wǎng)絡(luò)數(shù)據(jù)不符合控制保護廠家的協(xié)議,則在網(wǎng)絡(luò)層解包時即被忽略,無法到達應(yīng)用層。因此,如果發(fā)生由于網(wǎng)絡(luò)原因?qū)е轮鳈C死機,必然是由于主機收到大量的符合廠家控制保護協(xié)議的數(shù)據(jù),超過控制保護主機的內(nèi)部緩存,引起主CPU讀取超時,引起主機死機。
2)主機沒有內(nèi)部緩存溢出檢測功能,或檢測功能不完善,導(dǎo)致大量數(shù)據(jù)在內(nèi)存中堆積,而主CPU沒有及時發(fā)現(xiàn)。
3)若要引起大面積主機同時死機,那么大量數(shù)據(jù)還必須是通過網(wǎng)絡(luò)廣播的方式發(fā)送的。
根據(jù)上述條件可知,如果控制保護主機是由于網(wǎng)絡(luò)原因出現(xiàn)死機,可以得出如下判斷:
1)數(shù)據(jù)來源自控制保護設(shè)備本身,比如網(wǎng)關(guān)服務(wù)器;
2)考慮到換流站系統(tǒng)LAN中,主機間是不進行通信的,具有廣播性質(zhì)的數(shù)據(jù)主要是網(wǎng)關(guān)服務(wù)器的總召指令。
綜上所述,由于網(wǎng)絡(luò)風暴導(dǎo)致控制保護系統(tǒng)死機的主要原因是網(wǎng)關(guān)服務(wù)器與主機之間的通信存在問題,導(dǎo)致網(wǎng)關(guān)服務(wù)器發(fā)出的總召廣播沒有得到響應(yīng)而頻繁發(fā)送總召廣播,長字節(jié)數(shù)據(jù)造成主機超時死機,亦即網(wǎng)絡(luò)中出現(xiàn)死鎖現(xiàn)象。一旦出現(xiàn)死鎖,一組節(jié)點由于沒有空閑緩沖區(qū)而無法接收和轉(zhuǎn)發(fā)分組,節(jié)點之間相互等待并一直保持這一僵局,此時只能靠人工干預(yù)重新啟動網(wǎng)絡(luò)來解除死鎖。
2.2反事故措施
通過分析表明,隨著特高壓直流運行時間的不斷增長,設(shè)備老化等現(xiàn)象逐漸顯現(xiàn),網(wǎng)絡(luò)異常導(dǎo)致流量劇增現(xiàn)象是難以避免的。因此,需要采取必要措施防止網(wǎng)絡(luò)異常后引起故障擴大。而網(wǎng)絡(luò)異常后導(dǎo)致事故進一步擴大的根本原因在于控保系統(tǒng)主機網(wǎng)絡(luò)報文篩查檢測功能不完善,在出現(xiàn)長報文自鎖時不能及時提醒CPU采取應(yīng)對措施。
因此主要的改進措施應(yīng)是在保護主機中增加對超長報文的篩查檢測功能,當信息子站與控制保護系統(tǒng)之間的報文超過255字節(jié)后,控保主機系統(tǒng)選擇不進行接收(IEC 60870-5-1規(guī)定的最大用戶數(shù)據(jù)的數(shù)目為255個字節(jié),如果幀長影響到召喚的循環(huán)時間,特別是當發(fā)生傳輸差錯時,還得進一步限制用戶數(shù)據(jù)的數(shù)目)。
由于特高壓直流控制保護系統(tǒng)網(wǎng)絡(luò)對直流輸電安全可靠性具有重要的意義,因此為了驗證網(wǎng)絡(luò)性能,分析相關(guān)事故,需要在投運前以及事件發(fā)生后對控保系統(tǒng)網(wǎng)絡(luò)進行測試。
3.1測試平臺
待測試交換機通過以太網(wǎng)口連接所有二次設(shè)備(服務(wù)器),二次設(shè)備連接在仿真的并可以交換相關(guān)電力數(shù)據(jù)的一次設(shè)備上,整個網(wǎng)絡(luò)上的結(jié)構(gòu)和數(shù)據(jù)交換情況需接近真實網(wǎng)絡(luò)。所有網(wǎng)絡(luò)設(shè)備之間通過建立于TCP/IP協(xié)議之上的IEC 60870-5-103協(xié)議進行通信。
網(wǎng)絡(luò)測試器具有若干網(wǎng)絡(luò)端口,每一個端口可以模擬一個網(wǎng)絡(luò)設(shè)備,進行數(shù)據(jù)收發(fā)。測試可模擬多臺網(wǎng)絡(luò)設(shè)備,通過網(wǎng)線連接在交換機上。網(wǎng)絡(luò)系統(tǒng)分析儀通過網(wǎng)線連接在交換機上,用以對網(wǎng)絡(luò)情況進行監(jiān)控并抓取數(shù)據(jù)報文。
3.2建議測試項目
1)吞吐量測試:恒定負載時間為60 s;測試次數(shù)為20次并取平均值;測試粒度為1%,幀長度選擇分別為64 B、128 B、256 B、512 B、1024 B、1280 B、1518 B。
2)時延測試:數(shù)據(jù)發(fā)送持續(xù)時間為120 s;重復(fù)次數(shù)為20次并取平均值;同時發(fā)送方和接受方有時間同步。
3)丟包率測試:負載量由100%開始按5%逐級遞減,該測試會一直重復(fù)進行,直到存在連續(xù)3個迭代沒有發(fā)生幀丟失;測試次數(shù)為20次;幀長度選擇分別為64 B、128 B、256 B、512 B、1024 B、1280 B、1518 B。
4)背靠背測試:測試時間至少為2 s;測試次數(shù)為50次。
4.1事件描述
2015年7月19日14時40分,復(fù)龍站報SCM服務(wù)器與SCADA通訊故障,ABB后臺與南瑞OWS雙極直流場區(qū)域開關(guān)量狀態(tài)及主機的監(jiān)視全部變灰,失去監(jiān)視功能,如圖3所示。經(jīng)分析判斷為雙極SI服務(wù)器(BPSIA、BPSIB)故障。
14時51分報出“PCP11A/B 系統(tǒng)與1臺BCP MC2的通訊故障,PCP21A/B 系統(tǒng)與1臺BCP MC2的通訊故障、PCP21A 與所有BCP MC2的通訊故障、PCP11B 與所有BCP MC2的通訊故障”,隨后極控發(fā)出“PCP21/11 極控 5 min內(nèi)慢停ON”的信號,雙極功率控制OFF,單極功率控制ON,5 min后極Ⅰ和極Ⅱ功率分別以100 MW/min開始下降,直至極Ⅰ和極Ⅱ相繼降至零。主要事件記錄見表1。
表1 事件記錄
圖3 SCADA系統(tǒng)失去監(jiān)視功能
4.2網(wǎng)絡(luò)測試結(jié)果
7月24日至26日,在仿真試驗室開展了網(wǎng)絡(luò)測試工作,試驗前,用復(fù)龍站換下的故障交換機替換下仿真試驗室的交換機,啟動所有控制保護主機和RTDS仿真器,開展72 h的運行觀察以及交換機單體試驗。
總體結(jié)果反映,數(shù)據(jù)幀長越小,對測試結(jié)果影響越大;反之,幀長越大,對測試結(jié)果影響越小。因為對于網(wǎng)絡(luò)設(shè)備而言,在同一帶寬下,幀長越小數(shù)據(jù)幀的數(shù)量就越大,那么網(wǎng)絡(luò)設(shè)備處理這些數(shù)據(jù)幀花費的時間就會越多;反之幀長越大,數(shù)據(jù)幀的數(shù)量就越小,那么網(wǎng)絡(luò)設(shè)備處理這些數(shù)據(jù)幀花費的時間就會越少,也就越容易處理。隨著網(wǎng)絡(luò)負載的逐漸增大,相關(guān)網(wǎng)絡(luò)性能參數(shù)也紛紛降低,但并未出現(xiàn)網(wǎng)絡(luò)擁塞導(dǎo)致設(shè)備之間通訊中斷的情況,網(wǎng)絡(luò)系統(tǒng)分析儀也一直可以抓取到相關(guān)一次設(shè)備之間的數(shù)據(jù)報文。通過測試結(jié)果分析認為,該被測試交換機的性能在上述4個指標的表現(xiàn)上屬于正常。
試驗時也發(fā)現(xiàn),在網(wǎng)絡(luò)中出現(xiàn)長字節(jié)數(shù)據(jù)時,主機與網(wǎng)關(guān)服務(wù)器間的通訊會頻繁中斷。
4.3事件原因分析
由上述分析結(jié)果表明,復(fù)龍站由于網(wǎng)絡(luò)異常導(dǎo)致控制保護主機大面積死機,并引發(fā)雙極閉鎖直接原因是網(wǎng)絡(luò)中發(fā)生了極小概率的故障,導(dǎo)致網(wǎng)關(guān)服務(wù)器與控制保護主機的通訊死鎖,產(chǎn)生了大量的廣播報文,而控制保護主機沒有完善的檢測手段,主CPU面對大量的報文運行超時死機。
4.4復(fù)奉直流功率緩降原因
復(fù)奉直流極控系統(tǒng)在檢測到3套雙極保護系統(tǒng)同時故障(NO_BIP_ACTV_AND_OK)延時5 min,或者檢測到直流分壓器SF6氣體壓力降低至跳閘值時(DC_VOLT_DIVIDER_S_STOP),將以100 MW/min的速度回降該極的功率。
圖4 功率回降功能啟動
而在該事件中,檢查極控系統(tǒng)軟件,發(fā)現(xiàn)故障時4套極控系統(tǒng)主機均檢測到3套雙極保護主機不在值班(ACTIVE)狀態(tài),極控啟動直流功率回降,符合軟件功能邏輯(即雙極區(qū)域無保護運行時,極控啟動功率回降)。
在介紹特高壓直流控保系統(tǒng)典型結(jié)構(gòu)的基礎(chǔ)上,對網(wǎng)絡(luò)風暴造成主機死機的機理進行了分析,并提出了特高壓換流站控制保護系統(tǒng)網(wǎng)絡(luò)測試方案,得出了以下結(jié)論:
1)網(wǎng)絡(luò)風暴引起特高壓直流控制保護主機死機,須滿足以下條件:主機收到大量的符合廠家控制保護協(xié)議的數(shù)據(jù),超過控制保護主機的內(nèi)部緩存;主機沒有內(nèi)部緩存溢出檢測功能,或檢測功能不完善,導(dǎo)致大量數(shù)據(jù)在內(nèi)存中堆積,而主CPU沒有及時發(fā)現(xiàn);大量數(shù)據(jù)還必須是通過網(wǎng)絡(luò)廣播的方式發(fā)送的。
2)由于網(wǎng)絡(luò)風暴導(dǎo)致控制保護系統(tǒng)死機的主要原因是網(wǎng)關(guān)服務(wù)器與主機之間的通信存在問題,導(dǎo)致網(wǎng)關(guān)服務(wù)器發(fā)出的總召廣播沒有得到響應(yīng),頻繁發(fā)送總召廣播,長字節(jié)數(shù)據(jù)造成主機超時死機,亦即網(wǎng)絡(luò)中出現(xiàn)死鎖現(xiàn)象。
3)由于特高壓直流控制保護系統(tǒng)網(wǎng)絡(luò)對直流輸電安全可靠性具有重要的意義,因此為了驗證網(wǎng)絡(luò)性能,分析相關(guān)事故,在投運前以及事件發(fā)生后須對控保系統(tǒng)網(wǎng)絡(luò)進行測試。測試項目包括吞吐量測試、時延測試、丟包率測試和背靠背測試。
4)網(wǎng)絡(luò)異常后導(dǎo)致事故進一步擴大的根本原因在于控保系統(tǒng)主機網(wǎng)絡(luò)報文篩查檢測功能不完善,在出現(xiàn)長報文自鎖時不能及時提醒CPU采取應(yīng)對措施。因此,主要的改進措施應(yīng)是在保護主機中增加對超長報文的篩查檢測功能,當信息子站與控制保護系統(tǒng)之間的報文超過255字節(jié)后,控保主機系統(tǒng)選擇不進行接收。
[1] 鄭曉冬,邰能靈,楊光亮,等.特高壓直流輸電系統(tǒng)的建模與仿真[J] .電力自動化設(shè)備,2012,32(7):10-14.
[2] 謝紹宇,王秀麗,王錫凡.交直流混聯(lián)系統(tǒng)可靠性評估[J].電力自動化設(shè)備,2011,31(7):10-16.
[3] Aik D L H, Andersson G. Power Stability Analysis of Multi-infeed HVDC Systems[J].IEEE Trans. on Power Delivery, 1998,13(3):923-931.
[4] IEEE PES Transmission and Distribution Committee.IEEE Guide for Planning DC Links Terminating at AC Locations Having Low Short-circuit Capacities[R].Newyork:1997.
[5] 李少華,劉濤,蘇勻,等.±800 kV特高壓直流輸電系統(tǒng)解鎖/閉鎖研究[J].電力系統(tǒng)保護與控制,2010,38(6):84-87.
[6] 陰玉婷,楊明玉,鄭永康.智能變電站網(wǎng)絡(luò)化二次系統(tǒng)及其在線監(jiān)測研究綜述[J].電氣自動化,2014,36(1):1-4.
According to the actual network failure caused by network storm in UHVDC control and protection system, the relevant mechanism is analyzed, three conditions are put forward to host crashes, and the causes of the accident are given, which ultimately leads to the DC bipolar blocking event. Through the system simulation analysis of the blocking event, it is found that the DCC800 host network packet screening detection function is not perfect, in the emergence of long packets of self lock it cannot be timely remind CPU to take measures to deal with serious defects. Therefore, in the protection of the host the length of the packet screening detection function is added, when the message is more than 255 bytes between the station and the control protection system, the host computer control system selects not to receive. At the same time, in order to verify the performance of the network and analyze the related accidents, the network testing schemes for the control and protection system of UHVDC converter station are proposed. The analysis of actual event shows the correctness of the analysis.
UHVDC;control and protection system;network storm;testing scheme
TM76
:B
:1003-6954(2017)04-0034-04
2017-04-16)
禹 佳(1983),本科、高級工程師,研究方向為特高壓直流輸電技術(shù); 劉俊杰(1989),本科、助理工程師,研究方向為特高壓直流輸電技術(shù); 孫 文(1980),本科、高級工程師,研究方向為特高壓直流輸電技術(shù)。