国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度強化學習應用于電力系統(tǒng)控制研究綜述

2021-03-07 13:00:50宋鵬飛楊寧崔承剛閆南奚培鋒
現(xiàn)代計算機 2021年1期
關鍵詞:電網(wǎng)狀態(tài)文獻

宋鵬飛,楊寧,崔承剛,閆南,奚培鋒

(1.上海電力大學,上海200090;2.上海市智能電網(wǎng)需求響應重點實驗室,上海200333)

0 引言

電力系統(tǒng)是一個包含發(fā)電、輸變電、用電等環(huán)節(jié)的綜合系統(tǒng),是現(xiàn)代社會的重要基礎設施。電力系統(tǒng)故障(部分或完全停電)會導致巨大的經(jīng)濟損失[1]。2003年8月14號,美國和加拿大電力系統(tǒng)部分地區(qū)停電造成的經(jīng)濟損失高達100億美元。此外,未來將會有更多的服務設備依賴于電力(例如新能源汽車、交通運輸?shù)认到y(tǒng))。因此保障電力系統(tǒng)的穩(wěn)定運行至關重要。

隨著不可再生能源的不斷消耗和國家推進高效清潔能源體系結構的建設,以風能和太陽能為主的分布式能源通過電力電子變換器接入到電力系統(tǒng),降低了系統(tǒng)的慣性,對系統(tǒng)的穩(wěn)定運行產(chǎn)生了沖擊[2]。因此需要尋求先進的控制技術,來確保從發(fā)電源頭到最終用戶端電力傳輸?shù)目煽啃?,并防止或減少系統(tǒng)的停電現(xiàn)象,避免巨大的經(jīng)濟損失和社會后果。

逐漸完善的通信基礎設施和強大計算能力的控制設備為實施高級的控制方案提供了可能性??刂乒こ獭⒂嬎銠C科學、大數(shù)據(jù)、應用數(shù)學等理論的發(fā)展為控制系統(tǒng)設計提供了更多的高級控制算法。近年來,深度強化學習在電力系統(tǒng)控制與決策方面的應用研究已得到各界人士的認可,2018年國家電網(wǎng)正式發(fā)文成立人工智能應用研究所。

機器學習可以分為監(jiān)督學習、無監(jiān)督學習和強化學習。不同于監(jiān)督學習和無監(jiān)督學習,強化學習是一種自監(jiān)督的學習方式:智能體一方面基于動作和獎勵數(shù)據(jù)進行訓練,并優(yōu)化行動策略;另一方面自主地與環(huán)境互動,觀測所需狀態(tài)并獲取反饋[3]。傳統(tǒng)的強化學習只能解決序列決策問題,無法適用電力系統(tǒng)的復雜性和不確定性。深度神經(jīng)網(wǎng)絡與強化學習結合突破了這一限制,為電力系統(tǒng)控制與決策問題提供了新的方案。

1 強化學習原理

1.1 強化學習

強化學習是一種無模型并且和環(huán)境反復交互的學習方法,主要是通過智能體在對應的環(huán)境中不斷地試錯來尋找最優(yōu)策略,其過程可以用馬爾科夫決策過程表示[4]。其中最經(jīng)典的強化學習算法是基于值函數(shù)的Q算法,智能體評估執(zhí)行動作之后所得獎勵的大小指導自己的更新方向,經(jīng)過自我不斷優(yōu)化逐漸逼近最優(yōu)值。強化學習過程如圖1。

圖1 強化學習原理圖

首先智能體從環(huán)境中識別自己所處的當前狀態(tài)St,之后選擇動作at,環(huán)境反饋獎勵rt+1,并進入下一個狀態(tài)S’。智能體根據(jù)獲得獎懲回報的大小來更新策略。強化學習最終目標是找到最優(yōu)策略p*,使智能體在任意過程都可以獲得最大的長期累積回報。

其中γ是折扣因子,決定了時間回報尺度,π是策略,S是狀態(tài)空間。

在大多數(shù)電力系統(tǒng)控制問題中,狀態(tài)空間是無限的。通常采用狀態(tài)空間離散化技術將狀態(tài)空間劃分為有限數(shù)量區(qū)域[5]。因此可以將電力系統(tǒng)控制序列問題定義成馬爾科夫決策過程。從而在離散的空間中搜索最優(yōu)策略,得到最大值函數(shù)Q。Q函數(shù)的公式為:

1.2 深度強化學習

深度強化學習(Deep Reinforcement Learning,DRL)的興起和發(fā)展與深度學習研究的深入和突破緊密相關,尤其是深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNNs)。DNNs的引入使得RL能夠擴展到具有高維狀態(tài)和行為空間的決策問題。圖2展示了DRL的一般框架。

圖2 DRL一般框架

DRL算法根據(jù)不同的特征方式有基于價值函數(shù)、基于控制策略和基于模型等多種分類方法[6]。最具有代表性的基于價值函數(shù)的DRL算法是DeepMind公司提出深度Q網(wǎng)絡算法(Deep Q-Network,DQN)[7]。以此為基礎,研究人員對DQN做了不同的改進:解決過估計問題的Double DQN、高效學習的Prioritized Replay DQN和將環(huán)境價值和動作價值解耦的Dueling DQN。最流行的基于控制策略的DRL是深度確定性策略算法(Deep Deterministic Policy Gradient,DDPG),該算法借鑒了DQN和AC的優(yōu)點,能夠高效地解決具有連續(xù)動作空間的任務。

2 電力系統(tǒng)智能體結構框架

電力系統(tǒng)控制問題可以描述成一個馬爾科夫決策過程,針對不同的任務觀測所需狀態(tài)并設置特定的動作空間,用獲得的數(shù)據(jù)集進行訓練優(yōu)化,從而達到所期望的運行效果。

文獻[8]提出一種未來可能應用于實際場景的電力系統(tǒng)智能體決策結構框圖。它定義了學習和決策兩個模塊。學習模塊是典型的RL,而決策模塊是貪婪智能體用學習模塊中所獲得知識進行控制。這樣,智能體同時利用了仿真數(shù)據(jù)和實際數(shù)據(jù),又避免了與系統(tǒng)直接交互,并且貪婪智能體還可以實時更新學習模塊獲得的策略,以確保系統(tǒng)的穩(wěn)定運行。其控制框架如圖3。

圖3 電力系統(tǒng)智能體決策框圖

3 系統(tǒng)正常運行狀態(tài)控制

電力系統(tǒng)在不同運行狀態(tài)下面臨著許多控制問題。DyLiacco等人提出了一種被廣泛接受的電力系統(tǒng)運行狀態(tài)分類方法[9]。他們定義的五種運行狀態(tài)如圖4所示。

圖4 電力系統(tǒng)運行狀態(tài)圖

圖中E是等式約束,代表系統(tǒng)發(fā)電負荷需求平衡;I是不等式約束,代表系統(tǒng)物理設備的限制(通常根據(jù)系統(tǒng)組件可以承受而不會造成任何損壞的電流和電壓幅度、有功、無功和視在功率來定義),符號“~”是違反。本文將根據(jù)此框架來綜述DRL應用于電力系統(tǒng)控制與決策方面的概況。

3.1 系統(tǒng)正常運行狀態(tài)控制

在正常運行狀態(tài)下,電力系統(tǒng)各功率需求達到平衡,系統(tǒng)設備均在額定范圍內工作。此時,除了維持系統(tǒng)正常運行,還要調節(jié)系統(tǒng)各設備出力,在保證發(fā)電質量的同時,讓電力系統(tǒng)有一定的擾動承受能力,從而實現(xiàn)電力系統(tǒng)的安全、經(jīng)濟運行。本節(jié)下面將從設備裝置、子系統(tǒng)、微電網(wǎng)三方面介紹基于DRL的控制決策。

(1)設備裝置控制

在繼電器保護控制方面,文獻[10]將繼電器保護控制公式化為多智能體RL問題,提出了一種新穎的多智能體嵌套RL方案,通過設置繼電器控制邏輯來區(qū)分發(fā)電量大、運行條件差的配電系統(tǒng)和故障運行狀況。該策略在故障率、對運行條件變化的魯棒性和響應速度方面遠遠優(yōu)于傳統(tǒng)的基于閾值的繼電保護策略。

為了使可再生能源的高效率發(fā)電,文獻[11]提出一種基于在線RL的變速風能轉換系統(tǒng)(Wind Energy Conversion Systems,WECS)智能最大功率點跟蹤(Maxi?mum Power Point Tracking,MPPT)的方法。該策略不需了解風力渦輪機參數(shù)和風速信息,通過學習MPP獲得最佳轉子轉速-輸出功率曲線,然后應用于WECS。文獻[12]針對永磁同步發(fā)電機的變速風能轉換系統(tǒng)(WECS),提出將人工神經(jīng)網(wǎng)絡ANN與RL結合起來學習轉子速度和永磁同步電機輸出的最佳功率關系。此方法不僅易于實現(xiàn),而且可以再次激活以適應系統(tǒng)的變化。文獻[13]提出用可變泄漏最小均方算法來生成光伏逆變器基準,將RL算法用于MPPT和滑動模式方法來生成開關信號。MPPT采用Q學習算法設計,用于在不同太陽光照條件下的太陽能電池板最大功率跟蹤。文獻[14]在OpenAI Gym平臺上對DDPG、IGDDPG和TD3三種RL控制策略在不同溫度和太陽輻照度條件下進行性能測試,仿真結果表明DRL方案能夠實時監(jiān)測光照和溫度條件變化,快速調整自身策略以保證發(fā)電功率最大。文獻[15]是在局部陰影條件下基于DRL檢測MPP。同等條件下,相比于傳統(tǒng)跟蹤方法,DQN方法和DDPG方法有更快速的追蹤效果。但是,該方案的局限性在于所提出的方法不能始終檢測到全局MPP,將來還需進一步提高基于DRL的方法的跟蹤能力。

(2)子系統(tǒng)控制

針對非馬爾科夫環(huán)境下自動發(fā)電控制(Automatic Generation Control,AGC)火電廠的長時間延遲控制回路問題,文獻[16]提出一種多步Q(l)的隨機最優(yōu)松弛AGC方案。該AGC策略可通過在線調整松弛因子來優(yōu)化CPS合規(guī)性和降低控制成本。文獻[17]提出一種終身學習AGC方案,該方案將風電場、光伏電站、電動汽車集成為用于AGC的廣域虛擬發(fā)電廠,從而加快系統(tǒng)響應速度,并減少了需求功率不匹配時的成本。而且還引入了模仿學習提高智能體學習效率,實現(xiàn)在線優(yōu)化。文獻[18]提出了一種基于DRL的AGC參數(shù)擬合的數(shù)據(jù)驅動方法,通過建立ACG驅動電網(wǎng)模型,用DQN參數(shù)擬合來評估不同風力穿透率和斜率下的AGC性能。文獻[19]為應對可再生能源的不確定性,提出了一種基于DRL的負荷頻率控制(Load-Frequency Control,LFC)。該方案通過DRL和連續(xù)動作搜索來離線優(yōu)化LFC策略,并采用在線控制,其中特征提取采用層疊式去噪編碼器。

確保電網(wǎng)電壓始終保持在額定范圍內是電網(wǎng)安全運行的必要條件。文獻[20]提出一種基于DRL自主電壓控制策略,智能體根據(jù)監(jiān)控與數(shù)據(jù)采集或相量測量單元實時測量檢測到的當前系統(tǒng)狀況,對電網(wǎng)進行及時有效控制。在隨機條件下進行測試,DQN和DDPG智能體僅使用一個控制決策就可以分別達到預期目標的91.25%和99.92%。文獻[21]提出雙時間尺度DRL控制電網(wǎng)電壓方法,其中慢時間尺度從使用DRL的數(shù)據(jù)中學習最優(yōu)電容器設置,快時間尺度利用精確或近似的網(wǎng)格模型,再根據(jù)慢時間尺度的學習部署找到逆變器的最佳設置點,從而實現(xiàn)快速調壓控制。

(3)微電網(wǎng)控制

分布式能源的飛速發(fā)展對控制方案有了更高的要求。文獻[22]提出采用RL對包含光伏系統(tǒng)和柴油發(fā)電機的混合儲能系統(tǒng)(HESS)進行在線最優(yōu)控制,以改善HESS的瞬態(tài)性能。該方案使用了兩種神經(jīng)網(wǎng)絡:其一進行非線性動力學的學習,另一種通過在線學習來控制系統(tǒng)的最佳輸入。并且通過評估確定了此方法的有效性。文獻[23]提出一種微電網(wǎng)系統(tǒng)并網(wǎng)模式下的自適應智能功率控制方法,該控制系統(tǒng)包含神經(jīng)模糊控制器和模糊智能體控制器。模糊評論智能體采用基于神經(jīng)動力學編程的RL算法。通過模糊智能體產(chǎn)生的評估或增強信號和誤差的反向傳播,在線調整神經(jīng)模糊控制器的輸出層權重。與傳統(tǒng)的PI控制相比,該控制器瞬態(tài)響應時間顯著減少,功率振蕩得以消除,并且實現(xiàn)了快速收斂。

3.2 系統(tǒng)恢復控制

電力系統(tǒng)在運行過程中,遇到嚴重的擾動,可能會使某些設備超出正常運行范圍。這時需經(jīng)過有效的調節(jié)措施,使系統(tǒng)恢復到正常狀態(tài)。文獻[24]基于描述級聯(lián)故障的現(xiàn)實潮流模型,用Q算法對大規(guī)模電力系統(tǒng)級聯(lián)故障尋找總線最優(yōu)恢復序列,實驗證明在恢復性能方面優(yōu)于基準啟發(fā)式恢復策略。文獻[25]使用由下而上的多智能體分層控制,當系統(tǒng)發(fā)生故障時,下層智能體首先定位故障并使之隔離,上層智能體在下層智能體的協(xié)助下對系統(tǒng)重組和恢復。

文獻[26]提出在電力系統(tǒng)網(wǎng)絡受到攻擊時,用DDPG算法來確定最佳重合閘時間。在模擬環(huán)境中,受到網(wǎng)絡攻擊的電力系統(tǒng),通過數(shù)值積分方法獲得電力系統(tǒng)的狀態(tài),通過暫態(tài)能量函數(shù)來評估恢復性能。在訓練完成之后,通過更多的場景測試驗證方案的適應性,并且與DQN的效果相比較,DDPG算法能更迅速且更具連續(xù)性的生成最優(yōu)恢復操作,從而減輕級聯(lián)中斷的潛在風險。

3.3 系統(tǒng)緊急控制

當系統(tǒng)遇到嚴重故障時,會造成系統(tǒng)電壓或者頻率低于極限值,設備也可能進入超負荷運行狀態(tài)。這時系統(tǒng)會觸發(fā)報警信號進入緊急狀態(tài),緊急控制一般被認為是電力系統(tǒng)最后的安全保護,調度人員應采取靈活的方案,使系統(tǒng)恢復到警戒狀態(tài)然后再到正常狀態(tài)。文獻[27]開發(fā)了RL電力系統(tǒng)測試平臺并對自己所提出的DRL緊急控制方案進行評估。在DQN模型訓練好之后,在不同的場景對發(fā)動機動態(tài)制動和低壓減載進行測試,仿真實驗證明DRL方案在緊急狀態(tài)下對系統(tǒng)的調節(jié)比MPC和Q算法有更好的自適應性和耐用性。文獻[28]使用電機無功、電機角度等多維屬性數(shù)據(jù)對DRL進行訓練,此方案讓負責選擇動作和計算值函數(shù)的雙重Q網(wǎng)絡與獲得運行環(huán)境獎勵值和動作獎勵值的競爭Q網(wǎng)絡相結合,通過比較兩種網(wǎng)絡的Q值大小來選擇切機策略。

3.4 系統(tǒng)預防控制

預防控制是將實時測量系統(tǒng)的運行值與額定值進行比較,利用所得信息對系統(tǒng)進行安全監(jiān)視。當信息表明系統(tǒng)不夠安全,則提前采取切換負荷、調整安全裝置等措施,保證系統(tǒng)的穩(wěn)定運行。文獻[29]提出通過RL來防止智能電網(wǎng)出現(xiàn)連鎖故障。智能體經(jīng)過系統(tǒng)訓練之后,可以通過實時調節(jié)發(fā)動機的輸出功率來緩解線路阻塞,防止在N-1和N-1-1緊急情況下連續(xù)發(fā)生線路中斷和停電。在IEEE 118總線系統(tǒng)上測試表明,此方法能在不切斷負載的情況下,持續(xù)保證獨立電網(wǎng)或者復雜系統(tǒng)的平穩(wěn)運行。此外,該方法還可以使系統(tǒng)平穩(wěn)地進入無過載的新狀態(tài),且不會因突然變化(例如,負載減少的情況)對系統(tǒng)施加壓力。

文獻[30]為了預防電力系統(tǒng)大規(guī)模連續(xù)擾動,提出了深林深度強化學習算法(Deep Forest Reinforcement Learning,DFRL),DFRL Q值和動作集被分割用來降低數(shù)據(jù)維度,深層森林被用來預測下一個系統(tǒng)狀態(tài),多個輔助RL通過學習系統(tǒng)的特性從而對大型互聯(lián)電力系統(tǒng)AGC單元發(fā)送指令,與傳統(tǒng)的方法相比,DFRL性能最優(yōu)。

綜上可知,DRL大多數(shù)控制方案都是針對系統(tǒng)的正常運行狀態(tài)下決策問題,其他方面的涉及相對較少。隨著DRL多智能分步控制、嵌入特定專家知識等領域的發(fā)展,DRL將逐步給出電力系統(tǒng)各種控制問題的最優(yōu)解。

4 結語

到目前為止,DRL控制決策已經(jīng)應用于電力系統(tǒng)的各個場景,幾乎覆蓋電力系統(tǒng)的每一個技術方向。據(jù)不完全統(tǒng)計,相關領域已經(jīng)有數(shù)百篇文章發(fā)表,但由于相關數(shù)據(jù)獲取難度高、缺乏系統(tǒng)方法等原因,落地應用成果較少,還有待于各行業(yè)人員研究開發(fā),最終實現(xiàn)DRL在電力系統(tǒng)的實際應用。

數(shù)字化的興起,促進了可用數(shù)據(jù)的增加,推動整個電力系統(tǒng)進入“智能電網(wǎng)時代”;電動汽車、分布式發(fā)電、新型負載、電力電子設備的大量接入增加了網(wǎng)絡物理系統(tǒng)的復雜性。DRL對決策問題普遍的適用性有望對電力系統(tǒng)來實現(xiàn)最優(yōu)控制。未來對電力系統(tǒng)安全DRL、微電網(wǎng)分層多任務DRL控制、大規(guī)模區(qū)域輸配電DRL控制、智能樓宇、嵌入領域特定知識等方面的研究,對推進電力系統(tǒng)智能自主自動化控制具有重要意義。

猜你喜歡
電網(wǎng)狀態(tài)文獻
穿越電網(wǎng)
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
狀態(tài)聯(lián)想
生命的另一種狀態(tài)
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
熱圖
家庭百事通(2016年3期)2016-03-14 08:07:17
堅持是成功前的狀態(tài)
山東青年(2016年3期)2016-02-28 14:25:52
電網(wǎng)也有春天
河南電力(2016年5期)2016-02-06 02:11:32
如皋市| 嘉祥县| 博白县| 都江堰市| 呈贡县| 渑池县| 太原市| 老河口市| 苏州市| 乐至县| 二连浩特市| 桃园市| 綦江县| 玉环县| 萍乡市| 齐河县| 沈丘县| 十堰市| 江山市| 牙克石市| 丹阳市| 大同市| 凤山县| 浦东新区| 莫力| 南华县| 郴州市| 鹤岗市| 瑞丽市| 苍溪县| 杭州市| 白玉县| 枞阳县| 惠东县| 大同市| 长乐市| 潼南县| 西充县| 老河口市| 津市市| 宁国市|