馬世乾,黃家凱,崇志強,韓梟赟,徐 娜,穆朝絮
(1.國網(wǎng)天津市電力公司電力科學研究院,天津 300384;2.天津大學電氣自動化與信息工程學院,天津 300072)
目前,隨著高比例可再生能源廣泛接入電網(wǎng),我國電網(wǎng)運行特征朝著電力電子化方向快速發(fā)展,其運行過程中的隨機性、動態(tài)性、波動性和復雜性顯著增強[1]。一般情況下,大型電網(wǎng)的建設和運行過程中遵循包括功率、電壓、線路潮流等在內(nèi)的多項安全指標[2-3],以保障正常及故障工況下的安全穩(wěn)定運行。但在某些突發(fā)重大故障時,例如可再生能源的快速波動所導致的局部功率不平衡,如果沒有及時、有效的電網(wǎng)調(diào)控手段,局部擾動可能會擴散,進而導致連鎖故障,甚至大停電。例如2019年7月美國紐約曼哈頓大停電、2020年8月美國加州大停電[4]和2021年2月美國得克薩斯州大規(guī)模停電等事故。這些問題也是傳統(tǒng)電網(wǎng)自動控制方法難以解決的問題。因此,實時監(jiān)測電網(wǎng)異常并制定快速、準確的在線調(diào)控決策,對于確保電網(wǎng)安全穩(wěn)定運行至關重要。
隨著新一代人工智能技術的快速發(fā)展,深度強化學習DRL(deep reinforcement learning)技術在多個領域(例如AlphaGo[5]、無人駕駛[6]、工業(yè)自動化[7]等)成功應用,為電網(wǎng)實現(xiàn)智能自主運行提供了借鑒和參考。已有部分學者將DRL算法用于電力領域,多側(cè)重于負荷預測、可再生能源預測、安全性預測等方向。文獻[8]針對可再生能源的不確定性提出了一種基于連續(xù)作用域的DRL無模型負載頻率控制方法。文獻[9]提出了一種新的聯(lián)絡線功率調(diào)整方法,該方法采用自適應映射策略和馬爾可夫決策過程公式,然后采用一種無模型DRL算法來求解所提出的馬爾可夫決策過程MDP(Markov decision process)并學習最優(yōu)調(diào)整策略。文獻[10]提出了一種基于DRL算法的數(shù)據(jù)驅(qū)動多智能體電網(wǎng)控制方案,以有效解決自主電壓控制問題。文獻[11]在考慮負荷需求和電價的不確定性的基礎上,將基于深度Q網(wǎng)絡DQN(deep Q network)方法應用于微電網(wǎng)的實時能量優(yōu)化調(diào)度。文獻[12]提出了考慮不確定性的深度期望Q-learning算法來求解微電網(wǎng)的實時優(yōu)化問題。然而,在電網(wǎng)安全穩(wěn)定運行領域,DRL技術的研究與應用鮮見報道。
本文在上述研究成果的基礎上,針對電力系統(tǒng)在運行過程中出現(xiàn)計劃檢修(已知傳輸線故障)和隨機故障(未知傳輸線故障)等影響電力系統(tǒng)穩(wěn)定運行的情況,提出了一種基于最大熵強化學習SAC(soft actor-critic)算法的電網(wǎng)自主拓撲切換控制算法,設計了基于模仿學習IL(imitation learning)的神經(jīng)網(wǎng)絡預訓練方案,進一步改進SAC算法中重要的超參數(shù)α,使得α在訓練過程中能夠自主調(diào)節(jié),進一步提高算法控制效果。最后,將所提出的模仿學習-最大熵IL-SAC(imitation learning soft actor-critic)算法應用于Grid2Op環(huán)境中的IEEE 45節(jié)點算例,并與現(xiàn)有的其他DRL算法進行對比,例如SAC、PPO(proximal policy optimization)、雙深度 Q網(wǎng)絡DDQN(double deep Q network)。結(jié)果表明,該算法訓練好的IL-SAC智能體可與電網(wǎng)實時運行環(huán)境進行交互,在亞秒級內(nèi)給出控制決策,保證了電力系統(tǒng)連續(xù)安全穩(wěn)定運行。
人工智能是研究如何使用計算機來模擬人的某些思維過程和智能行為從而完成特定任務的學科。機器學習作為人工智能的核心,主要可以分為監(jiān)督學習、無監(jiān)督學習和強化學習RL(reinforcement learning)3大類。3類學習方法均可以通過學習和訓練復雜隨機動態(tài)系統(tǒng)的大量觀測數(shù)據(jù),迭代更新網(wǎng)絡模型,最終實現(xiàn)根據(jù)當前時刻觀測值給出實時可靠的動作策略。RL又作為機器學習的核心,可以更加智能化地解決復雜動態(tài)物理系統(tǒng)的實時控制和決策問題。圖1為RL智能體與電力系統(tǒng)環(huán)境的交互過程。首先,智能體給出動作(action)到電網(wǎng)環(huán)境中,電網(wǎng)環(huán)境在執(zhí)行該動作之后會返回相應的新系統(tǒng)狀態(tài)(state)和獎勵值(reward);然后,智能體再根據(jù)返回的狀態(tài)和獎勵值,以能夠獲得最大化獎勵期望值為目標,更新網(wǎng)絡參數(shù),改進動作輸出策略;最后在與電網(wǎng)環(huán)境的不斷交互中使輸出策略最優(yōu)化。
圖1 RL智能體與電力系統(tǒng)環(huán)境交互過程示意Fig.1 Schematic of interaction process between RLagent and power system environment
深度學習DL(deep learning)是機器學習的一個新研究方向,其通過表征學習平臺、學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,一般使用深度神經(jīng)網(wǎng)絡描述復雜物理系統(tǒng)的輸入、輸出關系。DL的優(yōu)點在于可以自主智能地提取大量觀測數(shù)據(jù)樣本中有效的樣本特征,并用于訓練智能體以提升其性能。
DL具有強大的感知能力,但是決策能力有欠缺;RL具有強大的決策能力,但是缺乏相應的感知能力。DRL技術是將兩者結(jié)合起來,優(yōu)勢互補,其主要是在與環(huán)境交互迭代的過程中自主學習,并逐步提高推理、決策等智能化能力,為復雜物理系統(tǒng)的決策問題提供了新的解題思路。
由于當前新型電力系統(tǒng)的隨機性、復雜性,而SAC算法在收斂性和魯棒性方面相比于其他DRL算法更為優(yōu)越[13],因此本文基于SAC算法提出了一種電網(wǎng)自主拓撲控制算法。
SAC算法與其他DRL算法最大的區(qū)別是在同樣使用了值函數(shù)和Q函數(shù)的情況下,SAC算法的目標是追求最大化預期獎勵值積累的同時追求最大化的信息熵值,即在滿足控制性能要求的前提下采取盡可能隨機的控制策略[14],而其他DRL算法的目標一般只追求最大化預期獎勵值的積累。SAC算法的核心部分是更新最優(yōu)策略的公式,可表示為
式中:J()為SAC算法的目標函數(shù);π和π*分別為控制策略和最優(yōu)的控制策略;st和at分別為t時刻下的狀態(tài)和動作;r(st,at)為狀態(tài)是st時進行動作at得到的獎勵值;H(π(·|st))為狀態(tài)是st時控制策略π的熵值;E(st,at)~ρπ為當狀態(tài)動作對(st,at)概率分布為ρπ時的期望獎勵值;α為鼓勵新策略探索的程度,在文獻[14]被稱作溫度系數(shù)(temperature parameter)。
針對電網(wǎng)自主拓撲切換實現(xiàn)安全控制這一決策問題,SAC算法在隨機策略下?lián)碛懈訌姶蟮目尚杏蛱剿髂芰15]。SAC算法訓練網(wǎng)絡的過程與其他策略梯度算法相似,采用帶有隨機梯度的人工神經(jīng)網(wǎng)絡來進行控制策略的評估與提升。在構(gòu)造其值函數(shù)Vψ(st)和Q函數(shù)Qθ(st,at)時,分別使用神經(jīng)網(wǎng)絡參數(shù)ψ和θ來表示。SAC算法的值函數(shù)被稱為“柔性”值函數(shù),作用是逐步更新策略,使得算法的穩(wěn)定性、可靠性得到保障。根據(jù)文獻[14],基于最小化的誤差平方值可以更新“柔性”值函數(shù)神經(jīng)網(wǎng)絡的權(quán)重,即
式中:D為先前采樣狀態(tài)的分布空間;Est~D為對誤差平方的期望值;Eat~πΦ為控制策略πΦ下控制動作at的期望;π(at|st)為狀態(tài)是st時動作選取為at的概率。
然后求取式(3)的概率梯度,其計算公式為
同理,可通過最小化“柔性”貝爾曼殘差(soft Bellman residual)的方式來更新“柔性”Q函數(shù)的神經(jīng)網(wǎng)絡權(quán)重,其計算公式為
式中:γ為折扣因子;E(st,at)~D為預估Q值與目標Q值誤差的期望值;Est+1~ρ為滿足概率分布ρ的狀態(tài)st+1的期望值;為目標狀態(tài)價值函數(shù)值,目標狀態(tài)價值網(wǎng)絡參數(shù)定期更新;Vψ(st+1)為預估狀態(tài)價值函數(shù)值;()為目標Q值。
與式(3)同理,式(5)的優(yōu)化求解可由概率梯度進行計算,即
與其他的確定性梯度算法不同,SAC算法的控制策略輸出值是由平均值和協(xié)方差組成的隨機高斯分布表示的,可以通過最小化預期Kullback-Leibler(KL)偏差來更新其控制策略的神經(jīng)網(wǎng)絡參數(shù),以Φ作為參數(shù)的控制策略π的目標函數(shù)可將式(2)具體化寫為
式(8)的優(yōu)化求解過程可由概率梯度計算得出,即
在此基礎上,根據(jù)文獻[13]可知,溫度系數(shù)α自主調(diào)節(jié)的核心更新過程可以表示為
Grid2Op是L2RPN WCCI 2020挑戰(zhàn)賽中使用的電網(wǎng)運行開源仿真平臺。Grid2Op是在實際電力系統(tǒng)運行中發(fā)現(xiàn)的,并用于測試先進控制算法的現(xiàn)實概念建模,該仿真環(huán)境遵循實際電力系統(tǒng)的運行約束和分布[16]。Grid2Op中每個變電站均為雙母線系統(tǒng),這意味著連接到變電站的元件(即負載、發(fā)電機和線路)可以分配到兩條母線中的任意一條,因此可以將每個變電站視為2個節(jié)點。
Grid2Op中雙母線變電站示意如圖2所示,圓圈表示2號變電站,該變電站延伸出4條線路。以1號線路為例,進行細節(jié)放大可以看出,1號電力傳輸線路可選擇該變電站的母線a或母線b,這便是Grid2Op雙母線系統(tǒng)的特性。
圖2 Grid2Op中雙母線變電站示意Fig.2 Schematic of double-bus substation in Grid2Op
Grid2Op中電網(wǎng)狀態(tài)由各種特征組成,例如拓撲結(jié)構(gòu)、每個發(fā)電機提供的負荷、每個負載所需的負荷、在每條線路中傳輸?shù)墓β实?。Grid2Op提供了相應的接口,用來觀測及調(diào)用這些特征的實時變化值。此外,每條線路都有自己的輸電能力,當傳輸功率量溢出時,可以自動斷開。Grid2Op中輸電能力用rho表示,當1≤rho≤2時,Grid2Op允許線路過載2個時間步;當rho>2時,該線路立即斷開。Grid2Op規(guī)定所有斷開線路在斷開12個時間步之后才能選擇是否重連。
智能體通過算法提供的策略在變電站和輸電線路上做出具體動作來管理電網(wǎng)。變電站上的操作稱為母線分配,將與變電站相連的元件分配給母線。線路上的動作稱為線路開閉,用于斷開線路或重新連接斷開的線路。Grid2Op允許智能體每個時間步執(zhí)行1個母線分配或線路開閉動作。Grid2Op中出現(xiàn)以下兩種情況會使電網(wǎng)運行立即終止:①負載所需的負荷量無法提供,即電網(wǎng)功率不平衡,在有較多斷開的線路時可能發(fā)生電網(wǎng)運行立即終止;②由于智能體執(zhí)行的動作使得負載、發(fā)電機或者變電站形成孤立的節(jié)點,在智能體拓撲控制策略不合理時有可能發(fā)生電網(wǎng)運行立即終止。
電網(wǎng)中的諸多控制決策問題都可以描述成MDP,用于解決隨機動態(tài)環(huán)境下的離散時序控制問題[17-18]。針對于Grid2Op電網(wǎng)中的雙母線系統(tǒng)拓撲切換控制,相應的約束型MDP可用5維元組(S,A,P,R,C)描述。其中,S為該電網(wǎng)的狀態(tài)集;A為該電網(wǎng)的動作集;P為狀態(tài)轉(zhuǎn)移概率,P:S×A×S→[0,1];R為獎勵機制,R:S×A→R;C為獎勵機制所對應的約束條件。
1)狀態(tài)集S
狀態(tài)變量的選取對RL的效率及泛化性有一定影響,在t時刻Grid2Op系統(tǒng)狀態(tài)st∈S,可表示為
式中:N、J、K分別為該電網(wǎng)中線路總數(shù)、發(fā)電機節(jié)點總數(shù)、負載節(jié)點總數(shù);fi為第i條電力傳輸線上的開斷狀態(tài),fi是1個布爾值變量,當fi=1時表示傳輸線為斷開狀態(tài),當fi=0時表示傳輸線為連接狀態(tài);rhoi為第i條線路上的負載率;PGj、QGj、VGj分別為第j個發(fā)電機節(jié)點上的有功出力、無功出力及電壓;PLk、QLk、VLk分別為第k個負載節(jié)點上的有功需求、無功需求及電壓;為第k個負載節(jié)點上t+1時刻的有功需求預測值。以上變量都可以通過Grid2Op電力系統(tǒng)仿真模型直接觀測或調(diào)用的系統(tǒng)觀測狀態(tài)量。
2)動作集A
動作變量即系統(tǒng)可調(diào)整變量,t時刻Grid2Op系統(tǒng)的動作變量at∈A,可表示為
式中:M為該電網(wǎng)變電站總數(shù);BDm為第m個變電站節(jié)點上的母線分配變量,BDm是1個布爾值變量,當BDm=1時表示選擇變電站中的母線a,當BDm=0時表示選擇變電站中的母線b;LSn為第n個變電站節(jié)點上的線路開閉變量,LSn是1個布爾值變量,當LSn=1時表示斷開傳輸線,當LSn=0時表示連接傳輸線。
3)狀態(tài)轉(zhuǎn)移概率p
狀態(tài)轉(zhuǎn)移概率表示給定當前狀態(tài)st∈S及動作at∈A下狀態(tài)從st變換到st+1的概率,即
由于該系統(tǒng)受到確定性故障及不確定性故障的影響,狀態(tài)轉(zhuǎn)移概率難以用精確的概率分布模型來描述。本文采用的DRL算法從歷史數(shù)據(jù)中采樣,從而隱式學習得到該概率分布。
4)獎勵機制R及相應約束條件C
本文設置的獎勵可分為符合電力系統(tǒng)常規(guī)知識經(jīng)驗得到的獎勵和符合約束條件得到的獎勵兩類。
(1)常規(guī)知識經(jīng)驗獎勵。
電力系統(tǒng)運行過程中機組存在運行費用,在t時刻可用負獎勵表示,即
在新型電力系統(tǒng)運行過程中,由于新能源接入給電網(wǎng)負荷帶來不確定性,輸電線路過載概率也將提升。故線路負載率rho成為獎勵設計過程中一個非常重要的參數(shù),直接影響整個電力系統(tǒng)運行的安全穩(wěn)定。本文根據(jù)一般經(jīng)驗設計關于rho的獎勵為
(2)約束條件獎勵。
根據(jù)狀態(tài)空間觀測值,本文設計的獎勵約束條件主要有機組的有功出力約束C1、機組的無功出力約束C2、機組和負載節(jié)點的電壓約束C3、電力系統(tǒng)整體功率平衡的約束C4,C1、C2、C3、C4∈C。當 Δa=at+1-at≠0 時,約束條件C1、C2、C3、C4可分別表示為
式(21)~(23)和式(26)設計的獎勵函數(shù)側(cè)重于實現(xiàn)系統(tǒng)功率平衡,以及防止機組有功功率越限,這是基于工程實際的考慮[19]。
綜上所述,t時刻獎勵函數(shù)rt可表示為
基于DRL的電網(wǎng)自主拓撲切換控制算法訓練智能體的總體架構(gòu)流程設計如圖3所示,主要步驟如下。
圖3 基于DRL的自主拓撲切換控制算法總體架構(gòu)流程Fig.3 Flow chart of overall architecture for DRL-based autonomous topology switching control algorithm
步驟1根據(jù)當前電網(wǎng)工況,在Grid2Op電網(wǎng)仿真環(huán)境中添加隨機和已知的輸電線路故障,以模擬實際運行情況。在該仿真環(huán)境進行潮流計算,然后通過調(diào)用程序接口獲取相應的觀測狀態(tài)空間。
步驟2基于IL的預訓練方案采樣已存儲的電網(wǎng)歷史狀態(tài)向量,預訓練深度學習網(wǎng)絡,并遷移至SAC算法中actor網(wǎng)絡和critic網(wǎng)絡中使用,該模塊在第2.4節(jié)中詳細描述。
步驟3實時觀測到的狀態(tài)空間首先用于判斷當前Grid2Op中的電網(wǎng)是否達到終止條件。若達到終止條件,則電網(wǎng)不會繼續(xù)運行,直接結(jié)束流程;反之,則繼續(xù)判斷當前電網(wǎng)中是否有輸電線路的rho>100%,這是影響電網(wǎng)安全穩(wěn)定運行的重要因素。若不存在輸電線路的rho>100%,則不進行任何動作;若存在1條或多條該線路的rho>100%,則需要調(diào)用IL-SAC智能體生成決策,并進行動作,返回Gird2Op電網(wǎng)仿真環(huán)境
步驟4在IL-SAC智能體生成動作并返回環(huán)境后,仍可根據(jù)實時觀測狀態(tài)空間及獎勵機制,更新SAC算法中的神經(jīng)網(wǎng)絡參數(shù),繼而更新IL-SAC智能體。反復實施以上4個步驟,從而達到訓練ILSAC智能體的目的。
由Grid2Op電網(wǎng)環(huán)境及當前電網(wǎng)環(huán)境的約束型MDP模型可知,針對該電網(wǎng)環(huán)境進行DRL將會存在如下2個比較突出的問題。
(1)Grid2Op電網(wǎng)在運行過程中存在終止條件,在RL初始探索優(yōu)化動作階段,容易觸發(fā)該終止條件(例如潮流不收斂、功率不平衡等),使得智能體在初始階段無法有效地學習經(jīng)驗,算法網(wǎng)絡參數(shù)更新過程將十分緩慢,即學習效率低、神經(jīng)網(wǎng)絡參數(shù)收斂慢。
(2)根據(jù)式(11),在RL過程中原始的動作空間相當大,總共有2M+N種動作可選。在本文采用的IEEE 45節(jié)點算例中,可選動作達到約1016種。動作空間巨大會導致算法參數(shù)更新計算量大、速度慢等問題,甚至會使該算法最終無法收斂。故本文設計如圖4所示的基于IL的預訓練方案。該預訓練方案主要步驟如下。
圖4 基于模仿學習的預訓練方案流程Fig.4 Flow chart of pre-training scheme based on IL
步驟1模擬專家經(jīng)驗過程,從電網(wǎng)仿真環(huán)境中采樣大量場景,將大量的觀測狀態(tài)空間作為輸入量,本文以100 000個場景作為輸入量。然后在原始動作空間中基于貪婪算法貪婪搜索最優(yōu)的動作,最優(yōu)指標是使這些場景中線路上rhomax最小化。之后,可得到模擬的專家動作空間,對于原始動作空間已有所縮減,但可選動作仍達到1 000余種。
步驟2繼續(xù)刪減動作空間。為此提出兩條刪減動作空間的準則:①濾除專家動作空間中使rho降低少于2%的動作;②濾除專家動作空間中出現(xiàn)頻次少于10次的動作。根據(jù)以上兩個準則可將專家動作空間刪減到100余種可選動作的精簡動作空間。
步驟3模仿學習中的行為克隆[20]。仍使用100 000個電網(wǎng)場景作為輸入量,基于步驟1的貪婪優(yōu)化準則,在精簡動作空間中貪婪搜索最優(yōu)的動作,并將對應的電網(wǎng)狀態(tài)與動作組合形成動作狀態(tài)對(a,s)。最后,應用(a,s)對設計好的深度神經(jīng)網(wǎng)絡進行監(jiān)督學習預訓練,動作狀態(tài)對中動作a即為該狀態(tài)的標簽。
為了驗證所提出的IL-SAC算法智能體對電網(wǎng)自主拓撲控制的有效性,本文以Grid2Op提供的IEEE 45節(jié)點算例為實驗對象,其本身為IEEE 118節(jié)點系統(tǒng)的局部電網(wǎng),包含了22個發(fā)電機組、36座變電站、37個負載和59條線路,其中安全線路為rho≤60%的線路,危險線路為60%<rho<100%的線路。Grid2Op為該系統(tǒng)提供了100 000組真實場景的數(shù)據(jù),調(diào)用每組場景時設置的最高存活步數(shù)為1 440,即每組場景數(shù)據(jù)代入時該電網(wǎng)最多穩(wěn)定運行1 440個時間步,每個時間步為5 min,1 440個時間步對應5 d。
在仿真過程中以此電網(wǎng)算例為基礎,添加計劃檢修和不可預期故障,設計規(guī)則如下。
(1)針對計劃檢修的設計規(guī)則為每隔12個時間步斷開1條已知線路,即在t時刻可以預測到t+1時刻的斷開線路編號。t時刻的狀態(tài)st改為,即
式中,xt+1為t+1時刻將會斷開的線路編號,xt+1=1,2,…,N。
(2)針對不可預期故障的設計規(guī)則為每個時間步中設計1%的線路停運概率,即t時刻59條線路出現(xiàn)故障的概率均為1%。
DRL方法應用于Grid2Op仿真環(huán)境中的電網(wǎng)拓撲控制較少,因此本文選取兩組算法進行對比,以驗證所提算法的有效性。
第1組算法對比是SAC算法的縱向性能比較,對比α自更新的IL-SAC算法(后文簡稱IL-SAC算法)智能體與SAC算法智能體、α固定的IL-SAC算法(后文簡稱IL-SACF算法)智能體在該電網(wǎng)仿真環(huán)境中的性能。本文使用的SAC算法相關參數(shù)如表1所示。
表1 SAC算法相關參數(shù)Tab.1 Parameters related to SAC algorithm
第2組算法對比是RL算法的橫向性能比較,對比IL-SAC算法智能體與PPO算法[21]智能體、DDQN算法[22]智能體在該電網(wǎng)仿真環(huán)境中的性能。
值得注意的是,在當前設置故障的情況下,若使用隨機動作智能體對該電網(wǎng)仿真環(huán)境進行控制,則該電網(wǎng)穩(wěn)定運行的步數(shù)不會超過2個時間步,一般只能運行1步或直接因故障導致的連鎖反應而終止運行。
3.2.1 縱向?qū)Ρ扔柧?、測試結(jié)果及分析
隨機選取Grid2Op提供的8 000組真實電網(wǎng)運行場景數(shù)據(jù),其中5 000組用于智能體的訓練,其余3 000組用于測試。訓練過程中控制的性能指標包括行動網(wǎng)絡的loss函數(shù)、評價網(wǎng)絡的loss函數(shù)、獎勵值、存活步數(shù)。其中,行動網(wǎng)絡的loss函數(shù)表示對期望獎勵值的相反數(shù)求最小值,其值越小表示該網(wǎng)絡性能越好;評價網(wǎng)絡的loss函數(shù)表示當前Q值與目標Q值的均方誤差,其值越接近于0表示該網(wǎng)絡性能越好;獎勵值表示智能體在該場景下獲得獎勵大小,其值越大表示該智能體表現(xiàn)越好;存活步數(shù)表示該電網(wǎng)仿真環(huán)境在該智能體的調(diào)度下持續(xù)安全穩(wěn)定運行的時間步大小,其值越大表示該智能體表現(xiàn)越好。從圖5可以明顯看出,IL-SAC算法具有更快的收斂速度,收斂后具有更穩(wěn)定的獎勵值和存活步數(shù);而SAC算法的收斂速度最慢,IL-SACF算法收斂后的獎勵值和存活步數(shù)最低且最不穩(wěn)定。對比可知,IL-SAC算法在訓練過程中具有更好的魯棒性和可靠性。
圖5 IL-SAC算法與SAC算法、IL-SACF算法在訓練中控制效果對比Fig.5 Comparison of control effects in training among IL-SAC,SAC and IL-SACF algorithms
在智能體測試過程中,本文設計了分組的測試模式,充分體現(xiàn)測試的隨機性特點。實驗共分為5組測試,每組測試過程中從3 000組場景數(shù)據(jù)隨機挑選200個輸入各個智能體,然后計算各個智能體在這200個場景下的平均獎勵值和平均存活步數(shù)作為控制性能的指標值。圖6為IL-SAC算法智能體與SAC算法智能體、IL-SACF算法智能體在測試過程中對電網(wǎng)控制的效果對比??梢钥闯?,相比于其他兩種算法,IL-SAC算法智能體在隨機選擇場景進行測試時能獲得更高的獎勵值與更多的存活步數(shù),即可使電網(wǎng)安全穩(wěn)定運行更長的時間,且該算法的獎勵值和存活步數(shù)變化也比較小,具有更穩(wěn)定、更優(yōu)越的控制效果。
圖6 IL-SAC算法與SAC算法、IL-SACF算法在測試中控制效果對比Fig.6 Comparison of control effects in test among ILSAC,SAC and IL-SACF algorithms
3.2.2 橫向?qū)Ρ扔柧殹y試結(jié)果及分析
與第3.2.1節(jié)相同,隨機選取Grid2Op提供的8 000組真實電網(wǎng)運行場景數(shù)據(jù),其中5 000組用于智能體的訓練,其余3 000組用于測試。圖7為ILSAC算法智能體與PPO算法智能體、DDQN算法智能體在訓練過程中對電網(wǎng)控制的效果對比。訓練過程中控制的性能指標包括獎勵值和存活步數(shù)。從圖7可以明顯看出,訓練過程中IL-SAC算法的收斂速度及收斂之后的獎勵值、存活步數(shù)、穩(wěn)定性都是遠強于PPO算法和DDQN算法??梢娤噍^于PPO算法、DDQN算法,IL-SAC算法在有效性、穩(wěn)定性、魯棒性、可靠性上都具有更大優(yōu)勢。
圖7 IL-SAC算法與PPO算法、DDQN算法在訓練中控制效果對比Fig.7 Comparison of control effects in training among IL-SAC,PPO and DDQN algorithms
智能體測試模式及測試性能指標與第3.2.1節(jié)相同。圖8為IL-SAC算法智能體與PPO算法智能體、DDQN算法智能體在測試過程中對電網(wǎng)控制的效果對比??梢钥闯?,IL-SAC算法智能體在測試過程的平均獎勵值和平均存活步數(shù)同樣遠高于PPO算法智能體和DDQN算法智能體,相比于DDQN算法,IL-SAC算法控制下電網(wǎng)安全平穩(wěn)運行的時間步多出1倍以上,相比于PPO算法平均多400時間步以上。可見,IL-SAC算法控制效果的優(yōu)越性十分突出。
圖8 IL-SAC算法與PPO算法、DDQN算法在測試中控制效果對比Fig.8 Comparison of control effects in test among IL-SAC,PPO and DDQN algorithms
本文提出了一種基于DRL的電網(wǎng)自主拓撲切換控制方法,該方法充分考慮了由于負載需求變化、可再生能源波動等引起的可預期故障和隨機故障情況下新型電網(wǎng)系統(tǒng)的安全穩(wěn)定運行問題。本文方法的核心是在SAC算法基礎上添加了本文設計的IL預訓練方案所提出的IL-SAC算法智能體,其能夠在亞秒內(nèi)做出控制決策,重新配置電網(wǎng)的拓撲結(jié)構(gòu),改變電力流的線路,從而使電能從生產(chǎn)者高效地傳輸?shù)较M者,保障電網(wǎng)安全運行。最后,利用Grid2Op提供的IEEE 45節(jié)點電網(wǎng)模型及真實電網(wǎng)系統(tǒng)場景數(shù)據(jù)進行仿真,結(jié)果表明,本文方法的控制性能優(yōu)于現(xiàn)有的其他DRL算法,具有較強的高效性與魯棒性。。