習(xí) 偉,李 鵬,李 鵬,蔡田田,魏明江,于 浩
(1. 智能電網(wǎng)教育部重點實驗室(天津大學(xué)),天津市 300072;2. 南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東省 廣州市 510670)
分布式電源(distributed generator,DG)的大量接入使得配電網(wǎng)的運行情況進一步復(fù)雜。其中,過電壓和電壓波動問題得到了廣泛關(guān)注[1]。傳統(tǒng)的有載調(diào)壓變壓器[2](on load tap changer,OLTC)及電容器組[3](capacitor bank,CB)作為主要電壓調(diào)節(jié)設(shè)備,調(diào)節(jié)速度較慢,難以適應(yīng)DG 的快速波動[4];儲能系統(tǒng)可以實現(xiàn)削峰填谷的效果,但建設(shè)成本較高,應(yīng)用場景仍然受限[5];而基于換流器的DG 能夠利用剩余容量為系統(tǒng)提供實時無功電壓支撐[6],具有較好的經(jīng)濟性以及高度靈活可控的就地?zé)o功支撐能力,成為配電網(wǎng)實時電壓控制的有效手段[7]。
國內(nèi)外對DG 無功控制方法已經(jīng)開展了廣泛研究。例如,傳統(tǒng)的基于二階錐松弛的集中式優(yōu)化算法[8]、為應(yīng)對不確定性的隨機優(yōu)化方法[9]、考慮分區(qū)的分布式優(yōu)化方法[10]等。然而,在實際運行中,由于難以獲取配電網(wǎng)的精確參數(shù),以上基于物理模型的DG 無功優(yōu)化方法無法保證模型的準(zhǔn)確性。強化學(xué)習(xí)作為一種數(shù)據(jù)驅(qū)動的無模型方法,在電力系統(tǒng)電壓控制中得到了廣泛應(yīng)用[11]。通過強化學(xué)習(xí)方法構(gòu)建的智能體,能夠基于歷史數(shù)據(jù)或在線交互進行訓(xùn)練,智能體根據(jù)獲取的觀測狀態(tài)迅速給出運行策略,并基于歷史經(jīng)驗不斷優(yōu)化調(diào)整,從而進一步改善系統(tǒng)的運行狀態(tài)。
依據(jù)動作空間的不同,強化學(xué)習(xí)問題可以分為離散控制問題和連續(xù)控制問題[12]。經(jīng)典的深度Q學(xué)習(xí)(deep Q-learning,DQN)算法[13]適用于OLTC與CB 等離散調(diào)節(jié)設(shè)備控制[14]。文獻[15]提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)方法,DDPG 方法適用于大規(guī)模連續(xù)控制問題,可應(yīng)用于電力系統(tǒng)微電網(wǎng)運行控制[16]、電力系統(tǒng)發(fā)電頻率控制[17]等。文獻[18]基于DDPG 方法實現(xiàn)了基于DG 逆變器的集中短期電壓控制。
隨著DG、電動汽車的廣泛接入,海量的信息流使得系統(tǒng)通信負擔(dān)加大,集中式控制方法由于通信能力限制,難以做到實時響應(yīng)[19],并且隱私問題難以得到保障。在此背景下,邊緣計算技術(shù)與分布式就地控制成為解決海量通信負擔(dān)與控制時延問題的有效方案[20]?;诰W(wǎng)絡(luò)分區(qū)與邊緣計算裝置,可以對區(qū)域內(nèi)設(shè)備進行就地管理,實現(xiàn)對系統(tǒng)變化的快速響應(yīng),減輕通信負擔(dān)與云服務(wù)器的計算壓力[21]。同時,邊緣計算裝置也具備與云端的通信能力,可以實現(xiàn)云-邊協(xié)同調(diào)控[22]。
為解決多區(qū)域協(xié)同問題,多智能體深度強化學(xué)習(xí) (multi-agent deep reinforcement learning,MADRL)將單個強化學(xué)習(xí)問題拓展為多智能體控制問題,廣泛應(yīng)用于電力系統(tǒng)需求側(cè)響應(yīng)[23]、微電網(wǎng)能源管理[24]、頻率控制[25]等領(lǐng)域。其分布式和就地響應(yīng)特性與邊緣計算架構(gòu)高度匹配,利用深度強化學(xué)習(xí)的無模型控制能力,邊緣計算裝置可實現(xiàn)對本區(qū)域內(nèi)設(shè)備的實時控制。同時,邊緣計算裝置本地交互控制數(shù)據(jù)可按周期上傳至云端,云端對深度強化學(xué)習(xí)模型進行更新并重新下發(fā)至邊緣側(cè)以實現(xiàn)自適應(yīng)的云-邊協(xié)同控制。
針對高比例DG 接入下的電壓波動問題,本文提出了基于MADRL 的DG 云-邊協(xié)作就地電壓自適應(yīng)控制技術(shù)框架。然后,構(gòu)建基于DG 的電壓控制馬爾可夫決策過程,設(shè)計了DG 出力動態(tài)邊界掩模機制,解決了分布式電源有功和無功出力耦合下的深度強化學(xué)習(xí)控制問題。最后,在改進的IEEE 33 節(jié)點算例及中國南方電網(wǎng)53 節(jié)點算例上驗證了所提方法的可行性與有效性。
基于深度強化學(xué)習(xí)的DG 集群就地電壓控制框架如圖1 所示?;谂潆娋W(wǎng)絡(luò)分區(qū)的深度強化學(xué)習(xí),智能體對控制區(qū)域內(nèi)的DG 及無功調(diào)節(jié)設(shè)備可以實現(xiàn)就地控制,改善電壓質(zhì)量,提高系統(tǒng)運行狀態(tài)。
圖1 DG 集群控制框架Fig.1 Control framework for DG clusters
如圖1 所示,在就地控制層,配電網(wǎng)各分區(qū)內(nèi)邊緣計算裝置搭載智能體控制模型,智能體模型感知本區(qū)域內(nèi)觀測節(jié)點的量測信息,迅速調(diào)節(jié)區(qū)域內(nèi)的DG 無功出力,從而優(yōu)化控制,交互記錄將上傳至云端學(xué)習(xí)層以更新策略。
在云端學(xué)習(xí)層,智能體接受來自對應(yīng)區(qū)域的交互記錄并儲存至共享經(jīng)驗池。同時,智能體定時從共享經(jīng)驗池采樣進行策略更新,并將更新后的控制模型下發(fā)至邊緣控制裝置,以保證模型對環(huán)境變化的適應(yīng)性。
為解決DG 有功和無功出力耦合約束,在智能體動作出口引入動態(tài)邊界掩模方法,對智能體給出的原始動作進行再處理,避免動作不符合約束。
邊緣計算裝置作為本文所提電壓控制框架的物理依托,通常安裝在饋線的分支節(jié)點或DG 集群處。本文以邊緣計算裝置安裝位置作為區(qū)域中心,確定控制區(qū)域。同時,在實際運行中,分區(qū)可根據(jù)配電運營商的要求進行調(diào)整?;谶吘売嬎阊b置的配電網(wǎng)分區(qū)控制在一定程度上解耦控制過程。同時,通過各區(qū)共享運行控制數(shù)據(jù),實現(xiàn)信息交互增強智能體協(xié)作能力。
靜止無功補償器(static var compensator,SVC)、靜止無功發(fā)生器(static var generator,SVG)、磁 控 電 抗 器(magnetically controlled reactor,MCR)[26]等設(shè)備廣泛應(yīng)用于電力系統(tǒng)無功控制,具備快速、平滑的調(diào)節(jié)能力[27]。相對于DG 逆變裝置而言,以上裝置的無功出力不受有功出力的限制,本文為進一步考慮有功和無功出力耦合下的逆變器出力調(diào)節(jié),充分利用剩余容量,同時因分布式光伏具備就地控制特性,使用分布式光伏換流器作為主要調(diào)節(jié)設(shè)備。因SVG 等設(shè)備的控制特性較為相似,將SVG 調(diào)節(jié)作為DG 調(diào)節(jié)后的補充調(diào)節(jié)設(shè)備。
本文所提方法的控制目標(biāo)為通過調(diào)節(jié)無功出力設(shè)備以最小化系統(tǒng)各節(jié)點電壓偏差之和,表達式為:
式中:f為目標(biāo)函數(shù);Vi為節(jié)點i(i=1,2,…,NN)的電壓幅值;V0為網(wǎng)絡(luò)額定電壓;NN為網(wǎng)絡(luò)節(jié)點數(shù)量。
被控對象DG 及SVG 需要滿足以下約束。
1)DG 有功出力約束
式 中:Pj,DG為 第j個DG 的 有 功 出 力,其 中,j=1,2,…,NDG,NDG為DG 的 數(shù) 量;Pj,DG,max、Pj,DG,min分別為第j個DG 的有功出力上、下限。
2)DG 無功出力約束
式 中:Qj,DG為 第j個DG 的 無 功 出 力;Qj,DG,max、Qj,DG,min分 別為第j個DG 的無功 出力上、下限。
3)DG 容量約束
式中:Sj,DG為第j個DG 的容 量。
4)SVG 容量約束
式 中:Qk,SVG為 第k個SVG 的 無 功 出 力,k=1,2,…,NSVG,NSVG為SVG 的 數(shù) 量;Qk,SVG,max和Qk,SVG,min分別為第k個SVG 的無功出力上、下限。
DDPG 采用雙Actor-Critic 網(wǎng)絡(luò)架構(gòu),適用于大規(guī)??刂茊栴},可輸出確定、連續(xù)的動作[15]。
各區(qū)域智能體觀測給定關(guān)鍵節(jié)點的狀態(tài)s,根據(jù)狀態(tài)s給出動作a,區(qū)內(nèi)被控設(shè)備執(zhí)行動作a后配電網(wǎng)轉(zhuǎn)入下一狀態(tài)s',同時配電網(wǎng)根據(jù)獎勵函數(shù),返回獎勵r,用于評價給定動作的優(yōu)劣。按照以上過程循環(huán),形成強化學(xué)習(xí)序列決策問題。其中,一個交互周期數(shù)據(jù)定義為(s,a,r,s')。
Actor-Critic 網(wǎng)絡(luò)架構(gòu)中的Actor 網(wǎng)絡(luò)通過擬合策略π(s),根據(jù)區(qū)內(nèi)量測信息來指導(dǎo)DG 的運行。而Critic 網(wǎng) 絡(luò) 通 過 擬 合 動 作 價 值 函 數(shù)qπ(s,a),由 量測信息和基于量測信息給出的出力方案評估動作的價值?;趧幼鲀r值持續(xù)更新策略π(s),以達到策略最優(yōu)。
多 智 能 體 DDPG (multi-agent DDPG,MADDPG)基于DDPG 將單智能體決策過程演變?yōu)槎嘀悄荏w協(xié)作模式。考慮云-邊協(xié)同的多智能體電壓控制如下:
1)智能交互與經(jīng)驗上傳。在多區(qū)域DG 集群電壓控制過程中,考慮邊緣計算裝置算力限制,各區(qū)域交互數(shù)據(jù)將按交互周期上傳至云端經(jīng)驗回放池。通過建立經(jīng)驗回放池可以實現(xiàn)云端智能體的自主學(xué)習(xí)與策略更新。
2)經(jīng)驗共享與策略更新。通過共享經(jīng)驗回放池數(shù)據(jù),各分區(qū)智能體能夠獲得其余智能體的歷史狀態(tài)及對應(yīng)動作信息。具備學(xué)習(xí)能力的云主站智能體將從經(jīng)驗回放池中采樣本區(qū)域及其他區(qū)域交互數(shù)據(jù)進行策略更新。在多區(qū)域協(xié)作模式下,本區(qū)域智能體依據(jù)協(xié)作目標(biāo)進行策略更新,從而實現(xiàn)多區(qū)域多主體協(xié)調(diào)控制。
3)策略下發(fā)與實時控制。更新后的策略網(wǎng)絡(luò)將下發(fā)至邊緣計算裝置,邊緣計算裝置可通過策略網(wǎng)絡(luò)根據(jù)就地信息做出實時響應(yīng)。同時,交互數(shù)據(jù)將再次上傳至云端經(jīng)驗回放池,并進行下一周期智能體學(xué)習(xí)與策略更新,保證智能體對環(huán)境變化的適應(yīng)性以及區(qū)間協(xié)作能力。
值得注意的是,由于云端訓(xùn)練時考慮區(qū)間協(xié)作為目標(biāo),下發(fā)至邊緣側(cè)的策略具備一定的協(xié)作能力,邊緣側(cè)控制過程可不進行區(qū)間信息交互,在保證控制器對系統(tǒng)環(huán)境變化的快速響應(yīng)的同時,實現(xiàn)了區(qū)間協(xié)作控制。
1)基于分區(qū)的狀態(tài)空間構(gòu)建
各區(qū)域的節(jié)點觀測數(shù)據(jù)集中傳輸至邊緣計算裝置,定義智能體狀態(tài)空間為:
式 中:Sn為 智 能 體n的 狀 態(tài) 空 間,n=1,2,…,NA,NA為 智 能 體 的 數(shù) 量;Pi、Qi分 別 為 節(jié) 點i的 有 功 功率、無 功 功 率;Ωn,O為 智 能 體n區(qū) 域 內(nèi) 的 觀 測 節(jié) 點集合。
2)就地控制動作空間建模
基于DG 集群,通過DG 換流器及其余無功調(diào)節(jié)設(shè)備實現(xiàn)電壓的靈活控制,定義智能體動作空間為:
式 中:An為 智 能 體n的 動 作 空 間;Qc,SVG,DG為 被 控 設(shè)備c的 無 功 出 力,c=1,2,…,NDG+NSVG;Ωc,SVG,DG為智能體n區(qū)域內(nèi)被控設(shè)備集合。
3)電壓控制獎勵函數(shù)設(shè)計
為減少系統(tǒng)電壓偏差,擬以分區(qū)電壓偏差絕對值的相反數(shù)為獎勵函數(shù),即電壓偏差越小,智能體收獲獎勵越大,以達到驅(qū)動智能體使策略向減少電壓偏差方向更新的目的,表達式為:
其中:rn為智能體n的獎勵。
如式(4)所示,DG 的有功與無功出力互相耦合。因此,DG 的無功出力動作范圍處于動態(tài)變化中。在給定第j個DG 的有功出力情況下,其無功容量邊界絕對值為:
式 中:Qj,bound為 第j個DG 的 無 功 容 量 邊 界 絕 對 值。
為簡化動作空間,將無功容量的上下限作為換流器容量的上下限。則式(3)的表達式變?yōu)椋?/p>
故對于智能體給定原始無功出力,按照如式(11)所示處理。
通過以上處理步驟,根據(jù)有功出力動態(tài)設(shè)定無功出力邊界,保證智能體動作的合理性,避免實際運行過程中動作失效。
基于MADDPG 的就地電壓控制流程如附錄A圖A1 所示。
本文使用改進IEEE 33 節(jié)點系統(tǒng)算例,其拓撲及分區(qū)如附錄A 圖A2 所示。額定負荷為(3.715+j2.3)MV·A。其 中,節(jié)點9、10、11、18、21、23、24、25、31、32 和33 接入光伏,有功容量為120 kW,視在容量為144 kV·A;節(jié)點16、17、22 和29 接入光伏,有功容量為240 kW,視在容量為288 kV·A;節(jié)點15、20 和30 接入SVG,容量為240 kvar。接入的光伏總?cè)萘繛?.736 MV·A,容量滲透率為62.62%。
使用 TensorFlow 深度學(xué)習(xí)框架,搭建MADDPG 智能體模型,選取1 年的數(shù)據(jù)對智能體進行訓(xùn)練。軟件環(huán)境為Python 3.8.10,TensorFlow 2.8.0,硬件為騰訊云2 核2 GB 輕量應(yīng)用服務(wù)器,搭載Ubuntu 20.04 LTS 系統(tǒng)。模型訓(xùn)練情況如附錄A 圖A3 所 示。
訓(xùn)練完畢后,選取測試日對智能體控制效果進行測試,測試日DG 及負荷日變化曲線如附錄A 圖A4 所示,優(yōu)化步長為5 min。對比以下3 個場景的運行優(yōu)化效果:
場景1:無功出力為0,DG 僅有功出力,得到電壓初始狀態(tài);
場景2:利用所提MADDPG 集群控制方法優(yōu)化被控設(shè)備出力;
場景3:利用集中式優(yōu)化方法對被控設(shè)備出力進行優(yōu)化。
選取1 d 中各時刻電壓幅值(標(biāo)幺值)的最大值與最小值,繪制電壓極值曲線如圖2 所示。
圖2 不同場景下的電壓極值變化Fig.2 Variation of maximum and minimum voltages in different scenarios
選取SVG 接入節(jié)點15 和DG 接入節(jié)點31,繪制其電壓分布如附錄A 圖A5 和圖A6 所示。由圖可知,場景1 中無功出力為0,電壓最小值低于安全運行下限,且節(jié)點電壓波動較大。場景2 與場景3 中的電壓極值曲線與節(jié)點電壓分布曲線基本接近,極值電壓均位于安全運行范圍內(nèi),且節(jié)點電壓相對波動平緩,電壓質(zhì)量有較大提升。
進一步對1 d 中的電壓分布進行數(shù)值分析,得到電壓質(zhì)量的各項指標(biāo)如表1 所示。
表1 測試日各場景電壓控制結(jié)果Table 1 Voltage control results in different scenarios on test days
平均電壓偏差指標(biāo)δ定義為:
式 中:Vi,t為 節(jié) 點i在t時 刻 的 電 壓 幅 值;NT為 測 試 日測量時刻的數(shù)量。
最優(yōu)率η定義為:
式中:δp、δc和δo分別為所提MADDPG 方法、集中式優(yōu)化方法和不控制3 種場景下的平均電壓偏差指標(biāo)。
最優(yōu)偏移指標(biāo)衡量了所提方法接近集中式優(yōu)化方法的程度。由表1 可知,相比于場景1,場景2 所提方法和場景3 集中式優(yōu)化方法的平均電壓偏差分別降低了76.47%和77.94%,對電壓質(zhì)量有明顯改善;場景1 的電壓最小值為0.930 9,遠低于安全運行約束下限,而場景2 和場景3 的電壓均位于安全運行約束范圍以內(nèi)。
選取接入節(jié)點15 處的SVG 和節(jié)點31 處的DG,繪制場景2 和場景3 中無功出力如附錄A 圖A7 和圖A8 所示。由圖可知,所提無模型的自適應(yīng)控制方法的出力方案與基于最優(yōu)化方法所得的出力方案基本接近。由表1 可知,所提方法的電壓控制效果基本接近最優(yōu)化方法,最優(yōu)率達98.05%。即所提方法能夠自適應(yīng)控制DG 及SVG 出力,其控制效果接近于最優(yōu)化方法。
為驗證所提方法對DG 出力及負荷波動的適應(yīng)性,對DG 及負荷曲線施加±20%隨機波動,考慮不確定性的DG 及負荷曲線如附錄A 圖A9 所示。各個場景電壓控制效果如表2 所示。節(jié)點15 的電壓分布如圖A10 所示。
表2 不確定性場景測試日控制結(jié)果對比Table 2 Comparison of control results in uncertainty scenarios on test days
由表2 及附錄A 圖A10 可知,考慮DG 有功出力及負荷的不確定性后,基于日前預(yù)測曲線的集中式優(yōu)化方法電壓控制效果有明顯波動,電壓控制效果下降,而所提方法能夠跟蹤負荷及DG 的變化,從而實時制定出力策略,電壓波動相對平緩。
為驗證方法的可行性,選取中國南方電網(wǎng)某53節(jié)點系統(tǒng)進行測試,算例拓撲及分區(qū)如附錄A 圖A11 所示,額定負荷(7.032 5+j1.429 2)MV·A。其中,節(jié)點9、10、15、17、20、21、31 和50 接入光伏的有功容量為240 kW,視在容量為264 kV·A;節(jié)點27、28、29、51、52 和53 接入光伏的有功容量為400 kW,視在容量為440 kV·A。接入的光伏總?cè)萘繛?.752 MV·A,容量滲透率為66.22%。
測試日負荷及DG 運行曲線如附錄A 圖A4 所示。為研究不同分區(qū)下智能體的學(xué)習(xí)效果與控制效果,分別將網(wǎng)絡(luò)分為3 個和4 個區(qū)域,如圖A11 所示。仍選取3 種場景進行對比。模型訓(xùn)練情況如圖A12 所示。表3 為各場景優(yōu)化結(jié)果對比。
表3 測試日各場景電壓控制結(jié)果Table 3 Voltage control results in different scenarios on test days
由表3 可知,在方案1 中,所提方法的平均電壓偏差相比于原始場景下降了92.78%,且由于該算例節(jié)點較多、負荷較重,原始電壓下限為0.902 6,遠低于安全運行水平,所提方法將電壓下限由0.902 6 提高至0.977 7,大幅提高了電壓運行質(zhì)量。
由方案1 和方案2 的對比可知,分區(qū)對所提方法控制效果無明顯影響。值得注意的是,隨著分區(qū)數(shù)量的增多,將對智能體的協(xié)作要求更高,控制效果略有下降;相應(yīng)的,若分區(qū)數(shù)目減少,智能體之間協(xié)作要求下降,但將趨近于全局控制,大幅增加通信成本。
采用集中式方法進行優(yōu)化時,存在優(yōu)化時間長、收斂性受網(wǎng)絡(luò)拓撲及負荷水平影響等問題,所提方法在智能體訓(xùn)練完成后僅依靠就地信息進行實時決策,策略生成周期低至毫秒級,且決策時不存在優(yōu)化算法的收斂性問題。同時,依托于云-邊協(xié)同框架下的經(jīng)驗共享,所提方法最優(yōu)率達98.04%,在實時決策模式下保證了較高的決策水平。
本文面向高滲透率DG 接入的配電網(wǎng)電壓波動問題,充分利用DG 的調(diào)節(jié)潛力,提出了基于MADDPG 的DG 集群控制框架??紤]DG 的容量耦合,使用動態(tài)邊界掩模方法,保證動作的合理性,基于分區(qū)實現(xiàn)DG 就地控制。最后,在改進IEEE 33節(jié)點系統(tǒng)及中國南方電網(wǎng)53 節(jié)點系統(tǒng)算例上驗證了所提方法的可行性,基于MADDPG 的DG 就地電壓控制方法能夠自適應(yīng)地控制DG 無功出力,從而緩解電壓波動問題。
后續(xù)工作將進一步考慮OLTC 等慢時間尺度調(diào)節(jié)設(shè)備控制方法,實現(xiàn)快慢時間尺度上的多設(shè)備協(xié)調(diào)電壓控制。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。