国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于單/多智能體簡化強(qiáng)化學(xué)習(xí)的電力系統(tǒng)無功電壓控制

2024-03-14 07:21:40鄧長虹
電工技術(shù)學(xué)報 2024年5期
關(guān)鍵詞:集中式控制策略分布式

馬 慶 鄧長虹

基于單/多智能體簡化強(qiáng)化學(xué)習(xí)的電力系統(tǒng)無功電壓控制

馬 慶 鄧長虹

(武漢大學(xué)電氣與自動化學(xué)院 武漢 430072)

為了快速平抑分布式能源接入系統(tǒng)產(chǎn)生的無功電壓波動,以強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)方法逐漸被應(yīng)用于無功電壓控制。雖然現(xiàn)有方法能實現(xiàn)在線極速求解,但仍然存在離線訓(xùn)練速度慢、普適性不夠等阻礙其應(yīng)用于實際的缺陷。該文首先提出一種適用于輸電網(wǎng)集中式控制的單智能體簡化強(qiáng)化學(xué)習(xí)方法,該方法基于“Actor-Critic”架構(gòu)對強(qiáng)化學(xué)習(xí)進(jìn)行簡化與改進(jìn),保留了強(qiáng)化學(xué)習(xí)無需標(biāo)簽數(shù)據(jù)與強(qiáng)普適性的優(yōu)點,同時消除了訓(xùn)練初期因智能體隨機(jī)搜索造成的計算浪費,大幅提升了強(qiáng)化學(xué)習(xí)的訓(xùn)練速度;然后,提出一種適用于配電網(wǎng)分布式零通信控制的多智能體簡化強(qiáng)化學(xué)習(xí)方法,該方法將簡化強(qiáng)化學(xué)習(xí)思想推廣形成多智能體版本,同時采用模仿學(xué)習(xí)進(jìn)行初始化,將全局優(yōu)化思想提前注入各智能體,提升各無功設(shè)備之間的就地協(xié)同控制效果;最后,基于改進(jìn)IEEE 118節(jié)點算例的仿真結(jié)果驗證了所提方法的正確性與快速性。

無功電壓控制 集中式控制 單智能體簡化強(qiáng)化學(xué)習(xí) 分布式控制 多智能體簡化強(qiáng)化學(xué)習(xí)

0 引言

近年來,以光伏、風(fēng)電為代表的分布式可再生能源在電力系統(tǒng)中的占比逐年增大,這對未來全球能源加速轉(zhuǎn)型具有重要的意義。但分布式能源出力的隨機(jī)性與波動性也給電力系統(tǒng)正常運行帶來了眾多難題,其中電力系統(tǒng)無功電壓快速波動便是典型的問題之一[1-4]。根據(jù)真實的歷史運行數(shù)據(jù),國內(nèi)某220 kV風(fēng)電場在未進(jìn)行無功電壓控制(Volt-Var Control, VVC)時,曾觀測到其并網(wǎng)點電壓在10 s內(nèi)的平均波動達(dá)到6 kV,在2 s內(nèi)的最大波動達(dá)到5 kV[5];另據(jù)對400戶家庭收集的光伏運行數(shù)據(jù)顯示,家用光伏在1 min內(nèi)的功率變化能夠達(dá)到額定容量的15%[6],這些劇烈的波動現(xiàn)象無疑迫使VVC需要進(jìn)行更快、更好的決策以應(yīng)對分布式能源帶來的巨大挑戰(zhàn)。

VVC的控制手段主要包括以電容器、變壓器分接頭為代表的離散型無功設(shè)備與以靜止無功補(bǔ)償器(Static Var Compensator, SVC)/靜止無功發(fā)生器(Static Var Generator, SVG)、發(fā)電機(jī)組及分布式能源逆變器無功出力為代表的連續(xù)型無功設(shè)備兩大類。各種無功設(shè)備的控制時間常數(shù)也不盡相同,變壓器分接頭及容抗器為min級,傳統(tǒng)發(fā)電機(jī)組、風(fēng)電機(jī)組及光伏逆變器為s級,SVC/SVG調(diào)節(jié)速度最快,為10 ms級,但由于造價昂貴通常配置容量較小[7-9]。由于離散型無功設(shè)備只能階躍式調(diào)節(jié),調(diào)節(jié)速度緩慢且存在日內(nèi)動作次數(shù)約束,而連續(xù)型無功設(shè)備能夠?qū)崿F(xiàn)無功的快速平滑調(diào)節(jié)且無日內(nèi)動作次數(shù)約束,為實現(xiàn)兩類設(shè)備的協(xié)調(diào)控制,近年來眾多學(xué)者傾向于將VVC轉(zhuǎn)化為多時間尺度優(yōu)化問題[10-12]。其中日前控制階段用于控制離散型無功設(shè)備,控制頻次通常設(shè)定為h級[13],主要在分布式能源及負(fù)荷預(yù)測的基礎(chǔ)上,提前制定離散型無功設(shè)備的24 h日前控制策略。實時控制階段用于控制連續(xù)型無功設(shè)備,由于分布式能源波動速度為s級至min級,且連續(xù)型無功設(shè)備的控制時間常數(shù)大多集中于s級,因此實時控制頻次通常設(shè)定為s級或min級[14-15],主要在離散型無功設(shè)備執(zhí)行日前控制策略的基礎(chǔ)上,對連續(xù)型無功設(shè)備進(jìn)行實時優(yōu)化調(diào)節(jié),最終達(dá)到快速平抑分布式能源造成無功電壓波動的目的,本文研究主要針對實時控制階段進(jìn)行開展。

從控制算法的角度,傳統(tǒng)VVC可分為以內(nèi)點法為代表的數(shù)學(xué)算法[16-17]與以遺傳算法為代表的啟發(fā)式算法[18-19]兩大類。由于采用傳統(tǒng)方法進(jìn)行優(yōu)化求解時存在需要精確建模、在線計算速度緩慢等缺陷,無法實現(xiàn)對無功電壓波動的快速響應(yīng),因而近年來眾多學(xué)者開始將機(jī)器學(xué)習(xí)方法引入VVC,其核心思想都是通過離線訓(xùn)練實現(xiàn)電力系統(tǒng)實時狀態(tài)與無功設(shè)備控制策略的端到端映射,在線計算時能夠省去傳統(tǒng)方法所需的大量迭代計算過程。應(yīng)用于VVC的機(jī)器學(xué)習(xí)方法主要分為模仿學(xué)習(xí)[20-21](Imitation Learning, IL)及強(qiáng)化學(xué)習(xí)[22-25](Deep Reinforcement Learning, DRL)兩大類。其中IL本質(zhì)是監(jiān)督學(xué)習(xí),是利用傳統(tǒng)方法在不同運行場景下生成的大量專家樣本進(jìn)行監(jiān)督訓(xùn)練的過程,操作簡單、模型訓(xùn)練速度較快,但存在形成專家樣本耗時長、對專家樣本質(zhì)量要求極高等缺點。DRL本質(zhì)是試錯,是智能體通過與環(huán)境之間不斷交互獲得的獎勵值指導(dǎo)動作策略不斷升級的過程,DRL無需標(biāo)簽數(shù)據(jù),只需通過隨機(jī)試錯便可使得智能體學(xué)習(xí)得到近似最優(yōu)的控制策略,但也正是因為初期隨機(jī)探索產(chǎn)生了大量的計算浪費,導(dǎo)致DRL存在離線訓(xùn)練速度緩慢、收斂結(jié)果不穩(wěn)定等缺點。由于這兩類機(jī)器學(xué)習(xí)算法應(yīng)用于VVC時各有自身的優(yōu)缺點,因此開發(fā)一種能夠結(jié)合二者優(yōu)點的機(jī)器學(xué)習(xí)算法,同時擁有DRL的自主探索性及IL的訓(xùn)練快速性,對于平抑未來因更高比例分布式能源接入產(chǎn)生的更為頻繁的系統(tǒng)無功電壓波動具有重要的意義。

從控制架構(gòu)的角度,當(dāng)前VVC主要分為集中式控制[26-27]、本地控制[28-29]、分布式控制[30-35]三大類。集中式控制主要通過實時收集系統(tǒng)內(nèi)所有運行信息進(jìn)行整體無功優(yōu)化,控制效果最好,但是需要實現(xiàn)可靠而快速的實時通信。本地控制無需實現(xiàn)實時通信,主要是無功設(shè)備基于本地信息就地決策控制,但由于缺乏不同無功設(shè)備間的協(xié)同導(dǎo)致系統(tǒng)電壓控制效果較差。分布式協(xié)調(diào)控制又分為基于一致性算法或交替方向乘子算法、需要極少通信的分布式控制[30-32]和基于多智能體強(qiáng)化學(xué)習(xí)、零通信的分布式控制[33-35]兩種,由于前者仍需鄰近節(jié)點間的實時通信作為基礎(chǔ),因此實現(xiàn)零通信的基于多智能體強(qiáng)化學(xué)習(xí)的分布式控制目前更加受到學(xué)者的關(guān)注。

基于以上對現(xiàn)有VVC研究中關(guān)于控制算法、控制架構(gòu)及其優(yōu)缺點的總結(jié),本文提出一種基于簡化強(qiáng)化學(xué)習(xí)的VVC方法應(yīng)用于多時間尺度VVC的實時控制階段。該方法分為單智能體版本及多智能體版本:

1)基于單智能體簡化強(qiáng)化學(xué)習(xí)(Single-Agent Simplified DRL, SASDRL)的VVC方法,適用對象為量測及通信設(shè)施相對較完備的輸電網(wǎng)。控制架構(gòu)為集中式控制,該方法繼承DRL中經(jīng)典的“Actor-Critic”架構(gòu)。其中Actor網(wǎng)絡(luò)實現(xiàn)系統(tǒng)實時狀態(tài)與無功設(shè)備控制策略的端到端映射,Critic網(wǎng)絡(luò)用于評判不同控制策略的好壞,但評判指標(biāo)與傳統(tǒng)DRL不同,直接簡化為智能體采取當(dāng)前控制策略后得到的獎勵值,Critic網(wǎng)絡(luò)訓(xùn)練轉(zhuǎn)化為擬合系統(tǒng)實時狀態(tài)與節(jié)點電壓之間非線性關(guān)系的監(jiān)督學(xué)習(xí)訓(xùn)練。同時,設(shè)定在Critic網(wǎng)絡(luò)訓(xùn)練完畢后再進(jìn)行Actor網(wǎng)絡(luò)訓(xùn)練,使得Actor網(wǎng)絡(luò)在訓(xùn)練初始就能夠獲得Critic網(wǎng)絡(luò)反饋回的正確訓(xùn)練梯度,從而減少初始階段大量的計算浪費。

2)基于多智能體簡化強(qiáng)化學(xué)習(xí)(Multi-Agent Simplified DRL, MASDRL)+IL的VVC方法,適用對象為量測及通信設(shè)施相對不完備的配電網(wǎng),控制架構(gòu)為零通信分布式控制,該方法首先將簡化強(qiáng)化學(xué)習(xí)思想推廣形成多智能體版本,提升了多智能體強(qiáng)化學(xué)習(xí)應(yīng)用于VVC訓(xùn)練的快速性與穩(wěn)定性。其次引入IL用于各智能體Actor網(wǎng)絡(luò)的初始化,IL使用的訓(xùn)練樣本來自SASDRL模型生成的控制策略樣本,大幅提升了專家樣本的生成速度,同時使各智能體Actor網(wǎng)絡(luò)在訓(xùn)練初始就能夠擁有集中控制的全局優(yōu)化思想,實現(xiàn)無功設(shè)備之間更優(yōu)的就地協(xié)同控制。

1 VVC數(shù)學(xué)建模

1.1 傳統(tǒng)算法數(shù)學(xué)優(yōu)化模型

采用傳統(tǒng)數(shù)學(xué)算法或啟發(fā)式算法需要建立詳細(xì)的VVC數(shù)學(xué)優(yōu)化模型。多時間尺度VVC中實時控制階段的控制目標(biāo)就是在滿足系統(tǒng)各類運行約束條件的基礎(chǔ)上通過控制各類連續(xù)型無功設(shè)備來減少系統(tǒng)節(jié)點電壓偏離,保證系統(tǒng)的平穩(wěn)運行,因此建立的數(shù)學(xué)優(yōu)化模型通??杀硎緸?/p>

式中,為目標(biāo)函數(shù);為節(jié)點數(shù)目;、為節(jié)點;VVtar分別為節(jié)點實際電壓與目標(biāo)電壓;Gi和Gi分別為節(jié)點連接機(jī)組的有功、無功出力;Ci為無功補(bǔ)償量;Li和Li分別為節(jié)點有功、無功負(fù)荷;GB分別為線路電導(dǎo)、電納;δ為線路首末節(jié)點的相位差;CQmax和CQmin分別為無功設(shè)備的調(diào)節(jié)上、下限。

1.2 基于IL的VVC

IL首先需要基于傳統(tǒng)VVC算法,針對不同的系統(tǒng)運行場景進(jìn)行無功優(yōu)化計算生成大量專家樣本(,),其中代表系統(tǒng)狀態(tài)參數(shù),主要包括節(jié)點有功、無功負(fù)荷L、L及機(jī)組有功出力G,代表采用傳統(tǒng)VVC算法計算得到的無功設(shè)備控制策略。然后直接使用深度學(xué)習(xí)、支持向量機(jī)等監(jiān)督學(xué)習(xí)方法,將專家樣本中的作為輸入,作為標(biāo)簽進(jìn)行訓(xùn)練,學(xué)習(xí)的目標(biāo)是使模型預(yù)測值與標(biāo)簽值的偏差達(dá)到最小,具體可表示為

由于IL本質(zhì)是監(jiān)督學(xué)習(xí),訓(xùn)練過程簡單,但需要大量不同運行場景下的控制策略專家樣本作為基礎(chǔ),當(dāng)采用傳統(tǒng)無功優(yōu)化算法生成專家樣本時往往存在耗時較長的問題。此外,由于模型訓(xùn)練只限定于固定的專家樣本集,當(dāng)實際應(yīng)用時碰到的運行場景與訓(xùn)練時所用的專家樣本相差較大時,可能會導(dǎo)致控制結(jié)果不甚理想。

1.3 基于DRL的VVC

本文以VVC研究中應(yīng)用最為廣泛的“Actor-Critic”類型DRL算法進(jìn)行說明。“Actor-Critic”類型DRL算法由Actor網(wǎng)絡(luò)及Critic網(wǎng)絡(luò)構(gòu)成,其中Actor網(wǎng)絡(luò)同樣用于建立系統(tǒng)狀態(tài)參數(shù)與無功設(shè)備控制策略之間的映射,Critic網(wǎng)絡(luò)用于建立(,)與一個標(biāo)量之間的映射,該標(biāo)量被稱為動作價值,用于評判無功設(shè)備控制策略的好壞。由于DRL沒有標(biāo)簽數(shù)據(jù),Actor網(wǎng)絡(luò)能夠生成良好的前提是Critic網(wǎng)絡(luò)能夠?qū)Σ煌暮脡淖龀鼍珳?zhǔn)的判斷,即Critic網(wǎng)絡(luò)利用動作價值指導(dǎo)Actor網(wǎng)絡(luò)參數(shù)更新。因此“Actor-Critic”類型DRL本質(zhì)上是基于智能體與環(huán)境(電力系統(tǒng))不斷交互生成的數(shù)據(jù)樣本,對Actor網(wǎng)絡(luò)及Critic網(wǎng)絡(luò)參數(shù)不斷進(jìn)行訓(xùn)練升級,最終達(dá)到的目標(biāo)為Critic網(wǎng)絡(luò)能夠針對不同生成最為準(zhǔn)確的值,Actor網(wǎng)絡(luò)能夠針對不同均生成值最大的。當(dāng)“Actor-Critic”類型DRL算法應(yīng)用于VVC時,在單次迭代過程中主要包括三個步驟。

1)訓(xùn)練樣本的生成。生成樣本如式(3)所示。

2)Critic網(wǎng)絡(luò)的訓(xùn)練。在DRL中,Critic網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是使得任意的值滿足如式(4)所示的動作價值貝爾曼方程,即當(dāng)前的值等于與新狀態(tài)生成動作的值之和的期望值。

因此,在訓(xùn)練過程中將二者的差值作為損失函數(shù)對Critic網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,具體參數(shù)更新梯度公式為

3)Actor網(wǎng)絡(luò)的訓(xùn)練。為使Actor網(wǎng)絡(luò)生成具有最大值的,Actor網(wǎng)絡(luò)將Critic生成的值作為重要參數(shù)指導(dǎo)自身網(wǎng)絡(luò)參數(shù)訓(xùn)練,根據(jù)數(shù)學(xué)推導(dǎo),其更新梯度公式可表示為

DRL無需專家樣本進(jìn)行指導(dǎo),而是通過智能體不斷試錯得到的獎勵值來指導(dǎo)擬合系統(tǒng)狀態(tài)參數(shù)與無功設(shè)備控制策略之間的非線性關(guān)系,訓(xùn)練完成的模型對于全新運行場景具有極強(qiáng)的適應(yīng)性。但是Actor網(wǎng)絡(luò)能夠生成良好控制策略的前提是Critic網(wǎng)絡(luò)能夠?qū)Σ煌刂撇呗缘暮脡淖龀鼍珳?zhǔn)的判斷,而Actor網(wǎng)絡(luò)及Critic網(wǎng)絡(luò)均為隨機(jī)初始化生成,因此在訓(xùn)練初始階段,由于Critic網(wǎng)絡(luò)的不完備、無法精準(zhǔn)評判Actor網(wǎng)絡(luò)生成的控制策略,智能體的隨機(jī)探索存在大量的計算浪費。此外,現(xiàn)有研究應(yīng)用DRL時通常將VVC作為序列決策問題,在Critic網(wǎng)絡(luò)單步更新時,所需計算的參數(shù)包括當(dāng)前控制策略的值、值及下一步控制策略的值,且求解值在現(xiàn)有文獻(xiàn)中均需要通過傳統(tǒng)潮流計算方法,求解速度緩慢。同時Critic網(wǎng)絡(luò)訓(xùn)練目標(biāo)為動作價值貝爾曼方程,與IL只需追求預(yù)測值與標(biāo)簽值差距最小的訓(xùn)練方式相比,訓(xùn)練難度也大幅增加。

因此,提高DRL離線訓(xùn)練速度的核心應(yīng)集中于如何在保證CRITIC網(wǎng)絡(luò)能夠準(zhǔn)確評判不同控制策略質(zhì)量的基礎(chǔ)上,采用更為簡便的操作提升CRITIC網(wǎng)絡(luò)的訓(xùn)練速度。

2 基于SASDRL的集中式VVC

事實上,由于VVC中涉及長時間尺度的問題只有離散型無功設(shè)備的動作次數(shù)約束問題,而在本文的研究對象——多時間尺度VVC實時控制階段中,離散型無功設(shè)備的狀態(tài)保持固定不變,控制對象只有連續(xù)型無功設(shè)備,即使前后控制時間斷面產(chǎn)生的控制策略差異很大,也能夠通過連續(xù)型設(shè)備無功調(diào)節(jié)的平滑性實現(xiàn)對控制指令的快速響應(yīng),不同控制時間斷面對應(yīng)的優(yōu)化問題可以解耦[36-37]。因此,在實時控制階段VVC的DRL訓(xùn)練過程中,本文將DRL原本設(shè)定的序列決策問題解耦為單點決策問題,結(jié)合DRL應(yīng)用于VVC在線計算時的極速性,能夠?qū)崿F(xiàn)實時控制階段不同時間斷面的最優(yōu)控制,同時大幅降低DRL的訓(xùn)練計算量及計算難度。

綜上所述,本文首先提出一種SASDRL方法應(yīng)用于多時間尺度VVC的實時控制階段,適用對象為量測及通信設(shè)施完備的輸電網(wǎng),控制架構(gòu)為集中式控制,其核心思想包括:

1)將傳統(tǒng)DRL中設(shè)定的序列決策問題簡化為單點決策問題,即評判當(dāng)前控制策略好壞的指標(biāo)由式(4)直接簡化為(,,)=。Critic網(wǎng)絡(luò)的功能由實現(xiàn)(,)至原動作價值的映射,轉(zhuǎn)化為以監(jiān)督學(xué)習(xí)方式直接擬合(,)與節(jié)點電壓之間的非線性關(guān)系,并結(jié)合獎勵函數(shù)生成當(dāng)前控制策略對應(yīng)的獎勵值。此處設(shè)定的獎勵函數(shù)仍采用傳統(tǒng)數(shù)學(xué)優(yōu)化模型中的目標(biāo)函數(shù),但與傳統(tǒng)DRL不同之處在于目標(biāo)函數(shù)的自變量(節(jié)點電壓)無需通過復(fù)雜的潮流計算過程得到,而是轉(zhuǎn)化為直接由極為簡單的Critic網(wǎng)絡(luò)前向計算過程映射得到。

2)由于Actor網(wǎng)絡(luò)能否生成良好控制策略取決于Critic網(wǎng)絡(luò)能否精準(zhǔn)評判不同控制策略的價值,再加上Critic網(wǎng)絡(luò)訓(xùn)練方式的大大簡化,本文將DRL中Actor、Critic網(wǎng)絡(luò)并行更新方式轉(zhuǎn)變?yōu)轫樞蚋路绞?,即在完成Critic網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)上再開展Actor網(wǎng)絡(luò)的訓(xùn)練,使得Actor網(wǎng)絡(luò)在訓(xùn)練初始就能獲得完備Critic網(wǎng)絡(luò)的良好指導(dǎo)(即通過完備Critic網(wǎng)絡(luò)能立即獲取能夠正確評判當(dāng)前控制策略的獎勵值),獲得正確的更新梯度,與原始DRL相比能大幅減少訓(xùn)練初始階段的無效探索及計算浪費。

基于SASDRL核心思想的訓(xùn)練過程如下。

1)Critic網(wǎng)絡(luò)的訓(xùn)練。在L、L處于[0, 1.2]倍正常水平區(qū)間、G處于[0, 1]倍機(jī)組額定功率區(qū)間、CQ處于無功設(shè)備出力上下限區(qū)間內(nèi)隨機(jī)取值,形成(,)作為監(jiān)督訓(xùn)練的輸入,并作潮流計算得到節(jié)點電壓作為標(biāo)簽數(shù)據(jù),生成Critic網(wǎng)絡(luò)訓(xùn)練所需的數(shù)據(jù)樣本。本文采用深度學(xué)習(xí)作為監(jiān)督訓(xùn)練方法,為使訓(xùn)練出的模型與系統(tǒng)實際物理信息相符,具有更強(qiáng)的普適性,本文采用文獻(xiàn)[38]中提出的方案,在損失函數(shù)中加入基于預(yù)測電壓值與線路電阻、電抗等系統(tǒng)物理信息計算得到的節(jié)點有功、無功偏差損失函數(shù)。

2)Actor網(wǎng)絡(luò)的訓(xùn)練。當(dāng)Critic網(wǎng)絡(luò)訓(xùn)練完成后,由于Critic網(wǎng)絡(luò)可以準(zhǔn)確預(yù)測各運行場景下的節(jié)點電壓值,便可結(jié)合獎勵函數(shù)生成評價指標(biāo)獎勵值,用于精準(zhǔn)判斷當(dāng)前控制策略的好壞。在Actor網(wǎng)絡(luò)訓(xùn)練過程中,Critic網(wǎng)絡(luò)參數(shù)保持不變,只需通過簡單的鏈?zhǔn)角髮?dǎo)法便可求得Actor網(wǎng)絡(luò)參數(shù)的最優(yōu)更新梯度,同時結(jié)合adam算法[39]加快參數(shù)的尋優(yōu)速度。此外,為了保證Actor網(wǎng)絡(luò)模型的普適性,在Actor網(wǎng)絡(luò)單次迭代中采用的所有運行場景均為重新隨機(jī)生成。

式中,為Actor網(wǎng)絡(luò)參數(shù)梯度動量;g、h分別為利用加權(quán)平均法累積的梯度動量及梯度二次方動量;1、2為梯度動量超參數(shù);為參數(shù)更新次數(shù);為防止分母為零而設(shè)置的極小參數(shù)。

綜上所述,基于SASDRL的VVC訓(xùn)練流程如圖1所示。

圖1 基于SASDRL的VVC訓(xùn)練流程

3 基于MASDRL+IL的分布式VVC

理論上集中式VVC能夠獲得最優(yōu)的電壓控制效果,但其需要以完備的實時通信設(shè)施及強(qiáng)大的集中計算中心為基礎(chǔ),這在配備有完備量測設(shè)備、節(jié)點數(shù)目相對較少的輸電網(wǎng)是可行的,但在有大量分布式能源接入的配電網(wǎng)卻是難以實現(xiàn)的。因為配電網(wǎng)結(jié)構(gòu)復(fù)雜,線路、節(jié)點數(shù)目繁多,基于電網(wǎng)建設(shè)的經(jīng)濟(jì)性無法做到像輸電網(wǎng)一樣為配電網(wǎng)內(nèi)每條線路、每個節(jié)點都配備實時量測裝置。同時隨著配電網(wǎng)中新能源發(fā)電滲透率的逐步提高,集中式控制需要采集的數(shù)據(jù)量及優(yōu)化變量個數(shù)逐漸增多,問題復(fù)雜度逐漸增大,使得集中式控制應(yīng)用于配電網(wǎng)時難以實現(xiàn)實時的優(yōu)化。因此為了快速平抑新能源出力快速變化造成的配電網(wǎng)無功功率和電壓波動,同時完全消除節(jié)點-主站實時交互通信的沉重負(fù)擔(dān),眾多學(xué)者將多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning, MADRL)應(yīng)用于配電網(wǎng)多時間尺度VVC的實時控制階段。核心思想是將每個連續(xù)型無功設(shè)備均設(shè)為獨立的智能體,采用“集中式訓(xùn)練-分布式控制”的模式為每個智能體離線訓(xùn)練一個動作策略網(wǎng)絡(luò),在線應(yīng)用時僅利用無功設(shè)備所連接節(jié)點的局部信息進(jìn)行決策,達(dá)到所有無功設(shè)備的就地協(xié)同控制。

3.1 基于MADRL的VVC

在現(xiàn)有將MADRL應(yīng)用于VVC的研究中,采用的算法如MADDPG(multi-agent deep determine-stic policy gradient)、MASAC(multi-agent soft actor-critic)等繼續(xù)沿用DRL中的“Actor-Critic”經(jīng)典架構(gòu),即利用Actor網(wǎng)絡(luò)生成無功設(shè)備控制策略,Critic網(wǎng)絡(luò)用于評價控制策略的好壞。不同的是,需要為每個智能體單獨訓(xùn)練一個Actor網(wǎng)絡(luò),每個Actor網(wǎng)絡(luò)的輸入僅為該無功設(shè)備所連接節(jié)點的局部信息,包括節(jié)點有功功率P=PLiGi、節(jié)點無功功率Q=QLiGi、節(jié)點電壓V(在線應(yīng)用時,節(jié)點有功功率、無功功率及電壓局部信息由實時監(jiān)測獲得),輸出僅為該無功設(shè)備的控制指令Gi。由于VVC是所有無功設(shè)備共同合作型任務(wù),因此Critic網(wǎng)絡(luò)僅有一個,輸入、輸出數(shù)據(jù)與單智能體Critic網(wǎng)絡(luò)相同。由于Critic網(wǎng)絡(luò)輸入數(shù)據(jù)中包含了每個智能體的決策信息,即每個無功設(shè)備的控制指令,所以Critic網(wǎng)絡(luò)還起到輔助Actor網(wǎng)絡(luò)建模其他智能體行為的作用,部分彌補(bǔ)了單個Actor網(wǎng)絡(luò)只能觀測到局部信息的缺陷,構(gòu)建智能體之間的協(xié)同性。在單次迭代過程中Actor與Critic網(wǎng)絡(luò)的更新公式分別為

3.2 基于MASDRL+IL的VVC

與傳統(tǒng)單智能體DRL一樣,由于MADRL各Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)仍為隨機(jī)初始化生成,Critic網(wǎng)絡(luò)在訓(xùn)練初期無法給予各Actor網(wǎng)絡(luò)良好的指導(dǎo),因此MADRL仍然存在因訓(xùn)練初期大量無效隨機(jī)探索而導(dǎo)致的訓(xùn)練速度慢且訓(xùn)練效果極不穩(wěn)定的缺點。此外,雖然Critic網(wǎng)絡(luò)完成了對所有智能體控制指令的建模、實現(xiàn)智能體之間的協(xié)同控制,但由于每個智能體的觀測只有連接節(jié)點的少量局部信息,因此MADRL應(yīng)用于VVC時無法完全等效于集中控制時的全局優(yōu)化效果。

本文提出一種基于MASDRL+IL的分布式方法應(yīng)用于配電網(wǎng)多時間尺度VVC的實時控制階段。首先將3.1節(jié)提出的簡化強(qiáng)化學(xué)習(xí)思想引入多智能體強(qiáng)化學(xué)習(xí),即將Critic網(wǎng)絡(luò)的功能簡化為以監(jiān)督學(xué)習(xí)方式擬合系統(tǒng)狀態(tài)與節(jié)點電壓的非線性關(guān)系,使得各Actor網(wǎng)絡(luò)在訓(xùn)練初期就能獲得Critic網(wǎng)絡(luò)對其動作指令的精準(zhǔn)評價;其次引入IL用于各Actor網(wǎng)絡(luò)的初始化,IL的樣本來自SASDRL生成的不同場景下的訓(xùn)練樣本,使得各Actor網(wǎng)絡(luò)在訓(xùn)練初始就能擁有集中控制的全局優(yōu)化思想,獲得生成良好無功設(shè)備指令的能力。設(shè)定基于集中式方法SASDRL訓(xùn)練得到的Critic、Actor網(wǎng)絡(luò)分別為Critic-C、Actor-C, 基于分布式方法MASDRL+IL訓(xùn)練得到的Critic、Actor網(wǎng)絡(luò)分別為Critic-D、Actor-D。具體的訓(xùn)練過程如下。

1)Actor-D網(wǎng)絡(luò)初始化。首先完成適用于當(dāng)前系統(tǒng)的SASDRL訓(xùn)練,得到Actor-C網(wǎng)絡(luò);其次隨機(jī)生成大量不同的系統(tǒng)運行場景輸入Actor-C網(wǎng)絡(luò)后,得到對應(yīng)的控制策略,生成Actor-D網(wǎng)絡(luò)初始化的訓(xùn)練樣本集合;最后針對不同的Actor-D網(wǎng)絡(luò),從中抽取各Actor-D網(wǎng)絡(luò)訓(xùn)練需要的sa數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練。

2)Critic-D網(wǎng)絡(luò)與Critic-C網(wǎng)絡(luò)完全一致,無需再另外進(jìn)行訓(xùn)練。

3)Actor-D網(wǎng)絡(luò)訓(xùn)練。與SASDRL類似,在各Actor-D網(wǎng)絡(luò)訓(xùn)練過程中,Critic-D網(wǎng)絡(luò)參數(shù)保持不變,各Actor-D網(wǎng)絡(luò)參數(shù)的更新梯度在?/?中對應(yīng)提取得到,具體表示為

綜上所述,基于MASDRL+IL的分布式VVC訓(xùn)練流程如圖2所示。

4 仿真算例

4.1 仿真設(shè)置

本文基于改進(jìn)的IEEE 118節(jié)點系統(tǒng)對所提出方法的正確性與快速性進(jìn)行驗證。為模擬分布式能源對系統(tǒng)造成的電壓波動,本文設(shè)定在網(wǎng)架末端109、114、115、117、118節(jié)點分別配置額定容量為5 MV·A的光伏,控制的無功設(shè)備包括系統(tǒng)內(nèi)所有發(fā)電機(jī)組及光伏的無功出力,共計58個控制變量(實際應(yīng)用時,當(dāng)實時控制頻次設(shè)定為s級或min級時,控制設(shè)備可以是電網(wǎng)內(nèi)配置的所有連續(xù)型無功設(shè)備)。控制目標(biāo)是系統(tǒng)內(nèi)所有節(jié)點的電壓都趨近于1(pu)。所有仿真驗證均在配備Intel Core i5-12500H CPU @ 2.5 GHz和16 GB 內(nèi)存的計算機(jī)上完成,所有的控制程序均由Python 3.7.5版本進(jìn)行編寫。

為了評估所提方法所能達(dá)到的控制效果,本文開展了與不同類型控制方法的對比實驗。對比方法描述見表1,算法參數(shù)設(shè)置見表2。為保證公平比較不同方法之間的優(yōu)劣,集中式控制不同方法、分布式控制不同方法的Critic網(wǎng)絡(luò)、Actor網(wǎng)絡(luò)架構(gòu)設(shè)置及學(xué)習(xí)率均完全相同,內(nèi)點法參數(shù)參照文獻(xiàn)[40]進(jìn)行設(shè)置。本文利用隨機(jī)生成的500個不同的控制場景對各方法的控制效果進(jìn)行比較,對比指標(biāo)包括系統(tǒng)節(jié)點平均電壓偏差(計算該指標(biāo)所需的各節(jié)點電壓值來源為利用不同方法完成不同測試場景下的VVC決策,并“虛擬執(zhí)行”無功設(shè)備控制策略后,經(jīng)潮流計算獲得的節(jié)點電壓值)、訓(xùn)練尋優(yōu)性能、離線訓(xùn)練時間及在線計算時間。

表1 對比方法描述

Tab.1 Description of different methods

表2 算法參數(shù)設(shè)置

Tab.2 Parameters setting of different methods

(續(xù))

4.2 基于SASDRL的集中式VVC驗證

首先對四種集中式控制方法在500個不同測試場景下的控制結(jié)果(系統(tǒng)平均電壓偏差av)進(jìn)行了統(tǒng)計,結(jié)果見表3;其次對四種方法所需的離線訓(xùn)練時間及在線計算時間進(jìn)行了統(tǒng)計。為了更清晰地對比四種方法的控制效果,圖3將500個不同場景經(jīng)四種方法控制后的系統(tǒng)平均電壓偏差以繪線方式展示。500個場景被均分為五等份,分別位于圖3a~圖3e中。

表3 集中式控制方法的av及耗用時間統(tǒng)計

Tab.3 ?Vav and consumed time of centralized methods

從表3中針對av的統(tǒng)計數(shù)據(jù)可以看出,采用本文提出的SASDRL與IPM的控制效果極其相近,針對500個測試樣本的平均、最大、最小av均基本一致,證明SASDRL能夠達(dá)到與具有嚴(yán)格理論基礎(chǔ)的傳統(tǒng)數(shù)學(xué)方法一樣的尋優(yōu)精度(SASDRL在平均、最大、最小av三項指標(biāo)均稍優(yōu)于IPM 的原因是無功優(yōu)化問題實質(zhì)是非凸優(yōu)化問題,尤其當(dāng)控制變量維數(shù)過高時,即使采用傳統(tǒng)數(shù)學(xué)算法也無法保證能夠收斂至全局最優(yōu),進(jìn)一步證明了SASDRL在高維控制尋優(yōu)的優(yōu)越性)。采用IL能夠獲得稍差于SASDRL與IPM的整體控制效果,平均av略小于以上兩種方法,但由于專家樣本集有限,無法做到涵蓋所有的控制變量可行域空間,導(dǎo)致IL得到的最大av高于其他三種方法。采用SAC獲得了最差的控制效果,表明傳統(tǒng)DRL方法因算法設(shè)定的復(fù)雜性,應(yīng)用于高維控制問題時難以收斂至全局最優(yōu)。以上結(jié)論在圖3中均可得到進(jìn)一步的展現(xiàn),SASDRL與IPM形成的曲線針對500個測試場景均粘合在一起。IL形成的曲線大部分與前兩種方法相近,但在某些測試場景,如81號、470號、497號測試樣本出現(xiàn)尖刺狀凸起。SAC形成的曲線基本脫離以上三種方法而存在于上方電壓偏差較大的空間。

圖3 采用不同集中式控制方法在500個測試場景下的?Vav對比

從表3中針對離線訓(xùn)練時間及在線計算時間的統(tǒng)計數(shù)據(jù)中可以看出,采用機(jī)器學(xué)習(xí)類方法的在線運算速度遠(yuǎn)超以IPM為代表的傳統(tǒng)方法,計算速度加速至ms級,針對分布式能源接入電力系統(tǒng)帶來的無功電壓快速波動完全能夠做到實時響應(yīng)控制。在離線訓(xùn)練時間方面,采用SASDRL所消耗的訓(xùn)練時間最少,是SAC 方法訓(xùn)練速度的4.47倍,是IL訓(xùn)練速度的50.76倍,且SASDRL的絕大部分訓(xùn)練時間是用于Critic網(wǎng)絡(luò)監(jiān)督訓(xùn)練所需專家樣本的生成過程,占比達(dá)到362/415.6×100%=87.1%。而用于訓(xùn)練Critic網(wǎng)絡(luò)的時間占比僅為44.1/415.6× 100%=10.6%,用于訓(xùn)練Actor網(wǎng)絡(luò)的時間占比僅為9.5/415.6×100%=2.3%。真正用于訓(xùn)練兩個網(wǎng)絡(luò)的時間僅用53.6 s就能夠完成,證明采用本文方法的各項簡化操作后,在保證尋優(yōu)精度的基礎(chǔ)上,Critic網(wǎng)絡(luò)與Actor網(wǎng)絡(luò)的訓(xùn)練速度能夠得到極大提升。

4.3 基于MASDRL+IL的分布式VVC驗證

圖4為不同分布式控制方法在訓(xùn)練過程中的尋優(yōu)性能對比。以基于SASDRL的集中式控制效果作為參照標(biāo)準(zhǔn),表4首先對各方法在500個測試場景下的av進(jìn)行了統(tǒng)計,其次對各方法所需的離線訓(xùn)練時間進(jìn)行了統(tǒng)計。

圖4 采用不同分布式控制方法的訓(xùn)練尋優(yōu)性能對比

表4 分布式控制方法的?av及耗用時間統(tǒng)計

Tab.4 ?Vav and consumed time of decentralized methods

從表4中針對av的統(tǒng)計數(shù)據(jù)容易看出,采用本文方法,即基于MASDRL+IL的VVC方法,能夠獲得最優(yōu)的分布式控制效果,最接近于集中式控制獲得的各項av數(shù)據(jù)。從圖4中的訓(xùn)練曲線可以看出,采用MASDRL+IL獲得的尋優(yōu)性能最優(yōu)且最為穩(wěn)定,由于IL提前將集中式控制思想注入各智能體,因此在訓(xùn)練初始智能體群就已經(jīng)獲得較好的協(xié)同控制效果。MASDRL雖然基于簡化強(qiáng)化學(xué)習(xí)思想同樣能夠快速收斂,但由于各智能體之間缺乏全局優(yōu)化思想的指引,最終獲得的控制效果要比MASDRL+IL差。MADDPG與傳統(tǒng)SASDRL方法類似,由于各智能體Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)為隨機(jī)初始化,Critic網(wǎng)絡(luò)在訓(xùn)練初期無法對各Actor網(wǎng)絡(luò)的集合控制策略進(jìn)行精準(zhǔn)的評價,導(dǎo)致訓(xùn)練指標(biāo)在初期一直保持較高的數(shù)值,同時由于傳統(tǒng)MADRL訓(xùn)練的復(fù)雜性,最終獲得了三種分布式控制方法中最差的控制效果。

在訓(xùn)練時間方面,首先對SASDRL與MASDRL進(jìn)行對比,由于二者的Critic網(wǎng)絡(luò)的訓(xùn)練過程完全一致(表4中所示的362+44.1部分),因此二者訓(xùn)練時間的不同主要體現(xiàn)在Actor網(wǎng)絡(luò)的訓(xùn)練上,雖然MASDRL需要針對每個無功設(shè)備訓(xùn)練一個Actor網(wǎng)絡(luò),但每個無功設(shè)備所對應(yīng)的Actor網(wǎng)絡(luò)參數(shù)規(guī)模遠(yuǎn)小于SASDRL的Actor網(wǎng)絡(luò)參數(shù)規(guī)模,因此MASDRL的訓(xùn)練時間僅比SASDRL增加了3.01%。其次,本文在MASDRL的基礎(chǔ)上引入IL提升了分布式控制效果,雖然相較于純粹的MASDRL,增加了SASDRL的Actor網(wǎng)絡(luò)訓(xùn)練操作、基于SASDRL的訓(xùn)練樣本生成操作及MASDRL各智能體Actor網(wǎng)絡(luò)初始化訓(xùn)練操作,但以上三項操作消耗的時間均非常少,其中第一項操作僅增加9.5 s,第二項是深度學(xué)習(xí)的前向計算過程,第三項是訓(xùn)練樣本、訓(xùn)練次數(shù)均設(shè)定較少的監(jiān)督學(xué)習(xí)過程,二者合計只增加8.7 s,因此相較于純粹的MASDRL,基于MASDRL+IL的VVC方法訓(xùn)練時間僅增加了1.96%,而相較于MADDPG卻減少了82.77%。

5 結(jié)論

1)本文提出了一種基于單智能體簡化強(qiáng)化學(xué)習(xí)的集中式VVC方法,通過對Critic網(wǎng)絡(luò)訓(xùn)練目標(biāo)的簡化,在保證精準(zhǔn)評判無功設(shè)備動作策略的基礎(chǔ)上,將Critic網(wǎng)絡(luò)訓(xùn)練方式轉(zhuǎn)化為操作簡單的監(jiān)督學(xué)習(xí)方式。同時通過設(shè)定在Critic網(wǎng)絡(luò)訓(xùn)練完畢的基礎(chǔ)上再進(jìn)行Actor網(wǎng)絡(luò)訓(xùn)練,避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)在訓(xùn)練初始階段的無效探索與計算浪費?;诟倪M(jìn)IEEE 118節(jié)點系統(tǒng)的仿真計算結(jié)果證明,相較于傳統(tǒng)數(shù)學(xué)方法和傳統(tǒng)強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等機(jī)器學(xué)習(xí)方法,本文方法能夠在大幅加速強(qiáng)化學(xué)習(xí)離線訓(xùn)練速度并保證算法普適性的基礎(chǔ)上,獲得與傳統(tǒng)數(shù)學(xué)方法極為相近的優(yōu)異控制效果。

2)本文提出了一種基于多智能體簡化強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)的分布式VVC方法。將各無功設(shè)備都視為無需與外界進(jìn)行實時通信的智能體,在繼承簡化強(qiáng)化學(xué)習(xí)思想的基礎(chǔ)上引入模仿學(xué)習(xí)用于Actor網(wǎng)絡(luò)參數(shù)的初始化,使得各智能體的Actor網(wǎng)絡(luò)在訓(xùn)練開始之前就擁有集中式控制全局優(yōu)化的思想?;诟倪M(jìn)IEEE 118節(jié)點系統(tǒng)的仿真計算結(jié)果證明,相較于傳統(tǒng)多智能體強(qiáng)化學(xué)習(xí)與純粹多智能體簡化強(qiáng)化學(xué)習(xí),本文方法能夠在極少增加離線訓(xùn)練時間的基礎(chǔ)上提升各無功設(shè)備的就地協(xié)同控制效果。

[1] Mahmud N, Zahedi A. Review of control strategies for voltage regulation of the smart distribution network with high penetration of renewable distributed generation[J]. Renewable and Sustainable Energy Reviews, 2016, 64: 582-595.

[2] 高聰哲, 黃文燾, 余墨多, 等. 基于智能軟開關(guān)的主動配電網(wǎng)電壓模型預(yù)測控制優(yōu)化方法[J]. 電工技術(shù)學(xué)報, 2022, 37(13): 3263-3274. Gao Congzhe, Huang Wentao, Yu Moduo, et al. A model predictive control method to optimize voltages for active distribution networks with soft open point[J]. Transactions of China Electrotechnical Society, 2022, 37(13): 3263-3274.

[3] 康重慶, 姚良忠. 高比例可再生能源電力系統(tǒng)的關(guān)鍵科學(xué)問題與理論研究框架[J]. 電力系統(tǒng)自動化, 2017, 41(9): 2-11. Kang Chongqing, Yao Liangzhong. Key scientific issues and theoretical research framework for power systems with high proportion of renewable energy[J]. Automation of Electric Power Systems, 2017, 41(9): 2-11.

[4] 姚良忠, 朱凌志, 周明, 等. 高比例可再生能源電力系統(tǒng)的協(xié)同優(yōu)化運行技術(shù)展望[J]. 電力系統(tǒng)自動化, 2017, 41(9): 36-43. Yao Liangzhong, Zhu Lingzhi, Zhou Ming, et al. Prospects of coordination and optimization for power systems with high proportion of renewable energy[J]. Automation of Electric Power Systems, 2017, 41(9): 36-43.

[5] 郭慶來, 王彬, 孫宏斌, 等. 支撐大規(guī)模風(fēng)電集中接入的自律協(xié)同電壓控制技術(shù)[J]. 電力系統(tǒng)自動化, 2015, 39(1): 88-93, 130. Guo Qinglai, Wang Bin, Sun Hongbin, et al. Autonomous-synergic voltage control technology supporting large-scale wind power integration[J]. Automation of Electric Power Systems, 2015, 39(1): 88-93, 130.

[6] Wang Gang, Kekatos V, Conejo A J, et al. Ergodic energy management leveraging resource variability in distribution grids[J]. IEEE Transactions on Power Systems, 2016, 31(6): 4765-4775.

[7] 陳江瀾, 湯衛(wèi)東, 肖小剛, 等. 華中電網(wǎng)協(xié)調(diào)電壓控制模式研究[J]. 電力自動化設(shè)備, 2011, 31(8): 47-51. Chen Jianglan, Tang Weidong, Xiao Xiaogang, et al. Coordinated voltage control for Central China Power Grid[J]. Electric Power Automation Equipment, 2011, 31(8): 47-51.

[8] 徐峰達(dá), 郭慶來, 孫宏斌, 等. 基于模型預(yù)測控制理論的風(fēng)電場自動電壓控制[J]. 電力系統(tǒng)自動化, 2015, 39(7): 59-67. Xu Fengda, Guo Qinglai, Sun Hongbin, et al. Automatic voltage control of wind farms based on model predictive control theory[J]. Automation of Electric Power Systems, 2015, 39(7): 59-67.

[9] 國家市場監(jiān)督管理總局, 國家標(biāo)準(zhǔn)化管理委員會. GB/T 37408—2019 光伏發(fā)電并網(wǎng)逆變器技術(shù)要求[S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2019.

[10] Liu Haotian, Wu Wenchuan. Two-stage deep reinforcement learning for inverter-based volt-VAR control in active distribution networks[J]. IEEE Transactions on Smart Grid, 2021, 12(3): 2037-2047.

[11] 顏湘武, 徐韻, 李若瑾, 等. 基于模型預(yù)測控制含可再生分布式電源參與調(diào)控的配電網(wǎng)多時間尺度無功動態(tài)優(yōu)化[J]. 電工技術(shù)學(xué)報, 2019, 34(10): 2022-2037. Yan Xiangwu, Xu Yun, Li Ruojin, et al. Multi-time scale reactive power optimization of distribution grid based on model predictive control and including RDG regulation[J]. Transactions of China Electrotechnical Society, 2019, 34(10): 2022-2037.

[12] 黃大為, 王孝泉, 于娜, 等. 計及光伏出力不確定性的配電網(wǎng)混合時間尺度無功/電壓控制策略[J]. 電工技術(shù)學(xué)報, 2022, 37(17): 4377-4389. Huang Dawei, Wang Xiaoquan, Yu Na, et al. Hybrid time-scale reactive power/voltage control strategy for distribution network considering photovoltaic output uncertainty[J]. Transactions of China Electrotechnical Society, 2022, 37(17): 4377-4389.

[13] Cao Di, Zhao Junbo, Hu Weihao, et al. Deep reinforcement learning enabled physical-model-free two-timescale voltage control method for active distribution systems[J]. IEEE Transactions on Smart Grid, 2022, 13(1): 149-165.

[14] Wang Licheng, Bai Feifei, Yan Ruifeng, et al. Real-time coordinated voltage control of PV inverters and energy storage for weak networks with high PV penetration[J]. IEEE Transactions on Power Systems, 2018, 33(3): 3383-3395.

[15] 胡丹爾, 彭勇剛, 韋巍, 等. 多時間尺度的配電網(wǎng)深度強(qiáng)化學(xué)習(xí)無功優(yōu)化策略[J]. 中國電機(jī)工程學(xué)報, 2022, 42(14): 5034-5045. Hu Daner, Peng Yonggang, Wei Wei, et al. Multi-timescale deep reinforcement learning for reactive power optimization of distribution network[J]. Proceedings of the CSEE, 2022, 42(14): 5034-5045.

[16] 李靜, 戴文戰(zhàn), 韋巍. 基于混合整數(shù)凸規(guī)劃的含風(fēng)力發(fā)電機(jī)組配電網(wǎng)無功補(bǔ)償優(yōu)化配置[J]. 電工技術(shù)學(xué)報, 2016, 31(3): 121-129. Li Jing, Dai Wenzhan, Wei Wei. A mixed integer convex programming for optimal reactive power compensation in distribution system with wind turbines[J]. Transactions of China Electrotechnical Society, 2016, 31(3): 121-129.

[17] 趙晉泉, 居俐潔, 戴則梅, 等. 基于分支定界—原對偶內(nèi)點法的日前無功優(yōu)化[J]. 電力系統(tǒng)自動化, 2015, 39(15): 55-60. Zhao Jinquan, Ju Lijie, Dai Zemei, et al. Day-ahead reactive power optimization based on branch and bound-interior point method[J]. Automation of Electric Power Systems, 2015, 39(15): 55-60.

[18] 崔挺, 孫元章, 徐箭, 等. 基于改進(jìn)小生境遺傳算法的電力系統(tǒng)無功優(yōu)化[J]. 中國電機(jī)工程學(xué)報, 2011, 31(19): 43-50. Cui Ting, Sun Yuanzhang, Xu Jian, et al. Reactive power optimization of power system based on improved niche genetic algorithm[J]. Proceedings of the CSEE, 2011, 31(19): 43-50.

[19] Malachi Y, Singer S. A genetic algorithm for the corrective control of voltage and reactive power[J]. IEEE Transactions on Power Systems, 2006, 21(1): 295-300.

[20] Jalali M, Kekatos V, Gatsis N, et al. Designing reactive power control rules for smart inverters using support vector machines[J]. IEEE Transactions on Smart Grid, 2020, 11(2): 1759-1770.

[21] 邵美陽, 吳俊勇, 石琛, 等. 基于數(shù)據(jù)驅(qū)動和深度置信網(wǎng)絡(luò)的配電網(wǎng)無功優(yōu)化[J]. 電網(wǎng)技術(shù), 2019, 43(6): 1874-1883. Shao Meiyang, Wu Junyong, Shi Chen, et al. Reactive power optimization of distribution network based on data driven and deep belief network[J]. Power System Technology, 2019, 43(6): 1874-1883.

[22] 李鵬, 姜磊, 王加浩, 等. 基于深度強(qiáng)化學(xué)習(xí)的新能源配電網(wǎng)雙時間尺度無功電壓優(yōu)化[J]. 中國電機(jī)工程學(xué)報, 2023, 43(16): 6255-6266. Li Peng, Jiang Lei, Wang Jiahao, et al. Optimization of dual-time scale reactive voltage for distribution network with renewable energy based on deep reinforcement learning[J]. Proceedings of the CSEE, 2023, 43(16): 6255-6266.

[23] 倪爽, 崔承剛, 楊寧, 等. 基于深度強(qiáng)化學(xué)習(xí)的配電網(wǎng)多時間尺度在線無功優(yōu)化[J]. 電力系統(tǒng)自動化, 2021, 45(10): 77-85. Ni Shuang, Cui Chenggang, Yang Ning, et al. Multi-time-scale online optimization for reactive power of distribution network based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(10): 77-85.

[24] Duan Jiajun, Shi Di, Diao Ruisheng, et al. Deep-reinforcement-learning-based autonomous voltage control for power grid operations[J]. IEEE Transactions on Power Systems, 2020, 35(1): 814-817.

[25] Wang Wei, Yu Nanpeng, Gao Yuanqi, et al. Safe off-policy deep reinforcement learning algorithm for volt-VAR control in power distribution systems[J]. IEEE Transactions on Smart Grid, 2020, 11(4): 3008-3018.

[26] Yang Qiuling, Wang Gang, Sadeghi A, et al. Two-timescale voltage control in distribution grids using deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2313-2323.

[27] Kulmala A, Repo Sami, J?rventausta P. Coordinated voltage control in distribution networks including several distributed energy resources[J]. IEEE Transactions on Smart Grid, 2014, 5(4): 2010-2020.

[28] Cavraro G, Carli R. Local and distributed voltage control algorithms in distribution networks[J]. IEEE Transactions on Power Systems, 2018, 33(2): 1420-1430.

[29] Karagiannopoulos S, Aristidou P, Hug G. Data-driven local control design for active distribution grids using off-line optimal power flow and machine learning techniques[J]. IEEE Transactions on Smart Grid, 2019, 10(6): 6461-6471.

[30] 樂健, 王曹, 李星銳, 等. 中壓配電網(wǎng)多目標(biāo)分布式優(yōu)化控制策略[J]. 電工技術(shù)學(xué)報, 2019, 34(23): 4972-4981. Le Jian, Wang Cao, Li Xingrui, et al. The multi-object distributed optimization control strategy of medium voltage distribution networks[J]. Transactions of China Electrotechnical Society, 2019, 34(23): 4972-4981.

[31] 趙晉泉, 張振偉, 姚建國, 等. 基于廣義主從分裂的輸配電網(wǎng)一體化分布式無功優(yōu)化方法[J]. 電力系統(tǒng)自動化, 2019, 43(3): 108-115. Zhao Jinquan, Zhang Zhenwei, Yao Jianguo, et al. Heterogeneous decomposition based distributed reactive power optimization method for global transmission and distribution network[J]. Automation of Electric Power Systems, 2019, 43(3): 108-115.

[32] Zeraati M, Hamedani Golshan M E, Guerrero J M. Distributed control of battery energy storage systems for voltage regulation in distribution networks with high PV penetration[J]. IEEE Transactions on Smart Grid, 2018, 9(4): 3582-3593.

[33] Sun Xianzhuo, Qiu Jing. Two-stage volt/var control in active distribution networks with multi-agent deep reinforcement learning method[J]. IEEE Transactions on Smart Grid, 2021, 12(4): 2903-2912.

[34] 趙冬梅, 陶然, 馬泰屹, 等. 基于多智能體深度確定策略梯度算法的有功-無功協(xié)調(diào)調(diào)度模型[J]. 電工技術(shù)學(xué)報, 2021, 36(9): 1914-1925. Zhao Dongmei, Tao Ran, Ma Taiyi, et al. Active and reactive power coordinated dispatching based on multi-agent deep deterministic policy gradient algorithm[J]. Transactions of China Electrotechnical Society, 2021, 36(9): 1914-1925.

[35] Liu Haotian, Wu Wenchuan. Online multi-agent reinforcement learning for decentralized inverter-based volt-VAR control[J]. IEEE Transactions on Smart Grid, 2021, 12(4): 2980-2990.

[36] Cao Di, Hu Weihao, Zhao Junbo, et al. Reinforcement learning and its applications in modern power and energy systems: a review[J]. Journal of Modern Power Systems and Clean Energy, 2020, 8(6): 1029-1042.

[37] Xu Yan, Dong Zhaoyang, Zhang Rui, et al. Multi-timescale coordinated voltage/var control of high renewable-penetrated distribution systems[J]. IEEE Transactions on Power Systems, 2017, 32(6): 4398-4408.

[38] Yang Yan, Yang Zhifang, Yu Juan, et al. Fast calculation of probabilistic power flow: a model-based deep learning approach[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2235-2244.

[39] Diederik P Ki, Jimmy L B. Adam: a method for stochastic optimization[C]//Proceedings of the 3rd International Conference on Learning Representations (ICLR), San Diego, USA, 2015: 1-13.

[40] Zhang Cong, Chen Haoyong, Shi Ke, et al. An interval power flow analysis through optimizing-scenarios method[J]. IEEE Transactions on Smart Grid, 2018, 9(5): 5217-5226.

Single/Multi Agent Simplified Deep Reinforcement Learning Based Volt-Var Control of Power System

Ma Qing Deng Changhong

(School of Electrical Engineering and Automation Wuhan University Wuhan 430072 China)

In order to quickly suppress the rapid fluctuations of reactive power and voltage caused by the random output change of distributed energies, machine learning (ML) methods represented by deep reinforcement learning (DRL) and imitation learning (IL) have been applied to volt-var control (VVC) research recently, to replace the traditional methods which require a large number of iterations. Although the ML methods in the existing literature can realize the online rapid VVC optimization, there are still some shortcomings such as slow offline training speed and insufficient universality that hinder their applications in practice.

Firstly, this paper proposes a single-agent simplified DRL (SASDRL) method suitable for the centralized control of transmission networks. Based on the classic "Actor-Critic" architecture and the fact that the Actor network can generate wonderful control strategies heavily depends on whether the Critic network can make accurate evaluation, this method simplifies and improves the offline training process of DRL based VVC, whose core ideas are the simplification of Critic network training and the change in the update mode of Actor and Critic network. It simplifies the sequential decision problem set in the traditional DRL based VVC to a single point decision problem and the output of Critic network is transformed from the original sequential action value into the reward value corresponding to the current control strategy. In addition, by training the Critic network in advance to help the accelerated convergence of Actor network, it solves the computational waste problem caused by the random search of agent in the early training stage which greatly improves the offline training speed, and retains the DRL’s advantages like without using massive labeled data and strong universality.

Secondly, a multi-agent simplified DRL method (MASDRL) suitable for decentralized and zero-communication control of active distribution network is proposed. This method generalizes the core idea of SASDRL to form a multi-agent version and continues to accelerate the convergence performance of Actor network of each agent on the basis of training the unified Critic network in advance. Each agent corresponds to a different VVC device in the system. During online application, each agent only uses the local information of the node connected to the VVC device to generate the control strategy through its own Actor network independently. Besides, it adopts IL for initialization to inject the global optimization idea into each agent in advance, and improves the local collaborative control effect between various VVC devices.

Simulation results on the improved IEEE 118-bus system show that SASDRL and MASDRL both achieve the best control results of VVC among all the compared methods. In terms of offline training speed, SASDRL consumes the least amount of training time, whose speed is 4.47 times faster than the traditional DRL and 50.76 times faster than IL. 87.1% of SASDRL's training time is spent on generating the expert samples required for the supervised training of Critic network while only 12.9% is consumed by the training of Actor and Critic network. Regarding MASDRL, it can realize the 82.77% reduction in offline training time compared to traditional MADRL.

The following conclusions can be drawn from the simulation analysis: (1) Compared with traditional mathematical methods and existing ML methods, SASDRL is able to obtain excellent control results similar to mathematical methods while greatly accelerating the offline training speed of DRL based VVC. (2) Compared with traditional MADRL, by the inheritance of SASDRL’ core ideas and the introduction of IL into the initialization of Actor network, the method of MASDRL+IL proposed can improve the local collaborative control effect between various VVC devices and offline training speed significantly.

Volt-var control, centralized control, single-agent simplified deep reinforcement learning, decentralized control, multi-agent simplified deep reinforcement learning

10.19595/j.cnki.1000-6753.tces.222195

TM76

國家重點研發(fā)計劃資助項目(2017YFB0903705)。

2022-11-22

2023-03-03

馬 慶 男,1990年生,博士研究生,研究方向電力系統(tǒng)無功電壓控制。E-mail:747942466@qq.com

鄧長虹 女,1963年生,教授,博士生導(dǎo)師,研究方向為電力系統(tǒng)安全穩(wěn)定分析、可再生能源接入電網(wǎng)的優(yōu)化控制。E-mail:dengch@whu.edu.cn(通信作者)

(編輯 赫 蕾)

猜你喜歡
集中式控制策略分布式
考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
光伏:分布式新增裝機(jī)規(guī)模首次超越集中式
能源(2018年8期)2018-09-21 07:57:16
現(xiàn)代企業(yè)會計的內(nèi)部控制策略探討
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
組串式、集中式逆變器的評估選定淺析
電子測試(2017年23期)2017-04-04 05:07:46
接觸網(wǎng)隔離開關(guān)集中式控制方案研究
電氣化鐵道(2016年5期)2016-04-16 05:59:55
容錯逆變器直接轉(zhuǎn)矩控制策略
光伏集中式逆變器與組串式逆變器
和政县| 东莞市| 专栏| 新和县| 宜兰县| 永靖县| 泰安市| 勃利县| 中卫市| 洛川县| 南宁市| 秭归县| 南昌县| 大姚县| 保定市| 平原县| 伊吾县| 新绛县| 铅山县| 湖南省| 吉隆县| 昌江| 达拉特旗| 蛟河市| 广宗县| 仁化县| 公安县| 桦川县| 乳源| 奉新县| 虎林市| 金秀| 德惠市| 景德镇市| 仁怀市| 宁国市| 雷波县| 修文县| 泾阳县| 靖边县| 若尔盖县|