巨云濤,陳 希,李嘉偉,王 杰
(1. 北方工業(yè)大學(xué)電氣與控制工程學(xué)院,北京市 100144;2. 中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京市 100083)
微網(wǎng)(microgrid)是一種將分布式電源(distributed generator,DG)、負(fù)荷、儲(chǔ)能裝置及監(jiān)控保護(hù)裝置有機(jī)整合在一起的小型源網(wǎng)荷儲(chǔ)系統(tǒng)[1-5],是消納分布式新能源和提高配電網(wǎng)可靠性的有效手段。然而,單個(gè)微網(wǎng)存在抗擾動(dòng)能力差、工作容量有限且缺乏備用的缺點(diǎn)。針對(duì)以上問題,研究人員提出將相鄰微網(wǎng)互聯(lián)構(gòu)成微網(wǎng)群(networked microgrids,NMG)[6-7],并通過有效的優(yōu)化調(diào)度策略協(xié)同調(diào)度,提升對(duì)新能源不確定性的適應(yīng)性[8]。由于微網(wǎng)阻抗比較大,有功和無功功率間存在著強(qiáng)耦合關(guān)系,并且大量DG 的接入使得潮流由傳統(tǒng)的單向流動(dòng)變?yōu)殡p向流動(dòng),電壓越限問題嚴(yán)重,僅調(diào)控有功資源并不能保證系統(tǒng)運(yùn)行的安全和經(jīng)濟(jì)性,需要同時(shí)協(xié)調(diào)有功和無功資源[9-11]。
目前,有功無功協(xié)調(diào)優(yōu)化調(diào)度問題的求解方法主要有基于物理模型的優(yōu)化方法和數(shù)據(jù)驅(qū)動(dòng)的方法兩類。基于物理模型的優(yōu)化方法中,文獻(xiàn)[12]對(duì)配電網(wǎng)有功無功協(xié)調(diào)優(yōu)化調(diào)度問題建立二階錐規(guī)劃模型并求解。文獻(xiàn)[13-14]在文獻(xiàn)[12]的基礎(chǔ)上,應(yīng)用場景法處理可再生能源和負(fù)荷的不確定性。文獻(xiàn)[15]則利用區(qū)間描述不確定性,建立基于區(qū)間不確定性的微網(wǎng)有功無功協(xié)調(diào)優(yōu)化調(diào)度模型。而文獻(xiàn)[16]則采用基于模型預(yù)測控制的方法處理含不確定性的優(yōu)化調(diào)度問題。但上述方法均為集中式方法,無法保障各子微網(wǎng)信息的隱私性且通信壓力較大[17]。雖然已有文獻(xiàn)通過引入交替方向乘子法(alternating direction method of multipliers,ADMM)實(shí)現(xiàn)了微網(wǎng)群的分布式優(yōu)化調(diào)度[18-19],但ADMM 對(duì)通信系統(tǒng)的要求較高。同時(shí),無論是集中式優(yōu)化還是分布式優(yōu)化,均無法避免對(duì)精確電網(wǎng)模型的依賴。
基于數(shù)據(jù)驅(qū)動(dòng)的方法中,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)被證明是解決無模型優(yōu)化決策問題的有效方法,已在電力系統(tǒng)能量管理[20-21]、無功優(yōu)化[22-23]、需求響應(yīng)[24]、緊急控制[25]等方面開展了大量研究。文獻(xiàn)[26]提出了基于DRL的有功無功協(xié)調(diào)優(yōu)化方法,但文中并未考慮離散變量。文獻(xiàn)[27]設(shè)計(jì)了一種基于混合隨機(jī)變量聯(lián)合分布的隨機(jī)策略,適應(yīng)了離散-連續(xù)混合動(dòng)作空間。然而,上述DRL 算法只能訓(xùn)練單一智能體,與集中式優(yōu)化面臨著相同的問題。對(duì)此,多智能體深度強(qiáng)化 學(xué) 習(xí)(multi-agent deep reinforcement learning,MADRL)給出了解決方案[28]。文獻(xiàn)[29-30]將DRL擴(kuò)展為MADRL,通過訓(xùn)練多個(gè)智能體實(shí)現(xiàn)分布式控制。但是,文中采用“集中訓(xùn)練,分散執(zhí)行”框架,集中訓(xùn)練期間未能保護(hù)各分區(qū)信息的隱私性。雖然文獻(xiàn)[31-32]提出了基于通信神經(jīng)網(wǎng)絡(luò)的MADRL來克服集中訓(xùn)練的問題,但所提方法僅面向連續(xù)動(dòng)作。此外,上述文獻(xiàn)中均未考慮網(wǎng)絡(luò)拓?fù)渥兓瘞淼挠绊憽?/p>
綜上所述,當(dāng)前基于模型的傳統(tǒng)集中式和分布式優(yōu)化方法依賴于精確的網(wǎng)絡(luò)模型且對(duì)通信要求高,而基于MADRL 的方法又難以同時(shí)適應(yīng)分布式訓(xùn)練和離散-連續(xù)混合動(dòng)作空間,并且缺乏對(duì)拓?fù)渥兓奶幚?。因此,為了解決上述問題,本文提出一種基于分布式MADRL 的微網(wǎng)群有功無功協(xié)調(diào)優(yōu)化調(diào)度方法,具有以下優(yōu)點(diǎn)。
1)在訓(xùn)練學(xué)習(xí)階段,各智能體僅需本地觀察量和其余智能體傳遞的少量信息,而無須像基于“集中訓(xùn)練”框架的MADRL 一樣收集全局信息,減少了通信壓力,保證了各子微網(wǎng)信息的隱私性。
2)采用的算法可以訓(xùn)練具有離散-連續(xù)混合動(dòng)作空間的智能體,智能體在線執(zhí)行階段能夠以毫秒級(jí)實(shí)時(shí)性給出近似集中式優(yōu)化水平的調(diào)度策略。
3)考慮到一組智能體難以匹配多種網(wǎng)絡(luò)拓?fù)湎碌恼{(diào)度任務(wù),提出一種遷移強(qiáng)化學(xué)習(xí)方法,通過改進(jìn)Critic 和Actor 網(wǎng)絡(luò)函數(shù),實(shí)現(xiàn)利用已有策略引導(dǎo)新智能體加速訓(xùn)練。
4)本文方法對(duì)通信要求低,且對(duì)通信故障具有較好的魯棒性。在訓(xùn)練階段,智能體間有限時(shí)間的通信中斷并不會(huì)影響訓(xùn)練效果,而在執(zhí)行階段智能體間則無須通信。
本文的結(jié)構(gòu)如下:首先,以網(wǎng)損最低為目標(biāo),構(gòu)建微網(wǎng)群有功無功協(xié)調(diào)優(yōu)化調(diào)度模型;然后,將該模型描述為馬爾可夫博弈(Markov game)問題,給出各智能體的具體觀察空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù);進(jìn)而,介紹用于訓(xùn)練多智能體組的分布式多智能體軟演員-評(píng)論家(distributed multi-agent soft actorcritic,DMASAC)算法,以及遷移強(qiáng)化學(xué)習(xí)方法;最后,通過數(shù)值算例驗(yàn)證本文所提方法相較于其他算法的有效性和優(yōu)越性。
本文考慮通過合理控制光伏逆變器、靜止無功補(bǔ)償器(static var compensator,SVC)、分布式儲(chǔ)能系統(tǒng)(distributed energy storage system,DESS)、有載調(diào)壓變壓器(on-load tap-changer,OLTC)、投切電容器組(capacitor bank,CB)等設(shè)備,使得調(diào)度周期內(nèi)的網(wǎng)損最小。構(gòu)造目標(biāo)函數(shù)如下[12]:
式中:n為子微網(wǎng)的個(gè)數(shù);T為一天的總調(diào)度時(shí)段數(shù);Rij為 支 路ij的 線 路 電 阻;iij為 支 路ij電 流 的 平 方;εi為子微網(wǎng)i的支路集合。
1)潮流約束為:
2)光伏出力約束。為提高經(jīng)濟(jì)性,規(guī)定光伏系統(tǒng)以最大功率發(fā)電,僅無功功率可調(diào)[33],即
4)支路傳輸功率約束。支路上傳輸?shù)挠泄β始s束為:
式 中:Pij,t為 支 路ij在t時(shí) 刻 傳 輸 的 有 功 功 率;Pˉij為支路ij傳輸?shù)挠泄β首畲笙拗担沪艦橹芳稀?/p>
5)電壓幅值約束。各個(gè)節(jié)點(diǎn)的電壓幅值約束為:
MADRL 方法是令智能體與環(huán)境進(jìn)行多輪交互,通過“試錯(cuò)”學(xué)習(xí)到最優(yōu)策略。每輪交互均從環(huán)境初始狀態(tài)開始,各智能體會(huì)先觀察局部環(huán)境狀態(tài),再根據(jù)自身策略由觀察量選擇動(dòng)作,并使環(huán)境進(jìn)入下一狀態(tài),然后獲得環(huán)境給予的獎(jiǎng)勵(lì),從而對(duì)自身策略進(jìn)行優(yōu)化。重復(fù)上述過程,直到環(huán)境狀態(tài)達(dá)到終止?fàn)顟B(tài)便完成一輪訓(xùn)練。通過在交互過程中對(duì)自身策略的逐步優(yōu)化,智能體獲得的累積獎(jiǎng)勵(lì)會(huì)逐漸增加直至趨于穩(wěn)定。
上述交互過程常用馬爾可夫博弈定量描述,其包括6 個(gè)要素,采用元組S,Oi,Ai,P,R,γ表示。其中,S代表公共環(huán)境的所有狀態(tài)集,t時(shí)刻的狀態(tài)為st∈S;Oi為智能體i的局部觀察集,t時(shí)刻智能體i的本地觀察為oi,t∈Oi,n個(gè)智能體的觀察聯(lián)合在一起組成了聯(lián)合觀察O=O1O2…On;Ai為智能體i的動(dòng)作集,t時(shí)刻智能體i的本地動(dòng)作為ai,t∈Ai,n個(gè)智能體的動(dòng)作聯(lián)合組成了聯(lián)合動(dòng)作A=A1A2…An;P為狀態(tài)轉(zhuǎn)移概率,表示在狀態(tài)st下執(zhí)行聯(lián)合動(dòng)作at后使環(huán)境進(jìn)入下一狀態(tài)st+1的概率;R為獎(jiǎng)勵(lì)函數(shù),表示在狀態(tài)st下智能體組執(zhí)行聯(lián)合動(dòng)作at后,環(huán)境給 予 的 反 饋 獎(jiǎng) 勵(lì),滿 足stat→rt,rt∈R;γ為 折 扣因子。
利用MADRL 求解具體問題的關(guān)鍵在于對(duì)上述馬爾可夫博弈進(jìn)行設(shè)計(jì)。在微網(wǎng)群有功無功協(xié)調(diào)優(yōu)化調(diào)度背景下,給出各智能體的觀察、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)的具體設(shè)置,如下所述。
1)智能體觀察空間
智能體的觀察空間是智能體對(duì)本地環(huán)境的感知信息。這里,設(shè)定智能體i的局部觀察量為每個(gè)時(shí)間步t本地各節(jié)點(diǎn)負(fù)荷功率、可再生能源發(fā)電功率、儲(chǔ)能的電量、OLTC 和CB 的擋位以及時(shí)刻t。同時(shí),為了考慮離散設(shè)備的動(dòng)作次數(shù)約束,將OLTC和CB 已動(dòng)作的次數(shù)也加入觀察空間,如式(17)所示。
2)智能體動(dòng)作空間
智能體的動(dòng)作空間是本地可控設(shè)備的調(diào)節(jié)量。由于本地既有離散調(diào)節(jié)設(shè)備又有連續(xù)調(diào)節(jié)設(shè)備,故這里智能體的動(dòng)作空間包括離散動(dòng)作空間和連續(xù)動(dòng)作空間,即
3)智能體獎(jiǎng)勵(lì)函數(shù)
需要注意的是,由于不存在協(xié)調(diào)中心,策略優(yōu)化時(shí)無法直接獲取系統(tǒng)的總網(wǎng)損以及總越限懲罰。觀察式(21)可以分解為各子微網(wǎng)的本地網(wǎng)損和越限懲罰再累加,因此,可以通過智能體間的通信傳遞得到。由于并不涉及各子微網(wǎng)本地源荷出力、設(shè)備調(diào)度動(dòng)作、網(wǎng)絡(luò)參數(shù)以及運(yùn)行成本等隱私信息,故并未侵犯隱私。
離散設(shè)備的動(dòng)作次數(shù)有限,在動(dòng)作次數(shù)越限之后強(qiáng)行加入一個(gè)懲罰容易導(dǎo)致訓(xùn)練結(jié)果發(fā)散。考慮到離散智能體的動(dòng)作集有限,這里采用Mask 掩碼約束離散智能體的動(dòng)作,具體方法見附錄A。
本節(jié)介紹用于求解所提馬爾可夫博弈模型的MADRL 算法。已知文獻(xiàn)[34]采用經(jīng)典的“集中訓(xùn)練,分散執(zhí)行”框架,將軟演員-評(píng)論家(soft actorcritic,SAC)算法擴(kuò)展為多智能體軟演員-評(píng)論家(multi-agent soft actor-critic,MASAC)算法,但在訓(xùn)練過程中各子微網(wǎng)的信息隱私性得不到保障。本文以MASAC 算法為基礎(chǔ),進(jìn)行相應(yīng)調(diào)整使其可以適應(yīng)分布式訓(xùn)練以及離散-連續(xù)混合動(dòng)作空間。
MASAC 算法僅適用于連續(xù)動(dòng)作空間,為使其可以適應(yīng)離散-連續(xù)混合的動(dòng)作空間,需要對(duì)其進(jìn)行改進(jìn)。參考文獻(xiàn)[35]對(duì)SAC 的更改,這里在每個(gè)智能體的Critic 網(wǎng)絡(luò)中補(bǔ)充一個(gè)輸出層,維數(shù)為hdim×Nˉ,其中hdim為隱藏層神經(jīng)元的個(gè)數(shù),Nˉ為本地離散設(shè)備的最大動(dòng)作擋位,用于輸出每個(gè)離散擋位對(duì)應(yīng)的Q值。相應(yīng)地,Actor 網(wǎng)絡(luò)也補(bǔ)充一個(gè)輸出層,維數(shù)同樣為hdim×Nˉ,輸出經(jīng)Softmax 函數(shù)后,得到每個(gè)離散擋位對(duì)應(yīng)的概率。修改后的Critic、Actor、Estimate 網(wǎng)絡(luò)結(jié)構(gòu)分別如附錄B 圖B2、圖B3、圖B4所示。
通過上述改進(jìn)便得到了DMASAC 算法。算法的訓(xùn)練目標(biāo)為尋找到智能體i的最優(yōu)策略π*i,如式(26)所示。
式中:E{·}表示求期望函數(shù);(st,at)~ρπ表示由策略π誘導(dǎo)的狀態(tài)動(dòng)作軌跡分布;H(πi(·|oi,t))為智能體i在 觀 察 量oi,t下 按 照 策 略πi采 取 動(dòng) 作 的 熵;α為 溫 度系數(shù),用于調(diào)整動(dòng)作熵相對(duì)于獎(jiǎng)勵(lì)的重要性。
上述尋優(yōu)過程在智能體與環(huán)境交互的過程中進(jìn)行,可簡單描述為策略迭代更新。從一個(gè)隨機(jī)策略π0開始,Actor 網(wǎng)絡(luò)通過策略選擇動(dòng)作,而Critic 網(wǎng)絡(luò)評(píng)估Actor 所選擇動(dòng)作的價(jià)值,并指導(dǎo)Actor 按照評(píng)估值最大更新策略參數(shù),得到新策略π1,然后重復(fù)前述步驟,使得策略逐步提升。上述過程主要有兩個(gè)關(guān)鍵步驟:策略評(píng)估(policy evaluation)和策略改進(jìn)(policy improvement),分別對(duì)應(yīng)Critic 和Actor網(wǎng)絡(luò)的更新,具體流程見附錄B。
多拓?fù)湎碌恼{(diào)度控制需要為每種網(wǎng)絡(luò)拓?fù)溆?xùn)練一組對(duì)應(yīng)的智能體。為提高訓(xùn)練效率,可以在上述DMASAC 的基礎(chǔ)上引入遷移學(xué)習(xí)機(jī)制。
首先,將已訓(xùn)練好的智能體的Critic 網(wǎng)絡(luò)參數(shù)遷移至新智能體,并將新智能體的動(dòng)作價(jià)值函數(shù)修改為如式(27)所示的形式,以保證新智能體的Critic網(wǎng)絡(luò)在初期能較為準(zhǔn)確地評(píng)估動(dòng)作的好壞。然后,借鑒文獻(xiàn)[36]的思路,令已訓(xùn)練好的智能體的Actor網(wǎng)絡(luò)作為教師模型,并在新智能體的Actor 網(wǎng)絡(luò)的損失函數(shù)中補(bǔ)充一項(xiàng)與教師模型的“差距”,如式(28)所示。期望通過縮小“差距”,實(shí)現(xiàn)利用教師模型指導(dǎo)新智能體訓(xùn)練。不同于文獻(xiàn)[33],這里將“差距”描述為在同一狀態(tài)下分別按教師策略和新智能體當(dāng)前策略采樣動(dòng)作,進(jìn)而得到的兩動(dòng)作價(jià)值之差,不僅更好地體現(xiàn)了利用教師模型引導(dǎo)新智能體向更高的動(dòng)作價(jià)值方向?qū)W習(xí),并且連續(xù)、離散動(dòng)作空間均適用,很容易推廣到其他基于Actor-Critic框架的算法。
為驗(yàn)證基于DMASAC 的微網(wǎng)群分布式有功無功協(xié)調(diào)優(yōu)化調(diào)度方法的有效性,以改進(jìn)IEEE 33 節(jié)點(diǎn)系統(tǒng)為例進(jìn)行仿真研究。系統(tǒng)拓?fù)淙绺戒汣 圖C1 所示,共分為3 個(gè)子微網(wǎng),其中,在節(jié)點(diǎn)6、14、18、22、25、33 處接有光伏,裝機(jī)容量為800 kW,逆變器視在功率為裝機(jī)容量的1.05 倍;節(jié)點(diǎn)18 處接有儲(chǔ)能裝置DESS18,荷電狀態(tài)(SOC)范圍為0.1~0.9,充放電效率均為0.9,容量為2 MW·h;節(jié)點(diǎn)23、29 處接有SVC,無功調(diào)節(jié)范圍為-500~500 kvar;節(jié)點(diǎn)8、27 處接有CB,共4 組,每組0.2 Mvar,一天內(nèi)擋位最大調(diào)節(jié)次數(shù)為6;節(jié)點(diǎn)0、1 之間接有OLTC,一天內(nèi)擋位最大調(diào)節(jié)次數(shù)也為6。調(diào)度周期為一天24 h,以1 h 為一個(gè)調(diào)度時(shí)段。
Critic、Actor、Estimate 網(wǎng)絡(luò)均含有2 個(gè)隱含層,各層的神經(jīng)元數(shù)量均為256。所有隱含層均采用ReLU 激 活 函 數(shù)。Critic、Actor、Estimate 網(wǎng) 絡(luò) 的 學(xué)習(xí)率σ=0.001。折扣因子γ=0.99,溫度系數(shù)α=0.1,延遲參數(shù)η=0.001。文中所有MADRL 算法均由Python 實(shí)現(xiàn),利用了深度學(xué)習(xí)框架PyTorch。
3.2.1 收斂性分析
為驗(yàn)證本文方法的收斂性,將負(fù)荷和光伏出力的歷史數(shù)據(jù)作為訓(xùn)練樣本,分別采用本文的DMASAC 算法和“集中學(xué)習(xí),分散執(zhí)行”框架的MASAC 算法訓(xùn)練智能體組,統(tǒng)計(jì)每個(gè)調(diào)度周期智能體組獲得的累積獎(jiǎng)勵(lì),生成獎(jiǎng)勵(lì)曲線如圖1(a)所示,可以觀察到兩者在大概100 次訓(xùn)練后均收斂。如圖1(b)所示,在約70 次訓(xùn)練后,智能體受到的約束越限懲罰趨于0,說明智能體動(dòng)作被限制在合理的區(qū)間內(nèi)。但是,在收斂性相當(dāng)?shù)那闆r下,采用DMASAC 訓(xùn)練并不需要收集全局信息,保障了各子微網(wǎng)信息的隱私性。
圖1 DMASAC 與集中學(xué)習(xí)的訓(xùn)練結(jié)果對(duì)比Fig.1 Comparison of training results between DMASAC and centralized learning
為驗(yàn)證本文方法在處理離散-連續(xù)混合動(dòng)作空間上的有效性,采用文獻(xiàn)[37]中的雙層強(qiáng)化學(xué)習(xí)算法作為對(duì)比算法,并比較其訓(xùn)練效果。如圖2 所示,可以看到本文方法的訓(xùn)練效果更好,不僅智能體獲得的累積獎(jiǎng)勵(lì)更大,而且智能體的約束越限懲罰也更小。這是由于雙層強(qiáng)化學(xué)習(xí)算法中,連續(xù)智能體以離散智能體的調(diào)度動(dòng)作為部分觀察,而離散智能體獲得的獎(jiǎng)勵(lì)大小又取決于連續(xù)智能體的動(dòng)作優(yōu)劣,導(dǎo)致兩智能體的訓(xùn)練效果彼此相互影響。這種相互影響的存在,使得對(duì)于兩智能體而言,環(huán)境都是不穩(wěn)定的,訓(xùn)練更加困難。
圖2 DMASAC 與雙層強(qiáng)化學(xué)習(xí)算法的訓(xùn)練結(jié)果對(duì)比Fig.2 Comparison of training results between DMASAC and bi-level reinforcement learning algorithms
3.2.2 訓(xùn)練所需通信數(shù)據(jù)量分析
對(duì)于MADRL,為克服多個(gè)智能體的存在導(dǎo)致的非馬爾可夫性,在訓(xùn)練過程中智能體均需要來自其他智能體的信息。不同MADRL 算法所需的通信信息不同。
在改進(jìn)的IEEE 33 節(jié)點(diǎn)3 微網(wǎng)算例下,訓(xùn)練過程中各算法需要的通信數(shù)據(jù)如表1 所示??梢钥闯鲈诿總€(gè)更新步,采用DMASAC 算法時(shí)智能體間傳遞的數(shù)據(jù)量明顯少于采用集中訓(xùn)練框架的MASAC算法。在MASAC 中,每個(gè)智能體的Critic 和Actor網(wǎng)絡(luò)在中央?yún)f(xié)調(diào)器中集中訓(xùn)練。要完成一個(gè)更新步,需要中央?yún)f(xié)調(diào)器向每個(gè)智能體i廣播nstatei×nbatchi維從經(jīng)驗(yàn)池采集的狀態(tài)數(shù)據(jù),其中nstatei為觀察向量維數(shù),nbatchi為采樣個(gè)數(shù)。然后,從每個(gè)智能體獲得nactioni×nbatchi維動(dòng)作數(shù)據(jù),其中nactioni為動(dòng)作向量維數(shù)。對(duì)于集中式的雙層強(qiáng)化學(xué)習(xí)算法,每個(gè)智能體的觀察向量和動(dòng)作向量均是全局信息,但采用DMASAC 算法時(shí),各智能體擁有自己獨(dú)立的經(jīng)驗(yàn)池,僅需智能體間傳遞邊界信息和獎(jiǎng)懲信息,不僅通信數(shù)據(jù)量少,更保障了智能體的數(shù)據(jù)隱私性。
表1 各算法下的通信需求Table 1 Communication demand of each algorithm
3.2.3 訓(xùn)練對(duì)通信故障的魯棒性分析
由于本文方法在訓(xùn)練階段智能體間需要相互通信,考慮到通信系統(tǒng)非理想,難免出現(xiàn)通信中斷、數(shù)據(jù)丟包等問題,這里對(duì)比不同程度的通信中斷情況下智能體組的訓(xùn)練效果,如圖3 所示??梢钥闯?,有限時(shí)間的通信中斷并不會(huì)對(duì)方法的收斂性造成很大的影響,這是因?yàn)樵谕ㄐ胖袛嗪螅苡绊懙闹悄荏w不更新參數(shù),保留當(dāng)前策略,而當(dāng)通信恢復(fù)后,智能體會(huì)繼續(xù)訓(xùn)練,只要訓(xùn)練次數(shù)充足便能夠收斂到與沒有通信中斷相當(dāng)?shù)慕Y(jié)果。數(shù)據(jù)丟包同理,通信中斷僅停止策略的更新優(yōu)化,并不影響當(dāng)前策略的執(zhí)行。綜上所述,本文方法對(duì)通信中斷以及數(shù)據(jù)丟包等問題具有較好的魯棒性。
圖3 不同通信中斷情況下的訓(xùn)練效果Fig.3 Training effect under different communication interruption conditions
選取某一天的源荷數(shù)據(jù)進(jìn)行測試,見附錄C 圖C2,利用訓(xùn)練好的智能體組進(jìn)行調(diào)度,調(diào)度結(jié)果如圖4 所示。
圖4 各設(shè)備調(diào)度結(jié)果Fig.4 Dispatching results of each equipment
由圖4(a)可以看出,從09:00 開始,隨著光伏出力的增加,儲(chǔ)能充電達(dá)到容量上限,以就地消納光伏、減少功率倒送;而在16:00 后,光伏出力不足以供應(yīng)本地負(fù)荷,儲(chǔ)能開始放電,直到21:00 達(dá)到容量下限并保持,以維持一個(gè)調(diào)度周期內(nèi)儲(chǔ)能的狀態(tài)不變。通過上述調(diào)度方式,一定程度上實(shí)現(xiàn)了削峰填谷,減少了光伏波動(dòng)性對(duì)系統(tǒng)帶來的干擾。對(duì)于無功補(bǔ)償裝置,光伏逆變器的出力如圖4(b)所示??梢?,大部分光伏逆變器發(fā)出無功功率,以支撐電壓并減小網(wǎng)損,僅節(jié)點(diǎn)6 和14 所接光伏逆變器在光伏出力較高時(shí)吸收無功功率,防止電壓越限。
此外,節(jié)點(diǎn)29 和23 所接SVC 也根據(jù)所在節(jié)點(diǎn)的電壓幅值,發(fā)出和吸收感性無功功率,進(jìn)而平抑電壓波動(dòng),如圖4(c)所示。
離散設(shè)備在調(diào)度周期內(nèi)的動(dòng)作次數(shù)不宜過多,從圖4(d)可以看出,OLTC 和CB 的動(dòng)作次數(shù)均未超過限值。在01:00—08:00 以及18:00—24:00,光伏出力為0,OLTC 將擋位調(diào)至最高以提高系統(tǒng)電壓等級(jí),降低網(wǎng)損;在09:00—17:00 擋位下調(diào),防止因光伏功率倒送引起電壓越限。而節(jié)點(diǎn)27 和8 所接CB 則調(diào)整擋位用于提升節(jié)點(diǎn)27 和8 的電壓。
為了直觀地體現(xiàn)出本文方法的優(yōu)化效果,比較了優(yōu)化調(diào)度前后系統(tǒng)各時(shí)刻的網(wǎng)損以及電壓幅值,分別如圖5、圖6 所示。從圖中可以看出,采用有功無功協(xié)調(diào)調(diào)度顯著降低了網(wǎng)損,并且改善了電壓分布,治理了電壓越限問題。
圖5 各時(shí)刻網(wǎng)損Fig.5 Network loss at each moment
圖6 優(yōu)化前后各節(jié)點(diǎn)電壓幅值Fig.6 Voltage amplitude of each node before and after optimization
為進(jìn)一步驗(yàn)證本文方法的優(yōu)越性,選用混合整數(shù)動(dòng)態(tài)優(yōu)化[38]和ADMM 作為傳統(tǒng)優(yōu)化方法的代表,選取3.2 節(jié)中的MASAC 和雙層強(qiáng)化學(xué)習(xí)算法作為數(shù)據(jù)驅(qū)動(dòng)方法的代表,與本文方法進(jìn)行對(duì)比分析。為了較為全面地評(píng)估各方法的優(yōu)劣,這里從多個(gè)方面對(duì)5 種方法進(jìn)行對(duì)比,如表2 所示。
表2 不同方法的性能對(duì)比Table 2 Performance comparison among different methods
雖然傳統(tǒng)優(yōu)化方法在降低網(wǎng)損方面似乎更優(yōu),但這是因?yàn)閭鹘y(tǒng)方法的調(diào)度結(jié)果是在假設(shè)日前負(fù)荷、可再生能源出力預(yù)測數(shù)據(jù)以及網(wǎng)絡(luò)模型參數(shù)均無誤差的情況下求得的,而實(shí)際應(yīng)用時(shí)無法達(dá)到上述理想條件。采用本文方法經(jīng)過19 min 的訓(xùn)練,智能體能以毫秒級(jí)實(shí)現(xiàn)在線決策,且無須重復(fù)計(jì)算。同時(shí),由于智能體基于歷史源荷數(shù)據(jù)進(jìn)行訓(xùn)練,其能夠自適應(yīng)學(xué)習(xí)到源荷的分布,從而適應(yīng)源荷的不確定性。此外,相較于傳統(tǒng)集中式優(yōu)化方法,本文方法保護(hù)了各子微網(wǎng)信息的隱私性,相較于ADMM,本文方法則展現(xiàn)出對(duì)通信故障的魯棒性:訓(xùn)練階段的通信中斷或數(shù)據(jù)丟包不會(huì)影響訓(xùn)練效果,執(zhí)行階段智能體間則無須通信,而相較于另外兩種數(shù)據(jù)驅(qū)動(dòng)方法,本文方法不僅在降低網(wǎng)損的效果上更優(yōu),并且能夠保護(hù)隱私。綜上所述,本文方法在整體處理效果上具有優(yōu)越性。
為驗(yàn)證遷移強(qiáng)化學(xué)習(xí)方法的有效性,仍以改進(jìn)的IEEE 33 節(jié)點(diǎn)系統(tǒng)為例來比較遷移學(xué)習(xí)和普通訓(xùn)練的訓(xùn)練效果。IEEE 33 節(jié)點(diǎn)系統(tǒng)共分為3 個(gè)子微網(wǎng)(拓?fù)?),如附錄C 圖C1 所示,拓?fù)?、3 是分別在拓?fù)? 的基礎(chǔ)上斷開支路9-10 并連通支路9-15、斷開支路7-8 并連通12-22 得到的,同時(shí)假設(shè)已在拓?fù)? 下訓(xùn)練好一組智能體,記為源智能體組。如圖7 所示,在拓?fù)?、3 情況下采用遷移強(qiáng)化學(xué)習(xí)方式,均更快地實(shí)現(xiàn)了收斂。這是因?yàn)樵谝朐粗悄荏w作為教師模型修改新智能體網(wǎng)絡(luò)損失函數(shù)后,在訓(xùn)練初期新智能體會(huì)向著源智能體的方向?qū)W習(xí),相當(dāng)于在源智能體的指導(dǎo)下探索環(huán)境,增強(qiáng)了前期探索的方向性,提高了學(xué)習(xí)效率。
圖7 遷移強(qiáng)化學(xué)習(xí)訓(xùn)練效果Fig.7 Training effect of transfer reinforcement learning
本文針對(duì)微網(wǎng)群的分布式有功無功協(xié)調(diào)優(yōu)化調(diào)度問題,提出了一種基于MADRL 的方法。首先,相較于傳統(tǒng)優(yōu)化方法,所提方法得益于數(shù)據(jù)驅(qū)動(dòng)的特性,訓(xùn)練時(shí)無需精確的微網(wǎng)群模型和源荷預(yù)測數(shù)據(jù),訓(xùn)練后智能體僅依據(jù)本地觀察量便能以毫秒級(jí)實(shí)時(shí)性給出調(diào)度動(dòng)作,而且方法對(duì)通信故障具有魯棒性;其次,與基于“集中訓(xùn)練”框架的MADRL 方法相比,所提方法在無全局信息的情況下也可達(dá)到與之等同的訓(xùn)練效果,在學(xué)習(xí)過程中保障了各子微網(wǎng)信息的隱私性。此外,還補(bǔ)充了一種遷移強(qiáng)化學(xué)習(xí)方法,用于系統(tǒng)拓?fù)渥儞Q后加速訓(xùn)練新智能體組,彌補(bǔ)了MADRL 模型泛化能力差的缺點(diǎn)。
然而,本文方法對(duì)于約束的處理僅是將其作為一種懲罰加入獎(jiǎng)勵(lì)函數(shù)中,雖然通過多輪訓(xùn)練使得懲罰降為零,但也影響了訓(xùn)練效率。因此,對(duì)約束的處理進(jìn)行改進(jìn),令智能體在允許的范圍內(nèi)高效探索環(huán)境是值得進(jìn)一步研究的方向。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。