孫國強(qiáng),殷巖巖,衛(wèi)志農(nóng),臧海祥,楚云飛
(河海大學(xué)能源與電氣學(xué)院,南京市 211100)
隨著分布式電源(distributed generation, DG)在配電層面的廣泛接入,配電系統(tǒng)正從無源網(wǎng)絡(luò)演變?yōu)橛性磁潆娋W(wǎng)絡(luò),即主動配電網(wǎng)(active distribution network, ADN)。同時,光伏發(fā)電(photovoltaic, PV)、風(fēng)電(wind turbines, WT)的隨機(jī)性和波動性增加了ADN的不確定性,導(dǎo)致電壓、潮流越限等問題變得更加嚴(yán)重[1-2]。
目前,為了實現(xiàn)ADN的協(xié)調(diào)優(yōu)化控制,國內(nèi)外學(xué)者已經(jīng)提出諸多基于模型的優(yōu)化方法。例如,文獻(xiàn)[3]構(gòu)建了ADN的混合整數(shù)非線性規(guī)劃模型和等效混合整數(shù)二次約束模型,用于配電網(wǎng)中的電壓管理。文獻(xiàn)[4]將非線性潮流約束進(jìn)行二階錐松弛,從而將配電網(wǎng)經(jīng)濟(jì)運(yùn)行優(yōu)化模型轉(zhuǎn)化為混合整數(shù)二階錐規(guī)劃問題,提高了求解精度。進(jìn)一步,考慮到DG不確定性因素對配電網(wǎng)運(yùn)行的影響,文獻(xiàn)[5]中構(gòu)建了基于隨機(jī)規(guī)劃的多階段調(diào)度模型,驗證了該模型能在隨機(jī)狀態(tài)下自適應(yīng)調(diào)整儲能裝置、換流站及需求響應(yīng)決策。然而,隨機(jī)規(guī)劃需獲取不確定變量的概率分布參數(shù)[6],并采用大量場景刻畫不確定信息,導(dǎo)致準(zhǔn)確性和求解效率偏低[7-8]。為了消除ADN優(yōu)化配置模型中DG相關(guān)的不確定性變量,文獻(xiàn)[9]構(gòu)建了魯棒優(yōu)化框架,并采用漸緊線切割算法和列和約束生成算法相結(jié)合的方法對轉(zhuǎn)化模型求解,縮小了凸松弛間隙,提高了模型求解效率。文獻(xiàn)[10]計及新能源的預(yù)測誤差,基于離散不確定性域改進(jìn)了現(xiàn)有魯棒優(yōu)化方法,從而獲得了更廣泛的“惡劣場景集”。上述魯棒優(yōu)化方法無需獲取不確定性量的概率分布,而是通過不確定性集來描述DG出力的不確定性,形式簡潔。但由于其在不確定性集的最惡劣實現(xiàn)情況下做出決策,因此可能導(dǎo)致優(yōu)化結(jié)果過于保守[11-13]。
基于模型的方法在ADN協(xié)調(diào)優(yōu)化控制方面取得了廣泛的成效。然而,此方法依賴于完整且明確的配電網(wǎng)物理模型,需要獲取詳細(xì)的網(wǎng)絡(luò)拓?fù)洹⒕€路參數(shù)、負(fù)荷功率等信息[14-15]。然而這些信息在現(xiàn)實獲得過程中經(jīng)常有所缺失、準(zhǔn)確性低。如果參數(shù)和物理模型不準(zhǔn)確,將會導(dǎo)致不經(jīng)濟(jì)甚至不切實際的調(diào)度決策[16]。此外,基于模型的方法計算復(fù)雜度高、存在維度災(zāi)等問題,這使得模型計算十分耗時,難以實現(xiàn)在ADN中進(jìn)行實時優(yōu)化控制[17]。
近年來,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)以其在線響應(yīng)快、無需對DG的隨機(jī)性分布建模的獨(dú)特優(yōu)勢[18-19],在電力系統(tǒng)領(lǐng)域獲得了廣泛關(guān)注。文獻(xiàn)[20]將能量儲存系統(tǒng)(energy storage systems, ESS)考慮到配電網(wǎng)的電壓控制中,并采用Q深度神經(jīng)網(wǎng)絡(luò)來逼近ESS的最佳動作價值。文獻(xiàn)[21]提出了一種基于深度Q網(wǎng)絡(luò)的有功安全校正策略,在消除線路過載和調(diào)節(jié)機(jī)組出力上具有良好的效果,但需要對連續(xù)動作空間離散化,可能會帶來維度災(zāi)難問題[22]。為了使DRL智能體學(xué)習(xí)連續(xù)狀態(tài)和動作空間之間的映射關(guān)系,文獻(xiàn)[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法應(yīng)用到綜合能源經(jīng)濟(jì)調(diào)度中。針對電壓控制問題,文獻(xiàn)[24]基于多智能體的DDPG算法協(xié)調(diào)優(yōu)化光伏逆變器的無功功率輸出,但未考慮無功-電壓控制設(shè)備,如可投切電容器組(switchable capacitor banks, SCB)、有載調(diào)壓變壓器(on-load tap-changers, OLTC)等。針對配電系統(tǒng)優(yōu)化控制問題,上述文獻(xiàn)側(cè)重于關(guān)注單一有功或無功資源控制,這在保證配電系統(tǒng)供電安全和降低運(yùn)行成本方面存在一定局限性。此外,傳統(tǒng)DDPG方法中的經(jīng)驗回放機(jī)制忽略了不同經(jīng)驗的重要程度,可能存在訓(xùn)練效率低、過度學(xué)習(xí)等問題[25]。另一方面,優(yōu)先經(jīng)驗回放(priority experience replay, PER)機(jī)制在機(jī)器人控制和游戲任務(wù)中的應(yīng)用取得了巨大成功,提高了學(xué)習(xí)效率和策略穩(wěn)定性[26]。
基于此,本文將PER機(jī)制結(jié)合到DDPG方法中,構(gòu)建了一種基于PER-DDPG的ADN在線調(diào)度框架。首先,以ADN日運(yùn)行成本最小為目標(biāo),在計及節(jié)點(diǎn)電壓偏移和潮流越限約束的基礎(chǔ)上,協(xié)調(diào)SCB、OLTC、微型燃?xì)廨啓C(jī)(micro-gas turbines, MT)和ESS等有功/無功資源,構(gòu)建了ADN有功-無功協(xié)調(diào)調(diào)度模型。其次,將此模型轉(zhuǎn)化為馬爾科夫決策過程(Markov decision process, MDP),并基于PER-DDPG框架進(jìn)行離線訓(xùn)練及在線測試。仿真結(jié)果表明,相較于傳統(tǒng)的DDPG方法,本文所提出的基于優(yōu)先經(jīng)驗重放的DPPG方法可以實現(xiàn)對連續(xù)動作空間的精確控制,并通過高效的經(jīng)驗學(xué)習(xí)以獲得安全、經(jīng)濟(jì)的動作策略。本文研究有望為基于深度確定性策略梯度的有功-無功協(xié)調(diào)優(yōu)化調(diào)度提供技術(shù)參考。
本節(jié)首先構(gòu)建了基于ADN的有功-無功協(xié)調(diào)調(diào)度數(shù)學(xué)模型。在計及潮流約束和配電網(wǎng)安全約束的基礎(chǔ)上,該模型旨在以ADN日運(yùn)行成本最小為目標(biāo),在不同時段協(xié)調(diào)各有功/無功資源的出力。然后,本節(jié)將此數(shù)學(xué)模型轉(zhuǎn)化成基于MDP的調(diào)度模型,以充分利用DRL自適應(yīng)源荷不確定性的優(yōu)勢進(jìn)行求解。
1.1.1 目標(biāo)函數(shù)
本文的目標(biāo)函數(shù)包括變電站的能源交易成本和MT的燃料成本:
(1)
1.1.2 約束條件
1.1.2.1 潮流約束
(2)
(3)
(4)
1.1.2.2 配電網(wǎng)安全約束
(5)
1.1.2.3 可控設(shè)備運(yùn)行約束
1)SCB運(yùn)行約束:
(6)
2)OLTC運(yùn)行約束:
(7)
3)MT運(yùn)行約束:
(8)
4)ESS運(yùn)行約束:
(9)
本節(jié)將ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題建模為MDP。MDP通常由學(xué)習(xí)環(huán)境E、狀態(tài)空間S、動作空間A和獎勵空間R組成。在每個時段t,DRL智能體通過觀察ADN當(dāng)前的狀態(tài)st∈S,執(zhí)行動作at∈A,并從環(huán)境E中獲得獎勵值rt∈R,然后ADN的當(dāng)前狀態(tài)st將根據(jù)狀態(tài)轉(zhuǎn)移概率函數(shù)p(st+1|st,at)轉(zhuǎn)換到下一狀態(tài)st+1。直至t達(dá)到總調(diào)度時段T時,此過程終止。t時段MDP的詳細(xì)制定描述如下。
1.2.1 狀態(tài)空間
(10)
狀態(tài)空間包括當(dāng)前時段、ESS的荷電狀態(tài)、過去T個時段內(nèi)的電價、過去T個時段內(nèi)PV、WT的有功功率和過去T個時段內(nèi)負(fù)荷的有功無功功率;狀態(tài)空間中的各個變量都是連續(xù)性變量;為充分利用新能源,本文假設(shè)PV和WT是不可調(diào)度資源,并以固定單位功率因數(shù)運(yùn)行[27],故在狀態(tài)空間中不考慮新能源無功功率。
1.2.2 動作空間
(11)
1.2.3 獎勵函數(shù)
1.2.3.1 日運(yùn)營成本項
(12)
1.2.3.2 約束違反項
鑒于ADN安全運(yùn)行的重要性,獎勵函數(shù)中還應(yīng)當(dāng)考慮電壓違反和潮流越限的風(fēng)險。因此,本文采用懲罰機(jī)制,對電壓違反和潮流越限進(jìn)行懲罰。
1)電壓違反懲罰項:
(13)
2)潮流越限懲罰項:
(14)
綜上,獎勵函數(shù)定義如下:
(15)
式(15)表明,當(dāng)潮流計算收斂時,獎勵函數(shù)的主要目標(biāo)是使ADN的日運(yùn)營成本最小,同時避免電壓違反。當(dāng)潮流計算發(fā)散時,智能體將會受到一個較大的懲罰值。
1.2.4 狀態(tài)動作價值函數(shù)
為了在不同狀態(tài)下獲得最優(yōu)動作,需要使用狀態(tài)-動作價值函數(shù)Qπ(st,at;θ)來描述在當(dāng)前狀態(tài)st下執(zhí)行動作at,并遵循策略π后所能帶來的預(yù)期獎勵,該策略由一組網(wǎng)絡(luò)參數(shù)θ來控制。狀態(tài)-動作價值函數(shù)如下式所示:
(16)
式中:π為從綜合狀態(tài)映射到調(diào)度計劃的策略,智能體在狀態(tài)st選擇何種動作at由策略π(st)=at決定;γ為折扣因子,用來平衡未來獎勵和即時獎勵,γ∈[0,1];E(·)為數(shù)學(xué)期望。
在ADN調(diào)度問題中,DRL智能體的目標(biāo)是在與環(huán)境的不斷交互過程中找到最優(yōu)策略π*,使ADN日運(yùn)行成本最低。這個最優(yōu)策略可以通過最大化狀態(tài)-動作價值函數(shù)來實現(xiàn):
(17)
式中:Qπ*(st,at;θ)為最優(yōu)狀態(tài)-動作價值函數(shù)。
為有效解決ADN有功-無功協(xié)調(diào)優(yōu)化中存在的連續(xù)動作空間問題,本文構(gòu)建了基于PER-DDPG算法的ADN在線調(diào)度框架,如圖1所示,該框架中的DDPG智能體由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)組成,每個網(wǎng)絡(luò)都有自己的目標(biāo)網(wǎng)絡(luò)以提高算法的穩(wěn)定性。為了提高智能體的采樣效率,該框架引入了優(yōu)先級經(jīng)驗緩沖區(qū)B。在訓(xùn)練過程中,智能體與ADN環(huán)境交互并收集若干組經(jīng)驗單元et={st,at,rt,st+1},然后根據(jù)優(yōu)先級pt對經(jīng)驗單元進(jìn)行重要性采樣。pt值越大,相應(yīng)經(jīng)驗單元的重要性越高,智能體從中學(xué)到經(jīng)驗越多。
圖1 PER-DDPG算法學(xué)習(xí)框架
本文在文獻(xiàn)[25]的基礎(chǔ)上,對pt計算公式進(jìn)行改進(jìn):
pt=|δt|+ε
(18)
式中:δt為時間差分(temporal difference, TD)誤差;
ε為較小正常數(shù),用以確保每個經(jīng)驗單元即使TD-誤差為零時仍有一定概率被抽樣。
在常規(guī)方法中,智能體往往更傾向于重放pt值較高的經(jīng)驗單元,這可能會改變狀態(tài)訪問頻率,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程出現(xiàn)振蕩或發(fā)散。針對上述問題,本文使用了重要性采樣權(quán)重來計算每個經(jīng)驗單元對于權(quán)重變化的貢獻(xiàn):
(19)
式中:wi為第i個經(jīng)驗單元所占權(quán)重;pi為第i個經(jīng)驗單元的優(yōu)先級;Bsize為經(jīng)驗緩沖區(qū)的大小;κ∈[0,1]。
接下來詳細(xì)介紹Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)在離線訓(xùn)練階段的更新過程:
1)Critic網(wǎng)絡(luò)。
在訓(xùn)練過程中,Critic網(wǎng)絡(luò)使用具有參數(shù)θQ的深度神經(jīng)網(wǎng)絡(luò)來估計狀態(tài)-動作價值函數(shù)。智能體根據(jù)經(jīng)驗優(yōu)先級對一小批經(jīng)驗單元進(jìn)行抽樣,在每次抽樣中,Critic網(wǎng)絡(luò)試圖最小化以下?lián)p失函數(shù):
(20)
(21)
(22)
2)Actor網(wǎng)絡(luò)。
在訓(xùn)練過程中,Actor網(wǎng)絡(luò)用于學(xué)習(xí)動作策略和執(zhí)行動作。Actor網(wǎng)絡(luò)中的參數(shù)化函數(shù)μ(st;θμ)可以確定性地將狀態(tài)映射到特定動作來指定當(dāng)前策略。動作策略定義的目標(biāo)如下:
J(θμ)=Est~B[Qπ(st,μ(st;θμ);θQ]
(23)
(24)
其次,基于動作參數(shù)θμ更新:
(25)
式中:ημ為Actor網(wǎng)絡(luò)的學(xué)習(xí)率。
本文所提PER-DDPG方法的離線訓(xùn)練過程如圖2所示。在每一輪訓(xùn)練中:首先,DDPG智能體的Actor網(wǎng)絡(luò)根據(jù)參數(shù)化函數(shù)μ(st;θμ)+Δμt制定SCB、OLTC、MT和ESS有功/無功資源的調(diào)度策略,Δμt為隨機(jī)噪聲。然后,智能體在當(dāng)前狀態(tài)st下執(zhí)行動作at,經(jīng)潮流計算后獲得獎勵rt,并觀察到新的狀態(tài)st+1,歷史樣本通過上述交互被收集存儲在經(jīng)驗緩沖區(qū)中的經(jīng)驗單元et。最后,智能體根據(jù)優(yōu)先經(jīng)驗回放機(jī)制對經(jīng)驗單元進(jìn)行小批量采樣,并更新Actor和Critic估計網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)。當(dāng)t達(dá)到T時,一個訓(xùn)練集結(jié)束。重復(fù)以上步驟,直到訓(xùn)練集數(shù)達(dá)到最大訓(xùn)練集umax,離線訓(xùn)練過程結(jié)束,保存此時最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型。
圖2 PER-DDPG算法流程
為了驗證所提PER-DDPG方法在ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度的有效性,本文采用如圖3所示修改的IEEE-34節(jié)點(diǎn)配電算例[27]進(jìn)行仿真驗證。該配電系統(tǒng)接入了2個MT、1個ESS、3組PV和3臺WT,各設(shè)備參數(shù)詳見表1。在節(jié)點(diǎn)7、8之間以及節(jié)點(diǎn)19、20之間分別接入2個OLTC,均具有33檔調(diào)節(jié)位置,調(diào)節(jié)范圍在-10%~10%之間。2個SCB分別安裝在節(jié)點(diǎn)24和節(jié)點(diǎn)34,每個SCB共有4組運(yùn)行單元,每組運(yùn)行單元的無功功率為120 kvar。變電站的容量為2 500 kVA。配電網(wǎng)節(jié)點(diǎn)電壓的限制范圍為0.95~1.05 pu。為了獲取配電網(wǎng)電價、各節(jié)點(diǎn)負(fù)荷需求和新能源有功及無功功率數(shù)據(jù),本文基于加州ISO開放存取同步信息系統(tǒng)時間序列數(shù)據(jù)[28]進(jìn)行分析,并以1 h為時間段提取2018—2020三年的數(shù)據(jù)信息。其中,將2018—2019年的數(shù)據(jù)作為訓(xùn)練集,2020年的數(shù)據(jù)作為測試集,用以驗證所提方法在ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題上的有效性??傉{(diào)度時段T為24 h。
表1 各設(shè)備參數(shù)
圖3 修改后的IEEE-34節(jié)點(diǎn)標(biāo)準(zhǔn)配電系統(tǒng)
本文采用Python中Tensorflow 2.2.0實現(xiàn)所提算法,并基于OpenAI Gym標(biāo)準(zhǔn)搭建了ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度學(xué)習(xí)環(huán)境。同時,為了進(jìn)行潮流計算判斷收斂性,本文依賴電力系統(tǒng)分析包Pandapower。所有的算例仿真都在Intel(R) Core(TM) i7-11800H處理器2.30 GHz的工作站上進(jìn)行。
本文所提PER-DDPG方法的詳細(xì)參數(shù)設(shè)置如表2所示。在本文所建立的MDP中,動作空間同時存在連續(xù)和離散動作。然而PER-DDPG方法只能處理連續(xù)動作空間。因此在智能體離線訓(xùn)練之前,本文對離散動作進(jìn)行了連續(xù)化處理,將離散-連續(xù)混合動作空間轉(zhuǎn)化成連續(xù)動作空間。在使用PER-DDPG方法進(jìn)行訓(xùn)練后,本文再將OLTC和SCB的連續(xù)動作值舍入到最近的整數(shù)值。
表2 所提方法參數(shù)設(shè)置
由于PER機(jī)制可以從本文提出的方法中單獨(dú)分離,因此本文將所提PER-DDPG方法與DDPG方法進(jìn)行比較。表3展示了不同方法在離線訓(xùn)練和在線測試(迭代一次)上的平均耗時對比。本文對每種方法使用不同的隨機(jī)種子運(yùn)行5次,每次離線訓(xùn)練的最大迭代次數(shù)為106。結(jié)果表明,兩種DRL方法均能實現(xiàn)秒級在線求解,實現(xiàn)ADN有功-無功協(xié)調(diào)優(yōu)化在線調(diào)度策略。與DDPG方法相比,本文所提PER-DDPG方法的離線訓(xùn)練時間和在線測試時間更短,計算資源損耗更小。
本文進(jìn)一步比較了所提PER-DDPG方法和DDPG方法在不同隨機(jī)種子情況下的訓(xùn)練過程性能,如圖4所示。實線代表各DRL智能體的平均獎勵值,陰影部分代表獎勵值的波動范圍。通過圖4可以看出,在智能體與ADN環(huán)境的交互學(xué)習(xí)過程中,PER-DDPG方法和DDPG方法的獎勵值逐步增加,并最終均可收斂到一個穩(wěn)定值,表明兩種方法均可通過學(xué)習(xí)獲得使ADN日運(yùn)行成本最小的經(jīng)濟(jì)調(diào)度策略。其中,PER-DDPG方法迭代到約2×105次時出現(xiàn)了一定振蕩,這屬于訓(xùn)練早期智能體探索ADN環(huán)境的正常行為,并不影響其總體收斂性。值得注意的是,PER-DDPG方法迭代到約5.7×104次時獲得獎勵值-19 500,而DDPG方法需要迭代到約17.1×104次時才能得到相同的獎勵值。因此,本文所提PER-DDPG方法的智能體能夠快速學(xué)習(xí)到成功樣本,積累得到一定的成功經(jīng)驗,從而更迅速學(xué)到ADN有功-無功協(xié)調(diào)調(diào)度策略。此外,基于PER-DDPG方法的最終收斂穩(wěn)定獎勵值為-9 500,而DDPG方法的最終穩(wěn)定獎勵值相對較低,為-10 500。因此,本文所提出的PER-DDPG方法具有更快的收斂速度,未來折扣獎勵回報相較DDPG方法提升了9.52%。
圖4 不同算法下的訓(xùn)練過程
在實驗交互過程達(dá)到所設(shè)置的最大迭代次數(shù)后,離線訓(xùn)練過程完成,本文保存此時訓(xùn)練完成的最優(yōu)神經(jīng)網(wǎng)絡(luò)模型,并在測試集上進(jìn)行測試。如圖5所示,測試集中PER-DDPG方法和DDPG方法的累積運(yùn)行成本分別為243.07萬元和396.27萬元。結(jié)果表明,PER-DDPG方法在一年內(nèi)能夠降低38.66%的ADN運(yùn)行成本,相比之下,DDPG方法效果較為有限。
圖5 不同算法下測試過程的累計成本
本文所提PER-DDPG智能體在測試集中某天的調(diào)度決策結(jié)果如圖6所示。
圖6(a)展示了當(dāng)天WT和PV的有功功率輸出變化。圖6(b)展示了負(fù)荷有功無功功率需求以及電價變化情況。由圖6(c)可知,智能體在低電價時段調(diào)度ESS進(jìn)行充電以儲存能量;而在高電價時段,智能體調(diào)度ESS進(jìn)行放電以滿足負(fù)荷運(yùn)行需求,從而降低配變功率峰谷差。由圖6(d)—(e)可知,兩個MT的功率因數(shù)被限制在0.8以上,智能體根據(jù)當(dāng)前電價和ADN負(fù)荷需求動態(tài)地調(diào)整MT的發(fā)電量。當(dāng)負(fù)荷需求減少或電價下降時,智能體調(diào)度MT減小發(fā)電量以避免過剩的電力浪費(fèi);而當(dāng)負(fù)荷需求增多或電價上漲時,智能體調(diào)度MT增大發(fā)電量以緩解ADN的運(yùn)行壓力。在08:00—16:00之間,風(fēng)電和光伏的總有功功率較大,ESS進(jìn)行充電且MT減少輸出功率,以就地消納新能源,減少功率倒送。通過上述調(diào)度方式,一定程度上減小了新能源隨機(jī)性對配電系統(tǒng)的干擾。
圖6(f)—(g)分別展現(xiàn)了OLTC的擋位及SCB的運(yùn)行數(shù)量變化情況,均滿足調(diào)度周期內(nèi)動作次數(shù)不宜過多的規(guī)定。在12:00—17:00時,風(fēng)電和光伏發(fā)電出力較大,SCB減少運(yùn)行數(shù)量,防止因新能源功率倒送引起電壓越限。
不同時段各節(jié)點(diǎn)的電壓分布情況如圖7所示。由圖7可知,在無功電壓調(diào)節(jié)設(shè)備SCB和OLTC的共同作用下,ADN的各節(jié)點(diǎn)電壓都被限制在安全范圍0.95~1.05 pu內(nèi)。其中,在14:00時節(jié)點(diǎn)22上的電壓最低,為0.970 7 pu;在15:00時節(jié)點(diǎn)5上的電壓最高,為1.001 3 pu。
圖7 不同節(jié)點(diǎn)的電壓分布
從算例結(jié)果可以看出,經(jīng)本文提出的PER-DDPG方法離線訓(xùn)練后,智能體能夠在線調(diào)度ESS、MT、OLTC和SCB有功/無功資源動作,并與PV及WT協(xié)同作用,以具有成本效益的方式響應(yīng)ADN電力負(fù)荷需求。該方法在新能源消納、削峰填谷和需求響應(yīng)等方面具有良好的效果。
本文針對ADN的有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題,在DDPG方法的基礎(chǔ)上添加了PER機(jī)制,提出一種基于深度確定性策略梯度的主動配電網(wǎng)有功-無功協(xié)調(diào)優(yōu)化調(diào)度策略。基于算例分析,得到如下結(jié)論:
1)本文所設(shè)計的MDP模型最大程度地模擬了ADN實際環(huán)境,不依賴于任何物理模型,避免了對新能源、負(fù)荷及電價的不確定性建模,具有實際應(yīng)用價值。
2)采用本文所提出的PER-DDPG框架進(jìn)行離線訓(xùn)練得到的最優(yōu)神經(jīng)網(wǎng)絡(luò)模型可以在線生成ADN調(diào)度策略,能夠有效解決電壓和潮流越限的問題,并同時最小化日常運(yùn)行成本。
3)在離線訓(xùn)練過程中,本文所提PER-DDPG方法相較于DDPG方法具有更高的未來折扣獎勵和更快的收斂速度。