王子晗,高紅均,高藝文,卿竹雨,胡銘洋,劉俊勇
基于深度強化學習的城市配電網(wǎng)多級動態(tài)重構(gòu)優(yōu)化運行方法
王子晗1,高紅均1,高藝文2,卿竹雨1,胡銘洋1,劉俊勇1
(1.四川大學電氣工程學院,四川 成都 610065;2.國網(wǎng)四川省電力公司電力科學研究院,四川 成都 610041)
隨著配電網(wǎng)分布式電源的大量接入以及城市區(qū)域負荷的快速發(fā)展,使得配電網(wǎng)運行環(huán)境愈發(fā)復雜。同時由于配電網(wǎng)重構(gòu)涉及大量的開關(guān)狀態(tài)二進制零散變量,現(xiàn)有優(yōu)化方法很難求解大規(guī)模城市配電網(wǎng)重構(gòu)問題。基于此,提出一種基于深度強化學習的城市配電網(wǎng)多級動態(tài)重構(gòu)方法。首先,建立基于深度學習的配電網(wǎng)多級重構(gòu)快速判斷模型,通過該模型實現(xiàn)對重構(gòu)級別在線決策,并對智能體動作空間進行降維。其次,使用含參數(shù)凍結(jié)和經(jīng)驗回放機制的深度Q網(wǎng)絡(luò)對預(yù)測負荷、光伏能源輸出功率等環(huán)境信息進行學習。以運行成本、電壓偏移度以及負荷均衡度最優(yōu)為目標,通過習得的策略集對配電網(wǎng)進行動態(tài)重構(gòu)與運行優(yōu)化。建立多智能體強化學習模型,對各個時段的不同重構(gòu)主體進行聯(lián)合優(yōu)化。最后,通過算例分析驗證了所提方法的有效性。
城市配電網(wǎng);配電網(wǎng)重構(gòu);機器學習;深度Q網(wǎng)絡(luò)
高滲透率分布式電源的接入以及城市區(qū)域不平衡負荷的快速發(fā)展,導致城市配電網(wǎng)(urban distribution network, UDN)凈負荷時空分布極不均衡,對配電網(wǎng)安全經(jīng)濟運行提出了新的挑戰(zhàn)。配電網(wǎng)重構(gòu)作為配電網(wǎng)主動管理措施之一,通過改變聯(lián)絡(luò)開關(guān)與分段開關(guān)的通斷狀態(tài)來調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),以達到減小網(wǎng)損、平衡負荷、消除線路過載和提高清潔能源消納的目的[1-5]。然而,傳統(tǒng)優(yōu)化方法依賴于顯式模型、預(yù)測技術(shù)以及優(yōu)化求解器,求解耗時較長并且難以實現(xiàn)在線決策,同時風電光伏等分布式電源大量接入所帶來的不確定性也提高了求解難度。因此,面對日趨復雜的電網(wǎng)環(huán)境,如何選擇UDN重構(gòu)策略、如何實現(xiàn)重構(gòu)級別的在線決策、如何處理分布式電源(distributed generation, DG)的不確定性,已成為新型電力系統(tǒng)背景下亟待探討和研究的重要問題。
目前,已有較多國內(nèi)外學者針對高比例清潔能源滲透下的城市配電網(wǎng)重構(gòu)進行了研究[6-8]。文獻[9]提出了一個新的指標來衡量系統(tǒng)中每條母線的電壓波動性,降低了由DG引起的配電網(wǎng)電壓波動。文獻[10]基于新能源高滲透率接入電網(wǎng)背景,提出了考慮需求側(cè)響應(yīng)和智能軟開關(guān)的配電網(wǎng)重構(gòu)策略,通過大M法和二階錐松弛對模型進行轉(zhuǎn)化,提高了配電系統(tǒng)的新能源消納能力。文獻[11]考慮可再生能源的出力不確定性,提出了一種配電網(wǎng)動態(tài)重構(gòu)與移動儲能協(xié)同優(yōu)化方法。文獻[12]綜合考慮分布式電源出力和電動汽車充電負荷的不確定性,提出了一種基于區(qū)間數(shù)方法的配電網(wǎng)動態(tài)重構(gòu)策略。文獻[13]建立綜合考慮網(wǎng)絡(luò)損耗、重構(gòu)成本、電壓指標和棄電率等因素的多目標協(xié)同優(yōu)化模型,并進行分布式電源調(diào)控與配電網(wǎng)動態(tài)重構(gòu)求解。文獻[14]綜合考慮風力和光伏2種不同類型的DG,提出了隨時段變化的配電網(wǎng)動態(tài)重構(gòu)模型,并用遺傳算法對其進行優(yōu)化。文獻[15]針對全局動態(tài)重構(gòu)可能產(chǎn)生大規(guī)模潮流轉(zhuǎn)移和非理想遞進效益的問題,考慮UDN的自然分層特性,提出融入配電網(wǎng)重構(gòu)級別快速識別的兩階段優(yōu)化運行策略。然而,配電網(wǎng)重構(gòu)優(yōu)化模型需要同時考慮離散變量與連續(xù)變量,且包含線性約束與非線性約束,上述方法的求解過程會耗費大量的計算資源,或者陷入局部最優(yōu),甚至可能遇到“維數(shù)災(zāi)難”使結(jié)果無法收斂。此外,DG的出力不確定性也極大地提高了求解難度。而深度強化學習(deep reinforcement learning, DRL)兼具深度學習的信息表征能力和強化學習對序列決策的優(yōu)化能力,是求解復雜配電網(wǎng)重構(gòu)與優(yōu)化運行問題的一種新的方法。
在配電網(wǎng)重構(gòu)領(lǐng)域,現(xiàn)有的求解方法主要包括傳統(tǒng)優(yōu)化算法[16-17]、啟發(fā)式算法[18-19]和元啟發(fā)式算法[20-23]三類。傳統(tǒng)優(yōu)化算法如單純形法、分支定界法等,雖然能找到全局最優(yōu)解,但應(yīng)用于大規(guī)模系統(tǒng)其布爾變量過多易產(chǎn)生維數(shù)災(zāi)難,形成NP難問題,可能難以收斂。啟發(fā)式算法如支路交換法、最優(yōu)流求解法等,計算速度較慢、全局搜索困難,難以適應(yīng)具有混合變量與大量非線性約束的配電網(wǎng)重構(gòu)決策。元啟發(fā)式算法如粒子群算法、模擬退火算法等,求解過程簡單,但容易陷入局部最優(yōu)。動態(tài)重構(gòu)問題是一個非線性非凸問題,采用傳統(tǒng)優(yōu)化算法和啟發(fā)式算法具有較大局限性。而深度強化學習方法不依賴于顯式模型的建立,通過智能體與實際或模擬的環(huán)境多次交互來獲得求解特定問題的優(yōu)勢策略,具有近似描述各種復雜問題的解的能力。深度強化學習中神經(jīng)網(wǎng)絡(luò)的泛化能力,使得該方法不需要每次重新訓練就能對相似的運行狀態(tài)執(zhí)行在線決策[24-25];同時深度強化學習可以通過狀態(tài)轉(zhuǎn)移函數(shù)模擬分布式電源出力的不確定性,若智能體在多輪訓練后穩(wěn)定地達到收斂結(jié)果,那么此時的深度強化學習就具有較好的魯棒性。
綜上,本文考慮城市配電網(wǎng)凈負荷時空靈活性需求及多類型聯(lián)絡(luò)開關(guān)調(diào)節(jié)能力差異性,重點研究基于機器學習的重構(gòu)級別快速判斷與運行優(yōu)化策略。首先,對配電網(wǎng)歷史運行數(shù)據(jù)進行有效擴充,提高樣本庫豐富度,同時基于重構(gòu)級別評估雙層模型理論[15]為神經(jīng)網(wǎng)絡(luò)多標簽分類擬合模型提供標簽,實現(xiàn)對配電網(wǎng)重構(gòu)級別的快速決策,并對接下來強化學習動作空間進行降維。其次,對重構(gòu)級別判斷后的配電網(wǎng),以經(jīng)濟運行成本、電壓偏移度以及負荷均衡度最優(yōu)為目標,考慮配網(wǎng)結(jié)構(gòu)輻射性、潮流等約束,建立含參數(shù)凍結(jié)與經(jīng)驗回放機制的單智能體強化學習模型。最后,依據(jù)24 h重構(gòu)級別判斷結(jié)果,對每個時段配電網(wǎng)重構(gòu)優(yōu)化主體進行劃分,建立多智能體強化學習模型,并對其進行聯(lián)合優(yōu)化。
配電網(wǎng)具有自然分層特性,包含饋線層、變壓器層和變電站層[15],有饋線聯(lián)絡(luò)開關(guān)(feeder tie switch, FS)、變壓器聯(lián)絡(luò)開關(guān)(transformer tie switch, TS)、變電站聯(lián)絡(luò)開關(guān)(substation tie switch, SS)與分段開關(guān)(sectionalizing switch, BS)。通過限制不同類型聯(lián)絡(luò)開關(guān)的通斷狀態(tài),可以實現(xiàn)配電網(wǎng)饋線級重構(gòu)、變壓器級重構(gòu)和變電站級重構(gòu)。饋線級重構(gòu)只改變饋線聯(lián)絡(luò)開關(guān)的通斷狀態(tài),潮流在單一變壓器范圍內(nèi)轉(zhuǎn)移;變壓器級重構(gòu)同時考慮改變饋線聯(lián)絡(luò)開關(guān)和變壓器聯(lián)絡(luò)開關(guān)的通斷狀態(tài),涉及單一變電站內(nèi)的潮流轉(zhuǎn)移。而變電站級重構(gòu)則涉及所有類型的聯(lián)絡(luò)開關(guān),潮流在多個變電站間進行轉(zhuǎn)移??梢?,饋線級、變壓器級和變電站級重構(gòu)的潮流分布調(diào)節(jié)范圍逐漸擴大,重構(gòu)主體從單一變壓器拓展到多變電站,從局部自治轉(zhuǎn)變到大范圍協(xié)調(diào)。配電網(wǎng)多級重構(gòu)潮流轉(zhuǎn)移示意圖如圖1所示。
圖1 配電網(wǎng)多級重構(gòu)潮流轉(zhuǎn)移
假設(shè)當前配電網(wǎng)的凈負荷時空分布不均,饋線S1T12的負荷并不能完全消納其光伏節(jié)點出力,棄光現(xiàn)象嚴重。為了避免全局重構(gòu)可能造成的大范圍潮流轉(zhuǎn)移,首先嘗試進行饋線級重構(gòu),將區(qū)域①內(nèi)FS1左側(cè)負荷轉(zhuǎn)移至S1T12以繼續(xù)消納光伏出力。當僅靠饋線級重構(gòu)無法解決棄光問題時,則需要進行變壓器級重構(gòu),繼續(xù)轉(zhuǎn)入?yún)^(qū)域②TS1右側(cè)負荷。若S1T21無法承受轉(zhuǎn)出的凈負荷,則需要擴大重構(gòu)范圍,進行變電站級重構(gòu),將區(qū)域③SS1右側(cè)負荷轉(zhuǎn)移至S1T12以共同消納S1T12的光伏電源出力。故當UDN凈負荷分布不均衡時,可以根據(jù)UDN的具體拓撲結(jié)構(gòu)選擇適當?shù)闹貥?gòu)級別以平衡凈負荷。同時每個重構(gòu)級別的潮流轉(zhuǎn)移能力與UDN的具體拓撲結(jié)構(gòu)、光伏出力與負荷特性有關(guān),高等級重構(gòu)帶來的效益不總是大幅度優(yōu)于低等級重構(gòu),所以應(yīng)采用優(yōu)先局部自治的重構(gòu)策略來滿足配電靈活性需求。
神經(jīng)網(wǎng)絡(luò)具備強大的非線性擬合能力,當假設(shè)空間足夠大,訓練數(shù)據(jù)足夠多時,能夠?qū)⑷我廨斎胗成涞饺我廨敵觥5捎谏窠?jīng)網(wǎng)絡(luò)的訓練需要大量樣本,電力系統(tǒng)運行又往往是高可靠性的,使得僅靠歷史運行數(shù)據(jù)難以涵蓋所有重構(gòu)級別,無法實現(xiàn)對于神經(jīng)網(wǎng)絡(luò)的良好訓練,故需要對訓練樣本擴充,具體方法如下所述。
1) 以歷史運行數(shù)據(jù)為基準,對所有歷史負荷與光伏節(jié)點數(shù)據(jù)加上正態(tài)分布噪聲,最大程度上模擬城市配電網(wǎng)運行時可能面臨的波動情況;
2) 在大量生成運行樣本后,根據(jù)文獻[15]的方法,對運行樣本進行重構(gòu)級別判斷,并為對應(yīng)數(shù)據(jù)打上標簽;
3) 因為越高級別的配電網(wǎng)重構(gòu)面臨的配電網(wǎng)運行環(huán)境越嚴苛,導致高級別配電網(wǎng)重構(gòu)數(shù)據(jù)較少,故需要對變壓器級與變電站級重構(gòu)數(shù)據(jù)進行過采樣處理,均衡每種重構(gòu)級別數(shù)據(jù)數(shù)量,提升神經(jīng)網(wǎng)絡(luò)的泛化能力。
圖2 基于深度學習的配電網(wǎng)重構(gòu)級別快速判斷圖
本文使用二值交叉熵作為損失函數(shù),用于神經(jīng)網(wǎng)絡(luò)多標簽分類訓練任務(wù)。其表達式為
配電網(wǎng)的重構(gòu)等級判定有耦合約束。
強化學習作為機器學習領(lǐng)域另一個研究熱點,已經(jīng)廣泛應(yīng)用于交互控制和動態(tài)博弈等專業(yè)領(lǐng)域。強化學習通過最大化智能體從環(huán)境交互中獲得的累計獎勵,以不斷探索的方式學習到實現(xiàn)獎勵最大化的最優(yōu)策略。強化學習探索過程可以用馬爾科夫決策過程(Markov decision process, MDP)進行簡化建模。MDP一般由一個四元組(,,,p)定義。
圖3 馬爾可夫決策過程
強化學習中的Q學習是基于價值的算法,不依賴于環(huán)境模型的搭建。Q學習通過狀態(tài)動作價值函數(shù),將一次迭代過程中記錄的環(huán)境s與動作a代入式(6)中進行學習[26]。
但隨著狀態(tài)變量的增加,Q學習算法的狀態(tài)空間會呈指數(shù)級增長,形成維數(shù)災(zāi)難。針對這個問題,文獻[27]將深度神經(jīng)網(wǎng)絡(luò)與Q學習算法相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)對狀態(tài)價值函數(shù)進行擬合,即深度Q網(wǎng)絡(luò)(deep q network, DQN)。
DQN通過神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進行擬合,有效地解決了傳統(tǒng)Q學習隨著狀態(tài)變量增加,數(shù)據(jù)庫成指數(shù)級增長的問題。
為了提升神經(jīng)網(wǎng)絡(luò)的泛化能力,需要對智能體引入經(jīng)驗回放機制和凍結(jié)參數(shù)機制,智能體訓練流程如圖4所示。
每個智能體具有兩個神經(jīng)網(wǎng)絡(luò),首先通過現(xiàn)實網(wǎng)絡(luò)與配電網(wǎng)環(huán)境不斷交互,將結(jié)果儲存于經(jīng)驗池中。再從經(jīng)驗池中隨機抽樣進行Q值預(yù)測,并與估計網(wǎng)絡(luò)的估計Q值比較,然后進行誤差的反向傳遞,最后在一定時間步長后將自身參數(shù)復制給估計網(wǎng)絡(luò)。這種方式能夠有效降低樣本間的相關(guān)性,提升DQN的收斂速度。
圖4 智能體訓練流程圖
與2.2節(jié)同理,選取每個時刻配電網(wǎng)中各節(jié)點功率、電流作為特征,構(gòu)建配網(wǎng)系統(tǒng)的環(huán)境狀態(tài)集合。
智能體基于2.1節(jié)的重構(gòu)級別快速判斷模型獲得重構(gòu)級別結(jié)果后,根據(jù)式(9)—式(11)可以決定重構(gòu)的連接開關(guān)集合。
智能體再結(jié)合之前觀測到環(huán)境的狀態(tài)信息,根據(jù)動作價值與自身策略集,在動作空間中選擇一個動作。
但DQN依賴于動作價值函數(shù)來執(zhí)行策略,無法處理連續(xù)的動作,所以需要對可削減負荷、光伏的出力進行離散化處理,離散化后的動作空間更正為
式中:表示離散化粒度,粒度越大動作空間內(nèi)功率的離散程度越高。
為了提高配電網(wǎng)重構(gòu)后的經(jīng)濟性與安全性,本文深度強化學習的獎勵函數(shù)綜合考慮了3個目標。
1) 經(jīng)濟運行成本
運行成本包括網(wǎng)損成本、棄光懲罰成本、倒閘成本和切負荷成本。
2) 電壓偏移指數(shù)
3) 負荷均衡度
由上述3個優(yōu)化目標可定義強化學習的獎勵函數(shù)為
本文在2.2節(jié)提出了基于神經(jīng)網(wǎng)絡(luò)的重構(gòu)級別快速判斷方法,對DQN的動作空間進行降維處理,但由于不同重構(gòu)級別優(yōu)化主體不同,導致智能體動作空間發(fā)生改變,無法使用同一個智能體進行優(yōu)化。故本節(jié)提出一種多智能體深度強化學習(multi-agent deep reinforcement learning, MADRL)的聯(lián)合優(yōu)化模型,具體結(jié)構(gòu)如圖5所示。
圖5 多智能體深度強化學習結(jié)構(gòu)圖
首先通過2.1節(jié)方法確定24時段的優(yōu)化主體,對不同時段不同優(yōu)化主體分配不同智能體;對于不同時段的同一個優(yōu)化主體分配相同智能體;當前時段智能體執(zhí)行動作決策所改變的配電網(wǎng)結(jié)構(gòu),配合狀態(tài)轉(zhuǎn)移函數(shù),組成下一時段的智能體狀態(tài)空間。
1) 潮流約束
2) 安全運行約束
3) 結(jié)構(gòu)約束
為了使配電網(wǎng)重構(gòu)后仍然保持為輻射性結(jié)構(gòu),還需要添加約束。
為驗證本文所提方法的有效性,算例采用修改后的實際145節(jié)點系統(tǒng),模擬環(huán)境為Python3.8.3,重構(gòu)級別快速判斷模型與DRL多智能體所用神經(jīng)網(wǎng)絡(luò)均使用Keras庫搭建,CPU為英特爾 i5-10400,GPU為NVDIA 1050Ti,內(nèi)存為 8 G DDR4。具體的配電網(wǎng)結(jié)構(gòu)如圖6所示,該UDN由2個變電站、4臺變壓器與8條饋線組成。變電站1有2臺變壓器T1、T2;T1低壓側(cè)連接2條饋線S1T11、S1T12;T2低壓側(cè)連接兩條饋線S1T21、S1T22。變電站2有2臺變壓器T3、T4;T3低壓側(cè)連接2條饋線S2T11、S2T12;T4低壓側(cè)連接2條饋線S2T21、S2T22。SS、TS、FS、BS的數(shù)量分別為2、4、6、10。光伏與可控負荷節(jié)點信息見表1。棄光、網(wǎng)損成本均設(shè)為500美元/MWh。
表1 PV及CL節(jié)點信息
重構(gòu)級別快速判斷模型與DRL多智能體所用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
圖6 145節(jié)點系統(tǒng)
表2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
級別判斷神經(jīng)網(wǎng)絡(luò)由輸入層、兩層隱藏層及輸出層組成,神經(jīng)元個數(shù)分別為154、32、32、8個,其中隱藏層均使用全連接層。為了提高擬合能力,重構(gòu)級別判斷神經(jīng)網(wǎng)絡(luò)設(shè)置的Relu函數(shù)為隱藏層激活函數(shù),sigmoid函數(shù)設(shè)置為輸出層激活函數(shù),將輸出限制在(0,1)內(nèi)。由于DQN智能體輸出層神經(jīng)元較多,為了提高擬合能力,故設(shè)置三層隱藏層增大假設(shè)空間。智能體分配數(shù)量由4.2節(jié)結(jié)果確定,設(shè)置4個智能體。
1) 數(shù)據(jù)準備
首先以2.1節(jié)方法為145節(jié)點系統(tǒng)生成10 000組節(jié)點數(shù)據(jù)和與之相對應(yīng)的重構(gòu)級別判斷數(shù)據(jù)。在該數(shù)據(jù)集中共出現(xiàn)5種重構(gòu)情況,具體情況如表3所示。
表3 數(shù)據(jù)集分布情況
從表3可以看出,在該數(shù)據(jù)集中,重構(gòu)范圍越大,重構(gòu)等級越高的數(shù)據(jù)占比越小,這是因為城市配電網(wǎng)所面臨的凈負荷時空分布不均的情況通常是局部的。由于城市配電網(wǎng)進行變壓器級或變電站級重構(gòu)時所面臨的情況越極端,變壓器級重構(gòu)在該數(shù)據(jù)集中的占比越小,該數(shù)據(jù)集中并沒有出現(xiàn)需要進行變電站級重構(gòu)的情況。
同時從表3可知,配電網(wǎng)僅需要S1T1進行饋線級重構(gòu)的情況出現(xiàn)了6765次,而變電站級重構(gòu)在10 000組數(shù)據(jù)中僅出現(xiàn)了18次,如果直接在該不平衡數(shù)據(jù)集上進行模型訓練會導致模型的泛化能力降低,影響預(yù)測準確度。所以需要對前者進行欠采樣處理,對后者進行過采樣處理以平衡數(shù)據(jù)集,平衡后的數(shù)據(jù)個數(shù)依然控制在10 000組。本文所采用的過采樣處理為以每組節(jié)點數(shù)據(jù)的原負荷、光伏出力為基線,在其基礎(chǔ)上加上微小的正態(tài)分布噪聲。
2) 重構(gòu)級別快速判斷模型性能分析
將重新平衡后的數(shù)據(jù)集進行劃分,隨機選取其中9000份作為訓練集,其中1000份作為驗證集,隨后進行模型訓練,神經(jīng)網(wǎng)絡(luò)的訓練結(jié)果如圖7所示。
圖7 神經(jīng)網(wǎng)絡(luò)訓練結(jié)果
由圖7可見,驗證集中神經(jīng)網(wǎng)絡(luò)損失函數(shù)值不斷下降,在15輪次后接近最小值并逐漸收斂,沒有出現(xiàn)過擬合現(xiàn)象,且預(yù)測準確度在99%~100%之間,表明神經(jīng)網(wǎng)絡(luò)已經(jīng)擬合了基于數(shù)學規(guī)劃方法的重構(gòu)級別快速判斷模型,實現(xiàn)了對配電網(wǎng)重構(gòu)級別的準確判斷。
兩種方法所需的求解時間如表4所示,可見基于本文方法的重構(gòu)級別判斷模型在求解時間上具有明顯優(yōu)勢,能夠?qū)崿F(xiàn)配電網(wǎng)重構(gòu)級別的快速決策。
表4 不同方法所需時間對比
3) 24時段重構(gòu)級別評估結(jié)果分析
從數(shù)據(jù)集中選取24條數(shù)據(jù),使用本文模型進行24 h重構(gòu)級別判斷,對選取的配電網(wǎng)運行數(shù)據(jù)進行24 h重構(gòu)級別判斷,判斷結(jié)果如圖8所示。
圖8 24時段重構(gòu)級別判斷結(jié)果
由圖8可知,變電站1饋線1在5—14時段均需要進行饋線級重構(gòu)。變電站2在9、10時段需要進行變壓器級重構(gòu)。全時段S1、S2均不需要變電站級重構(gòu),是因為更高層級重構(gòu)所帶來的遞進效益太小或依然難以為無法消納的光伏提供傳輸通道,故考慮為低層級重構(gòu)。
4) 多智能體聯(lián)合強化學習模型有效性分析
基于24時段重構(gòu)級別評估結(jié)果,存在4種重構(gòu)情況,故使用4個智能體進行重構(gòu)與運行優(yōu)化,其超參數(shù)如表5所示,各智能體擬合準確度如圖9所示。
表5 超參數(shù)設(shè)置
由圖9可知,智能體1、2的擬合準確曲線振蕩程度逐漸減小并趨于穩(wěn)定,可知4個智能體存在合作關(guān)系,并且隨著訓練輪次的增多擬合準確度逐漸趨于穩(wěn)定并達到最高值。當每個智能體的神經(jīng)網(wǎng)絡(luò)訓練參數(shù)均保持穩(wěn)定且不再波動后,可認為每個智能體已經(jīng)完成協(xié)同優(yōu)化訓練,此時的策略是全局優(yōu)化的結(jié)果。
圖9 各智能體擬合準確度
5) 優(yōu)化結(jié)果分析
從圖10可以看出,對于本文所提出的針對大規(guī)模城市配電網(wǎng)動態(tài)多級重構(gòu)的多智能體強化學習模型,平均獎勵值在訓練15 000輪次后就達到了最大值附近,而獎勵值振蕩的原因是聯(lián)合智能體探索值的設(shè)定在不斷嘗試新的選擇,避免陷入局部最優(yōu)。從獎勵走勢可以看出,優(yōu)化效果在不斷提升,并趨于穩(wěn)定,驗證了本文聯(lián)合優(yōu)化模型的有效性。
圖10 多智能體聯(lián)合訓練結(jié)果
將訓練完成后的模型探索值設(shè)置為0,直接進行24時段最高價值動作輸出,忽略獎勵函數(shù)中的各個系數(shù),分別累計獎勵函數(shù)中的各個指標并取負值,同時使用獎勵函數(shù)計算優(yōu)化前的數(shù)據(jù),優(yōu)化對比結(jié)果如表6所示。需要說明的是,由于優(yōu)化前的運行成本中并不包括棄光懲罰成本,配電網(wǎng)未能消納的光伏發(fā)電量反映在支路越限電量中,支路越限電量表示當前支路越限的功率乘以優(yōu)化時間間隔。
表6 優(yōu)化結(jié)果對比
從表6可以看出,獎勵函數(shù)中的各個指標均得到優(yōu)化。重構(gòu)后的運行成本降低了325.5美元,電壓均衡度改善了90.8%,負荷均衡度改善了0.8%,越限的潮流電量減少了64.78 MWh。對配電網(wǎng)進行了重構(gòu)與優(yōu)化運行后,在部分光伏電源越限出力轉(zhuǎn)移到運行成本中的棄光懲罰成本的情況下,仍有效減少了其運行成本。同時電壓均衡度大幅優(yōu)化,負荷均衡度改善程度較小,這是因為改變配電網(wǎng)的拓撲結(jié)構(gòu)能夠?qū)⒅剌d的饋線負荷轉(zhuǎn)移到輕載或光伏出力較大的饋線,改善其凈負荷分布情況,而由于該配電網(wǎng)本身結(jié)構(gòu)特點,負荷均衡度改善空間較小。支路越限功率雖然大幅減小但并未完全消失,原因有兩點:一是光伏電源分布特點與配電網(wǎng)拓撲結(jié)構(gòu)的限制;二是強化學習本身模型的限制,本文在DQN動作空間中對棄光量進行了離散化,使得優(yōu)化精度降低,同時強化學習與數(shù)學優(yōu)化方法不同,支路功率約束只能以懲罰的形式添加到獎勵函數(shù)中,但懲罰系數(shù)過大會降低其他指標靈敏度,導致收斂速度減慢,懲罰系數(shù)太小又起不到約束的作用,綜合以上因素,故最后仍有小部分支路功率越限,但仍在可接受范圍內(nèi)。
本文提出基于深度強化學習的城市配電網(wǎng)多級動態(tài)重構(gòu)優(yōu)化運行方法,建立了重構(gòu)級別快速判斷模型與多智能體深度強化學習模型,實現(xiàn)了對重構(gòu)級別與優(yōu)化運行的實時決策。首先通過建立基于神經(jīng)網(wǎng)絡(luò)的重構(gòu)級別快速判斷模型實現(xiàn)了重構(gòu)級別的在線決策,為調(diào)度人員提供實時參考,同時通過劃分優(yōu)化主體,解決了傳統(tǒng)DRL單智能體優(yōu)化多個主體時動作空間呈指數(shù)級增長的問題;其次通過狀態(tài)轉(zhuǎn)移函數(shù)模擬光伏的不確定性,經(jīng)過大量訓練實現(xiàn)了訓練準確度的收斂,解決了含不確定性問題求解難的問題;最后建立多智能體聯(lián)合求解模型,完成了考慮不確定性的24時段配電網(wǎng)多級動態(tài)重構(gòu)問題的求解,該模型在配電網(wǎng)相似運行狀態(tài)下不需要重復求解。算例驗證了本文所提模型的有效性。
[1] 徐俊俊, 吳在軍, 周力, 等. 考慮分布式電源不確定性的配電網(wǎng)魯棒動態(tài)重構(gòu)[J]. 中國電機工程學報, 2018, 38(16): 4715-4725, 4976.
XU Junjun, WU Zaijun, ZHOU Li, et al. Robust dynamic reconfiguration for distribution networks considering uncertainty of distributed generations[J]. Proceedings of the CSEE, 2018, 38(16): 4715-4725, 4976.
[2] 張旭, 么莉, 陳晨, 等. 交直流混合配電網(wǎng)網(wǎng)絡(luò)重構(gòu)與無功優(yōu)化協(xié)同的兩階段魯棒優(yōu)化模型[J]. 電網(wǎng)技術(shù), 2022, 46(3): 1149-1159.
ZHANG Xu, YAO Li, CHEN Chen, et al. A novel two-stage robust model for co-optimization of reconfiguration and reactive power in AC/DC hybrid distribution network[J]. Power System Technology, 2022, 46(3): 1149-1159.
[3] AHMADI S A, VAHIDINASAB V, GHAZIZADEH M S, et al. Co-optimising distribution network adequacy and security by simultaneous utilisation of network reconfiguration and distributed energy resources[J]. IET Generation, Transmission & Distribution, 2019, 13(20): 4747-4755.
[4] 倪識遠, 張林垚. 考慮動態(tài)重構(gòu)的主動配電網(wǎng)多目標雙層優(yōu)化調(diào)度方法[J]. 電力系統(tǒng)保護與控制, 2020, 48(20): 38-47.
NI Shiyuan, ZHANG Linyao. Multi-objective bi-level optimal dispatch method of an active distribution network considering dynamic reconfigurations[J]. Power System Protection and Control, 2020, 48(20): 38-47.
[5] TAHBOUB A M, PANDI V R, ZEINELDIN H H. Distribution system reconfiguration for annual energy loss reduction considering variable distributed generation profiles[J]. IEEE Transactions on Power Delivery, 2015, 30(4): 1677-1685.
[6] 周賢正, 郭創(chuàng)新, 董樹鋒, 等. 考慮配電網(wǎng)重構(gòu)的城市多能源配電/氣/熱網(wǎng)擴展規(guī)劃[J]. 電力系統(tǒng)自動化, 2019, 43(7): 23-33.
ZHOU Xianzheng, GUO Chuangxin, DONG Shufeng, et al. Expansion planning of urban multi-energy electricity- gas-heating distribution network incorporating electrical reconfiguration[J]. Automation of Electric Power Systems, 2019, 43(7): 23-33.
[7] 李洪美, 崔翰韜, 萬秋蘭. 考慮電動汽車充電策略的配網(wǎng)重構(gòu)二階錐規(guī)劃模型[J]. 中國電機工程學報, 2015, 35(18): 4674-4681.
LI Hongmei, CUI Hantao, WAN Qiulan. Distribution network reconfiguration based on Second-order conic programming considering EV charging strategy[J]. Proceedings of the CSEE, 2015, 35(18): 4674-4681.
[8] JAIN T, GHOSH D, MOHANTA D K. Augmentation of situational awareness by fault passage indicators in distribution network incorporating network reconfiguration[J]. Protection and Control of Modern Power Systems, 2019, 4(1): 1-14.
[9] SONG Y, ZHENG Y, LIU T, et al. A new formulation of distribution network reconfiguration for reducing the voltage volatility induced by distributed generation[J]. IEEE Transactions on Power Systems, 2020, 35(1): 469-507.
[10] 章博, 劉晟源, 林振智, 等. 高比例新能源下考慮需求側(cè)響應(yīng)和智能軟開關(guān)的配電網(wǎng)重構(gòu)[J]. 電力系統(tǒng)自動化, 2021, 45(8): 86-94.
ZHANG Bo, LIU Shengyuan, LIN Zhenzhi, et al. Distribution network reconfiguration with high penetration of renewable energy considering demand response and soft open point[J]. Automation of Electric Power Systems, 2021, 45(8): 86-94.
[11] 孫偉卿, 劉唯, 張婕. 高比例可再生能源背景下配電網(wǎng)動態(tài)重構(gòu)與移動儲能協(xié)同優(yōu)化[J]. 電力系統(tǒng)自動化, 2021, 45(19): 80-90.
SUN Weiqing, LIU Wei, ZHANG Jie. Collaborative optimization for dynamic reconfiguration of distribution network and mobile energy storage in background of high proportion of renewable energy[J]. Automation of Electric Power Systems, 2021, 45(19): 80-90.
[12] 李揚, 韋鋼, 馬鈺, 等. 含電動汽車和分布式電源的主動配電網(wǎng)動態(tài)重構(gòu)[J]. 電力系統(tǒng)自動化, 2018, 42(5): 102-110.
LI Yang, WEI Gang, MA Yu, et al. Dynamic reconfiguration of active distribution network considering electric vehicles and distributed generations[J]. Automation of Electric Power Systems, 2018, 42(5): 102-110.
[13] 瞿合祚, 李曉明, 楊玲君, 等. 考慮負荷和分布式電源時變性的配電網(wǎng)多目標動態(tài)重構(gòu)和DG調(diào)度[J]. 高電壓技術(shù), 2019, 45(3): 873-881.
QU Hezuo, LI Xiaoming, YANG Lingjun, et al. Multi-objective distribution network dynamic reconfiguration and DG control considering time variation of load and DG[J]. High Voltage Engineering, 2019, 45(3): 873-881.
[14] 易海川, 張彼德, 王海穎, 等. 提高DG接納能力的配電網(wǎng)動態(tài)重構(gòu)方法[J]. 電網(wǎng)技術(shù), 2016, 40(5): 1431-1436.
YI Haichuan, ZHANG Bide, WANG Haiying, et al. Distribution network dynamic reconfiguration method for improving distribution network's ability of accepting DG[J]. Power System Technology, 2016, 40(5): 1431-1436.
[15] 馬望, 高紅均, 楊艷紅, 等. 融入重構(gòu)級別快速識別的配電網(wǎng)兩階段優(yōu)化運行[J/OL]. 中國電機工程學報: 1-16 [2021-12-26]. DOI: 10.13334/j.0258-8013.pcsee.210353.
MA Wang, GAO Hongjun, YANG Yanhong, et al. Two- stage optimal operation for distribution network based on fast identification of reconfiguration level[J]. Proceedings of the CSEE: 1-16[2021-12-26]. DOI: 10.13334/j.0258- 8013.pcsee.210353.
[16] AHMADI H, MARTí J R. Distribution system optimization based on a linear power-flow formulation[J]. IEEE Transactions on Power Delivery, 2015, 30(1): 25-33.
[17] KHODR H M, MARTINEZ-CRESPO J, MATOS M A, et al. Distribution systems reconfiguration based on OPF using benders decomposition[J]. IEEE Transactions on Power Delivery, 2009, 24(4): 2166-2176.
[18] CIVANLAR S, GRAINGER J J, YIN H, et al. Distribution feeder reconfiguration for loss reduction[J]. IEEE Transactions on Power Delivery, 1988, 3(3): 1217-1223.
[19] BARAN M E, WU F F. Network reconfiguration in distribution systems for loss reduction and load balancing[J]. IEEE Transactions on Power Delivery, 1989, 4(2): 1401-1417.
[20] 田昊, 呂林, 高紅均, 等. 計及電網(wǎng)運行特性的配電網(wǎng)動態(tài)重構(gòu)[J]. 電力系統(tǒng)保護與控制, 2015, 43(1): 9-14.
TIAN Hao, Lü Lin, GAO Hongjun, et al. Dynamic reconfiguration of distribution network considering power grid operation characteristic[J]. Power System Protection and Control, 2015, 43(1): 9-14.
[21] 王藝, 王賓, 劉陽, 等. 計及分布式電源動態(tài)行為的配電網(wǎng)重構(gòu)優(yōu)化策略[J]. 電力系統(tǒng)保護與控制, 2020, 48(24): 164-172.
WANG Yi, WANG Bin, LIU Yang, et al. Optimization strategy for distribution network reconfiguration considering the dynamic behavior of DGs[J]. Power System Protection and Control, 2020, 48(24): 164-172.
[22] 徐澤, 楊偉, 張文強, 等. 基于連鎖環(huán)網(wǎng)與改進離散粒子群算法的多目標配電網(wǎng)重構(gòu)[J]. 電力系統(tǒng)保護與控制, 2021, 49(6): 114-123.
XU Ze, YANG Wei, ZHANG Wenqiang, et al. Multi- objective distribution network reconfiguration based on chain loops and improved binary particle swarm optimization[J]. Power System Protection and Control, 2021, 49(6): 114-123.
[23] 王瑞峰, 王慶榮. 基于改進雙層聚類多目標優(yōu)化的配電網(wǎng)動態(tài)重構(gòu)[J]. 電力系統(tǒng)保護與控制, 2019, 47(21): 92-99.
WANG Ruifeng, WANG Qingrong. Multi-objective optimization of dynamic reconfiguration of distribution network based on improved Bilayer clustering[J]. Power System Protection and Control, 2019, 47(21): 92-99.
[24] 張自東, 邱才明, 張東霞, 等. 基于深度強化學習的微電網(wǎng)復合儲能協(xié)調(diào)控制方法[J]. 電網(wǎng)技術(shù), 2019, 43(6): 1914-1921.
ZHANG Zidong, QIU Caiming, ZHANG Dongxia, et al. A coordinated control method for hybrid energy storage system in microgrid based on deep reinforcement learning[J]. Power System Technology, 2019, 43(6): 1914-1921.
[25] 劉俊峰, 陳劍龍, 王曉生, 等. 基于深度強化學習的微能源網(wǎng)能量管理與優(yōu)化策略研究[J]. 電網(wǎng)技術(shù), 2020, 44(10): 3794-3803.
LIU Junfeng, CHEN Jianlong, WANG Xiaosheng, et al. Energy management and optimization of multi-energy grid based on deep reinforcement learning[J]. Power System Technology, 2020, 44(10): 3794-3803.
[26] WATKINS C. Learning from delayed rewards[D]. Cambridge: University of Cambridge, 1989.
[27] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning[J]. Computer Science, 2013.
Multi-level dynamic reconfiguration and operation optimization method for an urban distribution network based on deep reinforcement learning
WANG Zihan1, GAO Hongjun1, GAO Yiwen2, QING Zhuyu1, HU Mingyang1, LIU Junyong1
(1. College of Electrical Engineering, Sichuan University, Chengdu 610065, China; 2. Electric Power Research Institute,State Grid Sichuan Electric Power Company, Chengdu 610041, China)
With the large amount of distributed generation in the distribution network and the rapid development of urban regional loads, the operating environment of a distribution network has become increasingly complicated. At the same time, because the distribution network reconfiguration involves a large number of binary discrete variables of switch states, it is difficult for existing optimization methods to solve the large-scale urban distribution network reconfiguration problem. Thus a multi-level dynamic reconstruction method for an urban distribution network, one based on deep reinforcement learning, is proposed. First, a fast judgment model for multi-level reconstruction of the network based on deep learning is established, through which the online decision-making of the reconstruction level is realized, and the dimensionality of the action space of the agent is reduced.Second, a deep Q-network with parameter freezing and experience playback mechanisms is used to learn environmental information such as predicted load and photovoltaic energy output power. Then, with the objective of optimal operation cost, voltage offset and load balance degrees, the distribution network is dynamically reconfigured and operationally optimized via a learned strategy set. A multi-agent reinforcement learning model is established to jointly optimize different reconstruction subjects in each period. Finally, the effectiveness of the proposed method is verified by an example analysis.
urban distribution network; distribution network reconfiguration; machine learning; deep Q network
10.19783/j.cnki.pspc.220313
國家自然科學基金項目資助(52077146)
This work is supported by the National Natural Science Foundation of China (No. 52077146).
2022-03-11;
2022-05-26
王子晗(1997—),男,碩士,研究方向為電力系統(tǒng)優(yōu)化調(diào)度;E-mail: 616795691@qq.com
高紅均(1989—),男,通信作者,博士,副教授,博士生導師,研究方向為配電網(wǎng)規(guī)劃運行、綜合能源系統(tǒng)優(yōu)化與市場交易等。E-mail: gaohongjun@scu.edu.cn
(編輯 許 威)