藺偉山,王小君,孫慶凱,劉 曌,和敬涵,蒲天驕
不確定性環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動(dòng)態(tài)調(diào)度
藺偉山1,王小君1,孫慶凱1,劉 曌1,和敬涵1,蒲天驕2
(1.北京交通大學(xué)電氣工程學(xué)院,北京 100044;2.中國電力科學(xué)研究院有限公司,北京 100192)
隨著綜合能源系統(tǒng)中間歇性能源和負(fù)荷不確定性的逐步增強(qiáng),傳統(tǒng)的調(diào)度方法局限于固定物理模型及參數(shù)設(shè)定,難以較好地動(dòng)態(tài)響應(yīng)源荷的隨機(jī)波動(dòng)。針對(duì)這一問題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動(dòng)態(tài)調(diào)度方法。首先,以數(shù)據(jù)驅(qū)動(dòng)方式構(gòu)建面向綜合能源系統(tǒng)的深度強(qiáng)化學(xué)習(xí)模型,通過智能體與綜合能源系統(tǒng)的持續(xù)交互,自適應(yīng)學(xué)習(xí)調(diào)度策略,降低對(duì)物理模型的依賴程度。其次,通過添加隨機(jī)擾動(dòng)的方式表征源荷不確定性變化特征,針對(duì)不確定性變化特征改進(jìn)深度強(qiáng)化學(xué)習(xí)模型的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)機(jī)制以及訓(xùn)練流程等關(guān)鍵環(huán)節(jié),并經(jīng)由近端策略優(yōu)化算法優(yōu)化求解,實(shí)現(xiàn)了綜合能源系統(tǒng)的動(dòng)態(tài)調(diào)度決策。最后,通過算例仿真驗(yàn)證了所提方法在不同時(shí)間尺度以及不確定性環(huán)境下的可行性和有效性。
綜合能源系統(tǒng);動(dòng)態(tài)調(diào)度;不確定性;深度強(qiáng)化學(xué)習(xí);近端策略優(yōu)化
隨著全球傳統(tǒng)化石能源的日漸枯竭和環(huán)境問題的日益突出,世界各國正積極調(diào)整能源結(jié)構(gòu),通過開發(fā)和利用可再生能源,以減少對(duì)傳統(tǒng)化石能源的依賴[1-2]。近年來,通過構(gòu)建綜合能源系統(tǒng)(Integrated Energy System, IES),將多種異質(zhì)能源互聯(lián)融合、互補(bǔ)利用,為提高能源的利用效率和緩解全球的環(huán)境壓力提供了重要的解決方案[3]。
IES能實(shí)現(xiàn)對(duì)多種能源的綜合管理和經(jīng)濟(jì)調(diào)度,但隨著多種能源之間的耦合程度不斷提升以及可再生能源和負(fù)荷的不確定性逐漸增強(qiáng),如何實(shí)現(xiàn)IES的實(shí)時(shí)、準(zhǔn)確、動(dòng)態(tài)調(diào)度成為亟待解決的問題[4-5]。對(duì)于IES調(diào)度問題,文獻(xiàn)[6]研究了IES“源-網(wǎng)-荷-儲(chǔ)”協(xié)調(diào)優(yōu)化調(diào)度問題,并采用商業(yè)求解器Cplex進(jìn)行求解。文獻(xiàn)[7]采用改進(jìn)的粒子群算法對(duì)電-熱綜合能源系統(tǒng)的經(jīng)濟(jì)調(diào)度模型進(jìn)行求解。文獻(xiàn)[8]提出一種含電轉(zhuǎn)氣兩階段運(yùn)行的熱電耦合IES優(yōu)化調(diào)度模型。以上研究在IES優(yōu)化調(diào)度方面取得一定的成果,但多依賴于詳細(xì)的物理模型,局限于固定調(diào)度計(jì)劃,未對(duì)源荷的不確定性問題做深入研究。
為應(yīng)對(duì)源荷不確定性問題,文獻(xiàn)[9]基于源荷不確定性客觀規(guī)律和偏差預(yù)控提出一種多時(shí)間尺度滾動(dòng)優(yōu)化調(diào)度模型。文獻(xiàn)[10]采用場景分析法對(duì)風(fēng)電、光伏出力隨機(jī)性進(jìn)行建模求解。文獻(xiàn)[11]考慮不確定性負(fù)荷和風(fēng)電出力的極端場景,構(gòu)建了兩階段魯棒優(yōu)化調(diào)度模型。文獻(xiàn)[12]采用隨機(jī)場景和魯棒優(yōu)化兩種方法對(duì)風(fēng)光出力和需求響應(yīng)的不確定性因素進(jìn)行了精細(xì)化建模。以上研究方法在系統(tǒng)實(shí)際運(yùn)行時(shí)無法對(duì)源荷進(jìn)行動(dòng)態(tài)調(diào)整,而模型預(yù)測控制基于反饋校正的思想可以對(duì)調(diào)度結(jié)果進(jìn)行滾動(dòng)優(yōu)化。文獻(xiàn)[13]基于模型預(yù)測控制構(gòu)建了IES多時(shí)間尺度優(yōu)化調(diào)度模型。上述研究對(duì)解決考慮源荷不確定性的IES優(yōu)化調(diào)度問題提供了良好的思路,但調(diào)度決策仍對(duì)源荷的精準(zhǔn)預(yù)測過分依賴。
近年來,強(qiáng)化學(xué)習(xí)理論的不斷發(fā)展為解決含不確定性因素的優(yōu)化決策問題提供了新的思路。強(qiáng)化學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,可經(jīng)由智能體與環(huán)境的持續(xù)交互來不斷改進(jìn)策略。將深度學(xué)習(xí)的非線性擬合能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合的深度強(qiáng)化學(xué)習(xí)是解決高維復(fù)雜問題的有效手段[14],可以避免對(duì)精細(xì)化物理模型的過分依賴。訓(xùn)練完成的深度強(qiáng)化學(xué)習(xí)模型可以進(jìn)行短時(shí)間尺度的實(shí)時(shí)決策,滿足算法實(shí)時(shí)性的需求,同時(shí)模型可以根據(jù)實(shí)際運(yùn)行結(jié)果數(shù)據(jù)進(jìn)行自我更新并對(duì)決策結(jié)果進(jìn)行持續(xù)修正。目前已有研究將深度強(qiáng)化學(xué)習(xí)用于IES的經(jīng)濟(jì)調(diào)度和能量管理中。文獻(xiàn)[15]提出了一種基于深度Q學(xué)習(xí)的IES能量管理模型,該模型將狀態(tài)量和動(dòng)作量進(jìn)行了離散化,但離散程度精細(xì)化會(huì)造成維數(shù)災(zāi)難問題。文獻(xiàn)[16-17]采用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法求解IES經(jīng)濟(jì)調(diào)度問題,該算法過分依賴超參數(shù),收斂不穩(wěn)定。
本文在現(xiàn)有研究的基礎(chǔ)上采用近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法,提出不確定性環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的IES動(dòng)態(tài)調(diào)度方法,具體做法為:(1) 本文以數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建IES動(dòng)態(tài)調(diào)度模型,通過與IES環(huán)境的交互訓(xùn)練實(shí)現(xiàn)調(diào)度計(jì)劃的自適應(yīng)尋優(yōu),降低在處理IES調(diào)度問題時(shí)對(duì)固定物理模型的依賴程度;(2) 針對(duì)源荷的不確定性問題,通過將訓(xùn)練數(shù)據(jù)隨機(jī)抽樣、為狀態(tài)與動(dòng)作空間添加擾動(dòng)以及為獎(jiǎng)勵(lì)函數(shù)添加懲罰的方式改進(jìn)深度強(qiáng)化學(xué)習(xí)模型,充分挖掘源荷的不確定性變化特征,實(shí)現(xiàn)IES在不確定性條件下的動(dòng)態(tài)調(diào)度決策。
IES一般包括能源轉(zhuǎn)換設(shè)備、能源存儲(chǔ)設(shè)備、能源傳輸網(wǎng)絡(luò)和負(fù)荷。本文對(duì)如圖1所示的IES進(jìn)行研究,系統(tǒng)中的能源轉(zhuǎn)換設(shè)備包括熱電聯(lián)產(chǎn)機(jī)組(Combined Heat and Power, CHP)、電鍋爐(Electric Boiler, EB)、燃?xì)忮仩t(Gas Boiler, GB)和光伏陣列(Photovoltaic, PV),能源存儲(chǔ)設(shè)備為電儲(chǔ)能(Battery Energy Storage, BES),負(fù)荷包括電負(fù)荷和熱負(fù)荷。IES能夠與上級(jí)主電網(wǎng)和天然氣供應(yīng)商進(jìn)行能量交互,同時(shí)利用協(xié)調(diào)優(yōu)化控制方法對(duì)系統(tǒng)內(nèi)多種能源進(jìn)行綜合使用,以提高能源的使用效率。
圖1 IES結(jié)構(gòu)示意圖
系統(tǒng)中各設(shè)備的運(yùn)行特性介紹如下。
1.1.1熱電聯(lián)產(chǎn)機(jī)組
熱電聯(lián)產(chǎn)機(jī)組消耗天然氣產(chǎn)生電能和熱能。時(shí)刻熱電聯(lián)產(chǎn)機(jī)組輸出的電功率為
熱電聯(lián)產(chǎn)機(jī)組輸出的熱功率與電功率之間的耦合關(guān)系稱為“電熱特性”,通常分為定熱電比和變熱電比兩種類型,一般采用定熱電比[18],表示為
1.1.2電鍋爐
電鍋爐消耗電能產(chǎn)生熱能,時(shí)刻電鍋爐輸出的熱功率為
1.1.3燃?xì)忮仩t
燃?xì)忮仩t消耗天然氣產(chǎn)生熱能,時(shí)刻燃?xì)忮仩t輸出的熱功率為
1.1.4電儲(chǔ)能
時(shí)刻電儲(chǔ)能的荷電狀態(tài)(State of Charge, SOC)為
IES的動(dòng)態(tài)調(diào)度問題是在滿足負(fù)荷需求的前提下,以經(jīng)濟(jì)運(yùn)行最優(yōu)為目標(biāo),有效協(xié)調(diào)系統(tǒng)中各設(shè)備在每個(gè)時(shí)段的出力,以此來提升系統(tǒng)的經(jīng)濟(jì)效益。
1.2.1目標(biāo)函數(shù)
IES的運(yùn)行總成本包括常規(guī)成本和隨機(jī)性成本兩部分。
1) 常規(guī)成本
常規(guī)成本包括與主電網(wǎng)的電能交互成本、購買天然氣的成本、電儲(chǔ)能的充放電折舊成本和設(shè)備維護(hù)成本。由于設(shè)備維護(hù)成本相對(duì)其他成本較小,故未考慮在常規(guī)成本中。因此常規(guī)成本表示為[19]
2) 隨機(jī)性成本
由于IES中電負(fù)荷、熱負(fù)荷以及光伏出力具有不確定性,系統(tǒng)在運(yùn)行過程中會(huì)有小概率出現(xiàn)源荷供需不平衡的情況,對(duì)供需不平衡設(shè)置隨機(jī)性成本,如式(10)所示。
因此,系統(tǒng)運(yùn)行的總成本表示為
1.2.2約束條件
IES動(dòng)態(tài)調(diào)度問題的約束包括電功率平衡約束、熱功率平衡約束、外部能源供應(yīng)約束和各設(shè)備運(yùn)行約束。
1) 電功率平衡約束
2) 熱功率平衡約束
3) 能源交互約束
為保證系統(tǒng)能安全穩(wěn)定地運(yùn)行,需對(duì)系統(tǒng)與主電網(wǎng)交互的電功率和系統(tǒng)天然氣的購買總量進(jìn)行約束,具體約束為
4) 設(shè)備運(yùn)行約束
系統(tǒng)中各設(shè)備均有設(shè)備運(yùn)行的上、下限范圍,對(duì)于熱電聯(lián)產(chǎn)機(jī)組輸出電功率、電鍋爐和燃?xì)忮仩t輸出熱功率、電儲(chǔ)能設(shè)備充放電功率,運(yùn)行約束分別為
對(duì)于電儲(chǔ)能設(shè)備,為避免過度充放電對(duì)電儲(chǔ)能設(shè)備造成損害,需要對(duì)電儲(chǔ)能設(shè)備的荷電狀態(tài)進(jìn)行約束,如式(20)所示。
本節(jié)采用深度強(qiáng)化學(xué)習(xí)方法構(gòu)建IES動(dòng)態(tài)調(diào)度模型,包括定義狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。同時(shí),為靈活應(yīng)對(duì)源荷的不確定性以及考慮模型求解的便捷性和訓(xùn)練過程的穩(wěn)定性,對(duì)狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行了改進(jìn)。
因此狀態(tài)空間可表示為
為進(jìn)一步提升對(duì)環(huán)境的探索能力,訓(xùn)練過程中同樣對(duì)動(dòng)作空間添加隨機(jī)擾動(dòng),改進(jìn)后的動(dòng)作空間為
IES動(dòng)態(tài)調(diào)度的目標(biāo)是最小化運(yùn)行總成本,將該目標(biāo)轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)最大化的形式;另外,對(duì)于智能體的決策動(dòng)作,即各設(shè)備出力應(yīng)滿足設(shè)備運(yùn)行約束,對(duì)違反約束的動(dòng)作添加懲罰項(xiàng),同時(shí)要對(duì)源荷功率不平衡造成的功率誤差添加懲罰項(xiàng)。因此,獎(jiǎng)勵(lì)函數(shù)可以表示為
為此本文采用具有連續(xù)決策能力的深度強(qiáng)化學(xué)習(xí)求解IES動(dòng)態(tài)調(diào)度問題,具體算法采用PPO算法,該算法基于Actor-Critic網(wǎng)絡(luò)架構(gòu)。由于使用深度神經(jīng)網(wǎng)絡(luò)對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行函數(shù)擬合,維數(shù)災(zāi)難和信息丟失問題被很好地解決。PPO算法為On-Policy方法,網(wǎng)絡(luò)更新之后的原始數(shù)據(jù)會(huì)被廢棄,導(dǎo)致訓(xùn)練過程需要多次采樣,降低了數(shù)據(jù)使用率。針對(duì)這一問題,本文在訓(xùn)練過程中使用經(jīng)驗(yàn)回放機(jī)制,利用重要性采樣技術(shù)限制新舊策略的概率分布差異,將PPO算法由On-Policy方法轉(zhuǎn)換為Off-Policy方法,提高了數(shù)據(jù)利用率,加快了訓(xùn)練速度。
PPO算法的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)相互獨(dú)立,擁有不同的損失函數(shù)和權(quán)重更新方式,其訓(xùn)練過程如圖2所示。算法訓(xùn)練過程主要包括3部分內(nèi)容:一是Actor網(wǎng)絡(luò)與環(huán)境進(jìn)行交互并將獲得的關(guān)鍵信息存儲(chǔ)在經(jīng)驗(yàn)池內(nèi);二是利用Critic網(wǎng)絡(luò)計(jì)算狀態(tài)價(jià)值和折扣獎(jiǎng)勵(lì),進(jìn)而計(jì)算優(yōu)勢函數(shù)并對(duì)Critic網(wǎng)絡(luò)進(jìn)行權(quán)重更新;三是利用采樣網(wǎng)絡(luò)計(jì)算重要性采樣比,從而對(duì)Actor網(wǎng)絡(luò)進(jìn)行權(quán)重更新。其中采樣網(wǎng)絡(luò)權(quán)重與Actor網(wǎng)絡(luò)權(quán)重完全一致,但更新滯后于Actor網(wǎng)絡(luò)。
3.1.1 Critic網(wǎng)絡(luò)訓(xùn)練
根據(jù)梯度下降算法更新Critic網(wǎng)絡(luò)權(quán)重,更新方式為
3.1.2 Actor網(wǎng)絡(luò)訓(xùn)練
圖3 損失函數(shù)與重要性采樣比的函數(shù)示意圖
根據(jù)梯度上升算法更新Actor網(wǎng)絡(luò)權(quán)重,更新方式為
利用深度強(qiáng)化學(xué)習(xí)方法求解IES動(dòng)態(tài)調(diào)度問題的框架如圖4所示。
圖4 動(dòng)態(tài)調(diào)度問題求解流程
深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練結(jié)果與環(huán)境的初始狀態(tài)關(guān)系密切,為降低利用訓(xùn)練完成的模型獲得調(diào)度結(jié)果的偶然性,同時(shí)為進(jìn)一步提升模型在應(yīng)對(duì)源荷不確定性時(shí)的適用性,將模型訓(xùn)練過程中每輪訓(xùn)練的初始狀態(tài)以隨機(jī)抽樣的方式獲得,并從經(jīng)驗(yàn)池隨機(jī)抽樣小批量樣本對(duì)智能體的網(wǎng)絡(luò)權(quán)重進(jìn)行訓(xùn)練更新。利用訓(xùn)練數(shù)據(jù)對(duì)基于PPO算法的深度強(qiáng)化學(xué)習(xí)模型完成離線訓(xùn)練后將模型保存并應(yīng)用于IES的動(dòng)態(tài)調(diào)度決策。
本節(jié)以圖1所示的IES作為算例進(jìn)行仿真研究,通過對(duì)比分析不同時(shí)間尺度和不同調(diào)度方法下的求解結(jié)果,驗(yàn)證本文所提方法的有效性。
IES中的電負(fù)荷、熱負(fù)荷和光伏出力數(shù)據(jù)來源于國內(nèi)某重點(diǎn)項(xiàng)目園區(qū),該數(shù)據(jù)包含隨機(jī)性,能充分體現(xiàn)IES中源與荷的不確定性。系統(tǒng)內(nèi)設(shè)備的運(yùn)行參數(shù)見表1,設(shè)備的其他參數(shù)見表2[22-23]。
IES與主電網(wǎng)交互功率范圍為[-2.5, 2.5] MW,天然氣購買量的范圍為[0, 400] m3,電儲(chǔ)能的容量為2 MWh。系統(tǒng)電價(jià)采用如表3所示的分時(shí)電價(jià),其中谷時(shí)段為23:00—07:00,平時(shí)段為07:00—12:00、19:00—23:00,峰時(shí)段為12:00—19:00。天然氣單價(jià)為固定價(jià)格3.95元/m3,天然氣熱值為9.88 kW/m3,電功率和熱功率的供需不平衡單價(jià)均為固定價(jià)格0.3元/kWh。
表1 IES設(shè)備的運(yùn)行參數(shù)
表2 IES設(shè)備的其他參數(shù)
本文提出的深度強(qiáng)化學(xué)習(xí)方法通過TensorFlow平臺(tái)實(shí)現(xiàn)。智能體接收電負(fù)荷、熱負(fù)荷和光伏出力的訓(xùn)練數(shù)據(jù)后對(duì)深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,訓(xùn)練過程中的超參數(shù)依據(jù)經(jīng)驗(yàn)值選取,并根據(jù)參考文獻(xiàn)和訓(xùn)練過程做動(dòng)態(tài)調(diào)整,直至算法收斂至最大獎(jiǎng)勵(lì)值。深度強(qiáng)化學(xué)習(xí)模型Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的隱藏層層數(shù)均為3,每層含有64個(gè)神經(jīng)元,隱藏層的激活函數(shù)均為ReLU,網(wǎng)絡(luò)權(quán)重更新采用Adam優(yōu)化器。經(jīng)驗(yàn)池的大小為1000,小批量樣本數(shù)為96,模型訓(xùn)練輪數(shù)為10 000,剩余的其他超參數(shù)見表4。
表4 其他超參數(shù)
首先選取系統(tǒng)調(diào)度總時(shí)段為24 h、時(shí)間尺度大小為1 h的測試數(shù)據(jù)進(jìn)行求解分析,求解結(jié)果如圖5和圖6所示。
圖5是模型訓(xùn)練過程中智能體獎(jiǎng)勵(lì)值隨訓(xùn)練輪數(shù)的變化曲線。從圖5中可以看出該模型經(jīng)過約7000輪訓(xùn)練后收斂,訓(xùn)練初期智能體對(duì)環(huán)境不熟悉,智能體做出調(diào)度決策時(shí)獲得的獎(jiǎng)勵(lì)值較小。隨著訓(xùn)練的進(jìn)行,智能體與環(huán)境不斷交互并積累經(jīng)驗(yàn)從而更新網(wǎng)絡(luò)權(quán)重,因此智能體的獎(jiǎng)勵(lì)值會(huì)逐漸增大直至收斂,訓(xùn)練過程中獎(jiǎng)勵(lì)值的波動(dòng)性來自于源荷的不確定性。
圖5 智能體訓(xùn)練過程的獎(jiǎng)勵(lì)值變化
圖6是時(shí)間尺度大小為1 h時(shí)系統(tǒng)電功率和熱功率的動(dòng)態(tài)調(diào)度結(jié)果。從圖6(a)可以看出,系統(tǒng)與主電網(wǎng)交互的電功率是跟隨電價(jià)變化的。在電價(jià)的谷時(shí)段,系統(tǒng)從主電網(wǎng)購電滿足電負(fù)荷需求;在電價(jià)的平時(shí)段和峰時(shí)段,電負(fù)荷主要由熱電聯(lián)產(chǎn)機(jī)組和光伏出力滿足,而且在峰時(shí)段系統(tǒng)將熱電聯(lián)產(chǎn)機(jī)組多產(chǎn)生的電能售給主電網(wǎng),如12:00—15:00時(shí)段等。電儲(chǔ)能設(shè)備通過在電價(jià)谷時(shí)段充電并在電價(jià)峰時(shí)段放電來降低系統(tǒng)運(yùn)行成本,如04:00—07:00時(shí)段和17:00—18:00時(shí)段。從圖6(b)可以看出,電鍋爐輸出的熱功率同樣跟隨電價(jià)變化,在電價(jià)谷時(shí)段,系統(tǒng)熱負(fù)荷主要通過電鍋爐購電制熱來滿足;在電價(jià)平時(shí)段和峰時(shí)段,系統(tǒng)熱負(fù)荷主要由熱電聯(lián)產(chǎn)機(jī)組和燃?xì)忮仩t滿足。
本文所構(gòu)建的深度強(qiáng)化學(xué)習(xí)模型具有良好的擴(kuò)展性和適應(yīng)性,可以方便地應(yīng)用至不同時(shí)間尺度的動(dòng)態(tài)調(diào)度問題,只需在模型訓(xùn)練時(shí)調(diào)整與環(huán)境的交互步長。圖7展示的是時(shí)間尺度為15 min時(shí)相應(yīng)的動(dòng)態(tài)調(diào)度結(jié)果。
從圖7可以看出,系統(tǒng)與主電網(wǎng)交互的電功率和電儲(chǔ)能設(shè)備的充放電情況基本跟隨電價(jià)變化。在電價(jià)的谷時(shí)段,系統(tǒng)從主電網(wǎng)購電滿足電負(fù)荷需求,同時(shí)利用電鍋爐購電制熱滿足熱負(fù)荷需求。在電價(jià)的峰時(shí)段和光伏出力較大的時(shí)段,系統(tǒng)通過向主電網(wǎng)售電來降低系統(tǒng)運(yùn)行成本。
圖8 不同場景下訓(xùn)練過程智能體的動(dòng)作越限變化
場景1:將電負(fù)荷、熱負(fù)荷和光伏出力功率波動(dòng)偏差的期望均設(shè)置為0.4,標(biāo)準(zhǔn)差均設(shè)置為0.01。
場景2:將電負(fù)荷、熱負(fù)荷和光伏出力功率波動(dòng)偏差的期望均設(shè)置為0.4,標(biāo)準(zhǔn)差均設(shè)置為0.05。
場景3:將電負(fù)荷、熱負(fù)荷和光伏出力功率波動(dòng)偏差的期望均設(shè)置為0.4,標(biāo)準(zhǔn)差均設(shè)置為0.1。
從圖8可以看出,隨著源荷不確定性增加,訓(xùn)練過程中智能體動(dòng)作均被約束在限定范圍內(nèi),從而說明深度強(qiáng)化學(xué)習(xí)模型能夠自適應(yīng)學(xué)習(xí)系統(tǒng)中源荷的不確定性,而無需在模型中進(jìn)行人為假定。
圖9 部分設(shè)備的熱功率變化
由圖9可知,考慮熱力損耗之后各類設(shè)備能夠自適應(yīng)調(diào)整輸出功率以滿足園區(qū)的負(fù)荷需求,在電價(jià)的平時(shí)段和峰時(shí)段,熱電聯(lián)產(chǎn)機(jī)組和燃?xì)忮仩t輸出熱功率的變化較為明顯;在電價(jià)的谷時(shí)段,電鍋爐輸出熱功率的變化較為明顯,因此本文提出的方法對(duì)實(shí)際運(yùn)行系統(tǒng)具有較好的跟蹤學(xué)習(xí)能力。
為分析獎(jiǎng)勵(lì)函數(shù)的關(guān)鍵參數(shù)對(duì)本文所提方法的影響,選取6組典型參數(shù)對(duì)模型進(jìn)行訓(xùn)練并求解,圖10展示了不同參數(shù)下智能體在訓(xùn)練過程中獎(jiǎng)勵(lì)值的變化情況,圖11展示了不同參數(shù)下熱電聯(lián)產(chǎn)機(jī)組電功率的調(diào)度結(jié)果。
圖10 不同參數(shù)下訓(xùn)練過程智能體的獎(jiǎng)勵(lì)值變化
圖11 不同參數(shù)下熱電聯(lián)產(chǎn)機(jī)組電功率的調(diào)度結(jié)果
由圖10可知,智能體的獎(jiǎng)勵(lì)值在不同參數(shù)下均可以實(shí)現(xiàn)較好的收斂。獎(jiǎng)勵(lì)函數(shù)的縮放系數(shù)會(huì)影響訓(xùn)練過程收斂值的大小,但不會(huì)影響收斂速度;而獎(jiǎng)勵(lì)函數(shù)的懲罰基值B會(huì)影響訓(xùn)練過程的收斂速度,但不會(huì)影響收斂值的大小。
由圖11可知,熱電聯(lián)產(chǎn)機(jī)組輸出的電功率跟隨購電電價(jià)的變化而變化。在購電電價(jià)的谷時(shí)段,熱電聯(lián)產(chǎn)機(jī)組輸出的電功率較小,縮放系數(shù)和懲罰基值B對(duì)輸出功率的影響較??;在購電電價(jià)的平時(shí)段和峰時(shí)段由于電價(jià)的提高和光伏對(duì)系統(tǒng)電功率的補(bǔ)充,熱電聯(lián)產(chǎn)機(jī)組輸出電功率的變化情況如圖中所示,縮放系數(shù)和懲罰基值B會(huì)影響熱電聯(lián)產(chǎn)機(jī)組輸出電功率在各時(shí)段的協(xié)調(diào),但對(duì)系統(tǒng)運(yùn)行總成本維持在較低水平的目標(biāo)影響較小。
為進(jìn)一步比較本文所提方法與其他調(diào)度方法的性能,將本文所提方法與基于DDPG算法的動(dòng)態(tài)調(diào)度方法以及傳統(tǒng)場景分析方法進(jìn)行比較。從測試數(shù)據(jù)集中隨機(jī)選取7個(gè)測試日并采用上述3種方法對(duì)得到的系統(tǒng)運(yùn)行成本進(jìn)行對(duì)比分析。其中調(diào)度總時(shí)段為24 h,時(shí)間尺度大小為1 h,傳統(tǒng)場景分析方法采用求解軟件進(jìn)行求解,運(yùn)行成本的統(tǒng)計(jì)結(jié)果如表5所示。
表5 不同調(diào)度方法的運(yùn)行成本
從表5可以看出,基于PPO算法的平均日運(yùn)行成本為31 222元;基于DDPG算法的平均日運(yùn)行成本為31 778元,較PPO算法增加了1.78%;基于傳統(tǒng)場景分析方法的平均日運(yùn)行成本為32 327元,較PPO算法增加了3.54%。從日運(yùn)行成本的最大值、最小值以及平均值來看,基于PPO算法的動(dòng)態(tài)調(diào)度方法較其他兩種調(diào)度方法獲得了更好的經(jīng)濟(jì)性能,能有效地降低系統(tǒng)運(yùn)行成本。
本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的IES動(dòng)態(tài)調(diào)度方法,該方法將IES動(dòng)態(tài)調(diào)度問題轉(zhuǎn)化為具有連續(xù)狀態(tài)和連續(xù)動(dòng)作的強(qiáng)化學(xué)習(xí)問題來處理,有效解決了維數(shù)災(zāi)難和信息缺失而造成的模型求解困難問題,同時(shí)避免了對(duì)源荷的不確定性進(jìn)行詳細(xì)建模分析。
算例結(jié)果表明,本文所提方法能夠較好地應(yīng)對(duì)不確定性環(huán)境造成光伏出力和負(fù)荷變化的隨機(jī)性;同時(shí)所構(gòu)建的深度強(qiáng)化學(xué)習(xí)模型在不同時(shí)間尺度下具有較好的擴(kuò)展性和適應(yīng)性。與其他優(yōu)化調(diào)度方法對(duì)比,本文所提方法在收斂性和經(jīng)濟(jì)性方面均具有較好的表現(xiàn)。
本文的研究重點(diǎn)在于滿足能源供需平衡的前提下合理安排機(jī)組出力以保證IES的經(jīng)濟(jì)性,缺乏對(duì)實(shí)現(xiàn)調(diào)度決策機(jī)理的解釋,未來將以數(shù)據(jù)驅(qū)動(dòng)與物理模型相融合的方式對(duì)決策機(jī)理做進(jìn)一步研究。
[1] 余曉丹, 徐憲東, 陳碩翼, 等. 綜合能源系統(tǒng)與能源互聯(lián)網(wǎng)簡述[J]. 電工技術(shù)學(xué)報(bào), 2016, 31(1): 1-13.
YU Xiaodan, XU Xiandong, CHEN Shuoyi, et al. A brief review to integrated energy system and energy internet[J]. Transactions of China Electrotechnical Society, 2016, 31(1): 1-13.
[2] WANG Y L, WANG Y D, HUANG Y J, et al. Optimal scheduling of the regional integrated energy system considering economy and environment[J]. IEEE Transactions on Sustainable Energy, 2019, 10(4): 1939-1949.
[3] 賈宏杰, 穆云飛, 余曉丹. 對(duì)我國綜合能源系統(tǒng)發(fā)展的思考[J]. 電力建設(shè), 2015, 36(1): 16-25.
JIA Hongjie, MU Yunfei, YU Xiaodan. Thought about the integrated energy system in China[J]. Electric Power Construction, 2015, 36(1): 16-25.
[4] KESHAVARZZADEH A H, AHMADI P. Multi-objective techno-economic optimization of a solar based integrated energy system using various optimization methods[J]. Energy Conversion and Management, 2019, 196: 196-210.
[5] 鄭國太, 李昊, 趙寶國, 等. 基于供需能量平衡的用戶側(cè)綜合能源系統(tǒng)電/熱儲(chǔ)能設(shè)備綜合優(yōu)化配置[J]. 電力系統(tǒng)保護(hù)與控制, 2018, 46(16): 8-18.
ZHNEG Guotai, LI Hao, ZHAO Baoguo, et al. Comprehensive optimization of electrical/thermal energy storage equipments for integrated energy system near user side based on energy supply and demand balance[J]. Power System Protection and Control, 2018, 46(16): 8-18.
[6] 帥挽瀾, 朱自偉, 李雪萌, 等. 考慮風(fēng)電消納的綜合能源系統(tǒng)“源-網(wǎng)-荷-儲(chǔ)”協(xié)同優(yōu)化運(yùn)行[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(19): 18-26.
SHUAI Wanlan, ZHU Ziwei, LI Xuemeng, et al. “Source-network-load-storage” coordinated optimization operation for an integrated energy system considering wind power consumption[J]. Power System Protection and Control, 2021, 49(19): 18-26.
[7] 劉洪, 陳星屹, 李吉峰, 等. 基于改進(jìn)CPSO算法的區(qū)域電熱綜合能源系統(tǒng)經(jīng)濟(jì)調(diào)度[J]. 電力自動(dòng)化設(shè)備, 2017, 37(6): 193-200.
LIU Hong, CHEN Xingyi, LI Jifeng, et al. Economic dispatch based on improved CPSO algorithm for regional power-heat integrated energy system[J]. Electric Power Automation Equipment, 2017, 37(6): 193-200.
[8] 崔楊, 閆石, 仲悟之, 等. 含電轉(zhuǎn)氣的區(qū)域綜合能源系統(tǒng)熱電優(yōu)化調(diào)度[J]. 電網(wǎng)技術(shù), 2020, 44(11): 4254-4264.
CUI Yang, YAN Shi, ZHONG Wuzhi, et al. Optimal thermoelectric dispatching of regional integrated energy system with power-to-gas[J]. Power System Technology, 2020, 44(11): 4254-4264.
[9] 袁泉, 吳云亮, 李豹, 等. 計(jì)及源荷不確定性的多時(shí)間尺度滾動(dòng)調(diào)度計(jì)劃模型與方法[J]. 電力系統(tǒng)保護(hù)與控制, 2019, 47(16): 8-16.
YUAN Quan, WU Yunliang, LI Bao, et al. Multi- timescale coordinated dispatch model and approach considering generation and load uncertainty[J]. Power System Protection and Control, 2019, 47(16): 8-16.
[10] 張大海, 贠韞韻, 王小君, 等. 考慮廣義儲(chǔ)能及光熱電站的電熱氣互聯(lián)綜合能源系統(tǒng)經(jīng)濟(jì)調(diào)度[J]. 電力系統(tǒng)自動(dòng)化, 2021, 45(19): 33-42.
ZHANG Dahai, YUN Yunyun, WANG Xiaojun, et al. Economic dispatch of integrated electricity-heat-gas energy system considering generalized energy storage and concentrating solar power plant[J]. Automation of Electric Power Systems, 2021, 45(19): 33-42.
[11] 郭尊, 李庚銀, 周明, 等. 考慮網(wǎng)絡(luò)約束和源荷不確定性的區(qū)域綜合能源系統(tǒng)兩階段魯棒優(yōu)化調(diào)度[J]. 電網(wǎng)技術(shù), 2019, 43(9): 3090-3100.
GUO Zun, LI Gengyin, ZHOU Ming, et al. Two-stage robust optimal scheduling of regional integrated energy system considering network constraints and uncertainties in source and load[J]. Power System Technology, 2019, 43(9): 3090-3100.
[12] 馬國真, 林毓軍, 張澤亞, 等. 計(jì)及源荷多重不確定性的綜合能源系統(tǒng)魯棒經(jīng)濟(jì)調(diào)度方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(20): 43-52.
MA Guozhen, LIN Yujun, ZHANG Zeya, et al. A robust economic dispatch method for an integrated energy system considering multiple uncertainties of source and load[J]. Power System Protection and Control, 2021, 49(20): 43-52.
[13] 王成山, 呂超賢, 李鵬, 等. 園區(qū)型綜合能源系統(tǒng)多時(shí)間尺度模型預(yù)測優(yōu)化調(diào)度[J]. 中國電機(jī)工程學(xué)報(bào), 2019, 39(23): 6791-6803, 7093.
WANG Chengshan, Lü Chaoxian, LI Peng, et al. Multiple time-scale optimal scheduling of community integrated energy system based on model predictive control[J]. Proceedings of the CSEE, 2019, 39(23): 6791-6803, 7093.
[14] 喬驥, 王新迎, 張擎, 等. 基于柔性行動(dòng)器-評(píng)判器深度強(qiáng)化學(xué)習(xí)的電-氣綜合能源系統(tǒng)優(yōu)化調(diào)度[J]. 中國電機(jī)工程學(xué)報(bào), 2021, 41(3): 819-833.
QIAO Ji, WANG Xinying, ZHANG Qing, et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning[J]. Proceedings of the CSEE, 2021, 41(3): 819-833.
[15] 王新迎, 趙琦, 趙黎媛, 等. 基于深度Q學(xué)習(xí)的電熱綜合能源系統(tǒng)能量管理[J]. 電力建設(shè), 2021, 42(3): 10-18.
WANG Xinying, ZHAO Qi, ZHAO Liyuan, et al. Energy management approach for integrated electricity-heat energy system based on deep Q-learning network[J]. Electric Power Construction, 2021, 42(3): 10-18.
[16] NAUG A, AHMED I, BISWAS G. Online energy management in commercial buildings using deep reinforcement learning[C] // 2019 IEEE International Conference on Smart Computing (SMARTCOMP), June 12-15, 2019, Washington DC, USA: 249-257.
[17] SCHREIBER T, ESCHWEILER S, BARANSKI M, et al. Application of two promising reinforcement learning algorithms for load shifting in a cooling supply system[J]. Energy and Buildings, 2020, 229.
[18] 王磊, 姜濤, 宋丹, 等. 基于靈活熱電比的區(qū)域綜合能源系統(tǒng)多目標(biāo)優(yōu)化調(diào)度[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(8): 151-159.
WANG Lei, JIANG Tao, SONG Dan, et al. Multi-objective optimal dispatch of a regional integrated energy system based on a flexible heat-to-electric ratio[J]. Power System Protection and Control, 2021, 49(8): 151-159.
[19] YU L, XIE W W, XIE D, et al. Deep reinforcement learning for smart home energy management[J]. IEEE Internet of Things Journal, 2020, 7(4): 2751-2762.
[20] PERERA A T D, WICKRAMASINGHE P U, NIK V M, et al. Introducing reinforcement learning to the energy system design process[J]. Applied Energy, 2020, 262.
[21] YANG T, ZHAO L Y, LI W, et al. Reinforcement learning in sustainable energy and electric systems: a survey[J]. Annual Reviews in Control, 2020, 49: 145-163.
[22] 楊挺, 趙黎媛, 劉亞闖, 等. 基于深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動(dòng)態(tài)經(jīng)濟(jì)調(diào)度[J]. 電力系統(tǒng)自動(dòng)化, 2021, 45(5): 39-47.
YANG Ting, ZHAO Liyuan, LIU Yachuang, et al. Dynamic economic dispatch for integrated energy system based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(5): 39-47.
[23] YANG T, ZHAO L Y, LI W, et al. Dynamic energy dispatch strategy for integrated energy system based on improved deep reinforcement learning[J]. Energy, 2021, 235.
Dynamic dispatch of an integrated energy system based on deep reinforcement learning in an uncertain environment
LIN Weishan1, WANG Xiaojun1, SUN Qingkai1, LIU Zhao1, HE Jinghan1, PU Tianjiao2
(1. School of Electrical Engineering, Beijing Jiaotong University, Beijing 100044, China;2. China Electric Power Research Institute Co., Ltd., Beijing 100192, China)
As the uncertainties of intermittent energy and load in the integrated energy system gradually increase, traditional dispatch methods are limited to fixed physical models and parameter settings that can hardly respond to the random fluctuations in the dynamic system with source-load. In this paper, a deep reinforcement learning-based dynamic dispatch method for the integrated energy system is proposed to address this problem. First, a data-driven deep reinforcement learning model is constructed for the integrated energy system. Through the continuous interaction between agent and integrated energy system, the dispatch strategies are learned adaptively to reduce dependence on the physical models. Secondly, the variations of source-load uncertainties are characterized by adding random disturbances. Pivotal aspects such as state spaces, action spaces, reward mechanisms and the training process of the deep reinforcement learning model are improved according to the characteristics of uncertainties. Then a proximal policy optimization algorithm is used to solve the problem, and the dynamic dispatch decisions of the integrated energy system are realized. Finally, simulation results verify the feasibility and effectiveness of the proposed method over different time scales and in uncertain environments.
integrated energy system; dynamic dispatch; uncertainties; deep reinforcement learning; proximal policy optimization
10.19783/j.cnki.pspc.211685
2021-12-10;
2022-01-24
藺偉山(1997—),男,碩士研究生,研究方向?yàn)槿斯ぶ悄茉诰C合能源系統(tǒng)中的應(yīng)用;E-mail: 20121455@bjtu.edu.cn
王小君(1978—),男,通信作者,博士,教授,研究方向?yàn)殡娏ο到y(tǒng)分析與控制、綜合能源系統(tǒng)優(yōu)化運(yùn)行;E-mail: xjwang1@bjtu.edu.cn
孫慶凱(1992—),男,博士研究生,研究方向?yàn)槿斯ぶ悄茉诰C合能源系統(tǒng)中的應(yīng)用。E-mail: sunqingkai_123@ 163.com
國家自然科學(xué)基金項(xiàng)目資助(51977005)
This work is supported by the National Natural Science Foundation of China (No. 51977005).
(編輯 周金梅)