張 帆,武東昊,陳玉萍,馮文波,張有兵,張雪松
(1.浙江華云電力工程設(shè)計咨詢有限公司,杭州 310026;2.浙江工業(yè)大學(xué)信息工程學(xué)院,杭州 310023;3.國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,杭州 310014)
隨著環(huán)境壓力的增加和可再生能源技術(shù)的發(fā)展,以化石能源為主的傳統(tǒng)電力系統(tǒng)正逐漸被化石能源與可再生能源協(xié)調(diào)使用的綜合能源系統(tǒng)IES(integrated energy system)所替代。而IES內(nèi)的多種類能源在提升系統(tǒng)靈活性、供能多樣性的同時,也為系統(tǒng)提高整體的能源利用率及實(shí)現(xiàn)經(jīng)濟(jì)運(yùn)行帶來了困難。因此,研究IES內(nèi)的多能協(xié)調(diào)優(yōu)化調(diào)度策略對于促進(jìn)可再生能源消納、提高系統(tǒng)經(jīng)濟(jì)性具有重要意義[1-3]。
針對IES的多能互補(bǔ)與經(jīng)濟(jì)運(yùn)行問題,文獻(xiàn)[4]研究了含風(fēng)電設(shè)備的熱-電-氣IES經(jīng)濟(jì)調(diào)度問題,并采用列約束生成算法進(jìn)行迭代求解;文獻(xiàn)[5-6]在配電網(wǎng)中可再生能源占比不斷提高的背景下,對考慮風(fēng)電消納的IES日前經(jīng)濟(jì)最優(yōu)調(diào)度策略進(jìn)行了研究;文獻(xiàn)[7]通過隨機(jī)規(guī)劃處理系統(tǒng)中可再生能源、負(fù)荷及實(shí)時電價帶來的波動,用以解決微電網(wǎng)經(jīng)濟(jì)調(diào)度問題;文獻(xiàn)[8]以區(qū)間形式描述風(fēng)電出力,利用混合整數(shù)規(guī)劃方法將IES中的非線性問題轉(zhuǎn)化為線性問題,然后經(jīng)CPLEX求解器對問題進(jìn)行求解。以上文獻(xiàn)對IES的研究主要集中在日前調(diào)度,依賴于對可再生能源出力、負(fù)荷需求等數(shù)據(jù)的預(yù)測,受限于固定的調(diào)度計劃,不能動態(tài)地對源和荷的隨機(jī)變化做出響應(yīng)。
為解決上述問題,近年來隨著人工智能技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)RL(reinforcement learning)算法受到越來越多的關(guān)注。已有研究將RL用于電力能源系統(tǒng)的經(jīng)濟(jì)調(diào)度和能量管理中[9-11],但是傳統(tǒng)的RL算法在面對IES的復(fù)雜環(huán)境時,無法合理地從環(huán)境中讀取狀態(tài)變量,易發(fā)生維數(shù)災(zāi)難,難以實(shí)現(xiàn)在綜合能源場景下的應(yīng)用與推廣。因此,同時具備環(huán)境感知能力和決策能力的深度強(qiáng)化學(xué)習(xí)DRL(deep reinforcement learning)算法,逐漸被研究者們關(guān)注。已有文獻(xiàn)開展了關(guān)于DRL算法在電力系統(tǒng)中的應(yīng)用研究,文獻(xiàn)[12]構(gòu)建了一種考慮孤島運(yùn)行的IES,并采用DRL來對所提出的孤島IES進(jìn)行控制,使所考慮的IES能合理運(yùn)行;文獻(xiàn)[13]根據(jù)負(fù)荷及光伏出力結(jié)合儲能設(shè)備供能,采用DRL算法對微電網(wǎng)系統(tǒng)進(jìn)行最優(yōu)能量調(diào)度;文獻(xiàn)[14]借助貝葉斯神經(jīng)網(wǎng)絡(luò)對不確定的學(xué)習(xí)環(huán)境建模,將微電網(wǎng)優(yōu)化運(yùn)行問題轉(zhuǎn)變?yōu)轳R爾可夫決策問題,并對微能源網(wǎng)進(jìn)行建模,通過DRL算法尋找最優(yōu)運(yùn)行策略。但是,以上研究DRL在IES中應(yīng)用的文獻(xiàn),大多為集中式?jīng)Q策,這種結(jié)構(gòu)的IES需要控制中心預(yù)先建立精確的網(wǎng)絡(luò)架構(gòu),并實(shí)時采集IES內(nèi)各設(shè)備運(yùn)行工況,這對于結(jié)構(gòu)復(fù)雜多變的IES來說難以實(shí)現(xiàn)。單個主體統(tǒng)一運(yùn)營的情況也與目前IES內(nèi)多個能源子系統(tǒng)相對獨(dú)立運(yùn)營的現(xiàn)狀不相符,在當(dāng)下的市場機(jī)制內(nèi)存在信息隱私的問題。
在已有的研究基礎(chǔ)上,為實(shí)現(xiàn)含多個能源子系統(tǒng)的IES優(yōu)化調(diào)度,本文的主要貢獻(xiàn)如下。
(1)提出了一種以最優(yōu)經(jīng)濟(jì)運(yùn)行為目標(biāo)的分布式園區(qū)IES優(yōu)化調(diào)度架構(gòu),并對各園區(qū)之間的能源交互進(jìn)行設(shè)計。在促進(jìn)各園區(qū)內(nèi)光伏消納的同時,提高了IES經(jīng)濟(jì)運(yùn)行的有效性。
(2)在所提架構(gòu)的基礎(chǔ)上,采用基于多智能體的DRL算法解決IES的動態(tài)調(diào)度問題。以實(shí)時獎勵函數(shù)代替目標(biāo)函數(shù),利用各園區(qū)內(nèi)的智能體與環(huán)境互動,尋找IES最優(yōu)調(diào)度策略,避免了傳統(tǒng)能源調(diào)度方式中無法實(shí)時響應(yīng)源荷隨機(jī)變動的問題。
(3)將所提算法與基于IES線性化模型的優(yōu)化算法進(jìn)行結(jié)果比較,證明了所提算法的有效性。
IES運(yùn)行優(yōu)化的目標(biāo)是在滿足用戶用能多樣性的同時,提高系統(tǒng)整體的能源利用率,實(shí)現(xiàn)系統(tǒng)的經(jīng)濟(jì)運(yùn)行。為此,本文提出了一種以最優(yōu)經(jīng)濟(jì)運(yùn)行為目標(biāo)的分布式園區(qū)IES優(yōu)化調(diào)度架構(gòu),通過合理地安排不同時間段園區(qū)內(nèi)設(shè)備的出力,促進(jìn)園區(qū)間能源共享,保證了IES的經(jīng)濟(jì)運(yùn)行。
本文研究的分布式園區(qū)IES架構(gòu)如圖1所示,包含多園區(qū)共享層和單園區(qū)消納層。
圖1 分布式園區(qū)IESFig.1 IES in distributed parks
在多園區(qū)共享層中,不同的多能源園區(qū)之間可進(jìn)行信息交流,并通過電壓等級為10 kV的配電線路進(jìn)行園區(qū)間的能源協(xié)調(diào)互補(bǔ)。園區(qū)間進(jìn)行能源交互時,能源富余的園區(qū)優(yōu)先考慮將多余的能源供給其他園區(qū),若在供給結(jié)束后仍有余能,則考慮將余能賣給外部能源供應(yīng)商;能源不足的園區(qū)優(yōu)先考慮園區(qū)間的內(nèi)部能源互濟(jì),若園區(qū)間的內(nèi)部供能仍無法滿足用能需求,則考慮向外部能源供應(yīng)商購能。因?yàn)楦鲌@區(qū)進(jìn)行能源交互時,熱能傳遞損耗率大、成本高,所以本文提及的園區(qū)間能源交互仍以電能交互為主,熱能僅用于滿足各園區(qū)內(nèi)的能源消耗,其園區(qū)間的電能交互可表示為
式中:E為實(shí)際獲得的其他園區(qū)供能;Ei,j為園區(qū)i向園區(qū)j的供給能源;η為園區(qū)間進(jìn)行電能交互時的能源損耗參數(shù),其由園區(qū)間的電壓等級和線路參數(shù)共同決定。
所提模型中各園區(qū)不需要清楚其他園區(qū)內(nèi)的設(shè)備運(yùn)行情況,僅通過本地的信息數(shù)據(jù),即可決定調(diào)度策略。在保護(hù)園區(qū)信息隱私的前提下,降低了各園區(qū)的運(yùn)行成本。
單園區(qū)能源消納模型如圖2所示。單個多能源園區(qū)平穩(wěn)運(yùn)行所需要的能源由其他園區(qū)、上級電網(wǎng)、天然氣源共同提供。園區(qū)內(nèi)包含電、熱兩種類型的負(fù)荷和燃?xì)廨啓C(jī)、燃?xì)忮仩t、光伏、電鍋爐、儲能電池等設(shè)備,各單元按照能量傳輸介質(zhì)用電、熱兩條能量總線連接。
圖2 單園區(qū)能源消納模型Fig.2 Energy absorption model of single park
1.2.1 目標(biāo)函數(shù)
多能源園區(qū)優(yōu)化調(diào)度的目標(biāo)函數(shù)是園區(qū)運(yùn)行總成本,主要是從上級電網(wǎng)購電的成本及從燃?xì)夤?yīng)商處購買天然氣的成本之和。目標(biāo)成本的函數(shù)為
式中:C為園區(qū)運(yùn)行總成本;Ce為向電網(wǎng)購電的成本;Cf為向燃?xì)夤?yīng)商購買天然氣的成本;T為系統(tǒng)調(diào)度的總時間段數(shù);Δt為時隙長度;εgrid(t)為t時段內(nèi)園區(qū)向電網(wǎng)的購售電價格;Pgird為t時段內(nèi)園區(qū)與電網(wǎng)的交互功率,Pgird為正表示向電網(wǎng)購電,Pgird為負(fù)表示向電網(wǎng)售電;εgas(t)為t時段內(nèi)天然氣的單位熱值價格;γ(t)為天然氣消耗速率。
1.2.2 約束條件
單園區(qū)優(yōu)化調(diào)度的約束包括功率平衡約束、電網(wǎng)交互功率約束和設(shè)備運(yùn)行約束。
1)功率平衡約束
多能源園區(qū)內(nèi)包含多種能源類型,但其主要考慮的功率平衡約束包括電功率平衡約束、熱功率平衡約束兩類,可表示為
式中:Pop(t)為t時段內(nèi)其他園區(qū)供能,Pop(t)為正時表示接受其他園區(qū)能量,Pop(t)為負(fù)時表示將能量供給其他園區(qū);Ppv(t)為t時段內(nèi)光伏設(shè)備輸出功率;Pgt(t)為t時段內(nèi)燃?xì)廨啓C(jī)輸出功率;Peb(t)為t時段內(nèi)電鍋爐需求功率;Pbes(t)為t時段內(nèi)儲能電池的充放電功率,Pbes(t)為正時表示儲能電池的放電功率,Pbes(t)為負(fù)時表示儲能電池的充電功率;heb(t)為t時段內(nèi)電鍋爐輸出熱功率;hgt(t)為t時段內(nèi)燃?xì)廨啓C(jī)回收熱功率;hbt(t)為t時段內(nèi)燃?xì)忮仩t輸出功率;Pload(t)、hload(t)分別為t時段內(nèi)需求側(cè)電、熱負(fù)荷。
2)電網(wǎng)交互功率約束
考慮到電網(wǎng)側(cè)的穩(wěn)定運(yùn)行,上級電網(wǎng)對多能源園區(qū)的功率交互有上下限約束要求,可表示為
3)設(shè)備運(yùn)行約束
多能源園區(qū)中各設(shè)備均有設(shè)備運(yùn)行上限、下限約束,對于燃?xì)忮仩t、燃?xì)廨啓C(jī)、電鍋爐的輸出功率及儲能電池充放電功率存在如下約束:
對于儲能電池,還需避免深度充放電對儲能電池的損害,因此儲能電池的荷電狀態(tài)需要被限定在一定范圍內(nèi),即
此外,為保證儲能電池能持續(xù)穩(wěn)定運(yùn)行,1個調(diào)度周期始末應(yīng)保持儲能容量相等,所以儲能電池充放電應(yīng)滿足
在分布式園區(qū)IES的優(yōu)化調(diào)度問題中,每時刻的光伏產(chǎn)能、儲能設(shè)備、用戶需求等環(huán)境信息都在發(fā)生變化,故其是一種具有時變性的動態(tài)調(diào)度問題。針對這一問題,本文采用一種基于多智能體深度Q網(wǎng)絡(luò)的DRL算法進(jìn)行求解。該算法將深度Q網(wǎng)絡(luò)中的神經(jīng)網(wǎng)絡(luò)模型看作智能體,通過神經(jīng)網(wǎng)絡(luò)對環(huán)境的強(qiáng)大表征能力,讀取IES的環(huán)境信息作為多智能體的輸入;然后,每個智能體根據(jù)所得到的環(huán)境信息輸出對應(yīng)動作,并根據(jù)執(zhí)行動作獲得獎勵;最后,通過采取的動作實(shí)現(xiàn)IES的優(yōu)化調(diào)度。本節(jié)對具體的多智能體DRL設(shè)計進(jìn)行描述。
IES環(huán)境提供給各智能體的信息一般為園區(qū)內(nèi)的光伏設(shè)備出力、儲能電池的荷電狀態(tài)及熱、電負(fù)荷需求。因此IES園區(qū)內(nèi)的狀態(tài)空間可以定義為
智能體觀測到IES園區(qū)內(nèi)的狀態(tài)信息后,根據(jù)自身策略在動作空間A中選擇1個動作。本文所考慮園區(qū)內(nèi)的動作設(shè)備,包括燃?xì)廨啓C(jī)、儲能電池和電鍋爐。對于燃?xì)廨啓C(jī),其動作是t時段內(nèi)燃?xì)廨啓C(jī)的輸出功率Pgt(t);對于儲能電池,其動作是t時段內(nèi)儲能電池的充放電功率Pbes(t);對于電鍋爐,其動作是t時段內(nèi)電鍋爐的輸出功率Peb(t)。因此IES的動作空間為
考慮到深度Q網(wǎng)絡(luò)算法無法輸出連續(xù)動作,所以對IES的動作空間做離散化處理,離散后的動作空間為
式中,g為離散化的粒度,粒度越大動作空間包含的動作越少,粒度越小動作空間可以描述的動作越多。
在DRL中獎勵負(fù)責(zé)引導(dǎo)智能體挖掘狀態(tài)信息中的決策相關(guān)因素并經(jīng)過提煉后用于動作空間中動作的選取。
在本文考慮的IES模型中,系統(tǒng)運(yùn)行成本來自于向電網(wǎng)購電的成本和購買天然氣的成本。根據(jù)式(2)將系統(tǒng)總成本最小化問題轉(zhuǎn)化為RL經(jīng)典的獎勵最大化形式。因此智能體在t時段內(nèi)獎勵rt可以定義為
在智能體學(xué)習(xí)IES優(yōu)化調(diào)度策略時,有可能會選擇不符合系統(tǒng)運(yùn)行約束條件的動作。面對這種情況需要定義智能體在采取越限動作時的懲罰,通過在獎勵函數(shù)中增加懲罰項(xiàng)來引導(dǎo)智能體做出正確的決策。
在第1節(jié)搭建的IES框架中存在各種設(shè)備運(yùn)行功率上下限約束、儲能電池的荷電狀態(tài)約束,以及儲能電池在1個調(diào)度周期始末需要保持荷電狀態(tài)相等的約束條件。在這些約束條件中,燃?xì)廨啓C(jī)的輸出功率約束、儲能電池的的充放電功率約束及電鍋爐的出力約束在設(shè)置智能體動作空間時就已經(jīng)進(jìn)行過考量,無需再對其額外處理。在面對其他約束條件時,本文通過在獎勵函數(shù)中增加懲罰項(xiàng)以使智能體學(xué)會合理的調(diào)度策略。懲罰項(xiàng)可以定義為
式中:d0為各設(shè)備出力功率越限時的懲罰,其數(shù)值設(shè)置為M,M為1個較小的負(fù)數(shù);d1為儲能電池出現(xiàn)過充或過放時的懲罰,其數(shù)值同樣設(shè)置為M;d2為儲能電池在1個調(diào)度周期始末保持荷電狀態(tài)相等的約束的懲罰項(xiàng)。由于深度Q網(wǎng)絡(luò)所能設(shè)定的動作空間內(nèi)只有離散動作,且儲能電池在進(jìn)行充放電動作時受充放電效率影響,所以在1個調(diào)度周期始末儲能電池荷電狀態(tài)無法達(dá)到完全相等,因此懲罰項(xiàng)d2可以定義為
若調(diào)度周期始末電荷狀態(tài)存在一定誤差,則d2=0,否則d2為1個遠(yuǎn)小于M的負(fù)數(shù)。根據(jù)以上獎勵與懲罰項(xiàng),獎勵函數(shù)R可以定義為
在多智能體深度Q網(wǎng)絡(luò)算法中各智能體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中輸入為狀態(tài)s,輸出為該智能體要采取的動作a。基于神經(jīng)網(wǎng)絡(luò)的智能體通過最大化獎勵來學(xué)習(xí)狀態(tài)和動作之間的映射,即動作-獎勵Q函數(shù)。
圖3 單智能體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neural network structure of single agent
多智能體深度Q網(wǎng)絡(luò)算法能夠通過各智能體間的協(xié)作有效地解決復(fù)雜任務(wù)。在第2節(jié)構(gòu)建的DRL框架中,智能體的訓(xùn)練過程可以概括為“集中學(xué)習(xí)、分散執(zhí)行”,屬于多智能體訓(xùn)練方案中的并行學(xué)習(xí)范疇,具有較高的計算效率。此外,多智能體深度Q網(wǎng)絡(luò)通過探索共享環(huán)境,將全局控制動作分配給IES各個分布式園區(qū)內(nèi)執(zhí)行協(xié)調(diào)動作的智能體。在這一環(huán)節(jié)中,每個園區(qū)內(nèi)的智能體不需要知道其他園區(qū)的具體信息,僅根據(jù)自己局部觀察的狀態(tài)信息即可選取動作,在園區(qū)間進(jìn)行信息交互時,保護(hù)了各園區(qū)的隱私。
多智能體訓(xùn)練循環(huán)如圖4所示。在多智能體訓(xùn)練過程中,智能體之間通過共享當(dāng)前觀察到的狀態(tài)s和動作a來選擇最優(yōu)行動組合。在每條經(jīng)驗(yàn)軌跡的訓(xùn)練中,各智能體都會根據(jù)當(dāng)前共享得到的環(huán)境信息,選取動作組合。在動作確定后,IES將會得到新的獎勵與環(huán)境信息,并對各園區(qū)內(nèi)智能體進(jìn)行局部更新。然后,以新的環(huán)境信息為基礎(chǔ)進(jìn)行下一輪的動作選擇,重復(fù)這一循環(huán)直至訓(xùn)練結(jié)束。
圖4 多智能體訓(xùn)練循環(huán)Fig.4 Multi-agent training cycle
各智能體中神經(jīng)網(wǎng)絡(luò)的作用是對在狀態(tài)s下采取動作a的價值(即動作值函數(shù)Q(s,a))進(jìn)行近似,可表示為
深度Q網(wǎng)絡(luò)通過Q-learning算法獲得神經(jīng)網(wǎng)絡(luò)可學(xué)習(xí)的目標(biāo)函數(shù),即構(gòu)建神經(jīng)網(wǎng)絡(luò)可優(yōu)化的損失函數(shù)L(θ)為
式中:θ為神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù);QPredict為預(yù)測網(wǎng)絡(luò)輸出的預(yù)測Q值;QTarget為目標(biāo)神經(jīng)網(wǎng)絡(luò)輸出的目標(biāo)Q值。
QPredict可表示為
式中:θi為智能體i的預(yù)測神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù);st為t時段的IES環(huán)境狀態(tài),即各園區(qū)內(nèi)的光伏設(shè)備出力、儲能電池的荷電狀態(tài)及熱、電負(fù)荷需求;at為預(yù)測神經(jīng)網(wǎng)絡(luò)根據(jù)t時段的狀態(tài)從動作空間A中選取的調(diào)度動作。當(dāng)IES執(zhí)行動作at時,獲得獎勵rt,同時系統(tǒng)進(jìn)入下一時段的環(huán)境狀態(tài)。
QTarget可表示為
在獲得損失函數(shù)后,采用自適應(yīng)矩估計算法Adam(adaptive moment estimation)對神經(jīng)網(wǎng)絡(luò)損失函數(shù)模型L(θ)的權(quán)重參數(shù)θ進(jìn)行求解,并將更新后的權(quán)重參數(shù)θ復(fù)制給預(yù)測神經(jīng)網(wǎng)絡(luò)。經(jīng)過固定輪次迭代后,將預(yù)測神經(jīng)網(wǎng)絡(luò)的相關(guān)參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),保持一段時間內(nèi)目標(biāo)Q值不變,降低預(yù)測Q值和目標(biāo)Q值的相關(guān)性,提高算法穩(wěn)定性。
深度Q網(wǎng)絡(luò)算法具有獨(dú)特的經(jīng)驗(yàn)池回放機(jī)制,在進(jìn)行每步循環(huán)操作時會將神經(jīng)網(wǎng)絡(luò)和微能源網(wǎng)環(huán)境交互得到的樣本數(shù)據(jù)(即當(dāng)前狀態(tài)、當(dāng)前選取動作、當(dāng)前動作獲得獎勵、下一時刻狀態(tài)及布爾值)存儲于經(jīng)驗(yàn)池中。當(dāng)需要對預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)訓(xùn)練時,從經(jīng)驗(yàn)池中隨機(jī)抽取小批量的歷史經(jīng)驗(yàn)樣本數(shù)據(jù)來對神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。
每個經(jīng)驗(yàn)樣本以(st,at,rt,st+1,done)5元組的形式存儲到經(jīng)驗(yàn)池中,其中done為布爾值類型,表示新的狀態(tài)st+1是否為終止?fàn)顟B(tài)。微能源網(wǎng)環(huán)境每執(zhí)行1步后,需要把執(zhí)行該步所獲得的經(jīng)驗(yàn)信息存儲于經(jīng)驗(yàn)池。在執(zhí)行數(shù)步后,從經(jīng)驗(yàn)池中隨機(jī)抽小批量經(jīng)驗(yàn)樣本數(shù)據(jù),輸入到預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中?;诔闃拥慕?jīng)驗(yàn)樣本數(shù)據(jù)執(zhí)行式(25),對預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中的參數(shù)θ、進(jìn)行更新。預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的具體更新訓(xùn)練流程如圖5所示。
圖5 基于數(shù)據(jù)驅(qū)動的智能體神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練過程Fig.5 Data-driven parameter training process of agent neural network
為了驗(yàn)證所提基于DRL的分布式園區(qū)IES調(diào)度策略的有效性,本文以圖1所示的分布式園區(qū)IES為算例進(jìn)行仿真。本文設(shè)定分布式園區(qū)數(shù)量為3,各園區(qū)配有光伏設(shè)備、儲能電池、燃?xì)廨啓C(jī)和燃?xì)忮仩t等設(shè)備參數(shù)見表1。實(shí)時電價為某小型產(chǎn)業(yè)園區(qū)實(shí)際電價數(shù)據(jù),天然氣價格固定為0.4¥/(kW·h)。仿真基于Python實(shí)現(xiàn)算法編寫,計算機(jī)配置為CPU Intel Core i5、內(nèi)存8 GB。
表1 微能源網(wǎng)系統(tǒng)設(shè)備相關(guān)參數(shù)Tab.1 Related equipment parameters of micro energy grid system
本文設(shè)計的各智能體在應(yīng)用于IES前,需要先通過歷史數(shù)據(jù)對其神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以得到適配于IES環(huán)境的網(wǎng)絡(luò)參數(shù)。訓(xùn)練采用的歷史數(shù)據(jù)為某工業(yè)園區(qū)1月—12月每15 min變動1次的實(shí)際光伏設(shè)備出力和電、熱負(fù)荷需求,部分歷史樣本數(shù)據(jù)如圖6所示。
圖6 智能體訓(xùn)練樣本數(shù)據(jù)Fig.6 Agent training sample data
以1月1日00:00為起始,智能體接收來自IES環(huán)境的狀態(tài)信息,然后根據(jù)第3節(jié)所述的學(xué)習(xí)過程進(jìn)行循環(huán)迭代,更新神經(jīng)網(wǎng)絡(luò)參數(shù),直至訓(xùn)練結(jié)束。訓(xùn)練時采用的電價數(shù)據(jù)如圖7所示。
圖7 各時段能源價格曲線Fig.7 Energy price curves in each period
經(jīng)過多次嘗試,本文設(shè)定多智能體DRL中經(jīng)驗(yàn)回放的樣本存儲量為480 000,每次小批量采樣規(guī)模為32,初始探索率為0.1,最終探索率為0.001,探索步數(shù)為1 600 000,學(xué)習(xí)率為0.01,每訓(xùn)練10次更新一次神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)。
本文所提各分布式園區(qū)內(nèi)的智能體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同,兩層分別有256、128個神經(jīng)元。在這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下進(jìn)行訓(xùn)練時,加入懲罰項(xiàng)對智能體所學(xué)策略進(jìn)行約束。
通過歷史數(shù)據(jù)對智能體神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,當(dāng)固定間隔達(dá)到10 000步時,在訓(xùn)練用數(shù)據(jù)外,采取1組隨機(jī)光伏設(shè)備出力和電、熱負(fù)荷需求數(shù)據(jù)為測試集。通過觀察智能體在測試集數(shù)據(jù)上進(jìn)行實(shí)時調(diào)度的平均獎勵,分析其是否已經(jīng)學(xué)會合理、有效的調(diào)度策略,平均獎勵的計算公式為
式中:N為調(diào)度天數(shù);為在調(diào)度天數(shù)內(nèi)各智能體神經(jīng)網(wǎng)絡(luò)對測試集進(jìn)行調(diào)度所獲得的平均獎勵總和。通過觀察平均獎勵的變化,可以對智能體的學(xué)習(xí)情況進(jìn)行了解,其平均獎勵變化過程如圖8所示。
圖8 IES平均獎勵總和收斂曲線Fig.8 Convergence curve of sum of average rewards for IES
從平均獎勵總和的變化曲線可以看出,園區(qū)智能體平均獎勵總和在迭代約1 500 000次時趨于穩(wěn)定,此時可以認(rèn)為各園區(qū)內(nèi)智能體已學(xué)會有效的調(diào)度策略。
在上述各園區(qū)內(nèi)智能體訓(xùn)練完畢的基礎(chǔ)上,采用訓(xùn)練樣本外某一日內(nèi)隨機(jī)的光伏設(shè)備出力和電、熱負(fù)荷需求數(shù)據(jù)進(jìn)行IES的優(yōu)化調(diào)度,得到基于多智能體DRL調(diào)度決策下的IES穩(wěn)定運(yùn)行的目標(biāo)成本約為1 120¥。該日各園區(qū)內(nèi)能源轉(zhuǎn)換設(shè)備的狀態(tài)變化如圖9所示。可以看出,智能體最終學(xué)會的策略使得園區(qū)內(nèi)各設(shè)備狀態(tài)每15 min變動1次,園區(qū)內(nèi)各設(shè)備出力在容許范圍內(nèi),而且儲能設(shè)備不會采取過度充放電的越限動作,最終會回到調(diào)度周期初始的電池荷電狀態(tài)附近,IES可持續(xù)穩(wěn)定運(yùn)行。
圖9 各園區(qū)能源轉(zhuǎn)換設(shè)備狀態(tài)變化Fig.9 State changes of energy conversion equipment in each park
在本文所提數(shù)學(xué)模型的基礎(chǔ)上,采用遺傳算法對分布式園區(qū)IES經(jīng)濟(jì)調(diào)度問題進(jìn)行求解,獲得的目標(biāo)成本約為1 255¥。此外,本文還采用了重擬線性化技術(shù)RLT(reformulation linearization technique)技術(shù)對所提出的框架進(jìn)行處理,并通過CPLEX求解獲得的目標(biāo)成本約為1 309¥,具體計算方法見附錄A。
不同方法下調(diào)度結(jié)果對比如表2所示。因?yàn)檫z傳算法相較于多智能體DRL算法在IES調(diào)度問題中存在更多的棄光行為,光伏消納程度較低。而經(jīng)RLT處理后進(jìn)行求解的方法相較于多智能體DRL算法,其無法顧及模型中的非線性關(guān)系。因此,相較其他兩種方法,基于多智能體的DRL算法對IES進(jìn)行調(diào)度的結(jié)果更優(yōu),驗(yàn)證了所提方法在促進(jìn)各園區(qū)內(nèi)的光伏消納的同時,提高了IES經(jīng)濟(jì)運(yùn)行的有效性。
表2 不同方法下調(diào)度結(jié)果對比Tab.2 Comparison of scheduling results among different methods
本文以分布式園區(qū)IES為研究對象,提出一種基于多智能體DRL的多能源協(xié)調(diào)互補(bǔ)優(yōu)化調(diào)度方法,以最優(yōu)經(jīng)濟(jì)運(yùn)行為目標(biāo),用于IES下的能量優(yōu)化調(diào)度。本文基于多智能體DRL的優(yōu)化調(diào)度方法,將IES的動態(tài)調(diào)度問題即隨機(jī)序貫決策問題轉(zhuǎn)變?yōu)轳R爾可夫決策過程,用實(shí)時獎勵函數(shù)和懲罰函數(shù)代替目標(biāo)函數(shù)和約束條件,利用神經(jīng)網(wǎng)絡(luò)與環(huán)境互動,尋找系統(tǒng)內(nèi)的最優(yōu)調(diào)度策略,實(shí)現(xiàn)了綜合能源網(wǎng)系統(tǒng)中的多能源協(xié)調(diào)互補(bǔ)優(yōu)化,有效地避免了傳統(tǒng)調(diào)度方式中無法實(shí)時響應(yīng)源荷隨機(jī)變動的問題。最后,通過仿真實(shí)驗(yàn)將訓(xùn)練后的智能體用于測試集數(shù)據(jù)進(jìn)行調(diào)度決策,并將其獲得的目標(biāo)成本和經(jīng)由傳統(tǒng)調(diào)度方法求解獲得的目標(biāo)成本進(jìn)行比較,驗(yàn)證了所提算法的有效性。
本文在實(shí)現(xiàn)分布式園區(qū)IES協(xié)調(diào)優(yōu)化調(diào)度時,對于園區(qū)間的交互機(jī)制及系統(tǒng)內(nèi)部市場等方面仍然有不足之處。因此后續(xù)將繼續(xù)研究如何構(gòu)建合理、有效的園區(qū)交互市場。