基于深度強化學(xué)習的微能源系統(tǒng)優(yōu)化調(diào)度*

2022-11-26 01:56馮國禮郭景維秦振威

電機與控制應(yīng)用 2022年11期

張波,馮國禮,郭景維,王敏,秦振威

(國網(wǎng)寧夏電力有限公司信息通信公司，寧夏銀川 750001)

0 引言

國際可再生能源署發(fā)布的《能源轉(zhuǎn)型之電網(wǎng)靈活性》報告中指出，到2050年，全球風電、光伏等可再生能源在未來電力系統(tǒng)中占比將達到85%[1]。國家發(fā)改委和國家能源局發(fā)布的《能源生產(chǎn)和消費革命戰(zhàn)略(2016—2030)》中指出，到2023年實現(xiàn)非化石能源發(fā)電量占全部發(fā)電量的比重力爭達到50%[2]。為實現(xiàn)我國能源革命戰(zhàn)略的順利實施，中央財經(jīng)委員會第九次會議提出構(gòu)建以新能源為主體的新型電力系統(tǒng)[3]，其基于可再生能源和清潔能源、以主干電網(wǎng)和微網(wǎng)構(gòu)成主要架構(gòu)，是一種可持續(xù)的電力發(fā)展模式[4-6]。

在新型電力系統(tǒng)中，微網(wǎng)不僅是規(guī)?；尤牒拖{可再生能源的重要環(huán)節(jié)，而且作為城市配網(wǎng)終端的主要聚合單元，通過自治運行能夠?qū)崿F(xiàn)對城市配網(wǎng)調(diào)度運行性能的優(yōu)質(zhì)支撐[7]。微網(wǎng)中存在多種能源供給和用能需求，通過經(jīng)濟安全的能量管理實現(xiàn)清潔能源的消納和多種能源的協(xié)調(diào)互補是重要的研究內(nèi)容之一。文獻[8]針對工業(yè)微網(wǎng)提出了兩階段多時間尺度調(diào)度策略，通過協(xié)調(diào)供能、蓄熱裝置實現(xiàn)多設(shè)備互補運行和成本降低；文獻[9-10]針對工業(yè)園微能源網(wǎng)構(gòu)建了考慮生產(chǎn)約束的經(jīng)濟性最優(yōu)調(diào)度模型，實現(xiàn)了工業(yè)生產(chǎn)調(diào)度時序性和用能需求多元性的結(jié)合；文獻[11]針對煉油工業(yè)提出一種降低用能成本的需求側(cè)能量調(diào)度方案；文獻[12]針對工業(yè)園空調(diào)系統(tǒng)提出一種雙層優(yōu)化模型，減小了用戶空調(diào)系統(tǒng)運行費用，并增加了用戶代理商利潤；文獻[13]針對工業(yè)園綜合能源系統(tǒng)提出考慮供能可靠性的能量調(diào)度方法，提升了綜合能源系統(tǒng)的供能可靠性和經(jīng)濟性。上述研究雖然從微網(wǎng)不同的方面提升調(diào)度運行的經(jīng)濟性，但均未有效考慮可再生能源和負荷波動特性的影響。

為應(yīng)對微網(wǎng)中源荷不確定性，文獻[14]采用隨機規(guī)劃方法對不確定性因素進行概率分布分析，而文獻[15-16]采用魯棒優(yōu)化方法對不確定性因素建模，雖然這些方法能夠有效刻畫不確定性，但是受到不確定性場景數(shù)目和最壞場景約束的影響，仍舊無法應(yīng)對源荷不確定性對微網(wǎng)經(jīng)濟調(diào)度的影響。隨著人工智能技術(shù)的發(fā)展，基于數(shù)據(jù)驅(qū)動的機器學(xué)習方法逐漸在優(yōu)化運行方面得到應(yīng)用和發(fā)展。深度強化學(xué)習(DRL)作為機器學(xué)習的一種典型代表，結(jié)合了深度學(xué)習強大的信息表征能力和強化學(xué)習的序列決策優(yōu)化能力，為多種優(yōu)化調(diào)度問題提供了一種新的解決途徑[17-18]，同時DRL的自主學(xué)習能力和自適應(yīng)能力在應(yīng)對不確定因素的影響時，具有明顯的優(yōu)勢。文獻[19-20]提出一種基于Q-learning方法的綜合能源微網(wǎng)優(yōu)化調(diào)度方法以應(yīng)對光伏出力和負荷需求的不確定性；文獻[21]采用深度確定性策略梯度算法(DDPG)提出一種自適應(yīng)不確定性經(jīng)濟調(diào)度方法，實現(xiàn)了任意場景下的電力系統(tǒng)動態(tài)經(jīng)濟調(diào)度。然而，基于Q-learning方法的強化學(xué)習算法只能處理離散動作的問題，而現(xiàn)實中眾多研究問題均為連續(xù)動作問題，同時基于Q-learning方法和DDPG方法的強化學(xué)習算法存在過估計的問題。

基于上述分析，針對以工業(yè)園為例的微能源系統(tǒng)，為應(yīng)對源荷不確定性產(chǎn)生的影響同時提升微能源系統(tǒng)的運行經(jīng)濟性，提出一種基于雙延遲深度確定性策略梯度(TD3)[22]的動態(tài)優(yōu)化調(diào)度方法。首先構(gòu)建了工業(yè)園微能源系統(tǒng)的經(jīng)濟調(diào)度模型，然后基于行動器-評判器(Actor-Critic)框架將經(jīng)濟調(diào)度模型表示為具有連續(xù)動作調(diào)節(jié)的DRL模型，并使用雙延遲深度確定性策略梯度算法獲取DRL模型下的動態(tài)連續(xù)調(diào)度策略，最后，通過對比算例分析，驗證所提方法的優(yōu)越性。

1 工業(yè)園微能源系統(tǒng)優(yōu)化調(diào)度模型

1.1 工業(yè)園微能源系統(tǒng)

工業(yè)園微能源系統(tǒng)由配電網(wǎng)和配氣網(wǎng)提供外部能量輸入，由屋頂分布式光伏提供內(nèi)部能量輸入。工業(yè)園微能源系統(tǒng)架構(gòu)圖如圖1所示，能量轉(zhuǎn)換設(shè)備有熱電聯(lián)產(chǎn)機組(CHP)、燃氣鍋爐(GB)、電鍋爐(EB)，能量存儲設(shè)備有蓄電池(BES)、空氣壓縮儲能系統(tǒng)(CAES)，用能設(shè)備有工業(yè)電負荷、工業(yè)熱負荷和氣負荷。

圖1 工業(yè)園微能源系統(tǒng)架構(gòu)圖

1.1.1 熱電聯(lián)產(chǎn)機組模型

熱電聯(lián)產(chǎn)機組輸出的電功率和熱功率為

PCHP(t)=QCHP(t)HNGηCHP

(1)

HCHP(t)=mPCHP(t)

(2)

式中:PCHP(t)和HCHP(t)分別為熱電聯(lián)產(chǎn)機組輸出的電功率和熱功率；QCHP(t)為熱電聯(lián)產(chǎn)機組消耗的天然氣量；HNG為天然氣熱值；ηCHP和m分別為熱電聯(lián)產(chǎn)機組產(chǎn)電效率和熱電比值。

熱電聯(lián)產(chǎn)機組需要滿足運行上下限約束，如下所示：

(3)

1.1.2 燃氣鍋爐模型

燃氣鍋爐通過消耗天然氣產(chǎn)生熱能，燃氣鍋爐輸出的熱功率如下所示：

HGB(t)=QGB(t)HNGηGB

(4)

式中:HGB(t)為燃氣鍋爐輸出的熱功率；QGB(t)為燃氣鍋爐消耗的天然氣量；ηGB為燃氣鍋爐產(chǎn)熱效率。

燃氣鍋爐需要滿足運行上下限約束，具體如下所示：

(5)

1.1.3 電鍋爐模型

電鍋爐輸出的熱功率如下所示：

HEB(t)=PEB(t)ηEB

(6)

式中:HEB(t)為電鍋爐輸出的熱功率；PEB(t)為電鍋爐消耗的電能；ηEB為電鍋爐電熱效率。

電鍋爐需要滿足運行上下限約束，如下所示：

(7)

1.1.4 蓄電池模型

蓄電池通過存儲和釋放電能實現(xiàn)可再生能源的消納、電能使用高峰時段轉(zhuǎn)移等。蓄電池的荷電狀態(tài)(SOC)如下所示：

(8)

式中:SBES(t)和SBES(t-1)分別為t時刻和上一時刻蓄電池的SOC；ηBES為蓄電池的充放電效率；PBES(t)為蓄電池的充放電功率；EBES為蓄電池容量；Δt為調(diào)度時間間隔。

蓄電池需要滿足運行上下限約束和SOC約束，如下所示：

(9)

1.1.5 CAES模型

CAES通過消耗電能將空氣壓縮至儲氣罐中，并通過調(diào)節(jié)儲氣罐中的壓力將空氣壓縮輸送到工廠氣動系統(tǒng)，如動力機械臂[9]。CAES儲氣量如下所示：

ECA(t)=ECA(t-1)-DCA(t)Δt+ηCAPCA(t)Δt

(10)

式中:ECA(t)、ECA(t-1)和DCA(t)分別為CAES在t時刻、上一時刻的儲氣量和CAES在t時刻的用氣量；PCA(t)為CAES中空壓機t時刻的輸出功率；ηCA為CAES壓縮機效率。

CAES需要滿足氣量連續(xù)性約束、氣罐壓力約束和CAES啟停約束，如下所示：

(11)

1.2 經(jīng)濟調(diào)度模型

1.2.1 目標函數(shù)

工業(yè)園微能源系統(tǒng)在保證工業(yè)生產(chǎn)任務(wù)要求的前提下，通過合理安排可控機組的調(diào)度計劃，可實現(xiàn)綜合運行成本最低的目標。微能源系統(tǒng)運行成本主要由購能成本、設(shè)備維護成本和碳排放成本構(gòu)成。微能源系統(tǒng)的經(jīng)濟調(diào)度目標函數(shù)如下所示：

(12)

式中:Cb、Co和Cce分別為微能源系統(tǒng)的購能成本、設(shè)備維護成本和碳排放成本;ce、cg、cb、cca和cce分別為市電電價、天然氣單位價格、蓄電池折損費用系數(shù)、CAES維護費用系數(shù)和碳排放費用系數(shù)，其中ce由上網(wǎng)電價csale和購電電價cbuy構(gòu)成;T為調(diào)度周期數(shù)。

1.2.2 約束條件

工業(yè)園微能源系統(tǒng)優(yōu)化調(diào)度約束包括電能、熱能、氣能平衡約束、購能約束和設(shè)備運行約束，如下所示：

(13)

(14)

2 基于DRL的經(jīng)濟調(diào)度方法

2.1 經(jīng)濟調(diào)度的強化學(xué)習框架設(shè)計

強化學(xué)習是機器學(xué)習中一種通過智能體和環(huán)境交互學(xué)習來制定最佳狀態(tài)-動作策略的方法。強化學(xué)習的核心是智能體和環(huán)境的交互。智能體通過觀測環(huán)境的狀態(tài)根據(jù)策略函數(shù)給出環(huán)境動作，并基于狀態(tài)和動作計算每一步獎勵，環(huán)境執(zhí)行智能體給定的動作并將新的狀態(tài)提供給智能體。智能體依據(jù)每一步的獎勵來尋找使累計獎勵最大化的狀態(tài)-動作策略。圖2所示為強化學(xué)習的核心框架。

圖2 強化學(xué)習核心框架

強化學(xué)習本質(zhì)可使用馬爾科夫決策過程(MDP)表述，即下一時刻狀態(tài)僅與當前時刻狀態(tài)和動作有關(guān)。MDP常表示為一個元組(S，A，Tp，R)，其中：S表示狀態(tài)空間；A表示動作空間；Tp表示狀態(tài)轉(zhuǎn)移函數(shù)，Tp：S×A×S′→[0,1]，即狀態(tài)S執(zhí)行動作后轉(zhuǎn)移到下一個狀態(tài)S′的概率；R表示獎勵函數(shù)，R:S×A→R，即發(fā)生狀態(tài)轉(zhuǎn)移時環(huán)境給出的即時獎勵。

(1) 狀態(tài)空間S。在工業(yè)園微能源系統(tǒng)的經(jīng)濟調(diào)度模型中，環(huán)境的觀測狀態(tài)包括負荷需求、屋頂光伏發(fā)電功率、蓄電池SOC和CAES儲氣狀態(tài)。狀態(tài)S可表示為

S=[PLHLELPPVSBESECA]

(15)

(2) 動作空間A。智能體的動作包括熱電聯(lián)產(chǎn)機組輸出的電熱功率、燃氣鍋爐輸出的熱功率、電鍋爐輸入電功率和輸出的熱功率、蓄電池的充放電功率、CAES輸入電功率和儲用氣量以及微能源系統(tǒng)與配電網(wǎng)交互功率。依據(jù)式(2)、式(4)、式(6)和式(13)，熱電聯(lián)產(chǎn)機組輸出的電功率、燃氣鍋爐輸出的熱功率和蓄電池的充放電功率是智能體必不可少的動作，其他動作均可由相應(yīng)的計算式得到。動作空間A可表示為

A=[PCHPHGBPBES]

(16)

(3) 狀態(tài)轉(zhuǎn)移函數(shù)f。智能體的狀態(tài)轉(zhuǎn)移函數(shù)如下所示：

st+1=f(st，at，σt)

(17)

式中：st和at分別為t時刻的狀態(tài)和動作；σt為t時刻的隨機項，即體現(xiàn)屋頂光伏發(fā)電功率和微能源系統(tǒng)負荷需求導(dǎo)致的隨機影響。

(4) 獎勵函數(shù)r。為實現(xiàn)工業(yè)園微能源系統(tǒng)的最小調(diào)度成本，將微能源系統(tǒng)的經(jīng)濟調(diào)度模型中目標函數(shù)式(12)改寫為獎勵函數(shù)如下所示：

rt=-k[Cb(st,at)+Co(st,at)+Cce(st,at)]-ξ

(18)

式中:rt為t時刻的獎勵函數(shù)值;k為比例因子;ξ為懲罰因子，當約束條件不滿足時，懲罰因子為常數(shù)，當約束條件滿足時，懲罰因子為0。

(5) 狀態(tài)-動作值函數(shù)Qπ(s,a)。智能體的策略π為狀態(tài)S到動作A的映射，智能體采用狀態(tài)-動作值函數(shù)Qπ(s,a)來衡量策略π的優(yōu)劣程度，如下所示：

(19)

式中:γ為折扣因子,γ∈[0,1]，表示未來獎勵在累積獎勵中所占比重;rt為t時刻的獎勵;Eπ[·]為策略π的期望。

最優(yōu)策略π*可表示如下：

π*=argmaxQπ(s,a)

(20)

2.2 經(jīng)濟調(diào)度的DRL部署

經(jīng)濟調(diào)度的強化學(xué)習框架設(shè)計中，智能體的動作A在現(xiàn)實場景中均為連續(xù)調(diào)節(jié)的變量，且狀態(tài)轉(zhuǎn)移函數(shù)f中包含不確定性因素影響的隨機項σt，僅通過強化學(xué)習應(yīng)對動作的連續(xù)調(diào)節(jié)和不確定性因素的影響將大大降低強化學(xué)習效率和適用性。深度學(xué)習是機器學(xué)習中一種基于對數(shù)據(jù)進行表征學(xué)習的方法，DRL將深度學(xué)習的感知能力和強化學(xué)習的決策能力相結(jié)合，有效提升強化學(xué)習的學(xué)習效率并極大地拓展了強化學(xué)習的使用范圍。

TD3算法基于Actor-Critic框架，由Q值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)兩部分構(gòu)成，策略網(wǎng)絡(luò)實現(xiàn)狀態(tài)S到動作A的映射，Q值網(wǎng)絡(luò)實現(xiàn)對策略網(wǎng)絡(luò)建立映射的量化評估，即狀態(tài)-動作值函數(shù)Qπ(s,a)。TD3算法通過增加Q值網(wǎng)絡(luò)和軟更新的方式抑制Qπ(s,a)的過高估計。Q值網(wǎng)絡(luò)將給出兩個狀態(tài)-動作值函數(shù)Qπ1(s,a)和Qπ2(s,a)，并取兩者的最小值作為最終Q值網(wǎng)絡(luò)的估計值，同時通過構(gòu)建與Q值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)相對應(yīng)的目標Q值網(wǎng)絡(luò)和目標策略網(wǎng)絡(luò)，采用軟更新的方式使Q值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)向目標Q值網(wǎng)絡(luò)和目標策略網(wǎng)絡(luò)傳遞參數(shù)，延緩Qπ(s,a)的更新速度。

基于DRL的工業(yè)園微能源系統(tǒng)經(jīng)濟調(diào)度智能體部署TD3算法，通過TD3算法的訓(xùn)練可使智能體的策略網(wǎng)絡(luò)具備任意環(huán)境狀態(tài)st下產(chǎn)生最優(yōu)動作at。TD3算法訓(xùn)練智能體的具體步驟如圖3所示。

圖3 TD3算法訓(xùn)練流程圖

3 算例分析

3.1 參數(shù)設(shè)置

本文以西北地區(qū)某工業(yè)園1#～3#生產(chǎn)廠房的微能源系統(tǒng)為例，1#～3#廠房屋頂光伏裝機容量為2 MW，配置熱電聯(lián)產(chǎn)機組350 kW，燃氣鍋爐300 kW，電鍋爐200 kW，蓄電池850 kW/850 kWh，CAES 300 kW，儲氣罐容量40 m3，最大、最小壓強5、3.5 Pa。1#～3#生產(chǎn)廠房通過一臺變壓器與配電網(wǎng)相連，微能源系統(tǒng)和配電網(wǎng)交互功率不大于3 MW。配電網(wǎng)分時電價：峰時段(12:00～19:00)0.59元、平時段(07:00～12:00，19:00～23:00)0.38元、谷時段(23:00～07:00)0.16元。配電網(wǎng)上網(wǎng)電價為0.2元，天然氣價格為1.9元/m3。微能源系統(tǒng)設(shè)備參數(shù)如表1所示。

表1 微能源系統(tǒng)設(shè)備參數(shù)

工業(yè)園微能源系統(tǒng)的調(diào)度周期為24 h，相鄰兩個調(diào)度時段的間隔為15 min。以西北地區(qū)某工業(yè)園1#～3#生產(chǎn)廠房3月～5月日負荷數(shù)據(jù)和光伏發(fā)電數(shù)據(jù)作為歷史數(shù)據(jù)對微能源系統(tǒng)經(jīng)濟調(diào)度智能體訓(xùn)練，使用6月的平均日負荷數(shù)據(jù)和平均光伏發(fā)電數(shù)據(jù)對智能體進行評估，如圖4所示?；赥D3算法的DRL參數(shù)如表2所示。

圖4 平均日負荷曲線和光伏發(fā)電曲線

表2 基于TD3算法的DRL參數(shù)

3.2 基于DRL微能源系統(tǒng)經(jīng)濟調(diào)度分析

3.2.1 基于TD3算法的微能源系統(tǒng)調(diào)度分析

使用歷史數(shù)據(jù)訓(xùn)練智能體：智能體接收電、熱、氣負荷和光伏發(fā)電數(shù)據(jù)，并生成熱電聯(lián)產(chǎn)機組電功率、燃氣鍋爐熱功率和蓄電池充放電功率指令；根據(jù)圖3對智能體的網(wǎng)絡(luò)參數(shù)進行調(diào)整，并在平均獎勵達到穩(wěn)定值后，保存智能體形成的策略，即微能源系統(tǒng)的經(jīng)濟調(diào)度策略，智能體訓(xùn)練過程中獎勵函數(shù)的變化如圖5所示。然后采用圖4所示的平均日負荷數(shù)據(jù)和平均光伏發(fā)電數(shù)據(jù)對智能體進行測試，基于TD3算法的微能源系統(tǒng)經(jīng)濟調(diào)度結(jié)果如圖6～圖8所示，其中圖6為電能調(diào)度結(jié)果，圖7為熱能調(diào)度結(jié)果，圖8為氣能調(diào)度結(jié)果。

圖5 基于TD3算法的微能源系統(tǒng)經(jīng)濟調(diào)度智能體訓(xùn)練圖

圖6 基于TD3算法的電能調(diào)度結(jié)果

圖7 基于TD3算法的熱能調(diào)度結(jié)果

圖8 基于TD3算法的氣能調(diào)度結(jié)果

圖5中陰影區(qū)和黑色曲線分別表示智能體訓(xùn)練過程中的獎勵值變化范圍和獎勵函數(shù)的均值。通過圖5可知基于TD3算法的智能體在400回合后逐漸收斂至穩(wěn)定獎勵值。圖6展示了光伏發(fā)電功率、向電網(wǎng)購售功率、蓄電池充放電功率、熱電聯(lián)產(chǎn)機組和電鍋爐消耗電功率，空壓機工作消耗電功率和工業(yè)園1#～3#生產(chǎn)廠房電負荷功率。如圖6所示，微能源系統(tǒng)電能調(diào)度中蓄電池在谷價時充電并在其他時段放電，同時蓄電池會吸收光伏和熱電聯(lián)產(chǎn)機組產(chǎn)生的多余電能(12:00～12:15，13:30～13:45)，此外電能調(diào)度中還會優(yōu)先消納光伏產(chǎn)生的電能以減低對市電的需求。圖7展示了熱電聯(lián)產(chǎn)、燃氣鍋爐和電鍋爐的熱功率，以及工業(yè)園1#～3#生產(chǎn)廠房熱負荷功率。工業(yè)園由于生產(chǎn)工序特性，電、熱、氣負荷功率呈現(xiàn)較為規(guī)律的波動變化，且西北地區(qū)天然氣存量豐富,成本經(jīng)濟。如圖7所示，微能源系統(tǒng)熱能調(diào)度中熱電聯(lián)產(chǎn)機組和燃氣鍋爐輸出熱功率占熱負荷需求的比重超過70%，而電鍋爐輸出的熱功率受分時電價影響，在谷價時段比平價和峰價時段輸出熱功率更多。在峰價時段由于熱電聯(lián)產(chǎn)機組和燃氣鍋爐輸出熱功率已達最大值，熱負荷需求不足的功率由電鍋爐補足。生產(chǎn)產(chǎn)線用氣量和儲氣罐儲氣量如圖8所示，微能源系統(tǒng)的氣能調(diào)度中儲氣罐在谷價時段通過空壓機的工作盡可能維持最大壓強，而在平價和峰價時段儲氣罐在滿足生產(chǎn)產(chǎn)線用氣量的基礎(chǔ)上，減少維持最大壓強的時刻以降低用電需求。通過上述調(diào)度結(jié)果分析，可知基于TD3算法的微能源系統(tǒng)調(diào)度智能體不僅能夠獲取全時段的最優(yōu)獎勵，同時在每個調(diào)度時段也探索最優(yōu)獎勵并影響全時段的最優(yōu)獎勵。

3.2.2 不同調(diào)度方法對比分析

為驗證提出的基于TD3算法的微能源系統(tǒng)經(jīng)濟調(diào)度方法的有效性，分別采用基于深度Q網(wǎng)絡(luò)(DQN)的微能源系統(tǒng)經(jīng)濟調(diào)度方法和基于預(yù)測信息的調(diào)度方法進行比較。其中，基于DQN的微能源系統(tǒng)經(jīng)濟調(diào)度方法采用負荷需求、屋頂光伏發(fā)電功率、蓄電池SOC和CAES儲氣狀態(tài)作為狀態(tài)觀測量，采用熱電聯(lián)產(chǎn)機組輸出的電功率PCHP、燃氣鍋爐輸出的熱功率HGB和蓄電池的充放電功率PBES為動作量，并將PCHP、HGB、PBES分別離散為{0,100,200,250,300,350}kW、{0,100,150,200}kW、{-850,-450,-280,-50,0,50,280,450,850}kW。DQN的折扣因子為0.99，學(xué)習率為0.001，批處理為64?；陬A(yù)測信息的調(diào)度方法采用神經(jīng)網(wǎng)絡(luò)對光伏發(fā)電功率和電、熱、氣負荷進行預(yù)測，然后采用優(yōu)化求解器進行求解。三種方法均采用西北地區(qū)某工業(yè)園1#～3#生產(chǎn)廠房6月平均日負荷數(shù)據(jù)和平均光伏發(fā)電數(shù)據(jù)進行調(diào)度結(jié)果比較，如表3所示。

表3 不同調(diào)度方法比較元

由表3可知，基于TD3的微能源系統(tǒng)調(diào)度方法調(diào)度總成本為49 785元，其中購能成本占比最大，為48 306元，維護成本占比最小，為60.263元?；赥D3的調(diào)度方法比基于DQN的調(diào)度方法調(diào)度總成本節(jié)約1 074元，主要節(jié)約在購能成本；基于TD3的調(diào)度方法比基于預(yù)測信息的調(diào)度方法調(diào)度總成本節(jié)約392元，同樣主要節(jié)約在購能成本。表3表明，基于DQN方法的動作為離散動作，無法對更細化的動作進行探索，基于預(yù)測信息的方法同實際信息存在誤差，而基于TD3方法的動作連續(xù)，能夠?qū)崿F(xiàn)對動作邊界范圍內(nèi)的所有值的選取和探索，同時其訓(xùn)練過程采用探索噪聲擾動確保了不同誤差情況下的有效探索，因而基于TD3的微能源系統(tǒng)經(jīng)濟調(diào)度方法減小了經(jīng)濟成本。

4 結(jié) 語

本文針對城市工業(yè)園微能源系統(tǒng)提出了一種基于TD3的動態(tài)調(diào)度方法，首先依據(jù)馬爾科夫決策過程，將微能源系統(tǒng)調(diào)度模型構(gòu)建為強化學(xué)習框架，設(shè)計包含購能成本、維護成本和碳排成本的微能源系統(tǒng)經(jīng)濟調(diào)度獎勵函數(shù)，然后采用Actor-Critic框架的TD3算法對智能體進行訓(xùn)練，最后以西北地區(qū)工業(yè)園微能源系統(tǒng)為例進行了有效性驗證。所提方法不僅能夠確保動作的連續(xù)性，避免獎勵值的過估計，同時所提方法不依賴于預(yù)測信息和不確定性建模，能夠保證源荷隨機波動時的調(diào)度策略有效性。通過與基于DQN的調(diào)度方法和基于預(yù)測信息的調(diào)度方法對比可知，所提基于TD3的微能源系統(tǒng)調(diào)度方法具有更好的經(jīng)濟性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡