国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于態(tài)勢利導(dǎo)的需求響應(yīng)自學(xué)習(xí)優(yōu)化調(diào)度方法

2022-12-13 09:29:44明威宇程時杰王少榮
電力系統(tǒng)自動化 2022年23期
關(guān)鍵詞:群組態(tài)勢調(diào)度

明威宇,李 妍,程時杰,龍 禹,徐 菁,王少榮

(強電磁工程與新技術(shù)國家重點實驗室,華中科技大學(xué),湖北省武漢市 430074)

0 引言

隨著中國電力市場化改革的快速推進[1],用戶可選擇需求響應(yīng)(consumer choice resource,CCR)基于自身意愿主動參與到電力市場各項業(yè)務(wù)中[2-3]。通過對CCR 的調(diào)度,可以將負荷側(cè)資源配合電網(wǎng)運行加以充分利用,從而減少網(wǎng)損[4]、提升設(shè)備使用壽命[5]、改善用戶的用電體驗[6],在滿足網(wǎng)側(cè)精益化管理的同時實現(xiàn)用戶側(cè)降費提質(zhì)的需求。但CCR 受用戶主觀意愿和負荷動態(tài)物理特性等多因素影響[7-8],其優(yōu)化調(diào)度需要考慮多目標綜合優(yōu)化和系統(tǒng)運行的安全約束,協(xié)同眾多變量優(yōu)化求解,其優(yōu)化問題為具有復(fù)雜動態(tài)約束的混合整數(shù)非線性規(guī)劃模型,在配電網(wǎng)隨機運行方式下求解時,存在場景組合激增的問題,求解的復(fù)雜度隨求解時段數(shù)成指數(shù)增長,難以找到最優(yōu)解[9-10]。

隨著近年來數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法的發(fā)展[11-12],深度強化學(xué)習(xí)(deep reinforcement learning,DRL)在多個領(lǐng)域的序貫決策優(yōu)化問題中得到了廣泛應(yīng)用[13-15]。已有不少學(xué)者利用DRL 將電力系統(tǒng)隨機優(yōu)化決策問題映射至馬爾可夫決策過程(Markov decision process,MDP)模型,以自學(xué)習(xí)方式予以求解。文獻[16]對DRL 應(yīng)用于需求響應(yīng)業(yè)務(wù)的可行性與方法進行了探討,提出了基于DRL 的需求響應(yīng)業(yè)務(wù)開展架構(gòu)。文獻[17-18]關(guān)注到需求響應(yīng)業(yè)務(wù)側(cè)負荷的聯(lián)合競價及定價問題,利用基于DRL 的深度確定性策略梯度方法[18],基于MDP 對負荷的聯(lián)合競價及定價問題進行建模,建立動態(tài)競價響應(yīng)函數(shù),通過自學(xué)習(xí)歷史數(shù)據(jù)優(yōu)化終端用戶用電行為。文獻[19]利用改進深度確定性策略梯度算法計算樓宇級控制策略,建立調(diào)度中心-負荷聚集商-樓宇級控制單元-用戶的調(diào)度架構(gòu),將電采暖動作、用戶費用及調(diào)度成本等納入MDP,從而基于DRL 調(diào)度用電采暖參與需求響應(yīng)。文獻[20]依托演員-批評家結(jié)構(gòu)的DRL 算法,將工業(yè)設(shè)施中儲能設(shè)備的電能狀態(tài)、工業(yè)設(shè)備動作情況納入MDP,利用DRL 制定工業(yè)設(shè)施的最佳能源管理策略,實現(xiàn)需求響應(yīng)側(cè)業(yè)務(wù)優(yōu)化管理。文獻[21]基于DRL 將用戶不滿意度、售電商經(jīng)濟收益納入MDP,實現(xiàn)了激勵型需求響應(yīng)的補貼價格決策優(yōu)化。文獻[22]將電動汽車作為需求響應(yīng)資源,將電動汽車充放電動作、電網(wǎng)功率波動值等情況納入MDP,基于DRL 實現(xiàn)了需求響應(yīng)的優(yōu)化決策。綜上所述,DRL 求解CCR 優(yōu)化問題的有效性已得到廣泛關(guān)注。

本文基于態(tài)勢利導(dǎo)的需求響應(yīng)自學(xué)習(xí)優(yōu)化調(diào)度方法,首先,分析以電壓安全運行為約束條件,以供電公司經(jīng)濟補償和停電次數(shù)最小為目標的CCR 群組節(jié)點優(yōu)化調(diào)度數(shù)學(xué)模型;然后,構(gòu)建MDP 模型的CCR 群組節(jié)點態(tài)勢感知元組和態(tài)勢利導(dǎo)函數(shù);進而,通過對歷史負荷數(shù)據(jù)曲線的泛化處理,DRL 算法在ε-greedy 策略和經(jīng)驗池機制下訓(xùn)練態(tài)勢利導(dǎo)函數(shù),以預(yù)測電網(wǎng)運行狀態(tài)以及模擬用戶行為,通過自趨優(yōu)決策實現(xiàn)多組待選CCR 群組的優(yōu)選及其所包含節(jié)點的優(yōu)化調(diào)度;最后,以IEEE 33 節(jié)點為算例,對比分析競爭深度Q 網(wǎng)絡(luò)(dueling deep Q network,DDQN)結(jié) 構(gòu) 和 深 度Q 網(wǎng) 絡(luò)(deep Q network,DQN)結(jié)構(gòu)的CCR 群組優(yōu)選求解策略,體現(xiàn)了DDQN 結(jié)構(gòu)DRL 算法的優(yōu)越性,對比DDQN 結(jié)構(gòu)下不同規(guī)模的樣本數(shù)量的CCR 群組優(yōu)選求解策略,驗證了所提方法適應(yīng)多時間斷面復(fù)雜場景的有效性。

1 需求響應(yīng)優(yōu)化調(diào)度的數(shù)學(xué)模型

在保證CCR 群組節(jié)點響應(yīng)后電壓運行在安全范圍的前提下,供電公司因CCR 群組節(jié)點調(diào)度給予用戶經(jīng)濟補償將影響其售電利潤,且用戶側(cè)停電次數(shù)不能過多,因此優(yōu)化模型目標為電網(wǎng)經(jīng)濟補償與停電次數(shù)最小。優(yōu)化調(diào)度的目標函數(shù)如式(1)所示,其中第1 項為供電公司經(jīng)濟補償函數(shù),第2 項為停電次數(shù)懲罰函數(shù),由于兩者量綱不同,且數(shù)值存在數(shù)量級差距,故將其歸一化處理。考慮到當CCR 群組節(jié)點響應(yīng)后,電網(wǎng)節(jié)點電壓應(yīng)運行在合理范圍內(nèi),電壓運行懲罰函數(shù)如式(2)所示。

式中:NCCR為CCR 群組節(jié)點集合。本文定義響應(yīng)狀態(tài)集合為{響應(yīng),未響應(yīng)}。

在日調(diào)度周期T中,CCR 群組節(jié)點(即功率可觀測節(jié)點)有n個,在其響應(yīng)后對c個節(jié)點電壓進行觀測,在每個時間斷面的運行方式所滿足的潮流約束見附錄A,針對c個節(jié)點的電壓,需要針對2n個數(shù)據(jù)樣本,在2n個狀態(tài)空間中選擇一組優(yōu)化狀態(tài)。況且日調(diào)度周期T中如果有w個時間斷面,考慮到相鄰時間斷面的停電次數(shù)和供電公司售電利潤的優(yōu)化目標,故在一個周期內(nèi),需針對2nw個數(shù)據(jù)樣本,在2nw個狀態(tài)空間中選擇一組優(yōu)化狀態(tài)。因此,電網(wǎng)運行狀態(tài)隨機性會導(dǎo)致場景組合激增,求解的復(fù)雜度隨求解時段數(shù)呈指數(shù)增長,優(yōu)化模型難以找到最優(yōu)解。

2 態(tài)勢感知元組及態(tài)勢利導(dǎo)函數(shù)

本章基于MDP 建立自學(xué)習(xí)智能體態(tài)勢感知元組(S,A,R),其中S為態(tài)勢感知獲取的狀態(tài)集,A為響應(yīng)狀態(tài)動作集,R為環(huán)境理解函數(shù),基于態(tài)勢感知元組構(gòu)建態(tài)勢利導(dǎo)函數(shù),通過自趨優(yōu)態(tài)勢利導(dǎo)實現(xiàn)CCR 群組的優(yōu)選及其所包含節(jié)點的調(diào)度優(yōu)化。

1)態(tài)勢感知獲取的狀態(tài)集S

以配電網(wǎng)節(jié)點電壓和CCR 群組節(jié)點的響應(yīng)功率為感知量,配電網(wǎng)狀態(tài)和CCR 群組中節(jié)點的狀態(tài)構(gòu)成狀態(tài)集S,如式(4)所示。

3)環(huán)境理解函數(shù)R

為實現(xiàn)CCR 群組優(yōu)化調(diào)度目標,建立的環(huán)境理解函數(shù)R包括供電公司售電利潤函數(shù)、響應(yīng)狀態(tài)函數(shù)以及電壓運行回報函數(shù),如式(5)所示。

式中:Rt+1為在t+1 時刻的環(huán)境理解函數(shù)值,反映上一時刻響應(yīng)狀態(tài)的優(yōu)劣。

4)態(tài)勢利導(dǎo)函數(shù)

在態(tài)勢感知的基礎(chǔ)上建立態(tài)勢利導(dǎo)函數(shù),自學(xué)習(xí)智能體通過環(huán)境理解函數(shù)的激勵與懲罰實現(xiàn)決策優(yōu)劣的訓(xùn)練學(xué)習(xí),從而逐步實現(xiàn)自趨優(yōu)決策。態(tài)勢利導(dǎo)函數(shù)如式(10)所示。

式中:p為控制策略;ω和b為DRL 算法參數(shù);m為經(jīng)驗池容量;st∈S為t時刻環(huán)境的狀態(tài);at∈A為t時刻CCR 群組節(jié)點的響應(yīng)狀態(tài)。

式中:|A|為響應(yīng)狀態(tài)總數(shù);Relu(x)=max(0,x)為線性整流函數(shù);ω0為價值函數(shù)中與配電網(wǎng)狀態(tài)相關(guān)的參數(shù);ω1為價值函數(shù)中的結(jié)構(gòu)參數(shù);ω2為優(yōu)勢函數(shù)中與配電網(wǎng)狀態(tài)相關(guān)的參數(shù);ω3為優(yōu)勢函數(shù)中與響應(yīng)狀態(tài)相關(guān)的參數(shù);b0至b3為偏置量。

3 多隨機場景下CCR 的優(yōu)化調(diào)度決策

配電網(wǎng)隨機運行方式下求解時,為適應(yīng)多時間斷面下的復(fù)雜場景,本章對歷史負荷數(shù)據(jù)曲線進行泛化,基于泛化后的數(shù)據(jù),通過時序差分法更新迭代預(yù)設(shè)值矩陣,利用ε-greedy 策略選取最優(yōu)動作,并引入經(jīng)驗池機制保證神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最新的觀測狀態(tài)。

1)負荷數(shù)據(jù)曲線泛化

本文在初始負荷的基礎(chǔ)上,對非CCR 群組節(jié)點,根據(jù)其節(jié)點峰谷功率差值進行疊加隨機負荷,疊加基礎(chǔ)值ΔPl,t如式(15)所示:

式中:ΔPl,d為節(jié)點l的峰谷功率差值;PL,t為t時刻系統(tǒng)負荷需求;PG,t為t時刻根節(jié)點輸入功率;Nnode為配電網(wǎng)的節(jié)點集合。

假設(shè)非CCR 群組節(jié)點中節(jié)點π峰谷功率差值ΔPπ,d最大,將其作為平衡節(jié)點,其他非π節(jié)點且非CCR 群組節(jié)點l'可疊加的功率ΔP'l',t如式(16)所示:

式中:l'∈Nnode∩l'?NCCR,l'≠π;μ為[-1,1]區(qū)間內(nèi)的均勻分布值;ΔPl',d為節(jié)點l'的峰谷功率差值。

負荷數(shù)據(jù)曲線泛化后,各非CCR 群組節(jié)點功率如式(17)所示:

式中:l'∈Nnode∩l'?NCCR,l'≠π;Pl',t和P'l',t分別為泛化前、后節(jié)點l'在t時刻的功率;Pπ,t和P'π,t分別為泛化前、后節(jié)點π在t時刻的功率。

2)時序差分法機制

時序差分法搜索CCR 群組優(yōu)化調(diào)度策略如圖1所示。階段①初始狀態(tài)s1經(jīng)過動作ay至狀態(tài)sy,由式(5)計算R,并根據(jù)式(11)更新預(yù)設(shè)值矩陣,進入階段②,并重復(fù)上述計算過程?;赒-learning 算法[23],當已知優(yōu)化響應(yīng)狀態(tài)空間與訓(xùn)練次數(shù)逐漸增大時,算法將逐步收斂,預(yù)設(shè)值矩陣迭代更新過程如式(18)所示。預(yù)設(shè)值及歷史訓(xùn)練樣本生成流程圖如附錄B 圖B1 所示。

圖1 時序差分法搜索機制Fig.1 Searching mechanism of temporal difference method

3)ε-greedy 策略

訓(xùn)練過程中,學(xué)習(xí)初期隨機選擇動作從而積累觀察樣本,ε-greedy 策略如式(19)所示:

式中:randomA表示從響應(yīng)狀態(tài)動作集A中隨機選取 動 作;Ttr為 訓(xùn) 練 總 次 數(shù);ttr為 當 前 訓(xùn) 練 次 數(shù);β為[0,1]之間的隨機數(shù);ε為固定常數(shù)。

4)經(jīng)驗池設(shè)定

為了加快DRL 算法訓(xùn)練速度與精確度,對經(jīng)驗池采取以下設(shè)定:

(1)經(jīng)驗池設(shè)置容量上限,從而消除樣本采集時間接近而造成的強相關(guān)性。當產(chǎn)生樣本數(shù)量超過經(jīng)驗池容量時,則剔除掉最早的觀察樣本再存入新樣本。

(2)經(jīng)驗池設(shè)置觀察值,當訓(xùn)練次數(shù)小于觀察值時,不抽取訓(xùn)練樣本。當經(jīng)驗池中樣本數(shù)超過觀察值時,則從中隨機抽取小批量的觀測樣本,開展人工訓(xùn)練。

5)CCR 群組優(yōu)化調(diào)度策略求解

當觀測狀態(tài)由st變?yōu)閟t+1,進行以下3 個判斷步驟得到供電公司售電利潤函數(shù)、響應(yīng)狀態(tài)函數(shù)以及電壓運行回報函數(shù)的數(shù)值。首先,判斷U(i)END,t+1是否大于0.93Ue,根據(jù)式(6)計算電壓運行回報函數(shù)

式中:x=0,1,2,3。

在高維數(shù)據(jù)場景下態(tài)勢利導(dǎo)函數(shù)趨于收斂時,算法給出的CCR 群組節(jié)點狀態(tài)響應(yīng)空間可被視為該組CCR 群組節(jié)點在配電網(wǎng)調(diào)度下的最優(yōu)狀態(tài)空間。優(yōu)化求解流程圖如附錄B 圖B2 所示。

4 算例分析

4.1 隨機場景

本文基于IEEE 33 節(jié)點系統(tǒng)分析隨機場景,如圖2 所示。算例分析將分別針對15 min 采樣間隔和30 min 采樣間隔進行優(yōu)化策略求解,通過不同采樣間隔形成不同規(guī)模的樣本數(shù)量,驗證所提方法的有效性。在圖1 中,節(jié)點17、21、24、32 處安裝電壓量測裝置,節(jié)點13、14、16、29、30 以及31 作為CCR 群組節(jié)點與供電公司簽訂合同構(gòu)成CCR 群組,根節(jié)點及CCR 群組節(jié)點安裝功率量測裝置。在日調(diào)度周期中,針對4 個節(jié)點的電壓,需要在64 個狀態(tài)空間中選擇一組優(yōu)化狀態(tài)。當量測裝置數(shù)據(jù)采樣間隔為15 min 時,日調(diào)度周期中存在96 個時間斷面,需在日周期內(nèi)的2576個樣本數(shù)據(jù)中,從2576個狀態(tài)空間中進行策略優(yōu)選。當數(shù)據(jù)采樣間隔為30 min 時,日調(diào)度周期中存在48 個時間斷面,需在日周期內(nèi)的2288個樣本數(shù)據(jù)中,從2288個狀態(tài)空間中進行策略優(yōu)選。

圖2 基于DDQN 結(jié)構(gòu)的CCR 群組節(jié)點的優(yōu)化調(diào)度Fig.2 Optimal scheduling of nodes in CCR group based on DDQN structure

配電網(wǎng)的分時電價(購電和售電)以及所簽訂的合同內(nèi)容分別見附錄C 表C1 及表C2,CCR 群組見表C3。為了盡量模擬用戶用電的真實場景,體現(xiàn)用戶負荷運行方式的多樣性,算例模型中節(jié)點的實際日負荷曲線來源于IEEE 歐洲低壓試驗饋線[24]。

4.2 算法參數(shù)及分析

1)算法參數(shù)

2)態(tài)勢利導(dǎo)函數(shù)收斂分析

分別采用DDQN 結(jié)構(gòu)與DQN 結(jié)構(gòu)的DRL 算法的態(tài)勢利導(dǎo)函數(shù)衰減對比如附錄D 圖D1 所示。相比DQN 結(jié)構(gòu),DDQN 結(jié)構(gòu)的態(tài)勢利導(dǎo)函數(shù)衰減速度更快,衰減過程中波動更小,說明DDQN 具有更優(yōu)越的自學(xué)習(xí)能力。

3)學(xué)習(xí)率取值分析

學(xué)習(xí)率取值對比見附錄D 圖D2。當學(xué)習(xí)率α為0.007 時,態(tài)勢利導(dǎo)函數(shù)收斂最快且收斂值最小,即此時DRL 算法訓(xùn)練效果相對較優(yōu)。

4.3 優(yōu)選群組及優(yōu)化策略分析

數(shù)據(jù)采樣間隔為15 min 的情況下,各CCR 群組的計算值箱形圖如圖3 所示,N5 群組計算值最大,即為優(yōu)選群組,該計算值對應(yīng)的節(jié)點響應(yīng)狀態(tài)即為最優(yōu)狀態(tài)響應(yīng)空間。

圖3 N1 至N8 群組計算值箱形圖Fig.3 Box-plot of calculated values for groups N1 to N8

針對N5 群組基于DQN 和DDQN 的最優(yōu)響應(yīng)狀態(tài)空間(a(13)t,a(16)t,a(29)t,a(31)t)見表1。相對于基于DQN 的最優(yōu)決策,基于DDQN 的最優(yōu)決策累計停電次數(shù)更小。最優(yōu)響應(yīng)狀態(tài)下N5 群組節(jié)點核定削減負荷功率曲線如圖4 所示。

圖4 最優(yōu)響應(yīng)狀態(tài)下N5 群組節(jié)點核定削減負荷功率曲線Fig.4 Approved load reduction power curve of group N5 nodes in optimal response state

表1 基于DQN 和DDQN 的最優(yōu)響應(yīng)狀態(tài)空間Table 1 Optimal response state space based on DDQN and DQN

不同策略下的節(jié)點電壓標幺值如表2 所示,節(jié)點17、32 的電壓經(jīng)過基于DDQN 和DQN 的DRL 算法訓(xùn)練優(yōu)化CCR 群組節(jié)點的動作后,情況明顯得到改善。

表2 不同策略下的節(jié)點電壓標幺值Table 2 Per unit value of node voltage with different strategies

供電公司在CCR 群組節(jié)點的售電利潤以及單組CCR 的補償見表3。相對基于DQN 的最優(yōu)決策結(jié)果,基于DDQN 的最優(yōu)決策CCR 群組節(jié)點停電次數(shù)較少,改善了電壓運行狀態(tài)的同時,增大了供電公司的利潤,減小了補償費用。

表3 供電公司的售電利潤以及CCR 補償費用Table 3 Electricity sale profit of power supply company and CCR compensation cost

采樣間隔為30 min 時,針對N5 群組基于DDQN 的最優(yōu)響應(yīng)狀態(tài)空間(a(13)t,a(16)t,a(29)t,a(31)t)見表4,節(jié)點電壓標幺值如表5 所示。由表4 和表5 可以看出,數(shù)據(jù)樣本減少時策略仍然有效。

表4 基于DDQN 的最優(yōu)響應(yīng)狀態(tài)空間(30 min 采樣間隔)Table 4 Optimal response state space based on DDQN(sampling interval of 30 min)

表5 節(jié)點電壓標幺值(30 min 采樣間隔)Table 5 Per unit value of node voltage(sampling interval of 30 min)

5 結(jié)語

本文提出基于態(tài)勢利導(dǎo)的需求響應(yīng)自學(xué)習(xí)優(yōu)化調(diào)度方法,實現(xiàn)了多隨機場景下CCR 群組的優(yōu)選及對應(yīng)節(jié)點的優(yōu)化調(diào)度。主要工作如下:

1)針對需求響應(yīng)的顯著不確定性,本文基于MDP 將其數(shù)學(xué)模型映射至態(tài)勢感知元組,利用DRL 算法自適應(yīng)用戶行為和電網(wǎng)運行狀態(tài)的不確定性。

2)自學(xué)習(xí)智能體基于態(tài)勢利導(dǎo)函數(shù),通過環(huán)境理解函數(shù)的激勵與懲罰實現(xiàn)決策優(yōu)劣的訓(xùn)練學(xué)習(xí),針對不同數(shù)量的數(shù)據(jù)樣本實現(xiàn)了自趨優(yōu)決策。

3)本文設(shè)置負荷數(shù)據(jù)曲線泛化機制、ε-greedy貪婪策略和經(jīng)驗池機制,針對多隨機場景不同樣本,分別在DQN 和DDQN 架構(gòu)下開展自學(xué)習(xí),驗證了所提機制在隨機復(fù)雜場景下的性能優(yōu)越。

在雙碳戰(zhàn)略背景下,本文方法可為平抑規(guī)?;尤敕植际侥茉磶淼膹婋S機性提供參考,下一步將深入開展用戶側(cè)可再生能源發(fā)電的隨機性建模,探索新型電力系統(tǒng)需求側(cè)響應(yīng)隨機優(yōu)化運行的調(diào)度策略,為中國新型電力系統(tǒng)供需平衡、安全穩(wěn)定運行提供技術(shù)保障。

附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

猜你喜歡
群組態(tài)勢調(diào)度
2019年12月與11月相比汽車產(chǎn)銷延續(xù)了增長態(tài)勢
汽車與安全(2020年1期)2020-05-14 13:27:19
《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護手冊》正式出版
匯市延續(xù)小幅震蕩態(tài)勢
中國外匯(2019年19期)2019-11-26 00:57:36
一種基于負載均衡的Kubernetes調(diào)度改進算法
虛擬機實時遷移調(diào)度算法
我國天然氣供需呈現(xiàn)緊平衡態(tài)勢
關(guān)系圖特征在敏感群組挖掘中的應(yīng)用研究
電子測試(2018年14期)2018-09-26 06:04:10
基于統(tǒng)計模型的空間群組目標空間位置計算研究
縣鄉(xiāng)一體化探索呈加速態(tài)勢
SVC的RTP封裝及其在NS2包調(diào)度中的應(yīng)用研究
枞阳县| 宣化县| 贵港市| 南召县| 建瓯市| 井陉县| 青岛市| 富顺县| 招远市| 和硕县| 镇平县| 罗城| 丰原市| 根河市| 南昌市| 静安区| 滦南县| 三台县| 京山县| 丰县| 香格里拉县| 山西省| 浪卡子县| 临沧市| 青岛市| 凤山县| 永济市| 黔西县| 武夷山市| 柯坪县| 新邵县| 岐山县| 莱芜市| 云阳县| 咸阳市| 翼城县| 武陟县| 许昌县| 永清县| 玛曲县| 宁晋县|