国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的居民實(shí)時(shí)自治最優(yōu)能量管理策略

2022-01-11 08:12葉宇劍王卉宇GoranSTRBAC
電力系統(tǒng)自動(dòng)化 2022年1期
關(guān)鍵詞:時(shí)段用電負(fù)荷

葉宇劍,王卉宇,湯 奕,Goran STRBAC

(1. 東南大學(xué)電氣工程學(xué)院,江蘇省南京市 210096;2. 倫敦帝國(guó)理工學(xué)院電氣與電子工程系,倫敦SW72AZ,英國(guó))

0 引言

隨著分布式光伏、電動(dòng)汽車(electrical vehicle,EV)等柔性負(fù)荷及儲(chǔ)能(energy storage,ES)等分布式資源(distributed energy resource,DER)在居民智能用電中的普及[1],居民的能量管理面臨著由各類不確定性因素帶來(lái)的挑戰(zhàn)。與此同時(shí),智能電表和通信等技術(shù)的快速發(fā)展為監(jiān)測(cè)和控制居民DER 設(shè)備提供了關(guān)鍵的技術(shù)支撐[2],大數(shù)據(jù)和人工智能技術(shù)的發(fā)展則為能量管理優(yōu)化提供了數(shù)據(jù)驅(qū)動(dòng)的新途徑[3]。

家庭能量管理系統(tǒng)(home energy management system,HEMS)作為能量管理技術(shù)在用戶側(cè)的體現(xiàn),可有效管理用戶電能生產(chǎn)、使用及存儲(chǔ)過(guò)程[4]?,F(xiàn)有大部分文獻(xiàn)采用基于模型的最優(yōu)化方法作為技術(shù)路線。其中,文獻(xiàn)[5-7]采用確定性優(yōu)化模型,構(gòu)建各類DER 的運(yùn)行模型,依靠對(duì)負(fù)荷、光伏功率等的預(yù)測(cè),以最小化日用電成本為目標(biāo)優(yōu)化能量管理決策。然而,用戶側(cè)DER 運(yùn)行模型受到外部環(huán)境、用戶行為等因素的影響呈現(xiàn)出動(dòng)態(tài)變化,不確定性較強(qiáng)且模型構(gòu)建精度較低[8]。此外,用戶側(cè)負(fù)荷和光伏的強(qiáng)隨機(jī)性與間歇性使得預(yù)測(cè)誤差高于大電網(wǎng)的同類預(yù)測(cè)問(wèn)題[1],影響確定性優(yōu)化的性能。

為應(yīng)對(duì)不確定性,文獻(xiàn)[9]采用基于場(chǎng)景的隨機(jī)規(guī)劃方法,假設(shè)各不確定性參數(shù)所對(duì)應(yīng)的概率分布模型,通過(guò)蒙特卡洛模擬產(chǎn)生對(duì)應(yīng)的場(chǎng)景,但因受到外部因素的影響,所假設(shè)的概率分布往往與實(shí)際分布偏差較大。另外,問(wèn)題求解規(guī)模會(huì)隨著不確定性場(chǎng)景數(shù)目的增加而急劇擴(kuò)大。文獻(xiàn)[10]采用魯棒優(yōu)化模型以集合的方式來(lái)描述不確定性,以集合內(nèi)最劣場(chǎng)景下的最小成本為目標(biāo),最大限度地抑制不確定性對(duì)決策造成的干擾,但存在對(duì)集合構(gòu)建合理性的高依賴性和策略的保守性[11]。文獻(xiàn)[12-13]采用模型預(yù)測(cè)控制(model prediction control,MPC)以滾動(dòng)優(yōu)化的形式提升了魯棒性,但是計(jì)算負(fù)擔(dān)較大,且優(yōu)化性能直接受到預(yù)測(cè)誤差的影響。

上述基于模型的能量管理優(yōu)化方法的性能依賴于對(duì)各類DER 設(shè)備運(yùn)行模型構(gòu)建的精度,而追求精細(xì)化建模易使得優(yōu)化問(wèn)題具有非凸和非光滑特性,增大了求解難度與計(jì)算負(fù)擔(dān),使得所得策略多適用于線下的應(yīng)用,難以實(shí)現(xiàn)實(shí)時(shí)能量管理優(yōu)化的目標(biāo)[8]。強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為一種數(shù)據(jù)驅(qū)動(dòng)的人工智能技術(shù),在智能體與環(huán)境交互過(guò)程中學(xué)習(xí)策略達(dá)成回報(bào)最大化,不依賴于對(duì)被控對(duì)象的先驗(yàn)知識(shí)[14]。針對(duì)實(shí)時(shí)能量管理優(yōu)化問(wèn)題,RL 提供一種自趨優(yōu)式的策略學(xué)習(xí)方法,不依賴于對(duì)未來(lái)信息的準(zhǔn)確預(yù)測(cè),僅基于當(dāng)前對(duì)系統(tǒng)狀態(tài)的感知進(jìn)行策略優(yōu)化。 深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)兼具深度神經(jīng)網(wǎng)絡(luò)的普適函數(shù)逼近能力和強(qiáng)化學(xué)習(xí)的決策能力,在電力系統(tǒng)決策領(lǐng)域得到了廣泛應(yīng)用[15]。文獻(xiàn)[16-17]采用深度Q 網(wǎng)絡(luò)算法進(jìn)行家庭綜合需求響應(yīng)的在線優(yōu)化,但該算法不適用于高維連續(xù)動(dòng)作空間,若將空間離散化易產(chǎn)生維數(shù)災(zāi)[18]。文獻(xiàn)[19]采用深度策略梯度算法學(xué)習(xí)柔性負(fù)荷的啟停策略,而負(fù)荷功率則通過(guò)求解優(yōu)化問(wèn)題獲得,本質(zhì)上未實(shí)現(xiàn)無(wú)模型的負(fù)荷控制。另外,該算法因缺少策略評(píng)估環(huán)節(jié),面臨著梯度估計(jì)方差高導(dǎo)致的收斂速度較慢與策略次優(yōu)等問(wèn)題?;谏疃却_定性策略梯度算法,文獻(xiàn)[20]提出了面向用戶側(cè)多能源系統(tǒng)的優(yōu)化調(diào)控方法。該算法的優(yōu)化性能依賴于諸多超參數(shù)的調(diào)節(jié)[18],無(wú)法同時(shí)學(xué)習(xí)離散與連續(xù)的能量管理策略。

本文提出了基于近端策略優(yōu)化(proximal policy optimization,PPO)算法的無(wú)模型能量管理優(yōu)化方法。首先,對(duì)用戶DER 設(shè)備按運(yùn)行特性進(jìn)行分類,并用統(tǒng)一的三元組信息描述各類設(shè)備的運(yùn)行狀態(tài),確定相應(yīng)的能量管理動(dòng)作,將實(shí)時(shí)能量管理優(yōu)化問(wèn)題描述成序貫決策問(wèn)題。其次,以智能電表所采集的多源時(shí)序數(shù)據(jù)作為原始輸入,提出基于長(zhǎng)短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)的時(shí)序特征提取技術(shù),進(jìn)而輔助DRL 進(jìn)行序貫決策,在最小化用電成本的同時(shí)提升能量管理策略的魯棒性。另外,本文提出基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)-離散混合策略函數(shù),賦能在多維連續(xù)-離散混合的動(dòng)作空間中高效學(xué)習(xí)最優(yōu)的能量管理決策。最后,仿真驗(yàn)證了所提方法的有效性。

1 HEMS 建模

1.1 居民DER 設(shè)備分類及建模

本文給出了HEMS 的整體框架和各類常見(jiàn)家用設(shè)備。如圖1 所示,居民DER 設(shè)備一般包含分布式光伏、ES、不可轉(zhuǎn)移負(fù)荷和可轉(zhuǎn)移負(fù)荷,而可轉(zhuǎn)移負(fù)荷可再分為可中斷與不可中斷負(fù)荷[21-22]。

圖1 HEMS 結(jié)構(gòu)示意圖Fig.1 Schematic diagram of structure of HEMS

對(duì)于任意設(shè)備n∈{1,2,…,N},其中N為設(shè)備總數(shù),其t時(shí)刻運(yùn)行狀態(tài)sn,t可用以下三元組進(jìn)行描述:

式中:ωn,t∈{0,1}表示設(shè)備n在t時(shí)刻的運(yùn)行狀態(tài),其值為1 表示設(shè)備n在t時(shí)刻處于可運(yùn)行時(shí)段,為0則表示設(shè)備n在t時(shí)刻不可運(yùn)行;ρn,t∈[0,1]表示設(shè)備n在t時(shí)刻的任務(wù)完成進(jìn)度;πn,t描述設(shè)備n在t時(shí)刻的特有屬性。

1.2 可中斷負(fù)荷

可中斷負(fù)荷的用電功率具有連續(xù)可調(diào)性,本文主要考慮2 類典型可中斷負(fù)荷:暖通空調(diào)(heating,ventilation and air conditioning,HVAC)和EV。因ES 的運(yùn)行特性與EV 相似,故一同考慮。

1.2.1 HVAC

HVAC 具有制冷與制熱2 種模式,溫度設(shè)定值與運(yùn)行時(shí)段可根據(jù)用戶的需求靈活設(shè)定以保證用戶的舒適度。HVAC 的功率取決于溫度設(shè)定值、室內(nèi)與室外溫度、熱阻抗等因素,可在保證用戶舒適度的情況下綜合上述因素進(jìn)行功率調(diào)節(jié)[23]。HVAC 在t時(shí)刻的狀態(tài)根據(jù)三元組的定義可表示為:

式中:Toutt為t時(shí)刻的室外溫度;ηAC為熱轉(zhuǎn)化效率,其值為正代表制冷、為負(fù)代表制熱;Δt為每個(gè)控制時(shí)段的長(zhǎng)度;RAC和CAC分別為熱阻抗和熱容量。

1.2.2 EV 與ES

EV 因具備與電網(wǎng)之間的能量交互V2G(vehicle-to-grid)和與住宅之間的能量交互V2H(vehicle-to-home),是重要的能量存儲(chǔ)設(shè)備且具有較高的可調(diào)度性[24]。EV 運(yùn)行狀態(tài)的定義需滿足功率與能量的相關(guān)約束,并且作為一種交通設(shè)備,其接入與斷開(kāi)電網(wǎng)的時(shí)間與用戶行為有關(guān),具有隨機(jī)性。EV 在t時(shí)刻的狀態(tài)根據(jù)三元組的定義可表示為:

基于式(7),EV 電池t+1 時(shí)刻的SOC 可表示為[25]:

ES 與EV 的關(guān)鍵區(qū)別在于ES 的可充放電時(shí)段為全天,其余特性與EV 相似,因此,運(yùn)行狀態(tài)可按照上述方式類似描述。

1.3 不可中斷負(fù)荷

式中:SA 的可運(yùn)行時(shí)段為(tSAα,tSAβ),故SA 的運(yùn)行狀態(tài)ωSAt在該時(shí)段內(nèi)設(shè)定為1,在其余時(shí)段設(shè)定為0;ρSAt表示任務(wù)當(dāng)前的完成進(jìn)度,即已完成用電步驟占總步驟數(shù)目的比值;πSAt表示完成可運(yùn)行時(shí)段的剩余時(shí)間。

式(10)中,第1 個(gè)等式保證了SA 可連續(xù)按順序完成K個(gè)運(yùn)行步驟;第2 個(gè)等式確保SA 在截止時(shí)間前完成整個(gè)運(yùn)行周期;第3 個(gè)等式表示除SA 可運(yùn)行時(shí)段外,其余運(yùn)行周期無(wú)法被執(zhí)行。

圖2 智能家電的運(yùn)行狀態(tài)定義Fig.2 Definition of operation status of SAs

式中:t′=K。

1.4 實(shí)時(shí)能量管理優(yōu)化的馬爾可夫決策過(guò)程建模

家庭用電設(shè)備的實(shí)時(shí)能量管理優(yōu)化問(wèn)題可建模成一個(gè)馬爾可夫決策過(guò)程(Markov decision process,MDP),并采用無(wú)模型RL 的方法進(jìn)行策略優(yōu)化。MDP 通常由以下主要元素進(jìn)行描述。

1)智能體與環(huán)境:HEMS 作為本文中的智能體,與環(huán)境交互學(xué)習(xí)經(jīng)驗(yàn)并對(duì)能量管理策略進(jìn)行優(yōu)化。環(huán)境為1.2 節(jié)和1.3 節(jié)中描述的所有DER 設(shè)備構(gòu)成的用電系統(tǒng)。

2)狀態(tài)集(S):t時(shí)刻環(huán)境狀態(tài)st可定義為

4)獎(jiǎng)勵(lì)函數(shù)(R):能量管理的優(yōu)化目標(biāo)是在保證用戶舒適度和滿足各設(shè)備運(yùn)行約束下的用能費(fèi)用最小。因此,獎(jiǎng)勵(lì)函數(shù)rt的設(shè)置包含以下3 個(gè)部分。

(1)用能費(fèi)用:

(3)懲罰項(xiàng):針對(duì)EV 用戶而言,出行前需保證電池能量足夠出行,對(duì)于違反該運(yùn)行約束的部分可通過(guò)懲罰項(xiàng)施加在獎(jiǎng)勵(lì)函數(shù)上,該項(xiàng)表示為式(17)。

具體的MDP 表現(xiàn)為在每個(gè)控制時(shí)段,智能體(即HEMS)根據(jù)當(dāng)前觀測(cè)到的環(huán)境狀態(tài)st,按照當(dāng)前策略執(zhí)行對(duì)各設(shè)備的能量管理動(dòng)作at,環(huán)境在at的執(zhí)行后轉(zhuǎn)換至新的狀態(tài)st+1,智能體得到獎(jiǎng)勵(lì),接著通過(guò)RL 更新策略,從而達(dá)到實(shí)時(shí)感知環(huán)境狀態(tài)來(lái)進(jìn)行自趨優(yōu)式策略學(xué)習(xí)的效果。智能體學(xué)習(xí)的目標(biāo)在于求解最優(yōu)策略使T個(gè)運(yùn)行時(shí)段的總期望折扣獎(jiǎng)勵(lì)J(π)最大,目標(biāo)函數(shù)可表示為

式中:E 為數(shù)學(xué)期望;τ=(s0,a0,r0,s1,…)為智能體與環(huán)境不斷交互所產(chǎn)生的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)序列;π表示智能體所采用的策略,反映環(huán)境狀態(tài)到選擇動(dòng)作概率的映射關(guān)系;Π為策略集;γ∈[0,1]為折扣因子,以平衡短期與長(zhǎng)期回報(bào);T為控制時(shí)段總數(shù)。

2 基于LSTM 網(wǎng)絡(luò)的時(shí)序數(shù)據(jù)特征提取

用電DER 設(shè)備的運(yùn)行特性各異造成HEMS 感知信息的多元化,形成了復(fù)雜的高維度狀態(tài)空間。智能體觀測(cè)的環(huán)境狀態(tài)可分為:1)直接受動(dòng)作影響的內(nèi)部狀態(tài)特征,即用三元組描述的所有用電設(shè)備的運(yùn)行狀態(tài);2)不受動(dòng)作影響的外部狀態(tài)特征,包含具有高度不確定性的電價(jià)、負(fù)荷、光伏發(fā)電和室外溫度等時(shí)序數(shù)據(jù),這些都對(duì)智能體的序貫決策優(yōu)化有著較大影響。

針對(duì)上述問(wèn)題,本文采用深度學(xué)習(xí)方法,不依賴于對(duì)上述不確定性因素進(jìn)行概率建模,采用基于LSTM 神經(jīng)網(wǎng)絡(luò)[27]將上述多源時(shí)序數(shù)據(jù)作為原始輸入,提取其在長(zhǎng)時(shí)間尺度上的相似關(guān)聯(lián)特征以更好地描述當(dāng)前環(huán)境下的狀態(tài),以輔助DRL 進(jìn)行策略優(yōu)化,方法結(jié)構(gòu)如圖3 所示。

圖3 基于LSTM 和深度神經(jīng)網(wǎng)絡(luò)的時(shí)序特征提取及策略擬合示意圖Fig.3 Schematic diagram of sequential feature extraction and strategy fitting based on LSTM and deep neural network

LSTM 是一種非線性循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),因其兼顧數(shù)據(jù)的時(shí)序性與非線性,被廣泛用于電力系統(tǒng)負(fù)荷[28]及電價(jià)[29]預(yù)測(cè)等領(lǐng)域,突出特點(diǎn)在于可充分反映輸入的長(zhǎng)時(shí)間序列數(shù)據(jù)的長(zhǎng)期歷史過(guò)程[27],賦能對(duì)當(dāng)前環(huán)境狀態(tài)更好的感知,進(jìn)而輔助DRL 基于感知信息進(jìn)行策略優(yōu)化。

在本文家庭能量管理優(yōu)化問(wèn)題中,由于電價(jià)、室外溫度、負(fù)荷與光伏功率等不確定性因素在長(zhǎng)時(shí)間尺度上具有強(qiáng)相關(guān)性,故采用LSTM 進(jìn)行關(guān)于后者的提取。如圖3 所示,LSTM 網(wǎng)絡(luò)包含1 個(gè)輸入層、1 個(gè)輸出層以及J個(gè)隱藏層。LSTM 網(wǎng)絡(luò)輸入層包含式(12)中t-M+1 到t時(shí)刻之間M個(gè)時(shí)段的外部狀態(tài)特征數(shù)據(jù)。LSTM 網(wǎng)絡(luò)具備輸入門、遺忘門和輸出門間的門控機(jī)制[27],最后一層在t時(shí)刻輸出所提取外部狀態(tài)特征的未來(lái)走勢(shì),與內(nèi)部狀態(tài)特征合并后作為基于深度神經(jīng)網(wǎng)絡(luò)的策略函數(shù)的輸入。

LSTM 神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)對(duì)原始多源時(shí)序數(shù)據(jù)未來(lái)走勢(shì)的良好感知,以此提升能量管理策略應(yīng)對(duì)不確定性因素的能力。

本文提出基于深度神經(jīng)網(wǎng)絡(luò)的連續(xù)-離散混合策略函數(shù),不僅可以實(shí)現(xiàn)對(duì)SA 用電步驟執(zhí)行與否的離散動(dòng)作,還能夠?qū)崿F(xiàn)對(duì)HVAC、EV 和ES 的功率調(diào)節(jié)的連續(xù)動(dòng)作,克服了現(xiàn)有RL 算法通常只能輸出純離散或連續(xù)動(dòng)作的弊端。式(20)為連續(xù)-離散混合策略函數(shù),其中離散動(dòng)作服從伯努利分布B(p),連續(xù)動(dòng)作則服從高斯分布N(μ,σ2)。

式中:π(at|st)表示根據(jù)當(dāng)前觀測(cè)到的環(huán)境狀態(tài)st,按照當(dāng)前策略π執(zhí)行對(duì)各設(shè)備的能量管理動(dòng)作at;p為是否執(zhí)行SA 用電步驟的概率,即p(st|=1),其中表示t時(shí)刻第n個(gè)SA 是否執(zhí)行當(dāng)前運(yùn)行步驟;μ和σ2分別為對(duì)應(yīng)HVAC、EV 和ES 功率調(diào)節(jié)動(dòng)作的均值與標(biāo)準(zhǔn)差。

如圖3 所示,基于深度神經(jīng)網(wǎng)絡(luò)的策略(紅色虛線框)的輸入為t時(shí)刻所提取外部狀態(tài)特征的未來(lái)走勢(shì)以及t時(shí)刻智能體觀測(cè)到的內(nèi)部狀態(tài)特征,包括設(shè)備運(yùn)行狀態(tài)、運(yùn)行進(jìn)度和運(yùn)行屬性,輸出為概率分布所對(duì)應(yīng)的參數(shù)p、μ、σ2。最后,隨機(jī)策略依據(jù)所生成的概率分布取樣選擇t時(shí)刻的離散與連續(xù)動(dòng)作,賦能智能體同時(shí)學(xué)習(xí)離散與連續(xù)動(dòng)作,實(shí)現(xiàn)對(duì)各設(shè)備的良好控制。

3 PPO 算法原理及應(yīng)用流程

3.1 PPO 算法原理

基于上述對(duì)家庭能量管理優(yōu)化MDP 的介紹,以及對(duì)MDP 過(guò)程中各元素的定義,進(jìn)一步優(yōu)化智能體采用的策略函數(shù)。通過(guò)DRL 的更新策略,目標(biāo)為求解最優(yōu)策略使得在保證用戶舒適度和滿足各設(shè)備運(yùn)行約束下的日用能成本最小。

早期基于梯度的RL 算法采用數(shù)值或抽樣方法計(jì)算梯度,但難以確定合適的迭代學(xué)習(xí)率。因此,文獻(xiàn)[30]提出了處理隨機(jī)策略的置信域策略優(yōu)化(trust region policy optimization,TRPO)算法,算法中引入了可衡量新策略與舊策略差異程度的KL 散度(Kullback-Leibler divergence)定義置信域約束,通過(guò)選取合適的步長(zhǎng)使得策略更新后的獎(jiǎng)勵(lì)值單調(diào)不減。為降低TRPO 算法中二階Hessian 矩陣計(jì)算的復(fù)雜程度,提高計(jì)算效率,文獻(xiàn)[31]進(jìn)一步提出了基于一階導(dǎo)數(shù)策略優(yōu)化的PPO 算法。

作為基于策略梯度的DRL 算法,PPO 算法具有收斂穩(wěn)定、性能好的特性。此外,PPO 算法采用執(zhí)行器-評(píng)判器(Actor-Critic,AC)架構(gòu),圖4 描述了執(zhí)行器與評(píng)判器神經(jīng)網(wǎng)絡(luò)的更新流程。PPO 算法訓(xùn)練時(shí),從經(jīng)驗(yàn)回放庫(kù)中抽取一個(gè)小批量經(jīng)驗(yàn)樣本供網(wǎng)絡(luò)參數(shù)更新。評(píng)判器網(wǎng)絡(luò)通過(guò)時(shí)序差分誤差?的學(xué)習(xí)方法更新網(wǎng)絡(luò)參數(shù)φ,計(jì)算公式如下:

圖4 PPO 算法的離線訓(xùn)練流程示意圖Fig.4 Schematic diagram of off-line training process of PPO algorithm

式中:Vφ(st)為狀態(tài)值函數(shù)。

執(zhí)行器網(wǎng)絡(luò)則通過(guò)優(yōu)化改進(jìn)TRPO 算法的目標(biāo)函數(shù)更新網(wǎng)絡(luò)參數(shù)θ。PPO 算法不僅解決了一般策略梯度方法數(shù)據(jù)樣本利用率低和魯棒性差的問(wèn)題,還通過(guò)式(22)至式(28)對(duì)TRPO 算法的目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換以提高學(xué)習(xí)效率。

TRPO 算法的最終目標(biāo)函數(shù)為:

約束為:

式中:πθi+1和πθi分別代表新策略與舊策略;ρπθi為基于舊策略的狀態(tài)訪問(wèn)概率;Aπθi(s,a)為優(yōu)勢(shì)函數(shù),用來(lái)表征策略πθi下動(dòng)作at相對(duì)平均動(dòng)作的優(yōu)勢(shì);DKL(πθi//πθi+1)為新策略和舊策略之間的KL 散度;δ為置信域,用以限制KL 散度的范圍。

對(duì)式(22)中的目標(biāo)函數(shù)進(jìn)行一階近似并采用蒙特卡洛方法近似期望后為:

此外,PPO 算法為進(jìn)一步簡(jiǎn)化計(jì)算過(guò)程,對(duì)式(24)進(jìn)行了裁剪,進(jìn)而得到新的目標(biāo)函數(shù)Lclip。Lclip為算法規(guī)定了2 個(gè)約束,從而使新舊策略比率ξt約束到[1-ε,1+ε]之間,其中ε為裁剪率,確保能起到TRPO 算法中置信域δ的作用,即

其中

因此,Lclip實(shí)現(xiàn)了一種與隨機(jī)梯度下降兼容的置信域修正方法,并通過(guò)消除KL 損失來(lái)簡(jiǎn)化算法及降低適應(yīng)性修正的需求。

3.2 應(yīng)用流程

PPO 算法具體在本文的能量管理問(wèn)題的應(yīng)用流程分為離線訓(xùn)練和在線部署。

1)離線訓(xùn)練:圖4 所示為PPO 算法離線訓(xùn)練流程的示意圖。首先,分別初始化執(zhí)行器和評(píng)判器網(wǎng)絡(luò)參數(shù)θ和φ,在訓(xùn)練集中隨機(jī)選擇一天獲取其初始狀態(tài)s1。在每個(gè)控制時(shí)段t,智能體基于當(dāng)前狀態(tài)st(式(12))和策略πθi(a|s),選擇動(dòng)作at(式(13))改變環(huán)境狀態(tài)并獲得獎(jiǎng)勵(lì)rt(式(18)),將經(jīng)驗(yàn)(st,at,st+1,rt+1)存儲(chǔ)到經(jīng)驗(yàn)回放池。接著,通過(guò)隨機(jī)小批量抽取L個(gè)經(jīng)驗(yàn)樣本(sl,al,sl+1,rl+1),l=1,2,…,L,將(sl,al)輸入執(zhí)行器網(wǎng)絡(luò),根據(jù)式(25)計(jì)算新舊策略比率ξl。

訓(xùn)練評(píng)判器網(wǎng)絡(luò)時(shí),以小批量樣本中(sl,sl+1)為輸入,依據(jù)式(21)計(jì)算時(shí)序差分誤差?,更新網(wǎng)絡(luò)參數(shù)φ,并根據(jù)式(26)計(jì)算優(yōu)勢(shì)函數(shù)A^l(a,s)。最后,由式(27)、式(28)對(duì)其進(jìn)行裁剪得到最終的目標(biāo)函數(shù)Lclip,并更新網(wǎng)絡(luò)參數(shù)θ以得到新策略πθi+1(a|s)。在下一個(gè)控制時(shí)段,上述過(guò)程被重復(fù),直至完成共T個(gè)時(shí)段的序貫決策過(guò)程。

2)在線部署:智能體在線部署后的決策僅依靠已完成訓(xùn)練的執(zhí)行器網(wǎng)絡(luò),而無(wú)需評(píng)判器網(wǎng)絡(luò)。首先,載入執(zhí)行器網(wǎng)絡(luò)訓(xùn)練后的最優(yōu)參數(shù)θ*,獲取任一測(cè)試日初始狀態(tài)s1,在該測(cè)試日每個(gè)控制時(shí)段t,根據(jù)策略πθ*(at|st)執(zhí)行動(dòng)作at,與環(huán)境交互得到獎(jiǎng)勵(lì)值rt和新?tīng)顟B(tài)st+1,直至完成共T個(gè)時(shí)段的決策過(guò)程。

4 算例分析

4.1 算例設(shè)置

本文算例依據(jù)澳大利亞配電公司Ausgrid 所提供的真實(shí)數(shù)據(jù)作為場(chǎng)景,以驗(yàn)證所提PPO 算法的有效性。數(shù)據(jù)庫(kù)中包含2011 年7 月1 日至2012 年6 月30 日期間以30 min 為采集周期與控制時(shí)段的居民不可轉(zhuǎn)移負(fù)荷以及光伏發(fā)電的數(shù)據(jù),室外溫度數(shù)據(jù)來(lái)自澳大利亞政府的公開(kāi)數(shù)據(jù)集[32]。售電商的售電價(jià)采用Ausgrid 公司區(qū)分夏季與冬季的分時(shí)電價(jià)[33],具體見(jiàn)附錄A 圖A1,而購(gòu)電價(jià)[34]則采用全年統(tǒng)一的光伏上網(wǎng)電價(jià)4 美分/kW。

各DER 設(shè)備的運(yùn)行參數(shù)見(jiàn)附錄A 表A1[23,35]。為描述各日用戶使用DER 的多樣性,本文將每日初始室內(nèi)溫度、EV 的出行時(shí)刻與時(shí)長(zhǎng)、EV 和ES 的初始SOC、SA 的起始與截止運(yùn)行時(shí)刻做差異化處理。上述與溫度、電量相關(guān)的參數(shù)通過(guò)截?cái)嗾龖B(tài)分布采樣獲得,與運(yùn)行時(shí)間相關(guān)的參數(shù)通過(guò)離散均勻分布采樣獲得,用戶主導(dǎo)的各類DER 運(yùn)行參數(shù)的概率分布見(jiàn)附錄A 表A2[23,35]。然后,分別從52 個(gè)星期中隨機(jī)抽取一天作為測(cè)試集,其余天數(shù)為訓(xùn)練集。

本文仿真環(huán)境為6 核3.47 GHz Intel Xeon X5690 處理器,192 GB RAM,軟件為Python3.5.2、TensorFlow1.7.0。

所采用的LSTM 神經(jīng)網(wǎng)絡(luò)提取了包含負(fù)荷、光伏發(fā)電、電價(jià)等多源時(shí)序數(shù)據(jù)未來(lái)走勢(shì)的64 維特征向量,與12 維的內(nèi)部狀態(tài)特征(即4 種DER 設(shè)備的三元組信息)共同組成了76 維執(zhí)行器和評(píng)判器網(wǎng)絡(luò)的輸入層。執(zhí)行器和評(píng)判器網(wǎng)絡(luò)結(jié)構(gòu)類似,均包含2 層隱藏層,每層有100 個(gè)神經(jīng)元,前者輸出4 維動(dòng)作(即4 種DER 設(shè)備的能量管理動(dòng)作),后者輸出1 維狀態(tài)值函數(shù)。仿真過(guò)程中涉及的各種超參數(shù)設(shè)置見(jiàn)附錄A 表A3。

4.2 與無(wú)模型DRL 算法的效果對(duì)比

為評(píng)估所提基于PPO 算法的能量管理優(yōu)化方法,本算例先以現(xiàn)有文獻(xiàn)中廣泛采用的深度Q 網(wǎng)絡(luò)(deep Q network,DQN)、深度策略梯度(deep policy gradient,DPG)和深度確定性策略梯度(deep deterministic policy gradient,DDPG)這3 種DRL 方法與本文方法作對(duì)比。

為降低結(jié)果的偶然性,每次生成10 個(gè)random seeds,每個(gè)random seed 中每個(gè)算法訓(xùn)練20 000 epochs,每個(gè)epoch 代表訓(xùn)練數(shù)據(jù)集中的一個(gè)隨機(jī)日。訓(xùn)練過(guò)程中,每200 epoch 在測(cè)試數(shù)據(jù)集上對(duì)各DRL 算法的表現(xiàn)進(jìn)行評(píng)估。圖5 中的實(shí)線與陰影分別代表對(duì)應(yīng)各DRL 算法在10 個(gè)random seed 上用測(cè)試數(shù)據(jù)集計(jì)算所得的日用電成本的平均值與標(biāo)準(zhǔn)差。

圖5 4 種DRL 方法下的平均日用電成本Fig.5 Average daily electricity cost with 4 DRL methods

如圖5 所示,PPO 算法在能量管理策略的訓(xùn)練過(guò)程中成本效益不斷提升,日用電成本的標(biāo)準(zhǔn)差不斷下降。最終PPO 算法下的收斂結(jié)果為372.35 美分,是4 種基于DRL 的無(wú)模型能量管理優(yōu)化方法中的最低值,相比于DQN 與DPG 這2 種算法,平均日用電成本分別降低了約15.52%與8.37%,標(biāo)準(zhǔn)差分別降低了約29.35%與44.50%。其次,相較于DQN算法,PPO 算法賦能對(duì)EV、ES 和HVAC 功率的連續(xù)調(diào)節(jié),平均日用電成本顯著降低。因DPG 算法中缺少策略評(píng)估環(huán)節(jié),策略梯度估計(jì)結(jié)果不準(zhǔn)確且方差較大,因此導(dǎo)致其為收斂速度較慢的次優(yōu)策略。此外,DDPG 算法由于無(wú)法處理離散動(dòng)作導(dǎo)致策略次優(yōu),而性能依賴于對(duì)大量超參數(shù)的調(diào)節(jié),故存在收斂困難且不穩(wěn)定的現(xiàn)象。相比之下,PPO 算法因具備“執(zhí)行器-評(píng)價(jià)器”的架構(gòu),在策略優(yōu)化過(guò)程中通過(guò)計(jì)算優(yōu)勢(shì)值進(jìn)行評(píng)估,穩(wěn)定性更強(qiáng)。PPO 算法還通過(guò)式(27)將策略更新的目標(biāo)函數(shù)進(jìn)行了裁剪,簡(jiǎn)化需要滿足的置信域約束,因此收斂性能更穩(wěn)定、訓(xùn)練速度更快。

4.3 與基于模型的最優(yōu)化方法效果對(duì)比

針對(duì)現(xiàn)有大部分文獻(xiàn)所采用的基于模型的最優(yōu)化方法所存在的局限性,為檢驗(yàn)無(wú)模型能量管理優(yōu)化方法對(duì)不確定性的應(yīng)對(duì)能力,以2 種基于模型的最優(yōu)化方法作為對(duì)比:

1)在假設(shè)可對(duì)不可轉(zhuǎn)移負(fù)荷、光伏、溫度等進(jìn)行完美預(yù)測(cè)的前提下,求解最小化居民日用電成本對(duì)應(yīng)混合整數(shù)線性規(guī)劃(mixed-integer linear programming,MILP)[20]問(wèn)題,以此作為理論最優(yōu)解;

2)MPC 在每個(gè)控制時(shí)段對(duì)未來(lái)一段時(shí)間(即控制時(shí)域)的負(fù)荷和光伏等進(jìn)行預(yù)測(cè),進(jìn)而在該時(shí)段上求解成本最小化問(wèn)題,以所得控制序列的第1 個(gè)元素作為當(dāng)前時(shí)段的控制策略,該優(yōu)化過(guò)程隨時(shí)間不斷向后滾動(dòng)。本算例以8 h 為控制時(shí)域,利用LSTM 網(wǎng)絡(luò)進(jìn)行時(shí)序數(shù)據(jù)預(yù)測(cè)。

通過(guò)求解MILP 問(wèn)題得到,364.54 美分為測(cè)試日平均日用電成本的理論最優(yōu)值。通過(guò)PPO 算法和MPC 獲得的平均日用電成本分別為372.35 美分和384.25 美分,較理論最優(yōu)解分別高出2.14% 和5.41%。這是由于MPC 雖然能夠在一定程度上降低預(yù)測(cè)不確定性對(duì)成本的影響,但優(yōu)化性能仍受預(yù)測(cè)誤差的影響。PPO 算法不依賴于對(duì)未來(lái)信息的精準(zhǔn)預(yù)測(cè),并可以對(duì)數(shù)據(jù)未來(lái)走勢(shì)準(zhǔn)確感知,因此所得策略可以更好地應(yīng)對(duì)不確定性。

4.4 采用LSTM 數(shù)據(jù)特征提取技術(shù)前后的效果對(duì)比

為驗(yàn)證所提LSTM 數(shù)據(jù)特征提取技術(shù)的有效性,將采用該技術(shù)的前后效果進(jìn)行對(duì)比。結(jié)果表明,采用該技術(shù)前后的平均日用電成本分別為372.35 美分和381.83 美分,通過(guò)提取未來(lái)走勢(shì)后降低了約2.48%。因此,對(duì)比于僅基于當(dāng)前時(shí)段所感知的原始時(shí)序數(shù)據(jù)的策略優(yōu)化[17,19-20],所述時(shí)序數(shù)據(jù)未來(lái)走勢(shì)提取技術(shù)可基于時(shí)段t之前M個(gè)時(shí)段的歷史數(shù)據(jù)的時(shí)序特征,挖掘時(shí)序數(shù)據(jù)的未來(lái)趨勢(shì),以更有效地輔助智能體的序貫決策,進(jìn)而提升了能量管理策略的成本效益及應(yīng)對(duì)不確定性時(shí)的魯棒性。

4.5 可泛化性(generalization)評(píng)估

為進(jìn)一步驗(yàn)證PPO 算法下能量管理策略對(duì)未來(lái)新場(chǎng)景的泛化性和魯棒性,在PPO 算法訓(xùn)練完成后,算例選取了測(cè)試數(shù)據(jù)集中夏季與冬季2 個(gè)典型日來(lái)分析能量管理策略的成本效益。對(duì)應(yīng)于夏季典型日的可調(diào)節(jié)DER 設(shè)備的運(yùn)行情況、室內(nèi)與室外溫度、用戶凈負(fù)荷/發(fā)電的情況分別如附錄A 圖A2、圖A3、圖A4 所示。圖A5、圖A6、圖A7 則展示了冬季典型日中可調(diào)節(jié)DER 設(shè)備的運(yùn)行情況、室內(nèi)與室外溫度、用戶凈負(fù)荷/發(fā)電的情況。

在夏季典型日中,附錄A 圖A2 與圖A3 呈現(xiàn)出較高的室外溫度以及充足的光伏發(fā)電特征。因早晨溫度較低,HEMS 并未啟動(dòng)HVAC,而是在08:30 以后啟動(dòng),由于室外溫度超過(guò)閾值,HVAC 盡可能吸收光伏發(fā)電量,在保持室內(nèi)溫度恰好低于24 ℃的同時(shí)減小用電成本。此外在11:00—14:30 之間,售電商購(gòu)電價(jià)格仍高于售電價(jià)格時(shí),HEMS 盡可能選擇利用ES 的充電來(lái)吸收剩余的光伏發(fā)電量,而非將其出售。此外,SA 的運(yùn)行周期被轉(zhuǎn)移到了售電價(jià)格較低的時(shí)段22:30—24:00。如圖A4 所示,所得的能量管理策略通過(guò)利用DER 設(shè)備的互補(bǔ)性(如EV與ES),在09:00—20:30 之間實(shí)現(xiàn)了用戶凈負(fù)荷為0,完成了光伏的充分消納,在最大限度上挖掘了DER 設(shè)備的靈活性。

冬季典型日與夏季典型日的區(qū)別在于較低的室外溫度與光伏發(fā)電量,如附錄A 圖A5 和圖A6 所示。在圖A5 中,因早晨溫度過(guò)低,HEMS 啟動(dòng)HVAC 的制熱功能以保證溫度略高于19 ℃,07:00之后電價(jià)升高后關(guān)閉HVAC 以降低成本。與夏季典型日相同的是,SA 的運(yùn)行周期同樣被轉(zhuǎn)移到了售電價(jià)格較低的時(shí)段。HEMS 選擇在用電低谷時(shí)段向ES 與EV 充電,在07:30—11:30 與14:00—20:30這2 個(gè)用電高峰時(shí)段通過(guò)ES 與EV 放電以滿足用戶電能需求,在07:30—22:00 之間實(shí)現(xiàn)了用戶凈負(fù)荷接近于0。

5 結(jié)語(yǔ)

本文研究了面向居民用戶的實(shí)時(shí)自治能量管理優(yōu)化方法。在避免對(duì)用戶DER 設(shè)備進(jìn)行精確建模的基礎(chǔ)上,提出了可描述多類型DER 設(shè)備運(yùn)行特性的三元組信息,明確設(shè)備動(dòng)作,將實(shí)時(shí)能量管理優(yōu)化問(wèn)題建模為序貫決策問(wèn)題。所提方法不依賴于對(duì)未來(lái)信息的準(zhǔn)確預(yù)測(cè),僅靠實(shí)時(shí)感知環(huán)境狀態(tài)進(jìn)行自趨優(yōu)式策略學(xué)習(xí)。所采用的LSTM 神經(jīng)網(wǎng)絡(luò)通過(guò)挖掘智能電表所采集多源時(shí)序數(shù)據(jù)的時(shí)序特征,準(zhǔn)確感知未來(lái)走勢(shì)。此外,PPO 算法賦能在多維連續(xù)-離散混合的動(dòng)作空間中高效學(xué)習(xí)最優(yōu)能量管理決策。

算例結(jié)果表明,本文所提方法能夠綜合考慮電價(jià)、室外溫度、光伏出力、用戶行為等不確定因素,充分挖掘柔性負(fù)荷的靈活性,實(shí)現(xiàn)對(duì)多類型DER 設(shè)備的實(shí)時(shí)最優(yōu)能量管理。與此同時(shí),在對(duì)比其他3 種無(wú)模型DRL 算法和2 種基于模型的最優(yōu)化方法后,PPO 算法在收斂性、最小化用戶成本以及應(yīng)對(duì)不確定性表現(xiàn)等方面均具有更好的表現(xiàn)。

本文研究重點(diǎn)在于用戶與電網(wǎng)之間的優(yōu)化調(diào)控問(wèn)題,并不涉及不同用戶之間的電力交易,下一步研究將考慮用戶與用戶之間、用戶與電網(wǎng)之間的分層聯(lián)合優(yōu)化調(diào)度。

附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

猜你喜歡
時(shí)段用電負(fù)荷
人造革合成革拉伸負(fù)荷測(cè)量不確定度評(píng)定
3項(xiàng)標(biāo)準(zhǔn)中維持熱負(fù)荷要求對(duì)比分析
Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system
安全用電知識(shí)多
對(duì)輸配電及用電工程的自動(dòng)化運(yùn)行的幾點(diǎn)思考
四個(gè)養(yǎng)生黃金時(shí)段,你抓住了嗎
用電安全要注意
第70屆黃金時(shí)段艾美獎(jiǎng)主要獎(jiǎng)項(xiàng)提名
用電監(jiān)察面臨的問(wèn)題及反竊電對(duì)策
SGT5-4000F(4)燃?xì)廨啓C(jī)夏季最大負(fù)荷研究及應(yīng)用
门头沟区| 和顺县| 田东县| 长武县| 诏安县| 桃园县| 寿光市| 万盛区| 霞浦县| 泾川县| 西和县| 马鞍山市| 盐津县| 沙河市| 曲阜市| 九寨沟县| 佛坪县| 克拉玛依市| 桦川县| 达拉特旗| 邯郸市| 石棉县| 聂荣县| 涟源市| 响水县| 扎赉特旗| 车致| 潞西市| 双峰县| 曲沃县| 江川县| 扎赉特旗| 蓬溪县| 香河县| 贵溪市| 洛隆县| 海伦市| 安远县| 梅河口市| 五大连池市| 抚顺县|