阮應(yīng)君, 侯澤群, 錢凡悅, 孟華
(同濟大學(xué)機械與能源工程學(xué)院, 上海 201804)
分布式能源系統(tǒng)是一種直接面向用戶并且能夠滿足多種能源需求的中小型能源轉(zhuǎn)換利用系統(tǒng),其中冷熱電聯(lián)供(combined cooling heating and power, CCHP)系統(tǒng)是最常見的分布式能源系統(tǒng)之一。CCHP系統(tǒng)以天然氣作為動力源,通過原動機、吸收式制冷機、燃?xì)忮仩t等設(shè)備可以輸出電、冷、熱,同時滿足用戶側(cè)的負(fù)荷需求,實現(xiàn)了能源的梯級利用,提高了能源利用率,同時該系統(tǒng)可以接入可再生能源,有利于改善環(huán)境污染。目前,中國建設(shè)的分布式能源系統(tǒng)也在逐年增加,然而目前有很多分布式能源系統(tǒng)無法發(fā)揮很好的經(jīng)濟效益,主要原因是分布式能源系統(tǒng)運行的調(diào)度策略不能夠?qū)崿F(xiàn)良好的經(jīng)濟效益。因此,分布式能源系統(tǒng)的調(diào)度優(yōu)化問題逐漸成為研究熱點。
目前,已經(jīng)有很多關(guān)于電力能源系統(tǒng)調(diào)度優(yōu)化的研究,并且有很多用于調(diào)度優(yōu)化問題的傳統(tǒng)、經(jīng)典算法。例如文獻(xiàn)[1]基于線性規(guī)劃方法實現(xiàn)對能源系統(tǒng)的蓄熱、電池的管理,降低了運行成本。文獻(xiàn)[2]建立電-氣-熱綜合能源動態(tài)網(wǎng)絡(luò)潮流模型,引入氫儲能設(shè)備,應(yīng)用混合整數(shù)線性規(guī)劃方法對能源系統(tǒng)的運行優(yōu)化模型進行求解,有效地提高了該綜合能源系統(tǒng)的能量利用效率和環(huán)境收益。文獻(xiàn)[3-4]通過滿足綜合效益最優(yōu)原則來建立隨機規(guī)劃調(diào)度模型,用粒子群算法對模型進行優(yōu)化,實現(xiàn)微電網(wǎng)運行成本最低。然而對于上述的這些傳統(tǒng)方法,往往依賴于精確的數(shù)學(xué)模型和參數(shù),而對于一個綜合能源系統(tǒng),想要建立一個精確的數(shù)學(xué)模型幾乎是不可能的。
同時,綜合能源系統(tǒng)具有高度不確定性,例如用戶側(cè)負(fù)荷需求的不確定性、太陽能供應(yīng)的不確定性、電價的不確定性等。對于傳統(tǒng)的方法,通常是建立一個不確定性的數(shù)學(xué)模型來表征綜合能源系統(tǒng)中的不確定性。文獻(xiàn)[5]應(yīng)用線性化隨機規(guī)劃框架,對能源價格和負(fù)荷需求的不確定性進行建模,實現(xiàn)住宅系統(tǒng)的能源管理優(yōu)化,降低了投資和運行成本。文獻(xiàn)[6]考慮太陽輻射強度服從Beta分布,建立概率分布函數(shù)來描述風(fēng)光發(fā)電的不確定性。文獻(xiàn)[7]應(yīng)用梯形模糊數(shù)來表示風(fēng)電出力。因此,能源系統(tǒng)運行優(yōu)化的結(jié)果很大程度上取決于不確定性模型的精度,當(dāng)模型精度較差時,最終的優(yōu)化結(jié)果也會受到很大影響。
對于能源系統(tǒng)的運行優(yōu)化,往往分為日前調(diào)度、日內(nèi)滾動優(yōu)化和實時調(diào)整3種時間尺度的優(yōu)化。文獻(xiàn)[8]預(yù)測得到風(fēng)光發(fā)電的值,通過混合整數(shù)線性規(guī)劃算法對能源系統(tǒng)進行日前調(diào)度優(yōu)化??紤]到能源系統(tǒng)的不確定性,預(yù)測的結(jié)果往往存在偏差。日內(nèi)滾動優(yōu)化是指在某個時間窗口內(nèi),以日前預(yù)測優(yōu)化的結(jié)果作為基礎(chǔ),并根據(jù)實際情況不斷地對數(shù)學(xué)模型進行滾動更新[9],而實時調(diào)度則可以在更小的時間尺度內(nèi)實時地對優(yōu)化模型進行更新,從而具有更好的性能。在使用傳統(tǒng)方法時,每一個調(diào)度區(qū)間運行優(yōu)化完畢后,都需要重新開始訓(xùn)練模型,從而使其適用于下一個調(diào)度區(qū)間,這無疑不滿足實時調(diào)度的實時性的特征。
隨著人工智能技術(shù)的發(fā)展,出現(xiàn)了一些新的人工智能算法,例如強化學(xué)習(xí)和深度學(xué)習(xí)。它們的出現(xiàn)為電力系統(tǒng)的控制優(yōu)化和能源系統(tǒng)的運行優(yōu)化帶來了新的思路。與傳統(tǒng)算法相比,強化學(xué)習(xí)方法是基于數(shù)據(jù)驅(qū)動的方法,智能體可以對已有的大數(shù)據(jù)進行學(xué)習(xí),通過不斷地試錯,最終學(xué)習(xí)到最優(yōu)的運行策略,這樣的學(xué)習(xí)方式同時可以學(xué)習(xí)到隱藏在歷史數(shù)據(jù)中的能源系統(tǒng)中的不確定性。此外,經(jīng)典的強化學(xué)習(xí)方法Q-learning方法是一種無模型的方法,它不需要系統(tǒng)的模型和先驗知識,因此可以很好地避免傳統(tǒng)方法中由于建立的數(shù)學(xué)模型的不精確而導(dǎo)致優(yōu)化結(jié)果較差。
深度學(xué)習(xí)和強化學(xué)習(xí)的結(jié)合,借助神經(jīng)網(wǎng)絡(luò)強大的表征能力極大地提升了強化學(xué)習(xí)的學(xué)習(xí)能力,通過對歷史數(shù)據(jù)的學(xué)習(xí),最終可以獲得一個由訓(xùn)練得到的黑箱模型,該模型可以直接用于對能源系統(tǒng)的實時調(diào)度優(yōu)化,將任意時刻獲得的實際負(fù)荷需求輸入該黑箱模型,即可實時輸出該時刻各個設(shè)備的出力情況[10],并且隨著能源系統(tǒng)的運行,新的運行數(shù)據(jù)也可以對模型進行訓(xùn)練調(diào)整。因此,應(yīng)用深度強化學(xué)習(xí)來解決能源系統(tǒng)的調(diào)度優(yōu)化問題已成為一個研究熱點。文獻(xiàn)[11]采用了經(jīng)典的深度強化學(xué)習(xí)算法深度Q網(wǎng)絡(luò)(deep Q network, DQN)算法對預(yù)測負(fù)荷、風(fēng)光發(fā)電出力和分時電價等信息進行學(xué)習(xí),實現(xiàn)對微能源網(wǎng)的能量管理,但是只是對具體的某一天進行優(yōu)化訓(xùn)練,最終得到的模型不具有泛化能力,并且DQN只能解決離散動作空間的問題,而實際的能源系統(tǒng)各個設(shè)備的出力情況是一個連續(xù)的變量。文獻(xiàn)[12]采用可以對連續(xù)狀態(tài)進行控制的深度強化學(xué)習(xí)算法實現(xiàn)對風(fēng)光發(fā)電的自適應(yīng)不確定性的調(diào)度,但是研究對象僅考慮了電能,而沒有涉及冷熱電多能量之間的耦合問題。文獻(xiàn)[13-14]采用強化學(xué)習(xí)方法對儲能裝置進行調(diào)度控制。文獻(xiàn)[15]采用了雙層的強化學(xué)習(xí)結(jié)構(gòu)對綜合能源系統(tǒng)進行實時調(diào)度,將強化學(xué)習(xí)方法和傳統(tǒng)方法相結(jié)合,簡化了獎勵函數(shù)的設(shè)置,大大提高了算法的運行速度和收斂速度,但是能源系統(tǒng)僅考慮了電熱的能力耦合,沒有冷能,并且采用的強化學(xué)習(xí)方法為DQN,不能夠很好地控制實際能源系統(tǒng)的各個設(shè)備。
現(xiàn)以CCHP系統(tǒng)為對象,提出利用一種可以實現(xiàn)對連續(xù)狀態(tài)進行控制的深度強化學(xué)習(xí)算法分布式近端策略優(yōu)化(distributed proximal policy optimization, DPPO)算法對CCHP系統(tǒng)進行運行調(diào)度優(yōu)化。DPPO算法彌補了DQN算法只適用于離散變量的不足,并且在PPO算法的基礎(chǔ)之上實現(xiàn)對多個場景同時學(xué)習(xí),提高訓(xùn)練效果。引入神經(jīng)網(wǎng)絡(luò)解決傳統(tǒng)強化學(xué)習(xí)存在的維數(shù)災(zāi)難問題,避免對能源系統(tǒng)不確定性的建模,采用數(shù)個月的歷史數(shù)據(jù)對模型進行訓(xùn)練,最終得到一個泛化能力良好的優(yōu)化模型,實現(xiàn)對CCHP系統(tǒng)的在線運行調(diào)度優(yōu)化。
選取的CCHP系統(tǒng)主要設(shè)備包含內(nèi)燃機、吸收式制冷機、電制冷機、燃?xì)忮仩t。分布式能源系統(tǒng)的結(jié)構(gòu)圖如圖1所示,用戶側(cè)電力負(fù)荷供給主要由內(nèi)燃機、光伏發(fā)電提供,不足的電力可以從電網(wǎng)購得,多余的電力不考慮上網(wǎng)出售。冷負(fù)荷供給由吸收式制冷機和電制冷機提供。熱負(fù)荷供給由內(nèi)燃機發(fā)電產(chǎn)生的余熱和燃?xì)忮仩t提供。
圖1 分布式能源系統(tǒng)結(jié)構(gòu)圖Fig.1 Distributed energy system structure diagram
目標(biāo)函數(shù)為分布式能源系統(tǒng)的運行成本,且運行成本只考慮購買天然氣和電力,設(shè)備的投資成本和維護成本忽略不計。目標(biāo)函數(shù)表達(dá)式為
C=Ce+Cgas
(1)
(3)
內(nèi)燃機在小型熱電聯(lián)供系統(tǒng)中被廣泛應(yīng)用。為保證內(nèi)燃機運行安全,當(dāng)功率負(fù)荷率低于20%時,內(nèi)燃機將不會啟動[20]。相關(guān)公式為
ηh=βηe
(4)
PICE=Mgas_iceqgasηe
(5)
HICE=Mgas_gbqgasηh
(6)
PICE≤PICE_max
(7)
式中:ηe、ηh和β分別為內(nèi)燃機的電效率、熱效率和熱電比;qgas為天然氣的低位熱值,kJ/Nm3;PICE為內(nèi)燃機的實際發(fā)電功率,kW;PICE_max為內(nèi)燃機的最大發(fā)電功率,kW;HICE為內(nèi)燃機熱回收利功率,kW。
制冷設(shè)備包括電制冷機組和吸收式制冷機組,為保證設(shè)備運行安全,當(dāng)功率負(fù)荷率小于20%時,吸收式制冷機組不會啟動[20],制冷設(shè)備的數(shù)學(xué)模型可以表示為
EEC≤PECCOPEC
(8)
EABS≤HABSCOPABS
(9)
EEC≤EEC_max
(10)
EABS≤EABS_max
(11)
式中:EEC、EABS分別為電制冷機和吸收式制冷機的制冷功率,kW;PEC、HABS分別為電制冷機的耗電功率和吸收式制冷機消耗的熱功率,kW;COPEC、COPABS分別為電制冷機和吸收式制冷機的制冷系數(shù);EEC_max、EABS_max分別為電制冷機和吸收式制冷機的最大制冷功率,kW。
HGB=Mgas_gbqgasηh_boiler
(12)
HGB≤HGB_max
(13)
式中:HGB為燃?xì)忮仩t的實際熱功率,kW;ηh_boiler為燃?xì)忮仩t的熱效率;HGB_max為燃?xì)忮仩t的最大熱功率,kW。
(16)
利用光伏電池將太陽能轉(zhuǎn)換為直流電,光伏電池發(fā)電功率表達(dá)式為
(17)
式(17)中:Ppv為光伏系統(tǒng)的發(fā)電功率,kW;PSTC為光伏系統(tǒng)的標(biāo)稱最大功率,kW;GSTC和s分別為標(biāo)稱太陽輻射強度和實際的太陽輻射強度,kW/m2;TC和TSTC分別為光伏電池的溫度和標(biāo)稱環(huán)境溫度,℃;k=-0.004 7 ℃-1,GSTC= 1 kW/m2,TSTC=25 ℃。
光伏電池的溫度計算公式為
(18)
式(18)中:TA為周圍環(huán)境的實際溫度,℃。
2.1.1 強化學(xué)習(xí)
強化學(xué)習(xí)是機器學(xué)習(xí)的一個分支,與經(jīng)典的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相比,其最大特點是交互式學(xué)習(xí)。強化學(xué)習(xí)基于馬爾可夫決策過程(Markov decision process,MDP),即環(huán)境下一時刻的狀態(tài)僅取決于當(dāng)前的狀態(tài)和當(dāng)前所選取的動作。MDP一般包含4個元素:狀態(tài)空間S、動作空間A、獎勵函數(shù)R:SA→R以及狀態(tài)轉(zhuǎn)移函數(shù)P:SAS→[0,1],即MDP=〈S,A,P,R〉,一個簡單的強化學(xué)習(xí)例子如圖2所示。
圖2 強化學(xué)習(xí)基礎(chǔ)框架Fig.2 Basic framework for reinforcement learning
圖2中,在t時刻,智能體選取一個動作at作用于當(dāng)前環(huán)境st,受到動作影響,當(dāng)前狀態(tài)將會根據(jù)當(dāng)前的狀態(tài)轉(zhuǎn)移函數(shù)P轉(zhuǎn)移到下一時刻的狀態(tài)st+1,同時根據(jù)獎勵函數(shù)可以計算得到一個獎勵值rt+1,接著把得到的新的狀態(tài)和獎勵值輸入到智能體中,智能體根據(jù)當(dāng)前的動作選擇策略輸出一個新的動作。強化學(xué)習(xí)方法的目的是通過智能體和環(huán)境的不斷交互,最終使得智能體學(xué)習(xí)到能夠獲得最大的長期獎勵的動作選擇策略[15]。長期獎勵表達(dá)式為
Gt=rt+γrt+1+γ2rt+2+…+γn-trn
(19)
式(19)中:rn為終止?fàn)顟B(tài)時得到的獎勵值;γ為折扣系數(shù),一般來說γ∈[0,1]。
狀態(tài)值函數(shù)Vπ(s)可以評估當(dāng)前動作選取策略π的好壞,其表示在t時刻的狀態(tài)s在未來可以獲得的回報的期望值,即
Vπ(s)=Eπ[Gt|st=s]
(20)
將式(19)簡化得
Gt=rt+γ[rt+1+γ(rt+2+…)]=rt+γGt+1
(21)
將式(21)代入式(20)得
Vπ(s)=Eπ[rt+γVπ(st+1)|st=s]
(22)
(23)
上述公式即為貝爾曼方程,該方程表示t時刻狀態(tài)值與t+1時刻狀態(tài)值的關(guān)系,其中Pss′表示狀態(tài)轉(zhuǎn)移函數(shù);π(a|s)表示在狀態(tài)s選擇動作a的概率。
最后可以通過式(24)求得最優(yōu)的策略π*,即
(24)
2.1.2 DPPO算法
雖然強化學(xué)習(xí)能夠很好地解決控制問題,但該算法主要是基于表格的方法,因此只適用于解決離散的狀態(tài)空間、動作空間的問題。然而,對于大多數(shù)實際任務(wù)來說,狀態(tài)或者動作的數(shù)量是巨大的,而且有些任務(wù)是連續(xù)的狀態(tài)空間和動作空間,很難使用表格來記錄每個狀態(tài)和動作。
目前,深度學(xué)習(xí)在計算機視覺、自然語言處理等諸多領(lǐng)域取得了突破,極大地推動了人工智能技術(shù)的發(fā)展[17]。充分利用深度學(xué)習(xí)的優(yōu)勢,特別是深度學(xué)習(xí)較強的表示能力可以極大提高強化學(xué)習(xí)智能體在實際任務(wù)中的性能[18-19]。
深度強化學(xué)習(xí)的智能體采用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)代替價值函數(shù)。DNN的輸入的變量是環(huán)境狀態(tài),輸出是智能體選擇的動作,而獎賞可以作為損失函數(shù)的參數(shù)之一,然后基于隨機梯度算法推導(dǎo)出損失函數(shù),通過網(wǎng)絡(luò)模型的訓(xùn)練優(yōu)化更新DNN的參數(shù)。
深度強化學(xué)習(xí)主要分為兩類方法:基于值的強化學(xué)習(xí)和基于策略的強化學(xué)習(xí)?;谥档膹娀瘜W(xué)習(xí)實際上就是基于價值函數(shù)的強化學(xué)習(xí),價值函數(shù)主要用于評估當(dāng)前智能體基于某種狀態(tài)的好壞程度,如深度Q網(wǎng)絡(luò)(deep Q network, DQN)算法;基于策略的強化學(xué)習(xí)直接對策略π進行優(yōu)化更新,以得到最優(yōu)的策略π*,最終從最優(yōu)策略π*中搜索當(dāng)前狀態(tài)對應(yīng)的動作,如演員-評論家(actor-critic)算法。
策略梯度(policy gradients, PG)算法是基于策略的強化學(xué)習(xí)算法,智能體通過不斷地與環(huán)境交互學(xué)習(xí),對自身的策略不斷改進。對于初始化的策略,在任意時刻的狀態(tài),每個動作被選中的概率都是隨機的,通過智能體與環(huán)境交互得到獎勵值的反饋,使得好的動作被選中的概率不斷增大。演員-評論家算法在PG算法的基礎(chǔ)之上增加了一套神經(jīng)網(wǎng)絡(luò),即動作網(wǎng)絡(luò)和評論家網(wǎng)絡(luò),前者接受到環(huán)境傳入的狀態(tài)輸出一個對應(yīng)的動作,后者根據(jù)動作作用于環(huán)境反饋得到的獎勵進行更新,并且可以觀測到現(xiàn)在所處狀態(tài)的潛在獎勵,用于指導(dǎo)動作網(wǎng)絡(luò)。相比PG算法,演員-評論家算法可以實現(xiàn)每一步都對神經(jīng)網(wǎng)絡(luò)參數(shù)進行更新,而不必像PG算法一樣等到回合結(jié)束的時候才對網(wǎng)絡(luò)參數(shù)進行更新。近端策略優(yōu)化(proximal policy optimization, PPO)算法同樣采用了和演員-評論家一樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),PPO基于演員-評論家算法,利用更新之后的新的策略與舊的策略的比例進行更新,限制了策略更新的幅度,使得整個算法更具趨于平穩(wěn)。所使用的DPPO方法是在PPO算法的基礎(chǔ)之上,增加了多個線程,提升了學(xué)習(xí)速率。DPPO算法使用了優(yōu)勢函數(shù),優(yōu)勢函數(shù)Aπ(s,a) 表示在狀態(tài)s,選取動作a的優(yōu)勢有多大,和Q-learning的Q值有著類似的作用。不同的是,優(yōu)勢函數(shù)評估的是在某個狀態(tài)采取各動作相對于平均回報的好壞,也就是采取這個動作的優(yōu)勢,而Q值評估的是某個狀態(tài)采取各個動作的好壞。優(yōu)勢函數(shù)表達(dá)式為
Aπ(s,at)=Rπ(s,a)-Vπ(s)
(25)
(26)
(27)
(29)
式(27)表示隨著不斷更新,新的策略相對舊策略的累計獎勵匯報的期望值;式(28)表示目標(biāo)值函數(shù)η(π)。在實際中,為了有更高的魯棒性,選取剪輯代理目標(biāo)(clipped surrogate objective)的方法來代替式(29)的更新方式,得
1+ε]At})
(30)
(31)
采用深度強化學(xué)習(xí)用來解決CCHP系統(tǒng)的調(diào)度優(yōu)化問題。首先,將能源系統(tǒng)調(diào)度優(yōu)化問題轉(zhuǎn)化成MDP;其次,選取可人為控制的能源設(shè)備作為控制對象,對應(yīng)地對MDP中的狀態(tài)空間和動作空間進行設(shè)計;最后,依據(jù)目標(biāo)函數(shù)設(shè)計獎勵函數(shù)用于指導(dǎo)智能體的學(xué)習(xí)。
2.2.1 狀態(tài)空間
在強化學(xué)習(xí)中,狀態(tài)空間需要能夠充分描述環(huán)境的狀態(tài),合理地設(shè)計狀態(tài)空間可以幫助算法更快地收斂。環(huán)境是CCHP能源系統(tǒng),環(huán)境提供的信息包括在各時間步長的可再生能源出力、電價、電力負(fù)荷、供熱負(fù)荷、冷負(fù)荷。因此,狀態(tài)空間可定義為
表1 DPPO算法流程
(32)
2.2.2 動作空間
當(dāng)智能體接收到環(huán)境給出的狀態(tài),它將根據(jù)當(dāng)前的策略從動作空間中選擇一個動作作用于環(huán)境。動作是指各供能設(shè)備的出力,包括內(nèi)燃機的發(fā)電功率、從電網(wǎng)流入的電功率、電制冷機組和吸收式制冷機組的制冷功率、燃?xì)忮仩t、內(nèi)燃機的熱功率。因此,動作空間可定義為
(34)
2.2.3 獎勵
對于強化學(xué)習(xí)來說,獎勵值的作用是指導(dǎo)智能體學(xué)習(xí),最終學(xué)習(xí)到最優(yōu)策略。獎勵函數(shù)一般基于目標(biāo)函數(shù)進行設(shè)計,選取運行費用及設(shè)備容量約束作為獎勵函數(shù),可得
r=-(Ce+Cgas+Pgb+Pec)
(35)
(36)
(37)
式中:Pgb和Pec分別為燃?xì)忮仩t和電制冷機出力不滿足設(shè)備約束條件時的懲罰值。
分布式能源系統(tǒng)各個設(shè)備的參數(shù)如表2所示,深度強化學(xué)習(xí)智能體的超參數(shù)如表3所示。
選取歷史全年負(fù)荷數(shù)據(jù)的6—7月,即60 d的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)的電負(fù)荷、冷負(fù)荷、太陽能電功率如圖3所示,采用上海的分時電價。
表2 設(shè)備參數(shù)
表3 智能體超參數(shù)
3.2.1 調(diào)度結(jié)果
從全年歷史數(shù)據(jù)里的測試數(shù)據(jù)集里取1 d夏季工況,用于實時調(diào)度優(yōu)化測試,其負(fù)荷數(shù)據(jù)及光伏出力情況如圖4所示。
圖5(a)、圖5(b)分別為將該測試日的負(fù)荷數(shù)據(jù)及太陽能出力輸入到訓(xùn)練完畢的智能體后輸出得到的電、冷調(diào)度策略。
由圖5可以得到以下結(jié)論。
(1)在電負(fù)荷需求較低的時刻(1~8 h,23~24 h),并且此時電價較低,內(nèi)燃機保持關(guān)閉狀態(tài),電負(fù)荷由電網(wǎng)購電滿足。
(2)在電負(fù)荷需求較高時刻(10~22 h),光伏發(fā)電首先被利用,受該日天氣因素影響,太陽能僅在8~14 h刻被利用;10~21 h購電成本較高,內(nèi)燃機啟動發(fā)電,且處于較高的負(fù)載率,剩余電負(fù)荷需求由電網(wǎng)購電提供。
(3)在沒有冷負(fù)荷的時刻(1~9 h,23~24 h)各制冷設(shè)備保持關(guān)閉;在冷負(fù)荷需求較高的時刻(10~22 h),吸收式制冷機啟動制冷,且處于較高負(fù)載率,可以充分利用內(nèi)燃機發(fā)電產(chǎn)生的余熱,不足的冷負(fù)荷由電制冷機滿足其余的冷負(fù)荷。
上述闡明通過DDPO算法訓(xùn)練得到的智能體可以實現(xiàn)對CCHP系統(tǒng)的運行調(diào)度,滿足各個時刻的負(fù)荷需求。現(xiàn)選取6個測試日對該智能體調(diào)度策略的經(jīng)濟性進行對比分析,并選擇另外一種基于值的經(jīng)典的深度強化學(xué)習(xí)方法DQN及基于LINGO的線性規(guī)劃進行對比。其中DQN將設(shè)備出力連續(xù)的動作空間進行離散:a=[0,0.25,0.5,0.75,1],神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及參數(shù)與DPPO算法相同。在使用LINGO 對能源系統(tǒng)運行優(yōu)化時,首先需要得到負(fù)荷的預(yù)測值,LSTM方法可以處理非線性關(guān)系,預(yù)測精度較高,因此采用該方法對負(fù)荷進行預(yù)測。LSTM神經(jīng)網(wǎng)絡(luò)搭建于Tensorflow平臺,含有3層隱藏層,分別有64、100和25個神經(jīng)元。預(yù)測得到測試日的負(fù)荷數(shù)據(jù)如圖6所示。
由于預(yù)測存在一定偏差,最終基于LINGO得到的設(shè)備出力可能無法完全滿足用戶負(fù)荷需求,因此不滿足的電負(fù)荷將由電網(wǎng)購電補充,不滿足的冷負(fù)荷將由電制冷機補充。測試日運行費用如圖7所示,具體數(shù)值如表4所示。相比DQN算法,DPPO算法得到的調(diào)度策略總運行費用降低7.12%,相比LINGO得到的調(diào)度策略,總運行費用降低2.27%,因此本文提出的基于DPPO算法的調(diào)度方法可以實現(xiàn)對分布式能源系統(tǒng)的經(jīng)濟性調(diào)度。
3.2.2 策略對比分析
對3種不同的方法得到的分布式能源系統(tǒng)調(diào)度策略進行對比分析,6個測試日的內(nèi)燃機、 吸收式制冷機及電制冷機運行情況如圖8(a)、圖8(b)、圖8(c)所示。
在每個測試日的1~8 h,購電費用較低,直接從電網(wǎng)購電來滿足電負(fù)荷需求更具有經(jīng)濟性,9~21 h,購電費用較高,此時啟動內(nèi)燃機發(fā)電更便宜,并且產(chǎn)生的余熱可以用來驅(qū)動吸收式制冷機提供冷負(fù)荷,具有更高的經(jīng)濟性。由圖8(a)可知,總體來說,采用DPPO和LINGO方法獲得的內(nèi)燃機的運行策略大致相同,DPPO算法的激活函數(shù)選取的是雙曲正切函數(shù),因此實際上算法輸出的動作始終是介于-1~1的,從而對應(yīng)設(shè)備的出力功率也是介于0和最大容量之間的,這也是當(dāng)LINGO和DQN中設(shè)備出力功率達(dá)到最大容量時,DPPO設(shè)備的出力功率略小于DQN和LINGO。
圖3 訓(xùn)練數(shù)據(jù)電負(fù)荷、冷負(fù)荷和光伏發(fā)電功率曲線Fig.3 Power load, cooling load and PV power curves of training data
圖4 測試日負(fù)荷及太陽能出力曲線Fig.4 Load and solar output curve of test day
此外,DQN算法得到的內(nèi)燃機運行策略,不穩(wěn)定,具有波動性,并且還存在頻繁啟停問題,由此可知DQN算法在訓(xùn)練的過程中,受狀態(tài)空間、動作空間數(shù)量大的影響,始終在最優(yōu)值附近保持震蕩,無法收斂,因此無法充分發(fā)揮內(nèi)燃機的經(jīng)濟性,導(dǎo)致運行費用增加。
由圖8(b)可知,1、2、3、6測試日DPPO和 LINGO 的吸收式制冷機運行情況大致相同, DQN方法的吸收式制冷機運行情況同樣存在波動、不穩(wěn)定的問題,并且沒有充分利用內(nèi)燃機的余熱,沒有充分發(fā)揮吸收式制冷機的經(jīng)濟性。
由圖8(c)可知,對于測試日1、2、3、6,DPPO算法和LINGO獲得的電制冷機的運行策略比較接近,而在測試日4和5,由于LSTM負(fù)荷預(yù)測存在一定的誤差,使得該兩日的冷負(fù)荷預(yù)測值相較實際值偏大,如圖6所示,因此LINGO得到的調(diào)度策略電制冷機承擔(dān)了更多的冷負(fù)荷,產(chǎn)生了更多的運行費用。
圖6 測試日實際負(fù)荷和預(yù)測負(fù)荷曲線Fig.6 Actual load and forecast load curve of test days
圖5 測試日電功率和冷功率調(diào)度策略Fig.5 Power and cooling power scheduling policy of test day
圖7 測試日運行費用Fig.7 Operating cost of test days
圖8 測試日運行策略對比分析Fig.8 Comparison and analysis of operating strategy of test days
表4 測試日運行費用
對于DQN算法,由于其收斂效果不佳,導(dǎo)致其吸收式制冷機沒有得到充分的利用,因此電制冷機承擔(dān)了更多的冷負(fù)荷,增加了運行費用。
提出了一種基于DPPO深度強化學(xué)習(xí)算法的分布式能源系統(tǒng)運行優(yōu)化方法。該方法以能源系統(tǒng)運行的經(jīng)濟性為目標(biāo)函數(shù),實現(xiàn)了對分布式能源系統(tǒng)各個設(shè)備的經(jīng)濟性調(diào)度優(yōu)化。與傳統(tǒng)方法相比,本文方法不需要對能源系統(tǒng)的不確定性因素進行數(shù)學(xué)建模,并且利用歷史數(shù)據(jù)對智能體進行訓(xùn)練,訓(xùn)練完畢后的智能體可以直接用來進行實時動態(tài)調(diào)度,不需要在每一次調(diào)度任務(wù)之前重復(fù)訓(xùn)練;與DQN算法相比,可以避免將動作空間離散化導(dǎo)致的維數(shù)較大算法不收斂的問題。通過比較DPPO方法、DQN方法及LINGO獲得的調(diào)度策略,可以證明,本文方法可以實現(xiàn)對分布式能源系統(tǒng)的經(jīng)濟性運行優(yōu)化。