需量電費影響下的CCHP系統(tǒng)深度強化學習運行優(yōu)化

2023-06-27 10:01:14高文忠張毅

中國農(nóng)業(yè)科技導報 2023年4期

高文忠，張毅

（上海海事大學商船學院，上海 201306）

在全球范圍內，建筑物能耗約占一次能源總能耗的40%，其中60%與熱舒適度有關[1]。當前，農(nóng)業(yè)機械化水平越來越高，隨之而來的環(huán)境污染、能源匱乏等問題日益嚴重。農(nóng)業(yè)設施的主要能源消耗為供能能耗，因此，能源穩(wěn)定性和能耗成本是農(nóng)業(yè)設施升級面臨的主要壓力。減少供能能耗可以有效降低農(nóng)業(yè)中的能源消耗，減少環(huán)境污染。冷熱電三聯(lián)供（combined cold, hot and power，CCHP）系統(tǒng)可以充分利用一次能源，實現(xiàn)冷、熱、電分級利用[2]，綜合能源利用率可達80%。它的發(fā)展和應用將有效提高能源效率及經(jīng)濟效益[3]，是實現(xiàn)能源可持續(xù)發(fā)展的重要途徑[4]。通過CCHP系統(tǒng)為農(nóng)業(yè)設施供能將有效降低供能能耗。然而，在使用CCHP時，建筑的外部天氣環(huán)境、內部負荷動態(tài)變化、各機組之間耦合等為CCHP的協(xié)調運行帶來了很多不確定性[5]，致使CCHP系統(tǒng)運行策略很難適應這些變化，導致用戶舒適度和供能經(jīng)濟性難以達到預期設計。因此，通過優(yōu)化控制來實現(xiàn)CCHP供能與負荷需求之間的高效匹配、最大限度地挖掘CCHP系統(tǒng)的固有優(yōu)勢是當前CCHP系統(tǒng)的研究重點。

傳統(tǒng)CCHP系統(tǒng)的運行優(yōu)化多采用啟發(fā)式算法，如遺傳算法[6]、粒子群算法[7-8]、混合整數(shù)線性規(guī)劃[9]等。雖然傳統(tǒng)的優(yōu)化算法在CCHP穩(wěn)定工況時有著一定的優(yōu)化能力，但當工況環(huán)境發(fā)生變化時，只能重新對新環(huán)境訓練以給出優(yōu)化策略，無法做出實時反應，這導致其在實際系統(tǒng)運用中，需要較高的時間成本。此外，針對CCHP系統(tǒng)的優(yōu)化目標主要以多目標優(yōu)化為主[10-13]，而對于商業(yè)建筑，更關注運行成本[14-16]。需要特別指出的是，需量電費也是影響系統(tǒng)運行費用的關鍵因素之一。需量電費不同于電費，它是累計用電量的計算方式，通過整個計費周期內電網(wǎng)用電功率的峰值計算。這就導致了CCHP系統(tǒng)運行方案不僅會影響當前優(yōu)化日，還會對連續(xù)多日優(yōu)化產(chǎn)生影響，顯著增加了系統(tǒng)運行優(yōu)化的難度[17-18]。

針對這種情況，深度強化學習（deep reinforcement learning，DRL）提供了一種新的思路和方法，它是通過對環(huán)境和策略的學習，獲得策略對于環(huán)境的價值，可以根據(jù)環(huán)境的變化實時改變策略，適合用于CCHP系統(tǒng)的運行優(yōu)化。目前，針對能源系統(tǒng)的DRL算法應用已經(jīng)有一些開創(chuàng)性的探索，如利用deep Q-network(DQN)算法、double DQN算法[19]、dueling double DQN算法[20]等進行離散動作的優(yōu)化控制。此外，針對連續(xù)動作空間算法的應用，Du等[21]對比了DQN與deep deterministic policy gradient（DDPG）在多區(qū)域暖通空調連續(xù)控制下的熱舒適度和能耗成本，表明經(jīng)過良好訓練的DDPG在該問題上有泛化性和適應性，實際應用性強；董雷等[22]和Zhang等[23]分別將Multi-Agent DDPG應用于電力、天然氣、淡水子系統(tǒng)中可再生能源驅動的多能源樞紐系統(tǒng)和電熱聯(lián)合系統(tǒng)的優(yōu)化運行；藺偉山等[24]和阮應君等[25]分別將proximal policy optimization（PPO）和distributed proximal policy optimization(DPPO)應用于分布式能源系統(tǒng)與綜合能源系統(tǒng)的運行優(yōu)化，其結果優(yōu)于DQN和DDPG算法。

由于需量電費是通過周期內電網(wǎng)峰值用電功率的計價方式，導致給優(yōu)化運行帶來了較多限制，提高了CCHP系統(tǒng)優(yōu)化控制的復雜性。因此，本研究以投入使用的大型CCHP系統(tǒng)為研究對象，使用雙延遲深度確定性策略梯度（twin delayed deep deterministic policy gradient, TD3）算法，來實現(xiàn)CCHP系統(tǒng)夏季供能優(yōu)化控制，以期在考慮需量電費的情況下達到最小化運行成本的目標，驗證TD3代理在CCHP系統(tǒng)優(yōu)化運行上的有效性和泛化性，以期為農(nóng)業(yè)設施供能提供一種優(yōu)化運行策略的方法，從而降低供能成本、提高系統(tǒng)經(jīng)濟性。

1 材料與方法

1.1 CCHP系統(tǒng)組成

研究對象為上海市世博B片區(qū)某公共建筑群供能的大型CCHP系統(tǒng)。它由內燃機（internal combustion engine, ICE）、雙效溴化鋰吸收式制冷機組（lithium bromide absorption chiller, AC）、離心式電制冷機組（centrifugal electric refrigeration chillers, EC）、鍋爐（boiler）和蓄能罐（thermal energy tank, TET）及配套輔助設施（auxiliary units,AU）共同組成。其能量流如圖1所示。

圖1 CCHP系統(tǒng)能量流圖Fig. 1 Energy flow for the CCHP system

該系統(tǒng)夏季運行的主要功能是為滿足區(qū)域性寫字樓群的冷負荷需求，ICE產(chǎn)生的電力提供給系統(tǒng)本身，而非外部建筑，所以整個系統(tǒng)采取以熱定電的運行模式，即優(yōu)先滿足冷負荷，再平衡系統(tǒng)電力消耗和電網(wǎng)供電。電網(wǎng)供電包括購電和賣電2種形式：當系統(tǒng)內部電量不足時，從電網(wǎng)購電；當系統(tǒng)內部電量富余時，上網(wǎng)出售。

1.2 機組模型

1.2.1 能量約束電力約束包括電制冷和其他電消耗設備的電力需求，由ICE和電網(wǎng)供給。

式中，EC,t為系統(tǒng)總耗電功率（kW）；EEC,i,t為EC耗電功率（kW）；nEC為EC機組數(shù)量；EAC,t為輔助機組耗電功率（kW）；EICE,i,t為ICE發(fā)電功率（kW）；nICE為ICE機組數(shù)量；EGrid,t大于0時為從電網(wǎng)購電功率，小于0時為向電網(wǎng)賣電功率（kW）。

熱量約束：在供冷模式下，冷負荷由AC、EC和TET供給。

式中，QCCHP,CL,t為CCHP系統(tǒng)供冷功率（kW）；QTET,t為TET在t時刻蓄入釋放的冷功率（kW）；QEC,i,t為EC制冷功率（kW）；QAC,CL,i,t為AC制冷功率（kW）；nEC為AC機組數(shù)量；QCL,t為冷負荷（kW）。

1.2.2 內燃機 ICE發(fā)電效率ηICE,i,t隨其運行部分負荷率pICE,i,t變化如式（3）所示。

式中，a0、a1、a2、a3是經(jīng)驗系數(shù)。

ICE實際發(fā)電功率EICE,i,t的計算公式如下。

式中，EICE,max為ICE額定發(fā)電功率（kW）。

ICE的天然氣消耗量SICE,i,t(m3)計算公式如下。

式中，LNG為天然氣低燃燒值（kWh·m-3）。

1.2.3 雙效溴化鋰制冷機組 ICE產(chǎn)生的高溫煙氣在AC中換熱，為樓宇夏季供冷。當ICE的負荷率發(fā)生變化時，ICE排出煙氣中的能量也發(fā)生變化，導致AC可利用的煙氣量發(fā)生變化。因此，AC制冷功率QAC,CL,i,t的計算公式如下。

式中，COPAC,CL為AC制冷工況下的制冷系數(shù)（coefficient of performance，COP）。

1.2.4 離心式電制冷機組 EC消耗電能為外部建筑供冷。EC的COP與電制冷部分負荷率之間的關系如式（7）所示。

式中，COPEC,i,t為EC的COP；pEC,i,t為EC的部分負荷率；b0、b1、b2、b3是經(jīng)驗系數(shù)。

EC的制冷功率和耗電功率的計算如式（8）、（9）所示。

式中，QEC,max為EC額定制冷功率（kW）。

1.2.5 蓄能罐 TET在供冷工況下將存儲的冷量按照系統(tǒng)需要釋放。由于TET的蓄冷泵出力限制，故TET有每小時出力限制，如式（10）所示；TET容量限制如式（11）所示；TET下一時刻的蓄冷量QTET,CL,t+1（kWh）如式（12）所示。

式中，QTET,max為TET每小時最大蓄冷或釋冷功率（kW）；QTET,CL,t為TET內蓄冷量（kWh）；QTET,CL,max為TET最大蓄冷量（kWh）。

1.3 目標函數(shù)

CCHP系統(tǒng)夏季優(yōu)化的目標是：在滿足冷負荷的情況下，制定最低考慮需量電費的運行成本的運行方案。

實時運行費用Ct（元）由電網(wǎng)電力費用和天然氣成本組成。電網(wǎng)電力費用根據(jù)EGrid,t分為購電和售電2部分，其中，購電時采用階梯電價cGrid,buy,t（元·kWh-1）；賣電時為固定價格cGrid,sell（元·kWh-1）。天然氣成本根據(jù)天然氣消耗量SICE,i,t計算得到，天然氣單價cNG（元·m-3）為固定值。實時運行成本Ct如公式（13）所示。

需量電費是每月結算的電費，它是為了限制每月峰值用電功率的計價方式，根據(jù)用戶當月每小時平均電網(wǎng)用電功率峰值，即最大需量，計算得到。為了便于后續(xù)優(yōu)化中多日運行費用的計算，每日根據(jù)該優(yōu)化周期內的最大需量計算當日需量電費。電功率最大需量（kW）和需量電費（元）的計算如式（14）（15）所示。

式中，cDC為需量電價（元·kW-1）；dmonth為該月天數(shù)。

因此，考慮需量電費的目標函數(shù)Ctotal如式（16）所示。

1.4 基于TD3的CCHP系統(tǒng)優(yōu)化控制

1.4.1 CCHP系統(tǒng)控制優(yōu)化映射到馬爾卡夫決策過程馬爾卡夫決策過程是一種針對下一個狀態(tài)僅與當前狀態(tài)有關、與之前狀態(tài)無關的系統(tǒng)決策過程，通常被描述為一個五元組（S,A,P,R,γ）。其中，S是狀態(tài)空間；A是動作空間；S×A×S′→P是狀態(tài)轉移矩陣；S×A→R是獎勵函數(shù)；γ為折扣因子[25]。針對該CCHP系統(tǒng)的要素定義如下。

① 狀態(tài)空間。狀態(tài)空間是智能體獲取的環(huán)境信息。選取歸一化后的冷負荷、時刻、TET蓄冷量和最大需量作為狀態(tài)空間S，如式（17）所示。

式中，QCL,max為設計最大冷負荷（kW）；EDC,max為系統(tǒng)設計最大需量（kW）。

② 動作空間。動作空間是智能體在狀態(tài)s下能選擇的動作。動作為EC和ICE的部分負荷率。因此動作空間如式（18）所示。

③ 獎勵函數(shù)。當智能體根據(jù)狀態(tài)空間選擇動作空間后，環(huán)境會給予獎勵，也會對不符合約束和表現(xiàn)不良好的動作空間給予懲罰。智能體為了獲得最大化獎勵會逐漸約束動作空間。獎勵函數(shù)分為局部獎勵函數(shù)和全局獎勵函數(shù)。其中，局部獎勵函數(shù)是對每個時刻的運行情況進行評價；全局獎勵函數(shù)是對優(yōu)化周期優(yōu)化完成后，對整個優(yōu)化周期的運行狀況進行評估。由于不同時間的冷負荷變化較大，為了對不同負荷給予相近的獎勵，采取單位制冷量的運行成本作為獎勵函數(shù)的評價指標。局部獎勵函數(shù)Rt和全局獎勵函數(shù)RF如式（19）和式（20）所示。

式中，rP為違反供冷約束時的懲罰；Qmin為在沒有實際供冷情況下設置的假定供冷量；rF為當前運行周期完成時的獎勵。

當CCHP系統(tǒng)狀態(tài)st確定時，動作at的優(yōu)劣程度可以使用動作值函數(shù)Q(s,a)，即Q值來評估。

式中，Eπ(·)為策略π下的獎勵期望。

CCHP系統(tǒng)優(yōu)化調度的目的是找到最優(yōu)策略π*，如式（22）所示。

1.4.2 TD3算法 CCHP系統(tǒng)在連續(xù)控制問題上，由于TET冷量受前一時間點TET冷量和機組運行情況的影響、冷負荷受到室外天氣因素和內部負荷動態(tài)變化等因素影響，故馬爾卡夫決策過程中獲得準確的轉移概率較為困難。在無法獲得準確狀態(tài)轉移概率的情況下，基于模型的算法無法解決此類問題。DRL不需要事先了解環(huán)境或轉移概率，可以通過不斷與環(huán)境交互逐漸改進策略。為此，本研究采用DRL方法解決CCHP控制問題，具體采用TD3算法。

TD3算法是一種連續(xù)空間中的DRL算法，可用于優(yōu)化馬爾卡夫決策過程。TD3是由DDPG改進得到。DDPG可以很好地工作，但存在高估價值的問題，因此，TD3可通過引入3種方式解決DDPG的問題：①使用2套Critic網(wǎng)絡評估動作的Q值，并采用其中較小的值來計算目標Q值，以解決Critic網(wǎng)絡對Q值過估計的問題；②使用延遲更新策略，即Critic網(wǎng)絡更新一定次數(shù)后再對Actor網(wǎng)絡進行更新，即Actor網(wǎng)絡的更新頻率低于Critic網(wǎng)絡，使Actor網(wǎng)絡訓練更穩(wěn)定；③在更新過程中計算動作Q值時，對actor目標網(wǎng)絡輸出的動作添加噪音，讓更新時的動作產(chǎn)生一定波動，以達到對動作波動的學習，從而增加算法穩(wěn)定性。

TD3算法使用3個神經(jīng)網(wǎng)絡，包括1個Actor網(wǎng)絡（?）和2個Critic網(wǎng)絡（θ1,θ2），且每個網(wǎng)絡均有各自的目標網(wǎng)絡π?′和分別為目標動作和目標Q值。

①Critic網(wǎng)絡更新。Critic網(wǎng)絡的更新如式（23）～（25）所示。

式中，a′為在狀態(tài)s′下的動作；ε為添加的噪聲；N為批量大??；y為目標Q值。

②Actor網(wǎng)絡更新。Actor網(wǎng)絡的更新如式（26）所示。

③ 目標網(wǎng)絡更新。目標網(wǎng)絡的軟更新如式（27）（28）所示。

式中，τ為軟更新系數(shù)。

1.5 模擬環(huán)境

研究的大型CCHP系統(tǒng)總供能面積為65.7萬m2，設計最大每小時供冷量為56.8 MW，系統(tǒng)最大每小時耗電量為1.2 MW。該系統(tǒng)歷史運行數(shù)據(jù)來自數(shù)據(jù)庫實時記錄，包括負荷情況、機組出力、TET蓄冷量、購電量、天然氣消耗量等參數(shù)。該數(shù)據(jù)庫運行時的運行策略稱為歷史運行策略。系統(tǒng)的機組、參數(shù)、經(jīng)濟性參數(shù)分別如表1和表2所示。

表1 機組參數(shù)Table 1 Parameters of units

表2 經(jīng)濟性參數(shù)Table 2 Economic parameters

TD3代理中的Actor和Critic網(wǎng)絡詳細參數(shù)如表3所示。為了減少各機組之間的頻繁啟停，將DRL給出的方案按EC和ICE的部分負荷率分別排序后作為實際運行策略。

表3 DRL的DNN結構Table 3 DNN structure of DRL

DRL的控制間隔設置為60 min。在訓練階段，采取24 h作為1個訓練集，連續(xù)控制優(yōu)化5 d。模型訓練時，初始時刻蓄能罐的蓄冷量為0 MWh，最大需量為0 kW，連續(xù)優(yōu)化中后續(xù)天數(shù)的初始參數(shù)為前1 d運行后TET中的剩余蓄冷量和最大需量。訓練完成后將其應用于不同的負荷下進行測試，由該時刻數(shù)據(jù)庫中TET的蓄冷量和最大需量作為初始值，進行連續(xù)5 d優(yōu)化控制。

2 結果與分析

2.1 運行策略對比分析

選取2020年7月27—31日數(shù)據(jù)進行控制優(yōu)化。根據(jù)歷史數(shù)據(jù)庫中記錄的數(shù)據(jù)，初始時刻采取蓄能罐蓄冷量40 MWh，最大需量0 kW。TD3代理給出的不考慮需量電費和考慮需量電費的運行策略和歷史運行策略的運行成本和負荷供給狀況如表4所示。歷史運行策略的運行成本為415 417.9元；TD3代理給出的不考慮需量電費和考慮需量電費運行策略的運行成本分別為265 680.0和242 892.0 元。

表4 不同運行策略結果Table 4 Results for different strategies

不同運行策略下的電功率和機組出力圖如圖2所示。歷史運行策略下，在電價低谷期對TET進行蓄能，冷負荷高峰期根據(jù)負荷大小控制EC運行數(shù)量；由于沒有ICE輔助供電，EC運行時直接電網(wǎng)購電量明顯較高，因此需量電費也較高；溢出冷量主要來自于蓄冷階段的過量供冷，引發(fā)了額外運行成本。因此，歷史運行策略的經(jīng)濟性較差。不考慮需量電費的TD3代理給出的運行策略下，在供冷階段中，根據(jù)冷負荷大小開啟EC和AC，在電價高峰期通過ICE供給整個CCHP系統(tǒng)，通過降低用電成本方式來減少總體運行成本；在電價低峰期且TET蓄冷量過少時，會通過EC對TET進行蓄冷，電力購入費用主要來自于該時段；這表明TD3代理掌握了由時間帶來的電價變化，從而降低了運行成本，其實時運行成本相較于歷史運行策略降低了34.1%?？紤]需量電費的TD3代理給出的運行策略下，在電價低峰期、且TET蓄冷量過少時沒有單獨開啟EC蓄冷，顯著降低了單獨運行EC引起的最大需量，所以需量電費很少；相較于歷史運行策略，考慮需量電費的TD3代理給出的運行策略的需量電費降低了92.6%，總運行成本降低了41.5%；與不考慮需量電費的TD3代理相比較，考慮需量電費的TD3代理給出的運行策略的實時運行成本增加0.35%，但降低了85.5%最大需量，總運行成本降低了8.6%。由此表明，TD3代理可以充分實現(xiàn)需量電費的優(yōu)化目標，優(yōu)化過程平衡了需量電費和實時運行成本。

圖2 不同運行策略下的電功率和機組出力圖Fig. 2 Electrical power and units outputs under different operating strategies

2.2 TD3代理應用于不同特征負荷

將訓練好的考慮需量電費的TD3代理應用到不同特征的冷負荷中，以驗證TD3代理對于不同特征負荷的泛化性。于2021年7月26日至8月27日連續(xù)5周冷負荷，將其中連續(xù)5個工作日作為1組測試周數(shù)據(jù)（圖3）。相較于訓練負荷數(shù)據(jù)，該測試負荷每日供冷時間更長，且不同測試周之間，峰值冷負荷有較大幅度變化。優(yōu)化結果（表5）表明，TD3代理結果相較于歷史運行策略有著明顯的成本優(yōu)勢，首先，所有測試周期均無溢出冷量，從而沒有因過度供冷而導致的費用；其次，最大需量都保持在較低水平，且均低于歷史運行策略，從而需量電費較低。因此，經(jīng)過良好訓練的考慮需量電費的TD3代理，可以給出滿足負荷的低運行成本方案，具有良好的泛化性。

表5 不同特征負荷的優(yōu)化結果Table 5 Results for different characteristic loads

圖3 多周冷負荷Fig. 3 Multi-weekly cooling load

3 討論

在農(nóng)業(yè)節(jié)能改革的當下，大力發(fā)展低碳農(nóng)業(yè)是必然趨勢。作為農(nóng)業(yè)設施主要能耗的供能能耗，減少供能能耗能有效減少碳排放。由CCHP系統(tǒng)為農(nóng)業(yè)設施供能，可以同時供給電能和冷、熱能，有效降低農(nóng)業(yè)能耗。為了解決考慮需量電費CCHP系統(tǒng)夏季控制優(yōu)化的問題，本研究提出了一種基于TD3算法的優(yōu)化運行方案。該方案以考慮需量電費的運行成本為優(yōu)化目標，實現(xiàn)了對CCHP系統(tǒng)各機組負荷率的調度優(yōu)化，有利于為農(nóng)業(yè)供能設施提供良好的運行策略，減少供能成本，達到降低運行成本、提高經(jīng)濟性的目的。本研究結果表明，在滿足負荷的前提下，不考慮需量電費的TD3代理給出的運行策略的實時運行成本較歷史運行策略降低了34.1%；考慮需量電費的TD3代理平衡了實時運行成本和需量電費，其總運行成本較不考慮需量電費的TD3代理降低了8.6%。對不同特征負荷的實驗表明，經(jīng)過訓練的TD3代理對冷負荷特征變化有一定的適應性，具有泛化性；相較于歷史運行策略，運行成本和最大需量更低。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡