王桂蘭 張海曉 劉宏 曾康為
摘 要:為了實現(xiàn)園區(qū)綜合能源系統(tǒng)(PIES)的低碳化經(jīng)濟運行和多能源互補,解決碳捕集裝置耗電與捕碳需求之間的矛盾,以及不確定性源荷實時響應(yīng)的問題,提出了基于近端策略優(yōu)化算法含碳捕集的綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度方法。該方法通過在PIES中添加碳捕集裝置,解決了碳捕集裝置耗電和捕碳需求之間的矛盾,進而實現(xiàn)了PIES的低碳化運行;通過采用近端策略優(yōu)化算法對PIES進行動態(tài)調(diào)度,解決了源荷的不確定性,平衡了各種能源的供給需求,進而降低了系統(tǒng)的運行成本。實驗結(jié)果表明:該方法實現(xiàn)了不確定性源荷的實時響應(yīng),并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化經(jīng)濟運行方面具有有效性及先進性。
關(guān)鍵詞:園區(qū)綜合能源系統(tǒng);碳捕集;不確定性;低碳經(jīng)濟調(diào)度;近端策略優(yōu)化算法
中圖分類號:TM769?? 文獻標志碼:A??? 文章編號:1001-3695(2024)05-032-1508-07
doi: 10.19734/j.issn.1001-3695.2023.08.0446
Low carbon economic scheduling of integrated energy systems based on proximal policy optimization algorithm with carbon capture
Abstract:In order to achieve low-carbon economic operation and multi energy complementarity of the PIES in the park, solve the contradiction between power consumption and carbon capture demand of carbon capture devices, as well as the problem of real-time response to uncertain source loads, this paper proposed a low-carbon economic scheduling method for the comprehensive energy system with carbon capture based on proximal strategy optimization algorithm. This method solved the contradiction between power consumption and carbon capture demand of carbon capture devices by adding carbon capture devices to PIES, thereby achieving low-carbon operation of PIES. By adopting a proximal strategy optimization algorithm for dynamic scheduling of PIES, it solved the uncertainty of source and load, and balanced the supply and demand of various energy sources, thereby reducing the operating cost of the system. The experimental results show that this method realizes the real-time response of uncertain source loads, and is effective and progressiveness in low-carbon economic operation compared with DDPG and DQN methods.
Key words:park integrated energy system(PIES); carbon capture; uncertainty; low carbon economic dispatch; proximal policy optimization
0 引言
近年來,為應(yīng)對由于碳排放量的持續(xù)增加帶來的環(huán)境問題,各國開發(fā)和利用可再生能源,并結(jié)合碳捕集技術(shù),減少碳排放量和對傳統(tǒng)化石燃料的依賴[1]。園區(qū)綜合能源系統(tǒng)具有耦合電能、熱能和燃氣等多種能源的特點,并能實現(xiàn)多種能源之間的多源互補,成為了高效和清潔利用能源,是實現(xiàn)“雙碳”目標的重要抓手[2~4]。但隨著PIES中各設(shè)備之間的耦合日益緊密,多種能源需求具有不確定性,PIES低碳經(jīng)濟調(diào)度優(yōu)化面臨巨大挑戰(zhàn)[5],因此有效減少系統(tǒng)碳排放,提升系統(tǒng)的經(jīng)濟效益成為當前熱門的研究課題。
目前國內(nèi)外學者對PIES經(jīng)濟優(yōu)化調(diào)度問題進行了一定的研究。文獻[6]以包含電力和熱力的區(qū)域綜合能源系統(tǒng)為研究對象,采用改進粒子群算法對系統(tǒng)進行優(yōu)化調(diào)度,降低系統(tǒng)運行成本。文獻[7]采用雙λ迭代算法對園區(qū)電熱綜合能源系統(tǒng)優(yōu)化問題進行求解。文獻[8]構(gòu)建的包含源-荷-網(wǎng)-儲的綜合能源系統(tǒng)協(xié)同優(yōu)化模型,能夠有效降低系統(tǒng)運行成本。雖然上述方法在一定程度上能夠解決PIES優(yōu)化調(diào)度問題,但均未考慮碳排放問題。
碳捕集技術(shù)的快速發(fā)展為PIES實現(xiàn)低碳運行提供了解決方案[1]。文獻[9]構(gòu)建了包含碳捕集系統(tǒng)的虛擬電廠協(xié)調(diào)調(diào)度模型,用于減少系統(tǒng)中的碳排放。文獻[10]將碳捕集、利用與封存(carbon capture,utilization and storage,CCUS)裝置和電轉(zhuǎn)氣(power to gas,P2G)設(shè)備作為一個整體運行,CCUS裝置捕獲的部分CO2作為P2G設(shè)備甲烷化反應(yīng)過程中的碳源,在降低系統(tǒng)碳排放的同時,提升了系統(tǒng)的經(jīng)濟效益。文獻[11]考慮到分流式碳捕集電廠在吸收和再生環(huán)節(jié)之間存在耦合作用,引入儲液罐裝置結(jié)合風電聯(lián)合調(diào)度,使得風電消納能力和低碳經(jīng)濟效益得到了有效提升。雖然上述文獻在低碳經(jīng)濟調(diào)度方面具有優(yōu)越性,但都局限于建立詳細的PIES物理模型和固定的調(diào)度計劃,對源荷不確定性難以作出動態(tài)響應(yīng)。
強化學習在解決PIES動態(tài)調(diào)度優(yōu)化問題具有的優(yōu)勢受到了學者越來越多的關(guān)注,它不依賴于源荷的精準預(yù)測,也不需要建立復(fù)雜的物理模型,可以對源荷的不確定性實時作出動態(tài)響應(yīng)。文獻[12]以年度最小化運行成本為目標,基于深度Q網(wǎng)絡(luò)(DQN)算法對綜合能源系統(tǒng)進行能量管理,用于找到能實現(xiàn)系統(tǒng)經(jīng)濟效益最大化的目標。文獻[13]構(gòu)建了子系統(tǒng)耗能量、分時電價和各類設(shè)備出力的能量管理模型,并采用深度確定性策略梯度(DDPG)算法對系統(tǒng)進行優(yōu)化調(diào)度,仿真結(jié)果證實了所提方法能夠有效提升系統(tǒng)經(jīng)濟效益。文獻[14]使用差分進化的深度Q網(wǎng)絡(luò)算法提升了PIES的整體經(jīng)濟效益和儲能設(shè)備的利用率。
綜上所述,本文在上述研究的基礎(chǔ)上,從低碳和經(jīng)濟效益兩個方面出發(fā),提出了一種基于深度強化學習的含碳捕集的綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度方法。在PIES系統(tǒng)中引入CCUS裝置實現(xiàn)減碳目標,并利用近端策略優(yōu)化算法(proximal policy optimization,PPO)克服對源荷預(yù)測的依賴性。具體做法為:a)構(gòu)建包含碳捕集和電轉(zhuǎn)氣設(shè)備耦合系統(tǒng)(CCUS-P2G)的PIES優(yōu)化調(diào)度模型,CCUS將捕集的一部分CO2作為電轉(zhuǎn)氣設(shè)備甲烷化反應(yīng)的碳源,一部分進行驅(qū)油封存,在減少系統(tǒng)碳排放的同時有效減少購碳成本;b)針對CCUS裝置中吸收塔和再生塔存在耦合作用的問題,在CCUS裝置之間添加一組儲液罐(富液罐和貧液罐各一個),有效解決了CCUS耗電量和捕碳量之間的矛盾;c)將PIES低碳調(diào)度優(yōu)化問題描述為馬爾可夫決策過程,采用具有連續(xù)決策能力的PPO算法進行求解,解決了源荷不確定性問題。
1 園區(qū)綜合能源系統(tǒng)結(jié)構(gòu)與建模
1.1 園區(qū)綜合能源系統(tǒng)結(jié)構(gòu)
本文的園區(qū)綜合能源系統(tǒng)主要包含電能、熱能、氣能三種能源,管理外部能源和用能負荷之間的能源傳輸、轉(zhuǎn)換以及存儲。在PIES結(jié)構(gòu)中,由上級電網(wǎng)、風電以及燃氣輪機提供電負荷,由燃氣輪機和沼氣鍋爐提供熱負荷,由天然氣站和P2G設(shè)備提供氣負荷,以及由CCUS-電轉(zhuǎn)氣設(shè)備(P2G)耦合的碳捕集系統(tǒng)捕獲PIES中排放的二氧化碳。PIES的結(jié)構(gòu)如圖1所示。
1.2 園區(qū)綜合能源系統(tǒng)設(shè)備建模
1.2.1 CCUS靈活運行方式的數(shù)學模型
碳捕集技術(shù)可以劃分為富氧燃燒捕集、燃燒前捕集和燃燒后捕集[15,16]。在實際應(yīng)用中多采用燃燒后捕集方法,本文同樣采用的是燃燒后捕集技術(shù)。為了解決碳捕集過程中吸收塔吸收過程和再生塔再生環(huán)節(jié)在CO2處理量方面的耦合問題,在CCUS中的吸收塔和再生塔之間添加一組儲液罐(富液罐和貧液罐各一個),解除了CO2在吸收過程和再生環(huán)節(jié)的耦合,使得再生塔CO2中處理量不再需要和吸收塔中CO2吸收量相匹配。碳捕集裝置的靈活運行方式如圖2所示,系統(tǒng)的碳排放量與CCUS的關(guān)系如式(1)所示。
其中:t為時刻;Pccust為碳捕集系統(tǒng)(CCUS)總能耗;Pnort為CCUS的固定耗能,CCUS的固定耗能與CCUS的運行狀態(tài)無關(guān),通常視為常數(shù);Prt為CCUS的運行耗能;Ect為煙氣中的CO2;σc為碳排放強度;Pct為火電機組總的輸出功率;υ(t)為煙氣分流比;λc為CCUS捕集單位CO2消耗的電功率;γ1和γ2分別為吸收效率和再生效率;Emt和Ent分別為吸收塔吸收的CO2量和再生塔處理的CO2量;Ericht為富液罐中CO2流出量,負值表示CO2從吸收塔流向富液罐,正值表示CO2從富液罐流向再生塔;Eccust為CCUS捕獲的CO2量;γc為CCUS的CO2捕集率;ECO2t為系統(tǒng)總碳排放量。
儲液罐的數(shù)學模型如式(2)所示。
其中:oricht和opoort分別為富液罐和貧液罐中溶液的流出量,同一時刻富液罐中溶液的流出量和貧液罐中溶液的流入量相同;δCO2為富液罐中CO2溶液密度;Iricht和Ipoort分別為富液罐和貧液罐中溶液的儲存量;Irichmax和Ipoormax分別為富液罐和貧液罐中最大溶液儲存量。
CCUS將捕集來的一部分CO2用于P2G設(shè)備生成甲烷過程中的原材料,另一部分進行驅(qū)油封存。這樣不僅能夠促進碳的循環(huán)利用,還能夠節(jié)省購碳和碳封存成本。P2G設(shè)備甲烷化反應(yīng)過程中CO2消耗量如式(3)所示。
其中:ψh-e為熱電轉(zhuǎn)換系數(shù);EP2Gt為P2G設(shè)備消耗CO2量; ηP2G為P2G設(shè)備電氣轉(zhuǎn)換效率;μP2G-loss為P2G設(shè)備電能損耗率;ρCO2為CO2的密度;HCH4為天然氣低位熱值。
CCUS驅(qū)油封存的CO2量如式(4)所示。
Estot=Eccust-EP2Gt(4)
1.2.2 CCUS靈活運行方式的數(shù)學模型
燃氣輪機(GT)承擔系統(tǒng)中穩(wěn)定的電熱出力,GT設(shè)備消耗天然氣與產(chǎn)生熱能和電能的關(guān)系如式(5)(6)所示。
PGTt=GGTtηGT-E(5)
QGTt=GGTt(1-ηGT-E-μGT-loss)(6)
其中:PGTt為GT設(shè)備的產(chǎn)電功率;HGTt為GT設(shè)備的產(chǎn)熱功率;GGTt為GT設(shè)備耗氣功率;ηGT-E為GT設(shè)備發(fā)電效率;μGT-loss為GT設(shè)備燃氣損失率。
1.2.3 生物質(zhì)供能單元模型
本文使用的生物質(zhì)能為沼氣,通過沼氣的燃燒來為系統(tǒng)提供熱能供給。沼氣鍋爐是生物質(zhì)供能單元的主要供能設(shè)備,沼氣鍋爐通過燃燒沼氣產(chǎn)生熱能。當燃氣輪機和儲熱罐不能滿足系統(tǒng)中熱負荷的需求時,使用沼氣鍋爐來維持系統(tǒng)中熱能的供需平衡。沼氣鍋爐的能量轉(zhuǎn)換如式(7)所示。
QGBt=GBiotηGBHBio(1-μBio-loss)(7)
其中:QGBt為沼氣鍋爐的產(chǎn)熱功率;GBiot為沼氣鍋爐消耗沼氣量;ηGB為沼氣鍋爐產(chǎn)熱效率;HBio為沼氣鍋爐單位沼氣消耗量的低熱值;μBio-loss為沼氣鍋爐沼氣損耗率。
1.2.4 儲能設(shè)備單元模型
PIES中的儲能設(shè)備包括蓄電池、儲熱罐、儲氣罐和儲沼氣罐,這四種設(shè)備分別負責電能、熱能、燃氣和沼氣的存儲或釋放。儲能設(shè)備的數(shù)學模型如式(8)所示。
其中:X為能源類別;ES、HS、GS、BS分別為蓄電池、儲熱罐、儲氣罐、儲沼氣罐;SXt、SXt+1分別為t時刻和t+1時刻的儲能量;μX-loss為儲能設(shè)備X的自損耗系數(shù);PX,cht、PX,dist分別為儲能設(shè)備X在t時刻的儲能功率、放能功率;ηX,ch、ηX,dis分別為儲能設(shè)備X的儲能效率、放能效率;δX,cht為0-1變量,該變量表示在時隙t時的儲能設(shè)備X的儲能狀態(tài);Δt為單位時隙長度。
1.3 園區(qū)綜合能源系統(tǒng)設(shè)備建模
1.3.1 CCUS靈活運行方式的數(shù)學模型
園區(qū)綜合能源系統(tǒng)動態(tài)調(diào)度的目標是在滿足負荷需求的情況下,調(diào)整能源系統(tǒng)中各個單元的出力,使系統(tǒng)總經(jīng)濟運行成本最小。系統(tǒng)運行成本包括購能成本Cen、碳封存成本Ccs、系統(tǒng)設(shè)備運行維護成本Cfix和碳交易成本Cc四部分,系統(tǒng)運行成本如式(9)所示。
F=min(Cen+Ccs+Cfix+Cc)(9)
1)購能成本
PIES的外部購能成本主要包括對電熱、燃氣和沼氣的購買,外部購能成本如式(10)所示。
其中:cElet、cGast、cBiot分別為t時刻的電能、天然氣和沼氣的價格;PElet、GGast、GBiot分別為t時刻的購電量、天然氣量和沼氣量。
2)碳封存成本
其中:φc為驅(qū)油封存成本系數(shù)[17]。
3)系統(tǒng)設(shè)備運行維護成本
其中:ci,fix為設(shè)備i運行維護成本系數(shù);Pit為第i臺設(shè)備出力;M為設(shè)備類別,包括風電、燃氣輪機、CCUS、沼氣鍋爐、蓄電池、儲熱罐、儲氣罐和儲沼氣罐。
4)碳交易成本
其中:cc為碳交易成本系數(shù);αi為設(shè)備i的碳配額;N為火電機組總類(燃氣輪機和沼氣鍋爐)。
1.3.2 約束條件
園區(qū)綜合能源系統(tǒng)優(yōu)化調(diào)度模型需要考慮電功率平衡約束、熱功率平衡約束、氣功率平衡約束、外部能源交互功率約束、CCUS約束和PIES中設(shè)備運行約束。
1)電功率平衡約束
Ploadt+PP2Gt+PES,cht+Pccust=PElet+PGTt+PPVt+PES,dist(14)
其中:Ploadt為電負荷;PES,cht和PES,dist分別為蓄電池充電和放電功率;PPVt為光伏陣列輸出的電功率。
2)電功率平衡約束
Qloadt+PHS,cht=QGTt+QGBt+PHS,dist(15)
其中:Qloadt為熱負荷;PHS,cht和PHS,dist分別為儲熱罐儲熱和放熱功率。
3)氣功率平衡約束
Gloadt+GGTt+PGS,cht=GGast+GP2Gt+PGS,dist(16)
其中:Gloadt為氣負荷;PGS,cht和PGS,dist分別為儲氣罐儲氣和放氣功率。
4)能源交互功率約束
其中:PElet和GGast分別為t時刻下外部電網(wǎng)購電功率和天然氣站購氣功率;PElemax和GGasmax分別為系統(tǒng)t時刻下與外部電網(wǎng)和天然氣站交互功率的上限。
5)CCUS約束
Pccusmin≤Pccust≤Pccusmax(18)
其中:Pccusmin和Pccusmax分別為CCUS電功率的下限和上限。
6)PIES中設(shè)備約束
燃氣輪機、沼氣鍋爐和P2G設(shè)備出力約束如式(19)所示。
Pimin≤Pit≤Pimax
0≤|Pit-Pit-1|≤ΔPimax(19)
其中:i為設(shè)備類別,包含燃氣輪機、沼氣鍋爐和P2G設(shè)備;Pit和Pimax分別為設(shè)備i在t時刻的出力和輸入功率的上限;ΔPimax為設(shè)備i爬坡功率的上限。
7)儲能設(shè)備約束
儲能設(shè)備X(蓄電池、儲熱罐、儲氣罐、儲沼氣罐)的狀態(tài)約束、容量約束、儲能和放能功率約束分別為
其中:SXmin、SXmax分別為儲能設(shè)備X的容量下限、容量上限;PX,chmax和PX,dismax分別為儲能設(shè)備X的最大儲能功率或放能功率。
2 PIES動態(tài)調(diào)度問題的深度強化學習模型
2.1 馬爾可夫決策過程
由于深度強化學習在求解包含不確定因素的決策調(diào)度問題方面具有優(yōu)勢,本文基于深度強化學習,將PIES動態(tài)經(jīng)濟調(diào)度問題轉(zhuǎn)換為馬爾可夫決策過程,能夠準確適應(yīng)PIES源荷的動態(tài)變化,實現(xiàn)問題的快速求解。
馬爾可夫決策過程是強化學習的數(shù)學基礎(chǔ)。馬爾可夫決策過程(MDP)包含元素(S,A,R,γ),其中S表示環(huán)境的狀態(tài)集合,A表示智能體的動作集合,R表示回報函數(shù),γ是折扣因子且γ∈(0,1]。狀態(tài)轉(zhuǎn)換過程是t時刻,智能體根據(jù)當前的環(huán)境狀態(tài)st,選擇動作at與環(huán)境交互,獲得獎勵rt并進入下一個狀態(tài)st+1。智能體在每個時間步與環(huán)境進行交互時,都會得到一個獎勵,直到結(jié)束狀態(tài)。使用回報Gt來表示智能體的長期收益,如式(23)所示。
其中:T為決策序列的長度。
用動作-價值函數(shù)Q來評判在狀態(tài)s下做出動作a的好壞,狀態(tài)的好壞用狀態(tài)-價值函數(shù)V來評判,并且可以使用Q價值函數(shù)的數(shù)值來計算V價值函數(shù),定義分別如式(24)(25)所示。
其中:π(a|s)為當前狀態(tài)s下執(zhí)行動作a的概率,表示的是智能體的策略。
1) 狀態(tài)空間描述
智能體觀測到的狀態(tài)st包括電負荷、熱負荷、氣負荷、光伏發(fā)電量、儲能設(shè)備的狀態(tài)以及時刻t,狀態(tài)空間如式(26)所示。
st={Ploadt,Qloadt,Gloadt,PPVt,SESt,SHSt,SGSt,t}(26)
其中:Ploadt、Qloadt和Gloadt分別為電負荷、熱負荷和氣負荷;
SESt、SHSt和SGSt分別為蓄電池、儲熱罐和儲氣罐的狀態(tài)。
2)改進的動作空間描述
at={PGTt,PP2Gt,QGBt,Pccust,PES,ch/dist,PHS,ch/dist,PGS,ch/dist}(27)
其中:PGTt為GT設(shè)備耗電功率;PP2Gt為P2G設(shè)備耗電功率;QGBt為GB設(shè)備的產(chǎn)熱功率;PES,ch/dist、PHS,ch/dist、PHS,ch/dist分別為蓄電池的儲/放電功率、儲熱罐的儲/放熱功率、儲氣罐的儲/放氣功率。
在上層動作空間中增加隨機擾動來提升對環(huán)境的感知能力,改進后的上層PPO動作空間如式(28)所示。
3)改進的獎勵函數(shù)
獎勵函數(shù)用于指導智能體尋得最優(yōu)調(diào)度策略,其
以獲得獎勵最大化為目標進行參數(shù)更新。PIES動態(tài)調(diào)度的目標是使系統(tǒng)的運行成本最小化,將該目標轉(zhuǎn)換為獎勵函數(shù)最大化的一部分。另外,為了維持PIES內(nèi)源荷的供需平衡,在獎勵函數(shù)懲罰項中加入系統(tǒng)內(nèi)源荷供需不平衡造成的功率誤差,同時為了加快強化學習算法收斂獲得最優(yōu)的控制效果,將智能體動作越限懲罰成本[18]添加獎勵函數(shù)懲罰項。智能體動作越限懲罰成本如式(29)所示。
其中:ψt為t時刻下,智能體動作越限懲罰成本;κum,i和κdm,i分別為智能體動作爬坡上限和下限的懲罰系數(shù);aum,imax和adm,imin分別為動作變化率的上變化限值和下變化限值;κun,i和κdn,i分別為智能體動作爬坡上限和下限的懲罰系數(shù);aun,imax和adn,imin分別為動作變化率的上變化限值和下變化限值;
智能體獎勵函數(shù)如式(30)所示。
Rt=-λ(F+ψt+ζEPENBt+ζHQHNBt+ζGGGNBt)+r0(30)
其中:ζE、ζH和ζG分別為電能、熱能、燃氣供需不平衡量成本系數(shù);PENBt、QHNBt和GGNBt分別為t時刻下電能、熱能和燃氣供需不平衡量;λ為獎勵函數(shù)的縮放系數(shù);r0為常數(shù),可以使累積回報由負轉(zhuǎn)正,提高模型的穩(wěn)定性和收斂速度。
2.2 馬爾可夫決策過程
與傳統(tǒng)的策略梯度優(yōu)化算法相比,PPO算法具有對更新步長不敏感、更新時無須重新采樣的優(yōu)勢,適用于包含光伏和負荷等連續(xù)數(shù)據(jù)的PIES,可有效避免維數(shù)災(zāi)難。
PPO是由OpenAI 在2017年提出的一種基于 Actor-Critic(AC)框架的強化學習的基準算法。AC(Actor-Critic)方法包含了基于價值和策略的學習方法。AC框架包含Actor和Critic兩個網(wǎng)絡(luò)。其中:Actor網(wǎng)絡(luò)又稱為策略網(wǎng)絡(luò),主要用于生成策略函數(shù);Critic網(wǎng)絡(luò)又稱為價值網(wǎng)絡(luò),主要用于對Actor作出的動作進行評估,來使得Actor網(wǎng)絡(luò)改進策略函數(shù)。PPO算法的訓練流程如圖3所示。
1)Actor網(wǎng)絡(luò)訓練
Actor網(wǎng)絡(luò)通過優(yōu)化損失函數(shù)JCLIP(θ)來更新網(wǎng)絡(luò)參數(shù)θ。JCLIP(θ)表示為
其中:A(st,at)為優(yōu)勢函數(shù);rt(θ)為重要性采樣比;θ為Actor網(wǎng)絡(luò)參數(shù);ε為裁剪因子,是用于衡量新策略和老策略偏差程度的超參數(shù)。由于新策略與舊策略更新距離過大會造成算法不穩(wěn)定,為了避免上述情況,將重要性采樣權(quán)重限制在[1-ε,1+ε]。
式(5)中的優(yōu)勢函數(shù)定義如式(32)所示。
A(st,at)=yt-Vω(st),
yt=Rt+γVω(st+1)(32)
其中:Vω(st)為t時刻Critic網(wǎng)絡(luò)的輸出值;Rt為 t時刻的獎勵;ω為Critic的網(wǎng)絡(luò)參數(shù);yt為時刻t+1時對Vω(st)的估計值。
重要性采樣比為新策略分布函數(shù)與舊策略分布函數(shù)的比值,如式(33)所示。
使用梯度上升的方法來更新Actor網(wǎng)絡(luò)參數(shù)θ的大小,更新公式如式(34)所示。
θ←θ+σAθJ(θ)(34)
其中:σA為Actor網(wǎng)絡(luò)的學習率。
2)Critic網(wǎng)絡(luò)訓練
Critic網(wǎng)絡(luò)通過優(yōu)化損失函數(shù)L(ω)來更新Critic的網(wǎng)絡(luò)參數(shù)ω,L(ω)的定義如式(35)所示。
L(ω)=E[yt-Vω(st)]2(35)
使用梯度下降的方法來更新Critic網(wǎng)絡(luò)參數(shù)ω,更新公式如式(36)所示。
ω←ω-σCωL(ω)(36)
其中:σC為Critic網(wǎng)絡(luò)的學習率。
2.3 基于PPO算法的動態(tài)調(diào)度模型
基于PPO算法求解PIES動態(tài)調(diào)度問題的模型如圖4所示。
Critic和Actor網(wǎng)絡(luò)的初始輸入狀態(tài)都是從經(jīng)驗池中隨機抽樣獲取的狀態(tài)st,模型每輪訓練的初始狀態(tài)都從經(jīng)驗池中隨機抽樣的優(yōu)勢是:可以降低訓練完成的模型在獲取PIES動態(tài)調(diào)度方案方面的偶然性。同時,Critic網(wǎng)絡(luò)輸出的為Vt值,Actor網(wǎng)絡(luò)的輸出為動作at,智能體按照時段與PIES環(huán)境進行交互,并根據(jù)當前環(huán)境狀態(tài)st,作出動作at,PIES環(huán)境返回給智能體獎勵值Rt,經(jīng)驗池用來保存每一個時段的狀態(tài)st、動作at和獎勵Rt。智能體中網(wǎng)絡(luò)權(quán)重更新使用的樣本來源于經(jīng)驗池中的隨機抽取。利用訓練數(shù)據(jù)對基于PPO算法的DRL模型完成離線訓練后,將該模型保存并應(yīng)用于PIES的動態(tài)經(jīng)濟調(diào)度。
3 算例仿真及結(jié)果分析
3.1 基于PPO算法的動態(tài)調(diào)度模型
本文PIES中的電負荷、熱負荷、氣負荷和光伏發(fā)電數(shù)據(jù)來源于國內(nèi)某小型園區(qū),系統(tǒng)主要設(shè)備仿真參數(shù)如表1所示,分時電價如表2所示,天然氣單價為3.6元/m3,沼氣價格為1元/m3。本文實驗在TensorFlow平臺實現(xiàn),Actor和Critic網(wǎng)絡(luò)的隱藏層層數(shù)均為3,每層含有200個神經(jīng)元,激活函數(shù)均為ReLU,使用Adam優(yōu)化器更新網(wǎng)絡(luò)權(quán)重。
3.2 算例仿真分析
為了驗證本文所提含有CCUS-P2G耦合系統(tǒng)的PIES和PPO方法均能夠有效提升PIES經(jīng)濟效益,降低碳排放。設(shè)置了五種不同的方案,方案5為本文方法,方案中的傳統(tǒng)場景分析法是采用模型預(yù)測控制方法進行求解,各方案分別為
方案1 不考慮CCUS,采用傳統(tǒng)場景分析法求解。
方案2 考慮CCUS、P2G非耦合系統(tǒng),不考慮儲液罐,采用傳統(tǒng)場景分析法求解。
方案3 考慮CCUS、P2G耦合系統(tǒng),不考慮儲液罐,采用傳統(tǒng)場景分析法求解。
方案4 考慮CCUS-P2G耦合系統(tǒng),不考慮儲液罐,采用PPO算法求解。
方案5 考慮CCUS-P2G耦合系統(tǒng),考慮儲液罐,采用PPO算法求解。
3.2.1 各方案調(diào)度結(jié)果分析
由表3和圖5可知,在提升系統(tǒng)經(jīng)濟效益和減少碳排放方面,考慮CCUS-P2G耦合系統(tǒng)、儲液罐和PPO算法對PIES進行優(yōu)化調(diào)度的方案5均取得了最優(yōu)的結(jié)果,相比于方案1,總成本和碳交易成本分別下降15.9%和68.8%,凈碳排放量下降57.6%,充分驗證了本文方法在低碳性和經(jīng)濟性方面均具有顯著優(yōu)越性。
a)方案2相比方案1。引入CCUS系統(tǒng),該系統(tǒng)捕獲燃氣輪機和沼氣鍋爐設(shè)備產(chǎn)生的CO2,有效減少了系統(tǒng)的碳排放。
b)方案3相比方案2。采用CCUS-P2G耦合系統(tǒng),將捕獲的CO2一部分作為P2G設(shè)備甲烷化反應(yīng)過程中的碳源,另一部分進行驅(qū)油封存,減少系統(tǒng)碳排放量的同時也降低了P2G設(shè)備購碳成本,進而降低了系統(tǒng)的總運行成本。
c)方案4相比方案3。采用了PPO算法進行PIES的動態(tài)經(jīng)濟調(diào)度,該方法相比于傳統(tǒng)調(diào)度方法,不再依賴于源荷的精確預(yù)測和固定的物理模型,能夠動態(tài)響應(yīng)PIES中源荷的隨機波動,根據(jù)分時電價合理調(diào)整PIES中各個設(shè)備的出力,維持PIES中能源的供需平衡,但由于CCUS能耗和捕碳需求之間存在矛盾,CCUS能耗提升有限,導致碳捕集量降低。
d)方案5相比方案4。通過引入了儲液罐的方式解決了方案4中存在的問題,儲液罐的引入解除了再生塔和吸收塔CO2處理量之間的耦合關(guān)系,使得CCUS耗電和捕碳之間的矛盾得以解決[19]。當高電價時,CCUS幾乎不耗電,可以將吸收塔吸收的CO2放入富液罐中暫存;在低電價時,CCUS耗電量提升,將富液罐中的CO2流入貧液罐,增大CCUS耗電量,使得碳再生量得以提升,進而降低系統(tǒng)碳排放量,提升系統(tǒng)經(jīng)濟效益。
3.2.2 方案4、5中PPO算法的收斂性能分析
從圖6可以看出,方案4和5均經(jīng)過約5 000個episode后收斂,充分驗證了方案5在方案4的基礎(chǔ)上引入儲液罐不僅不影響算法的收斂性能,還能有效提升獎勵值。
由于最初智能體對環(huán)境不熟悉,處于學習過程,初始階段的獎勵值較低,隨著智能體不斷地與環(huán)境進行交互,不斷試錯,不斷積累經(jīng)驗,所以智能體獲得的獎勵值逐漸增加并最終收斂,這說明智能體能夠合理調(diào)整PIES中能源的轉(zhuǎn)換、購買和存儲行為,進而達到提升系統(tǒng)經(jīng)濟效益的目的。由于系統(tǒng)中源荷具有不確定性,所以獎勵值會出現(xiàn)波動性。
3.2.3 方案5動態(tài)調(diào)度性能分析
本文隨機選取PIES中連續(xù)30天的能源數(shù)據(jù)作為測試集,設(shè)置時間尺度為15 min。為進一步分析方案5中算法的訓練結(jié)果,驗證CCUS系統(tǒng)中儲液罐的有效性,隨機選取一天的數(shù)據(jù)進行分析,動態(tài)調(diào)度優(yōu)化結(jié)果如圖7、8所示。圖7中的上、下兩部分分別為PIES能源供給功率和需求功率總和的柱狀堆積圖。
1)PIES電能、熱能和燃氣供需平衡結(jié)果分析
如圖7(a)所示,在電價谷時段,電力系統(tǒng)中GT設(shè)備幾乎不運行,主要通過外部購電來滿足電負荷的需求,同時,P2G耗電量增加,蓄電池進行充電操作;如圖7(b)所示,熱力系統(tǒng)主要通過沼氣鍋爐產(chǎn)熱來滿足熱功率的供需平衡;如圖7(c)所示,燃氣系統(tǒng)主要通過P2G設(shè)備來支撐氣負荷的需求,滿足燃氣系統(tǒng)的供需平衡。
綜合來看,電價平時段和峰時段,電力系統(tǒng)中GT設(shè)備運行功率上升,主要由GT設(shè)備和光伏來滿足電負荷的需求,當GT設(shè)備和光伏供能不足時,通過外部購電來彌補電功率的供需缺口;熱力系統(tǒng)主要由GT設(shè)備和沼氣鍋爐滿足熱功率的供需平衡;燃氣系統(tǒng)主要通過外部購氣滿足GT設(shè)備和氣負荷的需求,來維持燃氣系統(tǒng)的供需平衡。
2)碳捕集系統(tǒng)碳再生和能耗結(jié)果分析
由圖7和8可知:0:00~8:00為電價谷時段,在該時段將前一天富液罐中暫存的CO2流入貧液罐,增加CCUS耗電量,加大CCUS的碳再生力度,有效減少了PIES碳排放;8:00~23:00為電價平時段和峰時段,由于外部購電成本較高,將吸收塔中吸收的CO2放到富液罐中進行暫存,以此來降低CCUS的耗電量,該時段儲存的碳在谷時段(23:00~次日8:00)進行碳再生。
3.2.4 方案5能源損耗結(jié)果分析
為驗證本文方法對能源損耗的自適應(yīng)能力,將PIES系統(tǒng)中的電負荷Ploadt、熱負荷Qloadt和氣負荷Gloadt分別增加增量Δh1、Δh2和Δh3后,再次對PIES進行動態(tài)調(diào)度求解分析,判斷其是否滿足PIES中電負荷、熱負荷和氣負荷的能源需求。
a)燃氣輪機和沼氣鍋爐考慮熱能損耗后的功率變化如圖9所示。
如圖9可知,在電價的谷時段,沼氣鍋爐輸出的熱功率變化較為明顯,在電價的平時段和峰時段,燃氣輪機輸出的熱功率變化比較明顯,表明本文方法中的燃氣輪機和沼氣鍋爐均能自適應(yīng)動態(tài)調(diào)度決策,維持PIES中熱能的供需平衡。
b)燃氣輪機考慮電能損耗后的功率變化如圖10所示。
如圖10所示,在電價的谷時段,燃氣輪機輸出電功率變化不明顯,在電價的平時段和峰時段,燃氣輪機輸出電功率變化較明顯,燃氣輪機通過自適應(yīng)動態(tài)調(diào)度決策,滿足PIES中電負荷的供需平衡。
c)P2G設(shè)備考慮燃氣損耗后的功率變化如圖11所示。
如圖11所示,在電價的谷時段,P2G設(shè)備輸出氣功率變化明顯,在電價的平時段和峰時段,P2G設(shè)備輸出氣功率變化不明顯,P2G設(shè)備通過自適應(yīng)動態(tài)調(diào)度決策,滿足PIES中氣負荷的供需平衡。
3.3 不同調(diào)度方法對比結(jié)果分析
為了進一步驗證本文方法的有效性,將本文方法與近幾年較流行的基于深度確定性策略梯度(DDPG)算法[9]和基于深度Q網(wǎng)絡(luò)(DQN)算法的動態(tài)調(diào)度方法[1]進行了比較。從測試數(shù)據(jù)集中隨機選取連續(xù)10日的數(shù)據(jù)進行測試,其中調(diào)度總時段為24 h,時間尺度為15 min,三種深度強化學習方法在學習過程中的獎勵曲線如圖12所示,調(diào)度算法結(jié)果如表4所示。
從圖12可知,PPO算法相較于DQN和DDPG算法獎勵值最高,園區(qū)綜合能源系統(tǒng)優(yōu)化效果最佳。
從表4可以看出,PPO算法相比于DQN和DDPG算法總成本低2.3%和3.8%,碳交易成本低3.3%和6.1%,凈碳排放量低2.1%和3.7%。由此可見,基于PPO算法的動態(tài)調(diào)度方法相比于DDPG和DQN方法擁有最低的運行成本和碳排放量。
4 結(jié)束語
本文提出了一種考慮碳捕集的園區(qū)綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度方法,構(gòu)建了包含CCUS-P2G耦合系統(tǒng)的PIES低碳經(jīng)濟調(diào)度模型,并在CCUS系統(tǒng)中添加了一組儲液罐,采用PPO方法對PIES進行優(yōu)化調(diào)度。仿真結(jié)果證明,本文方法能夠有效降低系統(tǒng)碳排放,提升系統(tǒng)的經(jīng)濟效益,具體結(jié)論如下:
a)在PIES結(jié)構(gòu)中,采用CCUS-P2G耦合系統(tǒng)的運行模式,在減少系統(tǒng)碳排放的同時,能夠為P2G設(shè)備甲烷化反應(yīng)過程提供碳源,進一步降低了系統(tǒng)的運行成本;CCUS中儲液罐的引入,有效解決了CCUS能耗與捕碳需求之間的矛盾,降低了系統(tǒng)碳排放水平,提升了系統(tǒng)的經(jīng)濟效益。
b)本文采用PPO算法對PIES進行動態(tài)調(diào)度優(yōu)化,求解過程不需要建立復(fù)雜的物理模型,而是將該問題的求解轉(zhuǎn)換為馬爾可夫決策過程,用連續(xù)狀態(tài)空間和動作空間來求解,不僅避免了離散化處理帶來的維數(shù)災(zāi)難問題,還能夠有效應(yīng)對源荷的不確定性,穩(wěn)定各設(shè)備出力,提升系統(tǒng)的可靠性。
c)仿真實驗證明,在考慮能源損耗的基礎(chǔ)上,本文方法能夠進行跟蹤學習,PIES中各設(shè)備能自適應(yīng)調(diào)度決策,滿足系統(tǒng)中能源需求,維持PIES中電能、熱能和燃氣的供需平衡。同時,本文方法和DDPG、DQN算法相比,擁有最低的運行成本和碳排放量。
本文研究重點為在滿足園區(qū)綜合能源系統(tǒng)能量供需平衡的前提下,驗證本文方法在低碳經(jīng)濟調(diào)度方面的有效性,僅考慮了園區(qū)綜合能源系統(tǒng)獨立運行的情況。而在實際的園區(qū)綜合能源系統(tǒng)運行時可能會與電網(wǎng)產(chǎn)生能量交互,影響系統(tǒng)內(nèi)部設(shè)備出力情況,未來將重點研究園區(qū)綜合能源系統(tǒng)并網(wǎng)互聯(lián)的運行優(yōu)化問題,并對單獨運行和并網(wǎng)運行能源系統(tǒng)的經(jīng)濟效益及碳排放情況展開進一步的分析。
參考文獻:
[1]張沈習,王丹陽,程浩忠,等. 雙碳目標下低碳綜合能源系統(tǒng)規(guī)劃關(guān)鍵技術(shù)及挑戰(zhàn) [J]. 電力系統(tǒng)自動化,2022,46(8): 189-207. (Zhang Shenxi,Wang Danyang,Cheng Haozhong,et al. Key technolo-gies and challenges of low-carbon integrated energy system planning under the dual-carbon target [J]. Automation of Electric Power Systems,2022,46(8): 189-207.)
[2]Ma Yiming,Wang Haixin,Hong Feng,et al. Modeling and optimization of combined heat and power with power-to-gas and carbon capture system in integrated energy system [J]. Energy,2021(5): 121392.
[3]Ding Xiaoyi,Sun Wei,Gareth P H,et al. Multi-objective optimization for an integrated renewable,power-to-gas and solid oxide fuel cell/gas turbine hybrid system in microgrid [J]. Energy,2020(213): 118804.
[4]Lyu Jiawei,Zhang Shenxi,Cheng Haozhong,et al. Review on district-level integrated energy system planning considering interconnection and interaction [J]. Proceedings of the CSEE,2021,41(12): 4001-4021.
[5]Yu Xiaodan,Xu Xiandong,Chen Shuoyi,et al. A brief review to integrated energy system and energy internet [J]. Trans of China Electrotechnical Society,2016,31(1): 1-13.
[6]王丹,智云強,賈宏杰,等. 基于多能源站協(xié)調(diào)的區(qū)域電力-熱力系統(tǒng)日前經(jīng)濟調(diào)度 [J]. 電力系統(tǒng)自動化,2018,42(13): 59-67. (Wang Dan,Zhi Yunqiang,Jia Hongjie,et al. Day-ahead economic dispatch strategy of regional electricity-heating integrated energy system based on multiple energy stations [J]. Automation of Electric Power Systems,2018,42(13): 59-67.)
[7]Ali E,Yang Qiang. Scenario-based investment planning of isolated multi-energy microgrids considering electricity,heating and cooling demand [J]. Applied Energy,2019,235(1): 1277-1288.
[8]帥挽瀾,朱自偉,李雪萌,等. 考慮風電消納的綜合能源系統(tǒng)“源-網(wǎng)-荷-儲”協(xié)同優(yōu)化運行 [J]. 電力系統(tǒng)保護與控制,2021,49(19): 18-26. (Shuai Wanlan,Zhu Ziwei,Li Xunmeng,et al. “Source network load storage” collaborative optimization operation of a comprehensive energy system considering wind power consumption [J]. Power System Protection and Control,2021,49(19): 18-26.)
[9]周任軍,肖鈞文,唐夏菲,等. 電轉(zhuǎn)氣消納新能源與碳 捕集電廠碳利用的協(xié)調(diào)優(yōu)化 [J]. 電力自動化設(shè)備,2018,38(7): 61-67. (Zhou Renjun,Xiao Junwen,Tang Xiafei,et al. Coordinated optimization of carbon utilization between power-to-gas renewable energy accommodation and carbon capture power plant [J]. Electric Power Automation Equipment,2018,38(7): 61-67.)
[10]周任軍,孫洪,唐夏菲,等. 雙碳量約束下風電-碳捕集虛擬電廠低碳經(jīng)濟調(diào)度 [J]. 中國電機工程學報,2018,38(6): 1675-1683. (Zhou Renjun,Sun Hong,Tang Xiafei,et al. Low-carbon economic dispatch based on virtual power plant made up of carbon capture unit and wind power under double carbon constraint [J]. Proceedings of the CSEE,2018,38(6): 1675-1683.)
[11]Sepehr S,Ahmadreza S. A novel energy management method based on deep Q network algorithm for low operating cost of an integrated hybrid system [J]. Energy Reports,2021,7: 2647-2663.
[12]王金鋒,王琪,任正某,等. 基于聯(lián)邦強化學習的電熱綜合能源系統(tǒng)能量管理策略 [J/OL]. 上海交通大學學報. (2023-03-15) [2023-08-27]. https://doi. org/10. 16183/j. cnki. jsjtu. 2022. 418. (Wang Jinfeng,Wang Qi,Ren Zhengmou,et al. Energy management strategy for electric heating integrated energy systems based on federated reinforcement learning [J/OL]. Journal of Shanghai Jiao Tong University. (2023-03-15) [2023-08-27]. https://doi. org/10. 16183/j. cnki. jsjtu. 2022. 418.)
[13]Xu Zhengwei,Han Guangjie,Liu Li,et al. Multi-energy scheduling of an industrial integrated energy system by reinforcement learning-based differential evolution [J]. IEEE Trans on Green Communications and Networking,2021,5(3): 1077-1090.
[14]程耀華,杜爾順,田旭,等. 電力系統(tǒng)中的碳捕集電廠: 研究綜述及發(fā)展新動向 [J]. 全球能源互聯(lián)網(wǎng),2020,3(4): 339-350. (Cheng Yaohua,Du Ershun,Tian Xu,et al. Carbon capture power plants in power systems: research review and new development trends [J]. Global Energy Internet,2020,3(4): 339-350.)
[15]康重慶,陳啟鑫,夏清. 應(yīng)用于電力系統(tǒng)的碳捕集技術(shù)及其帶來的變革 [J]. 電力系統(tǒng)自動化,2010,34(1): 1-7. (Kang Chongqing,Chen Qixin,Xia Qing. Carbon capture technology applied to power systems and its transformation [J]. Automation of Power Systems,2010,34(1): 1-7.)
[16]田賀永,王萬福,王任芳,等. 二氧化碳捕集技術(shù)研究 [J]. 能源環(huán)境保護,2012,26(6): 39-41. (Tian Heyong,Wang Wanfu,Wang Renfang,et al. Research on carbon dioxide capture technology [J]. Energy and Environmental Protection,2012,26(6): 39-41.)
[17]Li Fangyuan,Qin Jiahu,Kang Yu. Closed-loop hierarchical operation for optimal unit commitment and dispatch in microgrids: a hybrid system approach [J]. IEEE Trans on Power Systems,2020,35(1): 516-526.
[18]喬驥,王新迎,張擎,等. 基于柔性行動器-評判器深度 強化學習的電-氣綜合能源系統(tǒng)優(yōu)化調(diào)度 [J]. 中國電機工程學報,2021,41(3): 819-833. (Qiao Ji,Wang Xinying,Zhang Qing,et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning [J]. Proceedings of the CSEE,2021,41(3): 819-833.)
[19]彭元,婁素華,吳耀武,等. 考慮儲液式碳捕集電廠的 含風電系統(tǒng)低碳經(jīng)濟調(diào)度 [J]. 電工技術(shù)學報,2021,36(21): 4508-4516. (Peng Yuan,Lou Suhua,Wu Yaowu,et al. Low-carbon economic dispatch of power system with wind power considering solvent-storaged carbon capture power plant [J]. Trans of China Electrotechnical Society,2021,36(21): 4508-4516.)