基于多智能體強化學習的電-碳-綠證多市場均衡研究

2024-01-11 14:08:58馬天男向明旭陳玉敏

四川電力技術 2023年6期

馬天男,向明旭,魏陽,劉暢,4,陳玉敏

(1. 國網(wǎng)四川省電力公司經(jīng)濟技術研究院, 四川成都 610041; 2. 重慶大學電氣工程學院, 重慶 400044; 3. 國網(wǎng)四川省電力公司電力科學研究院, 四川成都 610041; 4. 四川省新型電力系統(tǒng)研究院, 四川成都 610041)

0 引言

電力市場機制設計對于推進碳交易市場參與的電力市場建設并加速以綠電為主體的高比例清潔能源電力系統(tǒng)建設具有重要作用,是構建新型電力系統(tǒng)、推進“雙碳”戰(zhàn)略目標的關鍵途徑[1-2]。中國在2017年發(fā)布了《全國碳排放權交易市場建設方案(發(fā)電行業(yè))》,指出“按照國家生態(tài)文明建設和控制溫室氣體排放的總體要求,在不影響經(jīng)濟平穩(wěn)健康發(fā)展的前提下,分階段、有步驟地推進碳市場建設”[3]。同時,發(fā)布了一系列的工作方案和管理辦法在全國范圍內(nèi)試行綠證交易[4-6]。

電力市場、碳市場與綠證市場之間通過市場機制的作用深刻影響市場主體決策,通過價格聯(lián)動和供需關系等產(chǎn)生交互影響。3個市場在核心產(chǎn)品屬性、政策、技術、市場定位等方面聯(lián)系密切,機制層面的有效協(xié)同將有利于形成合力,共同推動清潔能源發(fā)展和行業(yè)社會碳減排[7]。因此,研究電力市場、碳市場、綠證市場等各市場之間的耦合分析對于中國電力市場的建設具有重大意義。

電力市場均衡分析方法常采用以市場主體利潤最大化為目標的報價決策模型和以社會福利最大化為目標的市場出清模型共同構成的電力市場雙層均衡模型[8]。該模型的求解方法為:先基于下層模型的卡羅需-庫恩-塔克(Karush-Kuhn-Tucher,KKT)條件和線性化手段,將雙層均衡模型轉化為帶均衡約束的均衡優(yōu)化模型(equilibrium problem with equilibrium constraints,EPEC);再將模型中的各非線性項線性化處理后進行求解[9]。此外,還可以使用對角化算法求解上述EPEC模型[10-12]。上述模型驅(qū)動方法在求解線性模型的電力現(xiàn)貨市場均衡解方面取得了顯著成效。

然而,在新型電力系統(tǒng)建設背景下,現(xiàn)有的均衡分析模型與求解方法難以滿足電力市場機制設計的更高要求?，F(xiàn)有的均衡分析方法,特別是EPEC方法,受KKT條件的限制,其建模過程難以考慮發(fā)電機組成本和運行特性的非凸性,并且模型線性化過程中產(chǎn)生的互補松弛條件數(shù)量隨系統(tǒng)規(guī)模和機制復雜程度的增加而迅速增長,導致該方法在解決大規(guī)模系統(tǒng)和復雜機制下的市場均衡問題時面臨巨大挑戰(zhàn)。同時,上述模型本質(zhì)上是一種完全信息博弈問題,每個市場主體都知曉其他主體以及市場出清的全部信息,這與實際電力市場的有限信息環(huán)境不符。因此,亟需改進和完善均衡分析方法,以有效解決電力市場建設面臨的復雜機制設計問題。

為此,有學者嘗試使用數(shù)據(jù)驅(qū)動的強化學習算法求解電力市場均衡問題[13-14]。強化學習方法的無模型、自主學習等特征與電力市場均衡分析的研究需求相契合,市場主體可以通過與出清環(huán)境的不斷交互,逐漸學習其最佳策略,不依賴對市場出清環(huán)境和其他市場主體策略的了解,只依賴于自身運行特性和觀測到的市場出清結果[15],從而避免了模型構建與轉化的復雜過程。

下面采用多智能體深度強化學習作為電力市場均衡分析方法,來探討碳市場與綠證市場交易機制對電力市場均衡的影響。首先,對電力市場均衡模型進行闡述,并采用以最小化購電成本為目標的電力市場雙層優(yōu)化模型,為后續(xù)分析碳市場與綠電市場對電力市場的耦合影響奠定模型基礎;然后,建立了電力市場與碳市場的聯(lián)合出清模型、電力市場與綠證市場的聯(lián)合出清模型以及電-碳-綠證多市場的聯(lián)合出清模型;最后,提出了基于多智能體深度強化學習的電力市場均衡求解算法,經(jīng)過驗證可有效獲取市場均衡解。

1 電-碳-綠證市場均衡研究

1.1 電-碳市場雙層優(yōu)化模型

碳市場的建設會對電力系統(tǒng)產(chǎn)生較大影響?？紤]碳市場耦合的電力市場均衡研究是市場機制設計的重要一環(huán),對此提出了電-碳市場雙層優(yōu)化模型。

碳交易市場的參與主體僅包含常規(guī)能源發(fā)電商,不包含可再生能源發(fā)電商。所提模型中,可再生能源發(fā)電商僅參與電力日前市場獲取收益,常規(guī)能源發(fā)電商同時參與電力日前市場和碳市場獲取收益。因此,電-碳市場雙層優(yōu)化模型包含可再生能源利潤最大化模型、常規(guī)能源發(fā)電商利潤最大化模型和日前電力市場出清模型3個部分。

1.1.1 上層模型1:可再生能源發(fā)電商利潤最大化

目標函數(shù)為最大化可再生能源發(fā)電商的利潤,即日前市場出清的收益減去其發(fā)電成本,約束為限制發(fā)電商的報價范圍。

(1)

1.1.2 上層模型2:常規(guī)能源發(fā)電商利潤最大化

常規(guī)能源機組發(fā)電過程中會產(chǎn)生二氧化碳排放,其碳排放量由式(2)計算,機組的碳排放成本由式(3)計算。若機組的碳排放大于免費碳配額,即碳排放成本為正,則發(fā)電商需要從碳排放權市場中購買所需的碳排放權;若機組的碳排放小于免費碳配額,即碳排放成本為負,則發(fā)電商可在碳排放權市場中出售剩余的碳排放權。

e=φP

(2)

CCET=pCET(e-ef)

(3)

式中:e、φ、CCET分別為常規(guī)能源機組的碳排放量、碳排放強度和碳排放成本;pCET為碳排放權市場中的碳價;ef為免費碳排放配額。

常規(guī)能源發(fā)電商的利潤最大化模型如式(4)所示,目標函數(shù)為最大化常規(guī)能源發(fā)電商的利潤,即日前市場出清的收益減去其發(fā)電成本和碳排放成本,約束為限制發(fā)電商的報價范圍。

(4)

1.1.3 下層模型:日前電力市場出清

日前電力市場出清模型如式(5)—式(8)所示。目標函數(shù)式(5)為最小化總發(fā)電成本,也稱作最大化社會福利;式(6)為節(jié)點功率平衡約束;式(7)為機組出力上下限約束;式(8)為支路潮流約束。

(5)

(6)

(7)

-Sn,m≤Bn,m(θn-θm)≤Sn,m

(8)

1.2 電-綠證市場雙層優(yōu)化模型

考慮綠證市場耦合的電力市場均衡研究是市場機制設計的重要一環(huán),因此提出了電-綠證市場雙層優(yōu)化模型。

綠證交易市場的參與主體僅包含可再生能源發(fā)電商,常規(guī)能源發(fā)電商不參與其中。所提模型中,常規(guī)能源發(fā)電商僅參與電力日前市場獲取收益,可再生能源發(fā)電商同時參與電力日前市場和綠證市場獲取收益。因此,電-綠證市場雙層優(yōu)化模型包含可再生能源利潤最大化模型、常規(guī)能源發(fā)電商利潤最大化模型和日前電力市場出清模型3個部分。

1.2.1 上層模型1:可再生能源發(fā)電商利潤最大化

在電力市場中出清后,根據(jù)可再生能源發(fā)電商的發(fā)電量為其頒發(fā)相同數(shù)量的綠證,可再生能源發(fā)電商可在綠證市場中將其出售,出售綠證獲得的收益由式(9)計算。

RTGC=pTGCP

(9)

式中:RTGC為可再生能源發(fā)電商出售綠證獲得的收益;pTGC為綠證價格。

可再生能源發(fā)電商的利潤最大化模型如式(10)所示,目標函數(shù)為最大化可再生能源發(fā)電商的利潤,即日前市場出清的收益加上在綠證市場交易的收益減去其發(fā)電成本,約束為限制發(fā)電商的報價范圍。

(10)

1.2.2 上層模型2:常規(guī)能源發(fā)電商利潤最大化

目標函數(shù)為最大化常規(guī)能源發(fā)電商的利潤,即日前市場出清的收益減去其發(fā)電成本,約束為限制發(fā)電商的報價范圍。

s.t.b≤bbid≤bmax

(11)

1.2.3 下層模型:日前電力市場出清

電-綠證市場雙層優(yōu)化模型的下層模型同第1.1.3節(jié)。

1.3 電-碳-綠證市場雙層優(yōu)化模型

所建的電-碳-綠證市場雙層優(yōu)化模型如圖1所示:上層為發(fā)電商利潤最大化模型,求解得到發(fā)電商在日前市場中的報價策略傳遞給下層模型;下層為日前市場、碳市場、綠證市場出清模型,求解得到日前市場的節(jié)點電價和各發(fā)電商出清電量、可再生能源發(fā)電商頒發(fā)綠證數(shù)量、常規(guī)能源發(fā)電商碳排放量等市場出清結果傳遞給上層模型。在所建模型中,可再生能源發(fā)電商參與電力日前市場和綠證市場獲取收益,常規(guī)能源發(fā)電商參與電力日前市場和碳市場獲取收益。因此,電-碳-綠證市場雙層優(yōu)化模型包含可再生能源利潤最大化模型、常規(guī)能源發(fā)電商利潤最大化模型和日前電力市場出清模型3個部分。

圖1 電力市場雙層優(yōu)化模型

1.3.1 上層模型1:可再生能源發(fā)電商利潤最大化

目標函數(shù)為最大化可再生能源發(fā)電商的利潤,即日前市場出清的收益加上綠證市場的收益減去其發(fā)電成本,約束為限制發(fā)電商的報價范圍。

(12)

1.3.2 上層模型2:常規(guī)能源發(fā)電商利潤最大化

目標函數(shù)為最大化常規(guī)能源發(fā)電商的利潤,即日前市場出清的收益減去其發(fā)電成本和碳排放成本,約束為限制發(fā)電商的報價范圍。

(13)

1.3.3 下層模型:日前電力市場出清

電-碳-綠證市場雙層優(yōu)化模型的下層模型同為第1.1.3節(jié),此處不再贅述。

2 基于多智能體深度強化學習的電力市場均衡求解方法

2.1 多智能體雙延遲深度確定性策略梯度算法

在電力市場均衡問題中,每個市場參與主體都被建模為智能體,因此在系統(tǒng)中存在多個智能體,各智能體之間的行為會相互影響,共同推動整個系統(tǒng)的演化。為了解決電力市場中的多智能體系統(tǒng)演化問題,多智能體強化學習(multi-agent reinforcement learning)方法被廣泛采用。多智能體雙延遲深度確定性策略梯度(multi-agent twin delayed deep deterministic policy gradient, MATD3)算法是一類多智能體強化學習方法。智能體系統(tǒng)中,多個智能體處于相同的環(huán)境中,它們分別獨立與環(huán)境交互,利用環(huán)境的反饋獎勵更新自身策略。MATD3T算法在解決電力市場的多智能體系統(tǒng)問題中表現(xiàn)出了較好的性能。MATD3算法包括策略網(wǎng)絡和價值網(wǎng)絡。其中,策略網(wǎng)絡的輸入是智能體i對環(huán)境的觀測oi及決策變量θi,輸出動作ai=μ(oi;θi)控制智能體i的行為。價值網(wǎng)絡的輸入是所有k個智能體的觀測,即全局狀態(tài)s={o1,o2,...,ok},輸出q(s,a;ωi)用于評價智能體i動作的優(yōu)劣,可以指導策略網(wǎng)絡改進其策略。MATD3算法分別訓練策略網(wǎng)絡與價值網(wǎng)絡,訓練數(shù)據(jù)是從經(jīng)驗回放池中取出t時段的四元組(st,at,rt,st+1),如式(14)—式(17)所示。

(14)

(15)

(16)

(17)

式中:st為t時段的全局狀態(tài);at為t時段的輸出動作;rt為t時段的獎勵回報。

訓練策略網(wǎng)絡μ(oi;θi)的目標是提高價值網(wǎng)絡,對智能體i的打分q(s,a;ωi),如式(18)所示。對策略網(wǎng)絡的目標做蒙特卡洛近似并求梯度,然后做梯度上升更新參數(shù)θi,如式(19)—式(20)所示。

Ji(θ1,...,θk)=

ES{q[S,{μ(o1;θ1),...,μ(ok;θk)};ωi}

(18)

(19)

(20)

(21)

(22)

(23)

2.2 基于多智能體深度強化學習算法的模型求解算法

使用MATD3算法求解電力市場均衡,電力市場環(huán)境下的強化學習要素設置如下:

1)智能體(Agent):參與電力市場的所有發(fā)電商都被設置為智能體,假設系統(tǒng)中共有k個發(fā)電商。

2)環(huán)境(Environment):將環(huán)境定義為電力市場的出清過程,在發(fā)電商報價后電力市場進行出清并將出清結果反饋給發(fā)電商。

基于MATD3算法求解電力市場均衡模型的具體步驟如下:

3)按照訓練頻率定期更新網(wǎng)絡參數(shù)。從經(jīng)驗回放池中隨機抽樣一個四元組的mini-batch,對于各發(fā)電商計算其目標策略網(wǎng)絡和目標價值網(wǎng)絡的輸出,并根據(jù)目標網(wǎng)絡對價值網(wǎng)絡和策略網(wǎng)絡的參數(shù)ωa、ωb、θ進行更新。

3 算例研究

3.1 多智能體強化學習算法有效性驗證

采用經(jīng)過修改的IEEE 30節(jié)點測試系統(tǒng)進行分析驗證。該系統(tǒng)有30個節(jié)點、41條支路、20處負荷和6臺發(fā)電機組,其中:機組G1和G2為風電機組,由可再生能源發(fā)電商持有;機組G3—G6為常規(guī)能源機組,由常規(guī)能源發(fā)電商持有。發(fā)電機組參數(shù)見表1。

表1 發(fā)電機組參數(shù)

使用第1.2節(jié)中雙層優(yōu)化模型和強化學習算法對測試系統(tǒng)的市場均衡進行求解,訓練過程如圖2所示。訓練過程共30 000步,前10 000步為隨機生成動作,以獲得盡可能多的觀測狀態(tài)作為策略網(wǎng)絡和價值網(wǎng)絡的訓練數(shù)據(jù);后20 000步智能體根據(jù)策略網(wǎng)絡生成報價動作,智能體的價值網(wǎng)絡和策略網(wǎng)絡不斷訓練更新,策略網(wǎng)絡逐漸學習到最優(yōu)報價策略,最后生成穩(wěn)定的報價動作。從圖2可以看出隨著訓練進行各智能體的報價逐漸趨于收斂。

圖2 強化學習算法求解市場均衡訓練過程

3.2 運行結果分析

3.2.1 碳排放配額及碳價對市場均衡點的影響

為探究碳配額對市場均衡點的影響,設置ef為30 t、20 t、10 t分別對應碳配額寬松、碳配額適度收緊和碳配額嚴重收緊3種場景。同時,為探究碳價對市場均衡點的影響,設置pCET從0 至20 美元/t以步長2 美元/t遞增。

碳配額和碳價對市場出清電價的影響如圖3所示,其中場景1、場景2、場景3分別對應于碳配額寬松、碳配額適度收緊和碳配額嚴重收緊的場景。

圖3 不同碳配額和碳價下的市場出清電價

從圖3中可以看出,出清電價隨碳價的升高呈上升趨勢。這是因為隨著碳價的升高,高排放機組發(fā)電需要花費更高的成本從碳市場中購買碳排放權,其總利潤降低,因此持有高排放機組的發(fā)電商希望通過上報高于發(fā)電成本的價格以提高日前電力市場出清電價,從而增加其在電力市場中獲得的利潤。

在3個碳配額場景中:碳配額適度收緊時,市場出清電價的抬升相對較小,僅高排放機組有動力虛報成本;碳配額嚴重收緊時,低排放機組也需要購買碳排放權,同時高排放機組的發(fā)電利潤甚至可能小于購買碳排放權的成本,因此,在該場景的仿真中常規(guī)能源發(fā)電商都存在虛報成本的行為,電價抬升較大;碳配額寬松時,碳市場對機組的發(fā)電約束較小,在碳價較低時碳市場對發(fā)電商的報價影響不大,而在碳價較高時發(fā)電商可從碳市場中交易獲得較高利潤,因此在該場景的仿真中,發(fā)電商傾向于在碳市場中交易,均選擇在電力市場中虛報成本,導致出清電價急劇抬升。

3.2.2 綠證價格對市場均衡點的影響

為探究綠證價格對市場均衡點的影響,設置pTGC從0 至10 美元/張以步長1 美元/張遞增。不同綠證價格下可再生能源發(fā)電商報價以及市場出清電價如圖4所示。由圖4可以看出,隨著綠證價格的上升,可再生能源發(fā)電商的報價逐漸降低,最終趨于上報真實發(fā)電成本。其主要原因是可再生能源發(fā)電商在綠證市場中的收益取決于其實際發(fā)電量,若上報較高的價格,可能會使其成為邊際機組導致發(fā)電量減少,從而也導致其在綠證市場的收益減少。

圖4 不同綠證價格下的可再生能源發(fā)電商報價

3.2.3 碳價與綠證價格對市場均衡點的耦合影響

為探究碳價和綠證價格對市場均衡點的影響,設置碳價從0 至20 美元/t以步長5 美元/t遞增,設置pTGC從0 至10 美元/張以步長2.5 美元/張遞增,設置碳配額為適度收緊場景。

碳價和綠證價格對市場均衡點的影響如圖5所示?？梢钥闯?市場出清電價隨碳價上升而升高,隨綠證價格上升而降低。

圖5 不同碳價和綠證價格下的市場出清電價

為了進一步研究碳價與綠電價格對發(fā)電商報價策略的耦合影響,仿真分析了不同碳價與綠證價格下可再生能源機組G1、低排放機組G5和高排放機組G3的報價,如圖6—圖8所示。在高碳價場景下,低排放機組傾向于在碳市場中獲利,高排放機組希望抬升出清電價以增加利潤,因此常規(guī)能源機組都有動力上報更高的價格。常規(guī)能源機組虛報成本使得可再生能源機組也具有上報更高價格的傾向,此時綠證市場的參與增加了可再生能源機組對自身發(fā)電量削減的風險厭惡程度,消除了其上報高價的傾向。由此得出,碳市場的參與增加了發(fā)電商在電力市場報價中使用市場力的傾向,綠證市場的參與降低了發(fā)電商在電力市場報價中使用市場力的傾向。

圖6 不同碳價和綠證價格下的可再生能源機組報價

圖7 不同碳價和綠證價格下的低排放機組報價

圖8 不同碳價和綠證價格下的高排放機組報價

4 結論

上面在電力市場環(huán)境下,根據(jù)碳市場與綠證市場的交易規(guī)則分別建立了電-碳市場、電-綠證市場和電-碳-綠證市場的雙層優(yōu)化模型,采用強化學習方法對市場均衡進行求解,并就碳市場和綠證市場對電力市場運行的影響進行了探討。所得主要結論如下:

1)設置適度收緊的碳配額以及適當?shù)奶純r能夠增加低排放機組的利潤,有效激勵低排放機組的發(fā)電意愿,對電力系統(tǒng)的減排作用較大;嚴重收緊或?qū)捤傻奶寂漕~不能有效激勵低排放機組發(fā)電,對電力系統(tǒng)的減排作用較小。此外,過高的碳價會導致電價飆升,擾亂電力市場運營秩序。

2)綠證市場的參與可以增加可再生能源發(fā)電商的利潤,激勵可再生能源機組發(fā)電,放棄其在電力市場中的市場力,從而降低市場出清電價。

3)市場出清電價和碳價成呈正相關,和綠證價格呈負相關,當前電力系統(tǒng)環(huán)境下電價受碳價的影響相對較大;碳市場的參與促進發(fā)電商在電力市場中使用市場力,而綠證市場的參與限制發(fā)電商在電力市場報價中使用市場力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡