基于多智能體Nash-Q強(qiáng)化學(xué)習(xí)的綜合能源市場交易優(yōu)化決策

2021-08-23 02:37孫慶凱王小君張義志和敬涵

電力系統(tǒng)自動(dòng)化 2021年16期

孫慶凱，王小君，王怡，張義志，劉曌，和敬涵

（北京交通大學(xué)電氣工程學(xué)院，北京市 100044）

0 引言

隨著經(jīng)濟(jì)的發(fā)展，低效、粗獷的能源利用方式與資源、環(huán)境間的矛盾逐步加深。打破現(xiàn)有能源體系行業(yè)壁壘，構(gòu)建綜合能源交易市場，從市場角度切入，以價(jià)格激勵(lì)為手段，通過實(shí)際供需關(guān)系促進(jìn)能源綜合利用和高效配置具有重要意義［1-2］。

綜合能源市場涉及多主體間的利益關(guān)系，影響因素眾多，各主體既會相互影響，又會不斷觀察和學(xué)習(xí)來調(diào)整自身行為，進(jìn)而推動(dòng)整個(gè)系統(tǒng)交易演化，整體是一個(gè)復(fù)雜適應(yīng)性問題［3-5］。針對該問題，已有學(xué)者采用博弈理論構(gòu)建市場交易競價(jià)框架［6-11］，其中文獻(xiàn)［8］建立綜合能源服務(wù)商雙層博弈模型，通過Karush-Kuhn-Tucker（KKT）條件轉(zhuǎn)化為單層模型優(yōu)化求解。文獻(xiàn)［9］提出綜合能源市場出清機(jī)制，采用對角算法研究計(jì)及供應(yīng)側(cè)策略投標(biāo)的市場均衡。文獻(xiàn)［10］采用雙層粒子群算法求解多方博弈競價(jià)均衡問題。文獻(xiàn)［11］基于Stackelberg博弈理論建立不同能源交易決策模型并利用改進(jìn)粒子群算法求解。

上述研究普遍采用數(shù)學(xué)推導(dǎo)法和啟發(fā)式算法優(yōu)化求解，其中前者忽略市場參與主體非凸非線性屬性，通過KKT條件將雙層模型轉(zhuǎn)換為具有平衡約束的單層模型求解，致使與實(shí)際問題間存在建模殘差［12］。后者雖無須建立精確博弈關(guān)系模型，但僅基于簡單生物群體行為尋優(yōu)易陷入局部最優(yōu)解，無法保證與Nash均衡解的一致性［13］。同時(shí)兩類方法均存在以下弊端：①須以完全信息環(huán)境作為前提假設(shè)，與實(shí)際交易存在差異；②不具有記憶特性，無法充分利用歷史信息，每次求解均為獨(dú)立過程。

強(qiáng)化學(xué)習(xí)作為新型人工智能算法，可通過在動(dòng)態(tài)環(huán)境中反復(fù)探索與試錯(cuò)的方式求解問題，對精確數(shù)學(xué)模型、完整信息以及參數(shù)設(shè)置要求較低，這為求解復(fù)雜系統(tǒng)優(yōu)化決策問題提供了可能［14-16］。文獻(xiàn)［17］提出了基于強(qiáng)化學(xué)習(xí)的并網(wǎng)型綜合能源微網(wǎng)調(diào)度模型。文獻(xiàn)［18］采用強(qiáng)化學(xué)習(xí)研究綜合能源系統(tǒng)（integrated energy system，IES）動(dòng)態(tài)經(jīng)濟(jì)調(diào)度。文獻(xiàn)［19］基于強(qiáng)化學(xué)習(xí)研究家庭IES需求響應(yīng)優(yōu)化。雖然強(qiáng)化學(xué)習(xí)為復(fù)雜系統(tǒng)決策提供了重要求解工具，但目前未見其在綜合能源交易領(lǐng)域有詳細(xì)研究，同時(shí)已有研究普遍將對象簡化為單一智能體與固定環(huán)境間的交互學(xué)習(xí)，然而實(shí)際綜合能源交易市場是多主體復(fù)雜交互適應(yīng)系統(tǒng)，如何將多智能體強(qiáng)化學(xué)習(xí)應(yīng)用于綜合能源交易市場尚有不足。

為此，本文在多智能體強(qiáng)化學(xué)習(xí)基礎(chǔ)上結(jié)合博弈論，利用博弈強(qiáng)化學(xué)習(xí)協(xié)調(diào)綜合能源市場交易。主要貢獻(xiàn)歸納如下：①構(gòu)建了“競價(jià)博弈-市場出清”電-氣綜合能源市場雙層交易框架；②利用多智能體Nash-Q強(qiáng)化學(xué)習(xí)優(yōu)化求解電-氣綜合能源市場競價(jià)博弈問題。

1 電-氣綜合能源市場多智能體劃分及交易框架

市場環(huán)境下能源供給、交易、消耗過程存在多個(gè)參與主體。供給層面中電能、天然氣供應(yīng)商滿足能源供給；交易層面中電-氣綜合能源交易市場服務(wù)商作為紐帶，匯集能源供應(yīng)商的投標(biāo)價(jià)格與綜合能源系統(tǒng)運(yùn)營商（integrated energy system operator，IESO）的能源需求，按社會福利最大化進(jìn)行市場出清。消耗層面中IESO聚合多個(gè)IES的能源需求，在市場上購買能源。鑒于多參與主體分屬于不同利益集團(tuán)，有著各自運(yùn)行目標(biāo)、用戶需求、控制手段等，但彼此之間利益聯(lián)系緊密；同時(shí)為配合后續(xù)強(qiáng)化學(xué)習(xí)應(yīng)用，將市場參與者劃分為以下智能體：電能供應(yīng)商、天然氣供應(yīng)商、電-氣綜合能源交易市場服務(wù)商以及IESO。

依據(jù)功能定位將能源市場設(shè)定為競價(jià)決策層和市場出清層，如圖1所示。

圖1 市場交易框架Fig.1 Market transaction framework

1）競價(jià)決策層中能源供應(yīng)商報(bào)價(jià)過程、運(yùn)行成本、收益函數(shù)等信息不公布，是在不完全信息環(huán)境下向市場服務(wù)商提交投標(biāo)價(jià)格與容量以進(jìn)行非合作競價(jià)博弈。

2）市場出清層中市場服務(wù)商匯集能源供應(yīng)商報(bào)價(jià)信息和IESO能源需求信息進(jìn)行市場出清，決定各能源供應(yīng)商中標(biāo)容量及收益。

基于上述交易機(jī)制作如下假設(shè)：①參與主體皆為理性，即合理尋求自身決策目標(biāo)最大化；②短時(shí)間內(nèi)能源供應(yīng)和負(fù)荷不產(chǎn)生變化；③博弈過程中僅考慮價(jià)格影響，暫不考慮其他因素。

2 電-氣綜合能源市場雙層優(yōu)化決策模型

2.1 競價(jià)決策層

綜合能源市場由多參與主體構(gòu)成，各方更多地考慮自身經(jīng)濟(jì)性，致使傳統(tǒng)集中優(yōu)化方法難以執(zhí)行。鑒于博弈論作為解決不同主體利益沖突的有效工具［20］，本文在競價(jià)決策層中建立多智能體非合作博弈決策模型：

式中：G為博弈均衡點(diǎn)；g(·)為博弈函數(shù)；N為智能體數(shù)量；S為策略集合；U為效益函數(shù)集合。

2.1.1 博弈參與者

依據(jù)智能體劃分標(biāo)準(zhǔn)將競價(jià)決策層中的博弈參與主體確定為電能供應(yīng)商和天然氣供應(yīng)商。

2.1.2 博弈策略

電能供應(yīng)商博弈策略為電能投標(biāo)價(jià)格和投標(biāo)電量；天然氣供應(yīng)商博弈策略為天然氣投標(biāo)價(jià)格和投標(biāo)氣量。

2.1.3 效益函數(shù)

2.1.3.1 電能供應(yīng)商

1）投標(biāo)價(jià)格制定

園區(qū)IES是中國用戶側(cè)參與市場交易的改革試點(diǎn)，采用包含利潤和邊際成本的功率價(jià)格曲線競價(jià)有助于提高能源利用率［21］。電能供應(yīng)商運(yùn)行邊際成本隨出力上升而增大，須針對不同類型機(jī)組按自身邊際成本函數(shù)制定功率-價(jià)格曲線［22］。同時(shí)考慮到調(diào)節(jié)斜率使得競價(jià)變動(dòng)較大，故而采用了變截距方式，即交易中電能供應(yīng)商通過市場服務(wù)商接收IESO的能源購買信息，以自身效益最大化來改變功率-價(jià)格曲線截距se(t)，并將新曲線傳遞給市場服務(wù)商，其功率-價(jià)格曲線如式（2）所示。

式中：λe(t)為t時(shí)刻電能出售價(jià)格；ae為電能供應(yīng)商考慮運(yùn)行成本的二次項(xiàng)系數(shù)；Pe(t)為t時(shí)刻電能供應(yīng)商出售功率。

2）效益函數(shù)

為清晰模擬能源供應(yīng)商與IESO互動(dòng)過程，目標(biāo)函數(shù)只考慮出售給IESO的收入，向其他剛性負(fù)荷售能收入暫不考慮。電能供應(yīng)商采用二次運(yùn)行成本函數(shù)，如式（3）所示；以效益最大化構(gòu)建決策目標(biāo)，如式（4）所示。

式中：fe(t)為t時(shí)刻電能供應(yīng)商運(yùn)行成本；Ue為電能供應(yīng)商的效益函數(shù)；be和ce分別為電能供應(yīng)商考慮運(yùn)行成本的一次項(xiàng)系數(shù)和常數(shù)項(xiàng)，均為不小于0的常數(shù)；cnet為過網(wǎng)費(fèi) 用；T為24 h總時(shí) 段數(shù)；Δt為1 h時(shí)間長度。

2.1.3.2 天然氣供應(yīng)商

1）投標(biāo)價(jià)格制定

鑒于本文天然氣供應(yīng)商并非大型天然氣交易商，而是擁有配氣站的區(qū)域天然氣供應(yīng)商，故而出于對上述電能供應(yīng)商價(jià)格制定的考慮，天然氣商也采用相似方式，其功率-價(jià)格曲線如式（5）所示。

式中：λg(t)為t時(shí)刻天然氣出售價(jià)格；ag為天然氣供應(yīng)商考慮運(yùn)行成本的二次項(xiàng)系數(shù)；Pg(t)為t時(shí)刻天然氣供應(yīng)商出售功率；sg(t)為天然氣供應(yīng)商的功率-價(jià)格曲線截距。

2）效益函數(shù)

天然氣供應(yīng)商在滿足用戶需求前提下應(yīng)盡可能提升自身效益，其成本函數(shù)如式（6）所示，目標(biāo)函數(shù)如式（7）所示。

式中：fg(t)為t時(shí)刻天然氣商運(yùn)行成本；Ug為天然氣供應(yīng)商的效益函數(shù)；bg和cg分別為天然氣供應(yīng)商考慮運(yùn)行成本的一次項(xiàng)系數(shù)和常數(shù)項(xiàng)，均為不小于0的常數(shù)。

2.1.4 競價(jià)決策約束條件

1）價(jià)格截距約束

價(jià)格截距約束既要考慮削價(jià)影響市場交易秩序不可過低報(bào)價(jià)，又要遵守市場規(guī)定不可過高報(bào)價(jià)。

2）投標(biāo)容量約束

能源供應(yīng)商向綜合能源市場服務(wù)商提供能源，其值不小于0，也不大于供應(yīng)商機(jī)組出力容量限制。

2.2 市場出清層

2.2.1 市場出清決策模型

相較于競價(jià)決策層寡頭博弈，市場出清層中園區(qū)IES數(shù)量較多，結(jié)構(gòu)規(guī)模相對簡單，致使存在以下問題。

1）部分園區(qū)IES不滿足市場準(zhǔn)入條件，無法進(jìn)入市場交易。

2）所有園區(qū)IES參與市場交易導(dǎo)致市場參與者過多，難以管理。

故而采用市場分層管理模式，暫不考慮單一園區(qū)IES策略性投標(biāo)，而是將多個(gè)園區(qū)IES經(jīng)由Energyhub形式構(gòu)建成一個(gè)聚合IES，該IES參與競價(jià)博弈-市場出清雙層模型優(yōu)化求解；其次聚合IES內(nèi)部存在能源分配環(huán)節(jié)，將獲得的能源按策略分配給各個(gè)園區(qū)IES。

在此基礎(chǔ)上，電-氣綜合能源市場服務(wù)商匯集各參與主體投標(biāo)信息，以最大化電、氣供需總體社會福利作為市場出清目標(biāo)。

2.2.2 市場出清約束條件

1）電力供需約束

式中：Ns為聚合的園區(qū)IES個(gè)數(shù)；De，s(t)為t時(shí)刻第s個(gè)IES短期電力負(fù)荷預(yù)測；Pmaxe，l為輸電線路最大輸送功率。

2）天然氣供需約束

在競價(jià)決策層中考慮式（3）和式（6）引入能源供應(yīng)商二次非線性成本函數(shù)；在市場出清層中考慮式（10）、式（16）至式（18）引入機(jī)組決策變量非凸特性，致使傳統(tǒng)求解算法具有一定困難，故而本文采用了多智能體Nash-Q強(qiáng)化學(xué)習(xí)算法。

3 多智能體Nash-Q強(qiáng)化學(xué)習(xí)求解流程

3.1 應(yīng)用框架

將多智能體強(qiáng)化學(xué)習(xí)與博弈理論相結(jié)合，采用多智能體Nash-Q強(qiáng)化學(xué)習(xí)構(gòu)建電-氣綜合能源市場多參與主體競價(jià)博弈應(yīng)用框架，如附錄A圖A1所示。

首先利用歷史統(tǒng)計(jì)數(shù)據(jù)構(gòu)建模擬環(huán)境，基于Nash-Q強(qiáng)化學(xué)習(xí)算法對多智能體進(jìn)行預(yù)訓(xùn)練，初步建立智能體對環(huán)境的認(rèn)知和決策能力；其次借助文獻(xiàn)［23］遷移學(xué)習(xí)將學(xué)習(xí)到的經(jīng)驗(yàn)庫遷移到實(shí)際環(huán)境中，提高智能體對實(shí)際環(huán)境的快速適應(yīng)和準(zhǔn)確決策能力。同時(shí)可利用實(shí)際環(huán)境數(shù)據(jù)定期更新經(jīng)驗(yàn)庫，持續(xù)優(yōu)化智能體Q表，不斷強(qiáng)化智能體實(shí)時(shí)決策性能。

3.2 學(xué)習(xí)過程

3.2.1 聯(lián)合狀態(tài)空間

區(qū)別于單一智能體強(qiáng)化學(xué)習(xí)，多智能體Nash-Q強(qiáng)化學(xué)習(xí)需通過聯(lián)合狀態(tài)空間表示，將電能、天然氣供應(yīng)商價(jià)格截距se(t)和sg(t)作為狀態(tài)變量，依據(jù)文獻(xiàn)［24］將其離散化為區(qū)間形式，每段區(qū)間定義為一個(gè)狀態(tài)，可確定多智能體聯(lián)合狀態(tài)空間S(t)＝{se(t)，sg(t)}。

3.2.2 聯(lián)合動(dòng)作空間

動(dòng)作主要表現(xiàn)為能源供應(yīng)商售能價(jià)格調(diào)整，依據(jù)市場運(yùn)營限定的售能價(jià)格上下限，以步長為1在上一輪售能價(jià)格基礎(chǔ)上浮動(dòng)，第m＋1次博弈過程中可選擇動(dòng)作集合Am＋1＝{am－1，am，am＋1}，其中am表示第m次博弈過程所選動(dòng)作。

實(shí)際交易過程為不完全信息下非合作博弈，故而動(dòng)作選擇策略采用競爭對手歷史數(shù)據(jù)描述。以電能供應(yīng)商為例，假設(shè)bg(S(t)，a)為天然氣供應(yīng)商在聯(lián)合狀態(tài)S(t)下采取動(dòng)作a(a∈Am＋1)的歷史次數(shù)，則天然氣供應(yīng)商選擇動(dòng)作a的概率為：

電能供應(yīng)商依據(jù)聯(lián)合狀態(tài)S(t)以及預(yù)測對手動(dòng)作來調(diào)整自身動(dòng)作選擇概率，規(guī)則如下：

式中：pam＋1、pam、pam－1分別為電能供應(yīng) 商選擇am＋1、am、am－1動(dòng)作的基礎(chǔ)概率；Δp為概率調(diào)整常數(shù)。

依據(jù)當(dāng)前聯(lián)合狀態(tài)和動(dòng)作選擇策略即可確定聯(lián)合動(dòng) 作空間AS(t)＝{ae，S(t)，ag，S(t)}，其中ae，S(t)，ag，S(t)∈Am＋1分別為聯(lián)合狀態(tài)S(t)下電能、天然氣供應(yīng)商所選動(dòng)作。

3.2.3 獎(jiǎng)懲機(jī)制能源供應(yīng)商對交易過程持續(xù)學(xué)習(xí)以優(yōu)化各自效益函數(shù)，將供應(yīng)商效益函數(shù)最大化轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)最大化形式，可表示為：

3.2.4 Nash-Q函數(shù)更新

多智能體強(qiáng)化學(xué)習(xí)依賴博弈Nash均衡結(jié)果，在Nash均衡中每個(gè)智能體的策略對于其他智能體都是最佳反應(yīng)，在聯(lián)合狀態(tài)S(t)下有：

式中：α為學(xué)習(xí)步長；QNash，e(S(t＋1))為電能供應(yīng)商在聯(lián)合狀態(tài)S(t＋1)下根據(jù)所選擇Nash均衡策略得到的收益；←表示更新Q值。

3.2 .5學(xué)習(xí)流程

競價(jià)決策層屬于復(fù)雜優(yōu)化決策問題，采用多智能體Nash-Q強(qiáng)化學(xué)習(xí)求解；市場出清層屬于線性問題，借用求解器Cplex計(jì)算。具體求解流程和步驟如附錄A圖A2所示。

4 算例分析

4.1 算例概況

在Python編譯環(huán)境中構(gòu)建模型，數(shù)據(jù)來源于國內(nèi)某重點(diǎn)項(xiàng)目園區(qū)，其中以Energyhub形式構(gòu)建的IES見附錄A圖A3，電、熱、氣負(fù)荷需求曲線見圖A4；光伏、風(fēng)電日前預(yù)測出力曲線見圖A5；IES所含設(shè)備類型和參數(shù)見附錄B表B1；設(shè)備運(yùn)行維護(hù)費(fèi)用見表B2；能源供應(yīng)商運(yùn)行成本系數(shù)見表B3；多智能體Nash-Q強(qiáng)化學(xué)習(xí)算法參數(shù)見表B4。強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)通過設(shè)定不同的能源供應(yīng)商初始狀態(tài)持續(xù)與環(huán)境交互來模擬獲得。以1 h為一個(gè)時(shí)段進(jìn)行日前市場交易決策與電、熱、氣供需平衡分析。

4.2 預(yù)學(xué)習(xí)結(jié)果分析

4.2.1 Nash均衡存在性證明

在預(yù)學(xué)習(xí)過程中能源供應(yīng)商不斷交互，不同能源供應(yīng)商的Q值Qe和Qg最終會收斂到Nash均衡，具體Nash均衡證明過程詳見附錄C。

4.2.2 預(yù)學(xué)習(xí)結(jié)果分析

1）競價(jià)決策博弈分析

以第10 h為例進(jìn)行電能、天然氣供應(yīng)商競價(jià)博弈分析，該時(shí)刻IESO聚合的電負(fù)荷為6.69 MW，熱負(fù)荷為3.44 MW，氣負(fù)荷為3.19 MW。進(jìn)行6輪博弈，每輪博弈60次，將天然氣等效轉(zhuǎn)化為電能形式結(jié)算后供應(yīng)商價(jià)格截距博弈情況如圖2所示。Nash-Q強(qiáng)化學(xué)習(xí)過程中對應(yīng)的Q表迭代完善情況如附錄A圖A6所示。

圖2 能源供應(yīng)商競價(jià)博弈過程Fig.2 Bidding game process of energy suppliers

第1、2輪博弈中由于信息不完整，智能體僅能依據(jù)聯(lián)合狀態(tài)和對手歷史數(shù)據(jù)做出自身最佳動(dòng)作策略選擇。隨著博弈的進(jìn)行，雙方均增大了己方降低價(jià)格動(dòng)作的概率，最終在低價(jià)格區(qū)間內(nèi)競價(jià)博弈，此時(shí)雙方希望通過降價(jià)搶占市場來獲得利潤。經(jīng)過盲目降價(jià)搶占市場后，強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)值較低，供能商盈利處于較低水平，故而智能體在隨后第3輪學(xué)習(xí)過程中嘗試提高價(jià)格，但鑒于此階段智能體Q表尚未完全建立，無法經(jīng)由Q表指引競價(jià)尋優(yōu)，致使策略選擇波動(dòng)性較大，并未達(dá)到均衡穩(wěn)定。

隨著博弈的進(jìn)行，智能體不斷與外界環(huán)境進(jìn)行交互，逐漸完善Q表，初步建立起對環(huán)境的認(rèn)知和決策能力，可通過環(huán)境反饋調(diào)整自身策略，故而在第4、5、6輪博弈初始階段智能體通過降低價(jià)格以求獲得利益失敗后能夠立即提高價(jià)格并分別于第54、50和46次博弈時(shí)達(dá)到Nash均衡，此時(shí)電能供應(yīng)商策略為se＝58，將天然氣等效轉(zhuǎn)化為電能形式結(jié)算后天然氣供應(yīng)商策略為sg＝54。

2）市場出清分析

經(jīng)競價(jià)決策-市場出清后能源供應(yīng)商收益與出清量收斂情況如圖3所示。

圖3 市場出清迭代收斂過程Fig.3 Iterative convergence process of market clearing

可知博弈雙方收益均受對方策略影響，供應(yīng)商通過調(diào)整se和sg來改變功率-價(jià)格曲線，其收益從較大波動(dòng)逐漸到達(dá)均衡點(diǎn)。初始階段各供應(yīng)商趨于降價(jià)，搶占市場獲益，故而在該階段內(nèi)供應(yīng)商收益波動(dòng)較大且出現(xiàn)收益下降，但隨著博弈進(jìn)行各供應(yīng)商在各自輪次優(yōu)化自身策略可明顯改變收益分配，提高自身收益，當(dāng)任意供應(yīng)商難以獨(dú)自改變收益格局時(shí)逐步收斂，策略接近均衡策略。此時(shí)電能供應(yīng)商電能售價(jià)為203.59美元/（MW·h），出清量為4.33 MW；收益為344.38美元。天然氣供應(yīng)商將博弈價(jià)格轉(zhuǎn)換為天然氣售價(jià)后為144.94美元/（MW·h），出清量為6.78 MW，收益為383.09美元。

4.3 在線應(yīng)用

4.3.1 在線應(yīng)用結(jié)果分析

為進(jìn)一步驗(yàn)證方法的在線決策能力，選擇另外某一時(shí)刻，該時(shí)刻聚合后的電負(fù)荷為6.12 MW，熱負(fù)荷為4.03 MW，氣負(fù)荷為2.61 MW。經(jīng)遷移學(xué)習(xí)計(jì)算新、源任務(wù)動(dòng)態(tài)歐氏距離可知，新任務(wù)與源任務(wù)可劃歸為同一類型。故而可采用預(yù)學(xué)習(xí)階段已經(jīng)訓(xùn)練好的智能體對該時(shí)刻競價(jià)環(huán)節(jié)進(jìn)行博弈分析，能源供應(yīng)商在線應(yīng)用競價(jià)博弈過程如圖4所示，Q表迭代完善情況如附錄A圖A7所示。

圖4 能源供應(yīng)商在線應(yīng)用競價(jià)博弈過程Fig.4 Bidding game process of energy suppliers in online application

由圖4可知，智能體在博弈11次時(shí)即可達(dá)到收斂，在此后過程中智能體仍舊嘗試通過改變自身價(jià)格來提高收益，但簡單嘗試后便會回歸穩(wěn)定。因?yàn)榻?jīng)預(yù)學(xué)習(xí)后智能體Q表已訓(xùn)練充分，具備了一定的環(huán)境認(rèn)知和決策能力，在線學(xué)習(xí)過程中再次遇到相似任務(wù)時(shí)可在Q表指引下快速做出自身博弈策略調(diào)整。

4.3.2 基于Nash均衡的IES能源供需平衡分析

考慮到聚合IES能源分配環(huán)節(jié)并不影響競價(jià)博弈-市場出清模型求解結(jié)果，為簡化分析選取聚合IES進(jìn)行電、熱、氣供需平衡分析，以驗(yàn)證市場博弈Nash均衡解合理性。聚合IES經(jīng)由Energyhub方式建模，通過市場交易獲得電能和天然氣，可依據(jù)價(jià)格優(yōu)勢選擇內(nèi)部設(shè)備進(jìn)行能源轉(zhuǎn)化與利用。24 h能源供應(yīng)商售能情況和基于Nash均衡的IES電、熱、氣供需平衡如附錄A圖A8所示。

結(jié)合圖A4、圖A5和圖A8分析可知，22：00—07：00時(shí)段風(fēng)電出力較大，超出電負(fù)荷需求，IES可利用電轉(zhuǎn)氣（P2G）設(shè)備將多余電量轉(zhuǎn)換以彌補(bǔ)氣負(fù)荷需求，此時(shí)無須過多向能源市場購買能源，供應(yīng)商售能均處于較低水平。在10：00—22：00時(shí)段光伏和風(fēng)機(jī)總體出力較小，但用戶電負(fù)荷需求較大，依據(jù)市場博弈可知此時(shí)氣價(jià)更便宜，IESO更趨向于購買天然氣，利用熱電聯(lián)產(chǎn)（CHP）機(jī)組產(chǎn)電、產(chǎn)熱。在07：00—10：00時(shí)段用戶電、氣需求呈上升趨勢，此時(shí)IESO趨于削減天然氣購買，而加大電能購買，經(jīng)由電轉(zhuǎn)熱（P2H）設(shè)備彌補(bǔ)熱需求。博弈過程中IESO可依據(jù)市場博弈Nash均衡結(jié)果及時(shí)調(diào)整外部購能計(jì)劃，并優(yōu)化內(nèi)部設(shè)備出力，經(jīng)過多次博弈后可獲得較為合理的Nash均衡解和機(jī)組出力結(jié)果。

4.4 算法性能對比

4.4.1 計(jì)算精度對比

為驗(yàn)證本文方法求解綜合能源市場多參與主體競價(jià)博弈問題的優(yōu)勢，與數(shù)學(xué)推導(dǎo)方法（以對角算法為例）、啟發(fā)式算法（以粒子群算法為例）進(jìn)行對比分析，并設(shè)置以下2種情形。

情形1：簡化模型非凸非線性屬性，在完全信息環(huán)境下進(jìn)行市場交易競價(jià)博弈。

情形2：考慮模型非凸非線性屬性，在不完全信息環(huán)境下進(jìn)行市場交易競價(jià)博弈。

4.4.1.1 情形1

附錄B表B5基于3類算法對比分析能源供應(yīng)商收益，可知對角算法利潤最大，因?yàn)樵谕耆畔⑴c簡化模型情況下原始的雙層優(yōu)化問題經(jīng)由KKT條件轉(zhuǎn)換為單層封閉形式的優(yōu)化問題，可使用商業(yè)優(yōu)化求解器有效解決。同時(shí)可知多智能體Nash-Q強(qiáng)化學(xué)習(xí)方法獲得的利潤與對角算法非常接近，電能、天然氣供應(yīng)商利潤僅低了2.39%、3.14%；而粒子群算法結(jié)果與其他2種算法有所差距。

4.4.1.2 情形2

圖5對比分析基于不同算法的能源供應(yīng)商24 h收益。附錄B表B6對比了不同算法在連續(xù)時(shí)刻下詳細(xì)出清結(jié)果。

圖5 基于不同優(yōu)化算法的能源供應(yīng)商24 h收益Fig.5 24 h income of energy suppliers based on different optimization algorithms

1）初期IES內(nèi)部風(fēng)電出力較大，可將多余電量轉(zhuǎn)換以彌補(bǔ)氣負(fù)荷需求，此時(shí)無須過多購買能源；同時(shí)鑒于初期歷史數(shù)據(jù)匱乏，不易采用競爭對手歷史數(shù)據(jù)預(yù)測其動(dòng)作選擇概率，因此3類算法優(yōu)化結(jié)果相似。

隨著博弈的進(jìn)行，3類算法出現(xiàn)差異，以10 h為例，對角算法中電能、天然氣供應(yīng)商投標(biāo)價(jià)格分別為195.61美元/MW、141.77美元/MW，收益為309.48美元、359.33美元，比粒子群算法收益分別減少了5.41%、3.73%，比Nash-Q強(qiáng)化學(xué)習(xí)算法分別減少了10.13%、6.21%。由此可知，供應(yīng)商仍有改變售能價(jià)格提升自身收益的空間，該解并非實(shí)際問題Nash均衡解。因?yàn)樵诓煌耆畔h(huán)境下參與主體不會將自身報(bào)價(jià)過程、運(yùn)行成本、收益函數(shù)等信息公布；同時(shí)考慮參與主體非凸非線性屬性，使得實(shí)際交易為復(fù)雜優(yōu)化決策問題。在此情況下對角算法并不直接適用，簡化處理后會產(chǎn)生建模殘差持續(xù)影響智能體策略選擇，在沒有人為修正的情況下無法形成持續(xù)優(yōu)化閉環(huán)，只能獲得大致反映市場交易結(jié)果的優(yōu)化解。

對12 h分析可知，粒子群算法中電能、天然氣供應(yīng)商投標(biāo)價(jià)格分別為171.39美元/MW、128.35美元/MW，收益分別為214.15美元、254.25美元。與其余2種算法以及自身10 h、11 h結(jié)果相比具有明顯差異，因?yàn)榱Ｗ尤核惴m然對模型要求相對較低，但本質(zhì)上是一種隨機(jī)搜索算法，在優(yōu)化過程中初值與隨機(jī)性設(shè)置不當(dāng)易陷入局部最優(yōu)解；在未設(shè)置跳出機(jī)制情況下會逐漸收斂于局部最優(yōu)解，與實(shí)際Nash均衡解產(chǎn)生差異。

2）分析所選3個(gè)連續(xù)時(shí)刻與全天收益可知，Nash-Q強(qiáng)化學(xué)習(xí)算法在每個(gè)時(shí)刻所得Nash均衡解相比其余2種算法更加精確；同時(shí)3個(gè)連續(xù)時(shí)刻所得電能供應(yīng)商和天然氣供應(yīng)商的總收益相較于對角算法、粒子群算法分別提升了11.12%、8.91%和11.30%、10.05%。

相比之下經(jīng)由多智能體Nash-Q強(qiáng)化學(xué)習(xí)得到的供應(yīng)商收益更高，其優(yōu)勢在于不完全信息環(huán)境下可通過歷史數(shù)據(jù)預(yù)測對手動(dòng)作選擇概率，進(jìn)而調(diào)整自身策略；求解過程中對模型依賴程度較低，即便模型因簡化處理存在建模殘差，仍可通過在環(huán)境中反復(fù)探索與試錯(cuò)方式更新自身策略，逐漸減少殘差對決策影響，形成持續(xù)優(yōu)化閉環(huán)。強(qiáng)化學(xué)習(xí)算法也展現(xiàn)良好的記憶性和演化性，不會像其他2種算法一樣貪婪地追求靜態(tài)時(shí)間斷面上的最優(yōu)操作，智能體會學(xué)習(xí)市場交易演化過程以獲得長遠(yuǎn)收益。

4.4.2 計(jì)算量對比

在同等計(jì)算資源下對比3類方法在線應(yīng)用環(huán)節(jié)計(jì)算量，以收斂累計(jì)時(shí)間、迭代次數(shù)以及平均計(jì)算時(shí)間3個(gè)指標(biāo)表征計(jì)算量，附錄B表B7對比分析了在線應(yīng)用環(huán)節(jié)的3個(gè)指標(biāo)。

由表B7可知，在線應(yīng)用環(huán)節(jié)3個(gè)指標(biāo)下粒子群算法均處于最高，對角算法次之，Nash-Q強(qiáng)化學(xué)習(xí)算法最低。針對算例涉及的復(fù)雜優(yōu)化決策問題，粒子群算法為保證解的有效性，須產(chǎn)生大量粒子，經(jīng)反復(fù)迭代搜索才能找到最優(yōu)解；對角算法求解過程中仍須固定一個(gè)智能體競價(jià)策略來尋找另一個(gè)智能體的最優(yōu)競價(jià)策略，并經(jīng)由多個(gè)智能體反復(fù)迭代。上述2種方法均須迭代計(jì)算才能求得最優(yōu)解，同時(shí)不具有記憶特性，每次優(yōu)化求解都是一次全新過程，無法利用歷史數(shù)據(jù)作為指導(dǎo)，致使在線應(yīng)用求解速度較為緩慢。

相比之下Nash-Q強(qiáng)化學(xué)習(xí)算法具有記憶特性，預(yù)訓(xùn)練后Q表已經(jīng)具備了指導(dǎo)交易行為的功能，在線應(yīng)用中可依據(jù)實(shí)際交易情形調(diào)用Q表尋優(yōu)，無須迭代計(jì)算，明顯減少了計(jì)算量與計(jì)算時(shí)間。同時(shí)在線應(yīng)用交易數(shù)據(jù)可持續(xù)優(yōu)化Q表，不斷強(qiáng)化智能體實(shí)時(shí)決策性能，具有更高的實(shí)際應(yīng)用價(jià)值。

5 結(jié)語

本文構(gòu)建了“競價(jià)決策-市場出清”綜合能源市場交易框架，經(jīng)由“離線訓(xùn)練＋在線應(yīng)用”方式驗(yàn)證了多智能體Nash-Q強(qiáng)化學(xué)習(xí)方法的有效性，最后經(jīng)由算例分析得出如下結(jié)論。

1）基于Nash-Q強(qiáng)化學(xué)習(xí)方法構(gòu)建的智能體可在不完全信息環(huán)境中通過反復(fù)探索與試錯(cuò)方式求解綜合能源市場交易博弈問題。

2）多智能體Nash-Q強(qiáng)化學(xué)習(xí)方法與數(shù)學(xué)推導(dǎo)算法、啟發(fā)式算法相比，在求解精度和時(shí)間方面具有更高的實(shí)際應(yīng)用價(jià)值。

隨著人工智能技術(shù)不斷發(fā)展，使用人工智能進(jìn)行能源市場交易決策必將得到越來越多的重視。未來可在本文基礎(chǔ)上，進(jìn)一步研究多智能體深度強(qiáng)化學(xué)習(xí)在綜合能源市場交易領(lǐng)域中的應(yīng)用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡