孫慶凱,王小君,王 怡,張義志,劉 曌,和敬涵
(北京交通大學(xué)電氣工程學(xué)院,北京市 100044)
隨著經(jīng)濟(jì)的發(fā)展,低效、粗獷的能源利用方式與資源、環(huán)境間的矛盾逐步加深。打破現(xiàn)有能源體系行業(yè)壁壘,構(gòu)建綜合能源交易市場,從市場角度切入,以價(jià)格激勵(lì)為手段,通過實(shí)際供需關(guān)系促進(jìn)能源綜合利用和高效配置具有重要意義[1-2]。
綜合能源市場涉及多主體間的利益關(guān)系,影響因素眾多,各主體既會相互影響,又會不斷觀察和學(xué)習(xí)來調(diào)整自身行為,進(jìn)而推動(dòng)整個(gè)系統(tǒng)交易演化,整體是一個(gè)復(fù)雜適應(yīng)性問題[3-5]。針對該問題,已有學(xué)者采用博弈理論構(gòu)建市場交易競價(jià)框架[6-11],其中文獻(xiàn)[8]建立綜合能源服務(wù)商雙層博弈模型,通過Karush-Kuhn-Tucker(KKT)條件轉(zhuǎn)化為單層模型優(yōu)化求解。文獻(xiàn)[9]提出綜合能源市場出清機(jī)制,采用對角算法研究計(jì)及供應(yīng)側(cè)策略投標(biāo)的市場均衡。文獻(xiàn)[10]采用雙層粒子群算法求解多方博弈競價(jià)均衡問題。文獻(xiàn)[11]基于Stackelberg博弈理論建立不同能源交易決策模型并利用改進(jìn)粒子群算法求解。
上述研究普遍采用數(shù)學(xué)推導(dǎo)法和啟發(fā)式算法優(yōu)化求解,其中前者忽略市場參與主體非凸非線性屬性,通過KKT條件將雙層模型轉(zhuǎn)換為具有平衡約束的單層模型求解,致使與實(shí)際問題間存在建模殘差[12]。后者雖無須建立精確博弈關(guān)系模型,但僅基于簡單生物群體行為尋優(yōu)易陷入局部最優(yōu)解,無法保證與Nash均衡解的一致性[13]。同時(shí)兩類方法均存在以下弊端:①須以完全信息環(huán)境作為前提假設(shè),與實(shí)際交易存在差異;②不具有記憶特性,無法充分利用歷史信息,每次求解均為獨(dú)立過程。
強(qiáng)化學(xué)習(xí)作為新型人工智能算法,可通過在動(dòng)態(tài)環(huán)境中反復(fù)探索與試錯(cuò)的方式求解問題,對精確數(shù)學(xué)模型、完整信息以及參數(shù)設(shè)置要求較低,這為求解復(fù)雜系統(tǒng)優(yōu)化決策問題提供了可能[14-16]。文獻(xiàn)[17]提出了基于強(qiáng)化學(xué)習(xí)的并網(wǎng)型綜合能源微網(wǎng)調(diào)度模型。文獻(xiàn)[18]采用強(qiáng)化學(xué)習(xí)研究綜合能源系統(tǒng)(integrated energy system,IES)動(dòng)態(tài)經(jīng)濟(jì)調(diào)度。文獻(xiàn)[19]基于強(qiáng)化學(xué)習(xí)研究家庭IES需求響應(yīng)優(yōu)化。雖然強(qiáng)化學(xué)習(xí)為復(fù)雜系統(tǒng)決策提供了重要求解工具,但目前未見其在綜合能源交易領(lǐng)域有詳細(xì)研究,同時(shí)已有研究普遍將對象簡化為單一智能體與固定環(huán)境間的交互學(xué)習(xí),然而實(shí)際綜合能源交易市場是多主體復(fù)雜交互適應(yīng)系統(tǒng),如何將多智能體強(qiáng)化學(xué)習(xí)應(yīng)用于綜合能源交易市場尚有不足。
為此,本文在多智能體強(qiáng)化學(xué)習(xí)基礎(chǔ)上結(jié)合博弈論,利用博弈強(qiáng)化學(xué)習(xí)協(xié)調(diào)綜合能源市場交易。主要貢獻(xiàn)歸納如下:①構(gòu)建了“競價(jià)博弈-市場出清”電-氣綜合能源市場雙層交易框架;②利用多智能體Nash-Q強(qiáng)化學(xué)習(xí)優(yōu)化求解電-氣綜合能源市場競價(jià)博弈問題。
市場環(huán)境下能源供給、交易、消耗過程存在多個(gè)參與主體。供給層面中電能、天然氣供應(yīng)商滿足能源供給;交易層面中電-氣綜合能源交易市場服務(wù)商作為紐帶,匯集能源供應(yīng)商的投標(biāo)價(jià)格與綜合能源系統(tǒng)運(yùn)營商(integrated energy system operator,IESO)的能源需求,按社會福利最大化進(jìn)行市場出清。消耗層面中IESO聚合多個(gè)IES的能源需求,在市場上購買能源。鑒于多參與主體分屬于不同利益集團(tuán),有著各自運(yùn)行目標(biāo)、用戶需求、控制手段等,但彼此之間利益聯(lián)系緊密;同時(shí)為配合后續(xù)強(qiáng)化學(xué)習(xí)應(yīng)用,將市場參與者劃分為以下智能體:電能供應(yīng)商、天然氣供應(yīng)商、電-氣綜合能源交易市場服務(wù)商以及IESO。
依據(jù)功能定位將能源市場設(shè)定為競價(jià)決策層和市場出清層,如圖1所示。
圖1 市場交易框架Fig.1 Market transaction framework
1)競價(jià)決策層中能源供應(yīng)商報(bào)價(jià)過程、運(yùn)行成本、收益函數(shù)等信息不公布,是在不完全信息環(huán)境下向市場服務(wù)商提交投標(biāo)價(jià)格與容量以進(jìn)行非合作競價(jià)博弈。
2)市場出清層中市場服務(wù)商匯集能源供應(yīng)商報(bào)價(jià)信息和IESO能源需求信息進(jìn)行市場出清,決定各能源供應(yīng)商中標(biāo)容量及收益。
基于上述交易機(jī)制作如下假設(shè):①參與主體皆為理性,即合理尋求自身決策目標(biāo)最大化;②短時(shí)間內(nèi)能源供應(yīng)和負(fù)荷不產(chǎn)生變化;③博弈過程中僅考慮價(jià)格影響,暫不考慮其他因素。
綜合能源市場由多參與主體構(gòu)成,各方更多地考慮自身經(jīng)濟(jì)性,致使傳統(tǒng)集中優(yōu)化方法難以執(zhí)行。鑒于博弈論作為解決不同主體利益沖突的有效工具[20],本文在競價(jià)決策層中建立多智能體非合作博弈決策模型:
式中:G為博弈均衡點(diǎn);g(·)為博弈函數(shù);N為智能體數(shù)量;S為策略集合;U為效益函數(shù)集合。
2.1.1 博弈參與者
依據(jù)智能體劃分標(biāo)準(zhǔn)將競價(jià)決策層中的博弈參與主體確定為電能供應(yīng)商和天然氣供應(yīng)商。
2.1.2 博弈策略
電能供應(yīng)商博弈策略為電能投標(biāo)價(jià)格和投標(biāo)電量;天然氣供應(yīng)商博弈策略為天然氣投標(biāo)價(jià)格和投標(biāo)氣量。
2.1.3 效益函數(shù)
2.1.3.1 電能供應(yīng)商
1)投標(biāo)價(jià)格制定
園區(qū)IES是中國用戶側(cè)參與市場交易的改革試點(diǎn),采用包含利潤和邊際成本的功率價(jià)格曲線競價(jià)有助于提高能源利用率[21]。電能供應(yīng)商運(yùn)行邊際成本隨出力上升而增大,須針對不同類型機(jī)組按自身邊際成本函數(shù)制定功率-價(jià)格曲線[22]。同時(shí)考慮到調(diào)節(jié)斜率使得競價(jià)變動(dòng)較大,故而采用了變截距方式,即交易中電能供應(yīng)商通過市場服務(wù)商接收IESO的能源購買信息,以自身效益最大化來改變功率-價(jià)格曲線截距se(t),并將新曲線傳遞給市場服務(wù)商,其功率-價(jià)格曲線如式(2)所示。
式中:λe(t)為t時(shí)刻電能出售價(jià)格;ae為電能供應(yīng)商考慮運(yùn)行成本的二次項(xiàng)系數(shù);Pe(t)為t時(shí)刻電能供應(yīng)商出售功率。
2)效益函數(shù)
為清晰模擬能源供應(yīng)商與IESO互動(dòng)過程,目標(biāo)函數(shù)只考慮出售給IESO的收入,向其他剛性負(fù)荷售能收入暫不考慮。電能供應(yīng)商采用二次運(yùn)行成本函數(shù),如式(3)所示;以效益最大化構(gòu)建決策目標(biāo),如式(4)所示。
式中:fe(t)為t時(shí)刻電能供應(yīng)商運(yùn)行成本;Ue為電能供應(yīng)商的效益函數(shù);be和ce分別為電能供應(yīng)商考慮運(yùn)行成本的一次項(xiàng)系數(shù)和常數(shù)項(xiàng),均為不小于0的常 數(shù);cnet為過網(wǎng)費(fèi) 用;T為24 h總時(shí) 段 數(shù);Δt為1 h時(shí)間長度。
2.1.3.2 天然氣供應(yīng)商
1)投標(biāo)價(jià)格制定
鑒于本文天然氣供應(yīng)商并非大型天然氣交易商,而是擁有配氣站的區(qū)域天然氣供應(yīng)商,故而出于對上述電能供應(yīng)商價(jià)格制定的考慮,天然氣商也采用相似方式,其功率-價(jià)格曲線如式(5)所示。
式中:λg(t)為t時(shí)刻天然氣出售價(jià)格;ag為天然氣供應(yīng)商考慮運(yùn)行成本的二次項(xiàng)系數(shù);Pg(t)為t時(shí)刻天然氣供應(yīng)商出售功率;sg(t)為天然氣供應(yīng)商的功率-價(jià)格曲線截距。
2)效益函數(shù)
天然氣供應(yīng)商在滿足用戶需求前提下應(yīng)盡可能提升自身效益,其成本函數(shù)如式(6)所示,目標(biāo)函數(shù)如式(7)所示。
式中:fg(t)為t時(shí)刻天然氣商運(yùn)行成本;Ug為天然氣供應(yīng)商的效益函數(shù);bg和cg分別為天然氣供應(yīng)商考慮運(yùn)行成本的一次項(xiàng)系數(shù)和常數(shù)項(xiàng),均為不小于0的常數(shù)。
2.1.4 競價(jià)決策約束條件
1)價(jià)格截距約束
價(jià)格截距約束既要考慮削價(jià)影響市場交易秩序不可過低報(bào)價(jià),又要遵守市場規(guī)定不可過高報(bào)價(jià)。
2)投標(biāo)容量約束
能源供應(yīng)商向綜合能源市場服務(wù)商提供能源,其值不小于0,也不大于供應(yīng)商機(jī)組出力容量限制。
2.2.1 市場出清決策模型
相較于競價(jià)決策層寡頭博弈,市場出清層中園區(qū)IES數(shù)量較多,結(jié)構(gòu)規(guī)模相對簡單,致使存在以下問題。
1)部分園區(qū)IES不滿足市場準(zhǔn)入條件,無法進(jìn)入市場交易。
2)所有園區(qū)IES參與市場交易導(dǎo)致市場參與者過多,難以管理。
故而采用市場分層管理模式,暫不考慮單一園區(qū)IES策略性投標(biāo),而是將多個(gè)園區(qū)IES經(jīng)由Energyhub形式構(gòu)建成一個(gè)聚合IES,該IES參與競價(jià)博弈-市場出清雙層模型優(yōu)化求解;其次聚合IES內(nèi)部存在能源分配環(huán)節(jié),將獲得的能源按策略分配給各個(gè)園區(qū)IES。
在此基礎(chǔ)上,電-氣綜合能源市場服務(wù)商匯集各參與主體投標(biāo)信息,以最大化電、氣供需總體社會福利作為市場出清目標(biāo)。
2.2.2 市場出清約束條件
1)電力供需約束
式中:Ns為聚合的園區(qū)IES個(gè)數(shù);De,s(t)為t時(shí)刻第s個(gè)IES短期電力負(fù)荷預(yù)測;Pmaxe,l為輸 電線路 最大輸送功率。
2)天然氣供需約束
在競價(jià)決策層中考慮式(3)和式(6)引入能源供應(yīng)商二次非線性成本函數(shù);在市場出清層中考慮式(10)、式(16)至式(18)引入機(jī)組決策變量非凸特性,致使傳統(tǒng)求解算法具有一定困難,故而本文采用了多智能體Nash-Q強(qiáng)化學(xué)習(xí)算法。
將多智能體強(qiáng)化學(xué)習(xí)與博弈理論相結(jié)合,采用多智能體Nash-Q強(qiáng)化學(xué)習(xí)構(gòu)建電-氣綜合能源市場多參與主體競價(jià)博弈應(yīng)用框架,如附錄A圖A1所示。
首先利用歷史統(tǒng)計(jì)數(shù)據(jù)構(gòu)建模擬環(huán)境,基于Nash-Q強(qiáng)化學(xué)習(xí)算法對多智能體進(jìn)行預(yù)訓(xùn)練,初步建立智能體對環(huán)境的認(rèn)知和決策能力;其次借助文獻(xiàn)[23]遷移學(xué)習(xí)將學(xué)習(xí)到的經(jīng)驗(yàn)庫遷移到實(shí)際環(huán)境中,提高智能體對實(shí)際環(huán)境的快速適應(yīng)和準(zhǔn)確決策能力。同時(shí)可利用實(shí)際環(huán)境數(shù)據(jù)定期更新經(jīng)驗(yàn)庫,持續(xù)優(yōu)化智能體Q表,不斷強(qiáng)化智能體實(shí)時(shí)決策性能。
3.2.1 聯(lián)合狀態(tài)空間
區(qū)別于單一智能體強(qiáng)化學(xué)習(xí),多智能體Nash-Q強(qiáng)化學(xué)習(xí)需通過聯(lián)合狀態(tài)空間表示,將電能、天然氣供應(yīng)商價(jià)格截距se(t)和sg(t)作為狀態(tài)變量,依據(jù)文獻(xiàn)[24]將其離散化為區(qū)間形式,每段區(qū)間定義為一個(gè)狀態(tài),可確定多智能體聯(lián)合狀態(tài)空間S(t)={se(t),sg(t)}。
3.2.2 聯(lián)合動(dòng)作空間
動(dòng)作主要表現(xiàn)為能源供應(yīng)商售能價(jià)格調(diào)整,依據(jù)市場運(yùn)營限定的售能價(jià)格上下限,以步長為1在上一輪售能價(jià)格基礎(chǔ)上浮動(dòng),第m+1次博弈過程中可選擇動(dòng)作集合Am+1={am-1,am,am+1},其中am表示第m次博弈過程所選動(dòng)作。
實(shí)際交易過程為不完全信息下非合作博弈,故而動(dòng)作選擇策略采用競爭對手歷史數(shù)據(jù)描述。以電能供應(yīng)商為例,假設(shè)bg(S(t),a)為天然氣供應(yīng)商在聯(lián)合狀態(tài)S(t)下采取動(dòng)作a(a∈Am+1)的歷史次數(shù),則天然氣供應(yīng)商選擇動(dòng)作a的概率為:
電能供應(yīng)商依據(jù)聯(lián)合狀態(tài)S(t)以及預(yù)測對手動(dòng)作來調(diào)整自身動(dòng)作選擇概率,規(guī)則如下:
式 中:pam+1、pam、pam-1分 別 為 電 能 供 應(yīng) 商 選 擇am+1、am、am-1動(dòng)作的基礎(chǔ)概率;Δp為概率調(diào)整常數(shù)。
依據(jù)當(dāng)前聯(lián)合狀態(tài)和動(dòng)作選擇策略即可確定聯(lián)合 動(dòng) 作 空 間AS(t)={ae,S(t),ag,S(t)},其 中ae,S(t),ag,S(t)∈Am+1分別為聯(lián)合狀態(tài)S(t)下電能、天然氣供應(yīng)商所選動(dòng)作。
3.2.3 獎(jiǎng)懲機(jī)制能源供應(yīng)商對交易過程持續(xù)學(xué)習(xí)以優(yōu)化各自效益函數(shù),將供應(yīng)商效益函數(shù)最大化轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)最大化形式,可表示為:
3.2.4 Nash-Q函數(shù)更新
多智能體強(qiáng)化學(xué)習(xí)依賴博弈Nash均衡結(jié)果,在Nash均衡中每個(gè)智能體的策略對于其他智能體都是最佳反應(yīng),在聯(lián)合狀態(tài)S(t)下有:
式中:α為學(xué)習(xí)步長;QNash,e(S(t+1))為電能供應(yīng)商在聯(lián)合狀態(tài)S(t+1)下根據(jù)所選擇Nash均衡策略得到的收益;←表示更新Q值。
競價(jià)決策層屬于復(fù)雜優(yōu)化決策問題,采用多智能體Nash-Q強(qiáng)化學(xué)習(xí)求解;市場出清層屬于線性問題,借用求解器Cplex計(jì)算。具體求解流程和步驟如附錄A圖A2所示。
在Python編譯環(huán)境中構(gòu)建模型,數(shù)據(jù)來源于國內(nèi)某重點(diǎn)項(xiàng)目園區(qū),其中以Energyhub形式構(gòu)建的IES見附錄A圖A3,電、熱、氣負(fù)荷需求曲線見圖A4;光伏、風(fēng)電日前預(yù)測出力曲線見圖A5;IES所含設(shè)備類型和參數(shù)見附錄B表B1;設(shè)備運(yùn)行維護(hù)費(fèi)用見表B2;能源供應(yīng)商運(yùn)行成本系數(shù)見表B3;多智能體Nash-Q強(qiáng)化學(xué)習(xí)算法參數(shù)見表B4。強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)通過設(shè)定不同的能源供應(yīng)商初始狀態(tài)持續(xù)與環(huán)境交互來模擬獲得。以1 h為一個(gè)時(shí)段進(jìn)行日前市場交易決策與電、熱、氣供需平衡分析。
4.2.1 Nash均衡存在性證明
在預(yù)學(xué)習(xí)過程中能源供應(yīng)商不斷交互,不同能源供應(yīng)商的Q值Qe和Qg最終會收斂到Nash均衡,具體Nash均衡證明過程詳見附錄C。
4.2.2 預(yù)學(xué)習(xí)結(jié)果分析
1)競價(jià)決策博弈分析
以第10 h為例進(jìn)行電能、天然氣供應(yīng)商競價(jià)博弈分析,該時(shí)刻IESO聚合的電負(fù)荷為6.69 MW,熱負(fù)荷為3.44 MW,氣負(fù)荷為3.19 MW。進(jìn)行6輪博弈,每輪博弈60次,將天然氣等效轉(zhuǎn)化為電能形式結(jié)算后供應(yīng)商價(jià)格截距博弈情況如圖2所示。Nash-Q強(qiáng)化學(xué)習(xí)過程中對應(yīng)的Q表迭代完善情況如附錄A圖A6所示。
圖2 能源供應(yīng)商競價(jià)博弈過程Fig.2 Bidding game process of energy suppliers
第1、2輪博弈中由于信息不完整,智能體僅能依據(jù)聯(lián)合狀態(tài)和對手歷史數(shù)據(jù)做出自身最佳動(dòng)作策略選擇。隨著博弈的進(jìn)行,雙方均增大了己方降低價(jià)格動(dòng)作的概率,最終在低價(jià)格區(qū)間內(nèi)競價(jià)博弈,此時(shí)雙方希望通過降價(jià)搶占市場來獲得利潤。經(jīng)過盲目降價(jià)搶占市場后,強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)值較低,供能商盈利處于較低水平,故而智能體在隨后第3輪學(xué)習(xí)過程中嘗試提高價(jià)格,但鑒于此階段智能體Q表尚未完全建立,無法經(jīng)由Q表指引競價(jià)尋優(yōu),致使策略選擇波動(dòng)性較大,并未達(dá)到均衡穩(wěn)定。
隨著博弈的進(jìn)行,智能體不斷與外界環(huán)境進(jìn)行交互,逐漸完善Q表,初步建立起對環(huán)境的認(rèn)知和決策能力,可通過環(huán)境反饋調(diào)整自身策略,故而在第4、5、6輪博弈初始階段智能體通過降低價(jià)格以求獲得利益失敗后能夠立即提高價(jià)格并分別于第54、50和46次博弈時(shí)達(dá)到Nash均衡,此時(shí)電能供應(yīng)商策略為se=58,將天然氣等效轉(zhuǎn)化為電能形式結(jié)算后天然氣供應(yīng)商策略為sg=54。
2)市場出清分析
經(jīng)競價(jià)決策-市場出清后能源供應(yīng)商收益與出清量收斂情況如圖3所示。
圖3 市場出清迭代收斂過程Fig.3 Iterative convergence process of market clearing
可知博弈雙方收益均受對方策略影響,供應(yīng)商通過調(diào)整se和sg來改變功率-價(jià)格曲線,其收益從較大波動(dòng)逐漸到達(dá)均衡點(diǎn)。初始階段各供應(yīng)商趨于降價(jià),搶占市場獲益,故而在該階段內(nèi)供應(yīng)商收益波動(dòng)較大且出現(xiàn)收益下降,但隨著博弈進(jìn)行各供應(yīng)商在各自輪次優(yōu)化自身策略可明顯改變收益分配,提高自身收益,當(dāng)任意供應(yīng)商難以獨(dú)自改變收益格局時(shí)逐步收斂,策略接近均衡策略。此時(shí)電能供應(yīng)商電能售價(jià)為203.59美元/(MW·h),出清量為4.33 MW;收益為344.38美元。天然氣供應(yīng)商將博弈價(jià)格轉(zhuǎn)換為天然氣售價(jià)后為144.94美元/(MW·h),出清量為6.78 MW,收益為383.09美元。
4.3.1 在線應(yīng)用結(jié)果分析
為進(jìn)一步驗(yàn)證方法的在線決策能力,選擇另外某一時(shí)刻,該時(shí)刻聚合后的電負(fù)荷為6.12 MW,熱負(fù)荷為4.03 MW,氣負(fù)荷為2.61 MW。經(jīng)遷移學(xué)習(xí)計(jì)算新、源任務(wù)動(dòng)態(tài)歐氏距離可知,新任務(wù)與源任務(wù)可劃歸為同一類型。故而可采用預(yù)學(xué)習(xí)階段已經(jīng)訓(xùn)練好的智能體對該時(shí)刻競價(jià)環(huán)節(jié)進(jìn)行博弈分析,能源供應(yīng)商在線應(yīng)用競價(jià)博弈過程如圖4所示,Q表迭代完善情況如附錄A圖A7所示。
圖4 能源供應(yīng)商在線應(yīng)用競價(jià)博弈過程Fig.4 Bidding game process of energy suppliers in online application
由圖4可知,智能體在博弈11次時(shí)即可達(dá)到收斂,在此后過程中智能體仍舊嘗試通過改變自身價(jià)格來提高收益,但簡單嘗試后便會回歸穩(wěn)定。因?yàn)榻?jīng)預(yù)學(xué)習(xí)后智能體Q表已訓(xùn)練充分,具備了一定的環(huán)境認(rèn)知和決策能力,在線學(xué)習(xí)過程中再次遇到相似任務(wù)時(shí)可在Q表指引下快速做出自身博弈策略調(diào)整。
4.3.2 基于Nash均衡的IES能源供需平衡分析
考慮到聚合IES能源分配環(huán)節(jié)并不影響競價(jià)博弈-市場出清模型求解結(jié)果,為簡化分析選取聚合IES進(jìn)行電、熱、氣供需平衡分析,以驗(yàn)證市場博弈Nash均衡解合理性。聚合IES經(jīng)由Energyhub方式建模,通過市場交易獲得電能和天然氣,可依據(jù)價(jià)格優(yōu)勢選擇內(nèi)部設(shè)備進(jìn)行能源轉(zhuǎn)化與利用。24 h能源供應(yīng)商售能情況和基于Nash均衡的IES電、熱、氣供需平衡如附錄A圖A8所示。
結(jié)合圖A4、圖A5和圖A8分析可知,22:00—07:00時(shí)段風(fēng)電出力較大,超出電負(fù)荷需求,IES可利用電轉(zhuǎn)氣(P2G)設(shè)備將多余電量轉(zhuǎn)換以彌補(bǔ)氣負(fù)荷需求,此時(shí)無須過多向能源市場購買能源,供應(yīng)商售能均處于較低水平。在10:00—22:00時(shí)段光伏和風(fēng)機(jī)總體出力較小,但用戶電負(fù)荷需求較大,依據(jù)市場博弈可知此時(shí)氣價(jià)更便宜,IESO更趨向于購買天然氣,利用熱電聯(lián)產(chǎn)(CHP)機(jī)組產(chǎn)電、產(chǎn)熱。在07:00—10:00時(shí)段用戶電、氣需求呈上升趨勢,此時(shí)IESO趨于削減天然氣購買,而加大電能購買,經(jīng)由電轉(zhuǎn)熱(P2H)設(shè)備彌補(bǔ)熱需求。博弈過程中IESO可依據(jù)市場博弈Nash均衡結(jié)果及時(shí)調(diào)整外部購能計(jì)劃,并優(yōu)化內(nèi)部設(shè)備出力,經(jīng)過多次博弈后可獲得較為合理的Nash均衡解和機(jī)組出力結(jié)果。
4.4.1 計(jì)算精度對比
為驗(yàn)證本文方法求解綜合能源市場多參與主體競價(jià)博弈問題的優(yōu)勢,與數(shù)學(xué)推導(dǎo)方法(以對角算法為例)、啟發(fā)式算法(以粒子群算法為例)進(jìn)行對比分析,并設(shè)置以下2種情形。
情形1:簡化模型非凸非線性屬性,在完全信息環(huán)境下進(jìn)行市場交易競價(jià)博弈。
情形2:考慮模型非凸非線性屬性,在不完全信息環(huán)境下進(jìn)行市場交易競價(jià)博弈。
4.4.1.1 情形1
附錄B表B5基于3類算法對比分析能源供應(yīng)商收益,可知對角算法利潤最大,因?yàn)樵谕耆畔⑴c簡化模型情況下原始的雙層優(yōu)化問題經(jīng)由KKT條件轉(zhuǎn)換為單層封閉形式的優(yōu)化問題,可使用商業(yè)優(yōu)化求解器有效解決。同時(shí)可知多智能體Nash-Q強(qiáng)化學(xué)習(xí)方法獲得的利潤與對角算法非常接近,電能、天然氣供應(yīng)商利潤僅低了2.39%、3.14%;而粒子群算法結(jié)果與其他2種算法有所差距。
4.4.1.2 情形2
圖5對比分析基于不同算法的能源供應(yīng)商24 h收益。附錄B表B6對比了不同算法在連續(xù)時(shí)刻下詳細(xì)出清結(jié)果。
圖5 基于不同優(yōu)化算法的能源供應(yīng)商24 h收益Fig.5 24 h income of energy suppliers based on different optimization algorithms
1)初期IES內(nèi)部風(fēng)電出力較大,可將多余電量轉(zhuǎn)換以彌補(bǔ)氣負(fù)荷需求,此時(shí)無須過多購買能源;同時(shí)鑒于初期歷史數(shù)據(jù)匱乏,不易采用競爭對手歷史數(shù)據(jù)預(yù)測其動(dòng)作選擇概率,因此3類算法優(yōu)化結(jié)果相似。
隨著博弈的進(jìn)行,3類算法出現(xiàn)差異,以10 h為例,對角算法中電能、天然氣供應(yīng)商投標(biāo)價(jià)格分別為195.61美 元/MW、141.77美 元/MW,收 益 為309.48美元、359.33美元,比粒子群算法收益分別減少了5.41%、3.73%,比Nash-Q強(qiáng)化學(xué)習(xí)算法分別減少了10.13%、6.21%。由此可知,供應(yīng)商仍有改變售能價(jià)格提升自身收益的空間,該解并非實(shí)際問題Nash均衡解。因?yàn)樵诓煌耆畔h(huán)境下參與主體不會將自身報(bào)價(jià)過程、運(yùn)行成本、收益函數(shù)等信息公布;同時(shí)考慮參與主體非凸非線性屬性,使得實(shí)際交易為復(fù)雜優(yōu)化決策問題。在此情況下對角算法并不直接適用,簡化處理后會產(chǎn)生建模殘差持續(xù)影響智能體策略選擇,在沒有人為修正的情況下無法形成持續(xù)優(yōu)化閉環(huán),只能獲得大致反映市場交易結(jié)果的優(yōu)化解。
對12 h分析可知,粒子群算法中電能、天然氣供應(yīng)商投標(biāo)價(jià)格分別為171.39美元/MW、128.35美元/MW,收益分別為214.15美元、254.25美元。與其余2種算法以及自身10 h、11 h結(jié)果相比具有明顯差異,因?yàn)榱W尤核惴m然對模型要求相對較低,但本質(zhì)上是一種隨機(jī)搜索算法,在優(yōu)化過程中初值與隨機(jī)性設(shè)置不當(dāng)易陷入局部最優(yōu)解;在未設(shè)置跳出機(jī)制情況下會逐漸收斂于局部最優(yōu)解,與實(shí)際Nash均衡解產(chǎn)生差異。
2)分析所選3個(gè)連續(xù)時(shí)刻與全天收益可知,Nash-Q強(qiáng)化學(xué)習(xí)算法在每個(gè)時(shí)刻所得Nash均衡解相比其余2種算法更加精確;同時(shí)3個(gè)連續(xù)時(shí)刻所得電能供應(yīng)商和天然氣供應(yīng)商的總收益相較于對角算法、粒子群算法分別提升了11.12%、8.91%和11.30%、10.05%。
相比之下經(jīng)由多智能體Nash-Q強(qiáng)化學(xué)習(xí)得到的供應(yīng)商收益更高,其優(yōu)勢在于不完全信息環(huán)境下可通過歷史數(shù)據(jù)預(yù)測對手動(dòng)作選擇概率,進(jìn)而調(diào)整自身策略;求解過程中對模型依賴程度較低,即便模型因簡化處理存在建模殘差,仍可通過在環(huán)境中反復(fù)探索與試錯(cuò)方式更新自身策略,逐漸減少殘差對決策影響,形成持續(xù)優(yōu)化閉環(huán)。強(qiáng)化學(xué)習(xí)算法也展現(xiàn)良好的記憶性和演化性,不會像其他2種算法一樣貪婪地追求靜態(tài)時(shí)間斷面上的最優(yōu)操作,智能體會學(xué)習(xí)市場交易演化過程以獲得長遠(yuǎn)收益。
4.4.2 計(jì)算量對比
在同等計(jì)算資源下對比3類方法在線應(yīng)用環(huán)節(jié)計(jì)算量,以收斂累計(jì)時(shí)間、迭代次數(shù)以及平均計(jì)算時(shí)間3個(gè)指標(biāo)表征計(jì)算量,附錄B表B7對比分析了在線應(yīng)用環(huán)節(jié)的3個(gè)指標(biāo)。
由表B7可知,在線應(yīng)用環(huán)節(jié)3個(gè)指標(biāo)下粒子群算法均處于最高,對角算法次之,Nash-Q強(qiáng)化學(xué)習(xí)算法最低。針對算例涉及的復(fù)雜優(yōu)化決策問題,粒子群算法為保證解的有效性,須產(chǎn)生大量粒子,經(jīng)反復(fù)迭代搜索才能找到最優(yōu)解;對角算法求解過程中仍須固定一個(gè)智能體競價(jià)策略來尋找另一個(gè)智能體的最優(yōu)競價(jià)策略,并經(jīng)由多個(gè)智能體反復(fù)迭代。上述2種方法均須迭代計(jì)算才能求得最優(yōu)解,同時(shí)不具有記憶特性,每次優(yōu)化求解都是一次全新過程,無法利用歷史數(shù)據(jù)作為指導(dǎo),致使在線應(yīng)用求解速度較為緩慢。
相比之下Nash-Q強(qiáng)化學(xué)習(xí)算法具有記憶特性,預(yù)訓(xùn)練后Q表已經(jīng)具備了指導(dǎo)交易行為的功能,在線應(yīng)用中可依據(jù)實(shí)際交易情形調(diào)用Q表尋優(yōu),無須迭代計(jì)算,明顯減少了計(jì)算量與計(jì)算時(shí)間。同時(shí)在線應(yīng)用交易數(shù)據(jù)可持續(xù)優(yōu)化Q表,不斷強(qiáng)化智能體實(shí)時(shí)決策性能,具有更高的實(shí)際應(yīng)用價(jià)值。
本文構(gòu)建了“競價(jià)決策-市場出清”綜合能源市場交易框架,經(jīng)由“離線訓(xùn)練+在線應(yīng)用”方式驗(yàn)證了多智能體Nash-Q強(qiáng)化學(xué)習(xí)方法的有效性,最后經(jīng)由算例分析得出如下結(jié)論。
1)基于Nash-Q強(qiáng)化學(xué)習(xí)方法構(gòu)建的智能體可在不完全信息環(huán)境中通過反復(fù)探索與試錯(cuò)方式求解綜合能源市場交易博弈問題。
2)多智能體Nash-Q強(qiáng)化學(xué)習(xí)方法與數(shù)學(xué)推導(dǎo)算法、啟發(fā)式算法相比,在求解精度和時(shí)間方面具有更高的實(shí)際應(yīng)用價(jià)值。
隨著人工智能技術(shù)不斷發(fā)展,使用人工智能進(jìn)行能源市場交易決策必將得到越來越多的重視。未來可在本文基礎(chǔ)上,進(jìn)一步研究多智能體深度強(qiáng)化學(xué)習(xí)在綜合能源市場交易領(lǐng)域中的應(yīng)用。