李洪波, 郭琦, 袁少卿, 呂小凡, 趙靜
(1.內(nèi)蒙古電網(wǎng)電力調(diào)度控制中心,內(nèi)蒙古 呼和浩特 010020;2.北京清能互聯(lián)科技公司,北京 100080)
電力市場(chǎng)的建設(shè)和運(yùn)營(yíng)是一項(xiàng)極為復(fù)雜的任務(wù)工程,為了降低市場(chǎng)運(yùn)營(yíng)給系統(tǒng)帶來(lái)的風(fēng)險(xiǎn),規(guī)避隱藏的試錯(cuò)成本,電力市場(chǎng)模擬系統(tǒng)的建設(shè)顯得尤為重要。對(duì)此國(guó)內(nèi)外工作者已經(jīng)研發(fā)了多種電力市場(chǎng)模擬系統(tǒng)[1-5],然而其主要集中在市場(chǎng)運(yùn)營(yíng)商的出清環(huán)節(jié),對(duì)市場(chǎng)成員的競(jìng)價(jià)決策行為往往作了簡(jiǎn)化處理。隨著電力市場(chǎng)的不斷發(fā)展,如何有效模擬市場(chǎng)成員的競(jìng)價(jià)行為逐漸成為各學(xué)者關(guān)注的重要課題之一。
基于代理的模擬仿真技術(shù)是一種有效的試驗(yàn)工具[6-8],可為上述問(wèn)題提供可行的解決思路。文獻(xiàn)[9]針對(duì)電力拍賣市場(chǎng),提出了一種基于選擇概率的強(qiáng)化學(xué)習(xí)算法的智能代理模型。文獻(xiàn)[10]提出了基于猜測(cè)供給函數(shù)模型的發(fā)電公司代理模型,并構(gòu)造了重復(fù)博弈電力市場(chǎng)的多代理模型。文獻(xiàn)[11-13]基于Q學(xué)習(xí)算法構(gòu)造了發(fā)電商決策代理模型,并分別在現(xiàn)貨和中長(zhǎng)期市場(chǎng)驗(yàn)證了模型的有效性。文獻(xiàn)[14]72-73提煉出關(guān)鍵影響因子用于建立多輸入決策因子模型,并應(yīng)用RE-learning算法模擬發(fā)電商日前市場(chǎng)競(jìng)價(jià)行為。
綜上所述,目前國(guó)內(nèi)外基于智能代理的發(fā)電商競(jìng)價(jià)模擬研究已經(jīng)取得了一定成果,但多集中于單一決策目標(biāo),缺少多重決策目標(biāo)的分析建模,此外在代理進(jìn)化學(xué)習(xí)過(guò)程中,策略空間一般是固定的,這在一定程度上限制了代理模型的靈活性。針對(duì)上述問(wèn)題,本文提出一種基于綜合效用函數(shù)和動(dòng)態(tài)策略空間的智能代理方法,同時(shí)結(jié)合強(qiáng)化學(xué)習(xí)中的RE-learning算法,實(shí)現(xiàn)對(duì)市場(chǎng)成員競(jìng)價(jià)行為的模擬,并通過(guò)算例驗(yàn)證所提方法的有效性。
理想情況下,發(fā)電商進(jìn)行第二天申報(bào)時(shí),往往追求的是個(gè)人收益的最大化。然而實(shí)際中,由于生產(chǎn)經(jīng)營(yíng)條件的不同,發(fā)電商追求的可能不僅僅是單一收益,還會(huì)考慮其他從屬目標(biāo),如機(jī)組相對(duì)利用率和機(jī)組市場(chǎng)占有率等。此外,在衡量各策略的優(yōu)劣性時(shí),各發(fā)電商關(guān)注的可能不是整體收益,而是機(jī)組容量收益。因此,為了有效模擬發(fā)電商的上述真實(shí)行為,本文借鑒文獻(xiàn)[14]73-75中的方法,綜合考慮機(jī)組單容量收益和相對(duì)利用率等因素,構(gòu)造一個(gè)綜合的效用函數(shù),具體如式(1)所示。
(1)
(2)
(3)
式中:plmp為機(jī)組所在節(jié)點(diǎn)的市場(chǎng)出清價(jià)格;Q為機(jī)組中標(biāo)電量;C(Q)為機(jī)組的變動(dòng)成本;CGu為固定成本分?jǐn)偤蟮母?jìng)價(jià)成本;G為機(jī)組裝機(jī)容量;Gω為市場(chǎng)總裝機(jī)容量;Beq為系統(tǒng)負(fù)荷。
基于強(qiáng)化學(xué)習(xí)的智能代理研究中,策略空間的構(gòu)建是關(guān)鍵所在。在現(xiàn)有的研究中,通常采取簡(jiǎn)化處理,首先對(duì)機(jī)組的容量范圍進(jìn)行分段均分處理,并固定形成量的基準(zhǔn)申報(bào)方式;其次基于邊際成本函數(shù),結(jié)合容量申報(bào)方式,從而得到一條基準(zhǔn)的申報(bào)曲線即基準(zhǔn)策略;最后基于上述基準(zhǔn)策略,等比例考慮一定的利潤(rùn)率,從而形成對(duì)應(yīng)的策略空間。顯然,上述處理方式存在著不少問(wèn)題:第一,各策略中量都是采取固定統(tǒng)一的分段均分方式,這顯然無(wú)法模擬發(fā)電商的真實(shí)行為,也無(wú)法從量上體現(xiàn)各策略的優(yōu)劣性和發(fā)電商在申報(bào)量上的博弈行為;第二,在進(jìn)化學(xué)習(xí)過(guò)程中,各代理策略空間都是固定的,這在一定程度上限制了代理模型的靈活性,也難以體現(xiàn)其學(xué)習(xí)性和智能性。
實(shí)際中,為了實(shí)現(xiàn)自身決策目標(biāo)最大化,在市場(chǎng)允許范圍內(nèi),各發(fā)電商一般都會(huì)報(bào)滿N(申報(bào)段數(shù))個(gè)量?jī)r(jià)對(duì)即申報(bào)策略曲線。對(duì)此,為了模擬發(fā)電商在量?jī)r(jià)維度上的真實(shí)考慮和博弈行為,本文對(duì)各策略的優(yōu)化空間進(jìn)行了維度還原處理,各策略對(duì)應(yīng)的優(yōu)化維度不再是單一的利潤(rùn)率拉升比例,而是真實(shí)的N個(gè)量?jī)r(jià)對(duì)。
此外,針對(duì)上述所提的第二點(diǎn)不足,本文提出一種改進(jìn)的動(dòng)態(tài)策略空間。在每輪次學(xué)習(xí)過(guò)程中,對(duì)各策略評(píng)價(jià)系數(shù)重新進(jìn)行排序,排序靠后的策略將會(huì)進(jìn)行動(dòng)態(tài)調(diào)整替換,其中替換更新思路主要有以下兩種方式:第一,向本輪次最優(yōu)策略進(jìn)行動(dòng)態(tài)學(xué)習(xí);第二,基于本輪次最優(yōu)策略隨機(jī)擾動(dòng)生成新策略。
各發(fā)電商向市場(chǎng)運(yùn)營(yíng)商提交申報(bào)信息,運(yùn)營(yíng)商根據(jù)購(gòu)電成本最小或者社會(huì)福利最大化原則統(tǒng)一進(jìn)行市場(chǎng)出清。每天電力市場(chǎng)的重復(fù)運(yùn)營(yíng),使發(fā)電商根據(jù)當(dāng)天的競(jìng)價(jià)經(jīng)驗(yàn)不斷動(dòng)態(tài)優(yōu)化后續(xù)的競(jìng)價(jià)策略成為可能。
策略進(jìn)化過(guò)程如下:①各發(fā)電商提交報(bào)價(jià)信息給市場(chǎng)運(yùn)營(yíng)商;②市場(chǎng)運(yùn)營(yíng)商收到所有的報(bào)價(jià)信息后,在滿足系統(tǒng)負(fù)荷需求等條件下,根據(jù)市場(chǎng)規(guī)則進(jìn)行出清,即制訂發(fā)電計(jì)劃、計(jì)算電網(wǎng)各節(jié)點(diǎn)價(jià)格及各發(fā)電商的中標(biāo)電量,并將這些出清結(jié)果反饋給各發(fā)電商;③各發(fā)電商根據(jù)反饋的出清信息,更新計(jì)算本輪交易的綜合效用函數(shù)值;④各發(fā)電商根據(jù)綜合效用函數(shù)值和競(jìng)價(jià)經(jīng)驗(yàn)優(yōu)化競(jìng)價(jià)策略,進(jìn)行第二天即下一輪的報(bào)價(jià)。
圖1 算法流程圖
本文采用強(qiáng)化學(xué)習(xí)中的RE-learning算法搭建各發(fā)電商的競(jìng)價(jià)模型,該算法首次由Roth和Erev在1995年提出,算法原理和相應(yīng)的決策模塊見(jiàn)文獻(xiàn)[11]。此處以發(fā)電商i為例詳細(xì)介紹該算法的具體求解過(guò)程,對(duì)應(yīng)流程如圖1所示。
所提方法中各策略包含了2N個(gè)優(yōu)化變量,即對(duì)應(yīng)N個(gè)量?jī)r(jià)對(duì),其中N個(gè)變量為申報(bào)容量,另N個(gè)為對(duì)應(yīng)的申報(bào)價(jià)格。對(duì)于各優(yōu)化變量,其初始化方式具體如下:
Ck,j=Cj,min+rand×
(Cj,max-Cj,min)
(4)
式中:k、j分別為動(dòng)作和變量下標(biāo),j∈2N;Cj,max、Cj,min分別為變量Cj的上下限值?;陔S機(jī)初始化的量?jī)r(jià)變量,為了保持申報(bào)曲線中各段量?jī)r(jià)非單調(diào)遞減特性,對(duì)量?jī)r(jià)變量分別重新進(jìn)行排序處理。
以競(jìng)價(jià)模型的單次策略進(jìn)化過(guò)程為一輪次,則第D輪市場(chǎng)出清后,根據(jù)反饋的市場(chǎng)出清結(jié)果計(jì)算式(1)的綜合效用函數(shù)值,并利用其更新策略空間中各策略動(dòng)作的學(xué)習(xí)參數(shù),式(5)是對(duì)選擇到的第m個(gè)動(dòng)作進(jìn)行更新,式(6)是對(duì)未選擇到的動(dòng)作進(jìn)行更新。
(5)
(6)
根據(jù)D輪出清結(jié)果更新完原始策略空間的評(píng)價(jià)系數(shù)后,按照所提的改進(jìn)思路動(dòng)態(tài)調(diào)整更新策略空間,具體操作為:根據(jù)更新后的評(píng)價(jià)系數(shù)對(duì)各策略重新進(jìn)行優(yōu)先級(jí)排序,假設(shè)評(píng)價(jià)系數(shù)最高的動(dòng)作k下標(biāo)為b,排序最后m個(gè)動(dòng)作下標(biāo)集合為M,排序最后m~m+n個(gè)動(dòng)作下標(biāo)集合為N;對(duì)動(dòng)作集合M采取向最佳策略n學(xué)習(xí)的改進(jìn)策略,對(duì)動(dòng)作集合N采取最佳策略b隨機(jī)擾動(dòng)替換策略,其策略變量及評(píng)價(jià)系數(shù)的更新方式具體如下:
(7)
(8)
式中:Cm′,j、qim′(D+1)分別為動(dòng)態(tài)替換后的第m個(gè)策略動(dòng)作及對(duì)應(yīng)的評(píng)價(jià)系數(shù);biasj、biasq分別為變量j和評(píng)價(jià)系數(shù)的擾動(dòng)量;rand為(0,1)的隨機(jī)量。
根據(jù)動(dòng)態(tài)調(diào)整后各策略行為的評(píng)價(jià)系數(shù)更新其在輪盤賭中的概率系數(shù),更新公式如式(9)所示。下一輪競(jìng)價(jià)時(shí),重新以輪盤賭的方式隨機(jī)選擇對(duì)應(yīng)的策略動(dòng)作。
(9)
式中:c(D+1)為D+1輪冷卻系數(shù),決定評(píng)價(jià)系數(shù)對(duì)選擇概率的影響程度。參數(shù)的選擇根據(jù)每輪各策略評(píng)價(jià)系數(shù)進(jìn)行如下調(diào)整:
(10)
式中:g為一個(gè)大于0的實(shí)數(shù),一般設(shè)定的取值范圍為(0,3)。g的取值會(huì)改變冷卻系數(shù)c的取值,影響智能代理的收斂效率,g越大,智能代理收斂越慢。
圖2 3機(jī)9節(jié)點(diǎn)系統(tǒng)接線圖
為了驗(yàn)證所提方法的有效性,以3機(jī)9節(jié)點(diǎn)系統(tǒng)為例,其網(wǎng)絡(luò)拓?fù)淙鐖D2所示,可見(jiàn)其包含3個(gè)發(fā)電商、3臺(tái)變壓器、6條輸電線路以及3個(gè)電力用戶,各發(fā)電商的詳細(xì)信息如表1所示,節(jié)點(diǎn)用戶負(fù)荷和線路傳輸容量信息可詳見(jiàn)表2和表3。
為了便于處理,仿真中假設(shè)各發(fā)電商代理模型采取相同的參數(shù)設(shè)置,策略動(dòng)作總個(gè)數(shù)K=21、遺忘因子r=0.09、經(jīng)驗(yàn)參數(shù)e=0.9、集合M和集合N個(gè)數(shù)均為2。
此外,仿真中以廣東現(xiàn)貨電力市場(chǎng)試結(jié)算規(guī)則為例,采取統(tǒng)一節(jié)點(diǎn)電價(jià)出清機(jī)制;各發(fā)電商最多可上報(bào)5個(gè)量?jī)r(jià)對(duì),同時(shí)報(bào)價(jià)策略在全天24 h各時(shí)刻是統(tǒng)一的,不得中途變更。仿真中還要求各段價(jià)格須單調(diào)非遞減,各段容量需要≥0,且各段容量之和不得超過(guò)機(jī)組最大出力。
表1 發(fā)電商技術(shù)經(jīng)濟(jì)參數(shù)
表2 節(jié)點(diǎn)負(fù)荷信息
表3 變壓器及線路信息
3.2.1 算例1
本算例中為了驗(yàn)證所提動(dòng)態(tài)策略空間的改進(jìn)效果,發(fā)電商1~3均采用智能代理模型,但代理模型的決策從屬目標(biāo)仍設(shè)為單一的全天總收益。改進(jìn)前后動(dòng)態(tài)競(jìng)演過(guò)程分別如圖3~圖4所示,為了進(jìn)一步對(duì)比效果,此處對(duì)市場(chǎng)均衡后各發(fā)電商代理的決策從屬目標(biāo)值作了統(tǒng)計(jì),如表4所示。
由圖3~圖4及表4的仿真結(jié)果可以看出,所提的動(dòng)態(tài)策略空間,會(huì)對(duì)市場(chǎng)均衡收斂速度有所影響。相比改進(jìn)前有所變慢,但各發(fā)電商從屬?zèng)Q策目標(biāo)值有所提高,相比改進(jìn)前市場(chǎng)能探索到一個(gè)更優(yōu)的收斂點(diǎn)。這主要是由于動(dòng)態(tài)策略空間中,對(duì)各策略優(yōu)
圖3 改進(jìn)前動(dòng)態(tài)競(jìng)演過(guò)程
圖4 改進(jìn)后動(dòng)態(tài)競(jìng)演過(guò)程
表4 市場(chǎng)穩(wěn)定后收益統(tǒng)計(jì)對(duì)比
化變量進(jìn)行還原處理,因此各代理策略空間范圍變大了。此外在迭代競(jìng)演過(guò)程中,對(duì)原始策略空間進(jìn)行動(dòng)態(tài)調(diào)整優(yōu)化,這一定程度上也影響了整體的收斂速度,但同時(shí)得益于動(dòng)態(tài)策略空間的改進(jìn)優(yōu)化,市場(chǎng)穩(wěn)定后各發(fā)電商整體達(dá)到了一個(gè)更優(yōu)的均衡狀態(tài)。
3.2.2 算例2
本算例主要是為了模擬發(fā)電商決策從屬目標(biāo)由單一的全天收益,變?yōu)榫C合效用函數(shù)后,其動(dòng)態(tài)競(jìng)演的變化過(guò)程。因此在本算例中,假定發(fā)電商2和3均按300元/MW滿容量申報(bào),而發(fā)電商1采取所提的改進(jìn)代理模型,同時(shí)綜合效用函數(shù)中機(jī)組相對(duì)利用率權(quán)重比例設(shè)為2,仿真結(jié)果如圖5、圖6和表5所示。
由圖5~圖6及表5的仿真結(jié)果可以看出,當(dāng)發(fā)電商1采取綜合效用函數(shù)后,其全天總收益將有所減小,總中標(biāo)電量有所增加。這主要是由于改進(jìn)后發(fā)電商決策目標(biāo)不再是簡(jiǎn)單的收益最大化,而是收益和中標(biāo)電量的綜合效用值。
圖5 全天總收益對(duì)比
圖6 全天總中標(biāo)電量對(duì)比
表5 市場(chǎng)穩(wěn)定后決策從屬目標(biāo)統(tǒng)計(jì)對(duì)比
為了有效模擬實(shí)際電力市場(chǎng)環(huán)境中各發(fā)電商的真實(shí)競(jìng)價(jià)行為,本文提出了一種基于綜合效用函數(shù)和動(dòng)態(tài)策略空間的競(jìng)價(jià)模擬方法。算例仿真結(jié)果表明,所提的動(dòng)態(tài)策略空間稍有犧牲市場(chǎng)均衡的收斂速度,但能探索到一個(gè)更優(yōu)的均衡點(diǎn)。此外,基于所提的綜合效用函數(shù),所提代理模型能一定程度上反映各發(fā)電商的實(shí)際競(jìng)價(jià)和對(duì)總體收益和機(jī)組相對(duì)利用率之間的綜合考慮行為。