基于Hotbooting Q 算法的多微網(wǎng)能量交易博弈模型

2020-08-17 06:44余加喜吳清玉宋麗珠莫若慧

可再生能源 2020年8期

李聰，余加喜，姜文，吳清玉，宋麗珠，莫若慧，吳鋒

（南網(wǎng)海南電網(wǎng)電力調(diào)度控制中心，海南海口 570100）

0 引言

隨著分布式電源接入電網(wǎng)比例的不斷提高，其出力的隨機性和間歇性對電力系統(tǒng)的安全穩(wěn)定運行構(gòu)成了威脅。微網(wǎng)（MG）通過先進的通信、計量和協(xié)調(diào)控制技術(shù)，將分布式電源、儲能系統(tǒng)等多種分布式能源聚合，通過協(xié)調(diào)內(nèi)部各機組出力，極大地減小了分布式電源單獨并網(wǎng)對公網(wǎng)造成的沖擊，緩和了風光等可再生能源的波動性，實現(xiàn)了資源的優(yōu)化配置和協(xié)調(diào)管理，提高了市場競爭力[1]～[3]。

MG 參與電力市場交易可帶來諸多益處，其交易行為不可避免地會受到其余MG 以及上級電網(wǎng)的影響，博弈論是目前有效處理MG 電能交易的方法。文獻[4]考慮了多MG 參與配電市場競標，并基于完全信息博弈求解不同策略下的MG投標電量與投標電價，對MG 參與配電市場以及零售市場的交易機制進行了驗證。文獻[5]構(gòu)建了MG 間博弈交易模型以及MG 內(nèi)部博弈交易模型。然而，對于競爭的電力市場，MG 間往往是競爭關(guān)系而非合作關(guān)系，因此，非合作博弈模型在MG 能量交易中的使用更為合理。文獻[6]提出了基于貢獻機制的電能交易策略，當負荷需求高峰、MG 內(nèi)部供電不足時，貢獻值越高的MG 可優(yōu)先獲得上級電網(wǎng)的電量供應。文獻[7]從非合作博弈理論出發(fā)，設計了MG 剩余電量參與電力市場的價格競爭機制，并從各MG 電能不足的概率角度，證明了所建立的非合作博弈模型存在唯一納什均衡點。

上述文獻在對博弈模型的求解上多采用的是常規(guī)的迭代求解，對不確定性因素的處理多采用的是場景法或隨機規(guī)劃法，且決策往往是在日前進行，難以做到實時分析與在線決策。強化深度學習法能夠依托MG 的大量經(jīng)典數(shù)據(jù)，根據(jù)實際的調(diào)度要求與優(yōu)化目標，給出對應的控制方案以及優(yōu)化策略，實現(xiàn)對大數(shù)據(jù)的處理，達到實時在線決策的目的。文獻[8]，[9]基于強化深度學習法對MG 內(nèi)部復合儲能調(diào)度進行優(yōu)化，實現(xiàn)了變量的實時在線決策控制，并且在不同時刻、天氣、季節(jié)等場景下均能有效處理。文獻[10]，[11]構(gòu)建了一個基于強化深度學習算法優(yōu)化的MG 平準化電能成本的長短期電能管理方案，從規(guī)劃和運行的角度將深度學習算法融入到MG 的實時運行與調(diào)度中。

本文首先建立了多MG 電能交易博弈模型，并將MG 的電能博弈定性描述為馬爾科夫過程。然后建立了基于強化深度學習的MG 電能交易模型，通過Hotbooting 技術(shù)獲得相似場景下的Q 學習算法的Q 值表和V 值表，大大減少了Q 學習算法的學習步長，提高了算法的收斂性，且具有良好的學習效果。

1 MG 間電能交易博弈機制設定

本文考慮的MG 由風光等新能源機組、電儲能系統(tǒng)、負載端需求響應組成，各部分模型建模如下。

1.1 光伏發(fā)電模型

根據(jù)太陽輻射強度，光伏陣列輸出功率為

式中：ηct為光伏陣列能量轉(zhuǎn)換效率；SCA為光伏陣列面積；Gt為某地t 時間段的實際太陽輻射強度。

1.2 風機發(fā)電模型

DG 的出力與環(huán)境風速有著直接關(guān)系，一般采用二參數(shù)的威布爾分布描述風速分布模型，風電輸出功率表達式為

式中：vt，Pwt，t分別為t 時刻環(huán)境風速、風電輸出功率；Pwtr為風電額定輸出功率；vin，vr，vout分別為切入風速、額定風速、切出風速。

根據(jù)式（1）和（2），k 時刻的估計誤差為

1.3 多微網(wǎng)電能交易博弈模型

考慮到風光電出力的不確定性，MG 須根據(jù)實際的風電出力向上級電網(wǎng)進行購電以滿足轄區(qū)內(nèi)負荷需求。為減少MG 與上級電網(wǎng)間的電量交易，本文設計了MG 間的電量交易機制，如圖1 所示。當MGi 電量不足時，首先與MG 進行信息交流，假設此時MGj 為電量盈余微網(wǎng)，則MGj 可以與MGi 進行電能交易。此外，同一個時刻，往往會有多個MG 處于電量緊缺狀態(tài)，同時也會有多個MG 處于電量盈余狀態(tài)，于是MG 間的電量交易構(gòu)成博弈模型，在不考慮MG 間聯(lián)盟的前提下，可認為這是一個非合作博弈模型，每個MG 以自身利益最大化參與電能交易。

圖1 多MG 電能交易場景示意圖Fig.1 Schematic diagram of multi microgrid electric energy trading scenario

為充分消納風電等新能源出力，減輕MG 對于上級電網(wǎng)的依賴，應盡可能地減少MG 與上級電網(wǎng)的交易電量，從而減少煤炭等的使用以及污染氣體的排放。故應當讓系統(tǒng)優(yōu)先考慮MG 間的電能交易，MG 間的具體交易模型圖如圖2 所示。

圖2 多MG 電能交易模型圖Fig.2 Multi microgrid power trading model

在MG 間交易優(yōu)先的情況下，交易規(guī)則及步驟如下：

②MG 間優(yōu)先進行交易，當交易電量無法滿足時，再考慮從變電站進行購售電。

基于以上原則，雙方的交易規(guī)則可表示為

上述公式表明，MGi 與MGj 之間只存在一次交易，電能交易過程是電量守恒的，滿足對稱性。由此可推導MGi 與變電站之間的實際電量交易yii為

由上述公式可知，電量的變化必然導致MG的增益發(fā)生改變。為刻畫電量的增加對MG 收益帶來的影響，設置增益函數(shù)并對其具體表達式進行研究。 MG 的增益主要取決于儲能設備儲電量的增加，故首先增益函數(shù)G（b）為單調(diào)增函數(shù)，其次，考慮到其余MG 的缺電量不可能無限增大，故當儲電量達到一定值后，多余的電量只能以較低的價格出售給變電站。因此隨著電量的變化，G（b）的增長速度應逐漸減小。此處以對數(shù)函數(shù)刻畫增量函數(shù)[12]：

式中：βi為大于0 的系數(shù)，反映MGi 對內(nèi)部負荷的供電能力。

系統(tǒng)的效益函數(shù)為

進而推導出MGi 的效益函數(shù)為

2 基于Hotbooting Q 學習的MG 電能交易

2.1 基于深度Q 學習算法的MG 電能交易

MG 與上級電網(wǎng)或者其余MG 進行電量交易，將會影響下一時刻電量的存儲值以及其余MG 交易決策，因此，MG 的電能交易博弈可以馬爾克夫過程描述。在動態(tài)博弈中，當其余MG 的電量水平以及MG 自身的負荷需求未知時，MG 可使用深度Q 學習算法獲得滿足自身利益的電量交易策略。

MGi 的瞬時效益函數(shù)為

MGi 根據(jù)自身的交易策略，不斷地對Q 函數(shù)進行實時更新，具體計算式如下：

至此，本文建立了基于深度Q 學習算法的MG 電能交易博弈模型。

2.2 Hotbooting 技術(shù)在深度Q 學習算法中的應用

深度Q 學習算法在初始化Q 值表時往往將其中所有元素簡單的化為0，每次在重復學習前將從0 開始進行大量的探索與訓練，極大地縮減了學習效率。如果能夠?qū)otbooting 技術(shù)與深度Q 學習算法相結(jié)合，則能大大縮短前期的訓練時間，提高算法的收斂性。

根據(jù)以往電能交易的相似場景，在相似的環(huán)境下通過大規(guī)模的仿真實驗獲取訓練數(shù)據(jù)，在此訓練數(shù)據(jù)的基礎(chǔ)上通過Hotbooting 技術(shù)對Q 值表和V 值表進行初始化處理，用處理后的Q 值表和V 值表替代原來初始化的Q 值表和V 值表。

具體的模型求解步驟如下：

③通過數(shù)據(jù)篩選，得出合法的交易值；

⑤將交易策略及時匯報，并更新電量值，獲取下一時段狀態(tài)；

⑥使用Hotbooting 技術(shù)模擬交易，獲得模擬Q 值表、V 值表；

⑦深度Q 學習算法交易控制中心調(diào)整交易策略，獲得最佳預期效益。

系統(tǒng)的求解流程圖如圖3 所示。

圖3 基于Hotbooting Q 交易算法的求解流程圖Fig.3 Solution flow chart based on Hotbooting Q transaction algorithm

3 算例分析

本文建立了基于Hotbooting Q 學習的MG 電能交易算法，并通過MATLAB 編程完成了對上述模型的仿真計算。場景設定為智能電網(wǎng)下存在一個由變電站（PP）以及3 個MG 組成的博弈框架，研究四者之間的電能交易策略，設定MG 用戶為利益主導型，即每次迭代MG 均以自身利益最大化作為優(yōu)化目標。

3.1 實驗數(shù)據(jù)及案例描述

智能體采用貪婪算法以保證學習過程不陷入局部最優(yōu)解，即有1-ε 的概率選擇式（22）的策略，貪婪系數(shù)ε 取為0.8[10]，產(chǎn)生隨機動作的概率為1-ε=0.2，同時更新并繼續(xù)計算新的Q值，直至實驗結(jié)束。在強化學習中，α 取0.7，γ取0.8，設置學習步長為5 000 步，學習次數(shù)為500 次。

3.2 算法效率及有效性測試

為了對不同的結(jié)果進行對比，本文設置了3種仿真案例，分別作如下描述：

Case1：采用Hotbooting Q 交易算法對多MG電能交易博弈模型進行求解；

Case2：采用深度Q 學習算法對多MG 電能交易博弈模型進行求解；

Case3：采用Greedy 策略對多MG 電能交易博弈模型進行求解。

圖4 為3 種案例下的MG 電能交易后的平均效益變化情況。從圖中可以看到：采用Hotbooting Q 交易算法和深度Q 學習算法時有一個明顯的學習過程；而從收斂速度上看，相比深度Q 學習算法，采用Hotbooting Q交易算法要快很多，在學習步長進行到500 步左右即可完成收斂，而深度Q學習算法要在3 500 步左右完成收斂。這主要得益于Hotbooting 技術(shù)在交易開始前便對相似場景下的數(shù)據(jù)進行了大量的模擬，因此后續(xù)的學習探索階段的時間大大減少，可以較快掌握外界環(huán)境的交易規(guī)則以及交易規(guī)律。另外，如果交易過程單純使用Greedy 算法，并不能從交易數(shù)據(jù)中獲得經(jīng)驗，沒有學習過程，且交易的效益也較差?？梢姡捎肏otbooting Q 交易算法對于提高整個算法的收斂性是有效的。

圖4 不同算法的MG 電量效益Fig.4 Power efficiency of microgrid with different algorithms

從MG 收益的角度分析，采用Greedy 算法交易策略的收益很不理想，其收益值為5.8 左右；采用深度Q 學習算法的收益值為10.5 左右，與Greedy 算法相比，收益值提高了44.76%；采用Hotbooting Q 交易算法的收益值最終穩(wěn)定在13左右，相較于深度Q 學習算法和Greedy 算法分別提高了15%和55.6%，且收斂速度明顯優(yōu)于深度Q 學習算法。因此，本文提出的Hotbooting Q 交易算法是行之有效的。

本文所提出的多MG 電能交易博弈模型的主要目的是為了減少MG 從上級電網(wǎng)的購電量，增加MG 間的交易電量，提高MG 獨立運行的安全性與穩(wěn)定性。圖5 展示了在學習步長為5 000 步下的MG 從上級電網(wǎng)的購電量曲線。與上述分析一致，在收斂速度上，Hotbooting Q 交易算法依然領(lǐng)先于深度Q 學習算法。從削減MG 向上級電網(wǎng)購電量的角度來看，采用Hotbooting Q 交易算法時，在步長為3 500 步（此時3 種算法均已收斂）時，MG 向上級電網(wǎng)的購電量為0.08，而深度Q 學習算法的結(jié)果為0.15 左右，Greedy 算法維持在0.42 左右。可見，Hotbooting Q 交易算法不論在收斂速度上還是在最終的計算結(jié)果上，均能取得很好的效果，與深度Q 學習算法和Greedy 算法相比，MG 從上級電網(wǎng)的購電量分別較少了75%和60%，達到了預期的效果。

圖5 MG 從上級電網(wǎng)購買電量曲線Fig.5 Micro grid purchases electricity curve from superior grid

本文將一天24 h 設置為0：00-6：00，7：00-12：00，13：00-18：00 和19：00-24：00 4 個時段，每個時段進行一次交易，考慮到用戶用電負荷的峰谷情況，預設在1～6 h 所有MG 的電量儲存值為0。同時設置4 個參考算例，具體算例描述如下：

Case1：MG 間不進行交易；

Case2：采用Greedy 算法對多MG 電能交易博弈模型進行求解；

Case3：采用深度Q 學習算法對多MG 電能交易博弈模型進行求解；

Case4：采用Hotbooting Q 交易算法對多MG電能交易博弈模型進行求解。

圖6 顯示了在4 個交易時段下，當3 種算法均收斂時，MG 從上級電網(wǎng)購電量的變化情況。

圖6 不同算法下MG 從上級電網(wǎng)購電量對比Fig.6 Comparison chart of power purchase from microgrid to superior grid under different algorithms

從圖6 中可以看到：當MG 間無法進行電量交易時，MG 只能從上級電網(wǎng)進行購電，且購電量在中間兩個負荷高峰時段較高；當MG 間可進行電量交易時，相對于Case1，3 種算法的購電量均有不同程度的下降。 Greedy 算法由于訓練效果較差，雖然購電量有所下降，但是效果并不理想；深度Q 學習算法以及Hotbooting Q 交易算法效果較為理想?？梢娫诿總€時刻，后兩種算法均可以大幅度削減MG 向上級電網(wǎng)的購電量，減少MG 對上級電網(wǎng)的依賴性。

不同時段下的MG 平均收益值如圖7 所示。從圖中可以看到：在各個時刻，3 種算法在收益上的規(guī)律與上述分析也保持一致，Hotbooting Q 交易算法在各個時刻的計算結(jié)果均為最優(yōu)；在7：00-12：00 和19：00-24：00，MG 的收益顯然低于1：00-6：00 和13：00-18：00，這主要是因為這兩個時段負載需求上升，MG 需要從上級電網(wǎng)購電，從而增大了購電成本，導致收益有所下降。

圖7 3 種算法下的各時刻收益變化值Fig.7 Change graph of income at each time under three algorithms

由式（18）可知，增益系數(shù)的取值將會對MG的電能交易產(chǎn)生影響，而效益函數(shù)主要包括兩部分：MG 內(nèi)存儲電量的變化帶來的收益變化和MG交易方式的變化帶來的收益變化。通過調(diào)節(jié)參數(shù)可設置兩種收益的權(quán)重比。

設置β 值為[6，10]，從圖8 可以看到，隨著β值的增大，3 種算法下的MG 平均收益均有所增加，且深度Q 學習算法以及Greedy 算法下的MG收益值隨著β 的變化呈現(xiàn)出近似線性關(guān)系。在整個增益系數(shù)變化范圍內(nèi)，基于Hotbooting Q 交易算法的MG 收益值由9 增加到13.5，增幅為50%。此外，在不同的增益函數(shù)下，Hotbooting Q 交易算法的性能依然比深度Q 學習算法和Greedy算法優(yōu)秀。

圖8 MG 效益隨β 值變化情況Fig.8 Schematic diagram of MG benefit changing with β value

4 結(jié)論

①多MG 間的電能交易可有效提高MG 用戶收益，減輕MG 對上級電網(wǎng)的依賴性，減少與上級電網(wǎng)的交易電量。

②Hotbooting Q 交易算法可加快算法的收斂速度，減少算法前期的學習以及探索時間，提高求解效率。

③與深度Q 學習算法以及Greedy 算法相比，Hotbooting Q 交易算法可顯著提高MG 的收益，減少MG 從上級電網(wǎng)的購電量，所求得的結(jié)果在3 種算法中最優(yōu)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡