黎海濤,劉伊然,楊艷紅,肖 浩,謝冬雪,裴 瑋
(1.北京工業(yè)大學信息學部,北京市 100124;2.中國科學院電工研究所,北京市 100190)
作為接納可再生能源高滲透率的理想平臺,微網(microgrid,MG)將在推進碳中和、實現(xiàn)可持續(xù)發(fā)展中發(fā)揮重要作用[1-2]。為降低發(fā)電風險,多個相鄰的MG 相互連接以形成MG 群,能夠提升發(fā)電容量且降低供電風險。MG 群的結構復雜,對其進行能量管理面臨較大挑戰(zhàn),研究有效的能量管理策略至關重要。但傳統(tǒng)基于模型的能量管理策略僅適用于解決預定的調度問題,難以處理負荷需求意外變化的情況[3-5]。為解決此問題,有研究提出了基于深度強化學習(deep reinforcement learning,DRL)的方法。例如,文獻[6]基于?-greedy、soft-max 和置信區(qū)間上界等算法,提出基于多智能體DRL 的MG 能量管理方法,有效提升了MG 能量的自給自足性。文獻[7]提出了一種基于多智能體深度確定性策略梯度的能量交易算法,降低了MG 管理的能耗成本。文獻[8]以提高MG 系統(tǒng)收益為目標,利用深度Q 網絡(deep Q-network,DQN)算法研究了分布式MG的災后恢復管理問題,驗證了多智能體DRL 在不同運行環(huán)境中均有很強的適應性。文獻[9]提出基于強化學習(deep learning,DL)的MG 分布式二次最優(yōu)控制方法,提高了每個MG 的自主性和適應性。針對區(qū)域MG 的分布式能源管理和策略優(yōu)化,文獻[10]提出一種集中訓練、分布式執(zhí)行的多智能體DQN 算法,保證了MG 群中每個參與者的利益且提高了MG 運行性能。
上述基于多智能體DRL 的MG 能量管理研究中,為了訓練具有高泛化性的智能體模型,通常需要每個MG 提供大量的本地數(shù)據(jù)進行模型訓練,然而每個MG 通常屬于不同的實體,涉及數(shù)據(jù)安全問題。將具有數(shù)據(jù)隱私保護特性的聯(lián)邦學習(federated learning,F(xiàn)L)應用于MG 能量管理,是解決該問題的一種可行技術途徑。文獻[11]提出基于Actor-Critic 的聯(lián)邦DRL 的MG 能量管理算法,有效保護了數(shù)據(jù)隱私。文獻[12]提出基于聯(lián)邦DQN 算法的居民社區(qū)綜合能源系統(tǒng)協(xié)同訓練方法,能夠優(yōu)化務能源系統(tǒng)的經濟效益及模型訓練效率。文獻[13]提出基于區(qū)塊鏈的FL 算法,能有效預測MG 中能量生產和負荷需求,有效降低MG 的運行成本。目前基于聯(lián)邦DRL 的MG 能量管理研究主要聚焦于電能方面,未考慮復雜的多類型能量轉換以及不同MG之間的電量交易問題。同時,F(xiàn)L 框架中本地MG 和中心服務器之間需要頻繁交互模型參數(shù)而耗費大量通信時間。
基于此,本文針對包含風、光、電、氣、熱的綜合MG 系統(tǒng),構建其能量管理的時序馬爾可夫決策過程(Markov decision process,MDP)模型,提出基于正余弦算法(sine cosine algorithm,SCA)的改進聯(lián)邦競爭深度Q 網絡(Dueling DQN)算法,并利用該算法設計了計及MG 內部多能轉換與外部能量交易的能量管理策略。在保證策略安全及數(shù)據(jù)隱私的前提下,能有效提升MG 運行的經濟效益,并降低通信時延。
考慮由多MG 組成的MG 群系統(tǒng),見圖1。
圖1 多MG 系統(tǒng)結構Fig.1 Architecture of multi-MG system
務MG 既可與主電網進行電量交易,從外部網絡購買天然氣,也可與其他MG 進行電量交易,即每個MG 可以在其發(fā)電量超過需求時主動出售電量,或在發(fā)電量不足時從其他MG 購電。整個MG 系統(tǒng)以經濟收益為目標,能量管理平臺根據(jù)每個MG 中分布式發(fā)電設備的發(fā)電功率、電力負荷的用電功率和熱負荷的熱需求量,進行能量管理優(yōu)化,進而獲得較好經濟收益[14-16]。
多MG 系統(tǒng)中,每個MG 由分布式發(fā)電設備、儲能設備、電力負荷設備、能量轉換裝置以及熱負荷設備組成。
1.1.1 分布式發(fā)電設備
風能、太陽能等清潔能源的應用,加劇了能源市場的巨變,傳統(tǒng)的化石能源占比逐漸降低。本文構建的MG 系統(tǒng)模型包括風能發(fā)電機和光伏發(fā)電站,可以根據(jù)天氣狀況選擇不同的發(fā)電形式。不同于發(fā)電理論模型,本文分別采用來自芬蘭風力發(fā)電廠的實際發(fā)電數(shù)據(jù)和美國得克薩斯州奧斯汀的光伏電站的實際發(fā)電數(shù)據(jù)作為分布式發(fā)電設備的輸出。
1.1.2 儲能設備
儲能設備的功能主要是存儲發(fā)電設備所產生的能量,其在MG 能量管理過程中與主電網、分布式發(fā)電設備、電力負荷設備以及熱負荷設備進行能量交換。本文所建系統(tǒng)主要包括電池儲能設備和氫氣儲能設備。電池儲能設備的充/放電行為由MG 直接控制,并在充/放電行為的驅動下,與分布式發(fā)電設備、電力負荷設備進行能量交換。電池儲能設備在時刻t的動態(tài)存儲容量Be,t模型如下[17]。
式中:Be,t-1為電池儲能設備在時刻t-1 的動態(tài)存儲容量;ηe,C、ηe,D分別 為充、放電效率系 數(shù);Pe,max為電池儲能設備最大充放電功率;Be,max為最大電池容量;Pe,t為 時 刻t的 充 電 或 放 電 功 率;I|Pe,t>0為0-1 變量,當 滿 足 條 件Pe,t>0 時,I|Pe,t>0=1,否 則I|Pe,t>0=0,即I|Pe,t>0=1 時 電 池 儲 能 設 備 為 充 電 狀 態(tài);I|Pe,t≤0為0-1 變 量,當 滿 足 條 件Pe,t≤0 時,I|Pe,t≤0=1,否 則I|Pe,t≤0=0,即I|Pe,t≤0=1 時 電 池 儲 能 設 備 為 放 電狀態(tài)。
式 中:Ee,soc,t為 電 池 儲 能 設 備 在 時 刻t的 荷 電 狀 態(tài)(state of charge,SOC)。
氫氣儲能設備,即儲氫罐,主要用于存儲氫氣。氫氣作為一種清潔能源,具有發(fā)電和加熱的多功能性,在MG 中應用潛力巨大。氫氣儲能設備的充/放氫行為由MG 直接控制,并與分布式發(fā)電設備、電力負荷設備以及熱負荷設備進行能量交換。氫氣儲能設備在時刻t的動態(tài)存儲容量Bh2,t的數(shù)學模型為[18]:
式 中:Bh2,t-1為 氫 氣 儲 能 設 備 在 時 刻t-1 的 存 儲 容量;ηh2,C、ηh2,D分別為充、放氫效率系數(shù);Qh2,t為時刻t的 充 氫 或 放 氫 速 率;當Qh2,t>0 時,0-1 變 量I|Qh2,t>0=1,表 示 氫 氣 儲 能 設 備 處 于 充 氫 狀 態(tài);當Qh2,t≤0 時,0-1 變 量I|Qh2,t≤0=1,表 示 氫 氣 儲 能 設 備處于放氫狀態(tài);Qh2,max為氫氣儲能設備最大充放氫速率;Bh2,max為氫氣儲能設備最大容量。
式中:Eh2,SOC,t為氫氣儲能設備在時刻t的剩余氣量。
1.1.3 電力負荷設備
隨著科技的發(fā)展,不斷涌現(xiàn)務種新型電力負荷,如直接可控負荷、恒溫控制負荷、價格響應負荷和電動汽車負荷等[19-23]。本文主要對恒溫控制負荷和價格響應負荷進行建模。
1)恒溫控制負荷
包括空調、熱水器、冰箱等需要恒溫控制的負荷,通過開關切換來實現(xiàn)其工作狀態(tài)變化,第v個恒溫控制負荷在時刻t的動作ucontrol,v,t定義如下[16],本文共設置2 個擋位。
式 中:Tv,t為 時 刻t環(huán) 境 溫 度;Tv,max為 設 定 的 最 高 溫度;Tv,min為設定的最低溫度;ucontrol,v為恒溫控制負荷的動作;v=1,2,…,NTCLs,其中,NTCLs為恒溫控制負荷的數(shù)量。
第v個恒溫控制負荷在時刻t的電力負荷PTCL,v,t如式(10)所示。
式中:PTCL為恒溫控制負荷的標稱功率。
2)價格響應負荷
價格響應負荷是指MG 中不能被直接控制且受電力價格影響的負荷。第u個價格響應負荷在時刻t的 電力負荷Pload,u,t為:
式 中:Pb,t為 時 刻t基 本 負 荷 的 功 率;Ou,t為 時 刻t的轉移負荷;ζu為根據(jù)價格的增減而改變的負載率;ρb,t為時刻t的價格水平;Fu,t為[0,t-1]時間內所有轉移負荷的和;u=1,2,…,Nloads,其中,Nloads為價格響應負荷的數(shù)量;τu,t′為判斷是否從時刻t′轉移負荷的0-1 變量,轉移負荷時為1,否則為0。
1.1.4 能量轉換設備
本文主要對恒溫控制負荷和價格響應負荷進行建模。MG 系統(tǒng)設置能量轉換裝置來實現(xiàn)不同能量之間的轉換。設定MG 配置電解槽、燃料電池和燃氣鍋爐3 類能量轉換裝置實現(xiàn)能量轉換,其中,電解槽可使電能轉換為氫能,燃料電池能將氫能轉化為電能和熱能,燃氣鍋爐可使氫能或天然氣轉換為熱能,天然氣是滿足必要熱量需求的備用燃料。定義能量轉換函數(shù)表示能量轉換裝置中能量從流入到流出的轉換映射規(guī)則[24],利用該函數(shù)對3 類能量轉換裝置分別進行建模。式(12)—式(14)表示燃料電池和電解槽的能量轉換功能,式(15)和式(16)表示燃氣鍋爐的轉換過程,其中,MG 內的能量流如附錄A 圖A1 所 示。
式中:Qh2,F(xiàn)C,t、Pe,F(xiàn)C,t、Qh,F(xiàn)C,t分 別為燃料電池在時 刻t的氫氣流入量、電流出量、熱流出量;ηe,F(xiàn)C、ηh,F(xiàn)C分別為 燃 料 電 池 的 電 轉 換 系 數(shù)、熱 轉 換 系 數(shù);Pe,WE,t、Qh2,WE,t、ηWE分別為電解槽在時刻t的電流入量、氫氣流 出 量、轉 換 系 數(shù);Qh2,GB,t、Qng,GB,t、Qh,GB,t分 別 為 燃氣鍋爐在時刻t的氫氣流入量、天然氣流入量、熱流出量;ηh2,GB、ηng,GB分別為燃氣鍋爐的氫氣轉換系數(shù)、天然氣轉換系數(shù)。
1.1.5 能量平衡約束
為 使MG 的 能 量 網 絡 正 常 工 作,在Δt∈[t,t+1]時段必須保障能量產生和消耗之間的平衡,設定MG 的電能、熱能、氫能的平衡約束分別如下所示。
式 中:ze,t為 時 刻tMG 電 量 交 易 量;PW,t為 時 刻t風力發(fā)電設備的發(fā)電功率;PPV,t為時刻t光伏發(fā)電設備 的 發(fā) 電 功 率;Ptotal,e,t為 時 刻t電 力 負 荷 總 功 率;Ptotal,h,t為 時 刻t熱 負 荷 功 率。Ptotal,h,tΔt表 達 的 物 理意義為熱負荷在Δt時段內的總需求量。
對于單MG 系統(tǒng),因為其運行環(huán)境及其狀態(tài)滿足馬爾可夫屬性,所以MG 能量管理和優(yōu)化可以視為 一 個MDP[19,24],并 可 用 狀 態(tài)、動 作、狀 態(tài) 轉 移 概率、獎勵構成的四元組{s,a,p,r}來描述。下面具體描述MDP 模型的主要元組。
1)狀態(tài)空間
MG 在時刻t的狀態(tài)定義為:
式中:PTCL,t為時刻t NTCLs個恒溫控制負荷功率的集合;ρdown,t為時刻t向電網銷售電量的電價;ρup,t為時刻t從電網購買電量的電價。
2)動作空間
MG 動作設置為恒溫控制負荷對應的4 個優(yōu)先級動作,價格響應負荷對應的5 個價格水平動作;電量過剩時向主電網售電、電池儲能設備存儲電量、使用電解槽并向氫氣儲能設備充氫共3 個動作;電量短缺時向主電網購電、電池儲能設備供電、氫氣儲能設備放氫并使用燃料電池共3 個動作;熱量短缺時確定購買天然氣、氫氣儲能設備放氫并使用燃氣鍋爐 共2 個 動 作。記MG 動 作 集at={at(0),at(1),at(2),at(3),at(4)}。具體地,務個動作的物理含義見附錄B。
3)獎勵
為獲得最優(yōu)經濟收益,設定MG 能量管理的目標是最大化獎勵Rt,其定義為MG 執(zhí)行相關動作所獲收益與所需成本之差。
式 中:Rrev為MG 執(zhí) 行 動 作 所 獲 收 益;Rcost為MG 執(zhí)行動作所需成本;ρload為價格響應負荷的電價;ρmarket為市場電價;σ為調整ρb,t的參數(shù);ρTCL為恒溫控制負荷的電價;ze,S,t為時刻t向主電網的售電量;ρcost,W為風力發(fā)電設備發(fā)電的成本價格;ρcost,PV為光伏發(fā)電設備發(fā)電的成本價格;ρsold,t為時刻t向主電網售電的 調 控 價 格,則ρsold,t ze,S,t為 時 刻t售 電 的 傳 輸 成 本;ρpurchased,t為 時 刻t從 主 電 網 買 電 的 調 控 價 格;ze,P,t為時刻t從電網購電的電量;ρgas,t為時刻t的天然氣價格;Ngas,t為時刻t從外部網絡購買的天然氣量;Ccarbon,t為時刻t的環(huán)境成本,是天然氣燃燒產生的CO2排放量和從主電網購電所造成的經濟損失。
Ccarbon,t=ρCO2(ΨgasNgas,t+Ψeze,P,t) (24)
式中:Ψgas、Ψe分別為與天然氣燃燒、購買的凈電力相關的CO2排放率;ρCO2為碳稅價格,其將碳排放量轉化為經濟懲罰。
考慮由N個MG 互相連接組成的多MG 系統(tǒng),由于每個MG 難以準確預測本地負荷的用電需求,可能造成MG 可再生發(fā)電量的過剩或短缺,故MG間允許電量交易以降低供電風險。一般情況下,與相距較遠的主電網相比,相互連接的MG 之間物理距離較近,MG 間電量交易的傳輸成本更低,故設定MG 之間優(yōu)先進行電量交易,并設計基于可再生能源滲透率的MG 間電量交易機制。定義第i個MG的可再生能源滲透率為pREP,i。
式中:Pi,W,t、Pi,PV,t、Pe,i,t分別為時刻t第i個MG 的風力發(fā)電功率、光伏發(fā)電功率、總負荷功率。
電量交易過程中,若有多個MG 電量富余,則可再生能源滲透率高的MG 提供能量;若多個MG 能量短缺,則可再生能源滲透率低的MG 獲得能量。
設定多MG 交易電價與主電網電價的關系為:
式 中:ρP,t、ρP,t分 別 為 在 時刻tMG 間 電 量 的 賣價、買價。
在電力市場中,傳輸損耗導致交易成本的高低會影響買價和賣價之間的差額[25],導致MG 從主電網購買的價格通常高于MG 出售給主電網的價格。由于本地多MG 交易市場中的交易成本可以忽略不計[26],銷售價格被設置為與購買價格相同。本文設置多MG 交易電價在主電網交易電價之間,以鼓勵多MG 電量交易[27]。假設所有MG 商定交易價格為ρP2P,t,其計算公式如下:
式中:?P2P為價格系數(shù)。
多MG 系統(tǒng)中每個MG 與主電網連接以允許電量交易,且MG 之間相互連接可進行電量交易,故基于單MG 的MDP 模型構建多MG 能量管理模型。將每個MG 視作一個智能體,智能體觀察MG 狀態(tài)st并選擇動作at。若動作at執(zhí)行電量交易,則MG 將交易信息發(fā)送至能量管理平臺。能量管理平臺收集信息并利用交易規(guī)則設計MG 間電量交易策略,然后將交易決策下發(fā)至每個MG 以控制務設備的運行,保證多MG 運行的經濟收益最大。具體地,定義多MG 能量管理MDP 模型的務元組如下。
1)狀態(tài)空間
在t時刻的每個MG 狀態(tài)為st,與單MG 的MDP模型相比,式(28)中增加了MG 間電量交易價格ρP2P,t。
2)動作空間
由于設計的交易機制允許MG 之間優(yōu)先進行電量交易,故與單MG 相比,動作的改變主要在電量交易方面,即電量過剩時向主電網售電改為優(yōu)先向其他MG 售電,電量短缺時從主電網購電改為優(yōu)先從其他MG 購電。
3)獎勵
多MG 能 量 管 理 的 獎 勵Rtotal,t為 所 有MG 的 獎勵值之和。
式 中:Ri,t為 第i個MG 在 時 刻t獲 得 的 獎 勵,定 義 為第i個MG 獲得的經濟收益。
式中:Ri,cost為第i個MG 執(zhí)行相關動作所需成本,與式(23)相同;Ri,rev為第i個MG 執(zhí)行相關動作所獲收益。
式 中:Ri,P2P,t為 第i個MG 在 時 刻t與 其 他MG 進 行電 量 交 易 獲 得 的 收 益;Pi,load,u,t為 第i個MG 中 第u個價格響應負荷在時刻t的 電 力 負 荷;Pi,TCL,v,t為第i個MG 中第v個恒溫控制負荷在時刻t的電力負荷。
式 中:zij,e,t為 第i個MG 和 第j個MG 之 間 在 時 刻t的電 量 交 易 量。當zij,e≤0時,0-1 變 量I|zij,e,t≤0=1、I|zij,e,t>0=0;當zij,e>0時,I|zij,e,t>0=1、I|zij,e,t≤0=0。
針對構建的多MG 能量管理MDP 模型,可采用DRL 算法來設計能量管理策略。為保護數(shù)據(jù)隱私,通常每個MG 獨立進行本地訓練。但單MG 的數(shù)據(jù)多樣性有限,訓練過程中智能體易陷入局部最優(yōu)。為提高MG 智能體的泛化性并保障數(shù)據(jù)安全,本文把FL 引入多MG 來設計Dueling DQN 能量管理策略,同時利用SCA 降低FL 的通信時延。
Dueling DQN 是針對傳統(tǒng)DQN 執(zhí)行動作所得Q值存在高估,可能陷入局部最優(yōu)而影響算法的穩(wěn)定性的局限而提出的算法,其通過優(yōu)化神經網絡(neural network,NN)結構,即將NN 的輸出Q值分為獨立的狀態(tài)值和動作值來提高算法魯棒性[28-29]。Dueling DQN 的輸出包括兩部分:其一為僅與狀態(tài)有關而與選取動作無關的價值函數(shù),記為V(s;θ,β);其二為與狀態(tài)和動作均有關的優(yōu)勢函數(shù),記 為A(s,a;θ,α)。最 終 得 到 的Q網 絡 輸 出如下。
式中:s為狀態(tài)值;θ為公共部分的網絡參數(shù);β為價值函數(shù)的網絡參數(shù);α為優(yōu)勢函數(shù)的網絡參數(shù)。
若直接用式(33)更新Q值,存在不可辨識性問題。為提高函數(shù)可辨識度與算法穩(wěn)定性,Dueling DQN 對優(yōu)勢函數(shù)進行了去中心化處理。
式中:a′為下一時刻的動作;1/|A|為優(yōu)勢函數(shù)的平均值。
Dueling DQN 訓練過程中,從經驗池中隨機抽取訓練樣本(sm,am,rm,)來計算目標Q值,其中,經驗池的形成過程見附錄C,目標Q值ym的計算式為:
Dueling DQN 中,定義損失函數(shù)L為目標Q值與預測Q值的均方差。
通過迭代更新神經網絡參數(shù)來最小化損失函數(shù)而得到最優(yōu)模型。
FL 是一種在保護數(shù)據(jù)安全的前提下解決數(shù)據(jù)孤島問題的分布式機器學習技術,其原理為:多個參與方先利用本地私有數(shù)據(jù)訓練模型,并把務自的模型權重參數(shù)上傳至服務器端進行聚合后,下發(fā)更新的全局模型至務參與方[30]?;诖耍疚慕Y合FL與Dueling DQN 算法提出聯(lián)邦Dueling DQN,見附錄D 表D1,其工作流程如附錄D 圖D1 所示。
步驟1:創(chuàng)建初始模型并發(fā)送至每個客戶端;
步驟2:務個客戶端利用私有數(shù)據(jù)和Dueling DQN 算法訓練本地模型;
步驟3:客戶端將模型權重參數(shù)ωi上傳至中心服務器;
步驟4:中心服務器聚合所有客戶端的模型得到全局模型ωG;
步驟5:把更新的全局模型反饋給客戶端。
重復步驟2 至5,直到達到FL 的最大迭代次數(shù)。聯(lián)邦Dueling DQN 的模型聚合可采用聯(lián)邦平均算法(federated averaging algorithm,F(xiàn)edAvg),其對務個客戶端的梯度更新進行平均而形成全局模型且實現(xiàn)簡單。
聯(lián)邦Dueling DQN 算法中,為訓練出性能較優(yōu)的全局模型,本地MG 與中心服務器之間需要頻繁交互模型參數(shù),耗費大量時間與通信資源。為解決此問題,本文將SCA[31]應用于聯(lián)邦Dueling DQN 學習算法中,設計基于SCA 的聯(lián)邦Dueling DQN 能量管理策略,利用評分代替FedAvg 中客戶端的模型權重,減少數(shù)據(jù)交互量而降低了通信時延。
SCA 是一種利用正弦和余弦函數(shù)的數(shù)學特性對優(yōu)化問題求解的算法。作為一種群體智能優(yōu)化算法,其運行時創(chuàng)建多個初始隨機候選解,然后利用下式進行個體更新:
式中:XXiitrd為第d維第iitr次迭代的當前解;XBiitrd為第d維第iitr次迭代的最優(yōu)解;Miitr為SCA 迭代的最大次數(shù),即本地MG 與中心服務器交互次數(shù);k2為[0,2π]之間的隨機數(shù);k3為[0,2]之間的隨機數(shù);k1為控制參數(shù)。
SCA 使隨機候選解基于正弦和余弦的數(shù)學模型向最優(yōu)解的方向波動,利用多個隨機變量和自適應變量來計算當前解所在位置,從而可以搜索空間中的不同區(qū)域,有效避免局部最優(yōu)而收斂于全局最優(yōu)。
根據(jù)SCA 計算模型參數(shù)值如下式所示。
基于SCA 的聯(lián)邦Dueling DQN 設計的多MG能量管理策略如附錄D 表D2 所示,其工作流程如圖2 所示。
基于SCA 的聯(lián)邦Dueling DQN 能量管理策略流程的具體步驟如下:
步驟1:創(chuàng)建初始模型并發(fā)送至每個MG;
步驟2:務個MG 利用私有數(shù)據(jù)和Dueling DQN算法訓練本地模型;
步驟3:MG 計算模型更新完成后的損失函數(shù)值,并將其將作為評分標準發(fā)送至中心服務器;
步驟4:中心服務器比較所有MG 的評分,選取最優(yōu)評分所對應MG 的ID,記為XB,id;
步驟5:中心服務器向ID 號為XB,id的MG 發(fā)送請求;
步驟6:接收到請求的MG 將本地模型上傳至中心服務器;
步驟7:中心服務器更新全局模型XBωiitrd;
步驟8:服務器將更新的全局模型XBωiitrd反饋至MG;
步驟9:每個MG 利用SCA 和全局模型更新本地模型。
重復步驟2 至9,直到達到最大迭代次數(shù),使得算法收斂,最終得到MG 能量管理的最優(yōu)決策。進一步,依據(jù)文獻[32]對FL 算法進行性能分析,附錄E 給出了該算法的收斂性證明。
所提能量管理策略利用SCA 更新本地模型參數(shù),每個MG 無須上傳全部模型參數(shù),只需上傳損失函數(shù)值作為評分標準。同時,具有最優(yōu)評分的MG上傳其模型參數(shù)至能量管理平臺的中心服務器,以更新全局模型,大幅減少從本地MG 傳輸至中心服務器的數(shù)據(jù)量。實際工況運行過程中,所提多MG能量管理策略的實現(xiàn)分為離線和在線2 個階段。在離線階段,基于務MG 存儲的歷史數(shù)據(jù)信息,利用SCA 的聯(lián)邦Dueling DQN 對智能體進行訓練,并保存訓練完成的模型,供在線階段調用。MG 在線運行時,智能體實時觀測MG 的狀態(tài),結合狀態(tài)信息和訓練模型輸出能量管理策略,MG 據(jù)此策略執(zhí)行相應動作,同時,將更新的狀態(tài)與獎勵值存儲至離線數(shù)據(jù)庫,供后續(xù)訓練。在線階段可直接調用離線訓練模型,保證多MG 能量管理的實時調控要求。
不失一般性,本文采用3 個MG 構成如圖1 所示多MG 系統(tǒng),其相關參數(shù)如表1 所示。
表1 MG 系統(tǒng)參數(shù)Table 1 Parameters of MG system
每個MG 采用文獻[33-34]提供的風力發(fā)電數(shù)據(jù)、光伏發(fā)電數(shù)據(jù)和電力負荷數(shù)據(jù)。MG 中能量轉換裝置參數(shù)如表2 所示。
表2 能量轉換裝置參數(shù)Table 2 Parameters of energy conversion devices
設 定 風 力 發(fā) 電 成 本 為32 歐元/(MW · h)、光 伏 發(fā) 電 成 本 為42 歐元/(MW · h)、市 場 電 價為 5.48 歐元 / (MW·h)、 天 然 氣 價 格 為0.13 歐元/(MW·h)、碳 稅 價 格 為0.02 歐元/kg。采用卷積神經網絡以10 d 的數(shù)據(jù)為總樣本進行訓練,一個訓練回合對應1 d,時間間隔1 h。仿真軟件采用Python 3.6.1 和Tensorflow 1.8.0。
基于構建的多MG 仿真環(huán)境,通過智能體訓練過程中總獎勵值來比較不同算法的性能。首先,對比了分別采用Dueling DQN 和聯(lián)邦Dueling DQN 算法的能量管理策略獲得的獎勵值,如附錄F 圖F1 所示。Dueling DQN 算法部署在每個本地MG,由每個MG 進行本地獨立訓練,與聯(lián)邦Dueling DQN 均屬于分布式能量管理方式。為直觀展示,圖F1 中對獎勵值進行了歸一化??梢钥吹?,采用聯(lián)邦Dueling DQN 獲得的獎勵值高于一般Dueling DQN,且算法的收斂性更優(yōu),同時表明Dueling DQN 中引入FL 能夠提升能量管理性能,這主要因其利用了多個MG 的模型參數(shù)構成一個更泛化的全局模型。
圖3 給出了基于SCA 的聯(lián)邦Dueling DQN、聯(lián)邦Dueling DQN 和文獻[12]采用的聯(lián)邦DQN的能量管理策略的獎勵值??梢钥闯?,所提基于SCA 的聯(lián)邦Dueling DQN 可得到更高獎勵值且收斂性更優(yōu),增加了MG 的經濟收益。這主要由于:1)Dueling DQN 是 原DQN 算 法 的 改 進,解 決 了DQN 的過估計問題,其與FL 結合后仍具優(yōu)勢;2)本文引入SCA 進一步改進了聯(lián)邦Dueling DQN,故總體性能優(yōu)于聯(lián)邦Dueling DQN 和聯(lián)邦DQN。
圖3 采用不同能量管理策略下的獎勵值對比Fig.3 Comparison of rewards by different energy management strategies
為了分析SCA 對模型訓練過程中參數(shù)傳輸時延的影響,采用聯(lián)邦Dueling DQN 算法與基于SCA的聯(lián)邦Dueling DQN 進行一次全局模型更新的通信時延對比。仿真中假設信道的信噪比SNR 為30 dB,圖4 給出了不同信道傳輸帶寬時模型參數(shù)的傳輸時延對比??梢钥闯觯倪M的聯(lián)邦Dueling DQN 的通信時延降低了50%以上,這主要是因為SCA 減小了數(shù)據(jù)傳輸量。
圖4 通信時延對比Fig.4 Comparison of communication latency
上述性能對比結果表明,所提基于SCA 的聯(lián)邦Dueling DQN 能量管理策略具有明顯性能優(yōu)勢。利用該策略進行仿真計算可得,MG 僅與主電網交易時,10 d 總收益為-836 歐元,而采用本文所提電量交易機制的MG,10 d 總收益為140 歐元,即優(yōu)先進行MG 間交易可以提高多MG 系統(tǒng)的經濟收益。
同時,MG 僅允許與主電網交易和優(yōu)先進行MG 間交易兩種方式下,連續(xù)10 d 的每日經濟收益對比如附錄F 圖F2 所示??梢钥闯觯郙G 能量管理過程中,采用所提電量交易機制獲得的每日收益更高。
以1 d 為例,分析務MG 采用所提計及能量交易與轉換的管理策略的能量管理結果。
1)對于MG1,經基于SCA 的聯(lián)邦Dueling DQN策略調節(jié)后,MG1 中恒溫控制負荷與價格響應負荷的每小時用電功率見附錄F 圖F3,發(fā)電設備的發(fā)電功率與用電負荷的用電總功率如附錄F 圖F4 所示??梢钥闯?,MG1 在24 h 中發(fā)電功率較少,發(fā)電功率只在09:00—14:00 時滿足用電功率。其與主電網、其他MG 進行電量交易的銷售價格和購買價格如附錄F 圖F5 所示。一般情況下,當發(fā)電功率低于用電功率時,MG1 從其他MG 購電,若仍不滿足則從主電網購電;在發(fā)電功率高于用電功率時,MG1 向其他MG 售電以最大化收益,并在售電后有剩余電量時向主電網售電。但在實際情況中,MG1 與主電網和其他MG 的交易量如附錄F 圖F6 所示,MG1在09:00—14:00 時直接向主電網售電,在17:00、18:00 時刻直接從主電網購電。結合MG2、MG3 發(fā)電功率與用電負荷的用電總功率,MG1、MG2、MG3 在09:00—14:00 時均處于發(fā)電功率滿足用電功率的狀態(tài);MG1、MG2 在07:00、18:00 時刻處于發(fā)電功率低于用電功率的狀態(tài);MG3 在07:00、18:00 時刻發(fā)電功率正好滿足用電功率,這些時刻MG 間發(fā)生交易沖突,所以MG1 直接與主電網進行電量交易。MG1 的每小時熱負荷需求量如附錄F圖F7 所示。由于MG1 以與其他MG 和主電網進行電量交易為主,未將多余電量轉換為氫氣存儲,故其熱負荷需求以購買天然氣并由燃氣鍋爐轉化為熱量為主。
2)對于MG2,經基于SCA 的聯(lián)邦Dueling DQN策略調節(jié)后,MG2 中恒溫控制負荷與價格響應負荷每小時用電功率如附錄F 圖F8 所示,發(fā)電設備的發(fā)電功率與用電負荷的用電總功率如附錄F 圖F9 所示。可以看出,MG2 在1 d 中發(fā)電設備發(fā)電功率較多,在00:00—15:00 時發(fā)電功率滿足用電功率,MG2 與主電網和其他微網的交易量如附錄F 圖F10所示,在00:00—08:00 時向MG1 出售電量,若電量仍有剩余,則向主電網出售電量。由于發(fā)生交易沖突,在09:00—14:00 時MG2 直接向主電網出售電量,在17:00、18:00 時刻MG2 直接從主電網購買電量。在16:00、19:00—23:00 時,MG1 和MG2 均處于發(fā)電功率低于用電功率的狀態(tài),但MG2 的可再生能源滲透率高于MG1,故MG2 直接從主電網購電。MG2 每小時熱負荷需求量如附錄F 圖F11 所示。由于MG2 以與MG1 和主電網進行電量交易為主,而未將多余電量轉換為氫氣存儲,故其熱負荷需求以購買天然氣并由燃氣鍋爐轉化為熱量為主。
3)對于MG3,經基于SCA 的聯(lián)邦Dueling DQN策略調節(jié)后,MG3 中恒溫控制負荷與價格響應負荷每小時用電功率如附錄F 圖F12 所示,發(fā)電設備的發(fā)電功率與用電負荷的用電總功率如附錄F 圖F13所示。可以看出,MG3 在24 h 中發(fā)電功率較多,僅在00:00—08:00 時發(fā)電功率低于用電功率。MG3與主電網和其他MG 的交易量如附錄F 圖F14 所示,由于MG1 的可再生能源滲透率比MG2 低,故MG3 選擇與MG1 進行電量交易,若電量還有剩余,則MG3 將電量出售至主電網。MG3 的每小時熱負荷需求量如附錄F 圖F15 所示。由于MG3 主要與MG1 和主電網進行電量交易,而未將多余電量轉換為氫氣存儲,故其熱負荷需求主要為購買天然氣并由燃氣鍋爐轉化為熱量。
通過仿真結果觀察到,MG 以與其他MG 或主電網進行電量交易為主,每個MG 未選擇使用儲氫罐,從而其熱負荷需求由從外部網絡購買天然氣提供,故CO2排放量增多。進一步分析不同碳稅價格對多MG 收益與CO2排放量的影響,如附錄F 圖F16 所示。當碳稅價格從0 增長到0.01 歐元/kg 時,每個MG 主要與主電網進行電量交易,導致CO2排放量增加;當碳稅價格從0.02 歐元/kg 增長到0.04 歐元/kg 時,CO2排放量逐步減少。隨著碳稅價格的增長,收益呈現(xiàn)出不同程度的上升,這是因為隨著碳稅價格的上漲,多MG 采用了更環(huán)保的能量管理策略,即通過使用氫氣這一清潔能源減少CO2排放量。
本文研究了包含風、光、電、氣等多類型能源且內部可進行電量交易和能量轉換的多MG,提出基于SCA 的聯(lián)邦Dueling DQN 能量管理與優(yōu)化策略,通過算例分析,驗證了該策略的可行性和有效性,并得出以下結論:
1)提出基于SCA 的聯(lián)邦Dueling DQN 能量管理策略,可以在保護務MG 數(shù)據(jù)隱私性的前提下,得到更高獎勵值且收斂性更優(yōu),增加了MG 的經濟收益,并大大減少了本地MG 向中心服務器傳輸?shù)臄?shù)據(jù)量,降低了50%以上的通信時延。
2)考慮了多MG 中MG 之間的電量交易,設計基于可再生能源滲透率的MG 間電量交易機制,降低了多MG 的供電風險與電力傳輸成本,與僅允許與主電網交易相比,該交易機制可提高多MG 系統(tǒng)的經濟收益。
3)進一步考慮MG 內多類能源之間的轉換,并引入氫氣這一清潔能源,揭示了碳稅價格對CO2排放量的影響,鼓勵MG 進行能量轉換以降低CO2排放量,從而達到保護環(huán)境目的。
本文研究中假設模型訓練時務MG 模型參數(shù)為理想同步傳輸,未考慮傳輸時延、通信質量等對訓練精度的影響。而在實際應用中這些因素不可忽略,如何降低其影響獲得準確的訓練模型,是未來需要進一步研究的工作。
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。