国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分層深度強化學(xué)習(xí)的分布式能源系統(tǒng)多能協(xié)同優(yōu)化方法

2024-01-19 02:29:10朱亞軍
電力系統(tǒng)自動化 2024年1期
關(guān)鍵詞:時間尺度靈活性分布式

王 磊,胡 國,吳 海,譚 闊,周 成,朱亞軍

(1.南瑞集團有限公司(國網(wǎng)電力科學(xué)研究院有限公司),江蘇省南京市 211106;2.國電南瑞科技股份有限公司,江蘇省南京市 211106)

0 引言

隨著能源清潔低碳轉(zhuǎn)型深入推進,新能源在電網(wǎng)中的逐步滲透,用戶的能量需求開始多元化,能源利用正朝著多種能源之間的協(xié)調(diào)和互補形式發(fā)展[1-2]。分布式能源系統(tǒng)作為一種直接面向當(dāng)?shù)赜脩舻哪芰抗?yīng)點,其既包含多種能源輸入,又可同時滿足用戶的多種能量需求[3]。因此,研究分布式能源系統(tǒng)的多能協(xié)同優(yōu)化問題,對于促進新能源的消納具有重要意義。

多能協(xié)同運行給分布式能源系統(tǒng)帶來的益處顯而易見,但隨著新能源發(fā)電的逐步滲透和不同類型負荷的逐步增多,分布式能源系統(tǒng)中源荷的不確定性以及異質(zhì)能源網(wǎng)絡(luò)的時空差異性,給多能協(xié)同優(yōu)化帶來巨大挑戰(zhàn)[1-2]。目前,許多學(xué)者已開展相關(guān)研究,文獻[4]分析了多能源系統(tǒng)理論與方法研究框架,綜述了面向新能源消納的多能協(xié)同運行的關(guān)鍵研究點;文獻[5]設(shè)計了一個計及用戶側(cè)需求響應(yīng)和熱慣性的多能園區(qū)優(yōu)化調(diào)度模塊,充分挖掘利用了用戶側(cè)、冷/熱系統(tǒng)、儲能資源的多時間尺度靈活調(diào)節(jié)能力;文獻[6]針對風(fēng)電、光伏出力的不確定性與反調(diào)峰特性,利用抽水蓄能和電化學(xué)儲能的靈活調(diào)節(jié)特性,實現(xiàn)多種能源互補運行。由此可見,分布式能源系統(tǒng)多能協(xié)同優(yōu)化運行需綜合考慮多能源耦合性、源荷多重不確定性、異質(zhì)能流多時間尺度特性和調(diào)控手段差異性等多種因素,在多能互補特性與源荷匹配規(guī)律方面還需進行深入細致的研究,進而實現(xiàn)互補系統(tǒng)性能質(zhì)的提高和高比例可再生能源的提質(zhì)增效;同時,多能協(xié)同運行模型的構(gòu)建大都采用統(tǒng)一化通用建模方案,其在一定程度上降低了模型復(fù)雜度,但無法高效地解決異質(zhì)能源網(wǎng)絡(luò)的時空差異性問題。

多能協(xié)同優(yōu)化問題實質(zhì)上是求解一種序貫決策的問題。由于系統(tǒng)具有非線性、離散性、高維度以及不確定性等特點,導(dǎo)致求解該類問題十分困難。傳統(tǒng)的調(diào)度方法局限于固定物理模型及參數(shù)設(shè)定,對數(shù)學(xué)模型過度依賴,同時,當(dāng)模型具有高維度、不確定性等特征時,采用精確算法(如分支界定法、動態(tài)規(guī)劃算法等)進行求解效果不理想,甚至無法求解[7];而采用啟發(fā)式算法(如粒子群算法、遺傳算法等)雖然對數(shù)學(xué)模型依賴程度低,但是易陷入局部最優(yōu)解[8],難以滿足優(yōu)化需求,同時無法有效處理不確定性問題。目前,許多研究提出了采用強化學(xué)習(xí)方法解決此類問題,強化學(xué)習(xí)可以在復(fù)雜、不確定的環(huán)境中進行交互學(xué)習(xí)從而得到最優(yōu)調(diào)度策略。文獻[9]提出了一種雙層強化學(xué)習(xí)模型以實現(xiàn)多能園區(qū)的實時經(jīng)濟調(diào)度;文獻[10]考慮并網(wǎng)型多能源微網(wǎng)中橫向電氣熱冷各子系統(tǒng)及縱向源網(wǎng)荷儲等各環(huán)節(jié)構(gòu)建了聯(lián)合博弈決策模型,并提出了一種基于納什博弈和強化學(xué)習(xí)的算法進行求解;文獻[11]構(gòu)建了多能源主體參與可再生能源消納經(jīng)濟性分析模型,并提出了一種納什均衡遷移強化學(xué)習(xí)算法進行求解;文獻[12]考慮多儲能、可再生能源、能源轉(zhuǎn)換和能源交易,構(gòu)建了一種工業(yè)多能源調(diào)度框架,采用基于強化學(xué)習(xí)的差分進化算法進行求解。然而,隨著分布式系統(tǒng)規(guī)模增大和可控參數(shù)增多,系統(tǒng)控制維度也會增加,這將導(dǎo)致上述研究所采用的強化學(xué)習(xí)方法中Q 值表的大小會呈指數(shù)級增長,則無法避免維數(shù)災(zāi)難的問題。受神經(jīng)網(wǎng)絡(luò)對高維搜索空間的強大探索能力的啟發(fā),深度強化學(xué)習(xí)以一種通用的形式把深度學(xué)習(xí)的感知力和強化學(xué)習(xí)的決策能力結(jié)合起來,通過高維度的方式感知信息訓(xùn)練模型發(fā)出決策,從而解決了高維空間維數(shù)災(zāi)難的問題[13-14]。目前,部分研究已將其應(yīng)用于解決智能電網(wǎng)研究問題。文獻[15]提出了一種結(jié)合深度強化學(xué)習(xí)與電力系統(tǒng)領(lǐng)域知識的運行優(yōu)化方法,實現(xiàn)電力系統(tǒng)運行拓撲結(jié)構(gòu)優(yōu)化的快速計算;文獻[16]提出一種基于參數(shù)共享機制的多智能體深度強化學(xué)習(xí)算法,用于求解社區(qū)能量管理協(xié)同優(yōu)化問題;文獻[17]提出一種基于改進深度強化學(xué)習(xí)的主動配電網(wǎng)日前最優(yōu)調(diào)度策略,用于解決考慮可再生能源不確定性的主動配電網(wǎng)日前最優(yōu)調(diào)度問題。但是,考慮到分布式能源系統(tǒng)內(nèi)多種能源網(wǎng)絡(luò)以及設(shè)備的時空層面差異性,多能協(xié)同優(yōu)化問題進一步可認為是一種不同時間響應(yīng)特性的復(fù)合空間的序貫決策問題,可采用分層強化學(xué)習(xí)方法進行求解[18]。其根據(jù)分層思想構(gòu)建具有多層結(jié)構(gòu)的深度強化學(xué)習(xí)策略,運用時序抽象表達方法學(xué)習(xí)細粒度時間的下層動作和粗粒度時間的上層動作, 將復(fù)雜問題分解為數(shù)個簡單問題進行求解。但目前針對應(yīng)用分層強化學(xué)習(xí)方法求解此類問題的研究較少,其主要應(yīng)用于視覺導(dǎo)航[19]、自然語言處理[20]、推薦系統(tǒng)[21]和視頻描述生成[22]等應(yīng)用領(lǐng)域。

針對上述問題,本文首先提出了一種面向分布式能源系統(tǒng)的兩階段多能協(xié)同優(yōu)化模型,將分布式能源系統(tǒng)總控制過程解耦為長時間尺度和短時間尺度的兩階段控制形式,實現(xiàn)了對不同時間響應(yīng)特性的復(fù)合空間進行序貫決策。然后,采用基于雙重深度Q 網(wǎng)絡(luò)(double deep Q-learning network,DDQN)的深度強化學(xué)習(xí)求解方案,將兩階段多能協(xié)同優(yōu)化模型轉(zhuǎn)換為兩階段的馬爾可夫決策過程(Markov decision process,MDP)?;趦呻A段控制形式對DDQN 算法進行分層改進,從而提出一種全新的具有高維復(fù)合空間動作探索感知思維能力的分層雙重深度Q 網(wǎng)絡(luò)(hierarchical double deep Q-learning network,HDDQN)算法,對不同時間響應(yīng)特性的復(fù)合空間進行探索學(xué)習(xí),深度隱式處理系統(tǒng)源荷的不確定性,從而獲取多能協(xié)同決策最優(yōu)解,在滿足用戶用能需求的同時提升了新能源的消納水平。最后,通過采用某分布式能源系統(tǒng)示范園區(qū)算例進行求解分析,算例仿真結(jié)果驗證了所提模型和求解方法的有效性和優(yōu)越性。

1 分布式能源系統(tǒng)結(jié)構(gòu)組成

分布式能源系統(tǒng)主要由能量供給側(cè)、能量轉(zhuǎn)換設(shè)備、儲能設(shè)備和能量需求側(cè)組成。本文以圖1 所示的分布式能源系統(tǒng)為例進行多能協(xié)同優(yōu)化問題的研究,其中能量供給側(cè)只涉及電力和天然氣的輸入(由于熱源不適宜遠距離傳輸);能量轉(zhuǎn)換設(shè)備包括熱電聯(lián)產(chǎn)機組、燃氣輪機、光伏裝置、風(fēng)電裝置、電鍋爐和燃氣鍋爐;儲能設(shè)備包括儲電裝置和儲熱裝置;能量需求側(cè)由電負荷、熱負荷和燃氣負荷構(gòu)成。該分布式能源系統(tǒng)相關(guān)組件的數(shù)學(xué)模型詳見附錄A式(A1),可根據(jù)實際工程應(yīng)用需求對其組件進行增減,本文在這里不進行詳細闡述。

圖1 分布式能源系統(tǒng)拓撲Fig.1 Topology of distributed energy system

2 兩階段多能協(xié)同優(yōu)化模型

本文所建立的多能協(xié)同優(yōu)化模型采用靈活性平衡理論[23]:當(dāng)系統(tǒng)負荷、可再生能源功率發(fā)生變化時,通過多能協(xié)同運行的方式調(diào)度各靈活性資源,深度挖掘系統(tǒng)靈活性供給,使得系統(tǒng)靈活性供給和需求之間達到平衡,從而在滿足各種用能需求的同時,盡可能消納更多的可再生能源。

在分布式能源系統(tǒng)中,靈活性需求指的是可再生能源出力和3 種類型負荷需求在單位時間內(nèi)的變化量,如式(1)所示。靈活性需求具有不確定性,其主要來源于源荷的隨機性和波動性。

式中:ΔPt、Δft、Δ?t分別為在t時刻系統(tǒng)的電網(wǎng)、氣網(wǎng)和熱網(wǎng)的靈活性需求量,其中ΔPt≥0 為電網(wǎng)具有向上靈活性需求,ΔPt<0 為電網(wǎng)具有向下靈活性需求,Δft和Δ?t的靈活性需求方向性定義相同;為在t時刻的凈負荷量,由在t時刻的電網(wǎng)負荷大小和風(fēng)電機組實際出力以及光伏機組實際出力的差值所決定;分別為在t時刻的氣負荷量和熱負荷量。

在圖1 中所示的分布式能源系統(tǒng)中,靈活性資源包括熱電聯(lián)產(chǎn)裝置、微型燃氣輪機、燃氣鍋爐、電鍋爐、壓縮機、儲能電池以及儲熱裝置。在滿足分布式能源系統(tǒng)模型相關(guān)約束條件下,以多能協(xié)同方式調(diào)度各靈活性資源單位時間的變化量,從而提供靈活性供給,使得系統(tǒng)內(nèi)靈活性達到平衡。此時,若靈活性無法達到平衡,則通過棄電(限制風(fēng)電和光伏出力)或切負荷方式被動地使之平衡。因此,分布式能源系統(tǒng)的靈活性平衡具體可表示為:

式中:Npv、Nw分別為光伏和風(fēng)電的機組數(shù)量;分別為第i臺光伏和第j臺風(fēng)電機組在t時刻的并離狀態(tài),取值為1 表示并網(wǎng),為0 表示離網(wǎng)分別為第i臺光伏和第j臺風(fēng)電機組在t時刻的實際出力。

同時,考慮到不同能源網(wǎng)絡(luò)的響應(yīng)時間差異性以及能量耦合關(guān)系,對分布式能源系統(tǒng)進行解耦,如圖2 所示,將總控制過程分為長時間尺度和短時間尺度兩階段控制形式,實現(xiàn)了對不同時間響應(yīng)特性的復(fù)合空間進行序貫決策。具體來說,可以將整個時間段劃分為NT個區(qū)間,即長時間尺度的劃分;每個區(qū)間又可以進一步劃分為Nn個時間間隔,即短時間尺度的劃分。長時間尺度控制應(yīng)用于動態(tài)響應(yīng)特性較慢的非電能量供應(yīng)環(huán)節(jié),而短時間尺度控制應(yīng)用于動態(tài)響應(yīng)特性較快的電力供應(yīng)環(huán)節(jié)。

圖2 分布式能源系統(tǒng)解耦圖Fig.2 Decoupling diagram of distributed energy system

式中:GHV為天然氣的總熱值;ω和λ為壓縮機的工況常數(shù);R0為壓縮機的壓縮比;和分別為燃氣輪機在t時刻的發(fā)電效率和發(fā)電功率。

在長時間尺度控制中,控制目標(biāo)是最大化滿足非電負荷的用能需求,如式(6)所示。

在長時間尺度中,熱電聯(lián)產(chǎn)裝置、壓縮機、電鍋爐、燃氣鍋爐、儲熱裝置和切除非電負荷的調(diào)度在每個時間區(qū)間T開始時進行,其中,切除非電負荷調(diào)節(jié)量由其余5 個調(diào)節(jié)量和靈活性平衡等式(見式(2))所確定,因此,長時間尺度控制的決策變量為:

進一步,對長時間尺度的決策變量取值范圍進行優(yōu)化:當(dāng)電網(wǎng)靈活性需求向上時,熱電聯(lián)產(chǎn)裝置應(yīng)增大發(fā)電功率,同時減小電鍋爐的電功率,即Δ≥0,Δ≤0;當(dāng)電網(wǎng)靈活性需求向下時,則相反,即Δ≤0,Δ≥0。顯然,此優(yōu)化方法即可提升模型的求解效率,也進一步挖掘系統(tǒng)的靈活性供給。

而在短時間尺度控制中,控制目標(biāo)由電網(wǎng)靈活性需求方向所決定:當(dāng)電網(wǎng)靈活性需求向上時,為了避免出現(xiàn)切負荷現(xiàn)象,此時控制目標(biāo)為最大化滿足電力負荷需求;當(dāng)電網(wǎng)靈活性需求向下時,為了避免出現(xiàn)棄電現(xiàn)象,此時控制目標(biāo)為可再生能源消納最大化。因此,短時間尺度的控制目標(biāo)如式(8)所示。

在短時間尺度中,微型燃氣輪機、儲能電池、棄電(風(fēng)電和光伏)和切除電負荷的調(diào)度在每個時間間隔t開始時進行。其中,棄電(風(fēng)電和光伏)和切除電負荷的調(diào)節(jié)量由其余2 個調(diào)節(jié)量和靈活性平衡等式(見式(2))所確定。因此,短時間尺度控制的決策變量為:

3 分層深度強化學(xué)習(xí)求解算法

本章首先將兩階段多能協(xié)同優(yōu)化模型表述為兩階段的MDP,結(jié)合長時間尺度和短時時間尺度兩階段控制形式的解耦劃分,對狀態(tài)空間和動作空間進行分割,進一步對獎勵函數(shù)進行修正,形成一個兩階段MDP。然后,采用基于DDQN 算法的深度強化學(xué)習(xí)解決方案,對DDQN 算法進行分層改進,從而提出一種全新的分層深度強化學(xué)習(xí)算法,即HDDQN 算法,如圖3 所示,用于求解兩階段序貫決策問題:按照兩階段時間尺度不斷地與學(xué)習(xí)環(huán)境進行交互訓(xùn)練,依照系統(tǒng)靈活性需求給出靈活性資源最優(yōu)執(zhí)行動作集,從而獲取多能協(xié)同決策的最優(yōu)解。

圖3 HDDQN 算法結(jié)構(gòu)Fig.3 Structure of HDDQN algorithm

3.1 MDP

在使用分層深度強化學(xué)習(xí)算法求解兩階段多能協(xié)同優(yōu)化模型之前,需將其轉(zhuǎn)成兩階段的MDP。MDP 是強化學(xué)習(xí)中的一個重要概念,是應(yīng)用最廣泛的一類隨機過程,一般由四元組(狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率P、獎勵函數(shù)R)定義,用于描述智能體(即靈活性資源)與環(huán)境(即系統(tǒng)靈活性需求)之間的交互過程[24]。其中,可通過狀態(tài)轉(zhuǎn)移概率P(記作p(s'|s,a)表征系統(tǒng)靈活性需求的不確定性(即源荷不確定性),p(s'|s,a)指的是從當(dāng)前狀態(tài)s采取動作a轉(zhuǎn)移到下一狀態(tài)s'的概率[24]。而本文采用分層深度強化學(xué)習(xí)算法屬于一種不依賴于環(huán)境模型的無模型強化學(xué)習(xí)算法,在不學(xué)習(xí)狀態(tài)轉(zhuǎn)移概率函數(shù)情況下,直接通過與環(huán)境的交互獲取經(jīng)驗數(shù)據(jù),并根據(jù)這些數(shù)據(jù)進行學(xué)習(xí)和優(yōu)化。這意味著智能體只知道環(huán)境賦予的狀態(tài),智能體在選擇并執(zhí)行一個動作后,下一個狀態(tài)僅由環(huán)境決定并反饋給智能體。接下來,本文將結(jié)合分布式能源系統(tǒng)兩階段控制解耦方式,對MDP 進行兩階段劃分,具體內(nèi)容如下。

狀態(tài)空間S由各靈活性資源的運行狀態(tài)和負荷需求所構(gòu)成。因此,整個系統(tǒng)在t時刻系統(tǒng)狀態(tài)st∈S由長時間尺度控制所對應(yīng)的狀態(tài)和短時間尺度控制所對應(yīng)的狀態(tài)所構(gòu)成,如下式所示。

綜上,通過動作-價值函數(shù)Q(s,a)來評估策略π的優(yōu)劣(策略π表示狀態(tài)空間S到動作空間A的映射),如式(13)所示。

式中:E[·]為期望函數(shù);k為迭代步數(shù);Tall為迭代總步數(shù);γ(k)∈[0,1]為第k步折扣因子(未來獎勵的衰減值);rk為第k步動作后獲得的即時獎勵;s0和a0分別為狀態(tài)和動作的初始值。

因此,最優(yōu)策略就等價于求解最優(yōu)Q*(s,a),即:

3.2 HDDQN 算法

深度強化學(xué)習(xí)通過Q 網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))擬合Q(s,a)函數(shù),其輸入是狀態(tài)向量,輸出是所有可能動作的Q 值,代替?zhèn)鹘y(tǒng)強化學(xué)習(xí)的Q-Table 形式,解決了維數(shù)災(zāi)問題。DDQN 算法[25]是深度強化學(xué)習(xí)的算法之一,其具有雙Q 網(wǎng)絡(luò)結(jié)構(gòu),分為主Q 網(wǎng)絡(luò)Q(s,a;θ)和目標(biāo)Q 網(wǎng)絡(luò)Q(s,a;θ'),其中,θ、θ'分別為主Q 網(wǎng)絡(luò)和目標(biāo)Q 網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),θ用于選取最優(yōu)動作,θ'用于評估最優(yōu)動作,這種動作選擇和策略評估的解耦方式有效減低了Q 值過估計的風(fēng)險。

針對兩階段序貫決策問題,本文在DDQN 算法的基礎(chǔ)上對雙Q 網(wǎng)絡(luò)結(jié)構(gòu)進行分層改進,形成一種兩層嵌套的雙Q 網(wǎng)絡(luò)結(jié)構(gòu)的HDDQN 算法,內(nèi)層為短時間控制的雙Q 網(wǎng)絡(luò),外層為長時間控制的雙Q網(wǎng)絡(luò),如圖4 所示。其中,外層的主Q 網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)分別為θLi和θL'i;內(nèi)層的主Q 網(wǎng)絡(luò)和目標(biāo)Q 網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)分別為θSi和θS'i。

圖4 HDDQN 算法的Q 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Q network structure of HDDQN algorithm

同時,為了克服樣本的關(guān)聯(lián)性和非平穩(wěn)分布問題,防止出現(xiàn)不收斂情況,HDDQN 算法同樣引入了經(jīng)驗回收機制:即在記憶池D中以均勻隨機采樣方式抽取小批量樣本數(shù)據(jù)進行訓(xùn)練,學(xué)習(xí)得到經(jīng)驗數(shù)據(jù)也可以按照時間先后順序存入記憶池中再利用,若記憶池存滿,則覆蓋時間最久遠的數(shù)據(jù),從而增加經(jīng)驗數(shù)據(jù)的時效性。

如圖4 所示,內(nèi)外層網(wǎng)絡(luò)具有相同的Q 網(wǎng)絡(luò)結(jié)構(gòu),Q 網(wǎng)絡(luò)參數(shù)的訓(xùn)練更新機制具體如下。

而外層網(wǎng)絡(luò)目標(biāo)Q 值需等待Nn個連續(xù)的短時間控制樣本訓(xùn)練完成后,將在T時間間隔內(nèi)Nn個在內(nèi)層網(wǎng)絡(luò)所得到即時獎勵rSt進行疊加處理,從而對外層網(wǎng)絡(luò)在T時間間隔的即時獎勵進行修正;隨后,便可按照內(nèi)層網(wǎng)絡(luò)同樣的流程得到外層網(wǎng)絡(luò)目標(biāo)Q 值YDDQNT:

式中:aL為長時間尺度最大Q 值對應(yīng)的動作決策。

上述內(nèi)容具體描述了內(nèi)外層網(wǎng)絡(luò)的估計Q 值和目標(biāo)Q 值的獲取流程。整個訓(xùn)練過程實質(zhì)上就是將內(nèi)外層網(wǎng)絡(luò)的估計Q 值向目標(biāo)Q 值逼近的過程,由損失函數(shù)L()來表述:

式中:α∈[0,1]為學(xué)習(xí)率,其決定收斂速度。

綜上所述,具有兩層嵌套的雙Q 網(wǎng)絡(luò)結(jié)構(gòu)的HDDQN 算法可對兩階段時間尺度劃分的復(fù)合空間進行探索學(xué)習(xí),按照時間間隔不斷地從學(xué)習(xí)環(huán)境中獲取狀態(tài),通過Q 網(wǎng)絡(luò)隱式處理系統(tǒng)源荷的不確定性,按照其輸出的Q 值選擇執(zhí)行最優(yōu)動作集,從而實現(xiàn)系統(tǒng)的兩階段序貫最優(yōu)決策。

3.3 求解流程

HDDQN 算法的求解流程詳見附錄B 圖B1。

4 算例分析

為了測試本文所提算法應(yīng)用于兩階段多能協(xié)同優(yōu)化模型的求解性能,本文選取某分布式能源系統(tǒng)示范區(qū)的實際運行數(shù)據(jù)進行仿真分析,HDDQN 算法參數(shù)詳見附錄B。本文所有算例均在Intel i7-10700K(主頻為3.8 GHz)、內(nèi)存32 GB 的計算機上基于PyTorch 軟件框架進行仿真分析。

4.1 仿真環(huán)境設(shè)置

分布式能源系統(tǒng)配置:單機容量1.5 MW 的風(fēng)電機組共5 組,總計7.5 MW;光伏機組每組0.1 MW,共15 組,總計1.5 MW;電儲能容量為2 MW·h;燃氣輪機裝機容量為3 MW;熱電聯(lián)產(chǎn)裝機容量為1.1 MW,最大發(fā)熱功率為1.3 MW;燃氣鍋爐最大發(fā)熱功率為1.4 MW;電鍋爐最大發(fā)熱功率為0.6 MW;儲熱裝置容量為0.6 MW·h。相關(guān)設(shè)備參數(shù)可詳見附錄B 表B1。

仿真時間尺度劃分:將一天24 h 劃分為96 個時間區(qū)間,每個時間區(qū)間劃分成3 個時間間隔,即長時間控制的時間尺度為15 min,短時間控制的時間尺度為5 min。

關(guān)于HDDQN 算法神經(jīng)網(wǎng)絡(luò)的設(shè)置,根據(jù)經(jīng)驗以及不斷的調(diào)試驗證,所用的神經(jīng)網(wǎng)絡(luò)隱含層層數(shù)為2 層,神經(jīng)元個數(shù)依次為128 個和256 個,并且以修正線性單元(rectified linear unit,ReLU)函數(shù)作為隱含層的激活函數(shù)。同時,對于HDDQN 算法中折扣因子γ和學(xué)習(xí)率α兩個參數(shù),通過大量仿真測試發(fā)現(xiàn):折扣因子γ決定未來獎勵的衰減,如果γ取值很小,學(xué)習(xí)系統(tǒng)很容易傾向于遵循當(dāng)前策略的獎勵,從而忽略長遠的最優(yōu)策略;如果γ取值很大,學(xué)習(xí)系統(tǒng)就不會輕易局限于某一時段的最優(yōu)策略,將一直進行大范圍探索,這將導(dǎo)致收斂速度變慢。另一方面,學(xué)習(xí)率α決定學(xué)習(xí)系統(tǒng)的收斂速度,如果α取值過小,收斂速度會很慢,但很容易趨于穩(wěn)定;如果學(xué)習(xí)率α取值很大,收斂速度會很快,但不會輕易趨于穩(wěn)定。綜上,經(jīng)過測試篩選出,折扣因子γ取值為0.9,學(xué)習(xí)率α值取0.5。

4.2 訓(xùn)練結(jié)果分析

采用所選取地區(qū)2020 年3 月的分布式能源系統(tǒng)的時序統(tǒng)計歷史運行數(shù)據(jù)樣本進行訓(xùn)練,按24 h周期可劃分為31 個訓(xùn)練數(shù)據(jù)集,且根據(jù)仿真時間尺度的劃分,每個訓(xùn)練集又可分為96 個訓(xùn)練樣本,因此總共有2 976 個訓(xùn)練樣本。在訓(xùn)練過程中,均勻隨機抽取96 個小批量樣本,訓(xùn)練步數(shù)為30 000 步,并根據(jù)式(17)計算損失函數(shù)值來確定收斂情況。迭代收斂情況如附錄C 圖C1 所示,可以看出在迭代初期,損失函數(shù)值振幅較大;迭代后期(訓(xùn)練步數(shù)大于15 000),損失函數(shù)振幅進入收斂區(qū)間,整個系統(tǒng)在25 000 次訓(xùn)練后達到最佳收斂效果。

4.3 優(yōu)化結(jié)果分析

為了驗證HDDQN 算法對兩階段多能協(xié)同優(yōu)化模型求解的有效性,隨機抽取該地區(qū)2022 年3 月某天風(fēng)光荷的時序數(shù)據(jù)(如附錄C 圖C2 所示)作為實時數(shù)據(jù),將其按照長短時間尺度的劃分依次輸入HDDQN 算法進行在線學(xué)習(xí)優(yōu)化仿真。其求解速度如附錄C 圖C3 所示,每個時刻的求解時間最大值為0.055 s,最小值為0.025 s(在含有長時間尺度控制的時刻,求解時間相對較大,維持在0.05~0.055 s 之間;而在僅含有短時間尺度控制的時刻,求解時間維持在0.025~0.03 s 之間),每個時刻的求解速度相對誤差控制在0.05 s 內(nèi),求解時間平均值為0.036 s,整個優(yōu)化過程的求解過程時間為10.368 s。

以下為兩階段多能協(xié)同優(yōu)化算例結(jié)果。圖5 表示分布式能源系統(tǒng)的日用能占比,在用氣環(huán)節(jié)中,燃氣總用氣量的19%用于產(chǎn)熱和發(fā)電;在產(chǎn)熱環(huán)節(jié)中,86.7%熱能供給來源于天然氣,13.3%熱能供給來源于電能;在發(fā)電環(huán)節(jié)中,新能源發(fā)電占比達到了31.8%,聯(lián)絡(luò)線輸入占比達到了45.2%,其余33%電能供給來源于天然氣。另外,新能源消納率達到99.7%,切除新能源發(fā)電量僅為0.276 MW·h。

圖5 日用能占比Fig.5 Daily energy consumption ratio

長時間控制優(yōu)化結(jié)果如附錄C 圖C4 和圖C5 所示,耦合變量的輸出結(jié)果如附錄C 圖C6 所示,其優(yōu)化結(jié)果完全滿足非電負荷的用能需求,未出現(xiàn)限制非電負荷現(xiàn)象;短時間控制優(yōu)化結(jié)果如附錄C 圖C7(圖中凈負荷為負荷和可再生能源并網(wǎng)出力的差值,詳見式(1))、圖C8 和圖C9 所示,其優(yōu)化結(jié)果未出現(xiàn)切負荷現(xiàn)象,但存在限制風(fēng)電出力現(xiàn)象。進一步,對出現(xiàn)限制風(fēng)電出力的時間段進行靈活性分析,取時間間隔為283 至288 的時間段(即23:30 至24:00)靈活性平衡優(yōu)化結(jié)果,如圖6 所示。在286 和288 時刻,由長時間控制的非電網(wǎng)絡(luò)向電網(wǎng)提供了有效的靈活性供給;但在286 時刻出現(xiàn)了棄電現(xiàn)象(切除了1 臺風(fēng)電機組),迫使電網(wǎng)靈活性達到平衡。

圖6 靈活性平衡優(yōu)化結(jié)果Fig.6 Optimal results for flexibility balance

為了驗證上述優(yōu)化結(jié)果的合理性,結(jié)合圖7 展示內(nèi)容對該時間段分布式能源系統(tǒng)的靈活性需求和靈活性資源進行分析。由圖7 可知,系統(tǒng)在286 時刻存在向下靈活性需求,為-0.28 MW;而在不棄電情況下,靈活性供給最大值為-0.07 MW,系統(tǒng)靈活性無法達到平衡。關(guān)于此刻靈活性供給不足的原因是,如圖7 所示,燃氣輪機此刻以最小發(fā)電功率運行,無法向系統(tǒng)提供向下靈活性供給;電儲能因自身容量約束在此刻的最大充電功率為0.23 MW(且在上一時刻以0.16 MW 充電功率運行,詳見附錄C 圖C8),此時電儲能靈活性供給的最大值為-0.07 MW;同時,由附錄C 圖C6 可知在286 時刻,熱電聯(lián)產(chǎn)處于最小發(fā)電功率運行狀態(tài),電鍋爐處于最大功率運行狀態(tài),兩者此時都無法向系統(tǒng)提供靈活性供給。因此,當(dāng)前時刻的靈活性資源中僅有電儲能可以向系統(tǒng)提供最大值為-0.07 MW 的靈活性供給,而此時靈活性需求為-0.28 MW,靈活性需求和靈活性供給之間平衡差額為-0.21 MW,故通過棄電方式使系統(tǒng)達到靈活性平衡是合理可行的。

圖7 靈活性需求和靈活性資源分析Fig.7 Analysis of flexibility demand and flexibility resources

綜上所述,HDDQN 算法對多能協(xié)同優(yōu)化模型快速穩(wěn)定地求解的同時,能夠獲得較佳的控制目標(biāo),從而驗證了兩階段多能協(xié)同優(yōu)化模型和HDDQN算法求解的有效性。

4.4 算法求解性能對比分析

為了驗證HDDQN 算法求解性能的優(yōu)越性,本文選取了粒子群優(yōu)化(particle swarm optimi-zation,PSO)算法、遺傳算法(genetic algorithm,GA)、Q(λ)學(xué)習(xí)算法和DDQN 算法與所提出的HDDQN算法進行對比分析。對于典型的學(xué)習(xí)算法,需將模型中的短時間控制和長時間控制兩個目標(biāo)函數(shù)進行求和轉(zhuǎn)換為單目標(biāo)優(yōu)化問題進行求解;同時,對長時間控制對應(yīng)的決策變量施加時間間隔約束,保證其只能在對應(yīng)的控制時刻發(fā)生改變,其余時刻保持不變。所有算法的訓(xùn)練數(shù)據(jù)與本文保持一致,均采用4.3 節(jié)的實時數(shù)據(jù)進行求解,重復(fù)求解10 次,取各算法的求解時間的最大值、最小值和平均值以及目標(biāo)函數(shù)最優(yōu)值的10 次計算結(jié)果的平均值和方差等5 個指標(biāo)進行對比,結(jié)果如表1 所示。從表1 中可以看出:在求解速度上,HDDQN 算法和DDQN 算法優(yōu)于其他算法,且HDDQN 算法略慢于DDQN 算法,兩者的平均值相差在0.1 s 以內(nèi),HDDQN 算法因分層改進導(dǎo)致求解速度略有損失;在求解質(zhì)量上,PSO算法和GA 的目標(biāo)函數(shù)最優(yōu)值的平均值較小且方差較大,期間存在無法求得最優(yōu)解的情況;HDDQN 算法求解得到的目標(biāo)函數(shù)最優(yōu)值的平均值和方差均為最優(yōu),求解的穩(wěn)定性明顯強于其他算法。

表1 算法性能對比Table 1 Comparison of algorithm performance

進一步,根據(jù)求解質(zhì)量指標(biāo),選取HDDQN 算法和DDQN 算法求解的10 次優(yōu)化結(jié)果的平均值進行對比分析,其分析結(jié)果如表2 所示。

表2 優(yōu)化結(jié)果對比Table 2 Comparison of optimization results

從表2 中可以看出:在優(yōu)化結(jié)果上,無論是負荷切除率還是新能源棄電率,HDDQN 算法明顯優(yōu)于DDQN 算法,HDDQN 算法非常適用于兩階段多能協(xié)同優(yōu)化模型的求解。

5 結(jié)語

1)首次構(gòu)建了一種面向分布式能源系統(tǒng)的兩階段多能協(xié)同優(yōu)化模型,采用長時間尺度和短時間尺度兩階段決策方式構(gòu)建了不同時間響應(yīng)特性的復(fù)合空間序貫決策模型,從而在滿足用能需求的同時,提升了新能源的消納水平。

2)提出了一種HDDQN 算法,該算法針對長時間尺度和短時間尺度兩階段控制模式,在DDQN 算法基礎(chǔ)上進行分層改進,用于求解不同時間響應(yīng)特性的復(fù)合空間序貫決策問題,實現(xiàn)分布式能源系統(tǒng)的多能協(xié)同優(yōu)化運行。

3)仿真結(jié)果表明,針對于多能協(xié)同兩階段序貫決策問題,HDDQN 算法十分適用于其求解,在求解速度和質(zhì)量上具有較好的表現(xiàn)。

4)本文所提出兩階段多能協(xié)同優(yōu)化模型的不足之處在于沒有考慮多能協(xié)同運行所涉及的經(jīng)濟性問題。下一步研究工作是將經(jīng)濟性相關(guān)因素納入多能協(xié)同優(yōu)化模型中,并探索所提出HDDQN 算法的更多應(yīng)用場景。

附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

猜你喜歡
時間尺度靈活性分布式
時間尺度上非完整系統(tǒng)的Noether準(zhǔn)對稱性與守恒量
時間尺度上Lagrange 系統(tǒng)的Hojman 守恒量1)
新型儲換熱系統(tǒng)在熱電聯(lián)產(chǎn)電廠靈活性改造中的應(yīng)用
交直流混合微電網(wǎng)多時間尺度協(xié)同控制
能源工程(2021年1期)2021-04-13 02:06:12
基于SVD可操作度指標(biāo)的機械臂靈活性分析
更純粹的功能卻帶來更強的靈活性ESOTERIC第一極品N-03T
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
大連市暴雨多時間尺度研究分析
基于DDS的分布式三維協(xié)同仿真研究
雷達與對抗(2015年3期)2015-12-09 02:38:50
同德县| 苏尼特左旗| 枣庄市| 夹江县| 信阳市| 察哈| 太和县| 永善县| 土默特左旗| 汉阴县| 海伦市| 蕲春县| 明星| 沅江市| 郧西县| 菏泽市| 揭西县| 万山特区| 青海省| 大城县| 霍州市| 化隆| 安乡县| 句容市| 绥滨县| 通州区| 呈贡县| 顺昌县| 托里县| 巴中市| 郎溪县| 哈巴河县| 房产| 石台县| 四会市| 西城区| 西平县| 浦县| 增城市| 嵩明县| 云浮市|