国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Q-learning算法的配電網(wǎng)儲能裝置控制策略研究

2023-10-19 08:38:46王曉康俞智浩蘆翔
寧夏電力 2023年5期
關(guān)鍵詞:荷電蓄電池儲能

王曉康,俞智浩,蘆翔

(1.國網(wǎng)寧夏電力有限公司吳忠供電公司,寧夏 吳忠 751100;2.國網(wǎng)寧夏電力有限公司電力科學(xué)研究院,寧夏 銀川 750011)

0 引 言

隨著可再生能源技術(shù)的發(fā)展,分布式發(fā)電技術(shù)不僅應(yīng)用于變電,而且,在接入更方便的配電網(wǎng)中應(yīng)用更為廣泛。但在大量分布式電源接入配電網(wǎng)后,其固有的出力波動和高度間歇性會直接影響配電網(wǎng)的電壓運行水平和功率平衡性,進而導(dǎo)致電壓越限和配變過載等問題[1]。解決上述問題的關(guān)鍵在于控制配電網(wǎng)有功功率的平衡性,因此在配電網(wǎng)末端接入儲能裝置的輔助運行方式成為一種可行的技術(shù)方案[2]。

儲能技術(shù)的應(yīng)用對于改善配電網(wǎng)系統(tǒng)的電壓特性,實現(xiàn)負荷側(cè)靈活削峰填谷有著重要的價值。除此之外,合理的儲能控制可以有效提高能源的利用效率[3]。在儲能裝置的輔助下,配電網(wǎng)對于功率波動的耐受性更強,配電網(wǎng)區(qū)域內(nèi)的電壓波動減小,有利于接納更多的新能源接入,從經(jīng)濟性和穩(wěn)定性上對區(qū)域電網(wǎng)都有著重要的價值[4]。

儲能裝置的控制目標(biāo)通常為減小系統(tǒng)內(nèi)節(jié)點電壓波動,根據(jù)負荷需求合理控制出力水平。儲能控制技術(shù)通?;谝欢ǖ哪P?以提升系統(tǒng)某項指標(biāo)為目的,通過對系統(tǒng)控制策略進行優(yōu)化和創(chuàng)新來實現(xiàn)預(yù)期控制效果[5]。目前國內(nèi)外常用算法有線性規(guī)劃、混合整數(shù)規(guī)劃、動態(tài)規(guī)劃、模糊邏輯等,其中動態(tài)規(guī)劃算法作為目前應(yīng)用較為成熟的一種算法形式,在迭代計算后可以實現(xiàn)對狀態(tài)空間內(nèi)的控制效果優(yōu)化,得到局部最優(yōu)解。但隨著狀態(tài)數(shù)的增加動態(tài)規(guī)劃算法容易出現(xiàn)“維度災(zāi)”問題,即迭代計算量出現(xiàn)指數(shù)型上升,從而導(dǎo)致在線計算時間大大增加,同時也會增加計算成本。為了解決這個問題,強化學(xué)習(xí)算法被提出,并用來求解動態(tài)的決策任務(wù)。強化學(xué)習(xí)是一種從歷史經(jīng)驗中學(xué)習(xí)最佳策略的算法,主要思想就是智能體通過不斷和環(huán)境互動來學(xué)習(xí)系統(tǒng)的動態(tài)特性,具體到每一個迭代過程就是智能體根據(jù)當(dāng)前的狀態(tài)做出一個動作,然后得到一個獎勵值和下一時刻的狀態(tài)。強化學(xué)習(xí)智能體和環(huán)境互動的次數(shù)越多,經(jīng)驗越豐富,所做的策略越準(zhǔn)確。強化學(xué)習(xí)的Q-learning算法作為一種應(yīng)用領(lǐng)域較為廣泛的算法類型,通過調(diào)整迭代條件可以避免過多狀態(tài)量的出現(xiàn),從而解決維度災(zāi)難的問題[6]。

Q-learning在使用歷史數(shù)據(jù)進行訓(xùn)練時具有優(yōu)勢且易于理解,對計算資源需求較少,算法訓(xùn)練過程更為穩(wěn)定,更能適應(yīng)配電網(wǎng)的實際情況;因此本文將Q-learning算法應(yīng)用于以儲能電池為模型的配電網(wǎng)儲能裝置電能出力控制中,研究該算法在儲能電池荷電狀態(tài)管理策略下可行狀態(tài)空間的優(yōu)化特性,并將該算法的優(yōu)化結(jié)果與經(jīng)典動態(tài)規(guī)劃方法優(yōu)化結(jié)果進行對比,驗證了在儲能電池出力控制的應(yīng)用背景下Q-learning算法能夠與動態(tài)規(guī)劃算法達成一致最優(yōu)解的結(jié)論。

1 蓄電池的儲能特性

以蓄電池為代表的電化學(xué)儲能是一種目前應(yīng)用較為廣泛的儲能技術(shù)。不僅擁有較高的能量密度和功率密度,同時低廉的成本也是其在能源應(yīng)用領(lǐng)域的優(yōu)勢所在。在配電網(wǎng)儲能系統(tǒng)的應(yīng)用背景下,選取蓄電池儲能裝置,研究蓄電池儲能裝置正常工作時剩余電量、固定時段內(nèi)的充、放電量以及自放電等參數(shù)的相互關(guān)系。儲能充電過程可以表示如下:

(1)

對應(yīng)的儲能放電過程可表示為

(2)

式中:SOC(t)為蓄電池儲能裝置在t時間段的荷電狀態(tài),Pb是蓄電池儲能裝置在t時間段的充放電功率,σ為儲能介質(zhì)的自放電率,LC為蓄電池儲能裝置的充電損耗,LDC為蓄電池儲能裝置的放電損耗,Δt為計算周期時長,Ecap為蓄電池儲能裝置的額定容量。

蓄電池儲能裝置在其正常工作內(nèi)的充放電功率受到硬件限制的充放電特性和自身荷電狀態(tài)狀態(tài)的影響,其荷電狀態(tài)需要滿足以下條件:

SOC min≤SOC(t)≤SOC max

(3)

式中:SOC min和SOC max分別為蓄電池儲能裝置荷電狀態(tài)的最小值和最大值,即約束了荷電狀態(tài)的正常范圍。

2 儲能裝置優(yōu)化調(diào)度模型

2.1 強化學(xué)習(xí)建模

強化學(xué)習(xí)方法的原理是將優(yōu)化問題建模為一個馬爾科夫決策過程來進行求解[7],本文把配電網(wǎng)儲能裝置的策略優(yōu)化問題描述為一個馬爾科夫決策過程。在馬爾科夫決策過程中,定義環(huán)境狀態(tài)st為t時間段蓄電池儲能裝置的可行離散電量,動作at為t時間段內(nèi)蓄電池儲能裝置的平均放電量,由當(dāng)前時間段和對應(yīng)下一時間段可行離散電量、時間段內(nèi)平均充電量所確定;同時定義t時刻的獎勵函數(shù)rt(st,at)為

(4)

其中

(5)

Et=APf,tΔt

(6)

式中:C為常數(shù),Et為t時段內(nèi)蓄電池儲能裝置對外發(fā)出的電能,Nt為t時段內(nèi)蓄電池儲能裝置的平均出力,Nb為t時段內(nèi)蓄電池儲能裝置的保證出力,Eb則作為懲罰項代表蓄電池儲能裝置在保證處理下產(chǎn)生的電能;A為出力系數(shù),Pf,t為t時段內(nèi)蓄電池儲能裝置的平均發(fā)電功率,Δt為t時段的時間長度值。

采用值迭代的算法求解儲能裝置調(diào)度的最優(yōu)方案,定義Q(st,at)為動作值函數(shù),簡稱Q值,即:

…+r(st-1,at-1)+r(st,at)]

(7)

轉(zhuǎn)化為遞推形式:

(8)

將蓄電池儲能裝置優(yōu)化調(diào)度模型以時段獎勵函數(shù)rt(st,at)為基礎(chǔ),以確保電能出力為目標(biāo),在扣除懲罰值后將各時段內(nèi)的發(fā)電量進行累加,即可得到總發(fā)電量E*,并以該數(shù)值為基礎(chǔ)構(gòu)建目標(biāo)函數(shù),表達式如下:

(9)

也可將E*表示為

(10)

2.2 建立強化學(xué)習(xí)約束空間

2.2.1 強化學(xué)習(xí)狀態(tài)轉(zhuǎn)移約束

蓄電池儲能裝置的供能關(guān)系約束條件即為強化學(xué)習(xí)狀態(tài)轉(zhuǎn)移約束條件。功能平衡方程的計算公式如下:

(11)

式中:Qt、Qt+1分別為t時間段初、末時間段下的儲能狀態(tài)。Pin,t、Pout,t分別為t時間段內(nèi)蓄電池儲能裝置的輸入和輸出平均功率。

儲能裝置輸出功率約束:

Pmin,t≤Pout,t≤Pmax,t

(12)

式中:Pmin,t和Pmax,t分別為t時段內(nèi)儲能裝置輸出功率的最小值和最大值。

配電網(wǎng)需求側(cè)功率約束:

Pdis,min≤Pdis,t≤Pdis,max

(13)

式中:Pdis,min和Pdis,max分別為t時段內(nèi)配電網(wǎng)需求側(cè)功率的最小值和最大值。

荷電狀態(tài)約束同式(3)。

2.2.2 確定強化學(xué)習(xí)可行狀態(tài)空間

圖1 蓄電池儲能裝置可行荷電狀態(tài)邊界求解。

當(dāng)確定荷電狀態(tài)邊界后,可以將強化學(xué)習(xí)過程的要素定義為t時間段的狀態(tài)集合、動作集合以及式(4)中的獎勵函數(shù)。狀態(tài)集合為t時刻的可行荷電狀態(tài);動作集合為蓄電池儲能裝置的輸出功率,數(shù)值可由功能平衡關(guān)系確定;獎勵函數(shù)集合由t時刻當(dāng)前蓄電池儲能裝置荷電狀態(tài)及其對應(yīng)的動作集合共同確定[9]。

2.3 配電網(wǎng)儲能裝置優(yōu)化調(diào)度模型

Q-learning是一種基于離軌策略的強化學(xué)習(xí)算法,它根據(jù)時序差分控制的原理并以Q值為評價標(biāo)準(zhǔn),通過不斷的迭代來求解最優(yōu)動作,Q-learning算法的目的是在一個迭代回合中使累計期望回報達到最大。Q-learning算法的迭代過程就是從歷史經(jīng)驗軌跡(也即馬爾科夫決策鏈)中學(xué)習(xí)最優(yōu)動作的過程,在單次的模擬流程中,Q-learning通過即時更新Q值為下一次模擬形成新的方案,其算法流程如下:

1)隨機初始化Q(s,a),?s∈S,a∈A(s)。

3)t時刻下,智能體應(yīng)根據(jù)環(huán)境狀態(tài)st執(zhí)行動作,本文采用了ε-greedy策略作為智能體的動作策略。

(14)

εt=εb

(15)

式中:εt為t時刻ε的值;ε為小數(shù),其含義為智能體在t時刻有ε的概率隨機選取動作;b為接近1的小數(shù),一般取0.9;π(st)為t時刻根據(jù)狀態(tài)st采取的策略;εm為小數(shù),一般取0.1。

圖2 算法流程。

當(dāng)算法迭代次數(shù)達到一定數(shù)量時即可終止,最優(yōu)策略的生成不再由ε-greedy策略決定,而是依據(jù)各時刻相應(yīng)狀態(tài)下的最優(yōu)Q值選取動作形成最優(yōu)策略。

3 實例分析

3.1 配電網(wǎng)儲能裝置實例

以某配電網(wǎng)儲能裝置為例,其儲能容量為60 kW·h,最大輸出功率為30 kW,出力系數(shù)A=1。以臺區(qū)日內(nèi)負荷變化作為調(diào)度時段,將儲能裝置典型高負荷日的輸出功率作為模型的輸入。

3.2 試驗結(jié)果分析

為了證明Q-learning算法在配電網(wǎng)儲能裝置優(yōu)化調(diào)度問題上的有效性,設(shè)置了Q-learning算法與動態(tài)規(guī)劃算法的對比實驗:首先,使用動態(tài)規(guī)劃算法求出儲能設(shè)備日內(nèi)各時刻的最優(yōu)荷電狀態(tài);其次,將離線訓(xùn)練好的Q-learning算法在線部署,使其在線生成儲能設(shè)備日內(nèi)各時刻的最優(yōu)荷電狀態(tài);最后,對比兩種方法的性能。動態(tài)規(guī)劃的優(yōu)化結(jié)果見圖3。

圖3 基于動態(tài)規(guī)劃算法的日內(nèi)最優(yōu)荷電狀態(tài)。

本論文定義Q-learning算法的學(xué)習(xí)率為α,同時對該參數(shù)進行敏感性分析,分別設(shè)置3組實驗,每組實驗α值分別設(shè)置為0.01、0.05、0.1,然后觀察各組實驗Q-learning的迭代過程。對于其他超參數(shù),設(shè)置ε初始值為0.99,常數(shù)值b為0.99,εm值為0.1。強化學(xué)習(xí)智能體和環(huán)境互動的次數(shù)越多,經(jīng)驗越豐富,所做的策略越準(zhǔn)確。在訓(xùn)練時讓智能體和環(huán)境交互1百萬次,其中包括1 000個回合,每回合包括1 000個迭代步,每回合記錄依賴Q值生成的解對應(yīng)的總獎勵值,最終優(yōu)化結(jié)果見圖4。

圖4 Q-learning迭代過程曲線。

從圖4中可以看出:由于Q-learning算法剛開始進行隨機探索,所做的動作是隨機的,因此獲得較低的獎勵,隨著探索的減小,Q-learning算法逐漸學(xué)習(xí)到正確的策略,獎勵值不斷增大,隨著迭代的進行,Q-learning算法不再探索隨機動作,而是采用學(xué)習(xí)到的最優(yōu)動作,因此獎勵函數(shù)逐漸收斂,Q-learning智能體也進入穩(wěn)定的最優(yōu)狀態(tài)。參數(shù)α越大,Q-learning收斂的越快。

表1為Q-learning算法不同α值的對比結(jié)果,圖5為動態(tài)規(guī)劃與Q-learning不同α值變化的對比。由表1及圖5可知,隨著α值的不斷增大迭代收斂的速度會不斷變快,其訓(xùn)練所需的時間也會大大減小,因此我們在訓(xùn)練時需要將α值調(diào)整為0.1。在Q-learning算法訓(xùn)練的前期,由于動作是隨機探索的,因此Q值存在較大的優(yōu)化空間,其獎勵值和優(yōu)化效果也會呈現(xiàn)較大的變化趨勢。隨著迭代的進行,Q-learning算法的動作逐步穩(wěn)定并趨于最優(yōu),這時Q值對動作的評估和每回合的累計獎勵也達到穩(wěn)定,迭代收斂。迭代后期當(dāng)Q-learning算法所做的決策逼近最優(yōu)解時,優(yōu)化趨于平穩(wěn)狀態(tài),Q-learning算法能夠與動態(tài)規(guī)劃算法達成一致最優(yōu)解。

表1 Q-learning算法不同a值對比結(jié)果

(a)α=0.01。

(b)α=0.05和α=0.1圖5 動態(tài)規(guī)劃與Q-learning不同α值荷電狀態(tài)變化對比。

如2.3節(jié)中的算法流程所示,在每個迭代步開始時智能體根據(jù)當(dāng)前的狀態(tài)從Q表中選取Q值最大的動作,迭代步結(jié)束時根據(jù)式(8)來更新Q表。訓(xùn)練迭代1百萬次的目的就是得到一個完美的Q表,這個過程是離線進行的,所消耗的時間是可以接受的。訓(xùn)練完成后,將訓(xùn)練好的智能體(具備完美的Q表)部署下去進行在線執(zhí)行,在線執(zhí)行時智能體輸入當(dāng)前的狀態(tài),根據(jù)Q表可以實時得到一個最佳的策略,因此相比其他算法,Q-learning算法在執(zhí)行過程中得到策略的過程非???是毫秒級別[10]。

上述結(jié)果顯示,在整個可行的策略搜索空間中,當(dāng)訓(xùn)練回合數(shù)達到一定的數(shù)量時,Q-learning算法所構(gòu)建的配電網(wǎng)儲能裝置可以執(zhí)行最優(yōu)的動作,實現(xiàn)調(diào)度任務(wù)的最優(yōu)化。

4 結(jié) 論

將強化學(xué)習(xí)的Q-learning算法應(yīng)用于配電網(wǎng)儲能裝置的控制策略中,以蓄電池儲能裝置為例建立了優(yōu)化調(diào)度模型,并通過調(diào)節(jié)強化學(xué)習(xí)超參數(shù)實現(xiàn)迭代優(yōu)化。證明了當(dāng)?shù)螖?shù)達到一定數(shù)量時,Q-learning算法可達到理論上的最優(yōu)解。該方法在大大減少優(yōu)化時間的同時,獲取了同動態(tài)規(guī)劃一致的最優(yōu)調(diào)度方案。該算法能夠有效引導(dǎo)蓄電池儲能裝置學(xué)習(xí)到滿足預(yù)設(shè)目標(biāo)且趨于最優(yōu)的充放電策略,根據(jù)用戶在不同時段用電需求及用電特征,儲能裝置在用電低谷期時充電,在日間根據(jù)用戶負荷的實時需求放電,就地增大供電能力,緩解配電網(wǎng)季節(jié)性配電變壓器重過載問題,具有較高的應(yīng)用價值,但Q-learning算法仍然存在一定的局限性,例如在處理大規(guī)模問題時會出現(xiàn)計算效率低下和內(nèi)存需求過大的問題,以及在用于多智能體的環(huán)境時,會面臨其他智能體策略變化導(dǎo)致非平穩(wěn)問題。針對配電網(wǎng)的環(huán)境中的不確定性可以考慮將其他算法與Q-learning相結(jié)合,來提高Q-learning算法的適應(yīng)能力。

猜你喜歡
荷電蓄電池儲能
相變儲能材料的應(yīng)用
煤氣與熱力(2021年6期)2021-07-28 07:21:24
基于雙擴展卡爾曼濾波的電池荷電狀態(tài)估計
儲能技術(shù)在電力系統(tǒng)中的應(yīng)用
儲能真要起飛了?
能源(2017年12期)2018-01-31 01:42:59
聊聊蓄電池的那點事兒(1) 汽車蓄電池的前世
基于MARS 的電池荷電狀態(tài)估計
蓄電池去哪兒了
蓄電池去哪兒了?VOL12.雷克薩斯RX450h
直流儲能型準(zhǔn)Z源光伏并網(wǎng)逆變器
蓄電池去哪兒了?
仲巴县| 嵊州市| 太仓市| 井陉县| 大渡口区| 手游| 岳普湖县| 买车| 平邑县| 泽库县| 陈巴尔虎旗| 鲁甸县| 密云县| 永和县| 襄汾县| 盐山县| 中西区| 元朗区| 通江县| 奉节县| 仙桃市| 太和县| 新巴尔虎左旗| 阿鲁科尔沁旗| 峨山| 亚东县| 醴陵市| 稷山县| 吴旗县| 南京市| 筠连县| 石楼县| 革吉县| 松阳县| 屯昌县| 仁布县| 大港区| 双城市| 廊坊市| 杂多县| 丹凤县|