基于CPSS平行系統(tǒng)懶惰強化學習算法的實時發(fā)電調控

2019-06-22 07:42殷林飛陳呂鵬余濤張孝順

自動化學報 2019年4期

殷林飛陳呂鵬余濤張孝順

傳統(tǒng)發(fā)電調控框架在保持多區(qū)域互聯(lián)大電網的系統(tǒng)有功平衡,維持系統(tǒng)頻率穩(wěn)定等方面發(fā)揮了重要作用.隨著相關研究的不斷深入,傳統(tǒng)發(fā)電調控框架逐漸發(fā)展成為存在三種不同時間尺度問題的調控框架[1?2]:1)機組組合(Unit commitment,UC)[3?4];2)經濟調度(Economic dispatch,ED)[5];3)自動發(fā)電控制(Automatic generating control,AGC)和發(fā)電指令調度(Generation command dispatch,GCD)[6?9].然而,傳統(tǒng)發(fā)電調控框架在以下方面可以改善:1)在傳統(tǒng)發(fā)電調控框架中,較長時間尺度下調控有可能導致不準確控制指令的產生.同時,不同時間尺度調控之間存在的不協(xié)調問題有可能導致反向調節(jié)現(xiàn)象的產生.2)在傳統(tǒng)發(fā)電調控框架中,UC和ED問題解決是以下一時間段負荷預測結果作為條件,而實時AGC和GCD卻是基于AGC機組特性所得指令.從長時間尺度的角度來看,AGC和GCD做出的控制結果并不是一個最優(yōu)的控制結果.3)一般情況下,不同時間尺度下的優(yōu)化目標均不相同.因此,無論是對長期還是短期而言,僅依據這些優(yōu)化結果做出的調控指令,都不是最優(yōu)的.

研究者為了解決傳統(tǒng)框架中存在的部分問題,提出了大量集成算法或集成框架.文獻[10]提出針對微電網實時調度的AGC和ED集成方法.文獻[11]研究了考慮含有AGC仿射索引過程的魯棒經濟調度.文獻[12]從優(yōu)化的角度,將ED和AGC控制器相結合.然而,這些算法均不能完整地對傳統(tǒng)發(fā)電調控框架進行改善.

強化學習(Reinforcement learning,RL),又稱再勵學習、評價學習,既可看作是人工智能領域中一種重要的機器學習方法,也被認為是屬于馬爾科夫決策過程(Markov decision process,MDP)和動態(tài)優(yōu)化方法的一個獨立分支.互聯(lián)電網AGC是一個動態(tài)多級決策問題,其控制過程可視為馬爾科夫決策過程.文獻[13]針對微電網孤島運行模式下新能源發(fā)電強隨機性導致的系統(tǒng)頻率波動,提出基于多智能體相關均衡強化學習(Correlated equilibrium Q(λ),CEQ(λ))的微電網智能發(fā)電控制方法.文獻[14]針對非馬爾科夫環(huán)境下火電占優(yōu)的互聯(lián)電網AGC控制策略,引入隨機最優(yōu)控制中Q(λ)學習的“后向估計”原理,有效解決火電機組大時滯環(huán)節(jié)帶來的延時回報問題.然而,這些方法的采用均沒有從整體上對傳統(tǒng)發(fā)電調控框架進行改善.

為了完整地解決傳統(tǒng)發(fā)電調控框架中存在的問題,本文提出一種實時經濟調度與控制(Real-time economic generation dispatch and control,REG)框架替代傳統(tǒng)的發(fā)電控制框架.除此之外,為適應REG框架,還提出一種懶惰強化學習(Lazy reinforcement learning,LRL)算法.由于懶惰強化學習算法是一種需要大量數(shù)據的算法,所提算法需要大量數(shù)據進行訓練.因此,采用基于人工社會–計算實驗–平行執(zhí)行(Artificial societies— Computational experiments—Parallel execution,ACP)和社會系統(tǒng)的平行系統(tǒng),在短時間內產生大量數(shù)據以適應所提算法的需要.文獻[15]提出基于ACP的平行系統(tǒng)進行社會計算的理論.文獻[16]提出一種可用于信息和控制的基于信息–物理系統(tǒng)和ACP的分散自治系統(tǒng).平行系統(tǒng)或平行時代的理論已經被應用到很多領域,例如,平行管理系統(tǒng)[17]、區(qū)塊鏈領域[18]、機器學習[19]和核電站安全可靠性的分析[20]等.在一個實際系統(tǒng)中,社會目標也被考慮在CPS中,也可稱為信息物理社會融合系統(tǒng)(CPSS)[21];同時,CPS的概念中應當加入社會系統(tǒng),即“智能電網”或“能源互聯(lián)網”[22].

因此,基于REG框架的控制方法是一種適用于互聯(lián)大電網發(fā)電調度和控制的統(tǒng)一時間尺度的調控方法.

雖然采用基于ACP和社會系統(tǒng)的平行系統(tǒng)可以快速獲取海量的數(shù)據,但是這些數(shù)據中既存在調控效果較好的數(shù)據,也有調控效果較差的數(shù)據.為了解決這一問題,設計了一種選擇算子對有利于LRL訓練的數(shù)據進行篩選保留.另外,由于AGC機組存在大量約束限制.設計了一種松弛算子對優(yōu)化結果進行限制.

為了對比人工神經網絡(Artificial neural network,ANN)和LRL的調控效果,本文設計了一種基于人工神經網絡和松弛算子結合的松弛人工神經網絡算法(Relaxed artificial neural network,RANN).本文提出的LRL算法的特性歸納如下:

1)作為一種統(tǒng)一時間尺度的控制器,從長遠角度來看,LRL可以避免不同時間尺度需要協(xié)同調控問題.

2)為LRL設計了一個強化網絡,可為一個區(qū)域的所有AGC機組提供多個輸出.且采用松弛機滿足AGC機組的約束.

3)懶惰學習的控制策略可以采用從平行系統(tǒng)不斷產生的海量數(shù)據進行在線更新.這有利于LRL進行訓練.

1 傳統(tǒng)發(fā)電調控框架概述

如圖1所示,傳統(tǒng)發(fā)電調控框架包含UC,ED,AGC和GCD四個過程.

圖1 傳統(tǒng)發(fā)電調控框架Fig.1 Framework of conventional generation control

UC負責制定長期(1天)的機組開停和有功出力計劃;然后ED重新制定短期(15分鐘)所有已開啟的機組的發(fā)電指令;最后AGC和GCD為所有AGC機組再次重新制定實時發(fā)電指令.

1.1 模型分析

1.1.1 機組組合模型

UC的目標是在給定時間周期內制定出最優(yōu)的機組開停和生產出力計劃.因此,UC問題是一個隨機混合0-1整數(shù)規(guī)劃問題,可以采用優(yōu)化算法進行求解.

UC問題的優(yōu)化目標是使總發(fā)電成本最低,UC問題的約束包括:有功平衡約束、熱備用約束、有功出力限制約束以及發(fā)電機調節(jié)比率約束,其目標函數(shù)表達式及約束條件為

其中,T為給定時間周期內的時間斷面的個數(shù),一般設定為24;Ji為第i個區(qū)域內的發(fā)電機組個數(shù);uj,t為第j個發(fā)電機組在第t時間斷面的狀態(tài),uj,t取值為1或0,分別代表機組開啟和關停狀態(tài);總發(fā)電成本包括燃料成本Fj(Pj,t)和啟動成本SUj,t;PDi,t為第i個區(qū)域內在第t時間段內的負荷需求總量;分別為在第i區(qū)域的第j個發(fā)電機組的有功出力的最小值和最大值;SRi,t為第i個區(qū)域內在第t時間段內所需的熱備用容量;分別為第j臺發(fā)電機組的上調和下調的最大幅度限制;為第j個發(fā)電機組的持續(xù)開啟時間的最小值;為第j個發(fā)電機組的持續(xù)停機時間的最小值.

燃料成本Fj(Pj,t),啟動成本SUj,t以及約束uj,t的計算公式如下:

其中,Pj,t為第j臺發(fā)電機組在第t個時間斷面時的有功出力;aj,bj和cj分別是發(fā)電成本的常數(shù)因子,一次項因子和二次項因子;分別為第j臺發(fā)電機組開啟和關停的累積時間;是第j臺發(fā)電機組從完全關停狀態(tài)進行冷啟動所需的時間;SUH,j和SUC,j分別為第j臺發(fā)電機組進行熱啟動和冷啟動所需的成本.

1.1.2 經濟調度模型

ED采用優(yōu)化算法從經濟角度重新制定發(fā)電命令.通常ED的優(yōu)化目標包括兩部分:經濟目標和碳排放目標.將兩種優(yōu)化目標進行線性權重結合,得到最終的ED的模型如下:

其中,PDi為第i個區(qū)域的系統(tǒng)總負荷量,ω為經濟目標權重.

經濟目標和碳排放目標具體表達如下:

1.1.3 自動發(fā)電控制模型

圖2是傳統(tǒng)實時控制系統(tǒng)中包含兩個區(qū)域的電力系統(tǒng)AGC模型.AGC控制器的輸入為第i個區(qū)域的頻率誤差和區(qū)域控制誤差(Area control error,ACE)ei,輸出為第i個區(qū)域的發(fā)電命令.AGC模型的控制周期為秒級,一般設定為4秒或8秒.

圖2 兩區(qū)電力系統(tǒng)的AGC模型Fig.2 AGC model of two-area power system

1.1.4 發(fā)電命令調度模型

GCD的輸入為ACG產生的發(fā)電指令,輸出為第i個區(qū)域內所有AGC機組的發(fā)電命令?Pi,j.進而,ACG單元的實際發(fā)電指令取ED和GCD的發(fā)電指令之和,即.在實際工程中,GCD的目標采用如式(5)所示的經濟目標.

1.2 傳統(tǒng)控制算法和優(yōu)化算法分析

頻率控制包含三種調節(jié)方式:一次調頻、二次調頻以及三次調頻.一次調頻通過調節(jié)發(fā)電機組在短時間內的有功出力,進而調節(jié)系統(tǒng)頻率.但是,一次調頻是一種有差調節(jié)方式.為了更好地平衡發(fā)電機和負荷之間的有功功率,電力系統(tǒng)引入了二次調頻和三次調頻方式.二次調頻和三次調頻包含了多種算法的集成,即集成了UC,ED,AGC和GCD.其中,AGC采用的是控制算法,而UC,ED和GCD均為優(yōu)化算法.因此,傳統(tǒng)發(fā)電調控算法是一種“優(yōu)化算法+優(yōu)化算法+控制算法+優(yōu)化算法”的組合形式.

大量的優(yōu)化算法被運用到UC,ED和GCD之中.常用的優(yōu)化算法有:GA[23]、PSO[24]、模擬退火算法[25]、多元優(yōu)化算法[26]、灰狼優(yōu)化算法[27]、多目標極值優(yōu)化算法[28]、混沌多目標機制優(yōu)化算法[29]等.同時,多種控制算法被運用于AGC控制器中.諸如傳統(tǒng)的PID算法、模糊邏輯控制算法[30]、模糊PID[31]、滑動模式控制器[32]、自抗擾控制器[33]分數(shù)階 PID[34]、Q 學習[35]、Q(λ) 學習[14]和 R(λ) 學習[36]以及分布式模型預測控制算法[37]等.表1展示了頻率調節(jié)方式和傳統(tǒng)發(fā)電調控框架之間的關系.

表1 頻率調節(jié)方式與傳統(tǒng)發(fā)電調控框架之間的關系Table 1 Relationship between regulation processes and conventional generation control framework

在第i區(qū)域中,UC依據下一天的負荷預測值PDi,t制定發(fā)電機的啟動狀態(tài)ui,t,j以及出力水平Pj,t.其中時間周期為一天中的每小時,即t={1,2,···,24};ED 采用15分鐘后的超短期負荷預測值PDi制定有功出力值Pi,j;AGC控制器計算第i個區(qū)域的總發(fā)電需求量?Pi;GCD將總的發(fā)電量?Pi分配到每個AGC機組?Pi,j.

2 基于ACP的懶惰強化學習的實時經濟調度與控制

2.1 懶惰強化學習和實時經濟調度與控制

為了快速獲取準確的發(fā)電調度與控制動作,本文建立了大量的平行發(fā)電控制系統(tǒng).如圖3所示,在平行發(fā)電系統(tǒng)中,多重虛擬發(fā)電控制系統(tǒng)被用來對真實發(fā)電控制系統(tǒng)不斷地進行仿真.當虛擬控制發(fā)電系統(tǒng)的控制效果優(yōu)于實際發(fā)電控制系統(tǒng)時,它們之間會交換它們發(fā)電控制器的重要數(shù)據.即虛擬發(fā)電控制系統(tǒng)將重要的控制器參數(shù)傳遞到真實發(fā)電控制系統(tǒng),而真實發(fā)電系統(tǒng)則將更新后的系統(tǒng)模型參數(shù)反饋回虛擬發(fā)電控制系統(tǒng).

圖3 平行發(fā)電控制系統(tǒng)Fig.3 Parallel generation control systems

由于通過平行系統(tǒng)可以獲取海量的數(shù)據,如果采用傳統(tǒng)學習方法對控制算法學習進行訓練將花費大量的時間.因此,需要采用一種更有效的學習算法對海量數(shù)據進行學習.本文針對平行發(fā)電控制系統(tǒng)的特點,提出一種懶惰強化學習算法(LRL).如圖4所示,LRL由懶惰學習、選擇算子、強化網絡以及松弛算子四部分構成.提出的LRL算法可以設計成為基于REG框架的控制器,可以替代傳統(tǒng)的組合算法(UC,ED,AGC和GCD).因此,基于REG框架的控制器的輸入為頻率誤差?fi和ACEei,輸出為所有AGC機組的發(fā)電命令?Pi,j.

LRL的懶惰學習將對下一個系統(tǒng)狀態(tài)進行預測.因此,懶惰學習的輸入為頻率誤差?fi和ACEei.此外,懶惰學習可以依據電力系統(tǒng)當前采取的動作集A預測電力系統(tǒng)的下一狀態(tài).其中,初始動作集合A描述如下:

其中,A具有k列,每一列都是一個AGC機組的發(fā)電命令動作向量.對下一狀態(tài)的預測同樣具有k列,且每一列與每一個動作向量的預測相對應.因此,是一個依據所有k列動作向量預測而組成的k列預測矩陣.

采用懶惰學習方法估計未知函數(shù)的值與映射g:Rm→R類似.懶惰學習方法的輸入和輸出可以從矩陣Φ獲取,描述如下:

其中,?i為Nlazy×k的輸入矩陣,i=1,2,···,Nlazy;yi為Nlazy×1的輸出向量.第q個查詢點的預測值可以由下式計算.

其中,Z=WΦ;v=Wy.W是一個對角矩陣,Wii=ωi,其中,ωi為從查詢點?q到點?i的距離d(?i,?q)的權重函數(shù).從而,(ZTZ)β=ZTv可以作為一個局部加權回歸模型.在其訓練過程的誤差校驗方法可為留一法交叉校驗(Leave-one-out cross-validation,LOOCV),計算方式為

圖4 基于REG的LRL控制器的流程圖Fig.4 Procedures of LRL based REG controller

其中,eCV(i)為第i個留一誤差,計算方式為

其中,Pn為矩陣的回歸逼近;βn為n鄰近的最優(yōu)最小二乘序列參數(shù);且在中滿足1≤i≤n;βn+1的計算方法如下:

因此,針對REG問題,所提LRL算法中懶惰學習離線學習和在線學習的輸入和輸出可見表2.

表2 懶惰強化學習輸入輸出量Table 2 Inputs and outputs of lazy reinforcement learning

LRL中的強化網絡可以計算出總的發(fā)電命令?Pi,并分配?Pi,j到第i個區(qū)域里的所有AGC機組上,其中,.強化網絡由強化學習和一個反向傳播神經網絡(Back propagation neural network,BPNN)組成.Q學習是一種無需模型的控制算法.基于Q學習的控制器可以在線根據環(huán)境變化更新其控制策略.此類控制器的輸入為狀態(tài)值和獎勵值,輸出為作用于環(huán)境的動作量.它們可以依據Q-矩陣Q和概率分布矩陣P,針對當前的環(huán)境狀態(tài)s,制定應當進行的動作a.矩陣Q和P可以由獎勵函數(shù)隨后進行更新.

其中,α為學習率;γ為折扣系數(shù);β為概率系數(shù);s,s'分別為當前狀態(tài)和下一狀態(tài);R(s,s',a)為獎勵函數(shù),與當前狀態(tài)s和由動作a導致的狀態(tài)有關.當前狀態(tài)s和下一狀態(tài)s'同屬于狀態(tài)集合S,即s∈S,s'∈S.被選擇的動作a輸出動作集合A,即a∈A.本文采用結構簡單的三層感知器BPNN,分配到多個機組的輸出的計算公式為

BPNN訓練算法為萊文貝格–馬夸特方法(Levenberg-Marquardt algorithm).

LRL的松弛算子類似一個操作員對強化網絡的輸出進行約束控制.因此,松弛算子的約束可以表達為

2.2 離線訓練過程

傳統(tǒng)學習算法會對所有通過平行系統(tǒng)獲取的數(shù)據進行學習.然而,采用這些數(shù)據進行學習不一定能夠取得比當前真實系統(tǒng)更優(yōu)的控制效果.因此,本文提出的LRL方法,會篩選出那些更優(yōu)的數(shù)據進行學習.即,當在t時刻的狀態(tài)st優(yōu)于時刻的狀態(tài),而劣于t+?t時刻的狀態(tài),那么算法將排除從st到的變化過程數(shù)據,而將保留從st到的變化過程數(shù)據進行離線訓練.

針對REG問題,離線訓練的輸入與輸出如表2所示.但在對比狀態(tài)時,可將狀態(tài)設定為預測的區(qū)域i頻率偏差,即,也即從選擇最優(yōu)值對應的輸入和輸出數(shù)據進行訓練.圖5是在平行系統(tǒng)下基于REG框架的懶惰強化學習的控制器運行步驟.

3 算例結果

圖5 平行系統(tǒng)下基于REG控制器的LRL算法的流程圖Fig.5 Procedures of LRL based REG controller under parallel systems

本文仿真均是在主頻為2.20GHz,內存96GB的AMAX XR-28201GK型服務器上基于MATLAB 9.1(R2016b)平臺實現(xiàn)的.表3是仿真中采用的所有算法,其中各算法的含義見表4.

表3 仿真所用的算法Table 3 Algorithms for this simulation

表4 各對比算法的縮寫Table 4 Abbreviation of compared algorithms

組合算法和REG控制器的仿真時間設定為1天或86400秒.總共采用了有4608種傳統(tǒng)發(fā)電調控算法(8×8×8×9=4608種組合)和兩種基于REG框架的算法進行仿真實驗.總的設置仿真模擬時間為12.6301年或為(8×8×8×9+2)天.所有的傳統(tǒng)發(fā)電調控算法的參數(shù)設置詳見附錄A.

圖6是IEEE新英格蘭10機39節(jié)點標準電力系統(tǒng)結構.從圖6可以看出,仿真實驗將該電力系統(tǒng)劃分成3個區(qū)域.該系統(tǒng)中設置10臺發(fā)電機,發(fā)電機{30,37,39}劃分至區(qū)域1,發(fā)電機{31,32,33,34,35}劃分至區(qū)域2,剩下的發(fā)電機{36,38}劃分至區(qū)域3.除此之外,光伏,風電以及電動汽車也被納入仿真模型之中(詳細參數(shù)見圖7).其中,電動汽車負荷需求曲線為5種不同車輛用戶行為疊加而成的.各個機組參數(shù)如表5和表6所示.

圖6 新英格蘭電力系統(tǒng)結構圖Fig.6 Structure of New-England power system

圖7 光伏、電動汽車、風電、負荷曲線Fig.7 Curves of photo-voltaic power(PV),electric vehicle(EV),wind power and load

仿真實驗設置發(fā)電控制的控制周期為4s.REG控制器每4s計算一次.對于傳統(tǒng)組合算法,UC每天進行一次,ED每15分鐘優(yōu)化一次,AGC和GCD每次控制周期中計算一次.松弛人工神經網絡RANN算法由人工神經網絡和所提LRL算法中的松弛算子組成.LRL整體的輸入和輸出分別作為RANN算法的輸入和輸出.RANN算法的松弛算子見式(18)～(20).BPNN選擇的三層感知網絡的隱含層神經元的個數(shù)設定為40個.每個松弛人工神經網絡設置有40個隱藏元.在所提LRL算法中,強化學習和懶惰學習的動作集k的列數(shù)設為121,該列數(shù)一般可選范圍較大;動作值選為從?300～300MW;其中強化學習的學習率的范圍為α∈(0,1],本文選為0.1;概率選擇系數(shù)β∈(0,1],本文設定為0.5;折扣系數(shù)λ∈(0,1],本文設定為0.9.其中學習率選擇的越大學習速度越快,但會導致精度隨之下降.

表5 機組參數(shù)表Table 5 Parameters of the generators

表6 機組組合問題參數(shù)表Table 6 Parameters for unit commitment problem

強化學習系列算法Q 學習、Q(λ)學習和R(λ)學習算法的離線學習是時間分別為2.27h,2.49h和2.95h;松弛人工神經網絡算法的訓練時間為15.50h;所提LRL算法的離線訓練時間為6.60h.雖然所提LRL算法較傳統(tǒng)強化學習算法在離線訓練效率方面不具有優(yōu)勢,但是其具有最佳的控制效果.同時,與統(tǒng)一時間尺度的松弛人工神經網絡算法相比,LRL算法的離線訓練時間較小且其控制效果更優(yōu).

仿真結果展示在圖8～12和表7～10中.

圖8 仿真統(tǒng)計結果Fig.8 Statistical result

表7 UC算法仿真結果統(tǒng)計Table 7 Statistic of simulation results obtained by the UC algorithms

表8 ED算法仿真結果統(tǒng)計Table 8 Statistic of simulation results obtained by the ED algorithms

表9 AGC算法仿真結果統(tǒng)計Table 9 Statistic of simulation results obtained by the AGC algorithms

表10 GCD算法仿真結果統(tǒng)計Table 10 Statistic of simulation results obtained by the GCD algorithms

圖9 仿真統(tǒng)計結果(頻率偏差)Fig.9 Statistical result of frequency deviation

圖10 仿真統(tǒng)計結果(區(qū)域控制誤差)Fig.10 Statistical result of area control error

圖11 平行系統(tǒng)頻率偏差收斂曲線Fig.11 Convergence curve of frequency deviation obtained by the parallel systems

圖12 平行系統(tǒng)區(qū)域控制誤差收斂曲線Fig.12 Convergence curve of area control error obtained by the parallel systems

圖8是頻率偏差、區(qū)域控制誤差和仿真計算所用時間的統(tǒng)計結果,其中所提LRL算法能得到最優(yōu)的調控效果.

圖9是各個算法頻率偏差的統(tǒng)計對比效果,其中所提LRL算法能在所有區(qū)域均獲得最小的頻率偏差.圖10是各個算法獲得的區(qū)域控制誤差的統(tǒng)計結果,可以看出,所提LRL算法不會導致大量犧牲某個區(qū)域的功率來滿足其他區(qū)域的功率平衡.

圖11和圖12是利用平行系統(tǒng)仿真數(shù)據對所提LRL算法訓練的收斂曲線圖.可以看出,經過667次的迭代,能獲得最優(yōu)的收斂結果.

從圖9以及表7～10可以看出,與傳統(tǒng)組合發(fā)電控制算法和松弛人工神經網絡相比,本文提出的LRL方法可以保持系統(tǒng)內的有功平衡,并且能使電網頻率偏差達到最低.因此,LRL能夠在多區(qū)域大規(guī)模互聯(lián)電網中取得最優(yōu)的控制效果.

從圖8和圖10可以看出,在仿真中,由于LRL可以在最短時間內取得最低的頻率偏差和最低的控制錯誤率,LRL的懶惰學習可以有效地對電力系統(tǒng)的下一狀態(tài)進行預測.因此,LRL可以提供準確的AGC機組動作指令.

在應對多區(qū)域大規(guī)?；ヂ?lián)電網的經濟調度和發(fā)電控制問題時,REG控制器完全可以取代傳統(tǒng)的組合算法方法.

從圖11和圖12可以看出,由于仿真采用了平行系統(tǒng),降低了使用的真實仿真時間,由于平行系統(tǒng)進行了迭代,加速了仿真的過程.

4 結論

為了解決多區(qū)域大規(guī)?；ヂ?lián)電網經濟調度和發(fā)電控制中存在的協(xié)同問題,本文提出了一種REG框架.該框架可作為一種傳統(tǒng)發(fā)電調控框架的替代.然后,為REG控制器提出了一種基于人工社會–計算實驗–平行執(zhí)行方法的懶惰學習算法.基于REG控制器的LRL算法的特征可以總結如下:

1)本文提出了一種統(tǒng)一時間尺度的REG控制框架,并提出一種基于REG控制器的LRL算法.可以有效地對電力系統(tǒng)的下一運行狀態(tài)進行預測并且輸出滿足UC問題的約束動作指令,取得最優(yōu)的控制效果.

2)LRL中的強化學習網絡具有同時產生多個輸出的能力.因此,基于REG控制器LRL的可以不斷地為存在于多區(qū)域大規(guī)?；ヂ?lián)電網的所有AGC機組輸出發(fā)電命令.

3)通過搭建平行系統(tǒng),使得基于LRL的REG控制器可以用于解決多區(qū)域大規(guī)?；ヂ?lián)電網經濟調度和發(fā)電控制問題.

附錄A

各算法重要參數(shù)設置如下:

1)PID控制:比例系數(shù)kP=?0.006031543250198,積分系數(shù)kI=0.00043250;

2)滑?？刂破?開通/關斷點kpoint=±0.1Hz,開通/關斷輸出kv=±80MW;

3)自抗擾控制:擴張狀態(tài)觀測器

4)分數(shù)階PID控制:比例系數(shù)kP=?1,積分系數(shù)kI=0.43250,λ=1.3,μ=200;

5)模糊邏輯控制器:X(輸入,?f)在[?0.2,0.2]Hz等間隔選取21個區(qū)間,Y(輸入,R?fdt)在[?1,1]Hz等間隔選取21個區(qū)間,Z(輸出,?P)在[?150,150]MW 等間隔選取441個區(qū)間;

6)Q 學習:動作集A={?300,?240,?180,?120,?60,0,60,120,180,240,300},學習率α=0.1,概率分布常數(shù)β=0.5,未來獎勵折扣系數(shù)γ=0.9,λ=0.9;

7)Q(λ) 學習:A={?300,?240,?180,?120,?60,0,60,120,180,240,300},α=0.1,β=0.5,γ=0.9,λ=0.9;

8)R(λ)學習:A={?300,?240,?180,?120,?60,0,60,120,180,240,300},α=0.1,β=0.5,γ=0.9,λ=0.9,R0=0;

9)對于所有用于UC的優(yōu)化算法:進化代數(shù)Ng=50,種群數(shù)目Ps=10;

10)對于所有用于ED的優(yōu)化算法:進化代數(shù)Ng=30,種群數(shù)目Ps=10;

11)對于所有用于GCD的優(yōu)化算法:進化代數(shù)Ng=5,種群數(shù)目Ps=10;

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡