劉新展, 朱文紅, 陳佳鵬, 鄭全朝, 王成佐
(1. 廣東電網(wǎng)有限責(zé)任公司 電力調(diào)度控制中心, 廣州 510200; 2. 廣東益泰達(dá)科技發(fā)展有限公司 電力調(diào)度部, 廣州 510200)
人工智能算法近年來(lái)得到了廣泛的研究和應(yīng)用,其中機(jī)器學(xué)習(xí)是應(yīng)用最為廣泛的算法類型.按照智能體與環(huán)境之間的交互關(guān)系,機(jī)器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[1-2].強(qiáng)化學(xué)習(xí)憑借其不需要專家系統(tǒng)的內(nèi)在特征,具備更強(qiáng)的適應(yīng)性,已成為當(dāng)前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)類型.
寧劍等[3]系統(tǒng)介紹了基于控制響應(yīng)函數(shù)的區(qū)域電網(wǎng)自動(dòng)發(fā)電控制(automatic generation control,AGC)方法,該研究表明控制響應(yīng)函數(shù)自身計(jì)算的復(fù)雜性是實(shí)際應(yīng)用的重要瓶頸,為此利用強(qiáng)化學(xué)習(xí)等智能算法成為該領(lǐng)域研究的熱點(diǎn).張孝順等[4-5]基于多智能體協(xié)同學(xué)習(xí),提出了面向互聯(lián)電網(wǎng)的區(qū)域AGC控制算法;Lin等[6]綜合考慮AGC功率分配中安全、節(jié)能、經(jīng)濟(jì)等多方面調(diào)控目標(biāo),提出了基于Q學(xué)習(xí)算法的多目標(biāo)AGC調(diào)節(jié)容量動(dòng)態(tài)優(yōu)化分配方法;余濤等[7]結(jié)合大規(guī)?;ヂ?lián)電網(wǎng)中各區(qū)域電網(wǎng)協(xié)同控制的要求,提出了基于改進(jìn)分層強(qiáng)化學(xué)習(xí)的多區(qū)域電網(wǎng)CPS指令動(dòng)態(tài)優(yōu)化分配算法.
當(dāng)前強(qiáng)化學(xué)習(xí)在電網(wǎng)AGC控制方面的研究集中于大電網(wǎng)或微電網(wǎng)控制層面,對(duì)區(qū)域電網(wǎng)的控制方法研究仍相對(duì)較少.本文圍繞區(qū)域電網(wǎng)AGC控制問(wèn)題,介紹Q學(xué)習(xí)算法基本原理和算法流程.基于區(qū)域電網(wǎng)AGC控制需求,在信息物理系統(tǒng)體系下構(gòu)建其控制框架,并提出其動(dòng)作空間、回報(bào)函數(shù)、環(huán)境狀態(tài)等3個(gè)關(guān)鍵特征量,基于某地區(qū)電網(wǎng)實(shí)際數(shù)據(jù)構(gòu)造算例,驗(yàn)證本文所提出算法的有效性.
強(qiáng)化學(xué)習(xí)是近年來(lái)發(fā)展較快的機(jī)器學(xué)習(xí)算法,其最大特點(diǎn)在于智能體通過(guò)與環(huán)境不斷交互,實(shí)現(xiàn)策略的改進(jìn),因此,具有較強(qiáng)的適應(yīng)性和魯棒性.強(qiáng)化學(xué)習(xí)的基本框架如圖1所示,其中,共涉及5個(gè)基本要素:狀態(tài)空間、動(dòng)作空間、轉(zhuǎn)移函數(shù)、回報(bào)及動(dòng)作策略[8],其實(shí)施策略可簡(jiǎn)述如下:
1) 學(xué)習(xí)智能體基于監(jiān)測(cè)到的環(huán)境狀態(tài),按照自身策略在給定的動(dòng)作空間中選擇相應(yīng)的動(dòng)作執(zhí)行;
2) 環(huán)境將因此發(fā)生狀態(tài)改變,學(xué)習(xí)智能體據(jù)此對(duì)其動(dòng)作優(yōu)劣進(jìn)行評(píng)價(jià),計(jì)算該動(dòng)作的回報(bào);
3) 通過(guò)統(tǒng)計(jì)分析回報(bào)值的大小調(diào)整自身策略,直至取得最優(yōu)策略.
按照強(qiáng)化學(xué)習(xí)框架中上述5個(gè)要素是否已知,可將強(qiáng)化學(xué)習(xí)分為有模型學(xué)習(xí)和免模型學(xué)習(xí)兩類.有模型學(xué)習(xí)可根據(jù)模型關(guān)系直接推導(dǎo)得到學(xué)習(xí)智能體的最優(yōu)策略,而對(duì)于免模型學(xué)習(xí),則需要根據(jù)智能體與環(huán)境之間的交互,不斷改進(jìn)策略以獲得最優(yōu)策略.
圖1 強(qiáng)化學(xué)習(xí)基本框架
(1)
圖2 Q學(xué)習(xí)算法實(shí)施流程
流程主要包括以下4個(gè)主要步驟:
1) 構(gòu)造ε-貪心策略πε并執(zhí)行.為避免原策略在動(dòng)作選擇上可能的“僅利用”傾向,Q學(xué)習(xí)算法將利用ε-貪心策略對(duì)原策略重構(gòu),所獲得新策略可表示為
(2)
式中:π、πε分別為原策略和新構(gòu)造的策略;πε(x)、π(x)為新策略和原策略在環(huán)境狀態(tài)下所采取的動(dòng)作;ΔA為均勻概率選擇的動(dòng)作;ε為人工給定的貪心系數(shù).對(duì)于基于ε-貪心算法構(gòu)造的新策略πε,將以概率1-ε采用原策略下的動(dòng)作,并以總概率1-ε在動(dòng)作空間中均勻選取任一動(dòng)作執(zhí)行.利用構(gòu)造所得的ε-貪心策略作用于環(huán)境,并記錄所獲取的回報(bào)值.
Qk+1(xk,ak)=Qk(xk,ak)+α[R(xk,xk+1,ak)+
(3)
3) 策略改進(jìn).策略更新的目標(biāo)在于獲取最優(yōu)的動(dòng)作策略,保證在各環(huán)境狀態(tài)下按照該策略執(zhí)行所獲得回報(bào)期望最高,策略改進(jìn)公式可表示為
(4)
4) 收斂判定.當(dāng)?shù)鷿M足策略改進(jìn)后,策略改變量小于給定值時(shí),則可判定收斂并輸出結(jié)構(gòu),該判定關(guān)系可表示為
(5)
式中:π*k(x)、π*k+1(x)分別為第k次迭代前后的最優(yōu)策略;δ為給定限值.
所謂信息物理系統(tǒng)(cyber-physical system,CPS)是指通過(guò)通信網(wǎng)絡(luò)將物理系統(tǒng)與信息系統(tǒng)緊密聯(lián)系的一體化控制系統(tǒng),通過(guò)信息的高效采集、傳輸與計(jì)算,實(shí)現(xiàn)對(duì)物理系統(tǒng)的精準(zhǔn)控制[9-10].
區(qū)域電網(wǎng)信息物理系統(tǒng)架構(gòu)如圖3所示,區(qū)域電網(wǎng)的信息物理系統(tǒng)架構(gòu)包括:以電網(wǎng)、發(fā)電廠構(gòu)成的一次物理系統(tǒng)和以采集量測(cè)裝置、通信設(shè)備、運(yùn)行控制中心構(gòu)成的二次信息系統(tǒng).其中根據(jù)電源的運(yùn)行控制要求,可將其劃分為傳統(tǒng)電源和新能源兩大類.新能源主要是指風(fēng)電、光伏等可再生能源,相對(duì)運(yùn)行控制要求而言,由于新能源出力主要受氣象等因素影響,因此可控性較差;而水電、火電等傳統(tǒng)電源出力可控性較高.為提升電網(wǎng)運(yùn)行清潔化水平,一般要求優(yōu)先通過(guò)調(diào)整傳統(tǒng)電源出力,滿足區(qū)域電網(wǎng)的調(diào)控要求.
圖3 區(qū)域電網(wǎng)信息物理系統(tǒng)架構(gòu)
為得到上述離散化取值,首先需要對(duì)斷面潮流和電網(wǎng)頻率偏差調(diào)整量進(jìn)行歸一化,其計(jì)算公式為
(6)
在得到上述歸一化環(huán)境狀態(tài)量后,還需要進(jìn)一步對(duì)其進(jìn)行離散化處理.考慮到送電通道潮流和電網(wǎng)頻率偏差功率調(diào)整量存在的方向性要求,文中對(duì)多環(huán)境狀態(tài)進(jìn)行離散化處理,結(jié)果如表1所示.
表1 環(huán)境狀態(tài)變量離散化結(jié)果
表2 動(dòng)作空間變量離散化結(jié)果
“風(fēng)火打捆”模式不同于傳統(tǒng)模式,要求優(yōu)先調(diào)整火電機(jī)組出力以保證區(qū)域送出功率,按照其給定計(jì)劃曲線執(zhí)行[12],并在斷面潮流存在裕度的情況下,響應(yīng)系統(tǒng)的頻率偏差調(diào)控要求.根據(jù)上述運(yùn)行要求,回報(bào)函數(shù)可表示為
(7)
本算例中將對(duì)IEEE-30節(jié)點(diǎn)系統(tǒng)進(jìn)行改造,在原節(jié)點(diǎn)26與節(jié)點(diǎn)28處分別增加一條對(duì)外聯(lián)絡(luò)線,以模擬區(qū)域電網(wǎng)與主網(wǎng)相連的場(chǎng)景,驗(yàn)證本文所提算法的有效性.改造后所得的地區(qū)電網(wǎng)網(wǎng)架結(jié)構(gòu)如圖4所示.
圖4 區(qū)域電網(wǎng)網(wǎng)架
該區(qū)域電網(wǎng)的電源包括:火電廠3個(gè),風(fēng)電場(chǎng)3個(gè),各電源的基本參數(shù)如表3所示.
表3 電源基本參數(shù)
算例中Q學(xué)習(xí)算法模型所用到的基礎(chǔ)參數(shù)為α1=6,α2=3,α3=1.Q學(xué)習(xí)算法在實(shí)際應(yīng)用生產(chǎn)控制智能體前,需要經(jīng)過(guò)歷史數(shù)據(jù)的學(xué)習(xí).為此,利用寧劍等[3]所介紹的基于控制響應(yīng)函數(shù)的AGC控制方法,逐一計(jì)算各運(yùn)行場(chǎng)景下的電源出力調(diào)節(jié)要求,將其作為區(qū)域發(fā)電Q學(xué)習(xí)控制方法學(xué)習(xí)的基礎(chǔ)數(shù)據(jù).為驗(yàn)證該智能體在區(qū)域電網(wǎng)AGC控制中的實(shí)際效果,進(jìn)一步設(shè)計(jì)了靜態(tài)仿真和動(dòng)態(tài)仿真兩個(gè)場(chǎng)景.
1) 靜態(tài)仿真.算例中的靜態(tài)仿真不考慮智能體控制耗時(shí)和傳統(tǒng)基于控制響應(yīng)函數(shù)計(jì)算耗時(shí),本文方法和文獻(xiàn)[3]調(diào)控策略差異對(duì)比如圖5所示.場(chǎng)景一中風(fēng)電增加出力10 MW,為防止斷面越限,傳統(tǒng)方法控制策略共減少火電出力9.85 MW,而本文所提出方法減少火電出力9.8 MW;場(chǎng)景二中風(fēng)電減少出力10 MW,傳統(tǒng)方法控制策略共增加火電出力10.2 MW,而本文所提出方法增加火電出力10.0 MW.兩個(gè)場(chǎng)景下,兩種方法的控制策略偏差不超過(guò)2%,表明在靜態(tài)控制中,兩種方法具有相近的控制效果.
圖5 靜態(tài)調(diào)控效果對(duì)比
2) 動(dòng)態(tài)仿真.本文所設(shè)計(jì)的風(fēng)電出力變化曲線如圖6所示,兩種控制方法的火電調(diào)節(jié)控制變化和聯(lián)絡(luò)線交換功率變化分別如圖7、8所示.在相同的風(fēng)電出力變化動(dòng)態(tài)過(guò)程中,傳統(tǒng)方法由于計(jì)算控制響應(yīng)函數(shù)耗時(shí)較長(zhǎng),導(dǎo)致火電機(jī)組出力變化滯后于本文所提出的方法,進(jìn)而導(dǎo)致聯(lián)絡(luò)線交換功率變化的響應(yīng)速度也相應(yīng)滯后.該聯(lián)絡(luò)線交換功率控制值為815 MW,本文所提出方法的斷面功率越限時(shí)間僅為5 min,而傳統(tǒng)方法則超過(guò)8 min,表明本文所提出的方法具有更高的控制效果,對(duì)消除區(qū)域電網(wǎng)斷面越限等具有顯著效果.
圖6 風(fēng)電場(chǎng)出力
圖7 火電出力
圖8 聯(lián)絡(luò)線功率
本文研究了基于Q學(xué)習(xí)算法的區(qū)域電網(wǎng)AGC控制問(wèn)題.與傳統(tǒng)的大電網(wǎng)AGC控制相比,區(qū)域電網(wǎng)AGC控制在控制目標(biāo)上不僅要考慮頻率偏差調(diào)整,還需要考慮傳輸斷面的運(yùn)行控制要求;在控制對(duì)象上,需要區(qū)分傳統(tǒng)電源和新能源在調(diào)節(jié)次序上的差別.傳統(tǒng)的AGC控制策略難以適應(yīng)上述控制要求,而以Q學(xué)習(xí)算法為核心的強(qiáng)化學(xué)習(xí)計(jì)算方法具有較強(qiáng)的適應(yīng)性,能夠較好地滿足不同類型區(qū)域電網(wǎng)的運(yùn)行控制要求.