信息物理系統(tǒng)下區(qū)域發(fā)電Q學(xué)習(xí)控制方法*

2021-03-30 09:09:36劉新展朱文紅陳佳鵬鄭全朝王成佐

沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào) 2021年2期

劉新展，朱文紅，陳佳鵬，鄭全朝，王成佐

(1. 廣東電網(wǎng)有限責(zé)任公司電力調(diào)度控制中心，廣州 510200； 2. 廣東益泰達(dá)科技發(fā)展有限公司電力調(diào)度部，廣州 510200)

人工智能算法近年來(lái)得到了廣泛的研究和應(yīng)用，其中機(jī)器學(xué)習(xí)是應(yīng)用最為廣泛的算法類型.按照智能體與環(huán)境之間的交互關(guān)系，機(jī)器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[1-2].強(qiáng)化學(xué)習(xí)憑借其不需要專家系統(tǒng)的內(nèi)在特征，具備更強(qiáng)的適應(yīng)性，已成為當(dāng)前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)類型.

寧劍等[3]系統(tǒng)介紹了基于控制響應(yīng)函數(shù)的區(qū)域電網(wǎng)自動(dòng)發(fā)電控制(automatic generation control，AGC)方法，該研究表明控制響應(yīng)函數(shù)自身計(jì)算的復(fù)雜性是實(shí)際應(yīng)用的重要瓶頸，為此利用強(qiáng)化學(xué)習(xí)等智能算法成為該領(lǐng)域研究的熱點(diǎn).張孝順等[4-5]基于多智能體協(xié)同學(xué)習(xí)，提出了面向互聯(lián)電網(wǎng)的區(qū)域AGC控制算法；Lin等[6]綜合考慮AGC功率分配中安全、節(jié)能、經(jīng)濟(jì)等多方面調(diào)控目標(biāo)，提出了基于Q學(xué)習(xí)算法的多目標(biāo)AGC調(diào)節(jié)容量動(dòng)態(tài)優(yōu)化分配方法；余濤等[7]結(jié)合大規(guī)?；ヂ?lián)電網(wǎng)中各區(qū)域電網(wǎng)協(xié)同控制的要求，提出了基于改進(jìn)分層強(qiáng)化學(xué)習(xí)的多區(qū)域電網(wǎng)CPS指令動(dòng)態(tài)優(yōu)化分配算法.

當(dāng)前強(qiáng)化學(xué)習(xí)在電網(wǎng)AGC控制方面的研究集中于大電網(wǎng)或微電網(wǎng)控制層面，對(duì)區(qū)域電網(wǎng)的控制方法研究仍相對(duì)較少.本文圍繞區(qū)域電網(wǎng)AGC控制問(wèn)題，介紹Q學(xué)習(xí)算法基本原理和算法流程.基于區(qū)域電網(wǎng)AGC控制需求，在信息物理系統(tǒng)體系下構(gòu)建其控制框架，并提出其動(dòng)作空間、回報(bào)函數(shù)、環(huán)境狀態(tài)等3個(gè)關(guān)鍵特征量，基于某地區(qū)電網(wǎng)實(shí)際數(shù)據(jù)構(gòu)造算例，驗(yàn)證本文所提出算法的有效性.

1 Q學(xué)習(xí)算法基本原理與算法流程

1.1 強(qiáng)化學(xué)習(xí)基本原理

強(qiáng)化學(xué)習(xí)是近年來(lái)發(fā)展較快的機(jī)器學(xué)習(xí)算法，其最大特點(diǎn)在于智能體通過(guò)與環(huán)境不斷交互，實(shí)現(xiàn)策略的改進(jìn)，因此，具有較強(qiáng)的適應(yīng)性和魯棒性.強(qiáng)化學(xué)習(xí)的基本框架如圖1所示，其中，共涉及5個(gè)基本要素：狀態(tài)空間、動(dòng)作空間、轉(zhuǎn)移函數(shù)、回報(bào)及動(dòng)作策略[8]，其實(shí)施策略可簡(jiǎn)述如下：

1) 學(xué)習(xí)智能體基于監(jiān)測(cè)到的環(huán)境狀態(tài)，按照自身策略在給定的動(dòng)作空間中選擇相應(yīng)的動(dòng)作執(zhí)行；

2) 環(huán)境將因此發(fā)生狀態(tài)改變，學(xué)習(xí)智能體據(jù)此對(duì)其動(dòng)作優(yōu)劣進(jìn)行評(píng)價(jià)，計(jì)算該動(dòng)作的回報(bào)；

3) 通過(guò)統(tǒng)計(jì)分析回報(bào)值的大小調(diào)整自身策略，直至取得最優(yōu)策略.

按照強(qiáng)化學(xué)習(xí)框架中上述5個(gè)要素是否已知，可將強(qiáng)化學(xué)習(xí)分為有模型學(xué)習(xí)和免模型學(xué)習(xí)兩類.有模型學(xué)習(xí)可根據(jù)模型關(guān)系直接推導(dǎo)得到學(xué)習(xí)智能體的最優(yōu)策略，而對(duì)于免模型學(xué)習(xí)，則需要根據(jù)智能體與環(huán)境之間的交互，不斷改進(jìn)策略以獲得最優(yōu)策略.

1.2 Q學(xué)習(xí)算法實(shí)施流程

圖1 強(qiáng)化學(xué)習(xí)基本框架

(1)

圖2 Q學(xué)習(xí)算法實(shí)施流程

流程主要包括以下4個(gè)主要步驟：

1) 構(gòu)造ε-貪心策略πε并執(zhí)行.為避免原策略在動(dòng)作選擇上可能的“僅利用”傾向，Q學(xué)習(xí)算法將利用ε-貪心策略對(duì)原策略重構(gòu)，所獲得新策略可表示為

(2)

式中：π、πε分別為原策略和新構(gòu)造的策略；πε(x)、π(x)為新策略和原策略在環(huán)境狀態(tài)下所采取的動(dòng)作；ΔA為均勻概率選擇的動(dòng)作；ε為人工給定的貪心系數(shù).對(duì)于基于ε-貪心算法構(gòu)造的新策略πε，將以概率1-ε采用原策略下的動(dòng)作，并以總概率1-ε在動(dòng)作空間中均勻選取任一動(dòng)作執(zhí)行.利用構(gòu)造所得的ε-貪心策略作用于環(huán)境，并記錄所獲取的回報(bào)值.

Qk+1(xk，ak)=Qk(xk，ak)+α[R(xk，xk+1，ak)+

(3)

3) 策略改進(jìn).策略更新的目標(biāo)在于獲取最優(yōu)的動(dòng)作策略，保證在各環(huán)境狀態(tài)下按照該策略執(zhí)行所獲得回報(bào)期望最高，策略改進(jìn)公式可表示為

(4)

4) 收斂判定.當(dāng)?shù)鷿M足策略改進(jìn)后，策略改變量小于給定值時(shí)，則可判定收斂并輸出結(jié)構(gòu)，該判定關(guān)系可表示為

(5)

式中：π*k(x)、π*k+1(x)分別為第k次迭代前后的最優(yōu)策略；δ為給定限值.

2 區(qū)域發(fā)電控制的Q學(xué)習(xí)建模實(shí)現(xiàn)

2.1 基于CPS的區(qū)域電網(wǎng)AGC控制架構(gòu)

所謂信息物理系統(tǒng)(cyber-physical system，CPS)是指通過(guò)通信網(wǎng)絡(luò)將物理系統(tǒng)與信息系統(tǒng)緊密聯(lián)系的一體化控制系統(tǒng)，通過(guò)信息的高效采集、傳輸與計(jì)算，實(shí)現(xiàn)對(duì)物理系統(tǒng)的精準(zhǔn)控制[9-10].

區(qū)域電網(wǎng)信息物理系統(tǒng)架構(gòu)如圖3所示，區(qū)域電網(wǎng)的信息物理系統(tǒng)架構(gòu)包括：以電網(wǎng)、發(fā)電廠構(gòu)成的一次物理系統(tǒng)和以采集量測(cè)裝置、通信設(shè)備、運(yùn)行控制中心構(gòu)成的二次信息系統(tǒng).其中根據(jù)電源的運(yùn)行控制要求，可將其劃分為傳統(tǒng)電源和新能源兩大類.新能源主要是指風(fēng)電、光伏等可再生能源，相對(duì)運(yùn)行控制要求而言，由于新能源出力主要受氣象等因素影響，因此可控性較差；而水電、火電等傳統(tǒng)電源出力可控性較高.為提升電網(wǎng)運(yùn)行清潔化水平，一般要求優(yōu)先通過(guò)調(diào)整傳統(tǒng)電源出力，滿足區(qū)域電網(wǎng)的調(diào)控要求.

圖3 區(qū)域電網(wǎng)信息物理系統(tǒng)架構(gòu)

2.2 環(huán)境狀態(tài)

為得到上述離散化取值，首先需要對(duì)斷面潮流和電網(wǎng)頻率偏差調(diào)整量進(jìn)行歸一化，其計(jì)算公式為

(6)

在得到上述歸一化環(huán)境狀態(tài)量后，還需要進(jìn)一步對(duì)其進(jìn)行離散化處理.考慮到送電通道潮流和電網(wǎng)頻率偏差功率調(diào)整量存在的方向性要求，文中對(duì)多環(huán)境狀態(tài)進(jìn)行離散化處理，結(jié)果如表1所示.

2.3 動(dòng)作空間

表1 環(huán)境狀態(tài)變量離散化結(jié)果

表2 動(dòng)作空間變量離散化結(jié)果

2.4 回報(bào)函數(shù)

“風(fēng)火打捆”模式不同于傳統(tǒng)模式，要求優(yōu)先調(diào)整火電機(jī)組出力以保證區(qū)域送出功率，按照其給定計(jì)劃曲線執(zhí)行[12]，并在斷面潮流存在裕度的情況下，響應(yīng)系統(tǒng)的頻率偏差調(diào)控要求.根據(jù)上述運(yùn)行要求，回報(bào)函數(shù)可表示為

(7)

3 算例分析

3.1 基礎(chǔ)數(shù)據(jù)

本算例中將對(duì)IEEE-30節(jié)點(diǎn)系統(tǒng)進(jìn)行改造，在原節(jié)點(diǎn)26與節(jié)點(diǎn)28處分別增加一條對(duì)外聯(lián)絡(luò)線，以模擬區(qū)域電網(wǎng)與主網(wǎng)相連的場(chǎng)景，驗(yàn)證本文所提算法的有效性.改造后所得的地區(qū)電網(wǎng)網(wǎng)架結(jié)構(gòu)如圖4所示.

圖4 區(qū)域電網(wǎng)網(wǎng)架

該區(qū)域電網(wǎng)的電源包括：火電廠3個(gè)，風(fēng)電場(chǎng)3個(gè)，各電源的基本參數(shù)如表3所示.

表3 電源基本參數(shù)

3.2 結(jié)果分析

算例中Q學(xué)習(xí)算法模型所用到的基礎(chǔ)參數(shù)為α1=6，α2=3，α3=1.Q學(xué)習(xí)算法在實(shí)際應(yīng)用生產(chǎn)控制智能體前，需要經(jīng)過(guò)歷史數(shù)據(jù)的學(xué)習(xí).為此，利用寧劍等[3]所介紹的基于控制響應(yīng)函數(shù)的AGC控制方法，逐一計(jì)算各運(yùn)行場(chǎng)景下的電源出力調(diào)節(jié)要求，將其作為區(qū)域發(fā)電Q學(xué)習(xí)控制方法學(xué)習(xí)的基礎(chǔ)數(shù)據(jù).為驗(yàn)證該智能體在區(qū)域電網(wǎng)AGC控制中的實(shí)際效果，進(jìn)一步設(shè)計(jì)了靜態(tài)仿真和動(dòng)態(tài)仿真兩個(gè)場(chǎng)景.

1) 靜態(tài)仿真.算例中的靜態(tài)仿真不考慮智能體控制耗時(shí)和傳統(tǒng)基于控制響應(yīng)函數(shù)計(jì)算耗時(shí)，本文方法和文獻(xiàn)[3]調(diào)控策略差異對(duì)比如圖5所示.場(chǎng)景一中風(fēng)電增加出力10 MW，為防止斷面越限，傳統(tǒng)方法控制策略共減少火電出力9.85 MW，而本文所提出方法減少火電出力9.8 MW；場(chǎng)景二中風(fēng)電減少出力10 MW，傳統(tǒng)方法控制策略共增加火電出力10.2 MW，而本文所提出方法增加火電出力10.0 MW.兩個(gè)場(chǎng)景下，兩種方法的控制策略偏差不超過(guò)2%，表明在靜態(tài)控制中，兩種方法具有相近的控制效果.

圖5 靜態(tài)調(diào)控效果對(duì)比

2) 動(dòng)態(tài)仿真.本文所設(shè)計(jì)的風(fēng)電出力變化曲線如圖6所示，兩種控制方法的火電調(diào)節(jié)控制變化和聯(lián)絡(luò)線交換功率變化分別如圖7、8所示.在相同的風(fēng)電出力變化動(dòng)態(tài)過(guò)程中，傳統(tǒng)方法由于計(jì)算控制響應(yīng)函數(shù)耗時(shí)較長(zhǎng)，導(dǎo)致火電機(jī)組出力變化滯后于本文所提出的方法，進(jìn)而導(dǎo)致聯(lián)絡(luò)線交換功率變化的響應(yīng)速度也相應(yīng)滯后.該聯(lián)絡(luò)線交換功率控制值為815 MW，本文所提出方法的斷面功率越限時(shí)間僅為5 min，而傳統(tǒng)方法則超過(guò)8 min，表明本文所提出的方法具有更高的控制效果，對(duì)消除區(qū)域電網(wǎng)斷面越限等具有顯著效果.

圖6 風(fēng)電場(chǎng)出力

圖7 火電出力

圖8 聯(lián)絡(luò)線功率

4 結(jié) 論

本文研究了基于Q學(xué)習(xí)算法的區(qū)域電網(wǎng)AGC控制問(wèn)題.與傳統(tǒng)的大電網(wǎng)AGC控制相比，區(qū)域電網(wǎng)AGC控制在控制目標(biāo)上不僅要考慮頻率偏差調(diào)整，還需要考慮傳輸斷面的運(yùn)行控制要求；在控制對(duì)象上，需要區(qū)分傳統(tǒng)電源和新能源在調(diào)節(jié)次序上的差別.傳統(tǒng)的AGC控制策略難以適應(yīng)上述控制要求，而以Q學(xué)習(xí)算法為核心的強(qiáng)化學(xué)習(xí)計(jì)算方法具有較強(qiáng)的適應(yīng)性，能夠較好地滿足不同類型區(qū)域電網(wǎng)的運(yùn)行控制要求.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡