趙冬梅 陶 然 馬泰屹 夏 軒 王浩翔
(1. 華北電力大學(xué)電氣與電子工程學(xué)院 北京 102206 2. 國網(wǎng)紹興供電公司 紹興 312000)
我國資源和負(fù)荷分布不均勻,能源利用不充分,遠(yuǎn)距離輸電的格局已基本形成。文獻(xiàn)[1-3]做出了關(guān)于“未來一體化大電網(wǎng)調(diào)控系統(tǒng)”的前瞻性研究,設(shè)計(jì)了大電網(wǎng)全局決策和監(jiān)控框架。有功-無功協(xié)調(diào)調(diào)度是實(shí)現(xiàn)大電網(wǎng)智能調(diào)控、自動(dòng)巡航的關(guān)鍵一環(huán),是保證電網(wǎng)經(jīng)濟(jì)和安全運(yùn)行的前提之一。
文獻(xiàn)[4-6]基于網(wǎng)絡(luò)特性,利用二階錐松弛理論,實(shí)現(xiàn)配電網(wǎng)有功-無功的協(xié)調(diào)優(yōu)化計(jì)算。然而,二階錐松弛技術(shù)的計(jì)算速度無法達(dá)到較大電網(wǎng)的調(diào)度需求[7]。文獻(xiàn)[8]分析了無功電壓優(yōu)化對新能源消納的影響。文獻(xiàn)[9]基于模型預(yù)測控制研究了配電網(wǎng)動(dòng)態(tài)無功優(yōu)化方法。文獻(xiàn)[10]基于多目標(biāo)優(yōu)化算法研究了中壓配電網(wǎng)中有功-無功的協(xié)調(diào)優(yōu)化。文獻(xiàn)[11]研究了考慮配網(wǎng)重構(gòu)的多時(shí)間尺度無功優(yōu)化。文獻(xiàn)[12]研究了光伏并網(wǎng)系統(tǒng)的有功-無功控制問題。有功控制對象和無功控制對象通常分屬于不同的地區(qū)和調(diào)度主體,部分控制目標(biāo)之間存在沖突。在決策角度上,上述研究不能較好地解決有功-無功調(diào)度間的矛盾。
進(jìn)而,實(shí)現(xiàn)有功-無功協(xié)調(diào)調(diào)度需要智能組織電力系統(tǒng)中的靈活調(diào)控資源,系統(tǒng)的靈活調(diào)控資源包含可調(diào)度常規(guī)能源、需求側(cè)管理、儲(chǔ)能和與其他互聯(lián)市場的交易等[13]。但是,靈活多調(diào)控資源在最大化自身收益和優(yōu)化區(qū)域調(diào)控指標(biāo)間具有難以調(diào)和的矛盾,智能組織多種靈活調(diào)控資源是當(dāng)前一大熱點(diǎn)和難點(diǎn)。
多智能體技術(shù)是一類基于協(xié)同一致性原理,用于探索環(huán)境、解釋未知、自主更新和協(xié)調(diào)沖突的有效技術(shù)。實(shí)現(xiàn)多智能體系統(tǒng)的“智能”可以運(yùn)用強(qiáng)化學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)通常分為兩類:①值迭代(value based);②策略迭代(policy gradient)。文獻(xiàn)[14-21]將值迭代類型的強(qiáng)化學(xué)習(xí)方法運(yùn)用到電力系統(tǒng)中的優(yōu)化調(diào)度、控制等領(lǐng)域。而受到Q 表存儲(chǔ)和搜索的限制,智能體的狀態(tài)空間和動(dòng)作空間必須是離散的、低維的。上述研究均是采用將連續(xù)動(dòng)作空間離散化的類似處理方法。在運(yùn)用到有功-無功協(xié)調(diào)中時(shí)可能會(huì)損失一部分精度,且對訓(xùn)練過程中新出現(xiàn)的未知狀態(tài)和動(dòng)作適應(yīng)性不強(qiáng)。
相比值迭代類的強(qiáng)化學(xué)習(xí)方法,采用策略迭代更加適用于解決電力系統(tǒng)有功-無功協(xié)調(diào)這類擁有連續(xù)、高維狀態(tài)和動(dòng)作空間的問題。由于該種算法直接由策略梯度更新神經(jīng)網(wǎng)絡(luò)參數(shù),各智能體的動(dòng)作選擇差異會(huì)導(dǎo)致環(huán)境發(fā)生變化,影響了智能體在動(dòng)作選擇時(shí)的收斂性。所以,此類方法在電力系統(tǒng)中的應(yīng)用較少。針對上述問題,本文在對各類算法和多智能體環(huán)境探索的基礎(chǔ)上,提出適用于本文控制模型的改進(jìn)多智能體深度確定策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)。在智能體更新時(shí)考慮其他智能體的動(dòng)作選擇,從而提高在多智能體環(huán)境中各智能體的訓(xùn)練效果。同時(shí),搭建分層多智能體有功-無功協(xié)調(diào)調(diào)度框架;設(shè)計(jì)電力系統(tǒng)多智能體環(huán)境;構(gòu)造狀態(tài)空間、動(dòng)作空間和智能體獎(jiǎng)勵(lì)函數(shù)表達(dá)。最后,通過算例仿真和對比分析,驗(yàn)證本文所提模型及算法的優(yōu)勢和有效性。
多智能體系統(tǒng)是分布式控制中的一種技術(shù)體現(xiàn),分布式系統(tǒng)通常有四種組織形式[22]。分布式(distributed)的系統(tǒng)組織形式在通信成本、運(yùn)行成本和可行性等方面具有一定優(yōu)勢。
基于此,將受控電網(wǎng)劃分為不同的區(qū)域。統(tǒng)籌區(qū)域內(nèi)靈活有功-無功調(diào)控資源,參考國際能源署(International Energy Agency, IEA)對靈活調(diào)控資源的定義,將區(qū)域中的有功-無功調(diào)控資源分為:常規(guī)機(jī)組智能體(Conventional Unit Agent, CUAgent)、電儲(chǔ)能智能體(Electric Energy Storage Agent,EESAgent)、風(fēng)/光電智能體(Wind-Solar Power Agent,WSAgent)、可投切電容器智能體(Switchable Shunt Capacitor Agent, SSCAgent)、有載調(diào)壓變壓器智能體(On-Load Tap Change Agent, OLTCAgent)和連續(xù)無功補(bǔ)償智能體(Continuous Reactive Power Compensation Agent, CRPCAgent)。智能體組織關(guān)系如圖1 所示。
圖1 智能體組織關(guān)系示意圖Fig.1 Schematic diagram of organization of agents
全局主智能體(Global Master Agent, GMAgent)直接協(xié)調(diào)各區(qū)域智能體(Regional Agent, RAgent),RAgent 控制了區(qū)域中的各個(gè)智能體:常規(guī)機(jī)組智能體CUAgent、電儲(chǔ)能智能體EESAgent、風(fēng)/光電智能體WSAgent、無功補(bǔ)償智能體(Q Compensation Agent, QCAgent)。其中,QCAgent 下設(shè)可投切電容智能體SSCAgent、連續(xù)無功補(bǔ)償智能體CPRCAgent、有載調(diào)壓變壓器智能體OLTCAgent。全局主智能體GMAgent 監(jiān)控全網(wǎng)狀態(tài),根據(jù)調(diào)度中的功率平衡需求確定調(diào)度方向,并將調(diào)度方向信息下發(fā),調(diào)度方向的確定有利于提高各智能體的訓(xùn)練速度和輸出正確的調(diào)度指令。區(qū)域智能體RAgent 接受GMAgent的信息,之后將采集到的本區(qū)域電力系統(tǒng)的狀態(tài)信息經(jīng)篩選和歸一化處理后發(fā)送給下級(jí)各智能體。模型建立以省-地兩層調(diào)度為基礎(chǔ)。
1)常規(guī)機(jī)組智能體CUAgent 建模
CUAgentj的運(yùn)行成本主要考慮發(fā)電成本和輔助服務(wù)補(bǔ)償。輔助服務(wù)補(bǔ)償包括響應(yīng)自動(dòng)發(fā)電控制(Automatic Generation Control, AGC)補(bǔ)償、啟停調(diào)峰補(bǔ)償、深度調(diào)峰補(bǔ)償和冷/熱備用補(bǔ)償,如式(1)所示。
視常規(guī)機(jī)組發(fā)電成本為二次函數(shù),則
式中,T為調(diào)控周期;上標(biāo)j為CUAgent 的控制區(qū)域;為常規(guī)機(jī)組數(shù)量;為機(jī)組啟停0-1 狀態(tài)變量;為常規(guī)機(jī)組出力;ak、bk和ck為發(fā)電機(jī)二次成本函數(shù)系數(shù)。
當(dāng)電網(wǎng)中功率波動(dòng)需要AGC 作用時(shí),安裝AGC裝置的發(fā)電機(jī)需要?jiǎng)幼?,可能失去在電能量市場獲利的機(jī)會(huì),并對機(jī)組產(chǎn)生損耗,除了機(jī)組在爬坡過程付諸的成本外,還需要按調(diào)節(jié)容量和調(diào)節(jié)電量獲得補(bǔ)償,如式(3)~式(5)所示。
當(dāng)電網(wǎng)中因?yàn)檎{(diào)峰要求需要啟停機(jī)組,除了計(jì)算啟停成本外,如果在停機(jī)后24h 內(nèi)又因?yàn)檎{(diào)峰原因開啟同一臺(tái)機(jī)組,則按停機(jī)容量進(jìn)行補(bǔ)償[23],如式(6)所示。
當(dāng)機(jī)組運(yùn)行在基本調(diào)峰需求基準(zhǔn)以下時(shí),稱為深度調(diào)峰,按少發(fā)電量進(jìn)行補(bǔ)償[24]。
因電網(wǎng)調(diào)峰需求停機(jī),在24h 內(nèi)啟機(jī)則按啟停調(diào)峰進(jìn)行補(bǔ)償,若在24h 內(nèi)繼續(xù)保持停機(jī),則按機(jī)組冷備用進(jìn)行補(bǔ)償;若機(jī)組出力高于深度調(diào)峰基準(zhǔn),而又未達(dá)到機(jī)組計(jì)劃出力,則按機(jī)組熱備用進(jìn)行補(bǔ)償,如式(8)所示。
綜上所述,常規(guī)機(jī)組智能體CUAgentj的綜合收益為
2)電儲(chǔ)能智能體EESAgent 建模
EESAgentj的運(yùn)行成本主要考慮購電成本和運(yùn)維成本,如式(10)所示。
式中,上標(biāo)j為在EESAgentj的控制范圍內(nèi);為電儲(chǔ)能數(shù)量;為電儲(chǔ)能k的離網(wǎng)/并網(wǎng)0-1狀態(tài)變量;為第k個(gè)電儲(chǔ)能向電網(wǎng)購電的價(jià)格,元/(MW·h);為電儲(chǔ)能k的單位運(yùn)維成本,元/(MW·h);分別為電儲(chǔ)能k的充、放電功率。
綜上所述,電儲(chǔ)能智能體EESAgentj的綜合收益為
3)風(fēng)/光電智能體WSAgent 建模
綜上所述,風(fēng)/光電智能體WSAgent 的綜合收益為
4)無功補(bǔ)償智能體QCAgent 建模
區(qū)域無功調(diào)度任務(wù)由常規(guī)機(jī)組智能體CUAgent、可投切電容智能體SSCAgent、有載調(diào)壓變壓器智能體OLTCAgent 和連續(xù)無功補(bǔ)償智能體CRPCAgent共同完成。SSCAgent、OLTCAgent 和CRPCAgent的無功補(bǔ)償功能本質(zhì)上是相同的,只在約束條件上稍有差別,且在運(yùn)行過程中沒有額外成本的產(chǎn)生。因此,只對這三種智能體設(shè)有“動(dòng)作執(zhí)行”的功能,而向上設(shè)置具有通信、決策、動(dòng)作等完全功能的無功補(bǔ)償智能體QCAgent。
SSCAgent、OLTCAgent 和 CRPCAgent 接收QCAgent 的無功控制指令是沒有差別的,只受到網(wǎng)絡(luò)拓?fù)涞挠绊?,根?jù)獎(jiǎng)勵(lì)函數(shù)不同做出不同的動(dòng)作,需要設(shè)計(jì)綜合網(wǎng)損和節(jié)點(diǎn)電壓偏差量的收益函數(shù),并將OLTCAgent 的擋位調(diào)整的動(dòng)作轉(zhuǎn)換成注入無功功率的調(diào)整。控制區(qū)內(nèi)電壓與無功的關(guān)系由式(16)含靈敏度矩陣的線性方程組給出。
OLTCAgent 檔位調(diào)整與無功/電壓的關(guān)系為
式中,bii和bij分別為節(jié)點(diǎn)i的自導(dǎo)納和支路ij的互導(dǎo)納。
QCAgentj的運(yùn)行成本CQCAgent為
在CUAgent 與QCAgent 通信過程中,得到信息需要響應(yīng)QCAgent 的無功控制指令時(shí),由于受到發(fā)電機(jī)功率極限的限制,常規(guī)機(jī)組不得不放棄在電能量市場獲利的機(jī)會(huì),而為區(qū)域提供無功支撐。CUAgent 少獲得的利潤記為QCAgent 的調(diào)節(jié)成本,如式(20)所示。
式中,為常規(guī)機(jī)組k的有功-無功轉(zhuǎn)換系數(shù),表征受發(fā)電機(jī)功率極限圖限制下的無功出力對應(yīng)的有功功率。
式(9)、式(12)、式(15)和式(20)是對各智能體收益的數(shù)學(xué)表達(dá),即為各智能體在訓(xùn)練中的目標(biāo)函數(shù)。
多智能體深度確定策略梯度算法(MADDPG)是一種適用于多智能體系統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法[27],它最先由OpenAI 的研究人員提出[28]。
MADDPG 算法構(gòu)建演員網(wǎng)絡(luò)(Actor Network)和評論家網(wǎng)絡(luò)(Critic Network)兩個(gè)神經(jīng)網(wǎng)絡(luò)。演員網(wǎng)絡(luò)將策略梯度和狀態(tài)-行為值函數(shù)相結(jié)合,通過優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)θ來確定某狀態(tài)下的最佳行為。評論家網(wǎng)絡(luò)通過計(jì)算時(shí)間差分誤差(temporal difference error)來評估演員網(wǎng)絡(luò)產(chǎn)生的行為。每一個(gè)演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)中又同時(shí)構(gòu)建兩個(gè)結(jié)構(gòu)完全相同,但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),分別稱為估值網(wǎng)絡(luò)(evaluation network)和目標(biāo)網(wǎng)絡(luò)(target network)。估值網(wǎng)絡(luò)的參數(shù)是隨著訓(xùn)練而不斷更新的,目標(biāo)網(wǎng)絡(luò)不進(jìn)行訓(xùn)練,它的參數(shù)是一段時(shí)間前的估值網(wǎng)絡(luò)的參數(shù)。MADDPG 算法中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 MADDPG 算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Neural network structure of MADDPG algorithm
圖2 中,s和s_分別表示輸入估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的所有智能體的狀態(tài)。MADDPG 算法實(shí)際上是一種部分觀測的馬爾科夫決策,它對狀態(tài)集的要求并不嚴(yán)格,對分區(qū)智能體可以只對神經(jīng)網(wǎng)絡(luò)輸入本區(qū)域內(nèi)智能體的狀態(tài)s,即觀測o。a和a_分別表示輸入估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的所有智能體的動(dòng)作。
設(shè)有n個(gè)智能體,n個(gè)智能體是集中訓(xùn)練、分散執(zhí)行。n個(gè)智能體的權(quán)重參數(shù)集為觀測集為;動(dòng)作集為策略集為
智能體i獎(jiǎng)勵(lì)的期望值的策略梯度(下文簡稱為策略梯度)為
演員網(wǎng)絡(luò)通過最大化狀態(tài)-動(dòng)作值函數(shù)Q(s,a)來更新網(wǎng)絡(luò)參數(shù),目標(biāo)函數(shù)及參數(shù)更新規(guī)則分別為
式中,α為更新步長,即學(xué)習(xí)率。
評論家網(wǎng)絡(luò)的損失函數(shù)為
其中
評論家網(wǎng)絡(luò)通過最小化時(shí)間差分誤差來更新網(wǎng)絡(luò)參數(shù),目標(biāo)函數(shù)及參數(shù)更新規(guī)則分別為
為了提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的收斂速度和防止過擬合,每一次訓(xùn)練時(shí),都從經(jīng)驗(yàn)回放緩存區(qū)中隨機(jī)采樣一組記憶,輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
最后,即可通過式(29)所示的軟更新策略,更新目標(biāo)網(wǎng)絡(luò)的參數(shù)。
式中,τ為軟替換(soft replacement)系數(shù),且分別為智能體i的目標(biāo)網(wǎng)絡(luò)參數(shù)和估值網(wǎng)絡(luò)參數(shù)。
對于電力系統(tǒng)的有功無功協(xié)調(diào)控制模型,狀態(tài)空間的選取既要可以表征智能體執(zhí)行某一動(dòng)作iA后電力系統(tǒng)全面而真實(shí)的物理狀態(tài),又不能對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來太多的計(jì)算負(fù)擔(dān)。因此,本文將系統(tǒng)中每一個(gè)節(jié)點(diǎn)的電壓相角、電壓幅值、節(jié)點(diǎn)注入有功功率和無功功率作為電力系統(tǒng)的狀態(tài)量輸入進(jìn)神經(jīng)網(wǎng)絡(luò),如式(30)所示。
式中,Va、mV、Pbus和Qbus分別為節(jié)點(diǎn)的電壓相位、電壓幅值、注入有功功率和注入無功功率的向量。
本文智能體的動(dòng)作設(shè)計(jì)比較直觀,均為各智能體的動(dòng)作值。如CUAgent 的動(dòng)作空間是其出力上下限的連續(xù)實(shí)數(shù)集。
獎(jiǎng)勵(lì)函數(shù)的正確設(shè)計(jì)是強(qiáng)化學(xué)習(xí)算法高效運(yùn)作的必要條件。本文模型中獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)有兩個(gè)要點(diǎn):①可以被準(zhǔn)確量化并分布到智能體的每一動(dòng)作;②獎(jiǎng)勵(lì)值必須來源于環(huán)境或與環(huán)境具有較強(qiáng)的關(guān)聯(lián)。而僅按智能體實(shí)際收益設(shè)計(jì)CUAgent、WSAgent、EESAgent 的獎(jiǎng)勵(lì)函數(shù)與電力系統(tǒng)環(huán)境的耦合度依然不足,系統(tǒng)中平衡節(jié)點(diǎn)機(jī)組的有功出力容易越界,既不符合電力系統(tǒng)運(yùn)行要求,又增加了智能體在不可行空間的探索次數(shù)。
由于CUAgent、WSAgent 和EESAgent 在環(huán)境中探索過于貪婪或保守,可能導(dǎo)致平衡節(jié)點(diǎn)機(jī)組出力越界。因此,需要附加智能體j的過貪婪/過保守懲罰量PUNAgentj。智能體j的綜合獎(jiǎng)勵(lì)函數(shù)為
式中,rP為越界懲罰系數(shù);為平衡節(jié)點(diǎn)機(jī)組的上網(wǎng)電價(jià);分別為平衡節(jié)點(diǎn)機(jī)組的出力下、上界;為平衡節(jié)點(diǎn)機(jī)組出力;αj和βj分別為智能體j的過貪婪和過保守懲罰系數(shù),計(jì)算式為
本文在某節(jié)點(diǎn)系統(tǒng)的基礎(chǔ)上進(jìn)行改進(jìn),從某電網(wǎng)SCADA 系統(tǒng)采集連續(xù)100 天真實(shí)節(jié)點(diǎn)有功、無功負(fù)荷數(shù)據(jù)(采樣周期為15min),用以訓(xùn)練智能體的神經(jīng)網(wǎng)絡(luò)。設(shè)置5 個(gè)CUAgent(所在節(jié)點(diǎn):1,2,3,6,8);1 個(gè)WSAgent,含一個(gè)風(fēng)電機(jī)組群(所在節(jié)點(diǎn):5)和光伏機(jī)組群(所在節(jié)點(diǎn):7);1 個(gè)EESAgent(所在節(jié)點(diǎn):4);2 個(gè)SSCAgent(所在節(jié)點(diǎn):9,10);3 個(gè)OLTCAgent;2 個(gè)CRPCAgent(所在節(jié)點(diǎn):11,12)。模型中的各參數(shù)按照其單位同比縮放。使用Python 編程,利用tensorflow 框架,搭建多智能體神經(jīng)網(wǎng)絡(luò)計(jì)算圖(Graph)。
仿真測試硬件平臺(tái):Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz;8GB 2666MHz RAM;GPU:NVIDIA GeForce GTX 1660 Ti;軟件平臺(tái):Deepin 15.11(Linux 4.15);Python 3.7.3;Tensorflow 1.14.0。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及超參數(shù)見表1。
表1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及超參數(shù)Tab.1 Neural network structure and hyperparameters
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,使用Google 開發(fā)的深度學(xué)習(xí)可視化工具Tensorboard,采樣并導(dǎo)出各個(gè)智能體評論家網(wǎng)絡(luò)的狀態(tài)-動(dòng)作值函數(shù)Q(s,a)、估值網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)參數(shù)的時(shí)間差分誤差?Q(s,a;θ)來評估各智能體演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的訓(xùn)練效果,計(jì)算式為
為了便于歸一化分析,狀態(tài)-動(dòng)作值函數(shù)Q(s,a)也取其時(shí)間差分ΔQ(s,a;t),計(jì)算式為
訓(xùn)練結(jié)束時(shí),各智能體狀態(tài)-動(dòng)作值函數(shù)時(shí)間差分值、神經(jīng)網(wǎng)絡(luò)參數(shù)的時(shí)間差分誤差分別收斂于數(shù)量級(jí),智能體的動(dòng)作選擇趨于穩(wěn)定,估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)更新也不再明顯,驗(yàn)證了MADDPG 算法在本文所提模型與調(diào)度問題中運(yùn)用的有效性。
選取除訓(xùn)練集外的某電網(wǎng)SCADA 系統(tǒng)采集的1 天96 個(gè)時(shí)段的真實(shí)節(jié)點(diǎn)有功、無功負(fù)荷數(shù)據(jù),用以對比分析本文所提有功-無功協(xié)調(diào)模型(下稱:協(xié)調(diào)調(diào)度)與傳統(tǒng)有功-無功解耦調(diào)度模型(下稱:解耦調(diào)度)的調(diào)度效果。解耦調(diào)度以經(jīng)濟(jì)調(diào)度[29]與無功優(yōu)化為基礎(chǔ),并用二階錐松弛技術(shù)[4]處理非凸、非線性的潮流方程約束,目標(biāo)函數(shù)是最大化智能體收益的總和。
比較分析CUAgent、WSAgent 在兩種調(diào)度模型下的動(dòng)作情況,以及系統(tǒng)非壓控節(jié)點(diǎn)電壓幅值變化、網(wǎng)損變化。協(xié)調(diào)調(diào)度和解耦調(diào)度對比分析效果如圖3a~圖3h 所示。系統(tǒng)總有功、無功負(fù)荷如圖3i 所示。
如圖3a、圖3b 所示,采用協(xié)調(diào)調(diào)度的CUAgent相比采用解耦調(diào)度的CUAgent 在動(dòng)作選擇傾向上,有明顯的不同。采用解耦調(diào)度的各CUAgent 基本跟隨負(fù)荷的變化呈現(xiàn)同升同降的趨勢,而采用協(xié)調(diào)調(diào)度的各CUAgent 在均衡各自收益下,不斷維持最大化自身收益,并保證功率的實(shí)時(shí)平衡。CUAgent 2、4、5 的出力在96 時(shí)段中,出力基本持平,而將系統(tǒng)跟隨負(fù)荷變化的調(diào)度任務(wù)交給性能更好的CUAgent 1、3。如圖3c、圖3d 所示,協(xié)調(diào)調(diào)度:96 時(shí)段總棄風(fēng)207.53MW(3.65%)、總棄光171.89MW(9.6%)、總棄風(fēng)/光新能源379.42MW(5.08%);解耦調(diào)度:96 時(shí)段總棄風(fēng)399.16MW(7.02%)、總棄光0MW(0%)、總棄風(fēng)/光新能源399.16MW(5.34%)。盡管解耦調(diào)度中沒有出現(xiàn)棄光的情況,但從風(fēng)/光新能源消納的總量上來看,協(xié)調(diào)調(diào)度較解耦調(diào)度提高風(fēng)/光利用19.74MW(0.26%),說明協(xié)調(diào)調(diào)度是一種“協(xié)調(diào)統(tǒng)一、均衡收益”的策略,對電網(wǎng)調(diào)度機(jī)構(gòu)、風(fēng)電和光電等都較為公平與合理。如圖3e、圖3f 所示,采用協(xié)調(diào)調(diào)度控制,各非壓控母線電壓波動(dòng)幅度更小,且沒有節(jié)點(diǎn)電壓越界,而采用解耦調(diào)度控制的節(jié)點(diǎn)電壓波動(dòng)更大,且節(jié)點(diǎn)7、9、10、11 的電壓幅值,在部分時(shí)段越上界。如圖3g 所示,協(xié)調(diào)調(diào)度中,系統(tǒng)96 時(shí)段總網(wǎng)損為417.99MW(1.28%),解耦調(diào)度中,系統(tǒng) 96 時(shí)段總網(wǎng)損為 441.18MW(1.35%),協(xié)調(diào)調(diào)度較解耦調(diào)度降低系統(tǒng)有功網(wǎng)損23.19MW(0.07%)。如圖3h 所示,協(xié)調(diào)調(diào)度中,1~30 時(shí)段,風(fēng)電大發(fā),EESAgent 選擇在此時(shí)段調(diào)用自身容量儲(chǔ)備用以消納風(fēng)電;在50~62 時(shí)段,光伏大發(fā)時(shí),EESAgent 無可用容量,只得選擇棄風(fēng)。解耦調(diào)度中,EESAgent 通過經(jīng)濟(jì)調(diào)度優(yōu)化算法,選擇在24~50 時(shí)段風(fēng)電和光伏總和較大時(shí),調(diào)用自身容量,減少風(fēng)、光的棄用。
圖3 協(xié)調(diào)調(diào)度與解耦調(diào)度效果對比圖Fig.3 Comparison of coordination and decoupling dispatching
以上對比分析說明,協(xié)調(diào)調(diào)度相比解耦調(diào)度,在均衡各智能體收益,協(xié)調(diào)電力系統(tǒng)不同控制主體間的利益矛盾,消納風(fēng)/光新能源,控制節(jié)點(diǎn)電壓波動(dòng)、優(yōu)化系統(tǒng)網(wǎng)損方面具有一定的優(yōu)勢。
基于相同的電力系統(tǒng)環(huán)境配置,在策略迭代算法中選取DDPG 算法[30],在值迭代算法中選取深度Q 網(wǎng)絡(luò)(Deep Q-Network, DQN)和深度雙Q 網(wǎng)絡(luò)(Double DQN, DDQN)[31]算法,與本文MADDPG 算法在神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率、智能體動(dòng)作選擇、電力系統(tǒng)網(wǎng)損和節(jié)點(diǎn)電壓偏差方面進(jìn)行比較。值迭代算法DQN 和DDQN 狀態(tài)值的輸入與MADDPG 算法保持一致,但其動(dòng)作值的輸入必須是離散的、有限的。為盡量保證與MADDPG 的可比性,將各智能體的連續(xù)動(dòng)作區(qū)間均勻離散成 10 000 份,記為DQN-10 000 和DDQN-10 000。
將SCADA 系統(tǒng)每一個(gè)采樣周期時(shí)采集到的電力系統(tǒng)節(jié)點(diǎn)有功、無功負(fù)荷作為一個(gè)訓(xùn)練集,共9 600 個(gè)訓(xùn)練集。在智能體神經(jīng)網(wǎng)絡(luò)訓(xùn)練的每一個(gè)回合中,隨機(jī)采樣一個(gè)場景進(jìn)行訓(xùn)練,為了便于可視化說明,以下對比結(jié)果分析僅展示其中一個(gè)場景的訓(xùn)練效果。
系統(tǒng)中非壓控母線的節(jié)點(diǎn)電壓幅值在訓(xùn)練過程中的變化情況如圖4 所示。
圖4 MADDPG 與其他強(qiáng)化學(xué)習(xí)算法在訓(xùn)練過程中電壓幅值的變化Fig.4 Voltage amplitude changes during training of MADDPG and other reinforcement learning algorithm
MADDPG 和DDPG 分別在約160 和約260 訓(xùn)練回合后,結(jié)束神經(jīng)網(wǎng)絡(luò)訓(xùn)練。而DQN-10 000 和DDQN-10 000 無法在可接受的時(shí)間內(nèi)收斂。MADDPG 算法的訓(xùn)練性能優(yōu)于其他強(qiáng)化學(xué)習(xí)算法。MADDPG 算法中,所有節(jié)點(diǎn)電壓均在設(shè)定的范圍內(nèi),且逼近基準(zhǔn)值1.0(pu)。而在DDPG 算法中,節(jié)點(diǎn)5、12 和13的電壓幅值越上界,且其余節(jié)點(diǎn)電壓逼近上界。在DQN-10 000 和DDQN-10 000 算法中,節(jié)點(diǎn)7、9 和11 電壓越限明顯。說明MADDPG 在控制節(jié)點(diǎn)電壓幅值相比其他強(qiáng)化學(xué)習(xí)算法具有一定優(yōu)勢。
圖5 所示為算法訓(xùn)練過程中CUAgent 動(dòng)作選擇變化。各智能體的輸出層均采用雙曲正切激活函數(shù),可以保證除CUAgent1 外各智能體的動(dòng)作輸出不越界。為便于可視化分析,在DQN-10 000 和DDQN-10 000 算法中僅列出CUAgent1 的訓(xùn)練結(jié)果。
圖5 中的兩條點(diǎn)劃線分別表示平衡節(jié)點(diǎn)機(jī)組智能體的出力上下界,分別為2.233(pu)和0.558(pu)。MADDPG 算法在第160 回合收斂,且平衡機(jī)組的出力保持在上、下界之間,而DDPG 算法中,在訓(xùn)練過程中,平衡節(jié)點(diǎn)最終收斂到越過下界的值0.556(pu)。DQN-10 000 和DDQN-10 000 算法中的CUAgent1均未在可接受的時(shí)間內(nèi)選擇到合適的動(dòng)作值。
MADDPG 和其他強(qiáng)化學(xué)習(xí)算法訓(xùn)練過程中全網(wǎng)網(wǎng)損的變化如圖6 所示。
DDPG 在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),沒有考慮其他智能體的動(dòng)作。雖然網(wǎng)損優(yōu)化結(jié)果(3.53MW)優(yōu)于MADDPG 算法(7.13MW),但網(wǎng)損的優(yōu)化是由于平衡節(jié)點(diǎn)機(jī)組出力越下界和抬高節(jié)點(diǎn)電壓以至于電壓越界而實(shí)現(xiàn)的,總有一部分智能體在環(huán)境中占據(jù)優(yōu)勢,獲得更多的收益,而另一部分智能體則處于劣勢,導(dǎo)致某些電力系統(tǒng)的狀態(tài)量超出規(guī)定限度。DQN-10 000 和DDQN-10 000 在訓(xùn)練中,全網(wǎng)的網(wǎng)損在10MW 附近變化,最終未能收斂。
在值迭代算法DQN-10 000 和DDQN-10 000 中,盡管將動(dòng)作均勻離散成 10 000 份,但若想達(dá)到MADDPG 算法的動(dòng)作選擇精度,則需要將動(dòng)作進(jìn)一步細(xì)化。而從上述給出的DQN-10 000 和DDQN-10 000 仿真結(jié)果來看,進(jìn)一步切分動(dòng)作會(huì)使算法收斂性進(jìn)一步劣化。盡管理論上DDQN 算法的適應(yīng)性強(qiáng)于DQN 算法,但DDQN-10 000 和DQN-10 000整體上區(qū)別不大,可見基于值迭代的方法無法較好地適用于本文模型。
圖5 MADDPG 與其他強(qiáng)化學(xué)習(xí)算法在訓(xùn)練過程中CUAgent 動(dòng)作選擇變化Fig.5 Action choices of CUAgent during training of MADDPG and other reinforcement learning algorithm
圖6 MADDPG 和其他強(qiáng)化學(xué)習(xí)算法在訓(xùn)練過程中網(wǎng)損的變化Fig.6 Transmission losses changes during training of MADDPG and other reinforcement learning algorithm
綜上所述,MADDPG 算法無論是在實(shí)現(xiàn)各智能體間收益的均衡、協(xié)調(diào)各智能體間矛盾、還是輸出符合約束的電力調(diào)度指令上,都具有一定的優(yōu)勢。
本文所提算法與對比分析中算法的計(jì)算性能對比見表2。
表2 不同算法的性能對比Tab.2 Comparison of algorithms performance
現(xiàn)有有功-無功協(xié)調(diào)模型主要采用二階錐規(guī)劃法。雖然MADDPG 算法的耗時(shí)相比二階錐規(guī)劃法更長,但本文所提模型是一種“離線訓(xùn)練,在線執(zhí)行”的框架,完成訓(xùn)練后的執(zhí)行時(shí)間較短,為0.132s,而二階錐規(guī)劃算法的每一次優(yōu)化都需要重新計(jì)算。同時(shí),采用本文所提方法的優(yōu)化效果要優(yōu)于二階錐規(guī)劃方法。在強(qiáng)化學(xué)習(xí)類算法中,本文采用的MADDPG 相比DDPG、DQN 和DDQN 算法在優(yōu)化效果和計(jì)算性能上均具有優(yōu)勢。
1)本文將具有連續(xù)狀態(tài)空間和連續(xù)動(dòng)作空間的深度強(qiáng)化學(xué)習(xí)算法引入電力系統(tǒng)有功-無功協(xié)調(diào)調(diào)度領(lǐng)域,構(gòu)建分層多智能體有功-無功協(xié)調(diào)調(diào)度框架,智能組織靈活多調(diào)控資源,使得多個(gè)控制主體在最大化自身收益的同時(shí),優(yōu)化區(qū)域內(nèi)電壓合格率、網(wǎng)損等指標(biāo),實(shí)現(xiàn)系統(tǒng)各個(gè)智能體收益的均衡和各個(gè)相沖突的控制目標(biāo)的協(xié)調(diào)。
2)改進(jìn)多智能體深度確定策略梯度算法,設(shè)計(jì)電力系統(tǒng)多智能體環(huán)境、狀態(tài)函數(shù)、動(dòng)作函數(shù)和獎(jiǎng)勵(lì)函數(shù),在智能體更新時(shí)考慮其他智能體的動(dòng)作選擇,有效地解決電力系統(tǒng)環(huán)境在各智能體動(dòng)作執(zhí)行時(shí)的不穩(wěn)定性,顯著提高各智能體訓(xùn)練效果。
3)與傳統(tǒng)調(diào)度模型相比,本文所提模型在均衡智能體收益,協(xié)調(diào)各智能體動(dòng)作執(zhí)行,提高風(fēng)/光電消納,維持節(jié)點(diǎn)電壓穩(wěn)定,優(yōu)化網(wǎng)損等方面具有一定的優(yōu)勢。
4)本文對比了同屬策略迭代類型的DDPG 算法和基于值迭代的DQN 算法和DDQN 算法。對比分析結(jié)果表明,本文所用MADDPG 算法在智能體的收斂性能、模型的求解效果和輸出符合規(guī)定的調(diào)度指令方面具有一定的優(yōu)勢。
目前,本文針對調(diào)度計(jì)劃的制定,設(shè)計(jì)了分層多智能體有功-無功協(xié)調(diào)調(diào)度模型,取得了一定的效果。未來,針對電力系統(tǒng)實(shí)時(shí)有功-無功協(xié)調(diào)控制,提高智能體的性能,結(jié)合數(shù)字仿真,將進(jìn)一步研究投入數(shù)字仿真中的多智能體深度強(qiáng)化學(xué)習(xí)算法及有功-無功協(xié)調(diào)控制模型。