孫 冉,王建波,馬彥釗,張小科,胡懷中
(1國網(wǎng)河南省電力公司,河南 鄭州 450000;2西安交通大學自動化科學與工程學院,陜西 西安 710100;3國網(wǎng)河南省電力公司電力科學研究院,河南 鄭州 450052)
在推進“雙碳”目標達成的背景下,我國電力市場正逐步邁向清潔能源發(fā)電為主、傳統(tǒng)能源為輔的新型能源結(jié)構(gòu),預計截止到2060 年我國風電和光伏等新能源發(fā)電的年新增裝機規(guī)模都將保持在較高水平[1]。而新能源發(fā)電自身出力的波動、高比例電力電子器件并網(wǎng)和傳統(tǒng)機組占比下降都將給系統(tǒng)的頻率支撐能力帶來不利影響,為電網(wǎng)調(diào)頻安全帶來艱巨的挑戰(zhàn)[2-3]。在不同種類的新型調(diào)頻資源中,電池儲能因其具備快速響應(yīng)和運行穩(wěn)定等特性,充分契合新型電力系統(tǒng)下的調(diào)頻需求,已逐漸發(fā)展成為電網(wǎng)調(diào)頻研究中的熱點。
在電池儲能參與一次調(diào)頻的控制策略研究中,虛擬下垂控制和虛擬慣性控制為其參與調(diào)頻時的兩種主要控制策略。黃際元等[4]通過分析兩種控制模式在時域下的靈敏度曲線得出虛擬慣性控制在擾動前期起主要作用,虛擬下垂控制在擾動后期起主要作用的結(jié)論,并據(jù)此提出一種前期為虛擬慣性控制,在頻率變化率為零時刻切換為虛擬下垂控制的直接切換方法實現(xiàn)儲能參與快速調(diào)頻。該方法減輕了傳統(tǒng)電源的調(diào)頻負擔,但會造成儲能出力在兩種控制策略切換時刻的較大突變,給電網(wǎng)帶來二次頻率波動,影響儲能的長期運行壽命。李軍徽等[5]提出了一種基于權(quán)重因子的調(diào)頻控制方法,通過解析函數(shù)獲取兩種控制策略的權(quán)重因子,將直接切換法前期的僅虛擬慣性控制優(yōu)化為虛擬慣性控制向虛擬下垂控制的過渡。李欣然等[6]同樣在不同調(diào)頻階段設(shè)計不同的解析函數(shù)來確定儲能通過虛擬下垂和虛擬慣性控制參與調(diào)頻的分配系數(shù)來改善儲能調(diào)頻效果。上述兩種方法都解決了直接切換法的痛點問題,但其出發(fā)點均是基于階躍擾動下的理想一次調(diào)頻過程,在實際場景下的適用性仍待考量;此外上述方法中解析函數(shù)的參數(shù)設(shè)置也會影響不同工作環(huán)境下儲能的調(diào)頻效果。王育飛等[7]提出一種基于模糊控制的電池儲能一次調(diào)頻自適應(yīng)綜合控制策略,通過模糊控制器獲取儲能基于兩種基本控制策略參與調(diào)頻的出力系數(shù),其模糊邏輯設(shè)計主要基于一次調(diào)頻理論分析及工程經(jīng)驗,在復雜工況下的適應(yīng)性較低。吳啟帆等[8]提出了正負虛擬慣性的綜合控制方法來減小頻率曲線的抖動,快速響應(yīng)頻率變化,但該控制策略的執(zhí)行需要前后經(jīng)過頻差死區(qū)和頻差變化率死區(qū),關(guān)于頻差變化率死區(qū)的設(shè)置未給出具體數(shù)值,該死區(qū)的設(shè)置與虛擬慣性出力時機和大小密切相關(guān),如設(shè)置不當,會與虛擬慣性控制策略本身在調(diào)頻前期能較好抑制頻差變化率的優(yōu)勢相悖。
近年來,強化學習因其在復雜系統(tǒng)中的出色控制和決策能力,已在電力行業(yè)的不同應(yīng)用場景中被廣泛研究[9-11]。針對現(xiàn)有研究中存在的問題,本工作擬考慮新能源場站出力波動特征,提出一種基于強化學習的新能源場站儲能一次調(diào)頻自適應(yīng)控制策略。該控制策略中,智能體通過學習在新能源發(fā)電出力擾動下使得一次調(diào)頻效果最優(yōu)的虛擬慣性和虛擬下垂控制出力占比分配經(jīng)驗,進而通過多回合訓練獲取儲能參與一次調(diào)頻的出力分配模型。該模型能夠根據(jù)頻率偏差和頻率偏差變化率自適應(yīng)調(diào)整虛擬慣性和虛擬下垂兩種控制方法參與調(diào)頻的分配比例,解決當前研究中儲能不同控制方法切換策略適應(yīng)性不足的問題,實現(xiàn)不同調(diào)頻工況下兩者的最優(yōu)結(jié)合,緩解由新能源發(fā)電出力變化引起的頻率波動。此外本工作方法還將避免儲能出力發(fā)生突變,減少電池儲能瞬時功率需求。
為研究基于強化學習的新能源場站儲能一次調(diào)頻自適應(yīng)控制策略,忽略電力系統(tǒng)電壓和功角特性,考慮新能源電站類型為風力發(fā)電,建立如圖1所示的含儲能新能源場站參與一次調(diào)頻的頻率響應(yīng)模型[12]。圖1 主要包含傳統(tǒng)調(diào)頻機組、電池儲能系統(tǒng)、風電機組、旋轉(zhuǎn)慣量與負荷四部分模型。圖中風電機組不參與一次調(diào)頻,其輸出功率波動?PW(s)將作為該區(qū)域電網(wǎng)的主要功率不平衡擾動;電池儲能系統(tǒng)的儲能控制器主要根據(jù)經(jīng)過死區(qū)環(huán)節(jié)后的系統(tǒng)頻差來調(diào)節(jié)電池儲能參與一次調(diào)頻的出力指令。圖1 中,s為拉普拉斯算子;Kg為傳統(tǒng)機組的轉(zhuǎn)速放大倍數(shù);H和D分別為系統(tǒng)慣性和阻尼常數(shù);?f(s)為系統(tǒng)頻差;?Pg(s)和?Pb(s)分別為傳統(tǒng)機組和電池儲能調(diào)頻出力變化量;?PW(s)為風電機組出力波動;Gg(s)和Gbess(s)分別為傳統(tǒng)調(diào)頻機組和電池儲能系統(tǒng)的傳遞函數(shù)。
圖1 含儲能新能源電站的區(qū)域電網(wǎng)頻率響應(yīng)模型Fig.1 System frequency response model of new energy power station with energy storage
傳統(tǒng)調(diào)頻機組的傳遞函數(shù)Gg(s)主要由調(diào)速系統(tǒng)傳遞函數(shù)Ggov(s)和汽輪機系統(tǒng)傳遞函數(shù)Ggen(s)兩部分構(gòu)成,具體表達式如下[13]:
式(1)中,Tg為轉(zhuǎn)速變換時間常數(shù);式(2)中,F(xiàn)HP為高壓缸比例系數(shù),TRH為再熱時間常數(shù),TCH為蒸汽容積時間常數(shù)。
電池儲能系統(tǒng)中,Er為電池儲能的容量,SOC(state of charge)為儲能的荷電狀態(tài),SOC0為電池儲能的初始荷電狀態(tài)。儲能對象的傳遞函數(shù)Gbess(s)具體表達式如下[14]:
式中,Tbess為電池儲能功率轉(zhuǎn)換時間常數(shù)。
風電機組模型如圖2所示,圖中ωr為實際轉(zhuǎn)子轉(zhuǎn)速;ωref為轉(zhuǎn)速參考值;β為槳距角;Ht為風機的慣性時間常數(shù);Tm和Te為機械轉(zhuǎn)矩和電磁轉(zhuǎn)矩。有關(guān)圖2中風輪模型的具體表達式、槳距角控制系統(tǒng)和最大功率跟蹤控制的原理詳見文獻[15-16]。
圖2 風電機組的有功控制模型Fig.2 Active power control model of wind turbine
目前,電池儲能參與一次調(diào)頻的兩種基本控制策略為虛擬慣性控制和虛擬下垂控制,根據(jù)系統(tǒng)頻差并通過上述兩種控制策略獲得儲能一次調(diào)頻出力指令的表達式如式(4)和式(5)所示:
式(4)和式(5)中,?Pd(s)表示儲能通過虛擬慣性控制得到的調(diào)頻出力;?Pp(s)表示儲能通過虛擬下垂控制得到的調(diào)頻出力;Mb和Kb為電池儲能的虛擬慣性出力系數(shù)和虛擬下垂出力系數(shù)。在新能源功率階躍擾動下,由于虛擬慣性出力與頻差變化率成比例關(guān)系,通常在擾動初期,系統(tǒng)頻差變化率大,儲能通過虛擬慣性控制可以快速出力,阻礙頻差變化率變化,但對系統(tǒng)穩(wěn)態(tài)頻差不起作用,且在頻差變化率方向與頻差方向不一致時會抑制頻率恢復[17]。虛擬下垂出力與系統(tǒng)頻差成比例,在頻率調(diào)節(jié)時有一定延遲,主要調(diào)節(jié)系統(tǒng)頻率的穩(wěn)態(tài)偏差[18]??紤]到當前電池儲能調(diào)頻時的兩種控制策略在一次調(diào)頻不同時期起到的作用不同,若能將兩者在調(diào)頻過程中適當結(jié)合,使得其優(yōu)勢互補,則能更好地抑制新能源出力波動帶來的頻率擾動,進一步發(fā)揮儲能快速調(diào)頻的優(yōu)勢,減小網(wǎng)側(cè)調(diào)頻壓力?,F(xiàn)有將兩種控制策略簡單結(jié)合或疊加的方法存在電池儲能出力易發(fā)生突變、部分時刻抑制頻率恢復和適用調(diào)頻場景有限等缺點,因此考慮針對新能源場站儲能的實際應(yīng)用場景設(shè)計一種利用強化學習算法來獲取虛擬慣性和虛擬下垂出力在調(diào)頻過程中自適應(yīng)分配方法的電池儲能參與一次調(diào)頻的控制策略。
為實現(xiàn)電池儲能參與調(diào)頻時虛擬慣性出力和虛擬下垂出力的最優(yōu)分配,提出的自適應(yīng)分配方法原理如式(6)~(8)所示。
式(6)和式(7)中,?Pbd(s)和?Pbp(s)分別為最優(yōu)分配后的虛擬慣性出力和虛擬下垂出力調(diào)頻指令;a1和a2分別為所提最優(yōu)分配方法獲取的虛擬慣性分配系數(shù)和虛擬下垂分配系數(shù),滿足下式關(guān)系:
由式(8)可知,儲能在參與一次調(diào)頻時的總出力由虛擬慣性出力和虛擬下垂出力組成,兩者在不同調(diào)頻時期的權(quán)重由a1和a2來自適應(yīng)調(diào)節(jié),a1和a2的具體數(shù)值由訓練得到的智能體獲得。根據(jù)式(8)設(shè)計如圖3所示的儲能控制器,圖中,k1和k2分別為頻差和頻差變化率的縮放系數(shù)。電池儲能在參與一次調(diào)頻時,系統(tǒng)頻差經(jīng)死區(qū)環(huán)節(jié)后進入儲能控制器,此時頻差和頻差變化率經(jīng)比例環(huán)節(jié)后通過智能體獲得虛擬慣性分配系數(shù),同時計算出虛擬下垂分配系數(shù);然后根據(jù)分配系數(shù)與對應(yīng)頻差和頻差變化率計算虛擬慣性和虛擬下垂出力,最后將兩種控制策略的出力相加得到儲能調(diào)頻時的最終調(diào)頻出力指令。
圖3 儲能參與一次調(diào)頻的自適應(yīng)控制器Fig.3 Adaptive controller with battery storage in primary frequency regulation
本工作擬通過強化學習算法在新能源場站出力擾動下訓練智能體以實現(xiàn)對儲能出力方式的最優(yōu)分配。根據(jù)所搭建的區(qū)域電網(wǎng)頻率響應(yīng)模型,強化學習智能體需要在新能源場站出力擾動下根據(jù)歷史經(jīng)驗不斷學習來更新智能體參數(shù),新能源場站的出力主要由風速輸入圖2所示風電機組模型獲取。目前常用于擬合風速的分布模型主要為威布爾分布,其概率分布為
式中,c為尺寸參數(shù),k為形狀參數(shù)[19]。由文獻[19]知,不同新能源場站的風速分布模型具有較大差異,因此不同新能源場站出力特征具有明顯差異,本工作考慮針對某特定新能源場站,獲取其出力擾動作為智能體訓練輸入。威布爾分布的參數(shù)可以通過最小二乘法獲取,將風速按不同區(qū)間進行概率統(tǒng)計可得其頻次f1,f2…fn,以及p1=f1,p2=p1+f2,…,pn=pn-1+fn,對應(yīng)參數(shù)的計算公式如式(11)~(14)所示。
式中,vi為第i個風速樣本,n為非零的風速數(shù)據(jù)個數(shù)。
為了給智能體施加具有新能源場站歷史出力特征的擾動進行訓練,首先需要收集大量新能源場站或地區(qū)歷史風速數(shù)據(jù),并根據(jù)式(11)~(14)計算風速概率統(tǒng)計分布參數(shù),獲取該地風速統(tǒng)計分布規(guī)律。然后根據(jù)風速概率分布生成隨機序列,最后根據(jù)圖2所示風電機組模型即可獲得新能源場站出力波動數(shù)據(jù)。
深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法是一種適用于解決連續(xù)控制問題的強化學習算法,其主要框架為Actor-Critic(策略-價值)網(wǎng)絡(luò),是對傳統(tǒng)DQN(deep Q-network)算法基本思想的擴展,有關(guān)DDPG算法的詳細原理可參考文獻[20]。
本工作采用DDPG算法求解電池儲能參與一次調(diào)頻時虛擬慣性和虛擬下垂出力的自適應(yīng)分配模型,基于新能源電站出力波動數(shù)據(jù),利用智能體在所搭建的含儲能新能源電站的系統(tǒng)頻率響應(yīng)模型中交互學習,根據(jù)獲取的經(jīng)驗不斷訓練智能體,使得儲能在調(diào)頻時能夠自適應(yīng)分配兩種出力方式的權(quán)重,滿足調(diào)頻效果和出力最優(yōu)。DDPG算法中的關(guān)鍵變量設(shè)計如下。
(1)狀態(tài)s
一次調(diào)頻過程中,系統(tǒng)頻差和頻差變化率在不同一次調(diào)頻階段的特征明顯不同[4],可以用兩者來區(qū)分當前時刻位于一次調(diào)頻總過程的不同時期。此外,考慮到儲能虛擬慣性出力和虛擬下垂出力大小與系統(tǒng)頻差和頻率變化率直接相關(guān),因此將狀態(tài)變量定義為經(jīng)過電池儲能死區(qū)環(huán)節(jié)后的系統(tǒng)頻差和頻差變化率。
(2)動作a
智能體的動作定義為電池儲能參與一次調(diào)頻時的虛擬慣性分配系數(shù),滿足a∈[0,1]。根據(jù)智能體的動作以及虛擬慣性分配系數(shù)和虛擬下垂分配系數(shù)的關(guān)系可以計算出虛擬下垂分配系數(shù)的具體數(shù)值。
(3)獎勵函數(shù)r
獎勵函數(shù)的設(shè)計如式(15)所示。獎勵函數(shù)r主要包括r1和r2兩部分,式中α和β為兩部分獎勵的比例系數(shù),?f為系統(tǒng)頻差,?Pb為電池儲能出力變化量。獎勵r1用來衡量智能體動作對儲能參與調(diào)頻效果的優(yōu)劣,獎勵r2則避免儲能出力過大影響長期調(diào)頻能力以及自身使用壽命。
此外,在智能體訓練過程中還需滿足以下約束條件:
式(16)中,?Pb,t為儲能在t個控制間隔時的出力變化量;?Pb,min、?Pb,max分別為儲能某一控制間隔出力變化量的上、下限;式(17)中,?Pr,min、?Pr,max分別為儲能相鄰控制間隔出力變化量的上、下限;式(18)中,?fmin、?fmax分別為系統(tǒng)頻差的上、下限。
本工作所提出的基于DDPG算法的虛擬慣性和虛擬下垂出力自適應(yīng)分配模型的整體框架如圖4所示。在圖4中,DDPG算法整體包含4個神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)及其目標(Target)策略網(wǎng)絡(luò)、價值網(wǎng)絡(luò)及目標(Target)價值網(wǎng)絡(luò)。其中Q(s,a|θQ)表示價值網(wǎng)絡(luò)的評價函數(shù),μ'(s'|θμ')表示Target策略網(wǎng)絡(luò)的策略函數(shù);θT表示目標網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);θ表示策略或價值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),τ為目標網(wǎng)絡(luò)更新參數(shù)。智能體訓練的環(huán)境為第一部分搭建的含儲能新能源電站的區(qū)域電網(wǎng)頻率響應(yīng)模型。
圖4 基于DDPG算法的虛擬慣性和虛擬下垂出力自適應(yīng)分配模型的整體框架Fig.4 The framework of virtual inertia and virtual sag adaptive distribution model based on DDPG algorithm
在每一訓練回合開始前,首先根據(jù)地區(qū)風速概率分布生成一段隨機風速擾動,然后通過風電機組模型生成連續(xù)功率擾動來模擬仿真環(huán)境訓練時的調(diào)頻場景。假設(shè)在該回合的第t個時刻系統(tǒng)的狀態(tài)st=[?ft,d(?f)/dt|t],通過策略網(wǎng)絡(luò)可以獲得此時動作at即儲能的虛擬慣性分配系數(shù)為:
其中,μ(st)為策略網(wǎng)絡(luò)輸出;N為策略網(wǎng)絡(luò)輸出噪聲,可用來增加智能體探索程度。儲能在仿真環(huán)境中執(zhí)行動作at后可以得到當前時刻的獎勵rt和下一時刻的狀態(tài)st+1。DDPG算法在訓練時通過經(jīng)驗回放技術(shù)將智能體與環(huán)境交互產(chǎn)生的(st,at,rt,st+1)序列儲存在經(jīng)驗回放池中,每次迭代時通過批量采樣的方法從中隨機抽取M組歷史數(shù)據(jù)對策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)參數(shù)進行更新,并在每回合對目標網(wǎng)絡(luò)的參數(shù)通過軟更新的方法進行更新。
智能體的整體訓練流程為:
步驟1:初始化策略和價值網(wǎng)絡(luò)及其目標網(wǎng)絡(luò)的參數(shù),設(shè)置訓練時的學習率、軟更新參數(shù)和經(jīng)驗回放池大小等;
步驟2:根據(jù)風速概率分布生成隨機風速,通過風電機組模型獲取該回合用于訓練智能體的連續(xù)擾動;
步驟3:智能體根據(jù)該擾動下的初始頻差和頻差變化率獲取動作,儲能執(zhí)行出力分配指令,根據(jù)仿真環(huán)境獲取當前時刻的獎勵以及下一個時刻的系統(tǒng)頻差及其變化率;
步驟4:將包含當前時刻狀態(tài)、動作、獎勵和下一時刻狀態(tài)的經(jīng)驗序列儲存在經(jīng)驗回放池中,并從其中抽取一定數(shù)量樣本對網(wǎng)絡(luò)參數(shù)進行更新,直至達到回合最大步數(shù)結(jié)束本回合訓練過程;
步驟5:重復上述步驟至最大訓練回合數(shù)。
經(jīng)過多個回合的訓練后智能體在每回合獲得的獎勵之和趨近于收斂,此時智能體能夠在儲能參與調(diào)頻過程中實時根據(jù)系統(tǒng)頻差和頻差變化率對儲能的兩種控制策略出力權(quán)重進行最優(yōu)分配,如圖3所示,智能體負責在儲能參與一次調(diào)頻的自適應(yīng)控制器中輸出儲能參與一次調(diào)頻時的虛擬慣性分配系數(shù),然后根據(jù)式(6)~(9)獲取儲能參與一次調(diào)頻的總出力指令。優(yōu)化后的儲能出力將提高頻率穩(wěn)定效果,進一步發(fā)揮儲能參與調(diào)頻的潛力。
本工作中DDPG算法的策略網(wǎng)絡(luò)包含3個隱藏層,神經(jīng)元個數(shù)分別為50、25、25;價值網(wǎng)絡(luò)包含2個隱藏層,神經(jīng)元個數(shù)分別為50、25。其他訓練相關(guān)參數(shù)設(shè)置如表1所示。此外,智能體訓練以及后續(xù)仿真驗證部分所使用的區(qū)域電網(wǎng)頻率響應(yīng)模型選取了某區(qū)域電網(wǎng)作為仿真對象。該區(qū)域電網(wǎng)主要由傳統(tǒng)調(diào)頻機組和一個新能源場站構(gòu)成,其中傳統(tǒng)調(diào)頻機組的額定容量為100 MW,新能源場站包含十臺容量為1.5 MW 的風電機組。該區(qū)域電網(wǎng)負荷容量約為60 MW,傳統(tǒng)調(diào)頻機組工作在50%負荷,新能源平均出力約為10 MW??紤]為新能源場站配備單獨的儲能裝置用于參與一次調(diào)頻服務(wù),電池儲能的容量為2 MW/2 MWh,初始荷電狀態(tài)為0.5。傳統(tǒng)調(diào)頻機組和儲能的一次調(diào)頻死區(qū)均設(shè)置為±0.033 Hz,其余模型參數(shù)如表2 所示,所有模型參數(shù)在訓練及仿真時都將以額定數(shù)值為基準進行標幺化。
表1 DDPG算法參數(shù)設(shè)置Table 1 DDPG algorithm parameter settings
表2 區(qū)域電網(wǎng)頻率響應(yīng)模型仿真參數(shù)Table 2 Regional power grid frequency response model simulation parameters
智能體訓練的具體硬件環(huán)境為11th Gen lntel(R) Core(TM) i5-11400 @ 2.60 GHz CPU、32 GB內(nèi)存的計算機,DDPG算法代碼編寫以及訓練均通過Matlab/Simulink 平臺完成,獲取最終智能體的訓練過程中獎勵函數(shù)值的變化曲線如圖5所示。
圖5 強化學習訓練過程Fig.5 Reinforcement learning training process
圖5中藍色曲線為訓練過程中每回合獎勵值變化趨勢,橙色曲線為每20 個回合的平均回合獎勵值變化趨勢。由圖5可以看出,訓練前期智能體由于處在學習階段,其獎勵值由初始獎勵值不斷快速上升,在訓練中期由于與環(huán)境的不斷探索與訓練過程中動作的隨機性使得回合獎勵值出現(xiàn)較大波動,但在訓練后期回合獎勵和平均回合獎勵值不斷趨于收斂,說明此時智能體已經(jīng)通過不斷訓練與學習,能夠在實際調(diào)頻場景中進行儲能調(diào)頻出力方式的最優(yōu)決策,使得回合獎勵值最大。
為驗證本工作所提基于強化學習的新能源場站儲能一次調(diào)頻自適應(yīng)控制策略的有效性,本工作將通過新能源發(fā)電突變和新能源發(fā)電連續(xù)波動兩種擾動形式對不同控制策略進行仿真對比。在新能源發(fā)電突變擾動下,使用最大頻率偏差?fmax、最大頻率偏差變化量絕對值|?omax|和穩(wěn)態(tài)頻率偏差?fs作為調(diào)頻效果的評價指標,單位分別為Hz、Hz/s 和Hz。三個評價指標的值越小,說明調(diào)頻效果越好。
在連續(xù)出力波動下使用fRMSE和td作為調(diào)頻效果的評價指標,分別代表各采樣時刻頻率偏差的均方根值之和以及系統(tǒng)頻率超出死區(qū)邊界時間占總仿真時長的百分比,其計算方法如式(20)和式(21)所示。
式(20)中,fi為第i個采樣時刻的頻率;fn為額定頻率,取50 Hz;S為總采樣點數(shù)目。針對某一連續(xù)負荷擾動,fRMSE的值越小,說明電網(wǎng)頻率波動越小,儲能調(diào)頻效果越好。式(21)中,Ts為總仿真時長,Td為系統(tǒng)頻率超出死區(qū)邊界的時間,td的值越小,說明系統(tǒng)頻率在死區(qū)范圍內(nèi)的時長越長,系統(tǒng)頻率質(zhì)量越好。
設(shè)在5 s 時新能源場站出現(xiàn)幅值為0.02 p.u.的功率突減,對應(yīng)的新能源出力曲線如圖6所示,將該功率擾動作為?PW(s)施加在區(qū)域電網(wǎng)頻率響應(yīng)模型中。區(qū)域電網(wǎng)中傳統(tǒng)調(diào)頻機組和儲能共同參與一次調(diào)頻,兩者出力經(jīng)旋轉(zhuǎn)慣量與負荷環(huán)節(jié)后獲得系統(tǒng)頻率的波動結(jié)果。對無儲能、本工作、文獻[6]所提虛擬慣性出力和虛擬下垂出力的切換方法(對比方法)和文獻[4]所提直接切換法四種場景進行仿真對比,其中直接切換法為虛擬慣性出力和虛擬下垂出力結(jié)合的典型控制方法,而對比方法為在直接切換法基礎(chǔ)上的優(yōu)化方法;直接切換法會導致儲能出力突變,對比方法的解析函數(shù)設(shè)置會影響其實際調(diào)頻效果,通過上述三種方法對比可以說明本工作方法的有效性。此外,無儲能下的仿真結(jié)果用來說明當前擾動下僅傳統(tǒng)機組參與調(diào)頻時該區(qū)域電網(wǎng)頻率的波動情況。仿真得到頻率偏差波動曲線如圖7所示;不同方法的虛擬慣性分配系數(shù)變化如圖8所示,其中本工作方法對應(yīng)智能體的動作,對比方法和直接切換法對應(yīng)一次調(diào)頻過程中虛擬慣性控制方式的出力占比;不同方法下的儲能出力曲線如圖9所示,由虛擬慣性和虛擬下垂出力乘以各自占比后求和獲??;不同方法的調(diào)頻評價指標見表3。
表3 區(qū)域電網(wǎng)頻率響應(yīng)模型仿真參數(shù)Table 3 Frequency regulation index under sudden change of new energy power output
圖6 新能源場站出力突變曲線Fig.6 New energy plant output abrupt curve
圖7 新能源發(fā)電突變下的頻差曲線Fig.7 Frequency difference curve under sudden change of new energy power output
圖8 新能源發(fā)電突變下的虛擬慣性分配系數(shù)Fig.8 Virtual inertia distribution coefficient curve under sudden change of new energy power output
圖9 新能源發(fā)電突變下的儲能出力曲線Fig.9 Energy storage output curve under sudden change of new energy power output
由圖7可知,在0.02 p.u.新能源功率突減工況下,三種方法在擾動發(fā)生初期頻差跌落趨勢相同,無儲能下頻差跌落程度最深,對比方法的頻差最低值低于本工作方法,且前兩者頻差最低值明顯高于直接切換法。隨后本工作方法緩慢恢復至穩(wěn)態(tài)頻率附近,對比方法與直接切換法先有一段快速恢復階段,隨后緩慢變化至穩(wěn)態(tài)頻率,直接切換法在恢復階段有明顯超調(diào)。由圖8可得,直接切換法在固定時刻實現(xiàn)從僅慣性出力到僅下垂出力的切換,對比方法設(shè)計了若干過渡時段來實現(xiàn)慣性出力到下垂出力的切換,而本工作方法在前期僅為慣性出力,隨后較快將慣性出力的比例下調(diào)至零,實現(xiàn)兩種控制方式的過渡,保證慣性出力僅調(diào)頻初期起作用,避免在調(diào)頻恢復階段阻礙頻率恢復。在圖9中,直接切換方法下儲能由于在頻差變化率為零時實現(xiàn)兩種控制方式的切換,故儲能出力先降為零后迅速上升。對比方法和本工作方法的儲能出力曲線相近,但本工作方法過渡期更短,功率峰值也更低,說明本工作方法可以減小儲能的功率需求。目前各省市發(fā)布的“并網(wǎng)雙細則”中要求,風電場一次調(diào)頻有功功率滯后時間不大于2 秒、上升時間應(yīng)不大于9 秒。根據(jù)圖9 可知,本工作方法中儲能作為風電場主要調(diào)頻電源,其滯后時間和上升時間較快,能夠滿足相關(guān)要求。此外,儲能出力超過風電場一次調(diào)頻功率變化最低限幅,即風電場運行功率的6%,滿足風電場一次調(diào)頻功率變化幅度要求。且風電機組不參與一次調(diào)頻,可以避免因參與一次調(diào)頻動作導致風電機組脫網(wǎng)或停機現(xiàn)象發(fā)生。在表3中,本工作方法的?fmax評價指標最優(yōu),較對比方法和直接切換法分別減少約8.43%和36.7%;|?omax|指標與對比方法相同,均優(yōu)于直接切換法;三種方法的?fs保持一致。以上說明了本工作方法在新能源發(fā)電突變擾動下的表現(xiàn)優(yōu)于對比方法和直接切換法。
新能源發(fā)電的連續(xù)擾動仿真設(shè)置兩組不同擾動工況,工況一為圖10(a)所示的300 s風速波動產(chǎn)生的新能源電站出力波動,實際新能源出力波動如圖10(b)所示,將該功率擾動作為?PW(s)施加在區(qū)域電網(wǎng)頻率響應(yīng)模型中。同樣對無儲能、本工作方法、對比方法和直接切換法四種場景進行仿真,得到頻率偏差曲線如圖11 所示,儲能輸出功率曲線如圖12所示,對應(yīng)調(diào)頻指標見表4。
表4 工況一的調(diào)頻指標Table 4 Frequency regulation index of condition one
圖10 工況一風速和功率波動曲線:(a)風速曲線;(b)功率曲線Fig.10 Condition one wind speed and power fluctuation curve: (a) wind speed curve; (b) power curve
圖11 工況一下的頻差曲線Fig.11 Frequency difference curve of condition one
圖12 工況一不同方法儲能的輸出功率:(a)0~300 s;(b)212~222 sFig.12 The output power of different methods for energy storage: (a)0—300 s; (b)212—222 s
如圖11所示,在工況一的新能源出力波動下,四種場景的頻率偏差曲線都出現(xiàn)了較大的振蕩,其中無儲能情況下的頻率波動情況最劇烈。同直接切換法和對比方法相比,本工作方法的系統(tǒng)頻差曲線在大部分時間段內(nèi)明顯更貼近頻差為零的基準線。此外,相較于本工作方法,直接切換法和對比方法在部分頻差轉(zhuǎn)折點的頻差會出現(xiàn)較大起伏,因此其表現(xiàn)不如本工作方法。圖12 為不同方法下儲能的輸出功率曲線,其中直接切換法的輸出功率波動幅度最大,對比方法和本工作方法的輸出功率曲線相近,但對比方法在部分時刻的小幅功率波動頻次仍高于本工作方法。由表4 可以得出與圖11同樣的結(jié)論,本工作方法的fRMSE較對比方法和直接切換法分別減少約8.74%和13.83%,td較對比方法和直接切換法分別減少約3.9%和6.7%,兩項調(diào)頻評價指標均為最優(yōu),說明本工作方法能在新能源出力大幅波動下減小系統(tǒng)頻率波動,優(yōu)化頻率質(zhì)量,改善一次調(diào)頻效果。
直接切換法、對比方法和本工作方法中儲能的SOC計算方法如圖1所示,在工況一的新能源波動下三者的SOC 變化曲線如圖13 所示。在該工況下,三種方法的SOC 均有不同程度的降低,其中本工作方法和對比方法下降趨勢更為接近。三種方法中本工作方法的SOC 偏移程度最大,說明本工作方法較其他兩種方法的一次調(diào)頻動作量更多,在彌補一次調(diào)頻過程中的電網(wǎng)功率缺額時起到了更積極的作用,減小了系統(tǒng)頻率偏差。結(jié)合表4 可知,在該工況下本工作方法的調(diào)頻評價指標fRMSE更優(yōu),頻率穩(wěn)定效果更好。
圖13 工況一不同方法儲能的SOCFig.13 The SOC of different methods for energy storage under condition one
工況二設(shè)置為實際新能源出力擾動,圖14 為某風電場測量得到的300 s 出力波動,將該功率擾動作為?PW(s)施加在區(qū)域電網(wǎng)頻率響應(yīng)模型中。同樣對無儲能、本工作方法、對比方法和直接切換法四種場景進行仿真,得到頻率偏差曲線如圖15所示,儲能輸出功率和SOC曲線分別如圖16和17所示,對應(yīng)調(diào)頻指標見表5。
表5 工況二的調(diào)頻指標Table 5 Frequency regulation index of condition two
圖14 工況二新能源出力波動Fig.14 New energy output fluctuation under condition two
圖15 工況二下的頻差曲線Fig.15 Frequency difference curve of condition two
圖16 工況二不同方法儲能的輸出功率:(a)0~300 s;(b)36~50 sFig.16 The output power of different methods for energy storage: (a)0—300 s; (b)36—50 s
如圖15 所示,三種方法中本工作方法的頻差曲線較其他兩種方法的頻差曲線偏移更小。對比方法在大部分情況下同本工作方法一致,但在頻差曲線的拐點附近仍會出現(xiàn)小幅的頻率偏移。直接切換法由于依賴頻差變化率作為控制方式出力切換時機,因此在大部分頻差拐點附近均會出現(xiàn)較大的頻差偏移。在圖16(a)中,本工作方法和對比方法的儲能動作深度在多數(shù)時刻明顯小于直接切換法,直接切換法較前兩者出現(xiàn)了更多的輸出功率振蕩和出力突變,不利于儲能的長期使用壽命;在圖16(b)中,對比方法在控制模式臨界切換點附近仍會導致部分時刻的小幅出力振蕩。在圖17 中,三種方法的SOC 在工況二下均有不同程度的上升,其中本工作方法和對比方法變化趨勢更為接近。三種方法中本工作方法的SOC 偏移程度最大,說明本工作方法較其他兩種方法的一次調(diào)頻動作量更多。結(jié)合表5可知,本工作方法在頻差和頻率質(zhì)量兩個評價指標上均表現(xiàn)最優(yōu),其中本工作方法的fRMSE較對比方法和直接切換法分別減少約11.14%和17.61%,td較對比方法和直接切換法分別減少約1.55%和2.35%,說明本工作方法也能夠在實際新能源出力波動下較好地完成一次調(diào)頻任務(wù),減小系統(tǒng)頻率波動,提高頻率質(zhì)量。
圖17 工況二不同方法儲能的SOCFig.17 The SOC of different methods for energy storage under condition two
本工作針對儲能傳統(tǒng)虛擬慣性和虛擬下垂控制策略的缺點,考慮新能源出力特征,提出了基于強化學習的儲能一次調(diào)頻自適應(yīng)控制策略。該控制策略能夠根據(jù)系統(tǒng)頻差和頻差變化率自適應(yīng)調(diào)整兩種傳統(tǒng)控制策略的出力占比,在調(diào)頻前期通過虛擬慣性控制抑制頻差快速變化,在調(diào)頻中后期通過虛擬下垂控制減小穩(wěn)態(tài)頻差。與所設(shè)置的三種對比方法相比,所提控制策略在新能源發(fā)電突變工況下最少能減小8.43%的最大頻率偏差,在新能源發(fā)電連續(xù)波動工況下最少能減少8.74%的頻率偏差均方根,且能在一定程度上減少系統(tǒng)頻率波動至調(diào)頻死區(qū)外的時間。以上說明所提方法在不同工況下的頻率穩(wěn)定效果和頻率質(zhì)量維持較好,能夠提高新能源場站儲能的一次調(diào)頻能力,對新能源友好并網(wǎng)和維護電網(wǎng)頻率穩(wěn)定有重要意義。