李 靖,余 濤,王克英,唐 捷
(1.華南理工大學(xué),廣東廣州510640;2.廣東電網(wǎng)公司韶關(guān)供電局,廣東韶關(guān)512026)
變速恒頻雙饋發(fā)電是目前風(fēng)力發(fā)電普遍采用的一種發(fā)電方式,其發(fā)電機采用雙饋感應(yīng)電機[1]。當機組工作在額定風(fēng)速以下時,通過調(diào)節(jié)發(fā)電機轉(zhuǎn)子轉(zhuǎn)速,保持最佳葉尖速比,實現(xiàn)對風(fēng)能的最大捕獲。其控制系統(tǒng)常采用基于定子磁場定向的矢量控制,實現(xiàn)發(fā)電機有功、無功功率的解耦控制。
由于風(fēng)能具有強烈的隨機性、時變性,且系統(tǒng)含有未建模或無法準確建模的動態(tài)部分,使雙饋發(fā)電系統(tǒng)成為一個多變量、非線性、強耦合系統(tǒng),因此僅采用傳統(tǒng)矢量控制難以滿足控制系統(tǒng)對高適應(yīng)性和高魯棒性的要求[2]。文獻[3]采用神經(jīng)網(wǎng)絡(luò)控制方案,改善了控制性能,但穩(wěn)態(tài)誤差較大。文獻[4]提出了模糊滑??刂撇呗裕瑢⒛:刂坪突?刂葡嘟Y(jié)合,取得了良好的控制效果,但實現(xiàn)較復(fù)雜。
本文提出一種基于強化學(xué)習(xí)的雙饋風(fēng)力發(fā)電機自校正控制策略。強化學(xué)習(xí)控制算法對被控對象的數(shù)學(xué)模型和運行狀態(tài)不敏感,其自學(xué)習(xí)能力對參數(shù)變化或外部干擾具有較強的自適應(yīng)性和魯棒性。仿真結(jié)果表明,該自校正控制器能夠快速自動地優(yōu)化風(fēng)機控制系統(tǒng)的輸出,不僅實現(xiàn)了對風(fēng)能的最大追蹤,而且具有良好的動態(tài)性能,顯著增強了控制系統(tǒng)的魯棒性和適應(yīng)性。
當定子取發(fā)電機慣例、轉(zhuǎn)子取電動機慣例時,三相對稱系統(tǒng)中具有均勻氣隙的雙饋感應(yīng)發(fā)電機在兩相同步旋轉(zhuǎn)dq坐標系下的數(shù)學(xué)模型:[5]
式中:下標d和q分別表示d軸和q軸分量;下標s和 r分別表示定子和轉(zhuǎn)子分量;U、i、ψ、Te、P、Q 分別表示電壓、電流、磁鏈、電磁轉(zhuǎn)矩、有功和無功功率;R、L分別表示電阻和電感;ω1為同步轉(zhuǎn)速;ωs為轉(zhuǎn)差電角速度,ωs=ω1-ωr=sω1;ωr為發(fā)電機轉(zhuǎn)子電角速度,s為轉(zhuǎn)差率;p為極對數(shù);p為微分算子。
采用定子磁鏈定向矢量控制,將定子磁鏈矢量定向于d軸上,有ψds=ψs,ψqs=0。穩(wěn)態(tài)運行時,定子磁鏈保持恒定,忽略定子繞組電阻壓降,則Uds=0,Uqs=ω1ψs=Us,Us為定子電壓矢量幅值。
由式(6)得:
由式(3)得:
由式(4)得:
再由式(2)得:
通過式(7)~式(10)可設(shè)計出雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)。
強化學(xué)習(xí)[6](以下簡稱RL)是系統(tǒng)從環(huán)境狀態(tài)到動作映射的學(xué)習(xí),是一種試探評價的學(xué)習(xí)過程,可用圖1來描述[7]。Agent根據(jù)學(xué)習(xí)算法選擇一個動作作用于環(huán)境(即系統(tǒng)),引起環(huán)境狀態(tài)s的變化,環(huán)境再反饋一個立即強化信號(獎或罰)給Agent,A-gent根據(jù)強化信號及環(huán)境的新狀態(tài)s'再選擇下一個動作。近年來,RL理論在電力系統(tǒng)中用于調(diào)度、無功優(yōu)化和電力市場等領(lǐng)域的應(yīng)用研究成果顯著[8]。
圖1 強化學(xué)習(xí)系統(tǒng)
Q學(xué)習(xí)算法是一種從長期的觀點通過試錯與環(huán)境交互來改進控制策略的強化學(xué)習(xí)算法,其顯著特點之一是對象模型的無關(guān)性[9]。通過優(yōu)化一個可迭代計算的狀態(tài)-動作對值函數(shù)Q(s,a)來在線求取最優(yōu)控制策略。Tsitsiklis等人證明了Q學(xué)習(xí)算法的收斂性[10]。
Q學(xué)習(xí)的目的是估計最優(yōu)控制策略的Q值。設(shè)Qk表示最優(yōu)值函數(shù)Q*的第k次迭代值,Q值按迭代公式(11)更新[9]:
動作選擇策略是Q學(xué)習(xí)控制算法的關(guān)鍵。定義Agent在狀態(tài)s下選擇具有最高Q值的動作稱為貪婪策略p*,其動作稱為貪婪動作。
若Agent每次迭代都選取Q值最高的動作,會導(dǎo)致收斂于局部最優(yōu),因為總是執(zhí)行相同的動作鏈而未搜索其他動作。為避免這種情況,本文利用一種追蹤算法[11]來設(shè)計動作選擇策略。該算法基于概率分布,初始化時,賦予各狀態(tài)下每個可行動作相等的被選概率,隨著迭代的進行,概率隨Q值表格的變化而變化,更新公式如下:
以固定增益的PI控制器構(gòu)建的現(xiàn)有雙饋感應(yīng)風(fēng)機控制系統(tǒng),當系統(tǒng)工況改變時,控制性能會下降。而Q學(xué)習(xí)控制算法具有的對象模型無關(guān)性,以及對參數(shù)變化或外部干擾的自適應(yīng)性和魯棒性的特點,為改善風(fēng)機的控制性能提供了一種思路。
本文提出一種自校正控制架構(gòu),如圖2所示。在原PI控制器的基礎(chǔ)上附加一個RL控制器,來動態(tài)校正PI控制器的輸出,其中RL-P和RL-Q控制器分別對有功和無功功率控制信號校正。RL控制器在運行過程一直處于在線學(xué)習(xí)狀態(tài),被控量一旦偏離控制目標(比如參數(shù)變化或外部擾動所致),便自動調(diào)整控制策略,從而增加原控制系統(tǒng)的自適應(yīng)和自學(xué)習(xí)能力。
圖2 雙饋風(fēng)力發(fā)電系統(tǒng)自校正控制框圖
狀態(tài)和動作空間的離散化是設(shè)計基于Q學(xué)習(xí)算法的風(fēng)機自校正控制器的首要步驟也是關(guān)鍵之一。RL-P控制器的狀態(tài)集合S包括(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+ ∞)共 11 個不同狀態(tài);所允許的輸出為離散動作集合 A,包括[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,- 0.04,-0.06]共11個動作值,被選擇的動作與PI控制器的信號相疊加。RL-Q控制器的狀態(tài)劃分和允許離散動作集合與RL-P控制器相同。
第k步時刻的立即強化信號r由被控量的方差及帶權(quán)值的相應(yīng)動作變化量的平方之和組成,考慮到控制目標是使功率偏差盡可能小,故取其負值,即:
獎勵函數(shù)中引入動作變化項是為了減少控制信號的波動,從而減少機械應(yīng)力。式中αk值是動作集合A的指針,而不是實際的輸出值,μ1和μ2為平衡前后各平方項的權(quán)重值。
在確定了狀態(tài)集、動作集和獎勵函數(shù)后,即可進行強化學(xué)習(xí)控制器在線自學(xué)習(xí)和動態(tài)優(yōu)化。由于在最開始階段缺乏經(jīng)驗,控制器需經(jīng)歷一段隨機動作探索的預(yù)學(xué)習(xí)過程。此過程完成后,稱其為PI/RL控制器,可投入實際系統(tǒng)參與運行控制?;赒學(xué)習(xí)算法的自校正強化學(xué)習(xí)流程圖如圖3所示。
圖3 自校正學(xué)習(xí)流程圖
為驗證本文所設(shè)計的控制器的正確性和有效性,選擇如下參數(shù)進行仿真驗證:雙饋風(fēng)力發(fā)電機額定功率為P=6×1.5 MW=9 MW,=0.007,=0.005,=3.071,=3.056,=2.9,p=3。
無功功率初始給定為0.9 Mvar,1 s時降為零,2 s后再次上升0.9 Mvar,3 s時仿真結(jié)束。仿真期間,保持風(fēng)速為10 m/s不變,仿真結(jié)果如圖4所示。由圖4(a)可看出,基于強化學(xué)習(xí)算法的自校正控制動態(tài)性能優(yōu)于傳統(tǒng)矢量控制。圖4(b)是強化學(xué)習(xí)控制器基于無功功率偏差輸出的校正控制信號。由圖4(c)可看出,在無功功率調(diào)節(jié)過程中,有功功率始終保持不變,很好地實現(xiàn)了解耦。
圖4 無功功率調(diào)節(jié)過程系統(tǒng)響應(yīng)
風(fēng)速初始給定為10 m/s,2 s時上升為11 m/s,30 s時仿真結(jié)束。仿真期間,設(shè)定無功功率為零,仿真結(jié)果如圖5所示。由圖5(a)可看出,基于強化學(xué)習(xí)算法的自校正控制和傳統(tǒng)矢量控制有功功率響應(yīng)曲線基本重合。這是因為基于最大風(fēng)能捕獲原理,當風(fēng)速突變時,有功功率參考值不突變而是按照最佳功率曲線變化[13],功率偏差始終很小,未達到強化學(xué)習(xí)設(shè)定最小動作值的狀態(tài),故強化學(xué)習(xí)控制器輸出控制信號為零,從而兩條曲線重合。由圖5(c)可看出,在有功功率調(diào)節(jié)過程中,無功功率不受影響,實現(xiàn)了解耦。
圖5 有功功率調(diào)節(jié)過程系統(tǒng)響應(yīng)
圖6 參數(shù)變化時動態(tài)響應(yīng)
為考察系統(tǒng)對電機參數(shù)變化的魯棒性,假設(shè)風(fēng)速為10 m/s不變,在t=2 s時b增大一倍。圖6給出了參數(shù)變化后,相同條件下傳統(tǒng)矢量控制與基于強化學(xué)習(xí)算法的自校正控制的動態(tài)響應(yīng)曲線。由圖6(c)和圖6(d)可看出,當參數(shù)變化導(dǎo)致有功和無功功率與參考值出現(xiàn)偏差后,強化學(xué)習(xí)控制器根據(jù)偏差值立即輸出校正控制信號,來補償參數(shù)變化的影響。由圖6(a)和圖6(b)可看出,采用自校正控制,超調(diào)較小,改善了動態(tài)品質(zhì),提高了控制性能。
雙饋風(fēng)力發(fā)電系統(tǒng)具有多變量、非線性、受參數(shù)變化和外部干擾顯著的特點,利用強化學(xué)習(xí)算法具有的在線自學(xué)習(xí)能力和模型無關(guān)性特點,設(shè)計了風(fēng)機自校正控制器,可有效提高其控制系統(tǒng)的魯棒性和自適應(yīng)性。此外,該控制策略無需改變原PI控制器的結(jié)構(gòu)和參數(shù),只需增加一個自校正模塊,工程實現(xiàn)十分簡便。同時,在研究中筆者發(fā)現(xiàn),由于RL控制器的控制信號為離散動作值,易導(dǎo)致超調(diào),后續(xù)研究中可考慮結(jié)合模糊控制對輸入輸出信號模糊化。
[1]劉吉宏,徐大平,呂躍剛.雙饋感應(yīng)發(fā)電機轉(zhuǎn)速的非線性模型預(yù)測 控制[J].電網(wǎng)技術(shù),2011,35(4):159 -163.
[2]王君瑞,鐘彥儒,宋衛(wèi)章.基于無源性與自適應(yīng)降階觀測器的雙饋風(fēng)力發(fā)電機控制[J].中國電機工程學(xué)報,2011,31(33):159-168.
[3]Li H,Shi K L,Mclaren P G.Neural- Network - Based Sensorless Maximum Wind Energy Capture with Compensated Power Coefficient[J].IEEE Transactions on Industry Applications,2005,41(6):1548-1556.
[4]孔屹剛,王志新.大型風(fēng)電機組模糊滑模魯棒控制器設(shè)計與仿真[J].中國電機工程學(xué)報,2008,28(14):136 -141.
[5]辜承林,韋忠朝,黃聲華,等.對轉(zhuǎn)子交流勵磁電流實行矢量控制的變速恒頻發(fā)機[J].中國電機工程學(xué)報,2001,21(12):119-124.
[6]Sutton R S,Barto A G.Reinforcement Learning:an Introduction[M].Cambridge:MIT Press,1998.
[7]張汝波.強化學(xué)習(xí)理論及應(yīng)用[M].哈爾濱:哈爾濱工程大學(xué)出版社,2001.
[8]余濤,周斌,甄衛(wèi)國.強化學(xué)習(xí)理論在電力系統(tǒng)中的應(yīng)用及展望[J].電力系統(tǒng)保護與控制,2009,37(14):122 -128.
[9]Watkins J C H,Dayan Peter.Q - learning[J].Machine Learning,1992(8):279-292.
[10]Tsitsiklis,John N.Asynchronous Stochastic Approximation and Q- learning[J].Machine Leaning,1994,16(3):185 -202.
[11]Richard S.Sutton,Andrew G.Barto.Reinforcement Learning:An In - troduction[M].Cambridge:MIT Press,1988.
[12]余濤,胡細兵,劉靖.基于多步回溯Q(λ)學(xué)習(xí)算法的多目標最優(yōu)潮流計算[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2010,38(10):139-145.
[13]劉其輝,賀益康,張建華.交流勵磁變速恒頻風(fēng)力發(fā)電機的運行控制及建模仿真[J].中國電機工程學(xué)報,2006,26(5):43-50.