基于強化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機自校正控制

2013-06-19 09:09王克英

微特電機 2013年3期

李靖，余濤，王克英，唐捷

(1.華南理工大學(xué)，廣東廣州510640;2.廣東電網(wǎng)公司韶關(guān)供電局，廣東韶關(guān)512026)

0 引言

變速恒頻雙饋發(fā)電是目前風(fēng)力發(fā)電普遍采用的一種發(fā)電方式，其發(fā)電機采用雙饋感應(yīng)電機［1］。當機組工作在額定風(fēng)速以下時，通過調(diào)節(jié)發(fā)電機轉(zhuǎn)子轉(zhuǎn)速，保持最佳葉尖速比，實現(xiàn)對風(fēng)能的最大捕獲。其控制系統(tǒng)常采用基于定子磁場定向的矢量控制，實現(xiàn)發(fā)電機有功、無功功率的解耦控制。

由于風(fēng)能具有強烈的隨機性、時變性，且系統(tǒng)含有未建模或無法準確建模的動態(tài)部分，使雙饋發(fā)電系統(tǒng)成為一個多變量、非線性、強耦合系統(tǒng)，因此僅采用傳統(tǒng)矢量控制難以滿足控制系統(tǒng)對高適應(yīng)性和高魯棒性的要求［2］。文獻［3］采用神經(jīng)網(wǎng)絡(luò)控制方案，改善了控制性能，但穩(wěn)態(tài)誤差較大。文獻［4］提出了模糊滑?？刂撇呗裕瑢⒛：刂坪突？刂葡嘟Y(jié)合，取得了良好的控制效果，但實現(xiàn)較復(fù)雜。

本文提出一種基于強化學(xué)習(xí)的雙饋風(fēng)力發(fā)電機自校正控制策略。強化學(xué)習(xí)控制算法對被控對象的數(shù)學(xué)模型和運行狀態(tài)不敏感，其自學(xué)習(xí)能力對參數(shù)變化或外部干擾具有較強的自適應(yīng)性和魯棒性。仿真結(jié)果表明，該自校正控制器能夠快速自動地優(yōu)化風(fēng)機控制系統(tǒng)的輸出，不僅實現(xiàn)了對風(fēng)能的最大追蹤，而且具有良好的動態(tài)性能，顯著增強了控制系統(tǒng)的魯棒性和適應(yīng)性。

1 定子磁鏈定向矢量控制

當定子取發(fā)電機慣例、轉(zhuǎn)子取電動機慣例時，三相對稱系統(tǒng)中具有均勻氣隙的雙饋感應(yīng)發(fā)電機在兩相同步旋轉(zhuǎn)dq坐標系下的數(shù)學(xué)模型:［5］

式中:下標d和q分別表示d軸和q軸分量;下標s和 r分別表示定子和轉(zhuǎn)子分量;U、i、ψ、Te、P、Q 分別表示電壓、電流、磁鏈、電磁轉(zhuǎn)矩、有功和無功功率;R、L分別表示電阻和電感;ω1為同步轉(zhuǎn)速;ωs為轉(zhuǎn)差電角速度，ωs=ω1－ωr=sω1;ωr為發(fā)電機轉(zhuǎn)子電角速度，s為轉(zhuǎn)差率;p為極對數(shù);p為微分算子。

采用定子磁鏈定向矢量控制，將定子磁鏈矢量定向于d軸上，有ψds=ψs，ψqs=0。穩(wěn)態(tài)運行時，定子磁鏈保持恒定，忽略定子繞組電阻壓降，則Uds=0，Uqs=ω1ψs=Us，Us為定子電壓矢量幅值。

由式(6)得:

由式(3)得:

由式(4)得:

再由式(2)得:

通過式(7)～式(10)可設(shè)計出雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)。

2 強化學(xué)習(xí)自校正控制器設(shè)計

2.1 強化學(xué)習(xí)算法原理

強化學(xué)習(xí)［6］(以下簡稱RL)是系統(tǒng)從環(huán)境狀態(tài)到動作映射的學(xué)習(xí)，是一種試探評價的學(xué)習(xí)過程，可用圖1來描述［7］。Agent根據(jù)學(xué)習(xí)算法選擇一個動作作用于環(huán)境(即系統(tǒng))，引起環(huán)境狀態(tài)s的變化，環(huán)境再反饋一個立即強化信號(獎或罰)給Agent，A-gent根據(jù)強化信號及環(huán)境的新狀態(tài)s'再選擇下一個動作。近年來，RL理論在電力系統(tǒng)中用于調(diào)度、無功優(yōu)化和電力市場等領(lǐng)域的應(yīng)用研究成果顯著［8］。

圖1 強化學(xué)習(xí)系統(tǒng)

Q學(xué)習(xí)算法是一種從長期的觀點通過試錯與環(huán)境交互來改進控制策略的強化學(xué)習(xí)算法，其顯著特點之一是對象模型的無關(guān)性［9］。通過優(yōu)化一個可迭代計算的狀態(tài)－動作對值函數(shù)Q(s，a)來在線求取最優(yōu)控制策略。Tsitsiklis等人證明了Q學(xué)習(xí)算法的收斂性［10］。

Q學(xué)習(xí)的目的是估計最優(yōu)控制策略的Q值。設(shè)Qk表示最優(yōu)值函數(shù)Q*的第k次迭代值，Q值按迭代公式(11)更新［9］:

動作選擇策略是Q學(xué)習(xí)控制算法的關(guān)鍵。定義Agent在狀態(tài)s下選擇具有最高Q值的動作稱為貪婪策略p*，其動作稱為貪婪動作。

若Agent每次迭代都選取Q值最高的動作，會導(dǎo)致收斂于局部最優(yōu)，因為總是執(zhí)行相同的動作鏈而未搜索其他動作。為避免這種情況，本文利用一種追蹤算法［11］來設(shè)計動作選擇策略。該算法基于概率分布，初始化時，賦予各狀態(tài)下每個可行動作相等的被選概率，隨著迭代的進行，概率隨Q值表格的變化而變化，更新公式如下:

2.2 自校正控制器的結(jié)構(gòu)

以固定增益的PI控制器構(gòu)建的現(xiàn)有雙饋感應(yīng)風(fēng)機控制系統(tǒng)，當系統(tǒng)工況改變時，控制性能會下降。而Q學(xué)習(xí)控制算法具有的對象模型無關(guān)性，以及對參數(shù)變化或外部干擾的自適應(yīng)性和魯棒性的特點，為改善風(fēng)機的控制性能提供了一種思路。

本文提出一種自校正控制架構(gòu)，如圖2所示。在原PI控制器的基礎(chǔ)上附加一個RL控制器，來動態(tài)校正PI控制器的輸出，其中RL－P和RL－Q控制器分別對有功和無功功率控制信號校正。RL控制器在運行過程一直處于在線學(xué)習(xí)狀態(tài)，被控量一旦偏離控制目標(比如參數(shù)變化或外部擾動所致)，便自動調(diào)整控制策略，從而增加原控制系統(tǒng)的自適應(yīng)和自學(xué)習(xí)能力。

圖2 雙饋風(fēng)力發(fā)電系統(tǒng)自校正控制框圖

2.3 自校正控制器的設(shè)計

狀態(tài)和動作空間的離散化是設(shè)計基于Q學(xué)習(xí)算法的風(fēng)機自校正控制器的首要步驟也是關(guān)鍵之一。RL－P控制器的狀態(tài)集合S包括(－∞，－0.1)、［－0.1，－0.06)、［－0.06，－0.03)、［－0.03，－0.02)、［－0.02，－0.005)、［－0.005，0.005］、(0.005，0.02］、(0.02，0.03］、(0.03，0.06］、(0.06，0.1］、(0.1，+ ∞)共 11 個不同狀態(tài);所允許的輸出為離散動作集合 A，包括［0.06，0.04，0.03，0.02，0.01，0，－0.01，－0.02，－0.03，－ 0.04，－0.06］共11個動作值，被選擇的動作與PI控制器的信號相疊加。RL－Q控制器的狀態(tài)劃分和允許離散動作集合與RL－P控制器相同。

第k步時刻的立即強化信號r由被控量的方差及帶權(quán)值的相應(yīng)動作變化量的平方之和組成，考慮到控制目標是使功率偏差盡可能小，故取其負值，即:

獎勵函數(shù)中引入動作變化項是為了減少控制信號的波動，從而減少機械應(yīng)力。式中αk值是動作集合A的指針，而不是實際的輸出值，μ1和μ2為平衡前后各平方項的權(quán)重值。

在確定了狀態(tài)集、動作集和獎勵函數(shù)后，即可進行強化學(xué)習(xí)控制器在線自學(xué)習(xí)和動態(tài)優(yōu)化。由于在最開始階段缺乏經(jīng)驗，控制器需經(jīng)歷一段隨機動作探索的預(yù)學(xué)習(xí)過程。此過程完成后，稱其為PI/RL控制器，可投入實際系統(tǒng)參與運行控制?；赒學(xué)習(xí)算法的自校正強化學(xué)習(xí)流程圖如圖3所示。

圖3 自校正學(xué)習(xí)流程圖

3 仿真結(jié)果與分析

為驗證本文所設(shè)計的控制器的正確性和有效性，選擇如下參數(shù)進行仿真驗證:雙饋風(fēng)力發(fā)電機額定功率為P=6×1.5 MW=9 MW，=0.007，=0.005，=3.071，=3.056，=2.9，p=3。

3.1 無功功率調(diào)節(jié)

無功功率初始給定為0.9 Mvar，1 s時降為零，2 s后再次上升0.9 Mvar，3 s時仿真結(jié)束。仿真期間，保持風(fēng)速為10 m/s不變，仿真結(jié)果如圖4所示。由圖4(a)可看出，基于強化學(xué)習(xí)算法的自校正控制動態(tài)性能優(yōu)于傳統(tǒng)矢量控制。圖4(b)是強化學(xué)習(xí)控制器基于無功功率偏差輸出的校正控制信號。由圖4(c)可看出，在無功功率調(diào)節(jié)過程中，有功功率始終保持不變，很好地實現(xiàn)了解耦。

圖4 無功功率調(diào)節(jié)過程系統(tǒng)響應(yīng)

3.2 有功功率調(diào)節(jié)

風(fēng)速初始給定為10 m/s，2 s時上升為11 m/s，30 s時仿真結(jié)束。仿真期間，設(shè)定無功功率為零，仿真結(jié)果如圖5所示。由圖5(a)可看出，基于強化學(xué)習(xí)算法的自校正控制和傳統(tǒng)矢量控制有功功率響應(yīng)曲線基本重合。這是因為基于最大風(fēng)能捕獲原理，當風(fēng)速突變時，有功功率參考值不突變而是按照最佳功率曲線變化［13］，功率偏差始終很小，未達到強化學(xué)習(xí)設(shè)定最小動作值的狀態(tài)，故強化學(xué)習(xí)控制器輸出控制信號為零，從而兩條曲線重合。由圖5(c)可看出，在有功功率調(diào)節(jié)過程中，無功功率不受影響，實現(xiàn)了解耦。

圖5 有功功率調(diào)節(jié)過程系統(tǒng)響應(yīng)

3.3 擾動分析

圖6 參數(shù)變化時動態(tài)響應(yīng)

為考察系統(tǒng)對電機參數(shù)變化的魯棒性，假設(shè)風(fēng)速為10 m/s不變，在t=2 s時b增大一倍。圖6給出了參數(shù)變化后，相同條件下傳統(tǒng)矢量控制與基于強化學(xué)習(xí)算法的自校正控制的動態(tài)響應(yīng)曲線。由圖6(c)和圖6(d)可看出，當參數(shù)變化導(dǎo)致有功和無功功率與參考值出現(xiàn)偏差后，強化學(xué)習(xí)控制器根據(jù)偏差值立即輸出校正控制信號，來補償參數(shù)變化的影響。由圖6(a)和圖6(b)可看出，采用自校正控制，超調(diào)較小，改善了動態(tài)品質(zhì)，提高了控制性能。

4 結(jié) 語

雙饋風(fēng)力發(fā)電系統(tǒng)具有多變量、非線性、受參數(shù)變化和外部干擾顯著的特點，利用強化學(xué)習(xí)算法具有的在線自學(xué)習(xí)能力和模型無關(guān)性特點，設(shè)計了風(fēng)機自校正控制器，可有效提高其控制系統(tǒng)的魯棒性和自適應(yīng)性。此外，該控制策略無需改變原PI控制器的結(jié)構(gòu)和參數(shù)，只需增加一個自校正模塊，工程實現(xiàn)十分簡便。同時，在研究中筆者發(fā)現(xiàn)，由于RL控制器的控制信號為離散動作值，易導(dǎo)致超調(diào)，后續(xù)研究中可考慮結(jié)合模糊控制對輸入輸出信號模糊化。

［1］劉吉宏，徐大平，呂躍剛.雙饋感應(yīng)發(fā)電機轉(zhuǎn)速的非線性模型預(yù)測控制［J］.電網(wǎng)技術(shù)，2011，35(4):159 －163.

［2］王君瑞，鐘彥儒，宋衛(wèi)章.基于無源性與自適應(yīng)降階觀測器的雙饋風(fēng)力發(fā)電機控制［J］.中國電機工程學(xué)報，2011，31(33):159－168.

［3］Li H，Shi K L，Mclaren P G.Neural－ Network － Based Sensorless Maximum Wind Energy Capture with Compensated Power Coefficient［J］.IEEE Transactions on Industry Applications，2005，41(6):1548－1556.

［4］孔屹剛，王志新.大型風(fēng)電機組模糊滑模魯棒控制器設(shè)計與仿真［J］.中國電機工程學(xué)報，2008，28(14):136 －141.

［5］辜承林，韋忠朝，黃聲華，等.對轉(zhuǎn)子交流勵磁電流實行矢量控制的變速恒頻發(fā)機［J］.中國電機工程學(xué)報，2001，21(12):119－124.

［6］Sutton R S，Barto A G.Reinforcement Learning:an Introduction［M］.Cambridge:MIT Press，1998.

［7］張汝波.強化學(xué)習(xí)理論及應(yīng)用［M］.哈爾濱:哈爾濱工程大學(xué)出版社，2001.

［8］余濤，周斌，甄衛(wèi)國.強化學(xué)習(xí)理論在電力系統(tǒng)中的應(yīng)用及展望［J］.電力系統(tǒng)保護與控制，2009，37(14):122 －128.

［9］Watkins J C H，Dayan Peter.Q － learning［J］.Machine Learning，1992(8):279－292.

［10］Tsitsiklis，John N.Asynchronous Stochastic Approximation and Q－ learning［J］.Machine Leaning，1994，16(3):185 －202.

［11］Richard S.Sutton，Andrew G.Barto.Reinforcement Learning:An In － troduction［M］.Cambridge:MIT Press，1988.

［12］余濤，胡細兵，劉靖.基于多步回溯Q(λ)學(xué)習(xí)算法的多目標最優(yōu)潮流計算［J］.華南理工大學(xué)學(xué)報(自然科學(xué)版)，2010，38(10):139－145.

［13］劉其輝，賀益康，張建華.交流勵磁變速恒頻風(fēng)力發(fā)電機的運行控制及建模仿真［J］.中國電機工程學(xué)報，2006，26(5):43－50.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡