陳載宇,李 陽,殷明慧,顧偉峰,劉建坤,鄒 云
(1.南京理工大學(xué)自動(dòng)化學(xué)院,江蘇南京 210094;2.北京金風(fēng)科創(chuàng)風(fēng)電設(shè)備有限公司,北京 100176;3.國網(wǎng)江蘇省電力有限公司電力科學(xué)研究院,江蘇南京 211103)
在額定風(fēng)速以下,變速風(fēng)電機(jī)組(以下簡稱風(fēng)機(jī))的最大化風(fēng)能捕獲依靠最大功率點(diǎn)跟蹤(maximum power point tracking,MPPT)控制實(shí)現(xiàn).MPPT控制可分為葉尖速比法、最優(yōu)轉(zhuǎn)矩法和爬山法等幾類方法[1-2],其原理均是通過風(fēng)機(jī)的轉(zhuǎn)速調(diào)節(jié)使葉尖速比能夠始終維持在最優(yōu)值,進(jìn)而使風(fēng)能利用系數(shù)最大.
早期的MPPT控制大多未考慮風(fēng)速及受其影響的最優(yōu)轉(zhuǎn)速的波動(dòng)特性[3-4],而實(shí)際中不斷變化的風(fēng)速使風(fēng)機(jī)難以始終運(yùn)行于最優(yōu)葉尖速比,導(dǎo)致風(fēng)能捕獲效率低于理論上的最大值[5-6],并造成跟蹤損失[7].隨著低風(fēng)速地區(qū)風(fēng)能資源的開發(fā)利用以及單機(jī)容量的不斷增大,上述問題愈加凸顯.更低的平均風(fēng)速、更高的湍流強(qiáng)度和更大的轉(zhuǎn)動(dòng)慣量都給依靠MPPT控制實(shí)現(xiàn)最大化風(fēng)能捕獲帶來了挑戰(zhàn).
葉尖速比法直接依據(jù)MPPT思想,以最優(yōu)葉尖速比對應(yīng)的最優(yōu)轉(zhuǎn)速為跟蹤目標(biāo),通過閉環(huán)反饋控制實(shí)現(xiàn)MPPT.近年來,為改善湍流風(fēng)速條件下MPPT控制效果,非線性反饋控制[8-9]、滑模控制[10-12]、預(yù)測控制[13]等方法在葉尖速比法框架下得到應(yīng)用,提升了風(fēng)機(jī)在湍流風(fēng)下的轉(zhuǎn)速跟蹤性能.本質(zhì)上,上述方法均聚焦于通過減小轉(zhuǎn)速跟蹤誤差來提升風(fēng)機(jī)的風(fēng)能捕獲效率.
但從執(zhí)行器的角度看,轉(zhuǎn)速跟蹤誤差的減小通常依賴于不平衡轉(zhuǎn)矩的增大,在工程實(shí)施時(shí)存在風(fēng)機(jī)設(shè)備運(yùn)行方面的限制:一方面,發(fā)電機(jī)有限的電磁轉(zhuǎn)矩調(diào)節(jié)范圍使不平衡轉(zhuǎn)矩不可能無限地增大,限制了風(fēng)機(jī)轉(zhuǎn)速的變化率,導(dǎo)致大慣量風(fēng)機(jī)難以實(shí)時(shí)精確地跟蹤快速變化的最優(yōu)轉(zhuǎn)速[14];另一方面,激進(jìn)的電磁轉(zhuǎn)矩調(diào)節(jié)會(huì)增大風(fēng)機(jī)各部位的載荷[9],同時(shí)更加劇烈的電磁功率波動(dòng)也不利于風(fēng)電并網(wǎng)和消納[15].
上述問題使得大慣量風(fēng)機(jī)的MPPT存在不可避免的慢動(dòng)態(tài)特性.針對這一問題,文獻(xiàn)[14]提出了參考輸入優(yōu)化的思想,通過設(shè)定匹配風(fēng)機(jī)慢動(dòng)態(tài)特性的參考轉(zhuǎn)速提升風(fēng)機(jī)在湍流風(fēng)下的風(fēng)能捕獲效率.在此基礎(chǔ)上,本文研究進(jìn)一步發(fā)現(xiàn),平均轉(zhuǎn)速跟蹤誤差與整體的風(fēng)能捕獲效率并非單調(diào)關(guān)系,即前者的減小并不一定意味著后者的增大.究其原因在于,高/低風(fēng)速下轉(zhuǎn)速跟蹤誤差的減小對于風(fēng)能捕獲提升作用存在明顯差異.因此,當(dāng)前關(guān)注減小轉(zhuǎn)速跟蹤誤差的MPPT控制器設(shè)計(jì)難以適用于大慣量風(fēng)機(jī)的最大化風(fēng)能捕獲.
為此,本文針對葉尖速比法提出了一種基于參考輸入優(yōu)化的最大化風(fēng)能捕獲方法,直接以提升風(fēng)能捕獲效率為目標(biāo)對參考轉(zhuǎn)速進(jìn)行優(yōu)化.區(qū)別于傳統(tǒng)的參數(shù)優(yōu)化,該方法需要優(yōu)化的是參考轉(zhuǎn)速的時(shí)序軌跡.考慮到當(dāng)前控制理論中尚缺少適用于參考輸入優(yōu)化的成熟理論,且參考轉(zhuǎn)速對風(fēng)能捕獲效率的復(fù)雜影響難以準(zhǔn)確建模,本文利用深度確定性策略梯度(deep deterministic policy gradient,DDPG)強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)參考輸入優(yōu)化.仿真結(jié)果表明,在獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)下,智能體能夠生成匹配風(fēng)機(jī)慢動(dòng)態(tài)特性且盡可能減小跟蹤損失的轉(zhuǎn)速跟蹤目標(biāo),進(jìn)而有效提升湍流風(fēng)下風(fēng)機(jī)的風(fēng)能捕獲效率.
本節(jié)主要介紹風(fēng)機(jī)模型和葉尖速比法實(shí)現(xiàn)風(fēng)機(jī)MPPT控制的原理,作為后文論述的基礎(chǔ).
風(fēng)機(jī)捕獲的氣動(dòng)功率Pa可表示為
式中:ρ為空氣密度;R為風(fēng)輪半徑;v為風(fēng)速;CP為風(fēng)能利用系數(shù).
風(fēng)能利用系數(shù)CP反映了風(fēng)機(jī)捕獲風(fēng)功率的多少,由風(fēng)機(jī)的氣動(dòng)特性決定,隨葉尖速比λ和槳距角β變化.其中:葉尖速比表示葉尖線速度與風(fēng)速的比值,即
式中:ωr為風(fēng)機(jī)轉(zhuǎn)速.額定風(fēng)速以下槳距角一般保持恒定,因此該階段風(fēng)能利用系數(shù)可視為葉尖速比的函數(shù).如圖1所示,風(fēng)機(jī)的最優(yōu)葉尖速比λopt對應(yīng)最大風(fēng)能利用系數(shù)即當(dāng)葉尖速比達(dá)到最優(yōu)值時(shí)風(fēng)機(jī)能夠最大限度地捕獲風(fēng)能.而當(dāng)葉尖速比偏離最優(yōu)葉尖速比時(shí),風(fēng)能利用系數(shù)也會(huì)隨之減小.
圖1 風(fēng)能利用系數(shù)-葉尖速比關(guān)系曲線Fig.1 CP-λ curve
風(fēng)機(jī)的傳動(dòng)鏈可由包括雙質(zhì)量塊模型、三質(zhì)量塊模型和六質(zhì)量塊模型在內(nèi)的多種模型描述.但若將傳動(dòng)鏈近似看作是剛性的,即假設(shè)軸上各部位的轉(zhuǎn)速始終相同,則可以簡化得到如下的單質(zhì)量塊模型[10]:
其中:
式中:Dt為傳動(dòng)鏈等效阻尼,Dr和Dg分別表示齒輪箱低速側(cè)和高速側(cè)的外阻尼;Jt為風(fēng)機(jī)等效轉(zhuǎn)動(dòng)慣量,Jr和Jg分別表示風(fēng)輪和發(fā)電機(jī)的轉(zhuǎn)動(dòng)慣量;Tr為氣動(dòng)轉(zhuǎn)矩,與氣動(dòng)功率Pa的關(guān)系為PaTrωr;Tg為發(fā)電機(jī)電磁轉(zhuǎn)矩;ng為齒輪箱變速比.
在MPPT控制中,從時(shí)間尺度上看電磁動(dòng)態(tài)要遠(yuǎn)遠(yuǎn)快于機(jī)電動(dòng)態(tài),因此可以將二者分別視為快慢子系統(tǒng)解耦處理[16].本文內(nèi)容主要針對機(jī)電動(dòng)態(tài),因此忽略發(fā)電機(jī)電磁轉(zhuǎn)矩調(diào)節(jié)的電磁動(dòng)態(tài),直接將發(fā)電機(jī)電磁轉(zhuǎn)矩視為系統(tǒng)的控制輸入[8].
MPPT控制以最大化風(fēng)能捕獲為最終目標(biāo).風(fēng)機(jī)捕獲的總能量E可表示為
葉尖速比法將該最大化風(fēng)能捕獲問題轉(zhuǎn)化為跟蹤控制問題,以閉環(huán)系統(tǒng)的穩(wěn)定為前提,通過反饋調(diào)節(jié)使風(fēng)機(jī)轉(zhuǎn)速跟蹤最優(yōu)葉尖速比對應(yīng)的最優(yōu)轉(zhuǎn)速[1].根據(jù)式(2),最優(yōu)轉(zhuǎn)速可表示為
在此基礎(chǔ)上,針對葉尖速比法的MPPT控制研究主要關(guān)注轉(zhuǎn)速跟蹤控制器的設(shè)計(jì),目的是使風(fēng)機(jī)在變化的風(fēng)速下能夠盡可能精確地跟蹤最優(yōu)轉(zhuǎn)速.
本節(jié)首先分析風(fēng)機(jī)慢動(dòng)態(tài)特性對轉(zhuǎn)速跟蹤的影響,進(jìn)而闡述傳統(tǒng)以減小轉(zhuǎn)速跟蹤誤差為目標(biāo)的MPPT控制器設(shè)計(jì)存在的局限性,即平均轉(zhuǎn)速跟蹤誤差與整體的風(fēng)能捕獲效率并非單調(diào)關(guān)系.在此基礎(chǔ)上,提出基于參考輸入優(yōu)化實(shí)現(xiàn)最大化風(fēng)能捕獲的原理和框架.
傳統(tǒng)的葉尖速比法將最優(yōu)轉(zhuǎn)速作為跟蹤目標(biāo),轉(zhuǎn)速跟蹤效果關(guān)系著風(fēng)機(jī)能否高效率地捕獲風(fēng)能.而由式(5)可知,最優(yōu)轉(zhuǎn)速隨風(fēng)速變化.若要精確跟蹤最優(yōu)轉(zhuǎn)速,則需要保證風(fēng)機(jī)能夠及時(shí)地加速和減速以響應(yīng)風(fēng)速變化.
然而,風(fēng)機(jī)的加速和減速受轉(zhuǎn)動(dòng)鏈上的不平衡轉(zhuǎn)矩影響,其轉(zhuǎn)速控制依賴于電磁轉(zhuǎn)矩調(diào)節(jié)實(shí)現(xiàn).受限于發(fā)電機(jī)的電磁轉(zhuǎn)矩有限的調(diào)節(jié)范圍,風(fēng)機(jī)轉(zhuǎn)速變化率也相應(yīng)地存在一定的范圍,且該范圍可根據(jù)式(3)計(jì)算得到[14]
可以發(fā)現(xiàn),風(fēng)機(jī)轉(zhuǎn)速變化率的范圍主要受風(fēng)速條件、結(jié)構(gòu)參數(shù)和電磁轉(zhuǎn)矩調(diào)節(jié)范圍的影響.值得注意的是,風(fēng)機(jī)的轉(zhuǎn)動(dòng)慣量與轉(zhuǎn)速變化率成反比,顯著影響轉(zhuǎn)速變化率的范圍.因此對于大型風(fēng)機(jī)的MPPT控制,轉(zhuǎn)速跟蹤效果不僅取決于跟蹤控制器的性能,同時(shí)也受限于風(fēng)機(jī)自身的結(jié)構(gòu)參數(shù).
風(fēng)機(jī)的慢動(dòng)態(tài)特性在當(dāng)前MPPT控制研究中已受到關(guān)注[17-19],但相關(guān)問題的討論往往只針對某一特定的控制器.而事實(shí)上,上述問題從控制視角來看可視為存在執(zhí)行器飽和,改進(jìn)控制器很難改變風(fēng)機(jī)慢動(dòng)態(tài)特性,僅可在一定程度上減小飽和對控制效果的不利影響.當(dāng)控制器下達(dá)的電磁轉(zhuǎn)矩指令超過發(fā)電機(jī)的可執(zhí)行范圍時(shí),控制系統(tǒng)便難以實(shí)現(xiàn)預(yù)期的控制效果,甚至影響系統(tǒng)的穩(wěn)定性.
由于湍流風(fēng)速在不斷變化,風(fēng)機(jī)需要不斷地調(diào)整轉(zhuǎn)速以跟蹤隨風(fēng)速變化的最優(yōu)轉(zhuǎn)速.由第3.1節(jié)的分析可知,受自身慢動(dòng)態(tài)特性影響,風(fēng)機(jī)難以精確跟蹤最優(yōu)轉(zhuǎn)速,會(huì)不可避免地出現(xiàn)轉(zhuǎn)速跟蹤誤差.
由圖1可知,當(dāng)由轉(zhuǎn)速?zèng)Q定的葉尖速比偏離最優(yōu)值時(shí),風(fēng)能利用系數(shù)會(huì)相應(yīng)地減小,并因此造成式(4)表示的風(fēng)機(jī)捕獲的總能量無法達(dá)到理論上的最大值.由式(4)可知,風(fēng)機(jī)偏離最優(yōu)轉(zhuǎn)速所造成的跟蹤損失可表示為
式中:Eloss為跟蹤損失;Ploss為氣動(dòng)功率損失;Pmax為風(fēng)機(jī)理論上可捕獲的最大功率.
由式(7)-(8)可知,跟蹤過程中任意時(shí)刻的氣動(dòng)功率損失都會(huì)對跟蹤損失造成影響,且氣動(dòng)功率損失和轉(zhuǎn)速跟蹤誤差之間呈單調(diào)關(guān)系,因此可以通過減小轉(zhuǎn)速跟蹤誤差的方式減小氣動(dòng)功率損失.但不同時(shí)刻因風(fēng)速不同,轉(zhuǎn)速偏差對氣動(dòng)功率損失的影響程度也不同,使得湍流風(fēng)下平均轉(zhuǎn)速跟蹤誤差和跟蹤損失之間呈現(xiàn)出復(fù)雜的非線性關(guān)系:一方面,由式(2)和圖1可知,相同的轉(zhuǎn)速偏差會(huì)在更高的風(fēng)速下對應(yīng)著更小的葉尖速比偏差,因此對風(fēng)能利用系數(shù)的影響也更小;而另一方面,由式(7)-(8)可知,由于氣動(dòng)功率與風(fēng)速的三次方成正比,減小相同的風(fēng)能利用系數(shù)則會(huì)在更高的風(fēng)速下造成更大的跟蹤損失.
上述問題導(dǎo)致平均轉(zhuǎn)速跟蹤誤差和跟蹤損失之間并非單調(diào)關(guān)系,相同的轉(zhuǎn)速偏差會(huì)在更高風(fēng)速下對跟蹤損失造成更為顯著的影響,因此減小平均轉(zhuǎn)速跟蹤誤差未必能夠提高風(fēng)能捕獲效率.
為闡述這一發(fā)現(xiàn),圖2和表1展示了一組在5 m/s和9 m/s之間周期變化風(fēng)速下的仿真算例,仿真模型采用CART3風(fēng)機(jī)[20],其風(fēng)能利用系數(shù)曲線如圖1所示.分別計(jì)算不同轉(zhuǎn)速軌跡下的平均轉(zhuǎn)速跟蹤誤差和風(fēng)能捕獲效率,其中風(fēng)能捕獲效率[8]通過式(9)計(jì)算得到
表1 不同轉(zhuǎn)速軌跡下的轉(zhuǎn)速跟蹤和風(fēng)能捕獲比較Table 1 Comparison of tracking and wind energy extraction under different speed trajectories
圖2 周期風(fēng)速(5-9 m/s)下的仿真算例Fig.2 Example under periodic wind speed(5-9 m/s)
式中t0和tf分別為仿真的初始時(shí)刻和終止時(shí)刻.對比式(8)-(9)可以看出,跟蹤損失和風(fēng)能捕獲效率均是由風(fēng)機(jī)捕獲的氣動(dòng)功率與其理論上的最大值共同決定的,且二者負(fù)相關(guān),都可用于描述風(fēng)機(jī)的風(fēng)能捕獲效果.
仿真算例中,首先以一條風(fēng)機(jī)MPPT控制得到的轉(zhuǎn)速軌跡為基準(zhǔn)(標(biāo)記為“基準(zhǔn)轉(zhuǎn)速”).在此基礎(chǔ)上,一方面通過更加激進(jìn)地跟蹤最優(yōu)轉(zhuǎn)速得到一條更快趨于最優(yōu)轉(zhuǎn)速的轉(zhuǎn)速軌跡(標(biāo)記為“激進(jìn)跟蹤”),從而減小轉(zhuǎn)速跟蹤誤差;另一方面通過將基準(zhǔn)轉(zhuǎn)速軌跡向上平移,得到一條平均轉(zhuǎn)速跟蹤誤差與基準(zhǔn)轉(zhuǎn)速完全相同的轉(zhuǎn)速軌跡(標(biāo)記為“上移轉(zhuǎn)速”).
對比3條轉(zhuǎn)速軌跡下風(fēng)機(jī)的平均跟蹤誤差和跟蹤損失可以發(fā)現(xiàn),雖然更加激進(jìn)的轉(zhuǎn)速跟蹤使平均轉(zhuǎn)速跟蹤誤差和跟蹤損失有所減小,但上移轉(zhuǎn)速卻在未減小轉(zhuǎn)速跟蹤誤差的情況下進(jìn)一步減小了跟蹤損失.由此可見,當(dāng)轉(zhuǎn)速跟蹤誤差不可避免時(shí),轉(zhuǎn)速跟蹤誤差的大小并不能真正反映跟蹤損失的大小.
由第3.2節(jié)可知,受轉(zhuǎn)速跟蹤誤差與跟蹤損失非線性關(guān)系的影響,單純依靠減小轉(zhuǎn)速跟蹤誤差來減小跟蹤損失、提高風(fēng)能捕獲效率的做法是值得商榷的.
然而,不同于以減小轉(zhuǎn)速跟蹤誤差為目標(biāo)的控制器設(shè)計(jì),減小跟蹤損失的目標(biāo)難以在葉尖速比法框架上實(shí)現(xiàn).其原因在于,反饋控制系統(tǒng)主要關(guān)注誤差值而非實(shí)際物理量,導(dǎo)致對于風(fēng)機(jī)這類具有時(shí)變參考輸入的系統(tǒng),面向?qū)嶋H系統(tǒng)狀態(tài)的優(yōu)化難以基于最優(yōu)控制理論實(shí)現(xiàn).而參考輸入優(yōu)化則為該問題提供了一條可行的解決途徑.其原理是在保證參考輸入能夠被控制系統(tǒng)準(zhǔn)確、快速響應(yīng)的前提下,通過優(yōu)化參考輸入實(shí)現(xiàn)對系統(tǒng)動(dòng)態(tài)過程的優(yōu)化.
具體到風(fēng)機(jī)MPPT控制,當(dāng)參考輸入匹配風(fēng)機(jī)慢動(dòng)態(tài)特性時(shí),可以依靠跟蹤控制使實(shí)際轉(zhuǎn)速跟蹤上參考轉(zhuǎn)速.此時(shí),改變參考轉(zhuǎn)速會(huì)直接改變風(fēng)機(jī)的轉(zhuǎn)速動(dòng)態(tài),可以通過參考輸入優(yōu)化使風(fēng)機(jī)運(yùn)行于最小化跟蹤損失的轉(zhuǎn)速上.值得注意的是,上述參考輸入優(yōu)化是以參考轉(zhuǎn)速能夠被跟蹤上為前提條件的.若該條件尚未滿足,即存在較大的轉(zhuǎn)速跟蹤誤差,則難以通過調(diào)整參考轉(zhuǎn)速改變轉(zhuǎn)速動(dòng)態(tài).
基于參考輸入優(yōu)化的最大化風(fēng)能捕獲方法的原理框圖如圖3所示.在傳統(tǒng)葉尖速比法控制框架的基礎(chǔ)上,通過參考輸入優(yōu)化模塊生成參考轉(zhuǎn)速,替代氣動(dòng)理論上的最優(yōu)轉(zhuǎn)速,作為轉(zhuǎn)速跟蹤目標(biāo).
圖3 參考輸入優(yōu)化的控制原理框圖Fig.3 Block diagram of reference optimization
在此框架下,參考輸入優(yōu)化的目標(biāo)是在轉(zhuǎn)速變化速率存在限制的情況下使跟蹤損失最小化,即
式中ωref(t)為參考轉(zhuǎn)速軌跡,全時(shí)間段的參考轉(zhuǎn)速組成決策變量,在影響風(fēng)機(jī)轉(zhuǎn)速動(dòng)態(tài)的同時(shí)決定了風(fēng)機(jī)的跟蹤損失.
但在實(shí)際中,該目標(biāo)函數(shù)很難被直接應(yīng)用,主要有如下兩方面原因:
1) 決策變量實(shí)際上是參考轉(zhuǎn)速的時(shí)序軌跡,其優(yōu)化求解依賴于全時(shí)間段的風(fēng)速.但由于風(fēng)速在不斷變化,很難根據(jù)未來時(shí)刻風(fēng)速確定當(dāng)前時(shí)刻的參考轉(zhuǎn)速;
2) 式(10)中轉(zhuǎn)速變化率范圍可由式(6)計(jì)算得到,但該范圍與當(dāng)前時(shí)刻的氣動(dòng)轉(zhuǎn)矩相關(guān),存在復(fù)雜的非線性.
因此,實(shí)際應(yīng)用過程中參考輸入優(yōu)化的目標(biāo)函數(shù)需要根據(jù)采用的優(yōu)化方法進(jìn)行相應(yīng)的處理,具體參見第4節(jié).
當(dāng)前控制理論中尚缺少適用于上述參考輸入優(yōu)化問題的成熟理論或方法.同時(shí),受風(fēng)機(jī)氣動(dòng)特性的強(qiáng)非線性和轉(zhuǎn)速跟蹤控制器的實(shí)際性能的影響,參考轉(zhuǎn)速與風(fēng)能捕獲效率之間的關(guān)系難以準(zhǔn)確建模,因此很難直接求解最優(yōu)參考輸入.
深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的特點(diǎn),既能實(shí)現(xiàn)有效的特征提取,也能根據(jù)獎(jiǎng)勵(lì)自主決策,因此具有自趨優(yōu)能力,不需要利用已知的參考轉(zhuǎn)速最優(yōu)值或風(fēng)能損失最小值為輸入進(jìn)行訓(xùn)練,有助于實(shí)現(xiàn)參考輸入優(yōu)化.目前,深度強(qiáng)化學(xué)習(xí)已被應(yīng)用于電網(wǎng)自主控制與決策[21]、動(dòng)態(tài)經(jīng)濟(jì)調(diào)度[22]、自動(dòng)發(fā)電控制[23]、微電網(wǎng)控制[24]和光儲(chǔ)能源站調(diào)度[25]等電力系統(tǒng)相關(guān)領(lǐng)域.
考慮到參考輸入優(yōu)化需要在連續(xù)動(dòng)作空間內(nèi)探索并獲取參考轉(zhuǎn)速、實(shí)際轉(zhuǎn)速和風(fēng)能捕獲量之間的復(fù)雜非線性關(guān)系,本文采用基于DDPG[26-27]的強(qiáng)化學(xué)習(xí)算法對參考輸入進(jìn)行優(yōu)化.在第3.3節(jié)的基礎(chǔ)上,對深度強(qiáng)化學(xué)習(xí)進(jìn)行如下設(shè)計(jì):
1) 狀態(tài)空間包括風(fēng)機(jī)轉(zhuǎn)速ωr,等效風(fēng)速v,分別用于描述風(fēng)機(jī)當(dāng)前的轉(zhuǎn)速動(dòng)態(tài)以及所處的運(yùn)行環(huán)境;
2) 動(dòng)作空間僅含參考轉(zhuǎn)速的變化量Δωref,表示對當(dāng)前參考轉(zhuǎn)速的修正量;
3) 獎(jiǎng)勵(lì)函數(shù)是對增大風(fēng)能捕獲量進(jìn)行正獎(jiǎng)勵(lì),同時(shí)對增大參考轉(zhuǎn)速變化量進(jìn)行負(fù)獎(jiǎng)勵(lì),即
其中:
式中:Δωr表示相鄰兩個(gè)時(shí)刻風(fēng)機(jī)轉(zhuǎn)速變化量;獎(jiǎng)勵(lì)系數(shù)k1>0,k2<0.
在式(10)的基礎(chǔ)上,基于DDPG算法的特點(diǎn)分別設(shè)計(jì)了體現(xiàn)最小化跟蹤損失的正獎(jiǎng)勵(lì)和體現(xiàn)參考轉(zhuǎn)速變化率約束的負(fù)獎(jiǎng)勵(lì).
1) 對減小跟蹤損失進(jìn)行正獎(jiǎng)勵(lì).
式(12)所蘊(yùn)含的物理意義是:當(dāng)智能體通過修改參考轉(zhuǎn)速影響風(fēng)機(jī)轉(zhuǎn)速動(dòng)態(tài)后,風(fēng)機(jī)所能捕獲的氣動(dòng)功率會(huì)發(fā)生相應(yīng)的改變.這種改變刻畫了參考轉(zhuǎn)速改變對減小跟蹤損失、增大風(fēng)能捕獲的貢獻(xiàn),因而將其作為獎(jiǎng)勵(lì)函數(shù)的一部分.值得注意的是,式(12)中的風(fēng)速需為動(dòng)作發(fā)生時(shí)刻的風(fēng)速,以確保獎(jiǎng)勵(lì)函數(shù)能夠準(zhǔn)確評價(jià)該動(dòng)作的優(yōu)劣.
2) 對增大參考轉(zhuǎn)速變化進(jìn)行負(fù)獎(jiǎng)勵(lì).
式(13)將參考轉(zhuǎn)速變化量作為獎(jiǎng)勵(lì)函數(shù)的一部分,以避免參考轉(zhuǎn)速出現(xiàn)大幅變化.考慮到式(10)中的約束條件具有強(qiáng)非線性,且并未考慮激進(jìn)的轉(zhuǎn)速調(diào)節(jié)對風(fēng)機(jī)載荷的影響,因此將該約束條件轉(zhuǎn)化為針對參考轉(zhuǎn)速變化量的負(fù)獎(jiǎng)勵(lì),并可以通過設(shè)置合理的和使生成的參考轉(zhuǎn)速滿足式(10)的約束條件.
上述處理主要是為了克服第3.3節(jié)所述目標(biāo)函數(shù)難以被直接應(yīng)用的問題,因此具有一定的保守性:一方面,與葉尖速比法通常只針對當(dāng)前風(fēng)速進(jìn)行轉(zhuǎn)速調(diào)節(jié)類似,正獎(jiǎng)勵(lì)中僅考慮了當(dāng)前風(fēng)速下轉(zhuǎn)速跟蹤對氣動(dòng)功率損失的影響;另一方面,負(fù)獎(jiǎng)勵(lì)通過抑制參考轉(zhuǎn)速變化間接滿足約束條件.然而,雖然智能體難以在該獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)下獲得式(8)的最優(yōu)解,但由于其關(guān)注風(fēng)能捕獲提升量而非跟蹤誤差減小量,使智能體根據(jù)參考轉(zhuǎn)速變化量對跟蹤損失的影響進(jìn)行決策,因此能夠使風(fēng)機(jī)運(yùn)行在有利于減小跟蹤損失的轉(zhuǎn)速軌跡上,更有助于減小跟蹤損失.
基于DDPG算法的參考輸入優(yōu)化的實(shí)現(xiàn)框圖如圖4所示,同時(shí)將訓(xùn)練后的智能體作為參考輸入優(yōu)化模塊.
圖4(a)展示了智能體(即參考輸入優(yōu)化模塊)與環(huán)境(即風(fēng)機(jī)及其轉(zhuǎn)速跟蹤控制器)之間的交互過程.算法從智能體與環(huán)境交互中學(xué)習(xí),即智能體輸出探索動(dòng)作到環(huán)境,環(huán)境反饋給智能體觀測狀態(tài)與獎(jiǎng)勵(lì),智能體再通過評價(jià)探索動(dòng)作好壞的獎(jiǎng)勵(lì)更新內(nèi)部神經(jīng)網(wǎng)絡(luò).通過在環(huán)境中不斷探索以及內(nèi)部網(wǎng)絡(luò)不斷更新,智能體趨于學(xué)習(xí)到使獎(jiǎng)勵(lì)最大的決策.
圖4(b)為智能體內(nèi)部訓(xùn)練的實(shí)現(xiàn)原理.DDPG算法利用評價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中評價(jià)網(wǎng)絡(luò)輸入狀態(tài)和動(dòng)作信號,輸出價(jià)值函數(shù)[26]信號,并利用獎(jiǎng)勵(lì)和價(jià)值函數(shù)值進(jìn)行網(wǎng)絡(luò)參數(shù)更新;執(zhí)行網(wǎng)絡(luò)輸入狀態(tài)信號,輸出動(dòng)作信號,通過評價(jià)網(wǎng)絡(luò)輸出的價(jià)值函數(shù)值進(jìn)行網(wǎng)絡(luò)參數(shù)更新.其中:價(jià)值函數(shù)用于表征智能體在當(dāng)前狀態(tài)和動(dòng)作下平均獎(jiǎng)勵(lì)值的大小.
圖4 基于DDPG算法的參考輸入優(yōu)化實(shí)現(xiàn)框圖Fig.4 Block diagram of reference optimization based on DDPG algorithm
通過不斷地訓(xùn)練,各網(wǎng)絡(luò)參數(shù)不斷穩(wěn)定,即智能體不斷“成熟”.最終,將訓(xùn)練“成熟”的智能體嵌入系統(tǒng)中進(jìn)行驗(yàn)證與應(yīng)用.
本節(jié)基于MATLAB/Simulink平臺,對基于參考輸入優(yōu)化的最大化風(fēng)能捕獲方法進(jìn)行仿真驗(yàn)證.
本節(jié)選擇3 MW機(jī)型[28]進(jìn)行仿真驗(yàn)證,其主要參數(shù)如表2所示.轉(zhuǎn)速跟蹤控制器采用文獻(xiàn)[8]提出的非線性靜態(tài)反饋控制實(shí)現(xiàn),控制器的控制周期為40 ms.
表2 3 MW風(fēng)機(jī)的主要參數(shù)[18,28]Table 2 Parameters of the 3 MW wind turbine
仿真使用的湍流風(fēng)速序列如圖5所示,由Bladed軟件基于Kaimal功率譜模擬生成,符合IEC-61400-1標(biāo)準(zhǔn)[29]的A類湍流級別,包括1條訓(xùn)練用風(fēng)速(平均風(fēng)速6 m/s,時(shí)長200 s)和2條驗(yàn)證用風(fēng)速(平均風(fēng)速分別為5 m/s和6 m/s,時(shí)長600 s).
圖5 湍流風(fēng)速序列Fig.5 Turbulent wind speed profiles
1) 算法參數(shù)的設(shè)置.
本文使用的DDPG算法基于MATLAB提供的深度強(qiáng)化學(xué)習(xí)工具箱實(shí)現(xiàn),算法中的超參數(shù)設(shè)置根據(jù)工具箱中提供的深度強(qiáng)化學(xué)習(xí)案例和文獻(xiàn)[27]確定,并利用試錯(cuò)法進(jìn)行一定程度的微調(diào),主要參數(shù)如表3所示.需要說明的是,智能體中的評價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)均為包含3層隱藏層的全連接深度神經(jīng)網(wǎng)絡(luò),各隱藏層神經(jīng)元個(gè)數(shù)均為48,且均采用ReLU激活函數(shù).
表3 DDPG算法的主要參數(shù)Table 3 Parameters of the DDPG algorithm
系數(shù)k1和k2的取值根據(jù)風(fēng)機(jī)容量和轉(zhuǎn)動(dòng)慣量等因素確定,需要在能夠得到易于被跟蹤的轉(zhuǎn)速跟蹤目標(biāo)的同時(shí)避免參考轉(zhuǎn)速難以響應(yīng)最優(yōu)轉(zhuǎn)速的變化.在此基礎(chǔ)上,系數(shù)k1和k2可以依照實(shí)際需求和偏好在一定范圍內(nèi)調(diào)整,且均可以達(dá)到提升風(fēng)能捕獲的效果.為驗(yàn)證不同系數(shù)取值下的實(shí)際效果,這里分別采用兩組不同的系數(shù)對智能體進(jìn)行訓(xùn)練,其中第1組系數(shù)為k10.05,k2-100(以下稱為智能體1),相對偏向風(fēng)能捕獲效率提升;第2組系數(shù)為k10.01,k2-100(以下稱為智能體2),相對偏向減小參考轉(zhuǎn)速變化量.
2) 算法的收斂結(jié)果.
將上述構(gòu)建的智能體放入仿真模型中訓(xùn)練,獲得訓(xùn)練曲線如圖6所示.智能體在環(huán)境中完成1次200 s訓(xùn)練即為迭代1個(gè)回合,同時(shí)獲得此回合的回合獎(jiǎng)勵(lì).計(jì)算從第1回合到當(dāng)前回合的回合獎(jiǎng)勵(lì)平均值獲得平均獎(jiǎng)勵(lì).
從圖6曲線可以看出,智能體的訓(xùn)練過程可以分為兩個(gè)階段.第1個(gè)階段從第1回合開始,智能體通過與環(huán)境的交互以及內(nèi)部神經(jīng)網(wǎng)絡(luò)的更新,不斷探索獲得最大的獎(jiǎng)勵(lì)值.第2階段從第110回合(智能體1)和第220回合(智能體2)開始,智能體獲得較高的獎(jiǎng)勵(lì)值,已經(jīng)探索到接近最優(yōu)參考輸入.經(jīng)過200回合(智能體1)和350回合(智能體2)的訓(xùn)練,曲線收斂并停止訓(xùn)練.考慮到動(dòng)作探索本身的隨機(jī)性,獎(jiǎng)勵(lì)曲線在收斂后存在一定程度的波動(dòng),這一現(xiàn)象是合理的.在此基礎(chǔ)上,針對圖5(b)所示的風(fēng)速序列,使用訓(xùn)練后的智能體對參考輸入進(jìn)行優(yōu)化,進(jìn)一步驗(yàn)證本文所提方法.
圖6 智能體訓(xùn)練曲線Fig.6 Training curve of the agents
1) 算法有效性和智能體泛化能力驗(yàn)證.
首先驗(yàn)證不同風(fēng)速下智能體的參考輸入優(yōu)化效果.利用智能體1對參考輸入進(jìn)行優(yōu)化,得到風(fēng)機(jī)在不同風(fēng)速下的轉(zhuǎn)速軌跡(如圖7所示),同時(shí)計(jì)算參考輸入優(yōu)化前后效率(如表4所示).結(jié)果表明,跟蹤經(jīng)優(yōu)化后的參考轉(zhuǎn)速有效提升了風(fēng)機(jī)的風(fēng)能捕獲效率.與此同時(shí),不同風(fēng)速場景下智能體都能夠?qū)崿F(xiàn)參考輸入優(yōu)化,體現(xiàn)出智能體的泛化能力.
表4 不同風(fēng)速下優(yōu)化參考輸入前后的捕獲效率對比Table 4 Comparison of aerodynamic efficiency before and after reference optimization under different wind speed profiles
值得注意的是,圖7(a)中展示了由6 m/s到9 m/s的階躍風(fēng)速下的風(fēng)機(jī)轉(zhuǎn)速軌跡,從中可以看出在參考輸入優(yōu)化前后,風(fēng)機(jī)穩(wěn)態(tài)下轉(zhuǎn)速近似相同.雖然本文提出的方法并未向智能體直接提供最優(yōu)葉尖速比信息,但智能體依然能通過訓(xùn)練自行搜索得到不同風(fēng)速下能夠使風(fēng)能捕獲效率最大的轉(zhuǎn)速值,從而引導(dǎo)風(fēng)機(jī)在穩(wěn)態(tài)時(shí)運(yùn)行于最優(yōu)轉(zhuǎn)速.
圖7 不同風(fēng)速下優(yōu)化參考輸入后的風(fēng)機(jī)轉(zhuǎn)速軌跡Fig.7 Rotor speed trajectory after reference optimization under different wind speed profiles
2) 風(fēng)能捕獲效率的比較.
以文獻(xiàn)[8]中的非線性靜態(tài)反饋控制作為初始的方法(以下稱為改進(jìn)前方法),應(yīng)用文獻(xiàn)[10]中的一階滑??刂坪投A滑??刂?以下分別稱為控制器改進(jìn)1和控制器改進(jìn)2),用于觀察轉(zhuǎn)速跟蹤控制器改進(jìn)對風(fēng)能捕獲效率的提升效果.同時(shí),利用訓(xùn)練后的智能體1和2分別優(yōu)化參考輸入(以下分別稱為參考輸入優(yōu)化1和參考輸入優(yōu)化2),用于觀察本文方法的風(fēng)能捕獲效率.仿真結(jié)果如圖8和表5所示.
如圖8(a)所示,受限于風(fēng)機(jī)的慢動(dòng)態(tài)特性,改進(jìn)轉(zhuǎn)速跟蹤控制器僅能小幅減小風(fēng)機(jī)的轉(zhuǎn)速跟蹤誤差,因此風(fēng)能捕獲效率略有提升.與之相反,圖8(b)所示的基于參考轉(zhuǎn)速優(yōu)化的本文方法,由于限制了參考轉(zhuǎn)速的變化率,轉(zhuǎn)速跟蹤誤差相較于改進(jìn)前有所增大.
但正如第3.2節(jié)所述,轉(zhuǎn)速跟蹤誤差的大小并不能反映跟蹤損失的多少.由表5可以發(fā)現(xiàn),本文方法在增大轉(zhuǎn)速跟蹤誤差的同時(shí),反而有效提升了風(fēng)能捕獲效率.由圖8(b)的轉(zhuǎn)速軌跡可進(jìn)一步看出,該方法使風(fēng)機(jī)更加偏重于高風(fēng)速區(qū)間的風(fēng)能捕獲,在風(fēng)速降低時(shí)主動(dòng)放棄風(fēng)速跟蹤而維持較高的轉(zhuǎn)速.這就減小了風(fēng)速再次回升時(shí)風(fēng)機(jī)因無法及時(shí)加速而造成的跟蹤損失,體現(xiàn)了智能體的自主決策.可見,相較于改進(jìn)跟蹤控制器蘊(yùn)含的提升機(jī)理(即加速轉(zhuǎn)速跟蹤),優(yōu)化參考輸入的風(fēng)能捕獲提升機(jī)理是截然不同的.
3) 獎(jiǎng)勵(lì)系數(shù)取值的影響分析.
從圖8(b)和表5中可以看出,側(cè)重風(fēng)能捕獲效率提升的智能體1會(huì)使轉(zhuǎn)速跟蹤目標(biāo)在更大范圍內(nèi)變化,以獲得更高的風(fēng)能捕獲效率.相較而言,對于偏向減小參考轉(zhuǎn)速變化的智能體2,轉(zhuǎn)速跟蹤目標(biāo)更加平滑,但風(fēng)能捕獲效率略有降低.總得來說,相較于改進(jìn)前方法和轉(zhuǎn)速跟蹤控制器改進(jìn)方法,兩組系數(shù)下智能體生成的參考轉(zhuǎn)速均能夠有效提升風(fēng)能捕獲效率.
表5 不同方法轉(zhuǎn)速跟蹤誤差和風(fēng)能捕獲效率對比Table 5 Comparison of tracking error and aerodynamic efficiency with different methods
圖8 不同方法的轉(zhuǎn)速軌跡Fig.8 Rotor speed trajectory with different methods
不同于以往專注減小轉(zhuǎn)速跟蹤誤差的MPPT控制研究,本文從優(yōu)化參考輸入的視角,研究實(shí)現(xiàn)最大化風(fēng)能捕獲的方法,即以減小跟蹤損失為目標(biāo),借助DDPG算法對參考輸入進(jìn)行優(yōu)化.該方法實(shí)質(zhì)上是在承認(rèn)大慣量風(fēng)機(jī)在MPPT過程中存在不可避免、不容忽視的跟蹤損失的基礎(chǔ)上,以提升風(fēng)能捕獲效率(而非減小轉(zhuǎn)速跟蹤誤差)為目標(biāo),通過優(yōu)化參考轉(zhuǎn)速(而非改進(jìn)跟蹤控制律),引導(dǎo)風(fēng)機(jī)運(yùn)行于有利于捕獲更多風(fēng)能的轉(zhuǎn)速上.仿真結(jié)果表明,本文方法有效提升了湍流風(fēng)下大型風(fēng)機(jī)的風(fēng)能捕獲效率.