崔黎黎, 王曉薇, 吳 鵬, 王 利
(沈陽師范大學(xué) 科信軟件學(xué)院, 沈陽 110034)
在實(shí)際工業(yè)領(lǐng)域中,大多數(shù)被控對象具有高度非線性,很難獲得其精確的數(shù)學(xué)模型,這使得實(shí)際動(dòng)態(tài)系統(tǒng)和系統(tǒng)的數(shù)學(xué)模型間普遍存在不確定性,從而導(dǎo)致系統(tǒng)的性能變差甚至不穩(wěn)定,因此,控制器設(shè)計(jì)時(shí)魯棒性是研究者們所考慮的重點(diǎn)。非線性魯棒跟蹤控制研究如何設(shè)計(jì)控制器使系統(tǒng)在不確定性作用下能夠跟蹤一個(gè)給定的目標(biāo)軌跡,一直是控制領(lǐng)域研究的一個(gè)重點(diǎn)內(nèi)容。研究者們基于經(jīng)典的控制理論,如變結(jié)構(gòu)控制[1]、模型預(yù)測控制[2]、反演控制[3]、神經(jīng)網(wǎng)絡(luò)控制[4]等,提出了各種魯棒跟蹤控制方法。然而,上述方法雖然實(shí)現(xiàn)了魯棒跟蹤,但大多數(shù)未考慮系統(tǒng)性能的優(yōu)化。
近年來,自適應(yīng)動(dòng)態(tài)規(guī)劃方法(adaptive dynamic programming, ADP)由于具有自學(xué)習(xí)與優(yōu)化能力,能夠有效解決動(dòng)態(tài)規(guī)劃的“維數(shù)災(zāi)”問題,現(xiàn)已成為了控制領(lǐng)域研究的熱點(diǎn)。 目前ADP理論在非線性系統(tǒng)的最優(yōu)控制[5]、微分對策[6]、多智能體系統(tǒng)的最優(yōu)控制[7]等方面已取得了許多重要的研究成果。在最優(yōu)跟蹤控制方面,文獻(xiàn)[8]針對一類不確定連續(xù)非線性系統(tǒng)提出了基于評價(jià)網(wǎng)絡(luò)-控制網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)自適應(yīng)魯棒器設(shè)計(jì)方法。文獻(xiàn)[9]基于ADP方法研究了一類不確定離散非線性系統(tǒng)的魯棒跟蹤控制問題。文獻(xiàn)[10]提出了一個(gè)在線策略增強(qiáng)學(xué)習(xí)算法,實(shí)現(xiàn)了一類未知非線性系統(tǒng)的H∞跟蹤控制。文獻(xiàn)[11]針對一類未知不確定性系統(tǒng)的跟蹤控制問題提出了一個(gè)數(shù)據(jù)驅(qū)動(dòng)ADP算法。然而,上述控制器設(shè)計(jì)方法均未考慮網(wǎng)絡(luò)帶寬的限制,所設(shè)計(jì)的控制器是基于時(shí)間驅(qū)動(dòng)的,采用實(shí)時(shí)更新的方式,因此網(wǎng)絡(luò)負(fù)荷和計(jì)算量較大,在實(shí)際應(yīng)用中具有一定的局限性。據(jù)作者所知,目前基于ADP的不確定非線性系統(tǒng)的事件驅(qū)動(dòng)魯棒跟蹤控制相關(guān)結(jié)果尚未見報(bào)道。
本文針對一類非線性系統(tǒng)提出一種基于事件驅(qū)動(dòng)自適應(yīng)動(dòng)態(tài)規(guī)劃方法的魯棒跟蹤控制方案。首先,利用系統(tǒng)增廣技術(shù)將原系統(tǒng)轉(zhuǎn)化為由跟蹤誤差和目標(biāo)軌跡表示的增廣系統(tǒng),從而將原系統(tǒng)的魯棒跟蹤問題轉(zhuǎn)化為增廣系統(tǒng)的魯棒鎮(zhèn)定問題。為了處理不確定性的同時(shí)優(yōu)化系統(tǒng)跟蹤性能,定義了一個(gè)新的性能指標(biāo)函數(shù),進(jìn)一步將增廣系統(tǒng)的魯棒鎮(zhèn)定問題轉(zhuǎn)化為其標(biāo)稱系統(tǒng)的最優(yōu)控制問題,推導(dǎo)得出相應(yīng)的HJB方程和最優(yōu)控制策略,并在理論上證明了問題轉(zhuǎn)化的等價(jià)性。針對標(biāo)稱系統(tǒng),提出了一個(gè)事件驅(qū)動(dòng)自適應(yīng)動(dòng)態(tài)規(guī)劃算法設(shè)計(jì)近似最優(yōu)控制策略,值得指出的是該控制策略僅在事件觸發(fā)時(shí)刻更新,可大大減少網(wǎng)絡(luò)負(fù)載和計(jì)算量。利用Lyapunov穩(wěn)定性理論嚴(yán)格證明了閉環(huán)系統(tǒng)的一致最終有界穩(wěn)定性。仿真例子驗(yàn)證了所提出的控制方案的有效性。
考慮如下的不確定非線性系統(tǒng):
(1)
其中:x(t)∈Rn為系統(tǒng)狀態(tài);u(t)∈Rm為系統(tǒng)控制輸入;d(t)∈Rm為控制擾動(dòng)。假設(shè)f(x(t))和g(x(t))滿足Lipschiz連續(xù)性條件,且系統(tǒng)在Ω∈Rn是強(qiáng)可控的。本文的控制目標(biāo)是設(shè)計(jì)事件驅(qū)動(dòng)魯棒跟蹤控制策略u(t),使得擾動(dòng)存在時(shí)系統(tǒng)狀態(tài)x(t)能夠跟蹤給定的目標(biāo)軌跡xd(t)。假設(shè)期望軌跡滿足如下的表達(dá)式
(2)
其中:xd(t)∈Rn為有界的期望軌跡;fd(xd(t))為Lipschiz連續(xù)函數(shù),并滿足fd(0)=0。
定義如下的跟蹤誤差
ed=x(t)-xd(t)
(3)
利用式(1)~式(3)可得系統(tǒng)的跟蹤誤差動(dòng)態(tài)方程為
(4)
(5)
?t∈[tk,tk+1)
(6)
則當(dāng)t=tk時(shí),有ek(tk)=0?;跔顟B(tài)采樣的事件驅(qū)動(dòng)控制策略可表示如下
?t∈[tk,tk+1)
(7)
由式(7)可知事件驅(qū)動(dòng)控制策略僅在事件觸發(fā)條件滿足時(shí)更新,而在2個(gè)相鄰的事件間則保持不變。控制輸入的連續(xù)性可由零階保持器保證。接下來,本文將針對增廣系統(tǒng)(5)在事件驅(qū)動(dòng)控制框架下提出一個(gè)基于ADP方法的事件驅(qū)動(dòng)魯棒控制策略,從而實(shí)現(xiàn)控制目標(biāo)。
首先,通過定義一個(gè)新的性能指標(biāo)函數(shù),進(jìn)一步將增廣系統(tǒng)的魯棒鎮(zhèn)定問題轉(zhuǎn)化為其標(biāo)稱系統(tǒng)的最優(yōu)控制問題,并在理論上證明問題轉(zhuǎn)化的等價(jià)性。接著,提出一個(gè)事件驅(qū)動(dòng)ADP算法求解標(biāo)稱系統(tǒng)的HJB方程,從而得到事件驅(qū)動(dòng)最優(yōu)控制策略。
不考慮輸入擾動(dòng),增廣系統(tǒng)(5)的標(biāo)稱系統(tǒng)可以表示為
對標(biāo)稱系統(tǒng)(5),定義一個(gè)新的性能指標(biāo)函數(shù)如下:
其中:λ為衰減因子;Q和R為對稱正定常數(shù)矩陣。對上式求微分可得
(8)
定義Hamilton函數(shù)如下
H(δ,V(δ),u)=
(9)
最優(yōu)性能指標(biāo)函數(shù)V*(δ(t))定義如下:
(10)
根據(jù)Bellman最優(yōu)控制原理可得,最優(yōu)性能指標(biāo)函數(shù)V*(δ(t))滿足如下的HJB方程:
(11)
相應(yīng)的最優(yōu)控制策略u*(δ)為
(12)
將上式帶入式(11),可得HJB方程如下:
V*(δ)=0
(13)
定理1考慮標(biāo)稱系統(tǒng)(6),定義性能指標(biāo)函數(shù)為(7),控制策略為(12),假設(shè)跟蹤HJB方程(13)存在一個(gè)解V*(δ(t)),若不等式:
(14)
成立,則當(dāng)λ=0時(shí),閉環(huán)系統(tǒng)(5)漸近穩(wěn)定。當(dāng)λ≠0時(shí),閉環(huán)系統(tǒng)(5)一致最終有界穩(wěn)定。
證明選取最優(yōu)性能指標(biāo)函數(shù)V*(δ(t))為Lyapunov函數(shù),對其求導(dǎo)可得
(15)
由HJB方程(11)可得
(16)
根據(jù)式(12)有
(17)
利用式(16)~式(17)可得
(18)
上式兩邊均乘以e-λt可得
(19)
進(jìn)一步可得
(20)
對上式加減dT(t)Rd(t),并利用式(14)可得
(22)
當(dāng)λ≠0時(shí),由上式可得
(23)
(24)
則可得閉環(huán)系統(tǒng)漸近穩(wěn)定。證明完畢。
(25)
V*(δ)=W*Tσ(δ)+ε(δ)
(26)
(27)
根據(jù)式(25)和式(26)可得
(28)
(29)
將上式代入式(9)可得近似Hamilton函數(shù):
(31)
(32)
由式(6)和式(29)可得標(biāo)稱系統(tǒng)閉環(huán)動(dòng)態(tài)為
(33)
假設(shè)2g(x)有界,即‖g(x)‖≤gM,其中g(shù)M>0。
假設(shè)3評價(jià)網(wǎng)絡(luò)理想權(quán)值W,激活函數(shù)σ(·)及其導(dǎo)數(shù)σ(·),近似誤差ε及其導(dǎo)數(shù)ε均有界,即‖W‖≤WM,‖σ(·)‖≤σM,‖σ(·)‖≤σdM,‖ε‖≤εM,‖ε‖≤εdM,其中WM,σM,σdM,εM和εdM均為正常數(shù)。
定理2考慮系統(tǒng)(6),事件驅(qū)動(dòng)控制策略為(29),評價(jià)網(wǎng)絡(luò)權(quán)值調(diào)節(jié)律為(31)。假設(shè)系統(tǒng)狀態(tài)滿足持續(xù)激勵(lì)條件,事件觸發(fā)條件為
(34)
其中α∈(0,1)。若評價(jià)網(wǎng)絡(luò)學(xué)習(xí)率l滿足如下不等式
(35)
證明選取如下的Lyapunov函數(shù)
(36)
那么,當(dāng)t∈[tk,tk+1)時(shí),對Lyapunov函數(shù)(36)求導(dǎo)可得
(37)
(38)
由HJB方程(13)可得
V*(δ)
(39)
進(jìn)一步可得
利用式(34)可得
(42)
當(dāng)t=tk時(shí),對Lyapunov函數(shù)(36)求差分,
(43)
因此可得跟蹤誤差和神經(jīng)網(wǎng)絡(luò)權(quán)值誤差均一致最終有界。證明完畢。
考慮如下的不確定非線性系統(tǒng):
(44)
圖1 評價(jià)網(wǎng)絡(luò)的權(quán)值收斂軌跡Fig.1 Convergent trajectories of critic neural network weights
將所得到的事件驅(qū)動(dòng)魯棒控制器作用到系統(tǒng)(44)上,跟蹤誤差軌跡如圖2所示,事件觸發(fā)條件ek及其上界eT的軌跡如圖3所示。本文提出的事件驅(qū)動(dòng)的魯棒控制器僅需更新69次,而時(shí)間驅(qū)動(dòng)的控制器則需更新500次,因此可減少86.2%的計(jì)算量。仿真結(jié)果證明了本文所提出方案的有效性。
圖2 跟蹤誤差軌跡Fig.2 Trajectories of tracking error
圖3 事件觸發(fā)條件軌跡Fig.3 Trajectories of event-triggered condition
針對一類不確定非線性系統(tǒng)的魯棒跟蹤控制問題,本文利用增廣技術(shù)和引入新型性能指標(biāo)函數(shù)將其轉(zhuǎn)化為標(biāo)稱系統(tǒng)的最優(yōu)控制問題,并結(jié)合事件驅(qū)動(dòng)機(jī)制和ADP方法提出了一個(gè)事件驅(qū)動(dòng)魯棒跟蹤控制方案,理論上證明了閉環(huán)系統(tǒng)的一致最終有界穩(wěn)定性。仿真結(jié)果驗(yàn)證了所提出方法的有效性。