王 冠,夏紅偉
(哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001)
吸氣式高超聲速飛行器采用超燃沖壓發(fā)動(dòng)機(jī),具可重復(fù)使用、飛行能力強(qiáng)的特點(diǎn),其動(dòng)力學(xué)控制作為高超聲速飛行器研制中的關(guān)鍵問(wèn)題之一,在近年得到了廣泛關(guān)注[1]。
隨著控制理論的發(fā)展,傳統(tǒng)比例-積分-導(dǎo)數(shù)(PID)控制[2]、滑??刂芠3]、容錯(cuò)控制[4]等控制方法在高超聲速飛行器控制領(lǐng)域的研究已經(jīng)取得了一定成果。為了解決存在未知?jiǎng)討B(tài)且無(wú)法精確建模的高超聲速飛行器控制問(wèn)題,一些學(xué)者采用自適應(yīng)和神經(jīng)網(wǎng)絡(luò)技術(shù),提出了新穎的控制方法。文獻(xiàn)[5]針對(duì)帶攻角約束的高超聲速飛行器控制問(wèn)題,提出一種基于非對(duì)稱時(shí)變障礙函數(shù)的自適應(yīng)控制方法,在保證良好跟蹤性能的同時(shí)能夠滿足攻角約束限制。文獻(xiàn)[6]利用神經(jīng)網(wǎng)絡(luò)技術(shù)逼近未知非仿射動(dòng)態(tài),結(jié)合漏斗控制與低通濾波器,提出一種不需要虛擬控制律的控制策略,確保了跟蹤誤差的瞬態(tài)性能和穩(wěn)態(tài)性能,但其設(shè)計(jì)相對(duì)復(fù)雜且參數(shù)較多。自適應(yīng)控制和神經(jīng)網(wǎng)絡(luò)控制在處理模型參數(shù)不確定性方面具有先天優(yōu)勢(shì),但學(xué)習(xí)能力較有限,通常需要引入大量的參數(shù)更新律,強(qiáng)烈依賴于神經(jīng)網(wǎng)絡(luò)的更新規(guī)律,極大地增加了控制算法的結(jié)構(gòu)復(fù)雜度和控制參數(shù)整定難度[4-9]。如何處理控制效果與算法復(fù)雜度之間的矛盾,是當(dāng)下高超聲速飛行器控制領(lǐng)域亟待解決的關(guān)鍵問(wèn)題之一。與傳統(tǒng)控制方法相比,確定學(xué)習(xí)能夠從動(dòng)力學(xué)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)控制過(guò)程中實(shí)現(xiàn)未知?jiǎng)討B(tài)的學(xué)習(xí)[10]。在對(duì)未知?jiǎng)討B(tài)的知識(shí)獲取、存儲(chǔ)以及利用方面具有明顯優(yōu)勢(shì),越來(lái)越多研究工作將確定學(xué)習(xí)的思想應(yīng)用于解決工程實(shí)際問(wèn)題[11-12]。例如,文獻(xiàn)[13]利用確定學(xué)習(xí)理論對(duì)機(jī)械手系統(tǒng)的未知?jiǎng)討B(tài)進(jìn)行知識(shí)獲取,提出一種預(yù)設(shè)性能神經(jīng)學(xué)習(xí)控制器,實(shí)現(xiàn)了機(jī)械手在預(yù)設(shè)性能約束下的跟蹤控制。高超聲速飛行器動(dòng)力學(xué)模型的強(qiáng)非線性、強(qiáng)不確定性、飛行工況的復(fù)雜性,以及現(xiàn)有算力、可靠性等因素都制約著自適應(yīng)和神經(jīng)網(wǎng)絡(luò)控制在實(shí)際工程中的落地應(yīng)用,考慮到上述問(wèn)題,將確定學(xué)習(xí)思想引入高超聲速飛行器的控制設(shè)計(jì)中,在減輕線上控制計(jì)算負(fù)擔(dān)方面具有極大潛力。此外,實(shí)際工程還要求考慮超燃沖壓發(fā)動(dòng)機(jī)的可執(zhí)行范圍存在一定限度,即燃油閥開(kāi)度的上限和下限約束,保障高超聲速飛行器的穩(wěn)定飛行控制。因此,在實(shí)際工程中必須考慮燃油閥開(kāi)度受限下的控制問(wèn)題。文獻(xiàn)[14]通過(guò)構(gòu)造自適應(yīng)輔助系統(tǒng)提出一種基于上界估計(jì)的自適應(yīng)飛行控制策略,在保證預(yù)設(shè)跟蹤性能的同時(shí)克服了燃油閥開(kāi)度受限的問(wèn)題。目前,常見(jiàn)的處理手段包括構(gòu)造輔助系統(tǒng)[14]、構(gòu)造輔助線性矩陣不等式[15]等,能夠有效處理輸入受限問(wèn)題,但是以上方法對(duì)模型依賴性強(qiáng)、參數(shù)調(diào)節(jié)相對(duì)復(fù)雜。
需要指出的是,上述控制策略通常采用時(shí)間觸發(fā)的方式,為了保證系統(tǒng)的穩(wěn)定性并達(dá)到預(yù)期性能,控制量的更新周期一般相對(duì)較小。這種機(jī)制可能造成不必要的通信和計(jì)算資源消耗,更嚴(yán)重的情況是加速高超聲速飛行器元器件的老化和系統(tǒng)能源的損耗。為了解決基于時(shí)間觸發(fā)控制帶來(lái)的資源浪費(fèi),近年來(lái)學(xué)者們基于事件觸發(fā)機(jī)制做了大量工作[16-17]。文獻(xiàn)[18]針對(duì)無(wú)人機(jī)系統(tǒng)提出的事件觸發(fā)控制方案與傳統(tǒng)的時(shí)間觸發(fā)采樣方案相比,能夠顯著降低網(wǎng)絡(luò)利用率,同時(shí)獲得令人滿意的控制性能。盡管在現(xiàn)有文獻(xiàn)中事件觸發(fā)控制研究已經(jīng)得到了一定發(fā)展,但在高超聲速飛行器控制領(lǐng)域中仍有待研究,該類控制問(wèn)題逐漸引起學(xué)界的關(guān)注。
基于上述分析,本文針對(duì)高超聲速飛行器控制問(wèn)題,提出一種基于學(xué)習(xí)的智能控制方法。針對(duì)輸入受限的速度子系統(tǒng),提出一種基于近端策略優(yōu)化算法(Proximal policy optimization, PPO)的智能權(quán)值分配控制方案??紤]通信資源有限的高度子系統(tǒng),提出一種基于事件觸發(fā)的確定學(xué)習(xí)控制方案。該方案包含離線學(xué)習(xí)訓(xùn)練和在線觸發(fā)控制兩個(gè)階段。該控制方案設(shè)計(jì)分為兩個(gè)步驟:離線學(xué)習(xí)訓(xùn)練階段和在線觸發(fā)控制階段。第一步,首先在具有充足通信資源的離線控制測(cè)試端,利用徑向基函數(shù)(Radial basis function, RBF)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)控制器,獲取高超聲速飛行器系統(tǒng)的未知?jiǎng)討B(tài)知識(shí)。第二步,對(duì)于高超聲速飛行器的遠(yuǎn)程在線控制階段,結(jié)合存儲(chǔ)的經(jīng)驗(yàn)知識(shí)構(gòu)建在線觸發(fā)控制器。隨后,結(jié)合高超聲速飛行器動(dòng)力學(xué)模型與李雅普諾夫理論驗(yàn)證了所提出的控制方案能夠保證跟蹤性能和閉環(huán)系統(tǒng)的穩(wěn)定性。
本文的主要貢獻(xiàn)總結(jié)如下:1)利用強(qiáng)化學(xué)習(xí)來(lái)解決輸入受限下的速度跟蹤控制問(wèn)題,將經(jīng)過(guò)離線學(xué)習(xí)訓(xùn)練獲得的智能體應(yīng)用于在線控制,降低了速度子系統(tǒng)控制器的計(jì)算量;2)利用確定學(xué)習(xí)思想來(lái)解決高超聲速飛行器的高度跟蹤控制問(wèn)題,在本地系統(tǒng)資源充足的情況下,經(jīng)過(guò)離線學(xué)習(xí)訓(xùn)練獲取系統(tǒng)的未知?jiǎng)討B(tài)知識(shí),利用經(jīng)驗(yàn)知識(shí)進(jìn)行在線控制階段方案設(shè)計(jì),降低了由神經(jīng)網(wǎng)絡(luò)權(quán)值的在線頻繁更新帶來(lái)的計(jì)算負(fù)擔(dān);3)與已有的神經(jīng)自適應(yīng)控制方案[9]不同,所提出的方案在保證在線暫態(tài)跟蹤性能的同時(shí),通過(guò)結(jié)合事件觸發(fā)機(jī)制實(shí)現(xiàn)了更少的觸發(fā)次數(shù),避免不必要的通信資源浪費(fèi)。
本文采用高超聲速飛行器縱向動(dòng)力學(xué)模型[19]
(1)
該模型包含5個(gè)狀態(tài)量X=[V,h,γ,α,Q]T,V,h,γ,α和Q分別表示飛行器的速度、高度、航跡角、攻角和俯仰角速度;m和g分別表示飛行器的質(zhì)量和重力加速度,Iyy表示轉(zhuǎn)動(dòng)慣量;T,D和L分別表示發(fā)動(dòng)機(jī)推力、阻力和升力,Myy表示俯仰力矩,具體表達(dá)式為
(2)
為了實(shí)現(xiàn)離線學(xué)習(xí)控制的知識(shí)獲取以及存儲(chǔ),給出幾個(gè)必要的引理。
引理 1[10].對(duì)于緊集上的未知平滑非線性函數(shù)fi(xi),可利用RBF神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行逼近:
(3)
(4)
(5)
式中:εi為任意小的逼近誤差,且常值神經(jīng)網(wǎng)絡(luò)權(quán)值可通過(guò)如下方式計(jì)算
(6)
式中:tb>ta>T,[ta,tb]為系統(tǒng)穩(wěn)態(tài)后的時(shí)間段。
對(duì)于輸入受限的速度子系統(tǒng),設(shè)計(jì)基于強(qiáng)化學(xué)習(xí)的智能控制方案,使得輸出速度V穩(wěn)定跟蹤參考信號(hào)Vr。對(duì)于通信資源有限的高度子系統(tǒng),設(shè)計(jì)基于事件觸發(fā)的確定學(xué)習(xí)控制方案,使得輸出高度h穩(wěn)定跟蹤參考信號(hào)hr。
本節(jié)首先針對(duì)速度子系統(tǒng)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練設(shè)計(jì),實(shí)現(xiàn)速度參考信號(hào)的跟蹤;然后通過(guò)設(shè)計(jì)高度子系統(tǒng)跟蹤控制器,使得高度緊密地跟蹤參考軌跡;在此基礎(chǔ)上進(jìn)行離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練,獲取并存儲(chǔ)神經(jīng)網(wǎng)絡(luò)權(quán)值;最后結(jié)合獲取的經(jīng)驗(yàn)知識(shí),構(gòu)造在線觸發(fā)控制器。圖1為本文所提出的智能控制方案示意圖。
圖1 基于學(xué)習(xí)的高超聲速飛行器智能控制方法示意圖Fig.1 Schematic diagram of learning-based intelligent controller design for hypersonic flight vehicle
定義Vr為速度參考信號(hào),則速度跟蹤誤差為eV=V-Vr,其導(dǎo)數(shù)可表示為
(7)
在速度子系統(tǒng)中,考慮實(shí)際系統(tǒng)中燃油閥開(kāi)度飽和的要求,將控制指令輸入表示成如下形式:
(8)
式中:Φc表示理想的燃油閥開(kāi)度指令;Φmin表示燃油閥開(kāi)度的下界,源于熱管理系統(tǒng)中主動(dòng)冷卻功能的需求;Φmax表示燃油閥開(kāi)度的上界,為了避免發(fā)生熱阻現(xiàn)象而危害系統(tǒng)的穩(wěn)定性。
基于上述分析,可將式(8)改寫成基于權(quán)值分配的形式:
Φ=ωΦΦmin+(1-ωΦ)Φmax
(9)
式中:ωΦ∈[0,1]是一個(gè)表示權(quán)重的正常數(shù)。
為了實(shí)現(xiàn)燃油閥開(kāi)度指令的快速響應(yīng)以及抗飽和需求,本文提出了基于PPO算法的智能權(quán)值分配控制器。PPO算法是一種Actor-Critic方法[21],結(jié)合廣義優(yōu)勢(shì)估計(jì)方法,可將其優(yōu)勢(shì)函數(shù)表示為:
(10)
設(shè)置目標(biāo)函數(shù)為
(11)
式中:πθ是以θ為參數(shù)的隨機(jī)策略網(wǎng)絡(luò)。
本文對(duì)于速度子系統(tǒng)的智能控制設(shè)計(jì)中,將PPO算法中的舊策略πθold與高超聲速飛行器模型進(jìn)行多次交互,產(chǎn)生用于強(qiáng)化學(xué)習(xí)訓(xùn)練的數(shù)據(jù)。
(12)
注1.與文獻(xiàn)[22]中所采用的智能PID參數(shù)整定相比,本文所提出的基于PPO算法的智能權(quán)值分配控制器考慮了控制輸入的幅值約束,在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)中兼顧了工程實(shí)際意義。
在具有充足通信資源的離線控制測(cè)試端,首先通過(guò)利用高斯RBF神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)神經(jīng)自適應(yīng)控制器,獲取高超聲速飛行器動(dòng)力學(xué)系統(tǒng)的動(dòng)態(tài)知識(shí)。
2.2.1(h-γ)子系統(tǒng)
定義高度誤差變量為eh=h-hr,并考慮到sinγ≈γ,對(duì)其求導(dǎo)得
(13)
式中:gh=V。
設(shè)計(jì)如下的航跡角虛擬控制律
(14)
然后定義航跡角誤差變量為eγ=γ-γd,結(jié)合式(1)對(duì)其求導(dǎo)得
(15)
設(shè)計(jì)鴨翼控制律為
(16)
其更新律設(shè)計(jì)如下
(17)
2.2.2(α-Q)子系統(tǒng)
定義期望攻角α*,設(shè)計(jì)攻角虛擬控制律:
αd=α*-eγ
(18)
定義攻角跟蹤誤差eα=α-αd,結(jié)合上式可將eα的導(dǎo)數(shù)表示為
(19)
對(duì)此,設(shè)計(jì)俯仰角速度的虛擬控制律:
(20)
定義俯仰角速度跟蹤誤差為eQ=Q-Qd,則其導(dǎo)數(shù)可寫為
(21)
設(shè)計(jì)升降舵控制律為
(22)
其更新律設(shè)計(jì)如下:
(23)
以上完成了基本神經(jīng)自適應(yīng)控制的推導(dǎo),在此基礎(chǔ)上將進(jìn)行離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練并獲取權(quán)值知識(shí)。
對(duì)于高超聲速飛行器的遠(yuǎn)程控制階段,調(diào)用存儲(chǔ)的經(jīng)驗(yàn)知識(shí),構(gòu)建通信資源占用較低的在線觸發(fā)控制器。在給出控制器設(shè)計(jì)過(guò)程之前,給出以下假設(shè):
隨后,對(duì)于(h-γ)子系統(tǒng)設(shè)計(jì)虛擬控制律及更新律設(shè)計(jì)為
(24)
設(shè)計(jì)基于事件觸發(fā)的鴨翼偏角實(shí)際控制律δc為
(25)
對(duì)于(α-Q)子系統(tǒng),設(shè)計(jì)虛擬控制律及更新律為
(26)
設(shè)計(jì)基于事件觸發(fā)的升降舵偏角實(shí)際控制律δe為
(27)
注2.與文獻(xiàn)[9]相比,本文所提出的基于事件觸發(fā)的確定學(xué)習(xí)控制器式(24)~(27)所需的在線計(jì)算量更少,更加易于實(shí)施。此外,由于事件觸發(fā)機(jī)制的引入,能夠使系統(tǒng)在獲得較好的暫態(tài)跟蹤性能的同時(shí),節(jié)省控制器-執(zhí)行器信道間的通信資源。
為保證所設(shè)計(jì)控制器的收斂性,基于李雅普諾夫穩(wěn)定性分析保證系統(tǒng)有界性。分析和相關(guān)引理如下。
引理 3[23].對(duì)于任意的κ>0和φ∈R,如下不等式成立:
(28)
定理 1.對(duì)于本文研究的高超聲速飛行器高度子系統(tǒng),在假設(shè)1以及虛擬控制器(24),(26),實(shí)際控制器及事件觸發(fā)條件(25),(27)的作用下,通過(guò)選擇適當(dāng)?shù)脑O(shè)計(jì)參數(shù),閉環(huán)系統(tǒng)中的所有信號(hào)是最終一致有界的,且能夠排除芝諾現(xiàn)象。
證.選取如下李雅普諾夫函數(shù):
(29)
對(duì)于鴨翼偏角指令,由事件觸發(fā)條件式(25)可得,在區(qū)間t∈[tk,tk+1)中存在如下關(guān)系:
vc(t)=(1+βc1(t)mc1)δc(t)+βc2(t)mc2
(30)
式中:βc1(t)和βc2(t)為滿足|βc1(t)|≤1和|βc2(t)|≤1的變量。因此可以得到
(31)
(32)
(33)
(34)
相似地,對(duì)于升降舵偏角指令可以得到
(35)
因此,結(jié)合式(24)和(26),LA的導(dǎo)數(shù)可表示為
(36)
進(jìn)而,結(jié)合引理2以及楊氏不等式,并應(yīng)用如下的不等式:
(37)
可得
(38)
接下來(lái),將證明所提出的方案可以避免芝諾現(xiàn)象,即觸發(fā)事件不會(huì)在有限時(shí)間內(nèi)無(wú)限次觸發(fā)。為了實(shí)現(xiàn)這一目標(biāo),只需證明存在一個(gè)常數(shù)t*滿足?k∈+,tk+1-tk≥t*。對(duì)于(h-γ)子系統(tǒng),由Ec(t)=vc(tk)-δc(t), ?t∈[tk,tk+1),可得
(39)
以第1.1節(jié)縱向運(yùn)動(dòng)模型(1)作為被控對(duì)象,分別按照以下幾個(gè)步驟對(duì)所提控制方案進(jìn)行仿真研究。首先利用第2.1節(jié)的方案進(jìn)行速度子系統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練,然后利用第2.2節(jié)的離線學(xué)習(xí)方案進(jìn)行訓(xùn)練并獲取經(jīng)驗(yàn)知識(shí),最后利用第2.3節(jié)的觸發(fā)控制方案進(jìn)行驗(yàn)證。
在訓(xùn)練過(guò)程中,Actor和Critic網(wǎng)絡(luò)均采用3×64×128×1的全連接結(jié)構(gòu),超參數(shù)選取如表1所示,隱藏層激活函數(shù)為線性修正單元(Rectified linear unit, ReLU)函數(shù),動(dòng)作網(wǎng)絡(luò)均值激活函數(shù)為雙曲正切函數(shù)。
表1 PPO算法超參數(shù)設(shè)置Table 1 Hyperparameter settings of the PPO algorithm
為了更清晰地展示訓(xùn)練效果,圖2展示了離線訓(xùn)練100 s內(nèi)的輸出跟蹤曲線和神經(jīng)網(wǎng)絡(luò)逼近效果。圖2(a)給出了訓(xùn)練過(guò)程中高度的跟蹤效果,可以看出經(jīng)過(guò)一個(gè)暫態(tài)過(guò)程,高度狀態(tài)可以很好地跟蹤參考信號(hào)。圖2(b)描述了所定義的訓(xùn)練效果,神經(jīng)網(wǎng)絡(luò)具有較好的收斂效果,因此可以根據(jù)式(25)來(lái)存儲(chǔ)控制過(guò)程中的經(jīng)驗(yàn)知識(shí)。
本部分將對(duì)比文獻(xiàn)[9]中的神經(jīng)自適應(yīng)方法控制效果從而驗(yàn)證文中提出控制方案的有效性及優(yōu)點(diǎn)。圖3~圖6展示了兩種方案對(duì)比的仿真結(jié)果。其中,圖3給出了速度與高度跟蹤的效果對(duì)比,兩種方法均能夠?qū)崿F(xiàn)對(duì)參考指令的跟蹤,本文的方案具有更高的跟蹤精度。圖4(a)(b)(c)分別給出了速度子系統(tǒng)和高度子系統(tǒng)控制輸入曲線。圖5給出了姿態(tài)角變化曲線。圖6描述了由控制器到執(zhí)行器間的觸發(fā)情況,可以看出在事件觸發(fā)機(jī)制的作用下,所提方案可以在一定程度上減少觸發(fā)次數(shù),從而節(jié)省通信資源。表2展示了本文方法和對(duì)比方法在觸發(fā)次數(shù)以及CPU耗時(shí)方面的對(duì)比結(jié)果。通過(guò)表2可知,由于學(xué)習(xí)控制的過(guò)程中不需要對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)值參數(shù)進(jìn)行在線調(diào)節(jié),計(jì)算量大大降低,通信資源占用更少,所提的學(xué)習(xí)控制方法節(jié)約了近4/5的計(jì)算時(shí)間。
圖3 速度和高度跟蹤效果Fig.3 Velocity and altitude tracking performances
圖4 控制輸入曲線Fig.4 Curves of the system inputs
圖5 姿態(tài)角變化曲線Fig.5 Curves of the attitude angles
圖6 事件觸發(fā)時(shí)間間隔Fig.6 Curves of the event interval time
表2 性能對(duì)比Table 2 Performance comparison
針對(duì)吸氣式高超聲速飛行器的飛行控制問(wèn)題,本文提出一種基于學(xué)習(xí)的智能控制方法,將離線學(xué)習(xí)訓(xùn)練獲取的智能體和經(jīng)驗(yàn)知識(shí)應(yīng)用于在線控制,分別解決了輸入受限下的速度跟蹤控制問(wèn)題和有限通信資源條件下的高度跟蹤控制問(wèn)題。利用李雅普諾夫理論證明了該控制器能夠保證高度跟蹤誤差收斂到零的小鄰域內(nèi),且不會(huì)發(fā)生芝諾現(xiàn)象。仿真結(jié)果驗(yàn)證了此方案能夠在節(jié)省通信資源、減少算法計(jì)算量的同時(shí),實(shí)現(xiàn)良好的飛行跟蹤效果。