国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的再入飛行器“新質(zhì)”走廊在線生成技術(shù)

2022-10-12 11:43惠俊鵬汪韌俞啟東
航空學(xué)報(bào) 2022年9期
關(guān)鍵詞:制導(dǎo)校正軌跡

惠俊鵬,汪韌,俞啟東

中國(guó)運(yùn)載火箭技術(shù)研究院 研究發(fā)展部,北京 100076

高升阻比飛行器具有飛行速度快、升阻比高、航程遠(yuǎn)、機(jī)動(dòng)能力強(qiáng)等特點(diǎn),在軍事和民用領(lǐng)域發(fā)揮著重要的作用。高升阻比飛行器再入制導(dǎo)技術(shù)通過設(shè)計(jì)制導(dǎo)律,在動(dòng)力學(xué)方程、過程約束、控制量約束等條件下,使得飛行器在中末交班點(diǎn)滿足再入終端約束。因臨近空間環(huán)境的復(fù)雜性和不確定性,飛行器再入制導(dǎo)技術(shù)已成為航空航天領(lǐng)域研究的熱點(diǎn)之一。

高升阻比飛行器再入制導(dǎo)方法主要分為兩種:基于標(biāo)稱軌跡的制導(dǎo)方法和預(yù)測(cè)校正制導(dǎo)?;跇?biāo)稱軌跡的制導(dǎo)方法離線設(shè)計(jì)標(biāo)稱軌跡,在飛行過程中跟蹤標(biāo)稱軌跡進(jìn)行制導(dǎo)。離線設(shè)計(jì)的標(biāo)稱軌跡可以是阻力加速度-能量(Drag-Energy, D-E)剖面、高度-速度(Height-Velocity, H-V)剖面等。由于標(biāo)稱軌跡是離線設(shè)計(jì)所得,因而該方法對(duì)復(fù)雜環(huán)境的適應(yīng)性和魯棒性方面存在明顯的不足。預(yù)測(cè)校正制導(dǎo)方法對(duì)動(dòng)力學(xué)方程進(jìn)行積分,預(yù)測(cè)飛行器的終端狀態(tài),并基于終端狀態(tài)與目標(biāo)點(diǎn)的偏差來校正制導(dǎo)指令,從而實(shí)現(xiàn)對(duì)飛行器的精確制導(dǎo)。相比于基于標(biāo)稱軌跡跟蹤的制導(dǎo)方法,預(yù)測(cè)校正制導(dǎo)具有更強(qiáng)的自主性和對(duì)復(fù)雜環(huán)境的適應(yīng)能力。

人工智能(Artificial Intelligence)目前已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。機(jī)器學(xué)習(xí)(Machine Learning)技術(shù)是人工智能領(lǐng)域的核心技術(shù),機(jī)器學(xué)習(xí)主要包括監(jiān)督學(xué)習(xí)(Supervised Learning)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。相比于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)主要用于解決智能體的序貫決策問題,其核心思想是智能體自主地與環(huán)境進(jìn)行交互,實(shí)時(shí)觀測(cè)狀態(tài)信息,并基于一定的策略采取相應(yīng)的動(dòng)作,同時(shí)從環(huán)境中獲取與動(dòng)作相對(duì)應(yīng)的反饋信息,智能體基于數(shù)據(jù)[,,]進(jìn)行訓(xùn)練,在不斷“試錯(cuò)”的過程中優(yōu)化行動(dòng)策略,以期完成預(yù)定任務(wù)。近年來提出的具有代表性的強(qiáng)化學(xué)習(xí)算法有深度Q網(wǎng)絡(luò)算法(Deep Q Network, DQN)、深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)、近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)、軟動(dòng)作-評(píng)價(jià)算法(Soft Actor-Critic, SAC)等,目前已廣泛應(yīng)用于游戲、無人駕駛等領(lǐng)域。

基于人工智能的飛行器制導(dǎo)控制技術(shù)研究尚處于起步階段。文獻(xiàn)[9]綜述了深度學(xué)習(xí)在飛行器動(dòng)力學(xué)與控制中的應(yīng)用,從3個(gè)方面總結(jié)了深度學(xué)習(xí)在飛行器動(dòng)力學(xué)與控制中的應(yīng)用,包括:在動(dòng)力學(xué)建模中應(yīng)用深度學(xué)習(xí)來提升模型計(jì)算效率和建模精度、求解模型反問題;在最優(yōu)控制中應(yīng)用深度學(xué)習(xí)來提升軌跡規(guī)劃速度、最優(yōu)控制實(shí)時(shí)性和自主性;在飛行器任務(wù)設(shè)計(jì)中應(yīng)用深度學(xué)習(xí)來提升任務(wù)優(yōu)化的計(jì)算效率和決策水平。在制導(dǎo)律設(shè)計(jì)方面,文獻(xiàn)[10-12]將深度學(xué)習(xí)技術(shù)應(yīng)用于飛行器制導(dǎo)和在線軌跡優(yōu)化問題,基于大量的飛行軌跡訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)飛行器實(shí)時(shí)狀態(tài)到制導(dǎo)指令的快速映射;文獻(xiàn)[13-18]研究了基于Q-Learning、PPO等強(qiáng)化學(xué)習(xí)算法的智能制導(dǎo)律,該方法消除了原有傳統(tǒng)制導(dǎo)律對(duì)飛行器附加的一些不必要約束,通過飛行器與環(huán)境的大量交互和試錯(cuò),并基于獎(jiǎng)勵(lì)信息來學(xué)習(xí)制導(dǎo)律,使得飛行器初步具備了自主決策能力。在姿態(tài)控制方面,文獻(xiàn)[19-20]在傳統(tǒng)PID控制的基礎(chǔ)上,進(jìn)一步利用強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)對(duì)飛行器6自由度的穩(wěn)定控制,并驗(yàn)證了該方法在控制精度和實(shí)時(shí)性方面的優(yōu)勢(shì)。在飛行器協(xié)同制導(dǎo)與軌跡規(guī)劃方面,方科等開展了高升阻比飛行器時(shí)間協(xié)同再入制導(dǎo)研究,將協(xié)同再入制導(dǎo)結(jié)構(gòu)分為兩層,其中底層提出了基于神經(jīng)網(wǎng)絡(luò)的時(shí)間可控再入制導(dǎo)律,以實(shí)現(xiàn)再入飛行時(shí)間的可知性與可控性為目標(biāo);上層根據(jù)不同再入階段特點(diǎn)設(shè)計(jì)相應(yīng)的協(xié)調(diào)函數(shù),生成時(shí)間協(xié)調(diào)信息。周宏宇等提出了一種改進(jìn)粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法的飛行器協(xié)同軌跡規(guī)劃,并借助強(qiáng)化學(xué)習(xí)方法構(gòu)建協(xié)同需求與慣性權(quán)重間的動(dòng)態(tài)映射網(wǎng)絡(luò),提高在線軌跡規(guī)劃效率。

無論是基于標(biāo)稱軌跡的制導(dǎo)還是預(yù)測(cè)校正制導(dǎo),都需要基于人工經(jīng)驗(yàn)設(shè)計(jì)飛行走廊參數(shù)。基于標(biāo)稱軌跡的制導(dǎo)方法根據(jù)飛行器再入過程中需要滿足的過程約束,設(shè)計(jì)可行的飛行走廊,在走廊約束下精心設(shè)計(jì)滿足航程和終端約束的標(biāo)稱飛行軌跡;預(yù)測(cè)校正制導(dǎo)方法在橫向制導(dǎo)中通過設(shè)置合適的橫程誤差或航向角誤差走廊來確定傾側(cè)角的符號(hào),當(dāng)橫向控制量到達(dá)走廊邊界時(shí),傾側(cè)角符號(hào)翻轉(zhuǎn)。

本文旨在研究基于強(qiáng)化學(xué)習(xí)的再入飛行器“新質(zhì)”走廊在線生成技術(shù),打破傳統(tǒng)預(yù)測(cè)校正制導(dǎo)等方法中固有的走廊約束,在滿足飛行過程約束(熱流率、過載、動(dòng)壓等約束)和中末交班點(diǎn)約束的前提下,通過飛行器與環(huán)境大量交互“試錯(cuò)”,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,設(shè)置有效的獎(jiǎng)勵(lì)(反饋)引導(dǎo),利用強(qiáng)化學(xué)習(xí)中PPO算法訓(xùn)練飛行器傾側(cè)角制導(dǎo)模型,顛覆現(xiàn)有制導(dǎo)方法在橫向走廊/縱向剖面的約束,實(shí)現(xiàn)飛行器基于實(shí)時(shí)的狀態(tài)信息在線決策傾側(cè)角指令。通過智能技術(shù)的賦能,充分發(fā)揮再入飛行器的寬域飛行優(yōu)勢(shì),進(jìn)一步拓展飛行剖面,探索已有飛行模式以外的新質(zhì)飛行走廊,達(dá)到出敵不意的靈活飛行效果,從而滿足未來飛行器對(duì)智能決策的自主性需求。

1 再入飛行器制導(dǎo)問題

1.1 再入飛行器運(yùn)動(dòng)模型

再入飛行器3自由度動(dòng)力學(xué)方程為

(1)

式中:為地心距;和分別表示飛行器的經(jīng)緯度;為飛行速度;和分別表示飛行器的航跡角和航向角;表示傾側(cè)角;為飛行器的質(zhì)量;為重力加速度;和分別表示飛行器的升力和阻力。

1.2 再入制導(dǎo)約束

為了保證再入飛行器成功地完成飛行任務(wù),飛行器需滿足各種約束條件,其中核心的約束條件包括過程約束、擬平衡滑翔約束、再入終端約束和控制量約束。

1) 過程約束

一方面,飛行器再入過程中高超聲速氣流會(huì)產(chǎn)生嚴(yán)重的氣動(dòng)熱,尤其是飛行器的駐點(diǎn)區(qū)域。為保證飛行器各個(gè)部件正常運(yùn)行,再入段制導(dǎo)必須考慮駐點(diǎn)區(qū)的熱流率約束。另一方面,飛行器機(jī)身和機(jī)翼結(jié)構(gòu)強(qiáng)度的上限以及氣動(dòng)舵面鉸支鏈的承受能力,決定了再入飛行過程中的最大允許過載和動(dòng)壓。熱流率約束、過載約束和動(dòng)壓約束是飛行器再入飛行過程中必須要滿足的“硬約束”條件,其表達(dá)式為

(2)

2) 擬平衡滑翔約束

(3)

當(dāng)滿足擬平衡滑翔條件時(shí),飛行器所受重力與升力的合力恰好與其所受的向心力平衡,此時(shí)飛行軌跡高度變化較小,航跡角保持很小的量。

3) 再入終端約束

滑翔段的終端約束為滑翔段和末制導(dǎo)段的交班參數(shù),再入終端約束一般包括高度、速度、經(jīng)緯度等約束,可表示為

()=,()=,()=,()=

(4)

式中:、、、、分別表示滑翔段的終端時(shí)刻、地心距、速度、經(jīng)度、緯度。

4) 控制量約束

在3自由度飛行器再入制導(dǎo)中,攻角和傾側(cè)角為控制量,由于飛行器內(nèi)部控制機(jī)構(gòu)的作用,控制量的變化需要一定的變化時(shí)間和變化速度,不能瞬間變化到指定值。由于攻角采用標(biāo)準(zhǔn)攻角剖面,因而控制量的約束主要限制在傾側(cè)角的幅值及其變化率上,即

(5)

2 再入飛行器智能制導(dǎo)模型的設(shè)計(jì)

在再入飛行器制導(dǎo)中,控制量包括攻角和傾側(cè)角。攻角一般通過預(yù)先設(shè)定的速度-攻角剖面生成。在再入初期為滿足熱流率約束采用大攻角飛行,在中后段為滿足飛行器的射程需求,采用最大升阻比對(duì)應(yīng)的攻角飛行。本文著重研究再入飛行器傾側(cè)角制導(dǎo)模型的設(shè)計(jì)。

2.1 解決的問題

傳統(tǒng)的飛行器再入制導(dǎo),主要分為2種方法:① 基于標(biāo)稱軌跡的制導(dǎo)方法,根據(jù)飛行器再入過程中需要滿足的熱流率約束、過載約束和動(dòng)壓約束,設(shè)計(jì)可行的飛行走廊,飛行走廊一般在D-E剖面或H-V等剖面內(nèi)描述,在走廊約束下精心設(shè)計(jì)滿足航程和終端約束的標(biāo)稱飛行軌跡,實(shí)際飛行中在線跟蹤標(biāo)稱軌跡;② 預(yù)測(cè)校正制導(dǎo)方法,在縱向制導(dǎo)中基于預(yù)測(cè)的待飛航程與剩余航程的差,采用割線法迭代求解傾側(cè)角的幅值,在橫向制導(dǎo)中通過設(shè)置合適的橫程誤差或航向角誤差走廊來確定傾側(cè)角的符號(hào),當(dāng)橫向控制量到達(dá)走廊邊界時(shí),傾側(cè)角符號(hào)翻轉(zhuǎn)。上述分析表明,無論是基于標(biāo)稱軌跡的制導(dǎo)還是預(yù)測(cè)校正制導(dǎo),都需要基于人工經(jīng)驗(yàn)設(shè)計(jì)飛行走廊參數(shù)。

借鑒Alpha Go的思想,將監(jiān)督學(xué)習(xí)方法和強(qiáng)化學(xué)習(xí)方法相結(jié)合應(yīng)用于飛行器再入制導(dǎo)中,研究框架如圖1所示,主要包括3步:

1) 預(yù)測(cè)校正制導(dǎo):基于預(yù)測(cè)校正制導(dǎo)方法,通過靈活設(shè)置飛行器再入初始點(diǎn)的狀態(tài)參數(shù),生成大量的樣本數(shù)據(jù)。

2) 監(jiān)督學(xué)習(xí):建立傾側(cè)角智能制導(dǎo)模型,利用監(jiān)督學(xué)習(xí)中帶有動(dòng)量的隨機(jī)梯度下降(Stochastic Gradient Descent with Momentum,SGDM)算法和第1步產(chǎn)生的樣本數(shù)據(jù),訓(xùn)練傾側(cè)角智能制導(dǎo)模型,這里記基于SGDM算法訓(xùn)練得到的傾側(cè)角智能制導(dǎo)模型的參數(shù)為。

3) 強(qiáng)化學(xué)習(xí):以第2步訓(xùn)練得到的智能制導(dǎo)模型參數(shù)為初始化參數(shù),進(jìn)一步利用強(qiáng)化學(xué)習(xí)在智能決策方面的優(yōu)勢(shì),在動(dòng)力學(xué)方程的約束下通過飛行器與環(huán)境進(jìn)行大量交互,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,設(shè)置有效的獎(jiǎng)勵(lì)(反饋),利用強(qiáng)化學(xué)習(xí)中PPO算法進(jìn)一步訓(xùn)練飛行器傾側(cè)角制導(dǎo)模型,得到PPO算法再訓(xùn)練后的模型參數(shù),記為。該制導(dǎo)模型和參數(shù)將顛覆現(xiàn)有制導(dǎo)方法在橫向走廊的約束,在滿足飛行器過程約束的前提下,進(jìn)一步拓展飛行剖面,生成完全不同于傳統(tǒng)制導(dǎo)方法的飛行走廊,達(dá)到出敵不意的靈活飛行效果,從而滿足未來飛行器對(duì)智能決策的自主性和實(shí)時(shí)性要求。

圖1 再入飛行器智能制導(dǎo)研究框架Fig.1 Research framework of intelligent guidance of reentry vehicles

將監(jiān)督學(xué)習(xí)方法與強(qiáng)化學(xué)習(xí)方法相結(jié)合應(yīng)用于再入制導(dǎo)具有2個(gè)方面的優(yōu)勢(shì):

1) 相比于監(jiān)督學(xué)習(xí)方法,監(jiān)督學(xué)習(xí)是利用神經(jīng)網(wǎng)絡(luò)模型對(duì)再入飛行器制導(dǎo)指令的解算過程進(jìn)行擬合,其本質(zhì)上是使得基于監(jiān)督學(xué)習(xí)訓(xùn)練的智能制導(dǎo)模型生成的飛行軌跡最大程度逼近預(yù)測(cè)校正制導(dǎo)方法下的飛行軌跡。因而,可以利用監(jiān)督學(xué)習(xí)對(duì)傾側(cè)角智能制導(dǎo)模型進(jìn)行預(yù)訓(xùn)練,利用領(lǐng)域知識(shí)(預(yù)測(cè)校正制導(dǎo)方法)引導(dǎo)制導(dǎo)模型中未知參數(shù)的搜索。

2) 相比于強(qiáng)化學(xué)習(xí)方法,若沒有監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練過程,直接利用強(qiáng)化學(xué)習(xí)算法訓(xùn)練傾側(cè)角智能制導(dǎo)模型將帶來訓(xùn)練難以收斂等問題。強(qiáng)化學(xué)習(xí)訓(xùn)練過程是以監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練出的模型參數(shù)為初始化參數(shù),進(jìn)一步通過飛行器與環(huán)境的大量交互,通過獎(jiǎng)勵(lì)的引導(dǎo),探索完全不同于傳統(tǒng)方法的“新質(zhì)”飛行走廊。

2.2 傾側(cè)角智能制導(dǎo)模型

傾側(cè)角智能制導(dǎo)模型如圖2所示,其中制導(dǎo)模型的輸入為飛行器的狀態(tài)向量,定義狀態(tài)向量為

(6)

式中:Δ=-表示時(shí)刻的地心距與滑翔終端地心距的差;Δ=-表示時(shí)刻的經(jīng)度與滑翔終端經(jīng)度的差;Δ=-表示時(shí)刻的緯度與滑翔終端緯度的差;Δ=-表示時(shí)刻的速度與滑翔終端速度的差;表示時(shí)刻飛行器距離滑翔終端的剩余航程:

=×arccos[sinsin+coscos·

cos(-)]

(7)

其中:為地球半徑。隱層為長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)模型,隱層輸出的節(jié)點(diǎn)數(shù)為64個(gè),隱層到輸出層是全連接,輸出為傾側(cè)角。

圖2 基于LSTM的傾側(cè)角制導(dǎo)模型架構(gòu)Fig.2 Structure diagram of bank angle guidance model based on LSTM neural network

LSTM模型如圖3所示,其數(shù)學(xué)表達(dá)式為

(8)

圖3 LSTM模型Fig.3 LSTM model

選取LSTM模型的根本原因在于,從智能決策的角度來說,飛行器傾側(cè)角的決策屬于典型的序貫決策問題,每一時(shí)刻的傾側(cè)角符號(hào)不僅取決于飛行器當(dāng)前時(shí)刻的狀態(tài),還與上一時(shí)刻的傾側(cè)角符號(hào)以及上一時(shí)刻航向角誤差與走廊的關(guān)系有關(guān)。這是因?yàn)槿羯弦粫r(shí)刻航向角誤差在走廊內(nèi),當(dāng)前時(shí)刻超出走廊,則需要翻轉(zhuǎn);但若上一時(shí)刻已經(jīng)超出走廊,傾側(cè)角已經(jīng)翻轉(zhuǎn)過一次,當(dāng)前時(shí)刻還在走廊外,則無需二次翻轉(zhuǎn)。因而在決策傾側(cè)角時(shí)需要考慮飛行器在相鄰時(shí)刻間的狀態(tài)關(guān)系,而這也恰好是LSTM所具有的獨(dú)特優(yōu)勢(shì),是解決序貫決策的經(jīng)典模型。

2.3 傾側(cè)角幅值的約束

為保證再入飛行器的安全飛行,基于LSTM模型輸出的傾側(cè)角需進(jìn)一步滿足再入過程約束。飛行器的指數(shù)大氣密度、升力和阻力的計(jì)算公式為

(9)

將式(9)代入式(2)的約束條件得到在H-V剖面再入走廊的邊界:

(10)

然而,在再入飛行過程中,如果時(shí)刻判斷高度-速度剖面是否滿足過程約束的邊界條件會(huì)帶來較大的計(jì)算量,為此將上述再入過程約束式(10) 轉(zhuǎn)化為對(duì)傾側(cè)角幅值的約束:

(11)

|()|}

(12)

基于式(12)對(duì)基于LSTM模型輸出的傾側(cè)角幅值進(jìn)一步限制,使其滿足過程硬約束條件。

3 基于監(jiān)督學(xué)習(xí)的再入飛行器傾側(cè)角智能制導(dǎo)模型的訓(xùn)練

基于監(jiān)督學(xué)習(xí)的再入飛行器傾側(cè)角智能制導(dǎo)模型的訓(xùn)練分為兩步:一是訓(xùn)練樣本的生成;二是傾側(cè)角制導(dǎo)模型的訓(xùn)練。

3.1 訓(xùn)練樣本的生成

在訓(xùn)練樣本的生成方面,本文選取美國(guó)通用航空飛行器CAV-H為研究對(duì)象,基于預(yù)測(cè)校正制導(dǎo)方法產(chǎn)生仿真數(shù)據(jù)。參數(shù)設(shè)置為

2) 中末交班點(diǎn)參數(shù):高度=23 km,經(jīng)度為=50°,緯度為=3°,速度為=1 100 m/s。

3) 攻角剖面:

=

(13)

式中:、分別為初始、末端速度;、為可調(diào)的速度參數(shù),本文設(shè)置=5 000 m/s,=2 500 m/s;為最大攻角,本文設(shè)置為20°;max為最大升阻比對(duì)應(yīng)的攻角,本文設(shè)置為10°。

4) 縱向預(yù)測(cè)校正的周期:當(dāng)剩余射程大于500 km時(shí),=50 s;當(dāng)剩余射程小于500 km,大于200 km時(shí),=15 s;當(dāng)剩余射程小于200 km時(shí),=5 s。

5) 動(dòng)力學(xué)方程積分步長(zhǎng):縱向制導(dǎo)的積分步長(zhǎng)為1 s,橫向制導(dǎo)的積分步長(zhǎng)為0.1 s。

6) 飛行器再入初始點(diǎn)的狀態(tài)參數(shù)設(shè)置如表1所示。

表1 飛行器再入初始點(diǎn)的參數(shù)范圍Table 1 Range of initial state parameters of vehicle reentry

在上述參數(shù)范圍內(nèi)隨機(jī)設(shè)置飛行器的再入初始點(diǎn)參數(shù),在預(yù)測(cè)校正制導(dǎo)下可以獲得大量的飛行軌跡數(shù)據(jù)。本文選取其中1 331條飛行軌跡,每條軌跡約16 000個(gè)樣本點(diǎn)。

3.2 傾側(cè)角智能制導(dǎo)模型的訓(xùn)練

將基于預(yù)測(cè)校正制導(dǎo)方法生成的1 331條飛行軌跡輸入圖2基于LSTM的飛行器傾側(cè)角制導(dǎo)模型中,基于監(jiān)督學(xué)習(xí)的思想,在訓(xùn)練時(shí)目標(biāo)損失函數(shù)(Loss function)定義為

(14)

(15)

訓(xùn)練效果如圖4和圖5所示。可以看出目標(biāo)損失函數(shù)和均方誤差隨著訓(xùn)練迭代次數(shù)的增加逐漸減小且趨于收斂,表明上述訓(xùn)練參數(shù)設(shè)置的合理性。

圖4 損失函數(shù)隨迭代次數(shù)的變化曲線Fig.4 Loss function vs epoch curve

圖5 均方根誤差隨迭代次數(shù)的變化曲線Fig.5 RMSE vs epoch curve

4 基于強(qiáng)化學(xué)習(xí)的再入飛行器傾側(cè)角制導(dǎo)模型的訓(xùn)練

記第3節(jié)中基于監(jiān)督學(xué)習(xí)SGDM算法訓(xùn)練得到的傾側(cè)角智能制導(dǎo)模型的參數(shù)為,本節(jié)將以參數(shù)為初始化參數(shù),進(jìn)一步利用強(qiáng)化學(xué)習(xí)的思想,將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于飛行器再入制導(dǎo)中,在動(dòng)力學(xué)方程的約束下通過飛行器與環(huán)境進(jìn)行大量交互,在“試錯(cuò)”的過程中根據(jù)設(shè)置的有效獎(jiǎng)勵(lì)(反饋),利用PPO強(qiáng)化學(xué)習(xí)算法訓(xùn)練飛行器傾側(cè)角制導(dǎo)模型,得到PPO算法訓(xùn)練后的模型參數(shù),記為進(jìn)一步拓展飛行剖面,生成完全不同于傳統(tǒng)制導(dǎo)方法的飛行走廊,包括再入飛行器馬爾科夫決策過程建模和PPO算法原理。

4.1 再入飛行器馬爾科夫決策過程建模

基于強(qiáng)化學(xué)習(xí)研究再入飛行器制導(dǎo)律,需首先利用馬爾科夫決策過程對(duì)再入制導(dǎo)問題進(jìn)行建模,主要包括3部分:飛行器的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)(反饋)的設(shè)計(jì)。

飛行器的動(dòng)作空間為傾側(cè)角,包括傾側(cè)角的幅值和符號(hào):

=

(16)

獎(jiǎng)勵(lì)函數(shù)在利用強(qiáng)化學(xué)習(xí)算法訓(xùn)練傾側(cè)角智能制導(dǎo)模型中起著引導(dǎo)的作用,不同的獎(jiǎng)勵(lì)函數(shù)對(duì)訓(xùn)練結(jié)果將產(chǎn)生不同影響。若只考慮是否滿足中末交班點(diǎn)的精度要求,即無過程獎(jiǎng)勵(lì)信息,則稀疏獎(jiǎng)勵(lì)會(huì)帶來訓(xùn)練難以收斂的問題。結(jié)合再入飛行器的飛行特性,傾側(cè)角影響橫向制導(dǎo)的經(jīng)緯度和縱向制導(dǎo)的高度、速度,因而獎(jiǎng)勵(lì)的設(shè)置從橫向和縱向2個(gè)維度來設(shè)置。

1) 橫向獎(jiǎng)勵(lì)的設(shè)置

橫向獎(jiǎng)勵(lì)的設(shè)置如圖6所示,著重考慮2個(gè)方面:① 為了增加飛行器與環(huán)境交互過程中的探索性,期望其能夠探索出完全不同于傳統(tǒng)預(yù)測(cè)校正制導(dǎo)的飛行軌跡,因而在接近目標(biāo)點(diǎn)一定距離后才設(shè)置相應(yīng)的獎(jiǎng)勵(lì),如本文中考慮剩余航程小于1 000 km后才設(shè)置獎(jiǎng)勵(lì);② 為了引導(dǎo)飛行器精確到達(dá)目標(biāo)點(diǎn),在飛行器接近目標(biāo)點(diǎn)的過程中,距離越近,獎(jiǎng)勵(lì)的設(shè)置越密集,飛行器獲得的獎(jiǎng)勵(lì)越大,且飛行器一旦遠(yuǎn)離目標(biāo)點(diǎn)則被懲罰(負(fù)獎(jiǎng)勵(lì)),該負(fù)獎(jiǎng)勵(lì)將迅速抵消接近目標(biāo)飛行過程獲得的正獎(jiǎng)勵(lì),從而引導(dǎo)飛行器精確到達(dá)目標(biāo)點(diǎn)。

圖6 飛行器橫向獎(jiǎng)勵(lì)的設(shè)置Fig.6 Lateral reward set of reentry vehicles

2) 縱向獎(jiǎng)勵(lì)的設(shè)置

除了滿足中末交班點(diǎn)經(jīng)緯度約束外,還需滿足高度和速度的約束,從能量的角度出發(fā),定義飛行器的能量為

(17)

式中:表示飛行器的能量;GM表示引力系數(shù),取值為3.986×10N·m/kg。飛行器在位置點(diǎn)(,)所具有的能量均值為,將飛行器獲得的獎(jiǎng)勵(lì)設(shè)置為能量的高斯分布函數(shù):

(18)

式中:為標(biāo)準(zhǔn)差。通過如圖7所示的飛行器縱向獎(jiǎng)勵(lì)的設(shè)置,引導(dǎo)飛行器在位置點(diǎn)(,)處的能量在[-,+]的范圍內(nèi),以確保飛行器具備足夠的能量到達(dá)目標(biāo)點(diǎn)。

圖7 飛行器縱向獎(jiǎng)勵(lì)的設(shè)置Fig.7 Longitudinal reward set of reentry vehicles

4.2 PPO算法原理

PPO算法在連續(xù)動(dòng)作空間的智能決策任務(wù)中表現(xiàn)出較好的效果,目前Open AI已經(jīng)將PPO作為強(qiáng)化學(xué)習(xí)研究的首選算法。

1) 優(yōu)化的目標(biāo)函數(shù)

定義優(yōu)化的目標(biāo)函數(shù)為

(19)

式中:~()表示飛行器的初始狀態(tài)分布;記2.2節(jié)中設(shè)計(jì)的傾側(cè)角智能制導(dǎo)模型為(|),它實(shí)現(xiàn)的是從飛行器狀態(tài)到動(dòng)作(即傾側(cè)角指令)的映射;為傾側(cè)角智能制導(dǎo)模型(或策略模型)中待訓(xùn)練的參數(shù);()為獎(jiǎng)勵(lì)函數(shù),表示飛行器在狀態(tài)執(zhí)行動(dòng)作獲得的即刻獎(jiǎng)勵(lì)的期望;∈[0,1]為折扣因子。

在強(qiáng)化學(xué)習(xí)算法中,一般采用策略梯度法來更新策略參數(shù)從而最大化目標(biāo)函數(shù)。策略參數(shù)的更新方程為

(20)

策略梯度算法的關(guān)鍵在于如何選擇更新步長(zhǎng),合適的步長(zhǎng)是指當(dāng)策略更新后,目標(biāo)函數(shù)的值單調(diào)增加,或單調(diào)不減,這是PPO算法要解決的關(guān)鍵問題。

2) PPO算法的核心思想

PPO算法是由信賴域策略優(yōu)化(Trust Region Policy Optimization, TRPO)算法演變而來。TRPO算法并不是從策略梯度的更新步長(zhǎng)著手,而是從優(yōu)化的目標(biāo)函數(shù)出發(fā)。鑒于目標(biāo)函數(shù)難以優(yōu)化,尋找替代函數(shù)(Surrogate Function),替代函數(shù)具有3個(gè)特點(diǎn):① 替代函數(shù)是目標(biāo)函數(shù)的下界函數(shù);② 在當(dāng)前策略下替代函數(shù)近似等于目標(biāo)函數(shù);③ 替代函數(shù)相比于目標(biāo)函數(shù)更容易優(yōu)化。

TRPO算法用一個(gè)替代函數(shù)來作為目標(biāo)函數(shù)的下界函數(shù),下界函數(shù)易于優(yōu)化,通過迭代的方式讓下界函數(shù)逼近原目標(biāo)函數(shù)的最優(yōu)解。在TRPO算法中,將式(19)中的目標(biāo)函數(shù)轉(zhuǎn)化為

(21)

式中:(|)表示參數(shù)更新前的策略;由于(|)表示更新后的策略,是未知的,無法基于未知分布(|)采樣得到動(dòng)作序列,因而利用重要性采樣(Importance Sampling),即~(|)獲得采樣動(dòng)作序列;(,)=(,)-()表示優(yōu)勢(shì)函數(shù)(Advantage Function),它描述的是動(dòng)作值函數(shù)(,)相比于狀態(tài)值函數(shù)()的優(yōu)勢(shì),如果優(yōu)勢(shì)函數(shù)大于零,則說明該動(dòng)作比平均動(dòng)作好,如果優(yōu)勢(shì)函數(shù)小于零,則說明當(dāng)前動(dòng)作不如平均動(dòng)作好。((·|)|(·|))表示分布(·|)與(·|)之間的KL散度(Kullback-Leibler Divergence),引入該約束條件的目的是限制每一步策略參數(shù)的更新幅度。

TRPO算法能夠保證在迭代的過程中飛行器的制導(dǎo)策略朝著最優(yōu)的方向不斷更新,并能確保算法的收斂性,但其計(jì)算過程比較復(fù)雜。為此,PPO算法將TRPO中KL散度的約束直接體現(xiàn)在目標(biāo)函數(shù)中,移除了KL散度的計(jì)算,從而簡(jiǎn)化了TRPO算法。

1+)(,))]

(22)

由目標(biāo)函數(shù)可知:

① 當(dāng)舊策略(|)表現(xiàn)較好時(shí),即優(yōu)勢(shì)函數(shù)(,)>0,此時(shí)由clip((),1-,1+)(,))可得(|)(|)≤1+,其表達(dá)的意思是此時(shí)策略表現(xiàn)較好,理應(yīng)讓(|)變大,但不能使(|)(|)變得過大,導(dǎo)致策略更新前后相差太大,引入的方差較大。

② 當(dāng)舊策略(|)表現(xiàn)不好時(shí),即優(yōu)勢(shì)函數(shù)(,)<0,此時(shí)由clip((),1-,1+)(,))可得(|)(|)≥1-,其表達(dá)的意思是此時(shí)策略表現(xiàn)不好,策略更新的比值(|)(|)不必受到限制。

因而,PPO算法通過clip((),1-,1+),將策略更新的比值(|)(|)約束在[1-,1+]之內(nèi)。

由上述分析過程可以看出PPO算法避免了復(fù)雜的KL散度的計(jì)算過程,并將有約束的優(yōu)化問題轉(zhuǎn)化為無約束的優(yōu)化問題,大大簡(jiǎn)化了計(jì)算復(fù)雜度,提升算法收斂性能。

5 仿真與分析

5.1 不同制導(dǎo)方法對(duì)比分析

以通用航空飛行器(Common Aero Vehicle-H, CAV-H)為研究對(duì)象,參數(shù)設(shè)置見3.1節(jié),比較3種不同制導(dǎo)方法的仿真結(jié)果:① 預(yù)測(cè)校正制導(dǎo)方法;② 第3節(jié)中基于監(jiān)督學(xué)習(xí)中SGDM算法訓(xùn)練傾側(cè)角制導(dǎo)模型的方法(圖中記為“LSTM模型+SGDM算法”);③ 第4節(jié)中基于強(qiáng)化學(xué)習(xí)中PPO算法訓(xùn)練傾側(cè)角制導(dǎo)模型的方法(圖中記為“LSTM模型+PPO算法”),對(duì)比結(jié)果如圖8~圖12所示。

由圖8~圖12可以看出,“預(yù)測(cè)校正制導(dǎo)”與“LSTM模型+SGDM算法”兩種制導(dǎo)方式下的飛行軌跡基本重合,這是由于利用監(jiān)督學(xué)習(xí)訓(xùn)練傾側(cè)角制導(dǎo)模型時(shí),選取的樣本軌跡是基于預(yù)測(cè)校正制導(dǎo)產(chǎn)生,該訓(xùn)練過程可理解為對(duì)預(yù)測(cè)校正制導(dǎo)的擬合過程。但“LSTM模型+PPO算法”制導(dǎo)下的飛行軌跡完全不同于預(yù)測(cè)校正制導(dǎo)下的飛行軌跡。從圖9經(jīng)緯度曲線和圖10傾側(cè)角曲線可以看出,預(yù)測(cè)校正制導(dǎo)從初始點(diǎn)(0°,0°)出發(fā),由于航向角=90°且傾側(cè)角大于>0°,因而初始飛行軌跡朝東南方向;相反,在“LSTM模型+PPO算法”制導(dǎo)下從初始點(diǎn)(0°,0°)出發(fā)后輸出的傾側(cè)角<0°,因而初始飛行軌跡朝東北方向。盡管兩種不同的制導(dǎo)方式下飛行軌跡完全不同,但在滿足熱流率約束、過載約束和動(dòng)壓約束的前提下,都精確到達(dá)中末交班點(diǎn)。

圖8 高度-速度曲線對(duì)比Fig.8 Comparison of height-velocity curves

圖9 橫向軌跡曲線對(duì)比Fig.9 Comparison of lateral trajectory curves

圖10 傾側(cè)角-速度曲線對(duì)比Fig.10 Comparison of bank angle-velocity curves

圖11 航跡角-時(shí)間曲線對(duì)比Fig.11 Comparison of flight path angle-time curves

圖12 航向角-時(shí)間曲線對(duì)比Fig.12 Comparison of heading angle-time curves

5.2 Monte Carlo仿真分析

為驗(yàn)證“LSTM模型+PPO算法”制導(dǎo)方法的魯棒性和對(duì)參數(shù)偏差的適應(yīng)性,本文對(duì)飛行器再入初始狀態(tài)、氣動(dòng)參數(shù)進(jìn)行拉偏仿真分析,偏差設(shè)置如表2所示。

表2 飛行器再入初始狀態(tài)和氣動(dòng)參數(shù)偏差

在再入初始狀態(tài)擾動(dòng)和氣動(dòng)偏差的條件下,基于“LSTM模型+PPO算法”制導(dǎo)進(jìn)行400組的Monte Carlo仿真,落點(diǎn)經(jīng)緯度的散布如圖13所示,并與傳統(tǒng)的預(yù)測(cè)校正制導(dǎo)進(jìn)行比較??梢钥闯?在滿足中末交班點(diǎn)能量約束的前提下,相比于傳統(tǒng)的預(yù)測(cè)校正制導(dǎo)方法,基于“LSTM模型+PPO算法”制導(dǎo)的末端狀態(tài)更加靠近中末交班點(diǎn),即更加靠近=50°,=3°。顯然,在初始狀態(tài)有擾動(dòng)和氣動(dòng)參數(shù)有偏差的情形下,“LSTM模型+PPO算法”制導(dǎo)具有更高的精度,其原因在于采用LSTM模型輸出傾側(cè)角指令時(shí)需對(duì)輸入的飛行器狀態(tài)向量進(jìn)行歸一化處理,該過程會(huì)降低對(duì)狀態(tài)偏差的敏感性,加上LSTM神經(jīng)網(wǎng)絡(luò)模型具有天然的泛化能力,因而對(duì)于參數(shù)的偏差具有更強(qiáng)的魯棒性。

圖13 初始狀態(tài)和氣動(dòng)參數(shù)擾動(dòng)下落點(diǎn)經(jīng)緯度的散布圖Fig.13 Longitude and latitude scatter diagram with initial state error and aerodynamic parameter perturbation

5.3 實(shí)時(shí)性分析

下面進(jìn)一步對(duì)比分析不同制導(dǎo)方法的實(shí)時(shí)性。運(yùn)行硬件為Intel Core(TM) i7-6500U CPU @2.50 GHz,在Matlab環(huán)境下運(yùn)行代碼。

在Monte Carlo仿真中,基于“LSTM模型+PPO算法”制導(dǎo)方法完成一次再入段飛行的平均時(shí)長(zhǎng)為8.91 s,其具體分布如圖14所示,其中基于LSTM模型生成傾側(cè)角的時(shí)長(zhǎng)占其中的6.24 s,龍格庫(kù)塔RK-4積分時(shí)長(zhǎng)占其中的1.80 s。

圖14 計(jì)算實(shí)時(shí)性對(duì)比分析Fig.14 Comparison of computing time analysis

與之對(duì)比,在Monte Carlo仿真中,基于預(yù)測(cè)校正制導(dǎo)方法完成一次再入段飛行的平均時(shí)長(zhǎng)為38.69 s,其中縱向制導(dǎo)過程占其中的33.97 s,橫向制導(dǎo)過程占其中的4.56 s。這是因?yàn)樵诳v向制導(dǎo)中,對(duì)動(dòng)力學(xué)方程進(jìn)行積分的預(yù)測(cè)過程和基于割線法求解傾側(cè)角的校正過程計(jì)算量較大,占用的時(shí)間較長(zhǎng)。此外,基于“LSTM模型+SGDM算法”的制導(dǎo)方法與基于“LSTM模型+PPO算法”的制導(dǎo)方法耗時(shí)相當(dāng),這是由于訓(xùn)練算法雖然不一樣,但均是基于LSTM模型生成傾側(cè)角指令,這兩種制導(dǎo)方法中沒有“預(yù)測(cè)”環(huán)節(jié)和“積分”環(huán)節(jié),大大減少了計(jì)算量,提高了計(jì)算速度。因而,在實(shí)時(shí)性方面,基于LSTM模型的制導(dǎo)方法相比于傳統(tǒng)預(yù)測(cè)校正制導(dǎo)具有明顯的優(yōu)勢(shì)。

6 結(jié) 論

傳統(tǒng)基于標(biāo)稱軌跡制導(dǎo)和預(yù)測(cè)校正制導(dǎo)等方法普遍存在人工設(shè)置的飛行走廊的固有約束,為打破該約束條件的限制,本文將監(jiān)督學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于飛行器再入制導(dǎo)中:① 基于預(yù)測(cè)校正制導(dǎo)方法生成大量的飛行軌跡樣本;② 建 立傾側(cè)角智能制導(dǎo)模型,利用監(jiān)督學(xué)習(xí)中帶有動(dòng)量的隨機(jī)梯度下降算法訓(xùn)練傾側(cè)角智能制導(dǎo)模型;③ 在第2步基于監(jiān)督學(xué)習(xí)訓(xùn)練的傾側(cè)角智能制導(dǎo)模型的基礎(chǔ)上,利用強(qiáng)化學(xué)習(xí)在智能決策方面的優(yōu)勢(shì),在動(dòng)力學(xué)方程的約束下通過飛行器與環(huán)境進(jìn)行大量交互,并設(shè)置有效的獎(jiǎng)勵(lì),利用強(qiáng)化學(xué)習(xí)中PPO算法進(jìn)一步訓(xùn)練飛行器傾側(cè)角制導(dǎo)模型,顛覆現(xiàn)有制導(dǎo)方法中橫向走廊的約束,進(jìn)一步拓展飛行剖面,生成完全不同于傳統(tǒng)制導(dǎo)方法的飛行走廊,達(dá)到出敵不意的靈活飛行效果。強(qiáng)化學(xué)習(xí)技術(shù)通過飛行器與環(huán)境的大量交互“試錯(cuò)”,優(yōu)化飛行軌跡,其與制導(dǎo)控制技術(shù)的交叉融合是未來飛行器智能制導(dǎo)控制領(lǐng)域的熱門研究方向。

猜你喜歡
制導(dǎo)校正軌跡
再分析降水資料的適用性評(píng)估與偏差校正
淺談求軌跡方程中的增解與漏解
無從知曉
炫酷ACR
盾和彈之間的那點(diǎn)事(十三)
盾和彈之間的那點(diǎn)事(十)
盾和彈之間的那點(diǎn)事(九)
盾和彈之間的那點(diǎn)事(八)
一種具有自動(dòng)校正裝置的陶瓷切邊機(jī)
捕捉物體運(yùn)動(dòng)軌跡
永兴县| 边坝县| 南开区| 读书| 横峰县| 临夏市| 嵊州市| 双鸭山市| 隆德县| 开封县| 榆林市| 九江县| 奉节县| 洛扎县| 乌恰县| 汪清县| 麻城市| 万宁市| 礼泉县| 保德县| 利津县| 永城市| 武宁县| 阜阳市| 鹿邑县| 宜章县| 清远市| 林甸县| 巴彦县| 剑阁县| 新密市| 怀柔区| 溆浦县| 巨鹿县| 遵义市| 墨玉县| 大石桥市| 英山县| 乳山市| 蚌埠市| 闵行区|