国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)動(dòng)博弈制導(dǎo)律設(shè)計(jì)方法

2022-08-02 07:50朱雅萌張海瑞周國峰
航天控制 2022年3期
關(guān)鍵詞:制導(dǎo)機(jī)動(dòng)指令

朱雅萌 張海瑞 周國峰 梁 卓 呂 瑞

中國運(yùn)載火箭技術(shù)研究院,北京 100076

0 引 言

突防策略是決定高速機(jī)動(dòng)飛行器突防能力的關(guān)鍵因素[1]。目前常用的突防策略是大范圍機(jī)動(dòng),即在原有的飛行軌跡上疊加一個(gè)規(guī)律的周期性機(jī)動(dòng),包括螺旋機(jī)動(dòng)[2-3]、蛇形機(jī)動(dòng)[4-8]等。然而,現(xiàn)有的這些機(jī)動(dòng)方法是射前裝訂的,不能根據(jù)攔截方的情況調(diào)整自己機(jī)動(dòng)的時(shí)間和方向,導(dǎo)致適應(yīng)性不強(qiáng)。特別是,如果遭遇攔截方的時(shí)間早于機(jī)動(dòng)開始時(shí)間或處于機(jī)動(dòng)指令的波節(jié)處,就會(huì)極大地影響突防效果[6-8]。此外,高速機(jī)動(dòng)飛行器飛行過程中自身運(yùn)動(dòng)狀態(tài)也存在一定不確定性[9]。與此同時(shí),針對(duì)攔截方的探測(cè)手段是當(dāng)前熱門的研究方向,實(shí)時(shí)獲知攔截方的信息在將來會(huì)成為可能,為基于雙方信息的針對(duì)性突防策略提供了硬件基礎(chǔ)。

在針對(duì)性突防策略中,目前研究較多的是以微分對(duì)策為代表的理論方法。微分對(duì)策理論是將突防攔截問題看作兩點(diǎn)邊值的雙向極值問題,通過求解系統(tǒng)的黎卡提微分方程得到最優(yōu)策略。Singh等[10]、Garcia等[11-12]與Liang等[13]采用微分對(duì)策理論解決目標(biāo)-攻擊者-防御者的三方博弈問題。毛柏源等[14]將突防攔截問題轉(zhuǎn)換為兩方零和博弈問題,并推導(dǎo)了解析形式的捕獲區(qū)。魏鵬鑫等[15]基于線性二次型微分對(duì)策理論,解析推導(dǎo)了攻防雙方過載能力的關(guān)系。然而,微分對(duì)策理論目前多適用于線性系統(tǒng),否則黎卡提方程難以求得解析解。在實(shí)際的突防攔截問題中,動(dòng)力學(xué)過程使得系統(tǒng)十分復(fù)雜,全部進(jìn)行線性化處理會(huì)損失較大的擬真度。

人工智能技術(shù)的發(fā)展,使得借助智能算法解決突防攔截問題成為可能。智能算法主要分為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)2種算法。DNN是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng),適用于擬合非線性系統(tǒng)。而RL算法是一種無模型的機(jī)器學(xué)習(xí)方法,通過與環(huán)境交互自主尋找最優(yōu)策略,適用于離散空間的決策問題。吳其昌等[16-17]采用數(shù)值算法求解微分對(duì)策問題,并嘗試了利用DNN擬合同一問題并求解的可能。Rizvi等[18]采用輸出反饋的RL算法解決離散時(shí)間線性二次調(diào)節(jié)器問題。Odekunle等[19]將RL算法、微分博弈論和輸出反饋結(jié)合用于基于數(shù)據(jù)的控制器。

新興的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)算法將RL算法和DNN相結(jié)合,融合了二者的優(yōu)勢(shì)[20],使得智能體能夠在連續(xù)空間內(nèi)自主尋找最優(yōu)決策。突防攔截問題處于連續(xù)的狀態(tài)空間和動(dòng)作空間中,將DNN與RL算法結(jié)合能更切合地處理這類問題。譚浪等[21]基于深度確定性策略梯度算法DDPG設(shè)計(jì)了一種追逃博弈算法,但僅在小車上進(jìn)行了驗(yàn)證。

本文基于DRL算法提出了一種機(jī)動(dòng)博弈制導(dǎo)律,并以增大交會(huì)擺脫量為導(dǎo)向設(shè)計(jì)了回報(bào)函數(shù)。經(jīng)仿真分析得到,在遭遇高速機(jī)動(dòng)攔截方時(shí),該制導(dǎo)律使飛行器能夠根據(jù)信息實(shí)時(shí)自主決策,完成突防。與傳統(tǒng)的蛇形機(jī)動(dòng)相比,應(yīng)用該制導(dǎo)律的交會(huì)擺脫量顯著提升,且突防效果較穩(wěn)定。

1 突防制導(dǎo)問題描述

本文研究一對(duì)一的突防攔截問題,假設(shè)進(jìn)攻方在下壓點(diǎn)之前完成突防,雙方都為軸對(duì)稱無動(dòng)力飛行器,攔截方機(jī)動(dòng)能力強(qiáng)于進(jìn)攻方。將雙方視為質(zhì)點(diǎn),考慮地球自轉(zhuǎn)等因素,在三維空間中對(duì)仿真場(chǎng)景建立數(shù)學(xué)模型。

1.1 運(yùn)動(dòng)學(xué)模型

在三維笛卡爾坐標(biāo)系下建立模型,以A,D分別代表進(jìn)攻方和攔截方,突防攔截場(chǎng)景如圖1所示,相應(yīng)的運(yùn)動(dòng)學(xué)方程為:

圖1 突防攔截場(chǎng)景示意圖

(1)

式中,進(jìn)攻方和攔截方的運(yùn)動(dòng)速度分別為VA和VD,R表示雙方斜距,q表示視線角,φA和φD分別表示進(jìn)攻方和攔截方的前置角,λT表示雙方視線所在的縱平面與基準(zhǔn)坐標(biāo)系X軸的夾角,λD表示雙方視線與水平面的夾角。

1.2 動(dòng)力學(xué)模型

進(jìn)攻方和攔截方采用相同的動(dòng)力學(xué)模型。在發(fā)射慣性系下建立飛行器的三自由度動(dòng)力學(xué)模型如式(2)~(8)所示。

質(zhì)心運(yùn)動(dòng)動(dòng)力學(xué)方程:

(2)

附加方程:

(3)

(4)

(5)

(6)

(7)

h=r-R

(8)

式中:m表示飛行器質(zhì)量;t表示時(shí)間;x,y,z表示飛行器在發(fā)射慣性系下的位置;v表示飛行器的速度;AB表示飛行器箭體系到發(fā)射慣性系的坐標(biāo)轉(zhuǎn)換矩陣,CA,CN和CZ表示軸向、法向和側(cè)向的氣動(dòng)力系數(shù),q表示動(dòng)壓,Sm表示飛行器參考面積;r表示飛行器質(zhì)心的地心矢徑,ωe表示地球自轉(zhuǎn)角速度,gr,gωe分別表示重力加速度g在r,ωe方向上的分量;R0表示發(fā)射點(diǎn)的地心矢徑;φ表示飛行器的地心緯度,ae和be分別表示地球橢圓模型的長半軸和短半軸;R表示飛行器下方地面到地心的距離,h表示飛行器的飛行高度。

1.3 雙方制導(dǎo)律

1.3.1 攔截方制導(dǎo)律

攔截方采用針對(duì)進(jìn)攻方的比例導(dǎo)引律,在視線系中可以表示為:

(9)

式中,NcS表示攔截方在視線系的需用過載;vc表示相對(duì)速度大??;λD和λT分別為高低角和方位角;GSL表示地球表面重力加速度,取值為 9.80665m/s2。

將需用過載和重力加速度轉(zhuǎn)換到箭體系后相減以獲得角度指令。由于攔截方做無動(dòng)力飛行,可使用的過載垂直于箭身,因而X軸方向的過載不用于生成箭身姿態(tài)角度指令。過載轉(zhuǎn)換及角度指令計(jì)算公式可以表示為

(10)

αCX=f(NcBy)

(11)

βCX=f(NcBz)

(12)

式中,NcB表示攔截方在箭體系的需用過載,g表示慣性系下質(zhì)心處重力加速度,SB和AB分別為視線系和慣性系到箭體系的坐標(biāo)轉(zhuǎn)換矩陣,αCX和βCX分別表示指令攻角和指令側(cè)滑角,f表示將過載轉(zhuǎn)換為指令角的公式。

1.3.2 進(jìn)攻方制導(dǎo)律

在不機(jī)動(dòng)的情況下,進(jìn)攻方處于平飛狀態(tài),其制導(dǎo)律在本文稱為平飛基礎(chǔ)制導(dǎo)律。此時(shí),進(jìn)攻方在視線系下的需用過載指令近似為常值,可以表示為:

(13)

式中,KM1和KM2為常數(shù)。

基于DRL算法的機(jī)動(dòng)博弈制導(dǎo)律則是采用DRL方法來擬合進(jìn)攻方的制導(dǎo)指令,根據(jù)進(jìn)攻方和攔截方的位置和速度實(shí)時(shí)算得基準(zhǔn)坐標(biāo)系內(nèi)的需用過載,可以表示為:

NcT=h(x,y,z,vx,vy,vz)

(14)

式中,NcT表示基準(zhǔn)坐標(biāo)系的需用過載,x,y,z,vx,vy,vz為雙方的位置和速度,h表示DRL方法所擬合的制導(dǎo)規(guī)律。

進(jìn)攻方角度指令的生成方式與攔截方相同,也是將需用過載轉(zhuǎn)換到箭體系后舍棄X軸分量,分別用Y軸和Z軸分量生成攻角指令和側(cè)滑角指令。

2 基于深度強(qiáng)化學(xué)習(xí)的機(jī)動(dòng)博弈制導(dǎo)律設(shè)計(jì)

2.1 深度強(qiáng)化學(xué)習(xí)

DRL算法是一類通過與環(huán)境交互自主尋找最優(yōu)決策的算法,其交互過程示意圖如圖2所示。

圖2 DRL算法交互過程示意圖

DRL算法的交互過程可以用馬爾科夫決策過程(Markov Decision Process, MDP)來表示。MDP包含5個(gè)要素[S,A,p,r,γ],其中S表示狀態(tài)空間,即智能體做出決策的依據(jù)信息;A表示動(dòng)作空間,即智能體可以做出的決策范圍;p表示狀態(tài)轉(zhuǎn)移概率,即在當(dāng)前狀態(tài)采取某一動(dòng)作的情況下,下一時(shí)刻系統(tǒng)變?yōu)槟骋粻顟B(tài)的概率;r表示回報(bào)函數(shù),用于計(jì)算一次交互所產(chǎn)生的回報(bào);γ表示折扣因子,以γ為參數(shù)對(duì)r加權(quán)累積,得到交互一個(gè)完整回合獲得的總回報(bào)。DRL算法的學(xué)習(xí)過程就是通過改變?cè)谔囟顟B(tài)下選取不同動(dòng)作的概率,以得到一種最優(yōu)策略,使得一個(gè)完整回合所獲得的總回報(bào)最大。

本文采用的是一種基于“行動(dòng)者-評(píng)論者”(Actor-Critic, AC)框架的深度強(qiáng)化學(xué)習(xí)算法。AC框架包含2個(gè)DNN,分別擬合在傳統(tǒng)RL算法中的策略函數(shù)(Actor網(wǎng)絡(luò))和值函數(shù)(Critic網(wǎng)絡(luò))。在與環(huán)境交互的過程中,智能體首先根據(jù)當(dāng)前的狀態(tài)和回報(bào),更新Critic網(wǎng)絡(luò);再根據(jù)狀態(tài)和Critic網(wǎng)絡(luò)擬合的近似值函數(shù),更新Actor網(wǎng)絡(luò),產(chǎn)生新的策略函數(shù)。最終,Actor網(wǎng)絡(luò)的輸出即為待求的策略。AC框架的計(jì)算流程如圖3所示,相關(guān)表達(dá)式如式(15)~(19)所示。

圖3 AC框架的計(jì)算流程圖

算法的目標(biāo)函數(shù):

(15)

Actor網(wǎng)絡(luò)的策略梯度:

(16)

Critic網(wǎng)絡(luò)近似的值函數(shù):

Qω(s,a)≈Qπ(s,a)

(17)

根據(jù)Critic網(wǎng)絡(luò)近似的值函數(shù)計(jì)算策略梯度:

(18)

更新Actor網(wǎng)絡(luò)的參數(shù):

(19)

式中:J表示算法的目標(biāo)函數(shù);π表示Actor網(wǎng)絡(luò)輸出的策略,θ表示Actor網(wǎng)絡(luò)的參數(shù);Eπ{·}表示在策略π下的期望;dπ表示在策略π下的狀態(tài)分布;Qπ表示系統(tǒng)在策略π下的值函數(shù);s,a分別表示系統(tǒng)的狀態(tài)和智能體采取的動(dòng)作,S,A分別表示系統(tǒng)的狀態(tài)空間和動(dòng)作空間;Qω表示Critic網(wǎng)絡(luò)擬合的值函數(shù),ω表示Critic網(wǎng)絡(luò)的參數(shù);ε表示參數(shù)更新的學(xué)習(xí)率。

經(jīng)過AC框架的計(jì)算,算法最終得到的策略具有如下形式:

Y=tanh(B3+(W23)T·tanh(B2+(W12)T·
tanh(B1+(W01)T·X)))

(20)

式中,X,Y分別表示輸入的狀態(tài)和輸出的動(dòng)作;tanh為雙曲正切函數(shù);Wij和Bj分別為權(quán)重矩陣和偏置矢量,即為前述Actor網(wǎng)絡(luò)的參數(shù)θ,其中i,j為Actor網(wǎng)絡(luò)的層數(shù)序號(hào)。

2.2 馬爾科夫決策過程設(shè)計(jì)

采用DRL方法研究突防制導(dǎo)問題,需要將問題轉(zhuǎn)換為MDP形式。MDP的設(shè)計(jì)至關(guān)重要,直接影響DRL算法的最終效果。

2.2.1 狀態(tài)空間S

狀態(tài)是DRL算法產(chǎn)生決策的依據(jù),也是AC框架中兩個(gè)DNN的輸入。狀態(tài)空間應(yīng)當(dāng)全面、合理地反映出所交互的環(huán)境信息,避免不必要的信息干擾。本文為了避免先驗(yàn)知識(shí)的干擾,沒有選用傳統(tǒng)導(dǎo)引律所依據(jù)的角度信息,而是選用了突防攔截雙方原始的位置和速度作為狀態(tài)。

S:〈x,y,z,vx,vy,vz〉

(21)

2.2.2 動(dòng)作空間A

DRL算法作為決策的控制量稱為動(dòng)作,其取值范圍由動(dòng)作空間表示。本文選用在基準(zhǔn)坐標(biāo)系中的需用過載作為動(dòng)作。

A:〈NCx,NCy,NCz〉

(22)

當(dāng)需用過載輸出到環(huán)境(仿真程序)中以后,通過式(10)轉(zhuǎn)換到箭體系并舍棄X軸方向的分量,再通過式(11)~(12)求得角度指令。

2.2.3 狀態(tài)轉(zhuǎn)移概率p

狀態(tài)轉(zhuǎn)移概率p表征了環(huán)境的交互規(guī)則,在突防攔截問題中主要為雙方軌跡積分所用的動(dòng)力學(xué)規(guī)律。在本文選用的DRL方法中,狀態(tài)轉(zhuǎn)移概率p不通過解析表達(dá)式給出,而是包含在Critic網(wǎng)絡(luò)所擬合的關(guān)系中,在交互過程中自行更新。

2.2.4 回報(bào)函數(shù)r和折扣因子γ

回報(bào)函數(shù)應(yīng)當(dāng)設(shè)計(jì)得形式簡單,易于使算法獲得優(yōu)化的方向。本文將回報(bào)函數(shù)設(shè)計(jì)為2部分之和:1)過程回報(bào),每步都有值;2)終點(diǎn)回報(bào),只在回合的最后一拍才有值。為了避免先驗(yàn)知識(shí)的干擾,本文只選用雙方斜距構(gòu)建回報(bào)函數(shù),最后一拍的雙方斜距就是交會(huì)擺脫量,也就是算法最優(yōu)化的目標(biāo)。

本文將過程回報(bào)rt設(shè)置為當(dāng)前的雙方斜距dt與前一刻的雙方斜距dt-1之差,如式(23)所示。將終點(diǎn)狀態(tài)分為“被攔截”和“成功突防”兩類,將終點(diǎn)回報(bào)rend設(shè)置為擺脫量dend與常系數(shù)k1的積再加上偏置常數(shù)k,其中2類結(jié)果對(duì)應(yīng)的偏置常數(shù)取值分別為k2和k3,如式(24)所示。這樣設(shè)置使得不同結(jié)果獲得的總回報(bào)有區(qū)分度,便于導(dǎo)向期望的結(jié)果。

rt=dt-dt-1

(23)

(24)

而折扣因子γ用于對(duì)回報(bào)函數(shù)加權(quán)累積以得到一個(gè)回合的總回報(bào),進(jìn)而計(jì)算策略梯度。折扣因子γ的取值范圍為[0,1],用于調(diào)整距離初始步較遠(yuǎn)的回報(bào)的重要程度。由于本文關(guān)心的是最終的交會(huì)擺脫量,而不關(guān)心每一步的雙方斜距,因而將折扣因子γ設(shè)置為1。

最終得到每個(gè)回合的總回報(bào)R如下:

(25)

式中,Tn表示該回合的總交互步數(shù)。

可以看出,算法的總回報(bào)就是最終的交會(huì)擺脫量與初始雙方斜距的線性和。這樣設(shè)置使得算法每次交互都可以獲得與最終目標(biāo)相關(guān)的量,便于系統(tǒng)規(guī)律的擬合,同時(shí)避免了將路徑計(jì)入優(yōu)化的目標(biāo)。

2.3 基于DRL算法的機(jī)動(dòng)博弈制導(dǎo)律訓(xùn)練過程

基于DRL算法的機(jī)動(dòng)博弈制導(dǎo)律交互過程如圖4所示。圖中,轉(zhuǎn)換過程是指1.3.1中所述將需用過載和重力加速度統(tǒng)一轉(zhuǎn)換到箭體系后相減。

圖4 基于DRL算法的機(jī)動(dòng)博弈制導(dǎo)律交互過程

軌跡平均獎(jiǎng)勵(lì)值曲線如圖5??梢钥闯鲭S著交互步數(shù)的增加,平均獎(jiǎng)勵(lì)值曲線逐漸上升,最終穩(wěn)定在了一個(gè)較高值,表明收斂到了一個(gè)較優(yōu)的解。

圖5 軌跡平均獎(jiǎng)勵(lì)

算法直接輸出的需用過載曲線如圖6所示。

圖6 需用過載曲線

3 仿真校驗(yàn)

3.1 實(shí)驗(yàn)描述

本節(jié)對(duì)三維空間內(nèi)的一對(duì)一突防場(chǎng)景進(jìn)行了仿真模擬,假設(shè)進(jìn)攻方在下壓點(diǎn)之前完成突防,所選用的進(jìn)攻方和攔截方均為軸對(duì)稱無動(dòng)力飛行器,攔截方機(jī)動(dòng)能力強(qiáng)于進(jìn)攻方。由于目前部分反導(dǎo)攔截器采用破片殺傷戰(zhàn)斗部[22-23],毀傷半徑大于動(dòng)能攔截器,故將雙方斜距小于20m視為突防失敗。作為對(duì)照,添加了不同相位的蛇形機(jī)動(dòng)仿真,以模擬傳統(tǒng)蛇形機(jī)動(dòng)在不同的攔截方遭遇時(shí)間下的表現(xiàn)。相關(guān)設(shè)置如表1所示。

表1 仿真實(shí)驗(yàn)相關(guān)設(shè)置

其中,蛇形機(jī)動(dòng)的制導(dǎo)指令生成方式為:在無機(jī)動(dòng)制導(dǎo)指令的基礎(chǔ)上,側(cè)向疊加一個(gè)以正弦規(guī)律變化的過載指令。疊加正弦指令后的視線系過載如式(26)所示。

(26)

式中,所選指令相位φ為+π/4,-π/3.5,分別為仿真得到的使交會(huì)擺脫量相對(duì)較大和較小的指令相位。

3.2 實(shí)驗(yàn)結(jié)果與分析

圖7(a)~(d)分別為無機(jī)動(dòng)、2個(gè)相位的蛇形機(jī)動(dòng)和采用DRL制導(dǎo)律機(jī)動(dòng)的指令角度曲線圖。圖8(a)~(d)分別為4種機(jī)動(dòng)下的突防軌跡圖。表2列出了4種機(jī)動(dòng)下的交會(huì)擺脫量和突防增加時(shí)間。

表2 交會(huì)擺脫量與突防增加時(shí)間對(duì)比

由圖7(d)和圖8(d)可以看出,由DRL算法得到的突防策略是根據(jù)攔截方的位置和速度方向以最大過載向某一方向進(jìn)行機(jī)動(dòng)。

圖8 突防軌跡圖

由圖7~8和表2可以看出,蛇形機(jī)動(dòng)的交會(huì)擺脫量受機(jī)動(dòng)指令相位影響較大,指令相位為-π/3.5

圖7 指令角度曲線圖

時(shí)會(huì)導(dǎo)致突防失敗,而DRL制導(dǎo)律機(jī)動(dòng)則不存在相位問題,突防效果較穩(wěn)定。由表2可以看出,相較于蛇形機(jī)動(dòng)表現(xiàn)較好的情況,DRL制導(dǎo)律機(jī)動(dòng)的交會(huì)擺脫量有顯著提升。

由表2還可以看出,DRL制導(dǎo)律機(jī)動(dòng)突防所用的時(shí)間比蛇形機(jī)動(dòng)略長。因?yàn)檩^大機(jī)動(dòng)量的飛行軌跡較長,所以在速度接近的情況下,用時(shí)會(huì)較長。

在突防完成后,將采用DRL制導(dǎo)律機(jī)動(dòng)的進(jìn)攻方的制導(dǎo)律切換回平飛基礎(chǔ)制導(dǎo)律,繼續(xù)完成進(jìn)攻軌跡,得到在擊中目標(biāo)點(diǎn)處的落速損失約為14.5%,尚在可以接受的范圍內(nèi)。因而,在只進(jìn)行一次突防機(jī)動(dòng)的情況下,DRL制導(dǎo)律機(jī)動(dòng)不會(huì)對(duì)后續(xù)打擊任務(wù)產(chǎn)生太大影響。

4 結(jié)論

提出了一種基于DRL算法的機(jī)動(dòng)博弈制導(dǎo)律。在能獲取攔截方位置和速度信息的情況下,該機(jī)動(dòng)博弈制導(dǎo)律能夠根據(jù)信息自主決策,產(chǎn)生合適的制導(dǎo)指令完成突防。經(jīng)仿真驗(yàn)證表明,相較蛇形機(jī)動(dòng)而言,該機(jī)動(dòng)博弈制導(dǎo)律能夠顯著提升交會(huì)擺脫量,且突防效果較穩(wěn)定。

猜你喜歡
制導(dǎo)機(jī)動(dòng)指令
一樣,不一樣
What Are the Different Types of Robots?
《單一形狀固定循環(huán)指令G90車外圓仿真》教案設(shè)計(jì)
新機(jī)研制中總裝裝配指令策劃研究
機(jī)動(dòng)三輪車的昨天、今天和明天
盾和彈之間的那點(diǎn)事(十三)
盾和彈之間的那點(diǎn)事(十)
盾和彈之間的那點(diǎn)事(九)
盾和彈之間的那點(diǎn)事(八)
海軍航母編隊(duì)啟航執(zhí)行機(jī)動(dòng)訓(xùn)練任務(wù)