基于PPO算法的無人機(jī)近距空戰(zhàn)自主引導(dǎo)方法

2023-02-13 03:45趙寶奇劉仲凱

電光與控制 2023年1期

邱妍，趙寶奇，鄒杰，劉仲凱

(1.光電控制技術(shù)重點實驗室，河南洛陽 471000； 2.中國航空工業(yè)集團(tuán)公司洛陽電光設(shè)備研究所，河南洛陽 471000；3.空裝駐洛陽地區(qū)第二軍事代表室，河南洛陽 471000)

0 引言

在近距空戰(zhàn)中，戰(zhàn)場環(huán)境復(fù)雜多變，機(jī)動決策存在高度實時性和不確定性，這些現(xiàn)象分散了飛行員做出關(guān)鍵決策的注意力，可能導(dǎo)致飛行員無法做出正確機(jī)動。相比于有人機(jī)，無人機(jī)具有尺寸小、隱身性能好、制造成本低、可以在危險環(huán)境下作戰(zhàn)等優(yōu)點，因此，裝備自主空戰(zhàn)決策系統(tǒng)的無人機(jī)將逐漸登上空戰(zhàn)的“舞臺”。

國內(nèi)外學(xué)者對智能空戰(zhàn)決策方法已進(jìn)行了一定的研究。文獻(xiàn)[1]建立了無人機(jī)六自由度的簡化模型，采用微分對策法對無人機(jī)的追逃模型進(jìn)行了研究；文獻(xiàn)[2]提出了隨機(jī)機(jī)動決策模型和基于影響圖博弈的機(jī)動決策模型，給出了模型的求解方案，驗證了影響圖博弈法可用于解決一對一空戰(zhàn)機(jī)動決策的問題，但微分對策、影響圖博弈等博弈論方法難以解析求解且無法適用于復(fù)雜空戰(zhàn)環(huán)境；文獻(xiàn)[3]采用變權(quán)重自適應(yīng)并行遺傳算法并結(jié)合滾動時域的思想將空戰(zhàn)過程分時段離散化，小規(guī)模地求解最優(yōu)值，解決了敵我雙機(jī)空戰(zhàn)的問題；文獻(xiàn)[4]對近似動態(tài)規(guī)劃算法進(jìn)行改進(jìn)，提出了懲罰因子，解決了一對一空戰(zhàn)中自主攻擊占位問題。但遺傳算法、動態(tài)規(guī)劃等優(yōu)化理論方法不具有仿真實時性。文獻(xiàn)[5]采用滾動時域與專家系統(tǒng)結(jié)合的方法，保證了在專家系統(tǒng)方法失效的情況下我機(jī)仍能快速做出機(jī)動決策，但專家系統(tǒng)依賴于飛行員提供的空戰(zhàn)經(jīng)驗，難以訓(xùn)練出決策能力超越飛行員的模型，因此，很難解決態(tài)勢變化劇烈的近距格斗問題，由于深度強化學(xué)習(xí)不需要依靠飛行員空戰(zhàn)經(jīng)驗以及大量的態(tài)勢數(shù)據(jù)支撐，因此該方法被越來越多地應(yīng)用于智能空戰(zhàn)項目；文獻(xiàn)[6]使用深度確定性策略梯度(DDPG)算法實現(xiàn)了二維空間下無人機(jī)在不同初始狀態(tài)下向固定目標(biāo)點的自主飛行；文獻(xiàn)[7]基于深度Q學(xué)習(xí)(DQN)算法構(gòu)建了無人機(jī)近距空戰(zhàn)的機(jī)動決策模型，將訓(xùn)練過程分為基礎(chǔ)訓(xùn)練和對抗訓(xùn)練，此方法提高了模型訓(xùn)練的速度；文獻(xiàn)[8]結(jié)合了長短時記憶(LSTM)網(wǎng)絡(luò)和基于競爭網(wǎng)絡(luò)的深度強化學(xué)習(xí)(Dueling DQN)算法，加強了智能體的記憶功能，加快了智能體的收斂速度，實現(xiàn)了無人機(jī)一對一的對抗；文獻(xiàn)[9]提出了獎勵重塑PPO算法，將飛行器從任一點引導(dǎo)至移動目標(biāo)位置。

本文以無人機(jī)近距空戰(zhàn)為背景，采用標(biāo)準(zhǔn)PPO算法和改進(jìn)PPO算法構(gòu)建無人機(jī)自主引導(dǎo)模型，并設(shè)計合理的獎勵函數(shù)，仿真實現(xiàn)了地球坐標(biāo)系下無人機(jī)向機(jī)動目標(biāo)區(qū)域的引導(dǎo)，驗證了本文所提的改進(jìn)PPO算法解決近距空戰(zhàn)中無人機(jī)自主引導(dǎo)問題的可行性。

1 無人機(jī)機(jī)動模型建立

1.1 坐標(biāo)系及其轉(zhuǎn)換關(guān)系

本文建立了3個坐標(biāo)系，分別為地球坐標(biāo)系Oexeyeze、地理坐標(biāo)系Ogxgygzg和速度坐標(biāo)系Ovxvyvzv。其中：地球坐標(biāo)系用來求解無人機(jī)的運動方程；速度坐標(biāo)系用來構(gòu)建深度強化學(xué)習(xí)中的狀態(tài)和動作；地理坐標(biāo)系則是二者之間的轉(zhuǎn)換途徑。

地球坐標(biāo)系原點Oe在地心，Oexe軸指向北極，Oeye軸指向北緯0°東經(jīng)0°，Oeze軸按右手定則確定；地理坐標(biāo)系原點Og在無人機(jī)處，Ogxg軸指向北極，Ogyg軸指向天，Ogzg軸指向東，地理坐標(biāo)系由地球坐標(biāo)系按照X-Z-Y旋轉(zhuǎn)L-(-B)-0得到，其中，L和B分別為無人機(jī)的經(jīng)度和緯度，地球坐標(biāo)系到地理坐標(biāo)系的轉(zhuǎn)換矩陣記為Tg,e；速度坐標(biāo)系原點Ov在無人機(jī)處，Ovzv軸指向無人機(jī)速度矢量VvU的方向，速度坐標(biāo)系的3個坐標(biāo)軸由地理坐標(biāo)系Ogxgygzg按照Y-X-Z方式旋轉(zhuǎn)φ-(-θ)-0得到，其中，φ為Ogzg軸到速度矢量VvU在Ogxgzg平面上的投影的角度，即速度偏轉(zhuǎn)角，而θ為該投影到速度矢量VvU的角度，即速度傾斜角，地理坐標(biāo)系到速度坐標(biāo)系的轉(zhuǎn)換矩陣記為Tv,g。

1.2 無人機(jī)的運動模型

本文研究重點是無人機(jī)的機(jī)動決策方式，可以忽略無人機(jī)姿態(tài)的變化，因此構(gòu)建無人機(jī)三自由度運動模型。

圖1所示為速度坐標(biāo)系下敵我雙方的相對狀態(tài)。

圖1 速度坐標(biāo)系下敵我雙方相對狀態(tài)Fig.1 Relative state of two sides in the velocity coordinate system

如圖 1所示，無人機(jī)的控制指令a=[φ,ny,nz]T，其中，φ為滾轉(zhuǎn)角，即無人機(jī)機(jī)翼與Ovxv軸的夾角，ny為法向過載，垂直于機(jī)背方向，nz為切向過載，沿著速度方向。在速度坐標(biāo)系下，控制指令a產(chǎn)生的加速度矢量坐標(biāo)av與控制指令的關(guān)系為

av=[-gnysinφ,gnycosφ,gnz]T

(1)

無人機(jī)在地球坐標(biāo)系下的運動方程為

(2)

1.3 雙機(jī)相對態(tài)勢模型

在空戰(zhàn)決策過程中，需要知道敵我雙方的相對態(tài)勢，圖1則表示了速度坐標(biāo)系下敵我雙方相對位置、速度及角度關(guān)系，其中，VvU，VvT分別為無人機(jī)和目標(biāo)的速度矢量，PvTU為目標(biāo)相對無人機(jī)的位置矢量，φU為無人機(jī)的方位角，即無人機(jī)速度VvU與相對位置PvTU的夾角，qT為目標(biāo)的進(jìn)入角，即目標(biāo)速度VvT與相對位置PvTU的夾角。另外，記VvTU為目標(biāo)相對無人機(jī)的速度矢量。

PvTU，VvTU，φU，qT的表達(dá)式分別為

PvTU=PvT-PvU

(3)

VvTU=VvT-VvU

(4)

(5)

(6)

式中:PvU，PvT分別為無人機(jī)和目標(biāo)在速度坐標(biāo)系下的位置矢量；|PvTU|，|VvU|，|VvT|分別為矢量PvTU，VvU，VvT的模長。

2 PPO算法介紹

2.1 基本概念

令S為決策的輸入，稱作狀態(tài)，令A(yù)為決策的輸出，稱作動作。通過與環(huán)境互動，在t=0時刻的狀態(tài)S0上采取動作A0，會生成下一個狀態(tài)S1，同時獲得單步獎勵r0，通過不斷與環(huán)境交互，生成的狀態(tài)和動作可形成如下的序列，稱作軌道，記作τ，即

τ={S0,A0,r0,S1,A1,r1,…,St,At,rt,…}。

記Gt為軌道τ的累積回報，其表達(dá)式為

(7)

式中，γ為折扣因子，表示越往后的獎勵對當(dāng)前時刻的Gt所產(chǎn)生的影響越小。

從狀態(tài)S出發(fā)的所有軌道累積回報的期望稱作狀態(tài)S的價值，記作V(S)，即

V(S)=E[Gt|St=S]=E[rt+γrt+1+…|St=S]=
E[rt+γGt+1|St=S]

(8)

由式(8)可得前后兩個狀態(tài)的價值有如下的關(guān)系，稱作貝爾曼方程，即

V(St)=rt+γV(St+1)。

(9)

2.2 Critic網(wǎng)絡(luò)

在實際應(yīng)用中，通過式(8)計算價值V(S)是不現(xiàn)實的，通常構(gòu)建一個狀態(tài)S和價值V(S)之間的神經(jīng)網(wǎng)絡(luò)，稱作Critic網(wǎng)絡(luò)，用于對價值V(S)進(jìn)行預(yù)測，將預(yù)測價值記為Vpred(S)。

而在強化學(xué)習(xí)中，價值的“真實值”即樣本值，是通過與環(huán)境互動后遞推計算出來的。設(shè)τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}為一段長度為T的軌道片段，將此片段上的最后一個狀態(tài)ST-1輸入Critic網(wǎng)絡(luò)獲得預(yù)測價值Vpred(ST-1)，可根據(jù)

(10)

遞推出該片段上每個狀態(tài)的價值。

圖2所示為全連接Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)。

圖2 全連接Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)

如圖2所示，Critic網(wǎng)絡(luò)的構(gòu)建方式為

(11)

式中：li為第i層神經(jīng)網(wǎng)絡(luò)的輸出矢量；FC表示網(wǎng)絡(luò)的連接方式為全連接(Fully Connected)；Nli為第i層網(wǎng)絡(luò)的節(jié)點數(shù)；ReLU為激活函數(shù)；n為該Critic網(wǎng)絡(luò)的層數(shù)。

Critic網(wǎng)絡(luò)的訓(xùn)練方向就是讓預(yù)測值Vpred(S)盡量接近樣本值Vsamp(S)，因此其損失函數(shù)定義為

(12)

2.3 Actor網(wǎng)絡(luò)

狀態(tài)S和動作A之間也構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)，稱作Actor網(wǎng)絡(luò)，該網(wǎng)絡(luò)輸出一個概率分布，稱作策略π，然后依照π進(jìn)行隨機(jī)采樣，生成A。本文中的策略采用多元正態(tài)分布，并假設(shè)各元之間獨立，記μ和σ分別為π的均值向量和標(biāo)準(zhǔn)差向量。而A的生成方式為A～π(S)=Ν(μ,σ2)，即A服從正態(tài)分布。

如圖2所示，Actor網(wǎng)絡(luò)的構(gòu)建方式為

(13)

Actor網(wǎng)絡(luò)的訓(xùn)練方向就是使得狀態(tài)價值V(S)盡可能增大，則Actor網(wǎng)絡(luò)的損失函數(shù)可定義為

LA=-V(St)=-E[Gτ|S=S0]。

(14)

在實際應(yīng)用中，使用了近似表達(dá)式，若從S0出發(fā)，按照策略不斷生成動作，得到如下的軌道片段τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}，則損失函數(shù)為

(15)

另外，為了避免因某些動作未被采樣而導(dǎo)致的該動作概率下降的情況出現(xiàn)，對Actor網(wǎng)絡(luò)的損失函數(shù)做一些改進(jìn)，即

(16)

記FAdv=Vsamp(St)-Vpred(St)，稱作優(yōu)勢函數(shù)。

2.4 標(biāo)準(zhǔn)PPO算法

PPO算法訓(xùn)練上述兩個網(wǎng)絡(luò)時采用的優(yōu)化器是AdaDelta，相比于傳統(tǒng)的梯度下降方法，該優(yōu)化器能夠自適應(yīng)地調(diào)節(jié)學(xué)習(xí)率。兩個網(wǎng)絡(luò)的目標(biāo)函數(shù)LC和LA分別代表各自的損失函數(shù)。

Actor網(wǎng)絡(luò)訓(xùn)練過程中通過與環(huán)境互動采樣生成一條軌道片段(即樣本)，計算損失函數(shù)，更新網(wǎng)絡(luò)參數(shù)，再按照新的網(wǎng)絡(luò)參數(shù)重復(fù)如上步驟，完成網(wǎng)絡(luò)訓(xùn)練?？梢?，網(wǎng)絡(luò)采集的樣本只能使用一次。為了重復(fù)利用這些樣本，采用重要性采樣的方法，引入策略πold和πnew，πold用來采樣，采集的樣本用來訓(xùn)練πnew，結(jié)合重要性采樣方法后的Actor網(wǎng)絡(luò)的損失函數(shù)LA可表示為

(17)

為了保證決策過程平穩(wěn)進(jìn)行，網(wǎng)絡(luò)更新前后的策略πold和πnew不能相差太大，因此需要對策略πnew做一些限幅處理，此算法稱作近端策略優(yōu)化，即PPO算法[10]。

PPO算法中策略限幅的方法為

(18)

式中，ε決定限幅的程度，一般取值為0.2。

2.5 改進(jìn)PPO算法

標(biāo)準(zhǔn)的PPO算法采用全連接神經(jīng)網(wǎng)絡(luò)，隨著網(wǎng)絡(luò)規(guī)模的增大，訓(xùn)練時極易發(fā)生梯度爆炸和梯度消失的情況，導(dǎo)致訓(xùn)練崩潰或無效。另外，全連接神經(jīng)網(wǎng)絡(luò)只能處理單個時間點上的輸入，前后兩個時間點上的輸入是完全沒有關(guān)系的，如圖3所示，但是在空戰(zhàn)中，態(tài)勢數(shù)據(jù)有強烈的時序相關(guān)性。

圖3 標(biāo)準(zhǔn)PPO算法下的Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Critic/Actor network structure based onstandard PPO algorithm

文獻(xiàn)[11]提出的長短時記憶(LSTM)網(wǎng)絡(luò)可以解決梯度爆炸和梯度消失的現(xiàn)象，而且對于處理這種與時間序列高度相關(guān)的任務(wù)十分有效。LSTM由一個輸入門、一個遺忘門和一個輸出門組成，如圖4所示。

圖4 LSTM的基本結(jié)構(gòu)Fig.4 Basic structure of LSTM

圖4中，xt為當(dāng)前時刻的輸入，ct-1,ht-1分別為上一時刻的細(xì)胞狀態(tài)和輸出，ct，ht分別代表當(dāng)前時刻的細(xì)胞狀態(tài)和輸出，sig為Sigmoid激活函數(shù)，tanh為tanh激活函數(shù)。特殊的門結(jié)構(gòu)使其輸出不僅與當(dāng)前時刻的輸入和上一時刻的輸出有關(guān)，還與上一時刻的細(xì)胞狀態(tài)有關(guān)。

本文將Critic和Actor網(wǎng)絡(luò)的全連接神經(jīng)網(wǎng)絡(luò)替換成LSTM神經(jīng)網(wǎng)絡(luò)，改進(jìn)后的Critic和Actor網(wǎng)絡(luò)如圖5所示，橫向按照空間維度展開，n代表LSTM的隱藏層數(shù)，縱向按照時間維度展開。

圖5 改進(jìn)PPO算法下的Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Critic/Actor network structure based on the improved PPO algorithm

3 無人機(jī)自主引導(dǎo)模型建立

3.1 狀態(tài)和動作

在本文中，狀態(tài)S為速度坐標(biāo)系下敵我雙方當(dāng)前時刻位置、速度、角度等相對態(tài)勢，其表達(dá)式為

S=[PvTU,VvTU,φU,qT]T

(19)

狀態(tài)S包含8個變量。

動作A為滾轉(zhuǎn)角、法向過載、切向過載3個控制指令，即

A=a=[φ，ny，nz]T

(20)

動作A包含3個變量。

3.2 下一時刻狀態(tài)

在地球坐標(biāo)系下，利用式(2)求解無人機(jī)的運動方程，計算出無人機(jī)下一時刻位置P′eU和速度V′eU，采用勻速直線運動公式求解目標(biāo)下一時刻位置P′eT和速度VP′eT。同時計算無人機(jī)的經(jīng)緯度，即L，B，以及地球坐標(biāo)系下目標(biāo)下一時刻相對無人機(jī)的位置P′eTU和速度V′eTU。

通過坐標(biāo)系轉(zhuǎn)換，將P′eU，V′eU，P′eT，VP′eT，P′eTU，V′eTU投影到速度坐標(biāo)系上，并利用式(5)、式(6)計算出下一時刻的φ′U，q′U，獲得下一時刻的狀態(tài)S′。

3.3 獎勵函數(shù)

1) 距離獎勵函數(shù)。

為使無人機(jī)盡快靠近目標(biāo)，應(yīng)使下一時刻的敵我距離小于當(dāng)前時刻的距離，則設(shè)置距離獎勵為

(21)

式中：vmax為本機(jī)最大速度；vmaxΔt用于將距離獎勵歸一化。

2) 速度獎勵函數(shù)。

為使無人機(jī)盡快到達(dá)目標(biāo)區(qū)域，目標(biāo)相對無人機(jī)速度在目標(biāo)相對位置矢量上的投影應(yīng)當(dāng)盡可能為負(fù)值，則設(shè)置速度獎勵為

(22)

vmax用于將速度獎勵歸一化。

3)角度獎勵函數(shù)。

引導(dǎo)過程中，當(dāng)無人機(jī)的方位角φU及目標(biāo)的進(jìn)入角qT趨近于0°時，無人機(jī)在目標(biāo)尾后，無人機(jī)處于優(yōu)勢，當(dāng)無人機(jī)的方位角φU趨近于180°時，無人機(jī)與目標(biāo)背向飛行或在目標(biāo)尾后，此時無人機(jī)處于劣勢，設(shè)置角度獎勵為

(23)

4) 任務(wù)約束獎勵函數(shù)。

當(dāng)敵我距離小于完成任務(wù)的最小距離dmin時，引導(dǎo)成功，獲得正獎勵，而當(dāng)敵我距離超出空戰(zhàn)范圍dmax時，引導(dǎo)失敗，獲得負(fù)獎勵，則設(shè)置任務(wù)約束獎勵為

(24)

5) 綜合單步獎勵。

綜上，本文建立的訓(xùn)練模型總獎勵函數(shù)為各個獎勵函數(shù)的加權(quán)和，即

r=ω1r1+ω2r2+ω3r3+r4

(25)

式中，ω1，ω2，ω3分別為距離、速度、角度獎勵函數(shù)的權(quán)重，ω1+ω2+ω3=1?？紤]到不同態(tài)勢下幾種因素產(chǎn)生的影響不同，應(yīng)合理地分配各個權(quán)重，當(dāng)敵我距離較大時，我機(jī)應(yīng)適量提高速度、縮短距離以接近敵機(jī)，此時應(yīng)增大距離權(quán)重ω1和速度權(quán)重ω2；當(dāng)敵我距離較小時，應(yīng)著重考慮角度獎勵函數(shù)，使無人機(jī)方位角φU和目標(biāo)的進(jìn)入角qT盡可能小，從而使敵機(jī)落入我機(jī)正前方區(qū)域，此時應(yīng)增大角度權(quán)重ω3；任務(wù)約束獎勵r4與上述3個獎勵不同，不受敵我態(tài)勢的影響，因此權(quán)重設(shè)置為1。

3.4 無人機(jī)自主引導(dǎo)模型訓(xùn)練流程

無人機(jī)自主引導(dǎo)模型涉及兩個模塊，如圖6所示，一個是PPO算法單元，與仿真環(huán)境交互生成決策指令，一個是仿真訓(xùn)練環(huán)境，負(fù)責(zé)響應(yīng)決策指令，生成戰(zhàn)場態(tài)勢數(shù)據(jù)。

圖6 無人機(jī)自主引導(dǎo)模型訓(xùn)練流程Fig.6 Flow chart of UAV autonomous guidance model training

訓(xùn)練流程如下所述：在仿真環(huán)境中，首先初始化敵我的運動參數(shù)，在一定范圍內(nèi)隨機(jī)生成我機(jī)和敵機(jī)的經(jīng)緯度及速度坐標(biāo)系下的速度，計算出敵我相對位置、速度、角度，經(jīng)過一系列坐標(biāo)轉(zhuǎn)換獲得當(dāng)前時刻速度坐標(biāo)系下敵我相對狀態(tài)S，將狀態(tài)輸入至PPO算法單元，PPO算法單元輸出無人機(jī)控制指令A(yù)并反饋給仿真訓(xùn)練環(huán)境，無人機(jī)通過控制指令A(yù)控制無人機(jī)機(jī)動，得到無人機(jī)下一時刻在地球坐標(biāo)系下的位置和速度，同時，敵機(jī)根據(jù)初始化的速度更新運動參數(shù)，進(jìn)而計算出下一時刻敵我相對狀態(tài)S′以及即時獎勵r，并將S′和r反饋給PPO算法單元，然后重復(fù)上述步驟；當(dāng)PPO算法單元存儲一定長度的軌道片段{S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}時，分別計算Actor和Critic網(wǎng)絡(luò)的損失函數(shù)，并對網(wǎng)絡(luò)參數(shù)進(jìn)行更新，利用更新后的網(wǎng)絡(luò)繼續(xù)與仿真環(huán)境交互，更新敵我的運動參數(shù)；直至滿足或破壞任務(wù)約束條件時，即引導(dǎo)成功或超出空戰(zhàn)范圍，此次訓(xùn)練結(jié)束。

4 仿真驗證

假設(shè)敵我雙方的空戰(zhàn)在10 km×10 km×10 km的三維空域內(nèi)進(jìn)行，訓(xùn)練回合數(shù)Pmax=30 000,無人機(jī)決策周期Δt=0.05 s，單回合內(nèi)最大決策次數(shù)PLen=3000。將切向過載nz和法向過載ny的取值范圍設(shè)置為[-9g，9g]，將滾轉(zhuǎn)角φ的取值范圍設(shè)置為[-180°，180°]，以保證無人機(jī)機(jī)動模型的機(jī)動方式更接近真實無人機(jī)的機(jī)動方式。

本文完成了標(biāo)準(zhǔn)PPO算法和改進(jìn)PPO算法模型的訓(xùn)練。訓(xùn)練過程中記錄每個回合的總獎勵，分別生成了兩種算法模型的獎勵函數(shù)曲線，如圖7所示。

圖7 獎勵函數(shù)曲線對比圖Fig.7 Comparison of reward function curves

由圖7可以看出，經(jīng)過一定回合的訓(xùn)練，兩種算法模型均能從環(huán)境中獲得正獎勵，決策能力逐漸增強，標(biāo)準(zhǔn)PPO算法模型大約經(jīng)過16 000次的訓(xùn)練之后，獎勵函數(shù)的值開始收斂并穩(wěn)定在4左右；改進(jìn)PPO算法模型大約經(jīng)過11 000次的訓(xùn)練之后，獎勵函數(shù)的值開始收斂并穩(wěn)定在6左右。由此可見，結(jié)合了LSTM網(wǎng)絡(luò)的PPO算法模型學(xué)習(xí)能力更強，收斂速度較快。

訓(xùn)練完成后分別對兩種算法模型進(jìn)行了測試，測試結(jié)果如下。

1) 標(biāo)準(zhǔn)PPO算法模型仿真測試。

本次測試的敵我雙方初始化態(tài)勢：無人機(jī)在地球坐標(biāo)系下初始坐標(biāo)為(3 185 500.21 m，4 504 977.22 m，3 185 499.98 m)，速度坐標(biāo)系下的初始速度大小為135.27 m/s。目標(biāo)在地球坐標(biāo)系下的初始坐標(biāo)為(3 185 621.32 m，4 505 988.49 m，3 185 852.52 m)，速度坐標(biāo)系下的初始速度大小為104.32 m/s。

該態(tài)勢下仿真測試結(jié)果如圖8(a)所示，標(biāo)準(zhǔn)PPO算法下的智能體成功地將無人機(jī)引導(dǎo)至勻速運動的目標(biāo)區(qū)域?；睾祥_始時，無人機(jī)的高度低于目標(biāo)高度，其采取盤旋加爬升的方式追蹤目標(biāo)，但此次引導(dǎo)過程中無人機(jī)也做了一些無用的動作，經(jīng)歷了多次盤旋，而且其運動軌跡不夠平滑。

圖8 敵我雙方運動軌跡Fig.8 Trajectories of two sides

2) 改進(jìn)PPO算法模型仿真測試。

本次測試的敵我雙方初始化態(tài)勢：無人機(jī)在地球坐標(biāo)系下初始坐標(biāo)為(3 185 500.00 m，4 504 977.14 m，3 185 499.83 m)，速度坐標(biāo)系下的初始速度為194.27 m/s。目標(biāo)在地球坐標(biāo)系下的初始坐標(biāo)為(3 185 350.11 m，4 504 389.25 m，3 186 907.54 m)，速度坐標(biāo)系下的初始速度為125.46 m/s。

該態(tài)勢下仿真測試結(jié)果如圖8(b)所示，當(dāng)無人機(jī)航向偏離目標(biāo)，智能體從仿真環(huán)境中獲取距離負(fù)獎勵，然后及時選擇合適的機(jī)動動作來改變無人機(jī)的航向，無人機(jī)采取右轉(zhuǎn)彎加俯沖的方式向靠近目標(biāo)的方向飛行，直至從目標(biāo)尾后追上目標(biāo)，完成了作戰(zhàn)任務(wù)，可見，該算法下的智能體經(jīng)過訓(xùn)練之后學(xué)會了選擇合理有效的機(jī)動動作。

5 結(jié)論

本文提出了基于改進(jìn)PPO算法的無人機(jī)自主引導(dǎo)方法，并針對敵我距離、角度、速度以及任務(wù)約束等因素設(shè)計了合適的獎勵函數(shù)。通過仿真測試結(jié)果可得：1)該方法決策一次動作的時間為0.05 s，可以進(jìn)行實時有效的機(jī)動決策；2)對于任何初始狀態(tài)的無人機(jī)和目標(biāo)，該方法均可實現(xiàn)無人機(jī)向機(jī)動目標(biāo)區(qū)域的引導(dǎo)，具有泛化性；3)該方法結(jié)合了LSTM與強化學(xué)習(xí)，相比于標(biāo)準(zhǔn)PPO算法，提升了模型的收斂速度，增強了無人機(jī)機(jī)動的靈活性，提高了無人機(jī)的運動軌跡平滑度。

本文的研究對無人機(jī)自主近距空戰(zhàn)具有重要意義，但與實際空戰(zhàn)仍有一定差距，下一步的工作將針對實現(xiàn)導(dǎo)彈攻擊條件的問題進(jìn)行研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡