国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度強(qiáng)化學(xué)習(xí)的無人作戰(zhàn)飛機(jī)空戰(zhàn)機(jī)動決策

2021-12-13 02:03李永豐史靜平章衛(wèi)國
關(guān)鍵詞:空戰(zhàn)機(jī)動神經(jīng)網(wǎng)絡(luò)

李永豐,史靜平,2,章衛(wèi)國,2,蔣 維

(1. 西北工業(yè)大學(xué) 自動化學(xué)院,西安 710029;2.陜西省飛行控制與仿真技術(shù)重點實驗室(西北工業(yè)大學(xué)),西安 710029)

目前無人作戰(zhàn)飛機(jī)(unmanned combat aerial vehicle, UCAV)被廣泛應(yīng)用于軍事領(lǐng)域[1],UCAV在過去主要從事戰(zhàn)場監(jiān)視、吸引火力和通信中繼等任務(wù),隨著武器裝備的傳感器、計算機(jī)及通信等技術(shù)的發(fā)展,性能不斷提升,未來的UCAV將逐步升級成為可以執(zhí)行空中對抗、對地火力壓制和參與制空權(quán)的奪取等作戰(zhàn)任務(wù)的主要作戰(zhàn)裝備之一。盡管UCAV的性能提升很大,但大多數(shù)的任務(wù)都離不開人工干預(yù),控制人員通過基站在地面對UCAV進(jìn)行控制,這種控制方法有延遲且易受到電磁干擾。因此研究UCAV的自主作戰(zhàn)能力已經(jīng)成為空軍發(fā)展的必然趨勢,裝備了無人作戰(zhàn)決策系統(tǒng)的UCAV將逐步取代飛行員的位置,以達(dá)到減少成本,提高戰(zhàn)斗力的作用。在近距離格斗的階段,UCAV應(yīng)根據(jù)當(dāng)前的空戰(zhàn)態(tài)勢及時選取合適的飛行控制指令,搶占有利的位置,尋找擊落敵機(jī)的機(jī)會并保護(hù)自己[2]。

在空戰(zhàn)條件下,飛機(jī)模型本身為非線性同時目標(biāo)的飛行軌跡是不確定的,這些都將給UCAV的機(jī)動決策帶來許多不便,因此良好的機(jī)動決策是UCAV自主空戰(zhàn)的一個重要環(huán)節(jié),自動機(jī)動決策要求UCAV能在不同的空戰(zhàn)環(huán)境下自動生成飛行控制指令。常規(guī)的機(jī)動決策控制方法包括最優(yōu)化方法、博弈論法、矩陣對策法、影響圖法、遺傳算法、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)方法以及強(qiáng)化學(xué)習(xí)方法等。文獻(xiàn)[3]將空戰(zhàn)視為一個馬爾可夫過程,通過貝葉斯推理理論計算空戰(zhàn)情況,并自適應(yīng)調(diào)整機(jī)動決策因素的權(quán)重,使目標(biāo)函數(shù)更加合理,保證了無人戰(zhàn)斗機(jī)的優(yōu)越性。文獻(xiàn)[4]設(shè)計了一個基于遺傳學(xué)習(xí)系統(tǒng)的飛機(jī)機(jī)動決策模型,通過對機(jī)動的過程加以優(yōu)化來解決空戰(zhàn)環(huán)境未知情況下的空戰(zhàn)決策問題,可以在不同的空戰(zhàn)環(huán)境中產(chǎn)生相應(yīng)的戰(zhàn)術(shù)動作,但該方法的參數(shù)設(shè)計存在主觀性,不能靈活應(yīng)用。文獻(xiàn)[5]利用統(tǒng)計學(xué)原理研究UCAV的空戰(zhàn)機(jī)動決策問題,具有一定的魯棒性,但該算法實時性能較差無法應(yīng)用于在線決策。文獻(xiàn)[6]將可微態(tài)勢函數(shù)應(yīng)用于UCAV微分對策中,可以快速反應(yīng)空戰(zhàn)環(huán)境,但由于實時計算的局限性很難解決復(fù)雜的模型。文獻(xiàn)[7]采用博弈論對UCAV空戰(zhàn)決策進(jìn)行建模,對不同的空戰(zhàn)環(huán)境具有通用性。雖然這些決策算法可以在一定程度上提高決策的效率、魯棒性和尋優(yōu)率,但由于這些決策模型存在推理過程較為頻繁,會浪費大量時間尋優(yōu)等問題,導(dǎo)致UCAV的響應(yīng)變慢,并不適用于當(dāng)今的戰(zhàn)場環(huán)境。

基于人工智能的方法包括神經(jīng)網(wǎng)絡(luò)法、專家系統(tǒng)法以及強(qiáng)化學(xué)習(xí)算法。文獻(xiàn)[8]采用了專家系統(tǒng)法,通過預(yù)測雙方的態(tài)勢和運(yùn)動狀態(tài)生成相應(yīng)的機(jī)動指令控制UCAV飛行,但不足之處在于規(guī)則庫的構(gòu)建較為復(fù)雜,通用性差。文獻(xiàn)[9]采用了自適應(yīng)神經(jīng)網(wǎng)絡(luò)技術(shù)設(shè)計PID控制器,對高機(jī)動目標(biāo)具有較強(qiáng)的跟蹤精度,但神經(jīng)網(wǎng)絡(luò)方法需要大量的空戰(zhàn)樣本,存在學(xué)習(xí)樣本不足的問題。與以上兩種方法相比,強(qiáng)化學(xué)習(xí)算法是一種智能體與環(huán)境之間不斷試錯交互從而進(jìn)行學(xué)習(xí)的行為,智能體根據(jù)環(huán)境得到的反饋優(yōu)化自己的策略,再根據(jù)策略行動,最終達(dá)到最優(yōu)策略。由于強(qiáng)化學(xué)習(xí)的過程通常不考慮訓(xùn)練樣本,僅通過環(huán)境反饋得到的獎勵對動作進(jìn)行優(yōu)化,可以提高了學(xué)習(xí)的效率,是一種可行的方法[10]。文獻(xiàn)[11]將空戰(zhàn)時的狀態(tài)空間模糊化、歸一化作為強(qiáng)化學(xué)習(xí)算法的輸入,并將基本的空戰(zhàn)動作作為強(qiáng)化學(xué)習(xí)的輸出,使得UCAV不斷與環(huán)境交互從而實現(xiàn)空戰(zhàn)的優(yōu)勢地位。在此基礎(chǔ)上,文獻(xiàn)[12-13]將神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合,提高了算法的運(yùn)算效率,但這些文章都沒有考慮飛機(jī)的姿態(tài)變化。

本文提出了一種深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)算法來解決UCAV自主機(jī)動決策作戰(zhàn)的問題,并在MATLAB/Simulink環(huán)境中搭建了某種六自由度UCAV模型,充分考慮了其非線性。同時選取適當(dāng)?shù)目諔?zhàn)動作作為UCAV的機(jī)動輸出,建立空戰(zhàn)優(yōu)勢函數(shù)并設(shè)計UCAV空戰(zhàn)機(jī)動決策模型。通過強(qiáng)化學(xué)習(xí)方法可以減少人為操縱的復(fù)雜性,保證計算結(jié)果的優(yōu)越性,提高UCAV的作戰(zhàn)能力,而神經(jīng)網(wǎng)絡(luò)可以提升實時決策能力。最后通過仿真將該方法應(yīng)用于UCAV機(jī)動作戰(zhàn)決策中,證明了其有效性和可行性。

1 UCAV運(yùn)動學(xué)建模

1.1 UCAV運(yùn)動模型

本文所研究的UCAV運(yùn)動模型如圖1所示,在研究UCAV運(yùn)動時,把UCAV視為左右對稱的理想剛體,其運(yùn)動主要表現(xiàn)為速度及3個姿態(tài)角的變化情況,對UCAV的操縱主要依賴于發(fā)動機(jī)推力以及UCAV的氣動舵面。采用六自由度方程描述UCAV在機(jī)動決策和仿真時的運(yùn)動狀態(tài),具體參數(shù)如下:質(zhì)量為3.93 kg,機(jī)長為1.47 m,機(jī)翼面積為0.264 5 m2,翼展長為0.89 m,平均氣動弦長為0.336 m。

圖1 UCAV模型圖

1.2 運(yùn)動學(xué)方程

在慣性坐標(biāo)系當(dāng)中,無人機(jī)六自由度方程通??梢悦枋鰹闄C(jī)體坐標(biāo)系下的力方程組、力矩方程組、運(yùn)動方程組與導(dǎo)航方程組,無人機(jī)六自由度方程的通常狀態(tài)變量是:[V,α,β,p,q,r,φ,θ,ψ,x,y,z]。對于無人機(jī)12個狀態(tài)量的非線性六自由度方程如下(歐式坐標(biāo)系):

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

w(sinφsinψ+cosφsinθcosψ)

(10)

w(-sinφcosψ+cosφsinθsinψ)

(11)

(12)

式中[u,v,w]為機(jī)體系3個軸上的速度分量。

本文根據(jù)上述UCAV非線性模型,使用PID算法設(shè)置控制律,同時考慮姿態(tài)對UCAV空戰(zhàn)決策的影響,搭建基本操縱動作庫,選取適當(dāng)?shù)臋C(jī)動動作作為UCAV的輸出。之后通過深度強(qiáng)化學(xué)習(xí)算法得到UCAV在不同的態(tài)勢下的機(jī)動動作,使得該算法能對UCAV進(jìn)行精準(zhǔn)控制。

2 空戰(zhàn)機(jī)動決策模型

2.1 方案

通過對UCAV自主戰(zhàn)術(shù)決策系統(tǒng)進(jìn)行研究,可以使UCAV具備更高的自主性,能獨立應(yīng)對突發(fā)事件以提高任務(wù)執(zhí)行的效率,同時可以提高系統(tǒng)適應(yīng)環(huán)境的能力。圖2為UCAV自主決策模塊,將我方無UCAV和目標(biāo)的態(tài)勢估計進(jìn)行綜合評價,輸入機(jī)動決策模塊中,得到機(jī)動庫的控制指令,再對我方UCAV進(jìn)行控制。

圖2 UCAV自主決策模塊

2.2 強(qiáng)化學(xué)習(xí)原理

強(qiáng)化學(xué)習(xí)算法主要由以下5個部分組成:智能體、環(huán)境、狀態(tài)S、動作A和觀測回報R。在時間t時刻,智能體會產(chǎn)生動作At并與環(huán)境之間進(jìn)行交互,在動作執(zhí)行后,智能體的狀態(tài)由St轉(zhuǎn)移成St+1,并得到環(huán)境的回報值Rt。就這樣,智能體在與環(huán)境的交互中不斷修改自身參數(shù),在經(jīng)過多次運(yùn)算后得到最優(yōu)解,如圖3所示。

圖3 強(qiáng)化學(xué)習(xí)基本框架圖

強(qiáng)化學(xué)習(xí)的計算過程就是一個不斷探索最優(yōu)策略的過程,策略指的是狀態(tài)到動作的映射,通過符號π′表示,下式為狀態(tài)S下所對應(yīng)的每個動作的概率,即

π′(a|s)=p[At=a|St=s]

(13)

對于強(qiáng)化學(xué)習(xí)算法而言,希望每一個狀態(tài)所對應(yīng)的動作都能使其價值最大化,需要找到策略:

(14)

Q強(qiáng)化學(xué)習(xí)算法是對狀態(tài)-動作對的值Q(s,a)進(jìn)行迭代,在學(xué)習(xí)過程中選擇動作a時, 即

(15)

Q(st,at)的更新公式為

(16)

式中:δ為學(xué)習(xí)率,γ為折扣率,rt為t時刻的綜合優(yōu)勢函數(shù)。

可以看出該Q強(qiáng)化學(xué)習(xí)算法包含了綜合優(yōu)勢函數(shù)和所選動作后的狀態(tài)值,具有遠(yuǎn)視性,長期看來無限趨于穩(wěn)定。

2.3 優(yōu)勢函數(shù)

對于空中格斗決策來說,將我方UCAV和目標(biāo)之間的瞬時空中態(tài)勢作為一個獎懲信號,構(gòu)建相應(yīng)的空戰(zhàn)優(yōu)勢函數(shù),可以使得決策系統(tǒng)選擇合適的機(jī)動動作,提高我機(jī)對敵機(jī)的空戰(zhàn)優(yōu)勢。通常來說,傳統(tǒng)的環(huán)境獎賞包括方位角獎賞、速度獎賞、距離獎賞和高度獎賞,并由這幾部分加權(quán)得到綜合空戰(zhàn)態(tài)勢評估值,但這種態(tài)勢評估的加權(quán)值都是主觀值,無法準(zhǔn)確適應(yīng)不同的空戰(zhàn)武器。為解決該問題,本文針對UCAV空對空導(dǎo)彈的攻擊方式設(shè)計了相應(yīng)的優(yōu)勢函數(shù)[14]。典型的空空導(dǎo)彈攻擊區(qū)間是攻擊機(jī)的前方一定距離和角度的錐形范圍,如圖4所示。

圖4 空戰(zhàn)態(tài)勢

圖4中:VU、VT分別為UCAV和目標(biāo)的速度向量,令VU、VT分別為向量VU、VT的速度大小;R為UCAV和目標(biāo)之間的距離;αU、αT分別為UCAV和目標(biāo)之間的連線和各自速度向量的夾角;Rg為 UCAV導(dǎo)彈的最大攻擊距離;αg為 UCAV導(dǎo)彈的最大攻擊角度。

在空戰(zhàn)環(huán)境中,追尾飛機(jī)處于優(yōu)勢狀態(tài),被追飛機(jī)處于劣勢狀態(tài),兩機(jī)相向相背或同向飛行時則處于均勢狀態(tài),本文通過兩機(jī)方位角計算角度優(yōu)勢:

(17)

對空空導(dǎo)彈而言,命中率主要與距離有關(guān),為了使距離參數(shù)函數(shù)對于距離的變化不敏感,從而使無人機(jī)決策具有魯棒性,計算方位角、距離優(yōu)勢的函數(shù)為

(18)

式中σR為距離標(biāo)準(zhǔn)偏差。

如果UCAV與目標(biāo)之間的距離小于導(dǎo)彈攻擊距離,UCAV速度矢量與兩者間距離矢量的夾角小于UCAV導(dǎo)彈的攻擊角度,同時目標(biāo)的速度矢量與兩者間距離矢量的夾角小于90°。則說明目標(biāo)處于UCAV武器的攻擊范圍內(nèi),可以發(fā)射導(dǎo)彈并攔截,并結(jié)束這個仿真回合進(jìn)入下一個回合。此時UCAV的獎賞值為

(19)

當(dāng)滿足式(19)中的條件時,UCAV得到獎賞值,同時為了訓(xùn)練UCAV規(guī)避敵機(jī)的攻擊,目標(biāo)也存在攻擊武器,當(dāng)目標(biāo)滿足相同條件時說明我方處于劣勢,得到負(fù)的獎賞值。

ηB=ηU-ηT

(20)

其中:

為了避免UCAV在飛行過程中失速、飛行過低或過高、遠(yuǎn)離目標(biāo)或與目標(biāo)發(fā)生碰撞,應(yīng)限制UCAV的速度不小于20 m/s,高度不小于200 m,距離限制在[100 m,3 000 m]之間。

(21)

同時由于該UCAV為六自由度非線性模型,機(jī)動動作的選擇不僅要考慮敵我態(tài)勢,還需要考慮UCAV選擇機(jī)動動作時的狀態(tài),使得UCAV基于當(dāng)前態(tài)勢所選擇的機(jī)動動作可以完整的執(zhí)行下去,避免UCAV的失控。對于固定翼飛機(jī)而言,三軸力和三軸力矩的大小與迎角和側(cè)滑角相關(guān),因此決定其失控與否和飛行品質(zhì)的關(guān)鍵是氣流角。在飛機(jī)做機(jī)動動作時,要避免其因慣性或擾動超出飛行包線從而導(dǎo)致飛機(jī)的失控,需要對氣流角加以保護(hù),可以將UCAV的迎角限制在[-20°, 20°]之間,側(cè)滑角限制在[-30°, 30°]之間,當(dāng)超出限制時給予負(fù)的獎勵值,使得該決策機(jī)制可以避免選擇造成UCAV失控的機(jī)動指令。

(22)

由于單次空戰(zhàn)為一個作戰(zhàn)回合,最終結(jié)果會影響之前的空戰(zhàn)動作,需要根據(jù)時間差給之前的步驟添加獎賞值,則綜合優(yōu)勢函數(shù)為

η=ηA+0.95Δt(ηB+ηC+ηD)

(23)

式中Δt為t時刻到這一作戰(zhàn)回合結(jié)束的剩余時間。

則t時刻的綜合優(yōu)勢函數(shù)為

rt=η(t)

(24)

2.4 狀態(tài)空間

由于該空戰(zhàn)環(huán)境為三維空間,為了充分展現(xiàn)兩機(jī)的飛行狀態(tài)和空戰(zhàn)態(tài)勢,圖2中輸入自主空戰(zhàn)機(jī)動決策模塊的狀態(tài)空間包含10個變量:

S=[αU,αT,αUT,θU,θT,VU,VT,R,HU,ΔH]

(25)

式中:αUT為UCAV速度矢量和目標(biāo)速度矢量之間的夾角;θU、θT分別為UCAV和目標(biāo)的俯仰角;HU為UCAV的當(dāng)前飛行高度;ΔH=HU-HT為UCAV相對于目標(biāo)的高度差。需要將上述狀態(tài)空間做歸一化處理后再輸入神經(jīng)網(wǎng)絡(luò)模型。

2.5 基本機(jī)動動作庫

空戰(zhàn)機(jī)動動作庫分為兩類,一類是典型的戰(zhàn)術(shù)動作庫,另一類是基本的機(jī)動動作庫。典型戰(zhàn)術(shù)動作庫包括眼鏡蛇機(jī)動、榔頭機(jī)動、螺旋爬升等,但這些戰(zhàn)術(shù)動作本質(zhì)上是各個基礎(chǔ)動作組合而成的,同時特殊的機(jī)動動作目前必須依靠人機(jī)緊密配合,協(xié)調(diào)完成,否則UCAV的狀態(tài)可能會超過正常的包線范圍,導(dǎo)致UCAV有失控風(fēng)險。因此本文采用美國國家航空航天局提出的基本機(jī)動動作庫[15]作為UCAV機(jī)動動作庫的選擇范圍,如圖5所示。

圖5 基本機(jī)動動作庫

包括以下7種機(jī)動動作:1)定常平飛;2)最大加力加速;3)最大加力減速;4)最大加力左轉(zhuǎn);5)最大加力右轉(zhuǎn);6)最大加力爬升;7)最大加力俯沖。對于基本操縱動作庫的實現(xiàn),采用歐式坐標(biāo)系下的機(jī)動動作指令[VC,HC,φC]實現(xiàn)各種機(jī)動,建立自主作戰(zhàn)決策的候選動作庫。

勻速直線運(yùn)動:

[VC,HC,φC]=[VA,HA,0]

(26)

最大加力加速飛行:

[VC,HC,φC]=[Vmax,HA,0]

(27)

最大加力減速飛行:

[VC,HC,φC]=[Vmin,HA,0]

(28)

最大加力左轉(zhuǎn):

[VC,HC,φC]=[Vmax,HA,φleft]

(29)

最大加力右轉(zhuǎn):

[VC,HC,φC]=[Vmax,HA,φright]

(30)

最大加力爬升:

[VC,HC,φC]=[Vmax,Hmax,0]

(31)

最大加力俯沖:

[VC,HC,φC]=[Vmax,Hmin,0]

(32)

式中:VC為UCAV的速度指令,VA、Vmax、Vmin分別為UCAV當(dāng)前的速度、最大速度和最小速度;HC為UCAV的高度指令,HA、Hmax、Hmin分別為UCAV的當(dāng)前高度、最大高度和最小高度;φC為UCAV的滾轉(zhuǎn)角指令,φleft、φright分別為UCAV的最大向左滾轉(zhuǎn)角和最大向右滾轉(zhuǎn)角。

將這7種機(jī)動動作作為UCAV機(jī)動決策的輸出,控制UCAV的飛行。同時由于UCAV缺少人類感知飛機(jī)狀態(tài)的能力,需要對上述機(jī)動動作做出限制,通過對俯仰角、滾轉(zhuǎn)角和推力指令的大小進(jìn)行限制,從而對控制輸出端做必要的約束,以防UCAV的迎角、側(cè)滑角和速度的值過大或過小從而導(dǎo)致失控。令控制輸出端的俯仰角指令范圍在[-20°,20°]之間,滾轉(zhuǎn)角指令范圍在[-60°,60°]之間,推力指令范圍在[-10 N,30 N]之間。

3 深度強(qiáng)化學(xué)習(xí)自主作戰(zhàn)決策

3.1 深度強(qiáng)化學(xué)習(xí)

對于傳統(tǒng)的強(qiáng)化學(xué)習(xí)而言,通常采用表格的形式記錄值函數(shù)模型,這種方法可以穩(wěn)定得出不同狀態(tài)和動作下函數(shù)的值。但在面對復(fù)雜問題時,狀態(tài)和行動的空間較大,需要花費很多時間檢索表格中相應(yīng)狀態(tài)的值,難以求解。由于深度學(xué)習(xí)將特征學(xué)習(xí)融入模型中,具有自學(xué)習(xí)性和魯棒性,適用于不同的非線性模型。但深度學(xué)習(xí)不能對數(shù)據(jù)規(guī)律進(jìn)行無偏差估計,需要大量的數(shù)據(jù)反復(fù)計算才能達(dá)到較高的精度。因此,本文將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)算法相結(jié)合,得到深度強(qiáng)化學(xué)習(xí)算法,并使用深度Q網(wǎng)絡(luò)(Deep Q network,DQN)作為優(yōu)化算法,將態(tài)勢信息輸入神經(jīng)網(wǎng)絡(luò)并輸出機(jī)動動作值,同時不斷與環(huán)境進(jìn)行交互得到最優(yōu)機(jī)動動作,使得UCAV能自主的進(jìn)行作戰(zhàn)決策,提高其智能性[16]。

管理會計在會計學(xué)不斷發(fā)展后產(chǎn)生的重要分支學(xué)科,公立醫(yī)院管理會計則是管理會計在現(xiàn)代醫(yī)院管理中的具體應(yīng)用,其核心在于核算過去,控制當(dāng)下,預(yù)測未來。在財務(wù)信息化發(fā)展和新醫(yī)改的不斷深入背景下,醫(yī)院財務(wù)工作由核算型向管理型發(fā)展是必經(jīng)之路。公立醫(yī)院管理會計則能在不斷的變革中體現(xiàn)其重要價值。公立醫(yī)院管理會計體系優(yōu)化了財務(wù)核算流程,通過財務(wù)信息化軟件集成預(yù)算管理,使每一筆支出業(yè)務(wù)都可以實時監(jiān)控。

在UCAV空戰(zhàn)決策過程中,需要對我方UCAV和敵機(jī)的飛行狀態(tài)和空戰(zhàn)態(tài)勢進(jìn)行分析,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)計算每一個狀態(tài)動作對的長期折扣期望,并將Q函數(shù)網(wǎng)絡(luò)作為評判依據(jù),遍歷不同狀態(tài)下的所有機(jī)動動作。同時為了讓學(xué)習(xí)的數(shù)據(jù)更接近獨立分布的數(shù)據(jù),需要建立一個數(shù)據(jù)庫,將一段時間內(nèi)的狀態(tài)、動作、獎勵和該動作下一步的狀態(tài)存儲起來,每次學(xué)習(xí)時使用存儲區(qū)內(nèi)的小部分樣本,與2.2節(jié)的Q強(qiáng)化學(xué)習(xí)算法相比可以打亂原始數(shù)據(jù)的相關(guān)性,減小發(fā)散。

為了解決算法的不確定性,DQN算法還建立了一個結(jié)構(gòu)相同的目標(biāo)網(wǎng)絡(luò)用于更新Q值,該目標(biāo)網(wǎng)絡(luò)具有和Q函數(shù)網(wǎng)絡(luò)一樣的初始結(jié)構(gòu),但參數(shù)固定不動,每隔一段時間將Q函數(shù)網(wǎng)絡(luò)的參數(shù)賦給該目標(biāo)網(wǎng)絡(luò),使其一定時間內(nèi)的Q值保持不變??梢酝ㄟ^梯度下降法最小化損失函數(shù)L(θμ)來得到最優(yōu)解:

L(θμ)=E[yt-Q(st,at)|θμ]

(33)

其中yt為目標(biāo)參數(shù),即

式中:θμ為Q函數(shù)網(wǎng)絡(luò)參數(shù),θμ′為目標(biāo)網(wǎng)絡(luò)參數(shù)。

則DQN模型如圖6所示。

圖6 DQN模型

3.2 訓(xùn)練步驟

在空戰(zhàn)決策的訓(xùn)練中,UCAV根據(jù)上述深度強(qiáng)化學(xué)習(xí)算法進(jìn)行機(jī)動決策。整個訓(xùn)練過程由多個空戰(zhàn)回合組成,每當(dāng)UCAV判定擊中敵機(jī)、被敵機(jī)擊中、到達(dá)最大回合時間或處于式(21)、(22)所描述的錯誤態(tài)勢時,結(jié)束該空戰(zhàn)回合重新進(jìn)入一個新的空戰(zhàn)回合,并重置仿真環(huán)境。在訓(xùn)練過程中采用ε-greedy策略,一開始以100%的概率隨機(jī)產(chǎn)生行動,隨著仿真的進(jìn)行,不斷減小概率直至10%,使得該策略不斷向最優(yōu)靠攏。同時為了反應(yīng)學(xué)習(xí)的效果,需要在訓(xùn)練過程中定期判斷其決策能力,在進(jìn)行判斷時令隨機(jī)概率降為0,使得決策模型直接輸出最大的Q值動作,并統(tǒng)計其在結(jié)束時的優(yōu)勢函數(shù)值,與不同時期相對以此判斷其學(xué)習(xí)效率。

深度強(qiáng)化學(xué)習(xí)算法的具體步驟如算法1所示。

4 仿真實驗

4.1 參數(shù)設(shè)置

表1 參數(shù)取值情況

DQN算法的參數(shù)設(shè)置如下:使用一個兩層全連接前饋神經(jīng)網(wǎng)絡(luò)作為在線Q網(wǎng)絡(luò),有10個輸入狀態(tài)和7個輸出值,其中網(wǎng)絡(luò)有兩個隱藏層,單位大小分別為1 000和500,使用TANH函數(shù)作為激活函數(shù),在最后的輸出層采用PURELIN函數(shù)進(jìn)行激活。設(shè)置學(xué)習(xí)率δ=0.01,折扣系數(shù)γ=0.9,記憶回放單元D的緩沖區(qū)大小為106,在存儲了10 000個樣本之后神經(jīng)網(wǎng)絡(luò)開始訓(xùn)練,每次抽取的訓(xùn)練樣本數(shù)量為1 000,目標(biāo)網(wǎng)絡(luò)每4 000步更新一次。

在仿真的過程中每一步的決策時間t=1 s,每一次作戰(zhàn)的最大回合時間為40 s,每進(jìn)行500次作戰(zhàn)回合對神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力進(jìn)行一次評估,查看其停止作戰(zhàn)時的獎賞值。

4.2 強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)仿真時間對比

強(qiáng)化學(xué)習(xí)的計算過程是一個迭代尋找最優(yōu)策略的過程,需要耗費一定的時間。傳統(tǒng)的強(qiáng)化學(xué)習(xí)相對于深度強(qiáng)化學(xué)習(xí)而言狀態(tài)空間較大,遇到復(fù)雜問題時需要花費很多時間檢索表格中相應(yīng)狀態(tài)的值,但是UCAV在現(xiàn)實中執(zhí)行機(jī)動決策時要求的決策時間非常短,否則無法進(jìn)行有效的決策。同時不同大小的狀態(tài)空間也會對結(jié)果造成影響,對狀態(tài)空間的設(shè)定具有主觀性。

根據(jù)輸入狀態(tài)空間的10個變量建立不同復(fù)雜程度的強(qiáng)化學(xué)習(xí)Q值表格,Q值表2的大小是Q值表1的兩倍,Q值表3的大小是Q值表2的兩倍,分別仿真1 000個作戰(zhàn)回合,單次作戰(zhàn)的最大回合時間為40 s,基本采樣時間為0.02 s。對比每仿真1 s深度強(qiáng)化學(xué)習(xí)和不同復(fù)雜程度的強(qiáng)化學(xué)習(xí)在決策中所花費的時間,可以驗證算法的時效性。

如圖7所示,仿真使用的計算機(jī)為AMD Ryzen 7 3700X 8-Core Processor CPU和NVIDIA GeForce GTX 1660 SUPER顯卡。

圖7 每仿真1 s的決策時間

從圖7中可以看出,傳統(tǒng)強(qiáng)化學(xué)習(xí)決策所花費的時間與其Q值表的大小有關(guān),而深度強(qiáng)化學(xué)習(xí)在決策時花費的時間低于強(qiáng)化學(xué)習(xí),在進(jìn)行空戰(zhàn)時能更快的做出有效的決策。

表2 第1次和第2次訓(xùn)練的初始位置

4.3 空戰(zhàn)訓(xùn)練

由于UCAV空戰(zhàn)環(huán)境復(fù)雜,直接訓(xùn)練會產(chǎn)生大量無效樣本,致使學(xué)習(xí)算法的效率降低,需要先讓目標(biāo)在不同的初始狀態(tài)下進(jìn)行訓(xùn)練,之后再實現(xiàn)不同環(huán)境下UCAV的自主機(jī)動作戰(zhàn)。

第1次訓(xùn)練以目標(biāo)做勻速直線飛行運(yùn)動的場景對UCAV依次進(jìn)行基礎(chǔ)訓(xùn)練和特定的空戰(zhàn)場景訓(xùn)練,一開始紅方戰(zhàn)機(jī)處于優(yōu)勢地位,紅方戰(zhàn)機(jī)和藍(lán)方戰(zhàn)機(jī)的初始位置見表2,藍(lán)方戰(zhàn)機(jī)做勻速直線運(yùn)動。根據(jù)上文給出的DQN算法進(jìn)行學(xué)習(xí),首先對神經(jīng)網(wǎng)絡(luò)進(jìn)行20 000個回合的基礎(chǔ)訓(xùn)練,之后對具體的情況進(jìn)行訓(xùn)練,經(jīng)過250 000個作戰(zhàn)回合后敵我雙方的UCAV軌跡仿真如圖8所示。

圖8 第1次訓(xùn)練時雙方的立體軌跡

從圖8中可以看出藍(lán)方想要遠(yuǎn)離紅機(jī),但紅方首先向左偏轉(zhuǎn),保持與藍(lán)方相近的方位角和高度,接著加速追向目標(biāo),最終使藍(lán)方處于紅機(jī)武器攻擊范圍內(nèi),達(dá)到優(yōu)勢地位,說明該DQN算法的確可以快速有效的提高UCAV的自主作戰(zhàn)能力。

通過對比圖9、10中經(jīng)過了基礎(chǔ)訓(xùn)練和未經(jīng)訓(xùn)練的評估獎賞值可以看出,經(jīng)過了一定基礎(chǔ)訓(xùn)練的DQN算法學(xué)習(xí)效率明顯提高,能較快的使我方UCAV處于優(yōu)勢位置。

圖9 第1次訓(xùn)練時每次評估的最終獎賞值

圖10 第1次訓(xùn)練時的平均獎賞值

第2次訓(xùn)練時以目標(biāo)做勻速盤旋飛行的場景對UCAV依次進(jìn)行基礎(chǔ)訓(xùn)練和特定的空戰(zhàn)場景訓(xùn)練,紅方戰(zhàn)機(jī)和藍(lán)方戰(zhàn)機(jī)的初始位置不變,藍(lán)方戰(zhàn)機(jī)做俯仰角為10°,滾轉(zhuǎn)角為-20°的勻速盤旋飛行。重復(fù)相同的訓(xùn)練方法,經(jīng)過25 000個作戰(zhàn)回合后敵我雙方的UCAV軌跡仿真如圖11所示。

圖11 第2次訓(xùn)練時雙方的立體軌跡

在圖11中,紅方首先向右偏轉(zhuǎn),保持與藍(lán)方相近的方位角和高度,接著加速追向目標(biāo),由于藍(lán)方處于相對較高的位置,紅方為了追擊藍(lán)方迅速爬升,最終使得藍(lán)方處于紅方武器攻擊范圍內(nèi),達(dá)到優(yōu)勢地位,第2次訓(xùn)練時的平均獎賞值如圖12所示。

圖12 第2次訓(xùn)練時的平均獎賞值

第3次訓(xùn)練時同樣以目標(biāo)做勻速直線飛行運(yùn)動的場景對UCAV依次進(jìn)行基礎(chǔ)訓(xùn)練和特定的空戰(zhàn)場景訓(xùn)練,但一開始紅方戰(zhàn)機(jī)處于劣勢地位,紅方戰(zhàn)機(jī)和藍(lán)方戰(zhàn)機(jī)的初始位置見表3,藍(lán)機(jī)做勻速直線運(yùn)動。同樣對神經(jīng)網(wǎng)絡(luò)進(jìn)行20 000個回合的基礎(chǔ)訓(xùn)練,之后對具體的情況進(jìn)行訓(xùn)練,經(jīng)過250 000個作戰(zhàn)回合后敵我雙方的UCAV軌跡仿真如圖13、14所示。

表3 第3次訓(xùn)練的初始位置

圖13 第3次訓(xùn)練時雙方的立體軌跡

圖14 第3次訓(xùn)練時雙方的平面軌跡

從圖13、14中可以看出,面對藍(lán)機(jī)的追擊,紅機(jī)向右偏轉(zhuǎn),繞到了藍(lán)機(jī)的身后,由劣勢轉(zhuǎn)化為優(yōu)勢,最終扭轉(zhuǎn)局面取得勝利。第3次訓(xùn)練時的平均獎賞值如圖15所示。

圖15 第3次訓(xùn)練時的平均獎賞值

由上述3組仿真實驗可以看出紅方在不同的初始態(tài)勢下都可以通過一定的機(jī)動決策占據(jù)有利態(tài)勢,證明了DQN算法的有效性。同時,經(jīng)過了一定基礎(chǔ)訓(xùn)練的DQN算法學(xué)習(xí)效率明顯提高,具有較高的智能性,可以有效地引導(dǎo)UCAV進(jìn)行空戰(zhàn)。

5 結(jié) 論

1)本文在MATLAB/Simulink環(huán)境中搭建了UCAV六自由度模型,設(shè)計了一個UCAV空戰(zhàn)自主機(jī)動決策的仿真平臺,實現(xiàn)了空戰(zhàn)實驗的閉環(huán)仿真。該仿真平臺成本低,易于實現(xiàn),并且各個函數(shù)都采用了模塊化設(shè)計,易于更新和替換。

2)將機(jī)動動作庫和基于導(dǎo)彈武器攻擊區(qū)建立的優(yōu)勢函數(shù)應(yīng)用于該仿真平臺上,同時對模型采用由易到難的訓(xùn)練方法,可以使UCAV與不同運(yùn)動狀態(tài)下的目標(biāo)進(jìn)行空戰(zhàn),并且保證UCAV最終能夠到達(dá)優(yōu)勢地位。

3)結(jié)果顯示,深度強(qiáng)化學(xué)習(xí)算法可以通過不斷與環(huán)境之間試錯交互從而進(jìn)行學(xué)習(xí),能有效提高UCAV的自主作戰(zhàn)能力,得到的仿真結(jié)果具有較高的工程參考價值。根據(jù)深度強(qiáng)化學(xué)習(xí)算法所得到的機(jī)動控制指令具有魯棒性、遠(yuǎn)視性和時效性。

猜你喜歡
空戰(zhàn)機(jī)動神經(jīng)網(wǎng)絡(luò)
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
1937年筧橋空戰(zhàn)戰(zhàn)果之謎
最強(qiáng)空戰(zhàn)王
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
空戰(zhàn)兄弟檔
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對地攻擊型無人機(jī)自主能力評價
基于機(jī)動數(shù)據(jù)的摩托化機(jī)動演訓(xùn)組織效果評估
12萬畝機(jī)動地不再“流浪”
機(jī)動三輪車的昨天、今天和明天
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析