謝蕃葳,王旭剛
(南京理工大學(xué) 能源與動(dòng)力工程學(xué)院,江蘇 南京 210094)
超遠(yuǎn)程滑翔制導(dǎo)炮彈滑翔段的彈道規(guī)劃一直以來(lái)都是研究的重點(diǎn)和難點(diǎn),其既要滿足寬空域?qū)捤儆蝻w行過(guò)程中的強(qiáng)耦合、快時(shí)變以及強(qiáng)非線性的運(yùn)動(dòng)約束關(guān)系,還需要在被限制的控制空間內(nèi)尋求最大作戰(zhàn)射程[1,2]。滑翔段的彈道規(guī)劃的實(shí)質(zhì)是求解非線性帶約束最優(yōu)控制問(wèn)題,對(duì)應(yīng)的動(dòng)力學(xué)模型是時(shí)變非線性微分方程組。隨著非線性條件和約束條件的增多,目前該方程組難以通過(guò)解析的方式求得目標(biāo)解。因此,現(xiàn)在的彈道規(guī)劃方法主要?dú)w納為三類(lèi):間接方法[3,4]、直接方法[5,6]和智能啟發(fā)式方法[7-9]。
深度強(qiáng)化學(xué)習(xí)是采用深度神經(jīng)網(wǎng)絡(luò)做函數(shù)擬合的一類(lèi)新興強(qiáng)化學(xué)習(xí)算法,它不同于依靠大量最優(yōu)彈道數(shù)據(jù)樣本進(jìn)行彈道規(guī)劃訓(xùn)練的深度學(xué)習(xí)方法[10],而是通過(guò)與環(huán)境的自主交互尋求最優(yōu)規(guī)劃網(wǎng)絡(luò)參數(shù)。目前,強(qiáng)化學(xué)習(xí)的相關(guān)應(yīng)用已經(jīng)在圍棋[11]、電子競(jìng)技[12]等場(chǎng)合中展示了在復(fù)雜環(huán)境下處理各種信息,并將信息轉(zhuǎn)換為規(guī)劃決策的能力。目前,基于深度強(qiáng)化學(xué)習(xí)的飛行器彈道規(guī)劃研究仍處于起步階段。文獻(xiàn)[13]在設(shè)定初速度與出射角的情況下,在彈丸的外彈道飛行過(guò)程利用Q-learning算法輸出控制指令,通過(guò)強(qiáng)化學(xué)習(xí)迭代計(jì)算實(shí)現(xiàn)彈道優(yōu)化目標(biāo),導(dǎo)彈射程比無(wú)控時(shí)明顯增加。文獻(xiàn)[14]提出了一種基于網(wǎng)絡(luò)優(yōu)選雙深度Q網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法,保存了訓(xùn)練過(guò)程當(dāng)中的最佳網(wǎng)絡(luò),突出了算法優(yōu)越的性能表現(xiàn)。但文中對(duì)獎(jiǎng)勵(lì)函數(shù)的落速懲罰沒(méi)有指明,沒(méi)有明確的約束限制指向。文獻(xiàn)[15]提出了一種無(wú)模型的強(qiáng)化學(xué)習(xí)和交叉熵方法相結(jié)合的在線航跡規(guī)劃算法,利用近端策略優(yōu)化算法離線訓(xùn)練智能體,可以在復(fù)雜多變的飛行空域中生成曲率平滑的航跡,擁有較高的突防成功率。文獻(xiàn)[16]利用深度確定性策略梯度算法訓(xùn)練得到巡飛彈突防控制策略網(wǎng)絡(luò),在1 000次飛行仿真下?lián)碛?2.1%的任務(wù)成功率,平均決策時(shí)間僅有1.48 ms。
然而,以上深度強(qiáng)化學(xué)習(xí)算法研究的重點(diǎn)主要集中在算法的應(yīng)用性能上,算法本身的穩(wěn)定性研究方面稍有欠缺。強(qiáng)化學(xué)習(xí)的相關(guān)研究領(lǐng)域普遍存在著訓(xùn)練不穩(wěn)定的問(wèn)題。所以,為了建立穩(wěn)定的深度強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程,本文以超遠(yuǎn)程滑翔制導(dǎo)炮彈滑翔段作為研究對(duì)象進(jìn)行彈道規(guī)劃,創(chuàng)新性提出了一種IM-DQN算法,采用無(wú)效經(jīng)驗(yàn)剔除的經(jīng)驗(yàn)池管理方法,將訓(xùn)練過(guò)程中整體表現(xiàn)低效的回合樣本點(diǎn)全部剔除以保證提取樣本時(shí)避開(kāi)這些低效環(huán)節(jié),并且添加探索限制策略進(jìn)行更新,保證訓(xùn)練網(wǎng)絡(luò)效果不會(huì)大幅度跌塌,使得訓(xùn)練效果更加穩(wěn)定。
滑翔制導(dǎo)炮彈在彈道頂點(diǎn)展開(kāi)鴨舵進(jìn)行滑翔,本文聚焦智能規(guī)劃方法在滑翔段的適用性問(wèn)題,為了突出研究問(wèn)題的重點(diǎn),給出了典型滑翔運(yùn)動(dòng)模型,攻角為控制參數(shù),其三自由度運(yùn)動(dòng)模型為[17]:
(1)
式中:x、y是慣性坐標(biāo)系下的位置,v、θ、m分別是炮彈飛行速度、彈道傾角、炮彈質(zhì)量。阻力Fx和升力Fy計(jì)算公式如下:
(2)
超遠(yuǎn)程滑翔制導(dǎo)炮彈的彈道規(guī)劃往往期望在有限制條件下實(shí)現(xiàn)最大射程,因此將連續(xù)問(wèn)題離散化,建立目標(biāo)優(yōu)化函數(shù)。
(3)
式中:vf表示落速,vc為落速限制,tf表示終止時(shí)間。xa表示離散后一個(gè)步長(zhǎng)ts內(nèi)通過(guò)執(zhí)行a動(dòng)作得到的航程距離。
針對(duì)滑翔段軌跡優(yōu)化問(wèn)題,提出用深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),將非線性規(guī)劃問(wèn)題離散化,轉(zhuǎn)化為序列決策問(wèn)題。它根據(jù)此時(shí)的狀態(tài)和內(nèi)置深度神經(jīng)網(wǎng)絡(luò)可以在毫秒級(jí)快速輸出對(duì)應(yīng)的控制動(dòng)作,然后迭代狀態(tài)和控制指令得到一條最優(yōu)規(guī)劃曲線,避免了在飛行過(guò)程中求解復(fù)雜的非線性規(guī)劃問(wèn)題,通過(guò)地面訓(xùn)練的方式減少了空間飛行過(guò)程中的計(jì)算量,規(guī)劃流程如圖1。
圖1 基于神經(jīng)網(wǎng)絡(luò)的彈道規(guī)劃Fig.1 Trajectory planning based on neural network
滑翔初始數(shù)據(jù)參數(shù)設(shè)定見(jiàn)表1。
表1 滑翔初始參數(shù)設(shè)定Table 1 Initial glide parameter setting
本文研究的是滑翔段無(wú)動(dòng)力滑翔,為保證飛行過(guò)程中的穩(wěn)定性,飛行過(guò)程中的控制量具有嚴(yán)格限制,設(shè)置攻角幅值的約束為α∈[0,12°],綜合考慮尋優(yōu)空間的大小與尋優(yōu)時(shí)間的長(zhǎng)短,將控制攻角離散化,控制攻角取值為0~12°之間的整數(shù)。
DQN方法起源于Q-learning方法,采用一個(gè)價(jià)值表格記錄下每個(gè)狀態(tài)下的動(dòng)作,并且賦予每個(gè)動(dòng)作相應(yīng)的值,以表明此狀態(tài)下各動(dòng)作的優(yōu)劣。但隨著狀態(tài)空間和動(dòng)作空間的變大,整個(gè)價(jià)值表格的容量空間也會(huì)隨之變大,如果狀態(tài)空間是連續(xù)的,則無(wú)法使用Q-learning方法。因此,Q-learning方法可以解決離散狀態(tài)空間問(wèn)題,而無(wú)法解決連續(xù)狀態(tài)空間問(wèn)題。面對(duì)此類(lèi)連續(xù)空間問(wèn)題,DQN采用一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)代替價(jià)值表格,即動(dòng)作價(jià)值網(wǎng)絡(luò)Q(st,at,μi),輸入當(dāng)前的狀態(tài)和動(dòng)作即可得到相應(yīng)的動(dòng)作價(jià)值Q值,解決了連續(xù)空間狀態(tài)維度爆炸的問(wèn)題。
為了使訓(xùn)練過(guò)程更加穩(wěn)定,DQN算法采用了相同神經(jīng)元個(gè)數(shù)和參數(shù)配置的雙網(wǎng)絡(luò)結(jié)構(gòu),分別是當(dāng)前評(píng)估價(jià)值網(wǎng)絡(luò)μ和目標(biāo)價(jià)值網(wǎng)絡(luò)ω。在每次訓(xùn)練開(kāi)始前,在給定的參數(shù)范圍內(nèi)初始化狀態(tài)參數(shù);在訓(xùn)練過(guò)程中,動(dòng)作的選擇遵循貪心策略,即在開(kāi)始訓(xùn)練的一段時(shí)間內(nèi),網(wǎng)絡(luò)模型會(huì)在動(dòng)作空間內(nèi)隨機(jī)選擇動(dòng)作,但隨著訓(xùn)練的不斷推進(jìn),一段時(shí)間后會(huì)逐步根據(jù)當(dāng)前的動(dòng)作價(jià)值網(wǎng)絡(luò)的最大值選擇最優(yōu)動(dòng)作。
根據(jù)當(dāng)前狀態(tài)和動(dòng)作輸出下一階段的狀態(tài)參數(shù),輸入當(dāng)前經(jīng)驗(yàn)樣本et=(statrtst+1)到記憶經(jīng)驗(yàn)池容積De=(e1e2…et)當(dāng)中,記憶經(jīng)驗(yàn)池方法有效打破了樣本之間的關(guān)聯(lián)關(guān)系,提高了數(shù)據(jù)利用率,每一次在固定時(shí)間步長(zhǎng)之后從經(jīng)驗(yàn)池容積當(dāng)中提取小批量樣本重新計(jì)算其動(dòng)作價(jià)值,DQN算法誤差更新如下式[18]:
(4)
傳統(tǒng)DQN方法在前期訓(xùn)練的時(shí)候,參數(shù)通過(guò)經(jīng)驗(yàn)池樣本中隨機(jī)抽取一批樣本進(jìn)行更新,里面包含的低性能數(shù)據(jù)樣本,不利于網(wǎng)絡(luò)模型的最優(yōu)解。本文提出IM-DQN算法,在傳統(tǒng)DQN的原先經(jīng)驗(yàn)池方法[19]基礎(chǔ)上添加優(yōu)秀經(jīng)驗(yàn)保存,在更替網(wǎng)絡(luò)方面添加了限制探索率的策略模式,具體實(shí)現(xiàn)過(guò)程如下:
①優(yōu)秀經(jīng)驗(yàn)保存會(huì)剔除表現(xiàn)低效的整個(gè)回合樣本點(diǎn),只保留優(yōu)秀回合樣本,網(wǎng)絡(luò)模型在隨機(jī)抽取樣本的時(shí)候不再?gòu)牡托Щ睾蠘颖局袑W(xué)習(xí)經(jīng)驗(yàn)。
②傳統(tǒng)DQN方法在每固定回合后,無(wú)條件將目標(biāo)價(jià)值網(wǎng)絡(luò)參數(shù)替換為評(píng)估價(jià)值網(wǎng)絡(luò)參數(shù)。限制探索率方法與之相比增加了一個(gè)限制探索率,如果多次訓(xùn)練出來(lái)的評(píng)估價(jià)值網(wǎng)絡(luò)的一個(gè)回合獎(jiǎng)勵(lì)值低于目標(biāo)價(jià)值網(wǎng)絡(luò)的一個(gè)回合獎(jiǎng)勵(lì)值乘以限制探索率的值,則這次更新停止反而將評(píng)估價(jià)值網(wǎng)絡(luò)重新替換為目標(biāo)價(jià)值網(wǎng)絡(luò),否定了網(wǎng)絡(luò)模型這一輪回合的探索工作。IM-DQN算法流程[20]如圖2所示。
圖2 IM-DQN算法流程框圖Fig.2 Flowchart of Improved DQN algorithm
本文將IM-DQN算法思想移入到彈道規(guī)劃當(dāng)中。算法采用了3步式的設(shè)計(jì)思路:狀態(tài)空間設(shè)計(jì)、狀態(tài)轉(zhuǎn)移方式設(shè)計(jì)以及獎(jiǎng)勵(lì)值函數(shù)設(shè)計(jì)。
狀態(tài)空間設(shè)計(jì):針對(duì)滑翔段飛行場(chǎng)景,滑翔制導(dǎo)炮彈滑翔橫向距離x、當(dāng)前高度y、飛行速度v、彈道傾角θ及動(dòng)作值作為狀態(tài)空間,定義為S=(xyvθα)。
狀態(tài)轉(zhuǎn)移方式設(shè)計(jì):在IM-DQN算法當(dāng)中,確定當(dāng)前狀態(tài)參數(shù)之后,動(dòng)作價(jià)值網(wǎng)絡(luò)本身就是策略網(wǎng)絡(luò),在有限的動(dòng)作空間內(nèi)選取最大動(dòng)作,相當(dāng)于一個(gè)非線性函數(shù)映射當(dāng)前狀態(tài)下最佳動(dòng)作。確定了當(dāng)前狀態(tài)、動(dòng)作選取以及運(yùn)動(dòng)學(xué)模型,再通過(guò)數(shù)值方法求解相關(guān)非線性方程確定下一狀態(tài)參數(shù)。
獎(jiǎng)勵(lì)值函數(shù)設(shè)計(jì):為提高樣本效率和完成約束限制條件,本文采取連續(xù)獎(jiǎng)勵(lì)項(xiàng)和懲罰項(xiàng)相結(jié)合的獎(jiǎng)勵(lì)函數(shù)設(shè)置,設(shè)計(jì)如下式所示:
r(s)=rx+rp
(5)
式中:rx為每一步的航程獎(jiǎng)勵(lì)函數(shù),只與當(dāng)前點(diǎn)到初始點(diǎn)的距離有關(guān)。rp為約束懲罰項(xiàng)。綜合以上兩點(diǎn),現(xiàn)對(duì)獎(jiǎng)勵(lì)函數(shù)具體設(shè)計(jì)如下式:
(6)
(7)
設(shè)置rx的目的是壓縮每一步的獎(jiǎng)勵(lì),促使著滑翔制導(dǎo)炮彈朝著更遠(yuǎn)的方向飛行。設(shè)置rp的作用是在炮彈落速低于約束限制之后給予一個(gè)懲罰措施。需要注意的是,相比于最優(yōu)控制求解過(guò)程的強(qiáng)制約束,DQN的約束往往呈現(xiàn)的是一種弱約束限制,它只是促使著彈道規(guī)劃落速朝著限制點(diǎn)運(yùn)動(dòng),結(jié)果不一定嚴(yán)格滿足約束,而是在約束附近搖擺不定。
IM-DQN在訓(xùn)練過(guò)程中的步驟如下:
①初始化記憶經(jīng)驗(yàn)池De,設(shè)置神經(jīng)網(wǎng)絡(luò)的超參數(shù),初始化評(píng)估價(jià)值網(wǎng)絡(luò)μ和目標(biāo)價(jià)值網(wǎng)絡(luò)ω。
②外循環(huán):初始滑翔制導(dǎo)炮彈的滑翔起點(diǎn)狀態(tài)參數(shù)s0,然后進(jìn)入到內(nèi)循環(huán)當(dāng)中。
③內(nèi)循環(huán):內(nèi)循環(huán)是一個(gè)訓(xùn)練回合里面的工作循環(huán)。首先在每一步由貪心策略選取動(dòng)作a,執(zhí)行動(dòng)作a即可得到下一狀態(tài)st+1,采用優(yōu)秀經(jīng)驗(yàn)保存機(jī)制存放(starst+1)到經(jīng)驗(yàn)池De當(dāng)中;在隔了N個(gè)步長(zhǎng)后將經(jīng)驗(yàn)池De中隨機(jī)采樣一批樣本(si,a,r,si+1)進(jìn)行價(jià)值判定,當(dāng)提取的樣本滿足終止條件時(shí):yj=rj,而在其它情況下,其價(jià)值均為:yj=rj+γmaxa′Q(st+1,a′,ω),再進(jìn)行梯度計(jì)算loss=[yj-Q(st,at,μt)]2,以此更新評(píng)估網(wǎng)絡(luò)μ。傳統(tǒng)DQN算法是在一定步數(shù)后無(wú)條件更換目標(biāo)價(jià)值網(wǎng)絡(luò),而IM-DQN算法會(huì)根據(jù)限制探索率進(jìn)行更新,若滿足更新限制率,則ω=μ,反之則μ=ω。
本文以滑翔制導(dǎo)炮彈為研究對(duì)象開(kāi)展彈道規(guī)劃,為了更大程度模擬真實(shí)作戰(zhàn)情況以及探索更多狀態(tài)空間,訓(xùn)練過(guò)程中在表1的滑翔參數(shù)基礎(chǔ)上添加隨機(jī)擾動(dòng):滑翔初始高度為57.5~58.5 km,初始速度為1 250~1 300 m/s,初始彈道傾角為-3°~0°。網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為η=0.01,折扣因子γ=0.99,經(jīng)驗(yàn)池容量ND=20 000,采樣規(guī)模ba=64,訓(xùn)練時(shí)間步長(zhǎng)設(shè)置為5 s。仿真實(shí)驗(yàn)全部網(wǎng)絡(luò)采用同一種結(jié)構(gòu),設(shè)置兩個(gè)隱藏層,每層64個(gè)神經(jīng)元,中間全部采用tanh激活函數(shù)進(jìn)行連接。具體網(wǎng)絡(luò)結(jié)構(gòu)及激活函數(shù)設(shè)置設(shè)計(jì)見(jiàn)表2。為更直觀的顯示規(guī)劃算法性能表現(xiàn),設(shè)置參照組最大升阻比方法、GPM方法與強(qiáng)化學(xué)習(xí)算法進(jìn)行橫向性能比較。
表2 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Network structure
考慮到最大升阻比方法無(wú)法對(duì)落速進(jìn)行約束,本文設(shè)計(jì)了兩種實(shí)驗(yàn),最大升阻比方法、DQN方法、IM-DQN方法3種實(shí)驗(yàn)在無(wú)落速約束條件下進(jìn)行仿真對(duì)比;GPM、IM-DQN方法2種實(shí)驗(yàn)在有約束條件下進(jìn)行仿真對(duì)比。
無(wú)落速仿真實(shí)驗(yàn)選擇rx作為獎(jiǎng)勵(lì)函數(shù),不再考慮懲罰約束項(xiàng)。為更方便觀察獎(jiǎng)勵(lì)值的變化趨勢(shì),本文設(shè)計(jì)每100個(gè)值取一次平均值作為平均獎(jiǎng)勵(lì)值點(diǎn)。分別設(shè)計(jì)DQN和IM-DQN算法在10 000、30 000和50 000這三組不同訓(xùn)練回合下的對(duì)比實(shí)驗(yàn),為盡可能減少訓(xùn)練過(guò)程的偶然性對(duì)實(shí)驗(yàn)的影響,每種回合分別訓(xùn)練10次取其中最優(yōu)網(wǎng)絡(luò)參數(shù)。兩種方法的具體獎(jiǎng)勵(lì)趨勢(shì)如圖3和圖4所示。
圖3 無(wú)約束下的DQN算法獎(jiǎng)勵(lì)趨勢(shì)圖Fig.3 Unconstrained DQN algorithm reward trend graph
圖4 無(wú)約束下的IM-DQN算法獎(jiǎng)勵(lì)趨勢(shì)圖Fig.4 Unconstrained IM-DQN algorithm reward trend graph
從上面獎(jiǎng)勵(lì)趨勢(shì)圖可以得出,傳統(tǒng)DQN算法的訓(xùn)練過(guò)程呈現(xiàn)出一種強(qiáng)隨機(jī)性,它的最終序列動(dòng)作很難尋求到航程最優(yōu)值。反觀IM-DQN方法,在不同回合下它們的獎(jiǎng)勵(lì)值全部呈現(xiàn)一個(gè)逐步上升的趨勢(shì)。表3為兩種方法的最終訓(xùn)練結(jié)果。
表3 無(wú)約束下兩種算法的最優(yōu)訓(xùn)練結(jié)果Table 3 The optimal training results of the two algorithms without constraints
根據(jù)對(duì)比結(jié)果看出IM-DQN方法訓(xùn)練結(jié)果更加穩(wěn)定。兩種算法皆在30 000訓(xùn)練回合數(shù)達(dá)到航程最大值,故選取30 000回合數(shù)作為最終訓(xùn)練回合數(shù)。本小節(jié)對(duì)比了IM-DQN方法、DQN方法和最大升阻比方法,3種算法的性能表現(xiàn)如圖5所示。
圖5 3種算法下的性能效果Fig.5 Performance effects of the three algorithms
對(duì)比圖5的仿真結(jié)果可以得出,IM-DQN方法相較于DQN方法和最大升阻比方法的射程都有所提升,其中相較于DQN方法和最大升阻比方法分別提升了9.8 km和19.5 km,說(shuō)明IM-DQN方法在無(wú)約束條件下具有較好的優(yōu)化性能。飛行過(guò)程中該方法對(duì)應(yīng)的速度曲線相較于其它兩種方法更加平滑。3種方法的具體性能如表4所示。
表4 無(wú)約束下的三種方法性能比較Table 4 Performance comparison of three methods without constraints
有落速約束下的獎(jiǎng)勵(lì)函數(shù)選用公式(5),完整考慮連續(xù)獎(jiǎng)勵(lì)項(xiàng)和約束懲罰項(xiàng)。在有落速約束下選取合適的訓(xùn)練回合次數(shù),同樣設(shè)置10 000、30 000和50 000共3組不同訓(xùn)練回合,每組重復(fù)訓(xùn)練10次,各選其中性能表現(xiàn)最好的一組作為實(shí)驗(yàn)參照組。為觀察獎(jiǎng)勵(lì)值點(diǎn)的位置情況,3種訓(xùn)練回合下皆以等差的形式取400個(gè)點(diǎn)作為觀察對(duì)象。獎(jiǎng)勵(lì)值點(diǎn)及其相關(guān)表現(xiàn)如圖6和圖7所示。
圖6 有約束下的DQN算法獎(jiǎng)勵(lì)值點(diǎn)圖Fig.6 Constrained DQN algorithm rewards value point plot
圖7 有約束下的IM-DQN算法獎(jiǎng)勵(lì)值點(diǎn)圖Fig.7 Constrained IM-DQN algorithm rewards value point plot
由圖6和圖7可以得出,兩種方法的獎(jiǎng)勵(lì)值點(diǎn)在不同訓(xùn)練回合的末端皆落于零值以上,說(shuō)明兩種訓(xùn)練方法都可以良好的滿足落速約束限制。但從性能表現(xiàn)來(lái)看,IM-DQN方法訓(xùn)練結(jié)果的獎(jiǎng)勵(lì)值點(diǎn)最后在150附近起伏,而DQN方法的3種訓(xùn)練回合的結(jié)果獎(jiǎng)勵(lì)值僅有15,在圖6中基本與右零刻度線重合,說(shuō)明了航程性能上的差異。兩種方法的具體性能如表5所示。
表5 有約束下兩種算法的最優(yōu)訓(xùn)練結(jié)果Table 5 Optimal training results of two algorithms under constraints
根據(jù)上述仿真實(shí)驗(yàn)結(jié)果可知,在有限次數(shù)訓(xùn)練下,傳統(tǒng)DQN方法的性能效果完全無(wú)法跟相同訓(xùn)練回合下的IM-DQN方法相比。在有約束條件下,DQN方法難以尋求到最優(yōu)動(dòng)作價(jià)值網(wǎng)絡(luò),它僅僅滿足了約束限制,但不能在有約束下尋求最優(yōu)。從不同訓(xùn)練回合可以看出DQN方法隨著訓(xùn)練回合數(shù)增加,網(wǎng)絡(luò)性能逐漸發(fā)生變化,這種情況說(shuō)明要想通過(guò)DQN方法完全體現(xiàn)出其最優(yōu)性能網(wǎng)絡(luò)可能還需要更多的訓(xùn)練回合數(shù),這同時(shí)也延長(zhǎng)了前期訓(xùn)練的準(zhǔn)備時(shí)間,不利于實(shí)際作戰(zhàn)的應(yīng)用。從圖7及表5可以得出,不同于于無(wú)約束情況下,當(dāng)問(wèn)題復(fù)雜之后,隨著訓(xùn)練回合的增多,網(wǎng)絡(luò)所呈現(xiàn)的效果也就越好,綜合考慮下選取50 000訓(xùn)練回合數(shù)的神經(jīng)網(wǎng)絡(luò)作為有約束下的動(dòng)作價(jià)值網(wǎng)絡(luò)。為觀察IM-DQN具體性能表現(xiàn)情況,本小節(jié)設(shè)計(jì)基于最優(yōu)控制理論的高斯偽譜法作為仿真對(duì)比參照組,通過(guò)GPOPS工具箱可以得到最優(yōu)控制規(guī)劃曲線。IM-DQN方法與GPM的具體性能效果對(duì)比仿真如圖8所示。
圖8 兩種算法下的性能對(duì)比效果Fig.8 Performance comparison between the two algorithms
圖8和表6是IM-DQN和GPM算法的性能結(jié)果對(duì)比,由圖可以得出IM-DQN方法規(guī)劃曲線與GPM十分相似,甚至結(jié)果值還略高于GPM,這也展示了強(qiáng)化學(xué)習(xí)在與環(huán)境交互過(guò)程中的優(yōu)越性能,它擁有著在約束條件下尋求最優(yōu)性能網(wǎng)絡(luò)參數(shù)的能力。強(qiáng)化學(xué)習(xí)之所以可以在有約束條件下尋求到了最優(yōu)性航程網(wǎng)絡(luò)參數(shù),是因?yàn)樯疃葟?qiáng)化學(xué)習(xí)在探索過(guò)程中帶有記憶性,并且賦予這種記憶價(jià)值,這種價(jià)值不同于深度學(xué)習(xí)限制于數(shù)據(jù)樣本自身的局限性,強(qiáng)化學(xué)習(xí)的記憶基于與環(huán)境的交互過(guò)程,在環(huán)境交互中評(píng)定動(dòng)作的優(yōu)劣程度,使得深度強(qiáng)化學(xué)習(xí)可以突破單純深度學(xué)習(xí)的局部樣本最優(yōu)解。但在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中有許多因素會(huì)導(dǎo)致網(wǎng)絡(luò)性能崩塌,本文IM-DQN方法添加了低效經(jīng)驗(yàn)池剔除和探索限制率的組合策略,使得網(wǎng)絡(luò)的魯棒性更高,不容易在訓(xùn)練過(guò)程中發(fā)生崩塌。隨著學(xué)習(xí)過(guò)程的逐漸增加,網(wǎng)絡(luò)也積累著更多的知識(shí)從而做出更優(yōu)的指令。
表6 有約束下的兩種方法性能比較Table 6 Performance comparison of two methods under constraints
本文利用強(qiáng)化學(xué)習(xí)與環(huán)境交互的特點(diǎn),提出了一種基于IM-DQN的滑翔制導(dǎo)炮彈彈道規(guī)劃方法,在傳統(tǒng)DQN算法的基礎(chǔ)上,利用低效經(jīng)驗(yàn)池剔除加限制探索率策略,有效解決了傳統(tǒng)DQN學(xué)習(xí)效率低,獎(jiǎng)勵(lì)曲線方向不明確的問(wèn)題。仿真結(jié)果證明,IM-DQN方法很好地解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在尋求最優(yōu)控制過(guò)程中網(wǎng)絡(luò)崩塌現(xiàn)象無(wú)法尋求到最優(yōu)解的問(wèn)題,為智能彈道規(guī)劃提供一種新的選擇。