張晚晴,余文斌,李靜琳,陳萬春
(1.北京航空航天大學(xué) 宇航學(xué)院, 北京 100191; 2.北京宇航系統(tǒng)工程研究所, 北京 100076)
高超聲速滑翔飛行器具有飛行速度快、反應(yīng)時間短、打擊精度高、作戰(zhàn)半徑大等特點(diǎn)[1],在現(xiàn)代化戰(zhàn)爭中具有良好的應(yīng)用前景,近年來成為世界各國廣泛關(guān)注的焦點(diǎn)。與此同時,針對高超聲速目標(biāo)威脅,各國相繼研發(fā)了多種防空反導(dǎo)武器系統(tǒng),大大降低了單個高超聲速滑翔飛行器的突防能力和作戰(zhàn)效能。因此,發(fā)展多高超聲速滑翔飛行器協(xié)同打擊技術(shù),提高對防空反導(dǎo)武器系統(tǒng)的突防概率,成為當(dāng)前各國學(xué)者的研究熱點(diǎn)[2]。
高超聲速飛行器協(xié)同飽和打擊任務(wù)要求飛行器具備一定程度上自由調(diào)節(jié)自身飛行時間的能力,同時在指定時間范圍內(nèi)實現(xiàn)對目標(biāo)的精確打擊。在高超聲速飛行器再入制導(dǎo)過程中,再入滑翔段是飛行距離最遠(yuǎn)、空域跨度最大、氣動特性變化最為劇烈的一段,其制導(dǎo)與控制系統(tǒng)設(shè)計也最為復(fù)雜。傳統(tǒng)針對末制導(dǎo)段的協(xié)同方法多基于定常速度運(yùn)動模型或小角度線化模型設(shè)計[3],難以直接應(yīng)用到再入?yún)f(xié)同制導(dǎo)方法設(shè)計中,因此如何設(shè)計具備飛行時間可控能力的再入制導(dǎo)方法是一個研究難點(diǎn)。
現(xiàn)階段的再入制導(dǎo)方法主要分為兩種:標(biāo)準(zhǔn)軌跡制導(dǎo)法[4-7]和預(yù)測-校正制導(dǎo)法[8-10],在這兩種典型方法的基礎(chǔ)上,又衍生出了標(biāo)準(zhǔn)軌跡與落點(diǎn)預(yù)測混合制導(dǎo)方法,這3種制導(dǎo)方法主要是針對縱向飛行軌跡。在側(cè)向平面,高超聲速飛行器采用傾斜轉(zhuǎn)彎(BTT)模式,通過傾側(cè)反轉(zhuǎn)邏輯來控制飛行器側(cè)向機(jī)動。但目前大多數(shù)再入制導(dǎo)問題未考慮時間約束,對協(xié)同再入制導(dǎo)的研究較少。
關(guān)于時間可控再入制導(dǎo)可以歸結(jié)為縱向彈道調(diào)整與橫向傾側(cè)反轉(zhuǎn)設(shè)計。文獻(xiàn)[11]基于模型預(yù)測靜態(tài)規(guī)劃設(shè)計了協(xié)同再入制導(dǎo)方法,但該方法并未對終端速度與高度進(jìn)行約束管理,難以滿足工程實際需求。文獻(xiàn)[12]分析了影響飛行時間的因素,基于反向傳播(BP)神經(jīng)網(wǎng)絡(luò)提出一種時間可控再入制導(dǎo)方法。該方法通過BP神經(jīng)網(wǎng)絡(luò)在線預(yù)測剩余飛行時間,進(jìn)而調(diào)整航向角走廊寬度以改變飛行時間。仿真論證可知,該制導(dǎo)方法時間調(diào)整范圍為整個再入時間的4%~5%,時間可控范圍較窄,不適用于復(fù)雜的協(xié)同任務(wù)需求。Yu等[13]將縱程制導(dǎo)傾側(cè)角剖面表示為能量的線性函數(shù),基于三維彈道解析解與時間解析解調(diào)整傾側(cè)角剖面參數(shù),用當(dāng)前剩余飛行時間和剩余射程與事先規(guī)劃彈道的偏差來修正由橫向傾側(cè)反轉(zhuǎn)引起的時間偏差,實現(xiàn)了對再入飛行時間的精確控制。Li等[14]同樣將傾側(cè)角剖面參數(shù)化,縱程采用數(shù)值積分預(yù)測剩余射程與剩余時間,進(jìn)而實現(xiàn)對傾側(cè)角剖面的修正,橫程采用剩余時間進(jìn)一步修正傾側(cè)反轉(zhuǎn)時刻。其制導(dǎo)方法雖然實現(xiàn)了對飛行時間的控制,但是終端傾側(cè)反轉(zhuǎn)次數(shù)較多,不利于控制系統(tǒng)跟蹤。文獻(xiàn)[15]在高度-速度剖面內(nèi)設(shè)計了參考軌跡,通過在線數(shù)值預(yù)測剩余飛行航程和時間。而后校正兩個軌跡參數(shù)以滿足航程和時間約束并求取實際控制量,結(jié)合側(cè)向航向角走廊實現(xiàn)了單飛行器的時間約束再入制導(dǎo)。文獻(xiàn)[16]將再入過程劃分為兩個階段,第1個階段通過傾側(cè)角剖面去實現(xiàn)期望攻角約束,第2個階段通過調(diào)整攻角剖面進(jìn)而實現(xiàn)攻擊時間約束。
由于時間可控再入制導(dǎo)的復(fù)雜性與制導(dǎo)實時性要求,常規(guī)再入制導(dǎo)方法難以簡單應(yīng)用到協(xié)同問題上。隨著智能算法的興起,強(qiáng)化學(xué)習(xí)在一些決策問題上的出色表現(xiàn)為再入制導(dǎo)設(shè)計提供了可行的探索方向[17-18],并且其離線訓(xùn)練-在線使用模式具有較強(qiáng)的適應(yīng)性與實時性。文獻(xiàn)[19]結(jié)合了強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò),運(yùn)用確定性策略梯度下降的深度神經(jīng)網(wǎng)絡(luò)(DDPG)算法設(shè)計傾側(cè)角剖面,實現(xiàn)了再入制導(dǎo)設(shè)計。文獻(xiàn)[20]提出了一種飛行時間約束的再入制導(dǎo)方法,該制導(dǎo)方法縱向制導(dǎo)運(yùn)用數(shù)值預(yù)測-校正計算傾側(cè)角,橫向制導(dǎo)將傾側(cè)反轉(zhuǎn)邏輯視為馬爾可夫決策問題,運(yùn)用強(qiáng)化學(xué)習(xí)尋找滿足時間和射程約束的橫向制導(dǎo)最優(yōu)策略,但其未考慮地球自轉(zhuǎn)引起的慣性力,不適用于實際再入飛行過程。文獻(xiàn)[21]將飛行環(huán)境構(gòu)建為包含千萬量級狀態(tài)點(diǎn)的狀態(tài)空間,采用強(qiáng)化學(xué)習(xí)算法訓(xùn)練制導(dǎo)模型參數(shù),縱向制導(dǎo)依然采用基于定攻角剖面的傾側(cè)角迭代方法,橫向制導(dǎo)則利用Q-學(xué)習(xí)算法訓(xùn)練橫向翻轉(zhuǎn)決策器。雖然智能決策結(jié)果使再入飛行器在復(fù)雜任務(wù)中可以發(fā)揮其較強(qiáng)的機(jī)動能力,但是仿真結(jié)果命中精度不及傳統(tǒng)的預(yù)測-校正制導(dǎo)方法。
相比于數(shù)值預(yù)測-校正制導(dǎo)方法,基于彈道解析解的制導(dǎo)方法能夠?qū)υ偃霃椀肋M(jìn)行精準(zhǔn)預(yù)測,減少在線計算時間,滿足工程上實時應(yīng)用的需求。而強(qiáng)化學(xué)習(xí)類方法憑借其處理復(fù)雜模型、受擾動模型,甚至無模型情況下控制問題所具有的設(shè)計流程通用性、自學(xué)習(xí)自適應(yīng)能力、泛化能力強(qiáng)的特點(diǎn),逐步運(yùn)用于飛行器制導(dǎo)方法設(shè)計中。
基于以上分析,本文提出一種基于縱程解析解的橫向智能機(jī)動再入?yún)f(xié)同制導(dǎo)方法。基于旋轉(zhuǎn)地球模型,本文首先給出基于縱程解析解的縱向制導(dǎo)方法結(jié)構(gòu),之后引入深度Q-學(xué)習(xí)網(wǎng)絡(luò)(DQN)進(jìn)行橫向傾側(cè)反轉(zhuǎn)規(guī)劃策略設(shè)計,實現(xiàn)位置、飛行時間、能量管理等多約束協(xié)同再入制導(dǎo),并通過仿真進(jìn)行驗證。
旋轉(zhuǎn)地球模型下,高超聲速飛行器的6自由度動力學(xué)方程[6]為
(1)
(2)
(3)
(4)
2vωecosφsinψ],
(5)
(6)
式中:λ為經(jīng)度;t為時間;v為飛行器相對于地球固連坐標(biāo)系的速度;γ為彈道傾角;ψ為飛行器航向角,以當(dāng)?shù)乇毕驗榛鶞?zhǔn);Re為地球半徑,Re=6 378.137 km;H為海拔高度;φ為緯度;D為阻力,D=0.5ρv2SCD,ρ為大氣密度,S為飛行器參考面積,CD為阻力系數(shù);m為飛行器質(zhì)量;g為重力加速度;ωe為地球自轉(zhuǎn)角速度;L為升力,L=0.5ρv2SCL,CL為升力系數(shù);σ為傾側(cè)角。
高超聲速飛行器滑翔段過程約束為
(7)
(8)
(9)
本文研究的再入段終點(diǎn)嚴(yán)格來說并非是一個點(diǎn),而是一定大小的區(qū)域,飛行器在進(jìn)入該區(qū)域的同時也要保證具有相應(yīng)的速度大小和方向。定義tf為再入段終止時刻,則終端約束設(shè)計為λ(tf)=λd、φ(tf)=φd、v(tf)=vd、H(tf)=Hd、tf=td、Rtm(tf)=Sd、σd≈0°、γd≈0°、Δψd≈0°,λd、φd、vd、Hd、td、σd、γd、Δψd分別為期望的終端經(jīng)度、終端緯度、終端速度、終端高度、終端時間、終端傾側(cè)角、終端彈道傾角、終端航向角誤差,Rtm為飛行器與目標(biāo)之間的距離。
根據(jù)再入彈道的特性,將其劃分為初始下降段、平穩(wěn)滑翔段和高度調(diào)整段3部分[6]。制導(dǎo)方法流程如圖1所示。
圖1 基于縱程解析解的智能橫程機(jī)動再入?yún)f(xié)同制導(dǎo)方法流程
(10)
σc=0°,
(11)
Δγ=γ-γG,
(12)
(13)
式中:kγ為反饋系數(shù),kγ=5;γG為平穩(wěn)滑翔彈道傾角,
(14)
hS為標(biāo)稱高度。(14)式是令彈道傾角2階導(dǎo)數(shù)為0°/s2平穩(wěn)滑翔條件下求得的平穩(wěn)滑翔彈道傾角[7]。當(dāng)Δγ=0°時,飛行器進(jìn)入平穩(wěn)滑翔階段。
2.2.1 基準(zhǔn)攻角剖面設(shè)計
鑒于縱程解析解[6]是以能量為自變量設(shè)計的,為更方便地利用解析解,本文提出的制導(dǎo)方法中所有的參考剖面均采用單位能量E作為自變量。設(shè)計參考攻角剖面αb為
(15)
式中:αi和αf分別為基準(zhǔn)攻角剖面設(shè)計初值參數(shù)和終值參數(shù);Eα為參考攻擊剖面的分段函數(shù)轉(zhuǎn)換點(diǎn),位于平穩(wěn)滑翔段與最后的高度調(diào)整段的交界點(diǎn)附近,設(shè)為Eα=-5.55×107J/kg;Ed為期望終端能量。為發(fā)揮出飛行器的最大能力,設(shè)計攻角為最大升阻比對應(yīng)攻角,即αi=10°.設(shè)計攻角為能量的二次函數(shù)是為了使攻角可以從αi平緩地過渡到αf.在本文制導(dǎo)方法中,設(shè)計αf=6°.當(dāng)攻角剖面設(shè)計完成時,相應(yīng)的參考升阻比Kb也隨之確定。
2.2.2 基準(zhǔn)升阻比剖面設(shè)計
為滿足射程要求,設(shè)計參考縱向升阻比剖面KLb為
KLb=
(16)
式中:KLi和KLf分別為基準(zhǔn)升阻比剖面設(shè)計初值參數(shù)和終值參數(shù)。
令縱程解析解等于剩余射程,即可求得KLi.設(shè)計KLf=Kd是為了使得終端的傾側(cè)角為0°,其中Kd是終端時刻的升阻比。通過設(shè)計(16)式的形式,可在飛行過程中控制傾側(cè)角近似為常值。
為求解KLi,首先需要計算剩余飛行射程xDf.在地心旋轉(zhuǎn)坐標(biāo)系下[6],定義η為從地球中心指向飛行器的矢量與從地球中心指向目標(biāo)的矢量之間夾角??紤]到滑翔段中飛行器的高度變化相較于地球半徑而言量級較小,對生成傾側(cè)角指令影響較小,此處忽略高程變化因素,則剩余飛行射程可表示為
xDf=Reη-Sd,
(17)
式中:Sd為再入段結(jié)束時到目標(biāo)的距離。求解KLi的過程可見文獻(xiàn)[6],結(jié)果為:
當(dāng)E≥Eα?xí)r,有
(18)
(19)
(20)
(21)
(22)
R*=Re+H,μ為引力常量,hij(i=1,2;j=0,1)、α1和γ1均為常值系數(shù),具體求解方法見文獻(xiàn)[6]。
當(dāng)E 文獻(xiàn)[12]中分析表明,不同的航向角走廊寬度,即不同的橫向傾側(cè)反轉(zhuǎn)機(jī)制設(shè)計,會影響飛行航程,進(jìn)而影響飛行時間。由于再入飛行時間與橫向反轉(zhuǎn)策略的關(guān)系非線性程度很高,二者的關(guān)系難以解析表達(dá),因此傳統(tǒng)的橫向制導(dǎo)策略方法將無法適用于解決飛行時間約束問題。 考慮到高超聲速飛行器再入橫向傾側(cè)反轉(zhuǎn)規(guī)劃本質(zhì)上是一個典型的二值決策問題,即根據(jù)當(dāng)前狀態(tài)和目標(biāo)給出傾側(cè)角符號“+”或“-”,因此本文基于強(qiáng)化學(xué)習(xí)方法設(shè)計再入橫向制導(dǎo)智能決策器,通過調(diào)節(jié)傾側(cè)角符號實現(xiàn)再入飛行時間的可控性。 解決強(qiáng)化學(xué)習(xí)問題的框架是馬爾可夫決策過程[22],由元組(S,A,P,R,η)描述,其中:S為有限的狀態(tài)空間,且任意狀態(tài)s∈S;A為有限動作空間,且任意動作a∈A;P為狀態(tài)轉(zhuǎn)移概率;R為回報函數(shù);η為折扣因子,η∈[0,1],用來計算累積回報[23]。其目標(biāo)是找到最優(yōu)策略π,使得該策略下總回報最大。 2.3.1 基于DQN算法的橫向制導(dǎo) 考慮到再入橫向制導(dǎo)問題是一個狀態(tài)空間連續(xù)、動作空間離散的問題,選擇DQN算法進(jìn)行橫向制導(dǎo)方法設(shè)計[24]。 DQN算法是一種將Q-學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的強(qiáng)化學(xué)習(xí)算法,其算法結(jié)構(gòu)如圖2所示。在每個訓(xùn)練周期內(nèi),DQN算法隨機(jī)抽取來自經(jīng)驗池的樣本對兩個網(wǎng)絡(luò)進(jìn)行訓(xùn)練。使用一個網(wǎng)絡(luò)產(chǎn)生當(dāng)前狀態(tài)-動作值函數(shù)Q(st,at;θ),其中st和at分別表示當(dāng)前時刻的狀態(tài)和動作,θ為網(wǎng)絡(luò)參數(shù)。使用另一個網(wǎng)絡(luò)產(chǎn)生目標(biāo)狀態(tài)-動作值函數(shù),表示為 圖2 DQN算法結(jié)構(gòu) QT(st,at;θ-)= (23) 式中:θ-為該網(wǎng)絡(luò)參數(shù);Rt為當(dāng)前時刻期望值;stf為終端時刻狀態(tài)。在訓(xùn)練過程中,DQN根據(jù)網(wǎng)絡(luò)參數(shù)θ的動作評價網(wǎng)絡(luò)對當(dāng)前狀態(tài)st下能夠采取的動作集A中所有動作的價值Q(st,at;θ)進(jìn)行估計,輸出其中具有最大價值的動作;之后根據(jù)最大價值動作的實際價值與估計值之間的誤差對參數(shù)θ進(jìn)行更新。為保證網(wǎng)絡(luò)具有一定的探索能力,定義探索率ε,使得每次輸出均存在概率ε進(jìn)行隨機(jī)動作選擇。 根據(jù)Q(st,at;θ)的Bellman方程形式,神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,定義第i次迭代的損失函數(shù)為 (24) 式中:θi為第i次迭代網(wǎng)絡(luò)參數(shù)。經(jīng)過一段時間的學(xué)習(xí)后,采用梯度下降法用新的θi更新目標(biāo)值函數(shù)網(wǎng)絡(luò)參數(shù)θ-,可以在一定程度降低當(dāng)前Q值和目標(biāo)Q值的相關(guān)性,提高算法穩(wěn)定性: (25) 2.3.2 馬爾可夫決策過程建模 首先對橫向飛行過程進(jìn)行馬爾可夫決策過程建模??紤]到由橫向飛行狀態(tài)控制再入飛行時間,并綜合射程、落點(diǎn)誤差和能量管理要求,構(gòu)建狀態(tài)歸一化空間S為 (26) (27) (28) (29) (30) (31) (32) 式中:λgo、φgo分別為剩余經(jīng)度和剩余緯度,λgo=λd-λ,φgo=φd-φ;v0為再入初始速度;Sgo為剩余射程,Sgo=Reη;tgo為剩余飛行時間,tgo=td-t;下標(biāo)0表示初始時刻的狀態(tài),如λgo0與φgo0分別為初始時刻的剩余經(jīng)度與剩余緯度。 由于傾側(cè)角符號僅有正、負(fù)兩個選項(當(dāng)傾側(cè)角大小為0°時視為符號為正),設(shè)符號函數(shù)表示為sign(·),因此動作空間集合A為 A=sign(σ)={1,-1}. (33) 再入制導(dǎo)問題是一個多約束問題,需要滿足落點(diǎn)偏差、飛行時間、終端速度、終端高度、過程約束等多項指標(biāo),存在的可行解范圍較窄,因此回報函數(shù)的合理設(shè)計對再入問題至關(guān)重要??紤]到本文中終端速度、高度約束由縱向制導(dǎo)設(shè)計決定,橫向制導(dǎo)主要考慮射程與時間約束。所以結(jié)合混合回報函數(shù)設(shè)計方法,將回報函數(shù)R(stf)設(shè)計為階梯狀,如(34)式所示: R(stf)= (34) 式中:ΔSgo為射程誤差,ΔSgo=Sgo(tf)-Sd;Δtgo為飛行時間誤差,Δtgo=tf-td;B為傾側(cè)反轉(zhuǎn)次數(shù);ξB為反轉(zhuǎn)次數(shù)權(quán)重值,ξB越大,橫向決策器會傾向于向傾側(cè)反轉(zhuǎn)次數(shù)較少的方向?qū)W習(xí)。本文選擇ξB=5、ξB=10與ξB=20分別進(jìn)行學(xué)習(xí),其中ξB=5和ξB=10的學(xué)習(xí)效果如圖3所示。由圖3可以看出,當(dāng)ξB減小時,收斂速度加快,但是訓(xùn)練出來的結(jié)果傾側(cè)反轉(zhuǎn)次數(shù)會較多。 訓(xùn)練結(jié)束后,在線應(yīng)用生成的智能體進(jìn)行橫向傾側(cè)決策,即可以實現(xiàn)再入?yún)f(xié)同制導(dǎo)。制導(dǎo)流程如圖4所示。 圖4 基于DQN算法的智能橫向機(jī)動決策器 KHb=sign·|KHb|, (35) 式中:sign為表示傾側(cè)反轉(zhuǎn)方向的符號變量。得到橫向升阻比剖面后,參考傾側(cè)角剖面σb也隨之確定,表示為 (36) 式中:Kr表示實際的升阻比。為保證參考剖面的跟蹤精度,這里采用了彈道阻尼控制技術(shù)[7]來抑制再入彈道存在的長周期、弱阻尼的振蕩。設(shè)計指令攻角αc與傾側(cè)角σc分別為 (37) (38) 式中:KγG是彈道阻尼控制系數(shù)的反饋系數(shù),取值為5.平穩(wěn)滑翔段需要滿足過程約束,故將(7)式~(9)式的過程約束轉(zhuǎn)變?yōu)閮A側(cè)角約束,表示為 (39) (40) (41) (42) 式中:Hmin對應(yīng)滑翔高度的最低邊界,可以通過過程約束求得;kσ為常值系數(shù),kσ=-50.因此,為滿足過程約束,傾側(cè)角需要滿足: |σc|≤σmax. (43) 設(shè)平穩(wěn)滑翔段與高度調(diào)整段的交班點(diǎn)能量為EA.當(dāng)能量E 2.5.1 交班點(diǎn)能量EA調(diào)整算法 為嚴(yán)格滿足終端高度約束,且使得末段彈道更加平滑,高度調(diào)整階段設(shè)計采用三維比例導(dǎo)引律進(jìn)行制導(dǎo)。通過對平穩(wěn)滑翔段制導(dǎo)方法的分析可知,如果減小EA,制導(dǎo)方法指令將會產(chǎn)生更大的傾側(cè)角以消除最后一次傾側(cè)反轉(zhuǎn)時產(chǎn)生更大的航向誤差,從而使縱向升阻比減小,降低終端速度vf.因此,vf可視為關(guān)于EA的單調(diào)函數(shù)。為保證終端約束,這個問題可視為求解非線性方程vf(EA)=vd解的問題。這里采用割線法進(jìn)行求解,通過多次彈道仿真對vf進(jìn)行預(yù)測,并根據(jù)預(yù)測值與終端約束的偏差調(diào)整EA的值: (44) 2.5.2 高度調(diào)整段制導(dǎo)方法 當(dāng)飛行器進(jìn)入高度調(diào)整階段后,本文采用三維比例導(dǎo)引制導(dǎo)方法進(jìn)行控制。在航跡(FP)坐標(biāo)系[25]下,指令加速度矢量為 (45) (46) (47) 式中:γLOS、ψLOS分別表示縱向平面視線角與橫向平面視線角, (48) (49) (50) (51) (52) 橫向平面內(nèi)機(jī)動加速度指令為 (53) 因此可得參考傾側(cè)角σb為 (54) 升力加速度大小為 (55) 則升力系數(shù)為 (56) 則可根據(jù)升力系數(shù)與馬赫數(shù)反求得攻角αb[27].注意攻角需要滿足過程約束,即αb∈[αmin,αmax],其中αmin與αmax分別為飛行器許可攻角的最小值與最大值。 為了滿足過程約束,與2.4節(jié)相同,傾側(cè)角仍然需要滿足|σc|≤σmax,其中σmax可由(39)式計算得到。 再入飛行器模型選擇CAV-H[27]飛行器,其質(zhì)量為906.4 kg,參考面積為0.483 87 m2.本文采用的DQN算法網(wǎng)絡(luò)結(jié)構(gòu)如圖 5所示,隱藏層神經(jīng)元節(jié)點(diǎn)數(shù)均為200,采用ReLU激活函數(shù)。 圖5 DQN網(wǎng)絡(luò)結(jié)構(gòu) 網(wǎng)絡(luò)參數(shù)設(shè)定如表1所示。對于高超聲速再入飛行過程,采樣時間如果設(shè)置過短,可能會造成飛行器頻繁反轉(zhuǎn),降低尋找最優(yōu)解效率。若采樣時間過長,則有可能遺漏更優(yōu)策略。考慮高超聲速飛行器再入飛行時間較長,且較為頻繁的傾側(cè)反轉(zhuǎn)會影響控制系統(tǒng)的穩(wěn)定性,這里設(shè)置采樣時間為50 s. 表1 DQN網(wǎng)絡(luò)參數(shù)設(shè)置 為了驗證本文提出的基于縱程解析解的智能橫程機(jī)動再入?yún)f(xié)同制導(dǎo)方法有效性,在標(biāo)稱條件下,與Yu[13]提出的基于三維解析解的再入?yún)f(xié)同制導(dǎo)方法(AGCF)以兩個再入任務(wù)案例進(jìn)行仿真對比分析。任務(wù)初始設(shè)置條件如表2所示。再入初始高度為80 km,兩個任務(wù)均打擊同一目標(biāo)點(diǎn),目標(biāo)經(jīng)緯度坐標(biāo)為(0°,-30°)。終端射程約束為Sd=50 km,終端高度約束為Hd=25 km,終端速度約束為vd=2 000 m/s.由于高超聲速飛行器在再入過程中的機(jī)動能力有限,在多種約束下時間調(diào)節(jié)能力不大,因此飛行任務(wù)的時間約束設(shè)置較為嚴(yán)苛。基于制導(dǎo)方法[6-7]的經(jīng)驗,設(shè)計再入期望時間如表2所示。 表2 再入任務(wù)初始條件設(shè)置 仿真結(jié)果如圖6~圖11和表3所示。由表3可以看出,兩種制導(dǎo)算法均能嚴(yán)格滿足終端時間、射程、速度和高度約束。由圖6的經(jīng)度-緯度曲線可知,基于三維解析解的再入?yún)f(xié)同制導(dǎo)方法規(guī)劃出的彈道大多沿著飛行器與目標(biāo)構(gòu)成的大圓弧進(jìn)行運(yùn)動,而本文基于縱程解析解的智能橫程機(jī)動再入?yún)f(xié)同制導(dǎo)方法規(guī)劃出來的彈道具有更大的橫程機(jī)動,能夠充分發(fā)揮飛行器的側(cè)向機(jī)動能力,極大地增加了突防的成功概率。圖7的高度-時間曲線與圖11的彈道傾角-時間曲線顯示:相比于AGCF,本文制導(dǎo)方法規(guī)劃的高度曲線更加平滑,更容易應(yīng)對較為嚴(yán)苛的過程約束;特別是即將命中目標(biāo)的最后飛行階段,AGCF彈道高度有明顯的跳起,容易造成較大的終端高度偏差和彈道傾角誤差。圖8展示了速度-時間變化曲線,可以明顯得看出更短的飛行時間約束會使速度減小更快。圖9對比了兩種再入任務(wù)的傾側(cè)角-時間曲線,最后傾側(cè)角大小均收斂到了0°附近。雖然基于DQN的智能橫向機(jī)動決策器會在剛開始進(jìn)入平穩(wěn)滑翔段的時候迅速進(jìn)行一次傾側(cè)反轉(zhuǎn),但是由于訓(xùn)練時采樣時間設(shè)置的比較大,且本文對傾側(cè)角指令變化率進(jìn)行了限幅,所以傾側(cè)反轉(zhuǎn)速率在控制系統(tǒng)能力允許范圍內(nèi)。由圖9可以看出,相比于AGCF,除去飛行器由初始下降段剛開始進(jìn)入平穩(wěn)滑翔段時一次微小的傾側(cè)反轉(zhuǎn),本文提出的制導(dǎo)方法在平穩(wěn)滑翔階段的傾側(cè)反轉(zhuǎn)次數(shù)比AGCF要少,控制更為簡單,飛行器的潛在橫向機(jī)動能力也得到了更大程度的開發(fā)。圖10顯示了兩種制導(dǎo)方法攻角時間曲線對比圖。由于兩種制導(dǎo)方法采用的高度調(diào)整段制導(dǎo)策略不一致,末段攻角曲線有較大差別。AGCF末段通過調(diào)整攻角的最小值以滿足高度約束,然而其彈道曲線在末段振蕩較為劇烈。在末段稠密大氣環(huán)境中,過大的振蕩會對飛行器熱控系統(tǒng)帶來較大的壓力。因此,本文則采用三維比例導(dǎo)引策略以滿足終端高度約束,這樣可以使得圖7中的彈道曲線變化更加平緩。在本文中,當(dāng)飛行器由平穩(wěn)滑翔段過渡到高度調(diào)整段時,縱向平面內(nèi)合外力不再滿足平穩(wěn)滑翔條件,所反求得到的攻角存在突變現(xiàn)象,但是通過1.2節(jié)中對攻角的變化率進(jìn)行約束,可以使得攻角變化在控制系統(tǒng)承受范圍內(nèi),滿足工程實際需求。 圖6 兩種再入任務(wù)下不同制導(dǎo)方法的經(jīng)度-緯度曲線對比 圖7 兩種再入任務(wù)下不同制導(dǎo)方法的高度-時間曲線對比 圖8 兩種再入任務(wù)下不同制導(dǎo)方法的速度-時間曲線對比 圖9 兩種再入任務(wù)下不同制導(dǎo)方法的傾側(cè)角-時間曲線對比 圖10 兩種再入任務(wù)下不同制導(dǎo)方法的攻角-時間曲線對比 圖11 兩種再入任務(wù)下不同制導(dǎo)方法的彈道傾角-時間曲線對比 表3 兩種再入任務(wù)下不同制導(dǎo)方法的仿真結(jié)果對比 在訓(xùn)練好的智能體基礎(chǔ)上,改變初始發(fā)射點(diǎn)與期望時間約束,進(jìn)行多智能體協(xié)同打擊任務(wù)。3個飛行器的初始仿真設(shè)置如表4所示。 表4 多飛行器再入初始條件設(shè)置 再入初始高度為80 km.打擊目標(biāo)經(jīng)緯度坐標(biāo)為(0°,-30°)。終端射程約束Sd=50 km,終端高度約束Hd=25 km,終端速度約束vd=2 000 m/s.飛行器M1~M3的初始發(fā)射時間分別為0 s、117.7 s和204.6 s. 飛行器M1、M2、M3分別基于回報函數(shù)((34)式)中傾側(cè)反轉(zhuǎn)次數(shù)的權(quán)重ζB=10(飛行器M1、M2)和ζB=20訓(xùn)練得到的智能體進(jìn)行制導(dǎo)仿真。 仿真結(jié)果如圖12~圖16和表5所示。由圖12的經(jīng)度-緯度曲線可以看出,針對不同初始點(diǎn)與再入時間約束,飛行器展現(xiàn)出不同的橫向機(jī)動能力。圖13為多飛行器協(xié)同打擊任務(wù)的高度-能量曲線,從中可以看出過程約束均嚴(yán)格滿足。圖14為多飛行器協(xié)同打擊任務(wù)的速度-時間曲線。圖15中的傾側(cè)角-時間曲線顯示,相比于傳統(tǒng)的制導(dǎo)律規(guī)劃軌跡方法較為固定,本文提出的橫向智能機(jī)動策略則更具創(chuàng)造性。由于設(shè)計M3飛行器回報函數(shù)時傾側(cè)反轉(zhuǎn)次數(shù)的權(quán)重ζB較大,所以飛行器能夠憑借更少的傾側(cè)反轉(zhuǎn)次數(shù)命中目標(biāo),橫向機(jī)動幅度更大。而飛行器M1和M2的傾側(cè)角控制曲線顯示,盡管本文在設(shè)計DQN算法時有意識地朝著減少傾側(cè)反轉(zhuǎn)次數(shù)的方向設(shè)計回報函數(shù),但是根據(jù)不同的任務(wù)需求,制導(dǎo)算法可以智能調(diào)節(jié)橫向機(jī)動能力,以實現(xiàn)終端時間約束與射程約束。圖16為多飛行器協(xié)同打擊任務(wù)攻角-時間曲線。表5展現(xiàn)了多智能體協(xié)同打擊任務(wù)的狀態(tài)量誤差,可以看出,協(xié)同飛行時間誤差控制在0.1 s以內(nèi),終端射程偏差不超過0.1 m,驗證了本文提出的再入?yún)f(xié)同制導(dǎo)方法的有效性與準(zhǔn)確性。綜合來看,基于智能橫向機(jī)動的多智能體協(xié)同制導(dǎo)可以通過不同橫向機(jī)動形式在指定時間打擊目標(biāo),極大地增加了突防成功概率,為飽和打擊任務(wù)提供了可能。 圖12 多飛行器協(xié)同打擊任務(wù)的經(jīng)度-緯度曲線 圖13 多飛行器協(xié)同打擊任務(wù)的高度-能量曲線 圖14 多飛行器協(xié)同打擊任務(wù)的速度-時間曲線 圖15 多飛行器協(xié)同打擊任務(wù)的傾側(cè)角-時間曲線 圖16 多飛行器協(xié)同打擊任務(wù)的攻角-時間曲線 表5 多飛行器協(xié)同飽和打擊任務(wù)的仿真結(jié)果 本文設(shè)計了一種基于縱程解析解的智能橫程機(jī)動再入?yún)f(xié)同制導(dǎo)方法,可以實現(xiàn)高超聲速飛行器協(xié)同攻擊。得出主要結(jié)論如下: 1)本文制導(dǎo)方法的橫向制導(dǎo)方法設(shè)計基于強(qiáng)化學(xué)習(xí)DQN算法。相比于AGCF,本文制導(dǎo)方法采用調(diào)節(jié)回報函數(shù)權(quán)重的方法,可以有效減少傾側(cè)反轉(zhuǎn)次數(shù),使得再入飛行器在復(fù)雜任務(wù)中更大程度發(fā)揮其橫程機(jī)動能力成為可能,增大了突防概率。 2)針對不同再入任務(wù),基于DQN的橫向智能決策器擺脫了原來基于規(guī)則的橫向制導(dǎo)邏輯約束,具備自主智能調(diào)節(jié)反轉(zhuǎn)策略的能力和良好的任務(wù)適應(yīng)性,使得再入彈道橫向設(shè)計具有更多的可能性。 3)在高度調(diào)整階段采用三維比例導(dǎo)引進(jìn)行設(shè)計,在嚴(yán)格滿足終端高度約束的條件下,能夠使高度曲線變化更加平緩,更易滿足嚴(yán)苛的過程約束。 4)本文制導(dǎo)方法采用“離線強(qiáng)化學(xué)習(xí)+在線智能體應(yīng)用”的模式,能夠適應(yīng)不同起始點(diǎn)、不同飛行時間約束等問題,制導(dǎo)精度較高,具有良好的應(yīng)用前景。考慮到其優(yōu)秀的橫程機(jī)動能力,未來有望應(yīng)用于多飛行器協(xié)同規(guī)避多禁飛區(qū)軌跡設(shè)計,進(jìn)一步提高高超聲速武器智能化水平。2.3 基于強(qiáng)化學(xué)習(xí)的橫向制導(dǎo)方法設(shè)計
2.4 指令攻角與傾側(cè)角設(shè)計
2.5 高度調(diào)整段制導(dǎo)方法
3 仿真驗證
3.1 與基于三維解析解再入?yún)f(xié)同制導(dǎo)方法對比仿真
3.2 多智能體協(xié)同打擊仿真
4 結(jié)論