吳健發(fā),魏春嶺,張海博
(1. 北京控制工程研究所,北京 100094; 2. 空間智能控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100094)
根據(jù)NASA軌道碎片項(xiàng)目辦公室的統(tǒng)計(jì),截至2022年3月,編目的空間碎片總數(shù)已接近26000個(gè)[1]。密集分布的空間碎片對航天器的在軌安全運(yùn)行造成嚴(yán)重威脅,近年來已發(fā)生多起航天器與碎片的交會事件,例如,2021年5月12日,國際空間站在例行檢查中發(fā)現(xiàn)其機(jī)械臂已被未知的空間碎片撞出一個(gè)明顯的破洞;2022年1月18日,我國清華科學(xué)衛(wèi)星與俄羅斯的宇宙1408衛(wèi)星碎片發(fā)生了一次極危險(xiǎn)交會,雙方最近距離僅14.5 m。如何使航天器自主、安全地規(guī)避規(guī)模日漸龐大的空間碎片群,已成為目前各航天大國研究的重要課題。
航天器自主規(guī)避技術(shù)主要涵蓋感知、規(guī)劃和控制三個(gè)層面,其中規(guī)劃技術(shù)基于感知的空間態(tài)勢,生成航天器的最優(yōu)規(guī)避路徑和機(jī)動動作,并對姿軌控制系統(tǒng)下達(dá)控制指令,在三個(gè)層面技術(shù)中起“大腦中樞”的關(guān)鍵作用,受到廣泛的關(guān)注。從目前的文獻(xiàn)來看,如果以決策行為模式的角度分類,則相應(yīng)的規(guī)避動作規(guī)劃方法可分為慎思式和反應(yīng)式兩類方法[2]。慎思式動作規(guī)劃方法通過對當(dāng)前/歷史狀態(tài)信息進(jìn)行邏輯推理的方式實(shí)現(xiàn)決策,形式上表現(xiàn)為“狀態(tài)-估計(jì)-預(yù)測-建模-規(guī)劃-動作”的分層串行規(guī)劃過程,其典型方法為基于預(yù)測控制的動作規(guī)劃方法,即預(yù)測有限步長內(nèi)的威脅狀態(tài),基于此優(yōu)化該時(shí)間段內(nèi)的控制序列,最后執(zhí)行當(dāng)前時(shí)刻所需控制輸入,例如,Weiss等[3]針對航天器交會對接問題,提出一種動態(tài)可重構(gòu)約束的線性二次模型預(yù)測控制制導(dǎo)方法,該方法基于測量的相對距離和角度估計(jì)航天器狀態(tài),進(jìn)而根據(jù)估計(jì)信息并結(jié)合視野錐、控制器帶寬和羽流方向等非線性約束條件,采用二次規(guī)劃方法求解相應(yīng)控制量;Li等[4]針對軌道追逃問題,首先采用無跡Kalman濾波算法估計(jì)對手的未知信息,進(jìn)而將估計(jì)參數(shù)輸入基于微分對策的最優(yōu)逃逸策略中,實(shí)現(xiàn)不完全信息條件下的軌道博弈??傮w而言,這類方法能取得不錯(cuò)的規(guī)劃效果,但求解流程比較復(fù)雜,各環(huán)節(jié)累加計(jì)算耗時(shí)較長,不利于對威脅做出快速反應(yīng)[2]。
與之相對的是反應(yīng)式規(guī)劃方法,即根據(jù)一定規(guī)則直接基于當(dāng)前/歷史狀態(tài)信息映射出對應(yīng)動作,形式上表現(xiàn)為沒有“預(yù)測”、“建模”等環(huán)節(jié)的“狀態(tài)-動作”端到端決策過程,例如文獻(xiàn)[5-6]提到的應(yīng)急機(jī)動決策方法。由于空間光照條件復(fù)雜,可能會影響航天器探測設(shè)備成像的連續(xù)性,容易造成空間碎片的漏檢[7]。當(dāng)航天器重新檢測到碎片時(shí),二者距離可能已相當(dāng)接近,必須盡快規(guī)劃并執(zhí)行相應(yīng)的規(guī)避動作。相較于慎思式方法,反應(yīng)式方法在這類場景下可能具有更好的適用性,原因在于反應(yīng)式方法具有更快的決策速度,有利于對多發(fā)、突發(fā)、動態(tài)的空間碎片群做出及時(shí)地響應(yīng)。然而,由于不存在直接的“預(yù)測”和“建?!杯h(huán)節(jié),導(dǎo)致部分基于簡單規(guī)則的反應(yīng)式方法因不能充分利用歷史和模型信息而產(chǎn)生并不理想的規(guī)劃效果。
近年來,以深度強(qiáng)化學(xué)習(xí)為代表的新一代人工智能方法廣泛應(yīng)用于各類復(fù)雜系統(tǒng)的優(yōu)化控制問題,其具有如下優(yōu)點(diǎn)[8]:(1)引入的深度神經(jīng)網(wǎng)絡(luò)一方面能在與環(huán)境的交互過程中充分提取歷史信息的特征并學(xué)習(xí)到其中的狀態(tài)變化規(guī)律,實(shí)現(xiàn)間接的高質(zhì)量“預(yù)測”,另一方面具備強(qiáng)大的非線性逼近能力,可有效應(yīng)對高維連續(xù)狀態(tài)-動作空間下的優(yōu)化控制問題;(2)深度強(qiáng)化學(xué)習(xí)得到的策略在使用時(shí)只需進(jìn)行一個(gè)神經(jīng)網(wǎng)絡(luò)的前向傳播過程,適用于具有高實(shí)時(shí)性需求的決策任務(wù)。這些優(yōu)點(diǎn)使得通過反應(yīng)式規(guī)劃方法生成高質(zhì)量的規(guī)避動作成為可能,從而吸引了眾多學(xué)者進(jìn)行探索,例如,針對離散動作空間,Ge等[9]提出一種可采用深度Q學(xué)習(xí)的航天器反應(yīng)式魯棒軌跡規(guī)劃方法,可生成針對動態(tài)威脅的無碰撞軌跡走廊;在此基礎(chǔ)上,一些研究進(jìn)一步提出面向連續(xù)動作空間的深度強(qiáng)化學(xué)習(xí)方法,其搜索空間更大,求解質(zhì)量更高,在航空宇航領(lǐng)域目前已應(yīng)用于無人機(jī)機(jī)動控制和導(dǎo)彈制導(dǎo)中[10-13],但對于航天器規(guī)避動作規(guī)劃問題尚缺乏針對性研究。
圍繞空間碎片規(guī)避任務(wù)需求,本文提出一種航天器反應(yīng)式規(guī)避動作規(guī)劃方法,該方法將一種成熟有效的自然啟發(fā)式規(guī)避動作規(guī)劃算法:擾動流體動態(tài)系統(tǒng)(Interfered fluid dynamical system, IFDS)與目前比較先進(jìn)的一類深度強(qiáng)化學(xué)習(xí)算法:雙延遲深度確定性策略梯度(Twin delayed deep deterministic policy gradient, TD3)有機(jī)結(jié)合,并引入優(yōu)先級經(jīng)驗(yàn)回放和漸進(jìn)式學(xué)習(xí)策略以提升深度強(qiáng)化學(xué)習(xí)的訓(xùn)練效率,最終面向多發(fā)、突發(fā)、動態(tài)且形狀各異的空間碎片群,實(shí)現(xiàn)規(guī)避機(jī)動動作的“狀態(tài)-動作”端對端快速規(guī)劃。
當(dāng)航天器感知到空間碎片并準(zhǔn)備進(jìn)行規(guī)避機(jī)動時(shí),記此時(shí)處于工作軌道的航天器為參考航天器,位置為o,以o為原點(diǎn)建立LVLH坐標(biāo)系,ox軸沿參考航天器地心矢徑方向;oy軸沿參考航天器軌道面內(nèi)運(yùn)動方向;oz軸垂直于參考航天器軌道面,與ox,oy軸構(gòu)成右手系。在LVLH坐標(biāo)系下,航天器相對于參考航天器的軌道動力學(xué)方程可簡化為Clohessy-Wiltshire(C-W)方程:
(1)
式中:X=[x,y,z]T為航天器相較于參考航天器的位置;ω為參考航天器的軌道角速度;u=[ux,uy,uz]T為航天器的軌控加速度,滿足有界約束條件|ui|≤umax,i=x,y,z。
空間碎片或碎片群可用球體或橢球體等效安全包絡(luò)建模,模型定義如下:
(2)
(3)
注1:航天器對空間碎片的規(guī)避是一個(gè)包含態(tài)勢感知、交會預(yù)警、規(guī)避決策、動作規(guī)劃、控制執(zhí)行等多個(gè)環(huán)節(jié)的復(fù)雜系統(tǒng)工程[7],本文聚焦于整個(gè)系統(tǒng)工程中的動作規(guī)劃環(huán)節(jié),而對于式(2)中碎片群參數(shù)的測定則屬于態(tài)勢感知環(huán)節(jié),目前已具有相對成熟的技術(shù)方案,且測量精度較高,例如:對于碎片群包絡(luò)形狀參數(shù)的測定可采取類似點(diǎn)云數(shù)據(jù)聚類的思路,這種思路目前已在地外探測[14]、自動駕駛[15]等領(lǐng)域得到廣泛應(yīng)用;對于碎片群的位置速度,可由航天器敏感器自主測定并進(jìn)行軌道外推,或由航天器與體系化的天基/地基觀測系統(tǒng)聯(lián)合測定,具體方案可見文獻(xiàn)[7,16-17]。因此本文假設(shè)由感知環(huán)節(jié)給出的碎片群參數(shù)具有較高的置信度。
本文選取擾動流體動態(tài)系統(tǒng)(IFDS)作為規(guī)避動作規(guī)劃的基礎(chǔ)算法,該方法原本是一種三維路徑規(guī)劃方法,其模擬了自然界水流的宏觀特性,原理是將威脅視為河流中的巖石,將規(guī)劃的路徑視為流水的流線,當(dāng)流線經(jīng)過巖石時(shí),根據(jù)流體力學(xué)理論,巖石會對其施加一個(gè)可量化的擾動效應(yīng),使水流改變方向從而平滑的繞過巖石。該方法具有如下優(yōu)點(diǎn):(1)面對并發(fā)、動態(tài)威脅時(shí)仍具有較高的計(jì)算效率;(2)規(guī)劃路徑平滑,便于控制器跟蹤;(3)可調(diào)參數(shù)較少,且物理意義明確。目前該方法已在無人機(jī)、水下機(jī)器人等自主無人系統(tǒng)中得到應(yīng)用[11,18-19],但其在航天領(lǐng)域的應(yīng)用仍有待進(jìn)一步探索。由于航天器的運(yùn)動學(xué)特性以及軌道規(guī)避任務(wù)場景與上述無人系統(tǒng)相比存在較大差異,因此本文對IFDS算法進(jìn)行了一定的針對性改進(jìn),以使其能夠規(guī)劃航天器的軌道規(guī)避機(jī)動動作u=[ux,uy,uz]T,具體如下:
(4)
式中:wk(ΔXk)為第k個(gè)包絡(luò)的權(quán)重系數(shù),其取決于航天器與包絡(luò)表面的距離,距離越大權(quán)重系數(shù)越小(即產(chǎn)生的擾動效應(yīng)越小);Mk(ΔXk)為第k個(gè)包絡(luò)的擾動矩陣。wk(ΔXk)和Mk(ΔXk)的公式如下:
(5)
(6)
式中:I3為三階單位吸引矩陣,引導(dǎo)航天器沿原有軌跡運(yùn)行;第二項(xiàng)和第三項(xiàng)分別為排斥矩陣和切向矩陣;ρk和σk分別為對應(yīng)包絡(luò)的排斥反應(yīng)系數(shù)和切向反應(yīng)系數(shù),決定航天器的規(guī)避時(shí)機(jī)(值越大,時(shí)機(jī)越早);nk(ΔXk)為徑向法向量,垂直于包絡(luò)向外;tk(ΔXk,θk)為單位切向矩陣,其可分解為垂直于nk(ΔXk)且相互垂直的兩個(gè)向量tk,1(ΔXk)和tk,2(ΔXk):
(7)
由tk,1(ΔXk)和tk,2(ΔXk)所組成切平面內(nèi)的任意單位切向量可表示為:
(8)
式中:θk∈[0, 2π]為任意切向量與tk,1(ΔXk)的夾角,稱為切向方向系數(shù),決定規(guī)避方向。
以tk,1(ΔXk),tk,2(ΔXk)和nk(ΔXk)分別為x,y和z軸建立新的直角坐標(biāo)系,由該坐標(biāo)系到坐標(biāo)系Dx′y′z′下的坐標(biāo)轉(zhuǎn)換矩陣P如式(9)所示,則t′k可通過P轉(zhuǎn)化為tk(ΔXk),即tk(ΔXk)=P·t′k。
(9)
(10)
在此基礎(chǔ)上,考慮到輸入有界約束,航天器的可達(dá)軌控加速度可按如下步驟解算:
(11)
其中,ΔTc為動力學(xué)計(jì)算采樣時(shí)間步長。
(12)
最終基于輸入有界約束對uc進(jìn)行限幅處理,得到實(shí)際可達(dá)的軌控加速度u。
圖1 反應(yīng)式規(guī)避動作規(guī)劃方法的總體架構(gòu)Fig.1 Overall framework of the reactive collision-avoidance action planning method
TD3[20]改進(jìn)自深度確定性策略梯度[21](Deep deterministic policy gradient, DDPG)算法,是目前比較先進(jìn)的一類面向連續(xù)狀態(tài)/動作空間的深度強(qiáng)化學(xué)習(xí)算法。DDPG基于動作-評價(jià)機(jī)制,利用深度神經(jīng)網(wǎng)絡(luò)逼近價(jià)值函數(shù)和確定性策略,可視為深度Q學(xué)習(xí)(Deep Q-learning)與動作-評價(jià)機(jī)制的結(jié)合。然而,由于DDPG在價(jià)值估計(jì)過程中存在不可避免的噪聲,因此常出現(xiàn)價(jià)值過高估計(jì)現(xiàn)象,導(dǎo)致算法獲得較差的策略。為降低過估計(jì)的效果,借鑒van Hasselt等[22]提出的雙Q學(xué)習(xí)(Double Q-lear-ning)思路,TD3采用了兩套評價(jià)網(wǎng)絡(luò)估計(jì)價(jià)值函數(shù),并使用動作網(wǎng)絡(luò)延遲更新和目標(biāo)動作網(wǎng)絡(luò)平滑正則化等操作來進(jìn)一步提高算法的收斂性。
TD3中一共使用了6個(gè)神經(jīng)網(wǎng)絡(luò),動作現(xiàn)實(shí)網(wǎng)絡(luò),動作目標(biāo)網(wǎng)絡(luò),以及2個(gè)評價(jià)現(xiàn)實(shí)網(wǎng)絡(luò)和2個(gè)評價(jià)目標(biāo)網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示。本文所構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示:動作網(wǎng)絡(luò)由輸入層(INPUT)、全連接層(FC)、線性整流單元層(ReLU)和雙曲正切層(tanh)組成,僅包含觀測量o的輸入通道;評價(jià)網(wǎng)絡(luò)則包含觀測量o和動作量a兩個(gè)輸入通道,由INPUT、FC、ReLU和疊加層(ADD)組成;括號中的數(shù)字表示FC層的節(jié)點(diǎn)數(shù)。
圖2 TD3的結(jié)構(gòu)Fig.2 Structure of the TD3
圖3 動作和評價(jià)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structures of actor and critic networks
觀測量o和動作量a定義如下:
(13)
a=[ρ,σ,θ]
(14)
式中:o中各量分別表示航天器到包絡(luò)表面的距離,以及航天器與包絡(luò)中心的相對位置和速度;a為包絡(luò)對應(yīng)的IFDS規(guī)劃參數(shù)組合。
針對航天器規(guī)避動作規(guī)劃問題,相應(yīng)訓(xùn)練機(jī)制設(shè)計(jì)如下:
1) 動作現(xiàn)實(shí)網(wǎng)絡(luò)根據(jù)從訓(xùn)練環(huán)境中獲得的觀測量ot選擇一個(gè)動作輸出at,并與隨機(jī)噪聲?t疊加以增強(qiáng)探索性,上述過程可表述為:
(15)
2) 在訓(xùn)練環(huán)境中執(zhí)行at,計(jì)算對應(yīng)的獎勵(lì)函數(shù)rt并更新觀測量ot→ot+1。在此基礎(chǔ)上,將狀態(tài)轉(zhuǎn)移過程{ot,at,rt,ot+1}存入經(jīng)驗(yàn)池中。
(16)
式中:μ為折扣因子;ε為截?cái)嗟碾S機(jī)噪聲,用于目標(biāo)策略平滑。
(17)
式中:Pi為采樣概率;α∈[0, 1]用于調(diào)節(jié)優(yōu)先程度;FRK(|δi|)表示|δi|由大到小的排名數(shù)。
最后,由于基于優(yōu)先級的經(jīng)驗(yàn)回放引入了偏差,改變了樣本的采樣頻率,因此需要引入重要性采樣更新樣本計(jì)算梯度時(shí)的誤差權(quán)重i:
(18)
式中:β用于控制校正程度。
(19)
(20)
(21)
式中:τ為軟更新平滑因子。然后循環(huán)跳轉(zhuǎn)至步驟1。
當(dāng)循環(huán)數(shù)達(dá)到最大值T或滿足終止條件時(shí),更新回合數(shù),重置訓(xùn)練環(huán)境,直至最大回合N時(shí)結(jié)束訓(xùn)練,并提取動作網(wǎng)絡(luò)用于在線反應(yīng)式動作規(guī)劃。通過上述迭代過程,智能體可以根據(jù)自身與訓(xùn)練環(huán)境的交互不斷調(diào)整網(wǎng)絡(luò)參數(shù)以增強(qiáng)自身性能。
基于深度強(qiáng)化學(xué)習(xí)的動作規(guī)劃方法需要智能體與訓(xùn)練環(huán)境不斷交互以提升自身策略水平。為實(shí)現(xiàn)高效交互,提升訓(xùn)練效果,必須對訓(xùn)練環(huán)境進(jìn)行合理設(shè)計(jì)。針對此需求,本文引入漸進(jìn)式學(xué)習(xí)策略,提出如下可適配IFDS動作規(guī)劃算法的、具有規(guī)范化設(shè)計(jì)步驟的訓(xùn)練環(huán)境建模方法:
1) 設(shè)計(jì)如式(22)的環(huán)境重置條件Φ,當(dāng)滿足條件Cond1、 Cond2或Cond3之一時(shí),觸發(fā)重置條件。
(22)
式中:Cond1表示航天器進(jìn)入包絡(luò)的后半球區(qū)域(即Cond1,a),且按進(jìn)入時(shí)雙方的位置速度推演,一定步長Ω內(nèi)不會出現(xiàn)Γ(ΔX)≤1(即Cond1,b)的情況(可判定航天器已脫離危險(xiǎn));Cond2表示航天器與包絡(luò)發(fā)生接觸的情況;Cond3表示達(dá)到最大循環(huán)數(shù)的情況。
3) 在環(huán)境中設(shè)置一個(gè)碎片群包絡(luò),繼而在一定邊界內(nèi),隨機(jī)給定包絡(luò)的形狀參數(shù)A,B,C和φ1,φ2,φ3。
4) 在LVLH坐標(biāo)系下定義用于描述包絡(luò)相對航天器初始方位的角度χ∈[0, 2π]和γ∈[-0.5π, 0.5π],如圖4所示,其中,Rini表示包絡(luò)中心與航天器的初始距離。
圖4 包絡(luò)初始方位角Fig.4 Initial azimuthal angles of the envelope
5) 設(shè)定Rini∈[max(A,B,C)+ΔR,Rmax],其中,上限為航天器的最大探測距離Rmax,下限為包絡(luò)尺寸的最長半軸max(A,B,C)與一個(gè)確保航天器與包絡(luò)表面相對距離大于0的距離閾值ΔR之和,則包絡(luò)中心的初始位置為:
XD=Rini·[cosγcosχ, cosγsinχ, sinγ]T
(23)
6) 設(shè)定包絡(luò)的初始速度Vini:
(24)
(25)
式中:σV為標(biāo)準(zhǔn)差,Vbase,j為均值,clip表示相應(yīng)的截?cái)唷?/p>
然后進(jìn)入如下循環(huán):
當(dāng)處于訓(xùn)練回合j時(shí),給定Vbase,j,按上述步驟生成相應(yīng)的訓(xùn)練場景。經(jīng)訓(xùn)練后,提取動作網(wǎng)絡(luò),在相同Vbase,j的條件下生成F個(gè)場景中進(jìn)行Monte Carlo測試(本文中F=100):
1)當(dāng)規(guī)避成功率大于等于設(shè)定閾值η時(shí)(本文中η=90%),可認(rèn)為智能體已掌握面向此場景的有效應(yīng)對策略,則回合數(shù)j→j+1,并將均值平移ΔVbase,即:
Vbase, j+1=Vbase, j+ΔVbase
(26)
2)當(dāng)規(guī)避成功率小于設(shè)定閾值η時(shí),表示仍需要在此場景下繼續(xù)訓(xùn)練,則回合數(shù)j→j+1,但仍保持原有均值,即:
Vbase, j+1=Vbase, j
(27)
(28)
除了訓(xùn)練場景外,獎勵(lì)函數(shù)r的設(shè)計(jì)也遵循漸進(jìn)式學(xué)習(xí)策略,如式(29)所示:
(29)
表1 航天器初始軌道根數(shù)Table 1 Spacecraft initial orbital elements
表2 空間碎片群包絡(luò)參數(shù)Table 2 Parameters of envelopes of the space debris clusters
不同時(shí)刻(總共1200 s)的航天器機(jī)動軌跡如圖5所示,各包絡(luò)Γ(ΔX)的最小值(表征與包絡(luò)等效表面的最近距離)如圖6所示,各軸軌控加速度如圖7所示。
圖6 各包絡(luò)Γ(ΔX)的最小值Fig.6 Minimum values of Γ(ΔX)
圖7 各軸軌控加速度Fig.7 Orbit control accelerations in each axis
如圖5(a)所示,若航天器不進(jìn)行規(guī)避,則將與包絡(luò)1發(fā)生交會,而基于本文方法實(shí)施機(jī)動后,航天器能夠順利規(guī)避密集分布的碎片群包絡(luò)1~4,如圖5(b)所示。如圖5(c)所示,若航天器不對突發(fā)包絡(luò)5做出及時(shí)反應(yīng),則預(yù)期在1093.1 s時(shí)雙方交會,此時(shí)本文方法迅速使航天器做出反應(yīng),實(shí)現(xiàn)對碎片群包絡(luò)5的安全規(guī)避,如圖5(d-e)所示。如圖6~7所示,所提方法可使航天器在輸入受限的情況下安全規(guī)避多發(fā)、突發(fā)、動態(tài)且形狀各異的空間碎片群包絡(luò),規(guī)避機(jī)動軌跡相對平滑,有利于控制器跟蹤,且根據(jù)統(tǒng)計(jì),動作規(guī)劃算法的單步運(yùn)行時(shí)間在6~8 ms范圍內(nèi)(均值約6.7 ms),可滿足相應(yīng)的快速反應(yīng)需求。
表3 Monte Carlo測試結(jié)果Table 3 Monte Carlo test results
圖8 訓(xùn)練過程中的獎勵(lì)函數(shù)Fig.8 Reward functions in the training processes
結(jié)果可見,經(jīng)過16000回合充分訓(xùn)練后,二者獎勵(lì)函數(shù)和指標(biāo)數(shù)值基本趨同,且達(dá)到了較好的規(guī)避效果,表明本文方法和對比項(xiàng)均能使獎勵(lì)函數(shù)進(jìn)入收斂狀態(tài)。對比項(xiàng)的獎勵(lì)函數(shù)總體較平滑,但與本文方法相比,當(dāng)訓(xùn)練回合數(shù)較低時(shí)(4000、7000和10000回合),對比項(xiàng)的規(guī)避成功率明顯偏低,而當(dāng)回合數(shù)較高時(shí)(13000回合),盡管二者規(guī)避成功率接近,但對比項(xiàng)整個(gè)規(guī)避過程的能量消耗要高于所提方法,表明在反應(yīng)式規(guī)劃方法中引入本文策略后可以提升訓(xùn)練效率,加快深度強(qiáng)化學(xué)習(xí)的收斂速度,且能夠使反應(yīng)式規(guī)劃方法生成質(zhì)量更高的規(guī)劃動作,證實(shí)了策略對深度強(qiáng)化學(xué)習(xí)訓(xùn)練的積極作用。所提方法的獎勵(lì)函數(shù)出現(xiàn)了幾次急劇下降的過程,原因在于漸進(jìn)式學(xué)習(xí)策略的引入使得訓(xùn)練環(huán)境發(fā)生較大的變化,導(dǎo)致舊環(huán)境下訓(xùn)練成型的策略在新環(huán)境下短暫地陷入了局部最優(yōu)。不過經(jīng)過后續(xù)充分訓(xùn)練,智能體很快適應(yīng)了新的訓(xùn)練環(huán)境,從而不斷跳出局部最優(yōu)情況,使獎勵(lì)函數(shù)回升,最終進(jìn)入收斂狀態(tài)。此外,盡管測試場景與訓(xùn)練場景存在一定差異,但經(jīng)過充分訓(xùn)練后的動作網(wǎng)絡(luò)在測試時(shí)仍具有較高的規(guī)避成功率,表明網(wǎng)絡(luò)具有較強(qiáng)的泛化能力。
綜上所述,本文所提反應(yīng)式方法具有規(guī)劃質(zhì)量高、計(jì)算速度快等優(yōu)點(diǎn),能夠滿足復(fù)雜空間碎片環(huán)境下的規(guī)避任務(wù)需求。
針對復(fù)雜的空間碎片環(huán)境,本文提出一種航天器反應(yīng)式規(guī)避動作規(guī)劃方法,該方法將IFDS和TD3兩種算法相結(jié)合,通過TD3在線優(yōu)化IFDS規(guī)劃參數(shù),實(shí)現(xiàn)對空間碎片群的“狀態(tài)-動作”最優(yōu)、快速規(guī)避決策。在此基礎(chǔ)上,引入優(yōu)先級經(jīng)驗(yàn)回放和漸進(jìn)式學(xué)習(xí)等策略提升所提方法的訓(xùn)練效率。仿真結(jié)果表明,面向多發(fā)、突發(fā)、動態(tài)且形狀各異的空間碎片群,所提方法能夠快速規(guī)劃出航天器的安全規(guī)避動作指令。