關(guān)鍵詞:軌道轉(zhuǎn)移;深度強化學習;TD3算法
中圖分類號:TP183 文獻標志碼:A
0 引言(Introduction)
為解決制定軌道轉(zhuǎn)移策略時人力投入大、反應不及時等問題,本文使用深度強化學習中的TD3算法進行通用脈沖式點火控制器的設(shè)計。當衛(wèi)星收到約束條件下任意的軌道轉(zhuǎn)移任務(wù)時,該通用控制器能為其預測軌跡并提供點火策略,助力其在指定時間內(nèi)成功到達目標軌道。
為了描述衛(wèi)星在地球軌道上的運動規(guī)律,首先,對衛(wèi)星的軌道動力學進行建模。其次,簡單介紹強化學習,并對馬爾科夫決策過程進行設(shè)計,將衛(wèi)星軌道轉(zhuǎn)移任務(wù)形式轉(zhuǎn)化為一個強化學習問題,使TD3算法能夠應用于該問題,并給出通用點火控制器模型的訓練方法。最后,開展模擬仿真實驗對模型進行評估分析,實驗結(jié)果表明本文設(shè)計的脈沖式點火控制器模型在隨機給出的軌道轉(zhuǎn)移任務(wù)下具有較高的通用性。
1 研究背景與現(xiàn)狀(Research background andcurrent status)
在即將到來的太空任務(wù)[1]中,隨著衛(wèi)星數(shù)量的增加,地面站將面臨更大的壓力和挑戰(zhàn)。這種復雜的情況,對航天器自主導航與控制能力[2],以及決策制定和規(guī)劃能力[3]的需求日益增強。對于現(xiàn)代航天器來說,具備自主軌道規(guī)劃[4]能力變得愈發(fā)重要,具備這一能力不僅能減少人力投入,還能在面對風險和變更任務(wù)目標時展現(xiàn)出更強的反應能力。因此,航天器在軌時的可用性和可靠性日益受到重視。
衛(wèi)星軌道轉(zhuǎn)移[5]任務(wù)是指衛(wèi)星在太空中從一個軌道狀態(tài)轉(zhuǎn)移到另一個軌道狀態(tài)。這一過程通常需要精確控制衛(wèi)星的推力,以改變其速度和軌道方向。衛(wèi)星軌道轉(zhuǎn)移是為了實現(xiàn)不同的科學研究目標,例如實現(xiàn)通信覆蓋范圍的變化、執(zhí)行特定的觀測任務(wù)、避開太空碎片或其他衛(wèi)星等。對于特定的軌道轉(zhuǎn)移任務(wù),還需要進行精確的軌道設(shè)計[6]、飛行路徑規(guī)劃[7]和飛行控制。
目前,針對衛(wèi)星軌道轉(zhuǎn)移問題,多采用傳統(tǒng)的智能優(yōu)化算法或數(shù)值算法進行求解[8],并且大多是針對單個軌道轉(zhuǎn)移任務(wù)進行燃料消耗或是時間上的優(yōu)化求解。然而,對于設(shè)計通用的控制方法求解這類問題的研究相對較少。本文將對約束條件下脈沖式衛(wèi)星軌道轉(zhuǎn)移任務(wù)的通用點火控制方法進行進一步研究。
4 仿真實驗與結(jié)果分析(Simulation experimentsand results analysis)
采用前文提到的TD3方法對衛(wèi)星軌道轉(zhuǎn)移問題進行求解。
衛(wèi)星的質(zhì)量為4 474 kg,發(fā)動機在每個方向上能產(chǎn)生的最大加速度為10 m/s2。點火時間將持續(xù)1 s,接下來的299 s,衛(wèi)星將以慣性運動。衛(wèi)星的初始狀態(tài)如表2所示的軌道六根數(shù)范圍內(nèi)隨機產(chǎn)生,軌道轉(zhuǎn)移任務(wù)的目標軌道也在如圖2所示的軌道五根數(shù)范圍內(nèi)隨機產(chǎn)生,以對隨機產(chǎn)生的軌道轉(zhuǎn)移任務(wù)進行模擬。
當衛(wèi)星到達目標軌道附近時,即半長軸偏差小于40 km、偏心率小于0.1、軌道傾角小于0.2°、升交點經(jīng)度小于30°、近地點幅角小于30°,則認為當前回合下衛(wèi)星成功到達目標軌道。
TD3算法中策略網(wǎng)絡(luò)、值網(wǎng)絡(luò)1、值網(wǎng)絡(luò)2及各自對應的目標網(wǎng)絡(luò)均采用雙隱藏層,每層256維,激活函數(shù)采用Relu和Tanh兩種函數(shù),TD3算法神經(jīng)網(wǎng)絡(luò)部分結(jié)構(gòu)圖如圖2所示(目標網(wǎng)絡(luò)的結(jié)構(gòu)同其對應的策略網(wǎng)絡(luò)、值網(wǎng)絡(luò))。
訓練過程中還涉及前文提到的其他參數(shù),具體參數(shù)值如表3所示。
使用Python語言實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)并訓練,以每輪訓練中每一步的平均獎勵表示訓練效果,得到的學習曲線如圖3所示。
在每1萬輪次訓練后,要對模型進行評估。評估方法為隨機產(chǎn)生1 000個軌道轉(zhuǎn)移任務(wù),即衛(wèi)星初始位置與目標軌道均是隨機的,記錄模型給出的點火策略能讓衛(wèi)星在100步內(nèi)成功到達目標軌道的次數(shù)。用成功到達目標軌道的次數(shù)除以評估總數(shù),即模型的成功率,并以此評估模型性能。訓練過程中,模型性能表現(xiàn)如圖4所示,在前40萬輪次的訓練過程中,模型性能得到顯著改進,成功率提升至70%左右;在第40萬~110萬輪次的訓練過程中,模型性能緩慢提升,成功率提升至90%左右;在隨后的訓練中模型的性能表現(xiàn)有輕微抖動,成功率仍維持在90%左右,最高可達96.1%。
5 結(jié)論(Conclusion)
本文研究了衛(wèi)星多軌道轉(zhuǎn)移問題,創(chuàng)新地將深度強化學習技術(shù)引入其中,并設(shè)計了通用自主機載控制器引導衛(wèi)星完成類似任務(wù)。首先,基于軌道動力學進行建模,對馬爾可夫決策過程進行多次設(shè)計,完成了強化學習所需的環(huán)境搭建,并解決了狀態(tài)空間大、獎勵稀疏的問題。其次,用深度強化學習中的TD3算法對決策模型進行訓練。最后,對模型進行數(shù)值仿真、評估分析,通過訓練過程中的模型性能、評估環(huán)境下任務(wù)達成率,驗證了本文設(shè)計的自主脈沖式點火控制器模型在隨機給出的軌道轉(zhuǎn)移任務(wù)下具有較高的通用性與可靠性,為未來的類似任務(wù)提供了一種全新的思路和方法。
作者簡介:
曹海濤(1997-),男,碩士生。研究領(lǐng)域:強化學習。
邱鵬鵬(1996-),女,碩士生。研究領(lǐng)域:強化學習。
蔡 霞(1971-),女,碩士,講師。研究領(lǐng)域:數(shù)據(jù)智能,機器學習。