国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的航天器姿態(tài)控制器設(shè)計(jì)

2023-03-15 02:04張瑞卿
上海航天 2023年1期
關(guān)鍵詞:姿態(tài)控制角速度航天器

張瑞卿,鐘 睿,徐 毅

(1.北京航空航天大學(xué) 宇航學(xué)院,北京 102206;2.上海衛(wèi)星工程研究所,上海 201109)

0 引言

航天器姿態(tài)控制系統(tǒng)是航天器系統(tǒng)中關(guān)鍵的分系統(tǒng),姿態(tài)控制的效果直接影響到航天器有效載荷能否在軌正常工作,如低軌氣象衛(wèi)星需要通過(guò)姿態(tài)控制系統(tǒng)實(shí)現(xiàn)對(duì)月定標(biāo)來(lái)完成任務(wù)[1]。傳統(tǒng)廣泛使用的比例-積分-微分(Proportion Integration Differentiation,PID)控制在設(shè)計(jì)控制器過(guò)程中,需要掌握準(zhǔn)確的航天器質(zhì)量參數(shù)。但航天器姿態(tài)動(dòng)力學(xué)系統(tǒng)十分復(fù)雜,模型高度非線性,當(dāng)航天器的質(zhì)量參數(shù)發(fā)生較大改變且無(wú)法準(zhǔn)備預(yù)測(cè)時(shí)(如捕獲非合作對(duì)象[2]、燃料長(zhǎng)期消耗[3]),PID 控制設(shè)計(jì)的控制器會(huì)出現(xiàn)控制效果不佳,甚至是失效的情況[4]。此外,太空環(huán)境還存在很多不確定因素[5],這些都要求設(shè)計(jì)具備良好魯棒性和自適應(yīng)能力的姿態(tài)控制器。

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法,如Q-Learning 算法,只能解決小規(guī)模、離散空間問(wèn)題,并沒(méi)有得到廣泛的使用[6]。近年來(lái),深度學(xué)習(xí)的研究得到快速發(fā)展,研究者們也嘗試將深度學(xué)習(xí)和傳統(tǒng)強(qiáng)化學(xué)習(xí)方法結(jié)合起來(lái)進(jìn)行研究,進(jìn)而研究出了很多著名的算法[7],如深度Q 學(xué)習(xí)算法(Deep Q-Network,DQN)[8]、深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[9]。其中,DDPG 算法由于其狀態(tài)空間和動(dòng)作空間連續(xù),被廣泛應(yīng)用于連續(xù)控制領(lǐng)域[10-13]。

將深度強(qiáng)化學(xué)習(xí)應(yīng)用到控制領(lǐng)域時(shí),通常需要根據(jù)控制系統(tǒng)的特點(diǎn)設(shè)計(jì)回報(bào)函數(shù)[14]。對(duì)于航天器的姿態(tài)鎮(zhèn)定問(wèn)題,如果認(rèn)為只在進(jìn)入精度范圍內(nèi)時(shí)獲得獎(jiǎng)勵(lì),那么當(dāng)訓(xùn)練步數(shù)越多時(shí),獲得獎(jiǎng)勵(lì)的概率就越小,最終導(dǎo)致訓(xùn)練失敗,這被稱為稀疏回報(bào)問(wèn)題[15]。吳恩達(dá)[16]提出了回報(bào)塑造概念,通過(guò)人為設(shè)計(jì)輔助回報(bào)函數(shù)引導(dǎo)算法收斂,可以減少訓(xùn)練時(shí)間,提升訓(xùn)練效果。在連續(xù)控制領(lǐng)域中,通常會(huì)設(shè)計(jì)與距離相關(guān)的輔助回報(bào)函數(shù)進(jìn)行引導(dǎo)[17]。

擬使用DDPG 算法對(duì)航天器姿態(tài)控制器進(jìn)行設(shè)計(jì)。在設(shè)計(jì)過(guò)程中,首先,建立深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練控制器所需的環(huán)境,設(shè)定回報(bào)函數(shù),搭建基于Actor-Critic 的神經(jīng)網(wǎng)絡(luò)框架;然后,使用DDPG算法對(duì)姿態(tài)控制器進(jìn)行訓(xùn)練,迭代若干回合完成對(duì)姿態(tài)控制器的訓(xùn)練。

1 航天器姿態(tài)動(dòng)力學(xué)建模

為了描述航天器姿態(tài),規(guī)定參考坐標(biāo)系為軌道坐標(biāo)系ox0y0z0。在軌道坐標(biāo)系ox0y0z0中,原點(diǎn)為航天器的質(zhì)心o,z0軸指向地心,x0軸指向軌道速度方向且與z0軸方向垂直,y0軸與x0軸、z0軸垂直且共同構(gòu)成右手直角坐標(biāo)系。采用由軌道坐標(biāo)系(ox0y0z0) 按z、x、y的順序旋轉(zhuǎn)到本體坐標(biāo)系(oxbybzb)的歐拉角來(lái)描述航天器姿態(tài),使用ψ、φ、θ分別表示偏航角、俯仰角、滾轉(zhuǎn)角。

航天器姿態(tài)動(dòng)力學(xué)方程為

式中:I為航天器轉(zhuǎn)動(dòng)慣量;ω為姿態(tài)角速度;M為作用在航天器上的力矩。

將此方程投影到航天器本體主軸坐標(biāo)系中:

式中:Ix、Iy、Iz為航天器投影到本體系中的轉(zhuǎn)動(dòng)慣量;ωx、ωy、ωz為航天器投影到本體系的角速度;Mx、My、Mz為航天器受到的力矩投影到本體系上的分量。

若只考慮航天器姿態(tài)鎮(zhèn)定控制問(wèn)題時(shí),航天器姿態(tài)的歐拉角都是小量??紤]航天器繞地球旋轉(zhuǎn)的軌道角速度,將姿態(tài)運(yùn)動(dòng)學(xué)方程代入式(2)后,可進(jìn)一步將姿態(tài)動(dòng)力學(xué)方程線化為線性常系數(shù)微分方程,即

式中:Ω為軌道角速度;Tcx、Tcy、Tcz為控制力矩;分別為ψ、φ的一階導(dǎo)數(shù);分別是ψ、φ、θ的二階導(dǎo)數(shù)。

考慮重力梯度力矩,當(dāng)衛(wèi)星在小姿態(tài)角的情況下,投影到主坐標(biāo)系下的重力梯度力矩為Tdgx和Tdgy,其表達(dá)式為

2 基于DDPG的航天器姿態(tài)控制器訓(xùn)練

2.1 DDPG 算法原理

DDPG 算法是一種基于Actor-Critic 框架的算法?;贏ctor-Critic 框架的強(qiáng)化學(xué)習(xí)算法將值函數(shù)逼近的方法和策略逼近的方法結(jié)合在一起,使用策略逼近的思想來(lái)設(shè)計(jì)Actor,讓Actor 進(jìn)行動(dòng)作選擇,保證了動(dòng)作的連續(xù)性;而使用值函數(shù)逼近的思想設(shè)計(jì)Critic,Critic 告訴Actor 選擇的動(dòng)作是否合適,由于基于值函數(shù)逼近的方法可以做到單步更新,因此也提高了學(xué)習(xí)效率。在Actor 和Critic 交互過(guò)程中,Actor 不斷迭代,得到每一個(gè)狀態(tài)下選擇每一動(dòng)作的合理概率,Critic 也不斷迭代,不斷完善每個(gè)狀態(tài)下選擇每一個(gè)動(dòng)作的獎(jiǎng)懲值。

DDPG 算法在Actor-Critic 框架的基礎(chǔ)上,將值函數(shù)逼近和策略函數(shù)逼近結(jié)合的同時(shí),應(yīng)用了DQN算法記憶庫(kù)和凍結(jié)目標(biāo)網(wǎng)絡(luò)的方法,做到了動(dòng)作空間和狀態(tài)空間連續(xù),也提高了學(xué)習(xí)效率。

DDPG 算法在選擇動(dòng)作時(shí),采用確定性策略μ,即輸出概率最大的動(dòng)作,然后也采用了參數(shù)噪聲N來(lái)增加對(duì)環(huán)境的探索:

式中:a為實(shí)際得到的動(dòng)作;μ(st|θμ)為神經(jīng)網(wǎng)絡(luò)參數(shù)θμ在狀態(tài)s下根據(jù)確定性策略μ得到的動(dòng)作。

可將DDPG 算法的目標(biāo)函數(shù)J(θμ)表示為

式中:γ為Agent 短視的程度,也就是回報(bào)的衰減程度;ri為第i步的獎(jiǎng)勵(lì);E(·)為數(shù)學(xué)期望。

可以證明在采用確定性策略μ的DDPG 算法中,目標(biāo)函數(shù)J(θμ)的梯度與動(dòng)作值函數(shù)Q的期望梯度相等,故Actor 網(wǎng)絡(luò)的梯度為

式中:?θ為網(wǎng)絡(luò)梯度;μθ為網(wǎng)絡(luò)選擇的策略。

而Critic 網(wǎng)絡(luò)的梯度為

式 中:Qtarget=r+γQ′(s′,π(s′|θμ)|θQ);θQ為Critic 網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù)。

根據(jù)式(9)、式(10),可以對(duì)Actor 網(wǎng)絡(luò)、Critic網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行更新[9]。

2.2 訓(xùn)練流程

使用DDPG 算法對(duì)姿態(tài)控制器進(jìn)行訓(xùn)練時(shí),首先建立航天器姿態(tài)動(dòng)力學(xué)環(huán)境,并對(duì)姿態(tài)控制器隨機(jī)進(jìn)行初始化;然后姿態(tài)控制器根據(jù)當(dāng)前姿態(tài)角和姿態(tài)角速度輸出控制力矩,在控制力矩作用下航天器姿態(tài)角和姿態(tài)角速度發(fā)生改變,設(shè)置的回報(bào)函數(shù)會(huì)根據(jù)變化后的狀態(tài)給出回報(bào),算法將當(dāng)前時(shí)刻的狀態(tài)st姿態(tài)控制器輸出的控制力矩at、回報(bào)rt和下一個(gè)時(shí)刻的狀態(tài)st+1生成樣本(st,at,rt,st+1),并存放在緩存區(qū)R中,之后從緩存區(qū)中隨機(jī)抽取樣本,對(duì)控制器進(jìn)行訓(xùn)練,調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),迭代若干次之后便可完成對(duì)姿態(tài)控制器的訓(xùn)練。具體訓(xùn)練流程如下。

步驟1隨機(jī)初始化Critic 網(wǎng)絡(luò)Q(s,a|θQ)和Actor 網(wǎng)絡(luò)μ(s|θμ),權(quán)重分別為θQ和θμ。

步驟2初始化目標(biāo)網(wǎng)絡(luò)的Q′和μ′,權(quán)重分別為θQ′=θQ和θμ′=θμ。

步驟3初始化緩存區(qū)R。

步驟4設(shè)定訓(xùn)練的總回合數(shù)M,開(kāi)始循環(huán),循環(huán)步驟如下。

1)為動(dòng)作探索初始化一個(gè)參數(shù)噪聲Nt;初始化狀態(tài)s1,并得到姿態(tài)角和姿態(tài)角速度的觀測(cè)值;設(shè)定每回合的總控制時(shí)長(zhǎng)T,開(kāi)始每回合的循環(huán);根據(jù)當(dāng)前策略和探索動(dòng)作的參數(shù)噪聲選擇動(dòng)作,也即選擇控制力矩at=μ(st|θμ)+Nt。

2)執(zhí)行控制力矩at,根據(jù)航天器姿態(tài)動(dòng)力學(xué)模型,航天器的姿態(tài)角和姿態(tài)角速度發(fā)生改變。得到獎(jiǎng)勵(lì)或懲罰rt,并觀測(cè)新?tīng)顟B(tài)st+1。

3)把(st,at,rt,st+1)作為樣本傳輸?shù)絉中儲(chǔ)存。

4)從R中隨機(jī)抽取 minibatch 個(gè)樣本(st,at,rt,st+1)。

5)設(shè)yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)。

6)通過(guò)最小化誤差來(lái)更新Critic 網(wǎng)絡(luò):L=

7)使用 SGD 更新 Actor 網(wǎng)絡(luò):?θμ J≈

8)更新目標(biāo)網(wǎng)絡(luò):θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′。

在每個(gè)步長(zhǎng)中,循環(huán)上述1~8 步,直到該回合結(jié)束。

步驟5 循環(huán)結(jié)束,得到訓(xùn)練好的姿態(tài)控制器。

2.3 回報(bào)函數(shù)

將回報(bào)函數(shù)設(shè)計(jì)為3 部分:

式中:r1為當(dāng)回合中姿態(tài)角和姿態(tài)角速度都滿足目標(biāo)精度范圍內(nèi)時(shí)的獎(jiǎng)勵(lì),設(shè)置為常數(shù),在訓(xùn)練后期,r1的設(shè)置能夠使姿態(tài)角和姿態(tài)角速度更快收斂到目標(biāo)精度范圍內(nèi),提高學(xué)習(xí)效率;r2為當(dāng)回合中姿態(tài)角或姿態(tài)角速度不滿足目標(biāo)精度時(shí)的懲罰,也即設(shè)計(jì)的輔助回報(bào)函數(shù);r3為當(dāng)回合中姿態(tài)角或姿態(tài)角速度嚴(yán)重超出允許范圍時(shí)的懲罰,設(shè)置為常數(shù)。r3的設(shè)置,一方面可以避免控制時(shí)航天器出現(xiàn)翻滾的情況,另一方面也可以避免計(jì)算過(guò)程中因數(shù)值過(guò)大導(dǎo)致訓(xùn)練失敗。

設(shè)輔助回報(bào)函數(shù)r2為

式中:αi=|ψ|i+|θ|i+|φ|i、ωi=|ωx|i+|ωy|i+|ωz|i、Mi=|Tcx|i+|Tcy|i+|Tcz|i分別為姿態(tài)角、角速度和控制力矩的懲罰項(xiàng);參數(shù)i為計(jì)算時(shí)所取的指數(shù)。輔助回報(bào)函數(shù)在訓(xùn)練前期時(shí),可引導(dǎo)姿態(tài)角,角速度和控制力矩通過(guò)訓(xùn)練收斂到0;l0、l1、l2為比例系數(shù),用于調(diào)整各懲罰項(xiàng)的大小關(guān)系,保證每一項(xiàng)都可以起作用。比例系數(shù)的設(shè)定應(yīng)滿足當(dāng)達(dá)到目標(biāo)精度時(shí),使回報(bào)函數(shù)數(shù)值大小落在[-1,1]內(nèi),此時(shí)訓(xùn)練過(guò)程中數(shù)值比較穩(wěn)定。

在進(jìn)行參數(shù)調(diào)整時(shí),首先,只保留姿態(tài)角懲罰項(xiàng),調(diào)整l0的大小,使得訓(xùn)練出來(lái)的控制器能夠滿足姿態(tài)角的目標(biāo)精度;其次,加入角速度懲罰項(xiàng),調(diào)整l1的大小,使得訓(xùn)練出來(lái)的控制器能夠滿足角速度的目標(biāo)精度;最后,加入力矩懲罰項(xiàng),調(diào)整l2的大小,使得角速度能夠不再震蕩。

3 仿真實(shí)驗(yàn)和結(jié)果分析

使用DDPG 算法對(duì)姿態(tài)控制器進(jìn)行訓(xùn)練,訓(xùn)練流程參考2.2 節(jié),對(duì)仿真中姿態(tài)動(dòng)力學(xué)環(huán)境搭建和神經(jīng)網(wǎng)絡(luò)搭建的參數(shù)進(jìn)行說(shuō)明。

3.1 航天器姿態(tài)動(dòng)力學(xué)環(huán)境

針對(duì)三軸穩(wěn)定航天器的姿態(tài)鎮(zhèn)定控制進(jìn)行仿真。設(shè)航天器本體轉(zhuǎn)動(dòng)慣量I=diag[220,210,58] kg·m2。航天器繞地球圓軌道運(yùn)行,軌道角速度Ω=0.001 rad/s。仿真時(shí)需考慮重力梯度力矩的影響。

為了能夠更加充分地探索狀態(tài)空間,訓(xùn)練時(shí)每回合初始時(shí)刻的姿態(tài)角和姿態(tài)角速度由系統(tǒng)在一定范圍內(nèi)隨機(jī)生成。設(shè)訓(xùn)練時(shí)每回合初始時(shí)刻,航天器3 個(gè)通道的姿態(tài)角和姿態(tài)角速度的分量在-30°~30°和-10~10 (°)/s 的范圍內(nèi)隨機(jī)選擇。

使用飛輪控制,設(shè)控制力矩范圍為-5~5 N·m。在選擇控制力矩時(shí)加入Ornstein-Uhlenbeck 噪聲,噪聲可以幫助算法更加充分地探索周圍的環(huán)境,使訓(xùn)練效率和效果都大大提升。

3.2 神經(jīng)網(wǎng)絡(luò)和訓(xùn)練超參數(shù)

進(jìn)行訓(xùn)練的最大步數(shù)為106,每回合最大時(shí)長(zhǎng)40 s,采樣時(shí)間為0.5 s,獎(jiǎng)勵(lì)衰減值γ為0.99。建立Actor 部分的動(dòng)作現(xiàn)實(shí)網(wǎng)絡(luò)和動(dòng)作估計(jì)網(wǎng)絡(luò)、Critic部分的狀態(tài)現(xiàn)實(shí)網(wǎng)絡(luò)和狀態(tài)估計(jì)網(wǎng)絡(luò)時(shí),所建立的神經(jīng)網(wǎng)絡(luò)均為結(jié)構(gòu)相同的BP 神經(jīng)網(wǎng)絡(luò),使用ReLU函數(shù)作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù),中間的隱藏層神經(jīng)元個(gè)數(shù)為256 個(gè),訓(xùn)練控制器使用的輔助回報(bào)函數(shù)為式(11),選擇i=1,其他條件保持不變。

3.3 仿真結(jié)果及分析

為了測(cè)試使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的姿態(tài)控制器不依賴于航天器的質(zhì)量參數(shù),使用訓(xùn)練好的姿態(tài)控制器對(duì)不同質(zhì)量參數(shù)的受擾航天器實(shí)施控制。設(shè)初始時(shí)刻受擾航天器3 個(gè)通道的姿態(tài)角均為30°,姿態(tài)角速度均為10 (°)/s。設(shè)置3 組不同質(zhì)量參數(shù)的航天器,分別為訓(xùn)練時(shí)使用的航天器轉(zhuǎn)動(dòng)慣量I,將轉(zhuǎn)動(dòng)慣量減小50%的I/2 和將轉(zhuǎn)動(dòng)慣量增加100%的2I。3 組測(cè)試中受擾航天器的姿態(tài)角、姿態(tài)角速度隨時(shí)間的變化曲線如圖1 所示。

圖1 不同轉(zhuǎn)動(dòng)慣量時(shí)姿態(tài)角和姿態(tài)角速度變化曲線Fig.1 Curves of the attitude angle and attitude angle velocity at different values of the inertia moment

由圖1(a)可知,盡管質(zhì)量參數(shù)發(fā)生較大的改變,姿態(tài)角3 條曲線最終都收斂到了0 附近,并且滿足精度要求,由于轉(zhuǎn)動(dòng)慣量發(fā)生變化,而力矩限制范圍沒(méi)有變,因此控制時(shí)間會(huì)隨著轉(zhuǎn)動(dòng)慣量增大而增大。由圖1(b)可知,當(dāng)轉(zhuǎn)動(dòng)慣量減小50%時(shí),角速度曲線出現(xiàn)了小幅的震蕩,其中z軸的震蕩幅度最大,但仍然在誤差允許范圍內(nèi),沒(méi)有出現(xiàn)發(fā)散的情況。通過(guò)對(duì)比圖1 中的曲線可以發(fā)現(xiàn),盡管質(zhì)量參數(shù)發(fā)生較大改變,經(jīng)過(guò)DDPG 算法訓(xùn)練的姿態(tài)控制器仍然能夠較好地完成姿態(tài)控制任務(wù),控制器對(duì)質(zhì)量參數(shù)變化具有良好的魯棒性。

測(cè)試訓(xùn)練好的控制器是否可以應(yīng)對(duì)系統(tǒng)存在測(cè)量誤差和存在外界干擾力矩的情況。設(shè)測(cè)量噪聲在-1°≤φ、θ、ψ≤1°和-1 (°)/s ≤ωx、ωy、ωz≤1 (°)/s內(nèi)隨機(jī)產(chǎn)生,力矩噪聲均值為通過(guò)策略選擇得到的力矩值,噪聲方差為2 N·m。仿真結(jié)果如圖2所示。

圖2 有無(wú)噪聲時(shí)姿態(tài)角和姿態(tài)角速度變化曲線Fig.2 Curves of the attitude angle and attitude angle velocity with and without noise

圖2 為同時(shí)加入測(cè)量噪聲和干擾力矩后,受擾航天器的姿態(tài)角、姿態(tài)角速度和控制力矩隨時(shí)間的變化曲線圖。由圖2 可知,當(dāng)加入測(cè)量噪聲和干擾力矩之后,控制系統(tǒng)的調(diào)節(jié)時(shí)間變化不大,但穩(wěn)態(tài)誤差有所增大,說(shuō)明強(qiáng)化學(xué)習(xí)控制器可以做到在一定范圍內(nèi)的測(cè)量噪聲和干擾力矩的作用下,使受擾控制器恢復(fù)姿態(tài)鎮(zhèn)定。

對(duì)不同輔助回報(bào)函數(shù)進(jìn)行實(shí)驗(yàn),訓(xùn)練控制器使用的輔助回報(bào)函數(shù)為式(11),參數(shù)i分別選擇0.5、1.0、2.0,分別代表選擇了凸函數(shù)、線性函數(shù)、凹函數(shù)。使用不同輔助回報(bào)函數(shù)進(jìn)行訓(xùn)練,訓(xùn)練得到的滿足要求的控制器訓(xùn)練需要的步數(shù)和最終控制器的性能均有所不同。對(duì)不同輔助函數(shù)訓(xùn)練得到的控制器進(jìn)行測(cè)試,并將測(cè)試結(jié)果進(jìn)行整理,見(jiàn)表1。

表1 不同輔助回報(bào)函數(shù)訓(xùn)練效果比較Tab.1 Comparison of the training effects of different auxiliary reward functions

由表1 可知,訓(xùn)練得到控制器的精度隨著i的增大而減小,而訓(xùn)練的步數(shù)則是當(dāng)i=1 時(shí)最少,但數(shù)量級(jí)相同。分析其原因,由于設(shè)置最終的控制精度絕對(duì)值小于1,此時(shí)若輔助回報(bào)函數(shù)取凹函數(shù),則算法訓(xùn)練到后期接近目標(biāo)控制精度時(shí),輔助回報(bào)函數(shù)的數(shù)量級(jí)將會(huì)更小,計(jì)算出來(lái)的更新Critic 梯度也會(huì)更小,導(dǎo)致后期輔助回報(bào)函數(shù)失效,此時(shí)無(wú)法再向更高的精度收斂,而使用凸函數(shù)則可以使精度更高。訓(xùn)練步數(shù)方面說(shuō)明不同i的取值對(duì)訓(xùn)練步數(shù)的影響不大,需要考慮其他參數(shù)設(shè)置。

4 結(jié)束語(yǔ)

使用強(qiáng)化學(xué)習(xí)方法對(duì)航天器進(jìn)行了姿態(tài)控制器設(shè)計(jì)。強(qiáng)化學(xué)習(xí)中,選擇了能夠用于連續(xù)控制領(lǐng)域的DDPG 算法。DDPG 算法能夠通過(guò)與航天器姿態(tài)動(dòng)力學(xué)環(huán)境進(jìn)行互動(dòng),得到訓(xùn)練樣本,然后隨機(jī)選擇訓(xùn)練樣本,根據(jù)回報(bào)函數(shù)計(jì)算誤差,并對(duì)Actor 和Critic 神經(jīng)網(wǎng)絡(luò)進(jìn)行更新,最終通過(guò)迭代得到訓(xùn)練好的控制器。強(qiáng)化學(xué)習(xí)在整個(gè)訓(xùn)練過(guò)程中沒(méi)有用到航天器的相關(guān)參數(shù),表現(xiàn)出更好的魯棒性。

通過(guò)仿真測(cè)試,驗(yàn)證了DDPG 算法設(shè)計(jì)的控制器對(duì)航天器質(zhì)量參數(shù)具有良好的魯棒性,并且發(fā)現(xiàn)了控制器在環(huán)境中的力矩干擾和測(cè)量噪聲也具有一定的控制能力。回報(bào)函數(shù)設(shè)計(jì)對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練效果具有很大影響,因此還對(duì)不同回報(bào)函數(shù)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,當(dāng)控制精度絕對(duì)值小于1 時(shí),設(shè)置凹函數(shù)會(huì)提高控制器的精度。

但只考慮了強(qiáng)化學(xué)習(xí)在地面訓(xùn)練控制器后再上天在軌控制,而未考慮強(qiáng)化學(xué)習(xí)直接在軌進(jìn)行學(xué)習(xí)控制,后面將進(jìn)行在軌學(xué)習(xí)方面的研究。

猜你喜歡
姿態(tài)控制角速度航天器
2022 年第二季度航天器發(fā)射統(tǒng)計(jì)
風(fēng)擾動(dòng)下空投型AUV的飛行姿態(tài)控制研究
2019 年第二季度航天器發(fā)射統(tǒng)計(jì)
2018 年第三季度航天器發(fā)射統(tǒng)計(jì)
2018年第二季度航天器發(fā)射統(tǒng)計(jì)
多星發(fā)射上面級(jí)主動(dòng)抗擾姿態(tài)控制技術(shù)研究
圓周運(yùn)動(dòng)角速度測(cè)量方法賞析
彈射座椅不利姿態(tài)控制規(guī)律設(shè)計(jì)
半捷聯(lián)雷達(dá)導(dǎo)引頭視線角速度提取
基于構(gòu)架點(diǎn)頭角速度的軌道垂向長(zhǎng)波不平順在線檢測(cè)