国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

強化學(xué)習(xí)控制方法及在類火箭飛行器上的應(yīng)用

2023-06-21 10:16:38柳嘉潤賈晨輝駱無意鞏慶海馮明濤
宇航學(xué)報 2023年5期
關(guān)鍵詞:模擬器飛行器控制器

黃 旭,柳嘉潤,賈晨輝,駱無意,鞏慶海,馮明濤

(1. 北京航天自動控制研究所,北京 100854;2. 宇航智能控制技術(shù)國家級重點實驗室,北京 100854)

0 引 言

智能控制作為控制理論的第3個里程碑以及人工智能與工業(yè)界融合發(fā)展的抓手,需具備學(xué)習(xí)能力和泛化能力等特征[1]。其中,強化學(xué)習(xí)憑借其自學(xué)習(xí)、強決策能力,以及結(jié)合深度學(xué)習(xí)后的端到端感知學(xué)習(xí)決策能力,在包括航空航天在內(nèi)的許多領(lǐng)域得到了研究與應(yīng)用。當(dāng)前,各類飛行器任務(wù)多樣化及復(fù)雜度增加帶來了新的控制需求[2-4],許多學(xué)者基于強化學(xué)習(xí)方法在飛行器控制技術(shù)智能化的各個環(huán)節(jié)[1]開展研究,如智能感知[5]、智能控制律[6-7]、智能協(xié)同與博弈[8-9]等。本文主要關(guān)注智能控制律環(huán)節(jié),研究智能方法在飛行器姿態(tài)控制中的應(yīng)用。

強化學(xué)習(xí)方法在實物飛行器上實現(xiàn)的案例主要面向小型無人飛行器:文獻[10]利用人類飛行員控制直升機的飛行數(shù)據(jù)學(xué)習(xí)直升機模型,并離線訓(xùn)練強化學(xué)習(xí)控制器完成了一系列特技飛行任務(wù);文獻[11]基于簡化的四旋翼飛行器模型離線訓(xùn)練智能體,實現(xiàn)了從位置、角速度等信息到電機推力的端到端控制,并控制飛行器實物以各類姿態(tài)拋出后回正;文獻[12]基于無模型策略梯度算法訓(xùn)練智能體,實現(xiàn)了實物四旋翼飛行器定點懸停和軌跡跟蹤控制;文獻[13-14]基于貝葉斯類方法在線求解四旋翼飛行器的飛行安全邊界,通過切換控制律保護在線強化學(xué)習(xí)過程。

由于飛控計算機算力、安全可靠要求等工程約束,強化學(xué)習(xí)常以離線訓(xùn)練結(jié)合在線固化智能體的形式應(yīng)用于實物飛行器控制中,考慮在線學(xué)習(xí)則需要設(shè)計安全控制器等進行保護。該類研究多關(guān)注端到端控制模式,控制效果與飛行模擬器的建模、算法設(shè)計以及實際飛行環(huán)境等緊密相關(guān)。文獻[15]通過狀態(tài)空間預(yù)測結(jié)合神經(jīng)網(wǎng)絡(luò)在線學(xué)習(xí)實現(xiàn)了小型可回收火箭的動力控制,但方法并非強化學(xué)習(xí)。

與實物實現(xiàn)相比,基于強化學(xué)習(xí)的飛行方法研究更為多樣。除在線學(xué)習(xí)控制策略外,還有多種強化學(xué)習(xí)與現(xiàn)代控制方法結(jié)合作為不確定性補償器、參數(shù)調(diào)節(jié)器、輔助控制器的控制框架,且多關(guān)注飛行器高度速度控制或三通道耦合姿態(tài)控制等問題。文獻[16]提出一種增量模型與強化學(xué)習(xí)結(jié)合的在線學(xué)習(xí)框架,在無全局先驗?zāi)P筒o智能體預(yù)訓(xùn)練的條件下實現(xiàn)了飛行器在線自學(xué)習(xí)控制;文獻[17]基于Actor-Critic架構(gòu)對高速飛行器的系統(tǒng)總擾動進行估計以設(shè)計高度通道的魯棒反步控制器;文獻[18]基于強化學(xué)習(xí)在線調(diào)節(jié)變外形高速飛行器自抗擾姿態(tài)控制器的增益以增強系統(tǒng)的動態(tài)性能;文獻[19]針對高速飛行器的高度速度控制問題提出了數(shù)據(jù)驅(qū)動的強化學(xué)習(xí)輔助控制方法,其中滑??刂破骺刂骑w行器穩(wěn)定飛行,強化學(xué)習(xí)控制器則優(yōu)化跟蹤性能。飛行器容錯控制問題中,文獻[20]針對飛行器執(zhí)行機構(gòu)故障設(shè)計了基于單Critic網(wǎng)絡(luò)的最優(yōu)自適應(yīng)補償控制器,實現(xiàn)了對參考輸入的一致最終有界跟蹤;文獻[21]提出了含增量模型的啟發(fā)式動態(tài)規(guī)劃算法,實現(xiàn)了全狀態(tài)可觀測條件下的導(dǎo)彈故障容錯控制。

本文工作屬于航天控制“智能+”[22]階段,開展了強化學(xué)習(xí)控制從問題設(shè)計到實際系統(tǒng)實現(xiàn)的全流程研究:通過與飛行模擬器交互學(xué)習(xí)完成高效可泛化的控制律設(shè)計并進行飛行驗證,也為之后的在線學(xué)習(xí)等研究工作打下基礎(chǔ)。不同于其他基于強化學(xué)習(xí)的實物飛行控制研究,本文針對的類火箭飛行器動力系統(tǒng)不確定性強,姿態(tài)動力學(xué)特性更接近運載火箭。該基于強化學(xué)習(xí)訓(xùn)練類火箭飛行器姿態(tài)控制智能體并在實際系統(tǒng)上實現(xiàn)的研究工作,在當(dāng)前認知中屬于首次,對工程研制也有一定的參考價值。

1 技術(shù)驗證飛行器簡介

1.1 飛行器參數(shù)、結(jié)構(gòu)及控制形式

本文使用的類火箭技術(shù)驗證飛行器外形如圖1所示。飛行器直徑為0.35 m,總高度(含起落架)為1.97 m,起飛質(zhì)量約為35 kg,單次最長飛行時間為5 min。

圖1 低空飛行模式下的飛行器結(jié)構(gòu)圖Fig.1 Structure of the vehicle in low altitude flight mode

飛行器安裝有單臺微型渦噴發(fā)動機,發(fā)動機臺架試車最大推力550 N,對應(yīng)燃料消耗率為1.32 kg/min。由2臺伺服電機驅(qū)動發(fā)動機偏轉(zhuǎn),分別在正交的兩個方向產(chǎn)生擺角以控制飛行器俯仰和偏航通道姿態(tài)。4臺同型號涵道風(fēng)扇的推力線位于同一橫截面上,控制飛行器滾轉(zhuǎn)通道姿態(tài)。

1.2 飛行器數(shù)學(xué)模型

該飛行器數(shù)學(xué)模型形式與“孔雀”飛行器[23]基本一致,主要差別為發(fā)動機推力矢量模型和涵道風(fēng)扇力矩模型(“孔雀”飛行器由2臺發(fā)動機控制位置和姿態(tài))。發(fā)動機推力矢量可以表示為:

(1)

式中:[Px,Py,Pz]T為發(fā)動機推力矢量在箭體系的分量;P為發(fā)動機推力;δ1和δ2為正交方向的兩個擺角,分別指向箭體坐標(biāo)系ZT軸和YT軸的反方向,見圖2。

圖 2 體坐標(biāo)系及控制輸入定義圖(底視)Fig.2 Definition diagram of the body coordinate system and control inputs (bottom view)

理想條件下涵道風(fēng)扇推力線落在安裝截面內(nèi),且同一直徑線上的一對涵道風(fēng)扇推力相同,方向相反,建模時僅考慮其產(chǎn)生的力矩。設(shè)n=1,2,3,4,分別對應(yīng)4個涵道風(fēng)扇的編號,見圖2。定義MC,n=[MCx,n,MCy,n,MCz,n]T為涵道風(fēng)扇n產(chǎn)生的控制力矩,FC,n=[FCx,n,FCy,n,FCz,n]T為涵道風(fēng)扇n產(chǎn)生的推力,定義cn=[cx,n,cy,n,cz,n]T為箭體頂點指向涵道風(fēng)扇n安裝位置的矢量。以上矢量均在箭體的體坐標(biāo)系下定義。定義lT=[-Xcg,hTy,hTz]T,其中Xcg為箭體頂點到質(zhì)心的鉛垂距離,hTy和hTz分別為體軸YT和ZT的質(zhì)心橫移。則有:

(2)

1.3 飛行控制系統(tǒng)設(shè)備配置

飛行控制系統(tǒng)中主要設(shè)備的性能指標(biāo)如表1所示。箭載綜合控制器包括主控模塊、GPS模塊、數(shù)據(jù)傳輸模塊和電源功率分配模塊等。主控模塊以STM32F407為中央處理器,GPS模塊采用Novatel公司的GPS OEM板卡。綜合控制器還能以10 ms/幀的速率存儲飛行數(shù)據(jù)。慣性測量單元采用PN132型光纖陀螺捷聯(lián)慣性導(dǎo)航組件。伺服舵機選用2臺KST公司的X30-28-180電動舵機。

表1 設(shè)備的關(guān)鍵技術(shù)參數(shù)Table1 Main technical parameters of the equipment

2 智能體訓(xùn)練

2.1 深度確定性策略梯度算法

DDPG是一種無模型深度強化學(xué)習(xí)算法,即環(huán)境的狀態(tài)轉(zhuǎn)移模型等信息對于智能體未知,且無顯式模型學(xué)習(xí)過程。該類算法通過經(jīng)驗回放等手段,利用環(huán)境交互數(shù)據(jù)提升智能體性能。

DDPG基于Actor-Critic框架,通過將樣本存儲在記憶回放單元中實現(xiàn)離策略(off-policy)更新,且其4個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)架構(gòu)可以有效減小樣本相關(guān)性從而優(yōu)化智能體的學(xué)習(xí)過程。DDPG的具體算法本文不再贅述,可參考文獻[24]。其中策略Critic網(wǎng)絡(luò)以最小化批量采樣樣本的時間差分誤差為目標(biāo)更新網(wǎng)絡(luò)參數(shù):

(3)

式中:s表示智能體的觀測狀態(tài),si+1為環(huán)境狀態(tài)為si時智能體執(zhí)行動作ai后的下一拍環(huán)境狀態(tài);μ(s|θμ)表示由策略Actor網(wǎng)絡(luò)擬合的確定性策略;θμ為其網(wǎng)絡(luò)參數(shù);Q(s,a|θQ)表示由策略Critic網(wǎng)絡(luò)擬合的狀態(tài)行為值函數(shù);θQ為其網(wǎng)絡(luò)參數(shù);μ′和Q′則表示目標(biāo)Actor網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò);r為立即回報,可根據(jù)具體場景進行設(shè)計;γ表示計算時間差分誤差時的折扣因子,本文取0.99;αQ為策略Critic網(wǎng)絡(luò)的學(xué)習(xí)率。

策略Actor網(wǎng)絡(luò)通過確定性策略梯度進行網(wǎng)絡(luò)參數(shù)更新,以αμ表示其學(xué)習(xí)率:

(4)

兩個目標(biāo)網(wǎng)絡(luò)的參數(shù)慣性更新,以τ表示慣性更新率,取0.001:

(5)

2.2 問題描述及智能體訓(xùn)練

智能體訓(xùn)練總體框架如圖3所示,智能體與飛行模擬器進行交互以學(xué)習(xí)控制策略。飛行模擬器中設(shè)置有測量噪聲、飛行環(huán)境干擾以及傳感器和執(zhí)行機構(gòu)的動態(tài)特性等,且導(dǎo)航與制導(dǎo)算法均已事先設(shè)計。

圖3 基于DDPG算法的智能體訓(xùn)練總體框架Fig.3 Framework of agent training based on DDPG

首先明確智能體任務(wù):在飛行器的起飛段和懸停段控制發(fā)動機擺角及涵道風(fēng)扇推力,在保證系統(tǒng)穩(wěn)定的同時使飛行器姿態(tài)有效跟蹤制導(dǎo)系統(tǒng)輸出的程序角指令。

基于以上任務(wù)設(shè)計相應(yīng)的馬爾科夫決策過程(Markov decision process, MDP)模型,MDP中智能體可觀測的環(huán)境狀態(tài)由飛行器最近5幀姿態(tài)角偏差以及當(dāng)前時刻的姿態(tài)角速度構(gòu)成。俯仰通道狀態(tài)如下(以下只闡述俯仰通道,偏航和滾動通道同理):

(6)

式中:φt和ωz,t分別為當(dāng)前時刻傳感器測得的飛行器俯仰角和俯仰角速度;φcx,t為當(dāng)前時刻制導(dǎo)律給出的俯仰程序角;et-1為上一控制時刻的俯仰角誤差,其他同理。該狀態(tài)空間形式參考深度強化學(xué)習(xí)用于雅達利游戲時以多幀圖片作為狀態(tài)輸入的思想,基于多拍誤差et-k(k=1,2,3,4)引入環(huán)境的歷史信息。除此之外,通過角速度引入系統(tǒng)動態(tài)。算法雖然不直接學(xué)習(xí)環(huán)境的狀態(tài)轉(zhuǎn)移模型,但模型信息隱式包含在狀態(tài)行為值函數(shù)中[25]。

回報函數(shù)中將姿態(tài)角誤差和控制指令變化量作為懲罰項,從而在減小跟蹤誤差的同時抑制控制指令的大幅振蕩:

rt=-(w1|et|+w2|δt-δt-1|)+r+

(7)

式中:δt為當(dāng)前時刻俯仰通道的等效控制指令,即δt=at=μ(st)+nt,nt為探索噪聲,等效控制指令經(jīng)過控制分配后得到伺服電機偏轉(zhuǎn)角指令(滾轉(zhuǎn)通道為涵道風(fēng)扇推力指令);w1和w2分別為誤差和控制指令變化量的權(quán)重,分別取0.2和0.04;r+為單步一次性獎勵,引導(dǎo)智能體在單次實驗(episode)中控制飛行器完成整段飛行任務(wù),本文取1.0。

訓(xùn)練時模擬器的主要參數(shù)如表2所示。單次實驗流程圖見圖4,飛行器狀態(tài)超出有效界或達到單次最大實驗時間時實驗均會結(jié)束。單次實驗包含上升段和懸停段,不考慮下降段。

表2 飛行模擬器的主要參數(shù)Table 2 Main parameters of the flight simulator

圖4 單次實驗流程圖Fig.4 Flow chart of the single episode

訓(xùn)練的超參數(shù)取值見表3。智能體采用多層全連接神經(jīng)網(wǎng)絡(luò),Actor網(wǎng)絡(luò)設(shè)定為單隱層輕量化神經(jīng)網(wǎng)絡(luò):6個輸入神經(jīng)元對應(yīng)6維狀態(tài);隱層擁有32個神經(jīng)元,激活函數(shù)為ReLU;1個輸出神經(jīng)元對應(yīng)該通道的等效控制指令,激活函數(shù)為tanh,需添加比例因子以對應(yīng)實際輸出范圍。Critic則含有3個隱含層,均擁有64個神經(jīng)元;輸入層為7個神經(jīng)元對應(yīng)6維狀態(tài)及1維動作;輸出層為單神經(jīng)元,對應(yīng)標(biāo)量形式的狀態(tài)行為值。

表3 智能體訓(xùn)練超參數(shù)Table 3 Super parameters of agent training

基于單次實驗時間20 s與控制周期為10 ms的訓(xùn)練條件以及式(7)形式的回報函數(shù),當(dāng)智能體能完成整段飛行控制任務(wù)時,單次實驗的累積回報趨于2 000。訓(xùn)練時累積回報隨實驗次數(shù)的變化曲線如圖5所示,從40次左右實驗開始,智能體能有效完成每一次的控制任務(wù)。相同訓(xùn)練條件下,當(dāng)r+取0時,單次實驗中完成整段飛行任務(wù)的累積回報趨于0,其訓(xùn)練的收斂速度不及前者。

圖5 累積回報Fig.5 Curves of the cumulative reward

3 數(shù)學(xué)仿真和半實物仿真分析

將訓(xùn)練好的目標(biāo)Actor網(wǎng)絡(luò)作為智能體移植到C語言編寫的數(shù)學(xué)仿真程序中,數(shù)學(xué)仿真時不再注入探索噪聲:

δt=at=μ′(st)

(8)

在額定條件以及設(shè)定的上限、下限偏差組合的仿真狀態(tài)下進行懸停仿真,并與標(biāo)稱PID控制器進行對比。上、下限組合的偏差帶及各偏差極性見表4,動態(tài)特性從前至后分別為穩(wěn)態(tài)增益、自然頻率和阻尼比。額定條件無風(fēng),環(huán)境及箭體參數(shù)均無偏差,考慮所有執(zhí)行機構(gòu)和測量元件的動態(tài)特性,且慣組測量值受高斯白噪聲影響。上下限考慮2 m·s-1的風(fēng)速以及270°的風(fēng)向角。

表4 偏差帶及偏差極性Table 4 Deviation band and polarity

控制結(jié)果對比如圖6所示。額定條件下,智能體控制下的系統(tǒng)快速性略優(yōu)于標(biāo)稱PID控制器。由于數(shù)學(xué)仿真加入了模擬器中未建立的執(zhí)行機構(gòu)間隙和GPS修正等非線性因素,飛行器姿態(tài)有小幅波動,智能體控制下的波動幅度顯著小于標(biāo)稱PID控制器。偏差狀態(tài)下智能體的性能優(yōu)勢更加明顯,系統(tǒng)超調(diào)量及調(diào)節(jié)時間都顯著優(yōu)于標(biāo)稱PID控制器。由于訓(xùn)練時未在模擬器中設(shè)置偏差狀態(tài),可知智能體可適應(yīng)一定范圍內(nèi)的訓(xùn)練中“未經(jīng)歷”的環(huán)境變化,體現(xiàn)了方法的魯棒性。

圖6 數(shù)學(xué)仿真中俯仰角跟蹤效果對比Fig.6 Comparison of pitch angle tracking performance in the mathematical simulation

將智能體裝訂到綜合控制器中,搭建半實物仿真平臺。由于該飛行器近似為軸對稱體,偏航通道也使用與俯仰通道相同網(wǎng)絡(luò)參數(shù)的智能體進行控制。滾轉(zhuǎn)通道中智能體輸出分配為4個涵道風(fēng)扇的PWM指令。額定條件下半實物仿真結(jié)果如圖7所示。半實物仿真時傳輸噪聲以及采樣、零階保持器等非線性特性得以體現(xiàn),與數(shù)學(xué)仿真相比,姿態(tài)角曲線呈現(xiàn)出更為明顯的小幅波動。俯仰角和偏航角存在0.05°左右的穩(wěn)態(tài)誤差,滾轉(zhuǎn)角存在約0.4°的穩(wěn)態(tài)誤差,均符合控制要求。綜合控制器的CPU并非高性能配置,通過半實物仿真可知輕量化智能體對計算性能的需求不高,滿足實時計算要求。

圖7 半實物仿真下姿態(tài)跟蹤結(jié)果Fig.7 Attitude tracking performance in the hardware-in-the-loop simulation

4 飛行試驗及結(jié)果分析

4.1 試驗設(shè)計

2021年9月—11月,在專用場地進行了低空懸停試驗。試驗場示意圖如圖8所示。牽引塔高度為15 m,呈邊長為12 m的正方形分布。飛行器頂部軟繩與牽引塔桿上方的鋼索連接,可通過鋼索進行飛行器的吊裝和保護。保護限位軟繩分別連接飛行器中部及牽引塔桿底部。

圖8 飛行試驗場示意圖Fig.8 Schematic diagram of the flight test site

飛行任務(wù)包括起飛準(zhǔn)備段、上升及懸??刂贫我约皠蛩傧陆刀?。起飛準(zhǔn)備段主要進行發(fā)動機點火與推力緩慢提升,該段結(jié)束時推力接近重力。約20 s時進入上升及懸??刂贫?飛行器按設(shè)定速度位置曲線上升至指定高度并保持懸停。60 s時進入勻速下降段。試驗過程如圖9所示,起飛時慣組位置為發(fā)射慣性系原點。

圖9 飛行試驗示意圖Fig.9 Schematic diagram of the flight test

外場飛行試驗的主要干擾因素包括風(fēng)、環(huán)境溫度以及保護繩干擾。地面附近風(fēng)干擾較為顯著,隨機性強。環(huán)境溫度主要影響發(fā)動機實際推力。保護繩為非理想軟繩,其自身硬度和重量會影響飛行過程,且繩可能與飛行器發(fā)生纏繞導(dǎo)致試驗失敗。另一方面,飛行器本體、控制設(shè)備的真實參數(shù)或特性與訓(xùn)練和仿真的設(shè)定值存在偏差。飛行試驗?zāi)軐χ悄荏w的魯棒性進行考核。

4.2 試驗結(jié)果分析

共進行了6架次飛行試驗,其中2架次因保護繩意外纏繞導(dǎo)致失敗,有效架次4次。試驗過程中,對飛行器本體進行了一次降低剛度的改造以配合其他技術(shù)的驗證。有效架次按試驗時間分為:1)滾轉(zhuǎn)通道控制;2)俯仰通道控制;3)改造后的俯仰通道控制;4)改造后的俯仰、偏航雙通道控制。現(xiàn)取最有代表性的架次2的飛行數(shù)據(jù)進行分析。

該架次試驗飛行器的位置曲線見圖10。飛行器在20 s時離地,起飛瞬間由于發(fā)動機推力與飛行器重力基本相同,極易受環(huán)境(如風(fēng))的影響,且箭體存在初始姿態(tài)角偏差,位置偏移較大。

圖10 飛行器位置變化(架次2)Fig.10 Curves of the vehicle position (Flight 2)

飛行器的姿態(tài)角以及控制命令曲線見圖11~12。懸停過程中俯仰角跟蹤效果良好,飛行狀態(tài)平穩(wěn),0.5°左右的穩(wěn)態(tài)誤差表明模型參數(shù)與實際飛行器參數(shù)存在偏差。下降段飛行器受風(fēng)和保護軟繩干擾明顯,且越接近地面越易受到發(fā)動機氣流反作用影響,俯仰角變化幅度大于懸停段。該架次偏航通道采用標(biāo)稱PID控制器,偏航角振蕩較大且跟蹤效果不佳。滾轉(zhuǎn)通道中涵道3的控制指令與涵道1一致,涵道4的控制指令與涵道2一致。實際試驗過程見圖13。

圖11 姿態(tài)角跟蹤結(jié)果(架次2)Fig.11 Attitude tracking performance (Flight 2)

圖12 控制指令(架次2)Fig.12 Control signals (Flight 2)

圖13 飛行試驗圖(架次2)Fig.13 Diagrams of the flight test (Flight 2)

另外3個架次的關(guān)鍵數(shù)據(jù)曲線見圖14。4架次環(huán)境條件各異,智能體在不同飛行條件下均完成了控制任務(wù),亦體現(xiàn)了方法的魯棒性。

圖14 姿態(tài)角跟蹤結(jié)果(架次1,3,4)Fig.14 Attitude tracking performance (Flights 1, 3, 4)

綜上,基于DDPG訓(xùn)練的輕量化神經(jīng)網(wǎng)絡(luò)形式的智能體能有效進行該類火箭飛行器的姿態(tài)控制:

1)由于在模擬器中考慮了傳感器噪聲以及執(zhí)行機構(gòu)動態(tài)特性等因素,飛行試驗時智能體能有效適應(yīng)。且本文描述的回報函數(shù)形式對控制指令變化量進行了限制,智能體帶寬在合理范圍內(nèi),對噪聲不敏感。

2)智能體有較強的泛化能力和魯棒性,飛行試驗中如架次2的懸停段,俯仰角僅存在少量穩(wěn)態(tài)誤差,且能適應(yīng)未學(xué)習(xí)的下降段姿態(tài)控制過程以及不同的飛行工況。

3)智能體對環(huán)境干擾的適應(yīng)性強,外場的風(fēng)干擾等因素不會造成飛行器失穩(wěn)。

4)輕量化神經(jīng)網(wǎng)絡(luò)前向計算需求的運算資源少,每個控制周期中進行兩次低維矩陣與向量乘法運算(輸入層到隱層、隱層到輸出層),以及隱層的ReLU和輸出層的tanh兩類激活函數(shù)運算。普通性能的飛控計算機足以執(zhí)行該類計算,易于工程實現(xiàn)。

5 結(jié) 論

本文基于DDPG算法訓(xùn)練智能體進行了類火箭飛行器的姿態(tài)控制,在仿真環(huán)境下對比了其與標(biāo)稱PID控制器的控制效果,并完成了智能體從仿真環(huán)境到真實系統(tǒng)的遷移,進行了飛行試驗。一系列結(jié)果表明該方法有很強的泛化能力和魯棒性?,F(xiàn)給出研究過程中的一些理論上和工程上的總結(jié)。

1) 應(yīng)結(jié)合任務(wù)場景搭建模擬器。由于該類火箭飛行器系統(tǒng)較為復(fù)雜,盡量考慮了完整的飛行器模型,尤其是傳感器噪聲以及執(zhí)行機構(gòu)的動態(tài)特性等。否則在數(shù)學(xué)和半實物仿真中智能體的控制效果不佳,亦無法用于實際飛行。

2) 飛行模擬器中采樣周期、控制周期、積分周期等參數(shù)需對應(yīng)工程要求。如設(shè)定積分周期為10 ms時雖然能節(jié)約大量訓(xùn)練時間且智能體在模擬器中控制性能優(yōu)秀,但該訓(xùn)練條件不符合工程設(shè)計要求,模擬器無法有效模擬實際系統(tǒng)的動態(tài)過程,訓(xùn)練出的智能體移植后無法通過數(shù)學(xué)仿真。

3) MDP模型需設(shè)計合理,不考慮控制指令增量限制和網(wǎng)絡(luò)參數(shù)正則化時,控制量極易出現(xiàn)“bang-bang”的情況。引入歷史信息能有效改善訓(xùn)練過程,可考慮循環(huán)神經(jīng)網(wǎng)絡(luò)等進行優(yōu)化。

4) 強化學(xué)習(xí)本身“探索”與“利用”的矛盾依舊存在。模擬器任務(wù)復(fù)雜度提高,訓(xùn)練算法中超參數(shù)設(shè)置不合理,結(jié)合DDPG算法本身的限制均會導(dǎo)致訓(xùn)練收斂慢甚至無法收斂。

最后列出一些值得繼續(xù)研究和思考的問題。

1) 智能體的可解釋性問題。深度強化學(xué)習(xí)是解決端到端控制的重要思路之一,但這也意味著其針對的系統(tǒng)更加復(fù)雜,系統(tǒng)穩(wěn)定性分析難度更大。當(dāng)前單純以智能體進行控制的方法常用蒙特卡洛仿真等手段驗證其性能。

2) 機器學(xué)習(xí)算法應(yīng)用問題。當(dāng)前強化學(xué)習(xí)算法發(fā)展迭代迅速,如無模型的D4PG, LSTM-PPO以及基于模型的Dreamer, Plan2Explore等性能更強的算法不斷涌現(xiàn)。如何將這些主要針對高維輸入的算法思想應(yīng)用于飛行器控制也需要繼續(xù)研究。根據(jù)當(dāng)前研究的體會,越復(fù)雜的飛行任務(wù)訓(xùn)練難度越大,須從先驗知識應(yīng)用、任務(wù)簡化、MDP設(shè)計以及算法優(yōu)化等角度綜合解決。

3) 在線學(xué)習(xí)問題。由于飛行器的特殊性,智能體不適合“從零開始”在真實飛行環(huán)境中學(xué)習(xí),最終實現(xiàn)宜采用離線訓(xùn)練與在線學(xué)習(xí)相結(jié)合的形式。即離線訓(xùn)練出泛化能力和魯棒性更強的飛行器控制用智能體,并利用在線學(xué)習(xí)技術(shù)修正偏差以及適應(yīng)新的飛行環(huán)境和任務(wù)。

猜你喜歡
模擬器飛行器控制器
高超聲速飛行器
了不起的安檢模擬器
盲盒模擬器
劃船模擬器
復(fù)雜飛行器的容錯控制
電子制作(2018年2期)2018-04-18 07:13:25
神秘的飛行器
動態(tài)飛行模擬器及其發(fā)展概述
模糊PID控制器設(shè)計及MATLAB仿真
MOXA RTU控制器ioPAC 5542系列
自動化博覽(2014年9期)2014-02-28 22:33:17
倍福 CX8091嵌入式控制器
自動化博覽(2014年4期)2014-02-28 22:31:15
饶河县| 河曲县| 卫辉市| 湘潭县| 新宾| 鹿邑县| 天台县| 溆浦县| 莎车县| 桦甸市| 南木林县| 日照市| 梓潼县| 府谷县| 垣曲县| 陈巴尔虎旗| 新宾| 蒲江县| 灌阳县| 青海省| 塔城市| 米易县| 海林市| 化德县| 乌兰浩特市| 襄垣县| 兴义市| 法库县| 湘乡市| 崇礼县| 红河县| 周宁县| 三台县| 宽城| 和龙市| 邵阳市| 金川县| 公安县| 盘锦市| 邯郸县| 土默特右旗|