国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自適應(yīng)學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)飛行控制

2022-03-25 02:50劉俊輝單家元榮吉利
宇航學(xué)報(bào) 2022年1期
關(guān)鍵詞:權(quán)值小波增量

劉俊輝,單家元,榮吉利,鄭 雄

(1.北京理工大學(xué)宇航學(xué)院,北京 100081;2.北京理工大學(xué)飛行器動(dòng)力學(xué)與控制教育部重點(diǎn)實(shí)驗(yàn)室,北京100081;3.中國運(yùn)載火箭技術(shù)研究院,北京100076)

0 引 言

近年來,導(dǎo)彈、火箭等飛行器自主學(xué)習(xí)飛行控制問題得到廣泛關(guān)注,未來復(fù)雜任務(wù)迫切需要增強(qiáng)彈/箭復(fù)雜飛行環(huán)境適應(yīng)能力及突發(fā)事件的應(yīng)對能力??缬驈?qiáng)對抗環(huán)境作戰(zhàn),未知環(huán)境與非預(yù)定任務(wù)場景下偵察、打擊或?qū)?,由于飛行場景和任務(wù)變化,大氣密度、飛行速度、環(huán)境溫度、障礙物發(fā)生很大改變以及飛行器本體動(dòng)力學(xué)發(fā)生突變等,傳統(tǒng)的針對預(yù)先已知使用場景和作戰(zhàn)任務(wù)而進(jìn)行增益調(diào)度設(shè)計(jì)的飛行控制器需要各特征點(diǎn)下精確的系統(tǒng)模型,在未知、未探明環(huán)境中很難獲得,并且設(shè)計(jì)過程非常繁瑣,亟需突破以智能控制為核心的自主學(xué)習(xí)飛行控制技術(shù),以彌補(bǔ)程序化控制策略帶來的局限性,提升飛行器在復(fù)雜未知環(huán)境與突發(fā)事件下的自主性、強(qiáng)適應(yīng)性與魯棒飛行控制能力。

強(qiáng)化學(xué)習(xí)控制方法是一種不依賴于對象動(dòng)力學(xué)模型并對環(huán)境變化與模型時(shí)變特性具有較強(qiáng)魯棒性的控制方法,為飛行器自主飛行控制提供了有效可行的思路。強(qiáng)化學(xué)習(xí)方法起源于計(jì)算機(jī)領(lǐng)域,幾乎同一時(shí)期最優(yōu)控制領(lǐng)域?qū)W者Werbos, Bertsekas等開展了類似的近似動(dòng)態(tài)規(guī)劃和神經(jīng)元?jiǎng)討B(tài)規(guī)劃的研究。這些方法的理論根基是1956年Bellman提出的動(dòng)態(tài)規(guī)劃方法。為了解決動(dòng)態(tài)規(guī)劃方法的維度災(zāi)難及逆向求解問題,Werbos在1977年提出了近似/自適應(yīng)動(dòng)態(tài)規(guī)劃方法,該方法融合了強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃的思想。后續(xù),強(qiáng)化學(xué)習(xí)方法在計(jì)算機(jī)和控制領(lǐng)域分別迅速發(fā)展,并且在航空航天領(lǐng)域進(jìn)行了廣泛探索研究,包括直升機(jī)、運(yùn)載器、變體飛行器、制導(dǎo)系統(tǒng)的自適應(yīng)飛行控制。為了實(shí)現(xiàn)在線求解飛行控制律,通常采用時(shí)序差分法(TD)來求解強(qiáng)化學(xué)習(xí)問題。TD結(jié)合了動(dòng)態(tài)規(guī)劃法和蒙特卡洛法(MC)的優(yōu)勢,既不需要對象與環(huán)境的模型,也不用端到端的訓(xùn)練過程,可以實(shí)現(xiàn)飛行控制器實(shí)時(shí)迭代更新。

自適應(yīng)Actor critic designs(ACD)是一種基于TD的方法,結(jié)合Actor-Critic結(jié)構(gòu)、動(dòng)態(tài)規(guī)劃、和神經(jīng)網(wǎng)絡(luò)的自適應(yīng)/近似動(dòng)態(tài)規(guī)劃方法,是設(shè)計(jì)自適應(yīng)最優(yōu)飛行控制器的有效方法。ACD將策略評(píng)價(jià)(critic)和策略更新(actor)分離設(shè)計(jì),能適應(yīng)未知環(huán)境得到最優(yōu)控制策略。ACD方法可以分為:啟發(fā)式動(dòng)態(tài)規(guī)劃(HDP)、雙啟發(fā)式動(dòng)態(tài)規(guī)劃(DHP)、全局雙啟發(fā)式動(dòng)態(tài)規(guī)劃(GDHP)。DHP與HDP方法的區(qū)別在于DHP評(píng)價(jià)網(wǎng)絡(luò)用于近似值函數(shù)相對于狀態(tài)的偏導(dǎo),而HDP的評(píng)價(jià)網(wǎng)絡(luò)用于近似值函數(shù)。GDHP方法是結(jié)合DHP與HDP的一種強(qiáng)化學(xué)習(xí)方法。但是這些方法都需要在線或離線辨識(shí)被控對象的精確模型。直接在線辨識(shí)對象的精確模型耗時(shí)較長,很難在線完成,而事先的離線辨識(shí)又由于環(huán)境或模型不確定性無法獲得對象的精確模型。文獻(xiàn)[11-12]通過輸入-輸出數(shù)據(jù)辨識(shí)被控對象增量模型,提出了基于增量模型的雙啟發(fā)式動(dòng)態(tài)規(guī)劃方法(IDHP),很好地解決了模型精度與在線實(shí)時(shí)計(jì)算的矛盾,并應(yīng)用于飛行控制器設(shè)計(jì)。相比于直接辨識(shí)被控對象模型的DHP方法,IDHP具有更快的在線學(xué)習(xí)速度和更高的控制精度。

IDHP自主學(xué)習(xí)飛行控制律分為控制律學(xué)習(xí)階段和飛行控制運(yùn)行階段。在控制律學(xué)習(xí)階段,IDHP基于一定的學(xué)習(xí)策略,通過施加持續(xù)激勵(lì),采集系統(tǒng)響應(yīng)數(shù)據(jù)來迭代更新行動(dòng)和評(píng)價(jià)權(quán)值網(wǎng)絡(luò)的權(quán)值,實(shí)現(xiàn)控制器的學(xué)習(xí)。但是并不是所有的控制器參數(shù)都能通過學(xué)習(xí)獲得,在實(shí)施神經(jīng)網(wǎng)絡(luò)權(quán)值系數(shù)迭代學(xué)習(xí)之前需要根據(jù)一定的經(jīng)驗(yàn)和收斂性分析確定動(dòng)作和評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)權(quán)值、學(xué)習(xí)率等超參數(shù)。不同的學(xué)習(xí)率對系統(tǒng)穩(wěn)定性和控制精度有較大影響。文獻(xiàn)[13]提出了兩階段切換控制策略,在預(yù)先訓(xùn)練階段采用PID控制器輔助,并基于粗精度-高精度訓(xùn)練不斷迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)值系數(shù),運(yùn)行階段采用IDHP控制器,此方法減輕了訓(xùn)練階段控制的振蕩,提高了學(xué)習(xí)成功率。但是,現(xiàn)有的方法大多是事先設(shè)定學(xué)習(xí)率、神經(jīng)網(wǎng)絡(luò)初值等超參數(shù),而事先設(shè)定超參數(shù)的方式無法適應(yīng)飛行器速度、大氣密度大幅變化以及變體飛行器氣動(dòng)特性等被控對象動(dòng)力學(xué)特性大范圍變化情況下的自主飛行控制。文獻(xiàn)[4]結(jié)合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí),提出了監(jiān)督Actor-Critic控制結(jié)構(gòu),監(jiān)督結(jié)構(gòu)提供額外的信息來進(jìn)行評(píng)價(jià)反饋以“成形”最優(yōu)學(xué)習(xí)策略,加速收斂。Dias等提出一種針對飛行器容錯(cuò)控制的基于監(jiān)督器觸發(fā)在線自適應(yīng)學(xué)習(xí)控制。受文獻(xiàn)[4,14]啟發(fā),本文提出一種自適應(yīng)調(diào)整學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)飛行控制方法,以適應(yīng)飛行器動(dòng)力學(xué)特性大范圍變化時(shí)的自主學(xué)習(xí)飛行控制。

本文的主要貢獻(xiàn)在于設(shè)計(jì)了一種基于梯度下降法的在線調(diào)整強(qiáng)化學(xué)習(xí)動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率超參數(shù)的算法。具體為:

1)在強(qiáng)化學(xué)習(xí)評(píng)價(jià)網(wǎng)絡(luò)、動(dòng)作網(wǎng)絡(luò)和模型網(wǎng)絡(luò)三層結(jié)構(gòu)的基礎(chǔ)上增加性能監(jiān)督器,提出了基于實(shí)時(shí)控制性能監(jiān)督評(píng)估的學(xué)習(xí)率在線調(diào)整框架;

2)利用小波分析方法構(gòu)造飛行控制器穩(wěn)定度實(shí)時(shí)量化評(píng)估指標(biāo),在線評(píng)估不同學(xué)習(xí)率參數(shù)下控制系統(tǒng)穩(wěn)定度,為學(xué)習(xí)率參數(shù)實(shí)時(shí)調(diào)整提供依據(jù);

3)將學(xué)習(xí)率在線調(diào)整轉(zhuǎn)化為非線性優(yōu)化問題,基于梯度下降法實(shí)現(xiàn)了學(xué)習(xí)率參數(shù)在線優(yōu)化,提高了增量強(qiáng)化學(xué)習(xí)飛行控制律的成功率及在飛行器動(dòng)力學(xué)特性大范圍變化下的適應(yīng)性,減輕了IRL飛行控制算法對預(yù)先設(shè)定學(xué)習(xí)率參數(shù)的依賴。

1 增量強(qiáng)化學(xué)習(xí)飛行控制律設(shè)計(jì)

圖1 增量強(qiáng)化學(xué)習(xí)簡略圖(實(shí)線表示前向信號(hào)流,虛線代表自適應(yīng)調(diào)整路徑)

1.1 問題描述

利用強(qiáng)化學(xué)習(xí)來求解飛行控制問題,首先要明確狀態(tài)轉(zhuǎn)移關(guān)系和價(jià)值函數(shù)。在高頻采樣假設(shè)條件下,基于離散時(shí)間模型描述非線性系統(tǒng)狀態(tài)轉(zhuǎn)移函數(shù)(,)∈×1,如式(1)所示。其中×1表示狀態(tài)向量,×1為動(dòng)作向量,和分別為狀態(tài)向量和動(dòng)作向量維數(shù)。

+1=(,)

(1)

式中:下標(biāo)表示當(dāng)前時(shí)刻,下標(biāo)+1表示下一時(shí)刻。

(2)

控制的目標(biāo)是使飛行狀態(tài)跟蹤參考指令信息,因此一步回報(bào)函數(shù)設(shè)計(jì)為下一步狀態(tài)與參考狀態(tài)偏差的二次型形式

(3)

式中:×為給定的正定矩陣,下一步狀態(tài)+1需要基于在線辨識(shí)模型進(jìn)行預(yù)測。的取值將影響強(qiáng)化學(xué)習(xí)控制律的收斂性,較大的能夠加快學(xué)習(xí)算法的收斂速度,而過大的容易使學(xué)習(xí)算法發(fā)散。

最優(yōu)化控制策略為使價(jià)值函數(shù)取最大值的控制策略,如下式所示

(4)

1.2 強(qiáng)化學(xué)習(xí)飛行控制問題求解

基于最小化TD誤差原理來更新評(píng)價(jià)網(wǎng)絡(luò)權(quán)值系數(shù)。評(píng)價(jià)網(wǎng)絡(luò)更新的目標(biāo)是使誤差函數(shù)(5)最小。

(5)

其中,誤差定義為價(jià)值函數(shù)相對于狀態(tài)量偏導(dǎo)的時(shí)序差分誤差。

(6)

(7)

誤差函數(shù)相對于權(quán)值系數(shù)的梯度計(jì)算公式為

(8)

動(dòng)作網(wǎng)絡(luò)更新的目標(biāo)是最大化值函數(shù),基于Bellman最優(yōu)性定理可以得到:

(9)

(10)

價(jià)值函數(shù)相對于動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)的梯度計(jì)算公式為:

(11)

1.3 增量模型在線辨識(shí)

在增量強(qiáng)化學(xué)習(xí)控制律中,利用增量模型來近似非線性系統(tǒng)在時(shí)刻運(yùn)行點(diǎn)(,)鄰域內(nèi)的模型。假設(shè)當(dāng)前時(shí)刻→,基于一階泰勒展開,得到離散的近似線性化模型為

+1≈(,)+(,+(,

(12)

進(jìn)一步,得到增量式動(dòng)力學(xué)模型為

Δ+1-1Δ+-1Δ

(13)

其中,Δ=--1×1=--1×1分別為狀態(tài)量增量和控制量增量。

在增量強(qiáng)化學(xué)習(xí)算法中,利用實(shí)時(shí)測量得到的狀態(tài)量和控制輸入數(shù)據(jù),在線辨識(shí)狀態(tài)轉(zhuǎn)移矩陣和控制效果矩陣。基于辨識(shí)的增量模型來預(yù)測下一步系統(tǒng)狀態(tài),具體為

(14)

(15)

(16)

本文中參數(shù)矩陣應(yīng)用參考文獻(xiàn)[11]的遞推最小二乘方法(RLS)來進(jìn)行在線辨識(shí)。

進(jìn)一步,可以得到式(6)和式(11)中,狀態(tài)向量+1相對于上一步狀態(tài)量和上一步控制量的偏導(dǎo)為

(17)

(18)

2 固定學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)控制實(shí)例及問題分析

以不同動(dòng)壓下飛行器參考攻角指令跟蹤飛行控制為例來驗(yàn)證增量強(qiáng)化學(xué)習(xí)控制律,說明已有固定學(xué)習(xí)率算法存在的問題,并提出改進(jìn)思路。將攻角和俯仰角速度作為系統(tǒng)狀態(tài),升降舵輸入作為控制輸入。并作如下假設(shè):1)假設(shè)舵面偏轉(zhuǎn)產(chǎn)生的控制力在攻角控制通道所起的作用可以忽略;2)假設(shè)飛行器機(jī)體本身產(chǎn)生的俯仰阻尼力矩足夠小,可以忽略不計(jì);3)假設(shè)推力與阻力平衡,由推力產(chǎn)生的攻角控制分量可以忽略不計(jì)。

建立飛行器縱向平面俯仰姿態(tài)運(yùn)動(dòng)非線性動(dòng)力學(xué)模型為

(19)

式(19)中升力系數(shù)和俯仰力矩計(jì)算公式為

(20)

式中:0,0為零攻角升力和俯仰力矩系數(shù);,為升力系數(shù)、力矩系數(shù)相對于攻角的偏導(dǎo);,為升力系數(shù)、力矩系數(shù)相對于舵偏角的偏導(dǎo)。

外環(huán)采用PID控制,得到參考俯仰角速度指令:

(21)

式中:=-;,,分別為比例項(xiàng)、積分項(xiàng)和微分項(xiàng)系數(shù)。

影響IRL算法的參考指令跟蹤速度,過大的將使系統(tǒng)趨于不穩(wěn)定,引入可以減小常值跟蹤誤差,有助于減弱參考指令跟蹤振蕩。根據(jù)PID參數(shù)調(diào)整原則,通過數(shù)學(xué)仿真確定,本文中取=188,=02,=015。

令強(qiáng)化學(xué)習(xí)算法中狀態(tài)量、參考狀態(tài)量和動(dòng)作向量為

=[],=[],=[]

(22)

(23)

(24)

式中:函數(shù):2和:2分別為選取的光滑的基底函數(shù);,分別為評(píng)價(jià)網(wǎng)絡(luò)與動(dòng)作神經(jīng)網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù),也可以選用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提高神經(jīng)網(wǎng)絡(luò)的非線性擬合能力。

為防止權(quán)值系數(shù)訓(xùn)練過程容易發(fā)散,選取具有有界性的雙曲正切函數(shù)tanh(),∈(0, ∞]與tanh(),∈(0, ∞]組成的多項(xiàng)式作為評(píng)價(jià)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)的基底函數(shù)。

=[[tanh()],[tanh()],

[tanh()]?[tanh()]]

(25)

=[[tanh()]?[tanh()]]

(26)

其中,?表示矩陣直積,下標(biāo),,,∈1,2,3,…,。

的選取可以根據(jù)經(jīng)驗(yàn)和仿真數(shù)據(jù)分析確定,從而確定神經(jīng)元個(gè)數(shù),(基底函數(shù)的總個(gè)數(shù))和基底函數(shù)形式。神經(jīng)元個(gè)數(shù)太多容易導(dǎo)致過擬合,太少將使擬合精度不夠。因此,第一步,根據(jù)控制系統(tǒng)特性選取足夠多的神經(jīng)元;第二步,通過仿真剔除權(quán)值系數(shù)發(fā)散的神經(jīng)元;從而可以確定動(dòng)作網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)基底函數(shù)。本文中,取02,08,14,20,26,32;取02, 12, 24;取02, 32;取14, 26, 32。

進(jìn)一步,計(jì)算得到

(27)

(28)

(29)

參考文獻(xiàn)[12],選取增量強(qiáng)化學(xué)習(xí)算法中的超參數(shù),并根據(jù)經(jīng)驗(yàn)及仿真結(jié)果,設(shè)定為常值,具體數(shù)值見表1。飛行階段前20 s進(jìn)行在線訓(xùn)練,在舵控指令上疊加掃頻激勵(lì)信號(hào)作為舵控指令,以滿足充分激勵(lì)(PE)條件,用于充分激勵(lì)飛行器動(dòng)力學(xué)模態(tài),加快控制律學(xué)習(xí)過程和模型辨識(shí)過程。掃頻信號(hào)的具體形式為:

=ej2π(+()2)

(30)

式中:初始頻率取為=0.001 Hz;調(diào)制率取為=0.5。

參考文獻(xiàn)[16]中飛行器的參數(shù),取切換模態(tài)6下飛行器動(dòng)力學(xué)參數(shù)。取回報(bào)函數(shù)權(quán)重=[50],取任意參考攻角指令為:0~30 s 為3°,30~80 s為5°,80~120 s 為4°。初始狀態(tài)取為=0, q=0,舵控指令限幅±10,飛行環(huán)境參數(shù)為0~50 s 動(dòng)壓為312.2 kg/(m·s),50 s 以后動(dòng)壓變設(shè)為1311.2 kg/(m·s)。采用歐拉法進(jìn)行數(shù)學(xué)仿真,仿真步長取為0.02 s,0~20 s 訓(xùn)練階段在舵控指令上疊加掃頻指令,并且動(dòng)作與評(píng)價(jià)網(wǎng)絡(luò)以較大學(xué)習(xí)率運(yùn)行,以增強(qiáng)學(xué)習(xí)算法的探索能力,見表1,20 s以后的運(yùn)行階段調(diào)整動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為較小值,以充分利用已學(xué)習(xí)到的經(jīng)驗(yàn)。

表1 超參數(shù)設(shè)定值

仿真結(jié)果如圖2-3所示,可得到以下幾點(diǎn)結(jié)論:

圖2 固定學(xué)習(xí)率下飛行控制效果圖

圖3 固定學(xué)習(xí)率下評(píng)價(jià)網(wǎng)絡(luò)與動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)收斂結(jié)果

1)在20 s內(nèi)的訓(xùn)練過程中,評(píng)價(jià)和動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)較快收斂;

2)運(yùn)行階段,飛控能夠跟蹤不同于訓(xùn)練時(shí)刻的參考攻角指令;

3)在飛行器動(dòng)壓變化較大的情況下,基于預(yù)先設(shè)定學(xué)習(xí)率參數(shù)會(huì)導(dǎo)致IRL控制算法失效,評(píng)價(jià)網(wǎng)絡(luò)權(quán)值系數(shù)發(fā)散。

3 增量強(qiáng)化學(xué)習(xí)控制器自適應(yīng)學(xué)習(xí)率設(shè)計(jì)

飛行控制系統(tǒng)的穩(wěn)定性可以通過觀察飛行狀態(tài)的振蕩情況來進(jìn)行分析,工程上通常采用階躍響應(yīng)振蕩次數(shù)來作為飛行控制器設(shè)計(jì)輸入。因此,本文的思路是實(shí)時(shí)監(jiān)測飛行狀態(tài)跟蹤誤差的振蕩情況,根據(jù)飛行狀態(tài)振蕩程度迭代優(yōu)化行動(dòng)網(wǎng)絡(luò)學(xué)習(xí)率超參數(shù)?;谛阅鼙O(jiān)測的自適應(yīng)學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)算法的結(jié)構(gòu)如圖4。本文改進(jìn)的自適應(yīng)學(xué)習(xí)率調(diào)整部分用于在線優(yōu)化調(diào)整學(xué)習(xí)率參數(shù)。

圖4 自適應(yīng)學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)算法框架(實(shí)線表示前向信號(hào)流,虛線代表自適應(yīng)調(diào)整路徑)

3.1 基于小波分析的狀態(tài)信息振蕩程度監(jiān)測

小波分析是在20世紀(jì)80年代Morlet、Arens、Grossmannn等的研究基礎(chǔ)上發(fā)展起來的應(yīng)用數(shù)學(xué)領(lǐng)域成果。復(fù)Morlet小波在時(shí)頻兩域均具有良好的辨別能力,復(fù)Morlet小波母函數(shù)具有隨頻率參數(shù)改變而自動(dòng)調(diào)節(jié)時(shí)、頻分辨率的能力,在頻域內(nèi),可將其視為一個(gè)窄帶濾波器。本文利用其特性,分析評(píng)估飛行控制性能。

:在平方可積的實(shí)數(shù)空間(),即能量有限的信號(hào)空間中,設(shè)()∈(),其傅里葉變換為(),若()滿足如下容許性條件:

(31)

則稱()為基本小波或母小波。

將基本小波()經(jīng)過伸縮和平移后,便可以得到小波函數(shù)族:

(32)

式中:為伸縮因子;為平移因子。

給定任意平方可積信號(hào)(),即()∈(),則經(jīng)過小波變換后,得到

(33)

式中:()為小波函數(shù)()的復(fù)共軛;(,)稱為小波變換系數(shù)。

在時(shí)域和頻域范圍內(nèi),復(fù)Morlet小波函數(shù)的定義如式(34)和式(35)。

(34)

()=eπ(-)

(35)

式中:為中心頻率;為帶寬,需要根據(jù)實(shí)際信號(hào)特性來確定這兩個(gè)參數(shù)。

飛行狀態(tài)的振蕩幅值及振蕩次數(shù)反映了飛行控制系統(tǒng)的穩(wěn)定性和穩(wěn)定裕度?;诖怂悸?,本文利用小波分析強(qiáng)大的時(shí)頻分析能力,以俯仰角速度跟蹤誤差為輸入,在線分析計(jì)算不同學(xué)習(xí)率下飛行器穩(wěn)定性指標(biāo),然后基于梯度下降法迭代更新增量強(qiáng)化學(xué)習(xí)飛控算法的學(xué)習(xí)率。

3.2 動(dòng)作神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率自適應(yīng)調(diào)整策略

(36)

(37)

式中:,為小波分析輸入信號(hào)的起始和終止時(shí)刻;0<<1為遺忘因子,用于增大靠近當(dāng)前時(shí)刻的小波系數(shù)權(quán)值。

式(37)中為小波系數(shù)取最大值時(shí)所對應(yīng)的頻率值,計(jì)算公式為

(38)

得到飛控系統(tǒng)穩(wěn)定度評(píng)估指標(biāo)后,基于梯度下降法設(shè)計(jì)學(xué)習(xí)率的更新率

(39)

式中:上標(biāo)+1表示第+1步;為更新率步長。

.

1)設(shè)置小波分析時(shí)間窗口Δ及學(xué)習(xí)率更新容許誤差;

7)利用式(39)的更新率計(jì)算得到第步的學(xué)習(xí)率參數(shù);

步驟5設(shè)置閾值主要是為了防止小波誤差引起的學(xué)習(xí)率頻繁更新。

4 仿真校驗(yàn)

在這一部分,將采用第二節(jié)提到的飛行器非線性模型及不同仿真條件來驗(yàn)證文中提出的自適應(yīng)學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)控制算法。

4.1 基于小波分析的控制器穩(wěn)定性指標(biāo)合理性校驗(yàn)

通過數(shù)學(xué)仿真對比分析固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率下小波分析結(jié)果,校驗(yàn)控制系統(tǒng)穩(wěn)定性小波分析的合理性。采用本文第二節(jié)中相同的仿真條件,在50 s時(shí)飛行器的動(dòng)壓突變,動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為0.02和自適應(yīng)學(xué)習(xí)率情況下小波系數(shù)如圖5和圖6所示。圖5a和圖6a分別為固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率下小波系數(shù)圖,圖5b和圖6b分別為式(38)最大小波系數(shù)對應(yīng)頻率下的小波系數(shù)。分析可知,固定學(xué)習(xí)率下小波系數(shù)在頻率4 Hz附近取值最大,并且隨著時(shí)間變化基本不衰減,而在自適應(yīng)學(xué)習(xí)率下小波系數(shù)較小,并且衰減很快。圖5和圖6對應(yīng)的時(shí)域軌跡曲線分別如圖2和圖7所示。對比分析可知,基于小波系數(shù)建立的評(píng)價(jià)函數(shù)能有效反映控制系統(tǒng)振蕩程度,為控制系統(tǒng)穩(wěn)定性實(shí)時(shí)評(píng)價(jià)提供性能指標(biāo)。

圖5 固定學(xué)習(xí)率下小波系數(shù)圖

圖6 自適應(yīng)學(xué)習(xí)率下小波系數(shù)圖

4.2 ALRIRL與IRL算法對比

A.動(dòng)壓大范圍變化下算法對比

圖7 自適應(yīng)學(xué)習(xí)率下飛行控制效果圖

圖8 自適應(yīng)學(xué)習(xí)率下權(quán)值系數(shù)收斂結(jié)果

圖9 自適應(yīng)學(xué)習(xí)率與評(píng)價(jià)函數(shù)變化結(jié)果

B.ALRIRL與IRL算法穩(wěn)定性對比

學(xué)習(xí)算法的收斂性和穩(wěn)定性對于評(píng)估在線學(xué)習(xí)算法至關(guān)重要。目前,基于強(qiáng)化學(xué)習(xí)的飛行控制算法穩(wěn)定性還沒有得到嚴(yán)格的證明。本文中采用常用的蒙特卡洛打靶法來評(píng)價(jià)控制器收斂效果。利用運(yùn)行階段(仿真時(shí)間大于20 s為起始到仿真結(jié)束)回報(bào)函數(shù)式(3)的累積值來衡量控制器的性能。采用與上一節(jié)相同的仿真條件,而初值,隨機(jī)生成,運(yùn)行仿真程序。如果一次運(yùn)行的累計(jì)回報(bào)值超過4000則認(rèn)為此次控制失敗,并進(jìn)行標(biāo)記。一次運(yùn)行累計(jì)回報(bào)值4000對應(yīng)俯仰角速度常值誤差為≈0.89°。

隨機(jī)生成初始狀態(tài),∈([-6 6],[-8 8]),運(yùn)行100次仿真,統(tǒng)計(jì)累計(jì)回報(bào)值來評(píng)價(jià)學(xué)習(xí)算法的穩(wěn)定性。在隨機(jī)初始狀態(tài)下,ALRIRL與IRL算法的累計(jì)回報(bào)值統(tǒng)計(jì)結(jié)果對比如圖10-a所示。由仿真結(jié)果可知,ALRIRL算法下,累計(jì)回報(bào)值分布區(qū)域更小,大部分在2000以內(nèi),成功率由IRL的88%提高到99%,較大提高了學(xué)習(xí)算法的穩(wěn)定性。

飛行器飛行動(dòng)壓在50 s隨機(jī)變化,變化范圍為1.4~4.2倍,運(yùn)行100次仿真,統(tǒng)計(jì)累計(jì)回報(bào)值來評(píng)價(jià)學(xué)習(xí)算法的穩(wěn)定性。ALRIRL與IRL算法的累計(jì)回報(bào)值統(tǒng)計(jì)結(jié)果對比如圖10-b所示。由仿真結(jié)果可知,隨機(jī)動(dòng)壓變化下,ALRIRL算法累計(jì)回報(bào)值更小,大部分在2000以內(nèi),成功率由IRL的0%提高到100%,大大提高了學(xué)習(xí)算法在動(dòng)壓突變情況下算法穩(wěn)定性。

圖10 ALRIRL與IRL算法累計(jì)回報(bào)值直方圖

5 結(jié) 論

對于預(yù)先設(shè)定動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率參數(shù)的IRL方法飛行控制失敗率較高,并且無法適應(yīng)飛行器動(dòng)力學(xué)參數(shù)大范圍變化情況下的姿態(tài)穩(wěn)定控制問題,本文提出利用小波分析方法在線監(jiān)測IRL飛行姿態(tài)控制穩(wěn)定度,基于梯度下降法在線自適應(yīng)調(diào)整增量強(qiáng)化學(xué)習(xí)控制器學(xué)習(xí)率的方法。仿真實(shí)例表明,通過小波變換設(shè)計(jì)的飛行控制穩(wěn)定度評(píng)價(jià)指標(biāo)能夠有效地反映飛控系統(tǒng)的穩(wěn)定度。利用梯度下降法在線優(yōu)化調(diào)整學(xué)習(xí)率參數(shù)快速有效。本文提出的ALRIRL飛行控制律能夠有效提升強(qiáng)化學(xué)習(xí)飛行控制算法在隨機(jī)初值及隨機(jī)動(dòng)壓變化下的飛行成功率,減輕了強(qiáng)化學(xué)習(xí)飛行控制算法對于精確學(xué)習(xí)率參數(shù)的依賴。

猜你喜歡
權(quán)值小波增量
研發(fā)信息的增量披露能促進(jìn)企業(yè)創(chuàng)新投入嗎
提質(zhì)和增量之間的“辯證”
構(gòu)造Daubechies小波的一些注記
小波去噪算法研究
Поезд Харбин-Россия стимулирует рост китайско-российской торговли в провинции Хэйлунцзян哈俄班列拉動(dòng)黑龍江中俄貿(mào)易增量
善用游戲的方式解決手足爭端
特大城市快遞垃圾增量占垃圾增量93%
財(cái)務(wù)風(fēng)險(xiǎn)跟蹤評(píng)價(jià)方法初探
青蛙歷險(xiǎn)
基于洪泛查詢的最短路徑算法在智能交通系統(tǒng)中的應(yīng)用
阿巴嘎旗| 尚志市| 安西县| 客服| 从江县| 福清市| 奎屯市| 莱阳市| 贡嘎县| 吉林省| 盐边县| 广平县| 崇礼县| 抚远县| 烟台市| 来宾市| 增城市| 永平县| 特克斯县| 定襄县| 曲周县| 神木县| 平远县| 根河市| 乐都县| 南江县| 鄂尔多斯市| 衡水市| 洞口县| 中西区| 治县。| 门源| 巩义市| 措勤县| 克什克腾旗| 黎平县| 错那县| 江城| 忻州市| 全椒县| 上高县|