基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法

2019-01-11 03:14邱宇宸

武漢冶金管理干部學(xué)院學(xué)報(bào) 2018年4期

邱宇宸

(南京市第二十九中學(xué)，江蘇南京 210036)

自從Deepmind推出的智能圍棋手擊敗人類圍棋專業(yè)選手李世石后，強(qiáng)化學(xué)習(xí)理論引起全世界人工智能學(xué)者的關(guān)注[1]。強(qiáng)化學(xué)習(xí)是一種有別于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的一種智能學(xué)習(xí)方法，亦叫弱監(jiān)督學(xué)習(xí)[2-4]。該方法主要基于馬爾科夫隨機(jī)過程的基礎(chǔ)上，基于環(huán)境的稀疏反饋(獎(jiǎng)勵(lì))學(xué)習(xí)到期望的動(dòng)作準(zhǔn)則[5]。強(qiáng)化學(xué)習(xí)的方法，目前被廣泛用于離散系統(tǒng)的優(yōu)化控制，如機(jī)器人路徑探索與規(guī)劃，以及設(shè)計(jì)復(fù)雜游戲自動(dòng)玩家[3,4]。顯然，這些都是未知建?；蚴遣豢山５膭?dòng)態(tài)。

倒立擺作為經(jīng)典的機(jī)器系統(tǒng)，是測試和驗(yàn)證控制算法及理論的代表性設(shè)備[6-9]。實(shí)際上，在倒立擺模型物理信息明確的情況下，傳統(tǒng)的控制方法已經(jīng)得到非常理想的控制效果。但如果其模型信息未知，比如擺的質(zhì)量、初始化狀態(tài)等，傳統(tǒng)的控制理論可能無法奏效。本文將提出一種基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法，為模型不確定的機(jī)器設(shè)備的控制提供參考方案。

一、倒立擺物理模型

圖1 倒立擺模型示意圖

在忽略空氣助力的情況下，倒立擺系統(tǒng)的動(dòng)力學(xué)模型可表示為：

(1)

(2)

以上兩個(gè)式子中，變量的物理意義分別為：M：小車質(zhì)量，m：擺桿質(zhì)量，b：小車摩擦系數(shù)，l：擺桿長度，I：擺桿慣量，：擺桿與垂直向上方向的夾角。其中，(1)式是小車水平受力平衡得到，(2)式則是通過擺桿的力學(xué)平衡建立。

二、Actor-Critic算法原理

Actor-Critic算法原理的結(jié)構(gòu)如圖2所示。在理論上，Actor-Critic算法是強(qiáng)化學(xué)習(xí)算法的一種，主要是針對(duì)符合馬爾科夫過程設(shè)計(jì)。算法工作流程如下：(1)策略網(wǎng)絡(luò)Actor根據(jù)環(huán)境狀態(tài)輸出動(dòng)作；(2)環(huán)境根據(jù)動(dòng)作更新狀態(tài)并給出獎(jiǎng)勵(lì)；(3)評(píng)價(jià)網(wǎng)絡(luò)Critic根據(jù)環(huán)境狀態(tài)和Actor輸出的動(dòng)作進(jìn)行評(píng)價(jià)；(4)根據(jù)Critic的評(píng)價(jià)，策略網(wǎng)絡(luò)Actor調(diào)整自身的動(dòng)作策略(5)評(píng)價(jià)網(wǎng)絡(luò)Critic則根據(jù)獎(jiǎng)勵(lì)值更新評(píng)價(jià)準(zhǔn)則。循環(huán)執(zhí)行該過程，直到兩個(gè)網(wǎng)絡(luò)收斂。圖中的TD error意為前后兩次采樣時(shí)間評(píng)價(jià)網(wǎng)絡(luò)的打分的差值[5]。通過TD error來訓(xùn)練強(qiáng)化學(xué)習(xí)模型的方法實(shí)現(xiàn)學(xué)習(xí)機(jī)的單步更新，縮短了訓(xùn)練的時(shí)間[6]。

圖2 Actor-Critic算法原理圖

本質(zhì)上，策略網(wǎng)絡(luò)Actor和評(píng)價(jià)網(wǎng)絡(luò)Critic可分別理解為解析式未知的動(dòng)作函數(shù)和值函數(shù)，因此可以采用神經(jīng)網(wǎng)絡(luò)的方法對(duì)這兩個(gè)函數(shù)進(jìn)行學(xué)習(xí)逼近。當(dāng)網(wǎng)絡(luò)收斂時(shí)，即學(xué)到了相應(yīng)函數(shù)的“黑盒”表達(dá)。文中策略網(wǎng)絡(luò)Actor和評(píng)價(jià)網(wǎng)絡(luò)Critic分別由兩個(gè)RBF神經(jīng)網(wǎng)絡(luò)構(gòu)成。

RBF神經(jīng)網(wǎng)絡(luò)是仿生學(xué)、應(yīng)用數(shù)學(xué)結(jié)合的產(chǎn)物[10-12]，也是目前主流的人工智能算法之一。通過非線性映射及加權(quán)組合，RBF神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意連續(xù)函數(shù)[13,14]。其結(jié)構(gòu)實(shí)際為三層前向網(wǎng)絡(luò)，如圖3所示。

圖3 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

設(shè)網(wǎng)絡(luò)的輸入向量為x，輸出向量為y,則網(wǎng)絡(luò)的映射關(guān)系可表示為：

y=θTφ(x)

(3)

其中φ(x)為輸入的2階范數(shù)的徑向基函數(shù)值，φ(x)=[φ1,φ2,…,φn],對(duì)于每個(gè)有：

(4)

式中，b表示徑向基函數(shù)的寬度，c表示函數(shù)的中心。此外，θ=[θ1,θ2,…,θn]為權(quán)向量。在訓(xùn)練過程中，RBF神經(jīng)網(wǎng)絡(luò)的性能指標(biāo)函數(shù)?。?/p>

(5)

其中yd(t)為期望輸出。

根據(jù)BP訓(xùn)練算法，網(wǎng)絡(luò)參數(shù)的更新公式如下：

θj(t)=θj(t-1)+η(yd(t)-

y(t) )φj+α(θj(t-1)-θj(t-2) )

(6)

(7)

bj(t)=bj(t-1)+ηΔbj(t)+

α(bj(t-1)-bj(t-2))

(8)

(9)

cji(t)=cji(t-1)+ηΔcji(t)+

α(cji(t-1)-cji(t-2))

(10)

三、實(shí)驗(yàn)與分析

所提出的算法將通過MATLAB平臺(tái)進(jìn)行仿真實(shí)驗(yàn)。倒立擺物理模型則依照第三節(jié)的模型公式通過歐拉公式進(jìn)行差分建模，采樣時(shí)間為0.01秒。倒立擺的模型參數(shù)為：M= 1.0kg，m=0.1kg，b=0.0005，l=0.5m，I= 1kg·m2。擺桿的初始偏角為小于2.5°的隨機(jī)值，小車的初始位移為0。小車的最大移動(dòng)位移為2.4m，擺桿的最大擺角為15°。

在控制算法上，Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的學(xué)習(xí)率均為0.25，動(dòng)量因子均為0.1。Actor網(wǎng)絡(luò)為4-6-1結(jié)構(gòu)，Critic網(wǎng)絡(luò)為5-6-1結(jié)構(gòu)。環(huán)境的獎(jiǎng)勵(lì)模式為：當(dāng)小車超出最大位移或是擺桿超過最大角度時(shí)，獎(jiǎng)勵(lì)為-1；否則獎(jiǎng)勵(lì)為0。當(dāng)控制器使倒立擺系統(tǒng)保持5000個(gè)采樣周期不倒，則認(rèn)為算法訓(xùn)練成功。

仿真實(shí)驗(yàn)結(jié)果圖4-7所示。從四個(gè)實(shí)驗(yàn)可以看出，所提出的算法能在有限的嘗試次數(shù)內(nèi)學(xué)習(xí)到保持倒立擺平衡的方法。從各個(gè)圖的控制曲線上看，最初都存在震蕩，但最終都會(huì)趨于收斂，使得擺桿偏角為0且小車的位移為0，證明了所設(shè)計(jì)算法的有效性和可行性。

圖4 第一次實(shí)驗(yàn)(第198次嘗試達(dá)到目的)

圖5 第二次實(shí)驗(yàn)(第150次嘗試達(dá)到目的)

圖6 第三次實(shí)驗(yàn)(第184次嘗試達(dá)到目的)

圖7 第四次實(shí)驗(yàn)(第50次嘗試達(dá)到目的)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法

一、倒立擺物理模型

二、Actor-Critic算法原理

三、實(shí)驗(yàn)與分析

一、倒立擺物理模型

二、Actor-Critic算法原理

三、實(shí)驗(yàn)與分析