国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法

2019-01-11 03:14邱宇宸
關(guān)鍵詞:擺桿小車神經(jīng)網(wǎng)絡(luò)

邱宇宸

(南京市第二十九中學(xué),江蘇 南京 210036)

自從Deepmind推出的智能圍棋手擊敗人類圍棋專業(yè)選手李世石后,強(qiáng)化學(xué)習(xí)理論引起全世界人工智能學(xué)者的關(guān)注[1]。強(qiáng)化學(xué)習(xí)是一種有別于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的一種智能學(xué)習(xí)方法,亦叫弱監(jiān)督學(xué)習(xí)[2-4]。該方法主要基于馬爾科夫隨機(jī)過程的基礎(chǔ)上,基于環(huán)境的稀疏反饋(獎(jiǎng)勵(lì))學(xué)習(xí)到期望的動(dòng)作準(zhǔn)則[5]。強(qiáng)化學(xué)習(xí)的方法,目前被廣泛用于離散系統(tǒng)的優(yōu)化控制,如機(jī)器人路徑探索與規(guī)劃,以及設(shè)計(jì)復(fù)雜游戲自動(dòng)玩家[3,4]。顯然,這些都是未知建?;蚴遣豢山5膭?dòng)態(tài)。

倒立擺作為經(jīng)典的機(jī)器系統(tǒng),是測試和驗(yàn)證控制算法及理論的代表性設(shè)備[6-9]。實(shí)際上,在倒立擺模型物理信息明確的情況下,傳統(tǒng)的控制方法已經(jīng)得到非常理想的控制效果。但如果其模型信息未知,比如擺的質(zhì)量、初始化狀態(tài)等,傳統(tǒng)的控制理論可能無法奏效。本文將提出一種基于Actor-Critic強(qiáng)化學(xué)習(xí)的倒立擺智能控制方法,為模型不確定的機(jī)器設(shè)備的控制提供參考方案。

一、倒立擺物理模型

圖1 倒立擺模型示意圖

在忽略空氣助力的情況下,倒立擺系統(tǒng)的動(dòng)力學(xué)模型可表示為:

(1)

(2)

以上兩個(gè)式子中,變量的物理意義分別為:M:小車質(zhì)量,m:擺桿質(zhì)量,b:小車摩擦系數(shù),l:擺桿長度,I:擺桿慣量, :擺桿與垂直向上方向的夾角。其中,(1)式是小車水平受力平衡得到,(2)式則是通過擺桿的力學(xué)平衡建立。

二、Actor-Critic算法原理

Actor-Critic算法原理的結(jié)構(gòu)如圖2所示。在理論上,Actor-Critic算法是強(qiáng)化學(xué)習(xí)算法的一種,主要是針對(duì)符合馬爾科夫過程設(shè)計(jì)。算法工作流程如下:(1)策略網(wǎng)絡(luò)Actor根據(jù)環(huán)境狀態(tài)輸出動(dòng)作;(2)環(huán)境根據(jù)動(dòng)作更新狀態(tài)并給出獎(jiǎng)勵(lì);(3)評(píng)價(jià)網(wǎng)絡(luò)Critic根據(jù)環(huán)境狀態(tài)和Actor輸出的動(dòng)作進(jìn)行評(píng)價(jià);(4)根據(jù)Critic的評(píng)價(jià),策略網(wǎng)絡(luò)Actor調(diào)整自身的動(dòng)作策略(5)評(píng)價(jià)網(wǎng)絡(luò)Critic則根據(jù)獎(jiǎng)勵(lì)值更新評(píng)價(jià)準(zhǔn)則。循環(huán)執(zhí)行該過程,直到兩個(gè)網(wǎng)絡(luò)收斂。圖中的TD error意為前后兩次采樣時(shí)間評(píng)價(jià)網(wǎng)絡(luò)的打分的差值[5]。通過TD error來訓(xùn)練強(qiáng)化學(xué)習(xí)模型的方法實(shí)現(xiàn)學(xué)習(xí)機(jī)的單步更新,縮短了訓(xùn)練的時(shí)間[6]。

圖2 Actor-Critic算法原理圖

本質(zhì)上,策略網(wǎng)絡(luò)Actor和評(píng)價(jià)網(wǎng)絡(luò)Critic可分別理解為解析式未知的動(dòng)作函數(shù)和值函數(shù),因此可以采用神經(jīng)網(wǎng)絡(luò)的方法對(duì)這兩個(gè)函數(shù)進(jìn)行學(xué)習(xí)逼近。當(dāng)網(wǎng)絡(luò)收斂時(shí),即學(xué)到了相應(yīng)函數(shù)的“黑盒”表達(dá)。文中策略網(wǎng)絡(luò)Actor和評(píng)價(jià)網(wǎng)絡(luò)Critic分別由兩個(gè)RBF神經(jīng)網(wǎng)絡(luò)構(gòu)成。

RBF神經(jīng)網(wǎng)絡(luò)是仿生學(xué)、應(yīng)用數(shù)學(xué)結(jié)合的產(chǎn)物[10-12],也是目前主流的人工智能算法之一。通過非線性映射及加權(quán)組合,RBF神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意連續(xù)函數(shù)[13,14]。其結(jié)構(gòu)實(shí)際為三層前向網(wǎng)絡(luò),如圖3所示。

圖3 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

設(shè)網(wǎng)絡(luò)的輸入向量為x,輸出向量為y,則網(wǎng)絡(luò)的映射關(guān)系可表示為:

y=θTφ(x)

(3)

其中φ(x)為輸入的2階范數(shù)的徑向基函數(shù)值,φ(x)=[φ1,φ2,…,φn],對(duì)于每個(gè)有:

(4)

式中,b表示徑向基函數(shù)的寬度,c表示函數(shù)的中心。此外,θ=[θ1,θ2,…,θn]為權(quán)向量。在訓(xùn)練過程中,RBF神經(jīng)網(wǎng)絡(luò)的性能指標(biāo)函數(shù)?。?/p>

(5)

其中yd(t)為期望輸出。

根據(jù)BP訓(xùn)練算法,網(wǎng)絡(luò)參數(shù)的更新公式如下:

θj(t)=θj(t-1)+η(yd(t)-

y(t) )φj+α(θj(t-1)-θj(t-2) )

(6)

(7)

bj(t)=bj(t-1)+ηΔbj(t)+

α(bj(t-1)-bj(t-2))

(8)

(9)

cji(t)=cji(t-1)+ηΔcji(t)+

α(cji(t-1)-cji(t-2))

(10)

三、實(shí)驗(yàn)與分析

所提出的算法將通過MATLAB平臺(tái)進(jìn)行仿真實(shí)驗(yàn)。倒立擺物理模型則依照第三節(jié)的模型公式通過歐拉公式進(jìn)行差分建模,采樣時(shí)間為0.01秒。倒立擺的模型參數(shù)為:M= 1.0kg,m=0.1kg,b=0.0005,l=0.5m,I= 1kg·m2。擺桿的初始偏角為小于2.5°的隨機(jī)值,小車的初始位移為0。小車的最大移動(dòng)位移為2.4m,擺桿的最大擺角為15°。

在控制算法上,Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的學(xué)習(xí)率均為0.25,動(dòng)量因子均為0.1。Actor網(wǎng)絡(luò)為4-6-1結(jié)構(gòu),Critic網(wǎng)絡(luò)為5-6-1結(jié)構(gòu)。環(huán)境的獎(jiǎng)勵(lì)模式為:當(dāng)小車超出最大位移或是擺桿超過最大角度時(shí),獎(jiǎng)勵(lì)為-1;否則獎(jiǎng)勵(lì)為0。當(dāng)控制器使倒立擺系統(tǒng)保持5000個(gè)采樣周期不倒,則認(rèn)為算法訓(xùn)練成功。

仿真實(shí)驗(yàn)結(jié)果圖4-7所示。從四個(gè)實(shí)驗(yàn)可以看出,所提出的算法能在有限的嘗試次數(shù)內(nèi)學(xué)習(xí)到保持倒立擺平衡的方法。從各個(gè)圖的控制曲線上看,最初都存在震蕩,但最終都會(huì)趨于收斂,使得擺桿偏角為0且小車的位移為0,證明了所設(shè)計(jì)算法的有效性和可行性。

圖4 第一次實(shí)驗(yàn)(第198次嘗試達(dá)到目的)

圖5 第二次實(shí)驗(yàn)(第150次嘗試達(dá)到目的)

圖6 第三次實(shí)驗(yàn)(第184次嘗試達(dá)到目的)

圖7 第四次實(shí)驗(yàn)(第50次嘗試達(dá)到目的)

猜你喜歡
擺桿小車神經(jīng)網(wǎng)絡(luò)
快樂語文(2020年36期)2021-01-14
自制小車來比賽
一種圓織機(jī)擺桿裝置
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
基于STM32的簡單旋轉(zhuǎn)倒立擺
磁浮列車Z 向支撐擺桿斷裂失效成因分析
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
劉老師想開小車
發(fā)射平臺(tái)擺桿機(jī)構(gòu)可靠性分析
兩輪自平衡小車的設(shè)計(jì)與實(shí)現(xiàn)
临夏市| 永德县| 宣威市| 板桥市| 庄浪县| 竹山县| 温州市| 西贡区| 长汀县| 五家渠市| 中山市| 芷江| 九江市| 西贡区| 郎溪县| 彭州市| 宽甸| 澄城县| 永登县| 石泉县| 乌恰县| 武安市| 惠安县| 富阳市| 隆尧县| 清河县| 通海县| 潍坊市| 仪征市| 综艺| 临湘市| 和硕县| 泰顺县| 大英县| 大同市| 麻城市| 雅安市| 横山县| 洛浦县| 吉林省| 阜南县|