<fieldset id="w6uaw"></fieldset>

<del id="w6uaw"></del>

深度強(qiáng)化學(xué)習(xí)在地形自適應(yīng)運動技能上的應(yīng)用

2017-07-10 03:40劉仕超

科技風(fēng) 2017年7期

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò)特性決策

劉仕超

摘要：強(qiáng)化學(xué)習(xí)為開發(fā)模擬特性技能提供了一種很有效的方法，但強(qiáng)化學(xué)習(xí)通常需要稀疏手動的來獲取特征。依賴于深度強(qiáng)化學(xué)習(xí)，我們引進(jìn)了動作-評價和專家學(xué)習(xí)混合的學(xué)習(xí)方法（MACE）來學(xué)習(xí)動態(tài)地形自適應(yīng)技能，把高緯度狀態(tài)和地形描述作為該方法的輸入，參數(shù)化的跳躍或行走作為輸出動作。MACE方法比單一的動作-評價方法的學(xué)習(xí)效率更快，從而使動作-評價和專家學(xué)習(xí)變得更具獨特性。

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí)；地形自適應(yīng)；卷積神經(jīng)網(wǎng)絡(luò)

人和動物在環(huán)境中優(yōu)雅敏捷的運動，在動畫片中，動物的動作通常是在熟練的動畫片制造者和捕獲到的動作數(shù)據(jù)的幫助下創(chuàng)造出來的。從基本原理出發(fā)，應(yīng)用強(qiáng)化學(xué)習(xí)和基于物理特性的仿真，呈現(xiàn)出了研發(fā)不同種類運動技能的美好前景。這需要通過一個連續(xù)的決策問題，涉及狀態(tài)，動作，獎勵和控制決策的鏡頭看問題。給定當(dāng)前狀態(tài)的特性，作為捕獲的狀態(tài)，控制策略決定采取最佳動作，從而導(dǎo)致隨后的狀態(tài)，以及獎勵發(fā)生改變?？刂茮Q策的目的是最大限度地提高預(yù)期的未來回報，即，任何直接的獎勵以及所有預(yù)期的回報。

本文應(yīng)用深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合的方式來解決上述問題。在運動技能領(lǐng)域，我們應(yīng)用控制結(jié)構(gòu)建立設(shè)計動作參數(shù)的預(yù)期工作。強(qiáng)化學(xué)習(xí)過程中，值函數(shù)或者動作-值函數(shù)已經(jīng)作為導(dǎo)向函數(shù)應(yīng)用于動作的合成上，基于深度神經(jīng)網(wǎng)絡(luò)的控制策略已經(jīng)能夠借助可微神經(jīng)網(wǎng)絡(luò)來控制動作。

1 原理

系統(tǒng)原理圖如圖1所示，它有三個嵌套循環(huán)，每個嵌套對應(yīng)于不同的時間尺度。最內(nèi)層循環(huán)模型是底層控制和基于物理特性的仿真過程；中間循環(huán)是在運動周期的時間尺度上運行；最外層循環(huán)是以動作-評估參數(shù)來進(jìn)行決策更新。決策由動作評價對來決定，這些動作評價對的輸出就是深度神經(jīng)網(wǎng)絡(luò)的輸出。每個動作，都有其獨自的決策模型，動作選擇，根據(jù)基于軟最大化的模型，以一定的概率進(jìn)行選擇，這個選擇是把動作賦予具有較高評價函數(shù)值Q的。在做出動作選擇時，可能會摻雜高斯噪聲，使得噪聲以一定的概率參與到輸出。

3 結(jié)論

本文應(yīng)用深度強(qiáng)化，和基于物理特性的動作-評價專家學(xué)習(xí)模型，以及Boltzmann探索，使得學(xué)習(xí)性能更佳。這也避免了需要設(shè)計緊湊的手工制作的特征，并且允許針對可能不容易開發(fā)緊湊特征描述的地形進(jìn)行學(xué)習(xí)策略的開發(fā)。

參考文獻(xiàn)：

[1] COROS， S.， BEAUDOIN， P.， YIN， K.K.， AND VAN DE PANNE，M.2008.Synthesis of constrained walking skills.ACM Trans. Graph.27，5，Article 113.

[2] COROS， S.， BEAUDOIN，P.，AND VAN DE PANNE，M.2010. Generalized biped walking control. ACM Transctions on Graphics 29，4，Article 130.

[3] HAUSKNECHT，M.，AND STONE，P.2015.Deep reinforcement learning in parameterized action space. arXiv preprint arXiv：1511.04143.

[4] HESTER， T.， AND STONE， P.2013.Texplore： real-time sampleefficient reinforcement learning for robots. Machine Learning 90，3，385-429.

[5] LEE， Y.， KIM， S.， AND LEE， J. 2010.Data-driven biped control.ACM Transctions on Graphics 29，4，Article 129.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

深度強(qiáng)化學(xué)習(xí)在地形自適應(yīng)運動技能上的應(yīng)用