劉仕超
摘 要:強(qiáng)化學(xué)習(xí)為開發(fā)模擬特性技能提供了一種很有效的方法,但強(qiáng)化學(xué)習(xí)通常需要稀疏手動的來獲取特征。依賴于深度強(qiáng)化學(xué)習(xí),我們引進(jìn)了動作-評價和專家學(xué)習(xí)混合的學(xué)習(xí)方法(MACE)來學(xué)習(xí)動態(tài)地形自適應(yīng)技能,把高緯度狀態(tài)和地形描述作為該方法的輸入,參數(shù)化的跳躍或行走作為輸出動作。MACE方法比單一的動作-評價方法的學(xué)習(xí)效率更快,從而使動作-評價和專家學(xué)習(xí)變得更具獨特性。
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);地形自適應(yīng);卷積神經(jīng)網(wǎng)絡(luò)
人和動物在環(huán)境中優(yōu)雅敏捷的運動,在動畫片中,動物的動作通常是在熟練的動畫片制造者和捕獲到的動作數(shù)據(jù)的幫助下創(chuàng)造出來的。從基本原理出發(fā),應(yīng)用強(qiáng)化學(xué)習(xí)和基于物理特性的仿真,呈現(xiàn)出了研發(fā)不同種類運動技能的美好前景。這需要通過一個連續(xù)的決策問題,涉及狀態(tài),動作,獎勵和控制決策的鏡頭看問題。給定當(dāng)前狀態(tài)的特性,作為捕獲的狀態(tài),控制策略決定采取最佳動作,從而導(dǎo)致隨后的狀態(tài),以及獎勵發(fā)生改變??刂茮Q策的目的是最大限度地提高預(yù)期的未來回報,即,任何直接的獎勵以及所有預(yù)期的回報。
本文應(yīng)用深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合的方式來解決上述問題。在運動技能領(lǐng)域,我們應(yīng)用控制結(jié)構(gòu)建立設(shè)計動作參數(shù)的預(yù)期工作。強(qiáng)化學(xué)習(xí)過程中,值函數(shù)或者動作-值函數(shù)已經(jīng)作為導(dǎo)向函數(shù)應(yīng)用于動作的合成上,基于深度神經(jīng)網(wǎng)絡(luò)的控制策略已經(jīng)能夠借助可微神經(jīng)網(wǎng)絡(luò)來控制動作。
1 原理
系統(tǒng)原理圖如圖1所示,它有三個嵌套循環(huán),每個嵌套對應(yīng)于不同的時間尺度。最內(nèi)層循環(huán)模型是底層控制和基于物理特性的仿真過程;中間循環(huán)是在運動周期的時間尺度上運行;最外層循環(huán)是以動作-評估參數(shù)來進(jìn)行決策更新。決策由動作評價對來決定,這些動作評價對的輸出就是深度神經(jīng)網(wǎng)絡(luò)的輸出。每個動作,都有其獨自的決策模型,動作選擇,根據(jù)基于軟最大化的模型,以一定的概率進(jìn)行選擇,這個選擇是把動作賦予具有較高評價函數(shù)值Q的。在做出動作選擇時,可能會摻雜高斯噪聲,使得噪聲以一定的概率參與到輸出。
3 結(jié)論
本文應(yīng)用深度強(qiáng)化,和基于物理特性的動作-評價專家學(xué)習(xí)模型,以及Boltzmann探索,使得學(xué)習(xí)性能更佳。這也避免了需要設(shè)計緊湊的手工制作的特征,并且允許針對可能不容易開發(fā)緊湊特征描述的地形進(jìn)行學(xué)習(xí)策略的開發(fā)。
參考文獻(xiàn):
[1] COROS, S., BEAUDOIN, P., YIN, K.K., AND VAN DE PANNE,M.2008.Synthesis of constrained walking skills.ACM Trans. Graph.27,5,Article 113.
[2] COROS, S., BEAUDOIN,P.,AND VAN DE PANNE,M.2010. Generalized biped walking control. ACM Transctions on Graphics 29,4,Article 130.
[3] HAUSKNECHT,M.,AND STONE,P.2015.Deep reinforcement learning in parameterized action space. arXiv preprint arXiv:1511.04143.
[4] HESTER, T., AND STONE, P.2013.Texplore: real-time sampleefficient reinforcement learning for robots. Machine Learning 90,3,385-429.
[5] LEE, Y., KIM, S., AND LEE, J. 2010.Data-driven biped control.ACM Transctions on Graphics 29,4,Article 129.