□文/ Tuomas Haarnoja、Vitchyr Pong、Aurick Zhou、Murtaza Dalal、Pieter Abbeel、Sergey Levine
當人類學(xué)習(xí)一項新技能,往往是不斷試錯與計劃的交織,機器也是如此。強化學(xué)習(xí)有基于模型的方法和無模型的方法。近日伯克利大學(xué)最新提出無模型深度強化學(xué)習(xí)方法——soft Q-learning(SQL)算法,該算法可以對模擬和現(xiàn)實世界的任務(wù)執(zhí)行組合性,同時在該算法基礎(chǔ)上提出了一種使用具有表達性的神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)機器人操作技能的學(xué)習(xí)框架。該學(xué)習(xí)框架為學(xué)習(xí)各種機器人技能提供了一種有效的機制,并且在實際機器人系統(tǒng)的樣本效率方面優(yōu)于目前最先進的無模型深度強化學(xué)習(xí)方法。
現(xiàn)如今,經(jīng)過長期的研究實驗證明,無模型深度強化學(xué)習(xí)在視頻游戲、模擬機器人操縱和運動等領(lǐng)域具有良好的性能表現(xiàn)。然而,眾所周知,當與環(huán)境的交互時間有限的情況下,無模型方法的表現(xiàn)并不佳,就像大多數(shù)現(xiàn)實世界中的機器人任務(wù)一樣。在本文中,我們研究了如何使用soft Q-learning訓(xùn)練的最大熵策略應(yīng)用于現(xiàn)實世界中的機器人操縱任務(wù)。這種方法之所以能夠在現(xiàn)實世界中應(yīng)用,主要得益于soft Q-learning的兩個重要特征:首先,soft Q-learning可以通過學(xué)習(xí)具有表達性的基于能量的模型(energy-based models)所表示的策略,從而學(xué)習(xí)多模式探索策略。其次,我們展示的通過soft Q-learning所學(xué)習(xí)的策略可以組成新策略,并且最終策略的最優(yōu)性可以根據(jù)組合策略之間的分歧來界定。這種組合性為現(xiàn)實世界的操縱任務(wù)提供了一個特別有價值的工具,其中,通過對現(xiàn)有的技能進行組合進而構(gòu)造出新的策略,可以在從零開始的訓(xùn)練中提供效率上的大幅提高。我們的實驗評估結(jié)果表明,相較于以往的無模型深度強化學(xué)習(xí)方法,soft Q-learning具有更高的樣本效率,并且可以對模擬和現(xiàn)實世界的任務(wù)執(zhí)行組合性。
具有表達性的通用目的函數(shù)近似器(如神經(jīng)網(wǎng)絡(luò)),與可用于獲取復(fù)雜行為策略的通用目的無模型強化學(xué)習(xí)算法的交集,有望實現(xiàn)廣泛的機器人行為的自動化:強化學(xué)習(xí)提供了用于推理序列決策的形式主義,而大型神經(jīng)網(wǎng)絡(luò)提供了表征,原則上,可以用于使用最少的手動工程來表示任何行為。然而,經(jīng)過實踐證明,將具有多層神經(jīng)網(wǎng)絡(luò)表示(即深度強化學(xué)習(xí))的無模型強化學(xué)習(xí)算法應(yīng)用于現(xiàn)實世界中的機器人控制問題,這一過程是非常困難的:無模型方法的樣本復(fù)雜性相當高,并且由于大容量函數(shù)近似器的包容性,復(fù)雜性還將進一步提高。在以往的研究中,專家們試圖通過在多個機器人上并行化學(xué)習(xí)來緩解這些問題,比如利用實例演示,或模擬訓(xùn)練,并依靠精確的模型實現(xiàn)向現(xiàn)實世界的遷移。所有這些方法都帶有附加的假設(shè)和局限性。那么,我們是否可以設(shè)計出一種無模型強化學(xué)習(xí)算法,這種算法能夠在不依賴模擬、演示或多個機器人的情況下,直接對現(xiàn)實世界中的多層神經(jīng)網(wǎng)絡(luò)模型進行高效訓(xùn)練?
我們使用一種稱為soft Q-learning的最大熵強化學(xué)習(xí)算法,對Sawyer機器人進行訓(xùn)練使其能夠?qū)犯叻e木疊加在一起。從零開始對一個策略進行訓(xùn)練需要不到兩個小時的時間,并且已學(xué)習(xí)事物策略干擾(左圖)具有很強的魯棒性。我們還展示了該如何將學(xué)到的策略組合起來形成新的復(fù)合技能,例如在避開樂高積木塔的情況下進行堆疊操作(右圖)。
我們假設(shè),基于以下兩點性質(zhì),最大熵原理可以為實際的、現(xiàn)實世界的深度強化學(xué)習(xí)提供一個有效的框架。首先,最大熵策略通過玻爾茲曼分布(Boltzmann distribution)表達了一個隨機策略,提供了一種內(nèi)在的、明智的探索策略,其能量對應(yīng)于reward-togo或Q函數(shù)。此分布為所有操作分配一個非零概率,但期望回報更高的操作更可能被采樣。因此,該策略將自動把探索引向回報更高的區(qū)域。這種特性可以被看做是探索和開發(fā)的軟組合,在實際應(yīng)用中是非常有益的,因為它提供了比貪婪探索(greedy exploration)更多的結(jié)構(gòu),并且正如我們實驗所展示的那樣,這大大提高了樣本的復(fù)雜性。其次,正如我們在文章中所展示的那樣,獨立訓(xùn)練的最大熵策略可以通過增加Q函數(shù)而將其組合在一起,從而為合并后的獎勵函數(shù)產(chǎn)生一個新的策略,該策略被證明近乎于相應(yīng)的最優(yōu)策略。在實際應(yīng)用中,控制器的可組合性尤為重要,而這在標準強化學(xué)習(xí)中是不可能的。在這些應(yīng)用中,重復(fù)使用過去的經(jīng)驗可以極大地提高任務(wù)的樣本效率(這些任務(wù)可以自然地分解為更簡單的子問題)。例如,拾取和放置的策略可以分解為:(1)到達指定的X坐標;(2)到達指定的Y坐標;(3)規(guī)避障礙。因此,這種可分解的策略可以分三個階段學(xué)習(xí),每個階段產(chǎn)生一個子策略,而這些子策略隨后可以在需要與環(huán)境進行交互的情況下進行離線組合。
對兩個獨立的策略進行訓(xùn)練,從而相應(yīng)地推動圓柱到橙色線和藍色線。彩色圓圈顯示了針對相應(yīng)策略的圓柱到達最終位置的樣本。當策略組合在一起時,生成的策略會學(xué)習(xí)將圓柱體推到線的下交叉點(綠色圓圈表示最終位置)。沒有來自環(huán)境的附加樣本用于對組合策略進行訓(xùn)練。組合策略學(xué)習(xí)滿足兩個原始目標,而不是簡單地平均最終圓柱位置。
本文的主要貢獻是在最新提出的soft Q-learning(SQL)算法的基礎(chǔ)上,提出了一種使用具有表達性的神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)機器人操作技能的學(xué)習(xí)框架。我們證明了,該學(xué)習(xí)框架為學(xué)習(xí)各種機器人技能提供了一種有效的機制,并且在實際機器人系統(tǒng)的樣本效率方面優(yōu)于目前最先進的無模型深度強化學(xué)習(xí)方法。我們的實驗結(jié)果表明,在很大的程度上,SQL的性能要遠遠優(yōu)于深度確定性策略梯度(DDPG)和歸一化優(yōu)勢函數(shù)(NAF),這些算法過去曾被用于利用神經(jīng)網(wǎng)絡(luò)探索現(xiàn)實世界中的無模型機器人學(xué)習(xí)。我們還演示了對SQL算法的全新的擴展,即利用它對以前學(xué)習(xí)過的技能進行組合。我們提出了一個關(guān)于組合策略和組合獎勵函數(shù)最優(yōu)策略之間差別的理論界限,它適用于SQL和其他基于軟優(yōu)化的強化學(xué)習(xí)方法。在實驗中,我們利用最大熵策略在模擬領(lǐng)域和物理領(lǐng)域的組合性,展示了不同技能的魯棒性學(xué)習(xí),并且在樣本效率方面超越了現(xiàn)有的最先進的方法。
在本文中,我們探討了如何將soft Q-learning擴展到現(xiàn)實世界中的機器人操作任務(wù)中,既可以學(xué)習(xí)單個操作任務(wù),也可以學(xué)習(xí)能夠組成新策略的組合任務(wù)。我們的實驗表明,本質(zhì)上來說,soft Q-learning的性能要遠遠優(yōu)于無模型深度強化學(xué)習(xí)。在模擬到達任務(wù)中,soft Q-learning具有比NAF更好的性能,其中包括多個策略組合以到達新位置的情況。除此之外,在Sawyer機器人進行評估的真實世界任務(wù)的執(zhí)行中,soft Q-learning在性能上勝過DDPG。該方法具有更好的穩(wěn)定性和收斂性,并且通過soft Q-learning獲得的對Q函數(shù)進行組合的能力可以使其在現(xiàn)實世界的機器人場景中特別有用,其中針對每個新獎勵因素組合的新策略進行再訓(xùn)練是耗時且昂貴的。
當在Sawyer機器人上進行訓(xùn)練以將其末端執(zhí)行器移動到特定位置時,DDPG(綠色)、NAF(紅色)和SQL(藍色)的學(xué)習(xí)曲線。SQL的學(xué)習(xí)速度比其他方法快得多。我們還通過將期望的位置連接到觀察向量(橙色)以訓(xùn)練SQL達到隨機采樣的末端執(zhí)行器位置。SQL學(xué)會盡快解決這個任務(wù)。SQL曲線顯示10個輪數(shù)中的移動平均值。
在不到兩個小時的時間里,就可以學(xué)會一個樂高堆疊策略。學(xué)習(xí)到的策略對干擾具有很強的魯棒性:當機器人被推進到一個與典型軌跡完全不同的狀態(tài)后,它能夠恢復(fù)并成功地將樂高積木堆在一起。
在研究最大熵策略的可組合性時,我們推導(dǎo)出了組合策略與組合獎勵函數(shù)的最優(yōu)策略之間誤差的界限。這一界限表明熵值較高的策略可能更容易進行組合。在未來,一項有意義的研究方向是探尋這一約束對組合性的影響。例如,我們是否可以推導(dǎo)出一個可應(yīng)用于組合Q函數(shù)的修正,以減少偏差?回答這樣的問題,會使得從先前訓(xùn)練過的構(gòu)建塊中創(chuàng)建新的機器人技能變得更加實際,這使得機器人更容易獲得通過強化學(xué)習(xí)學(xué)到大量行為。