国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分層強(qiáng)化學(xué)習(xí)綜述

2021-02-04 14:15魏競(jìng)毅陳希亮
關(guān)鍵詞:分層狀態(tài)動(dòng)作

賴(lài) 俊,魏競(jìng)毅,陳希亮

陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,它是智能體(Agent)根據(jù)自身狀態(tài)(State)采取動(dòng)作(Action)與環(huán)境進(jìn)行交互獲取獎(jiǎng)勵(lì),最終完成一個(gè)最優(yōu)策略使獎(jiǎng)勵(lì)最大化。2017 年最具影響力的AlphaGo大勝世界圍棋冠軍李世石和柯潔事件,其核心算法就是強(qiáng)化學(xué)習(xí)算法。但在傳統(tǒng)強(qiáng)化學(xué)習(xí)中面臨著維數(shù)災(zāi)難的問(wèn)題,因?yàn)樗袕?qiáng)化學(xué)習(xí)的方法都把狀態(tài)動(dòng)作空間視為一個(gè)巨大的、平坦的搜索空間,這也就意味著一旦環(huán)境較為復(fù)雜,狀態(tài)動(dòng)作空間過(guò)大,將會(huì)導(dǎo)致起始狀態(tài)到目標(biāo)狀態(tài)的路徑非常長(zhǎng),需要學(xué)習(xí)參數(shù)以及學(xué)習(xí)過(guò)程中的存儲(chǔ)空間將會(huì)非常大,使得學(xué)習(xí)的難度成指數(shù)增加,并且強(qiáng)化學(xué)習(xí)效率以及效果不盡如人意。

之后隨著深度學(xué)習(xí)的再次興起,其強(qiáng)大的探索能力受到了廣大科研人員的熱捧,于是結(jié)合兩者深度強(qiáng)化學(xué)習(xí)也就此應(yīng)運(yùn)而生,深度強(qiáng)化學(xué)習(xí)不僅具有強(qiáng)大的探索能力,對(duì)于復(fù)雜的環(huán)境狀態(tài)都能夠有一個(gè)良好的處理,但當(dāng)智能體具有復(fù)雜動(dòng)作空間時(shí),其依舊不能取得良好的結(jié)果,使得強(qiáng)化學(xué)習(xí)的發(fā)展再次碰觸到了瓶頸。為解決強(qiáng)化學(xué)習(xí)發(fā)展的瓶頸問(wèn)題,研究者們將分層的思想加入強(qiáng)化學(xué)習(xí)中,提出分層深度強(qiáng)化學(xué)習(xí)(Hierarchical Deep Reinforcement Learning,HRL),HRL 的本質(zhì)是通過(guò)將任務(wù)分解為不同抽象層次上的子任務(wù),子任務(wù)的狀態(tài)動(dòng)作空間有限,對(duì)子任務(wù)能夠有較快的求解速度,最終加快整體問(wèn)題的求解[1]。經(jīng)過(guò)分層深度強(qiáng)化學(xué)習(xí)在競(jìng)技對(duì)抗游戲中,人工智能不斷發(fā)力,在例如DOTA2、星際爭(zhēng)霸2 這類(lèi)復(fù)雜的競(jìng)技對(duì)抗游戲中與游戲職業(yè)頂尖人員進(jìn)行對(duì)抗并取得了勝利,甚至在與普通人對(duì)戰(zhàn)時(shí)出現(xiàn)人類(lèi)一敗涂地的情況。

本文首先對(duì)MDP 和SMDP 進(jìn)行簡(jiǎn)要描述,同時(shí)也回顧了一下三種分層強(qiáng)化學(xué)習(xí)方法:Sutton的option體系、Parr 和Russell 的HAM(Hierarchies of Abstract Machines)方法和Dietterich的MAXQ 框架,之后對(duì)幾年來(lái)在分層深度強(qiáng)化學(xué)習(xí)上的創(chuàng)新進(jìn)行了介紹,主要集中在分層的子策略共享、無(wú)監(jiān)督的學(xué)習(xí)和多層的分層結(jié)構(gòu),最終討論分層深度強(qiáng)化學(xué)習(xí)的發(fā)展前景與挑戰(zhàn)。

1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)

1.1 馬爾科夫決策過(guò)程

強(qiáng)化學(xué)習(xí)是學(xué)習(xí)一種從情景到動(dòng)作的映射,以此來(lái)使得標(biāo)量獎(jiǎng)勵(lì)或強(qiáng)化信號(hào)最大[2]。強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個(gè)馬爾科夫決策過(guò)程(Markov Decision Process,MDP),尋找最優(yōu)策略π。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程是動(dòng)態(tài)的,其數(shù)據(jù)通過(guò)在不斷與環(huán)境進(jìn)行交互來(lái)產(chǎn)生并不斷更新,馬爾科夫決策過(guò)程有元組(S,A,P,R,γ)描述,其中S為有限的狀態(tài)集,A為有限的動(dòng)作集,P為狀態(tài)轉(zhuǎn)移概率,R為回報(bào)函數(shù),γ為折扣因子,用于計(jì)算累積回報(bào)。當(dāng)一個(gè)智能體(agent)根據(jù)與環(huán)境的交互采取一個(gè)動(dòng)作α后,它會(huì)獲得一個(gè)即時(shí)收益reward,然后根據(jù)其狀態(tài)轉(zhuǎn)移概率P到達(dá)下一狀態(tài)st+1,同時(shí)由于馬爾科夫性,下一個(gè)狀態(tài)st+1僅與當(dāng)前狀態(tài)st相關(guān),所以每次做出決策時(shí)不用考慮歷史狀態(tài),最終根據(jù)其累積獎(jiǎng)勵(lì)構(gòu)成的狀態(tài)值函數(shù)和狀態(tài)-行為值函數(shù),來(lái)學(xué)習(xí)到最優(yōu)策略。

1.2 半馬爾科夫決策過(guò)程

馬爾科夫決策過(guò)程根據(jù)當(dāng)前狀態(tài)st選擇一個(gè)動(dòng)作后,會(huì)根據(jù)狀態(tài)轉(zhuǎn)移概率P和策略π 跳轉(zhuǎn)至下一狀態(tài)st+1,而且根據(jù)馬爾科夫性其下一狀態(tài)st+1僅與當(dāng)前狀態(tài)st有關(guān)。但由于在一些情況下,多個(gè)動(dòng)作在多個(gè)時(shí)間步驟完成后才能體現(xiàn)出其真正的價(jià)值,對(duì)于這類(lèi)情況MDP 無(wú)法進(jìn)行較好的優(yōu)化處理,所以研究人員引入半馬爾科夫決策過(guò)程SMDP(Semi-Markov Decision Process)[3],SMDP是依賴(lài)歷史狀態(tài)的策略,兩者的狀態(tài)變化如圖1。Sutton提出對(duì)于任何MDP,以及在該MDP上定義任何一組option,僅在這些option 中進(jìn)行選擇并執(zhí)行每個(gè)option以終止決策的過(guò)程就是SMDP。SMDP包括一組狀態(tài)、一組動(dòng)作,對(duì)于每對(duì)狀態(tài)與動(dòng)作都有一個(gè)累積折扣收益,同時(shí)與下一個(gè)狀態(tài)和transit time有一個(gè)明確的聯(lián)合分布[4]。

圖1 MDP與SMDP狀態(tài)比較

在SMDP 中,兩個(gè)決策之間的時(shí)間間隔為τ,τ既可以是實(shí)數(shù)也可以是整數(shù)。當(dāng)為實(shí)數(shù)時(shí),SMDP建模連續(xù)時(shí)間離散事件系統(tǒng)(continuous-time discrete-event systems)[5],在離散時(shí)間(discrete-time)SMDP[5]中,只能在底層時(shí)間步的整數(shù)倍的時(shí)間上做決策,離散時(shí)間SMDP是大多數(shù)分層強(qiáng)化學(xué)習(xí)算法的基礎(chǔ),同時(shí)也可以推廣到連續(xù)時(shí)間上。在SMDP中,在某一狀態(tài)s采取動(dòng)作后,經(jīng)過(guò)τ時(shí)間后才會(huì)以某一概率轉(zhuǎn)移至下一狀態(tài)s′,此時(shí)是狀態(tài)s和時(shí)間τ的聯(lián)合概率寫(xiě)作預(yù)期獎(jiǎng)勵(lì)為狀態(tài)值函數(shù)和狀態(tài)-行為值函數(shù)的貝爾曼方程為:

2 經(jīng)典分層強(qiáng)化學(xué)習(xí)方法

分層強(qiáng)化學(xué)習(xí)本質(zhì)是將較為復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題進(jìn)行分解,將大問(wèn)題分解為一系列子問(wèn)題,之后給出子問(wèn)題的解決策略,從而得出解決整體問(wèn)題的最優(yōu)化策略。在分層強(qiáng)化學(xué)習(xí)中,抽象的思想貫穿始終,其通常對(duì)于子任務(wù)進(jìn)行抽象,將其多個(gè)動(dòng)作進(jìn)行封裝抽象為一個(gè)策略動(dòng)作,在MDP 系統(tǒng)中下一狀態(tài)僅與當(dāng)前狀態(tài)有關(guān),而與之前狀態(tài)無(wú)關(guān),所以在底層策略中采用MDP,但在高層策略中,其雖然將子任務(wù)抽象成一個(gè)策略動(dòng)作,近似看作一個(gè)動(dòng)作,但其內(nèi)在存在一系列動(dòng)作,在高層策略選擇子策略后,經(jīng)過(guò)子策略一段執(zhí)行時(shí)間后,高層狀態(tài)才會(huì)轉(zhuǎn)至下一狀態(tài),在此是采用SMDP的處理方式。分層強(qiáng)化學(xué)習(xí)的經(jīng)典學(xué)習(xí)算法主要包含Option、HAMs、MAXQ,雖然這三種方法是相對(duì)獨(dú)立開(kāi)發(fā)的,但是其具有相同的點(diǎn),都是依據(jù)SMDP來(lái)提供理論基礎(chǔ)。

2.1 Option

Sutton[6]提出SMDP本質(zhì)上是具有固定Options選項(xiàng)集的MDP,Options 是具有一定意義的時(shí)間序列決策過(guò)程,也可以理解為一段持續(xù)時(shí)間內(nèi)的動(dòng)作。Options 包含三部分:策略π表示option 中的策略,終止條件β表示狀態(tài)s有概率結(jié)束當(dāng)前option;初始集I表示option的初始狀態(tài)集合。

在一個(gè)任務(wù)正在進(jìn)行時(shí),只有狀態(tài)s?I時(shí),Options才是有效的。當(dāng)選擇了option,就會(huì)根據(jù)當(dāng)前的策略π 選擇動(dòng)作,直到option 根據(jù)終止條件β終止,之后智能體開(kāi)始選擇下一option。一個(gè)option 在st開(kāi)始,終止于st+k。在每一個(gè)中間時(shí)間,MDP 僅取決于sτ,而SMDP可能取決于前面的整個(gè)序列。同時(shí)可以將SMDP 用在Q-learning 中,在每一步option 終止后更新,更新公式為:

Bacon 在option 基礎(chǔ)上將其與Actor-Critic 者結(jié)合,提出了一種Option-Critic框架[7],這一框架與經(jīng)典AC框架相似,但其使用option 的分層強(qiáng)化學(xué)習(xí)方法,并使用策略梯度方法對(duì)一系列option的參數(shù)進(jìn)行更新,實(shí)現(xiàn)了端到端算法,其不需要設(shè)置內(nèi)在獎(jiǎng)勵(lì),就能夠自動(dòng)學(xué)習(xí)出option的策略和自動(dòng)切換option。其在四房間任務(wù)中,當(dāng)目標(biāo)任務(wù)發(fā)生變化時(shí),相較于A(yíng)C 方法,使用Option-Critic 框架的智能體能更快的適應(yīng),同時(shí)在A(yíng)rcade 學(xué)習(xí)環(huán)境中,在多個(gè)游戲中表現(xiàn)出超越DQN的性能收益。

2.2 HAMs

Parr和Russell提出一種分層結(jié)構(gòu)的MDP策略稱(chēng)為分層抽象機(jī)HAMs(Hierarchies of Abstract Machines)[8]。HAMs也是在SMDP的理論基礎(chǔ)上提出的,但與Options不同的是,HAMs是通過(guò)限制可實(shí)現(xiàn)策略的類(lèi)別來(lái)簡(jiǎn)化復(fù)雜的MDP。HAM是一個(gè)程序,當(dāng)智能體在環(huán)境中執(zhí)行時(shí),它約束著每個(gè)可以執(zhí)行的操作,例如在迷宮之中,一個(gè)簡(jiǎn)單的機(jī)器可能會(huì)命令反復(fù)選擇向右或向下,排除所有向上向左的策略,HAMs以這種簡(jiǎn)單約束表達(dá)來(lái)給出了一種層次約束思想。

HAMs是通過(guò)一組狀態(tài)、一個(gè)轉(zhuǎn)換函數(shù)和一個(gè)確定機(jī)器的初始狀態(tài)的啟動(dòng)函數(shù)來(lái)定義一個(gè)HAM是一個(gè)三元組,μ是機(jī)器狀態(tài)的有限集,I是從環(huán)境狀態(tài)到機(jī)器狀態(tài)的確定初始狀態(tài)的隨機(jī)函數(shù),δ是機(jī)器狀態(tài)和環(huán)境狀態(tài)對(duì)下一機(jī)器狀態(tài)的隨機(jī)下一狀態(tài)函數(shù)映射,I和δ通常是是描述環(huán)境狀態(tài)的一些狀態(tài)變量的函數(shù)[9]。

對(duì)任意的MDP(M)和任意的HAM(H)都存在一個(gè)SMDP,表示為H?M,其解是一個(gè)最優(yōu)的選擇函數(shù)choose(s,m),使得在M中執(zhí)行H的智能體獲得的期望和收益最大。同時(shí)對(duì)任意的MDP(M)和任意的HAM(H)都還存在一個(gè)reduced SMDP,表示為等同于H?M,其最優(yōu)策略相同,但是包含的狀態(tài)不超過(guò)H在M上的選擇的狀態(tài)的動(dòng)作是H?M的選擇點(diǎn)上的選擇動(dòng)作。將Q學(xué)習(xí)應(yīng)用于HAMs 中稱(chēng)為HAMQ-learning[9],它持續(xù)追蹤以下參數(shù):t當(dāng)前環(huán)境狀態(tài);n當(dāng)前機(jī)器狀態(tài);sc和mc上一選擇點(diǎn)的環(huán)境狀態(tài)和機(jī)器狀態(tài);α上一選擇點(diǎn)做的選擇;rc和βc上一個(gè)選擇點(diǎn)以來(lái)累積的獎(jiǎng)勵(lì)和折扣總額。HAM Q-learning智能體更新:在每一個(gè)選擇點(diǎn)的轉(zhuǎn)換,智能體Q學(xué)習(xí)更新公式:

PHAM[10]是David 在HAM 上提出的新的改進(jìn),在PHAM中引入了兩種額外的狀態(tài)類(lèi)型,分別是表述執(zhí)行內(nèi)部操作的內(nèi)部狀態(tài)和便于計(jì)算但不產(chǎn)生直接影響的空狀態(tài),通過(guò)這兩種狀態(tài)在HAM 中添加了幾個(gè)結(jié)構(gòu)化的編程結(jié)構(gòu),PHAM 具有相比HAM 更多的11 個(gè)參數(shù),同時(shí)PHAM具有中斷中止特性,其可以在調(diào)用子例程中指定中止條件。在執(zhí)行巡邏環(huán)境中,PHAM僅需9臺(tái)機(jī)器即可,而HAM則需要63臺(tái),具有更好的表現(xiàn)力。

2.3 MAXQ

Dietterich提出一種新的分層強(qiáng)化學(xué)習(xí)方法MAXQ值函數(shù)分解(MAXQ value function decomposition),簡(jiǎn)稱(chēng)為MAXQ[11]。該方法將目標(biāo)MDP 分解為較小的MDP的值函數(shù)的組合,這種分解稱(chēng)為MAXQ分解,將給定的M分解為一組子任務(wù),將M0作為根子任務(wù),解決M0也就解決了M,如圖2 所示是一種出租車(chē)任務(wù)簡(jiǎn)要分解的情況。每一個(gè)子任務(wù)是一個(gè)三元組定義為一個(gè)終止斷言(termination predicate),它將S劃分為一組活動(dòng)狀態(tài)Si和一組終止?fàn)顟B(tài)Ti,子任務(wù)Mi的策略只有在當(dāng)前狀態(tài)是活動(dòng)狀態(tài)時(shí)才可以執(zhí)行。Ai是實(shí)現(xiàn)Mi任務(wù)的一系列動(dòng)作,這些動(dòng)作可以是原始動(dòng)作集合A中的動(dòng)作,也可以是其他子任務(wù)。是一個(gè)偽獎(jiǎng)勵(lì)函數(shù),它規(guī)定了每個(gè)從活動(dòng)狀態(tài)到終止?fàn)顟B(tài)的轉(zhuǎn)變的偽獎(jiǎng)勵(lì),這個(gè)獎(jiǎng)勵(lì)說(shuō)明了終止?fàn)顟B(tài)對(duì)這一子任務(wù)的期望程度,它通常被用來(lái)給目標(biāo)終端狀態(tài)一個(gè)0的偽獎(jiǎng)勵(lì),而給任何非目標(biāo)終止?fàn)顟B(tài)一個(gè)負(fù)獎(jiǎng)勵(lì)。策略π定義為一個(gè)包含問(wèn)題中每個(gè)子任務(wù)的策略的集合是子任務(wù)Mi的解決策略。

圖2 使用MAXQ的出租車(chē)接客任務(wù)分解

狀態(tài)-行為值函數(shù)定義為:

因此可以遞歸的表達(dá)Q函數(shù)為:

在MAXQ 的 基 礎(chǔ) 上,Nicholas 將R-MAX 算 法 與MAXQ 框架相結(jié)合提出一種更新的算法R-MAXQ[12],它繼承了R-MAX 算法基于模型的探索和MAXQ 的分層抽象思想,R-MAXQ 與MAXQ 不同于其使用模型分解來(lái)計(jì)算分層的值函數(shù),而不是使用標(biāo)準(zhǔn)MDP 模型來(lái)計(jì)算整體值函數(shù),同時(shí)它的層次結(jié)構(gòu)允許它通過(guò)減少不必要的探索性操作來(lái)約束智能體的策略,并提高其累積回報(bào),在出租車(chē)任務(wù)中R-MAXQ 算法相對(duì)R-MAX 和MAXQ-Q算法總是獲得更大的收益。

Mehta 提出了一種從模型和演示中自動(dòng)歸納算法HI-MAT(Hierarchy Induction via Models and trajectories)[13],HI-MAT 將動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)模型應(yīng)用于源問(wèn)題中的單個(gè)成功軌跡,以構(gòu)建因果注釋軌跡(CAT)。HI-MAT以CAT中動(dòng)作之間的因果和時(shí)間關(guān)聯(lián)為指導(dǎo),遞歸地對(duì)其進(jìn)行解析,并根據(jù)發(fā)現(xiàn)的CAT 分區(qū)定義MAXQ子任務(wù),其與VISA[14]相同都使用了DBN,但不同于VISA 引入option 架構(gòu),而HI-MAT 引入的是MXAQ架構(gòu),同時(shí)使用了在源MDP中得到的成功軌跡,最終其實(shí)驗(yàn)表明學(xué)習(xí)的層次結(jié)構(gòu)更加緊湊。

但同時(shí)HI-MAT 使用DBN 對(duì)于復(fù)雜環(huán)境模型的自動(dòng)構(gòu)造能力較差,同時(shí)如果成功軌跡如果存在缺陷,則其無(wú)法自動(dòng)發(fā)現(xiàn)子任務(wù),于是Wang 提出了一種新的機(jī)制來(lái)發(fā)現(xiàn)MAXQ子任務(wù),稱(chēng)為HI-CS(Hierarchy-Instruction via Clustering States)[15],HI-CS通過(guò)使用受動(dòng)作影響的狀態(tài)變量來(lái)自動(dòng)獲取任務(wù)層次結(jié)構(gòu),并基于狀態(tài)變量,生成狀態(tài)抽象。然后,HI-CS分析了動(dòng)作對(duì)系統(tǒng)狀態(tài)的影響,將子任務(wù)聚類(lèi)成層次結(jié)構(gòu)。

3 最新分層深度強(qiáng)化學(xué)習(xí)研究

當(dāng)今HRL 算法通常采用兩層結(jié)構(gòu),一層結(jié)構(gòu)作為頂層結(jié)構(gòu),每隔一段時(shí)間進(jìn)行調(diào)用,根據(jù)當(dāng)前觀(guān)測(cè)到的環(huán)境和智能體狀態(tài)產(chǎn)生高層策略輸出子任務(wù),這個(gè)子任務(wù)可以是一個(gè)目標(biāo)點(diǎn)也可以是一個(gè)任務(wù),第二層作為底層結(jié)構(gòu),根據(jù)當(dāng)前目標(biāo)狀態(tài)和子任務(wù)產(chǎn)生動(dòng)作,以解決子任務(wù)問(wèn)題。這種結(jié)構(gòu)高層產(chǎn)生子任務(wù)并不十分復(fù)雜,而在底層策略上產(chǎn)生的動(dòng)作會(huì)影響最終目標(biāo)完成的效率,同時(shí)由于子任務(wù)產(chǎn)生所獲得的收益回報(bào)往往較為稀薄,所以如何更好地學(xué)習(xí)以及產(chǎn)生更有效的任務(wù)是重點(diǎn)。

3.1 基礎(chǔ)算法的改進(jìn)

DQN 算法是在強(qiáng)化學(xué)習(xí)中經(jīng)典的算法,其通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)近似值函數(shù),但是DQN 算法在獎(jiǎng)勵(lì)稀疏問(wèn)題上效果較差的,針對(duì)這一情況Kulkarni提出了一種分層強(qiáng)化學(xué)習(xí)算法h-DQN[16],其建立雙層網(wǎng)絡(luò)結(jié)構(gòu)如圖3,其雙層結(jié)構(gòu)都是采用DQN 網(wǎng)絡(luò)。第一層叫做metacontroller,負(fù)責(zé)先定一個(gè)能達(dá)到的小目標(biāo),第二層是低級(jí)別controller,根據(jù)meta給出的目標(biāo)進(jìn)行action,小目標(biāo)達(dá)到或者到達(dá)規(guī)定時(shí)間后,重復(fù)制定新的目標(biāo)。metacontroller 通過(guò)外在獎(jiǎng)勵(lì)來(lái)生成子目標(biāo),同時(shí)給予controller 內(nèi)在獎(jiǎng)勵(lì),使controller 能夠根據(jù)獎(jiǎng)勵(lì)實(shí)現(xiàn)小目標(biāo)。最終其在A(yíng)tari 游戲蒙特祖瑪?shù)膹?fù)仇中相較DQN取得了更好的效果,提高了其在稀疏獎(jiǎng)勵(lì)問(wèn)題上的處理能力,但如果在連續(xù)狀態(tài)空間上中,meta-controller需要無(wú)數(shù)個(gè)子目標(biāo),同時(shí)其需要外部獎(jiǎng)勵(lì),這顯然無(wú)法做到,所以其也具有局限性。

圖3 h-DQN分層結(jié)構(gòu)圖

3.2 子策略共享分層方法

在分層結(jié)構(gòu)中,子策略是用于解決其子任務(wù)的一系列具體動(dòng)作,環(huán)境和智能體處于在不同狀態(tài)下所采產(chǎn)生的子任務(wù)必然不同,同時(shí)其采用的一系列動(dòng)作也有所區(qū)別,但是在一些環(huán)境下,其雖然任務(wù)不同但是所采取的動(dòng)作與策略存在共通性,只要把這些子策略再次進(jìn)行細(xì)分,就可以使其在不同任務(wù)中實(shí)現(xiàn)共享,而不用每次提出子任務(wù)就需要一次學(xué)習(xí)訓(xùn)練,這樣也就可以提高訓(xùn)練效率,使其更快更好地完成任務(wù)。

Florensa 提出了一種基于skill-based 的隨機(jī)神經(jīng)網(wǎng)絡(luò)SNN4HRL(Stochastic Neural Networks for Hierarchical Reinforcement Learning)[17],在整體框架下其首先建立了一個(gè)預(yù)訓(xùn)練環(huán)境,在預(yù)訓(xùn)練環(huán)境中學(xué)習(xí)技能,之后在利用所學(xué)習(xí)到的技能,使智能體在實(shí)際環(huán)境中的高層策略中根據(jù)環(huán)境狀態(tài)來(lái)學(xué)習(xí)調(diào)用這些技能,提高其解決問(wèn)題的效率。在高層策略中其使用SNN(Stochastic Neural Networks)來(lái)靈活調(diào)用這些技能,并采用雙線(xiàn)性融合將觀(guān)測(cè)值和隱變量做外積,發(fā)現(xiàn)這種方式可以產(chǎn)生更廣泛的技能,同時(shí)文中通過(guò)使用基于互信息的正則項(xiàng),以保證其學(xué)習(xí)到的技能更多樣更能適用多種情況。但如果由于預(yù)訓(xùn)練環(huán)境與實(shí)際環(huán)境的獎(jiǎng)勵(lì)并不完全相同,在實(shí)際中可能會(huì)產(chǎn)生不能良好解決整體任務(wù)的情況。

由于人對(duì)不同的環(huán)境任務(wù)能夠有一個(gè)明確的解決策略,那么人工對(duì)子任務(wù)和子策略提出更強(qiáng)的一些約束也就可以減少智能體學(xué)習(xí)訓(xùn)練時(shí)間,Andreas 就提出了一種以策略草圖(policy sketches)為指導(dǎo)的多任務(wù)深度強(qiáng)化學(xué)習(xí)框架[18],建立一種模型將每個(gè)子任務(wù)與一個(gè)模塊化的子策略相結(jié)合,其子策略訓(xùn)練時(shí)采用AC(Actor-Critic)方法,并通過(guò)在共享子策略之間綁定參數(shù),來(lái)使整個(gè)任務(wù)特定策略的收益最大化。因?yàn)閷⒆硬呗耘c子任務(wù)人工進(jìn)行關(guān)聯(lián),所以在學(xué)習(xí)過(guò)程中可以提高學(xué)習(xí)效率,減少了自我學(xué)習(xí),但同時(shí)由于人工定義了每個(gè)任務(wù)所需要的子任務(wù)數(shù)目,所以其泛化性能不足,對(duì)于不同環(huán)境下的問(wèn)題需要重新進(jìn)行人工定義。

此前的分層結(jié)構(gòu)更多的都是研究人員根據(jù)任務(wù)人工進(jìn)行設(shè)定,OpenAI實(shí)驗(yàn)室的Frans提出了一個(gè)端到端的算法(Meta-Learning Shared Hierarchies[19],MLSH),其通過(guò)與環(huán)境互動(dòng)來(lái)實(shí)現(xiàn)自動(dòng)的分層結(jié)構(gòu),無(wú)需進(jìn)行過(guò)多的人工設(shè)定,能夠在未知任務(wù)上快速學(xué)習(xí)子策略。MLSH在子策略問(wèn)題上也是共享的,同時(shí)通過(guò)不斷訓(xùn)練新的主策略,使其可以自動(dòng)地找到適合主策略的子策略,這一算法突破了人工設(shè)定的局限性,使得其能夠自主進(jìn)行學(xué)習(xí)。

3.3 無(wú)監(jiān)督分層方法

無(wú)監(jiān)督在缺乏足夠先驗(yàn)知識(shí)的情況下依舊能夠自動(dòng)實(shí)現(xiàn)良好的分類(lèi),其不需要人工進(jìn)行標(biāo)注這也就使其具有更好的泛化性能,由于很多分層強(qiáng)化學(xué)習(xí)算法適用的環(huán)境相對(duì)較為單一,在不同的環(huán)境下都需要人工進(jìn)行不同的設(shè)定,將無(wú)監(jiān)督應(yīng)用于分層強(qiáng)化學(xué)習(xí)中就可以增強(qiáng)其魯棒性,使其在放到更為復(fù)雜的環(huán)境下,也能夠產(chǎn)生更好的效果。

Rafati[20]提出了一種新的無(wú)模型的子目標(biāo)發(fā)現(xiàn)的分層強(qiáng)化學(xué)習(xí)方法,其使用了增量無(wú)監(jiān)督學(xué)習(xí),根據(jù)智能體最近產(chǎn)生的軌跡來(lái)產(chǎn)生合適的子目標(biāo)集合,利用無(wú)監(jiān)督學(xué)習(xí)方法可以用來(lái)從狀態(tài)集合中識(shí)別出好的子目標(biāo)集合,分層結(jié)構(gòu)使用的是H-DQN。Rafati使用異常點(diǎn)檢測(cè)和K-means聚類(lèi)方法來(lái)識(shí)別出潛在的子目標(biāo),狀態(tài)特征發(fā)生較大變化也可以當(dāng)做異常點(diǎn)(也就是新奇的狀態(tài)),其在“蒙特祖瑪?shù)膹?fù)仇”這一環(huán)境較為復(fù)雜的游戲中也取得了較好的結(jié)果。

為了使智能體能夠自主地不斷進(jìn)步并對(duì)環(huán)境進(jìn)行探索,Sukhbaatar和Kostrikov提出了一種以無(wú)監(jiān)督探索環(huán)境的方式[21],其設(shè)立一個(gè)智能體,但是存在A(yíng)lice 和Bob 兩個(gè)策略制定者,Alice 首先執(zhí)行若干動(dòng)作,之后將這個(gè)序列作為目標(biāo)任務(wù)讓Bob去做,如果Bob完成任務(wù)則獲得較多獎(jiǎng)勵(lì),而Alice獲得較少獎(jiǎng)勵(lì),相反如果Bob未完成則Alice 獲得較大獎(jiǎng)勵(lì),以此來(lái)使Bob 能夠更快地了解環(huán)境,而Alice也能不斷提高任務(wù)難度,兩者形成一種循序漸進(jìn)的探索。在此基礎(chǔ)上Sukhbaatar 再次將分層的思想加入其中,提出一個(gè)基于非對(duì)稱(chēng)自我扮演的無(wú)監(jiān)督學(xué)習(xí)方案[22],其模型為HSP(Hierarchical Self-Play)模型如圖4,添加了高層策略chalice,讓chalice 利用外部獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)如何提出目標(biāo)讓Bob進(jìn)行完成,使得其能夠不斷自我優(yōu)化,不僅有較好的環(huán)境探索能力,同時(shí)也能夠通過(guò)增加外部獎(jiǎng)勵(lì)來(lái)促進(jìn)其實(shí)現(xiàn)任務(wù)目標(biāo)。

圖4 HSP分層結(jié)構(gòu)框圖

3.4 多層結(jié)構(gòu)分層方法

兩層的分層結(jié)構(gòu)是當(dāng)前大多數(shù)分層強(qiáng)化學(xué)習(xí)算法的主結(jié)構(gòu),因?yàn)榉謱铀惴ū旧砭途哂胁环€(wěn)定性,同時(shí)由于有些環(huán)境下獎(jiǎng)勵(lì)更為稀疏,所以分層結(jié)構(gòu)一旦分更多層,其穩(wěn)定性更為難以保證。Levy 提出了一種三層的層次強(qiáng)化學(xué)習(xí)框架,層次角色批評(píng)HAC(Hierarchical Actor-Critic)[23]。在這一層次框架中其克服了智能體在聯(lián)合多個(gè)層次的穩(wěn)定性問(wèn)題,同時(shí)也是第一個(gè)成功在具有連續(xù)狀態(tài)和動(dòng)作空間的任務(wù)中并行學(xué)習(xí)三級(jí)層次結(jié)構(gòu)的框架。其在三層結(jié)構(gòu)中采用一種嵌套的方式來(lái)構(gòu)建智能體如圖5,當(dāng)前狀態(tài)輸入每層策略,首先由頂層策略產(chǎn)生subgoal1,之后再由子策略產(chǎn)生subgoal2,直到底層策略產(chǎn)生動(dòng)作與環(huán)境進(jìn)行交互。Levy認(rèn)為分層強(qiáng)化學(xué)習(xí)分層策略的產(chǎn)生不穩(wěn)定性的原因主要有兩點(diǎn),第一點(diǎn)是頂層的轉(zhuǎn)移函數(shù)是依賴(lài)于下一層的策略的,頂層每隔n個(gè)時(shí)間步會(huì)提出一個(gè)子目標(biāo),然后交由底層策略執(zhí)行,但n個(gè)時(shí)間步后智能體處于什么狀態(tài)是由底層策略決定的,所以頂層策略提出目標(biāo),智能體卻可能到達(dá)不同的狀態(tài),第二點(diǎn)由于底層策略是不斷探索的,這也就造成頂層策略的轉(zhuǎn)移函數(shù)會(huì)隨之不斷變化,這并造成多層策略的不穩(wěn)定性。為了解決這一問(wèn)題,文中使用了HER(Hindsight Experience Reply)[24],解決其穩(wěn)定性問(wèn)題,并通過(guò)使用hindsight action和hindsight goal transitions 讓智能體能夠并行學(xué)習(xí)多個(gè)策略,但HAC 的三層結(jié)構(gòu)相比其他兩層結(jié)構(gòu)所具有的優(yōu)勢(shì)并沒(méi)有真正體現(xiàn)出來(lái),仍有繼續(xù)進(jìn)步的空間。

圖5 HAC多層結(jié)構(gòu)示意圖

而Song 提出了一種多樣性驅(qū)動(dòng)的分層強(qiáng)化學(xué)習(xí)算法DEHRL(Diversity-driven Extensible Hierarchical Reinforcement Learning)[25],在該框架中,構(gòu)建并學(xué)習(xí)了一個(gè)可擴(kuò)展框架如圖6,實(shí)現(xiàn)了多層次的HRL,但與HAC結(jié)構(gòu)并不相同,DEHRL是上層策略調(diào)用下層策略與MLSH類(lèi)似,在每一層中其包含三個(gè)部分policy、predictor 和estimator,每一層都會(huì)將環(huán)境狀態(tài)和上一層的動(dòng)作作為輸入,policy負(fù)責(zé)產(chǎn)生每一層的動(dòng)作,predictor對(duì)未來(lái)的狀況進(jìn)行預(yù)測(cè),預(yù)測(cè)一段時(shí)間后的外部狀態(tài)和外部獎(jiǎng)勵(lì),并將其傳給下層的estimator,estimator 將上層的預(yù)測(cè)作為輸入,得到本層的獎(jiǎng)勵(lì)并根據(jù)結(jié)果訓(xùn)練本層的policy,同時(shí)DEHRL 是無(wú)需人為設(shè)計(jì)外部獎(jiǎng)勵(lì)的端到端的算法,避免了過(guò)多的人為因素。

圖6 DEHRL分層結(jié)構(gòu)框圖

4 方法分析和對(duì)比

上述分層強(qiáng)化算法都有其針對(duì)性?xún)?yōu)化的方面,各自具有其優(yōu)缺點(diǎn),其對(duì)比情況如表1。子策略共享的分層方法相對(duì)更易實(shí)現(xiàn),其所依賴(lài)更多的是人工進(jìn)行子策略的設(shè)計(jì),當(dāng)設(shè)計(jì)的子策略越好,其訓(xùn)練出來(lái)的效果也就越好,同時(shí)其收斂速度也會(huì)更快,但其也會(huì)因?yàn)槿斯ぴO(shè)計(jì)的缺陷,可能產(chǎn)生無(wú)法良好解決任務(wù)的情況。無(wú)監(jiān)督分層方法更多的優(yōu)化體現(xiàn)在其對(duì)環(huán)境的探索上,其對(duì)于探索新奇點(diǎn)產(chǎn)生的獎(jiǎng)勵(lì)更高,這在復(fù)雜環(huán)境下能夠更好地使其產(chǎn)生出更多的動(dòng)作,同時(shí)其不會(huì)受限于單一環(huán)境,在新環(huán)境下也能夠不斷進(jìn)行探索發(fā)現(xiàn),訓(xùn)練結(jié)果能夠不斷進(jìn)行優(yōu)化,但也是因?yàn)闀?huì)對(duì)更多地方不斷探索,所以需要更多的訓(xùn)練時(shí)間。多層結(jié)構(gòu)分層方法主要對(duì)分層的穩(wěn)定性方面有了更好的體現(xiàn),分層結(jié)構(gòu)本身就具有不穩(wěn)定性,同時(shí)層數(shù)越多結(jié)構(gòu)的穩(wěn)定性也就更差,訓(xùn)練結(jié)果也更不容易收斂,所以多層結(jié)構(gòu)對(duì)穩(wěn)定性的解決有了很好的表現(xiàn),但是多層的分層結(jié)構(gòu)具體對(duì)整體性能的優(yōu)化體現(xiàn)的并不明顯,這點(diǎn)仍有研究的空間。同時(shí)在2.3節(jié)中介紹了兩種自動(dòng)分層算法HI-MAT和HI-CS,自動(dòng)分層算法能夠根據(jù)動(dòng)作和狀態(tài)變化,來(lái)進(jìn)行子任務(wù)的識(shí)別,并通過(guò)聚類(lèi)或者DBN來(lái)實(shí)現(xiàn)自動(dòng)的分層,自動(dòng)分層的結(jié)構(gòu)更為緊湊,同時(shí)減少了人工,使得智能體能夠具有更好的自主學(xué)習(xí)能力,其整體效果相較基礎(chǔ)的Qlearning和MAXQ-Q方法有更好的表現(xiàn),但是整體環(huán)境較為簡(jiǎn)單,所以仍有較大的進(jìn)步空間。

表1 分層深度強(qiáng)化學(xué)習(xí)算法匯總

除了上述幾種方法,依舊有以下幾種不同創(chuàng)新的分層強(qiáng)化方法。例如為了應(yīng)對(duì)skill-based HRL 方法在預(yù)訓(xùn)練環(huán)境中的代理獎(jiǎng)勵(lì)和任務(wù)可能不一樣,而導(dǎo)致預(yù)訓(xùn)練的技能不能良好解決底層任務(wù)的情況,Li開(kāi)發(fā)了一種新的基于優(yōu)勢(shì)的輔助獎(jiǎng)勵(lì)的HRL 方法(HRL approach with Advantage-based Auxiliary Rewards HAAR)[26],HAAR基于高層策略的優(yōu)勢(shì)函數(shù),在不使用特定領(lǐng)域信息的情況下,為低層次技能學(xué)習(xí)指定了輔助獎(jiǎng)勵(lì)。通過(guò)優(yōu)化其輔助獎(jiǎng)勵(lì),來(lái)整體提高累計(jì)的獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)整體效果的提升。Nachum 則提出了一種采用off-policy 的分層強(qiáng)化學(xué)習(xí)算法HIRO[27],因?yàn)閛ff-policy 具有更好的樣本效率,最終實(shí)現(xiàn)在A(yíng)nt-Gather、Ant-Maze 等較為復(fù)雜環(huán)境中的較好效果。Dilokthanakul[28]針對(duì)可視域中發(fā)現(xiàn)子目標(biāo)提出了一種具有廣泛適用性的方法,其采用兩種方法來(lái)對(duì)子目標(biāo)進(jìn)行發(fā)現(xiàn),分別是采用像素控制和特征控制,在像素控制過(guò)程中采用卷積處理,并將其處理后的連續(xù)兩個(gè)的像素塊的平方差來(lái)作為內(nèi)在獎(jiǎng)勵(lì),在特征控制上其引入特征選擇性的概念,將其作為一個(gè)內(nèi)在獎(jiǎng)勵(lì),最終其塑造的獎(jiǎng)勵(lì)函數(shù)不僅包含內(nèi)在獎(jiǎng)勵(lì)還設(shè)立有外部獎(jiǎng)勵(lì),通過(guò)獎(jiǎng)勵(lì)來(lái)對(duì)智能體的行為可以進(jìn)行細(xì)微的調(diào)節(jié)。

在電子競(jìng)技方面,南京大學(xué)團(tuán)隊(duì)就發(fā)現(xiàn)將分層強(qiáng)化學(xué)習(xí)用在星際爭(zhēng)霸2游戲中訓(xùn)練AI算法[29],也表現(xiàn)出良好的性能,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)分層的結(jié)構(gòu)相較于未分層結(jié)構(gòu),在與高難度電腦對(duì)戰(zhàn)的情況下有更好的勝率,而在低難度情況下差別不明顯,但其在作戰(zhàn)網(wǎng)絡(luò)是由人工進(jìn)行整體的設(shè)定,輸出結(jié)果是都是整體的行動(dòng),但在玩家對(duì)戰(zhàn)時(shí)存在著編隊(duì)的行為,所以其作戰(zhàn)策略仍可以進(jìn)行優(yōu)化。同時(shí)OpenAI 實(shí)驗(yàn)室開(kāi)發(fā)出了名為OpenAI five的人工智能系統(tǒng)[30]在dota2游戲中表現(xiàn)出了極為優(yōu)越的性能,OpenAI five 采用的GPU 數(shù)量峰值時(shí)有1 536 個(gè),同時(shí)其采用了一個(gè)超過(guò)1.5 億個(gè)參數(shù)的模型,神經(jīng)網(wǎng)絡(luò)具有4 096 個(gè)單元的LSTM,并經(jīng)過(guò)將近10 個(gè)月的訓(xùn)練時(shí)間,最終在與游戲職業(yè)選手的對(duì)戰(zhàn)中取得了勝利。

5 分層深度強(qiáng)化學(xué)習(xí)未來(lái)展望

科研人員認(rèn)為人和動(dòng)物的行為是具有層次結(jié)構(gòu)的,分層強(qiáng)化學(xué)習(xí)在一定程度上符合人解決任務(wù)的思想歷程。分層強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)從根本上在于:擁有在更快的學(xué)習(xí)、減少維數(shù)災(zāi)難和解決大的狀態(tài)-動(dòng)作空間問(wèn)題的強(qiáng)大能力,同時(shí)擁有多層次的時(shí)間抽象能力和更好的泛化能力,其利用分層的方式減少了問(wèn)題的復(fù)雜性,但同時(shí)其依舊面臨著多層次產(chǎn)生的策略不穩(wěn)定性、額外的超參數(shù)以及樣本效率問(wèn)題等諸多挑戰(zhàn),總體來(lái)看以下幾個(gè)方面將是HRL的重要研究方向:

(1)更加強(qiáng)大的自動(dòng)分層能力。當(dāng)前的分層強(qiáng)化學(xué)習(xí),其高層策略尤其是在相對(duì)復(fù)雜的環(huán)境下,通常是由人工進(jìn)行層次劃分以及任務(wù)的設(shè)定,這可以減少其子任務(wù)空間狀態(tài)與動(dòng)作的復(fù)雜性,但同時(shí)結(jié)果的好壞更多的會(huì)有人設(shè)定來(lái)決定,這也就要求其有特定領(lǐng)域的知識(shí)和技巧,來(lái)更好促進(jìn)其強(qiáng)化學(xué)習(xí)的效果,雖然有HI-MAT、HI-CS、MLSH自動(dòng)學(xué)習(xí)層次結(jié)構(gòu)方法,但其對(duì)解決任務(wù)的能力并沒(méi)有較好的提升,所以在此方面仍有較大的進(jìn)步空間。

(2)大規(guī)模深度強(qiáng)化學(xué)習(xí)的應(yīng)用。深度學(xué)習(xí)的發(fā)展就是計(jì)算機(jī)算力在不斷的發(fā)展,大規(guī)模深度強(qiáng)化學(xué)習(xí)對(duì)于計(jì)算機(jī)算力需求更是強(qiáng)烈,其通過(guò)大規(guī)模的CPUGPU來(lái)進(jìn)行獲得訓(xùn)練數(shù)據(jù)以實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,而分層強(qiáng)化學(xué)習(xí)在大規(guī)模問(wèn)題上的應(yīng)用依舊很少,如果能將分層應(yīng)用于大規(guī)模深度強(qiáng)化學(xué)習(xí)上,使得學(xué)習(xí)效率更快,這也是一種挑戰(zhàn)。

(3)評(píng)價(jià)標(biāo)準(zhǔn)的確立?,F(xiàn)在的研究環(huán)境下存在一個(gè)觀(guān)點(diǎn)認(rèn)為,認(rèn)為當(dāng)前缺乏一個(gè)有效的標(biāo)準(zhǔn)與工具來(lái)評(píng)價(jià)HRL甚至整個(gè)強(qiáng)化學(xué)習(xí)的領(lǐng)域的進(jìn)展,這也在一定程度上阻礙著強(qiáng)化學(xué)習(xí)的進(jìn)步,所以如何確立一個(gè)明確的評(píng)價(jià)標(biāo)準(zhǔn)也是一個(gè)重要的研究方向。

6 結(jié)語(yǔ)

本文對(duì)于分層強(qiáng)化學(xué)習(xí)進(jìn)行了回望,按照由淺入深的次序?qū)Ψ謱訌?qiáng)化學(xué)習(xí)進(jìn)行了分析,介紹了HRL 的概念理論、經(jīng)典算法、深度學(xué)習(xí)算法和發(fā)展展望等。本文在引言部分對(duì)分層強(qiáng)化學(xué)習(xí)的背景知識(shí)進(jìn)行了介紹,之后對(duì)強(qiáng)化學(xué)習(xí)的基本理論進(jìn)行了簡(jiǎn)要介紹,同時(shí)對(duì)經(jīng)典的分層強(qiáng)化學(xué)習(xí)進(jìn)行梳理,接著對(duì)加入深度學(xué)習(xí)后的分層強(qiáng)化學(xué)習(xí)按照對(duì)基礎(chǔ)算法的改進(jìn)、子策略共享分層方法、無(wú)監(jiān)督分層方法、多層結(jié)構(gòu)分層方法進(jìn)行分類(lèi)對(duì)比分析,最后對(duì)分層強(qiáng)化學(xué)習(xí)的未來(lái)展望進(jìn)行簡(jiǎn)要分析。通過(guò)本文可以看到分層強(qiáng)化學(xué)習(xí)是一個(gè)有著極大發(fā)展?jié)摿Α⒛軌蚪鉀Q復(fù)雜動(dòng)作問(wèn)題的新興領(lǐng)域,其不僅在科研領(lǐng)域在工程領(lǐng)域也有著諸多的應(yīng)用場(chǎng)景,相信隨著科研人員的不斷鉆研,這一領(lǐng)域必會(huì)不斷克服困難解決更多更復(fù)雜的問(wèn)題,在未來(lái)實(shí)現(xiàn)人類(lèi)的美好智能生活。

猜你喜歡
分層狀態(tài)動(dòng)作
一種沉降環(huán)可準(zhǔn)確就位的分層沉降儀
狀態(tài)聯(lián)想
雨林的分層
動(dòng)作描寫(xiě)要具體
生命的另一種狀態(tài)
有趣的分層
堅(jiān)持是成功前的狀態(tài)
非同一般的吃飯動(dòng)作
跨越式跳高遞進(jìn)與分層設(shè)計(jì)
沧源| 武强县| 渝中区| 静宁县| 隆昌县| 富锦市| 伊吾县| 铜陵市| 龙里县| 杭锦后旗| 宜章县| 元谋县| 泗阳县| 竹溪县| 宜君县| 桃园县| 文登市| 通许县| 阳西县| 瑞丽市| 元江| 桃园市| 永德县| 达州市| 安溪县| 天津市| 龙里县| 三门县| 太保市| 万山特区| 周口市| 克什克腾旗| 二连浩特市| 曲阳县| 潜江市| 秦皇岛市| 沾化县| 永胜县| 娄烦县| 辽宁省| 铜山县|