周文吉,俞揚(yáng)
(南京大學(xué) 軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
分層強(qiáng)化學(xué)習(xí)綜述
周文吉,俞揚(yáng)
(南京大學(xué) 軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
強(qiáng)化學(xué)習(xí)(reinforcement learning) 是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的重要分支,近年來(lái)受到社會(huì)各界和企業(yè)的廣泛關(guān)注。強(qiáng)化學(xué)習(xí)算法要解決的主要問(wèn)題是,智能體如何直接與環(huán)境進(jìn)行交互來(lái)學(xué)習(xí)策略。但是當(dāng)狀態(tài)空間維度增加時(shí),傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往面臨著維度災(zāi)難,難以取得好的學(xué)習(xí)效果。分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning) 致力于將一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題分解成幾個(gè)子問(wèn)題并分別解決,可以取得比直接解決整個(gè)問(wèn)題更好的效果。分層強(qiáng)化學(xué)習(xí)是解決大規(guī)模強(qiáng)化學(xué)習(xí)問(wèn)題的潛在途徑,然而其受到的關(guān)注不高。本文將介紹和回顧分層強(qiáng)化學(xué)習(xí)的幾大類(lèi)方法。
人工智能;機(jī)器學(xué)習(xí);強(qiáng)化學(xué)習(xí);分層強(qiáng)化學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);馬爾可夫決策過(guò)程;半馬爾可夫決策過(guò)程;維度災(zāi)難
強(qiáng)化學(xué)習(xí)要研究的問(wèn)題是智能體(agents)如何在一個(gè)環(huán)境(environment)中學(xué)到一定的策略(policy),使得長(zhǎng)期的獎(jiǎng)賞(reward)最大。但是傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法面臨著維度災(zāi)難,即當(dāng)環(huán)境較為復(fù)雜或者任務(wù)較為困難時(shí),agent的狀態(tài)(state)空間過(guò)大,會(huì)導(dǎo)致需要學(xué)習(xí)的參數(shù)以及所需的存儲(chǔ)空間急速增長(zhǎng),強(qiáng)化學(xué)習(xí)難以取得理想的效果。為了解決維度災(zāi)難,研究者提出了分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning, HRL)。HRL的主要目標(biāo)是將復(fù)雜的問(wèn)題分解成多個(gè)小問(wèn)題,分別解決小問(wèn)題從而達(dá)到解決原問(wèn)題的目的[1]。近些年來(lái),人們認(rèn)為分層強(qiáng)化學(xué)習(xí)基本可以解決強(qiáng)化學(xué)習(xí)的維度災(zāi)難問(wèn)題[2-3],轉(zhuǎn)而將研究方向轉(zhuǎn)向如何將復(fù)雜的問(wèn)題抽象成不同的層級(jí),從而更好地解決這些問(wèn)題[4]。
現(xiàn)在已有的一些分層學(xué)習(xí)大致可以分為4大類(lèi),分別是基于選項(xiàng)(option)的強(qiáng)化學(xué)習(xí)、基于分層抽象機(jī)(hierarchical of abstract machines) 的分層強(qiáng)化學(xué)習(xí)、基于MaxQ值函數(shù)分解 (MaxQ value function decomposition) 的分層強(qiáng)化學(xué)習(xí),以及端到端的(end to end)分層強(qiáng)化學(xué)習(xí)。
在本節(jié)中,我們主要介紹強(qiáng)化學(xué)習(xí)、馬爾可夫決策過(guò)程(Markov decision process)和半馬爾克夫決策過(guò)程(Semi-Markov decision process)的定義以及相關(guān)的背景知識(shí)。
1.1 強(qiáng)化學(xué)習(xí)與馬爾可夫決策過(guò)程
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能中一個(gè)重要的領(lǐng)域,主要研究的問(wèn)題是agent如何通過(guò)直接與環(huán)境交互來(lái)學(xué)習(xí)策略,使得長(zhǎng)期的獎(jiǎng)賞最大。強(qiáng)化學(xué)習(xí)有一些特點(diǎn),比如無(wú)監(jiān)督學(xué)習(xí),獎(jiǎng)賞的反饋有延遲,agent選擇的動(dòng)作會(huì)影響之后接收的數(shù)據(jù)等。
除了值函數(shù),動(dòng)作-值函數(shù)(action-value function)也在強(qiáng)化學(xué)習(xí)中扮演著重要的角色,記作Qπ(s,a),表示給定一個(gè)策略π,在狀態(tài)s上執(zhí)行動(dòng)作a可以得到的期望累積獎(jiǎng)賞。我們也將Qπ(s,a)叫作Q函數(shù),其具體的數(shù)學(xué)定義表示為
Qπ(s,a)=E{rt+γrt+1+γ2rt+2+…|st=s,at=a,π}
同樣的,我們也希望通過(guò)學(xué)習(xí)到一個(gè)最優(yōu)的Q函數(shù)Q*,使agent可以直接通過(guò)Q函數(shù)來(lái)選擇當(dāng)前狀態(tài)下應(yīng)該執(zhí)行的動(dòng)作。
經(jīng)過(guò)多年的研究,已經(jīng)出現(xiàn)一些算法,致力于解決傳統(tǒng)的強(qiáng)化學(xué)習(xí)問(wèn)題,比如Q-Learning、蒙特卡洛方法(Monte-Carlo learning)、時(shí)序差分方法(temporal-difference learning)等。其中Q-Learning方法常常在分層強(qiáng)化學(xué)習(xí)中被使用。Q-Learning通過(guò)不斷迭代更新Q函數(shù)的值來(lái)逼近最優(yōu)的Q*。其迭代式如下
Qk+1(s,a)=(1-αk)Qk(s,a)+
αk(r+γmaxa′∈As′Qk(s′,a′))
其中s′表示下一個(gè)狀態(tài)。
1.2 半馬爾可夫決策過(guò)程
馬爾可夫決策過(guò)程中,選擇一個(gè)動(dòng)作后,agent會(huì)立刻根據(jù)狀態(tài)轉(zhuǎn)移方程P跳轉(zhuǎn)到下一個(gè)狀態(tài),而在半馬爾可夫決策過(guò)程(SMDP)中,當(dāng)前狀態(tài)到下一個(gè)狀態(tài)的步數(shù)是個(gè)隨機(jī)變量τ,即在某個(gè)狀態(tài)s下選擇一個(gè)動(dòng)作a后,經(jīng)過(guò)τ步才會(huì)以一個(gè)概率轉(zhuǎn)移到下一個(gè)狀態(tài)s′。此時(shí)的狀態(tài)轉(zhuǎn)移概率是s和τ的聯(lián)合概率P(s′,τ|s,a)。根據(jù)τ的定義域不同,SMDP所定義的系統(tǒng)也有所不同。當(dāng)τ的取值為實(shí)數(shù)值,則SMDP構(gòu)建了一個(gè)連續(xù)時(shí)間-離散事件系統(tǒng)(continuous-time discrete-event system)[5];而當(dāng)τ的取值為正整數(shù),則是一個(gè)離散時(shí)間SMDP(discrete-time SMDP)[6]。出于簡(jiǎn)單考慮,絕大部分分層強(qiáng)化學(xué)習(xí)都是在離散時(shí)間SMDP上進(jìn)行討論。
分層強(qiáng)化學(xué)習(xí)是將復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題分解成一些容易解決的子問(wèn)題(sub-problem),通過(guò)分別解決這些子問(wèn)題,最終解決原本的強(qiáng)化學(xué)習(xí)問(wèn)題[7-9]。常見(jiàn)的分層強(qiáng)化學(xué)習(xí)方法可以大致分為四大類(lèi),分別為基于選項(xiàng)(option)的強(qiáng)化學(xué)習(xí)、基于分層抽象機(jī)(hierarchical of abstract machines) 的分層強(qiáng)化學(xué)習(xí)、基于MaxQ函數(shù)分解 (MaxQ value function decomposition) 的分層強(qiáng)化學(xué)習(xí),以及端到端的(end to end)的分層強(qiáng)化學(xué)習(xí)。本節(jié)將對(duì)它們逐一進(jìn)行探討。
2.1 基于選項(xiàng)的分層強(qiáng)化學(xué)習(xí)
“選項(xiàng)”(option)的概念在1999年由Sutton等人提出[10],是一種對(duì)動(dòng)作的抽象。一般的,option可表示為一個(gè)三元組〈I,π,β〉。其中,π:S×A→[0,1]表示此option中的策略;β:S→[0,1]表示終止條件,β(s)表示狀態(tài)s有β(s)的概率終止并退出此option;I?S表示option的初始狀態(tài)集合。option〈I,π,β〉在狀態(tài)s上可用,當(dāng)且僅當(dāng)s∈I。當(dāng)option開(kāi)始執(zhí)行時(shí),agent通過(guò)該option的π進(jìn)行動(dòng)作選擇直到終止。值得注意的是,一個(gè)單獨(dú)的動(dòng)作a也可以是一個(gè)option,通常被稱(chēng)作one-step option,I={s:a∈As},并且對(duì)任意的狀態(tài)s都有β(s)=1。
基于option的分層強(qiáng)化學(xué)習(xí)的過(guò)程如下:假設(shè)agent當(dāng)前在某個(gè)狀態(tài),選擇一個(gè)option,通過(guò)這個(gè)option的策略,agent選擇了一個(gè)動(dòng)作或者另一個(gè)option。若選擇了一個(gè)動(dòng)作,則直接執(zhí)行轉(zhuǎn)移到下一個(gè)狀態(tài);若選擇了另一個(gè)option,則用選擇的新option繼續(xù)選擇,直到最后得出一個(gè)動(dòng)作。
為了使用option來(lái)解決分層強(qiáng)化學(xué)習(xí)問(wèn)題,我們還需要定義一個(gè)更高層級(jí)的策略μ:S×Os→[0,1]。其中,O表示所有option的集合,而Os表示狀態(tài)s下可用的option的集合;μ(s,o)表示在狀態(tài)s時(shí)以μ(s,o)的概率選擇o作為當(dāng)前的option。此時(shí)的Q函數(shù)定義為
Qμ(s,o)=E{rt+γrt+1+γ2rt+2+…|or=o,st=s}
此時(shí)的Q-Learning的更新公式為
Qk+1(st,ot)=(1-αk)Qk(st,ot)+αk(rt+γrt+1+…+
γτ-1rt+τ+γτmaxo′∈Os′Qk(st+τ,o′))
其中,αk為第k輪迭代時(shí)的學(xué)習(xí)率,τ表示optiono在執(zhí)行τ步之后在狀態(tài)st+τ停止,而o′為在o執(zhí)行結(jié)束后的下一個(gè)option??梢宰⒁獾?,當(dāng)所有的option均為one-step option時(shí),這個(gè)Q-Learning就退化為普通的Q-Learning過(guò)程。
2.2 基于分層抽象機(jī)的分層強(qiáng)化
分層抽象機(jī)(hierarchies of abstract machines, HAMs,)是Parr和Russell提出的方法[11]。和option的方法類(lèi)似,HAMs的方法也是建立在SMDP的理論基礎(chǔ)之上的。HAMs的主要思想是將當(dāng)前所在狀態(tài)以及有限狀態(tài)機(jī)的狀態(tài)結(jié)合考慮,從而選擇不同的策略。
HAMs也可以通過(guò)改進(jìn)Q-Learning算法進(jìn)行學(xué)習(xí)。對(duì)于一個(gè)馬爾可夫決策過(guò)程M和任意一個(gè)狀態(tài)機(jī)H,H°M是一個(gè)MDP[11],其中狀態(tài)集合為S×SH,動(dòng)作集合為A×AH。只有當(dāng)H的狀態(tài)是choice類(lèi)型的狀態(tài)時(shí),H°M才需要進(jìn)行決策,其他狀態(tài)下都可以根據(jù)狀態(tài)機(jī)的狀態(tài)自動(dòng)進(jìn)行狀態(tài)轉(zhuǎn)移,所以實(shí)際上H°M是個(gè)SMDP。因此我們需要維護(hù)的Q函數(shù)為Q([sc,mc],ac),其中,c表示H°M中需要作出選擇的狀態(tài)的下標(biāo),[sc,mc]被稱(chēng)作選擇點(diǎn)(choice point)。此時(shí)Q-Learning的更新公式為
Qk+1([sc,mc],ac)=(1-αk)Qk([sc,mc],ac)+α[rt+
2.3 基于MaxQ值函數(shù)分解的分層強(qiáng)化學(xué)習(xí)
MaxQ值函數(shù)分解(MaxQ value function decomposition),是由Dietterich提出的另外一種分層強(qiáng)化學(xué)習(xí)的方法[12]。首先將一個(gè)馬爾可夫決策過(guò)程M分解成多個(gè)子任務(wù){(diào)M0,M1,…,Mn},M0為根子任務(wù),解決了M0就意味著解決了原問(wèn)題M。對(duì)于每一個(gè)子任務(wù)Mi,都有一個(gè)終止斷言(termination predicate)Ti和一個(gè)動(dòng)作集合Ai。這個(gè)動(dòng)作集合中的元素既可以是其他的子任務(wù),也可以是一個(gè)MDP中的action。一個(gè)子任務(wù)的目標(biāo)是轉(zhuǎn)移到一個(gè)狀態(tài),可以滿(mǎn)足終止斷言,使得此子任務(wù)完成并終止。我們需要學(xué)到一個(gè)高層次的策略π={π0,…,πn},其中πi為子任務(wù)Mi的策略。
令V(i,s)表示子任務(wù)i在狀態(tài)s的值函數(shù),即該子問(wèn)題從狀態(tài)s開(kāi)始一直按照某個(gè)策略執(zhí)行最終達(dá)到終止?fàn)顟B(tài)的期望累計(jì)獎(jiǎng)賞。類(lèi)似的,令Q(i,s,j)為子任務(wù)i在狀態(tài)s執(zhí)行動(dòng)作j之后按照某個(gè)策略執(zhí)行直到達(dá)到終止?fàn)顟B(tài)的期望累計(jì)獎(jiǎng)賞,可以表示為
Q(i,s,j)=E(rt+γrt+1+γ2rt+2+…|st=s,π)
假設(shè)選擇的動(dòng)作j一共執(zhí)行了τ步才返回,那么我們可以把Q函數(shù)寫(xiě)成
其中右邊的第1項(xiàng)實(shí)際上是V(j,s),第2項(xiàng)叫作完成函數(shù)(completion function),記作C(i,s,j)。則Q函數(shù)的貝爾曼方程可以寫(xiě)為
γτmaxj′Q(i,s′,j′))=V(j,s)+C(i,s,j)
當(dāng)選擇的動(dòng)作j完成后,得到下一個(gè)狀態(tài)s′以及做完這個(gè)動(dòng)作經(jīng)過(guò)的時(shí)間τ,則可更新完成函數(shù)
Ct+1(i,s,j)=(1-αt)Ct(i,s,j)+
αtγτ[maxa′V(a′,s′)+Ct(i,s′,a′)]
這樣也就更新了Q函數(shù)。
圖1為利用MaxQ方法解決taxi problem的任務(wù)劃分示意圖[12]。
圖1 出租車(chē)問(wèn)題的任務(wù)圖Fig.1 Task graph for the taxi problem
出租車(chē)問(wèn)題是指一個(gè)出租車(chē)agent需要到特定位置接一位乘客并且把他送到特定的位置讓其下車(chē)。一共有6個(gè)動(dòng)作,分別是上車(chē)(pick up)、下車(chē)(drop off),以及向東南西北四個(gè)方向開(kāi)車(chē)的動(dòng)作。這里使用MaxQ方法,將原問(wèn)題分解成了get和put兩個(gè)子任務(wù),這兩個(gè)子任務(wù)又進(jìn)行分解,get分解成一個(gè)基本動(dòng)作pick up和一個(gè)子任務(wù)navigate,而put也分解成了一個(gè)基本動(dòng)作drop off和一個(gè)子任務(wù)navigate。子任務(wù)navigate(t)表示t時(shí)刻應(yīng)該開(kāi)車(chē)的方向。對(duì)于這個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,agent首先選擇get,然后get子問(wèn)題navigate,直到到達(dá)乘客所在地,然后get選擇pick up動(dòng)作,乘客上車(chē)。之后agent選擇put子任務(wù),put子任務(wù)選擇navigate,直到到達(dá)乘客目的地,之后put子任務(wù)選擇drop off動(dòng)作,乘客下車(chē),任務(wù)完成。
2.4 端到端的的分層強(qiáng)化學(xué)習(xí)
上述的幾種方法,都需要人工來(lái)做很多工作,比如人工進(jìn)行option的選取,人工進(jìn)行HAMs的構(gòu)建,人工劃分子任務(wù)等。人工設(shè)計(jì)不僅耗時(shí)耗力,并且會(huì)直接影響最終強(qiáng)化學(xué)習(xí)結(jié)果的好壞。近些年來(lái)人們關(guān)注如何讓agent自己學(xué)到合理的分層抽象,而非人為進(jìn)行劃分和指定。
有人提出利用蟻群算法啟發(fā)式地尋找合理的劃分點(diǎn)[13]。作者利用蟻群算法根據(jù)信息素的變化程度尋找“瓶頸”(bottle neck),瓶頸像一座橋梁一樣連接著問(wèn)題空間中不同的連續(xù)區(qū)域。圖2為一個(gè)Grid Word問(wèn)題,agent需要從狀態(tài)s出發(fā)到達(dá)狀態(tài)g。通過(guò)蟻群算法分析信息素的變化程度找出瓶頸在兩個(gè)房間的窄門(mén)處,即圖2中的狀態(tài)v附近。
圖2 通過(guò)蟻群算法找到從s到g的最短路徑Fig.2 Shortest path between s and g found by ant system
通過(guò)多次探索留下的信息素密集程度來(lái)找到瓶頸即可將問(wèn)題空間劃分,再使用基于option的分層強(qiáng)化學(xué)習(xí)即可解決。
除了啟發(fā)式的抽象方法,有人還提出使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)自動(dòng)進(jìn)行問(wèn)題的分層抽象和學(xué)習(xí)[14-20]。近些年來(lái)神經(jīng)網(wǎng)絡(luò)快速發(fā)展,尤其是在圖像識(shí)別領(lǐng)域,更是取得了很多成果。因此有人嘗試通過(guò)結(jié)合神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)來(lái)設(shè)計(jì)電子游戲的AI,輸入為游戲畫(huà)面,通過(guò)神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)學(xué)習(xí)到游戲策略。有些游戲復(fù)雜度較高,需要使用分層強(qiáng)化學(xué)習(xí)。文獻(xiàn)[14] 中提出了Option-Critic架構(gòu),旨在通過(guò)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,模糊發(fā)現(xiàn)option和學(xué)習(xí)option之間的界限,直接通過(guò)神經(jīng)網(wǎng)絡(luò)一起訓(xùn)練。在一些游戲上取得了比不使用分層強(qiáng)化學(xué)習(xí)的Deep Q Network更好的結(jié)果。文獻(xiàn)[15] 中提出了Manager-Worker架構(gòu),Manager負(fù)責(zé)給Worker一個(gè)子目標(biāo),而Worker根據(jù)子目標(biāo)和當(dāng)前所處的狀態(tài)給出具體執(zhí)行的動(dòng)作。在這個(gè)方法中,Manager和Worker分別是兩個(gè)不同的神經(jīng)網(wǎng)絡(luò),并且用各自的梯度分別進(jìn)行優(yōu)化,在實(shí)驗(yàn)中也取得了很好的效果。
人工進(jìn)行分層和抽象,不僅費(fèi)時(shí)費(fèi)力,而且容易忽視問(wèn)題中不易發(fā)現(xiàn)的內(nèi)在聯(lián)系。因此使用端到端的分層強(qiáng)化學(xué)習(xí),從分層抽象到訓(xùn)練學(xué)習(xí),都通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)進(jìn)行必然是今后人們不斷研究的方向。
本文對(duì)于分層強(qiáng)化學(xué)習(xí)進(jìn)行了回顧。首先介紹了強(qiáng)化學(xué)習(xí)、馬爾科夫決策過(guò)程以及半馬爾科夫決策過(guò)程的定義和基本概念,規(guī)定了本文的符號(hào)使用。然后,在第2節(jié)分4個(gè)方面,闡述了Sutton等提出的option方法,Parr和Russell提出的HAMs方法以及Dierrerich等提出的MaxQ方法,闡述了這些方法具體的計(jì)算方法。分析了近兩年來(lái)的研究方向,介紹了一些端到端的、自動(dòng)抽象的分層強(qiáng)化學(xué)習(xí)。分層強(qiáng)化學(xué)習(xí)是解決大規(guī)模強(qiáng)化學(xué)習(xí)的潛在途徑,然而其受到的關(guān)注不足。希望本篇綜述能夠引起更多人關(guān)注分層強(qiáng)化學(xué)習(xí)。
[1]BARTO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning[J]. Discrete event dynamic systems, 2013,13(4): 341-379.
[2]YAN Q, LIU Q, HU D. A hierarchical reinforcement learning algorithm based on heuristic reward function[C]//In Proceedings of 2nd International Conference on Advanced Computer Control. Shenyang, China, 2010, 3:371-376.
[3]DETHLEFS N, CUAYHUITL H. Combining hierarchical reinforcement learning and Bayesian networks for natural language generation in situated dialogue[C]//European Workshop on Natural Language Generation. Nancy, France,2011: 110-120.
[4]AL-EMRAN M. Hierarchical reinforcement learning: a survey[J]. International journal of computing and digital systems, 2015, 4(2):137-143.
[5]MAHADEVAN S, MARCHALLECK N. Self-improving factory simulation using continuous-time average-reward reinforcement learning[C]. In Proceedings of the Machine Learning International Workshop. Nashville, USA, 1997: 202-210.
[6]HOWARD R A. Semi-Markov and decision processes[M]. New York: DOVER Publications, 2007.
[7]GIL P, NUNES L. Hierarchical reinforcement learning using path clustering[C]//In Proceedings of 8th Iberian Conference on Information Systems and Technologies. Lisboa, Portugal, 2013: 1-6.
[8]STULP F, SCHAAL S. Hierarchical reinforcement learning with movement primitives[C]//In Proceedings of 11th IEEE-RAS International Conference on Humanoid Robots. Bled, Slovenia, 2011: 231-238.
[9]DU X, LI Q, HAN J. Applying hierarchical reinforcement learning to computer games[C]//In Proceedings of IEEE International Conference on Automation and Logistics. Xi’an, China, 2009: 929-932.
[10]SUTTON R S, PRECUP D, SINGH S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial intelligence, 1999, 112(1/2): 181-211.
[11]PARR R, RUSSELL S. Reinforcement learning with hierarchies of machines[C]//Advances in Neural Information Processing Systems. Colorado, USA, 1998: 1043-1049.
[12]DIETTERICH T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. Journal of artificial intelligence research, 2000, 13: 227-303.
[13]MOHSEN G, TAGHIZADEH N, et al. Automatic abstraction in reinforcement learning using ant system algorithm[C]//In Proceedings of AAAI Spring Symposium: Lifelong Machine Learning. Stanford, USA, 2013: 114-122.
[14]PIERRE-LUC BACON, JEAN HARB. The option-critic architecture[C]//In Proceeding of 31th AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 1726-1734.
[15]VEZHNEVETS A S, OSINDERO S, SCHAUL T, et al. FeUdal networks for hierarchical reinforcement learning[C]//In Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia, 2017: 3540-3549.
[16]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(2): 529-533.
[17]TEJAS D. K, KARTHNIK N, ARDAVAN S, et al. Hierarchical deep reinforcement learning: integrating temporal abstraction and intrinsic motivation[C]//Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 3675-3683.
[18]CARLOS FLORENSA, YAN D, PIETER A. Stochastic neural networks for hierarchical reinforcement learning[EB/OL]. Berkeley, USA, arXiv. 2017, https://arxiv.org/pdf/1704.03012.pdf.
[19]LAKSHMINARAYANAN A S, KRISHNAMURTHY R, KUMAR P, et al. Option discovery in hierarchical reinforcement learning using spatio-temporal clustering[EB/OL]. Madras, India, arXiv, 2016, https://arxiv.org/pdf/1605.05359.pdf.
[20]XUE B , GLEN B. DeepLoco: dynamic locomotion skills using hierarchical deep reinforcement learning[J]. ACM transactions on graphics,2017, 36(4):1-13.
周文吉,男,1995年生,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)和數(shù)據(jù)挖掘。
俞揚(yáng),男,1982年生,副教授,博士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄?、機(jī)器學(xué)習(xí)、演化計(jì)算、數(shù)據(jù)挖掘。曾獲2013年全國(guó)優(yōu)秀博士學(xué)位論文獎(jiǎng),2011年中國(guó)計(jì)算機(jī)學(xué)會(huì)優(yōu)秀博士學(xué)位論文獎(jiǎng)。發(fā)表論文40余篇。
Summarizeofhierarchicalreinforcementlearning
ZHOU Wenji, YU Yang
(National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China)
Reinforcement Learning (RL) is an important research area in the field of machine learning and artificial intelligence and has
increasing attentions in recent years. The goal in RL is to maximize long-term total reward by interacting with the environment. Traditional RL algorithms are limited due to the so-called curse of dimensionality, and their learning abilities degrade drastically with increases in the dimensionality of the state space. Hierarchical reinforcement learning (HRL) decomposes the RL problem into sub-problems and solves each of them to improve learning ability. HRL offers a potential way to solve large-scale RL, which has received insufficient attention to date. In this paper, we introduce and review several main HRL methods.
artificial intelligence; machine learning; reinforcement learning; hierarchical reinforcement learning; deep reinforcement learning; Markov decision process; semi-Markov decision process; dimensional curse
10.11992/tis.201706031
http://kns.cnki.net/kcms/detail/23.1538.TP.20171021.1350.008.html
TP391
A
1673-4785(2017)05-0590-05
中文引用格式:周文吉,俞揚(yáng).分層強(qiáng)化學(xué)習(xí)綜述J.智能系統(tǒng)學(xué)報(bào), 2017, 12(5): 590-594.
英文引用格式:ZHOUWenji,YUYang.SummarizeofhierarchicalreinforcementlearningJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 590-594.
2017-06-09. < class="emphasis_bold">網(wǎng)絡(luò)出版日期
日期:2017-10-21.
國(guó)家自然科學(xué)基金項(xiàng)目(61375061); 江蘇省自然科學(xué)基金項(xiàng)目(BK20160066).
俞揚(yáng). E-mail:yuy@nju.edu.cn.