張凱峰 俞 揚
(計算機軟件新技術(shù)國家重點實驗室(南京大學(xué)) 南京 210023)
強化學(xué)習(xí)(reinforcement learning, RL)[1]是機器學(xué)習(xí)的重要分支之一.在強化學(xué)習(xí)中,智能體(agent)通過不斷與其所處環(huán)境(environment)自主交互從而進行學(xué)習(xí)并完成任務(wù).在交互過程中,智能體將基于最大化累積反饋獎賞的目標(biāo)對自身策略不斷進行優(yōu)化更新.該過程可以被認為是(正向)強化學(xué)習(xí)過程.與傳統(tǒng)監(jiān)督學(xué)習(xí)不同的是,強化學(xué)習(xí)天生具有一定的“自學(xué)”能力,可以自主地對環(huán)境進行探索學(xué)習(xí).因此,強化學(xué)習(xí)能夠被有效地應(yīng)用到許多標(biāo)記數(shù)據(jù)代價高昂的自主學(xué)習(xí)問題當(dāng)中去,這包括:推薦系統(tǒng)、自動駕駛、智能機器人、Atari游戲等.在強化學(xué)習(xí)中,如圖1所示,智能體通過觀測所處環(huán)境的狀態(tài),在動作空間選取合適動作予以執(zhí)行.環(huán)境將依據(jù)相應(yīng)狀態(tài)轉(zhuǎn)換概率轉(zhuǎn)換至新的狀態(tài),并給予智能體一定反饋獎賞.這個過程可以始終執(zhí)行下去,也可以在智能體觀測到終止?fàn)顟B(tài)后停止.
Fig. 1 Reinforcement learning procedure圖1 強化學(xué)習(xí)過程
然而對于絕大多數(shù)決策問題而言,環(huán)境將難以給出準(zhǔn)確的即時反饋信號或者環(huán)境給出的反饋信號將具有很高的延遲性.例如在自動駕駛問題中,對于行駛過程中的車輛,環(huán)境很難在車輛每執(zhí)行一個動作后即時地給出反饋信號;而在圍棋這一類游戲之中,在每一步的落子后環(huán)境也很難立即評價該步的好壞,而往往需要經(jīng)過多步之后才能來判斷之前一步的好壞,這也就是環(huán)境所給予的反饋信號延遲性較高的情況.在上述情況下,更為直接的方式是利用大量人類專家的決策數(shù)據(jù)進行學(xué)習(xí)從而得到智能體的策略.這樣的學(xué)習(xí)方式被稱為示教學(xué)習(xí)或模仿學(xué)習(xí)(imitation learning)[2].
示教學(xué)習(xí)的目標(biāo)是模仿專家的決策軌跡進行決策,其中每條專家決策軌跡{ζ1,ζ2,…,ζm}包括了一系列的狀態(tài)-動作對ζi=si1,ai1,si2,ai2,…,sin,ain.近年來,示教學(xué)習(xí)先后通過學(xué)習(xí)人類飛行員的飛行操作數(shù)據(jù)、道路導(dǎo)航數(shù)據(jù)以及自動系統(tǒng)控制數(shù)據(jù)等,在Stanford自動直升機[3-8]、導(dǎo)航[9-12]以及HVAC控制[13]等項目中取得了一系列成果.
根據(jù)模擬專家行為的不同實現(xiàn)過程,示教學(xué)習(xí)可以被劃分為以下3種實現(xiàn)方式:
1) 行為克隆(behavioral cloning)[14-15].通過傳統(tǒng)監(jiān)督學(xué)習(xí)方法建立狀態(tài)-動作之間的分類模型(針對離散動作空間)或回歸模型(針對連續(xù)動作空間),從而實現(xiàn)決策,也即動作的預(yù)測.然而,由于該類方法在大規(guī)模狀態(tài)空間下所得到的策略存在嚴(yán)重的復(fù)合誤差(compounding errors)[16]并且難以有效學(xué)習(xí)到專家決策行為的動機.因此,該類方法需要設(shè)計人工標(biāo)記數(shù)據(jù)的方法進行矯正,例如DAgger等[17],且僅適用于狀態(tài)空間較小的情況.
2) 基于逆強化學(xué)習(xí)的示教學(xué)習(xí)方法.逆強化學(xué)習(xí)的目標(biāo)是通過在馬爾可夫決策過程上建立合適的優(yōu)化模型,逆向求解得到?jīng)Q策問題的反饋函數(shù).通過結(jié)合傳統(tǒng)的正向強化學(xué)習(xí)方法設(shè)計的一系列示教學(xué)習(xí)方法,例如學(xué)徒學(xué)習(xí)(apprenticeship learning)[18]、代價指導(dǎo)學(xué)習(xí)(guided cost learning)[19]等,能夠更好地解決大規(guī)模狀態(tài)空間所帶來的問題,因而在眾多機器人項目中得到了廣泛的應(yīng)用.值得說明的是,部分研究工作也認為逆強化學(xué)習(xí)是示教學(xué)習(xí)方法的一種[20],這是由于該類方法在工作過程中通過不斷的正向策略搜索進而優(yōu)化算法所需要的反饋信號,因此整個系統(tǒng)(逆強化學(xué)習(xí))可以被認為是一類示教學(xué)習(xí)方法.
3) 基于博弈的示教學(xué)習(xí)方法.經(jīng)典的示教學(xué)習(xí)過程可以看作是智能體和所處環(huán)境進行博弈的過程.其中系統(tǒng)依據(jù)其混合策略Pt在動作空間選取動作,環(huán)境依據(jù)相應(yīng)混合策略Qt選取狀態(tài),同時系統(tǒng)將觀測到自身在執(zhí)行決策之后所得到的損失值.相關(guān)的經(jīng)典工作包括通過已有自適應(yīng)博弈方法[21]來優(yōu)化學(xué)徒學(xué)習(xí)的MWAL算法[22],以及生成式對抗性示教學(xué)習(xí)方法[20,23-24],通過生成器(generator)生成策略,由判別器(discriminator)判斷其是否是來自專家決策數(shù)據(jù)抑或是生成器生成的策略數(shù)據(jù),通過訓(xùn)練2個學(xué)習(xí)器,尋找最優(yōu)策略.
在強化學(xué)習(xí)中,馬爾可夫決策過程[1]可以形式化為一個五元組S,A,T,R,γ表示.其中,S表示強化學(xué)習(xí)智能體所處環(huán)境的狀態(tài)空間;A表示智能體可選取動作的動作空間;T表示狀態(tài)轉(zhuǎn)換概率模型;R表示環(huán)境在某個狀態(tài)-動作對下所給予的反饋信號;γ表示反饋獎賞折扣系數(shù).通常,強化學(xué)習(xí)所面對的任務(wù)的狀態(tài)轉(zhuǎn)換模型以及反饋量需要通過智能體不斷地探索(exploration)從而獲取相關(guān)信息.
智能體的目標(biāo)是通過和環(huán)境的不斷交互最大化自身策略的未來累計反饋獎賞值.其交互過程為:智能體在某個狀態(tài)s0出發(fā),根據(jù)策略在動作空間選取動作a1執(zhí)行,此時環(huán)境將依據(jù)其狀態(tài)轉(zhuǎn)換模型轉(zhuǎn)換到下一個狀態(tài),同時將給予智能體一個確定的反饋獎賞.該過程將不斷進行直到終止?fàn)顟B(tài).其中智能體的策略π是指狀態(tài)空間到動作空間的映射.
與動態(tài)規(guī)劃算法類似的是,我們可以為每個狀態(tài)定義一個值函數(shù)(value function),這將為強化學(xué)習(xí)的實現(xiàn)帶來很大方便.值函數(shù)根據(jù)其自變量的不同可以分為:狀態(tài)值函數(shù)V(s)和狀態(tài)-動作對值函數(shù)Q(s,a).其表述形式分別為
(1)
(2)
可以看出:狀態(tài)值函數(shù)或者狀態(tài)-動作對值函數(shù)分別是某個狀態(tài)、狀態(tài)-動作對下的累計未來反饋獎賞.因此只需要通過最大化值函數(shù)就可以最大化累計反饋獎賞,這使得強化學(xué)習(xí)策略求解更加方便.
基于最優(yōu)策略,我們不難得到以下2個定理:
定理1. Bellman等式.假設(shè)馬爾可夫決策過程為M=S,A,T,R,γ,智能體策略為π:S→A,對于任意狀態(tài)s、動作a,其價值函數(shù)可以表示為
(3)
(4)
定理2. Bellman最優(yōu)定理.假設(shè)馬爾可夫決策過程為M=S,A,T,R,γ,智能體策略為π:S→A,則策略π是最優(yōu)策略當(dāng)且僅當(dāng)對任意狀態(tài)s:
(5)
經(jīng)典的正向強化學(xué)習(xí)研究是智能體基于最大化累計未來反饋獎賞求解策略的過程.而求解策略可以通過求解值函數(shù)實現(xiàn).
根據(jù)1.1節(jié)所述,求解值函數(shù)可以通過式(6)和式(7)展開進行:
(6)
通過式(6)(7)求解值函數(shù)從而獲得最優(yōu)策略的方法可以理解為策略迭代過程,也即通過不斷迭代以下2個交互過程:策略評估(policy evaluation)和策略改進(policy improvement),從而獲取最優(yōu)策略.其中,策略評估是指通過當(dāng)前的策略評估值函數(shù),而策略改進是指通過當(dāng)前值函數(shù)優(yōu)化得到新的策略.這個過程就是經(jīng)典的正向強化學(xué)習(xí)過程.
逆強化學(xué)習(xí)是通過大量專家決策數(shù)據(jù)在馬爾可夫決策過程中逆向求解環(huán)境反饋信號函數(shù)的一類方法.其基本原則是尋找一個或多個反饋信號函數(shù)能夠很好地描述專家決策行為.這也就是說,逆強化學(xué)習(xí)算法將基于專家決策最優(yōu)的假設(shè)進行設(shè)計.
然而,由于在函數(shù)空間中可能存在多個函數(shù)能夠同時滿足專家策略最優(yōu)的假設(shè),例如每一步?jīng)Q策所帶來的反饋始終為0的情況.因此,算法設(shè)計的模型應(yīng)能夠解決反饋信號的模糊性(ambiguity).目前,我們可以通過3類反饋信號函數(shù)的形式實現(xiàn)反饋信號求解過程,它們分別是:1)基于大間隔(max-margin)的反饋信號;2)基于確定基函數(shù)組合的反饋信號函數(shù);3)基于參數(shù)化的反饋信號函數(shù),例如神經(jīng)網(wǎng)絡(luò).
逆強化學(xué)習(xí)發(fā)展初期,大多工作均建立在環(huán)境反饋信號函數(shù)為確定基函數(shù)組合的情況下.該類方法通過狀態(tài)特征構(gòu)建基函數(shù),從而將求解反饋信號函數(shù)的任務(wù)轉(zhuǎn)化為求解各個基函數(shù)權(quán)重的任務(wù).其能夠較好地克服反饋信號搜索過程中存在的函數(shù)歧義性的問題.
為了建立合適的優(yōu)化模型求解相關(guān)決策問題的反饋信號,該類方法從專家決策軌跡最優(yōu)的假設(shè)出發(fā),通過以下2種方法建立相關(guān)模型:
在上述優(yōu)化目標(biāo)的基礎(chǔ)上,我們可以考慮逆強化學(xué)習(xí)問題的約束條件還應(yīng)包括:a1為最優(yōu)決策動作,根據(jù)定理2可以得知,該條件等價于a1動作在相應(yīng)狀態(tài)下的Q值將大于其余動作的Q值.此外,約束條件中還應(yīng)保證立即反饋信號值始終是有限值.當(dāng)考慮到對模型進行正則化時,我們可以得到Ng等人[25]提出的針對專家決策軌跡的優(yōu)化模型,如式(8)所示:
s.t. (Pa1(i)-Pa(i))(I-γ·Pa1)-1R?0,(8)
Ri≤Rmax,i=1,2,…,N.
其中,Pa(i)表示狀態(tài)轉(zhuǎn)換概率矩陣.矩陣R表示反饋量矩陣.其中模型約束條件
(Pa1(i)-Pa(i))(I-γ·Pa1)-1R?0,
表示左側(cè)矩陣各項元素均大于0,以保證a1為最優(yōu)決策.|Ri|≤Rmax亦表示矩陣中各項元素均小于某個有限值.當(dāng)考慮到?jīng)Q策問題的反饋函數(shù)可以由一組確定的基函數(shù)線性擬合時,該優(yōu)化模型可以很好地通過線性規(guī)劃(linear programming)求解得到相應(yīng)環(huán)境的反饋函數(shù).
2) 根據(jù)強化學(xué)習(xí)基于動態(tài)規(guī)劃算法最大化未來反饋量的經(jīng)典研究我們可以得知:最優(yōu)策略相對于其他策略而言將獲得最大的未來獎賞,即:
將取得最大值.
當(dāng)決策問題的反饋信號可以由一系列確定的基函數(shù)φ1,φ2,…,φk線性組合而成時,我們可以定義策略的特征期望[18]為
由此,我們可以得到對于任意策略特征期望μ,可以得到:
wTμE≥wTμ.
其中,μE表示專家決策數(shù)據(jù)所確定的專家策略特征期望,其值可以通過蒙特卡洛算法進行估算:
通過建立優(yōu)化模型:
(9)
我們可以得到以下結(jié)論:當(dāng)優(yōu)化變量t不大于擬合誤差ε時,算法將得到?jīng)Q策問題反饋信號優(yōu)化變量w,也即得到未來總反饋函數(shù)R=wTμ.此時,由于t≤ε,也將得到相應(yīng)策略,其未來獎賞值wTμ(i)≥wTμE-ε,也即結(jié)合不同正向強化學(xué)習(xí)策略搜索方法設(shè)計的示教學(xué)習(xí)方法得到的策略將不低于專家策略減去某小量的水平.
通過上述2種方式建立的逆強化學(xué)習(xí)優(yōu)化模型可以幫助求解得到相關(guān)問題的反饋信號.該類方法通過比較專家策略和其他策略的價值,從而建立逆強化學(xué)習(xí)優(yōu)化模型,能夠較好地實現(xiàn)對專家決策軌跡的學(xué)習(xí),并獲取環(huán)境反饋信號函數(shù).
隨著逆強化學(xué)習(xí)面對的決策問題復(fù)雜度的提升,研究人員開始關(guān)注于提升反饋信號函數(shù)的表達能力.其中較為有效的是通過參數(shù)化模型對環(huán)境反饋信號進行建模.
早期的致力于擴大決策問題反饋信號表達能力的工作包括:2010年Levine等人[27]提出的FIRL(feature construction for IRL)算法,其方法通過構(gòu)建一組基于邏輯聯(lián)結(jié)的合成特征,從而間接實現(xiàn)了非線性反饋信號的建模.2011年,Levine等人[28]又提出了GP-IRL,其方法采用了基于高斯過程[29]的反饋信號,通過高斯過程極大地增強了反饋函數(shù)的表示能力.2015年,Jin等人[30]又在GP-IRL算法基礎(chǔ)上結(jié)合了深度信念網(wǎng)絡(luò),實現(xiàn)了深度高斯過程在逆強化學(xué)習(xí)上的應(yīng)用(DGP-IRL).其中GP-IRL和DGP-IRL在眾多開源環(huán)境測試,例如經(jīng)典的Grid-world測試實驗以及gym下的強化學(xué)習(xí)基準(zhǔn)測試實驗中都取得了”state-of-the-art”的效果.
隨著深度學(xué)習(xí)的蓬勃發(fā)展,通過神經(jīng)網(wǎng)絡(luò)對反饋函數(shù)進行建模逐漸稱為逆強化學(xué)習(xí)的一大主流方向.其中較為知名的是2008年,Ziebart等人[11]提出的最大熵逆強化學(xué)習(xí)方法(maximum entropy IRL),通過優(yōu)化專家決策數(shù)據(jù)集的似然函數(shù)實現(xiàn)反饋信號的優(yōu)化,很好地解決了專家決策數(shù)據(jù)中可能存在的噪聲以及專家數(shù)據(jù)本身并不是最優(yōu)的問題.
最大熵逆強化學(xué)習(xí)方法是經(jīng)典的基于“能量”的模型(energy-based model)[31].其中能量函數(shù)ε為環(huán)境的代價函數(shù)(即反饋信號函數(shù)的相反數(shù)).根據(jù)“能量”模型的假設(shè),可以知道專家在策略軌跡空間的采樣概率密度為
(10)
其中,τ為策略軌跡,分母為劃分函數(shù)Z(partition function).式(10)可以簡單地理解為:當(dāng)2條決策軌跡具有相同的反饋獎賞時,其具有相同的概率別“專家”采樣獲得,而當(dāng)某條軌跡具有更高的反饋獎賞時,“專家”將更有機會能夠采樣到這條軌跡.
為了讓專家決策數(shù)據(jù)(訓(xùn)練數(shù)據(jù))更能夠被“專家”采樣到,逆強化學(xué)習(xí)的優(yōu)化目標(biāo)是最大化專家軌跡的似然函數(shù),可以表述為
(11)
因此,通過隨機梯度方法優(yōu)化模型式(11)就可以求解得到環(huán)境的反饋信號函數(shù).此處需要注意的是:當(dāng)我們面對的是離散且規(guī)模較小的狀態(tài)空間時,劃分函數(shù)Z可以通過動態(tài)規(guī)劃算法求得;而當(dāng)我們面對大規(guī)模狀態(tài)空間時,則需要通過采樣等方法實現(xiàn)[19,32].
最大熵逆強化學(xué)習(xí)方法通過優(yōu)化專家決策數(shù)據(jù)的似然函數(shù)從而獲得環(huán)境反饋信號,該方法引入了一定的隨機性,可以處理專家決策數(shù)據(jù)本身不是最優(yōu)或含有一定噪聲的情況.
類似能夠處理專家決策數(shù)據(jù)本身不是最優(yōu)的方法還包括一系列概率模型.其中包括:2007年,Ramachandran和Amir[33]提出貝葉斯非參數(shù)化方法去構(gòu)建反饋函數(shù)特征來實現(xiàn)逆強化學(xué)習(xí),該方法稱作貝葉斯逆強化學(xué)習(xí)(Bayesian IRL).其后2013年,Choi等人[34]通過構(gòu)建了一組合成特征上的先驗概率優(yōu)化了該算法.
對于某些復(fù)雜決策問題,環(huán)境反饋信號難以通過單一的一個函數(shù)進行表示,也就是說是通過單一函數(shù)擬合過程中會出現(xiàn)決策數(shù)據(jù)和反饋函數(shù)嚴(yán)重不一致的情況.通過基于每條專家決策軌跡都能夠被多個局部一致的反饋函數(shù)所生成的假設(shè),Nguyen等人[35]提出了通過期望最大化(expectation-max-imization, EM)方法來學(xué)習(xí)不同的反饋信號以及它們之間動態(tài)的轉(zhuǎn)換過程.通過該方法,可以實現(xiàn)針對專家決策軌跡的分割,使得各個部分(segments)均能對應(yīng)合適的局部一致的反饋函數(shù).基準(zhǔn)數(shù)據(jù)測試(Grid-world以及gym等開源強化學(xué)習(xí)環(huán)境測試)表明該方法也取得了”state-of-the-art”的效果.
此外,逆強化學(xué)習(xí)領(lǐng)域仍有很多問題需要進行研究解決.例如,在考慮到部分可觀察的環(huán)境(partially observable environments)[36]時,如何有效地將逆強化學(xué)習(xí)或示教學(xué)習(xí)方法遷移到這樣的環(huán)境之中、如何設(shè)計實驗來提高反饋函數(shù)的可識別性(identifiablity)等問題.
示教學(xué)習(xí)的目標(biāo)是通過專家決策軌跡去模仿專家的決策行為.本文第2節(jié)介紹了逆強化學(xué)習(xí)的方法和所需解決的問題,逆強化學(xué)習(xí)是通過學(xué)習(xí)專家決策軌跡從而獲得環(huán)境反饋信號的一類方法.本節(jié)將介紹通過結(jié)合逆強化學(xué)習(xí)、正向強化學(xué)習(xí)策略搜索算法所設(shè)計的示教學(xué)習(xí)方法,也即基于逆強化學(xué)習(xí)的示教學(xué)習(xí)方法.
目前,基于逆強化學(xué)習(xí)的示教學(xué)習(xí)主要的2個框架分別是:1)在經(jīng)典的正向強化學(xué)習(xí)算法內(nèi)循環(huán)中使用逆強化學(xué)習(xí)算法優(yōu)化問題的反饋信號,基于反饋信號函數(shù)繼續(xù)實現(xiàn)策略的優(yōu)化,不斷迭代實現(xiàn)示教學(xué)習(xí)過程.其核心在于將逆強化學(xué)習(xí)方法置于正向策略搜索方法的內(nèi)循環(huán)之中,經(jīng)典的方法包括學(xué)徒學(xué)習(xí)方法等.2)基于不斷優(yōu)化得到的反饋信號去實現(xiàn)正向強化學(xué)習(xí)過程,通過采樣數(shù)據(jù)和專家數(shù)據(jù)相結(jié)合實現(xiàn)逆強化學(xué)習(xí)過程,同時將正向強化學(xué)習(xí)過程置于逆強化學(xué)習(xí)的內(nèi)循環(huán)中,經(jīng)典的方法有代價指導(dǎo)學(xué)習(xí)等.本節(jié)將主要介紹學(xué)徒學(xué)習(xí)方法和代價指導(dǎo)學(xué)習(xí)方法.
學(xué)徒學(xué)習(xí)方法是通過在馬爾可夫決策過程中,模仿專家行為,最終得到不差于專家行為策略的方法.其核心的思想是通過匹配專家期望特征實現(xiàn)模仿學(xué)習(xí)過程.
在線性假設(shè)下,反饋信號可以由一組確定基函數(shù)φ1,φ2,…,φk進行線性組合.因此,策略的價值可以表示為
(13)
因此,我們可以得到以下結(jié)論:對于某個策略π,若其特征期望接近專家策略特征期望,則該策略是學(xué)徒學(xué)習(xí)的一個解.算法1描述了由Abbeel等人[18]提出的通過結(jié)合策略迭代和式(9)的逆強化學(xué)習(xí)算法所設(shè)計的學(xué)徒學(xué)習(xí)方式.
算法1. 學(xué)徒學(xué)習(xí)算法.
輸入:專家決策行為數(shù)據(jù);
輸出:算法得到的策略以及相應(yīng)的反饋函數(shù).
① 隨機初始化一個策略,計算其特征期望:
μ(0)=μ(π(0)),設(shè)置i=1;
② 計算:
并且獲得相應(yīng)w值為w(i);
③ IFt(i)≤εTHEN
④ 算法終止;
End If
⑤ 使用強化學(xué)習(xí)算法,計算最優(yōu)策略π(i)未來累計獎賞為R=(w(i))Tφ;
⑥ 計算策略特征期望μ(i)=μ(π(i));
⑦ 設(shè)置i=i+1,并返回步驟②.
其中,λi可以看作是以λi的概率選擇μ(i)策略.
為了將學(xué)徒學(xué)習(xí)方法應(yīng)用到高性能機器人系統(tǒng)之中,Abbeel等人[37]通過將學(xué)徒學(xué)習(xí)和探索策略(exploration policies)方法結(jié)合解決動態(tài)未知的機器人環(huán)境.其后,該項工作也被應(yīng)用到了著名的Stanford自動直升機之中.
代價指導(dǎo)學(xué)習(xí)[19]是通過結(jié)合正向強化學(xué)習(xí)中的策略優(yōu)化[38](policy optimization)方法和最大熵逆強化學(xué)習(xí)方法[11]實現(xiàn)的示教學(xué)習(xí)方法.
如圖2所示,系統(tǒng)通過初始化策略在機器人或設(shè)備上進行軌跡采樣,并將采樣得到的軌跡和專家決策數(shù)據(jù)進行合并,共同用于實現(xiàn)逆強化學(xué)習(xí)過程,優(yōu)化反饋信號函數(shù).基于得到的反饋信號函數(shù),在內(nèi)循環(huán)中實現(xiàn)策略優(yōu)化.不斷迭代上述過程,最終實現(xiàn)示教學(xué)習(xí)過程.其實現(xiàn)過程如算法2所示.
Fig. 2 Guided cost learning procedure圖2 代價指導(dǎo)學(xué)習(xí)過程
算法2. 代價指導(dǎo)學(xué)習(xí)算法.
輸入:專家決策行為數(shù)據(jù);
輸出:算法得到的策略以及相應(yīng)的反饋函數(shù).
① 隨機初始化一個策略;
② FORi=1 toIDO
③ 通過目前策略采樣生成采樣數(shù)據(jù)集;
④ 擴展數(shù)據(jù)樣本集:Dsamp=Dsamp∪Dtraj;
⑤ 通過Dsamp優(yōu)化問題反饋信號函數(shù);
⑥ 通過正向強化學(xué)習(xí)更新策略;
⑦ END FOR
⑧ 返回優(yōu)化后的策略和相應(yīng)反饋信號.
算法2步驟①實現(xiàn)隨機初始化策略;步驟③通過當(dāng)前策略進行采樣;步驟④實現(xiàn)采樣數(shù)據(jù)集和專家決策數(shù)據(jù)集的合并;步驟⑤實現(xiàn)逆強化學(xué)習(xí)過程(最大熵算法);步驟⑥實現(xiàn)策略優(yōu)化;不斷迭代步驟③~⑥,實現(xiàn)示教學(xué)習(xí)過程.
此外,由于強化學(xué)習(xí)系統(tǒng)采樣的樣本有限,一般可以通過將專家決策數(shù)據(jù)集合進行分組,通過多組數(shù)據(jù)循環(huán)優(yōu)化反饋信號,實現(xiàn)逆強化學(xué)習(xí)過程.目前,代價指導(dǎo)學(xué)習(xí)算法在機器人多項智能操作,例如倒水、疊盤子等實驗[19]中取得了”state-of-the-art”的效果.
通過上述介紹的學(xué)徒學(xué)習(xí)方法和代價指導(dǎo)學(xué)習(xí)方法兩大類實現(xiàn)框架,我們能夠?qū)⒉煌哪鎻娀瘜W(xué)習(xí)和正向強化學(xué)習(xí)方法進行結(jié)合從而設(shè)計一系列示教學(xué)習(xí)算法.通過采用不同的逆強化學(xué)習(xí)方法,我們可以處理專家決策數(shù)據(jù)本身存在的各種問題,例如數(shù)據(jù)存在噪聲、其決策過程本身并不是最優(yōu)的以及反饋信號表示能力受到限制等.同樣地,通過采用不同的正向強化學(xué)習(xí)方法,我們可以解決許多由環(huán)境所帶來的問題,例如實現(xiàn)在高維連續(xù)系統(tǒng)中的示教學(xué)習(xí)應(yīng)用等.
本文不僅介紹了建立逆強化學(xué)習(xí)優(yōu)化模型的方法以及逆強化學(xué)習(xí)方法發(fā)展回顧,還介紹了如何通過結(jié)合逆強化學(xué)習(xí)、正向強化學(xué)習(xí)方法設(shè)計新的示教學(xué)習(xí)方法,重點介紹了2種框架以及其具有代表性2種的經(jīng)典方法:學(xué)徒學(xué)習(xí)以及代價指導(dǎo)學(xué)習(xí)方法.
示教學(xué)習(xí)是通過模仿專家行為實現(xiàn)專家決策的學(xué)習(xí)方法.而其中,基于逆強化學(xué)習(xí)的示教學(xué)習(xí)方法不僅能夠?qū)崿F(xiàn)針對決策數(shù)據(jù)的學(xué)習(xí),還能夠較好地學(xué)習(xí)到專家行為的動機.
目前,示教學(xué)習(xí)的主要應(yīng)用領(lǐng)域為智能機器人操控.在應(yīng)用過程中,目前示教學(xué)習(xí)方法也遇到了很多問題,這包括:如何將示教學(xué)習(xí)算法在不同機器人之間進行遷移[39];如何采用更少量的專家決策數(shù)據(jù)來學(xué)得較好的反饋信號[40]等.此外,將示教學(xué)習(xí)方法應(yīng)用到更多的強化學(xué)習(xí)場景當(dāng)中也是我們未來的研究方向之一.