張政鋒 趙彬琦 單洪明 張軍平
強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)[1]常指智能體通過充當(dāng)交互接口的馬爾科夫決策過程(Markov Decision Process, MDP)[2]在真實(shí)環(huán)境學(xué)習(xí)最優(yōu)策略的序列決策問題.近年來(lái),結(jié)合深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大表征能力的深度強(qiáng)化學(xué)習(xí)(Deep RL)在MDP方面具備更好地描述復(fù)雜任務(wù)場(chǎng)景的能力.具體而言,基于交互接口MDP的智能體,深度強(qiáng)化學(xué)習(xí)在環(huán)境反饋中獲取交互經(jīng)驗(yàn),通過優(yōu)化基于期望回報(bào)的學(xué)習(xí)目標(biāo),獲得最優(yōu)策略.深度強(qiáng)化學(xué)習(xí)能為靈活多樣的任務(wù)場(chǎng)景提供以學(xué)習(xí)算法為主的解決方案,在棋類[3]、游戲[4]、核聚變[5]等多領(lǐng)域均形成突破性的進(jìn)展.
強(qiáng)化學(xué)習(xí)的主流分類方法以馬爾可夫決策過程為基礎(chǔ),以單智能體與多智能體為兩條主線,根據(jù)任務(wù)類型的難點(diǎn)所在劃分多樣的研究方向[6].例如,針對(duì)一些任務(wù)無(wú)法定義收益函數(shù)(Reward Function)的難點(diǎn),發(fā)展一系列的逆強(qiáng)化學(xué)習(xí)方法.這種主流分類方法有助于理論研究者集中精力解決某一核心難點(diǎn)并提供理論保證,但從一類技術(shù)方法本身出發(fā)探究其適用的問題,對(duì)應(yīng)用研究者而言顯得過于分散.而且現(xiàn)實(shí)場(chǎng)景總是夾雜多個(gè)難點(diǎn),側(cè)重于單一難點(diǎn)的技術(shù)方法在具體問題場(chǎng)景中的效果并不理想.因此,采用問題設(shè)定的分類法,以一個(gè)問題自身為驅(qū)動(dòng),將任務(wù)設(shè)定與解決方案追求的問題特性歸納為考量因素,能為強(qiáng)化學(xué)習(xí)的發(fā)展提供更統(tǒng)一的綜述視角.
具體而言,任務(wù)設(shè)定是對(duì)問題場(chǎng)景固有限制的描述,如該設(shè)定下動(dòng)作空間是離散或連續(xù)、環(huán)境是否具備重置回任一狀態(tài)的功能.而問題特性指在任務(wù)設(shè)定的限制下解決方案追求的特性,如有效性、安全性、靈活性等.例如,機(jī)器人領(lǐng)域的技術(shù)方法除了保證有效性以外,對(duì)安全性與實(shí)用性提出更高要求,而游戲領(lǐng)域更傾向于靈活性,如策略類型是選擇平穩(wěn)性或非平穩(wěn)性、是否顯式參數(shù)化策略函數(shù)等,并且解決方案追求問題特性的不同會(huì)顯著影響算法性能.因此,任務(wù)設(shè)定與問題特性是當(dāng)前眾多算法發(fā)展的根源性差異,這兩者統(tǒng)稱為問題設(shè)定,并以此為新的視角,可為強(qiáng)化學(xué)習(xí)的發(fā)展提供問題設(shè)定驅(qū)動(dòng)的研究綜述.
當(dāng)前深度強(qiáng)化學(xué)習(xí)方面的研究綜述主要圍繞在其特定研究分支的技術(shù)方法和與不同交叉領(lǐng)域的聯(lián)系上.具體地,高陽(yáng)等[7]介紹強(qiáng)化學(xué)習(xí)的基本原理與算法,分析多智能體相關(guān)算法.劉全等[8]從值函數(shù)、策略梯度、搜索與監(jiān)督的角度闡述當(dāng)前深度強(qiáng)化學(xué)習(xí)的主要方法,從分層、多任務(wù)、多智能體、記憶與推理四方面進(jìn)行梳理.孫世光等[9]綜述基于模型的強(qiáng)化學(xué)習(xí)在機(jī)器人場(chǎng)景下的具體模型與方法.Levine等[10]對(duì)離線強(qiáng)化學(xué)習(xí)進(jìn)行詳盡的研究綜述.Sutton等[1]具體介紹強(qiáng)化學(xué)習(xí)的起源、歷史、基礎(chǔ)技術(shù)和多學(xué)科領(lǐng)域的聯(lián)系,如心理學(xué)、神經(jīng)科學(xué)等.Bertsekas等[11]深刻揭示強(qiáng)化學(xué)習(xí)與最優(yōu)控制領(lǐng)域的內(nèi)在聯(lián)系.除此以外,還有眾多對(duì)強(qiáng)化學(xué)習(xí)特定分支的研究綜述,如分層強(qiáng)化學(xué)習(xí)[12]、元強(qiáng)化學(xué)習(xí)[13]等.
不同于先前綜述的分類方式,本文以問題設(shè)定(任務(wù)設(shè)定與問題特性)為視角,從智能體、任務(wù)、MDP、策略類型、學(xué)習(xí)目標(biāo)、交互模式六大設(shè)定對(duì)象挖掘強(qiáng)化學(xué)習(xí)不同研究方向的內(nèi)在關(guān)聯(lián)性,為應(yīng)用研究者提供更符合現(xiàn)實(shí)場(chǎng)景的綜述視角.整體而言,從問題特性和任務(wù)設(shè)定兩個(gè)因素,分析強(qiáng)化學(xué)習(xí)的核心挑戰(zhàn),再闡述問題設(shè)定的形式化定義,然后以基礎(chǔ)設(shè)定的變更為前提,深入分析不同算法的根源性差異,探討其特點(diǎn)、適用性及局限性,最后展望潛在的發(fā)展方向.
強(qiáng)化學(xué)習(xí)方法在不同設(shè)定下的有效性主要面臨兩大核心挑戰(zhàn):效用分配(Credit Assignment)和探索與利用(Exploration-Exploitation).其源于兩條相互交錯(cuò)的發(fā)展主線——最優(yōu)控制與試錯(cuò)學(xué)習(xí),分別受問題特性與任務(wù)設(shè)定的影響.最優(yōu)控制主要貢獻(xiàn)價(jià)值函數(shù)和貝爾曼方程用于效用分配,有“延遲收益”(Delayed Rewards)的特點(diǎn).試錯(cuò)學(xué)習(xí)主要貢獻(xiàn)策略搜索,在探索過程中有“試錯(cuò)(Trial-and-Error)”的特點(diǎn).
效用分配是關(guān)于如何將延遲的收益信號(hào)分配到恰當(dāng)狀態(tài)或狀態(tài)-動(dòng)作對(duì)上的挑戰(zhàn),有“延遲收益”的特點(diǎn),反映分配過程要達(dá)到何種“結(jié)果”,側(cè)重于問題特性.
早期,Minsky[14]提出效用分配的形式化定義,從時(shí)序與結(jié)構(gòu)化這兩個(gè)階段定義效用分配的基本MDP.1984年,Sutton[15]對(duì)表格型的任務(wù)設(shè)定進(jìn)行初步描述與研究,認(rèn)為由收益函數(shù)決定的價(jià)值函數(shù)是極其重要的,依據(jù)是價(jià)值函數(shù)決定了狀態(tài)-動(dòng)作對(duì)的長(zhǎng)期回報(bào),并為智能體的行為模式,即策略函數(shù),提供了決策依據(jù),起著“效用分配”的關(guān)鍵作用.因此,隱式評(píng)估策略價(jià)值函數(shù)的準(zhǔn)確估計(jì)是首要的,是算法有效性的主要研究思路,稱為策略評(píng)估(Policy Evaluation).這一核心觀點(diǎn)極大推動(dòng)基于價(jià)值的深度強(qiáng)化學(xué)習(xí)方法的發(fā)展,如使用蒙特卡洛或時(shí)序差分(Temporal Difference, TD)等方法估計(jì)價(jià)值函數(shù).該研究思路與最優(yōu)控制的基礎(chǔ)定義高度相似[11],在一定約束條件與效用函數(shù)下,規(guī)劃一種控制策略,使系統(tǒng)的某個(gè)性能指標(biāo)最大.早期強(qiáng)化學(xué)習(xí)對(duì)效用分配的研究結(jié)合最優(yōu)控制中的貝爾曼方程,精確求解最優(yōu)策略,適用于簡(jiǎn)單的表格型任務(wù).特別地,最優(yōu)控制方法更強(qiáng)調(diào)基于精確、已知的環(huán)境動(dòng)力學(xué)的規(guī)劃過程,而強(qiáng)化學(xué)習(xí)方法更注重從環(huán)境“交互”中的試錯(cuò)學(xué)習(xí)過程.
隨著2012年深度神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域以里程碑的形式出現(xiàn),其強(qiáng)大的表征能力進(jìn)一步擴(kuò)展隱式策略建模方法的應(yīng)用邊界.Mnih等[16]提出將深度神經(jīng)網(wǎng)絡(luò)與動(dòng)作價(jià)值函數(shù)(Q-value)結(jié)合的DQN(DeepQ-learning Network),應(yīng)用于具有高維連續(xù)狀態(tài)、離散動(dòng)作設(shè)定的雅塔利(Atari)游戲中.在未知環(huán)境動(dòng)力學(xué)、無(wú)人工設(shè)計(jì)特征的任務(wù)設(shè)定下,單憑交互過程中的試錯(cuò)學(xué)習(xí),首次驗(yàn)證方法在高維狀態(tài)空間下的有效性.2016年,AlphaGo[3]考慮問題特性中的效率性,在DQN的基礎(chǔ)上拓展任務(wù)設(shè)定,引入人類專家的示教數(shù)據(jù),結(jié)合蒙特卡洛搜索方法的控制策略,擊敗當(dāng)時(shí)的世界圍棋冠軍.后來(lái),值方法在不同問題特性的考量下開始持續(xù)發(fā)展.
隨后,Deepmind為了追求靈活性,在星際爭(zhēng)霸游戲[4]中引入自我博弈的訓(xùn)練機(jī)制.在商業(yè)上,成功落地的國(guó)內(nèi)騰訊公司的王者榮耀游戲AI[17]從策略魯棒性的角度引入聯(lián)盟訓(xùn)練(League Training).這些重大進(jìn)展得益于游戲虛擬環(huán)境中訓(xùn)練樣本低廉的獲取方式.例如,王者榮耀游戲AI訓(xùn)練的基本資源單位需要用到320塊GPU和35 000個(gè)CPU核,所需樣本達(dá)到千萬(wàn)級(jí)別.然而,上述方法具有一定的局限性,在機(jī)器人領(lǐng)域面臨高樣本復(fù)雜度的難題.2018年,為了完成機(jī)械臂通過攝像頭進(jìn)行感知的抓取任務(wù)[18],大約需要58萬(wàn)次現(xiàn)實(shí)抓取的訓(xùn)練,智能體才能獲取具有96%成功率的抓取策略,這在現(xiàn)實(shí)世界中對(duì)機(jī)械造成的耗損是難以接受的.
繼而,現(xiàn)實(shí)任務(wù)場(chǎng)景對(duì)強(qiáng)化學(xué)習(xí)方法的實(shí)用性提出更高要求.在資源調(diào)度領(lǐng)域,2019年,滴滴出行公司利用值估計(jì)的諸多技術(shù),如平滑版本的n步收益裁剪[19],成功在訂單調(diào)度的現(xiàn)實(shí)任務(wù)上落地基于深度值網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)方法,在諸如最大化司機(jī)回報(bào)、訂單響應(yīng)時(shí)間等多項(xiàng)系統(tǒng)指標(biāo)上超越原有產(chǎn)品的基線.在機(jī)器人領(lǐng)域,伯克利的AI研究中心采用從虛擬到現(xiàn)實(shí)的研究思路,利用更準(zhǔn)確的價(jià)值估計(jì)算法——REDQ(Randomized Ensemble DoubleQ-learning)[20],在2021年以數(shù)萬(wàn)現(xiàn)實(shí)樣本的代價(jià)實(shí)現(xiàn)四足機(jī)械狗在不同現(xiàn)實(shí)場(chǎng)景中的高質(zhì)量走動(dòng)[21].
探索與利用是關(guān)于智能體如何從環(huán)境中高效收集與任務(wù)目標(biāo)相關(guān)的收益信號(hào)的挑戰(zhàn),有“試錯(cuò)”的特點(diǎn),反映如何找到效用分配過程要達(dá)到的“結(jié)果”,受任務(wù)設(shè)定的影響.早期,關(guān)于試錯(cuò)學(xué)習(xí)(Trial-and-Error Learning)的概念源于動(dòng)物學(xué)習(xí)心理學(xué)領(lǐng)域,Thorndike[22]提出的“效應(yīng)定律(Law of Effect)”,簡(jiǎn)明扼要地表明試錯(cuò)學(xué)習(xí)的本質(zhì)是一種學(xué)習(xí)原則,并通過貓?zhí)用撓渥訉?shí)驗(yàn)中的本能行為,驗(yàn)證強(qiáng)化物(Reinforcement)對(duì)決策行為傾向性的影響.直觀而言,貓的本能沖動(dòng)產(chǎn)生試錯(cuò)行為(Exploratory Behavior),引出逃脫箱子的行為結(jié)果,通過某種方式連接行為的決策機(jī)理,驗(yàn)證試錯(cuò)行為的可學(xué)習(xí)性.1958年,Skinner[23]發(fā)表關(guān)于強(qiáng)化鴿子喙擊木球這一行為模式的實(shí)驗(yàn),揭示另一種學(xué)習(xí)原則,即“持續(xù)不斷對(duì)理想行為模式進(jìn)行強(qiáng)化可塑造行為的結(jié)果”.這類早期研究揭示智能體在某類強(qiáng)化物的刺激下會(huì)產(chǎn)生試探性行為,并從中學(xué)習(xí)理想行為模式的原則.
經(jīng)過計(jì)算術(shù)語(yǔ)的轉(zhuǎn)換,上述研究觀點(diǎn)成為顯示策略建模的強(qiáng)化學(xué)習(xí)方法背后的動(dòng)機(jī)與原理.具體地,將策略指代為智能體當(dāng)前的行為模式,探索視為智能體試探性的行為模式,利用視為智能體經(jīng)過試錯(cuò)經(jīng)驗(yàn)的學(xué)習(xí)過程后的行為模式,最優(yōu)策略指代完成任務(wù)的理想行為模式.
探索與利用中最簡(jiǎn)化的任務(wù)設(shè)定可追溯到1933年只有一個(gè)狀態(tài)的多臂老虎機(jī)問題(Multi-armed Bandits)[24].圍繞著如何平衡探索與利用能使總體回報(bào)最大這一主題,經(jīng)過數(shù)十年研究,已擁有相對(duì)成熟的研究體系.然而,多臂老虎機(jī)的序列長(zhǎng)度為1,而強(qiáng)化學(xué)習(xí)是一個(gè)序列決策問題.在任務(wù)設(shè)定上,新增的序列特性意味著智能體需要學(xué)會(huì)忍受短期損失以換取長(zhǎng)期回報(bào)的策略.
面對(duì)低維離散的任務(wù)設(shè)定,1990年,Sutton[25]提出解決隨機(jī)游走問題的玻爾茲曼分布,其中的溫度系數(shù)充當(dāng)調(diào)節(jié)探索與利用之間平衡的作用.1992年,Williams[26]提出第一個(gè)基于策略梯度進(jìn)行搜索的方法REINFORCE,引入新的設(shè)定對(duì)象——顯式構(gòu)建策略函數(shù),調(diào)節(jié)訓(xùn)練過程中動(dòng)作噪聲的大小以平衡探索與利用.近年來(lái),Haarnoja等[27]提出SAC(Soft Actor Critic),調(diào)節(jié)策略目標(biāo)中以信息熵為代表的隨機(jī)性以平衡兩者之間的關(guān)系,將探索的有效性擴(kuò)展到高維連續(xù)的任務(wù)設(shè)定類型上.考慮到設(shè)定中隨機(jī)初始條件與稀疏收益信號(hào)導(dǎo)致的低探索效率,Le Paine等[28]提出R2D3(Recurrent Relay Dis-tributed DQN from Demonstrations),在半交互的任務(wù)設(shè)定下展開對(duì)專家數(shù)據(jù)輔助探索的研究,改善樣本復(fù)雜度.相反地,離線強(qiáng)化學(xué)習(xí)為了避免高昂的探索成本,在零交互的設(shè)定上研究效用分配的問題,盡管其問題設(shè)定的更改決定算法性能的理論上限,卻大幅增強(qiáng)相關(guān)方法的實(shí)用性.
盡管探索方法因任務(wù)設(shè)定而截然不同,但尋求盡可能有效、可泛化的探索原則是當(dāng)今這類研究的主要方向.2021年,Ecoffet等[29]提出Go-Explore,揭示“返回可能存在高收益的情景,再進(jìn)行隨機(jī)性試探”的簡(jiǎn)單探索原則,大幅提高探索效率.此外,還有反映智能體內(nèi)在行為動(dòng)機(jī)(Intrinsic Motivation)以量化狀態(tài)-動(dòng)作空間的探索進(jìn)度(Space Coverage)、樂觀看待探索的不確定性和基于信息增益進(jìn)行決策等探索原則[30].
強(qiáng)化學(xué)習(xí)問題主要有3個(gè)實(shí)體對(duì)象:智能體、MDP、環(huán)境.具體地,智能體有策略、價(jià)值和交互經(jīng)驗(yàn)池這3個(gè)基礎(chǔ)對(duì)象.智能體與環(huán)境的交互接口MDP包含狀態(tài)、動(dòng)作、收益、環(huán)境動(dòng)力學(xué)、折扣因子這5個(gè)元素,用于準(zhǔn)確描述環(huán)境中的任務(wù).具體關(guān)系圖如圖1所示.
圖1 強(qiáng)化學(xué)習(xí)問題的關(guān)系圖
強(qiáng)化學(xué)習(xí)問題的MDP定義為
M=(S,A,R,P,γ).
首先,使用離散的時(shí)間序列[2]描述MDP,時(shí)間變量為t,幕(Episode)的長(zhǎng)度為T;在每個(gè)時(shí)間刻t∈T,智能體接收用于描述環(huán)境觀測(cè)的狀態(tài)變量為St,其值s來(lái)自MDP中的狀態(tài)空間S,At表示動(dòng)作變量,其值a來(lái)自MDP中的動(dòng)作空間A,策略為π(At|St).然后,定義P為環(huán)境動(dòng)力學(xué)的函數(shù)集合,R為收益函數(shù)集合,環(huán)境動(dòng)力學(xué)為P(St+1|St,At),其中P∈P,返回下一狀態(tài)值s′及收益信號(hào)R(St,At,St+1),簡(jiǎn)記為Rt,R∈R.當(dāng)智能體碰到終止?fàn)顟B(tài)ST,將軌跡形式的樣本
τ=(S0,A0,R0,…,ST-1,AT-1,RT-1,ST)
放入交互經(jīng)驗(yàn)池.最后,引入折扣因子γ對(duì)長(zhǎng)遠(yuǎn)的收益進(jìn)行折現(xiàn).
不失一般性,MDP可簡(jiǎn)化為M=(S,A,R,P,γ),其中,R為R中某個(gè)確定性的收益函數(shù),P為P中某個(gè)確定的動(dòng)力學(xué)函數(shù).繼而限定收益函數(shù)的有界性R∶S×A×S→[0,1],序列特性的有界性γ∈[0,1].為了表述的簡(jiǎn)潔性,使用st,at,rt,r等同于對(duì)應(yīng)的變量表述St,At,Rt,R.進(jìn)一步在M上定義策略函數(shù)的集合
Π={π|π∶S→A},
其中,確定性的策略表述為π(st),隨機(jī)性的策略為π(at|st),非平穩(wěn)的策略為π(at|st,t).
一條軌跡的回報(bào)Gt為收益的累積和:
在策略π與動(dòng)力學(xué)P產(chǎn)生的所有可能軌跡下求取期望回報(bào),定義狀態(tài)價(jià)值函數(shù)Vπ(s)、動(dòng)作價(jià)值函數(shù)Qπ(s,a)如下:
記初始狀態(tài)分布為μ(s0),從而定義關(guān)于期望回報(bào)的學(xué)習(xí)目標(biāo):
J(π)=Es~μ(s0)[Vπ(s)]=
Es~μ(s0),a~π[Qπ(s,a)].
(1)
因此,強(qiáng)化學(xué)習(xí)算法根據(jù)期望回報(bào)最大化的學(xué)習(xí)目標(biāo),在策略集合Π中搜索最優(yōu)策略:
智能體、MDP、環(huán)境在不同任務(wù)場(chǎng)景下,追求的問題特性與建模的任務(wù)設(shè)定往往側(cè)重點(diǎn)不同,影響著深度強(qiáng)化學(xué)習(xí)算法的發(fā)展.本節(jié)詳細(xì)敘述問題設(shè)定視角下,強(qiáng)化學(xué)習(xí)方法的理論發(fā)展與技術(shù)方法的進(jìn)展.
分別表示智能體空間、任務(wù)分布、MDP、策略類型、學(xué)習(xí)目標(biāo)、環(huán)境交互模式這6大設(shè)定對(duì)象.
M=(S,A,R,P,γ).
在交互框架M的基礎(chǔ)上,根據(jù)具體場(chǎng)景選擇使用θ參數(shù)化的策略類型,如顯式建模、隨機(jī)且平穩(wěn)的策略函數(shù)∶=πθ(·|s).
然后,使用恰當(dāng)?shù)膶W(xué)習(xí)目標(biāo)表征最優(yōu)策略的性能,如最大化期望回報(bào)
圖2 問題設(shè)定框架
然而,強(qiáng)化學(xué)習(xí)問題設(shè)定的豐富性主要集中在MDP與策略類型,具體如圖3所示.
圖3 MDP與策略類型的設(shè)定
馬爾可夫決策過程M=(S,A,R,P,γ)可描述如下.
1)狀態(tài)是環(huán)境系統(tǒng)內(nèi)部信息的準(zhǔn)確表征,智能體決策理應(yīng)與歷史信息相關(guān),即π(at|s0,…,st-1,st),但出于簡(jiǎn)化序列決策問題的目的,狀態(tài)空間有馬爾可夫性假設(shè),使智能體的決策只依賴于當(dāng)前狀態(tài)而與過去無(wú)關(guān),即π(at|st).一般而言,狀態(tài)空間由維度與取值類型這兩個(gè)角度進(jìn)行描述,分別為高維或低維、離散或連續(xù)或混雜.
2)動(dòng)作由任務(wù)特性所決定,是環(huán)境控制量的準(zhǔn)確表述,維度和取值類型與狀態(tài)空間類似.
3)收益函數(shù)依據(jù)某類“強(qiáng)化物”而設(shè)計(jì),是相關(guān)任務(wù)結(jié)果的反饋信號(hào),直接關(guān)乎任務(wù)在策略集合Π中對(duì)應(yīng)的最優(yōu)策略子集.
4)環(huán)境動(dòng)力學(xué)是環(huán)境內(nèi)部動(dòng)態(tài)過程響應(yīng)的描述,類型有確定性P(st,at)與隨機(jī)性P(st+1|st,at).環(huán)境動(dòng)力學(xué)默認(rèn)是未知的,而環(huán)境動(dòng)力學(xué)已知的設(shè)定被稱為環(huán)境完備性假設(shè).
特別地,MDP內(nèi)的5個(gè)元素與序列相關(guān)是符合任務(wù)場(chǎng)景描述的,如收益函數(shù)r(st,at,st+1,t)或環(huán)境動(dòng)力學(xué)P(st+1|st,at,t),但與序列相關(guān)的特性會(huì)增加MDP的復(fù)雜度.因此出于簡(jiǎn)化任務(wù)場(chǎng)景的目的,稱MDP內(nèi)的元素與序列特性無(wú)關(guān)為MDP平穩(wěn)性假設(shè).故最簡(jiǎn)MDP定義為M′,主要設(shè)定值如下.
1)假設(shè):MDP平穩(wěn)性假設(shè)、馬爾可夫假設(shè).
2)狀態(tài)與動(dòng)作空間:低維離散,由此構(gòu)建的MDP也稱為表格型MDP(Tabular MDP).
3)收益函數(shù):已知、確定且有界r∈[0,1].
4)環(huán)境動(dòng)力學(xué): 未知,即無(wú)環(huán)境完備性假設(shè).
5)序列特性: 采用離散時(shí)間、無(wú)限幕的表述,即T→∞,折扣因子γ∈[0,1),從而確保價(jià)值函數(shù)的有界性,即
顯式建模直接參數(shù)化策略a=πθ(·|s),優(yōu)點(diǎn)在于可根據(jù)任務(wù)場(chǎng)景設(shè)計(jì)策略結(jié)構(gòu),確保策略函數(shù)的表達(dá)能力.確定策略建模方式后,可選擇確定性πθ(s)或隨機(jī)性πθ(·|s)的策略類型逼近真實(shí)的最優(yōu)策略π*.最后,考慮策略函數(shù)與序列特性的關(guān)系,稱策略與時(shí)間無(wú)關(guān)為策略平穩(wěn)性假設(shè).因此,顯式建模、隨機(jī)且非平穩(wěn)的策略類型可形式化表述為
:=πθ(·|s,t).
:
標(biāo)識(shí)最優(yōu)策略,其策略行為在學(xué)習(xí)目標(biāo)的數(shù)值上是最優(yōu)的.然而,期望回報(bào)最大化并不一定滿足某類行為特性的要求,如魯棒性、安全性,或契合人類專家的理想行為模式.
表1 交互模式
特別地,表1中的交互模式按智能體與環(huán)境的交互成本依次遞增.當(dāng)環(huán)境是完備、已知的,智能體與環(huán)境的交互成本幾乎為零.而均勻交互在設(shè)定上引入未知的環(huán)境動(dòng)力學(xué),但“均勻”的交互模式在很大程度上為智能體提供便捷的方式,收集高收益的狀態(tài)-動(dòng)作對(duì),更好地評(píng)估策略在整個(gè)狀態(tài)動(dòng)作空間的性能.μ-重置交互打破“均勻”的交互模式,為了搜索最優(yōu)策略,智能體必須付出額外的交互成本探索整個(gè)狀態(tài)動(dòng)作空間,確保最終策略的全局最優(yōu)性.然而,最優(yōu)策略并不一定會(huì)遍歷整個(gè)狀態(tài)動(dòng)作空間,因此專家交互模式為智能體提供引導(dǎo),在局部狀態(tài)動(dòng)作空間內(nèi)搜索最優(yōu)策略,有效降低和改善樣本復(fù)雜度.
值得注意的是,貝爾曼方程作為強(qiáng)化學(xué)習(xí)的理論基石,有效性主要建立在基礎(chǔ)的問題設(shè)定上,即單一智能體=1,單一任務(wù)=1,最簡(jiǎn)MDP為M=M′,隱式建模確定且平穩(wěn)的策略類型
:
期望回報(bào)最大化的學(xué)習(xí)目標(biāo)
:
表2 基礎(chǔ)設(shè)定的形式化定義
強(qiáng)化學(xué)習(xí)最終目的是獲取一個(gè)策略函數(shù),該策略是否被顯式參數(shù)化建模,是深入探討基礎(chǔ)設(shè)定下理論與技術(shù)發(fā)展的分類依據(jù).
3.2.1隱式策略建模的理論發(fā)展
在基礎(chǔ)設(shè)定中,強(qiáng)化學(xué)習(xí)問題可使用經(jīng)典動(dòng)態(tài)規(guī)劃算法,如價(jià)值迭代(Value Iteration)[1],求得關(guān)于策略價(jià)值的精確解.具體而言,在離散狀態(tài)動(dòng)作空間下,利用貝爾曼最優(yōu)算子B對(duì)表格型Q函數(shù)進(jìn)行迭代,即
Q(n+1)←BQ(n),
經(jīng)過一定步數(shù)后,可得最優(yōu)Q函數(shù),即
Q(n)→Q*,n→∞.
該設(shè)定的特點(diǎn)為,已知環(huán)境動(dòng)力學(xué)且在整個(gè)狀態(tài)動(dòng)作空間更新Q值函數(shù).除了價(jià)值迭代,還有基于Q值的策略迭代算法(Policy Iteration)[2],利用貝爾曼一致性算子T對(duì)當(dāng)前策略πk進(jìn)行策略評(píng)估,即
Q(n+1)←TQ(n),
得到Qπk,然后從Q值函數(shù)中進(jìn)行策略改進(jìn),即
πk+1←arg maxQπk.
盡管該設(shè)定下的經(jīng)典算法并未體現(xiàn)強(qiáng)化學(xué)習(xí)的“交互”特性,但為后續(xù)理論提供基礎(chǔ)的分析思路,如收斂速度、計(jì)算復(fù)雜度等性能分析.
O(|S||A|ln|S||A|).
這決定相關(guān)算法在該設(shè)定下樣本復(fù)雜度的理論上限.
變更基礎(chǔ)設(shè)定中的交互模式為μ-重置交互:=I3,即環(huán)境只支持重置回初始狀態(tài)分布上,稱為基礎(chǔ)重置交互.相比均勻交互,該設(shè)定下的智能體需要制定探索策略,付出額外的努力去獲取新的狀態(tài)-動(dòng)作對(duì)樣本,以保證有足夠的樣本量覆蓋整個(gè)狀態(tài)動(dòng)作空間.例如,探索策略為UCB(Upper Confidence Bound)的價(jià)值迭代算法UCB-VI[32],通過維持歷史交互經(jīng)驗(yàn)中關(guān)于狀態(tài)-動(dòng)作對(duì)的統(tǒng)計(jì)量,對(duì)新穎的狀態(tài)-動(dòng)作施加額外的獎(jiǎng)勵(lì)(Bonus),鼓勵(lì)智能體的探索朝向潛在的高收益狀態(tài).在根本上不同的交互設(shè)定決定樣本復(fù)雜度的下界.
上述理論發(fā)展僅與問題設(shè)定中交互模式變更有關(guān).進(jìn)一步地,在基礎(chǔ)均勻交互設(shè)定下,將最簡(jiǎn)MDP中的離散狀態(tài)空間擴(kuò)展到連續(xù)狀態(tài)空間,于是表格型的表示便不足以精確表達(dá)Q值函數(shù).因此,需要尋求Q值函數(shù)的近似表示,這從根本上引入函數(shù)的近似誤差(Approximation Error).為了分析該誤差,需要施加線性貝爾曼完備假設(shè)(Linear Bellman Completion).首先假定關(guān)于Q值的函數(shù)集合為
可由專家設(shè)計(jì)的d維特征φ(s,a)∈Rd和參數(shù)向量θ∈Rd進(jìn)行線性表示:
Q(s,a):=θTφ(s,a),Q∈F.
其次是可行性假設(shè)(Realizability Assumption),假設(shè)關(guān)于任務(wù)真實(shí)的最優(yōu)Q值函數(shù)存在該函數(shù)集合中,即Q*∈F.然后,確保函數(shù)在貝爾曼最優(yōu)算子B迭代后,仍處于函數(shù)集合內(nèi),即BQ∈F.然而,最優(yōu)算子的迭代過程
由此,相關(guān)理論分析可設(shè)計(jì)盡可能滿足這些假設(shè)的強(qiáng)化學(xué)習(xí)算法,如非平穩(wěn)策略的LSVI(Least Square Value Iteration)[33].
進(jìn)一步地,可將線性表示擴(kuò)展到非線性表示,如神經(jīng)網(wǎng)絡(luò),以涵蓋表達(dá)能力更強(qiáng)的Q值函數(shù).類似地,理論分析需要最優(yōu)Q值函數(shù)在非線性表示中的可行性假設(shè)、在貝爾曼最優(yōu)算子迭代中的完備性假設(shè)及采樣數(shù)據(jù)的分布假設(shè).由此設(shè)計(jì)的算法,如FQI(FittedQ-iteration)[34],可視為分析深度強(qiáng)化學(xué)習(xí)算法DQN的理論基礎(chǔ).因此,狀態(tài)動(dòng)作空間從離散到連續(xù)的設(shè)定擴(kuò)展要求函數(shù)的近似表示.這必須施加函數(shù)表示的可行性假設(shè)、算子迭代的完備性假設(shè)等,才能從理論上使誤差可控,提供該問題設(shè)定下關(guān)于樣本復(fù)雜度的理論分析,為算法的有效性提供堅(jiān)實(shí)基礎(chǔ).
為符合現(xiàn)實(shí)任務(wù)場(chǎng)景的問題設(shè)定,將基礎(chǔ)重置交互中的最簡(jiǎn)MDP變更為連續(xù)的狀態(tài)空間.此時(shí),既要考慮Q值函數(shù)的近似誤差,又要權(quán)衡策略在高維連續(xù)狀態(tài)空間上的探索進(jìn)度.為此,不僅樣本復(fù)雜度的上下界應(yīng)盡量避免與狀態(tài)空間的規(guī)模相關(guān),而且還要對(duì)環(huán)境的動(dòng)力學(xué)P(s′|s,a)進(jìn)行相關(guān)結(jié)構(gòu)假設(shè),以便更好量化策略的探索進(jìn)度.于是,該問題設(shè)定下理論探討增添一個(gè)額外的核心問題——如何施加最小程度的環(huán)境結(jié)構(gòu)假設(shè),找到低樣本復(fù)雜度的最優(yōu)策略.
目前的理論研究主要依賴于Bellman Rank[35]和Eluder Dimension[36]這兩種對(duì)結(jié)構(gòu)復(fù)雜度的測(cè)量工具.當(dāng)它們較低時(shí),理論保證能以高樣本效率搜索到鄰近的最優(yōu)策略.因此,以相關(guān)理論為基礎(chǔ)結(jié)合深度模型的設(shè)計(jì),盡可能滿足相關(guān)的假設(shè),有利于保障相關(guān)算法的有效性.
3.2.2顯式策略建模的理論發(fā)展
直接建模策略函數(shù)能根據(jù)問題特性設(shè)計(jì)策略結(jié)構(gòu),增強(qiáng)策略的表達(dá)能力,其與基礎(chǔ)設(shè)定的主要不同在于μ-重置交互模式.
類似地,策略函數(shù)在離散狀態(tài)動(dòng)作空間下為表格型.當(dāng)擴(kuò)展到連續(xù)的狀態(tài)動(dòng)作空間后,策略函數(shù)有線性表示或非線性表示.例如,顯式建模一個(gè)隨機(jī)且平穩(wěn)的策略函數(shù),可采用神經(jīng)網(wǎng)絡(luò)fθ(s,a)作為非線性表示,Softmax為滿足隨機(jī)且平穩(wěn)的策略結(jié)構(gòu):
然而,該問題設(shè)定下相關(guān)算法分析與隱式策略建模截然不同,需要分析策略的收斂特性[37]而不是策略的價(jià)值函數(shù).
策略函數(shù)的優(yōu)化目標(biāo)(式(1))是非凸的,在理論分析其收斂性時(shí),需要界定優(yōu)化方法中關(guān)于策略梯度的步長(zhǎng),并且對(duì)不同形式的梯度施加相關(guān)假設(shè),如平滑性假設(shè)、近似假設(shè)等,以保證策略在優(yōu)化算法下能收斂于全局最優(yōu)點(diǎn).
基于表格型策略、Softmax策略結(jié)構(gòu)及一定條件,策略梯度算法的收斂點(diǎn)正好對(duì)應(yīng)于全局最優(yōu)策略,但收斂速度卻與狀態(tài)空間的規(guī)模呈指數(shù)級(jí)衰減.為此,相關(guān)研究從策略目標(biāo)上施加正則化項(xiàng),如信息熵(Entropy)、對(duì)數(shù)屏障(Log Barrier)等[38],緩解收斂速度較慢的問題.
進(jìn)一步地,除了參數(shù)空間上的梯度優(yōu)化,還可在策略空間上進(jìn)行優(yōu)化,如自然梯度算法NPG(Na-tural Policy Gradient)[39].關(guān)于問題設(shè)定中的策略類型,不僅局限于表格型,還可延伸到線性、甚至于非線性表示,如Q-NPG[40].或?qū)ふ腋€(wěn)健的梯度優(yōu)化方式,如信賴域約束下的策略梯度算法TRPO(Trust Region Policy Optimization)[41].
在估計(jì)目標(biāo)梯度中,可借鑒基于動(dòng)態(tài)規(guī)劃的值估計(jì)方法,從而延伸執(zhí)行者-評(píng)估者的算法框架(Actor-Critic, AC)[42],視為廣義策略迭代(Genera-lized Policy Iteration, GPI)[1]的特殊形式.這是顯式策略建模下最重要的理論成果.具體而言,GPI主要分為策略評(píng)估與策略改進(jìn).策略評(píng)估對(duì)當(dāng)前策略進(jìn)行價(jià)值評(píng)估,返回價(jià)值函數(shù),是一個(gè)關(guān)于策略性能好壞的預(yù)測(cè)問題.而策略改進(jìn)利用預(yù)測(cè)的價(jià)值函數(shù),以某種方式改進(jìn)策略,是一個(gè)關(guān)于如何讓當(dāng)前策略往更大期望回報(bào)的方向進(jìn)行更新的控制問題.在一定條件下,經(jīng)過不斷循環(huán)策略評(píng)估、策略改進(jìn)過程,GPI確保策略、價(jià)值函數(shù)分別能逐漸收斂到最優(yōu)策略與最優(yōu)價(jià)值函數(shù).由此,GPI提供統(tǒng)一的理論視角以看待強(qiáng)化學(xué)習(xí)算法.例如:基于價(jià)值的策略迭代算法可看作策略評(píng)估環(huán)節(jié)為貝爾曼一致算子,策略改進(jìn)環(huán)節(jié)為貪心方式;對(duì)于基于策略梯度的強(qiáng)化學(xué)習(xí)算法,策略評(píng)估環(huán)節(jié)為梯度的近似估計(jì) (Gradient Estimation),策略改進(jìn)環(huán)節(jié)為隨機(jī)梯度優(yōu)化方法.
3.3.1 強(qiáng)化學(xué)習(xí)交互流程
強(qiáng)化學(xué)習(xí)方法的基本交互流程如圖4所示.首先,智能體與MDP交互,MDP的設(shè)定決定智能體內(nèi)的價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò).其次,歷史信息以軌跡樣本的形式
τ=(s0,a0,r0,…,sT-1,aT-1,rT-1,sT)
圖4 強(qiáng)化學(xué)習(xí)的基本交互流程圖
或轉(zhuǎn)移樣本(Transitions)的形式(s,a,r,s′),存儲(chǔ)進(jìn)交互經(jīng)驗(yàn)池.隨后,智能體利用價(jià)值網(wǎng)絡(luò)與交互經(jīng)驗(yàn)池中的數(shù)據(jù)進(jìn)行策略評(píng)估,根據(jù)價(jià)值目標(biāo)在優(yōu)化器下對(duì)當(dāng)前策略的價(jià)值進(jìn)行預(yù)測(cè).接著,策略網(wǎng)絡(luò)利用預(yù)測(cè)的價(jià)值函數(shù)進(jìn)行策略改進(jìn),策略目標(biāo)在優(yōu)化器下指導(dǎo)最優(yōu)策略的搜索.最后,價(jià)值目標(biāo)和策略目標(biāo)是策略評(píng)估與策略改進(jìn)的核心.另外,價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)不同的表示、結(jié)構(gòu)、數(shù)據(jù)正則化都會(huì)影響策略的最終性能.
3.3.2隱式策略建模的技術(shù)方法
隱式策略建模下的強(qiáng)化學(xué)習(xí)方法的側(cè)重點(diǎn)在策略評(píng)估環(huán)節(jié),是對(duì)評(píng)估策略的價(jià)值函數(shù)進(jìn)行參數(shù)化建模,利用交互經(jīng)驗(yàn)對(duì)價(jià)值函數(shù)進(jìn)行準(zhǔn)確估計(jì),解決關(guān)于策略的價(jià)值函數(shù)的預(yù)測(cè)問題.
價(jià)值函數(shù)是關(guān)于長(zhǎng)期回報(bào)的期望,對(duì)期望估計(jì)最直接的方法為蒙特卡洛采樣方法(Monte-Carlo Methods, MC).從初始狀態(tài)分布μ出發(fā),根據(jù)當(dāng)前策略π與環(huán)境交互,直到達(dá)到終止?fàn)顟B(tài),得到粒度為軌跡形式的交互樣本.具體而言,計(jì)算軌跡長(zhǎng)期回報(bào)Gt,以
Q(st,at)←Q(st,at)+α(Gt-Q(st,at))
的方式近似價(jià)值函數(shù)Qπ(s,a).根據(jù)大數(shù)定律,在足夠多的軌跡樣本下,MC能漸進(jìn)收斂于真實(shí)的價(jià)值函數(shù).該方法的優(yōu)點(diǎn)是,在期望意義下無(wú)偏差,有利于估計(jì)狀態(tài)子空間的價(jià)值.相反地,缺點(diǎn)為方差較大、難以收斂,當(dāng)狀態(tài)空間龐大時(shí),要求大量的軌跡樣本,而且理論的收斂性要求在均勻交互模式的問題設(shè)定下,才能評(píng)估整個(gè)狀態(tài)空間的價(jià)值.
為了應(yīng)對(duì)μ-重置交互模式的特點(diǎn)——權(quán)衡策略的探索進(jìn)度,以及緩解MC高方差的問題,研究者開始研究時(shí)序差分(TD).最早被稱為TD(0)的時(shí)序差分估計(jì)法[1]通過自舉(Bootstrapping)價(jià)值函數(shù)估計(jì)當(dāng)前的價(jià)值,避免以軌跡為粒度的交互樣本,可用轉(zhuǎn)移樣本(st,at,rt,st+1,at+1)對(duì)價(jià)值函數(shù)進(jìn)行更新,如
Q(st,at)←
Q(st,at)+α(rt+γQ(st+1,at+1)-Q(st,at)).
但是,自舉在價(jià)值預(yù)測(cè)時(shí)引入偏差.自舉的估計(jì)方式在最簡(jiǎn)MDP的問題設(shè)定、廣義線性表示價(jià)值函數(shù)的條件下,有嚴(yán)格漸近收斂于真實(shí)值的理論保證.
出于探索目的,根據(jù)價(jià)值估計(jì)使用的交互樣本,將策略區(qū)分成同軌策略(On-Policy)與異軌策略(Off-Policy).具體而言,同軌策略指策略評(píng)估過程中的軌跡樣本僅來(lái)自當(dāng)前的待評(píng)估策略,而異軌策略指用于評(píng)估當(dāng)前策略的軌跡樣本可能來(lái)自其它策略的交互過程.值得注意的是,異軌的值估計(jì)方法與基本理論框架GPI在策略評(píng)估環(huán)節(jié)有微小差異.因此,為了糾正使用異軌策略交互數(shù)據(jù)估計(jì)當(dāng)前策略梯度而引起的偏差,Glynn等[43]提出重要性采樣(Impor-tance Sampling)糾正異軌交互數(shù)據(jù)的方法.總之,TD雖然克服MC高方差的特點(diǎn),卻在策略評(píng)估中引入偏差,而偏差會(huì)因策略改進(jìn)環(huán)節(jié)的利用而不斷累積,在某些場(chǎng)景下的累積偏差會(huì)導(dǎo)致非常差的策略性能.
為了更好地平衡價(jià)值函數(shù)中的偏差與方差,后續(xù)研究發(fā)展出融合MC與TD的n步自舉法(n-step Bootstrapping),并結(jié)合資格跡(Eligibility Trace)形成統(tǒng)一的價(jià)值估計(jì)框架TD(λ)[1].具體來(lái)說(shuō),其將交互樣本粒度為一個(gè)完整軌跡的MC和單個(gè)時(shí)刻的TD,融入n個(gè)時(shí)刻.特別地,n步自舉法可結(jié)合用于緩解偏差的雙Q學(xué)習(xí),或用于糾正偏差的重要性采樣和樹回溯等方法.雖然增加一定的計(jì)算量,但可用資格跡進(jìn)行內(nèi)存與計(jì)算量的優(yōu)化.2018年,由De Asis等[44]推廣上述MC、TD、n步自舉、回溯等方法,提出一個(gè)統(tǒng)一的價(jià)值估計(jì)方法Q(σ).
上述的MC、TD、n步自舉方法大多在表格型MDP的問題設(shè)定下,有嚴(yán)格的理論收斂性保證,但在應(yīng)用深度神經(jīng)網(wǎng)絡(luò)作為非線性表示以近似復(fù)雜場(chǎng)景的MDP時(shí),并無(wú)嚴(yán)謹(jǐn)?shù)睦碚撟C明,但仍能通過基礎(chǔ)的理論分析,設(shè)計(jì)與解決使用深度網(wǎng)絡(luò)進(jìn)行價(jià)值近似中遇到的問題.
最初,Mnih等[16]提出利用卷積神經(jīng)網(wǎng)絡(luò)建模Q值的DQN,隨后在DQN基礎(chǔ)上使用雙Q學(xué)習(xí)技巧以穩(wěn)定訓(xùn)練過程,提出Double DQN[45].Hausknecht等[46]使用循環(huán)神經(jīng)網(wǎng)絡(luò)滿足問題設(shè)定中關(guān)于狀態(tài)的一階馬爾可夫假設(shè),提出DRQN(Deep RecurrentQ-learning Network).Igl等[47]從關(guān)于環(huán)境動(dòng)力學(xué)模型的生成式角度,提出DVRL(Deep Variational RL).
從價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),Wang等[48]選擇建模優(yōu)勢(shì)函數(shù)以降低價(jià)值估計(jì)的方差,提出Dueling DQN.Bellmare等[49]與Dabney等[50]選擇建模期望回報(bào)的價(jià)值分布,即Q值分布,分別提出C51(Categorical DQN)和QR-DQN(Quantile Regression DQN).特別地,Zahavy等[51]額外構(gòu)建低價(jià)值動(dòng)作的過濾網(wǎng)絡(luò),過濾不理想的動(dòng)作,提出AE-DQN(Action Elimina-tion).
從探索特性出發(fā),Osband等[52]基于Q值函數(shù)的不確定性角度,提出Bootstrapped DQN,指導(dǎo)智能體探索.Fortunato等[53]通過擾動(dòng)網(wǎng)絡(luò)層參數(shù)的方式,提出適應(yīng)深度網(wǎng)絡(luò)探索方法的Noisy DQN.Hessel等[54]結(jié)合優(yōu)先經(jīng)驗(yàn)池回放PER(Prioritized Experience Replay)、n步自舉值估計(jì)、建模價(jià)值分布等眾多技巧,提出Rainbow DQN,深入分析這些網(wǎng)絡(luò)訓(xùn)練技巧的作用.
在理論上,DQN存在對(duì)價(jià)值的預(yù)測(cè)具有過高估計(jì)偏差(Overestimation Bias)的問題.Lee等[56]從偏差的角度,通過為目標(biāo)Q值增加糾正項(xiàng),緩解該問題.特別地,van Hasselt等[57]進(jìn)一步分析函數(shù)近似表示、自舉、異軌策略學(xué)習(xí)這致命三元素(Deadly Triad)對(duì)價(jià)值估計(jì)的影響.Fujimoto等[58]通過對(duì)雙Q網(wǎng)絡(luò)進(jìn)行裁剪,提出Clipped DQN,緩解高偏差.但是,裁剪卻又帶來(lái)過低估計(jì)的問題,Jiang等[59]提出AC-CDQ(Action Candidate Based Clipped DoubleQ-learning),在更復(fù)雜的問題設(shè)定上,緩解價(jià)值過低估計(jì)的問題.
近來(lái),Kuznetsov等[60]結(jié)合建模價(jià)值分布的網(wǎng)絡(luò)結(jié)構(gòu)、多個(gè)價(jià)值網(wǎng)絡(luò)與裁剪的技巧,提出TQC(Truncated Quantile Critic),緩解過高估計(jì)偏差的問題.Chen等[20]通過隨機(jī)選擇Q函數(shù)子集,計(jì)算目標(biāo)Q值,提出可媲美基于動(dòng)力學(xué)模型的值估計(jì)方法REDQ.Peer等[61]進(jìn)一步分析集成Q函數(shù)估計(jì)的偏差來(lái)源.Li等[62]通過額外構(gòu)建一個(gè)關(guān)于參數(shù)的后驗(yàn)分布模型,采樣Q值函數(shù),提出HyperDQN,相比DQN,提升數(shù)倍的樣本效率.由此可見,準(zhǔn)確性、權(quán)衡偏差與方差及利用Q值函數(shù)的不確定性可用于指導(dǎo)價(jià)值函數(shù)的學(xué)習(xí)過程.
總之,隱式策略建模下的強(qiáng)化學(xué)習(xí)方法發(fā)展脈絡(luò)如圖5所示.
圖5 隱式策略建模下的強(qiáng)化學(xué)習(xí)方法
3.3.3顯式策略建模的技術(shù)方法
顯式策略建模下的強(qiáng)化學(xué)習(xí)方法的側(cè)重點(diǎn)在策略改進(jìn)環(huán)節(jié),一般對(duì)策略函數(shù)進(jìn)行參數(shù)化顯式建模,融入專家對(duì)具體問題的先驗(yàn)知識(shí),構(gòu)建策略函數(shù)的結(jié)構(gòu)表示.從歷史交互經(jīng)驗(yàn)中對(duì)當(dāng)前策略函數(shù)進(jìn)行直接評(píng)估,或是借助價(jià)值函數(shù)進(jìn)行間接評(píng)估,進(jìn)而解決關(guān)于策略函數(shù)的控制問題.
早期,Marbach等[63]提出策略梯度定理,直接評(píng)估當(dāng)前策略,直接計(jì)算策略目標(biāo)的參數(shù)梯度,為后續(xù)的策略梯度算法提供嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ).特別地,1992年,Williams等[26]提出REINFORCE,是該理論的一個(gè)算法實(shí)例.具體而言,直接以蒙特卡洛采樣的方式評(píng)估策略性能,具有高方差的特點(diǎn).
相比直接計(jì)算策略目標(biāo)的參數(shù)梯度,2001年,Kakade等[39]提出NPG,利用費(fèi)舍爾(Fisher)信息矩陣將參數(shù)梯度投射到策略梯度,讓原本在參數(shù)空間的策略搜索變?yōu)椴呗钥臻g中搜索,使梯度的信息與策略目標(biāo)的關(guān)系更緊密.進(jìn)一步地,2017年,Liu等[64]提出在核函數(shù)空間進(jìn)行策略搜索的SVPG(Stein Variational Policy Gradient),緩解維度災(zāi)難的問題.此外,Wu等[65]使用K-FAC(Kronecker-Fac-tored Approximation Curvature)的優(yōu)化方法計(jì)算策略梯度,使梯度信息帶有二階信息,此方法稱為ACKTR(Actor Critic Using Kronecker-Factored Trust Region).
除了直接計(jì)算策略梯度以評(píng)估策略性能外,還有借助特定評(píng)估量間接評(píng)估的方式.特別地,該評(píng)估量可為參數(shù)化的價(jià)值函數(shù),以此近似計(jì)算策略目標(biāo)的梯度,達(dá)到策略改進(jìn)的目的,也稱為AC框架.然而,近似計(jì)算的方式會(huì)引入相應(yīng)的誤差.
從方差的角度分析誤差來(lái)源,使用同軌數(shù)據(jù)對(duì)價(jià)值函數(shù)的估計(jì)方式是無(wú)偏的,但卻需要大量的樣本數(shù)據(jù),否則策略性能會(huì)面臨高方差的影響.為了權(quán)衡數(shù)據(jù)量與高方差的影響,Mnih等[66]從分布式架構(gòu)的角度出發(fā),提出使用同軌策略在線進(jìn)行多樣性數(shù)據(jù)收集的A3C(Asynchronous Advantage Actor-Critic),穩(wěn)定提高數(shù)據(jù)質(zhì)量,降低方差.在此基礎(chǔ)上,進(jìn)一步使用同步(Synchronous)協(xié)調(diào)器的A2C(Advantage Actor-Critic)能更有效利用GPU資源.Espeholt等[67]在交互經(jīng)驗(yàn)池中引入重要性采樣,改善上述分布式架構(gòu),于2018年提出IMPALA(Im-portance Weighted Actor-Learner Architectures)架構(gòu),改善樣本復(fù)雜度.特別地,Horgan等[68]提出分布式架構(gòu)Ape-X,采用回放機(jī)制對(duì)交互經(jīng)驗(yàn)池中的重要數(shù)據(jù)進(jìn)行優(yōu)先采樣,提高樣本的利用效率.
不同于提高數(shù)據(jù)質(zhì)量的思路,Schulman等[41]觀察到策略參數(shù)的微小變動(dòng)會(huì)顯著影響策略行為的表達(dá),引起同軌策略的不穩(wěn)定性問題,于是借鑒“裁剪”技巧可降低方差的思想,提出TRPO,以信賴域的約束方式限制策略更新過程中的劇烈變化.然而TRPO中關(guān)于費(fèi)舍爾信息矩陣的計(jì)算開銷過大.2017年,Schulman等[69]提出PPO(Proximal Policy Optimization),以近似計(jì)算的方式簡(jiǎn)化TRPO中關(guān)于費(fèi)舍爾信息矩陣的計(jì)算,成為當(dāng)下廣泛應(yīng)用的同軌策略算法.然而,同軌策略對(duì)數(shù)據(jù)量的要求處于百萬(wàn)級(jí)別,難以走進(jìn)現(xiàn)實(shí)的應(yīng)用場(chǎng)景.
從偏差的角度分析誤差來(lái)源,使用異軌策略的交互數(shù)據(jù)對(duì)價(jià)值函數(shù)的估計(jì)是有偏的,但能充分利用歷史數(shù)據(jù)降低方差,提高樣本效率,使樣本量邁入十萬(wàn)級(jí)別.具體而言,Degris等[42]提出基于異軌的AC框架——Off-PAC(Off-Policy Actor-Critic),從偏差角度進(jìn)行理論分析.Wang等[70]提出ACER(Actor-Critic Experience Replay),從交互經(jīng)驗(yàn)池的角度擴(kuò)充A3C的分布式架構(gòu),并結(jié)合異軌策略的數(shù)據(jù)以降低方差.進(jìn)一步地,當(dāng)策略類型為確定性時(shí),Silver等[71]提出確定性的策略梯度算法DPG(De-terministic Policy Gradient).若動(dòng)作從離散擴(kuò)充到連續(xù),Lillicrap等[72]提出針對(duì)連續(xù)動(dòng)作的算法DDPG(Deep DPG).為了改善DDPG的不穩(wěn)定性問題,Fujimoto等[58]提出構(gòu)建兩個(gè)動(dòng)作價(jià)值函數(shù)進(jìn)行策略改進(jìn)的TD3(Twined Delayed DDPG).針對(duì)隨機(jī)性的策略,Abdolmaleki等[38]結(jié)合同軌策略與異軌策略的優(yōu)勢(shì),提出可同時(shí)作用于離散動(dòng)作和連續(xù)動(dòng)作的MPO(Maximum a Posteriori Policy Optimiza-tion).Haarnoja等[27]提出基于最大熵框架的SAC,從探索的角度緩解價(jià)值估計(jì)的偏差.特別地,Duan等[73]借鑒QR-DQN對(duì)價(jià)值分布的建模,提出在SAC基礎(chǔ)上建模價(jià)值分布以進(jìn)行值估計(jì)的DSAC(Dis-tribution SAC).
近年來(lái),Agarwal等[74]對(duì)策略的探索進(jìn)度進(jìn)行量化,提出PC-PG(Policy Cover-Policy Gradient).Cobbe等[75]提出PPG(Phasic Policy Gradient),在PPO的基礎(chǔ)上引入輔助訓(xùn)練階段,顯著提高樣本效率.Liu等[76]提出OPPOSD(Off-Policy Policy Opti- mization with State Distribution Correction),針對(duì)異軌策略的偏差來(lái)源,在ACER的基礎(chǔ)上糾正行為策略與目標(biāo)策略之間的狀態(tài)分布偏差.特別地,在SAC的基礎(chǔ)上,Lyu等[77]建模兩個(gè)策略網(wǎng)絡(luò)以輔助探索,進(jìn)一步探討價(jià)值糾正(Value Correction)和策略正則項(xiàng)(Policy Regularization)對(duì)算法性能的影響,從而提出DARC(Double Actors Regularized Critics),相比SAC而言,提升近70%的策略性能.
總之,顯式策略建模下的強(qiáng)化學(xué)習(xí)方法發(fā)展脈絡(luò)如圖6所示.
圖6 顯式策略建模下的強(qiáng)化學(xué)習(xí)方法
3.3.4強(qiáng)化學(xué)習(xí)評(píng)估環(huán)境
本節(jié)簡(jiǎn)要介紹如下深度強(qiáng)化學(xué)習(xí)方法的相關(guān)評(píng)估環(huán)境:Atari[78]、MuJoCo(Multi-joint Dynamics with Contact)[79]、DeepMind Lab[80]、Stochastic Deep Sea[81]、PySC2[82]、CARLA[83].
具體介紹如表3所示.
表3 常用的評(píng)估環(huán)境特點(diǎn)
基于價(jià)值的方法一般適用于離散的動(dòng)作空間,如DQN用在以圖像為輸入形式的Atari游戲.特別地,連續(xù)型矩陣用于強(qiáng)調(diào)狀態(tài)為圖像.
針對(duì)連續(xù)的動(dòng)作空間,常用的環(huán)境為MuJoCo.較特殊的Stochastic Deep Sea主要用于評(píng)估算法的探索效率.復(fù)雜的場(chǎng)景常有混雜的狀態(tài)動(dòng)作空間,即圖像類的連續(xù)型矩陣、傳感器類的連續(xù)型向量、目標(biāo)類的離散型向量等混雜空間類型,如自動(dòng)駕駛的仿真平臺(tái)CARLA.
這些常用的評(píng)估環(huán)境如圖7所示.
(a)MuJoCo
常用的同軌策略算法和異軌策略算法在常見的連續(xù)控制任務(wù)上的基準(zhǔn)結(jié)果如表4所示.這些任務(wù)的共同目標(biāo)為:讓不同關(guān)節(jié)結(jié)構(gòu)的機(jī)器人盡可能快速地往前跑,由此設(shè)計(jì)相關(guān)的收益函數(shù).結(jié)果的評(píng)估方式為:計(jì)算多次獨(dú)立實(shí)驗(yàn)后關(guān)于幕的平均總回報(bào)與標(biāo)準(zhǔn)差.PyBullet[84]是替代MuJoCo對(duì)機(jī)器人關(guān)節(jié)動(dòng)力學(xué)進(jìn)行仿真的物理引擎,在其上的相關(guān)任務(wù)更困難.
表4 常見的連續(xù)動(dòng)作控制任務(wù)的基準(zhǔn)結(jié)果
值得一提的是,收益函數(shù)并不能準(zhǔn)確表達(dá)理想行為模式,這意味著總回報(bào)越高,并不代表策略越優(yōu).當(dāng)收益函數(shù)在精確設(shè)計(jì)的條件下,相關(guān)任務(wù)的評(píng)估指標(biāo)才能更好地衡量不同算法的優(yōu)缺點(diǎn).
同樣地,常用算法(A2C,DQN,TRPO,PPO,ACER,ACKTR)在Atari[78]環(huán)境中以圖像為輸入、離散動(dòng)作為輸出的常見任務(wù)上的基準(zhǔn)結(jié)果如表5所示.
表5 Atari環(huán)境下離散動(dòng)作控制任務(wù)的基準(zhǔn)結(jié)果
此外,關(guān)于相關(guān)算法的基準(zhǔn)結(jié)果會(huì)受到諸多因素的影響,如算法的超參數(shù)、實(shí)現(xiàn)方式的差異、任務(wù)設(shè)置、所需樣本量.因此,需要制定統(tǒng)一、合理的策略評(píng)估方式,對(duì)不同算法的各方面性能進(jìn)行有效對(duì)比,如基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法庫(kù)Stable-Base-lines3[85]在統(tǒng)一評(píng)估標(biāo)準(zhǔn)下提供可供參考基準(zhǔn)結(jié)果.
本節(jié)進(jìn)一步延伸強(qiáng)化學(xué)習(xí)其它問題設(shè)定,梳理強(qiáng)化學(xué)習(xí)各子領(lǐng)域的內(nèi)在邏輯關(guān)系及其主要?jiǎng)訖C(jī),整體結(jié)構(gòu)如圖8所示.下文從學(xué)習(xí)目標(biāo)、策略類型、MDP、任務(wù)、智能體這五個(gè)設(shè)定對(duì)象進(jìn)行敘述.
圖8 強(qiáng)化學(xué)習(xí)方法延伸設(shè)定的主要邏輯
從單一學(xué)習(xí)目標(biāo)到多目標(biāo)關(guān)于行為特性的擴(kuò)展,其延伸設(shè)定稱為多目標(biāo)強(qiáng)化學(xué)習(xí)(Multi-ob-jective RL)[86].核心動(dòng)機(jī)為:理想行為模式不僅只滿足于完成任務(wù),還需要考慮行為模式的其它特性,如安全性、魯棒性、收斂性、可解釋性等問題特性.由此構(gòu)建相關(guān)輔助目標(biāo),設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法,使其在策略集合Π中搜索既滿足期望回報(bào)最大化,又符合某種行為特性的策略.形式化表述如下.
將
M=(S,A,R,P,γ)
中的單個(gè)收益函數(shù)根據(jù)問題特性擴(kuò)充到多個(gè),該問題設(shè)定MDP稱為MOMDP,其中
R=(r1,r2,…,rm)T,γ=(γ1,γ2,…,γm)T,
m為目標(biāo)數(shù)量.于是,第i個(gè)目標(biāo)定義如下:
其中μ為初始狀態(tài)分布.特別地,使用wi作為第i個(gè)目標(biāo)的權(quán)重系數(shù),滿足
于是關(guān)于多目標(biāo)的策略學(xué)習(xí)目標(biāo)為:
多目標(biāo)強(qiáng)化學(xué)習(xí)的難點(diǎn)在于,如何搜索到合適的策略,以平衡多個(gè)目標(biāo),因?yàn)槟繕?biāo)之間往往是相互沖突的.如導(dǎo)航小車以到達(dá)目的地為任務(wù),主目標(biāo)為到達(dá)目的地,而輔助目標(biāo)希望既要速度快,又要能耗低,但速度與能耗這兩個(gè)輔助目標(biāo)是沖突的.因而,多目標(biāo)強(qiáng)化學(xué)習(xí)可借鑒與策略約束有關(guān)的研究思路,通過將問題特性設(shè)計(jì)為待優(yōu)化的輔助目標(biāo),來(lái)學(xué)習(xí)復(fù)雜行為.
不論隱式建模還是顯式建模,針對(duì)隨機(jī)性或確定性的策略類型,在基礎(chǔ)設(shè)定中均有一定程度的探討,如DPG[71]、SAC[27],但是它們都基于策略平穩(wěn)性假設(shè).
因此,策略從平穩(wěn)性假設(shè)擴(kuò)充到非平穩(wěn)性,其延伸設(shè)定稱為分層強(qiáng)化學(xué)習(xí)(Hierarchical RL, HRL)[12],是關(guān)于策略在序列特性的擴(kuò)展.核心動(dòng)機(jī)為:當(dāng)涉及到一個(gè)長(zhǎng)序列的復(fù)雜場(chǎng)景時(shí),序列特性為平穩(wěn)的策略π(at|st)不足以描述復(fù)雜行為,面對(duì)稀疏的收益信號(hào),難以有效進(jìn)行效用分配.因此,需要考慮對(duì)序列特性進(jìn)行分層,拆解長(zhǎng)序列與復(fù)雜行為,采用分而治之的解決思路.而時(shí)間序列是序列特性的直觀形式,于是從最微觀層面可認(rèn)為每個(gè)時(shí)刻t均對(duì)應(yīng)一個(gè)策略π(at|st,t).直觀地,π(at|st)是全局策略的形式化表述,π(at|st,t)是局部策略的形式化表述,自然的分層策略可表述為π(at|st,gt),其中g(shù)t為時(shí)刻的抽象表示(Temporal Abstra-ction),是對(duì)復(fù)雜行為意圖的分解,如
gt=f(st,t),
基本結(jié)構(gòu)如圖9所示.
圖9 HRL基本結(jié)構(gòu)
例如,在機(jī)械臂拿起錘子敲釘子的任務(wù)中,主目標(biāo)是敲釘子的收益r1,輔助目標(biāo)為拿起錘子的收益r2.那么,由基礎(chǔ)設(shè)定下的強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到的策略行為,往往只會(huì)拿起錘子或僅用機(jī)械臂敲釘子.原因是拿錘子、敲釘子該理想行為在序列特性上存在先后的順序關(guān)系,與時(shí)刻相關(guān),但在基礎(chǔ)設(shè)定下被策略平穩(wěn)性假設(shè)所簡(jiǎn)化.
分層強(qiáng)化學(xué)習(xí)的難點(diǎn)在于:如何自動(dòng)化地抽象層級(jí)關(guān)系,即哪些時(shí)刻對(duì)應(yīng)子行為模式;如何學(xué)習(xí)這些子行為模式對(duì)應(yīng)的分層策略;如何組合這些分層策略為理想的行為模式.
特別地,針對(duì)稀疏收益、長(zhǎng)序列的具體場(chǎng)景而言,應(yīng)用分層強(qiáng)化學(xué)習(xí),人為設(shè)計(jì)層級(jí)關(guān)系是強(qiáng)化學(xué)習(xí)在落地過程中十分有效的手段[87].盡管這意味著相關(guān)方法在一定程度上損失泛化性能.進(jìn)一步地,非平穩(wěn)性的設(shè)定可同樣擴(kuò)展到收益函數(shù)、環(huán)境模型、價(jià)值函數(shù)等對(duì)象.
4.3.1 收益函數(shù)
從已知的收益函數(shù)擴(kuò)展到未知的收益函數(shù),其延伸設(shè)定稱為逆強(qiáng)化學(xué)習(xí)(Inverse RL)[88].核心動(dòng)機(jī)為:在復(fù)雜場(chǎng)景下人為根據(jù)任務(wù)特性設(shè)計(jì)準(zhǔn)確的收益信號(hào)是較困難的.精準(zhǔn)地把握任務(wù)特性, 需要對(duì)領(lǐng)域知識(shí)具有深入了解.
于是,可通過理想行為模式的數(shù)據(jù),如專家示教數(shù)據(jù),以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)收益函數(shù)的表示,并求解最優(yōu)策略,形式化表述如下.
理想行為模式的數(shù)據(jù)以軌跡形式表述為
τ*=(s*0,a*0,s*1,a*1,…,s*T),
參數(shù)化建模的收益函數(shù)表述為rη(s,a).如圖10,構(gòu)建理想行為模式的軌跡分布pη(τ),引入一個(gè)二值的最優(yōu)變量Ot,令
圖10 理想行為模式的概率圖
p(Ot=1|st,at)
表示當(dāng)前時(shí)刻的狀態(tài)和動(dòng)作值是最優(yōu)的概率.
具體而言,選擇
p(Ot=1|st,at)=exp(rη(st,at)),
于是有
特別地,若同時(shí)參數(shù)化策略πθ,其軌跡分布為πθ(τ),通過JS散度拉近兩分布的距離,得到如下逆強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo):
該優(yōu)化目標(biāo)是要尋找參數(shù)η,來(lái)獲得理想行為的軌跡分布與當(dāng)前策略的軌跡分布差距較大的收益函數(shù).再在當(dāng)前收益函數(shù)rη(s,a)下尋找最優(yōu)策略πθ,兩者相互迭代優(yōu)化,找到關(guān)于任務(wù)的最優(yōu)策略π*與收益函數(shù)表示r*.
逆強(qiáng)化學(xué)習(xí)方法的難點(diǎn)是,如何在訓(xùn)練得到的收益函數(shù)表示下求解最優(yōu)策略.主要原因有:1)關(guān)于理想行為的數(shù)據(jù)集存在噪聲且可能對(duì)應(yīng)多個(gè)收益函數(shù),擬合結(jié)果并不確保收益函數(shù)唯一;2)強(qiáng)化學(xué)習(xí)方法對(duì)收益信號(hào)的數(shù)值、表示十分敏感,在可能存在多個(gè)收益表示時(shí),求解策略往往差強(qiáng)人意,出現(xiàn)非常差的策略性能.
盡管逆強(qiáng)化學(xué)習(xí)能直接從理想行為數(shù)據(jù)集上獲取相關(guān)策略,但是其額外增加對(duì)數(shù)據(jù)集數(shù)量與質(zhì)量的要求與擬合收益函數(shù)的計(jì)算開銷.針對(duì)難以設(shè)計(jì)收益、數(shù)據(jù)集易于獲取的問題場(chǎng)景下,結(jié)合逆強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)(Imitation Learning),能進(jìn)一步達(dá)到更穩(wěn)定的性能.
4.3.2環(huán)境動(dòng)力學(xué)模型
從未知的環(huán)境動(dòng)力學(xué)到環(huán)境動(dòng)力學(xué)模型的擴(kuò)展,其延伸設(shè)定稱為基于模型的強(qiáng)化學(xué)習(xí)(Model-Based RL)[9].核心動(dòng)機(jī)為:追求一個(gè)高樣本效率的最優(yōu)策略,智能體不應(yīng)只從交互式的試錯(cuò)經(jīng)驗(yàn)中學(xué)習(xí),還能通過交互經(jīng)驗(yàn)構(gòu)建環(huán)境動(dòng)力學(xué)模型,預(yù)測(cè)環(huán)境的動(dòng)態(tài)特性,從而讓智能體具備規(guī)劃與控制的能力.追求的問題特性為效率性,對(duì)模型結(jié)構(gòu)的選擇、學(xué)習(xí)與利用具有較高要求.
從交互經(jīng)驗(yàn)或相關(guān)數(shù)據(jù)中構(gòu)建關(guān)于環(huán)境動(dòng)力學(xué)的數(shù)據(jù)集
參數(shù)化環(huán)境動(dòng)力學(xué)模型Pψ(st+1|st,at),通過最大似然目標(biāo)
進(jìn)行學(xué)習(xí).這是一個(gè)典型的監(jiān)督學(xué)習(xí)問題,關(guān)于Pψ的建模方式自然會(huì)因具體任務(wù)場(chǎng)景、函數(shù)表示、優(yōu)化算法的不同而有豐富多樣的方法.
因此,相關(guān)強(qiáng)化學(xué)習(xí)方法可結(jié)合環(huán)境動(dòng)力學(xué)模型進(jìn)行規(guī)劃、控制,如同時(shí)參數(shù)化策略πθ.在已知模型Pψ下求解策略,根據(jù)策略的交互經(jīng)驗(yàn)繼續(xù)訓(xùn)練動(dòng)力學(xué)模型,目標(biāo)可表述為
基于模型的強(qiáng)化學(xué)習(xí)的難點(diǎn)在于如何處理環(huán)境模型的不確定性與近似誤差(Approximation Error).當(dāng)環(huán)境動(dòng)力學(xué)過程過于復(fù)雜時(shí),模型的誤差會(huì)在不斷的策略利用中積累,在長(zhǎng)序列決策問題上造成不理想的結(jié)果.
在決策或規(guī)劃過程中,當(dāng)出現(xiàn)數(shù)據(jù)集未曾出現(xiàn)或頻率極少的狀態(tài)動(dòng)作時(shí),模型的不確定性會(huì)造成嚴(yán)重的策略偏差.
盡管,基于模型的強(qiáng)化學(xué)習(xí)能利用環(huán)境模型對(duì)樣本復(fù)雜度、探索效率、安全性、適應(yīng)性、可解釋性等強(qiáng)化學(xué)習(xí)中的挑戰(zhàn)進(jìn)行顯著改善,但卻引入額外的計(jì)算開銷和因不確定性與近似誤差帶來(lái)不穩(wěn)定性問題.針對(duì)交互樣本獲取成本昂貴、有深厚領(lǐng)域知識(shí)支撐的問題場(chǎng)景,基于模型的強(qiáng)化學(xué)習(xí)能顯著改善樣本復(fù)雜度,并對(duì)非平穩(wěn)環(huán)境提供自適應(yīng)的模型支持[89].
4.3.3馬爾可夫假設(shè)
拓寬基礎(chǔ)設(shè)定中的馬爾可夫假設(shè),可視為MDP中對(duì)狀態(tài)定義的擴(kuò)展.核心動(dòng)機(jī)認(rèn)為:馬爾可夫假設(shè)限制關(guān)于問題場(chǎng)景的準(zhǔn)確描述,使智能體每個(gè)時(shí)刻的決策并未考慮歷史信息,造成策略性能無(wú)法繼續(xù)提升.決策信息的缺乏從根本上成為限制性能的瓶頸,從而需要提取關(guān)于狀態(tài)的抽象表示(State Abstraction).
具體而言,許多問題場(chǎng)景是難以獲取其內(nèi)部信息準(zhǔn)確表征的,即環(huán)境并非完全可觀測(cè),不能簡(jiǎn)單地將狀態(tài)等同于環(huán)境觀測(cè),需要從中抽象觀測(cè)空間,該延伸設(shè)定稱為POMDP(Partially Observable MDP)[90].形式化描述如下.
將M=(S,A,R,P,γ)擴(kuò)展成(Ω,O,S,A,R,P,γ),其中,Ω為觀測(cè)空間,O∶S×A→Ω為觀測(cè)函數(shù),表示對(duì)于O(a,s′,o)任一動(dòng)作與其到達(dá)的下一狀態(tài)下、產(chǎn)生觀測(cè)值為o的概率.通過相關(guān)編碼器f對(duì)歷史觀測(cè)信息進(jìn)行抽象,如
st=f(o0,o1,…,ot-1,t),
得到狀態(tài)的抽象表示.
狀態(tài)表示的學(xué)習(xí)難點(diǎn)在于如何從歷史信息、序列特性中準(zhǔn)確提煉對(duì)決策有幫助的表征.具體地,狀態(tài)表示與具體問題場(chǎng)景強(qiáng)相關(guān),狀態(tài)編碼的準(zhǔn)確性是策略決策的基石,從根本上決定任務(wù)的可行性.
針對(duì)具體的問題場(chǎng)景,盡可能采用人為定義狀態(tài)以準(zhǔn)確表征環(huán)境的內(nèi)部信息.當(dāng)面對(duì)高維復(fù)雜的場(chǎng)景,如圖像、傳感器等混雜狀態(tài)空間時(shí),需要尋求該設(shè)定下的狀態(tài)表示方法.
將基礎(chǔ)設(shè)定中的單一任務(wù)擴(kuò)展到多任務(wù),是關(guān)于任務(wù)數(shù)量對(duì)學(xué)習(xí)機(jī)制的擴(kuò)展,其延伸設(shè)定稱為元強(qiáng)化學(xué)習(xí)(Meta RL)[13].在這個(gè)擴(kuò)展中,核心動(dòng)機(jī)認(rèn)為:要追求一個(gè)泛化性強(qiáng)的最優(yōu)策略,智能體不應(yīng)只從單一任務(wù)的交互經(jīng)驗(yàn)中學(xué)習(xí),而是在多任務(wù)下提煉共同的元策略,從而面對(duì)新任務(wù)時(shí)也能快速泛化.因此,元強(qiáng)化學(xué)習(xí)的著重點(diǎn)在于任務(wù)級(jí)的泛化性.形式化表述如下.
假設(shè)有n個(gè)訓(xùn)練任務(wù)集的MDP:
Mtrain={M1,M2,…,Mn},Mi=(Si,Ai,Ri,Pi,γi),
測(cè)試任務(wù)集為Mtest.在基礎(chǔ)設(shè)定下,第i個(gè)任務(wù)的最優(yōu)策略參數(shù)為:
可簡(jiǎn)記為
θ*=fRL(Mi).
接著,尋找元模型的最優(yōu)參數(shù)φ*的方式為
其中L為策略學(xué)習(xí)目標(biāo).
特別地,當(dāng)元模型f和策略學(xué)習(xí)目標(biāo)L均采用策略梯度作為優(yōu)化方法時(shí),具體方法稱為MAML(Model-Agnostic Meta Learning)[91],是元強(qiáng)化學(xué)習(xí)算法中極具影響力的工作.
元強(qiáng)化學(xué)習(xí)的難點(diǎn)在于任務(wù)分布的設(shè)置及元模型結(jié)構(gòu)的選取.任務(wù)分布決定泛化性能的方向,如迷宮環(huán)境中不同類型的迷宮不會(huì)設(shè)置為差異太大的任務(wù).其次,元模型結(jié)構(gòu)的選取多種多樣,每種結(jié)構(gòu)均有優(yōu)缺點(diǎn),在不同場(chǎng)景下表現(xiàn)各不相同.
此外,針對(duì)具體問題場(chǎng)景元強(qiáng)化學(xué)習(xí)提供任務(wù)級(jí)的泛化特性,代價(jià)是需要精心設(shè)計(jì)相關(guān)的任務(wù)分布,以及因?qū)ふ疫m應(yīng)問題場(chǎng)景的元模型結(jié)構(gòu)而付出的計(jì)算開銷.
在多任務(wù)的問題設(shè)定下,元強(qiáng)化學(xué)習(xí)的對(duì)象不僅為策略,還可為環(huán)境動(dòng)力學(xué)模型、網(wǎng)絡(luò)結(jié)構(gòu)、MDP等對(duì)象[89].元強(qiáng)化學(xué)習(xí)逐漸成為強(qiáng)化學(xué)習(xí)研究中熱門的子領(lǐng)域,是探討強(qiáng)化學(xué)習(xí)算法泛化性能的切入點(diǎn).
將基礎(chǔ)設(shè)定中的單一智能體擴(kuò)展到多智能體,是關(guān)于智能體個(gè)數(shù)對(duì)學(xué)習(xí)機(jī)制的擴(kuò)展,延伸設(shè)定稱為多智能體強(qiáng)化學(xué)習(xí)(Multi-agent RL)[92].核心動(dòng)機(jī)為:為了描述真實(shí)場(chǎng)景下協(xié)作與競(jìng)爭(zhēng)關(guān)系,智能體不僅是自身與環(huán)境交互的簡(jiǎn)單關(guān)系,還有跟其它智能體的合作與博弈等復(fù)雜關(guān)系.因此,在早期便有針對(duì)多智能體在復(fù)雜任務(wù)場(chǎng)景下學(xué)習(xí)機(jī)制的相關(guān)研究.一般而言,多智能體完成任務(wù)的3種方式為協(xié)作、博弈或兩者兼之,由此設(shè)計(jì)各智能體對(duì)應(yīng)的MDP.
多智能體強(qiáng)化學(xué)習(xí)的難點(diǎn)在于多個(gè)學(xué)習(xí)目標(biāo)、MDP的非平穩(wěn)特性和多樣化的信息結(jié)構(gòu).具體而言:1)對(duì)于每個(gè)智能體而言,學(xué)習(xí)目標(biāo)一般是多樣的,既需權(quán)衡競(jìng)爭(zhēng)者策略,又要考慮合作者的狀態(tài),還要滿足自身收益.2)MDP的非平穩(wěn)性指單個(gè)智能體面對(duì)的環(huán)境動(dòng)力學(xué)是非穩(wěn)態(tài)的,因?yàn)榄h(huán)境是根據(jù)多個(gè)智能體的共同作用而返回下一狀態(tài)的,但對(duì)于單智能體,它不一定能看見所有其它智能體.這導(dǎo)致理論分析上的困難.3)多智能體之間的信息結(jié)構(gòu)設(shè)計(jì)是多樣的,如中心化、去中心化或拓?fù)浣Y(jié)構(gòu),具體如圖11所示.
圖11 多智能體的信息結(jié)構(gòu)
總體看來(lái),多智能體是最復(fù)雜的問題設(shè)定,其還可包含多任務(wù)場(chǎng)景下的泛化性、MDP與策略的非平穩(wěn)性及多目標(biāo)下的強(qiáng)化學(xué)習(xí)問題.進(jìn)一步地,在多智能體的設(shè)定下,強(qiáng)化學(xué)習(xí)與博弈論產(chǎn)生深刻聯(lián)系,并從中尋求相關(guān)的理論基礎(chǔ),如納什均衡.
基礎(chǔ)設(shè)定中已闡述關(guān)于環(huán)境完備性、均勻交互和μ-重置交互模式的相關(guān)內(nèi)容.本節(jié)關(guān)注專家交互和離線學(xué)習(xí)這兩種交互模式,重點(diǎn)綜述專家交互的相關(guān)方法.作為延伸設(shè)定的分析示例,在問題設(shè)定下梳理子領(lǐng)域的發(fā)展邏輯.
專家交互是一種半交互方式,主要有在線的專家反饋和離線的專家數(shù)據(jù).從離線專家數(shù)據(jù)中學(xué)習(xí)稱為示教學(xué)習(xí)(Learning from Demonstration, LfD)[93].核心動(dòng)機(jī)為:利用專家數(shù)據(jù)對(duì)效用分配、探索與利用進(jìn)行指導(dǎo).在基礎(chǔ)設(shè)定下,價(jià)值和策略函數(shù)在評(píng)估和改進(jìn)環(huán)節(jié)迭代到收斂,常常需要百萬(wàn)級(jí)別的樣本量,阻礙其進(jìn)一步的發(fā)展.于是,自然可以利用專家行為數(shù)據(jù)蘊(yùn)含的監(jiān)督信息來(lái)改善高樣本復(fù)雜度的難題.
專家交互方法的大致流程包括專家數(shù)據(jù)的獲取方式與類型、從專家數(shù)據(jù)中提取知識(shí)表示、知識(shí)表示對(duì)設(shè)定對(duì)象的指導(dǎo)方式、指導(dǎo)方式中的反饋機(jī)制,具體如圖12所示.
圖12 專家交互方法的示意圖
5.1.1直接指導(dǎo)方式
本節(jié)主要分析先驗(yàn)式(Prior)、預(yù)訓(xùn)練(Pre-train)、回放式(Replay)這3種直接指導(dǎo)方式,根據(jù)其指導(dǎo)對(duì)象與作用機(jī)理,分析并討論直接指導(dǎo)方式的優(yōu)缺點(diǎn).
1)先驗(yàn)式.指導(dǎo)的對(duì)象為價(jià)值網(wǎng)絡(luò),主要?jiǎng)訖C(jī)是希望策略評(píng)估過程中,動(dòng)作價(jià)值函數(shù)能對(duì)專家的狀態(tài)-動(dòng)作進(jìn)行合理地效用分配.例如, 將專家經(jīng)驗(yàn)池直接加入異軌強(qiáng)化學(xué)習(xí)算法的交互經(jīng)驗(yàn)池中,然后由價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)對(duì)專家經(jīng)驗(yàn)池進(jìn)行采樣學(xué)習(xí).在此基礎(chǔ)上,大多數(shù)強(qiáng)化學(xué)習(xí)算法均有先驗(yàn)式版本,如DQfD(DeepQ-learning from Demonstrations)[94].
2)預(yù)訓(xùn)練.指導(dǎo)的對(duì)象可為策略網(wǎng)絡(luò)或價(jià)值網(wǎng)絡(luò),主要?jiǎng)訖C(jī)是給策略在狀態(tài)動(dòng)作空間中一個(gè)好的初始點(diǎn),使其更接近專家策略.例如,預(yù)訓(xùn)練策略網(wǎng)絡(luò)πθ(a|s)將專家經(jīng)驗(yàn)池的數(shù)據(jù)處理成適合監(jiān)督學(xué)習(xí)的形式De={(s*i,a*i)}.由此,進(jìn)一步最大化對(duì)數(shù)似然學(xué)習(xí)目標(biāo)
稱為行為克隆(Behavioral Cloning, BC).然后,把預(yù)訓(xùn)練后的策略參數(shù)作為智能體中策略網(wǎng)絡(luò)的初始化參數(shù).同樣地,各類異軌強(qiáng)化學(xué)習(xí)算法均使用預(yù)訓(xùn)練技巧,如SAC+BC[93].
3)回放式.指導(dǎo)對(duì)象為交互經(jīng)驗(yàn)池,主要?jiǎng)訖C(jī)是修改交互經(jīng)驗(yàn)池的采樣機(jī)制,不應(yīng)用隨機(jī)采樣,而是采用某種回放機(jī)制對(duì)專家數(shù)據(jù)進(jìn)行優(yōu)先采樣.例如,優(yōu)先經(jīng)驗(yàn)池回放PER[54],基于當(dāng)前動(dòng)作價(jià)值函數(shù),為每個(gè)轉(zhuǎn)移樣本(Transition)計(jì)算時(shí)序差分誤差(TD-Error).根據(jù)誤差項(xiàng)設(shè)定優(yōu)先度系數(shù),優(yōu)先度系數(shù)越高,被采樣的概率也越高.因而,專家數(shù)據(jù)樣本往往被設(shè)置為較高的優(yōu)先度系數(shù).
下面說(shuō)明直接指導(dǎo)方式的性能與缺點(diǎn).
1)先驗(yàn)式的指導(dǎo)方式在Actor-Critic框架下效果十分有限,因?yàn)閮r(jià)值網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)是評(píng)估收集交互經(jīng)驗(yàn)池中所有經(jīng)驗(yàn)的行為策略,而不是目標(biāo)策略網(wǎng)絡(luò).由貝爾曼一致性方程可知,行為策略與當(dāng)前策略之間存在策略分布上的偏差,使直接加進(jìn)交互經(jīng)驗(yàn)池中的專家示教數(shù)據(jù)并未起到理想的作用,反而起到影響策略評(píng)估過程的負(fù)作用.實(shí)驗(yàn)表明,單一的先驗(yàn)技巧在大多數(shù)異軌強(qiáng)化學(xué)習(xí)算法中的性能改進(jìn)并不顯著[95].
2)預(yù)訓(xùn)練的指導(dǎo)方式在大多數(shù)場(chǎng)景下能輕微提高策略性能,原因是專家示教數(shù)據(jù)是通過最大對(duì)數(shù)似然的學(xué)習(xí)目標(biāo)將“專家知識(shí)”以預(yù)訓(xùn)練的方式傳遞給策略網(wǎng)絡(luò).因此,只要策略參數(shù)能得到一個(gè)好的初始點(diǎn),就能避免陷入前期探索過程的低效.但是,如何充分利用專家示教數(shù)據(jù)獲取一個(gè)好的起點(diǎn),是一個(gè)極具工程性與技巧性的問題,需要對(duì)數(shù)據(jù)進(jìn)行大量的清洗并獲取特征,將預(yù)訓(xùn)練的技巧用至恰到好處.
3)回放式的指導(dǎo)方式能明顯提升策略性能[96].主要原因是:通過強(qiáng)化學(xué)習(xí)的基礎(chǔ)機(jī)理,如TD誤差或策略分布的偏差,對(duì)交互經(jīng)驗(yàn)池中的樣本進(jìn)行選擇性采樣,使價(jià)值網(wǎng)絡(luò)評(píng)估的行為策略不再是表示整個(gè)交互經(jīng)驗(yàn)池,而是與當(dāng)前策略發(fā)生關(guān)聯(lián),更符合理論框架GPI中的理論條件,如策略評(píng)估的對(duì)象為當(dāng)前策略、策略評(píng)估過程需要迭代價(jià)值網(wǎng)絡(luò)到收斂等.盡管如此,“交互”的屬性讓策略與交互樣本之間存在相互影響,難以滿足理論分析中對(duì)交互經(jīng)驗(yàn)池樣本的質(zhì)量、分布假設(shè)等條件的保證.為此,需要大量的實(shí)驗(yàn)評(píng)估,才能從統(tǒng)計(jì)意義驗(yàn)證回放式指導(dǎo)方式的有效性.
總之,直接的指導(dǎo)方式將專家軌跡數(shù)據(jù)中的收益信號(hào)直接當(dāng)作專家的知識(shí)表示,其特點(diǎn)為關(guān)注智能體的外部狀態(tài),如初始化狀態(tài)分布、經(jīng)驗(yàn)回放方式等.
5.1.2間接指導(dǎo)方式
本節(jié)簡(jiǎn)要介紹作用于價(jià)值、策略、收益函數(shù)的間接指導(dǎo)方式及方法背后的主要?jiǎng)訖C(jī).
1)作用于價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo),在策略評(píng)估環(huán)境利用專家知識(shí)表示如收益信號(hào),指導(dǎo)智能體的效用分配問題.主要?jiǎng)訖C(jī)為:以某種具體約束方式在價(jià)值目標(biāo)中突出專家狀態(tài)-動(dòng)作對(duì)出現(xiàn)的回報(bào),如NAC(Normalized Actor Critic)[97].
2)作用于策略網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo),在策略改進(jìn)環(huán)境利用專家知識(shí)表示隱含的專家策略,對(duì)智能體的探索策略進(jìn)行指導(dǎo).主要?jiǎng)訖C(jī)為:對(duì)策略分布的偏差施加分布約束,讓當(dāng)前策略與專家策略的聯(lián)合分布滿足軟約束,建模約束中的專家分布抑或是添加行為克隆的損失函數(shù)的TD3+BC[98]等.
3)作用于收益函數(shù)的表示學(xué)習(xí),共同指導(dǎo)智能體的效用分配、探索與利用.主要?jiǎng)訖C(jī)為:從專家行為數(shù)據(jù)中捕捉具有參數(shù)化結(jié)構(gòu)的收益函數(shù).例如,使用最優(yōu)變量的概率圖模型建模專家行為,通過參數(shù)化的收益函數(shù)捕捉專家數(shù)據(jù)中的知識(shí)表示[99].
整體看來(lái),間接指導(dǎo)方式不如直接指導(dǎo)方式簡(jiǎn)潔,需要額外提取專家知識(shí)表示,而且理論分析也較為困難,目前尚未建立通用的算法框架.但是,間接指導(dǎo)從離線數(shù)據(jù)中學(xué)習(xí)到的知識(shí)結(jié)構(gòu),具備更強(qiáng)的泛化能力,相關(guān)研究已建立起了與示教學(xué)習(xí)算法框架[88]的聯(lián)系.然而,如何在環(huán)境交互中更有效地嵌入專家知識(shí),仍是一個(gè)開放性問題[95].
擴(kuò)展問題設(shè)定中的離線學(xué)習(xí)交互模式使智能體在完全離線的數(shù)據(jù)集上學(xué)習(xí),此延伸設(shè)定被稱為離線強(qiáng)化學(xué)習(xí)(Offline RL)[10].核心動(dòng)機(jī)為:在一個(gè)離線的行為數(shù)據(jù)集上學(xué)習(xí)一個(gè)與環(huán)境交互表現(xiàn)良好的策略.該問題設(shè)定更追求實(shí)用性,零交互的任務(wù)設(shè)定使智能體失去交互特性,也讓策略失去探索特性.因此,離線數(shù)據(jù)集的質(zhì)量決定策略性能的上限.
Agarwal等[100]的研究為離線強(qiáng)化學(xué)習(xí)的可行性提供積極的研究結(jié)果.在數(shù)據(jù)集足夠大,多樣性足夠豐富的條件下,離線方法REM(Random Ensemble Mixture)在Atari游戲上超過在線交互的DQN.
在探索受限的條件下,離線強(qiáng)化學(xué)習(xí)面臨分布偏差和策略評(píng)估這兩個(gè)核心難點(diǎn).分布偏差指離線數(shù)據(jù)集與環(huán)境交互之間的狀態(tài)動(dòng)作分布偏差;策略評(píng)估是當(dāng)策略無(wú)法在環(huán)境交互中得到評(píng)估時(shí),如何利用離線數(shù)據(jù)“準(zhǔn)確地”評(píng)估策略性能.這是離線交互的問題設(shè)定特有的局限.針對(duì)分布偏差,當(dāng)前研究從策略約束和值函數(shù)估計(jì)中的不確定性出發(fā),緩解由離線數(shù)據(jù)的分布差異引起的偏差來(lái)源.對(duì)于離線的策略評(píng)估,只能借助環(huán)境動(dòng)力學(xué)模型的建模近似計(jì)算,這也意味著引入模型的近似偏差,極易造成策略評(píng)估的不準(zhǔn)確性.因此當(dāng)前這些難點(diǎn)是相關(guān)解決方法的主要瓶頸.此外,離線強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)問題設(shè)定變更——離線交互,創(chuàng)造借鑒監(jiān)督學(xué)習(xí)相關(guān)思想方法的可能性,增強(qiáng)強(qiáng)化學(xué)習(xí)方法的實(shí)用性,在不少應(yīng)用上都具有較優(yōu)的性能表現(xiàn).
從問題設(shè)定視角上看強(qiáng)化學(xué)習(xí),選擇如下經(jīng)典算法:VI[1]、SAC[27]、FQI[34]、DQN[45]、PPO[69]、DDPG[72]、OPPOSD[76]、Option-Critic[87]、 f-MAX[88]、 MBMRI
(Model-Based Meta-RL)[89]、MAML[91]、OERLwD(Over-
coming Exploration RL with Demonstrations)[93]、REM[100]、QMIX[101].相關(guān)設(shè)定如表6所示.
表6 經(jīng)典算法的問題設(shè)定
以具體任務(wù)場(chǎng)景為驅(qū)動(dòng),從問題設(shè)定視角看待強(qiáng)化學(xué)習(xí)各研究方向的技術(shù),可遵循如下方法論:
1)根據(jù)任務(wù)場(chǎng)景,從智能體、任務(wù)、MDP、策略類型、學(xué)習(xí)目標(biāo)、交互模式6個(gè)設(shè)定對(duì)象確定場(chǎng)景的具體問題設(shè)定,選擇策略函數(shù)或價(jià)值函數(shù)的建模方式.
2)在具體問題設(shè)定基礎(chǔ)上,從經(jīng)典算法設(shè)定中選擇合適的解決方案,得到基準(zhǔn)結(jié)果.
3)在基準(zhǔn)結(jié)果上根據(jù)問題特性融合、借鑒強(qiáng)化學(xué)習(xí)各研究方向的關(guān)鍵技術(shù).例如:由于任務(wù)場(chǎng)景的長(zhǎng)序列特點(diǎn),選擇非平穩(wěn)策略的建模方式,再借鑒分層強(qiáng)化學(xué)習(xí)的思想方法;若具備任務(wù)場(chǎng)景的相關(guān)領(lǐng)域知識(shí),為了提高解決方案的樣本效率,選擇建模未知的動(dòng)力學(xué)模型,采用基于模型的強(qiáng)化學(xué)習(xí)方法;若追求策略的泛化性能,可在多任務(wù)設(shè)定下構(gòu)建任務(wù)分布,融合元強(qiáng)化學(xué)習(xí)的思想方法.
經(jīng)過近年來(lái)的發(fā)展,基礎(chǔ)設(shè)定下的強(qiáng)化學(xué)習(xí)方法的有效性已得到充分驗(yàn)證,基本理論也趨于完備,在眾多新領(lǐng)域和應(yīng)用上也取得突破[4-5,21].然而在走向現(xiàn)實(shí)應(yīng)用場(chǎng)景時(shí),現(xiàn)有方法仍主要面臨高樣本復(fù)雜度與仿真環(huán)境的制約.因此,當(dāng)前研究熱點(diǎn)主要集中在如下幾方面.
1)基礎(chǔ)的兩大核心挑戰(zhàn)——效用分配和探索與利用對(duì)智能體學(xué)習(xí)效率的影響.效用分配的方式以價(jià)值函數(shù)為主,早期使用價(jià)值函數(shù)建模期望回報(bào)的方式[45],具有高偏差、魯棒性差的特點(diǎn).隨著應(yīng)用場(chǎng)景的復(fù)雜化,一個(gè)準(zhǔn)確、平滑、魯棒的價(jià)值函數(shù)是至關(guān)重要的.因此,Li等[62]提出HyperDQN,建模價(jià)值函數(shù)分布以權(quán)衡偏差與方差,Chen等[20]提出REDQ,在多樣的函數(shù)結(jié)構(gòu)中隨機(jī)化策略的評(píng)估值,用于確保準(zhǔn)確性的同時(shí)提升魯棒性.對(duì)于探索與利用,除了基于信息增益和不確定性的探索方法[30],研究者們更集中于尋找對(duì)通用場(chǎng)景都盡可能有效且簡(jiǎn)單的探索原則,如“返回到高收益狀態(tài),再隨機(jī)探索”[29]以提升探索效率,從而改善高樣本復(fù)雜度的難題.
2)為了擺脫仿真環(huán)境的制約與高昂的交互成本,充分利用離線的大型數(shù)據(jù)集學(xué)習(xí)最優(yōu)策略,研究者們把目光投向離線強(qiáng)化學(xué)習(xí).一方面,離線的固有缺陷要求數(shù)據(jù)集具備豐富的多樣性.因此,如何準(zhǔn)確定義、表示、量化數(shù)據(jù)集上的多樣性成為了當(dāng)下的研究熱點(diǎn),如有研究者提出NeoRL(Near Real-World Offline Reinforcement Learning)[102]等數(shù)據(jù)集與評(píng)估準(zhǔn)則.另一方面,離線評(píng)估容易引起策略學(xué)習(xí)過程中的分布偏差,有研究者提出OPPOSD[76]等策略約束的方法,來(lái)降低偏差的影響.盡管此類方法存在過于保守的缺點(diǎn),但在特定場(chǎng)景中也有不錯(cuò)的性能.而REM[100]從價(jià)值函數(shù)的不確定性角度嘗試解決分布差異緩解過于保守的缺陷,但實(shí)證研究卻表現(xiàn)出魯棒性較差的缺點(diǎn).此外,為離線強(qiáng)化學(xué)習(xí)提供更有效的理論保證的相關(guān)研究、指導(dǎo)相關(guān)的算法設(shè)計(jì)也成為當(dāng)下的研究熱點(diǎn).
3)除了通過解決兩大核心挑戰(zhàn)緩解高樣本復(fù)雜度的研究思路,還存在通過變更問題設(shè)定進(jìn)一步提高樣本效率的研究方向.當(dāng)研究者具備領(lǐng)域的專業(yè)知識(shí)時(shí),面向問題設(shè)計(jì)特定結(jié)構(gòu)與表示的動(dòng)力學(xué)模型,即基于模型的強(qiáng)化學(xué)習(xí)研究方向[9],在付出額外計(jì)算成本與犧牲泛化性能的前提下,能顯著地將樣本利用率提高一個(gè)量級(jí),是強(qiáng)化學(xué)習(xí)在單一場(chǎng)景下落地的有效方法.若不希望犧牲泛化性能,在策略學(xué)習(xí)過程中引入專家交互模式的研究思路[93],充分利用專家知識(shí)糾正策略偏差且維持技術(shù)框架的可擴(kuò)展性與泛化性[95],是當(dāng)下熱門的研究方向.
盡管強(qiáng)化學(xué)習(xí)在近年來(lái)發(fā)展迅速,但在面向現(xiàn)實(shí)場(chǎng)景與新問題的應(yīng)用時(shí),仍面臨不少挑戰(zhàn).
1)從問題設(shè)定驅(qū)動(dòng)的整體視角上看,強(qiáng)化學(xué)習(xí)面臨架構(gòu)設(shè)計(jì)的挑戰(zhàn).在現(xiàn)實(shí)場(chǎng)景中,狀態(tài)動(dòng)作空間的不同設(shè)定、策略建模的不同選擇或是超參數(shù)的不同擾動(dòng)都會(huì)顯著影響強(qiáng)化學(xué)習(xí)方法的性能表現(xiàn).目前大多數(shù)方法都是通過專家經(jīng)驗(yàn)式建?;騿l(fā)式搜索的方式進(jìn)行架構(gòu)設(shè)計(jì),這無(wú)疑給新問題的解決增加復(fù)雜性[103].因此,如何針對(duì)現(xiàn)實(shí)場(chǎng)景自動(dòng)化設(shè)計(jì)強(qiáng)化學(xué)習(xí)解決方案,是一個(gè)未來(lái)值得研究的課題[104],如面向問題MDP的自動(dòng)化建模、超參數(shù)的自適應(yīng)優(yōu)化、深度網(wǎng)絡(luò)結(jié)構(gòu)的自適應(yīng)調(diào)整[105]等.
2)強(qiáng)化學(xué)習(xí)方法的有效性在大多數(shù)場(chǎng)景下已被驗(yàn)證,但其泛化性仍未被很好地解決.目前改進(jìn)泛化性能的方法大多基于元學(xué)習(xí)與遷移學(xué)習(xí),從與目標(biāo)任務(wù)相近的任務(wù)分布中提取有效的特征以改善目標(biāo)任務(wù)的學(xué)習(xí)效率,但目前方法任務(wù)分布的覆蓋面較窄,有效特征的定義也較模糊.因此,借鑒計(jì)算機(jī)視覺與自然語(yǔ)言處理領(lǐng)域中大模型的預(yù)訓(xùn)練思想,訓(xùn)練相似問題設(shè)定下的強(qiáng)化學(xué)習(xí)大模型以幫助智能體高效解決目標(biāo)任務(wù),是值得研究與探討的方向[106].此外,結(jié)合因果特征的選擇算法進(jìn)一步定義與篩選任務(wù)分布中的有效特征[107],是提升強(qiáng)化學(xué)習(xí)可解釋性與特征魯棒性的可行方向.
3)為了提高強(qiáng)化學(xué)習(xí)的實(shí)用性,近年來(lái)研究者在交互模式上引入離線學(xué)習(xí)的設(shè)定,因?yàn)樵谝粋€(gè)大型離線數(shù)據(jù)集上能以更低的樣本復(fù)雜度搜索目標(biāo)任務(wù)的最優(yōu)策略.但是,這類離線強(qiáng)化學(xué)習(xí)方法往往過于保守而存在魯棒性較差的缺點(diǎn)[10].而且,這類方法在離線狀態(tài)下存在準(zhǔn)確策略評(píng)估的固有限制,使得它們?cè)谡鎸?shí)場(chǎng)景下的性能表現(xiàn)往往不及預(yù)期.因此,在離線設(shè)定下引入有限的環(huán)境交互,如專家交互,從少量交互資源中糾正策略偏差,進(jìn)而改善離線強(qiáng)化學(xué)習(xí)先天缺陷,提升策略性能,是未來(lái)值得關(guān)注的方向.此外,理論上如何衡量離線數(shù)據(jù)集的多樣性[74]和提供有限交互資源以實(shí)現(xiàn)對(duì)策略改進(jìn)的性能保證,仍是理論研究中一個(gè)亟待解決的問題.進(jìn)一步地,在應(yīng)用方面,仍然缺乏一個(gè)可擴(kuò)展且統(tǒng)一的基礎(chǔ)框架,以便于在有限交互資源下整體評(píng)估各類算法的表現(xiàn)[95].
4)目前強(qiáng)化學(xué)習(xí)的研究方向主要針對(duì)單一難點(diǎn),如分層強(qiáng)化學(xué)習(xí)主要解決稀疏收益的領(lǐng)域難點(diǎn),但現(xiàn)實(shí)場(chǎng)景中往往存在多個(gè)難點(diǎn),具有復(fù)雜的問題設(shè)定,因而需要更多復(fù)雜設(shè)定下驗(yàn)證多種方法組合性能的研究.例如,現(xiàn)實(shí)場(chǎng)景有稀疏的收益分布、收益函數(shù)難以設(shè)計(jì)、狀態(tài)表示復(fù)雜三個(gè)難點(diǎn),分別對(duì)應(yīng)非平穩(wěn)策略建模、未知收益函數(shù)學(xué)習(xí)、混雜狀態(tài)空間的問題設(shè)定,因此可借鑒分層強(qiáng)化學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)和表示學(xué)習(xí)相關(guān)方法進(jìn)行組合,并研究其組合的有效性與相關(guān)理論,如研究多智能體與稀疏收益設(shè)定下的有效性[108].進(jìn)一步地,若解決方案追求多任務(wù)的泛化特性,結(jié)合元強(qiáng)化學(xué)習(xí)并維持方法的可擴(kuò)展性是一個(gè)嚴(yán)峻的挑戰(zhàn).此外,多數(shù)場(chǎng)景具有較高的安全性要求,使用強(qiáng)化學(xué)習(xí)時(shí)如何維持多種特性之間的平衡也是未來(lái)研究的重要課題.