汪 晨,曾凡玉,郭九霞,2
1(電子科技大學 計算機科學與工程學院,成都 611731) 2(中國民航飛行學院 空中交通管理學院,四川 廣漢 618307)
深度強化學習在環(huán)境認知和控制策略中表現突出,能實現智能體(如真實機器人、虛擬機器人或游戲中的人物等)從被動感知環(huán)境到主動認知環(huán)境,且具有較好的通用性.但在動態(tài)復雜的現實環(huán)境中,智能體的行為具有高維的狀態(tài)空間,此時深度強化學習算法存在復雜度較高,求解效率低的問題.
記憶是實現智能體更高級行為的重要途徑,人類的復雜行為方式都是基于其擁有記憶能力產生的.在深度強化學習模型中引入記憶,一方面能充分利用先驗知識,使智能體能直接利用過往事件中收集到的信息來指導行為,減少試錯次數,加快訓練的收斂速度;同時,記憶使得深度強化學習智能體具有某種程度的主動認知和推理能力,使其快速遍歷環(huán)境狀態(tài),幫助智能體更好地完成目標任務.
常用的記憶體有LSTM[1]/GRU[2],為了增強智能體應對復雜環(huán)境的能力,研究者往往通過增加LSTM/GRU的數量來提高記憶的容量.然而,它們的訓練參數量會隨著記憶體容量的增大而急劇上升,使得訓練變得困難.部分研究者嘗試增大記憶體容量的同時保持訓練參數量不變,將記憶體與參數訓練過程相分離,提出了一些外部記憶體;這些外部記憶體都是基于神經網絡結構,故又被稱為記憶增強型神經網絡.記憶增強型神經網絡將網絡訓練參數與記憶體容量相分離,因此增大記憶體的容量,不會導致訓練參數的增加.常見的記憶增強型神經網絡包括:經驗回放(Experience Replay)[3]、記憶網絡(Memory Networks)[4,5]、情景記憶(Episodic Memory)[6]、神經圖靈機(Neural Turing Machines,NTM)[7]及其改進型的可微分計算機(Differentiable Neural Computer,DNC)[8].
如圖1是記憶增強型深度強化學習的結構圖.智能體與環(huán)境交互,獲取環(huán)境狀態(tài)信息;智能體從記憶中讀取或寫入有助于其交互的信息,執(zhí)行動作決策;環(huán)境以獎勵的形式對智能體執(zhí)行的動作給出反饋.如此反復該過程,最終達到累計獎勵最大化,學習到一個環(huán)境到狀態(tài)的映射關系,即策略.
圖1 記憶增強型深度強化學習結構圖Fig.1 Framework of memory-augmented DRL
盡管深度強化學習領域已有部分研究綜述被發(fā)表,一些綜述[9-12]在整體上介紹深度強化學習的基礎理論與應用;另外,部分學者對深度強化學習基礎理論的某一分支進行了詳細綜述,如分層深度強化學習[13]、多智能體深度強化學習[14]等;同時,其他學者也綜述了深度強化學習在某一具體領域的應用,如視覺導航[15]、無人駕駛[16]、游戲[17,18]、通信[19,20]等.然而,目前還沒有一篇全面并系統(tǒng)地對記憶增強型深度強化學習研究進行綜述;因此,本文將對記憶增強型深度強化學習的研究進展、存在的問題、以及可能的研究方向進行詳細闡述,希望這篇綜述能夠促進該領域的發(fā)展.
本文首先介紹強化學習的基本理論,以及常用的深度強化學習算法;接著對常見記憶增強型神經網絡進行了闡述;同時,對記憶增強型深度強化學習絡進行分類并介紹了其研究進展;然后,對常用的訓練環(huán)境進行介紹;最后對記憶增強型深度強化學習存在的不足與未來研究方向進行了討論與展望.
強化學習過程屬于馬爾科夫決策過程(Markov Decision Process,MDP).通常,將MDP定義為一個四元組[21]:
(S,A,R,P)
(1)
其中,S表示環(huán)境的狀態(tài)信息,st∈S表示智能體在t時刻的環(huán)境狀態(tài);A為智能體可執(zhí)行的動作,at∈A表示智能體在t時刻執(zhí)行的動作;R是獎勵函數,rt∈R表示智能體在t時刻獲得的獎勵值;P為狀態(tài)轉移概率分布函數,表示智能體執(zhí)行動作at從狀態(tài)st轉移到下一狀態(tài)st+1的概率.
強化學習智能體以累積獎勵最大化為訓練目標,t時刻的累積獎勵可表示為:
(2)
其中,γ∈[0,1]是折扣因子,反映當下反饋的重要性隨著時間減弱.
狀態(tài)值函數Vπ(s)用于評價狀態(tài)的好壞,其定義如下:
(3)
(4)
行為值函數Qπ(s,a)用于評價動作的好壞,其定義如下:
(5)
(6)
通過貝爾曼公式,更新Q值:
Qi+1(s,a)=Eπ[Rt+γmaxQi(st+1,at+1)|St=s,At=a]
(7)
其中,當i→∞,Qi逐漸收斂至最優(yōu)行為值函數,獲得最優(yōu)策略:
π*=argmaxa∈AQ*(s,a)
(8)
深度學習飛速發(fā)展,許多經典的深度神經網絡結構被相繼提出:AlexNet[22]、VGG[23]、GoogleNet[24]、ResNet[25]、DesNet[26]、MobileNet[27]以及GAN[28].深度學習的優(yōu)勢在于感知能力,強化學習的優(yōu)勢在于決策能力,兩者優(yōu)勢結合形成了深度強化學習,并成功應用于AlphaGo[29].近年了,一些經典的深度強化學習算法被研究者們提出,包括深度Q網絡(Deep Q Network,DQN)算法[3],深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[30],異步優(yōu)勢演員-評論家(Asynchronous Advantage Actor-Critic,A3C)算法[31],置信域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法[32]及其改進版近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[33].
按照最常用的策略更新和學習方法標準來分類,深度強化學習可分為:基于值函數的深度強化學習、基于策略搜索的深度強化學習和基于演員-評論家的深度強化學習.
求解最優(yōu)策略等價于求解最優(yōu)值函數,這種求解最優(yōu)策略的方式稱為基于值函數的深度強化學習,該類算法中使用最廣泛的是DQN 算法.DeepMind的Mnih等人[3]提出了DQN,開創(chuàng)性地將深度卷積網絡與傳統(tǒng)強化學習Q-learning結合在一起,成功地直接從高維的輸入學習控制策略,在多種Atari游戲上取得了超越人類水平的成績.
相對于Q-learning,DQN主要做了3個方面的改進:利用深度卷積網絡逼近值函數;訓練過程中使用經驗回放;設置單獨的目標網絡處理時間差分(Temporal difference,TD)的誤差.在DQN的基礎上,各種深度強化學習算法相繼被提出,如深度雙Q網絡[34]、對偶Q網絡[35]、深度循環(huán)DQN[36]等.
不同于求解最優(yōu)值函數間接得到最優(yōu)策略,基于策略梯度的強化學習通過策略梯度函數在策略空間內搜索得到最優(yōu)策略.π(a|s;θ)為參數為θ的策略,At是優(yōu)勢函數,通過對累計獎勵的期望E[Rt]進行梯度上升來更新π(a|s;θ),如式(9)所示:
(9)
TRPO[32]及其改進版PPO[33]是使用較多的基于策略搜索的深度強化學習算法.DQN[3]和A3C[31]等深度強化學習算法在訓練時存在一定的波動性,研究者們思考:能不能找到這樣的一種方法,減小深度強化學習算法波動的同時保持其策略穩(wěn)定上升.OpenAI的Schulman等人[32]找到一種衡量策略優(yōu)劣的計算方法,提出了置信域策略優(yōu)化算法TRPO,TRPO保證了每一輪更新后的策略保持單調提升.TRPO計算過程相對復雜,并無法與參數共享的網絡架構兼容,Schulman等人為了解決TRPO的這方面問題,提出了PPO算法[33],將TRPO中的二階梯度約束項改進為一階梯度的懲罰項,極大地簡化了計算過程和計算量.
基于值函數的方法和基于策略搜索的方法有各自的優(yōu)點和缺點[21]:
1)策略搜索方法可以處理動作空間連續(xù)和狀態(tài)空間 大的任務,并能直接將策略的優(yōu)化函數參數化,收斂性好;但策略搜索方法無法直接對產生的策略進行評價,導致策略梯度方差大.
2)值函數方法可以評價動作的好壞;但其無法對動作空間連續(xù)或狀態(tài)空間過高的的任務進行有效求解.
基于演員-評論家(Actor-Critic,AC)的強化學習算法融合了兩者的優(yōu)勢,利用策略搜索方法更新策略,同時結合值函數來對策略進行評價.如圖2為Actor-Critic架構圖,Actor網絡用來輸出動作,Critic網絡用來評估動作選擇的好壞.DDPG與A3C是兩個使用最廣泛的基于演員-評論家的深度強化學習算法.
晉南辦事處銷售員張逸驕,是去年招進公司銷售隊伍、專業(yè)對口的大學生,他與當地52戶農民交上了朋友。除學習市場深耕的基礎知識外,他大多數時間就是進行農化服務,走進農民中間,走進田間地頭,主動為農民講解切合當地農作物實際的科學施肥知識、田間管理知識。在春耕、夏種、秋收、冬藏時節(jié),張逸驕主動參與、跟蹤服務、交流溝通、貼心服務。在當地農民朋友心中,張逸驕就是天脊集團精準服務形象的“標簽”。
圖2 Actor-Critic結構圖Fig.2 Framework of Actor-Critic
Silver等人在確定性策略梯度(Deterministic Policy Gradient,DPG)算法[37]的基礎上提出了深度確定性策略梯度DDPG算法[30],解決了DQN只能用于離散動作的情況,DDPG可應用于連續(xù)動作的任務學習.DDPG算法基于Actor-Critic框架,在動作輸出方面采用Actor網絡來擬合策略函數,直接輸出動作,可以應對連續(xù)動作的輸出及大的動作空間,同時采用Critic網絡擬合值函數估計策略優(yōu)勢.此外,DDPG還采用了類似DQN結構,Actor和Critic都有相應的網絡和目標網絡.訓練決策模型時,只需訓練Actor網絡參數和Critic網絡參數;每間隔一段時間,將Actor網絡參數和Critic網絡參數分別傳遞給Actor目標網絡和Critic目標網絡.
A3C由DeepMind的Mnih等人[31]提出的,A3C算法基于Actor-Critic框架引入了異步訓練和優(yōu)勢函數,加快了算法的訓練速度.A3C無需經驗回放機制,異步訓練建立不同線程的智能體保證了搜索策略的多樣性.每個線程的智能體并行地與環(huán)境交互,降低了訓練樣本的相關性,同時提高了算法的學習速度.
記憶增強型神經網絡也稱為外部記憶體.常見的內部記憶體有LSTM/GRU,它們的訓練參數量會隨著記憶體容量的增大而急劇上升,使得訓練變得困難.常見的外部記憶體結構:經驗回放[3]、記憶網絡[4,5]、情景記憶[6]、神經圖靈機[7]及其改進型的可微分計算機[8].外部記憶體將訓練參數與記憶容量相分離,因此增加記憶體的容量,不會導致訓練參數的增加.
如圖3所示為經驗回放結構圖,它存放著智能體的經驗單元et=(st,at,rt,st+1),不同時刻的經驗單元構成了訓練數據集Dt=(e1,e2,e3,…,et).在智能體的訓練過程中,經驗回放具有以下幾個優(yōu)勢[3]:
圖3 經驗回放結構圖Fig.3 Framework of experience replay
1)每個時刻的經驗單元et會被重復使用,極大地提高了訓練數據的利用率;
2)由于連續(xù)的樣本(即經驗單元)具有高度的相關性,直接用連續(xù)的樣本訓練智能體會導致其學習效率低下;經驗回放能夠隨機打亂訓練數據,去除數據之間的相關性,減小訓練方差;
3)經驗回放能夠平均行為的分布,平滑學習過程并避免參數的振蕩與發(fā)散.
現有的 RNN 在長期記憶中表現不佳,Weston等人[4]提出了記憶網絡MemN來保存問答的知識或者聊天的語境信息.如圖4所示,MemN包括4個重要的組件:輸入(Input)、泛化(Generalization)、輸出(Output)和回答(Response).輸入組件將文本轉換為特征向量,泛化組件更新記憶槽里面的記憶信息,輸出組件將問題文本轉換為向量表示并讀取相關記憶信息,回答組件根據記憶信息與問題文本的向量表示輸出文本答案.
圖4 記憶網絡結構圖Fig.4 Framework of memory network
情景記憶是指個體在特定時間和地點時候的記憶.情景記憶可以提升智能體在復雜狀態(tài)空間中的樣本使用效率,基于少量數據學習,有效近似值函數,同時建立動作與獎勵的長期依賴.
圖5 情景記憶結構圖Fig.5 Framework of episodic memory
DNC由一個可以讀寫外部記憶矩陣的神經網絡組成,類似于傳統(tǒng)計算機中的隨機存取存儲器.DNC既可以像傳統(tǒng)計算機一樣使用它的存儲空間來表征和操作復雜的數據結構,也能像神經網絡一樣從數據中學習.
圖6 可微分計算機結構圖Fig.6 Framework of differentiable neural computer
如圖6所示,DNC包括4個部分[8]:控制器、讀出頭、寫入頭和記憶體.控制器的作用是將輸入信息寫入記憶體,以及生成可以被解讀為答案的輸出;讀出頭通過內容尋址或時間記憶鏈接的方式讀出數據;寫入頭通過內容尋址或動態(tài)記憶分配的方式將數據寫入記憶體;記憶體是一個多維矩陣,用于存儲數據.內容尋址方式適用于具有關聯性的數據,時間記憶鏈接方式適用于序列數據的讀出,動態(tài)記憶分配方式為寫入頭提供未使用的記憶存儲位置.
記憶是實現智能體更高級行為的重要途徑,將記憶增強型神經網絡引入深度強化學習,讓智能體充分利用先驗知識,提升智能體的主動環(huán)境認知與推理能力,做出有效決策.記憶增強型深度強化學習廣泛應用于智能體的導航、機械臂控制、游戲以及自然語言處理等領域.記憶增強型神經網絡使得導航智能體能夠應對部分可觀測且大范圍環(huán)境;使得機械臂能夠執(zhí)行精準的操作;使得游戲人物能夠完成更靈活的動作;使得自然語言處理對話系統(tǒng)更智能.
根據不同的記憶增強型神經網絡與深度強化學習結合,我們將記憶增強型深度強化學習細分為:基于經驗回放的深度強化學習,基于記憶網絡的深度強化學習,基于情景記憶的深度強化學習和基于可微分計算機的深度強化學習.
傳統(tǒng)的經驗回放池[38]采用均勻采樣,忽略了經驗之間的重要程度.為了提高抽樣效率,Schaul等人[39]提出了優(yōu)先級經驗回放(Prioritized Experience Replay,PER),利用時間差分誤差來衡量經驗的優(yōu)先級;PER將重要的經驗被回放的概率增大,加快了智能體在Atari 2600中的學習效率.為了讓優(yōu)先級經驗回放用于多任務,Yin等人[40]將其擴展到多任務強化學習領域,提出了分層優(yōu)先經驗回放(Hierarchical prioritized experience replay,HPER)機制,從多任務的經驗池中選擇性地獲取訓練數據;經驗回放被劃分為幾個采樣分區(qū),每個分區(qū)內,根據經驗的優(yōu)先級對其進行進一步采樣,并執(zhí)行重要性采樣;HPER使得DRL智能體在許多Atari 2600中表現優(yōu)異.另外,Horgan等人[41]提出了分布式優(yōu)先級經驗回放(Distributed Prioritized Experience Replay,DPER),對傳統(tǒng)DQN、DDPG使用分布式actor獲取經驗回放數據,并優(yōu)先選擇更重要的經驗數據進行回放,從而使深度強化學習網絡訓練得更有效率.另外,Kapturowski等人[42]解決傳統(tǒng)經驗池的參數參滯后導致RNN 隱藏狀態(tài)滯后的問題,提出的具有循環(huán)經驗池的分布式DQN算法在Atari-57和DMLab-30上顯著優(yōu)于人類水平.Cha等人[43]為了解決分布式強化學習存在通信開銷大與智能體之間隱私保護的問題,提出了代理經驗回放(Proxy experience replay,ProxER),ProxER提升了分布式強化學習的智能體之間的通信效率和數據的隱私保護.Messaoud等人[44]將先前經驗軌跡的數據存入經驗回放中,在每次迭代中選取一批樣本,對其平均損失執(zhí)行隨機梯度下降;智能體可以高效地解決語義分割中高階條件隨機場的推理問題.
傳統(tǒng)強化學習需要手工設計獎勵函數,但該過程復雜且不可控;如果從簡單的獎勵函數(如二值獎勵)學會任務,就無需設計復雜的獎勵函數.為此,Andrychowicz等人[45]提出了事后經驗回放(Hindsight Experience Replay,HER),HER將失敗經驗中到達的狀態(tài)視為偽目標,從失敗的經驗數據中學習,使得基于深度強化學習的機械臂在二值和稀疏獎勵的情況下也能學習到好的技能.Lu等人[46]將HER推廣至對話學習領域,提出了修剪型HER(Trimming-based HER,T-HER)和拼接型HER(Stitching-based HER,S-HER);T-HER和S-HER對失敗的對話進行修剪和拼接來生成成功的對話數據,最后訓練DQN學習對話策略.對于HER,并非所有的失敗經驗都有效,使用所有失敗經驗導致智能體學習效率不高,Fang等人[47]增加好奇心機制,讓智能體自適應地選擇更有效的失敗經驗,提升DDPG在機械臂控制方面的學習效率.
一些研究者將基于經驗回放的深度強化學習應用于智能體導航領域.Bruce等人[48]將機器人一次遍歷環(huán)境的世界模型存入交互式經驗回放中,讓智能體與世界模型反復交互獲得大量訓練數據以使其學會導航;實現了不需要模型微調,機器人就能在真實環(huán)境中從一個位置到達指定目標.Eysenbach等人[49]提出了一種基于經驗回放的規(guī)劃控制算法,該算法把到達一個較遠的目標狀態(tài)的任務分解成一系列簡單的任務,每一個任務對應于達到一個特定的子目標.利用DQN/DDPG算法構建環(huán)境狀態(tài)的有向圖,有向圖的節(jié)點和邊分別對應環(huán)境的觀察和它們之間的預測距離;節(jié)點存于經驗回放中,通過搜索經驗回放自動生成此子目標序列,使智能體能夠在稀疏環(huán)境下快速學會導航規(guī)劃.Singla等人[50]將經驗回放用于無人機,并結合深度回復式Q網絡實現無人機在非結構和未知的室內環(huán)境中自主避障.
Oh等人[51]利用記憶網絡MemN提出了上下文相關記憶檢索(Context-dependent memory retrieval)讀取機制,基于該記憶讀取機制設計了3種新的記憶型智能體網絡結構:記憶Q網絡(Memory Q-Network,MQN)、循環(huán)記憶Q網絡(Recurrent Memory Q-Network,RMQN)、反饋式循環(huán)記憶Q網絡(Feedback Recurrent Memory Q-Network,FRMQN).這些基于MemN的DRL智能體可以在部分可觀測的Minecraft中主動感知環(huán)境,其學習到的技能具有較好的泛化能力.
Tang等人[52]提出了一種基于情景記憶神經啟發(fā)的認知導航模型,該模型綜合了內嗅皮層的認知映射能力和海馬的情景記憶能力,建立環(huán)境認知地圖.認知地圖和情景記憶之間的信息通過各自的編碼和解碼方案進行交換,該認知導航模型實現了移動機器人在真實環(huán)境中的定位與導航.Chin等人[53]提出了一種情景記憶的無監(jiān)督學習導航模型—增強情景記憶自適應共振理論(Enhanced Episodic Memory Adaptive Resonance Theory,EEM-ART),EEM-ART由多層ART網絡組成,將機器人的經驗分類和編碼到環(huán)境中,并生成認知地圖供機器人連續(xù)地進行路徑規(guī)劃和目標導航.除了利用情景記憶存儲智能體導航的環(huán)境認知地圖,Savinov等人[54]將好奇心與情景記憶結合,緩解導航環(huán)境中獎勵的稀疏性;情景記憶存儲了豐富的環(huán)境信息,通過比較當前觀察值與情景記憶中的觀察值為智能體提供額外的獎勵,在VizDoom和DeepMind Lab中智能體能夠快速學會導航能力.
情景記憶同樣也可以提高深度強化學習的樣本效率.為了提高DQN的采樣效率,Lin等人[55]提出了情景記憶深度Q網絡(Episodic Memory Deep Q-Networks,EMDQN),在EMDQN的訓練過程中,不斷把歷史最優(yōu)的交互軌跡數據存儲在情景記憶中,同時不斷取出訓練;EMDQN學會Atari游戲僅需DQN的五分之一的交互次數.另外,傳統(tǒng)的基于情景記憶的強化學習使用類似表格的記憶體,將經驗數據作為不相關項進行存儲,樣本效率有待進一步優(yōu)化.聯想記憶(Associative Memory)能夠通過經驗之間的聯系來聯想出過去的經驗,Zhu等人[56]借助聯想記憶的優(yōu)勢,提出了基于聯想記憶的情景強化學習(Episodic Reinforcement Learning with Associative Memory,ER-LAM);ER-LAM將相關的經驗軌跡關聯起來,使智能體推理更有效的策略,在導航實驗和Atari游戲中,ER-LAM在樣本效率方面得到明顯優(yōu)化.受人類聯系記憶的啟發(fā),Banino等人[57]提出了一種情景記憶靈活組合的深度網絡,在配對聯想推理任務中智能體可以進行更長距離的推理,具有高效的樣本效率.Cornia等人[58]通過情景記憶向量和編碼與解碼模塊之間的網狀連接來利用先驗知識,將情景記憶結構應用于圖像字幕生成.
研究者也利用情景記憶解決智能體在部分可觀測環(huán)境中學習問題,實質上也是提升智能體在部分可觀測環(huán)境中的樣本使用效率.Wayne等人[59]引入集合記憶(Memory)、強化學習(Reinforcement Learning)和推理網絡(Inference Network)的模型MERLIN,該模型通過一個預測性建模過程來引導記憶的形成,MERLIN能夠成功地解決來自心理學和神經科學行為研究的標準任務.
情景記憶也被用于近似值函數.Xiao等人[60]將情景記憶和蒙特卡洛樹搜索結合應用于圍棋游戲,情景記憶結構中的每個存儲位置都可以包含某個特定狀態(tài)的信息,通過綜合類似的狀態(tài)的估計結果,情景記憶可以生成每個狀態(tài)的估計值;相較于原始的蒙特卡洛搜索算法,基于記憶的蒙特卡洛搜索在圍棋中的表現更好.
基于可微分計算機的深度強化學習廣泛用于智能體導航,目的在于利用DNC提升深度強化學習智能體在動態(tài)復雜環(huán)境或部分可觀測環(huán)境下的決策能力.Khan等人[61]為了解決在部分可觀測空間下路徑規(guī)劃問題,基于值迭代網絡(Value Iteration Network,VIN)基礎上加入外部記憶DNC,提出了記憶增強型控制網絡(Memory Augmented Control Networks,MACN).MACN將網絡分為2部分,帶有VIN的底層網絡學習環(huán)境狀態(tài)特征和值函數圖(Value Map),帶有DNC的高層網絡學習路徑規(guī)劃策略.Zhang等人[62]使用外部存儲器DNC讓智能體學習探索環(huán)境,通過軟注意機制將SLAM的定位、運動預測與測量更新部分嵌入到深度強化學習網絡中.基于外部存儲器結構DNC的尋址使用外部存儲器作為智能體環(huán)境感知后的內在表征,增強了傳統(tǒng)SLAM方法的魯棒性與適應性.除了將豐富的環(huán)境特征存入DNC以提高智能體導航決策能力,研究者也嘗試直接將環(huán)境的地圖信息直接存入記憶體.Parisotto等人[63]基于DNC提出了神經地圖(Neural Map),將環(huán)境的地圖信息映射到DNC記憶體,并設計一種適應性強的讀寫操作,讓網絡的計算量不隨地圖的變大而增大.神經地圖的外部記憶體存儲了環(huán)境地圖的歷史信息,使得智能體的導航能力可以泛化到未見過的VizDoom環(huán)境.
與其他記憶增強型神經網絡類似,DNC同樣可以提高樣本效率.Shi等人[64]將DNC的初始版本NTM用于概念學習,通過綜合隱藏嵌入和標記向量的相似性,同時對記憶槽內的歷史樣本取平均來更新記憶信息,使得智能體在幾個少樣本數據集上表現很好.Beck等人[65]將遞歸網絡與順序無關并基于DNC的匯總記憶相整合,從最近的觀測序列中推斷出狀態(tài)的隱藏特征,使智能體可以回憶起過去任何時間曾經觀察到的信息,極大提高了智能體在Minecraft游戲中的表現.La等人[66]利用DNC的數據存儲和推理能力,對序列數據進行解釋;通過跟蹤預測時的記憶訪問,以及網絡在輸入序列的每一步存儲信息,每次與預測最相關的記憶信息可以被檢索到;在迷宮和故事完形填空的任務中,基于DNC的深度強化學習具有很強的推理能力.
深度強化學習常用的訓練環(huán)境包括[67]:Gym、Gazebo、ViZDoom、DeepMind Lab、Minecraft、TORCS和 PySC2.表1為各訓練環(huán)境的簡介和網址鏈接.
表1 深度強化學習訓練環(huán)境Table 1 Training environments for DRL
Gym由OpenAI推出,不僅包括Cart-Pole、Mountain-Car等簡單游戲,同時還集成了復雜機器人交互控制環(huán)境,如Mujoco、Roboschool等.Gazebo集成于機器人操作系統(tǒng)(Robot operating system,ROS)中,能夠在復雜的室內和室外環(huán)境中準確有效地模擬機器人群,提供了高保真的物理模型.VizDoom是一種基于“毀滅戰(zhàn)士”游戲(第一人稱射擊類游戲)的強化學習實驗平臺,支持多智能體和競爭環(huán)境下測試智能體.DeepMind Lab是DeepMind提出的一個第一人稱3D游戲迷宮,包括收集水果、走迷宮、穿越危險區(qū)域、以及快速學習并記住隨機生成的環(huán)境.Malmo是基于游戲“我的世界”Minecraft設計的虛擬訓練環(huán)境,研究者可以通過該游戲訓練智能體自主地應對復雜環(huán)境.TORCS是一個跨平臺的賽車游戲模擬器,可作為強化學習的研究平臺.PySC2是DeepMind開源的StarCraft II的研究平臺,允許研究者使用該游戲來訓練自己的智能體.
沒有記憶就沒有真正的智能,記憶增強型深度強化學習受到越來越多研究者的關注,并取得了一些重要發(fā)展.同時,它也面臨著一些不足與挑戰(zhàn),主要體現以下幾個方面:
1)記憶的可解釋性
目前,記憶增強型神經網絡主要存儲了一些反映狀態(tài)信息的數值,其物理意義尚不明確.對記憶體可解釋性的研究對提升其使用效率具有重要的意義.
2)不同記憶增強型神經網絡的融合
不同的記憶增強型神經網絡具有不同的記憶優(yōu)勢,如何發(fā)揮各自的優(yōu)勢,設計一個通用且高效的記憶體具有重要的研究價值.
3)記憶信息的有效編碼與存儲
記憶增強型神經網絡通過高維特征向量存儲記憶信息,但記憶信息的不斷增加會導致存儲空間的不斷增大.如何有效地對記憶信息進行編碼,利用盡量少的存儲空間保存記憶信息成為了解決這一難題的關鍵.
4)記憶信息的泛化性
記憶信息有助于提高深度強化學習算法性能,然而記憶信息往往保存著某一特定場景的結構性信息.如何增強記憶信息的泛化性能,使記憶信息表征環(huán)境的通用信息,利用通用的記憶信息提高深度強化學習的泛化性能,實現深度強化學習的實際應用值得進一步研究.
5)實時性與高效性
目前,基于記憶增強型的深度強化學習計算量較大,研究如何設計或通過神經架構搜索等方法獲得輕量級網絡來降低模型的參數量和計算量,是其投入實際應用面臨的重要問題.
本文對記憶增強型深度強化學習進行了分類介紹與討論,介紹了典型的深度強化學習算法和記憶增強型神經網絡,并分別對基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習算法進行了綜述.同時,介紹了深度強化學習常用的訓練環(huán)境.最后對記憶增強型神經網絡存在的挑戰(zhàn)與未來研究方向進行了討論.