顧 揚 程玉虎 王雪松
由于兼具了強化學習優(yōu)良的決策能力以及深度學習強大的表征能力和泛化性能,深度強化學習已成為解決復雜環(huán)境下感知決策問題的一個可行方案[1].近年來,深度強化學習已經(jīng)在機器人控制[2]、電力系統(tǒng)優(yōu)化[3]、網(wǎng)絡安全[4]、視頻游戲[5-6]、醫(yī)療健康[7]、自動駕駛[8-9]等領域取得了成功應用.
隨著深度強化學習理論和方法的發(fā)展,學者們嘗試開發(fā)智能體去處理一些數(shù)據(jù)采集困難,對硬件設備安全構成威脅的學習任務[10].2020 年之前,參考機器學習中批量學習的方法,學者們提出了一種無需進行探索、經(jīng)驗緩存固定的深度強化學習,并命名為批強化學習[11].2020 年后,隨著批強化學習熱度的提升,Levine 等[10]將此類算法重新命名為離線強化學習.離線強化學習有著行為策略下固定大小的經(jīng)驗緩存,可以避免在線探索帶來的環(huán)境噪聲和危險行為[12].一方面,離線強化學習可以從在線強化學習的經(jīng)典算法中汲取靈感[13],有較長遠的發(fā)展前景.另一方面,離線強化學習中,大部分算法通過引入模仿學習[14]來減小分布偏移,降低了強化學習與其他機器學習方法之間的壁壘.但一個值得關注的問題是: 習得策略下,智能體對離線經(jīng)驗緩存分布之外的(Out-of-distribution,OOD)狀態(tài)評估會包含誤差,從而表現(xiàn)并不理想.
針對這一問題,研究者們提出了許多解決方案.Fujimoto 等[15]率先提出了第一個能夠從任意批數(shù)據(jù)(離線數(shù)據(jù))中學習而無需探索的批約束深度Q學習(Batch-constrained deep Q-learning,BCQ).BCQ 采用Q 學習技術,在選取最大化Q 值對應的動作時,希望只考慮實際出現(xiàn)在離線數(shù)據(jù)集中的狀態(tài)-動作對,而不考慮分布外的動作.為此,Kumar等[16]利用變分自編碼器來生成與離線數(shù)據(jù)集分布相近的動作,并結合一個擾動網(wǎng)絡模型對生成的動作進行調優(yōu),從而使動作具有多樣性.測試階段,在生成的動作空間中選擇使Q 值最大的那些動作.由于BCQ 不涉及對未知狀態(tài)-動作對的考慮,因此不會在策略與值函數(shù)上引入額外的偏差,同時,動作與值函數(shù)分開學習,也避免了誤差累積.然而,Kumar 等[16]指出: 由于BCQ 對策略施加的約束較強,因此當離線數(shù)據(jù)集質量較差時,BCQ 只能有限地改善策略性能.進一步,Kumar 等[16]分析了分布偏移導致的自舉誤差,提出了使用兩個獨立值函數(shù)結構的自舉誤差累積消減算法(Bootstrapping error accumulation reduction,BEAR),利用支持集匹配的思想來防止自舉誤差累積.此外,BEAR 通過約束當前策略與行為策略之間的最大均值差異(Maximum mean discrepancy,MMD)[17]來使習得策略盡可能接近行為策略以緩解分布偏移問題.然而,由于需要計算MMD 距離,BEAR 的計算代價較大.Jaques 等[18]通過減小習得策略和行為策略之間的KL 散度,使學習到的策略逼近行為策略.與之類似,Maran 等[19]使用Wasserstein 距離來描述策略間差異,將減小策略分布間的Wasserstein 距離作為正則化項添加到優(yōu)化目標中.為評估不同行為策略正則化項的重要性,Wu 等[20]引入一個通用的算法框架,稱為行為正則化Actor-Critic.該框架涵蓋了BCQ、BEAR 等,同時提供了多種實際選擇方案,使研究人員能夠以模塊化的方式比較不同變體的性能.進一步,Wu 等[20]提出兩類正則化方法:BRAC-v 與BRAC-p,前者是對值函數(shù)進行正則化,后者則是對策略進行正則化.值得注意的是,值函數(shù)正則化雖然可以提高OOD 狀態(tài)評估的準確程度,但也會在值函數(shù)更新過程中增加噪聲,使習得策略難以收斂.策略正則化雖然能有效降低分布偏移且提高習得策略的穩(wěn)定性,但會增大習得策略陷入局部最優(yōu)的概率.
上述離線強化學習方法都傾向于通過降低分布偏移來提高習得策略的質量,但忽視了離線數(shù)據(jù)集質量對離線強化學習性能的影響.類似的,在在線強化學習方法中,經(jīng)驗的好壞對智能體的訓練起到非常重要的作用.因此,如何讓智能體高效地選擇樣本也是提高強化學習算法性能的一個有效措施.Schaul 等[21]在在線強化學習(深度Q 網(wǎng)絡)中采用了優(yōu)先經(jīng)驗回放技術,主要思路為: 通過時序差分(Temporal difference,TD)誤差估計經(jīng)驗池(經(jīng)驗緩存區(qū))中樣本的重要程度并賦予樣本不同的優(yōu)先級,使那些在訓練過程中對智能體更加重要的樣本更容易被選擇.Horgan 等[22]在優(yōu)先經(jīng)驗回放技術的基礎上提出了分布式經(jīng)驗池的思想,進一步提升了強化學習智能體在復雜環(huán)境中的表現(xiàn).
離線經(jīng)驗緩存的質量主要會通過以下兩個方面來影響離線強化學習的訓練: 1) 行為策略下生成的離線經(jīng)驗緩存中會包含折扣回報低于平均水平的失誤經(jīng)驗,這些經(jīng)驗所占比例往往不高.因此,訓練過程中智能體容易忽視失誤經(jīng)驗,無法在對應的場景下做出最優(yōu)的行為.2) 離線經(jīng)驗緩存中的樣本根據(jù)其是否有利于策略優(yōu)化可以分為正樣本與負樣本,負樣本更多的存在于失誤經(jīng)驗集合中,過多采樣負樣本進行訓練會導致習得策略的質量不理想.于是,參考在線強化學習采用的優(yōu)先經(jīng)驗回放技術,離線強化學習也需要通過優(yōu)化采樣模型來改善強化學習智能體的訓練效果,從而提高習得策略的質量.為此,本文提出兩種離線優(yōu)先采樣模型: 1) 基于時序差分誤差的采樣模型,可以提高值函數(shù)的估計精度,有效地應對可能出現(xiàn)的OOD 狀態(tài).2) 基于鞅的采樣模型,可以對經(jīng)驗數(shù)據(jù)進行篩選,使智能體自主地優(yōu)先學習對策略優(yōu)化有利的正樣本.進一步,將這兩種采樣模型與BCQ 相結合,提出基于時序差分誤差的優(yōu)先BCQ (TD-PBCQ)和基于鞅的優(yōu)先BCQ (M-PBCQ).D4RL 和Torcs 數(shù)據(jù)集上的實驗結果表明: 1) TD-PBCQ 適用于行為策略基本收斂,且離線經(jīng)驗緩存中包含少量失誤經(jīng)驗的離線強化學習任務.2) M-PBCQ 適用于離線經(jīng)驗緩存中包含較多失誤經(jīng)驗的離線強化學習任務.
為提高離策略深度強化學習算法在離線強化學習場景下的工作效果,Fujimoto 等[15]通過構建編碼器網(wǎng)絡和擾動網(wǎng)絡來生成更好的策略,提出了批約束深度Q 學習.在BCQ 中,編碼器網(wǎng)絡和擾動網(wǎng)絡輸出的動作可表示為狀態(tài)到動作的映射μBCQ:
通過變分自編碼器V AEω和擾動網(wǎng)絡ξ?,BCQ可以在不與環(huán)境進行交互的限制條件下,遍歷到一個受限域區(qū)間內的多個動作,因此BCQ 有概率學習到比行為策略更好的策略.在值函數(shù)更新部分,BCQ 使用了兩個Q 值網(wǎng)絡Q θ1和Q θ2來降低過估計誤差,其目標值的計算方法為:
其中,λ為在區(qū)間 (0,1) 取值的參數(shù),可以通過選擇不同的λ來調節(jié)未來時間步不確定性給值函數(shù)更新帶來的影響.當 Φ=0 且n=1 時,BCQ 會退化為行為克隆算法,機械地學習所有離線經(jīng)驗數(shù)據(jù).當Φ趨向于動作的上下限且n →∞時,BCQ 等價于在線Q 學習,會產(chǎn)生較大的外推誤差.BCQ 通過在線強化學習使值函數(shù)估計逼近最優(yōu)值函數(shù),通過行為克隆算法減小測試時OOD 狀態(tài)出現(xiàn)的概率.
BCQ 算法定義了外推誤差,主要用于描述強化學習算法由于經(jīng)驗數(shù)據(jù)不足導致的估計誤差.在離線強化學習場景下應用離策略算法,離線值函數(shù)和在線值函數(shù)Qπ之間的差異為:
其中,P π(s) 為策略π下遍歷到狀態(tài)s的概率.
假設離線經(jīng)驗緩存為B,其中包含的樣本數(shù)為M,對應的行為策略為πB.行為克隆(Behavior clone,BC)可以高效地學習B中狀態(tài)到動作的映射,但B中經(jīng)驗數(shù)據(jù)相關性較高,BC 的訓練很容易過擬合,因此訓練得到的策略魯棒性很差.與行為克隆算法相比,離線強化學習算法的樣本效率雖然不高,但會根據(jù)經(jīng)驗數(shù)據(jù)學習狀態(tài)值等指標來評價狀態(tài)和動作的好壞.這些指標可以幫助智能體在訪問OOD狀態(tài)時做出合理的動作,因此離線深度強化學習習得策略的魯棒性更高.但是,離線深度強化學習仍面臨著這樣一個問題: 經(jīng)驗數(shù)據(jù)分布不理想會導致學習過程中產(chǎn)生累積誤差.
假設離線數(shù)據(jù)集中存在兩類狀態(tài)s+和s-,其中狀態(tài)s-對應的經(jīng)驗即為失誤經(jīng)驗.離線經(jīng)驗緩存B中s+被采樣的概率越大,意味著s+有更高的概率被采樣,由s+計算得到的損失會主導模型的訓練,離線強化學習算法對s+的狀態(tài)值的估計越準確.如果s-被采樣的概率很小,由失誤經(jīng)驗計算得到的梯度很容易被忽略,進而導致智能體無法在狀態(tài)s-做出正確的行為.因此,增強對狀態(tài)s-的學習有利于逼近真實的策略評價指標.
對于優(yōu)先經(jīng)驗回放(Prioritized experience replay,PER)來說,樣本的采樣概率定義為[21]:
其中,υ為對應的經(jīng)驗數(shù)據(jù),p(υ) 為經(jīng)驗數(shù)據(jù)υ對應的優(yōu)先級.o為指數(shù)參數(shù),用于決定優(yōu)先級使用的程度.如果取o=0,則采樣模型在B中均勻采樣.我們考慮將優(yōu)先經(jīng)驗回放引入離線強化學習算法中,并命名為基于時序差分誤差的采樣模型.
在基于時序差分誤差的采樣模型中,p(υ)=|δυ|+σ,σ為優(yōu)先級修正系數(shù),用來避免優(yōu)先級為0 的經(jīng)驗被采樣的概率為0.如果使用一步更新的Q 學習算法,則B中經(jīng)驗數(shù)據(jù)υ對應的TD 誤差δυ為:
由于離線經(jīng)驗緩存的數(shù)據(jù)分布是固定的,離線經(jīng)驗優(yōu)先級的計算比在線場景下的確定性更強.離線訓練中,PER 會使智能體更多地關注失誤經(jīng)驗,減少信息的浪費.然而,如果失誤經(jīng)驗中包含較多的負樣本,PER 反而會增大負樣本的采樣概率,阻礙策略的優(yōu)化.
鞅論是現(xiàn)代概率論的一個重要內容,也是隨機過程和數(shù)理統(tǒng)計研究的重要工具.實際上,在強化學習算法的發(fā)展過程中,鞅論和強化學習之間一直存在著很深的聯(lián)系,很多鞅論的方法被用于理論證明強化學習算法的有效性.例如,Mandl[23]找到了有限控制Markov 過程中存在的鞅過程.Hernández-Lerma 和Ozak[24]研究了離散Markov 過程,并給出了策略優(yōu)化的等價命題,其中研究的很多值迭代過程與鞅有關.Even-Dar 和Mansour[25]使用Azuma 不等式來約束鞅的變化偏差,估計值函數(shù)在某更新步完成優(yōu)化的概率,進而估計策略優(yōu)化所需的時間.Hu 等[26]使用杜布分解來簡化下鞅過程,使得復雜系統(tǒng)更容易被智能體學習.Chow 等[27]利用上鞅收斂性來確保Lyapunov 函數(shù)的收斂,并用于求解約束MDP 問題.為此,本文嘗試通過分析采樣數(shù)據(jù)對應的軌跡是否為下鞅來推斷經(jīng)驗數(shù)據(jù)是否有利于策略優(yōu)化.
進一步,可以得出
由此可以得出: 如果 E [r(st+1)|st]=r(st),則有 E [V(st+1)|st]=V(st).
通過定理1 可以看出: 如果回報函數(shù)為鞅,即E[r(st+1)|st]=r(st),說明經(jīng)驗對應的路徑和值函數(shù)更新過程都為鞅.由停時定理和鞅的一致收斂性可知,對任意停時T<∞,總有 E [VT]=E[V0].也就是說,此時無論訓練多少步,值函數(shù)的期望都不會發(fā)生變化.當且僅當 E [V(st+1)|st]>V(st) 時,值函數(shù)更新才滿足強化學習的策略優(yōu)化條件.于是,可以通過估計 E [V(st+1)|st] 與V(st) 之間的大小差異來評估經(jīng)驗數(shù)據(jù)對策略優(yōu)化的有利程度.
為了更好地解釋鞅與策略優(yōu)化之間的關系,以格子世界環(huán)境為例加以闡述.如圖1(a)所示環(huán)境示意圖,智能體從O出發(fā),到達目標G終止一個情節(jié).如圖1(b)所示最優(yōu)值函數(shù)熱圖,由于到達G點情節(jié)被終止,因此G點的狀態(tài)值并不會迭代更新,導致其數(shù)值較小.本次實驗使用基于線性函數(shù)逼近的Q 學習在迷宮中訓練300 個迭代步,每隔50 次迭代繪制一張值函數(shù)熱圖.共進行了兩個批次的訓練,值函數(shù)迭代更新過程如圖2 所示.圖2 中,相比于訓練批次2,訓練批次1 的值函數(shù)明顯更趨近于最優(yōu)值函數(shù).于是,可以得出如下觀點:
圖1 格子世界實驗圖 Fig.1 Experimental diagram of grid-world
圖2 值函數(shù)更新熱圖Fig.2 Heatmap of value function updating
1) 圖2 中每一個像素點s的亮度用于描述對應狀態(tài)值V(s) 的大小.如果熱圖中像素點s′比s的亮度高,則說明V(s′)>V(s).
2) 值函數(shù)的更新會按照被訪問的先后順序s →s′,從亮點逐級反向傳播,即有效的值函數(shù)更新從滿足 E [V(s′)|s]>V(s) 的狀態(tài)s開始.如圖2 所示,批次1 中滿足 E [V(s′)|s]>V(s) 的狀態(tài)數(shù)量明顯高于批次2 中的狀態(tài)數(shù)量.因此,經(jīng)驗緩存中,滿足 E [V(s′)|s]>V(s) 的經(jīng)驗數(shù)據(jù)占比越高,越有利于值函數(shù)的學習.
3) 如圖2(b)所示,前150 次迭代沒有亮點出現(xiàn),值函數(shù)熱圖維持不變.因此,如果狀態(tài)值滿足E[V(s′)|s]≤V(s),值函數(shù)優(yōu)化效率很低.150 次迭代后,批次2 的熱圖中雖然出現(xiàn)了亮點,但亮度十分有限.說明訓練批次2 的經(jīng)驗緩存中,滿足E[V(s′)|s]≤V(s)的經(jīng)驗數(shù)據(jù)占比較高,從而會產(chǎn)生累積誤差,不利于值函數(shù)的學習.
綜上所述,我們認為經(jīng)驗緩存中包含越多符合E[V(s′)|s]>V(s)的經(jīng)驗數(shù)據(jù)越有利于值函數(shù)和策略的優(yōu)化,這一觀點在離線強化學習場景中同樣適用.
由于負樣本會一直存在于離線經(jīng)驗緩存B中,其對習得策略的不良影響會隨著重復采樣而增強.于是,為減少對負樣本的采樣頻率,提出基于鞅的采樣模型.設策略π下狀態(tài)-動作對 (s,a) 被采樣的概率為由于強化學習會貪心地選擇動作,因此狀態(tài)s下選擇不同動作的概率差異一般會較大,可以得到推論1.
推論 1.在離線強化學習場景下,均勻采樣學習得到的策略有概率不為離線經(jīng)驗中的最優(yōu)策略.
推論1 說明: 離線經(jīng)驗緩存中如果折扣回報低的經(jīng)驗數(shù)據(jù)占比很高,則離線強化學習算法就有高概率陷入局部最優(yōu).
根據(jù)第3.1 節(jié)的描述可知,如果 (s,a,r,s′) 對應的軌跡為下鞅,則認為 (s,a,r,s′) 更有利于策略的優(yōu)化.如果 (s,a,r,s′) 對應的軌跡為鞅或上鞅,則頻繁地采樣 (s,a,r,s′) 以更新網(wǎng)絡參數(shù)反而會出現(xiàn)如圖2(b)一樣的誤差累積狀況,從而阻礙值函數(shù)的優(yōu)化.為此,可以考慮基于 E [V(st+1)|st] 與V(st)之間的數(shù)值差異來設計一種樣本評估方法,得到下述推論.
推論 2.經(jīng)驗數(shù)據(jù)有利于值函數(shù)優(yōu)化的程度與鞅差 E [V(s′)|s]-V(s) 正相關.
證明.設在第k個迭代步,值函數(shù)優(yōu)化的幅度為 ΔVk:=Vk+1(s)-Vk(s),使用期望狀態(tài)值來計算目標值,則有:
由于同一狀態(tài)下即時回報r(s) 是一個常數(shù),且γ大于 0,因此得到:
如果 ΔVk很大,則說明當前的狀態(tài)值過于低估了數(shù)據(jù) (s,a,r,s′),優(yōu)先學習這個數(shù)據(jù)可以讓值函數(shù)找到優(yōu)化的方向,并可在此基礎上更準確地判斷其他數(shù)據(jù)的 ΔV,使得整個策略向著一個好的方向發(fā)展.反之,如果 ΔVk很小,則說明數(shù)據(jù)(s,a,r,s′)所在的過程更可能是上鞅,此時狀態(tài)值會隨更新迭代變小或維持原樣,不利于策略的優(yōu)化.
推論2 表明在值函數(shù)的優(yōu)化過程中,應當著重學習 E [V(s′)|s]-V(s) 數(shù)值較高的數(shù)據(jù) (s,a,r,s′),并降低對數(shù)值過低數(shù)據(jù)的采樣頻率.在實際訓練過程中,鑒于增加額外的網(wǎng)絡用于學習 E [V(s′)|s] 和V(s)會比較耗時,此處考慮使用一種近似的簡便計算方法來求取基于鞅的優(yōu)先級.
推論 3.對于數(shù)據(jù)基于鞅的優(yōu)先級為:
證明.對于離線強化學習來說,其狀態(tài)值迭代公式為:
對應地,有利于值函數(shù)優(yōu)化的程度可以表征為:
其中,β=1/(1-γ) 為大于0、小于1 的常數(shù),離線經(jīng)驗數(shù)據(jù)對訓練的有利程度與EB[V(s′)]/βr(s,a)的大小正相關.當值函數(shù)估計存在誤差時,EB[V(s′)]/β-r(s,a)的值會很小,使得優(yōu)先級差異不大,難以區(qū)分.可以進一步推導出:
因此,推論3 成立.
綜上所述,基于鞅的采樣模型使用基于鞅的優(yōu)先級來決定數(shù)據(jù)υ被采樣的概率:
其中,σ為優(yōu)先級修正系數(shù),用于避免樣本的采樣概率完全為0.
將基于時序差分誤差的采樣模型和基于鞅的采樣模型分別與BCQ 相結合,得到兩種離線強化學習方法: TD-PBCQ 和M-PBCQ.為表述方便,算法1 給出BCQ 的偽代碼.
算法 1.BCQ
TD-PBCQ 通過變分自編碼器生成n個動作,并根據(jù)這些動作進行目標值的計算和網(wǎng)絡的優(yōu)化.考慮到目標值中會包含一定的擾動,優(yōu)先級δ改寫為:
將BCQ 偽代碼中的步驟1)、2)、3)替換為算法2 中的步驟,即可得到TD-PBCQ 的偽代碼.
算法 2.TD-PBCQ
由式(12)可以看出,基于鞅的采樣模型需要計算 E [V(s′)].由于擾動網(wǎng)絡會生成置信區(qū)間內的n個動作,如果使用貪心策略,則可以認為E[V(s′)]=因此,將這些狀態(tài)-動作對應的Q值取平均作為期望狀態(tài)值E[V(s′)],使得對基于鞅的優(yōu)先級評估更加保守.為此,基于鞅的優(yōu)先級可改寫為:
將BCQ 偽代碼中的步驟1)、2)、3)替換為算法3 中的步驟,即可得到M-PBCQ 的偽代碼.
算法 3.M-PBCQ
1) 計算重要性采樣權重: M-PBCQ 不計算重要性采樣權重
2) 更新優(yōu)先級: 根據(jù)式(18)計算優(yōu)先級uj,根據(jù)式(16)更新經(jīng)驗數(shù)據(jù)的優(yōu)先級
3) 累積Q 值網(wǎng)絡參數(shù)變化 Δθ和擾動網(wǎng)絡參數(shù)變化 Δ?:
累積Q 值網(wǎng)絡參數(shù)變化
累積擾動網(wǎng)絡參數(shù)變化
首先,將TD-PBCQ、M-PBCQ 和BCQ 在D4RL提供的公用離線數(shù)據(jù)集上,針對Ant、HalfCheetah、Hopper、Walker2d 等任務在中等(medium)和專家(expert)數(shù)據(jù)集上進行實驗.然后,將TD-PBCQ、M-PBCQ 和BCQ 在Torcs 任務的離線經(jīng)驗緩存上進行實驗.實驗中,具體的參數(shù)設置如表1 所示.
表1 參數(shù)設置Table 1 Parameter settings
當離線數(shù)據(jù)集中的經(jīng)驗數(shù)據(jù)為medium 等級時,TD-PBCQ、M-PBCQ 和BCQ 在D4RL 任務上取得的回報曲線如圖3 所示,其中實線為平均回報曲線,陰影區(qū)域為平均獎勵的標準差.圖4 給出了medium 離線數(shù)據(jù)集中各路徑所對應總回報的統(tǒng)計直方圖.由圖3、4 可以得出如下結論:
圖3 平均回報曲線對比(medium 經(jīng)驗數(shù)據(jù))Fig.3 Comparison of average reward curves(medium experience data)
圖4 回報的統(tǒng)計直方圖(medium 經(jīng)驗數(shù)據(jù))Fig.4 Statistical histogram of reward(medium experience data)
1) 在Ant、HalfCheetah 和Walker2d 中TDPBCQ 取得了最高的回報.這是由于: Ant、HalfCheetah 和Walker2d 任務中medium 離線經(jīng)驗數(shù)據(jù)的回報統(tǒng)計直方圖是右偏的,且最高峰在最右側.此種情況下,TD-PBCQ 通過降低時序差分誤差,得到了更準確的值函數(shù);BCQ 和M-PBCQ 均是更傾向于最優(yōu)路徑的學習,值函數(shù)估計誤差的累積使得其最終性能不如TD-PBCQ.也就是說,如果策略沒有收斂,且離線經(jīng)驗都分布在緩存中最優(yōu)路徑周圍,TD-PBCQ 可以取得更好的實驗效果.
2) 在Hopper 任務中,M-PBCQ 的平均回報收斂到1 600 以上,而BCQ 和TD-PBCQ 的平均回報均在1 600 以下.由圖4(c)可以看出,與其他3 個任務不同,Hopper 任務中medium 離線經(jīng)驗緩存中的路徑總回報大都分布在1 100~1 600 的中等水平區(qū)間內.因此,Hopper 任務中medium 的離線經(jīng)驗緩存中有較多負樣本,導致BCQ 和TD-PBCQ陷入局部最優(yōu).但是,M-PBCQ 能夠減弱負樣本對策略優(yōu)化的負面影響,使得習得策略明顯優(yōu)于離線經(jīng)驗緩存中的平均水平.
3) 在所有4 個測試任務上,TD-PBCQ 和MPBCQ 的平均回報曲線都要高于BCQ.這是由于:medium 策略并不是最優(yōu)策略,如果使用均勻采樣,正、負樣本有相同的概率被選擇,因此BCQ 的性能被抑制.也就是說,改變采樣模型可以有效降低離線強化學習中的誤差累積,提高算法的學習性能.
expert 策略等價于最優(yōu)策略,收集得到的經(jīng)驗數(shù)據(jù)集也基本上都分布在最優(yōu)路徑的周圍.當離線數(shù)據(jù)集中的經(jīng)驗數(shù)據(jù)為expert 等級時,TD-PBCQ、M-PBCQ 和BCQ 在D4RL 任務上取得的回報曲線如圖5 所示.圖6 給出了expert 離線數(shù)據(jù)集中各路徑所對應總回報的統(tǒng)計直方圖.由圖5、6 可以看出:
圖5 平均回報曲線對比(expert 經(jīng)驗數(shù)據(jù))Fig.5 Comparison of average reward curves(expert experience data)
圖6 回報的統(tǒng)計直方圖(expert 經(jīng)驗數(shù)據(jù))Fig.6 Statistical histogram of reward(expert experience data)
1) TD-PBCQ 在Ant 和Hopper 任務上取得了最高的回報.這是由于: Ant 和Hopper 任務中expert 離線經(jīng)驗數(shù)據(jù)的回報統(tǒng)計直方圖是右偏的且最高的峰在最右側.另外,這兩個任務中的expert行為策略并沒有完全收斂,都有一定概率訪問遠離主要路徑的經(jīng)驗數(shù)據(jù).在此類離線強化學習任務中,TD-PBCQ 有效減小了值估計誤差,因此取得了最好的實驗效果.
2) 如果策略完全收斂到最優(yōu)策略,TD-PBCQ的訓練會過擬合,影響實驗效果.從圖6(b)可以看出,HalfCheetah 任務中回報統(tǒng)計直方圖左側的數(shù)據(jù)非常少.TD-PBCQ 由于過度采樣左側的數(shù)據(jù)導致值函數(shù)的訓練過擬合,算法性能受到抑制,最終表現(xiàn)不如BCQ.
3) 從圖6(d)可以看出,Walker2d 任務中的離線經(jīng)驗數(shù)據(jù)基本都分布在最優(yōu)路徑上.BCQ、TDPBCQ 和M-PBCQ 的平均回報曲線較為相似,最后都取得了超過4 500 的平均回報.這是因為在經(jīng)過多次迭代后,BCQ 和TD-PBCQ 的采樣模型均為均勻采樣,抑制了回報的上升趨勢.然而,M-PBCQ 可以一直降低對負樣本的采樣頻率,因而以較小的優(yōu)勢強于BCQ 和TD-PBCQ.
Torcs 是一款開源3D 賽車模擬游戲,其賽道較長、路況復雜且沒有公開的經(jīng)驗數(shù)據(jù)集.在實驗過程中,使用中等行為策略收集了平均回報為7 820的離線數(shù)據(jù).表2 和圖7 給出了BCQ、TD-PBCQ和M-PBCQ 在Torcs 任務上的實驗結果,可以得出:
表2 Torcs 任務上平均回報對比Table 2 Comparison of average reward on Torcs task
圖7 平均回報曲線對比(Torcs)Fig.7 Comparison of average reward curves (Torcs)
1) 如圖7 所示,50 000 步之前,TD-PBCQ 學習到了優(yōu)于BCQ 的策略.然而,TD-PBCQ 習得策略的穩(wěn)定性并不高.在93 000 個訓練步后,隨著TD誤差的降低,基于TD 誤差的采樣模型會退化為均勻采樣.因此,負樣本對算法訓練的不良影響逐漸變強,使得習得策略發(fā)生了退化.
2) 相比于TD-PBCQ 和BCQ,M-PBCQ 的習得策略有著明顯的優(yōu)勢,這是因為離線優(yōu)先采樣模型可以降低負樣本對訓練的影響,使智能體學習到更好的策略.另一方面,與基于TD 誤差的采樣模型不同,基于鞅的采樣模型不會退化為均勻采樣,一些不利于策略優(yōu)化的經(jīng)驗數(shù)據(jù)在整個訓練過程中被采樣的頻率都會受到限制,因此M-PBCQ 的穩(wěn)定性更好.
強化學習通過智能體與環(huán)境在線交互來學習最優(yōu)策略,近年來已成為求解復雜環(huán)境下感知決策問題的重要手段.然而,在線收集數(shù)據(jù)的方式可能會引發(fā)安全、時間或成本等問題,極大限制了強化學習在實際中的應用.幸運的是,離線強化學習能夠僅從歷史經(jīng)驗數(shù)據(jù)中學習策略,而無需與環(huán)境產(chǎn)生交互,這種數(shù)據(jù)驅動的方式為實現(xiàn)通用人工智能提供了新契機.然而,離線數(shù)據(jù)集的質量將影響算法的學習性能,想要從離線數(shù)據(jù)集中學到一個好的策略并非易事.為此,本文圍繞如何從離線數(shù)據(jù)集中高效地選擇有價值的樣本展開研究,利用時序差分誤差和鞅來構造樣本優(yōu)先級,提出兩種離線優(yōu)先采樣模型: 基于時序差分誤差的采樣模型和基于鞅的采樣模型.在智能體訓練過程中,這兩種采樣模型可以有針對性地選擇經(jīng)驗數(shù)據(jù),引導值函數(shù)估計和策略優(yōu)化.進一步,將所提兩種采樣模型與BCQ 相結合,提出基于時序差分誤差的優(yōu)先BCQ 和基于鞅的優(yōu)先BCQ.需要指出的是,所提離線優(yōu)先采樣模型具有通用性,可以方便地與其他離線強化學習方法相結合.