摘" 要: 針對(duì)深度強(qiáng)化學(xué)習(xí)算法在部分可觀測(cè)環(huán)境中面臨的稀疏獎(jiǎng)勵(lì)、信息缺失等問題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機(jī)網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗(yàn)樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗(yàn)回放技術(shù)選取高質(zhì)量樣本,通過自模仿學(xué)習(xí)對(duì)優(yōu)秀的序列軌跡進(jìn)行模仿,并更新一個(gè)新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。在Minigrid環(huán)境中設(shè)置了消融與對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,所提算法在收斂速度上具有明顯優(yōu)勢(shì),并且能夠完成更為復(fù)雜的部分可觀測(cè)環(huán)境探索任務(wù)。
關(guān)鍵詞: 好奇心模塊; 自模仿學(xué)習(xí); 深度強(qiáng)化學(xué)習(xí); 近端策略優(yōu)化; 隨機(jī)網(wǎng)絡(luò); 優(yōu)先經(jīng)驗(yàn)回放
中圖分類號(hào): TN911?34; TP242.6" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " 文章編號(hào): 1004?373X(2024)16?0137?08
Exploration algorithm based on intrinsic curiosity and SIL
Lü Xianglin1, 2, ZANG Zhaoxiang1, 2, LI Sibo1, 2, ZOU Yaobin1, 2
(1. Hubei Key Laboratory of Intelligent Vision Monitoring for Hydropower Engineering, China Three Gorges University, Yichang 443002, China;
2. School of Computer and Information, China Three Gorges University, Yichang 443002, China)
Abstract: In allusion to the problems of sparse rewards and missing information faced by deep reinforcement learning algorithm in partially observable environments, a proximal policy optimization algorithm combining curiosity module and self?imitation learning (SIL) is proposed. In this algorithm, the random network is used to generate empirical sample data during the exploration process, and then the priority experience replay technology is used to select high?quality samples. The excellent sequence trajectories are imitated by means of SIL, and a new policy network is updated to guide the exploration behavior. The ablation and comparison experiments were performed in the Minigrid environment. The experimental results show that the proposed algorithm has a significant advantage in convergence speed and can complete more complex exploration tasks of partially observable environments.
Keywords: curiosity module; self?imitation learning; deep reinforcement learning; proximal policy optimization; random network; priority experience replay
0" 引" 言
部分可觀測(cè)馬爾科夫過程(POMDP)是指智能體在探索過程的視野受限,僅能通過掌握局部環(huán)境的觀測(cè)信息進(jìn)行問題分析與建模,并智能化地做出后續(xù)決策。近年來,深度強(qiáng)化學(xué)習(xí)算法已在多智能體對(duì)抗游戲[1?3]、機(jī)器人控制[4?6]、自動(dòng)駕駛[7?10]和兵棋推演[11?12]等諸多非完全信息的任務(wù)中取得了巨大的成功。
POMDP任務(wù)存在信息缺失與稀疏獎(jiǎng)勵(lì)等問題,目前學(xué)者們主要采用回放歷史信息、循環(huán)神經(jīng)網(wǎng)絡(luò)以及好奇心探索機(jī)制等方法來解決信息缺失和稀疏獎(jiǎng)勵(lì)問題。文獻(xiàn)[13]按照所收集的經(jīng)驗(yàn)樣本的時(shí)序誤差不同,賦予每個(gè)樣本不同的優(yōu)先概率,有效地利用過去的探索經(jīng)驗(yàn)優(yōu)化了訓(xùn)練效果。文獻(xiàn)[14]結(jié)合強(qiáng)化學(xué)習(xí)算法與優(yōu)先經(jīng)驗(yàn)回放加速了POMDP任務(wù)的收斂,能夠處理更復(fù)雜的對(duì)話管理場(chǎng)景?;谧畲箪厮枷耄墨I(xiàn)[15]還提出了自模仿學(xué)習(xí)(Self?Imitation Learning, SIL)算法,通過模仿過去表現(xiàn)良好的樣本軌跡進(jìn)行學(xué)習(xí),極大地提升了探索效率。文獻(xiàn)[16]通過將記憶引入TD3算法,提出了基于長(zhǎng)短期記憶的雙延遲深度確定性策略梯度算法(LSTM?TD3)。文獻(xiàn)[17]通過將長(zhǎng)短期記憶與深度Q網(wǎng)絡(luò)相結(jié)合,修改DQN以處理噪聲觀測(cè)特征。但是探索環(huán)境通常呈現(xiàn)動(dòng)態(tài)變化性或具有基于回合(episode)產(chǎn)生變化的特征,這使得融合了循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法在解決這些環(huán)境中面臨的稀疏獎(jiǎng)勵(lì)問題時(shí)變得困難。而基于回放歷史信息的方法依賴于過去表現(xiàn)良好的經(jīng)驗(yàn)數(shù)據(jù),一旦空間狀態(tài)變得復(fù)雜,智能體就很難獲取到有價(jià)值的數(shù)據(jù)樣本。為解決上述問題,文獻(xiàn)[18]利用人類內(nèi)在的好奇心這一概念,提出了好奇心探索機(jī)制,依據(jù)智能體所采集的空間信息給予相應(yīng)的內(nèi)在獎(jiǎng)勵(lì)。ICM(Intrinsic Curiosity Module)算法[19]和RND(Random Network Distillation)算法[20]主要計(jì)算不同網(wǎng)絡(luò)之間的特征差異,可用于激發(fā)智能體探索不同場(chǎng)景。但上述好奇心算法也存在過度探索的問題,智能體在環(huán)境中容易忽視已經(jīng)學(xué)到的有效策略,從而導(dǎo)致學(xué)習(xí)過程的低效性和不穩(wěn)定性。本文在好奇心算法基礎(chǔ)上,引入自模仿學(xué)習(xí)算法來增強(qiáng)對(duì)已有經(jīng)驗(yàn)數(shù)據(jù)的利用,以此提出了一種融合好奇心與自模仿學(xué)習(xí)的近端策略優(yōu)化算法(Proximal Policy Optimization Algorithm with Curiosity Module and Self?Imitation Learning, PPO?CI),進(jìn)而達(dá)到解決POMDP探索任務(wù)中的稀疏獎(jiǎng)勵(lì)與信息缺失等問題的目的。
1" 相關(guān)技術(shù)
1.1" 優(yōu)先經(jīng)驗(yàn)回放
由文獻(xiàn)[21]中DeepMind提出的經(jīng)驗(yàn)回放機(jī)制通過將過去的探索經(jīng)驗(yàn)存儲(chǔ)至經(jīng)驗(yàn)池,然后隨機(jī)抽取批次大小的經(jīng)驗(yàn)進(jìn)行訓(xùn)練,打破訓(xùn)練數(shù)據(jù)之間的相關(guān)性,從而提高算法的穩(wěn)定性與泛化能力。優(yōu)先經(jīng)驗(yàn)回放機(jī)制[13]通過賦予各樣本數(shù)據(jù)不同的優(yōu)先級(jí),改變樣本數(shù)據(jù)的被采樣概率。樣本數(shù)據(jù)優(yōu)先級(jí)[p]通過時(shí)序差分誤差[δ]來衡量,其計(jì)算公式如下:
[δ=r+maxa′γQ(s',a')-Q(s,a)] (1)
[p=δ] (2)
式中:[r]表示當(dāng)前所得獎(jiǎng)勵(lì)值;[Q(s',a')]表示目標(biāo)網(wǎng)絡(luò)[Q]值,由下一狀態(tài)[s']在采取動(dòng)作[a']時(shí)所得;[Q(s,a)]表示當(dāng)前[s]狀態(tài)采取動(dòng)作[a]計(jì)算所得的[Q]值。根據(jù)所得的優(yōu)先級(jí)[p]進(jìn)行概率采樣,經(jīng)驗(yàn)樣本采樣的概率公式為:
[P(i)=pαii=1npαi] (3)
式中:[α]表示優(yōu)先級(jí)調(diào)節(jié)參數(shù);[n]表示采樣的樣本數(shù)量。
優(yōu)先經(jīng)驗(yàn)回放會(huì)將TD誤差和經(jīng)驗(yàn)數(shù)據(jù)一同存進(jìn)經(jīng)驗(yàn)池,并為每個(gè)經(jīng)驗(yàn)數(shù)據(jù)賦予一個(gè)與其TD誤差大小成正比的采樣概率[P(i)]。
1.2" ICM算法
好奇心機(jī)制通過給予智能體內(nèi)在獎(jiǎng)勵(lì)激發(fā)探索的動(dòng)力,其中具有代表性的為D. Pathak等人提出的內(nèi)在好奇心模塊(ICM)[19],其算法模型如圖1所示。ICM算法利用逆向動(dòng)力學(xué)模型和前向動(dòng)力學(xué)模型來學(xué)習(xí)一個(gè)新的特征空間,通過策略網(wǎng)絡(luò)預(yù)測(cè)的下一狀態(tài)信息與ICM動(dòng)力學(xué)模型所預(yù)測(cè)的下一狀態(tài)信息差異計(jì)算出對(duì)應(yīng)的內(nèi)在獎(jiǎng)勵(lì)值。
圖1中,算法輸入為決策模型所得當(dāng)前狀態(tài)值[st]、當(dāng)前采取動(dòng)作[at]和下一狀態(tài)信息[st+1]。[?(st)]為狀態(tài)[st]的特征編碼;而[?(st+1)]是[?(st+1)]的預(yù)測(cè)估計(jì),由[?(st)]與動(dòng)作[at]計(jì)算所得。[at]為由狀態(tài)映射信息[?(st)]和[?(st+1)]計(jì)算所得的動(dòng)作預(yù)測(cè)值;[rit]為經(jīng)動(dòng)力學(xué)模型計(jì)算所得的內(nèi)在獎(jiǎng)勵(lì)值。而[?(st+1)]和[rit]計(jì)算公式為:
[?(st+1)=f(?(st),at;θF)] (4)
[rit=η2?(st+1)-?(st+1)22] (5)
ICM算法的損失函數(shù)如下:
[LForward(?(st+1),?(st+1))=12?(st+1)-?(st+1)22] (6)
[at=g(?(st),?(st+1);θI)] (7)
[LInverse(at,at)=12at-at22] (8)
式中:[f]是前向模型的網(wǎng)絡(luò)函數(shù);[θF]為前向模型的網(wǎng)絡(luò)參數(shù);[η]是縮放因子;[LForward]為前向模型的計(jì)算損失值;[θF]為通過最小化損失函數(shù)[LForward]來優(yōu)化前向模型的網(wǎng)絡(luò)參數(shù);[g]是逆向模型的網(wǎng)絡(luò)函數(shù);[θI]為逆向模型的網(wǎng)絡(luò)參數(shù);[LInverse]為逆向模型的計(jì)算損失值,用于優(yōu)化逆向模型的網(wǎng)絡(luò)參數(shù)[θI]。
1.3" 自模仿學(xué)習(xí)
自模仿學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)方法,它通過自主探索和學(xué)習(xí)來生成和改進(jìn)策略,以達(dá)到優(yōu)化目標(biāo)的目的。首先,智能體使用當(dāng)前策略網(wǎng)絡(luò)與環(huán)境互動(dòng)產(chǎn)生探索經(jīng)驗(yàn)與累計(jì)獎(jiǎng)勵(lì)并存入經(jīng)驗(yàn)池;然后,自模仿學(xué)習(xí)算法從經(jīng)驗(yàn)池中選擇具有高獎(jiǎng)勵(lì)或優(yōu)質(zhì)性能的軌跡片段作為模仿的目標(biāo),從選定的優(yōu)質(zhì)軌跡中提取子軌跡,并基于選定的子軌跡構(gòu)建一個(gè)新的策略網(wǎng)絡(luò),用于模仿優(yōu)質(zhì)軌跡中的行為;接著,使用選定的子軌跡訓(xùn)練智能體的策略網(wǎng)絡(luò),通過反復(fù)迭代訓(xùn)練和更新智能體的策略網(wǎng)絡(luò),使其不斷逼近或模仿新策略網(wǎng)絡(luò)中的行為選擇。SIL算法的損失函數(shù)計(jì)算公式如下:
[LSILvalue=12(R-Vθ(s))+2] (9)
[LSILpolicy=-logπθ(as)(R-Vθ(s))+] (10)
[LSIL=Es,a,R∈DLSILpolicy+βSILLSILvalue] (11)
式中:[LSILvalue]為對(duì)應(yīng)的價(jià)值損失函數(shù);[R]為累計(jì)獎(jiǎng)勵(lì)值;[Vθ(s)]代表對(duì)應(yīng)狀態(tài)[s]的價(jià)值函數(shù);[(?)+]表示為[max(?,0)],以此鼓勵(lì)智能體模仿自己的決定,只有當(dāng)這些決定所獲得的回報(bào)比預(yù)期更大時(shí)才選擇更新[LSILvalue];[LSILpolicy]為SIL算法的策略損失函數(shù);[πθ(as)]是根據(jù)參數(shù)[θ]的策略函數(shù)在狀態(tài)[s]下選取動(dòng)作[a]的概率估計(jì)值;[D]代表經(jīng)驗(yàn)池;[βSIL]為價(jià)值損失函數(shù)對(duì)應(yīng)的超參數(shù)。
1.4" 近端策略優(yōu)化算法
深度強(qiáng)化學(xué)習(xí)算法分為值函數(shù)算法和策略梯度算法[22]。近端策略優(yōu)化算法(Proximal Policy Optimization Algorithm, PPO)屬于策略梯度算法的一種,其原理是將策略參數(shù)化,通過參數(shù)化的線性函數(shù)或神經(jīng)網(wǎng)絡(luò)表示策略[23]。
PPO算法的核心之一是重要性采樣,它的主要目的是評(píng)估新舊策略之間的差異程度,通過計(jì)算比值來衡量差異大小。重要性采樣公式如下:
[r(θ)=πθ(as)πθold(as)] (12)
式中:[θ]為策略參數(shù);[πθold(as)]表示舊策略;[πθ(as)]表示新策略。
PPO算法的另一個(gè)核心是梯度裁剪,其策略損失函數(shù)表達(dá)式如下:
[LCLIP(θ)=E[min(r(θ))A,CLIP(r(θ),1-ε,1+ε)A]] (13)
[A=Q(s,a)-V(s,a)] (14)
式中:[r(θ)]為重要性采樣比;[CLIP]為裁剪函數(shù);[ε]為超參數(shù);[A]為優(yōu)勢(shì)函數(shù);[Q(s,a)]代表在狀態(tài)[s]下采取動(dòng)作[a]后產(chǎn)生的累計(jì)獎(jiǎng)勵(lì)值;[V(s,a)]為狀態(tài)價(jià)值估計(jì)值。
PPO算法的策略參數(shù)更新公式為:
[θ←argmaxθ(E[LCLIP(θ)])] (15)
2" 結(jié)合ICM與自模仿學(xué)習(xí)的近端策略優(yōu)化算法
本文提出了一種結(jié)合好奇心與自模仿學(xué)習(xí)的近端策略優(yōu)化算法,即PPO?CI算法,以解決POMDP探索任務(wù)。首先通過ICM與PPO算法結(jié)合鼓勵(lì)智能體的探索行為,并將探索經(jīng)驗(yàn)數(shù)據(jù)存入優(yōu)先經(jīng)驗(yàn)池;然后通過優(yōu)先經(jīng)驗(yàn)回放選取好的樣本數(shù)據(jù),SIL算法模仿好的樣本軌跡,同時(shí)更新一個(gè)新的策略網(wǎng)絡(luò),用于指導(dǎo)智能體行為選擇,最終使得智能體完成探索任務(wù)。
本文采用強(qiáng)化學(xué)習(xí)與ICM算法結(jié)合的工作機(jī)制,訓(xùn)練框架如圖2所示。
結(jié)合計(jì)算所得的內(nèi)在獎(jiǎng)勵(lì)與環(huán)境反饋的外在獎(jiǎng)勵(lì)指引智能體進(jìn)行探索任務(wù),其總獎(jiǎng)勵(lì)計(jì)算公式如下:
[rt=mrit+ret] (16)
式中:[rt]為時(shí)刻[t]獲得的總獎(jiǎng)勵(lì)值;[m]為內(nèi)在獎(jiǎng)勵(lì)對(duì)應(yīng)權(quán)重系數(shù);[rit]為經(jīng)過ICM動(dòng)力學(xué)模型計(jì)算所得的內(nèi)在獎(jiǎng)勵(lì)值;[ret]為與環(huán)境互動(dòng)所獲得的外在獎(jiǎng)勵(lì)值,在稀疏獎(jiǎng)勵(lì)任務(wù)中大部分情況為0。
PPO?CI算法分為兩個(gè)訓(xùn)練模塊,即PPO?ICM算法模塊與SIL算法模塊。其中涉及到的PPO與ICM結(jié)合算法的訓(xùn)練損失函數(shù)公式如下:
[LCLIP+VF+St(θ)=Et[LCLIPt(θ)]-c1LVFt(θ)+c2S(st)] (17)
[LVFt(θ)=(Vθ(st)-Vtargt)2] (18)
[LICM=LForward(?(st+1),?(st+1))+LInverse(at,at)] (19)
[LPPO+ICM=LCLIP+VF+St(θ)+LICM] (20)
式中:[LCLIP+VF+St(θ)]為PPO算法的損失函數(shù);[LCLIPt(θ)]為PPO算法的策略梯度的損失;[LVFt(θ)]為PPO算法的價(jià)值函數(shù)的損失;[S(st)]為交叉熵的損失;[c1]和[c2]為其對(duì)應(yīng)系數(shù);[Vθ(st)]為基于狀態(tài)[st]的預(yù)測(cè)價(jià)值函數(shù)值;[Vtargt]為目標(biāo)網(wǎng)絡(luò)的value值;[LForward(?(st+1),?(st+1))]為ICM算法的前向模型損失值;[LInverse(at,at)]為其逆向模型的損失值。
PPO?CI算法的具體偽代碼實(shí)現(xiàn)過程如下。
1) 初始化網(wǎng)絡(luò)參數(shù)、算法的超參數(shù)。
2) 初始化普通經(jīng)驗(yàn)池[D]與優(yōu)先經(jīng)驗(yàn)池[D']。
3) 將當(dāng)前時(shí)間步的狀態(tài)信息[st]輸入到設(shè)計(jì)的基于Actor?Critic框架的網(wǎng)絡(luò)模型,獲取各項(xiàng)動(dòng)作及其概率分布;依概率選擇動(dòng)作[at],并將動(dòng)作反饋給環(huán)境,獲取下一狀態(tài)信息[donet]、當(dāng)前外在獎(jiǎng)勵(lì)值[ret]與完成情況[donet]。
4) 將步驟3)所獲取的數(shù)據(jù)[(st,at,st+1)]輸入至ICM算法模型,計(jì)算預(yù)測(cè)狀態(tài)[s't+1]與預(yù)測(cè)動(dòng)作[at],通過評(píng)估[st+1]與[s't+1]的差異獲取內(nèi)在獎(jiǎng)勵(lì)值[rit],并與環(huán)境反饋的外在獎(jiǎng)勵(lì)[ret]結(jié)合,獲得總獎(jiǎng)勵(lì)值[rt];同時(shí)通過評(píng)估[st+1]與[s't+1]的差異、[at]與實(shí)際動(dòng)作[at]的差異計(jì)算出ICM算法的損失函數(shù)值,然后將數(shù)據(jù)[(st,at,rt,donet)]存入普通經(jīng)驗(yàn)池[D]與優(yōu)先經(jīng)驗(yàn)池[D']。在優(yōu)先經(jīng)驗(yàn)池[D']中,根據(jù)計(jì)算出的誤差為數(shù)據(jù)賦予不同的優(yōu)先級(jí),供后續(xù)訓(xùn)練調(diào)用。
5) 從普通經(jīng)驗(yàn)池[D]中抽取batch_size大小的數(shù)據(jù)樣本,然后將這些樣本分成多個(gè)小批量(minibatch),使用每個(gè)小批量的數(shù)據(jù)來計(jì)算PPO?ICM算法的損失函數(shù),并更新策略網(wǎng)絡(luò)的參數(shù)。
6) 從優(yōu)先經(jīng)驗(yàn)池[D']抽取batch_size大小的樣本數(shù)據(jù),使用SIL算法對(duì)高質(zhì)量的軌跡序列進(jìn)行模仿,并提取出對(duì)應(yīng)的狀態(tài)動(dòng)作對(duì)用于訓(xùn)練一個(gè)新的策略網(wǎng)絡(luò);同時(shí)更新樣本優(yōu)先級(jí),采用訓(xùn)練好的新策略網(wǎng)絡(luò)來進(jìn)行策略改進(jìn)。
7) 不斷重復(fù)步驟3)~步驟6)直至算法收斂。
3" 實(shí)驗(yàn)設(shè)計(jì)
3.1" 實(shí)驗(yàn)環(huán)境
本文采用文獻(xiàn)[24]中由Open AI提出的Gym?Minigrid網(wǎng)格環(huán)境對(duì)所提出的PPO?CI算法表現(xiàn)進(jìn)行測(cè)試與評(píng)估。Minigrid環(huán)境是基于回合(episode)產(chǎn)生變化的環(huán)境,該環(huán)境每回合開始時(shí),智能體在某一區(qū)域初始位置與朝向,在探索時(shí)僅能獲取局部視野信息,并且無法感知墻壁后方與門另一側(cè)信息,需要根據(jù)僅掌握的部分信息完成探索任務(wù)。本文基于Minigrid已注冊(cè)的環(huán)境進(jìn)行改動(dòng),設(shè)計(jì)了四種不同探索難度的地圖環(huán)境,旨在驗(yàn)證PPO?CI算法面臨各類基于回合變化環(huán)境的性能與表現(xiàn)。
圖3a)為改進(jìn)的環(huán)境MultiRoom?N6S6,每一回合地圖上隨機(jī)生成6個(gè)大小隨機(jī)的房間,且各房間門的顏色隨機(jī),智能體在最左下方位置的房間內(nèi)的隨機(jī)位置出現(xiàn),該地圖中智能體需要學(xué)會(huì)開門動(dòng)作并且需要連續(xù)通過多個(gè)房間找到最右上方房間的出口。
圖3b)為改進(jìn)的環(huán)境Empty?15×15?v1,在這個(gè)環(huán)境中,智能體起始點(diǎn)位于最左側(cè)房間某個(gè)隨機(jī)位置,而目標(biāo)出口在最右側(cè)房間內(nèi)的隨機(jī)位置。不同的挑戰(zhàn)在于:該環(huán)境擴(kuò)大了房間內(nèi)的空間,并且三扇門的位置隨機(jī),這為智能體進(jìn)行探索帶來了麻煩。圖3c)為改進(jìn)的環(huán)境FourRooms?v1,該環(huán)境擴(kuò)大了房間的大小,且探索任務(wù)不再僅限于從左側(cè)向右側(cè)進(jìn)行探索;另外,環(huán)境中設(shè)置了相同顏色的門,這會(huì)一定程度上影響智能體對(duì)于自身位置的判斷。對(duì)于該環(huán)境,智能體隨機(jī)出現(xiàn)在左上側(cè)房間的某個(gè)位置,目標(biāo)點(diǎn)隨即出現(xiàn)在右下側(cè)房間的某個(gè)位置,智能體需要在位置判斷受影響的情況下完成任務(wù)。圖3d)為改進(jìn)的環(huán)境LockedRoom?v1,該環(huán)境設(shè)置了一扇帶鎖的門,智能體需要打開另一扇未上鎖的門,去到房間內(nèi)拿到鑰匙,然后去開另一側(cè)帶鎖的門,最終找到出口。該探索任務(wù)難度在于:智能體需要學(xué)會(huì)拾取鑰匙的動(dòng)作,并學(xué)會(huì)持有鑰匙在鎖住的門前學(xué)會(huì)激活門的動(dòng)作。
3.2" 獎(jiǎng)勵(lì)設(shè)計(jì)
獎(jiǎng)勵(lì)是智能體與環(huán)境每回合交互所得到的回報(bào)。本文設(shè)計(jì)了一種隨步數(shù)變化而變化的獎(jiǎng)勵(lì)函數(shù),其目的是引導(dǎo)智能體在每個(gè)episode內(nèi)盡可能地用更少的步數(shù)獲取更高的獎(jiǎng)勵(lì),從而避免智能體陷入局部最優(yōu)解并停止探索任務(wù)的情況。
具體獎(jiǎng)勵(lì)函數(shù)如下:
[reward=1-0.9astepamaxstep," " astep≤amaxstep0," " " " " " " " " " " " " " "astepgt;amaxstep] (21)
3.3" 模型結(jié)構(gòu)與參數(shù)
本文為處理環(huán)境中多維復(fù)雜的特征信息,設(shè)計(jì)一種基于Actor?Critic架構(gòu)的網(wǎng)絡(luò)模型,具體結(jié)構(gòu)如圖4所示。
由圖4可知:從環(huán)境中所獲取的狀態(tài)信息首先經(jīng)歷兩層卷積網(wǎng)絡(luò)層,將輸入的狀態(tài)數(shù)據(jù)信息抽象成更高層次的特征表示;然后將卷積層的輸出結(jié)果通過展平層,將多維特征數(shù)據(jù)展開成一維向量;接著輸入到全連接層捕捉特征之間的復(fù)雜關(guān)系,并對(duì)特征進(jìn)行組合;最后將組合特征分別輸入Actor網(wǎng)絡(luò)的全連接層,獲取各項(xiàng)動(dòng)作及其概率分布,用于指導(dǎo)智能體的行為決策,并輸入到Critic網(wǎng)絡(luò)的全連接層評(píng)估當(dāng)前狀態(tài)的價(jià)值。本文實(shí)驗(yàn)所采用的PPO?CI算法涉及到PPO?CLIP算法模塊、ICM算法模塊以及自模仿學(xué)習(xí)算法模塊的各項(xiàng)參數(shù),具體的超參數(shù)如表1所示。
為加快模型的收斂速度,以及訓(xùn)練后期對(duì)細(xì)化參數(shù)的調(diào)整,本文采用線性退火算法來提高模型在更接近最優(yōu)解時(shí)的精度。學(xué)習(xí)率的線性退火算法公式為:
[Learning_rate=Learning_rateinitial·1-current_steptotal_steps] (22)
式中:[Learning_rate]表示當(dāng)前的學(xué)習(xí)率;[Learning_rateinitial]表示初始設(shè)置的學(xué)習(xí)率;[current_step]表示當(dāng)前與環(huán)境交互的步數(shù);[total_steps]表示訓(xùn)練的總步數(shù)。
3.4" 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)采用的操作系統(tǒng)為Ubuntu 18.04,Python版本為3.9,基于Torch 1.13搭建深度強(qiáng)化學(xué)習(xí)框架。實(shí)驗(yàn)設(shè)備選用含有2張內(nèi)存大小為8 GB的GTX 1080顯卡的服務(wù)器。為測(cè)試與評(píng)估所提出的PPO?CI算法在POMDP任務(wù)中的性能表現(xiàn),設(shè)置了消融實(shí)驗(yàn),將提出的PPO?CI算法與PPO算法、PPO?ICM算法、PPO?SIL算法進(jìn)行比較。
各算法在MultiRoom?N6S6環(huán)境下的訓(xùn)練獎(jiǎng)勵(lì)值變化如圖5a)所示,橫坐標(biāo)的frames表示智能體與環(huán)境交互的總步數(shù),縱坐標(biāo)表示智能體與各不同隨機(jī)種子環(huán)境交互產(chǎn)生的平均獎(jiǎng)勵(lì)值信息。在該環(huán)境中,4種基于PPO算法的改進(jìn)算法均能完成任務(wù)。四類完成探索任務(wù)的算法中,PPO?CI算法以最快的速度達(dá)到收斂狀態(tài),因?yàn)镻PO?CI算法通過綜合利用ICM的自主探索和SIL的軌跡模仿,提高了有效樣本的利用率。通過綜合利用這些樣本,PPO?CI算法可以更好地優(yōu)化智能體的策略,提高學(xué)習(xí)效果,這一優(yōu)勢(shì)在Empty?15×15?v1環(huán)境的探索中更加突出。Empty?15×15?v1環(huán)境中設(shè)置了三面墻來阻礙智能體的探索,并且墻上門位置的變化幅度較大,使得環(huán)境具有較強(qiáng)的隨機(jī)性。如圖5c)所示,僅在好奇心驅(qū)使下進(jìn)行探索的PPO?ICM算法與PPO?CI算法能夠完成該探索任務(wù),這說明僅憑環(huán)境反饋的獎(jiǎng)勵(lì)信息很難進(jìn)行下一步探索。在FourRooms?v1環(huán)境中,智能體受限于自身的位置判斷,且門的顏色也混淆了智能體的判斷。PPO?CI算法在該環(huán)境中仍以最快的速度達(dá)到收斂,在好奇心的推動(dòng)下,通過有效利用優(yōu)先經(jīng)驗(yàn)池的軌跡回放進(jìn)行高效地學(xué)習(xí),準(zhǔn)確地判斷自身位置以及各房間門的位置,并成功找到出口。如圖5d)所示,在設(shè)置了門鎖與鑰匙的LockedRoom?v1環(huán)境中,智能體首先需要找到鑰匙,然后學(xué)會(huì)開門動(dòng)作,最終找到出口。
在這種多任務(wù)環(huán)境中,PPO?CI算法仍表現(xiàn)出高效的學(xué)習(xí)能力與適應(yīng)能力。本文提出的PPO?CI算法綜合利用了ICM和SIL的優(yōu)點(diǎn),既能夠?qū)χ悄荏w與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行有效利用,又能夠在好奇心的驅(qū)動(dòng)下進(jìn)行自主探索,從而在探索能力和學(xué)習(xí)效果方面取得更好的平衡。
在驗(yàn)證了PPO?CI算法的快速收斂性后,進(jìn)一步對(duì)算法收斂后的穩(wěn)定性進(jìn)行分析。本文選取各算法在收斂之后的最后30個(gè)episode的訓(xùn)練情況作為參考,從具體步數(shù)來探究算法收斂后的穩(wěn)定性。各類算法在四類環(huán)境中的訓(xùn)練情況如圖6所示。
由圖6中使用PPO?CI算法訓(xùn)練的結(jié)果顯示,其使用步數(shù)的波動(dòng)幅度較小且所使用的步數(shù)也是較少的。但是由于各個(gè)環(huán)境是基于回合產(chǎn)生改變,導(dǎo)致各回合初始位置離目標(biāo)點(diǎn)的距離不確定,故僅平均步數(shù)并不能客觀地體現(xiàn)出各算法的穩(wěn)定性,故還選取了30個(gè)episode的步數(shù)標(biāo)準(zhǔn)差作為評(píng)估對(duì)象。表2中數(shù)據(jù)前項(xiàng)為平均步數(shù),后項(xiàng)為標(biāo)準(zhǔn)差。綜合數(shù)據(jù)體現(xiàn)出PPO?CI算法在快速收斂的同時(shí)也具有很強(qiáng)的穩(wěn)定性,每回合都能采取更優(yōu)的探索路徑完成探索任務(wù)。
4" 結(jié)" 論
本文為解決POMDP探索任務(wù)中的稀疏獎(jiǎng)勵(lì)與信息缺失等問題,提出一種融合好奇心與自模仿學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法,利用好奇心鼓勵(lì)智能體探索未知場(chǎng)景,并將產(chǎn)生的探索數(shù)據(jù)存入設(shè)計(jì)的優(yōu)先經(jīng)驗(yàn)池,然后利用自模仿學(xué)習(xí)從優(yōu)先經(jīng)驗(yàn)池中選取具有優(yōu)秀探索表現(xiàn)的歷史經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行學(xué)習(xí)與更新策略。
為驗(yàn)證所提出的PPO?CI算法在POMDP任務(wù)的表現(xiàn),設(shè)計(jì)了四項(xiàng)不同難度的Minigrid環(huán)境的探索任務(wù)。經(jīng)實(shí)驗(yàn)驗(yàn)證,該算法平衡了探索過度與利用不足的問題,同時(shí)具有較快達(dá)到收斂效果的優(yōu)勢(shì),較已有的ICM、SIL等算法速度更快。并且該算法具有更強(qiáng)的泛化性,對(duì)基于回合變化的環(huán)境仍有著很強(qiáng)的適應(yīng)能力,能夠有效解決多種不同難度的POMDP探索任務(wù)。
本文為解決部分可觀測(cè)環(huán)境探索中的稀疏獎(jiǎng)勵(lì)、信息缺失等問題提供了一種有效的方法。未來的研究將致力于進(jìn)一步優(yōu)化好奇心與探索算法的融合,比如在更為復(fù)雜或具有更多動(dòng)態(tài)變化因素的環(huán)境中對(duì)PPO?CI算法進(jìn)行測(cè)試與改進(jìn),并且嘗試使用其他的好奇心模型或者與其他的探索算法相結(jié)合來進(jìn)一步提升算法的性能。
注:本文通訊作者為臧兆祥。
參考文獻(xiàn)
[1] JADERBERG M, CZARNECKI W M, DUNNING I, et al. Human?level performance in 3D multiplayer games with population?based reinforcement learning [J]. Science, 2019, 364: 859?865.
[2] YE D, LIU Z, SUN M, et al. Mastering complex control in MOBA games with deep reinforcement learning [J]. Proceeding of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6672?6679.
[3] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi?agent reinforcement learning [J]. Nature, 2019, 575: 350?354.
[4] CARLUCHO I, PAULA D M, WANG S, et al. Adaptive low?level control of autonomous underwater vehicles using deep reinforcement learning [J]. Robotics and autonomous system, 2018, 107: 71?86.
[5] CARLUCHO I, PAULA D M, ACOSTA G G. An adaptive deep reinforcement learning approach for MIMO PID control of mobile robots [J]. ISA transactions, 2020, 102: 280?294.
[6] WANG D, DENG H. Multirobot coordination with deep reinforcement learning in complex environments [J]. Expert systems with applications, 2021, 180: 115128.
[7] XIONG H, MA T, ZHANG L, et al. Comparison of end?to?end and hybrid deep reinforcement learning strategies for controlling cable?driven parallel robots [J]. Neurocomputing, 2020, 377: 73?84.
[8] JIN Y, LIU Q, SHEN L, et al. Deep deterministic policy gradient algorithm based on convolutional block attention for autonomous driving [J]. Symmetry, 2021, 13: 1061.
[9] YANG T K, LI L K, NGIAP T K, et al. Deep Q?network implementation for simulated autonomous vehicle control [J]. IET intelligent transport systems, 2021, 15: 875?885.
[10] LI J X, YAO L, XU X, et al. Deep reinforcement learning for pedestrian collision avoidance and human?machine cooperative driving [J]. Information sciences, 2020, 532: 110?124.
[11] 崔文華,李東,唐宇波,等.基于深度強(qiáng)化學(xué)習(xí)的兵棋推演決策方法框架[J].國(guó)防科技,2020,41(2):113?121.
[12] ESPEHOLT L, SOYER H, MUNOS R, et al. IMPALA: scalable distributed deep?RL with importance weighted actor?learner architectures [C]// Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018: 1407?1416.
[13] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay [C]// International Conference on Learning Representations. Vancouver, Canada: IMLS, 2016: 1312?1320.
[14] HENDERSON M, THOMSON B, YOUNG S. Word?based dialog state tracking with recurrent neural networks [C]// Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL). Philadelphia, PA, USA: ACL, 2014: 292?299.
[15] OH J, GUO Y, SINGH S, et al. Self?imitation learning [C]// Proceedings of the International Conference on Machine Learning. Stockholm, Sweden: IMLS, 2018: 3878?3887.
[16] MENG L, GORBET R, KULI? D. Memory?based deep reinforcement learning for POMDPs [C]// IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2021: 5619?5626.
[17] HAUSKNECHT M, STONE P. Deep recurrent Q?learning for partially observable MDPs [C]// 2015 Association for the Advancement of Artificial Intelligence Fall Symposium Series. Palo Alto, California, USA: AAAI, 2015: 1?8.
[18] OUDEYER P Y, KAPLAN F. How can we define intrinsic motivation [C]// Proceedings of eighth International Conference on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems. Lund: Brighton, 2008: 93?101.
[19] PATHAK D, AGRAWAL P, EFROS A A, et al. Curiosity?driven exploration by self?supervised prediction [C]// Proceedings of the 2017 International Conference on Machine Learning. San Diego, CA: JMLR, 2017: 2778?2787.
[20] BURDA Y, EDWARDS H,STORKEY A J, et al. Exploration by random network distillation [C]// Proceeding of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019: 1?17.
[21] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning [J]. Nature, 2013, 518: 529?533.
[22] 張峻偉,呂帥,張正昊,等.基于樣本效率優(yōu)化的深度強(qiáng)化學(xué)習(xí)方法綜述[J].軟件學(xué)報(bào),2022,33(11):4217?4238.
[23] 劉國(guó)名,李彩虹,李永迪,等.基于改進(jìn)PPO算法的機(jī)器人局部路徑規(guī)劃[J].計(jì)算機(jī)工程,2023,49(2):119?126.
[24] CHEVALIER?BOISVERT M, WILLEMS L, PAL S. widesp?read attention and research [EB/OL]. [2023?01?12]. https://github.com/maximec/gym?minigrid, 2018.