国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

采用雙經(jīng)驗(yàn)回放池的噪聲流雙延遲深度確定性策略梯度算法

2020-05-12 14:35:54王垚儒
關(guān)鍵詞:經(jīng)驗(yàn)噪聲樣本

王垚儒,李 俊

(1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2.武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢,430065)

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)方法通過智能體與環(huán)境進(jìn)行交互,觀測到環(huán)境對智能體動作的反饋后,不斷調(diào)整其行為,以提升自身性能。但傳統(tǒng)的強(qiáng)化學(xué)習(xí)局限于低維問題,深度強(qiáng)化學(xué)習(xí)則能更好地處理高維狀態(tài)空間和高維動作空間設(shè)定下的決策問題,并已廣泛應(yīng)用于電腦游戲、機(jī)器人控制、語音識別、交通信號控制、自動駕駛等領(lǐng)域[1]。

文獻(xiàn)[2-3]將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,提出深度Q網(wǎng)絡(luò)(Deep Q-network, DQN)模型,該模型用于處理基于視覺感知的控制任務(wù),是深度強(qiáng)化學(xué)習(xí)研究領(lǐng)域的開創(chuàng)性工作。之后,很多拓展性方法不斷出現(xiàn),以提升DQN算法的速度和穩(wěn)定性。文獻(xiàn)[4]使用優(yōu)先經(jīng)驗(yàn)回放技術(shù)有效提高了學(xué)習(xí)效率。文獻(xiàn)[5]采用深度雙Q學(xué)習(xí)策略,通過解耦選擇和引導(dǎo)行動評估解決了Q學(xué)習(xí)中的過估計(jì)問題。文獻(xiàn)[6]結(jié)合多步Q學(xué)習(xí)和深度Q學(xué)習(xí)的優(yōu)點(diǎn),提出了深度多Q學(xué)習(xí)方法,其穩(wěn)定性較好且更具有普適性。文獻(xiàn)[7]構(gòu)建競爭網(wǎng)絡(luò)結(jié)構(gòu),采用兩條支路分別估計(jì)狀態(tài)價(jià)值和動作優(yōu)勢,這樣一來,對于各個(gè)狀態(tài)就不必評估每個(gè)動作選項(xiàng)產(chǎn)生的效果,進(jìn)一步提高了智能體的學(xué)習(xí)效率。文獻(xiàn)[8]提出噪聲流深度Q學(xué)習(xí)策略,使用隨機(jī)網(wǎng)絡(luò)層進(jìn)行勘測,增強(qiáng)了網(wǎng)絡(luò)探索性能。文獻(xiàn)[9]提出Rainbow算法,結(jié)合多種DQN的改進(jìn)方式,在不同層面上提高了算法性能。然而,DQN算法難以應(yīng)對大的動作空間,特別是在連續(xù)動作情況下。

文獻(xiàn)[10]提出的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)算法是表演者-評論家(Actor-Critic,AC)框架和 DQN 算法的結(jié)合體,其在動作輸出方面采用一個(gè)網(wǎng)絡(luò)來擬合策略函數(shù),可以很好地應(yīng)對連續(xù)動作的輸出及大的動作空間。文獻(xiàn)[11]提出混合型Actor-Critic指導(dǎo)方法,融合了多個(gè)策略網(wǎng)絡(luò)和對應(yīng)的值網(wǎng)絡(luò),該方法在自適應(yīng)機(jī)器人控制中取得了實(shí)質(zhì)性進(jìn)展。文獻(xiàn)[12]采用循環(huán)確定性策略梯度和循環(huán)隨機(jī)值梯度方法,處理一系列部分可觀察場景下的連續(xù)動作控制任務(wù)。文獻(xiàn)[13]中提出的異步優(yōu)勢表演者-評論家算法(Asynchronous Advantage Actor-Critic,A3C)降低了訓(xùn)練時(shí)的硬件要求,在各類連續(xù)動作空間的控制任務(wù)中表現(xiàn)較好。文獻(xiàn)[14]提出的雙延遲深度確定性策略梯度算法(Twin Delay Deep Deterministic Policy Gradient,TD3)是以深度雙Q學(xué)習(xí)為基礎(chǔ),采用雙評論家,選取其中較小的值來平衡價(jià)值,并延遲更新策略網(wǎng)絡(luò),以減少更新錯(cuò)誤,同時(shí)為目標(biāo)行為增加噪聲,用作算法的正則化器。TD3算法很好地解決了DDPG中估計(jì)價(jià)值過高的問題,但是網(wǎng)絡(luò)的收斂速度和探索性能仍有待提高。

本文提出一種基于多步優(yōu)先和重抽樣優(yōu)選雙經(jīng)驗(yàn)回放池的噪聲流雙延遲深度確定性策略梯度算法(簡記為MPNTD3),在策略網(wǎng)絡(luò)中添加噪聲以增加參數(shù)的隨機(jī)性,并引入多步優(yōu)先經(jīng)驗(yàn)回放池和重抽樣優(yōu)選經(jīng)驗(yàn)回放池??紤]多步回報(bào),利用優(yōu)先級更高的樣本來更新當(dāng)前的目標(biāo)值,可解決噪聲網(wǎng)絡(luò)難以收斂的問題,同時(shí)引入重抽樣優(yōu)選經(jīng)驗(yàn)池和多步優(yōu)先經(jīng)驗(yàn)回放池則在一定程度上彌補(bǔ)了重抽樣優(yōu)選機(jī)制中低優(yōu)先級樣本不足的缺點(diǎn)。本文最后在OpenAI Gym仿真平臺上的Walker2d-v2場景中進(jìn)行實(shí)驗(yàn),以檢驗(yàn)MPNTD3算法的性能。

1 相關(guān)知識

1.1 DQN算法

(1)

式中:γ為折扣因子;E[·]代表期望值。

當(dāng)時(shí)間步數(shù)i→時(shí),當(dāng)前狀態(tài)-動作值Qi收斂到最優(yōu)。在實(shí)際應(yīng)用中,通常使用函數(shù)逼近的泛化方法近似估計(jì)Q*(s,a),即Q*(s,a)≈Q(s,a;θ)。DQN算法采用卷積神經(jīng)網(wǎng)絡(luò)函數(shù)近似器,這時(shí)θ代表網(wǎng)絡(luò)權(quán)重。參數(shù)θ可通過最小化損失函數(shù)的方式進(jìn)行計(jì)算,損失函數(shù)定義為:

Li(θi)=Es′~S[(yi-Q(s,a;θi))2]

(2)

其中,

(3)

在網(wǎng)絡(luò)參數(shù)θi-1保持不變的情況下,優(yōu)化損失函數(shù)Li(θi)。對損失函數(shù)的參數(shù)進(jìn)行微分得到梯度公式:

Q(s,a;θi))θiQ(s,a;θi)]

(4)

然后通過求解Bellman方程得出最優(yōu)策略。

DQN算法中最關(guān)鍵的技術(shù)就是經(jīng)驗(yàn)回放,即設(shè)置經(jīng)驗(yàn)池。將每個(gè)時(shí)間步中智能體與環(huán)境交互得到的轉(zhuǎn)移樣本(s,a,r,s′)儲存到回放記憶單元,然后隨機(jī)取出一些樣本進(jìn)行訓(xùn)練,這種將過程打成碎片存儲、訓(xùn)練時(shí)隨機(jī)抽取的方式可以避免相關(guān)性問題。

1.2 DDPG算法

DDPG算法是在Actor-Critic框架的基礎(chǔ)上,基于DQN的經(jīng)驗(yàn)回放和雙網(wǎng)絡(luò)結(jié)構(gòu)對確定性策略梯度算法進(jìn)行改進(jìn)[15]。雙網(wǎng)絡(luò)結(jié)構(gòu)的方法是指構(gòu)造結(jié)構(gòu)相同而參數(shù)不同的基于Actor-Critic框架的估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),采用經(jīng)驗(yàn)回放方法對目標(biāo)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。確定性策略可以描述為在狀態(tài)s下采取的確定性動作a,動作值函數(shù)表示在狀態(tài)s中采取a之后的預(yù)期回報(bào),使用參數(shù)為θμ和θQ的神經(jīng)網(wǎng)絡(luò)來表示確定性策略a=μ(s|θμ)和值函數(shù)Q(s,a|θQ)。

目標(biāo)網(wǎng)絡(luò)輸出為目標(biāo)Q值(Qtarget),估計(jì)網(wǎng)絡(luò)輸出為估計(jì)Q值(Qtarget),記二者的差值為TD-error,Critic 網(wǎng)絡(luò)訓(xùn)練基于TD-error 的平方均值。估計(jì)Q值是將當(dāng)前的狀態(tài)s和估值A(chǔ)ctor網(wǎng)絡(luò)輸出的動作a輸入估值Critic網(wǎng)絡(luò)得到,而目標(biāo)Q值是將下一時(shí)刻的狀態(tài)s′及由目標(biāo)Actor網(wǎng)絡(luò)所得動作a′輸入到目標(biāo)Critic網(wǎng)絡(luò)后得到的Q值進(jìn)行折扣后與目標(biāo)獎勵r相加得到。具體公式如下:

yi=r+γQ(s′,μ(s′|θμ′)|θQ′)

(5)

(6)

式中:yi為目標(biāo)Q值;Q(s,a|θQ)為估計(jì)Q值;L為TD-error 的平方均值。

估值A(chǔ)ctor網(wǎng)絡(luò)通過動作值函數(shù)將狀態(tài)映射到指定動作來更新當(dāng)前策略,狀態(tài)回報(bào)定義為未來折扣獎賞總回報(bào),通過David Silver策略梯度方法對目標(biāo)函數(shù)進(jìn)行端對端的優(yōu)化, 從而朝著獲得最大總回報(bào)的方向更新。Actor網(wǎng)絡(luò)參數(shù)更新公式如下:

(7)

1.3 TD3算法

針對DDPG算法中估計(jì)價(jià)值過高的問題,TD3算法采用截?cái)嚯pQ學(xué)習(xí)、目標(biāo)策略平滑處理、延遲更新策略三種方法來平衡價(jià)值。

截?cái)嚯pQ學(xué)習(xí)是將原來的一個(gè)Q函數(shù)分為兩個(gè),這兩個(gè)Q函數(shù)都針對單目標(biāo)更新,選擇其中較小的一個(gè)作為目標(biāo)值,這樣有助于抵消Q函數(shù)中的過高估計(jì),具體公式如下:

(8)

(9)

(10)

式中:d表示環(huán)境狀態(tài),為布爾型變量,若當(dāng)前動作后整個(gè)過程結(jié)束,則d=True,否則d=False;D為訓(xùn)練樣本集合。

目標(biāo)策略平滑處理是基于目標(biāo)策略μ得出目標(biāo)動作,同時(shí)在動作的每個(gè)維度上添加擾動因子,使得目標(biāo)動作a的取值滿足條件:alow≤a≤ahigh,其中alow、ahigh分別表示動作a可取的最大值和最小值。目標(biāo)策略平滑處理可表示為:

a′=clip(μ(s′)+o,alow,ahigh)

o~clip(N(0,σ),-c,c)

(11)

式中:clip(x,-y,y)表示將x中的每個(gè)元素截?cái)嗟絽^(qū)間 [-y,y]中。

目標(biāo)策略平滑處理為目標(biāo)行為增加了噪聲,用作算法的正則化器。它解決了DDPG中可能發(fā)生的如下特定故障模式:如果Q函數(shù)逼近器產(chǎn)生不正確的峰值,則上述方法將快速利用該峰值使Q函數(shù)變得平滑。

延遲更新策略是指,在TD3中Actor網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)的更新頻率比Critic網(wǎng)絡(luò)參數(shù)的更新頻率要低,這有助于抑制DDPG中通常出現(xiàn)的波動現(xiàn)象。

2 本文算法設(shè)計(jì)

2.1 噪聲網(wǎng)絡(luò)

為了提高本文算法的網(wǎng)絡(luò)探索性能,在策略網(wǎng)絡(luò)的全連接層中添加噪聲,以增強(qiáng)網(wǎng)絡(luò)參數(shù)w、b的隨機(jī)性。關(guān)于參數(shù)b和w的目標(biāo)函數(shù)服從于均值為μ、方差為σ的正態(tài)分布,同時(shí)存在一定的隨機(jī)噪聲ε,并假設(shè)噪聲服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則新形成的到噪聲層的前向傳播方式如下:

y=(b+wx)+[bnεb+(wnεw)x]

=(w+wnεw)x+b+bnεb

(12)

式中:wn和bn為噪聲層的權(quán)重和偏移量;εw和εb代表權(quán)重和偏移量的隨機(jī)噪聲。

添加噪聲增加了參數(shù)的隨機(jī)性,網(wǎng)絡(luò)探索能力加強(qiáng),網(wǎng)絡(luò)的性能也會提高,但同時(shí)網(wǎng)絡(luò)也會變得更加難以收斂。

本文采用兩種方式來加快噪聲網(wǎng)絡(luò)的收斂。一是考慮多步回報(bào),將截?cái)嚯pQ處理改為多步截?cái)嚯pQ處理,增加網(wǎng)絡(luò)對于目標(biāo)值的評估準(zhǔn)確性;二是通過重抽樣優(yōu)選經(jīng)驗(yàn)回放池,在訓(xùn)練后期使用學(xué)習(xí)價(jià)值更大的樣本,使網(wǎng)絡(luò)進(jìn)一步收斂。

2.2 多步截?cái)嚯pQ學(xué)習(xí)

多步截?cái)嚯pQ學(xué)習(xí)是在截?cái)嚯pQ學(xué)習(xí)方法中利用將來多步信息來更新當(dāng)前的目標(biāo)值。TD3算法僅利用了未來一步的信息,存在更新速度慢的問題,而本文采用的多步截?cái)嚯pQ學(xué)習(xí)考慮未來n步的影響。

(13)

選擇適當(dāng)?shù)膎值可以提高網(wǎng)絡(luò)的性能和收斂速度。

2.3 多步優(yōu)先經(jīng)驗(yàn)回放池

在截?cái)嚯pQ處理時(shí)要考慮多步回報(bào),因此將優(yōu)先經(jīng)驗(yàn)回放池改進(jìn)為多步優(yōu)先經(jīng)驗(yàn)回放池,即按照優(yōu)先經(jīng)驗(yàn)回放池的存儲結(jié)構(gòu)和采樣方法將多個(gè)連續(xù)樣本作為基礎(chǔ)單元進(jìn)行存儲。

優(yōu)先經(jīng)驗(yàn)回放池是通過TD-error, 即目標(biāo)Q值和估計(jì)Q值的差值來評判樣本的價(jià)值[16-17]。TD-error越大,則該樣本的優(yōu)先級p越高。樣本j的采樣概率P(j)為:

(14)

式中:i為經(jīng)驗(yàn)回放池中的所有樣本編號;pi、pj為樣本的優(yōu)先級,即所計(jì)算出的TD-error值;參數(shù)α控制采樣的隨機(jī)性程度,取值范圍為[0,1],α=0時(shí)表示均勻采樣,α=1對應(yīng)于完全根據(jù)優(yōu)先級的貪婪式采樣。

優(yōu)先經(jīng)驗(yàn)回放增加了網(wǎng)絡(luò)向有較大學(xué)習(xí)價(jià)值的樣本進(jìn)行學(xué)習(xí)的概率,從而提升學(xué)習(xí)效率,使網(wǎng)絡(luò)更快收斂。

多步優(yōu)先經(jīng)驗(yàn)回放池如圖1所示,其構(gòu)建步驟如下:

1.初始化多步學(xué)習(xí)中的超參數(shù)n和一個(gè)大小為n的隊(duì)列q,初始化優(yōu)先經(jīng)驗(yàn)回放池B;設(shè)置總的運(yùn)行次數(shù)T和環(huán)境狀態(tài)d

2.fort=1 toTdo

3. 初始化環(huán)境

4. whiled==False

5. 執(zhí)行動作后,產(chǎn)生樣本信息(s,a,r,s′,d)

6. if q 已滿

7. 刪除q中第一個(gè)樣本,將(s,a,r,s′,d)存入q的末尾

8. else

9. 將(s,a,r,s′,d)存入q末尾,形成一個(gè)向前移動的滑動窗口

10. end if

11. 將q隊(duì)列存入B中,計(jì)算TD-error:pj=R′+Qtarget-Qeval,其中R′為q隊(duì)列的樣本回報(bào)總和;按式(14)更新當(dāng)前q隊(duì)列的優(yōu)先級

12.end while

13.end for

圖1 多步優(yōu)先經(jīng)驗(yàn)回放池的結(jié)構(gòu)

Fig.1 Structure of multi-step prioritized experience replay buffer

2.4 重抽樣優(yōu)選經(jīng)驗(yàn)回放池

2.5 雙經(jīng)驗(yàn)回放池的設(shè)置

經(jīng)過重抽樣后,回放池中的記憶單元不再獨(dú)立,經(jīng)過若干次迭代后,具有高權(quán)重的記憶單元將被多次復(fù)制,而具有較低權(quán)重的記憶單元將逐漸消失,使回放池中的訓(xùn)練集太小或不充分。

為解決上述問題,使用兩個(gè)經(jīng)驗(yàn)回放池:B1和B2。B1為多步優(yōu)先經(jīng)驗(yàn)回放池,B2為單步優(yōu)先經(jīng)驗(yàn)回放池。B1無差別存儲樣本,B2采用重抽樣機(jī)制來存儲樣本,以概率P(j)將樣本存入B2。訓(xùn)練時(shí),每局結(jié)束后網(wǎng)絡(luò)開始迭代更新參數(shù),樣本從B1中獲取。在模型已能取得較好的回報(bào)之后,改為每局中單步迭代更新參數(shù),樣本從B2中獲取。通過更好的訓(xùn)練樣本,增加迭代次數(shù)以提升網(wǎng)絡(luò)性能。

2.6 本文算法流程

MPNTD3算法的詳細(xì)步驟為:

1.用參數(shù)θ1、θ2、φ初始化估計(jì)網(wǎng)絡(luò)中 的Critic 網(wǎng)絡(luò)(Qθ1、Qθ2)以及Actor 網(wǎng)絡(luò)(μφ)

3.初始化經(jīng)驗(yàn)池B1、B2,設(shè)置游戲步數(shù)閾值stepNum、延遲更新參數(shù)f、總的運(yùn)行次數(shù)T、環(huán)境狀態(tài)d、學(xué)習(xí)率τ

4.fort=1 toTdo

5. 初始化環(huán)境

6. whiled==False

7. 根據(jù)a~μφ(s)+o,o~N(0,σ)選擇動作

8. 執(zhí)行動作后,將(s,a,r,s′,d)存入經(jīng)驗(yàn)池B1中,通過公式(14)得出概率p,以概率p存入經(jīng)驗(yàn)池B2

9. ift>stepNum

10. 按維度batch-size從B2中采樣:(s,a,r,s′,d)

11. 按式(11)進(jìn)行噪聲剪切后得到a′

12. 通過式(13)得到目標(biāo)值

13. 更新 Critic 網(wǎng)絡(luò):

14. end if

15. ift%f==0

16. 根據(jù)式(7)更新Actor網(wǎng)絡(luò)

17. 更新目標(biāo)網(wǎng)絡(luò)參數(shù):

θ′1←τθ1+(1-τ)θ′1

θ′2←τθ2+(1-τ)θ′2

φ′←τφ+(1-τ)φ′

18. end if

19.end while

20.從B1中采樣(s,a,r,s′,d),重復(fù)步驟11~18更新網(wǎng)絡(luò)參數(shù)

21.end for

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

為了驗(yàn)證改進(jìn)算法的有效性并分析關(guān)鍵參數(shù)對算法的影響,下面針對OpenAI Gym平臺[18]Box2D仿真庫中的Walker2d-v2場景進(jìn)行研究,如圖2所示。Walker2d-v2場景是為了使二維雙足機(jī)器人更快更穩(wěn)地向前行走。編程語言為Python 3.6.6,使用PyTorch 0.4搭建網(wǎng)絡(luò),其他軟件包括OpenAI Gym 0.10.0、Box2D-py 2.3.8。

圖2 Walker2d-v2場景

Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)的前兩層均采用噪聲層,分別由400和300個(gè)神經(jīng)節(jié)點(diǎn)組成,第一層后面和第二層后面都是激活函數(shù)ReLU,Actor的網(wǎng)絡(luò)尾部連接激活函數(shù)tanh作為最后輸出。Actor第一層輸入為狀態(tài)s,Critic的第一層輸入為狀態(tài)s和動作a。所有的網(wǎng)絡(luò)參數(shù)均采用Adam算法作為梯度下降方式,學(xué)習(xí)率為0.001。 噪聲層中σ=0.4,用于初始化噪聲流的權(quán)重。

目標(biāo)策略平滑處理中有o~clip(N(0,σ),-c,c),參數(shù)σ=0.2、c=0.5,延遲更新策略中參數(shù)f=2。對優(yōu)先經(jīng)驗(yàn)回放池的參數(shù)α進(jìn)行優(yōu)化,α分別取0.1、0.3、0.5這3個(gè)值,經(jīng)測試,α為0.1和0.3時(shí)算法表現(xiàn)良好,其中α=0.1時(shí)表現(xiàn)最佳,因此后續(xù)實(shí)驗(yàn)均取α=0.1。計(jì)算TD-error時(shí),為防止TD-error為0而給其加上一個(gè)極小數(shù)v,v取0.0001??傆?xùn)練步數(shù)為106,經(jīng)驗(yàn)池容量為5×105,batch-size為100,游戲步數(shù)閾值stepNum分別為4×105、6×105、8×105,經(jīng)測試,在stepNum=6×105時(shí)表現(xiàn)最佳,多步學(xué)習(xí)策略中的n值十分敏感,在后續(xù)算法分析中比較了n分別取1、3、5、7時(shí)的訓(xùn)練情況。

訓(xùn)練時(shí),Walker2d-v2場景由種子0~10產(chǎn)生10個(gè)隨機(jī)的初始環(huán)境,每個(gè)任務(wù)運(yùn)行106步,每5000步評估一次網(wǎng)絡(luò)。通過TD3、NTD3(噪聲網(wǎng)絡(luò)+TD3)、MNTD3(多步截?cái)嚯pQ學(xué)習(xí)+噪聲網(wǎng)絡(luò)+TD3)和MPNTD3這4種算法在Walker2d-v2場景下的得分進(jìn)行比較分析,其中MNTD3采用普通的經(jīng)驗(yàn)池結(jié)構(gòu)和采樣機(jī)制,將普通經(jīng)驗(yàn)池中單個(gè)樣本為存儲單元改為多個(gè)樣本為一個(gè)存儲單元,對存儲單元隨機(jī)采樣。

3.2 結(jié)果分析

由于深度強(qiáng)化學(xué)習(xí)沒有訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集,難以在線評估算法的訓(xùn)練情況。因此,訓(xùn)練效果的評估主要有兩種方式:一是使用回報(bào)值,網(wǎng)絡(luò)訓(xùn)練一定周期后,平均回報(bào)值越高表明網(wǎng)絡(luò)訓(xùn)練效果越好;二是訓(xùn)練的網(wǎng)絡(luò)越快達(dá)到穩(wěn)定表明算法收斂性越好。

3.2.1 優(yōu)化策略實(shí)施效果

首先分析噪聲網(wǎng)絡(luò)、多步截?cái)嚯pQ學(xué)習(xí)以及雙經(jīng)驗(yàn)回放池這3個(gè)優(yōu)化策略對提高本文算法性能的效果。

圖3(a)、圖3(b)分別為Walker2d-v2場景下種子取0和1時(shí)4種算法的學(xué)習(xí)曲線,其中n為多步學(xué)習(xí)的步數(shù)。表1為各算法在種子取0和1時(shí)的最高回報(bào)的平均值。由圖3和表1可以看出:噪聲流的引入增加了網(wǎng)絡(luò)參數(shù)的隨機(jī)性,使得NTD3算法的最高回報(bào)均值比TD3算法的相應(yīng)值少了53.1%,網(wǎng)絡(luò)收斂速度也大大下降;MNTD3算法通過多步截?cái)嚯pQ學(xué)習(xí)策略避免了局部最優(yōu)問題,雖然相比于TD3算法,其最高回報(bào)均值仍下降了近10%,但是網(wǎng)絡(luò)收斂速度比NTD3和TD3算法都有所提高;MPNTD3算法通過考慮多步信息和提高訓(xùn)練樣本質(zhì)量,在多步參數(shù)n為3和5時(shí),最高回報(bào)均值比TD3算法的相應(yīng)值分別提高了6.5%和35.9%,網(wǎng)絡(luò)收斂速度也都優(yōu)于TD3算法。

(a)種子為0

(b) 種子為1

Fig.3 Learning curves of four algorithms in different initial environments

表1 4種算法的最高回報(bào)平均值

圖4為Walker2d-v2場景下種子取0時(shí),TD3算法和多步參數(shù)n分別取1、3、5、7的MPNTD3算法的學(xué)習(xí)曲線。由圖4可見, MPNTD3算法對多步學(xué)習(xí)參數(shù)n十分敏感,適當(dāng)?shù)膎值使網(wǎng)絡(luò)性能和訓(xùn)練速度有較大提升;在n為3和5的情況下,MPNTD3比TD3的最高回報(bào)分別提升了13.7%和60.6%;但n值過大(如n=7)會加大網(wǎng)絡(luò)訓(xùn)練難度,甚至?xí)?dǎo)致網(wǎng)絡(luò)難以收斂;在網(wǎng)絡(luò)可以收斂的情況下,存在n值越大則前期收斂速度越慢而后期性能越好的變化趨勢。

圖4 TD3和取不同n值的MPNTD3的學(xué)習(xí)曲線

Fig.4 Learning curves of TD3 and MPNTD3 with differentnvalues

在Walker2d-v2場景下種子取0時(shí),設(shè)置單優(yōu)先經(jīng)驗(yàn)回放池和雙經(jīng)驗(yàn)回放池的MPNTD3算法的最高回報(bào)分別為7996.03和8236.56。設(shè)置雙經(jīng)驗(yàn)回放池旨在選擇學(xué)習(xí)價(jià)值大的樣本再次訓(xùn)練網(wǎng)絡(luò),由上述結(jié)果可知,改進(jìn)措施使MPNTD3算法的最高回報(bào)增加了3%。

3.2.2 算法整體性能分析

對Walker2d-v2場景中MPNTD3、TD3、DDPG算法以及Walker2d-v1場景中TD3算法(記為TD3-v1)[14]在10個(gè)隨機(jī)初始環(huán)境下的學(xué)習(xí)曲線進(jìn)行統(tǒng)計(jì)分析,結(jié)果見圖5,圖中曲線代表10個(gè)隨機(jī)初始環(huán)境的平均回報(bào),陰影部分代表統(tǒng)計(jì)指標(biāo)的±σ/2區(qū)域。實(shí)驗(yàn)中,由種子3、4、6、7產(chǎn)生的初始環(huán)境下學(xué)習(xí)步數(shù)n=3,其余種子產(chǎn)生的初始環(huán)境下學(xué)習(xí)步數(shù)n=5。表2所示為10個(gè)隨機(jī)初始環(huán)境下各算法每階段最高回報(bào)的平均值及標(biāo)準(zhǔn)差。

圖5 不同算法在10個(gè)初始環(huán)境下的平均回報(bào)

Fig.5 Average rewards of different algorithms in ten initial environments

表2 不同算法每階段最高回報(bào)的平均值及標(biāo)準(zhǔn)差

Table 2 Mean and standard deviation of the highest rewards of different algorithms at each stage

運(yùn)行步數(shù)/105最高回報(bào)的平均值及標(biāo)準(zhǔn)差MPNTD3TD3DDPG22971.14±886.42629.72±1184.91603.19±379.144876.98±521.14008.01±669.61876.84±239.465355.36±774.84473.44±473.93001.7±640.185604.19±894.74645.91±460.23915.92±428.9105860.73±1208.34763.18±491.54271.4±352.1

從圖5和表2可以看到,MPNTD3算法比TD3和DDPG算法的收斂速度和訓(xùn)練效果均有較大提升。MPNTD3算法在每個(gè)階段的平均回報(bào)和最高回報(bào)都是最優(yōu)的,而且MPNTD3在4×105步的平均回報(bào)和最高回報(bào)就超過了TD3在106步的對應(yīng)值,即MPNTD3算法大大加快了網(wǎng)絡(luò)的收斂速度。

4 結(jié)語

為了提高雙延遲深度確定性策略梯度算法的網(wǎng)絡(luò)收斂速度和探索性能,本文提出了采用雙經(jīng)驗(yàn)回放池的噪聲流雙延遲深度確定性策略梯度算法MPNTD3。噪聲流雖然增強(qiáng)了策略網(wǎng)絡(luò)的探索能力,但導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)速度和訓(xùn)練效率都有所下降,網(wǎng)絡(luò)更難收斂,因此通過多步截?cái)嚯pQ處理、考慮將來多步回報(bào)來更新當(dāng)前目標(biāo)值。該策略有助于算法跳出局部最優(yōu),使噪聲網(wǎng)絡(luò)變得容易收斂,但仍然存在學(xué)習(xí)能力不足的問題。而引入重抽樣優(yōu)選經(jīng)驗(yàn)池和多步優(yōu)先經(jīng)驗(yàn)池后,訓(xùn)練樣本質(zhì)量得以提高,彌補(bǔ)了經(jīng)驗(yàn)回放池中樣本單一的缺點(diǎn),加快了網(wǎng)絡(luò)收斂速度,提升了網(wǎng)絡(luò)訓(xùn)練效果。與DDPG、TD3等算法相比,MPNTD3的訓(xùn)練效果和訓(xùn)練效率均有較大程度改善,有助于解決深度確定性策略梯度算法中網(wǎng)絡(luò)估計(jì)價(jià)值過高、探索性差、收斂速度慢等問題。

猜你喜歡
經(jīng)驗(yàn)噪聲樣本
2021年第20期“最值得推廣的經(jīng)驗(yàn)”評選
黨課參考(2021年20期)2021-11-04 09:39:46
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
經(jīng)驗(yàn)
2018年第20期“最值得推廣的經(jīng)驗(yàn)”評選
黨課參考(2018年20期)2018-11-09 08:52:36
推動醫(yī)改的“直銷樣本”
控制噪聲有妙法
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
村企共贏的樣本
當(dāng)你遇見了“零經(jīng)驗(yàn)”的他
都市麗人(2015年4期)2015-03-20 13:33:22
云梦县| 海丰县| 永城市| 禹州市| 佛坪县| 蒲城县| 南澳县| 湾仔区| 武宁县| 福鼎市| 女性| 厦门市| 镇巴县| 阿合奇县| 田阳县| 固安县| 松原市| 西乌珠穆沁旗| 星座| 中阳县| 新巴尔虎左旗| 资阳市| 永丰县| 山阴县| 库尔勒市| 阆中市| 本溪市| 苍溪县| 如皋市| 灵台县| 南丰县| 陇川县| 呼玛县| 广安市| 门头沟区| 谷城县| 报价| 大余县| 当雄县| 长顺县| 东源县|