国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)中的全局信用分配算法

2021-01-21 03:22:38姚興虎譚曉陽
計(jì)算機(jī)應(yīng)用 2021年1期
關(guān)鍵詞:高速路全局信用

姚興虎,譚曉陽*

(1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106;2.模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)),南京 211106;3.南京航空航天大學(xué)軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 211106)

0 引言

近年來,深度強(qiáng)化學(xué)習(xí)在游戲人工智能[1-2]、機(jī)器人自動(dòng)控制[3]等領(lǐng)域取得了很大的進(jìn)步。然而,許多現(xiàn)實(shí)世界的真實(shí)場景需要多個(gè)智能體在同一個(gè)環(huán)境中與環(huán)境進(jìn)行交互,這類問題場景可以建模為多智能體系統(tǒng)[4-5]。常見的多智能體系統(tǒng)包括多智能體協(xié)同規(guī)劃[6]、信號(hào)燈的控制[7]以及多玩家電子游戲[8]等。然而,多智能體系統(tǒng)的復(fù)雜性使得多智能體系統(tǒng)面臨著諸多單智能體系統(tǒng)中沒有的問題,這些問題使得簡單地將單智能體強(qiáng)化學(xué)習(xí)算法移植到多智能體場景中不會(huì)取得令人滿意的效果。具體來說,多智能體系統(tǒng)中面臨的主要問題包括:每個(gè)智能體只能觀測到環(huán)境的一部分所導(dǎo)致的對(duì)環(huán)境的部分可觀測問題[9];環(huán)境本身所具有的更強(qiáng)的非馬爾可夫性[10];多個(gè)智能體與環(huán)境進(jìn)行不斷的交互所導(dǎo)致的環(huán)境不穩(wěn)定問題[11];多個(gè)智能體的聯(lián)合動(dòng)作空間隨著智能體數(shù)量的增加所導(dǎo)致的指數(shù)爆炸[12-15];以及如何將環(huán)境反饋的針對(duì)環(huán)境中所有智能體聯(lián)合動(dòng)作的全局獎(jiǎng)勵(lì)分配給每個(gè)獨(dú)立的智能體(稱之為全局信用分配問題)[12-15]。這些問題的存在不僅使得無法將所有的智能體建模為一個(gè)單智能體然后利用單智能體算法進(jìn)行訓(xùn)練,而且也不適合將其他智能體看成環(huán)境的一部分從而為每個(gè)智能體單獨(dú)進(jìn)行建模。

近年來,由于概念上簡單并且執(zhí)行效率高,“中心訓(xùn)練-分散執(zhí)行”的方式已經(jīng)成為求解多智能體強(qiáng)化學(xué)習(xí)問題的一個(gè)標(biāo)準(zhǔn)范式[12-15]。所謂“中心訓(xùn)練”,指的是在訓(xùn)練的過程中通過一個(gè)中心化的值函數(shù)來與環(huán)境直接進(jìn)行交互;所謂“分散執(zhí)行”,指的是每個(gè)智能體都有自己單獨(dú)的值函數(shù)網(wǎng)絡(luò)或者策略網(wǎng)絡(luò),因此在執(zhí)行階段每個(gè)智能體可以根據(jù)其自身的觀測獨(dú)立地執(zhí)行動(dòng)作。在這一范式中,中心化的值函數(shù)直接接收環(huán)境給出的獎(jiǎng)勵(lì)信號(hào),之后通過適當(dāng)?shù)娜中庞梅峙錂C(jī)制將全局獎(jiǎng)勵(lì)分配到每個(gè)智能體。因此,中心化的值函數(shù)建立了每個(gè)智能體與環(huán)境進(jìn)行交互的橋梁并在整個(gè)框架中處于核心地位。

如何設(shè)計(jì)中心化值函數(shù)與每個(gè)智能體的值函數(shù)之間的約束關(guān)系是設(shè)計(jì)整個(gè)信用分配機(jī)制的核心。一個(gè)合適的約束關(guān)系不僅能夠有利于對(duì)全局信用進(jìn)行一個(gè)良好的分配,還應(yīng)使得整個(gè)算法復(fù)雜度不易過高。若采用簡單的信用分配機(jī)制(比如“值分解網(wǎng)絡(luò)(Value decompose network,Vdn)[13]”中的加性方式),則會(huì)限制中心化值函數(shù)的表達(dá)能力并進(jìn)一步影響到獎(jiǎng)勵(lì)分配過程;若設(shè)計(jì)復(fù)雜的獎(jiǎng)勵(lì)分配機(jī)制(比如“反直覺的多智能體策略梯度法(Counterfactual multi-agent policy gradient,Coma[12])”和“Q 值變換網(wǎng)絡(luò)(QTRAN[15])”)則會(huì)增加優(yōu)化求解的復(fù)雜度。

此外,Vdn[13]、QMIX[14]以及QTRAN[15]算法均假設(shè)全局最優(yōu)的聯(lián)合動(dòng)作等價(jià)于每個(gè)智能體按照自己的值函數(shù)求得的局部最優(yōu)動(dòng)作的聯(lián)合。然而,復(fù)雜場景下的全局最優(yōu)動(dòng)作可能需要某些智能體做出一些犧牲其個(gè)人利益的行為;因而,基于這一假設(shè)的算法最終會(huì)收斂到問題的一個(gè)局部最優(yōu)解。

針對(duì)多智能體強(qiáng)化學(xué)習(xí)問題中全局信用分配機(jī)制存在的上述問題,在“中心訓(xùn)練-分散執(zhí)行”的框架下,本文提出了一種新的全局信用分配方法,稱之為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)(Reward HighWay Network,RHWNet)。RHWNet將中心化值函數(shù)與每個(gè)智能體的值函數(shù)之間的耦合分為兩部分:一方面通過混合網(wǎng)絡(luò)來實(shí)現(xiàn)全局的獎(jiǎng)勵(lì)分配,這一方式能夠?qū)Σ煌闹悄荏w進(jìn)行特異性的獎(jiǎng)勵(lì)分配;另一方面利用獎(jiǎng)勵(lì)高速路連接將全局獎(jiǎng)勵(lì)信號(hào)橋接到每個(gè)智能體值函數(shù)的訓(xùn)練過程中,從而實(shí)現(xiàn)全局信用的二次分配,這將使得單個(gè)智能體在最大化自身獎(jiǎng)勵(lì)值的同時(shí)兼顧其行為對(duì)全局獎(jiǎng)勵(lì)的影響。在算法復(fù)雜度方面,本文所提出的全局信用的二次分配過程幾乎不需要額外的優(yōu)化代價(jià)。在星際爭霸微操作平臺(tái)上的實(shí)驗(yàn)結(jié)果表明:本文方法在多個(gè)復(fù)雜的場景下能夠獲得很好的測試勝率提升,并且具有更高的樣本利用效率。

1 相關(guān)工作

近年來,隨著深度強(qiáng)化學(xué)習(xí)方法的流行,多智能體強(qiáng)化學(xué)習(xí)算法的研究已從簡單的環(huán)境過渡到復(fù)雜的場景。

“中心訓(xùn)練-分散執(zhí)行”一類的算法通常假設(shè)每個(gè)智能體的局部最優(yōu)動(dòng)作的拼接等價(jià)于聯(lián)合的最優(yōu)動(dòng)作。其中代表性的方法有:Coma[12]、Vdn[13]、QMIX[14]和QTRAN[15]。Coma 是一種同策略的“演員-評(píng)論家”算法,通過一個(gè)精心設(shè)計(jì)的反直覺的基準(zhǔn)來實(shí)現(xiàn)全局信用的分配,但是這一基準(zhǔn)需要額外的計(jì)算代價(jià)。Vdn、QMIX 和QTRAN 則是利用值函數(shù)迭代的方式,首先學(xué)習(xí)中心化的值函數(shù),然后利用中心化值函數(shù)與非中心化值函數(shù)之間的約束關(guān)系完成全局信用的分配。值函數(shù)之間不同程度的約束關(guān)系使得Vdn、QMIX 和QTRAN 三種方法的信用分配機(jī)制的復(fù)雜程度和優(yōu)化求解難度有所不同。SMIX(λ)[16]旨在學(xué)習(xí)一個(gè)更為靈活和更強(qiáng)泛化能力的中心化值函數(shù)結(jié)構(gòu),未改變?cè)兴惴ǖ莫?jiǎng)勵(lì)分配機(jī)制。

本文所提出的基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的信用分配機(jī)制同樣屬于“中心訓(xùn)練-分散執(zhí)行”的框架,但是其重點(diǎn)在于如何在不引入額外的信息以及不增加優(yōu)化代價(jià)的前提下進(jìn)行更為有效的信用分配。

此外,為智能體之間建立通信信道或者建立智能體之間的協(xié)調(diào)配合機(jī)制可以為單個(gè)智能體的決策提供更多的環(huán)境信息或者環(huán)境中其他智能體的信息。建立通信信道的方法主要包括文獻(xiàn)[17-18]等;智能體之間的協(xié)調(diào)配合機(jī)制可以通過在智能體之間引入注意力機(jī)制[19-20]或者利用圖神經(jīng)網(wǎng)絡(luò)[21-22]來實(shí)現(xiàn)。每個(gè)智能體利用更多的信息進(jìn)行決策所產(chǎn)生的行為將會(huì)間接影響到整個(gè)系統(tǒng)的獎(jiǎng)勵(lì)分配。而本文所提出的方法在不考慮更多信息的條件下改善已有的信用分配機(jī)制。因此,這類方法與本文所提出的方法是互補(bǔ)的。

2 背景知識(shí)

在本章中將介紹多智能體強(qiáng)化學(xué)習(xí)的相關(guān)背景知識(shí)。其中:2.1 節(jié)給出了多智能體強(qiáng)化學(xué)習(xí)的相關(guān)符號(hào)與問題建模;2.2 節(jié)介紹了本文所提算法的值函數(shù)的基本形式——深度循環(huán)Q 函數(shù)網(wǎng)絡(luò)(Deep Recurrent Q Network,DRQN)[23];2.3 節(jié)介紹了3 種流行的基于值函數(shù)迭代的多智能體強(qiáng)化學(xué)習(xí)算法——Vdn[13]、QMIX[14]和QTRAN[15]。

2.1 問題建立

本文考慮完全合作場景下的多智能體強(qiáng)化學(xué)習(xí)問題,它可被描述為非中心化部分可觀測馬爾可夫決策過程(Decentralized Partial Observable Markov Decision Process,Dec-POMDP)[24]的一個(gè)變種。具體來說,本文可以用八元組來描述這一問題,其中s∈S表示環(huán)境的真實(shí)狀態(tài),A是每個(gè)智能體的所能采取的動(dòng)作的集合。其中智能體的數(shù)目的總數(shù)是N,γ是獎(jiǎng)勵(lì)折扣因子。在每個(gè)時(shí)刻,每個(gè)智能體i∈{1,2,…,N}分別選取動(dòng)作ai∈A從而拼成聯(lián)合動(dòng)作向量a={a1,a2,…,aN}∈AN。本文考慮一個(gè)部分可觀測的場景,其中每個(gè)智能體i只能通過觀測函數(shù)Z(s,i):S×N?O得到部分信息o∈O。每個(gè)智能體i歷史的觀測和動(dòng)作序列為τi∈T≡(O×A)*。每個(gè)智能體將依據(jù)歷史的觀測和動(dòng)作序列τ來進(jìn)行決策。策略函數(shù)可分為靜態(tài)策略函數(shù)和隨機(jī)策略函數(shù),其中隨機(jī)策略函數(shù)可以定義為:π[a|τ]:T×A?[0,1]。

在“中心訓(xùn)練-分散執(zhí)行”的框架下,訓(xùn)練階段利用環(huán)境的全局狀態(tài)s和各個(gè)智能體的歷史觀測信息τ={τ1,τ2,…,τN}學(xué)習(xí)一個(gè)中心化的動(dòng)作值函數(shù)Q([s,τ],a)(簡記為Q(τ,a))。在執(zhí)行階段,每個(gè)智能體的策略函數(shù)πi僅僅依賴于其自身的觀測和動(dòng)作歷史序列τi。所有智能體的共同目標(biāo)是最大化所能從環(huán)境中得到的全局折扣獎(jiǎng)勵(lì)和:在下文中,為了簡化記號(hào),本文用黑體字符表示所有智能體的聯(lián)合行為,并且在不引起歧義的情況下,省略每個(gè)智能體的序號(hào)i。

2.2 深度循環(huán)Q網(wǎng)絡(luò)

在復(fù)雜的現(xiàn)實(shí)世界中的問題場景下,通常不能得到完整的狀態(tài)信息并且觀測的數(shù)據(jù)往往是具有噪聲的,這種部分可觀測的問題在多智能體場景下更為嚴(yán)重。此外,多智能體環(huán)境所天然具有的非馬爾可夫性使得每個(gè)智能體需要考慮更多的歷史信息來進(jìn)行當(dāng)前時(shí)刻的決策。文獻(xiàn)[23]的結(jié)果表明,傳統(tǒng)的深度Q 網(wǎng)絡(luò)在處理部分可觀測的馬爾可夫決策過程(Markov Decision Process,MDP)問題中會(huì)出現(xiàn)性能下降,而深度循環(huán)Q網(wǎng)絡(luò)更為適合處理部分可觀測以及非馬爾可夫的環(huán)境。

深度循環(huán)Q 網(wǎng)絡(luò)通過引入GRU(Gated Recurrent Unit)[25]或者長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[26]等循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)對(duì)歷史信息的融合從而計(jì)算狀態(tài)動(dòng)作值。一方面,多智能體環(huán)境面臨更嚴(yán)重的部分可觀測性,采用這一循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地對(duì)歷史信息進(jìn)行融合,從而緩解對(duì)環(huán)境的部分可觀測問題。另一方面,序列決策問題中當(dāng)前的策略可能受到之前多步的狀態(tài)和動(dòng)作的影響,因此這一循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還能有助于處理序列決策問題場景下的非馬爾可夫問題。與深度Q網(wǎng)絡(luò)[1]相同,DRQN[23]也利用一個(gè)數(shù)據(jù)緩存區(qū)(replay buffer)來存儲(chǔ)經(jīng)驗(yàn)數(shù)據(jù)其中τ′是在聯(lián)合的局部觀測τ下智能體采取聯(lián)合動(dòng)作a后獲得全局獎(jiǎng)勵(lì)值r所得到的下一個(gè)聯(lián)合觀測值。DRQN 通過最小化如下的均方時(shí)間差分損失來進(jìn)行學(xué)習(xí):

其中θ是值函數(shù)網(wǎng)絡(luò)的參數(shù)。θ-是目標(biāo)網(wǎng)絡(luò)(target network)的參數(shù),其更新方式為每隔固定的迭代次數(shù)將主網(wǎng)絡(luò)的參數(shù)θ直接復(fù)制。

2.3 Vdn,QMIX和QTRAN

多智能體系統(tǒng)中聯(lián)合的動(dòng)作空間隨著智能體數(shù)量的增加指數(shù)爆炸,因此直接優(yōu)化聯(lián)合的動(dòng)作值函數(shù)代價(jià)巨大。為了降低算法的復(fù)雜度,眾多算法假設(shè)智能體的聯(lián)合最優(yōu)動(dòng)作等價(jià)于每個(gè)智能體依據(jù)其自身的值函數(shù)進(jìn)行貪心的動(dòng)作選擇所得到的局部最優(yōu)值的拼接,即:

值函數(shù)分解網(wǎng)絡(luò)(Vdn)[13]限制中心化的值函數(shù)Qtot(τ,a)為每個(gè)智能體的值函數(shù)的和,即:

Vdn 算法的損失函數(shù)和(1)相同,這一方法的優(yōu)勢在于其結(jié)構(gòu)簡單,但是這一簡單的結(jié)構(gòu)限制了中心化值函數(shù)的表達(dá)能力和全局信用分配的有效性。QMIX[14]將這一線性分解拓展到了單調(diào)非線性分解。具體來說,QMIX假設(shè)中心化的值函數(shù)是每個(gè)智能體值函數(shù)的非負(fù)線性組合,即:

QMIX算法通過建立每個(gè)智能體的值函數(shù)網(wǎng)絡(luò),一個(gè)混合網(wǎng)絡(luò)和一系列的超網(wǎng)絡(luò)來實(shí)現(xiàn)上述約束,并且QMIX 算法在超網(wǎng)絡(luò)中輸入全局的狀態(tài)來輔助中心化值函數(shù)的訓(xùn)練。

Vdn 和QMIX 算法的約束都是假設(shè)(2)的一個(gè)充分條件,QTRAN[15]算法則進(jìn)一步對(duì)約束進(jìn)行松弛從而直接優(yōu)化假設(shè)(2)的一個(gè)充要條件。盡管QTRAN 工作在一個(gè)更大的假設(shè)空間,但是這一方法需要求解聯(lián)合動(dòng)作空間中的優(yōu)化問題,這將帶來龐大的計(jì)算代價(jià),因此QTRAN 并不適用于復(fù)雜的多智能體場景。

3 本文方法

3.1 獎(jiǎng)勵(lì)高速路連接

殘差網(wǎng)絡(luò)[27]通過在深度神經(jīng)網(wǎng)絡(luò)中增加跳躍連接來緩解深度神經(jīng)網(wǎng)絡(luò)在信息傳遞的過程中所造成的信息丟失與損耗。高速路網(wǎng)絡(luò)則是利用門控機(jī)制,將當(dāng)前的信息選擇性地進(jìn)行傳遞。本文利用殘差學(xué)習(xí)的觀點(diǎn),將每個(gè)智能體應(yīng)分到的獎(jiǎng)勵(lì)分為兩部分:貪心獎(jiǎng)勵(lì)和合作獎(jiǎng)勵(lì)。所謂貪心獎(jiǎng)勵(lì)是指按照假設(shè)(2)進(jìn)行信用分配所分給每個(gè)智能體的獎(jiǎng)勵(lì),記作rg,僅僅采用這種分配方式將使得每個(gè)智能體依據(jù)其自身的值函數(shù)進(jìn)行貪心的策略選擇;所謂合作獎(jiǎng)勵(lì)指的是每個(gè)智能體還應(yīng)考慮的全局獎(jiǎng)勵(lì)部分,記作rc。rc可通過對(duì)全局獎(jiǎng)勵(lì)R進(jìn)行部分橋接得到,即rc=λ·R,λ∈[0,1]。本文稱這種全局獎(jiǎng)勵(lì)直達(dá)的連接方式為獎(jiǎng)勵(lì)高速路連接。經(jīng)過這兩種形式的獎(jiǎng)勵(lì)分配后,訓(xùn)練過程中單個(gè)智能體i的實(shí)際收到的獎(jiǎng)勵(lì)信號(hào)為記環(huán)境所給的外部獎(jiǎng)勵(lì)為R,則在一個(gè)有N個(gè)智能體的多智能體環(huán)境中,rg,rc與R之間的關(guān)系為:

其中F為滿足假設(shè)(2)所進(jìn)行的全局信用分配函數(shù),它可以是簡單的所有貪心獎(jiǎng)勵(lì)rg的和(對(duì)應(yīng)于Vdn),或者是所有rg的非負(fù)組合(對(duì)應(yīng)于QMIX)。上述二路的獎(jiǎng)勵(lì)分配方式及其與殘差網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比可以用圖1來描述。

從圖1 可以看出,殘差連接[27]和獎(jiǎng)勵(lì)高速路連接均是在深度網(wǎng)絡(luò)中添加一些跳過某些中間層的跳躍連接。這種跳躍連接的方式幾乎不會(huì)帶來額外的優(yōu)化代價(jià),但更多的信息將通過跳躍連接進(jìn)行傳遞。兩種結(jié)構(gòu)不同之處在于:殘差連接的信息流向是從前往后的,這樣上一階段的信息能夠?qū)罄m(xù)階段產(chǎn)生影響;而獎(jiǎng)勵(lì)分配的方式是從后往前的,這將使得兩路獎(jiǎng)勵(lì)信號(hào)都被用來訓(xùn)練每個(gè)智能體的值函數(shù)網(wǎng)絡(luò),從而使得單獨(dú)的智能體在考慮最優(yōu)化其自身的利益的同時(shí)最大化全局獎(jiǎng)勵(lì)值。

圖1 殘差連接和獎(jiǎng)勵(lì)高速路連接對(duì)比Fig.1 Comparison of residual connection and reward highway connection

3.2 本文所提算法

本文采用QMIX 的網(wǎng)絡(luò)結(jié)構(gòu)作為本文算法的基本網(wǎng)絡(luò)結(jié)構(gòu)。QMIX 采用混合網(wǎng)絡(luò)和一系列的超網(wǎng)絡(luò)來構(gòu)造信用分配網(wǎng)絡(luò)F。每個(gè)超網(wǎng)絡(luò)接受全局狀態(tài)作為輸入,輸出的非負(fù)值作為混合網(wǎng)絡(luò)的權(quán)重。本文稱在這一信用分配網(wǎng)絡(luò)F上加入獎(jiǎng)勵(lì)高速路連接所得到的網(wǎng)絡(luò)為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)(RHWNet)。RHWNet的示意圖如圖2所示,與QMIX 相同,在每個(gè)智能體單獨(dú)的值函數(shù)網(wǎng)絡(luò)中加入GRU 來實(shí)現(xiàn)對(duì)歷史信息的利用,并且所有智能體的值函數(shù)網(wǎng)絡(luò)是參數(shù)共享的。通過圖2 可以看出,獎(jiǎng)勵(lì)高速路連接并不會(huì)引入額外的神經(jīng)網(wǎng)絡(luò)參數(shù),因此RHWNet并沒有額外的優(yōu)化代價(jià)。

圖2 本文所提算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the proposed algorithm

在實(shí)現(xiàn)過程中,本文算法通過最小化如下的損失函數(shù)進(jìn)行端到端的訓(xùn)練:

其中:Nb為采樣批量(batch)的大小,λ為將全局獎(jiǎng)勵(lì)通過獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)輸送到每個(gè)智能體上的權(quán)重,θ為所有智能體非中心化的值函數(shù)網(wǎng)絡(luò)的參數(shù),φ為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的參數(shù),其中γ是獎(jiǎng)勵(lì)折扣因子,θ-、φ-是與標(biāo)準(zhǔn)的深度Q 學(xué)習(xí)算法中相同的目標(biāo)網(wǎng)絡(luò)(target network)的參數(shù)。所有的神經(jīng)網(wǎng)絡(luò)都是通過端到端的方式進(jìn)行訓(xùn)練的。

4 實(shí)驗(yàn)與結(jié)果

本章首先給出本文所提算法的實(shí)驗(yàn)環(huán)境和算法的實(shí)現(xiàn)細(xì)節(jié),然后給出實(shí)驗(yàn)結(jié)果和消融分析。

4.1 實(shí)驗(yàn)環(huán)境

本文在星際爭霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge,SMAC)[28]環(huán)境上對(duì)本文所提的RHWNet 進(jìn)行評(píng)估。SMAC 是基于星際爭霸Ⅱ游戲的一個(gè)實(shí)驗(yàn)環(huán)境,與完整的星際爭霸Ⅱ游戲相比,SMAC 側(cè)重研究每個(gè)智能體的微操作。微操作指的是SMAC 重點(diǎn)關(guān)注如何控制每個(gè)士兵去戰(zhàn)勝敵方,而不考慮如何發(fā)展經(jīng)濟(jì)以及進(jìn)行資源的調(diào)度等高層次的宏觀操作。

SMAC 提供了多種復(fù)雜的微操作場景來探究智能體之間的合作行為。在每個(gè)場景中,開始時(shí)刻兩組敵對(duì)的士兵被分配到戰(zhàn)場中的隨機(jī)位置。戰(zhàn)場中的每個(gè)士兵只能在其視野范圍內(nèi)搜集到關(guān)于戰(zhàn)場環(huán)境的局部信息,這將帶來嚴(yán)重的對(duì)環(huán)境的部分可觀測性。環(huán)境僅根據(jù)智能體所采取的聯(lián)合動(dòng)作來給出一個(gè)全局的獎(jiǎng)勵(lì)信號(hào)。本文采用強(qiáng)化學(xué)習(xí)算法來控制戰(zhàn)場中的一組士兵(同盟單元),來與內(nèi)置的基于啟發(fā)式規(guī)則的游戲AI控制的另一組士兵進(jìn)行對(duì)抗。在實(shí)驗(yàn)中,內(nèi)置AI的難度被設(shè)置為“非常困難”來驗(yàn)證本文算法的有效性。

本文所提算法旨在優(yōu)化合作場景下的全局獎(jiǎng)勵(lì)分配問題。因此重點(diǎn)考慮非對(duì)稱(asymmetic)場景(敵我雙方士兵構(gòu)成不同)以及非齊次且對(duì)稱(heterogeneous and symmetic)場景下(敵我雙方士兵人員組成相同,但均由不同種類的士兵構(gòu)成)的對(duì)抗。表1列出了實(shí)驗(yàn)所考慮的4種實(shí)驗(yàn)場景。

表1 實(shí)驗(yàn)中所考慮的不同場景Tab.1 Scenarios considered in experiments

4.2 實(shí)現(xiàn)細(xì)節(jié)

每個(gè)智能體的值函數(shù)網(wǎng)絡(luò)由以下結(jié)構(gòu)構(gòu)成:首先從環(huán)境中得到的觀測傳入一層維度為64 維的全連接層,經(jīng)過ReLU[29]激活函數(shù)后,輸入到維度為64 的GRU 模塊進(jìn)行當(dāng)前信息與歷史信息的整合,GRU 模塊的輸出傳入到一層維度為64 的全連接層,之后再經(jīng)過ReLU 激活函數(shù)得到當(dāng)前智能體的動(dòng)作值向量Qi(τi,·)。然后根據(jù)這一動(dòng)作值函數(shù)進(jìn)行ε-貪心的策略選擇,隨著訓(xùn)練的進(jìn)行,ε的取值從1.0 線性衰減到0.05。為了降低網(wǎng)絡(luò)的參數(shù)數(shù)量,所有智能體共享同一個(gè)動(dòng)作值函數(shù)網(wǎng)絡(luò)。

之后每個(gè)智能體的Q 值傳入獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò),獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)中的混合網(wǎng)絡(luò)部分采用與QMIX 算法相同的結(jié)構(gòu)。全局獎(jiǎng)勵(lì)值經(jīng)過高速路傳輸?shù)亩嗌儆墒剑?)中的λ參數(shù)控制,在本文的所有實(shí)驗(yàn)場景中本文均設(shè)置λ=0.2。

本文采用RMSprop方法來最小化損失函數(shù)(6),其參數(shù)設(shè)置為:lr=0.000 5,α=0.99,獎(jiǎng)勵(lì)折扣因子γ=0.99。每經(jīng)過200局游戲?qū)δ繕?biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行一次更新。

4.3 主要實(shí)驗(yàn)結(jié)果

本文將所提算法與SMAC 平臺(tái)上較先進(jìn)的算法Coma 和QMIX進(jìn)行對(duì)比,并與不進(jìn)行全局信用分配的獨(dú)立Q學(xué)習(xí)算法(Independent Q learning,Iql)和只進(jìn)行簡單全局信用分配的Vdn算法進(jìn)行對(duì)比,主要實(shí)驗(yàn)結(jié)果如圖3所示。本文將每個(gè)算法在所有不同的場景中均獨(dú)立訓(xùn)練10 次,得到的線條和陰影部分分別表示平均測試勝率及對(duì)應(yīng)勝率方差的95%的置信區(qū)間。陰影部分的面積大小可以作為衡量算法穩(wěn)定性和魯棒性的評(píng)價(jià)指標(biāo),陰影面積越小意味著算法的性能方差越小從而算法的穩(wěn)定性和魯棒性越好。

可以看到,在所有的非齊次對(duì)稱場景下(3s5z,1c3s5z,3s6z),本文提出的算法能夠取得最優(yōu)的性能,并且在較為簡單的場景(2s_vs_1sc)下也能獲得接近最優(yōu)的性能。此外RHWNet 的性能提升不僅體現(xiàn)在最終的勝率上,還體現(xiàn)在學(xué)習(xí)的效率上。

具體來說,在智能體數(shù)量較少的2s_vs_1sc 場景下,本文可以看出采用較為復(fù)雜獎(jiǎng)勵(lì)分配機(jī)制的QMIX 性能要明顯差于結(jié)構(gòu)更簡單的Vdn和Iql算法。這意味著QMIX這一較為復(fù)雜的全局信用分配機(jī)制在某些較為簡單的場景下也有可能失效。而通過獎(jiǎng)勵(lì)高速路連接之后,RHWNet 算法在這一場景下得到了很大的性能提升。

圖3 本文算法與其他算法在4個(gè)場景下的測試勝率對(duì)比Fig.3 Test winning rate comparison of the proposed algorithm and other algorithms

在1c3s5z 場景下,每個(gè)團(tuán)隊(duì)中都有3 種不同類型的智能體。如圖3(c)所示,在這一場景下,QMIX 和Vdn 算法性能都出現(xiàn)了較大的波動(dòng)(對(duì)應(yīng)的陰影部分面積增大)。而RHWNet在取得性能提升的同時(shí)還具有更小的性能上的方差,這意味著RHWNet在復(fù)雜的問題場景下依然具有很好的魯棒性。

在3s5z 場景下,本文可以看到采用更為復(fù)雜獎(jiǎng)勵(lì)分配方式的QMIX 算法性能要大大優(yōu)于采用簡單信用分配方式的Vdn 算法以及不進(jìn)行信用分配的Iql 算法。尤其需要指出的是,Vdn 算法可看作QMIX 算法的簡化版本,這意味著在這一復(fù)雜的場景下,QMIX所采用的更復(fù)雜的結(jié)構(gòu)更有效。然而這些基準(zhǔn)算法都存在樣本利用率低、學(xué)習(xí)速度慢的問題,而RHWNet 則能大大提高算法的學(xué)習(xí)速度和樣本利用的效率。同樣的結(jié)果可以在更為復(fù)雜的3s6z場景下得到。在3s6z場景中,Coma、Vdn 和Iql 的訓(xùn)練基本無效,QMIX 也不能得到令人滿意的結(jié)果;而RHWNet 在僅需要QMIX 算法所需樣本數(shù)量的1/3 的情形下,最終勝率能達(dá)到QMIX 算法的1.5 倍。這表明在3s6z 這一智能體數(shù)量和種類較多的復(fù)雜場景下,已有算法的獎(jiǎng)勵(lì)分配機(jī)制不能有效地進(jìn)行全局獎(jiǎng)勵(lì)分配,而獎(jiǎng)勵(lì)高速路連接為這種復(fù)雜場景引入了一個(gè)更好的獎(jiǎng)勵(lì)分配機(jī)制,從而取得了最終性能和樣本效率的提升。

4.4 消融測試

在這一部分本文重點(diǎn)探究通過獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)傳遞的全局獎(jiǎng)勵(lì)的比例對(duì)最終的實(shí)驗(yàn)性能所產(chǎn)生的影響。式(6)中參數(shù)λ的作用其實(shí)起到了平衡原有的端到端的獎(jiǎng)勵(lì)分配方式和直接利用全局獎(jiǎng)勵(lì)的作用。當(dāng)式(6)中的λ取值較小時(shí),每個(gè)智能體所獲得的獎(jiǎng)勵(lì)信號(hào)更多地來源于直接的全局獎(jiǎng)勵(lì);當(dāng)λ取值較大時(shí),每個(gè)智能體的獎(jiǎng)勵(lì)信號(hào)則更多地來源于混合網(wǎng)絡(luò)的信用分配結(jié)果。

圖4顯示了在3s5z場景下,λ的不同取值所獲得的實(shí)驗(yàn)結(jié)果。其中實(shí)線和陰影表示獨(dú)立進(jìn)行10 次實(shí)驗(yàn)的均值和95%的置信區(qū)間。從這一實(shí)驗(yàn)結(jié)果可以看出,當(dāng)λ=0.2,0.4,0.6時(shí),RHWNet 均能得到明顯的性能提升。但是當(dāng)λ的值進(jìn)一步增大時(shí),反而會(huì)出現(xiàn)性能下降。因此,通過信息高速路網(wǎng)絡(luò)進(jìn)行傳輸?shù)娜知?jiǎng)勵(lì)值的比例實(shí)際上起到了對(duì)原有信用分配機(jī)制與僅考慮全局獎(jiǎng)勵(lì)的平衡作用。實(shí)驗(yàn)結(jié)果表明,λ=0.2是一個(gè)比較魯棒的值。因此本文的所有實(shí)驗(yàn)場景都采用λ=0.2作為獎(jiǎng)勵(lì)高速路鏈接網(wǎng)絡(luò)的權(quán)重。

圖4 在3s5z場景中所提出的算法對(duì)超參數(shù)λ的敏感性Fig.4 Sensitivity of the proposed algorithm to hyperparameter λ in 3s5z scenario

5 結(jié)語

在“中心訓(xùn)練-分散執(zhí)行”的多智能體強(qiáng)化學(xué)習(xí)框架下,全局信用的分配可以通過對(duì)中心化值函數(shù)和非中心化值函數(shù)之間施加約束來實(shí)現(xiàn)。然而,不同的約束關(guān)系不僅決定了算法的復(fù)雜程度,還直接決定了獎(jiǎng)勵(lì)分配機(jī)制的有效性。本文提出了一種基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的全局信用分配算法RHWNet,通過在獎(jiǎng)勵(lì)分配機(jī)制上引入獎(jiǎng)勵(lì)高速路連接,能夠達(dá)到:

1)每個(gè)智能體的決策行為能夠考慮其自身所分得的局部獎(jiǎng)勵(lì)和整個(gè)團(tuán)隊(duì)的全局獎(jiǎng)勵(lì);

2)獎(jiǎng)勵(lì)高速路連接結(jié)構(gòu)簡單,幾乎不會(huì)引入額外的優(yōu)化代價(jià);

3)在多個(gè)復(fù)雜的場景下,RHWNet 相比原有的先進(jìn)算法能夠取得很好的性能提升。

本文的后續(xù)工作將會(huì)研究限制條件下的全局獎(jiǎng)勵(lì)分配問題(比如智能體之間存在資源競爭的關(guān)系),以及為智能體之間建立通信機(jī)制來進(jìn)行協(xié)調(diào)配合。

猜你喜歡
高速路全局信用
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
多端聯(lián)動(dòng)、全時(shí)管控的高速路產(chǎn)保通管控平臺(tái)
中國交通信息化(2021年3期)2021-11-22 07:59:08
為食品安全加把“信用鎖”
信用收縮是否結(jié)束
中國外匯(2019年9期)2019-07-13 05:46:30
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
信用中國網(wǎng)
信用消費(fèi)有多爽?
高速路
小說月刊(2015年11期)2015-04-23 08:47:34
凤冈县| 镇巴县| 巴彦淖尔市| 古浪县| 吉林市| 永宁县| 平遥县| 贡觉县| 万载县| 犍为县| 乾安县| 兴宁市| 西贡区| 绥宁县| 环江| 濉溪县| 黔江区| 密云县| 台东市| 永年县| 鄂托克旗| 汾西县| 瑞安市| 唐海县| 黑水县| 民权县| 东台市| 康乐县| 赤壁市| 定州市| 舞阳县| 区。| 泗洪县| 临桂县| 墨玉县| 永福县| 达尔| 财经| 彰化市| 北碚区| 永昌县|