国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

稀疏獎勵場景下基于個體落差情緒的多智能體協(xié)作算法

2022-06-09 01:43:22方寶富
模式識別與人工智能 2022年5期
關(guān)鍵詞:協(xié)作個體情緒

王 浩 汪 京 方寶富

強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)以試錯機(jī)制與環(huán)境進(jìn)行交互,通過最大化累積獎勵學(xué)習(xí)完成目標(biāo)任務(wù)的最優(yōu)策略.RL主要用于解決序貫決策問題,廣泛應(yīng)用于交通控制[1]、機(jī)器人控制[2]、游戲博弈[3]等領(lǐng)域.然而在面對一些真實(shí)場景下的復(fù)雜決策問題時,單智能體系統(tǒng)的決策能力有限,需要多個決策者之間相互協(xié)作共同完成任務(wù).因此將強(qiáng)化學(xué)習(xí)與多智能體系統(tǒng)交叉融合形成的多智能體強(qiáng)化學(xué)習(xí)(Multi-agent RL, MARL)[4]成為人工智能領(lǐng)域中的重要研究方向.

在強(qiáng)化學(xué)習(xí)中,獎勵具有引導(dǎo)智能體學(xué)習(xí)方向的作用[5],智能體依賴獎勵進(jìn)行策略優(yōu)化.在訓(xùn)練開始階段,智能體采用隨機(jī)策略探索環(huán)境,需要經(jīng)過一系列復(fù)雜的操作才能獲得獎勵,導(dǎo)致智能體訓(xùn)練困難.缺乏外在獎勵信息導(dǎo)致智能體學(xué)習(xí)緩慢甚至無法學(xué)習(xí)到有效策略,這就是稀疏獎勵問題(Sparse Reward Problem)[6].在多智能體系統(tǒng)中,多位決策者需要相互協(xié)作共同完成目標(biāo)任務(wù)才能獲得獎勵,因此稀疏獎勵問題在多智能體系統(tǒng)中普遍存在.在一定程度上解決稀疏獎勵問題,有助于提高多智能體強(qiáng)化學(xué)習(xí)算法的樣本利用率,加快策略學(xué)習(xí)的速度.

針對稀疏獎勵問題,一種直觀的解決方法是利用先驗(yàn)知識人工設(shè)計(jì)密集的獎勵函數(shù).通過人為設(shè)計(jì)的密集獎勵,引導(dǎo)智能體完成目標(biāo)任務(wù),簡化訓(xùn)練過程.但是人工設(shè)計(jì)的獎勵函數(shù)與任務(wù)密切相關(guān),缺乏通用性.針對獎勵設(shè)計(jì)困難的問題,Hussein等[7]提出模仿學(xué)習(xí)方法,使用示例數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),使智能體快速掌握示例策略,加快智能體訓(xùn)練速度,但是模仿不可能精確復(fù)制示范動作,又由于強(qiáng)化學(xué)習(xí)是序列決策問題,因此將累積誤差.

此外,解決稀疏獎勵問題的另一個研究方向是將內(nèi)在動機(jī)引入強(qiáng)化學(xué)習(xí),外在獎勵結(jié)合內(nèi)在獎勵共同指導(dǎo)智能體學(xué)習(xí).Pathak等[8]學(xué)習(xí)環(huán)境的狀態(tài)轉(zhuǎn)移,使用預(yù)測誤差作為內(nèi)在獎勵,促進(jìn)智能體的探索.Strouse 等[9]使用目標(biāo)與狀態(tài)或行動之間的交互信息作為內(nèi)在獎勵,加快智能體的收斂速度.上述內(nèi)在動機(jī)方法引入額外的網(wǎng)絡(luò)計(jì)算內(nèi)在獎勵,并引入額外的偏差,在一定程度上影響智能體訓(xùn)練.

在人類行為塑造中,情緒起到關(guān)鍵作用.人類和其它動物在學(xué)習(xí)和探索過程中也會使用情緒傳達(dá)關(guān)于個體內(nèi)部狀態(tài)的信息,這種方式與語言無關(guān)[10],具有一定的通用性.另一方面,情緒通過提供對過去、現(xiàn)在和未來情況的反饋塑造行為[11],這種反饋在影響行為選擇時,總是使行為偏向某個特定方向.當(dāng)智能體選擇并執(zhí)行一個動作,到達(dá)新的狀態(tài)時,如果獎勵高于預(yù)期或情況優(yōu)于預(yù)期,智能體將產(chǎn)生積極情緒,從而指導(dǎo)智能體在該狀態(tài)下更多地選擇這一動作.情緒的加入使智能體能感受到自身行動的優(yōu)劣,通過為其增加內(nèi)在獎勵的方式,幫助智能體調(diào)整行為策略,緩解稀疏獎勵問題.

借鑒情緒對決策的重要作用,本文提出基于個體落差情緒的多智能體協(xié)作算法(Multi-agent Cooperative Algorithm Based on Individual Gap Emo-tion, IGE).遵循CTDE(Centralized Training with Decentralized Execution)[12]框架,學(xué)習(xí)一個集中但分解的評論家,將集中式評論家分解為以自身觀測為條件的單個評論家的加權(quán)線性組合.集中式策略梯度估計(jì)器直接優(yōu)化整個聯(lián)合動作空間,加強(qiáng)智能體間策略的協(xié)調(diào).綜合考慮多智能體系統(tǒng)中全局獎勵對每個智能體的不同影響,將個體動作值函數(shù)映射為落差情緒.該落差情緒直接與RL的學(xué)習(xí)過程關(guān)聯(lián),把智能體的個體落差情緒作為內(nèi)在情緒獎勵反饋到每個智能體.該獎勵在每個時間步分別刺激相應(yīng)的智能體,促進(jìn)智能體行為的多樣性,同時緩解稀疏獎勵問題.在不同稀疏程度的多智能體追捕任務(wù)上評估IGE,實(shí)驗(yàn)表明,IGE在追捕成功率和收斂步數(shù)上均較優(yōu),能在獎勵稀疏的環(huán)境中更快地學(xué)會協(xié)作策略.

1 相關(guān)工作

1.1 多智能體深度確定性策略梯度算法

多智能體深度確定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient, MADDP-G)[13]將深度確定性策略梯度算法(Deep Determi-nistic Policy Gradient, DDPG)擴(kuò)展到多智能體系統(tǒng),使用CTDE范式學(xué)習(xí)連續(xù)動作空間的確定性策略.為每個智能體建立一個中心化的評論家(Critic)網(wǎng)絡(luò),在訓(xùn)練階段使用所有智能體的信息而非僅使用個體信息,以此緩解多智能體系統(tǒng)的非平穩(wěn)問題.而在執(zhí)行階段策略(Actor)網(wǎng)絡(luò)僅根據(jù)當(dāng)前智能體的局部觀測信息oi選擇動作ai.

在MADDPG中,集中式Critic網(wǎng)絡(luò)通過全局狀態(tài)s和所有智能體的動作{a1,a2,…,an}估計(jì)聯(lián)合動作值函數(shù)Qi,由φi參數(shù)化.最小化損失

L(φi)=Es,a,r,s′[(y-Qi(s,a1,a2,…,an;φi))2]

以訓(xùn)練集中式Critic網(wǎng)絡(luò),其中

y=ri+γQ′i(s′,a′1,a′2,…,a′n;φ′i)|a′j=μ′j(oj),

ri為智能體i收到的外在獎勵,{μ′1,μ′2,…,μ′n}為智能體的目標(biāo)策略集合,φ′i為目標(biāo)Critic網(wǎng)絡(luò)Q′i的參數(shù).

MADDPG單獨(dú)計(jì)算策略梯度

?θiJ(μi)=

Es,a~D[?θiμi(ai|oi)?aiQi(s,ai,…,an)|ai=μi(oi)],

以更新每個智能體的策略μi(oi|θi).

1.2 內(nèi)在獎勵

內(nèi)在動機(jī)是心理學(xué)中一個被廣泛研究的領(lǐng)域,它關(guān)注由內(nèi)在滿足而不是結(jié)果驅(qū)動的行為[14].通過內(nèi)在動機(jī)計(jì)算額外的內(nèi)在獎勵以支持智能體訓(xùn)練,促進(jìn)智能體的探索.

Tang等[15]提出基于計(jì)數(shù)(Count-Based)、可泛化到高維狀態(tài)空間的探索策略.使用狀態(tài)的訪問頻率衡量狀態(tài)的不確定性,訪問次數(shù)越少的狀態(tài)具有越強(qiáng)的新穎性.通過Hash函數(shù)將狀態(tài)映射到Hash表進(jìn)行計(jì)數(shù),以與計(jì)數(shù)成反比的方式為智能體提供內(nèi)在獎勵,實(shí)現(xiàn)在高維狀態(tài)空間中應(yīng)用基于計(jì)數(shù)的探索方法,取得較優(yōu)效果.

Pathak等[8]提出ICM(Intrinsic Curiosity Mo-dule),學(xué)習(xí)有效的觀測表示.使用逆環(huán)境模型獲取狀態(tài)的特征表示,去除環(huán)境模型中與動作無關(guān)的部分.通過前向動態(tài)模型的預(yù)測誤差作為鼓勵其好奇心的內(nèi)在獎勵,促進(jìn)智能體的探索.

Badia等[16]提出NGU(Never Give Up),基于智能體最近經(jīng)驗(yàn)的k近鄰構(gòu)建基于情景記憶的內(nèi)在獎勵,并通過長期新穎性模塊使智能體保持持久好奇心,以此訓(xùn)練定向探索策略,鼓勵智能體訪問其環(huán)境中的所有狀態(tài).

1.3 情緒與強(qiáng)化學(xué)習(xí)

情緒在學(xué)習(xí)中扮演著重要的角色,通過激發(fā)生理信號,使行為偏向于獎勵最大化和懲罰最小化.

目前也有學(xué)者將情緒結(jié)合RL.Horio等[17]通過基于蒙特卡洛方法的學(xué)習(xí)調(diào)整情緒,根據(jù)自己的位置與他人位置之間的關(guān)系,選擇要執(zhí)行的協(xié)作動作,并結(jié)合由強(qiáng)化學(xué)習(xí)獲得的戰(zhàn)略決策訓(xùn)練智能體.Salichs等[18]提出基于價值的情緒激發(fā)方法,對特定狀態(tài)的恐懼建模為與該狀態(tài)相關(guān)的最糟糕的歷史動作值,建立的模型會記住它應(yīng)該害怕的特定壞位置.上述方法僅適用于離散動作空間且狀態(tài)空間較小,難以泛化到高維連續(xù)動作空間.

針對情緒在多智能體復(fù)雜決策中的應(yīng)用,方寶富等[19]側(cè)重考慮智能體的異構(gòu)性,根據(jù)智能體自身的個性特點(diǎn)建立情感模型,經(jīng)歷衰減和刺激后生成具有自身個性特征的情感值,基于情感值生成智能體的內(nèi)在獎勵.但是,該方法需要事先設(shè)定每個智能體的個性特征,不同的個性將導(dǎo)致不同的策略方案,缺乏對環(huán)境的通用性,并且也未充分考慮總體獎勵對每個智能體的不同影響.

2 基于個體落差情緒的多智能體協(xié)作算法

情緒是智能體的一種內(nèi)在屬性,與智能體行為選擇機(jī)制密切相關(guān).受此啟發(fā),綜合考慮全局團(tuán)隊(duì)獎勵對多智能體系統(tǒng)中每個智能體的不同影響,提出基于個體落差情緒的多智能體協(xié)作算法(IGE).為每個智能體建立落差情緒模型,作為內(nèi)在動機(jī)機(jī)制,該情緒模型僅以自身觀測信息作為條件,以每個智能體產(chǎn)生不同的內(nèi)在情緒獎勵作為外在獎勵的有效補(bǔ)充,以此緩解稀疏獎勵問題,并促進(jìn)智能體行為多樣化.

2.1 個體落差情緒

情緒是對外部事件或內(nèi)部事件的反應(yīng),事件是一種狀態(tài)變化[20].這一變化是否具有象征意義并不重要,重要的是,生物體能推斷出相比之前情況發(fā)生的變化.在大多數(shù)認(rèn)知情緒理論中,情緒與狀態(tài)變化有關(guān)[21].由于情緒是對事件的反應(yīng),這意味著情緒總是包含對狀態(tài)變化的積極評估和消極評估.

基于上述特點(diǎn),本文提出落差情緒概念,基于個體相關(guān)性,由預(yù)期結(jié)果與實(shí)際情況之間的差異產(chǎn)生落差情緒,這里的預(yù)期是指對未來可能狀態(tài)的預(yù)測.落差情緒定義如下:

Eg=Φ′(s)-Φ(s),

其中,Φ′、Φ分別表示對事件的預(yù)期評價與實(shí)際評價,s表示狀態(tài)信息.

本文中的情緒并不意味著智能體應(yīng)該“了解自己的情緒”.情緒更多來自于RL學(xué)習(xí)過程的各方面(如價值函數(shù)),且在學(xué)習(xí)趨同后也可能持續(xù)存在[22].因此,在強(qiáng)化學(xué)習(xí)中,可通過價值函數(shù)衡量預(yù)期評價與實(shí)際評價.落差情緒通過預(yù)期評價與實(shí)際評價之間差值的正負(fù),反映個體對事件積極評價和消極評價.通過落差情緒提供的反饋信息,個體可調(diào)整未來的行為趨勢.

2.2 基于落差情緒的內(nèi)在情緒獎勵

將情緒引入強(qiáng)化學(xué)習(xí)中并進(jìn)行量化分析,智能體根據(jù)量化的情緒模型將感知的狀態(tài)信息映射為相應(yīng)的情緒值,將情緒值進(jìn)行加權(quán)處理,作為最終的內(nèi)在情緒獎勵信號.

在RL中量化落差情緒時,若采用狀態(tài)值函數(shù),則意味著狀態(tài)本身導(dǎo)致情緒的產(chǎn)生,類似人類的狀態(tài)評估,當(dāng)處于絕境時,會直接影響心情的好壞.而采用動作值函數(shù)量化情緒,更側(cè)重于動作選擇的影響.綜合考慮后,本文采用動作值函數(shù)量化落差情緒.強(qiáng)化學(xué)習(xí)中動作值函數(shù)表示智能體在當(dāng)前狀態(tài)下采取行動獲得的預(yù)期累積獎勵,以此作為對當(dāng)前狀態(tài)的評價.

在多智能體系統(tǒng)中,聯(lián)合動作空間會隨著智能體數(shù)目呈指數(shù)增長,難以單純學(xué)習(xí)以全局狀態(tài)和聯(lián)合動作為條件的集中式情感模型,會造成過大偏差,并且該集中式情感模型未充分體現(xiàn)多智能體系統(tǒng)中個體之間的差異.因此,本文學(xué)習(xí)集中但分解的Critic網(wǎng)絡(luò),通過個體Critic建模情緒,充分考慮個體間的差異性,同時緩解狀態(tài)空間和動作空間增長造成的難訓(xùn)練問題.在AC(Actor-Critic)框架中采用值分解方法,相比基于價值的值分解方法,集中式Critic網(wǎng)絡(luò)的設(shè)計(jì)不受約束[23].所有智能體共享一個集中式Critic網(wǎng)絡(luò),聯(lián)合動作值函數(shù)Qtot被分解為

集中但分解的Critic網(wǎng)絡(luò)通過最小化

L(φ)=ED[(ytot-Qtot(s,τ,a;φ))2]

(1)

進(jìn)行訓(xùn)練,其中

ytot=rex+γQ′tot(s′,τ′,a′;φ′),

落差情緒中預(yù)期結(jié)果與實(shí)際情況的差值可由TD誤差計(jì)算.強(qiáng)化學(xué)習(xí)中TD根據(jù)當(dāng)前獲得的獎勵和對未來獎勵的預(yù)測,估計(jì)情境變得更好或更壞的程度,通過TD誤差可反映智能體對事件的積極評價和消極評價.

但是,生物往往通過獎勵而非懲罰學(xué)習(xí)新技能,頻繁的懲罰只會使學(xué)習(xí)者因?yàn)榭謶侄V筟20].受此啟發(fā),本文在落差情緒定義的基礎(chǔ)上,通過實(shí)際結(jié)果與預(yù)期評價之間的相對距離計(jì)算落差情緒值,以此反映個體對環(huán)境的掌控力度,鼓勵智能體提高積極情緒.并且引入最大控制力常量ξ,若相對差值大于ξ,表明情緒波動較大,對環(huán)境的掌控力較弱,給予消極評價,反之亦然.本文以上述方式對事件進(jìn)行積極評價和消極評價.

個體落差情緒反映個體對其能力的主觀評價,表明個體對環(huán)境模型的控制力度(即對環(huán)境變化的預(yù)測能力),對環(huán)境模型預(yù)測越準(zhǔn)確,意味著個體對環(huán)境的控制力越強(qiáng).每次更新時Q值變化越大,意味著智能體在該“狀態(tài)-動作”下的策略越不穩(wěn)定,離到達(dá)收斂越遠(yuǎn),即控制力越小,而隨著智能體的學(xué)習(xí),控制力會逐漸提高.

將個體落差情緒映射到內(nèi)在情緒獎勵,對落差情緒值進(jìn)行加權(quán),得到每個智能體的內(nèi)在情緒獎勵:

(2)

2.3 基于內(nèi)在情緒獎勵的多智能體算法

基于個體落差情緒的內(nèi)在情緒獎勵可準(zhǔn)確分配給特定的智能體,因此單獨(dú)最大化內(nèi)在獎勵比聯(lián)合最大化所有智能體的內(nèi)在獎勵總和更有效[24].

(3)

?φiJ(φi)=

(4)

以此提高全局獎勵和內(nèi)在情緒獎勵,而非直接將內(nèi)在情緒獎勵加入聯(lián)合動作值函數(shù)的TD 誤差中,該輔助梯度方式不會導(dǎo)致原來的TD 誤差增加.同時混合網(wǎng)絡(luò)參數(shù)仍通過原有聯(lián)合動作值函數(shù)的TD誤差δtot進(jìn)行更新.由于未引入內(nèi)在獎勵的影響,因此不會因?yàn)橐雰?nèi)在情緒獎勵導(dǎo)致過高的TD誤差,從而影響智能體的訓(xùn)練.

圖1 IGE整體架構(gòu)

在更新智能體策略網(wǎng)絡(luò)時,IGE使用一個集中式梯度估計(jì)器優(yōu)化整個動作空間,而非分別優(yōu)化每個智能體的動作空間,以此實(shí)現(xiàn)智能體間策略的更好協(xié)調(diào).集中式策略梯度

?ψJ(μ)=
Es,a~D[?ψμ?aQtot(s,a1,a2,…,an)|ai=μi(oi)],

(5)

其中,

μ={μ1(o1;ψ1),μ2(o2;ψ2),…,μn(on;ψn)}

為所有智能體的當(dāng)前策略集合,

ψ={ψ1,ψ2,…,ψn}

為智能體策略參數(shù)集合,D為經(jīng)驗(yàn)緩沖池.

本文方法是異策略(Off-Policy)算法,環(huán)境的外在獎勵存放在經(jīng)驗(yàn)緩沖區(qū)中,因?yàn)閭€體動作值函數(shù)在智能體學(xué)習(xí)過程中不斷改變,所以在每次更新之前,需要在采樣批次中重新計(jì)算內(nèi)在情緒獎勵.

IGE完整訓(xùn)練過程如算法1所示.

算法 1IGE

初始化智能體網(wǎng)絡(luò)的權(quán)重參數(shù)ψ,

價值網(wǎng)絡(luò)的權(quán)重參數(shù)φ,

內(nèi)在情緒網(wǎng)絡(luò)的權(quán)重參數(shù)θ,

混合網(wǎng)絡(luò)的權(quán)重參數(shù)φ,經(jīng)驗(yàn)池D,

對應(yīng)目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)

φ′=φ,ψ′=ψ,θ′=θ,φ′=φ.

fort=1 toTdo

對于每個智能體i,選擇動作ai~μi(oi)+ε.

執(zhí)行動作a=(a1,a2,…,an),得到獎勵r及下一

個狀態(tài)s′.

在經(jīng)驗(yàn)池D中存儲(s,a,r,s′).

s←s′.

以均勻分布在D中采樣N條記錄.

for agenti=1 tondo

最小化損失函數(shù)(3)以更新內(nèi)在情緒網(wǎng)絡(luò)的權(quán)

重參數(shù)θi.

根據(jù)式(4)計(jì)算的策略梯度更新價值網(wǎng)絡(luò)的權(quán)

重參數(shù)φi.

end for

通過最小化損失函數(shù)(1)更新混合網(wǎng)絡(luò)gφ.

通過集中式策略梯度(5)更新智能體網(wǎng)路μψi.

更新目標(biāo)網(wǎng)絡(luò):

φ′=τφ+(1-τ)φ′,ψ′=τψ+(1-τ)ψ′,

θ′=τθ+(1-τ)θ′,φ′=τφ+(1-τ)φ′.

end for

3 實(shí)驗(yàn)及結(jié)果分析

本文以多智能體追捕任務(wù)為實(shí)驗(yàn)場景,在3種不同稀疏程度的追捕環(huán)境中進(jìn)行實(shí)驗(yàn),包括單目標(biāo)追捕、多目標(biāo)追捕和協(xié)作追捕.在這些環(huán)境中將IGE與多種基線方法進(jìn)行對比.

3.1 實(shí)驗(yàn)環(huán)境

多智能體追捕環(huán)境改編自Lowe等[13]原始 Predator-Prey 環(huán)境,引入追捕半徑同時允許智能體死亡,取消根據(jù)距離人為設(shè)置的密集獎勵,以此驗(yàn)證多智能體稀疏獎勵問題.

追捕環(huán)境設(shè)置為:在一個二維世界中,有n位追捕者(研究主體)和m位逃跑者(任務(wù)目標(biāo)),只能控制追捕者,逃跑者是隨機(jī)智能體.所有智能體可出現(xiàn)在二維世界中任意位置,并向任意方向移動.追捕者的目標(biāo)是協(xié)調(diào)以盡可能少的步驟捕獲逃跑者.每位追捕者的狀態(tài)包括當(dāng)前位置和速度、其它智能體的相對位置及逃跑者的速度,追捕者的動作空間是二維連續(xù)動作空間,取值范圍為[-1,1].追捕者的追捕半徑為0.15,當(dāng)逃跑者與追捕者的距離小于追捕半徑時逃跑者被捕獲,被捕獲的逃跑者會死亡.

實(shí)驗(yàn)環(huán)境如圖2所示.有3位追捕者(紅色)和一位逃跑者(紫色).黑色圓形表示障礙物,可以阻礙雙方的行動.淺紅色圓圈表示該追捕者的追捕范圍,追捕范圍的數(shù)值可控.

圖2 實(shí)驗(yàn)環(huán)境

本文共設(shè)計(jì)3組實(shí)驗(yàn),分別從目標(biāo)數(shù)量和追捕條件的角度對環(huán)境中獎勵稀疏級別進(jìn)行分級,如表1所示.

表1 實(shí)驗(yàn)環(huán)境稀疏等級

1)單目標(biāo)追捕.逃跑者數(shù)量為單人,所有追捕者合圍逃跑者,僅當(dāng)追捕到逃跑者時全局獎勵+5,同時任務(wù)結(jié)束,中間其它時間步不獲得獎勵.

2)多目標(biāo)追捕.逃跑者數(shù)量為多人,追捕到其中一位逃跑者不獲得獎勵,僅當(dāng)所有逃跑者都被捕獲時才獲得全局獎勵.相比單目標(biāo)追捕,多目標(biāo)環(huán)境的獎勵稀疏程度更高,同時隨著智能體數(shù)目的增加,訓(xùn)練難度也相應(yīng)提高.

3)協(xié)作追捕.考慮多智能體間的協(xié)作,設(shè)置追捕者處于弱勢,需要兩位及以上追捕者同時追到逃跑者,該逃跑者才會被捕獲.若逃跑者只被一個追捕者追到,捕獲失敗,無法獲得全局獎勵.相比只需一位追捕者就能成功捕獲的情況,協(xié)作追捕環(huán)境需要更強(qiáng)的協(xié)作能力,同時減弱環(huán)境的隨機(jī)性,稀疏程度相應(yīng)增加.

3.2 對比方法和評價指標(biāo)

在3種不同稀疏程度的追捕實(shí)驗(yàn)中選擇如下對比算法:1)使用原始架構(gòu)的MADDPG[13],使用內(nèi)在獎勵解決稀疏問題的算法;2)ICM[8],使用前向動態(tài)模型的預(yù)測誤差作為鼓勵好奇心的內(nèi)在獎勵;3)NGU[16],通過長期新穎模塊和情節(jié)內(nèi)新穎模塊計(jì)算內(nèi)在獎勵;4)基于計(jì)數(shù)的算法(簡記為Count)[15],使用狀態(tài)的訪問頻率衡量狀態(tài)的不確定性.

在實(shí)驗(yàn)中,為了保持相對的公平性,所有多智能體算法的策略和評論網(wǎng)絡(luò)都由MLP(Multilayer Perceptron)參數(shù)化,折扣因子γ設(shè)置為0.97,所有模型都由自適應(yīng)矩估計(jì)(Adaptive Moment Estimation, Adam)優(yōu)化器訓(xùn)練[26],學(xué)習(xí)率設(shè)置為1e-3.最大時間步設(shè)置為25.當(dāng)所有逃跑者都被追捕成功或達(dá)到最大時間步后,一個情節(jié)終止.每100個情節(jié)后暫停訓(xùn)練并獨(dú)立運(yùn)行10個情節(jié)進(jìn)行評估.目標(biāo)網(wǎng)絡(luò)采用軟更新方式,更新率τ=0.001.

每組實(shí)驗(yàn)分別從測試勝率和收斂步數(shù)進(jìn)行分析對比.測試勝率指追捕者在一定時間內(nèi)追捕到所有逃跑者的情節(jié)數(shù)占總測試情節(jié)數(shù)的百分比,平均追捕步數(shù)指在總測試情節(jié)中,追捕到所有逃跑者所需的平均時間步.

3.3 實(shí)驗(yàn)結(jié)果

在3種不同稀疏程度的追捕場景中對每種算法進(jìn)行評估,每個場景中每種算法按照不同的隨機(jī)種子運(yùn)行5次,本節(jié)所有實(shí)驗(yàn)圖中實(shí)線表示5次運(yùn)行結(jié)果的均值,誤差帶表示5次運(yùn)行結(jié)果的95%置信區(qū)間.

3.3.1 單目標(biāo)追捕

在本次實(shí)驗(yàn)中,設(shè)置追捕者數(shù)量為3,逃跑者數(shù)量為1,即設(shè)定一個3追1的單目標(biāo)追逃場景.只有最終追到逃跑者時追捕者才獲得全局獎勵,其余中間時間步均不獲得獎勵.

在單目標(biāo)追捕環(huán)境中不同方法的性能對比如圖3所示.

(a)追捕成功率 (b)追捕時間步

由圖3可知,IGE在追捕成功率和追捕步數(shù)上均最優(yōu).相比基于內(nèi)在獎勵的算法,IGE收斂速度更快,表明內(nèi)在獎勵的設(shè)置有利于提高算法的學(xué)習(xí)效率,緩解稀疏獎勵問題.而MADDPG在單目標(biāo)追捕中也有相當(dāng)勝率,原因在于單目標(biāo)追捕中獎勵稀疏程度較弱,通過隨機(jī)方式也能探索到正向獎勵,以此更新策略逐漸提升得到獎勵的概率直至收斂.

3.3.2 多目標(biāo)追捕

為了增加環(huán)境中獎勵的稀疏程度,設(shè)置逃跑者數(shù)量為2,即設(shè)置一個3追2的多目標(biāo)追捕場景.相比單目標(biāo)追捕環(huán)境,此時只有兩位逃跑者都被追到時,才會獲得全局獎勵,因此外在獎勵更稀疏,同時智能體數(shù)量的增加也進(jìn)一步增加狀態(tài)空間的維度,智能體訓(xùn)練的難度更大.

各算法在多目標(biāo)追捕中的性能對比如圖4所示.由圖可知,相比基于內(nèi)在獎勵的算法(ICM、Count),NGU在追捕勝率和收斂時間步上具有一定提升,這表明NGU能緩解內(nèi)在獎勵算法隨著訓(xùn)練進(jìn)行,環(huán)境狀態(tài)不再新穎,導(dǎo)致無法提供內(nèi)在獎勵的問題.而本文的內(nèi)在情緒獎勵直接與強(qiáng)化學(xué)習(xí)過程關(guān)聯(lián),也進(jìn)一步避免知識衰退這一問題.

相比單目標(biāo)追捕場景,其它基線算法的追捕成功率和追捕所需步數(shù)均產(chǎn)生明顯下降,分析原因如下.一方面,多目標(biāo)環(huán)境的獎勵更稀疏,基于內(nèi)在獎勵的基線方法通過額外的網(wǎng)絡(luò)計(jì)算內(nèi)在獎勵,引入一定偏差.另一方面,基線算法均采用集中式Critic網(wǎng)絡(luò),簡單地將所有智能體的觀測連接到一個單一的輸入向量中,學(xué)習(xí)聯(lián)合動作值函數(shù),使學(xué)習(xí)一個好的集中式Critic網(wǎng)絡(luò)變得更困難.而相比之下,IGE性能下降較小,仍能達(dá)到90%以上的勝率,同時在追捕所需步數(shù)上也明顯最優(yōu).這是因?yàn)镮GE的個體情緒獎勵與動作值函數(shù)關(guān)聯(lián),直接優(yōu)化強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程,引入的偏差較小.相比其它基線方法,IGE的內(nèi)在情緒獎勵僅需個體的觀測信息,緩解集中式的擴(kuò)展性問題,同時分解架構(gòu)也未忽略總體獎勵對個體的影響.

(a)追捕成功率 (b)追捕時間步

3.3.3 協(xié)作追捕

從多智能體間協(xié)作的角度出發(fā),進(jìn)一步增加環(huán)境中獎勵的稀疏程度,需要兩位及以上追捕者同時追到逃跑者,該逃跑者才會死亡,即設(shè)置一個4追2協(xié)作追捕環(huán)境,該環(huán)境需要智能體間更高的協(xié)作能力.

各算法在協(xié)作追捕中的性能對比如圖5所示.由圖可知,IGE在追捕成功率和收斂步數(shù)上仍最優(yōu),而基于內(nèi)在獎勵的基線算法的性能優(yōu)于MADDPG,說明內(nèi)在獎勵算法對智能體訓(xùn)練有一定的促進(jìn)作用,但對于智能體間協(xié)作能力的提升作用有限.相比ICM和Count,NGU在訓(xùn)練后期有較明顯的提升,這是由于NGU能克服上述兩種算法因持續(xù)訓(xùn)練而導(dǎo)致無法及時提供內(nèi)在獎勵的問題.相比之下,IGE在收斂速度上具有明顯提升,能更好地完成協(xié)作任務(wù).通過集中但分解的評論家,將全局獎勵進(jìn)行隱式分配,個體情緒獎勵分別刺激不同智能體,促進(jìn)智能體間的探索,并優(yōu)化整個聯(lián)合動作空間,避免陷入局部最優(yōu),以此促進(jìn)智能體間的協(xié)作.

(a)追捕成功率 (b)追捕時間步

3.4 消融實(shí)驗(yàn)

本節(jié)將對IGE進(jìn)行進(jìn)一步的消融研究,驗(yàn)證加入個體落差情緒獎勵的有效性.選擇在3追2多目標(biāo)追捕環(huán)境中進(jìn)行實(shí)驗(yàn).IGE取消內(nèi)在情緒獎勵模塊后記作no-emotion,并與IGE在3追2多目標(biāo)追捕環(huán)境中進(jìn)行分析對比,以此反映情緒對多智能體訓(xùn)練的影響.

具體消融實(shí)驗(yàn)結(jié)果如圖6所示.圖中兩種算法按照不同的隨機(jī)種子運(yùn)行8次,誤差帶表示8次運(yùn)行結(jié)果的95%置信區(qū)間.由圖可知,no-emotion誤差帶較寬,反映算法結(jié)果波動較大,原因在于未加入情感模塊,算法通過隨機(jī)方式探索環(huán)境,存在一定的隨機(jī)誤差,導(dǎo)致訓(xùn)練困難甚至失敗.通過內(nèi)在情緒獎勵,可在一定程度上指導(dǎo)智能體的訓(xùn)練方向,促進(jìn)智能體更穩(wěn)定的訓(xùn)練,同時在一定程度上提高智能體的學(xué)習(xí)效率.

(a)追捕成功率 (b)追捕時間步

4 結(jié) 束 語

針對多智能體系統(tǒng)中的稀疏獎勵問題,本文結(jié)合情緒與強(qiáng)化學(xué)習(xí),提出基于個體落差情緒的多智能體協(xié)作算法.基于個體的落差情緒生成智能體的內(nèi)在情緒獎勵,可分別刺激不同智能體,促進(jìn)智能體產(chǎn)生多樣性的行為,加強(qiáng)智能體間的協(xié)作.以該內(nèi)在情緒獎勵作為外在稀疏獎勵的有效補(bǔ)充,緩解稀疏獎勵問題.在不同稀疏程度的追捕環(huán)境中驗(yàn)證算法的有效性和魯棒性.今后將研究抽象級別更高的情緒維度,豐富情緒的表示形式.

猜你喜歡
協(xié)作個體情緒
團(tuán)結(jié)協(xié)作成功易
關(guān)注個體防護(hù)裝備
小情緒
小情緒
小情緒
協(xié)作
讀者(2017年14期)2017-06-27 12:27:06
協(xié)作
讀寫算(下)(2016年9期)2016-02-27 08:46:31
個體反思機(jī)制的缺失與救贖
可與您并肩協(xié)作的UR3
How Cats See the World
金塔县| 新安县| 中牟县| 博湖县| 乌什县| 大余县| 板桥市| 大渡口区| 罗江县| 凤阳县| 天门市| 曲水县| 静乐县| 龙南县| 宜川县| 罗平县| 南川市| 博罗县| 东明县| 汾西县| 康定县| 四会市| 图们市| 盘山县| 玛多县| 华蓥市| 高邮市| 博湖县| 泰宁县| 南投市| 金寨县| 彭州市| 扶余县| 汨罗市| 永登县| 山阴县| 平原县| 东台市| 平陆县| 工布江达县| 秀山|