国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CIDDPG的多智能體通信優(yōu)化方法研究

2021-10-18 10:03耿俊香魏勝楠
關(guān)鍵詞:權(quán)重調(diào)度智能

耿俊香,姜 靜,魏勝楠,段 昶

(沈陽(yáng)理工大學(xué) 自動(dòng)化與電氣工程學(xué)院,沈陽(yáng) 110159)

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)的范式和方法論之一,用于描述和解決智能體在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題[1],廣泛應(yīng)用于機(jī)器人[2-3]、五子棋游戲[4-5]、自動(dòng)駕駛[6-7]、目標(biāo)定位[8]等諸多領(lǐng)域。強(qiáng)化學(xué)習(xí)的大部分成功應(yīng)用均基于單智能體的情況[9-10],在面對(duì)一些復(fù)雜環(huán)境決策問題時(shí),單個(gè)智能體的決策能力遠(yuǎn)遠(yuǎn)不夠,如在擁有多玩家的Atari2600游戲中,需要多個(gè)智能體之間的相互配合才能完成任務(wù)。因此在特定的情形下,需要將強(qiáng)化學(xué)習(xí)模型擴(kuò)展為多個(gè)智能體之間相互合作、通信及競(jìng)爭(zhēng)的多智能體系統(tǒng)(Multi-AgentSystem,MAS)[11-12]。

通信是多智能體交互中出現(xiàn)的重要特征,智能體之間需要合作,每個(gè)智能體只能獲得部分觀測(cè),環(huán)境中的智能體需要通過交流來(lái)更好地達(dá)成一個(gè)共同目標(biāo)。

阿里推出多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)(BicNet)研究智能體之間協(xié)作行為的學(xué)習(xí),其基于連續(xù)行動(dòng)的行動(dòng)者-批評(píng)者模型,使用循環(huán)網(wǎng)絡(luò)來(lái)連接每個(gè)智能體的策略和價(jià)值網(wǎng)絡(luò),實(shí)現(xiàn)內(nèi)部層中的雙向溝通,使多個(gè)智能體能夠交流協(xié)作。但該算法由于獎(jiǎng)勵(lì)函數(shù)的定義原因無(wú)法適應(yīng)多智能體的純合作環(huán)境,此外,預(yù)定義的通信架構(gòu)會(huì)限制通信,從而限制智能體之間的潛在合作,因此無(wú)法適應(yīng)場(chǎng)景的變化。多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)[13]是針對(duì)混合合作競(jìng)爭(zhēng)環(huán)境的演員-評(píng)論家模型的擴(kuò)展,采用集中訓(xùn)練分散執(zhí)行的方法,其通信只發(fā)生在價(jià)值網(wǎng)絡(luò)中,因模型結(jié)構(gòu)過于簡(jiǎn)單,僅適用于一些較為簡(jiǎn)單的實(shí)驗(yàn)環(huán)境,當(dāng)環(huán)境變得復(fù)雜時(shí),算法的性能會(huì)發(fā)生顯著下降。此外,在多智能體強(qiáng)化中還有幾種學(xué)習(xí)通信的方法,包括DIAL、CommNet和Master-Slave等。

在所有智能體之間或在預(yù)定義的通信架構(gòu)中,上述方法采用的信息共享可能存在問題。當(dāng)存在大量智能體時(shí),智能體無(wú)法區(qū)分有助于合作決策的有價(jià)值信息,因此通信幾乎沒有幫助,甚至可能危及合作學(xué)習(xí)。此外,實(shí)際應(yīng)用中當(dāng)所有智能體都進(jìn)行通信時(shí),接收大量信息需要高帶寬,并會(huì)導(dǎo)致長(zhǎng)延遲和高計(jì)算復(fù)雜度。因此,智能體高效通信成為重要研究方向。

本文提出一種基于通信的高效信息學(xué)習(xí)算法——通信改進(jìn)深度確定性策略梯度(Communication Improvement Deep Deterministic Policy Gradient,CIDDPG),通過集中訓(xùn)練分散執(zhí)行方法來(lái)實(shí)現(xiàn)。與環(huán)境交互時(shí),在深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的網(wǎng)絡(luò)中加入雙向循環(huán)網(wǎng)絡(luò)建立通信機(jī)制并且加入調(diào)度模塊,使智能體通過部分觀察信息的重要性來(lái)確定有權(quán)廣播其編碼消息的智能體,以修剪無(wú)用信息,提高通信效率。在價(jià)值網(wǎng)絡(luò)中引入注意力機(jī)制,有選擇地關(guān)注其他智能體的信息,從而有針對(duì)性地更新策略,更好地完成任務(wù)。

1 高效通信的多智能體強(qiáng)化學(xué)習(xí)策略

DDPG是近年來(lái)備受關(guān)注的非執(zhí)行性Actor-Critic經(jīng)典強(qiáng)化學(xué)習(xí)算法,采用卷積神經(jīng)網(wǎng)絡(luò)作為執(zhí)行網(wǎng)絡(luò)(Actor)和評(píng)價(jià)網(wǎng)絡(luò)(Critic)的模擬,執(zhí)行網(wǎng)絡(luò)根據(jù)行動(dòng)者的狀態(tài)來(lái)推斷其行動(dòng),評(píng)價(jià)網(wǎng)絡(luò)評(píng)判選擇該行動(dòng)的好壞,以指導(dǎo)執(zhí)行網(wǎng)絡(luò)的行動(dòng)更新。DDPG模型結(jié)構(gòu)如圖1所示,該算法不僅能夠在一系列連續(xù)動(dòng)作空間任務(wù)中表現(xiàn)穩(wěn)定,且時(shí)間效率也遠(yuǎn)優(yōu)于其他算法。

圖1 DDPG模型結(jié)構(gòu)

本文以DDPG為基礎(chǔ)算法進(jìn)行改進(jìn),其核心是基于通信的集中訓(xùn)練分散執(zhí)行的Actor-Critic。在多智能體環(huán)境中,采用雙向循環(huán)網(wǎng)絡(luò)充當(dāng)通信通道,連接各智能體,建立通信,整合一個(gè)群體中各主體的內(nèi)部狀態(tài),引導(dǎo)主體進(jìn)行協(xié)調(diào)決策。引入調(diào)度模塊判斷需要進(jìn)行通信的智能體,根據(jù)智能體信息的相關(guān)性判斷智能體的關(guān)聯(lián)程度,使智能體有針對(duì)性地更新策略。根據(jù)最大熵的思想,智能體在最大化獎(jiǎng)勵(lì)的同時(shí)鼓勵(lì)探索,提高算法的魯棒性。CIDDPG模型結(jié)構(gòu)如圖2所示。

圖2 CIDDPG模型結(jié)構(gòu)

1.1 集中訓(xùn)練分散執(zhí)行的Actor-Critic框架

本文采用Actor-Critic訓(xùn)練框架。

集中訓(xùn)練方法如下。

(1)訓(xùn)練時(shí),首先Actor根據(jù)當(dāng)前的狀態(tài)si選擇一個(gè)動(dòng)作ai,然后Critic根據(jù)狀態(tài)-動(dòng)作計(jì)算一個(gè)Q值,作為對(duì)Actor動(dòng)作的反饋。Critic根據(jù)估計(jì)的Q值和實(shí)際的Q值進(jìn)行訓(xùn)練,Actor根據(jù)Critic的反饋來(lái)更新策略。

(2)測(cè)試時(shí)只需Actor即可完成,不需Critic的反饋。

分散執(zhí)行方法為:每個(gè)智能體均訓(xùn)練充分后,每個(gè)Actor根據(jù)狀態(tài)采取合適的動(dòng)作,此時(shí)不需其他智能體的狀態(tài)或動(dòng)作。

1.2 權(quán)重調(diào)度機(jī)制的Actor模塊

大量智能體進(jìn)行通信時(shí)會(huì)受到帶寬的限制,需盡可能壓縮帶寬,減少不必要的通信。在執(zhí)行網(wǎng)絡(luò)中引入調(diào)度模塊,可選擇合適的智能體進(jìn)行通信,優(yōu)化交互過程,提高溝通效率。調(diào)度模塊結(jié)構(gòu)如圖3所示。

由圖3可見,該調(diào)度模塊由消息編碼器、權(quán)重生成器、調(diào)度器和動(dòng)作選擇器組成?,F(xiàn)有N個(gè)智能體,第i個(gè)智能體觀察到局部環(huán)境信息oi,權(quán)重生成器根據(jù)不同的Actor局部觀測(cè)信息得到對(duì)應(yīng)的權(quán)重w,然后輸入調(diào)度器,由調(diào)度器根據(jù)權(quán)重選擇有權(quán)廣播消息的K名智能體,生成調(diào)度向量C,其中K取決于智能體自身權(quán)重與平均權(quán)重的比較,當(dāng)自身權(quán)重小于平均權(quán)重時(shí)舍棄。因廣播的資源有限,需通過消息編碼器將信息進(jìn)行壓縮,再根據(jù)調(diào)度器的調(diào)度向量C選取要廣播的壓縮信息,并傳給所有的Actor,以采取合適的策略u(píng)。

圖3 調(diào)度模塊

智能體i的權(quán)重wi生成為

(1)

智能體i的編碼信息mi為

(2)

智能體i的策略u(píng)i選擇為

(3)

1.3 注意溝通的Critic模塊

在Critic模塊中引入注意力機(jī)制,其結(jié)構(gòu)如圖4所示。

圖4 注意力機(jī)制

注意力機(jī)制引入的目的是希望智能體在學(xué)習(xí)其他智能體策略時(shí),能夠關(guān)注利于獲取更大回報(bào)的信息進(jìn)行學(xué)習(xí),而非無(wú)差別地完全學(xué)習(xí)其他智能體的所有信息。注意力機(jī)制本質(zhì)上是使各智能體能夠查詢到其他智能體的觀測(cè)信息和動(dòng)作信息,并將此信息根據(jù)注意力權(quán)重的大小整合至自身動(dòng)作值函數(shù)估計(jì)中。

(4)

式中:fi為一個(gè)雙層MLP網(wǎng)絡(luò);gi為一個(gè)單層MLP嵌入式網(wǎng)絡(luò)函數(shù);ai表示策略u(píng)i與環(huán)境進(jìn)行交互做出動(dòng)作;xi為其他智能體對(duì)第i個(gè)智能體價(jià)值的加權(quán)和,計(jì)算式為

(5)

式中:vj為智能體j的嵌入式編碼函數(shù);V為共享矩陣;h是ReLU激活函數(shù);αj為注意力權(quán)重,通過查詢值-鍵值系統(tǒng)比較ej=gj(oj,aj)與ei=gi(oi,ai),并將二者的相似值傳遞給softmax網(wǎng)絡(luò)處理,得到

(6)

式中:dk表示維度;Wk和Wq分別表示兩個(gè)線性映射的矩陣;ei和ej分別表示智能體i和j的狀態(tài)編碼。Wq將ei轉(zhuǎn)化為查詢值;Wk將ej轉(zhuǎn)化為鍵值,然后根據(jù)該兩個(gè)矩陣的維數(shù)進(jìn)行匹配,以防梯度消失。由式(5)可見,注意力權(quán)重越大,智能體之間關(guān)系越緊密,獲取的信息越多,反之獲取的信息越少。

1.4 基于最大熵的Loss改進(jìn)

最大熵的核心思想是不遺漏任何一個(gè)有用的信息,使神經(jīng)網(wǎng)絡(luò)盡可能探索所有的有效路徑。引入最大熵的優(yōu)勢(shì)在于:在最大化獎(jiǎng)勵(lì)的同時(shí)鼓勵(lì)探索;可以學(xué)到更多次優(yōu)策略,提高算法的魯棒性;訓(xùn)練速度加快,使探索更均勻。

加入最大熵的Critic網(wǎng)絡(luò)的更新表達(dá)式為

(7)

(8)

式中:ri為獎(jiǎng)勵(lì)值;γ為折扣因子;ψ′為評(píng)價(jià)的目標(biāo)網(wǎng)絡(luò)參數(shù);θ′為策略的目標(biāo)網(wǎng)絡(luò)參數(shù);α為溫度參數(shù),決定熵項(xiàng)相對(duì)于報(bào)酬的重要性,控制最優(yōu)策略的隨機(jī)性。

Actor網(wǎng)絡(luò)的更新表達(dá)式為

(9)

式中J(πθ)為最大獎(jiǎng)勵(lì)。在策略網(wǎng)絡(luò)中同樣引入最大熵提高算法的泛化能力。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)環(huán)境及設(shè)置

為評(píng)估CIDDPG算法的性能,采用OpenAI的多智能體粒子環(huán)境(Multiagent Particle Envs,MPE)作為測(cè)試平臺(tái),該平臺(tái)具有時(shí)間離散、空間連續(xù)的二維環(huán)境。由智能體和界標(biāo)組成。在合作導(dǎo)航和合作推球兩個(gè)場(chǎng)景中進(jìn)行實(shí)驗(yàn),每個(gè)智能體的觀察視野均有限。實(shí)驗(yàn)中選取BiCNet和DDPG算法作為CIDDPG的對(duì)比算法,DDPG沒有通信機(jī)制,BiCNet具有完整的交流模式。

本文使用Adam優(yōu)化器,學(xué)習(xí)率取為0.001,折損因子取為0.96。

2.2 合作導(dǎo)航

在該場(chǎng)景下,假設(shè)N個(gè)智能體協(xié)同到達(dá)L個(gè)地標(biāo),并避免碰撞。每個(gè)智能體根據(jù)與最近地標(biāo)的接近程度進(jìn)行獎(jiǎng)勵(lì),當(dāng)與其他智能體碰撞時(shí)進(jìn)行懲罰。理想情況下,每個(gè)智能體通過自身的觀察和從其他智能體接收的信息預(yù)測(cè)附近智能體的動(dòng)作,并確定自身在不與其他智能體沖突的情況下占領(lǐng)地標(biāo)的動(dòng)作。

采用N=30和L=30的設(shè)置訓(xùn)練CIDDPG和基線,其中每個(gè)智能體可觀察到三個(gè)最近的智能體和四個(gè)具有相對(duì)位置和速度的地標(biāo)。合作導(dǎo)航平均獎(jiǎng)勵(lì)學(xué)習(xí)曲線如圖5所示。

圖5顯示出三種算法進(jìn)行3500次迭代的平均獎(jiǎng)勵(lì)學(xué)習(xí)曲線,可以看出,DDPG算法的平均獎(jiǎng)勵(lì)值略優(yōu)于BiCNet算法,但伴隨著較大的波動(dòng),CIDDPG算法不僅能夠收斂到比DDPG和BiCNet算法更高的平均獎(jiǎng)勵(lì)值,而且波動(dòng)較小,收斂速度也較快。

圖5 合作導(dǎo)航平均獎(jiǎng)勵(lì)學(xué)習(xí)曲線

三種算法的合作導(dǎo)航實(shí)驗(yàn)結(jié)果如表1所示。

表1 合作導(dǎo)航實(shí)驗(yàn)結(jié)果

由表1可見,BiCNet和DDPG沒有學(xué)習(xí)到CIDDPG獲得的策略。在CIDDPG算法運(yùn)行過程中,一名智能體首先試圖占據(jù)最近的地標(biāo),如該地標(biāo)更有可能被其他智能體占用,則轉(zhuǎn)向另一個(gè)空閑地標(biāo),而不繼續(xù)探測(cè)并接近最近的地標(biāo);DDPG算法的策略更激進(jìn),多個(gè)智能體通常同時(shí)接近一個(gè)地標(biāo),故可能導(dǎo)致碰撞;BiCNet算法中智能體比較保守,選擇避免碰撞而不搶占地標(biāo),故會(huì)導(dǎo)致少量地標(biāo)被占用,此外BiCNet的智能體更易圍繞一個(gè)地標(biāo),觀察其他智能體的動(dòng)作,但聚集的智能體也易發(fā)生沖突。

帶有通信機(jī)制的CIDDPG算法優(yōu)于沒有通信機(jī)制的DDPG算法,表明通信的確有益。帶有通信機(jī)制的BiCNet性能較差,原因是通信網(wǎng)對(duì)隱藏層的信息進(jìn)行算術(shù)平均,即平等對(duì)待來(lái)自不同智能體的信息。來(lái)自其他不同智能體的信息對(duì)于智能體決策具有不同的價(jià)值,大量無(wú)用的信息可看作干擾智能體決策的噪聲。與BiCNet不同,CIDDPG利用調(diào)度機(jī)制及注意力機(jī)制動(dòng)態(tài)地執(zhí)行通信,多數(shù)信息來(lái)自附近的智能體,有助于其決策。

2.3 合作推球

在該場(chǎng)景下,N個(gè)智能體合作將一個(gè)重球推至指定位置。智能體通過碰撞而非通過力來(lái)推動(dòng)球,并以不同角度擊球來(lái)控制移動(dòng)方向。實(shí)驗(yàn)中有20個(gè)智能體,每個(gè)智能體可以觀察球的相對(duì)位置。

圖6為CIDDPG及其對(duì)比算法的平均獎(jiǎng)勵(lì)學(xué)習(xí)曲線;表2為三種算法的合作推球?qū)嶒?yàn)結(jié)果。

圖6 合作推球平均獎(jiǎng)勵(lì)學(xué)習(xí)曲線

算法CIDDPGDDPGBiCNet平均獎(jiǎng)勵(lì)值0.910.40.68

由圖6和表2均可看出,CIDDPG算法的平均獎(jiǎng)勵(lì)值明顯高于BiCNet和DDPG算法,并且收斂速度快,最終獲取的平均獎(jiǎng)勵(lì)值達(dá)到0.91,比沒有通信的DDPG算法高出127%,比全通信的BiCNet算法高出33%。

帶有通信優(yōu)化的CIDDPG算法優(yōu)于全通信的BicNet算法及沒有通信的DDPG算法。CIDDPG中的智能體學(xué)習(xí)復(fù)雜的策略,智能體通過擊中球的中心來(lái)推動(dòng)球;通過擊打球的側(cè)面來(lái)改變運(yùn)動(dòng)方向;當(dāng)球接近目標(biāo)位置時(shí),一些智能體會(huì)轉(zhuǎn)向球運(yùn)動(dòng)的相反方向,與球碰撞以降低球的速度,阻止球通過目標(biāo)位置;對(duì)移動(dòng)方向和減速的控制通過通信來(lái)完成,體現(xiàn)了智能體之間的分工和協(xié)作。BiCNet中有溝通,故優(yōu)于DDPG。DDPG智能體的行為相似,沒有分工,幾乎所有的智能體均從同一個(gè)方向推球,會(huì)導(dǎo)致方向偏離或很快通過并遠(yuǎn)離目標(biāo)位置,DDPG智能體意識(shí)到推錯(cuò)方向后又一起轉(zhuǎn)向相反方向,球被推回并受力,很難穩(wěn)定在目標(biāo)位置。

3 結(jié)論

提出一種基于通信的高效信息學(xué)習(xí)算法—CIDDPG。首先通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)建立通信機(jī)制,然后將所有智能體信息進(jìn)行編碼,輸入調(diào)度模塊中,為每個(gè)智能體生成一個(gè)權(quán)重,權(quán)重排在前K名的智能體相互通信,選取合適的動(dòng)作,輸入到評(píng)價(jià)網(wǎng)絡(luò)中。評(píng)價(jià)網(wǎng)絡(luò)通過共享一個(gè)注意力機(jī)制,有選擇地關(guān)注利于獲取更大回報(bào)的信息進(jìn)行學(xué)習(xí),從而實(shí)現(xiàn)有針對(duì)性的策略迭代。采用本文的算法可有效利用每個(gè)智能體的信息,提高溝通協(xié)作能力,優(yōu)化交互過程,實(shí)現(xiàn)合作決策。實(shí)驗(yàn)證明該算法具有較好的迭代效率和泛化能力,可明顯提高平均回報(bào)值。但該算法會(huì)偶發(fā)震蕩問題,解決該問題可從調(diào)度機(jī)制選取智能體通信的原則入手,找到更合適的選取通信智能體的條件,此為該算法未來(lái)的研究方向。

猜你喜歡
權(quán)重調(diào)度智能
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
權(quán)重常思“浮名輕”
《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
電力調(diào)度自動(dòng)化中UPS電源的應(yīng)用探討
基于強(qiáng)化學(xué)習(xí)的時(shí)間觸發(fā)通信調(diào)度方法
基于動(dòng)態(tài)窗口的虛擬信道通用調(diào)度算法
智能前沿
智能前沿
智能前沿
智能前沿
天镇县| 封开县| 乌兰县| 霸州市| 松桃| 祁阳县| 大安市| 平塘县| 永寿县| 建昌县| 全椒县| 泸溪县| 阳春市| 五华县| 富民县| 兴海县| 子长县| 镇坪县| 天全县| 成都市| 澄城县| 青川县| 临邑县| 绍兴市| 汉中市| 华蓥市| 扶沟县| 曲沃县| 聂拉木县| 保靖县| 寿阳县| 绵阳市| 伽师县| 神池县| 浙江省| 安陆市| 永川市| 永胜县| 九龙坡区| 邵阳市| 南通市|