趙春宇 賴俊 陳希亮 張人文
摘 要:多智能體系統(tǒng)在自動駕駛、智能物流、醫(yī)療協(xié)同等多個領(lǐng)域中廣泛應(yīng)用,然而由于技術(shù)進(jìn)步和系統(tǒng)需求的增加,這些系統(tǒng)面臨著規(guī)模龐大、復(fù)雜度高等挑戰(zhàn),常出現(xiàn)訓(xùn)練效率低和適應(yīng)能力差等問題。為了解決這些問題,將基于梯度的元學(xué)習(xí)方法擴(kuò)展到多智能體深度強(qiáng)化學(xué)習(xí)中,提出一種名為多智能體一階元近端策略優(yōu)化(MAMPPO)方法,用于學(xué)習(xí)多智能體系統(tǒng)的初始模型參數(shù),從而為提高多智能體深度強(qiáng)化學(xué)習(xí)的性能提供新的視角。該方法充分利用多智能體強(qiáng)化學(xué)習(xí)過程中的經(jīng)驗數(shù)據(jù),通過反復(fù)適應(yīng),找到在梯度下降方向上最敏感的參數(shù)并學(xué)習(xí)初始參數(shù),使模型訓(xùn)練從最佳起點(diǎn)開始,有效提高了聯(lián)合策略的決策效率,顯著加快了策略變化的速度,面對新情況的適應(yīng)速度顯著加快。在星際爭霸Ⅱ上的實驗結(jié)果表明,MAMPPO方法顯著提高了訓(xùn)練速度和適應(yīng)能力,為后續(xù)提高多智能強(qiáng)化學(xué)習(xí)的訓(xùn)練效率和適應(yīng)能力提供了一種新的解決方法。
關(guān)鍵詞:元學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);梯度下降;多智能體深度強(qiáng)化學(xué)習(xí)
中圖分類號:TP181?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號:1001-3695(2024)05-011-1356-06
doi: 10.19734/j.issn.1001-3695.2023.09.0411
Gradient-based multi-agent meta deep reinforcement learning algorithm
Abstract:Multi-agent systems have a wide range of applications in many fields, such as autonomous driving, intelligent logistics, and medical collaboration, etc. However, due to technological advances and increased system requirements, these systems face challenges such as large scale and high complexity, and often suffer from inefficient training and poor adaptability. To address these problems, this paper proposed a multi-agent first-order meta proximal policy optimization (MAMPPO) method by extending gradient-based meta-learning to multi-agent deep reinforcement learning. The method learned the initial model parameters in the multi-agent system to provide a new perspective for improving the performance of multi-agent deep reinforcement learning. It made full use of the previous experience in the process of multi-agent reinforcement learning to find the most sensitive parameters in the direction of gradient descent through repeated adaptation, and learned the initial parameters so that the model training starts from the optimal starting point. This method effectively improved the decision-making efficiency of the joint policy, and led to a significant increase in the speed of its policy change, which significantly accelerated the speed of adaptation in the face of a new situation. Experimental results on StarCraft Ⅱ show that the MAMPPO method can significantly improve the training speed and adaptability, which provides a new solution for the subsequent improvement of the training efficiency and adaptability of multi-agent reinforcement learning.
Key words:meta learning; deep reinforcement learning; gradient descent; multi-agent deep reinforcement learning
0 引言
在單智能體強(qiáng)化學(xué)習(xí)(single-agent deep reinforcement learning,SARL)中,智能體與環(huán)境相互作用并作出有效決策以最大化累積收益。隨著計算能力和存儲容量的顯著提高,任務(wù)的規(guī)模和復(fù)雜程度也進(jìn)一步提高。為了有效解決一系列復(fù)雜問題,深度學(xué)習(xí)(deep learning, DL)和強(qiáng)化學(xué)習(xí)(reinforcement learning,RL) 成功結(jié)合產(chǎn)生了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)。并展現(xiàn)了廣泛的應(yīng)用前景,如掌握圍棋[1]、平流層氣球?qū)Ш剑?]、大規(guī)模戰(zhàn)略博弈[3]、機(jī)器人在挑戰(zhàn)性地形中的移動[4]、3D打?。?]等。例如,Open AI Five在Dota 2 中首次擊敗人類冠軍隊伍[6],并在模擬的捉迷藏物理環(huán)境中成功訓(xùn)練出一個可以像人類一樣使用工具的智能體[7]。
為了解決多智能體系統(tǒng)(multi-agent system,MAS)下的復(fù)雜決策問題,在MAS中引入了DRL的思想和算法,提高多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning,MADRL)的性能和效率,MADRL具有較強(qiáng)的決策和協(xié)調(diào)能力,是解決大規(guī)模復(fù)雜任務(wù)的重要方法。
元學(xué)習(xí)通過積累先前經(jīng)驗來快速適應(yīng)新的任務(wù),憑借“學(xué)習(xí)如何學(xué)習(xí)”的特性,在單智能體強(qiáng)化學(xué)習(xí)(SADRL)中得到了廣泛應(yīng)用,有效避免了巨大數(shù)據(jù)量和高復(fù)雜度的樣本數(shù)據(jù)出現(xiàn)。基于梯度的元強(qiáng)化學(xué)習(xí)在學(xué)習(xí)過程中學(xué)習(xí)模型初始參數(shù),使模型在每次學(xué)習(xí)任務(wù)時可以從一個最佳的起點(diǎn)開始,而不是像強(qiáng)化學(xué)習(xí)一樣從零出發(fā),有效提高了訓(xùn)練效率;因其初始參數(shù)是在訓(xùn)練任務(wù)上反復(fù)適應(yīng)經(jīng)多次梯度下降所得,該參數(shù)在梯度方向上與目標(biāo)參數(shù)接近,所以訓(xùn)練好的模型在適應(yīng)過程中僅需幾步梯度下降步驟就可以達(dá)到目標(biāo)參數(shù),縮短了大量的適應(yīng)時間。然而與SADRL相比,MADRL具有更多的智能體,更高的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性,并且在聯(lián)合狀態(tài)-行動空間中呈指數(shù)增長,這大大增加了探索的難度,致使其每次訓(xùn)練都要處理巨大的計算量和高復(fù)雜度的樣本數(shù)據(jù),延長了訓(xùn)練和適應(yīng)速度[8]。
為了提高訓(xùn)練效率和適應(yīng)能力,受單智能體元強(qiáng)化學(xué)習(xí)的啟發(fā),將基于梯度的元學(xué)習(xí)方法擴(kuò)展到MAS,提出了一種名為多智能體一階元近端策略優(yōu)化(multi-agent first-order meta proximal policy optimization PPO, MAMPPO)的方法,旨在從有限的經(jīng)驗中不斷學(xué)習(xí)和適應(yīng),該方法通過收集每個智能體與環(huán)境交互產(chǎn)生的經(jīng)驗數(shù)據(jù),并將其劃分為不同的任務(wù)數(shù)據(jù)塊,通過任務(wù)數(shù)據(jù)塊進(jìn)行反復(fù)自適應(yīng)和更新,充分利用先前經(jīng)驗,學(xué)習(xí)最接近目標(biāo)模型的起始參數(shù)作為模型的初始化參數(shù)。這使得模型在新情況下只需幾步的梯度下降就能達(dá)到目標(biāo),有效提高了MADRL的策略更新效率,面對新形勢的適應(yīng)速度顯著加快。通過本文的研究和實驗證明了MAMPPO方法在提高M(jìn)ADRL的速度泛化方面的有效性和效果,為改善多智能體系統(tǒng)中的決策問題提供了一種新的方法,并為進(jìn)一步應(yīng)用MADRL技術(shù)提供了有益的啟示和指導(dǎo)。
1 相關(guān)工作
本文主要探討了一種將MADRL與元學(xué)習(xí)相結(jié)合的方法,涉及到元深度強(qiáng)化學(xué)習(xí)、MADRL的相關(guān)研究工作以及多種成功的組合成果,本章對元強(qiáng)化學(xué)習(xí)和MADRL的相關(guān)工作進(jìn)行介紹,討論了各自領(lǐng)域中的重要研究成果和方法,并指出了它們在實踐中的優(yōu)點(diǎn)和局限性。
元學(xué)習(xí)因其“學(xué)習(xí)如何學(xué)習(xí)”的特性而被廣泛應(yīng)用于強(qiáng)化學(xué)習(xí),通過利用先前任務(wù)中學(xué)到的經(jīng)驗和知識,智能體能夠更快地適應(yīng)新任務(wù)、更高效地利用數(shù)據(jù)、更準(zhǔn)確地選擇參數(shù)更新方向,并更好地平衡探索與利用。元強(qiáng)化學(xué)習(xí)旨在通過學(xué)習(xí)適應(yīng)性算法或策略,使智能體能夠從先前的經(jīng)驗中快速適應(yīng)新任務(wù)。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)不同,元強(qiáng)化學(xué)習(xí)是一種學(xué)習(xí)輸出策略的強(qiáng)化學(xué)習(xí)算法,通過數(shù)據(jù)驅(qū)動的方式來開發(fā)學(xué)習(xí)所需的訓(xùn)練環(huán)境和參數(shù)。
元強(qiáng)化學(xué)習(xí)假設(shè)存在相關(guān)任務(wù)的分布p(T),這對應(yīng)于馬爾可夫決策過程(MDP)M={Mi}Ni=1的分布,其中可以參數(shù)化MDP的動態(tài)或獎勵。M由元組〈S,A,p,R,γ,ρ0,H〉定義,其中S為狀態(tài)空間,A為行動空間,p為轉(zhuǎn)移概率密度,R為獎勵函數(shù),H為事件的時間范圍。元學(xué)習(xí)的目標(biāo)是找到一組合適的參數(shù)集θ和配對更新方法U,使策略π在保持累積獎勵最大的情況下解決新情況。設(shè)L(Mi)為Mi的損失函數(shù),則元學(xué)習(xí)的目標(biāo)可以表示為
本文的工作主要涉及基于梯度的元強(qiáng)化學(xué)習(xí)方法,該方法學(xué)習(xí)初始化模型參數(shù)使之在新任務(wù)上僅需微調(diào),從而使訓(xùn)練好的模型能夠適應(yīng)新任務(wù)。Finn等人[9]提出了一種名為無模型元學(xué)習(xí)(model-agnostic meta-learning,MAML)方法,通過在梯度下降過程中尋找對更新方向敏感的模型參數(shù),從而學(xué)習(xí)到適當(dāng)?shù)某跏寄P蛥?shù),實現(xiàn)了深度網(wǎng)絡(luò)在快速適應(yīng)任務(wù)上的能力增強(qiáng);然而MAML方法在實際應(yīng)用中仍面臨一些挑戰(zhàn),如對任務(wù)表示的依賴性和計算復(fù)雜度有所增加。在MAML的基礎(chǔ)上,Xu等人[10]提出了一種名為無模型元學(xué)習(xí)的元權(quán)重學(xué)習(xí)方法,在訓(xùn)練過程中對權(quán)重進(jìn)行適應(yīng)性更新,從而增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的性能和泛化能力;然而該方法仍然面臨一些挑戰(zhàn),如合理選擇元學(xué)習(xí)率、網(wǎng)絡(luò)結(jié)構(gòu)的適應(yīng)性以及計算復(fù)雜度的增加等。類似于MAML,Nichol等人[11]提出了一種稱為一階元學(xué)習(xí)(Reptile)的方法,通過在每個任務(wù)的訓(xùn)練后利用參數(shù)差異進(jìn)行參數(shù)更新,從而實現(xiàn)了原始模型的快速適應(yīng),該方法在元學(xué)習(xí)的過程中避免了二階導(dǎo)數(shù)的計算;然而仍面臨一些挑戰(zhàn),如如何選擇合適的學(xué)習(xí)率和對參數(shù)更新的限制等問題。Song等人[12]提出了一種名為ES-MAML的簡單、不使用Hessian矩陣的元學(xué)習(xí)方法,該方法通過應(yīng)用進(jìn)化策略(ES)[13]來解決MAML中估計二階導(dǎo)數(shù)的問題,在元學(xué)習(xí)過程中通過在目標(biāo)函數(shù)中添加額外的探索項增加了探索的機(jī)會,以提供最大量的有用信息。為了選擇合適的探索策略并平衡探索與利用之間的關(guān)系,Stadie等人[14]在元強(qiáng)化學(xué)習(xí)中考慮了學(xué)習(xí)探索策略,通過將額外的探索項添加到目標(biāo)函數(shù)中,提出了一種名為學(xué)習(xí)探索的元強(qiáng)化學(xué)習(xí)方法,旨在增加探索的機(jī)會,以提供更多有用信息的數(shù)據(jù)量。Xu等人[15]提出了一種名為元策略梯度學(xué)習(xí)探索的方法,通過使用元策略梯度優(yōu)化探索策略,使智能體能夠?qū)W會探索未知環(huán)境,該方法旨在通過元學(xué)習(xí)的方式,提高智能體的探索能力。
在MAS中,Sunehag等人[16]提出了值分解網(wǎng)絡(luò)(value decomposition networks,VDN)多智能體強(qiáng)化學(xué)習(xí)算法,將全局Q值分解為局部Q值的加權(quán)和,并在聯(lián)合動作Q值中考慮各個智能體的行為特征,提高了多智能體系統(tǒng)的學(xué)習(xí)效果,但需要進(jìn)一步平衡個體智能體的貢獻(xiàn)和團(tuán)隊合作關(guān)系,以及如何處理高維狀態(tài)空間等問題。Rashid等人[17]提出了QMIX算法,通過將值函數(shù)分解為單調(diào)函數(shù)和非單調(diào)函數(shù)的組合,以提高多智能體系統(tǒng)的學(xué)習(xí)效果,解決了值函數(shù)的高方差和不穩(wěn)定性;然而該方法仍面臨一些問題,如如何選擇合適的值函數(shù)分解形式和如何處理大規(guī)模多智能體系統(tǒng)的挑戰(zhàn)等。Foerster等人[18]提出反事實基線的多智能體策略梯度方法(counterfactual multi-agent policy gradients,COMA),通過引入對抗性訓(xùn)練和對抗性評估來進(jìn)行策略優(yōu)化,使用反事實基線對不同主體的貢獻(xiàn)進(jìn)行信用分配,從而提高多智能體系統(tǒng)的學(xué)習(xí)性能,解決了非平穩(wěn)環(huán)境和非合作行為等問題,但在訓(xùn)練的穩(wěn)定性和計算復(fù)雜度等方面有所欠缺。Lowe等人[19]提出MADDPG(multi-agent deep deterministic policy gradient)算法,使用集中式訓(xùn)練和去中心化執(zhí)行機(jī)制,基于DDPG的每個智能體的全局Q值來更新本地策略,智能體能夠在協(xié)作和競爭之間進(jìn)行平衡以達(dá)到更好的性能,但在如何處理大規(guī)模多智能體系統(tǒng)和如何處理合作與競爭之間的平衡等方面存在不足。MAPPO(multi-agent PPO)[20]采用基于近端策略優(yōu)化(proximal policy optimization,PPO)[21]的集中函數(shù)來考慮全局信息,智能體之間通過全局值函數(shù)實現(xiàn)相互協(xié)作,在處理合作多智能體環(huán)境時表現(xiàn)出良好的性能和魯棒性,為解決合作問題提供了一種有效的方法。
元學(xué)習(xí)應(yīng)用于MADRL中,從不同的角度解決了許多問題,如學(xué)習(xí)與誰溝通[22]、學(xué)習(xí)特定于智能體的獎勵函數(shù)以實現(xiàn)機(jī)制設(shè)計的自動化[23],但是目前的研究仍然較少。Charakorn等人[24]提出了一種通過元強(qiáng)化學(xué)習(xí)與未知智能體合作的方法,該方法使智能體能夠快速適應(yīng)與未知智能體的合作任務(wù),并取得良好的性能,但需要解決如何處理未知智能體的行為和如何在實際環(huán)境中應(yīng)用該方法等問題。Feng等人[25]引入了神經(jīng)自動課程(neural auto-curriculum,NAC),通過自適應(yīng)調(diào)整游戲難度和規(guī)則,智能體能夠通過自我學(xué)習(xí)來改進(jìn)策略和適應(yīng)對手,該方法在零和博弈中取得了良好的效果,但仍面臨一些問題,即如何處理復(fù)雜博弈和如何擴(kuò)展到更大規(guī)模的對抗環(huán)境等。為了解決多智能體環(huán)境下的非平穩(wěn)問題,F(xiàn)oerster等人[26]提出了一種對手感知的學(xué)習(xí)方法(learning with opponent-lear-ning awareness,LOLA),通過考慮對手的策略和行為來指導(dǎo)智能體的學(xué)習(xí)過程,該方法能使智能體更好地適應(yīng)對手的變化和策略調(diào)整,從而提高了在對抗環(huán)境中的學(xué)習(xí)性能。Kim等人[27]提出了一種多智能體強(qiáng)化學(xué)習(xí)中的元策略梯度算法,通過優(yōu)化策略梯度來實現(xiàn)智能體的元學(xué)習(xí),使得智能體能夠通過學(xué)習(xí)適應(yīng)性策略來快速適應(yīng)多智能體環(huán)境,并取得更好的性能。Al-Shedivat等人[28]基于單智能體MAML設(shè)計了一種基于梯度的多智能體元學(xué)習(xí)方法,用于自適應(yīng)動態(tài)變化和對抗場景,有效提高了多智能體強(qiáng)化學(xué)習(xí)的訓(xùn)練效率和適應(yīng)速度。多智能體MAML在MAML算法架構(gòu)中設(shè)計多智能體強(qiáng)化學(xué)習(xí),且僅用兩個智能體之間的交互過程。與多智能體MAML算法不同,MAMPPO方法是在不改變多智能體強(qiáng)化學(xué)習(xí)架構(gòu)的前提下引入元學(xué)習(xí);與多智能體MAML算法類似,MAMPPO將基于梯度的一階元Reptile的思想用于多智能體環(huán)境中,以達(dá)到通過元學(xué)習(xí)提高多智能體強(qiáng)化學(xué)習(xí)算法性能的目的。
2 MAMPPO方法
本文提出的方法以MAPPO算法為基礎(chǔ),引入基于梯度的一階元學(xué)習(xí)Reptile的思想,在學(xué)習(xí)過程中整合以往經(jīng)驗所需的元知識,并將其保存為模型參數(shù)初始化的規(guī)則,實現(xiàn)使用有限經(jīng)驗的持續(xù)學(xué)習(xí)和快速適應(yīng)。
2.1 MAPPO算法
PPO是一種非常流行的RL算法,在各種單智能體任務(wù)場景中都有非常出色的表現(xiàn)。MAPPO是在MARL中應(yīng)用的PPO的一種變體,采用集中訓(xùn)練分散執(zhí)行框架(centealized training and decentralized execution, CTDE)。MAPPO框架如圖1所示。
MAPPO算法的網(wǎng)絡(luò)由AC網(wǎng)絡(luò)支持,參數(shù)化的策略和值函數(shù)由兩套獨(dú)立的網(wǎng)絡(luò)進(jìn)行計算,不同智能體各自擁有一套策略網(wǎng)絡(luò)并共享網(wǎng)絡(luò)參數(shù)。中心控制器由一套值函數(shù)網(wǎng)絡(luò)構(gòu)成,全局值函數(shù)作為中心控制器,智能體將在全局狀態(tài)s下將局部觀察信息oi=O(s;i)傳遞給中心控制器,中心控制器根據(jù)全局狀態(tài)信息進(jìn)行訓(xùn)練,得到策略πθ,各智能體執(zhí)行聯(lián)合動作分布A=(a1,a2,…,an)。待訓(xùn)練完成后,智能體可以獨(dú)立于中心控制器,僅根據(jù)自己的局部觀察信息進(jìn)行決策并執(zhí)行最優(yōu)動作。
為了使單智能體PPO算法適應(yīng)多智能體的設(shè)置,局部觀察信息設(shè)定為學(xué)習(xí)策略πθ和基于全局狀態(tài)S的集中值函數(shù)V(s),并使用PopArt對V(s)進(jìn)行歸一化處理,策略函數(shù)πθ和價值函數(shù)V(s)分別由行動者網(wǎng)絡(luò)(actor)和評論家網(wǎng)絡(luò)(critic)產(chǎn)生。具體來說,critic網(wǎng)絡(luò)將所有全局信息和一些特定于智能體的特征作為critic網(wǎng)絡(luò)的輸入,實現(xiàn)了從狀態(tài)S到獎勵R的映射;actor網(wǎng)絡(luò)將智能體的觀察信息映射到離散動作空間中的動作分布或者連續(xù)動作空間中的多元高斯分布的均值和標(biāo)準(zhǔn)差向量。另外在訓(xùn)練過程中,將無法執(zhí)行的動作概率設(shè)為零,使用帶有智能體特定標(biāo)識的向量區(qū)分訓(xùn)練過程中死亡的智能體,并將其作為critic網(wǎng)絡(luò)的輸入。actor網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是使損失函數(shù)L(θ)最大化,critic網(wǎng)絡(luò)的訓(xùn)練目標(biāo)則是使損失函數(shù)L()最小化。假設(shè)有n個智能體,B為小批處理數(shù)
2.2 MAMPPO方法設(shè)計
MAMPPO將基于一階梯度的元學(xué)習(xí)思想應(yīng)用到MARL設(shè)置中,提高M(jìn)ARL的泛化能力和訓(xùn)練速度,實現(xiàn)從有限經(jīng)驗中不斷學(xué)習(xí)和適應(yīng)的能力。其關(guān)鍵在于學(xué)習(xí)過程中整合以往經(jīng)驗所需的元知識,并將其保存為模型的初始參數(shù),以實現(xiàn)有限經(jīng)驗的持續(xù)學(xué)習(xí)和快速適應(yīng)。圖2顯示了MAMPPO框架。
MAMPPO首先按照MAPPO訓(xùn)練流程進(jìn)行訓(xùn)練,存儲交互過程中產(chǎn)生的數(shù)據(jù)元組并計算對應(yīng)折扣累積獎勵和獎勵函數(shù),將過程中產(chǎn)生的數(shù)據(jù)劃分為不同的任務(wù)數(shù)據(jù)塊(task data chunks)用于元更新。在元更新階段,通過在任務(wù)數(shù)據(jù)塊上反復(fù)采樣進(jìn)行元學(xué)習(xí),經(jīng)過一定次數(shù)的梯度下降進(jìn)行參數(shù)軟更新,完成對模型初始化參數(shù)的學(xué)習(xí),實現(xiàn)在新任務(wù)上的快速微調(diào)。
最后更新后的網(wǎng)絡(luò)模型參數(shù)滿足梯度下降方向最敏感的要求,使模型在處理新任務(wù)時從最佳起點(diǎn)開始,有效提高了聯(lián)合策略的決策效率。
算法1 MAMPPO方法
3 實驗和結(jié)果討論
在SMAC實驗平臺上進(jìn)行實驗,SMAC是研究CTDE算法的主流基準(zhǔn),具有連續(xù)的觀察空間和離散的動作空間,有各種各樣的地圖,具有很高的學(xué)習(xí)復(fù)雜性。每個智能體都是獨(dú)立的,組成一個小組與內(nèi)置腳本AI競爭,適合在各種協(xié)作的多智能體情況下測試本文方法。在每場戰(zhàn)斗中,每個智能體都需要給對方造成最大化傷害,并將自身承受的傷害最小化。
本文選擇在一個簡單地圖(3 m)、兩個困難地圖(3s_vs_5z, 3s5z)和一個超難地圖(corridor)上評估了本文方法。表1介紹了地圖的特點(diǎn),比較的方法有MAPPO、QMIX和VDN。其中,VDN算法將全局值函數(shù)分解為每個智能體的局部值函數(shù)的加權(quán)和,全局值函數(shù)考慮智能體個體行為的特性,使得該值函數(shù)更易于學(xué)習(xí),能夠解決多智能體系統(tǒng)中的合作與競爭問題,并且可在一定程度上緩解多智能體系統(tǒng)中環(huán)境不穩(wěn)定的問題。QMIX采用混合網(wǎng)絡(luò)模塊將各智能體的局部值函數(shù)組合為全局值函數(shù),通過對全局值函數(shù)進(jìn)行因子分解,將智能體的局部值函數(shù)與一個可學(xué)習(xí)的混合函數(shù)相結(jié)合,使得每個智能體可以獨(dú)立地選擇行動,且同時考慮其他智能體的行動和全局信息,從而提高了整體協(xié)作效果。下面分別對MAMPPO的訓(xùn)練速度和適應(yīng)性進(jìn)行了評價。
在訓(xùn)練實驗中對模型進(jìn)行多步訓(xùn)練,測量訓(xùn)練速度。除地圖訓(xùn)練2M時間步外,其余地圖訓(xùn)練5M時間步。在元學(xué)習(xí)過程中,適應(yīng)的數(shù)量被設(shè)置為15,元更新中的步長設(shè)置為0.05。首先對訓(xùn)練過程中的勝率曲線圖進(jìn)行分析。
a)在簡單地圖3m中的勝率曲線對比如圖4所示??梢钥闯觯琈AMPPO和MAPPO的勝率曲線遠(yuǎn)高于QMIX和VDN算法,雖然MAMPPO和MAPPO在1M時間步之后的曲線大體一致,但MAMPPO訓(xùn)練前期的勝率曲線斜率大于MAPPO且比其更早收斂,說明MAMPPO的訓(xùn)練效率有所提升。
b)在困難地圖(3s_vs_5z和3s5z)中的勝率曲線對比如圖5所示。可以看出,MAMPPO訓(xùn)練前期的勝率曲線增長速率和訓(xùn)練結(jié)束所得的勝率明顯高于其他三種算法,并且能夠更快地收斂。在3s_vs_5z地圖中,作戰(zhàn)智能體為同構(gòu)類型,共享一套網(wǎng)絡(luò)參數(shù),MAMPPO的勝率在1M時間步后率先大于0,說明由MAMPPO訓(xùn)練的我方作戰(zhàn)智能體比其他算法訓(xùn)練的作戰(zhàn)智能體出現(xiàn)獲勝的場次更早。在3s5z地圖中,作戰(zhàn)智能體為異構(gòu)類型,分別處理各自的網(wǎng)絡(luò)參數(shù),在整個訓(xùn)練過程中,MAMPPO的勝率曲線均高于其他三條曲線,說明經(jīng)MAMPPO訓(xùn)練的作戰(zhàn)智能體擁有更強(qiáng)的作戰(zhàn)能力。
c)在超難地圖corridor中的勝率曲線對比如圖6所示??梢钥闯觯琈AMPPO的勝率曲線整體高于QMIX和VDN對應(yīng)勝率,且略高于MAPPO的勝率曲線,因為超難地圖中的敵方作戰(zhàn)智能體較多,需要處理的數(shù)據(jù)也對應(yīng)增加,增加了元更新階段中反復(fù)適應(yīng)的計算難度,訓(xùn)練過程中會出現(xiàn)計算量代償?shù)膯栴}。
計算訓(xùn)練步最后10次的平均勝率,結(jié)果如表2所示。從表中可以看出,MAMPPO方法在簡單地圖3m中的平均勝率高于QMIX和VDN算法,并且與MAPPO算法的對應(yīng)勝率持平。在困難地圖(3s_vs_5z和3s5z)和超難地圖corridor中的平均勝率均高于參與比較的三種算法,具體勝率提升百分比為:MAMPPO方法在3m、3s_vs_5z、3s5z、corridor地圖中的勝率比MAPPO算法分別提高了0%、4.12%、16.93%、2.62%,比QMIX算法分別提高了28.55%、87.80%、39.58%、19.04%,比VDN算法分別提高了23.51%、514.66%、241.47%、342.48%。
因此在訓(xùn)練階段,MAMPPO所學(xué)策略的改進(jìn)速度明顯加快,訓(xùn)練速度明顯提高,訓(xùn)練所得的勝率高于其他方法,經(jīng)過元學(xué)習(xí)訓(xùn)練的作戰(zhàn)智能體的作戰(zhàn)能力高于其他多智能體算法訓(xùn)練所得。
為了評估MAMPPO的適應(yīng)能力,通過計算每次訓(xùn)練迭代32場后測試的勝率來測試MAPPO和MAMPPO訓(xùn)練的作戰(zhàn)智能體的作戰(zhàn)能力,并將最后10次測試所得勝率的中位數(shù)作為評估勝率,四種地圖的評估勝率如表3所示。由表可得,除了在簡單地圖中的勝率恒為100%之外,經(jīng)過MAMPPO訓(xùn)練的作戰(zhàn)智能體在其他三個地圖中取得的勝率均高于MAPPO訓(xùn)練所得,具體勝率提升百分比為:MAMPPO方法在3s_vs_5z、3s5z、corridor地圖中的勝率比MAPPO算法在其上的勝率分別提高了37.02%、18.18%、11.73%。
因MAMPPO方法相較于MAPPO算法在困難地圖(3s_vs_5z和3s5z)中的性能表現(xiàn)提升明顯,在測試階段選擇這兩個地圖的測試勝率曲線對比如圖7所示。
MAMPPO方法在困難地圖(3s_vs_5z和3s5z)和超難地圖corridor的評估勝率均高于MAPPO算法,表現(xiàn)出色。另外,雖然在簡單地圖3m中的評估勝率均為100%,但是MAMPPO方法在6K步時獲得的作戰(zhàn)智能體勝率便可以達(dá)到100%,MAPPO算法則需要在1M步時獲得的作戰(zhàn)智能體勝率達(dá)到100%。由困難地圖(3s_vs_5z和3s5z)的評估勝率曲線可得,MAMPPO方法的勝率開始變化,時間步長早于MAPPO算法,說明MAMPPO方法訓(xùn)練所得作戰(zhàn)智能體的適應(yīng)能力強(qiáng)于MAPPO算法,更快地開始適應(yīng)新的情況。相比于MAPPO算法,在相同時間步長的情況下,MAMPPO方法所得勝率高于MAPPO算法,說明模型適應(yīng)性提升顯著,作戰(zhàn)智能體對訓(xùn)練場新情況的處理能力明顯提升。MAMPPO方法在新任務(wù)情況下的評估勝率高于MAPPO算法,且適應(yīng)速度顯著提高,表明MAMPPO方法的自適應(yīng)能力在引入元學(xué)習(xí)后有所提高。
實驗結(jié)果表明,用MAMPPO方法訓(xùn)練得到的作戰(zhàn)智能體在總體上取得了更優(yōu)的性能,在訓(xùn)練場中能夠更早更高效地探索出獲勝策略,在相同訓(xùn)練時間步長情況下的訓(xùn)練速度明顯提升,其訓(xùn)練所得的適應(yīng)性明顯增強(qiáng),能夠處理在訓(xùn)練場中出現(xiàn)的情況,表現(xiàn)了出良好的訓(xùn)練效率和適應(yīng)能力。
4 結(jié)束語
本文將元學(xué)習(xí)引入到MADRL中,提出了一種MAMPPO方法,從元學(xué)習(xí)的角度提升多智能體算法性能,為解決多智能體泛化能力問題提供了一個新的視角。將基于梯度的元強(qiáng)化學(xué)習(xí)擴(kuò)展到多智能體強(qiáng)化學(xué)習(xí),在智能體完成交互后構(gòu)建任務(wù)數(shù)據(jù)塊,在模型參數(shù)更新階段定義元梯度,并執(zhí)行多次梯度下降來學(xué)習(xí)網(wǎng)絡(luò)模型的初始參數(shù)。在SMAC環(huán)境下的實驗結(jié)果表明,該方法在各種場景下的性能都優(yōu)于基線方法,有效地提高了多智能體系統(tǒng)的強(qiáng)化學(xué)習(xí)性能,縮短了訓(xùn)練時間,進(jìn)一步證實了將元學(xué)習(xí)引入多智能體強(qiáng)化學(xué)習(xí)的可行性。
然而在訓(xùn)練多個智能體的過程中,每個智能體的感知轉(zhuǎn)移概率分布和獎勵函數(shù)都會發(fā)生變化。從每個智能體的角度來看,環(huán)境具有非平穩(wěn)性。如何從每個智能體的角度使用元學(xué)習(xí),同時考慮自身的學(xué)習(xí)過程和環(huán)境中其他智能體的學(xué)習(xí),是未來需要解決的問題。
參考文獻(xiàn):
[1]Silver D,Huang A,Maddison C J,et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature,2016,529(7587): 484-489.
[2]Bellemare M G,Candido S,Castro P S,et al. Autonomous navigation of stratospheric balloons using reinforcement learning [J]. Nature,2020,588(7836): 77-82.
[3]Henderson P,Islam R,Bachman P,et al. Deep reinforcement learning that matters [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 3207-3214.
[4]Miki T,Lee J,Hwangbo J,et al. Learning robust perceptive locomotion for quadrupedal robots in the wild [J/OL]. Science Robotics,2022,7(62). https://arxiv.org/abs/2201.08117.
[5]Yang Jiongzhi,Harish S,Li C,et al. Deep reinforcement learning for multi-phase microstructure design [J]. Computers,Materials & Continua,2021,68(1): 1285-1302.
[6]Berner C,Brockman G,Chan B,et al. Dota 2 with large scale deep reinforcement learning [EB/OL]. (2019-12-13). https://arxiv.org/pdf/1912.06680.pdf.
[7]Baker B,Kanitscheider I,Markov T,et al. Emergent tool use from multi-agent autocurricula [EB/OL]. (2020-02-11). https://arxiv.org/pdf/1909.07528.pdf.
[8]Nguyen T T,Nguyen N D,Nahavandi S. Deep reinforcement learning for multiagent systems: a review of challenges,solutions,and applications [J]. IEEE Trans on Cybernetics,2020,50(9): 3826-3839.
[9]Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast adaptation of deep networks [C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: PMLR,2017: 1126-1135.
[10]Xu Zhixiong,Chen Xiliang,Tang Wei,et al. Meta weight learning via model-agnostic meta-learning [J]. Neurocomputing,2021,432(4): 124-132.
[11]Nichol A,Achiam J,Schulman J. On first-order meta-learning algorithms [EB/OL]. (2018-10-22) [2023-09-19]. https://arxiv.org/pdf/1803.02999.pdf.
[12]Song Xingyou,Gao Wenbo,Yang Yuxiang,et al. ES-MAML: simple Hessian-free meta learning [EB/OL]. (2020-07-07)[2023-09-19]. https://arxiv.org/pdf/1910.01215.pdf.
[13]Wierstra D,Schaul T,Glasmachers T,et al. Natural evolution strategies [J]. Journal of Machine Learning Research,2014,15(1): 949-980.
[14]Stadie B C,Yang Ge,Houthooft R,et al. Some considerations on learning to explore via meta-reinforcement learning [EB/OL]. (2019-01-11)[2023-09-19].https://arxiv.org/pdf/1803.01118.pdf.
[15]Xu Tianbing,Liu Qiang,Zhao Liang,et al. Learning to explore with meta-policy gradient [C]// Proc of the 35th International Conference on Machine Learning. [S.l.]: PMLR,2018: 5463-5472.
[16]Sunehag P,Lever G,Gruslys A,et al. Value-decomposition networks for cooperative multiagent learning based on team reward [C]// Proc of the 17th International Conference on Autonomous Agents and Multi Agent Systems. 2018: 2085-2087.
[17]Rashid T,Samvelyan M,De Witt C S,et al. Monotonic value function factorisation for deep multi-agent reinforcement learning [J]. Journal of Machine Learning Research,2020,21(1): 7234-7284.
[18]Foerster J N,F(xiàn)arquhar G,Afouras T,et al. Counterfactual multi-agent policy gradients [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 2974-2982.
[19]Lowe R,Wu Yi,Tamar A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6379-6393.
[20]Yu Chao,Velu A,Vinitsky E,et al. The surprising effectiveness of PPO in cooperative multi-agent games [C]// Proc of the 35th Neural Information Processing Systems. Cambridge,MA: MIT Press,2022: 24611-24624.
[21]Schulman J,Wolski F,Dhariwal P,et al. Proximal policy optimization algorithms [EB/OL]. (2017-08-28)[2023-09-19]. https://arxiv.org/pdf/1707.06347.pdf.
[22]Zhang Qi,Chen Dingyang. A meta-gradient approach to learning cooperative multi-agent communication topology [C]// Proc of the 5th Workshop on Meta-Learning at NeurIPS. [S.l.]: Artificial Intelligence Institute,2021.
[23]Yang Jiachen,Ethan W,Trivedi R,et al. Adaptive incentive design with multi-agent meta-gradient reinforcement learning [C]// Proc of the 21st International Conference on Autonomous Agents and Multiagent Systems. 2022: 1436-1445.
[24]Charakorn R,Manoonpong P,Dilokthanakul N. Learning to cooperate with unseen agents through meta-reinforcement learning [C]// Proc of the 20th International Conference on Autonomous Agents and Multi Agent Systems. Richland,SC: IFAAMAS,2021: 1478-1479.
[25]Feng Xidong,Slumbers O,Wan Ziyu,et al. Neural auto-curricula in two-player zero-sum games [J]. Neural Information Processing Systems,2021,34(1): 3504-3517.
[26]Foerster J,Chen R Y,Al-Shedivat M,et al. Learning with opponent-learning awarenesss [C]// Proc of the 17th International Conference on Autonomous Agents and Multi Agent Systems. 2018: 122-130.
[27]Kim D K,Liu Miao,Riemer M D,et al. A policy gradient algorithm for learning to learn in multiagent reinforcement learning [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR,2021: 5541-5550.
[28]Al-Shedivat M,Bansal T,Burda Y,et al. Continuous adaptation via meta-learning in nonstationary and competitive environments [EB/OL]. (2018-02-23)[2023-09-20]. https://arxiv.org/pdf/1710.03641.pdf.