韓兆榮,錢(qián)宇華,2,劉郭慶
1(山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006)
2(山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006)
部分可觀測(cè)問(wèn)題[1]模擬了人類(lèi)日常工作中時(shí)常面臨的信息不對(duì)稱(chēng)、信息不完全挑戰(zhàn)或博弈情景.在部分可觀測(cè)環(huán)境問(wèn)題設(shè)置中,智能體僅可觀測(cè)到環(huán)境部分信息,即智能體被限制了觀測(cè)范圍,無(wú)法通過(guò)環(huán)境得到其可觀測(cè)范圍外的任何信息,同時(shí)智能體也無(wú)法通過(guò)觀測(cè)得到其他智能體內(nèi)部策略變化與觀測(cè)范圍外的動(dòng)作選擇.因此部分可觀測(cè)環(huán)境下,多智能體需要互相協(xié)作完成環(huán)境任務(wù)時(shí),必須通過(guò)某種方式補(bǔ)全所需環(huán)境信息或關(guān)鍵環(huán)境信息、以及其他智能體動(dòng)作選擇或動(dòng)作選擇概率,從而提高智能體協(xié)作能力滿(mǎn)足任務(wù)要求.
目前用于處理多智能體任務(wù)的深度強(qiáng)化學(xué)習(xí)架構(gòu)分為4種類(lèi)型[1]:無(wú)關(guān)聯(lián)型[2,3]、通信規(guī)則型[4,5]、互相協(xié)作型[6,7]、建模學(xué)習(xí)型[8,9],其中通信規(guī)則型是目前用于解決多智能體協(xié)作問(wèn)題的主流架構(gòu)之一,總體架構(gòu)圖如圖1所示.通信規(guī)則型架構(gòu)通過(guò)模擬人類(lèi)交流的模式,通過(guò)建立智能體通信通道完成智能體信息交互.智能體對(duì)得到的信息進(jìn)行學(xué)習(xí),能夠形成通信規(guī)則[1,4]用于解釋信息內(nèi)涵,實(shí)現(xiàn)智能體的“聽(tīng)說(shuō)”,使智能體間交換信息成為可能.經(jīng)由這種架構(gòu)學(xué)習(xí)得到的通信規(guī)則使智能體可以得到更加全面的環(huán)境信息或其他智能體相關(guān)決策信息,增強(qiáng)智能體在部分可觀測(cè)環(huán)境中的決策能力與協(xié)作能力.目前被用于通信規(guī)則型架構(gòu)的智能體通信通道主要分為3種類(lèi)別:傳遞梯度信息通道類(lèi)[4,5,10],平均化信息后傳遞類(lèi)[11],經(jīng)驗(yàn)信息傳輸類(lèi)[12,13].這些不同的信息通道區(qū)別在于產(chǎn)生與處理信息的方式,但總體架構(gòu)仍遵循通信規(guī)則型架構(gòu).
圖1 通信規(guī)則型算法架構(gòu)
本文對(duì)梯度信息通道方法進(jìn)行研究,發(fā)現(xiàn)目前梯度信息通道存在傳遞信息復(fù)雜、信息處理簡(jiǎn)單、信息不穩(wěn)定等多種問(wèn)題,可以統(tǒng)稱(chēng)為信息質(zhì)量問(wèn)題.在處理部分可觀測(cè)環(huán)境問(wèn)題時(shí),智能體高度依賴(lài)其他智能體的傳遞信息以補(bǔ)全環(huán)境信息與其他智能體決策信息.此時(shí)傳遞信息若復(fù)雜、不穩(wěn)定將會(huì)導(dǎo)致智能體出現(xiàn)決策困難、表現(xiàn)差、協(xié)調(diào)性差等問(wèn)題.因此怎樣提高傳遞信息質(zhì)量是提升部分可觀測(cè)環(huán)境下智能體協(xié)作能力與總體表現(xiàn)的關(guān)鍵問(wèn)題.當(dāng)前,自注意力機(jī)制被證明在信息提取中具有極其優(yōu)秀的表現(xiàn)[14-17],在自然語(yǔ)言處理與圖像識(shí)別等領(lǐng)域中被廣泛運(yùn)用.本文利用這一特性,通過(guò)通信信息提取以提升通信信息質(zhì)量,最終提出了一種基于自注意力機(jī)制的新型信息處理單元TDU(Transformer Dispose Unit).通過(guò)此信息交換通道能夠根據(jù)學(xué)習(xí)的信息價(jià)值進(jìn)行信息篩選,減少信息冗余提升信息質(zhì)量.信息傳遞至目標(biāo)智能體后同時(shí)會(huì)返回相關(guān)梯度信息用于更新信息通道與智能體網(wǎng)絡(luò),實(shí)現(xiàn)了端到端的信息產(chǎn)生、信息處理、信息利用的過(guò)程.最終本文算法在經(jīng)典的智能體通信能力測(cè)試環(huán)境[18]中與其他多智能體深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)比并取得了優(yōu)秀的成績(jī),證明了基于自注意力的信息處理單元能夠有效提升通信信息質(zhì)量.
本文工作的主要貢獻(xiàn)如下:1)創(chuàng)新地將自注意力機(jī)制應(yīng)用于多智能體通信信息處理中;2)提出的信息處理單元能夠有效的提升智能體信息質(zhì)量;3)改進(jìn)信息產(chǎn)生算法使智能體信息值具有規(guī)律性,實(shí)現(xiàn)了端到端的交流過(guò)程.
主流的通信規(guī)則型算法中,DIAL[4]算法為熱門(mén)的梯度信息傳遞類(lèi)方法,其通過(guò)將智能體信息值輸入激活函數(shù)構(gòu)成的信息處理單元,返回發(fā)送信息智能體信息梯度更新網(wǎng)絡(luò)參數(shù),同時(shí)輸出智能體激活后的智能體信息值提高智能體協(xié)調(diào)能力.但是DIAL算法產(chǎn)生的信息值是人為事先定義的,并且傳遞通道過(guò)于簡(jiǎn)單無(wú)法對(duì)信息進(jìn)行精細(xì)加工,缺少穩(wěn)定性與信息多變性.
CommNet[5]是經(jīng)典的平均化信息通道類(lèi)方法,算法由一個(gè)前向傳播神經(jīng)網(wǎng)絡(luò)組成,網(wǎng)絡(luò)每層的不同神經(jīng)單元代表了不同智能體,神經(jīng)單元的輸入值為智能體的輸入值,輸出智能體動(dòng)作值.其建立的通信通道為連接相鄰兩層神經(jīng)網(wǎng)絡(luò)的平均化信息處理器,該處理器對(duì)所有神經(jīng)單元(即智能體)的輸出值計(jì)算平均值傳遞至下一層神經(jīng)網(wǎng)絡(luò)所有智能體中,同時(shí)所有智能體將會(huì)繼承自身歷史信息.但是,CommNet僅由一個(gè)大的神經(jīng)網(wǎng)絡(luò)構(gòu)成,智能體數(shù)目由網(wǎng)絡(luò)參數(shù)決定,缺少智能體數(shù)目延展性,同時(shí)使用的網(wǎng)絡(luò)方法也較為老舊,在增加智能體數(shù)目后表現(xiàn)下降明顯.
BiCNet[12]基于傳統(tǒng)執(zhí)行者-評(píng)論者神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)添加了雙向循環(huán)RNN進(jìn)行信息傳遞,將執(zhí)行者的歷史信息經(jīng)過(guò)RNN循環(huán)至下一個(gè)智能體的執(zhí)行者網(wǎng)絡(luò)中,同時(shí)評(píng)論者的歷史信息會(huì)反向循環(huán)至上一個(gè)智能體的評(píng)論者網(wǎng)絡(luò)中.BiCNet被應(yīng)用與戰(zhàn)爭(zhēng)游戲環(huán)境中,然而算法并不是基于不完全觀測(cè)前提建立的,算法假定智能體能夠得到完整的環(huán)境信息,缺少不完全觀測(cè)環(huán)境處理能力.
在通信規(guī)則型方法最新的研究中,SGA-RL[18]方法針對(duì)智能體通信距離與通信帶寬等問(wèn)題,利用軟圖注意力方法合理規(guī)劃智能體間通信路徑,擴(kuò)大智能體交流范圍.R-MADDPG[13]方法算法利用RNN網(wǎng)絡(luò)對(duì)智能體歷史信息進(jìn)行傳遞,對(duì)MADDPG算法進(jìn)行改進(jìn),提高算法在部分可觀測(cè)環(huán)境中的表現(xiàn).文獻(xiàn)[10]提出了使用注意力機(jī)制的歷史信息選擇方法,將智能體分為主從兩種方式,由信息注意器提取主智能體歷史信息并廣播至從智能體,是使用注意力提取歷史信息用于傳遞的一種新型嘗試.雖然,以上方法在相應(yīng)任務(wù)中均取得了不俗的表現(xiàn),但這些方法并未對(duì)信息質(zhì)量問(wèn)題有所關(guān)注,缺少信息合理加工與篩選的過(guò)程,導(dǎo)致缺少處理復(fù)雜或低質(zhì)量信息的能力.文獻(xiàn)[19,20]關(guān)注于智能體信息傳輸方向與選擇對(duì)象方面的研究,通過(guò)選擇特定智能體提高信息傳輸?shù)男?
基于提高部分可觀測(cè)環(huán)境中通信信息質(zhì)量的需求,本文通過(guò)提高智能體信息產(chǎn)生能力與信息處理單元的信息處理能力,提升智能體在部分可觀測(cè)環(huán)境中協(xié)作任務(wù)的表現(xiàn).本文提出使用了基于自注意力機(jī)制的通信信息處理單元TDU與相應(yīng)通信規(guī)則型算法.在信息產(chǎn)生的方式上提出使用了基于無(wú)模型強(qiáng)化學(xué)習(xí)方法DRQN[8](Deep Recurrent Q Network)算法搭建了通信規(guī)則型智能體,能夠自主產(chǎn)生通信信息,利用信息通道返回的梯度信息進(jìn)行學(xué)習(xí),提高信息生成的合理性與理解信息的能力.在信息處理的方式上提出基于自注意力的信息處理單元,利用自注意力機(jī)制篩選高注意力信息并進(jìn)行選取傳輸,從而去除低注意力信息,提高信息利用率.在得到環(huán)境反饋后,經(jīng)過(guò)智能體網(wǎng)絡(luò)與信息處理單元的更新優(yōu)化,會(huì)進(jìn)一步提升產(chǎn)生信息的質(zhì)量與信息選取的準(zhǔn)確度.
整體網(wǎng)絡(luò)架構(gòu)由智能體網(wǎng)絡(luò)與信息處理單元兩部分組成.每個(gè)智能體經(jīng)由TDU單元與其他智能體相連接,按照環(huán)境的要求選擇產(chǎn)生信息的智能體并將信息傳遞至TDU單元,經(jīng)過(guò)TDU處理的信息將傳遞至被選擇的接收信息智能體完成信息傳遞.通過(guò)本網(wǎng)絡(luò)架構(gòu)保證了智能體之間的獨(dú)立性,即每個(gè)智能體擁有獨(dú)立的決策網(wǎng)絡(luò)、觀察信息、接收信息,這些信息均為私有信息.使用統(tǒng)一的信息處理單元TDU,能夠保證智能體傳輸?shù)男畔⑻幚斫Y(jié)果是趨同的,提高所有智能體對(duì)信息的理解力,加快通信規(guī)則的建立.最后通過(guò)建立的通信規(guī)則能夠完成端到端的信息傳輸過(guò)程,使智能體間能夠進(jìn)行信息交換用以完成環(huán)境任務(wù),最終提高智能體協(xié)作能力.TDU整體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示.
圖2 網(wǎng)絡(luò)架構(gòu)整體
智能體產(chǎn)生的原始通信信息在很大程度上決定了之后信息處理的難度與處理后信息的質(zhì)量,目前主流的通信規(guī)則算法往往傳遞決策網(wǎng)絡(luò)值或動(dòng)作值進(jìn)入通信通道,在進(jìn)行分布式執(zhí)行時(shí),產(chǎn)生的傳輸信息將會(huì)依賴(lài)智能體網(wǎng)絡(luò)質(zhì)量,同時(shí)在包含過(guò)多智能體數(shù)目或動(dòng)作空間復(fù)雜的環(huán)境中,傳輸?shù)男畔⒅稻S度會(huì)指數(shù)增長(zhǎng),因此產(chǎn)生的信息應(yīng)該獨(dú)立與網(wǎng)絡(luò)決策值或動(dòng)作值,限制產(chǎn)生信息的維度與范圍有利于解決復(fù)雜環(huán)境問(wèn)題.本文基于簡(jiǎn)單可靠的DRQN網(wǎng)絡(luò)算法,通過(guò)選擇通信信息作為智能體動(dòng)作選項(xiàng)加入智能體網(wǎng)絡(luò)算法中.將這種特殊的動(dòng)作記為m.通過(guò)環(huán)境的獎(jiǎng)勵(lì)值回報(bào)能夠進(jìn)行初步的信息選擇與學(xué)習(xí),使智能體網(wǎng)絡(luò)使用這種方式可以實(shí)現(xiàn)信息值的產(chǎn)生與閱讀.對(duì)于DRQN其原始Q值在不完全觀測(cè)環(huán)境中定義如下:
Q(o,a)=Eπ[Gt|O=o,A=a]
(1)
其中Gt為累計(jì)獎(jiǎng)勵(lì)值,將產(chǎn)生信息動(dòng)作視為一種獨(dú)立的參數(shù)M后,得到的Q值定義如下:
Q(o,a,m)=Eπ[Gt|O=o,A=a,M=m]
(2)
M為信息值集合,m為選擇的信息值,m∈M.初始值由智能體網(wǎng)絡(luò)隨機(jī)產(chǎn)生,在經(jīng)過(guò)不斷學(xué)習(xí)后,智能體通過(guò)損失函數(shù)對(duì)信息值的生成策略進(jìn)行更新,通過(guò)提高信息值具有的期望回報(bào)的方式,提高信息值m的質(zhì)量.對(duì)于m值的產(chǎn)生方式如公式(3)所示:
(3)
其中,信息值初始設(shè)定為隨機(jī)的0至1的數(shù),在之后的回合中,信息值將選取智能體產(chǎn)生的最大Q值對(duì)應(yīng)的信息值進(jìn)行傳輸,其值區(qū)間仍為0至1.
圖3 智能體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
每個(gè)智能體都采用了相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、誤差計(jì)算方法與動(dòng)作選擇策略.采用這種設(shè)置能夠使智能體擁有更加一致的信息產(chǎn)生背景,能夠提高智能體間的信息理解力與通信協(xié)議的產(chǎn)生速度,同時(shí)也能夠保證該多智能體環(huán)境擁有更好的策略相似性與穩(wěn)定性,能夠有效提升智能體間協(xié)調(diào)執(zhí)行動(dòng)作完成環(huán)境任務(wù)的能力,最終提升智能體的訓(xùn)練效率,加快智能體網(wǎng)絡(luò)動(dòng)作選擇與通信選擇策略的收斂速度.
基于自注意力機(jī)制能夠有效提取信息的特點(diǎn),本文提出利用自注意力機(jī)制進(jìn)行信息篩選構(gòu)建信息處理單元,提取具有高注意力的信息,達(dá)到提升信息質(zhì)量的目的.本文提出的通信單元由自注意力編碼器與自注意力解碼器兩部分組成:編碼器將傳入的智能體信息進(jìn)行自注意力計(jì)算,計(jì)算信息價(jià)值;使用解碼器基于智能體狀態(tài)動(dòng)作價(jià)值選取并傳輸高價(jià)值信息,去除低價(jià)值信息或重復(fù)信息,提升信息質(zhì)量、降低信息冗余.利用解碼器返回智能體的信息價(jià)值進(jìn)行誤差計(jì)算,提升智能體產(chǎn)生信息質(zhì)量并加速通信規(guī)則建立.同時(shí)為進(jìn)一步提高信息質(zhì)量,智能體會(huì)在訓(xùn)練中會(huì)生成多個(gè)平行信息,這些信息來(lái)自于同網(wǎng)絡(luò)應(yīng)對(duì)同觀測(cè)時(shí)的信息輸出,將輸入的信息合并后輸入編碼器,之后在解碼器中利用智能體Q值對(duì)輸入的多個(gè)信息進(jìn)行篩選,最后選擇高價(jià)值信息用于信息傳遞.通信單元整體結(jié)構(gòu)如圖4所示.
圖4 通信單元結(jié)構(gòu)
首先,經(jīng)過(guò)每個(gè)自注意力處理器后,傳輸出信息值特征信息與狀態(tài)特征信息,分別記為Q、K、V3個(gè)特征向量.
Q;K;V=mt*ωQ;mt*ωk;mt*ωV
(4)
之后,計(jì)算自注意力值并利用Softmax函數(shù)進(jìn)行激活,得到單個(gè)自注意力頭的自注意力值.
(5)
最后,通過(guò)將多個(gè)自注意力頭拼接并通過(guò)一個(gè)前向傳輸網(wǎng)絡(luò)進(jìn)行激活,得到最終傳輸出編碼器的自注意力值.
(6)
(7)
(8)
設(shè)計(jì)通信單元參數(shù)更新?lián)p失函數(shù)如下:
(9)
為了解決這一情況,提出了采用差步更新的方式將智能體網(wǎng)絡(luò)的更新頻率快于TDU的更新頻率.通過(guò)這種方式給智能體一個(gè)合理的更新范圍,使其能夠適應(yīng)TDU信息的變化.針對(duì)這種方法,關(guān)鍵在于如何設(shè)置更新的頻率,以及如何設(shè)置更新的總次數(shù).經(jīng)過(guò)實(shí)驗(yàn)統(tǒng)計(jì),每50回合更新TDU參數(shù)能夠保證實(shí)驗(yàn)結(jié)果穩(wěn)定且表現(xiàn)最優(yōu).相關(guān)的統(tǒng)計(jì)數(shù)據(jù)請(qǐng)見(jiàn)實(shí)驗(yàn)部分統(tǒng)計(jì)數(shù)據(jù)表.
算法1.整體算法
初始化Q網(wǎng)絡(luò)參數(shù)θ1,TDU網(wǎng)絡(luò)參數(shù)θ2
設(shè)置差步更新間隔N
設(shè)置最大時(shí)間步T,設(shè)置最大回合數(shù)E
定義智能體數(shù)目I
For every epoche:
當(dāng)st≠與t<最大時(shí)間步T 時(shí)循環(huán)
t=t+1
對(duì)每個(gè)智能體i循環(huán):
根據(jù)智能體網(wǎng)絡(luò)輸出動(dòng)作與通信信息:
將信息傳入TDU網(wǎng)絡(luò)得到處理信息:
結(jié)束循環(huán)
結(jié)束循環(huán)
得到獎(jiǎng)勵(lì)值rt與下一個(gè)觀測(cè)ot+1
對(duì)時(shí)間步t循環(huán)至T:
如果滿(mǎn)足差步更新間隔N則更新TDU網(wǎng)絡(luò):
TDU-LOSS:
對(duì)每個(gè)智能體i進(jìn)行循環(huán):
更新網(wǎng)絡(luò)參數(shù):
結(jié)束循環(huán)
結(jié)束循環(huán)
結(jié)束循環(huán)
為驗(yàn)證本文提出的TDU通信單元在不完全觀測(cè)環(huán)境中提升傳輸信息質(zhì)量的效果,本文在主流的多智能體通信規(guī)則驗(yàn)證環(huán)境Switch Riddle[4,21,22]中進(jìn)行了大量實(shí)驗(yàn).同時(shí)設(shè)計(jì)了三智能體與四智能體兩種環(huán)境配置,并與通信規(guī)則型算法DIAL、RIAL[4]、無(wú)通信DIAL[4](DIAL-NC)以及基線(xiàn)算法DRQN[8]進(jìn)行實(shí)驗(yàn)對(duì)比分析.
Switch Riddle環(huán)境通過(guò)不完全觀測(cè)環(huán)境,對(duì)智能體實(shí)現(xiàn)通信規(guī)則的能力進(jìn)行測(cè)試,在該環(huán)境下智能體間傳遞的信息被嚴(yán)格限制,同時(shí)智能體必須協(xié)作完成目標(biāo)任務(wù).所有智能體的回報(bào)值相同,智能體額外信息只能通過(guò)通信通道得到,因此通信信息質(zhì)量對(duì)智能體通信規(guī)則建立與智能體表現(xiàn)起到了決定性的作用.對(duì)該環(huán)境的原文描述如下:
“監(jiān)獄中新關(guān)押了100名囚犯,監(jiān)獄長(zhǎng)告訴他們,從明天開(kāi)始,他們每個(gè)人都將被關(guān)押在一個(gè)孤立的牢房中,彼此之間無(wú)法交流.每天監(jiān)獄長(zhǎng)都會(huì)隨機(jī)挑選安置在公共牢房中,在公共牢房中存在一個(gè)帶開(kāi)關(guān)的燈泡,囚犯可以觀測(cè)到燈泡的狀態(tài).囚犯可以自由控制開(kāi)關(guān),同時(shí)囚犯可以宣布他相信所有囚犯在某個(gè)時(shí)間節(jié)點(diǎn)已經(jīng)都進(jìn)入過(guò)公共牢房中了,如果這個(gè)宣稱(chēng)是真的那么所有人會(huì)被釋放,如果這個(gè)宣稱(chēng)是假的那么所有人會(huì)被處決.監(jiān)獄長(zhǎng)離開(kāi)了,那么囚犯?jìng)兡茉谟邢迺r(shí)間內(nèi)通過(guò)交流得出一種通信協(xié)議使自己得到釋放嗎?[21]”
本文智能體網(wǎng)絡(luò)設(shè)置學(xué)習(xí)率為0.0005,動(dòng)量設(shè)置為0.05,使用Adam優(yōu)化器進(jìn)行網(wǎng)絡(luò)參數(shù)更新,權(quán)重衰減系數(shù)設(shè)置為0.05,RNN網(wǎng)絡(luò)設(shè)置為128層,TD目標(biāo)設(shè)置為100回合.TDU設(shè)置學(xué)習(xí)率為0.0001,使用Adam優(yōu)化器進(jìn)行網(wǎng)絡(luò)參數(shù)更新,共設(shè)置了6個(gè)自注意力解碼器與6個(gè)自注意力編碼器,環(huán)境訓(xùn)練每50次更新TDU網(wǎng)絡(luò).
測(cè)試環(huán)境設(shè)置為三智能體與四智能體兩種任務(wù),三智能體任務(wù)設(shè)置訓(xùn)練1000次,每10次進(jìn)行1次測(cè)試并輸出結(jié)果,單回合最多可執(zhí)行6次智能體通信與動(dòng)作,四智能體任務(wù)共設(shè)置訓(xùn)練20000次,每10次進(jìn)行1次測(cè)試,每100次訓(xùn)練輸出1次結(jié)果,單回合最多可執(zhí)行10次智能體通信與動(dòng)作.
兩種任務(wù)設(shè)置分別進(jìn)行了大量重復(fù)測(cè)試,將實(shí)驗(yàn)結(jié)果平均化輸出,得到智能體回報(bào)軌跡,與DIAL、RIAL[4]、DIAL-NC[4]、DRQN[8]算法進(jìn)行對(duì)比,通過(guò)觀察智能體回報(bào)值變化得到智能體在測(cè)試環(huán)境中通信規(guī)則產(chǎn)生速度,可得出通信質(zhì)量差距對(duì)智能體通信規(guī)則建立以及協(xié)作能力的影響.實(shí)驗(yàn)結(jié)果如圖5所示.
圖5 實(shí)驗(yàn)回報(bào)值軌跡
根據(jù)回報(bào)值軌跡可以看出,DRQN算法作為唯一的無(wú)通信通道方法在兩種訓(xùn)練環(huán)境中均表現(xiàn)不佳,證明在部分可觀測(cè)問(wèn)題中智能體表現(xiàn)受信息交換能力制約;DIAL-NC算法關(guān)閉了通信通道后在1000回合訓(xùn)練中無(wú)法收斂,同時(shí)在訓(xùn)練較多次后表現(xiàn)遠(yuǎn)遠(yuǎn)不如使用通信通道的其他算法;TDU算法相比較于使用通信通道的DIAL與RIAL算法,在3智能體任務(wù)與4智能體任務(wù)中都具有更快的學(xué)習(xí)速度、更高的回報(bào)結(jié)果.具體的實(shí)驗(yàn)結(jié)果與算法表現(xiàn)如表1所示.
表1 各方法回報(bào)值與收斂性對(duì)比
TDU與DIAL同時(shí)都可以極好地完成3智能體任務(wù),但相比與DIAL算法,TDU的訓(xùn)練所需回合數(shù)平均減少了170回合.而沒(méi)有進(jìn)行通信信息處理的RIAL、DIAL-NC、DRQN算法均無(wú)法達(dá)到最大回報(bào)值.隨著智能體數(shù)目增加.
環(huán)境情況會(huì)變得更加復(fù)雜,導(dǎo)致智能體策略空間會(huì)成指數(shù)級(jí)增長(zhǎng).在4智能體環(huán)境任務(wù)中,各方法均無(wú)法達(dá)到最大回報(bào),TDU方法仍以0.85的平均回報(bào)值超過(guò)DIAL算法0.79的平均回報(bào),為所有算法中表現(xiàn)最優(yōu)算法.同時(shí)TDU算法的學(xué)習(xí)至收斂?jī)H需要5000步即可,相較與回報(bào)值次優(yōu)的DIAL算法達(dá)到最優(yōu)表現(xiàn)需要訓(xùn)練回合數(shù)同比減少10000步.
本文針對(duì)在訓(xùn)練中,正常更新TDU網(wǎng)絡(luò)導(dǎo)致的智能體策略不穩(wěn)定、算法不收斂的問(wèn)題進(jìn)行研究,提出差步更新方法限制TDU網(wǎng)絡(luò)更新速度使總體通信規(guī)則更新頻率降低,通過(guò)不斷實(shí)驗(yàn)與統(tǒng)計(jì)得出相對(duì)比較合理的更新速度.本文在4智能體環(huán)境中不斷進(jìn)行測(cè)試,使用多種間隔回合數(shù)進(jìn)行大量測(cè)試,并將得到結(jié)果就收斂性、收斂回合、收斂速度、完成學(xué)習(xí)時(shí)的回報(bào)值等多個(gè)方面進(jìn)行統(tǒng)計(jì).選取總體表現(xiàn)較好的參數(shù)進(jìn)行下進(jìn)一步實(shí)驗(yàn).最終統(tǒng)計(jì)結(jié)果如表2所示.
表2 差步更新回合數(shù)對(duì)智能體回報(bào)以及收斂性的影響
經(jīng)由實(shí)驗(yàn)與統(tǒng)計(jì)發(fā)現(xiàn),相比較與其他更新回合數(shù),每50回合進(jìn)行一次TDU網(wǎng)絡(luò)參數(shù)更新在訓(xùn)練速度與訓(xùn)練結(jié)果上都具有更加良好的表現(xiàn).間隔100回合時(shí)雖然收斂性與50回合相同,但是存在訓(xùn)練回合數(shù)過(guò)大,回報(bào)值不理想的問(wèn)題.在間隔30回合時(shí),收斂所需回合數(shù)最少,但整體回報(bào)不佳.根據(jù)大量統(tǒng)計(jì),本文確定了TDU方法在Switch RIddle問(wèn)題環(huán)境中使用間50回合更新的方式進(jìn)行訓(xùn)練.并由結(jié)果證實(shí)在使用次參數(shù)設(shè)置時(shí)具有最好的表現(xiàn).
本文針對(duì)目前多智能體強(qiáng)化學(xué)習(xí)通信規(guī)則型算法在多智能體間傳遞信息的質(zhì)量較差的問(wèn)題進(jìn)行研究,提出了基于自注意力機(jī)制的多智能體信息處理單元TDU,同時(shí)在多智能體部分可觀測(cè)智能體通信能力測(cè)試環(huán)境Switch Riddle中與其他通信規(guī)則型算法進(jìn)行對(duì)比,證明了本方法在收斂速度、收斂性、回報(bào)值等方面均優(yōu)于其他方法,證明本方法有效地提升了智能體間信息傳遞的質(zhì)量,加快了智能體通信規(guī)則建立的速度,提高了智能體通信規(guī)則的合理性.