樊敏風(fēng),洪居亭
(四川大學(xué)電子信息學(xué)院,成都610065)
溝通、交流是智能的一個(gè)基本方面,它可以使得智能體能夠作為一個(gè)群體而不是個(gè)體的集合。在現(xiàn)實(shí)世界中,交流對(duì)于執(zhí)行復(fù)雜的任務(wù)至關(guān)重要,因?yàn)樵诂F(xiàn)實(shí)世界中,每個(gè)參與者的能力和世界的可見度都是有限的。在多智能體場景中,智能體如果要進(jìn)行有效地協(xié)同、合作,它們就需要學(xué)會(huì)溝通、交流,來達(dá)成一致的協(xié)議。交流的目的之一是智能體之間共享部分觀察,相鄰的智能體可以更容易地相互理解;其次,相鄰智能體之間可以更容易地完成協(xié)作決策;最后,所有智能體共享一個(gè)策略網(wǎng)絡(luò),這就意味著相鄰智能體可能有類似的行為,但交流可以增加其策略的多樣性。在任何部分可觀察的環(huán)境中,智能體之間的交流對(duì)于協(xié)調(diào)每個(gè)智能體的行為至關(guān)重要,而控制每個(gè)智能體的模型通常是通過強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)的[2]。多個(gè)智能體在通過各自的觀察之后,可以相互合作,經(jīng)過不斷地向環(huán)境學(xué)習(xí),逐漸接近最終的集體目標(biāo)。多個(gè)智能體在環(huán)境中感知和行動(dòng)問題的目的是最大限度地利用它們的共享效用,在這些環(huán)境中要想解決任務(wù)所需的共享信息問題,智能體不僅要具備交流能力,還必須發(fā)現(xiàn),學(xué)會(huì)通信協(xié)議。
智能體如何能利用深度強(qiáng)化學(xué)習(xí)的方法來自動(dòng)發(fā)現(xiàn)通信協(xié)議,學(xué)會(huì)它們需要的通信協(xié)議來協(xié)調(diào)它們的行為呢?本文針對(duì)這些問題提出一些方案:首先,提出了一組需要交流的多智能體基準(zhǔn)測試任務(wù)(開關(guān)謎語游戲[3]);然后針對(duì)這些任務(wù)提出了DIAL(Differentiable Inter-Agent Learning)算法;最后,分析該算法是如何為這些智能體學(xué)習(xí)或者不學(xué)習(xí)通信協(xié)議的。本文考慮的基準(zhǔn)測試任務(wù)是完全合作的、部分可觀察的多智能體決策問題。所有的智能體只有一個(gè)共同的目標(biāo),那就是最大限度地獲得同樣折扣的獎(jiǎng)勵(lì)總和。雖然沒有一個(gè)智能體能夠觀察潛在的馬爾科夫狀態(tài),但是每一個(gè)智能體都能接收到一個(gè)與該狀態(tài)相關(guān)的私有觀察,除了采取影響環(huán)境的行為之外,每個(gè)智能體還可以通過離散的有限帶寬信道與其他的智能體進(jìn)行交流。由于部分可觀察性和有限的信道容量,智能體必須發(fā)現(xiàn)一種通信協(xié)議,使它們能夠協(xié)調(diào)自己的行為并完成任務(wù)。
本文給出的多智能體基準(zhǔn)測試任務(wù)是開關(guān)謎語游戲,該游戲具體描述如下:
一百名囚犯新被送進(jìn)監(jiān)獄。典獄長告訴他們,從明天開始,他們每個(gè)人都將被安置在一個(gè)孤立的牢房里,無法相互交流。每天,監(jiān)獄長都會(huì)隨機(jī)選擇一名囚犯,并將他安置在一個(gè)無人的院子里,院子里面只有一個(gè)帶有開關(guān)的燈泡。囚犯將能夠觀察燈泡的當(dāng)前狀態(tài)。如果他愿意,他可以通過院子里的開關(guān)開燈關(guān)燈。他還可以選擇告訴典獄長,他認(rèn)為所有囚犯都在某一時(shí)間訪問了該院子。如果他說的是正確的,那么所有囚犯都會(huì)被釋放,但如果是錯(cuò)誤的,所有囚犯都被處決。典獄長離開了,囚犯們聚在一起討論他們的命運(yùn)。他們能否就保證他們自由的協(xié)議達(dá)成一致的協(xié)議呢?
在上面的形式中,如果所有的智能體都已經(jīng)到過院子,則任務(wù)成功完成,獎(jiǎng)勵(lì)為1,否則為-1。所有智能體的目標(biāo)就是最大限度地獲得折扣獎(jiǎng)勵(lì),即智能體達(dá)到的最優(yōu)性能。智能體學(xué)習(xí)效率越高,訓(xùn)練的成功率越大,最優(yōu)性能就越好。開關(guān)謎語游戲帶來了重大的交流與學(xué)習(xí)協(xié)議挑戰(zhàn),因?yàn)橹悄荏w之間只有通過交流來達(dá)成一致的通信協(xié)議才能完成這個(gè)任務(wù)。
為了完成上面的基準(zhǔn)測試任務(wù),可以使用DIAL 方法來訓(xùn)練智能體。DIAL 允許在集中學(xué)習(xí)期間,智能體之間可以傳遞實(shí)值消息,從而將交流行為視為智能體之間的瓶頸連接。因?yàn)榭梢酝ㄟ^通信信道推動(dòng)梯度,從而產(chǎn)生一個(gè)系統(tǒng),該系統(tǒng)在智能體之間也是可以端到端訓(xùn)練的。在分散執(zhí)行期間[4-5],實(shí)值信息被離散化,并映射到任務(wù)允許的一組離散交流操作中,由于DIAL傳遞梯度是從一個(gè)智能體傳遞到另一個(gè)智能體當(dāng)中去的,所有這是一種內(nèi)在的深度學(xué)習(xí)的方法。其次,DIAL的端到端訓(xùn)練是跨智能體的,也就是在不同智能體間進(jìn)行端到端訓(xùn)練。讓梯度從一個(gè)智能體流向另一個(gè)智能體,給它們提供更豐富的反饋,然后通過試錯(cuò)來減少所需的學(xué)習(xí)量,并簡化有效協(xié)議的發(fā)現(xiàn)。DIAL 是最早提出的通過反向傳播與深度Q 網(wǎng)絡(luò)相結(jié)合進(jìn)行學(xué)習(xí)交流的方法,在每個(gè)時(shí)間步驟中,智能體生成的信息作為下一個(gè)時(shí)間步驟中其他智能體的輸入,然后梯度再通過通信信道從一個(gè)智能體反向流到另一個(gè)智能體,帶來豐富的反饋來訓(xùn)練智能體有效地學(xué)會(huì)交流。
在集中學(xué)習(xí)期間,一個(gè)智能體網(wǎng)絡(luò)的輸出與另一個(gè)智能體的網(wǎng)絡(luò)輸入之間的直接連接取代了交流行為。因此,雖然任務(wù)限制了對(duì)離散信息的交流,但是在學(xué)習(xí)過程中,智能體可以自由地互相發(fā)送真正有價(jià)值的信息。由于這些信息的功能與其他任何網(wǎng)絡(luò)的激活功能相同,梯度可以沿信道傳遞回來,從而允許在智能體之間進(jìn)行端到端的反向傳播。每個(gè)智能體由一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)輸出單個(gè)智能體的Q 值,以及為每個(gè)時(shí)間步驟傳輸?shù)男畔?,然后將生成的信息傳輸?shù)狡渌悄荏w,作為下一時(shí)間步驟中其他智能體的輸入。接收到的信息將嵌入智能體當(dāng)前的觀察和最后的行為,作為全局信息的表示。
DIAL 中的神經(jīng)網(wǎng)絡(luò)輸出兩種不同類型的值,如圖1 所示:(a)環(huán)境行為的Q 值Q(?)被饋送給行為選擇器。(b)傳遞給其他智能體的實(shí)值信息繞過行為選擇器,由DRU 來處理(DRU())。在集中學(xué)習(xí)過程中,DRU 規(guī)范了它。
圖1 DIAL—交流
該過程的表達(dá)式為:
同時(shí),在分散執(zhí)行過程中DRU 使它離散化,其中σ是添加到信道中的噪聲。圖1 顯示了梯度是如何在DIAL 中流動(dòng)的,DIAL 中Q的梯度鏈?zhǔn)腔贒QN 損失的,但是DIAL 中m的梯度項(xiàng)是從信息的接收者向發(fā)送者反向傳遞的誤差。使用這種跨智能體梯度來進(jìn)行訓(xùn)練比RIAL 中Qm的DQN 損失提供了更加豐富的訓(xùn)練信號(hào)。
在圖1 中,智能體1 在t時(shí)刻輸出的信息是繞過行為選擇器由DRU 處理,并作為連續(xù)值傳遞到下一個(gè)Q 神經(jīng)網(wǎng)絡(luò),也就是t+1 時(shí)刻的智能體2 中。與此同時(shí),梯度在智能體之間流動(dòng),從接收方向流向發(fā)送方。同時(shí),所有智能體梯度的更新可以通過整個(gè)網(wǎng)絡(luò)進(jìn)行高效地傳播。
雖然DQN 的誤差僅對(duì)所選的信息為非零,但是傳入的梯度是一個(gè) |m|維的,可包含更多信息的向量,這里的 |m|是m的長度。它還允許網(wǎng)絡(luò)來直接調(diào)整信息,以最大限度地減少下游的DQN 損失,減少對(duì)試錯(cuò)探索的需要來學(xué)習(xí)良好的協(xié)議。由于梯度在智能體之間流動(dòng),DIAL 還可以優(yōu)化信息的內(nèi)容,使之與隨后多次執(zhí)行的獎(jiǎng)勵(lì)相關(guān)。
當(dāng)我們把我們的分析局限于離散信息時(shí),DIAL 自然而然地處理連續(xù)的協(xié)議,因?yàn)樗鼈兪遣町愑?xùn)練的。同時(shí)DIAL 也自然而然地處理連續(xù)的信息空間,因?yàn)樗鼈冊(cè)诩袑W(xué)習(xí)期間無論如何都會(huì)被使用,DIAL 也可以自然而然地?cái)U(kuò)展到大的離散信息空間,因?yàn)樗鼘W(xué)習(xí)的是二進(jìn)制編碼。
DIAL 方法雖然可以很好地訓(xùn)練多智能學(xué)會(huì)交流,但是,DIAL 在信息交流架構(gòu)上采用的是單向環(huán)狀的交流架構(gòu),而且它的動(dòng)態(tài)規(guī)劃能力不是很好。在DIAL中,神經(jīng)網(wǎng)絡(luò)中的信息傳遞方式只能按照固有的智能體編號(hào)進(jìn)行傳遞:在1,2,3,…i,…3,2,1,的順序中往復(fù)循環(huán)[6]。當(dāng)智能體的個(gè)數(shù)增多時(shí),遍歷一次信息所需要的時(shí)間比較長,同時(shí),在這段時(shí)間內(nèi),如果智能體的狀態(tài)出現(xiàn)大幅度地改變,網(wǎng)絡(luò)就會(huì)失去實(shí)時(shí)性,從而失效了,這樣就無法高效地訓(xùn)練多智能體,這是因?yàn)橹悄荏w的交流方式是單向環(huán)狀交流方式。另外,如果單向環(huán)狀網(wǎng)絡(luò)上的某個(gè)點(diǎn)出現(xiàn)了問題,交流序列在后面的智能體將永遠(yuǎn)無法將信息傳遞給交流序列在前面的智能體,這樣就會(huì)導(dǎo)致智能體之間的交流徹底失效。同時(shí),DIAL 使得智能體之間的連接結(jié)構(gòu)比較不穩(wěn)定,不能很好地處理復(fù)雜的動(dòng)態(tài)環(huán)境問題,也承受不了網(wǎng)絡(luò)架構(gòu)上的破壞??偠灾?,DIAL 雖然可以很好地解決多智能體交流問題,但是在信息交流速度方面以及處理復(fù)雜的動(dòng)態(tài)環(huán)境問題方面,表現(xiàn)依然不是很好。所以本文在下面的內(nèi)容中通過借鑒BRNN[7]的思想對(duì)DIAL 進(jìn)行了改進(jìn),得出了雙向DIAL。
由于DIAL 在處理多智能體交流問題中仍然有些不足,例如交流信息的速度不是很快,智能體之間的連接結(jié)構(gòu)不是很穩(wěn)定,不能很好地處理復(fù)雜的動(dòng)態(tài)環(huán)境較問題,也無法承受神經(jīng)網(wǎng)絡(luò)架構(gòu)上的破壞。針對(duì)這些問題本章提出了用正反兩個(gè)方向的連接方式來對(duì)智能體進(jìn)行連接的方法。這個(gè)方法就是在原DIAL 的基礎(chǔ)上將單向的信息傳遞方式變成雙向的信息傳遞,使得單向DIAL 變成雙向DIAL。這樣智能體就可以進(jìn)行雙向信息交流,交流信息的速度就會(huì)變快,智能體之間的連接結(jié)構(gòu)也更加穩(wěn)定,在處理復(fù)雜的動(dòng)態(tài)環(huán)境問題上表現(xiàn)得更好。
DIAL 是在允許智能體之間傳遞信息的部分可觀察設(shè)置中引入的。智能體也被稱為獨(dú)立學(xué)習(xí)者,也可以找到學(xué)習(xí)獨(dú)立智能體的想法[8]。在DIAL 中,每個(gè)智能體由一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)輸出單個(gè)智能體的Q 值并為每個(gè)時(shí)間步驟傳送一條消息。然后將生成的信息轉(zhuǎn)移到其他智能體,并在下一個(gè)時(shí)間步中用作其他智能體的輸入。接收到的信息將嵌入智能體當(dāng)前的觀察結(jié)果和最后一個(gè)行動(dòng),作為全局信息的表示形式。獨(dú)立智能體之間的溝通是一種方法,可以緩解智能體間臭名昭著的非平穩(wěn)問題,因?yàn)樘荻戎辽贂?huì)在智能體之間流動(dòng)。對(duì)于雙向DIAL 的學(xué)習(xí),可以直觀地考慮通過受控智能體的數(shù)量的網(wǎng)絡(luò),然后通過時(shí)間反向傳播來計(jì)算反向梯度,這些梯度同時(shí)傳遞給每個(gè)智能體的策略函數(shù)和Q 函數(shù),這些梯度來自所有智能體的行為。換句話說,所有智能體獎(jiǎng)勵(lì)的梯度首先被反向傳遞來影響每個(gè)智能體的行為,同時(shí)這個(gè)智能體產(chǎn)生的梯度被進(jìn)一步傳遞回來更新參數(shù)。
圖2 顯示了雙向DIAL 的交流原理。在該圖中,智能體1 在t時(shí)刻輸出的信息繞過行為選擇器由DRU 處理,處理之后在t+1 時(shí)刻傳遞給智能體2。智能體2 輸出的信息m不僅經(jīng)由DRU 處理之后傳遞給了后面智能體3,同時(shí)也傳遞給了前面的智能體1。從信息流動(dòng)方向來看,是雙向流動(dòng)的。這也說明了智能體2 的輸入由智能體1 的輸出和智能體3(圖中未標(biāo)出)的輸出共同組成的。而梯度還是從后一個(gè)智能體反向流向前一個(gè)智能體,還是單向流動(dòng)的。
圖2 雙向DIAL—交流
從圖2 中可以還看出雙向DIAL 可以使用向前傳遞和向后傳遞的所有可用的輸入信息進(jìn)行訓(xùn)練,這也說明了在訓(xùn)練的時(shí)候雙向DIAL 可以用與單向DIAL基本相同的方法進(jìn)行訓(xùn)練。
本次仿真實(shí)驗(yàn)使用的是ε=0.5 的貪婪策略,折扣因子γ=1,每訓(xùn)練100 次目標(biāo)網(wǎng)絡(luò)重置一次,神經(jīng)網(wǎng)絡(luò)優(yōu)化器選擇了RMSProp 優(yōu)化器,動(dòng)量為0.95,學(xué)習(xí)率為5×10-4。
圖3 是3 個(gè)智能體20 次實(shí)驗(yàn)結(jié)果的指數(shù)加權(quán)平均值得出來的。從圖3 中可以看出,訓(xùn)練開始時(shí)DIAL的最優(yōu)標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)要高于雙向DIAL。當(dāng)訓(xùn)練到500次左右時(shí),雙向DIAL 的最優(yōu)標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)開始反超DIAL,并在后面的訓(xùn)練過程始終保持著領(lǐng)先。
圖4 是4 個(gè)智能體5 次實(shí)驗(yàn)結(jié)果的指數(shù)加權(quán)平均值得出來的。從圖4 中可以看出,當(dāng)訓(xùn)練到2000 次左右時(shí),雙向DIAL 開始優(yōu)于DIAL,并在后面的訓(xùn)練過程中始終保持著領(lǐng)先。圖3 和圖4 證明了雙向DIAL 在一定程度上確實(shí)可以提高訓(xùn)練的速度及成功率,在性能上更優(yōu)于DIAL。
圖3 智能體的個(gè)數(shù)n=3
圖4 智能體的個(gè)數(shù)n=4
本文針對(duì)在DIAL 方法存在的不足,即單向信息傳遞方式使得智能體之間的信息交流速度不是很快,學(xué)習(xí)效率不高。同時(shí)單向連接方式使得智能體之間的連接結(jié)構(gòu)比較不穩(wěn)定,不能很好地處理復(fù)雜的動(dòng)態(tài)環(huán)境問題,也承受不了網(wǎng)絡(luò)架構(gòu)上的破壞,這樣會(huì)導(dǎo)致訓(xùn)練的成功率不是很高。提出了引入BRNN 的思想將單向信息傳遞方式變成正反方向的雙向信息傳遞方式,智能體之間的連接方式也才從單向連接變成了正反方向的雙向連接,于是DIAL 就變成了雙向DIAL。最后是通過實(shí)驗(yàn)證明了雙向DIAL 的性能確實(shí)比DIAL 的性能更好,因?yàn)殡p向DIAL 進(jìn)一步提高了訓(xùn)練的速度及成功率。