鄧輔秦,官檜鋒,譚朝恩,付蘭慧,王宏民,林天麟,張建民*
(1.五邑大學(xué) 智能制造學(xué)部,廣東 江門 529000;2.香港中文大學(xué)(深圳)深圳市人工智能與機(jī)器人研究院,廣東 深圳 518000;3.深圳市杉川機(jī)器人有限公司,廣東 深圳 518000)
隨著時代的進(jìn)步,電商、物流、戶外搜索等行業(yè)的大力發(fā)展越來越離不開多機(jī)器人系統(tǒng),而多機(jī)器人路徑規(guī)劃(Multi-Agent Path Finding,MAPF)是多機(jī)器人系統(tǒng)的重要組成部分[1]。MAPF 旨在為全部機(jī)器人規(guī)劃出少阻塞甚至無阻塞的一組路徑,一些基于圖節(jié)點結(jié)構(gòu)的搜索方法如A*、基于碰撞的搜索(Conflict Based Search,CBS)、D*Lite 在簡單、擁擠程度低的非動態(tài)環(huán)境具有較高的求解效率[2-6]。然而,在一些特定的場景(如過道擁擠的動態(tài)倉儲環(huán)境、災(zāi)后搜索等障礙物無規(guī)則分布的復(fù)雜環(huán)境),上述方法存在兩個主要問題:1)機(jī)器人難以對周圍的動態(tài)環(huán)境建模;2)機(jī)器人因為缺少信息交互而規(guī)劃出不協(xié)調(diào)的動作策略。
隨著深度學(xué)習(xí)在圖像領(lǐng)域的快速發(fā)展,結(jié)合深度學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)方法能夠使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等圖像處理技術(shù)對動態(tài)環(huán)境進(jìn)行圖像化建模,此外,基于神經(jīng)網(wǎng)絡(luò)支持多維信息輸入的特性,設(shè)計進(jìn)行信息交互的神經(jīng)網(wǎng)絡(luò)架構(gòu),故而在一系列決策任務(wù)中獲得顯著的成功,如游戲領(lǐng)域和多機(jī)器人路徑規(guī)劃領(lǐng)域[7-9]。雖然每個機(jī)器人能夠利用CNN 對其視野進(jìn)行特征提取,但是該網(wǎng)絡(luò)缺乏高效的信息傳遞功能。
有效的溝通是合作成功的關(guān)鍵,近年來,一些方法如VDN(Value-Decomposition Network)[10]、QMIX[11-12]、QTRAN[13]學(xué)習(xí)每個機(jī)器人的獨立Q 函數(shù),并使用混合網(wǎng)絡(luò)將這些局部狀態(tài)行動值(Q 值)組合成全局狀態(tài)行動值,進(jìn)行一定的信息傳遞實現(xiàn)對動作策略的優(yōu)化。上述方法屬于集中式的方法,能融合所有機(jī)器人的信息參與決策,但也會帶來冗余的信息,增加方法計算量。因此,如何為每個機(jī)器人提供本身所需的精準(zhǔn)信息并降低網(wǎng)絡(luò)計算量,成為重要研究方向。
為了降低多機(jī)器人路徑規(guī)劃的阻塞率,本文基于Actor-Critic 架構(gòu)提出一種分布式請求與應(yīng)答通信機(jī)制與局部注意力機(jī)制的多機(jī)器人深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃方法(Distributed Communication and local Attention based Multi-Agent Path Finding,DCAMAPF)。針對機(jī)器人間信息傳遞效率不高、難以精確獲得所需信息的問題,本文設(shè)計一種基于請求與應(yīng)答機(jī)制的Actor 網(wǎng)絡(luò)。如圖1 所示,以3 號機(jī)器人為例,3 號機(jī)器人請求視野范圍(灰色)其他機(jī)器人的局部觀測和動作信息,并主動獲取動態(tài)障礙物的相對位置信息,其中2、8、9 號機(jī)器人及時反饋信息。5 號機(jī)器人由于距離較遠(yuǎn)、傳輸遲延等導(dǎo)致信息傳輸超時,而本文的Actor 網(wǎng)絡(luò)能自動屏蔽傳輸超時帶給CNN 的影響。與此同時,3 號機(jī)器人也會主動感知視野內(nèi)的動態(tài)障礙物,獲得其動態(tài)障礙物的相對位置,作為本機(jī)器人局部觀測信息的一部分。最終,將應(yīng)答的信息和本機(jī)信息一起輸入Actor 網(wǎng)絡(luò),進(jìn)而規(guī)劃出3 號機(jī)器人的動作策略。針對全局注意力機(jī)制帶來的冗余信息的問題,本文提出基于局部注意力機(jī)制的Critic 網(wǎng)絡(luò),該網(wǎng)絡(luò)能將注意力權(quán)重動態(tài)分配給視野內(nèi)的其他機(jī)器人,降低計算量。
圖1 請求與應(yīng)答機(jī)制(以3號機(jī)器人為例)Fig.1 Request-response mechanism(taking robot No.3 as example)
相較于最新的路徑規(guī)劃方法如基于進(jìn)化方法與強(qiáng)化學(xué)習(xí)的多機(jī)器人路徑規(guī)劃(Multi-Agent Path Planning with Evolutionary Reinforcement learning,MAPPER)[14]、動態(tài)環(huán)境下基于注意力機(jī)制與BicNet 通信模塊的多機(jī)器人路徑規(guī)劃方法(Attention and BicNet based MAPPER,AB-MAPPER)[15],本文的主要工作為:
1)設(shè)計一種基于請求與應(yīng)答通信機(jī)制的Actor 網(wǎng)絡(luò),機(jī)器人請求視野內(nèi)其他機(jī)器人的狀態(tài)信息與最新的動作信息,使機(jī)器人能獲得精確的局部觀測-動作信息,規(guī)劃出協(xié)調(diào)的動作,提高機(jī)器人的避障能力。
2)設(shè)計一種基于局部注意力機(jī)制的Critic網(wǎng)絡(luò),機(jī)器人能夠?qū)⒆⒁饬?quán)重動態(tài)分配給視野內(nèi)的其他機(jī)器人,相較于全局注意力網(wǎng)絡(luò),本文的Critic 網(wǎng)絡(luò)縮小注意力權(quán)重的分配范圍,降低注意力權(quán)重的計算量,將權(quán)重分配給更該注意的周圍機(jī)器人,提高策略優(yōu)化的效率,減少顯卡緩存的占用量。
3)與傳統(tǒng)動態(tài)路徑規(guī)劃方法D*Lite、最新的分布式強(qiáng)化學(xué)習(xí)方法MAPPER 和最新的集中式強(qiáng)化學(xué)習(xí)方法AB-MAPPER 相比:DCAMAPF 在離散初始化環(huán)境,阻塞率均值約減小了6.91、4.97 和3.56 個百分點。在集中區(qū)域初始化環(huán)境下能更高效地避免發(fā)生阻塞,阻塞率均值約減小了15.86、11.71、5.54 個百分點,并降低占用的計算緩存。
溝通有助于學(xué)習(xí)他人的經(jīng)驗并傳遞知識,以更好地在團(tuán)隊中工作,是形成智能的一個基本要素。在多機(jī)器人強(qiáng)化學(xué)習(xí)中,機(jī)間通信允許多個機(jī)器人通過合作完成共同目標(biāo)。在部分可觀察的環(huán)境中,多機(jī)器人能夠通過通信分享它們從觀察視野中獲得的信息,規(guī)劃出更優(yōu)的策略。
近年來的深度強(qiáng)化學(xué)習(xí)方法普遍基于Actor-Critic 架構(gòu),該架構(gòu)由兩部分組成:Actor 網(wǎng)絡(luò)負(fù)責(zé)規(guī)劃動作策略;Critic網(wǎng)絡(luò)負(fù)責(zé)以Q 值的形式評估Actor 規(guī)劃出的動作策略,機(jī)器人每執(zhí)行完一次動作策略,都會進(jìn)行一次策略的優(yōu)化,因此能快速提高方法收斂的速度。
Liu等[14]提出了MAPPER,每個機(jī)器人用圖像化建模的方式對視野內(nèi)的環(huán)境信息進(jìn)行表征?;谶M(jìn)化方法在迭代一定次數(shù)后將挑選一個最大獎勵值的機(jī)器人所屬的網(wǎng)絡(luò)模型替換一些獎勵值低的機(jī)器人網(wǎng)絡(luò)模型,在一定程度上進(jìn)行了信息傳遞,該機(jī)制使該方法在動態(tài)擁擠環(huán)境下的路徑規(guī)劃效率比近年較為經(jīng)典的方法基于強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)的路徑規(guī)劃方法(Pathfinding via Reinforcement and Imitation Multi-Agent Learning-Lifelong,PRIMAL2)方法[9]更高,因此,MAPPER 成為最新的多機(jī)器人強(qiáng)化學(xué)習(xí)路徑規(guī)劃方法,也是本文的對比方法之一。
通過替換網(wǎng)絡(luò)模型屬于一種規(guī)劃后信息交互的模式,這雖然能提高方法的收斂速度,但卻不能使機(jī)器人在規(guī)劃動作策略前獲得更精確的信息,不能為機(jī)器人規(guī)劃出阻塞率更低的動作策略。
多機(jī)器人強(qiáng)化學(xué)習(xí)中大多數(shù)現(xiàn)有的通信工作都集中于廣播式通信,即將每個機(jī)器人的信息廣播到所有其他或預(yù)定義的機(jī)器人 。Sukhbaatar 等[16]提出了 CommNet(Communication Neural Net),每個機(jī)器人需要在一個公共的通道傳播一個通信向量,通過這個通道各自接收其他機(jī)器人匯總的通信向量。在合作任務(wù)中,該網(wǎng)絡(luò)提高了機(jī)器人的協(xié)作能力。然而,CommNet 對所有機(jī)器人的通信向量做算術(shù)平均操作,這意味著它將不同機(jī)器人的信息看作等價。由于CommNet 的公共通道將所有機(jī)器人的信息傳達(dá)給每一個機(jī)器人,每個機(jī)器人被動接收大量冗余信息,因此不適用于解決局部路徑?jīng)_突的路徑規(guī)劃任務(wù)。類似地,Peng 等[17]提出了基于雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經(jīng)網(wǎng)絡(luò)的 BicNet(Multiagent Bidirectionally-coordinated Nets)通信網(wǎng)絡(luò),與CommNet 要進(jìn)行信息聚合不同,BicNet 是一種集中式的網(wǎng)絡(luò),信息只在Actor 和Critic 網(wǎng)絡(luò)內(nèi)流通,不會聚合,所有接入BicNet 的機(jī)器人都能接收其他機(jī)器人的信息。此外,LSTM 的門控機(jī)制使它能自主決定是否接收傳遞的信息以規(guī)劃動作,提高了通信的效率。Kim 等[18]提出了SchedNet 方法,該方法在Actor網(wǎng)絡(luò)上搭建了一個調(diào)度器模塊,該調(diào)度器模塊學(xué)習(xí)如何對機(jī)器人的局部觀測賦予權(quán)重進(jìn)而在有限的通信帶寬下挑選最有利的局部觀測信息規(guī)劃動作。
上述隸屬于集中式的網(wǎng)絡(luò)模型雖然在一定程度上解決了機(jī)器人的通信問題,但普遍需要所有機(jī)器人的局部觀測信息作為輸入,導(dǎo)致方法難以在較多的冗余信息中甄別強(qiáng)相關(guān)信息,缺乏靈活性。隨著機(jī)器人數(shù)的增加,集中式方法難以從全局共享的信息中區(qū)分有助于合作決策的有價值信息[19]。
為了提高通信的靈活性,更精準(zhǔn)地獲取其他機(jī)器人的相關(guān)信息,Jiang 等[19]提出了ATOC(ATtentional Communication)方法,該方法的Actor 網(wǎng)絡(luò)部分通過一個注意力模塊對視野內(nèi)的其他機(jī)器人賦予權(quán)重,決定該機(jī)器人是否允許通信,從而選擇相應(yīng)的協(xié)作者。在選擇協(xié)作者時,通信發(fā)起者依據(jù)距離依次在沒有被選擇過的機(jī)器人、別的發(fā)起者的協(xié)作者、別的發(fā)起者三個類別的機(jī)器人中選擇一個作為協(xié)作者,獲得了較為精準(zhǔn)的信息,提高了通信的效率。類似地,有針對性的通信是提高通信效率的關(guān)鍵,Das 等[20]提出了TarMAC(Targeted Multi-Agent Communication)方法,該方法的Actor 網(wǎng)絡(luò)使用了注意力機(jī)制,信息發(fā)送方發(fā)送通信向量,在接收端的每個機(jī)器人會預(yù)測一個詢問向量,詢問向量將與所有通信向量進(jìn)行點乘操作,其結(jié)果用歸一化處理之后采用Softmax函數(shù)得到每個通信向量的注意力權(quán)重,當(dāng)通信向量與詢問向量相似時,注意力權(quán)重則比較高,實現(xiàn)有針對性的通信。Ding 等[21]提出了I2C(Individually Inferred Communication)方法,該方法的Actor 部分包含一個輸出置信度的優(yōu)先級網(wǎng)絡(luò),該優(yōu)先級網(wǎng)絡(luò)決定視野內(nèi)哪些機(jī)器人需要進(jìn)行通信,隨后,通信發(fā)起者請求獲取被賦予置信度機(jī)器人的局部觀測信息,通信接收方應(yīng)答發(fā)起者,實現(xiàn)點對點的通信,進(jìn)一步提高通信效率。受I2C 網(wǎng)絡(luò)啟發(fā),本文的Actor 網(wǎng)絡(luò)雖基于請求與應(yīng)答機(jī)制,但與上述方法不同,本文的Actor 網(wǎng)絡(luò)不僅基于請求與應(yīng)答機(jī)制獲取局部觀測信息,還會獲取其他機(jī)器人最新的動作信息,并在規(guī)劃動作策略前參考其他機(jī)器人的動作信息,因此能降低機(jī)器人的阻塞率,提高路徑規(guī)劃的效率。
策略的評估和優(yōu)化是提高機(jī)器人學(xué)習(xí)能力的關(guān)鍵,在Actor-Critic 架構(gòu)中,Critic 網(wǎng)絡(luò)用于策略的評價。Parnika等[22]設(shè)計的基于注意力機(jī)制的Critic 網(wǎng)絡(luò)將注意力權(quán)重分配到所有機(jī)器人的局部觀測和動作信息上,并學(xué)習(xí)如何將較大的權(quán)重分配給需要關(guān)注的機(jī)器人。在AB-MAPPER 中,也使用基于注意力機(jī)制的Critic 網(wǎng)絡(luò)學(xué)習(xí)如何對機(jī)器人的局部觀測信息和動作信息賦予權(quán)重[15]。然而上述方法使用的是集中式的方法架構(gòu),每個機(jī)器人基于Critic 網(wǎng)絡(luò)進(jìn)行策略評判時,需要其余所有機(jī)器人的局部觀測和動作信息,在機(jī)器人數(shù)較少時,注意力權(quán)重的分配范圍較小,注意力權(quán)重不會被稀釋;然而,隨著機(jī)器人數(shù)的增加,集中式網(wǎng)絡(luò)被輸入更多信息,注意力權(quán)重的分配范圍也會逐漸擴(kuò)大,導(dǎo)致注意力權(quán)重被稀釋得越來越小,網(wǎng)絡(luò)難以區(qū)分哪些信息更需關(guān)注,不利于策略的優(yōu)化。
事實上,只有周圍其他機(jī)器人的動作才會影響到當(dāng)前機(jī)器人的決策,其他距離較遠(yuǎn)的機(jī)器人的局部觀測信息和動作信息不僅對當(dāng)前機(jī)器人的決策沒有幫助,反而會帶來冗余信息,干擾當(dāng)前機(jī)器人的決策和策略優(yōu)化。
為了降低冗余信息的干擾,Liu 等[23]在池化層與卷積層之間引入局部注意力網(wǎng)絡(luò),有效增強(qiáng)了抑制無用特征的能力。類似地,本文為了降低冗余信息的干擾,基于請求與應(yīng)答機(jī)制通信機(jī)制與局部注意力機(jī)制,將注意力權(quán)重只分配給應(yīng)答成功的機(jī)器人,縮小Critic 網(wǎng)絡(luò)中注意力權(quán)重的分配范圍,不僅避免了冗余信息的干擾,還利用具有較強(qiáng)相關(guān)性機(jī)器人的信息參與策略優(yōu)化,減少了顯卡緩存的占用量,提高了路徑規(guī)劃的效率。
本文將機(jī)器人與環(huán)境的交互過程建模為部分可觀測馬爾可夫決策過程(S,A,P,R,O,M,γ),其中S是狀態(tài)空間,A是動作空間,P:S×A×S→[0,1]表示狀態(tài)轉(zhuǎn)移概率,R:S×A→R為獎勵函數(shù),O代表局部觀測,M代表狀態(tài)轉(zhuǎn)移概率矩陣,γ是獎勵折扣因子[24-25]。類似PRIMAL2和MAPPER 中的環(huán)境建模方法,本文將環(huán)境的局部觀測由3 個有限視野(15×15 網(wǎng)格大小,如圖1 淺灰色區(qū)域)的觀測圖像組成,分別對應(yīng)圖2(a)中每個機(jī)器人的局部觀測(Observation)Oi由3 個矩陣構(gòu)成。第1 個矩陣存儲當(dāng)前觀察到的靜態(tài)障礙物、周圍其他機(jī)器人和動態(tài)障礙物的相對位置,這些位置由不同的值表示;第2 個矩陣記錄了周圍其他機(jī)器人和動態(tài)障礙物的軌跡,對時間序列信息進(jìn)行了編碼;第3 個矩陣記錄了當(dāng)前機(jī)器人基于靜態(tài)環(huán)境圖通過A*方法規(guī)劃的局部參考路徑。Maxpool為最大池化層,F(xiàn)CN(Fully Convolutional Network)為全連接網(wǎng)絡(luò),MLP(Multilayer Perceptron)為多層感知機(jī),Dummy 為反饋動作信息失敗的機(jī)器人設(shè)置的無效動作向量,以保證網(wǎng)絡(luò)能夠正常運算。由于Actor-Critic 框架可以幫助強(qiáng)化學(xué)習(xí)方法通過當(dāng)前策略的梯度有效地更新策略,適用于路徑規(guī)劃中的實時決策任務(wù)[26],因此本文使用Actor-Critic 架構(gòu)。
圖2 DCAMAPF網(wǎng)絡(luò)架構(gòu)Fig.2 Network architecture of DCAMAPF
基于集中式網(wǎng)絡(luò)架構(gòu)的方法在獲取所有接入該網(wǎng)絡(luò)的機(jī)器人信息后,才能統(tǒng)一為所有機(jī)器人進(jìn)行信息的數(shù)值計算,該類方法在通信時延小、機(jī)器人數(shù)較少的情況下具有能與其他機(jī)器人充分傳遞信息的優(yōu)勢;然而,隨著機(jī)器人數(shù)的增多,信息流通存在計算量大、冗余信息多、無法為每個機(jī)器人精準(zhǔn)獲取所需信息等問題。分布式網(wǎng)絡(luò)無須基于所有機(jī)器人的信息參與決策,每個機(jī)器人都有獨屬自己的方法網(wǎng)絡(luò),能靈活地進(jìn)行決策和優(yōu)化,因此,將方法網(wǎng)絡(luò)模型進(jìn)行分布式設(shè)計是一個可行方向。
本文方法主要分為三步:首先,基于請求與應(yīng)答機(jī)制,機(jī)器人對視野內(nèi)的其他機(jī)器人發(fā)送請求,請求它們的局部觀測以及最新動作信息,其他機(jī)器人在限定的時間內(nèi)回應(yīng);其次,該機(jī)器人的Actor 網(wǎng)絡(luò)分別用兩種不同維度的CNN 對反饋的局部觀測信息和動作信息進(jìn)行特征提取,進(jìn)而規(guī)劃動作;最后,對于每一個機(jī)器人,基于局部注意力機(jī)制的Critic 網(wǎng)絡(luò)在請求與應(yīng)答機(jī)制下將注意力權(quán)重動態(tài)分配到視野內(nèi)成功應(yīng)答本機(jī)器人的其他機(jī)器人局部觀測-動作信息上。
本文將Actor 網(wǎng)絡(luò)進(jìn)行分布式設(shè)計,機(jī)器人之間的信息傳遞采用請求與應(yīng)答機(jī)制,如圖2(a)所示,具體在Actor 網(wǎng)絡(luò)的改進(jìn)如下:1)每個機(jī)器人在規(guī)劃動作前先獲取在本機(jī)器人視野里其他機(jī)器人的編號,并向它發(fā)送請求,期望獲取它的局部觀測信息(三維矩陣)和動作信息(a)i。2)視野內(nèi)的機(jī)器人接收請求,并作出應(yīng)答,反饋自己的局部觀測信息和動作信息。3)在規(guī)定時間內(nèi),機(jī)器人接收應(yīng)答成功的機(jī)器人的局部觀測信息和動作信息,結(jié)合本身的局部觀測信息一并輸入到卷積神經(jīng)網(wǎng)絡(luò),最終規(guī)劃出本機(jī)器人的動作策略?;谡埱笈c應(yīng)答機(jī)制的通信機(jī)制,既能捕獲周圍機(jī)器人的局部觀測信息以及動作信息、又不需要像集中式網(wǎng)絡(luò)匯集所有信息才能規(guī)劃策略,因此能提高信息傳遞的效率、利用更加精準(zhǔn)的信息規(guī)劃出更優(yōu)的動作策略。
在MAPPER 方法的Critic 網(wǎng)絡(luò)中,每個機(jī)器人只基于自己的局部觀測信息和動作信息進(jìn)行評判,缺少與其他機(jī)器人進(jìn)行信息傳遞,難以對機(jī)器人的策略進(jìn)行充分的評判。在AB-MAPPER 中,每個機(jī)器人使用基于注意力機(jī)制的Critic 網(wǎng)絡(luò)將注意力權(quán)重分配到所有機(jī)器人的局部觀測信息和動作信息中,評判出Q 值,意味著注意力機(jī)制的分配范圍是全部機(jī)器人,換言之,該方法容易增加一些冗余信息,不利于策略的優(yōu)化。此外,為了對局部觀測信息和動作信息進(jìn)行編碼,也需要更多的編碼網(wǎng)絡(luò),這導(dǎo)致Critic 網(wǎng)絡(luò)承擔(dān)更大的計算量以及需要更多的緩存。
注意力機(jī)制可以被描述成可查詢的鍵-值記憶模型,如圖3 所示,有3 個要素query(q)、key(k)、value(v)[22],這3 個要素實質(zhì)上都是矩陣,通過式(1)計算出注意力權(quán)重矩陣ω:
圖3 注意力機(jī)制Fig.3 Attention mechanism
其中dk是k的維度。
本文設(shè)計了更加靈活的局部注意力網(wǎng)絡(luò),如圖2(b)所示,本文以3 號機(jī)器人為例,3 號機(jī)器人只請求在其視野范圍內(nèi)的其他機(jī)器人(2、5、8、9)最新的局部觀測信息和動作信息;隨后,在指定時間間隔內(nèi),其他機(jī)器人反饋回來的局部觀測信息和動作信息會將輸入單獨的多層感知機(jī)(MultiLayer Perceptron,MLP)進(jìn)行編碼,得到狀態(tài)動作編碼(e2,e8,e9)。在本文中,k和v是狀態(tài)動作編碼即本文的e,q是狀態(tài)編碼即本文的F。每個注意力頭都是自注意力網(wǎng)絡(luò),X3是vj的權(quán)重乘積和,j是成功應(yīng)答3 號機(jī)器人的其他機(jī)器人編號集合,如式(2)所示:
ω3是3 號機(jī)器人分配給2、8、9 號機(jī)器人的注意力權(quán)重,如式(3)所示:
其中:F3是3 號機(jī)器人的狀態(tài)編碼。f是一層全連接網(wǎng)絡(luò),h是多層感知機(jī),最終,Critic 網(wǎng)絡(luò)對3 號機(jī)器人的評判值如式(4)所示:
與MAPPER 相同,本文使用Actor-Critic 架構(gòu)下最新的優(yōu)勢Actor-Critic 方法A2C(Advantage Actor-Critic),相較于原始的Actor-Critic 方法新增了一項優(yōu)勢函數(shù)Advantage,在本文中,具體如式(5)所示,該函數(shù)作為衡量所規(guī)劃出動作策略的優(yōu)劣,如果函數(shù)值大于零,則策略優(yōu):
R3是3 號機(jī)器人執(zhí)行a3后環(huán)境反饋的獎懲值,γ是獎勵折扣因子。3 號機(jī)器人的Actor 網(wǎng)絡(luò)損失函數(shù)如式(6)所示:
Critic 網(wǎng)絡(luò)的損失函數(shù)如式(7)所示:
為驗證本文方法DCAMAPF 求解多機(jī)器人路徑規(guī)劃問題的性能,本文將傳統(tǒng)的基于圖節(jié)點搜索方法D*Lite、深度強(qiáng)化學(xué)習(xí)方法MAPPER 和集中式強(qiáng)化學(xué)習(xí)方法AB-MAPPER作為對比方法。實驗環(huán)境如圖4 所示,圖4(a)、(b)為20×20維度,35 個機(jī)器人(藍(lán)色紅字)30 個動態(tài)障礙物(人形),分別模擬機(jī)器人在災(zāi)后搜索時集中初始化并向四周散開的場景和機(jī)器人災(zāi)后搜索場景散開后遇到無規(guī)則障礙物分布的場景;(c)、(d)為24×30 維度,35 個機(jī)器人15 個動態(tài)障礙物,分別模擬機(jī)器人在倉儲環(huán)境集中初始化的并向四周散開的場景和機(jī)器人散開后遇到規(guī)則障礙物分布的倉儲場景。形狀較大的灰色方塊為靜態(tài)障礙物,黑色方塊為目標(biāo)點,此外,本文在圖4(a)做了消融實驗,對比方法主要為最新的深度強(qiáng)化學(xué)習(xí)方法 MAPPER、MAPPER+local Attention、ABMAPPER。所有實驗在操作系統(tǒng)為Linux、編程語言為Python、深度學(xué)習(xí)依賴庫為PyTorch 的環(huán)境下進(jìn)行。
圖4 實驗環(huán)境Fig.4 Experimental environments
為了公平比較,將在指定步數(shù)內(nèi)成功抵達(dá)目標(biāo)點的機(jī)器人數(shù)占機(jī)器人總數(shù)的比例定義為成功率,將路徑規(guī)劃途中為避免發(fā)送碰撞而選擇自主阻塞的機(jī)器人占機(jī)器人總數(shù)的比例定義為阻塞率。本文設(shè)置訓(xùn)練迭代次數(shù)8 000,在方法收斂后,每個環(huán)境進(jìn)行100 次路徑規(guī)劃任務(wù)測試,以獲得成功率和阻塞率均值。此外,本文統(tǒng)計了每個機(jī)器人占用GPU的緩存。
本文使用與MAPPER 相同的獎勵機(jī)制,總的獎勵值為R=rs+rc+rο+τrf+rg,其中rs、rc、rο分別是執(zhí)行動作、發(fā)生阻塞、發(fā)生震蕩的獎懲值,類似MAPPER,本文也用全局規(guī)劃方法A*在忽略動態(tài)障礙物的情況下生成局部參考路徑S,rf用于懲罰機(jī)器人當(dāng)前位置pa偏離參考路徑S中的路徑點p,τ是偏離獎懲因子設(shè)置為0.3,rg是抵達(dá)目標(biāo)點的獎懲值。獎勵折扣因子γ被設(shè)置為0.99,對比方法以及本文方法的獎勵機(jī)制如表1 所示。DCAMAPF 方法Actor 網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.000 3,Critic 網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.000 03,進(jìn)化方法迭代次數(shù)為100,Critic 網(wǎng)絡(luò)的軟更新參數(shù)設(shè)置為0.001。
表1 獎勵機(jī)制Tab.1 Reward mechanism
實驗結(jié)果如表2 所示,在圖4 的4 種環(huán)境中,DCAMAPF的阻塞率均值比AB-MAPPER、MAPPER 與D*Lite 低,成功率均值比其他三種方法高。這是因為D*Lite 不能對周圍動態(tài)障礙物建模;MAPPER 雖然能對動態(tài)環(huán)境進(jìn)行建模,但無法進(jìn)行有效的信息傳遞;而AB-MAPPER 兩者都考慮,但所需處理的信息量過大,無法精準(zhǔn)、高效地傳遞信息,此外,上述方法均沒有利用其他機(jī)器人的動作信息規(guī)劃動作策略,而DCAMAPF 不僅能對動態(tài)環(huán)境進(jìn)行圖像化建模,也能基于請求與應(yīng)答機(jī)制、局部注意力機(jī)制高效傳遞信息。
表2 四種方法在圖4不同環(huán)境阻塞率均值和成功率均值比較 單位:%Tab.2 Comparison of mean blocking rate and mean success rate among four methods in different environments in Fig.4 unit:%
D*Lite 在擴(kuò)展的節(jié)點時如果新的障礙物占據(jù)路徑擴(kuò)展節(jié)點,則更新啟發(fā)式值,然后執(zhí)行新的動作策略避開新障礙物。然而,在執(zhí)行動作之前更新的啟發(fā)式值不能有效引導(dǎo)機(jī)器人避開實時移動的障礙物,這是因為占據(jù)其擴(kuò)展節(jié)點的障礙物是動態(tài)移動的,D*Lite 更新的節(jié)點信息只能確保規(guī)劃出的動作不會碰撞原占據(jù)拓展節(jié)點的障礙物,也無法利用動態(tài)障礙物、其他機(jī)器人的信息規(guī)劃動作,這是D*Lite 碰撞率高的原因。
MAPPER 的阻塞率低于D*Lite,這是因為MAPPER 的局部觀測信息中的第二維、第三維矩陣包含周圍動態(tài)障礙物的軌跡信息和當(dāng)前機(jī)器人的局部參考路徑信息,利用到了其他機(jī)器人的局部觀測信息規(guī)劃動作策略,一定程度上協(xié)助了機(jī)器人避開障礙物。
AB-MAPPER 阻塞率均值皆比MAPPER 小,這是因為AB-MAPPER 在執(zhí)行動作之前,所有機(jī)器人的局部觀測信息會在Bi-LSTM 神經(jīng)網(wǎng)絡(luò)內(nèi)部流通,傳遞信息。在執(zhí)行完動作后,結(jié)合全局注意力機(jī)制的Critic 網(wǎng)絡(luò)分配注意力權(quán)重給所有機(jī)器人的局部觀測信息和動作信息,評判動作策略。雖然AB-MAPPER 解決了通信的問題,但是集中式架構(gòu)需要處理更多的信息,所有機(jī)器人的局部觀測信息需要在網(wǎng)絡(luò)內(nèi)部流通,信息量大,AB-MAPPER 的Bi-LSTM 也難以精確地甄別哪些機(jī)器人的信息是當(dāng)前機(jī)器人所需要的。此外,集中式網(wǎng)絡(luò)在同一時刻為所有機(jī)器人規(guī)劃動作,這導(dǎo)致每個機(jī)器人占用的方法網(wǎng)絡(luò)資源、顯卡內(nèi)存大。
DCAMAPF 方法是分布式架構(gòu),每個機(jī)器人都有自己的方法網(wǎng)絡(luò),Actor 網(wǎng)絡(luò)能基于請求與應(yīng)答通信機(jī)制獲取視野內(nèi)其他機(jī)器人的局部觀測和動作信息,規(guī)劃出協(xié)調(diào)的動作策略。在進(jìn)行策略優(yōu)化時,Critic 網(wǎng)絡(luò)基于局部注意力機(jī)制,只將注意力權(quán)重分配給應(yīng)答成功的機(jī)器人,將注意力應(yīng)用于具有較強(qiáng)相關(guān)性的機(jī)器人,降低了信息冗余,利用了更精準(zhǔn)的信息,更有利于策略的優(yōu)化。機(jī)器人集中區(qū)域初始化會使環(huán)境變得擁擠,信息傳遞的重要性逐漸凸顯。如表2 所示,相較于D*Lite、MAPPER、AB-MAPPER 方法,DCAMAPF 在離散區(qū)域初始化環(huán)境(圖4(b)和圖4(d)),阻塞率均值約減小6.91、4.97、3.56 個百分點;在集中區(qū)域初始化環(huán)境(圖4(a)和圖4(c)),阻塞率均值約縮小了15.86、11.71、5.54 個百分點。可見,本文方法在集中區(qū)域初始化環(huán)境的阻塞率均值比在離散區(qū)域初始化的大,能更高效地避免發(fā)生阻塞。
為了凸顯本文方法的優(yōu)勢,本文在圖4(a)環(huán)境進(jìn)行消融實驗,如圖5 所示,DCAMAPF 在視野范圍內(nèi)基于請求與應(yīng)答機(jī)制獲取必要的局部觀測信息和動作信息,能精確且有效地傳遞信息,基于較強(qiáng)相關(guān)性的信息規(guī)劃出協(xié)調(diào)的動作策略,有效避免阻塞。
圖5 消融實驗方法訓(xùn)練曲線Fig.5 Training curves of ablation experiment methods
如圖5 中MAPPER+local Attention 曲線所示,局部注意力機(jī)制將注意力權(quán)重分配給視野內(nèi)成功應(yīng)答機(jī)器人的局部觀測信息和動作信息,避免了其他冗余信息的干擾,能更有效優(yōu)化策略。此外,本文還統(tǒng)計了每個機(jī)器人基于以上深度強(qiáng)化學(xué)習(xí)方法所占用的顯卡緩存,如表3 所示,基于DCAMAPF的每個機(jī)器人占用的緩存也比集中式方法AB-MAPPER 低,因此DCAMAPF 適用于求解不同動態(tài)環(huán)境下的多機(jī)器人路徑規(guī)劃任務(wù)。
表3 三種深度強(qiáng)化學(xué)習(xí)方法每個機(jī)器人所需顯卡緩存 單位:MBTab.3 Graphic card cache required by each robot for three deep reinforcement learning methods unit:MB
針對已有路徑規(guī)劃方法面對動態(tài)環(huán)境中的MAPF 問題阻塞率高的問題,本文采用Actor-Critic 強(qiáng)化學(xué)習(xí)框架進(jìn)行解決。同時,為了更加靈活地獲取精準(zhǔn)的信息、規(guī)劃出協(xié)調(diào)的動作策略,本文提出DCAMAPF。首先機(jī)器人請求獲取視野內(nèi)其他機(jī)器人的局部觀測信息和動作信息,接著將應(yīng)答成功的機(jī)器人信息以及本身的局部觀測信息和動作信息輸入多通道CNN 的Actor 網(wǎng)絡(luò),從而規(guī)劃出協(xié)調(diào)的動作策略。同樣地,在Critic 網(wǎng)絡(luò),將注意力權(quán)重動態(tài)地分配給應(yīng)答成功的機(jī)器人的局部觀測信息和動作信息。分布式的DCAMAPF 方法不僅使用了更少、更精準(zhǔn)的信息規(guī)劃更協(xié)調(diào)的動作,而且占用的顯卡內(nèi)存比集中式方法更少,相較于D* Lite、Mapper、AB-MAPPER 方法,DCAMAPF 在離散初始化環(huán)境,阻塞率均值約縮小了6.91、4.97、3.56 個百分點。在集中初始化環(huán)境下能更高效地避免發(fā)生阻塞,阻塞率均值約減小了15.86、11.71、5.54 個百分點。因此,所提方法確保了路徑規(guī)劃的效率,適用于求解不同動態(tài)環(huán)境下的多機(jī)器人路徑規(guī)劃任務(wù)。目前存在每個機(jī)器人都需要頻繁地獲取其他機(jī)器人的信息的問題,后續(xù)工作可以考慮設(shè)計出可以接受任意輸入維數(shù)的信息處理網(wǎng)絡(luò)以及信息共享機(jī)制,以進(jìn)一步提高系統(tǒng)的運行效率。