摘 要:生物集群運(yùn)動(dòng)模型能使集群機(jī)器人涌現(xiàn)秩序,但是所形成的機(jī)器人自然集群秩序難以有效地被人工控制,為此提出魚(yú)群硬注意力模型來(lái)解析實(shí)驗(yàn)魚(yú)群數(shù)據(jù)中的交互行為。該模型通過(guò)編碼器網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)、信息聚合網(wǎng)絡(luò)、預(yù)解碼網(wǎng)絡(luò)以及最終解碼網(wǎng)絡(luò)等結(jié)構(gòu)來(lái)獲取焦點(diǎn)單體的重要鄰居;再利用深度確定性策略梯度技術(shù)設(shè)計(jì)軌道強(qiáng)化網(wǎng)絡(luò)與安全強(qiáng)化網(wǎng)絡(luò),以實(shí)現(xiàn)集群的人工控制。多智能體仿真與集群機(jī)器人實(shí)驗(yàn)結(jié)果表明:所提方法能夠?qū)崿F(xiàn)集群的人工軌道、安全控制,重要鄰居信息為解決集群運(yùn)動(dòng)的強(qiáng)化學(xué)習(xí)難題提供了新思路,所提控制模型在無(wú)人機(jī)群空中協(xié)作、智慧農(nóng)機(jī)集群作業(yè)、物流倉(cāng)儲(chǔ)多體搬運(yùn)等領(lǐng)域具有較大的應(yīng)用潛力。
關(guān)鍵詞:自然秩序人工控制;集群硬注意力機(jī)制;多智能體運(yùn)動(dòng)強(qiáng)化學(xué)習(xí);集群機(jī)器人任務(wù)控制
中圖分類(lèi)號(hào):TP242.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)09-024-2737-08
doi:10.19734/j.issn.1001-3695.2023.12.0625
Hard attention reinforcement model for swarm robotics
inspired by fish school emergence behavior
Liu Leia,b,Ge Zhenyeb,Lin Jiea,Tao Yub,Sun Junjiea
(a.School of Management,b.School of Optoelectronics,University of Shanghai for Science & Technology,Shanghai 200093,China)
Abstract:The biological swarm motion model enables the emergence of order in robot collectives,but controlling the natural swarm order formed by robots is challenging.To address this issue,this paper proposed the fish school hard attention model to analyze interaction behaviors in experimental fish school data.This model utilized structures such as an encoder network,graph attention network,information aggregation network,pre-decoding network and a final decoding network to capture crucial information about the focal individual’s important neighbors.Subsequently,it emploied deep deterministic policy gradient techniques to design trajectory reinforcement networks and safety reinforcement networks to achieve artificial control of the swarm.Results from multi-agent simulations and experiments with swarm robotics demonstrate that the proposed method can realize artificial trajectory and safety control of collectives.The utilization of high-attention neighborhood information for resolving reinforcement learning challenges in collective motion provides a novel approach.The proposed control model exhibits substantial potential applications in areas such as collaborative aerial operations of drone swarms,intelligent agricultural machinery operations,and multi-robot material handling in logistics and warehousing.
Key words:natural order artificial control;collective hard attention mechanism;multi-agents motion reinforcement learning;swarm robotics task control
0 引言
自然生態(tài)系統(tǒng)存在大量的集群行為,如蟻群、鳥(niǎo)群、魚(yú)群、獸群等,這些群落通過(guò)個(gè)體之間的社會(huì)性交互來(lái)協(xié)同運(yùn)動(dòng),從而能在復(fù)雜環(huán)境中涌現(xiàn)宏觀結(jié)構(gòu)與功能來(lái)適應(yīng)環(huán)境[1]。這種自組織生成的秩序?qū)ΨN群生存、繁衍至關(guān)重要,同時(shí)也能啟發(fā)人工集群的分布式控制[2],因此吸引了大量學(xué)者從事該領(lǐng)域的探索。在過(guò)去的數(shù)十年中,多種數(shù)學(xué)、物理、經(jīng)驗(yàn)?zāi)P捅惶岢鰜?lái)用于解釋、模擬生物集群行為,從Reynolds[3]提出的Boids模型開(kāi)始,先后出現(xiàn)了Vicsek[4]、Couzin[5]、Calovi模型[6]等經(jīng)典集群理論。上述研究總結(jié)了集群行為的基本原則:即單體通過(guò)社會(huì)性交互可以涌現(xiàn)集群秩序,并給出了信息交互的具體數(shù)學(xué)表達(dá)。交互模型為集群機(jī)器人的分布式控制提供了有力支撐,借鑒生物模型的集群機(jī)器人行為具有較高的運(yùn)動(dòng)魯棒性[7],以及較強(qiáng)的規(guī)模適應(yīng)性[8],從而使生物啟發(fā)的多智能體分布式控制成為助推人工集群應(yīng)用的重要方法,為集群機(jī)器人在工農(nóng)生產(chǎn)、軍事輔助、交通智能、生態(tài)探索等領(lǐng)域發(fā)展提供支持。
集群機(jī)器人研究始于20世紀(jì)90年代初,并在接下來(lái)的十年中逐漸嶄露頭角。2004年Dorigo等人[9]成功實(shí)現(xiàn)了多達(dá)20臺(tái)的自裝配機(jī)器人的協(xié)同任務(wù),如定向移動(dòng)、集群避障、合作搬運(yùn)等;哈佛大學(xué)自組織研究實(shí)驗(yàn)室設(shè)計(jì)的Kilobots機(jī)器人可在微型尺度下移動(dòng)、通信、交互形成宏觀圖樣[10]。然而,面對(duì)復(fù)雜群內(nèi)環(huán)境,傳統(tǒng)自控方法已難以應(yīng)對(duì)單體機(jī)器人的自組織控制[11]。
當(dāng)前人工智能飛速發(fā)展,使得人工智能技術(shù)應(yīng)用于集群秩序涌現(xiàn)逐漸成為可能:如機(jī)器學(xué)習(xí)控制無(wú)人機(jī)群[12],強(qiáng)化學(xué)習(xí)應(yīng)用于多智能體[13]和真實(shí)機(jī)器人的路徑規(guī)劃[14]以及協(xié)同計(jì)算[15],神經(jīng)網(wǎng)絡(luò)控制集群機(jī)器人合作搬運(yùn)[16];深度學(xué)習(xí)訓(xùn)練多智能體通信[17]。在集群機(jī)器人控制方面,文獻(xiàn)[18]報(bào)道微型無(wú)人機(jī)集群采用最優(yōu)控制可以達(dá)到較好的集群運(yùn)動(dòng)效果,但優(yōu)化控制需要同時(shí)獲取較多單體的信息進(jìn)行集中計(jì)算,算力要求較高,并且控制不具備集群的魯棒靈活性,利用多智能體深度強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)集群機(jī)器人控制的重要方法,如無(wú)人艇集群可以在海上圍捕逃逸目標(biāo)[19],但是該研究的無(wú)人艇群運(yùn)動(dòng)空間較大,不會(huì)產(chǎn)生集群阻塞的情況。文獻(xiàn)[20]表明單獨(dú)使用多智能體強(qiáng)化學(xué)習(xí),難以在緊湊空間實(shí)現(xiàn)機(jī)器人的集群運(yùn)動(dòng),為此首次使用了最大視覺(jué)DNN集群強(qiáng)化修正生物模型的方法,獲得了較好的集群運(yùn)動(dòng)效果,但該研究所使用的最大視覺(jué)DNN模型具有較強(qiáng)的主觀性,其與魚(yú)群實(shí)驗(yàn)數(shù)據(jù)的匹配程度不高。研究人員利用魚(yú)群實(shí)驗(yàn)數(shù)據(jù)進(jìn)行深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)來(lái)對(duì)集群系統(tǒng)進(jìn)行控制研究[20~22],研究結(jié)果表明:生物模型難以直接控制緊湊空間的集群機(jī)器人[23],需要借助強(qiáng)化學(xué)習(xí)才能實(shí)現(xiàn)模型遷移,但是所提最大視覺(jué)鄰居方法[20,23]具有較強(qiáng)的主觀性,同時(shí)不同目標(biāo)修正下的生物模型表現(xiàn)還不明確。綜合上述分析:利用生物集群模型的涌現(xiàn)特性來(lái)實(shí)現(xiàn)集群機(jī)器人的協(xié)同運(yùn)動(dòng)有助于整體行為的魯棒靈活性,因此本文擬利用硬注意力機(jī)制來(lái)建立生物集群模型,期望獲取關(guān)鍵鄰居信息,并在此基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)以規(guī)避單體強(qiáng)化數(shù)據(jù)池過(guò)大的難題,同時(shí)提升關(guān)鍵鄰居挑選的客觀性,所提魚(yú)群硬注意力模型及其強(qiáng)化修正方法有望為集群機(jī)器人的人工協(xié)同控制提供新的思路。
為解決生物模型遷移控制難題,擬設(shè)計(jì)用5條魚(yú)的運(yùn)動(dòng)數(shù)據(jù)訓(xùn)練硬注意力模型,并嵌入到多智能體強(qiáng)化學(xué)習(xí)框架中,以實(shí)現(xiàn)集群機(jī)器人的宏觀目標(biāo)可控涌現(xiàn),從而提升生物模型的宏觀任務(wù)性能。本文貢獻(xiàn)在于:a)利用硬注意力機(jī)制提升生物模型的稀疏信息交互客觀性;b)利用集群強(qiáng)化學(xué)習(xí)提升生物模型的任務(wù)可控性;c)分析不同人工強(qiáng)化目標(biāo)對(duì)生物模型的匹配程度,為探索自由生物模型啟發(fā)人工集群系統(tǒng)調(diào)控的可能性,進(jìn)而推動(dòng)人工復(fù)雜系統(tǒng)的任務(wù)應(yīng)用提供支持。
1 魚(yú)群硬注意力模型及其強(qiáng)化修正方法
紅鼻剪刀魚(yú)群游能力出色,研究發(fā)現(xiàn)該魚(yú)種具有間歇性游動(dòng)特性,即單體會(huì)突然改變方向并同時(shí)提升速度,接著直線減速滑行[6],這種運(yùn)動(dòng)模式有利于將魚(yú)群游動(dòng)軌跡分解成一系列的折線段,適于使用數(shù)據(jù)驅(qū)動(dòng)建模技術(shù)。選用文獻(xiàn)[20~23]的5魚(yú)運(yùn)動(dòng)數(shù)據(jù),該數(shù)據(jù)采集自實(shí)驗(yàn)邊界半徑為25 cm的塑料圓環(huán)內(nèi)的5魚(yú)自由運(yùn)動(dòng),實(shí)驗(yàn)設(shè)施頂部安裝有攝像機(jī)錄制魚(yú)群運(yùn)動(dòng),并使用idTracker軟件[24]對(duì)魚(yú)群錄像進(jìn)行識(shí)別、追蹤,再提取魚(yú)群所有單體的位姿數(shù)據(jù),經(jīng)對(duì)稱(chēng)、濾波、篩選處理[23]用于訓(xùn)練深度硬注意力模型,為將該模型遷移控制集群機(jī)器人,需要設(shè)計(jì)專(zhuān)門(mén)的多智能體強(qiáng)化修正方法。
2 硬注意力強(qiáng)化模型的訓(xùn)練與仿真
使用機(jī)器人實(shí)體在小空間中直接進(jìn)行強(qiáng)化訓(xùn)練不具備可行性,因?yàn)槟P筒怀墒鞓O易造成阻塞,自動(dòng)復(fù)位系統(tǒng)并重新更新DDPG記憶池存在困難,需要外界機(jī)械臂輔助疏散才有可能實(shí)現(xiàn)機(jī)器人實(shí)體集群強(qiáng)化訓(xùn)練,為此使用仿真環(huán)境來(lái)對(duì)所設(shè)計(jì)的強(qiáng)化模型進(jìn)行訓(xùn)練。
2.1 軌道與安全強(qiáng)化網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
強(qiáng)化模型的仿真訓(xùn)練程序由LabVIEW編寫(xiě)的仿真環(huán)境和Python編寫(xiě)的強(qiáng)化網(wǎng)絡(luò)兩部分組成,兩程序通過(guò)使用JSON格式打包數(shù)據(jù)的自制協(xié)議通信,實(shí)現(xiàn)仿真環(huán)境與網(wǎng)絡(luò)訓(xùn)練程序的同步運(yùn)行。仿真環(huán)境以40 ms的采樣周期更新多智能體的運(yùn)動(dòng)狀態(tài),其中焦點(diǎn)單體i在決策時(shí)刻的位姿為[xi,yi,i],根據(jù)式(1)~(5)計(jì)算焦點(diǎn)單體觀測(cè)的仿真環(huán)境[rwi,θwi]與虛擬鄰居[dij,ψij,△ij],j∈Ni。將上述信息打包成JSON格式發(fā)送到Python網(wǎng)絡(luò)訓(xùn)練程序,計(jì)算經(jīng)過(guò)硬注意力模型后輸出轉(zhuǎn)角決策δHi與直行距離lHi。再將環(huán)境信息與高注意力鄰居狀態(tài)作為軌道強(qiáng)化網(wǎng)絡(luò)與安全強(qiáng)化網(wǎng)絡(luò)的輸入,邊訓(xùn)練邊輸出轉(zhuǎn)角決策修正δDDPGi和直行距離修正lDDPGi。最后Python程序?qū)⑦\(yùn)動(dòng)決策通過(guò)JSON數(shù)據(jù)格式發(fā)送仿真環(huán)境,仿真環(huán)境再根據(jù)運(yùn)動(dòng)決策更新焦點(diǎn)單體i的運(yùn)動(dòng)狀態(tài),直到焦點(diǎn)單體運(yùn)行到下一決策時(shí)刻,再將新?tīng)顟B(tài)上傳強(qiáng)化網(wǎng)絡(luò)訓(xùn)練程序,仿真程序異步上傳多智能體信息獲得模型決策,最終在集群運(yùn)動(dòng)穩(wěn)定后停止訓(xùn)練,強(qiáng)化網(wǎng)絡(luò)的訓(xùn)練參數(shù)如表1所示。
2.2 魚(yú)群硬注意力模型的強(qiáng)化修正仿真
與硬注意力模型訓(xùn)練數(shù)據(jù)采用5魚(yú)實(shí)驗(yàn)一致,通過(guò)5智能體的硬注意力強(qiáng)化仿真來(lái)驗(yàn)證生物模型強(qiáng)化控制的可行性。首先以5智能體硬注意力模型的自由運(yùn)動(dòng)仿真為基準(zhǔn),分別采用不同的期望軌道距離rwe進(jìn)行軌道強(qiáng)化修正網(wǎng)絡(luò)訓(xùn)練,其中期望軌道距離分別設(shè)定成80 mm、120 mm、160 mm。在軌道網(wǎng)絡(luò)訓(xùn)練穩(wěn)定后,接著實(shí)驗(yàn)不同的期望安全比率rse來(lái)訓(xùn)練安全強(qiáng)化網(wǎng)絡(luò),rse分別取0.5倍、1倍、1.5倍和2倍,所有強(qiáng)化網(wǎng)絡(luò)訓(xùn)練完畢后,采用訓(xùn)練后的模型各仿真運(yùn)行1 h,統(tǒng)計(jì)集群運(yùn)動(dòng)軌跡數(shù)據(jù),結(jié)果如表2所示,其中軌道強(qiáng)化和安全強(qiáng)化均標(biāo)識(shí)“無(wú)強(qiáng)化”的代表純硬注意力模型仿真。由于仿真軟件環(huán)境可同時(shí)允許真實(shí)機(jī)器人進(jìn)行硬件在環(huán)仿真,所以仿真程序具有機(jī)器人的安全運(yùn)動(dòng)機(jī)制,即當(dāng)焦點(diǎn)智能體質(zhì)心外圍100 mm的安全圓與邊界碰撞時(shí),或者決策目標(biāo)連線有其他智能體侵入,會(huì)重新啟動(dòng)決策,新決策會(huì)傾向邊界內(nèi)側(cè)避障,從而導(dǎo)致較大的對(duì)墻距離rw和直游距離l。穩(wěn)定地對(duì)墻角度絕對(duì)值θ+w和較穩(wěn)定的轉(zhuǎn)角決策絕對(duì)值δ+表明仿真體平行邊界運(yùn)動(dòng)。
軌道強(qiáng)化網(wǎng)絡(luò)修正后,模型輸出轉(zhuǎn)角決策δ+相對(duì)于第一行無(wú)強(qiáng)化數(shù)據(jù)的生物模型輸出具有曲率可控性,尤其在沒(méi)有安全強(qiáng)化的情況下,不同的軌道期望強(qiáng)化會(huì)得出不同的曲率,顯示出了轉(zhuǎn)角決策的可控性。隨著軌道期望距離的增加,軌道強(qiáng)化網(wǎng)絡(luò)的修正轉(zhuǎn)角δ+逐漸擴(kuò)大,使得集群運(yùn)動(dòng)的曲率增加,最終體現(xiàn)在對(duì)墻距離rw的增加,表明強(qiáng)化網(wǎng)絡(luò)通過(guò)修正轉(zhuǎn)角決策δ可以實(shí)現(xiàn)對(duì)目標(biāo)軌道的跟蹤控制。受硬注意力模型影響,隨著對(duì)墻距離rw的增加,導(dǎo)致焦點(diǎn)單體的運(yùn)行自由空間加大,所以直游距離l會(huì)逐漸增加。整個(gè)軌道期望測(cè)試范圍的對(duì)墻角度絕對(duì)值θ+w穩(wěn)定,表明強(qiáng)化修正的沿墻運(yùn)動(dòng)特性較好,較高的群體極性P和緊湊的群體大小C表明集群硬注意力模型自治具有強(qiáng)魯棒性,可以包容人為期望的外控干擾。
加入安全強(qiáng)化網(wǎng)絡(luò)后,多數(shù)仿真集群仍能保持較為穩(wěn)定的對(duì)墻角度絕對(duì)值θ+w、較高的群體極性P和緊湊的群體大小C,說(shuō)明強(qiáng)化網(wǎng)絡(luò)修正在一定范圍內(nèi)可以不破壞生物硬注意力模型的自組織秩序。然而隨著安全強(qiáng)化的期望比率增大,仿真集群的大小C值逐漸擴(kuò)大,群體極性P值逐漸減小,說(shuō)明生物集群的秩序正在瓦解,集群行為開(kāi)始變得復(fù)雜,導(dǎo)致仿真安全機(jī)制得以頻繁觸發(fā)。直觀表現(xiàn)在直游距離l逐漸減小,隨之仿真體的對(duì)墻距離rw增大,這使得軌道跟蹤的任務(wù)性能逐漸變差。在極端情況下,例如160 mm軌道期望與2倍期望安全比率情況,原有的生物集群運(yùn)動(dòng)秩序已經(jīng)無(wú)法有效維持,表現(xiàn)為較大的數(shù)據(jù)方差。
圖4展示了120 mm期望軌道距離,不同期望安全距離比率的強(qiáng)化對(duì)比,利用高斯擬合使各參數(shù)的概率密度曲線平滑化以方便觀察,其中圖4(a)顯示了對(duì)墻距離rw的概率密度曲線,黑色曲線為單純使用魚(yú)群硬注意力模型仿真的數(shù)據(jù)統(tǒng)計(jì)。實(shí)驗(yàn)表明:在不加入安全強(qiáng)化的前提下,僅使用軌道強(qiáng)化可以明顯拉近集群的對(duì)墻距離,統(tǒng)計(jì)峰值在期望距離120 mm附近,說(shuō)明通過(guò)集群強(qiáng)化修正確實(shí)可以將人工目標(biāo)嵌入到自由生物模型中,并達(dá)到較好的控制效果,隨著不同期望安全比率的強(qiáng)化網(wǎng)絡(luò)加入,集群由于安全裕度的擴(kuò)大導(dǎo)致距墻距離逐漸拉大,符合安全強(qiáng)化設(shè)計(jì)。圖4(b)統(tǒng)計(jì)了不同實(shí)驗(yàn)下的集群對(duì)墻角度絕對(duì)值的概率密度曲線,其中黑色線為單純使用魚(yú)群硬注意力模型仿真的數(shù)據(jù)統(tǒng)計(jì)。仿真結(jié)果表明:θ+w在不同控制目標(biāo)下的仿真集群與自然模型運(yùn)動(dòng)具有較一致的環(huán)境角度,且峰值約為90°,即平行于邊界運(yùn)動(dòng),其中單獨(dú)軌道強(qiáng)化會(huì)極大提升集群運(yùn)動(dòng)軌道的確定性,如圖4(b)紅色曲線所示,形成較為確定的運(yùn)動(dòng)集群來(lái)跟蹤設(shè)定軌道。圖4(c)(d)的集群極性、大小的紅色曲線也表明:?jiǎn)为?dú)軌道強(qiáng)化的集群運(yùn)動(dòng)確定性更高(見(jiàn)電子版)。隨著安全強(qiáng)化的加入,軌道強(qiáng)化的確定性被逐漸消減,當(dāng)加入1.5倍安全期望比率強(qiáng)化后,θ+w的組織性已經(jīng)衰減,低于純硬注意力的運(yùn)動(dòng)模型,圖4(c)的集群極性P分布也表明了這一點(diǎn),當(dāng)設(shè)定大于1.5倍期望安全比率后,集群極性相對(duì)于生物模型已較大衰減。同時(shí)圖4(d)的集群大小也表明:從1.5倍比率強(qiáng)化開(kāi)始集群逐漸發(fā)散,雖然1.5倍比率還具有較松散的集群組織,運(yùn)動(dòng)間隙加大,碰撞減小形成較為安全的集群運(yùn)動(dòng)態(tài)勢(shì),但是加入2.0倍期望安全比率強(qiáng)化修正將完全破壞集群的自組織性,如圖4(c)(d)所示,由于相對(duì)間距擴(kuò)大,集群極性已十分微弱。
3 硬注意力強(qiáng)化模型的集群機(jī)器人實(shí)驗(yàn)
3.1 集群機(jī)器人實(shí)驗(yàn)平臺(tái)
作為多智能體仿真環(huán)境的硬件在環(huán)擴(kuò)展,集群機(jī)器人實(shí)驗(yàn)平臺(tái)同樣由集群機(jī)器人硬件平臺(tái)與嵌入仿真環(huán)境(參考第2章)的LabVIEW控制軟件兩部分組成,其中機(jī)器人硬件平臺(tái)如圖5所示,采用的微型集群機(jī)器人為自主研發(fā)的Cuboids機(jī)器人系統(tǒng)[28],運(yùn)行環(huán)境為直徑1 m的圓形空間,上方裝有工業(yè)相機(jī),LabVIEW控制軟件與實(shí)驗(yàn)相機(jī)相連,以200 ms周期進(jìn)行圖像采集、模式識(shí)別機(jī)器人,然后使用40 ms周期的卡爾曼濾波器跟蹤機(jī)器人單體,最終獲得每臺(tái)機(jī)器人的位置與朝向。焦點(diǎn)機(jī)器人在決策時(shí)刻獲取自身圖像數(shù)據(jù)[xi,yi,i]與鄰居位姿,然后根據(jù)式(1)~(5)將上述信息換算為機(jī)載傳感的環(huán)境信息[rwi,θwi,0]與鄰居信息[dij,ψij,△ij],再利用與上節(jié)仿真程序一致的過(guò)程向Python服務(wù)器請(qǐng)求魚(yú)群硬注意力強(qiáng)化網(wǎng)絡(luò)決策,輸出[δHi+δDDPGi,lHi+lDDPGi]后則回傳給LabVIEW控制軟件。然后利用無(wú)線路由器,將具體的運(yùn)動(dòng)指令傳輸給Cuboids機(jī)器人。物理實(shí)現(xiàn)網(wǎng)絡(luò)決策:首先機(jī)器人會(huì)旋轉(zhuǎn)角度δHi+δDDPGi,然后再按照指定距離lHi+lDDPGi進(jìn)行直線運(yùn)動(dòng),如果成功到達(dá)指定位置則會(huì)觸發(fā)下一輪決策,如果運(yùn)動(dòng)前方出現(xiàn)環(huán)境障礙或鄰居闖入,則焦點(diǎn)機(jī)器人會(huì)停下請(qǐng)求新的決策,機(jī)器人安全決策過(guò)程可以參考文獻(xiàn)[23]。
3.2 機(jī)器人硬注意力強(qiáng)化運(yùn)動(dòng)分析
由于機(jī)器人與魚(yú)類(lèi)之間的性能、外形差異,較多機(jī)器人直接進(jìn)行硬注意力模型遷移控制會(huì)形成阻塞。鑒于上述物理、性能、動(dòng)態(tài)環(huán)境方面的約束,為驗(yàn)證所提方法連續(xù)實(shí)驗(yàn)的控制有效性,降低集群的復(fù)雜度,采用三Cuboids機(jī)器人在80 mm軌道強(qiáng)化下加入不同期望安全比率的集群運(yùn)動(dòng)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果與單純使用硬注意力模型控制的機(jī)器人進(jìn)行運(yùn)動(dòng)數(shù)據(jù)對(duì)比,如表3所示。
由于機(jī)器人具有剛性物理外形,無(wú)法像仿真實(shí)驗(yàn)一樣緊密運(yùn)動(dòng),所以在軌道強(qiáng)化網(wǎng)絡(luò)修正下,機(jī)器人以近似前后排列的方式沿邊界運(yùn)動(dòng)。這種秩序已經(jīng)修改了生物集群模型的單體交替領(lǐng)頭的自組織模式,即跟隨者較少內(nèi)圈超越領(lǐng)導(dǎo)者,因此機(jī)器人對(duì)邊界距離rw值較80 mm軌道期望偏小,而群體大小C值較大,對(duì)墻角度絕對(duì)值θ+w穩(wěn)定在90°左右,具有較高的群體極性,表明強(qiáng)化修正后并未破壞硬注意力模型的運(yùn)動(dòng)秩序,僅改變了集群的運(yùn)動(dòng)形式,使其更符合機(jī)器人任務(wù)的特點(diǎn)。集群領(lǐng)域?qū)<襎heraulaz Guy在文獻(xiàn)[29]中提到:集群機(jī)器人需要生物啟發(fā),但是絕對(duì)不能依賴(lài)生物啟發(fā),需要根據(jù)自身任務(wù)對(duì)生物集群運(yùn)動(dòng)進(jìn)行調(diào)整,所提硬注意力模型的人工目標(biāo)強(qiáng)化為該論斷提供了一種可行路徑。
在加入安全強(qiáng)化修正后,當(dāng)期望安全比率為0.5時(shí),機(jī)器人的運(yùn)動(dòng)效果與單純80 mm軌道強(qiáng)化相似,跟隨者受目標(biāo)軌道束縛,并進(jìn)一步減小了前后鄰居距離,導(dǎo)致群體大小C值較單純軌道強(qiáng)化小。當(dāng)期望安全比率為1時(shí),發(fā)生了自組織形式的改變,多余的安全裕度使機(jī)器人逐漸展現(xiàn)出魚(yú)群模型的靈活性,具體表現(xiàn)在機(jī)器跟隨者能夠從內(nèi)圈超越領(lǐng)導(dǎo)者,形成典型的集群反旋[23]。這種反旋組織特性的出現(xiàn),使群體大小C進(jìn)一步減小,群體從線形轉(zhuǎn)變?yōu)閴K形,群體中心被迫遠(yuǎn)離邊界,導(dǎo)致形成較大的運(yùn)行曲率,實(shí)現(xiàn)對(duì)墻距離rw的增大;當(dāng)期望安全比率大于1,機(jī)器人開(kāi)始逐漸分散,群體大小C值增大,機(jī)器人的內(nèi)圈超越變得更加頻繁,相鄰兩機(jī)器人的間距也在增加,對(duì)墻距離rw也需要增加以容納更松散的集群形態(tài)。相對(duì)穩(wěn)定的對(duì)墻角度θ+w和較高的群體極性P表明:強(qiáng)化網(wǎng)絡(luò)修正魚(yú)群模型的方式能有效在集群機(jī)器人自組織運(yùn)動(dòng)的基礎(chǔ)上引入人工控制,使其兼具生物模型的魯棒、靈活性和工程應(yīng)用的可控、安全性。2倍安全比率的集群運(yùn)動(dòng)穩(wěn)定性減弱,集群極性P與集群大小C忽大忽小,說(shuō)明人工控制正在瓦解生物模型的組織性,1.5倍安全比率靠近自然集群秩序的臨界邊緣。
圖6展示了表3強(qiáng)化學(xué)習(xí)控制策略下的集群機(jī)器人實(shí)驗(yàn)運(yùn)動(dòng)軌跡。圖6(a)為80 mm期望軌道強(qiáng)化下的運(yùn)動(dòng)軌跡,受機(jī)器人物理約束和軌道強(qiáng)化網(wǎng)絡(luò)修正的影響,機(jī)器人群展現(xiàn)出前后線形的排列方式,并緊靠邊界軌道運(yùn)行,跟隨者被軌道約束,無(wú)法超越領(lǐng)導(dǎo)者。圖6(b)~(e)分別展示了集群機(jī)器人在80 mm軌道強(qiáng)化基礎(chǔ)上加入不同安全比率期望的強(qiáng)化運(yùn)動(dòng)軌跡。圖6(b)展示的0.5倍期望安全比率控制下的緊湊機(jī)器人集群,緊湊激發(fā)了魚(yú)群模型的排斥作用,使得有些單體雖然線形排列,但也偶爾發(fā)生內(nèi)圈超越的現(xiàn)象,表明生物模型的內(nèi)在安全機(jī)制[23]可以被隨時(shí)觸發(fā)。隨著采用1倍期望安全比率控制,圖6(c)機(jī)器人之間已經(jīng)存在了較大的間隙,使得跟隨者具有足夠的能動(dòng)性從內(nèi)圈超越領(lǐng)導(dǎo)者,形成了類(lèi)魚(yú)群的反旋運(yùn)動(dòng)。但是圖6(d)~(e)表明:隨著繼續(xù)人為加大期望安全比率,機(jī)器人的群體大小逐漸增大,群運(yùn)動(dòng)秩序逐漸減弱,甚至出現(xiàn)瀕臨崩潰的趨勢(shì)。
4 結(jié)束語(yǔ)
通過(guò)研究在魚(yú)群硬注意力模型的基礎(chǔ)上對(duì)集群運(yùn)行軌道與安全間隙進(jìn)行多智能體強(qiáng)化的控制方法,探索了如何在不可控的生物啟發(fā)模型下加載人工控制,從而有利于集群機(jī)器人開(kāi)展預(yù)定任務(wù)。
對(duì)比經(jīng)典Vicsek模型[4]、最強(qiáng)視覺(jué)DNN模型[22]、最大影響力模型[23]以及IAT模型[21],分別進(jìn)行5智能體1 h仿真實(shí)驗(yàn)來(lái)觀察所提人工控制方法對(duì)自然集群秩序的影響。實(shí)驗(yàn)結(jié)果如表4所示,雖然傳統(tǒng)Vicsek模型的墻角度θ+w數(shù)據(jù)非常接近于90°,但該模型僅適于集群系統(tǒng)的連續(xù)控制,對(duì)決策——運(yùn)動(dòng)模式的群體控制策略難以涌現(xiàn)秩序,具體表現(xiàn)為極性P值過(guò)小,群體大小C值過(guò)大;最強(qiáng)視覺(jué)DNN模型雖能形成較好的自然運(yùn)動(dòng)秩序,但是群體大小C值相對(duì)于所提方法同軌道強(qiáng)化(120 mm)的數(shù)值,極性P值略小,表明基于視覺(jué)的集群涌現(xiàn)方法需要保證一定的鄰居空間才有利于交互模型的收斂。而最大影響力模型的訓(xùn)練數(shù)據(jù)來(lái)自2魚(yú)實(shí)驗(yàn)數(shù)據(jù),所以在5智能體仿真的場(chǎng)景下,其軌道距離過(guò)大,與所提方法同尺度軌道強(qiáng)化(160 mm)的數(shù)據(jù)相比,集群比較松散,運(yùn)動(dòng)方向的統(tǒng)一性還有不足,自由度過(guò)高導(dǎo)致難以用于實(shí)際機(jī)器人控制;IAT模型采用了軟注意力模型,即焦點(diǎn)單體需要與所有鄰居進(jìn)行交互,與所提硬注意力模型相比,模型的計(jì)算復(fù)雜度更高,雖然集群極性P值較好,但與相似軌道(160 mm)強(qiáng)化下的群體大小C值相比還不夠緊湊。相比于最大視覺(jué)DNN強(qiáng)化模型,所提模型的群體極性P值較好,同時(shí)具有更緊湊的集群大小C,且對(duì)墻角度θ+w更加地接近于90°,運(yùn)動(dòng)秩序性更好;最大視覺(jué)DNN模型控制的集群會(huì)形成蛇形隊(duì)列,集群分布較散,受干擾容易發(fā)生集群斷裂。綜上分析:所提模型利用深度強(qiáng)化方法為自然集群秩序注入更明確的人工目標(biāo),具有更強(qiáng)的集群控制力,有利于真實(shí)機(jī)器人系統(tǒng)在復(fù)雜環(huán)境下的任務(wù)自組織。
研究發(fā)現(xiàn):?jiǎn)渭円蕾?lài)強(qiáng)化控制模型在小空間范圍內(nèi)直接訓(xùn)練集群機(jī)器人達(dá)到運(yùn)動(dòng)有序不具可行性[25],究其原因在于單體所處的復(fù)雜內(nèi)環(huán)境需要大規(guī)模記憶池進(jìn)行強(qiáng)化訓(xùn)練,還較難保證模型訓(xùn)練收斂,所以必須借助生物模型的自組織能力,使集群運(yùn)動(dòng)產(chǎn)生典型運(yùn)動(dòng)模式,在此基礎(chǔ)上進(jìn)行集群強(qiáng)化才具有訓(xùn)練可行性;同時(shí),硬注意力模型的稀疏信息交互機(jī)制有助于焦點(diǎn)單體選出重要鄰居,為后續(xù)多智能體強(qiáng)化的信息輸入降低了復(fù)雜性,極大地壓縮了DDPG記憶池的空間維度,為多智能體強(qiáng)化網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練提供了自然秩序保障。仿真和機(jī)器人實(shí)驗(yàn)結(jié)果均表明,人工控制目標(biāo)必須與自然模型相匹配才能表現(xiàn)出色的控制性能,既能保留生物集群的魯棒靈活性,又能實(shí)現(xiàn)集群機(jī)器人的任務(wù)可控性,而一旦人工期望超出特定邊界,集群的自組織秩序就會(huì)出現(xiàn)崩潰,難以維持復(fù)雜系統(tǒng)的功能秩序,所以后續(xù)工作需要更深入地探尋生物模型與人工干預(yù)的有效界面,實(shí)現(xiàn)兩種控制的合理匹配。與傳統(tǒng)的魚(yú)群涌現(xiàn)模型相比,所提方法能夠在硬注意力模型的涌現(xiàn)機(jī)制下實(shí)現(xiàn)人工目標(biāo)控制,有利于機(jī)器集群的可控運(yùn)動(dòng)。
本文方法為解決復(fù)雜人工系統(tǒng)的自然集群運(yùn)動(dòng)控制提供了有益嘗試,所提模型是實(shí)現(xiàn)集群機(jī)器人頂層任務(wù)的基礎(chǔ),通過(guò)人工可控涌現(xiàn),能實(shí)現(xiàn)集群的圓心軌道集結(jié),以及通過(guò)安全強(qiáng)化改變集群覆蓋的大小。下階段也可將圓形軌道變?yōu)橹本€軌道,實(shí)現(xiàn)集群的可控直線遷移,這些功能為無(wú)人機(jī)群空中協(xié)作、智慧農(nóng)業(yè)集體作業(yè)、物流倉(cāng)儲(chǔ)多機(jī)搬運(yùn)等應(yīng)用提供了基礎(chǔ)運(yùn)動(dòng)方案。將這一方法應(yīng)用到具體實(shí)際場(chǎng)景,有望為集群機(jī)器人大規(guī)模應(yīng)用創(chuàng)造更廣闊的應(yīng)用前景,從而提高社會(huì)信息物理系統(tǒng)的智能性和自主性,實(shí)現(xiàn)更高水平的任務(wù)協(xié)同自動(dòng)化。
參考文獻(xiàn):
[1]Berdahl A M,Kao A B,F(xiàn)lack A,et al.Collective animal navigation and migratory culture:from theoretical models to empirical evidence[J].Philosophical Transactions of the Royal Society B:Biological Sciences,2018,373(1746):20170009.
[2]Hamann H,Khaluf Y,Botev J,et al.Hybrid societies:challenges and perspectives in the design of collective behavior in self-organizing systems[J].Frontiers in Robotics and AI,2016,3:article No.14.
[3]Reynolds C W.Flocks,herds and schools:a distributed behavioral model[J].ACM SIGGRAPH Computer Graphics,1987,21(4):25-34.
[4]Vicsek T,Czirók A,Ben-Jacob E,et al.Novel type of phase transition in a system of self-driven particles[J].Physical Review Letters,1995,75(6):1226-1229.
[5]Couzin I D,Krause J,James R,et al.Collective memory and spatial sorting in animal groups[J].Journal of Theoretical Biology,2002,218(1):1-11.
[6]Calovi D S,Litchinko A,Lecheval V,et al.Disentangling and mode-ling interactions in fish with burst-and-coast swimming reveal distinct alignment and attraction behaviors[J].PLoS Computational Biology,2018,14(1):e1005933.
[7]Harrison D,Rorot W,Laukaityte U.Mind the matter:active matter,soft robotics,and the making of bio-inspired artificial intelligence[J].Frontiers in Neurorobotics,2022,16:880724.
[8]Selvaraj S,Choi E.Swarm intelligence algorithms in text document clustering with various benchmarks[J].Sensors,2021,21(9):3196.
[9]Dorigo M,Trianni V,ahin E,et al.Evolving self-organizing behaviors for a swarm-bot[J].Autonomous Robots,2004,17(2-3):223-245.
[10]Rubenstein M,Ahler C,Nagpal R.Kilobot:a low cost scalable robot system for collective behaviors[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2012:3293-3298.
[11]Araujo A F R,Barreto G A.Context in temporal sequence processing:a self-organizing approach and its application to robotics[J].IEEE Trans on Neural Networks,2002,13(1):45-57.
[12]Wang J J,Ma J,Hou J,et al.Operational effectiveness evaluation of UAV cluster based on Bayesian networks[J].Journal of Physics:Conference Series,2022,2282(1):012001.
[13]鄒長(zhǎng)杰,鄭皎凌,張中雷.基于GAED-MADDPG多智能體強(qiáng)化學(xué)習(xí)的協(xié)作策略研究[J].計(jì)算機(jī)應(yīng)用研究,2020,37(12):3656-3661.(Zou Changjie,Zheng Jiaoling,Zhang Zhonglei.Research on collaborative strategy based on GAED-MADDPG multi-agent reinforcement learning[J].Application Research of Computers,2020,37(12):3656-3661.)
[14]趙增旭,劉向陽(yáng),任彬.基于方向指引的蟻群算法機(jī)器人路徑規(guī)劃[J].計(jì)算機(jī)應(yīng)用研究,2023,40(3):786-788,793.(Zhao Zengxu,Liu Xiangyang,Ren Bin.Ant colony algorithm for robot path planning based on direction guidance[J].Application Research of Compu-ters,2023,40(3):786-788,793.)
[15]李少波,劉意楊.基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)移動(dòng)機(jī)器人協(xié)同計(jì)算卸載[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2087-2090,2103.(Li Shaobo,Liu Yiyang.Dynamic mobile robot collaborative computing offloading based on improved deep reinforcement learning[J].Application Research of Computers,2022,39(7):2087-2090,2103.)
[16]Vorobyev G,Vardy A,Banzhaf W.Supervised learning in robotic swarms:from training samples to emergent behavior[M]//Ani Hsieh M,Chirikjian G.Distributed Autonomous Robotic Systems.Berlin:Springer,2014:435-448.
[17]Foerster J,Assael I A,De Freitas N,et al.Learning to communicate with deep multi-agent reinforcement learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:2145-2153.
[18]Zhou Xin,Wen Xiangyong,Wang Zhepei,et al.Swarm of micro flying robots in the wild[J].Science Robotics,2022,7(66):eabm5954.
[19]夏家偉,朱旭芳,張建強(qiáng),等.基于多智能體強(qiáng)化學(xué)習(xí)的無(wú)人艇協(xié)同圍捕方法[J].控制與決策,2023,38(5):1438-1447.(Xia Jiawei,Zhu Xufang,Zhang Jianqiang,et al.Research on cooperative hunting method of unmanned surface vehicle based on multi-agent reinforcement learning[J].Control and Decision,2023,38(5):1438-1447.)
[20]劉磊,張浩翔,陳若妍,等.魚(yú)群涌現(xiàn)機(jī)制下集群機(jī)器人運(yùn)動(dòng)強(qiáng)化的遷移控制[J].控制與決策,2023,38(3):621-630.(Liu Lei,Zhang Haoxiang,Chen Ruoyan,et al.The transfer control of swarm robotics motion reinforcement employing fish schooling emergency me-chanism[J].Control and Decision,2023,38(3):621-630.)
[21]劉磊,黃景然,趙佳佳,等.揭示生物集群系統(tǒng)內(nèi)部信息耦合機(jī)制的深度網(wǎng)絡(luò)模型[J].控制與決策,2023,38(5):1403-1411.(Liu Lei,Huang Jingran,Zhao Jiajia,et al.Analysis model for revealing mechanism of internal information coupling in biological collective systems based on deep network[J].Control and Decision,2023,38(5):1403-1411.)
[22]劉磊,孫卓文,陳令儀,等.基于深度學(xué)習(xí)的仿生集群運(yùn)動(dòng)智能控制[J].控制與決策,2021,36(9):2195-2202.(Liu Lei,Sun Zhuowen,Chen Lingyi,et al.Intelligent control of bionic collective motion based on deep learning[J].Control and Decision,2021,36(9):2195-2202.)
[23]Lei L,Escobedo R,Sire C,et al.Computational and robotic modeling reveal parsimonious combinations of interactions between individuals in schooling fish[J].PLoS Computational Biology,2020,16(3):e1007194.
[24]劉磊,陶杰,尹鐘.微型機(jī)器人以及群機(jī)器人系統(tǒng):中國(guó),CN201710441229.2[P].2017-06-13.(Liu Lei,Tao jie,Yin Zhang.Microrobots and searm robot system:China,CN201710441229.2[P].2017-06-13.)
[25]Hansen E,Brunton S L,Song Zhuoyuan.Swarm modeling with dyna-mic mode decomposition[J].IEEE Access,2022,10:59508-59521.
[26]Zhou Xiao,Zhou Song,Mou Xingang,et al.Multirobot collaborative pursuit target robot by improved MADDPG[J/OL].Computational Intelligence and Neuroscience.(2022-01-01).https://doi.org/10.1155/2022/4757394.
[27]Han Chenchen,Yao Haipeng,Mai Tianle,et al.QMIX aided routing in social-based delay-tolerant networks[J].IEEE Trans on Vehicular Technology,2021,71(2):1952-1963.
[28]梁星星,馮旸赫,馬揚(yáng).多agent深度強(qiáng)化學(xué)習(xí)綜述[J].自動(dòng)化學(xué)報(bào),2020,46(12):2537-2557.(Liang Xingxing,F(xiàn)eng Yanghe,Ma Yang.Deep multi-agent reinforcement learning:a survey[J].Acta Automatica Sinica,2020,46(12):2537-2557.)
[29]Dorigo M,Theraulaz G,Trianni V,et al.Swarm robotics:past,present,and future[J].Proceedings of the IEEE,2021,109(7):1152-1165.
[30]Pérez-Escudero A,Vicente-Page J,Hinz R C,et al.idTracker:tracking individuals in a group by automatic identification of unmarked animals[J].Nature Methods,2014,11(7):743-748.
收稿日期:2023-12-27
修回日期:2024-03-06
基金項(xiàng)目:上海市自然科學(xué)基金資助項(xiàng)目(22ZR1443300)
作者簡(jiǎn)介:劉磊(1982—),男(通信作者),甘肅張掖人,副教授,碩導(dǎo),博士,CCF會(huì)員,主要研究方向?yàn)榧褐悄芘c復(fù)雜系統(tǒng)控制(liulei@usst.edu.cn);葛振業(yè)(1999—),男,江蘇鹽城人,碩士研究生,主要研究方向?yàn)榧褐悄?;林杰?998—),男,湖北武穴人,碩士研究生,主要研究方向?yàn)閺?fù)雜系統(tǒng)、可解釋學(xué)習(xí);陶宇(1997—)男,江蘇淮安人,碩士,主要研究方向?yàn)榧褐悄?、深度學(xué)習(xí);孫俊杰(2002—),男,上海人,主要研究方向?yàn)閿?shù)據(jù)挖掘.