無人機(jī)集群編隊(duì)自主協(xié)同控制方法綜述?

2024-04-15 09:24高甲博

艦船電子工程 2024年1期

高甲博肖瑋

（陸軍勤務(wù)學(xué)院重慶 401331）

1 引言

無人機(jī)憑借其成本低、適應(yīng)性強(qiáng)、靈活性高等優(yōu)點(diǎn)得到廣泛應(yīng)用，隨著應(yīng)用領(lǐng)域不斷擴(kuò)展，無人機(jī)執(zhí)行任務(wù)的難度和復(fù)雜度也日益增加［1］。為此，科研工作者將目光投向了無人機(jī)集群領(lǐng)域。無人機(jī)集群［2］是指將多個(gè)無人機(jī)按照一定的結(jié)構(gòu)、模式進(jìn)行組合，通過協(xié)調(diào)控制使其具備群體自主感知、自主決策和自主行動能力［3］，能夠完成單一無人機(jī)難以完成的任務(wù)，如戰(zhàn)場滲透［4］、遠(yuǎn)程偵察［5］、電子干擾［6］等。無人機(jī)集群編隊(duì)控制是集群實(shí)現(xiàn)整體效能最優(yōu)化的重要基礎(chǔ)。目前，在實(shí)際應(yīng)用中主要的兩種控制方法是：一種是依據(jù)控制目標(biāo)任務(wù)提前設(shè)計(jì)固定控制策略，集群內(nèi)各個(gè)無人機(jī)按照預(yù)先設(shè)計(jì)的控制策略進(jìn)行編隊(duì)；另一種是通過遠(yuǎn)程遙控實(shí)時(shí)發(fā)送控制指令，集群內(nèi)無人機(jī)按照指令實(shí)現(xiàn)無人機(jī)集群編隊(duì)。這兩種控制方法都較為成熟，但難以滿足無人機(jī)集群在場景復(fù)雜導(dǎo)致的環(huán)境不確定、局部可觀導(dǎo)致的信息不完全、狀況突發(fā)導(dǎo)致的響應(yīng)強(qiáng)實(shí)時(shí)等新領(lǐng)域應(yīng)用發(fā)展中的需要。所以，亟需探索一種適應(yīng)新領(lǐng)域應(yīng)用場景的無人機(jī)集群編隊(duì)控制方法。

隨著智能控制的不斷發(fā)展，自主協(xié)同控制的方法打破了這一瓶頸，該方法是通過集群內(nèi)無人機(jī)之間的協(xié)同感知、自主決策、相互配合，求得目標(biāo)任務(wù)的最優(yōu)解，能夠有效提高無人機(jī)集群編隊(duì)控制的自主性，充分發(fā)揮集群內(nèi)無人機(jī)之間的協(xié)作能力，實(shí)現(xiàn)“1+1>2”的效果。為此，探索無人機(jī)集群編隊(duì)的自主協(xié)同控制方法，實(shí)現(xiàn)自主靈活高效的無人機(jī)集群編隊(duì)控制，對進(jìn)一步提高無人機(jī)集群執(zhí)行復(fù)雜高難度任務(wù)的能力，拓展加深其應(yīng)用領(lǐng)域，具有十分重要的學(xué)術(shù)研究價(jià)值和現(xiàn)實(shí)應(yīng)用意義。

2 無人機(jī)集群編隊(duì)自主協(xié)同控制方法研究現(xiàn)狀

無人機(jī)集群編隊(duì)自主協(xié)同控制方法包括多種，按照其控制通信拓?fù)浣Y(jié)構(gòu)不同，主要分為集中式和分布式兩大類［7］。集中式［8］由控制中心向被控節(jié)點(diǎn)發(fā)送控制指令和編隊(duì)信息，同時(shí)接受被控節(jié)點(diǎn)的狀態(tài)信息，實(shí)現(xiàn)對無人機(jī)集群編隊(duì)的控制。該類型優(yōu)點(diǎn)是形成編隊(duì)隊(duì)形精度高，控制速度快，算法設(shè)計(jì)簡單，缺點(diǎn)是對控制中心計(jì)算和通信速度要求高，魯棒性較差，難以實(shí)現(xiàn)大規(guī)模的集群控制。分布式［9］集群內(nèi)不存在控制中心，各節(jié)點(diǎn)只需與鄰居節(jié)點(diǎn)交換信息，通過節(jié)點(diǎn)之間的相互協(xié)作實(shí)現(xiàn)無人機(jī)集群編隊(duì)的控制，優(yōu)點(diǎn)是去中心化，魯棒性較高，適應(yīng)復(fù)雜動態(tài)的應(yīng)用環(huán)境，可控?zé)o人機(jī)規(guī)模較大，缺點(diǎn)是算法設(shè)計(jì)復(fù)雜，通信時(shí)限要求高，存在誤差疊加，形成的編隊(duì)隊(duì)形精度不高。

2.1 集中式控制類型

集中式控制類型主要包括領(lǐng)航者-跟隨者方法、虛擬結(jié)構(gòu)法等。

1）領(lǐng)航者-跟隨者方法（Leader-follower Method），又稱長機(jī)-僚機(jī)法。該方法是目前無人機(jī)集群編隊(duì)控制中最常用的控制方法之一，其基本思想是集群內(nèi)領(lǐng)航者自主飛行，跟隨者接收領(lǐng)導(dǎo)者的控制指令調(diào)整自身運(yùn)動參數(shù)，以維持在編隊(duì)中相對位置，同時(shí)反饋?zhàn)陨硇畔⒔o領(lǐng)航者集中處理，從而實(shí)現(xiàn)編隊(duì)控制，如圖1 所示。該方法的算法設(shè)計(jì)較為簡單，形成編隊(duì)隊(duì)形精度較高，通過領(lǐng)航者實(shí)現(xiàn)信息共享，有效解決信息不完全導(dǎo)致的控制困難，但對領(lǐng)航者依賴過大，編隊(duì)整體魯棒性不足，并對領(lǐng)航者的通信和運(yùn)算能力要求較高，難以應(yīng)對環(huán)境不確定的復(fù)雜場景下的大規(guī)模集群控制。

圖1 領(lǐng)航者-跟隨者方法

領(lǐng)航者-跟隨者方法在實(shí)際應(yīng)用中并不單獨(dú)使用，一般與其他控制方法結(jié)合應(yīng)用。文獻(xiàn)［10］為跟隨者設(shè)計(jì)自適應(yīng)神經(jīng)網(wǎng)絡(luò)，使得跟隨者能夠預(yù)測領(lǐng)航者的動作，提高了系統(tǒng)的瞬態(tài)控制性能。文獻(xiàn)［11］采用內(nèi)外環(huán)的編隊(duì)控制方法，外環(huán)通過領(lǐng)航者-跟隨者實(shí)現(xiàn)多無人機(jī)協(xié)同飛行，內(nèi)環(huán)設(shè)計(jì)一種優(yōu)化的主動抗擾系統(tǒng)，使得輕型無人機(jī)能夠克服外部環(huán)境風(fēng)力的影響實(shí)現(xiàn)穩(wěn)定飛行。文獻(xiàn)［12］引入貪婪算法、基于行為的方法和虛擬結(jié)構(gòu)法，將目標(biāo)隊(duì)型中l(wèi)eader和follower的區(qū)域劃分并分布計(jì)算，提高了無人機(jī)集群編隊(duì)的魯棒性和穩(wěn)定性。文獻(xiàn)［13］將領(lǐng)航者-跟隨者方法進(jìn)行集成，設(shè)計(jì)出基于多智能體系統(tǒng)的新型無人機(jī)集群編隊(duì)控制方法，該方法可隨機(jī)指定領(lǐng)航者，彌補(bǔ)了領(lǐng)航者-跟隨者方法中對唯一領(lǐng)航者依賴性過大的不足，提高了編隊(duì)的魯棒性。

2）虛擬結(jié)構(gòu)法（Virtual Structure Method）。該方法最早由美國加利福尼亞大學(xué)Lewis［14］等提出，其基本思想是將無人機(jī)集群編隊(duì)看成是一個(gè)虛擬剛體，在編隊(duì)中設(shè)定一個(gè)虛擬中心為參考點(diǎn)，所有無人機(jī)根據(jù)參考點(diǎn)信息調(diào)整自身飛行狀態(tài)和坐標(biāo)位置，以形成和保持虛擬剛體的編隊(duì)隊(duì)形［15］，如圖2 所示。該方法可以克服長機(jī)毀壞帶來的編隊(duì)混亂這一缺陷，魯棒性較高，但要求無人機(jī)的運(yùn)動必須是剛性運(yùn)動，在外部擾動和無人機(jī)間氣動因素影響下，無人機(jī)對虛擬點(diǎn)的追蹤較為困難。

圖2 虛擬結(jié)構(gòu)法

針對上述問題，相關(guān)學(xué)者對該方法進(jìn)行改進(jìn)。文獻(xiàn)［16］把同步位置跟蹤控制器并入無人機(jī)集群編隊(duì)控制器中，改善了無人機(jī)的跟蹤效果，加快了編隊(duì)的收斂速度。文獻(xiàn)［17］將無人機(jī)和編隊(duì)虛擬結(jié)構(gòu)的姿態(tài)控制系統(tǒng)分開設(shè)計(jì)，同時(shí)考慮參數(shù)不確定性和外部干擾，設(shè)計(jì)時(shí)變滑?？刂扑惴?，并通過數(shù)值模擬說明所提策略的有效性。文獻(xiàn)［18］采用基于虛擬結(jié)構(gòu)法的非線性魯棒無人機(jī)集群編隊(duì)控制方法，通過對在慣性坐標(biāo)系下虛擬剛體光滑軌跡的生成設(shè)計(jì)，以及在虛擬剛體坐標(biāo)系下的無人機(jī)編隊(duì)隊(duì)形控制設(shè)計(jì)來實(shí)現(xiàn)無人機(jī)集群編隊(duì)的形成、保持和變換，并針對飛行時(shí)集群內(nèi)無人機(jī)之間的氣流擾動問題，設(shè)計(jì)基于高階滑膜算法的魯棒控制算法，提高了控制精度和穩(wěn)定性。

2.2 分布式控制類型

分布式控制類型主要包括人工勢場法、基于行為的方法、一致性理論、深度強(qiáng)化學(xué)習(xí)的方法等。

1）人工勢場法（Artificial Potential Field Method）。其基本思想借鑒了物理學(xué)中勢場概念，為集群內(nèi)無人機(jī)設(shè)計(jì)勢場函數(shù)，在感知范圍內(nèi)，依據(jù)無人機(jī)之間相鄰距離設(shè)置排斥區(qū)、保持區(qū)、吸引區(qū)，排斥區(qū)內(nèi)相鄰無人機(jī)會受斥力拉大距離，保持區(qū)內(nèi)無人機(jī)控制參數(shù)保持不變，吸引區(qū)內(nèi)相鄰無人機(jī)受引力縮小距離，通過勢場力使得每架無人機(jī)收斂到期望位置，從而保持編隊(duì)隊(duì)形，如圖3 所示。該方法在設(shè)計(jì)上較為簡單，集群內(nèi)無人機(jī)自主性、協(xié)同性較好，能夠?qū)崿F(xiàn)不確定環(huán)境下較大規(guī)模的集群控制，并滿足響應(yīng)強(qiáng)實(shí)時(shí)的要求，但容易存在局部極值，閉環(huán)系統(tǒng)穩(wěn)定性證明較為困難，不易形成精度較高的編隊(duì)隊(duì)形。

圖3 人工勢場法

該方法一般與其他方法結(jié)合使用，主要在解決局部極值和提高系統(tǒng)穩(wěn)定性上進(jìn)行改進(jìn)。文獻(xiàn)［19］采用虛擬結(jié)構(gòu)法在三維空間中設(shè)立編隊(duì)參考點(diǎn)和目標(biāo)參考點(diǎn)，再通過人工勢場作用下使得無人機(jī)集群形成期望編隊(duì)隊(duì)形，有效克服人工勢場法容易陷入局部極點(diǎn)的缺陷。文獻(xiàn)［20］針對固定翼無人機(jī)轉(zhuǎn)彎和最小空速必須為正的約束，提出一種非對稱的局部勢場法，并借助領(lǐng)航者-跟隨者框架，使跟隨者的空速和航向角收斂至其領(lǐng)航者的空速和航向角。文獻(xiàn)［21］在人工勢場法的基礎(chǔ)上，提出一種分叉勢場法，通過對十架無人機(jī)隊(duì)形變換的仿真結(jié)果分析，系統(tǒng)的穩(wěn)定性明顯提高。

2）基于行為的方法（Behavioral Method）［22］。其基本思想是定義無人機(jī)集群形成編隊(duì)所需的幾種基本控制行為，如碰撞避免、障礙回避、目標(biāo)獲取、隊(duì)形保持［23］等，通過距離、視覺、速度等傳感器采集無人機(jī)集群狀態(tài)信息，依據(jù)狀態(tài)信息對各基本控制行為進(jìn)行加權(quán)求和［24］，即對每個(gè)基本控制行為分別求出控制量，進(jìn)而對這些控制量做加權(quán)平均，求得綜合控制指令，各無人機(jī)執(zhí)行機(jī)構(gòu)按照綜合控制指令執(zhí)行各個(gè)基本控制行為，從而實(shí)現(xiàn)無人機(jī)集群編隊(duì)，如圖4 所示。該方法優(yōu)點(diǎn)是實(shí)時(shí)控制良好；集群內(nèi)無人機(jī)行動較為靈活，能夠發(fā)揮無人機(jī)之間的自主性和協(xié)同性，在因局部未知導(dǎo)致的信息不完全和不確定環(huán)境中能實(shí)現(xiàn)集群的有效控制，形成編隊(duì)魯棒性較好。缺點(diǎn)是在確定整體行為時(shí)，各基本行為權(quán)重調(diào)節(jié)較難，不利于隊(duì)形穩(wěn)定，集群的智能性和行為庫的大小成正比。

圖4 基于行為的方法

當(dāng)前文獻(xiàn)主要在行為庫的設(shè)計(jì)和加權(quán)量的計(jì)算上進(jìn)行研究。文獻(xiàn)［25］中利用優(yōu)化算法對加權(quán)量進(jìn)行了優(yōu)化配比，取得了較好的控制效果。文獻(xiàn)［26］提出了一種基于鴿群行為機(jī)制的多無人機(jī)編隊(duì)控制方法，模仿鴿群特有的層級行為建立鴿群行為機(jī)制模型，通過設(shè)計(jì)基于鴿群行為機(jī)制的控制器實(shí)現(xiàn)無人機(jī)集群編隊(duì)。文獻(xiàn)［27］受寒鴉配對飛行行為機(jī)制啟發(fā)，模仿寒鴉個(gè)體間的配對交互設(shè)計(jì)鄰居選擇機(jī)制，減小交互的平均鄰居數(shù)量，降低無人機(jī)集群通信負(fù)載壓力。文獻(xiàn)［28］通過研究灰狼在團(tuán)隊(duì)合作狩獵時(shí)表現(xiàn)出的社會層級結(jié)構(gòu)與合作捕食行為，對灰狼的群體交互機(jī)制與合作捕食行為建模，將灰狼合作捕食行為機(jī)制映射至無人機(jī)集群動態(tài)任務(wù)分配中，給出了無人機(jī)集群動態(tài)任務(wù)分配流程。文獻(xiàn)［29～30］同樣采用基本控制行為構(gòu)建復(fù)雜控制結(jié)構(gòu)。該結(jié)構(gòu)是由封裝五種基本控制行為的模塊構(gòu)成，通過模塊間的輸入輸出相互作用實(shí)現(xiàn)復(fù)雜的功能。但當(dāng)無人機(jī)執(zhí)行更多復(fù)雜功能時(shí)，結(jié)構(gòu)復(fù)雜性和系統(tǒng)計(jì)算量會隨著集成模塊的增多而指數(shù)增長，對于故障檢測和誤差分析造成極大困難。文獻(xiàn)［31］借鑒文獻(xiàn)［29～30］中的模塊化思想，提出一種基于行為控制策略的分布式無人機(jī)編隊(duì)控制結(jié)構(gòu)，該結(jié)構(gòu)分為三層，即編隊(duì)生成層、避障層和個(gè)體位置控制層，減小了系統(tǒng)復(fù)雜度。

3）基于一致性理論的方法（Consensus Theory Method）。其基本思想是無人機(jī)在基于分布式的網(wǎng)絡(luò)中，利用與之通信的相鄰無人機(jī)狀態(tài)信息來綜合更新自身狀態(tài)，最終使集群內(nèi)所有無人機(jī)的狀態(tài)達(dá)到一致，從而實(shí)現(xiàn)無人機(jī)集群編隊(duì)［32］。該方法在大規(guī)模無人機(jī)集群編隊(duì)控制時(shí)具有較好的適用性、穩(wěn)定性、魯棒性，在未知環(huán)境中能夠保持集群整體狀態(tài)的一致，克服環(huán)境不確定和信息不完全帶來的影響，但是控制方法設(shè)計(jì)比較復(fù)雜，通信時(shí)延和通信拓?fù)湟筝^高，占用通信資源較多，在解決響應(yīng)強(qiáng)實(shí)時(shí)的問題上不夠理想。

一致性理論在發(fā)展過程中逐漸與其他理論和方法進(jìn)行組合應(yīng)用。文獻(xiàn)［33］在一階系統(tǒng)一致性理論發(fā)展的基礎(chǔ)上運(yùn)用李雅普諾夫方法和凸性理論，解決了離散無人機(jī)集群系統(tǒng)的一致性問題。文獻(xiàn)［34］同時(shí)研究了離散和連續(xù)兩種無人機(jī)集群編隊(duì)一致性的基本問題，證明當(dāng)無人機(jī)集群編隊(duì)的通信拓?fù)浣Y(jié)構(gòu)中含有一個(gè)有向生成樹時(shí)能達(dá)到一致性。文獻(xiàn)［35］又針對二階動力學(xué)系統(tǒng)提出基于一致性理論的無人機(jī)集群編隊(duì)控制方法，在考慮僅有鄰近個(gè)體交換信息的條件下，為保證編隊(duì)控制的精確性，擴(kuò)展了一階一致性算法，并將領(lǐng)航者-跟隨者法、虛擬結(jié)構(gòu)法和基于行為法統(tǒng)一到通用的一致性框架中。這種統(tǒng)一的好處在于一致性框架只需要局部鄰近個(gè)體之間的信息交換，并任意信息流引入反饋或是耦合行為，從而提高整個(gè)系統(tǒng)的冗余度和魯棒性，而且不會使控制方法設(shè)計(jì)和收斂/穩(wěn)定性分析復(fù)雜化。文獻(xiàn)［36］提出了一種基于一致性理論的具有防撞能力的協(xié)同無人機(jī)集群編隊(duì)控制方法，將協(xié)同控制算法和避免碰撞控制算法同時(shí)應(yīng)用于四旋翼無人機(jī)，確保了無人機(jī)集群編隊(duì)收斂性。文獻(xiàn)［37］把基于一致性理論的方法用于處理無人機(jī)集群的時(shí)變編隊(duì)控制問題，提出了無人機(jī)集群實(shí)現(xiàn)時(shí)變編隊(duì)的充要條件，并通過室外實(shí)驗(yàn)驗(yàn)證所提方法的有效性。

4）基于深度強(qiáng)化學(xué)習(xí)的方法（Deep Reinforcement Learning Method）。該類方法融合了深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力，用于解決高維決策問題，其基本思想是無人機(jī)集群中，每架無人機(jī)依據(jù)當(dāng)前環(huán)境的聯(lián)合狀態(tài)采取一個(gè)動作，所有動作組成聯(lián)合動作，使得集群整體以一定概率由當(dāng)前聯(lián)合狀態(tài)轉(zhuǎn)變?yōu)榱硪宦?lián)合狀態(tài)，獎勵函數(shù)依據(jù)聯(lián)合狀態(tài)轉(zhuǎn)變方向與控制目標(biāo)是否相向給予聯(lián)合獎勵，通過反復(fù)交互學(xué)習(xí)訓(xùn)練，實(shí)現(xiàn)聯(lián)合獎勵累計(jì)最大化，使得無人機(jī)集群學(xué)會特定聯(lián)合狀態(tài)下的恰當(dāng)聯(lián)合行為，即一個(gè)策略［38～41］，如圖5所示。該方法能夠高度適應(yīng)未知動態(tài)的現(xiàn)實(shí)環(huán)境，可以勝任多種不同類型任務(wù)而無需探究其中具體奧秘，自適應(yīng)性較強(qiáng)，一定程度上解決了環(huán)境不確定的控制難題。在算法訓(xùn)練完成后，策略網(wǎng)絡(luò)只需依據(jù)單個(gè)無人機(jī)的局部環(huán)境觀測狀態(tài)迅速給出合理動作，有效解決信息不完全的影響，并且響應(yīng)實(shí)時(shí)性較好。缺點(diǎn)是隨著無人機(jī)數(shù)量增加，聯(lián)合狀態(tài)和聯(lián)合動作空間過大，學(xué)習(xí)訓(xùn)練時(shí)間過長，收斂速度較慢，穩(wěn)定性不強(qiáng)［42～43］，獎勵函數(shù)的設(shè)計(jì)較為復(fù)雜。

圖5 基于深度強(qiáng)化學(xué)習(xí)的方法

目前，深度強(qiáng)化學(xué)習(xí)的控制方法在無人機(jī)集群上的應(yīng)用主要通過仿真環(huán)境進(jìn)行驗(yàn)證，在實(shí)際飛行環(huán)境的研究較少。文獻(xiàn)［44］設(shè)計(jì)一種分布式的無人機(jī)集群編隊(duì)深度強(qiáng)化學(xué)習(xí)方法，采用“集中式訓(xùn)練-分布式執(zhí)行”的結(jié)構(gòu)，避免過大的聯(lián)合狀態(tài)和聯(lián)合動作空間。文獻(xiàn)［45］基于多智能體近端策略優(yōu)化（MAPPO）算法建立了馬爾可夫決策過程框架，結(jié)合圍捕任務(wù)需求分別設(shè)計(jì)了狀態(tài)空間、動作空間、獎勵函數(shù)，實(shí)現(xiàn)了多無人艇對海上逃逸目標(biāo)的圍捕。文獻(xiàn)［46］對傳統(tǒng)的納什Q 學(xué)習(xí)算法進(jìn)行改進(jìn)，提出了一種基于參數(shù)逼近的無人機(jī)集群強(qiáng)化學(xué)習(xí)算法，能夠使無人機(jī)100%達(dá)到納什均衡，且能夠提高算法性能，簡化算法復(fù)雜性，同時(shí)加快收斂速度。文獻(xiàn)［47］提出了多智能體深度確定性策略梯度算法（MADDPG），實(shí)現(xiàn)了無人機(jī)集群自主靈活地組建編隊(duì)隊(duì)形，基于MADDPG 算法還有多種類似的拓展和補(bǔ)充性的工作［48～49］。文獻(xiàn)［50］提出一種反事實(shí)多智能體策略梯度（Counterfactual Multi-agent Policy Gradients）算法，將一個(gè)無人機(jī)的獎勵表示為當(dāng)前狀態(tài)下的整體獎勵與該無人機(jī)替換動作之后的整體獎勵之差，該算法相對于MADDPG 提高了訓(xùn)練中信息共享的效率和無人機(jī)之間的協(xié)作能力，不足之處是只能用于離散動作空間。文獻(xiàn)［51］在Actor-Critic框架基礎(chǔ)上提出一種CACER 算法，解決了在連續(xù)狀態(tài)下長-僚機(jī)聚集的問題。文獻(xiàn)［52］提出一種深度策略推理遞歸Q 網(wǎng)算法（Deep Policy Inference Recurrent Q-network），使用遞歸神經(jīng)網(wǎng)絡(luò)以應(yīng)對部分可觀性問題，這種算法中每個(gè)無人機(jī)的值函數(shù)一定程度上依賴其他無人機(jī)的策略，減小了環(huán)境的非靜態(tài)性對學(xué)習(xí)帶來的不利影響，可同時(shí)應(yīng)用于無人機(jī)集群合作和競爭兩類任務(wù)。文獻(xiàn)［53］提出一種ID3QN 算法提高學(xué)習(xí)效率，實(shí)現(xiàn)無人機(jī)集群編隊(duì)協(xié)調(diào)控制，并在半物理系統(tǒng)中進(jìn)行驗(yàn)證。

相比于其他算法，MADDPG 算法可應(yīng)用于無人機(jī)集群的競爭、合作等多種任務(wù)場景，同時(shí)可以利用其他無人機(jī)的觀測信息進(jìn)行集中訓(xùn)練，克服因無人機(jī)所處編隊(duì)位置不同導(dǎo)致獲取的編隊(duì)信息不完全而帶來的影響，并采用策略推斷、策略集合機(jī)制增強(qiáng)算法魯棒性，應(yīng)用場景更廣闊，是當(dāng)前主流的控制方法之一，相關(guān)研究文獻(xiàn)也較多。文獻(xiàn)［54］從經(jīng)驗(yàn)回放池?cái)?shù)據(jù)著手，將并行、優(yōu)先經(jīng)驗(yàn)回放的思想方法融入到MADDPG算法中，采用［M/N］個(gè)線程對經(jīng)驗(yàn)池中數(shù)據(jù)并行處理，選擇損失函數(shù)值最小的線程網(wǎng)絡(luò)梯度參數(shù)更新主網(wǎng)絡(luò)梯度參數(shù)，在相同時(shí)間內(nèi)使得經(jīng)驗(yàn)數(shù)據(jù)的吞吐量擴(kuò)展至［M/N］倍，加快了算法訓(xùn)練速度。文獻(xiàn)［55］采用長短時(shí)記憶網(wǎng)絡(luò)和設(shè)計(jì)異步合作更新方法對MADDPG 算法進(jìn)行改進(jìn)，利用長短時(shí)記憶網(wǎng)絡(luò)解決全局獎勵分配時(shí)的信度分配問題，精準(zhǔn)反映各無人機(jī)行為對整體行為的貢獻(xiàn)，同時(shí)長短時(shí)記憶網(wǎng)絡(luò)與MADDPG 網(wǎng)絡(luò)異步合作更新參數(shù)，克服損失函數(shù)強(qiáng)波動問題。文獻(xiàn)［56］對MADDPG 算法在全局評價(jià)網(wǎng)絡(luò)的基礎(chǔ)上，為每個(gè)無人機(jī)構(gòu)建一個(gè)局部評價(jià)網(wǎng)絡(luò)，設(shè)計(jì)全局獎勵函數(shù)和局部獎勵函數(shù)，能夠同時(shí)以解耦的方式最大化全局獎勵和局部獎勵，使得收斂速度明顯加快。文獻(xiàn)［57］將TD3（Twin Delayed Deep Deterministic policy gradient）算法擴(kuò)展到無人機(jī)集群領(lǐng)域中，為每架無人機(jī)設(shè)計(jì)兩個(gè)評價(jià)網(wǎng)絡(luò)模型，通過選取兩個(gè)模型估計(jì)值中較小的一個(gè)來解決MADDPG算法存在值函數(shù)高估的問題，同時(shí)為了提升算法學(xué)習(xí)效率，增加了優(yōu)先經(jīng)驗(yàn)回放機(jī)制。

無人機(jī)集群編隊(duì)自主協(xié)同控制方法優(yōu)缺點(diǎn)如表1所示。

3 結(jié)語

當(dāng)前圍繞無人機(jī)集群編隊(duì)控制問題的研究已取得了大量成果，初步形成了較為完備的理論體系和方法體系。但面向復(fù)雜多變的真實(shí)環(huán)境，無人機(jī)集群編隊(duì)的控制還有很大探索空間，在以下幾個(gè)方面仍需進(jìn)一步深入。主要體現(xiàn)在：

1）對動態(tài)未知環(huán)境下無人機(jī)集群編隊(duì)自主協(xié)同控制的研究。

隨著無人機(jī)集群應(yīng)用領(lǐng)域的不斷拓展，當(dāng)前應(yīng)用環(huán)境的突出特征就是動態(tài)未知，例如在俄烏戰(zhàn)爭中，俄軍使用“獵戶座”察打一體無人機(jī)對烏武裝據(jù)點(diǎn)等高價(jià)值軍事目標(biāo)實(shí)施打擊，烏軍依靠“旗手”TB2 察打一體無人機(jī)實(shí)施低空突防，在面對戰(zhàn)場環(huán)境陌生、信息數(shù)據(jù)缺乏、作戰(zhàn)態(tài)勢多變的作戰(zhàn)環(huán)境，無人機(jī)為戰(zhàn)爭發(fā)展發(fā)揮了非常重要的作用。從俄烏戰(zhàn)爭中獲得的啟發(fā)是，按照預(yù)設(shè)程序的集群控制方法難以適應(yīng)當(dāng)前軍事作戰(zhàn)的需要，開展類似深度強(qiáng)化學(xué)習(xí)的全自主控制方法迫在眉睫。深度強(qiáng)化學(xué)習(xí)的方法最突出的優(yōu)勢是通過學(xué)習(xí)訓(xùn)練，能夠使無人機(jī)集群具備自主應(yīng)對未知環(huán)境中突發(fā)狀況的能力，符合當(dāng)前應(yīng)用領(lǐng)域的需要。

2）對分布式無人機(jī)集群編隊(duì)可擴(kuò)展性的研究。

當(dāng)前無人機(jī)集群應(yīng)用領(lǐng)域逐步復(fù)雜化，所需集群可擴(kuò)展性越來越大，例如在邊境巡邏和情報(bào)偵察中，集群可擴(kuò)展性的大小直接關(guān)乎任務(wù)完成效率和完成速度。但目前集群控制方法大多都存在可擴(kuò)展性不足的問題，尤其是集中式控制類型，可控?zé)o人機(jī)數(shù)量非常有限，嚴(yán)重制約了無人機(jī)集群應(yīng)用領(lǐng)域的拓展，因此，加大對分布式控制類型中可擴(kuò)展性的研究，實(shí)現(xiàn)對大規(guī)模集群控制至關(guān)重要。

3）對三維環(huán)境下無人機(jī)集群編隊(duì)控制的研究。