国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

無人機(jī)集群編隊(duì)自主協(xié)同控制方法綜述?

2024-04-15 09:24高甲博
艦船電子工程 2024年1期
關(guān)鍵詞:領(lǐng)航者跟隨者編隊(duì)

高甲博 肖 瑋

(陸軍勤務(wù)學(xué)院 重慶 401331)

1 引言

無人機(jī)憑借其成本低、適應(yīng)性強(qiáng)、靈活性高等優(yōu)點(diǎn)得到廣泛應(yīng)用,隨著應(yīng)用領(lǐng)域不斷擴(kuò)展,無人機(jī)執(zhí)行任務(wù)的難度和復(fù)雜度也日益增加[1]。為此,科研工作者將目光投向了無人機(jī)集群領(lǐng)域。無人機(jī)集群[2]是指將多個(gè)無人機(jī)按照一定的結(jié)構(gòu)、模式進(jìn)行組合,通過協(xié)調(diào)控制使其具備群體自主感知、自主決策和自主行動能力[3],能夠完成單一無人機(jī)難以完成的任務(wù),如戰(zhàn)場滲透[4]、遠(yuǎn)程偵察[5]、電子干擾[6]等。無人機(jī)集群編隊(duì)控制是集群實(shí)現(xiàn)整體效能最優(yōu)化的重要基礎(chǔ)。目前,在實(shí)際應(yīng)用中主要的兩種控制方法是:一種是依據(jù)控制目標(biāo)任務(wù)提前設(shè)計(jì)固定控制策略,集群內(nèi)各個(gè)無人機(jī)按照預(yù)先設(shè)計(jì)的控制策略進(jìn)行編隊(duì);另一種是通過遠(yuǎn)程遙控實(shí)時(shí)發(fā)送控制指令,集群內(nèi)無人機(jī)按照指令實(shí)現(xiàn)無人機(jī)集群編隊(duì)。這兩種控制方法都較為成熟,但難以滿足無人機(jī)集群在場景復(fù)雜導(dǎo)致的環(huán)境不確定、局部可觀導(dǎo)致的信息不完全、狀況突發(fā)導(dǎo)致的響應(yīng)強(qiáng)實(shí)時(shí)等新領(lǐng)域應(yīng)用發(fā)展中的需要。所以,亟需探索一種適應(yīng)新領(lǐng)域應(yīng)用場景的無人機(jī)集群編隊(duì)控制方法。

隨著智能控制的不斷發(fā)展,自主協(xié)同控制的方法打破了這一瓶頸,該方法是通過集群內(nèi)無人機(jī)之間的協(xié)同感知、自主決策、相互配合,求得目標(biāo)任務(wù)的最優(yōu)解,能夠有效提高無人機(jī)集群編隊(duì)控制的自主性,充分發(fā)揮集群內(nèi)無人機(jī)之間的協(xié)作能力,實(shí)現(xiàn)“1+1>2”的效果。為此,探索無人機(jī)集群編隊(duì)的自主協(xié)同控制方法,實(shí)現(xiàn)自主靈活高效的無人機(jī)集群編隊(duì)控制,對進(jìn)一步提高無人機(jī)集群執(zhí)行復(fù)雜高難度任務(wù)的能力,拓展加深其應(yīng)用領(lǐng)域,具有十分重要的學(xué)術(shù)研究價(jià)值和現(xiàn)實(shí)應(yīng)用意義。

2 無人機(jī)集群編隊(duì)自主協(xié)同控制方法研究現(xiàn)狀

無人機(jī)集群編隊(duì)自主協(xié)同控制方法包括多種,按照其控制通信拓?fù)浣Y(jié)構(gòu)不同,主要分為集中式和分布式兩大類[7]。集中式[8]由控制中心向被控節(jié)點(diǎn)發(fā)送控制指令和編隊(duì)信息,同時(shí)接受被控節(jié)點(diǎn)的狀態(tài)信息,實(shí)現(xiàn)對無人機(jī)集群編隊(duì)的控制。該類型優(yōu)點(diǎn)是形成編隊(duì)隊(duì)形精度高,控制速度快,算法設(shè)計(jì)簡單,缺點(diǎn)是對控制中心計(jì)算和通信速度要求高,魯棒性較差,難以實(shí)現(xiàn)大規(guī)模的集群控制。分布式[9]集群內(nèi)不存在控制中心,各節(jié)點(diǎn)只需與鄰居節(jié)點(diǎn)交換信息,通過節(jié)點(diǎn)之間的相互協(xié)作實(shí)現(xiàn)無人機(jī)集群編隊(duì)的控制,優(yōu)點(diǎn)是去中心化,魯棒性較高,適應(yīng)復(fù)雜動態(tài)的應(yīng)用環(huán)境,可控?zé)o人機(jī)規(guī)模較大,缺點(diǎn)是算法設(shè)計(jì)復(fù)雜,通信時(shí)限要求高,存在誤差疊加,形成的編隊(duì)隊(duì)形精度不高。

2.1 集中式控制類型

集中式控制類型主要包括領(lǐng)航者-跟隨者方法、虛擬結(jié)構(gòu)法等。

1)領(lǐng)航者-跟隨者方法(Leader-follower Method),又稱長機(jī)-僚機(jī)法。該方法是目前無人機(jī)集群編隊(duì)控制中最常用的控制方法之一,其基本思想是集群內(nèi)領(lǐng)航者自主飛行,跟隨者接收領(lǐng)導(dǎo)者的控制指令調(diào)整自身運(yùn)動參數(shù),以維持在編隊(duì)中相對位置,同時(shí)反饋?zhàn)陨硇畔⒔o領(lǐng)航者集中處理,從而實(shí)現(xiàn)編隊(duì)控制,如圖1 所示。該方法的算法設(shè)計(jì)較為簡單,形成編隊(duì)隊(duì)形精度較高,通過領(lǐng)航者實(shí)現(xiàn)信息共享,有效解決信息不完全導(dǎo)致的控制困難,但對領(lǐng)航者依賴過大,編隊(duì)整體魯棒性不足,并對領(lǐng)航者的通信和運(yùn)算能力要求較高,難以應(yīng)對環(huán)境不確定的復(fù)雜場景下的大規(guī)模集群控制。

圖1 領(lǐng)航者-跟隨者方法

領(lǐng)航者-跟隨者方法在實(shí)際應(yīng)用中并不單獨(dú)使用,一般與其他控制方法結(jié)合應(yīng)用。文獻(xiàn)[10]為跟隨者設(shè)計(jì)自適應(yīng)神經(jīng)網(wǎng)絡(luò),使得跟隨者能夠預(yù)測領(lǐng)航者的動作,提高了系統(tǒng)的瞬態(tài)控制性能。文獻(xiàn)[11]采用內(nèi)外環(huán)的編隊(duì)控制方法,外環(huán)通過領(lǐng)航者-跟隨者實(shí)現(xiàn)多無人機(jī)協(xié)同飛行,內(nèi)環(huán)設(shè)計(jì)一種優(yōu)化的主動抗擾系統(tǒng),使得輕型無人機(jī)能夠克服外部環(huán)境風(fēng)力的影響實(shí)現(xiàn)穩(wěn)定飛行。文獻(xiàn)[12]引入貪婪算法、基于行為的方法和虛擬結(jié)構(gòu)法,將目標(biāo)隊(duì)型中l(wèi)eader和follower的區(qū)域劃分并分布計(jì)算,提高了無人機(jī)集群編隊(duì)的魯棒性和穩(wěn)定性。文獻(xiàn)[13]將領(lǐng)航者-跟隨者方法進(jìn)行集成,設(shè)計(jì)出基于多智能體系統(tǒng)的新型無人機(jī)集群編隊(duì)控制方法,該方法可隨機(jī)指定領(lǐng)航者,彌補(bǔ)了領(lǐng)航者-跟隨者方法中對唯一領(lǐng)航者依賴性過大的不足,提高了編隊(duì)的魯棒性。

2)虛擬結(jié)構(gòu)法(Virtual Structure Method)。該方法最早由美國加利福尼亞大學(xué)Lewis[14]等提出,其基本思想是將無人機(jī)集群編隊(duì)看成是一個(gè)虛擬剛體,在編隊(duì)中設(shè)定一個(gè)虛擬中心為參考點(diǎn),所有無人機(jī)根據(jù)參考點(diǎn)信息調(diào)整自身飛行狀態(tài)和坐標(biāo)位置,以形成和保持虛擬剛體的編隊(duì)隊(duì)形[15],如圖2 所示。該方法可以克服長機(jī)毀壞帶來的編隊(duì)混亂這一缺陷,魯棒性較高,但要求無人機(jī)的運(yùn)動必須是剛性運(yùn)動,在外部擾動和無人機(jī)間氣動因素影響下,無人機(jī)對虛擬點(diǎn)的追蹤較為困難。

圖2 虛擬結(jié)構(gòu)法

針對上述問題,相關(guān)學(xué)者對該方法進(jìn)行改進(jìn)。文獻(xiàn)[16]把同步位置跟蹤控制器并入無人機(jī)集群編隊(duì)控制器中,改善了無人機(jī)的跟蹤效果,加快了編隊(duì)的收斂速度。文獻(xiàn)[17]將無人機(jī)和編隊(duì)虛擬結(jié)構(gòu)的姿態(tài)控制系統(tǒng)分開設(shè)計(jì),同時(shí)考慮參數(shù)不確定性和外部干擾,設(shè)計(jì)時(shí)變滑??刂扑惴?,并通過數(shù)值模擬說明所提策略的有效性。文獻(xiàn)[18]采用基于虛擬結(jié)構(gòu)法的非線性魯棒無人機(jī)集群編隊(duì)控制方法,通過對在慣性坐標(biāo)系下虛擬剛體光滑軌跡的生成設(shè)計(jì),以及在虛擬剛體坐標(biāo)系下的無人機(jī)編隊(duì)隊(duì)形控制設(shè)計(jì)來實(shí)現(xiàn)無人機(jī)集群編隊(duì)的形成、保持和變換,并針對飛行時(shí)集群內(nèi)無人機(jī)之間的氣流擾動問題,設(shè)計(jì)基于高階滑膜算法的魯棒控制算法,提高了控制精度和穩(wěn)定性。

2.2 分布式控制類型

分布式控制類型主要包括人工勢場法、基于行為的方法、一致性理論、深度強(qiáng)化學(xué)習(xí)的方法等。

1)人工勢場法(Artificial Potential Field Method)。其基本思想借鑒了物理學(xué)中勢場概念,為集群內(nèi)無人機(jī)設(shè)計(jì)勢場函數(shù),在感知范圍內(nèi),依據(jù)無人機(jī)之間相鄰距離設(shè)置排斥區(qū)、保持區(qū)、吸引區(qū),排斥區(qū)內(nèi)相鄰無人機(jī)會受斥力拉大距離,保持區(qū)內(nèi)無人機(jī)控制參數(shù)保持不變,吸引區(qū)內(nèi)相鄰無人機(jī)受引力縮小距離,通過勢場力使得每架無人機(jī)收斂到期望位置,從而保持編隊(duì)隊(duì)形,如圖3 所示。該方法在設(shè)計(jì)上較為簡單,集群內(nèi)無人機(jī)自主性、協(xié)同性較好,能夠?qū)崿F(xiàn)不確定環(huán)境下較大規(guī)模的集群控制,并滿足響應(yīng)強(qiáng)實(shí)時(shí)的要求,但容易存在局部極值,閉環(huán)系統(tǒng)穩(wěn)定性證明較為困難,不易形成精度較高的編隊(duì)隊(duì)形。

圖3 人工勢場法

該方法一般與其他方法結(jié)合使用,主要在解決局部極值和提高系統(tǒng)穩(wěn)定性上進(jìn)行改進(jìn)。文獻(xiàn)[19]采用虛擬結(jié)構(gòu)法在三維空間中設(shè)立編隊(duì)參考點(diǎn)和目標(biāo)參考點(diǎn),再通過人工勢場作用下使得無人機(jī)集群形成期望編隊(duì)隊(duì)形,有效克服人工勢場法容易陷入局部極點(diǎn)的缺陷。文獻(xiàn)[20]針對固定翼無人機(jī)轉(zhuǎn)彎和最小空速必須為正的約束,提出一種非對稱的局部勢場法,并借助領(lǐng)航者-跟隨者框架,使跟隨者的空速和航向角收斂至其領(lǐng)航者的空速和航向角。文獻(xiàn)[21]在人工勢場法的基礎(chǔ)上,提出一種分叉勢場法,通過對十架無人機(jī)隊(duì)形變換的仿真結(jié)果分析,系統(tǒng)的穩(wěn)定性明顯提高。

2)基于行為的方法(Behavioral Method)[22]。其基本思想是定義無人機(jī)集群形成編隊(duì)所需的幾種基本控制行為,如碰撞避免、障礙回避、目標(biāo)獲取、隊(duì)形保持[23]等,通過距離、視覺、速度等傳感器采集無人機(jī)集群狀態(tài)信息,依據(jù)狀態(tài)信息對各基本控制行為進(jìn)行加權(quán)求和[24],即對每個(gè)基本控制行為分別求出控制量,進(jìn)而對這些控制量做加權(quán)平均,求得綜合控制指令,各無人機(jī)執(zhí)行機(jī)構(gòu)按照綜合控制指令執(zhí)行各個(gè)基本控制行為,從而實(shí)現(xiàn)無人機(jī)集群編隊(duì),如圖4 所示。該方法優(yōu)點(diǎn)是實(shí)時(shí)控制良好;集群內(nèi)無人機(jī)行動較為靈活,能夠發(fā)揮無人機(jī)之間的自主性和協(xié)同性,在因局部未知導(dǎo)致的信息不完全和不確定環(huán)境中能實(shí)現(xiàn)集群的有效控制,形成編隊(duì)魯棒性較好。缺點(diǎn)是在確定整體行為時(shí),各基本行為權(quán)重調(diào)節(jié)較難,不利于隊(duì)形穩(wěn)定,集群的智能性和行為庫的大小成正比。

圖4 基于行為的方法

當(dāng)前文獻(xiàn)主要在行為庫的設(shè)計(jì)和加權(quán)量的計(jì)算上進(jìn)行研究。文獻(xiàn)[25]中利用優(yōu)化算法對加權(quán)量進(jìn)行了優(yōu)化配比,取得了較好的控制效果。文獻(xiàn)[26]提出了一種基于鴿群行為機(jī)制的多無人機(jī)編隊(duì)控制方法,模仿鴿群特有的層級行為建立鴿群行為機(jī)制模型,通過設(shè)計(jì)基于鴿群行為機(jī)制的控制器實(shí)現(xiàn)無人機(jī)集群編隊(duì)。文獻(xiàn)[27]受寒鴉配對飛行行為機(jī)制啟發(fā),模仿寒鴉個(gè)體間的配對交互設(shè)計(jì)鄰居選擇機(jī)制,減小交互的平均鄰居數(shù)量,降低無人機(jī)集群通信負(fù)載壓力。文獻(xiàn)[28]通過研究灰狼在團(tuán)隊(duì)合作狩獵時(shí)表現(xiàn)出的社會層級結(jié)構(gòu)與合作捕食行為,對灰狼的群體交互機(jī)制與合作捕食行為建模,將灰狼合作捕食行為機(jī)制映射至無人機(jī)集群動態(tài)任務(wù)分配中,給出了無人機(jī)集群動態(tài)任務(wù)分配流程。文獻(xiàn)[29~30]同樣采用基本控制行為構(gòu)建復(fù)雜控制結(jié)構(gòu)。該結(jié)構(gòu)是由封裝五種基本控制行為的模塊構(gòu)成,通過模塊間的輸入輸出相互作用實(shí)現(xiàn)復(fù)雜的功能。但當(dāng)無人機(jī)執(zhí)行更多復(fù)雜功能時(shí),結(jié)構(gòu)復(fù)雜性和系統(tǒng)計(jì)算量會隨著集成模塊的增多而指數(shù)增長,對于故障檢測和誤差分析造成極大困難。文獻(xiàn)[31]借鑒文獻(xiàn)[29~30]中的模塊化思想,提出一種基于行為控制策略的分布式無人機(jī)編隊(duì)控制結(jié)構(gòu),該結(jié)構(gòu)分為三層,即編隊(duì)生成層、避障層和個(gè)體位置控制層,減小了系統(tǒng)復(fù)雜度。

3)基于一致性理論的方法(Consensus Theory Method)。其基本思想是無人機(jī)在基于分布式的網(wǎng)絡(luò)中,利用與之通信的相鄰無人機(jī)狀態(tài)信息來綜合更新自身狀態(tài),最終使集群內(nèi)所有無人機(jī)的狀態(tài)達(dá)到一致,從而實(shí)現(xiàn)無人機(jī)集群編隊(duì)[32]。該方法在大規(guī)模無人機(jī)集群編隊(duì)控制時(shí)具有較好的適用性、穩(wěn)定性、魯棒性,在未知環(huán)境中能夠保持集群整體狀態(tài)的一致,克服環(huán)境不確定和信息不完全帶來的影響,但是控制方法設(shè)計(jì)比較復(fù)雜,通信時(shí)延和通信拓?fù)湟筝^高,占用通信資源較多,在解決響應(yīng)強(qiáng)實(shí)時(shí)的問題上不夠理想。

一致性理論在發(fā)展過程中逐漸與其他理論和方法進(jìn)行組合應(yīng)用。文獻(xiàn)[33]在一階系統(tǒng)一致性理論發(fā)展的基礎(chǔ)上運(yùn)用李雅普諾夫方法和凸性理論,解決了離散無人機(jī)集群系統(tǒng)的一致性問題。文獻(xiàn)[34]同時(shí)研究了離散和連續(xù)兩種無人機(jī)集群編隊(duì)一致性的基本問題,證明當(dāng)無人機(jī)集群編隊(duì)的通信拓?fù)浣Y(jié)構(gòu)中含有一個(gè)有向生成樹時(shí)能達(dá)到一致性。文獻(xiàn)[35]又針對二階動力學(xué)系統(tǒng)提出基于一致性理論的無人機(jī)集群編隊(duì)控制方法,在考慮僅有鄰近個(gè)體交換信息的條件下,為保證編隊(duì)控制的精確性,擴(kuò)展了一階一致性算法,并將領(lǐng)航者-跟隨者法、虛擬結(jié)構(gòu)法和基于行為法統(tǒng)一到通用的一致性框架中。這種統(tǒng)一的好處在于一致性框架只需要局部鄰近個(gè)體之間的信息交換,并任意信息流引入反饋或是耦合行為,從而提高整個(gè)系統(tǒng)的冗余度和魯棒性,而且不會使控制方法設(shè)計(jì)和收斂/穩(wěn)定性分析復(fù)雜化。文獻(xiàn)[36]提出了一種基于一致性理論的具有防撞能力的協(xié)同無人機(jī)集群編隊(duì)控制方法,將協(xié)同控制算法和避免碰撞控制算法同時(shí)應(yīng)用于四旋翼無人機(jī),確保了無人機(jī)集群編隊(duì)收斂性。文獻(xiàn)[37]把基于一致性理論的方法用于處理無人機(jī)集群的時(shí)變編隊(duì)控制問題,提出了無人機(jī)集群實(shí)現(xiàn)時(shí)變編隊(duì)的充要條件,并通過室外實(shí)驗(yàn)驗(yàn)證所提方法的有效性。

4)基于深度強(qiáng)化學(xué)習(xí)的方法(Deep Reinforcement Learning Method)。該類方法融合了深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,用于解決高維決策問題,其基本思想是無人機(jī)集群中,每架無人機(jī)依據(jù)當(dāng)前環(huán)境的聯(lián)合狀態(tài)采取一個(gè)動作,所有動作組成聯(lián)合動作,使得集群整體以一定概率由當(dāng)前聯(lián)合狀態(tài)轉(zhuǎn)變?yōu)榱硪宦?lián)合狀態(tài),獎勵函數(shù)依據(jù)聯(lián)合狀態(tài)轉(zhuǎn)變方向與控制目標(biāo)是否相向給予聯(lián)合獎勵,通過反復(fù)交互學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)聯(lián)合獎勵累計(jì)最大化,使得無人機(jī)集群學(xué)會特定聯(lián)合狀態(tài)下的恰當(dāng)聯(lián)合行為,即一個(gè)策略[38~41],如圖5所示。該方法能夠高度適應(yīng)未知動態(tài)的現(xiàn)實(shí)環(huán)境,可以勝任多種不同類型任務(wù)而無需探究其中具體奧秘,自適應(yīng)性較強(qiáng),一定程度上解決了環(huán)境不確定的控制難題。在算法訓(xùn)練完成后,策略網(wǎng)絡(luò)只需依據(jù)單個(gè)無人機(jī)的局部環(huán)境觀測狀態(tài)迅速給出合理動作,有效解決信息不完全的影響,并且響應(yīng)實(shí)時(shí)性較好。缺點(diǎn)是隨著無人機(jī)數(shù)量增加,聯(lián)合狀態(tài)和聯(lián)合動作空間過大,學(xué)習(xí)訓(xùn)練時(shí)間過長,收斂速度較慢,穩(wěn)定性不強(qiáng)[42~43],獎勵函數(shù)的設(shè)計(jì)較為復(fù)雜。

圖5 基于深度強(qiáng)化學(xué)習(xí)的方法

目前,深度強(qiáng)化學(xué)習(xí)的控制方法在無人機(jī)集群上的應(yīng)用主要通過仿真環(huán)境進(jìn)行驗(yàn)證,在實(shí)際飛行環(huán)境的研究較少。文獻(xiàn)[44]設(shè)計(jì)一種分布式的無人機(jī)集群編隊(duì)深度強(qiáng)化學(xué)習(xí)方法,采用“集中式訓(xùn)練-分布式執(zhí)行”的結(jié)構(gòu),避免過大的聯(lián)合狀態(tài)和聯(lián)合動作空間。文獻(xiàn)[45]基于多智能體近端策略優(yōu)化(MAPPO)算法建立了馬爾可夫決策過程框架,結(jié)合圍捕任務(wù)需求分別設(shè)計(jì)了狀態(tài)空間、動作空間、獎勵函數(shù),實(shí)現(xiàn)了多無人艇對海上逃逸目標(biāo)的圍捕。文獻(xiàn)[46]對傳統(tǒng)的納什Q 學(xué)習(xí)算法進(jìn)行改進(jìn),提出了一種基于參數(shù)逼近的無人機(jī)集群強(qiáng)化學(xué)習(xí)算法,能夠使無人機(jī)100%達(dá)到納什均衡,且能夠提高算法性能,簡化算法復(fù)雜性,同時(shí)加快收斂速度。文獻(xiàn)[47]提出了多智能體深度確定性策略梯度算法(MADDPG),實(shí)現(xiàn)了無人機(jī)集群自主靈活地組建編隊(duì)隊(duì)形,基于MADDPG 算法還有多種類似的拓展和補(bǔ)充性的工作[48~49]。文獻(xiàn)[50]提出一種反事實(shí)多智能體策略梯度(Counterfactual Multi-agent Policy Gradients)算法,將一個(gè)無人機(jī)的獎勵表示為當(dāng)前狀態(tài)下的整體獎勵與該無人機(jī)替換動作之后的整體獎勵之差,該算法相對于MADDPG 提高了訓(xùn)練中信息共享的效率和無人機(jī)之間的協(xié)作能力,不足之處是只能用于離散動作空間。文獻(xiàn)[51]在Actor-Critic框架基礎(chǔ)上提出一種CACER 算法,解決了在連續(xù)狀態(tài)下長-僚機(jī)聚集的問題。文獻(xiàn)[52]提出一種深度策略推理遞歸Q 網(wǎng)算法(Deep Policy Inference Recurrent Q-network),使用遞歸神經(jīng)網(wǎng)絡(luò)以應(yīng)對部分可觀性問題,這種算法中每個(gè)無人機(jī)的值函數(shù)一定程度上依賴其他無人機(jī)的策略,減小了環(huán)境的非靜態(tài)性對學(xué)習(xí)帶來的不利影響,可同時(shí)應(yīng)用于無人機(jī)集群合作和競爭兩類任務(wù)。文獻(xiàn)[53]提出一種ID3QN 算法提高學(xué)習(xí)效率,實(shí)現(xiàn)無人機(jī)集群編隊(duì)協(xié)調(diào)控制,并在半物理系統(tǒng)中進(jìn)行驗(yàn)證。

相比于其他算法,MADDPG 算法可應(yīng)用于無人機(jī)集群的競爭、合作等多種任務(wù)場景,同時(shí)可以利用其他無人機(jī)的觀測信息進(jìn)行集中訓(xùn)練,克服因無人機(jī)所處編隊(duì)位置不同導(dǎo)致獲取的編隊(duì)信息不完全而帶來的影響,并采用策略推斷、策略集合機(jī)制增強(qiáng)算法魯棒性,應(yīng)用場景更廣闊,是當(dāng)前主流的控制方法之一,相關(guān)研究文獻(xiàn)也較多。文獻(xiàn)[54]從經(jīng)驗(yàn)回放池?cái)?shù)據(jù)著手,將并行、優(yōu)先經(jīng)驗(yàn)回放的思想方法融入到MADDPG算法中,采用[M/N]個(gè)線程對經(jīng)驗(yàn)池中數(shù)據(jù)并行處理,選擇損失函數(shù)值最小的線程網(wǎng)絡(luò)梯度參數(shù)更新主網(wǎng)絡(luò)梯度參數(shù),在相同時(shí)間內(nèi)使得經(jīng)驗(yàn)數(shù)據(jù)的吞吐量擴(kuò)展至[M/N]倍,加快了算法訓(xùn)練速度。文獻(xiàn)[55]采用長短時(shí)記憶網(wǎng)絡(luò)和設(shè)計(jì)異步合作更新方法對MADDPG 算法進(jìn)行改進(jìn),利用長短時(shí)記憶網(wǎng)絡(luò)解決全局獎勵分配時(shí)的信度分配問題,精準(zhǔn)反映各無人機(jī)行為對整體行為的貢獻(xiàn),同時(shí)長短時(shí)記憶網(wǎng)絡(luò)與MADDPG 網(wǎng)絡(luò)異步合作更新參數(shù),克服損失函數(shù)強(qiáng)波動問題。文獻(xiàn)[56]對MADDPG 算法在全局評價(jià)網(wǎng)絡(luò)的基礎(chǔ)上,為每個(gè)無人機(jī)構(gòu)建一個(gè)局部評價(jià)網(wǎng)絡(luò),設(shè)計(jì)全局獎勵函數(shù)和局部獎勵函數(shù),能夠同時(shí)以解耦的方式最大化全局獎勵和局部獎勵,使得收斂速度明顯加快。文獻(xiàn)[57]將TD3(Twin Delayed Deep Deterministic policy gradient)算法擴(kuò)展到無人機(jī)集群領(lǐng)域中,為每架無人機(jī)設(shè)計(jì)兩個(gè)評價(jià)網(wǎng)絡(luò)模型,通過選取兩個(gè)模型估計(jì)值中較小的一個(gè)來解決MADDPG算法存在值函數(shù)高估的問題,同時(shí)為了提升算法學(xué)習(xí)效率,增加了優(yōu)先經(jīng)驗(yàn)回放機(jī)制。

無人機(jī)集群編隊(duì)自主協(xié)同控制方法優(yōu)缺點(diǎn)如表1所示。

3 結(jié)語

當(dāng)前圍繞無人機(jī)集群編隊(duì)控制問題的研究已取得了大量成果,初步形成了較為完備的理論體系和方法體系。但面向復(fù)雜多變的真實(shí)環(huán)境,無人機(jī)集群編隊(duì)的控制還有很大探索空間,在以下幾個(gè)方面仍需進(jìn)一步深入。主要體現(xiàn)在:

1)對動態(tài)未知環(huán)境下無人機(jī)集群編隊(duì)自主協(xié)同控制的研究。

隨著無人機(jī)集群應(yīng)用領(lǐng)域的不斷拓展,當(dāng)前應(yīng)用環(huán)境的突出特征就是動態(tài)未知,例如在俄烏戰(zhàn)爭中,俄軍使用“獵戶座”察打一體無人機(jī)對烏武裝據(jù)點(diǎn)等高價(jià)值軍事目標(biāo)實(shí)施打擊,烏軍依靠“旗手”TB2 察打一體無人機(jī)實(shí)施低空突防,在面對戰(zhàn)場環(huán)境陌生、信息數(shù)據(jù)缺乏、作戰(zhàn)態(tài)勢多變的作戰(zhàn)環(huán)境,無人機(jī)為戰(zhàn)爭發(fā)展發(fā)揮了非常重要的作用。從俄烏戰(zhàn)爭中獲得的啟發(fā)是,按照預(yù)設(shè)程序的集群控制方法難以適應(yīng)當(dāng)前軍事作戰(zhàn)的需要,開展類似深度強(qiáng)化學(xué)習(xí)的全自主控制方法迫在眉睫。深度強(qiáng)化學(xué)習(xí)的方法最突出的優(yōu)勢是通過學(xué)習(xí)訓(xùn)練,能夠使無人機(jī)集群具備自主應(yīng)對未知環(huán)境中突發(fā)狀況的能力,符合當(dāng)前應(yīng)用領(lǐng)域的需要。

2)對分布式無人機(jī)集群編隊(duì)可擴(kuò)展性的研究。

當(dāng)前無人機(jī)集群應(yīng)用領(lǐng)域逐步復(fù)雜化,所需集群可擴(kuò)展性越來越大,例如在邊境巡邏和情報(bào)偵察中,集群可擴(kuò)展性的大小直接關(guān)乎任務(wù)完成效率和完成速度。但目前集群控制方法大多都存在可擴(kuò)展性不足的問題,尤其是集中式控制類型,可控?zé)o人機(jī)數(shù)量非常有限,嚴(yán)重制約了無人機(jī)集群應(yīng)用領(lǐng)域的拓展,因此,加大對分布式控制類型中可擴(kuò)展性的研究,實(shí)現(xiàn)對大規(guī)模集群控制至關(guān)重要。

3)對三維環(huán)境下無人機(jī)集群編隊(duì)控制的研究。

現(xiàn)有論文中的無人機(jī)集群編隊(duì)控制方法大都建模在二維環(huán)境下,和實(shí)際應(yīng)用環(huán)境存在偏差,為提高控制方法的實(shí)用度,開展三維環(huán)境下的集群控制研究是一個(gè)重要的方向。同時(shí)融入更加豐富的無人機(jī)及環(huán)境的約束條件,如無人機(jī)的最大航程、敵方火力威脅區(qū)域等,同時(shí)也需要研究三維環(huán)境下無人機(jī)與其它地面、水上智能體之間的協(xié)同控制,充分發(fā)揮聯(lián)合作戰(zhàn)的優(yōu)勢。

猜你喜歡
領(lǐng)航者跟隨者編隊(duì)
2023年1月25日,美軍一次演習(xí)期間,空軍正在進(jìn)行編隊(duì)飛行
漁船的“領(lǐng)航者”和“安全衛(wèi)士”
“益源慶”打造中國高品質(zhì)食醋領(lǐng)航者
IC訪談:“智慧政府”領(lǐng)航者——新華三集團(tuán)
基于事件驅(qū)動的多飛行器編隊(duì)協(xié)同控制
由城市臺的“跟隨者”到縣域“三農(nóng)”媒體的 “領(lǐng)導(dǎo)者”
做純棉數(shù)碼印花領(lǐng)航者
從“跟隨者”到“引領(lǐng)者”
—— 甕福集團(tuán)PPA項(xiàng)目成為攪動市場的“鯰魚”
跟隨者
出口跟隨者會受益于開拓者嗎?——來自中國工業(yè)企業(yè)的證據(jù)