面向多機(jī)協(xié)同的Att-MADDPG圍捕控制方法設(shè)計(jì)

2021-07-23 10:17魏瑞軒姜龍亭

空軍工程大學(xué)學(xué)報(bào) 2021年3期

劉峰，魏瑞軒，丁超，姜龍亭，李天

(空軍工程大學(xué)航空工程學(xué)院，西安， 710051)

無人機(jī)集群是一種新型作戰(zhàn)樣式，具有作戰(zhàn)成本低、沖突勝算大、生存能力強(qiáng)、作戰(zhàn)效能高的特點(diǎn)。這些重要特征使得無人機(jī)集群在局部沖突中扮演著越來越重要的角色[1-2]。協(xié)同圍捕問題屬于無人機(jī)集群作戰(zhàn)的典型應(yīng)用場景之一，有重要的理論研究價(jià)值和廣泛的應(yīng)用前景。

在協(xié)同圍捕方法設(shè)計(jì)上，已有不少學(xué)者做了相關(guān)研究[3-7]。張紅強(qiáng)等[3]設(shè)計(jì)了一種基于簡化虛擬受力模型，借助勢域函數(shù)使機(jī)器人在未知動態(tài)環(huán)境下完成圍捕。李瑞珍等[4]采用協(xié)商法為機(jī)器人分配動態(tài)圍捕點(diǎn)，建立包含圍捕路徑損耗和包圍效果的目標(biāo)函數(shù)并優(yōu)化航向角，從而實(shí)現(xiàn)協(xié)同圍捕。Michael Rubenstein等[5]以1 000個(gè)機(jī)器人為載體，分邊緣檢測、梯度上升、協(xié)同定位3部分算法設(shè)計(jì)，并通過局部交互進(jìn)行合作，完成給定圖片的不規(guī)則圖形圍捕演示，以人工集群的手段匯聚出自然蜂群的能力。

以上研究均是基于分布式控制，將協(xié)同圍捕問題轉(zhuǎn)換為集群任務(wù)分配、路徑規(guī)劃、群體一致性問題，從而達(dá)到圍捕的效果，但在群體智能涌現(xiàn)方面仍有待提升。

近年來，也有部分學(xué)者探索通過強(qiáng)化學(xué)習(xí)方法來解決協(xié)同圍捕問題[8-10]。吳子沉等[8]將圍捕行為離散化后，設(shè)計(jì)能夠應(yīng)對復(fù)雜環(huán)境的圍捕策略，但其存儲機(jī)制仍有待優(yōu)化。陳亮等[9]提出混合DDPG算法，有效協(xié)同異構(gòu)agent之間的工作，同時(shí)，Q函數(shù)重要信息丟失及過估計(jì)等問題有待解決。Ryan Lowe[10]于2017年提出MADDPG算法，采用“集中訓(xùn)練，分散執(zhí)行”的框架解決了環(huán)境不穩(wěn)定的問題，但是該算法隨著agent數(shù)目的增加，Actor-Critic網(wǎng)絡(luò)難以訓(xùn)練和收斂。

針對以上分析，本文提出一種多無人機(jī)協(xié)同圍捕算法Att-MADDPG(即Attention-MADDPG)。

1 問題描述

1.1 圍捕環(huán)境描述

在一個(gè)無限大且無障礙的二維環(huán)境中，隨機(jī)分布n(n≥3)架圍捕無人機(jī)Ui和一架目標(biāo)無人機(jī)T，其速度分別為vi、vT，且滿足vi>vT，航向角分別為φi、φT，其中i∈In={1,2,…,n}，如圖1所示。

圖1 圍捕環(huán)境示意圖

假設(shè)對于任意無人機(jī)，都能將自身的參數(shù)通過通信網(wǎng)絡(luò)G實(shí)現(xiàn)與其他無人機(jī)實(shí)時(shí)信息交換。本文的目的就是基于這種信息共享，設(shè)計(jì)控制方法，使n架圍捕無人機(jī)通過協(xié)作，在有限時(shí)間t內(nèi)，在目標(biāo)無人機(jī)周圍形成圍捕包圍圈，迫使目標(biāo)無人機(jī)T停止運(yùn)動，從而完成圍捕任務(wù)。理想的圍捕包圍圈通常是圍捕無人機(jī)群均勻分布在以目標(biāo)無人機(jī)T為圓心，圍捕半徑r的圓上[5]，以n=4為例，理想的圍捕包圍圈如圖2所示。

圖2 圍捕包圍圈示意圖

1.2 圍捕無人機(jī)模型

設(shè)無人機(jī)i當(dāng)前時(shí)刻的位置為[x,y]T，構(gòu)建非線性運(yùn)動學(xué)方程如下：

(1)

式中：ui為無人機(jī)的控制輸入，ui∈[-ω0,ω0]；ω0為無人機(jī)角速度上限。圍捕控制策略就是根據(jù)圍捕態(tài)勢確定每架無人機(jī)的ui，使圍捕無人機(jī)集群實(shí)現(xiàn)對目標(biāo)無人機(jī)的有效圍捕。

2 基于強(qiáng)化學(xué)習(xí)的MADDPG算法

2.1 強(qiáng)化學(xué)習(xí)理論

強(qiáng)化學(xué)習(xí)(reinforce learning，RL)是機(jī)器學(xué)習(xí)的一種，不同于監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)是通過與環(huán)境的交互進(jìn)行不斷試錯-學(xué)習(xí)，以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)，如圖3所示。

圖3 智能體與環(huán)境交互圖

強(qiáng)化學(xué)習(xí)的常見模型是標(biāo)準(zhǔn)的馬爾可夫決策過程(markov decision process，MDP)。由四元組〈S,A,R,Ps,a〉表示，其中，S表示狀態(tài)集，A表示動作集，R表示獎勵函數(shù)，Ps,a表示狀態(tài)轉(zhuǎn)移概率?；诋?dāng)前狀態(tài)st，執(zhí)行動作at，以一定的狀態(tài)轉(zhuǎn)移概率達(dá)到下一時(shí)刻狀態(tài)st+1，獲得即時(shí)獎勵Rt，但強(qiáng)化學(xué)習(xí)是尋找最大化累積回報(bào)的學(xué)習(xí)過程[11]。定義累積獎勵期望值Qπ(s,a)：

(2)

式中：γ為折扣因子，0<γ≤1，表示注重長期獎勵的程度。π為策略，即狀態(tài)到動作的映射。給出Q-Learning算法中Q值迭代計(jì)算表達(dá)式：

Q(st,at)←Q(st,at)+α[Rt+γmaxQ(st+1,at+1)-Q(st,at)]

且st狀態(tài)下最優(yōu)策略為：

Dietterich.T.G[12]從值函數(shù)分解的角度，完成了Q-Learning算法中Q值累加的收斂性證明。

2.2 MADDPG算法

多智能體深度確定性策略梯度算法(multi-agent deep deterministic policy gradient，MADDPG)是對深度確定性策略梯度(deep deterministic policy gradient，DDPG)算法進(jìn)行拓展，使其能夠適用于傳統(tǒng)強(qiáng)化方法無法處理的多智能體合作問題的一種智能算法[10]。MADDPG算法采用“集中訓(xùn)練，分散執(zhí)行”的框架進(jìn)行學(xué)習(xí)，見圖4。

圖4 MADDPG算法流程圖

每個(gè)agent擁有一套獨(dú)立的Actor-Critic網(wǎng)絡(luò)，其中Actor為行動網(wǎng)絡(luò)，Critic為評價(jià)網(wǎng)絡(luò)。在訓(xùn)練過程中(圖4中紅色部分)，每個(gè)agent的Critic獲取全信息狀態(tài)，同時(shí)包含所有agent的動作。當(dāng)模型訓(xùn)練完畢，每個(gè)agent的Actor利用局部信息完成與環(huán)境的交互(圖4中藍(lán)色部分)。令Ot表示agent對環(huán)境的觀測，IA和at分別表示Actor的輸入和輸出，IC和Qi分別表示Critic的輸入和輸出，那么對于第i個(gè)agent，網(wǎng)絡(luò)輸入輸出為：

IA=Ot，at=πi(st)
IC=[Ot,a1,a2,…,an]，Qi=Qi(IC)

(3)

當(dāng)agent數(shù)量增多時(shí)，由式(3)中IC可知，Critic的輸入維度也呈線性增長，這將導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練和收斂。文獻(xiàn)[10]和[13]同樣指出，盡管集中訓(xùn)練，分散執(zhí)行的結(jié)構(gòu)具有諸多優(yōu)勢，但是隨著agent數(shù)量的增加，集中訓(xùn)練中Critic網(wǎng)絡(luò)規(guī)模會快速增長，因而無法處理大規(guī)模多智能體的學(xué)習(xí)問題。同樣的，由Facebook AI實(shí)驗(yàn)室和Google AI聯(lián)合贊助的二維網(wǎng)格環(huán)境炸彈人平臺，在測試時(shí)最多也只能容納4個(gè)agent。

3 基于Att-MADDPG的圍捕控制策略設(shè)計(jì)

3.1 面向無人機(jī)圍捕的Attention機(jī)制

近年來，注意力機(jī)制(attention mechanism)被廣泛用于基于深度學(xué)習(xí)的自然語言處理、圖像分類、機(jī)器翻譯可視化對齊、語音識別等各種任務(wù)中，并取得了不錯的效果[14]。2017年6月，Google機(jī)器翻譯團(tuán)隊(duì)借助自注意力機(jī)制在WMT2014語料中的英德和英法翻譯任務(wù)上取得了優(yōu)異成績，翻譯錯誤率降低了60%，并且訓(xùn)練速度遠(yuǎn)優(yōu)于其他主流模型[15]。

圍捕過程中也存在類似的注意力問題。每架無人機(jī)更多的關(guān)注與自己近鄰的無人機(jī)，對距離較遠(yuǎn)的無人機(jī)的態(tài)勢關(guān)注的較少，甚至不關(guān)注。這就是圍捕過程中的注意力現(xiàn)象。我們將這種現(xiàn)象引入到圍捕策略的設(shè)計(jì)，形成面向圍捕的注意力機(jī)制。以無人機(jī)協(xié)同圍捕的場景程闡釋注意力機(jī)制如下：

定義圍捕無人機(jī)集群的聯(lián)合動作為Source，待處理信息為Target：

Source=〈p1,p2,…,pm〉

Target=〈q1,q2,…,qn〉

其中，pi(i=1,2,…,m)表示第i架無人機(jī)動作，qi(i=1,2,…,n)表示待處理信息。Attention機(jī)制[16-17]最常用的是編碼器-解碼器(Encoder-Decoder)框架，如圖5所示。Encoder對輸入的Source進(jìn)行編碼，通過神經(jīng)網(wǎng)絡(luò)的非線性變換轉(zhuǎn)化為注意力分布C，C={c1,c2,…,cLp}，其中Lp為Source的長度，Decoder根據(jù)注意力分布C和n-1時(shí)刻無人機(jī)的位置生成n時(shí)刻的信息qn，即圍捕無人機(jī)集群待處理信息。給出注意力分布ci(i=1,2,…,Lp)的表達(dá)式：

圖5 基于Attention機(jī)制的Encoder-Decoder框架

qn=Attention(ci,qn-1)

(4)

式中：wij為Source中第j架無人機(jī)的注意力權(quán)重系數(shù)；pj為Source中第j架無人機(jī)的動作信息；Attention為非線性變換函數(shù)。

給出基于Attention機(jī)制下注意力分布ci的具體計(jì)算過程：

1)計(jì)算2架圍捕無人機(jī)之間的相關(guān)性系數(shù)：Similarityi=ln(Distanceij/D)，其中Distanceij為兩架圍捕無人機(jī)之間距離，D為有效利用區(qū)域半徑。

2)引入Softmax函數(shù)對第1階段的相關(guān)性系數(shù)進(jìn)行歸一化處理，得到注意力權(quán)重系數(shù)ωi。一方面將原始分值映射成所有元素權(quán)重之和為1的概率分布，另一方面通過Softmax的內(nèi)在機(jī)制突出重要元素的注意力權(quán)重系數(shù)。

(5)

3)根據(jù)注意力權(quán)重系數(shù)對圍捕無人機(jī)信息進(jìn)行加權(quán)求和，計(jì)算注意力分布ci值。

3.2 基于Att-MADDPG的圍捕控制策略

本文2.2節(jié)中分析MADDPG算法由于IC的計(jì)算中使用了所有agent的信息，使得其訓(xùn)練收斂受到影響。因此，我們引入Attention機(jī)制對信息進(jìn)行注意力篩選，從而提高信息的有效利用率，算法框圖如圖6所示。

圖6 基于Attention機(jī)制改進(jìn)的MADDPG算法框圖

與MADDPG算法不同之處在于中心化的大腦(即Critic)協(xié)調(diào)所有圍捕無人機(jī)的動作之前，經(jīng)各自Attention模塊進(jìn)行非線性處理，對有效利用區(qū)域內(nèi)的圍捕無人機(jī)信息進(jìn)行策略評估(圖6中紅色部分所示)。當(dāng)模型訓(xùn)練完畢，依據(jù)Actor利用局部信息完成與環(huán)境的交互(圖6中藍(lán)色部分所示)。則圍捕無人機(jī)i的有效利用區(qū)域值函數(shù)為：

因此，每架圍捕無人機(jī)的Critic網(wǎng)絡(luò)擬合的是有效利用區(qū)域的全局值函數(shù)，而非圍捕無人機(jī)自身的值函數(shù)。這樣，只需要圍捕無人機(jī)的策略朝著有效利用區(qū)域的全局值函數(shù)的方向更新即可。使用MADDPG算法中雙網(wǎng)絡(luò)進(jìn)行更新：

(6)

式中：yi為目標(biāo)網(wǎng)絡(luò)的值函數(shù)，由即時(shí)獎勵和下一步確定策略值函數(shù)構(gòu)成；L(θi)為目標(biāo)Critic網(wǎng)絡(luò)損失函數(shù)，θi為網(wǎng)絡(luò)中參數(shù)集合。目標(biāo)Actor網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò)采用周期性平穩(wěn)滑動方法從Actor-Critic網(wǎng)絡(luò)中復(fù)制參數(shù)進(jìn)行更新。目標(biāo)Critic網(wǎng)絡(luò)損失梯度通過鏈?zhǔn)椒▌t進(jìn)行求導(dǎo)，其梯度為：

(7)

式中：狀態(tài)s為有效利用區(qū)域全局觀測；si為圍捕無人機(jī)自身觀測。Att-MADDPG算法流程見圖7。

圖7 Att-MADDPG算法流程圖

Att-MADDPG算法偽代碼如下所示：

初始化環(huán)境參數(shù)、參數(shù)變量;判斷是否圍捕成功;for episode=1 to Mdo 初始化隨機(jī)噪聲N; 初始化圍捕無人機(jī)狀態(tài)S; fort=1 to max-episode-length do 每架圍捕無人機(jī)采用隨機(jī)策略執(zhí)行一次動作A,與環(huán)境交互后得到即時(shí)獎勵R,并達(dá)到新的狀態(tài)S'; 存儲到經(jīng)驗(yàn)池中,S←S'; for圍捕無人機(jī)i=1 tondo 從經(jīng)驗(yàn)池中采樣; 基于Attention機(jī)制計(jì)算Qπi(sj,aj); 設(shè)置目標(biāo)網(wǎng)絡(luò)值函數(shù)yj; 基于最小損失函數(shù)Lθi 更新Critic; 基于策略梯度‰L(θi)更新Actor; end for 更新每架圍捕無人機(jī)網(wǎng)絡(luò)參數(shù): θ'i←αθi+(1-α)θ'i end forend for

4 仿真實(shí)驗(yàn)

為驗(yàn)證所設(shè)計(jì)Att-MADDPG算法的有效性及智能性，取圍捕無人機(jī)數(shù)量n=4進(jìn)行動態(tài)協(xié)同圍捕仿真實(shí)驗(yàn)，并對比MADDPG算法進(jìn)行訓(xùn)練，測試相關(guān)性能指標(biāo)。

4.1 仿真環(huán)境配置

設(shè)置圍捕無人機(jī)獎勵函數(shù)如下：

仿真環(huán)境參數(shù)設(shè)置如表1所示。

表1 仿真場景設(shè)置

配置相同的四機(jī)協(xié)同圍捕環(huán)境，設(shè)置相同的獎勵函數(shù)，MADDPG算法及Att-MADDPG算法的訓(xùn)練過程如圖8～9所示。如圖8所示，采用MADDPG算法訓(xùn)練的圍捕無人機(jī)集群大致完成協(xié)同圍捕任務(wù)，但訓(xùn)練過程中仍存在一些片段無法有效圍捕。

圖8 MADDPG算法訓(xùn)練過程圖

由圖9可知，經(jīng)過訓(xùn)練，Att-MADDPG算法的平均獎勵在150片段后收斂，并大致均勻分布570左右，圍捕無人機(jī)集群能夠有效完成協(xié)同圍捕任務(wù)，并獲得較高獎勵。

圖9 Att-MADDPG算法訓(xùn)練過程圖

引入Att-MADDPG算法及MADDPG算法在穩(wěn)定收斂后1 000個(gè)片段的均方差，對比驗(yàn)證算法的穩(wěn)定性，見表2。Att-MADDPG算法較MADDPG算法在協(xié)同圍捕上更加穩(wěn)定，根據(jù)3σ原則，記錄穩(wěn)定收斂后1 000個(gè)片段不在此范圍內(nèi)的平均獎勵數(shù)目，見表3，Att-MADDPG算法穩(wěn)定性較MADDPG算法提高8.9%。

表2 穩(wěn)定收斂后1 000個(gè)片段的均方差

表3 1 000個(gè)片段內(nèi)不在3σ原則范圍內(nèi)的數(shù)目

4.2 動態(tài)協(xié)同圍捕仿真驗(yàn)證

設(shè)定目標(biāo)無人機(jī)的運(yùn)動策略為固定直線軌跡，對經(jīng)過Att-MADDPG算法訓(xùn)練后的4架智能圍捕無人機(jī)進(jìn)行驗(yàn)證，驗(yàn)證集參數(shù)見表4。

表4 動態(tài)協(xié)同圍捕驗(yàn)證集參數(shù)

由圖10可知，圍捕無人機(jī)通過相互協(xié)作完成圍捕。在圍捕過程中，無人機(jī)實(shí)時(shí)判斷圍捕態(tài)勢，引入注意力機(jī)制觀察有效利用區(qū)域半徑內(nèi)的其他無人機(jī)狀態(tài)信息，達(dá)到形成圍捕包圍圈的目的，各無人機(jī)經(jīng)過協(xié)作使系統(tǒng)涌現(xiàn)出更加智能化的協(xié)同圍捕行為。

圖10 動態(tài)協(xié)同圍捕軌跡圖

環(huán)境配置相同，采用MADDPG算法進(jìn)行驗(yàn)證，Att-MADDPG算法完成協(xié)同圍捕總用時(shí)264 s，MADDPG算法本文算法總用時(shí)326.4 s，減少19.12%。

5 結(jié)論

無人機(jī)集群作戰(zhàn)在局部沖突中發(fā)揮著越來越重要的作用，協(xié)同圍捕是無人機(jī)集群作戰(zhàn)的典型應(yīng)用場景之一，也是集群作戰(zhàn)中的重要問題。本文針對MADDPG算法隨著agent數(shù)量的增加，訓(xùn)練難以收斂的不足，基于注意力機(jī)制提出Att-MADDPG圍捕控制方法，較MADDPG算法的訓(xùn)練穩(wěn)定性提高8.9%，任務(wù)完成耗時(shí)減少19.12%，且經(jīng)學(xué)習(xí)后的圍捕無人機(jī)通過協(xié)作配合使集群涌現(xiàn)出更具智能化圍捕行為。

為使本文所提算法能夠適用于更加復(fù)雜的環(huán)境，仍需研究基于群智匯聚的協(xié)同圍捕機(jī)理，并優(yōu)化在三維環(huán)境下的協(xié)同圍捕策略，使圍捕行為更具智能化。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡