蘇 震,張 釗,陳 聰,劉殿勇,梁 霄
(1.珠海云洲智能科技股份有限公司 工業(yè)發(fā)展部, 廣東 珠海 519080;2.大連海事大學(xué) 船舶與海洋工程學(xué)院, 遼寧 大連 116026)
水面無人艇作為智能化無人系統(tǒng)和作戰(zhàn)平臺的代表性武器裝備,具有體積小、造價低、隱身性好、全海域航行、全天候工作等特點(diǎn),能夠在環(huán)境調(diào)查、情報偵查、警戒巡邏、反水雷作戰(zhàn)等領(lǐng)域發(fā)揮重要作用。
在復(fù)雜多變的海洋環(huán)境下,單無人艇載荷配置十分有限、任務(wù)能力偏弱、作戰(zhàn)樣式相對單一,在很大程度上無法保證任務(wù)的順利完成。無人艇集群協(xié)同作戰(zhàn)可彌補(bǔ)單艇能力的不足,充分發(fā)揮群體靈活部署快、監(jiān)控范圍廣、作戰(zhàn)組織靈活、抗毀重構(gòu)性強(qiáng)等優(yōu)勢。為應(yīng)對無人艇集群攻擊,最有效的方法就是利用無人艇集群對入侵的無人艇集群進(jìn)行攔截、驅(qū)離或圍捕,從而形成無人艇集群間的博弈對抗。
博弈對抗技術(shù)是智能化軍事應(yīng)用的基礎(chǔ)和共性技術(shù),是解決指揮控制中作戰(zhàn)方案生成、任務(wù)規(guī)劃及臨機(jī)決策等智能化的關(guān)鍵,同時也是訓(xùn)練模擬、自主集群無人化作戰(zhàn)等軍事關(guān)鍵領(lǐng)域智能化建設(shè)的核心技術(shù)基礎(chǔ)。因此,在網(wǎng)絡(luò)環(huán)境下,研究無人艇集群博弈對抗技術(shù)具有重要的理論意義和軍事價值。
Marden等研究了基于博弈理論的協(xié)同對抗技術(shù),通過評估當(dāng)前行為的后續(xù)影響,以及對可能發(fā)生的情況進(jìn)行預(yù)測估計,從而制定更為合理的實時方案。Atanassov等對傳統(tǒng)模糊集進(jìn)行了進(jìn)一步拓展,由于直覺模糊數(shù)的二元標(biāo)量性具有更強(qiáng)的模糊表述能力,被廣泛地應(yīng)用于解決不確定環(huán)境下的決策問題。Park等基于微分博弈理論,提出了一種機(jī)動決策方法,遵循分級決策結(jié)構(gòu),使用評分函數(shù)矩陣描述機(jī)動決策過程,以選擇動態(tài)作戰(zhàn)態(tài)勢下最優(yōu)機(jī)動決策方案,提升機(jī)動決策的有效性。邵將等通過建立多無人機(jī)協(xié)同空戰(zhàn)連續(xù)決策過程,使用貝葉斯推論對空戰(zhàn)態(tài)勢進(jìn)行實時評估,并以此設(shè)計的決策規(guī)則進(jìn)行機(jī)動決策。陳俠等通過建立無人機(jī)的能力函數(shù),建立多無人機(jī)協(xié)同打擊任務(wù)的攻防博弈模型,給出了有限策略靜態(tài)博弈模型與純策略納什均衡的求解方法。通過求解博弈模型的混合策略納什均衡解,并結(jié)合一定作戰(zhàn)經(jīng)驗,形成任務(wù)決策方法。段海濱等研究了“狼群”智能行為機(jī)理,并將其應(yīng)用于無人機(jī)集群系統(tǒng)對抗任務(wù),解決無人機(jī)集群協(xié)同決策問題。魏娜等針對多自主水下航行器的水下協(xié)同對抗博弈問題,以博弈論為基礎(chǔ),多無人艇的多次對抗為作戰(zhàn)背景,從同時考慮敵我雙方對抗策略的角度出發(fā),對多無人艇的動態(tài)協(xié)同攻防對抗策略問題進(jìn)行了研究。李瑞珍等采用協(xié)商法為機(jī)器人分配動態(tài)圍捕點(diǎn),建立包含圍捕路徑損耗和包圍效果的目標(biāo)函數(shù)并優(yōu)化 航向角,從而實現(xiàn)協(xié)同圍捕。陳亮等提出混合DDPG算法,有效協(xié)同異構(gòu)agent之間的工作,同時,Q函數(shù)重要信息丟失及過估計等問題有待解決。Foersteret提出了使用集中式評論家的 COMA,集中式評論家可以獲得全局信息來指導(dǎo)每個智能體,從而進(jìn)一步提高每個智能體的信息建模能力。
上述研究成果的取得表明國內(nèi)外研究學(xué)者在無人艇集群博弈對抗方面取得了一定的研究成果,但仍處于起步階段,存在許多實際問題有待進(jìn)一步解決。
第一,無人艇集群動態(tài)博弈對抗研究較少。海上博弈對抗環(huán)境復(fù)雜且目標(biāo)大都為動態(tài),動態(tài)對抗在決策過程中不僅需要考慮博弈前一階段的影響,同時需考慮對后一階段產(chǎn)生的后果。
第二,實時決策效率較低。無人艇集群動態(tài)博弈對抗過程中,每個階段均需通過多步矩陣運(yùn)算產(chǎn)生對抗雙方的博弈收益,這將導(dǎo)致博弈空間復(fù)雜度成指數(shù)級增長,現(xiàn)有求解算法難以實現(xiàn)實時決策目的。
本文中針對紅藍(lán)雙方無人艇集群動態(tài)博弈對抗問題,開展基于深度強(qiáng)化學(xué)習(xí)的無人艇集群協(xié)同圍捕決策研究。首先,根據(jù)無人艇集群狀態(tài)信息與無人艇運(yùn)動性能進(jìn)行圍捕環(huán)境建模;然后,采用基于雙評價網(wǎng)絡(luò)改進(jìn)的DDPG算法設(shè)計策略求解方法,并且立足協(xié)同圍捕任務(wù),設(shè)計基于距離和相對角度的階段性獎勵函數(shù);最終,經(jīng)仿真實驗驗證,訓(xùn)練得到的智能體能夠較好的完成協(xié)同圍捕任務(wù)。
無人艇集群協(xié)同圍捕是集群作戰(zhàn)的典型樣式,在無限大且無障礙的作戰(zhàn)區(qū)域內(nèi),存在若干艘逃逸無人艇與圍捕無人艇,逃逸無人艇要在躲避圍捕無人艇追蹤;圍捕無人艇要對逃逸無人艇盡快完成對其的圍捕。本文中追擊-逃逸過程在二維平面內(nèi)進(jìn)行,且假設(shè)通過探測設(shè)備,雙方均能獲得所有無人艇運(yùn)動參數(shù)信息。
紅方無人艇的目標(biāo)點(diǎn)均勻分布在以藍(lán)方艇群中心為圓心,以為半徑的圓上。此外,考慮到無人艇機(jī)動性,若各紅方艇距離目標(biāo)點(diǎn)均小于時,可視為圍捕完成。以5艘圍捕無人艇,一艘逃逸無人艇為例,圍捕過程如圖1所示,圍捕完成如圖2所示。
圖1 圍捕過程示意圖Fig.1 Round up process
圖2 圍捕完成示意圖Fig.2 Round up complete
無人艇運(yùn)動模型為
(1)
式中:表示第艘無人艇橫向位置;表示無人艇縱向位置;表示無人艇速度大??;表示無人艇艏向角。
第艘無人艇與第艘無人艇相對距離和相對角度為
(2)
狀態(tài)空間包括各無人艇位置信息,其具體形式為
=(,,,,…,,,,)
(3)
無人艇動作空間是連續(xù)的,對應(yīng)的動作為二維速度向量。定義藍(lán)方無人艇速度大小∈[0,max],max為藍(lán)方無人艇速度上限;艏相角∈[0,2π](單位為弧度);定義紅方無人艇速度大小∈[0,max],max為紅方無人艇速度上限;艏相角∈[0,2π]。
本文中基于改進(jìn)的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法研究無人艇集群博弈對抗策略問題,DDPG算法結(jié)構(gòu)如圖3所示。
圖3 DDPG算法結(jié)構(gòu)框圖Fig.3 DDPG structure
首先,為每艘無人艇設(shè)計策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò),其中的評價網(wǎng)絡(luò)接收無人艇的狀態(tài)和動作進(jìn)行學(xué)習(xí),策略網(wǎng)絡(luò)只接收狀態(tài)信息。該算法主要包括策略函數(shù)網(wǎng)絡(luò)和評價函數(shù)網(wǎng)絡(luò),且每個網(wǎng)絡(luò)均包括了主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)完全一樣,網(wǎng)絡(luò)總體結(jié)構(gòu)如圖4所示。
圖4 策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)總體結(jié)構(gòu)框圖Fig.4 Network structure of actor and critic
DDPG算法是深度Q網(wǎng)絡(luò)算法在連續(xù)動作空間的進(jìn)階版,因此DDPG同樣存在目標(biāo)值高估問題。針對該問題對算法結(jié)構(gòu)做出如下改進(jìn):
1) 建立2套結(jié)構(gòu)相同的評價網(wǎng)絡(luò),計算時序差分目標(biāo)時采用2個目標(biāo)網(wǎng)絡(luò)輸出中的較小值作為目標(biāo)值,2個主網(wǎng)絡(luò)均通過最小化均方差更新。
2) 降低策略網(wǎng)絡(luò)的更新頻率,促使評價網(wǎng)絡(luò)更新更穩(wěn)定。
3) 在目標(biāo)策略網(wǎng)絡(luò)的輸出上增加一個服從正態(tài)分布的噪聲,從而平滑值估計,避免評價網(wǎng)絡(luò)過擬合。策略主網(wǎng)絡(luò)更新時,采用2個評價主網(wǎng)絡(luò)輸出的較小值。
算法流程如下:
改進(jìn)的DDPG算法
初始化策略網(wǎng)絡(luò)和2套評價網(wǎng)絡(luò)參數(shù)
初始化經(jīng)驗池
for episode=1,do
初始化智能體狀態(tài)
for=1,do
為每一個智能體,選擇加入噪聲的隨機(jī)過程動作
返回所有智能體的動作集合,獎勵,下一個狀態(tài)值
儲存狀態(tài)轉(zhuǎn)移數(shù)據(jù)對到經(jīng)驗池
從經(jīng)驗池中隨機(jī)選擇最小批次數(shù)據(jù)
計算損失函數(shù)更新評價網(wǎng)絡(luò)
計算策略梯度更新策略網(wǎng)絡(luò)
“軟更新”目標(biāo)網(wǎng)絡(luò)參數(shù)
End for
End for
其中,代表總回合數(shù);代表回合時長。
獎勵函數(shù)決定了深度強(qiáng)化學(xué)習(xí)的收斂速度與收斂程度,需要根據(jù)作業(yè)任務(wù)與環(huán)境來設(shè)置獎勵函數(shù)。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,獎勵函數(shù)的設(shè)計通常做法是只有一個結(jié)果獎勵,即只有在智能體到達(dá)最終目標(biāo)時才會獲得獎勵,因此這種做法在操作規(guī)則較為復(fù)雜的任務(wù)中并不適用。為此,本文中將任務(wù)獎勵分解為目標(biāo)獎勵與過程獎勵兩部分,通過賦予無人艇階段性運(yùn)動獎勵來引導(dǎo)其學(xué)習(xí)到正確的圍捕行為,得到最優(yōu)博弈對抗策略的同時避免回報稀疏問題。針對協(xié)同圍捕,下面設(shè)計紅方無人艇獎勵函數(shù)。
集體獎勵函數(shù)為
(4)
式中:為第艘紅方無人艇距藍(lán)方無人艇的距離;為第艘紅方無人艇與藍(lán)方無人艇的角度。
=1+2+3
(5)
式中:1表示當(dāng)紅方與藍(lán)方距離未達(dá)到包圍范圍時獎勵,獎勵考慮因素為平均距離;2表示當(dāng)紅方與藍(lán)方距離達(dá)到包圍范圍時獎勵,獎勵考慮因素為相對角度;3表示規(guī)定時間內(nèi)未完成圍捕,紅方任務(wù)失敗。
為驗證基于深度強(qiáng)化學(xué)習(xí)的無人艇集群博弈對抗策略有效性,下面分別進(jìn)行5對1和7對3圍捕下的集群博弈對抗仿真。
5對1下的仿真參數(shù)如表1所示。收益如圖5所示,其中,回合收益表示一回合中每次迭代所獲得的獎勵的和,平均收益為最近一百回合收益的平均值。可以看出,收益整體呈上升趨勢并最終穩(wěn)定在較高水平,證明所建立的已經(jīng)收斂。算法約在3 800回合收斂,最大獎勵值為800,每艘無人艇均可到達(dá)目標(biāo)位置完成圍捕任務(wù)。
表1 5對1仿真參數(shù)Table 1 Simulation parameters under 5 vs 1
圖5 5對1回合收益示意圖Fig.5 Round reward under 5 vs 1
圍捕仿真結(jié)果如圖6所示,圖6(a)為起始位置,圖6(d)為圍捕完成時位置,中間各時刻位置圖相差14 s。在圍捕初始時刻,紅方無人艇位置相對分散,藍(lán)方無人艇出現(xiàn)在紅方無人艇北偏西方向。隨后,紅方向藍(lán)方無人艇所在方向進(jìn)行集中,逐漸接近藍(lán)方無人艇;藍(lán)方無人艇向目標(biāo)區(qū)域靠近,并在紅方無人艇接近時向北方向進(jìn)行偏移躲避,狀態(tài)如圖6(b)所示。接著,紅方無人艇追上藍(lán)方無人艇并在其周圍做伴隨運(yùn)動,逐漸形成圍捕趨勢;藍(lán)方無人艇繼續(xù)向目標(biāo)區(qū)域靠近,狀態(tài)如圖6 (c)所示。最終,紅方無人艇在藍(lán)方無人艇到達(dá)目標(biāo)區(qū)域前完成對藍(lán)方無人艇的圍捕,狀態(tài)如圖6(d)所示。
圖6 5對1仿真結(jié)果示意圖Fig.6 Simulation results under 5 vs 1
7對3下的仿真參數(shù)如表2所示。收益如圖7所示,可以看出,收益值呈整體上升并最終穩(wěn)定在較高水平,算法約在4 300回合收斂,最大獎勵值為1 000,每艘無人艇均可到達(dá)目標(biāo)位置完成圍捕任務(wù)。
表2 7對3仿真參數(shù)Table 2 Simulation parameters under 7 vs 3
圖7 7對3回合示意圖Fig.7 Round reward under 7 vs 3
圍捕仿真結(jié)果如圖8所示,圖中(a)為起始位置,(d)為圍捕完成時位置,中間各時刻位置圖相差32 s。在圍捕初始時刻,紅方無人艇與藍(lán)方無人艇相距300 m左右,藍(lán)方無人艇位于紅方無人艇北方向,目標(biāo)區(qū)域位于藍(lán)方無人艇東北方向,紅藍(lán)雙方位置均較為散亂。隨后,紅方無人艇向藍(lán)方無人艇所在方向進(jìn)行運(yùn)動;藍(lán)方無人艇邊向目標(biāo)區(qū)域靠近,邊對紅方無人艇追捕行為進(jìn)行躲避,狀態(tài)如圖(b)所示。接著,紅方無人艇追上藍(lán)方無人艇,并在其周圍逐漸展開圍捕趨勢;藍(lán)方無人艇繼續(xù)向目標(biāo)區(qū)域運(yùn)動,狀態(tài)如圖(c)所示。最終,紅方無人艇完成對藍(lán)方無人艇的圍捕,圍捕半徑約為300 m,并以圍捕狀態(tài)伴隨在藍(lán)方無人艇周圍進(jìn)行運(yùn)動,狀態(tài)如圖(d)所示。
圖8 7對3仿真結(jié)果示意圖Fig.8 Simulation results under 7 vs 3
設(shè)計了協(xié)同圍捕環(huán)境下深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)信息、動作信息、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和獎勵函數(shù),并分別開展了5對1和7對3下的集群博弈對抗仿真驗證。仿真結(jié)果表明,基于深度強(qiáng)化學(xué)習(xí)的紅方無人艇集群能夠?qū)λ{(lán)方無人艇進(jìn)行有效的協(xié)同圍捕。未來工作將在此基礎(chǔ)上研究弱連通下的無人艇集群博弈對抗。