文永明,石曉榮,黃雪梅,余 躍
(北京控制與電子技術(shù)研究所,北京100038)
隨著集群技術(shù)和人工智能的發(fā)展,基于群體智能的集群協(xié)同技術(shù)逐漸發(fā)展為未來智能化戰(zhàn)爭(zhēng)的發(fā)展方向[1-3]。無人機(jī)集群利用低成本、大規(guī)模和分布式的優(yōu)勢(shì),協(xié)同偵查作戰(zhàn)可以體現(xiàn)出顯著的靈活性和智能性。無人機(jī)集群協(xié)同偵查在線決策主要包括協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多個(gè)相互耦合的任務(wù),無人機(jī)集群需要根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)和作戰(zhàn)任務(wù)決策出每架無人機(jī)的偵查目標(biāo)和突防軌跡,以最大化集群對(duì)抗效能。隨著對(duì)抗環(huán)境愈加復(fù)雜動(dòng)態(tài),對(duì)抗手段愈加多樣智能,無人機(jī)集群對(duì)抗在線決策存在耦合任務(wù)多、決策空間大和場(chǎng)景不確定難題,導(dǎo)致傳統(tǒng)基于專家知識(shí)和現(xiàn)代優(yōu)化算法的決策方法難以同時(shí)滿足在線決策的實(shí)時(shí)性、最優(yōu)性和泛化性。
隨著人工智能技術(shù)的發(fā)展與突破[4],尤其是深度強(qiáng)化學(xué)習(xí)在智能決策等方面得到了廣泛關(guān)注與研究[5-7]。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有機(jī)結(jié)合,深度學(xué)習(xí)善于擬合,可通過深層神經(jīng)網(wǎng)絡(luò)表征復(fù)雜空間的非線性和泛化性,強(qiáng)化學(xué)習(xí)善于決策,可通過迭代學(xué)習(xí)使累計(jì)獎(jiǎng)勵(lì)最大化來獲得高性能策略。深度強(qiáng)化學(xué)習(xí)基于大量離線訓(xùn)練得到智能策略網(wǎng)絡(luò),進(jìn)行快速在線決策,可彌補(bǔ)無人機(jī)集群對(duì)抗程序化策略帶來的局限性,提升應(yīng)對(duì)復(fù)雜飛行環(huán)境和突發(fā)事件的適應(yīng)能力[8]。
在深度強(qiáng)化學(xué)習(xí)架構(gòu)方面,當(dāng)決策問題由單個(gè)任務(wù)或少數(shù)簡(jiǎn)單任務(wù)構(gòu)成時(shí),通常采用集中式深度強(qiáng)化學(xué)習(xí)架構(gòu)來解決。如圖1所示,集中式架構(gòu)的多耦合任務(wù)使用同一套策略網(wǎng)絡(luò)、獎(jiǎng)勵(lì)函數(shù)和經(jīng)驗(yàn)池,進(jìn)行集中式耦合訓(xùn)練,在決策時(shí)一次同時(shí)輸出各個(gè)任務(wù)的動(dòng)作。集中式架構(gòu)建模簡(jiǎn)單,并且在理論上可保證存在全局最優(yōu)解。
圖1 集中式架構(gòu)Fig.1 Centralized architecture
文獻(xiàn)[9]基于DDPG集中式架構(gòu)優(yōu)化一類變體飛行器外形,因其決策空間較小,故可以快速收斂到最優(yōu)變外形策略。文獻(xiàn)[10]采用DQN(Deep Q-Network)算法對(duì)多個(gè)Atari小游戲(比如“乒乓球”、“打磚塊”等)進(jìn)行建模和訓(xùn)練,最終在多款游戲上的表現(xiàn)超越了人類玩家。然而,在“蒙特祖瑪?shù)膹?fù)仇”這款游戲中,DQN算法的勝率為0%[11],其原因是這款游戲的任務(wù)較多且相互耦合(比如爬樓梯、躲避敵人、拿鑰匙等),策略空間巨大,集中式架構(gòu)在有限計(jì)算資源下難以收斂。為了解決多個(gè)耦合復(fù)雜任務(wù)所帶來的決策空間爆炸等問題,分層式深度強(qiáng)化學(xué)習(xí)架構(gòu)被提出[12]。如圖2所示,分層式架構(gòu)的多耦合任務(wù)使用多套對(duì)應(yīng)的策略網(wǎng)絡(luò)、獎(jiǎng)勵(lì)函數(shù)和經(jīng)驗(yàn)池,按照任務(wù)間的邏輯關(guān)系進(jìn)行分層單獨(dú)訓(xùn)練,在決策時(shí)輸出各自的動(dòng)作進(jìn)行組合來完成整個(gè)決策問題。分層式架構(gòu)將多耦合任務(wù)進(jìn)行解耦建模與分層單獨(dú)訓(xùn)練,可以縮小整個(gè)決策問題的策略空間,使得各個(gè)任務(wù)的策略網(wǎng)絡(luò)收斂速度加快。
圖2 分層式架構(gòu)Fig.2 Hierarchical architecture
文獻(xiàn)[13]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)將“蒙特祖瑪?shù)膹?fù)仇”抽象成多個(gè)不同層次的子任務(wù)進(jìn)行建模,AI可以完成游戲任務(wù)。文獻(xiàn)[14]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)對(duì)一款籃球游戲建模,基于下層已熟練掌握的籃球技巧,智能體學(xué)到了上層的有效策略。文獻(xiàn)[15]基于高斯過程回歸與深度強(qiáng)化學(xué)習(xí)的分層人機(jī)協(xié)作控制方法,并以人機(jī)協(xié)作控制球桿系統(tǒng)為例檢驗(yàn)該方法的高效性。然而,分層式架構(gòu)的各個(gè)子任務(wù)的策略網(wǎng)絡(luò)分離,即使各個(gè)子任務(wù)都收斂到各自的全局最優(yōu)解,但是將它們組合后,得到的結(jié)果很可能不是整個(gè)任務(wù)的全局最優(yōu)解。例如在無人機(jī)集群對(duì)抗中,目標(biāo)分配結(jié)果是軌跡規(guī)劃的輸入,而軌跡規(guī)劃性能是目標(biāo)分配的依據(jù),分層式架構(gòu)將這兩個(gè)子任務(wù)分開訓(xùn)練,沒有充分考慮它們之間固有的耦合關(guān)系,因此多耦合任務(wù)間的協(xié)同性無法充分體現(xiàn),集群對(duì)抗效能無法充分發(fā)揮。本文針對(duì)無人機(jī)集群對(duì)抗中耦合任務(wù)多和決策空間大難題,結(jié)合集中式和分層式架構(gòu)的優(yōu)點(diǎn),設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu),通過構(gòu)建多套相關(guān)聯(lián)的多耦合任務(wù)分層策略網(wǎng)絡(luò)進(jìn)行集中耦合訓(xùn)練,可提升多耦合任務(wù)間的協(xié)同性和集群對(duì)抗效能。
在深度強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面,序貫動(dòng)作導(dǎo)致的稀疏獎(jiǎng)勵(lì)問題是指在多步強(qiáng)化學(xué)習(xí)中,往往只在最后一步存在明確獎(jiǎng)勵(lì),而中間過程的即時(shí)獎(jiǎng)勵(lì)函數(shù)難以人為設(shè)計(jì)且存在主觀性和經(jīng)驗(yàn)性。例如無人機(jī)集群對(duì)抗的多步軌跡規(guī)劃只在結(jié)束時(shí)才能得到是否被攔截或者偵查目標(biāo)的結(jié)果,而中間過程很難根據(jù)當(dāng)前的位置和速度等信息設(shè)計(jì)合適的即時(shí)獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)突防和偵查目標(biāo)。強(qiáng)化學(xué)習(xí)是求累計(jì)獎(jiǎng)勵(lì)期望最大時(shí)的最優(yōu)策略,獎(jiǎng)勵(lì)函數(shù)不同將直接影響策略的性能,如果沒有合適的即時(shí)獎(jiǎng)勵(lì),稀疏獎(jiǎng)勵(lì)問題會(huì)導(dǎo)致策略網(wǎng)絡(luò)難以快速且穩(wěn)定收斂[16]。為了解決稀疏獎(jiǎng)勵(lì)問題,文獻(xiàn)[17]提出逆向強(qiáng)化學(xué)習(xí)方法,即專家在完成某項(xiàng)任務(wù)時(shí),其決策往往是最優(yōu)或接近最優(yōu),可以假設(shè),當(dāng)所有的策略所產(chǎn)生的累積獎(jiǎng)勵(lì)期望都不比專家策略所產(chǎn)生的累積獎(jiǎng)勵(lì)期望大時(shí),所對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)就是根據(jù)示例學(xué)到的獎(jiǎng)勵(lì)函數(shù)。為了使逆向強(qiáng)化學(xué)習(xí)可以很好地?cái)U(kuò)展到具有大量狀態(tài)的系統(tǒng),將其與深度學(xué)習(xí)相結(jié)合,在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)狀態(tài)動(dòng)作對(duì)的獎(jiǎng)勵(lì),如基于最大邊際法的深度逆向強(qiáng)化學(xué)習(xí)[18]和基于深度Q網(wǎng)絡(luò)的深度學(xué)徒學(xué)習(xí)[19]等。然而,逆向強(qiáng)化學(xué)習(xí)和深度逆向強(qiáng)化學(xué)習(xí)都是從專家示例中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),在復(fù)雜場(chǎng)景下無人機(jī)集群對(duì)抗問題中難以獲取足夠的專家示例來支撐上述方法。本文針對(duì)軌跡規(guī)劃序貫決策的稀疏獎(jiǎng)勵(lì)難題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動(dòng)作空間設(shè)計(jì)方法,回避了多步?jīng)Q策的中間過程,從而避免了稀疏獎(jiǎng)勵(lì)問題,可使策略網(wǎng)絡(luò)穩(wěn)定快速收斂。
在深度強(qiáng)化學(xué)習(xí)的泛化性研究方面,泛化性是指訓(xùn)練好的智能策略網(wǎng)絡(luò)在未見過的場(chǎng)景中也具有一定的適應(yīng)能力,其體現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)對(duì)獨(dú)立同分布數(shù)據(jù)強(qiáng)大的擬合和預(yù)測(cè)能力。因此,在深度強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,使策略網(wǎng)絡(luò)探索到盡可能大的決策空間,增加數(shù)據(jù)的多樣性,是提升其泛化性的有效途徑。2017年,DeepMind團(tuán)隊(duì)在《Nature》上推出了圍棋人工智能AlphaZero[20],AlphaZero不需要人類專家知識(shí),只使用純粹的深度強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索,經(jīng)過3天的自我博弈就以100比0的成績(jī)完敗了AlphaGo,AlphaZero強(qiáng)大的搜索能力和泛化性得益于海量且多樣的自我博弈數(shù)據(jù)。文獻(xiàn)[21]指出,AlphaZero智能化方法框架可以啟發(fā)人工智能在智能指揮決策等領(lǐng)域的應(yīng)用。本文針對(duì)強(qiáng)對(duì)抗條件下的場(chǎng)景不確定難題,基于無人機(jī)集群紅藍(lán)對(duì)抗仿真平臺(tái),設(shè)計(jì)了基于多隨機(jī)場(chǎng)景的紅藍(lán)博弈訓(xùn)練方法,通過隨機(jī)變化對(duì)抗雙方的初始位置和速度等,來設(shè)置每局的對(duì)抗態(tài)勢(shì),從而得到多樣化的對(duì)抗訓(xùn)練數(shù)據(jù);通過設(shè)計(jì)藍(lán)方AI,采用紅藍(lán)博弈的方式獲得更加智能的藍(lán)方策略作為紅方AI的陪練,從而可以進(jìn)一步提升紅方AI的泛化性。
本文的主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn):1)針對(duì)無人機(jī)集群對(duì)抗中耦合任務(wù)多和決策空間大難題,設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu),可提升多耦合任務(wù)間的協(xié)同性和集群對(duì)抗效能;2)針對(duì)軌跡規(guī)劃序貫決策的稀疏獎(jiǎng)勵(lì)難題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動(dòng)作空間設(shè)計(jì)方法,可加快策略網(wǎng)絡(luò)收斂速度;3)針對(duì)強(qiáng)對(duì)抗條件下的場(chǎng)景不確定難題,設(shè)計(jì)了基于多隨機(jī)場(chǎng)景的紅藍(lán)博弈訓(xùn)練方法,可增強(qiáng)策略網(wǎng)絡(luò)的泛化性。
混合式架構(gòu)將集中式架構(gòu)和分層式架構(gòu)進(jìn)行結(jié)合。多耦合任務(wù)使用多套與子任務(wù)對(duì)應(yīng)的執(zhí)行者-評(píng)估者(Actor-Critic, AC)神經(jīng)網(wǎng)絡(luò)與獎(jiǎng)勵(lì)函數(shù)分層構(gòu)建網(wǎng)絡(luò),且多個(gè)經(jīng)驗(yàn)池中的經(jīng)驗(yàn)相互關(guān)聯(lián)。在策略網(wǎng)絡(luò)訓(xùn)練控制器的調(diào)度下,多個(gè)策略網(wǎng)絡(luò)按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練。在訓(xùn)練過程中,每個(gè)評(píng)估者(Critic)網(wǎng)絡(luò)收集所有任務(wù)的狀態(tài)和動(dòng)作信息作為評(píng)價(jià)的輸入,從而為策略更新提供準(zhǔn)確且穩(wěn)定的信號(hào),更充分的狀態(tài)和動(dòng)作信息有助于提高耦合任務(wù)間的協(xié)同性;在策略執(zhí)行過程中,各任務(wù)只需根據(jù)自己的狀態(tài)和執(zhí)行者(Actor)網(wǎng)絡(luò),進(jìn)行決策控制,如圖3所示。
圖3 混合式架構(gòu)Fig.3 Hybrid architecture
混合式架構(gòu)保留了集中式和分層式架構(gòu)的主要優(yōu)點(diǎn),又克服了它們的突出缺點(diǎn),既保證了各個(gè)耦合任務(wù)之間相對(duì)穩(wěn)定的訓(xùn)練環(huán)境,有利于得到多任務(wù)協(xié)同下的全局最優(yōu)解,又使得策略空間規(guī)??山邮埽欣诓呗跃W(wǎng)絡(luò)快速收斂。三種深度強(qiáng)化學(xué)習(xí)架構(gòu)特點(diǎn)對(duì)比如表1所示。
混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)主要由多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器組成,多任務(wù)策略網(wǎng)絡(luò)利用多套相關(guān)聯(lián)的AC網(wǎng)絡(luò)對(duì)子任務(wù)進(jìn)行建模并分層,策略網(wǎng)絡(luò)訓(xùn)練控制器按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練。混合式架構(gòu)的建模和訓(xùn)練流程如圖4所示。
表1 三種架構(gòu)特點(diǎn)對(duì)比Table 1 Comparison of three architectures
圖4 混合式架構(gòu)建模與訓(xùn)練流程圖Fig.4 Hybrid architecture modeling and training flow chart
多耦合任務(wù)M由N個(gè)子任務(wù)mi組成,即M={mi}(i表示子任務(wù)編號(hào)且i=1,2,…,N),根據(jù)多耦合任務(wù)之間的邏輯關(guān)系,將N個(gè)子任務(wù)進(jìn)行分層。任務(wù)mi基于AC架構(gòu)構(gòu)建執(zhí)行者(Actor)神經(jīng)網(wǎng)絡(luò)Ai和評(píng)估者(Critic)神經(jīng)網(wǎng)絡(luò)Ci。任務(wù)mi的狀態(tài)空間為si,動(dòng)作空間為ai,獎(jiǎng)勵(lì)值為ri。任務(wù)mi的經(jīng)驗(yàn)池設(shè)計(jì)為:
ei={s1,s2,…,sN,a1,a2,…,aN,
s′1,s′2,…,s′N,ri,d1,d2,…,dN}
(1)
式中:s′i為任務(wù)mi下一步的狀態(tài),di為任務(wù)mi結(jié)束標(biāo)志,且當(dāng)任務(wù)mi結(jié)束時(shí),di=1,反之,di=0。
任務(wù)mi的評(píng)估者神經(jīng)網(wǎng)絡(luò)Ci的輸入層為所有任務(wù)的狀態(tài)S={s1,s2,…,sN}和所有任務(wù)的動(dòng)作A={a1,a2,…,aN},Ci的輸出層為1維的全局評(píng)估值。任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的輸入層為任務(wù)mi的狀態(tài)si,Ai的輸出層為任務(wù)mi的動(dòng)作ai。
為了多耦合任務(wù)M的整個(gè)策略網(wǎng)絡(luò)能夠快速穩(wěn)定收斂,下層任務(wù)需要給上層任務(wù)創(chuàng)造良好的學(xué)習(xí)環(huán)境基礎(chǔ),故策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)為先訓(xùn)練下層任務(wù),達(dá)到設(shè)計(jì)指標(biāo)后,再耦合訓(xùn)練上一層任務(wù),即上下層集中訓(xùn)練。
策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)訓(xùn)練流程如下:
1)初始化:設(shè)置多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器參數(shù);
2)生成下層動(dòng)作:根據(jù)下層執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的策略生成動(dòng)作:
ai=Ai(si)+δi
(2)
3)生成上層動(dòng)作:上層任務(wù)隨機(jī)生成動(dòng)作:
ai=ξi
(3)
式中:ξi為服從均勻分布的隨機(jī)數(shù);
4)與仿真環(huán)境交互:將得到動(dòng)作集合A={a1,a2,…,aN}在仿真環(huán)境中執(zhí)行,得到獎(jiǎng)勵(lì)值集合R={r1,r2,…,rN},下一個(gè)狀態(tài)集合S′={s′1,s′2,…,s′N}和任務(wù)是否結(jié)束標(biāo)志集合D={d1,d2,…,dN};
5)保存經(jīng)驗(yàn):將經(jīng)驗(yàn)
ei={S,A,S′,ri,D}={s1,s2,…,sN,a1,a2,…,
aN,s′1,s′2,…,s′N,ri,d1,d2,…,dN}
(4)
存入任務(wù)mi的經(jīng)驗(yàn)池Ei;
6)策略網(wǎng)絡(luò)訓(xùn)練:當(dāng)任務(wù)mi的經(jīng)驗(yàn)池Ei總經(jīng)驗(yàn)數(shù)達(dá)到開始訓(xùn)練的條件時(shí),開始對(duì)任務(wù)mi的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練:
(2)定義累計(jì)獎(jiǎng)勵(lì)函數(shù):令任務(wù)mi的累計(jì)獎(jiǎng)勵(lì)為:
(5)
(3)定義損失函數(shù):令任務(wù)mi的損失函數(shù)為:
(6)
式中:Ci(·)為任務(wù)mi在神經(jīng)網(wǎng)絡(luò)參數(shù)為θCi下的評(píng)估者神經(jīng)網(wǎng)絡(luò)價(jià)值函數(shù)。通過求L(θCi)的極小值來更新θCi;
(4)定義采樣策略梯度函數(shù):令任務(wù)mi的采樣策略梯度為:
(7)
(5)更新策略網(wǎng)絡(luò)參數(shù):根據(jù)式(7)估計(jì)的策略梯度通過深度學(xué)習(xí)優(yōu)化器來更新任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θAi;
(6)更新目標(biāo)網(wǎng)絡(luò)參數(shù):滿足一定條件時(shí),按照式(8)來更新任務(wù)mi的目標(biāo)執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ai和目標(biāo)評(píng)估者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ci:
(8)
式中:τi為神經(jīng)網(wǎng)絡(luò)參數(shù)更新頻率,“←”表示賦值。
(7)測(cè)試與訓(xùn)練層級(jí)遞進(jìn):訓(xùn)練一定次數(shù)后,測(cè)試當(dāng)前層對(duì)應(yīng)的所有任務(wù)是否都達(dá)到設(shè)計(jì)指標(biāo),如果是,則開始上一層任務(wù)的訓(xùn)練;否則,繼續(xù)本層任務(wù)的訓(xùn)練;
(8)循環(huán):重復(fù)流程(1)至流程(8),直至多耦合任務(wù)M訓(xùn)練結(jié)束,且測(cè)試達(dá)到預(yù)定指標(biāo)。
1) 多任務(wù)策略網(wǎng)絡(luò)。上層:協(xié)同目標(biāo)分配,決策紅方無人機(jī)集群中每架無人機(jī)的偵查目標(biāo),以最大化集群對(duì)抗效能(偵查總得分);下層:突防軌跡規(guī)劃,決策紅方無人機(jī)的突防和偵查軌跡,既要進(jìn)行躲避機(jī)動(dòng)又要保留足夠的機(jī)動(dòng)能力對(duì)目標(biāo)進(jìn)行偵查,以最大化突防概率(突防成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)和偵查成功率(偵查成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)。
2)狀態(tài)空間。目標(biāo)分配策略網(wǎng)絡(luò)的狀態(tài)主要包括:紅方無人機(jī)數(shù)量、位置、速度和藍(lán)方待偵查目標(biāo)數(shù)量、位置、價(jià)值等;軌跡規(guī)劃策略網(wǎng)絡(luò)的狀態(tài)主要包括:紅方無人機(jī)位置、速度和藍(lán)方待偵查目標(biāo)位置等。
3)動(dòng)作空間。目標(biāo)分配策略網(wǎng)絡(luò)的動(dòng)作為:紅方無人機(jī)偵查目標(biāo)的編號(hào);軌跡規(guī)劃策略網(wǎng)絡(luò)的動(dòng)作為:紅方無人機(jī)軌跡構(gòu)造函數(shù)的參數(shù)。
4)獎(jiǎng)勵(lì)函數(shù)。確定3個(gè)元獎(jiǎng)勵(lì)分別為突防元獎(jiǎng)勵(lì)ro_tf、偵查元獎(jiǎng)勵(lì)ro_zc和效能元獎(jiǎng)勵(lì)ro_xn。紅方無人機(jī)突防成功,則ro_tf=1,否則ro_tf=-1;紅方無人機(jī)成功偵查目標(biāo),則ro_zc=1,否則ro_zc=-1;集群對(duì)抗效能歸一化作為效能元獎(jiǎng)勵(lì)ro_xn。為了進(jìn)一步體現(xiàn)各個(gè)耦合任務(wù)之間的協(xié)同性,采用元獎(jiǎng)勵(lì)加權(quán)的方式使目標(biāo)分配和軌跡規(guī)劃的獎(jiǎng)勵(lì)函數(shù)相互關(guān)聯(lián)。根據(jù)目標(biāo)分配對(duì)各個(gè)元獎(jiǎng)勵(lì)的影響確定目標(biāo)分配的突防權(quán)重wo_tf_mb、偵查權(quán)重wo_zc_mb和效能權(quán)重wo_xn_mb,且滿足wo_tf_mb+wo_zc_mb+wo_xn_mb=1。同理,根據(jù)軌跡規(guī)劃對(duì)各個(gè)元獎(jiǎng)勵(lì)的影響確定軌跡規(guī)劃的突防權(quán)重wo_tf_gj、偵查權(quán)重wo_zc_gj和效能權(quán)重wo_xn_gj,且滿足wo_tf_gj+wo_zc_gj+wo_xn_gj=1。則目標(biāo)分配獎(jiǎng)勵(lì)函數(shù)為:
rmb=wo_tf_mbro_tf+wo_zc_mbro_zc+wo_xn_mbro_xn
(9)
軌跡規(guī)劃的獎(jiǎng)勵(lì)函數(shù)為:
rgj=wo_tf_gjro_tf+wo_zc_gjro_zc+wo_xn_gjro_xn
(10)
5)策略網(wǎng)絡(luò)訓(xùn)練控制器。先訓(xùn)練下層軌跡規(guī)劃策略網(wǎng)絡(luò)。當(dāng)突防概率和偵查成功率達(dá)到指標(biāo)要求后,再訓(xùn)練上層目標(biāo)分配策略網(wǎng)絡(luò),兩個(gè)任務(wù)進(jìn)行集中耦合訓(xùn)練,直至突防概率、偵查成功率和集群對(duì)抗效能達(dá)到指標(biāo)要求后,訓(xùn)練完畢。
在突防軌跡規(guī)劃中,紅方無人機(jī)通過在線生成機(jī)動(dòng)指令來達(dá)到躲避攔截和偵查目標(biāo)的目的。通常采用多步序貫決策方式會(huì)帶來稀疏獎(jiǎng)勵(lì)問題,它是指在每個(gè)決策周期都生成無人機(jī)的機(jī)動(dòng)指令,但只在最后一步存在明確的獎(jiǎng)勵(lì),而過程獎(jiǎng)勵(lì)難以設(shè)計(jì),會(huì)導(dǎo)致策略網(wǎng)絡(luò)難以快速穩(wěn)定收斂。針對(duì)上述問題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動(dòng)作空間設(shè)計(jì)方法。
根據(jù)紅方無人機(jī)機(jī)動(dòng)特性和藍(lán)方攔截?zé)o人機(jī)的攔截特點(diǎn)確定突防軌跡構(gòu)造函數(shù)表示為:
nc(t)=F(P,t)+a0(t)
(11)
式中:nc(t)表示t時(shí)刻無人機(jī)的機(jī)動(dòng)指令。a0(t)表示t時(shí)刻無人機(jī)的比例導(dǎo)引指令,引導(dǎo)無人機(jī)飛向目標(biāo)。F(P,t)表示t時(shí)刻無人機(jī)的附加機(jī)動(dòng)指令函數(shù),控制機(jī)動(dòng)突防,P為函數(shù)參數(shù)集合。F(P,t)的具體表達(dá)形式可以根據(jù)無人機(jī)的機(jī)動(dòng)特性和攔截?zé)o人機(jī)的攔截特點(diǎn)確定,比如無人機(jī)的動(dòng)態(tài)性能良好且藍(lán)方攔截策略簡(jiǎn)單,F(xiàn)(P,t)可確定為方波函數(shù);無人機(jī)的動(dòng)態(tài)性能一般且藍(lán)方攔截策略簡(jiǎn)單,F(xiàn)(P,t)可確定為正弦函數(shù);藍(lán)方攔截策略復(fù)雜,F(xiàn)(P,t)可確定為多項(xiàng)式函數(shù)。
從函數(shù)參數(shù)集合P中確定待優(yōu)化的參數(shù),表示為:
P=C∪X
(12)
式中:C={c1,c2,…,cm}表示m個(gè)常值參數(shù)集合,X={x1,x2,…,xn}表示n個(gè)待優(yōu)化參數(shù)集合。
確定深度強(qiáng)化學(xué)習(xí)的動(dòng)作空間表示為:
A=[x1,x2,…,xn]T(ximin≤xi≤ximax,i=1,2,…,n)
(13)
式中:ximin表示待優(yōu)化參數(shù)xi的最小值,ximax表示待優(yōu)化參數(shù)xi的最大值。
基于軌跡構(gòu)造的一步式動(dòng)作空間設(shè)計(jì)方法只需決策一次突防軌跡構(gòu)造函數(shù)的參數(shù)就可以規(guī)劃出完整的軌跡,對(duì)抗仿真后即可得到一次明確的獎(jiǎng)勵(lì),即一個(gè)動(dòng)作對(duì)應(yīng)一個(gè)獎(jiǎng)勵(lì),因此避免了序貫動(dòng)作的稀疏獎(jiǎng)勵(lì)問題,使收斂速度和穩(wěn)定性有效提升。
針對(duì)強(qiáng)對(duì)抗條件下的場(chǎng)景不確定難題,基于無人機(jī)集群紅藍(lán)對(duì)抗仿真平臺(tái),設(shè)計(jì)基于多隨機(jī)場(chǎng)景的紅藍(lán)博弈訓(xùn)練方法。
紅方無人機(jī)集群的作戰(zhàn)任務(wù)為最大化偵查覆蓋藍(lán)方目標(biāo)編隊(duì),紅方無人機(jī)在飛行過程中會(huì)受到藍(lán)方攔截?zé)o人機(jī)的攔截,在紅方無人機(jī)突防后,需要飛到待偵查目標(biāo)附近且保留一定的機(jī)動(dòng)能力進(jìn)行偵查。如圖5所示,無人機(jī)集群紅藍(lán)對(duì)抗的主要場(chǎng)景及設(shè)計(jì)要素如下:1)紅方偵查無人機(jī)集群:由NH架偵查無人機(jī)組成;2)藍(lán)方待偵查目標(biāo)編隊(duì):由NL個(gè)待偵查目標(biāo)組成,五角星表示主要待偵查目標(biāo)(需要3架紅方無人機(jī)偵查保證覆蓋目標(biāo)),三角形表示次要目標(biāo)(需要2架紅方無人機(jī)偵查保證覆蓋目標(biāo));3)藍(lán)方攔截?zé)o人機(jī):針對(duì)1架紅方無人機(jī)最多可用2架藍(lán)方無人機(jī)進(jìn)行攔截;4)集群對(duì)抗效能:1架紅方無人機(jī)成功偵查目標(biāo)得1分,成功偵查主要目標(biāo)最多得3分,成功偵查次要目標(biāo)最多得2分,所得總分即為集群對(duì)抗效能;5)集群對(duì)抗效能比:為了對(duì)比不同想定之間的效能,定義集群對(duì)抗效能比為集群對(duì)抗效能除以理論最大效能。想定的名稱用“NHV NL”表示。
圖5 典型對(duì)抗場(chǎng)景示意圖Fig.5 Typical confrontation scenarios
設(shè)置多個(gè)典型無人機(jī)集群對(duì)抗想定(如8V5、8V7、12V10、18V12、18V14等)訓(xùn)練策略網(wǎng)絡(luò),設(shè)定紅藍(lán)對(duì)抗雙方的初始位置和速度等參數(shù)的合理變化范圍,每一局對(duì)抗訓(xùn)練隨機(jī)選取一個(gè)想定和一組參數(shù)來設(shè)置對(duì)抗態(tài)勢(shì),則通過大量對(duì)抗仿真可得到多樣化的對(duì)抗訓(xùn)練數(shù)據(jù)。
藍(lán)方的對(duì)抗模型和策略通常采用基于專家知識(shí)的方式進(jìn)行建模,然后進(jìn)行紅藍(lán)對(duì)抗仿真對(duì)紅方策略網(wǎng)絡(luò)進(jìn)行單方面訓(xùn)練,而基于藍(lán)方單一策略對(duì)紅方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練容易過擬合,導(dǎo)致紅方策略單一且對(duì)藍(lán)方策略的變化缺乏泛化性,難以適應(yīng)高動(dòng)態(tài)的實(shí)際戰(zhàn)場(chǎng)環(huán)境。
設(shè)計(jì)藍(lán)方策略網(wǎng)絡(luò),智能決策藍(lán)方攔截?zé)o人機(jī)的攔截目標(biāo)和起飛時(shí)機(jī),紅藍(lán)策略網(wǎng)絡(luò)在無人機(jī)集群紅藍(lán)對(duì)抗仿真平臺(tái)上采用紅藍(lán)博弈方式進(jìn)行訓(xùn)練。紅藍(lán)博弈訓(xùn)練方法流程如圖6所示,在每個(gè)并行的博弈環(huán)境中,紅藍(lán)策略網(wǎng)絡(luò)視對(duì)方為環(huán)境進(jìn)行學(xué)習(xí)。為增強(qiáng)博弈訓(xùn)練中策略學(xué)習(xí)的穩(wěn)定性,在每個(gè)博弈周期的訓(xùn)練中,固定紅藍(lán)雙方中一方的策略,訓(xùn)練另一方。在每一個(gè)博弈周期結(jié)束后,根據(jù)紅藍(lán)方策略的表現(xiàn)進(jìn)行優(yōu)勝劣汰,將實(shí)力相當(dāng)?shù)募t藍(lán)策略網(wǎng)絡(luò)配對(duì),進(jìn)行下一周期的博弈,如此往復(fù),不斷提升紅方策略網(wǎng)絡(luò)對(duì)不同藍(lán)方策略的泛化性。
多平臺(tái)分布式紅藍(lán)博弈訓(xùn)練場(chǎng)景如圖7所示。
圖6 紅藍(lán)博弈訓(xùn)練流程Fig.6 Red blue game training process
圖7 多平臺(tái)分布式紅藍(lán)博弈訓(xùn)練場(chǎng)景Fig.7 Multi platform distributed red blue game training scenario
采用基于多隨機(jī)場(chǎng)景的紅藍(lán)博弈訓(xùn)練方法對(duì)紅方和藍(lán)方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最優(yōu)的紅方策略網(wǎng)絡(luò)(紅AI),以18架無人機(jī)集群偵查14個(gè)藍(lán)方目標(biāo)編隊(duì)(18V14)為例來闡述仿真與測(cè)試結(jié)果。紅方按照遺傳算法決策,得到的典型紅藍(lán)對(duì)抗平面軌跡如圖8(a)所示;紅方按照策略網(wǎng)絡(luò)決策,得到的典型紅藍(lán)對(duì)抗平面軌跡如圖8(b)所示。
圖8 典型平面軌跡Fig.8 Typical plane trajectory
圖8中,軌跡末端“×”表示紅方無人機(jī)被藍(lán)方無人機(jī)攔截或機(jī)動(dòng)能力不足導(dǎo)致偵查失敗。由圖8可得遺傳算法的突防概率為8÷18=44%,集群對(duì)抗效能比為7÷18=39%;紅AI的突防概率為16÷18=89%,集群對(duì)抗效能比為15÷18=83%。通過對(duì)比可知:紅AI可以為紅方無人機(jī)集群分配合理的偵查目標(biāo)和規(guī)劃有效的突防和成功偵查目標(biāo)軌跡,有效提高了集群對(duì)抗效能。
紅AI訓(xùn)練過程曲線如圖9所示。
圖9 集群對(duì)抗效能訓(xùn)練曲線Fig.9 Efficiency training curve of group confrontation
圖9中的訓(xùn)練曲線為單平臺(tái)訓(xùn)練過程,仿真次數(shù)為200時(shí),紅AI收斂。采用60個(gè)無人機(jī)集群紅藍(lán)對(duì)抗仿真平臺(tái)進(jìn)行多平臺(tái)分布式紅藍(lán)博弈訓(xùn)練,因此紅AI的訓(xùn)練收斂次數(shù)約為200×60=12000次。
遺傳算法和紅AI測(cè)試得到的性能對(duì)比如表2所示。由表2可得,紅AI相比基于遺傳算法在集群對(duì)抗效能上提升了約95%,說明了本文方法的有效性。
表2 遺傳算法與紅AI性能對(duì)比Table 2 Performance comparison between genetic algorithm and red AI
通過對(duì)12V10、18V14等場(chǎng)景進(jìn)行隨機(jī)訓(xùn)練,得到的策略網(wǎng)絡(luò)在未訓(xùn)練過的場(chǎng)景上(13V10、17V15)進(jìn)行泛化性測(cè)試,得到的結(jié)果如表3所示。由表3可得,策略網(wǎng)絡(luò)在未訓(xùn)練過場(chǎng)景上的適應(yīng)性平均大于90%,說明紅AI具有一定的泛化性。
表3 泛化性測(cè)試Table 3 Generalization testing
將集中式架構(gòu)訓(xùn)練得到的集中式AI、分層式架構(gòu)訓(xùn)練得到的分層式AI分別在無人機(jī)集群紅藍(lán)對(duì)抗仿真平臺(tái)測(cè)試,得到的性能對(duì)比結(jié)果如表4所示。
從表4中可以得到以下結(jié)論:1)集中式AI在有限計(jì)算資源條件下難以收斂;2)分層式AI多任務(wù)迭代訓(xùn)練耗時(shí)大,且未得到全任務(wù)最優(yōu)策略;3)混合式AI學(xué)到了多耦合任務(wù)間的協(xié)同能力,得到了全任務(wù)最優(yōu)策略,相比分層式AI在集群對(duì)抗效能上提升了約31%;混合式AI策略網(wǎng)絡(luò)收斂速度較快,相比分層式AI收斂速度提升567%。上述結(jié)果表明:在多耦合任務(wù)決策問題上,混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)相比集中式和分層式架構(gòu),具有較強(qiáng)的先進(jìn)性。
表4 三種架構(gòu)性能對(duì)比Table 4 Performance comparison of three architectures
本文針對(duì)復(fù)雜場(chǎng)景下無人機(jī)集群對(duì)抗中協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多耦合任務(wù)的決策問題,提出了一種集群對(duì)抗多耦合任務(wù)智能決策方法。設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)、基于軌跡構(gòu)造的一步式動(dòng)作空間設(shè)計(jì)方法和基于多隨機(jī)場(chǎng)景的紅藍(lán)博弈訓(xùn)練方法,解決了無人機(jī)集群對(duì)抗在線決策耦合任務(wù)多、決策空間大和場(chǎng)景不確定等難題,增強(qiáng)了策略網(wǎng)絡(luò)的收斂性能和泛化性,提升了無人機(jī)集群對(duì)抗多耦合任務(wù)間的協(xié)同性、集群對(duì)抗效能。通過與傳統(tǒng)方法、集中式架構(gòu)方法和分層式架構(gòu)方法進(jìn)行對(duì)比,驗(yàn)證了本文提出方法的有效性和先進(jìn)性。