李超,王瑞星,黃建忠,江飛龍,魏雪梅,孫延鑫
(1.中國(guó)兵器工業(yè)試驗(yàn)測(cè)試研究院 技術(shù)中心,陜西 西安 710116;2.南京理工大學(xué) 機(jī)械工程學(xué)院,江蘇 南京 210094;3.哈爾濱工業(yè)大學(xué) 航天學(xué)院,黑龍江 哈爾濱 150001)
二戰(zhàn)結(jié)束以來(lái),盡管大規(guī)模世界戰(zhàn)爭(zhēng)未有發(fā)生,但局部性戰(zhàn)爭(zhēng)卻從未停止,從朝鮮戰(zhàn)爭(zhēng)到阿富汗戰(zhàn)爭(zhēng)再到納卡戰(zhàn)爭(zhēng)以及硝煙彌漫的俄烏戰(zhàn)場(chǎng),科技力量帶來(lái)的加成逐漸顯現(xiàn),尤其是新世紀(jì)發(fā)生的幾次戰(zhàn)爭(zhēng)中,無(wú)人智能裝備發(fā)揮了重要的作用[1]。
未來(lái),無(wú)人智能集群作戰(zhàn)將會(huì)是典型的作戰(zhàn)模式。而無(wú)人集群的最終應(yīng)用離不開(kāi)無(wú)人集群對(duì)抗建模及群體智能演化機(jī)理、無(wú)人集群探測(cè)識(shí)別與態(tài)勢(shì)感知、無(wú)人集群通信、無(wú)人集群導(dǎo)航、無(wú)人集群自主決策、無(wú)人集群運(yùn)動(dòng)控制以及無(wú)人集群對(duì)抗策略遷移與泛化[2]、無(wú)人集群試驗(yàn)與評(píng)估[3]等技術(shù)研究。其中在無(wú)人集群自主決策研究領(lǐng)域[4],強(qiáng)化學(xué)習(xí)技術(shù)被廣泛使用。
多智能體系統(tǒng),由一系列相互作用的智能體構(gòu)成,多個(gè)智能體之間通過(guò)相互通信、合作、競(jìng)爭(zhēng)等方式,完成單個(gè)智能體不能完成的、大量而又復(fù)雜的工作。目前,結(jié)合多智能體系統(tǒng)和強(qiáng)化學(xué)習(xí)方法形成的多智能體強(qiáng)化學(xué)習(xí)正逐漸成為研究熱點(diǎn)[5]。
如圖1所示,多智能體強(qiáng)化學(xué)習(xí)技術(shù)框架包含環(huán)境、智能體兩部分,智能體n感知環(huán)境狀態(tài),輸出狀態(tài)矩陣sn,輸出的狀態(tài)組成聯(lián)合狀態(tài)集 (s1,s2,s3,…,sn),并依據(jù)策略網(wǎng)絡(luò)選擇動(dòng)作an,輸出的動(dòng)作組成聯(lián)合動(dòng)作集(a1,a2,a3,…,an),作用于環(huán)境,環(huán)境依據(jù)聯(lián)合動(dòng)作給予對(duì)應(yīng)獎(jiǎng)勵(lì)rn組成總獎(jiǎng)勵(lì)集(r1,r2,r3,…,rn)并更新?tīng)顟B(tài)[6]。在多智能體與環(huán)境交互過(guò)程中,獎(jiǎng)勵(lì)為多智能體策略迭代的重要依據(jù)。豐富的獎(jiǎng)勵(lì)反饋,可以有效引導(dǎo)多智能體學(xué)習(xí)到最優(yōu)動(dòng)作策略,但在強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用領(lǐng)域中,獎(jiǎng)勵(lì)稀疏性問(wèn)題廣泛存在。尤其隨著深度學(xué)習(xí)技術(shù)與強(qiáng)化學(xué)習(xí)技術(shù)的深度融合,深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域之后,因網(wǎng)絡(luò)訓(xùn)練過(guò)程需要大量樣本支撐,稀疏獎(jiǎng)勵(lì)問(wèn)題也就愈加凸顯[7]。
圖1 多智能體強(qiáng)化學(xué)習(xí)原理圖Fig.1 Schematic diagram of multi-agent reinforcement learning
針對(duì)廣泛存在的獎(jiǎng)勵(lì)稀疏性,獎(jiǎng)勵(lì)塑造利用經(jīng)驗(yàn)知識(shí)人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)以擴(kuò)充獎(jiǎng)勵(lì)體系引導(dǎo)智能體進(jìn)行最優(yōu)策略學(xué)習(xí)[8-9]。課程學(xué)習(xí)通過(guò)不斷增加任務(wù)難度以改善獎(jiǎng)勵(lì)稀疏造成的網(wǎng)絡(luò)收斂緩慢問(wèn)題[10]。事后經(jīng)驗(yàn)回放是一種從失敗經(jīng)歷中提取有效信息的強(qiáng)化學(xué)習(xí)方法,通過(guò)對(duì)失敗經(jīng)歷進(jìn)行處理產(chǎn)生獎(jiǎng)勵(lì)信息,解決獎(jiǎng)勵(lì)的稀疏性問(wèn)題[11]。分層強(qiáng)化學(xué)習(xí)通過(guò)縮小各層策略的動(dòng)作序列空間,提高解決稀疏獎(jiǎng)勵(lì)問(wèn)題的能力[12]。現(xiàn)有獎(jiǎng)勵(lì)體制機(jī)制研究多針對(duì)于單智能體策略學(xué)習(xí)問(wèn)題,且仿真或試驗(yàn)的場(chǎng)景設(shè)定較為簡(jiǎn)單,狀態(tài)-動(dòng)作空間維度較低[13-15]。
針對(duì)基于強(qiáng)化學(xué)習(xí)的無(wú)人集群自主決策與智能協(xié)同策略學(xué)習(xí)這一多智能體問(wèn)題存在的獎(jiǎng)勵(lì)稀疏性,建立了無(wú)人集群攻防對(duì)抗任務(wù)場(chǎng)景模型,并提出了基于局部回報(bào)重塑的獎(jiǎng)勵(lì)機(jī)制設(shè)定方法,在此基礎(chǔ)上疊加優(yōu)先經(jīng)驗(yàn)回放(PER),通過(guò)程序仿真及演示系統(tǒng)驗(yàn)證,本研究有效地改善了獎(jiǎng)勵(lì)稀疏性,極大提升了策略學(xué)習(xí)的效率。
針對(duì)無(wú)人集群對(duì)抗問(wèn)題特點(diǎn),設(shè)計(jì)的模型框架應(yīng)包含以下3層內(nèi)容:
1)場(chǎng)景層:該層主要對(duì)無(wú)人集群對(duì)抗的場(chǎng)景類別和場(chǎng)景特點(diǎn)進(jìn)行設(shè)計(jì)。明確場(chǎng)景目標(biāo)、場(chǎng)景構(gòu)成,為后續(xù)無(wú)人集群對(duì)抗模型設(shè)計(jì)奠定基礎(chǔ)。
2)單元層:該層主要對(duì)對(duì)抗場(chǎng)景下單元數(shù)量及單元屬性進(jìn)行設(shè)計(jì)。其中異構(gòu)無(wú)人集群對(duì)抗還需對(duì)單元種類進(jìn)行設(shè)計(jì),通常異構(gòu)無(wú)人集群對(duì)抗可包含探測(cè)單元、防御單元和攻擊單元等。另外在單元屬性方面,可設(shè)計(jì)生命屬性、移動(dòng)屬性、探測(cè)屬性、攻擊屬性、防御屬性等。
3)規(guī)則層:該層應(yīng)明確集群對(duì)抗雙方在具體對(duì)抗場(chǎng)景下的博弈策略及勝負(fù)判別規(guī)則。
在模型設(shè)計(jì)時(shí),場(chǎng)景層、單元層、規(guī)則層設(shè)計(jì)可以劃分為場(chǎng)景模型設(shè)計(jì)和對(duì)抗規(guī)則設(shè)計(jì)兩大過(guò)程,如圖2所示。場(chǎng)景模型設(shè)計(jì)包含場(chǎng)景類別設(shè)計(jì)、場(chǎng)景特點(diǎn)設(shè)計(jì)、單元構(gòu)成設(shè)計(jì)及單元屬性設(shè)計(jì),對(duì)抗規(guī)則設(shè)計(jì)包含無(wú)人集群對(duì)抗雙方的博弈策略設(shè)計(jì)以及對(duì)抗過(guò)程的判別規(guī)則設(shè)計(jì)。
圖2 無(wú)人集群對(duì)抗模型構(gòu)成Fig.2 Composition of the UAV swarm confrontation model
基于圖2所示模型框架,本研究設(shè)計(jì)了無(wú)人集群攻防對(duì)抗場(chǎng)景模型,攻防對(duì)抗為無(wú)人集群對(duì)抗典型任務(wù)場(chǎng)景。在單元種類方面,設(shè)計(jì)攻擊、探測(cè)、防御3種單元。在單元數(shù)量方面,攻擊單元、防御單元、探測(cè)單元分別為6個(gè)、4個(gè)、2個(gè)。在任務(wù)目標(biāo)方面,基于藍(lán)方采用設(shè)定策略的前提,通過(guò)基于強(qiáng)化學(xué)習(xí)的自主決策與智能協(xié)同技術(shù),使得紅方單元學(xué)習(xí)到比藍(lán)方更優(yōu)的博弈策略。
圖3為無(wú)人集群攻防對(duì)抗仿真模型紅藍(lán)初始站位圖,其中正方形框線表示紅藍(lán)對(duì)抗區(qū)域,雙方無(wú)人集群智能單元在對(duì)抗區(qū)域兩側(cè)一字排開(kāi)。在仿真示意方面,雙方攻擊單元、防御單元、探測(cè)單元及生命值、防御范圍、探測(cè)范圍等單元屬性示意如圖3所示[16-18]。圖3中,AT、DE、DT分別表示紅藍(lán)雙方攻擊單元、防御單元、探測(cè)單元存活數(shù)。
圖3 紅藍(lán)無(wú)人集群攻防對(duì)抗仿真模型初始站位圖Fig.3 Initial site map of attack-defense confrontation simulation model of the red and blue UAV swarms
無(wú)人集群對(duì)抗規(guī)則設(shè)計(jì)包含博弈策略設(shè)計(jì)及判別規(guī)則設(shè)計(jì),其中博弈策略設(shè)計(jì)包含集群對(duì)抗雙方在任務(wù)場(chǎng)景下的博弈對(duì)抗策略。針對(duì)本研究所設(shè)計(jì)的無(wú)人集群攻防對(duì)抗任務(wù)場(chǎng)景,紅藍(lán)對(duì)抗雙方的博弈策略如圖4所示。
圖4 紅方智能單元自主決策原理示意圖Fig.4 Schematic diagram of the autonomous decision-making principle for the redintelligent units
紅方為基于深度神經(jīng)網(wǎng)絡(luò)的自主決策單元,如圖4所示,若紅方無(wú)人集群包含4個(gè)智能單元,智能單元決策網(wǎng)絡(luò)DNN則相應(yīng)設(shè)計(jì)4個(gè)智能體的自主決策DNN1、DNN2、DNN3、DNN4,在網(wǎng)絡(luò)設(shè)計(jì)過(guò)程中,每個(gè)智能體的自主決策在結(jié)構(gòu)上獨(dú)立,但在參數(shù)上存在耦合,從而使得多類多個(gè)智能單元具備自主決策能力的同時(shí)具備協(xié)同能力涌現(xiàn)的潛能。在決策網(wǎng)絡(luò)輸入輸出方面,以智能體觀測(cè)狀態(tài)如自身/對(duì)方位置、速度、數(shù)量等參數(shù)為狀態(tài)輸入,Sn為第n個(gè)智能體觀測(cè)狀態(tài),包含位置(x,y,z)、速度v狀態(tài)量,多個(gè)智能體觀測(cè)狀態(tài)組成智能體聯(lián)合狀態(tài)集S。以智能體移動(dòng)/靜止?fàn)顟B(tài)選擇、移動(dòng)方向?yàn)閯?dòng)作輸出[19-21],多個(gè)智能體動(dòng)作輸出組成智能體聯(lián)合動(dòng)作集A。
藍(lán)方單元采用既定博弈策略,通過(guò)對(duì)無(wú)人智能單元集群作戰(zhàn)戰(zhàn)術(shù)戰(zhàn)法的深入了解,設(shè)計(jì)藍(lán)方單元博弈策略。針對(duì)防御屬性、探測(cè)屬性、攻擊屬性,依據(jù)各屬性范圍內(nèi)有無(wú)被防御、被探測(cè)、被攻擊單元將3種智能單元的移動(dòng)策略分別歸為兩類。其中針對(duì)防御單元,如圖5(a)所示:當(dāng)單個(gè)單元防御范圍有被防御單元時(shí),防御單元靜止;當(dāng)多個(gè)防御單元防御范圍重疊處有被防御單元,其中一個(gè)防御單元靜止,其余單元被認(rèn)定為防御范圍內(nèi)無(wú)被防御單元;當(dāng)防御范圍內(nèi)無(wú)被防御單元時(shí),趨向最近的需被防御單元。針對(duì)探測(cè)單元,如圖5(b)所示:當(dāng)探測(cè)范圍內(nèi)有被探測(cè)單元,探測(cè)單元靜止;當(dāng)探測(cè)范圍內(nèi)無(wú)被探測(cè)單元時(shí),如存在未被探測(cè)到攻擊己方單元的敵方攻擊單元,則趨向最近的該類型單元;否則趨向最近的被探測(cè)單元。針對(duì)進(jìn)攻單元,如圖5(c)所示:當(dāng)攻擊范圍內(nèi)無(wú)處于探測(cè)單元探測(cè)視角下的被攻擊單元,則趨向最近的該類型單元;否則,攻擊單元靜止并轉(zhuǎn)為攻擊狀態(tài)。
圖5 藍(lán)方智能單元博弈對(duì)抗策略示意圖Fig.5 Schematic diagram of the game confrontation strategy of the blueintelligent units
判別規(guī)則設(shè)計(jì)包含對(duì)抗過(guò)程有效性判別及對(duì)抗終局勝負(fù)性判別。有效性判別方面,雙方應(yīng)在對(duì)抗區(qū)域內(nèi)、設(shè)定屬性限制下進(jìn)行對(duì)抗。勝負(fù)性判別方面,為考察智能單元自主決策算法的學(xué)習(xí)效率,在雙方單次對(duì)局中,設(shè)置最大仿真步。未達(dá)到最大仿真步時(shí),若一方智能單元中探測(cè)或攻擊單元被全部消滅,判定該方對(duì)局失敗。達(dá)到最大仿真步時(shí),對(duì)局結(jié)束,對(duì)所有智能單元的剩余總血量進(jìn)行比較,總血量大的一方對(duì)局勝利,相同則判定平局。
無(wú)人集群對(duì)抗領(lǐng)域問(wèn)題在應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)時(shí),現(xiàn)有的獎(jiǎng)勵(lì)體系依據(jù)對(duì)局是否勝利進(jìn)行獎(jiǎng)勵(lì)反饋,對(duì)局勝利給予獎(jiǎng)勵(lì),對(duì)局失敗無(wú)獎(jiǎng)勵(lì)。上述為稀疏獎(jiǎng)勵(lì)的一種極端形式,名為二元獎(jiǎng)勵(lì)。在該獎(jiǎng)勵(lì)機(jī)制下,策略網(wǎng)絡(luò)訓(xùn)練過(guò)程會(huì)被嚴(yán)重滯緩甚至策略網(wǎng)絡(luò)根本無(wú)法收斂。
本研究提出基于局部回報(bào)重塑的獎(jiǎng)勵(lì)工程設(shè)計(jì)方法。即首先將任務(wù)分解為多個(gè)子任務(wù),對(duì)應(yīng)明確任務(wù)目標(biāo)及子目標(biāo),在細(xì)分的過(guò)程中確定任務(wù)執(zhí)行主體與子目標(biāo)之間的邏輯關(guān)系。以異構(gòu)無(wú)人集群對(duì)抗場(chǎng)景為例,因不同種類的智能體特點(diǎn)屬性不同,在任務(wù)中扮演的角色也有所不同。因此可以有針對(duì)性地對(duì)任務(wù)目標(biāo)進(jìn)行分解,適配不同種類智能體的功能屬性[22]。
針對(duì)本文研究的無(wú)人集群攻防對(duì)抗任務(wù)場(chǎng)景,在設(shè)定獎(jiǎng)勵(lì)機(jī)制的過(guò)程中,依據(jù)不同種類智能單元的屬性特點(diǎn)分別設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。針對(duì)攻擊單元,鼓勵(lì)攻擊、低血量退避、躲避敵方探測(cè)單元等行為。針對(duì)防御單元,鼓勵(lì)有效防御行為。針對(duì)探測(cè)單元,鼓勵(lì)有效探測(cè)、躲避敵方攻擊、躲避敵方探測(cè)單元等行為。針對(duì)所有單元,鼓勵(lì)盡快結(jié)束回合行為,以上各種獎(jiǎng)勵(lì)引導(dǎo)項(xiàng)的最終目標(biāo)為短時(shí)間內(nèi)消滅對(duì)方智能單元從而在單次對(duì)局中獲勝。上述定性設(shè)計(jì)結(jié)果如圖6所示。
圖6 無(wú)人集群攻防對(duì)抗場(chǎng)景下基于局部回報(bào)重塑的獎(jiǎng)勵(lì)工程設(shè)定Fig.6 Reward engineering setting based on local reward reshaping in UAV swarm attack-defense confrontation scenarios
定量獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面,目前獎(jiǎng)勵(lì)函數(shù)中獎(jiǎng)懲數(shù)值設(shè)計(jì)主要依靠經(jīng)驗(yàn)。本研究場(chǎng)景下的獎(jiǎng)勵(lì)函數(shù)為
(1)
(2)
式中:r為單次對(duì)局總獎(jiǎng)勵(lì);ri為第i回合總獎(jiǎng)勵(lì);rATj為單回合內(nèi)第j個(gè)攻擊單元獎(jiǎng)懲差;rDEk為單回合內(nèi)第k個(gè)防御單元獎(jiǎng)懲差;rDTl為單回合內(nèi)第l個(gè)探測(cè)單元獎(jiǎng)懲差。rATj計(jì)算公式為
(3)
式中:x1~x3為獎(jiǎng)勵(lì)項(xiàng),值為正;y1~y4、a、b為懲罰項(xiàng),值為負(fù)。rDEk及rDEl獎(jiǎng)勵(lì)函數(shù)計(jì)算方式同上。
通過(guò)局部回報(bào)重塑的獎(jiǎng)勵(lì)工程設(shè)計(jì)方法對(duì)無(wú)人集群攻防對(duì)抗場(chǎng)景已有的二元獎(jiǎng)勵(lì)進(jìn)行擴(kuò)充,獎(jiǎng)勵(lì)體系得到了豐富。將單次對(duì)局下基于局部回報(bào)重塑的無(wú)人集群對(duì)抗所有回合獎(jiǎng)勵(lì)信號(hào)進(jìn)行輸出,結(jié)果如圖7所示。在總數(shù)約800個(gè)狀態(tài)動(dòng)作序列對(duì)樣本中,只有約12%的狀態(tài)動(dòng)作序列對(duì)存在獎(jiǎng)勵(lì)信號(hào),其余均無(wú)獎(jiǎng)勵(lì)信號(hào),這意味著約88%狀態(tài)下采取動(dòng)作的有效性無(wú)法進(jìn)行評(píng)判。因此,通過(guò)局部回報(bào)重塑方法設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制獎(jiǎng)勵(lì)稀疏性依舊嚴(yán)峻。
圖7 局部回報(bào)重塑方法下獎(jiǎng)勵(lì)稀疏性示意Fig.7 Reward sparsity under the local reward reshaping
依據(jù)是否存在獎(jiǎng)勵(lì)信號(hào),智能單元與環(huán)境交互產(chǎn)生的狀態(tài)動(dòng)作序列樣本具備不同的重要性。存在獎(jiǎng)勵(lì)信號(hào)的狀態(tài)動(dòng)作序列對(duì)有學(xué)習(xí)價(jià)值,優(yōu)先級(jí)高。而無(wú)獎(jiǎng)勵(lì)信號(hào)的狀態(tài)動(dòng)作序列對(duì)無(wú)學(xué)習(xí)價(jià)值,優(yōu)先級(jí)低。因此,可采用PER[23]實(shí)現(xiàn)對(duì)經(jīng)驗(yàn)樣本的差別利用。在回放訓(xùn)練的過(guò)程中,通過(guò)對(duì)有效經(jīng)驗(yàn)樣本進(jìn)行優(yōu)先級(jí)排序,實(shí)現(xiàn)對(duì)高價(jià)值樣本的優(yōu)先利用,以實(shí)現(xiàn)對(duì)抗策略的快速有效學(xué)習(xí)。在算法方面,因本文仿真模型為離散輸出,故選擇深度強(qiáng)化學(xué)習(xí)(DQN)算法[24]。采用回放記憶單元存儲(chǔ)(s,a,r,s′)序列,其中s為當(dāng)前回合狀態(tài),a為當(dāng)前回合動(dòng)作,r為當(dāng)前回合獎(jiǎng)勵(lì),s′為下一回合狀態(tài),基于PER算法對(duì)回放記憶單元進(jìn)行優(yōu)先級(jí)采樣,作為動(dòng)作值函數(shù)逼近網(wǎng)絡(luò)與目標(biāo)值網(wǎng)絡(luò)的訓(xùn)練樣本,通過(guò)DQN誤差函數(shù)計(jì)算迭代,進(jìn)行網(wǎng)絡(luò)參數(shù)更新。
綜上,若將局部回報(bào)重塑方法稱為稀疏獎(jiǎng)勵(lì)問(wèn)題下獎(jiǎng)勵(lì)信號(hào)的“開(kāi)源”,PER的使用則是從“節(jié)流”的角度對(duì)樣本進(jìn)行了高效利用。通過(guò)獎(jiǎng)勵(lì)信號(hào)“開(kāi)源”、“節(jié)流”兩種手段實(shí)現(xiàn)了對(duì)稀疏獎(jiǎng)勵(lì)問(wèn)題的有效解決,最終形成基于局部回報(bào)重塑及PER的無(wú)人集群對(duì)抗自主決策與智能協(xié)同策略學(xué)習(xí)方法框架,如圖8所示。首先通過(guò)局部回報(bào)重塑方法對(duì)基于強(qiáng)化學(xué)習(xí)技術(shù)的無(wú)人集群對(duì)抗問(wèn)題所固有的二元獎(jiǎng)勵(lì)進(jìn)行擴(kuò)充,局部回報(bào)重塑很大程度上改善了獎(jiǎng)勵(lì)的稀疏性,但獎(jiǎng)勵(lì)稀疏性依舊嚴(yán)峻,然后依據(jù)樣本是否存在獎(jiǎng)勵(lì)信號(hào)及獎(jiǎng)勵(lì)信號(hào)數(shù)值進(jìn)行優(yōu)先級(jí)排序,在樣本回放學(xué)習(xí)過(guò)程中進(jìn)行優(yōu)先級(jí)采樣,對(duì)高價(jià)值樣本進(jìn)行優(yōu)先學(xué)習(xí)。最終通過(guò)兩種方法組合實(shí)現(xiàn)稀疏獎(jiǎng)勵(lì)下無(wú)人集群自主決策與智能協(xié)同對(duì)抗策略的高效學(xué)習(xí)。
圖8 基于局部回報(bào)重塑及PER的無(wú)人集群對(duì)抗自主決策與智能協(xié)同策略學(xué)習(xí)方法框架Fig.8 Framework for autonomous decision-making and intelligent collaboration strategy learning method for UAV swarm confrontation based on local reward reshaping and prioritized experience replay
在無(wú)人集群攻防對(duì)抗場(chǎng)景下,將強(qiáng)化學(xué)習(xí)算法與稀疏獎(jiǎng)勵(lì)方法組合設(shè)計(jì)進(jìn)行了程序仿真。
在DQN及局部回報(bào)重塑組合算法(簡(jiǎn)稱DQN+局部回報(bào)重塑算法)下,通過(guò)2 000代訓(xùn)練,紅方智能單元策略收斂,勝率約80%,如圖9(a)所示。采用DQN改進(jìn)算法即Double DQN及局部回報(bào)重塑組合算法(簡(jiǎn)稱Double DQN+局部回報(bào)重塑算法),通過(guò)緩解策略學(xué)習(xí)過(guò)程中價(jià)值高估問(wèn)題,訓(xùn)練1 500代后,策略實(shí)現(xiàn)了收斂,如圖9(b)所示。在上述方法基礎(chǔ)上,疊加PER(簡(jiǎn)稱Double DQN+局部回報(bào)重塑+PER算法),通過(guò)對(duì)有效樣本的高效利用,訓(xùn)練700代后策略實(shí)現(xiàn)收斂,如圖9(c)所示。
圖9 無(wú)人集群攻防對(duì)抗算法效率對(duì)比Fig.9 Efficiency comparison for attack-defense confrontation algorithms of UAV swarms
此外,在進(jìn)攻有效數(shù)據(jù)及防御有效數(shù)據(jù)方面,仿真曲線圖均呈現(xiàn)逐漸提升的趨勢(shì),證明了算法的有效性,3種算法效率對(duì)比如表1所示。
表1 無(wú)人集群攻防對(duì)抗算法效率對(duì)比Table 1 Efficiency comparison forattack-defense confrontation algorithms of UAV swarms
在同樣達(dá)約80%勝率的對(duì)抗能力前提下,DQN+局部回報(bào)重塑算法訓(xùn)練了2 000代,Double DQN+局部回報(bào)重塑算法訓(xùn)練了1 500代,算法提升25%,Double DQN+局部回報(bào)重塑+PER算法訓(xùn)練700代,算法提升65%。
上述為算法在對(duì)抗策略宏觀層面的表現(xiàn)。在微觀層面,即策略收斂后的單次對(duì)局中,紅方無(wú)人智能集群呈現(xiàn)協(xié)同對(duì)抗態(tài)勢(shì),如圖10所示。攻擊單元整體居中,在己方防御單元的防御保護(hù)下對(duì)處于己方探測(cè)單元探測(cè)視角內(nèi)的敵方單元進(jìn)行飽和攻擊;防御單元居陣型前方,集中防御,保護(hù)己方攻擊單元和探測(cè)單元;探測(cè)單元居陣型后方,向后退避、向前沖鋒行為動(dòng)態(tài)切換,為己方攻擊單元提供探測(cè)視角的同時(shí),最大化保證自身的生存。不同類型單元根據(jù)自身屬性特點(diǎn)實(shí)現(xiàn)了行為協(xié)同、功能互補(bǔ),同類型單元也呈現(xiàn)出明顯的群集優(yōu)勢(shì)。
圖10 紅藍(lán)無(wú)人集群攻防對(duì)抗仿真對(duì)局態(tài)勢(shì)圖Fig.10 Situation forattack-defense confrontation simulation of red and blue UVA swarms
為了直觀展示紅藍(lán)雙方集群對(duì)抗過(guò)程,設(shè)計(jì)了無(wú)人集群對(duì)抗實(shí)時(shí)演示系統(tǒng),如圖11所示。演示系統(tǒng)中針對(duì)無(wú)人集群攻防對(duì)抗任務(wù)場(chǎng)景設(shè)計(jì)了5個(gè)模塊,其中實(shí)時(shí)攻防對(duì)抗態(tài)勢(shì)演示模塊位于演示面板中央,雙方實(shí)時(shí)對(duì)抗過(guò)程以回合步為單位進(jìn)行更新。攻防對(duì)抗雙方實(shí)時(shí)勝率演示模塊、攻防對(duì)抗雙方實(shí)時(shí)有效進(jìn)攻/防御數(shù)據(jù)位于演示面板左側(cè);雙方各類型單元實(shí)時(shí)存活數(shù)、雙方各類型單元實(shí)時(shí)總血量位于演示面板右側(cè);左右側(cè)四大演示模塊除攻防對(duì)抗雙方實(shí)時(shí)勝率以對(duì)局為單位更新外均以回合步為單位更新。
圖11 無(wú)人集群攻防對(duì)抗任務(wù)場(chǎng)景演示面板Fig.11 Demonstration panel for attack-defense confrontation scenario of UVA swarms
無(wú)人集群為無(wú)人系統(tǒng)與群體智能的結(jié)合,意圖通過(guò)群體智能算法使多數(shù)量無(wú)人系統(tǒng)具備自組織能力并實(shí)現(xiàn)協(xié)同能力涌現(xiàn)。在這一過(guò)程中,強(qiáng)化學(xué)習(xí)技術(shù)被廣泛采用,稀疏獎(jiǎng)勵(lì)問(wèn)題廣泛存在。本文構(gòu)建了無(wú)人集群對(duì)抗模型框架,并以無(wú)人集群攻防對(duì)抗為具體場(chǎng)景進(jìn)行了模型設(shè)計(jì),通過(guò)分析獎(jiǎng)勵(lì)函數(shù)機(jī)理機(jī)制,設(shè)計(jì)了局部回報(bào)重塑方法,并疊加PER方法,最后進(jìn)行了程序仿真與演示系統(tǒng)設(shè)計(jì)。經(jīng)對(duì)比證明該方法有效提升了算法效率,后續(xù)將在以下方面展開(kāi)進(jìn)一步研究:
1)針對(duì)稀疏獎(jiǎng)勵(lì)問(wèn)題,當(dāng)前方法在智能性、泛化性、設(shè)計(jì)耗時(shí)方面具備提升空間,可進(jìn)一步研究智能性更強(qiáng)、泛化性更好、設(shè)計(jì)耗時(shí)更短的稀疏獎(jiǎng)勵(lì)算法,促進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)從理論研究邁向工程應(yīng)用。
2)當(dāng)前研究關(guān)注自主決策算法,后續(xù)可對(duì)基于實(shí)際動(dòng)力學(xué)模型及態(tài)勢(shì)感知下的自主決策算法展開(kāi)研究,進(jìn)一步提升自主決策算法驗(yàn)證過(guò)程置信度。