白成超,王會(huì)霞,郭繼峰,路坤鋒
(1. 哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001;2. 北京航天自動(dòng)控制研究所,北京 100854;3. 宇航智能控制技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100854)
近年來,隨著高速無人飛行器技術(shù)的快速發(fā)展,高速飛行器集群已經(jīng)成為了一種重要的協(xié)同任務(wù)執(zhí)行平臺(tái)。高速飛行器集群具有許多優(yōu)點(diǎn),如大規(guī)模、多功能、高靈活性、低成本等[1],這使得高速飛行器集群在協(xié)同搜索、協(xié)同抗干擾和協(xié)同打擊等領(lǐng)域得到了廣泛的應(yīng)用[2]。
在高速飛行器集群執(zhí)行協(xié)同任務(wù)時(shí),通信是集群的基礎(chǔ)之一。集群飛行器之間的通信可以實(shí)現(xiàn)狀態(tài)和載荷信息的交換,提高協(xié)同任務(wù)的效率和可靠性。然而,由于飛行器集群的特殊性,其具有大規(guī)模、多任務(wù)、速度快、時(shí)空關(guān)系變化頻繁和信息傳遞即時(shí)突發(fā)等特點(diǎn)[3],這些特點(diǎn)為集群通信的穩(wěn)定性和魯棒性帶來了較大的挑戰(zhàn)性。通信拓?fù)浣Y(jié)構(gòu)是指在集群飛行器之間建立起來的通信連接模式,是高速飛行器組網(wǎng)設(shè)計(jì)的核心內(nèi)容之一,合適的拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)可以減少通信數(shù)據(jù)量,提高上層任務(wù)執(zhí)行的效率和可靠性。在設(shè)計(jì)通信拓?fù)浣Y(jié)構(gòu)時(shí),需要考慮飛行器之間的位置關(guān)系、飛行器的通信能力、飛行器的能量消耗情況以及對(duì)于上層任務(wù)的執(zhí)行效率等因素[4]。
目前,飛行器集群常用的通信拓?fù)浣Y(jié)構(gòu)有星形拓?fù)?、樹形拓?fù)浜途W(wǎng)狀拓?fù)涞萚5]。星形拓?fù)涑S糜诩惺浇M網(wǎng)通信,即所有節(jié)點(diǎn)向一個(gè)中心節(jié)點(diǎn)連接,中心節(jié)點(diǎn)負(fù)責(zé)維護(hù)整個(gè)網(wǎng)絡(luò)的通信,適用于節(jié)點(diǎn)數(shù)量較少的情況;樹形拓?fù)涑S糜诜謱邮浇M網(wǎng)通信,即節(jié)點(diǎn)之間按照一定的規(guī)則連接,形成一棵樹狀結(jié)構(gòu),適用于有中央?yún)f(xié)調(diào)單元的情況;網(wǎng)狀拓?fù)涑S糜诜植际浇M網(wǎng)通信,即節(jié)點(diǎn)之間任意連接,形成一個(gè)類似于網(wǎng)狀的結(jié)構(gòu),適用于節(jié)點(diǎn)數(shù)量較多的情況。預(yù)先設(shè)計(jì)的通信拓?fù)渚W(wǎng)絡(luò)的應(yīng)用有一定的局限性,因此有學(xué)者對(duì)其加以改進(jìn)。例如,文獻(xiàn)[6]針對(duì)無人機(jī)集群中由于外界干擾引起的通信可靠性下降導(dǎo)致飛行器定位精度變低的問題設(shè)計(jì)了一種分層式協(xié)同通信算法來適應(yīng)集群成員的異步更新。但是,在飛行器集群的動(dòng)態(tài)環(huán)境下,通信拓?fù)浣Y(jié)構(gòu)可能會(huì)受到外界因素的影響,導(dǎo)致通信效率下降或通信中斷,因此有許多學(xué)者對(duì)自適應(yīng)通信拓?fù)渚W(wǎng)絡(luò)進(jìn)行了研究[7-8]。例如文獻(xiàn)[9]受自然界中鴿群、椋鳥群的通信拓?fù)湫问絾l(fā),設(shè)計(jì)了一種仿生自適應(yīng)通信拓?fù)渚W(wǎng)絡(luò)來消除集群控制抖振,提高編隊(duì)的穩(wěn)定性。文獻(xiàn)[10]提出了一種自組織系統(tǒng)的群體控制方法,可以自適應(yīng)固定和切換通信拓?fù)?實(shí)現(xiàn)智能單元的聚集和分散。
也有許多學(xué)者通過集群網(wǎng)絡(luò)的拓?fù)渲貥?gòu)來間接實(shí)現(xiàn)拓?fù)渚W(wǎng)絡(luò)的環(huán)境自適應(yīng)[11],主要的拓?fù)渲貥?gòu)方法包括基于功率控制的拓?fù)渲貥?gòu)方法[12],基于節(jié)點(diǎn)移動(dòng)的拓?fù)渲貥?gòu)方法[13],基于分簇的拓?fù)渲貥?gòu)方法[14]。此外,人工智能技術(shù)可以作為一種有效的拓?fù)渚W(wǎng)絡(luò)設(shè)計(jì)手段,例如,文獻(xiàn)[15]提出了一種基于深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)的通信網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)方法,采用帶有精英策略的學(xué)習(xí)算法能夠?qū)崟r(shí)生成低功耗、抗毀性強(qiáng)的自適應(yīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),但這些網(wǎng)絡(luò)都是三連通的,通信量較大。
然而,目前研究中仍存在一些問題,例如對(duì)于如何在飛行器集群的高動(dòng)態(tài),多任務(wù)環(huán)境中實(shí)現(xiàn)快速有效的通信拓?fù)浣Y(jié)構(gòu)自適應(yīng),在降低網(wǎng)絡(luò)通信量的同時(shí)提高集群魯棒性的問題還鮮有研究。為了解決上述問題,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)集群通信拓?fù)鋵?shí)時(shí)變構(gòu)方法,通過與任務(wù)環(huán)境的不斷交互可以學(xué)習(xí)到魯棒的集群控制策略以及具備自主調(diào)整能力的集群通信策略,可通過改變集群個(gè)體與周圍鄰居的通信個(gè)數(shù)的方式自適應(yīng)地調(diào)整通信拓?fù)渚W(wǎng)絡(luò)。
本節(jié)給出了高速飛行器的運(yùn)動(dòng)學(xué)模型以及定義了本文所研究的集群控制問題。
(1)
式中:V為高速飛行器的速度;γ為飛行路徑角;ψ為航向角;RE為地心距;θ為地心經(jīng)度;φ為地心緯度;g為重力加速度。
集群控制的目標(biāo)是建立一種集群控制器使得高速飛行器ui滿足以下條件:
1)高速飛行器集群在飛行過程中盡可能保持初始隊(duì)形;
3)每個(gè)高速飛行器能夠躲避環(huán)境中的威脅區(qū)。
因此,該問題可以表達(dá)為以下優(yōu)化問題:
(2)
在集群系統(tǒng)研究中,常假設(shè)任一個(gè)體可以獲取集群內(nèi)所有其他個(gè)體的狀態(tài)信息,在對(duì)抗環(huán)境中,通信存在被干擾的可能,本文提出的基于DRL的集群控制策略通過觀測空間、獎(jiǎng)勵(lì)函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),在保證集群編隊(duì)隊(duì)形保持、威脅區(qū)規(guī)避和目標(biāo)打擊能力的前提下優(yōu)化通信策略,采用自適應(yīng)的通信機(jī)制降低對(duì)通信的依賴。
如圖1所示,基于柔性動(dòng)作-評(píng)價(jià)(SAC)[16]的集群通信策略學(xué)習(xí)采用基于強(qiáng)化學(xué)習(xí)(RL)的數(shù)據(jù)驅(qū)動(dòng)方法,在搭建的高速飛行器集群數(shù)值仿真環(huán)境中,與環(huán)境交互得到訓(xùn)練數(shù)據(jù),利用數(shù)據(jù)不斷優(yōu)化集群控制策略。
圖1 高速飛行器集群學(xué)習(xí)交互原理
設(shè)集群編隊(duì)中每個(gè)飛行器的觀測狀態(tài)空間為S,輸出動(dòng)作為集群控制指令a∈A,A為動(dòng)作空間。集群控制智能體從初始狀態(tài)s0~p(s0)出發(fā),根據(jù)策略分布at~π(·|st)采樣輸出一個(gè)控制指令at作用于集群環(huán)境,集群按輸入的指令更新狀態(tài),得到一個(gè)獎(jiǎng)勵(lì)反饋r(st,at)并根據(jù)集群環(huán)境模型st+1~p(·|st,at)轉(zhuǎn)移到一個(gè)新的狀態(tài)st+1,一直循環(huán)此過程直到滿足停止條件。一個(gè)循環(huán)過程稱為回合(Episode)。定義一個(gè)回合的累積獎(jiǎng)勵(lì)
(3)
式中:γ∈[0, 1]是折扣率,γ→1使得學(xué)習(xí)到的策略更關(guān)注長期回報(bào);T表示一個(gè)回合中智能體與環(huán)境交互的總步數(shù)。訓(xùn)練目標(biāo)就是改進(jìn)策略π,使得Gt最大化。
SAC是一種基于隨機(jī)策略的RL框架,通過調(diào)整交叉熵來平衡學(xué)習(xí)過程中的探索和利用的關(guān)系,并且采用了雙值函數(shù)網(wǎng)絡(luò)、延遲更新和目標(biāo)網(wǎng)絡(luò)平滑等技巧,訓(xùn)練過程穩(wěn)定波動(dòng)小,是一種成熟的RL算法框架,因此本文選擇其作為高速飛行器集群控制策略訓(xùn)練框架。算法流程包括以下步驟:
1) 初始化集群控制策略網(wǎng)絡(luò)參數(shù)θ,集群控制策略值函數(shù)網(wǎng)絡(luò)參數(shù)φ1和φ2及經(jīng)驗(yàn)池D;
2) 設(shè)置值函數(shù)目標(biāo)網(wǎng)絡(luò)參數(shù)φtarg,1,φtarg,2分別與參數(shù)φ1,φ2相同:φtarg,1←φ1,φtarg,2←φ2;
3) 重復(fù)步驟4)~步驟14):
4) 觀測集群仿真環(huán)境狀態(tài)s,根據(jù)控制策略輸出集群控制指令a~πθ(·|s);
5) 在集群仿真環(huán)境中執(zhí)行控制指令a;
6) 觀測下一狀態(tài)s′和反饋的獎(jiǎng)勵(lì)r和回合結(jié)束標(biāo)志位d;
7) 將經(jīng)驗(yàn)組(s,a,r,s′,d)存到經(jīng)驗(yàn)池D中;
8) 如果回合結(jié)束則重置環(huán)境狀態(tài);
9) 如果到達(dá)更新周期則執(zhí)行步驟11~步驟14;
10) 從經(jīng)驗(yàn)池D中隨機(jī)采樣一組經(jīng)驗(yàn)B={(s,a,r,s′,d)};
11) 通過下式計(jì)算值函數(shù)的真值估計(jì):
(4)
12) 通過梯度下降更新值函數(shù)網(wǎng)絡(luò):
(5)
13) 通過梯度上升更新集群控制策略:
(6)
14) 更新目標(biāo)網(wǎng)絡(luò):
φtarg,i←ρφtarg,i+(1-ρ)φi,i=1,2
(7)
上述學(xué)習(xí)過程主要分為值函數(shù)學(xué)習(xí)和策略學(xué)習(xí)兩部分:
(1)值函數(shù)學(xué)習(xí)
給定經(jīng)驗(yàn)池D={(s,a,r,s′,d)},構(gòu)造值函數(shù)網(wǎng)絡(luò)Qφi的損失函數(shù)
(8)
式中:y(r,s′,d)為Qφi的值函數(shù)目標(biāo),即
(9)
式中:a′~πθ(·|s′)。SAC利用了Clipped Q-learning的技巧,計(jì)算值函數(shù)目標(biāo)時(shí)取兩個(gè)Q網(wǎng)絡(luò)的最小值,避免對(duì)動(dòng)作值函數(shù)的過估計(jì)。
(2)策略學(xué)習(xí)
策略學(xué)習(xí)根據(jù)值函數(shù)對(duì)高速飛行器集群給定飛行狀態(tài)下輸出的控制指令好壞評(píng)判,更新控制策略使未來的累計(jì)回報(bào)與交叉熵的和最大化,即
(10)
策略網(wǎng)絡(luò)的輸出a采用了重參數(shù)化(Reparameteri-zation)的技巧,即
(11)
式中:ξ~N(0,1)為標(biāo)準(zhǔn)高斯分布;μθ(s)和σθ(s)分別是策略網(wǎng)絡(luò)輸出的控制指令分布的均值和方差。基于SAC的集群編隊(duì)、威脅規(guī)避和目標(biāo)打擊學(xué)習(xí)的是隨機(jī)策略,輸出控制指令按參數(shù)μθ(s)和σθ(s)采樣后,再經(jīng)過激活函數(shù)將控制指令輸出限制到約束范圍內(nèi)。
在更新策略時(shí)采用同值函數(shù)更新一樣的Clipped Q-Learning技巧,即
(12)
這樣策略優(yōu)化目標(biāo)最終寫成
(13)
可通過從經(jīng)驗(yàn)池中采樣的數(shù)據(jù)利用梯度上升法實(shí)現(xiàn)以上策略的優(yōu)化。
為了實(shí)現(xiàn)高速飛行器集群的編隊(duì)、威脅區(qū)域的規(guī)避和對(duì)目標(biāo)點(diǎn)的打擊,需要在觀測向量中包含這3部分信息,從而使集群控制策略能從觀測中準(zhǔn)確判別集群的當(dāng)前飛行狀況。
1)集群編隊(duì)觀測
① 相對(duì)隊(duì)形信息
隊(duì)形保持的目標(biāo)是使得集群在飛行過程中高速飛行器之間的相對(duì)位置與初始時(shí)刻保持一致。設(shè)計(jì)觀測信息為當(dāng)前飛行器與鄰近飛行器相對(duì)位置相比于初始相對(duì)位置的偏差量。首先對(duì)鄰近飛行器i=1,2,…,m,計(jì)算當(dāng)前相對(duì)位置
(14)
式中:RE為當(dāng)前飛行器的地心距;θi,φi,hi為第i個(gè)飛行器當(dāng)前時(shí)刻的經(jīng)緯高;θ,φ,h為當(dāng)前飛行器在當(dāng)前時(shí)刻的經(jīng)緯高。同理計(jì)算初始時(shí)刻飛行器i與當(dāng)前飛行器的相對(duì)位置
(15)
式中:θi0,φi0,hi0和θ0,φ0,h0分別為第i個(gè)飛行器和當(dāng)前飛行器在初始化時(shí)的經(jīng)緯高。轉(zhuǎn)換到當(dāng)前飛行器當(dāng)前時(shí)刻的速度系下
(16)
(17)
根據(jù)上述相對(duì)位置可得當(dāng)前飛行器與鄰近飛行器i的相對(duì)位置偏差
(18)
注意到式(16)中旋轉(zhuǎn)矩陣均為當(dāng)前時(shí)刻北天東坐標(biāo)系到速度系的方向余弦矩陣,因此集群隊(duì)形是在慣性系下定義的,若要隊(duì)形在速度系下定義,將式(16)改為如下形式即可
(19)
(20)
式中:Rfmt為距離縮放因子,使觀測向量中各維度處于同一量級(jí)。
②相對(duì)速度信息
相對(duì)運(yùn)動(dòng)信息的觀測用于描述高速飛行器與集群整體運(yùn)動(dòng)趨勢的一致性,因此選擇個(gè)體與集群整體運(yùn)動(dòng)速度的偏差作為觀測量。首先計(jì)算當(dāng)前飛行器附近其他飛行器的平均運(yùn)動(dòng)速度
(21)
(22)
(23)
式中:Vi,γi,ψi分別為第i個(gè)飛行器的速度大小、飛行路徑角和航向角,由于集群內(nèi)飛行器間距相比地球半徑很小,因此忽略飛行器i所在位置與當(dāng)前飛行器所在位置北天東坐標(biāo)系之間的轉(zhuǎn)換。式(21)中wi為第i個(gè)飛行器速度所占權(quán)重,計(jì)算方式如下
(24)
(25)
(26)
從而相對(duì)速度的觀測向量形式為
(27)
式中:Vfmt為速度縮放因子。
綜上得到保持集群編隊(duì)的觀測向量如下所示
(28)
2)威脅區(qū)規(guī)避觀測
(29)
(30)
轉(zhuǎn)換到速度坐標(biāo)系下
(31)
從而排斥向量為
(32)
sost=eexc
(33)
3)目標(biāo)打擊
目標(biāo)打擊是高速飛行器集群的主要目標(biāo),即高速飛行器集群需最終命中目標(biāo)點(diǎn),在觀測向量中需要包含與目標(biāo)點(diǎn)的相對(duì)位置關(guān)系和相對(duì)運(yùn)動(dòng)關(guān)系。
首先計(jì)算目標(biāo)與集群內(nèi)任一飛行器的相對(duì)位置關(guān)系,根據(jù)目標(biāo)點(diǎn)的經(jīng)緯高[θtgt,φtgt,htgt],得到目標(biāo)點(diǎn)相對(duì)于當(dāng)前飛行器的位置矢量在當(dāng)前飛行器所在位置北天東坐標(biāo)下的分量
(34)
轉(zhuǎn)換到速度系下
(35)
歸一化為
(36)
(37)
綜上,和目標(biāo)打擊相關(guān)的觀測向量為
(38)
式中:Rtgt和Vtgt為縮放因子,使觀測向量中各維度處于同一量級(jí);stgt包含目標(biāo)所在方位矢量,與目標(biāo)相對(duì)距離信息,當(dāng)前飛行器的飛行速度大小,以及當(dāng)前飛行器當(dāng)前運(yùn)動(dòng)狀態(tài)下克服重力所需的過載。
綜合上述觀測向量,拼接得到總的觀測向量為
s=[stgt,sost,sfmt]
(39)
高速飛行器集群環(huán)境的動(dòng)作a包含過載指令和通信指令,過載指令輸入到1.1節(jié)的運(yùn)動(dòng)方程中完成集群相對(duì)運(yùn)動(dòng)狀態(tài)的遞推,通信指令用于確定與飛行器通信的最近的個(gè)體數(shù)量,調(diào)整集群通信拓?fù)浣Y(jié)構(gòu),詳細(xì)設(shè)計(jì)在2.5節(jié)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中介紹。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)與優(yōu)化目標(biāo)保持一致,基本原則為獎(jiǎng)勵(lì)好的狀態(tài)和行為,懲罰與優(yōu)化目標(biāo)相反的狀態(tài)和行為。與觀測設(shè)計(jì)相對(duì)應(yīng),獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)也包含集群編隊(duì)、威脅區(qū)域規(guī)避和目標(biāo)打擊3個(gè)來源。
1) 集群編隊(duì)獎(jiǎng)勵(lì)
① 相對(duì)隊(duì)形獎(jiǎng)勵(lì)
獎(jiǎng)勵(lì)函數(shù)是對(duì)智能體表現(xiàn)好壞的客觀評(píng)價(jià),因此在計(jì)算時(shí)可以獲取集群內(nèi)任意飛行器的狀態(tài)而不受通信的限制。衡量集群相對(duì)隊(duì)形的最直觀信息是個(gè)體飛行器相對(duì)于“領(lǐng)機(jī)”的相對(duì)位置,在本文中以集群內(nèi)所有飛行器位置加權(quán)計(jì)算一個(gè)虛擬的“領(lǐng)機(jī)”位置
(40)
式中:N為集群內(nèi)飛行器總數(shù)。計(jì)算“領(lǐng)機(jī)”相對(duì)于當(dāng)前飛行器位置矢量
(41)
同理初始時(shí)刻“領(lǐng)機(jī)”相對(duì)于當(dāng)前飛行器位置矢量
(42)
式中:θld0,φld0,hld0為“領(lǐng)機(jī)”在初始化時(shí)的經(jīng)緯高。從而相對(duì)于“領(lǐng)機(jī)”的位置的偏差表示為
(43)
此外在“領(lǐng)機(jī)”隊(duì)形偏差基礎(chǔ)上加入與鄰近飛行器的隊(duì)形偏差作為相對(duì)隊(duì)形補(bǔ)充信息
(44)
綜上得到隊(duì)形保持的獎(jiǎng)勵(lì)信息
(45)
②相對(duì)速度獎(jiǎng)勵(lì)
集群內(nèi)飛行器相對(duì)速度越小則運(yùn)動(dòng)速度一致性越高,因此設(shè)計(jì)飛行器個(gè)體與集群相對(duì)運(yùn)動(dòng)速度的獎(jiǎng)勵(lì)
(46)
2)威脅區(qū)規(guī)避獎(jiǎng)勵(lì)
威脅區(qū)規(guī)避的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為如下形式
rost=
(47)
3)目標(biāo)打擊獎(jiǎng)勵(lì)
目標(biāo)打擊的優(yōu)劣準(zhǔn)則是飛行器是否向目標(biāo)點(diǎn)運(yùn)動(dòng),因此通過飛行器的運(yùn)動(dòng)速度與目標(biāo)方向的一致性來判斷:
(48)
從而設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)
(49)
式中:ρ為一個(gè)正的系數(shù)。為了給智能體提供額外的提示,輔助訓(xùn)練收斂,在上述獎(jiǎng)勵(lì)的基礎(chǔ)上添加位置獎(jiǎng)勵(lì)和距離變化獎(jiǎng)勵(lì),當(dāng)與目標(biāo)距離在閾值Rtgt內(nèi)時(shí)得到額外的獎(jiǎng)勵(lì)
(50)
式中:κ為一個(gè)正的獎(jiǎng)勵(lì)系數(shù)。
距離變化獎(jiǎng)勵(lì)是飛行器向目標(biāo)點(diǎn)運(yùn)動(dòng)的獎(jiǎng)勵(lì),通過計(jì)算每一仿真步長飛行器與目標(biāo)點(diǎn)的距離變化得到
(51)
綜上,總的獎(jiǎng)勵(lì)函數(shù)為
(52)
根據(jù)前述算法原理,需要設(shè)計(jì)值函數(shù)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。值函數(shù)網(wǎng)絡(luò)如圖2所示,首先將集群編隊(duì)信息、威脅區(qū)規(guī)避信息和目標(biāo)打擊信息拼接為觀測向量,之后,觀測向量和控制指令拼接后輸入值函數(shù)網(wǎng)絡(luò),隨后經(jīng)過兩層128節(jié)點(diǎn)的全連接網(wǎng)絡(luò),激活函數(shù)采用ReLU,最后經(jīng)節(jié)點(diǎn)數(shù)為1的輸出層得到值函數(shù)輸出。
策略網(wǎng)絡(luò)如圖3,和值函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)類似,首先輸入層為拼接得到的觀測向量,同樣經(jīng)過兩層中間層,之后分4路,其中兩路為2節(jié)點(diǎn)網(wǎng)絡(luò)層,激活函數(shù)分別為Linear和Tanh,得到過載指令的均值和方差,另兩路為單節(jié)點(diǎn)網(wǎng)絡(luò)層,得到通信控制指令的均值和方差,兩路信號(hào)分別按均值和方差經(jīng)過高斯采樣后經(jīng)Tanh激活函數(shù)得到控制策略輸出。
圖3 策略神經(jīng)網(wǎng)絡(luò)架構(gòu)
由于上述策略網(wǎng)絡(luò)的輸出是連續(xù)的實(shí)數(shù)域,而集群個(gè)體間通信數(shù)是整數(shù),因此需要將網(wǎng)絡(luò)輸出作一定轉(zhuǎn)換。由于策略網(wǎng)絡(luò)在通信量的輸出層激活函數(shù)為Tanh,取值范圍(-1,1),設(shè)最大通信數(shù)量nmax,在每一個(gè)仿真步,設(shè)策略網(wǎng)絡(luò)輸出通信變量xcom,經(jīng)過如下變換得到通信數(shù)量式中:策略網(wǎng)絡(luò)的輸出經(jīng)nmax(xcom+1)/2取值范圍變換為(0,nmax); ceil(·)為向上取整函數(shù),將實(shí)數(shù)域轉(zhuǎn)化為[1,2,…,nmax]的有限整數(shù)集合,從而得到通信的鄰近飛行器數(shù)量。
(53)
本文使用數(shù)值仿真的方法對(duì)所提的算法進(jìn)行校驗(yàn)分析。其中,采用Python語言構(gòu)建高速飛行器集群仿真環(huán)境。如圖4所示,仿真環(huán)境中按照?qǐng)A形形狀均勻分布著9個(gè)大小相同的威脅區(qū)域,每個(gè)威脅區(qū)域以半徑為10 km的半球形區(qū)域表示,且每個(gè)威脅區(qū)域中心距離分布圓形中心的距離為60 km。在每次訓(xùn)練開始時(shí),將飛行器集群中的1號(hào)飛行器的初始位置設(shè)置在該圓形中心,其余飛行器按照設(shè)定的隊(duì)形設(shè)置各自的初始位置。此外,在每次訓(xùn)練開始階段,隨機(jī)選擇飛行器集群目標(biāo)點(diǎn)的位置,其中隨機(jī)設(shè)置飛行器集群中心與目標(biāo)點(diǎn)的連線與坐標(biāo)軸X軸的夾角,并且將飛行器集群初始位置到目標(biāo)點(diǎn)的距離設(shè)置為130 km,以此產(chǎn)生隨機(jī)且具有較高質(zhì)量的訓(xùn)練場景。訓(xùn)練過程中使用10個(gè)飛行器組成的飛行器編隊(duì)訓(xùn)練集群控制策略,每個(gè)飛行器的初始速度大小設(shè)置為1 km/s,初始高度設(shè)置為10 km。
圖4 仿真場景
其次,本文所提算法中的相關(guān)參數(shù)設(shè)置如表1所示,包括SAC算法參數(shù)、獎(jiǎng)勵(lì)系數(shù)、距離和速度縮放因子等。
表1 算法參數(shù)
圖5所示為不同通信機(jī)制下的集群控制策略在訓(xùn)練過程中所獲得的獎(jiǎng)勵(lì)值曲線。圖中所示曲線為每100個(gè)鄰近訓(xùn)練周期中各集群控制策略所獲得的獎(jiǎng)勵(lì)值平均值與方差,其中,曲線表示獎(jiǎng)勵(lì)值平均值,曲線對(duì)應(yīng)的底色表示獎(jiǎng)勵(lì)值的方差。圖中,在集中式通信機(jī)制下,1號(hào)飛行器為“領(lǐng)機(jī)”,其余飛行器為“從機(jī)”,所有“從機(jī)”飛行器只與“領(lǐng)機(jī)”飛行器通信,“從機(jī)”飛行器之間沒有通信。在分層式通信機(jī)制下所有飛行器被自上而下分成多個(gè)層次,每一層指定一個(gè)“領(lǐng)機(jī)”飛行器,而這一層的所有飛行器都只接收該層“領(lǐng)機(jī)”飛行器的通信信息,其通信拓?fù)鋱D如圖6所示。在分布式通信機(jī)制下,所有飛行器與其周圍的6個(gè)飛行器進(jìn)行通信交互。在圖5所示的4種通信機(jī)制下,集群控制策略的輸入狀態(tài)因通信機(jī)制的不同而不同,但是各集群控制策略的設(shè)計(jì)方式與第2節(jié)所述的設(shè)計(jì)方式一致。因此,影響各集群控制策略優(yōu)劣的主要因素為各自的通信方式。
圖6 分層式通信機(jī)制通信拓?fù)鋱D
如圖5所示,集群控制策略的訓(xùn)練共經(jīng)歷了2 000個(gè)訓(xùn)練周期,對(duì)于在以上4種通信機(jī)制下的集群控制策略,在訓(xùn)練了500次之后,其每回合接收到的累積獎(jiǎng)勵(lì)值基本保持穩(wěn)定,表明集群控制策略的訓(xùn)練逐步收斂。在訓(xùn)練1 600次之后,可以看出自適應(yīng)通信機(jī)制下的集群控制策略可以獲得最高的獎(jiǎng)勵(lì)值,而集中式通信機(jī)制下的集群控制策略獲得的獎(jiǎng)勵(lì)值最小,這部分地反映出自適應(yīng)通信機(jī)制下的集群控制策略好于其他集群控制策略。為了全面準(zhǔn)確地判斷出以上4種通信機(jī)制下各集群控制策略的優(yōu)劣,以下通過多種指標(biāo)評(píng)價(jià)上述訓(xùn)練出的集群控制策略的性能。
本文構(gòu)建的集群控制策略的目標(biāo)是控制高速飛行器集群在避免與威脅區(qū)發(fā)生碰撞的前提下盡可能地保持初始隊(duì)形并且盡快到達(dá)目標(biāo)點(diǎn),并且在這一過程中自適應(yīng)地調(diào)整通信拓?fù)?以適應(yīng)較為復(fù)雜的集群飛行環(huán)境。因此,本文以隊(duì)形保持精度Facc、目標(biāo)點(diǎn)到達(dá)及時(shí)性Tg、威脅區(qū)避碰成功率Sta以及集群通信量Cf這4項(xiàng)指標(biāo)評(píng)價(jià)各通信機(jī)制下集群控制策略的性能。
其中隊(duì)形保持精度Facc定義為飛行器集群在由初始位置向目標(biāo)點(diǎn)位置飛行過程中,其隊(duì)形相對(duì)于初始隊(duì)形的保持精度,即
(54)
目標(biāo)點(diǎn)到達(dá)及時(shí)性Tg定義為飛行器集群由初始位置飛向目標(biāo)點(diǎn)位置所用的時(shí)間T與設(shè)定的最大時(shí)長Tmax的比值,即
(55)
威脅區(qū)避碰成功率Sta定義為飛行器集群由初始位置飛向目標(biāo)點(diǎn)位置的過程中,集群中的飛行器是否與環(huán)境中的威脅區(qū)發(fā)生碰撞,若沒有發(fā)生碰撞,則Sta=1,反之Sta=0。
(56)
本文通過100次隨機(jī)仿真實(shí)驗(yàn)計(jì)算以上4種指標(biāo)在不同通信機(jī)制下的值,其中設(shè)置最大時(shí)長Tmax=200 s,最大通信數(shù)量nmax=6。計(jì)算的各指標(biāo)數(shù)值如表2所示。
表2 不同通信機(jī)制下的評(píng)價(jià)指標(biāo)數(shù)值
如表2所示,分布式通信機(jī)制具有最高的隊(duì)形保持精度指標(biāo)Facc,說明在本文所述的分布式通信機(jī)制下,對(duì)應(yīng)的集群控制策略可以在飛行器集群飛行過程中較好地保持其初始隊(duì)形。相對(duì)于分布式通信機(jī)制,自適應(yīng)通信機(jī)制和集中式通信機(jī)制具有較差的隊(duì)形保持能力,分層式通信機(jī)制具有最差的隊(duì)形保持能力。這說明與周圍個(gè)體通信的數(shù)量對(duì)隊(duì)形保持能力具有一定的影響,從表2中的結(jié)果中可以看出,通信量越多,隊(duì)形保持能力越強(qiáng)。相對(duì)于集中式通信機(jī)制,分層式通信機(jī)制的集群通信量雖然與之一樣,但是由于分層式通信機(jī)制的分層控制機(jī)制,其隊(duì)形控制能力弱于集中式通信機(jī)制。
對(duì)于目標(biāo)點(diǎn)到達(dá)及時(shí)性指標(biāo)Tg,自適應(yīng)通信機(jī)制具有最低的指標(biāo)值,表明其對(duì)應(yīng)的集群控制策略可以控制飛行器集群快速地到達(dá)目標(biāo)點(diǎn),而分布式通信機(jī)制具有最高的指標(biāo)值,說明其集群控制策略的及時(shí)性最差。影響分布式通信機(jī)制及時(shí)性指標(biāo)的一個(gè)主要因素是保持較高的隊(duì)形控制精度需要花費(fèi)更長的時(shí)間。對(duì)于威脅區(qū)避碰成功率Sta,各通信機(jī)制下的指標(biāo)值沒有明顯的區(qū)別,這主要是因?yàn)橥ㄐ艡C(jī)制并不會(huì)影響飛行器集群對(duì)威脅區(qū)的觀測狀態(tài)。
對(duì)于集群通信量指標(biāo)Cf,相比于分布式通信機(jī)制,自適應(yīng)通信機(jī)制的集群通信量有了很大的降低,這說明本文提出的算法可以在保持隊(duì)形控制精度與分布式通信機(jī)制相近的前提下盡可能地減小集群通信量。其次,雖然集中式通信機(jī)制與分層式通信機(jī)制具有最低的集群通信量,然而這兩種通信機(jī)制中“領(lǐng)機(jī)”飛行器具有較大的通信壓力,而且一旦“領(lǐng)機(jī)”飛行器出現(xiàn)故障,整個(gè)飛行器集群將無法繼續(xù)完成任務(wù),即集中式通信機(jī)制與分層式通信機(jī)制的魯棒性遠(yuǎn)低于自適應(yīng)通信機(jī)制的魯棒性。因此,綜合上述4項(xiàng)指標(biāo)的對(duì)比分析可知,本文提出的自適應(yīng)通信機(jī)制相對(duì)于其他3種通信機(jī)制具有更好的集群控制性能。
圖7為以上4種不同通信機(jī)制下的飛行器集群飛行軌跡。由圖可知,在所有4種通信機(jī)制下,當(dāng)飛行器集群遇到威脅區(qū)時(shí),其將自動(dòng)調(diào)整隊(duì)形,使得隊(duì)形變得更加密集,以此規(guī)避遇到的威脅區(qū)。由圖7(b)可知,相對(duì)于其他3種通信機(jī)制,在分層式通信機(jī)制下,飛行器集群在遇到威脅區(qū)之后其隊(duì)形變的最為緊密,且在遠(yuǎn)離威脅區(qū)之后,飛行器集群沒有恢復(fù)初始隊(duì)形的趨勢,因此其具有最低的隊(duì)形保持精度。此外,由圖7(d)可知,自適應(yīng)通信機(jī)制下的集群控制策略可以在飛行器集群遠(yuǎn)離威脅區(qū)之后控制飛行器集群逐步恢復(fù)到初始隊(duì)形,這說明其具有較好的隊(duì)形保持能力。以上結(jié)果表明本文提出的自適應(yīng)通信機(jī)制可以自主地調(diào)整飛行器集群的通信拓?fù)?在保證安全快速地完成既定任務(wù)的同時(shí),盡可能地降低集群的通信量。
圖7 不同通信機(jī)制下的飛行器集群飛行軌跡
針對(duì)高速飛行器集群的編隊(duì)控制問題,本文基于深度強(qiáng)化學(xué)習(xí)框架提出了一種可自主調(diào)節(jié)通信數(shù)量的集群控制策略。其中,集群中的每個(gè)飛行器共享一個(gè)相同的控制策略,且集群控制策略的輸出包含控制飛行器運(yùn)動(dòng)的過載指令以及其與鄰居飛行器的通信數(shù)量。按照這種方式設(shè)計(jì)的集群控制策略更為靈活魯棒,可在較低的集群通信量下安全快速地控制飛行器集群到達(dá)目標(biāo)點(diǎn)并且較好地保持編隊(duì)隊(duì)形。數(shù)值仿真結(jié)果說明了本文所提算法的有效性。