国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

針對(duì)無(wú)人潛航器的反潛策略研究

2022-10-10 08:14:00張鴻強(qiáng)李厚樸
關(guān)鍵詞:反潛敵方部署

曾 斌,張鴻強(qiáng),李厚樸

(1.海軍工程大學(xué)管理工程與裝備經(jīng)濟(jì)系,湖北 武漢 430033;2.海軍工程大學(xué)導(dǎo)航工程系,湖北 武漢 430033)

0 引 言

無(wú)人潛航器(unmanned underwater vehicles,UUV)具有長(zhǎng)期水下自主航行能力,經(jīng)常用于在水下執(zhí)行搜集艦艇聲紋、偵察與監(jiān)視、反潛警戒、探測(cè)海底地勢(shì)和資源等各類(lèi)任務(wù)[1-2]。近年來(lái),在很多重要海域經(jīng)常發(fā)現(xiàn)UUV的出沒(méi),疑似用于搜集我方艦艇信息、海上實(shí)驗(yàn)數(shù)據(jù)以及重要海域的水文情報(bào)[3],甚至日本在2018年12月新版的《防衛(wèi)計(jì)劃大綱》中公開(kāi)宣布計(jì)劃在釣魚(yú)島等海區(qū)部署新型UUV,這些對(duì)我國(guó)海洋國(guó)土安全構(gòu)成極大威脅[4],因此針對(duì)敵方UUV入侵的反潛方法研究日益重要。

UUV入侵與潛艇入侵相比有幾點(diǎn)不同:體積小,噪聲低,隱蔽性更強(qiáng);經(jīng)常多艘同時(shí)入侵;可用于長(zhǎng)時(shí)間自主監(jiān)測(cè),且具有一定反搜索能力;具有軍民難分的特點(diǎn),法律地位模糊[3-4]。這就導(dǎo)致針對(duì)UUV入侵的反潛作戰(zhàn)更為困難。針對(duì)潛艇的常規(guī)反潛行動(dòng)需要通過(guò)派遣反潛巡邏機(jī)或直升機(jī)等手段搜潛,判斷出潛艇的初始位置,然后在一個(gè)預(yù)估范圍內(nèi)展開(kāi)搜索[5-6]。而UUV隱蔽性更強(qiáng),許多情況下只是根據(jù)不確定的情報(bào)線索,例如漁民報(bào)告或聲納網(wǎng)絡(luò)的疑似預(yù)警,懷疑有不明水下裝置在我方利益區(qū)域(例如海上試驗(yàn)區(qū)、關(guān)鍵航道或油氣田區(qū))活動(dòng),由于缺少明確定位,起始搜索范圍較大。同時(shí)針對(duì)多艘UUV情況,我方搜潛平臺(tái)還需要協(xié)同工作,這更加大了反潛難度。另外,利用反潛巡邏機(jī)和直升機(jī)進(jìn)行UUV搜潛的費(fèi)效比也較低,而利用UUV偵搜UUV更加可行,這就要求反潛UUV能夠自主探測(cè)、協(xié)同并跟蹤敵方UUV。

從公開(kāi)文獻(xiàn)看,除了一些非正式的網(wǎng)上相關(guān)報(bào)道,尚未查找到專(zhuān)門(mén)針對(duì)UUV的反潛研究學(xué)術(shù)性論文,但針對(duì)潛艇的反潛研究一直是研究熱點(diǎn)。例如,上下文感知的反潛任務(wù)決策支持方法[7]利用隱馬爾可夫模型對(duì)反潛資源分配和搜索路徑規(guī)劃問(wèn)題進(jìn)行了數(shù)學(xué)建模,并采用進(jìn)化算法對(duì)數(shù)學(xué)模型求解。隨機(jī)反潛巡邏算法[8]認(rèn)為利用現(xiàn)有技術(shù)難以在開(kāi)放海域偵搜潛艇,為此提出在被島嶼等地形限制潛艇行動(dòng)的海域進(jìn)行巡邏監(jiān)測(cè)的路徑規(guī)劃算法。反潛資源優(yōu)化部署算法[9]把反潛任務(wù)看作有限時(shí)間范圍內(nèi)的零和博弈,并利用線性規(guī)劃算法求解出優(yōu)化策略。反潛規(guī)劃輔助工具[10]針對(duì)分布在多海域的多個(gè)反潛任務(wù),利用線性規(guī)劃對(duì)不同類(lèi)型的反潛裝備分配問(wèn)題進(jìn)行了建模和求解。文獻(xiàn)[11]對(duì)文獻(xiàn)[10]的線性規(guī)劃模型進(jìn)行了擴(kuò)展,加入了時(shí)限參數(shù)。但以上反潛研究都是以數(shù)學(xué)規(guī)劃模型作為理論基礎(chǔ),適用于只有單個(gè)水下目標(biāo)(一個(gè)潛艇)的確定性環(huán)境。

另外,近年來(lái)博弈論、深度強(qiáng)化學(xué)習(xí)等方法在國(guó)土安全的資源調(diào)度領(lǐng)域日益得到重視。例如,文獻(xiàn)[12]基于博弈論建立了攻防資源分配模型。文獻(xiàn)[13]針對(duì)海岸安全巡邏問(wèn)題,基于量子反應(yīng)模型對(duì)敵方目標(biāo)進(jìn)行行為建模,利用攻防Stackelberg博弈模型設(shè)計(jì)了海岸巡邏調(diào)度算法。文獻(xiàn)[14]把強(qiáng)化學(xué)習(xí)引入到多人博弈中,并提出了軟團(tuán)隊(duì)(actor-critic,AC)算法求解團(tuán)隊(duì)協(xié)作問(wèn)題。文獻(xiàn)[15-16]提出了深度虛擬博弈算法求解環(huán)保領(lǐng)域的資源分配問(wèn)題。盡管這些研究更多的是關(guān)注陸地上安保資源的分配及巡邏問(wèn)題,與反潛規(guī)劃有較大差異,但從中可以看出機(jī)器學(xué)習(xí)、多智能體學(xué)習(xí)等新興技術(shù)在博弈論領(lǐng)域能夠解決某些傳統(tǒng)線性規(guī)劃算法難以計(jì)算的問(wèn)題。

為此,本文設(shè)計(jì)了一個(gè)兩階段反潛規(guī)劃算法。提出了基于強(qiáng)化學(xué)習(xí)AC算法(actor-critic,AC)的魯棒性部署策略學(xué)習(xí)算法,用以計(jì)算不確定環(huán)境下的資源部署問(wèn)題;提出了基于多智能體強(qiáng)化學(xué)習(xí)的搜潛策略學(xué)習(xí)算法,用以計(jì)算團(tuán)隊(duì)攻防環(huán)境下的搜潛路徑規(guī)劃問(wèn)題。針對(duì)敵方目標(biāo)噪聲低和具有自主行為模式的特點(diǎn),在強(qiáng)化學(xué)習(xí)的馬爾可夫決策模型中加入了綜合反映聲納探測(cè)概率和海區(qū)重要度的獎(jiǎng)勵(lì)值設(shè)計(jì);針對(duì)不確定的敵方目標(biāo)分布情況,在強(qiáng)化學(xué)習(xí)中引入?yún)?shù)擾動(dòng)機(jī)制提高算法的魯棒性。由于本文反潛算法不僅適用于UUV,同樣也能用于常規(guī)潛艇,所以后文敵方目標(biāo)通稱為水下探測(cè)器。

1 反潛問(wèn)題的指標(biāo)設(shè)計(jì)

假設(shè)反潛海域劃分為I個(gè)網(wǎng)格區(qū)域或分區(qū),每個(gè)網(wǎng)格可看作一個(gè)包含深度的長(zhǎng)方體,符號(hào)i={1,2,…,I}表示反潛分區(qū)的計(jì)數(shù)下標(biāo),反潛指揮人員可以按照優(yōu)先級(jí)定義每個(gè)反潛區(qū)域的重要性,用ui表示。反潛博弈過(guò)程包括J+K個(gè)運(yùn)動(dòng)物體,其中包含J個(gè)敵方水下目標(biāo)和K個(gè)我方搜潛平臺(tái),符號(hào)j={1,2,…,J}表示水下目標(biāo)的下標(biāo),k={1,2,…,K}表示我方搜潛平臺(tái)的計(jì)數(shù)下標(biāo),敵方水下目標(biāo)和我方搜潛平臺(tái)作為多智能體運(yùn)行。反潛的目標(biāo)是:通過(guò)我方搜潛平臺(tái)智能體的分工協(xié)作,在降低我方重要反潛海域威脅度的同時(shí),提高對(duì)敵方水下目標(biāo)的檢測(cè)率。

首先定義威脅度指標(biāo),表示j號(hào)敵方目標(biāo)對(duì)i號(hào)分區(qū)的威脅程度,用TIij表示。設(shè)Dist(i,j)表示j號(hào)目標(biāo)與i號(hào)分區(qū)之間距離,則當(dāng)Dist(i,j)越大且i號(hào)分區(qū)重要性u(píng) i越小時(shí),威脅度越低,所以TIij定義如下:

第2個(gè)指標(biāo)為目標(biāo)探測(cè)率。復(fù)雜多變的海洋環(huán)境會(huì)產(chǎn)生水下聲波傳播的功率損耗,其中回波、環(huán)境噪聲等都會(huì)極大地影響搜潛平臺(tái)聲納系統(tǒng)的傳感性能[17]。搜潛常用的主動(dòng)聲納的聲信號(hào)流程為:換能器陣發(fā)出聲波,通過(guò)海水傳播至目標(biāo),在目標(biāo)物產(chǎn)生散射/反射,經(jīng)過(guò)海水傳至接收換能器陣,其探測(cè)方程如下:

式中:SE(以dB為單位)表示信號(hào)余量,作為聲納探測(cè)性能的指標(biāo);SL為聲納級(jí)別,表示聲納發(fā)射器發(fā)出的聲波量;TLST和TLTR分別表示從聲源(搜潛聲納)至水下目標(biāo)和從水下目標(biāo)至聲源之間的傳輸損耗;TS為目標(biāo)強(qiáng)度,表示目標(biāo)物反射/散射的能力;NL表示周?chē)Q蟓h(huán)境的噪聲級(jí)別;DI和DT分別表示方向性增益和檢測(cè)閾值。

在此基礎(chǔ)上,為了反映聲納探測(cè)的不確定性,本文利用概率模型計(jì)算搜潛聲納探測(cè)水下目標(biāo)的能力。該模型同樣適用于被動(dòng)聲納方程。

當(dāng)?shù)趉個(gè)搜潛平臺(tái)獲得的第j個(gè)水下目標(biāo)的回波信號(hào)余量為SEjk時(shí),定義第k個(gè)搜潛平臺(tái)對(duì)第j個(gè)水下目標(biāo)的探測(cè)概率為

式中:Φ是正態(tài)分布概率函數(shù);σ為標(biāo)準(zhǔn)差,一般取3~9 dB之間[7]。當(dāng)不考慮聲納、環(huán)境和目標(biāo)的隨機(jī)性時(shí),P jk僅為j號(hào)敵方目標(biāo)和k號(hào)搜索平臺(tái)之間距離的函數(shù)。

2 部署策略的學(xué)習(xí)

本文把搜潛攻防過(guò)程劃分為兩個(gè)階段。第1個(gè)階段為資源分配,在這個(gè)階段我方把搜潛平臺(tái)部署到不同的網(wǎng)格分區(qū),這也代表了搜潛開(kāi)始時(shí)的起始位置。對(duì)應(yīng)地,敵方也在這個(gè)階段部署不同數(shù)量的水下探測(cè)器至對(duì)自己占優(yōu)的網(wǎng)格海區(qū)。第2個(gè)階段為搜潛階段,在這個(gè)階段敵方水下探測(cè)器在我方反潛海域活動(dòng),試圖探測(cè)甚至攻擊我方重要設(shè)施,而我方搜潛平臺(tái)則需要在保護(hù)我方重要海域的同時(shí)搜索破壞敵方水下探測(cè)器目標(biāo)。

本節(jié)描述部署階段敵我雙方攻防博弈采用的分配策略。

2.1 資源分配模型

分配模型基于不確定性馬爾可夫決策過(guò)程[18]建立,利用四元組[S d,A d,T d,R d]表示。狀態(tài)S d=[a t-1,u t-1],a t-1表示我方在t-1時(shí)間段的動(dòng)作,為資源分配方案矢量,表示每一個(gè)反潛分區(qū)內(nèi)指派的搜潛平臺(tái)數(shù)量,總數(shù)量小于等于我方搜潛平臺(tái)資源總量,例如a=(2,1,2,0,0)表示在第1~第3號(hào)反潛分區(qū)指派搜潛平臺(tái)數(shù)量分別為2、1、2,其他分區(qū)沒(méi)有分配資源。u t-1表示t-1時(shí)間段的各個(gè)反潛分區(qū)重要性,該狀態(tài)分量用于描述我方保護(hù)目標(biāo)位置變化的場(chǎng)景。A d表示敵我雙方的博弈動(dòng)作空間,由資源分配方案矢量構(gòu)成。狀態(tài)遷移T d:S d→與敵方目標(biāo)的位置參數(shù)相關(guān),設(shè)l為敵方水下探測(cè)器的出現(xiàn)位置和數(shù)量,為不確定參數(shù),敵方部署的混合策略πl(wèi)將會(huì)生成狀態(tài)遷移T d上的一次概率分布,例如假設(shè)有兩個(gè)敵方目標(biāo)可能出現(xiàn)的位置和數(shù)量矢量,l1=(3,2,1,0,0)和l2=(2,3,0,1,0),表達(dá)方式同資源分配矢量,本文稱之為目標(biāo)分布矢量,如果πl(wèi)=(0.6,0.4),表示l1有0.6的概率出現(xiàn),l2有0.4的概率出現(xiàn),狀態(tài)遷移的混合策略分布是不確定性馬爾可夫決策過(guò)程的主要特征。

在具體實(shí)現(xiàn)時(shí),為了提高強(qiáng)化學(xué)習(xí)的效率,本文把方案矢量或分布矢量映射為[0,1]之間的小數(shù),在應(yīng)用時(shí)通過(guò)Lambda函數(shù)把連續(xù)小數(shù)還原為數(shù)量。另外,為了表達(dá)搜潛平臺(tái)以及探測(cè)器的不同類(lèi)型,可以把方案矢量以及分布矢量擴(kuò)展為2維矩陣,第1維為反潛分區(qū),第2維為裝備類(lèi)型。

獎(jiǎng)勵(lì)R d表示執(zhí)行動(dòng)作的獎(jiǎng)勵(lì),由第1節(jié)介紹的反潛指標(biāo)構(gòu)成,我方k號(hào)搜潛平臺(tái)的獎(jiǎng)勵(lì)r k定義如下:

敵方j(luò)號(hào)探測(cè)器獎(jiǎng)勵(lì)r j定義如下:

式(4)和式(5)中w1和w2表示組合指標(biāo)權(quán)重。

2.2 魯棒性部署策略學(xué)習(xí)算法總體設(shè)計(jì)

敵方分布矢量l為不確定參數(shù),我方對(duì)其分布也缺乏先驗(yàn)知識(shí),為此需要我方的部署策略πa對(duì)于不確定參數(shù)l具有一定魯棒性。本文采用了魯棒性決策理論中的最小最大后悔值方法[19]來(lái)設(shè)計(jì)魯棒性部署算法。設(shè)r(πa,l)為在敵方不確定性參數(shù)l影響下,我方采用策略πa所獲得的期望獎(jiǎng)勵(lì),則我方采用策略πa的后悔值定義如下:

因此,部署算法的目標(biāo)是計(jì)算得到我方部署策略πa,能夠最小化不確定參數(shù)l下的最大可能后悔值,利用式(6)可推導(dǎo)出該問(wèn)題的規(guī)劃模型為

該規(guī)劃模型可以看作是敵我雙方的博弈問(wèn)題,針對(duì)敵方選擇最壞情況下的參數(shù)值l,我方需要學(xué)習(xí)優(yōu)化策略πa,最小化最大的后悔值,該博弈問(wèn)題中,我方的收益為-regret,敵方收益為regret。借鑒double oracle算法、博弈論和深度學(xué)習(xí)思想,部署策略學(xué)習(xí)算法設(shè)計(jì)如下。

如果對(duì)敵方探測(cè)器的分布情況有歷史數(shù)據(jù)作為啟發(fā)線索,可以在算法輸入時(shí)作為參數(shù)集L輸入,否則可以隨機(jī)生成L。算法1中,第1行~第4行為初始化。從第5行開(kāi)始進(jìn)入敵我雙方博弈的外循環(huán),第6行和第7行敵我雙方根據(jù)對(duì)手的方案集和策略,生成自己的最佳反應(yīng)方案,第8行擴(kuò)充現(xiàn)有方案集并計(jì)算雙方收益矩陣pm。如果不考慮擾動(dòng)機(jī)制,最后利用收益矩陣計(jì)算納什均衡下的混合策略。

本文出于以下兩個(gè)原因引入了參數(shù)擾動(dòng)機(jī)制:一是由于水下復(fù)雜環(huán)境的影響,我方聲納難以精確獲取敵方水下目標(biāo)的分布情況;第二個(gè)原因與強(qiáng)化學(xué)習(xí)的精度有關(guān),對(duì)于一個(gè)給定的敵方分布,我方強(qiáng)化學(xué)習(xí)機(jī)并不能保證一定得到最佳反應(yīng)策略。因此,受獎(jiǎng)勵(lì)值隨機(jī)擾動(dòng)處理不確定參數(shù)的思路啟發(fā),本文加入分布參數(shù)l的不同擾動(dòng)值,便于我方學(xué)習(xí)機(jī)搜索優(yōu)化策略(l)以及最佳反應(yīng)方案。

另外,算法中博弈樹(shù)規(guī)模與反潛分區(qū)數(shù)量相關(guān),計(jì)算復(fù)雜性屬于多項(xiàng)式范圍,能夠利用線性規(guī)劃(本文利用Nashpy庫(kù)函數(shù)[20]進(jìn)行計(jì)算)求解出納什均衡解。所以,盡管參數(shù)擾動(dòng)機(jī)制增加了更多的候選方案,但是只擴(kuò)大了收益矩陣的大小,計(jì)算復(fù)雜性的增加幅度并不大。

下面為收益矩陣計(jì)算函數(shù)UpdatePayoffs的偽代碼。

下面描述敵我雙方最佳反應(yīng)策略的學(xué)習(xí)算法。

2.3 最佳反應(yīng)策略學(xué)習(xí)算法設(shè)計(jì)

我方最佳反應(yīng)策略的學(xué)習(xí)算法為DefendPlanBR,在給定的敵方分布集S l和策略πl(wèi)的情況下,學(xué)習(xí)我方部署優(yōu)化策略πa,使得我方部署方案能夠最大化獎(jiǎng)勵(lì)值。該算法直接采用了強(qiáng)化學(xué)習(xí)的深度確定性策略梯度(deep deterministic policy gradient,DDPG)架構(gòu)[21]來(lái)獲取優(yōu)化的部署策略。DDPG架構(gòu)可以看作AC架構(gòu)[22]和深度Q網(wǎng)絡(luò)(deep Q network,DQN)[23]的綜合,能夠解決連續(xù)性動(dòng)作問(wèn)題。

敵方最佳反應(yīng)策略的學(xué)習(xí)算法為Enemy Plan BR,與我方學(xué)習(xí)算法DefendPlanBR類(lèi)似,也是采用了DDPG算法架構(gòu),但因?yàn)樾枰瑫r(shí)計(jì)算敵方水下探測(cè)器的分布策略πl(wèi)和不確定參數(shù)l,所以算法更加復(fù)雜。

最為直接的方法是采用兩套學(xué)習(xí)機(jī)(AC神經(jīng)網(wǎng)絡(luò))分別訓(xùn)練πl(wèi)和l,但是由于不確定參數(shù)l和策略πl(wèi)強(qiáng)相關(guān),這種分離式訓(xùn)練方法只能得到次優(yōu)結(jié)果,因此本文采用喚醒-休眠機(jī)制,利用1套AC神經(jīng)網(wǎng)絡(luò)同時(shí)優(yōu)化πl(wèi)和l,不僅能夠簡(jiǎn)化算法復(fù)雜性,而且提高了訓(xùn)練速度,算法偽代碼如下。

EnemyPlanBR偽代碼中,為了提高算法魯棒性,第3行利用隨機(jī)抽樣生成新的部署策略,第5行~第7行在實(shí)現(xiàn)時(shí)可以利用Tensor Flow或Py Torch的選擇性權(quán)重梯度求解接口實(shí)現(xiàn),第8行需要利用第3節(jié)搜索訓(xùn)練好的敵我雙方攻防策略計(jì)算下一步時(shí)間段的獎(jiǎng)勵(lì)和狀態(tài)結(jié)果,第10行調(diào)用了DDPG網(wǎng)絡(luò)的更新算法,為了偽代碼的表達(dá)清晰,省略了DDPG網(wǎng)絡(luò)的經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)更新等步驟。

3 搜潛策略的學(xué)習(xí)

3.1 搜潛模型的建立

部署階段考慮的是敵我雙方兩個(gè)指揮機(jī)構(gòu)之間的零和博弈,而搜潛階段需要考慮多個(gè)智能體(多個(gè)我方搜潛平臺(tái)和多個(gè)敵方水下探測(cè)器)之間的協(xié)作與攻防關(guān)系,為此在搜潛階段采用了基于多智能體的部分可觀察馬爾可夫決策 過(guò) 程[24](partially observable Markov decision processes,POMDP)來(lái)建立攻防模型。設(shè)系統(tǒng)內(nèi)共有N個(gè)智能體(下標(biāo)為n),環(huán)境的部分可觀察狀態(tài)空間定義為O={O1,O2,…,O N},動(dòng)作空間定義為A={A1,A2,…,A N},對(duì)于我方搜潛平臺(tái)和敵方探測(cè)器,考慮到搜潛仿真軟件中探測(cè)概率的計(jì)算需要(見(jiàn)第1節(jié)),選取3個(gè)自由度方向的動(dòng)力為動(dòng)作,即動(dòng)作a n為包含3個(gè)實(shí)數(shù)分量的矢量,水面艦船深度方向動(dòng)力為0。在搜潛階段,假設(shè)敵我雙方只能感知自己傳感距離之內(nèi)的環(huán)境和物體,我方搜潛平臺(tái)具有通信能力,且每個(gè)智能體按時(shí)間步長(zhǎng)移動(dòng)。對(duì)于我方搜潛平臺(tái)智能體,其狀態(tài)包括:搜潛網(wǎng)格分區(qū)中我方各個(gè)搜潛平臺(tái)的位置、深度、類(lèi)型,搜潛平臺(tái)上聲納傳感器的觀測(cè)結(jié)果,某一個(gè)分區(qū)內(nèi)是否檢測(cè)到敵方目標(biāo),搜潛平臺(tái)的通知消息、各個(gè)網(wǎng)格分區(qū)的重要性(如果保護(hù)對(duì)象為編隊(duì)等移動(dòng)對(duì)象)以及每一個(gè)分區(qū)的經(jīng)過(guò)次數(shù)等。敵方探測(cè)器的狀態(tài)包括:觀測(cè)范圍內(nèi)我方和敵方UUV的位置信息。

獎(jiǎng)勵(lì)函數(shù)R的定義與第2.1節(jié)資源分配模型相同。對(duì)于狀態(tài)轉(zhuǎn)移函數(shù),每一個(gè)智能體包含一套AC網(wǎng)絡(luò),其中actor網(wǎng)絡(luò)輸入矢量為局部觀察狀態(tài)On,每一個(gè)時(shí)間步長(zhǎng)t,智能體n根據(jù)AC網(wǎng)絡(luò)中參數(shù)化的策略πl(wèi),選擇動(dòng)作a n,并獲得獎(jiǎng)勵(lì)rn,每一個(gè)智能體的目標(biāo)是最大化其期望獎(jiǎng)勵(lì),其中γt為t時(shí)段的折扣率,為第n個(gè)智能體在時(shí)段t收集到的獎(jiǎng)勵(lì)。

3.2 搜潛策略學(xué)習(xí)算法的設(shè)計(jì)

本文提出了一個(gè)基于多智能體DDPG[25](multi-agent DDPG,MADDPG)的搜潛算法,用以學(xué)習(xí)我方搜潛策略,MADDPG是DDPG架構(gòu)在多智能體學(xué)習(xí)方面的擴(kuò)展,采用的是集中式訓(xùn)練 -分布式執(zhí)行學(xué)習(xí)模式[26],這種模式特別適用于POMDP,由于搜潛過(guò)程中單個(gè)智能體都無(wú)法獲取整個(gè)環(huán)境的完整狀態(tài)信息,所以在訓(xùn)練時(shí)給智能體的critic網(wǎng)絡(luò)以集中訓(xùn)練形式提供額外信息,這樣可以幫助智能體學(xué)習(xí)到更好的動(dòng)作策略。

設(shè)搜潛環(huán)境中包括K個(gè)搜潛平臺(tái),策略空間πD={π1,π2,…,πK},對(duì)應(yīng)K個(gè)搜潛平臺(tái)智能體的actor神經(jīng)網(wǎng)絡(luò)參數(shù)θ={θ1,θ2,…,θK},另外設(shè)有J個(gè)敵方水下探測(cè)器,策略空間τE={τ1,τ2,…,τJ},對(duì)應(yīng)的actor神經(jīng)網(wǎng)絡(luò)參數(shù)ψ={ψ1,ψ2,…,ψK},則我方第k個(gè)搜潛平臺(tái)智能體的actor網(wǎng)絡(luò)參數(shù)的梯度更新公式如下:

同樣,敵方第j個(gè)探測(cè)器智能體的actor網(wǎng)絡(luò)參數(shù)的梯度更新公式如下:

式(7)和式(8)中o={o1,o2,…,o K+J}表示敵我雙方的可觀測(cè)狀態(tài);ak表示我方第k個(gè)搜潛平臺(tái)的動(dòng)作,a D={a k}表示我方所有搜潛平臺(tái)的動(dòng)作;a j表示敵方第j個(gè)搜潛平臺(tái)的動(dòng)作;a E={a j}表示敵方所有探測(cè)器的動(dòng)作,Q函數(shù)表示提供了所有環(huán)境信息(o,a D,a E)的集中動(dòng)作 價(jià)值函數(shù),它用于計(jì)算智能體的Q值,其中φk和ξj分別為我方和敵方智能體Critic網(wǎng)絡(luò)的權(quán)重參數(shù)。

我方第k個(gè)搜潛平臺(tái)智能體的Critic網(wǎng)絡(luò)參數(shù)的梯度更新公式如下:

敵方第j個(gè)探測(cè)器智能體的Critic網(wǎng)絡(luò)參數(shù)的梯度更新公式如下:

式(10)和式(11)中y的定義為

算法4為搜潛算法偽代碼,為簡(jiǎn)潔起見(jiàn),偽代碼只考慮了敵我雙方各擁有一種類(lèi)型的裝備,如果需要考慮多種裝備,只需在算法中添加新類(lèi)型裝備的智能體訓(xùn)練流程即可。

算法分3個(gè)部分,第1部分從第4行到第14行,第6行從當(dāng)前策略中隨機(jī)生成敵我雙方所有智能體的動(dòng)作,數(shù)據(jù)類(lèi)型為矩陣,并在第7行把這些動(dòng)作輸入給搜潛過(guò)程仿真軟件,以矩陣形式返回下一時(shí)間步的各自狀態(tài)和獎(jiǎng)勵(lì),并在第8行至第13行把敵我雙方的當(dāng)前狀態(tài)、下一步狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)存入回放緩存。第1部分運(yùn)行MAX_EP_STEPS個(gè)循環(huán),得到一批可用于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)集。

第2部分從第15行至第21行,主要用于我方所有搜潛平臺(tái)智能體搜潛策略的學(xué)習(xí)。第16行從回放緩存中采樣一批大小為N s的訓(xùn)練樣本,17行~18行按式(11)生成y,第19行更新critic神經(jīng)網(wǎng)絡(luò)權(quán)重,損失值計(jì)算是式(9)的具體實(shí)現(xiàn),第20行更新actor神經(jīng)網(wǎng)絡(luò)權(quán)重,梯度下降更新是式(7)的具體實(shí)現(xiàn)。

第3部分用于敵方所有水下探測(cè)器智能體入侵策略的學(xué)習(xí),與第2部分類(lèi)似。這里為了簡(jiǎn)潔起見(jiàn),省略了諸如固定目標(biāo)網(wǎng)絡(luò)的賦值等細(xì)節(jié)。

4 仿真實(shí)驗(yàn)結(jié)果分析

本文實(shí)驗(yàn)程序利用Python開(kāi)發(fā),強(qiáng)化學(xué)習(xí)二次開(kāi)發(fā)平臺(tái)為T(mén)ensor Flow[27]。由于在策略學(xué)習(xí)過(guò)程中需要調(diào)用反潛仿真軟件獲取訓(xùn)練數(shù)據(jù),為了與現(xiàn)有強(qiáng)化學(xué)習(xí)開(kāi)發(fā)模式兼容,對(duì)現(xiàn)有反潛仿真軟件的接口進(jìn)行了封裝,參照Open AI Gym工具庫(kù)的規(guī)范,實(shí)現(xiàn)了仿真過(guò)程的reset和step2個(gè)關(guān)鍵接口。

4.1 實(shí)驗(yàn)采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

首先描述搜潛策略學(xué)習(xí)算法中智能體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。actor網(wǎng)絡(luò)第1層和第2層為卷積層,卷積層之間采用非線性Re Lu函數(shù)激活。輸入層為卷積層結(jié)構(gòu),包括10個(gè)3×3的卷積核,步長(zhǎng)為1×1;第2層也采用卷積層,包括20個(gè)3×3的卷積核,步長(zhǎng)為1×1;第3層為包括128個(gè)隱藏節(jié)點(diǎn)的全連接層;第4層為包括64個(gè)隱藏節(jié)點(diǎn)的全連接層;第5層同樣為全連接層,包括3個(gè)單元,表示動(dòng)作空間的3個(gè)維度;各層之間采用ReLu函數(shù)激活;最后為lambda層,通過(guò)tanh函數(shù)把動(dòng)作范圍映射到對(duì)應(yīng)的量綱。

搜潛策略學(xué)習(xí)算法中智能體critic網(wǎng)絡(luò)有2個(gè)輸入層,由于本文采用集中學(xué)習(xí)模式,其分別用于輸入敵我雙方的狀態(tài)和動(dòng)作;第2層利用Concat函數(shù)連接狀態(tài)輸入和動(dòng)作輸入;第3層和第4層是激活函數(shù)為ReLu的全連接層,都包括128個(gè)隱藏節(jié)點(diǎn);第5層為包含1個(gè)輸出節(jié)點(diǎn)的全連接層,輸出Q值。敵方智能體結(jié)構(gòu)只在輸入狀態(tài)層有所不同,不再冗述。

部署策略學(xué)習(xí)算法包括兩個(gè)采用DDPG架構(gòu)的智能體,分別表示敵我雙方的布局策略,這里只描述我方神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),敵方結(jié)構(gòu)與我方類(lèi)似。actor網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù)量等于狀態(tài)維度,即為2×反潛網(wǎng)格分區(qū)數(shù)量(特征分別為分配矢量和重要性矢量);第2層和第3層為全連接層,節(jié)點(diǎn)數(shù)量分別為16和32,其通過(guò)非線性的ReLu函數(shù)激活;第4層為Softmax層,把動(dòng)作策略映射為(0,1)之間的概率值。critic網(wǎng)絡(luò)輸入層對(duì)應(yīng)狀態(tài)輸入和動(dòng)作輸入,第2層節(jié)點(diǎn)數(shù)量為狀態(tài)數(shù)量與動(dòng)作維數(shù)量之和,即為3×反潛網(wǎng)格分區(qū)數(shù)量,連接狀態(tài)和動(dòng)作;第3層和第4層為全連接層,節(jié)點(diǎn)數(shù)量分別為16和32,其通過(guò)非線性的ReLu函數(shù)激活;第5層輸出層為全連接層,節(jié)點(diǎn)數(shù)量為1,輸出Q值;第3層到第5層之間通過(guò)ReLu函數(shù)激活。

4.2 實(shí)驗(yàn)場(chǎng)景及比對(duì)算法

在本文給出的實(shí)驗(yàn)想定場(chǎng)景中,反潛海區(qū)劃分為30×30個(gè)網(wǎng)格分區(qū)。我方配置為:2艘護(hù)衛(wèi)艦,4艘反潛UUV;敵方水下探測(cè)UUV數(shù)量為1艘(單目標(biāo))或3艘(多目標(biāo)),其中護(hù)衛(wèi)艦速度約為敵方UUV的3倍,我方UUV速度約為敵方UUV的1.2倍,出于數(shù)據(jù)安全考慮,這里沒(méi)有列出裝備的具體參數(shù)。另外,本文演示的實(shí)驗(yàn)場(chǎng)景規(guī)模、敵我雙方兵力的數(shù)量不大,這主要因?yàn)殡S著場(chǎng)景和智能體數(shù)量增加,強(qiáng)化學(xué)習(xí)的算力需求和訓(xùn)練時(shí)間也快速增加,為了找出不同敵方目標(biāo)數(shù)量和反潛海域下我方兵力的優(yōu)化數(shù)量,需要通過(guò)實(shí)驗(yàn)設(shè)計(jì)(design of experiment,DOE)進(jìn)行大量實(shí)驗(yàn)取得數(shù)據(jù),而本文當(dāng)前主要從技術(shù)思路上進(jìn)行論證研究。

為了檢驗(yàn)保護(hù)目標(biāo)的分布情況對(duì)算法性能的影響,本文對(duì)劃分海區(qū)各個(gè)網(wǎng)格的設(shè)置分為兩種情況:一是各網(wǎng)格分區(qū)重要性指標(biāo)隨機(jī)分布;另一種是規(guī)律分布,基于某真實(shí)海區(qū)的水下資源分布情況,與重要網(wǎng)格分區(qū)越遠(yuǎn),重要性越低,另外海區(qū)邊緣的重要性最低。這主要檢驗(yàn)算法對(duì)不同海區(qū)的適應(yīng)能力。敵方目標(biāo)數(shù)量和反潛分區(qū)重要性分布是影響算法性能的兩個(gè)重要指標(biāo),為此本文采用交叉實(shí)驗(yàn),分別針對(duì)單目標(biāo)隨機(jī)分布、單目標(biāo)規(guī)律分布、多目標(biāo)隨機(jī)分布、多目標(biāo)規(guī)律分布進(jìn)行了仿真實(shí)驗(yàn),在不同場(chǎng)景下驗(yàn)證算法性能。

為了能夠檢測(cè)算法性能,本文設(shè)置了3種比對(duì)算法。因?yàn)樵谒阉麟A段,當(dāng)缺少先驗(yàn)知識(shí)時(shí),如果時(shí)間充足,采用窮舉搜索;如果時(shí)間比較緊張,一般采用隨機(jī)搜索。這兩種搜索方法缺乏可比性,所以除了第3種比對(duì)算法,本文都采用第3節(jié)方法訓(xùn)練好的搜索策略(部署階段為隨機(jī)分配資源),變化主要在部署方法上,說(shuō)明如下:

(1)智能搜索:為本文提出的2階段反潛規(guī)劃算法,第1階段訓(xùn)練的部署策略和第2階段的搜索策略,部署策略為第2階段的搜潛服務(wù),在海區(qū)分配反潛資源。

(2)隨機(jī)部署:部署階段在反潛分區(qū)隨機(jī)分配搜潛平臺(tái);

(3)策略梯度:采用策略梯度更新算法學(xué)習(xí)最佳反應(yīng)策略,并采用經(jīng)典的虛擬博弈[28-29]訓(xùn)練框架使博弈雙方收斂至納什均衡;

(4)數(shù)學(xué)規(guī)劃:由于文獻(xiàn)[7]只考慮1個(gè)敵方探測(cè)器的情況,所以在單目標(biāo)時(shí)使用該文獻(xiàn)提出的規(guī)劃算法。多目標(biāo)時(shí),部署階段由人工選擇資源分配方案。

4.3 仿真結(jié)果

首先在不同場(chǎng)景下,對(duì)本文提出的智能反潛算法與3種比對(duì)算法進(jìn)行性能比較,為了能夠清楚表示演示圖形,每200個(gè)訓(xùn)練輪次的樣本取一次均值,訓(xùn)練曲線如圖1所示。

圖1 不同場(chǎng)景下的訓(xùn)練曲線Fig.1 Training curves of different scenarios

從圖1可以看出,從收斂速度和獎(jiǎng)勵(lì)效用性能指標(biāo)方面,智能反潛算法都遠(yuǎn)超比對(duì)算法。而且智能反潛算法的曲線變化幅度也比其他算法更小,說(shuō)明其反潛策略具有更強(qiáng)的魯棒性。

第2個(gè)實(shí)驗(yàn)檢驗(yàn)算法的魯棒性。本文引入了兩個(gè)不確定參數(shù)表示反潛過(guò)程的不確定性,第1個(gè)參數(shù)為資源部署階段的敵方分布矢量l(第3.2節(jié)),表示對(duì)敵方水下探測(cè)器初始分布的不確定性,實(shí)驗(yàn)時(shí)修改l的間隔范圍,即l的最大值與l的最小值之差作為調(diào)節(jié)參數(shù);第2個(gè)不確定參數(shù)為影響探測(cè)概率的標(biāo)準(zhǔn)差((第2節(jié)式(3))。圖2和圖3演示了場(chǎng)景為多目標(biāo)規(guī)律分布下的實(shí)驗(yàn)結(jié)果,以8 000輪訓(xùn)練輪次計(jì)算得到平均獎(jiǎng)勵(lì)值,按式(6)得到的最大后悔值作為性能指標(biāo),由于隨機(jī)部署無(wú)法處理不確定情況,所以沒(méi)有把它作為比對(duì)。圖2為不確定參數(shù)l的間隔范圍變化時(shí)針對(duì)單目標(biāo)隨機(jī)分布的最大后悔值變化情況,從圖中可以看出當(dāng)其他算法最大后悔值顯著增加時(shí),智能搜索算法的增加幅度較小。

圖2 敵方分布不確定下的性能比較Fig.2 Performance of uncertain enemy distribution

圖3進(jìn)一步針對(duì)不同場(chǎng)景和不確定參數(shù)進(jìn)行了交叉實(shí)驗(yàn)設(shè)計(jì),x坐標(biāo)的S[1,3]表示單目標(biāo)規(guī)律分布場(chǎng)景下l=1,σ=3時(shí)不同算法的最大后悔值;M[1,3]對(duì)應(yīng)多目標(biāo)規(guī)律分布場(chǎng)景下l=1,σ=3時(shí)各算法的最大后悔值;其他標(biāo)記與此類(lèi)似,其中原數(shù)學(xué)規(guī)劃算法只支持單個(gè)目標(biāo),難以在多目標(biāo)場(chǎng)景下對(duì)其加入不確定參數(shù)的擴(kuò)展模塊,所以沒(méi)有在圖3的多目標(biāo)場(chǎng)景下顯示。

圖3 場(chǎng)景和不確定參數(shù)交叉變化的性能比較Fig.3 Performance comparison of cross changing of scenarios and uncertain parameters

圖4為不同場(chǎng)景和不確定探測(cè)概率下智能搜索算法獎(jiǎng)勵(lì)值的變化情況,從中可以看出對(duì)應(yīng)不同場(chǎng)景和探測(cè)概率,本算法的可擴(kuò)展性能也較好。

圖4 不同探測(cè)概率標(biāo)準(zhǔn)差σ下的訓(xùn)練曲線Fig.4 Training curves with different detection probabilitiesσ

5 結(jié)束語(yǔ)

本文提出了一個(gè)基于多智能體強(qiáng)化學(xué)習(xí)的兩階段反潛策略學(xué)習(xí)方法,能夠在環(huán)境信息感知不確定情況下,輔助決策反潛資源的部署、巡邏、搜潛以及各資源之間的協(xié)同工作。主要優(yōu)點(diǎn)包括:與傳統(tǒng)的基于數(shù)學(xué)規(guī)劃的反潛規(guī)劃方法不同的是,多智能體強(qiáng)化學(xué)習(xí)方法不需要事先指定敵方目標(biāo)的行為模型,而是在對(duì)抗仿真中逐步增強(qiáng)敵我雙方的行為策略,因此本文算法不僅支持常規(guī)戰(zhàn)術(shù)演練,而且能生成新的反潛戰(zhàn)術(shù),或者對(duì)新戰(zhàn)術(shù)進(jìn)行性能評(píng)估。過(guò)去潛艇仿真平臺(tái)主要用于潛艇和反潛裝備性能的評(píng)估,由于缺乏戰(zhàn)例或想定數(shù)據(jù),對(duì)于實(shí)戰(zhàn)過(guò)程中戰(zhàn)術(shù)推演支持不夠,而積累戰(zhàn)術(shù)數(shù)據(jù)需要花費(fèi)大量人力物力反復(fù)推演或情報(bào)收集,而基于多智能體強(qiáng)化學(xué)習(xí)的策略學(xué)習(xí)算法與Alpha Zero類(lèi)似,可以自我學(xué)習(xí)和生成方案。下一步工作主要集中在反潛海域以及參戰(zhàn)兵力規(guī)模擴(kuò)大后的算法可擴(kuò)展性研究。

猜你喜歡
反潛敵方部署
少林韋陀十八手
少林與太極(2022年6期)2022-09-14 08:59:42
4打5,敵方還剩幾個(gè)人?
反潛戰(zhàn):追擊沉默的對(duì)手
一種基于Kubernetes的Web應(yīng)用部署與配置系統(tǒng)
晉城:安排部署 統(tǒng)防統(tǒng)治
部署
反潛江湖大亂斗
靜悄悄的反潛戰(zhàn)
水果大作戰(zhàn)
人工智能有助于處置敵方炸彈
南华县| 长泰县| 定安县| 丰顺县| 南城县| 山阴县| 冀州市| 永春县| 宽甸| 大埔县| 施甸县| 乌兰浩特市| 雅江县| 垣曲县| 遂宁市| 门头沟区| 铁力市| 青浦区| 连江县| 永修县| 新兴县| 巫山县| 德昌县| 安丘市| 溆浦县| 瑞金市| 房产| 仁寿县| 岳西县| 健康| 东兴市| 阿尔山市| 玉溪市| 固阳县| 永福县| 延川县| 徐州市| 襄樊市| 修武县| 丰县| 通化市|