周 來,靳曉偉,鄭益凱
(上海機(jī)電工程研究所,上海,201109)
現(xiàn)代戰(zhàn)爭(zhēng)中,交戰(zhàn)雙方的對(duì)抗不僅局限于武器裝備的性能對(duì)抗,還包括在復(fù)雜戰(zhàn)場(chǎng)環(huán)境下根據(jù)武器裝備體系的效能覆蓋原理,在具體作戰(zhàn)條件下適時(shí)精確地利用各種裝備完成各自作戰(zhàn)任務(wù)的智力較量。作戰(zhàn)成敗的關(guān)鍵也不僅在于武器本身,更在于如何綜合籌劃、有效運(yùn)用和精準(zhǔn)控制兵力,做出一系列正確的指揮決策[1]。
目前,作戰(zhàn)輔助決策推理機(jī)制主要有產(chǎn)生式的規(guī)則推理[2-4]和基于數(shù)據(jù)庫的案例推理[5-7]兩大類方法。兩者從不同視角反映了作戰(zhàn)指揮決策的運(yùn)行規(guī)律,均取得了較好的效果,但與此同時(shí)也存在一定的局限。前者只有在作戰(zhàn)指揮規(guī)則明確、完備,態(tài)勢(shì)條件確定的條件下才能發(fā)揮效果;而后者所得輔助決策推理的可信度與效率受案例數(shù)據(jù)庫的豐富程度的制約,當(dāng)案例數(shù)據(jù)庫較大時(shí),可信度較高而效率較低,反之雖可提升效率但導(dǎo)致可信度降低。
隨著人工智能技術(shù)的發(fā)展,在作戰(zhàn)運(yùn)籌領(lǐng)域“機(jī)腦對(duì)人腦”的博弈優(yōu)勢(shì)逐漸顯現(xiàn),AlphaGo戰(zhàn)勝人類棋手李世石就是最好的例證。深度學(xué)習(xí)方法(Deep Learning,DL)[8-10]利用多層網(wǎng)絡(luò)結(jié)構(gòu)以及非線性變換,組合低層特征,形成抽象的、易于區(qū)分的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。將DL方法應(yīng)用于戰(zhàn)場(chǎng)數(shù)據(jù)的智能化分析處理,可迅速自主地辨明戰(zhàn)場(chǎng)形勢(shì),加強(qiáng)對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的感知、分析和理解能力,高效輔助指揮員進(jìn)行作戰(zhàn)決策,提升指揮控制效能,從而將信息優(yōu)勢(shì)轉(zhuǎn)化為決策優(yōu)勢(shì)。強(qiáng)化學(xué)習(xí)方法(Reinforcement Learning,RL)[11-12]通過最大化智能體(Agent),獲得的累計(jì)獎(jiǎng)賞值,以得到學(xué)習(xí)過程的最優(yōu)策略,因此RL方法更加側(cè)重于學(xué)習(xí)解決問題的策略。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)以一種通用的形式將DL的感知能力與RL的決策能力相結(jié)合,并能夠通過端對(duì)端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制,因此非常適用于作戰(zhàn)輔助決策領(lǐng)域。
本文通過梳理作戰(zhàn)決策過程,將DRL方法引入到作戰(zhàn)輔助決策過程中。其中,DL方法用于戰(zhàn)場(chǎng)特征向量的學(xué)習(xí),RL方法用于決策狀態(tài)的評(píng)估,并將兩者相結(jié)合用于最佳行動(dòng)決策序列的搜索。
決策,根據(jù)韋氏詞典解釋為“做出決定的過程”。顯而易見,決策是一個(gè)動(dòng)態(tài)的過程。指揮員做出決策的過程如圖1所示,包括數(shù)據(jù)生成、信息生成、知識(shí)生成、戰(zhàn)場(chǎng)理解與方案制定五個(gè)步驟。
圖1 決策過程
指揮員面對(duì)龐大且復(fù)雜的戰(zhàn)場(chǎng)環(huán)境,需要借助各種手段獲取、生成戰(zhàn)場(chǎng)數(shù)據(jù)。這一過程受傳感器、計(jì)算機(jī)、人員操作、時(shí)間約束等因素影響,其過程如圖2所示。
圖2 數(shù)據(jù)生成
由于數(shù)據(jù)只是傳遞信息的載體,其本身不存在意義,需要指揮員建立數(shù)據(jù)與信息之間的映射關(guān)系,從而理解信息的真實(shí)含義,如圖3所示。以雷達(dá)接收目標(biāo)回波為例,當(dāng)觀測(cè)到相關(guān)數(shù)據(jù)時(shí),將數(shù)據(jù)與雷達(dá)相關(guān)聯(lián),確定目標(biāo)到雷達(dá)的距離,并通過雷達(dá)橫截面大小確定反射強(qiáng)度,利用觀測(cè)到的多個(gè)連續(xù)回波,求取目標(biāo)速度矢量,從而才能將雷達(dá)所得到的數(shù)據(jù)解釋為信息。
圖3 信息生成
所謂知識(shí),是將得到的信息與其所處環(huán)境相結(jié)合,并進(jìn)行關(guān)聯(lián)性分析。如雷達(dá)信息給出目標(biāo)以900 km/h的速度于3000 m高度處飛行,指揮員可以判斷目標(biāo)有可能為固定翼飛機(jī)。隨著更多信息被轉(zhuǎn)化為知識(shí),指揮員對(duì)戰(zhàn)場(chǎng)了解更加深入,但是當(dāng)信息之間存在沖突或者是戰(zhàn)場(chǎng)信息不完整時(shí),對(duì)戰(zhàn)場(chǎng)判斷的不確定性也隨之增加。指揮員需綜合各方面因素提出相應(yīng)假設(shè),根據(jù)現(xiàn)有資源對(duì)假設(shè)進(jìn)行評(píng)估,從中得出最符合現(xiàn)實(shí)的判斷,此過程即為態(tài)勢(shì)感知,如圖4所示。
圖4 知識(shí)生成
在對(duì)戰(zhàn)場(chǎng)環(huán)境具備一定程度的了解之后,指揮員根據(jù)自身判斷能力、以往的經(jīng)驗(yàn)、對(duì)環(huán)境的認(rèn)知程度以及對(duì)行動(dòng)的期望等因素,將感知到的情況與之前所做出的假設(shè)進(jìn)行比對(duì),從而將態(tài)勢(shì)感知升華為態(tài)勢(shì)理解,如圖5所示。
圖5 戰(zhàn)場(chǎng)理解
在態(tài)勢(shì)理解的基礎(chǔ)上,指揮員根據(jù)作戰(zhàn)意圖、自身的期望、交戰(zhàn)規(guī)則以及諸如天氣、地形等各種約束條件制訂方案,再對(duì)各方案進(jìn)行評(píng)估,選擇最優(yōu)方案展開行動(dòng),如圖6所示。
圖6 方案制定
在復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境下,對(duì)仿真推演平臺(tái)得到的戰(zhàn)場(chǎng)環(huán)境因素、紅藍(lán)雙方武器系統(tǒng)參數(shù)、態(tài)勢(shì)評(píng)估結(jié)果和演化流程要素等信息構(gòu)成的狀態(tài)特征向量進(jìn)行量化處理,將其轉(zhuǎn)化成一個(gè)序列多步?jīng)Q策問題。通過DL方法提高狀態(tài)空間和動(dòng)作空間的搜索能力,利用RL模型制定控制策略,使得決策行為產(chǎn)生效果的期望值最大。
在戰(zhàn)場(chǎng)特征提取階段,使用DL方法中的卷積神經(jīng)網(wǎng)絡(luò)方法。若將仿真推演過程分為10個(gè)階段狀態(tài),每個(gè)狀態(tài)對(duì)應(yīng)兩種選擇。以此構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò), 如圖7所示。該過程對(duì)由若干個(gè)感知節(jié)點(diǎn) (24×24) 組成的輸入層(每個(gè)感知節(jié)點(diǎn)對(duì)應(yīng)一個(gè)戰(zhàn)場(chǎng)狀態(tài)參數(shù)或直覺量化信息),交替進(jìn)行卷積和子抽樣,實(shí)現(xiàn)指揮員情緒、行為和戰(zhàn)法演變過程狀態(tài)與決策的特征向量的高度抽象。
圖7 基于DL方法的戰(zhàn)場(chǎng)特征提取流程
第一隱藏層進(jìn)行卷積,它由4個(gè)特征映射(情緒空間、行為空間,狀態(tài)空間和決策空間)組成,每個(gè)特征映射由20×20的神經(jīng)元組成,每個(gè)神經(jīng)元指定一個(gè)5×5的接受域。第二隱藏層實(shí)現(xiàn)子抽樣和局部平均,由4個(gè)10×10的神經(jīng)元組成的特征映射構(gòu)成。第三隱層進(jìn)行二次卷積,形成8個(gè)6×6的神經(jīng)元組成的特征映射層,采用與第一卷積層相似的方式操作。第四隱藏層進(jìn)行第二次子抽樣和局部平均計(jì)算,進(jìn)一步提取信息。第五隱藏層進(jìn)行最后階段的卷積,通過神經(jīng)元個(gè)數(shù)和接受域大小設(shè)定抽象特征。最后是全連接層,得到輸出向量。深度網(wǎng)絡(luò)的計(jì)算在卷積和抽樣之間連續(xù)交替,隨著空間分辨率的下降,特征映射的數(shù)量與前一層相比不斷增加,保證了特征關(guān)聯(lián)映射的效果。
由此獲得的輸出結(jié)果是高度抽象的指揮員情緒、行為和戰(zhàn)法演變過程狀態(tài)與決策的特征向量,為學(xué)習(xí)得到影響作戰(zhàn)輔助決策的最基本要素提供技術(shù)保障。
RL過程是一種隨機(jī)過程,即整個(gè)決策是一個(gè)具有概率特性的過程,每一步的選擇都是不確定的,是在一個(gè)概率分布中采樣出來的結(jié)果。因此,在離散的系統(tǒng)中,整個(gè)回報(bào)函數(shù)是時(shí)序/路徑的疊加,而在連續(xù)系統(tǒng)中,整個(gè)回報(bào)函數(shù)是一種沿時(shí)間軸進(jìn)行的時(shí)序/路徑積分,以此評(píng)價(jià)決策行為和所處狀態(tài)的質(zhì)量,進(jìn)而實(shí)現(xiàn)整個(gè)系統(tǒng)的優(yōu)化。
a) 離散系統(tǒng)
(1)
優(yōu)化目標(biāo)為:
Q*(s,a)=maxπE[R(st,at)|st=s,at=a,π]=Es′-ε[R(st,at)+γmaxa′Q*(s′,a′)|s,a]
(2)
其中,π為策略,Q(s,a)為狀態(tài)動(dòng)作值函數(shù),Q*(s',a')為最優(yōu)狀態(tài)動(dòng)作值函數(shù)。
通過迭代Bellman方程求解上述目標(biāo)函數(shù):
Qt+1(s,a)=Es′-ε[R(st,at)+γmaxa′Qi(s′,a′)|s,a]
(3)
當(dāng)i→時(shí),Qi→Q*,即通過不斷迭代使?fàn)顟B(tài)動(dòng)作值函數(shù)收斂,得到最優(yōu)策略。
b) 連續(xù)系統(tǒng)
實(shí)際的戰(zhàn)場(chǎng)環(huán)境因素大多都是連續(xù)的,特別是在人機(jī)結(jié)合的過程中,如人在指揮控制戰(zhàn)場(chǎng)的過程中,其狀態(tài)空間以及動(dòng)作空間都是連續(xù)的。對(duì)于連續(xù)狀態(tài)的演進(jìn)控制,已無法選擇動(dòng)作,只能設(shè)計(jì)一種方法,使得輸入狀態(tài)后的動(dòng)作輸出對(duì)應(yīng)的Q值最大。
為了避免收斂陷入局部最優(yōu)解,利用Actor-Critic框架構(gòu)造雙神經(jīng)網(wǎng)絡(luò)。其中,Critic類似Q-Learning值函數(shù)方法,主要用于評(píng)估策略,而Actor是梯度方法,用于改進(jìn)策略。Critic使得策略的評(píng)估得到改善,若給Actor一個(gè)更好的梯度估計(jì)值,能改善局部最優(yōu)問題,Actor避免了值函數(shù)中低效的值估計(jì)過程,同時(shí)也能應(yīng)對(duì)連續(xù)動(dòng)作空間。
將DL與RL相結(jié)合,利用仿真推演平臺(tái)對(duì)戰(zhàn)場(chǎng)數(shù)據(jù)與作戰(zhàn)輔助決策進(jìn)行綜合處理分析,建立雙向信息流和決策流的共生體系。整個(gè)過程如圖8所示,利用Agent(戰(zhàn)法推演仿真平臺(tái))獲取感知域(Perception Region)內(nèi)的狀態(tài)信息,然后將感知到的信息進(jìn)行特征抽取及協(xié)同分析,并將其融合到狀態(tài)St-1。為了找到狀態(tài)與行動(dòng)之間的關(guān)系,將當(dāng)前人的行動(dòng)空間也作為輸入。經(jīng)過深度學(xué)習(xí)網(wǎng)絡(luò),完成當(dāng)前狀態(tài)的評(píng)估,得到戰(zhàn)場(chǎng)環(huán)境的策略空間,將評(píng)估得到的結(jié)果傳輸給人以實(shí)現(xiàn)人機(jī)共生的構(gòu)建。在這個(gè)過程中,從戰(zhàn)場(chǎng)環(huán)境中得到行動(dòng)at的回報(bào)Rt,回報(bào)值的高低直接決定著當(dāng)前行動(dòng)質(zhì)量的優(yōu)劣。為了能夠獲得整個(gè)戰(zhàn)場(chǎng)決策的勝利,需要對(duì)每一個(gè)策略節(jié)點(diǎn)(即狀態(tài)下的行動(dòng)空間)進(jìn)行評(píng)估,直到尋找到最佳的行動(dòng)決策序列。
圖8 基于DRL的人機(jī)共生輔助決策
隨著具有信息化、體系化、網(wǎng)絡(luò)化、協(xié)同化特征的現(xiàn)代化戰(zhàn)爭(zhēng)的日益臨近,利用智能化技術(shù)分析、理解、預(yù)測(cè)戰(zhàn)爭(zhēng),并從中輔助指揮員適時(shí)、快速、準(zhǔn)確地做出決策,可以確保將信息優(yōu)勢(shì)轉(zhuǎn)化為決策優(yōu)勢(shì),最終達(dá)成作戰(zhàn)目的。
近兩年,隨著以深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為核心的人工智能技術(shù)的突破和發(fā)展,為指揮信息系統(tǒng)的智能化開拓了新的技術(shù)途徑,而基于人工智能的作戰(zhàn)輔助決策也勢(shì)必成為形成與對(duì)手不對(duì)稱優(yōu)勢(shì)的關(guān)鍵。因此,需要更加重視人工智能技術(shù)未來的發(fā)展,充分利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等智能技術(shù)的進(jìn)步成果,促進(jìn)指揮控制系統(tǒng)能力的跨越式提升。
[1] 樊延平,郭齊勝,穆歌.融合規(guī)則推理和案例推理的作戰(zhàn)指揮決策建模[J].火力與指揮控制,2013,39(9):108-111.
[2] 郝立山,夏洪波,田書超,等.基于規(guī)則的CGF實(shí)體行為建模技術(shù)[J].火力與指揮控制, 2015,40(1):96-99.
[3] 吳揚(yáng)波,賈全,王文廣,等.基于規(guī)則推理的海戰(zhàn)仿真實(shí)體決策方法[J].火力與指揮控制,2009,34(8):30-33.
[4] 譚亞新,王成,范銳,等.基于預(yù)定指揮規(guī)則的指揮決策模型研究[J].系統(tǒng)仿真學(xué)報(bào),2008,20(14):3820-3824.
[5] 張洪鋼,楊艾軍,張勇.行為可變性在指揮決策仿真中的運(yùn)用研究[J].軍事運(yùn)籌與系統(tǒng)工程,2008,22(1):69-74.
[6] 唐雪松, 郭立紅,陳長(zhǎng)喜.基于案例推理方法在態(tài)勢(shì)分析中的應(yīng)用研究[J].計(jì)算機(jī)測(cè)量與控制,2006,14(12):1723-1725.
[7] 于新源,許波,姜再明.軍事輔助決策模型及其求解技術(shù)研究進(jìn)展[J].戰(zhàn)術(shù)導(dǎo)彈技術(shù),2006(5):1-9.
[8] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[9] 余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[10] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014,31(7):1921-1942.
[11] Ipek E, Mutlu O, Martinez J F, et al. Self-optimizing memory controllers[J]: a reinforcement learning approach. Computer Architecture, 2008, 36(3): 39-50.
[12] Sutton R S, Barto A G. Reinforcement learning[J]: an introduction. Cambridge: MIT press, 1998.
[13] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529-533.