基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)

2018-04-12 06:08張曉海操新文

指揮控制與仿真 2018年2期

張曉海, 操新文

(國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院, 河北石家莊　050084)

近年來,AlphaGo、AlphaGo Zero在深度學(xué)習(xí)方面取得突破性成果,令世人驚嘆,深度學(xué)習(xí)已被廣泛關(guān)注并應(yīng)用到眾多領(lǐng)域,尤其在識別、推薦、決策等方面展現(xiàn)出了巨大優(yōu)勢。為推進我軍智能化建設(shè),2016年3月,《中國軍事科學(xué)》編輯部組織舉辦了“圍棋人機大戰(zhàn)與軍事指揮決策智能化”研討會[1]。會議廣泛探討了AlphaGo對于指揮決策智能化的啟示,深入研究了推動我軍走向智能化建設(shè)的措施。2017年9月,“賽諸葛”全國兵棋推演大賽隆重舉行,中科院自動化所研發(fā)的AI系統(tǒng)“CASIA-先知V1.0”首次戰(zhàn)勝了人類選手,展示出深度學(xué)習(xí)等人工智能技術(shù)在對抗博弈領(lǐng)域的強大能力。眾所周知,軍事決策是軍事領(lǐng)域中最復(fù)雜、最具挑戰(zhàn)的活動,并由此促進了軍事輔助決策支持技術(shù)的產(chǎn)生和發(fā)展?？梢灶A(yù)見,深度學(xué)習(xí)技術(shù)的不斷進步必將對軍事智能輔助決策領(lǐng)域產(chǎn)生深刻而重大的影響。

本文回顧了深度學(xué)習(xí)與軍事智能決策支持系統(tǒng)的發(fā)展歷程,探討了深度學(xué)習(xí)在智能決策應(yīng)用中的重難點問題,展望了基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)的建設(shè)和發(fā)展前景。

1　深度學(xué)習(xí)

1.1　基本原理

深度學(xué)習(xí)是由人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來。Hinton[2]等人在2006年首次提出了基于深度置信網(wǎng)絡(luò)的無監(jiān)督概率生成模型,闡述了深度學(xué)習(xí)的基本原理。深度學(xué)習(xí)以數(shù)據(jù)和算力為支撐,通過搭建含有多個隱層的神經(jīng)網(wǎng)絡(luò),對外部輸入數(shù)據(jù)進行特征提取,進而從中獲取所需信息。這樣的模型具有很高的存儲效率,而線性增加的神經(jīng)元數(shù)目可以使其表達(dá)按指數(shù)級增加大量信息。隨著大數(shù)據(jù)時代的到來以及計算能力的不斷發(fā)展,人工神經(jīng)網(wǎng)絡(luò)在近十年間取得了長足進步,促進了深度學(xué)習(xí)的快速發(fā)展,由此也使得人工智能從之前必須借助人類的階段向前邁出了一步。

1.2　深度學(xué)習(xí)發(fā)展沿革

深度學(xué)習(xí)的發(fā)展大致可分為三個階段。第一階段,以20世紀(jì)80年代出現(xiàn)的BP算法[3]為起點。直到現(xiàn)在,BP算法都是神經(jīng)網(wǎng)絡(luò)模型中很常用的參數(shù)學(xué)習(xí)方法。然而,由于當(dāng)時的計算性能有限,且樣本數(shù)據(jù)較為匱乏,僅僅使用BP算法并不能有效解決局部極值和梯度彌散等問題,這使得神經(jīng)網(wǎng)絡(luò)的研究發(fā)展緩慢,一度被學(xué)界拋棄。2006年,Hinton提出了無監(jiān)督深度置信網(wǎng)絡(luò)訓(xùn)練方法,以此為標(biāo)志,深度學(xué)習(xí)進入了第二階段。Hinton的主要思想是先通過自學(xué)習(xí)方法進行訓(xùn)練,然后在自動編碼器上進行有監(jiān)督訓(xùn)練,實現(xiàn)對參數(shù)的微調(diào)。這一時期,隨著硬件技術(shù)不斷更新和數(shù)據(jù)規(guī)模不斷增大,深度神經(jīng)網(wǎng)絡(luò)模型開始受到業(yè)界的普遍關(guān)注,進而在多個領(lǐng)域中得到了發(fā)展。2012年,Hinton課題組構(gòu)建的CNN網(wǎng)絡(luò)AlexNet[4]在ImageNet圖像識別比賽中一舉奪冠,其分類性能遠(yuǎn)遠(yuǎn)超過第二名,使得CNN吸引了眾多研究者的關(guān)注。以這一年為界限,深度學(xué)習(xí)進入第三階段。卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、進化神經(jīng)網(wǎng)絡(luò)等模型的優(yōu)勢逐漸顯現(xiàn),打開了人工智能新世界的大門。具有良好的大數(shù)據(jù)處理能力的深度學(xué)習(xí)模型,不僅在模式識別、信息檢索、自然語言處理等多個人工智能領(lǐng)域都取得了重大突破,還可以對復(fù)雜模式進行分類,從而在決策問題中產(chǎn)生了巨大影響。

1.3　經(jīng)典模型

深度學(xué)習(xí)發(fā)展至今取得了令人驚嘆的成就,得益于以深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等為主流的深度學(xué)習(xí)模型的深入發(fā)展。下面對這些經(jīng)典模型進行簡要介紹。

1)深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)是由多層隨機因變量組成的概率生成模型,能夠更加有效地使用未經(jīng)標(biāo)注的數(shù)據(jù),并通過產(chǎn)生式預(yù)訓(xùn)練,有效解決深度神經(jīng)網(wǎng)絡(luò)中的過擬合和欠擬合等問題[5]，如圖1所示。該模型具有很好的靈活性和可擴展性,受到廣大研究者們的熱切關(guān)注。

圖1　DBN網(wǎng)絡(luò)結(jié)構(gòu)

2)卷積神經(jīng)網(wǎng)絡(luò)[6](Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò)模型,且輸入端不再需要特殊處理,這些特點讓它更多被應(yīng)用在大型圖像處理任務(wù)中，如圖2所示。Hinton團隊的AlexNet利用Dropout、激活函數(shù)等方法,結(jié)合GPU并行處理技術(shù),使得算法性能大大超過了傳統(tǒng)模型;Kaiming He[7-9]的相關(guān)研究解決了計算層次訓(xùn)練問題,實現(xiàn)了對目標(biāo)像素級別的識別,使準(zhǔn)確率達(dá)到了新高。

圖2　CNN結(jié)構(gòu)示意圖

3)遞歸神經(jīng)網(wǎng)絡(luò)[10](Recursive Neural Network)在循環(huán)過程中可以記住此前已經(jīng)處理過的數(shù)據(jù)信息，如圖3所示。這一模型更加適合文本、語音識別等序列數(shù)據(jù)的建模問題。然而,傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)由于梯度彌散和梯度爆炸等問題,很難捕捉長時相關(guān)性。LSTM模型[11]引入了自循環(huán)的思想,解決了長時依賴的訓(xùn)練問題,之后出現(xiàn)的GRU[12]等改進模型,在預(yù)測文本和語音識別中也表現(xiàn)出了很好的效果。

圖3　遞歸神經(jīng)網(wǎng)絡(luò)

1.4　深度強化學(xué)習(xí)

上述經(jīng)典模型從本質(zhì)上講是分類和識別算法,難以解決決策和控制問題,由此,深度強化學(xué)習(xí)等新算法便應(yīng)運而生。深度強化學(xué)習(xí)[13](Deep Reinforcement Learning,DRL)是在訓(xùn)練中進行試錯,通過獎勵和懲罰反饋神經(jīng)網(wǎng)絡(luò),從而得到更好的策略模型。需注意的是,價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)是相互依賴的,給定其中一個函數(shù)都會導(dǎo)致另一個函數(shù)的變化。引入Q-Learning算法的DQN[13]很好地結(jié)合了兩者,實現(xiàn)了從感知到動作的端對端學(xué)習(xí),比如讓AI玩游戲,在看到遮蔽物時立即做出避讓動作等。同時,它在更新網(wǎng)絡(luò)時,隨機抽取過去的學(xué)習(xí)經(jīng)歷,這使其不僅能夠?qū)W習(xí)到當(dāng)前的經(jīng)歷,還能學(xué)習(xí)到過去的經(jīng)歷,甚至是別人的經(jīng)歷。AlphaGo就采取了DQN算法,在自我博弈中實現(xiàn)獎勵積累的最大化,由此得出在各個狀態(tài)下最好的走法選擇。這一算法更加符合人類在現(xiàn)實世界中的決策思維,被廣泛應(yīng)用在智能機器人的控制、棋類對弈、游戲通關(guān)、汽車自動駕駛等多類決策和控制問題中。2017年12月,DeepMind公布了Alpha系列的最新成果AlphaZero[14],它采取了簡化算法的策略,擁有了比AlphaGo Zero更好的泛化能力,可使用完全相同的算法和超參數(shù),在不需要人類知識的情況下,完全依靠自我博弈,在國際象棋、日本將棋、圍棋三種不同的棋類游戲中,均只需幾小時進行模型訓(xùn)練,便可戰(zhàn)勝各自領(lǐng)域的頂尖AI程序;Ruslan在2017年NIPS研討會中提出了將記憶引入深度強化學(xué)習(xí)的思想,利用位置感知記憶方法,防止過多的記憶重寫,從而提高記憶效率,這讓學(xué)習(xí)模型在不同環(huán)境下都能夠擁有優(yōu)異的表現(xiàn)。以上兩者,不論是AlphaZero的算法簡化,還是Ruslan引入記憶的策略,都反映出DRL的前沿研究主要集中于模型的泛化能力和性能上的提升上。

2　軍事智能決策支持系統(tǒng)發(fā)展現(xiàn)狀

2.1　軍事智能決策支持系統(tǒng)

智能決策支持系統(tǒng)(Intelligent Decision Support Systems, IDSS)是指在計算機的輔助下,綜合運用現(xiàn)代決策理論和人工智能技術(shù),結(jié)合了管理決策科學(xué)、信息科學(xué)與運籌學(xué)等學(xué)科,依托人類知識庫,通過邏輯推理來幫助解決現(xiàn)實問題的決策支持系統(tǒng)，如圖4所示。在軍事領(lǐng)域,主要應(yīng)用于輔助決策,實現(xiàn)對情報處理、態(tài)勢分析、方案確定和計劃擬制的輔助支持。

下面分別對美軍和我國國內(nèi)相關(guān)情況進行簡要介紹。

圖4　IDSS組成結(jié)構(gòu)

2.2　美軍相關(guān)研究

軍事決策支持系統(tǒng)這一概念最先由美軍提出,旨在通過各種技術(shù)的實現(xiàn),輔助指揮員做出及時和正確的判斷并實施決策控制。比如,美國防空混成旅射擊指揮輔助決策系統(tǒng)[15]可通過捕捉圖像、控制管理傳感器,實現(xiàn)分析戰(zhàn)場態(tài)勢、制定計劃、作戰(zhàn)模擬等功能,具有決策快速、準(zhǔn)確客觀的特點;美軍于2004年開展的實時作戰(zhàn)智能決策制定計劃(Real-time Adversarial Intelligence and Decisionmaking,RAID)[16],希望能夠?qū)崟r根據(jù)戰(zhàn)場態(tài)勢自動生成可行的行動方案;2007年,美國防部DARPA機構(gòu)啟動了“深綠”計劃(Deep Green,DG)[17],致力于對未來可能發(fā)生的各種情況做出預(yù)測,為指揮決策提供支持?！吧罹G”起初的目標(biāo)是用于旅級作戰(zhàn),其核心技術(shù)是實時態(tài)勢仿真,而戰(zhàn)場復(fù)雜態(tài)勢的不確定性所導(dǎo)致的組合爆炸問題則成了難以攻克的瓶頸,該項目于2011年暫停。

2009年至2014年,DARPA啟動了一系列面向作戰(zhàn)的研究項目,如Mind’s Eye計劃研發(fā)一種根據(jù)視覺信息進行態(tài)勢認(rèn)知和推理系統(tǒng);TRACE計劃采用智能算法解決對抗條件下態(tài)勢目標(biāo)的識別判斷;DBM則面向空中戰(zhàn)場的輔助決策,主要解決戰(zhàn)場態(tài)勢認(rèn)知、行動決策生成以及僚機的無人駕駛等現(xiàn)實難題;TEAM-US利用機器的優(yōu)勢幫助人類做出最佳選擇,從而大大提升認(rèn)知的速度和精度。2016年6月,美國辛辛那提大學(xué)開發(fā)的人工智能系統(tǒng)“阿爾法”,在空戰(zhàn)模擬對抗中,戰(zhàn)勝了經(jīng)驗豐富的空軍上校。該系統(tǒng)從傳感器的信息搜集、分析處理到做出正確的判斷和選擇,整個過程不到1毫秒,這使其在戰(zhàn)斗中大大提高了戰(zhàn)斗機的生存能力和指揮協(xié)調(diào)能力。2016年底,美軍啟動Commander’s Virtual Staff項目,用以應(yīng)對大數(shù)據(jù)和復(fù)雜戰(zhàn)場態(tài)勢,從而為指揮員提供作戰(zhàn)全過程的輔助決策。

“深綠”失敗的主要原因是由于當(dāng)時的數(shù)據(jù)處理能力不足,從而導(dǎo)致傳統(tǒng)人工智能方法在解決態(tài)勢認(rèn)知問題時存在瓶頸。而阿爾法的成功,則證明了以深度學(xué)習(xí)為代表的現(xiàn)代人工智能技術(shù),在面對大數(shù)據(jù)和復(fù)雜的戰(zhàn)場環(huán)境時,可以突破瓶頸。

2.3　國內(nèi)相關(guān)研究

長期以來,國內(nèi)在該領(lǐng)域也取得了不少成果,較為成熟的主要以專家系統(tǒng)、多智能體系統(tǒng)(MAS)等為主。專家系統(tǒng)是基于專業(yè)知識進行推理分析,用以解決特定領(lǐng)域問題的智能系統(tǒng)。如戰(zhàn)術(shù)導(dǎo)彈方案設(shè)計智能優(yōu)化系統(tǒng)可以通過專家知識,判別方案的優(yōu)劣,實現(xiàn)對戰(zhàn)術(shù)導(dǎo)彈方案的有效評估;解放軍理工大學(xué)研制的軍事運籌輔助決策系統(tǒng)[18],可自動生成作戰(zhàn)方案,演示戰(zhàn)斗過程,評估戰(zhàn)場效果等;軍事科學(xué)院研發(fā)的“進攻一號”軍事專家支持系統(tǒng)[19],建立了4000多條規(guī)則和一個定性與定量相結(jié)合的高效推理機制,能夠自動生成作戰(zhàn)決心的參考方案,輔助指揮員定下決心。近些年來,MAS由于在處理復(fù)雜系統(tǒng)問題方面具有顯著優(yōu)勢,因此在決策支持系統(tǒng)中也被普遍應(yīng)用。楊萍[20]等提出的基于MAS的導(dǎo)彈機動方案輔助決策系統(tǒng),通過加入人機交互模塊,能夠根據(jù)任務(wù)要求和戰(zhàn)場態(tài)勢規(guī)劃行動方案,并對方案進行評估、修正;陳華東[21]等提出的網(wǎng)絡(luò)中心戰(zhàn)中基于MAS的分布式輔助決策研究方法,采用合同網(wǎng)協(xié)議對武器目標(biāo)分配的流程進行研究,取得了很好的效果;空中軍事打擊智能決策支持系統(tǒng)[22]利用多智能體技術(shù),輔助生成空中軍事打擊行動決策方案,并進行仿真和評估。

然而,戰(zhàn)場環(huán)境的瞬息萬變和難以量化的各類因素成為智能決策的最大障礙,專家系統(tǒng)和傳統(tǒng)的機器學(xué)習(xí)方法難以應(yīng)對戰(zhàn)爭中的不確定性以及非線性問題,處理高緯度大數(shù)據(jù)的能力也非常有限。比如在專家系統(tǒng)中,規(guī)則與規(guī)則之間的相互關(guān)系并不突出,規(guī)則的使用不夠靈活,系統(tǒng)更加依賴于規(guī)則的完整性和準(zhǔn)確性。當(dāng)規(guī)則庫膨脹到一定規(guī)模后,每增加一條新規(guī)則都可能會與先前的規(guī)則庫產(chǎn)生沖突,規(guī)則庫的維護難度也將大幅提高,這讓基于規(guī)則的專家系統(tǒng)很難處理現(xiàn)今所面臨的復(fù)雜戰(zhàn)場態(tài)勢。雖然基于傳統(tǒng)機器學(xué)習(xí)方法以及基于MAS等方法的決策支持系統(tǒng),在一定程度上能解決專家系統(tǒng)遇到的瓶頸,但這類系統(tǒng)普遍存在以下問題:1)知識處理能力差。根據(jù)應(yīng)用領(lǐng)域的不同,其知識的表示方式和獲取策略具有很大差異,且預(yù)處理過程對最終結(jié)果影響很大;2)協(xié)調(diào)統(tǒng)一性差。傳統(tǒng)的機器學(xué)習(xí)方法通常將復(fù)雜問題拆分成若干子問題,各個子系統(tǒng)之間的溝通協(xié)調(diào)將直接影響到系統(tǒng)的正確決策;3)適應(yīng)能力差。以往研究成果中,系統(tǒng)的推理機制是靜態(tài)的,是針對各自領(lǐng)域預(yù)先設(shè)定好的搜索策略和推理策略進行決策,因而難以應(yīng)對實際戰(zhàn)場環(huán)境的快速變化;4)人機交互差。在人機結(jié)合過程中遇到困難較大,計算機難以準(zhǔn)確理解用戶需求,用戶不能及時獲取計算機的解答,且難以對系統(tǒng)加入啟發(fā)信息。

可見,盡管在軍事決策支持系統(tǒng)方面的研究已經(jīng)有了不少成果,但在實際應(yīng)用中還存在較大差距,傳統(tǒng)模型在知識表示、推理預(yù)測、指揮控制等方面都具有一定的局限性,這為正在快速發(fā)展的深度學(xué)習(xí)提供了廣闊的發(fā)展空間。

3　深度學(xué)習(xí)在輔助決策中的應(yīng)用

隨著大數(shù)據(jù)時代的到來,軍事決策面對的數(shù)據(jù)量與日俱增,數(shù)據(jù)格式和類別多樣龐雜,使決策支持面臨新的挑戰(zhàn)?；谏窠?jīng)網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)模型,能夠有效地處理和分析大數(shù)據(jù),相較于傳統(tǒng)方法,無論是圖像、語音、文本的識別能力,還是推理、分析、判斷能力,都擁有顯著優(yōu)勢。

3.1　深度學(xué)習(xí)在軍事領(lǐng)域的探索

目前,國內(nèi)開展了一系列基于深度學(xué)習(xí)的軍事決策輔助技術(shù)的研究,尤其在特征提取方面,解決了諸如雷達(dá)識別、無人機目標(biāo)識別、智能火控等領(lǐng)域的相關(guān)問題。孫志軍等人提出了一種基于深度學(xué)習(xí)的邊際Fisher特征提取算法(DMFA)[23],改善了傳統(tǒng)的MFA算法對非線性特征的提取能力,提高了雷達(dá)識別準(zhǔn)確率;鐘南[24]等人將深度學(xué)習(xí)引入到海上無人機目標(biāo)識別技術(shù)中,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和空間轉(zhuǎn)換網(wǎng)絡(luò)相結(jié)合的解決思路,對物體平移、縮放、旋轉(zhuǎn)情況進行校正,然后通過分塊化卷積神經(jīng)網(wǎng)絡(luò)給出類別及位置,提高了目標(biāo)識別準(zhǔn)確率。良好的模式識別能力是實施智能輔助決策的重要前提,而現(xiàn)代戰(zhàn)爭的信息量正呈指數(shù)型速度增長,快速、準(zhǔn)確的數(shù)據(jù)處理能力顯得尤為重要。深度學(xué)習(xí)正是具備了出色的特征提取和表達(dá)能力,被越來越多的研究者運用到識別和分類等研究中。上述研究對于戰(zhàn)場目標(biāo)識別領(lǐng)域的應(yīng)用進行了探索,結(jié)合深度學(xué)習(xí)模型在戰(zhàn)場高緯度數(shù)據(jù)的特征提取,提出了可行的方法,在一定程度上提高了識別的準(zhǔn)確率。

由于戰(zhàn)場態(tài)勢信息的不確定性和戰(zhàn)場復(fù)雜性,相比于圍棋、自動駕駛等應(yīng)用,作戰(zhàn)輔助決策面臨的情況更加復(fù)雜。研究發(fā)展智能決策支持系統(tǒng),首要解決的就是戰(zhàn)場態(tài)勢認(rèn)知問題。卜令娟[25]、曾清[26]、王楊[27]等人針對戰(zhàn)場大數(shù)據(jù)的特點,提出了關(guān)于戰(zhàn)場態(tài)勢評估的新思路,但這些研究僅僅是對大數(shù)據(jù)的預(yù)處理,不能挖掘出深層信息。結(jié)合深度學(xué)習(xí)模型的特點和優(yōu)勢,國內(nèi)展開了基于深度學(xué)習(xí)的戰(zhàn)場態(tài)勢評估方面的相關(guān)研究。朱豐[28]等人分析了深度學(xué)習(xí)與大數(shù)據(jù)的相關(guān)性,闡述了將深度學(xué)習(xí)引入戰(zhàn)場態(tài)勢感知的優(yōu)勢,提出了戰(zhàn)場態(tài)勢評估深度學(xué)習(xí)模型構(gòu)建方法的新思路;郭圣明、賀筱媛、胡曉峰[29]等人采用復(fù)雜網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù),分別在智能化體系評估和威脅判斷方面進行了初步探索;歐微[30-31]等人構(gòu)建了基于棧式自編碼器的意圖識別模型,根據(jù)戰(zhàn)場目標(biāo)狀態(tài)呈現(xiàn)出的時序特征,提出了一種基于時序編碼的方法,并比較了不同網(wǎng)絡(luò)參數(shù)和訓(xùn)練方法對識別準(zhǔn)確率的影響效果。榮明、楊鏡宇[32]等人通過強化學(xué)習(xí)和價值網(wǎng)絡(luò),構(gòu)建了戰(zhàn)略威懾決策模型,與AlphaGo原理類似,使用了蒙特卡洛算法實現(xiàn)對威懾博弈樹的搜索。

戰(zhàn)場態(tài)勢的判斷和作戰(zhàn)意圖的理解是態(tài)勢認(rèn)知面臨的主要挑戰(zhàn)。上述研究運用深度學(xué)習(xí)理論,通過實驗和論證提出了合理的解決方案,對戰(zhàn)場態(tài)勢認(rèn)知問題進行了初步的探索,提出了新思路?？梢钥吹?綜合運用大數(shù)據(jù)和深度學(xué)習(xí)等技術(shù)來理解和認(rèn)知戰(zhàn)場態(tài)勢具有很大的潛在價值,當(dāng)然也面臨諸多困難。

3.2　深度學(xué)習(xí)應(yīng)用面臨的難題

從過去的成果中可以看出,深度學(xué)習(xí)在以目標(biāo)識別為主的情報分析中表現(xiàn)良好,顯著優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法。但若要定下正確的作戰(zhàn)決心、制定科學(xué)的行動計劃并付諸實施,其重要前提是準(zhǔn)確理解當(dāng)前的戰(zhàn)場態(tài)勢,有效預(yù)測下一階段態(tài)勢變化趨勢。這一問題是智能系統(tǒng)輔助決策中的首要難題,也是深度學(xué)習(xí)面臨的極大挑戰(zhàn)。

盡管AlphaGo基于深度學(xué)習(xí)和大數(shù)據(jù)的方法為智能指揮決策帶來了希望,但必須說明的是,AlphaGo在棋盤上所解決的博弈問題與實際的戰(zhàn)爭具有很大的差別:1)信息完備性不同。AlphaGo獲取的信息是完備的,即圍棋的走法約為2.08×10170種可能,而戰(zhàn)場態(tài)勢中獲取的信息是不完備的,甚至是虛假的,在這種缺失信息的“戰(zhàn)爭迷霧”中,人工智能又該如何決策?2)規(guī)則不同。棋盤內(nèi)的規(guī)則是固定的,對戰(zhàn)具有一致性,而戰(zhàn)爭中的敵我雙方并不會按照一致的規(guī)則出招。3)訓(xùn)練樣本不同。最初版本的AlphaGo是從3000萬人類招法和3000萬局自我對弈中達(dá)到職業(yè)選手水平,而已有且可用的戰(zhàn)爭和演習(xí)數(shù)據(jù)無法達(dá)到這樣的規(guī)模。這些不同都給深度學(xué)習(xí)在作戰(zhàn)智能輔助決策領(lǐng)域的應(yīng)用帶來了困難和挑戰(zhàn)。

從上述的差別中可以看出,一方面,深度學(xué)習(xí)在解決態(tài)勢理解問題上,是以數(shù)據(jù)作為支撐的,戰(zhàn)場態(tài)勢的復(fù)雜性以及對戰(zhàn)的不一致性使得訓(xùn)練數(shù)據(jù)的有效規(guī)模異常龐大,我們難以得到上千萬場戰(zhàn)爭的真實數(shù)據(jù)來訓(xùn)練模型,數(shù)據(jù)稀疏問題便會伴隨而來,因此,未來的研究重點應(yīng)放在小樣本數(shù)據(jù)的態(tài)勢特征提取上。另一方面,態(tài)勢特征提取的難點在于從不確定性中找到確定性規(guī)律,機器在這方面的能力遠(yuǎn)遠(yuǎn)不及人類,因此,如果要使機器具備人類智能的認(rèn)知能力,就需將深度學(xué)習(xí)與多種算法進行有效融合。

3.3　基于深度學(xué)習(xí)的輔助決策

目前,自動駕駛技術(shù)因采用深度學(xué)習(xí)模型而取得了突破性進展。為了理解深度學(xué)習(xí)在輔助決策方面的應(yīng)用,不妨從自動駕駛的決策技術(shù)中尋找答案。從信息復(fù)雜度的角度考慮,自動駕駛所面臨的動態(tài)環(huán)境分析比圍棋要復(fù)雜得多。比如,系統(tǒng)需要根據(jù)實施圖像分析出天氣、交通標(biāo)志、道路情況等信息,還要預(yù)測周圍車輛和行人的行動,甚至需要判斷前車若是新手司機,則應(yīng)加大車距等。這種通過對環(huán)境進行分析、判斷、預(yù)測,再到最終的決策,與復(fù)雜的戰(zhàn)場態(tài)勢理解有著相似之處。在作戰(zhàn)環(huán)境中,復(fù)雜的氣象、地形等諸多因素都會對敵我雙方的行動決策產(chǎn)生影響,而對敵方行動的準(zhǔn)確預(yù)測更是做出正確決策的重要依據(jù)?，F(xiàn)在的深度學(xué)習(xí)普遍采用端到端的算法,即從傳感器輸入直接到控制器的輸出。然而這樣的方法使深層網(wǎng)絡(luò)成了“黑匣子”,失去了透明性,讓網(wǎng)絡(luò)僅僅依賴于概率進行推理,即數(shù)據(jù)的相關(guān)性,而非更加符合人類思維的因果關(guān)系。

舉個例子,輸入樣本為哈士奇和愛斯基摩犬的照片,通過深度學(xué)習(xí)對二者進行分類。起初的測試結(jié)果非常好,但后來通過測試進行深入分析時發(fā)現(xiàn),系統(tǒng)更多通過對背景的區(qū)分而并非狗本身的特征進行分類。這是因為在訓(xùn)練樣本中,愛斯基摩犬的照片背景幾乎都是冰天雪地,而哈士奇則相反。試想,這樣的理解若應(yīng)用到作戰(zhàn)決策中,將會有多致命。目前,深度學(xué)習(xí)在實際應(yīng)用中的表現(xiàn)要遠(yuǎn)遠(yuǎn)好于傳統(tǒng)方法,其普遍使用的策略是通過加大數(shù)據(jù)量和運算能力得到更好的效果,但對于基礎(chǔ)算法的深入研究并不多,這使得目前的深度學(xué)習(xí)在一些領(lǐng)域顯示出不足和短板,埋下了諸如哈士奇和愛斯基摩犬分類中的隱患。因此,在樣本規(guī)模有限的條件下,我們需要更加理性、更加符合人類思維的決策機制。

基于上述觀點,對于深度學(xué)習(xí)在軍事智能輔助決策領(lǐng)域的研究,首先,應(yīng)對作戰(zhàn)領(lǐng)域的大數(shù)據(jù)進一步發(fā)展。深度學(xué)習(xí)目前的研究與大數(shù)據(jù)是密不可分的,然而包括演習(xí)在內(nèi)的作戰(zhàn)數(shù)據(jù),真正能夠?qū)嶋H使用的數(shù)據(jù)規(guī)模還遠(yuǎn)遠(yuǎn)達(dá)不到深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求,目前的研究更多應(yīng)用兵棋的推演數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),從數(shù)據(jù)的有效性上看,難以證明在實際作戰(zhàn)中的價值。其次,深度學(xué)習(xí)技術(shù),尤其在認(rèn)知智能方面需要取得突破。作戰(zhàn)同下棋有著巨大的差別,作戰(zhàn)數(shù)據(jù)不是標(biāo)準(zhǔn)化的“棋譜”,而對于機器而言,過去發(fā)生的戰(zhàn)爭在現(xiàn)代化戰(zhàn)爭中沒有太大的指導(dǎo)意義。那么如何讓人工智能在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,從認(rèn)知層面真正理解和分析戰(zhàn)場態(tài)勢,提高從小樣本中學(xué)習(xí)知識的能力,將是該領(lǐng)域研究的終極目標(biāo)。再次,對于深層神經(jīng)網(wǎng)絡(luò)的運行機制還需要進一步的研究和改進,來破解深度神經(jīng)網(wǎng)絡(luò)的“黑匣子”問題。數(shù)據(jù)驅(qū)動決策的推理機制應(yīng)由數(shù)據(jù)相關(guān)性向因果關(guān)系轉(zhuǎn)變,讓機器具備同人類一樣從小樣本數(shù)據(jù)中進行學(xué)習(xí)的能力,通過因果關(guān)系進行預(yù)測將更加具有實際意義。

因此,在軍事智能輔助決策的應(yīng)用中,應(yīng)當(dāng)更加合理地運用深度學(xué)習(xí),AlphaGo以及IBM的“沃森”等人工智能系統(tǒng),均融合了多種手段,而深度學(xué)習(xí)只是一個工具。從發(fā)展歷史中看,深度學(xué)習(xí)可以很好地應(yīng)對大數(shù)據(jù)的特征提取,但淺層的概率統(tǒng)計模型在特征清晰的情況下,也可以取得很好的效果。另外,“沃森”中的規(guī)則運用和“深藍(lán)”的暴力搜索,以及AlphaGo中的強化學(xué)習(xí)和蒙特卡洛樹搜索策略等都在各自領(lǐng)域中有著自身的優(yōu)勢。可見,傳統(tǒng)的機器學(xué)習(xí)模型不應(yīng)因深度學(xué)習(xí)的快速發(fā)展而拋棄,混合方法才是未來人工智能的大勢所趨。

4　結(jié)束語

自2006年以來,深度置信網(wǎng)絡(luò)模型、激活函數(shù)、正則化、Dropout等概念陸續(xù)被提出,深度學(xué)習(xí)模型在解決梯度消失以及過擬合等問題上得到不斷改善,這讓神經(jīng)網(wǎng)絡(luò)煥發(fā)出新的生機。近年來,高性能GPU和TPU的出現(xiàn),降低了計算成本,大數(shù)據(jù)的持續(xù)增溫也讓更加復(fù)雜的深層網(wǎng)絡(luò)模型成為可能。目前,基于深度學(xué)習(xí)的軍事智能輔助技術(shù)還處于起步階段,面對具有不確定性、變化速度快、非線性、復(fù)雜性、高緯度、多空間等特點的戰(zhàn)爭復(fù)雜系統(tǒng),傳統(tǒng)的輔助決策手段已難以滿足未來作戰(zhàn)決策的需求。相比較其他機器學(xué)習(xí)方法,深度學(xué)習(xí)應(yīng)用在輔助決策中的優(yōu)勢可歸納為以下幾點:1)內(nèi)部神經(jīng)元結(jié)構(gòu)決定了它在解決非線性問題上具有很強的表達(dá)能力;2)具有強大的特征提取能力,更加適應(yīng)從大數(shù)據(jù)中提取特征;3)具有良好的遷移學(xué)習(xí)能力,一個訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)經(jīng)過一定修改就可以在另一問題中得到不錯的表現(xiàn);4)其分布式的并行結(jié)構(gòu)大大提高了運算效率;5)具備多層學(xué)習(xí)能力,可以發(fā)現(xiàn)神經(jīng)元之間的深層聯(lián)系,可以從大數(shù)據(jù)中提取出深層含義,發(fā)現(xiàn)很多人類都無法發(fā)現(xiàn)的新方法,使智能決策獲得自我創(chuàng)新的能力。由此可見,深度學(xué)習(xí)更加適合應(yīng)對大數(shù)據(jù),它所具備的優(yōu)點可以改善傳統(tǒng)輔助決策技術(shù)的局限性,因此,將深度學(xué)習(xí)應(yīng)用于軍事智能輔助決策將具有重要研究價值。

本文回顧了深度學(xué)習(xí)的發(fā)展歷程,概述了目前較為流行的幾種模型,結(jié)合軍事智能決策支持系統(tǒng)的發(fā)展和深度學(xué)習(xí)在該領(lǐng)域的研究成果,闡述了深度學(xué)習(xí)模型應(yīng)用在智能輔助決策研究中的優(yōu)勢和面臨的挑戰(zhàn),以下對基于深度學(xué)習(xí)的軍事智能決策支持進行展望。

4.1　大數(shù)據(jù)和無監(jiān)督學(xué)習(xí)

Google之所以能夠引領(lǐng)人工智能領(lǐng)域前沿,除技術(shù)創(chuàng)新外,更為重要的一個原因是Google擁有非常雄厚的數(shù)據(jù)資源。未來戰(zhàn)場態(tài)勢信息規(guī)模大、種類多、緯度高,戰(zhàn)爭已進入大數(shù)據(jù)時代。因此,加強我軍作戰(zhàn)數(shù)據(jù)建設(shè),構(gòu)建規(guī)模宏大、類別齊全、關(guān)系清晰的作戰(zhàn)數(shù)據(jù)體系是提高智能決策能力的前提。同時,推進深度學(xué)習(xí)的研究重點從傳統(tǒng)的有監(jiān)督學(xué)習(xí)和大型標(biāo)注樣本特征提取向無監(jiān)督學(xué)習(xí)和小數(shù)據(jù)集泛化能力上轉(zhuǎn)變,使基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)能夠從輸入的數(shù)據(jù)中抽取出其中所包含的模式和規(guī)則,從而不斷提高智能化能力和水平。

4.2　強化學(xué)習(xí)和自我博弈

DeepMind團隊科研成果表明,采用了強化學(xué)習(xí)策略的深度學(xué)習(xí)系統(tǒng)不僅可以下圍棋、玩視頻游戲,還可以在多種任務(wù)執(zhí)行中與人類匹敵。目前,該團隊已將目標(biāo)轉(zhuǎn)向“星際爭霸Ⅱ”。和圍棋不同,這款復(fù)雜的戰(zhàn)爭策略游戲更加接近實際的戰(zhàn)爭決策,在作戰(zhàn)決策中,除了復(fù)雜的態(tài)勢分析,通常還要考慮到時序性問題,這使得運算代價劇增。因此,對于戰(zhàn)爭復(fù)雜系統(tǒng),以目前的技術(shù)手段和硬件水平,能否像AlphaGo一樣進行大量的自我博弈還是未知,或許需要其他的算法來解決深度神經(jīng)網(wǎng)絡(luò)無法解決的問題。但我們要認(rèn)識到,“星際爭霸Ⅱ”的自主決策一旦取得突破,將意味著真正智能化的作戰(zhàn)決策不再遙遠(yuǎn)。

參考文獻(xiàn):

[1]《中國軍事科學(xué)》編輯部.圍棋人機大戰(zhàn)與軍事指揮決策智能化研討會觀點綜述[J].中國軍事科學(xué),2016(2): 147-152.

[2]Hinton G, Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks[J]. Science,2006,313 (5786):504-507.

[3]Rumelhart D, Hinton G, Williams R. Learning representa-tions by back-propagating errors[J]. Nature,1986,323 (6088): 533-536.

[4]Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems, Lake Tahoe;MIT Press, 2012: 1097-1105.

[5]Mohamed A, Hinton G, Penn G. Understanding how deep belief networks perform acoustic modeling[A]. In Proceedings of International Conference on Acoustics Speech and Signal Processing[C], 2012.

[6]Lee H, Grosse R, Ranganath R, et al. Unsupervised learning of hierarchical representations with convolutional deep belief networks[J]. Communications of the ACM, 2011, 54(10): 95-103.

[7]Kaiming He, Xiangyu Zhang, Shaoqing Ren, et al. Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016.

[8]Shaoqing Ren, Kaiming He, Ross Girshick, et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[A]. IEEE Transactions on Pattern Analysis and Machine Intelligence[C], 2016.

[9]Kaiming He, Gkioxari G, Dollar P, et al. Mask R-CNN[A]. IEEE International Conference on Computer Vision[C], 2017.

[10] Pollack J B.Recursive distributed representations[J]. Artificial Intelligence, 1990,46(1): 77-105.

[11] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural Computation, 1997,9(8): 1735-1780.

[12] Cho K, Van Merrienboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[C]. ArXiv e-prints, 2014,abs/1409.1259.

[13] Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540):529-533.

[14] David S,Thomas H,Julian S,et al.Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm[EB/OL].(2017-12-05). http:∥arxiv. org/pdf/1712.01815.pdf.

[15] Payne T P, Edwards P. Interface agents that learn: an investigation of learning issue in a multi-agent interface[J]. Applied Artificial Intelligence, 1997,11(1): 1-32.

[16] 鄧江湖,趙武奎,盧詩驕.中美軍隊輔助決策系統(tǒng)現(xiàn)狀比較[J].兵工自動化,2006，25(10):15-16.

[17] Surdu J R. The Deep Green Concept[C]∥Processing of the 2008 Spring Simulation Multiconference.SpringSim 2008,Ottawa,Canade,2008:623-631.

[18] 丁國勤,孟衛(wèi)東.后勤保障指揮決策系統(tǒng)結(jié)構(gòu)設(shè)計研究[J].后勤工程學(xué)院學(xué)報,2005，21(1):29-34.

[19] 胡桐清,陳亮.軍事智能輔助決策的理論與實踐[J].軍事系統(tǒng)工程,1995(Z1):3-10.

[20] 楊萍，等.基于多Agent的導(dǎo)彈機動方案輔助決策系統(tǒng)體系結(jié)構(gòu)研究[J].軍事運籌與系統(tǒng)工程,2006,20(4):15-19.

[21] 陳華東，等.網(wǎng)絡(luò)中心戰(zhàn)中基于MAS的分布式輔助決策研究[J].火力指揮控制，2010,35(10):11-14.

[22] 王立華,徐洸.空中軍事打擊智能決策支持系統(tǒng)研究[A].第十一屆中國管理科學(xué)學(xué)術(shù)年會論文集[C]. 2009: 168-172.

[23] 孫志軍,薛磊,許陽明.基于深度學(xué)習(xí)的邊際Fisher分析提取算法[J].電子與信息學(xué)報,2013,35(4):805-811.

[24] 鐘南,張建偉,馬連軼,等.基于深度學(xué)習(xí)的海上無人機目標(biāo)識別算法研究[J].數(shù)字軍工,2016(3):43-46.

[25] 卜令娟,劉俊,邱黃亮,等.戰(zhàn)場通用態(tài)勢估計本體模型的構(gòu)建[C]∥第二屆中國指揮控制大會論文集——發(fā)展中的指揮與控制,2014:138-142.

[26] 曾清,施慧杰,杜陽華.聯(lián)合作戰(zhàn)戰(zhàn)場態(tài)勢一致性評估[J].指揮控制與仿真,2014,36(1):5-8.

[27] 王楊.戰(zhàn)場態(tài)勢目標(biāo)識別與態(tài)勢意圖預(yù)測的算法研究[D].無錫:江南大學(xué),2015.

[28] 朱豐,胡曉峰.基于深度學(xué)習(xí)的戰(zhàn)場態(tài)勢評估綜述與研究展望[J].軍事運籌與系統(tǒng)工程,2016,30(3):22-27.

[29] 郭圣明,賀筱媛,胡曉峰,等.軍用信息系統(tǒng)智能化的挑戰(zhàn)與趨勢[J].控制理論與應(yīng)用,2016,33(12):1562-1571.

[30] 歐微,柳少軍,賀筱媛,等.基于時序特征編碼的目標(biāo)戰(zhàn)術(shù)意圖識別算法[J].指揮控制與仿真,2016,38(6):36-41.

[31] 歐微,柳少軍,賀筱媛,等.戰(zhàn)場對敵目標(biāo)戰(zhàn)術(shù)意圖智能識別模型研究[J].計算機仿真,2017,34(9):10-14+19.

[32] 榮明,楊鏡宇.基于深度學(xué)習(xí)的戰(zhàn)略威懾決策模型研究[J].指揮與控制學(xué)報,2017,3(1):44-47.

[33] Silver D, Huang A, Maddison C. Mastering the game of Go with deep neural networks and tree search[J]. Natrue, 2016,529(7584): 484-489.

[34] LeCun Y, Bengio Y, Hinton G. Deep learning.Nature, 2015,521(7553): 436-444.

[35] 胡曉峰,賀筱媛,徐旭林.大數(shù)據(jù)時代對建模仿真的挑戰(zhàn)與思考——中國科協(xié)第81期新觀點新學(xué)說學(xué)術(shù)沙龍綜述[J].中國科學(xué):信息科學(xué),2014,44(5):676-692.

[36] 胡曉峰.軍事指揮信息系統(tǒng)中的機器智能:現(xiàn)狀與趨勢[J].人民論壇·學(xué)術(shù)前沿,2016(15):22-34.

[37] 胡曉峰,榮明.作戰(zhàn)決策輔助向何處去——“深綠”計劃的啟示與思考[J].指揮與控制學(xué)報,2016,2(1):22-25.

[38] 姚慶鍇,柳少軍,賀筱媛,等.戰(zhàn)場目標(biāo)作戰(zhàn)意圖識別問題研究與展望[J].指揮與控制學(xué)報,2017,3(2):127-131.

[39] 鄭書奎,吳琳,賀筱媛.基于深度學(xué)習(xí)的兵棋演習(xí)數(shù)據(jù)特征提取方法研究[J].指揮與控制學(xué)報,2016,2(3):194-201.

[40] 郭若冰,司光亞,賀筱媛.迎接智能化時代軍事指揮面臨的新挑戰(zhàn)——全軍“戰(zhàn)爭復(fù)雜性與信息化戰(zhàn)爭模擬”研討會觀點綜述[J].中國軍事科學(xué),2016(5):149-156.

[41] 胡侯立,魏維,胡蒙娜.深度學(xué)習(xí)算法的原理及應(yīng)用[J].信息技術(shù),2015(2):175-177.

[42] 段艷杰,呂宜生,張杰,等.深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J].自動化學(xué)報,2016,42(5):643-654.

[43] 金欣.“深綠”及AlphaGo對指揮與控制智能化的啟示[J].指揮與控制學(xué)報,2016,2(3):202-207.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)

1 深度學(xué)習(xí)

1.1 基本原理

1.2 深度學(xué)習(xí)發(fā)展沿革

1.3 經(jīng)典模型

1.4 深度強化學(xué)習(xí)

2 軍事智能決策支持系統(tǒng)發(fā)展現(xiàn)狀

2.1 軍事智能決策支持系統(tǒng)

2.2 美軍相關(guān)研究

2.3 國內(nèi)相關(guān)研究

3 深度學(xué)習(xí)在輔助決策中的應(yīng)用

3.1 深度學(xué)習(xí)在軍事領(lǐng)域的探索

3.2 深度學(xué)習(xí)應(yīng)用面臨的難題

3.3 基于深度學(xué)習(xí)的輔助決策

4 結(jié)束語

4.1 大數(shù)據(jù)和無監(jiān)督學(xué)習(xí)

4.2 強化學(xué)習(xí)和自我博弈