吳宜珈,徐 鵬
(1.陸軍工程大學(xué),南京 210000;2.解放軍32526 部隊(duì),江蘇 無(wú)錫 214000;3.解放軍31102 部隊(duì),南京 210000)
信息化戰(zhàn)爭(zhēng)時(shí)代,隨著科學(xué)技術(shù)的飛速發(fā)展,搜集信息的手段日漸多樣,傳感器等信息采集設(shè)備可在較短時(shí)間內(nèi)獲取大量態(tài)勢(shì)信息,為指揮員在指揮控制過程中提供更加豐富、全面、準(zhǔn)確的參考數(shù)據(jù)[1]。但同時(shí),戰(zhàn)場(chǎng)的高度不確定性、動(dòng)態(tài)性和復(fù)雜性致使戰(zhàn)場(chǎng)捕獲數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)超過人工數(shù)據(jù)篩查分析范圍[2]。海量數(shù)據(jù)因失去時(shí)效性而流失價(jià)值,直接制約情報(bào)工作,并間接影響指揮官最終決策效率。
隨著人工智能(Artificial Intelligence,AI)技術(shù)進(jìn)入高速發(fā)展期[3],強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)與軍事應(yīng)用結(jié)合愈發(fā)緊密[4]。近年ALPHA AI、CVS、COMPASS 等系統(tǒng)的成功應(yīng)用均展現(xiàn)了強(qiáng)化學(xué)習(xí)在數(shù)據(jù)搜集處理等方面的獨(dú)特優(yōu)勢(shì)。2019 年2 月,美國(guó)防部(United States Department of Defense,US.DOD)發(fā)布《2018 國(guó)防部人工智能戰(zhàn)略概要:利用人工智能促進(jìn)安全與繁榮》[5]。《戰(zhàn)略概要》重點(diǎn)闡述了關(guān)于AI 技術(shù)的5 項(xiàng)戰(zhàn)略舉措:一是在關(guān)鍵任務(wù)中使用AI 技術(shù);二是加強(qiáng)關(guān)于AI 技術(shù)應(yīng)用的基礎(chǔ)設(shè)施建設(shè);三是注重AI 技術(shù)人才培養(yǎng);四是軍民融合,強(qiáng)化合作;五是加強(qiáng)軍事倫理道德體系建設(shè)、維護(hù)AI 技術(shù)安全[6]。作為美軍智能化指揮控制系統(tǒng)建設(shè)的風(fēng)向標(biāo),《戰(zhàn)略概要》的提出充分說(shuō)明以美國(guó)為代表的世界軍事強(qiáng)國(guó)預(yù)見到了AI 技術(shù)在軍事領(lǐng)域的巨大潛能,未來(lái)軍事競(jìng)技場(chǎng)上AI 技術(shù)一定是御敵的利器。
當(dāng)今世界各國(guó)展開軍事競(jìng)賽,美軍的發(fā)展方向?yàn)閲?guó)內(nèi)智能化指揮控制系統(tǒng)的建設(shè)提供積極的借鑒意義。本文結(jié)合人工智能發(fā)展歷程,分析強(qiáng)化學(xué)習(xí)在美軍智能化指揮控制系統(tǒng)中應(yīng)用發(fā)展所取得的成績(jī)和暴露的問題,針對(duì)我軍信息化作戰(zhàn)輔助決策系統(tǒng)建設(shè)現(xiàn)狀,分析面臨的難題,為未來(lái)發(fā)展提出建議。
人工智能技術(shù)的發(fā)展經(jīng)歷了3 個(gè)階段:計(jì)算智能階段、感知智能階段、認(rèn)知智能階段[7]。計(jì)算智能階段[8]主要以記憶和存儲(chǔ)功能為核心,通過數(shù)據(jù)存儲(chǔ)、運(yùn)算、挖掘等形式提取關(guān)鍵信息。超級(jí)計(jì)算機(jī)“天河”和“深藍(lán)”就是AI 技術(shù)計(jì)算智能的具體應(yīng)用成果。感知智能階段[9]受人和動(dòng)物的視覺、聽覺、觸覺等感知能力啟發(fā),以圖像理解、語(yǔ)音識(shí)別、語(yǔ)言翻譯等功能為代表,主動(dòng)感知搜集環(huán)境信息??拼笥嶏w、百度翻譯等翻譯技術(shù),人臉識(shí)別,軟件識(shí)花等圖像理解技術(shù),蘋果Siri、天貓精靈等智能交互技術(shù)運(yùn)用的就是感知智能。認(rèn)知智能階段[10]模仿人的認(rèn)知過程,主動(dòng)接收信息、理解信息、推理思考信息,最終自主得出結(jié)論。AlphaGo 戰(zhàn)勝人類圍棋高手李世石[11],《星際爭(zhēng)霸2》中人工智能Alpha star 10∶1大勝人類頂級(jí)玩家均是認(rèn)知智能的實(shí)際運(yùn)用。
人工智能領(lǐng)域的主要目標(biāo)之一是生產(chǎn)具備完全自主與環(huán)境互動(dòng)能力的智能體。智能體在不斷地接收環(huán)境反饋的信息之后,通過學(xué)習(xí)獲得最佳行為。強(qiáng)化學(xué)習(xí)屬于AI 技術(shù)的第3 階段——認(rèn)知智能階段,智能體對(duì)環(huán)境反饋信息進(jìn)行接收處理并進(jìn)行自主有效學(xué)習(xí)。強(qiáng)化學(xué)習(xí)[12]由4 個(gè)基本部分組成:狀態(tài)s,動(dòng)作a,狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)賞信號(hào)γ,通常使用馬爾可夫決策過程(Markov Decision Process,MDP)來(lái)描述:智能體在當(dāng)前狀態(tài)s 下根據(jù)策略π 來(lái)選擇動(dòng)作a,執(zhí)行該動(dòng)作并以概率轉(zhuǎn)移到下一狀態(tài)s',同時(shí)接收到環(huán)境反饋回來(lái)的獎(jiǎng)賞γ。 強(qiáng)化學(xué)習(xí)的目標(biāo)是通過調(diào)整策略來(lái)最大化累積獎(jiǎng)賞。通常使用值函數(shù)估計(jì)某個(gè)策略π 的優(yōu)劣程度。
強(qiáng)化學(xué)習(xí)可以分為無(wú)模型的強(qiáng)化學(xué)習(xí)算法(Model-Free Reinforcement Learning)[13]和基于模型的強(qiáng)化學(xué)習(xí)算法(Model-based Reinforcement Learning)[14]。無(wú)模型的強(qiáng)化學(xué)習(xí)算法運(yùn)行原理如圖1 所示。智能體在環(huán)境中互動(dòng)學(xué)習(xí),尋找到行動(dòng)策略,學(xué)習(xí)優(yōu)化策略。基于模型的強(qiáng)化學(xué)習(xí)算法運(yùn)行原理如圖2。抽象與環(huán)境交互產(chǎn)生的經(jīng)歷并建立模型,通過模型訓(xùn)練更新價(jià)值函數(shù)和策略,將策略與環(huán)境進(jìn)行互動(dòng)獲得更多的經(jīng)歷。
圖1 無(wú)模型的強(qiáng)化學(xué)習(xí)算法原理
圖2 基于模型的強(qiáng)化學(xué)習(xí)算法原理
現(xiàn)代軍事領(lǐng)域,強(qiáng)化學(xué)習(xí)在戰(zhàn)場(chǎng)情報(bào)搜集、信息處理、態(tài)勢(shì)分析和輔助決策中日益發(fā)揮關(guān)鍵作用,極大程度輔助指揮員提高決策效率,是未來(lái)平臺(tái)作戰(zhàn)的核心[15]。美軍對(duì)指揮控制智能化的研究起步最早,發(fā)展最快[16]。早在2004 年,美軍就進(jìn)行了以為指揮員提供作戰(zhàn)行動(dòng)方案為目的的RAID計(jì)劃[17],取得初步成功后又相繼開發(fā)了以強(qiáng)化學(xué)習(xí)為主要方法的DEEP GREEN、TIGER、ALPHA AI、Maven、Alpha Zero、APF、CVS、COMPASS、MEADE、SLATE、ROBO pilot、ALIAS 等一系列智能指控系統(tǒng):2007 年,美軍聯(lián)合國(guó)防部高級(jí)研究計(jì)劃局(DARPA)開發(fā)DEEP GREEN 系統(tǒng),采用最大化最小搜索算法構(gòu)建通用機(jī)器學(xué)習(xí)引擎,基于實(shí)時(shí)態(tài)勢(shì)動(dòng)態(tài)仿真,對(duì)戰(zhàn)場(chǎng)狀態(tài)函數(shù)s(t)進(jìn)行進(jìn)行評(píng)估,得到態(tài)勢(shì)函數(shù)v:s(t)→R,量化地估計(jì)未來(lái)某一時(shí)刻的戰(zhàn)場(chǎng)狀態(tài)。2009 年TIGER 計(jì)劃實(shí)施,強(qiáng)化指控系統(tǒng)中戰(zhàn)場(chǎng)情報(bào)分類判斷[18]能力,在環(huán)境對(duì)智能體反饋狀態(tài)函數(shù)s(t)過程中增加信息篩選處理步驟。2016 年美國(guó)空軍實(shí)驗(yàn)室指導(dǎo)開發(fā)的Alpha AI 系統(tǒng),在實(shí)驗(yàn)中成功擊落美空戰(zhàn)專家駕駛的訓(xùn)練模擬機(jī)。Alpha AI 使用遺傳模糊樹算法實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)的實(shí)時(shí)處理。在功能上,Alpha AI 可充當(dāng)人類戰(zhàn)機(jī)僚機(jī),在作戰(zhàn)中搜集戰(zhàn)場(chǎng)信息、控制無(wú)人機(jī)集群。2017 年美空軍啟動(dòng)Maven 系統(tǒng),在智能采集單元中根據(jù)無(wú)人機(jī)提供的視頻信息,運(yùn)用機(jī)器學(xué)習(xí)算法自動(dòng)識(shí)別目標(biāo)運(yùn)動(dòng)情況。著名的Alpha Zero 通過自學(xué)習(xí)的方式脫離專家系統(tǒng)指導(dǎo)自主生成博弈策略,展示了人工智能技術(shù)在解決博弈問題時(shí)的突出優(yōu)勢(shì)[19]。Alpha Zero 采用蒙特卡洛搜索樹(MCTS)和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練[20],過程主要分為3 個(gè)階段:自學(xué)習(xí)階段、訓(xùn)練神經(jīng)網(wǎng)絡(luò)階段和評(píng)估網(wǎng)絡(luò)階段。同年,美軍針對(duì)性開發(fā)自動(dòng)計(jì)劃框架(APF),指揮官虛擬參謀(CVS),“指南針”(COMPASS)等項(xiàng)目,結(jié)合認(rèn)知計(jì)算和自動(dòng)化技術(shù),通過分析智能體(敵軍)對(duì)環(huán)境采取不同的動(dòng)作函數(shù)a(t)后產(chǎn)生的狀態(tài)函數(shù)s(t)和獎(jiǎng)勵(lì)函數(shù)r(st,at)的值,剝離出影響態(tài)勢(shì)的核心要素,幫助指揮官和參謀人員評(píng)估機(jī)動(dòng)、后勤、火力、情報(bào)及其他作戰(zhàn)行動(dòng)過程。2018 年至今,美軍先后開發(fā)應(yīng)用數(shù)字企業(yè)多源開發(fā)助手(MEADE)、SLATE 訓(xùn)練系統(tǒng)、智能僚機(jī)、空戰(zhàn)演進(jìn)、機(jī)器飛行員(ROBO pilot)和座艙內(nèi)機(jī)組自動(dòng)化(ALIAS)等系統(tǒng),通過仿真手段平行模擬戰(zhàn)場(chǎng)博弈過程,搶先一步預(yù)測(cè)戰(zhàn)場(chǎng)態(tài)勢(shì)走向,為指揮員提供針對(duì)性行動(dòng)方案,提升輔助決策效率。
美軍智能化指揮控制系統(tǒng)[21]以作戰(zhàn)信息管理軟件系統(tǒng)為核心,是跨物理域、信息域、認(rèn)知域三域的復(fù)雜模型,包含平臺(tái)軟件、技術(shù)支持軟件、指控應(yīng)用軟件,如圖3 所示。強(qiáng)化學(xué)習(xí)算法的應(yīng)用主要集中在指控應(yīng)用軟件,核心在于“平行仿真”,即在作戰(zhàn)指揮過程中實(shí)時(shí)搜集作戰(zhàn)數(shù)據(jù),通過仿真模擬快速分析預(yù)測(cè)戰(zhàn)場(chǎng)態(tài)勢(shì)變化,進(jìn)行敵我雙方戰(zhàn)術(shù)推演,同時(shí)預(yù)測(cè)各種方案導(dǎo)致的后果[22],系統(tǒng)量化分析戰(zhàn)爭(zhēng)走向,輔助指揮員快速制定、調(diào)整作戰(zhàn)方案,縮短態(tài)勢(shì)分析時(shí)間,搶先打破敵方OODA(Observe-Orient-Decide-Act)環(huán)[23],贏得戰(zhàn)爭(zhēng)主動(dòng)性。
圖3 智能化指揮控制系統(tǒng)軟件組成示意圖
戰(zhàn)爭(zhēng)博弈對(duì)抗屬于不完全、不完美信息博弈[18],任何環(huán)境、戰(zhàn)力、策略的變化都會(huì)影響戰(zhàn)局走向,態(tài)勢(shì)發(fā)展的多樣性造成戰(zhàn)爭(zhēng)迷霧干擾指揮員判斷,原始的戰(zhàn)略較量變?yōu)閼?zhàn)略和技術(shù)綜合實(shí)力的較量,如圖4 所示。
圖4 戰(zhàn)爭(zhēng)較量元素變化
現(xiàn)有的智能化指揮控制系統(tǒng)只適用于時(shí)間短、確定性相對(duì)較強(qiáng)的戰(zhàn)術(shù)層面的情況,主要適用于模型較為簡(jiǎn)單,火力運(yùn)用規(guī)則較為基礎(chǔ)、戰(zhàn)局變化易于推演的戰(zhàn)局。
信息化條件下的聯(lián)合作戰(zhàn)是一體化聯(lián)合作戰(zhàn)的初級(jí)階段,是我軍現(xiàn)階段聯(lián)合作戰(zhàn)的基本表現(xiàn)形式。當(dāng)前,各種打擊力量多維聚能,武器類型多,打擊方式多,毀傷效應(yīng)多,戰(zhàn)爭(zhēng)面臨的環(huán)境呈現(xiàn)出威脅日益復(fù)雜、作戰(zhàn)節(jié)奏變快等特點(diǎn)。如何將復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境、首長(zhǎng)決心、作戰(zhàn)計(jì)劃抽象為能算、可信的數(shù)學(xué)模型,對(duì)我定性與定量轉(zhuǎn)換能力提出了更高要求。美軍發(fā)展指控系統(tǒng)初期并不順利,其中一個(gè)重要原因就是缺乏標(biāo)準(zhǔn)化、規(guī)范化的定量方法。如何化繁為簡(jiǎn),去偽存真,提取核心參數(shù),并確定相應(yīng)比例,量化影響戰(zhàn)場(chǎng)態(tài)勢(shì)發(fā)展的各個(gè)因素,同時(shí)將戰(zhàn)術(shù)策略、武器使用映射成具體戰(zhàn)斗力測(cè)評(píng)數(shù)值,是我國(guó)亟待解決的問題。
信息化條件下,制信息權(quán)成為作戰(zhàn)雙方關(guān)注的重點(diǎn)。美國(guó)分散的政黨、復(fù)雜的數(shù)據(jù)保護(hù)規(guī)則使其在數(shù)據(jù)的收集、共享和使用上面臨較大困難。與美國(guó)相比,我國(guó)的制度無(wú)疑更適合集中力量辦大事,但各單位、各體系發(fā)展指控系統(tǒng)數(shù)據(jù)格式不通、平臺(tái)接口不聯(lián)、各類系統(tǒng)層出不窮等問題,導(dǎo)致數(shù)據(jù)無(wú)法得到有效共享與使用,各家敝帚自珍,客觀上制約了信息系統(tǒng)的快速發(fā)展。同時(shí),相較美軍通過實(shí)戰(zhàn)和裝備報(bào)廢得到的真實(shí)數(shù)據(jù),我軍在作戰(zhàn)數(shù)據(jù)上的建設(shè)依然停留在實(shí)驗(yàn)室、演習(xí)場(chǎng),沒有通過實(shí)戰(zhàn)檢驗(yàn),可靠性、科學(xué)性仍有待提高。
美軍認(rèn)為,現(xiàn)實(shí)期望對(duì)于維持一個(gè)以應(yīng)用新技術(shù)為目標(biāo)的計(jì)劃至關(guān)重要[24]。美軍在發(fā)展指控系統(tǒng)的過程中發(fā)現(xiàn),為了減少不必要的開支,提高研發(fā)效率,良好的頂層設(shè)計(jì)必不可少。指控系統(tǒng)(尤其是人工智能)技術(shù)目前的能力和局限性尚未明確,可能導(dǎo)致研發(fā)過程中人力、物力的誤用、濫用,事倍功半。我軍不缺乏指控系統(tǒng)發(fā)展應(yīng)用的理論指導(dǎo)和戰(zhàn)略目標(biāo),但在實(shí)際落地方面,缺少系統(tǒng)化、科學(xué)化、流程化的指控系統(tǒng)發(fā)展規(guī)劃與路線圖,以及對(duì)應(yīng)的測(cè)試評(píng)估技術(shù)。
美軍智能化指揮控制系統(tǒng)的建設(shè)預(yù)示著未來(lái)戰(zhàn)場(chǎng)博弈的發(fā)展方向,將人工智能技術(shù)運(yùn)用于指揮控制過程中的思路還會(huì)繼續(xù)深入下去。美國(guó)與我國(guó)在人工智能的發(fā)展戰(zhàn)略上有相似之處,通過比較雙方國(guó)家結(jié)構(gòu)、文化等方面差異,結(jié)合美國(guó)在科技創(chuàng)新與發(fā)展中遇到的問題,中美在人工智能發(fā)展中的關(guān)鍵點(diǎn)有以下5 個(gè)方面:基礎(chǔ)技術(shù)研究、工業(yè)商業(yè)、軍事應(yīng)用能力、操作概念、VVT&E 技術(shù)(Verification,Validation,Test,and Evaluation)[25]。但在國(guó)家文化、結(jié)構(gòu)、意識(shí)形態(tài)等方方面面都有較大差異,因此,不能盲目借鑒美國(guó)發(fā)展經(jīng)驗(yàn)。為達(dá)成彎道超車、后發(fā)先至的目標(biāo),需要結(jié)合我國(guó)國(guó)情,查漏補(bǔ)缺,全面發(fā)展。
人們普遍認(rèn)為,我國(guó)正處在信息技術(shù)發(fā)展的黃金時(shí)代。過度迅猛的發(fā)展使得信息技術(shù)泡沫存在可能性。為強(qiáng)化人力物力配置,明確指控系統(tǒng)發(fā)展規(guī)劃,我軍有必要?jiǎng)?chuàng)建動(dòng)態(tài)的指控系統(tǒng)發(fā)展規(guī)劃路線圖。路線圖應(yīng)當(dāng)與我軍作戰(zhàn)需求、研發(fā)需求協(xié)同發(fā)展,具備實(shí)時(shí)更新、臨機(jī)操作的功能,能夠確保我軍裝備現(xiàn)代化速度與裝備研發(fā)、應(yīng)用速度相適應(yīng)。路線圖應(yīng)當(dāng)包含優(yōu)先級(jí)列表、操作需求、開發(fā)方向、開發(fā)原則、可操作性、可使用性、存在不足、成本估算等方面,能夠優(yōu)化資源配置,幫助研發(fā)人員明確研發(fā)流程與方向,為研發(fā)人員提供可行的路線。路線圖應(yīng)當(dāng)按照我軍指控系統(tǒng)發(fā)展的戰(zhàn)略目標(biāo)確定發(fā)展階段,能夠隨我軍作戰(zhàn)需求和技術(shù)的發(fā)展而不斷發(fā)展,確保路線圖的準(zhǔn)確性與先進(jìn)性。
軍事力量的突破往往需要領(lǐng)先的技術(shù)水平、準(zhǔn)確的應(yīng)用方向和有力的技術(shù)整合。當(dāng)前,指控系統(tǒng)的基礎(chǔ)技術(shù)仍集中于民用方向,中美在技術(shù)上的差異并不大,為奪取指控系統(tǒng)發(fā)展優(yōu)勢(shì),我軍必須發(fā)展更優(yōu)越的算法與操作理念。有效的測(cè)試和評(píng)估對(duì)于充分發(fā)揮指控系統(tǒng)潛力至關(guān)重要。當(dāng)前我軍對(duì)于工程、技術(shù)的評(píng)估方法大部分仍停留在人工層面,以集中決議、專家評(píng)判為主。這些手段不可或缺,但主觀因素占比較大,評(píng)判的可靠性有待商榷。軍事運(yùn)籌學(xué)方法對(duì)于復(fù)雜戰(zhàn)爭(zhēng)環(huán)境的建模比較理想化,假設(shè)因素較多,難以反映真實(shí)戰(zhàn)場(chǎng);數(shù)值模擬對(duì)于理論建模的要求較高,完全重現(xiàn)戰(zhàn)場(chǎng)環(huán)境難度較大,因此,有必要進(jìn)一步推進(jìn)定性定量方法與測(cè)試評(píng)估技術(shù)發(fā)展,為指控系統(tǒng)進(jìn)步奠定基礎(chǔ)。
人才是推動(dòng)技術(shù)發(fā)展、保障計(jì)劃實(shí)施的基本元素與根本動(dòng)力。為在指控系統(tǒng)發(fā)展與應(yīng)用方面建立優(yōu)勢(shì),我軍需要大量訓(xùn)練有素的研究人員,需要一支有向心力、有上進(jìn)心、有技術(shù)優(yōu)勢(shì)的人才隊(duì)伍,而保證人才長(zhǎng)時(shí)間不流失、人心不渙散比較困難。因此,建立相應(yīng)的人才管理模式和綜合評(píng)價(jià)手段十分必要。通過獎(jiǎng)勵(lì)為主的獎(jiǎng)懲措施、優(yōu)勝劣汰的機(jī)制激發(fā)人才隊(duì)伍活力,確保人才隊(duì)伍的競(jìng)爭(zhēng)力。
人工智能技術(shù)現(xiàn)已進(jìn)入一個(gè)新的高速增長(zhǎng)期,隨著戰(zhàn)場(chǎng)環(huán)境和對(duì)手的日益復(fù)雜多變,強(qiáng)化學(xué)習(xí)必然成為深入理解對(duì)手意圖、增強(qiáng)戰(zhàn)場(chǎng)態(tài)勢(shì)理解、加快決策速度和提升戰(zhàn)略戰(zhàn)術(shù)科學(xué)性的強(qiáng)勁推力。以美國(guó)為代表的世界軍事強(qiáng)國(guó),預(yù)見到人工智能技術(shù)在軍事領(lǐng)域的廣闊應(yīng)用前景,提前布局了一系列研究計(jì)劃,發(fā)布第三次抵消戰(zhàn)略,力求在智能化上與潛在對(duì)手拉開代差。本文以強(qiáng)化學(xué)習(xí)在美軍指揮控制系統(tǒng)中的應(yīng)用為線索,分析智能化指控系統(tǒng)發(fā)展面臨的難題,同時(shí)對(duì)未來(lái)發(fā)展提出可行性建議。軍事變革時(shí)代,如何充分利用人工智能技術(shù)提升戰(zhàn)場(chǎng)指控系統(tǒng)輔助決策智能性,成為各軍事集團(tuán)共同面對(duì)的問題,積極借鑒、分析、改進(jìn)美軍先進(jìn)指控系統(tǒng),將有利于提高我軍打贏信息化條件下戰(zhàn)爭(zhēng)能力。