金欣 毛少杰 李青山
伴隨著人工智能技術(shù)的發(fā)展,作戰(zhàn)指揮也一直在智能化的道路上探索前行,雖然以深度學(xué)習(xí)為代表的新一代人工智能技術(shù)最近幾年才取得突破,但廣義的人工智能技術(shù)已經(jīng)歷了近70年的發(fā)展歷程.指揮信息系統(tǒng)從誕生以來,輔助決策就是一項重要的功能.將廣義智能化技術(shù)用在輔助決策領(lǐng)域,相關(guān)研究很早就開始了,老一輩的技術(shù)人員嘗試過運籌學(xué)、專家系統(tǒng)、概率論等經(jīng)典的方法,應(yīng)用在控制工程方面并取得了長足的進步.但在作戰(zhàn)指揮層面,博弈對抗、跨領(lǐng)域綜合性的特點更加突出,藝術(shù)的成分更多,經(jīng)典方法難以奏效.
近年來,隨著自然語言處理、計算機視覺、知識圖譜、智能博弈等新興人工智能技術(shù)的快速發(fā)展,年輕的技術(shù)人員開始嘗試新的方法,期望機器可以從巨量的樣本數(shù)據(jù)和探索試錯中自主學(xué)習(xí)產(chǎn)生指揮智能,美軍以DARPA為代表,啟動了KAIROS、MCS、SI3-CMD、Gamebreaker 等一系列項目開展研究.國內(nèi)學(xué)者緊隨其后,也開展了一些探索性的研究,并取得了一些階段性成果[1?2],但由于真實戰(zhàn)爭的復(fù)雜性,以及作戰(zhàn)指揮應(yīng)用領(lǐng)域的高可靠性要求和和小樣本學(xué)性,這些方法在短期內(nèi)還難以達到實用化水平,眼下屬于作戰(zhàn)指揮智能化發(fā)展的一個瓶頸期.在通用人工智能技術(shù)突破之前,作戰(zhàn)指揮智能該如何發(fā)展,依舊是困擾我們的一大難題.
本文從“培育”作戰(zhàn)指揮智能的視角出發(fā),類比人在成長過程中所采用的學(xué)習(xí)方式,對傳統(tǒng)方法和新興技術(shù)的優(yōu)點和問題進行了分析.并在此基礎(chǔ)上,提出了一種基于混合智能的作戰(zhàn)指揮智能培育方式,從知識學(xué)習(xí)、博弈學(xué)習(xí)兩條技術(shù)路線,分別提出了解決思路,指出了其中亟需突破的關(guān)鍵技術(shù)難題,對發(fā)展作戰(zhàn)指揮智能化具有一定指導(dǎo)意義.
從20世紀90年代開始,老一輩的作戰(zhàn)指揮領(lǐng)域技術(shù)人員就已經(jīng)在尋求作戰(zhàn)指揮智能化的技術(shù)方法.數(shù)十年來研究開發(fā)的計算模型包括??漳繕撕桔E融合、導(dǎo)彈落點預(yù)測、衛(wèi)星軌道預(yù)測、目標威脅估計、探測/火力范圍計算、機動航行路線規(guī)劃、截擊引導(dǎo)規(guī)劃、導(dǎo)彈彈道規(guī)劃、彈目匹配規(guī)劃、行動耗時估算、導(dǎo)彈諸元規(guī)劃等,大多是解決武器裝備控制層面的問題.所采用的方法主要包括運籌學(xué)、專家系統(tǒng)、概率論等[3?9].
運籌學(xué)的方法在工業(yè)控制領(lǐng)域獲得了廣泛的應(yīng)用,武器裝備控制層面的問題與工業(yè)控制十分相似,因此運籌學(xué)的方法也得到了較好的應(yīng)用,但是到了作戰(zhàn)指揮層面,博弈對抗帶來的強非線性特征很難用數(shù)學(xué)理論進行有效的建模,導(dǎo)致傳統(tǒng)的運籌學(xué)方法難以奏效,經(jīng)典的藍徹斯特方程也主要適用于冷兵器時代的消耗型戰(zhàn)爭,隨著現(xiàn)代化裝備的發(fā)展逐漸淡出了歷史舞臺,專家系統(tǒng)在20世紀末21世紀初獲得了極大的發(fā)展,代表性項目如美軍的“高性能知識庫(HPKB)”、“知識快速生成(RKF)”等,但最終都銷聲匿跡,猜測除了專家系統(tǒng)技術(shù)自身的問題以外,作戰(zhàn)指揮領(lǐng)域的知識難以有效提煉也是根本原因之一.概率論的方法在威脅估計、效能評估等領(lǐng)域應(yīng)用較多,經(jīng)典的方法如貝葉斯網(wǎng)絡(luò)等,但這些應(yīng)用也大多數(shù)停留在理論層面,作戰(zhàn)指揮領(lǐng)域突出的“小樣本”特性使得概率論的方法失去了統(tǒng)計學(xué)的根基.
綜合來看,傳統(tǒng)的方法比較類似于人類學(xué)習(xí)過程中的中小學(xué)教育階段,即灌輸式教育.不論是運籌學(xué)、專家系統(tǒng)還是概率論的方法,都傾向于將人類的經(jīng)驗知識,通過“硬編碼”的方式灌輸給機器,但最終發(fā)現(xiàn),這種教育方式很難培養(yǎng)出合格的“學(xué)生”.首先,人類能否把自己的經(jīng)驗知識說得很清楚、完備、一致、成體系,就是一個問題.“教科書”本身存在各種各樣的錯誤、矛盾、缺漏,自然教不出合格的學(xué)生,尤其是那種“變通能力”較弱的學(xué)生.以專家系統(tǒng)為例,人類試圖構(gòu)建一套通用的、完備的知識體系來解決各種問題,是不太現(xiàn)實的,其次,按照灌輸式的教育模式,機器的智力水平永遠超不過人類,只能在運算速度、精度上取得優(yōu)勢.
21世紀初,在“深藍”、“沃森” 等事件的推動下,作戰(zhàn)指揮智能化獲得了新一輪的發(fā)展,DARPA在其啟發(fā)下,先后啟動了“深綠(DG)”[10?11]、“指揮官虛擬參謀(CVS)”[12]等計劃,期望機器不僅僅能為參謀人員提高效率,也能為指揮員增強認知和決策能力,然而,這些計劃都以經(jīng)費不足等原因被中止了,近幾年,在“AlphaGo”[13]、“AlphaStar”[14]等事件的推動下,DARPA 又啟動了“知識導(dǎo)向的推理模式(KAIROS)”、“機器常識(MCS)”、“SI3-CMD”、“Gamebreaker” 等項目,旨在探索將知識學(xué)習(xí)與推理、智能博弈等技術(shù)應(yīng)用于軍事領(lǐng)域,目標很可能是為解決戰(zhàn)場認知、指揮決策等智能化難題打基礎(chǔ),國內(nèi)也在這方面開展了大量探索,包括在裝備建設(shè)領(lǐng)域開展了知識圖譜構(gòu)建研究[15?18],在智能兵棋領(lǐng)域開展了智能博弈技術(shù)研究[19?20]等.
新興技術(shù)帶來新希望的同時,也帶來了新的挑戰(zhàn).一是小樣本的挑戰(zhàn).知識圖譜的自主學(xué)習(xí)構(gòu)建是建立在大數(shù)據(jù)基礎(chǔ)上的,軍事方面只有情報處理、運維保障等領(lǐng)域存在大數(shù)據(jù)積累,而在作戰(zhàn)指揮領(lǐng)域,態(tài)勢研判報告、作戰(zhàn)方案計劃之類的數(shù)據(jù)由于保密原因,極少能夠被記錄下來,而戰(zhàn)法規(guī)則之類的知識主要以文字形式記載在各類條令、教程之中,描述粒度過于宏觀、抽象,很難為機器所理解,二是復(fù)雜性的挑戰(zhàn).游戲畢竟是游戲,與真實戰(zhàn)爭的復(fù)雜度不可同日而語.兵棋是相對貼近戰(zhàn)爭的游戲,但同時也做了大幅簡化,目前在兵棋領(lǐng)域,智能博弈技術(shù)主要在營級規(guī)模能夠戰(zhàn)勝人類選手,再往高層級發(fā)展,就很難取得突破,此外,在單機或分隊級空戰(zhàn)領(lǐng)域,機器也能夠戰(zhàn)勝人類選手,但主要還是依靠機器的速度和精度優(yōu)勢取勝,并非真正在策略運用上勝過人類.三是高可靠性要求的挑戰(zhàn),可解釋性是目前人工智能技術(shù)領(lǐng)域的一大難題,尤其是深度神經(jīng)網(wǎng)絡(luò)為主的智能算法,以智能博弈技術(shù)為例,指揮員需要的是行動前給出方案,而機器只能在行動中走一步看一步,給出的策略建議又不具備可解釋的理由,沒有指揮員敢冒這樣的風險,同時機器又無法按照指揮員的作戰(zhàn)思路去探索試錯,只能自己從零開始摸索,期待有一天能超越人類,不能夠給出足夠的可靠性保障,同時又與指揮員構(gòu)成了一種“替代”而“非協(xié)作”的關(guān)系,是這項技術(shù)難以走向?qū)嵱没闹饕?總體來看,新興人工智能技術(shù)目前主要在情報處理方面應(yīng)用較為廣泛,而在作戰(zhàn)指揮領(lǐng)域極少.
綜合來看,新興技術(shù)的方法有點類似于人類學(xué)習(xí)過程中的大學(xué)階段,即自學(xué)式教育.通過提供足夠豐富的數(shù)據(jù)資源,類似于“圖書館”,讓機器完全自學(xué);通過提供足夠逼真的虛擬戰(zhàn)場環(huán)境,類似于“社會實踐”,讓機器自己去探索發(fā)現(xiàn),這種學(xué)習(xí)方式有其自身的優(yōu)點,假以時日,有望超過人類,但這種學(xué)習(xí)方式對“智商” 要求極高,對“經(jīng)歷” 要求極豐富,目前的人工智能水平還難以勝任.
其實在人類的學(xué)習(xí)過程中,除了中小學(xué)和大學(xué)教育外,還有一種重要的教學(xué)模式,即學(xué)徒式教育,就是導(dǎo)師帶徒弟,邊做邊學(xué).這種教育模式主要出現(xiàn)在畢業(yè)之后的工作過程中,并且,這種教育模式相比中小學(xué)的灌輸式教育和大學(xué)的自學(xué)式教育而言,都更有效率.尤其在將新人引進門,讓其快速上手方面,這種教育模式是最常用的,那么這種教育模式能否用在作戰(zhàn)指揮領(lǐng)域呢?以下仍從知識學(xué)習(xí)、博弈學(xué)習(xí)兩條技術(shù)路線入手,探索這方面的可能性.
如前所述,專家系統(tǒng)在作戰(zhàn)指揮領(lǐng)域難以應(yīng)用的一個重要原因,是知識難以有效提煉,讓指揮員準確在知識體系中描述出來,是一件非常困難的事情.再有經(jīng)驗的指揮員,也只能說一些宏觀的、抽象的概念,很難落實到具體的應(yīng)用中,然而,針對一個特定的任務(wù)場景,結(jié)合一個特定的戰(zhàn)場情況,幾乎任何一個指揮員都可以說出他為什么會做出這樣的判斷或決策,會將他是如何考慮的過程分析得頭頭是道,因為這是一個具體的問題,一旦結(jié)合具體問題,事情的分析過程就會簡單、明了,其中用到的知識也比較容易描述成具體的規(guī)則.
這一類知識不同于專家系統(tǒng)中通用的、完備的知識體系,而是一些針對具體問題具體分析的知識片段,不妨稱之為“具體問題知識”,具體問題知識在一個較小的范圍內(nèi)是可以提煉成通用知識的,例如指揮員可能會說“我設(shè)計這種打法是因為···,只要是符合這些條件,這種打法都適用,但如果··· 幾個條件不滿足,或出現(xiàn)···等情況,可能就不適用了,”大部分具體問題知識都可以泛化成一個模板,在小范圍內(nèi)具有通用性,但是,如果沒有這樣的任務(wù)背景,要讓指揮員提煉出這樣的知識,是極其困難的.
另一方面,因為缺乏巨量數(shù)據(jù)積累導(dǎo)致知識自主學(xué)習(xí)的方式難以實用化的問題,也可以通過具體問題知識的采集積累來解決,雖然處于和平時期,但軍方平時也在不停地開展各種演習(xí)訓(xùn)練,如果能夠在指揮信息系統(tǒng)中嵌入一種知識采集模塊,利用當下發(fā)展較快的人機對話技術(shù),或許能夠像“徒弟”問“師傅”那樣,一邊觀看指揮員處理具體任務(wù)的過程,一邊主動向指揮員詢問其分析推理的思路,就有可能將他在處理這個具體問題時的知識推理過程采集記錄下來,雖然這樣做有可能會在一定程度上干擾指揮員的思維過程,影響他的工作,但采集下來的知識是彌足珍貴的,此外,技術(shù)人員因為保密原因難以觀看到指揮員的真實作業(yè)過程,而機器“徒弟”則少了這方面的顧慮,采集知識會更加便利.
積累具體問題知識,一個難點在于如何最大限度地降低對指揮員的干擾,同時又能夠盡可能多地采集知識,例如,系統(tǒng)可以在指揮員忙的時候選擇靜默,將指揮員的操作完整地記錄下來,等到指揮員閑暇的時候再向其詢問,這時候“師徒” 間的交流就會成為一種輕松的閑聊,利用谷歌Siri、微軟“小冰”、“小娜”中使用的技術(shù),機器可以學(xué)會各種話術(shù),在指揮員不厭煩的情況下把知識“套”出來,例如:
機器:“打擾您一下!您剛才做出了打擊敵方XX目標的決定,請問您是如何考慮的?”
指揮員:“很簡單,現(xiàn)在敵方明顯是想要···.”
機器:“您怎么看出來的?”
指揮員:“你看他派出的兵力···,還有它的隊形···,一般這種情況下他都是想要···,而我剛才下達···的指令,就是要通過···,讓他的計劃化為泡影.”
機器:“我能否理解為:只要對手采用了這種兵力構(gòu)成和隊形,就代表它想采取這種戰(zhàn)法,作為應(yīng)對,我方就應(yīng)該采取您剛才的那些行動?”
指揮員“不是的,你還要考慮···.”
通過這種多輪對話,能夠逐漸引導(dǎo)指揮員將他的知識表達清楚,在積累具體問題知識的同時,也在完善指揮員自身的知識構(gòu)成,引發(fā)其更深入的思考.
實現(xiàn)具體問題知識的積累,涉及到諸多關(guān)鍵技術(shù)需要研究,例如人機對話、個性學(xué)習(xí)、場景建模、知識抽取、知識模板提煉等,在此基礎(chǔ)上,機器在采集大量具體問題知識之后,能否像人一樣從中提煉出共性的知識,建立更大范圍內(nèi)通用的知識模板,從而以一種自底向上的方式逐漸提煉出一套知識體系,也是一個探索的方向.這其中還涉及到知識關(guān)聯(lián)、知識融合等方面的關(guān)鍵技術(shù)需要研究.
如前所述,智能博弈技術(shù)難以應(yīng)用于作戰(zhàn)指揮決策領(lǐng)域,一個重要原因在于真實作戰(zhàn)的高復(fù)雜度.從“深藍”的窮舉式暴力搜索,到“AlphaGo”的深度強化學(xué)習(xí)引導(dǎo)下的蒙特卡洛樹搜索,搜索方法出現(xiàn)了本質(zhì)區(qū)別,因此勝任的復(fù)雜度也出現(xiàn)了指數(shù)級增長,但歸根結(jié)底,它們用的都是搜索的方法,只是后者的搜索相對“聰明”一些,是有導(dǎo)向性的搜索,其建立這種導(dǎo)向性模型的方法是深度強化學(xué)習(xí),作戰(zhàn)指揮相比圍棋和星際爭霸而言,復(fù)雜度又出現(xiàn)了指數(shù)級增長,尤其在戰(zhàn)役級以上,純靠深度強化學(xué)習(xí)的方式建立導(dǎo)向性模型的難度太大.
另一個問題,是智能博弈訓(xùn)練出來的AI,如何與指揮員共存、共生、共同協(xié)作.深度強化學(xué)習(xí)+蒙特卡洛樹搜索給出的結(jié)果,可作為一個參考,但無法將其分析過程解剖出來讓指揮員理解,只能用人機對抗的勝率證明其結(jié)果的最優(yōu)性,不具備充分的說服力,而指揮員的思路又無法加入到機器搜索的過程中去,機器只相信自己學(xué)習(xí)建立的導(dǎo)向性模型,例如指揮員說:“這場仗我覺得該這么打:先派個小股力量引誘他的主力部隊跑到這里,立即開干擾致盲,利用這個短暫的契機,我方先頭部隊···去打掉它的那幾個后援,對它形成包圍,然后再全力出擊···,但是具體多少兵力夠用、打擊陣位設(shè)在哪里最好、什么時機最適合動手,你幫我探索一下,” 但是目前的智能博弈技術(shù)做不到這一點,現(xiàn)有的仿真系統(tǒng)可以支持用戶設(shè)定一些參數(shù),進行蒙特卡洛式仿真,但其行動計劃是固定的,一旦情況變化,機器仍會按照預(yù)定計劃行動,無法做到靈活應(yīng)變.
針對上述問題,一種解決方案就是混合智能博弈學(xué)習(xí),首先,是讓機器接受指揮員的指導(dǎo),指揮員都是接受過專業(yè)訓(xùn)練的,對于“這場仗該怎么打”有他自己的思考,對于機器而言,這種思考也可以認為是一種具體問題知識,但是指揮員的思考通常是比較宏觀的、整體性的行動策略,通常不會考慮到每一個細節(jié),除了非常關(guān)鍵的行動外,指揮員通常對細節(jié)不會做過多的限定,從人機共生的角度,最好能讓機器遵循指揮員設(shè)計的行動策略;從機器自主探索試錯的角度,指揮員設(shè)計的行動策略恰好為其限定了搜索空間,如同一個框架,避免了其漫無目的的搜索;而從指揮員的角度,細節(jié)問題恰恰不是他最關(guān)心的,同時又是機器探索試錯最擅長的,指揮員完全可以放手讓機器去試.
在指揮員行動策略框架的指導(dǎo)下,機器通過深度強化學(xué)習(xí)+蒙特卡洛樹搜索的方式進行局部范圍的自主探索試錯,可以幫助指揮員確定一些細節(jié)的最佳設(shè)定,比如執(zhí)行誘敵戰(zhàn)術(shù)的最佳兵力構(gòu)成、最佳出動時機、最佳陣位設(shè)置等,從而將指揮員設(shè)計的戰(zhàn)術(shù)效果發(fā)揮到極致,通過集成經(jīng)強化學(xué)習(xí)訓(xùn)練的戰(zhàn)術(shù)層智能算法,可以讓機器具備一些基本的應(yīng)變能力,能夠像士兵一樣應(yīng)對各種變化,通過大量探索試錯的統(tǒng)計數(shù)據(jù)分析,機器還可以告訴指揮員為什么這些設(shè)置是最佳的,它們對勝率、收益、代價、風險等性能是如何起到提升作用的,從而讓指揮員相信機器的建議.
這是將指揮員的藝術(shù)與機器的算力相結(jié)合的一種可能途徑,能夠形成優(yōu)勢互補,同時也能拉近指揮員和機器之間的距離,指揮員的行動策略框架對機器而言是一種可供學(xué)習(xí)的具體問題知識,而機器通過探索試錯發(fā)現(xiàn)的最佳細節(jié)設(shè)定,對指揮員而言也是一種寶貴經(jīng)驗,在指揮員與機器的長期磨合中,他們之間相互學(xué)習(xí)、相互提升,形成人機共生、共成長.
以上提出的是一種人機協(xié)作式的博弈對抗探索模式,要實現(xiàn)這種模式,涉及到諸多關(guān)鍵技術(shù)需要研究.例如,指揮員行動策略框架如何形式化表征建模,機器如何在策略框架限定范圍內(nèi)開展自主探索試錯,如何基于海量探索推演樣本數(shù)據(jù)對方案的效能進行可視化分析,以及如何實現(xiàn)人與機器在共同的探索中互相學(xué)習(xí)等.
基于對傳統(tǒng)方法和新興技術(shù)在發(fā)展指揮智能化方面的優(yōu)缺點分析,借鑒人類學(xué)習(xí)過程中常見的學(xué)習(xí)方式,提出基于混合智能的“學(xué)徒式教育”模式,并從知識學(xué)習(xí)、博弈學(xué)習(xí)兩條技術(shù)路線,分別提出了混合智能學(xué)習(xí)的思路,指出了其中需要研究突破的關(guān)鍵技術(shù),作為當下一段時間內(nèi)“培育”作戰(zhàn)指揮智能的一種可行途徑,具有一定參考意義.