国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

AlphaGo技術(shù)原理分析及人工智能軍事應(yīng)用展望

2016-11-02 01:51陶九陽吳琳胡曉峰
指揮與控制學(xué)報 2016年2期
關(guān)鍵詞:落子蒙特卡洛盤面

陶九陽 吳琳 胡曉峰

1.國防大學(xué)信息作戰(zhàn)與指揮訓(xùn)練教研部北京100091 2.解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院江蘇南京210007

圍棋被譽為人類最后的智慧高地,一直是檢驗人工智能發(fā)展水平的重要標(biāo)志之一.圍棋復(fù)雜的盤面局勢評估和巨大的狀態(tài)搜索空間,成為學(xué)者們面臨的巨大障礙.僅僅依賴常規(guī)的知識推理和啟發(fā)式搜索[1]策略,會有極高的計算復(fù)雜度.2016年AlphaGo[2]圍棋人工智能的突破,反映出最近興起的深度學(xué)習(xí)等人工智能技術(shù)解決圍棋這類完美信息博弈問題的優(yōu)異性能.以深度學(xué)習(xí)為代表的人工智能技術(shù)的快速發(fā)展,使得人工智能逐漸具備了分層抽象及知識表達的自動化,極大降低了搜索的復(fù)雜度,為人工智能解決圍棋問題提供了關(guān)鍵技術(shù)基礎(chǔ).

AlphaGo是谷歌公司旗下DeepMind公司研發(fā)的圍棋人工智能程序.其分布式版本構(gòu)建于1920個CPU和280個GPU之上,它綜合運用了深度學(xué)習(xí)和蒙特卡洛樹搜索算法,2015年以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾[2],2016年又以4:1戰(zhàn)勝世界圍棋冠軍李世石.從技術(shù)上看,AlphaGo與1997年轟動一時的國際象棋“深藍(lán)”具有本質(zhì)的不同.“深藍(lán)”依賴計算能力對所有狀態(tài)空間進行窮盡式暴力搜索,是用確定性算法求解復(fù)雜問題,體現(xiàn)的是一種“機器思維”.而AlphaGo依靠深度學(xué)習(xí)的方法,建模了人類的“直覺”棋感和大局觀,通過增強學(xué)習(xí)的方法,擁有了自主學(xué)習(xí)、自我進化的能力.它運用蒙特卡洛樹搜索隨機算法將深度神經(jīng)網(wǎng)絡(luò)進行融合,最終具備了在“直覺”基礎(chǔ)上的“深思熟慮”,而這正是一種典型的“人類思維”處理復(fù)雜問題的方式.這為解決復(fù)雜決策智能的問題提供了一種工程技術(shù)框架[3].

以AlphaGo為代表和標(biāo)志的技術(shù)突破,預(yù)示著一種具有直覺、認(rèn)知和自我進化能力的新的人工智能時代的到來,也預(yù)示著智能化戰(zhàn)爭時代可能即將到來.這不僅給工業(yè)界帶來巨大的震動,也為人工智能的軍事應(yīng)用打開了進入快車道的大門.對AlphaGo技術(shù)原理進行深入剖析,研究其智能化方法框架,預(yù)見人工智能技術(shù)的軍事應(yīng)用,可以為解決復(fù)雜戰(zhàn)爭問題,儲備必要的理論與技術(shù)基礎(chǔ)并指明方向.

1 AlphaGo技術(shù)原理分析

1.1 “深藍(lán)”工作原理

1997年戰(zhàn)勝國際象棋大師卡斯帕羅夫的“深藍(lán)”,主要技術(shù)原理是運用局勢評估函數(shù)和α?β剪枝搜索算法對象棋的狀態(tài)空間進行窮舉搜索[4].“深藍(lán)”根據(jù)棋盤上的狀態(tài)來評估當(dāng)前的局勢,其盤面狀態(tài)s(t)由每個棋子的重要程度、所處位置、可以影響的范圍、王的安全系數(shù)、先手/后手等變量組成,對當(dāng)前盤面狀態(tài)s(t)進行評估的函數(shù)的定義為局勢評估函數(shù)v:s(t)→R,局勢評估函數(shù)值表示對當(dāng)前狀態(tài)形勢好壞的一個判斷.利用局勢評估函數(shù)和當(dāng)前所處的狀態(tài),“深藍(lán)”可以建立一棵博弈樹,如圖1所示,博弈樹[5]的節(jié)點表示博弈一方所處的狀態(tài)1部分參考書中將博弈樹的結(jié)點定義為結(jié)(node),表示的是采取行動的時點.,博弈樹的邊表示可采取的策略,節(jié)點的特征值取值為博弈一方的局勢評估函數(shù)值.博弈樹自根節(jié)點向葉節(jié)點移動推進的過程,描述了博弈雙方交替選擇策略(行動)并獲得相應(yīng)收益的過程.“深藍(lán)”運用α?β剪枝算法,通過對博弈樹上策略(行動)的搜索來尋找最優(yōu)策略.

α剪枝和β剪枝互為對偶問題,這里以α剪枝為例說明其基本原理:假設(shè)“深藍(lán)”當(dāng)前處于博弈樹的A點,那么深藍(lán)希望得到的是A點的最大局勢值.象棋是一個零和博弈,一方贏另一方必然輸.圖1中,下一步卡斯帕羅夫?qū)M入B點或者C點.深藍(lán)為了獲得保底的收益,由此,需要采用“極小化極大策略”,即在最小的B和C里面找一個最大的.于是可以得到選擇判斷用的公式(1):

由于在C節(jié)點作極小化極大運算有min(max(D,E,F)≤15,而對B節(jié)點作極小化極大運算所得結(jié)果等于21,所以在A節(jié)點處有v(A)=max(min(B,C))=v(B)=21.此時不需要計算C的局勢值也可知道A的局勢值,相當(dāng)于可以將博弈樹的C枝剪掉.

通過上面的步驟可以看到,“深藍(lán)”所使用的α?β剪枝搜索算法是一種最大化最小搜索算法,是一種非常保守的搜索策略.這種策略的優(yōu)勢是非常穩(wěn)健,這可能是“深藍(lán)”和卡斯帕羅夫的對弈中出現(xiàn)平局較多的主要原因.α?β剪枝搜索算法是對最大化最小基本搜索的一種改進,它的算法效率高低與節(jié)點的排列順序高度相關(guān).

1.2 AlphaGo建模原理和基本組成

“深藍(lán)”在國際象棋中所采用的技術(shù)并不能直接復(fù)制到圍棋領(lǐng)域,原因在于圍棋的狀態(tài)空間比象棋大得多.無論是圍棋還是象棋,人工智能落子的選擇主要依賴于對狀態(tài)空間的搜索,象棋每一步搜索的寬度大概是30,搜索的深度大概是80,整個搜索空間大約為1050.而圍棋搜索的寬度大概是250,深度大概150,搜索空間在10170以上.由于搜索空間太大,計算機難以處理,只依賴評估函數(shù)和α?β剪枝搜索算法無法在有限的時間窮盡所有狀態(tài),因此,難以使用.

觀察可知,人類棋手并不像“深藍(lán)”那樣對全部策略空間進行暴力搜索,而是先通過宏觀的“勢”,或者是所謂的“棋感”選出幾個感覺上比較好的落子方案,再對每個方案進行“深思熟慮”的多步推演,然后比較得出最好的落子位置.人類棋手憑經(jīng)驗和“直覺”確定候選方案,是在降低搜索的“寬度”,一些明顯不好的落子方案不再進行深入的搜索.人類棋手的“深思熟慮”也不是推演到棋局的最后一步,往往是推演幾步最多十幾步后就對盤面進行綜合評估判斷局勢好壞.這種綜合評估,降低了搜索的“深度”.對于人類棋手而言,無論是落子“直覺”還是盤面綜合評估,主要依賴棋手的經(jīng)驗來選點,推演只是輔助手段.AlphaGo充分借鑒了人類棋手的下棋模式,用策略網(wǎng)絡(luò)(Policy network)來模擬人類的“棋感”,用價值網(wǎng)絡(luò)(Value network)來模擬人類對盤面的綜合評估,同時,運用蒙特卡洛樹搜索將策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)融合起來,來模擬人類棋手“深思熟慮”的搜索過程.

圖1 α?β剪枝算法示意圖

AlphaGo由策略網(wǎng)絡(luò)(Policy network)和價值網(wǎng)絡(luò)(Value network)組成[2],如圖2所示.策略網(wǎng)絡(luò)又分為有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)(SL policy network)、快速走子策略(Rollout policy)和增強學(xué)習(xí)策略網(wǎng)絡(luò)(RL policy network).

圖2 AlphaGo神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

1.3 AlphaGo策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)

有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)ρσ是一個13層的卷積神經(jīng)網(wǎng)絡(luò)[6?8],其主要功能是:輸入當(dāng)前的盤面特征參數(shù),輸出下一步的落子行動的概率分布p(a|s),判斷預(yù)測下一步落子位置,如圖2策略網(wǎng)絡(luò)所示.ρσ首先將圍棋盤面狀態(tài)s抽象為19×19的網(wǎng)格圖像,再人工抽取出48個盤面特征作為圖像的通道.ρσ的輸入就是19×19×48的圖像.ρσ訓(xùn)練樣本采用3千萬個人類圍棋棋手產(chǎn)生的盤面數(shù)據(jù)(s,a),用隨機梯度下降算法[9]進行訓(xùn)練調(diào)優(yōu).其中,ρσ的每個卷積層有192個卷積核,共包含約40萬個神經(jīng)元.網(wǎng)絡(luò)最后加了一個softmax層,能夠?qū)?biāo)簽映射為每個位置走子概率的概率分布p(a|s),∑ap(a|s)=1,其中s為當(dāng)前盤面,a表示下一步的行動,p(a|s)表示在當(dāng)前盤面s下,下一步采用行動a(或者叫在a處落子)的概率值.ρσ在使用中選擇概率值最大的a作為下一步采取的策略(行動).如果單純用ρσ,可以實現(xiàn)在測試集上以57%的準(zhǔn)確率預(yù)測圍棋大師下一步的落子位置.AlphaGo平均走子速度為3ms.

快速走子ρπ是一個線性模型,其主要功能與ρσ完全相同.模型的輸入是人工抽取的當(dāng)前盤面的十幾萬個特征模式(Feature of patterns),輸出是下一步的落子行動的概率分布p(a|s).快速走子可以看成是一個兩層的神經(jīng)網(wǎng)絡(luò),輸入層是十幾萬的特征模式,輸出層是通過softmax函數(shù)將輸入映射為一個概率分布:softmax:parterns→p(a|s).如果單純用快速走子,能夠在測試集上以24.2%的準(zhǔn)確率預(yù)測圍棋大師下一步的著法.平均走子速度為2μs.這比ρσ快1000多倍.

增強學(xué)習(xí)策略網(wǎng)絡(luò)ρρ是通過增強學(xué)習(xí)(Reinforcement learning)[10?11]的方法對 ρσ加強.ρρ的網(wǎng)絡(luò)結(jié)構(gòu)和功能與有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)ρσ完全相同,性能上強化了學(xué)習(xí).其增強學(xué)習(xí)的主要過程是:首先取 ρσ為第一代版本 ρσ1,讓 ρσ1與 ρσ1自對弈N局,產(chǎn)生出N個新的棋譜,再用新的棋譜訓(xùn)練ρσ1產(chǎn)生第二代版本 ρσ2,再讓 ρσ2與 ρσ1自對弈N局,訓(xùn)練產(chǎn)生第三代版本ρσ3,第i代版本隨機選取前面的版本進行自對弈,如此迭代訓(xùn)練n次后得到第n代版本ρσn=ρρ,這就產(chǎn)生了增強學(xué)習(xí)的策略網(wǎng)絡(luò)ρρ.AlphaGo增強學(xué)習(xí)自對弈共進行了3000萬局.用訓(xùn)練過的ρρ與Pachi圍棋軟件對戰(zhàn)能取得85%的勝率,而若用訓(xùn)練過的ρσ與Pachi圍棋軟件弈棋僅僅能取得11%的勝率.Pachi使用了蒙特卡洛樹搜索算法,是一個開源的圍棋弈棋程序.

價值網(wǎng)絡(luò)νθ是一個13層的卷積神經(jīng)網(wǎng)絡(luò),與策略網(wǎng)絡(luò)具有相同的結(jié)構(gòu).主要功能是:輸入當(dāng)前的盤面參數(shù),輸出下一步在棋盤某處落子時的估值,以此評價走子的優(yōu)劣.νθ利用人類棋手的16萬局對弈所拆分出的3000萬盤局面來訓(xùn)練,用測試集測試有0.37的均方誤差,而在訓(xùn)練集上只有0.19的均方誤差,顯然發(fā)生了過擬合.究其原因主要是3000萬盤面之間具有相關(guān)性.為了克服相關(guān)性帶來的過擬合,νθ從增強學(xué)習(xí)策略網(wǎng)絡(luò)ρρ產(chǎn)生的3000萬局對弈中抽取樣本,每一局中抽取一個盤面從而組成3000萬不相關(guān)的盤面作為訓(xùn)練樣本.最終在訓(xùn)練集上獲得0.226的均方誤差而在測試集上獲得0.234的均方誤差.

圖3 AlphaGo蒙特卡洛樹搜索算法

1.4 AlphaGo蒙特卡洛樹搜索算法

AlphaGo策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的主要作用是降低博弈樹的搜索寬度和搜索深度,通過剪枝來控制搜索空間的規(guī)模.但是要作出合適的決策,不僅需要依賴于搜索空間的降低,還需要采用合適的搜索算法.AlphaGo運用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS[12?13])算法來實現(xiàn)對博弈樹的搜索.MCTS算法的原理是:先隨機走子,然后再通過最終的輸贏來更新原先那些走子的價值.設(shè)定隨機走子的概率,與先前計算出的走子價值成正比.如此進行大量的隨機模擬,讓好的方案自動涌現(xiàn)出來.AlphaGo中MCTS算法的工作原理如圖3所示[2]:

圖3(a)中,當(dāng)處于“選擇”階段時,在當(dāng)前的盤面下,下一步要選擇Q+U(P)最大的分支走子.Q表示走子價值,價值越大越應(yīng)該往該分支走.仿真開始時,設(shè)置每個分支上的價值都相同,初始假設(shè)為0,蒙特卡洛樹搜索算法通過不斷地模擬來更新搜索樹每一個分支上的Q值,讓Q值大的分支涌現(xiàn)出來,而U(P)表示每條分支上的先驗知識,U(P)∝P(s,a)/(1+N(s,a)),其中P(s,a)= ρσ(s,a),是在當(dāng)前盤面下,通過策略網(wǎng)絡(luò)產(chǎn)生的每個分支上的先驗知識,N(s,a)表示蒙特卡洛仿真搜索分支(s,a)的次數(shù),它與U(P)成反比,以此來鼓勵探索新的分支,避免隨著搜索次數(shù)的增加算法過快停止搜索而產(chǎn)生過大誤差.在圖3(b)的“擴展”階段,MCTS樹搜索算法首先用策略網(wǎng)絡(luò)ρσ走L步(實際L取值為20),走到搜索樹盤面SL的節(jié)點.因為搜索樹有很多分支,所以SL是一個節(jié)點集合.用估值網(wǎng)絡(luò)νθ為每個SL進行估值得到νθ(sL).此時整個模擬并有結(jié)束,為了加快搜索速度,用快速走子模型ρπ以每個SL節(jié)點為起點走到底,在進入圖3(c)所示的“估值”階段,根據(jù)最終的輸贏情況給出評價值zL=r.最后對整個搜索進行回退更新Q值,進入圖3(d)所示的“回退”階段.這一階段,首先是根據(jù)ρπ評價值r和估值網(wǎng)絡(luò)νθ評價值νθ(sL)來計算sL的綜合值ν(sL):

式(2)中,λ為常數(shù),實驗檢驗發(fā)現(xiàn)取值0.5時效果最好.ν(sL)是 νθ(sL)與zL的加權(quán)平均.然后,用ν(sL)值更新Q值:

式(3)中,1(s,a,i)為布爾函數(shù)用來將遍歷到的分支選擇出來,如果第i次模擬遍歷到(s,a)分支則函數(shù)值為1,否則函數(shù)值為0.式(3)表示蒙特卡洛模擬了n次后的分支(s,a)的Q值.最終,第t步選擇的策略at由式(4)來計算:

式(4)表明,at由兩部分組成,一部分來自策略網(wǎng)絡(luò)的值U(st,a),另一部分來自蒙特卡洛樹搜索的Q(st,a).前者建模了人類的“棋感”,后者建模了人類在“棋感”基礎(chǔ)上的“深思熟慮”.因此,可以說AlphaGo通過蒙特卡洛樹搜索綜合了策略網(wǎng)絡(luò)的“棋感”和價值網(wǎng)絡(luò)的“深思熟慮”,具有典型的人類思維的特征.

2 人工智能軍事應(yīng)用展望

一般來說,按照作戰(zhàn)活動的不同,可以將戰(zhàn)爭空間劃分為物理域、信息域、認(rèn)知域和社會域4個交疊構(gòu)成的具有跨域特性的作戰(zhàn)域[14?15].隨著機器學(xué)習(xí)和人工智能的快速發(fā)展,以谷歌AlphaGo、微軟智能圖像識別、IBM沃森等為代表的人工智能技術(shù)必然會應(yīng)用于戰(zhàn)爭空間的各作戰(zhàn)域.美國國防部高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)作為美國先進科技的引領(lǐng)者,在人工智能領(lǐng)域正在和計劃開展大量研究項目.表1列出了人工智能技術(shù)在各個作戰(zhàn)域中的可能應(yīng)用情況以及DARPA開展項目的情況2本文列出的相關(guān)項目和計劃主要是從DARPA官方網(wǎng)站公布的近年項目資助預(yù)算書等資料中獲得,網(wǎng)址為:http://www.darpa.mil/.其他軍方研究機構(gòu)也有大量人工智能領(lǐng)域相關(guān)研究正在進行,本文未一一列出..

表1 人工智能技術(shù)在4個作戰(zhàn)域的應(yīng)用展望

物理域是各種軍事力量進行交戰(zhàn)、打擊、防護和機動的作戰(zhàn)域.人工智能技術(shù)在該域的應(yīng)用,必然導(dǎo)致大量智能化無人作戰(zhàn)平臺的出現(xiàn),如智能作戰(zhàn)機器人、無人駕駛汽車、無人船、無人機等.這些智能化的無人作戰(zhàn)平臺與當(dāng)前的無人系統(tǒng)將具有本質(zhì)性的區(qū)別,是一類具有思考決策能力的系統(tǒng),而不是簡單地應(yīng)對大致有限的既定環(huán)境.這必然導(dǎo)致打擊、機動和防護能力的全面提升.如DARPA正在研發(fā)的X戰(zhàn)車(GXV-T),依賴先進的人工智能技術(shù)具備更快行駛速度,超強偵察外部環(huán)境躲避敵方偵察的能力.

信息域是信息化戰(zhàn)爭對抗發(fā)生的主戰(zhàn)場,是信息產(chǎn)生、處理、共享與對抗發(fā)生的領(lǐng)域.長期以來,由于信息的處理共享等環(huán)節(jié)需要大量的人工操作,例如戰(zhàn)場偵察衛(wèi)星傳回的圖像、無人機偵察圖像、各類人員語音信息等非結(jié)構(gòu)化數(shù)據(jù)需要人工判讀,這直接導(dǎo)致信息的處理速度和利用效率極低,甚至可能使指揮員淹沒在“信息洪流”中.微軟的ImageNet圖像識別理解、科大訊飛的語音識別等人工智能技術(shù)的發(fā)展,使智能化處理非結(jié)構(gòu)化戰(zhàn)場數(shù)據(jù)越來越接近實戰(zhàn)要求,由此正在催生各類傳感器、數(shù)據(jù)處理器以及信息網(wǎng)絡(luò)的全面智能化,使得信息收集的范圍更為廣泛,信息處理的速度更快質(zhì)量更好.另外,信息域中的網(wǎng)電對抗,借助于人工智能技術(shù)將能夠?qū)崿F(xiàn)自主敏捷反應(yīng),如DARPA資助的“認(rèn)知電子戰(zhàn)”計劃使用最新的人工智能和機器學(xué)習(xí)方法,能夠自主識別對手的信號頻譜并作出反應(yīng).

認(rèn)知域和社會域是感知、認(rèn)知和決策產(chǎn)生的作戰(zhàn)域,智能態(tài)勢感知理解和自主決策是目前人工智能亟待解決的領(lǐng)域,是通向真正意義的智能化戰(zhàn)爭的關(guān)鍵一環(huán).由于戰(zhàn)場環(huán)境具有高度的復(fù)雜性和不確定性,長期以來,態(tài)勢理解及預(yù)測等認(rèn)知活動機器智能還無法勝任,主要依賴人工完成.現(xiàn)代化戰(zhàn)爭復(fù)雜程度越來越高,陸、海、空、天、電、網(wǎng)各維度態(tài)勢相互鉸鏈,單純依賴人工對態(tài)勢圖判讀來理解和預(yù)測態(tài)勢將會變得越來越困難.另外,由于戰(zhàn)爭內(nèi)在的復(fù)雜性,對手行為的高度不確定性,長期以來,輔助決策功能一直飽受詬病.為了解決這一問題,DARPA從2008年開始支持“深綠”計劃,試圖研究一種能夠嵌入美軍C4ISR系統(tǒng)的先進輔助決策模塊.“水晶球”和“閃電戰(zhàn)”是兩大核心模塊.水晶球負(fù)責(zé)生成和更新未來作戰(zhàn)可能的各個分支,即繪制和更新戰(zhàn)爭的博弈樹,而閃電戰(zhàn)模塊用來對每個分支進行模擬并給出交戰(zhàn)結(jié)果,即完成對博弈樹的剪枝和搜索,這與AlphaGo采用的方法極為類似.因此,AlphaGo的成功極有可能帶來這類智能軍事決策的突破,這也是AlphaGo技術(shù)最有借鑒意義之所在.在社會域上,共享感知和協(xié)同決策是實現(xiàn)聯(lián)合作戰(zhàn)行動的基礎(chǔ),是整合其他各作戰(zhàn)域智能作戰(zhàn)力量形成作戰(zhàn)體系的關(guān)鍵所在.DARPA正在大力發(fā)展的“人機協(xié)作”(“半人馬模式”)等計劃,其目標(biāo)就是實現(xiàn)將人與機深度融合為共生的有機整體,讓機器的精準(zhǔn)和人類的可塑性完美結(jié)合,利用機器的速度讓人類做出最佳判斷,以協(xié)助人類提升認(rèn)知速度和精度,快速作出決策并指揮無人系統(tǒng)協(xié)同行動.

3 人工智能對OODA循環(huán)的顛覆性影響分析

人工智能應(yīng)用于戰(zhàn)爭領(lǐng)域,必將帶來一次新的軍事革命.美軍2014年提出的“第三次抵消戰(zhàn)略”,就是以人工智能技術(shù)為核心,綜合生物、信息、空間、網(wǎng)電等技術(shù)領(lǐng)域發(fā)展能夠“改變未來戰(zhàn)局”的顛覆性技術(shù)群,來形成相較于對手的絕對軍事優(yōu)勢.分析人工智能對作戰(zhàn)活動的影響可以發(fā)現(xiàn),其最主要的優(yōu)勢:一是增強作戰(zhàn)行動的敏捷性,二是提高作戰(zhàn)行動的力量.

通常,作戰(zhàn)過程可以由OODA循環(huán)來描述,人工智能在物理域、信息域、認(rèn)知域和社會域的運用,能夠顯著影響交戰(zhàn)各方的OODA循環(huán)來改變戰(zhàn)爭的進程.OODA循環(huán)理論認(rèn)為作戰(zhàn)過程是“觀察、判斷、決策、行動”的不斷循環(huán)、往復(fù)過程[16].戰(zhàn)爭的作戰(zhàn)雙方是一種對抗行為,其各自的OODA循環(huán)過程都受對手的作戰(zhàn)行動的影響.戰(zhàn)爭雙方的OODA環(huán)就像兩個耦合在一起的“齒輪”,如圖4所示.

圖4 紅藍(lán)雙方相互耦合的OODA環(huán)示意圖

戰(zhàn)爭規(guī)律告訴我們,掌握戰(zhàn)爭主動權(quán)往往能夠贏得戰(zhàn)爭勝利,被動就會處于不利地位.所以戰(zhàn)爭可以看成是沖突雙方較量誰能更快更好地完成OODA循環(huán)的過程,是爭奪“主動輪”位置的過程.在這個耦合的OODA“齒輪”系統(tǒng)中,“主動輪”的位置通常由兩個因素決定,一個是“齒輪”的轉(zhuǎn)速,即OODA循環(huán)完成的速度,另一個是“齒輪”的轉(zhuǎn)動力量,即OODA完成的質(zhì)量,如打擊效果等.通過前面分析可以看出,一方面,認(rèn)知人工智能的進步和應(yīng)用會大大提高感知和決策的質(zhì)量和速度(如美軍大力發(fā)展的“深綠”計劃),使得OODA循環(huán)的每一個環(huán)節(jié)都會加速,從而使“齒輪”轉(zhuǎn)速提高而產(chǎn)生敏捷性優(yōu)勢[17];另一方面,無人作戰(zhàn)力量(如機器人、無人機等)自身所具有的速度和力量,會提高打擊行動的精度、力量和強度(如超高速智能無人機能夠更快更精準(zhǔn)地實施打擊),無人和有人系統(tǒng)的有機融合也會大大提升作戰(zhàn)效能,使得OODA的行動(A)環(huán)節(jié)更有力,能夠克服更大的戰(zhàn)爭阻力.一旦一方OODA循環(huán)的速度大大快于對手,就會使對方無法跟上戰(zhàn)爭節(jié)奏而導(dǎo)致系統(tǒng)崩潰.例如在交戰(zhàn)過程中OODA循環(huán)顯著慢的一方可能陷入反復(fù)的“觀察(O)”、“判斷(O)”或機械的跟隨“行動(A)”過程中,而不能完成完整的OODA循環(huán),被對方牽著走,從而失去戰(zhàn)爭主動權(quán).另外,一方打擊力量遠(yuǎn)遠(yuǎn)弱于對手,即使OODA循環(huán)的速度再快,也難以調(diào)動對手跟隨,只有OODA環(huán)的力量足夠強大才能帶動整個戰(zhàn)爭系統(tǒng)按照自己的節(jié)奏運行,掌握戰(zhàn)爭主動權(quán).

4 結(jié)論

本文分析了AlphaGo的技術(shù)原理,并展望了人工智能在軍事領(lǐng)域的應(yīng)用.雖然AlphaGo在圍棋人工智能方面取得了突破性進展,但圍棋畢竟是一種完美信息博弈,而戰(zhàn)爭是不完美信息博弈,其狀態(tài)空間規(guī)模和復(fù)雜性都遠(yuǎn)遠(yuǎn)超過圍棋.因此,應(yīng)該看到人工智能在復(fù)雜軍事領(lǐng)域中的應(yīng)用尚處于起步階段,前路依然充滿挑戰(zhàn).我們認(rèn)為,戰(zhàn)場態(tài)勢感知智能化是首先需要解決的一個挑戰(zhàn),是解決其他復(fù)雜軍事問題的起點.因此,借鑒AlphaGo的技術(shù)原理和實現(xiàn)框架,研究面向戰(zhàn)場態(tài)勢感知理解和自主決策的戰(zhàn)場態(tài)勢特征提取方法和深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建方式,獲取、組織和運用態(tài)勢數(shù)據(jù)來訓(xùn)練智能感知深度神經(jīng)網(wǎng)絡(luò),是目前亟需開展的工作.

猜你喜歡
落子蒙特卡洛盤面
面向納米尺度金屬互連線的蒙特卡洛模擬方法研究
征服蒙特卡洛賽道
琴(外一首)
銀行理財子公司“落子”布局
基于蒙特卡洛法的車用蓄電池20h率實際容量測量不確定度評定
落子山東,意在全局
落子滄州
數(shù)獨競猜
數(shù)獨競猜
試論棋例裁決難點——無關(guān)聯(lián)①