唐川 陶業(yè)榮 麻曰亮
摘 要: 近幾年,計(jì)算機(jī)圍棋成功引發(fā)了又一輪的人工智能熱潮,從計(jì)算機(jī)圍棋中發(fā)展出來的AlphaZero框架成功地應(yīng)用在其他完全信息條件下的二人有限零和博弈問題,進(jìn)而展示出了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在智能決策領(lǐng)域的優(yōu)異性能。本文首先介紹了AlphaZero框架中三個(gè)核心技術(shù): 深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及蒙特卡羅樹搜索,然后詳細(xì)說明了AlphaZero框架兩個(gè)關(guān)鍵階段——AlphaGo和AlphaGo Zero的基本原理,最后,對(duì)AlphaZero框架提出了自己的思考,并基于對(duì)AlphaZero原理的剖析討論了其對(duì)軍事決策智能化的啟示。
關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);蒙特卡羅樹搜索;AlphaZero;軍事決策智能化;人工智能
中圖分類號(hào):TJ760; TP242.6 文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào):1673-5048(2020)03-0027-10
0 引言
象棋、圍棋、日本將棋等棋類博弈游戲一直是人工智能關(guān)注和研究的熱門領(lǐng)域,一般將其抽象為完全信息條件下的二人有限零和博弈模型,該模型的含義是指在任意時(shí)刻,雙方玩家(“二人”)都知道游戲的全部狀態(tài)(“完全信息”),并且有限步(“有限”)之后游戲的結(jié)果非勝即負(fù)(“零和”),至多加上平局。雙方在游戲中對(duì)抗(“博弈”),目的是自己獲得盡可能好的結(jié)果。1997年發(fā)布的國際象棋人工智能“深藍(lán)”轟動(dòng)一時(shí),其依賴強(qiáng)大的計(jì)算能力對(duì)國際象棋的所有狀態(tài)空間進(jìn)行窮盡式暴力搜索,用確定性算法求解國際象棋的復(fù)雜決策問題,體現(xiàn)了一種“機(jī)器思維”,然而這一方法并不能適用于圍棋。圍棋復(fù)雜的盤面局勢(shì)評(píng)估和巨大的狀態(tài)搜索空間,成為學(xué)界面臨的巨大挑戰(zhàn)。國際象棋每一步可供選擇的走法平均為35種(即空間搜索寬度約為35),每盤棋平均需要80步?jīng)Q出勝負(fù)(即空間搜索深度約為80),所以如果要遍歷完整下棋過程,整個(gè)搜索空間大約為3580;而對(duì)于圍棋,其搜索寬度平均為250,搜索深度平均為150,整個(gè)搜索空間為250150,超過了可觀測(cè)宇宙中的原子數(shù)目,因此無法采用暴力搜索方式。
為實(shí)現(xiàn)高智能的計(jì)算機(jī)圍棋,早期的研究通過專家系統(tǒng)和模糊匹配來控制搜索空間規(guī)模,但一方面算法效果一般,此外當(dāng)時(shí)的計(jì)算資源和硬件能力也捉襟見肘,所以效果并不明顯。2006年,蒙特卡羅樹搜索(MCTS)的應(yīng)用引領(lǐng)著計(jì)算機(jī)圍棋進(jìn)入了新的階段[1]。
2015年,F(xiàn)acebook人工智能研究院的Tian Y D結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)和蒙特卡羅樹搜索開發(fā)出
的計(jì)算機(jī)圍棋Dark Forest,表現(xiàn)出了與人類相似的下棋風(fēng)格和驚人的實(shí)力[2]。2016年,基于深度強(qiáng)化學(xué)習(xí)和蒙特卡羅樹搜索的AlphaGo擊敗了人類頂尖職業(yè)棋手,引起了全世界的關(guān)注[3]。2017年,Deep Mind在《Nature》上介紹了迄今為止最強(qiáng)的圍棋人工智能AlphaGo Zero[4]。AlphaGo Zero不需要人類專家知識(shí),只使用純粹的深度強(qiáng)化學(xué)習(xí)技術(shù)和蒙特卡羅樹搜索,經(jīng)過3天自我對(duì)弈就以100比0的成績(jī)完敗了AlphaGo。AlphaGo Zero證明了深度強(qiáng)化學(xué)習(xí)的強(qiáng)大能力,也推動(dòng)了人工智能領(lǐng)域的進(jìn)一步發(fā)展。2017年底,Deep Mind
使用類似AlphaGo Zero的算法框架解決了諸多困難的棋類問題,證明其用于大多人類可以掌控玩法的棋類,乃至適用于所有完全信息條件下的二人有限零和博弈問題,并將這一框架命名為AlphaZero。
以AlphaZero為標(biāo)志的技術(shù)突破,預(yù)示著一種具有直覺、認(rèn)知和自我進(jìn)化能力的新的人工智能時(shí)代的到來,也預(yù)示著智能化決策、智能化武器裝備的發(fā)展以及智能化戰(zhàn)爭(zhēng)的到來。針對(duì)AlphaZero智能化方法框架的研究可以啟發(fā)人工智能在智能指揮決策、智能化武器裝備等軍事領(lǐng)域的應(yīng)用,為解決復(fù)雜軍事指揮和智能決策問題指明方向[5-8]。 本文將對(duì)AlphaZero框架的兩個(gè)主要發(fā)展階段AlphaGo和AlphaGo Zero的技術(shù)原理進(jìn)行深入剖析,并以通俗易懂的類比方式進(jìn)行說明,最后基于對(duì)Alpha-Zero的剖析,談?wù)剬?duì)于AlphaZero以及軍事決策智能化的思考與啟示。
1 核心技術(shù)
1.1 深度學(xué)習(xí)
深度學(xué)習(xí)起源于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),是基于深度神經(jīng)網(wǎng)絡(luò)的一種學(xué)習(xí)方法,是機(jī)器學(xué)習(xí)的一個(gè)特定分支。它通過建立多個(gè)隱含層模擬人腦分析學(xué)習(xí)的機(jī)制,吸收大量數(shù)據(jù)的經(jīng)驗(yàn)建立規(guī)則(網(wǎng)絡(luò)參數(shù)),實(shí)現(xiàn)特征的自主學(xué)習(xí)[9],主要適用于無法編制程序、需求經(jīng)常改變、有大量數(shù)據(jù)且無需精確求解的一類問題。深度神經(jīng)網(wǎng)絡(luò)組成主要包括輸入、神經(jīng)元單元、神經(jīng)網(wǎng)絡(luò)、成本函數(shù)和算法。
深度學(xué)習(xí)能夠從原始數(shù)據(jù)中逐層提煉出更高級(jí)更抽象的特征屬性,每層神經(jīng)元的處理機(jī)制可看作是在對(duì)輸入信號(hào)進(jìn)行逐層加工,從而把初始的、與輸出目標(biāo)之間聯(lián)系不太密切的輸入表示轉(zhuǎn)化成與輸出目標(biāo)聯(lián)系更密切的表示,使得傳統(tǒng)神經(jīng)網(wǎng)絡(luò)僅基于最后一層輸出映射難以完成的任務(wù)成為可能[10]。換言之,通過多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,即可用“簡(jiǎn)單模型”完成復(fù)雜的學(xué)習(xí)任務(wù),而且網(wǎng)絡(luò)層數(shù)越多,意味著能夠提取到的特征越豐富,越抽象,越具有語義特征。
1.2 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)又叫做增強(qiáng)學(xué)習(xí),是近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的主要方法之一,它關(guān)注的是智能體如何在目標(biāo)環(huán)境中采取一系列行為從而獲得最大的價(jià)值回報(bào)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)非常活躍且有趣的領(lǐng)域,相比其他學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì),因此有望獲得更高的智能,這一點(diǎn)在棋類游戲中已經(jīng)得到體現(xiàn)。
更抽象地,可以對(duì)強(qiáng)化學(xué)習(xí)所要解決的問題進(jìn)行如下描述: 在目標(biāo)環(huán)境(E)中存在多種狀態(tài)(S,狀態(tài)空間集合)階段,通過行動(dòng)(A,動(dòng)作空間集合)可以使得狀態(tài)發(fā)生轉(zhuǎn)移(P,狀態(tài)轉(zhuǎn)移的條件概率矩陣),狀態(tài)的變遷會(huì)帶來獎(jiǎng)勵(lì)(R,價(jià)值函數(shù)),而目標(biāo)就是學(xué)得一種策略(π)使獎(jiǎng)勵(lì)最大化[11]。因此強(qiáng)化學(xué)習(xí)中的目標(biāo)環(huán)境對(duì)應(yīng)一個(gè)四元組E=,目標(biāo)就是學(xué)會(huì)策略π。策略π可以表示成一個(gè)函數(shù),如果π屬于確定性策略,其可以表示為π: S→A,即輸入當(dāng)前狀態(tài)s∈S策略π輸出自己建議的動(dòng)作a∈A;如果π屬于概率性策略,其可以表示為S×A→R,即已知當(dāng)前狀態(tài)s∈S時(shí),策略輸出采用動(dòng)作a∈A的可能性是多少(通常是0~1的實(shí)數(shù))。
通常情況,根據(jù)環(huán)境四元組E=是否完全已知,強(qiáng)化學(xué)習(xí)可分為有模型學(xué)習(xí)和免模型學(xué)習(xí)。
有模型學(xué)習(xí)表示四元組E=已知,即機(jī)器可以對(duì)環(huán)境進(jìn)行完整建模,能在機(jī)器內(nèi)部模擬出與環(huán)境相同或近似的狀況,可通過模擬推算出來不同策略帶來的價(jià)值回報(bào),通過不斷的模擬計(jì)算,總能找出一個(gè)或多個(gè)最優(yōu)的策略來得到最大的回報(bào),因此在模型已知時(shí),強(qiáng)化學(xué)習(xí)任務(wù)能夠歸結(jié)為基于動(dòng)態(tài)規(guī)劃的尋優(yōu)問題。
在實(shí)際的強(qiáng)化學(xué)習(xí)任務(wù)中,環(huán)境中狀態(tài)的轉(zhuǎn)移概率P、價(jià)值函數(shù)R通常很難得到,甚至很難知道環(huán)境中一共有多少狀態(tài), 因此將學(xué)習(xí)算法不依賴于環(huán)境建模的方法稱為免模型學(xué)習(xí),這比有模型學(xué)習(xí)更困難也更實(shí)用。由于模型未知,無法通過計(jì)算的方式得到準(zhǔn)確的最終獎(jiǎng)勵(lì), 因此只能通過在環(huán)境中執(zhí)行選擇的動(dòng)作來觀察狀態(tài)的轉(zhuǎn)移情況以及得到的獎(jiǎng)勵(lì),并利用蒙特卡羅思想,用多次“采樣”的平均值來近似表示實(shí)際的價(jià)值函數(shù),同時(shí)在多次“采樣”過程中,發(fā)現(xiàn)存在的狀態(tài)集合和狀態(tài)之間的轉(zhuǎn)移關(guān)系。換言之,通過不斷的嘗試,去近似估計(jì)未知參數(shù),然后再通過對(duì)不同策略的嘗試與評(píng)估,總結(jié)歸納并優(yōu)化策略。
然而在實(shí)際任務(wù)處理過程中,由于資源、實(shí)時(shí)性、處理能力等方面的限制,“嘗試”的機(jī)會(huì)往往是有限的,在這有限的嘗試中,既需要通過探索去發(fā)現(xiàn)更多的選擇并提高參數(shù)估計(jì)的準(zhǔn)確性,另一方面還希望利用現(xiàn)有的最佳策略盡可能得到更多的獎(jiǎng)勵(lì)(類似于有限次數(shù)多搖臂老虎機(jī)賭博問題),因此,如何在探索和利用之間進(jìn)行權(quán)衡是強(qiáng)化學(xué)習(xí)的一個(gè)關(guān)鍵任務(wù)??梢钥闯觯剿鞯倪^程就是一個(gè)“試錯(cuò)”的過程,如果機(jī)器有一定的經(jīng)驗(yàn),可以有選擇性地探索,加快探索效率;如果機(jī)器沒有任何經(jīng)驗(yàn),也可以從隨機(jī)開始,在不斷試錯(cuò)的過程中成長,基于成長后的策略進(jìn)行選擇性的探索同樣可以加快探索效率。所以強(qiáng)化學(xué)習(xí)可以不依賴任何人類知識(shí)而學(xué)習(xí)到目標(biāo)知識(shí),類似于人類探索未知事物的學(xué)習(xí)方式。
1.3 蒙特卡羅樹搜索
蒙特卡羅樹搜索(Monte Carlo Tree Search),一種通過隨機(jī)游戲推演來逐漸建立一棵不對(duì)稱搜索樹的過程,它是人工智能領(lǐng)域中尋找最優(yōu)決策的一種方法。
蒙特卡羅樹搜索采用樹狀結(jié)構(gòu)表征圍棋博弈問題,初始階段棋盤為空,這構(gòu)成博弈樹的根節(jié)點(diǎn),此時(shí)可以選擇的動(dòng)作有361種,因此根節(jié)點(diǎn)就有361個(gè)分支,隨機(jī)選擇一個(gè)分支,并以此類推可以使得分支逐步生長,直到終結(jié)點(diǎn)(Terminal Node)游戲結(jié)束,這一過程就是一次遍歷過程。如果通過足夠多次的嘗試將每一個(gè)節(jié)點(diǎn)都遍歷到,就能生長出一棵完整的博弈樹?;谶@棵完整的博弈樹,可以在任何狀態(tài)下規(guī)劃下一步的最優(yōu)決策以走向勝利(在完整決策樹已知的情況下,博弈游戲的勝負(fù)完全由猜先決定,即先手必勝或先手必?cái)。?/p>
若假設(shè)完整的博弈樹已知,接下來就要規(guī)劃下棋的策略。在規(guī)劃的過程中,每一狀態(tài)的動(dòng)作選擇依賴于對(duì)動(dòng)作的價(jià)值評(píng)估或者說勝負(fù)評(píng)估,不僅要規(guī)劃自己的策略,同時(shí)還要考慮對(duì)手的決策。在規(guī)劃過程中,不確定對(duì)手的決策能力,但為了使決策規(guī)劃更具實(shí)用性,只能假定對(duì)手會(huì)全力追求勝利,因此,規(guī)劃的過程是一個(gè)基于價(jià)值評(píng)估的極小極大交替選擇過程,也可以說是價(jià)值評(píng)估的傳遞過程[12]。
然而,這一過程的探索規(guī)模隨搜索寬度和深度的增加成指數(shù)速度擴(kuò)大,對(duì)于圍棋這樣的游戲,遍歷得到整個(gè)博弈樹是不現(xiàn)實(shí)的。人類棋手并不會(huì)對(duì)全部空間進(jìn)行暴力搜索,而是基于棋感對(duì)少數(shù)候選方案進(jìn)行一定步數(shù)的推演決策,顯著降低搜索寬度和深度。
因此,在大空間博弈問題中,設(shè)計(jì)者往往采用低復(fù)雜度搜索算法,如蒙特卡羅樹搜索算法。蒙特卡羅樹搜索減少了搜索的寬度和深度,并在有限的遍歷過程中,尋找到最有潛力的下一步行動(dòng),即形成決策。其主要思想是: 在寬度方面,通過一定次數(shù)的遍歷后,部分分支會(huì)表現(xiàn)出更高的勝率,將有限的遍歷集中在這類更有潛力的分支上,以減少搜索的寬度;與此同時(shí),基于潛力的傾向性遍歷會(huì)增加縱深方向單步搜索的計(jì)算復(fù)雜度,使得深度方向的搜索時(shí)間更長;因此在深度方面,為了避免復(fù)雜搜索算法導(dǎo)致的搜索代價(jià)增加,可以在搜索到某一中間節(jié)點(diǎn)時(shí)停止搜索,用基于簡(jiǎn)單算法(如均勻隨機(jī)算法)的模擬過程執(zhí)行到終結(jié)點(diǎn)或者在停止搜索后利用評(píng)估函數(shù)直接預(yù)測(cè)當(dāng)前中間節(jié)點(diǎn)盤面的勝負(fù)。
蒙特卡羅樹搜索是沿著博弈樹向下的一組循環(huán)遍歷過程。單次遍歷的路徑會(huì)從根節(jié)點(diǎn)(當(dāng)前博弈狀態(tài))延伸到?jīng)]有完全展開的節(jié)點(diǎn)。未完全展開的節(jié)點(diǎn)意味著其子節(jié)點(diǎn)至少有一個(gè)未訪問到。遇到未完全展開的節(jié)點(diǎn)時(shí),其一個(gè)未訪問子節(jié)點(diǎn)將會(huì)作為單次模擬的根節(jié)點(diǎn)推演到終盤,隨后模擬的結(jié)果將會(huì)反向傳播回當(dāng)前樹的根節(jié)點(diǎn),并更新博弈樹的節(jié)點(diǎn)統(tǒng)計(jì)數(shù)據(jù)。一旦循環(huán)遍歷過程受限于時(shí)間或算力而終止,下一步行動(dòng)將基于收集到的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行決策。蒙特卡羅樹搜索步驟如圖1所示[13]。
由于蒙特卡羅樹搜索采用了傾向性搜索算法以減少不必要的探索過程,但是這也增加了陷入局部最優(yōu)的可能性,因此與強(qiáng)化學(xué)習(xí)類似,蒙特卡羅樹搜索算法也存在探索和利用的權(quán)衡問題。
2 AlphaGo
2.1 AlphaGo的結(jié)構(gòu)組成
AlphaGo由監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)(Supervised LearningPolicy Network,簡(jiǎn)稱SL策略網(wǎng)絡(luò))、強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)(Reinforcement LearningPolicy Network,簡(jiǎn)稱RL策略網(wǎng)絡(luò))、快速走棋策略網(wǎng)絡(luò)(Rollout Policy Network)和價(jià)值網(wǎng)絡(luò)(Value Network)組成,其中策略網(wǎng)絡(luò)用于模擬人類的“棋感”,而價(jià)值網(wǎng)絡(luò)用于模擬人類對(duì)盤面的綜合評(píng)估,即盤面勝負(fù)評(píng)估。
SL策略網(wǎng)絡(luò)是一個(gè)13層的深度卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的輸入是棋盤特征,也叫做盤面,其表現(xiàn)形式是一個(gè)19×19×48二值平面,19×19是圍棋的棋盤布局,48個(gè)平面對(duì)應(yīng)不同的盤面特征信息[14](如棋子顏色、輪次、氣、打吃數(shù)目等)。輸入經(jīng)過13層深度卷積神經(jīng)網(wǎng)絡(luò)的逐層理解和分析,最終輸出一個(gè)走棋策略pσ(a|s), 表示當(dāng)前狀態(tài)s下所有合法動(dòng)作a的概率分布,其中σ表示該網(wǎng)絡(luò)的權(quán)重參數(shù)。SL策略網(wǎng)絡(luò)的決策計(jì)算速度是3 ms/步,主要用于在蒙特卡羅樹搜索的選擇階段提供先驗(yàn)概率信息。
RL策略網(wǎng)絡(luò)本質(zhì)上是以訓(xùn)練好的SL策略網(wǎng)絡(luò)為初始狀態(tài),通過強(qiáng)化學(xué)習(xí)過程優(yōu)化SL策略網(wǎng)絡(luò)中的網(wǎng)絡(luò)權(quán)重參數(shù)后得到的新策略網(wǎng)絡(luò)。因此其結(jié)構(gòu)及輸入、輸出的形式同SL策略網(wǎng)絡(luò)一樣,標(biāo)記為pρ(a|s), 該策略網(wǎng)絡(luò)用于產(chǎn)生自對(duì)弈棋譜供價(jià)值網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
快速走棋策略網(wǎng)絡(luò)的學(xué)習(xí)模型是一個(gè)簡(jiǎn)單線性模型,輸入簡(jiǎn)單且包含人工加工特征,使得輸出pπ(a|s)的棋力較差,但其計(jì)算速度非常快,僅需2 μs,該策略網(wǎng)絡(luò)用于蒙特卡羅樹搜索的模擬評(píng)估階段執(zhí)行快速模擬。
價(jià)值網(wǎng)絡(luò)依然是一個(gè)13層的深度卷積神經(jīng)網(wǎng)絡(luò),其輸入和SL以及RL策略網(wǎng)絡(luò)一樣,都是當(dāng)前的盤面信息,區(qū)別僅在于其輸出為對(duì)當(dāng)前盤面結(jié)局(輸贏的期望)的預(yù)測(cè)vθ(s),價(jià)值網(wǎng)絡(luò)的輸出同樣用于蒙特卡羅樹搜索的模擬評(píng)估階段,以直接提供對(duì)葉節(jié)點(diǎn)盤面的結(jié)局預(yù)測(cè)。
可以看出, SL策略網(wǎng)絡(luò)、RL策略網(wǎng)絡(luò)及價(jià)值網(wǎng)絡(luò)具有相似甚至相同的結(jié)構(gòu),這是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)的不同層的目標(biāo)是為了提取輸入信息的隱含特征,這些隱含特征對(duì)于預(yù)測(cè)輸贏或決策落子都具有相關(guān)性。由于策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)不同,在最后輸出映射階段兩者的結(jié)構(gòu)會(huì)有區(qū)別。另外,即使是目標(biāo)相同的SL和RL策略網(wǎng)絡(luò),由于訓(xùn)練方法和數(shù)據(jù)差別,同樣的隱藏特征對(duì)結(jié)果的影響力上會(huì)表現(xiàn)出差別,這一差別可通過網(wǎng)絡(luò)中權(quán)重的差別體現(xiàn)出來,進(jìn)而導(dǎo)致產(chǎn)生不同的策略。
2.2 離線訓(xùn)練過程
SL策略網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)來自于棋圣堂圍棋服務(wù)器(Kiseido Go Server,KGS)上3 000萬個(gè)專業(yè)棋手對(duì)弈棋譜的落子數(shù)據(jù),
模擬專業(yè)棋手風(fēng)格的準(zhǔn)確度達(dá)到了55.7%。
快速走棋網(wǎng)絡(luò)使用與SL策略網(wǎng)絡(luò)相同的訓(xùn)練數(shù)據(jù),只是提取的數(shù)據(jù)特征較簡(jiǎn)單,且使用線性回歸方法進(jìn)行訓(xùn)練。在犧牲了部分準(zhǔn)確度的情況下極大地提高了走棋的速率??焖僮咂寰W(wǎng)絡(luò)與SL策略網(wǎng)絡(luò)一樣屬于監(jiān)督學(xué)習(xí),類似于人類學(xué)習(xí)過程中背棋譜的學(xué)習(xí)階段。
RL策略網(wǎng)絡(luò)采用強(qiáng)化學(xué)習(xí)方法,訓(xùn)練時(shí)不需要額外的訓(xùn)練數(shù)據(jù)。第一步,先使用SL策略網(wǎng)絡(luò)對(duì)RL策略網(wǎng)絡(luò)進(jìn)行初始化;第二步,將當(dāng)前的RL策略網(wǎng)絡(luò)與對(duì)手池(在第四步中生成)中之前的某個(gè)隨機(jī)版本進(jìn)行對(duì)局,得到棋局結(jié)果(輸贏);第三步,根據(jù)棋局結(jié)果利用強(qiáng)化學(xué)習(xí)中的策略梯度算法,更新網(wǎng)絡(luò)權(quán)重以最大化期望結(jié)果(贏);第四步,每500次迭代就復(fù)制當(dāng)前網(wǎng)絡(luò)參數(shù)到對(duì)手池中用于第二步的隨機(jī)版本對(duì)局。重復(fù)上述四個(gè)步驟直到參數(shù)收斂穩(wěn)定,即得到最終的RL策略網(wǎng)絡(luò)。其中第四步記錄的RL策略網(wǎng)絡(luò)的歷史版本是為了防止訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,第二步的對(duì)局本質(zhì)上是和“歷史自我”進(jìn)行的“自我對(duì)弈”。同時(shí)也能看出RL策略網(wǎng)絡(luò)訓(xùn)練追求的目標(biāo)是勝利,與SL策略網(wǎng)絡(luò)追求的目標(biāo)(盡可能地模仿專業(yè)棋手)是不同的,兩者對(duì)弈結(jié)果統(tǒng)計(jì),RL策略網(wǎng)絡(luò)的勝率達(dá)到80%。類比人類學(xué)習(xí)過程,RL策略網(wǎng)絡(luò)的訓(xùn)練近似于有一定基礎(chǔ)的棋手通過與高手對(duì)弈不斷提高棋力,追求制勝之道。
價(jià)值網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)來自RL策略網(wǎng)絡(luò)“自我對(duì)弈”過程中產(chǎn)生的棋譜,根據(jù)產(chǎn)生棋譜的最終勝負(fù)結(jié)果,使用隨機(jī)梯度下降法來最小化預(yù)測(cè)值vθ(S)與實(shí)際對(duì)弈結(jié)果z(贏為+1,輸為-1)間的差值。訓(xùn)練好的價(jià)值網(wǎng)絡(luò)可以對(duì)棋局進(jìn)行評(píng)估,預(yù)測(cè)當(dāng)前盤面的勝負(fù)期望,即勝負(fù)的概率。類比人類棋手,該訓(xùn)練過程近似于觀摩大量高手的比賽后使自身具備了豐富的經(jīng)驗(yàn),結(jié)合當(dāng)前盤面和過往經(jīng)驗(yàn)?zāi)茴A(yù)測(cè)棋局的勝負(fù)。
2.3 在線對(duì)弈過程
AlphaGo在線對(duì)弈過程以蒙特卡羅樹搜索為主要框架,并結(jié)合SL策略網(wǎng)絡(luò)、快速走棋網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)以提高蒙特卡羅樹搜索的效率。在對(duì)弈前,首先介紹每個(gè)蒙特卡羅樹搜索節(jié)點(diǎn)(即盤面s)的統(tǒng)計(jì)信息。每一個(gè)節(jié)點(diǎn)s包含多條邊連接著s與其子節(jié)點(diǎn),每一條邊對(duì)應(yīng)一個(gè)合法的狀態(tài)-動(dòng)作對(duì)(s,a),每一條邊對(duì)應(yīng)一個(gè)六元組統(tǒng)計(jì)信息: {P(s,a),Nv(s,a),Nr(s,a),Wv(s,a),Wr(s,a),Q(s,a)},并將其記錄在節(jié)點(diǎn)s處。P(s,a)是樹搜索策略中需要使用的先驗(yàn)概率,在AlphaGo中P(s,a)是SL策略網(wǎng)絡(luò)的輸出。Nv(s,a)是遍歷經(jīng)過該邊并利用價(jià)值網(wǎng)絡(luò)評(píng)估的次數(shù),而Nr(s,a)則是遍歷經(jīng)過該邊并利用快速走棋網(wǎng)絡(luò)評(píng)估的次數(shù)。Wv(s,a)表示Nv(s,a)次價(jià)值網(wǎng)絡(luò)評(píng)估結(jié)果的累加值,Wr(s,a)表示Nr(s,a)次快速走棋評(píng)估結(jié)果的累加值。所以Wv(s,a)/Nv(s,a)和Wr(s,a)/Nr(s,a)分別表示價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)模擬對(duì)盤面勝負(fù)的平均估計(jì)。Q(s,a)是價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)評(píng)估均值的加權(quán)平均,表示對(duì)應(yīng)邊的聯(lián)合平均勝負(fù)估值,如式(1),除了P(s,a)初始化為SL策略網(wǎng)絡(luò)的輸出,其余統(tǒng)計(jì)信息初始化值為零。
Q(s,a)=(1-λ)Wv(s,a)Nv(s,a)+λWr(s,a)Nr(s,a)(1)
在線對(duì)弈過程主要包括四個(gè)步驟,如圖2所示。
選擇:選擇階段,從根節(jié)點(diǎn)開始執(zhí)行樹搜索策略進(jìn)行分支選擇,搜索執(zhí)行到葉節(jié)點(diǎn)L為止。樹搜索策略基于式(2)進(jìn)行動(dòng)作決策,其中u(st,a)是控制參數(shù)用于鼓勵(lì)探索,如式(3):
at=argmaxa(Q(st,a)+u(st,a)), t 式中: C為常數(shù)??梢钥闯觯?dāng)(s,a)是新展開邊時(shí),Nr(st,a)和Q(st,a)均為0,此時(shí),樹搜索決策主要依賴于先驗(yàn)概率P(st,a)即SL策略網(wǎng)絡(luò)的策略。當(dāng)經(jīng)過幾次模擬后,樹搜索決策由Q(st,a)與u(st,a)共同決定,由于u(st,a)隨分母部分1+Nr(st,a)的增大而減小,使得決策傾向于模擬次數(shù)少的分支,進(jìn)而鼓勵(lì)了探索。當(dāng)模擬次數(shù)進(jìn)一步增多時(shí),遍歷模擬得到的Q(st,a)值越來越準(zhǔn)確,而u(st,a)由于分母的增大趨向于0,此時(shí)決策主要依賴于Q(st,a)值。通俗地講,在選擇模擬階段,為減少搜索寬度,AlphaGo傾向于勝率高的分支,但由于模擬次數(shù)少的時(shí)候勝負(fù)估計(jì)不夠準(zhǔn)確,所以基于以往的經(jīng)驗(yàn)進(jìn)行指導(dǎo);同時(shí)為了鼓勵(lì)探索避免陷入局部最優(yōu)策略,AlphaGo鼓勵(lì)探索模擬次數(shù)少的分支,最終,伴隨勝負(fù)估計(jì)的逐步精確,后續(xù)決策基本僅取決于模擬的結(jié)果。 擴(kuò)展: 擴(kuò)展階段會(huì)使博弈樹生長出新的葉節(jié)點(diǎn)。在AlphaGo中,當(dāng)某條邊的訪問次數(shù)大于閾值nthr(動(dòng)態(tài)閾值,默認(rèn)40)后,該邊指向的節(jié)點(diǎn)s′將被加入到博弈樹中,并進(jìn)行統(tǒng)計(jì)信息初始化。 模擬評(píng)估: 當(dāng)?shù)竭_(dá)葉節(jié)點(diǎn)sL時(shí),若sL之前沒有使用價(jià)值網(wǎng)絡(luò)評(píng)估過,則將sL節(jié)點(diǎn)加入價(jià)值網(wǎng)絡(luò)評(píng)估隊(duì)列以得到vθ(sL);若sL之前訪問并使用價(jià)值網(wǎng)絡(luò)評(píng)估過,則不再進(jìn)行價(jià)值網(wǎng)絡(luò)評(píng)估,即每個(gè)節(jié)點(diǎn)只進(jìn)行一次價(jià)值網(wǎng)絡(luò)評(píng)估。與此同時(shí),快速走棋網(wǎng)絡(luò)則以sL節(jié)點(diǎn)為起點(diǎn),基于快速走棋策略(ar~pπ(·|st),t>L)模擬執(zhí)行到終盤,得到最終的勝負(fù)結(jié)果zT,T為終盤時(shí)刻。 反向更新: 由于價(jià)值網(wǎng)絡(luò)在搜索到葉節(jié)點(diǎn)sL就開始執(zhí)行評(píng)估,所以價(jià)值網(wǎng)絡(luò)評(píng)估完成后,就會(huì)異步地對(duì)遍歷過程t 反復(fù)進(jìn)行上述四步過程,達(dá)到一定次數(shù)后搜索完成,算法選取從根節(jié)點(diǎn)出發(fā)訪問次數(shù)最多的那條邊落子,完成單步落子決策。該條邊對(duì)應(yīng)的子樹也將保留下來作為下一步棋決策的初始狀態(tài),然后重復(fù)執(zhí)行蒙特卡羅樹搜索過程進(jìn)行單步?jīng)Q策,最終走到終盤完成比賽。 AlphaGo算法的訓(xùn)練和對(duì)弈流程如圖3所示。 2.4 AlphaGo中的特殊現(xiàn)象 (1)策略網(wǎng)絡(luò)選擇 基于強(qiáng)化學(xué)習(xí)的RL策略網(wǎng)絡(luò)在與SL策略網(wǎng)絡(luò)對(duì)弈時(shí),勝率可達(dá)到80%,然而在線對(duì)弈過程中RL網(wǎng)絡(luò)并沒有直接參與決策,僅作為價(jià)值網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的提供者。這是因?yàn)閷?shí)際實(shí)驗(yàn)中,同等條件下,基于SL策略網(wǎng)絡(luò)的對(duì)弈效果更好。 還有一種說法是SL策略的探索更具有多樣性,其策略在模仿專業(yè)棋手的棋風(fēng)時(shí),學(xué)到了“大局棋”概念,即跳出當(dāng)前的局部布局而在其他位置提前進(jìn)行布局的一種策略。 (2) 價(jià)值網(wǎng)絡(luò)不使用人類數(shù)據(jù)訓(xùn)練 AlphaGo的價(jià)值網(wǎng)絡(luò)用于評(píng)估盤面的勝負(fù),然而供其訓(xùn)練的數(shù)據(jù)是強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)自己產(chǎn)生的,而不是直接使用專業(yè)棋譜。直接原因是RL策略網(wǎng)絡(luò)是3個(gè)策略網(wǎng)絡(luò)中的最強(qiáng)策略。從另一個(gè)角度考慮,SL策略網(wǎng)絡(luò)不如RL策略網(wǎng)絡(luò)是因?yàn)槠淠M專業(yè)棋手的相似度只有55%,如果直接使用專業(yè)棋譜數(shù)據(jù)(100%相似度)是否會(huì)達(dá)到更好的效果?對(duì)此有學(xué)者認(rèn)為,人類數(shù)據(jù)并不適合價(jià)值評(píng)估。很多人類的棋局都是因?yàn)橹虚g偶然的失誤導(dǎo)致了全盤覆滅(所謂“一著不慎滿盤皆輸”),其中的偶然性非常大,盤面的估值瞬息萬變,所以棋局的結(jié)果離理想的估值差距較大。不如讓AlphaGo培養(yǎng)自己的“感覺”,自己的“勝負(fù)觀”,而不是輕易被人類棋局的勝負(fù)所左右。 (3) 價(jià)值網(wǎng)絡(luò)與快速走棋網(wǎng)絡(luò) 按常理揣測(cè),基于強(qiáng)大的RL策略網(wǎng)絡(luò)訓(xùn)練出來的價(jià)值網(wǎng)絡(luò),在評(píng)估方面應(yīng)該超越快速走棋網(wǎng)絡(luò)。然而,實(shí)際實(shí)驗(yàn)當(dāng)中,同等條件下單純基于價(jià)值網(wǎng)絡(luò)評(píng)估的效果并不如單純基于快速走棋網(wǎng)絡(luò)評(píng)估的效果,而兩者的結(jié)合使得效果有進(jìn)一步的飛躍。對(duì)此現(xiàn)象,可以理解為AlphaGo自己產(chǎn)生的“勝負(fù)觀”和人類經(jīng)驗(yàn)形成的“勝負(fù)觀”具有一定的互補(bǔ)作用,而價(jià)值網(wǎng)絡(luò)的不足主要是由于網(wǎng)絡(luò)本身的表達(dá)能力不夠。 (4) 自暴自棄 當(dāng)AlphaGo在判斷自己勝算不足時(shí)就會(huì)自暴自棄,走棋具有隨機(jī)性。筆者推測(cè),在勝算不足時(shí),各個(gè)分支的Q(s,a)值都不高(必輸情況下所有Q(s,a)值均為零),此時(shí)為了增加探索性的一些擾動(dòng)機(jī)制會(huì)使得基于Q(s,a)值的傾向性搜索失去作用,搜索過程呈現(xiàn)擾動(dòng)機(jī)制的隨機(jī)性。對(duì)于此問題,有人建議在勝算不足的情況下,將模擬對(duì)弈的對(duì)手替換為棋力較弱的模型,以保持系統(tǒng)的“戰(zhàn)斗意志”。但這種方式間接將勝利寄托在對(duì)方的失誤。 (5) “神之一手” 在AlphaGo和職業(yè)棋手李世石比賽的第四盤中,李世石第78手成為棋局的點(diǎn)睛之筆,使其獲得了比賽的唯一一場(chǎng)勝利,這一手棋被稱為“神之一手”。賽后,AlphaGo的設(shè)計(jì)團(tuán)隊(duì)多次分析實(shí)戰(zhàn)數(shù)據(jù),結(jié)論都是“人類棋手幾乎不會(huì)下的一手”,“人類棋手下這步棋的概率不到萬分之一”。由于基于人類訓(xùn)練數(shù)據(jù)產(chǎn)生的SL策略網(wǎng)絡(luò)的相似度僅有55%,所以無法評(píng)論AlphaGo忽略這“萬分之一”可能性的原因,是相似度不夠高還是這一步真的出乎意料。但不管是哪種原因,究其本質(zhì)還是在探索和利用的天平太偏向于利用,忽視了小概率走法。 3 AlphaGo Zero AlphaGo Zero是AlphaZero框架圍棋系列的最新一款產(chǎn)品,是AlphaZero框架設(shè)計(jì)思路的具體表現(xiàn)形式。AlphaGo Zero擺脫了人類知識(shí)的約束,能夠在沒有人類知識(shí)做指導(dǎo)和訓(xùn)練的條件下學(xué)得圍棋的下法和人類棋譜中的“定式”,并且發(fā)現(xiàn)人類未知的新“定式”,創(chuàng)作了知識(shí),也印證了強(qiáng)化學(xué)習(xí)的強(qiáng)大。 3.1 AlphaGo的不足 (1) 結(jié)構(gòu)復(fù)雜 AlphaGo由4個(gè)網(wǎng)絡(luò)構(gòu)成:3個(gè)策略網(wǎng)絡(luò),1個(gè)價(jià)值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)功能相同,卻無法互相替代。價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)用途相同,但功能互補(bǔ)無法舍棄。這既浪費(fèi)了有限的平臺(tái)算力(間接影響了棋力),也暗示了AlphaGo的網(wǎng)絡(luò)并不完美。 (2) 人類經(jīng)驗(yàn)的羈絆 “盡信書,不如無書?!币酝娜祟惤?jīng)驗(yàn)可以減少搜索空間,并使算法快速穩(wěn)定地收斂到更優(yōu)策略,但同時(shí)也局限了人類的探索范圍。AlphaGo中的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)就嘗試擺脫人類經(jīng)驗(yàn)的束縛,但其初始狀態(tài)仍然是人類經(jīng)驗(yàn)的體現(xiàn)。 (3)RL策略網(wǎng)絡(luò)仍然存在性能瓶頸 強(qiáng)化學(xué)習(xí)利用策略模擬、策略改進(jìn)、策略再模擬的迭代過程來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),其效果固然強(qiáng)大,但策略改進(jìn)的效率決定了其最終效果,目前AlphaGo簡(jiǎn)單地通過自我對(duì)弈還無法達(dá)到最佳的效果,因此從現(xiàn)有策略如何提高是一個(gè)關(guān)鍵問題。 (4) 探索與利用 探索與利用的權(quán)衡對(duì)于強(qiáng)化學(xué)習(xí)以及蒙特卡羅樹搜索方法的性能都具有顯著的影響。盡管AlphaGo中加入了豐富探索多樣性的機(jī)制,但目前并沒有理論可以證明怎樣的平衡才能達(dá)到最佳。式(2)中的紅利u(st,a)雖然鼓勵(lì)探索,但是式(2)本身屬于確定性決策方式(決策時(shí)動(dòng)作選擇不是概率性的采樣),使得某一分支占優(yōu)后很難跳出去探索其他分支?!吧裰皇帧钡某霈F(xiàn)進(jìn)一步印證了AlphaGo探索不足的問題。 以上不足為AlphaGo Zero的設(shè)計(jì)指引了方向,將在AlphaGo Zero的設(shè)計(jì)思想中看到針對(duì)以上問題的處理。 3.2 AlphaGo Zero的結(jié)構(gòu)組成 AlphaGo Zero將原先兩個(gè)結(jié)構(gòu)獨(dú)立的策略網(wǎng)絡(luò)(SL策略網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò))和價(jià)值網(wǎng)絡(luò)合為一體,合并成一個(gè)深度神經(jīng)網(wǎng)絡(luò)。在該神經(jīng)網(wǎng)絡(luò)中,從輸入層到中間層的權(quán)重是完全共享的(AlphaGo中SL策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)共享,權(quán)重獨(dú)立),最后的輸出階段分成了策略函數(shù)輸出和價(jià)值函數(shù)輸出。此外,在AlphaGo中采用的13個(gè)卷積層網(wǎng)絡(luò)被替換成19(擴(kuò)展版為39)個(gè)殘差模塊(或殘差網(wǎng)絡(luò)),形成了深度殘差神經(jīng)網(wǎng)絡(luò)fθ(s),通過實(shí)現(xiàn)更深的神經(jīng)網(wǎng)絡(luò)以提取到更豐富、更抽象的輸入特征,并具有了更強(qiáng)的表達(dá)能力。AlphaGo Zero的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。 深度殘差網(wǎng)絡(luò)輸入的盤面狀態(tài)s是19×19×17的二值平面,相比于AlphaGo的策略網(wǎng)絡(luò)更加簡(jiǎn)潔。主要有3部分內(nèi)容: 己方棋面,對(duì)方棋面,當(dāng)前執(zhí)棋顏色。輸入信息經(jīng)過深度殘差網(wǎng)絡(luò)的處理,得到盤面的深層次特征,基于這些特征分別利用策略輸出模塊和價(jià)值輸出模塊得到下棋策略p和盤面勝負(fù)評(píng)估v,其中p為361維向量,表明當(dāng)前盤面下,不同動(dòng)作選擇的概率。在AlphaGo Zero中沒有采用快速走棋網(wǎng)絡(luò),其蒙特卡羅樹搜索的模擬評(píng)估階段完全依賴于深度殘差網(wǎng)絡(luò)的價(jià)值輸出v。 3.3 AlphaGo Zero訓(xùn)練與對(duì)弈過程 AlphaGo Zero的離線訓(xùn)練過程蘊(yùn)含了在線對(duì)弈的經(jīng)過,所以本節(jié)以離線訓(xùn)練過程介紹為主,并細(xì)致介紹其中的蒙特卡羅樹搜索算法。 3.3.1 離線訓(xùn)練過程 AlphaGo Zero僅含有一個(gè)深度殘差網(wǎng)絡(luò)fθ(s), 輸出為(p,v),其訓(xùn)練的目標(biāo)即為優(yōu)化深度殘差網(wǎng)絡(luò)的權(quán)重參數(shù)θ,使得策略p棋力更強(qiáng),而勝負(fù)評(píng)估v更準(zhǔn)確。 初始狀態(tài)時(shí),由于沒有人類知識(shí)的介入,網(wǎng)絡(luò)的權(quán)重參數(shù)θ以隨機(jī)值進(jìn)行初始化,得到初始深度殘差網(wǎng)絡(luò)。將初始深度殘差網(wǎng)絡(luò)作為當(dāng)前的最優(yōu)策略,迭代進(jìn)行自我對(duì)弈、訓(xùn)練優(yōu)化以及對(duì)決評(píng)估步驟,最終實(shí)現(xiàn)AlphaGo Zero的離線訓(xùn)練過程,如圖5所示。 自我對(duì)弈: 使用基于當(dāng)前最優(yōu)策略的蒙特卡羅樹搜索進(jìn)行自我對(duì)弈的單步?jīng)Q策。每次單步?jīng)Q策需要經(jīng)過1 600次蒙特卡羅樹搜索模擬,得到并記錄下當(dāng)前局面st(t表示自我對(duì)弈的第t個(gè)單步)的策略πt。策略πt相比于當(dāng)前最優(yōu)策略是一個(gè)更好的策略,因此蒙特卡羅樹搜索進(jìn)一步提升了強(qiáng)化學(xué)習(xí)的策略改進(jìn)速度。根據(jù)策略πt,系統(tǒng)采樣進(jìn)行當(dāng)前盤面的動(dòng)作決策,得到動(dòng)作at~πt。因此單步?jīng)Q策是一個(gè)概率性決策過程,每個(gè)動(dòng)作都有選擇的可能性,選擇概率服從策略πt,這增加了探索的豐富性(改善了AlphaGo的不足(4))。持續(xù)執(zhí)行單步?jīng)Q策過程,直到進(jìn)行到終盤T時(shí)刻,得到結(jié)果z,并將該過程記錄下的每一個(gè)(st, πt, z)存入棋譜池,用于為后面的訓(xùn)練優(yōu)化提供數(shù)據(jù)。重復(fù)進(jìn)行自我對(duì)弈過程,豐富棋譜池,達(dá)到一定次數(shù)后,進(jìn)行參數(shù)的訓(xùn)練優(yōu)化過程。 訓(xùn)練優(yōu)化: 棋譜池中有大量數(shù)據(jù),從最近500 000盤對(duì)弈中進(jìn)行均勻隨機(jī)的盤面采樣,采樣的數(shù)據(jù)(s,π, z)用以優(yōu)化深度殘差網(wǎng)絡(luò)的參數(shù)。在已知fθ(s)=(p,v)的情況下,優(yōu)化目標(biāo)包括希望勝負(fù)評(píng)估v與實(shí)際結(jié)果z盡可能一致;希望策略p能盡可能接近策略π。參數(shù)優(yōu)化過程基于損失函數(shù)梯度下降方法,由于深度殘差神經(jīng)網(wǎng)絡(luò)同時(shí)輸出策略和勝負(fù)評(píng)估,因此損失函數(shù)同時(shí)考慮勝負(fù)評(píng)估值和落子概率: loss=(z-v)2+(-πTlg p)+cθ2(6) 式中: 第一部分考慮的是勝負(fù)評(píng)估結(jié)果v與實(shí)際結(jié)果z的方差;第二部分是輸出策略p和策略π的交叉信息熵,交叉信息熵越小兩個(gè)策略就越相似;第三部分是用來防止過擬合現(xiàn)象,其中c為常數(shù)。訓(xùn)練優(yōu)化過程持續(xù)進(jìn)行,每完成1 000次訓(xùn)練步驟就產(chǎn)生一個(gè)記錄點(diǎn),記錄該次訓(xùn)練后的新參數(shù)。該參數(shù)對(duì)應(yīng)的策略將用在對(duì)決評(píng)估階段,與當(dāng)前最優(yōu)策略競(jìng)爭(zhēng),確定新的當(dāng)前最優(yōu)策略。 對(duì)決評(píng)估: 為了保證數(shù)據(jù)質(zhì)量越來越好,需要評(píng)估新的記錄點(diǎn)對(duì)應(yīng)策略和當(dāng)前最優(yōu)策略的優(yōu)劣,擇優(yōu)作為接下來的當(dāng)前最優(yōu)策略進(jìn)行自我對(duì)弈。 對(duì)決過程中,雙方依次使用蒙特卡羅樹搜索進(jìn)行單步?jīng)Q策,每次單步?jīng)Q策執(zhí)行1 600次模擬,直到比賽結(jié)束;400場(chǎng)比賽后,若記錄點(diǎn)對(duì)應(yīng)策略的勝率達(dá)到55%以上,則用其替換當(dāng)前最優(yōu)策略,并基于新的最優(yōu)策略通過自我對(duì)弈繼續(xù)產(chǎn)生更好的數(shù)據(jù);否則,放棄該記錄點(diǎn),仍采用當(dāng)前最優(yōu)策略進(jìn)行自我對(duì)弈??梢钥闯觯瑢?duì)決評(píng)估過程本質(zhì)就是在線對(duì)弈的過程。 重復(fù)以上三個(gè)步驟,深度殘差網(wǎng)絡(luò)的棋力就會(huì)不斷提升。 實(shí)驗(yàn)表明[4],AlphaGo Zero 結(jié)構(gòu)經(jīng)過3天訓(xùn)練就可以達(dá)到AlphaGo Lee(打敗李世石的AlphaGo版本)的棋力;經(jīng)過40天訓(xùn)練,其棋力接近穩(wěn)定,較AlphaGo Lee提升了近39%。 3.3.2 AlphaGo Zero中的蒙特卡羅樹搜索 在AlphaGo Zero中,蒙特卡羅樹搜索算法貫穿了離線訓(xùn)練和在線對(duì)弈的整個(gè)過程。并且,相比于AlphaGo中的蒙特卡羅樹搜索算法,AlphaGo Zero進(jìn)行了改進(jìn)優(yōu)化,使得其最終得到了更好的性能。 AlphaGo Zero中的蒙特卡羅樹搜索算法步驟如圖6所示。相比于AlphaGo,AlphaGo Zero將擴(kuò)展和模擬評(píng)估兩個(gè)步驟合并為一個(gè);另外由于刪除了快速走棋網(wǎng)絡(luò),博弈樹的每條邊(s,a)的統(tǒng)計(jì)信息簡(jiǎn)化為{N(s,a),W(s,a),Q(s,a),P(s,a)},其中N(s,a)表示該邊的模擬次數(shù),W(s,a)是該邊所有模擬過程勝負(fù)評(píng)估值的總和,Q(s,a)=W(s,a)/N(s,a)是勝負(fù)評(píng)估均值,P(s,a)是執(zhí)行樹搜索策略時(shí)的先驗(yàn)概率。 選擇: 該階段和AlphaGo的選擇階段基本一樣,從根節(jié)點(diǎn)s0開始,基于樹搜索策略選擇路徑,直到葉節(jié)點(diǎn)sL。在t 擴(kuò)展與評(píng)估: 擴(kuò)展與評(píng)估階段同時(shí)完成擴(kuò)展以及勝負(fù)評(píng)估任務(wù)。在該階段,當(dāng)搜索到達(dá)葉節(jié)點(diǎn)sL后,盤面sL送入到深度殘差網(wǎng)絡(luò)中進(jìn)行勝負(fù)評(píng)估得到v(sL);同時(shí)將sL進(jìn)行擴(kuò)展(在AlphaGo Zero中擴(kuò)展閾值為1,即每次模擬都會(huì)擴(kuò)展分支,而在AlphaGo中擴(kuò)展的閾值為40),擴(kuò)展后的每條邊(sL,a)的統(tǒng)計(jì)信息初始化為{N(sL,a)=0,W(sL,a)=0,Q(sL,a)=0,P(sL,a)=pa}。 反向更新: 將深度殘差網(wǎng)絡(luò)的勝負(fù)評(píng)估v(sL)反向更新t 重復(fù)以上三個(gè)步驟1 600次,即可根據(jù)統(tǒng)計(jì)信息進(jìn)行單步?jīng)Q策。在AlphaGo中,在線對(duì)弈時(shí)的單步?jīng)Q策完全依賴于動(dòng)作模擬的次數(shù),而在AlphaGo Zero中,為了增加探索性,在單步?jīng)Q策時(shí)引入了退火思想。若將策略向量π表示成概率形式,蒙特卡羅樹搜索輸出的策略如式(10),表示在盤面s0的條件下選擇動(dòng)作a的概率。在每盤棋的前30步單步?jīng)Q策時(shí),參數(shù)τ=1,每個(gè)動(dòng)作a的概率就是模擬過程出現(xiàn)的頻率,由于對(duì)弈過程是基于π(a|s0)的采樣決策,因此在開盤的前30步落棋具有豐富的可能性。在30步之后,τ→0,此時(shí)式(10)的分布極其尖銳,出現(xiàn)次數(shù)最多動(dòng)作的概率趨向于1,其他動(dòng)作的概率均趨向于0,盡管此時(shí)仍然是基于π(a|s0)的采樣決策,但實(shí)際效果已轉(zhuǎn)化為確定性決策。這一機(jī)制是考慮到開局時(shí)未來變化空間大,無論是策略抑或是勝負(fù)評(píng)估都不甚準(zhǔn)確,此時(shí)需要增加探索性避免陷入局部最優(yōu);隨著盤面推進(jìn),局勢(shì)變化可能性逐步收縮,策略和勝負(fù)評(píng)估的指導(dǎo)性更準(zhǔn)更強(qiáng),此時(shí)則應(yīng)該遵循蒙特卡羅樹搜索的決策,追求更高的勝率。 π(a|s0)=N(s0,a)1/τ∑bN(s0,b)1/τ (10) 3.4 類比小結(jié) 通過分析發(fā)現(xiàn),AlphaGo Zero針對(duì)AlphaGo的不足做出了許多改進(jìn),兩者技術(shù)體系的改進(jìn)框圖如圖7所示。 4 思考與啟示 4.1 對(duì)AlphaZero的思考 AlphaZero框架是以AlphaGo Zero為基礎(chǔ)的深度強(qiáng)化 學(xué)習(xí)框架,它去除了AlphaGo Zero中圍棋獨(dú)有的算法特征,保留了普適性的學(xué)習(xí)思想、方法和技巧,適用于完全信息條件下的二人有限零和博弈模型,而其中關(guān)于探索與利用的平衡、策略推演方式、結(jié)果評(píng)估方法等方面對(duì)于更廣泛的強(qiáng)化學(xué)習(xí)領(lǐng)域同樣具有借鑒意義。AlphaZero框架的偉大之處在于第一次讓機(jī)器可以不通過任何棋譜,不依賴任何人類的經(jīng)驗(yàn),在只告訴其規(guī)則的前提下,成為一個(gè)圍棋高手。這種無師自通的學(xué)習(xí)模式在人工智能發(fā)展道路上具有里程碑意義。但同時(shí)在很多人工智能推廣應(yīng)用上也存在一些局限,因?yàn)閲?yán)格講,圍棋規(guī)則和判定棋局輸贏是一種監(jiān)督信號(hào),所以,說人類無用,或說機(jī)器可以自己產(chǎn)生認(rèn)知都是對(duì)AlphaZero理解的不精確。此外,目前AlphaZero框架仍然需要上百萬盤的自我對(duì)弈才能真正掌握圍棋,而這與人類掌握圍棋的過程還有明顯的區(qū)別,可能是思考方式上的本質(zhì)差別,也可能是學(xué)習(xí)方式上的差別導(dǎo)致的學(xué)習(xí)效率的差別。因此AlphaZero的出現(xiàn)固然偉大,但不要對(duì)其過分解讀。 通過對(duì)AlphaGo和AlphaGo Zero的分析對(duì)比,能夠描繪出AlphaZero框架形成的發(fā)展歷程并發(fā)現(xiàn)其中的關(guān)鍵點(diǎn)。首先,深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)非常重要,網(wǎng)絡(luò)的組織形式與層數(shù)決定了網(wǎng)絡(luò)表達(dá)的豐富性和能力。然后,目前深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)還很薄弱,許多研究都是基于探索性或啟發(fā)式的方法,新方法的優(yōu)劣評(píng)估也存在許多定性的經(jīng)驗(yàn)性解讀。例如深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及蒙特卡羅樹搜索之間的結(jié)合之前也有相關(guān)的嘗試,但是結(jié)合方法的不同,或者某些參數(shù)的差別導(dǎo)致性能相差甚遠(yuǎn),對(duì)此現(xiàn)象缺少理論的剖析支撐。這一方面指引學(xué)者要加強(qiáng)理論方面的研究,增強(qiáng)算法的可解釋性,從理論層面闡述方法的優(yōu)劣,并以理論的指導(dǎo)去探究更優(yōu)的方法;另一方面,對(duì)于“聰明”的科技工作者這也是一個(gè)機(jī)會(huì),可以在較少的理論基礎(chǔ)條件下通過其他領(lǐng)域知識(shí)的觸類旁通或啟發(fā)式的探索,在智能決策領(lǐng)域做出突破。其次,探索和利用的平衡問題可以顯著影響算法性能,通過AlphaGo和AlphaGo Zero的對(duì)比可以發(fā)現(xiàn),通過加強(qiáng)探索,強(qiáng)化了系統(tǒng)選擇的多樣性,降低了陷入局部最優(yōu)解的可能性;但同時(shí)增加了計(jì)算的復(fù)雜度,阻礙了算法的收斂,無法滿足具有實(shí)時(shí)性或準(zhǔn)實(shí)時(shí)性的系統(tǒng)要求。最后,算力問題是智能決策發(fā)展的關(guān)鍵支撐。本文并未過多地提及平臺(tái)計(jì)算能力問題(文獻(xiàn)[3-4]均對(duì)計(jì)算能力對(duì)棋力的影響進(jìn)行了研究),但在實(shí)際應(yīng)用中平臺(tái)算力決定了訓(xùn)練速度和在線對(duì)弈時(shí)蒙特卡羅樹搜索的模擬速度,進(jìn)而決定了“推演模擬”的精度。平臺(tái)的計(jì)算能力主要由處理芯片決定,業(yè)界的巨頭公司均在人工智能芯片領(lǐng)域投入大量人力和財(cái)力,這將是我國人工智能未來發(fā)展的一個(gè)重要建設(shè)領(lǐng)域。 4.2 AlphaZero對(duì)軍事應(yīng)用的啟示 象棋、圍棋等博弈類游戲,本身就是對(duì)于軍事戰(zhàn)爭(zhēng)的抽象模擬,因此博弈類游戲的智能決策對(duì)于軍事決策的智能化具有重要借鑒意義。在2007年人機(jī)國際象棋大賽中,“深藍(lán)”一舉擊敗人類棋手卡斯帕羅夫,在全世界引起轟動(dòng),同時(shí)也引起美國軍方高度關(guān)注,提出了“深綠”計(jì)劃?!吧罹G”是美國防部高級(jí)研究計(jì)劃局(DARPA)2007年起支持的一項(xiàng)指揮決策領(lǐng)域研究項(xiàng)目,原計(jì)劃執(zhí)行3年,至今未完成,且項(xiàng)目?jī)?nèi)容已大大減少。該計(jì)劃完成的系統(tǒng)將嵌入美國陸軍旅級(jí)之上C4ISR的戰(zhàn)時(shí)指揮決策支持系統(tǒng)?!吧罹G”計(jì)劃核心思想是借鑒“深藍(lán)”,預(yù)判敵人的可能行動(dòng),從而提前做出決策[5],也就是類似AlphaZero的一個(gè)博弈決策系統(tǒng)。 航空兵器作為未來軍事戰(zhàn)爭(zhēng)的重要作戰(zhàn)力量,同樣需要面臨即將到來的智能化戰(zhàn)爭(zhēng)考驗(yàn)。目前導(dǎo)彈、飛機(jī)中的雷達(dá)、制導(dǎo)、目標(biāo)選取、飛行控制都在向智能化方向發(fā)展[16],在航空兵器智能決策發(fā)展早期,通常使用專家系統(tǒng)與數(shù)據(jù)存儲(chǔ)和通信網(wǎng)絡(luò)技術(shù)結(jié)合,用于機(jī)載預(yù)警和控制系統(tǒng)等。專家系統(tǒng)通過模型庫、數(shù)據(jù)庫和方法庫的信息輸入,根據(jù)自身知識(shí)進(jìn)行推理決策,完成飛行控制或幫助判斷敵軍位置和動(dòng)機(jī);而從單一功能上升到戰(zhàn)斗機(jī)等完整武器系統(tǒng)指揮,則需要引入類似AlphaZero這類更復(fù)雜、更智能的決策技術(shù),特別是在導(dǎo)彈、飛機(jī)、無人機(jī)這類高速應(yīng)用場(chǎng)景,人類的反應(yīng)難以適應(yīng)戰(zhàn)爭(zhēng)的“秒殺”節(jié)奏,此時(shí)智能化決策技術(shù)將成為目前可預(yù)見的最佳選擇,2016年美國辛辛那提大學(xué)研發(fā)的“阿爾法”AI就成功操控F-15戰(zhàn)機(jī)擊敗了飛行員駕駛的F-22戰(zhàn)機(jī)[17]。更進(jìn)一步,針對(duì)群體裝備系統(tǒng)或體系指揮控制裝備,還需要兵棋推演這類更宏觀的智能決策系統(tǒng),一方面可更準(zhǔn)確地預(yù)測(cè)戰(zhàn)術(shù)/戰(zhàn)略實(shí)施效果,另一方面可通過兵棋推演系統(tǒng)去驗(yàn)證和優(yōu)化作戰(zhàn)方案。這類兵棋推演系統(tǒng)也是AlphaZero的重要舞臺(tái)。 因此,AlphaZero的出現(xiàn)為“深綠”、“阿爾法”或者類似系統(tǒng)的設(shè)計(jì)、訓(xùn)練和學(xué)習(xí)方法提供了新的借鑒??梢苑治龊屠斫鈶?zhàn)場(chǎng)特性構(gòu)建符合戰(zhàn)場(chǎng)態(tài)勢(shì)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);然后利用已有的演習(xí)和試驗(yàn)數(shù)據(jù)來構(gòu)建戰(zhàn)場(chǎng)環(huán)境模型;之后拋棄已有演習(xí)數(shù)據(jù),基于戰(zhàn)場(chǎng)環(huán)境的反饋,通過自我對(duì)戰(zhàn)的模擬,從零開始逐步學(xué)習(xí)、理解并認(rèn)知戰(zhàn)場(chǎng)態(tài)勢(shì),模擬期間合理平衡探索和利用,在有效的時(shí)間內(nèi)得到盡量準(zhǔn)確的決策。 然而,AlphaZero的博弈與實(shí)際戰(zhàn)爭(zhēng)仍然存在著極大的差別。AlphaZero的目標(biāo)是處理完全信息條件下的二人有限零和博弈問題,而戰(zhàn)場(chǎng)指揮問題的本質(zhì)是一個(gè)態(tài)勢(shì)感知與估計(jì)、實(shí)時(shí)響應(yīng)、非完全信息博弈和多智能體協(xié)同等多個(gè)問題構(gòu)成的復(fù)雜性系統(tǒng)問題[8]。 對(duì)于態(tài)勢(shì)感知與估計(jì)問題,AlphaZero能夠提供較好的借鑒示范,但是對(duì)于如何描述戰(zhàn)場(chǎng)態(tài)勢(shì)輸入、表征和抽象戰(zhàn)場(chǎng)模型、構(gòu)建戰(zhàn)場(chǎng)環(huán)境,如何選擇與戰(zhàn)場(chǎng)特性相適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)等問題仍然需要更進(jìn)一步的研究。 對(duì)于實(shí)時(shí)響應(yīng)問題,一方面,AlphaZero的博弈本質(zhì)是一個(gè)回合制游戲,而戰(zhàn)爭(zhēng)則是即時(shí)戰(zhàn)略類游戲,要解決有限狀態(tài)與戰(zhàn)場(chǎng)連續(xù)性的矛盾;另一方面,這也對(duì)平臺(tái)計(jì)算能力提出要求,尤其在2018年4月爆出美國制裁中興事件后,高性能處理芯片將成為一個(gè)重要制約因素。 對(duì)于非完全信息博弈問題,一方面,敵人不是合作者,永遠(yuǎn)不會(huì)有足夠多的信息,甚至?xí)峁┨摷贁?shù)據(jù)信息誤導(dǎo)決策。另一方面,演訓(xùn)數(shù)據(jù)較少缺乏學(xué)習(xí)樣本,如果利用模擬方式生成訓(xùn)練數(shù)據(jù),則要對(duì)模擬的逼真程度提出嚴(yán)格的要求。 對(duì)于多智能體協(xié)同問題,實(shí)際戰(zhàn)場(chǎng)往往是多人或多方的合作通信及競(jìng)爭(zhēng)關(guān)系,AlphaZero的雙人博弈模型明顯不足,需要將單一模型擴(kuò)展為多個(gè)智能體之間相互合作、通信及競(jìng)爭(zhēng)的多智能體深度強(qiáng)化學(xué)習(xí)系統(tǒng)[18]。 需要特別說明,在航空兵器的飛控、制導(dǎo)等具體任務(wù)領(lǐng)域(即不考慮航空兵器的整機(jī)指揮或多體的兵棋推演任務(wù)),對(duì)于AlphaZero,需要有選擇地吸收借鑒。常見的專家系統(tǒng)或基于遺傳算法的智能決策,通常需要提供經(jīng)過人工模型處理后的信息(如彈道軌跡模型輸出、飛行軌跡模型輸出、地理信息系統(tǒng)輸出、姿態(tài)信息等),這類似于AlphaGo早期訓(xùn)練時(shí)的棋譜學(xué)習(xí),這些模型的輸出可以理解為信息或知識(shí)的提煉,但也可以看作既有知識(shí)的約束。對(duì)待這一情況,不能簡(jiǎn)單借鑒AlphaZero摒棄人類經(jīng)驗(yàn)的做法,因?yàn)樵趪孱I(lǐng)域里,由于其規(guī)模龐大、價(jià)值反饋滯后,人類既有知識(shí)歸納和總結(jié)存在許多錯(cuò)誤,這類知識(shí)的繼承和學(xué)習(xí)確實(shí)會(huì)羈絆和約束學(xué)習(xí)者;但是航空領(lǐng)域的知識(shí)結(jié)構(gòu)成熟且具備一定共識(shí),因此在知識(shí)正確的前提下,既有知識(shí)反而可以使決策快速收斂,而且經(jīng)過既有知識(shí)“洗滌”過的信息更易處理,實(shí)時(shí)性好,因此更適用于航空兵器領(lǐng)域中高速物體的實(shí)時(shí)決策。鑒于此種情況,在航空兵器具體任務(wù)領(lǐng)域,可以結(jié)合既有知識(shí)和AlphaZero的創(chuàng)新學(xué)習(xí)能力,在實(shí)施任務(wù)決策時(shí)仍然采用基于既有知識(shí)模型的專家系統(tǒng),而知識(shí)模型的生成則采用AlphaZero的思想進(jìn)行創(chuàng)造性的學(xué)習(xí)。此外,基于AlphaZero思想的模型學(xué)習(xí)系統(tǒng)可以直接部署于飛行器,將實(shí)際飛行任務(wù)作為訓(xùn)練數(shù)據(jù)提供給它,實(shí)現(xiàn)在線學(xué)習(xí),使其可以實(shí)時(shí)更新知識(shí)模型。 因此,盡管AlphaZero的出現(xiàn),給予了軍事智能決策新的啟示,但對(duì)于兩者之間的差別仍有許多問題亟待解決。目前即時(shí)戰(zhàn)略游戲的電腦智能研究對(duì)于智能決策的實(shí)時(shí)響應(yīng)、多智能體協(xié)同問題上具有較多的借鑒意義[19],且新公布的AlphaStar模型已經(jīng)戰(zhàn)勝專業(yè)玩家,這將是智能決策技術(shù)的又一里程碑[20];而“一對(duì)一無限注德州撲克”作為非完全信息博弈代表,目前也受到廣泛關(guān)注,基于深度強(qiáng)化學(xué)習(xí)算法的Deep Stack在該游戲中已經(jīng)具備了職業(yè)玩家的水平[21]。未來我國需要加強(qiáng)在相關(guān)領(lǐng)域的探索研究,并大力發(fā)展人工智能領(lǐng)域的芯片設(shè)計(jì)及制造行業(yè),推動(dòng)我國軍事決策智能化發(fā)展,在未來作戰(zhàn)指揮決策中取得致勝先機(jī)。 參考文獻(xiàn): [1] Kocsis L, Szepesvari C. Bandit Based Monte-Carlo Planning [C] ∥Proceedings of the European Conference on Machine Learning,2006: 282-293. [2] Tian Y D, Zhu Y. Better Computer Go Player with Neural Network and Long-Term Prediction[C]∥ ICLA, 2016. [3] Silver D, Huang A, Maddison C, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search [J]. Nature, 2016,529(7587): 484-489. [4] Silver D, Schrittwieser J, Siomonyan K, et al. Mastering the Game of Go without Human Knowledge [J]. Nature, 2017, 550(7676): 354-359. [5] 胡曉峰, 郭圣明, 賀筱媛. 指揮信息系統(tǒng)的智能化挑戰(zhàn)——“深綠”計(jì)劃及AlphaGo帶來的啟示與思考[J]. 指揮信息系統(tǒng)與技術(shù), 2016, 7(3): 1-7. Hu Xiaofeng, Guo Shengming, He Xiaoyuan. Challenges to Intelligent Command Information System: Reason and Revelation on “Deep Green” Planand AlphaGo[J]. Command Information System and Technology, 2016, 7(3): 1-7. (in Chinese) [6] 胡曉峰. 軍事指揮信息系統(tǒng)中的機(jī)器智能:現(xiàn)狀與趨勢(shì)[J]. 人民論壇·學(xué)術(shù)前沿, 2016(15): 22-34. Hu Xiaofeng. Machine Intelligence in Military Command Information System: Status and Trends[J]. Peoples Forum·Academic Frontier, 2016(15): 22-34. (in Chinese) [7] 陶九陽, 吳琳, 胡曉峰. AlphaGo技術(shù)原理分析及人工智能軍事應(yīng)用展望[J]. 指揮與控制學(xué)報(bào), 2016, 2(2): 114-120. Tao Jiuyang, Wu Lin, Hu Xiaofeng. Principle Analysis of AlphaGo and Perspective in Military Application of Artificial Intelligence[J]. Journal of Command and Control, 2016, 2(2): 114-120. (in Chinese) [8] 唐振韜, 邵坤, 趙冬斌,等. 深度強(qiáng)化學(xué)習(xí)進(jìn)展:從AlphaGo到AlphaGo Zero[J]. 控制理論與應(yīng)用, 2017, 34(12): 1529-1546. Tang Zhentao, Shao Kun, Zhao Dongbin, et al. Recent Progress of Deep Reinforcement Learning: from AlphaGo to AlphaGo Zero[J].Control Theory & Applications, 2017, 34(12): 1529-1546. (in Chinese) [9]Lecun Y, Bengio Y, Hinton G E. Deep Learning[J]. Nature, 2015, 521(7553): 436-444. [10] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. The MIT Press, 2016. [11] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016. Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016. (in Chinese) [12] 28天自制你的AlphaGo (6) : 蒙特卡羅樹搜索(MCTS)基礎(chǔ)[EB/OL].(2017-03-07)[2019-04-25]. https:∥zhuanlan.zhihu.com/p/25345778. Make your AlphaGo in 28 Days (6): The Monte Carlo Tree Search Basics[EB/OL]. (2017-03-07)[2019-04-25]. https:∥zhuanlan.zhihu.com/p/25345778.(in Chinese) [13] Browne C B, Powley E, Whitehouse D, et al. A Survey of Monte Carlo Tree Search Methods[J]. IEEE Transactions on Computational Intelligence and AI in Games, 2012, 4(1): 1-43. [14] 深度解讀AlphaGo算法原理[EB/OL]. (2016-04-05)[2019-04-25]. https:∥blog.csdn.net/songrotek/article/details/51065143. Deep Interpretation of the AlphaGo Algorithm[EB/OL]. (2016-04-05)[2019-04-25].https:∥blog.csdn.net/songrotek/article/details/51065143.(in Chinese) [15] 鄭宇,張鈞波. 一張圖解AlphaGo原理及弱點(diǎn)[EB/OL]. http:∥www.kddchina.org/#/Content/alphago. Zheng Yu, Zhang Junbo . Illustrating the Principle and weaknesses of AlphaGo in a Picture[EB/OL]. [2019-04-25].http:∥www.kddchina.org/#/Content/alphago.(in Chinese) [16] 程進(jìn), 齊航, 袁健全, 等. 關(guān)于導(dǎo)彈武器智能化發(fā)展的思考[J]. 航空兵器, 2019, 26(1): 20-24. Cheng Jin, Qi Hang, Yuan Jianquan, et al. Discussion on the Development of Intelligent Missile Technology[J]. Aero Weaponry, 2019, 26(1): 20-24. (in Chinese) [17] 石純民. 當(dāng)“阿爾法”走上戰(zhàn)場(chǎng)[N]. 中國國防報(bào),2016-07-11. Shi Chunmin. When “Alpha” Goes to the Battlefield[N]. China National Defense News, 2016-07-11. (in Chinese) [18] 趙冬斌, 邵坤, 朱圓恒,等. 深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J]. 控制理論與應(yīng)用, 2016, 33(6):701-717. Zhao Dongbin, Shao Kun, Zhu Yuanheng, et al. Review of Deep Reinforcement Learning and Discussions on the Development of Computer Go[J]. Control Theory & Applications, 2016, 33(6): 701-717. (in Chinese) [19] Vinyals O, Ewalds T, Bartunov S, et al. StarCraft Ⅱ: A New Challenge for Reinforcement Learning [EB/OL].(2017-08-16)[2019-04-25]. https:∥arxiv.org/pdf/1708.04782.pdf. [20] AlphaStar: Mastering the Real-Time Strategy Game StarCraft Ⅱ[EB/OL]. (2019-01-24)[2019-04-25]. https:∥deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/. [21]Moravcˇík M, Schmid M, Burch N, et al. DeepStack: Expert-Level Artificial Intelligence in Heads-up No-Limit Poker[J]. Science, 2017, 356(6337): 508-513. Principle and Enlightenment of AlphaZero Tang Chuan,Tao Yerong*,Ma Yueliang (Luoyang Electronic Equipment Test Center,Luoyang 471000,China) Abstract: In recent years, the success of computer Go has triggered another round of artificial intelligence boom. The AlphaZero framework developed from computer Go has been successfully applied to problems which are two-person zero-sum finite game under other complete information conditions. The success of AlphaZero shows the excellent performance of deep learning and reinforcement learning in the field of intelligent decision-making. In this article,three core technologies in the AlphaZero framework, that are deep learning, reinforcement learning and Monte Carlo tree search, are introduced. Then the basic principles of the two key phases of the AlphaZero framework (that is,AlphaGo and AlphaGo Zero) are detailed. Finally,some thoughts on the AlphaZero framework are put forward, andits enlightenment on the intelligence of military decision based on Al-phaZero principle analysis is discussed. Key words:deep learning;reinforcement learning;Monte Carlo tree search;AlphaZero;intelligence of military decision; artificial intelligence 收稿日期:2019-04-25 作者簡(jiǎn)介:唐川(1988-),男,河南開封人,博士,助理研究員,研究方向?yàn)槿斯ぶ悄苄酒O(shè)計(jì)。 通訊作者:陶業(yè)榮(1976-), 男,河南太康人,學(xué)士,高級(jí)工程師,研究方向?yàn)槿斯ぶ悄芗夹g(shù)試驗(yàn)與評(píng)估。 E-mail:taoyerong@126.com 引用格式:唐川,陶業(yè)榮,麻曰亮. AlphaZero原理與啟示 [ J]. 航空兵器,2020, 27( 3):27-36. Tang Chuan, Tao Yerong, Ma Yueliang.Principle and Enlightenment of AlphaZero[ J]. Aero Weaponry,2020, 27( 3): 27-36.( in Chinese)