當(dāng)?shù)貢r間10月18日,谷歌人工智能團(tuán)隊DeepMind團(tuán)隊在國際學(xué)術(shù)期刊《自然》上發(fā)表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導(dǎo)的情況下學(xué)習(xí),其水平超過此前所有AlphaGo(阿爾法狗),僅用3天就碾壓了此前擊敗李世石的舊阿爾法狗。
AlphaGo Zero僅擁有4個TPU,零人類經(jīng)驗(yàn),所以,它的名字叫作零(Zero),Nature這篇論文——《Mastering the game of Go without human knowledge》中,DeepMind展示新版本圍棋程序AlphaGo Zero在數(shù)百萬局自我對弈后,隨著程序訓(xùn)練的進(jìn)行,獨(dú)立發(fā)現(xiàn)了人類用幾千年才總結(jié)出來的圍棋規(guī)則,還建立了新的戰(zhàn)略。《自然》為該論文配發(fā)兩篇評論文章,一篇來自計算機(jī)科學(xué)家,一篇來自圍棋選手。
今年5月烏鎮(zhèn)大會上,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨后DeepMind創(chuàng)始人得米斯·哈薩比斯( DemisHassabis)宣布,AlphaGo將永久退出競技舞臺,不再進(jìn)行比賽。
同時哈薩比斯表示:“我們計劃在今年稍晚時候發(fā)布最后一篇學(xué)術(shù)論文,詳細(xì)介紹我們在算法效率上所取得的一系列進(jìn)展,以及應(yīng)用在其他更全面領(lǐng)域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開發(fā)者能夠接過接力棒,利用這些全新的進(jìn)展開發(fā)出屬于自己的強(qiáng)大圍棋程序。”
DeepMind如約在Nature發(fā)布了這篇論文《Mastering the game of Go without human knowledge》。
論文中,DeepMind展示了AlphaGo Zero一種新的強(qiáng)化學(xué)習(xí)方式,通過自我對弈學(xué)習(xí)AlphaGo Zero 成為自己的老師。這個學(xué)習(xí)系統(tǒng)從一個對圍棋游戲完全沒有任何知識的神經(jīng)網(wǎng)絡(luò)開始。然后,通過將這個神經(jīng)網(wǎng)絡(luò)與一種強(qiáng)大的搜索算法相結(jié)合,它就可以自己和自己下棋了。
在它自我對弈的過程中,神經(jīng)網(wǎng)絡(luò)被調(diào)整、更新,以預(yù)測下一個落子位置以及對局的最終贏家。這個更新后的神經(jīng)網(wǎng)絡(luò)又將與搜索算法重新組合,進(jìn)而創(chuàng)建一個新的、更強(qiáng)大的 AlphaGo Zero 版本,再次重復(fù)這個過程。在每一次迭代中,系統(tǒng)的性能都得到一點(diǎn)兒的提高,自我對弈的質(zhì)量也在提高,這就使得神經(jīng)網(wǎng)絡(luò)的預(yù)測越來越準(zhǔn)確,得到更加強(qiáng)大的 AlphaGo Zero版本。
這種技術(shù)比上一版本的 AlphaGo 更強(qiáng)大,因?yàn)樗辉偈芟抻谌祟愔R的局限。在進(jìn)行了3天的自我訓(xùn)練后,AlphaGo Zero在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界冠軍的韓國九段棋士李世石。經(jīng)過 40 天的自我訓(xùn)練后,AlphaGo Zero 變得更加強(qiáng)大,超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上最優(yōu)秀的棋士、世界第一的柯潔。endprint