葉子
在大多數(shù)用來(lái)考察人類(lèi)智慧的游戲中,如國(guó)際象棋、拼字游戲、奧賽羅棋、甚至《絕境邊緣》(一個(gè)益智問(wèn)答游戲節(jié)目)中,機(jī)器都能毫不費(fèi)力地?fù)魯∪祟?lèi)。但圍棋一直是一個(gè)例外。這款游戲有著2500年的歷史,比國(guó)際象棋要艱深復(fù)雜得多,即使是最機(jī)敏的計(jì)算機(jī)系統(tǒng),也比人類(lèi)圍棋大師要差了一大截。就在本月初,一些業(yè)內(nèi)頂尖的人工智能專(zhuān)家還質(zhì)疑近期內(nèi)我們能否在這方面取得突破。去年更有很多人認(rèn)為,還要再過(guò)10年,機(jī)器才可能在圍棋比賽中取得上風(fēng)。
但谷歌卻先人一步成功了。“這比我想象的要快得多。”法國(guó)研究人員雷米·科隆說(shuō)道。他研發(fā)的人工智能系統(tǒng)曾是世界上最出色的機(jī)器圍棋選手。
谷歌DeepMind團(tuán)隊(duì)自稱(chēng)“人工智能領(lǐng)域的阿波羅計(jì)劃”。2015年10月,他們?cè)趥惗亟M織了一場(chǎng)機(jī)器與人類(lèi)之間的對(duì)決。該團(tuán)隊(duì)研發(fā)的系統(tǒng)名叫AlphaGo,它要對(duì)付的人類(lèi)選手是歐洲圍棋冠軍樊麾。在《自然》雜志的一名編輯和英國(guó)圍棋聯(lián)合會(huì)的一名權(quán)威人士的監(jiān)督下,他們連續(xù)進(jìn)行了5輪較量,AlphaGo均取得了勝利?!盁o(wú)論是作為一名研究人員還是編輯,這都算是我職業(yè)生涯中最令人激動(dòng)的時(shí)刻之一?!薄蹲匀弧冯s志編輯唐吉·肖爾德博士在一次記者會(huì)上說(shuō)道。
英國(guó)時(shí)間1月27日早晨,《自然》雜志發(fā)表了一篇論文,詳細(xì)介紹了DeepMind團(tuán)隊(duì)研發(fā)的系統(tǒng)。該系統(tǒng)采用了一種名叫“深度學(xué)習(xí)”的人工智能技術(shù),這種技術(shù)在該領(lǐng)域的地位正變得越來(lái)越重要。DeepMind的研究人員從專(zhuān)業(yè)棋手那里收集了大量走棋方法,總步數(shù)多達(dá)3000萬(wàn)次,并利用這些數(shù)據(jù)對(duì)AlphaGo系統(tǒng)進(jìn)行了訓(xùn)練。但這還只是第一步而已。從理論上來(lái)說(shuō),這樣的訓(xùn)練方式頂多能讓計(jì)算機(jī)系統(tǒng)和最優(yōu)秀的人類(lèi)選手達(dá)到同等水平,不可能超越人類(lèi)。因此研究人員先讓該系統(tǒng)自己和自己比賽,在這一過(guò)程中產(chǎn)生更多的走棋方法,然后再用這些方法訓(xùn)練新的人工智能系統(tǒng),逐步提高其圍棋水平。
“最重要的是,AlphaGo不僅僅是一個(gè)出色的人工智能系統(tǒng),只知道實(shí)行人工植入的規(guī)則”,負(fù)責(zé)監(jiān)管DeepMind團(tuán)隊(duì)的德米斯·哈薩比斯說(shuō)道,“它還采用了目前普遍使用的機(jī)器學(xué)習(xí)技術(shù),從而在圍棋比賽中取勝?!?/p>
這次勝利其實(shí)并沒(méi)有那么新奇。谷歌、Facebook和微軟等線上服務(wù)提供商已經(jīng)使用了深度學(xué)習(xí)技術(shù),用于辨認(rèn)圖像、識(shí)別語(yǔ)音、以及理解自然語(yǔ)言等。DeepMind將深度學(xué)習(xí)與一種名為“增強(qiáng)學(xué)習(xí)”的技術(shù)和其他方法結(jié)合起來(lái),說(shuō)明在未來(lái)的世界中,機(jī)器人能夠?qū)W會(huì)執(zhí)行各種動(dòng)作,還能對(duì)周?chē)h(huán)境做出反應(yīng)。“對(duì)于機(jī)器人來(lái)說(shuō),這是順理成章的事情?!惫_比斯說(shuō)道。
他還認(rèn)為這些手段能加速科學(xué)研究的進(jìn)展。在他的想象中,科學(xué)家有一天會(huì)和人工智能系統(tǒng)一起工作,而這些人工智能系統(tǒng)將會(huì)被運(yùn)用到可能取得豐碩成果的研究領(lǐng)域中去?!坝?jì)算機(jī)系統(tǒng)能夠處理大量數(shù)據(jù),揭露數(shù)據(jù)結(jié)構(gòu)特征,工作效率遠(yuǎn)比人類(lèi)專(zhuān)家要高——有些事情人類(lèi)甚至根本做不到。”哈薩比斯解釋道,“這些計(jì)算機(jī)系統(tǒng)甚至能為人類(lèi)專(zhuān)家指明研究方向,引領(lǐng)他們?nèi)〉猛黄??!?/p>
但就目前來(lái)看,圍棋仍然是哈薩比斯最關(guān)注的領(lǐng)域。讓AlphaGo在辦公室中打敗人類(lèi)選手之后,哈薩比斯及其團(tuán)隊(duì)希望能在公開(kāi)的競(jìng)技場(chǎng)上,和世界頂級(jí)圍棋選手一決高下。今年3月中旬,AlphaGo將挑戰(zhàn)韓國(guó)棋手李世[石][乙],后者贏得的國(guó)際大獎(jiǎng)數(shù)居世界第二,是過(guò)去10年中獲勝次數(shù)最多的棋手。哈薩比斯將他視為“圍棋世界中的費(fèi)德勒”。
2014年年初,科隆研發(fā)的圍棋軟件Crazystone在日本的一次錦標(biāo)賽中向圍棋大師依田紀(jì)基發(fā)起了挑戰(zhàn),并取得了勝利。但這次對(duì)決并不公平,因?yàn)闄C(jī)器可以先走4步,占據(jù)了巨大的優(yōu)勢(shì)。當(dāng)時(shí)科隆預(yù)言稱(chēng),人工智能至少要再過(guò)10年才能在無(wú)讓子的圍棋比賽中取勝。
這項(xiàng)挑戰(zhàn)的難度是由圍棋本身的特點(diǎn)決定的。即使是最強(qiáng)大的超級(jí)計(jì)算機(jī),也缺乏在合理的時(shí)間內(nèi)分析出每種走法可能的結(jié)果的能力。1997年,“深藍(lán)”擊敗了世界頂級(jí)象棋棋手加里·卡斯帕羅夫,它使用的算法名叫“蠻力窮舉法”。它分析了每一種可能的走法將產(chǎn)生的結(jié)果,而人類(lèi)是不可能考慮這么多的。但這種方法對(duì)圍棋就無(wú)效了。在國(guó)際象棋中,平均每回合有35種走棋方式。而圍棋每回合有250種可能的走棋方式,250種中的每一種又有250種,以此類(lèi)推。哈薩比斯指出,圍棋棋盤(pán)上可能的布棋方式總和比宇宙中所有原子的數(shù)量還多。
利用一種名叫蒙特卡洛樹(shù)的搜索算法,像Crazystone這樣的程序可以提前算出很多步走棋結(jié)果。再配合其他技術(shù),它們還可以逐步去除需要分析的走法。這樣一來(lái),它們遲早會(huì)打敗一些出色的棋手——但無(wú)法擊敗最出色的棋手。對(duì)于棋類(lèi)大師來(lái)說(shuō),走棋很多時(shí)候靠的都是直覺(jué)。棋手會(huì)根據(jù)棋子的整體分布來(lái)選擇走法,而不會(huì)細(xì)致地分析每一步的結(jié)果。“好的位置看起來(lái)就很好,”哈薩比斯說(shuō)道,他本身就是一名圍棋棋手,“圍棋似乎也遵循一定的審美原則,所以這種游戲才得以延續(xù)數(shù)千年?!?/p>
但在2014和2015年之交,一些人工智能專(zhuān)家,包括愛(ài)丁堡大學(xué)、Facebook、以及DeepMind團(tuán)隊(duì)的研究人員,開(kāi)始采用深度學(xué)習(xí)法解決圍棋問(wèn)題。他們的想法是,這種技術(shù)能模擬人類(lèi)的直覺(jué),而直覺(jué)正是下圍棋時(shí)必不可少的東西?!皣迨且环N含蓄的游戲,講究圖案的配合,”哈薩比斯說(shuō)道,“而那正是深度學(xué)習(xí)法所擅長(zhǎng)的領(lǐng)域?!?/p>
深度學(xué)習(xí)需要依賴(lài)所謂的“神經(jīng)網(wǎng)絡(luò)”,即由硬件和軟件組成的、模擬人類(lèi)大腦中神經(jīng)網(wǎng)的網(wǎng)絡(luò)。這些網(wǎng)絡(luò)采用的不是蠻力窮舉法,也不依靠人工植入的行動(dòng)準(zhǔn)則。它們會(huì)對(duì)大量數(shù)據(jù)進(jìn)行分析,試圖“學(xué)會(huì)”執(zhí)行某個(gè)特定的任務(wù)。如果讓神經(jīng)網(wǎng)絡(luò)看大量的袋鼠照片,它就能學(xué)會(huì)認(rèn)出一只袋鼠。如果讓它聽(tīng)大量的單詞,你再讀出這個(gè)單詞時(shí),它就能聽(tīng)出來(lái)你說(shuō)的是什么。如果讓它了解大量的圍棋走棋方法,它就能學(xué)會(huì)下圍棋。
DeepMind團(tuán)隊(duì)、愛(ài)丁堡大學(xué)和Facebook的研究人員希望,神經(jīng)網(wǎng)絡(luò)能夠通過(guò)“觀察”棋子位置掌握下圍棋的方法,和人類(lèi)差不多。Facebook近日在一篇論文中指出,這一技術(shù)使用起來(lái)相當(dāng)不錯(cuò)。他們將深度學(xué)習(xí)法和蒙特卡洛樹(shù)搜索方法結(jié)合起來(lái),成功讓計(jì)算機(jī)打敗了一些人類(lèi)圍棋棋手。不過(guò)他們還沒(méi)有擊敗Crazystone和其他頂尖的人工智能系統(tǒng)。
但DeepMind成功將這一概念向前推動(dòng)了一大步。在接受了3000萬(wàn)步人類(lèi)的圍棋走法訓(xùn)練之后,DeepMind神經(jīng)網(wǎng)絡(luò)能夠以57%的成功率預(yù)測(cè)人類(lèi)下一步的走棋方法。這個(gè)成功率可謂十分驚人,因?yàn)榇饲暗挠涗浿皇?4%。接下來(lái),哈薩比斯及其團(tuán)隊(duì)采用增強(qiáng)學(xué)習(xí)法,讓這個(gè)神經(jīng)網(wǎng)絡(luò)和另一個(gè)與之稍有不同的網(wǎng)絡(luò)進(jìn)行比拼。在兩個(gè)神經(jīng)網(wǎng)絡(luò)比賽的同時(shí),系統(tǒng)會(huì)追蹤哪種走法帶來(lái)的效益最大。利用這種方法,該系統(tǒng)越來(lái)越能夠識(shí)別出哪種走法能夠取得成功,哪種走法則會(huì)導(dǎo)致失敗。
“AlphaGo的神經(jīng)網(wǎng)絡(luò)和自己比賽了上百萬(wàn)次,在這一過(guò)程中不斷改進(jìn),全靠自己學(xué)會(huì)了新的走棋策略?!?DeepMind團(tuán)隊(duì)的一名研究人員戴維·希爾佛說(shuō)道。
據(jù)希爾佛稱(chēng),這種方法使AlphaGo在眾多會(huì)下圍棋的人工智能系統(tǒng)中脫穎而出,其中也包括Crazystone系統(tǒng)。然后研究人員將上一步得到的結(jié)果輸入二級(jí)神經(jīng)網(wǎng)絡(luò)中。該網(wǎng)絡(luò)使用一級(jí)網(wǎng)絡(luò)建議的走棋方法,使用了很多相同的方法來(lái)預(yù)測(cè)每一步的結(jié)果。這和“深藍(lán)”下象棋時(shí)的方法類(lèi)似,只不過(guò)AlphaGo系統(tǒng)會(huì)邊下邊學(xué),分析更多數(shù)據(jù),而不是通過(guò)蠻力窮舉法探索每種可能的結(jié)果。利用這種方法,AlphaGo不僅學(xué)會(huì)了如何打敗現(xiàn)有的人工智能系統(tǒng),還擊敗了頂級(jí)的人類(lèi)棋手。
和大多數(shù)先進(jìn)神經(jīng)網(wǎng)絡(luò)一樣,DeepMind系統(tǒng)使用的機(jī)器也配備了圖形處理器(GPU)。這些芯片最初是用來(lái)為游戲和其他對(duì)圖形敏感的程序處理圖像的,但研究人員發(fā)現(xiàn),GPU也很適合用來(lái)開(kāi)展深度學(xué)習(xí)。哈薩比斯表示,只需要用一臺(tái)裝配了大量GPU芯片的計(jì)算機(jī),DeepMind就能夠運(yùn)行得很好。但在與樊麾對(duì)戰(zhàn)時(shí),研究人員使用了規(guī)模更大的計(jì)算機(jī)網(wǎng),共裝載了170枚GPU芯片和1200臺(tái)標(biāo)準(zhǔn)處理器(CPU)。該系統(tǒng)在訓(xùn)練時(shí)和實(shí)際作戰(zhàn)時(shí),使用的都是這一大規(guī)模計(jì)算機(jī)網(wǎng)。
等AlphaGo前往韓國(guó)挑戰(zhàn)世界冠軍李世[石][乙]時(shí),哈薩比斯的團(tuán)隊(duì)將使用同樣的裝置,不過(guò)他們會(huì)對(duì)其進(jìn)行不斷改進(jìn)。這意味著,他們需要聯(lián)網(wǎng)才能和李世[石][乙]作戰(zhàn)。“我們正在鋪設(shè)自己需要的網(wǎng)絡(luò)光纖。”哈薩比斯說(shuō)道。
據(jù)科隆和其他專(zhuān)家稱(chēng),打敗世界冠軍李世[石][乙]比打敗樊麾要難得多。但科隆對(duì)DeepMind團(tuán)隊(duì)寄予厚望。在過(guò)去的10年中,他一直在努力打造能擊敗世界頂級(jí)棋手的圍棋系統(tǒng),而他現(xiàn)在認(rèn)為,這樣的系統(tǒng)已經(jīng)被研發(fā)出來(lái)了?!拔椰F(xiàn)在買(mǎi)GPU買(mǎi)得不亦樂(lè)乎。”他說(shuō)道。
AlphaGo具有極其重要的意義。它采用的技術(shù)不僅能用于機(jī)器人和科研領(lǐng)域,從類(lèi)似Siri的移動(dòng)數(shù)碼助手,到進(jìn)行金融投資,這一技術(shù)在很多任務(wù)中都能助人一臂之力。“你可以用它來(lái)解決各種棘手的問(wèn)題,處理任何需要用到策略的、類(lèi)似于游戲的事情?!鄙疃葘W(xué)習(xí)初創(chuàng)公司Skymind的創(chuàng)始人克里斯·尼克爾森說(shuō)道,“比如戰(zhàn)爭(zhēng)或商業(yè)交易等?!?/p>
有些人對(duì)此感到有些擔(dān)憂,尤其是當(dāng)他們想到DeepMind系統(tǒng)是通過(guò)自學(xué)學(xué)會(huì)圍棋的時(shí)候。該系統(tǒng)不僅僅是通過(guò)人類(lèi)提供的數(shù)據(jù)來(lái)學(xué)習(xí)的,它還會(huì)產(chǎn)生自己的數(shù)據(jù),做到自己教自己。就在前幾個(gè)月,特斯拉創(chuàng)始人伊隆·馬斯克和其他人紛紛表達(dá)了自己的擔(dān)憂,認(rèn)為這樣的人工智能系統(tǒng)遲早會(huì)超越人類(lèi),并脫離我們的掌控。
但DeepMind系統(tǒng)還處在哈薩比斯等研究人員的嚴(yán)密控制之下。雖然他們正在使用該系統(tǒng)破解一款極為復(fù)雜的游戲,但游戲到底只是游戲而已。的確,要想媲美真正的人類(lèi)智慧,AlphaGo還有很長(zhǎng)的一段路要走,還遠(yuǎn)稱(chēng)不上超級(jí)智能。“眼下的情況非常規(guī)范,”人工智能法律教授、華盛頓大學(xué)的技術(shù)政策實(shí)驗(yàn)室創(chuàng)始人雷恩·卡羅說(shuō)道,“該系統(tǒng)的理解能力并未真正達(dá)到人類(lèi)的水平?!钡撓到y(tǒng)指明的方向的確如此。如果DeepMind的人工智能系統(tǒng)能理解圍棋的玩法,也許它遲早會(huì)明白更多的東西?!皶?huì)不會(huì)整個(gè)宇宙都僅僅是一盤(pán)巨大的圍棋呢?”卡羅問(wèn)道。