何永華 朱衛(wèi)綱 唐曉婧
【摘 要】本文主要從圍棋人機(jī)大戰(zhàn)中AlphaGo的表現(xiàn)談起,尤其是被贊為“神之一手”的稱其有“吳清源”之風(fēng)的“黑37”步棋,可能包含了無窮無盡的計(jì)算、判斷與預(yù)謀。AlphaGo的勝利,讓如今已經(jīng)很火的深度學(xué)習(xí)益發(fā)成為人工智能領(lǐng)域的焦點(diǎn),昭示了未來幾年人工智能很可能會以超出我們想象的速度發(fā)展,也許能夠勝任更多人類智力所不及的任務(wù)。但是,人工智能在某種程度上來說,也許并不在它的創(chuàng)造者的控制范圍內(nèi),出于失控的風(fēng)險(xiǎn)考慮,是否有一些人工智能從一開始就不應(yīng)該被發(fā)明出來?
【關(guān)鍵詞】李世石;AlphaGo;人工智能
在今年三月份這場歷史性的圍棋人機(jī)(李世石和AlphaGo)大戰(zhàn)中,世人的目光都集中在李世石和AlphaGo身上——一個(gè)是當(dāng)世最偉大的圍棋手,一個(gè)是全世界最好的人工智能專家花了兩年時(shí)間開發(fā)出來的強(qiáng)大的自學(xué)習(xí)系統(tǒng)。
縱觀韓國圍棋界,李世石是繼獨(dú)步天下的李昌鎬之后,韓國最具代表性的棋手,自2002年加冕富士通杯以來,10年時(shí)間里他共獲得14個(gè)世界冠軍,數(shù)量僅次于李昌鎬的17個(gè)。
比賽結(jié)果是李世石1:4落后于AlphaGo。在這場舉世矚目的人機(jī)大戰(zhàn)中,很多人折服于AlphaGo的精準(zhǔn)、聰明和大局意識。人們問AlphaGo為什么如此厲害,工程師給出的答案是它有“兩個(gè)大腦”;一個(gè)輸入了3000萬盤人類頂級棋手對弈數(shù)據(jù),通過“自我對戰(zhàn)”來進(jìn)行增強(qiáng)學(xué)習(xí),改善此前的決策網(wǎng)絡(luò);另一個(gè)通過價(jià)值網(wǎng)絡(luò)來進(jìn)行整體局面判斷,決策網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)協(xié)作決定落子位置。
關(guān)于這場萬眾矚目的世紀(jì)大戰(zhàn),賽前最大的懸念,也是構(gòu)成比賽最大的魅力之一就是,賽前沒有人、連谷歌DeepMind的工程師都不知道AlphaGo的棋力到了什么水平。即使比賽之后,人們?nèi)匀桓悴磺宄嗀lphaGo的棋力到底到了什么水平,以及他能夠達(dá)到什么水平。
大家記憶中應(yīng)該還深刻記得,最為意味深遠(yuǎn)的一幕是在第二局,AlphaGo在下第37手棋時(shí),突然從右下角的戰(zhàn)役中離開,跑到右上側(cè)開闊的疆域作戰(zhàn)。當(dāng)時(shí)現(xiàn)場解說員邁克。西蒙(西方唯一的圍棋九段職業(yè)棋手)吃了一驚,說:“這一著很怪。”另一個(gè)顯然水平比較差的解說員附和著笑了一下,不經(jīng)意的說:“也許是機(jī)器又犯傻了”。但李世石看到此棋一落,突然一言不發(fā),面無表情的出去了,回來以后喝了一口咖啡,陷入了漫長的15分鐘沉思。還記得李世石在賽前宣稱自己將以5:0全勝。他相信下圍棋這件事情里面有一些東西是機(jī)器不可能模仿的。作為人類代表,他發(fā)誓要守護(hù)圍棋之美。但事實(shí)上,從第二局開始,形勢已經(jīng)發(fā)生了驚人的逆轉(zhuǎn)。在此之前,是AlphaGo挑戰(zhàn)李世石,但在此之后,已經(jīng)是李世石在挑戰(zhàn)AlphaGo了。10秒鐘后,AlphaGo下的那一顆看似與之前的棋子毫無關(guān)聯(lián)的黑棋,奇跡般的以燕尾之勢與它之前的18顆黑子相聯(lián)合。在圍棋職業(yè)棋手們事后的不斷回味中,AlphaGo的這步棋(黑37)被人贊為“神之一手”,其中似乎包含了無窮無盡的計(jì)算、判斷與預(yù)謀,現(xiàn)場解說員甚至稱其有“吳清源”之風(fēng)。
AlphaGo的技術(shù)框架采用的是模仿人類大腦神經(jīng)的模式,通過深度學(xué)習(xí)把人工神經(jīng)網(wǎng)絡(luò)的層級大大增加,提升了計(jì)算能力。AlphaGo的勝利,讓如今已經(jīng)很火的深度學(xué)習(xí)益發(fā)成為人工智能領(lǐng)域的焦點(diǎn)。
簡單地說,人工神經(jīng)網(wǎng)絡(luò)是一種從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,按不同的連接方式組成不同網(wǎng)絡(luò)的算法數(shù)學(xué)模型。它由一層一層的神經(jīng)元構(gòu)成,層數(shù)越多就越深。而所謂深度學(xué)習(xí)就是用多層神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò),以達(dá)到機(jī)器學(xué)習(xí)的功能。這些多層的電腦網(wǎng)絡(luò)像人類大腦一樣,可以收集信息,并基于收集到的信息產(chǎn)生相應(yīng)的行為,也就是“認(rèn)識”事物,并做出行動。
按照谷歌DeepMind的聯(lián)合創(chuàng)始人德米斯.哈薩比斯賽前的說法,這也是創(chuàng)造AlphaGo出來的初衷:讓機(jī)器學(xué)會像人類一樣學(xué)習(xí)。
到目前為止,人類仍然是這個(gè)星球上最擅長學(xué)習(xí)的物種——李世石可以在四盤棋局里不斷調(diào)整策略,并成功找到AlphaGo的弱點(diǎn),而AlphaGo在此期間卻沒有任何辦法做任何調(diào)整,因?yàn)闄C(jī)器學(xué)習(xí)需要龐大的數(shù)據(jù)和漫長的訓(xùn)練時(shí)間,單棋局的經(jīng)驗(yàn)對它來說毫無意義。很多人以為AlphaGo能從與李世石的對決中學(xué)到很多東西,其實(shí)幾盤棋根本無法對AlphaGo產(chǎn)生作用,它至少需要上千個(gè)棋局的數(shù)據(jù)和一個(gè)多月的時(shí)間,才能訓(xùn)練出新的版本出來。
AlphaGo的勝利昭示了未來幾年人工智能很可能會以超出我們想象的速度發(fā)展。我們對李世石的感同身受,恐怕就是因?yàn)槎嗌傩岬搅似渲形kU(xiǎn)與刺激的氣息。
在那個(gè)瞬息萬變的棋盤上,作為過去10年公認(rèn)的全球最優(yōu)秀的圍棋手,李世石不僅在代表人類與機(jī)器進(jìn)行一場智力上的對決,而且也在代表我們第一次“探訪”一個(gè)全新的世界——一個(gè)機(jī)器智慧與人類智慧共存,甚至在某些層面超出人類控制的世界。人類曾經(jīng)在小說與電影中無數(shù)次想象過這個(gè)世界,其中有憧憬,也有噩夢,但從沒想過它會來的這么快。
在此之前,我們恐怕從來沒有把“人工智能”這件事情當(dāng)真過。是的,機(jī)器曾經(jīng)在很多智力游戲上打敗過人類,跳棋、國際象棋、拼字游戲、智力問答……但一直以來,在一切創(chuàng)造性領(lǐng)域,機(jī)器的智慧與人類相比仍然不值一提。但是,AlphaGo這一次是在人類最引以為自豪、代表著人類某種最該智慧形式的圍棋上打敗了人類。
在三天的觀賽期間,德米斯.哈薩比斯不止一次對AlphaGo的精妙棋法表示“驚奇”。他的“驚奇”可以從以下兩個(gè)方面來解讀:
一方面,AlphaGo的學(xué)習(xí)與決策能力如此之高,意味著它可以為人類所用,幫助人類棋手在圍棋上達(dá)到更高的境界,開拓出更多的可能性,甚至勝任更多人類智力所不及的任務(wù),比如氣候變化、藥物研發(fā)、金融系統(tǒng)、疾病診斷……等等。
但另一方面,哈薩比斯的“驚奇”也暗示了AlphaGo在某種程度上不在它的創(chuàng)造者的控制之內(nèi)。這樣的失控在棋盤上固然無關(guān)緊要,但一旦應(yīng)用到現(xiàn)實(shí)世界,必然會引發(fā)道德與倫理上的問題。比如:當(dāng)AlphaGo的未來版本為我們開車,診斷疾病甚至防止犯罪時(shí),我們應(yīng)該給它們多大的權(quán)限?我們應(yīng)該如何在如此復(fù)雜的人工智能里嵌入人類控制?出于失控的風(fēng)險(xiǎn)考慮,是否有一些人工智能從一開始就不應(yīng)該被發(fā)明出來?
【參考文獻(xiàn)】
[1]陳賽.我們的對手是未知還是自己[J]. 三聯(lián)生活周刊,2016(12):34.
[2]陳賽.AlphaGo到底有多聰明[J].三聯(lián)生活周刊,2016(12):37.
[3]李翊.李世石和一代代棋人[J].三聯(lián)生活周刊,2016(12):50.
[4]曹玲.AlphaGo背后:深度學(xué)習(xí)的勝利[J].三聯(lián)生活周刊,2016(12):61.