周倩
AlphaGo屬于“強人工智能”,已初步具備了機器學習能力,能夠根據(jù)經(jīng)驗數(shù)據(jù)進行“自我智能升級”,使人類棋手相形失色。AlphaGo在訓練、學習中形成了策略和價值兩大網(wǎng)絡,其最令人震驚的地方,是它已經(jīng)能夠模仿人的直覺,這就使AI科學走向一個新的境界,更接近理解人類的大腦運作。
2014年,谷歌斥資6.5億美元收購了英國公司DeepMind(深度思維),當時這家公司只有AI游戲方面的技術,谷歌為的是攏住該公司12名深度算法人才。這項交易屬于谷歌對人工智能人才收購戰(zhàn)略的一部分,由當時的谷歌CEO拉里·佩奇(Larry Page)親自負責,并全程主導。
2016年,由DeepMind多年打造的一款圍棋人工智能程序AlphaGo,以4∶1的戰(zhàn)績戰(zhàn)勝韓國頂尖棋手李世石。2017年,AlphaGo化身為神秘棋手“Master” 連續(xù)戰(zhàn)勝包括柯潔、聶衛(wèi)平、古力等多名圍棋名將,再次創(chuàng)造歷史。實現(xiàn)對弈柯潔“三連勝”戰(zhàn)績之后,“AlphaGo之父”、DeepMind創(chuàng)始人杰米斯·哈薩比斯宣布AlphaGo退役。這場世界圍棋領域的“人機對決”由此畫上了句號,但AI科技迎來了新的起點。從這個意義上講,AlphaGo的出現(xiàn)可謂是意義非凡。那么,AlphaGo的高智商究竟是怎樣煉成的?
“AlphaGo之父”的時間簡史
隨著AlphaGo的享譽世界,現(xiàn)年42歲的哈薩比斯已經(jīng)成為人工智能(AI)領域炙手可熱的科技天才。英國《衛(wèi)報》有過一個評論:(哈薩比斯)這位被稱為“人工智能英雄”的天才,顯然已經(jīng)成了“AI的代名詞”。Google的執(zhí)行總裁拉里·佩奇更是將哈薩比斯長期專注的技術領域稱為“長久以來我見過的最令人興奮的事件之一”。
長期以來,了解和創(chuàng)造人工智能的不懈努力,引領哈薩比斯經(jīng)歷了三個職業(yè)生涯:游戲開發(fā)者、神經(jīng)系統(tǒng)科學家和人工智能企業(yè)家。從電腦游戲到人工智能,這正是人類進入AI時代真實的創(chuàng)新過程。
哈薩比斯在17歲時就參與設計和開發(fā)了20世紀90年代的經(jīng)典游戲《主題公園》,1997年他從劍橋大學畢業(yè),第二年就成立了自己的游戲公司,開發(fā)了包括《革命》和《魔鬼天才》等風靡一時的游戲,每款都能賣出幾百萬套。在人為設定的游戲場景中,玩家可以自由扮演一個“虛擬化的自我”,為了打造更好的游戲體驗,哈薩比斯不斷嘗試引入人工智能元素。
2005年,哈薩比斯希望通過“腦科學的研究”來發(fā)現(xiàn)對研究人工智能有用的線索,于是,他決定到倫敦大學進修“神經(jīng)系統(tǒng)科學”博士學位。在此期間,他選擇了海馬體做研究對象——海馬體主要負責記憶以及空間導向,至今人類對它的認知還很少。哈薩比斯之前沒有系統(tǒng)學習過高中生物課程,他立足于自己的強項——計算機算法,去做腦科學研究,很快取得了成就。
2007年,他的一項研究被《科學》雜志評為“年度突破獎(Breakthrough of the Year)”。在這項研究中,他發(fā)現(xiàn)5位失憶癥患者因為海馬體受損而很難想象未來事件。從而證明了大腦中以往被認為只與過去有關的部分對于規(guī)劃未來也至關重要。2011年,哈薩比斯開啟了新一階段的冒險,創(chuàng)立了以“解決智能”為經(jīng)營理念的DeepMind 科技公司。
當時,DeepMind的投資方包括硅谷創(chuàng)投教父彼得·蒂爾的Founders Fund、李嘉誠的維港投資、一家與特斯拉CEO埃隆·馬斯克有關的信托基金等。直到2014年被谷歌收購,DeepMind都還只是一家名不見經(jīng)傳的英國初創(chuàng)公司。
在此后的兩年時間里,Google DeepMind實現(xiàn)了兩個重大突破:一是2015年DeepMind發(fā)表了有關“學習掌握”Atari游戲的算法的論文,并登上了Nature(《自然》)雜志封面。Atari游戲的重大創(chuàng)新在于“具備復雜的機器學習能力”,這正是人工智能的重要特征。
二是AlphaGo的誕生,哈薩比斯和他的團隊開始把注意力轉移到圍棋這一古老而又復雜的中國游戲上。圍棋的復雜程度難以想象,如何“教計算機下圍棋”,此前AI科學家們研究了幾十年一直無法突破,而AlphaGo克服了這一難題,將AI技術推向新的高度。
那么,AlphaGo的突破性創(chuàng)新究竟體現(xiàn)在哪里?
弱人工智能VS強人工智能
DeepMind推出下圍棋的智能程序AlphaGo,只是他們體現(xiàn)人工智能的一個方式,他們未來可以用這種計算機算法做很多事情,比如用計算機管理共同基金,只需保證投資回報率比人工管理的基金高一個百分點,就足以成為全世界最大的基金管理公司。推廣開來,AI科技在交通、醫(yī)療、倉儲物流等方面的應用,也是基于其算力和算法的優(yōu)勢。
之所以選擇圍棋,而不是選擇別的什么方式,來體現(xiàn)人工智能,這跟哈薩比斯的個人經(jīng)歷有關。哈薩比斯13歲就獲得國際象棋大師的頭銜,在14歲年齡組中全球排名第二。哈薩比斯19歲就開始學圍棋,具有業(yè)余1段段位。而他在DeepMind的其他同事中,還有棋齡更長的人。他們都是高智商的科技人才,圍棋對他們來說,即使達不到專業(yè)水平,也可以比較輕松地達到業(yè)余高手的程度。而且20多年前,IBM推出的“深藍”電腦,也是通過與國際象棋大師的對弈來體現(xiàn)性能的。
1997年5月11日,IBM開發(fā)的計算機程序“深藍”在人機對弈中,擊敗了當時排名世界第一的國際象棋大師卡斯帕羅夫。而20年后,谷歌的AlphaGo擊敗了職業(yè)圍棋排名世界第一的中國棋手柯潔。同樣是計算機程序戰(zhàn)勝人類棋手,兩者有什么不同呢?
20多年前的IBM“深藍”電腦屬于“弱人工智能”,那終究是一套預先寫入程序的系統(tǒng),相當于一位頂級程序員在和象棋大師對弈,這位程序員嘗試揣摩人類棋手腦子里在想什么,并把相應的對策全部編寫到程序里。這個技術很了不起,但只是在執(zhí)行預先寫入的命令,而不是自己來學習、決策。而“機器學習”恰恰是人工智能區(qū)別于一般計算機程序的最大特征。
AlphaGo屬于“強人工智能”,初步具備了這種“機器學習”能力,能夠根據(jù)“經(jīng)驗數(shù)據(jù)”進行“自我智能升級”,才使人類棋手無可奈何??聺嵶龅搅巳祟惼迨炙苓_到的極限,無論是穩(wěn)招還是險招,都沒能在AlphaGo密不透風的計算能力面前找到一個突破口。AlphaGo真正的厲害之處就在于,它完全不用人類棋手的棋譜,從零開始學習,戰(zhàn)勝柯潔大概只學習了21天,學習40天就能戰(zhàn)勝之前的任何AlphaGo版本,實現(xiàn)機器自身的全面智能升級。
策略網(wǎng)絡和價值網(wǎng)絡
外界普遍存在疑惑:人類從20世紀60年代就開始琢磨“怎么教計算機下圍棋”,為什么只有AlphaGo實現(xiàn)了突破呢?在棋局中對弈,說到底就一個問題:看一眼棋局,決定下一步怎么走。如果計算機足夠快,可以把所有可能的棋局都模擬一遍,選一個能贏的招式就可以。可是,合乎規(guī)則的圍棋變化,比宇宙中的原子數(shù)還多,計算機也無能為力。
所以,教計算機下圍棋這件事,幾十年來都懸而未決,直到AlphaGo的出現(xiàn)。AlphaGo的聰明之處是,不必挑戰(zhàn)最難做到的路徑——不必將圍棋棋局的所有可能變化都模擬一遍,也不要停留在IBM“深藍”電腦的初級階段——機器只有預先設定好的程序而沒有學習能力。
AlphaGo的策略就是快速訓練、高效學習,讓零基礎的AlphaGo觀摩海量的人類棋譜,又不局限于此,還要讓AlphaGo自己跟自己下棋,又創(chuàng)造出了海量棋譜。AlphaGo學得又多又快,在訓練、學習中形成兩大網(wǎng)絡:
一是策略網(wǎng)絡(policy network):在學習了大量棋譜的套路之后,AlphaGo形成了超強“預測能力” 。人機對弈之中,人類棋手還沒動手,AlphaGo就已經(jīng)猜到棋子可能會落在哪里。這時,它發(fā)現(xiàn)幾個出現(xiàn)概率較高、看上去很有潛力的點。二是價值網(wǎng)絡(value network):當策略網(wǎng)絡解決了“棋子落地的概率分布”后,價值網(wǎng)絡就開始考慮“下一步怎么走能贏”。先假設棋子下在某一點,然后對之后的對弈過程進行模擬,判斷棋子這樣走贏面大不大。
整個過程,需要用到一種叫做蒙特卡洛樹搜索(MCTS)的算法,結合策略網(wǎng)絡和價值網(wǎng)絡的分析結果之后,最終確定了下一步的落子方案。
IBM“深藍”電腦與AlphaGO的策略路徑,從根本上是不同的:IBM“深藍”電腦在設計程序時,程序員必須是深通棋理,靠嚴密的邏輯去贏。這很符合科學研究的一般思維方式,用嚴密的邏輯去證明事物的正確性。AlphaGO在設計程序時,程序員可以不用太了解棋理,只需通過學習很多“樣本”,通過樣本特征進行“建模”,這樣對未知事物進行預測。
IBM“深藍”電腦是“推理、分析很快”,AlphaGO是“學習很快”。機器的計算能力是無窮無盡的,可以有多少、學多少,其最終能達到的高度只取決于數(shù)據(jù)量。當數(shù)據(jù)量很充足的時候,機器學習方法所能得到的結果,可以無限逼近于事物的本質面貌。所以,AlphaGO并不懂棋理,也說不出什么理論基礎,它只知道怎么下能贏,至于為什么要這么下,它自己也無法解釋,誰也無法解釋。歸根到底,AlphaGO是靠數(shù)據(jù)訓練出來的機器智能。
如何給“機器智能”做測試
AlphaGo風靡世界之際,如果有人問你什么是“人工智能”?大多數(shù)人給出的回答是模模糊糊的。你可能會覺得,只要“機器具備人的思考能力”就是人工智能,或者AlphaGo就是人工智能。這都是不準確的。
你首先要從根本上了解,“智能”究竟是什么,然后用人工的方法去創(chuàng)造它。計算機鼻祖阿蘭·圖靈在1936年就提出一個思想試驗,叫“圖靈測試(The Turing test)”。就是設計一個情景,在測試者(一個人)與被測試者(一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試之后,如果有超過30%的測試者不能確定,被測試者是人還是機器,那么這臺機器就通過了測試,并被認為“具有人類智能”。以這個標準看來,IBM“深藍”電腦就已經(jīng)具有人類智能了。
可是,人類智能就這么簡單嗎?人腦最大的強項其實是人類可以從某一任務中學習,并將相關經(jīng)驗應用在其他未遇到過的問題,也就是“舉一反三”。機器智能很難具備這種“舉一反三”的能力,而DeepMind就是想賦予機器這種能力。換成專業(yè)術語,就是“要解決AI的通用性問題”。
AlphaGo最大的創(chuàng)新突破在于“通用學習”這四個字。AlphaGo打造的通用學習機器有兩個特性,一個是“學習”,即非程序預設,可以自主學習原始材料;另一個是通用性,即同一個系統(tǒng)可以“舉一反三”執(zhí)行多種任務。按照哈薩比斯自己的話說,“通用的強人工智能,與現(xiàn)在弱人工智能不一樣,目前弱人工智能都是預設的,其實IBM在上世紀90年代設計的國際象棋程序也是預設的人工智能,它是通過蠻力搜索,機器被動接受這個程序,不能自我學習?!?/p>
DeepMind追求的強人工智能,可以達到一種“觀察和自主通用學習”的效果。智能體可以觀察環(huán)境,這其中有視覺、聽覺、觸覺等觀察方式。此后,在頭腦中設置一個想法,然后采取行動,踐行計劃。在實時的觀察中就可以行動。如果能解決這個問題,其實,強人工智能就已經(jīng)實現(xiàn)了,這與人類這一智能體觀察學習的方式是一樣的。
當然,強人工智能體現(xiàn)在AlphaGo身上,并不僅僅只是感知環(huán)境、在機器大腦(處理器加上存儲器)中形成想法,然后做出反應這么單調。說起來很不可思議,AlphaGo戰(zhàn)勝人類棋手的一大關鍵是“直覺”!
下象棋,每走一步都可以講出很多道理,這個邏輯是非常清晰的,所以,給IBM“深藍”電腦預設智能程序,始終是在可推理的邏輯范疇內。圍棋則復雜得多,更需要直覺,偉大的旗手往往難以解釋他們?yōu)槭裁聪铝诉@一步棋。一個棋子怎么走,一步輸步步輸,牽一發(fā)而動全身。什么是直覺?人們通過各種體驗獲得經(jīng)驗,這是無法繼承的,人們接受測試來檢驗他們的直覺。直覺,是沒太多道理好講的,所以,很難模擬,很難寫進程序,但可以在具體的場景和應用中被檢驗出來。
AlphaGo最令人震驚的地方,是它已經(jīng)能夠模仿人的直覺。這就使AI科學走向一個新的境界,更接近理解人類的大腦運作,例如大腦如何產生創(chuàng)意、如何激發(fā)靈感等,目前,人類科學在這方面的探索還很初級。
AlphaGo的局限性
人工智能或者AlphaGo的技術核心就是“機器學習”,就是計算機利用經(jīng)驗數(shù)據(jù),自動改善系統(tǒng)自身性能的行為。比如要教計算機認字,計算機要先把每一個字的圖案反復看很多遍,然后,在計算機的大腦(處理器加上存儲器)里,總結出一個規(guī)律來,以后計算機再看到類似的圖案,只要符合之前總結的規(guī)律,計算機就能知道這圖案到底是什么字。用專業(yè)的術語來說,計算機用來學習的、反復看的圖片叫“訓練數(shù)據(jù)集”。 你給計算機看很多樣本,告訴它這是什么,比如給它看貓,它就學會了貓是什么,給它聽很多聲音就知道ABCD是怎么念的。簡而言之,人工智能就是靠“經(jīng)驗數(shù)據(jù)”訓練出來的。
不論怎么迭代升級,AlphaGo始終遵循一個基本邏輯:用數(shù)據(jù)訓練算法,由算法催生智能,這個過程本身就帶有很多局限性。主要有三個地方仍需要獲得突破:
一、AlphaGo并沒有完全實現(xiàn)人腦的學習方式。所有算法都會自動學習,更多的數(shù)據(jù)和更多的體驗不依賴于預設程序,這是AlphaGo的一大創(chuàng)新突破??墒?,AlphaGo的機器學習方式非常依賴數(shù)據(jù),但人類卻不是這么學習的——人類通過與家長、監(jiān)護人的頻繁互動進行學習,這個過程非常靈動且富有情感。所以,現(xiàn)在的機器學習其實是比較“笨”的,還遠遠沒有擺脫“機械的痕跡”。
二、AI科學家依然只能賦予AlphaGo非常單純的技術意義上的智能。創(chuàng)新工場董事長李開復曾表示:“谷歌AlphaGo再厲害也是人類的奴隸,他厲害的是能復制出1000個奴隸幫人類干活?,F(xiàn)在的機器沒有絲毫能力,沒有感情,沒有喜怒哀樂,這是什么時候都教不會的?!?/p>
三、AlphaGo實現(xiàn)了AI技術上的極大突破,但仍然缺乏牢固的科學基礎。AlphaGo下圍棋贏了柯潔,但它為什么落這一子?制造AlphaGo的DeepMind工程師們也不知道。所以,很多學界人士用“煉金術”來比喻這種技術成功。煉金術就是很多材料的巧妙搭配,產生化學反應的過程。人類科技史上,煉金術確實很管用,人們或是嘗試了千百次,或是意外發(fā)現(xiàn),找到了很多有價值的配方,催生了冶金、紡織和現(xiàn)代玻璃制造工藝,但這都不是科學。目前為止,AlphaGo的技術組合還沒有能夠建立在嚴謹、周密、可驗證的科學知識之上。
當然,科技史上工程產品總是要先于理論一步,比如鏡片和望遠鏡先于光學理論問世,蒸汽機先于熱動力學問世,飛機先于飛行空氣動力學問世,無線電和數(shù)據(jù)通信先于信息論問世,計算機先于計算機科學問世。AlphaGo或許只是先行了一步而已。其實,也并非像人們想象得那樣,機器學得快、算得快,就能輕松戰(zhàn)勝人類。在和李世石、柯潔的比賽中,AlphaGo贏了。但這是十年磨一劍,AlphaGo的勝利是很難的,也很了不起,在AI領域更是這樣,十年磨一劍是常事。
當前的AI領域,是世界上最聰明的一些人在做最艱苦的技術磨礪。研發(fā)AlphaGo的部門“Google DeepMind”匯聚了一群異常聰明的天才,并且由杰米斯·哈薩比斯(Demis Hassabis)領頭。哈薩比斯是一個徹頭徹尾的工作狂,在哈薩比斯的堅持下,DeepMind被谷歌收購后仍在英國辦公。每天他都要工作到夜里11點多,然后在大部分人都已經(jīng)入睡時,他卻開始了他所謂的“第二天”,與美國同事進行電話會議,一直持續(xù)到1點多。這之后,是他自己的思考時間,通常會持續(xù)至凌晨3點或4點,他的思考包括他的研究、下一個挑戰(zhàn)等?;趦?yōu)越的環(huán)境待遇和企業(yè)人文,無論谷歌的競爭對手如何在人工智能領域大舉挖人,DeepMind的員工離職率至今仍為零。AlphaGo的每一個突破,都是世界頂級AI科學家艱難努力的結果。
人工智能存在了60多年,“機器學習”所基于的神經(jīng)網(wǎng)絡也存在五六十年了,而這個領域是跌宕起伏的,人類科學家在跌跌撞撞的艱難探索中,其實依然沒有解決一個根本問題——人腦智能是如何產生的,這恰恰是人類科學需要解決的“元問題”。