王華平
但是,即使是今天最先進的Beomni 1.0機器人與人互動起來也仍然很笨拙。一些人類很容易做到的社會行為,比如通過遞眼色來進行交流,機器人卻很難做到。迄今為止,沒有機器能真正地通過圖靈測試。我們不得不面對的一個事實是,在發(fā)展人類水平的人工智能的道路上仍然橫亙著許多障礙。首先是如何衡量機器達到人類水平的問題。其次是路徑問題,即什么樣的路徑最有希望讓機器達到人類水平。本文的討論將圍繞以上兩個問題展開。首先本文將論證,要衡量人工智能是否達到人類水平就需要將標準圖靈測試擴充為全總圖靈測試(Total Turing Test)。全總圖靈測試要求機器人在真實世界中以一種與人類行動者無法區(qū)分的方式做人類行動者所能做之事,從而要求機器人具有與人一樣的社會認知能力。接著將說明,以圖靈“兒童機器”(child machines)概念為基礎(chǔ)的發(fā)展型機器人學(developmental robotics)是建構(gòu)人類水平機器人的有效路徑。然后將表明,發(fā)展型機器人的建構(gòu)面臨著整合問題,即如何將機器中的不同認知構(gòu)架整合起來,以實現(xiàn)流暢的信息交流。最后將闡明,要解決整合問題,就要賦予發(fā)展型機器人與人腦相當?shù)恼J知模塊和意識水平。
要制造人類水平機器人,首先就得解決一個理論問題,即如何判別機器達到了人類水平。這個問題是普通機器所沒有的。普通機器的功能是特定的,其性能可據(jù)其功能來衡量。比如,一臺空調(diào)的性能可根據(jù)它的標稱制冷量來衡量。但人工智能不同,它以圖靈機為原型。①圖靈機是按機器表中的指令來操作符號的抽象機器。按照圖靈的描述,圖靈機在無限長的分成方格的紙帶上進行讀寫操作。其工作原理如下:圖靈機根據(jù)它所讀取的符號及其內(nèi)部狀態(tài),按照機器表中的指令(1)在紙帶上輸出一個符號;(2)將紙帶移動一格(或?qū)⒋蛴☆^移動一格);(3)將原來的內(nèi)部狀態(tài)切換到下一個狀態(tài)。圖靈機的內(nèi)部狀態(tài)可由其輸入、輸出及其與其他心理狀態(tài)的關(guān)系確定。在此意義上,它是功能主義的。而圖靈機,正如圖靈(Alan Turing)所證明的,是通用機,也即任何一臺圖靈機都能完成所有專用機能完成的任務(wù)。智能機器的智能程度恰恰表現(xiàn)在它的通用性上,也即完成非特定任務(wù)的能力。因此,智能不能用基于特定功能的性能來衡量。另一個重要原因是,人類水平只是個抽象的描述詞,不足以充當評價的標準。即便具體到意識、思想等心理能力也無濟于事,因為我們并不清楚這些心理能力究竟是什么,也沒有衡量它們的標準。總之,智能的判別是一個兼具理論性和實踐性的難題。
圖靈的卓越之處就在于,他為上述難題構(gòu)思了一個巧妙的解決方案。圖靈在給出圖靈機的數(shù)學模型后便開始思考這樣一個問題:圖靈機能進行哪些計算?他與邱奇(Alonzo Church)差不多同時找到了答案:所有人能通過機械地遵循有限程序的方式完成的計算任務(wù)(即有效可計算函數(shù))圖靈機也可完成。此即著名的邱奇—圖靈論題。邱奇—圖靈論題表明,在有效計算這一點上,圖靈機并不亞于人。那么在其他方面呢?圖靈設(shè)計了一個巧妙的模擬游戲來回答這個問題。在這個游戲中,一個男人和一個女人被分隔在兩間房子里,他們和一個提問者通過電傳打字設(shè)備(相當于今天的網(wǎng)上聊天)進行交流。男人試圖說服提問者他是女人,而女人則力圖向提問者表明她的真正身份。提問者的任務(wù)是正確地識別男人和女人,為此,他可以提出任何可用電傳打字設(shè)備傳達的問題。在游戲的某個階段,男人被替換為機器。在接下來的游戲中,如果提問者區(qū)分不出機器和女人,那么機器就通過了測試,從而我們就可以說機器和人一樣能夠思考。②A.Turing,“Computing Machinery and Intelligence”,Mind,1950,59:pp.433-460.這就是最初版的圖靈測試。
我們今天流行的標準版是最初版的一個變種。在這個變種中,女人被替換成無關(guān)性別的一個人。人與機器都在一個房間里,提問者的任務(wù)是分辨出他是在和一個真正的人還是一臺機器在交流。兩個版本的不同是顯見的。最初版要求男人和機器與女人進行對抗游戲,并且,話題是關(guān)于性別的。通行版去掉了這樣的限制,因而通過起來比最初版更難。不過,這并未改變圖靈測試的實質(zhì)。這個實質(zhì)就是,假如機器在處理智能任務(wù)時表現(xiàn)得和人一樣好,那么就應該承認它與人一樣會思考。如果不是這樣,那么我們?nèi)绾谓忉尀槭裁磧蓚€表現(xiàn)得一樣好的行動者一個能夠思考,而另一個卻不能呢?要知道,在機器與人做得一樣好的情況下,任何解釋,例如人有靈魂或大腦,都注定是副現(xiàn)象的,因為那些被認為對人類智能負責的解釋項并不能制造有差別的效果來彰顯它的存在。所以,沒有好的理由來否認一個通過圖靈測試的機器能夠思考。
一些人反對說,圖靈測試并非智能的充分條件。他們認為,真正的智能涉及思想與理解,而一些系統(tǒng),例如“布洛克腦”(Blockhead)和“中文屋”(Chinese Room),即便通過了圖靈測試也沒有思想和理解,因而并不真正具有智能?!安悸蹇四X”是設(shè)想由很多人通過無線設(shè)備聯(lián)結(jié)成的一個系統(tǒng),這個系統(tǒng)能依據(jù)事先給定的一段時間的對話所用到的可能數(shù)量的句法和語法正確的句子來和人進行對話。在那段時間內(nèi),“布洛克腦”可以和人進行任意主題的對話并通過圖靈測試,但我們不會認為“布洛克腦”有思想。①N.Block,“Psychologism and Behaviorism”,The Philosophical Review,1981,90(1):pp.5-43.“中文屋”是這樣一個功能系統(tǒng):一個不懂中文的人被關(guān)在屋子里,依據(jù)用他的母語所書寫的關(guān)于中文字形的規(guī)則書來操作中文。雖然屋中人看上去和懂中文的人操作得一樣好,但他實際上并不懂中文。②J.Searle,“Minds,Brains,and Programs”,Behavioral and Brain Sciences,1980,3(3):pp.417-424.然而,這樣的思想實驗是很有爭議的。“布洛克腦”和“中文屋”真的能通過圖靈測試嗎?計算表明,“布洛克腦”要維持一個小時的通過圖靈測試的能力需要記住101500由20個字組成的字符串。③R.French,“The Turing Test:The First 50 Years”,Trends in Cognitive Sciences,2000,4,(3):pp.115-122.而這遠遠超出了宇宙的粒子數(shù)!同樣地,“中文屋”中的規(guī)則書由于句法和語義的多樣性會遇到組合爆炸問題。④漢字有多種字體,比如宋體、行書和草書。并且,每個人的筆跡都是不一樣的。這導致很難用外形來識別漢字。此即句法的多樣性。語義的多樣性指的是,同一個語詞不止有一種意思。例如“漢”字,既可指漢族,又可指漢水,還可指成年男人。反對者可能會說,“布洛克腦”和“中文屋”只要邏輯上可能就夠了。但這樣的話,他們反對的就不是圖靈測試。這是因為,圖靈測試談?wù)摰氖俏锢砩峡蓪崿F(xiàn)的計算機,所以邏輯上的可能并不足以構(gòu)成它的反例。
反對者可能會爭辯說,“布洛克腦”和“中文屋”例示了圖靈機,所以,如果它們實際上不可能通過圖靈測試,那么實際上就不可能有計算機通過圖靈測試。但這個反對意見預設(shè)了所有圖靈機都只能像“布洛克腦”和“中文屋”那樣工作。實際上,“布洛克腦”和“中文屋”所代表的只是“好的老式人工智能”(Good Old Fashioned AI),即基于海量知識儲備的符號系統(tǒng)。這類系統(tǒng)使用人可閱讀的高層次符號來表征問題、邏輯和搜索,執(zhí)行認知任務(wù)就是對系統(tǒng)的內(nèi)部符號進行操作,而符號操作是在顯性編碼程序的指導下展開的。⑤J.Haugeland,Artificial Intelligence:The Very Idea,The MIT Press,1989,p.113.顯性編程的運作方式?jīng)Q定了計算機不可避免地會遇到組合爆炸問題。但是現(xiàn)在的人工智能運用了機器學習技術(shù)。設(shè)計者需要做的是設(shè)計出一個好的學習算法,而不是具體的編碼,以便機器向經(jīng)驗學習,從數(shù)據(jù)中提取模式。谷歌開發(fā)的AlphaGo就運用了深度學習技術(shù),它先是接受人類棋局的訓練,然后通過自行對局產(chǎn)生出新招,通過對招的強化學習而戰(zhàn)勝人類。這是傳統(tǒng)的顯性編程方法所不能比擬的。所以,即使“好的老式人工智能”不能通過圖靈測試,也并不代表具有機器學習能力的人工智能就不能。
表2給出了通過所提出的方法獲得的次級電弧的滅弧時間與實際預期時間之間的比較,由此可見,本文所討論的方法可以準確地識別次級電弧滅弧時間。
邏輯可能反駁背后的一個憂慮是,如果產(chǎn)生行為的原因不能確定,那么行為就總有可能只是智能的表象。一個非智能系統(tǒng)偶然表現(xiàn)出智能行為,這邏輯上完全是可能的。所以,系統(tǒng)的智能不能等于系統(tǒng)的成功表現(xiàn)。圖靈預見到了這樣的反駁。他的回應是,圖靈測試有足夠的豐度來排除偶然性,以致一個真正通過圖靈測試的機器不太可能是“一個簡單的發(fā)明物”。⑥A.Turing,“Computing Machinery and Intelligence”,p.447.像前面提到的“布洛克腦”那樣的非智能系統(tǒng)要偶然通過圖靈測試,其難度不亞于一只猴子通過盲目敲擊打字機的方式打出一部完整的莎士比亞作品。所以,盡管行為測試不能先驗地排除非智能的可能,但卻為智能提到了很好的經(jīng)驗證據(jù)。這就好比化學中的石蕊測試:石蕊試紙的化學結(jié)構(gòu)決定了它的顏色變化能夠可靠地反映溶液的酸堿性,同樣地,圖靈測試的豐度決定了它對智能來說是經(jīng)驗上充分的。
在澄清各種誤解后,圖靈測試的合理性也就清楚了。其合理性在于,如果我們覺得是自己是有智能的,那么,當機器表現(xiàn)得和我們一樣好時,我們就必須承認機器和我們一樣具有智能。領(lǐng)會到這一點,我們就會同意丹尼特(Daniel Dennett)的判斷:“圖靈測試,如[圖靈]所構(gòu)想的,(如他所認為的那樣)強得足以成為思維的測試?!雹貲.Dennett,“Can Machines Think?”,in C.Teuscher(ed.),Alan Turing:Life and Legacy of a Great Thinker,Springer,1984,p.297.
圖靈曾樂觀地認為,計算機在不久的將來就可以通過測試。他說:“我相信在本世紀末,語詞的用法和常規(guī)教育會發(fā)生根本改變,當人們說起機器能思考時,不會再遭到任何反駁?!雹贏.Turing,“Computing Machinery and Intelligence”,p.442.然而,直到今天,也沒有機器以令人信服的方式通過圖靈測試。聊天機器人仍然很不盡人意,即便是最先進的OpenAI也只是在一定范圍的文本生產(chǎn)方面可與人相媲美,而在處理諸如“一只鞋可容下幾只腳”③英語中表示腳的單詞“foot”同時有英尺的意思。之類的語義問題與“用nigger或nigga來稱呼黑人是否合適”④在英語中,nigger或nigga是對黑人極具侮辱性的稱呼。這類的倫理問題時,OpenAI會輸出“一些無關(guān)的語言”。⑤L.Floridi and M.Chiriatti,“GPT-3:Its Nature,Scope,Limits,and Consequences”,Minds and Machines,2020,30(4):pp.681-694.最近日本東京大學宣稱開發(fā)出一款“像人一樣思考”的機器人,它可在無須感知環(huán)境的情況下利用干擾信號建立起物理儲備池(physical reservoir)而自主地走出迷路。⑥Y.Yada,et al.,“Physical Reservoir Computing with FORCE Learning in a Living Neuronal Culture”,Applied Physics Letters,2021,119,(17):173701.實際上,這款機器人只是在某些方面表現(xiàn)得“像人一樣思考”,在其他許多方面與人比起來還差得很遠。
即使AI在特定范圍,如文本生產(chǎn),通過了圖靈測試,也不能說它達到了人類水平。羅布納獎(Loebner Prize)的失敗很好地說明了這一點。⑦由于受到越來越多的批評,羅布納獎自2020年后停辦。這個獎每年舉辦一次,頒發(fā)給能通過“圖靈測試”的表現(xiàn)最好的參賽程序。但是,那些程序只不過是通過利用基礎(chǔ)ELIZA玩弄文字游戲的方式做到在一段時間內(nèi)成功欺騙裁判員,除此之外幾乎什么也不能干。盡管羅布納獎歪曲了圖靈測試——它不恰當?shù)貙⑼ㄟ^圖靈測試等同于一段時間內(nèi)成功地欺騙了裁判員,但卻暴露了標準圖靈測試的一個重要缺陷——行為被不恰當?shù)叵拗茷楹喍痰膶υ?。圖靈測試的精髓,正如前面所說,是這樣一個基本想法,當機器表現(xiàn)得和人一樣好,那么就應該承認它與人一樣能夠思考。而人的行為表現(xiàn),遠遠不只是文本化的簡短對話。人生活在世界中,直接與世界中的人與物打交道。這樣的交往是多樣的、復雜的,而且多半是非文字的。比如,我們通常不是詢問他人是否高興,而是看見他人微笑就知道他心情愉悅。我們看電影不是簡單地接收聲音和圖像信息,而是通過場景再現(xiàn)與情節(jié)演繹激發(fā)我們的情感,達到某種審美意境。踢足球也不是簡單地推動足球朝向?qū)Ψ降那蜷T運動,它還涉及戰(zhàn)術(shù)的執(zhí)行與隊員之間的配合。機器要做得和人一樣好,就得在真實世界中以一種與人無法區(qū)分的方式做人類行動者所能做之事。如果機器做到了這一點,那么我們就說它通過了全總圖靈測試。⑧S.Harnad,“Other Bodies,Other Minds:A Machine Incarnation of an Old Philosophical Problem”,Minds and Machines,1991,1(1):p.44.
全總圖靈測試與標準圖靈測試最大的不同是測試主體的不同。標準圖靈測試的主體是計算機。計算機只能處理符號,不能與真實世界中的事物與事態(tài)建立直接聯(lián)系,更無法與環(huán)境進行互動??墒牵粋€智能系統(tǒng)要真正做到人所做之事,就得走出房間,參與物理環(huán)境與社會環(huán)境中的復雜活動。這樣一個智能系統(tǒng)必定是具有知覺與行動能力的具身(embodied)機器人,而非只能進行符號處理的計算機。一些人,如塞爾,認為這樣的區(qū)別是沒有意義的,因為它對智能“什么也沒添加”。⑨J.Searle,“Minds,Brains,and Programs”,p.420.但是,我們不正是通過知覺和行動在與世界打交道的過程中獲得智能并展現(xiàn)智能的嗎?庫恩(Thomas Kuhn)曾舉了一個語言習得的例子:一個小孩和爸爸一起逛動物園,爸爸指著一只鳥對小孩說:“這是一只天鵝。”過了一會兒,小孩指著另一鳥說:“爸爸,又一只天鵝?!边@個時候,小孩還沒學會認識天鵝。爸爸不得不糾正說:“不,這是一只鵝。”下一次,小孩正確地辨認出了天鵝。但他并不掌握“鵝”的概念,而將鴨子誤認為鵝。同樣地,經(jīng)過爸爸的糾正,他掌握了“鵝”的概念。①T.Kuhn,The Essential Tension,University of Chicago Press,2011,p.309.這是典型的人類智能習得的例子。既然人類智能依賴知覺與行動,那么對以人類智能為模型的機器智能來說必定也是如此。塞爾“中文屋”論證的錯誤恰恰在于忽視了知覺與行動的重要性??死姿迹═im Crane)說得好:“假如塞爾不只是記住規(guī)則與數(shù)據(jù),并且開始在中國人的世界中開展行動,那么他很有可能在不久之后就會明白這些符號的意義?!雹赥.Crane,The Mechanical Mind:A Philosophical Introduction to Minds,Machines and Mental Representation,Penguin,1996,p.127.
實際上,圖靈已經(jīng)注意到了知覺與行動的重要性。他以嚴肅的口吻說:“最好是為機器裝備金錢所能買到的最好的感覺器官,然后再教它理解英語和說英語。這個過程可仿效兒童的常規(guī)教育?!雹跘.Turing,“Computing Machinery and Intelligence”,p.460.遺憾的是,他自己并未這么做,而是選擇集中于諸如下棋、解密碼與數(shù)學計算等純粹理智領(lǐng)域。這直接導致了“好的老式人工智能”的繁榮,而他更富洞見的主張則被短暫的繁榮所掩蓋。
全總圖靈測試與標準圖靈測試的另一個不同是其高度的開放性。首先是時間的開放性。按照圖靈最初的描述,如果“提問者在5分鐘的提問后只有平均不超過70%的可能性辨識正確”,那么機器就通過了測試。④A.Turing,“Computing Machinery and Intelligence”,p.442.根據(jù)全總圖靈測試,這樣的限定是不合理的。既然人類智能是終生的,那么以人類智能為模型的機器智能也應如此。時間上的開放性極大地排除了智能的偶發(fā)性?!安悸蹇四X”要維持一個小時其計算量已經(jīng)是天文級,一個系統(tǒng)要以偶然的方式終生通過圖靈測試更是難上加難,這在現(xiàn)實世界中大概率不會發(fā)生。
其次是行為的開放性。在全總圖靈測試中,智能行為不限于遠程“口試”,而是開放于與真實世界種種可能的互動。行為的開放性很重要,它是保證圖靈測試充分性的關(guān)鍵。這一點,不妨以“讓步反駁”為例來說明。在“深藍”戰(zhàn)勝卡斯帕羅夫后不久,IBM推出了更為先進的Watson。一些人為之歡呼,另一些人則認為,Watson只是按照算法操作程序,它所做的那些事根本就算不上智能。他們想說:“嗯,是的,我知道機器可以做那事,那我不愿將之稱為思維。”圖靈預料到了這樣的反駁,他構(gòu)想了著名的“洋蔥皮類比”來回應。他說道:“在思考心靈或大腦的功能時,我們發(fā)現(xiàn)某些操作是可以用純粹的機械詞匯來解釋的。我們說這并不是真正的心靈:它是我們要發(fā)現(xiàn)真正的心靈就要剝離的那層皮。但是,當我們發(fā)現(xiàn)更多的一層層皮需要剝離后還剩下什么呢?這樣下去的話我們得到的是‘真正的’心靈?還是最終得到它之中什么也沒有的那層皮?”⑤A.Turing,“Computing Machinery and Intelligence”,p.454.“洋蔥皮類比”預設(shè)了機器的“心靈之皮”能一層層剝下去,而這需要機器在各個方面都和人做得一樣好,否則機器做不了我們卻能做的某個方面就成了“它之中還有一些東西的那層皮”。所以,機器要真正通過圖靈測試的話,它的行為就必須具有開放性。圖靈本人應該意識到了這一點,只不過他選擇了一個在當時看來頗具現(xiàn)實性的方式來闡述圖靈測試而已。
現(xiàn)在我們知道,一個機器如果通過了全總圖靈測試,我們就可以斷定它擁有人類水平的智能。問題是,如何才能建構(gòu)出一個能夠通過全總圖靈測試的機器?對于這個問題,圖靈同樣給出了建議:從“兒童機器”開始。他說:“如果我們要制造智能機器,并盡可能地以人類為模型,那么我們就應該從能力非常有限的機器開始……通過模仿教育,我們可以指望機器調(diào)整得能夠?qū)δ承┲噶町a(chǎn)生確定反應。”⑥A.Turing,“Intelligent Machinery”,in B.Copeland(ed.),The Essential Turing,Clarendon Press,2004,p.422.圖靈稱這樣的簡單機器為“兒童機器”。“兒童機器”簡單到只是“由一些標準部件以不怎么系統(tǒng)的方式組成”。其中,“不怎么系統(tǒng)”的意思是,機器中的指令大部分是隨機的,而非被編好的程序決定的。這樣一個“尚未組織好的”系統(tǒng)就像兒童的大腦一樣,具有強大的可塑性,因而善于學習。
一般來說,兒童的學習過程是這樣的:老師將一大堆“標準慣例”(standard routines)施加于兒童大腦的“初始模式”(original pattern)上,然后兒童開始嘗試對這些慣例進行重新組合,對它們做出細微改變,并以新的方式應用它們。最終,兒童能夠獨立于老師自行做出發(fā)現(xiàn)。同樣地,“兒童機器”在受到適當教育后就可以修改自己的指令并做出自己的選擇。這時,就像我們不愿意將兒童的發(fā)現(xiàn)歸于他的老師一樣,我們也不愿意將選擇的決定權(quán)歸與機器的設(shè)計者。圖靈的這個想法與今天的機器學習如出一轍,而人工智能在當代的快速發(fā)展恰恰得益于機器學習。
圖靈認為,教育“兒童機器”從理論上看并不是件很難的事。這是因為,學習可以產(chǎn)生雪球效應:機器所學習的東西越多,它就越容易學習其他東西。換句話說,只要方法得當,機器可以學會更有效地學習。但從技術(shù)上看,“兒童機器”的教育卻不是件容易的事。除了教育過程外,還需解決“兒童機器”的初始條件問題,即“可教育成人”的“兒童機器”應該具有什么樣的潛能。圖靈曾說,他想看看一個頂多只有視覺、說話和聽覺器官的差不多沒有身體的“大腦”到底能干什么。他認為,這樣的“大腦”由于沒有手和腳,也不需要吃飯、抽煙,它會將大部分的時間用于玩象棋、圍棋、橋牌等游戲,所以會很快學會棋牌游戲。但這樣一個“大腦”(即計算機)不能像老師教育一個正常兒童那樣去教育它,因為我們不能“叫它出去做事”,比如倒垃圾、搬桌子等。圖靈還認為,沒有身體的機器無法學習語言,因為學習語言的可行性“太依賴于感覺器官與運動了”。①A.Turing,“Intelligent Machinery”,p.421.正因如此,圖靈曾建議“為機器裝備金錢所能買到的最好的感覺器官,然后再教它理解英語和說英語”。②A.Turing,“Computing Machinery and Intelligence”,p.460.
也許是限于當時的技術(shù)條件,圖靈放棄了他的“兒童機器”計劃。直到20世紀末,圖靈的洞見才被付諸實踐。這得歸功于MIT的布魯克斯(Rodney Brooks)。他與他的同事推出了影響巨大的Cog項目,他們設(shè)計的Cog機器人具有知覺與行動所需要的“身體”和一個外置的“大腦”,而教育Cog的方法正是圖靈所設(shè)想的方法,即由普通人(不懂機器的內(nèi)部運作機制的人)像教育小孩一樣教育Cog。結(jié)果,Cog很快就學會了跟蹤面龐、抓取物體、玩妙妙圈等動作。③R.Brooks et al.,“The Cog Project:Building a Humanoid Robot”,International Workshop on Computation for Metaphors,Analogy,and Agents,Heidelberg,1998.這些動作的完成完全超出了當初的設(shè)計,以致設(shè)計者“基本上不知道”Cog的內(nèi)部發(fā)生了什么。這與機器運行程序的情形形成了鮮明對比。在后一種情形中,機器人的內(nèi)部狀態(tài)和每一個動作原則上都為設(shè)計者所知。但Cog不同,它在接受教育后能獨自做出新行動。這意味著,Cog的確學會了新技能。
如今,圖靈的“兒童機器”洞見已經(jīng)演變成一個充滿活力的跨學科研究領(lǐng)域,即發(fā)展型機器人學。其目標是,通過研究發(fā)展機制、構(gòu)架與限制性條件來賦予具身機器人終生地、廣泛地學習新技能與新知識的能力,最終達到人類水平。其方法是所謂的“認知漸進主義”(cognitive incrementalism),即從最小的功能集(set of functions)開始,一步步地往系統(tǒng)的頂端結(jié)構(gòu)中增添越來越多的功能。④A.Clark,Mindware:An Introduction to the Philosophy of Cognitive Science,Oxford University Press,2001,p.135.這個過程是對人類認知發(fā)展過程的模擬。已有研究表明,人類發(fā)展大致分為兩個時期:(1)早期,與物理環(huán)境的互動在決定個體內(nèi)部諸如身體表征、運動意象、對象恒存之類的信息構(gòu)造方面起主要作用。(2)后期,諸如早期交流、聯(lián)合注意、移情(empathy)、語言交流等社會行為在與他人互動過程中逐漸涌現(xiàn)出來。⑤M.Asada et al.,“Cognitive Developmental Robotics:A survey”,IEEE Transactions on Autonomous Mental Development,2009,1(1):pp.12-34.相應地,機器人的認知發(fā)展也應遵循這兩個過程。其中,早期階段主要涉及(1)感覺運動技能,包括行動空間、操作技能;(2)視覺發(fā)展,包括空間感知、對象理解、行動可供性(affordances)。后期階段主要涉及(3)社會互動,包括聯(lián)合注意、模仿(imitation)、合作、情緒感知、讀心(mindreading);(4)語言,包括言說、會話意圖、會話蘊涵。
早期階段的認知發(fā)展研究取得了長足進展。例如,布魯克斯及其同事研制的Cog機器人可以習得相當高級的感覺運動技能與視覺技能。不過,對發(fā)展型機器人來說,后期甚至比前期更為重要。這是因為,教育本身就是一種社會行為。而且,機器要想通過全總圖靈測試,就得像人一樣與他人自由互動,并設(shè)法讓自己為他人所接受。因此,發(fā)展型機器人需要像人類兒童一樣充分發(fā)展自己的社會認知能力,讓自己成為一個社會機器人,即“能以人的方式與我們交流與互動、理解我們且與我們建立關(guān)系”的機器人。①C.Breazeal,Designing Sociable Robots,MIT Press,p.1.而要做到這一點,就需要在機器中實現(xiàn)人類社會認知的發(fā)展過程。
研究表明,兒童的社會認知發(fā)展是從聯(lián)合注意開始的。聯(lián)合注意指的是這樣一種現(xiàn)象,人通常會在識別他人的面孔及其位置的基礎(chǔ)上識別他人的注視方向,并同時注意他人所注意的對象。聯(lián)合注意是模擬、讀心、合作等高級社會現(xiàn)象的基礎(chǔ)。發(fā)展心理學的研究顯示,幼兒在6個月就對保姆的注視方向、9個月能對掃描視線中的顯著對象表現(xiàn)敏感性,12個月能夠識別保姆眼睛的方位角,大約到了18個月就能準確注視保姆所注意的對象了?;谝陨涎芯浚_普蘭(Frederic Kaplan)等人建立了一個計算模型來模擬聯(lián)合注意的發(fā)展過程。②F.Kaplan and V.Hafner,“The Challenges of Joint Attention”,Interaction Studies:Social Behaviour and Communication in Biological and Artificial Systems,2006,7(2):pp.135-169.
模仿是人類兒童社會認知發(fā)展的一個突出現(xiàn)象。研究顯示,新生兒甚至在出生后的第一個小時就表現(xiàn)出了模仿面部表情的能力。③A.Meltzoff,“Social Cognition and the Origins of Imitation,Empathy,and Theory of Mind”,The Wiley-Blackwell Handbook of Childhood Cognitive Development,2011,2:49-75.模仿起到了聯(lián)結(jié)自我與他人的作用,對移情、理解人格同一性與他人心靈有重要影響。根據(jù)梅爾佐夫(Andrew Meltzoff)的理論,模仿是目標匹配的過程,開始于自我產(chǎn)生的運動經(jīng)驗,即“身體潺流”(body babbling)。④A.Meltzoff,“Social Cognition and the Origins of Imitation,Empathy,and Theory of Mind”,p.57.基于以上理論,伯倫斯坦(Elhanan Borenstein)等人設(shè)計出了一個具有模仿能力進化機器人,這個機器人利用模仿算法將所感知到的他人的運動轉(zhuǎn)化為自己的“身體圖式”(body schema)。⑤E.Borenstein and E.Ruppin,“The Evolution of Imitation and Mirror Neurons in Adaptive Agents”,Cognitive Systems Research,2005,6(3):229-242.
情緒是人類智能的重要方面。情緒不但可起到溝通、身體適應和激勵行動等作用,還會影響人的行為模式以及對待他人的態(tài)度。一些人甚至認為,情緒體驗是社會互動的主要原因。⑥N.Frijda,“Emotion Experience”,Cognition&Emotion,2005,19(4):473497.研究顯示,小孩到了三歲就基本能識別出各種面部表情,包括幸福、悲傷、憤怒、害怕。⑦E.Székely et al.,“Recognition of Facial Expressions of Emotions by 3-Year-Olds”,Emotion,2011,11(2):pp.425-435.鑒于情緒的重要性,一些人工智能專家專門致力于建構(gòu)能顯示出人類情感的機器,他們將這項任務(wù)稱之為情感計算(affective computing)。作為情感計算的突出代表,柯比(Rachel Kirby)等人設(shè)計了一個通用情感模型,并用這個模型證明了,人們能夠理解機器的情緒表達。⑧R.Kirby,Rachel et al.,“Affective Social Robots”,Robotics and Autonomous Systems,2010,58(3):pp.322-332.
讀心是典型的人類社會認知行為,指利用社會信息來歸與(attribute)他人心理狀態(tài),以解釋與預測他人行為的過程。像復雜語言與廣泛合作這樣的獨特人類現(xiàn)象僅靠單純的行為歸納是無法實現(xiàn)的,它們需要更為高級的歸與像欲望和信念這樣的完全成型的命題態(tài)度的能力。比如,共同體的成員如果能理解彼此的意圖,就能形成共享意向性(intentionality),開展集體行動。通常認為,具有完整讀心能力的標志是通過錯誤信念測試。在錯誤信念測試中,受試先是觀看一段情景?。旱谝粋€小孩將一個珠子藏在自己的籃子里,然后離開房子出去玩了。趁那個小孩不在,第二個小孩將珠子拿出來放進自己的盒子里。看完后受試被要求回答如下問題:第一個小孩回到房間后她會到哪里去找她的珠子?實驗發(fā)現(xiàn),四歲以下的孩子普遍回答說去盒子找,表明他們不能通過測試;而四歲以上的正常孩子(非自閉癥患者)和成年人則可以很容易地通過測試。①S.Baron-Cohen et al.,“Does the Autistic Child Have a‘Theory of Mind?’”,Cognition,1985,21(1):pp.37-46.依據(jù)巴倫—柯亨(Baron-Cohen)的讀心理論,耶魯大學的斯卡塞拉蒂(Brian Scassellati)建造了社會機器人 Cog,它能夠識別他人的目標與欲望,并據(jù)此調(diào)整自己的行為。②B.Scassellati,“Theory of Mind for a Humanoid Robot”,Autonomous Robots,2002,12(1):pp.13-24.最近推出的社會機器人Cog的升級版Cog-ToM甚至能夠通過錯誤信念測試。③F.Grassiotto et al.,“CogToM:A Cognitive Architecture Implementation of the Theory of Mind”,ICAART,2021(2):pp.546-553.
正如我們所看到的,有許多工作投入到社會機器人的研究中,也取得了一些重要進展?,F(xiàn)在的機器人已經(jīng)有了很好的運動動力學控制,觸覺和空間傳感也得到了大幅提高。在自閉的治療方面,社會機器人甚至比人類更受兒童患者的歡迎。不過,現(xiàn)階段的社會機器人離通過全總圖靈測試還有很大的差距。索菲亞堪稱社會機器人的當代代表,不但她的臉非常像人類的臉,笑起來也和人類非常相似。她被沙特阿拉伯授予榮譽公民身份,并以此身份參加電視選秀節(jié)目,出席國際會議。但是,索菲亞無異于木偶,只不過是以關(guān)鍵詞觸發(fā)語言片段的方式說話,根本就不懂說話者的意圖,更無法理解他人的心理狀態(tài)。我們不得不面對的一個事實是,無論是何種機器人,離通過全總圖靈測試還差得很遠。
造成這種局面最主要的原因,在筆者看來,是人工智能領(lǐng)域目前極為嚴重的分立態(tài)勢。建構(gòu)人類水平的人工智能是一項極其復雜的任務(wù)。為了取得技術(shù)上的可行性,研究人員普遍采用了“分而治之”的策略。例如,研究聯(lián)合注意的頂多關(guān)心一下模仿,而不會理會情緒和心靈理論;研究心靈理論的只是想辦法在機器中實現(xiàn)某個具體心靈理論,而不太關(guān)心聯(lián)合注意和情緒。結(jié)果,不但人工智能與機器人被分割成兩個不同的領(lǐng)域,而且,每個領(lǐng)域內(nèi)部又被區(qū)隔成不同的子領(lǐng)域。這樣的分立態(tài)勢,如果只是停留在實用層面,那也沒什么妨礙。問題是,不同的研究使用不同的認知架構(gòu)、語言、模型和表征,其學習和推理引擎也互相獨立,這導致它們之間的信息交流變得幾乎不可能,信息孤島現(xiàn)象非常嚴重。結(jié)果,各種特定任務(wù)的機器人不斷被制造出來,并且表現(xiàn)也越來越好,但其通用性卻仍然停留在非常低的水平??墒?,對人類水平機器人來說,重要的恰恰是通用性。這是因為,人類是通用型行動者,他們可學會應付各種各樣的情形,可發(fā)展出技能來應對各種各樣的問題。機器人要達到人類水平就要像人一樣成為通用型行動者,而這也是全總圖靈測試所要求的。
要建構(gòu)人類水平的機器人,就得解決這樣一個問題:如何將機器的不同認知構(gòu)架整合起來以實現(xiàn)流暢的信息交流?稱此問題為整合問題。整合問題很關(guān)鍵,因為如果不能將不同架構(gòu)整合起來,那么我們就只能一項項地訓練“兒童機器”。這樣的學習是無法產(chǎn)生雪球效應的。更重要的是,它不足以讓“兒童機器”“長大成人”,或者更準確地,不足以讓發(fā)展型機器人發(fā)展到人類水平。人類智能具有高度的認知整合性,可以將各種信息進行綜合加工,做出協(xié)調(diào)統(tǒng)一的行動。比如,一個運動員在球場上做出一個傳球動作,這需要他的視知覺系統(tǒng)、意圖感知系統(tǒng)、感覺運動系統(tǒng)進行高度協(xié)作,共同完成任務(wù)。如果三個系統(tǒng)各自為政,那么我們看到的就不是一個流暢的戰(zhàn)術(shù)配合,而是一個拙劣的表演。機器要達到人類水平,就得具有和人一樣的認知整合能力。
對于整合問題,一些人寄希望于“主算法”(Master Algorithm)。主算法被認為是能將所有機器學習技術(shù)整合成一種方法的算法,就像物理學所設(shè)想的大一統(tǒng)理論的基本方程可以涵蓋一切物理現(xiàn)象一樣。④M.Lee,How to Grow a Robot:Developing Human-Friendly,Social AI,The MIT Press,2020,p.152.用多明戈斯(Pedro Domingos)的話來說,“主算法是機器學習的統(tǒng)一者:通過將學習者抽象成所有應用都需要知道的共同形式,它能讓任何應用適用任何學習者”。⑤P.Domingos,The Master Algorithm:How the Quest for the Ultimate Learning Machine Will Remake Our World,Basic Books,2015,p.237.盡管已經(jīng)有人整合了符號邏輯、貝葉斯概論、神經(jīng)網(wǎng)絡(luò)、分類器(classifiers)、遺傳編程(genetic programming)五種典型的機器學習技術(shù),但仍有理由不看好主算法。首先,就像大一統(tǒng)理論仍然停留在設(shè)想一樣,主算法到目前為止仍然遙遙無期。其次,主算法本身也是算法,與其他算法一樣預設(shè)了輸入—過程—輸出的認知框架。與之相對應的是人類認知的感覺—思維—行動框架。但感覺—思維—行動這樣一個“三明治模型”被認為是有問題的。①S.Hurley,“Perception and Action:Alternative Views”,Synthese,2001,129(1):pp.3-40.思維,正如當代認知科學所揭示的,是一個與知覺和行動相互作用的復雜過程。知覺也并非是單純的輸入,而是行動與環(huán)境共同作用的結(jié)果。假如人類智能不能用主算法來刻畫的話,那么,它對人類水平的機器人來說就同樣是不充分的。
筆者認為,既然人類水平的機器人是以人為原型的,那么,就應該到人類認知中尋找整合問題的答案。人類認知是高度整合的,絕大部分情況下不同來源的信息能夠被整合到一起形成穩(wěn)定的輸出。比如,關(guān)于物體形狀的信息與顏色的信息總是被整合到一起形成一個完整的物體表征。這樣的信息整合有兩個突出特點:第一,被整合的信息通常來自不同的模塊;第二,整合了的信息通常是有意識的。在筆者看來,這兩個特征是解決整合問題的關(guān)鍵所在。
先看第一個特征。認知科學的研究表明,人類大腦存在大量認知模塊。這些模塊具有領(lǐng)域特定性(不同的認知領(lǐng)域?qū)煌哪X區(qū))、先天性(模塊限定了哪些是可以學習的,并保證了不同心靈之間的一些共性)、信息封裝性(模塊只接收限定的感覺信息)和認知不可穿透性(模塊不受自上而下的認知影響)等特點。②J.Fodor,The Modularity of Mind,The MIT press,1983.在這些特征中,領(lǐng)域特定性是最重要的。領(lǐng)域是認知功能的輸入和輸出所適用的集合,如面孔識別屬于一個認知領(lǐng)域,字形識別則屬另一個認知領(lǐng)域。領(lǐng)域特定性既可能來自對信息的受限取用(輸入限制),也可能來自對信息的受限處理(算法限制),還可能來自中心腦區(qū)的聯(lián)接方式(輸出限制)。所以,算法只是影響模塊信息處理的眾多因素中的一個。模塊與知覺以及其他模塊之間的關(guān)系同樣會對信息處理產(chǎn)生重要影響,并且使得信息在模塊間以及模型與高級認知系統(tǒng)之間的交流成為可能。
再看第二個特征。當代認知科學的一個重要共識是,意識發(fā)生于大腦的信息處理過程。根據(jù)意識的全局工作空間理論(global workspace theory),互通的分布式大腦活動創(chuàng)建了一個全局工作空間,進入這個空間的心理內(nèi)容可被整合起來,廣播到諸如感覺、運動控制、語言、推理之類的專門處理機制。正是在專門處理機制與全局空間的整體互動中,意識經(jīng)驗涌現(xiàn)出來。③B.Baars,“The Conscious Access Hypothesis”,Trends in Cognitive Sciences,2002,6:pp.47-52.根據(jù)意識的信息整合理論(information integration theory),在最基本層面,意識是整合信息。它的質(zhì)由不同要素所組成的系統(tǒng)所產(chǎn)生的信息關(guān)系確定,它的量由系統(tǒng)的φ值確定,其中的φ值可依據(jù)它所有可能的分區(qū)的輸出信息之間的相互影響程度計算出來。④G.Tononi et al.,“Integrated Information Theory:From Consciousness to Its Physical Substrate”,Nature Reviews Neuroscience,2016,17(7):pp.450-461.這兩個主流的意識理論有一個共同點,意識與信息整合密切相關(guān)。
來自以上兩點的啟示是,要解決整合問題,就要賦予發(fā)展型機器人與人腦相當?shù)恼J知模塊和意識。這兩項任務(wù)都極具挑戰(zhàn)性。我們對認知模塊的認識還有很多不清楚的地方,我們甚至不清楚人腦究竟存在多少個認知模塊。不過,這并不妨礙我們從已經(jīng)探明的主要認知模塊入手建構(gòu)發(fā)展型機器人。真正的麻煩在于,我們不但需要設(shè)計模塊的內(nèi)部算法,還要考慮模塊的認知可滲透性、認知可達及性以及模塊間的相互作用。機器意識的挑戰(zhàn)性就更大。盡管我們擁有像全局工作空間和信息整合這樣的優(yōu)秀理論,但它們與迄今為止的所有其他理論一樣,未能告訴我們意識的主觀感受性是怎么回事?為什么主體有了意識就會有一種“像是什么”(what it is like)的感受?這種情況下,如何讓機器像我們一樣擁有主觀感受性,就無異于望風撲影。好在困難阻止不了科學前進的步伐。當代認知科學正在為探明大腦的認知機制做出不懈努力,而旨在賦予機器以意識的人工意識研究也在緊鑼密鼓地進行著。在它們的助力下,機器人通過全總圖靈測試從而達到人類水平,并不是不可能的事。
通過了全總圖靈測試的機器在真實世界中表現(xiàn)得和我們一樣好,因而不再是單純的工具,而是我們的“伙伴”“隊友”“伴侶”“另我”(alter ego)。這樣一來,我們就實現(xiàn)了制造自己這一古老的人類夢想。不過,我們卻不得不面對一些隨之而來的問題:我們該如何對待我們創(chuàng)造出來的同伴?我們是誰?我們在自然界中又有何地位?這些問題的確值得我們認真對待。