肖仰華
【摘要】以ChatGPT為代表的大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型帶動(dòng)了一系列通用人工智能(AGI: Artificial General Intelligence)技術(shù)的迅速發(fā)展。AGI已經(jīng)掀起新一輪信息技術(shù)革命,成為一種先進(jìn)的生產(chǎn)力,深入理解AGI的本質(zhì)顯得尤為迫切。大規(guī)模生成式語(yǔ)言模型為代表的通用人工智能技術(shù),以生成式AI為主要形態(tài),具備情景化生成能力,形成了知識(shí)、能力、價(jià)值三個(gè)階段的智能煉就路徑。隨著相關(guān)技術(shù)的發(fā)展,機(jī)器的智能水平快速提升,將帶來(lái)人機(jī)邊界模糊及與其相關(guān)的一系列社會(huì)問(wèn)題。AGI的發(fā)展路徑具有“填鴨灌輸”式學(xué)習(xí)、“先通再專”等特點(diǎn),在一定程度上顛覆了人類(lèi)對(duì)機(jī)器智能實(shí)現(xiàn)路徑的傳統(tǒng)認(rèn)識(shí),倒逼人類(lèi)在世界建模、知識(shí)獲取、自我認(rèn)知等層面進(jìn)行反思。人類(lèi)需高度警醒AGI帶來(lái)的挑戰(zhàn),并積極抓住其帶來(lái)的機(jī)遇,推動(dòng)構(gòu)建新型的人機(jī)和諧關(guān)系。
【關(guān)鍵詞】 ChatGPT? 通用人工智能? 圖靈測(cè)試? 生成式人工智能
【中圖分類(lèi)號(hào)】TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2023.14.004
前言
自2022年12月ChatGPT發(fā)布以來(lái),大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型(Generative Language Model)在學(xué)術(shù)界與工業(yè)界引起軒然大波,帶動(dòng)了一系列通用人工智能技術(shù)(AGI: Artificial General Intelligence)的快速發(fā)展,包括圖文生成模型,如Midjourney的高精度、高度仿真的圖文生成;具身多模態(tài)語(yǔ)言模型,比如谷歌(Google)公司連續(xù)推出PaLM-E(D. Driess et al., 2023)以及PaLM 2(A. Rohan et al., 2023)等。AGI已經(jīng)從模擬人類(lèi)大腦的思維能力(以語(yǔ)言模型為代表),快速演進(jìn)至“操控身體”的具身模型(以具身大模型為代表)。AGI全面侵襲從藝術(shù)創(chuàng)作到代碼生成、從問(wèn)題求解到科學(xué)發(fā)現(xiàn)、從問(wèn)答聊天到輔助決策等人類(lèi)智能的各個(gè)領(lǐng)地,人類(lèi)智能所能涉及的領(lǐng)域幾乎都有AGI的蹤跡。一場(chǎng)由AGI帶動(dòng)的新一輪信息技術(shù)革命已然席卷而至。人類(lèi)迎來(lái)一場(chǎng)有關(guān)“智能”本身的技術(shù)革命。
作為一種先進(jìn)的生產(chǎn)力,AGI既給全社會(huì)帶來(lái)令人興奮的機(jī)遇,也來(lái)帶來(lái)令人擔(dān)憂的挑戰(zhàn)。興奮與擔(dān)憂歸根結(jié)底是源于我們對(duì)AGI的理解還遠(yuǎn)遠(yuǎn)跟不上其發(fā)展速度。具體而言,人類(lèi)對(duì)于AGI技術(shù)原理、智能形態(tài)、能力上限的思考,對(duì)其對(duì)社會(huì)與個(gè)人影響的評(píng)估,明顯滯后于AGI的發(fā)展速度??梢哉f(shuō),快速發(fā)展的AGI與人類(lèi)對(duì)其認(rèn)知的顯著滯后構(gòu)成了一對(duì)鮮明的矛盾,把握這一矛盾是理解當(dāng)前AGI發(fā)展規(guī)律與其產(chǎn)生的社會(huì)影響的關(guān)鍵。也正是基于對(duì)上述矛盾的認(rèn)識(shí),不少科學(xué)家與AI企業(yè)領(lǐng)袖發(fā)出了暫停巨型大模型實(shí)驗(yàn)的呼聲,呼吁加快安全可證明的AI系統(tǒng)的研制。
誠(chéng)然,理解AGI十分困難。AGI這個(gè)術(shù)語(yǔ)中的三個(gè)單詞,分別從不同角度表達(dá)了理解AGI面臨的挑戰(zhàn)。從其核心詞“智能(Intelligence)”來(lái)看,一直以來(lái)關(guān)于什么是智能,就存在不同的觀點(diǎn),比如傳統(tǒng)計(jì)算機(jī)科學(xué)認(rèn)為,“獲取以及應(yīng)用知識(shí)與技能”[1]的能力是智能,但需思考這個(gè)定義是否仍然適用于今天以大規(guī)模生成式語(yǔ)言模型為代表的AGI。“通用(General)”一詞加劇了理解AGI的困難。相對(duì)于傳統(tǒng)的面向特定(specific)功能的AI,AGI旨在模擬人類(lèi)的心智能力,人類(lèi)智能的獨(dú)特之處鮮明地體現(xiàn)在其能夠針對(duì)不同環(huán)境作出適應(yīng)性調(diào)整,能夠勝任不同類(lèi)型甚至從未見(jiàn)過(guò)的任務(wù)。專用AI與通用AI存在怎樣的聯(lián)系與區(qū)別,是先實(shí)現(xiàn)通用AI還是先實(shí)現(xiàn)專用AI?General一詞將會(huì)引發(fā)很多諸如此類(lèi)的思考?!叭斯さ模ˋrtificial)”一詞則道出了AGI人工創(chuàng)造物的本質(zhì),而非自發(fā)從自然環(huán)境中進(jìn)化而成的智能。這自然就提出了工具智能與自然智能的異同等一系列問(wèn)題。
盡管挑戰(zhàn)重重,本文仍然嘗試針對(duì)AGI的某些方面展開(kāi)分析。本文聚焦于生成式人工智能,特別是大規(guī)模生成式語(yǔ)言模型為代表的通用人工智能技術(shù)。本文所談及的“智能”,不局限于人類(lèi)智能,也包括機(jī)器智能,將以機(jī)器智能與人類(lèi)智能作為彼此的參照,進(jìn)行對(duì)比分析。本文將對(duì)由生成式語(yǔ)言模型發(fā)展而引發(fā)的“智能”的內(nèi)涵、“智能”的演進(jìn)路徑等問(wèn)題進(jìn)行詳細(xì)分析,并在這一基礎(chǔ)上反思人類(lèi)智能的諸多方面,包括創(chuàng)造性、世界建模、知識(shí)獲取、自我認(rèn)知等。筆者相信本文的思考一方面可以消除人們對(duì)于機(jī)器智能快速進(jìn)步的擔(dān)憂,另一方面也能為機(jī)器智能的進(jìn)一步發(fā)展掃除障礙,有助于建立新型的人機(jī)和諧關(guān)系。在此需要說(shuō)明的是,本文的部分思考與結(jié)論超出了當(dāng)前的工程實(shí)踐所能檢驗(yàn)的范圍,仍需要付諸嚴(yán)格論證與實(shí)踐檢驗(yàn)。
什么是智能?ChatGPT何以成功?
生成式VS判別式。ChatGPT是生成式人工智能的代表。生成式AI在文本生成、文圖生成、圖像生成等領(lǐng)域取得了較好的效果。傳統(tǒng)的人工智能多屬于判別式人工智能。為何是生成式AI而非判別式AI成為AGI的主要形態(tài)?這是一個(gè)值得深思的問(wèn)題。判別式AI,通過(guò)標(biāo)注數(shù)據(jù)的訓(xùn)練,引導(dǎo)模型習(xí)得正確給出問(wèn)題答案的能力。生成式AI,往往針對(duì)無(wú)標(biāo)注數(shù)據(jù)設(shè)計(jì)基于遮蔽內(nèi)容還原的自監(jiān)督學(xué)習(xí)任務(wù)進(jìn)行訓(xùn)練,引導(dǎo)模型生成符合上下文語(yǔ)境的內(nèi)容。生成式模型不僅具備生成結(jié)果的能力,也能夠生成過(guò)程與解釋。所以生成任務(wù)可以視作比判別任務(wù)更具智力挑戰(zhàn)性的任務(wù),能夠有效引導(dǎo)模型習(xí)得高水平智能。具體而言,對(duì)于判斷題,判別式AI只需給出對(duì)或錯(cuò)的答案,即便隨機(jī)猜測(cè),仍然有百分之五十蒙對(duì)的概率。但是,生成式AI不僅需要生成答案,還可能需要同時(shí)生成解題過(guò)程,這就很難蒙混過(guò)關(guān)。所以相對(duì)于判別而言,生成可以說(shuō)是更加接近智能本質(zhì)的一類(lèi)任務(wù)。
智能與情景化生成能力。智能的本質(zhì)是什么?大模型的發(fā)展給人類(lèi)對(duì)這一問(wèn)題的思考帶來(lái)了很多新的啟發(fā)。大模型的智能本質(zhì)上是情景化生成(Contextualized Generation)能力,也就是根據(jù)上下文提示(Prompt)生成相關(guān)文本的能力。所以大模型的應(yīng)用效果在一定程度上取決于提示有效與否。如果我們能夠給出一個(gè)有效且合理的提示,那么ChatGPT這類(lèi)大模型往往能夠生成令人滿意的答案。這種情景化生成能力(“提示+生成”的能力)不僅適用于文本,也廣泛適用于圖像、語(yǔ)音、蛋白質(zhì)序列等各種不同類(lèi)型的復(fù)雜數(shù)據(jù)。不同的數(shù)據(jù)上下文不同,例如對(duì)于圖片而言,其上下文是周邊圖像。大模型的情景化生成能力是通過(guò)訓(xùn)練階段的上下文學(xué)習(xí)(In-context learning)而形成的(Q. Dong et al., 2022)。從數(shù)學(xué)本質(zhì)來(lái)講,大模型在訓(xùn)練階段習(xí)得了Token或者語(yǔ)料基本單元之間的聯(lián)合概率分布。情景化生成可以視作條件概率估算,即給定上下文或提示(也就是給出證據(jù)),根據(jù)聯(lián)合分布推斷出現(xiàn)剩余文本的概率。
傳統(tǒng)對(duì)于智能的理解多少都與“知識(shí)”有關(guān)(如把智能定義為“知識(shí)的發(fā)現(xiàn)和應(yīng)用能力”),或與人有關(guān)(如把智能定義為“像人一樣思考和行為的能力”),其本質(zhì)還是以人類(lèi)為中心,從認(rèn)識(shí)論視角理解智能。大模型所呈現(xiàn)出的這種情景化生成能力,則無(wú)關(guān)乎“知識(shí)”,“知識(shí)”說(shuō)到底是人類(lèi)為了理解世界所做出的人為發(fā)明。世界的存在不依賴“知識(shí)”,不依賴人類(lèi),情景化生成擺脫了人類(lèi)所定義的“知識(shí)”,回歸世界本身——只要能合理生成這個(gè)世界就是智能。智能被還原為一種生成能力,這種智能可以不以人類(lèi)為中心,也可以不依賴人類(lèi)的文明,這是AGI給我們帶來(lái)的重要啟示。
智能的分析與還原。大模型訓(xùn)練與優(yōu)化過(guò)程能夠?yàn)槲覀兏玫乩斫庵悄艿男纬蛇^(guò)程提供有益啟發(fā)。通用大模型的“出爐”基本上要經(jīng)歷三個(gè)階段(W. X. Zhao et al., 2023):第一個(gè)階段是底座大模型的訓(xùn)練;第二個(gè)階段是面向任務(wù)的指令學(xué)習(xí),也就是所謂的指令微調(diào);第三個(gè)階段是價(jià)值對(duì)齊。第一個(gè)階段底座大模型的訓(xùn)練本質(zhì)上是讓大模型習(xí)得語(yǔ)料或者數(shù)據(jù)所蘊(yùn)含的知識(shí)。但是這里的知識(shí)是一種參數(shù)化、概率化的知識(shí)(本質(zhì)上建模了語(yǔ)料中詞匯之間的一種聯(lián)合分布),使得情境化生成成為可能。因此,第一階段的本質(zhì)是知識(shí)獲?。ɑ蛘哒f(shuō)知識(shí)習(xí)得),第二階段指令學(xué)習(xí)旨在讓大模型習(xí)得完成任務(wù)的能力,最后一個(gè)階段則是價(jià)值觀念的習(xí)得。
大模型的智能被分解為知識(shí)、能力與價(jià)值三個(gè)階段,這是個(gè)值得關(guān)注的特性。知識(shí)是能力與價(jià)值的基礎(chǔ),所以底座模型的“煉制”尤為關(guān)鍵。ChatGPT經(jīng)歷了2018年初版GPT-1到2022年GPT-3.5近四年的訓(xùn)練與優(yōu)化。大模型的知識(shí)底座越深厚、越廣博,后續(xù)能夠習(xí)得的技能就越復(fù)雜、越多樣,價(jià)值判斷就越準(zhǔn)確、價(jià)值對(duì)齊就越敏捷。大模型將智能的三個(gè)核心要素相互剝離,而人類(lèi)的知識(shí)、能力與價(jià)值習(xí)得,往往是雜揉在一起的。我們很難界定小學(xué)課本中的某篇文章是在傳授知識(shí)、訓(xùn)練技能亦或是在塑造價(jià)值。大模型的這種分離式的智能發(fā)展,可以類(lèi)比于人類(lèi)社會(huì)的高等教育。人類(lèi)社會(huì)的本科教育旨在培養(yǎng)學(xué)習(xí)能力以獲取知識(shí),碩士教育旨在培養(yǎng)解題能力以解決問(wèn)題,博士教育則旨在培養(yǎng)價(jià)值判斷能力以發(fā)現(xiàn)問(wèn)題。
知識(shí)、能力和價(jià)值相剝離對(duì)于未來(lái)智能系統(tǒng)架構(gòu)、建立新型的人機(jī)協(xié)作關(guān)系、設(shè)計(jì)人機(jī)混合的智能系統(tǒng)架構(gòu)均有著積極的啟發(fā)意義。隨著機(jī)器智能的逐步發(fā)展,人類(lèi)相對(duì)于機(jī)器而言所擅長(zhǎng)的事物將會(huì)逐漸減少。但是,在某些特定場(chǎng)景仍存在一些人類(lèi)介入的空間。未來(lái)人機(jī)混合系統(tǒng)發(fā)展的關(guān)鍵仍是回答什么工作最值得由人來(lái)完成。看似完整的任務(wù)只有經(jīng)過(guò)分解,才能拆解出人機(jī)各自擅長(zhǎng)與適合的子任務(wù)。例如,將知識(shí)和能力剝離對(duì)于保護(hù)私域知識(shí)極具價(jià)值:大模型負(fù)責(zé)語(yǔ)言理解等核心任務(wù),而機(jī)密的數(shù)據(jù)與知識(shí)仍然交由傳統(tǒng)的數(shù)據(jù)庫(kù)或者知識(shí)庫(kù)來(lái)管理。這樣的系統(tǒng)架構(gòu),既充分利用了大模型的核心能力,又充分兼顧了知識(shí)私密性。
智能測(cè)試與人機(jī)區(qū)分。通用人工智能技術(shù)的發(fā)展顯著提升了機(jī)器的智能水平,特別是語(yǔ)言理解水平,機(jī)器在文本處理、語(yǔ)言理解等相關(guān)任務(wù)中已達(dá)到普通人類(lèi)甚至語(yǔ)言專家的水平。而隨之而來(lái)的一個(gè)十分關(guān)鍵的問(wèn)題是:人機(jī)邊界日益模糊。我們已經(jīng)很難僅僅通過(guò)幾輪對(duì)話去判斷窗口背后與你交流的是人還是機(jī)器。換言之,傳統(tǒng)的圖靈測(cè)試已經(jīng)難以勝任人機(jī)區(qū)分的使命。使用過(guò)ChatGPT的人都深有體會(huì),ChatGPT最擅長(zhǎng)的就是聊天,即便與其長(zhǎng)時(shí)間聊天,我們可能都不會(huì)覺(jué)得無(wú)趣。
人機(jī)邊界的模糊會(huì)帶來(lái)很多社會(huì)問(wèn)題。首先,普通民眾,尤其是青少年,可能出于對(duì)技術(shù)的信任而沉溺于ChatGPT類(lèi)的對(duì)話模型中。當(dāng)ChatGPT日益智能,我們習(xí)慣了向其提問(wèn),習(xí)慣了接受它的答案,久而久之,人類(lèi)賴以發(fā)展的質(zhì)疑精神就會(huì)逐步喪失。在日益強(qiáng)大的AGI面前,如何避免人的精神本質(zhì)的退化?這些問(wèn)題需要我們嚴(yán)肅思考并回答。其次,當(dāng)人機(jī)真假難辨,虛假信息泛濫,欺詐將會(huì)層出不窮。最近越來(lái)越多犯罪分子已經(jīng)通過(guò)AI換臉、AI視頻生成,成功實(shí)施了多起欺詐案件。如何治理由人機(jī)邊界模糊帶來(lái)的社會(huì)性欺騙將成為一個(gè)十分重要的AI治理問(wèn)題。最后,還值得注意的是驗(yàn)證碼,這一我們?cè)谌粘I钪袕V泛使用,卻很快會(huì)變成問(wèn)題的應(yīng)用。驗(yàn)證碼是我們進(jìn)行人機(jī)區(qū)分的利器,但是隨著AGI的發(fā)展,尤其是在其對(duì)于各類(lèi)工具的操控能力日益增強(qiáng)之后,驗(yàn)證碼所具備的人機(jī)區(qū)分功能將會(huì)面臨日益嚴(yán)峻的挑戰(zhàn)。隨著人形機(jī)器人技術(shù)的日益成熟,未來(lái)如何證明你是人而非機(jī)器,或者反之,如何證明機(jī)器是機(jī)器而不是人將會(huì)成為越來(lái)越困難的問(wèn)題。
人機(jī)邊界的模糊本質(zhì)上歸結(jié)于人機(jī)智能測(cè)試問(wèn)題。我們需要刻畫(huà)出人類(lèi)智能獨(dú)有的、不能或者至少是難以被機(jī)器智能所侵犯的領(lǐng)地。從機(jī)器智能的發(fā)展歷史來(lái)看,這個(gè)領(lǐng)地的范圍將會(huì)越來(lái)越窄。我們?cè)?jīng)認(rèn)為在下圍棋這樣的高度智力密集活動(dòng)中機(jī)器難以超越人類(lèi),也曾認(rèn)為在進(jìn)行高質(zhì)量對(duì)話中機(jī)器難以超越人類(lèi),更曾認(rèn)為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這樣的科學(xué)發(fā)現(xiàn)是機(jī)器難以超越人類(lèi)的……這些機(jī)器難以超越人類(lèi)的任務(wù)列表曾經(jīng)很長(zhǎng),如今已經(jīng)越來(lái)越短。圖靈測(cè)試已然失效,但是人類(lèi)還來(lái)不及提出新的有效的代替性測(cè)試方案。有人提出,唯有人類(lèi)會(huì)犯錯(cuò)及其行為的不確定性是人類(lèi)獨(dú)具的。這樣的觀點(diǎn)不值一駁,因?yàn)闄C(jī)器很容易植入一些錯(cuò)誤與不確定性以掩飾自己的智能。未來(lái)我們?nèi)绾巫C明機(jī)器試圖越獄,以及機(jī)器是否正在掩飾自己的能力,這些都是AI安全需要高度關(guān)注的問(wèn)題。
智能的演進(jìn)路線,通用人工智能如何發(fā)展與進(jìn)步?
“反饋進(jìn)化”與“填鴨灌輸”。人類(lèi)的智能是一種典型的生物智能,是經(jīng)過(guò)漫長(zhǎng)的進(jìn)化發(fā)展而形成的。人類(lèi)在自然與社會(huì)環(huán)境中不斷地實(shí)踐、接收反饋、持續(xù)嘗試,形成了高度的智能。各類(lèi)動(dòng)物的智能都可以歸類(lèi)到進(jìn)化智能。進(jìn)化智能的演進(jìn)需要漫長(zhǎng)的時(shí)間,換言之,只要給予足夠的時(shí)間,自然環(huán)境或?qū)⒕湍芩茉烊魏嗡降闹悄堋5偷葎?dòng)物經(jīng)過(guò)漫長(zhǎng)時(shí)間的洗禮也有可能發(fā)展出先進(jìn)智能。但是當(dāng)前機(jī)器智能走的是一條“填鴨灌輸”式的路徑,是一條實(shí)現(xiàn)先進(jìn)智能的捷徑。將人類(lèi)社會(huì)已經(jīng)積累的所有語(yǔ)料、書(shū)籍、文獻(xiàn)“灌輸”給大模型,經(jīng)過(guò)精心“煉制”,大模型就能習(xí)得人類(lèi)積累數(shù)千年的文明成果。雖然大模型“煉制”也需要耗費(fèi)數(shù)天、數(shù)月的時(shí)間,但相對(duì)于人類(lèi)智能的漫長(zhǎng)進(jìn)化歷程,幾乎就是轉(zhuǎn)瞬之間。機(jī)器能夠在如此短暫的時(shí)間內(nèi)習(xí)得人類(lèi)數(shù)千年積累的知識(shí),這本身已是奇跡。
人類(lèi)社會(huì)多將“填鴨灌輸”視作一種機(jī)械、低效的知識(shí)傳授方式,而這卻恰恰成為人類(lèi)向機(jī)器傳授知識(shí)的高效方式。如果單純以考分評(píng)價(jià)學(xué)生,粗暴的填鴨式、灌輸式的教育十分高效。但這種教育培養(yǎng)出的學(xué)生往往高分低能,難以靈活應(yīng)用知識(shí)解決實(shí)際問(wèn)題。所以我們的學(xué)生還需要接受大量的實(shí)踐教育,從反饋中學(xué)習(xí),最終成為行家里手,將知識(shí)融會(huì)貫通。人類(lèi)專家的養(yǎng)成過(guò)程對(duì)于理解大模型的發(fā)展過(guò)程極具啟發(fā)。當(dāng)前,大模型的填鴨式學(xué)習(xí)階段已經(jīng)基本完成,很快大模型將操控各類(lèi)工具、開(kāi)展實(shí)踐式學(xué)習(xí),從而進(jìn)入從實(shí)踐習(xí)得知識(shí)的新階段。
“先通再?!边€是“先專再通”。通用人工智能的發(fā)展帶給我們的另一個(gè)啟示在于機(jī)器智能走出了一條“先通再專”的發(fā)展路徑。從大規(guī)模語(yǔ)言模型的應(yīng)用方式來(lái)看,首先要“煉制”通用的大語(yǔ)言模型,一般來(lái)講訓(xùn)練語(yǔ)料越是廣泛而多樣,通用大模型的能力越強(qiáng)。但是這樣的通用大模型在完成任務(wù)時(shí),效果仍然差強(qiáng)人意。因而,一般還要經(jīng)過(guò)領(lǐng)域數(shù)據(jù)微調(diào)與任務(wù)指令學(xué)習(xí),使其理解領(lǐng)域文本并勝任特定任務(wù),可見(jiàn)大模型的智能是先通用,再專業(yè)。通用智能階段側(cè)重于進(jìn)行通識(shí)學(xué)習(xí),習(xí)得包括語(yǔ)言理解與推理能力及廣泛的通用知識(shí);專業(yè)智能階段則讓大模型理解各種任務(wù)指令,勝任各類(lèi)具體任務(wù)。這樣一種智能演進(jìn)路徑與人類(lèi)的學(xué)習(xí)過(guò)程相似。人類(lèi)的基礎(chǔ)教育聚焦通識(shí)學(xué)習(xí),而高等教育側(cè)重專識(shí)學(xué)習(xí);武俠小說(shuō)中的功夫高手往往先練內(nèi)力再習(xí)招式。這些都與大模型“先通再?!钡陌l(fā)展路徑相似。
大模型“先通再專”的發(fā)展路徑顛覆了以往人工智能的主流發(fā)展路徑。ChatGPT誕生之前,AI研究的主陣地是專用AI或者功能性AI,其主旨在于讓機(jī)器具備勝任特定場(chǎng)景與任務(wù)的能力,比如下棋、計(jì)算、語(yǔ)音識(shí)別、圖像識(shí)別等等。傳統(tǒng)觀念認(rèn)為,若干專用智能堆積在一起,才能接近通用智能;或者說(shuō)如果專業(yè)智能都不能實(shí)現(xiàn),則更不可能實(shí)現(xiàn)通用智能。由此可以看出,“先專再通”是傳統(tǒng)人工智能發(fā)展的基本共識(shí)。但是,以ChatGPT為代表的大規(guī)模生成式語(yǔ)言模型,基本顛覆了這一傳統(tǒng)認(rèn)識(shí),并說(shuō)明機(jī)器智能與人類(lèi)智能一樣,需要先具備通識(shí)能力才能發(fā)展專業(yè)認(rèn)知。
在新認(rèn)識(shí)下,我們需要重新理解領(lǐng)域人工智能(Domain-Specific AI)。領(lǐng)域是與通用相對(duì)而言的。事實(shí)上,沒(méi)有通用認(rèn)知能力,就沒(méi)有領(lǐng)域認(rèn)知能力。舉個(gè)例子,醫(yī)療是個(gè)典型的垂直領(lǐng)域,傳統(tǒng)觀念認(rèn)為可以以較低代價(jià)搭建診斷某類(lèi)疾病的智能系統(tǒng)。比如,針對(duì)耳鳴疾病,傳統(tǒng)方法一般將與之相關(guān)的專業(yè)知識(shí)、文本、數(shù)據(jù)灌輸給機(jī)器,以期實(shí)現(xiàn)耳鳴這個(gè)極為細(xì)分病種的智能診斷。但在實(shí)踐過(guò)程中,這一想法從未真正成功。究其根源,醫(yī)生要理解疾病,就需要先理解健康,而健康不屬于疾病的范疇。一個(gè)耳科醫(yī)生接診的大部分時(shí)間是在排查無(wú)需治療的健康情況。也就是說(shuō),要真正理解某個(gè)領(lǐng)域,恰恰需要認(rèn)知領(lǐng)域之外的概念。由此可見(jiàn),領(lǐng)域認(rèn)知是建立在通識(shí)能力基礎(chǔ)之上的。這些新認(rèn)識(shí)為我們重新發(fā)展領(lǐng)域認(rèn)知智能帶來(lái)新的啟發(fā),可以說(shuō)在ChatGPT類(lèi)的通用大模型支撐下,各領(lǐng)域認(rèn)知智能將迎來(lái)全新的發(fā)展機(jī)遇。
先符號(hào)再體驗(yàn),先形式再內(nèi)容。大規(guī)模語(yǔ)言模型通過(guò)使用文本或符號(hào)表達(dá)的語(yǔ)料訓(xùn)練而成。人類(lèi)的自然語(yǔ)言是一種符號(hào)化的表達(dá)方式,語(yǔ)言模型表達(dá)了語(yǔ)言符號(hào)之間的統(tǒng)計(jì)關(guān)聯(lián)。然而,符號(hào)只是形式,單純基于符號(hào)的統(tǒng)計(jì)學(xué)習(xí)不足以讓機(jī)器理解符號(hào)所指或者語(yǔ)言的內(nèi)涵。純形式符號(hào)的智能系統(tǒng)勢(shì)必會(huì)遭遇類(lèi)似約翰·塞爾“中文屋”[2]思想的責(zé)難。所以,AGI不是停留在單純的語(yǔ)言模型階段,而是積極融合多模態(tài)數(shù)據(jù)進(jìn)行混合訓(xùn)練。各類(lèi)多模態(tài)數(shù)據(jù),比如圖像、語(yǔ)音、視頻,能夠表達(dá)人類(lèi)豐富的世界體驗(yàn)(X. Zhu et al., 2022)。舉個(gè)例子,人們對(duì)于“馬”這個(gè)符號(hào)的理解,一定程度上取決于人們對(duì)馬這一動(dòng)物的經(jīng)驗(yàn)和認(rèn)識(shí),比如高亢的嘶鳴(語(yǔ)音)、健壯的形象(圖像)、奔騰的動(dòng)作(視頻)。人的體驗(yàn)支撐了人對(duì)于“馬”這個(gè)概念的理解,正如人們對(duì)于萬(wàn)馬齊喑的悲涼體會(huì)是建立在對(duì)于馬的健康、積極形象的體驗(yàn)基礎(chǔ)之上。所以AGI走出了一條先符號(hào)再體驗(yàn)、從形式到內(nèi)容的發(fā)展路徑。這和人類(lèi)智能的發(fā)展過(guò)程恰好相反,人類(lèi)是先有了豐富經(jīng)驗(yàn)或體驗(yàn),才抽象成符號(hào)、文字與概念。
“先大腦再身體”與“先身體再大腦”。目前AGI的發(fā)展趨勢(shì)是先發(fā)展語(yǔ)言模型,以模擬人腦的認(rèn)知能力,再基于機(jī)器大腦的認(rèn)知能力驅(qū)動(dòng)各類(lèi)工具與身體部件。大腦的復(fù)雜規(guī)劃與推理能力對(duì)于身體與工具在現(xiàn)實(shí)世界中的交互與動(dòng)作是不可或缺的。AGI走出了一條“先實(shí)現(xiàn)大腦的認(rèn)知能力,后實(shí)現(xiàn)身體與物理世界交互能力”的發(fā)展路線。很顯然,AGI的這條發(fā)展路線與人類(lèi)智能的進(jìn)化有著顯著的不同。人類(lèi)在一定程度上是先具備身體能力,并在身體與世界的持續(xù)交互過(guò)程中,塑造和發(fā)展大腦的認(rèn)知能力。傳統(tǒng)的人工智能技術(shù)路線也傾向于先實(shí)現(xiàn)身體各器官或部件的基本功能,再實(shí)現(xiàn)大腦的復(fù)雜認(rèn)知能力,傾向于接受機(jī)械身體與現(xiàn)實(shí)世界的交互能力比大腦的復(fù)雜認(rèn)知能力更易實(shí)現(xiàn)的觀點(diǎn)。然而,目前的人工智能發(fā)展路徑在一定程度上顛覆了我們對(duì)機(jī)器智能實(shí)現(xiàn)路徑的傳統(tǒng)認(rèn)識(shí)。
由通用人工智能引發(fā)的人類(lèi)自我審視及啟示
組合泛化是一種創(chuàng)造,但可能是低級(jí)的創(chuàng)造形式。AGI之所以吸引了業(yè)界的高度關(guān)注,一個(gè)很重要的原因在于它呈現(xiàn)出了一定的創(chuàng)造能力。我們發(fā)現(xiàn)ChatGPT或者GPT-4,已經(jīng)擁有了比較強(qiáng)大的組合泛化能力:大模型經(jīng)過(guò)足量常見(jiàn)任務(wù)的指令學(xué)習(xí),能夠勝任一些新的組合任務(wù)。具體來(lái)說(shuō),大模型學(xué)會(huì)了完成a、b兩類(lèi)任務(wù),它就一定程度上可以完成a+b這類(lèi)新任務(wù)。比如GPT-4能夠使用莎士比亞詩(shī)詞風(fēng)格來(lái)書(shū)寫(xiě)數(shù)學(xué)定理證明。實(shí)際上這是由于GPT-4分別習(xí)得了數(shù)學(xué)證明與寫(xiě)莎士比亞詩(shī)詞兩種能力,進(jìn)而組合泛化出的新能力。
第一,我們必須認(rèn)可大模型的這種組合創(chuàng)新能力。反觀人類(lèi)社會(huì)的很多創(chuàng)新,本質(zhì)上也屬于組合創(chuàng)新,這種創(chuàng)新形式甚至占據(jù)了絕大多數(shù)。比如,在工科領(lǐng)域的技術(shù)創(chuàng)新中,很多研究生擅長(zhǎng)把針對(duì)A場(chǎng)景所提出的B方法應(yīng)用到X場(chǎng)景并取得了不錯(cuò)的效果;爆米花式電影中平庸的劇情創(chuàng)作,大都通過(guò)借用a故事的框架、b故事的人物,套用c故事的情節(jié),使用d故事的橋段,等等。第二,AGI的組合創(chuàng)新能力遠(yuǎn)超人類(lèi)認(rèn)知水平。AGI可以將任意兩個(gè)學(xué)科的能力進(jìn)行組合,這里的很多組合可能是人類(lèi)從未想象過(guò)的,比如利用李清照詩(shī)詞的風(fēng)格寫(xiě)代碼注釋。這種新穎的組合創(chuàng)新能力有可能是AGI給我們帶來(lái)的寶貴財(cái)富,將極大地激發(fā)人類(lèi)的想象力。第三,AGI的這種組合創(chuàng)新能力,基本上宣告了人類(lèi)社會(huì)的拼貼式內(nèi)容創(chuàng)新將失去意義。因?yàn)?,AGI能夠組合創(chuàng)新的素材,以及其生成的效率都遠(yuǎn)超人類(lèi)。我們?cè)?jīng)引以為傲的集成創(chuàng)新也將失去其光環(huán),而原始創(chuàng)新在AGI面前顯得更加難能可貴。第四,AGI的組合創(chuàng)新將迫使人類(lèi)重新思考創(chuàng)新的本質(zhì)。人類(lèi)所能做出的而AGI無(wú)法實(shí)現(xiàn)的創(chuàng)新將更加凸顯其價(jià)值。AGI將促使人類(lèi)不再沉迷于隨機(jī)拼接或簡(jiǎn)單組裝式的創(chuàng)造,而是更加注重富有內(nèi)涵、視角獨(dú)特、觀點(diǎn)新穎的內(nèi)容創(chuàng)造。
自監(jiān)督學(xué)習(xí)是世界建模的有效方式。自監(jiān)督學(xué)習(xí)可以視為一種填空游戲,即根據(jù)上下文填補(bǔ)空白。例如,我們事先遮蓋住一個(gè)完整句子中的某個(gè)單詞,然后讓機(jī)器根據(jù)這個(gè)句子的上下文還原被遮蓋的詞語(yǔ)。同樣地,就圖像而言,我們可以遮擋部分圖像區(qū)域,讓大模型根據(jù)周邊的背景圖像還原出被遮擋圖像的內(nèi)容。這樣一種自監(jiān)督學(xué)習(xí)范式為什么能夠成就ChatGPT這類(lèi)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,是個(gè)值得深思的問(wèn)題。
“遮蔽+還原”式樣的自監(jiān)督學(xué)習(xí)任務(wù)旨在習(xí)得世界模型。比如,人們都知道高空拋重物,物體一定會(huì)下落,而不會(huì)向上飄也不可能懸在空中。最近很多學(xué)者,包括圖靈獎(jiǎng)獲得者Yann LeCun都指出了世界模型(Y. Lecun, 2022)對(duì)于AGI的重要性。人類(lèi)社會(huì)業(yè)已積累的數(shù)據(jù)體現(xiàn)了人類(lèi)對(duì)于現(xiàn)實(shí)世界的認(rèn)識(shí),通過(guò)對(duì)這些數(shù)據(jù)的學(xué)習(xí),機(jī)器將有機(jī)會(huì)建立世界模型。當(dāng)數(shù)據(jù)足夠多、足夠精、足夠豐富時(shí),就能在一定程度上表達(dá)人類(lèi)對(duì)復(fù)雜現(xiàn)實(shí)世界的完整認(rèn)知,基于“遮蔽+還原”的自監(jiān)督學(xué)習(xí)機(jī)制,機(jī)器能夠逼真地建立起關(guān)于世界的模型。反觀人類(lèi)的世界模型,很大程度上來(lái)自于經(jīng)驗(yàn)與文明傳承。一方面,我們?cè)谏眢w與世界交互過(guò)程中形成經(jīng)驗(yàn)從而建立世界模型;另一方面,文化傳播和教育傳承塑造著我們對(duì)世界的認(rèn)知。所以人類(lèi)對(duì)世界建模的方式與機(jī)器建模世界的方式有著本質(zhì)的不同。
大模型所習(xí)得的隱性知識(shí)。大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型借助了Transformer(A. Vaswani et al., 2017)這樣的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),習(xí)得了語(yǔ)言元素之間的統(tǒng)計(jì)關(guān)聯(lián),并具備了情境化生成能力。而大模型之大,主要就體現(xiàn)在其參數(shù)量巨大。這樣一個(gè)復(fù)雜的深度網(wǎng)絡(luò)空間編碼了語(yǔ)料中所蘊(yùn)含的各種知識(shí),這種知識(shí)具有參數(shù)化表達(dá)與分布式組織兩個(gè)鮮明特點(diǎn)。所謂分布式組織,是指某一個(gè)知識(shí)并不能具體對(duì)應(yīng)到某個(gè)具體神經(jīng)元,而是分散表達(dá)為不同神經(jīng)元的權(quán)重參數(shù)及其之間的互聯(lián)結(jié)構(gòu)。在特定輸入下,通過(guò)激活某些神經(jīng)元、以神經(jīng)網(wǎng)絡(luò)計(jì)算方式獲取知識(shí)。因此,大模型可以視作隱性知識(shí)的容器。
大模型所編碼的隱性知識(shí)顯著超出人類(lèi)業(yè)已表達(dá)的顯性知識(shí)的范圍。從某種意義上說(shuō),人類(lèi)能用自然語(yǔ)言表達(dá)的知識(shí)是可以窮盡的,是有限的。而人類(lèi)在潛意識(shí)下用到的常識(shí)、文本中的言下之意、領(lǐng)域?qū)<译y以表達(dá)的經(jīng)驗(yàn)等等,都是以隱性知識(shí)的形式存在的。大模型為我們認(rèn)識(shí)這些隱性知識(shí)提供了更多可能性。大模型是通才,它是利用全人類(lèi)、全學(xué)科的語(yǔ)料訓(xùn)練生成的,它所習(xí)得的某些隱性關(guān)聯(lián)或者統(tǒng)計(jì)模式,有可能對(duì)應(yīng)到人類(lèi)難以言說(shuō)的隱性知識(shí)。比如外交場(chǎng)景下的遣詞造句多有言下之意、往往被賦予了特殊內(nèi)涵,大模型的出現(xiàn)給解讀這種言下之意與獨(dú)特內(nèi)涵帶來(lái)新的機(jī)會(huì)。大模型所編碼的知識(shí),很多是人類(lèi)從未解讀過(guò)的,特別是跨學(xué)科知識(shí)點(diǎn)之間的隱性關(guān)聯(lián)。這也是大模型給我們整個(gè)人類(lèi)文明發(fā)展帶來(lái)的一次重大機(jī)遇。
隨著大模型對(duì)隱性知識(shí)解讀的日益深入,人類(lèi)的知識(shí)將呈現(xiàn)爆炸性增長(zhǎng)。我們不得不思考一個(gè)深刻的問(wèn)題:過(guò)量的知識(shí)會(huì)否成為人類(lèi)文明發(fā)展不可承受之重。事實(shí)上,當(dāng)知識(shí)積累到一定的程度,單純的知識(shí)獲取已經(jīng)偏離了人類(lèi)文明發(fā)展的主航道。在知識(shí)急劇增長(zhǎng)的未來(lái),發(fā)現(xiàn)“智慧”比獲取“知識(shí)”更加重要。很多時(shí)候,我們并不需要太多知識(shí),只要具備從大模型獲取知識(shí)的能力即可。理論上人類(lèi)每個(gè)個(gè)體(即便人類(lèi)最杰出的精英)所能知曉的知識(shí)量也一定遠(yuǎn)遠(yuǎn)低于智能機(jī)器。我們每個(gè)人的價(jià)值不是體現(xiàn)在擁有多少知識(shí),而是知道如何使用知識(shí),使用知識(shí)的智慧將是人類(lèi)個(gè)體核心價(jià)值所在。AGI的發(fā)展倒逼人類(lèi)社會(huì)的發(fā)展從追求知識(shí)進(jìn)入追求智慧的新階段。
大模型倒逼人類(lèi)重新認(rèn)識(shí)自我。AGI技術(shù)將與人類(lèi)社會(huì)發(fā)展進(jìn)程深度結(jié)合,為人類(lèi)社會(huì)帶來(lái)前所未有的重大機(jī)遇和嚴(yán)峻挑戰(zhàn)。
隨著人工智能技術(shù)的迅速發(fā)展,AGI所帶來(lái)的風(fēng)險(xiǎn)也逐漸凸顯。首先,AGI給AI技術(shù)治理和社會(huì)治理帶來(lái)挑戰(zhàn)。與目前的人工智能相比,AGI失控將會(huì)帶來(lái)更加災(zāi)難性的后果。當(dāng)前,AGI技術(shù)“失控”的風(fēng)險(xiǎn)日益增加,必須及時(shí)干預(yù)。比如,AGI降低了內(nèi)容生成門(mén)檻,導(dǎo)致虛假信息泛濫,已經(jīng)成為一個(gè)嚴(yán)峻的問(wèn)題。再比如,AGI作為先進(jìn)生產(chǎn)力,如果不能被大多數(shù)人掌握而是掌握在少數(shù)人或機(jī)構(gòu)手中,技術(shù)霸權(quán)主義將會(huì)對(duì)社會(huì)發(fā)展帶來(lái)消極影響。其次,AGI技術(shù)將會(huì)對(duì)人類(lèi)個(gè)體的發(fā)展帶來(lái)挑戰(zhàn)。未來(lái)的社會(huì)生產(chǎn)似乎經(jīng)由少數(shù)精英加上智能機(jī)器就可以完成,工業(yè)時(shí)代的2∕8法則到了AGI時(shí)代可能會(huì)變成2∕98法則。換言之,越來(lái)越多的工作與任務(wù)在強(qiáng)大的AGI面前可能失去意義,個(gè)體存在的價(jià)值與意義需要重新定義。我們的壽命或?qū)⒋蠓妊娱L(zhǎng),但是生命的質(zhì)感卻逐漸消弱。如何幫助我們中的絕大多數(shù)人尋找生命的意義?如何優(yōu)雅地打發(fā)休閑時(shí)光?這些都是需要深度思考的問(wèn)題。最后,AGI的進(jìn)步可能會(huì)帶來(lái)人類(lèi)整體倒退的風(fēng)險(xiǎn)。當(dāng)人類(lèi)發(fā)展了家禽技術(shù),打獵技術(shù)就明顯倒退;當(dāng)紡織機(jī)器日益成熟,繡花技藝就顯得沒(méi)有必要。我們的各種非物質(zhì)文化遺產(chǎn)、各類(lèi)體育運(yùn)動(dòng),本質(zhì)上都是在防止人類(lèi)的倒退。不能因?yàn)闄C(jī)器擅長(zhǎng)完成人類(lèi)的某項(xiàng)工作或任務(wù),就放任人類(lèi)的此項(xiàng)能力逐步退化。如果說(shuō)以往各種技術(shù)的進(jìn)步只是讓人類(lèi)逐步遠(yuǎn)離了大自然的原始狀態(tài),人類(lèi)在與惡劣的自然環(huán)境的搏斗中所發(fā)展出的四肢能力的倒退是人類(lèi)文明發(fā)展必須作出的犧牲;那么,此次旨在代替人類(lèi)腦力的AGI會(huì)否引起人類(lèi)智能的倒退?智能的倒退必然引起人類(lèi)主體性的喪失與文明的崩塌。如何防止我們的腦力或者說(shuō)智能的倒退,是個(gè)必須嚴(yán)肅思考的問(wèn)題。
盡管面臨重重挑戰(zhàn),但AGI毫無(wú)疑問(wèn)是一種先進(jìn)生產(chǎn)力,其發(fā)展的勢(shì)頭是不可阻擋的。除了前文提到的種種具體的技術(shù)賦能之外,這里要從人類(lèi)文明發(fā)展的高度再次強(qiáng)調(diào)AGI所帶來(lái)的全新機(jī)遇。首先,AGI對(duì)于加速人類(lèi)知識(shí)發(fā)現(xiàn)進(jìn)程具有重大意義。前文已經(jīng)討論過(guò)對(duì)大語(yǔ)言模型已編碼的隱性知識(shí)的解讀將會(huì)加速人類(lèi)的知識(shí)發(fā)現(xiàn),但同時(shí)也會(huì)帶來(lái)知識(shí)的貶值。未來(lái)我們會(huì)見(jiàn)證知識(shí)的爆炸所帶來(lái)的“知識(shí)無(wú)用”。其次,AGI發(fā)展的最大意義可能在于倒逼人類(lèi)進(jìn)步。平庸的創(chuàng)作失去意義、組合創(chuàng)新失去意義、窮舉式探索失去意義……這個(gè)列表注定會(huì)越來(lái)越長(zhǎng)。但是人的存在不能失去意義,我們要重新找尋自身價(jià)值所在,重新思考人之所以為人的哲學(xué)命題。
結(jié)語(yǔ)
對(duì)于AGI的探索和思考才剛剛開(kāi)始,我們還有很長(zhǎng)的路要走。我們必須高度警醒AGI所帶來(lái)的問(wèn)題,并充分重視AGI所創(chuàng)造的機(jī)會(huì)。兩千多年前,蘇格拉底說(shuō)“認(rèn)識(shí)你自己”,今天在AGI技術(shù)發(fā)展的倒逼下,人類(lèi)需要“重新認(rèn)識(shí)你自己”。
注釋
[1]《牛津詞典》將Intelligence一詞定義為“the ability to acquire and apply knowledge and skills”。
[2]約翰·塞爾設(shè)計(jì)了一個(gè)思想實(shí)驗(yàn),一個(gè)關(guān)在屋子里不懂中文的人也能憑借辭典完成中英文翻譯工作,在屋外人看來(lái)這個(gè)屋子具有翻譯能力,能夠理解中文。塞爾以此思想實(shí)驗(yàn)反駁圖靈測(cè)試,認(rèn)為該測(cè)試不能評(píng)價(jià)對(duì)象是否具有理解能力。
參考文獻(xiàn)
A. Rohan et al., 2023, “PaLM 2 Technical Report,“ arXiv preprint arXiv:2305.10403.
A. Vaswani et al., 2017, “Attention Is All You Need,“ Advances in Neural Information Processing Systems.
D. Driess et al., 2023, “PaLM-E: An Embodied Multimodal Language Model,“ International Conference on Machine Learning.
Q. Dong et al., 2022, “A Survey on In-context Learning,“ arXiv preprint arXiv:2301.00234.
W. X. Zhao et al., 2023, "A Survey of Large Language Models," arXiv preprint arXiv: 2303.18223.
X. Zhu et al., 2022, “Multi-Modal Knowledge Graph Construction and Application: A Survey,“ IEEE Transactions on Knowledge and Data Engineering.
Y. Lecun, 2022, “A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27,“ Open Review.
責(zé) 編∕包 鈺