生成式語(yǔ)言模型與通用人工智能：內(nèi)涵、路徑與啟示

2023-08-23 17:41肖仰華

人民論壇·學(xué)術(shù)前沿 2023年14期

肖仰華

【摘要】以ChatGPT為代表的大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型帶動(dòng)了一系列通用人工智能（AGI： Artificial General Intelligence）技術(shù)的迅速發(fā)展。AGI已經(jīng)掀起新一輪信息技術(shù)革命，成為一種先進(jìn)的生產(chǎn)力，深入理解AGI的本質(zhì)顯得尤為迫切。大規(guī)模生成式語(yǔ)言模型為代表的通用人工智能技術(shù)，以生成式AI為主要形態(tài)，具備情景化生成能力，形成了知識(shí)、能力、價(jià)值三個(gè)階段的智能煉就路徑。隨著相關(guān)技術(shù)的發(fā)展，機(jī)器的智能水平快速提升，將帶來(lái)人機(jī)邊界模糊及與其相關(guān)的一系列社會(huì)問(wèn)題。AGI的發(fā)展路徑具有“填鴨灌輸”式學(xué)習(xí)、“先通再專”等特點(diǎn)，在一定程度上顛覆了人類(lèi)對(duì)機(jī)器智能實(shí)現(xiàn)路徑的傳統(tǒng)認(rèn)識(shí)，倒逼人類(lèi)在世界建模、知識(shí)獲取、自我認(rèn)知等層面進(jìn)行反思。人類(lèi)需高度警醒AGI帶來(lái)的挑戰(zhàn)，并積極抓住其帶來(lái)的機(jī)遇，推動(dòng)構(gòu)建新型的人機(jī)和諧關(guān)系。

【關(guān)鍵詞】 ChatGPT? 通用人工智能? 圖靈測(cè)試? 生成式人工智能

【中圖分類(lèi)號(hào)】TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2023.14.004

前言

自2022年12月ChatGPT發(fā)布以來(lái)，大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型（Generative Language Model）在學(xué)術(shù)界與工業(yè)界引起軒然大波，帶動(dòng)了一系列通用人工智能技術(shù)（AGI： Artificial General Intelligence）的快速發(fā)展，包括圖文生成模型，如Midjourney的高精度、高度仿真的圖文生成；具身多模態(tài)語(yǔ)言模型，比如谷歌（Google）公司連續(xù)推出PaLM-E（D. Driess et al.， 2023）以及PaLM 2（A. Rohan et al.， 2023）等。AGI已經(jīng)從模擬人類(lèi)大腦的思維能力（以語(yǔ)言模型為代表），快速演進(jìn)至“操控身體”的具身模型（以具身大模型為代表）。AGI全面侵襲從藝術(shù)創(chuàng)作到代碼生成、從問(wèn)題求解到科學(xué)發(fā)現(xiàn)、從問(wèn)答聊天到輔助決策等人類(lèi)智能的各個(gè)領(lǐng)地，人類(lèi)智能所能涉及的領(lǐng)域幾乎都有AGI的蹤跡。一場(chǎng)由AGI帶動(dòng)的新一輪信息技術(shù)革命已然席卷而至。人類(lèi)迎來(lái)一場(chǎng)有關(guān)“智能”本身的技術(shù)革命。

作為一種先進(jìn)的生產(chǎn)力，AGI既給全社會(huì)帶來(lái)令人興奮的機(jī)遇，也來(lái)帶來(lái)令人擔(dān)憂的挑戰(zhàn)。興奮與擔(dān)憂歸根結(jié)底是源于我們對(duì)AGI的理解還遠(yuǎn)遠(yuǎn)跟不上其發(fā)展速度。具體而言，人類(lèi)對(duì)于AGI技術(shù)原理、智能形態(tài)、能力上限的思考，對(duì)其對(duì)社會(huì)與個(gè)人影響的評(píng)估，明顯滯后于AGI的發(fā)展速度?？梢哉f(shuō)，快速發(fā)展的AGI與人類(lèi)對(duì)其認(rèn)知的顯著滯后構(gòu)成了一對(duì)鮮明的矛盾，把握這一矛盾是理解當(dāng)前AGI發(fā)展規(guī)律與其產(chǎn)生的社會(huì)影響的關(guān)鍵。也正是基于對(duì)上述矛盾的認(rèn)識(shí)，不少科學(xué)家與AI企業(yè)領(lǐng)袖發(fā)出了暫停巨型大模型實(shí)驗(yàn)的呼聲，呼吁加快安全可證明的AI系統(tǒng)的研制。

誠(chéng)然，理解AGI十分困難。AGI這個(gè)術(shù)語(yǔ)中的三個(gè)單詞，分別從不同角度表達(dá)了理解AGI面臨的挑戰(zhàn)。從其核心詞“智能（Intelligence）”來(lái)看，一直以來(lái)關(guān)于什么是智能，就存在不同的觀點(diǎn)，比如傳統(tǒng)計(jì)算機(jī)科學(xué)認(rèn)為，“獲取以及應(yīng)用知識(shí)與技能”[1]的能力是智能，但需思考這個(gè)定義是否仍然適用于今天以大規(guī)模生成式語(yǔ)言模型為代表的AGI。“通用（General）”一詞加劇了理解AGI的困難。相對(duì)于傳統(tǒng)的面向特定（specific）功能的AI，AGI旨在模擬人類(lèi)的心智能力，人類(lèi)智能的獨(dú)特之處鮮明地體現(xiàn)在其能夠針對(duì)不同環(huán)境作出適應(yīng)性調(diào)整，能夠勝任不同類(lèi)型甚至從未見(jiàn)過(guò)的任務(wù)。專用AI與通用AI存在怎樣的聯(lián)系與區(qū)別，是先實(shí)現(xiàn)通用AI還是先實(shí)現(xiàn)專用AI？General一詞將會(huì)引發(fā)很多諸如此類(lèi)的思考?！叭斯さ模ˋrtificial）”一詞則道出了AGI人工創(chuàng)造物的本質(zhì)，而非自發(fā)從自然環(huán)境中進(jìn)化而成的智能。這自然就提出了工具智能與自然智能的異同等一系列問(wèn)題。

盡管挑戰(zhàn)重重，本文仍然嘗試針對(duì)AGI的某些方面展開(kāi)分析。本文聚焦于生成式人工智能，特別是大規(guī)模生成式語(yǔ)言模型為代表的通用人工智能技術(shù)。本文所談及的“智能”，不局限于人類(lèi)智能，也包括機(jī)器智能，將以機(jī)器智能與人類(lèi)智能作為彼此的參照，進(jìn)行對(duì)比分析。本文將對(duì)由生成式語(yǔ)言模型發(fā)展而引發(fā)的“智能”的內(nèi)涵、“智能”的演進(jìn)路徑等問(wèn)題進(jìn)行詳細(xì)分析，并在這一基礎(chǔ)上反思人類(lèi)智能的諸多方面，包括創(chuàng)造性、世界建模、知識(shí)獲取、自我認(rèn)知等。筆者相信本文的思考一方面可以消除人們對(duì)于機(jī)器智能快速進(jìn)步的擔(dān)憂，另一方面也能為機(jī)器智能的進(jìn)一步發(fā)展掃除障礙，有助于建立新型的人機(jī)和諧關(guān)系。在此需要說(shuō)明的是，本文的部分思考與結(jié)論超出了當(dāng)前的工程實(shí)踐所能檢驗(yàn)的范圍，仍需要付諸嚴(yán)格論證與實(shí)踐檢驗(yàn)。

什么是智能？ChatGPT何以成功？

生成式VS判別式。ChatGPT是生成式人工智能的代表。生成式AI在文本生成、文圖生成、圖像生成等領(lǐng)域取得了較好的效果。傳統(tǒng)的人工智能多屬于判別式人工智能。為何是生成式AI而非判別式AI成為AGI的主要形態(tài)？這是一個(gè)值得深思的問(wèn)題。判別式AI，通過(guò)標(biāo)注數(shù)據(jù)的訓(xùn)練，引導(dǎo)模型習(xí)得正確給出問(wèn)題答案的能力。生成式AI，往往針對(duì)無(wú)標(biāo)注數(shù)據(jù)設(shè)計(jì)基于遮蔽內(nèi)容還原的自監(jiān)督學(xué)習(xí)任務(wù)進(jìn)行訓(xùn)練，引導(dǎo)模型生成符合上下文語(yǔ)境的內(nèi)容。生成式模型不僅具備生成結(jié)果的能力，也能夠生成過(guò)程與解釋。所以生成任務(wù)可以視作比判別任務(wù)更具智力挑戰(zhàn)性的任務(wù)，能夠有效引導(dǎo)模型習(xí)得高水平智能。具體而言，對(duì)于判斷題，判別式AI只需給出對(duì)或錯(cuò)的答案，即便隨機(jī)猜測(cè)，仍然有百分之五十蒙對(duì)的概率。但是，生成式AI不僅需要生成答案，還可能需要同時(shí)生成解題過(guò)程，這就很難蒙混過(guò)關(guān)。所以相對(duì)于判別而言，生成可以說(shuō)是更加接近智能本質(zhì)的一類(lèi)任務(wù)。

智能與情景化生成能力。智能的本質(zhì)是什么？大模型的發(fā)展給人類(lèi)對(duì)這一問(wèn)題的思考帶來(lái)了很多新的啟發(fā)。大模型的智能本質(zhì)上是情景化生成（Contextualized Generation）能力，也就是根據(jù)上下文提示（Prompt）生成相關(guān)文本的能力。所以大模型的應(yīng)用效果在一定程度上取決于提示有效與否。如果我們能夠給出一個(gè)有效且合理的提示，那么ChatGPT這類(lèi)大模型往往能夠生成令人滿意的答案。這種情景化生成能力（“提示＋生成”的能力）不僅適用于文本，也廣泛適用于圖像、語(yǔ)音、蛋白質(zhì)序列等各種不同類(lèi)型的復(fù)雜數(shù)據(jù)。不同的數(shù)據(jù)上下文不同，例如對(duì)于圖片而言，其上下文是周邊圖像。大模型的情景化生成能力是通過(guò)訓(xùn)練階段的上下文學(xué)習(xí)（In-context learning）而形成的（Q. Dong et al.， 2022）。從數(shù)學(xué)本質(zhì)來(lái)講，大模型在訓(xùn)練階段習(xí)得了Token或者語(yǔ)料基本單元之間的聯(lián)合概率分布。情景化生成可以視作條件概率估算，即給定上下文或提示（也就是給出證據(jù)），根據(jù)聯(lián)合分布推斷出現(xiàn)剩余文本的概率。

傳統(tǒng)對(duì)于智能的理解多少都與“知識(shí)”有關(guān)（如把智能定義為“知識(shí)的發(fā)現(xiàn)和應(yīng)用能力”），或與人有關(guān)（如把智能定義為“像人一樣思考和行為的能力”），其本質(zhì)還是以人類(lèi)為中心，從認(rèn)識(shí)論視角理解智能。大模型所呈現(xiàn)出的這種情景化生成能力，則無(wú)關(guān)乎“知識(shí)”，“知識(shí)”說(shuō)到底是人類(lèi)為了理解世界所做出的人為發(fā)明。世界的存在不依賴“知識(shí)”，不依賴人類(lèi)，情景化生成擺脫了人類(lèi)所定義的“知識(shí)”，回歸世界本身——只要能合理生成這個(gè)世界就是智能。智能被還原為一種生成能力，這種智能可以不以人類(lèi)為中心，也可以不依賴人類(lèi)的文明，這是AGI給我們帶來(lái)的重要啟示。

智能的分析與還原。大模型訓(xùn)練與優(yōu)化過(guò)程能夠?yàn)槲覀兏玫乩斫庵悄艿男纬蛇^(guò)程提供有益啟發(fā)。通用大模型的“出爐”基本上要經(jīng)歷三個(gè)階段（W. X. Zhao et al.， 2023）：第一個(gè)階段是底座大模型的訓(xùn)練；第二個(gè)階段是面向任務(wù)的指令學(xué)習(xí)，也就是所謂的指令微調(diào)；第三個(gè)階段是價(jià)值對(duì)齊。第一個(gè)階段底座大模型的訓(xùn)練本質(zhì)上是讓大模型習(xí)得語(yǔ)料或者數(shù)據(jù)所蘊(yùn)含的知識(shí)。但是這里的知識(shí)是一種參數(shù)化、概率化的知識(shí)（本質(zhì)上建模了語(yǔ)料中詞匯之間的一種聯(lián)合分布），使得情境化生成成為可能。因此，第一階段的本質(zhì)是知識(shí)獲?。ɑ蛘哒f(shuō)知識(shí)習(xí)得），第二階段指令學(xué)習(xí)旨在讓大模型習(xí)得完成任務(wù)的能力，最后一個(gè)階段則是價(jià)值觀念的習(xí)得。

大模型的智能被分解為知識(shí)、能力與價(jià)值三個(gè)階段，這是個(gè)值得關(guān)注的特性。知識(shí)是能力與價(jià)值的基礎(chǔ)，所以底座模型的“煉制”尤為關(guān)鍵。ChatGPT經(jīng)歷了2018年初版GPT-1到2022年GPT-3.5近四年的訓(xùn)練與優(yōu)化。大模型的知識(shí)底座越深厚、越廣博，后續(xù)能夠習(xí)得的技能就越復(fù)雜、越多樣，價(jià)值判斷就越準(zhǔn)確、價(jià)值對(duì)齊就越敏捷。大模型將智能的三個(gè)核心要素相互剝離，而人類(lèi)的知識(shí)、能力與價(jià)值習(xí)得，往往是雜揉在一起的。我們很難界定小學(xué)課本中的某篇文章是在傳授知識(shí)、訓(xùn)練技能亦或是在塑造價(jià)值。大模型的這種分離式的智能發(fā)展，可以類(lèi)比于人類(lèi)社會(huì)的高等教育。人類(lèi)社會(huì)的本科教育旨在培養(yǎng)學(xué)習(xí)能力以獲取知識(shí)，碩士教育旨在培養(yǎng)解題能力以解決問(wèn)題，博士教育則旨在培養(yǎng)價(jià)值判斷能力以發(fā)現(xiàn)問(wèn)題。

知識(shí)、能力和價(jià)值相剝離對(duì)于未來(lái)智能系統(tǒng)架構(gòu)、建立新型的人機(jī)協(xié)作關(guān)系、設(shè)計(jì)人機(jī)混合的智能系統(tǒng)架構(gòu)均有著積極的啟發(fā)意義。隨著機(jī)器智能的逐步發(fā)展，人類(lèi)相對(duì)于機(jī)器而言所擅長(zhǎng)的事物將會(huì)逐漸減少。但是，在某些特定場(chǎng)景仍存在一些人類(lèi)介入的空間。未來(lái)人機(jī)混合系統(tǒng)發(fā)展的關(guān)鍵仍是回答什么工作最值得由人來(lái)完成。看似完整的任務(wù)只有經(jīng)過(guò)分解，才能拆解出人機(jī)各自擅長(zhǎng)與適合的子任務(wù)。例如，將知識(shí)和能力剝離對(duì)于保護(hù)私域知識(shí)極具價(jià)值：大模型負(fù)責(zé)語(yǔ)言理解等核心任務(wù)，而機(jī)密的數(shù)據(jù)與知識(shí)仍然交由傳統(tǒng)的數(shù)據(jù)庫(kù)或者知識(shí)庫(kù)來(lái)管理。這樣的系統(tǒng)架構(gòu)，既充分利用了大模型的核心能力，又充分兼顧了知識(shí)私密性。

智能測(cè)試與人機(jī)區(qū)分。通用人工智能技術(shù)的發(fā)展顯著提升了機(jī)器的智能水平，特別是語(yǔ)言理解水平，機(jī)器在文本處理、語(yǔ)言理解等相關(guān)任務(wù)中已達(dá)到普通人類(lèi)甚至語(yǔ)言專家的水平。而隨之而來(lái)的一個(gè)十分關(guān)鍵的問(wèn)題是：人機(jī)邊界日益模糊。我們已經(jīng)很難僅僅通過(guò)幾輪對(duì)話去判斷窗口背后與你交流的是人還是機(jī)器。換言之，傳統(tǒng)的圖靈測(cè)試已經(jīng)難以勝任人機(jī)區(qū)分的使命。使用過(guò)ChatGPT的人都深有體會(huì)，ChatGPT最擅長(zhǎng)的就是聊天，即便與其長(zhǎng)時(shí)間聊天，我們可能都不會(huì)覺(jué)得無(wú)趣。

人機(jī)邊界的模糊會(huì)帶來(lái)很多社會(huì)問(wèn)題。首先，普通民眾，尤其是青少年，可能出于對(duì)技術(shù)的信任而沉溺于ChatGPT類(lèi)的對(duì)話模型中。當(dāng)ChatGPT日益智能，我們習(xí)慣了向其提問(wèn)，習(xí)慣了接受它的答案，久而久之，人類(lèi)賴以發(fā)展的質(zhì)疑精神就會(huì)逐步喪失。在日益強(qiáng)大的AGI面前，如何避免人的精神本質(zhì)的退化？這些問(wèn)題需要我們嚴(yán)肅思考并回答。其次，當(dāng)人機(jī)真假難辨，虛假信息泛濫，欺詐將會(huì)層出不窮。最近越來(lái)越多犯罪分子已經(jīng)通過(guò)AI換臉、AI視頻生成，成功實(shí)施了多起欺詐案件。如何治理由人機(jī)邊界模糊帶來(lái)的社會(huì)性欺騙將成為一個(gè)十分重要的AI治理問(wèn)題。最后，還值得注意的是驗(yàn)證碼，這一我們?cè)谌粘Ｉ钪袕V泛使用，卻很快會(huì)變成問(wèn)題的應(yīng)用。驗(yàn)證碼是我們進(jìn)行人機(jī)區(qū)分的利器，但是隨著AGI的發(fā)展，尤其是在其對(duì)于各類(lèi)工具的操控能力日益增強(qiáng)之后，驗(yàn)證碼所具備的人機(jī)區(qū)分功能將會(huì)面臨日益嚴(yán)峻的挑戰(zhàn)。隨著人形機(jī)器人技術(shù)的日益成熟，未來(lái)如何證明你是人而非機(jī)器，或者反之，如何證明機(jī)器是機(jī)器而不是人將會(huì)成為越來(lái)越困難的問(wèn)題。

人機(jī)邊界的模糊本質(zhì)上歸結(jié)于人機(jī)智能測(cè)試問(wèn)題。我們需要刻畫(huà)出人類(lèi)智能獨(dú)有的、不能或者至少是難以被機(jī)器智能所侵犯的領(lǐng)地。從機(jī)器智能的發(fā)展歷史來(lái)看，這個(gè)領(lǐng)地的范圍將會(huì)越來(lái)越窄。我們?cè)?jīng)認(rèn)為在下圍棋這樣的高度智力密集活動(dòng)中機(jī)器難以超越人類(lèi)，也曾認(rèn)為在進(jìn)行高質(zhì)量對(duì)話中機(jī)器難以超越人類(lèi)，更曾認(rèn)為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這樣的科學(xué)發(fā)現(xiàn)是機(jī)器難以超越人類(lèi)的……這些機(jī)器難以超越人類(lèi)的任務(wù)列表曾經(jīng)很長(zhǎng)，如今已經(jīng)越來(lái)越短。圖靈測(cè)試已然失效，但是人類(lèi)還來(lái)不及提出新的有效的代替性測(cè)試方案。有人提出，唯有人類(lèi)會(huì)犯錯(cuò)及其行為的不確定性是人類(lèi)獨(dú)具的。這樣的觀點(diǎn)不值一駁，因?yàn)闄C(jī)器很容易植入一些錯(cuò)誤與不確定性以掩飾自己的智能。未來(lái)我們?nèi)绾巫C明機(jī)器試圖越獄，以及機(jī)器是否正在掩飾自己的能力，這些都是AI安全需要高度關(guān)注的問(wèn)題。

智能的演進(jìn)路線，通用人工智能如何發(fā)展與進(jìn)步？

“反饋進(jìn)化”與“填鴨灌輸”。人類(lèi)的智能是一種典型的生物智能，是經(jīng)過(guò)漫長(zhǎng)的進(jìn)化發(fā)展而形成的。人類(lèi)在自然與社會(huì)環(huán)境中不斷地實(shí)踐、接收反饋、持續(xù)嘗試，形成了高度的智能。各類(lèi)動(dòng)物的智能都可以歸類(lèi)到進(jìn)化智能。進(jìn)化智能的演進(jìn)需要漫長(zhǎng)的時(shí)間，換言之，只要給予足夠的時(shí)間，自然環(huán)境或?qū)⒕湍芩茉烊魏嗡降闹悄堋５偷葎?dòng)物經(jīng)過(guò)漫長(zhǎng)時(shí)間的洗禮也有可能發(fā)展出先進(jìn)智能。但是當(dāng)前機(jī)器智能走的是一條“填鴨灌輸”式的路徑，是一條實(shí)現(xiàn)先進(jìn)智能的捷徑。將人類(lèi)社會(huì)已經(jīng)積累的所有語(yǔ)料、書(shū)籍、文獻(xiàn)“灌輸”給大模型，經(jīng)過(guò)精心“煉制”，大模型就能習(xí)得人類(lèi)積累數(shù)千年的文明成果。雖然大模型“煉制”也需要耗費(fèi)數(shù)天、數(shù)月的時(shí)間，但相對(duì)于人類(lèi)智能的漫長(zhǎng)進(jìn)化歷程，幾乎就是轉(zhuǎn)瞬之間。機(jī)器能夠在如此短暫的時(shí)間內(nèi)習(xí)得人類(lèi)數(shù)千年積累的知識(shí)，這本身已是奇跡。

人類(lèi)社會(huì)多將“填鴨灌輸”視作一種機(jī)械、低效的知識(shí)傳授方式，而這卻恰恰成為人類(lèi)向機(jī)器傳授知識(shí)的高效方式。如果單純以考分評(píng)價(jià)學(xué)生，粗暴的填鴨式、灌輸式的教育十分高效。但這種教育培養(yǎng)出的學(xué)生往往高分低能，難以靈活應(yīng)用知識(shí)解決實(shí)際問(wèn)題。所以我們的學(xué)生還需要接受大量的實(shí)踐教育，從反饋中學(xué)習(xí)，最終成為行家里手，將知識(shí)融會(huì)貫通。人類(lèi)專家的養(yǎng)成過(guò)程對(duì)于理解大模型的發(fā)展過(guò)程極具啟發(fā)。當(dāng)前，大模型的填鴨式學(xué)習(xí)階段已經(jīng)基本完成，很快大模型將操控各類(lèi)工具、開(kāi)展實(shí)踐式學(xué)習(xí)，從而進(jìn)入從實(shí)踐習(xí)得知識(shí)的新階段。

“先通再?！边€是“先專再通”。通用人工智能的發(fā)展帶給我們的另一個(gè)啟示在于機(jī)器智能走出了一條“先通再專”的發(fā)展路徑。從大規(guī)模語(yǔ)言模型的應(yīng)用方式來(lái)看，首先要“煉制”通用的大語(yǔ)言模型，一般來(lái)講訓(xùn)練語(yǔ)料越是廣泛而多樣，通用大模型的能力越強(qiáng)。但是這樣的通用大模型在完成任務(wù)時(shí)，效果仍然差強(qiáng)人意。因而，一般還要經(jīng)過(guò)領(lǐng)域數(shù)據(jù)微調(diào)與任務(wù)指令學(xué)習(xí)，使其理解領(lǐng)域文本并勝任特定任務(wù)，可見(jiàn)大模型的智能是先通用，再專業(yè)。通用智能階段側(cè)重于進(jìn)行通識(shí)學(xué)習(xí)，習(xí)得包括語(yǔ)言理解與推理能力及廣泛的通用知識(shí)；專業(yè)智能階段則讓大模型理解各種任務(wù)指令，勝任各類(lèi)具體任務(wù)。這樣一種智能演進(jìn)路徑與人類(lèi)的學(xué)習(xí)過(guò)程相似。人類(lèi)的基礎(chǔ)教育聚焦通識(shí)學(xué)習(xí)，而高等教育側(cè)重專識(shí)學(xué)習(xí)；武俠小說(shuō)中的功夫高手往往先練內(nèi)力再習(xí)招式。這些都與大模型“先通再?！钡陌l(fā)展路徑相似。

大模型“先通再專”的發(fā)展路徑顛覆了以往人工智能的主流發(fā)展路徑。ChatGPT誕生之前，AI研究的主陣地是專用AI或者功能性AI，其主旨在于讓機(jī)器具備勝任特定場(chǎng)景與任務(wù)的能力，比如下棋、計(jì)算、語(yǔ)音識(shí)別、圖像識(shí)別等等。傳統(tǒng)觀念認(rèn)為，若干專用智能堆積在一起，才能接近通用智能；或者說(shuō)如果專業(yè)智能都不能實(shí)現(xiàn)，則更不可能實(shí)現(xiàn)通用智能。由此可以看出，“先專再通”是傳統(tǒng)人工智能發(fā)展的基本共識(shí)。但是，以ChatGPT為代表的大規(guī)模生成式語(yǔ)言模型，基本顛覆了這一傳統(tǒng)認(rèn)識(shí)，并說(shuō)明機(jī)器智能與人類(lèi)智能一樣，需要先具備通識(shí)能力才能發(fā)展專業(yè)認(rèn)知。

在新認(rèn)識(shí)下，我們需要重新理解領(lǐng)域人工智能（Domain-Specific AI）。領(lǐng)域是與通用相對(duì)而言的。事實(shí)上，沒(méi)有通用認(rèn)知能力，就沒(méi)有領(lǐng)域認(rèn)知能力。舉個(gè)例子，醫(yī)療是個(gè)典型的垂直領(lǐng)域，傳統(tǒng)觀念認(rèn)為可以以較低代價(jià)搭建診斷某類(lèi)疾病的智能系統(tǒng)。比如，針對(duì)耳鳴疾病，傳統(tǒng)方法一般將與之相關(guān)的專業(yè)知識(shí)、文本、數(shù)據(jù)灌輸給機(jī)器，以期實(shí)現(xiàn)耳鳴這個(gè)極為細(xì)分病種的智能診斷。但在實(shí)踐過(guò)程中，這一想法從未真正成功。究其根源，醫(yī)生要理解疾病，就需要先理解健康，而健康不屬于疾病的范疇。一個(gè)耳科醫(yī)生接診的大部分時(shí)間是在排查無(wú)需治療的健康情況。也就是說(shuō)，要真正理解某個(gè)領(lǐng)域，恰恰需要認(rèn)知領(lǐng)域之外的概念。由此可見(jiàn)，領(lǐng)域認(rèn)知是建立在通識(shí)能力基礎(chǔ)之上的。這些新認(rèn)識(shí)為我們重新發(fā)展領(lǐng)域認(rèn)知智能帶來(lái)新的啟發(fā)，可以說(shuō)在ChatGPT類(lèi)的通用大模型支撐下，各領(lǐng)域認(rèn)知智能將迎來(lái)全新的發(fā)展機(jī)遇。

先符號(hào)再體驗(yàn)，先形式再內(nèi)容。大規(guī)模語(yǔ)言模型通過(guò)使用文本或符號(hào)表達(dá)的語(yǔ)料訓(xùn)練而成。人類(lèi)的自然語(yǔ)言是一種符號(hào)化的表達(dá)方式，語(yǔ)言模型表達(dá)了語(yǔ)言符號(hào)之間的統(tǒng)計(jì)關(guān)聯(lián)。然而，符號(hào)只是形式，單純基于符號(hào)的統(tǒng)計(jì)學(xué)習(xí)不足以讓機(jī)器理解符號(hào)所指或者語(yǔ)言的內(nèi)涵。純形式符號(hào)的智能系統(tǒng)勢(shì)必會(huì)遭遇類(lèi)似約翰·塞爾“中文屋”[2]思想的責(zé)難。所以，AGI不是停留在單純的語(yǔ)言模型階段，而是積極融合多模態(tài)數(shù)據(jù)進(jìn)行混合訓(xùn)練。各類(lèi)多模態(tài)數(shù)據(jù)，比如圖像、語(yǔ)音、視頻，能夠表達(dá)人類(lèi)豐富的世界體驗(yàn)（X. Zhu et al.， 2022）。舉個(gè)例子，人們對(duì)于“馬”這個(gè)符號(hào)的理解，一定程度上取決于人們對(duì)馬這一動(dòng)物的經(jīng)驗(yàn)和認(rèn)識(shí)，比如高亢的嘶鳴（語(yǔ)音）、健壯的形象（圖像）、奔騰的動(dòng)作（視頻）。人的體驗(yàn)支撐了人對(duì)于“馬”這個(gè)概念的理解，正如人們對(duì)于萬(wàn)馬齊喑的悲涼體會(huì)是建立在對(duì)于馬的健康、積極形象的體驗(yàn)基礎(chǔ)之上。所以AGI走出了一條先符號(hào)再體驗(yàn)、從形式到內(nèi)容的發(fā)展路徑。這和人類(lèi)智能的發(fā)展過(guò)程恰好相反，人類(lèi)是先有了豐富經(jīng)驗(yàn)或體驗(yàn)，才抽象成符號(hào)、文字與概念。

“先大腦再身體”與“先身體再大腦”。目前AGI的發(fā)展趨勢(shì)是先發(fā)展語(yǔ)言模型，以模擬人腦的認(rèn)知能力，再基于機(jī)器大腦的認(rèn)知能力驅(qū)動(dòng)各類(lèi)工具與身體部件。大腦的復(fù)雜規(guī)劃與推理能力對(duì)于身體與工具在現(xiàn)實(shí)世界中的交互與動(dòng)作是不可或缺的。AGI走出了一條“先實(shí)現(xiàn)大腦的認(rèn)知能力，后實(shí)現(xiàn)身體與物理世界交互能力”的發(fā)展路線。很顯然，AGI的這條發(fā)展路線與人類(lèi)智能的進(jìn)化有著顯著的不同。人類(lèi)在一定程度上是先具備身體能力，并在身體與世界的持續(xù)交互過(guò)程中，塑造和發(fā)展大腦的認(rèn)知能力。傳統(tǒng)的人工智能技術(shù)路線也傾向于先實(shí)現(xiàn)身體各器官或部件的基本功能，再實(shí)現(xiàn)大腦的復(fù)雜認(rèn)知能力，傾向于接受機(jī)械身體與現(xiàn)實(shí)世界的交互能力比大腦的復(fù)雜認(rèn)知能力更易實(shí)現(xiàn)的觀點(diǎn)。然而，目前的人工智能發(fā)展路徑在一定程度上顛覆了我們對(duì)機(jī)器智能實(shí)現(xiàn)路徑的傳統(tǒng)認(rèn)識(shí)。

由通用人工智能引發(fā)的人類(lèi)自我審視及啟示

組合泛化是一種創(chuàng)造，但可能是低級(jí)的創(chuàng)造形式。AGI之所以吸引了業(yè)界的高度關(guān)注，一個(gè)很重要的原因在于它呈現(xiàn)出了一定的創(chuàng)造能力。我們發(fā)現(xiàn)ChatGPT或者GPT-4，已經(jīng)擁有了比較強(qiáng)大的組合泛化能力：大模型經(jīng)過(guò)足量常見(jiàn)任務(wù)的指令學(xué)習(xí)，能夠勝任一些新的組合任務(wù)。具體來(lái)說(shuō)，大模型學(xué)會(huì)了完成a、b兩類(lèi)任務(wù)，它就一定程度上可以完成a＋b這類(lèi)新任務(wù)。比如GPT-4能夠使用莎士比亞詩(shī)詞風(fēng)格來(lái)書(shū)寫(xiě)數(shù)學(xué)定理證明。實(shí)際上這是由于GPT-4分別習(xí)得了數(shù)學(xué)證明與寫(xiě)莎士比亞詩(shī)詞兩種能力，進(jìn)而組合泛化出的新能力。

第一，我們必須認(rèn)可大模型的這種組合創(chuàng)新能力。反觀人類(lèi)社會(huì)的很多創(chuàng)新，本質(zhì)上也屬于組合創(chuàng)新，這種創(chuàng)新形式甚至占據(jù)了絕大多數(shù)。比如，在工科領(lǐng)域的技術(shù)創(chuàng)新中，很多研究生擅長(zhǎng)把針對(duì)A場(chǎng)景所提出的B方法應(yīng)用到X場(chǎng)景并取得了不錯(cuò)的效果；爆米花式電影中平庸的劇情創(chuàng)作，大都通過(guò)借用a故事的框架、b故事的人物，套用c故事的情節(jié)，使用d故事的橋段，等等。第二，AGI的組合創(chuàng)新能力遠(yuǎn)超人類(lèi)認(rèn)知水平。AGI可以將任意兩個(gè)學(xué)科的能力進(jìn)行組合，這里的很多組合可能是人類(lèi)從未想象過(guò)的，比如利用李清照詩(shī)詞的風(fēng)格寫(xiě)代碼注釋。這種新穎的組合創(chuàng)新能力有可能是AGI給我們帶來(lái)的寶貴財(cái)富，將極大地激發(fā)人類(lèi)的想象力。第三，AGI的這種組合創(chuàng)新能力，基本上宣告了人類(lèi)社會(huì)的拼貼式內(nèi)容創(chuàng)新將失去意義。因?yàn)?，AGI能夠組合創(chuàng)新的素材，以及其生成的效率都遠(yuǎn)超人類(lèi)。我們?cè)?jīng)引以為傲的集成創(chuàng)新也將失去其光環(huán)，而原始創(chuàng)新在AGI面前顯得更加難能可貴。第四，AGI的組合創(chuàng)新將迫使人類(lèi)重新思考創(chuàng)新的本質(zhì)。人類(lèi)所能做出的而AGI無(wú)法實(shí)現(xiàn)的創(chuàng)新將更加凸顯其價(jià)值。AGI將促使人類(lèi)不再沉迷于隨機(jī)拼接或簡(jiǎn)單組裝式的創(chuàng)造，而是更加注重富有內(nèi)涵、視角獨(dú)特、觀點(diǎn)新穎的內(nèi)容創(chuàng)造。

自監(jiān)督學(xué)習(xí)是世界建模的有效方式。自監(jiān)督學(xué)習(xí)可以視為一種填空游戲，即根據(jù)上下文填補(bǔ)空白。例如，我們事先遮蓋住一個(gè)完整句子中的某個(gè)單詞，然后讓機(jī)器根據(jù)這個(gè)句子的上下文還原被遮蓋的詞語(yǔ)。同樣地，就圖像而言，我們可以遮擋部分圖像區(qū)域，讓大模型根據(jù)周邊的背景圖像還原出被遮擋圖像的內(nèi)容。這樣一種自監(jiān)督學(xué)習(xí)范式為什么能夠成就ChatGPT這類(lèi)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型，是個(gè)值得深思的問(wèn)題。

“遮蔽＋還原”式樣的自監(jiān)督學(xué)習(xí)任務(wù)旨在習(xí)得世界模型。比如，人們都知道高空拋重物，物體一定會(huì)下落，而不會(huì)向上飄也不可能懸在空中。最近很多學(xué)者，包括圖靈獎(jiǎng)獲得者Yann LeCun都指出了世界模型（Y. Lecun， 2022）對(duì)于AGI的重要性。人類(lèi)社會(huì)業(yè)已積累的數(shù)據(jù)體現(xiàn)了人類(lèi)對(duì)于現(xiàn)實(shí)世界的認(rèn)識(shí)，通過(guò)對(duì)這些數(shù)據(jù)的學(xué)習(xí)，機(jī)器將有機(jī)會(huì)建立世界模型。當(dāng)數(shù)據(jù)足夠多、足夠精、足夠豐富時(shí)，就能在一定程度上表達(dá)人類(lèi)對(duì)復(fù)雜現(xiàn)實(shí)世界的完整認(rèn)知，基于“遮蔽＋還原”的自監(jiān)督學(xué)習(xí)機(jī)制，機(jī)器能夠逼真地建立起關(guān)于世界的模型。反觀人類(lèi)的世界模型，很大程度上來(lái)自于經(jīng)驗(yàn)與文明傳承。一方面，我們?cè)谏眢w與世界交互過(guò)程中形成經(jīng)驗(yàn)從而建立世界模型；另一方面，文化傳播和教育傳承塑造著我們對(duì)世界的認(rèn)知。所以人類(lèi)對(duì)世界建模的方式與機(jī)器建模世界的方式有著本質(zhì)的不同。

大模型所習(xí)得的隱性知識(shí)。大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型借助了Transformer（A. Vaswani et al.， 2017）這樣的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)，習(xí)得了語(yǔ)言元素之間的統(tǒng)計(jì)關(guān)聯(lián)，并具備了情境化生成能力。而大模型之大，主要就體現(xiàn)在其參數(shù)量巨大。這樣一個(gè)復(fù)雜的深度網(wǎng)絡(luò)空間編碼了語(yǔ)料中所蘊(yùn)含的各種知識(shí)，這種知識(shí)具有參數(shù)化表達(dá)與分布式組織兩個(gè)鮮明特點(diǎn)。所謂分布式組織，是指某一個(gè)知識(shí)并不能具體對(duì)應(yīng)到某個(gè)具體神經(jīng)元，而是分散表達(dá)為不同神經(jīng)元的權(quán)重參數(shù)及其之間的互聯(lián)結(jié)構(gòu)。在特定輸入下，通過(guò)激活某些神經(jīng)元、以神經(jīng)網(wǎng)絡(luò)計(jì)算方式獲取知識(shí)。因此，大模型可以視作隱性知識(shí)的容器。

大模型所編碼的隱性知識(shí)顯著超出人類(lèi)業(yè)已表達(dá)的顯性知識(shí)的范圍。從某種意義上說(shuō)，人類(lèi)能用自然語(yǔ)言表達(dá)的知識(shí)是可以窮盡的，是有限的。而人類(lèi)在潛意識(shí)下用到的常識(shí)、文本中的言下之意、領(lǐng)域?qū)＜译y以表達(dá)的經(jīng)驗(yàn)等等，都是以隱性知識(shí)的形式存在的。大模型為我們認(rèn)識(shí)這些隱性知識(shí)提供了更多可能性。大模型是通才，它是利用全人類(lèi)、全學(xué)科的語(yǔ)料訓(xùn)練生成的，它所習(xí)得的某些隱性關(guān)聯(lián)或者統(tǒng)計(jì)模式，有可能對(duì)應(yīng)到人類(lèi)難以言說(shuō)的隱性知識(shí)。比如外交場(chǎng)景下的遣詞造句多有言下之意、往往被賦予了特殊內(nèi)涵，大模型的出現(xiàn)給解讀這種言下之意與獨(dú)特內(nèi)涵帶來(lái)新的機(jī)會(huì)。大模型所編碼的知識(shí)，很多是人類(lèi)從未解讀過(guò)的，特別是跨學(xué)科知識(shí)點(diǎn)之間的隱性關(guān)聯(lián)。這也是大模型給我們整個(gè)人類(lèi)文明發(fā)展帶來(lái)的一次重大機(jī)遇。

隨著大模型對(duì)隱性知識(shí)解讀的日益深入，人類(lèi)的知識(shí)將呈現(xiàn)爆炸性增長(zhǎng)。我們不得不思考一個(gè)深刻的問(wèn)題：過(guò)量的知識(shí)會(huì)否成為人類(lèi)文明發(fā)展不可承受之重。事實(shí)上，當(dāng)知識(shí)積累到一定的程度，單純的知識(shí)獲取已經(jīng)偏離了人類(lèi)文明發(fā)展的主航道。在知識(shí)急劇增長(zhǎng)的未來(lái)，發(fā)現(xiàn)“智慧”比獲取“知識(shí)”更加重要。很多時(shí)候，我們并不需要太多知識(shí)，只要具備從大模型獲取知識(shí)的能力即可。理論上人類(lèi)每個(gè)個(gè)體（即便人類(lèi)最杰出的精英）所能知曉的知識(shí)量也一定遠(yuǎn)遠(yuǎn)低于智能機(jī)器。我們每個(gè)人的價(jià)值不是體現(xiàn)在擁有多少知識(shí)，而是知道如何使用知識(shí)，使用知識(shí)的智慧將是人類(lèi)個(gè)體核心價(jià)值所在。AGI的發(fā)展倒逼人類(lèi)社會(huì)的發(fā)展從追求知識(shí)進(jìn)入追求智慧的新階段。

大模型倒逼人類(lèi)重新認(rèn)識(shí)自我。AGI技術(shù)將與人類(lèi)社會(huì)發(fā)展進(jìn)程深度結(jié)合，為人類(lèi)社會(huì)帶來(lái)前所未有的重大機(jī)遇和嚴(yán)峻挑戰(zhàn)。

隨著人工智能技術(shù)的迅速發(fā)展，AGI所帶來(lái)的風(fēng)險(xiǎn)也逐漸凸顯。首先，AGI給AI技術(shù)治理和社會(huì)治理帶來(lái)挑戰(zhàn)。與目前的人工智能相比，AGI失控將會(huì)帶來(lái)更加災(zāi)難性的后果。當(dāng)前，AGI技術(shù)“失控”的風(fēng)險(xiǎn)日益增加，必須及時(shí)干預(yù)。比如，AGI降低了內(nèi)容生成門(mén)檻，導(dǎo)致虛假信息泛濫，已經(jīng)成為一個(gè)嚴(yán)峻的問(wèn)題。再比如，AGI作為先進(jìn)生產(chǎn)力，如果不能被大多數(shù)人掌握而是掌握在少數(shù)人或機(jī)構(gòu)手中，技術(shù)霸權(quán)主義將會(huì)對(duì)社會(huì)發(fā)展帶來(lái)消極影響。其次，AGI技術(shù)將會(huì)對(duì)人類(lèi)個(gè)體的發(fā)展帶來(lái)挑戰(zhàn)。未來(lái)的社會(huì)生產(chǎn)似乎經(jīng)由少數(shù)精英加上智能機(jī)器就可以完成，工業(yè)時(shí)代的2∕8法則到了AGI時(shí)代可能會(huì)變成2∕98法則。換言之，越來(lái)越多的工作與任務(wù)在強(qiáng)大的AGI面前可能失去意義，個(gè)體存在的價(jià)值與意義需要重新定義。我們的壽命或?qū)⒋蠓妊娱L(zhǎng)，但是生命的質(zhì)感卻逐漸消弱。如何幫助我們中的絕大多數(shù)人尋找生命的意義？如何優(yōu)雅地打發(fā)休閑時(shí)光？這些都是需要深度思考的問(wèn)題。最后，AGI的進(jìn)步可能會(huì)帶來(lái)人類(lèi)整體倒退的風(fēng)險(xiǎn)。當(dāng)人類(lèi)發(fā)展了家禽技術(shù)，打獵技術(shù)就明顯倒退；當(dāng)紡織機(jī)器日益成熟，繡花技藝就顯得沒(méi)有必要。我們的各種非物質(zhì)文化遺產(chǎn)、各類(lèi)體育運(yùn)動(dòng)，本質(zhì)上都是在防止人類(lèi)的倒退。不能因?yàn)闄C(jī)器擅長(zhǎng)完成人類(lèi)的某項(xiàng)工作或任務(wù)，就放任人類(lèi)的此項(xiàng)能力逐步退化。如果說(shuō)以往各種技術(shù)的進(jìn)步只是讓人類(lèi)逐步遠(yuǎn)離了大自然的原始狀態(tài)，人類(lèi)在與惡劣的自然環(huán)境的搏斗中所發(fā)展出的四肢能力的倒退是人類(lèi)文明發(fā)展必須作出的犧牲；那么，此次旨在代替人類(lèi)腦力的AGI會(huì)否引起人類(lèi)智能的倒退？智能的倒退必然引起人類(lèi)主體性的喪失與文明的崩塌。如何防止我們的腦力或者說(shuō)智能的倒退，是個(gè)必須嚴(yán)肅思考的問(wèn)題。

盡管面臨重重挑戰(zhàn)，但AGI毫無(wú)疑問(wèn)是一種先進(jìn)生產(chǎn)力，其發(fā)展的勢(shì)頭是不可阻擋的。除了前文提到的種種具體的技術(shù)賦能之外，這里要從人類(lèi)文明發(fā)展的高度再次強(qiáng)調(diào)AGI所帶來(lái)的全新機(jī)遇。首先，AGI對(duì)于加速人類(lèi)知識(shí)發(fā)現(xiàn)進(jìn)程具有重大意義。前文已經(jīng)討論過(guò)對(duì)大語(yǔ)言模型已編碼的隱性知識(shí)的解讀將會(huì)加速人類(lèi)的知識(shí)發(fā)現(xiàn)，但同時(shí)也會(huì)帶來(lái)知識(shí)的貶值。未來(lái)我們會(huì)見(jiàn)證知識(shí)的爆炸所帶來(lái)的“知識(shí)無(wú)用”。其次，AGI發(fā)展的最大意義可能在于倒逼人類(lèi)進(jìn)步。平庸的創(chuàng)作失去意義、組合創(chuàng)新失去意義、窮舉式探索失去意義……這個(gè)列表注定會(huì)越來(lái)越長(zhǎng)。但是人的存在不能失去意義，我們要重新找尋自身價(jià)值所在，重新思考人之所以為人的哲學(xué)命題。

結(jié)語(yǔ)

對(duì)于AGI的探索和思考才剛剛開(kāi)始，我們還有很長(zhǎng)的路要走。我們必須高度警醒AGI所帶來(lái)的問(wèn)題，并充分重視AGI所創(chuàng)造的機(jī)會(huì)。兩千多年前，蘇格拉底說(shuō)“認(rèn)識(shí)你自己”，今天在AGI技術(shù)發(fā)展的倒逼下，人類(lèi)需要“重新認(rèn)識(shí)你自己”。

注釋

[1]《牛津詞典》將Intelligence一詞定義為“the ability to acquire and apply knowledge and skills”。

[2]約翰·塞爾設(shè)計(jì)了一個(gè)思想實(shí)驗(yàn)，一個(gè)關(guān)在屋子里不懂中文的人也能憑借辭典完成中英文翻譯工作，在屋外人看來(lái)這個(gè)屋子具有翻譯能力，能夠理解中文。塞爾以此思想實(shí)驗(yàn)反駁圖靈測(cè)試，認(rèn)為該測(cè)試不能評(píng)價(jià)對(duì)象是否具有理解能力。

參考文獻(xiàn)

A. Rohan et al.， 2023， “PaLM 2 Technical Report，“ arXiv preprint arXiv：2305.10403.

A. Vaswani et al.， 2017， “Attention Is All You Need，“ Advances in Neural Information Processing Systems.

D. Driess et al.， 2023， “PaLM-E： An Embodied Multimodal Language Model，“ International Conference on Machine Learning.

Q. Dong et al.， 2022， “A Survey on In-context Learning，“ arXiv preprint arXiv：2301.00234.

W. X. Zhao et al.， 2023， "A Survey of Large Language Models，" arXiv preprint arXiv： 2303.18223.

X. Zhu et al.， 2022， “Multi-Modal Knowledge Graph Construction and Application： A Survey，“ IEEE Transactions on Knowledge and Data Engineering.

Y. Lecun， 2022， “A Path Towards Autonomous Machine Intelligence Version 0.9.2， 2022-06-27，“ Open Review.

責(zé) 編∕包鈺

人民論壇·學(xué)術(shù)前沿2023年14期

人民論壇·學(xué)術(shù)前沿的其它文章: 人機(jī)融合智能的若干問(wèn)題探討; 生成式人工智能的國(guó)家安全風(fēng)險(xiǎn)及其對(duì)策; 試析通用人工智能在心理學(xué)領(lǐng)域的應(yīng)用; 我國(guó)社會(huì)組織國(guó)際化發(fā)展的基本條件、關(guān)鍵問(wèn)題與推進(jìn)策略; 跨域政府?dāng)?shù)據(jù)共享：實(shí)踐探索與未來(lái)展望; 人類(lèi)文明新形態(tài)的理論邏輯、歷史邏輯、實(shí)踐邏輯

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

生成式語(yǔ)言模型與通用人工智能：內(nèi)涵、路徑與啟示

生成式語(yǔ)言模型與通用人工智能：內(nèi)涵、路徑與啟示