陳銳
人工智能正在把我們帶入一個(gè)新紀(jì)元,從很多維度看都是如 此。
首先是一個(gè)叫作“人工智能生成內(nèi)容”(Artificial IntelligenceGenerated Content,AIGC)的概念開(kāi)始得到認(rèn)可。它區(qū)別于之前的用戶生產(chǎn)內(nèi)容(User Generated Content,UGG),也不同于更早期的專業(yè)機(jī)構(gòu)生產(chǎn)內(nèi)容(Professionally Generated Content,PGC)。這個(gè)歷程既表明了內(nèi)容生產(chǎn)主體的切換,意味著具備生產(chǎn)能力和掌握發(fā)布權(quán)力的主體,正在從象征著“內(nèi)容民主化”的個(gè)人,轉(zhuǎn)移到善用AI輔助創(chuàng)作的“超級(jí)個(gè)體”—甚至可以是獨(dú)立工作的AI本身;同時(shí),它也意味著,AI能施展魔法的疆域正在跨越一個(gè)分界點(diǎn):從“判別式領(lǐng)域”邁入“生成式領(lǐng)域”。
過(guò)去,AI被認(rèn)為只能做好判別性的工作。比如,判斷一張圖片中的人臉是不是特定的某人,一封來(lái)自未知地址的郵件是否為垃圾郵件,一篇分享到社交網(wǎng)絡(luò)中的文章是否帶有負(fù)面情緒,或者在一輛自動(dòng)駕駛汽車前面晃動(dòng)的到底是需要避開(kāi)的真人還是無(wú)須在意的樹(shù) 影。
2022年面世的兩個(gè)文生圖產(chǎn)品改變了人們對(duì)AI的能力偏見(jiàn)。一個(gè)是DALL·E 2,發(fā)布者是后來(lái)因推出ChatGPT聞名的硅谷初創(chuàng)公司OpenAI。另一個(gè)是Stable Diffusion,出自位于倫敦、同樣是初創(chuàng)公司的Stability AI之手。兩個(gè)產(chǎn)品的圖片生成水平第一次讓業(yè)界看到商用可能。此前,業(yè)界最優(yōu)秀的圖像生成工具是生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),只能生成特定圖片—比如人臉,換成小狗就不行,得重新訓(xùn)練—DALL·E 2和StableDiffusion沒(méi)有這種局限性。
上一個(gè)讓業(yè)界看到商用可能并大獲成功的AI技術(shù)是圖像識(shí)別。2015年,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)算法在ImageNet數(shù)據(jù)庫(kù)里的識(shí)別準(zhǔn)確率首次超過(guò)人類。此后,人臉識(shí)別系統(tǒng)迅速取代數(shù)字密碼,成為最新潮的身份標(biāo)識(shí);可識(shí)別商品的自助結(jié)算系統(tǒng)也很快進(jìn)入各類線下門店;連追求安全至上的自動(dòng)駕駛都用上了AI的視覺(jué)判斷。
Stable Diffusion和DALL·E2的商業(yè)前景毋庸置疑,但它們關(guān)于AI新時(shí)代的開(kāi)啟充其量只是報(bào)幕員,ChatGPT才是主角,因?yàn)橹挥兴鉀Q了語(yǔ)言問(wèn)題—起碼看起來(lái)如此。
語(yǔ)言問(wèn)題的解決意味著新的交互革命,這是AI新紀(jì)元的另一個(gè)涵義。
科幻作家特德·姜(Te dChiang)體驗(yàn)ChatGPT后,將其背后的AI模型(GPT)比作互聯(lián)網(wǎng)的“有損壓縮”,意思是,當(dāng)它學(xué)習(xí)了所有網(wǎng)上文字的統(tǒng)計(jì)規(guī)律后,就相當(dāng)于獲得了一個(gè)互聯(lián)網(wǎng)信息的壓縮版本—信息有所損失,但沒(méi)那么多,重要的是,我們需要保存的文件更小了。假使外星人襲來(lái),互聯(lián)網(wǎng)毀滅,只要GPT還在,理論上我們能通過(guò)詢問(wèn)它獲得原本存儲(chǔ)在互聯(lián)網(wǎng)上的所有東西。
事實(shí)上,不用幻想外星人入侵,特德·姜想象的這一天可能在不久之后就會(huì)到來(lái)。當(dāng)人們可以用自然語(yǔ)言與機(jī)器交流,而機(jī)器不僅聽(tīng)得懂這些自然語(yǔ)言,還能與人對(duì)話、按照人的話語(yǔ)行事—回答人的問(wèn)題、畫一幅畫或者創(chuàng)作一個(gè)視頻、生成一款游戲,根據(jù)反饋意見(jiàn)再次修改,直到提出需求的人滿意為止—這時(shí)候,每個(gè)人的電腦、手機(jī)上還需不需要安裝那么多應(yīng)用軟件就值得重新考慮。也許,只留一個(gè)ChatGPT就夠了。
此刻,相信你對(duì)無(wú)論ChatGPT還是更大范疇的AIGC到底意味著什么已有足夠感知,可能也聽(tīng)過(guò)不少業(yè)界的溢美之詞,比如英偉達(dá)創(chuàng)始人黃仁勛稱現(xiàn)在為“AI的iPhone時(shí)刻”,比爾·蓋茨認(rèn)為AI革命的重要性不亞于互聯(lián)網(wǎng)的誕生,微軟CEO納德拉則表示這種技術(shù)擴(kuò)散堪比工業(yè)革命。
我們打算就此打住,不再過(guò)多陳述包括ChatGPT在內(nèi)的生成式AI可能掀起的產(chǎn)業(yè)革命—隨后的幾篇文章會(huì)繼續(xù)從不同視角討論它。這里,我們后退一步,走到AIGC尤其ChatGPT的背后,看看這些最新出圈的AI明星究竟站在怎樣的基石之上。
ChatGPT發(fā)布之后,OpenAI團(tuán)隊(duì)成員接受采訪,說(shuō)公眾的熱情程度讓他們意外,因?yàn)椤癈hatGPT背后的大部分技術(shù)并不新鮮”。這一說(shuō)法屬實(shí),外界與之類似的總結(jié)是:ChatGPT是一種新時(shí)代的“煉金術(shù)”,把一個(gè)語(yǔ)言統(tǒng)計(jì)模型和基于人類反饋的強(qiáng)化學(xué)習(xí)放在一起,然后就是用可以拿到的語(yǔ)料、估計(jì)可行的人工神經(jīng)網(wǎng)絡(luò)層數(shù)放在一起“煉丹”。
但相較于2018年以前的AI模型,ChatGPT背后的GPT至少有一樣?xùn)|西是新的,那就是看待語(yǔ)言問(wèn)題的視角。
人下一個(gè)會(huì)說(shuō)出口的詞,往往是統(tǒng)計(jì)學(xué)上下一個(gè)最可能出現(xiàn)的詞—這個(gè)理念在語(yǔ)言學(xué)界早已有之,但將這種想法開(kāi)發(fā)成對(duì)話語(yǔ)言模型是第一次。在此之前,幾乎所有號(hào)稱使用自然語(yǔ)言與人對(duì)話的機(jī)器人,從百度小度到微軟小冰,從亞馬遜Alexa到蘋果Siri,甚至拿到日本公民身份的Sophia,本質(zhì)上都是基于搜索樹(shù)的查詢系統(tǒng)。而自然語(yǔ)言處理(Natural language processing,NLP)領(lǐng)域也被工程化地劃分為文本分類、機(jī)器翻譯、閱讀理解、文章分級(jí)等數(shù)十種任務(wù),每種任務(wù)都對(duì)應(yīng)一種或幾種算法模型。
注:黃色標(biāo)注為Diffusion Model模型,其余為Transformer模型。數(shù)據(jù)來(lái)源:根據(jù)公開(kāi)資料整理
這些看似不同的問(wèn)題背后其實(shí)是同一個(gè)問(wèn)題。比如,如果一個(gè)對(duì)話機(jī)器人“足夠聰明”,聰明到可以在電影評(píng)論中預(yù)測(cè)下一個(gè)單詞,那么它一定能完成一個(gè)簡(jiǎn)單的正或負(fù)分類—成為一個(gè)電影分類器。
通關(guān)密碼就是2017年Google Brain團(tuán)隊(duì)寫在論文里的Transformer(轉(zhuǎn)換器),GPT的歷代模型都基于這一算法架構(gòu)。工作時(shí),它會(huì)計(jì)算每個(gè)詞與之前輸入和生成的其他詞之間的依賴關(guān)系(通常被稱作“自注意機(jī)制”)。在最新發(fā)布的版本GPT-4中,模型能夠注意到的單詞量多達(dá)24576個(gè)。
Transfor mer認(rèn)為,語(yǔ)言的內(nèi)部數(shù)據(jù)之間長(zhǎng)跨度地相互依賴,Transformer所做的工作,就是將既有文字的“內(nèi)部依賴關(guān)系”轉(zhuǎn)換到未來(lái)的文字中去,也就是“生成”。
信息內(nèi)部的基本要素之間相互依賴,且具有預(yù)測(cè)功能— 這種看待語(yǔ)言的視角之后也被用到了圖片上。2021年,Google Brain團(tuán)隊(duì)再次推出一個(gè)叫“視覺(jué)轉(zhuǎn)換器”(VisionTransformer,ViT)的模型,通過(guò)計(jì)算同一圖像中像素與像素之間的依賴關(guān)系來(lái)識(shí)別圖像。
在此之前,語(yǔ)言和視覺(jué)被視為不同的東西。語(yǔ)言是線性的、序列的,視覺(jué)則是一種有空間結(jié)構(gòu)的、并行的數(shù)據(jù)。但Transformer證明,圖片也可以當(dāng)成序列問(wèn)題來(lái)解決,一張圖片就是由像素起承轉(zhuǎn)合地構(gòu)成的句 子。
不僅圖片,大部分問(wèn)題都可以轉(zhuǎn)化為序列問(wèn)題。不要小看這種思維的轉(zhuǎn)變。2018年,DeepMind發(fā)布的AlphaFold具有預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的能力,靠的就是對(duì)氨基酸序列的學(xué)習(xí),其背后架構(gòu)也是Transformer。
語(yǔ)言在人類智能中是圣杯,在人工智能中同樣如此。無(wú)論AIGC這個(gè)詞現(xiàn)在多么火熱,在ChatGPT解決語(yǔ)言問(wèn)題之前,人們對(duì)于AIGC的態(tài)度跟之前對(duì)待元宇宙沒(méi)什么差別:熱情,但持疑。至少2022年年底前的AIGC浪潮中,沒(méi)有什么人提起過(guò)通用人工智能(Artificial General Intelligence,AGI)這個(gè) 詞。
“涌現(xiàn)”也好,“質(zhì)變”也罷,ChatGPT證明,機(jī)器可以從語(yǔ)言中得到的東西比我們預(yù)想的多。首先,它讓我們看到推理能力部分可以通過(guò)“見(jiàn)得足夠多”而模仿出來(lái)。就此宣稱ChatGPT有理解能力當(dāng)然是種錯(cuò)覺(jué),我們明白它只是基于統(tǒng)計(jì)學(xué)上的關(guān)聯(lián)在推論。但“真正在思考”與“表現(xiàn)得像是在思考”,有時(shí)候只是哲學(xué)上的區(qū)別。
其次,基于Let’s think step by step的“思維鏈”(Chain-of-Thought prompting,CoT)技術(shù)表明,只要更富邏輯性地使用語(yǔ)言,機(jī)器就能學(xué)到更正確的東西,而不只是玩文字游戲。一個(gè)亞馬遜在其CoT相關(guān)論文中使用過(guò)的例子是,給AI看一張畫有餅干和薯?xiàng)l的圖片,然后問(wèn)它兩者的共同點(diǎn)是什么,題目給出兩個(gè)選項(xiàng),A.都是軟的;B.都是咸的。訓(xùn)練時(shí),工程師并不會(huì)訓(xùn)練AI直接作出選A或者選B這樣的簡(jiǎn)單關(guān)聯(lián),而是訓(xùn)練它生成一段邏輯充分的文字:對(duì)于餅干和薯?xiàng)l,AI都要被訓(xùn)練說(shuō)出它們各自的特性,比如薯?xiàng)l是咸的,有的餅干也是咸的;薯?xiàng)l捏的時(shí)候會(huì)變形,所以薯?xiàng)l是軟的,餅干捏的時(shí)候不會(huì)變形,所以餅干不是軟的;所以薯?xiàng)l和餅干的共同點(diǎn)是都是咸的,答案是B。
相似的一步步拆解問(wèn)題的邏輯,你應(yīng)該已經(jīng)在ChatGPT的回答中看到過(guò)很多次,它們都基于提示詞工程師(Prompt Engineer)對(duì)足夠多問(wèn)題的拆解。邏輯跳躍的教育常會(huì)讓學(xué)生不得要領(lǐng),邏輯縝密的解題思路則讓兒童也能舉一反三。用人類語(yǔ)言學(xué)習(xí)的AI同樣如此。
語(yǔ)言能力本身是種智能,而它攜帶的智能更多—從推理能力到數(shù)學(xué),這是語(yǔ)言學(xué)家們此前低估的東西。如果把各AI模型看作一個(gè)大家族,此前的AI多數(shù)只能從信息和智能都有限的數(shù)據(jù)中學(xué)習(xí),比如商品圖片、人臉、交通信號(hào)燈,即使做文字識(shí)別或翻譯,它們也只是把文字當(dāng)成圖片或成對(duì)信號(hào),只有GPT這樣基于Transformer的語(yǔ)言模型,第一次直接從語(yǔ)言的內(nèi)在結(jié)構(gòu)中學(xué)習(xí)。只要語(yǔ)言中有的東西,幾何、色彩、味覺(jué)、速度、情感……假以時(shí)日和正確教育(比如更好的prompt),GPT這樣的模型都能學(xué)到,除非語(yǔ)言中沒(méi)有。
ChatGP T與Transformer讓人分別從使用體驗(yàn)和算法兩個(gè)層面看到了通用人工智能的希望。尤其多模態(tài)的GPT-4推出之后,AI似乎變成了真正的全能助手—至少在網(wǎng)絡(luò)上:理解人的自然語(yǔ)言,能幫人做會(huì)議總結(jié)、做PPT、分析股票市場(chǎng)、想廣告文案、創(chuàng)作小說(shuō),還能根據(jù)意見(jiàn)不斷修改圖片,甚至一鍵生成與草圖相似的網(wǎng)頁(yè)代碼。似乎用不了多久,AI與AI之間就要開(kāi)始用人的語(yǔ)言交流了。
但請(qǐng)注意,這些都不等于通用人工智能已經(jīng)到來(lái)。所有基于Transformer的大型語(yǔ)言模型(Large Language Model),本質(zhì)仍是文字游戲。它們無(wú)法在生成式技術(shù)內(nèi)部解決事實(shí)性錯(cuò)誤問(wèn)題,也無(wú)法僅靠語(yǔ)言就掌握所有邏輯推理能力,比如“如果某事沒(méi)有發(fā)生會(huì)怎樣”的反事實(shí)推理。
涉及到文字外部的世界,基于Transformer的多模態(tài)模型(比如GPT-4)能多大程度地做好各種模態(tài)間的信息轉(zhuǎn)換,同樣是個(gè)問(wèn)題。過(guò)去,圖與文、聲音與畫面、觸覺(jué)、嗅覺(jué)等等之間的信息轉(zhuǎn)換,在AI里面是個(gè)黑盒。電商場(chǎng)景中,一張圖片能獲得的文字描述的適配程度,取決于用于訓(xùn)練的成對(duì)圖文語(yǔ)料質(zhì)量。一旦圖片是新奇的,是否能獲得適配的文字描述就有待商榷。雖然已經(jīng)將模態(tài)間的成對(duì)學(xué)習(xí)打碎到了像素級(jí),Transformer無(wú)法足夠好地轉(zhuǎn)換文與圖的問(wèn)題仍然存在。
假如要讓ChatGP T制作一幅海報(bào),你擬定需要寫在海報(bào)上的標(biāo)題和部分文字并確定海報(bào)風(fēng)格,ChatGPT生成的東西可能看起來(lái)很像海報(bào),但上面的每一個(gè)字都不是真正的字,而是筆畫錯(cuò)亂的怪物。很簡(jiǎn)單,當(dāng)ChatGPT開(kāi)始制作海報(bào),它就進(jìn)入了理解像素關(guān)系和搬運(yùn)像素的作畫模式,而非輸出文字的語(yǔ)言模式。一個(gè)不錯(cuò)的想象是,也許經(jīng)過(guò)更多訓(xùn)練,ChatGP T能夠?qū)W會(huì)寫漢字,畢竟中文字畫同源,而英語(yǔ)是表音文字,ChatGP T要學(xué)會(huì)可能就沒(méi)那么容易。
無(wú)論如何,一個(gè)會(huì)把文字轉(zhuǎn)換成怪物的AI很難稱得上是AGI。所以Transformer也并非一定是AI的未來(lái)。
和Transformer 一樣正在受追捧的算法是擴(kuò)散模型(Diffusion Model),目前文生圖領(lǐng)域的幾個(gè)明星產(chǎn)品,從Stability AI的Stable Diffusion到Google的Imagen和Parti,以及產(chǎn)品與公司同名的Midjourney,背后的算法都不是Transformer,而是擴(kuò)散模型。
3月初,通過(guò)在功能性磁共振成像(f MR I)數(shù)據(jù)上加載擴(kuò)散模型,來(lái)自日本的兩位學(xué)者重建了包含在f MRI數(shù)據(jù)中的視覺(jué)圖像,初步表明擴(kuò)散模型—而非Transformer—的生物合理 性。
“人并不會(huì)像現(xiàn)在的A I體系一樣,往右邊一套生成式系統(tǒng)),往左邊又是一套(判別式系統(tǒng)),人只有一套閉環(huán)系統(tǒng)。那就是在內(nèi)部建構(gòu)一套‘世界模型’,然后對(duì)所有問(wèn)題作出預(yù)測(cè)?!毕愀鄞髮W(xué)同心基金數(shù)據(jù)科學(xué)研究院院長(zhǎng)馬毅在3月的一次線上論壇中說(shuō)。早在1950年,圖靈第一次提出用隨意提問(wèn)來(lái)判斷機(jī)器能否像人一樣回答問(wèn)題的時(shí)候,“是否像人一樣”就是衡量AI智能程度的標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)永遠(yuǎn)不會(huì)過(guò)時(shí)。