何偉
摘 要:對(duì)話生成預(yù)訓(xùn)練模型ChatGPT(Chat Generative Pre-trained Transformer)因其高超的對(duì)話能力,一經(jīng)發(fā)布便吸引了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,成為歷史上增長(zhǎng)最快的消費(fèi)者應(yīng)用程序,在發(fā)布后兩個(gè)月內(nèi)就吸引了1億注冊(cè)用戶,帶動(dòng)了數(shù)據(jù)、算法、算力、應(yīng)用等人工智能板塊的產(chǎn)業(yè)研發(fā)熱潮。本文立足語(yǔ)言學(xué)的視角,圍繞ChatGPT是否已經(jīng)具備語(yǔ)言理解和推理能力,可否提高大語(yǔ)言模型的可解釋性,以及能否預(yù)示著知識(shí)工程的新方向三個(gè)核心問(wèn)題,探討ChatGPT帶來(lái)的機(jī)遇和挑戰(zhàn)。
關(guān)鍵詞:ChatGPT;大語(yǔ)言模型;知識(shí)工程;人工智能
中圖分類號(hào):G209/H09? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1672-335X(2023)06-0094-10
DOI:10.16497/j.cnki.1672-335X.202306009
對(duì)話生成預(yù)訓(xùn)練模型ChatGPT(Chat Generative Pre-trained Transformer)因其高超的對(duì)話能力,一經(jīng)發(fā)布便吸引了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。它可以回答后續(xù)提問(wèn),拒絕不當(dāng)請(qǐng)求,挑戰(zhàn)錯(cuò)誤前提,并承認(rèn)自己錯(cuò)誤。[1]它獲得許多涌現(xiàn)能力,如高質(zhì)量對(duì)話、復(fù)雜推理、思維鏈、零/少樣本學(xué)習(xí)(語(yǔ)境學(xué)習(xí))、跨任務(wù)泛化、代碼理解/生成等。[2]這是首次在大型語(yǔ)言模型(large language model,LLM)內(nèi)很好地解決如此多樣的開(kāi)放任務(wù)。[3]ChatGPT成為歷史上增長(zhǎng)最快的消費(fèi)者應(yīng)用程序,在發(fā)布后兩個(gè)月內(nèi)就吸引了1億注冊(cè)用戶。[4]
與此同時(shí),很多學(xué)者圍繞著ChatGPT及其影響發(fā)表了不同觀點(diǎn)和看法。著名語(yǔ)言學(xué)家、哲學(xué)家諾姆·喬姆斯基與伊恩·羅伯茨、杰弗里·瓦圖穆?tīng)柟餐凇都~約時(shí)報(bào)》發(fā)表了題為《ChatGPT的虛假承諾》的文章。[5]喬姆斯基強(qiáng)調(diào),人工智能和人類在思考方式、學(xué)習(xí)語(yǔ)言與生成解釋的能力,以及道德思考方面有著極大的差異,并提醒讀者如果ChatGPT式機(jī)器學(xué)習(xí)程序繼續(xù)主導(dǎo)人工智能領(lǐng)域,那么人類的科學(xué)水平和道德標(biāo)準(zhǔn)都可能因此降低。對(duì)此,斯坦福大學(xué)教授、自然語(yǔ)言處理領(lǐng)域著名學(xué)者克里斯托弗·曼寧表示,喬姆斯基的批評(píng)不是在針對(duì)ChatGPT的某種算法錯(cuò)誤,而是針對(duì)所有機(jī)器學(xué)習(xí)算法,且說(shuō)法有些夸張。認(rèn)知語(yǔ)言學(xué)家阿黛爾·戈德堡則認(rèn)為喬姆斯基的文章并未提出令人信服的論據(jù)。[6]我國(guó)計(jì)算語(yǔ)言學(xué)家馮志偉教授也撰文指出,人工智能借由人機(jī)對(duì)話深入地介入了語(yǔ)言生活,這一發(fā)展過(guò)程中,語(yǔ)言學(xué)和語(yǔ)言學(xué)家在不同時(shí)期有所介入,但總體而言并不多。隨著人機(jī)對(duì)話性能的飛速提升,語(yǔ)言學(xué)和語(yǔ)言學(xué)家需要正視沖擊,并進(jìn)行反思。[7]
本文將在語(yǔ)言學(xué)的視角下,圍繞ChatGPT是否已經(jīng)具備語(yǔ)言理解和推理能力,可否提高大語(yǔ)言模型的可解釋性,以及能否預(yù)示著知識(shí)工程的新方向三個(gè)核心問(wèn)題,探討ChatGPT帶來(lái)的機(jī)遇和挑戰(zhàn)。
一、ChatGPT是否已經(jīng)具備語(yǔ)言理解和推理能力?
喬姆斯基認(rèn)為“ChatGPT在推理和語(yǔ)言使用上和人類有巨大差別”。[5]但是,很多ChatGPT的使用者都被ChatGPT的像人程度驚艷過(guò),甚至開(kāi)始擔(dān)憂自己作為人會(huì)被ChatGPT所代替。香港中文大學(xué)語(yǔ)言處理實(shí)驗(yàn)室團(tuán)隊(duì)以ChatGPT作為“被試”,讓其完成12個(gè)經(jīng)典的心理語(yǔ)言學(xué)實(shí)驗(yàn),然后再和人類的實(shí)驗(yàn)結(jié)果做對(duì)比。這12個(gè)實(shí)驗(yàn)?zāi)依藦恼Z(yǔ)音、詞匯、句法、語(yǔ)義再到語(yǔ)篇、對(duì)話等與語(yǔ)言能力相關(guān)的多個(gè)方面。其中10項(xiàng)實(shí)驗(yàn)結(jié)果表明,ChatGPT的語(yǔ)言使用能力很大程度上和人類接近,這有可能為研究人類的語(yǔ)言使用和習(xí)得提供借鑒。[8]
在語(yǔ)音方面,ChatGPT和人類一樣,能夠根據(jù)單詞的發(fā)音來(lái)判斷單詞所指物體的形狀,比如“takete”或“kiki”可能表示尖的物體(因?yàn)槁?tīng)起來(lái)比較尖銳),而“maluma”或“bouba”則表示圓的物體;也能夠根據(jù)名字的發(fā)音來(lái)判斷性別,比如,英語(yǔ)中的女性名字多以元音結(jié)尾,而男性名字則多以輔音結(jié)尾。
在詞匯和句法方面,ChatGPT像人類一樣傾向于使用前面出現(xiàn)過(guò)的多義詞詞義和句法結(jié)構(gòu)。例如,多義詞“post”主要意思是“郵件”,次要意思是“工作”,當(dāng)上文出現(xiàn)句子“The man accepted the post in the accountancy firm(那個(gè)人接受了會(huì)計(jì)師事務(wù)所的職位)”之后,ChatGPT會(huì)像人類一樣把其后出現(xiàn)的“post”也理解為“工作”。同樣,如果前面出現(xiàn)了介賓結(jié)構(gòu)“The racing driver gave the torn overall to his mechanic(賽車手把撕裂體交給了他的機(jī)械師)”,后面再看到“The patient showed…(病人顯示……)”時(shí)會(huì)更多續(xù)寫(xiě)成介賓結(jié)構(gòu),而非雙賓結(jié)構(gòu)。這說(shuō)明,ChatGPT像人一樣,能夠根據(jù)最近的輸入來(lái)更新形式—意義間的映射。
在語(yǔ)義方面,ChatGPT可以像人類一樣將不合理的句子合理化,例如對(duì)一個(gè)不合理的句子“The mother gave the candle the daughter(媽媽把女孩給了蠟燭)”,通過(guò)增加“to”的方式將其理解成“The mother gave the candle to the daughter(媽媽把蠟燭給了女孩)”。 ChatGPT也會(huì)像人類一樣產(chǎn)生語(yǔ)義錯(cuò)覺(jué)從而注意不到句子中的明顯錯(cuò)誤,例如,這個(gè)帶有錯(cuò)誤的句子“During the biblical flood,how many animals of each kind Moses take on the ark(在圣經(jīng)大洪水中,每個(gè)動(dòng)物摩西帶了幾只上方舟)”,人們通常難以察覺(jué)到不是摩西而是諾亞將動(dòng)物們帶上方舟的,這種現(xiàn)象被稱為語(yǔ)義錯(cuò)覺(jué)。
在語(yǔ)篇層面,ChatGPT能像人類一樣判斷出動(dòng)詞中隱含的因果關(guān)系,例如,對(duì)于句子“A scared B”,是A的某些特質(zhì)讓B害怕,因此A是刺激,B是經(jīng)歷者;相反地,對(duì)于句子“A feared B”,則認(rèn)為是B的某些特質(zhì)讓A害怕,因此A是經(jīng)歷者,B是刺激。ChatGPT也能夠像人類一樣連接兩個(gè)句子的信息從而進(jìn)行推理,如句子“While swimming in the shallow water near the rocks,Sharon stepped on a piece of glass.She called desperately for help,but no one around to hear her(Sharon在礁石附近游泳的時(shí)候踩到了一塊玻璃。她絕望地呼救,但是周圍沒(méi)有人聽(tīng)到她)”,人們更容易通過(guò)連接“Sharon stepped on a piece of glass(Sharon踩到了一塊玻璃)”和“She called desperately for help(她絕望地呼救)”這兩個(gè)信息推理出“She cut her foot(她割破了腳)”這個(gè)可能性。
在對(duì)話層面,ChatGPT能夠像人一樣根據(jù)對(duì)話者的身份來(lái)理解相應(yīng)的單詞意思,即在對(duì)話者為美國(guó)人的情況下更多理解為美式英語(yǔ)中的意思,例如,“bonnet”這個(gè)詞,在英式英語(yǔ)中表示“汽車的閥蓋”,而在美式英語(yǔ)中則是“帽子”的意思。ChatGPT也能夠像人一樣根據(jù)對(duì)話者的身份來(lái)使用相應(yīng)的單詞,即在對(duì)話者為美國(guó)人時(shí)更多使用美式英語(yǔ)回答。
在尚未達(dá)到人類水平的2項(xiàng)實(shí)驗(yàn)結(jié)果中,一個(gè)是在高預(yù)測(cè)性語(yǔ)境下,ChatGPT還不能像人類一樣選擇使用更短的單詞。例如,同樣是表示“數(shù)學(xué)”意思的詞“maths”和“mathematics”,在預(yù)測(cè)性較高的語(yǔ)境下“Susan was very bad at algebra,so she hated…(Susan代數(shù)很不好,所以她恨……)”, 人類傾向于選擇短的“maths”,而在預(yù)測(cè)性較低的語(yǔ)境下“Susan introduced herself to me as someone who loved…(Susan將自己介紹為是一個(gè)喜歡……)”,人們則傾向于選擇長(zhǎng)的“mathematics”。
另一個(gè)是ChatGPT還不能利用前面的語(yǔ)境消解句法歧義,例如,在只有一個(gè)“偷獵者”的語(yǔ)境中,人們通常將句子“The hunter killed the poacher with a rifle”理解為“獵人用一把來(lái)復(fù)槍殺死了偷獵者”,即介詞短語(yǔ)“with a rifle”用來(lái)修飾動(dòng)詞短語(yǔ)“killed the poacher”,而在有兩個(gè)“偷獵者”的語(yǔ)境中,人們會(huì)將句子“The hunter killed the poacher with a rifle”理解為“獵人殺死了帶著一把來(lái)復(fù)槍的偷獵者”,即介詞短語(yǔ)“with a rifle”用來(lái)修飾名詞短語(yǔ)“the poacher”。
東南大學(xué)知識(shí)科學(xué)與工程實(shí)驗(yàn)室團(tuán)隊(duì)測(cè)試了ChatGPT在回答復(fù)雜問(wèn)題時(shí)的推理能力,并和其他大型語(yǔ)言模型(LLM)以及知識(shí)庫(kù)問(wèn)答系統(tǒng)(KBQA)進(jìn)行了對(duì)比。[9]論文歸納出了8個(gè)“推理類型”標(biāo)簽,包括集合操作、條件過(guò)濾、計(jì)數(shù)、極值/排序、單跳推理、多跳推理和星型事實(shí)推理。論文采用了與維基百科相關(guān)的6個(gè)英語(yǔ)數(shù)據(jù)集和2個(gè)多語(yǔ)數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集。論文得出的結(jié)論主要有:1、在WQSP和GraphQuestions數(shù)據(jù)集上超越了傳統(tǒng)模型的當(dāng)前最佳水平,在其他數(shù)據(jù)集上ChatGPT的表現(xiàn)仍然顯著劣于傳統(tǒng)模型。2、ChatGPT的大多數(shù)表現(xiàn)優(yōu)于其他大型語(yǔ)言模型,但在回答數(shù)字或基于時(shí)間的問(wèn)題時(shí)表現(xiàn)并不是最佳的。此外,在涉及多跳或星型事實(shí)推理的問(wèn)題時(shí),其表現(xiàn)也不如GPT3.5 V3。3、大型語(yǔ)言模型無(wú)法準(zhǔn)確回答各種基于事實(shí)的問(wèn)題。這在需要數(shù)值、因果和時(shí)間答案的測(cè)試集中尤為明顯,所有大型語(yǔ)言模型都表現(xiàn)不佳。4、在多語(yǔ)言測(cè)試中,ChatGPT對(duì)于回答低資源語(yǔ)言問(wèn)題表現(xiàn)更為優(yōu)秀,然而中文測(cè)試得分較低,無(wú)法確定是由于“中文資源不足”還是“資源質(zhì)量不佳”造成的。5、ChatGPT在知識(shí)庫(kù)問(wèn)答方面存在一些限制。最小功能測(cè)試結(jié)果顯示,ChatGPT不擅長(zhǎng)回答只涉及一種類型推理的問(wèn)題。不變性測(cè)試結(jié)果表明,與傳統(tǒng)模型相比,ChatGPT在處理相似或幾乎相同的輸入時(shí)不夠穩(wěn)定。定向期望測(cè)試顯示,ChatGPT并不總是對(duì)正確提示提供積極反饋。當(dāng)面對(duì)修改后的測(cè)試樣本時(shí),其輸出的變化并不總是符合我們的預(yù)期。6、使用CoT(思維鏈)提示來(lái)引導(dǎo)ChatGPT逐步回答問(wèn)題是有用的,特別是針對(duì)需要使用計(jì)數(shù)推理來(lái)獲取答案的問(wèn)題。
基于上述論文的實(shí)驗(yàn)結(jié)果可知,增強(qiáng)大型語(yǔ)言模型的語(yǔ)境理解能力是一項(xiàng)挑戰(zhàn),可以考慮如何通過(guò)構(gòu)造恰當(dāng)?shù)奶崾緦W(xué)習(xí)來(lái)告訴ChatGPT當(dāng)前的語(yǔ)境信息。大型語(yǔ)言模型在事實(shí)類問(wèn)題上的表現(xiàn)不佳,很大原因是受限于自身的訓(xùn)練語(yǔ)料。因此,與搜索引擎或者知識(shí)圖譜的結(jié)合可以擴(kuò)展大型語(yǔ)言模型的知識(shí)來(lái)源。使用CoT(思維鏈)提示,將問(wèn)題分解成多個(gè)步驟,能有效提升大型語(yǔ)言模型表現(xiàn)不佳的計(jì)數(shù)推理能力。這其中蘊(yùn)含的語(yǔ)言邏輯值得進(jìn)一步研究。
二、可否提高大語(yǔ)言模型的可解釋性?
大型語(yǔ)言模型 (LLMs) 是具有大量參數(shù)的深度學(xué)習(xí)模型,以無(wú)監(jiān)督方式對(duì)大量文本進(jìn)行訓(xùn)練。大型語(yǔ)言模型的可解釋性是構(gòu)建安全、可靠、可信的大型語(yǔ)言模型發(fā)展道路上亟待解決的重要問(wèn)題。四位人工智能倫理和政策專家撰文指出,大型語(yǔ)言模型和生成式人工智能工具的構(gòu)建和部署及其在科學(xué)探索中的應(yīng)用必須被視為解釋性成就,這些成就應(yīng)該嵌入科學(xué)哲學(xué)家所稱的“發(fā)現(xiàn)背景”中。[10]
在理想情況下,嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)符號(hào)—邏輯規(guī)則是最好的解釋。然而,人工神經(jīng)網(wǎng)絡(luò)的“黑箱”特性極大地阻礙了大型語(yǔ)言模型的可解釋性。ChatGPT對(duì)應(yīng)的GPT3底座約有1750億個(gè)神經(jīng)元連接權(quán)重參數(shù),不到人腦的萬(wàn)分之四,但也大到無(wú)法采用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)符號(hào)—邏輯規(guī)則進(jìn)行解釋。神經(jīng)網(wǎng)絡(luò)的可解釋性工作按照解釋力從高到低大致有決策樹(shù)解釋、神經(jīng)元解釋、特征權(quán)重解釋和樣例解釋,[11]決策樹(shù)等透明模型難以解釋復(fù)雜的神經(jīng)網(wǎng)絡(luò),因此大語(yǔ)言模型的可解釋性工作主要集中在神經(jīng)元解釋上。
推出ChatGPT的OpenAI公司采用大型語(yǔ)言模型GPT-4來(lái)解釋架構(gòu)更簡(jiǎn)單的語(yǔ)言模型GPT-2上神經(jīng)元的行為。[12]其過(guò)程分為三步。第一步:使用GPT-4生成解釋,首先找一個(gè)GPT-2的神經(jīng)元,并向GPT-4展示相關(guān)的形符(token)和對(duì)應(yīng)的神經(jīng)元激活度(activation)。然后,讓GPT-4根據(jù)這些行為,生成一個(gè)可能的解釋。例如,在圖1的例子中GPT-4就認(rèn)為,這個(gè)神經(jīng)元與電影、人物和娛樂(lè)有關(guān)。
第二步:使用GPT-4進(jìn)行模擬,讓GPT-4根據(jù)自己生成的解釋,模擬以此激活的神經(jīng)元會(huì)做什么。第三步:對(duì)比打分,最后將模擬神經(jīng)元(GPT-4)的行為與實(shí)際神經(jīng)元(GPT-2)的行為進(jìn)行比較,看看GPT-4究竟猜得有多準(zhǔn)。在圖2的例子中,左邊是GPT-2神經(jīng)元的實(shí)際行為,右邊是GPT-4模擬的神經(jīng)元行為,下方給出的評(píng)分為0.337。
目前,絕大多數(shù)解釋評(píng)分都很低,但可以通過(guò)迭代解釋、使用更大的模型、更改所解釋模型的體系結(jié)構(gòu)等方法,來(lái)提高分?jǐn)?shù)。研究也發(fā)現(xiàn),神經(jīng)元層級(jí)越高,GPT-4的解釋就越抽象。如圖3中的例子,形符“dollars”在第1層神經(jīng)元中被解釋為“貨幣相關(guān)的單詞”,在第2層神經(jīng)元中被解釋為“美元詞語(yǔ)的實(shí)例”,在第29層神經(jīng)元中被解釋為“美國(guó)的關(guān)聯(lián)物”。
研究中還發(fā)現(xiàn)了一些有趣的神經(jīng)元,比如一個(gè)模式破壞神經(jīng)元,它會(huì)對(duì)正在進(jìn)行的列表中打破既定模式的形符(token)進(jìn)行激活,如圖4所示,每一行最后一個(gè)形符(token)都與之前的形符模式不同,此時(shí)模式破壞神經(jīng)元就會(huì)被激活。目前,這些神經(jīng)元的行為依然缺乏足夠的解釋,但有可能許多神經(jīng)元編碼了以特定輸入為條件的輸出分布的特定微妙變化。
Anthropic公司發(fā)布了“Transformer通路項(xiàng)目”, [13]通過(guò)逆向工程的方式對(duì)大型語(yǔ)言模型采用的Transformer架構(gòu)進(jìn)行機(jī)械可解釋性研究,并為研究項(xiàng)目創(chuàng)造了網(wǎng)站,以可視化、可交互的形式來(lái)顯示其研究成果。機(jī)械可解釋性研究認(rèn)為,神經(jīng)網(wǎng)絡(luò)并不是不可解釋的黑匣子,而是學(xué)習(xí)了一些人類可解釋的算法,并通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)逆向工程反編譯為可理解的算法。目前,該項(xiàng)目的研究表明了對(duì)于任何規(guī)模的Transformer模型,“歸納頭”現(xiàn)象都是模型一般情境學(xué)習(xí)的來(lái)源,負(fù)責(zé)模型中大部分的上下文學(xué)習(xí)。此外,該項(xiàng)目也證實(shí)了神經(jīng)元的疊加是一種真實(shí)、可觀察到的現(xiàn)象,讓模型可以表示額外的特征,并且額外特征的數(shù)量隨著稀疏度的增加而增加?!吧窠?jīng)元疊加假設(shè)”是指人們認(rèn)為網(wǎng)絡(luò)通過(guò)神經(jīng)元的疊加賦予了模型識(shí)別比維度更多特征的能力,它們利用高維空間的特性來(lái)模擬具有更多神經(jīng)元的模型, 在無(wú)法采用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)符號(hào)—邏輯規(guī)則進(jìn)行解釋的情況下,對(duì)神經(jīng)元的語(yǔ)義解釋成為大語(yǔ)言模型可解釋性的突破點(diǎn),語(yǔ)言學(xué)應(yīng)該在這方面發(fā)揮作用,特別是將人工神經(jīng)網(wǎng)絡(luò)理解語(yǔ)言的過(guò)程和人腦理解語(yǔ)言的過(guò)程進(jìn)行類比研究非常重要。大型語(yǔ)言模型的上下文學(xué)習(xí)能力讓人印象深刻, 以“歸納頭”現(xiàn)象為代表的注意力機(jī)制在其中的作用值得進(jìn)一步探究,人類理解語(yǔ)言時(shí)的歸納能力也應(yīng)該加強(qiáng)研究。“疊加假設(shè)”是不是與大型語(yǔ)言模型的“涌現(xiàn)能力”相關(guān)?神經(jīng)元的疊加機(jī)制以及對(duì)更多特征的表示能力也需要更深入的研究。
三、能否預(yù)示著知識(shí)工程的新方向?
知識(shí)工程涉及設(shè)計(jì)和構(gòu)建基于知識(shí)的系統(tǒng)的過(guò)程。當(dāng)前以知識(shí)圖譜為代表的知識(shí)工程范式受到極大沖擊。傳統(tǒng)的知識(shí)圖譜從構(gòu)建到上層的應(yīng)用都需要將文本任務(wù)切分成各個(gè)子任務(wù)場(chǎng)景來(lái)解決,例如知識(shí)發(fā)現(xiàn)、知識(shí)挖掘、知識(shí)表示、知識(shí)推理、知識(shí)應(yīng)用等任務(wù),涉及非結(jié)構(gòu)化數(shù)據(jù)清洗和抽取、分詞、語(yǔ)義角色標(biāo)注、實(shí)體抽取、關(guān)系分類、實(shí)體消歧、語(yǔ)義匹配、圖譜查詢和圖譜推理等任務(wù),與人類完全從端到端的知識(shí)網(wǎng)絡(luò)構(gòu)建流程有所出入,需要耗費(fèi)大量人力、物力和時(shí)間,其場(chǎng)景化的落地應(yīng)用也離不開(kāi)精細(xì)的微調(diào),阻礙了知識(shí)圖譜的大規(guī)模泛化應(yīng)用。
ChatGPT本身就是知識(shí)工程的一個(gè)具體的結(jié)果呈現(xiàn)。ChatGPT是一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型LLM(Large Language Model),需要學(xué)習(xí)大量的知識(shí)。這些知識(shí)通常來(lái)自互聯(lián)網(wǎng)上公開(kāi)可用的數(shù)據(jù)、文本、源代碼等語(yǔ)料,如GPT-3.5的語(yǔ)料庫(kù)由8000億單詞、45TB文本數(shù)據(jù)規(guī)模的語(yǔ)料構(gòu)成。ChatGPT類的大語(yǔ)言模型依靠大規(guī)模參數(shù)量,及高質(zhì)量人類反饋學(xué)習(xí)機(jī)制能夠很好地模擬人類,讓模型初顯通用人工智能的能力。大型語(yǔ)言模型可以憑借其涌現(xiàn)能力以及強(qiáng)大的常識(shí)、推理和交互能力,基于統(tǒng)一范式處理大部分的自然語(yǔ)言處理下游應(yīng)用,且生成效果逐步接近真實(shí)世界,非領(lǐng)域?qū)I(yè)人士甚至很難辨明內(nèi)容真?zhèn)巍?/p>
基于大型語(yǔ)言模型的知識(shí)工程圍繞著常識(shí)蒸餾和外部知識(shí)獲取兩個(gè)方向。常識(shí)是一種隱性知識(shí),大型語(yǔ)言模型本身內(nèi)含較多常識(shí),可以通過(guò)生成常識(shí)數(shù)據(jù)集蒸餾出大語(yǔ)言模型中的常識(shí)。哥倫比亞大學(xué)的研究團(tuán)隊(duì)提出一種通過(guò)提示大型語(yǔ)言模型來(lái)生成包含常識(shí)的對(duì)話數(shù)據(jù)集方法。[14]論文使用一小組專家編寫(xiě)的對(duì)話作為上下文示例,通過(guò)提示生成社交對(duì)話數(shù)據(jù)集,如圖5所示,左邊是用于提示大語(yǔ)言模型的示例,包括對(duì)話的話題(藍(lán)色文字)、背景(紅色文字)和話輪,右邊是大語(yǔ)言模型根據(jù)提示生成的契合主題和背景的對(duì)話數(shù)據(jù)。論文證明了這種提示方法可從兩方對(duì)話推廣到多方對(duì)話,并且與人工收集的多方對(duì)話相比,利用大語(yǔ)言模型生成的多方對(duì)話在所有測(cè)量維度上的評(píng)分都更高。大語(yǔ)言模型生成的常識(shí)對(duì)話數(shù)據(jù)集可以被各種定制。例如,首爾國(guó)立大學(xué)團(tuán)隊(duì)通過(guò)人機(jī)協(xié)作框架創(chuàng)建了一個(gè)增強(qiáng)道德感的數(shù)據(jù)集,并利用該數(shù)據(jù)集生成了常識(shí)性社會(huì)規(guī)范準(zhǔn)則。[15]
也可以通過(guò)讓大型語(yǔ)言模型顯式地輸出隱含在言語(yǔ)句中的常識(shí)來(lái)蒸餾出大型語(yǔ)言模型中的常識(shí)。南加州大學(xué)的研究團(tuán)隊(duì)提出了一種先思考后說(shuō)話的方法,首先將隱含的常識(shí)知識(shí)外化(思考),然后使用這些知識(shí)生成響應(yīng)(說(shuō)話)。[16]如圖6所示,根據(jù)用戶輸入,從概念圖譜ConceptNet中找出最符合這段話的概念,將這個(gè)概念和與其相關(guān)的關(guān)系顯式地表達(dá)出來(lái),這樣就將句子中隱含的常識(shí)顯性地表達(dá)出來(lái),即花和妻子都能隱含愛(ài)情,而其中的代表則為玫瑰,并將顯性化的常識(shí)知識(shí)通過(guò)提示學(xué)習(xí)來(lái)訓(xùn)練響應(yīng)生成器。實(shí)證結(jié)果表明,論文所提出的模型在大多數(shù)自動(dòng)指標(biāo)上優(yōu)于端到端和知識(shí)增強(qiáng)的神經(jīng)響應(yīng)生成器基線模型,能夠生成具有更多信息、更具體和符合常識(shí)的響應(yīng),大型語(yǔ)言模型可以通過(guò)搜索互聯(lián)網(wǎng)或者知識(shí)庫(kù)獲取外部知識(shí)。亞馬遜研究團(tuán)隊(duì)提出了一種端到端面向文檔的外部知識(shí)獲取方法。[17]假設(shè)對(duì)話以主題文檔為中心,并且需要外部知識(shí)來(lái)產(chǎn)生響應(yīng),如圖7所示,跟蹤當(dāng)前以主題文檔DT為中心的對(duì)話并實(shí)時(shí)生成對(duì)話的嵌入表示,然后到外部知識(shí)庫(kù)里面找具有相似嵌入表示的文檔,召回以后當(dāng)作外部文檔來(lái)輔助對(duì)話響應(yīng)的生成。
語(yǔ)言模型可以通過(guò)結(jié)合使用模塊化和檢索來(lái)生成更多的事實(shí)響應(yīng)。Facebook研究團(tuán)隊(duì)將互聯(lián)網(wǎng)搜索作為一個(gè)模塊獲取實(shí)時(shí)的外部知識(shí),提出了一種基于模塊化搜索和生成的大語(yǔ)言模型外部知識(shí)獲取方法,[18]將單個(gè)語(yǔ)言模型連續(xù)應(yīng)用于三個(gè)模塊化任務(wù):搜索、生成知識(shí)和生成最終響應(yīng),如圖8所示,系統(tǒng)根據(jù)用戶輸入生成顯式的查詢語(yǔ)句并在互聯(lián)網(wǎng)上找到相應(yīng)知識(shí),依據(jù)該知識(shí)生成響應(yīng)。實(shí)驗(yàn)表明,論文所提出的方法在真實(shí)性和話題性方面優(yōu)于大語(yǔ)言模型 GPT2和 GPT3,適用于主題提示補(bǔ)全應(yīng)用。
大型語(yǔ)言模型將促使知識(shí)工程范式發(fā)生極大改變,甚至有學(xué)者將以ChatGPT為代表的生成智能(Generative AI)理解為人類最新的知識(shí)新媒介,[19]它不僅生成新的知識(shí),更重要的是,人類的獲知與求知模式(mode of knowing)本身因其發(fā)生重大改變。論文提出的主要觀點(diǎn)包括:1、知識(shí)生產(chǎn):從前臺(tái)的“發(fā)現(xiàn)”或然率到后臺(tái)的“生產(chǎn)”或然率,互聯(lián)網(wǎng)“或然率資料庫(kù)”主要表現(xiàn)為前臺(tái)“發(fā)現(xiàn)”的或然率,例如通過(guò)搜索引擎或推薦算法獲得知識(shí)發(fā)現(xiàn)的不同概率;以ChatGPT為代表的生成智能則將“發(fā)現(xiàn)”的或然率隱藏于后臺(tái),其“生產(chǎn)”的或然率更為隱蔽,也更容易被忽略;2、知識(shí)調(diào)用:首次嵌入日常生活的大規(guī)模自然語(yǔ)言交互,ChatGPT與以往的“本質(zhì)性資料庫(kù)”和互聯(lián)網(wǎng)“或然率資料庫(kù)”均不同,它首次以嵌入日常生活的大規(guī)模自然語(yǔ)言交互,創(chuàng)造了人類知識(shí)調(diào)用和提取的新模式;3、知識(shí)流通:從個(gè)體知識(shí)到公共知識(shí),首先ChatGPT通過(guò)“或然率資料庫(kù)”的生產(chǎn)重構(gòu)知識(shí)流通與擴(kuò)散邏輯,其次ChatGPT已經(jīng)展現(xiàn)出從個(gè)人知識(shí)向公共知識(shí)傳播演化的過(guò)程。
提問(wèn)與指令對(duì)于知識(shí)調(diào)用至關(guān)重要,成為“生成智能時(shí)代”人類需要的新能力。ChatGPT高度依賴用戶準(zhǔn)確、深入、持續(xù)、交互地提出具體需求,這恰是源于ChatGPT作為新型“或然率資料庫(kù)”的統(tǒng)計(jì)語(yǔ)言模型特征,微妙的提問(wèn)與指令變化就會(huì)帶來(lái)迥異的回答。因此,在ChatGPT的知識(shí)調(diào)用過(guò)程中,“Prompt”(提示指令)的寫(xiě)作成為一種新的核心能力,如何提問(wèn)、如何提出任務(wù)本身成為一種新的重要知識(shí)。“提示工程師”也可能成為新的職業(yè)。從這個(gè)意義上說(shuō),ChatGPT既是人類知識(shí)調(diào)用的一次簡(jiǎn)化回歸,又帶來(lái)新的挑戰(zhàn)和要求,因此可能造成新的“知識(shí)溝”——“知識(shí)調(diào)用溝”。
ChatGPT對(duì)以知識(shí)圖譜為代表的知識(shí)工程范式的沖擊,實(shí)質(zhì)是數(shù)據(jù)驅(qū)動(dòng)范式對(duì)專家主導(dǎo)范式的沖擊。當(dāng)下,大型語(yǔ)言模型與知識(shí)圖譜的結(jié)合,通用知識(shí)與行業(yè)知識(shí)的結(jié)合是備受關(guān)注的研究熱點(diǎn)。按照ChatGPT的預(yù)測(cè),約25年后就會(huì)產(chǎn)生統(tǒng)一的知識(shí)標(biāo)示框架,語(yǔ)言是知識(shí)的載體,在構(gòu)建人類知識(shí)框架這一遠(yuǎn)大目標(biāo)上語(yǔ)言研究可以大有作為。
四、結(jié)語(yǔ)
以ChatGPT為代表的大型語(yǔ)言模型已經(jīng)到來(lái)并不可避免地帶來(lái)巨大的機(jī)遇與挑戰(zhàn),語(yǔ)言學(xué)研究理應(yīng)抓住機(jī)遇,對(duì)挑戰(zhàn)做出回應(yīng)。在提高大型語(yǔ)言模型的語(yǔ)言理解和推理能力方面,可以通過(guò)構(gòu)造恰當(dāng)?shù)奶崾緦W(xué)習(xí)和思維鏈技術(shù)來(lái)增強(qiáng)大型語(yǔ)言模型的語(yǔ)境理解能力和邏輯推理能力。通過(guò)對(duì)人工神經(jīng)網(wǎng)絡(luò)理解語(yǔ)言的過(guò)程和人腦理解語(yǔ)言的過(guò)程進(jìn)行類比研究,可以對(duì)神經(jīng)元的行為進(jìn)行語(yǔ)義解釋,從而增強(qiáng)大型語(yǔ)言模型的可解釋性。尤其重要的是大型語(yǔ)言模型預(yù)示著新的知識(shí)工程范式,在知識(shí)融合和知識(shí)框架構(gòu)建上,語(yǔ)言學(xué)理應(yīng)做出自己的貢獻(xiàn)。
參考文獻(xiàn):
[1] Schulman J,Zoph B,Kim C,et al.ChatGPT:Optimizing Language Models for Dialogue[EB].https://openai.com/blog/chatgpt.
[2] Wei J,Tay Y,Bommasani R,et al.Emergent Abilities of Large Language Models[EB].Published in Transactions on Machine Learning Research,08/2022,https://arxiv.org/abs/2206.07682.
[3] Zhou J,Ke P,Qiu X,et al.ChatGPT:Potential,Prospects,and Limitations[EB].Front Inform Technol Electron Eng.https://doi.org/10.1631/FITEE.2300089.
[4] Hu K,(2023).ChatGPT Sets Record for Fastest-growing User Base-analyst Note[EB].https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note,2023-02-01.
[5] Chomsky N,Roberts I & Watumull J.The False Promise of ChatGPT[EB].https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html,March 8,2023.
[6] 機(jī)器之心.終于喬姆斯基出手了:追捧ChatGPT是浪費(fèi)資源[EB].https://baijiahao.baidu.com/s?id=1759963 403251109370&wfr=spider&for=pc,2023-03-11.
[7] 馮志偉,張燈柯,饒高琦.從圖靈測(cè)試到ChatGPT——人機(jī)對(duì)話的里程碑及啟示[J].語(yǔ)言戰(zhàn)略研究,2023,(2).
[8] Cai Z G,Haslett D A,Duan X,Shuqi W & Pickering M J.Does ChatGPT Resemble Humans in Language Use? PsyArXive [Preprint] [EB].https://psyarxiv.com/s49qv/.
[9] Tan Y,Min D,Li Y,Li W,Hu N,Chen Y & Qi G.Evaluation of ChatGPT as aquestion answering system for answering complex questions[J].ArXiv,abs/2303.07992.
[10] Birhane A,Kasirzadeh A,Leslie D,et al.Science in the Age of Large Language Models[EB].Nat Rev Phys 5,277-280.https://doi.org/10.1038/s42254-023-00581-4.
[11] Zhang Yu, et al. Asurvey on Neural Network Interpretability[EB].IEEE Transactions on Emerging Topics in Computational Intelligence 5 (2020):726-742.
[12] Bills et al.Language Models can Explain Neurons in Language Models[EB].https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html.
[13] Anthropic.Transformer通路項(xiàng)目[EB].https://transformer-circuits.pub/,2023.
[14] Chen M,Papangelis A,Tao C,Kim S,Rosenbaum A,Liu Y,Yu Z & Hakkani-Tür D Z.PLACES:Prompting language models for social conversation synthesis[EB].ArXiv,abs/2302.03269.
[15] Kim H,Yu Y,Jiang L,Lu X,Khashabi D,Kim G,Choi Y & Sap M.Prosocial Dialog:A Prosocial Backbone for Conversational Agents[EB].Conference on Empirical Methods in Natural Language Processing.
[16] Zhou P,Gopalakrishnan K,Hedayatnia B,et al.Think before you speak:Using self-talk to generate implicit commonsense knowledge for response generation[J].2021.DOI:10.48550/arXiv.2110.08501.
[17] Tuan M.Lai,GiuseppeCastellucci,Saar Kuzi,Heng Ji and Oleg Rokhlenko.External Knowledge Acquisition for End-to-end Document-oriented Dialogue Systems,Proc[EB].The 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL2023).
[18] Shuster K,Komeili M,Adolphs L,et al.Language models that seek for knowledge:Modular search & generation for dialogue and prompt completion[J].2022.DOI:10.48550/arXiv.2203.13224.
[19] 周葆華.或然率資料庫(kù):作為知識(shí)新媒介的生成智能ChatGPT[J].現(xiàn)代出版,2023,(2):21-32.DOI:10.3969/j.issn.2095-0330.2023.02.003.
Opportunities and Challenges Brought by ChatGPT from the Linguistic Perspective
Abstract:The Chat Generative Pre-trained Transformer (ChatGPT) model has attracted widespread attention from both industry and academia due to its excellent dialogue ability. It has become the fastest-growing consumer application in history, attracting 100 million registered users within two months of its release, driving a wave of industrial investment in artificial intelligence sectors such as data, algorithms, computing power, and applications. Based on the linguistic perspective, this article explores the opportunities and challenges that ChatGPT brings, focusing on three core issues: whether ChatGPT already possesses language comprehension and reasoning abilities, whether it can improve the interpretability of large language models, and whether it can predict new directions in knowledge engineering.
Key words:?ChatGPT; large language model; knowledge engineering; artificial intelligence