摘 要 文章以ChatGPT為例,借助問卷考察了大語言模型在漢語辭書詞條自動編纂中的表現(xiàn)。研究選取40個詞目作為樣本,充分考慮詞性、詞長、義項數(shù)的多樣性,借助ChatGPT生成釋文,并與《現(xiàn)代漢語詞典》第7版進行對比分析。問卷調(diào)查顯示,ChatGPT編纂的詞條中有37.5%獲得了更多受訪者的認可,但整體質(zhì)量距離全面超越傳統(tǒng)辭書仍有差距。ChatGPT在單音字、單一詞性詞語的標注和單義項詞語的釋義方面具有優(yōu)勢,但對多音字、兼類詞、多義詞以及特殊語體詞的詞條編纂效果明顯下降,也暴露出義項遺漏、釋義不準確、舉例模式化等問題??傮w而言,ChatGPT在辭書編纂中展現(xiàn)了生成新義、快速編纂等優(yōu)勢,但嚴謹性、系統(tǒng)性不足,難以獨立完成編纂任務。大語言模型正在不斷升級中,未來宜持續(xù)關(guān)注并將其用作辭書編纂的輔助工具,通過人機互助提高辭書編纂速度,提升辭書編纂質(zhì)量,推動漢語辭書智能化發(fā)展。
關(guān)鍵詞 辭書 詞條 自動編纂 大語言模型 ChatGPT
一、 引 言
詞條又稱條目,是詞典的基本查檢單位,一般包括詞目、注音、釋義、例證、語用說明和各種掛尾信息。詞條釋文的編纂是辭書編纂最重要、最費時、最耗精力的工作。自動編纂詞條釋文可以大幅提高辭書編纂效率,對辭書的現(xiàn)代化編纂具有重要意義。
詞條自動編纂的方法包括基于規(guī)則的方法(魏雪,袁毓林 2014)和基于深度學習的方法(Noraset et al. 2017;Gadetsky et al. 2018;Kong et al. 2022;范齊楠等 2021)等。近年來,生成式大語言模型的發(fā)展為詞條自動編纂提供了新方法和新契機,其中具有代表性的是OpenAI公司于2022年11月發(fā)布的智能聊天機器人程序ChatGPT。ChatGPT使用超大規(guī)模語料訓練,集成了指令學習、基于人類反饋的強化學習等一系列創(chuàng)新技術(shù),能夠使用自然語言與用戶對話,理解、執(zhí)行用戶的請求。ChatGPT最初由GPT-3.5系列模型支持,其后更新的GPT-4模型性能進一步提升,在常識推理、代碼生成、閱讀理解、多學科測驗等任務中表現(xiàn)優(yōu)異,超越了現(xiàn)有其他模型(OpenAI et al. 2023)。Cai等(2023)讓ChatGPT作為被試,進行了包括語音、詞匯、語法、語義、語篇、對話等在內(nèi)的12項經(jīng)典的心理語言學實驗,發(fā)現(xiàn)ChatGPT能夠復制人類的語言行為模式,在10項實驗中達到了接近人類的水平。
隨著ChatGPT的流行,辭書編輯開始利用大語言模型輔助辭書編纂,學習者也開始利用大語言模型查詢詞語的含義與用法。這方面的研究主要集中于英語領(lǐng)域。Phoodai和R0ebd24df93cd6d80555e0d55b3e234a8ikk(2023)選取50個高頻英語詞,從微觀層面對比分析ChatGPT和《牛津高階學習詞典》(Oxford Advanced Learner’s Dictionary)的詞條,發(fā)現(xiàn)ChatGPT在為英語學習者提供詞匯數(shù)據(jù)項方面整體優(yōu)于后者(平均分高11%),而在提供上下文信息和互動能力方面存在不足。Lew(2023)邀請4位專家評估ChatGPT(GPT-3.5)生成的
15個詞條,與柯林斯在線詞典(Collins COBUILD Advanced Online)[1]進行比較,結(jié)果表明ChatGPT生成的釋義可與后者相媲美,但生成的例句和整體詞條獲得的評分較低。Rees和Lew(2024)面向二語學習者進行詞匯閱讀理解測試,分別提供ChatGPT(GPT-3.5)和麥克米倫在線詞典(Macmillan English Dictionary Online)[2]的詞條,發(fā)現(xiàn)ChatGPT和麥克米倫在線詞典均能讓學生的表現(xiàn)更優(yōu),但前者對成績的提升不顯著,后者較顯著。ChatGPT在非英語詞條編纂領(lǐng)域的調(diào)研較少,有代表性的是Tran等(2023)的研究,他們針對斯洛文尼亞語進行釋義提取測評,發(fā)現(xiàn)釋義結(jié)構(gòu)明確、數(shù)據(jù)量較少時,基于規(guī)則的方法效果更好,釋義結(jié)構(gòu)寬泛、數(shù)據(jù)量較大時,Transformer和ChatGPT(GPT-3.5)一類大語言模型的效果更好,其中Transformer的精確率更高,ChatGPT的召回率更高。
本研究面向漢語語文辭書讀者,以ChatGPT(GPT-4)作為大語言模型的典型代表,通過問卷形式調(diào)查大語言模型自動編纂詞條的認可度,分析大語言模型自動編纂的質(zhì)量與特點,探討大語言模型為詞條自動編纂帶來的機遇與挑戰(zhàn)。
二、 研 究 方 法
(一) 調(diào)查對象
1. 詞目選擇
《現(xiàn)代漢語詞典》是一部久享盛譽的規(guī)范型詞典。本研究從《現(xiàn)代漢語詞典》第7版(以下簡稱《現(xiàn)漢》)中選取40個調(diào)查詞目,選取時充分考慮詞性、詞長、義項數(shù)、特殊用法的多樣性,用盡可能少的詞目覆蓋盡可能多的調(diào)查項目。40個詞目為:哎、彼、不、城、均、了、梅、人、些、咬、包袱、并且、除了、吹填、催淚、第一、短線、感冒、干凈、紅線、呼啦、回信、剪影、進行、克隆、暌違、龍頭、矛盾、美工、逆天、熱絡、信箱、應該、著調(diào)、左右、兜底翻、互聯(lián)網(wǎng)+、花花搭搭、鐵帽子王、阿爾茨海默病。
下面介紹40個詞目的涵蓋范圍。在詞性方面,涉及《現(xiàn)漢》標注的所有12個大類,包含實詞35個、虛詞5個。單類詞(單一詞性的詞)和兼類詞的比例為4∶1,單類詞以名詞、動詞和形容詞為主,分別占比27.5%、17.5%、12.5%;在詞長方面,二字詞最多(25個),單字詞其次(10個),3字及以上的詞目最少(5個);在詞義數(shù)方面,義項數(shù)平均值為2.9,最小值為1,最大值為9,以雙義詞、三義詞和單義詞為主,分別為17、7、6個;在語體和語域方面,包含科技詞10個,口語詞、方言詞和文言詞共8個,其余為普通語文詞;在新詞新義方面,包含《現(xiàn)漢》新增詞目或新增義項9個,占比22.5%。
2. 自動編纂的詞條
本研究借助ChatGPT(GPT-4)實現(xiàn)詞條自動編纂,具體步驟為:(1) 打開ChatGPT網(wǎng)頁版人機對話窗口,輸入提示詞,約定自動編纂要求的同時引導ChatGPT在后續(xù)對話中直接根據(jù)詞目生成釋文;(2) 輸入一個詞目,獲取ChatGPT自動編纂的釋文;(3) 重復步驟(2),直至獲取所有詞目的釋文。
提示詞除了明確ChatGPT需要完成的具體任務外,還對釋義要求進行了詳細的約定,包括釋義的體例和風格要與《現(xiàn)漢》保持一致等。提示詞的撰寫參考了《現(xiàn)漢》凡例,但實驗表明將整個凡例提交給ChatGPT并不能獲得更好的結(jié)果。經(jīng)過對提示詞進行多輪調(diào)整和優(yōu)化,最終選擇的提示詞如下[3]:
請你充當一個專業(yè)的漢語辭書編輯,按照中型現(xiàn)代漢語辭書的標準,為輸入詞目編纂權(quán)威、正確、規(guī)范的釋義。嚴格按照以下格式:
圓括號中的內(nèi)容為可選項,根據(jù)詞條實際情況選擇;讀作輕聲時注音不標調(diào)號,只在拼音前加·;詞性標記使用簡稱,包括{名}{動}{形}{副}{量}{數(shù)}{代}{介}{連}{助}{嘆}{擬聲}十二類;劃分出的義項盡可能全面涵蓋詞目意義和用法;同一類型詞目應在釋義模式和語言風格上保持一致;舉例應簡潔明了、典型,其中詞目用~代替;詞目屬于外來音譯詞時,在釋義最后附注外文原文,如:“伏特加”……[俄водка]。三類典型的詞目釋義方式如下:
1. 單義詞
“詞目” 拼音{詞性} 釋義(:舉例1 |舉例2 |舉例3……)。
2. 多義詞且所有詞性相同
“詞目”拼音{詞性}①釋義(:舉例1 |舉例2 |舉例3……)。②釋義(:舉例1 |舉例2 |舉例3……)。③……。
3. 兼類詞
“詞目”拼音①{詞性}釋義(:舉例1 |舉例2 |舉例3……)。②{詞性}釋義(:舉例1 |舉例2 |舉例3……)。③……。
以“熱絡”和“彼”為例,ChatGPT自動生成并經(jīng)后處理[4]的詞條見下:
熱絡 rèluò ①形容感情親密,交往頻繁:他們之間的關(guān)系很~|~的氣氛。②指活動或場合氣氛熱烈,人際交往頻繁:聚會十分~|市場~。(ChatGPT)
彼 bǐ ①指遠離說話人和聽話人的人或事物:~岸|~處。②用于指代前文已提到的人或事物:~時|~人。③古代文言文中,常用作男子的美稱:~生|~君。(ChatGPT)
“熱絡”和“彼”在《現(xiàn)漢》中的釋文見下:
熱絡 rèluò ①親熱:兩人關(guān)系~。②熱烈:氣氛~。③頻繁:兩國領(lǐng)導人往來~。(《現(xiàn)漢》)
彼 bǐ ①指示代詞。那;那個(跟“此”相對):~時|此起~伏|由此及~。②人稱代詞。對方;他:知己知~|~退我進。(《現(xiàn)漢》)
瀏覽ChatGPT自動編纂的詞條可以發(fā)現(xiàn),ChatGPT自動編纂結(jié)果符合預先設計的體例要求,具有較高可讀性。但是,對于同一個詞目,ChatGPT自動編纂的釋文和《現(xiàn)漢》中的釋文存在比較明顯的差異。
(二) 調(diào)查工具
調(diào)查采用問卷形式,借助問卷星的微信小程序發(fā)放和回收問卷。研究為每個詞目設置1個問題,包含兩個候選項,即同一詞目對應的《現(xiàn)漢》詞條和ChatGPT自動編纂的詞條,選項之間隨機排列,不提示釋義來源。問卷導語對作答標準進行了說明:“請參照中型通用現(xiàn)代漢語辭書的標準,從兩個選項中選擇你認為更合理、質(zhì)量更高的詞條:釋義無錯誤,義項劃分更合理,釋義更清晰,舉例更恰當,更能滿足實際查詢需求,等等?!?/p>
除上述問題外,問卷還收集了受訪者年齡、身份、受教育程度、學科、辭書使用頻次等5項背景信息。
三、 結(jié)果與討論
(一) 受訪者情況
調(diào)查共回收202份有效問卷,平均填寫時長為10分鐘。所有受訪者均為漢語母語者,平均年齡為23歲。學生群體占比最大(93.07%),學生家長和教師占比較小(6.93%)。受訪人群的受教育程度以本科(64.36%)和碩士(32.67%)為主,詳見圖1。受訪群體來自多元學科,以文學專業(yè)(28.71%)和教育學專業(yè)(16.83%)為主,詳見圖2。受訪者辭書使用頻率多為偶爾使用(37.13%),有時使用(34.16%)和經(jīng)常使用(15.35%)次之,詳見圖3??傮w來說,本次受訪對象主要為接受過高等教育、有一定辭書使用需求和習慣的年輕學生群體,具備對詞條優(yōu)劣進行準確判斷的能力。
(二) 大語言模型詞條自動編纂整體表現(xiàn)
1. 詞條自動編纂的整體表現(xiàn)
為評估ChatGPT在詞條自動編纂上的整體表現(xiàn),本研究選擇每個問題中支持ChatGPT編纂詞條的受訪者比例,作為該詞目在自動編纂任務上的得分。全部詞目自動編纂的平均得分為0.548,中位數(shù)為0.579,標準差為0.199。40個詞目中有15個得分大于0.5,占比37.5%,說明ChatGPT編纂的詞條中有37.5%被更多的受訪者判定為優(yōu)于
《現(xiàn)漢》。為進一步分析ChatGPT自動編纂的整體效果,本文將0.0至1.0的得分區(qū)間劃分為5個,每個區(qū)間的寬度為0.2。各區(qū)間的詞條數(shù)量及其占比如表1所示:
表1顯示,最低得分區(qū)間(0.0—0.2)的詞條數(shù)量為0,表明所有由ChatGPT編纂的詞條中,沒有一條被超過80%的受訪者認為比《現(xiàn)漢》差。換言之,每個ChatGPT編纂的詞條至少有20%的人認為其質(zhì)量更好。在得分最高的區(qū)間(0.8—1.0)內(nèi),只有5個詞條,僅占總數(shù)的12.5%。這表明,被超過80%的受訪者認為優(yōu)于《現(xiàn)漢》的ChatGPT編纂詞條數(shù)量較少。ChatGPT自動編纂呈現(xiàn)出平均分越高、詞條數(shù)量越少的趨勢,意味著大部分ChatGPT自動編纂的詞條質(zhì)量尚未達到很高的水平,明顯優(yōu)于傳統(tǒng)詞典釋義的詞條數(shù)量相對較少。總的來說,盡管所有ChatGPT編纂的詞條都有一定的支持者,但其整體質(zhì)量距離全面超越傳統(tǒng)詞典還有一定差距,特別優(yōu)秀的詞條只占少數(shù)。ChatGPT在詞條編纂領(lǐng)域展現(xiàn)出了一定的潛力,但要達到更高的水平仍需進一步提升。
2. 不同類型詞條自動編纂的整體表現(xiàn)
為進一步探究ChatGPT自動編纂釋文在不同詞語類型上的表現(xiàn)差異,本研究按照詞性、兼類性質(zhì)、詞長、義項數(shù)、語體標記和學科6個維度,分類統(tǒng)計詞條平均分,結(jié)果如表2所示:
表2顯示,在詞性方面,實詞平均分為0.565,高于虛詞的0.428,表明ChatGPT在實詞釋義上的表現(xiàn)優(yōu)于虛詞。這可能是由于實詞承載了詞語的主要意義信息,而虛詞更多表達語法功能,前者更容易通過大規(guī)模語料學習并生成相關(guān)解釋。在兼類性質(zhì)方面,單類詞平均分為0.573,高于兼類詞的0.449,表明詞性越單一,生成的釋文越容易被認可。對于兼類詞而言,由于其在不同語境下展現(xiàn)出不同語法功能,增加了自動編纂的難度。在詞長方面,二字詞的平均分最高,為0.574,多字詞平均分為0.522,單字詞的平均分最低,為0.495?,F(xiàn)代漢語中二字詞分布最普遍,ChatGPT為這類詞語自動編纂的釋文能夠獲得一定的認可度,而單字詞中一部分兼做語素,功能和用法更加多樣,自動編纂的釋文認可度有所下降。在義項數(shù)量方面,單義項的詞平均分最高,為0.683,義項數(shù)大于3的詞平均分最低,為0.433。義項數(shù)越多的詞語,相對而言語義越豐富,用法越復雜,ChatGPT釋文不全面、不準確的概率也隨之增加。相反,對于單一義項的詞語,ChatGPT的釋文能夠獲得更多的認可。在語體方面,口語詞、方言詞、文言詞的平均分僅為0.478,低于一般詞語的0.565??梢姰斍癈hatGPT對口語詞、方言詞、文言詞等語體詞語的自動編纂能力還有待提升。在學科領(lǐng)域方面,科技詞條的平均分達到了0.601,優(yōu)于其他詞語的0.53,表明ChatGPT在科技術(shù)語的自動編纂上具有一定優(yōu)勢,這可能得益于訓練語料中包含了大量的科技文本,使其能夠較好地掌握科技術(shù)語的概念。
(三) 大語言模型詞條自動編纂的細節(jié)表現(xiàn)
本研究中,詞條由讀音、詞性、一個或多個義項、掛尾信息等組成,每個義項又包含釋義和例句等信息。問卷調(diào)查結(jié)果僅反映受訪者對詞條整體質(zhì)量的評判,缺乏對詞條組成部分的細致考察。為了更全面地評估,本研究對詞條各組成部分進行分析,從更多視角評估大語言模型的自動編纂表現(xiàn)。
1. 注音準確性分析
40個詞目樣本中,ChatGPT對36個詞目的注音完全正確,僅有4個詞目注音錯誤,錯誤率為10%?!爸{(diào)”“鐵帽子王”“花花搭搭”“除了”的讀音分別被錯標為“zhuótiáo”
“tiěmàozǐwáng”“huāhuādādā”“chúle”,標注錯誤集中在多音字或輕聲音節(jié)。然而,ChatGPT具備按提示詞標注輕聲音節(jié)的能力,比如“了”的拼音被準確標注為“·le”。
為更準確評估ChatGPT的注音能力,本研究從《現(xiàn)漢》中另外選取200個詞語作為樣本,其中僅包含單音字的詞和包含多音字的詞各100個。每個詞語從《現(xiàn)漢》中抽取對應的1個例句,由ChatGPT自動標注詞語讀音。不同類型詞語的注音準確率如表3所示:
200個詞語中,ChatGPT的平均注音準確率為93.0%,有14個詞注音錯誤。在讀音方面,僅包含單音字的詞語注音錯誤數(shù)量為3,平均準確率為97.0%;包含多音字的詞語注音錯誤數(shù)量為11,平均準確率為89.0%。根據(jù)聲調(diào)、詞長、語體標記等特征進一步細分時,包含多音字的詞的準確率均低于前者,說明ChatGPT為單音字注音時準確率較高,為多音字注音時更容易出錯,其中當標注對象同時包含多音字和輕聲字時,注音準確率最低,僅為70.0%。在聲調(diào)方面,對于不含輕聲的詞語,ChatGPT的注音準確率為96.3%;對于輕聲詞,ChatGPT的注音準確率降至80.0%,比如例句“紅霞映山崖呃!”中,“呃”讀為“·e”,ChatGPT標注為“è”。可見ChatGPT在輕聲字的標注上仍有較大的提升空間。在詞長方面,單字詞的注音準確率為97.6%,二字詞和多字詞的注音準確率為89.6%,說明詞長增加時,ChatGPT標注錯誤的概率增大。在語體標記方面,一般詞語的注音準確率為95.3%,口語詞、方言詞、文言詞等特殊語體詞語的注音準確率為86.0%,比如例句“累累若喪家之狗”中,“累累”為書面詞,讀為“l(fā)éiléi”,ChatGPT標注為“l(fā)ěilěi”。根據(jù)抽樣結(jié)果,ChatGPT對多音字、輕聲字、多字詞、口語詞、方言詞、文言詞等特殊類型字詞的注音準確率均低于90.0%,更依賴人工檢查和修正。
2. 詞性標注準確性分析
ChatGPT為40個詞目生成了102個義項,其中32個詞目的詞性標注完全準確,占全部詞目數(shù)的80%;87個義項的詞性標注準確,占全部義項數(shù)的85.3%。ChatGPT識別為多義詞的35個詞目中,27個詞目的同性標注完全正確,占比為77.1%。詞性標注錯誤的詞語均為多義詞,其中4個多義詞的所有詞性均標注錯誤,4個多義詞的詞性同時包含正確標注和錯誤標注。由此可見,ChatGPT對單義詞的詞性標注較為準確,標注多義詞的詞性時,性能更加不穩(wěn)定,可能出現(xiàn)標注錯誤。ChatGPT詞性標注錯誤詳情如表4所示:
詞性標注屬于自然語言處理領(lǐng)域的基礎任務,目前中文詞性標注已經(jīng)達到了較高精度。以通用的PFR《人民日報》標注語料庫為例,袁里馳(2023)的方法在該數(shù)據(jù)集上的詞性標注精確率和召回率分別為97.67%、97.48%。相比單純對給定文本進行詞性標注,詞條釋文生成與詞性標注相結(jié)合的任務難度更大。本研究中,ChatGPT的義項詞性標注精確率和召回率分別為85.3%和75.0%,標注錯誤的概率較高。一種錯誤情形是對于單一詞類的多義詞,ChatGPT將詞目所有義項或部分義項的詞性標注錯誤,比如“應該”屬于動詞中的助動詞小類,ChatGPT將所有義項統(tǒng)一標注為助詞;“除了”只有介詞詞性,ChatGPT生成了兩個義項,詞性分別標注為介詞、連詞。另一種錯誤情形是對于兼類詞,ChatGPT將部分義項的詞性標注錯誤,比如“催淚”涉及動詞和形容詞詞性,ChatGPT生成了兩個義項,都標注為形容詞。
3. 義項劃分合理性分析
義項劃分指將多義詞的不同詞義按照一定標準加以區(qū)分和排列。合理的義項劃分有助于準確表達詞目含義、揭示詞義關(guān)聯(lián)、提高詞條可讀性。然而,編纂目的不同,辭書讀者群體不同,義項劃分標準也不盡相同。辭書編纂人員在進行義項劃分時同樣面臨諸多挑戰(zhàn),不同編纂人員的詞義劃分結(jié)果也可能存在差異。因此,義項劃分準確性的評判往往具有一定的主觀性。本文僅以《現(xiàn)漢》的義項劃分作為參照,評估模型義項劃分的合理性。
從義項數(shù)量上看,《現(xiàn)漢》對本次調(diào)查的40個詞目劃分的義項數(shù)最小為1個,最大為9個,平均義項數(shù)為2.9個。ChatGPT對40個詞目劃分的義項數(shù)最小為1個,最大為5個,平均義項數(shù)為2.55個。這一結(jié)果表明,與參照辭書相比,ChatGPT生成的詞條在義項數(shù)量上總體較為精簡。
從義項內(nèi)容上看,ChatGPT能生成《現(xiàn)漢》未收錄的義項,讓部分詞條得到受訪者更高的認可度。然而,ChatGPT在義項劃分方面也存在一些不足,主要表現(xiàn)為常用義劃分粒度過細,罕用義存在遺漏。以“紅線”“哎”“進行”“人”和“感冒”為例,ChatGPT生成的詞條和《現(xiàn)漢》詞條見下:
紅線 hóngxiàn ①用紅色染料染成的線:~布。②比喻不可逾越的界限或原則:這是一個政策的~|~問題不容觸犯。③中國民間傳說中的一種象征性物品,常用以表示天注定的緣分,特別是婚姻:相傳月老用~將有緣人連在一起。④在地圖或圖表上用紅色線條標示的線,常用以表示特定的數(shù)據(jù)或趨勢:地圖上的~表示鐵路線路|銷售額的~持續(xù)上升。
(ChatGPT)
哎 āi ①表示驚訝、感嘆或召喚時的發(fā)聲:~,你看那邊!|~,小張,過來一下。②表示悲傷、嘆息或無奈時的發(fā)聲:~,怎么會這樣?|~,真是沒辦法。③用于語句開頭,引起對方注意,沒有實際意義:~,我告訴你一個好消息|~,這件事情是這樣的。(ChatGPT)
進行 jìnxíng ①表示開始并繼續(xù)做某事:~調(diào)查|項目~中。②指沿著一定路線前進:隊伍~了三公里|~式游行。③進展,發(fā)展:談判~得很順利|工作~得怎么樣?(ChatGPT)
人 rén ①指人類,是地球上智力最高的生物:~類|~口。②指個體,通常指成年的男性或女性:外國~|老~。③指有某種身份或特征的人:學~|好~。④指工作人員或服務人員:服務~員|技術(shù)~才。⑤用于計算人數(shù)的量詞:三個~|一大群~。(ChatGPT)
感冒 gǎnmào ①一種常見的呼吸道感染疾病,通常由病毒引起,癥狀包括發(fā)熱、咳嗽、鼻塞、喉嚨痛等:~癥狀|預防~。②指患上感冒:他~了|小心不要~。(ChatGPT)
《現(xiàn)漢》中的釋義見下:
紅線 hónɡxiàn ①指一以貫之的正確理論或思想:唯物辯證法是貫穿全書的一根~。②指劃定禁區(qū)范圍的界線:守住耕地保護的~|制度~,不容越過。(《現(xiàn)漢》)
哎 āi ①表示驚訝或不滿意:~!真是想不到的事|~!你怎么能這么說呢?、诒硎咎嵝眩骸?,我倒有個辦法,你們大家看行不行?(《現(xiàn)漢》)
進行 jìnxínɡ ①從事(某種活動):~討論|~工作|~教育和批評|會議正在~。
“進行”總是用在持續(xù)性的和正式、嚴肅的行為,短暫性的和日常生活中的行為不用“進行”,例如不說“進行午睡”,“進行叫喊”。②前進:~曲。(《現(xiàn)漢》)
人 rén ①能制造工具并使用工具進行勞動的高等動物:男~|女~|~們|~類。
②每人;一般人:~手一冊|~所共知。③指成年人:長大成~。④指某種身份或職業(yè)的人:工~|軍~|主~|介紹~|電影~|媒體~。⑤別人:~云亦云|待~誠懇。⑥指人的品質(zhì)、性格或名譽:丟~|這個同志~很好|他~老實。⑦指人的身體或意識:這兩天~不大舒服|送到醫(yī)院~已經(jīng)昏迷過去了。⑧指人手、人才:~浮于事|我們這里正缺~。⑨(Rén)姓。(《現(xiàn)漢》)
感冒 ɡǎnmào ①傳染病,病原體是病毒,在身體過度疲勞、著涼、抵抗力降低時容易引起。癥狀是咽喉發(fā)干、鼻塞、咳嗽、打噴嚏、頭痛、發(fā)熱等。②患這種病。||也叫傷風。
③〈口〉感興趣(多用于否定式):他對打牌從來就不~。(《現(xiàn)漢》)
關(guān)于詞條“紅線”,盡管ChatGPT生成的義項①價值不大,但義項③和④卻具有一定的參考價值,最終86.1%的受訪者認為ChatGPT生成的詞條更優(yōu)。
關(guān)于詞條“哎”和“進行”,與《現(xiàn)漢》相比,ChatGPT對“哎”的義項劃分更為細致,但義項并不是分得越細越好,過于細分反而容易使詞義不夠清晰,給讀者查找和定位義項帶來困難;ChatGPT為“進行”生成的義項①和③意思相近,《現(xiàn)漢》處理為同一個義項。Jakubí?ek和Rundell(2023)提到了類似的現(xiàn)象,即ChatGPT傾向于用不同的方式解釋同一個意義,這可能導致模型生成的詞條中出現(xiàn)信息冗余,需要人工進行甄別和修改。
關(guān)于詞條“人”和“感冒”,“人”屬于基本詞,用法較多,ChatGPT只生成了“人”的一些常用義項,而沒有生成《現(xiàn)漢》中⑥—⑨對應的義項,這些義項與漢語特定的文化背景和表達習慣密切相關(guān),反映了“人”用法的多樣性和靈活性;ChatGPT生成了“感冒”在醫(yī)學領(lǐng)域的義項,但未生成“感冒”在口語中的用法??梢姡幚砭哂刑厥庹Z體色彩的詞語時,ChatGPT的表現(xiàn)不夠理想,容易遺漏一些非常用義或“地道”的表達方式。
綜上所述,ChatGPT在義項劃分上展現(xiàn)出了一定的創(chuàng)新性,能夠從新穎的角度提供具有啟發(fā)性的義項,是其優(yōu)勢所在。與此同時,ChatGPT在常用義和罕用義的處理上還存在一些不足,如義項劃分顆粒度把握不當、對部分義項的遺漏等。這些問題的存在凸顯了人機協(xié)作的必要性,即由專業(yè)編纂人員對機編義項進行審核和調(diào)整,在提高編纂效率的同時,為用戶呈現(xiàn)更加準確、全面且富有特色的義項劃分。
4. 釋義準確性分析
釋義是對詞義的解釋,是詞條最核心的組成部分,直接影響著用戶對詞目的理解和使用。詞條釋義應該準確、簡明、規(guī)范,清楚地闡釋詞語的意義、用法和語法特點等信息。ChatGPT熟練掌握了“指”“形容”“比喻”“表達”等辭書釋義用詞,生成的釋義語言簡潔、通俗易懂,沒有明顯的語法錯誤,例如“回信”和“逆天”:
回信 huíxìn ①對收到的信件作出的答復:收到一封~|期待你的~。②對收到的信件進行回復:請盡快~。
逆天 nìtiān 網(wǎng)絡流行語,原指違背自然法則或常理,后泛指某人或某事物的能力、表現(xiàn)遠超常人或常規(guī),達到了令人難以置信的程度:他的記憶力簡直~|這款游戲的難度~。
然而,ChatGPT生成的釋義也存在一些問題,主要包括以下兩種情況:
(1) 完全虛構(gòu)釋義?;糜X現(xiàn)象是大語言模型普遍存在的問題,ChatGPT生成的釋義可能與事實不符。虛構(gòu)的釋義缺乏真實性和可靠性,容易誤導讀者。例如,“兜底翻”的ChatGPT釋義和《現(xiàn)漢》釋義如下:
兜底翻 dōudǐfān ①指在體操、雜技或其他運動中,以雙腳為軸心進行的一種翻轉(zhuǎn)動作,身體形成一個圓弧:完成一次~|~訓練。②泛指在其他領(lǐng)域中進行的類似翻轉(zhuǎn)、翻身的行動或變化:事業(yè)上的~|策略上的~。(ChatGPT)
兜底翻 dōudǐfān ①比喻把底細全部揭露出來:對這起事故的原因要~,徹底查,決不姑息。②比喻徹底換掉:工作要有連續(xù)性,不要換一屆領(lǐng)導就~。(《現(xiàn)漢》)
“兜底翻”原指為尋找某物將所有東西都翻出來,常用來借指徹底推翻原有的計劃、方案,《現(xiàn)漢》收錄了該詞的兩個比喻義。ChatGPT將“兜底翻”解釋為一種運動動作,不符合實際。
(2) 釋義不準確。有時ChatGPT僅給出詞目中個別語素的含義,以偏概全。例如,ChatGPT為“左右”生成的釋義如下:
左右 zuǒyòu ①表示方位,與“右”相對:他站在我~|~手?!–hatGPT)
義項①的釋義實際是“左”的含義,ChatGPT生成時忽略了“右”,使用“左”來代表“左右”,未能準確表達“左右”作為方位詞的意義。
有時ChatGPT對詞目概念的描述不夠嚴謹、不夠清晰。例如,ChatGPT為“矛盾”生成的釋義如下:
矛盾 máodùn ①古代兵器,一端是矛,另一端是盾。……(ChatGPT)
義項①前半部分“古代兵器”符合“矛盾”的性質(zhì),但進一步的描述存在問題,“一端是矛,另一端是盾”容易讓讀者誤以為“矛”和“盾”是同一兵器的兩個部分,但實際上“矛”和“盾”是兩種兵器。
5. 舉例準確性分析
辭書編纂中的舉例按照形式可分為詞例、短語例、句例、句群例等。傳統(tǒng)的舉例編纂方式包括自編、改編和書證,而隨著自然語言處理技術(shù)的發(fā)展,大語言模型已經(jīng)能夠自動生成不同形式的舉例,即機編例子。40個詞目不同形式的舉例的數(shù)量見表5所示:
ChatGPT生成的舉例數(shù)整體上高于《現(xiàn)漢》,以短語例(54.55%)為主,其次是句例(37.88%),詞例數(shù)量較少(7.58%),未生成句群例;《現(xiàn)漢》舉例以短語例(47.49%)和c/ICAlStMK7KjOiSx8G7vSgRnee0iycDKX0rt0qm8vw=句例(40.22%)為主,詞例數(shù)量較少(10.61%),此外包含少量句群例(1.68%)形式。相比于《現(xiàn)漢》,ChatGPT生成詞目的舉例類型更為單一,短語例出現(xiàn)最為頻繁,詞例、句例和句群例的比例均略低于《現(xiàn)漢》。盡管在詞條自動編纂釋文的提示詞中,舉例被描述為可選項,但ChatGPT為所有詞目無一例外地生成了舉例。ChatGPT和《現(xiàn)漢》詞條中各個義項舉例數(shù)量的標準差分別為0.27和1.51,可見ChatGPT舉例數(shù)量整體分布較平均,相比之下,《現(xiàn)漢》對用法多的詞目集中舉例,非必要不舉例,兼顧了典型性和針對性。
《〈現(xiàn)代漢語詞典〉編纂細則》(呂叔湘2004)在總則中論述了辭書舉例的指導思想,“舉例要注意思想內(nèi)容,語言生動活潑,并且多樣化。切忌內(nèi)容庸俗,形式大同小異,語言僵硬單調(diào)”。經(jīng)過檢查,ChatGPT生成的舉例存在虛構(gòu)和重復等問題。比如,ChatGPT為詞目“干凈”“不”“左右”生成了“干凈官”“不勝似敗”“成敗由左右”等例子,漢語中不存在這些用法。舉例重復問題以“著調(diào)”為例:
著調(diào) zhuótiáo ①形容事物調(diào)和,搭配得當:這套家具的顏色很~|裝飾得~。②指言行得體,合乎情理:他做事總是很~|談吐~。③形容人或事物有特色,引人注目:這個設計很~|她的穿搭風格很~。(ChatGPT)
“著調(diào)”三個義項的舉例都反復出現(xiàn)“很~”結(jié)構(gòu),雖然整體能夠體現(xiàn)詞語的語義搭配用法,但句法形式缺乏變化,存在公式化問題,同時內(nèi)容不夠精簡,占用較大篇幅。
綜上所述,ChatGPT雖然能快速生成舉例,但其多樣性、靈活性、針對性有待提高。可以通過優(yōu)化提示詞、提供包含詞目的語料等方式,進一步提升機編例子的質(zhì)量,使其在句法結(jié)構(gòu)和語義表達上更加豐富多樣,更好地滿足辭書舉例實際需求。此外,也可以限定舉例形式和數(shù)量,讓ChatGPT有針對性地生成更多舉例,供辭書編纂人員挑選。
四、 余 論
本文以ChatGPT為例,調(diào)查了大語言模型在漢語辭書詞條自動編纂中的表現(xiàn)。結(jié)果表明,ChatGPT在注音和詞性標注方面展現(xiàn)出較高的準確率,尤其對單音字和單一詞性詞的標注效果更佳。ChatGPT能夠從新穎角度提供具有啟發(fā)性的義項,體現(xiàn)出一定的創(chuàng)新性。在釋義方面,ChatGPT生成的釋文語言簡潔通俗,無明顯語法錯誤。同時,ChatGPT能快速、批量生成舉例,節(jié)省人力。然而,ChatGPT在處理多音字、輕聲字、多義詞、口語詞、方言詞、文言詞等特殊詞語時,注音和詞性標注的準確率有待提高,對義項劃分把握也欠佳,容易遺漏非常用義項。此外,ChatGPT生成的釋義可能出現(xiàn)虛構(gòu)或不準確等情況,包括舉例形式單一、內(nèi)容重復、針對性不足等問題。
ChatGPT等大語言模型為傳統(tǒng)辭書編纂模式帶來了新的啟示。一方面,ChatGPT可作為辭書編纂的輔助工具,通過高效生成詞條初稿,實現(xiàn)人機協(xié)同,節(jié)省編纂時間,提升編纂質(zhì)量。另一方面,針對性優(yōu)化大語言模型在辭書編纂中的應用,如專門訓練或微調(diào)模型、完善釋義機制、豐富舉例形式等,將有助于提高機編辭書的整體水平。此外,充分發(fā)揮大語言模型的技術(shù)優(yōu)勢,積極探索辭書編纂的創(chuàng)新路徑,如拓展義項劃分視角、實現(xiàn)辭書動態(tài)更新、滿足用戶個性化需求等,也是值得關(guān)注的發(fā)展方向。同時,在語料選取、模型架構(gòu)設計、評估體系構(gòu)建等技術(shù)層面進行持續(xù)優(yōu)化,將為大語言模型賦能辭書編纂提供更加堅實的基礎。
隨著人工智能的發(fā)展,大語言模型必將助力漢語辭書向智能化方向發(fā)展,但此間也將面臨諸多挑戰(zhàn)。辭書編纂模式變革、查檢方式創(chuàng)新固然值得期待,但編纂理念更新、知識產(chǎn)權(quán)保護、人才隊伍建設等問題也同樣值得關(guān)注。推動漢語辭書編纂理論和實踐的創(chuàng)新發(fā)展,需要在借鑒大語言模型等前沿技術(shù)的同時,加強傳統(tǒng)編纂理論與人工智能技術(shù)的深度融合,建立健全人機協(xié)同的辭書編纂新范式。只有在堅持傳承與創(chuàng)新并重的基礎上,加強多學科交叉融合,才能更好地推進漢語辭書編纂事業(yè)的智能化發(fā)展,為廣大讀者提供更加優(yōu)質(zhì)、高效、個性化的辭書服務。
本研究的不足主要有:(1) 設計問卷時,考慮到受訪者作答時間因素,將最初的100個詞目降為40個詞目,樣本數(shù)量的減少一定程度上影響了樣本的代表性和結(jié)論的可靠性。(2) 研究主要采用問卷調(diào)查的方式,通過受訪者的主觀判斷來評估ChatGPT編纂詞條的整體質(zhì)量,評估指標較為單一。(3) 文章重點關(guān)注ChatGPT在詞條自動編纂中的表現(xiàn),但缺少與其他自動編纂方法的對比,缺少不同大語言模型之間的對比。(4) 提示詞的編寫有許多策略,本文對這些策略的使用不夠充分。未來可針對上述不足進一步擴展本研究。
附 注
[1] 主頁:https://www.collinsdictionary.com/dictionary/english。
[2] 主頁:https://www.macmillanenglish.com。
[3] ChatGPT使用該提示詞生成GI1ooJzO4umsAqz4J1HmGTorE+8fjuvGwpRKZc+Vq2A=釋義的時間為2024年1月23日。
[4] ChatGPT直接生成的詞條見下:
“熱絡” rèluò {形}①形容感情親密,交往頻繁:他們之間的關(guān)系很~|~的氣氛。②指活動或場合氣氛熱烈,人際交往頻繁:聚會十分~|市場~。(ChatGPT)
“彼” bǐ {代} ①指遠離說話人和聽話人的人或事物:~岸|~處。②用于指代前文已提到的人或事物:~時|~人。③古代文言文中,常用作男子的美稱:~生|~君。(ChatGPT)
為便于同《現(xiàn)漢》詞條對比,我們對ChatGPT生成的詞條進行了后處理:詞目刪除雙引號,詞性外加方框。
[5] 括注內(nèi)的序號表示標注了當前詞性的義項號。
參考文獻
1. 范齊楠,孔存良,楊麟兒,等.基于BERT與柱搜索的中文釋義生成.中文信息學報,2021(11):80-90.
2. 呂叔湘.《現(xiàn)代漢語詞典》編寫細則. //中國社會科學院語言研究所詞典編輯室編.《現(xiàn)代漢語詞典》五十年.北京:商務印書館,2004.
3. 魏雪,袁毓林.基于規(guī)則的漢語名名組合的自動釋義研究.中文信息學報,2014(3):1-10.
4. 袁里馳.基于BiLSTM-CRF的中文分詞和詞性標注聯(lián)合方法.中南大學學報,2023(8):3145-3153.
5. 中國社會科學院語言研究所詞典編輯室編,現(xiàn)代漢語詞典(第7版).北京:商務印書館,2016.
6. Cai Z,Haslett D,Duan X,et al. Do Large Language Models Resemble Humans in Language Use? arXiv preprint arXiv:2303.08014,2023.
7. Gadetsky A,Yakubovskiy I,Vetrov D. Conditional Generators of Words Definitions. //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,2018(2):266-271.
8. Jakubí?ek M,Rundell M. The End of Lexicography? Can ChatGPT Outperform Current Tools for Post-editing Lexicography? //Proceedings of the eLex 2023 Conference,2023:518-533.
9. Kong C,Chen Y,Zhang H,et al. Multitasking Framework for Unsupervised Simple Definition Generation. // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics,2022(1):5934-5943.
10. Lew R. ChatGPT as a COBUILD lexicographer. Humanities and Social Sciences Communications,2023(10):1-10.
11. Noraset T,Liang C,Birnbaum L,et al. Definition Modeling:Learning to Define Word Embeddings in Natural Language. // Proceedings of the AAAI Conference on Artificial Intelligence,2017(31):3259-3266.
12. OpenAI,Achiam J,Adler S,et al. GPT-4 Technical Report. arXiv preprint arXiv:2303.08774,2023.
13. Phoodai C,Rikk R. Exploring the Capabilities of ChatGPT for Lexicographical Purposes:A Comparison with Oxford Advanced Learner’s Dictionary within the Microstructural Framework.
//Proceedings of the eLex 2023 Conference,2023:335-365.
14. Rees G,Lew R. The Effectiveness of OpenAI GPT-Generated Definitions Versus Definitions from an English Learners’ Dictionary in a Lexically Orientated Reading Task. International Journal of Lexicography,2024(1):50-74.
15. Tran H,Podpe?an V,Tomazin M,et al. Definition Extraction for Slovene: Patterns,Transformer Classifiers and ChatGPT. //Proceedings of the eLex 2023 Conference,2023:19-38.
(張永偉 中國社會科學院大學文學院/中國社會科學院辭書編纂研究中心 北京 102488;
劉 婷 中國社會科學院大學文學院 北京 102488)
(責任編輯 郎晶晶)