摘 要 不同的方位義詞語(yǔ)可以用于表達(dá)相同的空間場(chǎng)景。文章考察了漢語(yǔ)空間表達(dá)“異形同義”現(xiàn)象的不同類型,并據(jù)此制作測(cè)試題,作為“異形同義判別”子任務(wù),成為中文空間語(yǔ)義理解能力SpaCE評(píng)測(cè)基準(zhǔn)的一個(gè)組成部分。針對(duì)大語(yǔ)言模型的評(píng)測(cè)結(jié)果顯示,大語(yǔ)言模型在“異形同義判別”任務(wù)上與人類水平尚有較大差距,且機(jī)器在不同試題上的表現(xiàn)特點(diǎn)也與人類表現(xiàn)有所不同。從空間認(rèn)知圖式的角度講,大語(yǔ)言模型基于語(yǔ)符分布學(xué)習(xí)到的人類語(yǔ)言知識(shí),還沒(méi)有轉(zhuǎn)化為類人的空間認(rèn)知圖式理解能力。
關(guān)鍵詞 空間表達(dá) 空間認(rèn)知 異形同義 機(jī)器語(yǔ)言能力評(píng)測(cè) 大語(yǔ)言模型
一、 引 言
語(yǔ)言中有的符號(hào)形式跟意義之間的對(duì)應(yīng)關(guān)系相對(duì)固定,使用時(shí)對(duì)語(yǔ)境的依賴性相對(duì)較小,比如“汽車、學(xué)校、演奏……”;有的符號(hào)形式則需要在使用時(shí)結(jié)合語(yǔ)境才能確定其具體意義。比如表達(dá)物體之間空間方位關(guān)系的詞語(yǔ)“上、下、前、后、上去、下去、這兒、那兒……”。圖1中甲和乙在描述方塊和圓球的位置關(guān)系時(shí),就可能會(huì)出現(xiàn)“異形同義”的情況:甲說(shuō)“圓球K在方塊Q的前面”,乙說(shuō)“圓球K在方塊Q的后面”,兩人說(shuō)的句子形式不同(有一詞之差異),但所描述的空間場(chǎng)景是相同的。[1]“前、后”等用于表達(dá)空間方位關(guān)系的詞語(yǔ),屬于指示語(yǔ)(deixis)范疇,相比于形義對(duì)應(yīng)關(guān)系相對(duì)固定的語(yǔ)言現(xiàn)象,跟指示范疇相關(guān)的形義對(duì)應(yīng)關(guān)系更為復(fù)雜多樣,會(huì)給計(jì)算機(jī)理解文本中的空間信息帶來(lái)更大的挑戰(zhàn)。
以深度學(xué)習(xí)方法訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò),通過(guò)觀察海量文本中語(yǔ)言符號(hào)的分布模式,可以掌握類似于語(yǔ)言學(xué)研究所追求的“形式—意義”對(duì)應(yīng)關(guān)系的知識(shí)。像ChatGPT這樣的大語(yǔ)言模型表現(xiàn)出能與人流暢對(duì)話的能力,正是“意義即(形式)分布”這一抽象語(yǔ)言學(xué)原理的有效驗(yàn)證。不過(guò),符號(hào)的意義是否完全等同于符號(hào)的形式分布呢?再進(jìn)一步,訓(xùn)練語(yǔ)料的數(shù)據(jù)盡管是海量的,畢竟還是有限的。計(jì)算機(jī)在多大程度上,能從有限的語(yǔ)料(形式分布)中學(xué)習(xí)到具有無(wú)限可能的意義呢?
從理論上回答上述問(wèn)題非常困難,信息處理領(lǐng)域的做法就是不斷通過(guò)評(píng)測(cè)機(jī)器的語(yǔ)義理解水平來(lái)探索答案。在以往評(píng)測(cè)計(jì)算機(jī)空間信息處理能力的研究中,比較有代表性的評(píng)測(cè)任務(wù)是空間語(yǔ)義角色標(biāo)注,如面向英語(yǔ)文本的空間語(yǔ)義角色標(biāo)注任務(wù)SpRL(2013,2015),多模態(tài)空間語(yǔ)義角色標(biāo)注任務(wù)mSpRL(2017)等。[2]語(yǔ)義角色標(biāo)注任務(wù)是基于語(yǔ)言學(xué)理論對(duì)文本中的空間信息(包括實(shí)體和空間關(guān)系等)進(jìn)行識(shí)別和分類,要求對(duì)文本進(jìn)行細(xì)粒度結(jié)構(gòu)化的綜合分析,但這類任務(wù)側(cè)重語(yǔ)言學(xué)專業(yè)知識(shí),而不是訴諸普通人的語(yǔ)感。從“形式—意義”對(duì)應(yīng)關(guān)系的角度看,自然語(yǔ)言的空間表達(dá)中有很多現(xiàn)象會(huì)超越符號(hào)通常的形義配對(duì)關(guān)系,呈現(xiàn)出不同程度的復(fù)雜性,對(duì)理解主體的認(rèn)知加工能力提出了更高的要求。從這個(gè)角度考慮,我們嘗試在評(píng)測(cè)任務(wù)設(shè)計(jì)時(shí),實(shí)現(xiàn)從“語(yǔ)言學(xué)”到“語(yǔ)文學(xué)”的擴(kuò)展(或者說(shuō)某種程度的轉(zhuǎn)向):測(cè)試題的考察意圖應(yīng)該更直接體現(xiàn)機(jī)器對(duì)空間語(yǔ)言表達(dá)的直觀理解能力,以更接近普通人語(yǔ)感的方式來(lái)回答問(wèn)題。近四年我們依托中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)(CCL)的中文技術(shù)評(píng)測(cè)平臺(tái),組織了SpaCE系列評(píng)測(cè)大賽(SpaCE2021~2024),[3]先后設(shè)計(jì)了六項(xiàng)子任務(wù):文本空間信息正誤判別、文本異??臻g信息識(shí)別、缺失參照成分找回、空間語(yǔ)義角色標(biāo)注、空間表達(dá)異形同義判別、空間方位關(guān)系推理。[4]其中除空間語(yǔ)義角色標(biāo)注、空間方位關(guān)系推理“專業(yè)色彩”較強(qiáng)外,其余四項(xiàng)任務(wù)都屬于對(duì)一般人來(lái)說(shuō)靠直覺(jué)就能回答的問(wèn)題。比如例(1)是一個(gè)缺失參照成分找回任務(wù)[5]的例子:
(1) 文本:他們五人推著自行車走到汽車旁,有兩個(gè)人爬到了汽車上,接著就翻下來(lái)十筐蘋果,下面三個(gè)人把筐蓋掀開(kāi)往他們自己的筐里倒。
問(wèn)題: ( )下面三個(gè)人把筐蓋掀開(kāi)往他們自己的筐里倒?
顯然,這樣的任務(wù)就像是日常對(duì)話中的問(wèn)答,不需要語(yǔ)言學(xué)專業(yè)知識(shí)參與。對(duì)人來(lái)說(shuō),回答這個(gè)問(wèn)題需要理解整句話的語(yǔ)義,同時(shí)重點(diǎn)需要理解在特定場(chǎng)景中出現(xiàn)的實(shí)體以及實(shí)體間的空間方位關(guān)系。如果計(jì)算機(jī)也能像人一樣做出正確的回答,就可以認(rèn)為計(jì)算機(jī)也像人一樣,是能夠理解這句話中的空間信息的。
本文討論SpaCE系列空間評(píng)測(cè)基準(zhǔn)中的“異形同義判別任務(wù)”。第二部分分析“異形同義”現(xiàn)象的不同類型(對(duì)應(yīng)不同復(fù)雜程度和不同認(rèn)知難度的測(cè)試任務(wù));第三部分介紹評(píng)測(cè)數(shù)據(jù)集的制作方法;第四部分簡(jiǎn)要介紹大語(yǔ)言模型在這一任務(wù)上的表現(xiàn);第五部分對(duì)比模型和人類被試在這一任務(wù)上的表現(xiàn);第六部分對(duì)這項(xiàng)研究做一個(gè)總結(jié)。
二、 空間“異形同義”現(xiàn)象的不同類型
空間范疇作為非?;A(chǔ)的語(yǔ)言認(rèn)知概念,一直受到語(yǔ)言學(xué)界關(guān)注,研究成果非常豐富。如果從“異形同義”的視角看漢語(yǔ)語(yǔ)法學(xué)界以往的工作,相關(guān)成果在三方面對(duì)本文工作有直接的啟發(fā)。(1) 注重區(qū)分不同空間方位參照類型,挖掘空間表達(dá)中影響說(shuō)話人選取參照策略的不同因素。比如對(duì)“前、后、左、右”等方位詞造成空間句異形同義現(xiàn)象的考察,可參見(jiàn)方經(jīng)民(1987a,1987b)、林笛(1993)、郭銳(2004)等。(2) 注重分析空間實(shí)體本身屬性特征的影響,以及空間實(shí)體加上相關(guān)的動(dòng)作等更復(fù)雜的語(yǔ)境信息,對(duì)空間表達(dá)異形同義的綜合影響。比如對(duì)“上—里”可換用現(xiàn)象的分析,可參見(jiàn)高橋彌守彥(1992)、劉寧生(1994);從實(shí)體屬性角度討論實(shí)體名詞對(duì)其后方位詞的選擇限制,提出實(shí)體可居點(diǎn)特征分析框架,可參見(jiàn)儲(chǔ)澤祥等(2008)。(3) 對(duì)位移場(chǎng)景中的空間異形同義現(xiàn)象的考察,比如對(duì)“來(lái)—去、上來(lái)—下來(lái)”異形同義現(xiàn)象[“我馬上就來(lái)=我馬上就去”,“(登船場(chǎng)景中)跳上來(lái)=跳下來(lái)”]的分析,可參見(jiàn)齊滬揚(yáng)(1996)、童小娥(2009)。
前人尚未對(duì)空間表達(dá)異形同義現(xiàn)象做系統(tǒng)全面的考察, [6]也未見(jiàn)有從機(jī)器空間理解能力評(píng)測(cè)的角度做相關(guān)語(yǔ)料數(shù)據(jù)的收集和標(biāo)注工作。考慮到“異形同義”在真實(shí)語(yǔ)言使用中屬于低頻分布現(xiàn)象,為了在SpaCE評(píng)測(cè)基準(zhǔn)中實(shí)現(xiàn)對(duì)機(jī)器的空間認(rèn)知理解能力更為全面和深入的評(píng)測(cè),我們?cè)O(shè)計(jì)了基于空間表達(dá)異形同義現(xiàn)象的異形同義判別任務(wù)。主要的思路是:窮盡性地考察漢語(yǔ)空間義詞語(yǔ)的詞對(duì)[7](如“上—里、上—下、上—外、前—后、上來(lái)—過(guò)來(lái)、進(jìn)來(lái)—下來(lái)……”),分析這些詞對(duì)在表達(dá)空間場(chǎng)景時(shí)構(gòu)成異形同義句對(duì)的可能性,以及造成異形同義的原因是什么。在收集到一定規(guī)模的句對(duì)語(yǔ)料基礎(chǔ)上,就可以制作相應(yīng)的試題(如判斷題或選擇題等),考察機(jī)器(或人)是否有能力判斷:特定情境中空間方位義詞語(yǔ)形式不同而其所指的空間場(chǎng)景卻可能相同。
從形成原因角度看,空間表達(dá)中的“異形同義”現(xiàn)象有不同情況,大致可以區(qū)分為六類:(A) 兩個(gè)方位義詞語(yǔ)本身詞義接近;(B) 兩個(gè)方位義詞語(yǔ)的詞義有包含關(guān)系;
(C) 兩個(gè)空間義詞語(yǔ)有多個(gè)義項(xiàng),二者在某個(gè)義項(xiàng)上,對(duì)應(yīng)的空間圖景相近;(D) 文本中方位詞(f)所依附的參照物名詞(N)缺失,可以有不同的補(bǔ)回方式,異形同義實(shí)際上是N1+f1跟N2+f2對(duì)應(yīng)了相同的空間圖景;(E) 實(shí)體在文本中有投影物,異形同義實(shí)際上是N1+f1+N2和N1+f2+N2之間造成的所指實(shí)體跟其影像的“偽同指”;(F) 空間關(guān)系固化語(yǔ)境中的“主賓可逆序”句型,即詞序可逆而空間語(yǔ)義角色(關(guān)系)固定不變。下文分別討論。
(一) 方位義詞語(yǔ)詞義相近(A類)
請(qǐng)看下面的例子:
(2) a. 每年開(kāi)春,家里總是從地窖里把保存了一個(gè)冬季的地瓜種一筐筐運(yùn)到上面。
b. 每年開(kāi)春,家里總是從地窖中把保存了一個(gè)冬季的地瓜種一筐筐運(yùn)到上面。
c. 每年開(kāi)春,家里總是從地窖內(nèi)把保存了一個(gè)冬季的地瓜種一筐筐運(yùn)到上面。
例(2)中三個(gè)句子只有一個(gè)詞的差異,即“里—中—內(nèi)”在三句中不同,其余部分是完全相同的,三句構(gòu)成最小對(duì)立的形式差異,同時(shí),句子所表達(dá)的空間場(chǎng)景相同:“地瓜種冬季儲(chǔ)藏在地窖里,開(kāi)春時(shí)從地窖運(yùn)到外面。”
詞義相近的方位詞對(duì)不多。類似的例子還有“旁—邊”“一邊—旁邊”“旁邊—附近”“旁邊—側(cè)面”等。
(二) 方位義詞語(yǔ)的詞義有包含關(guān)系(B類)
請(qǐng)看下面的例子。
(3) a. 在這個(gè)房間里,墻壁上掛著一幅畫(huà),畫(huà)的是一片美麗的森林。畫(huà)的上端是一片藍(lán)天白云。
b. 在這個(gè)房間里,墻壁上掛著一幅畫(huà),畫(huà)的是一片美麗的森林。畫(huà)的頂端是一片藍(lán)天白云。
(4) a. 阿姨將肉粽打開(kāi),粽葉放在一邊備用。
b. 阿姨將肉粽打開(kāi),粽葉放在右邊備用。
例(3)中兩個(gè)句子只有一詞之差:上端—頂端,從所指范圍來(lái)說(shuō),“上端”指的區(qū)域包含了“頂端”,后者是前者的一部分。例(3)a和例(3)b整句所表達(dá)的空間場(chǎng)景基本可以看作是相同的。
例(4)中兩個(gè)句子也是一詞之差:一邊—右邊,從所指范圍來(lái)說(shuō),“一邊”指的區(qū)域既可以是“右邊”,也可以是“左邊”,后者是前者的一部分。如果不以精確傳遞信息為標(biāo)準(zhǔn),例(4)a和例(4)b整句所表達(dá)的空間場(chǎng)景就也可以看作是相同的(類似于用“車”稱呼小轎車)。
趨向動(dòng)詞之間也有類似的詞義包含關(guān)系。請(qǐng)看例子:
(5) a. 三輛警車循著逃犯的逃跑路線,一路追到白石橋下,連日洪水的沖擊,讓平日能過(guò)大卡車的石橋看上去像是處在崩塌的邊緣。中隊(duì)長(zhǎng)猶豫半晌,最終咬牙發(fā)出命令:開(kāi)過(guò)去!
b. 三輛警車循著逃犯的逃跑路線,一路追到白石橋下,連日洪水的沖擊,讓平日能過(guò)大卡車的石橋看上去像是處在崩塌的邊緣。中隊(duì)長(zhǎng)猶豫半晌,最終咬牙發(fā)出命令:開(kāi)上去!
例(5)中兩個(gè)句子只有一詞之差:上去—過(guò)去,二者在句中都表示“警車向白石橋的方向移動(dòng)”?!冬F(xiàn)代漢語(yǔ)詞典》第7版對(duì)“上去”作為趨向動(dòng)詞用法的釋義是“用在動(dòng)詞后,表示由低處向高處,或由近處向遠(yuǎn)處,或由主體向?qū)ο蟆保粚?duì)“過(guò)去”作為趨向動(dòng)詞用法的釋義是“用在動(dòng)詞后,表示離開(kāi)或經(jīng)過(guò)自己所在的地方”??梢?jiàn),“上去”對(duì)位移特征的描述更具體,“過(guò)去”則更籠統(tǒng),從這個(gè)意義上講,“過(guò)去”跟“上去”的詞義關(guān)系,類似于上面“上端—頂端”“一邊—右邊”的詞義關(guān)系,也屬于包含關(guān)系,即前者的空間方位特征相比于后者更為籠統(tǒng),適用范圍更大,后者相比于前者更為具體,適用范圍更小。
詞義有包含關(guān)系的方位詞詞對(duì)和趨向動(dòng)詞詞對(duì)不多。前者主要有“上端—頂端、下端—底端、一邊—右邊、一邊—左邊、旁邊—右邊、旁邊—左邊”等;后者主01048b558e9544f1048c1963613721ca要有“過(guò)去—上去、過(guò)去—下去、過(guò)去—進(jìn)去、過(guò)去—出去、過(guò)來(lái)—上來(lái)、過(guò)來(lái)—下來(lái)、過(guò)來(lái)—進(jìn)來(lái)、過(guò)來(lái)—出來(lái)”等。
(三) 方位義詞語(yǔ)表示的方位或方向重疊(C類)
兩個(gè)方位詞詞義之間即使沒(méi)有相近或包含關(guān)系,但在特定上下文中,仍然可以使整句表示相同的空間場(chǎng)景。請(qǐng)看例子:
(6) a. 夜里打麻將,使她根本無(wú)法看書(shū)做作業(yè),她只好搬個(gè)小木凳到小巷邊的路燈下學(xué)習(xí)。
b. 夜里打麻將,使她根本無(wú)法看書(shū)做作業(yè),她只好搬個(gè)小木凳到小巷邊的路燈旁學(xué)習(xí)。
(7) a. 沿著木棧道,總書(shū)記步入林中。在一棵落葉松下,總書(shū)記還特地用手丈量了一番:“長(zhǎng)得很好,樹(shù)干很直。”
b. 沿著木棧道,總書(shū)記步入林中。在一棵落葉松前,總書(shū)記還特地用手丈量了一番:“長(zhǎng)得很好,樹(shù)干很直?!?/p>
例(6)中兩個(gè)句子只有一詞之差:下—旁,兩句的空間場(chǎng)景相同,都是“她在路燈下面學(xué)習(xí)”,“路燈下=路燈旁”。盡管“下”跟“旁”的詞典釋義不同,但在借助路燈光線來(lái)學(xué)習(xí)的事件場(chǎng)景中,把“路燈”作為參照物,“下”和“旁”可以表示相對(duì)于參照物“路燈”而言相同的方位,即“路燈燈柱底端附近的位置”。
例(7)中兩句的情況類似,“下”跟“前”的參照物是跟路燈類似的柱狀物“落葉松”,“落葉松下=落葉松前”。圖2是“下—旁—前”這三個(gè)方位詞在參照物為柱狀物時(shí)指向相同位置的示意圖,S是當(dāng)前描述的空間實(shí)體,S相對(duì)于參照物R(柱狀物)的位置,用“下、旁、前”描述,都指向相同的位置,即R底部的附近區(qū)域。
趨向動(dòng)詞之間也有類似方位詞的這種“異形同義”現(xiàn)象,請(qǐng)看例子:
(8) a. 人的咽喉和食管同胃是相通的,喝下去的醋只會(huì)與魚(yú)刺接觸,醋的脫鈣作用無(wú)法進(jìn)行。因此,任你喝醋再多,也無(wú)濟(jì)于事。
b. 人的咽喉和食管同胃是相通的,喝進(jìn)去的醋只會(huì)與魚(yú)刺接觸,醋的脫鈣作用無(wú)法進(jìn)行。因此,任你喝醋再多,也無(wú)濟(jì)于事。
例(8)中兩句的差異是趨向動(dòng)詞“下去”和“進(jìn)去”的對(duì)立。在食管這一垂直柱狀容積物作為參照物實(shí)體的語(yǔ)境中,移動(dòng)的物體(醋)從食管外進(jìn)入到食管內(nèi)部,同時(shí)也是從食管的頂部往下進(jìn)入食管下方的位置。在這個(gè)場(chǎng)景中,下去(從高到低)=進(jìn)去(從外到里),不同的兩個(gè)趨向動(dòng)詞,表達(dá)了這一場(chǎng)景中相同的位移方向。圖3形象地描述了這一現(xiàn)象。
像例(6)到例(8)這樣的異形同義情況,不是由方位詞或趨向動(dòng)詞自身的詞義造成的,也不是由文本中相關(guān)的空間實(shí)體、參照物實(shí)體、位移事件等獨(dú)立造成的,而是這些因素共同作用的結(jié)果。如果把具體的復(fù)雜多樣的空間場(chǎng)景抽象為有一定幾何共性的示意圖(如圖2、圖3所示),在語(yǔ)言學(xué)中稱為空間圖式(Lakoff 1987;Talmy 2000)。從這個(gè)角度講,可以說(shuō)上述例句所呈現(xiàn)的異形同義現(xiàn)象,是因?yàn)椴煌轿辉~或趨向動(dòng)詞激活的“空間圖式”有交集。
空間圖式是從認(rèn)知角度對(duì)物理意義上的空間場(chǎng)景所做的概念抽象,一個(gè)方位詞或趨向動(dòng)詞可能對(duì)應(yīng)一些典型的空間圖式,但不太容易窮盡所有可能的空間圖式,因?yàn)闆Q定空間圖式的因素比較多,而且有時(shí)不容易離析出來(lái)。例如:
(9) a. 昨晚,飯桌上,奶奶、爸爸和我爭(zhēng)著同媽媽說(shuō)話,直到我雙手將媽媽的臉扳向我為止。
b. 昨晚,飯桌旁,奶奶、爸爸和我爭(zhēng)著同媽媽說(shuō)話,直到我雙手將媽媽的臉扳向我為止。
例(9)中兩句也是“異形同義”,雖然“上”跟“旁”是不同的方位詞,但在例(9)的語(yǔ)境中,“飯桌上=飯桌旁”。如果要用空間圖式來(lái)呈現(xiàn)這個(gè)場(chǎng)景中“上”和“旁”所指的位置,就不太容易,在很多場(chǎng)景中,“飯桌上”跟“飯桌旁”是不同的位置,比如“飯桌上的酒瓶”跟“飯桌旁的酒瓶”,肯定是指不同位置的酒瓶。但在多人圍坐桌子吃飯的場(chǎng)景中,“在飯桌旁坐著的這些人”,也可以用“飯桌上的這些人”來(lái)指稱。
實(shí)際上,我們收集的異形同義句對(duì)語(yǔ)料,多數(shù)都是“空間圖式交集”類的(詳見(jiàn)下文第三、第四部分),因?yàn)槠渌悇e都有比較明確的形式特征條件或者詞義特征條件,而“空間圖式交集”這類情況,是方位詞、空間實(shí)體、參照物實(shí)體、位移事件等因素綜合作用的結(jié)果,尚無(wú)特別明晰、系統(tǒng)的界定標(biāo)準(zhǔn),本文暫且把這類異形同義現(xiàn)象的成因歸結(jié)為“空間圖式交集”,更具體的原因分析,還有待將來(lái)進(jìn)一步深入研究。
(四) 方位詞依附的參照物實(shí)體缺失(D類)
前面三類方位詞在句中都緊跟在其所依附的參照物實(shí)體名詞之后。如果方位詞所依附的參照物名詞省略,在理解空間場(chǎng)景時(shí),理論上就需要補(bǔ)出這個(gè)缺失的參照成分。這種情況下,也可能會(huì)造成異形同義現(xiàn)象。請(qǐng)看例子:
(10) a. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板?!敖柚W(wǎng)課,我們的學(xué)生坐在教室里,就可以跟著里面的名師學(xué)習(xí),享受優(yōu)質(zhì)的教育資源?!毙iL(zhǎng)興奮地說(shuō)。
b. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板?!敖柚W(wǎng)課,我們的學(xué)生坐在教室里,就可以跟著外面的名師學(xué)習(xí),享受優(yōu)質(zhì)的教育資源?!毙iL(zhǎng)興奮地說(shuō)。
c. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板?!敖柚W(wǎng)課,我們的學(xué)生坐在教室里,就可以跟著上面的名師學(xué)習(xí),享受優(yōu)質(zhì)的教育資源?!毙iL(zhǎng)興奮地說(shuō)。
(11) a. 至今菲律賓的土著居民在見(jiàn)面時(shí),握過(guò)手后還要轉(zhuǎn)身向前走幾步,意思是向?qū)Ψ奖砻鞅澈鬀](méi)有藏刀。
b. 至今菲律賓的土著居民在見(jiàn)面時(shí),握過(guò)手后還要轉(zhuǎn)身向后走幾步,意思是向?qū)Ψ奖砻鞅澈鬀](méi)有藏刀。
例(10)三個(gè)句子中只有一詞之差:里面—外面—上面,這三個(gè)方位詞依附的參照物名詞沒(méi)有跟方位詞緊鄰出現(xiàn),其中例(10)a的“里面”依附的參照物實(shí)體名詞是“網(wǎng)課”(或“電子白板”),例(10)b的“外面”依附的是“小縣城”(或“教室”),例(10)c的“上面”依附的是“電子白板”,但這三個(gè)句子所表達(dá)的空間場(chǎng)景可以說(shuō)是完全相同的。
例(11)兩句中也只有一詞之差:前—后,這兩個(gè)方位詞依附的參照物名詞沒(méi)有跟方位詞緊鄰出現(xiàn),兩句表達(dá)的空間場(chǎng)景涉及位移動(dòng)作:例(11)a的“向前”指的是轉(zhuǎn)身之后,人面向的前方;例(11)b的“向后”指的是轉(zhuǎn)身之前、人背向的后方。字面上,“前—后”兩個(gè)方向相反,但在這兩句所表達(dá)的空間場(chǎng)景中,實(shí)際上指向同一個(gè)絕對(duì)方向(比如“向東”),是相同的空間場(chǎng)景。區(qū)別僅僅在于,例(11)a“向前”方向的參照實(shí)體是轉(zhuǎn)身之后的人(該人的面向);例(11)b“向后”方向的參照實(shí)體是轉(zhuǎn)身之前的人(該人的
背向)。
例(10)和例(11)代表了兩種參照物實(shí)體“缺失—找回”的情形。前者是在“同時(shí)”條件下,不同方位詞參照了不同的空間實(shí)體;后者是在“歷時(shí)”條件下,不同方位詞參照了不同時(shí)點(diǎn)的同一個(gè)空間實(shí)體。二者都可以概括為:(N1)+f1=(N2)+f2,其中N1和N2是缺失的參照成分,可能是句中不同名稱的空間實(shí)體,也可能是同一個(gè)空間實(shí)體在不同時(shí)點(diǎn)的變體。后一種情況出現(xiàn)的場(chǎng)景總是伴隨著“轉(zhuǎn)身、扭頭”類轉(zhuǎn)向動(dòng)作。(孫陳亦待刊)
(五) 空間實(shí)體在上下文中有投影(鏡像) 實(shí)體(E類)
異形同義現(xiàn)象中,還有一類是實(shí)體在文本語(yǔ)境中有投影物,實(shí)體與投影物用同一個(gè)名詞指稱,即實(shí)體跟其影像“偽同指”,從而形成異形同義現(xiàn)象。請(qǐng)看例子:
(12) a. “笑一笑!”每次拍照前,攝影師都會(huì)對(duì)鏡頭前的人說(shuō)這句話。甜甜的笑容掛在臉上,幸福感洋溢在鏡頭里。
b. “笑一笑!”每次拍照前,攝影師都會(huì)對(duì)鏡頭里的人說(shuō)這句話。甜甜的笑容掛在臉上,幸福感洋溢在鏡頭里。
(13) a. 已經(jīng)很多年沒(méi)人這樣叫李光頭了,人們都是叫他“李總”,突然有人在后面叫他“李光頭”,李光頭心想是誰(shuí)呀?回頭一看是戴著口罩的宋鋼,宋鋼的眼睛在口罩上面的鏡片后微笑。
b. 已經(jīng)很多年沒(méi)人這樣叫李光頭了,人們都是叫他“李總”,突然有人在后面叫他“李光頭”,李光頭心想是誰(shuí)呀?回頭一看是戴著口罩的宋鋼,宋鋼的眼睛在口罩上面的鏡片里微笑。
例(12)和例(13)的共性是都有一個(gè)造成投影效果的“道具”,例(12)是通過(guò)“鏡頭”提供了投影;例(13)是通過(guò)“鏡片”提供了投影。例(12)中,“鏡頭前的人”指真實(shí)物理世界中的實(shí)體人,“鏡頭里的人”指影像世界中的虛擬人,這兩個(gè)實(shí)體具有一對(duì)一的投影關(guān)系。例(13)中,“宋鋼的眼睛在鏡片后”指真實(shí)物理世界的實(shí)體眼睛,“宋鋼的眼睛在鏡片里”指鏡像世界中成像的眼睛,這兩個(gè)實(shí)體也是一對(duì)一的投影關(guān)系。這種“偽同指”語(yǔ)境中造成的異形同義可以表示為:N1+f1+N2=N1+f2+N2’。因?yàn)镹1(道具)的成像功能,使得N2和N2’構(gòu)成投影(鏡像)關(guān)系,進(jìn)而使得表面形式不同的“N1+f1”和“N1+f2”約束構(gòu)成鏡像關(guān)系的兩個(gè)名稱相同的空間實(shí)體(N2=N2’)。在例(12)中,N2=N2’=人;在例(13)中,N2=N2’=宋鋼的眼睛。
(六) 主賓可逆序句型(F類)
前五類異形同義都跟詞匯語(yǔ)義有關(guān)。漢語(yǔ)中還有一類異形同義現(xiàn)象,跟特定構(gòu)式有關(guān)。請(qǐng)看例子:
(14) a. 包好的包子在蒸鍋里分三排擺放整齊后,她把鍋蓋上鍋蓋,然后打開(kāi)計(jì)時(shí)器。
b. 包好的包子在蒸鍋里分三排擺放整齊后,她把鍋蓋蓋上鍋,然后打開(kāi)計(jì)時(shí)器。
(15) a. 我住在與福緣門隔著一條馬路的婁斗橋,去北大食堂很方便。我常在那兒吃飯,婁斗橋就正對(duì)著北大西門。
b. 我住在與福緣門隔著一條馬路的婁斗橋,去北大食堂很方便,我常在那兒吃飯,北大西門就正對(duì)著婁斗橋。
(16) a. 在吉林長(zhǎng)春市一個(gè)繁忙路口附近,一輛車前放著一個(gè)紙盒,上面寫著:口罩,環(huán)衛(wèi)工人免費(fèi)。……
b. 在吉林長(zhǎng)春市一個(gè)繁忙路口附近,一個(gè)紙盒放在一輛車前,上面寫著:口罩,環(huán)衛(wèi)工人免費(fèi)?!?/p>
上述例句在以往研究中屬于“主賓可逆序句”這個(gè)話題。其特征是動(dòng)詞前后的主賓語(yǔ)可以調(diào)換位置,整句的命題語(yǔ)義基本相同,例(14)“鍋蓋上鍋蓋=鍋蓋蓋上鍋”,例(15)“北大西門正對(duì)著婁斗橋=婁斗橋正對(duì)著北大西門”,例(16)“一輛車前放著一個(gè)紙盒=一個(gè)紙盒放在一輛車前”。每個(gè)例子的a、b兩句表面形式都有差異,但整句描述的空間場(chǎng)景相同。不過(guò),跟前面五類不同,這一類的表面形式差異不是由替換一個(gè)詞形成的最小對(duì)立。
顯然,上面六類的情況并不均衡,有的類界定標(biāo)準(zhǔn)相對(duì)清晰,內(nèi)部相對(duì)勻質(zhì),比如A、B、D、E這四類;有的類內(nèi)部情況不均勻,情況相對(duì)復(fù)雜,比如C、F這兩類。除F類外,其他五類都跟方位詞、趨向動(dòng)詞等空間語(yǔ)義功能標(biāo)記成分直接相關(guān),用于測(cè)試和評(píng)估機(jī)器的空間語(yǔ)義理解能力相對(duì)更合適一些。對(duì)于存在異形同義現(xiàn)象的句對(duì),歸入前五類中的哪一類,多數(shù)情況是比較清楚的。對(duì)于少數(shù)可能存在歸類模糊的情形,我們?cè)诠ぷ髦忻鞔_一個(gè)優(yōu)先序原則:A>B>D>E>C,即能歸入前面一個(gè)類別,就不歸入后面的類別。這個(gè)優(yōu)先序主要考慮的是語(yǔ)義標(biāo)準(zhǔn)和形式標(biāo)準(zhǔn)的清晰性,即語(yǔ)義標(biāo)準(zhǔn)和形式標(biāo)準(zhǔn)越清楚,就越靠前(優(yōu)先)。比如詞義是否相近,最易判斷,其次是詞義之間是否有包含關(guān)系,再次看方位詞在使用中是否有參照成分缺失現(xiàn)象,然后再看文本中是否存在有投影關(guān)系的實(shí)體,以上條件都不符合,最后就歸入空間圖式交集類。上文例(10)的語(yǔ)境中也涉及投影實(shí)體(電子白板),但從形式上看,方位詞依附的參照成分缺失,因而優(yōu)先歸入D類而不歸入E類。
三、 語(yǔ)料的收集標(biāo)注和數(shù)據(jù)集的制作
(一) 語(yǔ)料與數(shù)據(jù)集制作流程
在第二部分對(duì)異形同義現(xiàn)象進(jìn)行分類描寫的基礎(chǔ)上,我們可以制作試題,來(lái)測(cè)試機(jī)器對(duì)異形同義現(xiàn)象的理解能力。試題制作分為兩步:先是收集異形同義和異形異義(用于對(duì)照)的句對(duì)語(yǔ)料,在達(dá)到一定規(guī)模后,再將語(yǔ)料轉(zhuǎn)換為試題形式。
1. 語(yǔ)料制作階段的工作方式
語(yǔ)料來(lái)源主要是兩個(gè)途徑:一是來(lái)自我們制作的SpaCE2022中文空間語(yǔ)義正誤判斷任務(wù)數(shù)據(jù)集[8]中的句對(duì);二是給出詞對(duì)表,對(duì)表中的方位詞對(duì)、趨向動(dòng)詞對(duì),逐一由人工編寫符合異形同義和異形異義條件的語(yǔ)料。
SpaCE2022中有形如例(17)、例(18)這樣的句對(duì)(為節(jié)省篇幅,替換詞寫在括號(hào)中)。
(17) 1960年5月25日凌晨,中國(guó)登山隊(duì)員王富洲、貢布和屈銀華首次從“不可逾越”的北坡登上了珠峰峰頂,首次在珠穆朗瑪峰頂插上(下)五星紅旗,創(chuàng)造了人類歷史上第一次從北坡登上世界第一高峰的壯舉。
(18) 等大家都坐好,聶赫留朵夫也在他們對(duì)面(中間)坐下來(lái),臂肘擱在桌上,面前擺著一張紙,他就根據(jù)紙上的提綱開(kāi)始說(shuō)明他的方案。
例(17)“插上”是原句用詞,“插下”是替換后的語(yǔ)料,將句中一個(gè)趨向動(dòng)詞“上”替換為“下”后,語(yǔ)句依然合法,且并不改變整句所描述的空間場(chǎng)景,這個(gè)例子就構(gòu)成一個(gè)“異形同義”句對(duì)。例(18)“對(duì)面”是原句用詞,“中間”是替換“對(duì)面”后形成的新的語(yǔ)料,將句中的方位詞“對(duì)面”替換為“中間”后,語(yǔ)句依然合法,但整句所描述的空間場(chǎng)景發(fā)生了改變,這個(gè)例子就構(gòu)成一個(gè)“異形異義”句對(duì)。人工對(duì)例(17)標(biāo)注“異形同義”,對(duì)例(18)標(biāo)注“異形異義”,就完成了兩條語(yǔ)料的收集工作。
可以想見(jiàn),從自然語(yǔ)料中替換方位詞或趨向動(dòng)詞形成的對(duì)比語(yǔ)料(句對(duì)),多數(shù)情況下,要么句子語(yǔ)法或語(yǔ)義異常,要么兩句是異形異義的情況。對(duì)于很多詞對(duì),為得到數(shù)量均衡的“異形同義”和“異形異義”語(yǔ)料,就需要人工編寫異形同義的句對(duì)。像例(18)中的“對(duì)面—中間”這個(gè)詞對(duì),要構(gòu)造異形同義句對(duì)語(yǔ)料,就比較困難。下面是利用缺失參照物找回這個(gè)線索,為“對(duì)面—中間”構(gòu)造的兩條符合異形同義要求的語(yǔ)料示例:
(19) 張飛一人立馬在兩軍陣前。曹軍陣營(yíng)一字排開(kāi),距蜀軍陣營(yíng)也就百步之遙。陣前掛出三面將旗,分別寫著“張”“許”“夏侯”字樣,代表著曹魏軍中戰(zhàn)功赫赫名震一方的三員名將:張遼、許褚、夏侯杰。張飛挺矛直指正對(duì)面(中間)的許褚,厲聲大喝:我乃燕人張翼德,誰(shuí)敢跟我決一死戰(zhàn)?
(20) 鐵路要經(jīng)過(guò)很多高山,不得不開(kāi)鑿隧道,其中居庸關(guān)和八達(dá)嶺兩條隧道的工程最艱巨。居庸關(guān)山勢(shì)高,巖層厚,詹天佑決定采用從兩端同時(shí)向?qū)γ妫ㄖ虚g)鑿進(jìn)的辦法……把工期縮短了一半。
我們?cè)赟paCE2023和SpaCE2024中都設(shè)置了“異形同義判別”任務(wù),SpaCE2023是首次嘗試制作異形同義和異形異義句對(duì)語(yǔ)料,生成了355條語(yǔ)料。SpaCE2024擴(kuò)充了詞對(duì)表,收集編寫了更多語(yǔ)料,具體語(yǔ)料規(guī)模如表1所示。
2. 從語(yǔ)料到試題的轉(zhuǎn)換
SpaCE2023任務(wù)[10]中,我們直接使用異形同義和異形異義句對(duì)語(yǔ)料,以判斷題的形式來(lái)考察。一道試題給出兩個(gè)對(duì)比文本Context1和Context2(文本中有一對(duì)方位義詞形成形式對(duì)立)。問(wèn)題(答案)由兩部分構(gòu)成,先是判斷(Judge),即Context1和Context2的關(guān)系屬于“異形同義”還是“異形異義”,其次是釋因(Reason),即給出判斷的理由。試題樣例如表2所示。
以判斷題的形式出題比較直觀,但要求機(jī)器在判斷異同之外,還要解釋判斷的理由。這些理由需要人工評(píng)分,成本較高。原因是雖然事先給了Reason的模板,僅要求機(jī)器填寫表2中陰影部分的文本內(nèi)容(相當(dāng)于多個(gè)填空),但機(jī)器在生成文本時(shí)有可能沒(méi)有嚴(yán)格遵循指令,生成的文本不符合模板要求,導(dǎo)致難以依靠程序自動(dòng)評(píng)分。
SpaCE2024的所有任務(wù)統(tǒng)一采用選擇題形式命題,“異形同義判別”任務(wù)也改為選擇題形式。試題樣例詳見(jiàn)表3。
改為選擇題形式的好處是,語(yǔ)料的利用率相對(duì)更高。在一道選擇題中,因?yàn)閷?duì)比選項(xiàng)的增加(從判斷題的1∶1對(duì)比變?yōu)檫x擇題1∶4對(duì)比),替換對(duì)比項(xiàng)后形成的句子要么存在語(yǔ)法或語(yǔ)義錯(cuò)誤,要么跟原句具有異形同義或異形異義關(guān)系,因而可以同時(shí)考察對(duì)語(yǔ)義正誤的理解和對(duì)形義關(guān)系的判斷。另外,異形同義現(xiàn)象的判斷涉及比較復(fù)雜的認(rèn)知因素,作為判斷題,是二選一,有可能不同人對(duì)一個(gè)句對(duì)的理解差異也會(huì)比較大,但如果是選擇題的形式,其他選項(xiàng)(非答案,干擾作用)可能對(duì)正確答案選項(xiàng)起到了一定程度的襯托作用。以表3的異形同義題為例,“出來(lái)”替換為“回來(lái)”,兩句同義的條件是:先進(jìn)再出=先進(jìn)再回,要求文中“光腳蹚進(jìn)了漫水的走廊”跟“出來(lái)”是相反的位移方向,這樣,“出來(lái)”才能替換為“回來(lái)”而不改變空間場(chǎng)景。如果“光腳蹚進(jìn)了漫水的走廊”中的“進(jìn)”的位移方向跟“出來(lái)”是相同的位移方向,則“出來(lái)”跟“回來(lái)”就更傾向于理解為對(duì)立的方向,不是描述相同的(位移)空間場(chǎng)景。
(二) 數(shù)據(jù)集的整體情況
SpaCE2023中異形同義判別任務(wù)是判斷題形式,我們從355個(gè)句對(duì)中選取了100個(gè)語(yǔ)料質(zhì)量較好的句對(duì),制作了100道判斷題,其中54題為異形同義,46題為異形異義,包含了上一節(jié)介紹的全部類型,不過(guò)總體數(shù)據(jù)規(guī)模比較小,主要是C類題(81題),其余幾類加起來(lái)共19題,A、E、F三類一共才7道題。限于篇幅,這里不再展開(kāi)介紹。
SpaCE2024數(shù)據(jù)集擴(kuò)充到710道選擇題,按照機(jī)器評(píng)測(cè)的慣例,這些試題分為3份,其中訓(xùn)練集5道題,提供給機(jī)器學(xué)習(xí),讓機(jī)器熟悉題目形式;驗(yàn)證集55題,相當(dāng)于人類考試中的模擬考試,用于評(píng)估機(jī)器的學(xué)習(xí)效果,改進(jìn)學(xué)習(xí)策略;測(cè)試集650題,相當(dāng)于人類考試中的正式考試。表4展示了SpaCE2024“異形同義判別”任務(wù)數(shù)據(jù)集的語(yǔ)料字?jǐn)?shù)規(guī)模概況;表5展示了“異形同義判別”任務(wù)測(cè)試集中單選題及多選題的數(shù)量和比例。
下文表6展示了SpaCE2024“異形同義判別”任務(wù)測(cè)試集中涉及詞對(duì)數(shù)量及對(duì)應(yīng)的題量,并按照上文第二部分提出的類型體系分類計(jì)數(shù)。因F類(主賓可逆序句)的性質(zhì)跟其他五類差異較大,且收集的這部分語(yǔ)料數(shù)量較少,故沒(méi)有收入SpaCE2024數(shù)據(jù)集中。測(cè)試集中C類題最多,表6中進(jìn)一步細(xì)分為C1類(方位詞空間圖式交集)和C2類(趨向動(dòng)詞空間圖式交集)。相對(duì)而言,C1類的異形同義題和異形異義題數(shù)量較為均衡,其他類別異形同義題的數(shù)量都明顯多于異形異義題,顯然,在分布均衡性方面,數(shù)據(jù)集還需要做進(jìn)一步的改進(jìn)。比如A、D、E三類異形異義題為0,其中A類是詞義相近詞對(duì),難以構(gòu)造異形異義題,屬于正常的偏置分布,D、E則可以而且需要構(gòu)造數(shù)量相當(dāng)?shù)漠愋萎惲x對(duì)照題。此外,不同詞對(duì)在測(cè)試題中分布平衡性還存在較大問(wèn)題,數(shù)據(jù)集規(guī)模還有待提高。上文表1統(tǒng)計(jì)了目前數(shù)據(jù)集中詞對(duì)類型(type)數(shù)為151對(duì),
表6統(tǒng)計(jì)的詞對(duì)實(shí)例(token)數(shù)為820對(duì),即每個(gè)詞對(duì)平均在數(shù)據(jù)集中出現(xiàn)5.43次,以測(cè)試集650題為單位計(jì),每個(gè)詞對(duì)平均出現(xiàn)在4.3題中。實(shí)際上,出題數(shù)量達(dá)到4題以上的詞對(duì)僅43個(gè)(占28.5%),更多的詞對(duì)(108個(gè))僅出現(xiàn)在1到3題中。即便是出題達(dá)到4題以上的詞對(duì),在異形同義題和異形異義題的比例上也很不均衡,比如題目頻次前5的詞對(duì):上—里(16∶2)、下—里(15∶2)、上f —下f(8∶8)、下面—里面(12∶1)、上—中(12∶1),只有1個(gè)詞對(duì)兩類題比例均衡。而在出現(xiàn)4題以上的全部43個(gè)詞對(duì)中,也僅有8個(gè)詞對(duì)(18.6%)的異形同義題和異形異義題比例相對(duì)均衡:上f —下f(8∶8)、上—旁(3∶4)、上去—下去(4∶3)、后面—外面(3∶3)、下面—外面(3∶2)、中間—對(duì)面(2∶3)、內(nèi)—前(2∶2),后邊——外邊(2∶2)。以上情況表明:SpaCE2024“異形同義判別任務(wù)”數(shù)據(jù)集在數(shù)據(jù)規(guī)模和試題分布均衡性方面都還存在明顯不足,還有待改進(jìn)。
四、 大語(yǔ)言模型測(cè)試結(jié)果初步分析
本節(jié)介紹參加SpaCE2024評(píng)測(cè)的參賽系統(tǒng)(均采用大語(yǔ)言模型作為基座)在異形同義判別子任務(wù)上的表現(xiàn)。上文表5顯示了SpaCE2024數(shù)據(jù)集區(qū)分單選題和多選題,以單選題為主,這樣設(shè)置,主要是從增加試題難度的角度考慮,如果機(jī)器在多選題上也達(dá)到較高的正確率,就有更大把握認(rèn)為機(jī)器對(duì)空間語(yǔ)義有深度理解能力。單選題中還有27道題答案設(shè)置為“D.以上選項(xiàng)均不正確”(異形同義題24道,異形異義題3道)。這類單選題和多選題類似,對(duì)機(jī)器而言難度更大。12支參賽隊(duì)伍中總分排名前6的系統(tǒng)在異形同義判別任務(wù)上單選題平均正確率是0.62,單選題中答案為“D.以上選項(xiàng)均不正確”的題,平均正確率為0.40。多選題平均正確率是0.30,是單選題的一半。從這個(gè)角度看,大語(yǔ)言模型對(duì)異形同義判別任務(wù),還沒(méi)有達(dá)到真正理解的水平。
表6給出了這些系統(tǒng)(以系統(tǒng)1、2……稱名)在6類異形同義現(xiàn)象測(cè)試題上的分項(xiàng)計(jì)分結(jié)果。[11]SpaCE2024數(shù)據(jù)集異形同義題跟異形異義題的比例不夠均衡,因此表6中同時(shí)也給出了各系統(tǒng)在這兩類題上的分項(xiàng)計(jì)分。
大語(yǔ)言模型是黑盒模型,其推理過(guò)程不可見(jiàn),很難知道模型對(duì)一道題的回答是如何做出的選擇,僅從模型對(duì)一道題的作答,也難以確定模型是否掌握了相關(guān)詞對(duì)的空間語(yǔ)義知識(shí)。而且大語(yǔ)言模型還存在比較明顯的穩(wěn)定性問(wèn)題,[12]再加上題量不大,因而考察大語(yǔ)言模型在具體詞對(duì)和題目上的答題情況,目前還難以形成規(guī)律性的認(rèn)識(shí)。[13]這里僅對(duì)大語(yǔ)言模型整體上較為明顯的特點(diǎn)做一些概括說(shuō)明。表6的分項(xiàng)計(jì)分,基本上反映了當(dāng)前大語(yǔ)言模型基于語(yǔ)言符號(hào)的形式分布來(lái)學(xué)習(xí)意義的特點(diǎn),模型在A類測(cè)試題上的表現(xiàn)明顯優(yōu)于其他類別。因?yàn)锳類異形同義現(xiàn)象的判別主要訴諸方位詞自身的詞義,這類異形同義相關(guān)的“形式—意義”配對(duì)關(guān)系制約條件單一,容易被模型捕捉到。模型在D類和E類測(cè)試題上表現(xiàn)遠(yuǎn)遠(yuǎn)低于A類,這兩類異形同義相關(guān)的“形式—意義”配對(duì)關(guān)系制約因素復(fù)雜,而且在自然語(yǔ)料中屬于低頻分布,模型相對(duì)來(lái)說(shuō)不容易學(xué)習(xí)到判別條件,表現(xiàn)較差,也就在情理之中了。
值得一提的是,SpaCE2023的異形同義判別任務(wù)100道判斷題異形同義和異形異義題數(shù)量相當(dāng),ChatGPT3.5在這兩類題上的表現(xiàn)存在這樣的情況:在對(duì)54道異形同義題做判斷時(shí),做對(duì)了43題(77%);對(duì)46道異形異義題做判斷時(shí),做對(duì)了28題(61%),僅從判斷結(jié)果來(lái)說(shuō),大語(yǔ)言模型得分都在及格線以上。但在進(jìn)一步解釋原因時(shí),對(duì)異形同義題的解釋,得分為35分,對(duì)異形異義題的解釋,得分為47分(由人類專家評(píng)分)。前者比后者低12個(gè)百分點(diǎn)。這也同樣反映了自然語(yǔ)料中不同類型語(yǔ)言現(xiàn)象的分布模式對(duì)模型表現(xiàn)的顯著影響。自然語(yǔ)料中,異形異義無(wú)疑是遠(yuǎn)遠(yuǎn)多于異形同義的更為高頻的語(yǔ)言現(xiàn)象,在總體表現(xiàn)上,模型對(duì)異形異義題的理解(成績(jī))自然也就比對(duì)異形同義題更好。
五、 人類表現(xiàn)與模型表現(xiàn)的對(duì)比
為進(jìn)一步考察大語(yǔ)言模型在異形同義判別任務(wù)上表現(xiàn)的特性,我們從SpaCE2024數(shù)據(jù)集中抽取了100道異形同義判別任務(wù)試題,組織了一個(gè)小規(guī)模的人類測(cè)試。數(shù)據(jù)分類情況如表7所示。其中有10道題是“重復(fù)題”用于測(cè)試回答穩(wěn)定性,此外,有4題正確答案為“D.以上選項(xiàng)均不正確”。人類被試共8人,其中2名被試答題無(wú)效,另外6名被試在重復(fù)題上得分超過(guò)0.9(是大語(yǔ)言模型得分的2倍),我們選取這6名被試的成績(jī)用于跟大語(yǔ)言模型的表現(xiàn)進(jìn)行對(duì)比。大語(yǔ)言模型在4道答案為“D.以上選項(xiàng)均不正確”題上的平均分為0.46,6名人類被試的平均分為0.71。表7展示了單選題和多選題上人機(jī)成績(jī)的對(duì)比;表8展示了不同類型異形同義判別題上人機(jī)成績(jī)的對(duì)比。
表7和表8統(tǒng)計(jì)數(shù)據(jù)顯示機(jī)器成績(jī)顯著低于人類水平,[14]說(shuō)明空間異形同義判別任務(wù)對(duì)于大語(yǔ)言模型仍然屬于高挑戰(zhàn)任務(wù)。人類與機(jī)器得分的共性是:在D、E類任務(wù)上的表現(xiàn)明顯低于A、B、C類任務(wù)。這一方面可能是D、E類試題數(shù)量少且試題質(zhì)量不高造成了統(tǒng)計(jì)偏差,另一方面也提示:D、E這類相對(duì)低頻的語(yǔ)言現(xiàn)象,對(duì)人類而言,認(rèn)知加工的難度和個(gè)體差異性也可能更大。對(duì)此,還需要在改進(jìn)試題質(zhì)量和規(guī)模后,做更進(jìn)一步的對(duì)比研究。值得一提的是,在A、B、C三類異形同義題上人類被試超過(guò)0.9分,且被試之間一致性相對(duì)更好。而機(jī)器在這三類異形同義題上的表現(xiàn),雖然整體相對(duì)其他類表現(xiàn)更好,但不同模型之間仍存在較大差異。請(qǐng)看下面兩例:
(21) 明美的速度慢于同組的其他同學(xué)。其他同學(xué)足足等了她半個(gè)小時(shí),才等到從半山腰的觀景臺(tái)走上來(lái)的她。
“才等到從半山腰的觀景臺(tái)走上來(lái)的她”中的“上來(lái)”替換為( )形成的新句可以與原句表達(dá)相同的空間場(chǎng)景。
A. 起來(lái) B. 下來(lái) C. 過(guò)來(lái) D. 進(jìn)去
(22) 兇手進(jìn)入房間,殺害了房間內(nèi)包括羅森堡在內(nèi)的三人。每個(gè)人的頭部都中了三槍。羅森堡的頭部取出兩顆子彈,枕頭里又找到一顆。
“枕頭里又找到一顆”中的“里”替換為( )形成的新句可以與原句表達(dá)相同的空間場(chǎng)景。
A. 中 B. 上 C. 邊 D. 以上選項(xiàng)均不正確
例(21)考察“過(guò)來(lái)—上來(lái)”這對(duì)趨向動(dòng)詞,二者屬于詞義包含關(guān)系(B類題),人類被試全部正確選擇了答案C,但機(jī)器6個(gè)系統(tǒng)中只有一半選C,另外一半選了B“下來(lái)”,而后者顯然在這道題的語(yǔ)境中跟“上來(lái)”構(gòu)成異形異義關(guān)系。
例(22)考察“里—中”這對(duì)方位詞,二者屬于詞義相近關(guān)系(A類題),人類被試全部正確選擇了答案A,但機(jī)器6個(gè)系統(tǒng)中有4個(gè)選A,總成績(jī)第一和第二的兩個(gè)系統(tǒng)選擇了B。
上文舉過(guò)的例(17)也在這100題中,屬于C2類,選項(xiàng)設(shè)置為“A.去、B.下、C.來(lái)、D.回”,人類被試全部正確選擇了答案B,但機(jī)器6個(gè)系統(tǒng)中只有2個(gè)選了B,另外4個(gè)系統(tǒng)選A、C、D的都有(分別是2、1、1次)。
以上情況顯示,即便是形式和意義對(duì)應(yīng)關(guān)系相對(duì)清楚,判別條件容易學(xué)習(xí)和掌握的空間義詞對(duì),機(jī)器目前的理解總體水平也較低,且跟人類表現(xiàn)特點(diǎn)有明顯差異。
六、 結(jié) 語(yǔ)
本文研究了漢語(yǔ)中的空間表達(dá)“異形同義”現(xiàn)象(即兩個(gè)句子形式不同,僅有一詞之差,而可用于描述相同的空間場(chǎng)景),針對(duì)在傳統(tǒng)自然語(yǔ)言處理任務(wù)上表現(xiàn)優(yōu)異的大語(yǔ)言模型,本文首次提出了對(duì)機(jī)器更具挑戰(zhàn)性的“空間異形同義判別任務(wù)”,并主要以人工編寫方式制作了“異形同義”和“異形異義”句對(duì)語(yǔ)料,并轉(zhuǎn)換為選擇題,形成了空間異形同義判別任務(wù)測(cè)試數(shù)據(jù)集。我們分別在SpaCE2023和SpaCE2024評(píng)測(cè)大賽中,加入了這部分測(cè)試數(shù)據(jù),進(jìn)行了大語(yǔ)言模型測(cè)試和人類測(cè)試。測(cè)試結(jié)果顯示:
(1) 在測(cè)試數(shù)據(jù)集設(shè)計(jì)的全部可比項(xiàng)目,比如單選題、多選題、重復(fù)題等從純形式角度設(shè)置的考察項(xiàng)目上,以及從原因角度對(duì)空間異形同義現(xiàn)象所區(qū)分的6個(gè)類型上,大語(yǔ)言模型的表現(xiàn)均顯著低于人類平均水平,且大語(yǔ)言模型自身的內(nèi)部一致性(穩(wěn)定性)欠佳。
(2) 大語(yǔ)言模型對(duì)自然語(yǔ)言意義的理解,更為顯著地受到語(yǔ)言符號(hào)分布形式層面的影響,比如對(duì)出現(xiàn)頻次更高的異形同義現(xiàn)象的理解能力要優(yōu)于出現(xiàn)頻次較低的同類現(xiàn)象;對(duì)“形式—意義”對(duì)應(yīng)關(guān)系制約條件少的異形同義現(xiàn)象(上文的A、B類),理解能力優(yōu)于制約條件多、需要更深認(rèn)知能力的異形同義現(xiàn)象(C、D、E類)。
從初步結(jié)果來(lái)看,這項(xiàng)任務(wù)對(duì)考察大語(yǔ)言模型的“空間認(rèn)知”能力,是有效的。不過(guò),這項(xiàng)高認(rèn)知難度的任務(wù),對(duì)數(shù)據(jù)集的質(zhì)量和規(guī)模,也提出了很高的要求。要讓各個(gè)考察項(xiàng)目上的題量更具統(tǒng)計(jì)意義,讓不同類別的題目分布更均衡,還需要針對(duì)空間異形同義現(xiàn)象,做進(jìn)一步更細(xì)致的理論研究工作(尤其是對(duì)C類和D類異形同義現(xiàn)象做深入研究),同時(shí)在機(jī)器輔助生成語(yǔ)料、設(shè)計(jì)更好的試題形式、提高數(shù)據(jù)合成效率方面,也還需要更多探索。
附 注
[1] 假如以地圖模式的絕對(duì)方位“上北下南左西右東”來(lái)說(shuō),圖1中K在Q的東邊。
[2] SpRL是“Spatial Role Labeling”(空間角色標(biāo)注)的縮寫;mSpRL是“Multimodal Spatial Role Labeling”(多模態(tài)空間角色標(biāo)注)的縮寫。
[3] SpaCE是“Spatial Cognition Evaluation”(空間認(rèn)知能力評(píng)估)的縮寫,有關(guān)SpaCE評(píng)測(cè)基準(zhǔn)(Benchmark)的情況介紹,可訪問(wèn)SpaCE2024網(wǎng)頁(yè)查詢:https://2030nlp.github.io/SpaCE2024/。
[4] 關(guān)于文本空間信息正誤判別,可參看詹衛(wèi)東等(2022),關(guān)于后五項(xiàng)任務(wù)的介紹,可參考SpaCE2024網(wǎng)站。另外,空間推理任務(wù)相關(guān)研究,還可參看針對(duì)英文的SpartQA(2021)。SpartQA是“Spatial Reasoning on Textual Question Answering”(空間推理文本問(wèn)答)的縮寫。
[5] 這個(gè)網(wǎng)頁(yè)展示了大語(yǔ)言模型完成參照成分找回任務(wù)的測(cè)試示例:https://github.com/d0ubtfire/LLM_Evaulation/tree/main/對(duì)比大模型/空間信息理解/缺失參照成分找回。
[6] 除調(diào)研大量期刊論文和學(xué)位論文外,我們也考察了相關(guān)權(quán)威辭書(shū)中對(duì)空間表達(dá)異形同義現(xiàn)象的描寫情況。主要是《現(xiàn)代漢語(yǔ)詞典》以及像呂叔湘(1999)《現(xiàn)代漢語(yǔ)八百詞》、侯學(xué)超(1998)《現(xiàn)代漢語(yǔ)虛詞詞典》、張斌(2001)《現(xiàn)代漢語(yǔ)虛詞詞典》等描寫虛詞(語(yǔ)法功能詞)類的詞典。這些辭書(shū)基本上沒(méi)有從異形同義這個(gè)角度對(duì)方位義詞語(yǔ)進(jìn)行描寫分析。呂叔湘(1999)描寫了常用方位詞和趨向動(dòng)詞的用法,沒(méi)有收錄“左、右、東、南、西、北”;收錄了“旁”,沒(méi)有收錄“邊”。張斌(2001)收方位詞“上、下、前、后、里、內(nèi)、中、外”,但沒(méi)有收“左、右”。也沒(méi)有收趨向動(dòng)詞。侯學(xué)超(1998)沒(méi)有收錄方位詞和趨向動(dòng)詞等表方位義詞語(yǔ)。
[7] 我們整理了一個(gè)漢語(yǔ)空間方位義詞語(yǔ)表,詳見(jiàn)https://github.com/2030NLP/SpaCE2024/tree/main/data。
[8] 關(guān)于該數(shù)據(jù)集制作情況,可參看https://2030nlp.github.io/Sp22AnnoOL/task1_guide.html。
[9] 值得補(bǔ)充說(shuō)明的是,在151個(gè)詞對(duì)中,方位詞詞對(duì)108個(gè);趨向動(dòng)詞詞對(duì)43個(gè)。只編寫出“異形同義”語(yǔ)料的詞對(duì)23個(gè)(如“里—內(nèi)、中—內(nèi)、旁—外、前面—旁邊、對(duì)面—附近、下—出、上來(lái)—進(jìn)來(lái)、上來(lái)—出來(lái)、進(jìn)來(lái)—回來(lái)……”),只編寫出“異形異義”語(yǔ)料的詞對(duì)20個(gè)(如“里—外、里—旁、中—外、內(nèi)—外、上面—旁邊、前面—側(cè)面、中間—附近……”)。前者的典型詞對(duì)是表空間義詞語(yǔ)中的“同義詞”,很難構(gòu)造異形異義句對(duì)語(yǔ)料;后者的典型詞對(duì)是“反義詞”,很難構(gòu)造異形同義句對(duì)語(yǔ)料。
[10] 可參看https://2030nlp.github.io/SpaCE2023/。
[11] 查看全部參賽系統(tǒng)成績(jī)榜,可訪問(wèn)網(wǎng)頁(yè):https://2030nlp.github.io/SpaCE2024/leaderboard.html。
[12] 大語(yǔ)言模型對(duì)同一道題,生成的答案具有一定隨機(jī)性。我們?cè)赟paCE2024基準(zhǔn)的每個(gè)子任務(wù)中都加入了30道“重復(fù)題”(包括題目和選項(xiàng)完全重復(fù)、題目不變但選項(xiàng)換序等形式),用于評(píng)估大模型的穩(wěn)定性。在“異形同義判別”子任務(wù)上,排名前6的大語(yǔ)言模型,在“重復(fù)題”上的平均穩(wěn)定性為0.59(可以理解為100道重復(fù)題,只在其中59道題上,大語(yǔ)言模型的答案,無(wú)論對(duì)錯(cuò),都保持穩(wěn)定不變)。
[13] 我們嘗試考察大語(yǔ)言模型在不同詞對(duì)題上的表現(xiàn)差異及可能的影響因素,但基于現(xiàn)有的題目和數(shù)據(jù)量,很難得出可靠的結(jié)論。從前6名系統(tǒng)的測(cè)試結(jié)果中,我們抽取了在異形同義題和異形異義題上表現(xiàn)均相對(duì)較好(平均正確率大于0.6)的詞對(duì),分別是23個(gè)和13個(gè),其中交集詞對(duì)有6個(gè):“上面—里面(9題)、上v—下v(7題)、下面—里面(13題)、上—中(13題)、上—里(18題)、上去—下去(7題)”,觀察模型在這些詞對(duì)題上的具體表現(xiàn),并沒(méi)有發(fā)現(xiàn)明顯的規(guī)律。比如盡管“上v—下v”總成績(jī)相對(duì)靠前,但對(duì)于上文例(17)的題,6個(gè)模型中只有2個(gè)答對(duì)(正確率33.33%),很難說(shuō)大模型對(duì)“上v—下v”這對(duì)趨向動(dòng)詞的用法和語(yǔ)義理解掌握得比其他詞對(duì)更好或更差。
[14] C2類2道異形異義題是“例外”,人類成績(jī)低于機(jī)器成績(jī),其中1名被試全部答錯(cuò),得0分。
參考文獻(xiàn)
1. 儲(chǔ)澤祥,王寅. 空間實(shí)體的可居點(diǎn)與后置方位詞的選擇. 語(yǔ)言研究,2008(4):50-62.
2. 方經(jīng)民. 漢語(yǔ)“左”“右”方位參照中的主視和客視——兼與游順釗先生討論. 語(yǔ)言教學(xué)與研究,1987a(3):52-60,154.
3. 方經(jīng)民. 現(xiàn)代漢語(yǔ)方位參照聚合類型. 語(yǔ)言研究,1987b(2):3-13.
4. 高橋彌守彥. 是用“上”還是用“里”.語(yǔ)言教學(xué)與研究,1992(2):47-60.
5. 郭銳. 方位詞“前、后、左、右”的參照策略. //黃正德主編 .中國(guó)語(yǔ)言學(xué)論叢(第三輯). 北京:北京語(yǔ)言大學(xué)出版社,2004:1-30.
6. 侯學(xué)超. 現(xiàn)代漢語(yǔ)虛詞詞典. 北京大學(xué)出版社,1998.
7. 李敏. 現(xiàn)代漢語(yǔ)主賓可互易句的考察. 語(yǔ)言教學(xué)與研究,1998(4):51-59.
8. 廖秋忠. 空間方位詞和方位參考點(diǎn). 中國(guó)語(yǔ)文,1989(1):9-19.
9. 林笛(李平). 漢語(yǔ)空間方位詞的語(yǔ)用考察. //北京大學(xué)漢語(yǔ)語(yǔ)言研究中心《語(yǔ)言學(xué)論叢》編委會(huì)編.語(yǔ)言學(xué)論叢(第十八輯). 北京:商務(wù)印書(shū)館,1993:3-37.
10. 劉寧生. 漢語(yǔ)怎樣表達(dá)物體的空間關(guān)系. 中國(guó)語(yǔ)文,1994(3):169-179.
11. 呂叔湘. 現(xiàn)代漢語(yǔ)八百詞. 北京:商務(wù)印書(shū)館, 1999.
12. 齊滬揚(yáng). 空間位移中主觀參照“來(lái)/去”的語(yǔ)用含義. 世界漢語(yǔ)教學(xué),1996(4):56-65.
13. 孫陳亦. 是什么讓“前”與“后”的對(duì)立消失,待刊.
14. 童小娥. 從事件的角度看補(bǔ)語(yǔ)“上來(lái)”和“下來(lái)”的對(duì)稱與不對(duì)稱. 世界漢語(yǔ)教學(xué),2009(4):495-507.
15. 肖力銘,孫春暉,詹衛(wèi)東,等. SpaCE2022中文空間語(yǔ)義理解評(píng)測(cè)任務(wù)數(shù)據(jù)集分析報(bào)告(A Quality Assessment Report of the Chinese Spatial Cognition Evaluation Benchmark). //Proceedings of the 22nd Chinese National Conference on Computational Linguistics. Harbin, China:Chinese Information Processing Society of China, 2023:547-558.
16. 肖力銘,詹衛(wèi)東,穗志方,等. CCL23-Eval任務(wù)4總結(jié)報(bào)告:第三屆中文空間語(yǔ)義理解評(píng)測(cè)(Overview of CCL23-Eval Task 4:The 3rd Chinese Spatial Cognition Evaluation). //Proceedings of the 22nd Chinese National Conference on Computational Linguistics(Vol 3:Evaluations), 2023:150-158.
17. 詹衛(wèi)東,孫春暉,岳朋雪,等. 空間語(yǔ)義理解能力評(píng)測(cè)任務(wù)設(shè)計(jì)的新思路—SpaCE2021數(shù)據(jù)集的研制. 語(yǔ)言文字應(yīng)用,2022(2):99-110.
18. 張斌. 現(xiàn)代漢語(yǔ)虛詞詞典. 北京:商務(wù)印書(shū)館,2001.
19. 張其昀. 運(yùn)動(dòng)義動(dòng)詞“上”、“下”用法考辨.語(yǔ)言研究,1995(1):37-43.
20. 中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編.現(xiàn)代漢語(yǔ)詞典(第7版). 北京:商務(wù)印書(shū)館,2016.
21. Clark H H. Space, Time, Semantics and Child. // Moore T E.(ed.)Cognitive Development and the Acquisition of Language, New York:Academic Press, 1973:27-62.
22. Herskovits A. Language and Spatial Cognition:An Interdisciplinary Study of Prepositions in English. Cambridge:Cambridge University Press, 1986.
23. Kolomiyets O, Kordjamshidi P, Bethard S,et al. Semeval-2013 Task 3:Spatial Role Labeling, Proceedings of the Seventh International Workshop on Semantic Evaluation(SemEval 2013),2013:255-262.
24. Kordjamshidi P, Rahgooy T, Marie-Francine M,et al. CLEF 2017:Multimodal Spatial Role Labeling(mSpRL)Task Overview. International Conference of the Cross-Language Evaluation Forum for European Languages, 2017.
25. Lakoff G. Women, Fire and Dangerous Things:What Categories Reveal about the World. Chicago:University of Chicago Press, 1987.
26. Mirzaee R, Faghihi H R, Ning Q,et al. SPARTQA:A Textual Question Answering Benchmark for Spatial Reasoning. //Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, 2021:4582-4598.
27. Pustejovsky J, Kordjamshidi P, Moens M F,et al. SemEval-2015 task 8:SpaceEval. // Proceedings of the 9th International Workshop on Semantic Evaluation, 2015:884-894.
28. Talmy L. Toward a Cognitive Semantics:Concept Structuring Systems. Cambridge:MIT Press, 2000.
29. Xiao Liming, Nan Hu, Weidong Zhan,et al. Overview of CCL24-Eval Task 3:The Fourth Evaluation on Chinese Spatial Cognition. https://github.com/2030NLP/SpaCE2024/tree/main/docs/Overview of SpaCE2024.pdf. 2024.
(北京大學(xué)中文系 北京 100871)
(責(zé)任編輯 劉 博)