張坤麗,韓英杰,賈玉祥,穆玲玲,穗志方,昝紅英
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001; 2. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
自然語言理解基于語義理解,尤其是漢語,挖掘有形式依據(jù)的深層次的語義理解是未來自然語言理解的突破口。通常認(rèn)為,句子是相對完整的自然語言的基本意義表達(dá)單位,要理解自然語言的語義,首先就需要理解句子的語義。漢語句子的命題成分、時(shí)體成分、情態(tài)成分、語氣成分和口氣成分,按所表達(dá)主觀性依次增強(qiáng)可抽象為如圖1所示的形式。其中,命題成分和時(shí)體成分可以看作是句子語義的客觀表述系統(tǒng),而情態(tài)成分、語氣成分及口氣成分可看作是句子的意念系統(tǒng),其中以謂詞為中心的句子的基本命題義及附著在其上的否定成分構(gòu)成句子的命題成分,對論元施加限制的程度成分也是命題成分的有效補(bǔ)充,否定、程度、時(shí)體、情態(tài)(也稱模態(tài))以及語氣和口氣所表達(dá)的語義是句子深度語義理解的重要層次。
圖1 句子抽象語義結(jié)構(gòu)層次
通過例1~例7說明漢語句子抽象語義結(jié)構(gòu)的基本成分。例1中所描述的“他去北京參加會議”是基本命題義;例2中“沒有”表達(dá)對基本命題義的否定,詞語“沒有”承擔(dān)否定算子角色;例3中“已經(jīng)”“了”表明基本命題義中的事實(shí)為完成時(shí),詞語“已經(jīng)”、“了”承擔(dān)時(shí)體算子角色;例4中增加了“可能”,表達(dá)了對命題是否為真的不確定判斷,是說話人的主觀態(tài)度,詞語“可能”所表達(dá)的語義,稱之為情態(tài)義,或模態(tài)義;而“可能”則承擔(dān)模態(tài)算子角色;例5中用語氣詞“嗎”及語調(diào)“?”作為語氣成分的表現(xiàn)手法,表明該句是疑問句,“嗎”是承擔(dān)語氣算子任務(wù)的詞語;例6中的“呀”作為對韻律特征的加工,是口氣成分;例7中的程度副詞“很”是對“可能”程度的增強(qiáng),詞語“很”擔(dān)當(dāng)程度算子角色。
例1他去北京參加會議。
例2他沒有去北京參加會議。
例3他已經(jīng)去北京參加會議了。
例4他可能去北京參加會議。
例5他去北京參加會議了嗎?
例6他呀,去北京參加會議了。
例7他很可能到北京參加會議了。
本文中將基本命題義之外的否定、程度、時(shí)體、模態(tài)、語氣、口氣等統(tǒng)稱為邏輯補(bǔ)足義,即對基本命題義的補(bǔ)充。其中,模態(tài)義的標(biāo)注框架在文獻(xiàn)[1]中已經(jīng)詳細(xì)描述,本文中不再復(fù)述;口氣成分將另作他文討論。因此,本文從語義理解的角度出發(fā),重點(diǎn)針對否定、程度、時(shí)體和語氣成分這四部分,建立了邏輯補(bǔ)足義標(biāo)注框架,在漢語句子語義角色標(biāo)注基礎(chǔ)之上進(jìn)行邏輯補(bǔ)足義標(biāo)注,且本文對能夠與算子標(biāo)記相匹配的顯式特征成分進(jìn)行標(biāo)注,即標(biāo)出算子類型,而否定成分和程度則標(biāo)明所限定的范圍,并對標(biāo)注結(jié)果進(jìn)行分析。
本文結(jié)構(gòu)組織如下:第1節(jié)介紹相關(guān)研究,第2節(jié)介紹漢語邏輯補(bǔ)足義分類體系;第3節(jié)介紹相應(yīng)算子詞典的構(gòu)建過程;第4節(jié)是邏輯補(bǔ)足義標(biāo)注及分析;最后一節(jié)是結(jié)語。
眾多學(xué)者對漢語句子的語義結(jié)構(gòu)進(jìn)行了研究,有學(xué)者以命題成分的“主體表現(xiàn)”作為切入點(diǎn)分析漢語助動(dòng)詞的構(gòu)成功能[2],也有學(xué)者提出了涵蓋功能語氣和口氣的抽象語義結(jié)構(gòu)[3-4],在抽象語義結(jié)構(gòu)中對命題成分、時(shí)體成分、情態(tài)成分、語氣成分和口氣成分從不同的角度進(jìn)行分析和闡述,從句子客觀表述到針對交際對象的主觀表述都有所體現(xiàn)[5]。在句子語義標(biāo)注體系及語料庫構(gòu)建方面,Pustejovsky J等[6-7]以英語為研究對象,提出了以事件及事件關(guān)系為核心的語義標(biāo)注體系,所構(gòu)建的TIMEBANK語料庫標(biāo)注了事件之間以及事件和時(shí)間的關(guān)系,還將模態(tài)、否定、時(shí)體等成分以主從連接(subordination link,SLINK)和體連接(aspectual link,ALINK)的方式與事件建立聯(lián)系。Banarescu L等[8]提出一種新的抽象語義表示(abstract meaning representation, AMR)方式,使用單根有向無環(huán)圖表示一個(gè)句子的語義,以保持句子屬性主干、論元共享以及還原完整句子語義等優(yōu)點(diǎn)吸引了眾多學(xué)者的關(guān)注,同時(shí),AMR配套發(fā)布了包括《小王子》在內(nèi)的兩萬多句英文語料庫。李斌等[9-10]針對漢語的特點(diǎn),以AMR標(biāo)注規(guī)范為基礎(chǔ),制定了中文AMR標(biāo)注規(guī)范,并完成了中文版《小王子》和CTB中部分語料的標(biāo)注[10],對AMR在漢語句子表示及跨語言對比方面進(jìn)行了探討。這些研究從不同的層面對英語及漢語的句子語義表示進(jìn)行了研究,TIMEBANK側(cè)重于事件的時(shí)間關(guān)系描述,AMR則側(cè)重實(shí)詞表達(dá)的語義,忽略虛詞及形態(tài)變化,體現(xiàn)較虛的語義[11]。對于漢語來講,邏輯補(bǔ)足義對時(shí)間關(guān)系和面向交際對象的主觀描述都有所涉及,且邏輯補(bǔ)足成分多由虛詞充當(dāng)相應(yīng)的算子角色,是基本命題義的補(bǔ)充。同時(shí),袁毓林指出,相較于宏觀層次的篇章知識,中觀層次的論元結(jié)構(gòu)知識,微觀層次的邏輯結(jié)構(gòu)知識對語義理解及信息抽取的作用也至關(guān)重要[12]。因此,從邏輯結(jié)構(gòu)關(guān)系入手,構(gòu)建包含以虛詞為主的邏輯補(bǔ)足義的精煉語料庫,是信息抽取等自然語言處理所需語義知識的重要資源。
本文在973子課題“融合三元空間的中文語言知識與世界知識獲取和組織”語料庫謂詞語義角色標(biāo)注工作基礎(chǔ)上,通過附著于句子基本命題成分基礎(chǔ)上的否定成分、程度成分,以及時(shí)體成分、模態(tài)成分、語氣成分,對句子的邏輯補(bǔ)足義進(jìn)行了系統(tǒng)的研究與標(biāo)注。文獻(xiàn)[1]對模態(tài)義與語氣的區(qū)分以及其標(biāo)注框架進(jìn)行了研究,為句子抽象語義結(jié)構(gòu)的其他部分建立標(biāo)注體系提供了依據(jù)和標(biāo)準(zhǔn)。
邏輯補(bǔ)足義的標(biāo)注擬在現(xiàn)有邏輯補(bǔ)足義研究的基礎(chǔ)上制定一個(gè)分類體系,構(gòu)建能夠承擔(dān)相應(yīng)算子任務(wù)的詞典,并建立標(biāo)注規(guī)范進(jìn)行標(biāo)注。邏輯補(bǔ)足義分類體系如表1所示,共包含五大類27小類算子,可以擔(dān)當(dāng)相應(yīng)算子角色的621個(gè)詞語(短語),分別給出相應(yīng)的典型詞語(短語)、標(biāo)記類別及詞語(短語)數(shù),模態(tài)的相關(guān)類別劃分及標(biāo)注在文獻(xiàn)[1]中已進(jìn)行了詳細(xì)說明,模態(tài)的算子不僅包含詞語,如表1所示還包含諸如“不好不”等短語,以“gs”作為標(biāo)記。以下將主要討論否定、程度、時(shí)體及語氣四大類的標(biāo)注框架。
表1 邏輯補(bǔ)足義分類體系
續(xù)表
句子的否定義通常通過句子中的否定詞來實(shí)現(xiàn),否定詞會對其轄域內(nèi)成分的語義進(jìn)行否定,使其邏輯真值取反,否定義是邏輯語義關(guān)系中的重要組成部分。否定義的標(biāo)注包括否定詞的標(biāo)注及其否定轄域的標(biāo)注。句子中多由否定副詞承擔(dān)否定算子(negative operator,neg)的任務(wù),典型詞語有“不、不必、沒、沒有、未、未曾”等,算子詞表的構(gòu)建在第3節(jié)進(jìn)行描述,在此重點(diǎn)對否定詞的轄域進(jìn)行討論。
語言學(xué)上否定的轄域,指一個(gè)否定成分的作用范圍。也就是說,在一個(gè)包含否定詞的表達(dá)中,所有可能被這個(gè)否定詞否定的項(xiàng)目構(gòu)成了否定的轄域。事實(shí)上,處于否定轄域之中的幾個(gè)成分通常只有一個(gè)是真正被否定的,這個(gè)被否定的項(xiàng)目叫做否定的焦點(diǎn)。袁毓林[13-14]認(rèn)為否定詞有自己獨(dú)立的轄域,否定中心可以與句子的焦點(diǎn)分離。在無標(biāo)記的情況下,否定詞的轄域一定是否定詞后面的成分。在有標(biāo)記的情況下,否定的轄域可以回溯到否定詞之前的成分。Lee等[15]也認(rèn)為否定詞有自己的轄域,即否定詞只否定其右側(cè)的成分。李寶倫等[16]進(jìn)一步指出,否定詞的轄域是其m-統(tǒng)制的局部區(qū)域,否定詞在沒有焦點(diǎn)的情況下否定靠近否定詞右側(cè)的成分,形成毗鄰否定,但如果否定詞后面有焦點(diǎn)存在,否定詞否定焦點(diǎn)。沈家煊[17]討論了毗鄰否定,當(dāng)動(dòng)詞前還有其他副詞性成分與否定詞毗鄰時(shí),否定詞在常規(guī)情況下并不否定動(dòng)詞,而是否定與否定詞毗鄰的副詞性成分。本文中根據(jù)深層語義理解的需求,將否定的轄域定為否定詞語及其后面的動(dòng)詞短語VP或形容詞,即已經(jīng)標(biāo)注核心謂詞的語義角色,在某些特殊情況下,可以回溯到否定詞之前的成分。標(biāo)注語料中,在否定詞后面一律加上“neg”做標(biāo)志,并用“{ }”標(biāo)明其轄域。如例8、例9所示。
例8劉 校長 說 他 {<不>neg 批準(zhǔn) 這 項(xiàng) 計(jì)劃} 。
例9生活 常常 是 {<不>neg 公平} 的 。
在“V+不+補(bǔ)語”這類特殊情況中,為了保證否定轄域中語言成分的完整性,轄域包括否定算子前面的動(dòng)詞。如例10所示。
例10沒有 我們 {克服 <不>neg 了} 的 困難 。
某些構(gòu)式或固定搭配中的否定詞不標(biāo)注,比如“V不V”,如例11中“吃不吃”則不進(jìn)行標(biāo)注。
例11劉 教授 吃 不 吃 饅頭 ?
否定詞出現(xiàn)在疑問句的句末,作為疑問句的標(biāo)識時(shí),也不予標(biāo)注,如例12中的“沒有”則不予標(biāo)注。
例12你們 簽訂 合同 沒有 ?
程度義是指對其修飾詞語施加程度上的限制,在句中承擔(dān)程度算子角色的多為程度副詞。程度副詞是一個(gè)封閉的集合,多位語言學(xué)家對程度副詞進(jìn)行了探討。張誼生[18]將89個(gè)程度副詞分為兩類六級,分別是絕對程度副詞和相對程度副詞兩類,相對程度副詞又分為最高級、較高級和較低級,絕對程度副詞又分為超量級、高量級和低量級。藺璜等[19]對85個(gè)程度副詞按照程度從高到低劃分為極量、高量、中量和低量四類。這些類別及分級劃分雖有一定的差異,但從粗粒度上來看,都可以分為兩大類,即程度義都可分成“增強(qiáng)”“削弱”兩大類。本文從標(biāo)注可行性的角度考慮,把文獻(xiàn)[19]四類的“極量”“高量”合并為“增強(qiáng)”,“中量”“低量”合并為“削弱”,作為程度的分類。
程度副詞的轄域較容易確定。程度副詞具有定位性強(qiáng)的特點(diǎn),除“很、極”等極少成員能作補(bǔ)語外,余者永遠(yuǎn)處于狀中結(jié)構(gòu)的前直接成分狀語的位置,而且十分固定。程度副詞與其他副詞連用時(shí),始終緊貼中心語,處于最內(nèi)層,如在句子“我一向很敬佩他”中,副詞“一向”與程度副詞“很”連用,“很”緊貼中心語“敬佩”。只有與“不”連用時(shí),如在句子“這個(gè)人有點(diǎn)不老實(shí)”中,程度副詞才離開最內(nèi)層,不緊貼中心語。
程度算子(degree operator,dgr)主要由副詞“很、非常、特別、蠻、過分、最、不大、稍微、稍許、有點(diǎn)兒”等擔(dān)當(dāng)相應(yīng)的角色,對于修飾的中心詞進(jìn)行程度上的限制,按照程度高低分為“增強(qiáng)程度”(high degree)和“削弱程度”(low degree)兩類。標(biāo)記規(guī)范如表1所示。標(biāo)注語料中,在承擔(dān)相應(yīng)算子任務(wù)的詞語后一律加上“dgr_high”或“dgr_low”做標(biāo)志,并用“{ }”標(biāo)志其轄域。轄域定為程度算子后的動(dòng)詞短語VP、形容詞、副詞等。如例13、例14所示。
例13考試 期間 她 {<非常>dgr_high 用功} 。
例14大家 對于 工資 問題 一般 都 {<比較>dgr_low 關(guān)心} 。
在一類特殊情況下,由“得”構(gòu)成程度詞后置,此時(shí)轄域包含程度詞前面的謂詞,如例15中的轄域。
例15病人 的 妻子 {傷心 得 <很>dgr_high} 。
“時(shí)”“體”是加在命題之上的有客觀依據(jù)的語義成分?!皶r(shí)”用來稱呼具體的時(shí)態(tài);“體”是用來描寫動(dòng)作行為進(jìn)行狀況。每一種語言都會借助某種手段來表達(dá),常見的手段有形態(tài)、詞綴、詞匯等。在語法中,時(shí)或時(shí)態(tài)表示行為發(fā)生的時(shí)間和說話時(shí)的關(guān)系,一般分為過去時(shí)、現(xiàn)在時(shí)、將來時(shí)等。漢語中沒有時(shí)態(tài)的使用,但仍有時(shí)間副詞及時(shí)態(tài)助詞的輔助。針對漢語的“體”,石毓智[20]認(rèn)為其標(biāo)記系統(tǒng)主要由3個(gè)動(dòng)詞后綴“了”“著”“過”構(gòu)成,分工明確地表示一個(gè)完整動(dòng)作的不同發(fā)展階段:“了”表示動(dòng)作的從無到有階段, 稱為“實(shí)現(xiàn)體”;“著”表示動(dòng)作的持續(xù)進(jìn)行階段,稱為“持續(xù)體”;“過”則表示動(dòng)作行為的完結(jié),稱為“終結(jié)體”。漢語的現(xiàn)在時(shí)特征并不明顯,因此本文從邏輯補(bǔ)足義標(biāo)注的需求出發(fā),只包含兩個(gè)時(shí):將來時(shí)和過去時(shí);實(shí)現(xiàn)體和終結(jié)體都可認(rèn)為動(dòng)作的完成,因此包含兩個(gè)體:進(jìn)行體(持續(xù)體)和完成體(實(shí)現(xiàn)體和終結(jié)體)。時(shí)體算子類別標(biāo)記如表1所示。時(shí)體義的標(biāo)注是將時(shí)體算子類型標(biāo)記在擔(dān)任此角色的詞語上。
(1) 將來時(shí)(future tense)
將來時(shí)表示將來某一時(shí)刻的動(dòng)作或狀態(tài),或?qū)砟骋欢螘r(shí)間內(nèi)經(jīng)常的動(dòng)作或狀態(tài)。常常和表示將來的時(shí)間狀語連用,如“明天、下周、將來”等。承擔(dān)算子任務(wù)的典型詞語有副詞“到時(shí)、趕明兒、將”等,如例16、例17所示。
例16對于 那 件 事 <到時(shí)>tense_fut 再 辯論 吧。
例17競賽 <將>tense_fut 分區(qū) 同時(shí) 進(jìn)行。
(2) 過去時(shí)(past tense)
過去時(shí)表示過去某個(gè)時(shí)間里發(fā)生的非持續(xù)性動(dòng)作或存在的狀態(tài),也表示經(jīng)?;蚍磸?fù)發(fā)生的動(dòng)作,常和表示過去的時(shí)間狀語連用,如“昨天、昨晚、兩天前”等;也表示過去主語所具備的能力和性格。承擔(dān)算子任務(wù)的典型詞語有副詞“剛剛、才”等。如例18所示。
例18我 <才>tense_past 從 上海 回來 不久。
(3) 進(jìn)行體(progressive aspect)
進(jìn)行體表示說話時(shí)正在進(jìn)行或者現(xiàn)階段一直在進(jìn)行的動(dòng)作或正在持續(xù)的狀態(tài)。典型詞語有助詞“著”及副詞“正、在、正在”等,如例19、例20所示。
例19那個(gè) 外國人 <正>tense_prog 慢慢 地 走 <著>tense_prog。
例20紅旗 <在>tense_prog 飄揚(yáng)。
(4) 完成體(perfect aspect)
完成體表示動(dòng)作或者狀態(tài)已經(jīng)完成。當(dāng)一個(gè)動(dòng)作和過程發(fā)生在說話之前,現(xiàn)在那個(gè)動(dòng)作和過程已經(jīng)完成了,或指過去某事件或動(dòng)作發(fā)生在另一事或動(dòng)作之前,有很明顯的時(shí)間對比。按Comrie[21]的定義,完成體表示將一先行“場面”(situation)與某一“基準(zhǔn)時(shí)間”(reference time)相關(guān)聯(lián)。它既敘述該先行場面的內(nèi)在時(shí)間結(jié)構(gòu)(即動(dòng)貌),同時(shí)也表示該場面與基準(zhǔn)時(shí)間之間的外在時(shí)間關(guān)系(即時(shí)式)。完成體典型算子有助詞“了、過”等,副詞“已、已經(jīng)、曾、曾經(jīng)、一度”等,語氣詞“來著、來的、了”等,如例21~例23所示。
例21西紅柿 <已>tense_perf 熟 透 了。
例22我 整整 干 <了>tense_perf 八 個(gè) 鐘頭。
例23我 <曾>tense_perf 見 <過>tense_perf 許許多多 像 他 這樣 志大才疏 的 人。
語氣表示說話人對某一行為或事情的看法和態(tài)度,是思想感情運(yùn)動(dòng)狀態(tài)支配下語句的聲音形式。從文本角度說,一個(gè)句子的感情色彩幾乎完全依賴語氣詞來體現(xiàn)。因此,對于語氣的研究非常重要。孫汝建[22]認(rèn)為廣義的語氣包括語氣和口氣,狹義的語氣只有陳述、疑問、祈使和感嘆四種。本文的語氣部分僅討論狹義的功能語氣,按表達(dá)的語氣分為陳述語氣、疑問語氣、祈使語氣、感嘆語氣等四小類。標(biāo)注標(biāo)記規(guī)范如表1所示。
(1) 陳述語氣(indicative intonation)
陳述語氣表示客觀陳述事實(shí),包括肯定語氣和否定語氣,不包含強(qiáng)烈情感。形式標(biāo)志為語氣詞“了”和助詞“的”??隙ㄕZ氣詞與結(jié)構(gòu)助詞的區(qū)別在于結(jié)構(gòu)助詞若去掉便會影響句子的結(jié)構(gòu),而語氣詞去掉則無傷大雅。否定語氣則是語氣詞“了”和助詞“的”與否定詞“沒有”“不”搭配。承擔(dān)陳述語氣算子任務(wù)的有助詞“的”以及語氣詞“了、嘛、呢、罷了、也、而已”等,如例24、例25所示。
例24要 干 好 這 項(xiàng) 工作,不 懂 外語 是 不 行 <的>intonation_indicative。
例25孔子 ,魯人 <也>intonation_indicative。
(2) 疑問語氣(interrogative intonation)
疑問語氣按其所傳語氣將句子分為傳信、傳疑兩大類。傳疑助詞有三種不同作用“一則有疑而用以設(shè)問者”、“一則無疑而用以擬議者”和“一則不疑而用以詠嘆者”。通??梢员磉_(dá)疑問、推測答案、要求證實(shí)或征求意見等的意思。不同的疑問語氣詞,表示的疑問程度不盡相同,“嗎”的疑問程度最高,“呢”和“吧”疑問語氣較“嗎”來得要小,“么、啊、哇、啦、哪、吶、呀”等語氣詞有舒緩語氣的作用。擔(dān)當(dāng)疑問語氣算子角色的詞語有語氣詞“嗎、么、吧、呢、也、乎”等,如例26、例27所示。其中例26疑問語氣由疑問代詞“哪兒”來體現(xiàn),有沒有“啊”都可以,有“啊”語氣更和緩。
例26你 在 哪兒 <啊> intonation_interrogative?
例27明天 你 來 <嗎>intonation_interrogative?
還有一些疑問語氣不含有語氣詞,是依靠疑問代詞、“V 不(沒)V”、“是……還是”等來體現(xiàn),如例28~例30所示,這種無顯式語氣算子的疑問語氣在本文的標(biāo)注體系中暫不考慮。
例28現(xiàn)在 幾 點(diǎn) 鐘 了? (疑問語氣由疑問代詞“幾”來體現(xiàn))
例29你 是 學(xué) 英語,還 是 學(xué) 日語? (疑問語氣由“是……還是”來體現(xiàn))
例30你 能 不 能 等 五 分鐘。 (疑問語氣由“V 不V”體現(xiàn))
(3) 祈使語氣(imperative intonation)
祈使語氣用于表達(dá)直接命令或請求的語氣,如提出命令、要求、請求、邀請、督促等,它還用來表示禁止、許可或任何其他類的勸告或建議等。典型詞語有語氣詞“吧、嘛、嘍、罷、呀、啊”等,如例31~例33所示。
例31老姜 ,汽車 開 慢 一點(diǎn) <嘛> intonation_imperative!
例32你 幫 我 把 窗 關(guān)<嘍> intonation_imperative,風(fēng)太大。
例33別 再 說話 <啦>intonation_imperative!
還有一些祈使語氣不含語氣詞,如例34和例35,這種無顯式語氣算子的祈使語氣在本文的標(biāo)注體系中暫不考慮。
例34請 打開 燈。 (要求語氣,無語氣詞)
例35不 許 胡說! (禁止語氣,無語氣詞)
(4) 感嘆語氣(exclamation intonation)
感嘆語氣表示輸出主觀的感情色彩。從語氣上明顯表現(xiàn)出內(nèi)心的喜、怒、哀、樂、愛、惡、欲等強(qiáng)烈情緒,強(qiáng)調(diào)贊嘆、驚訝、傷感、憤怒、譏嘲、鄙斥、恐懼或希望等各種情感反應(yīng)。感嘆語氣詞和嘆詞不同,嘆詞通常用于句首,而感嘆語氣詞一般用于句末,且不能獨(dú)立使用。典型詞語有語氣詞“啊、呀、哇、哪、矣、乎、哉、與”等,如例36、例37所示。
例36多 好 的 天<啊>intonation_exclamation!
例37快 <哉>intonation_exclamation此 風(fēng)!
邏輯補(bǔ)足義算子詞典中的詞語(短語)主要來源于專題研究及個(gè)例研究文獻(xiàn),并在收入詞典時(shí)進(jìn)行了辨析與篩選。考慮標(biāo)注邏輯補(bǔ)足義的需要,從ID、詞語、詞性、來源、釋義、例句、用法、類別、標(biāo)記、全拼音等屬性對承擔(dān)各類算子任務(wù)的詞語(短語)進(jìn)行描述。從詞性上來看,承擔(dān)否定和程度算子角色的詞語絕大多數(shù)為副詞,承擔(dān)時(shí)體和語氣算子任務(wù)的詞語大多數(shù)為助詞和語氣詞,也涉及部分副詞,而已構(gòu)建的現(xiàn)代漢語虛詞用法知識庫(CFKB)[23-24]包含副詞、連詞、介詞、語氣詞、方位詞、助詞等用法詞典,并且在副詞用法詞典中將副詞劃分為小類,包含否定副詞和程度副詞這兩類,因此以CFKB為基礎(chǔ),從副詞用法詞典中抽取擔(dān)當(dāng)否定算子及程度算子的詞語,從助詞用法詞典及語氣用法詞典中抽取擔(dān)當(dāng)時(shí)體算子及語氣算子角色的詞語,并加以整理,其他以《現(xiàn)代漢語詞典》(h)、《現(xiàn)代漢語語法信息詞典詳解》[25](y)及其他(z)內(nèi)容為補(bǔ)充,構(gòu)建相應(yīng)的算子詞典。在CFKB中以用法為粒度對詞語進(jìn)行描述,為了在后續(xù)邏輯補(bǔ)足義自動(dòng)識別和標(biāo)記中便于繼承性地利用其用法自動(dòng)識別的方法與成果,在各算子詞典中來源于CFKB的詞語保留以用法為分割粒度,詞典中ID按CFKB的編碼規(guī)則[23-24]進(jìn)行編碼。邏輯補(bǔ)足義各算子詞典樣例如圖2所示。
圖2 邏輯補(bǔ)足義算子詞典樣例
在詞典中,有同一個(gè)詞多個(gè)語義或用法屬于同一類別的,也有同一詞的不同用法屬于不同類別的,如圖2(c)中“過”就表示用法1、2、3都是擔(dān)當(dāng)完成體算子角色的詞語,“著”用法1、3和用法2分屬“進(jìn)行體”和“祈使語氣”算子類詞語。在算子詞典中,除了收錄有副詞之外,還有助動(dòng)詞、動(dòng)詞、短語等,來源于CFKB的算子約占62.4%,而本文所討論的否定、程度、時(shí)體及語氣在算子詞表中收錄了副詞(d)、助詞(u)及語氣詞(y),全部來源于CFKB。在CFKB中已經(jīng)對這三類詞語從用法粒度方面做了較為全面的描述,區(qū)分不同用法歸入不同的類別中。目前已完成的四大類算子詞典共包含詞語323個(gè),所收錄詞語個(gè)數(shù)如表1所示,統(tǒng)計(jì)時(shí)不區(qū)分用法,僅按用法進(jìn)行統(tǒng)計(jì),如圖2(b)程度類中的“大”則按一個(gè)詞語計(jì)入。
本文語料來源于北京大學(xué)中文樹庫[26],根據(jù)漢語語法點(diǎn)抽取了樹庫55 742句子中的10 634句作為標(biāo)注語料。所抽取的句子已經(jīng)進(jìn)行分詞和語義角色標(biāo)注,本文對其中的邏輯補(bǔ)足義進(jìn)行標(biāo)注,主要是對附加在論元結(jié)構(gòu)上擔(dān)任相應(yīng)算子任務(wù)的詞語標(biāo)注算子類別,并對否定和程度標(biāo)注所限定的轄域。算子用“< >”標(biāo)定,詞語后面一律加上類別標(biāo)簽(表1中“標(biāo)注標(biāo)記”所示)作標(biāo)志,對否定和程度用"{ }"標(biāo)明其轄域。這樣,對否定和程度而言標(biāo)明了其所支配的副詞性成分或動(dòng)詞性成分的范圍。為明晰起見,僅將邏輯補(bǔ)足義標(biāo)注結(jié)果呈現(xiàn)出來,略去語義角色標(biāo)注,標(biāo)注如例38所示。
例38詞典 {<太>dgr_high 舊} <了>intonation_indicative , 再 買 一 本 新 的 <吧>intonation_imperative , { <好在>mod_comment_3 也 {<不>neg {<太>dgr_high 貴}} } 。
文獻(xiàn)[1]中已對模態(tài)義的標(biāo)注進(jìn)行了總結(jié),否定、程度、時(shí)體、語氣在語料中所出現(xiàn)的詞語數(shù)、標(biāo)注頻次及相應(yīng)類的前五位高頻詞在表2中列出。在語料中共出現(xiàn)相應(yīng)詞語125個(gè),占總詞語數(shù)的38.7%,而前五名高頻詞占總標(biāo)注頻次的86.7%,雖然也符合常用詞出現(xiàn)頻率較高的規(guī)律,但從對詞語的覆蓋率而言,語料還有進(jìn)一步補(bǔ)充的必要。
在標(biāo)注中,對幾類特殊情況予以不同的標(biāo)注處理。
表2 標(biāo)注結(jié)果統(tǒng)計(jì)
(1) 否定算子與其他算子共現(xiàn)
否定算子有轄域,除了限定焦點(diǎn)為命題中心語之外,也可以限定其他成分,如否定算子和模態(tài)算子共現(xiàn)時(shí),“不可能”是必然模態(tài),而單獨(dú)的“可能”是或然模態(tài);“不一定”是或然模態(tài),“一定”是必然模態(tài)。在標(biāo)注時(shí),若同時(shí)出現(xiàn)承擔(dān)否定算子任務(wù)的詞語(如“不”)與承擔(dān)模態(tài)算子任務(wù)的詞語時(shí),將模態(tài)與否定兩者分開標(biāo)注,后期通過邏輯計(jì)算,確定相應(yīng)的模態(tài),如例39中,其中“不”為否定,“可能”為或然模態(tài),“不可能”合起來表示必然模態(tài),則“不”和“可能”分別標(biāo)注,標(biāo)注結(jié)果如例39所示。
例39他 {<不>neg {<可能>mod_possibility在六點(diǎn)鐘回到家}}。
(2) “沒有”作為核心動(dòng)詞及否定算子的區(qū)分
在本文中,所標(biāo)注的否定義是對基本邏輯義的語義的補(bǔ)充,而“沒有”在基本語義角色中可以作為核心動(dòng)詞出現(xiàn),如在例40中,“沒有”盡管可以認(rèn)為是表示否定的“沒”與動(dòng)詞“有”的結(jié)合,也有否定的意味,但在語義角色標(biāo)注時(shí)已將其作為核心動(dòng)詞,因此在本文的語料標(biāo)注過程中,例40中的“沒有”將不再作為否定標(biāo)注,而這一類核心動(dòng)詞與邏輯補(bǔ)足義重疊的情況也將作為下一步研究的內(nèi)容。
例40你 的 鋼筆 沒有 墨水 了 。
(3) 兼類的區(qū)分
在邏輯補(bǔ)足義標(biāo)注過程中,除了要區(qū)分類似“沒有”作為算子和核心動(dòng)詞,還要區(qū)分同一詞語屬于哪一類算子,如“著”,可作為動(dòng)詞“著”(zhao2),也可以作為助詞,在不同的語境下分屬于時(shí)體及語氣類。從圖2(c)和圖2(d)中可看到,根據(jù)CFKB中的描述,用法1、3表示動(dòng)作或狀態(tài)的持續(xù),歸入時(shí)體中的進(jìn)行時(shí),如例41所示;用法2用于祈使句,時(shí)間上表未然,加強(qiáng)命令或囑咐的語氣,屬于祈使語氣,如例42所示。在確定算子時(shí)根據(jù)CFKB中的描述確定其相應(yīng)類別,標(biāo)注時(shí)則可以利用CFKB的用法自動(dòng)識別[24]對其用法進(jìn)行標(biāo)注,并以此為基礎(chǔ)確定對應(yīng)邏輯補(bǔ)足義類別。
例41小 貓 追逐 <著>tense_prog 蝴蝶 。
例42快 把 門 關(guān) <著> intonation_imperative!
邏輯補(bǔ)足義的標(biāo)注是在已經(jīng)標(biāo)注動(dòng)詞論元結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的,論元之間的論旨角色可在一定程度上反映事件元素及關(guān)系,而邏輯補(bǔ)足義則對命題所表示的時(shí)間類型及其真實(shí)性做出約束,所標(biāo)注的語料可為機(jī)器學(xué)習(xí)和自動(dòng)識別句子各成分之間的語義關(guān)系提供十分精煉的訓(xùn)練語料。
針對深層語義理解的需求,本文以抽象語義結(jié)構(gòu)中的邏輯補(bǔ)足義標(biāo)注為目標(biāo),綜合了已有研究成果,建立了邏輯補(bǔ)足義標(biāo)注分類體系,在CFKB虛詞用法詞典基礎(chǔ)上構(gòu)建了相應(yīng)的算子詞典,制訂了邏輯補(bǔ)足義標(biāo)注規(guī)范,并針對抽取10 634句中的否定、程度、時(shí)體及語氣算子及其轄域進(jìn)行了標(biāo)注。
目前只是對邏輯補(bǔ)足義標(biāo)注框架初步探討,所標(biāo)注的語料中出現(xiàn)的詞只占總詞數(shù)的38.7%,下一步的工作嘗試補(bǔ)充更多具有代表性的句子進(jìn)行邏輯補(bǔ)足義標(biāo)注,并基于標(biāo)注語料對兼具多種邏輯補(bǔ)足義的算子進(jìn)行消歧,自動(dòng)識別與標(biāo)注邏輯補(bǔ)足義;此外,目前僅考慮與標(biāo)記詞語相匹配的顯式標(biāo)記邏輯補(bǔ)足義的標(biāo)注,對于與核心動(dòng)詞有交叉的邏輯補(bǔ)足義以及隱式邏輯補(bǔ)足義的探討也是下一步需要考慮的工作。期待根據(jù)抽象語義結(jié)構(gòu),在顯式與隱式邏輯義標(biāo)注基礎(chǔ)之上,進(jìn)行深層語義理解研究。