国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語復(fù)合名詞語義信息標注詞庫:基于生成詞庫理論

2015-04-21 08:33宋作艷趙青青亢世勇
中文信息學(xué)報 2015年3期
關(guān)鍵詞:復(fù)合詞詞庫構(gòu)詞

宋作艷,趙青青,亢世勇

(1. 北京師范大學(xué) 文學(xué)院,北京 100875;2. 魯東大學(xué) 文學(xué)院 山東省語言資源開發(fā)與應(yīng)用重點實驗室,山東 煙臺 264025)

?

漢語復(fù)合名詞語義信息標注詞庫:基于生成詞庫理論

宋作艷1,趙青青1,亢世勇2

(1. 北京師范大學(xué) 文學(xué)院,北京 100875;2. 魯東大學(xué) 文學(xué)院 山東省語言資源開發(fā)與應(yīng)用重點實驗室,山東 煙臺 264025)

復(fù)合名詞分析一直是語言研究和自然語言信息處理中的一個重要問題,涉及未登錄詞的識別、自動釋義以及詞典編纂等。生成詞庫理論是目前較新的一種語義學(xué)理論,我們擬利用該理論對漢語復(fù)合名詞進行語義信息標注,建立一個詞庫。該文首先介紹了這一詞庫的標注框架,然后通過對“紙”、“石”構(gòu)成的復(fù)合詞的對比分析,展示了這一詞庫在復(fù)合名詞構(gòu)詞、語義研究中的應(yīng)用。研究結(jié)果顯示,物性角色、自然類和人造類是非常重要的語義信息,能揭示復(fù)合名詞構(gòu)詞和語義的一些模式和規(guī)律。

語義信息標注詞庫;復(fù)合名詞;生成詞庫理論;物性結(jié)構(gòu);語義類型

1 引言

復(fù)合名詞是復(fù)合詞中最能產(chǎn)的格式,是新詞語、新術(shù)語的主要來源之一。因此,復(fù)合名詞一直是語言理論研究的重要內(nèi)容,也是自然語言處理中的一個難題。研究的重點主要在復(fù)合名詞內(nèi)部復(fù)雜的語義結(jié)構(gòu)、語義模式、釋義等方面,如文獻[1-3]。

生成詞庫理論是目前較新的語義學(xué)理論。Johnson 和Busa[4]較早在復(fù)合名詞(短語)的研究中系統(tǒng)引入了這一理論,建議用物性修飾(qualia modification)來刻畫偏正式名名復(fù)合詞內(nèi)部的語義關(guān)系,并據(jù)此分析了英語和意大利語中名名復(fù)合詞的語義模式。例如,bread knife、lemon juice、glass door中的bread、lemon、glass分別修飾中心名詞物性結(jié)構(gòu)(qualia structure)中的功用角色(telic role)、施成角色(agentive role)和構(gòu)成角色(constitutive role),即說明中心名詞所指事物的功用、來源和材料。這三種物性修飾關(guān)系在意大利語中分別對應(yīng)不同的介詞,說明物性角色是非常重要的語義信息,具有語言學(xué)價值。自此,很多學(xué)者開始在多種語言的復(fù)合名詞研究中引入了物性結(jié)構(gòu)。漢語方面,黃潔[5]、王洪君[6]分別在隱轉(zhuǎn)喻復(fù)合名詞(如“扇貝”、“雪花”)、含“鍋”、“碗”的復(fù)合名詞的分析中利用了物性結(jié)構(gòu)。Lee et al.[7]從跨語言的角度例舉了名名復(fù)合詞中的四種物性修飾關(guān)系: 形式(Formal)、構(gòu)成、功用、施成。宋作艷[8]利用物性結(jié)構(gòu)揭示了類詞綴詞(如“鋼琴家”、“豆?jié){機”)中隱含的謂詞,為其釋義做出了新的解釋。Song和Qiu[9]考察了含有動詞性成分的名詞性復(fù)合詞(如“剪刀”、“叫聲”),發(fā)現(xiàn)其中的動詞性成分可以通過不同的方式顯示復(fù)合名詞的功用角色或施成角色,其中功用角色最為常見。

不過,基于生成詞庫理論的漢語復(fù)合名詞研究還不夠深入和系統(tǒng),表現(xiàn)在主要借鑒其物性結(jié)構(gòu),并未涉及其語義類型體系;研究僅限于舉例式,并未進行大規(guī)模的統(tǒng)計分析;多關(guān)注名名復(fù)合詞,尚未涉及形名等復(fù)合名詞。我們擬基于此理論中的物性結(jié)構(gòu)和語義類型體系,對漢語中的各種復(fù)合名詞進行標注,建立詞庫,在此基礎(chǔ)上進行構(gòu)詞、語義分析。建立此詞庫的目的主要有兩個,一是希望能從物性信息、自然類與人造類的角度揭示漢語復(fù)合名詞的構(gòu)詞、語義特點,找出能產(chǎn)的構(gòu)詞、釋義模式,以期用于中文信息處理中未登錄詞、術(shù)語等的自動識別和自動釋義,以及詞典編纂;二是希望在此基礎(chǔ)上進而建立基于生成詞庫理論的漢語語義類型體系(知識體系)。利用生成詞庫理論進行語義標注的想法最早源于Pustejovsky et al.[10],他們提出了系統(tǒng)的生成詞庫標注語言(GLML: A Generative Lexicon Markup Language),其中包括復(fù)合名詞物性關(guān)系的標注。Bouillon et al.[11]則設(shè)計了一套方案在上下文中標注意大利語和法語復(fù)合詞中的物性關(guān)系。與這兩種標注框架不同,我們不僅要標注物性信息,還要標注語義類型;不僅標注名名復(fù)合名詞,還標注形名、動名、名動等復(fù)合名詞;而且我們的標注在詞庫中進行。

下文首先簡單介紹生成詞庫理論,然后描述復(fù)合名詞詞庫的語義標注框架,在此基礎(chǔ)上以“紙”、“石”構(gòu)成的復(fù)合詞為例,說明這一詞庫在復(fù)合名詞構(gòu)詞、語義研究中的應(yīng)用。

2 生成詞庫理論簡介

生成詞庫理論是基于計算和認知的自然語言意義模型,關(guān)注詞義的形式化和計算。該理論的核心思想是,詞的意義是相對穩(wěn)定的,但詞與詞在組合中,可能會通過一些語義生成機制(組合機制)獲得延伸意義,可以通過豐富詞項的詞匯特征(Lexical representation)和語義生成機制來解釋詞的不同用法以及在上下文中的創(chuàng)新性用法。其理論框架主要包括兩大部分: 詞項的詞匯表征和語義生成機制。這里重點介紹前者,關(guān)于這一理論的詳細介紹參見文獻[12]。

詞項的詞匯表征包括四個層面[13]: 論元結(jié)構(gòu)(argument structure)、事件結(jié)構(gòu)(event structure)、物性結(jié)構(gòu)(qualia structure)和詞匯類型結(jié)構(gòu)(lexical typing structure)。物性結(jié)構(gòu)是詞庫生成性特征(generative feature)的核心,包括四種物性角色: 構(gòu)成角色(constitutive role)、形式角色(formal role)、功用角色(telic role)和施成角色(agentive role)。構(gòu)成角色描寫事物與其組成部分之間的關(guān)系,包括材料、重量、部分和組成成分等;形式角色描寫事物在更大的認知域內(nèi)區(qū)別于其他事物的屬性,包括方位、大小、形狀和維度等;功用角色描寫事物的目的(purpose)和功能(function);施成角色描寫事物是怎樣形成或產(chǎn)生的。以“書”為例,它的構(gòu)成角色包括封面、封底、章節(jié)等,形式角色包括書的大小、形狀等,施成角色和功用角色分別是“寫”和“讀”。需要說明的是,每個角色的賦值可能不止一個。例如,“出版”也可以看成“書”的施成角色。除了上述四種角色,最近,自然功用角色(natural telic role)和規(guī)約化屬性(conventionalized attributes)也開始被納入廣義的物性結(jié)構(gòu)[14-15]。自然功用表示事物的天然功能,與意圖和目的無關(guān)。如“抽壓血液”是“心臟”的自然功用。規(guī)約化屬性指事物的典型特征,包括自然物的典型用途、與事物相關(guān)的常規(guī)活動等。例如,“叫”是“狗”的規(guī)約化屬性,“消化”是“食物”的規(guī)約化屬性。

根據(jù)物性角色,名詞可以分為三類[16-17]。

1) 自然類(natural types): 只與形式角色和構(gòu)成角色相關(guān)的概念。例如,兔子、石頭、樹、水、老虎、女人。

2) 人造類(artifactual types): 與功用角色和/或施成角色相關(guān)的概念。與自然美之間最大的區(qū)別是有“意向性”(intentionality)。例如,刀、啤酒、醫(yī)生、老師。

3) 合成類(complex types): 至少由兩個類型組成的概念。如“午飯”既可以指事件,也可以指食物。

動詞、形容詞根據(jù)其與名詞語義類的對應(yīng)(搭配)關(guān)系也相應(yīng)地分為三大類,如rabbit(兔子)是自然類,die(死)就是自然類,因為可以說 The rabbit dies。圖1是三大范疇的上層分類,最上層概念被結(jié)構(gòu)化成實體、事件和性質(zhì)三個域,每一個域又被結(jié)構(gòu)化成自然類、人造類和合成類,由簡單到復(fù)雜。

圖1 三分的概念網(wǎng)格(Tripartite Concept Lattice)

與傳統(tǒng)的以動詞為中心的理論模型不同,生成詞庫理論強調(diào)名詞在語義組合中的重要性,因此,像刻畫動詞一樣對名詞的語義進行了詳細的刻畫。尤其是物性結(jié)構(gòu)的引入,把與語言相關(guān)的日常知識引入到名詞的語義描寫中,說明了與一個事物相關(guān)的事物、事件和關(guān)系,表達了一個名詞中典型的謂詞和關(guān)系。物性關(guān)系是一種語義關(guān)系,而自然類與人造類的區(qū)分也體現(xiàn)了認知語義、概念體系中非常根本的分類。

3 標注框架

我們標注的復(fù)合名詞主要來源于HowNet詞典(2000版)和《現(xiàn)代漢語詞典》(第6版),少部分是通過內(nèi)省的方式補充的,包括名-名、動-名、名-動、動-動、形-名等復(fù)合名詞,多是二音節(jié)、三音節(jié)名詞。具體說來,主要標注以下信息(圖2)。

圖2 復(fù)合名詞詞庫標注樣例

1) 構(gòu)詞成分的詞性: 形容詞(a)、動詞(v)、名詞(n)等。

2) 構(gòu)詞成分的語義類: 自然類(N)、人造類(A)、不確定(U)。

3) 復(fù)合名詞的語義類: 自然類(N)、人造類(A)、不確定(U)。

4) 復(fù)合名詞的結(jié)構(gòu)關(guān)系: 偏正、主謂、述賓、并列等。

5) 構(gòu)詞成分與復(fù)合名詞之間的物性關(guān)系*我們把物性修飾關(guān)系改成了物性關(guān)系,因為前者只適用于偏正結(jié)構(gòu),關(guān)注的是修飾成分與中心名詞之間的語義關(guān)系,即修飾成分修飾了中心名詞的哪種物性角色,如“白”修飾的是“紙”的形式角色(顏色)。后者適用于各種結(jié)構(gòu)的復(fù)合名詞, 關(guān)注構(gòu)詞成分與復(fù)合名詞之間的語義關(guān)系,即構(gòu)詞成分顯示了復(fù)合名詞的哪種物性角色信息,如“白”是“白紙”的形式角色,動詞“編輯”是名詞“編輯”的功用角色,“刷牙”是“牙刷”的功用角色。: 包括構(gòu)成、形式、功用、施成、規(guī)約化屬性五種。有些還需要細分小類,如構(gòu)成角色分為材料、成分、部分-整體關(guān)系等;形式角色分為顏色、形狀等,功用角色分為自然功用和人為功用;施成角色也分為自然和人為兩類。例如,“膠”與“膠紙”之間是構(gòu)成關(guān)系,“白”與“白紙”之間是形式關(guān)系,“吸墨”與“吸墨紙”之間是功用關(guān)系、“剪”和“紙”與“剪紙”之間是施成關(guān)系。

6) 詞義變化: 隱喻(前隱喻、后隱喻、整體隱喻)、轉(zhuǎn)喻、轉(zhuǎn)類等。

7) 英語對應(yīng)詞或釋義。標注自然類、人造類的目的是想檢驗這種分類對于構(gòu)詞和詞義是否有系統(tǒng)性影響,有的話表現(xiàn)在哪些方面。標注物性關(guān)系是為了揭示構(gòu)詞成分之間,以及構(gòu)詞成分與復(fù)合詞之間的語義關(guān)系。

需要說明的是,這一標注框架只適合處理那些語義透明度(semantic transparency)比較高的詞,或者說語義組合性(semantic compositionality)比較強的詞,即復(fù)合詞的詞義全部或部分由其構(gòu)詞成分的意義組合而成的詞。根據(jù)李晉霞[18]的統(tǒng)計分析,現(xiàn)代漢語中絕大多數(shù)詞是比較透明和完全透明的。而且根據(jù)我們的初步考察,語義透明的詞更易形成能產(chǎn)的模式。因此,這一標注框架的覆蓋面、適用面是足夠廣的。

利用標注的詞庫,我們可以對復(fù)合名詞的構(gòu)詞、語義關(guān)系、語義類、語義模式以及它們之間的相關(guān)性做定性和定量分析,也可以對特定語素構(gòu)成的復(fù)合詞進行定量和定性分析。下文將以“石”、“紙”構(gòu)成的復(fù)合詞為例說明。之所以選這兩個語素,是因為二者所指的事物常常被用作材料,但卻分別代表了典型的自然類和人造類,適合做比較分析。

4 實例分析

本節(jié)首先分析了含“紙”的復(fù)合名詞,然后與含“石”的復(fù)合名詞做了比較,接著分析了兩類復(fù)合名詞中的隱喻詞,最后概括了構(gòu)詞成分的語義類與復(fù)合名詞語義類之間的推導(dǎo)關(guān)系。

4.1 含語素“紙”的復(fù)合名詞

圖3和圖4分別呈現(xiàn)了“紙X”和“X紙”的分析結(jié)果。除了“剪紙”,“紙”構(gòu)成的復(fù)合詞都是偏正結(jié)構(gòu),都是人造類名詞。“紙X”只涉及兩種物性關(guān)系: 構(gòu)成和功用。其中,表材料的構(gòu)成關(guān)系最多,即“紙”通常說明復(fù)合名詞所指事物的材料。中心名詞可以是人造類、自然類。例如,“紙盒”指紙做的盒子,“紙魚”指紙做的魚狀的東西,涉及隱喻。修飾類別不確定的形狀名詞時,有兩種釋義,例如,“紙條”可以理解為“紙做的條狀物”, 也可以理解為“條狀的紙”。表功用時說明復(fù)合名詞所指事物的功用, 中心名詞只能是人造類。如“紙廠”是用來造紙的工廠,“紙簍”是用來裝廢紙的簍子。

圖3 “紙X”的物性信息和語義類

圖4 “X紙”的物性信息和語義類

“X紙”涉及四種物性關(guān)系,其中表功用的最多,然后是形式、施成和構(gòu)成。修飾成分X既可以是人造類,也可以是自然類。表功用時,X可以是名詞、動詞和形容詞?!癗紙”表功用時,需要在釋義時恢復(fù)隱含的謂詞。例如,“信紙”是用來寫信的,“寫”是“信”的施成角色;“打印紙”是用來打印的;“廢紙”是失去使用價值的紙,是就“紙”的功用而言的。表形式時,修飾成分也可以是名詞、動詞和形容詞。例如,“玻璃紙”是像玻璃一樣透明的紙;“感光”體現(xiàn)了“紙”的特性;“白紙”、“薄紙”,是就紙的顏色、厚薄而言的(可與“廢紙”比較)。修飾成分是名詞時大都涉及隱喻。表施成時,往往涉及原料、來源。例如,“竹紙”是用竹子造的紙*竹紙造成后基本上看不出原料,不能說竹紙里含有竹子,所以“竹”并非“紙”的材料,而是原料,因此體現(xiàn)的是施成關(guān)系,而不是構(gòu)成關(guān)系(可與“紙盒”比較)。,“竹子”是紙的原料;“道林”是最早生產(chǎn)道林紙的公司,體現(xiàn)了這種紙的來源?!凹艏垺北容^特別,是動賓結(jié)構(gòu),轉(zhuǎn)指剪紙后生成的東西。表構(gòu)成時,通常說明紙上有某種東西,例如,“字紙”是上面有字的紙;“圖紙”是上面有圖的紙,而不是用來畫圖的紙。

不同物性關(guān)系反映了不同的構(gòu)詞、語義模式,有些模式非常能產(chǎn)。如“紙X”幾乎都表材料,釋義模式是“用紙做的X”。26例“V紙”中,24例表功用,因此,表功用的“V紙”也是非常能產(chǎn)的模式。如果在文本中發(fā)現(xiàn)新的“V紙”,幾乎可以斷定其中的V就是表功用的,可以對這個詞自動釋義為“用來V的紙”。

4.2 比較: “石”、“紙”構(gòu)成的復(fù)合名詞

我們對含“石”的復(fù)合名詞做了類似分析, 并與含“紙”的復(fù)合名詞做了對比。結(jié)果發(fā)現(xiàn),二者構(gòu)成的復(fù)合名詞幾乎都是偏正結(jié)構(gòu),但在物性信息和語義類型方面不盡相同。如表1所示,“石”、“紙”做修飾成分時差別不大,體現(xiàn)的最主要的是構(gòu)成關(guān)系。也就是說,“石”、“紙”都用來說明復(fù)合名詞所指事物的材料,只是一個指天然材料,一個指人造材料。這類復(fù)合名詞的釋義模式是“用N1做的N2”。例如,“石碑”是用石頭做的碑,“紙杯”是用紙做的杯子。當(dāng)然,有些復(fù)合名詞的語義透明度沒那么高,內(nèi)部語義結(jié)構(gòu)比較復(fù)雜,釋義沒有那么直接,需要進行細節(jié)調(diào)整。例如,“石獅”釋義為“石頭做的獅子”還不夠準確,應(yīng)該是“石頭做的獅子狀的東西”,涉及隱喻?!凹埌印焙唵卫斫鉃椤凹堊龅陌印币膊惶珳蚀_,這里的紙不是一般的紙,而是做紙箱的紙,做的不是包子皮而是餡兒。所以更精確的釋義是“用紙箱做餡兒的包子”。不過,我們重點關(guān)注構(gòu)詞、釋義的模式?!笆疿”還體現(xiàn)了形式、施成和功用關(guān)系。例如,“石油”通常聚集在巖石的空隙中,“石灰”是石頭煅燒而產(chǎn)生的,“石匠”是開鑿石料和用石料制作器物的工人,“石”分別說明了復(fù)合名詞所指事物的位置、來源和功用?!凹圶”則沒有形式和施成角色修飾關(guān)系?!凹圶”都是人造類名詞,“石X”大部分都是人造類名詞。這是因為絕大多數(shù)“石X”都體現(xiàn)構(gòu)成關(guān)系,而構(gòu)成關(guān)系中絕大部分又是表材料的。準確地說,表材料時通常都涉及施成,因為材料和成品之間是制造關(guān)系,如“石舫”、“石筆”等?!笆S”、“石鐘乳”是天然形成的,雖然也是構(gòu)成關(guān)系,但不表材料,可以看作組成成分,是自然類。理解為“筍狀的石頭”、“鐘乳狀的石頭”可能更合適。

表1 比較“石”、“紙”構(gòu)成的復(fù)合詞

“石”、“紙”做中心成分時差別比較大,“X石”中涉及的物性關(guān)系依次是: 形式、施成、規(guī)約化屬性、功用和構(gòu)成。例如,“滑石”指光滑的石頭;“碎石”是粉碎來的,“大理石”是大理產(chǎn)的;“吸鐵”是“吸鐵石”的規(guī)約化屬性;“界石”是用來標志地界的石頭;“礁石”主要是“礁體”組成的。值得注意的是,“X石”中的施成關(guān)系通常與人為無關(guān),例如,“隕石”、“化石”、

“結(jié)石”都是自然形成的。“X紙”中最主要的物性關(guān)系則是功用,然后才是形式、施成和構(gòu)成?!癤紙”都是人造類名詞,但“X石”絕大部分都是自然類名詞?!笆薄ⅰ凹垺钡纳鲜霾町愺w現(xiàn)了自然類、人造類名詞在語義和構(gòu)詞上的差別: 以自然類為中心的復(fù)合名詞多是自然類,主要體現(xiàn)形式關(guān)系;以人造類為中心的復(fù)合名詞通常是人造類,主要體現(xiàn)功用關(guān)系。

特定構(gòu)詞語素的構(gòu)詞、語義分析能幫助我們更好地理解它所表達的概念。例如,紙是人造物,通常用作材料,經(jīng)常按用途分類。石頭是自然物,通常用做天然材料,經(jīng)常按性質(zhì)分類。

4.3 隱喻式名名復(fù)合詞

含“石”、“紙”的名名復(fù)合名詞很多是隱喻構(gòu)詞。隱喻基于事物之間的相似性,這種相似性表現(xiàn)為復(fù)合名詞與其中的喻體名詞具有相同的某種物性角色。例如,“石獅”與“獅(子)”的形式角色相同,因為它們所指事物的外形相似。隱喻式“石X”、“紙X”表構(gòu)成(材料)都是后喻式復(fù)合詞,即后面的名詞是隱喻用法,多利用中心名詞的形式角色(外形)。中心名詞X如果是類型不確定的名詞和自然類名詞,一定存在隱喻,如“石板”、“紙條”、“石獅”、“紙花”。形狀名詞最初其實也指具體事物,如“板”的本義是“片狀的木頭”,只是隱喻引申成了形狀像木板的物體,而且這個義項成了中心意義。“紙老虎”除了后隱喻,還存在整體隱喻。X如果是人造類,大部分不存在隱喻,如“石碑”、“紙盒”。少部分是后喻式復(fù)合詞,如“紙船”、“紙巾”,有些不僅涉及外形上的相似性,還涉及功用上的相似性。如“紙巾”不只是外形上像毛巾,而且功能上也像,可以用來擦拭、清潔。這些隱喻式復(fù)合詞如果指人造物,釋義模式是“石頭/紙做的X”;如果指自然物,釋義模式是“X狀的石頭或紙”。如“石筍”通常釋義為“筍狀的石頭”,而“紙花”通常釋義為“紙做的花”“石板”可能是天然形成的,也可能是人為了某種目的專門造的,意思分別是“板狀的石頭”、“石頭造的板子”。這說明人造類、自然類的區(qū)分影響釋義模式。

1) 石/紙+U: 石板、紙條、紙屑、紙帶、紙片[后喻式: 外形]

2) 石/紙+N: 石筍、石獅、石林、紙花、紙魚、紙鳶、紙鶴、紙人、紙老虎[后喻式: 外形]

3) 石/紙+A: 石鐘乳、石鎖、紙船[后喻式: 外形]紙巾、紙錢[后喻式: 外形和功用]

與其它復(fù)合名詞不同,后喻式復(fù)合名詞能體現(xiàn)兩種物性關(guān)系,因為定語名詞和中心語名詞都能激活復(fù)合名詞的物性角色。如“紙鶴”中“紙”說明了紙鶴的材料(構(gòu)成角色),而“鶴”說明了紙鶴的樣子(形式角色)。個別“石X” 是前喻式名名復(fù)合詞,即前面的名詞是隱喻用法。如“石煤”、“石女”。

“X石”、“X紙”中多是前喻式名名復(fù)合詞,主要與定語名詞的形式角色有關(guān),但與“石X”、“紙X”不同,不只是利用了名詞形式角色中的外形特征,而且還涉及顏色、特性等。如“鵝卵石”形狀像鵝卵,“雞冠石”顏色和形狀如雞冠,“螢石”可以像螢火蟲一樣發(fā)光。如果定語名詞是人造類名詞“紙”,可能還涉及功用。如“玻璃紙”、“塑料紙”有時可以代替玻璃、塑料的部分功能。

1) N/A+石: 鵝卵石、雞冠石、白云石、卵石、螢石、油石、鐘乳石 [前喻式: 外形、顏色、性質(zhì)等]

2) N/A+紙: 馬糞紙、牛皮紙、綿紙、糯米紙、瓦楞紙 [前喻式: 外形、顏色性質(zhì)等]玻璃紙、塑料紙[前喻式: 顏色、性質(zhì)、功用等]

有意思的是,“鐘乳石”和“石鐘乳”指同一種事物,但命名方式不一樣,字面意思也不一樣。一個是前喻式,意思是“鐘乳狀的石頭”;一個是后喻式,意思是“組成成分為石頭的鐘乳狀的東西”。

總而言之,后喻式通常涉及物體外形的相似性,前喻式不僅涉及外形,還涉及顏色、性質(zhì)等。人造類名詞做喻體,無論在前在后,都可能會涉及事物之間功用的相似性。

4.4 語義類的推導(dǎo)關(guān)系

根據(jù)構(gòu)詞成分的語義類型,復(fù)合詞有四種可能的組合: 自然類+自然類(N+N)、人造類+人造類(A+A)、自然類+人造類(N+A)、人造類+自然類(A+N)。復(fù)合詞的類型能否從構(gòu)詞成分的類推導(dǎo)出呢?我們研究發(fā)現(xiàn)偏正復(fù)合名詞有兩條規(guī)律:

1) 如果中心名詞是人造類,復(fù)合名詞一定是人造類,不受物性關(guān)系的影響。例如,

N+A=A: 石碑、石雕、面紙、彩紙

A +A=A: 紙箱、紙簍、紙船

有兩個例外,“鐘乳”、“柱”都是人造類,但“石鐘乳”、“石柱”指自然物,這是因為“鐘乳”、“柱”是隱喻用法,并不指鐘乳和柱子,而是外形像鐘乳和柱子的東西,實際上是自然物。

2) 如果中心名詞是自然類,復(fù)合名詞的類受物性關(guān)系的影響: 如果修飾成分表形式、規(guī)約化屬性和自然施成,復(fù)合名詞是自然類;如果修飾成分表構(gòu)成(材料)、人為功用或人為施成,復(fù)合名詞是人造類。如:

N+N=N: 卵石、滑石、石筍(形式);試金石、吸鐵石*“吸鐵石”可以用來吸鐵,這是它的自然屬性,與人的意愿無關(guān)。因此“吸鐵”看作規(guī)約化屬性,而不是功用角色。(規(guī)約化屬性);結(jié)石(自然施成)

N+N=A: 石林、石獅、石羊(構(gòu)成)

A + N=A: 界石、柱石、紙鶴、紙花(人為功用);電石(人為施成)

5 結(jié)語

本文介紹了基于生成詞庫理論的復(fù)合名詞語義信息標注詞庫,主要標注四種物性信息(構(gòu)成、形式、功用和施成)和兩種語義類型(自然類、人造類)。“紙”、“石”構(gòu)成的復(fù)合詞的對比分析顯示: 1)物性關(guān)系是一種語義關(guān)系,不同的物性關(guān)系體現(xiàn)了不同的構(gòu)詞、語義模式,這些模式可以用于復(fù)合名詞的釋義。2)不同物性關(guān)系與人造類名詞和自然類名詞的相關(guān)度不一樣;3)物性信息和兩種語義類型可以用于隱喻復(fù)合詞的解釋;4)構(gòu)詞成分的類與復(fù)合名詞的類之間存在推導(dǎo)關(guān)系??傊?,物性信息、自然類和人造類是非常重要的語義信息,能揭示復(fù)合名詞構(gòu)詞和語義的一些模式和規(guī)律。

詞庫的建設(shè)才剛剛起步,目前標注了4 000多個復(fù)合詞,接下來需要進一步擴大規(guī)模,細化要標注的語義信息,實現(xiàn)部分自動標注;列出構(gòu)詞、釋義模式;把復(fù)合名詞的分析方法進一步擴展應(yīng)用到粘合式名詞短語的語義分析中(如“愛情故事”、“電影公司”[19]“網(wǎng)易養(yǎng)豬場”、“瘦肉精羊”[20]);并進一步開發(fā)其在詞匯研究和中文信息處理中的應(yīng)用,包括未登錄詞的自動識別、自動釋義、詞典編纂等。

[1] 董秀芳. 漢語的詞庫與詞法[M].北京: 北京大學(xué)出版社, 2004.

[2] 邱立坤.單音節(jié)名詞(綴)的釋義模式與三音節(jié)名詞的語義結(jié)構(gòu)關(guān)系[C].內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集, 2007: 203-208.

[3] 譚景春.名名偏正結(jié)構(gòu)的語義關(guān)系及其在詞典釋義中的作用[J]. 中國語文, 2010, 4: 342-355.

[4] Johnston M, F Busa. Qualia Structure and the Compositional Interpretation of Compounds[C]//Proceedings of E. Viegas. Breadth and Depth of Semantics Lexicons. Dordrecht: Kluwer, 1999:167-187.

[5] 黃潔.漢英隱轉(zhuǎn)喻名名復(fù)合詞語義的認知研究[J].外語教學(xué), 2008,4: 25-29.

[6] 王洪君.從兩個同級義場代表單字的搭配異同看語義特征和語義層級——以“鍋”和“碗”為例[J]. 世界漢語教學(xué), 2010, 2:147-157.

[7] Lee, Chih-yao, Chia-hao Chang, et al. Qualia Modification in Noun-Noun Compounds: A Cross-Language Survey[C]//Proceedings of the 22nd Conference on Computational Linguistics and Speech Processing (ROCLING-2010), 2010: 379-390.

[8] 宋作艷.類詞綴與事件強迫[J]. 世界漢語教學(xué), 2010,4:446-458.

[9] Song, Zuoyan, Likun Qiu. Qualia Relations in Chinese Nominal Compounds Containing Verbal Elements[J]. International Journal of Knowledge and Language Processing, 2013, 4(1):1-15.

[10] Pustejovsky J, A Rumshisky, J L Moszkowicz, et al. GLML: A Generative Lexicon Markup Language[C]//Proceedings of the Generative Lexicon Workshop, Instituto di Linguistica Computazionale (CNR), Pisa, Italy, September 2008.

[11] Bouillon P, E Jezek, C Melloni, et al. Annotating Qualia Relations in Italian and French Complex Nominals[C]//Proceedings of the LREC-2012 Workshop on “Challenges in the Management of Large Corpora”(CMLC), 2012:1527-1532.

[12] 宋作艷.生成詞庫理論的最新發(fā)展[J]. 語言學(xué)論叢, 2011, 44: 202-221.

[13] Pustejovsky J. The Generative Lexicon[M]. Cambridge: The MIT Press, 1995.

[14] Pustejovsky J, E Jezek. Semantic Coercion in Language: Beyond Distributional Analysis[J].Special Issue of Italian Journal of Linguistics, 2008, 20(1): 181-214.

[15] Jezek E. Acquiring Typed Predicate-Argument Structures from Corpora[C]//Proceedings of the Eighth Joint ISO-ACL SIGSEM Workshop on Interoperable Semantic Annotation. 2012:28-33.

[16] Pustejovsky J. Type Construction and the Logic of Concepts[M]. The Syntax of Word Meanings. Cambridge: Cambridge University Press, 2001: 91-123.

[17] Pustejovsky J. Type Theory and Lexical Decomposition[J]. Journal of Cognitive Science, 2006, 6: 39-76.

[18] 李晉霞.《現(xiàn)代漢語詞典》的詞義透明度考察[J].漢語學(xué)報, 2011, 3:54-62.

[19] 王萌,黃居仁,俞士汶,等.基于動詞的漢語復(fù)合名詞短語釋義研究[J].中文信息學(xué)報,2010,6:3-9.

[20] 魏雪,袁毓林.基于語義類和物性角色建構(gòu)名名組合的釋義模板[J].世界漢語教學(xué),2013(2):172-181.

A Lexicon of Chinese Compound Nouns with Semantic Annotation: Generative Lexicon Theory Approach

SONG Zuoyan1, ZHAO Qingqing1, KANG Shiyong2

(1. School of Chinese Language and Literature, Beijing Normal University, Beijing 100875,China; 2. Key Laboratory of Language Resource Development and Application of Shandong Province, School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China)

The analysis of compound nouns is always an important topic in linguistic study and natural language processing, which is involved with the recognition and automatic interpretation of Unknown Words (UWs), and dictionary compiling. With the up-to-date semantic theory named Generative Lexicon Theory, this paper builds a lexicon of compound nouns with semantic annotation. In addition to the annotation scheme, this paper also demonstrates its potential application in the word-forming and semantic analysis of compound nouns via a comparative analysis of compound nouns containing zhi(紙)and shi(石). It is revealed that qualia roles, natural types and artifactual types are important semantic information to disclose some patterns and rules of the formation and semantics of compound nouns.

lexicon with semantic annotation; generative lexicon theory; compound nouns; qualia structure; semantic type

宋作艷(1978—),副教授,主要研究領(lǐng)域為詞匯語義、句法語義接口和中文信息處理。E?mail:meszy@163.com趙青青(1989—),博士研究生,主要研究領(lǐng)域為詞匯語義學(xué)和計算語言學(xué)。E?mail:zhaoqingqing0611@163.com亢世勇(1964—),通訊作者,教授,主要研究領(lǐng)域為現(xiàn)代漢語詞匯、語法、辭書編纂、語言信息處理。E?mail:kangsy64@163.com

1003-0077(2015)03-0027-07

2013-04-08 定稿日期: 2013-07-28

國家社會科學(xué)基金(10CYY032、12BYY123);北京高等學(xué)校青年英才計劃項目(Beijing Higher Education Young Elite Teacher Project)(YETP0271);中央高校基本科研業(yè)務(wù)費專項資金;山東省語言資源開發(fā)與應(yīng)用重點實驗室開放基金;國家社科基金重大項目(12&ZD227)

TP391

A

猜你喜歡
復(fù)合詞詞庫構(gòu)詞
類型學(xué)視野下漢語和維吾爾語反義復(fù)合詞的對比研究
中日文化詞匯在英語中的構(gòu)詞體系對比及利弊分析
基于對外漢語的結(jié)果義與虛化義動補式復(fù)合詞分析
從構(gòu)詞詞源看英漢時空性差異
一“吃”多用
輸入法詞庫取證比較研究
輸入法詞庫乾坤大挪移
“分”的音變構(gòu)詞及其句法語義特征
從構(gòu)式語法角度分析英語復(fù)合詞
從構(gòu)式語法角度分析英語復(fù)合詞
盈江县| 城市| 泰兴市| 利辛县| 阿勒泰市| 绥江县| 萨嘎县| 贵港市| 呼图壁县| 乳山市| 合山市| 凤山市| 新乐市| 高青县| 两当县| 革吉县| 曲水县| 屯昌县| 临夏县| 荔波县| 东安县| 寿光市| 修水县| 津南区| 富宁县| 拉萨市| 柳州市| 阿城市| 达州市| 军事| 定安县| 额尔古纳市| 砚山县| 红桥区| 建瓯市| 措美县| 鄂托克旗| 栖霞市| 如皋市| 杭锦后旗| 赣榆县|