国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義依存圖庫的兼語句句模研究

2015-04-12 11:30鄭麗娟邵艷秋
中文信息學(xué)報(bào) 2015年6期
關(guān)鍵詞:語料語句語義

鄭麗娟,邵艷秋

(北京語言大學(xué)信息科學(xué)學(xué)院,北京100083)

1 引言

句子語義分析是語言研究深入發(fā)展的客觀要求,也是當(dāng)前制約語言信息技術(shù)大規(guī)模深度應(yīng)用的主要瓶頸。尤其是對(duì)漢語這種意合性語言而言,句子形式靈活多變,句子形式不同,表達(dá)的語義就會(huì)存在細(xì)微差別,同一種句法結(jié)構(gòu)可以表達(dá)多種語法意義,同一種意義也可以由多種形式表達(dá)。雖然關(guān)于句子的語義分析研究存在很多困難,但也不是毫無規(guī)律可言,只要找出這些規(guī)律,就可以進(jìn)行更深入的研究。

任何一個(gè)句子都是句法、語義和語用的共同體,不存在一個(gè)沒有語義語用只有句法的句子,表達(dá)句法結(jié)構(gòu)的句型和表達(dá)語義結(jié)構(gòu)的句模之間必然存在著某種對(duì)應(yīng)關(guān)系,但這種對(duì)應(yīng)關(guān)系必然不是一對(duì)一的簡(jiǎn)單對(duì)應(yīng)關(guān)系,而是一個(gè)一對(duì)多、多對(duì)一或者多對(duì)多的映射關(guān)系,并且這種對(duì)應(yīng)關(guān)系中必然有一個(gè)或幾個(gè)是很常用的,而其余的則是低頻使用[1]。目前,關(guān)于句法的計(jì)算研究已經(jīng)比較成熟,在句法的基礎(chǔ)上,研究句法和語義的映射關(guān)系,可以幫助句子語義分析,將語義分析的研究進(jìn)一步深化。

兼語句是漢語的一種特殊句型。目前為止,關(guān)于兼語句的語義研究或是只注重句中極個(gè)別詞語的語言關(guān)系描寫[2],或是只重視分析兼語成分前面和后面的V1、V2之間隱藏的深層事件語義關(guān)系[3]。本文以漢語中的一個(gè)特殊句型——兼語句為研究起點(diǎn),研究兼語句句子所對(duì)應(yīng)的句子語義結(jié)構(gòu),并對(duì)每一類兼語句句模進(jìn)行了詳細(xì)刻畫,試圖描寫出兼語句句型和句模的對(duì)應(yīng)關(guān)系,以期為更大規(guī)模的句模研究提供新的研究視角,因?yàn)楹玫木淠Q芯坎粌H有助于機(jī)器自動(dòng)理解句子、生成符合規(guī)范的句子,同時(shí)也有助于提高機(jī)器翻譯和機(jī)器自動(dòng)問答的準(zhǔn)確率,促進(jìn)人工智能的發(fā)展。

2 句子語義分析及句模相關(guān)研究

2.1 句子語義分析研究現(xiàn)狀

關(guān)于語義的研究很多,建立起來的相應(yīng)的語義資源也不少。英文中比較著名的語義資源有加州大學(xué)伯克利分校的FrameNet[4]、賓夕法尼亞大學(xué)的Prop-Bank[5]以及紐約大學(xué)的NomBank[6]。中文比較有代表性的語義資源主要包括Chinese PropBank(CPB)[7],Chinese FrameNet[8]和Chinese NomBank[9]。

就研究方法而言,句子語義分析方法主要有兩種:淺層語義分析和深層語義分析。面對(duì)復(fù)雜的語言學(xué)現(xiàn)象,深層、全面的語義分析往往需要大量知識(shí)的支撐,為了避免深層語義分析研究的困難,許多研究者對(duì)語義分析的研究是從淺層語義分析開始的。語義角色標(biāo)注[10-11]是目前淺層語義分析的一種主要實(shí)現(xiàn)方式,其并不對(duì)整個(gè)句子做詳細(xì)、深入的分析,只分析句子中主要謂詞與其論元之間的語義關(guān)系,并沒有對(duì)論元內(nèi)部的各成分之間的語義關(guān)系進(jìn)行分析。此外,語義角色標(biāo)注通常都是在句法分析的基礎(chǔ)上進(jìn)行的。依據(jù)不同的句法分析方法,語義角色標(biāo)注可以分為基于短語結(jié)構(gòu)分析[12]、基于依存關(guān)系分析[13]和基于語塊的分析[14-15]。還有部分學(xué)者避開轉(zhuǎn)換方法,直接從研究句子語義入手,建立一套語義分析體系,重新標(biāo)注語料,從而展現(xiàn)句子語義結(jié)構(gòu)的真實(shí)狀況。例如,清華大學(xué)李涓子的語義依存分析理論[16]、武漢大學(xué)姬東鴻的基于特征結(jié)構(gòu)理論的語義依存圖理論[17]等。

到目前為止,關(guān)于句子的語義分析研究成果很多,也取得了很大的成績(jī),但仍存在一些問題,例如,關(guān)于語義角色的數(shù)量各家都有不同,語義角色數(shù)量難以確定;句子的部分語義信息缺失等。

2.2 句模研究現(xiàn)狀

句模是句子在語義平面上的結(jié)構(gòu)類型[18]。如句子“黃曼昨天在教室里告訴我一個(gè)秘密”,其句模為“[施事]+[時(shí)間]+[地點(diǎn)]+【告訴】/【傳播】+[對(duì)象]+[內(nèi)容]”。句模可分為簡(jiǎn)單句模和復(fù)雜句模兩大類[17],簡(jiǎn)單句模只包含一個(gè)動(dòng)核結(jié)構(gòu),上個(gè)例句的句模就是一個(gè)簡(jiǎn)單句模;復(fù)雜句模則包含一個(gè)以上的動(dòng)核結(jié)構(gòu),如本文討論的兼語句。簡(jiǎn)單句模又根據(jù)帶不帶狀元分為基干句模和擴(kuò)展句模,基干句模只包括謂詞和其必有論元?;删淠V懈鱾€(gè)語義角色位置是相對(duì)固定的,位置不同就會(huì)形成不同的句模。

隨著范曉和胡附先生的三個(gè)平面理論的提出,句模研究受到越來越多的重視。對(duì)句模研究做過突出貢獻(xiàn)的有范曉[19]、朱曉亞[20]、徐昌火[21]和魯川[22]等。范曉對(duì)句模做出了嚴(yán)格的定義,并認(rèn)為句模的研究對(duì)象是動(dòng)核結(jié)構(gòu),動(dòng)核結(jié)構(gòu)是形成句子語義結(jié)構(gòu)的基礎(chǔ),句模是動(dòng)核結(jié)構(gòu)生成句子時(shí)與句型結(jié)合在一起的語義成分的配置模式[19]。朱曉亞[20]先將動(dòng)詞分為動(dòng)作、經(jīng)驗(yàn)、性狀和關(guān)系四個(gè)大類,然后根據(jù)動(dòng)詞在語義平面上所帶必有論元數(shù)目的不同,建立了一個(gè)分類層級(jí)系統(tǒng)和語義角色系統(tǒng),進(jìn)而進(jìn)行句模分類和描寫。徐昌火[21]認(rèn)為:“句模研究的是句子在語義平面上的關(guān)系語義,并且強(qiáng)調(diào)配價(jià)研究不應(yīng)該作為句模研究的起點(diǎn),而應(yīng)該是句模研究的歸宿?!濒敶ǎ?2]提出了謂詞格框架分析系統(tǒng),他認(rèn)為句模的語義單位由小到大可以分為概念、事元、事件三個(gè)部分,句模的成分包括“中樞事元”和“周邊事元”,它們擔(dān)任的語義角色分別是“中樞角色”和“周邊角色”,而一個(gè)“事件”由一個(gè)“中樞事元”以及若干個(gè)“周邊事元”組成。在此基礎(chǔ)上,再根據(jù)動(dòng)核的特征把現(xiàn)代漢語句模分為26類并研究每一類別下可以形成的基本句模,共計(jì)128個(gè),在研究過程中還討論了能夠進(jìn)入每一類句模的代表性謂詞。

亢世勇、田珍都等在標(biāo)注了大規(guī)模語料的基礎(chǔ)上,對(duì)句模的研究也做出突出貢獻(xiàn)。田珍都[23]著重討論了漢語句模體系和句模的使用頻度兩個(gè)問題,把句模分成單句形式和復(fù)句形式的句模,并從語料庫中提取句模327種,其中單句形式的句模311種,復(fù)句形式的16種。在此基礎(chǔ)上又將單句形式句模分為簡(jiǎn)單句模和復(fù)雜句模,單句形式的復(fù)雜句模又分為一系、二系、三系、四系、多系五種類型,而復(fù)句形式的句模又分為相離、相接、融合三種類型。據(jù)此建立了現(xiàn)代漢語的句模體系??菏烙拢?4]等人在大規(guī)模標(biāo)注語料庫的基礎(chǔ)上,建立了漢語的句系系統(tǒng),從句型角度考察了句模和句型對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)出句模的頻度及分布情況。

現(xiàn)有對(duì)句模的研究,有的過于細(xì)化,將語義的細(xì)微差別也一起反映到了語義結(jié)構(gòu)的系統(tǒng)分析之中,有的則過于概括,未能完全覆蓋漢語復(fù)雜多變的句子語義結(jié)構(gòu);但是過于概括或具體都會(huì)失去句模研究在語法研究上的意義。對(duì)特殊句式的句模研究、句模與其句法結(jié)構(gòu)對(duì)應(yīng)規(guī)律的研究不是太過零散就直接回避??傮w來看,對(duì)特殊句式的語義分析還不夠完善,對(duì)其語義成分和句法成分間的對(duì)應(yīng)關(guān)系缺乏深入的分析研究。

2.3 兼語句句模研究

兼語句是指由兼語短語充當(dāng)謂語或獨(dú)立成句的句子[25]。所謂兼語短語是指由動(dòng)賓短語和主謂短語部分重合在一起,其中動(dòng)賓短語的賓語兼做主謂短語的主語這樣一種短語。例如,“請(qǐng)他來”,“他”是請(qǐng)的“賓語”,又是“來”的主語,叫做兼語。在語言學(xué)界,兼語句語形可以表示為“N1+V1+N2+V2”。N1指句子主語,V1是句子中的第一個(gè)謂詞,也即兼語動(dòng)詞,N2指兼語,V2是兼語句中的第二個(gè)動(dòng)詞。

從兼語句的定義可以看出,兼語句構(gòu)成的句模一定是一個(gè)復(fù)雜句模,兼語句句模是一個(gè)由單句形式表示的復(fù)雜句模。實(shí)際上,已經(jīng)有學(xué)者做過關(guān)于兼語句語義結(jié)構(gòu)的研究,如孫道功、許小星、黃曉冬等。孫道功[2]和許小星[26]等以語塊為基點(diǎn),按兼語動(dòng)詞的不同把其分為五大類兼語句句模,但卻忽略了對(duì)兼語句中兩個(gè)動(dòng)詞之間語義關(guān)系的描寫。而黃曉冬[3]從本體研究出發(fā),僅研究了兼語句中兩個(gè)動(dòng)詞組成的動(dòng)核結(jié)構(gòu)之間的語義關(guān)系,并把這種語義關(guān)系按照深層語義的不同,分為四類:表目的或結(jié)果、表原因、表領(lǐng)有或存在和表稱呼、認(rèn)定。只是他們的研究都停留在兼語句中某個(gè)詞語所承擔(dān)的語義角色或者詞語之間的語義關(guān)系上,均未對(duì)這些兼語句句模進(jìn)行整體刻畫。從嚴(yán)格意義上來,還不能算是句模描寫。

3 語義依存圖

3.1 語義依存樹

漢語語言表達(dá)形式靈活,語言現(xiàn)象豐富,實(shí)際的句子中經(jīng)常會(huì)出現(xiàn)某個(gè)詞語和句中其他多個(gè)詞語發(fā)生語義關(guān)聯(lián)的現(xiàn)象,即依存詞不唯一;另外,不同的依存詞對(duì)之間也會(huì)出現(xiàn)依存弧交叉的情況。這些情況都是傳統(tǒng)的依存樹結(jié)構(gòu)無法處理卻真實(shí)存在的現(xiàn)象,并且這些依存樹結(jié)構(gòu)無法表達(dá)的語義關(guān)系,如果不能正確地表示出來,可能會(huì)影響對(duì)句子意義的理解。

句子“我有個(gè)妹妹很能干。”用依存樹分析的結(jié)果如圖1所示。從圖1中可以看出,依存樹結(jié)構(gòu)[27]必須滿足四個(gè)形式化的條件:1)單一父節(jié)點(diǎn);2)連通;3)無環(huán);4)投射,也即弧線之間不交叉。在這個(gè)句子中,“有”是句子的核心,它在語義上直接或者間接支配句子中的其他語義成分,如“有”直接支配“妹妹”,并且他們之間的語義關(guān)系是領(lǐng)有關(guān)系,這種語義關(guān)系已在弧線上標(biāo)注出來;“有”間接支配“個(gè)”,它是通過支配“妹妹”而支配量詞“個(gè)”;“個(gè)”受“有”的屬事角色“妹妹”直接支配。

圖1 語義依存樹

用語義依存樹分析漢語句子清晰,簡(jiǎn)潔,美觀,但有時(shí)卻會(huì)丟失或者錯(cuò)誤理解句子的語義信息。例如,針對(duì)這個(gè)句子,機(jī)器自動(dòng)問答想知道“誰”很“能干”,從依存樹的標(biāo)注結(jié)果來看,機(jī)器得到結(jié)果“我”,然而,這個(gè)答案是錯(cuò)誤的。實(shí)際上是“妹妹”很“能干”,機(jī)器會(huì)得出這個(gè)錯(cuò)誤的答案,因?yàn)橛靡来鏄淅碚摲治鰸h語這種意合性語言還存在一定的缺陷,所以我們對(duì)這種理論進(jìn)行了改造,提出語義依存圖理論。

3.2 語義依存圖

我們的語義分析以句子為單位,以提取句子中所有的修飾詞與核心詞對(duì)(構(gòu)建一條從核心詞指向修飾詞的?。┎?biāo)注它們之間的語義關(guān)系(在弧上標(biāo)注詞對(duì)間的語義關(guān)系)為目標(biāo),并且通過標(biāo)注語義依存圖的形式體現(xiàn)出來。

實(shí)際上,依存圖放寬了依存樹的四個(gè)限制條件,依存圖與依存樹的不同主要表現(xiàn)在兩個(gè)方面:1)允許多父親節(jié)點(diǎn)的出現(xiàn);2)允許非投射現(xiàn)象出現(xiàn),即允許依存弧之間存在交叉[28]。

正如前文提到的依存樹結(jié)構(gòu)的不足,為了避免這種缺陷,在依存圖結(jié)構(gòu)中,只要詞語之間存在真實(shí)的語義關(guān)系,就允許一個(gè)語義成分有多個(gè)父節(jié)點(diǎn)。這種多父節(jié)點(diǎn)的外在表現(xiàn)就是:在依存圖中,一個(gè)詞語可以有多條入弧,如圖2中的“妹妹”?!懊妹谩庇袃蓚€(gè)父節(jié)點(diǎn)“有”和“能干”,相對(duì)于兩個(gè)父節(jié)點(diǎn),“妹妹”承擔(dān)的語義角色不同:一個(gè)是屬事角色,另一個(gè)是當(dāng)事角色。這些角色都已在弧線中間表示出來。

圖2 依存圖中的多父節(jié)點(diǎn)現(xiàn)象

依存圖的另一個(gè)特點(diǎn)就是允許出現(xiàn)弧線之間的交叉。如圖3所示,詞對(duì)(打,他)、(破,杯子)之間的依存弧出現(xiàn)了交叉。而且這樣的交叉是必須的,因?yàn)槿绻捌啤迸c“杯子”之間不存在依存弧,就無法明確“破”的當(dāng)事角色。

圖3 依存圖中的非投射現(xiàn)象

3.3 語義依存圖庫

除了滿足形式化的條件外,語義分析還有其自己對(duì)語義角色的定義。對(duì)漢語語義關(guān)系的定義,不同的語言學(xué)家給出了不同的劃分。董振東在知網(wǎng)中提出事件內(nèi)部語義關(guān)系總計(jì)83類[29],馮志偉提出了30種論元關(guān)系[30],袁毓林提出40種語義關(guān)系標(biāo)記[31],魯川提出了26種語義關(guān)系[22]。但是,各個(gè)學(xué)者的語義關(guān)系體系中所定義的語義關(guān)系有交集,有不同,綜合考慮以上各種體系的復(fù)雜性、可區(qū)分性、覆蓋性、以及在工程實(shí)踐標(biāo)注時(shí)的可操作性,以董振東[29]和魯川[22]的體系為基礎(chǔ),我們也定義了一套全面、簡(jiǎn)單、實(shí)用,同時(shí)能適應(yīng)自然語言處理高層應(yīng)用要求的語義關(guān)系體系。該語義關(guān)系體系包含五類語義標(biāo)簽:周邊角色集(45個(gè))、嵌套關(guān)系集、反關(guān)系集、事件關(guān)系集(19個(gè))和語義依附標(biāo)記集(17個(gè))。嵌套關(guān)系是指由小句或者謂詞性短語充當(dāng)語義角色的現(xiàn)象,此謂詞性短語實(shí)際上是降級(jí)了的事件。反關(guān)系指那些充當(dāng)論元定語的動(dòng)詞或動(dòng)詞性短語,這種顛倒了的語義關(guān)系實(shí)際上和正常的動(dòng)賓搭配語義是一樣的,只是動(dòng)詞位置不同,為了區(qū)分這種差別,我們又定義了反關(guān)系集。這里在表達(dá)反關(guān)系集和嵌套關(guān)系集時(shí),繼承了周邊角色集中的45個(gè)語義標(biāo)簽,只是在標(biāo)簽前再額外用標(biāo)記r-來表達(dá)此關(guān)系,用d-來表示嵌套關(guān)系。由于篇幅關(guān)系,這里對(duì)標(biāo)簽集不再贅述。

依據(jù)已經(jīng)建立的語義關(guān)系體系,我們已經(jīng)建立了一個(gè)包含30 000個(gè)句子的語義依存圖語料庫,其中已完成對(duì)10 038個(gè)句子的校對(duì)工作。這些語料都來自于不同的領(lǐng)域,包括新聞?wù)Z料(10 068)、中小學(xué)語文課本(10 038)、新浪微博語料(5 000)和用于機(jī)器翻譯的語料(4 900)。下文對(duì)兼語句句模的描寫就是以這個(gè)已標(biāo)注的語料庫為基礎(chǔ)。

4 兼語句句模描寫

兼語句作為漢語中一種常用的特殊句式,也常常與其他句式連用,從而使得研究更加困難。為了簡(jiǎn)化研究,本文以單純的兼語句(不包括兼語連動(dòng)連用句)為研究對(duì)象。其次,雖然已經(jīng)標(biāo)注了30 000個(gè)句子,但是仍然有20 000句等待校對(duì),所以,文章兼語句句模的研究是以10 038個(gè)來自中小學(xué)語文課本的校正語料為基礎(chǔ)。

4.1 兼語句自動(dòng)抽取

我們的語料庫標(biāo)注結(jié)果采用CoNLL數(shù)據(jù)格式存儲(chǔ),共有十列,如表1所示。其中,第一列數(shù)字表示詞語在句中的位置;第二列是當(dāng)前詞語或標(biāo)點(diǎn),第三列為詞語原型,中文語料的第二列和第三列相同;第四列和第五列分別為粗粒度和細(xì)粒度詞性;第六列為句法特征,此處未被使用,以下劃線標(biāo)識(shí);第七列為該詞語的父節(jié)點(diǎn)即其核心詞的序號(hào);第八列為該節(jié)點(diǎn)和父節(jié)點(diǎn)之間的語義關(guān)系;第九和第十列本語料庫不予標(biāo)記。

表1 標(biāo)注結(jié)果存儲(chǔ)形式

兼語句的句法結(jié)構(gòu)要求有兩個(gè)謂詞性詞語,兩個(gè)謂詞性詞語之間有一個(gè)名詞性短語,并且這個(gè)名詞性詞語(即兼語)一定有兩個(gè)父節(jié)點(diǎn)。因此,按照結(jié)構(gòu)存儲(chǔ)規(guī)則和兼語句的句式特點(diǎn),我們?cè)O(shè)置了圖4所示的兼語句自動(dòng)抽取算法。

依據(jù)此抽取算法,我們?cè)?0 038個(gè)句子中共抽取了真正兼語句297條,偽兼語句141條。其中偽兼語句是指程序自動(dòng)抽出的符合兼語句形式標(biāo)準(zhǔn),卻不是兼語句的句子和兼語連動(dòng)連用的句子。

圖4 兼語句自動(dòng)抽取算法

4.2 兼語句句模構(gòu)建原則

句模描寫具有層級(jí)性。層級(jí)性的原則是由上到下數(shù)目逐漸增多。其中數(shù)目最少的當(dāng)屬兼語句中兩個(gè)動(dòng)詞表示的事件之間的邏輯關(guān)系了,所以兼語句中兩個(gè)動(dòng)詞表達(dá)的事件之間的語義關(guān)系為第一個(gè)層級(jí);第二個(gè)層級(jí)以兼語句中兼語N2所承擔(dān)的語義角色組合的不同為核心,輔以主語的語義角色和兼語動(dòng)詞V1,將兼語句中可以充當(dāng)V1的動(dòng)詞分為:使令、命令、勸令、委托、提供、推舉、協(xié)同、協(xié)助、跟隨、喜惡和有無類[32],此外,這里描寫的句模直接忽略了具體句子中出現(xiàn)的時(shí)間、空間和方式等表示附加意義的周邊語義角色,因?yàn)槎鄶?shù)動(dòng)詞都可以任意添加這些語義角色表達(dá)相同的語義,只是在句中的位置不同;第三個(gè)層級(jí)是對(duì)典型V1的舉例。

兼語動(dòng)詞V1是“有無類”的兼語句是兼語句中比較特殊的一類,這類兼語句在很多情況下,可以通過句式轉(zhuǎn)換,變成一個(gè)普通的句式,并且句子表達(dá)的語義不會(huì)有很大差別。這種可以轉(zhuǎn)換與不可以轉(zhuǎn)換的“有無類”兼語句之間不存在明顯差別;另一方面,“有無類”兼語句表達(dá)的兩個(gè)事件之間的語義關(guān)系也不是很明確,只能細(xì)細(xì)體會(huì)到事件主體自然而然變了。因此,我們?cè)谶@里就將所有的“有無類”兼語句表達(dá)的事件關(guān)系定義為順承關(guān)系。

4.3 基于語義依存圖的兼語句句模

根據(jù)對(duì)兼語句中兩個(gè)動(dòng)詞之間語義關(guān)系的考察,這兩個(gè)動(dòng)詞的語義關(guān)系可以用四種語義關(guān)系來概括:結(jié)果、順承、目的和原因。但是這四種事件語義關(guān)系卻不是同等重要,即其使用頻率存在很大差別。順承和結(jié)果相對(duì)而言,使用的更為頻繁,原因的使用是最少的。在兼語句中,每個(gè)兼語都承擔(dān)著兩種語義角色,從理論角度看,兼語承擔(dān)的語義角色會(huì)形成成百上千種不同的組合關(guān)系,但事實(shí)卻不是這樣的。根據(jù)真實(shí)語料,我們發(fā)現(xiàn)在四種事件關(guān)系中,兼語承擔(dān)的語義角色總共形成了23種不同的組合關(guān)系。在表示結(jié)果、目的、順承和原因關(guān)系的兼語句中,兼語承擔(dān)的語義角色組合關(guān)系分別有11種、9種、15種和3種。其中一些組合關(guān)系是至少兩種事件關(guān)系當(dāng)中共有的(10種),還有一些則是某種事件關(guān)系當(dāng)中所獨(dú)有的(13種)。部分兼語句句模的具體情況如下表2所示。

表2 兼語句句模

以表2中第一個(gè)例句為例,V1為使令類動(dòng)詞“使得”,V2為普通動(dòng)詞“啞口無言”,兼語N2“他”既是V1的“與事”角色同時(shí)又是V2的“當(dāng)事”角色,句子主語N1“論點(diǎn)”是V1的“當(dāng)事”角色,V1“使得”和V2“啞口無言”之間構(gòu)成原因—結(jié)果關(guān)系,但是在這種情況下,原因不是十分突出。在這種表示結(jié)果關(guān)系的兼語句中,那些以沒有實(shí)在意義的詞“使”“讓”做兼語動(dòng)詞的兼語句中,都可以把句子主語當(dāng)做后一事件的緣故成分去解釋,完全不會(huì)影響句子語義的表達(dá)和理解。如句子“一條新修的公路,使我家失去了四季翠綠的菜園”,表達(dá)這個(gè)意義的普通句式為“因?yàn)橐粭l新修的公路,我家失去了四季翠綠的菜園”。所以在這里就會(huì)出現(xiàn)一定的問題,漢語中是否真的存在兼語句,是否能把這種兼語動(dòng)詞處理為虛詞還有待進(jìn)一步的研究。

“使令類”動(dòng)詞既可以出現(xiàn)在表示結(jié)果關(guān)系的兼語句中,也可以出現(xiàn)在表示目的關(guān)系的兼語句中。這樣一來,可能會(huì)造成結(jié)果關(guān)系和目的關(guān)系難以區(qū)分,但是這樣的表示目的關(guān)系的“使令類”動(dòng)詞確實(shí)與表示結(jié)果關(guān)系的“使令類”動(dòng)詞有很大差別。一方面,出現(xiàn)在兩種表示不同的事件關(guān)系的兼語句中的“使令類”還是存在一些意義上的差別,這種差別可以在句模中反映出來。在表示目的關(guān)系的兼語句中,“使令類”動(dòng)詞是具有實(shí)在意義的詞語,其意義類似于“命令、要求”等,且兼語句的主語通常是它們的施事;而在表示結(jié)果關(guān)系的兼語句中,“使令類”詞語意義比較虛,且句子主語通常是其當(dāng)事或者省略;另一方面,表示結(jié)果關(guān)系的“使令類”動(dòng)詞周圍通常會(huì)出現(xiàn)一些時(shí)體標(biāo)記“了”、“昨天”等。

在表示順承關(guān)系的兼語句句模中,“有無類”兼語句占相當(dāng)高的比重。一方面,因?yàn)椤坝袩o類”兼語句并不存在明顯的事件關(guān)系,只是單純的順其自然地轉(zhuǎn)換話題,如在句子“早上六點(diǎn)鐘起,就有群眾的隊(duì)伍入場(chǎng)了。”中,第二個(gè)事件的話題自然而然轉(zhuǎn)移到“隊(duì)伍”;并且這種兼語句通??梢赞D(zhuǎn)換成普通的存在句,即把這類兼語句中的V2代表的整個(gè)事件提前到兼語之前,充當(dāng)兼語的定語。如“村里有一個(gè)離奇的故事一直在流傳著”可以轉(zhuǎn)換成“村里有一個(gè)一直在流傳著的離奇的故事”;另一方面,在那些不能替換和能替換成普通存在句的“有無類”兼語句之間還未能找到合理的科學(xué)的解釋。如句子“這一夜,沒有什么人睡覺,”和“陸地上幾乎沒有什么東西覆蓋它們?!?,兼語都是“什么”,一個(gè)可以轉(zhuǎn)換,一個(gè)卻不能轉(zhuǎn)換。

相對(duì)于其他三種句模,表示原因的兼語句句模的種類和數(shù)量是最少的,但也是最具有區(qū)別度的。因?yàn)樵谶@種句模中,兼語動(dòng)詞常常是喜惡類動(dòng)詞,并且喜惡類動(dòng)詞不會(huì)進(jìn)入其他三種兼語句句模結(jié)構(gòu)。表示原因的兼語句可以通過轉(zhuǎn)換變成一個(gè)表示原因—結(jié)果關(guān)系的復(fù)句。如句子“妻子埋怨他不務(wù)正業(yè)”,可以轉(zhuǎn)換成“妻子埋怨他,因?yàn)樗粍?wù)正業(yè)”,這個(gè)單句和復(fù)句在意義上沒有任何差別,只是語言形式不同。

除了上述例舉的12種兼語句句模,本文共總結(jié)了38種兼語句句模,其中結(jié)果關(guān)系句模11種,目的關(guān)系九種,順承關(guān)系15種和原因關(guān)系三種。但是由于文章長(zhǎng)度限制,在這里,不能展示所有的具體句模,只能在有限的空間內(nèi)展示盡可能多的具體句模。同時(shí),由于語料規(guī)模較小,在大規(guī)模語料中可能會(huì)出現(xiàn)這38種兼語句句模無法覆蓋的情況。但即使是這樣,這些句模的總結(jié)也將更好地幫助構(gòu)建語義依存關(guān)系自動(dòng)分析模型。

5 結(jié)語

鑒于依存分析的優(yōu)點(diǎn)和漢語語言的特點(diǎn),本文提出了一種新的句子語義分析理論——語義依存圖理論。語義依存圖結(jié)構(gòu)有兩個(gè)不同于語義依存樹的特點(diǎn):1)多父節(jié)點(diǎn);2)非投射。此外,兩者對(duì)語義角色的定義也不同,語義依存圖理論定義了一套有系統(tǒng)、分層級(jí)的語義關(guān)系體系。根據(jù)這套理論,我們建立了一個(gè)包含30 000個(gè)句子的語義依存圖庫。在10 000個(gè)來自該語料庫的句子的基礎(chǔ)上,對(duì)其中的兼語句(不包括兼語連動(dòng)連用句)的語義結(jié)構(gòu)進(jìn)行了總結(jié)。這種語義結(jié)構(gòu)的描寫是分層次、有結(jié)構(gòu)的描寫。第一層是兼語句中兩個(gè)謂詞代表的事件之間的語義關(guān)系:1)結(jié)果;2)目的;3)順承;4)原因;第二層以兼語承擔(dān)的語義角色組合關(guān)系為核心,輔以主語的語義角色和兼語動(dòng)詞V1的動(dòng)詞類,共總結(jié)23種不同的組合關(guān)系、11種V1所屬語義類和38種具體的兼語句句模;第三層是對(duì)典型V1的舉例。這樣對(duì)兼語句句模進(jìn)行描寫可以幫助建立句型與句模的映射關(guān)系,從而促進(jìn)句法-語義界面研究和語義研究的發(fā)展,同時(shí),也能幫助機(jī)器自動(dòng)生成符合規(guī)范的句子,促進(jìn)人工智能的發(fā)展。

由于語料規(guī)模有限,可能還存在以上兼語句句模不能覆蓋的兼語句現(xiàn)象,這一點(diǎn),還有待于語料規(guī)模的擴(kuò)大。此外,兼語句中第二個(gè)謂詞表示的事件框架往往與第二個(gè)謂詞的謂詞意義和特點(diǎn)有很大的關(guān)系,因此,對(duì)第二個(gè)謂詞的分類研究和進(jìn)行更加完善全面的兼語句句模描寫和結(jié)構(gòu)設(shè)計(jì)將是下一步工作。再者,研究其他特殊句式的句模和建立漢語句子的句模系統(tǒng)也將是我們未來的研究工作。

[1] 孫道功,亢世勇,孫茂松.基于標(biāo)注語料庫的現(xiàn)代漢語單句句型句模的對(duì)應(yīng)關(guān)系研究[C].全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集,2005:234-240.

[2] 孫道功,亢世勇,孫茂松.面向語言處理的單句句型句模對(duì)應(yīng)關(guān)系研究——基于標(biāo)注語料庫的定量考察[J].計(jì)算機(jī)工程與應(yīng)用,2006,33:170-173.

[3] 黃曉冬.試論兼語短語的語義結(jié)構(gòu)[J].四川師范大學(xué)學(xué)報(bào),2009,36(6):38-43.

[4] Fillmore Charles J,Collin F Baker.FrameNet:Frame Semantics Meets the Corpus[D].Poster presentation,74th Annual Meeting of the Linguistics Society of A-merica,2000.

[5] Palmer M,Gildea D,Kingsbury P.The Proposition Bank:A Corpus Annotated with Semantic Roles[J].Computational Linguistics,2005,31(1):71-105.

[6] Chang Liu,HweeTou Ng.Learning Predictive Structures for Semantic Role Labeling of NomBank[C]//Proceedings of the ACL 2007:208-215.

[7] N Xue,M Palmer.Annotating the Propositions in the Penn Chinese Treebank.Q Ma,F(xiàn) Xia,(Editors)[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing,2003:47-54.

[8] Liping You,Kaiying Liu.Building Chinese FrameNet Database[C]//Proceedings of the 2005IEEE International Conference on Natural Language Processing and Knowledge Engineering,2005:301-306.

[9] Nianwen Xue.Annotating the predicate-argument structure of Chinese nominalizations[C]//Proceedings of the fifth international conference on Language Resources and Evaluation,Genoa,Italy,2006.

[10] Min Zhang,Wanxiang Che,Guodong Zhou,et al.Semantic Role Labeling Using a Grammar-Driven Convolution Tree Kemel[C]//Proceedings of the IEEE Transactions on Audio Speech and Language Processing 2008,16(7):1315-1329.

[11] Wanxiang Che,Min Zhang,Ai Ti Aw,et al.Using a Hybrid Convolution Tree Kernel for Semantic Role Labeling[C]//Proceedings of the ACMTransactions on Asian Language Information Processing 2008,7(4):1-23.

[12] Xue NW.Labeling Chinese Predicates with Semantic Roles[J].Computational Linguistics,2008,34(2):225-255.

[13] Hacioglu K.Semantic Role Labeling using Dependency trees[C]//Proceedings of the COLING04Proceedings of the 20th international conference on Computational Linguistics.2004:1273-1281.

[14] 丁偉偉,常寶寶.基于語義組塊分析的漢語語義角色標(biāo)注[J].中文信息學(xué)報(bào),2009,23(5):53-61,74.

[15] Carreras X,Mrques L.Introduction to the conll2005 shared task:semantic role labeling[C]//Proceedings of the CONLL 05Proceedings of the 9th Conference on Computational Natural Language Learning.Stroudsburg:Association for Computational Linguistics.2005:152-164.

[16] 尤昉,李涓子,王作英.基于語義依存關(guān)系的漢語語料庫的構(gòu)建[J].中文信息學(xué)報(bào),2003,17(1):46-53.

[17] B Chen,D Ji.Chinese Semantic parsing Based on de-pendency Graph[C]//Proceedings of the First International Conference on Electronic &Mechanical Engineering and Information Technology,2011:1730-1734.

[18] 范曉.三個(gè)平面的語法觀[M].北京:北京語言學(xué)院出版社,1996.

[19] 范曉,朱曉亞.論句模研究的方法[J].徐州師范大學(xué)學(xué)報(bào),1999,25(4):18-23.

[20] 朱曉亞.現(xiàn)代漢語句模研究[M].北京:北京大學(xué)出版社,2001.

[21] 徐昌火.試論句模研究的對(duì)象、起點(diǎn)和基本原則[J].南京師范大學(xué)學(xué)報(bào),1999,4:101-108.

[22] 魯川.漢語語法的意合網(wǎng)絡(luò)[M].北京:商務(wù)印書館,2001.

[23] 田珍都.基于標(biāo)注語料庫的現(xiàn)代漢語句模研究[D].煙臺(tái)師范學(xué)院碩士學(xué)位論文,2002.

[24] 亢世勇,許小星.現(xiàn)代漢語句系系統(tǒng)的構(gòu)建和研究[J].中文信息學(xué)報(bào),2010,24(1):103-109.

[25] 黃伯榮,廖旭東.現(xiàn)代漢語(第四版)[M].北京:高等教育出版社,2007.

[26] 許小星.基于標(biāo)注語料庫的現(xiàn)代漢語特殊句式語義分析[D].煙臺(tái):魯東大學(xué)碩士學(xué)位論文,2007.

[27] Robinson J J.Dependency Structures and Transformation Rules[J].Language,1970,46(2):259-285.

[28] 鄭麗娟,邵艷秋,楊爾弘.中文非投射語義依存現(xiàn)象分析研究[J].中文信息學(xué)報(bào),2014,28(6):41-47.

[29] Qiang Dong,ZhendongDong.Hownet and Computation of Meaning[M].World Scientific Publishing Company,2006.

[30] 馮志偉.中文信息處理與漢語研究[M].北京:商務(wù)出版社,1992.

[31] 袁毓林.基于認(rèn)知的漢語計(jì)算語言學(xué)研究[M].北京大學(xué)出版社,2008.

[32] 游汝杰.現(xiàn)代漢語兼語句的句法和語義特征[J].漢語學(xué)習(xí),2002,6:1-6.

猜你喜歡
語料語句語義
真實(shí)場(chǎng)景水下語義分割方法及數(shù)據(jù)集
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
重點(diǎn):語句銜接
語言與語義
對(duì)外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
批評(píng)話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“吃+NP”的語義生成機(jī)制研究
我喜歡
國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
異種語料融合方法: 基于統(tǒng)計(jì)的中文詞法分析應(yīng)用
汽车| 红安县| 南京市| 文昌市| 偃师市| 郑州市| 疏附县| 邓州市| 墨玉县| 灵宝市| 健康| 宝丰县| 当雄县| 邯郸市| 淮北市| 恩施市| 龙海市| 常熟市| 洮南市| 南陵县| 南昌县| 招远市| 威远县| 武汉市| 萝北县| 宽城| 潞西市| 新建县| 阿拉善左旗| 精河县| 浠水县| 唐山市| 龙州县| 宜君县| 永丰县| 天门市| 西安市| 甘孜| 邯郸市| 介休市| 清原|