国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向信息處理的大規(guī)模句子語義知識庫研究述要

2011-12-05 07:00周明海亢世勇
當(dāng)代外語研究 2011年10期
關(guān)鍵詞:論元知識庫句法

周明海 亢世勇

(魯東大學(xué),煙臺,264025)

劉金鳳

(海軍航空工程學(xué)院,煙臺,264001)

1.引言

句子語義知識庫指計算機(jī)所存儲的句子層面語義知識的集合,既包括句子語義知識系統(tǒng),也包括在此系統(tǒng)指導(dǎo)下建立的標(biāo)注語料庫,可分為義項標(biāo)注庫、語義角色標(biāo)注庫等。本文所說的句子語義知識庫主要指標(biāo)注了語義角色的知識庫。有些知識庫并非專門的句子語義知識庫,比如FrameNet是計算機(jī)詞典編纂工程、VerbNet是動詞詞庫,但這些知識庫都對句子進(jìn)行了語義角色標(biāo)注,有自己的理論體系,也有一定的數(shù)量規(guī)模,因此我們均視之為句子語義知識庫。

句子語義知識庫的建設(shè)可以促進(jìn)句法語義接口問題的深入研究,為大規(guī)模語料的自動語義標(biāo)注提供訓(xùn)練集,服務(wù)于機(jī)器翻譯、信息提取、文本摘要、問答系統(tǒng)等多項研究。出于863項目子課題“事件描述塊句法語義標(biāo)注”語料庫建設(shè)的需要,我們從項目研制時間、研制者、所建知識庫的規(guī)模、建庫的理論基礎(chǔ)、所設(shè)的語義角色等方面考察了近些年來國內(nèi)外影響較大的句子語義知識庫,總結(jié)規(guī)律、吸取經(jīng)驗教訓(xùn),更好地服務(wù)于我們的項目。表1列出了近年來國內(nèi)外所建的句子語義知識庫。

2.國外句子語義知識庫的建設(shè)

句子語義知識庫的建設(shè)離不開先進(jìn)的語義學(xué)理論的指導(dǎo)。近些年來,國外特別是美國在語義學(xué)理論方面一直處于領(lǐng)先地位,他們構(gòu)建語義知識庫的經(jīng)驗值得我們深入研究和借鑒。

2.1 框架語義知識庫(FrameNet)

FrameNet是美國加州大學(xué)伯克利分校于1997年開始構(gòu)建的一個以框架語義學(xué)為理論基礎(chǔ)、以真實語料庫為依據(jù)的計算機(jī)詞典編纂工程,該項目由美國國家科學(xué)基金NSF資助,由Fillmore主持,已發(fā)布了五版,是一個依然在建設(shè)中的英語在線詞匯知識庫。截至目前,FrameNet研究小組共標(biāo)注了1,007個語義框架,描述了11,797個英語詞元(其中近7,000個詞元已完成了注釋),并給出15,000多個帶有語義標(biāo)注信息的例句①。

FrameNet雖然是一個計算機(jī)詞典編纂工程,但其對框架、框架元素的界定及獨(dú)特的句子語義標(biāo)注體系非常引人關(guān)注??蚣苁菍Α皥鼍啊钡慕Y(jié)構(gòu)化表征,這些場景包括信仰、實踐、制度、想象等,并為一定言語社團(tuán)中意義的交流提供了基礎(chǔ)??蚣苤猩婕暗母鞣N參與者、外部條件和其他概念角色,稱為框架元素(Frame Elements),相當(dāng)于我們所說的語義角色??蚣茉氐墨@得遵循以下程序:先把含義接近、語義搭配屬性(配價屬性)基本相同的不同詞元?dú)w為一個框架,再給出共有的框架元素。下面是一個標(biāo)注樣例:

框架:[Perpetrator/man]+abduct+[Victim/him]+[Time/Sinterrog]

例句:A year ago [a man] tried toabductTgt[him] [

在FrameNet中,框架元素根據(jù)它們與框架的緊密程度分為三種:核心(core)、外圍(peripheral)和題外(extrathematic)元素,此外還有一種為隱含核心。核心元素是一個框架在概念上的必要成分,核心元素在不同的框架中有所不同,凸顯出框架的個性。外圍元素對于主要事件不增加額外的、獨(dú)特的事件,如時間(Time),空間(Place)等。它們不顯示框架的個性,可以出現(xiàn)在任何框架中。題外元素把一個事件置于另一些事件狀態(tài)的背景之下,它們或者是一個實際事件,或者是同類狀態(tài),如“重復(fù)”。外圍和題外元素大致是通用的,而核心元素則隨著框架的不同而不同,2008年10月發(fā)布的FrameNet已有9,000余個框架元素。

表1 近年來國內(nèi)外建設(shè)的句子語義知識庫

2.2 英語命題庫(PropBank)

PropBank是由BBN公司、約翰霍普金斯大學(xué)MITRE研究所、紐約大學(xué)、賓夕法尼亞大學(xué)從2000年開始構(gòu)建的。該語義資源庫是在賓州樹庫(Penn TreeBank)的基礎(chǔ)上添加一層謂詞—論元結(jié)構(gòu)信息而建立起來的,即把語義角色指派到樹庫句法樹的有關(guān)節(jié)點(diǎn)上。PropBank中的一個標(biāo)注單元被稱為一個命題。命題由動詞和它的語義角色組成,目前已標(biāo)注1MB的語料,4,592個動詞,共44,631個句子,平均每個句子包含2.53個命題,每個命題包含3.21個語義角色②。

與Framenet不同,PropBank只給動詞標(biāo)注帶有語法標(biāo)記成分的語義角色。在對待語義角色上,PropBank試圖超越傳統(tǒng)語義標(biāo)注理論,認(rèn)為語義角色的數(shù)量、語義角色之間如何區(qū)分并無定論,并且目前的語義角色并不能覆蓋所有的詞。為了避開這些問題,PropBank不企圖證實或不證實任何一種語義理論,它的語義角色是針對某個動詞的容易理解的具體的詞,即以一個一個的動詞來定義語義角色,目的是提供一致的語義標(biāo)簽,更好地服務(wù)于計算統(tǒng)計和自動提取。下面是一個標(biāo)注實例:

Roles:Arg0:agreer

Arg1:proposition

Arg2:otherentityagreeing

Usually John agrees with Mary on everything.

Argm-TMP: Usually

Arg0: John

Rel: agrees

Arg2-with: Mary

Arg1-on: everything

PropBank先給出動詞的框架,每一個框架由一個或多個對應(yīng)于特定動詞的義項的框架集合(framesets)組成,每一個框架集合帶有一組語義角色(即角色集合,roleset),分別以通用的論元標(biāo)記Arg0,Arg1,...,Arg5,ArgMs等來標(biāo)記。Arg0,Arg1,...,Arg5的語義角色并不對應(yīng),Arg0多為施事、因事或經(jīng)驗者,Arg1多為受事論元,腳標(biāo)2、3、4、5只是論元出現(xiàn)的順序,在此基礎(chǔ)上,再通過Verbnet、Wordnet映射實現(xiàn)語義抽取。PropBank還使用了TreeBank現(xiàn)有的功能標(biāo)記來標(biāo)注非必有論元,這些語義角色對事件的表達(dá)非常重要,如表2所示。

表2 PropBank輔助語義角色體系

PropBank的目標(biāo)是對原樹庫中的句法節(jié)點(diǎn)標(biāo)注上特定的語義標(biāo)記,使其保持語義角色的相似性。標(biāo)注旨在提供一個覆蓋面廣的用手工標(biāo)注的語義角色語料庫,使得更好的通用語言理解系統(tǒng)的開發(fā)、論元結(jié)構(gòu)句法實現(xiàn)時發(fā)生變異的原因和方式的計量研究成為可能。

2.3 英語動詞庫(VerbNet)

VerbNet是目前最大的在線英語動詞詞典,是由美國科羅拉多大學(xué)的Martha Palmer,Karin Kipper等教授于2000年開始構(gòu)建的,現(xiàn)在己發(fā)布到VerbNet 3.1版(2009年),共274個動詞義場,約4,000個動詞,5,500個義項,標(biāo)注了1,249個實例③。VerbNet通過完善和增加子類的方式擴(kuò)展Levin動詞分類體系實現(xiàn)之間的句法和語義的對應(yīng),是一個分層的領(lǐng)域獨(dú)立、覆蓋面廣的動詞詞匯庫,并且可以與其他詞匯資源(如WordNet、Framenet、PropBank)映射。

作為目前最大的在線英語動詞詞典,VerbNet為NLP(Natural Language Processing)應(yīng)用提供了需要的信息,包括:清晰的謂詞論元結(jié)構(gòu)、題元角色、選擇限制、框架集、句法分析和語義成分。VerbNet將動詞分為若干個類,對于同一動詞類,句法行為相同的具有共同的句法框架。VerbNet在句法上對應(yīng)著語義角色,而具體的語義信息則用布爾運(yùn)算式來表示,具體標(biāo)注內(nèi)容如下例。

Class Hit-18.1Roles and Restrictions: Agent[+int_control] Patient[+concrete] In-strument[+concrete]Members: bang, bash, hit, kick, ...Frames:NameExampleSyntaxSemanticsBasicTransitivePaula hitthe ballAgent VPatientcause (Agent, E) manner(during (E), directedmotion, Agent)! contact(during (E), Agent,Patient) manner (end (E),forceful, Agent) contact(end (E), Agent, Patient)

VerbNet共設(shè)23個語義角色,不區(qū)分核心和輔助語義角色,并且這些語義角色具有較高的概括度。

2.4 中文命題庫(Chinese PropBank)

中文命題庫由Martha Palmer,Nianwen Xue,Zixin Jiang等人從2002年開始在賓州大學(xué)中文樹庫的基礎(chǔ)上添加謂詞—論元結(jié)構(gòu)形成的④。中文命題庫基本上參照了PropBank的標(biāo)注體系,但與英語的PropBank不同的是在語義標(biāo)注時保留了賓州中文樹庫的句法標(biāo)記。目前已標(biāo)10,364個句子,包含4,854個不同的謂詞。

Chinese PropBank的句子來自于新華新聞和光華雜志。標(biāo)注實例如下:

Frameset:f1

ARG0: entity described

Frame:

( (IP (LCP-LOC (NP (ADJP (JJ 擋風(fēng)))

(NP (NN 玻璃)))

(LC 上))

(NP-SBJ (NN 火花))

(VP (VV 飛濺))

(PU。)))

ARGM-LOC: 擋風(fēng)玻璃上

ARG0: 火花

REL: 飛濺

Chinese PropBank基本上參照PropBank的語義角色體系,為每一個動詞定義了一組語義角色。在語義角色表示方法上采取和PropBank大致相同的辦法,但在處理ArgM上還是有所差異,他們稱之為聯(lián)結(jié)角色。其中輔助語義角色共11個,即:ArgM-ADV、ArgM-CND、ArgM-CMP、ArgM-EXT、ArgM-LOC、ArgM-PRP、ArgM-BNF、ArgM-PRP、ArgM-DIR、ArgM-FRQ、ArgM-MNR、ArgM-TMP、ArgM-TPC。另外ArgX-PRD、ArgX-CRD、ArgX-PSE和ArgX-PSR四個語義角色可以分開使用。

2.5 英語名詞庫(NomBank)

NomBank是與PropBank相關(guān)聯(lián)的語義標(biāo)注項目,由紐約大學(xué)構(gòu)建。NomBank從2003年1月開始制定標(biāo)注規(guī)范,2007年12月17日發(fā)布了NomBank.1.0,涵蓋了賓州樹庫中所有已標(biāo)記過的名詞。NomBank先從202,965個含有名詞或含有名詞論元的例句中抽取了114,576命題句子,最后標(biāo)注了約5,000個普通名詞⑤。

NomBank跟PropBank一樣,也要標(biāo)注PropBank語料中與普通名詞同現(xiàn)的論元情況。這個項目很大程度上是在凱瑟琳·麥克勞德Nomlex項目及支撐動詞有關(guān)研究的基礎(chǔ)上進(jìn)行的,這使得語料庫中標(biāo)注了論元結(jié)構(gòu)的名詞有一半是名詞化了的詞或具有名詞化屬性的名詞(如aggression和agenda的論元結(jié)構(gòu)跟動詞destroy和schedule很相似)。NomBank大致采用了PropBank的框架集,即當(dāng)詞類轉(zhuǎn)化時,而語義角色框架缺不變,如動詞“decide”和名詞“decision”的語義框架一樣。NomBank的特殊性使得該項目組更加細(xì)致地定義了名詞的論元結(jié)構(gòu),包括前人研究中有所涉及但很粗淺的領(lǐng)域。因此,他們還研究了一些有代表的語言現(xiàn)象,包括:支撐動詞結(jié)構(gòu)、跨層次論元結(jié)構(gòu)……除了動詞名詞化(如decision,helper,nominee),他們還研究形容詞的名詞化(如incompetence,ability,wisdom),關(guān)系名詞(如president,friend,father),部分整體名詞(如barrage,clump,variety)以及其他帶有名詞論元的名詞。下面是一個標(biāo)注實例:

There have been no customer complaints about that issue.

REL=complaints

ARG0=customer

ARG1=about that issue

ARGM-NEG=no

注:Nombank里的“REL”和其他語義資源庫里的一樣,都是要標(biāo)注的目標(biāo),是支配論元的核心。

Nombank共有十個輔助語義角色,其中有九個輔助語義角色和PropBank一樣,還有一個“ArgM-ADJADV”是Nombank特有的,指形容詞做狀語。

2.6 中文名詞庫(The Chinese Nombank)

中文Nombank是由Nianwen Xue等在中文命題庫的基礎(chǔ)上將英語命題庫和英語Nombank的普通標(biāo)注框架應(yīng)用到了中文的名詞化謂詞的標(biāo)注上建成的。該工作大約從2006年開始,像Nombank一樣,中文Nombank在已有標(biāo)注句法信息的50萬詞的中文樹庫的基礎(chǔ)上添加了一層語義信息。中文Nombank標(biāo)注兩種與名詞化謂詞有關(guān)的成分,即類似論元的成分、類似輔助語義角色的成分。論元也采用ARG0...ARGn的方式,輔助語義角色也采用ARGM-X的形式。名詞化謂詞雖然和其相對應(yīng)的動詞使用相同的框架,但在實際句子中名詞化謂詞用到的論元會比純謂詞的論元要少。這種標(biāo)注大致相當(dāng)于魯川先生對漢語槽關(guān)系的標(biāo)注。同樣,名詞化謂詞用到的輔助語義角色(ARGM-X)較謂詞用到的也要少,下面是一個具體標(biāo)注實例:

[ARGM-LOC 在國際 事物 中],[ARG0 歐盟

at international affairs inside, European Union

同 中國] [SUP 進(jìn)行] 了 [ARGM-MNR 很好]

and China conduct LE very good

的 [REL合作]。

DE cooperation.

3.國內(nèi)句子語義知識庫的建設(shè)

國內(nèi)句子語義知識庫的建設(shè)起步雖然比國外早,并且成績斐然,但影響力卻不理想,這點(diǎn)值得我們深思。

3.1 中文句結(jié)構(gòu)樹資料庫(Sinica Treebank)

中文句結(jié)構(gòu)樹資料庫從1986年起由中央研究院詞庫小組(CKIP)開始構(gòu)建。他們從中央研究院現(xiàn)代漢語平衡語料庫(Sinica Corpus)中抽取句子,以訊息為本格位語法(Information-based Case Grammar)的表達(dá)模式,經(jīng)由計算機(jī)自動剖析成結(jié)構(gòu)樹,再由人工修正、檢驗。目前發(fā)布至3.0版,包含了6個檔案,61,087個中文樹圖,361,834個詞;中文句結(jié)構(gòu)樹數(shù)據(jù)庫開放了網(wǎng)上檢索,提供相關(guān)中文句法、語義關(guān)系等信息。另有1,000個句結(jié)構(gòu)樹供開放下載⑥。

Sinica Treebank利用中文剖析系統(tǒng),將每一個句子剖析成結(jié)構(gòu)樹,依據(jù)詞匯的語法、語義信息和中心語主導(dǎo)原則,判定每一字串的中心語的詞組類型,并為每一個詞組結(jié)構(gòu)標(biāo)上類型和相關(guān)的語義角色,使得每一個成分都標(biāo)記有語義角色、詞/詞組類型等。標(biāo)注實例如:

蔣介石確實講過此話

(agent:NP(Head:Nba:蔣介石)|manner:VH11:確實|Head:VE2:講|aspect:Di:過|goal:NP(quantifier:Nep:此|Head:Nac:話))

Sinica Treebank以Tesnière的依存語法理論為基礎(chǔ),設(shè)計了63個語義角色。語義角色包括中心語、論元及附加成分。因中心語不同,相關(guān)的論元角色及附加成分亦有不同。

3.2 句子級語義標(biāo)注的現(xiàn)代漢語語料庫系統(tǒng)

句子級語義標(biāo)注的現(xiàn)代漢語語料庫系統(tǒng)是北京師范大學(xué)中文信息處理研究所與北京大正語言知識處理科技有限公司合作開發(fā)的。該語料庫系統(tǒng)以黃曾陽先生的概念層次網(wǎng)絡(luò)理論為指導(dǎo),從語義層面對漢語句子進(jìn)行了各個層級的描述,目前已標(biāo)注近30萬字的漢語語料,其中20萬字為連續(xù)文本,另外10萬字為非連續(xù)文本,包含5,000多個單獨(dú)的句子。

該語料庫系統(tǒng)的標(biāo)注內(nèi)容包括:句類、語義塊、句蛻和塊擴(kuò)、詞語。與以往自下而上的語料標(biāo)注方式不同,該系統(tǒng)對句子的語義進(jìn)行了自上而下的標(biāo)注,即先標(biāo)注句類,再標(biāo)注下一級的語義塊,然后是包含在語義塊中的句蛻和塊擴(kuò),最后是詞語。下面是標(biāo)注實例:

!31113T31Y30*?1J然后向他們‖提出‖新的要求。

該語料庫系統(tǒng)對漢語句子從語義層面進(jìn)行了從句群到詞語的各個層級的描述。標(biāo)注語料既為語言研究搭建了平臺,也為語言本體研究和應(yīng)用研究提供了豐富而寶貴的素材和資源。

3.3 漢語框架語義知識庫(Chinese FrameNet,CFN)

漢語框架語義知識庫是由上海師范大學(xué)和山西大學(xué)合作開發(fā)的,是一個以框架語義學(xué)為理論基礎(chǔ)、以真實語料為事實依據(jù)的語義詞典。該語義詞典用語義Web標(biāo)記語言描述,計算機(jī)可讀、可理解。CFN以加州大學(xué)的FrameNet為參照,對漢語語義進(jìn)行形式化描寫,可以近似地看成FrameNet的漢語對應(yīng)庫。截至到目前,CFN課題組已就漢語3,037個詞元構(gòu)建了310個框架,標(biāo)注了21,600條句子。詞元覆蓋認(rèn)知、科普、法律和旅游等多個領(lǐng)域。

同F(xiàn)rameNet一樣,CFN也是一部計算機(jī)詞典,包含三個子庫:框架庫、句子庫和詞元庫。在句子庫中,CFN主要標(biāo)注了目標(biāo)動詞、框架元素、短語類型、句法功能,具體實例如下:

。

CFN參照FrameNet,定義了一個個框架,每個框架都有相應(yīng)的框架元素,用以表示一個語義框架中的各種語義角色。每個框架下包含一定數(shù)量的詞元,這些詞元具有相同的框架元素。

CFN的框架元素分核心框架元素和非核心框架元素,核心元素在不同的框架中有所不同,顯示出框架的個性,非核心框架元素不顯示框架的個性,分為形容、動作時間量、修飾、手段、時間等。在非核心框架元素中有一些是各個框架通用的,被稱為“通用非核心元素”,如物量、受益人、環(huán)境條件、并行事件等31個。

3.4 北大中文網(wǎng)庫(Peking University Chinese NetBank)

北京大學(xué)袁毓林老師主持的北大中文網(wǎng)庫是一個正在建設(shè)中的對漢語大規(guī)模真實文本進(jìn)行多層次語義關(guān)系標(biāo)注的語料庫,語料在100萬字左右。該語料庫旨在通過對語料進(jìn)行多層次的語義標(biāo)注,給漢語的論元結(jié)構(gòu)、邏輯結(jié)構(gòu)和篇章結(jié)構(gòu)等語義關(guān)系及其句法實現(xiàn)建立文件,并為訓(xùn)練基于統(tǒng)計的自動語義分析系統(tǒng)提供數(shù)據(jù)。

北大中文網(wǎng)庫項目共定義了21個論元角色,在標(biāo)注論元信息的同時,也對句子的主觀信息進(jìn)行了標(biāo)注。他們將主觀信息的標(biāo)注放在邏輯語義關(guān)系中,具體包括否定關(guān)系、模態(tài)關(guān)系、時體關(guān)系、稱代關(guān)系和指示關(guān)系,主要涉及否定算子、模態(tài)算子和時體算子跟受其約束的成分之間的邏輯語義關(guān)系,還有代詞和指示代詞跟其先行語之間的照應(yīng)關(guān)系。

跟PropBank相似,北大中文網(wǎng)庫是在詹衛(wèi)東、常寶寶等人開發(fā)的北大漢語句法分析樹庫的基礎(chǔ)上進(jìn)行語義標(biāo)注,而且分別采用人工手動標(biāo)注和軟件輔助標(biāo)注兩種方式,但其定義的語義角色還是傳統(tǒng)的、概括度較高的語義角色。如:

[軍隊人數(shù)]Th<不>neg{<得>mod{超過[人國人口總數(shù)的1%]Re}}

3.5 現(xiàn)代漢語句子語義結(jié)構(gòu)系統(tǒng)研究語料庫

該語料庫的建設(shè)開發(fā)分為三個階段:第一階段從2001年開始,由國家973項目子課題“標(biāo)注語義結(jié)構(gòu)語料庫的研究與實現(xiàn)”支持。在這一階段中,只標(biāo)記句中的“因事”、“果事”和謂語動詞三部分,據(jù)此開發(fā)了一個400萬詞規(guī)模、包含228,960個句子的漢語語義骨架標(biāo)注語料庫。盡管對語義成分的分類較為粗略,附著的句子語義結(jié)構(gòu)信息較為簡單,但這樣的標(biāo)注對于“咬死了獵人的狗”一類歧義句的消歧具有很好的效果。

在總結(jié)原來簡單語義成分標(biāo)注的基礎(chǔ)上,第二階段進(jìn)一步在一定規(guī)模語料庫里標(biāo)注詞性、句法成分、語義成分(即語義角色)等信息,開發(fā)了一個500萬字的奧運(yùn)語料庫。該語料庫共設(shè)置了23類語義成分標(biāo)記,對探索語義成分映射為句法成分所受的限制、句子的句法結(jié)構(gòu)與語義結(jié)構(gòu)的對應(yīng)關(guān)系打下了堅實基礎(chǔ)。

由于第一階段的語義角色標(biāo)注過于簡單,第二階段標(biāo)注的奧運(yùn)新聞?wù)Z料則過于專業(yè),平衡性差,因此在總結(jié)這兩個階段研究的優(yōu)缺點(diǎn)后,第三階段則選取中小學(xué)語文課本、對外漢語教學(xué)閱讀材料等語料進(jìn)行標(biāo)注。目前已加工好的語料為80余萬字。在這一階段,先前的23類語義成分也調(diào)整為25類,標(biāo)注實例如下:

[S四合院/n]D [P是/v]V [O一個/m 盒子/n]X 。/w

3.6 “事件描述塊句法語義標(biāo)注”語料庫

“事件描述塊句法語義標(biāo)注”語料庫建設(shè)是863項目“基于人類識知的語義知識融合、學(xué)習(xí)與計算技術(shù)”(編號2007AA01Z173)的一個子課題,由清華大學(xué)、北京大學(xué)、魯東大學(xué)共同構(gòu)建。研究的重點(diǎn)集中在對物質(zhì)世界和人類社會中的幾大類客觀關(guān)系的實踐內(nèi)容加以分析和標(biāo)注,主要包括:廣義擁有關(guān)系、時空存現(xiàn)關(guān)系和時空變化關(guān)系等方面。通過對真實文本句子中的事件情境內(nèi)容的準(zhǔn)確標(biāo)注,在詞匯層面上建立起句法關(guān)系與謂詞-論元結(jié)構(gòu)之間的內(nèi)在聯(lián)系,為進(jìn)行大規(guī)模真實文本句子的事件內(nèi)容信息分析提供重要的訓(xùn)練和測試語料庫。語料來源于清華樹庫、人民日報、中小學(xué)語文課本,最后共標(biāo)注了10萬多句。

事件描述塊的句法語義標(biāo)注項目在吸收前人研究成果的基礎(chǔ)上,根據(jù)語義角色評價標(biāo)準(zhǔn)和語義角色數(shù)量設(shè)置原則,經(jīng)過反復(fù)研究,最終確定了一個包含46個語義角色的標(biāo)注體系,并確定了程度、限定、肯定、否定、頻率、時態(tài)、方式、評論、補(bǔ)充等9個輔助語義角色。具體標(biāo)注實例如下:

[D-pp 對/p 用/p 公車/n 接送/v 孩子/n 上學(xué)/v [的/u]h ]O-GY ,/w 除了/p [P-vp 沒收/v ]Tgt [O-np 汽車/n ]PN ,/w 還要/v 開除/v 司機(jī)/n 。/w

4.構(gòu)建句子語義知識庫的幾點(diǎn)認(rèn)識

4.1 語義角色的精細(xì)等級

袁毓林(2007)指出語義角色的粗細(xì)程度可以因語言學(xué)家的認(rèn)識或具體的應(yīng)用目標(biāo)的不同而不同,從非常專門的到非常一般的,從而形成不同等級的語義角色集合,并將語義角色各種粗細(xì)不等的分類系統(tǒng)分為微觀、中觀和宏觀三個等級(見下圖)。

通過前文的分析,我們根據(jù)語義角色的抽象度和適用范圍把語義角色的精細(xì)度分為四級,如表3。

表3 語義角色精細(xì)度的四個層級

袁毓林(2007)在中觀層面上分出了基于動詞類的角色和基于場景的角色,但由于這兩類語義角色的抽象度不同,我們在此把其分為兩級。Chinese PropBank界定的語義角色是在微觀層次上基于特定動詞的角色,但是還借鑒了宏觀層次上原型角色的抽象性指派的做法,使用了數(shù)目相對有限的帶編號的論元。Chinese FrameNet是通過基于場景的語義框架來定義語義角色。北大中文網(wǎng)庫的語義角色是中觀層次上基于動詞類的抽象角色,在定義角色時,又借鑒了微觀層次上針對特定動詞的參與角色進(jìn)行具體描寫的做法。Sinica Treebank和知網(wǎng)都是中觀層次基于動詞類的語義角色,而一般的學(xué)者體系也都屬于這種層級類型。

由此我們可以看出,盡管微觀、中觀和宏觀三個層次上的語義角色分類都有其在信息處理中的應(yīng)用價值,但是中觀層面的語義角色系統(tǒng)使用最為普遍,而且在語義角色的分類和界定上出現(xiàn)了兼顧幾個層次信息的趨勢。

4.2 語義角色的數(shù)量設(shè)置

語義角色的設(shè)置要根據(jù)所要達(dá)到的目的,可以是兩個也可以是無數(shù)個,且各有利弊。語義角色抽象便于總結(jié)語法規(guī)則,卻不利于統(tǒng)計;語義角色越具體就越便于統(tǒng)計應(yīng)用,但很難找出普遍的規(guī)則?,F(xiàn)在的通常做法是和第二、第三級映射,以便得出抽象的規(guī)則。目前國內(nèi)的標(biāo)注大都還處于第一、二、三級標(biāo)注階段,針對一個個特定動詞的語義角色標(biāo)注還有待于進(jìn)一步的深入研究。

林杏光(1998)認(rèn)為,語義分類的靈活性導(dǎo)致了語義格的非窮盡性,但是不應(yīng)追求劃分語義格的數(shù)量,而應(yīng)采用“逐層控制,層層推進(jìn)”的方法。這種說法確實有道理,但是在具體的語言工程中還是需要一個有確定數(shù)量的語義角色體系。一般而言,語義角色的數(shù)量與語義角色的精細(xì)等級是成正比的,宏觀層次的語義角色要遠(yuǎn)遠(yuǎn)少于微觀層次基于特定動詞的語義角色數(shù)量。由于語義角色抽象程度的不同和對語義角色認(rèn)識的不同,在同一個層級語義角色的數(shù)量也會存在差異,如同樣是中觀層次的語義角色系統(tǒng),Sinica Treebank有63個語義角色,知網(wǎng)卻有90個。

從工程應(yīng)用的角度來看,語義角色數(shù)量的多少對于整個知識庫的構(gòu)建有著很大的影響。數(shù)量太少,則提供的語義信息不夠精細(xì);數(shù)量太多,則人工標(biāo)注時記憶負(fù)荷大,語義角色數(shù)量過多會導(dǎo)致計算機(jī)系統(tǒng)運(yùn)行效率明顯低下。所以在確定語義角色數(shù)量時,要權(quán)衡這些因素,取一個相對合理的中間值。

4.3 語義角色的分類

這里“語義角色的分類”不是指對一個個語義角色的劃分和界定,而是指劃分出具體的語義角色后,對語義角色的進(jìn)一步分類,如必有論元和非必有論元的區(qū)分、基本格和一般格的區(qū)分、動元和非動元的區(qū)分、角色和情景的區(qū)分等。雖然說法不一樣,但是這些分類的實質(zhì)不外乎是對語義角色核心和非核心的區(qū)分。

關(guān)于核心語義角色和非核心語義角色的區(qū)分,學(xué)術(shù)界一般的觀點(diǎn)是在語義系統(tǒng)之下將語義角色進(jìn)行大的分類,如魯川、林杏光(1989)認(rèn)為包括主體、客體、鄰體、系體在內(nèi)的角色是核心的語義成分,包括憑借、根由、環(huán)境在內(nèi)的情景是非核心的語義角色,范曉(2003)、陳昌來(2003)則認(rèn)為動元是核心角色(如施事、受事、經(jīng)事、感事等),狀元是非核心角色(如工具、方式、原因等),觀點(diǎn)比較一致。實際上這是一種很概括的分類,只能反映語義角色大致的情況。

在我們看來,非核心語義角色與核心語義角色是相對的。某個語義角色對于動詞A來說是核心語義角色,對于動詞B來說或許就是非核心語義角色,如“工具(instrument)”是動詞“打”的核心語義角色,但對于“買”來說,卻是非核心語義角色。語義角色的核心與否是針對一個個具體的動詞而言的。如果站在所有動詞的角度來區(qū)分核心角色和非核心角色,情況就比較復(fù)雜,很難說哪個語義角色是核心的、哪個是非核心的。

4.4 其他幾點(diǎn)認(rèn)識

語義角色標(biāo)注格式規(guī)范與否至關(guān)重要,這不僅關(guān)系到該語料是否便于提取使用,也關(guān)系到不同資源之間的映射。從前面的實例來看,“事件描述塊句法語義標(biāo)注庫”的標(biāo)注格式更簡單易懂、便于提取。

句義的核心內(nèi)容由命題和情態(tài)兩部分構(gòu)成,雖然已有研究涉及了情態(tài),但研究還需要進(jìn)一步深入。

附注:

① http:∥framenet.icsi.berkeley.edu/

② http:∥verbs.colorado.edu/propbank/framesets-english/

③ http:∥verbs.colorado.edu/~mpalmer/projects/verbnet.html

④ http:∥verbs.colorado.edu/chinese/cpb/index.html

⑤ http:∥nlp.cs.nyu.edu/meyers/NomBank.html

⑥ http:∥rocling.iis.sinica.edu.tw/CKIP/engversion/tree- bank.htm

陳昌來.2003.現(xiàn)代漢語語義平面問題研究[M].上海:學(xué)林出版社.

范曉.2003.說語義成分[J].漢語學(xué)習(xí)(1):1-9.

林杏光.1998.中文信息界的語義研究譚要[J].語言文字應(yīng)用(3):94-97.

魯川、林杏光.1989.現(xiàn)代漢語語法的格關(guān)系[J].漢語學(xué)習(xí)(5):11-15.

袁毓林.2007.語義角色的精細(xì)等級及其在信息處理中的應(yīng)用[J].中文信息學(xué)報21(4):10-20.

猜你喜歡
論元知識庫句法
述謂結(jié)構(gòu)與英語句法配置
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
句法二題
詩詞聯(lián)句句法梳理
基于語料庫的俄漢“懷疑”語義客體論元對比研究及其翻譯
基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
離合詞擴(kuò)展式的句法成因
信息結(jié)構(gòu)與句法異位
芷江| 玛纳斯县| 应城市| 盐亭县| 明溪县| 金平| 新密市| 三江| 高碑店市| 岳池县| 宽甸| 满城县| 佳木斯市| 天柱县| 阿坝| 永修县| 济宁市| 吴堡县| 麻栗坡县| 玉田县| 贡觉县| 靖西县| 商河县| 广宗县| 清镇市| 大洼县| 定日县| 孙吴县| 大新县| 抚顺县| 水富县| 平谷区| 临澧县| 宁化县| 长兴县| 富宁县| 马公市| 原平市| 涞源县| 富锦市| 张北县|