国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于依存特征的漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注

2013-04-14 07:49:58王智強(qiáng)陰志洲劉海靜李雙紅
中文信息學(xué)報(bào) 2013年2期
關(guān)鍵詞:語(yǔ)料基線語(yǔ)義

王智強(qiáng),李 茹,2,陰志洲,劉海靜,李雙紅

(1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,山西太原030006;2.計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西太原030006;3.School of Information Technologies,University of Sydney)

1 引言

語(yǔ)義角色標(biāo)注是對(duì)一個(gè)句子中謂詞所支配的論元進(jìn)行識(shí)別、分類,其實(shí)質(zhì)是在句子級(jí)進(jìn)行淺層語(yǔ)義分析。該標(biāo)注任務(wù)是自然語(yǔ)言處理中的一項(xiàng)重要任務(wù),由于語(yǔ)義角色標(biāo)注可以直接獲得句子層面“謂詞—論元”形式的語(yǔ)義結(jié)構(gòu)信息,因此它能夠有效應(yīng)用于自然語(yǔ)言處理的許多領(lǐng)域,如問(wèn)答系統(tǒng)、信息抽取、機(jī)器翻譯、文本摘要等。

語(yǔ)義角色標(biāo)注按語(yǔ)料庫(kù)資源劃分,主要有基于英文的PropBank[1]、NomBank[2]、FrameNet[3]以及漢語(yǔ)的PropBank、FrameNet。英文方面,最早是Dan Gildea與Dan Jurafsky[4]在FrameNet上的工作,在完全句法分析基礎(chǔ)上,選取短語(yǔ)類型、句法功能、位置、語(yǔ)態(tài)、中心詞、路徑等大量特征,使用條件概率估計(jì)方法,最終取得了65%的準(zhǔn)確率(precision)和61%的召回率(recall)。隨著賓夕法尼亞大學(xué)的英文PropBank的建立,語(yǔ)義角色標(biāo)注任務(wù)越來(lái)越受到國(guó)際自然語(yǔ)言處理領(lǐng)域的關(guān)注。許多統(tǒng)計(jì)學(xué)習(xí)的方法被應(yīng)用于語(yǔ)義角色標(biāo)注任務(wù)中,其中包括J Chen[5]、Prandhan[6]、Cohn[7]、Surdeanu[8]、劉挺[9]等的工作。劉挺[9]等基于PropBank,以句法成分為基本標(biāo)注單元,使用最大熵分類模型在開(kāi)發(fā)集和測(cè)試集上分別獲得了75.49%和75.60%的F值。國(guó)際上也先后舉行了多次語(yǔ)義角色標(biāo)注任務(wù)的評(píng)測(cè),其中在基于FrameNet的語(yǔ)義角色標(biāo)注評(píng)測(cè)任務(wù)(SemEval 2007)[10]中,達(dá)到了86.9%的準(zhǔn)確率與75.2%的召回率。

漢語(yǔ)方面,有Xue等[11]基于Chinese PropBank的研究,通過(guò)使用人工標(biāo)記的句法樹(shù),獲得了94.1%的F值,但如果采用自動(dòng)句法分析,只能達(dá)到71.9%的F值。這說(shuō)明句法分析性能很大程度上制約了語(yǔ)義角色標(biāo)注。為了克服這種制約,丁偉偉等[12]基于語(yǔ)義組塊進(jìn)行漢語(yǔ)語(yǔ)義角色標(biāo)注,將傳統(tǒng)的“句法分析—語(yǔ)義角色識(shí)別—語(yǔ)義角色分類”簡(jiǎn)化為“語(yǔ)義組塊識(shí)別—語(yǔ)義組塊分類”,突破了漢語(yǔ)句法分析器的時(shí)間和性能限制,取得了一定的結(jié)果。王鑫等[13]將中文語(yǔ)義角色標(biāo)注建立在淺層句法分析基礎(chǔ)上,利用構(gòu)詞法獲得目標(biāo)動(dòng)詞的語(yǔ)素特征,在細(xì)粒度上描述了動(dòng)詞本身的結(jié)構(gòu),為角色標(biāo)注提供了更多的信息,相比前人工作有顯著的提升。王步康等[14]實(shí)現(xiàn)了一個(gè)基于依存句法的漢語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng),該系統(tǒng)通過(guò)抽取依存句法樹(shù)上的特征進(jìn)行角色標(biāo)注。針對(duì)漢語(yǔ)FrameNet的框架語(yǔ)義角色標(biāo)注,有劉開(kāi)瑛等[15]基于層疊條件隨機(jī)場(chǎng)對(duì)句子進(jìn)行的框架元素、短語(yǔ)類型、句法功能的三層標(biāo)注。李濟(jì)洪等[16]采用條件隨機(jī)場(chǎng)模型,以詞為基本標(biāo)注單元,在25個(gè)框架的6 692個(gè)例句中獲得了61.62%的F值。由于框架語(yǔ)義角色種類眾多,類型豐富,加之漢語(yǔ)自身比較靈活,導(dǎo)致漢語(yǔ)框架語(yǔ)義角色標(biāo)注性能偏低。

本文在詞、詞性層面特征的基礎(chǔ)上,利用樹(shù)條件隨機(jī)場(chǎng)模型,通過(guò)加入依存句法層面的特征進(jìn)行漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注。第2節(jié)為框架語(yǔ)義角色標(biāo)注的相關(guān)概念及任務(wù)描述;第3節(jié)為介紹樹(shù)條件隨機(jī)場(chǎng)及特征選擇;第4節(jié)為實(shí)驗(yàn)設(shè)置與結(jié)果分析;最后為總結(jié)與展望。

2 框架語(yǔ)義角色標(biāo)注相關(guān)概念及任務(wù)描述

2.1 框架語(yǔ)義角色標(biāo)注相關(guān)概念

漢語(yǔ)框架網(wǎng)[17]

漢語(yǔ)框架網(wǎng)(Chinese FrameNet,CFN)是以C J Fillmore的框架語(yǔ)義學(xué)為理論基礎(chǔ)、以加州大學(xué)伯克利分校的FrameNet為參照、以語(yǔ)料庫(kù)為事實(shí)依據(jù)的計(jì)算詞典編纂工程??蚣苷Z(yǔ)義學(xué)認(rèn)為,“框架”是一個(gè)與激活性語(yǔ)境相一致的結(jié)構(gòu)化范疇系統(tǒng),是存儲(chǔ)在人類認(rèn)知經(jīng)驗(yàn)中的圖示化情境。

為了便于理解框架語(yǔ)義角色標(biāo)注任務(wù),以下主要介紹框架語(yǔ)義角色標(biāo)注中目標(biāo)詞與框架元素的概念。

框架元素[17]

框架中涉及的各種參與者、外部條件和其他概念角色,稱為框架元素(Frame Elements)。框架元素分為核心框架元素、非核心框架元素和通用的非核心框架元素。核心框架元素是一個(gè)框架在概念理解上的必有成分,它們?cè)诓煌蚣苤械念愋秃蛿?shù)量不同,顯示出框架的個(gè)性。非核心框架元素并不顯示框架的個(gè)性,僅表達(dá)時(shí)間、空間、環(huán)境條件、原因、目的等外圍語(yǔ)義成分。

與傳統(tǒng)的語(yǔ)義角色或者格角色相比而言,語(yǔ)義角色或者格角色是相對(duì)詞匯而言的,而框架元素僅適用于具有相同框架背景的一組詞語(yǔ),它擺脫了格角色個(gè)數(shù)無(wú)法確定的問(wèn)題,因此用其來(lái)描述自然語(yǔ)言的語(yǔ)義更為合適,但也增加了標(biāo)注的難度。

目標(biāo)詞[17]

框架承擔(dān)詞,它包括動(dòng)詞、形容詞和名詞,它們是標(biāo)注工作的著眼點(diǎn),與通常所說(shuō)的謂詞相當(dāng)。

例如:

<前幾年time>,<一名大學(xué)生cog><tgt=“發(fā)明”發(fā)明>了<一種電腦病毒inv>。

其中,詞語(yǔ)“發(fā)明”屬于“發(fā)明”框架的詞元集合,是句子的目標(biāo)詞(tgt)。<一名大學(xué)生cog>則表示“一名大學(xué)生”是句子中“發(fā)明”框架的核心框架元素“認(rèn)知者[cog]”。核心元素和非核心元素都是與所給定的框架密切相關(guān)的,框架不相同時(shí),對(duì)應(yīng)的核心元素和非核心元素也不相同。

2.2 框架語(yǔ)義角色標(biāo)注任務(wù)描述

CFN中的一個(gè)框架下通常包含多個(gè)目標(biāo)詞,即一個(gè)框架可以被多個(gè)目標(biāo)詞激起。對(duì)于一個(gè)目標(biāo)詞來(lái)說(shuō),當(dāng)它存在多個(gè)義項(xiàng)時(shí),它又可以激起多個(gè)框架。一般地,把確定句子中目標(biāo)詞所屬框架的任務(wù)稱之為框架識(shí)別任務(wù),框架語(yǔ)義角色標(biāo)注任務(wù)有時(shí)將框架識(shí)別任務(wù)合在一起,例如SemEval 2007 Task-19;也有在直接給定目標(biāo)詞及所屬框架的基礎(chǔ)上進(jìn)行語(yǔ)義角色標(biāo)注。本文的框架語(yǔ)義角色標(biāo)注任務(wù)為后者,且將框架語(yǔ)義角色的邊界識(shí)別與分類合為一步,具體如下:

例句:前幾年,一名大學(xué)生發(fā)明了一種電腦病毒。

給定目標(biāo)詞“發(fā)明”及其所述框架“發(fā)明”,在此框架下所包含的框架語(yǔ)義角色類型有:

核心框架元素:

Cog:認(rèn)知者Inv:發(fā)明

非核心框架元素:

Degr:程度Depic:形容Loc_apr:出現(xiàn)地點(diǎn)Manr:修飾Mat:材料Mns:方法Place:空間Purp:目的Result:結(jié)果Time:時(shí)間

框架語(yǔ)義角色標(biāo)注的目的是:在給定目標(biāo)詞及其所屬框架下識(shí)別并賦予目標(biāo)詞所支配的角色與角色類型。

此例的標(biāo)注結(jié)果為:

<前幾年time>,<一名大學(xué)生cog><tgt=發(fā)明>了<一種電腦病毒inv>。

一般地,框架語(yǔ)義角色與通常所講的“語(yǔ)義角色”“格角色”在標(biāo)注工作中等同對(duì)待,不同之處在于框架語(yǔ)義角色(框架元素)是建立在框架概念之上。

3 基于T-CRF的框架語(yǔ)義角色自動(dòng)標(biāo)注

3.1 T-CRF模型

近年來(lái),條件隨機(jī)場(chǎng)模型被廣泛地應(yīng)用于自然語(yǔ)言處理序列標(biāo)注的問(wèn)題中。條件隨機(jī)場(chǎng)模型Conditional Random Fields(CRF)由Lafferty和McCallum等[18]于2001年提出。它將無(wú)向圖中的團(tuán)函數(shù)和最大熵有機(jī)地融合到一起,得到一個(gè)用來(lái)解決序列標(biāo)注和分割的概率模型。條件隨機(jī)場(chǎng)模型不存在隱馬爾科夫模型[19]的強(qiáng)獨(dú)立性假設(shè),也不具有最大熵馬爾科夫模型[20]的標(biāo)注偏執(zhí)問(wèn)題。繼CRF模型之后,Tree Structured Conditional Random Fields(TCRF)[21-23]越來(lái)越多地被應(yīng)用于語(yǔ)義角色標(biāo)注任務(wù)中,它主要借助層次依賴特征來(lái)提高標(biāo)注的準(zhǔn)確性,適用于本文基于依存特征的框架語(yǔ)義角色標(biāo)注。具體地,我們抽取依存句法樹(shù)中的依存特征,對(duì)于特征向量:

其中,fj、gk、sl分別表示當(dāng)前節(jié)點(diǎn)、當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)、當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)的特征函數(shù),分別乘以其相應(yīng)的特征權(quán)重向量λ= (λ1,λ2,…,λn)T,η=(η1,η2,…,ηn)T,σ= (σ1,σ2,…,σn)T可得式(1)、式(2)和式(3)。

v表示句中詞語(yǔ)對(duì)應(yīng)在樹(shù)中的節(jié)點(diǎn),v′表示v的父節(jié)點(diǎn),v″表示v的子節(jié)點(diǎn)。則對(duì)于觀察值x,最終輸出y的概率為式(4)。

在框架語(yǔ)義角色標(biāo)注的任務(wù)中,觀察值x代表句子中的當(dāng)前詞,y則代表當(dāng)前詞x所承擔(dān)的框架語(yǔ)義角色。

3.2 特征選取及特征模板設(shè)置

基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的語(yǔ)義角色標(biāo)注中,特征選擇是關(guān)鍵。條件隨機(jī)場(chǎng)模型中的特征選擇可以通過(guò)定義特征的窗口,來(lái)描述標(biāo)注單元與其上下文的某種依賴關(guān)系。通過(guò)各種特征窗口大小的組合來(lái)構(gòu)成相應(yīng)的特征模板,因此特征選擇實(shí)際上是特征模板的設(shè)置。本文主要關(guān)注不同依存特征對(duì)框架語(yǔ)義角色標(biāo)注的影響,首先選擇基本特征來(lái)設(shè)置基線模板,在此基礎(chǔ)上加入依存特征,針對(duì)加入的不同依存特征設(shè)置相應(yīng)的擴(kuò)展特征模板,這樣能夠通過(guò)比較不同模板下的標(biāo)注結(jié)果來(lái)分析不同依存特征對(duì)標(biāo)注結(jié)果的影響。

文獻(xiàn)[16]以詞為基本標(biāo)注單元,通過(guò)選取基于詞、詞性層面的特征研究了漢語(yǔ)框架語(yǔ)義角色標(biāo)注,驗(yàn)證了詞、詞性層面特征對(duì)于漢語(yǔ)框架語(yǔ)義角色標(biāo)注的有效性。因此本文借鑒了其中詞、詞性層面的特征來(lái)構(gòu)建基線特征模板。本文選取的依存特征包括依存節(jié)點(diǎn)、依存關(guān)系及其組合特征,并設(shè)置了相應(yīng)的特征模板。

表1為基線模板與擴(kuò)展模板的特征選取與模板設(shè)置情況。

表1 特征選取及模板設(shè)置情況

表1共列出了8類特征,每一行表示一類特征。每類特征按窗口大小不同([-1,1]、[-2,2]、[-3,3]),又包含3個(gè)特征模板,共計(jì)24個(gè)特征模板。其中第1類T1、T2、T3為基線模版,其余屬于擴(kuò)展模版。基線模版中包含詞、詞性及其組合特征,擴(kuò)展模版則是在基線特征的基礎(chǔ)上加入依存層面特征,所加入的依存特征依次為:當(dāng)前詞的父節(jié)點(diǎn)、當(dāng)前詞與父節(jié)點(diǎn)間的依存關(guān)系、“當(dāng)前詞的父節(jié)點(diǎn)”與“當(dāng)前詞與父節(jié)點(diǎn)間的關(guān)系”組合特征、當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)、當(dāng)前節(jié)點(diǎn)與子節(jié)點(diǎn)間的依存關(guān)系、“當(dāng)前詞的子節(jié)點(diǎn)”與“當(dāng)前詞與子節(jié)點(diǎn)間的關(guān)系”組合特征,最后一類模板T22、T23、T24包含以上所有依存特征。

4 實(shí)驗(yàn)設(shè)置及結(jié)果分析

4.1 實(shí)驗(yàn)語(yǔ)料及預(yù)處理

實(shí)驗(yàn)所用測(cè)試與訓(xùn)練語(yǔ)料均來(lái)自山西大學(xué)構(gòu)建的CFN語(yǔ)料庫(kù)及擴(kuò)充語(yǔ)料。由于目前CFN的語(yǔ)料規(guī)模有限,實(shí)驗(yàn)前期將現(xiàn)有CFN句子庫(kù)中“發(fā)明”、“查看”、“擁有”框架下的句子進(jìn)行擴(kuò)充,針對(duì)每個(gè)詞元擴(kuò)充20條句子,從原有的688條擴(kuò)充至1 188條。表2為擴(kuò)充后3個(gè)框架下語(yǔ)料規(guī)模及分配情況。

實(shí)驗(yàn)采用哈爾濱工業(yè)大學(xué)LTP平臺(tái)[24]來(lái)對(duì)語(yǔ)料進(jìn)行依存句法分析,并對(duì)其中明顯的句法錯(cuò)誤進(jìn)行人工校正。語(yǔ)料在分詞、詞性標(biāo)注、句法分析的基礎(chǔ)上,使用O-S-B-I-E策略對(duì)框架語(yǔ)義角色進(jìn)行標(biāo)注,記標(biāo)注集合為{S-X,B-X,I-X,E-X,O},示例如下:

表2 語(yǔ)料規(guī)模及分配情況

我們S-cog設(shè)計(jì)tgt了O社會(huì)B-inv貢獻(xiàn)率I-inv和I-inv社會(huì)I-inv積累率I-inv兩個(gè)I-inv指標(biāo)E-inv。O

其中S-cog表示當(dāng)前詞單獨(dú)承擔(dān)一個(gè)框架語(yǔ)義角色“cog”,B-inv表示當(dāng)前詞是框架語(yǔ)義角色“inv”的開(kāi)始,I-inv表示當(dāng)前詞是框架語(yǔ)義角色“inv”的延續(xù),E則代表當(dāng)前詞是框架語(yǔ)義角色“inv”的終止,O則表示當(dāng)前詞不承擔(dān)框架語(yǔ)義角色。

4.2 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)中將所選語(yǔ)料例句拆分為5份,為了避免由詞元分配不均所帶來(lái)的數(shù)據(jù)稀疏影響,我們將每個(gè)框架下不同詞元的例句進(jìn)行平均分配。實(shí)驗(yàn)采用5-fold交叉驗(yàn)證,具體做法為:任取語(yǔ)料的4份作為訓(xùn)練集,其他1份作為測(cè)試集,最終的評(píng)價(jià)指標(biāo)以交叉驗(yàn)證實(shí)驗(yàn)結(jié)果的平均值(mP、mR、mF)來(lái)評(píng)價(jià)標(biāo)注模型的性能。其中mP、mR與mF分別表示為平均準(zhǔn)確率、平均召回率及平均F值。實(shí)驗(yàn)主要從以下兩個(gè)角度對(duì)結(jié)果進(jìn)行比較分析:

(1)不同依存特征對(duì)最終標(biāo)注結(jié)果的影響;

(2)不同特征對(duì)與不同長(zhǎng)度的框架語(yǔ)義角色標(biāo)注影響。

為了比較標(biāo)注結(jié)果間是否存在顯著性差異時(shí),對(duì)模型間的F值進(jìn)行了差異的顯著性檢驗(yàn)。具體做法為:假設(shè)模型A,B在交叉驗(yàn)證下的平均F值為mFA,mFB,當(dāng)兩個(gè)模型mFA,mFB的1-α的置信區(qū)間沒(méi)有交叉、重疊時(shí),則認(rèn)為兩模型在置信水平α下有顯著差異,本文取α=0.05。

4.2.1 不同依存特征下的框架語(yǔ)義角色標(biāo)注情況

實(shí)驗(yàn)對(duì)24個(gè)特征模板進(jìn)行逐一測(cè)試,在8類不同的特征組合中分別選出標(biāo)注結(jié)果最好的特征模板為:T3、T4、T7、T10、T13、T16、T19、T22。實(shí)驗(yàn)結(jié)果如表3,其中帶星號(hào)的數(shù)字表示該值相對(duì)于基線最優(yōu)模版T3的提升具有統(tǒng)計(jì)顯著性。

從表中可以看出,擴(kuò)展模版中的多數(shù)標(biāo)注結(jié)果比基線模板有所提升。尤其是“發(fā)明”與“查看”框架在T16模版(基線特征中加入當(dāng)前詞與子節(jié)點(diǎn)間的依存關(guān)系特征)上的測(cè)試結(jié)果比基線模板T3(僅包含詞、詞性層面的特征,未加入依存特征)有近3%的顯著提高??梢?jiàn)依存句法層面特征的加入能夠一定程度上改善基于詞層面特征的框架語(yǔ)義角色標(biāo)注。還可以看到,三個(gè)框架在T7模版(基線特征中加入當(dāng)前節(jié)點(diǎn)與父節(jié)點(diǎn)間的依存關(guān)系特征)上的測(cè)試結(jié)果都優(yōu)于T4模版(基線特征中加入當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)特征);在T16模版(基線特征加入當(dāng)前節(jié)點(diǎn)與子節(jié)點(diǎn)間的依存關(guān)系特征)上的測(cè)試結(jié)果都優(yōu)于T13模版(基線特征中加入當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)特征),這說(shuō)明依存節(jié)點(diǎn)間的關(guān)系特征相比依存節(jié)點(diǎn)的特征更有效。另外,三個(gè)框架在T4模版(基線特征中加入當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)特征)上的測(cè)試結(jié)果都優(yōu)于T13模板(基線特征加入當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)特征);在T16模版(基線特征中加入當(dāng)前節(jié)點(diǎn)與子節(jié)點(diǎn)間的依存關(guān)系特征)上的測(cè)試結(jié)果都優(yōu)于T7模板(基線特征中加入當(dāng)前節(jié)點(diǎn)與父節(jié)點(diǎn)間的依存關(guān)系)。說(shuō)明依存特征中子節(jié)點(diǎn)層面特征比父節(jié)點(diǎn)層面特征更有效。

4.2.2 依存特征對(duì)不同長(zhǎng)度框架語(yǔ)義角色的標(biāo)注影響

追蹤錯(cuò)誤的標(biāo)注結(jié)果發(fā)現(xiàn),較長(zhǎng)的框架語(yǔ)義角色在邊界識(shí)別時(shí)錯(cuò)誤較多。統(tǒng)計(jì)了語(yǔ)料中不同長(zhǎng)度的框架語(yǔ)義角色在不同特征模板下的標(biāo)注情況,如圖1所示。

圖1 不同長(zhǎng)度的框架語(yǔ)義角色標(biāo)注情況(模板T3、T4、T13中的測(cè)試結(jié)果)

圖1為模板T3(僅包含詞、詞性層面特征未加入依存特征)、T4模版(基線特征中加入當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)特征)、T13模版(基線特征中加入當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)特征)下的結(jié)果??梢钥吹?,隨著依存節(jié)點(diǎn)特征的加入,較長(zhǎng)框架語(yǔ)義角色的標(biāo)注情況有所改善,特別是加入子節(jié)點(diǎn)特征之后的改善效果更好。

圖2為模板T3(僅包含詞、詞性層面特征未加入依存特征)、T7模版(基線特征中加入當(dāng)前節(jié)點(diǎn)與父節(jié)點(diǎn)間的依存關(guān)系)、T16模版(基線特征中加入當(dāng)前節(jié)點(diǎn)與子節(jié)點(diǎn)間的依存關(guān)系)的測(cè)試結(jié)果??梢钥闯觯腹?jié)點(diǎn)關(guān)系與子節(jié)點(diǎn)關(guān)系特征的加入,對(duì)較長(zhǎng)框架語(yǔ)義角色的標(biāo)注結(jié)果都有一定的改善,其中加入子節(jié)點(diǎn)關(guān)系特征的改善最為明顯。

圖2 不同長(zhǎng)度的框架語(yǔ)義角色標(biāo)注情況(模板T3、T7、T16中的測(cè)試結(jié)果)

5 結(jié)論與展望

本文提出了一種基于依存特征的框架語(yǔ)義角色標(biāo)注方法,該方法在詞、詞性及其組合特征的基礎(chǔ)上融入依存句法層面的特征,相比僅依賴詞、詞性層面特征的框架語(yǔ)義角色標(biāo)注,標(biāo)注結(jié)果有一定提升。進(jìn)一步比較了依存特征對(duì)不同長(zhǎng)度框架語(yǔ)義角色的標(biāo)注影響,發(fā)現(xiàn)依存特征對(duì)較長(zhǎng)框架語(yǔ)義角色標(biāo)注結(jié)果有一定改善,這其中子節(jié)點(diǎn)比父節(jié)點(diǎn)特征更為重要,依存關(guān)系比依存節(jié)點(diǎn)更為重要。這些結(jié)論都將為進(jìn)一步深入的語(yǔ)義角色標(biāo)注研究提供重要的特征選擇依據(jù)。

模型與特征的選擇只能解決語(yǔ)義角色標(biāo)注中的部分問(wèn)題,數(shù)據(jù)稀疏同樣是影響標(biāo)注結(jié)果的一個(gè)重要因素。目前漢語(yǔ)框架語(yǔ)義角色標(biāo)注性能整體偏低,很大程度是受數(shù)據(jù)稀疏的影響。針對(duì)這些問(wèn)題,今后將進(jìn)一步擴(kuò)充標(biāo)注語(yǔ)料,并嘗試用半監(jiān)督學(xué)習(xí)方法來(lái)提高框架語(yǔ)義角色標(biāo)注的結(jié)果。

[1] Palmer M,Gildea D,Kingbury P.The Proposition Bank:An Annotated Corpus of Semantic Roles[J].Computational Linguistics,2005,31(1):71-106.

[2] Meyers A,Reeves R,Macleod C.The NomBank Project:An Interim Report[C]//HLT-NAACL Workshop:Frontiers in Corpus Annotation,2004:24-31.

[3] Baker C F,F(xiàn)illmore C J,Lowe J B.The Berkeley FrameNet Project[C]//Proceedings of the ACL,1998:86-90.

[4] Gildea D,Jurafsky D.Automatic Labeling of Semantic Roles[J].Computational Linguistics,2002,28(3):245-288.

[5] Chen J,Rambow O.Use of Deep Linguistic Features for the Recognition and Labeling of Semantic Arguments[C]//Proceedings of EMNLP,2003.

[6] Pradhan S,Hacioglu K,Krugler V,et al.Support vector learning for semantic argument classification[J].Machine Learning,2005,60(1):11-39.

[7] Cohn T,Blunsom P.Semantic role labelling with tree conditional random fields[C]//Proceedings of CoNLL-2005,2005.

[8] Surdeanu M,Màrquez L,Carreras X,et al.Combination Strategies for Semantic Role Labeling[J].Journal of Artificial Intelligence Research,2007,29:105-151.

[9] 劉挺,車萬(wàn)翔,李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注[J].軟件學(xué)報(bào),2007,18(3):565-573.

[10] Baker CF,Ellsworth M,Erk K.SemEval 2007Task 19:Frame Semantic Structure Extraction[C]//Proceedings of the 4th International Workshop on Semantic Evaluations,2007:99-104.

[11] Xue N W,Palmer M.Automatic semantic role labeling for Chinese verbs[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence,2005.

[12] 丁偉偉,常寶寶.基于最大熵原則的漢語(yǔ)語(yǔ)義角色分類[J].中文信息學(xué)報(bào),2009,23(5):53-61.

[13] 王鑫,孫薇薇,穗志方.基于淺層句法分析的中文語(yǔ)義角色標(biāo)注研究[J].中文信息學(xué)報(bào),2011,25(1):116-121.

[14] 王步康,王紅玲,袁曉虹,等.基于依存句法分析的中文語(yǔ)義角色標(biāo)注[J].中文信息學(xué)報(bào),2010,24(1):25-29.

[15] 劉開(kāi)瑛,陳雪艷,李濟(jì)洪.漢語(yǔ)框架元素自動(dòng)標(biāo)注實(shí)驗(yàn)報(bào)告[C]//第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,2008,1:48-55.

[16] 李濟(jì)洪,王瑞波,王蔚林,等.漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注[J].軟件學(xué)報(bào),2010,21(4):597-611.

[17] 郝曉燕,李茹,劉開(kāi)瑛.漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J].中文信息學(xué)報(bào),2007,21(5):96-100,138.

[18] Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th International Conference on Machine Learning,2001:282-289.

[19] Rabiner L R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C]//Proceedings of the IEEE,1989,77(2):257-286.

[20] Mccallum A,F(xiàn)reitag D,Pereira F.Maximum Entropy Markov Models for Information Extraction and Segmentation[C]//Proceedings of ICML,2000:591-598.

[21] Jie Tang,Mingcai Hong,Juanzi Li,et al.Treestructured Conditional Random Fields for Semantic Annotation[C]//Proceedings of 5th International Conference of Semantic Web,2006.

[22] Awasthi,P,Gagrani A,Ravindran B.Image modeling using tree structured conditional random fields[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence.2007:2060-2065.

[23] Trevor Cohn,Philip Blunsom.Semantic role labeling with tree conditional random fields[C]//Proceedings of CoNLL2005.

[24] http://ir.hit.edu.cn/demo/ltp/[EB/OL]

猜你喜歡
語(yǔ)料基線語(yǔ)義
適用于MAUV的變基線定位系統(tǒng)
航天技術(shù)與甚長(zhǎng)基線陣的結(jié)合探索
科學(xué)(2020年5期)2020-11-26 08:19:14
語(yǔ)言與語(yǔ)義
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
一種改進(jìn)的干涉儀測(cè)向基線設(shè)計(jì)方法
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
認(rèn)知范疇模糊與語(yǔ)義模糊
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
台中市| 平遥县| 随州市| 东光县| 闻喜县| 改则县| 隆回县| 邢台县| 漳平市| 定西市| 当阳市| 绥芬河市| 卓尼县| 烟台市| 张家口市| 益阳市| 华池县| 泊头市| 长海县| 迁西县| 康平县| 岱山县| 南京市| 武乡县| 南汇区| 通榆县| 武清区| 遵义市| 临安市| 三河市| 习水县| 玉环县| 东乌| 梁平县| 进贤县| 甘泉县| 莆田市| 宜章县| 内江市| 北碚区| 华蓥市|