国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于FrameNet框架關(guān)系的文本蘊(yùn)含識(shí)別

2012-06-29 01:37李國(guó)臣劉海靜石向榮CollinBaker
中文信息學(xué)報(bào) 2012年2期
關(guān)鍵詞:評(píng)測(cè)語(yǔ)料語(yǔ)義

張 鵬,李國(guó)臣,李 茹 2,劉海靜,石向榮,Collin Baker

(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 中北大學(xué) 電子與計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山西 太原 030051;4. International Computer Science Institute, 1947 Center St. Suite 600 Berkeley, California, 94704)

1 引言

為了有效地處理自然語(yǔ)言中廣泛存在的同義異形現(xiàn)象,近年來(lái)國(guó)外一些學(xué)者嘗試使用文本蘊(yùn)含(Text Entailment)[1]來(lái)為語(yǔ)言中紛繁復(fù)雜的同義表達(dá)建立模型。文本蘊(yùn)含可以定義為: 一個(gè)連貫的文本(Text)T和一個(gè)被看作假設(shè)(Hypothesis)H之間的一種語(yǔ)義包含關(guān)系。如果H的意義可以從文本T的意義中推斷出來(lái),那么就說(shuō)T蘊(yùn)含H(即H是T的推斷)。文本蘊(yùn)含的研究對(duì)于自然語(yǔ)言處理中不同應(yīng)用所需的語(yǔ)言表達(dá)多樣性的推理識(shí)別有著重要意義。例如,在多文本自動(dòng)文摘中,從文本中省去的冗余句子或表達(dá)應(yīng)該被摘要中的其他表達(dá)所蘊(yùn)含;對(duì)于信息抽取,表達(dá)相同關(guān)系的不同文本之間也存在著蘊(yùn)含關(guān)系。

文本蘊(yùn)含識(shí)別(Recognizing Textual Entailment, RTE)是美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(National Institute of Standards and Technology, NIST)舉辦的文本分析會(huì)議(Text Analysis Conference, TAC)中的一項(xiàng)評(píng)測(cè),該評(píng)測(cè)已經(jīng)舉行了6年,構(gòu)造了一定的文本蘊(yùn)含推理模型和識(shí)別模型。Peter Clark 和Phil Harrison[2]使用WordNet和DIRT推理規(guī)則庫(kù)開(kāi)發(fā)了一個(gè)基于推理的文本蘊(yùn)含識(shí)別系統(tǒng)BLUE。Debarghya Majumdar和Pushpak Bhattacharyya[3]通過(guò)分析文本T和假設(shè)H之間的詞匯重疊來(lái)發(fā)現(xiàn)它們之間的蘊(yùn)含關(guān)系。Alexander Volokh、Giinter Neumann和Bogdan Sacaleanu[4]提出了一種聯(lián)合確定性依存句法分析和線(xiàn)性分類(lèi)的魯棒性文本蘊(yùn)含識(shí)別方法。2009年有21所科研院所參加RTE-5評(píng)測(cè)任務(wù),其任務(wù)分為兩類(lèi): 3-ways和2-ways。在3-ways任務(wù)中最高準(zhǔn)確率為68.33%,平均準(zhǔn)確率為52.91%,在2-ways任務(wù)中最高準(zhǔn)確率達(dá)到73.5%,平均準(zhǔn)確率為61.52%。

本文采用FrameNet的框架及其關(guān)系識(shí)別文本T和假設(shè)H所表達(dá)的語(yǔ)義場(chǎng)景之間的關(guān)系,結(jié)合WordNet的相關(guān)知識(shí)達(dá)到識(shí)別文本蘊(yùn)含的目的。論文首先對(duì)FrameNet和在其上的一些研究做了簡(jiǎn)單的介紹,接著描述了本文采用FrameNet框架及其關(guān)系識(shí)別文本蘊(yùn)含的方法,最后對(duì)實(shí)驗(yàn)及結(jié)果進(jìn)行了分析,并對(duì)全文工作進(jìn)行了總結(jié)和展望。

2 FrameNet及其相關(guān)研究

FrameNet(FN)是美國(guó)加州大學(xué)伯克利分校構(gòu)建的一個(gè)基于框架語(yǔ)義學(xué)[5](Frame Semantics)的詞匯資源??蚣苷Z(yǔ)義學(xué)是Fillmore提出的研究詞語(yǔ)意義和句法結(jié)構(gòu)意義的一種理論方法,即試圖以真實(shí)語(yǔ)料為基礎(chǔ),以經(jīng)驗(yàn)主義方法,尋找語(yǔ)言和人類(lèi)經(jīng)驗(yàn)之間的緊密關(guān)系,并研究一種可行的描述方式來(lái)表示這種關(guān)系。

在FrameNet中框架(Frame)是用來(lái)描述一個(gè)事件或一個(gè)語(yǔ)義場(chǎng)景的一組概念。每個(gè)框架都包含了一系列被稱(chēng)為框架元素(frame elements, FEs)的語(yǔ)義角色,這些框架元素與描述事件或形態(tài)的詞匯相對(duì)應(yīng)。兩個(gè)框架之間的語(yǔ)義關(guān)系用框架關(guān)系(Frame-to-frame Relations)來(lái)描述,不同框架的框架元素也依據(jù)框架關(guān)系相互映射在一起(FE-to-FE Mappings)。在FrameNet數(shù)據(jù)中共定義了八種框架關(guān)系,框架關(guān)系是兩個(gè)框架之間的一種定向(非對(duì)稱(chēng))關(guān)系。

近年來(lái),F(xiàn)rameNet受到國(guó)內(nèi)外很多學(xué)者的關(guān)注,并基于FrameNet展開(kāi)了一系列的研究。Jan Scheffczyk和Collin F.Baker[6]嘗試使用FrameNet這一語(yǔ)義豐富的詞匯資源結(jié)合領(lǐng)域本體進(jìn)行推理。Ekaterina Ovchinnikova[7]等人提出了一種數(shù)據(jù)驅(qū)動(dòng)和本體分析的方法來(lái)豐富和公理化FrameNet的框架關(guān)系使FrameNet能更加廣泛的應(yīng)用到自然語(yǔ)言處理中。在文本蘊(yùn)含中,Aljoscha Burchardt和Anette Frank[8]提出一種利用LFG語(yǔ)法分析器結(jié)合FrameNet框架語(yǔ)義來(lái)識(shí)別文本蘊(yùn)含的方法;Himanshu Shivhare、Parul和Anusha Jain[9]提出了一種使用FrameNet對(duì)文本T和假設(shè)H進(jìn)行語(yǔ)義聚類(lèi)的方法來(lái)識(shí)別文本之間的蘊(yùn)含關(guān)系。

3 文本蘊(yùn)含識(shí)別

文本蘊(yùn)含識(shí)別的內(nèi)容是識(shí)別H的意義是否可以從T的意義中推斷出來(lái),本文使用兩個(gè)蘊(yùn)含模型,“框架蘊(yùn)含識(shí)別”模型和“框架元素識(shí)別”模型,進(jìn)行文本蘊(yùn)含識(shí)別,分別用來(lái)實(shí)現(xiàn)對(duì)框架和框架元素之間的蘊(yùn)含關(guān)系進(jìn)行識(shí)別。模型如圖1所示。

圖1 文本蘊(yùn)含識(shí)別模型

3.1 框架蘊(yùn)含識(shí)別

框架蘊(yùn)含識(shí)別旨在識(shí)別T和H所表述的語(yǔ)境是否相同,即比較詞元激起的框架,兩個(gè)框架之間如果存在蘊(yùn)含關(guān)系則必須滿(mǎn)足這樣的條件: T和H中由詞元激起的框架相同或兩者之間存在上下位關(guān)系。

把FrameNet中的框架看作是節(jié)點(diǎn),以連接兩個(gè)框架之間的上下位語(yǔ)義關(guān)系為有向邊,得到FrameNet框架關(guān)系圖G=(V, E),如圖2所示。

圖2 部分框架關(guān)系圖

識(shí)別框架之間的蘊(yùn)含關(guān)系按照以下幾步進(jìn)行:

Step1: 初始化。VT是以T中的框架為起始節(jié)點(diǎn)v0遍歷查找到的所有框架節(jié)點(diǎn)的集合,設(shè)VT={v0},E=Φ;

Step2: 以VT中的節(jié)點(diǎn)v為出發(fā)點(diǎn),利用深度優(yōu)先算法搜索FrameNet框架關(guān)系圖,對(duì)遍歷到的每個(gè)節(jié)點(diǎn)v′∈V且v′?VT進(jìn)行標(biāo)記,并添加到VT中,直到找到H中的框架節(jié)點(diǎn)為止, 考慮到算法的執(zhí)行效率,搜索允許的最大路徑為5。

3.2 框架元素蘊(yùn)含識(shí)別

框架之間的蘊(yùn)含識(shí)別只能夠識(shí)別T和H所描述的語(yǔ)義場(chǎng)景之間的關(guān)系,識(shí)別文本蘊(yùn)含還需要對(duì)填充相應(yīng)框架元素的語(yǔ)塊進(jìn)行比較,具體步驟如下:

Step1: 提取兩個(gè)框架中依據(jù)框架關(guān)系相互映射的FE內(nèi)容;

Step2: 對(duì)step1中提取的FE進(jìn)行比較,通過(guò)詞匯重疊判斷內(nèi)容是否一致或相似;

Step3: 對(duì)step2中不一致的內(nèi)容,利用WordNet 中的語(yǔ)義關(guān)系進(jìn)行識(shí)別;

Step4: 正確識(shí)別。重復(fù)step1~step3,比較下一對(duì)FE,直到FE比較完或內(nèi)容不同為止。

3.3 實(shí)例分析

例1是2007年RTE-3評(píng)測(cè)中的一個(gè)(T, H)文本對(duì),其中加粗并帶有下劃線(xiàn)的單詞就是激起框架的詞元。圖3是對(duì)例1進(jìn)行蘊(yùn)含識(shí)別的圖形示例說(shuō)明。

圖3 基于FrameNet框架及其關(guān)系識(shí)別文本蘊(yùn)含示例圖

例1

如圖3所示,T中詞元acquired激起Getting框架,語(yǔ)塊British Aireways和Hillman’s Aireways分別填充框架元素Recipient和Theme。在H中詞元sold激起Commerce_sell框架,語(yǔ)塊British Aireways和Hillman’s Aireways分別填充框架元素Goods和Buyer。在FrameNet的框架關(guān)系圖中按圖搜索,可得到從Getting到Giving,再到Commerce_sell的一條路徑??蚣蹽etting與Giving之間存在“Perspective_on”關(guān)系,框架Commerce_sell又繼承于Giving,根據(jù)這種上下位關(guān)系的傳遞,可認(rèn)為框架Getting與Commerce_sell之間有蘊(yùn)含關(guān)系。然后根據(jù)框架元素之間的映射關(guān)系,比較填充框架元素Recipient與Buyer、Theme與Goods的語(yǔ)塊內(nèi)容,判定T蘊(yùn)含H。

4 實(shí)驗(yàn)及結(jié)果分析

實(shí)驗(yàn)選取的語(yǔ)料是2007年RTE-3評(píng)測(cè)語(yǔ)料中的前50個(gè)文本對(duì),用RTE評(píng)測(cè)任務(wù)的評(píng)測(cè)標(biāo)準(zhǔn)進(jìn)行評(píng)測(cè),其結(jié)果如表1所示。表2是對(duì)識(shí)別的各種語(yǔ)料的分布進(jìn)行說(shuō)明。

表1 實(shí)驗(yàn)結(jié)果

表2 實(shí)驗(yàn)明細(xì)

文本蘊(yùn)含識(shí)別正確分為兩種情況,一種是識(shí)別出文本之間有蘊(yùn)含關(guān)系,稱(chēng)為正確肯定,如例2所示;另一中是識(shí)別出文本之間沒(méi)有蘊(yùn)含關(guān)系,稱(chēng)之為正確否定,如例3所示。

例2

例3通過(guò)對(duì)識(shí)別錯(cuò)誤的文本對(duì)進(jìn)行分析,發(fā)現(xiàn)FrameNet本身的一些不足對(duì)實(shí)驗(yàn)結(jié)果有較大影響,主要是兩方面因素,一是詞元覆蓋率不高,另一個(gè)是框架關(guān)系的缺失。

例4

例5< id="40" entailment="YES">

例4是由框架詞元覆蓋不足造成識(shí)別錯(cuò)誤的例子,T中謂詞release激起框架“Releasing”,該框架在FrameNet中的解釋是“釋放”,與T中的詞匯含義不同,T中release的釋義是“發(fā)布”,有一定“生成”的含義,但FrameNet中release并不能激起“Creating”框架或相關(guān)框架,所以無(wú)法識(shí)別文本T和R之間的蘊(yùn)含關(guān)系。針對(duì)這一現(xiàn)象論文利用詞匯資源WordNet來(lái)補(bǔ)充FrameNet詞元的語(yǔ)義信息,根據(jù)詞元在FramNet框架下的詞元集和詞元在WordNet中的同義集(Same Synset)的交集,建立詞元與詞元、詞元與框架之間的關(guān)聯(lián),例如,{FrameNet< Creating (框架), create, form, generate, issue, issuance, produce, yield, production, formation>, WordNet< release(詞元), publish, bring out, put out, issue >}。通過(guò)建立這種關(guān)聯(lián)對(duì)實(shí)驗(yàn)性能有了一定的提高,如表3所示。

表3 加入WordNet后的實(shí)驗(yàn)結(jié)果比較

識(shí)別錯(cuò)誤的文本對(duì)中有42%是由于框架關(guān)系的缺失導(dǎo)致的,如例5所示。T中謂詞seen激起 “Perception_experience” 框架,H中謂詞located激起“Being_located”框架,在FrameNet框架關(guān)系圖中找不到從“Perception_experience”到“Being_located”的路徑,因此判定文本T和H之間是非蘊(yùn)含關(guān)系。而這與現(xiàn)實(shí)語(yǔ)境是有出入的,比如“我在上??匆?jiàn)了東方之珠”這句話(huà)中就蘊(yùn)含了“東方之珠坐落在上?!钡囊馑?。

5 總結(jié)

文本蘊(yùn)含對(duì)于自然語(yǔ)言處理中不同應(yīng)用所需的語(yǔ)言表達(dá)多樣性的推理研究有著重要意義。本文使用了FrameNet和WordNet中的語(yǔ)義關(guān)系,提出了一種文本蘊(yùn)含識(shí)別方法,并用該方法對(duì)RTE2007語(yǔ)料中前50個(gè)文本對(duì)進(jìn)行了測(cè)試,達(dá)到了76.6%的準(zhǔn)確率,這表明,F(xiàn)rameNet框架及其關(guān)系對(duì)于文本蘊(yùn)含識(shí)別任務(wù)是有幫助的。相比于基于規(guī)則的或者基于詞匯概率的文本蘊(yùn)含識(shí)別方法,本文提出的基于語(yǔ)義詞典中語(yǔ)義關(guān)系的文本蘊(yùn)含識(shí)別方法更加接近人類(lèi)理解蘊(yùn)含關(guān)系的心智過(guò)程,并進(jìn)一步提高蘊(yùn)含識(shí)別的準(zhǔn)確率。

本文提出的文本蘊(yùn)含識(shí)別方法也存在一些不足: (1)目前,該方法只針對(duì)文本和句子中由動(dòng)詞詞元激起的框架進(jìn)行蘊(yùn)含識(shí)別,而實(shí)際上名詞、形容詞也能夠激起框架,所以,本文下一步將擴(kuò)大框架的研究范圍;(2)FrameNet中存在詞元覆蓋率不高,以及框架關(guān)系缺失的情況,這些都導(dǎo)致了本文的方法不能適用于某些語(yǔ)料,影響了實(shí)驗(yàn)結(jié)果的精度。接下來(lái)的工作中,我們將繼續(xù)探索完善FrameNet中的框架間關(guān)系,研究框架、詞元和框架元素對(duì)框架關(guān)系的影響,選取特征采用機(jī)器學(xué)習(xí)的方法對(duì)缺失的框架關(guān)系進(jìn)行完善。

[1] 袁毓林, 王明華. 文本蘊(yùn)含的推理模型與識(shí)別模型[J]. 中文信息學(xué)報(bào),2010,24(2): 3-15.

[2] Peter Clark, Phil Harrison. An Inference-Based Approach to Recognizing Entailment[C]//Proceedings of Text Analysis Conference (TAC). 2009.

[3] Debarghya Majumdar, Pushpak Bhattacharyya. Lexical Based Text Entailment System for Main Task of RTE6[C]//Proceedings of Text Analysis Conference (TAC). 2010.

[4] Alexander Volokh, G nter Neumann, Bogdan Sacaleanu. Combining Deterministic Dependency Parsing and Linear Classification for Robust RTE[C]//Proceedings of Text Analysis Conference (TAC). 2010.

[5] C. J. Fillmore. Frame semantics and the nature of language[J].Annals of the New York Academy of Sciences, 1976:20-32.

[6] J. Scheffczyk, C. F. Baker, S. Narayanan. Ontology-based reasoning about lexical resources[C]//Proceedings of the Workshop on Interfacing Ontologies and Lexical Resources for Semantic Web Technologies (OntoLex 2006). 2006.

[7] Ekaterian Ovchinnikova, Laure Vieu, Alessandro Oltranari. Data-Driven and Ontological Analysis of FrameNet for Natural Language Reasoning[C]//Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10). 2010.

[8] Aljoscha Burchardt, Anette Frank. Approaching Textual Entailment with LFG and FrameNet Frames[C]//Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. 2006.

[9] Himanshu Shivhare, Parul, Anusha Jain. Semi Congitive approach to RTE 6-Using FrameNet for Semantic Clustering[C]//Proceedings of Text Analysis Conference (TAC). 2010.

[10] Collin Baker. FrameNet[DB/OL].2011-5-6.http://framenet.icsi.berkeley.edu .

猜你喜歡
評(píng)測(cè)語(yǔ)料語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
語(yǔ)言與語(yǔ)義
攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
批評(píng)話(huà)語(yǔ)分析中態(tài)度意向的鄰近化語(yǔ)義構(gòu)建
“吃+NP”的語(yǔ)義生成機(jī)制研究
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法