国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語言現(xiàn)象的文本蘊涵識別

2017-04-26 01:39:40馮文賀劉茂福
中文信息學(xué)報 2017年1期
關(guān)鍵詞:蘊涵現(xiàn)象森林

任 函,馮文賀,劉茂福,萬 菁

(1.廣東外語外貿(mào)大學(xué) 語言工程與計算實驗室,廣東 廣州 510006;2.武漢大學(xué) 湖北語言與智能信息處理研究基地,湖北 武漢 430072;3.武漢科技大學(xué) 計算機學(xué)院,湖北 武漢 430065;4.廣東外語外貿(mào)大學(xué) 詞典研究中心,廣東 廣州 510420)

基于語言現(xiàn)象的文本蘊涵識別

任 函1,2,馮文賀1,2,劉茂福2,3,萬 菁4

(1.廣東外語外貿(mào)大學(xué) 語言工程與計算實驗室,廣東 廣州 510006;2.武漢大學(xué) 湖北語言與智能信息處理研究基地,湖北 武漢 430072;3.武漢科技大學(xué) 計算機學(xué)院,湖北 武漢 430065;4.廣東外語外貿(mào)大學(xué) 詞典研究中心,廣東 廣州 510420)

該文提出一種基于語言現(xiàn)象的文本蘊涵識別方法,該方法建立了一個語言現(xiàn)象識別和整體推理判斷的聯(lián)合分類模型,目的是對兩個高度相關(guān)的任務(wù)進行統(tǒng)一學(xué)習(xí),避免管道模型的錯誤傳播問題并提升系統(tǒng)精度。針對語言現(xiàn)象識別,設(shè)計了22個專用特征和20個通用特征;為提高隨機森林的泛化能力,提出一種基于特征選擇的隨機森林生成算法。實驗結(jié)果表明,基于隨機森林的聯(lián)合分類模型能夠有效識別語言現(xiàn)象和總體蘊涵關(guān)系。

文本蘊涵識別;語言現(xiàn)象;隨機森林

1 引言

文本蘊涵識別(Recognizing Textual Entailment)是一個判斷命題之間邏輯推導(dǎo)關(guān)系的挑戰(zhàn)任務(wù),其定義為:給定一個語段T(Text)和一個假設(shè)H(Hypothesis),如果H的意義可以從T的意義中推斷出來,那么就認(rèn)為T蘊涵H,記為T→H[1]。文本蘊涵識別是自然語言理解的重要研究課題之一,能夠廣泛用于問答系統(tǒng)、多文檔自動摘要、信息抽取、機器閱讀等自然語言處理應(yīng)用[2-3]。

文本蘊涵識別需要考察多種推理關(guān)系,例如,詞義、句法和語義變換。現(xiàn)有文本蘊涵識別研究往往集中于針對某一特定類型的推理問題設(shè)計精確的解決方案,這種方式雖然能夠提高針對這類問題的推理能力,然而由于文本蘊涵識別涉及的推理關(guān)系眾多,使得這種方式對于文本蘊涵識別的整體性能提升非常有限[4]。為此,一些文本蘊涵識別研究嘗試對推理中涉及的語言現(xiàn)象進行分類,并據(jù)此建立語言現(xiàn)象的標(biāo)注方法和資源[5-7]。例如,

T:喬姆斯基是20世紀(jì)最偉大的語言學(xué)家之一,他提出了形式語法理論。

H:喬姆斯基創(chuàng)立了形式語法理論。

其中,“提出”和“創(chuàng)立”屬于詞義蘊涵(Lexical Entailment)現(xiàn)象,“他”和“喬姆斯基”屬于指代(Coreference)現(xiàn)象。顯然,獲取這些語言現(xiàn)象將有助于對兩個句子的蘊涵關(guān)系進行判斷。

目前,針對文本蘊涵中語言現(xiàn)象的研究主要集中在資源標(biāo)注方面,而利用標(biāo)注的語言現(xiàn)象進行文本蘊涵識別的相關(guān)研究則非常缺乏。本文提出一種基于語言現(xiàn)象的文本蘊涵識別方法。該方法建立了一種語言現(xiàn)象識別和整體推理判斷的聯(lián)合分類模型,對兩個高度相關(guān)的任務(wù)進行統(tǒng)一學(xué)習(xí),避免了管道模型的錯誤傳播問題。針對語言現(xiàn)象識別,設(shè)計了22個專用特征和20個通用特征;為提高隨機森林的泛化能力,提出一種基于特征選擇的隨機森林生成算法。實驗結(jié)果表明,基于隨機森林的聯(lián)合分類模型能夠有效識別語言現(xiàn)象和總體蘊涵關(guān)系。

本文第二部分簡要介紹基于語言現(xiàn)象的文本蘊涵識別相關(guān)工作;第三部分介紹基于語言現(xiàn)象的文本蘊涵識別模型;第四部分對實驗結(jié)果進行分析;第五部分對全文工作進行總結(jié)和展望。

2 相關(guān)工作

基于語言現(xiàn)象的文本蘊涵識別策略通過分析語言現(xiàn)象獲取局部片斷的推理關(guān)系,再進行整體蘊涵判斷。該策略一般涉及資源建設(shè)和蘊涵識別兩個部分。

2.1 資源建設(shè)

現(xiàn)有語言現(xiàn)象的資源建設(shè)工作主要基于英語。Garoufi[8]從對齊、上下文及指代三個方面歸納了23種現(xiàn)象來標(biāo)注T和H的推理關(guān)系。他在RTE-2的測試數(shù)據(jù)集上共標(biāo)注了400個蘊涵的文本對,并隨機選取了25%的矛盾類進行標(biāo)注。Sammons等[7]定義了39類語言現(xiàn)象,并在RTE-5中挑選了210個文本對進行標(biāo)注,然后用標(biāo)注結(jié)果對現(xiàn)有RTE參賽系統(tǒng)進行評估。Bentivogli[5]將語言現(xiàn)象歸為詞匯、句法、詞匯-句法關(guān)系、篇章及推理五大類,在RTE-5數(shù)據(jù)集上進行了90個文本對的標(biāo)注實踐。這一工作與其它工作的區(qū)別在于,T和H被分解成一系列推理過程,每次分解的結(jié)果用(T,Hi)表示,其中T為原始語段,Hi表示一系列假設(shè),然后通過人工總結(jié)這一系列(T,Hi)中所含語言現(xiàn)象里存在的推理關(guān)系。

此外,Kaneko等[6]定義了26類推理現(xiàn)象,并用于標(biāo)注RITE-2任務(wù)中的日語語料。而第一份中文語言現(xiàn)象標(biāo)注語料則由RITE-3任務(wù)[9]給出,其中包括19類蘊涵現(xiàn)象和九類矛盾現(xiàn)象,共標(biāo)注了581對訓(xùn)練集和1 200對測試集數(shù)據(jù)中的語言現(xiàn)象。

從規(guī)模上看,這些資源標(biāo)注數(shù)量比較有限,但他們的工作使得語言現(xiàn)象的標(biāo)注資源在推理中的作用顯得更為重要,并也形成了一些可供參考的標(biāo)注資源。

2.2 蘊涵識別

基于語言現(xiàn)象的蘊涵識別還是一個鮮有涉足的研究領(lǐng)域。Huang等[10]對推理現(xiàn)象識別進行了初步探索。他們考察了矛盾類語言現(xiàn)象,并為每類現(xiàn)象總結(jié)出啟發(fā)式規(guī)則。為考察語言現(xiàn)象的識別效果,他們設(shè)計了兩個實驗,第一個實驗分別統(tǒng)計機器和人工識別語言現(xiàn)象的準(zhǔn)確率;在第二個實驗中,他們將自動識別的語言現(xiàn)象作為特征,放入SVM進行訓(xùn)練。第一個實驗結(jié)果顯示,機器標(biāo)注的結(jié)果(52.38%)與人工結(jié)果(95.24%)的性能相去甚遠,但第二個實驗結(jié)果顯示,僅利用五個矛盾類語言現(xiàn)象作為特征進行學(xué)習(xí)得到的分類器性能與RTE-5全部參評系統(tǒng)的平均準(zhǔn)確率相當(dāng)。這在一定程度上體現(xiàn)語言現(xiàn)象對文本推理系統(tǒng)的有效性。然而,到目前為止,還沒有利用語言現(xiàn)象進行文本蘊涵識別的大規(guī)模研究。

3 基于語言現(xiàn)象的文本蘊涵識別

本文提出一種基于語言現(xiàn)象的文本蘊涵識別方法。該方法建立了一種語言現(xiàn)象識別和整體推理判斷的聯(lián)合分類模型,并利用改進的隨機森林方法進行訓(xùn)練和預(yù)測。

3.1 語言現(xiàn)象類別

本文實驗基于中文蘊涵語料,為此,我們以RITE-3評測任務(wù)中定義的漢語語言現(xiàn)象為基礎(chǔ)定義本實驗中的語言現(xiàn)象類別。RITE-3語料包括19類蘊涵現(xiàn)象和九類矛盾現(xiàn)象,共標(biāo)注了581對訓(xùn)練集和1 200對測試集數(shù)據(jù)中的語言現(xiàn)象。我們對其定義的語言現(xiàn)象進行如下改進:

1) 將Relative_clause與Clause合并,稱為Clause現(xiàn)象,原因是兩者所表示的語言現(xiàn)象非常相近,都是T中包含了H中沒有的句法成分。

2) 將Antonym、Exclusion:Modality和Exclusion:Modifier合并,稱為Antonym現(xiàn)象,原因是后兩者所表示的語言現(xiàn)象屬于意義相對的成分,與Antonym包含對義關(guān)系相似。

3) 去掉Paraphrase、Inference和Exclusion:common_sense三類語言現(xiàn)象,原因是這三類現(xiàn)象體現(xiàn)了對文本的解釋和重寫,而非僅僅是詞匯或句法的替換,識別這類語言現(xiàn)象已相當(dāng)于對整體進行推理判斷。因此,我們將包含這三類現(xiàn)象的文本對直接利用推理判斷模型進行識別,不再為其指定語言現(xiàn)象類別。

改進后的語言現(xiàn)象包括16類蘊涵現(xiàn)象和六類矛盾現(xiàn)象,如表1所示。

3.2 語言現(xiàn)象識別

語言現(xiàn)象識別的任務(wù)是,找出T和H中包含的語言現(xiàn)象。一種方法是,為每類語言現(xiàn)象設(shè)計對應(yīng)的規(guī)則,若T和H中存在符合規(guī)則的文本片斷對,則認(rèn)為存在該語言現(xiàn)象。例如,

T:水蘊草為雌雄異株的植物。

H:水蘊草為雌雄異株的生物。

該語言現(xiàn)象為“上下位關(guān)系”,可為其制定啟發(fā)式規(guī)則:若T存在某一詞語,H中存在其上位詞,則認(rèn)為該文本對包含“上下位關(guān)系”這一語言現(xiàn)象。該方法對于比較簡單的詞匯類語言現(xiàn)象具有一定的識別能力。然而,對于比較復(fù)雜的文本,簡單的規(guī)則往往導(dǎo)致準(zhǔn)確率不高;若編制比較復(fù)雜的規(guī)則,又會面臨召回率降低的問題,其原因在于約束條件過多。Huang等[10]的實驗也表明,采用規(guī)則方法難以獲得理想的識別性能。

本文提出一種基于機器學(xué)習(xí)的方法,將語言現(xiàn)象識別看作一個學(xué)習(xí)問題,即首先通過訓(xùn)練數(shù)據(jù)獲得語言現(xiàn)象識別知識,再對測試數(shù)據(jù)進行預(yù)測。為此,我們定義了一組專用特征,如表1所示。這些專用特征所覆蓋了本文定義的語言現(xiàn)象。

專用特征可分為兩類,一類為詞匯類特征;另一類為句法、語義類特征。絕大多數(shù)詞匯類特征都需要利用世界知識進行判斷。如縮略詞、上下位、同義詞等。我們使用同義詞詞林、HowNet、百度漢語、金山詞霸漢語等詞典識別同義、反義、上下位關(guān)系、整體—部分關(guān)系等語言現(xiàn)象。對于縮略語現(xiàn)象,除采用以上資源進行識別外,還利用規(guī)則從中文維基百科中抽取縮略語集合進行識別。對于對義關(guān)系,采用一種基于HowNet詞匯語義相似度的方法[11]進行計算,該方法利用了義原的反義、對義關(guān)系和義原信息計算詞匯相似度。對于詞匯蘊涵關(guān)系,采用一種基于詞向量的方法[12]進行計算,該方法從中文維基百科語料上訓(xùn)練出100維的詞向量,并利用分類的方法識別詞匯蘊涵關(guān)系。對于Spatial現(xiàn)象,利用已抽取的地理信息資源[13]進行識別。

表1 語言現(xiàn)象專用特征

續(xù)表

對于句法、語義類特征,首先利用Stanford CoreNLP*http://nlp.stanford.edu/工具對T和H進行句法和語義分析,再利用結(jié)果進行識別。特別地,對于Coreference特征,利用上述工具進行指代消解,再進行識別;對于Case_alternation、List特征,首先為每種句式制定相應(yīng)匹配規(guī)則,再結(jié)合句法分析結(jié)果進行結(jié)構(gòu)匹配。

定義專用特征的目的是描述特定語言現(xiàn)象,即每一個特征描述一種特定的語言現(xiàn)象。然而,僅憑專用特征難以完整地描述語言現(xiàn)象。為此,我們加入了通用特征,這些通用特征包括詞匯、句法和語義的相關(guān)性特征,目的是聯(lián)合專用特征進行語言現(xiàn)象識別。通用特征有助于語言現(xiàn)象的識別,例如當(dāng)詞匯相似度較高、句法相似度較低,并且Case_alternation特征為真時,表明文本對存在句式變換的可能性較高。

通用特征利用了我們提出的15種蘊涵識別特征,包括重疊特征、相似度特征、結(jié)構(gòu)特征和語言學(xué)特征[13]。此外,還利用了以下五種特征:Jaro-Winkler距離、Manhattan距離、切比雪夫距離、歐式距離和Jaccard相似度。

3.3 文本蘊涵識別

文本蘊涵識別的任務(wù)是,利用語言現(xiàn)象識別結(jié)果對文本對(T,H)進行整體推理判斷。這一步驟是必要的,因為蘊涵或矛盾語言現(xiàn)象存在并不代表T和H具有蘊涵或矛盾關(guān)系。例如,

T:美國疾病控制與預(yù)防中心通報美國首宗愛滋病感染案例。

H:美國疾病控制與預(yù)防中心通報全球首宗愛滋病感染案例。

盡管“美國”包含于“全球”,但T和H并不具有蘊涵關(guān)系,理由很明顯:局部推理關(guān)系并不能代表總體推理關(guān)系。因此,除語言現(xiàn)象識別結(jié)果外,我們還需結(jié)合上下文才能進行整體推理判斷。

文本蘊涵識別的一種主要策略是分類的方法,即將文本對(T,H)表示成特征向量,然后利用機器學(xué)習(xí)方法進行分類,輸出蘊涵或非蘊涵的判斷結(jié)果。基于此,我們可以將語言現(xiàn)象識別結(jié)果作為向量的一維,加入到現(xiàn)有特征向量中參與訓(xùn)練。然而,這一方法存在以下問題:1)語言現(xiàn)象識別結(jié)果僅占特征向量的一維,比重過??;2)語言現(xiàn)象識別的錯誤可能會造成錯誤傳播,影響整體推理判斷的性能。

基于此,本文提出一種語言現(xiàn)象識別與整體推理判斷的聯(lián)合分類模型,其目的是用一個統(tǒng)一的模型解決兩個高度相關(guān)的任務(wù),能夠在一定程度上避免上述問題。模型的輸入為文本對(T,H),輸出為蘊涵或不蘊涵的判斷,以及文本對中存在的語言現(xiàn)象。

本文采用隨機森林(Random Forest,RF)作為聯(lián)合分類器,理由如下:

1) RF適合處理特征較多的問題。語言現(xiàn)象識別需要利用42種特征,蘊涵判斷需要用到20種特征,盡管通用特征既可用于識別語言現(xiàn)象,也可用于進行推理判斷,但總體特征數(shù)仍較多。而RF能夠處理高維數(shù)據(jù),不用進行特征選擇,因此適合本任務(wù)。

2) RF適合處理輸出較多的任務(wù)。本模型的輸出為語言現(xiàn)象類別(22種)和蘊涵判斷結(jié)果(蘊涵/非蘊涵),共有44種組合,遠多于一般分類問題的類別個數(shù)。對于一般文本蘊涵識別而言,只需獲得最終蘊涵判斷結(jié)果即可;本文定義組合類別的目的在于獲得語言現(xiàn)象的識別結(jié)果并進行分析,同時該結(jié)果也可與其他文本蘊涵識別模型結(jié)合以改進蘊涵識別性能,或?qū)ζ渌谋咎N涵識別系統(tǒng)進行評估。

3) RF對于分布不均衡的數(shù)據(jù)能夠保持穩(wěn)定的性能。從RITE-3的語料統(tǒng)計[9]上看,在訓(xùn)練集中出現(xiàn)較多的語言現(xiàn)象,如Inference出現(xiàn)次數(shù)多達75次,而Meronymy語言現(xiàn)象則僅出現(xiàn)四次,存在明顯的樣本偏置。

另一方面,RF泛化能力的一個決定因素是隨機樹的平均相關(guān)度,相關(guān)度越低則泛化能力越強。我們可以通過特征選擇提高樹之間的差異性,以此改進RF的分類性能。對于本問題而言,樹之間的差異性體現(xiàn)在語言現(xiàn)象的識別,即專用特征;而通用特征主要分析T和H的相關(guān)程度,不同蘊涵現(xiàn)象的文本對可能體現(xiàn)出相同的相關(guān)程度,若某些建樹過程都使用了通用特征而未使用專用特征,可能導(dǎo)致生成的樹的差異程度過小。因此,有必要在建樹時分配一定數(shù)量的專用特征和通用特征。為此,本文提出一種改進特征選擇的隨機森林生成算法,算法描述如圖1所示。

圖1 隨機森林生成算法

在預(yù)測階段,由K個決策樹分別對測試數(shù)據(jù)進行投票,計算所有投票數(shù),找出票數(shù)最高的類別即可得到測試數(shù)據(jù)的蘊涵關(guān)系及包含的語言現(xiàn)象。

4 實驗結(jié)果及分析

4.1 數(shù)據(jù)準(zhǔn)備

實驗采用RITE-3中文任務(wù)的訓(xùn)練和測試語料,包括581對訓(xùn)練數(shù)據(jù)和1 200對測試數(shù)據(jù)。每條數(shù)據(jù)包括一個語段T和一個假設(shè)H,并標(biāo)注了一個語言現(xiàn)象和整體蘊涵關(guān)系(蘊涵/非蘊涵)。其中,訓(xùn)練集包含370對具有蘊涵關(guān)系的文本對,211對具有非蘊涵關(guān)系的文本對;測試集分別包含600對蘊涵關(guān)系與非蘊涵關(guān)系的文本對。為方便處理,首先對數(shù)據(jù)進行以下規(guī)范化操作:

1) 將文本中的中英文標(biāo)點符號統(tǒng)一替換成中文標(biāo)點符號;

2) 統(tǒng)一度量單位,如長度為米,重量為千克;

3) 將漢字大寫數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字;

4) 將全角字符轉(zhuǎn)換為半角字符;

5) 將分?jǐn)?shù)統(tǒng)一轉(zhuǎn)換為漢語表示,如“×分之×”;

6) 將日期統(tǒng)一轉(zhuǎn)換為××××年××月××日格式。

4.2 實驗結(jié)果

本實驗評估了本文提出的隨機森林方法對語言現(xiàn)象和整體蘊涵關(guān)系的識別性能。實驗評估手段為準(zhǔn)確率(Precision)、召回率(Recall)和F1值。

實驗設(shè)置了四個系統(tǒng),第一個系統(tǒng)(svm_combined)直接利用專用特征和通用特征建立特征空間,并利用SVM進行學(xué)習(xí)和預(yù)測;第二個系統(tǒng)(svm_cascaded)采用兩階段識別方法,首先利用專用特征進行語言現(xiàn)象識別,再將識別結(jié)果作為特征,和通用特征一起建立特征空間(實驗中提高了識別特征的權(quán)重),利用SVM進行訓(xùn)練和預(yù)測;第三個系統(tǒng)(RF-FS)采用基于隨機森林的聯(lián)合分類模型,但樹的構(gòu)建采用完全隨機特征選擇的方法;第四個系統(tǒng)(RF+FS)在第三個系統(tǒng)基礎(chǔ)上采用改進的隨機森林生成算法,即本文方法?;鶞?zhǔn)系統(tǒng)(baseline)采用我們在NTCIR-11上的參賽系統(tǒng)[13]。該系統(tǒng)采用分類方法,利用字串、相似度、結(jié)構(gòu)和語言學(xué)共15種特征構(gòu)建基于SVM的分類系統(tǒng)。實驗結(jié)果如表2所示。

實驗結(jié)果表明:

1) 識別語言現(xiàn)象能夠有效提高文本蘊涵識別系統(tǒng)的性能。從本文方法與基準(zhǔn)系統(tǒng)的性能對比上看,蘊涵關(guān)系識別的準(zhǔn)確率、召回率和F1值分別高出13.89%、2.5%和9.2%,非蘊涵關(guān)系識別的三個指標(biāo)分別高出6.06%、8.33%和7.74%,顯示出本文方法的性能顯著優(yōu)于基準(zhǔn)系統(tǒng);從svm_cascaded和基準(zhǔn)系統(tǒng)的性能對比上看,準(zhǔn)確率和F1值在蘊涵類關(guān)系識別上分別提高3.42%和2%,在非蘊涵類關(guān)系識別上分別提高1.53%和3.46%,說明僅加入語言現(xiàn)象識別結(jié)果,也能在一定程度上改進蘊涵識別系統(tǒng)的性能。

表2 文本蘊涵識別結(jié)果

2) 在隨機森林的建樹過程中進行特征選擇,能夠提高模型的泛化能力,從而改進蘊涵識別的性能。對比RF+FS與RF-FS的實驗結(jié)果,在準(zhǔn)確率、召回率和F1值三個指標(biāo)上,蘊涵關(guān)系識別分別高出2.25%、1.33%和1.83%,非蘊涵關(guān)系識別分別高出1.61%、2.17%和2.01%,表明模型的分類性能在經(jīng)過特征選擇后有了一定程度的提高。事實上,語言現(xiàn)象識別和整體推理判斷屬于相互關(guān)聯(lián)的兩個問題,因此所建的分類樹要能對兩個問題進行判斷,采用特征選擇方法則對分類樹特征集合中的專用特征和通用特征進行了一定比例的分配,避免了分類樹特征類別單一的問題。

3) 與SVM相比,隨機森林能夠更有效地處理語言現(xiàn)象識別和整體推理判斷的聯(lián)合分類問題。對比RF-FS與svm_cascaded的實驗結(jié)果,在準(zhǔn)確率、召回率和F1值三個指標(biāo)上,蘊涵關(guān)系識別分別高出8.22%、1.5%和5.37%,非蘊涵關(guān)系識別分別高出2.92%、1.83%和2.27%,說明隨機森林能夠更有效地處理多特征、多類別的分類問題;另一方面,與隨機森林的蘊涵類識別準(zhǔn)確率比較,SVM的準(zhǔn)確率過低,表明很多數(shù)據(jù)都被錯誤地識別為蘊涵類,其中的大部分原因是由于數(shù)據(jù)不均衡導(dǎo)致的。這也表明,隨機森林方法具有更穩(wěn)定的性能。

此外,從實驗結(jié)果上看,svm_combined的性能不如svm_cascaded,其原因在于,盡管svm_combined使用了更多的特征,但由于數(shù)據(jù)集中每個文本對只包含一種語言現(xiàn)象,因此這些特征具有排斥性,導(dǎo)致數(shù)據(jù)稀疏,從而影響分類性能。

我們還對本文定義的22類語言現(xiàn)象識別結(jié)果進行了統(tǒng)計。統(tǒng)計數(shù)據(jù)來自RF+FS與RF-FS的語言現(xiàn)象識別結(jié)果。此外,我們還建立了一個基于SVM的分類系統(tǒng),用于識別語言現(xiàn)象。該系統(tǒng)使用專用特征和通用特征進行訓(xùn)練和預(yù)測,輸出為語言現(xiàn)象類別。實驗評估指標(biāo)為F1以及Marco-F1值[9]。實驗結(jié)果如表3所示。

實驗結(jié)果表明:

1) 對于語言現(xiàn)象識別而言,隨機森林的性能要優(yōu)于SVM。從總體性能上看,RF-FS的Macro-F1比SVM方法高3.89%,而RF+FS比SVM方法高4.75%。從具體的語言現(xiàn)象上看,對RF-RS和RF+FS的大部分語言現(xiàn)象的F1值均高于SVM方法。

2) 相對于SVM,隨機森林方法能夠顯著提高部分語言現(xiàn)象識別性能。對比RF+FS與SVM方法,前者識別Lexical_entailment、Modifier、Antonym等語言現(xiàn)象的F1值均高于后者10%以上。其原因在于,語言現(xiàn)象識別與整體推理判斷具有一定的關(guān)聯(lián)性,例如一個矛盾類現(xiàn)象出現(xiàn)在整體為蘊涵關(guān)系的文本對中的可能性較低。而隨機森林方法為聯(lián)合分類方法,兩個任務(wù)在訓(xùn)練中相互影響,有助于各自識別性能的改進。本實驗中的SVM方法則未將整體推理關(guān)系用于識別。

表3 語言現(xiàn)象識別結(jié)果

3) 某些語言現(xiàn)象比較復(fù)雜,識別這類現(xiàn)象需要用到更多知識,系統(tǒng)識別性能也有待提高。例如,在RF+FS系統(tǒng)上,Case_alternation現(xiàn)象的F1值僅有37.04%,其原因在于語言形式變化多樣,僅通過定義一些匹配模板難以得到準(zhǔn)確的包含句式轉(zhuǎn)換的文本片斷。又如,Antonym現(xiàn)象的F1值較低的原因之一是許多對義關(guān)系并未識別出來,其原因在于本實驗中僅采用了HowNet以及一些漢語詞典作為反義詞資源,知識非常有限。

5 結(jié)論

本文提出一種基于語言現(xiàn)象的文本蘊涵識別方法。該方法建立了一種語言現(xiàn)象識別和整體推理判斷的聯(lián)合分類模型,并利用改進的隨機森林方法進行訓(xùn)練和預(yù)測。為識別語言現(xiàn)象,本文設(shè)計了22類專用特征和20類通用特征;為提高隨機森林的泛化能力,本文提出一種基于特征選擇的隨機森林生成算法,通過在建樹時分配一定數(shù)量的專用特征和通用特征,以增加生成的樹的差異度。實驗結(jié)果表明,識別語言現(xiàn)象能夠有效提高文本蘊涵識別系統(tǒng)的性能;同時,在隨機森林的建樹過程中進行特征選擇,能夠提高模型的泛化能力,從而改進語言現(xiàn)象識別和整體推理判斷的性能。

[1] Dagan I,Glickman O.Probabilistic Textual Entailment:Generic Applied Modeling of Language Variability[C]//Proceedings of PASCAL Workshop on Learning Methods for Text Understanding and Mining.2004.

[2] Androutsopoulos I,Malakasiotis P.A Survey of Paraphrasing and Textul Entailment Methods[J].Journal of Artificial Intelligence Research,2010,38(1):135-187.

[3] Dagan I,Dolan B.Recognizing textual entailment:Rational,evaluation and approaches[J].Natural Language Engineering,2009,15(4):i-xvii.

[4] Cabrio E.Specialized Entailment Engines:Approaching Linguistic Aspects of Textual Entailment[C]//Proceedings of the 14th International Conference on Applications of Natural Language to Information Systems,2009:305-308.

[5] Bentivogli L,Cabrio E,Dagan I,et al.Building textual entailment specialized data sets:a methodology for isolating linguistic phenomena relevant to inference[C]//Proceedings of the International Conference on Language Resources and Evaluation.2010:3542-3549.

[6] Kaneko K,Miyao Y,Bekki D.Building Japanese Textual Entailment Specialized Data Sets for Inference of Basic Sentence Relations[C]//Proceedings of the 51stAnnual Meeting of the Association of Computational Linguistics 2013:273-277.

[7] Sammons M,Vydiswaran V G V,Roth D.“Ask not what Textual Entailment can do for you…”[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2010:1199-1208.

[8] Garoufi K.Towards a better understanding of applied textual entailment:Annotation and evaluation of the RTE-2 dataset.Germany,Saarland University.Master Thesis.2007.

[9] Matsuyoshi S,Miyao Y,Shibata T,et al.Overview of the NTCIR-11 Recognizing Inference in TExt and Validation (RITE-VAL) Task[C]//Proceedings of the 11th NTCIR Conference.2014:223-232.

[10] Huang H H,Chang K C,Chen H H.Modeling Human Inference Process for Textual Entailment Recognition[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.2013:446-450.

[11] 江敏,肖詩斌,王弘蔚,等.一種改進的基于知網(wǎng)的詞語語義相似度計算[J].中文信息學(xué)報,2008,22(5):84-89.

[12] 張志昌,周慧霞,姚東任,等.基于詞向量的中文詞匯蘊涵關(guān)系識別[J].計算機工程,2016,42(2):169-174.

[13] Ren H,Wu H,Tan X,et al.The WHUTE System in NTCIR-11 RITE Task[C]//Proceedings of the 11th NTCIR Conference.2014:309-316.

Recognizing Textual Entailment Based on Inference Phenomena

REN Han1,2,FENG Wenhe1,2,LIU Maofu2,3,WAN Jing2

(1.Laboratory of Language Engineering and Computing,Guangdong University of Foreign Studies,Guangzhou,Guangdong 510006,China; 2.Hubei Research Center for Language and Intelligent Information Processing,Wuhan University,Wuhan,Hubei 430072,China; 3.College of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan,Hubei 430065,China;4.Center for Lexicographical Studies,Guangdong University of ForeignStudies,Guangzhou,Guangdoing 510420,China)

This paper introduces an approach of textual entailment recognition based on language phenomena.The approach asopts a joint classification model for language phenomenon recognition and entailment recognition,so as to learn two highly relevant tasks,avoiding error propagation in pipeline strategy.For language phenomenon recognition,22 specific and 20 general features are employed.And for enhancing the generalization of random forest,a feature selection method is adopted on building trees of random forest.Experimental results show that the joint classification model based on random forest recognizes language phenomena and entailment relation effectively.

recognizing textual entailment; language phenomena; random forest

任函(1980—),博士,助理研究員,主要研究領(lǐng)域為自然語言處理。E-mail:hanren@whu.edu.cn馮文賀(1976—),通信作者,博士,講師,主要研究領(lǐng)域為理論語言學(xué)、計算語言學(xué)。E-mail:wenhefeng@gmail.com劉茂福(1977—),博士,教授,主要研究領(lǐng)域為自然語言處理。E-mail:liumaofu@wust.edu.cn

1003-0077(2011)00-0184-08

2016-09-03 定稿日期:2016-11-05

國家自然科學(xué)基金(61402341);國家社會科學(xué)基金(11&ZD189);華中師范大學(xué)中央高?;究蒲袠I(yè)務(wù)費教育科學(xué)專項資助(ccnu16JYKX014);教育部人文社科項目(13YJC740022);河南高校哲社基礎(chǔ)研究重大項目(2015-JCZD-022);廣東外語外貿(mào)大學(xué)語言工程與計算實驗室2016年招標(biāo)課題(LEC2016ZBKT002)

TP391

A

猜你喜歡
蘊涵現(xiàn)象森林
偉大建黨精神蘊涵的哲學(xué)思想
我的超級老爸
它們離“現(xiàn)象級”有多遠
商周刊(2017年5期)2017-08-22 03:35:13
哈Q森林
哈Q森林
哈Q森林
多重模糊蘊涵與生成模糊蘊涵的新方法
哈Q森林
你能解釋下面的現(xiàn)象嗎
猜謎語
新邵县| 晋城| 凤台县| 邳州市| 青海省| 南康市| 沙雅县| 黑河市| 封丘县| 湟源县| 河曲县| 托克托县| 正镶白旗| 扶沟县| 泸西县| 玉田县| 和静县| 邛崃市| 怀集县| 凤山县| 东乡县| 辽源市| 赤城县| 营山县| 遂川县| 通道| 孝昌县| 佳木斯市| 高陵县| 慈溪市| 屯昌县| 宁夏| 吴川市| 隆尧县| 西乌珠穆沁旗| 普宁市| 旬阳县| 兴安盟| 民勤县| 岳普湖县| 习水县|