国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PDTB體系的隱式篇章關(guān)系識(shí)別

2016-05-03 13:12:11周國棟
中文信息學(xué)報(bào) 2016年4期
關(guān)鍵詞:特征選擇語料分類器

李 生,孔 芳,周國棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

基于PDTB體系的隱式篇章關(guān)系識(shí)別

李 生,孔 芳,周國棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

識(shí)別隱式篇章關(guān)系是篇章分析領(lǐng)域中非常有挑戰(zhàn)的一個(gè)任務(wù)。該文基于PDTB語料提出一個(gè)隱式篇章分析識(shí)別方法,使用傳統(tǒng)的特征如動(dòng)詞,極性和句法推導(dǎo)規(guī)則等,系統(tǒng)分析了它們對(duì)隱式篇章分析的影響。我們利用全部標(biāo)注數(shù)據(jù)構(gòu)建多個(gè)分類器并使用加法規(guī)則融合分類結(jié)果,此外還通過前向特征選擇算法確定各分類任務(wù)最優(yōu)的特征集。實(shí)驗(yàn)結(jié)果表明該方法能顯著提升隱式篇章分析的性能。

篇章處理;隱式篇章關(guān)系;賓州篇章樹庫

1 引言

篇章分析旨在確定文本的內(nèi)在結(jié)構(gòu),篇章語義關(guān)系識(shí)別是篇章分析的重要組成部分,它對(duì)自然語言處理的其他任務(wù)(如信息抽取,自動(dòng)摘要以及統(tǒng)計(jì)機(jī)器翻譯等[1-3])起著重要的作用,近年來已逐漸成為研究的熱點(diǎn)之一。篇章語義關(guān)系包含兩類: 顯式篇章關(guān)系(Explicit Discourse Relation),即文本單元間存在顯式的篇章連接詞(如because,but,so等等);隱式篇章關(guān)系(Implicit Discourse Relation),即文本單元間沒有顯式的連接詞,它們間的邏輯語義關(guān)系可根據(jù)上下文推理出來。已有的相關(guān)研究表明,由于篇章連接詞在表達(dá)的邏輯語義上極少有歧義[4],相對(duì)與隱式篇章關(guān)系的識(shí)別,顯式篇章關(guān)系的識(shí)別要容易的多,性能也更好。例如,在PDTB(Penn Discourse Treebank[5])體系下,僅使用連接詞及其前后一個(gè)詞作為特征,英文顯式篇章關(guān)系識(shí)別在頂層的四大類上就取得了96%的F1值。另一方面,沒有了連接詞的指引,隱式篇章關(guān)系識(shí)別任務(wù)要困難得多。考慮詞法、句法、語義、依存,以及其他大量上下文統(tǒng)計(jì)信息,PDTB體系下,頂層四大類隱式關(guān)系識(shí)別的性能仍然低于50%。但PDTB語料的統(tǒng)計(jì)表明,英文中隱式篇章關(guān)系約占篇章關(guān)系的40%(16224/40600)[4],顯然,隱式篇章關(guān)系識(shí)別的性能已成為篇章關(guān)系識(shí)別,以及整個(gè)篇章分析的瓶頸。

本文主要關(guān)注PDTB體系下隱式篇章關(guān)系的識(shí)別。借鑒已有的研究成果,首先構(gòu)建了隱式篇章關(guān)系識(shí)別的基準(zhǔn)系統(tǒng);針對(duì)數(shù)據(jù)分布的不平衡性,將多元分類拆解成多個(gè)二元分類問題,并借助分類器融合技術(shù)最大化的使用標(biāo)注語料;考慮不同特征對(duì)多個(gè)二元分類的貢獻(xiàn)度不同,使用前向特征選擇算法為不同的二元分類選擇最優(yōu)的特征集合;最后依據(jù)最大概率原則,將多個(gè)二元分類器融合,形成更加可靠的多元分類結(jié)果。PDTB語料上的實(shí)驗(yàn)結(jié)果表明給出的問題解決方案能很好地提升隱式篇章關(guān)系識(shí)別的性能。

本文其他部分的組織如下: 第二節(jié)簡(jiǎn)單介紹了PDTB體系及標(biāo)注語料;第三節(jié)給出了PDTB體系下隱式篇章關(guān)系識(shí)別的相關(guān)研究;第四節(jié)使用傳統(tǒng)的詞法、句法、語義和上下文信息,構(gòu)建了多元分類的隱式篇章關(guān)系識(shí)別基準(zhǔn)系統(tǒng),并給出了PDTB語料上的實(shí)驗(yàn)結(jié)果;針對(duì)數(shù)據(jù)的不平衡性以及不同類別的隱式關(guān)系依賴不同的特征組合的問題,第五節(jié)借助多分類器融合技術(shù)和特征選擇算法給出了相應(yīng)的解決方案;最后對(duì)本文的工作進(jìn)行了總結(jié),并對(duì)下一步工作進(jìn)行了展望。

2 PDTB體系及標(biāo)注語料

近年來,篇章理論的發(fā)展以及大規(guī)模篇章語料的構(gòu)建,使得篇章級(jí)的分析應(yīng)用越來越受到研究者的關(guān)注。2008年發(fā)布的最新版的賓州篇章樹庫(The Penn Discourse Treebank,PDTB)是一個(gè)在D-LTAG[6]框架下標(biāo)注的篇章級(jí)語料庫。它以詞法為基礎(chǔ),標(biāo)注了謂詞論元形式的篇章結(jié)構(gòu)。該語料庫同時(shí)還和賓州樹庫(The Penn Treebank,PTB)[7]進(jìn)行了對(duì)齊,研究者可以很方便的從詞法、句法、語義等多個(gè)視角分析篇章。PDTB語料庫標(biāo)注了顯式和隱式兩類關(guān)系。其中顯式關(guān)系由連接詞觸發(fā),驅(qū)動(dòng)兩個(gè)論元Arg1和Arg2,形成的關(guān)系都具有明確的語義類別。例1是摘自PDTB語料中編號(hào)wsj2100文章中的一個(gè)顯式的Comparison關(guān)系,其中But是該關(guān)系的篇章連接詞。

例1 Arg1: Eventually viewers may grow bored with the technology and resent the cost.

Arg2:But right now programmers are figuring that viewers who are busy dialing up a range of services may put down their remote control zappers and stay tuned.

(Comparison -wsj 2100)

而隱式關(guān)系沒有連接詞,關(guān)系語義需要從兩個(gè)論元的上下文推出。例2是摘自PDTB語料中編號(hào)wsj0011文章中的一個(gè)隱式的Expansion關(guān)系,其中“And”是標(biāo)注人員從上下文推斷出的最適合表達(dá)該關(guān)系的篇章連接詞。

例2 Arg1: From January to October, the nation’s accumulated exports in- creased 4% from the same period last year to $50.45 billion.

Arg2: [And] Imports were at $50.38 billion, up 19%.

(Expansion -wsj 0011)

此外,PDTB體系還提供了三層篇章語義關(guān)系的分類體系,表1給出了前兩層的語義關(guān)系。本文側(cè)重第一層四大類語義關(guān)系(即Comparison, Contingency, Expansion, Temporal)的研究。第二層包含16種語義關(guān)系,但類別太細(xì),使得數(shù)據(jù)稀疏和分布不均衡問題更加嚴(yán)重。此外,頂層的四大類語義信息已經(jīng)能很好的滿足大多數(shù)其他應(yīng)用的需求。

表1 PDTB中篇章語義關(guān)系的上兩層分類

3 相關(guān)工作

近年來,篇章理論的發(fā)展以及大規(guī)模篇章語料庫的構(gòu)建使得篇章級(jí)的分析受到越來越多的關(guān)注。識(shí)別隱式篇章關(guān)系的研究可以歸納為三類: 基于偽隱式篇章關(guān)系語料的研究,基于純隱式篇章關(guān)系語料的研究和基于偽隱式和純隱式的篇章關(guān)系混合語料研究。

基于偽隱式關(guān)系的研究的代表性工作包括: Marcu和Echihabi[8]首次提出使用無監(jiān)督的方法識(shí)別隱式篇章關(guān)系。他們使用一系列文本模式從網(wǎng)絡(luò)上自動(dòng)獲取語料資源,同時(shí)去除篇章連接詞構(gòu)成一個(gè)偽隱式篇章關(guān)系語料。他們的實(shí)驗(yàn)表明使用詞對(duì)(word-pairs)特征給識(shí)別隱式篇章關(guān)系提供了幫助。Saito等人[9]擴(kuò)展了他們的工作,從文本域中提取短語模式特征,實(shí)驗(yàn)表明同樣有助于提高隱式篇章分析的性能。盡管如此,我們認(rèn)為偽隱式篇章關(guān)系并不能從真正意義上代表純隱式篇章關(guān)系,因?yàn)樗鼈冊(cè)诒硎娟P(guān)系上存在著很多不同,比如隱式關(guān)系的存在表明上下文的聯(lián)系足夠強(qiáng)而不需要使用篇章連接詞來銜接。

隨著PDTB 2.0的發(fā)布,該語料顯式的區(qū)分了隱式篇章關(guān)系和顯式篇章關(guān)系,并且僅針對(duì)段落內(nèi)相鄰句子間的隱式篇章關(guān)系進(jìn)行標(biāo)注。至此,很多工作開始側(cè)重研究純隱式篇章關(guān)系識(shí)別。這方面代表性的工作包括: Pitler等人[10]首次提出使用不同的語言學(xué)特征,比如動(dòng)詞,極性和上下文環(huán)境等,識(shí)別隱式篇章關(guān)系。Lin等人[11]受Pitler等人的啟發(fā),首次提出使用兩類句法特征,即成分句法推導(dǎo)規(guī)則和依存句法推導(dǎo)規(guī)則,來識(shí)別PDTB中第二層隱式篇章關(guān)系。Park和Cardie[12]使用了貪婪的特征選擇算法確定了識(shí)別隱式篇章關(guān)系的最優(yōu)特征子集。他們的實(shí)驗(yàn)在第一層四大類關(guān)系上取得了最好的F1值。

近年來,一些研究表明樣本不平衡問題成為了提高隱式篇章分析性能的重大阻礙。有人提出使用偽隱式和純隱式關(guān)系混合的篇章關(guān)系分析。相關(guān)工作包括: Zhou等人[13]使用語言模型去計(jì)算困惑度來判斷相鄰句子間插入連接詞的合理性。Biran和McKeown[14]使用聚集詞對(duì)嘗試解決特征稀疏問題,但他們的實(shí)驗(yàn)表明性能提升很小。為了解決隱式關(guān)系標(biāo)注樣本缺少的問題,Lan等人[15]提出使用多任務(wù)學(xué)習(xí)的方法引入偽隱式篇章關(guān)系來輔助隱式篇章關(guān)系識(shí)別。周等人[16]提出一種基于信息檢索的無監(jiān)督方法識(shí)別隱式篇章關(guān)系,他們利用Web上的資源提取大量的偽隱式關(guān)系輔助識(shí)別隱式篇章關(guān)系。

盡管這些研究都表明了隱式篇章分析在一定程度性能得到了提升,但他們的結(jié)果卻很難公平的比較,因?yàn)樗麄兏髯允褂昧瞬煌臄?shù)據(jù)切分方法。基于前人提出的有效特征,本文首先使用PDTB語料構(gòu)建了能進(jìn)行頂層四大類語義關(guān)系識(shí)別的基準(zhǔn)系統(tǒng);針對(duì)數(shù)據(jù)分布的不均衡性,給出了借助多個(gè)二元分類間接完成多元分類任務(wù)的解決方案,并借助多分類器融合技術(shù),最大化的利用標(biāo)注語料;分析各特征對(duì)不同二元分類任務(wù)貢獻(xiàn)度的基礎(chǔ)上,借助前向特征選擇策略,分而治之地為多個(gè)二元分類任務(wù)選定了最優(yōu)特征集合,并融合這些二元分類器完成了多元語義關(guān)系的識(shí)別任務(wù)。

4 基準(zhǔn)系統(tǒng): 基于最大熵模型的隱式關(guān)系識(shí)別方法

使用前人提出的五類有效特征,即動(dòng)詞(Verbs)、極性(Polarity)、情態(tài)(Modality)、First-Last,First3和成分句法推導(dǎo)規(guī)則(Production rule),本文首先構(gòu)建了一個(gè)對(duì)PDTB頂層四大類隱式篇章語義關(guān)系進(jìn)行識(shí)別的基準(zhǔn)系統(tǒng)。本節(jié)詳細(xì)介紹這一基準(zhǔn)系統(tǒng)。

4.1 特征

基準(zhǔn)系統(tǒng)并不關(guān)注特征集合,僅采用了相關(guān)研究中已證實(shí)有效的五類特征,它們包括:

1.動(dòng)詞(Verbs)特征: 與Pitler等人給出的動(dòng)詞特征類似,我們首先提取篇章關(guān)系中兩個(gè)論元包含的動(dòng)詞,并將它們組合形成多個(gè)動(dòng)詞對(duì)(verb-pair),再統(tǒng)計(jì)動(dòng)詞對(duì)中兩個(gè)動(dòng)詞的Levin verb class[17]的最高類別相同的數(shù)目,將其作為一個(gè)特征。此外,我們還引入了兩個(gè)論元中平均動(dòng)詞短語的長(zhǎng)度和兩個(gè)論元的主動(dòng)詞的詞性(本文直接認(rèn)為論元中的第一個(gè)動(dòng)詞作為主動(dòng)詞)這兩個(gè)與動(dòng)詞相關(guān)的特征。統(tǒng)計(jì)表明,類別相同的動(dòng)詞對(duì)越多,篇章關(guān)系越有可能是Expansion類別。

2.極性(Polarity)特征: 直覺上,篇章關(guān)系中的兩個(gè)論元如果包含了極性相反的詞對(duì),它們很可能表述Comparison類型的篇章關(guān)系。具體地,我們將極性分成積極(positive)、消極(negative)、否定積極(negated positive)和中立(neutral)四類,分別統(tǒng)計(jì)兩個(gè)論元中屬于不同極性的詞的數(shù)目。此外這四個(gè)極性的交叉積也被引入作為特征。每個(gè)詞的極性參考MPQA語料[18]提供的極性信息進(jìn)行確定,此外,對(duì)于否定積極(negated positive),我們使用了General Inquirer Tag語料[19]來判斷一個(gè)積極(positive)詞的緊鄰的前文是否還有否定詞(negated word),具體算法可參見文獻(xiàn)[15]。

3.情態(tài)(Modality)特征: 情態(tài)詞表達(dá)了可能性,情態(tài)詞的出現(xiàn)暗示了兩個(gè)文本單元間很有可能存在Contingency類別的篇章關(guān)系。本文引入了三類與情態(tài)相關(guān)的特征: 論元中是否有情態(tài)動(dòng)詞,論元中具體的情態(tài)動(dòng)詞的詞頻,以及兩個(gè)論元中不同類型情態(tài)詞的詞頻交叉積。

4.First-Last,F(xiàn)isrt3特征: 這組特征包括: 每個(gè)論元中的第一個(gè)詞,每個(gè)論元中的最后一個(gè)詞,Arg1和Arg2的第一個(gè)詞的組合,Arg1和Arg2的最后一個(gè)詞的組合,Arg1的前三個(gè)詞,以及Arg2的前三個(gè)詞。需要說明的是,我們并沒有對(duì)這些詞做任何預(yù)處理(例如,取詞根),而是直接參與特征值的計(jì)算。

5.句法推導(dǎo)規(guī)則(Production rule)特征: Lin等人[11]的研究表明,論元中的句法規(guī)則與某些篇章關(guān)系的出現(xiàn)存在一定的相互制約性。本文使用了三個(gè)句法推導(dǎo)規(guī)則,分別是: 句法規(guī)則是否出現(xiàn)在Arg1中,句法規(guī)則是否出現(xiàn)在Arg2中和句法規(guī)則是否同時(shí)出現(xiàn)在Arg1和Arg2中。本文舍棄了那些在訓(xùn)練數(shù)據(jù)中出現(xiàn)次數(shù)小于5的句法規(guī)則。

4.2 基于最大熵模型的四元分類

PDTB體系關(guān)注的是局部篇章關(guān)系,即相鄰文本單元間的語義關(guān)系,它將隱式篇章關(guān)系分成四大類,利用4.1節(jié)給出的五類特征,使用最大熵模型,我們構(gòu)建了一個(gè)可對(duì)四類語義關(guān)系進(jìn)行識(shí)別的四元分類器。

最大熵模型是通過最大熵原理推導(dǎo)出的,該模型的一個(gè)優(yōu)點(diǎn)是可以加入各種不同的特征,其參數(shù)化的表示形式如式(1)所示。

(1)

其中,

(2)

這里,x∈Rn為輸入,y∈{1,2,…,K}為輸出,w∈Rn為權(quán)值向量即模型參數(shù),fi(x,y),i=1,2,…,n為任意實(shí)數(shù)值特征函數(shù),y′∈{1,2,…,k}為可能的輸出類別取值。模型學(xué)習(xí)時(shí)在給定訓(xùn)練數(shù)據(jù)條件下對(duì)模型進(jìn)行正則化極大似然估計(jì),本文采用L1范式的正則化模型來防止過擬合,即優(yōu)化如下目標(biāo)函數(shù),如式(3)所示。

(3)

我們選擇能極大化目標(biāo)函數(shù)L(w)的模型參數(shù)w*,即

(4)

實(shí)際中我們采用L-BFGS梯度優(yōu)化算法尋求最優(yōu)模型參數(shù),γ可以通過在開發(fā)集上調(diào)參得到最優(yōu)結(jié)果。

4.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)設(shè)置

本文所有實(shí)驗(yàn)均使用PDTB2.0語料,將其中的section 02-20作為訓(xùn)練集,section21-22作為測(cè)試集,section 00-01作為開發(fā)集。與Zhou等人[13]的實(shí)驗(yàn)設(shè)置一致,本文只關(guān)注隱式篇章關(guān)系的識(shí)別。PDTB語料中將非顯式篇章關(guān)系(non-Explicit)細(xì)分成隱式篇章關(guān)系(Implcit),實(shí)體關(guān)系(EntRel),AltLex關(guān)系和沒有關(guān)系(NoRel)四種,構(gòu)建訓(xùn)練模型時(shí),僅Implicit類型的篇章關(guān)系參與訓(xùn)練實(shí)例的生成,測(cè)試時(shí)則考慮了Implicit和NoRel兩種類型。文中所有實(shí)驗(yàn)均使用PTB(Penn Treebank)語料提供的標(biāo)準(zhǔn)句法樹。Mallet*http://mallet.cs.umass.edu提供的L1正則化的最大熵模型被用于分類器的構(gòu)建,所有參數(shù)均采用默認(rèn)值。系統(tǒng)性能的評(píng)測(cè)指標(biāo)采用的是標(biāo)準(zhǔn)的準(zhǔn)確率(Precision),召回率(Recall),F(xiàn)1值和正確率(Accuracy)。值得說明的是,PDTB語料在進(jìn)行關(guān)系語義類別標(biāo)注時(shí)允許出現(xiàn)某一關(guān)系具有多個(gè)語義類別的情況,本文統(tǒng)一僅考慮第一個(gè)語義類別。

實(shí)驗(yàn)結(jié)果及分析

表2給出了基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果我們可以發(fā)現(xiàn),在四類關(guān)系的識(shí)別中,Expansion類型的識(shí)別取得了最好的F1性能,為58.50%,而Temporal關(guān)系的識(shí)別性能最差,F(xiàn)1值僅為8.57%。Comparison和Contingency類型的關(guān)系識(shí)別性能也只取得了32.41%和32.09%的F1值。但系統(tǒng)的總體正確率卻達(dá)到了43.25%。

表2 四元分類的隱式篇章關(guān)系識(shí)別性能

從表3給出的統(tǒng)計(jì)數(shù)據(jù)不難發(fā)現(xiàn):

1) 四類關(guān)系的分布是非常不平衡的。Expansion關(guān)系占到了50%以上,而Temporal關(guān)系僅有5%~6%。因此不難理解四元分類結(jié)果中,Expansion關(guān)系的識(shí)別性能最好,而Temporal關(guān)系的識(shí)別性能最差。

2) 雖然基準(zhǔn)系統(tǒng)的整體正確率達(dá)到了43.25%,但如果我們使用多數(shù)原則將所有關(guān)系都標(biāo)注成Expansion類型,依據(jù)測(cè)試集的分布,系統(tǒng)的整體正確率為52.5%,高于我們的基準(zhǔn)系統(tǒng)。因此可以看到,篇章分析中系統(tǒng)的整體正確率并不能準(zhǔn)確的衡量系統(tǒng)的性能。

表3 訓(xùn)練集和測(cè)試集各關(guān)系實(shí)例分布情況

5 改進(jìn)系統(tǒng): 基于分類器融合的隱式關(guān)系識(shí)別方法

分析基準(zhǔn)系統(tǒng)的性能以及語料分布的情況可以發(fā)現(xiàn):

1) 數(shù)據(jù)分布的不平衡,使得系統(tǒng)的性能偏向?qū)嵗^多的Expansion類型,相對(duì)的,實(shí)例較少的Temporal類型的關(guān)系識(shí)別性能極低。

2) 采用統(tǒng)一的特征集識(shí)別所有類型的篇章關(guān)系并不合適。例如,直覺上極性特征對(duì)Comparison類型的關(guān)系更有效,而動(dòng)詞特征更利于Expansion類型的關(guān)系識(shí)別。

上述問題可以借助分類器融合技術(shù)進(jìn)行改進(jìn)。針對(duì)第一個(gè)問題,我們借鑒LibSVM[20]中將多元分類問題分解成多個(gè)一對(duì)多分類器決策的過程,將隱式篇章關(guān)系的識(shí)別拆解成四個(gè)二元分類問題;針對(duì)第二個(gè)問題,在拆解成多個(gè)二元分類問題的基礎(chǔ)上使用前向特征選擇算法[21]為每種篇章關(guān)系識(shí)別任務(wù)選擇不同的最優(yōu)特征子集。下面分別介紹多個(gè)二元分類器的構(gòu)建和最優(yōu)特征子集的選擇。

5.1 多個(gè)二元分類器的構(gòu)建

多元分類可以借助多個(gè)二元分類任務(wù)完成,但語料中篇章關(guān)系分布不均衡的狀況仍然存在。例如,構(gòu)建Temporal類型的關(guān)系識(shí)別模型時(shí),訓(xùn)練集中包含665個(gè)Temporal類型的篇章關(guān)系(即正例),11 967個(gè)其他類型的篇章關(guān)系(即,1 894個(gè)Comparison類型,3 281個(gè)Contingency類型和6 792個(gè)Expansion類型的篇章關(guān)系,它們都被看作負(fù)例)。對(duì)此,常見的方法在構(gòu)建訓(xùn)練集時(shí)通過欠采樣(Down-sampling)負(fù)樣本來構(gòu)建一個(gè)正負(fù)例平衡的分類器。但是欠采樣方法的明顯缺點(diǎn)就是舍棄了大量的標(biāo)注樣本,未能重復(fù)利用所有標(biāo)注數(shù)據(jù),然而標(biāo)注樣本是極其寶貴的資源。因此,本文借助分類器融合技術(shù)極大化地利用所有的標(biāo)注數(shù)據(jù)。我們同樣以Temporal類型為例。將負(fù)例按照正例的數(shù)目劃分,在我們的例子中負(fù)例被分成17份,每份包含665個(gè)負(fù)例。然后用正例和這17份負(fù)例分別構(gòu)建17個(gè)分類器。最后通過加法規(guī)則去融合多個(gè)分類器的結(jié)果來確定最終的關(guān)系類別。加法融合規(guī)則如式(5)所示。

(5)

5.2 最優(yōu)特征子集的選擇

不同的特征對(duì)不同類型的篇章關(guān)系識(shí)別的貢獻(xiàn)度并不相同,將多元分類問題拆解成多個(gè)二元分類任務(wù)后,為每個(gè)二元分類任務(wù)選定合適的最優(yōu)特征子集是非常自然的。借助開發(fā)集,我們針對(duì)每個(gè)二元分類任務(wù)采用前向特征選擇算法進(jìn)行了最優(yōu)特征子集的選擇。圖1給出了前向特征選擇算法的流程,從算法流程可以看到,該算法是一個(gè)貪心選擇算法。

5.3 實(shí)驗(yàn)結(jié)果與分析

使用與4.3節(jié)相同的實(shí)驗(yàn)設(shè)置,同樣采用Mallet提供的L1正則化最大熵模型構(gòu)建二元分類器,改進(jìn)方法得到了如下實(shí)驗(yàn)結(jié)果。

特征貢獻(xiàn)實(shí)驗(yàn)

我們首先分析了五類特征對(duì)多個(gè)二元分類任務(wù)的貢獻(xiàn)度。表4給出了具體的實(shí)驗(yàn)結(jié)果, 表格最后一列也給出了使用全部五類特征得到的分類器性能。

從表4的結(jié)果我們可以看到:

1) 對(duì)Comparison關(guān)系,盡管我們認(rèn)為Polarity特征應(yīng)該在Comparison關(guān)系上能獲得較好的性能,但實(shí)驗(yàn)表明Verbs特征和Product特征取得了最好的性能。比較Polarity和Product特征可以看出,Product特征在F1值上高于Polarity特征約9%。

前向特征選擇算法描述:輸入:候選特征集FC,訓(xùn)練集TS,開發(fā)集DS;輸出:該任務(wù)的最優(yōu)特征集FS;開始:1)將FC中的候選特征按照其對(duì)系統(tǒng)的單獨(dú)貢獻(xiàn)(如F1值)從大到小進(jìn)行排序,即FC_sort={f1,f2,…,fn};2)FS={f1},FR=FC_sort-FS;3)循環(huán)N次:a)將FR里的每個(gè)特征和FS進(jìn)行特征組合,并依次在DS上進(jìn)行測(cè)試;b)對(duì)FR中的特征按照按照a)中的結(jié)果從大到小進(jìn)行排序,如果最好的一個(gè)特征結(jié)果高于僅使用FS中的特征結(jié)果,則將該特征加入到FS中;反之則退出循環(huán);c)FR=FC_sort-FS,若FR=?,則退出循環(huán);4)FS即為該任務(wù)的最優(yōu)特征集。圖1 前向特征選擇算法

2) 對(duì)Contingency關(guān)系,情態(tài)特征Modality表達(dá)了可能性意義,從實(shí)驗(yàn)結(jié)果來看該特征的確取得了較好的性能,F(xiàn)1值在47.97%。另外,僅使用Product特征下得到了最好的性能F1值為48.95%。

3) 對(duì)Expansion關(guān)系,Expansion關(guān)系在整個(gè)數(shù)據(jù)分布中是比例最多的關(guān)系,我們認(rèn)為動(dòng)詞的特征能夠獲得較好的分類性能,實(shí)驗(yàn)中我們發(fā)現(xiàn)First-Last,F(xiàn)irst3特征取得了最好的F1性能66.87%,而相對(duì)應(yīng)的Verbs特征僅有64.19%。

4) 對(duì)Temporal關(guān)系,時(shí)序關(guān)系是分布最少的關(guān)系約5%~6%,這給分類造成了一定的難度。實(shí)驗(yàn)中我們發(fā)現(xiàn)僅用Product特征能取得最好的F1性能19.69%。此外Verbs特征和Modality特征也能獲得較好的性能。

表4 每類特征對(duì)各任務(wù)的貢獻(xiàn)

總結(jié)各類特征對(duì)不同二元分類任務(wù)的貢獻(xiàn)度,我們發(fā)現(xiàn):

1) Product特征在Expansion除外的其他三類關(guān)系的識(shí)別中都取得了最好的性能。這一結(jié)論與Park和Cardie的結(jié)論吻合。針對(duì)Expansion關(guān)系的識(shí)別,使用First-Last,F(xiàn)irst3特征可以得到最佳結(jié)果。

2) 每個(gè)分類任務(wù)的最優(yōu)性能可能不是由我們直覺上認(rèn)為合適的特征得到的,需要從實(shí)驗(yàn)數(shù)據(jù)推斷出。以Comparison為例,極性特征Polarity的不如動(dòng)詞特征Verbs的性能好,這說明Comparison關(guān)系中并非總是存在Polarity相異的詞。同樣的以Expansion為例,我們的最優(yōu)性能也并非是動(dòng)詞特征Verbs得到的。

3) 每個(gè)分類任務(wù)可能存在不同的最優(yōu)特征組合。以Expansion為例,使用單個(gè)特征First-Last,F(xiàn)irst3,系統(tǒng)獲得了最好的F1性能66.87%,但使用全部五類特征,系統(tǒng)的F1值僅為60.84%,可以推斷該關(guān)系的最優(yōu)特征組合并不是全部的五類特征。

前向特征選擇實(shí)驗(yàn)

在開發(fā)集(00-01)上借助前向特征選擇算法進(jìn)行最優(yōu)特征子集的選定,然后使用選定的最優(yōu)特征子集在測(cè)試集上進(jìn)行測(cè)試,我們得到了如表5所示的結(jié)果。

表5 最優(yōu)特征子集下的各二元分類任務(wù)的性能

表5的第二列給出了開發(fā)集上為各二元分類任務(wù)選定的最優(yōu)特征組合??梢钥吹?,每類篇章關(guān)系所選定的最優(yōu)特征子集是不一樣的。使用所有五類特征,Comparison關(guān)系的識(shí)別獲得最佳性能;而1&4&5特征的組合,即Verbs特征、First-Last,F(xiàn)irst3特征和Product特征的組合,Contingency類別的識(shí)別獲得了最佳性能;Expansion關(guān)系在Modality特征和First-Last,F(xiàn)irst3特征的組合下可以得到最好的F1值;而對(duì)Temporal關(guān)系而言,最優(yōu)特征組合是Modality和Product特征。

選定最優(yōu)特征組合后,借助最優(yōu)特征子集,我們重新對(duì)測(cè)試集進(jìn)行了評(píng)測(cè),表5中的第3~6列分別給出了系統(tǒng)的Precision、Recall、F1值和Accuracy。對(duì)比表4我們可以發(fā)現(xiàn),四類關(guān)系的識(shí)別性能均有所提升,特別是Comparison類型的關(guān)系識(shí)別,提升最為明顯。

與state-of-the-art系統(tǒng)的比較

我們的實(shí)驗(yàn)數(shù)據(jù)的劃分與Zhou等人[13]的研究一致,表6給出了兩個(gè)系統(tǒng)結(jié)果的比較。從比較結(jié)果來看,在Comparison和Contingency關(guān)系上我們的識(shí)別性能顯著優(yōu)于Zhou等人的系統(tǒng),在Temporal關(guān)系上我們?nèi)〉昧伺c之可比較的性能,而在Expansion關(guān)系的識(shí)別上,我們系統(tǒng)的性能低于Zhou等人的性能,F(xiàn)1值相差約3%。對(duì)于這一結(jié)果,我們分析了各自方法上的差異。

1) 在每個(gè)二元分類任務(wù)中,借助多分類器融合技術(shù), 我們使用了全部的標(biāo)注數(shù)據(jù)構(gòu)建多個(gè)分類器

進(jìn)行決策,而Zhou等人[13]的系統(tǒng)采用欠采樣負(fù)樣本的方式隨機(jī)選擇了部分?jǐn)?shù)據(jù)構(gòu)建二元分類器進(jìn)行實(shí)驗(yàn),其結(jié)果具有一定的隨機(jī)性。

2) 我們通過特征選擇算法使用開發(fā)集確定了最優(yōu)的特征組合,而Zhou等人[13]的結(jié)果僅使用單個(gè)特征。Zhou等人[13]的最優(yōu)結(jié)果是應(yīng)用了語言模型特征輔助得到的,在沒有語言模型的情況下,Expansion關(guān)系的識(shí)別F1值僅有65.95%,略低于我們的最優(yōu)結(jié)果。

3) 前向特征算法在Temporal關(guān)系上陷入了局部最優(yōu)解,實(shí)驗(yàn)表明使用全部的五類特征,系統(tǒng)F1可達(dá)到20.42%(表4)。

表6 與Zhou等人[13]系統(tǒng)進(jìn)行比較結(jié)果

隱式關(guān)系識(shí)別性能實(shí)驗(yàn)

構(gòu)建生成四個(gè)二元分類器后,我們采用類似于LibSVM的策略,選取四個(gè)分類器中概率最大的語義類別最為最終的結(jié)果。表7給出了基于四個(gè)二元分類器融合的隱式關(guān)系識(shí)別的性能(括號(hào)中列出了第4.3節(jié)中表2給出的基準(zhǔn)系統(tǒng)的對(duì)應(yīng)結(jié)果)。

表7 一對(duì)多策略的四路識(shí)別性能

分析表7的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):

1) 通過一對(duì)多策略,除Expansion關(guān)系外,其他關(guān)系的識(shí)別性能都有所提升,尤其是樣本數(shù)目最少的Temporal關(guān)系的識(shí)別,其F1值提升了約13%。相對(duì)而言,Expansion關(guān)系的性能下降了,這主要是由于系統(tǒng)召回率大幅降低。

2) 雖然除Expansion關(guān)系外,每類關(guān)系識(shí)別的性能都有所提升,但隱式篇章分析的整體正確率目前僅有37.30%,還不能有效地應(yīng)用到其他自然語言處理任務(wù)中。

6 總結(jié)

使用傳統(tǒng)的詞法、句法、語義和上下文信息,首先構(gòu)建了多元分類的隱式篇章關(guān)系識(shí)別基準(zhǔn)系統(tǒng);通過對(duì)實(shí)驗(yàn)結(jié)果和語料中關(guān)系分布不均衡問題的分析提出了借助多分類器融合技術(shù)和特征選擇算法進(jìn)行系統(tǒng)優(yōu)化的解決方案。PDTB語料上的實(shí)驗(yàn)結(jié)果表明,提出的解決方案方案能有效地提升隱式篇章關(guān)系識(shí)別的性能。目前隱式篇章關(guān)系識(shí)別的總體正確率仍然偏低,還不能很好地服務(wù)于其他自然語言處理任務(wù),在未來的工作中,我們將嘗試借助大規(guī)模的未標(biāo)注數(shù)據(jù)來輔助隱式篇章關(guān)系的識(shí)別。

[1] Lin Z, Liu C, Ng H T, et al. Combining coherence models and machine translation evaluation metrics for summarization evaluation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. 2012:1006-1014.

[2] Meyer T, Webber B. Implication of discourse connectives in (machine) translation[C]//Proceedings of the Workshop on Discourse in Machine Translation. 2014:19-26.

[3] Ng J P, Kan M Y, Lin Z, et al. Exploiting discourse analysis for article-wide temporal classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013:12-23.

[4] PDTB-Group. The Penn Discourse Treebank 2.0 Annotation Manual[OL]. The PDTB Research Group. 2007.

[5] Rashmi Prasad, Nikhil Dinesh, Alan Lee,et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation. 2008.

[6] Bonnie Webber. D-LTAG: Extending lexicalized TAG to discourse[M]. Cognitive Science, 2004, 28(5):751-779.

[7] Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz. Building a Large Annotated Corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993, 19(2):313-330.

[8] Marcu D, Echihabi A. An unsupervised approach to recognizing discourserelations[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics. 2002:368-375.

[9] Saito M, Yamamoto K, Sekine S. Using phrasal patterns to identify discourse relations[C]//Proceedings of the Human Language Technology Conference of the NAACL. 2006:133-136.

[10] Pitler E, Louis A, Nenkova A. Automatic sense prediction for implicit dis- course relations in text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009:683-691.

[11] Lin Z, Kan M Y, Ng H T. Recognizing implicit discourse relations in the Penn Discourse Treebank[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009:343-351.

[12] Park J, Cardie C. Improving implicit discourse relation recognition through feature set optimization[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue. 2012: 108-112.

[13] Zhou Z M, Xu Y, Niu Z Y, Lan M, et al. Predicting discourse connectives for implicit discourse relation recognition[C]//Proceedings of the Coling 2010: Posters. 2010: 1507-1514.

[14] Biran O, McKeown K. Aggregated word pair features for implicit discourse relation disambiguation[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013:69-73.

[15] Lan M, Xu Y, Niu Z. Leveraging synthetic discourse data via multi-task learning for implicit discourse relation recognition[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2003:476-485.

[16] 周小佩,洪宇,車婷婷等. 一種無指導(dǎo)的隱式篇章關(guān)系推理方法研究[J]. 中文信息學(xué)報(bào), 2013,27(02):17-25.

[17] B L. English Verb Classes and Alternations: A Preliminary Investigation[M]. Chicago, IL, 1993.

[18] Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. 2005:347-354.

[19] Stone P J, Dunphy D C, Smith M S. The General Inquirer: A Computer Approach to Content Analysis[M]. MIT Press, 1996.

[20] Chih-Chung Chang, Chih-Jen Lin. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011:1-27.

[21] John G H, Kohavi R, Pfleger K. Irrelevant features and the subset selection problem[C]//Proceedings of the Machine Learning: Proceedings of the Eleventh International. 1994:121-129.

Recognizing PDTB Style Implicit Discourse Relations

LI Sheng, KONG Fang, ZHOU Guodong

(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

Recognizing implicit discourse relation is a challenging task in discourse parsing. In this paper, we propose an implicit discourse relation recognizing method in the Penn Discourse Treebank (PDTB) considering some traditional features (e.g., verbs, polarity, production rules, and so on), and provide a systematic analysis for our implicit discourse relation method. We apply all labeled data to build multiple classifiers, and use the adding rule to identify final classification result for each instance. We also use forward feature selection method to select an optimal feature subset for each classification task. Experimental results in the PDTB corpus show that our proposed method can significantly improve the state-of-the-art performance of recognizing implicit discourse relation.

discourse processing; implicit discourse relation; PDTB

李生(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,篇章分析。E-mail:shengli.ls@aliyun.com孔芳(1977—),博士,副教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),自然語言處理,篇章分析。E-mail:kongfang@suda.edu.cn周國棟(1967—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,篇章理解。E-mail:gdzhou@suda.edu.cn

1003-0077(2016)04-0081-09

2014-05-05 定稿日期: 2015-03-09

國家自然科學(xué)基金(61472264,61273320,61333018,61331011);國家863項(xiàng)目(2012AA011102)

TP391

A

猜你喜歡
特征選擇語料分類器
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
聯(lián)合互信息水下目標(biāo)特征選擇算法
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
清水河县| 丹棱县| 沛县| 恩施市| 舞阳县| 朔州市| 阳城县| 紫阳县| 卢氏县| 龙胜| 吉安市| 万山特区| 洮南市| 沂南县| 华亭县| 崇明县| 合肥市| 金门县| 宁阳县| 弋阳县| 金湖县| 呼伦贝尔市| 偃师市| 通榆县| 蒙自县| 正镶白旗| 涿鹿县| 柳江县| 杭锦后旗| 西宁市| 三亚市| 祁门县| 甘德县| 富蕴县| 札达县| 漳州市| 蓬安县| 湘西| 阿图什市| 苗栗市| 临清市|