基于依存樹距離識別論元的語義角色標(biāo)注系統(tǒng)

2012-06-29 01:55穗志方

中文信息學(xué)報 2012年2期

王鑫，穗志方

(北京大學(xué) 計(jì)算語言學(xué)研究所，北京 100871)

1 引言

語義角色標(biāo)注是淺層語義分析的一種重要手段，基于依存的語義角色標(biāo)注將依存關(guān)系作為基本標(biāo)注單元，對依存關(guān)系識別出的中心詞進(jìn)行語義角色標(biāo)注。論元識別和論元分類是標(biāo)注過程中需要解決的主要問題，而且都可以通過兩類方法得以實(shí)現(xiàn)，基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法和基于規(guī)則的方法。

在基于依存的語義角色標(biāo)注研究中，現(xiàn)階段主要的論元識別方法都是基于機(jī)器學(xué)習(xí)的。本文通過對依存樹中論元節(jié)點(diǎn)的特征分析，發(fā)現(xiàn)大于98%的論元節(jié)點(diǎn)到目標(biāo)動詞的依存樹路徑長度不超過3，這說明論元集中分布于依存樹上的一個局部范圍內(nèi)。充分利用這一特點(diǎn)，本文參考趙海等[1]的剪枝算法，提出一種基于依存樹距離的論元識別方法，通過制訂規(guī)則，提取依存樹中由動詞的兒子、父親、兄弟、第一祖父以及父親的兄弟節(jié)點(diǎn)構(gòu)成的候選論元集。在此識別方法基礎(chǔ)上，本文采用機(jī)器學(xué)習(xí)的方法進(jìn)行論元分類，綜合原句的特征以及由識別所得候選論元構(gòu)成的骨干句的特征，為候選論元標(biāo)注相應(yīng)的角色。在CoNLL2009中文語料上，以正確的依存樹為輸入，系統(tǒng)的F值達(dá)到89.46%，與前人的方法81.68%(王步康等[2])相比有很大改善。

2 相關(guān)研究

語義角色標(biāo)注通常分為四個步驟，剪枝、識別、分類、后處理，而前三個步驟都是在完成廣義分類任務(wù)，因?yàn)榧糁妥R別本質(zhì)都是區(qū)分候選對象是否會是論元。這種廣義分類任務(wù)可以通過基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法來實(shí)現(xiàn)，不同系統(tǒng)的實(shí)現(xiàn)方法不同。

(1) 全過程不使用規(guī)則，完全使用基于機(jī)器學(xué)習(xí)的方法。Pradhan等[3]基于短語結(jié)構(gòu)句法樹使用SVM分類器(Kudo and Matsumoto[4-5])進(jìn)行論元識別和分類。Johansson等[6]在語義依存分析任務(wù)中使用基于線性邏輯回歸模型的LIBLINEAR分類器(Lin，et al[7])完成角色識別和分類。

(2) 剪枝階段使用規(guī)則，后續(xù)階段使用機(jī)器學(xué)習(xí)方法。Xue等[8]基于短語結(jié)構(gòu)樹使用啟發(fā)式規(guī)則完成剪枝，使用最大熵分類器進(jìn)行角色識別和分類。王步康等[2]也提出一種剪枝算法，即在依存樹中，保留與謂詞具有一定關(guān)系的節(jié)點(diǎn)，如父親、兒子、孫子等，其他節(jié)點(diǎn)都被過濾掉，之后再用機(jī)器學(xué)習(xí)方法進(jìn)行角色識別和分類。

(3) 將剪枝和識別合為一步，并用基于規(guī)則的方法完成，只在分類階段使用機(jī)器學(xué)習(xí)技術(shù)。丁金濤等[9]使用規(guī)則，在CoNLL2005共享任務(wù)的WSJ測試集上，基于自動句法分析識別出了 97.17% 的論元，在此基礎(chǔ)上角色標(biāo)注系統(tǒng)的F值達(dá)到了77.84%，在基于單一句法分析的角色標(biāo)注系統(tǒng)中處于領(lǐng)先位置。

基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法各有特點(diǎn)，基于機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)是需要的人工干預(yù)少，對研究者語言學(xué)背景要求少，但此方法的缺點(diǎn)在于對訓(xùn)練語料的依賴性強(qiáng)，易出現(xiàn)數(shù)據(jù)稀疏問題；對訓(xùn)練語料中未出現(xiàn)的實(shí)例，分類效果較差；系統(tǒng)時間效率較低等問題。

基于規(guī)則的方法在某種程度與基于機(jī)器學(xué)習(xí)的方法有著互補(bǔ)的關(guān)系，此方法中研究者可以根據(jù)豐富的語言學(xué)知識對規(guī)則進(jìn)行細(xì)化，利于處理分類中的細(xì)節(jié)問題，在一定程度上緩解了數(shù)據(jù)稀疏問題。此外，由于不必需要大規(guī)模語料庫支持也不必進(jìn)行模型訓(xùn)練，其在時間性能方面也表現(xiàn)出了較強(qiáng)優(yōu)勢。然而，由于規(guī)則需要人工制定，如果待區(qū)分的類別較多，并且某些待區(qū)分對象間相似度較高，就極大增加了制定規(guī)則的難度以及規(guī)則本身的復(fù)雜度，因此在一定意義上，相比于多分類問題，其處理二分類問題時優(yōu)勢更為顯著。

因此，如果可以找到規(guī)則與機(jī)器學(xué)習(xí)運(yùn)用范圍的最佳組合，就可以將兩者優(yōu)勢相結(jié)合，充分發(fā)揮規(guī)則和統(tǒng)計(jì)各自的特點(diǎn)，取得良好的標(biāo)注效果。對語義角色標(biāo)注任務(wù)來說，剪枝與識別本質(zhì)是二分類問題，在這兩個階段運(yùn)用規(guī)則方法既可以充分發(fā)揮規(guī)則在時間性能上的優(yōu)勢，又不會因?yàn)樾枰獏^(qū)分的類別過多而使規(guī)則過于復(fù)雜。而對于論元分類，由于論元類別較多，機(jī)器學(xué)習(xí)方法則更具優(yōu)勢。因此，本文將規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合，構(gòu)建出了一個性能良好的角色標(biāo)注系統(tǒng)。

3 基于依存樹距離的論元識別

3.1 依存樹距離對語義角色的影響分析

在現(xiàn)代依存語法理論(又稱從屬關(guān)系語法，配價語法)中，周國光[10]對依存語法進(jìn)行了定義,“依存語法是一種結(jié)構(gòu)語法，主要研究以謂詞為中心而構(gòu)句時由深層語義結(jié)構(gòu)映現(xiàn)為表層句法結(jié)構(gòu)的狀況及條件，謂詞與體詞之間的同現(xiàn)關(guān)系，并據(jù)此劃分謂詞的詞類”。因此，基于依存理論所構(gòu)建的依存樹，在表達(dá)詞語間依賴關(guān)系的同時，強(qiáng)調(diào)動詞在句子中的重要作用。從這個角度講，在圍繞動詞展開的角色標(biāo)注任務(wù)中，依存樹相比短語結(jié)構(gòu)樹而言，具有明顯的優(yōu)勢。在某種意義上，依存樹上的某些特征可以直接決定詞語間語義上支配關(guān)系的遠(yuǎn)近。例如，詞語與目標(biāo)動詞的距離特征直接決定著這個詞語是否會與動詞有語義上的依賴關(guān)系，即是否會成為謂詞的論元，距離特征在依存樹中的作用要大于其在短語結(jié)構(gòu)樹中的作用，主要原因有以下兩方面。

1) 依存樹中節(jié)點(diǎn)數(shù)量比短語結(jié)構(gòu)樹少(張育等[11])，依存樹中節(jié)點(diǎn)都是句子中的詞語，而短語結(jié)構(gòu)樹中除了詞語節(jié)點(diǎn)外，還有句法成分節(jié)點(diǎn)，因此詞語之間的距離包含了這些句法成分，距離特征對于詞語間關(guān)系遠(yuǎn)近的決定作用會因此受到影響。依存樹則不會存在此類問題；

2) 依存樹偏重于一種關(guān)系結(jié)構(gòu)，是語義層面的表示，節(jié)點(diǎn)間距離是他們語義關(guān)系遠(yuǎn)近的一種形式表現(xiàn)。短語結(jié)構(gòu)樹主要體現(xiàn)的是句子的句法層次結(jié)構(gòu)，節(jié)點(diǎn)間距離基于句法關(guān)系，對語義的指示程度相對較低。

綜合以上發(fā)現(xiàn)，本文提出了基于依存樹距離規(guī)則的論元識別方法，充分利用依存樹本身的特點(diǎn)進(jìn)行語義角色標(biāo)注。

3.2 基于依存樹的剪枝方法

在基于依存的語義角色標(biāo)注研究中，趙海等[1]提出一種剪枝規(guī)則：構(gòu)建集合S,由依存樹中目標(biāo)動詞到根節(jié)點(diǎn)上的節(jié)點(diǎn)組成(包括目標(biāo)動詞和根節(jié)點(diǎn))。集合S中的元素以及依賴于集合中元素的節(jié)點(diǎn)就會被保留下來進(jìn)入識別階段。為了方便說明，本文稱S中的節(jié)點(diǎn)為“主節(jié)點(diǎn)”。在趙海等[1]中，以上規(guī)則只覆蓋剪枝過程，此后，系統(tǒng)還將依賴機(jī)器學(xué)習(xí)方法進(jìn)行論元識別和分類。規(guī)則方法能否進(jìn)一步放大范圍來完成角色標(biāo)注中的論元識別這一主要任務(wù)？

本文基線實(shí)驗(yàn)將趙海等[1]的剪枝算法直接用作論元識別的規(guī)則，結(jié)果表明，此方法的召回率較高(R=99.3%)，但是準(zhǔn)確率很低(P=24.6%),這是因?yàn)楸Ａ袅溯^多的非論元成分，保留的非論元數(shù)量是實(shí)際論元數(shù)量的三倍。因此，為提高論元識別的準(zhǔn)確率，需要對此基線方法進(jìn)行修改。

3.3 基于依存樹距離的論元識別方法

在基線實(shí)驗(yàn)基礎(chǔ)上，本文對經(jīng)過識別階段被標(biāo)注為候選論元的詞語特征進(jìn)行了分析。表1統(tǒng)計(jì)了不同路徑長度對應(yīng)的真正論元數(shù)目，從中發(fā)現(xiàn)，真正的論元在與目標(biāo)動詞的距離特征上表現(xiàn)出了明顯的聚集性：訓(xùn)練集的真實(shí)論元總計(jì)17 547個，其中只有1個論元與目標(biāo)動詞的距離大于6，而當(dāng)距離大于4時，論元的數(shù)目也急劇減少，這有力說明了依存樹在表達(dá)句子語義方面的優(yōu)勢：依存樹結(jié)構(gòu)使句中核心詞語間的距離變短，依存樹上的論元分布的局部性更加明顯。如圖1所示，設(shè)目標(biāo)動詞是“鼓勵”，真正的論元是“中國”、“企業(yè)家”和“投資”。在短語結(jié)構(gòu)樹中“鼓勵”和三個論元的距離都是3，而且三個論元在樹中分布的位置的局部性不明顯。而在依存樹中，目標(biāo)動詞與三個論元的距離都是1，而且在樹狀結(jié)構(gòu)中三個論元都處于動詞的下一層，表現(xiàn)出了極好的局部性特征。從表1中我們受到啟發(fā)，利用詞語與目標(biāo)動詞的距離特征，將距離限定在一定的閾值之內(nèi)，滿足閾值條件下的詞語才可以被選為候選論元進(jìn)入分類階段，就可以有效地減少非論元被識別為論元的數(shù)量，提高識別階段的準(zhǔn)確率。

表1 訓(xùn)練集中不同路徑長度下對應(yīng)的真正的論元數(shù)目

圖1 短語結(jié)構(gòu)句法樹與依存句法樹的比較

基于以上分析，本文提出了基于依存樹距離的論元識別方法：提取從目標(biāo)動詞到根節(jié)點(diǎn)路徑中與目標(biāo)動詞距離不大于L的節(jié)點(diǎn)構(gòu)成集合S，集合S中的節(jié)點(diǎn)以及依賴于S中節(jié)點(diǎn)的節(jié)點(diǎn)構(gòu)成候選論元。在此條件下，候選論元與目標(biāo)動詞的最長距離被限制為L+1。本文分別設(shè)置L=3、2、1進(jìn)行實(shí)驗(yàn)，結(jié)果表明當(dāng)L=2時，系統(tǒng)性能達(dá)到最優(yōu)，此條件下，被識別為候選論元的節(jié)點(diǎn)包括動詞的兒子、父親、兄弟、第一祖先和父親的兄弟。

4 基于機(jī)器學(xué)習(xí)的論元分類

在論元分類階段，由于候選論元的角色與其上下文有較為密切的關(guān)系，因此本文采用序列標(biāo)注模型，以識別所得的候選論元為基本標(biāo)注單元，選擇了現(xiàn)階段大多數(shù)角色標(biāo)注系統(tǒng)所廣泛使用的特征。表2 列舉了論元分類階段的特征集合。由于論元識別階段刪除了大量的非論元成分，被標(biāo)注為候選論元的詞語會構(gòu)成一個新的句子(本文稱之為“骨干句”)。對于候選論元來說，其在骨干句中的語境與其在原句中語境有很大不同，因此對于和語境相關(guān)的特征，如表2中基于詞語上下文的特征以及基于當(dāng)前詞語與目標(biāo)動詞之間關(guān)系的特征，我們從原句以及識別后的“骨干句”中分別提取了相應(yīng)的特征。

表2 論元分類階段的特征集

5 后處理

為了解決一個句子中出現(xiàn)多個相同核心論元的問題，本文提出了基于距離的后處理方法。從3.3的觀察中可以得出結(jié)論，絕大多數(shù)論元被限制在以目標(biāo)動詞為中心的一定范圍內(nèi)，從某種意義上講，與目標(biāo)動詞距離近的節(jié)點(diǎn)，有更高的概率成為論元。因此，如果多個候選論元被同時標(biāo)注為核心角色Ai，則可以首先比較這些節(jié)點(diǎn)在依存樹上與目標(biāo)動詞的距離，距離近的候選論元優(yōu)先獲得此角色，其他候選論元則標(biāo)注為空。如果基于依存樹的路徑長度相同，則可以比較候選論元與目標(biāo)動詞在原句中的直線距離，較近的一個被標(biāo)注為核心論元。

6 數(shù)據(jù)與實(shí)驗(yàn)結(jié)果分析

本文選用CoNLL 2009 Closed Challenge提供的中文訓(xùn)練集語料進(jìn)行模型訓(xùn)練，使用開發(fā)集進(jìn)行系統(tǒng)測試。系統(tǒng)基于正確的依存樹進(jìn)行實(shí)驗(yàn)，在角色分類階段，選用了隨機(jī)梯度CRF軟件包*http://leon.bottou.org/projects/sgd，借助此工具本文較快獲得了分類時的最優(yōu)特征集，并取得了較好的角色標(biāo)注結(jié)果。

6.1 基線識別方法

本文將趙海等[1]中的剪枝規(guī)則放大作用范圍來完成論元識別任務(wù)，如表3所示，識別階段召回率較高(R=99.3%)，但準(zhǔn)確率很低(P=24.6%)。因此增強(qiáng)對候選論元的約束，減少被錯誤識別為候選論元的詞語數(shù)是十分必要的。表4對比了基線識別方法基礎(chǔ)上的角色標(biāo)注與王步康等[2]的角色標(biāo)注結(jié)果。兩個實(shí)驗(yàn)采用了相同的數(shù)據(jù)集和系統(tǒng)輸入，結(jié)果表明，本文基線角色標(biāo)注結(jié)果在F值上相比王步康等[2]已經(jīng)取得了大幅提高(7.3%)。

表3 基線識別方法的識別結(jié)果

表4 基線識別方法基礎(chǔ)上的角色標(biāo)注結(jié)果與前人工作的對比

6.2 基于依存樹距離的論元識別方法

表5表示了基于依存樹距離的識別方法中距離對于角色標(biāo)注系統(tǒng)的影響，其中L采用了3.3節(jié)中的定義，即集合S中的主節(jié)點(diǎn)與目標(biāo)動詞的距離不超過L，結(jié)果表明，L=2時系統(tǒng)性能達(dá)到最優(yōu)，這說明利用依存樹上節(jié)點(diǎn)與目標(biāo)動詞的距離特征來對主節(jié)點(diǎn)進(jìn)行約束，進(jìn)而限制候選論元到目標(biāo)動詞的距離對于取得良好的角色標(biāo)注性能有著重要意義。表6 表示了L=2條件下識別階段的結(jié)果，召回率為98.3%，相比基線實(shí)驗(yàn)，進(jìn)入分類階段的候選論元數(shù)減少了38 345(占基線條件下候選論元總數(shù)的35.76%)，有力證明了依存樹距離特征對于篩選候選論元的積極意義。

表5 基于依存樹距離的識別方法中距離L對于角色標(biāo)注系統(tǒng)的影響

表6 基于依存樹距離的識別方法中L=2條件下的識別結(jié)果

6.3 后處理

表7列出了測試集上同一語義角色在一個句子中出現(xiàn)多次的數(shù)量分布情況。從中可以發(fā)現(xiàn)，后處理之前核心論元的重復(fù)出現(xiàn)次數(shù)總計(jì)332，經(jīng)過后處理，消除了核心論元重復(fù)出現(xiàn)的情況。表8是采用基于依存樹距離的識別方法并設(shè)置L=2時，后處理前后系統(tǒng)的性能對比，F(xiàn)值提高了0.1%，證明了后處理方法的有效性。

表7 重復(fù)出現(xiàn)的語義角色數(shù)量統(tǒng)計(jì)

表8 后處理前后的語義角色標(biāo)注性能比較

7 總結(jié)

本文提出了一種基于依存樹距離的論元識別方法，由于依存樹結(jié)構(gòu)有利于縮短論元與目標(biāo)動詞的距離，使論元分布的局部性更顯著，本文充分利用此種局部性特征，制訂規(guī)則將距離特征作為判定候選論元的重要條件，實(shí)現(xiàn)了基于規(guī)則的論元識別。結(jié)合基于機(jī)器學(xué)習(xí)的論元分類，基于正確的依存句法分析結(jié)果，本文角色標(biāo)注系統(tǒng)F值達(dá)到89.46%，相比前人工作取得了較大改進(jìn)。

[1] Hai Zhao, Chunyu Kit. Parsing syntactic and semantic dependencies with two single-stage maximum entropy models[C]//Proceedings of the 12th CoNLL-2008, Manchester, August 2008: 203-207.

[2] 王步康,王紅玲,袁曉虹,等.基于依存句法分析的中文語義角色標(biāo)注[J].中文信息學(xué)報,2010,24(1): 25-29,47.

[3] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, et a1. Shallow Semantic Parsing Using Support Vector Machines[C]//Proceedings of NAACL-HLT 04.2004.

[4] Taku Kudo，Yuji Matsumoto. Use of support vector learning for chunk identification [C]//Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000:142-144.

[5] Taku Kudo, Yuji Matsumoto. Chunking with support vector machines[C]//Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2001).

[6] Richard Johansson, Pierre Nugues. Dependency-based syntactic semantic analysis with PropBank and NomBank[C]//Proceedings of the 12th CoNLL-2008, Manchester, August 2008: 183-187.

[7] Chih-Jen Lin, Ruby C.Weng, S. Sathiya Keerthi. Trust region Newton method for large-scale logistic regression[C]//Proceedings of the 24 th International Conference on Machine Learning, Corvallis, OR, 2007.

[8] Nianwen Xue, Palmer M. Calibrating features for semantic role labeling[C]//Proceedings of EMNLP, Barcelona, Spain, 2004: 88-94.

[9] 丁金濤,周國棟,王紅玲,等.語義角色標(biāo)注中有效的識別論元算法研究[J].計(jì)算機(jī)工程與應(yīng)用, 2008, 44(18), 153-156.

[10] 周國光. 漢語配價語法論略[J].南京師范大學(xué)學(xué)報:社科版,1994(4):103-106,121.

[11] 張育,王紅玲,周國棟.基于兩種句法分析的語義角色標(biāo)注比較研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2010, 27(8)： 565-573.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡