張牧宇,黎耀炳,秦 兵,劉 挺
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院信息檢索研究中心,黑龍江 哈爾濱 150001)
現(xiàn)實(shí)世界中同一個(gè)事物經(jīng)常會(huì)有不同的名稱(chēng)以及描述,我們稱(chēng)這些名稱(chēng)以及描述稱(chēng)為“表述”(Mention),稱(chēng)這些表述所對(duì)應(yīng)的事物為“實(shí)體”(Entity)。所謂的共指消解(Co-reference Resolution),就是根據(jù)一篇文檔中各個(gè)表述的內(nèi)容以及上下文信息將這些表述對(duì)應(yīng)到具體實(shí)體的過(guò)程[1-2]。實(shí)質(zhì)上,共指消解是一個(gè)對(duì)所有表述進(jìn)行等價(jià)類(lèi)劃分的過(guò)程,它可以使隱藏在陳述中的等價(jià)關(guān)系變得清晰,這對(duì)于信息抽取、信息檢索、機(jī)器翻譯等上層應(yīng)用的進(jìn)一步發(fā)展是非常有幫助的。
近20年來(lái),共指消解研究受到了特別關(guān)注,大多數(shù)計(jì)算模型和實(shí)現(xiàn)技術(shù)都是這一時(shí)期出現(xiàn)的。隨著MUC、ACE、ARE等共指消解相關(guān)國(guó)際評(píng)測(cè)相繼開(kāi)展,共指消解得到快速的發(fā)展。
對(duì)共指消解的研究,無(wú)論是早期基于語(yǔ)言學(xué)規(guī)則的方法,還是近些年來(lái)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究體系[3-4],都離不開(kāi)對(duì)高質(zhì)量特征信息的依賴(lài)。但當(dāng)前NLP底層預(yù)處理效果不盡如人意,隨著添加特征的增多,因前期預(yù)處理錯(cuò)誤而產(chǎn)生的特征抽取錯(cuò)誤也會(huì)增多。一些研究者通過(guò)特征篩選解決此問(wèn)題,但這僅限于去除一些準(zhǔn)確率較低的特征,仍不能去除那些預(yù)處理階段已經(jīng)產(chǎn)生的錯(cuò)誤對(duì)訓(xùn)練數(shù)據(jù)的污染。
針對(duì)這些問(wèn)題,本文提出基于中心語(yǔ)匹配的共指消解新方法,用于在消解過(guò)程中消除預(yù)處理過(guò)程中產(chǎn)生的部分錯(cuò)誤,并捕獲一些語(yǔ)義互斥的搭配信息,在使用相同信息的情況下,得到優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法的共指消解效果。本文的第2節(jié)介紹共指消解的相關(guān)研究工作,第3節(jié)具體介紹一種簡(jiǎn)單、有效的基于平面特征的實(shí)例匹配算法用于共指消解,第4節(jié)提出一種“競(jìng)爭(zhēng)模式”將中心語(yǔ)特征融入到實(shí)例匹配算法當(dāng)中,第5節(jié)介紹實(shí)驗(yàn)設(shè)置以及實(shí)驗(yàn)結(jié)果與分析,第6節(jié)給出結(jié)論。
共指消解的早期階段,以基于語(yǔ)言學(xué)方法的研究思路為主,代表方法是Hobbs算法[8]以及中心理論[9]。他們大多使用了大量的語(yǔ)言學(xué)規(guī)則,而規(guī)則的有效性決定于規(guī)則的表達(dá)能力和可滿足性。具體地說(shuō),規(guī)則前提的可滿足性與NLP預(yù)處理效果密切相關(guān)。但即使是目前的研究水平,NLP底層預(yù)處理仍有諸多不如人意的地方。這迫使上世紀(jì)末,研究者開(kāi)始轉(zhuǎn)向各種魯棒性更強(qiáng)的基于向量相似度計(jì)算的聚類(lèi)方法以及基于二元對(duì)的機(jī)器學(xué)習(xí)分類(lèi)方法。
基于二元對(duì)的機(jī)器學(xué)習(xí)分類(lèi)方法,將共指消解這樣一個(gè)等價(jià)類(lèi)劃分問(wèn)題轉(zhuǎn)化為任意兩個(gè)表述是否存在共指關(guān)系的問(wèn)題。在這種典型的二元分類(lèi)框架[2]下,存在共指關(guān)系的兩個(gè)表述中,靠前的都稱(chēng)之為“先行語(yǔ)”,靠后的都稱(chēng)之為“照應(yīng)語(yǔ)”。
本世紀(jì)初以Soon等人為代表[3-4],在這種二元分類(lèi)框架下,采用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法研究共指消解問(wèn)題。這些方法采用一系列和共指現(xiàn)象相關(guān)的信息作為機(jī)器學(xué)習(xí)算法的特征信息,經(jīng)典的有如Soon等人于2001年總結(jié)提出的12個(gè)語(yǔ)義、詞匯特征[3]。隨后Ng等人[4]于2002年對(duì)Soon使用的12個(gè)特征進(jìn)行了擴(kuò)展,共使用了53個(gè)特征,涵蓋了語(yǔ)義詞匯等各個(gè)方面,取得了很好的共指消解效果。這一類(lèi)特征均取離散值或者連續(xù)數(shù)值,常稱(chēng)之為“平面特征”。
近幾年基于機(jī)器學(xué)習(xí)的研究方法開(kāi)始進(jìn)一步挖掘利用字符串匹配信息[5],將更多的結(jié)構(gòu)化特征[6]融合進(jìn)機(jī)器學(xué)習(xí)過(guò)程,甚至使用更多的背景語(yǔ)義知識(shí)作為特征信息[7]。有的研究者則嘗試使用分類(lèi)器組合策略[10]增強(qiáng)現(xiàn)有特征下的分類(lèi)器消解效果。
這些根據(jù)訓(xùn)練數(shù)據(jù)特征信息擬合分類(lèi)模型的機(jī)器學(xué)習(xí)方法,并沒(méi)有進(jìn)一步考慮預(yù)處理錯(cuò)誤對(duì)訓(xùn)練數(shù)據(jù)造成的污染。對(duì)這種級(jí)聯(lián)錯(cuò)誤的解決辦法,NLP領(lǐng)域目前較流行的解決辦法是使用統(tǒng)一的語(yǔ)言模型,但這需要對(duì)NLP各部分預(yù)處理都要較深入的了解,在共指消解這個(gè)子任務(wù)上尚未有成熟的解決方案。
本文針對(duì)以上問(wèn)題,提出基于中心語(yǔ)匹配的共指消解辦法,希望在共指消解的過(guò)程中消除預(yù)處理過(guò)程產(chǎn)生的部分錯(cuò)誤,并捕獲一些語(yǔ)義互斥的搭配信息,在實(shí)驗(yàn)驗(yàn)證中取得了較好的結(jié)果。
為了保證基于中心語(yǔ)匹配的共指消解效果,并且由于本文的研究重點(diǎn)不在于平面特征的豐富性,故本文采用了Soon等人總結(jié)提出的12個(gè)平面特征作為基礎(chǔ)特征集。
基于平面特征的實(shí)例匹配算法,其核心思想是從訓(xùn)練實(shí)例中尋找那些與測(cè)試實(shí)例最相似的實(shí)例,并根據(jù)相似實(shí)例的類(lèi)別分布給出測(cè)試實(shí)例屬于某個(gè)類(lèi)別的置信度。
本文將實(shí)例間的相似度定義為兩實(shí)例擁有相同特征取值的個(gè)數(shù)。在尋找那些與測(cè)試實(shí)例最相似的實(shí)例過(guò)程,我們希望有不少訓(xùn)練實(shí)例的特征取值與測(cè)試實(shí)例的特征取值完全一致,并且這些實(shí)例全為正例(或反例),此時(shí)便能以置信度1 將測(cè)試實(shí)例判定為正例(或反例)。但實(shí)際情況中常常出現(xiàn)兩類(lèi)偏差:
(1) 不存在特征取值與測(cè)試實(shí)例完全一致的訓(xùn)練實(shí)例。
對(duì)于這類(lèi)偏差,可稱(chēng)之為匹配失效,產(chǎn)生的原因有二: 其一,測(cè)試實(shí)例某個(gè)特征取值未曾在訓(xùn)練實(shí)例中出現(xiàn)過(guò);其二,測(cè)試實(shí)例的特征取值在不同的訓(xùn)練實(shí)例上出現(xiàn)過(guò),但沒(méi)有任何一個(gè)訓(xùn)練實(shí)例的特征取值與測(cè)試實(shí)例完全一致。總的說(shuō)來(lái),這是由于數(shù)據(jù)稀疏造成的。
(2) 特征取值與測(cè)試實(shí)例完全一致的訓(xùn)練實(shí)例的類(lèi)別分布過(guò)于均勻。
對(duì)于這類(lèi)偏差,一方面,在于現(xiàn)有特征的表現(xiàn)力不足,不足以有效區(qū)分兩種類(lèi)別;另一方面,在于訓(xùn)練數(shù)據(jù)受到污染,特征抽取不準(zhǔn)確。
由于以上兩類(lèi)偏差的存在,使用全部特征取值挑選與測(cè)試實(shí)例最相似的訓(xùn)練實(shí)例是不明智的,需要對(duì)完全匹配的要求進(jìn)行修改以適應(yīng)實(shí)際應(yīng)用。本文設(shè)計(jì)的基于平面特征的實(shí)例匹配算法,利用決策樹(shù)算法[11]中使用的“信息熵”(Information Entropy)作為選擇函數(shù),通過(guò)貪婪思想挑選與測(cè)試實(shí)例最相似的訓(xùn)練實(shí)例。
“信息熵”描述了一個(gè)帶類(lèi)別標(biāo)簽的樣本集中類(lèi)別分布的均勻程度,“信息熵”越大表明各類(lèi)別樣本的數(shù)量差別越小,從中隨機(jī)抽取一個(gè)樣本并成功將其判定為某一類(lèi)的概率越低。在樣本集S中只有兩類(lèi)情況下,若樣本集中類(lèi)別為“P”(Positive)和“N”(Negative),相應(yīng)的樣本數(shù)量分別為p與n,則“信息熵”具體表示如下:
(1)
可以證明,當(dāng)p=n時(shí),信息熵為1;而p=0或n=0時(shí),信息熵為0。
以下具體描述基于平面特征的實(shí)例匹配算法:
算法1基于平面特征的實(shí)例匹配算法
輸入: 抽取了平面特征的訓(xùn)練實(shí)例庫(kù)、待測(cè)試實(shí)例
輸出: 待測(cè)試實(shí)例的正例置信度
(1) 定義“特征取值對(duì)”為“<特征名,取值>”,測(cè)試實(shí)例i的所有“特征取值對(duì)”構(gòu)成未使用的特征取值列表L,所有訓(xùn)練實(shí)例構(gòu)成候選實(shí)例集D;
(2) 從L中選擇一個(gè)“特征取值對(duì)”e,使得實(shí)例集D中滿足該e要求的子集D′的信息熵I(D′)最小,并令D=D′,從L中刪除e;
(3) 若I(D)=0或L為空,返回訓(xùn)練實(shí)例子集D,及其中正例所占比例p/(p+n)作為測(cè)試實(shí)例i的正例置信度;否則返回步驟(2)。
可以看到以上基于平面特征的實(shí)例匹配算法將尋找匹配實(shí)例的過(guò)程,轉(zhuǎn)化為通過(guò)貪婪方式選取“特征取值對(duì)”并篩選訓(xùn)練實(shí)例的過(guò)程,最終算法返回了局部?jī)?yōu)化的匹配結(jié)果,并通過(guò)訓(xùn)練實(shí)例的類(lèi)別分布給出正例置信度。
該實(shí)例匹配算法設(shè)計(jì)思路簡(jiǎn)單,但如表2和表3 所示的實(shí)驗(yàn)結(jié)果所示,在簡(jiǎn)單平面特征集上取得了與傳統(tǒng)機(jī)器學(xué)習(xí)方法Maxent(最大熵)、J48(決策樹(shù))和SVM(支撐向量機(jī))相當(dāng)?shù)墓仓赶庑Ч?/p>
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)分析后發(fā)現(xiàn),上述算法1產(chǎn)生的錯(cuò)誤中,存在命名實(shí)體識(shí)別錯(cuò)誤和先行語(yǔ)與照應(yīng)語(yǔ)語(yǔ)義互斥兩類(lèi)現(xiàn)象:
(1) 命名實(shí)體識(shí)別錯(cuò)誤
對(duì)于同一領(lǐng)域的語(yǔ)料或者文本,常使用同一命名實(shí)體識(shí)別(NER)工具及名詞短語(yǔ)抽取工具從文本中抽取待消解的候選表述。但由于這些工具往往出現(xiàn)不同程度的識(shí)別錯(cuò)誤,而相同的識(shí)別錯(cuò)誤會(huì)反復(fù)發(fā)生在訓(xùn)練和測(cè)試階段。如我們?cè)趯?shí)驗(yàn)時(shí)曾發(fā)現(xiàn),現(xiàn)使用的NER工具及名詞短語(yǔ)抽取工具常將ACE2005英文語(yǔ)料上的“news”識(shí)別為候選先行語(yǔ)或照應(yīng)語(yǔ),但“news”單詞不在ACE語(yǔ)料考察的實(shí)體類(lèi)型范圍之內(nèi)。類(lèi)似的錯(cuò)誤還包括曾反復(fù)將“the game”、“tuesday night”等作為照應(yīng)語(yǔ)。
(2) 語(yǔ)義互斥的搭配
在ACE新聞?wù)Z料中,“We”與“them”分別是第一和第三人稱(chēng)代詞,而前者常指新聞報(bào)道員或評(píng)論員,絕大多數(shù)情況下兩個(gè)表述不應(yīng)該存在共指關(guān)系。當(dāng)這兩個(gè)表述在同一句子出現(xiàn),且明顯滿足單復(fù)數(shù)一致性,這導(dǎo)致在缺少更多背景知識(shí)的情況下,無(wú)法正確將其判定為反例,進(jìn)而做出錯(cuò)誤的決定。
事實(shí)上,這兩類(lèi)錯(cuò)誤信息可以通過(guò)后續(xù)融合中心語(yǔ)特征的實(shí)例匹配算法加以捕獲利用。
如上節(jié)所述,基于平面特征的實(shí)例匹配算法無(wú)法有效識(shí)別“命名實(shí)體訓(xùn)練錯(cuò)誤”和“語(yǔ)義互斥的搭配”兩類(lèi)錯(cuò)誤。通過(guò)增強(qiáng)命名實(shí)體與名詞短語(yǔ)抽取模塊可以減少第一類(lèi)錯(cuò)誤,但短期內(nèi)這類(lèi)錯(cuò)誤很難得到徹底解決;對(duì)于第二類(lèi)錯(cuò)誤,容易想到的解決辦法是從訓(xùn)練數(shù)據(jù)中挖掘這些語(yǔ)義互斥的搭配模板,但模板挖掘依賴(lài)于頻率計(jì)算,一些出現(xiàn)次數(shù)較少但語(yǔ)義上同樣明顯不相容的名詞短語(yǔ)對(duì)很難被充分挖掘。
實(shí)際上,通過(guò)實(shí)例匹配算法直接查找那些與測(cè)試實(shí)例擁有相同中心語(yǔ)的訓(xùn)練實(shí)例,則能根據(jù)這些訓(xùn)練實(shí)例的類(lèi)別分布做出正確的判斷,從而有效地解決這兩類(lèi)問(wèn)題。下面進(jìn)一步通過(guò)強(qiáng)制約束與協(xié)商約束兩種方式,將中心語(yǔ)約束信息融合進(jìn)實(shí)例匹配算法。
如上所述,通過(guò)中心語(yǔ)字符串的表面約束能正確識(shí)別出部分反例,而實(shí)際上融合中心語(yǔ)特征與平面特征還能增加一些隱含的匹配約束信息,這是實(shí)例匹配過(guò)程所需要的。有鑒于此,我們?cè)诖嗽黾觾蓚€(gè)中心語(yǔ)字符串特征,具體分別為“AntHead”(先行語(yǔ)的中心語(yǔ)字符串)和“AnaHead”(照應(yīng)語(yǔ)的中心語(yǔ)字符串) ,其直接以字符串的形式作為一個(gè)特征取值,具體內(nèi)容和長(zhǎng)度視情況而定,對(duì)長(zhǎng)度沒(méi)有限制。如上面的實(shí)例“
基于中心語(yǔ)強(qiáng)制約束的實(shí)例匹配算法如下:
算法2基于中心語(yǔ)強(qiáng)制約束的實(shí)例匹配算法
輸入: 抽取了平面特征和中心語(yǔ)特征的訓(xùn)練實(shí)例庫(kù)、待測(cè)試實(shí)例
輸出: 待測(cè)試實(shí)例的正例置信度
(1) 定義“特征取值對(duì)”為“<特征名,取值>”,測(cè)試實(shí)例i的所有“特征取值對(duì)”(不包括中心語(yǔ)特征)構(gòu)成未使用的特征取值列表L,所有訓(xùn)練實(shí)例構(gòu)成候選實(shí)例集D;
(2) 從D中選擇與測(cè)試實(shí)例在“AntHead”特征上取相同值的所有實(shí)例子集D′,如果D′為空集,直接跳到(4);否則,令D=D′;
(3) 從D中選擇與測(cè)試實(shí)例在“AnaHead”特征上取相同值的所有實(shí)例子集D′,如果D′為空集,直接跳到(4);否則,令D=D′;
(4) 從L中選擇一個(gè)“特征取值對(duì)”e,使得實(shí)例集D中滿足e要求的子集D′的信息熵I(D′)最小,并令D=D′,從L中刪除e;
(5) 若I(D)=0或L為空,返回訓(xùn)練實(shí)例子集D,及其中正例所占比例p/(p+n)作為測(cè)試實(shí)例i的正例置信度;否則返回步驟(4)。
與算法1相比區(qū)別在于,算法2首先利用“AntHead”和“AnaHead”對(duì)訓(xùn)練實(shí)例集進(jìn)行篩選,隨后再使用平面特征進(jìn)一步挑選實(shí)例。為了驗(yàn)證算法2的效果,我們?cè)谛?shù)據(jù)集(ACE2005英文BNews語(yǔ)料,16篇訓(xùn)練語(yǔ)料,10篇測(cè)試語(yǔ)料)上測(cè)試了的共指消解效果,具體結(jié)果見(jiàn)表1。
表1 小數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
如表1所示,“Basic”表示Soon等人提出的12個(gè)平面特征,“Basic+Head”表示12個(gè)特征再加上前面定義的“AntHead”、“AnaHead”兩個(gè)中心語(yǔ)特征??梢?jiàn),雖然增加了中心語(yǔ)特征,算法2在 MUC-6 評(píng)測(cè)標(biāo)準(zhǔn)的F值上比算法1低很多。顯然,這種組合使用平面特征與中心語(yǔ)特征的方式過(guò)于粗糙,下面我們將針對(duì)出現(xiàn)的一些問(wèn)題對(duì)其進(jìn)一步改進(jìn)。
4.2.1 強(qiáng)制約束的錯(cuò)誤分析
對(duì)算法2與算法1的結(jié)果進(jìn)行詳細(xì)對(duì)比后發(fā)現(xiàn): 雖然算法2能夠有效解決以上所述兩類(lèi)錯(cuò)誤,但由于算法2中步驟(2)、(3)硬性引入中心語(yǔ)過(guò)濾操作,反而使噪聲信息被放大。具體地說(shuō),算法2引入中心語(yǔ)過(guò)濾操作后,產(chǎn)生兩類(lèi)差異:
(1) 壞的差異: 原被算法1正確分類(lèi)的實(shí)例,現(xiàn)被算法2錯(cuò)誤分類(lèi)。
這主要是由于中心語(yǔ)約束過(guò)于嚴(yán)格,經(jīng)過(guò)中心語(yǔ)過(guò)濾后剩余的訓(xùn)練實(shí)例偏少,呈現(xiàn)嚴(yán)重的數(shù)據(jù)稀疏性。后續(xù)以信息熵為選擇函數(shù)通過(guò)貪婪方式選取“特征取值對(duì)”,會(huì)使過(guò)濾后剩余的實(shí)例變得更加少,并且此時(shí)類(lèi)別分布極不均勻。這相當(dāng)于只使用很少的平面特征便給出類(lèi)別判定,一旦這幾個(gè)實(shí)例的特征取值出現(xiàn)噪聲,便造成類(lèi)別判定出現(xiàn)截然相反的結(jié)果。
(2) 好的差異: 原被算法1錯(cuò)誤分類(lèi)的實(shí)例,現(xiàn)被算法2正確分類(lèi)。
這主要是由于算法2專(zhuān)注于解決上述兩類(lèi)錯(cuò)誤,并希望引入更多隱含的深層匹配約束信息所得到的收益,是我們所希望看到的。
4.2.2 競(jìng)爭(zhēng)模式
我們希望去除大部分“壞的差異”,保留“好的差異”。在一定的條件下我們使用算法2的結(jié)果,而在另外的情況下我們使用算法1的結(jié)果,以這種思想為基礎(chǔ),我們引入“競(jìng)爭(zhēng)模式”這種相對(duì)柔和的協(xié)商約束方式。
算法3競(jìng)爭(zhēng)模式
(1) 在Basic+Head特征集上利用算法2獲取與測(cè)試實(shí)例最匹配的訓(xùn)練實(shí)例子集D2;
(2) 在Basic特征集上利用算法1獲取與測(cè)試實(shí)例最匹配的訓(xùn)練實(shí)例子集D1;
(3) 計(jì)算訓(xùn)練實(shí)例子集D1與D2的“重要度”,ScoreIMP(D1)和ScoreIMP(D2);
(4) 如果ScoreIMP(D1) >ScoreIMP(D2),返回D1中正例所占比例作為測(cè)試實(shí)例的置信度;否則,返回D2中正例所占比例作為測(cè)試實(shí)例的置信度。
重要度計(jì)算公式:
(2)
其中: (1)nD為訓(xùn)練實(shí)例子集D中全部實(shí)例的數(shù)量;
(2)rD為訓(xùn)練實(shí)例子集D中正例所占比例。
注意到公式(2)中α為大于0的待定參數(shù),其值取決于訓(xùn)練數(shù)據(jù)的具體分布,在實(shí)驗(yàn)中采用交叉驗(yàn)證獲得其最優(yōu)值。從公式(2)可見(jiàn),當(dāng)D中實(shí)例數(shù)量越多,且正例所占比例越接近0或1時(shí)(此時(shí)類(lèi)別分布非常不均勻),評(píng)分越高。它是綜合考慮“信息量”(支撐結(jié)論的證據(jù)數(shù))和“類(lèi)別分布均勻度”的結(jié)果。
上述競(jìng)爭(zhēng)模式就是我們將中心語(yǔ)特征融合進(jìn)實(shí)例匹配算法的方式。實(shí)驗(yàn)表明,競(jìng)爭(zhēng)模式算法作用在“Basic+Head”特征集上,能有效去除絕大部分“壞的差異”,保留為數(shù)不少的“好的差異”,從而增強(qiáng)共指消解的效果。
我們通過(guò)實(shí)驗(yàn)驗(yàn)證了前述“基于平面特征的實(shí)例匹配算法”與“融合中心語(yǔ)特征的實(shí)例匹配算法”的效果,下面介紹實(shí)驗(yàn)設(shè)置與具體的實(shí)驗(yàn)結(jié)果。
本文在BART共指消解平臺(tái)上完成實(shí)驗(yàn)[12],該平臺(tái)首先對(duì)語(yǔ)料進(jìn)行預(yù)處理,包括Tokeniztation、NER、POS、Parsing等。
我們使用ACE2005英文BN和NW語(yǔ)料作為實(shí)驗(yàn)數(shù)據(jù),其分別包含226、106篇語(yǔ)料。使用的特征包括Basic特征集與Head特征集,具體見(jiàn)4.1節(jié)中的描述。
訓(xùn)練實(shí)例的構(gòu)造方式與測(cè)試過(guò)程中使用的消解策略均采用Soon等人[3]提出的方法,并采用MUC-6評(píng)價(jià)方法中R、P、F三個(gè)指標(biāo)表征消解效果。由于公式(2)中存在待定參數(shù),故采用5-fold交叉驗(yàn)證方式驗(yàn)證不同參數(shù)下的共指消解效果。
在基本特征集(Basic)及擴(kuò)展特征集(Basic+Head)下,表2 和表3分別給出了利用ACE2005英文BN與NW語(yǔ)料的實(shí)驗(yàn)結(jié)果,其中A1和A3分別表示算法1和算法3,而A3在表2和表3中的結(jié)果都在最優(yōu)α值下取得的結(jié)果(α最優(yōu)值分別為0.6和0.5)。
表2 ACE2005 BN語(yǔ)料上實(shí)驗(yàn)結(jié)果
表3 ACE2005 NW語(yǔ)料上實(shí)驗(yàn)結(jié)果
結(jié)果表明,在基本特征集下,無(wú)論是使用BN語(yǔ)料還是NW語(yǔ)料,基于平面特征的實(shí)例匹配算法(A1)在F值上都達(dá)到了Maxent、J48和SVM三種傳統(tǒng)機(jī)器學(xué)習(xí)算法的最好效果。這證實(shí)了A1算法雖然簡(jiǎn)單但有效,通過(guò)尋找與測(cè)試實(shí)例最相似的訓(xùn)練實(shí)例,能夠使共指消解效果達(dá)到傳統(tǒng)機(jī)器學(xué)習(xí)模型的最好水平。
進(jìn)一步觀察表2和表3,發(fā)現(xiàn)融合中心語(yǔ)特征的實(shí)例匹配算法(A3)與傳統(tǒng)的Maxent、J48和SVM算法相比,均能明顯提高F值。在BN語(yǔ)料上F值提高幅度達(dá)1.8%~3.4%,而在NW語(yǔ)料上F值提高幅度達(dá)3.4%~4.0%。并且可以觀察到,A3在F值上的提高很大程度是由于P值得到的較大的提升,提升幅度分別為1.6%~2.5%、8.6%~9.9%。算法3提出的競(jìng)爭(zhēng)模式的初衷是將中心語(yǔ)特征有效地融合進(jìn)實(shí)例匹配算法,使其能有效捕獲利用4.1節(jié)中提出的兩類(lèi)信息,進(jìn)而減少P值的損失。實(shí)驗(yàn)結(jié)果可以證實(shí),算法3達(dá)到了我們預(yù)期的效果,使P值得以提升,融合中心語(yǔ)特征的實(shí)例匹配算法通過(guò)使用中心語(yǔ)約束信息增強(qiáng)了共指消解效果。
本文通過(guò)實(shí)驗(yàn),證明了中心語(yǔ)匹配約束對(duì)共指消解的增強(qiáng)作用。結(jié)果同時(shí)也體現(xiàn)了基于簡(jiǎn)單平面特征的實(shí)例匹配算法簡(jiǎn)單而有效,能充分利用每一個(gè)訓(xùn)練實(shí)例的特征信息,其效果達(dá)到了傳統(tǒng)機(jī)器學(xué)習(xí)方法的最優(yōu)水平。進(jìn)一步,實(shí)驗(yàn)結(jié)果證明,引入中心語(yǔ)字符串特征并使用競(jìng)爭(zhēng)模式后,基于中心語(yǔ)匹配確實(shí)能有效去除預(yù)處理過(guò)程中產(chǎn)生的部分錯(cuò)誤及捕獲一些語(yǔ)義互斥的搭配,提高了共指消解的P值,從而改善的共指消解的總體效果。
本文的方法還有很多地方可以提高,比如算法1通過(guò)貪婪方式選擇“特征取值對(duì)”過(guò)濾訓(xùn)練實(shí)例只能取得局部最優(yōu)的選擇序列,要獲得更好的選擇序列應(yīng)該從全局信息出發(fā)修改算法。另外,考慮照應(yīng)語(yǔ)和先行語(yǔ)的修改語(yǔ)作為字符串特征,增加約束信息會(huì)取得更好的效果。
[1] 王厚峰.指代消解的基本方法和實(shí)現(xiàn)技術(shù)[J]. 中文信息學(xué)報(bào),2002, 16(6):9-17.
[2] J. Lang, B. Qin, T. Liu,et al. Intra-document Coreference Resolution: The state of the art[J]. Journal of Chinese Language and Computing,2007, 17(4):227-253.
[3] W. M. Soon, H. T. Ng, D. C. Y. Lim. A machine learning approach to coreference resolution of noun phrases[J]. Computational Linguistics, 2001, 27(4):521-544.
[4] V. Ng, C. Cardie. Improving Machine Learning Approaches to Coreference Resolution[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, Pennsylvania, 2002. Association for Computational Linguistics, 2002:104-111.
[5] X. Yang, G. Zhou, J. Su,et al. Improving Noun Phrase Coreference Resolution by Matching Strings[C]//Proceedings of the 1st International Joint Conference on Natural Language Processing (IJCNLP2004), Hainan Island, China, 2004. 2004:22-31.
[6] X. Yang, J. Su, C. L. Tan. Kernel-based pronoun resolution with structured syntactic knowledge[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, Sydney, Australia, 2006. Association for Computational Linguistics, 2006:41-48.
[7] 郎君, 忻舟, 秦兵,等. 集成多種背景語(yǔ)義知識(shí)的共指消解[J]. 中文信息學(xué)報(bào), 2009, 23(3):3-10.
[8] J. R. Hobbs. Resolving Pronoun References[J]. Lingua, 1978, 44:311-338.
[9] B. J. Grosz, S. Weinstein, A. K. Joshi. Centering: A framework for modeling the local coherence of discourse[J]. Computational Linguistics, 1995, 21(2):203-225.
[10] S. Vemulapalli, X. Luo, J. F. Pitrelli,et al. Classifier Combination Techniques Applied to Coreference Resolution[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Student Research Workshop and Doctoral Consortium, Boulder, Colorado, 2009. Association for Computational Linguistics, 2009:1-6.
[11] J. Quinlan. Induction of decision trees[J]. Machine learning, 1986, 1(1):81-106.
[12] Y. Versley, S. P. Ponzetto, M. Poesio,et al. Bart: A modular toolkit for coreference resolution[C]//Proceedings of the ACL-08: HLT Demo Session, Columbus, Ohio, 2008. Association for Computational Linguistics, 2008:9-12.