付 健,孔 芳
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 251006)
指代消解是自然語言理解中的一項(xiàng)關(guān)鍵任務(wù),準(zhǔn)確無歧義的指代消解能夠促進(jìn)對(duì)篇章語義的整體理解,對(duì)于信息抽取、自動(dòng)摘要生成、問答系統(tǒng)以及機(jī)器翻譯等自然語言應(yīng)用起到基礎(chǔ)支撐作用。
國內(nèi)外學(xué)者針對(duì)指代消解任務(wù)開展了大量的研究,早期主要通過專家構(gòu)建的領(lǐng)域知識(shí)形成消解規(guī)則進(jìn)行指代消解。近年來,得益于自然語言處理(Natural Language Processing,NLP)系列會(huì)議的召開及其公布的標(biāo)注良好的指代消解語料,指代消解的研究重點(diǎn)逐漸轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)方法。與指代消解任務(wù)相關(guān)的代表性會(huì)議及語料包括:MUC會(huì)議,其在1995年和1998年分別發(fā)布了英文指代消解語料MUC-6[1]和MUC-7[2];ACE[3]會(huì)議,其先后發(fā)布了指代消解語料ACE2003、ACE2004和ACE2005,并在ACE2005中開始提供中文指代消解語料;CoNLL會(huì)議,其2011年和2012年Shared Task的主題是指代消解,并分別以O(shè)ntoNotes 4.0[4]和OntoNotes 5.0[5]為基礎(chǔ)構(gòu)建了訓(xùn)練/測(cè)試集分明的評(píng)測(cè)語料。
基于數(shù)據(jù)驅(qū)動(dòng)的方法主要分為有監(jiān)督和無監(jiān)督的方法,主流基于有監(jiān)督的指代消解方法首先對(duì)原始文本進(jìn)行預(yù)處理,包括分句、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別以及語義角色標(biāo)注等。在此基礎(chǔ)上,抽取待消解項(xiàng)并對(duì)其采用不同實(shí)例生成策略構(gòu)建訓(xùn)練實(shí)例,從上下文中提取相應(yīng)的特征集。最終使用不同的學(xué)習(xí)模型訓(xùn)練分類器,并通過最近優(yōu)先、最好優(yōu)先等聚類方法對(duì)分類結(jié)果進(jìn)行處理,得到文本中的指代鏈,完成指代消解任務(wù)。
傳統(tǒng)的有監(jiān)督的指代消解方法主要有決策樹[6]、支持向量機(jī)[7]、條件隨機(jī)場(chǎng)[8]等。近幾年,伴隨著神經(jīng)網(wǎng)絡(luò)研究的展開,單詞可以表示為傳遞語義依賴關(guān)系的向量[9-10],單詞之間的依賴關(guān)系可以被RNN等結(jié)構(gòu)捕獲,加之神經(jīng)網(wǎng)絡(luò)優(yōu)異的數(shù)據(jù)擬合和分類能力,越來越多的學(xué)者開始將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于指代消解研究。文獻(xiàn)[11]通過預(yù)訓(xùn)練待消解項(xiàng)識(shí)別和先行詞排序這2個(gè)獨(dú)立的子任務(wù),來學(xué)習(xí)不同的特征表示。文獻(xiàn)[12]通過RNN學(xué)習(xí)實(shí)體水平的信息并進(jìn)行候選先行詞聚類,證明指代消解任務(wù)可以從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的關(guān)于實(shí)體聚類的全局特征中獲益。文獻(xiàn)[13]利用強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練Mention-Ranking模型進(jìn)行指代消解,在CoNLL 2012[5]的中文數(shù)據(jù)集上獲得較好性能。文獻(xiàn)[14]提出一種端到端的實(shí)體指代消解模型。該模型使用雙向LSTM與Head-finding Attention機(jī)制來表示短語并計(jì)算其在上下文中的凸顯度,并基于此進(jìn)行表述的識(shí)別,然后使用一個(gè)Mention-Ranking模型來完成指代鏈的構(gòu)建。
相比于英文,中文實(shí)體指代消解的研究起步較晚,目前基于深度學(xué)習(xí)等技術(shù)的研究較少。文獻(xiàn)[15]利用DBN自動(dòng)挖掘深層的語義特征,在代詞的消解上取得較好的效果。文獻(xiàn)[16]探索DBN多層神經(jīng)網(wǎng)絡(luò)模型在維吾爾語人稱代詞指代消解中的應(yīng)用。文獻(xiàn)[17]利用深度學(xué)習(xí)機(jī)制無監(jiān)督地提取深層語義信息,采用棧式自編碼算法進(jìn)行維吾爾語名詞短語的指代消解。
文獻(xiàn)[14]模型的最大優(yōu)勢(shì)是不需要額外詞法及句法分析的結(jié)果,在OntoNotes英文語料上的實(shí)驗(yàn)結(jié)果也表明,在無任何額外信息支撐的情況下,該模型英文指代消解的性能較優(yōu)。然而中文的行文與英文存在差異,其詞法、句法信息不可忽略。本文結(jié)合中文行文特點(diǎn),在文獻(xiàn)[14]模型的基礎(chǔ)上提出一種中文指代消解模型。通過設(shè)計(jì)文檔句法樹壓縮算法減小文檔句法樹的高度,在刪除冗余信息的同時(shí),保留核心子樹的相關(guān)信息。經(jīng)對(duì)比分析詞性、文檔句法壓縮樹葉節(jié)點(diǎn)深度以及成分句法的結(jié)構(gòu)化嵌入信息對(duì)中文指代消解的貢獻(xiàn),將三者結(jié)合融入端到端實(shí)體指代消解模型。
本文以文獻(xiàn)[14]基于神經(jīng)網(wǎng)絡(luò)的端到端指代消解模型為基準(zhǔn)模型。該模型采用Mention-Ranking,由于簡(jiǎn)單易實(shí)現(xiàn),在指代消解領(lǐng)域得到了廣泛的應(yīng)用,其具體構(gòu)成如圖1所示。從圖1中可以看到,該基準(zhǔn)模型的構(gòu)成與傳統(tǒng)框架類似,包括了表述識(shí)別和先行詞識(shí)別2個(gè)部分。
圖1 端到端的實(shí)體指代消解模型Fig.1 End to end entity coreference resolution model
在表述識(shí)別階段,首先結(jié)合字、詞以及上下文信息,借助Attention機(jī)制來表征每一個(gè)可能的表述候選,即短語,再通過相應(yīng)的打分機(jī)制對(duì)短語在上下文中的凸顯性進(jìn)行打分,根據(jù)得分對(duì)短語集合進(jìn)行排序,最終選取一定比例的短語作為待消解的表述集合。
圖1虛線框中的部分為表述識(shí)別的具體流程,其步驟為:
3)將上述兩層輸出作為短語表示層輸入,利用Head-finding Attention機(jī)制來學(xué)習(xí)短語的中心表示,具體如式(1)~式(3)所示。
(1)
(2)
(3)
(4)
其中,φ(i)編碼短語的寬度特征信息。
4)得到帶Attention信息的短語表示后,使用兩層前饋神經(jīng)網(wǎng)絡(luò)作為打分器,利用式(5)在短語得分層中對(duì)短語的表示進(jìn)行打分,得到得分sm作為短語修剪層的輸入。
(5)
5)短語修剪層根據(jù)上一次傳遞來的得分對(duì)全部的短語進(jìn)行排序,取得分較高的一定數(shù)量的短語作為表述集合,保留其對(duì)應(yīng)的得分與表示,然后交給更高層做后續(xù)處理。
先行詞識(shí)別是在一定的搜索空間中尋找最佳的先行詞,具體流程如圖1中實(shí)線框所示。
1)在經(jīng)過修剪得到表述集合后,按照這些表述在文中出現(xiàn)的先后次序,與傳統(tǒng)Mention-Pair模型采用的策略類似,從后向前在一定的距離約束范圍內(nèi)進(jìn)行表述的配對(duì),得到配對(duì)的表示。假設(shè)取短語i與短語j構(gòu)成對(duì)應(yīng)的表述對(duì),其對(duì)應(yīng)的表示如式(6)所示。
(6)
2)在指代得分層,由表述i的得分、表述j的得分以及i、j之間的先行詞得分,得到最終i、j之間的指代得分s(i,j):
(7)
其中,當(dāng)表述i沒有先行詞,即j=ε時(shí),指代得分為0。
3)表述i與其對(duì)應(yīng)的候選先行詞集合中的每一個(gè)候選j的指代得分經(jīng)過Softmax層后,得到i與各個(gè)j之間存在指代鏈的置信度。根據(jù)此置信度排序,取置信度得分最高的j*作為表述i的最終先行詞,由此得到每個(gè)表述及其對(duì)應(yīng)的先行詞,形成最終的指代消解結(jié)果。
本文使用的句法特征皆取自成分句法樹,具體包括詞性標(biāo)注信息、文檔句法壓縮樹中葉節(jié)點(diǎn)的深度信息以及句法樹的結(jié)構(gòu)化嵌入信息。由于詞性標(biāo)注信息的獲取較為簡(jiǎn)單,下面重點(diǎn)介紹文檔句法壓縮樹中葉節(jié)點(diǎn)深度的計(jì)算方法和句法樹的結(jié)構(gòu)化嵌入算法。
傳統(tǒng)句法樹是以句子為基本單位的,首先設(shè)置一個(gè)虛擬的根節(jié)點(diǎn)(DOC_ROOT),然后將文檔中所有句子對(duì)應(yīng)的成分按照句子在文檔中的順序分別鏈接到DOC_ROOT上,即可構(gòu)成初始的文檔句法樹。但該文檔句法樹過于繁雜。實(shí)驗(yàn)結(jié)果表明,直接從這一文檔句法樹上提取節(jié)點(diǎn)的層次信息加入指代消解模型,會(huì)引入過多的噪音,對(duì)模型的性能產(chǎn)生不良影響。因此,結(jié)合指代消解任務(wù)的具體需求,兼顧中文自動(dòng)句法分析性能較低等因素,本文提出文檔句法壓縮樹算法,其主要目標(biāo)是在確保指代消解所需的精確子樹得以保留的同時(shí),盡可能地減小整棵樹的復(fù)雜度。
傳統(tǒng)表述識(shí)別方法是在句法樹中根據(jù)短語對(duì)應(yīng)的節(jié)點(diǎn)標(biāo)簽來抽取可能的表述,抽取時(shí)設(shè)定了表述可能的節(jié)點(diǎn)標(biāo)簽集合。在句法壓縮樹中,本文將這類節(jié)點(diǎn)標(biāo)簽集合設(shè)為需要保存精確子樹的可接受標(biāo)簽集合,其含義如表1所示。
表1 可接受標(biāo)簽列表Table 1 List of acceptable labels
以初始文檔句法樹和可接受標(biāo)簽列表作為輸入,算法1給出文檔句法樹壓縮的具體步驟。由于棧中子樹的數(shù)量是有限的,每次迭代(步驟3~步驟8)均彈出一個(gè)棧頂元素,且沒有入棧操作,故算法存在終止條件。另一方面,由于迭代處理子樹的順序?yàn)槲臋n句法樹后序遍歷的順序,在處理到某一子樹或者節(jié)點(diǎn)時(shí),其孩子節(jié)點(diǎn)所代表的樹均已壓縮完成,因此最終回溯到根節(jié)點(diǎn),并執(zhí)行完壓縮,此時(shí)得到的是不可壓縮或者“壓縮完全”的文檔樹,本文稱為文檔壓縮樹。
對(duì)一個(gè)示例文檔生成初始的語法樹,如圖2所示。由于篇幅限制,此示例文檔僅包含一句話,對(duì)于包含多句話的情況可類似處理。對(duì)圖2的語法樹進(jìn)行壓縮,結(jié)果如圖3所示。對(duì)比圖2和圖3可以看出,該壓縮算法極大地減小了文檔樹的高度,刪除了大量的冗余信息,且核心子樹的相關(guān)信息被很好地保留。因此,該算法得到的文檔壓縮樹能較好地體現(xiàn)表述的層次結(jié)構(gòu)關(guān)系。
圖3 文檔壓縮樹Fig.3 Document compression tree
算法1文檔句法樹壓縮算法
步驟1初始化文檔句法樹DOC_ROOT。
步驟2后序遍歷文檔句法樹,并將遍歷的結(jié)果保存在棧STACK中,棧頂保存后序遍歷經(jīng)過的第一個(gè)節(jié)點(diǎn)(如圖2中的“NR-聯(lián)合國”)。注意,原成分句法樹中的單詞節(jié)點(diǎn)與其父節(jié)點(diǎn)在文檔句法樹中合并為一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)的標(biāo)簽由詞性標(biāo)簽表示,即圖2中的“NR-聯(lián)合國”表示一個(gè)節(jié)點(diǎn)(框1),且為文檔句法樹的葉子節(jié)點(diǎn),節(jié)點(diǎn)標(biāo)簽為“NR”。
步驟3如果STACK為空,返回文檔句法樹,程序結(jié)束;否則,繼續(xù)執(zhí)行。
步驟4彈出棧頂元素,記為subtree;取其父節(jié)點(diǎn),記為parent,注意父節(jié)點(diǎn)不一定存在。
步驟5如果subtree為葉子節(jié)點(diǎn),跳至步驟3。
步驟6如果parent存在,并且以下2種情況之一存在:1)subtree只有一個(gè)孩子(如圖2中方框2所示);2)subtree的標(biāo)簽不在可接受標(biāo)簽列表中,則parent上刪除subtree子節(jié)點(diǎn),并在刪除位置插入subtree的所有直接孩子節(jié)點(diǎn)。對(duì)于情況1,此舉可以在保留子樹最“精確”信息的基礎(chǔ)上減小樹的整體高度;對(duì)于情況2,本文假設(shè)當(dāng)子樹標(biāo)簽不在可接受標(biāo)簽列表中時(shí),子樹表示的單詞或者短語成為待消解項(xiàng)的可能性較小,其層次結(jié)構(gòu)對(duì)模型的預(yù)測(cè)沒有幫助,故刪除該子樹節(jié)點(diǎn),并使孩子節(jié)點(diǎn)“上移”。
步驟7如果parent不存在,即subtree為文檔樹的根節(jié)點(diǎn),并且subtree只有一個(gè)直接孩子節(jié)點(diǎn),則刪除subtree節(jié)點(diǎn),并使其唯一的直接孩子成為新的文檔句法樹根節(jié)點(diǎn),此舉同樣可以在保留子樹最“精確”信息的基礎(chǔ)上減小樹的整體高度。
步驟8返回步驟3。
假設(shè)初始文檔句法樹為m叉樹(m≥1),其節(jié)點(diǎn)數(shù)為n。步驟2中對(duì)其進(jìn)行后序遍歷所需要的時(shí)間復(fù)雜度為O(n),空間復(fù)雜度,即STACK的大小為O(n)。步驟4中彈出棧頂元素可在常數(shù)時(shí)間內(nèi)完成,即時(shí)間復(fù)雜度為O(1)。步驟7中“刪除subtree節(jié)點(diǎn)”的操作同樣可在O(1)時(shí)間內(nèi)完成。步驟6為算法的核心部分,耗時(shí)最多:在最好情況下,不需要對(duì)subtree及其相關(guān)節(jié)點(diǎn)進(jìn)行調(diào)整,算法只需進(jìn)行一次后續(xù)遍歷即可返回;在最壞情況下,需要對(duì)STACK中的每一個(gè)非葉子節(jié)點(diǎn)(葉子節(jié)點(diǎn)不需要進(jìn)行調(diào)整)刪除其自身,并重新設(shè)置其所有孩子的父節(jié)點(diǎn)為parent,所需操作花費(fèi)時(shí)間O(m),總耗時(shí)O(mn)。綜上所述,算法的空間復(fù)雜度為O(n),最好情況時(shí)間復(fù)雜度為O(n),最壞情況時(shí)間復(fù)雜度為O(mn)。
在NLP的任務(wù)中,各種字向量、詞向量方法被廣泛使用,并且性能均較好。近年來,有關(guān)結(jié)構(gòu)化信息的向量化問題也得到研究者的關(guān)注。文獻(xiàn)[18]針對(duì)成分句法和依存句法展開研究,提出一種成分句法樹的結(jié)構(gòu)化嵌入(Structural Embedding of Constituency Tree,SECT)方法,并將其應(yīng)用于問答系統(tǒng)中答案的抽取。實(shí)驗(yàn)結(jié)果證明,該方法能較好地分辨句子的句法邊界,抽取與句法相關(guān)的答案。本文將由SECT方法獲得的向量信息應(yīng)用于指代消解模型。
SECT方法的具體流程如下:
1)對(duì)于單詞p,即句法樹中的葉子節(jié)點(diǎn),定義一個(gè)句法序列S(p),該序列保存葉子節(jié)點(diǎn)p到句法樹根節(jié)點(diǎn)的路徑。例如圖2中的“NR-聯(lián)合國”節(jié)點(diǎn),其對(duì)應(yīng)的S(p)為{NR,NP,NP,NP,IP,TOP}。在實(shí)驗(yàn)中,出于性能和內(nèi)存利用率的考慮,需要設(shè)置一個(gè)窗口大小來限制S(p)的長(zhǎng)度。當(dāng)然,由于中文成分句法分析的性能相比于英文較低,特別是句法樹中較高層次的歧義較大,因此借助窗口大小進(jìn)行限制,在一定程度上將去除句法樹中高層的歧義節(jié)點(diǎn)。
(8)
本文使用CoNLL2012數(shù)據(jù)集(語料規(guī)模如表2所示),并根據(jù)不同的設(shè)置對(duì)模型進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行討論分析。
表2 CoNLL2012數(shù)據(jù)集語料規(guī)模Table 2 Corpus size of CoNLL2012 dataset KB
本文主要關(guān)注中文端到端的指代消解,平臺(tái)使用的相關(guān)參數(shù)包括:使用64維的Polyglot[19]中文字、詞嵌入,通過仿射變換將其變換為100維;使用單層Character LSTM[20]進(jìn)行字嵌入的表示,隱藏層維度為100維;每個(gè)特征編碼得到的向量的維度為20維,其他實(shí)驗(yàn)設(shè)置與文獻(xiàn)[14]中的實(shí)驗(yàn)設(shè)置相同;對(duì)于SECT,使用單層雙向LSTM作為編碼器,輸出向量的維度為20維,與特征向量的維度相同,dropout[21]設(shè)置為0.2,詞法序列的窗口大小設(shè)置為10。
為了對(duì)比中英文指代消解的差別,本文將額外句法信息使用類似的策略引入了英文指代消解。中英文測(cè)試中用到的詞性、句法等信息均來源于CoNLL2012數(shù)據(jù)集中提供的自動(dòng)成分句法分析的結(jié)果。
為了詳細(xì)分析引入的詞性、句法和文檔壓縮樹向量對(duì)指代消解系統(tǒng)性能的影響,本文設(shè)計(jì)8個(gè)實(shí)驗(yàn),分別用于測(cè)試每個(gè)引入特征對(duì)模型的貢獻(xiàn)度,具體如表3所示。其中,Y(N)表示模型輸入包含(不包含)該特征嵌入。
表3 實(shí)驗(yàn)設(shè)置Table 3 Experimental setup
從表3可以看出:實(shí)驗(yàn)1不包含任何額外信息,保持文獻(xiàn)[14]平臺(tái)的原貌,本文以此為基準(zhǔn)平臺(tái);實(shí)驗(yàn)2~實(shí)驗(yàn)4驗(yàn)證單獨(dú)引入3個(gè)信息對(duì)指代消解系統(tǒng)性能的貢獻(xiàn)度;實(shí)驗(yàn)5~實(shí)驗(yàn)7給出3個(gè)信息兩兩組合后對(duì)指代消解系統(tǒng)性能的貢獻(xiàn),從中既可以看到特征的組合效果,也可以看出引入的特征間具有一定的重疊性;實(shí)驗(yàn)8融合3個(gè)信息,得到的是系統(tǒng)的最終性能。
上述8個(gè)實(shí)驗(yàn)在中文數(shù)據(jù)集上的性能測(cè)試結(jié)果如表4所示。每個(gè)實(shí)驗(yàn)均使用不同的隨機(jī)數(shù)種子運(yùn)行5次,取其平均值作為最終的實(shí)驗(yàn)結(jié)果。評(píng)價(jià)指標(biāo)由CoNLL2012- Shared Task采用的平均F1值,即MUC、B3和CEAFφ4標(biāo)準(zhǔn)的F1值的平均值、表述召回率與各自對(duì)基準(zhǔn)平臺(tái)的改變量以及平均訓(xùn)練耗時(shí)(不包括數(shù)據(jù)預(yù)處理的時(shí)間)構(gòu)成。
表4 中文指代消解實(shí)驗(yàn)結(jié)果Table 4 Experimental results of Chinese coreference resolution
從表4可以看出:
1)在實(shí)驗(yàn)2~實(shí)驗(yàn)4中,簡(jiǎn)單的詞性嵌入信息能大幅提升指代系統(tǒng)中表述識(shí)別的召回率,最終對(duì)消解性能產(chǎn)生3.46%的正向貢獻(xiàn),并且使訓(xùn)練耗時(shí)縮短了0.4 h;SECT信息的融入使得表述召回率提升了3.66%,最終指代消解的性能提升了4.53%,但由于其本身的復(fù)雜性,使訓(xùn)練耗時(shí)增加了0.7 h;相比而言,文檔壓縮樹葉節(jié)點(diǎn)深度信息的加入對(duì)整個(gè)指代消解性能的F1值貢獻(xiàn)約為2.94%,低于詞性和SECT信息的貢獻(xiàn)。但相對(duì)于SECT信息,其訓(xùn)練耗時(shí)短,更加簡(jiǎn)單高效。
2)在實(shí)驗(yàn)5~實(shí)驗(yàn)7中,引入的3個(gè)特征在兩兩組合后,較引入單獨(dú)特征能進(jìn)一步提升指代系統(tǒng)的表述識(shí)別的召回率和系統(tǒng)性能。這說明3個(gè)特征具有一定的組合效應(yīng)。對(duì)比而言,詞性信息與文檔壓縮樹葉節(jié)點(diǎn)深度信息的組合作用最為明顯。雖然在三者獨(dú)立貢獻(xiàn)中,文檔壓縮樹葉節(jié)點(diǎn)深度信息最小,但與詞性信息組合后指代消解的性能提升了5.01%,同時(shí)也加快了模型訓(xùn)練。而SECT信息的獨(dú)立貢獻(xiàn)約為4.53%,其與詞性或文檔壓縮樹葉節(jié)點(diǎn)深度信息的組合進(jìn)一步提升的F1性能僅為0.25%或0.05%,這說明SECT信息中涵蓋了部分的詞性和文檔壓縮樹葉節(jié)點(diǎn)深度信息,特別是句法樹的結(jié)構(gòu)信息,并且訓(xùn)練耗時(shí)也顯著增加。
3)在實(shí)驗(yàn)8中,系統(tǒng)引入3個(gè)特征的組合,其性能提升了5.28%,且表述召回率提高4.01%。這表明即使在神經(jīng)網(wǎng)絡(luò)平臺(tái)中,結(jié)構(gòu)化相關(guān)信息仍然是不可忽略的。
為了驗(yàn)證采用文檔壓縮樹的優(yōu)勢(shì),本文使用原始的句法樹替換掉實(shí)驗(yàn)3中的文檔壓縮樹(實(shí)驗(yàn)3’),進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表5所示。
表5 原始句法樹與文檔壓縮樹的結(jié)果對(duì)比Table 5 Comparison of results between original tree syntax tree and document compression
從表5可以看出,使用原始句法樹得到的系統(tǒng)的最終性能相較于本文文檔壓縮樹的結(jié)果F1值降低了1.06%,召回率也下降了1.81%。實(shí)驗(yàn)結(jié)果表明,相比原始句法樹,文檔壓縮樹確實(shí)在保持核心子樹的基礎(chǔ)上有效地去除了噪音信息,能更好地幫助指代消解。
為了驗(yàn)證上述3個(gè)特征對(duì)英文指代消解性能的貢獻(xiàn),本文進(jìn)行了與中文類似的實(shí)驗(yàn),結(jié)果如表6所示。其中,實(shí)驗(yàn)1復(fù)現(xiàn)了文獻(xiàn)[14]的方法,系統(tǒng)性能雖略低于其結(jié)果(平均F1值相差約為1.13%),但卻大幅縮短了訓(xùn)練模型所用的時(shí)間。
表6 英文指代消解實(shí)驗(yàn)結(jié)果Table 6 Experimental results of English coreference resolution
從表6可以看出,無論是單獨(dú)使用這3個(gè)特征中的一個(gè),還是使用它們的兩兩組合,或是所有特征集合,得到的英文指代消解性能相較于基準(zhǔn)平臺(tái)在平均F1值與表述召回率上均有小幅度下降,這說明中英文在行文上的差異對(duì)指代現(xiàn)象有一定的影響。中文指代消解的研究既要借鑒英文指代消解的某些策略,也需要展開中文針對(duì)性的研究。
本文在文獻(xiàn)[14]模型的基礎(chǔ)上,構(gòu)建一種中文指代消解模型。相比于英文指代消解,中文的詞法、句法等信息不能忽略。因此,通過引入詞性、文檔壓縮樹葉節(jié)點(diǎn)深度以及SECT 3個(gè)特征向量,提升模型對(duì)中文實(shí)體指代消解的性能。在CoNLL2012中文數(shù)據(jù)集中的測(cè)試結(jié)果表明,本文模型較基準(zhǔn)模型指代消解性能更好。下一步將加入更多特征,并對(duì)模型中的表述識(shí)別策略進(jìn)行調(diào)整以減少運(yùn)算量,提升模型的指代消解性能。