高俊偉,孔 芳,朱巧明,李培峰
(蘇州大學 計算機科學與技術學院, 江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006)
指代是自然語言中一種常見的語言現(xiàn)象,指在文本中用一個語言成分回指以前提及過的某個語言單位,表現(xiàn)形式有別名、代詞、專有名詞等。這種指代現(xiàn)象對減少冗余,簡化語言,突出主題,使文本上下連貫通俗易懂都有很好的作用。隨著人機對話、機器翻譯、信息抽取等研究的不斷深入,指代消解的研究也越來越受到大家的關注,指代消解已成為自然語言處理領域中的熱點和難點之一。在語言學中,指代詞也稱為照應語,表示用于指向的語言單位,被指向的語言單位稱為先行語。指代消解的主要任務就是確定照應語所指向的先行語的過程。指代現(xiàn)象一般來說分為兩種: 回指和共指,回指主要指當前的指代詞與文中出現(xiàn)的詞或句子有意義關聯(lián)性,即其依存于上下文環(huán)境,在不同的語境下可能指向不同的實體。共指則主要指多個實體指向的是現(xiàn)實世界的同一個實體,本文主要關注的是共指消解。
近幾年,隨著指代消解研究不斷深入,越來越多的方法被提出來并取得了不錯的性能。其中早期的方法主要側(cè)重理論上的探索,通過人工構(gòu)建的一些規(guī)則來達到指代消解的目的,這種方法用到的相關語言學方面的知識較少,因此指代消解的性能不是很好。隨著Internet的發(fā)展,一些可用語料庫的獲得更加便利,因此,一些基于機器學習的方法被提出來,并取得了不錯的性能。早期典型的指代消解的方法有Hobbs[1]提出的利用語法規(guī)則和樹圖信息的算法,通過遍歷語法解析樹,搜索數(shù)量和性別一致的名詞短語,從中選出最佳先行語。Lappin和Leass[2]提出了一種通過計算先行語的突顯性和過濾規(guī)則進行消解的RAP算法?;谟斜O(jiān)督學習方法的有Soon[3]首次給出了一個基于分類的指代消解系統(tǒng)的完整的實現(xiàn)步驟。Ng[4]等對Soon的系統(tǒng)進行了擴充,將其特征集合從12個擴充到53個并改變從候選項中從右到左查找先行語的順序,而是改為從候選項中找最有可能是先行語的作為結(jié)果。Yang[5]等提出一種基于核函數(shù)的代詞消解方法,將句法樹作為一個結(jié)構(gòu)特征并用樹核函數(shù)進行模型的訓練。Zhou[6]等用了一個上下文相關的卷積樹核函數(shù)進行代詞的指代消解,為了更好獲得句法樹的結(jié)構(gòu)信息,提出了一種動態(tài)擴展策略,這種動態(tài)擴展樹不僅可以包含謂語信息,還可以包含候選先行語的一些信息。相比于以往的研究方法,Ng[7]和Hoifung Poon[8]等提出了一種無監(jiān)督的指代消解方法,該方法可以減小指代消解任務對標注語料庫的依賴。相比于英文指代消解的長期研究,中文指代消解的研究起步較晚,相關的研究也較少。王厚峰[9-11]對中文代詞指代消解進行了研究并提出了指代消解的研究現(xiàn)狀及一些方法。Grace Ngai[12]等也將一種無監(jiān)督的方法應用在了中文指代消解研究中,相關的研究還有文獻[13-14]。中文指代消解研究難點,一方面是由于體現(xiàn)中文指代現(xiàn)象特點的特征較少且不容易獲得,比如單復數(shù)、性別特征等等,這些特征在中文中不易獲得且對指代消解性能的貢獻度也不像在英文指代消解中那樣大;另一方面是中文指代消解中可用的相關語料庫較少,目前已知的有ACE2005、OntoNotes等。為了探討語料庫對指代消解性能的影響,本文構(gòu)建了一個基于有監(jiān)督學習方法的中文名詞短語指代消解平臺和一個基于無監(jiān)督聚類的指代消解平臺。在此平臺基礎上,從語料的數(shù)量和標注的質(zhì)量兩個方面來探討語料對中文名詞短語指代消解的影響。
為了探討語料對中文名詞短語指代消解的影響,本文構(gòu)建了兩個中文名詞短語指代消解平臺,一個是基于有監(jiān)督學習方法的指代消解平臺;另一個是基于無監(jiān)督聚類的指代消解平臺。本文中的語料采用的是OntoNotes 3.0中文新聞語料。
整個指代消解平臺分為預處理,特征向量的選擇,訓練樣例及測試樣例的生成等步驟。預處理階段主要包括分詞、命名實體識別、名詞短語及中心詞的獲得、語義角色信息的獲得等過程。因為分詞的結(jié)果對指代消解性能影響較大,為了排除分詞帶來的實體識別錯誤等影響,平臺采用的是語料庫中的標準分詞結(jié)果。名詞短語及其中心詞是從Stanford parser*http://nlp.stanford.edu/software/lex-parser.shtml工具生成的句法樹和依存關系中獲得。命名實體識別和語義角色信息是通過實驗室*http//nlp.suda.edu.cn開發(fā)的MYNER和SRL工具生成。特征向量選擇階段,平臺中構(gòu)建了一個涉及詞性、全匹配、別名、同位語、語義角色信息、名詞短語間相似度等17個特征集合,相關的特征信息及其獲得方法如下所示。
1) Distance: 先行語和照應語之間的距離,在一句之內(nèi)為0,相差一句為0.1,相差2句為0.2,以此類推。
2) StringMatch: 若先行語和照應語完全匹配相等,則該特征值為1,否則為0。
3) Alias: 若先行語或照應語有一個是另一個的別名,則該特征值為1,否則為0。本文在判斷該特征時,若有一個名詞短語是從另一個名詞短語中抽取出來的,則就認為此名詞短語是另一個的別名。
4) Appositive: 如果照應語和先行語是同位語,則該特征值為1,否則為0。本文規(guī)定如果兩個短語并列出現(xiàn)充當句中某一成分,且其中一個為專有名詞,這種情況下認為它們之間有同位語關系。
5) i-Pronoun: 若照應語為代詞,則該特征值為1,否則為0。若詞性為PN,則該名詞短語為代詞。
6) j-Pronoun: 若先行語為代詞,則該特征值為1,否則為0。
7) DemonstrativeNP: 若照應語為指示性名詞短語,則該特征值為1,否則為0。若詞性為DP,則該詞為指示性名詞短語。
8) Semantic Class Agreement: 若照應語和先行語實體類別一致,則該特征為1,否則為0。
9) i-ProperNP: 若候選項是專有名詞,則該特征值為1,否則為0,若該照應語的詞性為NR,則該詞是專有名詞短語。
10) j-ProperNP: 若先行語是專有名詞,則該特征值為1,否則為0。
11) i-arg0: 若照應語在句中充當某一動詞的施事者,則該特征值為1,否則為0。即如果其語義角色信息為ARG0,則該特征值為1。
12) i-arg1: 若照應語在句中充當某一動詞的受施者,則該特征值為1,否則為0。即如果其語義角色信息為ARG1,則該特征值為1。
13) j-arg0: 若先行語語義角色信息為ARG0,則該特征值為1,否則為0。
14) j-arg1: 若先行語語義角色信息為ARG1,則該特征值為1,否則為0。
15) Similarity: 該特征的值是照應語和候選先行語之間的相似度的值與它們中心詞之間的相似度的值中的最大值。相似度算法是根據(jù)劉群*http://nlp.ict.ac.cn/~liuqun的基于知網(wǎng)的語義相似度算法獲得的。
16) Nest in: 照應語是否嵌套在某一名詞短語內(nèi),若是,該特征值為1,否則為0。
17) Nest out: 照應語是否嵌套其他名詞短語,若嵌套則該特征值為1,否則為0。
訓練樣例及測試樣例的生成過程是參照Soon[3]的實例生成過程。訓練樣例生成以后,用SVM*http://svmlight.joachims.org/工具對訓練樣例進行模型的訓練,然后根據(jù)模型文件,對測試樣例進行分類。本文將語料庫中325篇文章分為5等份,每次選擇4份作為訓練集,另一份作為測試集,采用5倍交叉驗證對平臺性能進行測試,平臺名詞短語指代消解性能如表1所示,其中Auto指除了分詞信息是從語料庫中獲得的,其他所需信息都是通過預處理階段自動獲得的。Golden指所需信息均從語料庫中獲得。相關的性能評測算法的描述參考文獻[15]。
表1 基于有監(jiān)督學習方法的指代消解平臺性能
無監(jiān)督指代消解平臺整個過程分為預處理、特征選擇、聚類等過程。預處理階段與基于有監(jiān)督學習方法的平臺一致。特征選擇階段,本文構(gòu)建了14個特征及相應的不兼容函數(shù),通過計算兩個名詞短語間不兼容函數(shù)的和來獲得名詞短語間的距離,然后利用層次聚類算法,將距離小于某一閾值r的名詞短語都放到一個簇中。在一個簇中的名詞短語即被認為相互之間具有指代關系。其中特征與其相應的不兼容函數(shù)如表2所示。
在表2中,權值為無窮大(+∞)表示兩個名詞短語距離無窮大,即不可能放在一個簇中。權值為無窮小(-∞)表示兩個名詞短語距離無窮小,它們之間存在指代關系的可能性很大,即應該放進一個簇中,當無窮大(+∞)與無窮小(-∞)同時出現(xiàn)的時候, 認為它們之間的距離為無窮大(+∞)。其中兩個名詞短語之間的距離為所有不兼容函數(shù)與其對應的權重乘積的和。在Auto和Golden狀況下,中文無監(jiān)督指代消解平臺性能及與閾值r的關系如表3 所示。
在該平臺中,閾值r表明當兩個名詞短語間的距離小于等于r的時候,它們之間可能存在指代關系,將它們放到一個簇中。距離大于r的時候,表明它們之間不存在指代關系, 不可能在一個簇中。從表中可以看出,閾值r的設定對平臺性能影響較大,平臺性能的波動較大。當閾值r大于等于3的時候,平臺性能幾乎沒有什么變化,當閾值r取負值的時候,平臺性能較好,當設置r=-4時,平臺性能達到最好效果。在3種評測工具的測試下,Auto的F值平均值為59.43%,Golden的F值平均值為66%,其中Auto指除了分詞結(jié)果是從語料庫中獲得,其他所需信息均通過預處理階段自動獲得,Golden指所需特征信息是從語料庫中獲得的。
表2 特征所對應的不兼容函數(shù)及權重
表3 無監(jiān)督指代消解平臺性能
(b) Golden狀況下的平臺性能
為了探討語料數(shù)量對中文名詞短語指代消解的
影響,本文在構(gòu)建的兩個平臺上分別進行實驗。在基于有監(jiān)督學習方法的中文名詞短語指代消解平臺上,文中選用了75篇文章作為測試語料,訓練階段采用不同數(shù)量的文章作為訓練語料,最后查看平臺性能的變化,該性能的變化也反映了語料的數(shù)量對中文名詞短語指代消解的影響。為了排除其他因素對實驗的影響,在實驗中所用到的信息均從語料庫中獲得,即是在標準情況下做的實驗,實驗結(jié)果如表4所示。
表4 Golden狀況下語料數(shù)量對基于有監(jiān)督學習方法平臺的性能影響
從實驗結(jié)果可以看出,當選用不同數(shù)量的語料作為訓練集合時,平臺的性能有所變化,在MUC評測下,最好與最壞性能相差有8個百分點左右,BCUB評測下,最好性能與最差性能相差有3個百分點左右,CEAFE評測下,相差有6個點左右。因此,在基于有監(jiān)督學習方法的中文名詞短語指代消解平臺下,語料數(shù)量對中文名詞短語指代消解性能是有一定影響的,當文章數(shù)量達到175篇時,平臺的性能趨于穩(wěn)定。其中文章數(shù)目與所含指代鏈上實體信息的數(shù)目的關系如圖1所示。
在基于無監(jiān)督聚類的中文名詞短語指代消解平臺上,由于不需要分訓練語料和測試語料,因此選擇OntoNotes 3.0中 文 新 聞 語料中的所有325篇文章參與測試。測試過程中分別采用不同數(shù)量的語料進行平臺性能測試,實驗結(jié)果如表5所示。
圖1 文章數(shù)目與實體數(shù)目關系
表5 Golden情況下語料數(shù)量對無監(jiān)督平臺性能影響
從實驗結(jié)果可以看出,在基于無監(jiān)督聚類的指代消解平臺上,語料的數(shù)量對指代消解平臺性能的影響不是很大,采用不同數(shù)量的語料進行測試時,平臺性能波動不大。在基于有監(jiān)督學習方法的指代消解平臺上,由于需要語料去訓練模型,因此語料不充分的話,訓練出來的模型文件就不能很好地對測試文件進行分類,所以語料的數(shù)量對平臺性能有一定影響,而在基于無監(jiān)督的指代消解平臺上,由于不需要用訓練語料去訓練模型,僅需要根據(jù)定義的一些不兼容函數(shù)及特征獲取名詞短語間的距離,將距離小于某一閾值的名詞短語放到一個簇中,因此,語料數(shù)量對無監(jiān)督平臺的性能影響不大。
本文中語料標注質(zhì)量理解為語料庫中標注的指代鏈信息的準確度。為了探討語料標注質(zhì)量對中文名詞短語指代消解的影響,本文結(jié)合了無監(jiān)督指代消解平臺和基于有監(jiān)督學習方法的指代消解平臺,無監(jiān)督指代消解平臺聚類后的結(jié)果理解為標注的指代鏈信息,將這些信息作為訓練語料加入到基于有監(jiān)督學習方法的指代消解平臺上,因此不同的聚類結(jié)果反應了標注指代鏈的質(zhì)量,基于有監(jiān)督學習方法的指代消解平臺的結(jié)果也反應了標注指代鏈質(zhì)量對指代消解的影響。平臺框架如圖2所示。
在實驗過程中,本文選用了OntoNotes 3.0中文新聞語料中260篇文章作為訓練語料,剩下的65篇文章作為測試語料,先將訓練語料利用無監(jiān)督模型進行聚類,將聚類后的結(jié)果作為標注的語料參與到有監(jiān)督平臺中的模型訓練中。在無監(jiān)督平臺上本文選用了幾個不同的閾值r,使其有不同的聚類結(jié)果,這些結(jié)果也反應了指代鏈標注的質(zhì)量,實驗結(jié)果如表6所示。
圖2 平臺框架
閾值rMUCBCUBCEAFEP/%R/%F/%P/%R/%F/%P/%R/%F/%443.6155.8148.9668.0879.673.3951.1441.8546.03343.6155.8148.9668.0879.673.3951.1441.8546.03242.5253.9647.5668.4778.9773.3450.3441.745.61154.9955.7655.3776.4975.9576.2248.594848.3053.1258.4255.6474.3578.4276.3350.5846.5148.46-162.5352.457.0282.1871.7476.6144.6752.3848.22-260.9364.1462.4978.8379.6779.2554.151.5352.78-360.6964.3462.4678.6479.8779.2554.3651.4352.85-460.9364.3962.6178.7479.879.2654.3151.5352.89
從實驗結(jié)果可以看出,不同的閾值r對平臺性能影響較大,這也反應了在基于有監(jiān)督學習方法的中文名詞短語指代消解平臺中,語料標注的質(zhì)量對中文名詞短語指代消解的結(jié)果影響較大。另外,當利用一些不準確的指代鏈信息去訓練模型的時候,指代消解的結(jié)果還沒有無監(jiān)督情況下指代消解的結(jié)果要好。當閾值為-4時,無監(jiān)督指代消解性能的結(jié)果在3種評測工具下F值平均為66%。從表6可以看出,在3種評測工具下,F(xiàn)值平均為64.92%。因此,在語料庫標注質(zhì)量較差的情況下,基于有監(jiān)督學習方法的指代消解平臺的性能不如無監(jiān)督聚類平臺的性能好。
本文主要在無監(jiān)督中文名詞短語指代消解平臺和基于有監(jiān)督學習方法的中文名詞短語指代消解平臺的基礎上探討了語料的數(shù)量和語料的標注質(zhì)量對中文名詞短語指代消解的影響。實驗中采用的都是OntoNotes 3.0中文新聞語料。實驗結(jié)果顯示,在基于有監(jiān)督學習方法的指代消解平臺中,語料的數(shù)量和語料標注的質(zhì)量對指代消解的性能都有較大影響。在基于無監(jiān)督聚類的指代消解平臺中,語料數(shù)量對指代消解的性能影響不大, 由于采用無監(jiān)督聚類的方法,不需要標注語料,因此,語料標注的質(zhì)量對無監(jiān)督指代消解平臺性能影響也不大。
[1] Jerry Hobbs. Resolving pronoun reference[J]. Lingua,1978, 44:339-352.
[2] Lappin S, Herbert J L. An algorithm for pronominal anaphora resolution[J].Computational Linguistics,1994,20(4):535-561.
[3] Soon W M, Ng H T, Lim D. A machine learning approach to coreference resolution of noun phrases[J]. Computational Linguistics,2001,27(4):521-544.
[4] V Ng, C Cardie. Improving machine learning approaches to coreference resolution [C]//ACL’2002:104-111.
[5] Yang X F, Su J, Tan C L. Kernel-based pronoun resolution with structured syntactic knowledge[C]// ACL’2006:41-48.
[6] Zhou G D, Kong F, Zhu Q M. Context-sensitive convolution tree kernel for pronoun resolution[C]//IJCNLP’2008:25-31.
[7] Vincent Ng. Unsupervised Models for Coreference Resolution[C]//EMNLP’2008:640-649.
[8] Hoifung Poon, Pedro Domingos. Joint Unsupervised Coreference Resolution with Markov Logic[C]//EMNLP’2008:650-659.
[9] 王厚峰,何婷婷. 漢語中人稱代詞的消解研究[J].計算機學報,2001,24(2):6-13.
[10] 王厚峰,梅錚. 魯棒性的漢語人稱代詞消解[J].軟件學報,2005,16(5):700-707.
[11] 王厚峰.指代消解的方法和實現(xiàn)技術[J].中文信息學報,2002,16(6):9-17.
[12] Grace Ngai, Chi Shing Wang. A Knowledge-based Approach for Unsupervised Chinese Coreference Resolution [J]. Computational Linguistics and Chinese Language Processing. 2007, 12(4): 459-484.
[13] 周俊生,黃書劍,陳家駿,等. 一種基于圖劃分的無監(jiān)督漢語指代消解算法[J]. 中文信息學報, 2007,21(2):77-82.
[14] 李國臣,羅云飛. 采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J]. 中文信息學報,2005,119(14):24-30.
[15] 史樹敏,黃河燕,劉東升. 自然語言文本共指消解性能評測算法研究[J].計算機科學,2008,35(9):168-171.