許永良,周曉輝,李曉戈
(西安郵電大學計算機學院,西安 710121)
面向信息抽取的指代消解探究
許永良,周曉輝,李曉戈
(西安郵電大學計算機學院,西安 710121)
指代消解是自然語言處理中的重點難點,對信息抽取具有重要意義.指代分有三種形式:代詞指代,名詞指代及零形回指.其中代詞指代和名詞指代是漢語中最基礎(chǔ)的指代形式,以上兩種指代的消解是指代消解研究的基礎(chǔ).為解決這一基本問題,使用決策樹方法同時對兩種形式指代進行處理.實驗結(jié)果顯示,所提出方法在不犧牲指代消解準確率的基礎(chǔ)上,較大提高了指代消解的召回率.
信息抽??;指代消解;命名實體;決策樹;有限狀態(tài)機
指代消解是信息抽取中極其重要的一項任務(wù).在正常文本中,相同信息會在同文本中出現(xiàn)若干次.作者為了行文簡練,文本的概念關(guān)聯(lián)性會更多地通過指代關(guān)系來描述.為實現(xiàn)相關(guān)信息的融合,獲得相應(yīng)信息在該文本中最完整的描述集合,將這些指代相互聯(lián)系起來是十分必要的.
指代作為一種常見的語言現(xiàn)象,廣泛存在于自然語言的各種表達中,它是指篇章中的一個語言單位(通常是詞或短語)與之前出現(xiàn)的語言單位存在的特殊語義關(guān)聯(lián),其語義解釋依賴于前者.用于指向的語言單位稱為指代語(Anaphor),被指向的語言單位稱為先行語(Antecedent),而確認指代語所指的先行語的過程即為指代消解.
指代消解的相關(guān)研究歷史很長.早期方法多偏向于理論中探索,使用大量人工編制的語言知識甚至是學科領(lǐng)域的知識來進行指代消解.近年來,機器學習等自然語言自動處理技術(shù)發(fā)展迅速,基于弱語言知識的自動指代消解技術(shù)廣泛出現(xiàn).但受制于弱語言知識,近年來自動指代消解技術(shù)的性能增進遇到了瓶頸,研究人員開始將目光轉(zhuǎn)向結(jié)構(gòu)化句法信息及語義信息等基于自動產(chǎn)生的深層語言知識方面的研究.
與其他語言不同,漢語回指的三種形式:零形回指,代詞回指和名詞回指中,零形回指出現(xiàn)的頻率最高,分布最廣,被認為是漢語回指的標準形式[1].代詞回指和名詞回指中回指詞都有實體形式——相對應(yīng)的回指詞為代詞和名詞,相對于零形回指來說,這兩種指代消解的類型是有標記的消解.零形回指中零形式的出現(xiàn)沒有具體的標記,已有的零形回指的消解工作大多默認零形式位置已知,人工標注零形式的位置.
由于實際需要,自然語言處理領(lǐng)域的中文指代消解的研究正迅速發(fā)展.但受限于中文的特點,目前更集中在有實體形式的代詞及名詞指代消解方面,零形回指的處理研究較少.
人稱代詞方面,王厚峰等采用了近似Mitkov的基于弱化語言知識的方法,解決人稱代詞的消解[2];李國臣等使用決策樹機器學習算法,結(jié)合優(yōu)化選擇策略,進行人稱代詞消解研究[3];王智強等利用決策樹方法進行了中文共指消解處理研究[4].
名詞方面,孔芳等提出一種基于中心理論的指代消解研究,在對代詞指代消解基礎(chǔ)上,增加了對名詞指代的消解工作[5];謝永康等提出一種譜聚類的共指消解方法[6];胡乃全等基于最大熵模型對中文指代進行了消解研究[7];高俊偉等基于支持向量機方法對中文名詞短語指代消解進行了研究[8].
實驗使用用于信息抽取的多層級混合架構(gòu)自然語言處理系統(tǒng).系統(tǒng)主要用于批量文本的信息抽取處理.
系統(tǒng)多層級模塊間,傳輸同一數(shù)據(jù)結(jié)構(gòu)—tokenlist[9].結(jié)構(gòu)中標有文本中所有文字字符以及相應(yīng)文字的特征屬性.模塊中,對文字特征屬性進行添加刪除操作.最終以命名實體為中心,創(chuàng)建相應(yīng)關(guān)鍵實體的信息抽取結(jié)果文件—profile[10].
指代消解處理后,同一命名實體的實體詞和相關(guān)指代詞將完成合并,會大大豐富每一實體profile中的有效信息,并降低profile的合并復(fù)雜度.
本文基于規(guī)則方法,使用有限狀態(tài)機,在tokenlist結(jié)構(gòu)上,完成對文本中名詞指代和代詞指代的語句定位,使用決策樹方法,完成對這兩種回指的消解工作.
3.1 實驗語料
語料庫使用2012年6月中,在百度新聞欄目中截取的80篇文章語料,并進行了指代詞的人工標注.
語料中對與命名實體相關(guān)的指代詞進行了分類標注:先行詞為命名實體的零形指代詞、人稱代詞、名詞指代詞、代詞名詞組合指代詞等.
3.2 指代消解處理流程
指代消解需要基本自然語言處理結(jié)果,相關(guān)系統(tǒng)流程如圖1所示.
3.2.1 分詞及詞性標注
分詞及詞性標注使用中科院分詞系統(tǒng)ICTCLAS進行基本處理.詞性標注集文本處理范例:
圖1 指代消解系統(tǒng)流程
中國/ns 聯(lián)合/v 網(wǎng)絡(luò)/n 通信/vn 集團/n 有限公司/n (/w 簡稱/v “/w 中國/ns 聯(lián)通/nz”/w)/w 于/p 2009年/t 1月/t 6日/t 在/p 原/b 中國/ns 網(wǎng)/n 通/v 和/c 原/b
中國/ns 聯(lián)通/nz 的/u 基礎(chǔ)/n 上/m 合并/v 組建/v 而/c 成/m,/w 是/v 中國/ns唯一/b 一/m 家/q 在/p 紐約/ns 、/w 香港/ns 、/w 上海/ns 三/m 地/u 同時/d 上市/v 的/u 電信/n 運營/vn 企業(yè)/n ./w
3.2.2 命名實體識別
信息抽取以命名實體為核心.本系統(tǒng)使用最基本的四類命名實體作為信息采集的中心:人物實體(NePer),組織實體(NeOrg),地點實體(NeLoc),時間實體(NeTIME).其中,與指代消解關(guān)系最為密切的是人物實體與組織實體.
人物實體(NePer)在文本中表現(xiàn)形式主要為人物姓名,以及部分常見別名、簡稱等,如:
曾國藩/NePer謚號是文正,因而也被人稱為文正公/NePer.
組織實體(NeOrg)包括組織機構(gòu)的全名及簡稱,如:
中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司/NeOrg(簡稱“中國聯(lián)通/NeOrg”)于2009年1月6日/NeTIME在原中國網(wǎng)通/NeOrg和原中國聯(lián)通/NeOrg的基礎(chǔ)上合并組建而成,是中國/NeLoc唯一一家在紐約/Ne-Loc、香港/NeLoc、上海/NeLoc三地同時上市的電信運營企業(yè).
系統(tǒng)使用條件隨機場模型進行人物實體、地點實體及部分組織實體的識別.輔助使用有限狀態(tài)機對部分組織實體進行識別,并進行識別結(jié)果修正.
3.2.3 回指詞識別
系統(tǒng)使用有限狀態(tài)機對指代詞進行識別.同時為特征屬性明顯的指代詞添加相應(yīng)特征.進行標記的特征有:
基本指代詞(IsAnaphor),例:
這/IsAnaphor是一個夢一樣的地方.
人物指代詞(Anaphor-person),分有男性指代詞(Anaphor-male),女性指代詞(Anaphor-female),例:
李宏和王雪今年剛結(jié)婚,他/Anaphor-male是她/Anaphor-female的高中同學.
組織指代詞(Anaphor-org),例:
東莞市鼎立檢針器檢測試驗設(shè)備有限公司是一新興的高科技公司,自成立以來,公司/Anaphor-org堅持:“誠實守信,持續(xù)發(fā)展”的經(jīng)營理念.
地點指代詞(Anaphor-area),例:
許昌市人大常委會主任石克生主持召開第十七次主任(擴大)會議,認真聽取了該市/Anaphor-area農(nóng)信社服務(wù)“三農(nóng)”情況匯報.
復(fù)數(shù)指代詞(Anaphor-complex),例:
對于湖人隊和納什的球迷來說,他們/Anaphor-complex只希望下賽季能有一個健康的納什.
3.2.4 決策樹方法進行指代消解
決策樹方法是在分類技術(shù)方面應(yīng)用最廣泛的一種方法,也是目前對一般指代消解處理性能較優(yōu)秀的方法之一.本文參考王智強的《基于決策樹的漢語代詞共指消解》搭建決策樹指代消解模塊.流程如圖2.
系統(tǒng)使用80篇新聞?wù)Z料的前60篇作為訓(xùn)練語料,后20篇作為處理對象.
3.3 實驗數(shù)據(jù)
80篇語料中,與命名實體相關(guān),即指代詞數(shù)據(jù)如表1所示:
圖2 指代消解模塊原理圖
表1 80篇語料命名實體指代詞統(tǒng)計
指代消解完成結(jié)果如表2所示:
表2 指代消解結(jié)果統(tǒng)計
指代消解準確率和召回率結(jié)果統(tǒng)計如表3所示.
表3 指代消解準確率和召回率
3.4 實驗結(jié)果分析
本文共選取4個feature作為決策樹訓(xùn)練和分類的依據(jù):sig-plu,gender,nature,distance.各個feature的屬性值及說明如下:
(1)sin-plu表示的是先行詞和代詞之間單復(fù)數(shù)的一種關(guān)系,sin-plu的值總共有3種情況,分別是true、false和unknown.當先行詞與代詞都為單數(shù)或者先行詞與代詞都為復(fù)數(shù)時,此時sin-plu為true;當先行詞與代詞之間的單復(fù)數(shù)不一致時,此時sin-plu為false;當先行詞和代詞兩者中有一個詞的單復(fù)數(shù)未知時,此時sin-plu為unknown.
(2)gender表示的是先行詞與代詞的性別之間的一個關(guān)系,gender的值總共有3種情況,分別是true、false和unknown.當先行詞與代詞都表示的是男性或者都表示的是女性時,此時gender的值為true;當先行詞與代詞之間的性別不相同時,此時gender為false;當先行詞與代詞兩者有一個詞的性別未知時,此時gender的值為unknown.
(3)nature表示的是先行詞與代詞在句子中做的句子成分是否一致.nature的值總共有3種情況,分別是true、false和unknown.當先行詞與代詞在句子中做的句子成分一致時,此時nature為true;當先行詞與代詞在句子中的句子成分不一致時,此時nature為false;當先行詞與代詞兩者中有一個在句子中詞性未知或者是兩者的詞性都未知,此時nature的值為unknown.
(4)distance表示先行詞與代詞之間的距離關(guān)系.當先行詞與代詞在同一個句子里時,此時distance為0;當先行詞在代詞上一個句子里時,此時distance為2,按照此關(guān)鍵依次增長.
自然語言處理的結(jié)果一般采用正確率(precision)、召回率(recall)評估試驗結(jié)果,即
其中,正確率表示:在識別出的標注中,我們的判定有多少是正確的;召回率表示:在所有的標注中,被識別出來的標注有多少,包括正例和反例.
我們選取80篇文章中的60篇作為訓(xùn)練數(shù)據(jù),通過決策樹訓(xùn)練得到分類規(guī)則,剩余的20篇作為處理對象(測試數(shù)據(jù)),用訓(xùn)練得到的分類規(guī)則對測試數(shù)據(jù)進行分類測試.通過手工標注正確的指代集作為標準,對測試數(shù)據(jù)進行統(tǒng)計分析.
通過測試,通過決策樹完成的指代消解結(jié)果中,代詞指代詞消解完成532個,其中正確個數(shù)501個,準確率為94.17%;名詞指代詞消解完成222個,其中正確個數(shù)為209個,準確率為94.14%.但是,總共1 659個指代詞中,一共完成了754個指代詞的消解(其中,正確消解710個,錯誤消解44個),召回率為42.8%.經(jīng)過比對和分析,發(fā)現(xiàn)召回率過低的原因是某些指代詞的指代詞標注漏標.例如:在topic54中關(guān)于房地產(chǎn)的采訪,有一段話:在他看來,房地產(chǎn)市場的調(diào)控還在延續(xù),房價會往哪個方向走,依然是個未知數(shù),根本看不清楚.文中,有人稱代詞“他”,但是系統(tǒng)并沒有標注出指代詞的feature,導(dǎo)致后續(xù)指代消解召回率的降低.
實驗結(jié)果說明:基于決策樹的指代消解,能夠比較出色地完成代詞指代消解和名詞指代消解,但是其召回率有待提高.
本文提出一種基于自然語言基本處理結(jié)果的用決策樹進行指代消解的方法,該方法彌補了決策樹忽略屬性關(guān)聯(lián)性的缺點.實驗結(jié)果顯示:人稱代詞指代消解和名稱代詞指代消解的準確率分別為:94.17%和94.14%,達到了較高的指代消解準確率.召回率為42.8%,召回率比較低,這也是我們今后要改進的方向.
基于決策樹的指代消解方法是自然語言處理使用較為普遍的方法,與其他的使用規(guī)則過濾的方法不同,我們嘗試使用自然語言基本處理和決策樹來進行指代消解,取得了顯著的效果.但是,召回率過低.
在后續(xù)的研究中,我們將會朝兩個方向繼續(xù)研究:(1)考慮更加復(fù)雜的、甚至是網(wǎng)絡(luò)語料庫,用其來進行決策樹指代消解實驗,檢驗基于決策樹的指代消解方法的健壯性,并研究影響指代消解準確率的因素或者feature;(2)在進行詞性標注處理的模塊上,做出改進,提高系統(tǒng)的召回率.
[1] 陳平.話語分析說略[J].語言教學與研究,1987(3):3-19.
[2] 王厚峰.魯棒性的漢語人稱代詞消解[J].軟件學報,2005,16(5):700-707.
[3] 李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學報,2005,19(4):24-30.
[4] 王智強,李蕾,王樅.基于決策樹的漢語代詞共指消解[J].北京郵電大學學報,2006,29(4):1-5.
[5] 孔芳,朱巧明,周國棟,等.基于中心理論的指代消解研究[J].計算機科學,2009,36(6):219-222.
[6] 謝永康,周雅倩,黃萱菁.一種基于譜聚類的共指消解方法[J].中文信息學報,2009,23(3):10-16.
[7] 胡乃全,孔芳,王海東,等.基于最大熵模型的中文指代消解系統(tǒng)實現(xiàn)[J].計算機應(yīng)用研究,2009,26(8):2948-2951,2955.
[8] 高俊偉,孔芳,朱巧明,等.基于SVM的中文名詞短語指代消解研究[J].計算機科學,2012,39(10):231-234.
[9] SOONW,NG H,LIM D.Amachine learning approach to coreference resolution ofnoun phrase[J].Computational Linguistics,2001,27(4):521-544.
[10]ZHOU G D,SU J.A high-performance coreference resolution system using amulti-agent strategy[C]∥COLING'2004.Geneva,Switzerland,2004:522-528.
[責任編輯馬云彤]
Anaphora Resolution Inquiry for Information Retrieval
XU Yong-liang,ZHOU Xiao-hui,LIXiao-ge
(School of Computer Science&Technology,Xi'an University of Posts&Telecommunications,Xi'an 710121,China)
Anaphora resolution is a difficult and important point in Natural Language Processing and important for information retrieval.Anaphora consists of three main forms:pronominal anaphora,nominal anaphora and zero anaphora.In Chinese,pronominal anaphora and nominal anaphora are themost fundamental forms,the resolution ofwhich are the research focus of Coreference Resolution.To solve this problem,we adopt Decision Tree Approach for the treatment of both the anaphora forms.The experimental result shows that the proposed approach can promote the recalling of anaphora resolution without lowering the precision.
information retrieval;anaphora resolution;naming entity;decision tree;finite statemachine
TP391
A
1008-5564(2015)02-0065-05
2015-01-15
許永良(1986—),男,山東煙臺人,西安郵電大學計算機學院碩士研究生,主要從事高性能計算研究;
周曉輝(1978—),男,山東高密人,西安郵電大學計算機學院教授,博士,主要從事高性能計算、金融大數(shù)據(jù)研究;
李曉戈(1962—),男,浙江杭州人,西安郵電大學計算機學院教授,博士,主要從事自然語言處理研究.