劉建華,郭紅梅
(1. 中國科學(xué)院文獻情報中心,北京 100190;2. 中國科學(xué)院大學(xué),北京 100190)
實體名稱規(guī)范的研究探索*
劉建華1,2,郭紅梅1
(1. 中國科學(xué)院文獻情報中心,北京 100190;2. 中國科學(xué)院大學(xué),北京 100190)
以實體名稱規(guī)范為主題,闡明其中兩種類型的任務(wù):一個實體多個名稱的實體共指消解問題和一個名稱指代不同實體的實體歧義問題;針對這兩類任務(wù),綜合分析相關(guān)研究成果,重點介紹現(xiàn)今解決實體名稱規(guī)范的典型思路與方法,以及推動實體名稱規(guī)范研究的重要項目與評測會議;結(jié)合當(dāng)前研究中仍存在的問題,分析探討實體名稱規(guī)范的研究趨勢。
實體名稱規(guī)范;實體消歧;大規(guī)模知識庫;社會網(wǎng)絡(luò)
現(xiàn)實世界中不同的人經(jīng)常會給予同一事物不同的名稱或描述。隨著信息科技的不斷發(fā)展,網(wǎng)絡(luò)資源越來越多,這類事物的名稱也越來越多樣化,這給計算機的自動理解和計算帶來很大挑戰(zhàn)。為支撐相應(yīng)的文本處理任務(wù),如機器翻譯、信息檢索、數(shù)據(jù)挖掘等,將這些名稱、描述與其對應(yīng)的事物對應(yīng)起來,并從中選擇一種規(guī)范的表達作為不同名稱或描述之間的核心關(guān)聯(lián)非常必要,由此產(chǎn)生了實體名稱規(guī)范這一概念。
從主題角度而言,與實體名稱規(guī)范密切相關(guān)的研究主題包括實體名稱共指消解、縮略語識別、實體名稱消歧等,其對應(yīng)的英文名稱為“Named Entity Disambiguation,Abbreviation Reorganization,Coreference Resolution,Named Entity Normalization”等。從任務(wù)角度而言,實體名稱規(guī)范包括兩種類型的任務(wù):(1)一個實體有多種名稱的實體共指問題。該問題既包括代詞的共指消解,如“he”“she”等人稱代詞實際指稱對象的查找,也包括名詞性稱呼的消解,如“44th Present of US”“Barack Obama”“Present Obama”等可能均指代同一個人,這就需要明確這些實體名稱是否確定指代同一個實體概念。(2)一個名稱可能指代不同實體的實體歧義問題[1]。實體由于一個詞義的表達方法(從含義的有限集合枚舉到基于規(guī)則的新含義的產(chǎn)生)、含義列表的細粒度(從細微的區(qū)別到反義詞)、面向領(lǐng)域的與非嚴(yán)格定義的自然文本等原因,往往會出現(xiàn)一個實體名稱可以對應(yīng)到多個命名實體概念上的問題,比如“Washington”既可能指代華盛頓州,也可能指代美國第一任總統(tǒng)。對此就需要明確這些實體名稱具體是什么概念。
本文以實體名稱規(guī)范為主題,重點介紹當(dāng)前解決實體名稱規(guī)范的典型思路與方法,以及推動實體名稱規(guī)范研究的重要項目與評測會議,并結(jié)合當(dāng)前研究中仍存在的問題,分析探討實體名稱規(guī)范的研究趨勢。
實體名稱規(guī)范是一個以計算的方式自動辨析詞語在上下文中的真實含義的過程[2],與常規(guī)的詞義消歧任務(wù)(Word Sense Disambiguation)有很多相似之處,但由于命名實體概念列表的缺乏、實體名稱指稱形式更為多樣(全稱、縮略語、別稱、代詞、簡稱、不同語系的拼寫差異-英美語系等)等問題的存在,實體名稱規(guī)范的任務(wù)更加復(fù)雜。要完成這樣的任務(wù),其中需要涉及很多知識,不僅需要語言學(xué)方面的常用知識,如淺層的詞匯、語法、句法等的分析,還需要用到很多語義及其背景知識信息。本文對當(dāng)前的一些主要研究進行梳理,提煉出三種主流的方法思路,具體闡述如下。
2.1基于Web對象屬性信息的實體名稱規(guī)范研究
Web頁面中往往嵌入了各種各樣的對象,如人、產(chǎn)品、組織機構(gòu)等實體名稱。從Web頁中抽取并集成這些對象,可以實現(xiàn)功能強大的對象層內(nèi)容揭示。此類方法的優(yōu)勢在于其來源數(shù)據(jù)的特殊性,這些來源于Web網(wǎng)頁的資源在獲取其屬性方面具有很大的便利性,從而為基于屬性模板的共指消解提供了很大的便利條件。
Nie等認為,Web對象是描述某一Web信息的數(shù)據(jù)單元,通??梢钥醋髋c應(yīng)用領(lǐng)域相關(guān)的概念[3]。一個Web對象可以通過一系列的屬性表示,如A={a1, a2,…, am}。對象的屬性集可根據(jù)領(lǐng)域的需要預(yù)先設(shè)置。在實際研究中,Nie等將Web上一系列有一定結(jié)構(gòu)的相同條目(如產(chǎn)品列表、服務(wù)列表等)稱為數(shù)據(jù)記錄,首先從數(shù)據(jù)源中抽取出與領(lǐng)域相關(guān)的數(shù)據(jù)記錄,形成對象記錄級別的標(biāo)識;其次,進行對象屬性級別(attributelevel)的抽取,這一過程主要是對上一步抽取出的數(shù)據(jù)記錄進行分析,將數(shù)據(jù)記錄中的不同部分標(biāo)識成為不同的屬性,并且從多個來源的記錄中,實現(xiàn)同一對象不同屬性值的獲?。蛔詈?,依據(jù)所獲取的屬性值來實現(xiàn)對象的融合[4]。
盡管該類方法實現(xiàn)的便利性和準(zhǔn)確習(xí)慣都較高,但該類方法也有較大限制,對于來源數(shù)據(jù)的格式限制較多,僅適用于少量結(jié)構(gòu)化或半結(jié)構(gòu)化描述實體的網(wǎng)頁。
2.2基于大規(guī)模知識庫的實體名稱規(guī)范研究
實體消歧的關(guān)鍵問題是測度實體名稱出現(xiàn)的相似度,傳統(tǒng)的測度方法是利用BOW(bag-of-word)模型,但它忽略了語義關(guān)系。隨著網(wǎng)絡(luò)上結(jié)構(gòu)化、半結(jié)構(gòu)化知識庫的出現(xiàn),為彌補以往方法的不足,不少學(xué)者提出利用如Wikipedia[5]、Yago[6]等資源庫構(gòu)建大規(guī)模的知識庫,基于這些知識庫提供的背景知識來提升實體名稱規(guī)范的效果,這也是當(dāng)前實體名稱規(guī)范研究中的核心內(nèi)容之一。
Wikipedia由于覆蓋概念多,每篇文章中都包含一個實體或一個概念的信息,具有豐富的語義信息且內(nèi)容時時更新等特點,往往成為研究者們在開展此類研究或構(gòu)建其他大規(guī)模知識庫時的首選。Fader等介紹了GROUNDER系統(tǒng),通過利用Wikipedia上用戶貢獻的信息和新的消歧模型,有效利用先驗信息,組合先驗信息和語境信息以提高消歧精度[7]。Nguyen等將文本提到的實體映射到Wikipedia中正確的實體,在基于候選實體統(tǒng)計秩序模型基礎(chǔ)上,證明Wikipedia和文本的功能組合是消歧的最好選擇[8]。Ploch等將實體名稱消歧看作將文本中的實體提及與預(yù)定義在知識庫中的指稱詞相關(guān)聯(lián)的任務(wù),他們在研究中通過挖掘共現(xiàn)的實體間在Wikipedia里的關(guān)聯(lián)關(guān)系,通過實體共現(xiàn)與歧義形式的關(guān)系推導(dǎo)出可用于分類候選實體的功能范圍,并將消歧功能進行組合,利用SVM分類器得到有效結(jié)果[9]。
但是由于Wikipedia在數(shù)據(jù)的準(zhǔn)確性、概念結(jié)構(gòu)的表達方面仍存在不足,因此,不少研究者又將眼光轉(zhuǎn)向了近年來的熱門知識庫之一LOD(Linked Open Data),經(jīng)過人工篩選、組織過的LOD在準(zhǔn)確性和關(guān)聯(lián)表達方面具備更強的知識處理優(yōu)勢。Damljanovic等認為Linked Data是擴充已可用語境的有效資源,并將先進的命名實體工具與基于Linked Data相似度測度方法進行結(jié)合,證明該方法能提高Wikipedia消歧精度[10]。Nebhi等采用FreeBase和句法分析結(jié)合的方式完成詞義消歧的任務(wù),試驗顯示了消歧效果的提升[11]。
除LOD外,各種語義層級關(guān)聯(lián)更為豐富的本體也是研究者們探索實體名稱規(guī)范的重要知識庫。Saggion等基于歐盟的MUSING(MUlti-industry,Semanticbased next generation business INtelliGence,基于語義的下一代多產(chǎn)業(yè)商業(yè)情報)平臺,在跨數(shù)據(jù)源的知識單元獲取與集成任務(wù)方面作出了一定探索,整個研究過程分為基于本體的信息抽取和跨數(shù)據(jù)源對象集成兩部分。其中由領(lǐng)域?qū)<覙?gòu)建的商業(yè)本體是系統(tǒng)的首要特征,包含商業(yè)領(lǐng)域的類層次結(jié)構(gòu)、關(guān)系和屬性。在對每一篇文檔進行標(biāo)注后,獲取各標(biāo)注對象所在的文檔和描述內(nèi)容部分,計算其相似度,實現(xiàn)多數(shù)據(jù)源中同一個標(biāo)識對象的聚類,從而實現(xiàn)命名實體的規(guī)范[12]。Han等綜合利用WordNet、Wikipedia、網(wǎng)頁信息等多種知識源挖掘?qū)嶓w指稱項的上下文語義信息,并提出基于圖的知識表示模型,將異構(gòu)語義信息融合在統(tǒng)一的基于圖的知識表示框架下,以此為基礎(chǔ)挖掘概念之間的潛在語義關(guān)聯(lián),從而同時集成來自于不同知識源的語義知識,有效提升實體名稱規(guī)范的效率[13]。
2.3基于社會網(wǎng)絡(luò)的實體名稱規(guī)范研究
隨著搜索引擎和社會網(wǎng)絡(luò)挖掘技術(shù)的不斷發(fā)展,利用人物社會關(guān)系構(gòu)建社會網(wǎng)絡(luò),進而實現(xiàn)相應(yīng)的實體消解也逐漸成為目前的關(guān)鍵思路之一,主要應(yīng)用于人名消歧,通常是先使用譜聚類對社會網(wǎng)絡(luò)中的人名聚類,然后根據(jù)不同社會網(wǎng)絡(luò)邊權(quán)值和不同圖劃分準(zhǔn)則對人名消歧效果的影響,引入模塊度閾值作為社會網(wǎng)絡(luò)劃分的停止條件[14]。
在基于社會網(wǎng)絡(luò)的實體名稱規(guī)范方面,Bekkerman等提出了一種非監(jiān)督的框架來解決檢索某個特定人物時返回大量無關(guān)人員頁面的問題。其中兩個關(guān)鍵內(nèi)容包括網(wǎng)頁間的鏈接關(guān)系與Agglomerative重復(fù)聚類。在該方法中,網(wǎng)頁間的鏈接關(guān)系即主要用于構(gòu)建人物的社會網(wǎng)絡(luò)[15]。郎君等依據(jù)同名的不同人物具有不同社會網(wǎng)絡(luò)的思想,利用檢索結(jié)果中共現(xiàn)的人名發(fā)現(xiàn)并拓展檢索人物相關(guān)的潛在社會網(wǎng)絡(luò),結(jié)合圖譜分割算法和模塊度指標(biāo)進行社會網(wǎng)絡(luò)的自動聚類,在此基礎(chǔ)上實現(xiàn)人名檢索結(jié)果的重名消解。在人工標(biāo)注的中文人名語料上進行實驗,整體性能達到較好水平,圖聚類算法能幫助連通社會網(wǎng)絡(luò)的進一步劃分,從而提高消解效果[16]。PABICO針對社交網(wǎng)絡(luò)中的實體名稱歧義問題,提出采用圖-字圖的方式來確定不同實體的相似性,從而解決實體名稱的歧義[17]。
實體名稱規(guī)范的研究離不開重大項目、國際評測會議的推動發(fā)展,本文對這些重點內(nèi)容進行梳理。
3.1國內(nèi)外主要的實體名稱規(guī)范項目
(1)英國國家檔案館TNA-Search項目[18]
英國國家檔案館TNA(the National Archives,作為Government Web Archive Project中的一部分,主旨在于如何用簡單直觀的機制,提高TNA中與政府網(wǎng)站相關(guān)的記錄的開放利用度)是大規(guī)模實體名稱規(guī)范的代表性項目。為解決項目中的實體名稱規(guī)范問題,TNASearch項目主要利用GATE,聯(lián)合了FactForge和SKB(Semantic Knowledge Base)Ontology,構(gòu)建了大規(guī)模的語義倉儲庫(Large Knowledge Base,LKB),通過倉儲庫所提供的詳細的對象描述等背景信息,計算實現(xiàn)實體名稱的規(guī)范。
具體而言,該項目基于LKB直接將文檔中的實體與各種不同的本體建立關(guān)聯(lián),或者通過其中的實例,或者通過概念。LKB使用一系列SPARQL查詢集合的配置文件到SKB中檢索。標(biāo)注的實體與SKB中的實例關(guān)聯(lián)是通過兩個互補的途徑完成:通過LKB詞典找到一個匹配時,SKB中類與實例信息被添加到文本中的相關(guān)實體上;文本中的實體與SKB中的類或?qū)嶓w沒有直接關(guān)聯(lián)時,通過共指的方式實現(xiàn)關(guān)聯(lián)。即如果文本中某段提及在上述過程中已經(jīng)與SKB建立關(guān)聯(lián)時,該實體所有共指提及均可通過TNA Instance Generator自動獲得相同類和實例信息。在進行規(guī)范標(biāo)注時,項目將一篇文檔中同一個實體的不同表達關(guān)聯(lián)在一起,同時還添加通過semantic tagger發(fā)現(xiàn)的標(biāo)注間的特征關(guān)系。通過這種規(guī)范標(biāo)注方式,TNA-Search實現(xiàn)了人物、地理名稱、機構(gòu)、時間等11種命名實體的自動標(biāo)注與規(guī)范。
(2)OKKAM[19]
OKKAM是由歐盟委員會資助的第七框架項目(FP7)下的一個大規(guī)模集成項目,其基本理念是根據(jù)14世紀(jì)的“奧卡姆剃刀”(Occam’s razor)原則,提倡如果沒有必要則不增加實體的標(biāo)識符。OKKAM為內(nèi)容創(chuàng)建者、編輯和開發(fā)人員等提供一個全球性的基礎(chǔ)設(shè)施,稱為實體命名系統(tǒng)(Entity Name System,ENS),該系統(tǒng)包含一種基于特征的實例匹配方法FBEM,通過集成兩個實例標(biāo)識符的多種不同特征屬性及其屬性值之間的相似度,識別出可能的對象共指。例如,F(xiàn)BEM使用了基于Levenstein編輯距離的方法來比較實例標(biāo)識符的本地名。
(3)國內(nèi)典型的項目
共指消解和實體消歧是文本處理中的重要任務(wù),對于提高信息檢索的效率、深度文本挖掘有著非常重要的作用,國內(nèi)目前在此方面也有不少相關(guān)的研究項目在開展。比較典型的有清華大學(xué)的RiMOM[20]和南京大學(xué)的ObjectCoref[21]。
RiMOM是清華大學(xué)研發(fā)的一種集成多種本體匹配方法的多策略本體匹配系統(tǒng),其中也包含多種實例匹配方法。針對實例匹配,RiMOM將每個實例所含信息分為六類:URL、元信息、名稱、字符串類型信息、非字符串類型信息和鄰居信息。通過基于編輯距離的方法和向量空間模型,計算實例所含各種信息之間的相似度,并使用元信息和非字符串類型信息進一步過濾,最后通過多種策略將各種相似度集成起來用于發(fā)現(xiàn)對象共指。
與RiMOM不同,南京大學(xué)的ObjectCoref基于語義Web搜索系統(tǒng)Falcons提供的數(shù)據(jù)集,目前已經(jīng)包含超過7 300萬個實例標(biāo)識符。ObjectCoref首先利用語義等價推理,構(gòu)建初始訓(xùn)練集;隨后基于這個訓(xùn)練集不斷學(xué)習(xí),自舉式地識別對象共指。該系統(tǒng)還考慮了頻繁屬性組合,同時使用兩個屬性識別對象共指(例如經(jīng)度和緯度、姓和名),進一步提高消解的準(zhǔn)確度。另外,還基于語義等價關(guān)系是否可以解引以及實例標(biāo)識符在不同RDF文檔中的出現(xiàn)次數(shù)等,對共同指稱同一對象的實例標(biāo)識符進行排序。ObjectCoref提出一種新的語義等價推理與相似度計算相集成的體系結(jié)構(gòu),能夠較為全面地識別對象共指,但是訓(xùn)練集中的錯誤共指關(guān)系可能會導(dǎo)致學(xué)習(xí)過程中的錯誤積累,使得識別的準(zhǔn)確性降低。
3.2實體名稱規(guī)范的相關(guān)評測會議
為促進實體名稱規(guī)范研究的不斷發(fā)展,國際上有不少與之相關(guān)的評測會議,通過細化評測任務(wù),提供相應(yīng)的語料集合,提供交流的平臺,推動相關(guān)研究的不斷發(fā)展。本文篩選了幾個比較典型的評測會議進行介紹,以期為其他研究提供參考。
(1)Automatic Context Extraction(ACE)與Text Analysis Conference(TAC)
ACE會議自1999年7月開始醞釀,2000年12月正式啟動,由美國國家安全局(NSA)、美國國家標(biāo)準(zhǔn)和技術(shù)學(xué)會(NIST)以及中央情報局(CIA)共同主管,截至2016年已經(jīng)舉辦過八屆[22]。ACE的測評任務(wù)定義:實體探測與識別(Entity Detection and Recognition,EDR)、價值探測與識別(Value Detection and Recognition,VAL)、時間表達識別與標(biāo)準(zhǔn)化(Time Expression Recognition and Normalization,TERN)、關(guān)系探測與識別(Relation Detection and Recognition,RDR)以及事件探測與識別(Event Detection and Recognition,VDR)。共指消解的評測任務(wù)主要蘊含于實體探測與識別EDR中,將篇章中出現(xiàn)的各種提及表述指向?qū)?yīng)的實體,從而給出一個實體全面的描述。這項任務(wù)中首先需要識別出各種表述,然后將描述同一實體的表述合并,該合并過程就是共指消解的過程。值得一提的是,從2003年開始ACE中開始包含中文的相關(guān)評測,至今已經(jīng)開展5次評測。其中的共指消解也是迄今為止唯一的中文共指消解國際評測。
在2008年后,ACE會議被TAC會議(Text Analysis Conference)[23]所取代,TAC-KBP從2009年開始到現(xiàn)在共進行了六屆,該評測任務(wù)中直接與實體名稱規(guī)范相關(guān)的即實體鏈接(Entity Linking)評測。目前,TAC實體鏈接任務(wù)的目標(biāo)實體知識庫使用2008年10月版本的Wikipedia構(gòu)建,包含近82個實體,其中有人物實體11萬,組織實體5.5萬,地理實體11萬,其他類別實體53萬,目標(biāo)知識庫總量約2.6G[24]。
(2)Web環(huán)境中人名消歧任務(wù)評測會議(Web People Search Evaluation,WePS)
WePS是針對英文網(wǎng)頁中人名消歧任務(wù)進行評測的一個專門會議,由 Gonzalo和 Sekine主要負責(zé)組織,至今共組織過3次[25]。該任務(wù)集中于在Web檢索場景中人名的消歧。參加測試的系統(tǒng)將在接收到一個以人名為檢索式的Web檢索后,確定有多少個不同的涉及人員在檢索結(jié)果中,并將特定的指稱分配給相應(yīng)的文檔。從總體上來說,這個任務(wù)是個聚類問題。對給定的一組文檔,按照文檔中出現(xiàn)的某個指定的人名所指向的人進行聚類。最后,在每個類中,所有指定的人名都必須是指向現(xiàn)實生活中的同一個人。從WePS3發(fā)布的評測任務(wù)看,在該評測中,需要重點從人物的屬性角度出發(fā),包括人員的生日、出生地、別名、工作、所屬機構(gòu)、獲得獎項、學(xué)校、學(xué)位、專業(yè)、民族、電話等多個方面年代信息。受該項目啟發(fā),李文捷等也于2010年組織發(fā)起了專門針對中文人名消歧的評測任務(wù)[26],至今已經(jīng)舉辦了二屆。
(3)指代消解練習(xí)(ARE)[27]
2006年11月—2007年3月,英國伍爾佛漢普敦大學(xué)發(fā)起了一個名為指代消解練習(xí)的共指消解評測。這項評測是迄今為止在英文上進行的最全面的共指消解評測,包含四項評測任務(wù):①預(yù)標(biāo)注文檔上的人稱代詞消解。文檔內(nèi)的名詞短語都被識別出來,而且需要消解的代詞也被標(biāo)注出來。參加系統(tǒng)需要對每個人稱代詞在一個不包含人稱代詞的名詞短語列表中找到正確的先行語。②預(yù)標(biāo)注文檔上的共指消解。文檔內(nèi)所有的名詞短語都被識別出來,參加系統(tǒng)需要將文檔內(nèi)的所有共指鏈識別出來。③生語料上的人稱代詞消解。和第一項任務(wù)不同的是,評測文檔沒有經(jīng)過任何標(biāo)注,需要參加系統(tǒng)自行識別相關(guān)信息。④生語料上的共指消解。和第二項任務(wù)不同的是,評測文檔沒有經(jīng)過任何標(biāo)注,需要參加系統(tǒng)自行識別相關(guān)信息。
除上述的四種不限于領(lǐng)域的評測外,還有一些領(lǐng)域特定的共指消解任務(wù)評測,如生物醫(yī)藥領(lǐng)域的生物醫(yī)藥領(lǐng)域的自然語言處理及應(yīng)用聯(lián)合工作組JNLPBA(Joint Workshop on Natural Language Processing in Biomedicine and Its App Locations)以及生物學(xué)領(lǐng)域信息抽取的關(guān)鍵評價BioCreAtIve(Critical Assessment of Information Extraction Systems in Biology)。這些評測會議不斷推動著實體名稱規(guī)范研究的開展。
盡管目前針對實體名稱規(guī)范的研究已經(jīng)開展得較為成熟,但從評測會議的結(jié)果(2012年參加TAC entity linking測評的系統(tǒng)平均效率為72.1%[28])來看,目前的識別效率仍不足以滿足大規(guī)模的實際應(yīng)用,其中還面臨很多問題需要解決。比如,空目標(biāo)實體問題、知識庫的覆蓋度問題、知識庫不確切的問題、知識庫使用的問題等[29]。因此,圍繞著這些問題,此領(lǐng)域的研究主要存在以下幾種發(fā)展趨勢。
(1)算法趨于多模型的融合
在過去的研究中,基于語言學(xué)特征的統(tǒng)計學(xué)方法和機器學(xué)習(xí)方法主流是分開思考的,很多研究都是在機器學(xué)習(xí)的分類或聚類中選擇特征時再考慮加入一些語言學(xué)特征,這種融合方式對提高識別的效率比較有限。目前的研究中,研究者們逐漸開始考慮利用語言學(xué)思路來構(gòu)建更加豐富的機器學(xué)習(xí)模型。Elango提出了一種初始化的建議,結(jié)合中心理論和條件隨機域模型(CRF)來實現(xiàn)人稱代詞消解?;贑RF模型的靈活性,依賴于上下文的傳遞優(yōu)選性能被很好地融入模型中[30]。Poesio等將子句作為話語單元,將篇章可以表示成一系列子句的集合,進而將篇章表示為一系列預(yù)指中心集合的特征空間。這個預(yù)指中心列表構(gòu)成的特征空間可以融合一些相關(guān)特征,如語法角色、性別、單復(fù)數(shù)等[31]。類似的序列CRF模型上的推理和估計,還可以采用 Sutton和 McCallum討論的技術(shù)[32]。
(2)消歧特征的篩選越來越多樣化
從當(dāng)前發(fā)表的研究論文較為集中的研究主題看,研究者越來越重視在實體名稱規(guī)范中引入越來越多的特征,單純從算法上進行改進而實施基于“知識匱乏”的研究方法越來越不被主流研究所看重。歸納起來,目前常用的實體消歧特征主要如表1所示。
表1 實體消歧特征歸納
被應(yīng)用的特征越來越多,而不斷涌現(xiàn)出的各種語料資源庫恰恰為這些深層的語言學(xué)知識獲取提供了非常好的途徑,主要包括:①常規(guī)的知識庫,如WordNet、HowNet、WikiPedia、DBPedia、Yago等。②利用大規(guī)模的語料庫挖掘模式信息,如Hearst等通過構(gòu)建了“is-a”等模板,用于從文本中發(fā)現(xiàn)同義詞[33];Bergsma在一個經(jīng)過Minipar依存分析的語料庫上獲取了大量的指代信息,實現(xiàn)了英文名詞短語性別和單復(fù)數(shù)信息的模板化提取[34];Yang和Su利用語料庫中發(fā)現(xiàn)的模板信息來增強共指消解[35]。③充分利用互聯(lián)網(wǎng)這一語料庫,利用搜索引擎顯示的各個查詢得到的返回數(shù)來計算各種相關(guān)信息。該方法是將整個互聯(lián)網(wǎng)當(dāng)成一個巨大的語料庫,利用搜索引擎顯示的各個查詢得到的返回數(shù)來計算各種相關(guān)信息,例如Poesio等通過計算互信息來考察兩個短語的關(guān)聯(lián)程度[31]。
(3)大規(guī)模知識庫的自動構(gòu)建成為實體規(guī)范研究的重要組成之一
實驗充分表明,高質(zhì)量的大規(guī)模知識庫對提升實體名稱規(guī)范的效率有很強的支撐作用。面對當(dāng)前指數(shù)級增長的網(wǎng)絡(luò)數(shù)據(jù),依靠人工的專家構(gòu)建知識庫方式顯然費時費力,且會造成信息的滯后。因此,富含語義信息關(guān)聯(lián)的大規(guī)模知識庫的自動構(gòu)建顯得尤為重要。開放式信息抽取技術(shù)的研究以及Wikipedia、Freebase等大規(guī)模半結(jié)構(gòu)化的網(wǎng)絡(luò)知識庫的出現(xiàn),為大規(guī)模知識庫的自動構(gòu)建提供了良好的基礎(chǔ)。目前,較有代表性的工作有基于Wikipedia的YAGO,該語料庫采用實例、實例間關(guān)聯(lián)三元組的方式存儲知識,所有的實例和實例間的關(guān)系均來源于Wikipedia的category pages,并與WordNet進行銜接,對于每一個實體事實YAGO還賦予了可信度的標(biāo)注,準(zhǔn)確率達到95%。目前YAGO2中包含了1 000萬個實體及1.2億條描述實體關(guān)聯(lián)的事實記錄[6]。此外,中國科學(xué)院自動化所的徐立恒等利用在信息抽取方面的技術(shù)積累,以《中國大百科全書》知識體系作為目標(biāo)知識庫的結(jié)構(gòu),從網(wǎng)絡(luò)知識庫中抽取概念實例并綜合利用網(wǎng)絡(luò)百科網(wǎng)頁中蘊含的豐富的語義標(biāo)簽、半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進行概念實例掛載,將百科知識庫從8萬條目擴展為百萬條目級別,在此基礎(chǔ)上進行概念屬性抽取,為下一步研發(fā)面向開放式的自動問答系統(tǒng)提供了知識資源的支撐[36]。
[1] NGUYEN H T, CAO T H. A knowledge-based approach to named entity disambiguation in news articles[C]. AI 2007: Advances in Artificial Intelligence. Gold Coast: 20th Australian Joint Conference2007, 4830:619-624.
[2] NAVIGLI R.Word sense disambiguation: a survey[J].ACM Computing Surveys, 2009, 41(2): 10-69.
[3] NIE Z Q, MA Y X, SHI S M, et al. Web object retrieval[C]. Proceedings of the 16th international conference.Banff: International World Wide Web Conference Committee (IW3C2), 2007: 81-90.
[4] NIE Z Q, ZHANG Y Z, WEN J R, et al. Object-level ranking: bringing order to web objects[C]. Proceedings of the 14th international conference. Chiba: International World Wide Web Conference Committee (IW3C2), 2005: 567-574.
[5] Wikipedia[EB/OL]. [2014-11-26].http://www.wikipedia.org.
[6] YAGO2s: a high-quality knowledgebase[EB/OL]. [2014-11-26]. http:// www.mpi-inf.mpg.de/departments/databases-and-information-systems/ research/yago-naga/yago/.
[7] FADER A,SODERLAND S, ETZIONI O. Scaling Wikipedia-based named entity disambiguation to arbitrary web text[C]. Proceedings of the IJCAI Workshop. Pasadena:2009:21-26.
[8] NGUYEN H T,CAO T H. Exploring Wikipedia and text features for named entity disambiguation[J].Intelligent Information and Database Systems Lecture Notes in Computer Science, 2010, 5991: 11-20.
[9] PLOCH D. Exploring entity relations for named entity disambiguation[C]. Proceedings of the ACL. Portland: The 49th Annual Meeting of the Association for Computational Linguistics, 2011.
[10] DAMLJANOVIC D, BONTCHEVA K. Named entity disambiguation using linked data[EB/OL]. [2014-11-26]. http://2012.eswc-conferences. org/sites/default/files/eswc2012_submission_334.pdf.
[11] NEBHI K. Named entity disambiguation using freebase and syntactic parsing[C]. Proceedings of the First International Workshop.The 12th International Semantic Web Conference (ISWC 2013), 2013.
[12] SAGGION H,FUNK A,MAYNARD D, et al. Ontology-based information extraction for business intelligence[EB/OL]. [2014-11-26]. https://gate.ac.uk/sale/iswc07/musing/musing-iswc07.pdf.
[13] HAN X P,ZHAO J. Named entity disambiguation by leveraging Wikipedia semantic knowledge[C]. Hong Kong: Proceedings of the 18th ACM conference, 2009: 215-224.
[14] 陳晨,王厚峰.基于社會網(wǎng)絡(luò)的跨文本同名消歧[J].中文信息學(xué)報, 2011(5):75-82.
[15] BEKKERMAN R, ANDREW M C. Disambiguating web appearance of people in a social network[C]. WWW '05 Proceedings of the 14th international conference. World Wide Web,2005:463-470.
[16] 郎君,秦兵,宋巍,等.基于社會網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J].計算機學(xué)報, 2009(7):1-10.
[17] PABICO J P. An analysis of named entity disambiguation in social networks[J].Asia Pacific Journal of Multidisciplinary Research, 2014(2):31-38.
[18] MAYNARD D, GREENWOOD M A. Large scale semantic annotation, Indexing and search at the National Archives[EB/OL]. [2014-11-26]. https://gate.ac.uk/sale/lrec2012/tna/tna.pdf.
[19] BOUQUET P,PALPANNAS T, STOERMER H, et al. A conceptual model for a web-scale entity name system[EB/OL]. [2014-11-26].http:// www.inf.unibz.it/krdb/events/swap2010/paper-19.pdf.
[20] LI J Z, TANG J, LI Y, et al. RiMOM: a dynamic multistrategy ontology alignment framework[J]. IEEE Trans. on Knowledge and Data Engineering, 2009, 21(8):1218-1232.
[21] ObjectCoref [EB/OL]. [2014-11-26].http://ws.nju.edu.cn/objectcoref/.
[22] Automatic Content Extraction (ACE) Evaluation[EB/OL]. [2014-11-26]. http://www.itl.nist.gov/iad/mig/tests/ace/.
[23] Text Analysis Conference[EB/OL]. [2014-11-26].http://www.nist.gov/tac/.
[24] Entity linking at TAC 2013 task description[EB/OL]. (2013-04-09) [2014-11-26].http://www.nist.gov/tac/2013/KBP/EntityLinking/ guidelines/KBP2013_EntityLinkingTaskDescription_1.0.pdf.
[25] ARTILES J,BORTHWOCK A, GONZALO J,et al. WePS-3 evaluation campaign: overview of the Web people search Clustering and attribute extraction tasks[C]. Padua: 2010.
[26] CLP2012.Chinese language processing[EB/OL]. (2012-06-30) [2014-11-26].http://www.cipsc.org.cn/clp2012/bakeoff-cn.html.
[27] OR?SAN C, CRISTEA D,MITKOV R, et al. Anaphora resolution exercise: an overview[EB/OL]. [2014-11-26]. http://www.lrec-conf.org/ proceedings/lrec2008/pdf/713_paper.pdf.
[28] DALTON J,DIETZ L. A neighborhood relevance model for entity linking [EB/OL]. [2014-11-26].http://ciir.cs.umass.edu/~dietz/entitylinking/ oair2013.pdf.
[29] 趙軍,劉康,周光有,等.開放式文本信息抽取[J].中文信息學(xué)報, 2011(6):98-110.
[30] ELANGO P. Coreference resolution: a survey project report of the course "Advanced natural language processing"[D].Madison: the University of Wisconsin, 2006.
[31] POESIO M,KABADJOV M.A general-purpose, off-the-shelf anaphora resolution module: implementation and preliminary evaluation[C]. The proceedings of the national academy of sciences. Lisbon: The 4th International Conference on Language Resources and Evaluation, 2011.
[32] SUTTON C,MCCALLUM A. An introduction to conditional random fields for relational learning[C]. L. Getoor and B. Taskar, eds..Boston: MIT Press, 2006.
[33] HEARST M A. Automatic acquisition of hyponyms from large text corpora[C].Proceedings of the 14th International Conference on Computational Linguistics, 1992.
[34] BERGSMA S. Automatic acquisition of gender information for anaphora resolution[C]. B. Kégl and G. Lapalme eds. Canadian Conference on AI,Victoria: Springer-Verlag, 2005:342-353.
[35] YANG X,SU J. Coreference resolution using semantic relatedness information from automatically discovered patterns[C]. J. Carroll, A. Bosch, and A. Zaenen eds. Proc. of the 45th Annual Meeting of the Association of Computational Linguistics. Prague: Association for Computational Linguistics, 528-535.
[36] 徐立恒,劉洋,來斯惟,等.基于多特征表示的本體概念掛載[J].中文信息學(xué)報, 2012(3):122-128.
郭紅梅,女,1985年生,博士,研究方向:文本挖掘、科學(xué)計量。
Study on Named Entity Normalization
LIU JianHua1,2, GUO HongMei1
(1. National Science Library, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China)
This article focus on the Named Entity Normalization (NEN), which is a basic task of text processing. It describes two types sub-tasks of NEN, Coreference Resolution and Entity Disambiguation. Combined with the mentioned two su-tasks, it reviews current related research, introduces the typical methods, importance projects and evaluation conference closed to the theme. Besides, it analyzes the research trend of NEN based on current problems.
Named Entity Normalization; Entity Disambiguation; Large-scale Knowledge; Social Network
G254
10.3772/j.issn.1673-2286.2016.5.010
* 本研究得到中國科學(xué)院文獻情報中心青年人才項目“基于開放KOS的領(lǐng)域主題學(xué)術(shù)關(guān)系網(wǎng)絡(luò)擴展方法研究”(編號:青1303)資助。
劉建華,女,1984年生,博士在讀,研究方向:文本挖掘、信息抽取,E-mail:liujh@mail.las.ac.cn。
(2016-05-10)