劉丹丹,彭 成,錢(qián)龍華,周?chē)?guó)棟
(蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006; 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
命名實(shí)體間語(yǔ)義關(guān)系抽取(簡(jiǎn)稱(chēng)實(shí)體關(guān)系抽取,或關(guān)系抽取)是信息抽取中的一個(gè)重要研究?jī)?nèi)容,其任務(wù)是從自然語(yǔ)言文本中提取出兩個(gè)命名實(shí)體之間所存在的語(yǔ)義關(guān)系,例如,短語(yǔ)“美國(guó)總統(tǒng) 克林頓 的 平壤 之行”中的兩個(gè)實(shí)體“克林頓”(PER)和“平壤”(GPE)之間存在的物理位置關(guān)系(PHYS.Located)。作為一項(xiàng)應(yīng)用基礎(chǔ)性研究,實(shí)體關(guān)系抽取對(duì)自然語(yǔ)言處理的許多應(yīng)用如內(nèi)容理解、問(wèn)題回答、自動(dòng)文摘、機(jī)器翻譯、文本分類(lèi)以及信息過(guò)濾等都具有重要的意義。
無(wú)論是采用指導(dǎo)性的機(jī)器學(xué)習(xí)方法,還是采用無(wú)指導(dǎo)的聚類(lèi)方法,關(guān)系抽取研究的關(guān)鍵問(wèn)題都是如何有效的表達(dá)關(guān)系實(shí)例并計(jì)算關(guān)系實(shí)例之間的相似度。基于特征向量的方法[1-5]將關(guān)系實(shí)例表示成高維特征空間中的一個(gè)向量,通過(guò)計(jì)算向量之間的相似度來(lái)表示實(shí)例之間的相似度,其特征包含詞匯、組塊、句法和語(yǔ)義等各種信息?;诤撕瘮?shù)的方法則將關(guān)系實(shí)例表示成離散結(jié)構(gòu),如實(shí)體對(duì)所在的成分句法樹(shù)[6-10]、依存樹(shù)[11]或依存路徑[12-13]等,它通過(guò)計(jì)算離散結(jié)構(gòu)之間的相似度來(lái)表示實(shí)例之間的相似度。由于它能探索高維空間中的隱含結(jié)構(gòu)化特征,因此在關(guān)系抽取及自然語(yǔ)言處理的其它任務(wù)中獲得了廣泛的應(yīng)用。在中文實(shí)體關(guān)系抽取中,基于特征向量的方法有文獻(xiàn)[14-16]等。基于核函數(shù)的方法采用的離散結(jié)構(gòu)有字符串[17-18]、句法樹(shù)[19-20]等。
眾所周知,語(yǔ)義信息對(duì)實(shí)體間語(yǔ)義關(guān)系的抽取具有重要的作用。目前關(guān)系抽取中使用到的語(yǔ)義信息主要分為以下三類(lèi): 實(shí)體類(lèi)型語(yǔ)義信息、實(shí)體詞匯的聚類(lèi)信息和實(shí)體詞匯的語(yǔ)義信息。實(shí)體類(lèi)型語(yǔ)義信息包括實(shí)體大類(lèi)和實(shí)體小類(lèi)信息,無(wú)論是從語(yǔ)義關(guān)系的定義,還是實(shí)驗(yàn)結(jié)果來(lái)看,這類(lèi)信息對(duì)關(guān)系抽取的性能具有很大的提升作用,因而幾乎所有的關(guān)系抽取系統(tǒng)都使用實(shí)體類(lèi)型信息。不過(guò),目前使用的實(shí)體類(lèi)型信息都是基于手工標(biāo)注的結(jié)果,實(shí)際識(shí)別出的實(shí)體類(lèi)型,特別是小類(lèi)信息,肯定含有噪音,從而使得其作用受到一定的影響。文獻(xiàn)[4-5]先采用聚類(lèi)的方法得到實(shí)體詞匯的語(yǔ)義編碼,然后在基于特征向量的關(guān)系抽取中使用該語(yǔ)義編碼,實(shí)驗(yàn)結(jié)果表明其對(duì)關(guān)系抽取的性能提高具有一定的促進(jìn)作用。但由于特征匹配的限制,語(yǔ)義編碼必須截?cái)嗪蟛拍苁褂?。在中文關(guān)系抽取中,文獻(xiàn)[17]采用編輯距離核函數(shù)來(lái)計(jì)算關(guān)系實(shí)例的字符串之間的相似度,并考慮了詞匯之間在《同義詞詞林》中的語(yǔ)義相似度,在person-affiliation關(guān)系中取得了較好的結(jié)果。不過(guò),他們沒(méi)有單獨(dú)比較詞匯語(yǔ)義相似度的貢獻(xiàn),也沒(méi)有考慮對(duì)其它類(lèi)型的關(guān)系抽取的影響。文獻(xiàn)[18]采用字符串核的方法進(jìn)行ACE語(yǔ)料庫(kù)上的三個(gè)大類(lèi)的中文關(guān)系抽取,并在子串比較的時(shí)候考慮其詞匯在《知網(wǎng)》中的詞義相似度, 實(shí)驗(yàn)表明語(yǔ)義相似度能提高大部分關(guān)系類(lèi)型的抽取性能。
綜上所述,語(yǔ)義信息確實(shí)能夠提高關(guān)系抽取的性能, 但目前還沒(méi)有一個(gè)系統(tǒng)全面的研究來(lái)分析語(yǔ)義信息對(duì)中文關(guān)系抽取的有效性,如對(duì)哪些關(guān)系類(lèi)型有效,有效程度如何,以及詞匯語(yǔ)義信息和實(shí)體類(lèi)型信息之間的冗余度等。針對(duì)這些問(wèn)題,本文以《同義詞詞林》為例,采用基于樹(shù)核函數(shù)的方法來(lái)研究語(yǔ)義信息在中文實(shí)體語(yǔ)義關(guān)系抽取中的作用,旨在發(fā)現(xiàn)語(yǔ)義信息對(duì)哪些關(guān)系類(lèi)型影響最大。
本文第2節(jié)介紹了《同義詞詞林》及其編碼方式;第3節(jié)討論《詞林》語(yǔ)義類(lèi)別信息與結(jié)構(gòu)化信息的結(jié)合;第4節(jié)給出了實(shí)驗(yàn)設(shè)置及結(jié)果分析;最后第5節(jié)是總結(jié)部分。
《同義詞詞林》[21](以下簡(jiǎn)稱(chēng)《詞林》)是一部漢語(yǔ)分類(lèi)詞典,其中每一條詞語(yǔ)都用一個(gè)編碼來(lái)表示其語(yǔ)義類(lèi)別。本文所用的《詞林》為《詞林(擴(kuò)展版)》,是哈爾濱工業(yè)大學(xué)信息檢索研究室在《同義詞詞林》的基礎(chǔ)上研制的。最終的詞表包含77 492條詞語(yǔ),其中一詞多義的詞語(yǔ)為8 860個(gè),共分為12個(gè)大類(lèi),94個(gè)中類(lèi),1 428個(gè)小類(lèi),小類(lèi)下再以同義原則劃分詞群,最細(xì)的級(jí)別為原子詞群,這樣詞典中的詞語(yǔ)之間就體現(xiàn)了良好的層次關(guān)系。不同級(jí)別的分類(lèi)結(jié)果可以為自然語(yǔ)言處理提供不同顆粒度的語(yǔ)義類(lèi)別信息。
《詞林》的12個(gè)大類(lèi)分別用一位大寫(xiě)英文字母A到L來(lái)表示,中類(lèi)編號(hào)在大寫(xiě)字母后面加一位小寫(xiě)英文字母表示,小類(lèi)編號(hào)再加兩位十進(jìn)制整數(shù)表示,詞群編號(hào)再加一位大寫(xiě)英文字母表示,原子詞群編號(hào)再加兩位十進(jìn)制整數(shù)表示,最后一位的標(biāo)記有3種,其中“=”代表“相等”、“同義”; “#”代表“不等”、“同類(lèi)”,屬于相關(guān)詞語(yǔ); “@”代表“自我封閉”、“獨(dú)立”,它在詞典中既沒(méi)有同義詞,也沒(méi)有相關(guān)詞。根據(jù)編碼特點(diǎn),本文沒(méi)有使用第八位編碼。具體的標(biāo)記如表1所示。如詞語(yǔ)“公園”的語(yǔ)義編碼為“Bn20A01=”,大類(lèi)(B)表示“物”,中類(lèi)(Bn)表示“建筑物”,小類(lèi)(Bn20)表示“園林”,原子詞群(Bn20A01)表示“園林 公園 花園 莊園 園 苑”,詞群(Bn20A)并沒(méi)有賦予專(zhuān)門(mén)的名稱(chēng)。
表1 《詞林》詞語(yǔ)編碼表
在分析《詞林》語(yǔ)義信息對(duì)基于樹(shù)核函數(shù)的中文關(guān)系抽取的影響之前,首先需要考慮兩個(gè)問(wèn)題: 一是應(yīng)該加入哪些詞匯的語(yǔ)義信息;二是詞匯的語(yǔ)義信息如何與句法樹(shù)中的結(jié)構(gòu)化信息相結(jié)合。
在表示關(guān)系實(shí)例結(jié)構(gòu)化信息的句法樹(shù)中,除兩個(gè)實(shí)體名稱(chēng)外,還包含其它的詞匯信息,如動(dòng)詞、形容詞和副詞等。根據(jù)文獻(xiàn)[5]的研究,加入實(shí)體名稱(chēng)的聚類(lèi)語(yǔ)義信息有利于提高關(guān)系抽取的性能,而其他詞匯的語(yǔ)義信息則沒(méi)有效果。鑒于此,本文只考慮關(guān)系實(shí)例中的兩個(gè)實(shí)體詞匯在《詞林》中的語(yǔ)義類(lèi)別信息。
對(duì)實(shí)體而言,其語(yǔ)義信息和句法樹(shù)中的結(jié)構(gòu)化信息相結(jié)合的方法有兩種: 一是直接將語(yǔ)義類(lèi)別信息加入到句法樹(shù)中;二是通過(guò)復(fù)合核函數(shù)的方法將基于結(jié)構(gòu)化信息的樹(shù)核函數(shù)和基于語(yǔ)義類(lèi)別信息的核函數(shù)結(jié)合起來(lái)。在ACE RDC 2004 英文語(yǔ)料庫(kù)上的實(shí)驗(yàn)表明[9],由于后者能調(diào)整兩種核函數(shù)的貢獻(xiàn),因此性能比前者略有提高。但本文的重點(diǎn)在于探索語(yǔ)義信息對(duì)關(guān)系抽取的作用,為避免復(fù)合系數(shù)的調(diào)整問(wèn)題,我們采用與文獻(xiàn)[20]相似的方法,將語(yǔ)義信息掛在句法樹(shù)的根結(jié)點(diǎn)下面,從而構(gòu)成合一句法和語(yǔ)義關(guān)系樹(shù)。
例如,在關(guān)系實(shí)例“臺(tái)北 大安森林公園”中,實(shí)體“臺(tái)北”對(duì)應(yīng)的《詞林》“原子詞群”編碼為Cb25A11,“詞群”編碼為Cb25A,“小類(lèi)”編碼為Cb25,“中類(lèi)”編碼為Cb,“大類(lèi)”編碼為C。如果考慮《詞林》“詞群”級(jí)別的語(yǔ)義信息,就將其對(duì)應(yīng)的語(yǔ)義類(lèi)別編碼“Cb25A”掛在句法樹(shù)的根結(jié)點(diǎn)下,如圖1所示。其中句法樹(shù)結(jié)構(gòu)采用最短路徑包含樹(shù)(SPT,Shortest Path-enclosed Tree),而SC1、SC2分別表示其子結(jié)點(diǎn)為實(shí)體E1和實(shí)體E2的詞匯所對(duì)應(yīng)的語(yǔ)義編碼,“Bn20A”為“大安森林公園”的中心詞“公園”的詞群編碼。
圖1 加入實(shí)體《詞林》詞群語(yǔ)義類(lèi)別后的句法樹(shù)
一詞多義是自然語(yǔ)言中的普遍現(xiàn)象,它對(duì)自然語(yǔ)言處理的很多任務(wù)都有影響。在ACE 2005中文語(yǔ)料庫(kù)上的統(tǒng)計(jì)表明,在《詞林》中具有一詞多義的實(shí)體詞匯占其總數(shù)的1/5還多,因而實(shí)體詞匯的“一詞多義”現(xiàn)象對(duì)關(guān)系抽取具有一定的影響。
在關(guān)系實(shí)例中,不同的“一詞多義”的實(shí)體詞匯(簡(jiǎn)稱(chēng)為多義實(shí)體)所具有的詞義數(shù)是不同的,統(tǒng)計(jì)表明詞義數(shù)為2和3的多義實(shí)體占所有多義實(shí)體的80%左右,而詞義數(shù)7以上的多義實(shí)體則非常之少。因此,在考察“一詞多義”對(duì)關(guān)系抽取影響的實(shí)驗(yàn)時(shí),我們僅考慮詞義數(shù)為2-6的《詞林》語(yǔ)義信息。例如,當(dāng)詞義數(shù)為2時(shí),圖1中的實(shí)體E1 “臺(tái)北”在《詞林》中具有2個(gè)詞義,其詞群編碼分別“Cb25A”、“Di03B”。把這兩個(gè)編碼都掛在具有相同標(biāo)識(shí)(即SC1)的父節(jié)點(diǎn)下面,即表示實(shí)體1的詞匯具有兩個(gè)含義,這樣在計(jì)算兩棵樹(shù)的相似度時(shí),只要其中任何一個(gè)語(yǔ)義編碼匹配,相似度就能得到提高。
為了將實(shí)體詞匯的語(yǔ)義信息加入到句法樹(shù)中,在生成了關(guān)系實(shí)例的SPT樹(shù)之后,需從《詞林》中抽取出語(yǔ)義類(lèi)別信息,并將它插入到句法樹(shù)中,其處理流程如下:
① 從句法樹(shù)中找出實(shí)體E1和E2所對(duì)應(yīng)的詞匯LEX1和LEX2;
② 在《詞林》中查找LEX1和LEX2的語(yǔ)義類(lèi)別編碼;
③ 如果某一詞匯的語(yǔ)義類(lèi)別編碼不存在,則將該詞匯進(jìn)行分詞,取分詞后最右邊的詞匯,再在《詞林》中查找相應(yīng)的語(yǔ)義類(lèi)別編碼。設(shè)得到的語(yǔ)義類(lèi)別分別為CODE1,CODE2;
④ 按照《詞林》的不同語(yǔ)義級(jí)別對(duì)CODE1,CODE2進(jìn)行截段,得到最終的編碼分別為C1,C2;
⑤ 將C1,C2分別掛在句法樹(shù)根結(jié)點(diǎn)下的SC1,SC2結(jié)點(diǎn)下面。
需要說(shuō)明的是,第3步中的分詞非常必要,因?yàn)楹芏鄬?shí)體詞匯無(wú)法在《詞林》中找到相應(yīng)的語(yǔ)義編碼。據(jù)統(tǒng)計(jì),這一類(lèi)實(shí)體詞匯的數(shù)量超過(guò)實(shí)體總數(shù)的1/4。其主要原因是,很多實(shí)體的名稱(chēng)都是較少出現(xiàn)的專(zhuān)用名詞,而語(yǔ)義辭典是不收錄頻度較少的專(zhuān)用名詞的,但其中心詞則是普通名詞,通??梢哉业狡湔Z(yǔ)義類(lèi)別。例如,在圖1的實(shí)例中,“大安森林公園”沒(méi)有收錄在《詞林》中,但分詞后的中心詞“公園”卻可以找到語(yǔ)義編碼。另外,在分詞時(shí),對(duì)于人名則不作處理,因?yàn)槿嗣m然不能在《詞林》中找到語(yǔ)義編碼,但對(duì)其進(jìn)行分詞卻也沒(méi)有意義。
最后,當(dāng)要處理多義實(shí)體的一詞多義時(shí),則需要在執(zhí)行第2步時(shí)從《詞林》中同時(shí)找出多個(gè)含義所對(duì)應(yīng)的語(yǔ)義編碼,同時(shí)加入到句法樹(shù)中。
本節(jié)首先給出實(shí)驗(yàn)設(shè)置,包括所使用的語(yǔ)料庫(kù)、分詞工具和分類(lèi)器及性能評(píng)估指標(biāo),然后給出實(shí)驗(yàn)結(jié)果,并對(duì)其進(jìn)行分析。
本文采用ACE 2005中文語(yǔ)料庫(kù)作為中文語(yǔ)義關(guān)系抽取的實(shí)驗(yàn)數(shù)據(jù)。該語(yǔ)料庫(kù)定義了中文實(shí)體之間的6個(gè)關(guān)系大類(lèi),18個(gè)關(guān)系小類(lèi),它包含633個(gè)文件,其中廣播新聞?lì)?98個(gè),新聞專(zhuān)線(xiàn)類(lèi)238個(gè),微博和其它97個(gè)。采用句法分析器進(jìn)行句法分析,在去除個(gè)別句法分析器不能正確處理的句子后,最終得到關(guān)系正例9 147個(gè),關(guān)系負(fù)例97 540個(gè)。
本文的分詞工具采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的基于多層HMM模型的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS[22]。分類(lèi)器采用支持卷積樹(shù)核函數(shù)的SVMLight TK[23]工具包,由于該工具包是一個(gè)二元分類(lèi)器,我們采用一對(duì)多的方法將它轉(zhuǎn)換為多元分類(lèi)器。特別地,相似度計(jì)算采用SST(SubSet Tree)核,衰減系數(shù)為0.4。為了充分利用語(yǔ)料庫(kù)資源,減少語(yǔ)料庫(kù)變化對(duì)實(shí)驗(yàn)結(jié)論的影響,本文實(shí)驗(yàn)采用五倍交叉驗(yàn)證策略,最后取5次平均值作為最終的性能。評(píng)估標(biāo)準(zhǔn)采用常用的準(zhǔn)確率(P),召回率(R)和F1指標(biāo)(F1)。
(1) 《詞林》不同級(jí)別的語(yǔ)義信息對(duì)中文關(guān)系抽取的影響
圖2比較了《詞林》的不同級(jí)別(即“大類(lèi)”、“中類(lèi)”、“小類(lèi)”、“詞群”、“原子詞群”)的語(yǔ)義信息對(duì)大類(lèi)和小類(lèi)關(guān)系抽取性能(即F1值)的影響,其中基準(zhǔn)系統(tǒng)是指不加入任何語(yǔ)義信息時(shí)SPT樹(shù)所取得的性能,每一次實(shí)驗(yàn)分別加入一個(gè)級(jí)別的語(yǔ)義類(lèi)別信息,橫坐標(biāo)表示《詞林》語(yǔ)義信息的不同級(jí)別,并且從左到右粒度不斷變細(xì),縱坐標(biāo)則為關(guān)系的抽取性能,性能最高的F1值用粗體顯示。
從圖2可以看出,分別加入《詞林》的“小類(lèi)”/“詞群”級(jí)別的語(yǔ)義信息后大類(lèi)/小類(lèi)關(guān)系抽取的性能最佳,分別比基準(zhǔn)系統(tǒng)的F1值提高了4.8/5.9個(gè)百分點(diǎn),這說(shuō)明《詞林》語(yǔ)義信息能顯著提高中文關(guān)系抽取的性能。
該圖同時(shí)也表明,無(wú)論是大類(lèi)關(guān)系抽取,還是小類(lèi)關(guān)系抽取,隨著加入《詞林》的語(yǔ)義信息的粒度的細(xì)化,F(xiàn)1值都是先升高后降低,且在“小類(lèi)”/“詞群”級(jí)別時(shí),性能達(dá)到最大值,這說(shuō)明過(guò)于細(xì)化或泛化的語(yǔ)義信息都對(duì)關(guān)系抽取不利。
圖2 《詞林》不同級(jí)別的語(yǔ)義信息對(duì)中文關(guān)系抽取的性能影響
由于加入《詞林》的“小類(lèi)”或“詞群”語(yǔ)義信息,對(duì)大類(lèi)和小類(lèi)的F1值差別都不大(相差0.2或0.1),因此在后續(xù)實(shí)驗(yàn)中選取“小類(lèi)”或“詞群”級(jí)別的語(yǔ)義原則上都可以。除非特別說(shuō)明,本文的后續(xù)實(shí)驗(yàn)都選擇 “詞群”級(jí)別的語(yǔ)義信息加入到句法樹(shù)中。
(2) 《詞林》語(yǔ)義信息對(duì)中文關(guān)系抽取具體類(lèi)別的影響
由前面的實(shí)驗(yàn)可以知道,在基準(zhǔn)系統(tǒng)的基礎(chǔ)上,加入“小類(lèi)”或“詞群”語(yǔ)義信息,關(guān)系抽取的性能最高。表2和表3分別列出了加入“詞群”語(yǔ)義信息后的性能及其同基準(zhǔn)系統(tǒng)之間在各個(gè)大類(lèi)和小類(lèi)類(lèi)別上的性能差異,其中P/R/F1為在5個(gè)數(shù)據(jù)集上的平均值,△P/△R/△F分別為在5個(gè)數(shù)據(jù)集上的P/R/F1的平均變化值,#表示該關(guān)系類(lèi)別的實(shí)例數(shù),%為該類(lèi)別的實(shí)例數(shù)占總數(shù)的百分比,~F為F1值的加權(quán)平均(即△F*%/100),它表明了某個(gè)類(lèi)別上F1值的變化對(duì)總體性能變化的貢獻(xiàn)度。每一個(gè)性能指標(biāo)的最大值和最小值分別用加粗的雙底劃線(xiàn)和單底劃線(xiàn)標(biāo)出。
從表3中可以看出,與大類(lèi)抽取不同的是,加入“詞群”語(yǔ)義信息后,并非所有小類(lèi)的性能都提高,而是呈現(xiàn)出不同的趨勢(shì),從△F值來(lái)看:
? F1值增加幅度在3點(diǎn)以上的小類(lèi)有10個(gè),如Membership(10.0), Business/Subsidiary(8.5)和CRRE(7.9)等。這是由于這些關(guān)系中的專(zhuān)用名詞或其中心詞在《詞林》中具有相同的詞群編碼,因此語(yǔ)義信息的加入增加了樹(shù)結(jié)構(gòu)的相似性。例如,在“共產(chǎn)黨 領(lǐng)袖”、“塞爾維亞民主黨 提名 的 候選人”等短語(yǔ)中都存在著Membership關(guān)系,由于詞匯的稀疏性問(wèn)題,在基準(zhǔn)系統(tǒng)中都被誤識(shí)別為Employment關(guān)系,而加入實(shí)體E1的詞匯語(yǔ)義編碼(Di07A)后,相似度得到提高;
? Near小類(lèi)幾乎沒(méi)有增加,Artifact小類(lèi)沒(méi)有變化,而Founder和Ownership小類(lèi)則顯著降低。這是由于某些詞匯的分詞錯(cuò)誤導(dǎo)致了錯(cuò)誤的語(yǔ)義編碼,造成了關(guān)系的誤識(shí)別。例如,關(guān)系實(shí)例“雅虎 創(chuàng)辦人”為Founder關(guān)系,但實(shí)體 “雅虎”分詞后的中心詞“虎”明顯改變了實(shí)體的語(yǔ)義類(lèi)別,從而導(dǎo)致該關(guān)系實(shí)例被錯(cuò)誤識(shí)別。
表2 “詞群”語(yǔ)義信息對(duì)關(guān)系抽取大類(lèi)類(lèi)別的性能影響
表3 “詞群”語(yǔ)義信息對(duì)關(guān)系抽取小類(lèi)類(lèi)別的性能影響
續(xù)表
將表2和表3綜合起來(lái)考慮,可以發(fā)現(xiàn):
? 由于GEN-AFF大類(lèi)中的兩個(gè)小類(lèi)均有大幅度提高,且所占比例較高(約20%),因而導(dǎo)致該大類(lèi)的性能貢獻(xiàn)度~F最大;
? ORG-AFF大類(lèi)中的各個(gè)小類(lèi)表現(xiàn)差別迥異,因而雖然該大類(lèi)所占比例較高,但總體性能貢獻(xiàn)值卻小于PART-WHOLE 和GEN-AFF兩大類(lèi)。
綜上所述,《詞林》語(yǔ)義信息對(duì)所有大類(lèi)關(guān)系抽取的F1值都有不同程度的提高,尤其對(duì)ART和GEN-AFF兩大類(lèi)的影響最大;而對(duì)大部分小類(lèi)關(guān)系抽取的性能也有不同程度的提高,如Membership, Subsidiary, Business和CRRE等提高幅度較大,而對(duì)Founder和Ownership等部分小類(lèi)則明顯降低。
(3) 《詞林》中實(shí)體詞匯的一詞多義現(xiàn)象對(duì)關(guān)系抽取性能的影響
圖3比較了《詞林》中實(shí)體詞匯的一詞多義對(duì)大類(lèi)和小類(lèi)關(guān)系抽取性能(即F1值)的影響,每一次實(shí)驗(yàn)都是在前面實(shí)驗(yàn)的基礎(chǔ)上再加入一個(gè)額外的語(yǔ)義信息,橫坐標(biāo)表示詞義數(shù)從1變化到6,縱坐標(biāo)則表示抽取性能的F1值。同樣,最高性能用粗體表示。
圖3 《詞林》中的實(shí)體詞匯的一詞多義對(duì)中文關(guān)系抽取的性能影響
由圖3可以看出,加入一詞多義信息并不能改善關(guān)系抽取的性能,反而隨著多義詞詞義數(shù)的不斷增加,F(xiàn)1值逐漸下降。通過(guò)分析,發(fā)現(xiàn)其原因是由于關(guān)系實(shí)例中的實(shí)體詞匯在ACE新聞?lì)愓Z(yǔ)料庫(kù)中的語(yǔ)義通常都是較為常見(jiàn)的一種,考慮一詞多義(即加入該實(shí)體不常用的語(yǔ)義)后,反而增加了噪音信息,并且樹(shù)的結(jié)構(gòu)更為龐大,從而降低了關(guān)系抽取的性能。
(4) 《詞林》語(yǔ)義信息與實(shí)體類(lèi)型信息的冗余度
實(shí)體本身也有大類(lèi)和小類(lèi)等類(lèi)別信息,它們和實(shí)體詞匯的語(yǔ)義信息之間是否存在冗余呢?我們首先從總體性能上分析了《詞林》語(yǔ)義信息和實(shí)體類(lèi)型信息的性能影響,然后從具體關(guān)系類(lèi)別上進(jìn)行比較。
1. 從總體性能上比較《詞林》語(yǔ)義信息與實(shí)體類(lèi)型信息的影響
表4比較了在基準(zhǔn)系統(tǒng)的基礎(chǔ)上,加入不同組合的《詞林》詞群語(yǔ)義信息和實(shí)體類(lèi)型信息(實(shí)體大類(lèi)和小類(lèi))后中文關(guān)系抽取的總體性能,其中大類(lèi)和小類(lèi)關(guān)系抽取的最高性能用粗體表示。
表4 《詞林》語(yǔ)義信息和實(shí)體類(lèi)型信息的性能比較
從表4可以看出,同基準(zhǔn)系統(tǒng)相比,加入實(shí)體大類(lèi)、實(shí)體小類(lèi)和《詞林》語(yǔ)義等所有信息后,無(wú)論是大類(lèi)抽取,還是小類(lèi)抽取都取得了最好的性能,F(xiàn)1值分別為66.8/64.8,且P值和R值同時(shí)顯著提高,這說(shuō)明這些語(yǔ)義信息對(duì)中文關(guān)系抽取都有一定的作用。此外,該表還表示:
? 單獨(dú)加入實(shí)體大類(lèi)、實(shí)體小類(lèi)或詞林詞群等信息之一,實(shí)體小類(lèi)取得了最好的性能提高。這說(shuō)明實(shí)體小類(lèi)信息能更準(zhǔn)確地刻畫(huà)實(shí)體的本質(zhì),更好地區(qū)分關(guān)系的類(lèi)型,而《詞林》詞群語(yǔ)義信息盡管類(lèi)別更細(xì),但它是針對(duì)通用領(lǐng)域的,不一定最適合新聞?lì)I(lǐng)域的關(guān)系抽??;
? “實(shí)體小類(lèi)+詞林詞群”的大類(lèi)F1值比“詞林詞群”的大類(lèi)F1值高出5.4點(diǎn),而比“實(shí)體小類(lèi)”的大類(lèi)F1值只高出0.6點(diǎn),這說(shuō)明就關(guān)系抽取而言,實(shí)體小類(lèi)覆蓋了詞林詞群中的大部分語(yǔ)義信息,反之則不然。同理,實(shí)體大類(lèi)也覆蓋了詞林詞群中的大部分語(yǔ)義信息,因?yàn)椤皩?shí)體大類(lèi)+詞林詞群”的大類(lèi)F1值比“詞林詞群”的大類(lèi)F1值高出5.5點(diǎn),而比“實(shí)體大類(lèi)”的大類(lèi)F1值只高出1.3點(diǎn)。
? 最后很重要的一點(diǎn)是,在“基準(zhǔn)系統(tǒng)”的基礎(chǔ)上加入“詞林詞群”,大類(lèi)抽取的F1值提高了4.6點(diǎn),小類(lèi)抽取的F1值提高了5.9點(diǎn),而在“實(shí)體大類(lèi)+實(shí)體小類(lèi)”的基礎(chǔ)上,再加入“詞林詞群”, 大類(lèi)抽取的F1值只提高了0.4點(diǎn),小類(lèi)抽取的F1值也只提高了1.1點(diǎn)??梢钥闯鰧?shí)體類(lèi)型的加入嚴(yán)重削弱了語(yǔ)義信息對(duì)抽取性能的提高幅度,那么這是否意味著語(yǔ)義信息對(duì)關(guān)系抽取來(lái)說(shuō)意義就不大了呢?答案是否定的。其一,我們現(xiàn)在加入實(shí)體類(lèi)型時(shí),假設(shè)它是完全正確的。在實(shí)際的命名實(shí)體識(shí)別系統(tǒng)中,總會(huì)有錯(cuò)誤產(chǎn)生,尤其是對(duì)于實(shí)體小類(lèi),因而實(shí)際應(yīng)用中的實(shí)體類(lèi)型是有噪音的,它對(duì)性能的提高不可能有預(yù)期的那么大,而《詞林》語(yǔ)義信息則是從現(xiàn)存的語(yǔ)義辭典《同義詞詞林》中提取的,它不存在這個(gè)問(wèn)題。其二,語(yǔ)義信息對(duì)不同關(guān)系類(lèi)型的抽取性能表現(xiàn)出多樣性,這就是下面的分析所要說(shuō)明的問(wèn)題。
2. 從具體關(guān)系類(lèi)型的性能上比較“詞群”語(yǔ)義和實(shí)體類(lèi)型的影響
為了比較《詞林》語(yǔ)義信息和實(shí)體類(lèi)型信息的冗余性對(duì)具體關(guān)系類(lèi)型抽取的影響,表5列出了各個(gè)小類(lèi)關(guān)系的F1值、△F值。其中“詞林詞群-BL”和“實(shí)體類(lèi)型-BL”分別表示在基準(zhǔn)系統(tǒng)的基礎(chǔ)上加入詞林詞群或?qū)嶓w類(lèi)型(實(shí)體大類(lèi)+實(shí)體小類(lèi))后的F1值和△F值,“(類(lèi)型+詞群)-類(lèi)型”表示在實(shí)體類(lèi)型的基礎(chǔ)上加入詞林詞群后的F1值和△F值,小類(lèi)關(guān)系按此△F值降序排列。從表5中可以看出:
表5 實(shí)體類(lèi)型信息與詞林語(yǔ)義在小類(lèi)關(guān)系上的F1值及其變化
續(xù)表
? 在表格中雙劃線(xiàn)以上的小類(lèi)關(guān)系,如Business, Lasting-Personal和 Sports-Affiliation等,在實(shí)體類(lèi)型的基礎(chǔ)上再加入《詞林》語(yǔ)義信息時(shí),其性能提高幅度(△F值)都在1點(diǎn)以上。尤其是三個(gè)小類(lèi)關(guān)系(用底劃線(xiàn)表示),Business、Lasting-Personal和 Student-Alum,單獨(dú)加入實(shí)體類(lèi)型并不能明顯提高性能(0.9/-10.3/-1.4),甚至降低,但在加入實(shí)體類(lèi)型后,《詞林》語(yǔ)義信息顯示了它更強(qiáng)勁的性能提升作用。這說(shuō)明對(duì)于這些小類(lèi)關(guān)系而言,實(shí)體類(lèi)型信息和《詞林》語(yǔ)義信息可以相互補(bǔ)充,并且只有這樣才能更好地抽取這些小類(lèi)關(guān)系;
? 在表格中雙劃線(xiàn)以下的小類(lèi)關(guān)系(除占比例較少的Founder和Artifact小類(lèi)關(guān)系之外),如Org-Location,Geographical,Located等,實(shí)體類(lèi)型的加入,嚴(yán)重削弱了《詞林》語(yǔ)義信息對(duì)抽取性能的提升作用。即單獨(dú)加入實(shí)體類(lèi)型就已經(jīng)取得了非常顯著的性能提升,再加入《詞林》語(yǔ)義信息不會(huì)明顯提高其性能,特別是對(duì)Geographical/Located/UOIM等小類(lèi),《詞林》語(yǔ)義信息的加入反而損害了它們的抽取性能,這說(shuō)明對(duì)這些小類(lèi)關(guān)系而言,實(shí)體類(lèi)型信息已包含了大部分的《詞林》語(yǔ)義信息內(nèi)涵,兩者冗余度較高。
綜上所述,雖然從總體性能上看,在已知實(shí)體類(lèi)型的前提下,加入《詞林》語(yǔ)義信息的效果不明顯,但是,如果是對(duì)某些特定語(yǔ)義關(guān)系的抽取,如Business,Lasting-Personal和 Student-Alum以及Sports-Affiliation,Investor-Shareholder和CRRE等,加入《詞林》語(yǔ)義信息還是非常有用的。
本文利用了現(xiàn)有的中文語(yǔ)義資源《同義詞詞林》,探討了《詞林》語(yǔ)義對(duì)中文關(guān)系抽取的影響,通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn),《詞林》詞群級(jí)別的語(yǔ)義信息能顯著提高中文關(guān)系抽取的性能,但考慮一詞多義卻不能提高抽取性能。另外,《詞林》詞群語(yǔ)義和實(shí)體類(lèi)型信息存在著一定程度的冗余,因此在已知實(shí)體類(lèi)型的前提下加入《詞林》詞群語(yǔ)義時(shí)關(guān)系抽取總體性能提高較少,但是對(duì)某些特定語(yǔ)義關(guān)系的抽取,如Business,Lasting-Personal等,性能卻有明顯的提升,這說(shuō)明只有《詞林》語(yǔ)義信息和實(shí)體類(lèi)型信息相互補(bǔ)充,相輔相成,才能更好地提升中文語(yǔ)義關(guān)系抽取的性能。
下一步的研究工作我們將從以下幾個(gè)方面展開(kāi),一是通過(guò)將詞匯語(yǔ)義相似度嵌入到樹(shù)核函數(shù)中的方法來(lái)考慮語(yǔ)義信息對(duì)關(guān)系抽取的影響,并和本文的方法進(jìn)行比較;二是考慮實(shí)體信息自動(dòng)標(biāo)注的情況下,實(shí)體類(lèi)型和詞匯語(yǔ)義信息對(duì)關(guān)系抽取的影響;三是將中文抽取方面的研究工作推廣到英文關(guān)系抽取中,考察WordNet對(duì)關(guān)系抽取的影響。
[1] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of the ACL. Morristown, NJ, USA, 2004: 178-181.
[2] Zhou GuoDong, Su Jian, Zhang Jie, et al. Exploring various knowledge in relation extraction[C]//Proceedings of the ACL, 2005:427-434.
[3] Zhou G D, Qian L H, Fan J X. Tree kernel-based semantic relation extraction with rich syntactic and semantic information[C]//Proceedings of the Information Sciences, 2010:1313-1325.
[4] Chan Y S, Roth D. Exploiting Background Knowledge for Relation Extraction[C]//Proceedings of the COLING, 2010:152-160.
[5] Sun A, Grishman R, Sekine S. Semi-supervised Relation Extraction with Large-scale Word Clustering[C]//Proceedings of the ACL, 2011:521-529.
[6] Zhang M, Zhang J, Su J, et al. A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features[C]//Proceedings of the COLING-ACL. Sydney, Australia, 2006:825-832.
[7] Zhou G D, Zhang M, Ji D H, et al. Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information[C]//Proceedings of the EMNLP/CoNLL. Prague,Czech, 2007:728-736.
[8] Zhou G D, Zhu Q M. Kernel-based semantic relation detection and classification via enriched parse tree structure[J]. Journal of Computer Science and Technology. 2011. 26(1):45-56.
[9] Qian L H, Zhou G D, Kong F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of the COLING. Manchester, 2008:697-704.
[10] Qian L H, Zhou G D, Zhu Q M. Employing Constituent Dependency Information for Tree Kernel-based Semantic Relation Extraction between Named Entities[C]//Proceedings of the ACM Transaction on Asian Language Information Processing. 2011. 10(3): Article 15(24pages).
[11] Culotta A, Sorensen J. Dependency tree kernels for relation extraction[C]//Proceedings of the ACL. Barcelona, Spain, 2004:423-429.
[12] Bunescu R C, Raymond J M. A Shortest Path Dependency Kernel for Relation Extraction[C]//Proceedings of the EMNLP. Vancover, B.C, 2005:724-731.
[13] Nguyen T T, Moschitti A, Riccardi G. Convolution Kernels on Constituent, Dependency and Sequential Structures for Relation Extraction[C]//Proceedings of the EMNLP, 2009: 1378-1387.
[14] 車(chē)萬(wàn)翔, 劉挺, 李生. 實(shí)體關(guān)系自動(dòng)抽取[J]. 中文信息學(xué)報(bào), 2005,19(2): 1-6.
[15] 董靜, 孫樂(lè), 馮元勇, 黃瑞紅. 中文實(shí)體關(guān)系抽取中的特征選擇研究[J]. 中文信息學(xué)報(bào), 2007,21(4): 80-85, 91.
[16] Li W J, Zhang P, Wei F R, et al. A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//Proceedings of the ACL. Columbus, Ohio, USA, 2008: 89-92.
[17] Che W X, Jiang J M, Su Z, et al. Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of the IJCNLP. 2005: 132-137.
[18] 劉克彬, 李芳, 劉磊, 韓穎. 基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2007,44(8): 1406-1411.
[19] 黃瑞紅, 孫樂(lè), 馮元勇, 黃云平. 基于核方法的中文實(shí)體關(guān)系抽取研究[J]. 中文信息學(xué)報(bào), 2008, 22(5): 102-108.
[20] 虞歡歡, 錢(qián)龍華, 周?chē)?guó)棟, 朱巧明. 基于合一句法和實(shí)體語(yǔ)義樹(shù)的中文語(yǔ)義關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2010,24(5): 17-23.
[21] 梅家駒, 竺一鳴, 高蘊(yùn)琦, 殷鴻翔.同義詞詞林(第二版)[M].上海:上海辭書(shū)出版社, 1996.
[22] Zhang H P, Yu H K, Xiong D Y, et al. HHMM-based Chinese Lexical Analyzer ICTCLAS[C]//Proceedings of the 2nd SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, 2003:184-187.
[23] Moschitti A. A Study on Convolution Kernels for Shallow Semantic Parsing[C]//Proceedings of the ACL. Barcelona, Spain, 2004:335.
劉丹丹(1987—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿 ?/p>
E-mail: liudandan219@163.com
彭成(1987—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿 ?/p>
E-mail: 719864778@qq.com
錢(qián)龍華(1966—),副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
E-mail: qianlonghua@suda.edu.cn