黃晨,錢龍華,周國棟,朱巧明
(1.蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006;2.張家港廣播電視大學(xué),江蘇張家港215600)
信息抽取(Information Extraction,IE)[1]的目的是從自由文本中找出用戶感興趣的事件、實體及其關(guān)系,并將這些信息以結(jié)構(gòu)化的形式存儲在數(shù)據(jù)庫中,為情報分析和檢測、自動文摘、文本分類等各種應(yīng)用提供基礎(chǔ)服務(wù)。在許多自然語言理解系統(tǒng)中,不但需要識別出文本中的實體(如地名、人名和機構(gòu)名),而且還要根據(jù)上下文來確定這些實體之間所存在的關(guān)系,即實體關(guān)系抽取,簡稱關(guān)系抽取。一般來說,實體間的關(guān)系類型都是預(yù)先定義好的,例如文本短語“微軟公司執(zhí)行總裁”中“微軟公司執(zhí)行總裁”和“微軟公司”分別為人物(PER)和組織(ORG)實體,兩者之間又構(gòu)成了雇傭關(guān)系(Org-Aff.Employment),即“微軟公司執(zhí)行總裁”受雇于“微軟公司”。關(guān)系抽取不僅是信息抽取中的重要環(huán)節(jié),而且在問答系統(tǒng)、知識獲取和自然語言接口等應(yīng)用中也非常重要。
隨著近十幾年關(guān)系抽取技術(shù)的不斷發(fā)展,研究人員提出了眾多不同的方法來實現(xiàn)關(guān)系抽取。根據(jù)它們對語料庫的不同需求大致可分成指導(dǎo)性學(xué)習(xí)方法、弱指導(dǎo)學(xué)習(xí)方法和無指導(dǎo)學(xué)習(xí)方法等三大類。
指導(dǎo)性學(xué)習(xí)方法把關(guān)系抽取轉(zhuǎn)換成一個分類問題,利用已標(biāo)注的語料庫訓(xùn)練一個分類器模型(如SVM、W INNOW),然后利用該模型來判別未標(biāo)注實例的關(guān)系類型,代表工作有基于特征向量的方法[2-6]和基于核函數(shù)的方法[7-13]。目前指導(dǎo)性關(guān)系抽取雖然取得了最好的性能,但是它們需要大規(guī)模的人工標(biāo)注語料庫作為訓(xùn)練數(shù)據(jù),因而通用性不強。弱指導(dǎo)性學(xué)習(xí)方法則從少量種子集開始,不斷從未標(biāo)注語料庫中抽取出可靠性較高的關(guān)系實例來增強訓(xùn)練集,最終期望得到較好的抽取性能,如采用自舉方法的DIPRE[14]和Snowball[15],采用協(xié)同訓(xùn)練的BootProject算法[16]和標(biāo)注傳播算法[17]。弱指導(dǎo)方法能極大地減少指導(dǎo)性學(xué)習(xí)方法對大規(guī)模標(biāo)注語料的依賴,其主要問題是初始種子的選擇比較困難,對最終的性能影響較大。而無指導(dǎo)學(xué)習(xí)方法不需要人工標(biāo)注的語料庫,也無需預(yù)先定義關(guān)系的種類。它通過直接對未標(biāo)注語料庫中的所有關(guān)系實例進行聚類,即將具有相似關(guān)系的實體對歸在一類中,并對它們賦予某一標(biāo)記。
無指導(dǎo)學(xué)習(xí)方法由于不需要人工標(biāo)注的數(shù)據(jù),因而可以節(jié)省大量的時間和人力。雖然存在著無法自動衡量其抽取性能的缺點,但無指導(dǎo)的學(xué)習(xí)方法為關(guān)系抽取指明了一個新的研究方向。目前的研究方法采用上下文詞匯集合[18]或句法樹[19]來表示關(guān)系實例,然后分別使用詞匯相似度和句法樹相似度來衡量關(guān)系實例之間的相似性,從而實現(xiàn)實體關(guān)系的抽取。另一方面,由于基于特征向量的方法很難找出新的有效的詞匯、句法和語義等平面特征,因而樹核函數(shù)特別是能有效捕獲結(jié)構(gòu)化特征的卷積樹核函數(shù)[10-12]在指導(dǎo)性關(guān)系抽取中獲得了廣泛的應(yīng)用,其抽取性能也不斷提高。受卷積樹核函數(shù)在指導(dǎo)性英文實體關(guān)系抽取中的積極作用所啟發(fā),本文提出了基于卷積樹核函數(shù)的無指導(dǎo)中文實體關(guān)系抽取方法。其主要思想是首先使用簡潔而有效的句法樹—最短路徑包含樹來表示潛在的關(guān)系實例,然后再利用卷積樹核函數(shù)來計算兩個句法樹之間的相似度,從而實現(xiàn)中文實體關(guān)系的抽取。由于卷積樹核函數(shù)能有效捕獲句法樹的結(jié)構(gòu)化信息,我們期待該方法能有效實現(xiàn)無指導(dǎo)的關(guān)系抽取。
本文的后續(xù)內(nèi)容組織如下:第2節(jié)回顧中文實體關(guān)系抽取和無指導(dǎo)實體關(guān)系抽取方面的相關(guān)研究工作;第3節(jié)介紹我們所使用的方法;第4節(jié)給出實驗數(shù)據(jù),并進行結(jié)果分析;最后為總結(jié)全文和指明將來的工作方向。
從理論上講,英文實體關(guān)系抽取中的方法和原理都可以使用在中文實體關(guān)系抽取的研究中,但是,一方面由于中英文在語法結(jié)構(gòu)上的諸多不同,另一方面,中文實體關(guān)系抽取研究的起步也較晚,因此其方法基本上都集中于指導(dǎo)性的統(tǒng)計機器學(xué)習(xí)方法,包括基于特征向量的方法和基于核函數(shù)的方法兩大類。
對于基于特征向量的中文實體關(guān)系抽取而言,其關(guān)鍵問題仍然是如何選擇有效的詞匯、句法和語義等特征,如車萬翔等[20]提取了實體的類型/小類、兩個實體間的位置關(guān)系、兩個實體前后的詞匯等信息;董靜等[21]進一步將關(guān)系實例劃分為包含實體關(guān)系和非包含實體關(guān)系,并對非包含實體關(guān)系進一步加入了句法結(jié)構(gòu)信息(如兩個實體的祖先節(jié)點、實體之間的路徑、依存動詞及實體到依存動詞的路徑等);Li等[22]則進一步探索了實體間的結(jié)構(gòu)關(guān)系(如包含關(guān)系、鄰近關(guān)系和分隔關(guān)系等)對抽取性能的影響,同時采用基于字的一元或二元上下文特征以避免中文分詞錯誤所產(chǎn)生的影響。
在基于核函數(shù)的中文實體關(guān)系抽取方法中,Che等[23](編輯距離核)和劉克彬等[24](字符串核)的核函數(shù)都是基于比較中文詞串的相似度,并在比較過程中考慮了一定的詞匯語義相似度。Huang等[25]初步探索了卷積樹核函數(shù)和最短依存樹核函數(shù)在中文實體關(guān)系抽取中的應(yīng)用,但其性能極低(F指數(shù)約為30)。當(dāng)然,這并不說明核方法本身存在問題,而只能說明在中文關(guān)系抽取中較難找到能合理和確切表示實體關(guān)系的結(jié)構(gòu)化信息以及結(jié)構(gòu)化信息的相似度計算方法。
在無指導(dǎo)關(guān)系抽取的研究方面,H asegawa等[18]首先識別出文本中的命名實體及其類型,當(dāng)實體對的共現(xiàn)頻率超過一定閾值時,把它們作為一個潛在的實體關(guān)系,并通過計算實體對之間的詞匯相似度的方法進行聚類,然后給每個發(fā)現(xiàn)的實體關(guān)系賦予一個合適的類別名稱。在1995年《紐約時報》語料上的測試表明,應(yīng)用該方法發(fā)現(xiàn)公司實體對(COM-COM)之間的關(guān)系,F指數(shù)可達到75。不過,該方法不考慮出現(xiàn)次數(shù)少于30的命名實體對,因而湮滅了這些命名實體對之間潛在的關(guān)系。
Zhang等[19]通過計算包含實體對的句法樹的相似度進行聚類,探討了無指導(dǎo)學(xué)習(xí)方法在關(guān)系抽取中的應(yīng)用。在同樣的1995年《紐約時報》語料上,該方法能有效地發(fā)現(xiàn)高頻和低頻命名實體對之間的關(guān)系,相比 Hasegawa等[18]的實驗結(jié)果,其F指數(shù)提高了5。但在無指導(dǎo)關(guān)系抽取中,聚類數(shù)目的確定和代表關(guān)系類別的詞匯選擇方面仍然存在著問題。
Chen等[26]在確定命名實體對之間關(guān)系的數(shù)量和特征集大小時,采用多次取樣方法(Resamp le)通過反復(fù)的實驗尋找目標(biāo)函數(shù)的最優(yōu)值,從而找到最自然的關(guān)系個數(shù)及其相對應(yīng)的特征集,然后利用判別類型匹配方法(DCM)選擇最重要的詞匯特征作為某類關(guān)系的名稱。在ACE語料庫上的實驗表明,該方法在PER-ORG、ORG-GPE和ORG-ORG實體對之間的關(guān)系抽取的準(zhǔn)確率分別為41.3%、50.6%和42.4%,同Hasegawa等(2004)[18]的方法相比,性能有大幅度的提高。
在中文實體關(guān)系抽取方面,目前還沒有采用無指導(dǎo)學(xué)習(xí)方法的相關(guān)研究工作。同時,由于卷積樹核函數(shù)在英文實體關(guān)系抽取中取得了一定的成功,因此本文采用卷積樹核函數(shù)的方法來實現(xiàn)無指導(dǎo)的中文實體關(guān)系抽取,其關(guān)鍵問題是如何選擇合適的結(jié)構(gòu)化信息來表示中文實體關(guān)系實例以及采用什么樣的聚類方法,本文就這兩方面展開研究。
基于樹核函數(shù)的無指導(dǎo)實體關(guān)系抽取,第一步是如何表示關(guān)系實例的結(jié)構(gòu)化信息和計算結(jié)構(gòu)化信息之間的相似度;第二步是在關(guān)系實例的相似度基礎(chǔ)之上,對實體對進行聚類,即將相似的實體對歸為相同的簇(即實體關(guān)系類別),從而實現(xiàn)實體關(guān)系的抽取。
Zhang等[10]最早研究了從包含兩個實體的最小完全樹(MCT)中抽取出5種結(jié)構(gòu)化子樹用于表示關(guān)系實例的方法,其中兩個實體之間的最短路徑包含樹(SPT)取得了最好的性能。Zhou等[11]在SPT樹的基礎(chǔ)上動態(tài)擴充與謂詞連接有關(guān)的上下文相關(guān)信息,產(chǎn)生了上下文相關(guān)的最短路徑包含樹(CS-SPT),抽取性能得到了進一步的提高。Qian等[12]則利用成分依存關(guān)系來決定最小完全樹中的哪些成分對實體關(guān)系是有用的,從而形成一棵能有效捕獲關(guān)系實例結(jié)構(gòu)化信息的動態(tài)句法樹(DSPT)。盡管這些結(jié)構(gòu)化表達方式對指導(dǎo)性關(guān)系抽取的最終性能存在著一定的影響[12],但是考慮到我們要研究的主要問題是樹核函數(shù)在無指導(dǎo)關(guān)系抽取中的有效性,為了處理的簡化起見,我們采用比較方便但仍然有效的表達方式—最短路徑包含樹。
圖1顯示了在短語“…將恐怖分子從監(jiān)獄當(dāng)中釋放出來…”中實體“恐怖分子”(PER)和“監(jiān)獄”(FAC)之間的關(guān)系實例的結(jié)構(gòu)化表示形式。其中T1為最小完全樹,T2為經(jīng)過裁剪后的最短路徑包含樹,即在最小完全樹中兩個實體之間的最短路徑(“E1—NP—VP—PP—NP—E2”)所包含的子樹。
圖1 關(guān)系實例的結(jié)構(gòu)化信息表示(SPT)
在得到了關(guān)系實例的結(jié)構(gòu)化信息之后,下一步要解決結(jié)構(gòu)化信息之間的相似度計算問題。卷積核函數(shù)用離散對象的子結(jié)構(gòu)來捕獲它們之間的結(jié)構(gòu)相似性,如句法樹核函數(shù)、字符串核函數(shù)和圖形核函數(shù)等。我們采用Co llins和Du ffy[27]的卷積樹核函數(shù)(Convolution Tree Kernel,CTK)來計算兩棵樹之間的相似度,即通過計算它們之間的相同子樹的數(shù)目來衡量它們之間的相似度,其公式為:
其中 N1和N 2分別為T1和 T2的節(jié)點集合,Δ(n1,n2)用來計算以n1和n2為根節(jié)點的兩棵子樹之間的相似度,它可以通過下列遞歸的方法得出:
1)如果和的產(chǎn)生式(采用上下文無關(guān)文法)不同,則 Δ(n1,n2)=0;否則轉(zhuǎn) 2);
2)如果和是詞性(POS)標(biāo)記,則 Δ(n1,n2)=1×λ;否則轉(zhuǎn)3);
3)遞歸計算下式:
其中#ch(n)是節(jié)點的子節(jié)點數(shù)目,ch(n,k)是節(jié)點的第k個子節(jié)點,而λ(0<λ<1)則是衰減因子,用來防止子樹的相似度過度依賴于子樹的大小。
由于卷積樹核函數(shù)能有效捕獲離散數(shù)據(jù)對象中的結(jié)構(gòu)化信息,因而在信息抽取以及自然語言處理的其他領(lǐng)域中取得了廣泛的應(yīng)用,如語義角色標(biāo)注和指代消解等。
聚類[28]的目的是將一組對象劃分成若干組或類別,即相似元素同組、相異元素不同組。本質(zhì)上說,聚類是指根據(jù)樣本之間的某種距離在無指導(dǎo)條件下的聚簇過程。聚類算法一般可分為兩大類:層級聚類和非層級聚類。其中層次聚類的特點是每個節(jié)點都是其父類的一個子類,聚類結(jié)果通??梢员硎境蓸鋱D的形式;非層次聚類則類別結(jié)構(gòu)簡單,類別之間沒有層次關(guān)系,非層次聚類中最典型的算法是K-means算法。不過,由于K-means算法中的數(shù)據(jù)必須表示成歐氏空間的特征向量,而本文采用樹結(jié)構(gòu)來表示關(guān)系實例,因此采用層次聚類算法比較適合,采用層次聚類的另一個好處是不用預(yù)先定義聚類的簇數(shù)量。
在層次聚類算法中需要用到兩個聚類簇之間相似度的計算方法,由于一個簇中含有多個關(guān)系實例,因此可以選擇下列三種簇相似度計算方法:
單連通:計算兩個簇之間最相似樣本之間的相似度;
全連通:計算兩個簇之間最不相似樣本之間的相似度;
平均連通:計算兩個簇之間所有樣本的平均相似度。
本節(jié)首先說明本文實驗所使用的語料庫及評測指標(biāo),然后再對實驗結(jié)果進行分析和討論。
本文使用ACE RDC 2005中文標(biāo)注語料庫作為無指導(dǎo)關(guān)系抽取的實驗數(shù)據(jù)。ACE RDC 2005語料庫共包含633篇文檔,其中BNEWS有238篇,NW IRE有298篇,WEBLOG有97篇。我們對這些文檔進行了預(yù)處理,由于單句字?jǐn)?shù)過多和句法錯誤等原因過濾掉了101篇,最終從中選取了532個文檔,其中標(biāo)注有關(guān)系的實體對(即關(guān)系正例)為7 630個,沒有關(guān)系的實體對(即關(guān)系負(fù)例)為83 063個。ACE RDC 2005中文語料庫的實體關(guān)系類型共有6個大類,36個小類。由于關(guān)系負(fù)例之間的結(jié)構(gòu)差異很大,因此本文聚類的對象僅局限于關(guān)系正例。表1列出了各個關(guān)系大類實例數(shù)量的分布情況,從中可以看出其分布是不均勻的。
表1 ACE RDC 2005中文語料庫關(guān)系實例統(tǒng)計信息
ACE RDC 2005語料庫的原始形式是SGM L(Standard Generalized M ark-up Language)文件,即實體及其關(guān)系的標(biāo)注信息是通過SGM L標(biāo)記插入到文本中的。為了便于句法分析,我們首先將標(biāo)注信息和純文本分離開來,其中標(biāo)注的實體及其關(guān)系實例存放到單獨的標(biāo)注文件中;然后對剩余的純文本進行分句和分詞,再將分詞后的句子進行句法分析,從而得到每個句子的句法樹;最后對每個句子中出現(xiàn)的所有實體進行兩兩配對,如果一個實體對存在關(guān)系,則它所對應(yīng)的最短路徑包含樹及其相對應(yīng)的關(guān)系類型加入到實驗數(shù)據(jù)中。
本文所采用的基于卷積樹核的相似度計算工具來自于SVMLight-TK①http://dow nload.joachims.org/svm_ligh t/curren t/svm_ligh t.tar.gz.,其中的衰減因子λ采用默認(rèn)值(即0.4)。不過,我們僅抽取其中與樹的相似度計算相關(guān)的部分代碼。聚類算法軟件包采用東京大學(xué)的C/C++聚類庫函數(shù)②http://bonsai.im s.u-tokyo.ac.jp/ ~ mdehoon/software/cluster/cluster-1.46.tar.gz.,該軟件包支持K-m eans聚類、層次聚類等功能。不過,由于它不直接支持采用樹結(jié)構(gòu)形式的數(shù)據(jù)實例,因此我們首先計算好關(guān)系實例兩兩之間的相似度,然后再把這些數(shù)值輸入到聚類軟件包中,并分別用三種簇相似度計算方法(單連通、完全連通和平均連通)進行層次聚類。
對于無指導(dǎo)的關(guān)系抽取,一般采用與指導(dǎo)性關(guān)系抽取相類似的性能評測指標(biāo),如準(zhǔn)確率(P recision)、召回率(Recall)和 F值(F-Score)等。與關(guān)系抽取不同的是,在關(guān)系聚類中,一個聚類簇內(nèi)的關(guān)系實例的正確類別不是由它自身的關(guān)系類別所決定,而是由該簇的大多數(shù)實例的關(guān)系類別所決定。具體而言,假設(shè)經(jīng)過聚類后得到N個簇(1,2,…,N),若某一簇中的大多數(shù)關(guān)系實例都屬于表1中的某一類別,則該類別被認(rèn)為是該簇的關(guān)系類別,最后,若兩個簇的關(guān)系類別相同,則將他們合并為一個簇。
本實驗評測指標(biāo)與Hasegaw a[18]的指標(biāo)基本相同,具體描述如下:
其中 Ncorrect為某一簇中被正確分類的實例數(shù)量,Nincor rect為該簇中被錯誤分類的實例數(shù)量,而Nkey為語料庫中具有該簇類別的實例總數(shù)。由于相同類別的簇最終會被合并,因此聚類后的簇的數(shù)量總是不大于語料庫中實際關(guān)系類別的數(shù)量。與Hasegawa等[18]方法不同的是,以上方法計算出的指標(biāo)是針對某一類別的,對于最后的平均性能,我們采用對各類別進行加權(quán)平均的方法來獲得Pavg與Ravg,然后再計算出Favg。
圖2比較了聚類簇的數(shù)量對單連通聚類、全連通聚類和平均連通聚類關(guān)系抽取的性能影響。
圖2 簇的數(shù)量對兩種聚類算法的性能影響(F指數(shù))
為了說明問題的方便,僅列出了相應(yīng)的平均F指數(shù)。從圖中可以看出,單連通聚類的性能與全連通聚類和平均連通聚類的性能相差較大,這是由于單連通聚類只考慮了兩個簇之間最相似樣本之間的相似值,隨著簇內(nèi)部樣本數(shù)量的增加,這個度量值越來越偏離實際情況;同時,后兩者的加權(quán)F平均值最高分別達到了58.8和60.1,這表明基于卷積樹核的方法在無指導(dǎo)的中文實體關(guān)系抽取中是有效和可行的。針對全連通聚類和平均連通聚類,可以看出:
(1)隨著聚類簇數(shù)量的增加,兩種聚類算法的最終性能基本呈上升趨勢。這是由于聚類的粒度越大(即簇數(shù)量越小),則不同類別的關(guān)系實例被聚類于同一簇中的概率也就越大,因而其總體性能也就越低。
(2)平均連通聚類在性能上要普遍優(yōu)于全連通聚類(除了簇數(shù)量為18以外),不過隨著簇數(shù)量的增加,兩者的差距明顯縮小直至基本相同。這是由于全連通聚類考慮的是兩個簇之間最不相似樣本之間的相似度,當(dāng)簇數(shù)量較少時,每一簇內(nèi)的實例數(shù)量較多,它們之間的差異也越大,全連通方法所得到的相似度誤差也就越大;而平均連通聚類采用的是兩個簇之間樣本相似度的平均值,因此即使在簇數(shù)量較少時,也能在一定程度上較好地反映出簇之間的相似度。但是,當(dāng)簇的數(shù)量增加時,每一簇內(nèi)的實例數(shù)量變少,它們之間的差異也變小,因而即使是全連通方法也能較好地刻劃簇之間的相似度,所以兩者之間的性能差距接近。
(3)當(dāng)簇的數(shù)量達到36時,兩種聚類算法均取得較好的性能,而當(dāng)簇數(shù)量再進一步增加時,聚類性能變化不大,甚至略微減少。一種合理的解釋是由于ACE RDC 2005語料庫將6個關(guān)系大類進一步劃分為36個關(guān)系子類,因而簇數(shù)量為36時最能體現(xiàn)關(guān)系實例的自然簇結(jié)構(gòu)。當(dāng)簇的數(shù)量再進一步增加時,一個小類中的實例或許被強行聚類到不同的簇中,但這并不能提高聚類的性能。這在另一方面也說明在ACE RDC 2005語料庫中的關(guān)系類別定義還是相當(dāng)合理的。
圖3 簇的數(shù)量對各大類關(guān)系識別的性能影響(平均連通聚類)
圖3比較了在平均連通聚類中簇的數(shù)量對各個關(guān)系大類聚類性能的影響,仍然采用F指數(shù)來衡量。從圖中可以看出,其變化趨勢與平均性能變化趨勢基本一致。特別地,Physical,Part-w hole和ORG-A ffiliation等三個關(guān)系類別的聚類性能較好,其在簇數(shù)量為36時的F指數(shù)分別達到了 59.0、69.6和65.9,這主要是由于這三個大類的關(guān)系實例數(shù)量較多并且其內(nèi)部結(jié)構(gòu)一致性較好的原因。
由于目前還沒有相關(guān)的無指導(dǎo)中文實體關(guān)系抽取系統(tǒng),因此我們在表2中比較了無指導(dǎo)關(guān)系抽取和下列兩種方法之間的性能差別:
?基準(zhǔn)(Baseline)方法:基于特征向量的中文實體關(guān)系聚類,采用Zhou等[4]的方法從文本中抽取出詞匯、實體、重疊、語塊等特征構(gòu)成特征向量,然后計算特征向量之間的相似度,再以此為基礎(chǔ)進行單連通、平均連通和全連通等層次聚類。實驗表明,當(dāng)采用全連通聚類方法、簇的數(shù)量為36時,聚類性能F值取得最高值56.7;
?指導(dǎo)性關(guān)系分類方法:在所有關(guān)系正例上進行關(guān)系分類的 5倍交叉驗證。首先將實例集(7 630個實例)分成大小相同的5份,每次取4份作為訓(xùn)練集,用基于樹核的分類器SVMLight-TK訓(xùn)練出一個模型,然后在剩余一份上進行測試,計算出關(guān)系分類的一次性能,最后取5次實驗的平均值。
從表2中可以看出,相對于基于特征向量的方法而言,基于卷積樹核的無指導(dǎo)關(guān)系分類取得了一定的進步,F值提高了約3點,這主要是由于難于獲得有效的平面特征來表示中文實體關(guān)系實例,而卷積樹核能有效地捕獲實體關(guān)系的結(jié)構(gòu)化特征,同時也說明基于樹核的層次聚類方法對于無指導(dǎo)中文關(guān)系抽取具有一定的有效性。不過,同指導(dǎo)性關(guān)系抽取相比差距仍很大,F值低約17點。由于關(guān)系抽取在自然語言處理領(lǐng)域是一個相當(dāng)困難的問題,特別是對于中文實體關(guān)系,與英文實體關(guān)系抽取相比,指導(dǎo)性抽取方法尚且還不能取得令人滿意的結(jié)果,因此今后仍需進一步提高指導(dǎo)性中文實體關(guān)系抽取的性能。
表2 中文ACE 2005關(guān)系抽取性能比較
本文提出了一種基于卷積樹核的無指導(dǎo)中文實體關(guān)系抽取方法,以最短路徑包含樹來表示關(guān)系實例的結(jié)構(gòu)化信息,采用卷積樹核函數(shù)來計算結(jié)構(gòu)化信息之間的相似度,然后使用單連通、全連通和平均連通三種分層聚類算法來實現(xiàn)無指導(dǎo)的中文實體關(guān)系抽取。在ACE RDC 2005中文語料庫上的實體關(guān)系聚類實驗表明,聚類簇的數(shù)量對各關(guān)系大類乃至整個關(guān)系抽取的性能具有很大的影響。特別地,當(dāng)聚類簇數(shù)量為預(yù)定義的關(guān)系小類數(shù)量時,全連通聚類和平均連通聚類的F加權(quán)平均值取得了較高值,分別達到了58.8和60.1,這些結(jié)果表明基于卷積樹核的方法在無指導(dǎo)的中文實體關(guān)系抽取中能有效捕獲關(guān)系實例的自然簇結(jié)構(gòu),在一定程度上是行之有效的。
我們下一步的工作是對未標(biāo)注的中文語料庫進行實體關(guān)系聚類,并進行聚類簇的標(biāo)記,即給每一個簇賦予一個合理的關(guān)系名稱,同時對不可靠的簇進行修剪,進一步提高無指導(dǎo)中文實體關(guān)系抽取的實用性。
[1] 李保利,陳玉忠,俞士汶.信息提取研究綜述[J].計算機工程與應(yīng)用,2003,39(10):1-5.
[2] Kambhatla N.Combining lexical,syntactic and semantic featuresw ith Maximum Entropy mode ls for extracting relations[C]//ACL-2004(Poster):178-181.
[3] Zhao S B and G rishman R.Ex tracting relations w ith integrated information using kernel-basedmethods[C]//ACL-2005:419-426.
[4] Zhou G D,Su J,Zhang Jand Zhang M.Exp loring various know ledge in re lation ex traction[C]//ACL-2005:427-434.
[5] Jiang J and ZhaiC X.A Systematic Exploration of the Feature Space for Relation Extraction[C]//NAACLH LT-2007:113-120.
[6] 奚斌 ,錢龍華 ,周國棟 ,等.語言學(xué)組合特征在語義關(guān)系抽取中的應(yīng)用[J].中文信息學(xué)報,2008,22(3):44-49,63.
[7] Zelenko D,Aone C and Richardella A.Kernel-based methods for relation extraction[J].Journal of Machine Learning Research,2003,3(Feb):1083-1106.
[8] Cu lotta A and Sorensen J.Dependency tree kernels for relation ex trac tion[C]//ACL-2004:423-429.
[9] Bunescu R and Mooney R J.A shortest path dependency kernel for relation extraction[C]//H LT-EMNLP-2005:724-731.
[10] Zhang M,Zhang J,Su Jand Zhou G D.A Composite Kernel to Ex tract Relations betw een Entities w ith both Flat and Structured Features[C]//COLINGACL-2006:825-832.
[11] Zhou G D,Zhang M,Ji D H,Zhu Q M.Tree Kernel-based Relation Ex traction w ith Context-Sensitive Structured Parse T ree In formation[C]//EMNLPCoNLL-2007:728-736.
[12] Qian L H,Zhou G D,Zhu QM,Qian PD.Exploiting constituent dependencies for tree kernel-based semantic re lation extraction[C]//COLING-2008:697-704.
[13] 莊成龍 ,錢龍華 ,周國棟.基于樹核函數(shù)的實體語義關(guān)系抽取方法研究[J].中文信息學(xué)報,2009,23(1):4-8,34.
[14] Brin S.Extracting patterns and relations from the World W ide Web[C]//Proceedings of WebDBWorkshop at 6th International Conference on Extending Database Technology(EDBT'98),1998.
[15] Agichtein E and G ravano L.Snow ball:Ex tracting Relations from Large Plain-Tex t Co llec tions[C]//Proceedings of the fifth ACM conference on Digital libraries,2000.
[16] Zhang Z.W eak ly supervised relation classification for Information Extraction[C]//CIKM-2004:581-588.
[17] Chen JX,Ji D H and Tan C L.Relation Extraction using Label Propagation Based Sem i supervised Learning[C]//COLING-ACL-2006:126-139.
[18] H asegawa T,Sekine S and Grishman R.Discovering Relations among Named Entities from Large Corpora[C]//ACL-2004:415-422.
[19] Zhang M,Sun J,Wang D M,eta l.Discovering Relations betw een Named Entities from a Large Raw Corpus Using T ree Sim ilarity-base Clustering[C]//IJCNLP-2005:378-389.
[20] 車萬翔,劉挺,李生.實體關(guān)系自動抽取[J].中文信息學(xué)報,2005,19(2):1-6.
[21] 董靜,等.中文實體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報,2007,21(4):80-85,91.
[22] LiW J,Zhang P,Wei F R,H ou Y X and Lu Q.A Novel Feature-based A pp roach to Chinese Entity Relation Extraction[C]//ACL-2008(short paper):89-92.
[23] Che W X,et a l..Im proved-Edit-Distance Kernel for Chinese Relation Ex trac tion[C]//IJCNLP,2005:132-137.
[24] 劉克彬,等.基于核函數(shù)中文關(guān)系自動抽取系統(tǒng)的實現(xiàn)[J].計算機研究與發(fā)展,2007,44(8):1406-1411.
[25] H uang R H,Sun L,Feng Y Y.Study of Kernel-Based Methods for Chinese Relation Extraction[C]//LNCS(Lecture Notes in Computer Science),2008(4993):598-604.
[26] Chen J X,Ji D H,Tan C L,et a l.Unsupervised Feature Selection for Relation Extraction[C]//CIKM-2007:411-418.
[27] Collins M and Duffy N.Convolution Kernels for Natural Language[C]//N IPS-2001:625-632.
[28] Christopher D.Manning,H inrich Schtze.Foundations of Statistical Natural Language Processing[M].Beijing:Pub lishing House of Electronics Industry,2005.