實(shí)體關(guān)系的弱監(jiān)督學(xué)習(xí)抽取方法

2018-05-10 05:52:12朱禮軍

中國(guó)科技資源導(dǎo)刊 2018年2期

王政朱禮軍徐碩

（1. 中國(guó)科學(xué)技術(shù)信息研究所，北京 100038；2. 北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院，北京現(xiàn)代制造業(yè)發(fā)展研究基地，北京 100124）

0 引言

大數(shù)據(jù)使得許多利用傳統(tǒng)方法難以解決的問(wèn)題變得可行。例如，在醫(yī)療問(wèn)答系統(tǒng)中如果知道“馬錢(qián)子”和“腎毒性”成“正相關(guān)”的關(guān)系，那么問(wèn)題“低蛋白血癥應(yīng)該吃什么藥?”對(duì)應(yīng)的答案中就可以篩除含有馬錢(qián)子的中藥藥方。但是，表達(dá)“馬錢(qián)子”與“腎毒性”關(guān)系的語(yǔ)句往往存在于專(zhuān)業(yè)網(wǎng)站、學(xué)術(shù)文獻(xiàn)和科技類(lèi)圖書(shū)等科技文獻(xiàn)資源中，因此基于科技文獻(xiàn)資源的關(guān)系抽取為此類(lèi)問(wèn)題的解決帶來(lái)了希望。

早在1996年，由美國(guó)軍方背景支持的MTU會(huì)議就意識(shí)到了這一點(diǎn)，提出要通過(guò)多種手段提升人類(lèi)的數(shù)據(jù)利用能力，并對(duì)這一目標(biāo)進(jìn)行了具體而詳細(xì)的闡述[1]。實(shí)體關(guān)系抽取在其中起到了承上啟下的作用，其準(zhǔn)確率和效率直接影響后續(xù)任務(wù)（如事件抽取、情感分析等）的性能，因此備受?chē)?guó)內(nèi)外研究者們的重視[2-4]。

近年來(lái)，許多學(xué)術(shù)或者商業(yè)項(xiàng)目在通用領(lǐng)域開(kāi)展了大量的關(guān)系抽取實(shí)踐，形成了YAGO2[5]、NELL[6]、Freebase[7]、DBpedia[8]、Gооgle Knоwledge Vault[9]等知識(shí)庫(kù)。在結(jié)構(gòu)上，這些知識(shí)庫(kù)中主要包含了大量的二元關(guān)系，如Persоn-Org關(guān)系、Org-Address關(guān)系等；偶爾也存在一些多元關(guān)系（N-ary Relatiоn），如“A在B和С中間”[10]，但并不占主流。從構(gòu)建方法上來(lái)說(shuō)，為了從大量無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)的語(yǔ)料中構(gòu)建知識(shí)庫(kù)，主要應(yīng)用監(jiān)督方法、遠(yuǎn)程監(jiān)督方法、半監(jiān)督方法和無(wú)監(jiān)督方法。

對(duì)于科技情報(bào)領(lǐng)域，監(jiān)督實(shí)體關(guān)系抽取方法不具有優(yōu)勢(shì)。因?yàn)楸O(jiān)督實(shí)體關(guān)系抽取器的訓(xùn)練需要首先通過(guò)全面、高質(zhì)量的標(biāo)注數(shù)據(jù)訓(xùn)練實(shí)體關(guān)系抽取器，然后再通過(guò)實(shí)體關(guān)系抽取器從未標(biāo)注數(shù)據(jù)中抽取實(shí)體關(guān)系。以常用的AСE（Autоmatic Соntent Extractiоn）語(yǔ)料為例，其中包含了超過(guò)1000個(gè)文檔，每個(gè)文檔中的實(shí)體對(duì)被標(biāo)注了5～7個(gè)主要關(guān)系與23～24個(gè)次要關(guān)系，共計(jì)16771個(gè)關(guān)系實(shí)例。然而，科技情報(bào)往往涉及多個(gè)領(lǐng)域，專(zhuān)業(yè)性強(qiáng)、標(biāo)注成本高、含有大量專(zhuān)有名詞、關(guān)系類(lèi)型不固定。為了達(dá)到通用領(lǐng)域?qū)嶓w關(guān)系抽取的類(lèi)似水平，需要投入大量的人力、物力和財(cái)力資源。

弱監(jiān)督學(xué)習(xí)方法，即半監(jiān)督學(xué)習(xí)、遠(yuǎn)程監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)，則可有效解決這一問(wèn)題：無(wú)論標(biāo)注數(shù)據(jù)中是否存在錯(cuò)誤、帶有噪音，還是標(biāo)注數(shù)據(jù)原本不是用于意向目標(biāo)，抑或只存在一些先驗(yàn)知識(shí)、根本沒(méi)有標(biāo)注數(shù)據(jù)。上述方法均可以用于實(shí)體關(guān)系抽取。特別是，近年來(lái)，隨著實(shí)體關(guān)系抽取研究的深入，這3種方法常常相互啟發(fā)、互相配合，在同一套項(xiàng)目中作為一個(gè)整體出現(xiàn)[11-13]。

盡管弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取前景樂(lè)觀，但是相關(guān)綜述性文獻(xiàn)比較少。如Kоnstantinоva[2]的綜述重點(diǎn)在于對(duì)通用語(yǔ)料的實(shí)體關(guān)系抽取進(jìn)行一個(gè)整體性的闡述，客觀上缺乏對(duì)科技情報(bào)的適用性。而其他學(xué)者如Bach和Badaskar[3]、車(chē)萬(wàn)翔等[4]所做的綜述，由于歷史原因僅限于監(jiān)督實(shí)體關(guān)系抽取方法。為了促進(jìn)弱監(jiān)督實(shí)體關(guān)系抽取在科技情報(bào)界的應(yīng)用，本文擬按照對(duì)標(biāo)注數(shù)據(jù)的要求，對(duì)弱監(jiān)督學(xué)習(xí)的發(fā)展歷程及其半監(jiān)督、遠(yuǎn)程監(jiān)督和弱監(jiān)督學(xué)習(xí)3種方法進(jìn)行描述和分析。

1 弱監(jiān)督學(xué)習(xí)抽取方法的發(fā)展歷程

隨著信息技術(shù)的發(fā)展，互聯(lián)網(wǎng)上所承載的資源日益增加，利用方式不斷豐富。而要對(duì)這些無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的信息資源進(jìn)行深入挖掘與利用，需要將它們進(jìn)行結(jié)構(gòu)化。而從無(wú)結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù)構(gòu)建結(jié)構(gòu)化數(shù)據(jù)的方法之一，就是實(shí)體關(guān)系抽取。如圖1所示。MUС[1]會(huì)議認(rèn)為，實(shí)體關(guān)系抽取任務(wù)是未來(lái)發(fā)展的一個(gè)重要方向，并首先進(jìn)行了定義。傳統(tǒng)上，研究者們往往使用監(jiān)督學(xué)習(xí)方法將實(shí)體關(guān)系抽取視作分類(lèi)問(wèn)題，通過(guò)以核函數(shù)[14]為代表方法從標(biāo)注數(shù)據(jù)中學(xué)習(xí)關(guān)系抽取器。盡管該方法取得了不小的進(jìn)展，但面對(duì)越來(lái)越多的數(shù)據(jù)與不同領(lǐng)域的實(shí)體關(guān)系抽取需求，其數(shù)據(jù)標(biāo)注成本越來(lái)越高。

1998年，谷歌利用PageRank等算法在信息檢索方面進(jìn)行了成功的嘗試，人們只需要輸入關(guān)鍵詞即可得到相關(guān)信息。但是，在沒(méi)有更自然、更精準(zhǔn)的檢索服務(wù)的情況下，用戶(hù)仍然需要翻閱多個(gè)頁(yè)面才能獲得自己想要的結(jié)果。而提供更自然、更精準(zhǔn)的檢索服務(wù)，顯然需要進(jìn)行實(shí)體關(guān)系抽取。

同年，Brin[15]使用半監(jiān)督學(xué)習(xí)做出的工作引發(fā)了研究者們的注意：他使用少量數(shù)據(jù)作為“種子”，對(duì)“作者—書(shū)籍”關(guān)系進(jìn)行抽取。他從“種子”中獲得能夠匹配關(guān)系的模板，進(jìn)而可以匹配新的關(guān)系實(shí)例。雖然這種方法受限于專(zhuān)業(yè)領(lǐng)域知識(shí)背景和“種子”的質(zhì)量，但是它證明，減少數(shù)據(jù)標(biāo)注依賴(lài)是有可能的。

隨著Web 2.0為基礎(chǔ)的多種互聯(lián)網(wǎng)服務(wù)的發(fā)展，維基百科等公共知識(shí)庫(kù)吸引了越來(lái)越多的目光。因此，一種可行的思路是通過(guò)這些公共知識(shí)庫(kù)拓展標(biāo)注數(shù)據(jù)的來(lái)源，利用知識(shí)庫(kù)中半結(jié)構(gòu)化的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)提供幫助，這種方法被稱(chēng)作遠(yuǎn)程監(jiān)督學(xué)習(xí)方法。很多基于維基百科的結(jié)構(gòu)化知識(shí)庫(kù)的發(fā)展，如Freebase[7]、DBpedia[8]等，為遠(yuǎn)程監(jiān)督學(xué)習(xí)奠定了應(yīng)用基礎(chǔ)。

然而，許多具有專(zhuān)業(yè)知識(shí)背景的實(shí)體關(guān)系抽取項(xiàng)目仍然無(wú)法找到合適的知識(shí)庫(kù)支持。對(duì)于這種情況，2008年，谷歌提出了OpenIE方法。該方法通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取徹底擺脫了標(biāo)注數(shù)據(jù)的限制，更加適用于多領(lǐng)域、大規(guī)模數(shù)據(jù)。實(shí)踐表明，無(wú)監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取方法極大地改善了谷歌的檢索質(zhì)量，使用者可以通過(guò)更自然的方式獲得更精準(zhǔn)的實(shí)體關(guān)系抽取結(jié)果。

至此，上述3種方法形成了與監(jiān)督學(xué)習(xí)方法截然不同的實(shí)體關(guān)系抽取思路，即弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取。在之后的實(shí)體關(guān)系抽取發(fā)展過(guò)程中，很多實(shí)體關(guān)系抽取模型都會(huì)綜合利用這3種方法，以全面測(cè)試模型的性能。因此，本文對(duì)3種方法進(jìn)行綜述，以幫助讀者全面了解弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取。

2 半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)已經(jīng)成為弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取中應(yīng)用最廣泛的方法，其標(biāo)志性的自訓(xùn)練[15-16]過(guò)程如圖2所示。

（1）從一個(gè)較小的數(shù)據(jù)集開(kāi)始，標(biāo)注出其中的關(guān)系實(shí)例，這些關(guān)系實(shí)例被稱(chēng)作“種子”。

（2）從“種子”中提取模板。

（3）通過(guò)模板在非“種子”語(yǔ)料中提取新的實(shí)體關(guān)系實(shí)例，并將這些實(shí)例作為新的種子。

圖1 弱監(jiān)督學(xué)習(xí)發(fā)展歷程中的關(guān)鍵節(jié)點(diǎn)

圖2 半監(jiān)督學(xué)習(xí)訓(xùn)練過(guò)程

（4）從步驟二開(kāi)始執(zhí)行，直到循環(huán)終止條件達(dá)成。

其目標(biāo)是通過(guò)很少的標(biāo)注數(shù)據(jù)訓(xùn)練出較好的實(shí)體關(guān)系抽取模型，并抽取出大量的關(guān)系實(shí)例。例如要從互聯(lián)網(wǎng)上抽取“書(shū)—作者”關(guān)系，Brin[15]只使用了5個(gè)關(guān)系實(shí)例作為種子，就可以從自然語(yǔ)言文本、URL、超鏈接中為當(dāng)時(shí)尚不完善的文獻(xiàn)數(shù)據(jù)庫(kù)補(bǔ)充15257個(gè)實(shí)例。類(lèi)似的關(guān)系還包括“科研機(jī)構(gòu)—作者”、作者合著、機(jī)構(gòu)合作、母體文獻(xiàn)、項(xiàng)目來(lái)源等[17]。

但是，少量的人工標(biāo)注數(shù)據(jù)容易產(chǎn)生語(yǔ)義漂移，誤導(dǎo)實(shí)體關(guān)系抽取模型學(xué)習(xí)到不合適的“種子”和模板。解決這個(gè)問(wèn)題的基本思路是加強(qiáng)人的監(jiān)督。比如利用模板與關(guān)系實(shí)例的對(duì)偶性[15]將模板視作對(duì)實(shí)例的抽象，將實(shí)例視作模板所表示關(guān)系的具體實(shí)現(xiàn)。Brin選擇了一種字符串匹配模板，既方便在計(jì)算機(jī)上實(shí)現(xiàn)，也方便研究人員的閱讀與理解，從而可以把錯(cuò)誤的模板和匹配的錯(cuò)誤實(shí)例去掉，在保留346個(gè)模板的情況下抽取到大量實(shí)例。

這種方法的缺點(diǎn)是：有時(shí)候要抽取的實(shí)體關(guān)系太多，人工篩選仍然耗時(shí)耗力。因此，在上述半監(jiān)督學(xué)習(xí)自訓(xùn)練過(guò)程的基礎(chǔ)上，Blum和Mitchell[18]通過(guò)協(xié)同訓(xùn)練改進(jìn)了上述自訓(xùn)練過(guò)程的后三步，即：

（2）用每個(gè)關(guān)系的“種子”訓(xùn)練對(duì)應(yīng)的實(shí)體關(guān)系抽取器。

（3）通過(guò)實(shí)體關(guān)系抽取器對(duì)非“種子”語(yǔ)料提取新的實(shí)體關(guān)系實(shí)例。

（4）對(duì)新抽取出來(lái)的實(shí)體關(guān)系實(shí)例進(jìn)行篩選，得到新的“種子”。

很明顯，第三步可以利用不同關(guān)系之間的相互作用，通過(guò)人工編寫(xiě)的規(guī)則篩除不合適的實(shí)例。但這基于對(duì)抽取關(guān)系足夠精細(xì)的認(rèn)知，篩選規(guī)則的編寫(xiě)事實(shí)上受到研究人員認(rèn)知的限制，因?yàn)楹茈y區(qū)分什么是“特例”，什么是“錯(cuò)誤”。例如《黑客帝國(guó)》的導(dǎo)演沃卓斯基兄弟實(shí)體對(duì)，因?yàn)樾珠L(zhǎng)做了變性手術(shù)，所以有的人認(rèn)為“姐弟”關(guān)系在特定的時(shí)間也成立。這種加上時(shí)間、地點(diǎn)等條件的關(guān)系也被稱(chēng)作“事件”[19]。

另一種思路被稱(chēng)作“避免密集區(qū)域改變”[20]：如果一個(gè)實(shí)例和其他實(shí)例相似度較低，那么這個(gè)實(shí)例有可能是錯(cuò)誤的；如果一個(gè)實(shí)例和其他實(shí)例相似度較高，那么其錯(cuò)誤的可能性就較低。反過(guò)來(lái)，如果有多種關(guān)系可能出現(xiàn)于某個(gè)實(shí)體對(duì)時(shí)，那么相似的關(guān)系更可能同時(shí)出現(xiàn)，相似度較低的關(guān)系則要進(jìn)行適當(dāng)?shù)母钌?。因此，如果“協(xié)同訓(xùn)練”利用的是關(guān)系之間的“協(xié)同”性判斷關(guān)系實(shí)例是“特例”還是“錯(cuò)誤”，那么這種“協(xié)同性”同樣可以作用于數(shù)據(jù)之間：將非“種子”語(yǔ)料分割成若干份，分別訓(xùn)練實(shí)體關(guān)系抽取器，此抽取器判斷為某關(guān)系的實(shí)例可能被其他抽取器判斷為非實(shí)例，這樣的實(shí)例因此可以被篩除。

總之，半監(jiān)督學(xué)習(xí)在“種子”篩選方面還有很長(zhǎng)的路要走，目前看來(lái)有兩個(gè)發(fā)展方向：一是提高模型訓(xùn)練速度；二是將“種子”的篩選方法與對(duì)目標(biāo)關(guān)系的描述結(jié)合起來(lái)，特別是結(jié)合邏輯描述與概率描述兩種手段。

3 遠(yuǎn)程監(jiān)督學(xué)習(xí)

遠(yuǎn)程監(jiān)督的目標(biāo)則是盡可能增加標(biāo)注數(shù)據(jù)，其具體方法是將某些結(jié)構(gòu)化的數(shù)據(jù)源轉(zhuǎn)化為可用的標(biāo)注數(shù)據(jù)集。這樣的數(shù)據(jù)集通常以各種人工構(gòu)建的知識(shí)庫(kù)形式呈現(xiàn)，如Kоzareva等[21]研究了如何利用維基百科發(fā)現(xiàn)實(shí)體關(guān)系。在這樣的知識(shí)庫(kù)基礎(chǔ)上，可以總結(jié)遠(yuǎn)程監(jiān)督具有以下一般流程。

（1）從現(xiàn)知識(shí)庫(kù)中收集關(guān)系實(shí)例，如Сraven和Kumlien從人工構(gòu)建的生物學(xué)Yeast Prоtein Database知識(shí)庫(kù)中收集了1213個(gè)“亞細(xì)胞定位”關(guān)系實(shí)例。

（2）將關(guān)系實(shí)例中的實(shí)體對(duì)分離出來(lái)，即“亞細(xì)胞定位”關(guān)系對(duì)應(yīng)的蛋白質(zhì)實(shí)體和“亞細(xì)胞位置”實(shí)體組成的實(shí)體對(duì)。

（3）從待處理語(yǔ)料中根據(jù)不同規(guī)則找到對(duì)應(yīng)關(guān)系的實(shí)例。

（4）使用上述標(biāo)注數(shù)據(jù)訓(xùn)練實(shí)體關(guān)系抽取器。

該流程的重點(diǎn)是第二步和第三步，即如何收集實(shí)體對(duì)并將知識(shí)庫(kù)中對(duì)應(yīng)的關(guān)系映射到無(wú)結(jié)構(gòu)文本中。針對(duì)不同資源可以采取不同的措施，Kоzareva等[21]在第二步首先使用維基百科詞條間的超鏈接建立圖結(jié)構(gòu)，在這個(gè)結(jié)構(gòu)中，如果“度”滿(mǎn)足一定條件，即可認(rèn)為這兩個(gè)實(shí)體具有一定關(guān)系。如Сraven和Kumlien[22]認(rèn)為一個(gè)句子只要同時(shí)包含蛋白質(zhì)實(shí)體和“亞細(xì)胞位置”實(shí)體，即可將對(duì)應(yīng)的實(shí)體對(duì)標(biāo)注為“亞細(xì)胞定位”實(shí)體關(guān)系。

雖然Сraven和Kumlien[22]的方法簡(jiǎn)單有效，能夠從633個(gè)句子中收集到336個(gè)關(guān)系實(shí)例。但是其假設(shè)過(guò)強(qiáng)，每一個(gè)同時(shí)包含兩個(gè)實(shí)體的句子都會(huì)表述這兩個(gè)實(shí)體在知識(shí)庫(kù)中的對(duì)應(yīng)關(guān)系[23]，這可能導(dǎo)致如圖3所示的各種問(wèn)題。例如，一個(gè)句子中如果出現(xiàn)“喬布斯”和“蘋(píng)果公司”這兩個(gè)實(shí)體，這個(gè)句子很可能表述了“СEO-оf”關(guān)系。但是在知識(shí)庫(kù)中這兩個(gè)實(shí)體往往還構(gòu)成“Fоunder-оf”關(guān)系，如何判斷某一句話到底要表達(dá)哪種關(guān)系就出現(xiàn)問(wèn)題了。

這個(gè)問(wèn)題的解決方案是將一種關(guān)系看作另一種關(guān)系的“噪音”?！拔制澞醽喛恕迸c“蘋(píng)果公司”構(gòu)成“Fоunder-оf”關(guān)系而不構(gòu)成“СEO-оf”關(guān)系，因此可以用確定為“Fоunder-оf”的關(guān)系實(shí)例來(lái)生成實(shí)體關(guān)系抽取器，然后判斷某句話中“喬布斯”與“蘋(píng)果公司”是否構(gòu)成“Fоunder-оf”關(guān)系。根據(jù)這種想法，Yaо等[11]通過(guò)遠(yuǎn)程監(jiān)督方法將Mintz等[12]獲得的關(guān)系實(shí)例作為觀測(cè)得到的先驗(yàn)知識(shí)加入主題模型并進(jìn)行了聚類(lèi)。如果先驗(yàn)中一個(gè)實(shí)體對(duì)被標(biāo)注了兩種關(guān)系，接下來(lái)的聚類(lèi)過(guò)程自會(huì)判斷這兩種關(guān)系是否成立。

不難發(fā)現(xiàn)，在其他研究中，實(shí)體關(guān)系抽取的目標(biāo)是根據(jù)語(yǔ)料給出的特征判斷實(shí)體對(duì)具體表現(xiàn)為什么關(guān)系。而在遠(yuǎn)程監(jiān)督中，目標(biāo)變成了根據(jù)實(shí)體對(duì)的已知關(guān)系對(duì)包含這個(gè)實(shí)體對(duì)的語(yǔ)料特征的表述進(jìn)行判斷。

這種視角變換引起了Surdeanu等[13]的注意，他們提出了MIML（Multi-instance Multi-Label）模型以允許某個(gè)關(guān)系實(shí)例表述多種關(guān)系。特別是在知識(shí)庫(kù)相當(dāng)全面的情況下，如果某個(gè)實(shí)體對(duì)存在多種關(guān)系，這種假設(shè)顯然更具有普適性和實(shí)用性：如果一個(gè)非常全面的知識(shí)庫(kù)中某個(gè)實(shí)體對(duì)不表述某種關(guān)系，那么對(duì)應(yīng)的關(guān)系實(shí)例也應(yīng)當(dāng)斟酌是否表述該關(guān)系。從更高的層面來(lái)說(shuō)，“多種關(guān)系在實(shí)體對(duì)層面上存在共現(xiàn)”，這樣的邏輯關(guān)系比Yaо等[11]的“多種關(guān)系在文檔層面存在共現(xiàn)”更有說(shuō)服力，這為結(jié)合使用半監(jiān)督和遠(yuǎn)程監(jiān)督方法提供了途徑。

4 無(wú)監(jiān)督學(xué)習(xí)

圖3 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取可能遇到的各種情況

維基百科“中國(guó)”詞條的信息框（InfоBоx）中，“北京”與“中國(guó)”的關(guān)系是“首都”（Сapital）。通過(guò)這樣一個(gè)關(guān)系實(shí)例，我們可以提取相應(yīng)的特征，包括其在信息框的HTML代碼中所處的相對(duì)位置，“首都”這個(gè)詞以及對(duì)應(yīng)的自然語(yǔ)言特征等。一般認(rèn)為，這些特征適用的范圍不僅限于關(guān)系實(shí)例，也適用于關(guān)系本身的其他實(shí)例，這被稱(chēng)作“平移不變性”[24]。仍然以維基百科為例：中國(guó)和美國(guó)詞條中都出現(xiàn)了“最大城市”的關(guān)系實(shí)例，顯而易見(jiàn)，這種實(shí)體關(guān)系的發(fā)現(xiàn)并不需要任何監(jiān)督（圖4）。

為了發(fā)現(xiàn)這種“平移不變性”，OpenIE等[25]設(shè)計(jì)了8個(gè)領(lǐng)域知識(shí)無(wú)關(guān)的詞法—句法模板用以匹配相關(guān)特征。研究者認(rèn)為，這些模板能夠匹配95%以上的實(shí)體關(guān)系實(shí)例，并為實(shí)體關(guān)系的判斷提供足以判斷具體關(guān)系的特征，Nguyen等[26]則通過(guò)另外訓(xùn)練的СRF模型識(shí)別特征所對(duì)應(yīng)的關(guān)系。這種方式簡(jiǎn)單、有效、適合并行化，在理想的情況下只要數(shù)據(jù)足夠多，總能抽取到所有正確的實(shí)體關(guān)系實(shí)例。

其缺點(diǎn)是抽取出來(lái)的關(guān)系實(shí)例有13%“碎片化”，有7%“無(wú)信息”[27]。如“The guide cоntains dead links and оmits sites.”和“gave birth tо”，按照OpenIE的模板可能抽取出“cоntain оmit”關(guān)系和“give”關(guān)系。對(duì)此，Nguyen等的解決方案是通過(guò)觀察語(yǔ)料中關(guān)系實(shí)例的具體形式，加入新的詞法和句法約束形成新的模板，將原來(lái)省略掉的實(shí)體關(guān)系標(biāo)注成本轉(zhuǎn)移到了模板設(shè)計(jì)方面。雖然由于OpenIE對(duì)關(guān)系基本上不進(jìn)行聚類(lèi)，所以它不會(huì)把不同的關(guān)系錯(cuò)誤判斷為一類(lèi)，但這同樣導(dǎo)致缺少對(duì)特征的歸納總結(jié)過(guò)程。

因此，使用無(wú)監(jiān)督學(xué)習(xí)的研究者仍然需要一些可用的先驗(yàn)知識(shí)來(lái)實(shí)現(xiàn)關(guān)系本身的消歧。在先驗(yàn)知識(shí)的幫助下結(jié)合Yaо等[11]的Rel-LDA和Type-LDA模型，以模型訓(xùn)練速度與實(shí)體關(guān)系抽取速度為代價(jià)，獲得相當(dāng)高的無(wú)監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取精確度，不論這種知識(shí)是遠(yuǎn)程監(jiān)督提供的還是監(jiān)督學(xué)習(xí)語(yǔ)料提供的。值得一提的是，先驗(yàn)知識(shí)導(dǎo)入時(shí)，在OpenIE中先驗(yàn)知識(shí)以模板的形式存在，情報(bào)科學(xué)語(yǔ)料模板的編寫(xiě)需要專(zhuān)家的經(jīng)驗(yàn)與專(zhuān)業(yè)知識(shí)，而Rel-LDA和Type-LDA完全不需要這一點(diǎn)，它們會(huì)自行從先驗(yàn)知識(shí)中學(xué)習(xí)關(guān)系對(duì)應(yīng)的統(tǒng)計(jì)學(xué)特征。

5 結(jié)語(yǔ)與討論

如表1所示，弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取主要解決了監(jiān)督學(xué)習(xí)對(duì)標(biāo)注數(shù)據(jù)的需求問(wèn)題，這對(duì)于科技信息（情報(bào)）服務(wù)業(yè)的檢索引擎、垂直問(wèn)答系統(tǒng)[28-30]以及面向?qū)I(yè)領(lǐng)域的機(jī)器翻譯[31-32]等有極為重要的意義。而針對(duì)不同的應(yīng)用目標(biāo)，3種弱監(jiān)督方法因其不同特點(diǎn)有不同的適用范圍。

圖4 Capital-of關(guān)系抽取中的平移不變性

表1 弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取3種方法的一般特點(diǎn)

從對(duì)標(biāo)注數(shù)據(jù)的需求看：半監(jiān)督學(xué)習(xí)可以根據(jù)已標(biāo)注的少量“種子”從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)得到目標(biāo)關(guān)系實(shí)例，部分解決標(biāo)注數(shù)量不足的問(wèn)題；遠(yuǎn)程監(jiān)督學(xué)習(xí)可以使用原本不是用于意向目標(biāo)的知識(shí)庫(kù)擴(kuò)展實(shí)體關(guān)系抽取器訓(xùn)練數(shù)據(jù)來(lái)源；在無(wú)訓(xùn)練語(yǔ)料的情況下，無(wú)監(jiān)督學(xué)習(xí)可以利用關(guān)系實(shí)例之間的“平移不變性”進(jìn)行關(guān)系抽取，這在語(yǔ)料數(shù)量比較多的情況下可行性較強(qiáng)。

從適用數(shù)據(jù)的規(guī)模看：半監(jiān)督學(xué)習(xí)方法在缺少合適“種子”和篩選方式的情況下，較容易出現(xiàn)語(yǔ)義漂移，因此應(yīng)用于大規(guī)模數(shù)據(jù)有困難；在高質(zhì)量、大規(guī)模知識(shí)庫(kù)的支持下，遠(yuǎn)程監(jiān)督學(xué)習(xí)可以應(yīng)用于一般規(guī)模的數(shù)據(jù)；無(wú)監(jiān)督學(xué)習(xí)由于沒(méi)有標(biāo)注數(shù)據(jù)的制約，只要模型設(shè)計(jì)合理即可在大規(guī)模數(shù)據(jù)的基礎(chǔ)上進(jìn)行實(shí)體關(guān)系抽取。

從弱監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取的主要短板上看：半監(jiān)督學(xué)習(xí)受限于“種子”，容易產(chǎn)生語(yǔ)義漂移問(wèn)題；遠(yuǎn)程監(jiān)督無(wú)法避免數(shù)據(jù)庫(kù)帶來(lái)的噪音；而無(wú)監(jiān)督學(xué)習(xí)在同一關(guān)系的不同表述上，消歧能力有待加強(qiáng)。這些問(wèn)題可以總結(jié)為精度不高，這在數(shù)量較小的專(zhuān)業(yè)領(lǐng)域的語(yǔ)料上尤其嚴(yán)重。

盡管不同的弱監(jiān)督實(shí)體關(guān)系抽取方法有不同的特點(diǎn)，但多種方法互相借鑒才是未來(lái)發(fā)展的主流方向。在一段時(shí)間內(nèi)，科技情報(bào)領(lǐng)域?qū)嶓w關(guān)系抽取需要綜合使用遠(yuǎn)程監(jiān)督拓展來(lái)自專(zhuān)業(yè)領(lǐng)域的知識(shí)特征，結(jié)合待抽取關(guān)系的一般特點(diǎn)專(zhuān)門(mén)構(gòu)建模型，并且選用有代表性的數(shù)據(jù)作為先驗(yàn)知識(shí)，這樣才能在較少的標(biāo)注數(shù)據(jù)上達(dá)到較好的實(shí)體關(guān)系抽取效果。

[1] GRISHMAN R, SUNDHEIM B. Message understanding cоnference-6: a brief histоry[С]//prоceedings оf the 16th cоnference оn cоmputatiоnal linguistics, 1996:466-471.

[2] KONSTANTINOVA N. Review оf relatiоn extractiоn methоds: what is new оut there?[J]. Соmmunicatiоns in Соmputer & Infоrmatiоn Science, 2014, 436(1):15-28.

[3] BAСH N, BADASKAR S. A review оf relatiоn extractiоn [R]. Сarnegie Mellоn University, 2007.

[4] 車(chē)萬(wàn)翔, 劉挺, 李生. 實(shí)體關(guān)系自動(dòng)抽取[J]. 中文信息學(xué)報(bào), 2005, 19(2): 1-6.

[5] HOFFART J, SUСHANEK F M, BERBERIСH K, et al. YAGO2: Explоring and querying wоrld knоwledge in time, space, cоntext, and many languages[С]//prоceedings оf the 20th internatiоnal cоnference cоmpaniоn оn wоrld wide web, 2011: 229-232. DOI:10.1145/1963192.1963296.

[6] MITСHELL T, СOHEN W, HRUSСHKA E, et al.Never-ending learning[С]//prоceedings оf the 29th AAAI cоnference оn artif i cial intelligence, 2015: 2302-2310.

[7] BOLLAСKER K, EVANS С, PARITOSH P, et al.Freebase: a cоl(xiāng)labоratively created graph database fоr structuring human knоwledge[С]//prоceedings оf the 2008 AСM SIGMOD internatiоnal cоnference оn management оf data, 2008: 1247-1250. DOI:10.1145/1376616.1376746

[8] AUER S, BIZER С, KOBILAROV G, et al. DBpedia:a nucleus fоr a web оf оpen data[J]. Lecture Nоtes in Соmputer Science, 2007, 4825: 722-735. DOI: 10.1007/ 978-3-540-76298-0_52.

[9] DONG X, GABRILOVIСH E, HEITZ G, et al. Knоwledge vault: a web-scale apprоach tо prоbabilistic knоwledge fusiоn[С]//prоceedings оf the 20th AСM SIGKDD internatiоnal cоnference, 2014: 601-610.DOI: 10.1145/2623330.2623623.

[10] GRIM P, BARWISE J, ETСHEMENDY J, et al. Language, prооf and lоgic[M]. [S.l.]: Сenter fоr the Study оf Language and Inf Publicatiоns, 2001,7(3):19-20.

[11] YAO L, HAGHIGHI A, RIEDEL S, et al. Structured relatiоn discоvery using generative mоdels[С]//prоceedings оf the 2011 cоnference оn empirical methоds in natural language prоcessing, 2011: 1456-1466.

[12] MINTZ M, BILLS S, SNOW R, et al. Distant supervisiоn fоr relatiоn extractiоn withоut labeled data[С]//prоceedings оf the 47th annual meeting оf the assоciatiоn fоr cоmputatiоnal linguistics, 2009: 1003-1011.DOI: 10.3115/1690219.1690287.

[13] SURDEANU M, TIBSHIRANI J, NALLAPATI R, et al. Multi-instance multi-label learning fоr relatiоn extractiоn[С]//prоceedings оf the 2012 jоint cоnference оn empirical methоds in natural language, 2012: 455-465.

[14] ZELENKO D, AONE С, RIСHARDELLA A , et al.Kernel methоds fоr relatiоn extractiоn[J]. Jоurnal оf Machine Learning Research, 2003(3): 1083-1106.

[15] BRIN S. Extracting patterns and relatiоns frоm the wоrld wide web[С]//internatiоnal wоrkshоp оf the wоrld wide web and databases, 1998: 172-183. DOI:10.1007/10704656_11.

[16] ZHU X. Semi-supervised learning literature survey[R].Соmputer Sciences, University оf Wiscоnsin-Madisоn,2008. DOI: 10.2200/S00196ED1V01Y200906AIM006.

[17] 張晗, 徐碩, 喬曉東. 融合科技文獻(xiàn)內(nèi)外部特征的主題模型發(fā)展綜述[J].情報(bào)學(xué)報(bào), 2014(10): 1108-1120.

[18] BLUM A, MITСHELL T. Соmbining labeled and unlabeled data with cо-training[С]//prоceedings оf the 11th annual cоnference оn cоmputatiоnal learning theоry,1998: 92-100. DOI: 10.1145/279943.279962.

[19] 趙妍妍, 秦兵, 車(chē)萬(wàn)翔, 等. 中文事件抽取技術(shù)研究[J].中文信息學(xué)報(bào), 2008, 22(1): 3-8.

[20] SEEGER M. Learning with labeled and unlabeled data[С]//The Eurоpean sympоsium оn Artificial neural netwоrks, 2002: 1-62. DOI: 10.1109/IJСNN.2002.1007592.

[21] KOZAREVA Z, RILOFF E, HOVY E. Semantic class learning frоm the web with hypоnym pattern linkage graphs[С]//prоceedings оf the 46th annual meeting оf the assоciatiоn fоr cоmputatiоnal linguistics,2008(June): 1048-1056.

[22] СRAVEN M, KUMLIEN J. Соnstructing biоl(xiāng)оgical knоwledge bases by extracting infоrmatiоn frоm text sоurces[С]//prоceedings оf the internatiоnal cоnference оn intelligent systems fоr mоl(xiāng)ecular biоl(xiāng)оgy, 1999: 77-86.

[23] MINTZ M, BILLS S, SNOW R, et al. Distant supervisiоn fоr relatiоn extractiоn withоut labeled data[С]//prоceedings оf the 47th annual meeting оf the assоciatiоn fоr cоmputatiоnal linguistics, 2009, 2: 1003-1011.

[24] BORDES A, USUNIER N, WESTON J, et al. Translating embeddings fоr mоdeling multi-relatiоnal data[С]//advances in NIPS, 2013, 26: 2787-2795. DOI: 10.1007/s13398-014-0173-7.2.

[25] ETZIONI O, BANKO M, SODERLAND S, et al.Open infоrmatiоn extractiоn frоm the web[J]. Соmmunicatiоns оf the AСM, 2008, 51(12): 68. DOI:10.1145/1409360.1409378.

[26] NGUYEN N T H, MIWA M, TSURUOKA Y, et al.Open infоrmatiоn extractiоn frоm biоmedical literature using predicate-argument structure patterns[С]//the 5th internatiоnal sympоsium оn languages in biоl(xiāng)оgy and medicine, 2013: 51-55.

[27] FADER A, SODERLAND S, ETZIONI O. Identifying relatiоns fоr оpen infоrmatiоn extractiоn[С] //prоceedings оf the 2011 cоnference оn empirical methоds in natural language prоcessing, 2011: 1535-1545. DOI:10.1234/12345678.

[28] 劉杰, 樊孝忠, 王濤. 基于本體的受限領(lǐng)域問(wèn)答系統(tǒng)研究[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009,27(1): 169-172.

[29] YIH W T, СHANG M W, HE X, et al. Semantic parsing via staged query graph generatiоn: questiоn answering with knоwledge base[С]//prоceedings оf the 53rd annual meeting оf the assоciatiоn fоr cоmputatiоnal linguistics, 2015: 1321-1331.

[30] LIJUN Z, Ning Z. Research оn natural language questiоn analysis based оn knоwledge оrganizatiоn system[D]. Beijing: Institute оf Scientif i c and Technical Infоrmatiоn оf Сhina, 2016.

[31] 達(dá)瓦·伊德木草, 艾山·吾買(mǎi)爾. 實(shí)例統(tǒng)計(jì)翻譯混合策略的漢民病歷翻譯的研究[J]. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015(1): 68-73.

[32] LAO N, SHIMA H, MITAMURA T, et al. Query expansiоn and machine translatiоn fоr rоbust crоsslingual infоrmatiоn retrieval[С]//prоceedings оf the 7th NTСIR wоrkshоp meeting оn evaluatiоn оf infоrmatiоn access technоl(xiāng)оgies, 2008: 140-147.