王嘉寧 何怡 朱仁煜 劉婷婷 高明
摘要:關(guān)系抽取作為一種經(jīng)典的自然語言處理任務(wù),廣泛應(yīng)用于知識圖譜的構(gòu)建與補全、知識庫問答和文本摘要等領(lǐng)域,旨在抽取目標實體對之間的語義關(guān)系。為了能夠高效地構(gòu)建大規(guī)模監(jiān)督語料,基于遠程監(jiān)督的關(guān)系抽取方法被提出,通過將文本與現(xiàn)有知識庫進行對齊來實現(xiàn)自動標注。然而由于過強的假設(shè)使得其面臨諸多挑戰(zhàn),從而吸引了研究者們的關(guān)注。本文首先介紹遠程監(jiān)督關(guān)系抽取的概念和形式化描述,其次從噪聲、信息匱乏以及非均衡3個方面對比分析相關(guān)方法及其優(yōu)缺點,接著對評估數(shù)據(jù)集以及評測指標進行了解釋和對比分析,最后探討了遠程監(jiān)督關(guān)系抽取面對的新的挑戰(zhàn)以及未來發(fā)展趨勢,并在最后做出總結(jié)。
關(guān)鍵詞:關(guān)系抽?。哼h程監(jiān)督;自然語言處理;知識圖譜;噪聲處理
中圖分類號:TP311 文獻標志碼:A DOI:10.3969/j.issn。1000-5641.202091006
0引言
隨著計算機技術(shù)的發(fā)展和Web數(shù)據(jù)的日益激增,如何從這些海量數(shù)據(jù)中獲取有效的信息成為當(dāng)前的研究熱點。信息抽取作為一種經(jīng)典的自然語言處理任務(wù),其主要目標是從半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中提取結(jié)構(gòu)化的語義信息,是構(gòu)建豐富的結(jié)構(gòu)化知識庫的核心部分。關(guān)系抽取是信息抽取的一個關(guān)鍵步驟,其建立在給定的已知實體對和文本描述基礎(chǔ)上,挖掘?qū)嶓w對之間的語義關(guān)系,形成由實體、關(guān)系、實體組成的三元組,因此關(guān)系抽取通常應(yīng)用在知識圖譜構(gòu)建與補全(Knowledge GraphConstruction and Completion)、知識庫問答(Knowledge Base Question Answering)和文本摘要(TextSummarization)等領(lǐng)域。
關(guān)系抽取主要分為兩大類,一種是以無監(jiān)督為主的自動抽?。ˋuto Extraction),另一種是以有監(jiān)督或半監(jiān)督為主的關(guān)系分類(Relation Classification)。前者通常在沒有確定關(guān)系標簽的條件下,根據(jù)語料的句法或語義結(jié)構(gòu)自動地從文本中提取可以描述對應(yīng)關(guān)系的詞匯或短語。例如,我們可以從句子“南京是江蘇省的省會城市”中根據(jù)句法結(jié)構(gòu)自動提取出實體“南京”和“江蘇省”的關(guān)系是“省會城市”。Hasegawa和Oren等人提出了一些在無監(jiān)督條件下自動從文本中抽取語義關(guān)系的方法。后者通常將關(guān)系抽取視為一種分類任務(wù),即事先預(yù)定義有限個關(guān)系標簽,并對語料進行人工標注。有監(jiān)督的關(guān)系分類主要方法是對實體和文本通過特征工程或表征學(xué)習(xí)來提取句法或語義信息,并通過分類器完成對關(guān)系的分類。由于有監(jiān)督關(guān)系分類依賴于標注語料的質(zhì)量和數(shù)量,而人工標注語料的成本高、效率低,半監(jiān)督或弱監(jiān)督的關(guān)系抽取成為研究的熱點。如Kumlien提出了一種弱監(jiān)督學(xué)習(xí)方法來從文本中提取結(jié)構(gòu)化的語義關(guān)系。
基于遠程監(jiān)督的關(guān)系抽取方法(Distant Supervision Relation Extraction,DSRE)是由Mintz提出的一種弱監(jiān)督學(xué)習(xí)方法,其主要思想是通過將大量的無標注語料與現(xiàn)有的知識庫進行對齊,從而快速地構(gòu)建大規(guī)模監(jiān)督語料。圖1給出一個知識庫對齊的示例如知識庫中存在兩個實體SteveJobs和Apple時,如果語料中存在這兩個實體,則這些語料是與這兩個實體對齊的。遠程監(jiān)督方法因其構(gòu)建語料效率高、成本低的原因吸引了國內(nèi)外研究者們的關(guān)注。例如,楊等人利用遠程監(jiān)督方法自動構(gòu)建初等數(shù)學(xué)語料并實現(xiàn)知識點的關(guān)系提取;Riedel通過獲取紐約時報(New York Times,NYT)新聞?wù)Z料并與知識庫Freebase對齊形成NYT數(shù)據(jù)集;Jar等通過與谷歌Web數(shù)據(jù)庫對齊制作了GDS(Google-IISc Distant Supervision)語料;Han等通過遠程監(jiān)督方法構(gòu)建了用于驗證少樣本學(xué)習(xí)的FewRel數(shù)據(jù)集。
雖然遠程監(jiān)督可以解決語料的數(shù)量問題,但并不能保證語料的質(zhì)量,因為遠程監(jiān)督方法基于一個假設(shè):如果兩個實體在知識庫中具有某種關(guān)系,任意一個包含這兩個實體的文本都描述了這種關(guān)系。而這一假設(shè)往往是不成立的,從而導(dǎo)致產(chǎn)生的語料中存在大量的錯誤標簽。因此,為了避免這一假設(shè)對關(guān)系抽取性能的影響,如今有諸多工作嘗試解決如何在含有大量噪聲的語料中去學(xué)習(xí)真實的實體對關(guān)系然而在實際訓(xùn)練過程中,除了噪聲對模型會產(chǎn)生影響外,研究者們還發(fā)現(xiàn)由于知識庫不充分,部分實體對得不到充分的訓(xùn)練,且每個標簽對應(yīng)的樣本嚴重不均衡,這些客觀存在的問題無不影響遠程監(jiān)督關(guān)系抽取模型的性能,使得如今模型的測試效果非常低。因此結(jié)合近年來的研究工作,本文認為遠程監(jiān)督關(guān)系抽取面臨的3個最大挑戰(zhàn)是:
(1)噪聲。主要體現(xiàn)在被標注的樣本標簽與實際文本語義關(guān)系不匹配,導(dǎo)致產(chǎn)生大量的錯誤正樣本(False Positive)。
(2)信息匱乏。由于知識庫是不完善的,遠程監(jiān)督語料缺乏充分的語義信息來有效提升關(guān)系抽取的效果。與此同時還導(dǎo)致大量的樣本被標注為無關(guān)(False Negative)。
(3)非均衡。非均衡是指關(guān)系標簽對應(yīng)的樣本數(shù)量不均衡問題,主要體現(xiàn)在少部分的標簽對應(yīng)的樣本數(shù)量多,而絕大多數(shù)的標簽對應(yīng)的樣本數(shù)量很少,因此也稱作二八定律、馬太效應(yīng)或長尾問題。
不同于現(xiàn)有一些調(diào)研工作僅從方法角度進行分析,本文將以上述提到的3個研究挑戰(zhàn)為出發(fā)點,重點討論當(dāng)前基于遠程監(jiān)督的關(guān)系抽取方法是如何應(yīng)對這些挑戰(zhàn)的。
本文第1節(jié)將介紹遠程監(jiān)督關(guān)系抽取的相關(guān)定義和問題描述;第2節(jié)將從應(yīng)對噪聲問題、緩解信息匱乏問題和解決非均衡問題3個方向介紹相關(guān)研究工作,并引出規(guī)則統(tǒng)計、多示例學(xué)習(xí)、對抗與強化學(xué)習(xí)、輔助信息增強、聯(lián)合學(xué)習(xí)和少樣本學(xué)習(xí)等技術(shù);第3節(jié)將介紹遠程監(jiān)督關(guān)系抽取的評估數(shù)據(jù)集和評測指標;第4節(jié)將介紹一些新的研究挑戰(zhàn)和未來發(fā)展趨勢;第5節(jié)進行總結(jié)。
1基本概念與任務(wù)描述
1.1概念定義
關(guān)系抽取是非常重要的自然語言處理任務(wù)之一,與命名實體識別、實體屬性抽取、知識推理等構(gòu)成知識圖譜構(gòu)建的核心步驟。關(guān)系抽取旨在從包含兩個目標實體的非結(jié)構(gòu)化文本中預(yù)測它們之間的語義關(guān)系因此關(guān)系抽取任務(wù)可以建模成多分類問題。為避免標注訓(xùn)練數(shù)據(jù),遠程監(jiān)督基于給定的知識庫實現(xiàn)目標實體對與非結(jié)構(gòu)化文本的對齊,從而構(gòu)建多分類模型的訓(xùn)練數(shù)據(jù)集。其中一些基本概念的定義如下:
(1)目標實體對(Target Entity Pair)實體是對抽象世界的描述,它是描述客觀事物的名詞或短語,對應(yīng)于知識庫中則是相互獨立的節(jié)點。目標實體對則是由兩個不同的實體組成的元組,通常這兩個實體是有順序的,第一個實體被稱為頭實體(Head Entity),第二個實體被稱為尾實體(Tail Entity),分別可用h,t表示。
(2)關(guān)系(Relation)關(guān)系是頭實體與尾實體間語義聯(lián)系的描述,在知識庫中通常以邊的形式存在,可以用r表示。關(guān)系可以分為有向關(guān)系和無向關(guān)系。有向關(guān)系是描述頭實體到尾實體的方位關(guān)系,如上下位、IsA、PlaceOfl3irth等;如果是無向關(guān)系,則頭尾實體通常是等價的,如Equal、Friend。
通常關(guān)系抽取被視為句子級別分類任務(wù),然而因為遠程監(jiān)督方法是以實體對為基礎(chǔ)與文本進行對齊的,因此也有人認為遠程監(jiān)督關(guān)系抽取應(yīng)為一種多示例學(xué)習(xí)任務(wù)。本文以多示例學(xué)習(xí)為例給出如下基于遠程監(jiān)督的關(guān)系抽取的形式化描述。
2遠程監(jiān)督關(guān)系抽取研究問題與相關(guān)方法
現(xiàn)階段基于遠程監(jiān)督的關(guān)系抽取工作從問題解決角度可分為3類:①應(yīng)對錯誤標注所產(chǎn)生的噪聲問題;②緩解因知識庫不全和數(shù)據(jù)缺乏導(dǎo)致的信息匱乏問題;③解決語料不均衡帶來的長尾問題。其中第1類是自遠程監(jiān)督方法提出以來一直被關(guān)注的問題,形成了基于規(guī)則統(tǒng)計方法、多示例學(xué)習(xí)、對抗與強化學(xué)習(xí)等技術(shù)。后兩類是最近被關(guān)注的新問題,主要對應(yīng)于輔助信息增強、聯(lián)合學(xué)習(xí)和少樣本學(xué)習(xí)等技術(shù)。本節(jié)分別介紹這3個方面的研究技術(shù)現(xiàn)狀。表1整理了針對3類挑戰(zhàn)的相關(guān)研究方法。
2.1應(yīng)對噪聲問題
在機器學(xué)習(xí)與自然語言處理領(lǐng)域中,噪聲是指真實標簽與被標注標簽不一致的樣本。在基于遠程監(jiān)督的關(guān)系抽取任務(wù)中,因為過強的假設(shè)使得許多包含在訓(xùn)練數(shù)據(jù)中的句子并不能真實描述目標實體對間的關(guān)系,導(dǎo)致產(chǎn)生大量的假正例(False Positive)和假負例(False Negative)。例如,知識庫中存在一個三元組(Obama,PlaceOFBirth,US。),那么與文本對齊后的結(jié)果如表2所示,可知只有第一個句子能夠表達PlaceOj留irth的關(guān)系,而另外4個句子都屬于噪聲。由于對齊的語料沒有標注是否為噪聲,因此如何在關(guān)系抽取的過程中識別出噪聲成為一個研究難題。如今降噪的技術(shù)主要有基于規(guī)則統(tǒng)計、基于多示例學(xué)習(xí)和基于對抗與強化學(xué)習(xí)等幾大類。
2.1.1規(guī)則統(tǒng)計方法
規(guī)則統(tǒng)計方法旨在通過挖掘?qū)嶓w對與關(guān)系之間的規(guī)則聯(lián)系,代表方法有核方法與依存關(guān)系、概率圖模型、矩陣補全等。
Zelenko提出一種基于核方法和依存關(guān)系的關(guān)系抽取。其通過使用依存關(guān)系方法將文本解析為語法樹,并定義了一種基于語法樹的節(jié)點相似匹配核函數(shù),使用支持向量機(support Vector Machine,SVM)算法進行多類分類。該方法在提出時達到了最優(yōu)效果,但并未考慮如何解決噪聲問題。
Riedel提出一種基于概率圖的方法,為每個句子分配一個隱變量表示該句子是否是噪聲,其將關(guān)系抽取視為一種對隱變量的賦值任務(wù)。Takamatsu在此基礎(chǔ)上進行了改進,提出一種概率生成模型來模擬遠程監(jiān)督方法的啟發(fā)式標記過程。該模型也通過隱變量來預(yù)測標簽是否正確。
Fan等人則提出一種基于矩陣補全的方法,通過將訓(xùn)練集的特征、標簽和測試集的特征按照特征組合成分塊矩陣,剩余的一塊則是測試集未知的標簽矩陣,因此其提出一種基于矩陣的秩最小化和核范數(shù)最小化的矩陣補全方法來預(yù)測未知標簽。Zhang則對Fan提出的方法做出了改進,使用基于無參貝葉斯進行訓(xùn)練,避免了大量調(diào)參。雖然矩陣補全可以有效地在含有噪聲的語料中預(yù)測關(guān)系,但不適用于大規(guī)模數(shù)據(jù),且當(dāng)新來數(shù)據(jù)時必須重構(gòu)矩陣。
基于規(guī)則統(tǒng)計的方法可以挖掘出實體間顯式的結(jié)構(gòu)信息,同時對關(guān)系的提取具有可解釋性。又因為該類大部分方法通常不需要訓(xùn)練的過程,所以對時間和空間復(fù)雜度要求低。但其過度依賴于大量的特征工程使得分類效果差,泛化能力低。
2.1.2多示例學(xué)習(xí)
多示例學(xué)習(xí)(Multi-Instance Learning,MIL)方法是目前遠程監(jiān)督關(guān)系抽取的主流方法之一,其基本思想是將相同的實體對對齊的文本組成一個包(或稱為句袋),并以包為單位進行預(yù)測。按照預(yù)測方法,可分為錯誤標簽預(yù)測、至少一個假設(shè)和注意力機制。
(1)錯誤標簽預(yù)測(Wrong Label Prediction)
旨在通過捕捉包及包內(nèi)句子與標簽的語義相關(guān)性來直接預(yù)測是否是噪聲。
Hoffmann提出一種經(jīng)典的多示例學(xué)習(xí)方法——MultiR,其為每個句子分配與關(guān)系數(shù)量相等的隱變量,并分別進行錯誤標簽預(yù)測。MultiR方法是通過對包內(nèi)句子預(yù)測結(jié)果取并集來表示每個包的預(yù)測結(jié)果,其采用類似于感知機的模型來學(xué)習(xí)參數(shù)。Surdeanu則在MultiR方法的基礎(chǔ)上做出改進,提出一種新的多示例多標記MIML方法其基本思路是通過模型捕捉包與不同標簽的相關(guān)性進行預(yù)測,不同于MultiR方法,其依然采用基于概率統(tǒng)計的貝葉斯模型學(xué)習(xí)參數(shù),在準確率與時空復(fù)雜度上都優(yōu)于MultiR方法。
Min和Xu等人發(fā)現(xiàn)由于知識庫不全以及噪聲原因產(chǎn)生了大量的假負例(False Negative)數(shù)據(jù)。其通過概率圖模型,使用EM算法預(yù)測每個句子是否為真。Ritter則同時兼顧False Positive和False Negative并使用一種軟性約束機制緩解句子與包標簽不匹配問題。
(2)至少一個假設(shè)(At-Least-One Assumption)其建立在一個新的假設(shè)基礎(chǔ)上,即對齊的文本中至少存在一個句子可以描述實體對關(guān)系,因此每次只選擇包內(nèi)一個句子進行預(yù)測。
Mintz認為與知識庫對齊的文本中至少存在一個文本可以描述實體對關(guān)系,并基于此提出了At-Least-One假設(shè),在一個包內(nèi)只選擇概率最大的句子作為實體對關(guān)系的分類樣本。該假設(shè)在一定程度上可以保證正確的樣本對分類的正面作用。
Zeng基于這個假設(shè)提出一種分段的卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolutional Neural Networks,PCNN)自動捕捉上下文信息。首先使用預(yù)訓(xùn)練的詞向量(Word Embedding)目將單詞映射到低維度向量空間,然后使用卷積神經(jīng)網(wǎng)絡(luò)對文本進行特征提取。不同于傳統(tǒng)文本分類的CNN,其根據(jù)兩個實體將文本劃分為三段,并為每一段進行最大池化,該方法被證明可以有效地處理長文本表征能力,并降低時間復(fù)雜度。另外Zeng還使用位置表示信息(Position Embedding),使得模型可以更好地學(xué)習(xí)到實體在文本中的結(jié)構(gòu)化信息,進一步提升泛化能力。
(3)注意力機制(Attention Mechanism)是目前關(guān)系抽取任務(wù)中的熱門方法之一,目標是為同一個包內(nèi)的每個句子分配權(quán)重。如果句子是噪聲,則分配較低的權(quán)重以降低其對包分類的影響;如果句子不是噪聲,則會獲得較高的權(quán)重以凸顯其重要性。換句話說,注意力機制通過對每個句子進行加權(quán)求和來強化真實標簽數(shù)據(jù)、弱化錯誤標簽數(shù)據(jù)。
Lin[361認為基于At-Least-One Assumption分類時只選擇一個句子,會損失大量的語義信息,因此提出一種句子級別的注意力機制fsentence-Level Attention)。首先使用PCNN對包內(nèi)的句子進行卷積核最大池化。然后對于每個句子與關(guān)系向量計算相似度并使用softmax歸一化為權(quán)重,以此對包內(nèi)句子進行加權(quán)求和獲得包表征fBag Embedding)。最后直接應(yīng)用一層神經(jīng)網(wǎng)絡(luò)對這個包進行分類?;诰渥蛹墑e注意力的降噪方法也成為多示例學(xué)習(xí)的主流方法。Ji改進了Lin的權(quán)重分配方法,提出一種結(jié)合實體描述信息的句子級別注意力機制。其改進之處是先對頭尾實體進行表征,并在模型訓(xùn)練過程中進行微調(diào),然后用尾實體向量與頭實體向量的差來近似代替關(guān)系向量并將其與每個句子計算權(quán)重。
jat認為每個單詞對關(guān)系預(yù)測的貢獻是不一樣的,因此提出一種基于單詞和實體級別的注意力,每個單詞分配不同的權(quán)重用于表示句子向量,實體則用于對不同的句子分配權(quán)重。同時將單詞和句子進行加權(quán)求和可以提取更關(guān)鍵的語義成分來提升預(yù)測能力。
wu則在PCNN的基礎(chǔ)上添加了神經(jīng)噪聲轉(zhuǎn)換器(Neural Noise Converter)學(xué)習(xí)結(jié)構(gòu)化的轉(zhuǎn)移矩陣來獲得含有噪聲的數(shù)據(jù)集,并使用條件最優(yōu)選擇器(conditional Optimal Selector)從噪聲中選擇權(quán)重最大的句子用于分類。
Ye認為除了包內(nèi)句子與句子之間存在相關(guān)性,包與包之間也存在相關(guān)性,因此提出一種包內(nèi)(Intra-Bag)和包間(Inter-Bag)注意力。對于包內(nèi)的句子則是對所有句子進行加權(quán)求和;對于包與包之間,Ye提出一種包組(Bag Group)的概念,將具有相同關(guān)系標簽的包組在一起,為每一個包學(xué)習(xí)一個注意力權(quán)重,并進行加權(quán)求和形成包組向量。通過結(jié)合句子級別注意力和包級別注意力可以更好地降噪。Yuan~ll也提出了包級別注意力,但不同于ye,其首先使用PCNN和句子級別注意力獲得包表征,然后提出一種交叉關(guān)系注意力(cross-Relation Attention)將包與每個關(guān)系標簽結(jié)合起來計算權(quán)重,同時通過貝葉斯公式求得后驗概率,并使用softmax歸一化后的權(quán)重對不同的關(guān)系向量進行加權(quán)求和以獲得融合關(guān)系信息的包向量,再通過交叉包注意力(cross-Bag Attention)將所有包與同一個關(guān)系融合的向量加權(quán)求和組合成超包(superBag),最后通過超包學(xué)習(xí)不同實體對與關(guān)系之間的語義聯(lián)系并進行預(yù)測。
Jia從另一個角度使用注意力對噪聲進行處理,他認為句子中的模式(Pattern)能夠?qū)翟肫鸬胶芎玫淖饔?,因此提出一種注意力正則化(ARNOR)方法,通過關(guān)注句子中的不同模式來對句子是否是噪聲進行判斷。Alt等人則結(jié)合了語言模型(Language Model),利用BERT等預(yù)訓(xùn)練語言模型獲得文本的語義表達,再通過一個分類器學(xué)習(xí)實體對與關(guān)系標簽的映射。預(yù)訓(xùn)練模型通常包含大量的先驗知識,將其遷移到關(guān)系抽取上可以進一步緩解噪聲的影響。
隨著深度學(xué)習(xí)的發(fā)展,如今基于多示例方法通常以神經(jīng)網(wǎng)絡(luò)模型為主,相比基于規(guī)則統(tǒng)計的傳統(tǒng)方法,避免了特征工程帶來的誤差傳播風(fēng)險,使得模型更具有泛化能力,但與此同時,時間和空間復(fù)雜度要求要高于傳統(tǒng)的方法。
2.1.3對抗與強化學(xué)習(xí)
雖然多示例學(xué)習(xí)可以很好地平滑噪聲的影響,但是在訓(xùn)練過程中依然會存在兩個問題:
(1)無法處理所有包內(nèi)句子都是噪聲的情況。如果某一個實體對對齊的文本全部都是噪聲,對于多示例學(xué)習(xí)方法,At-Least-One Assumption和注意力機制都會至少為一個句子分配一個較大的權(quán)重,因此無法處理所有句子都是噪聲的情況。
(2)基于包的預(yù)測并不能很好地處理句子與關(guān)系標簽的映射,另外,其容忍了一部分噪聲使得模型學(xué)習(xí)到了一些錯誤的映射關(guān)系,從而可能影響分類效果。
隨著對抗學(xué)習(xí)與強化學(xué)習(xí)的發(fā)展,以及它們在自然語言處理中的廣泛應(yīng)用,基于遠程監(jiān)督的關(guān)系抽取中噪聲處理問題形成了一個新的思路——學(xué)習(xí)一種采樣策略,使得在訓(xùn)練模型之前先過濾錯誤標注的句子,通過提升語料的質(zhì)量來提升關(guān)系抽取的效果。
Shi和wu均提出一種遠程監(jiān)督關(guān)系抽取對抗訓(xùn)練的思路。通過在對句子使用RNN進行表征的時候,在每一個時刻將模擬為噪聲的對抗樣本與真實樣本一同輸入模型中進行訓(xùn)練,試圖讓模型能夠識別出真樣本和噪聲樣本,與此同時提升模型在含有噪聲的語料中訓(xùn)練的魯棒性。
Qin則使用生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)來模擬采樣過程。其參考多示例學(xué)習(xí)方法將語料劃分為包,并在每個包內(nèi)通過采樣器(sampler)根據(jù)學(xué)習(xí)的概率分布采樣出真實樣本企圖欺騙判別器(Discriminator),剩余的則是采樣器認為的噪聲。判別器則將采樣器采樣的真實樣本認為是噪聲并給予低分,而將剩余的噪聲認為是真實樣本給予高分。因為GAN的訓(xùn)練比較困難,因此Qin首先對采樣器和判別器進行預(yù)訓(xùn)練,其次兩者進行聯(lián)合訓(xùn)練。對GAN的訓(xùn)練是一個極小極大問題,最終可以獲得一個較優(yōu)的采樣器使得其采樣的樣本都可以被認為是正確的。
不同于Qin,Li認為大量的False Negative樣本影響了關(guān)系抽取效果,因此首先通過對維基百科中的實體描述進行統(tǒng)計構(gòu)建出小規(guī)模的專家語料,認為如果某個實體的描述信息中出現(xiàn)了另一個實體,則這兩個實體間是有關(guān)系的。其次在對抗訓(xùn)練過程中,生成器分別從原始語料和專家語料中采樣,判別器則分別給予低分和高分。Han等人提出另一種降噪方法,首先通過預(yù)訓(xùn)練的分類器將遠程監(jiān)督語料劃分為2個集合,分別是確信集(confident Part)和不確信集(unconfident Part)。在對抗訓(xùn)練階段,通過采樣器從確信集中采樣企圖欺騙判別器,并不斷將被打高分的樣本更新到確信集中,直到2個集合不再變化為止。
Feng從強化學(xué)習(xí)的角度提出一種遠程監(jiān)督語料的降噪方法,在基于馬爾可夫決策過程條件下,定義了狀態(tài)、動作、獎勵等基本要素?;舅悸肥抢貌呗蕴荻萊EINFORCE算法學(xué)習(xí)一個選擇器(selector)在包中對每個句子執(zhí)行一個動作,即選擇或不選擇,并在已選擇的句子集合中使用句子級別的PCNN分類器(classifier)進行分類,并通過挑選的句子loss的均值作為獎勵。實驗表明這種方法可以有效提升關(guān)系抽取的效果,尤其是對于全部都是噪聲的包能夠起到過濾作用。He改進了Feng的方法,主要體現(xiàn)在:①依然使用基于包級別的預(yù)測,認為只考慮句子級別的分類會喪失句子之間的語義關(guān)聯(lián)性;②使用Q學(xué)習(xí)來訓(xùn)練選擇器;③同時考慮了True Positive和Unlabeled所產(chǎn)生的損失,實驗表明識別True Positive的精確度得到了提升。
Qin則站在挑選噪聲的角度,將每相鄰的兩次迭代所挑選噪聲的交集作為計算獎勵的依據(jù)。不同于Feng的是,Qin認為使用F1值的變化作為獎勵可以提高策略的學(xué)習(xí)能力。Zeng和Sun則訓(xùn)練一個智能體進行關(guān)系預(yù)測,動作空間的大小是關(guān)系標簽的數(shù)量,而獎勵則為對包分類的預(yù)測準確度。通過策略梯度法不斷調(diào)整智能體的策略使得能夠給出正確的關(guān)系預(yù)測。
基于對抗與強化學(xué)習(xí)的降噪方法進一步地提升了語料的質(zhì)量,讓模型可以學(xué)習(xí)到更加準確的實體對關(guān)系,進一步提升訓(xùn)練模型的泛化能力和魯棒性。但是相比于前兩種方法,對抗學(xué)習(xí)與強化學(xué)習(xí)都需要訓(xùn)練兩個模型,訓(xùn)練難度大,通常需要先對各個模塊進行預(yù)訓(xùn)練來避免在聯(lián)合訓(xùn)練過程中的不穩(wěn)定問題,因此其時間和空間復(fù)雜度要求進一步提高,在實際工業(yè)界應(yīng)用場景中難以落地。
2.2緩解信息匱乏問題
由于現(xiàn)階段知識庫和訓(xùn)練語料大量缺失,使得部分實體對對齊的語料數(shù)量過少,從而造成這些實體對的關(guān)系抽取訓(xùn)練不充分,最終導(dǎo)致信息匱乏。如圖2所示,Kuang分別對NYT和GDS數(shù)據(jù)集的每個實體對在數(shù)據(jù)集中的共現(xiàn)次數(shù)進行了統(tǒng)計,其中橫坐標表示實體對共現(xiàn)次數(shù),縱坐標表示對應(yīng)的實體對數(shù)量。發(fā)現(xiàn)絕大多數(shù)的實體對僅存在少量的樣本,在本身還有大量噪聲的情況下,真實樣本含有的語義信息十分稀少,不利于訓(xùn)練。如今解決遠程監(jiān)督關(guān)系抽取中信息匱乏問題的工作主要分為輔助信息增強和聯(lián)合學(xué)習(xí)。
2.2.1輔助信息增強
輔助信息增強是一種最直接地緩解訓(xùn)練不充分的問題的方法,其基本思路是通過引入額外知識信息來提升對關(guān)系的預(yù)測,如實體關(guān)系信息、條件約束、知識表示等。
Vashishth認為知識庫中包含一些輔助信息(side Information)以及實體類型信息(EntityType)可以輔助增強關(guān)系抽取:在計算句子權(quán)重之前將輔助信息與句子向量結(jié)合起來;在形成包向量之后直接與實體類型對應(yīng)的向量進行拼接。相比之下,Li則是使用自注意力機制(self-attention)結(jié)合實體信息來實現(xiàn)對語義信息的增強,其驗證了自注意力機制可以有效地幫助模型關(guān)注更重要的語義成分以彌補數(shù)據(jù)不充分的缺陷。
Kuang認為實體對在大量維基百科語料中的共現(xiàn)次數(shù)可以間接地描述它們之間的潛在關(guān)系,從而彌補訓(xùn)練集中部分實體對不充分的問題。其構(gòu)建了一個實體鄰接圖(Entity Proximity Graph),其中節(jié)點表示各個實體,邊上的權(quán)值代表對應(yīng)相連的兩個實體在維基百科語料中的共現(xiàn)次數(shù)。隨后使用LINE[711圖算法從低階和高階兩個方面捕捉實體對之間的隱式相互關(guān)系(Implieit Mutual Relation),并結(jié)合實體類型信息進行增強。與此同時,Su是同時在文本和知識庫兩個方面對實體對共現(xiàn)次數(shù)進行統(tǒng)計,并提出一種全局關(guān)系表征(Global Relation Embedding)用于提升關(guān)系預(yù)測能力。
Xu則結(jié)合了知識表示(Knowledge Base Embedding,KBE)和文本句子表征,提出基于異構(gòu)表征方法來增強遠程監(jiān)督關(guān)系抽取。其思路是使用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)對句子進行表征,并基于TransE模型學(xué)習(xí)知識庫內(nèi)的實體和關(guān)系向量。文本句子表征與知識表征分別對應(yīng)使用交叉信息熵的局部損失和基于相似度排序的全局損失,在實驗中二者結(jié)合起來聯(lián)合訓(xùn)練。
Liu則考慮到了實體類型會對關(guān)系預(yù)測起到約束作用,如果兩個實體類型分別是“Person”和“Film”,則預(yù)測的關(guān)系應(yīng)當(dāng)更可能是“DirectorOf”,而不可能是“PlaceOfBirth”。因此Liu提出一種多粒度的實體類型約束方法,并集成到現(xiàn)有的遠程監(jiān)督關(guān)系抽取模型中。Ye也考慮到了這類約束,并分別從連貫性(coherent)和語義性(semantic)兩個層面上提出兩種不同的約束損失函數(shù)計算方法,該工作不依賴于關(guān)系抽取模型,因此具有即插即用(Plug-and-Play)的優(yōu)勢。
2.2.2聯(lián)合學(xué)習(xí)
聯(lián)合學(xué)習(xí)則是另一類緩解信息匱乏問題的方法。Beltag認為遠程監(jiān)督關(guān)系抽取中的語料是不充分的,但可以通過其他有監(jiān)督語料來輔助增強,因此提出一種聯(lián)合監(jiān)督與遠程監(jiān)督的訓(xùn)練方法。不過使用監(jiān)督語料并不能從根本上解決訓(xùn)練不充分問題。
wei提出一種聯(lián)合命名實體識別(Named Entity Recognition,NER)和關(guān)系抽取的端到端方法,其基本思路是先對文本中的實體進行標注,獲得了實體層面的語義信息后映射到對應(yīng)的關(guān)系語義表征上。該工作在遠程監(jiān)督數(shù)據(jù)集NYT上驗證了同時結(jié)合兩個任務(wù)學(xué)習(xí)模型可以彌補只進行關(guān)系抽取任務(wù)可能出現(xiàn)的學(xué)習(xí)不充分的問題。Ren提出一種聯(lián)合抽取模型COTYPE,主要解決實體標注與關(guān)系分類分離導(dǎo)致的錯誤傳播問題,他認為聯(lián)合兩個任務(wù)學(xué)習(xí)還可以緩解噪聲問題。
Takanobu的出發(fā)點與wei相同,但實現(xiàn)策略完全相反。其是先挖掘文本中的關(guān)系,再根據(jù)關(guān)系到文本中尋找兩個實體。為了能夠很好地提取關(guān)系和實體,Takanobu使用一種分層的強化學(xué)習(xí)方法,先后交替訓(xùn)練關(guān)系抽取和實體識別,并在NYT數(shù)據(jù)集上驗證了該方法既可以通過聯(lián)合兩個任務(wù)緩解含有噪聲的語料中的訓(xùn)練不充分的問題,也能夠處理關(guān)系重疊問題(overlapping)。
2.3解決非均衡問題
非均衡是遠程監(jiān)督語料面臨的新問題,近幾年開始被關(guān)注。非均衡問題主要體現(xiàn)在各個關(guān)系標簽對應(yīng)的實體對數(shù)量或?qū)R的語料數(shù)量不均勻。通常只有少部分標簽對應(yīng)的實體對或語料數(shù)量較多,而大部分標簽則很少,這種現(xiàn)象被稱為二八定律、馬太效應(yīng)或長尾問題。例如,Zhang對NYT語料進行了統(tǒng)計,如圖3所示,橫軸表示關(guān)系標簽的編號,按照對應(yīng)樣本數(shù)降序排序,縱軸表示各個關(guān)系標簽對應(yīng)樣本的數(shù)量。NYT一共包括53個關(guān)系標簽,居于頭部的關(guān)系標簽語料充足,而近40個居于尾部的關(guān)系標簽對應(yīng)的語料嚴重缺乏,使得居于長尾的實體對不能夠得到充分的學(xué)習(xí),致使訓(xùn)練得到有偏的模型。
為了解決非均衡的問題,ye等人提出一種多任務(wù)學(xué)習(xí)(Multi-Task)框架,認為絕大多數(shù)的實體對關(guān)系是NA(無關(guān)),只有少數(shù)的實體對具有關(guān)系。因此在CNN的輸出層部分添加兩個分類器,分別為Relation Identification和Relation Classification。前者使用交叉信息熵進行關(guān)系識別,即判斷當(dāng)前實體對是否存在關(guān)系,后者則使用排序損失方法預(yù)測具體的關(guān)系。但這種方法只能夠緩解NA標簽對分類的影響。
Krause提出一種基于規(guī)則的關(guān)系抽取系統(tǒng)解決長尾問題。其從遠程監(jiān)督語料中提取了大量的語法規(guī)則,每個關(guān)系標簽平均有40k個規(guī)則模板。然而大量的規(guī)則極大地消耗了人力物力,且局限于特定領(lǐng)域的關(guān)系抽取。為了解決規(guī)則帶來的問題,Gui等人進行了改進,提出一種基于可解釋學(xué)習(xí)(Explanation-Based Learning,EBL)的方法,其可以在少量規(guī)則的引導(dǎo)下提取出實體關(guān)系信息,同時對于長尾的關(guān)系,還可以通過領(lǐng)域知識進行糾正。
解決長尾問題的代表性方法還有少樣本學(xué)習(xí)fFew-shot Learning)。Han則利用了深度學(xué)習(xí)技術(shù)來解決長尾問題。Han發(fā)現(xiàn)在FreeBase等知識庫中關(guān)系標簽是按照層次結(jié)構(gòu)組織的,如關(guān)系“|people|person|place-of—birth”可以分為“|people”“|people|person”和“|people|person|place-of-birth”3層,對于長尾關(guān)系通常表現(xiàn)在第3層,但是可以通過前兩層使得長尾關(guān)系的樣本容量變大?;诖?,其提出一種分層的關(guān)系抽取方法,根據(jù)關(guān)系的層次結(jié)構(gòu)由粗到細地(coarse-to-Fine)進行預(yù)測,進一步緩解長尾問題。
Zhang認為基于Few-shot的訓(xùn)練方法具有挑戰(zhàn)性,因此在Han基礎(chǔ)上進行改進。其先后使用TransE和圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)模型對知識庫的圖結(jié)構(gòu)以及層次關(guān)系的樹結(jié)構(gòu)進行表征,分別獲得隱式和顯式的關(guān)系信息,進而通過由粗到細粒度的注意力機制將不同層次的信息進行融合。該方法可以很好地借助關(guān)系的層次結(jié)構(gòu)以及知識庫信息來緩解長尾問題。
3評估數(shù)據(jù)集與評測指標
3.1評估數(shù)據(jù)集
在國際評測中,監(jiān)督類實體關(guān)系抽取的公開數(shù)據(jù)集主要有SemEval 2010 Task8、ACE2004/2005.前者是國際語義評測會議SemEval于2009年構(gòu)建的語義關(guān)系分類任務(wù),其包含9種關(guān)系共10717個示例,語料主要來源于詞網(wǎng)(WordNet)、維基百科(Wikipedia)等。后者是ACE會議公開使用的數(shù)據(jù)集,其中包括實體識別和關(guān)系抽取兩個子任務(wù),語料來源于語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC),通??梢员挥糜诼?lián)合抽取任務(wù)。另外還有MUC、MPQA2.0等語料。雖然這些有監(jiān)督的關(guān)系抽取數(shù)據(jù)集被廣泛用于評測模型,但它們共同的缺點在于數(shù)據(jù)集的語料數(shù)量過少、大量人工標注成本過高、因局限于特定領(lǐng)域而不能得到廣泛的應(yīng)用。因此有一系列相關(guān)工作致力于遠程監(jiān)督方法構(gòu)建數(shù)據(jù)集,表3分別列出了相關(guān)數(shù)據(jù)集的統(tǒng)計信息。
(1)NYT數(shù)據(jù)集Riedel通過將紐約時報與FreeBase對齊產(chǎn)生大量的語料并簡稱NYT數(shù)據(jù)集,其中訓(xùn)練集由2005年和2006年新聞組成,測試集由2007年新聞組成。NYT數(shù)據(jù)集包括52種語義關(guān)系和NA標簽,訓(xùn)練集共包括522611個示例、281 270個實體對,測試集包括172448個示例、96678個實體對。NYT也成為目前遠程監(jiān)督關(guān)系抽取使用最為廣泛的評估數(shù)據(jù)集。后來有相關(guān)工作將NYT原始數(shù)據(jù)集進行了簡約處理,構(gòu)造了NYTll等版本語料,如表3所示,實體對數(shù)量之所以比示例數(shù)量多,是因為存在一些句子包含多個實體對或相同的實體對有多個關(guān)系。
(2)GDS數(shù)據(jù)集Jat等人認為NYT數(shù)據(jù)集中包含大量的NA標簽致使模型不易學(xué)習(xí)到正確的映射關(guān)系,因此用遠程監(jiān)督方法額外構(gòu)建了GDS(Google-IISc Distant Supervision)數(shù)據(jù)集,其將谷歌關(guān)系抽取語料庫與Web進行對齊。其中訓(xùn)練集有13161個示例、7580個實體對,測試集包括5663個示例、3247個實體對,一共有4種語義關(guān)系以及NA標簽。GDS相比NYT數(shù)據(jù)集來說降低了數(shù)據(jù)的規(guī)模,且使得5種標簽對應(yīng)的示例數(shù)量相對平衡。
(3)KBP數(shù)據(jù)集是由Surdeanu通過KBP2010和KBP2011評測任務(wù)上獲得的語料,該語料是將150萬個文檔與知識庫對齊產(chǎn)生的。KBP數(shù)據(jù)集中包含183062個訓(xùn)練實體對,3334個測試實體對和41種關(guān)系標簽,且平均每個實體對對應(yīng)50個句子。因此該語料具有規(guī)模大、數(shù)據(jù)真實等特點。不同于前面的數(shù)據(jù)集,Surdeanu設(shè)計了200個基于實體名稱的頭實體查詢,并根據(jù)頭實體獲得對應(yīng)的所有三元組及其對齊的語料。例如,Surdeanu和Min隨機挑選40個查詢作為訓(xùn)練,剩余的160個查詢作為測試。
(4)FewRel數(shù)據(jù)集該數(shù)據(jù)集的主要目標是驗證模型在少樣本訓(xùn)練后在未知的實體對關(guān)系下是否具有泛化能力,其是由清華大學(xué)團隊提出的關(guān)系抽取數(shù)據(jù)集,該數(shù)據(jù)集使用基于遠程監(jiān)督的思想,通過與維基百科進行對齊。不同于NYT的是,其包含自動對齊和人工標注兩個步驟。在自動對齊階段,其首先過濾掉樣本數(shù)少于1000的標簽,避免長尾問題出現(xiàn),其次去掉實體對重復(fù)的示例,使得每個實體對僅出現(xiàn)一次;在人工標注階段,主要由標注人員進行篩選,保證語料的質(zhì)量,最終保留了100個關(guān)系,每個關(guān)系對應(yīng)700個示例。由于每一個示例對應(yīng)唯一的實體對,因此,總共有70000個實體對。FewRel定義了80個關(guān)系為訓(xùn)練集(其中16個關(guān)系為驗證集),20個關(guān)系為測試集。隨后FewRel 2.0版本則對第一版本進行了改進,使用N-Way、K-Shot設(shè)定,其表示給定模型Ⅳ個未知的類型,每個類型包含k個示例,以此驗證模型是否可以有效地分類。FewRel已被多個工作作為驗證模型的評測數(shù)據(jù)集,也是遠程監(jiān)督關(guān)系抽取的新的評測任務(wù)。
另外,國內(nèi)也有相關(guān)研究團隊構(gòu)建了大規(guī)模中文關(guān)系抽取語料。例如,Xu等人構(gòu)建了可同時完成實體識別和關(guān)系分類的中文語料庫;清華大學(xué)自然語言處理實驗室開源了神經(jīng)關(guān)系抽取工具包項目OpenNRE;國內(nèi)最大的開源知識圖譜社區(qū)(openKG)則收納了超過130個開放中文知識圖譜語料。
3.2評測指標
在對遠程監(jiān)督關(guān)系抽取模型的評估方面,Mintz提出兩種評估方法,分別是基于自動評估(Held-out Evaluation)和基于人工評估(Manual Evaluation)。
自動評估是指通過模型預(yù)測的結(jié)果自動與樣本標簽進行比較,通常選擇的評測指標有準確率(Precision)、召回率(Recall)、Fβ值和P-R曲線(AUC值)等。然而,由于遠程監(jiān)督方法構(gòu)建的語料中,測試集中也普遍存在大量噪聲,可能受到False Positive和False Negative的影響,即在測試階段給定的實體對被預(yù)測正確的關(guān)系,但由于錯誤的標注或知識庫不充分等原因?qū)е卤慌袨轭A(yù)測錯誤,因此有時需要進行人工評估。如今諸多工作同時兼顧兩種評估方法。表4對這些評測指標進行了整理。
3.2.1自動評估(Held-out Evaluation)
在自動評估中,遠程監(jiān)督關(guān)系抽取屬于多類分類任務(wù),常用混淆矩陣(confusion Matrix)來表示每個類預(yù)測的情況。假設(shè)給定的數(shù)據(jù)集預(yù)定義的n個關(guān)系標簽組成的集合為r={r1,r2,…,rn),混淆矩陣可以表示為n×n的方陣,本文記作con,matrix∈Rnxn,其中每一行表示樣本的實際標簽,每一列表示模型預(yù)測的標簽,矩陣的元素confmatrix(i,J)則表示實際關(guān)系標簽ri對應(yīng)的樣本被預(yù)測為rj的個數(shù)。當(dāng)且僅當(dāng)i=j時表示預(yù)測正確??梢缘玫较鄳?yīng)的評測指標分別如下。
在遠程監(jiān)督關(guān)系抽取自動評估中,研究者們通常取宏平均的準確率和召回率作為評價指標,且不計入標簽NA的結(jié)果。
為了能夠?qū)δP瓦M行綜合評測,還引入了Precision-Recall(P-R)曲線和AUC值作為模型比對的指標。其中P-R曲線用來衡量查準率和查全率的綜合效果,在多類分類中,通過獲得每個樣本在各個類預(yù)測的概率分布及其對應(yīng)獨熱編碼,并按照概率進行降序排序形成一個向量,若對每個元素作為分界線,則可以依次得到相應(yīng)的查準率和查全率,以此可以獲得相應(yīng)的曲線。P-R曲線目前是遠程監(jiān)督關(guān)系抽取性能評估的主要指標。另外,ROC曲線是反映在關(guān)系抽取時敏感性(FPR)和精確性(TPR)的趨勢,AUC值(0≤AUC≤1)表示ROC曲線與兩坐標軸(TPR和FPR)包圍的面積,AUC值越大則說明模型的性能越好。
3.2.2人工評估(Manual Evaluation)
人工評估法是為了彌補由于知識庫語料不充分所導(dǎo)致的一些False Negative樣本對實驗結(jié)果的影響,因此人工評估方法也被廣泛作為遠程監(jiān)督的評價依據(jù)。目前人工評估的方法主要有如下幾類。
(1)直接重新從測試集中隨機挑選一部分數(shù)據(jù)并進行人工標注,確保每個示例都是正確無誤的,然后在此基礎(chǔ)上驗證預(yù)測的效果。例如,F(xiàn)eng通過從測試集中隨機選擇了300個樣本并人工標注了每個示例是否是噪聲,來驗證他們的方法是否可以有效過濾噪聲。
(2)P@N指標。由于P-R曲線中隨著Recall值的不斷上升,可能包含的FaKe Negative數(shù)量會變大,使得模型預(yù)測的正確的示例會被錯誤評判,因此通常取一小部分示例用于測試。一種方法是通過人工挑選Ⅳ(或Ⅳ%)個示例;另一種是直接按照Precision值從大到小排列并選擇第Ⅳ(或Ⅳ%)個值作為評估結(jié)果,這種情況下,P@N指標相當(dāng)于對模型預(yù)測的準確率最高的前Ⅳ個(或前Ⅳ%)示例中模型預(yù)測的準確率,而可能含有大量的False Negative樣本便被排除在外,可以有效避免錯誤評判帶來的問題。通常大多數(shù)工作取值為Ⅳ∈{100,200,300,500)或Ⅳ∈{10%,20%,30%,50%),后來也有工作為了避免人工評估方法帶來的時間消耗,將P@Ⅳ指標應(yīng)用到自動評估方法中。