薛 露,宋 威
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無(wú)錫 214122)
(?通信作者電子郵箱songwei@jiangnan.edu.cn)
關(guān)系抽?。≧elation Extraction,RE)旨在根據(jù)純文本預(yù)測(cè)關(guān)系事實(shí),由于抽取效果的好壞直接影響后續(xù)任務(wù)的準(zhǔn)確率,這使得其在推薦系統(tǒng)、問(wèn)答系統(tǒng)、智能搜索等自然語(yǔ)言應(yīng)用領(lǐng)域占據(jù)重要地位[1]。傳統(tǒng)的監(jiān)督RE 模型缺乏標(biāo)注的訓(xùn)練數(shù)據(jù),手動(dòng)標(biāo)記訓(xùn)練數(shù)據(jù)既耗時(shí)且成本高。為此,Mintz等[2]提出了遠(yuǎn)程監(jiān)督,通過(guò)將純文本中的實(shí)體對(duì)與知識(shí)庫(kù)(Knowledge Base,KB)帶有關(guān)系標(biāo)記的實(shí)體對(duì)直接對(duì)齊標(biāo)注自動(dòng)生成訓(xùn)練數(shù)據(jù)。若KB中某個(gè)實(shí)體對(duì)之間無(wú)關(guān)系,則將待標(biāo)注的句子標(biāo)記為負(fù)實(shí)例(Negative Instance,NA)。例如,“Asmara”“Eritrea”在KB 中存在capital 的關(guān)系,則包含這兩個(gè)實(shí)體的非結(jié)構(gòu)化文本“I eventually fly from Nairobi to Dubai to Asmara,the capital of Eritrea.”可以作為模型訓(xùn)練的有效實(shí)例。但是,當(dāng)“Asmara”與“Eritrea”同時(shí)存在一個(gè)句子中并非表達(dá)capital 關(guān)系時(shí),這種沒(méi)有考慮實(shí)體對(duì)具體語(yǔ)義背景的標(biāo)注方法產(chǎn)生了大量噪聲。為了減輕錯(cuò)誤的標(biāo)簽問(wèn)題,Zeng等[3]首先將基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型運(yùn)用于此項(xiàng)任務(wù),與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比取得了顯著的進(jìn)步。
雖然研究者已經(jīng)做出許多努力,而大多數(shù)現(xiàn)有方法在訓(xùn)練過(guò)程中使用遠(yuǎn)程監(jiān)督標(biāo)簽,導(dǎo)致不能準(zhǔn)確地獲取關(guān)系特征信息,不能完全解決錯(cuò)誤的標(biāo)注問(wèn)題。針對(duì)以上問(wèn)題,本文提出了動(dòng)態(tài)標(biāo)簽方法,可以通過(guò)某些實(shí)例與潛在正確標(biāo)注實(shí)例之間的關(guān)系類別相似性評(píng)價(jià)遠(yuǎn)程監(jiān)督標(biāo)簽的可靠性,在訓(xùn)練階段動(dòng)態(tài)糾正錯(cuò)誤的遠(yuǎn)程監(jiān)督(Distant Supervision,DS)標(biāo)簽,從而提高關(guān)系抽取的準(zhǔn)確性。
近年來(lái)學(xué)者們已經(jīng)提出許多緩解遠(yuǎn)程監(jiān)督數(shù)據(jù)集噪聲的方法。Riedel 等[4]和Hoffmann 等[5]提出多實(shí)例學(xué)習(xí)(Multi-Instances Learning,MIL),如圖1 所示。該方法將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)實(shí)體對(duì)集合,將關(guān)系標(biāo)簽直接賦予集合,并提出以下假設(shè),如果實(shí)體對(duì)之間存在某種關(guān)系,則集合中至少一個(gè)句子必須反映該關(guān)系,同時(shí)刻畫一個(gè)實(shí)體對(duì)可能存在多種關(guān)系的情況。
圖1 遠(yuǎn)程監(jiān)督集合Fig.1 Distant supervision set
注意力機(jī)制從眾多信息中選擇出特定目標(biāo)的關(guān)鍵信息。在MIL 的基礎(chǔ)之上,Zeng 等[6]引入注意力機(jī)制從集合中選擇一個(gè)最有效的實(shí)例作為集合的特征,但此方法導(dǎo)致大多數(shù)有效實(shí)例被忽略,損失了大量有效信息。Lin 等[7]使用注意力機(jī)制將集合中所有實(shí)例按照重要程度綜合表示為集合的特征,緩解大量有效信息被丟失的問(wèn)題。Zhou等[8]提出層次注意力機(jī)制,首先對(duì)集合的所有句子進(jìn)行句子級(jí)別關(guān)注選擇最相關(guān)的句子,然后采用單詞級(jí)別的關(guān)注抽取區(qū)分關(guān)系類別的關(guān)鍵單詞,構(gòu)建句子特征表示,并聚合這些句子特征為集合特征。同樣的,Qu 等[9]提出單詞級(jí)別的注意力機(jī)制來(lái)區(qū)分句子中每個(gè)單詞的重要性,從而增加了這些關(guān)鍵單詞的注意力權(quán)重,并且將目標(biāo)實(shí)體詞向量的語(yǔ)義信息作為補(bǔ)充特征,進(jìn)一步豐富集合特征;相似的,Ji等[10]將實(shí)體描述信息作為額外的背景知識(shí)補(bǔ)充到模型中。李浩等[11]提出了一種基于多層次注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取模型。該模型通過(guò)雙向門控神經(jīng)網(wǎng)絡(luò)獲取句子特征;其次,通過(guò)引入詞語(yǔ)層、句子層、關(guān)系層的注意力機(jī)制,在學(xué)習(xí)不同關(guān)系之間聯(lián)系的同時(shí),減少錯(cuò)誤標(biāo)簽。馮建周等[12]設(shè)計(jì)了一種新的注意力模型,該模型構(gòu)建排序的組合句子向量,使模型徹底地拋棄噪聲句子,而不是讓噪聲句子以一個(gè)較低權(quán)重參與計(jì)算。Han 等[13]根據(jù)關(guān)系標(biāo)簽的層次結(jié)構(gòu),關(guān)注關(guān)系之間豐富的語(yǔ)義信息,在關(guān)系標(biāo)簽的每一層結(jié)構(gòu)上引用注意力機(jī)制,從而抽取豐富的層次結(jié)構(gòu)表示集合特征。這些模型的提出表明了注意力機(jī)制處理特征信息的有效性。為了進(jìn)一步緩解噪聲問(wèn)題,Zeng 等[14]引入強(qiáng)化學(xué)習(xí)概念,通過(guò)獎(jiǎng)懲機(jī)制區(qū)分句子是否是有效實(shí)例。Wu 等[15]采用對(duì)抗訓(xùn)練機(jī)制,使模型在訓(xùn)練過(guò)程中對(duì)噪聲更加敏感,增強(qiáng)模型的魯棒性。Liu等[16]提出一種基于置信度的軟標(biāo)簽方法,該方法利用來(lái)自正確標(biāo)記集合的特征,在訓(xùn)練過(guò)程中動(dòng)態(tài)地糾正錯(cuò)誤的標(biāo)簽。Ru 等[17]則從語(yǔ)義角度出發(fā),使用Jaccard 算法選擇一個(gè)核心依賴短語(yǔ)來(lái)表示句子關(guān)系類別,以過(guò)濾遠(yuǎn)程監(jiān)督標(biāo)簽噪聲。以上的關(guān)系抽取模型,雖對(duì)關(guān)系抽取能力有一定提升,但是大多數(shù)現(xiàn)有方法在訓(xùn)練過(guò)程中使用遠(yuǎn)程監(jiān)督標(biāo)簽,導(dǎo)致不能準(zhǔn)確地獲取關(guān)系特征信息。
通過(guò)分析MIL 的集合得出:1)大量的集合標(biāo)注了NA 標(biāo)簽,但實(shí)際較多實(shí)例存在有效關(guān)系信息。2)集合中的所有實(shí)例或者大多數(shù)實(shí)例實(shí)際上表達(dá)的關(guān)系信息與關(guān)系標(biāo)簽不符合。3)較多集合只有一個(gè)實(shí)例,且關(guān)系標(biāo)簽可能錯(cuò)誤。由于大多數(shù)現(xiàn)有方法在訓(xùn)練過(guò)程中使用的是硬標(biāo)簽,潛在的有效實(shí)例被忽略,仍然存在噪聲問(wèn)題影響模型關(guān)系抽取能力。
針對(duì)上述問(wèn)題,本文提出了一種可以根據(jù)關(guān)系類別相似性產(chǎn)生動(dòng)態(tài)標(biāo)簽(Similarity dynamic Label,SL)的方法。本文將提出的SL 方法作用于分層注意力機(jī)制(Hierarchical ATTention,HATT)[13],提出基于動(dòng)態(tài)標(biāo)簽的分層注意力機(jī)制(HATT based on SL,SL-HATT)RE模型,以驗(yàn)證動(dòng)態(tài)標(biāo)簽的調(diào)整對(duì)RE 產(chǎn)生積極的影響。首先,根據(jù)HATT 對(duì)關(guān)系標(biāo)簽(例如/people/person/nationality)的層次逐層抽取集合的特征表示。其次,動(dòng)態(tài)標(biāo)簽方法計(jì)算集合特征之間的關(guān)系類別相似性,并且結(jié)合遠(yuǎn)程監(jiān)督標(biāo)簽的可信度,共同評(píng)價(jià)集合的關(guān)系標(biāo)簽是否標(biāo)注正確,若標(biāo)注錯(cuò)誤,則根據(jù)評(píng)分函數(shù)產(chǎn)生新的動(dòng)態(tài)標(biāo)簽,代替原來(lái)的遠(yuǎn)程監(jiān)督標(biāo)簽作為訓(xùn)練時(shí)的標(biāo)簽,并且動(dòng)態(tài)標(biāo)簽在訓(xùn)練過(guò)程中不斷調(diào)整,以解決集合的噪聲標(biāo)簽問(wèn)題。最后,在訓(xùn)練過(guò)程中根據(jù)動(dòng)態(tài)標(biāo)簽的調(diào)整,更新HATT 關(guān)注集合的有效實(shí)例,以抽取更豐富的集合關(guān)鍵詞特征。
SL方法與HATT的結(jié)合的優(yōu)勢(shì)在于兩個(gè)方面:一方面,SL方法首次提出通過(guò)關(guān)系類別相似性調(diào)整集合的標(biāo)簽。另一方面,HATT 根據(jù)新的標(biāo)簽,更新關(guān)注集合中有效實(shí)例,使得有效實(shí)例增多,以便于抽取區(qū)分關(guān)系類別的關(guān)鍵詞特征信息。并且,HATT 注意力機(jī)制主要對(duì)關(guān)系標(biāo)簽之間的層次關(guān)聯(lián)建模,抽取了關(guān)系之間的相關(guān)性信息,使得關(guān)系標(biāo)簽之間不以獨(dú)立的方式存在。二者共同作用于關(guān)系標(biāo)簽的層面,抽取關(guān)系之間豐富關(guān)聯(lián)性的同時(shí),根據(jù)關(guān)系之間的相似性調(diào)整錯(cuò)誤標(biāo)簽,緩解集合的錯(cuò)誤標(biāo)簽對(duì)關(guān)系抽取整個(gè)過(guò)程帶來(lái)的影響??偟膩?lái)說(shuō),從兩個(gè)層面共同作用緩解遠(yuǎn)程監(jiān)督的噪聲問(wèn)題。特別的,在多實(shí)例學(xué)習(xí)方法的基礎(chǔ)之上,正確標(biāo)注的標(biāo)簽遠(yuǎn)多于錯(cuò)誤標(biāo)簽,動(dòng)態(tài)標(biāo)簽思想得以實(shí)現(xiàn)[16]。
本文提出了一種根據(jù)關(guān)系類別相似性產(chǎn)生動(dòng)態(tài)標(biāo)簽的方法。在訓(xùn)練過(guò)程中代替遠(yuǎn)程監(jiān)督標(biāo)簽,減弱錯(cuò)誤的遠(yuǎn)程監(jiān)督標(biāo)簽對(duì)關(guān)系抽取能力的影響。為了驗(yàn)證本文提出的方法,將SL方法作用于HATT,提出SL-HATT模型,通過(guò)同時(shí)對(duì)關(guān)系標(biāo)簽進(jìn)行動(dòng)態(tài)調(diào)整來(lái)學(xué)習(xí)更充足的集合關(guān)系特征信息。圖2 是SL-HATT 網(wǎng)絡(luò)結(jié)構(gòu)框架,由以下兩部分組成:1)HATT 關(guān)系抽取模型;2)SL方法。
早期的RE 方法主要依賴自然語(yǔ)言處理(Natural Language Processing,NLP)工具提取文本特征。近年來(lái),神經(jīng)網(wǎng)絡(luò)因具有更準(zhǔn)確地捕獲文本特征的能力而被廣泛用于RE。
圖2 SL-HATT網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.2 SL-HATT network structural framework
在NLP 任務(wù)中,通常以詞向量的形式作為神經(jīng)網(wǎng)絡(luò)的輸入。詞向量是詞的分布式表示,具有維度低、語(yǔ)義信息豐富的優(yōu)點(diǎn)。本文采用Skip-Gram 方法通過(guò)大型語(yǔ)料庫(kù)訓(xùn)練得到的50 維的詞向量we作為輸入,we∈En?KW,E為詞向量矩陣,n為詞典長(zhǎng)度,KW為詞向量維度,其中意思相近的詞將被映射到向量空間中相近的位置,保證模型輸入帶有單詞詞義信息。同時(shí),通過(guò)加入每個(gè)單詞與實(shí)體在句子中的相對(duì)位置信息,可以對(duì)句子中不同的單詞與實(shí)體之間的相對(duì)位置進(jìn)行分布式表示[3],提升關(guān)系抽取的效果。位置向量表示為wp,每個(gè)詞的向量由we和wp組成,定義為w。其中,對(duì)于長(zhǎng)度為m的句子實(shí)例,有式(1):
為了便于與其他關(guān)系抽取模型比較,本文選擇卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]作為句子編碼器,將實(shí)例矩陣W編碼為句子的隱藏層特征矩陣x,如式(2)。然后,將最大池化層作用于卷積層輸出的x,以得到最終句子特征向量h,如式(3)所示。
由于關(guān)系標(biāo)簽在其層次結(jié)構(gòu)上具有相關(guān)性,如/people/person/nationality 和/people/person/ethnicity,高層次(例如people)的關(guān)系更加通用,低層次(例如nationality)的關(guān)系信息更特殊。Han 等[13]提出,給定遠(yuǎn)程監(jiān)督關(guān)系標(biāo)簽集R,通過(guò)關(guān)系層次生成關(guān)系層次集合{R1,R2,…,Rk},其中k為關(guān)系層數(shù),Rk為當(dāng)前層次的關(guān)系集合。在關(guān)系層次結(jié)構(gòu)的每一層上對(duì)集合進(jìn)行注意力關(guān)注,以獲得相應(yīng)層次的注意力特征。對(duì)于一個(gè)包含N條實(shí)例的集合,計(jì)算針對(duì)遠(yuǎn)程監(jiān)督標(biāo)簽的第k層關(guān)系集合的特征向量rk,如式(4),其中“·”表示點(diǎn)乘。為集合中第i條句子在第k層關(guān)系集合的重要性權(quán)重,如式(5)。
其中:A為權(quán)重矩陣;qk為Rk中關(guān)系的查詢向量。最后,將總共k層的特征如式(6)串聯(lián):
其中r表示集合的特征向量。
圖3是HATT根據(jù)關(guān)系層次抽取特征的過(guò)程,對(duì)關(guān)系標(biāo)簽的層次逐層進(jìn)行有效實(shí)例的關(guān)注,能夠加強(qiáng)網(wǎng)絡(luò)對(duì)文本信息的表達(dá)能力,抽取更加豐富的集合語(yǔ)義特征。
圖3 HATTFig.3 HATT
遠(yuǎn)程監(jiān)督數(shù)據(jù)集的噪聲為以下幾個(gè)方面:首先,包含大量NA 標(biāo)簽的集合,但實(shí)際較多實(shí)例存在有效關(guān)系信息。其次,MIL 集合中大多數(shù)實(shí)例實(shí)際上表達(dá)的關(guān)系信息與關(guān)系標(biāo)簽不符合。最后,集合僅有一個(gè)實(shí)例且關(guān)系標(biāo)簽可能錯(cuò)誤。對(duì)此,本文提出了動(dòng)態(tài)標(biāo)簽方法,在訓(xùn)練期間根據(jù)集合特征信息之間的關(guān)系類別相似性決定是否需要生成新的標(biāo)簽代替原來(lái)的遠(yuǎn)程監(jiān)督標(biāo)簽,以減少錯(cuò)誤標(biāo)注對(duì)關(guān)系抽取過(guò)程的影響。
對(duì)于T組集合,根據(jù)第i組集合特征向量ri計(jì)算其關(guān)系得分向量Si,定義如式(7)。通過(guò)關(guān)系權(quán)重矩陣M將集合特征映射到Ro維,其中,o為關(guān)系類別數(shù)目,Si向量則代表集合i對(duì)應(yīng)于每一類關(guān)系的得分。
由評(píng)分函數(shù)決定集合i的動(dòng)態(tài)標(biāo)簽熱向量,如式(8)~(9)所示:
式(8)中:argmax 函數(shù)計(jì)算索引值Ii,這里索引代表關(guān)系類別。式(9)生成動(dòng)態(tài)標(biāo)簽的熱向量(one-hot)表示,以替代遠(yuǎn)程監(jiān)督Li。
由式(8),組成評(píng)分函數(shù)的兩部分如下:第一部分,代表集合之間綜合關(guān)系類別相似性;第二部分,代表集合遠(yuǎn)程監(jiān)督標(biāo)簽的可信度。兩部分組成一個(gè)綜合表示向量,取最大值的索引Ii,該索引代表一個(gè)關(guān)系類別,生成新的動(dòng)態(tài)標(biāo)簽。如果與遠(yuǎn)程監(jiān)督標(biāo)簽相同,說(shuō)明集合暫時(shí)不需要替換標(biāo)簽;反之,說(shuō)明集合的標(biāo)簽需要被替換為。兩部分共同決定集合的動(dòng)態(tài)標(biāo)簽,既考慮了遠(yuǎn)程監(jiān)督標(biāo)簽的影響,又加入了關(guān)系類別相似性特征對(duì)遠(yuǎn)程監(jiān)督標(biāo)簽的限制。訓(xùn)練過(guò)程中不斷生成新的標(biāo)簽,直至收斂。
第一部分的關(guān)系類別相似性計(jì)算過(guò)程如下。分析集合關(guān)系得分向量,在訓(xùn)練過(guò)程中,擁有相同關(guān)系標(biāo)簽的集合,其關(guān)系特征存在相似性。根據(jù)自注意力機(jī)制能夠解決長(zhǎng)距離依賴學(xué)習(xí)的思想,計(jì)算任意兩兩集合之間的關(guān)系類別相似性,并得到相似性權(quán)重值a(Si,Sj),根據(jù)a(Si,Sj)大小決定與集合i相似的集合,選擇集合的遠(yuǎn)程監(jiān)督標(biāo)簽作為可能待產(chǎn)生的新標(biāo)簽,以改善集合的標(biāo)簽噪聲問(wèn)題。由此,存在一組集合的關(guān)系得分向量Si,通過(guò)內(nèi)積函數(shù)Ys(Si,Sj)計(jì)算與其他集合之間相似性,并通過(guò)Softmax 得到集合之間的相似性權(quán)重值a(Si,Sj),代表任意集合i與j之間的相似性,如式(10)所示。
其中:權(quán)重a(Si,Sj)越大,表明集合i與集合j之間的關(guān)系類別越相似;T為當(dāng)前集合的個(gè)數(shù)。
根據(jù)a(Si,Sj)計(jì)算集合i屬于某種關(guān)系類別的可能性。進(jìn)一步,將其累加求和得到集合i的綜合相似性表示向量sim(Si),如式(11):
其中,Li為遠(yuǎn)程監(jiān)督標(biāo)簽熱向量,該部分首次將標(biāo)簽信息作為特征,計(jì)算集合i與其他集合的相似程度。由于數(shù)據(jù)集中較多集合的標(biāo)簽為NA,可能導(dǎo)致生成動(dòng)態(tài)標(biāo)簽時(shí)更偏向NA標(biāo)簽,所以屏蔽sim(Si)中NA 標(biāo)簽以避免對(duì)生成動(dòng)態(tài)標(biāo)簽過(guò)程的影響。由于sim(Si)包含集合i與其他集合的關(guān)系類別相似性特征,通過(guò)sim(Si)的最大值的索引作為可能待產(chǎn)生的新標(biāo)簽。
第二部分為遠(yuǎn)程監(jiān)督標(biāo)簽的可信度,分為兩個(gè)子部分(前者和后者)。前者Si為集合i的關(guān)系得分向量;后者Li為遠(yuǎn)程監(jiān)督標(biāo)簽熱向量。兩者求和判斷前者與后者的最大值索引是否相同,以判斷關(guān)系類別得分與遠(yuǎn)程監(jiān)督標(biāo)簽代表的關(guān)系類別是否相同。若Si與遠(yuǎn)程監(jiān)督標(biāo)簽表示關(guān)系相同,則信任遠(yuǎn)程監(jiān)督標(biāo)簽,此部分將對(duì)關(guān)系標(biāo)簽不作調(diào)整;若不同,則削弱遠(yuǎn)程監(jiān)督標(biāo)簽的影響,并增加關(guān)系得分Si代表的關(guān)系標(biāo)簽可能性,對(duì)待產(chǎn)生的動(dòng)態(tài)標(biāo)簽起促進(jìn)作用。
圖4為標(biāo)簽調(diào)整過(guò)程,其中:S代表集合特征向量,圓圈表示關(guān)系類別,顏色深淺表示屬于某種關(guān)系的可能性,L代表遠(yuǎn)程監(jiān)督關(guān)系標(biāo)簽。以集合S4為例,當(dāng)根據(jù)類別相似性語(yǔ)義生成一個(gè)新標(biāo)簽,且關(guān)系得分S4與遠(yuǎn)程監(jiān)督標(biāo)簽的關(guān)系類別不同時(shí),集合S4的遠(yuǎn)程監(jiān)督標(biāo)簽L4被替換為,說(shuō)明集合S4遠(yuǎn)程監(jiān)督標(biāo)簽可能錯(cuò)誤,可能與集合S1和S3更相似。替換完成后,以訓(xùn)練模型參數(shù)。
圖4 生成動(dòng)態(tài)標(biāo)簽的過(guò)程Fig.4 Process of generating dynamic label
由式(8)的兩部分綜合表示共同決定是否產(chǎn)生新的動(dòng)態(tài)標(biāo)簽。新生成的動(dòng)態(tài)標(biāo)簽作為訓(xùn)練時(shí)的標(biāo)簽,并且動(dòng)態(tài)標(biāo)簽可能在訓(xùn)練過(guò)程中進(jìn)行不斷的調(diào)整,以更新HATT 關(guān)注集合中有效實(shí)例。綜上,不斷進(jìn)行的調(diào)整使得所有的集合都擁有更多的有效實(shí)例,以達(dá)到為遠(yuǎn)程監(jiān)督數(shù)據(jù)集降噪的目的。
下面針對(duì)SL-HATT模型進(jìn)行詳細(xì)介紹:
1)將集合文本單詞以Skip-Gram 詞向量和位置向量表示為w,將句子矩陣表示為W。
2)添加MIL層,將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)實(shí)體對(duì)集合,將關(guān)系標(biāo)簽直接賦予集合。
3)添加CNN 層和最大池化層,利用式(2)~(3)得到集合中的句子特征矩陣x和句子特征向量h。
4)引入HATT 層,利用式(4)~(6)將集合中的句子以標(biāo)簽層次關(guān)聯(lián)的注意力機(jī)制,抽取到集合中所有句子的綜合關(guān)系類別特征、集合特征向量r。
5)在少許訓(xùn)練次數(shù)后,添加SL 方法層,利用式(7)~(11)學(xué)習(xí)集合之間的關(guān)系類別相似性特征,以及判斷集合特征與遠(yuǎn)程監(jiān)督標(biāo)簽特征是否相同,決定是否需要生成新的標(biāo)簽熱向量Lsl。
6)定義模型損失函數(shù),通過(guò)更新成參數(shù)矩陣,達(dá)到優(yōu)化模型的效果。
本文模型訓(xùn)練的優(yōu)化算法采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法,損失函數(shù)為交叉熵代價(jià)函數(shù)。同時(shí)為了避免過(guò)擬合問(wèn)題,加入了L2正則化。給定實(shí)體對(duì)集合,以及相應(yīng)的遠(yuǎn)程監(jiān)督關(guān)系,將損失函數(shù)定義如下,
其中:T集合數(shù)目;是動(dòng)態(tài)標(biāo)簽;ri是集合i的特征向量;λ是正則化參數(shù);θ為關(guān)系抽取模型中的訓(xùn)練參數(shù)。
本文采用由遠(yuǎn)程監(jiān)督方法生成的紐約時(shí)報(bào)(New York Times,NYT)數(shù)據(jù)集。其中,關(guān)系標(biāo)簽有53 種,包含無(wú)用關(guān)系NA。訓(xùn)練集有570 088 條句子、293 162 個(gè)實(shí)體對(duì)集合,測(cè)試集有172 448條句子、96 678個(gè)實(shí)體對(duì)集合。為了保證實(shí)驗(yàn)的準(zhǔn)確性,測(cè)試集由人工手動(dòng)標(biāo)注。在訓(xùn)練和測(cè)試集中,將超過(guò)120個(gè)單詞的句子截?cái)酁?20個(gè)單詞[13]。
本文使用交叉驗(yàn)證來(lái)確定模型的參數(shù),由于SL 方法使用與基線模型相同的實(shí)體對(duì)集合,并且應(yīng)用文獻(xiàn)[13]的HATT網(wǎng)絡(luò)結(jié)構(gòu)。為了公正地比較SL-HATT 模型與基線模型,本文采用文獻(xiàn)[13]實(shí)驗(yàn)的大部分參數(shù),與文獻(xiàn)[7]使用相同的CNN編碼器及參數(shù)、預(yù)訓(xùn)練的詞向量,如表1所示。由于SL方法對(duì)與HATT 結(jié)合的時(shí)間較敏感,實(shí)驗(yàn)過(guò)程中單獨(dú)測(cè)試其關(guān)鍵參數(shù)全局步數(shù)(global_step)。
本文分別采用近年來(lái)幾種經(jīng)典的關(guān)系抽取模型與SLHATT模型進(jìn)行比較,相應(yīng)的模型如下。
1)PCNN+ATT(Piecewise CNN ATTention)[6]是使用分段卷積神經(jīng)網(wǎng)絡(luò)結(jié)合普通注意力機(jī)制的關(guān)系抽取模型。
2)PCNN-ONE+Soft是基于軟標(biāo)簽方法同時(shí)只關(guān)注集合中的一個(gè)句子的注意力模型[16]。
3)PCNN-ATT+Soft 是基于軟標(biāo)簽的注意力模型[16],該模型使用分段卷積作為句子編碼器,結(jié)合注意力機(jī)制,首次提出軟標(biāo)簽方法,提出相對(duì)簡(jiǎn)單的評(píng)分函數(shù)調(diào)整關(guān)系標(biāo)簽。
4)RL(Reinforcement Learning)是一種利用強(qiáng)化學(xué)習(xí)在遠(yuǎn)程監(jiān)督數(shù)據(jù)中進(jìn)行句子關(guān)系抽取的模型[14]。在實(shí)驗(yàn)中,都采用了相同的常規(guī)參數(shù)以統(tǒng)一實(shí)驗(yàn)變量來(lái)獲得更準(zhǔn)確的實(shí)驗(yàn)結(jié)果。
5)CNN+HATT 是基于標(biāo)簽關(guān)系分層注意力機(jī)制的模型[13],該方法是基于以層次劃分關(guān)系標(biāo)簽的注意力機(jī)制,相較于大多數(shù)現(xiàn)有方法中每種關(guān)系都是彼此獨(dú)立的,該方法的關(guān)系層次結(jié)構(gòu)很好地揭示了關(guān)系之間的豐富關(guān)聯(lián)。
表1 實(shí)驗(yàn)參數(shù)Tab.1 Experimental parameters
本文采用準(zhǔn)確率(Precision,P)、微觀平均F1分?jǐn)?shù)(Micro)和宏觀平均F1 分?jǐn)?shù)(Macro)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。Micro 是一種對(duì)數(shù)據(jù)集中的每一個(gè)實(shí)例不分類別進(jìn)行統(tǒng)計(jì),從而建立全局混淆矩陣的評(píng)價(jià)指標(biāo)。Macro 則是先對(duì)每一個(gè)類統(tǒng)計(jì)指標(biāo)值,然后再對(duì)所有類求算術(shù)平均值。
3.3.1 SL方法global_step討論
本節(jié)中,對(duì)模型中一項(xiàng)重要參數(shù)global_step做了中間實(shí)驗(yàn)來(lái)討論其取值。由于SL-HATT 模型動(dòng)態(tài)產(chǎn)生新的標(biāo)簽具有一定的隨機(jī)性。為了減少隨機(jī)性,且使模型擁有基本的關(guān)系抽取初始權(quán)重,本文設(shè)置實(shí)驗(yàn),在開(kāi)始訓(xùn)練一定次數(shù)的global_step后,SL方法開(kāi)始動(dòng)態(tài)地調(diào)整關(guān)系標(biāo)簽。
如圖5所示,由于global_step次數(shù)設(shè)置太大會(huì)導(dǎo)致噪聲標(biāo)簽在訓(xùn)練過(guò)程的累計(jì)影響太大,本文取global_step=[1000,3 000,5 000,…,10 000],根據(jù)實(shí)驗(yàn)得出,step_5000時(shí)模型精確率-召回率(Precision-Recall,P-R)曲線表現(xiàn)較好,故本文設(shè)置在第5 000次global_step時(shí),引入SL方法較適宜。由于第10 000次global_step時(shí)模型抽取能力有所下降,文本不再繼續(xù)對(duì)后面的global_step進(jìn)行討論。
圖5 不同global_step次數(shù)比較Fig.5 Comparison of different global_step times
3.3.2 實(shí)驗(yàn)效果及模型性能分析
本節(jié)中,主要對(duì)本文模型的性能進(jìn)行詳細(xì)的分析比較。分別將本文提出的SL-HATT 模型與其他關(guān)系抽取模型比較,其P-R 曲線如圖6 所示。由圖6 可以看出,本文提出的SL 方法,使得SL-HATT 模型整體性能在P-R 曲線中有著較為明顯的優(yōu)勢(shì)。這反映出本文模型對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集中噪聲標(biāo)簽?zāi)苡行?dòng)態(tài)糾正,提取到更加豐富有用的特征信息,從而提升模型的整體效果。
圖6 不同模型的P-R曲線Fig.6 P-R curves of different models
如圖6 所示,本文提出的SL-HATT 模型在CNN+HATT 模型基礎(chǔ)之上加入了SL方法,相較于CNN+HATT模型關(guān)系抽取能力更強(qiáng),表明基于關(guān)系類別相似性的動(dòng)態(tài)標(biāo)簽方法是可行且有效的,對(duì)遠(yuǎn)程監(jiān)督標(biāo)簽動(dòng)態(tài)糾正實(shí)現(xiàn)了標(biāo)簽噪聲的有效抑制,加強(qiáng)了關(guān)系抽取能力。
特別地,將本文提出的SL-HATT 模型與PCNN-ATT+Soft模型進(jìn)行比較。前者根據(jù)評(píng)分函數(shù)決定集合特征之間的相似性,選擇與之相似性最高集合的遠(yuǎn)程監(jiān)督標(biāo)簽。后者僅根據(jù)集合關(guān)系特征向量與集合遠(yuǎn)程監(jiān)督標(biāo)簽的置信度決定是否需要更新標(biāo)簽,缺少集合之間的相似性計(jì)算,本文認(rèn)為根據(jù)集合之間的關(guān)系類別相似性獲取的特征更準(zhǔn)確,便于關(guān)系標(biāo)簽調(diào)整。特別的,由于SL方法與HATT的組合,本文模型即使使用簡(jiǎn)單的句子編碼器,依然取得了較好的關(guān)系抽取效果,表明關(guān)系標(biāo)簽擁有豐富的特征信息,有助于集合特征抽取。
由于更加關(guān)注那些排名靠前的結(jié)果的性能,研究召回率為0.1、0.2、0.3及其平均值時(shí)不同模型的精確率,結(jié)果如表2所示。由表2 可以看出:一般的模型,在提高召回率的同時(shí),會(huì)伴隨著精確率的急劇下降,而SL 方法則同時(shí)兼顧了精確率與召回率,表明本文提出的方法對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的噪聲處理使得模型的魯棒性更強(qiáng)。
表2 不同召回率下不同模型的精確率Tab.2 Precisions of different models under different recalls
由于數(shù)據(jù)集中各個(gè)類的分布不平衡,本文使用Macro 和Micro 評(píng)價(jià)模型性能。由表3 可知,本文模型的Micro 分?jǐn)?shù)以及Macro 分?jǐn)?shù)相較基線模型(PCNN+ATT)有5個(gè)百分點(diǎn)和3.3個(gè)百分點(diǎn)的提升,相較CNN+HATT 模型有1.3 個(gè)百分點(diǎn)和1.9 個(gè)百分點(diǎn)的提升,表明標(biāo)簽調(diào)整策略對(duì)模型整體性性能發(fā)揮了積極的影響。特別的,據(jù)統(tǒng)計(jì),在測(cè)試數(shù)據(jù)集中,有74 857個(gè)集合只對(duì)應(yīng)一個(gè)句子,約占所有集合的3/4[7],標(biāo)簽錯(cuò)誤直接影響關(guān)系抽取的效果。因此,對(duì)于僅含有一個(gè)實(shí)例的集合,SL方法尤其重要。
表3 微觀平均分與宏觀平均分 單位:%Tab.3 Mean values of Micro and Macro unit:%
由于SL 方法動(dòng)態(tài)產(chǎn)生新的標(biāo)簽,可能存在實(shí)例的關(guān)系表達(dá)方式與常規(guī)關(guān)系模式有所不同,產(chǎn)生錯(cuò)誤動(dòng)態(tài)標(biāo)簽的情況。對(duì)此進(jìn)行以下分析:首先,數(shù)據(jù)集中噪聲標(biāo)簽遠(yuǎn)少于正確標(biāo)注的標(biāo)簽。其次,在訓(xùn)練過(guò)程中根據(jù)集合的關(guān)系得分和遠(yuǎn)程監(jiān)督標(biāo)簽生成動(dòng)態(tài)標(biāo)簽,隨著訓(xùn)練收斂過(guò)程,產(chǎn)生錯(cuò)誤標(biāo)簽的可能性會(huì)越來(lái)越小。最后,本文在訓(xùn)練開(kāi)始的5 000 次global_step時(shí)開(kāi)始引入SL 方法,試圖減少動(dòng)態(tài)標(biāo)簽的隨機(jī)性。根據(jù)實(shí)驗(yàn)結(jié)果來(lái)看,本文認(rèn)為在訓(xùn)練過(guò)程中對(duì)關(guān)系事實(shí)進(jìn)行較小的錯(cuò)誤更正不會(huì)對(duì)整體性能產(chǎn)生太大影響。
綜上,SL-HATT 模型的優(yōu)勢(shì)在于兩個(gè)方面:首先,SL 方法改善了以往訓(xùn)練時(shí)使用硬標(biāo)簽的方式,根據(jù)集合關(guān)系類別相似性信息與遠(yuǎn)程監(jiān)督標(biāo)簽相互對(duì)抗,決定是否調(diào)整關(guān)系標(biāo)簽,最終使得集合獲得更合適的關(guān)系標(biāo)簽。其次,SL 方法作用于HATT,不僅HATT 抽取關(guān)系之間的豐富關(guān)聯(lián)性,而且促進(jìn)HATT 動(dòng)態(tài)地重新關(guān)注集合中的實(shí)例,使集合中包含更準(zhǔn)確的關(guān)鍵詞特征和有效實(shí)例特征。二者共同作用于關(guān)系標(biāo)簽的層面,共同加強(qiáng)關(guān)系抽取能力。
本文針對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集噪聲較多的問(wèn)題,提出了一種根據(jù)關(guān)系類別相似性產(chǎn)生動(dòng)態(tài)標(biāo)簽的方法。將本文提出的動(dòng)態(tài)標(biāo)簽方法作用于分層注意力機(jī)制,二者同時(shí)作用于關(guān)系標(biāo)簽的層面,不僅抽取關(guān)系之間豐富的關(guān)聯(lián)性,而且根據(jù)關(guān)系之間的相似性動(dòng)態(tài)調(diào)整關(guān)系標(biāo)簽,更新注意力機(jī)制關(guān)注有效實(shí)例,抽取更全面以及豐富的句子表征,明顯加強(qiáng)了模型的關(guān)系抽取能力。實(shí)驗(yàn)表明,SL-HATT 模型相較以往關(guān)系抽取模型性能更優(yōu),即使是簡(jiǎn)單的句子編碼器也能達(dá)到較好的關(guān)系抽取效果。在以后的研究中,我們將繼續(xù)在句子編碼器方面進(jìn)一步優(yōu)化SL-HATT模型。