基于動(dòng)態(tài)標(biāo)簽的關(guān)系抽取方法

2020-06-20 12:00薛露，宋威

計(jì)算機(jī)應(yīng)用 2020年6期

薛露，宋威

（江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院，江蘇無(wú)錫 214122）

（?通信作者電子郵箱songwei@jiangnan.edu.cn）

0 引言

關(guān)系抽?。≧elation Extraction，RE）旨在根據(jù)純文本預(yù)測(cè)關(guān)系事實(shí)，由于抽取效果的好壞直接影響后續(xù)任務(wù)的準(zhǔn)確率，這使得其在推薦系統(tǒng)、問(wèn)答系統(tǒng)、智能搜索等自然語(yǔ)言應(yīng)用領(lǐng)域占據(jù)重要地位［1］。傳統(tǒng)的監(jiān)督RE 模型缺乏標(biāo)注的訓(xùn)練數(shù)據(jù)，手動(dòng)標(biāo)記訓(xùn)練數(shù)據(jù)既耗時(shí)且成本高。為此，Mintz等［2］提出了遠(yuǎn)程監(jiān)督，通過(guò)將純文本中的實(shí)體對(duì)與知識(shí)庫(kù)（Knowledge Base，KB）帶有關(guān)系標(biāo)記的實(shí)體對(duì)直接對(duì)齊標(biāo)注自動(dòng)生成訓(xùn)練數(shù)據(jù)。若KB中某個(gè)實(shí)體對(duì)之間無(wú)關(guān)系，則將待標(biāo)注的句子標(biāo)記為負(fù)實(shí)例（Negative Instance，NA）。例如，“Asmara”“Eritrea”在KB 中存在capital 的關(guān)系，則包含這兩個(gè)實(shí)體的非結(jié)構(gòu)化文本“I eventually fly from Nairobi to Dubai to Asmara，the capital of Eritrea.”可以作為模型訓(xùn)練的有效實(shí)例。但是，當(dāng)“Asmara”與“Eritrea”同時(shí)存在一個(gè)句子中并非表達(dá)capital 關(guān)系時(shí)，這種沒(méi)有考慮實(shí)體對(duì)具體語(yǔ)義背景的標(biāo)注方法產(chǎn)生了大量噪聲。為了減輕錯(cuò)誤的標(biāo)簽問(wèn)題，Zeng等［3］首先將基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型運(yùn)用于此項(xiàng)任務(wù)，與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比取得了顯著的進(jìn)步。

雖然研究者已經(jīng)做出許多努力，而大多數(shù)現(xiàn)有方法在訓(xùn)練過(guò)程中使用遠(yuǎn)程監(jiān)督標(biāo)簽，導(dǎo)致不能準(zhǔn)確地獲取關(guān)系特征信息，不能完全解決錯(cuò)誤的標(biāo)注問(wèn)題。針對(duì)以上問(wèn)題，本文提出了動(dòng)態(tài)標(biāo)簽方法，可以通過(guò)某些實(shí)例與潛在正確標(biāo)注實(shí)例之間的關(guān)系類別相似性評(píng)價(jià)遠(yuǎn)程監(jiān)督標(biāo)簽的可靠性，在訓(xùn)練階段動(dòng)態(tài)糾正錯(cuò)誤的遠(yuǎn)程監(jiān)督（Distant Supervision，DS）標(biāo)簽，從而提高關(guān)系抽取的準(zhǔn)確性。

1 相關(guān)工作

近年來(lái)學(xué)者們已經(jīng)提出許多緩解遠(yuǎn)程監(jiān)督數(shù)據(jù)集噪聲的方法。Riedel 等［4］和Hoffmann 等［5］提出多實(shí)例學(xué)習(xí)（Multi-Instances Learning，MIL），如圖1 所示。該方法將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)實(shí)體對(duì)集合，將關(guān)系標(biāo)簽直接賦予集合，并提出以下假設(shè)，如果實(shí)體對(duì)之間存在某種關(guān)系，則集合中至少一個(gè)句子必須反映該關(guān)系，同時(shí)刻畫一個(gè)實(shí)體對(duì)可能存在多種關(guān)系的情況。

圖1 遠(yuǎn)程監(jiān)督集合Fig.1 Distant supervision set

注意力機(jī)制從眾多信息中選擇出特定目標(biāo)的關(guān)鍵信息。在MIL 的基礎(chǔ)之上，Zeng 等［6］引入注意力機(jī)制從集合中選擇一個(gè)最有效的實(shí)例作為集合的特征，但此方法導(dǎo)致大多數(shù)有效實(shí)例被忽略，損失了大量有效信息。Lin 等［7］使用注意力機(jī)制將集合中所有實(shí)例按照重要程度綜合表示為集合的特征，緩解大量有效信息被丟失的問(wèn)題。Zhou等［8］提出層次注意力機(jī)制，首先對(duì)集合的所有句子進(jìn)行句子級(jí)別關(guān)注選擇最相關(guān)的句子，然后采用單詞級(jí)別的關(guān)注抽取區(qū)分關(guān)系類別的關(guān)鍵單詞，構(gòu)建句子特征表示，并聚合這些句子特征為集合特征。同樣的，Qu 等［9］提出單詞級(jí)別的注意力機(jī)制來(lái)區(qū)分句子中每個(gè)單詞的重要性，從而增加了這些關(guān)鍵單詞的注意力權(quán)重，并且將目標(biāo)實(shí)體詞向量的語(yǔ)義信息作為補(bǔ)充特征，進(jìn)一步豐富集合特征；相似的，Ji等［10］將實(shí)體描述信息作為額外的背景知識(shí)補(bǔ)充到模型中。李浩等［11］提出了一種基于多層次注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取模型。該模型通過(guò)雙向門控神經(jīng)網(wǎng)絡(luò)獲取句子特征；其次，通過(guò)引入詞語(yǔ)層、句子層、關(guān)系層的注意力機(jī)制，在學(xué)習(xí)不同關(guān)系之間聯(lián)系的同時(shí)，減少錯(cuò)誤標(biāo)簽。馮建周等［12］設(shè)計(jì)了一種新的注意力模型，該模型構(gòu)建排序的組合句子向量，使模型徹底地拋棄噪聲句子，而不是讓噪聲句子以一個(gè)較低權(quán)重參與計(jì)算。Han 等［13］根據(jù)關(guān)系標(biāo)簽的層次結(jié)構(gòu)，關(guān)注關(guān)系之間豐富的語(yǔ)義信息，在關(guān)系標(biāo)簽的每一層結(jié)構(gòu)上引用注意力機(jī)制，從而抽取豐富的層次結(jié)構(gòu)表示集合特征。這些模型的提出表明了注意力機(jī)制處理特征信息的有效性。為了進(jìn)一步緩解噪聲問(wèn)題，Zeng 等［14］引入強(qiáng)化學(xué)習(xí)概念，通過(guò)獎(jiǎng)懲機(jī)制區(qū)分句子是否是有效實(shí)例。Wu 等［15］采用對(duì)抗訓(xùn)練機(jī)制，使模型在訓(xùn)練過(guò)程中對(duì)噪聲更加敏感，增強(qiáng)模型的魯棒性。Liu等［16］提出一種基于置信度的軟標(biāo)簽方法，該方法利用來(lái)自正確標(biāo)記集合的特征，在訓(xùn)練過(guò)程中動(dòng)態(tài)地糾正錯(cuò)誤的標(biāo)簽。Ru 等［17］則從語(yǔ)義角度出發(fā)，使用Jaccard 算法選擇一個(gè)核心依賴短語(yǔ)來(lái)表示句子關(guān)系類別，以過(guò)濾遠(yuǎn)程監(jiān)督標(biāo)簽噪聲。以上的關(guān)系抽取模型，雖對(duì)關(guān)系抽取能力有一定提升，但是大多數(shù)現(xiàn)有方法在訓(xùn)練過(guò)程中使用遠(yuǎn)程監(jiān)督標(biāo)簽，導(dǎo)致不能準(zhǔn)確地獲取關(guān)系特征信息。

通過(guò)分析MIL 的集合得出：1）大量的集合標(biāo)注了NA 標(biāo)簽，但實(shí)際較多實(shí)例存在有效關(guān)系信息。2）集合中的所有實(shí)例或者大多數(shù)實(shí)例實(shí)際上表達(dá)的關(guān)系信息與關(guān)系標(biāo)簽不符合。3）較多集合只有一個(gè)實(shí)例，且關(guān)系標(biāo)簽可能錯(cuò)誤。由于大多數(shù)現(xiàn)有方法在訓(xùn)練過(guò)程中使用的是硬標(biāo)簽，潛在的有效實(shí)例被忽略，仍然存在噪聲問(wèn)題影響模型關(guān)系抽取能力。

針對(duì)上述問(wèn)題，本文提出了一種可以根據(jù)關(guān)系類別相似性產(chǎn)生動(dòng)態(tài)標(biāo)簽（Similarity dynamic Label，SL）的方法。本文將提出的SL 方法作用于分層注意力機(jī)制（Hierarchical ATTention，HATT）［13］，提出基于動(dòng)態(tài)標(biāo)簽的分層注意力機(jī)制（HATT based on SL，SL-HATT）RE模型，以驗(yàn)證動(dòng)態(tài)標(biāo)簽的調(diào)整對(duì)RE 產(chǎn)生積極的影響。首先，根據(jù)HATT 對(duì)關(guān)系標(biāo)簽（例如/people/person/nationality）的層次逐層抽取集合的特征表示。其次，動(dòng)態(tài)標(biāo)簽方法計(jì)算集合特征之間的關(guān)系類別相似性，并且結(jié)合遠(yuǎn)程監(jiān)督標(biāo)簽的可信度，共同評(píng)價(jià)集合的關(guān)系標(biāo)簽是否標(biāo)注正確，若標(biāo)注錯(cuò)誤，則根據(jù)評(píng)分函數(shù)產(chǎn)生新的動(dòng)態(tài)標(biāo)簽，代替原來(lái)的遠(yuǎn)程監(jiān)督標(biāo)簽作為訓(xùn)練時(shí)的標(biāo)簽，并且動(dòng)態(tài)標(biāo)簽在訓(xùn)練過(guò)程中不斷調(diào)整，以解決集合的噪聲標(biāo)簽問(wèn)題。最后，在訓(xùn)練過(guò)程中根據(jù)動(dòng)態(tài)標(biāo)簽的調(diào)整，更新HATT 關(guān)注集合的有效實(shí)例，以抽取更豐富的集合關(guān)鍵詞特征。

SL方法與HATT的結(jié)合的優(yōu)勢(shì)在于兩個(gè)方面：一方面，SL方法首次提出通過(guò)關(guān)系類別相似性調(diào)整集合的標(biāo)簽。另一方面，HATT 根據(jù)新的標(biāo)簽，更新關(guān)注集合中有效實(shí)例，使得有效實(shí)例增多，以便于抽取區(qū)分關(guān)系類別的關(guān)鍵詞特征信息。并且，HATT 注意力機(jī)制主要對(duì)關(guān)系標(biāo)簽之間的層次關(guān)聯(lián)建模，抽取了關(guān)系之間的相關(guān)性信息，使得關(guān)系標(biāo)簽之間不以獨(dú)立的方式存在。二者共同作用于關(guān)系標(biāo)簽的層面，抽取關(guān)系之間豐富關(guān)聯(lián)性的同時(shí)，根據(jù)關(guān)系之間的相似性調(diào)整錯(cuò)誤標(biāo)簽，緩解集合的錯(cuò)誤標(biāo)簽對(duì)關(guān)系抽取整個(gè)過(guò)程帶來(lái)的影響?？偟膩?lái)說(shuō)，從兩個(gè)層面共同作用緩解遠(yuǎn)程監(jiān)督的噪聲問(wèn)題。特別的，在多實(shí)例學(xué)習(xí)方法的基礎(chǔ)之上，正確標(biāo)注的標(biāo)簽遠(yuǎn)多于錯(cuò)誤標(biāo)簽，動(dòng)態(tài)標(biāo)簽思想得以實(shí)現(xiàn)［16］。

2 SL-HATT模型

本文提出了一種根據(jù)關(guān)系類別相似性產(chǎn)生動(dòng)態(tài)標(biāo)簽的方法。在訓(xùn)練過(guò)程中代替遠(yuǎn)程監(jiān)督標(biāo)簽，減弱錯(cuò)誤的遠(yuǎn)程監(jiān)督標(biāo)簽對(duì)關(guān)系抽取能力的影響。為了驗(yàn)證本文提出的方法，將SL方法作用于HATT，提出SL-HATT模型，通過(guò)同時(shí)對(duì)關(guān)系標(biāo)簽進(jìn)行動(dòng)態(tài)調(diào)整來(lái)學(xué)習(xí)更充足的集合關(guān)系特征信息。圖2 是SL-HATT 網(wǎng)絡(luò)結(jié)構(gòu)框架，由以下兩部分組成：1）HATT 關(guān)系抽取模型；2）SL方法。

2.1 句子編碼器以及HATT

早期的RE 方法主要依賴自然語(yǔ)言處理（Natural Language Processing，NLP）工具提取文本特征。近年來(lái)，神經(jīng)網(wǎng)絡(luò)因具有更準(zhǔn)確地捕獲文本特征的能力而被廣泛用于RE。

圖2 SL-HATT網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.2 SL-HATT network structural framework

在NLP 任務(wù)中，通常以詞向量的形式作為神經(jīng)網(wǎng)絡(luò)的輸入。詞向量是詞的分布式表示，具有維度低、語(yǔ)義信息豐富的優(yōu)點(diǎn)。本文采用Skip-Gram 方法通過(guò)大型語(yǔ)料庫(kù)訓(xùn)練得到的50 維的詞向量we作為輸入，we∈En?KW，E為詞向量矩陣，n為詞典長(zhǎng)度，KW為詞向量維度，其中意思相近的詞將被映射到向量空間中相近的位置，保證模型輸入帶有單詞詞義信息。同時(shí)，通過(guò)加入每個(gè)單詞與實(shí)體在句子中的相對(duì)位置信息，可以對(duì)句子中不同的單詞與實(shí)體之間的相對(duì)位置進(jìn)行分布式表示［3］，提升關(guān)系抽取的效果。位置向量表示為wp，每個(gè)詞的向量由we和wp組成，定義為w。其中，對(duì)于長(zhǎng)度為m的句子實(shí)例，有式（1）：

為了便于與其他關(guān)系抽取模型比較，本文選擇卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）［3］作為句子編碼器，將實(shí)例矩陣W編碼為句子的隱藏層特征矩陣x，如式（2）。然后，將最大池化層作用于卷積層輸出的x，以得到最終句子特征向量h，如式（3）所示。

由于關(guān)系標(biāo)簽在其層次結(jié)構(gòu)上具有相關(guān)性，如/people/person/nationality 和/people/person/ethnicity，高層次（例如people）的關(guān)系更加通用，低層次（例如nationality）的關(guān)系信息更特殊。Han 等［13］提出，給定遠(yuǎn)程監(jiān)督關(guān)系標(biāo)簽集R，通過(guò)關(guān)系層次生成關(guān)系層次集合{R1，R2，…，Rk}，其中k為關(guān)系層數(shù)，Rk為當(dāng)前層次的關(guān)系集合。在關(guān)系層次結(jié)構(gòu)的每一層上對(duì)集合進(jìn)行注意力關(guān)注，以獲得相應(yīng)層次的注意力特征。對(duì)于一個(gè)包含N條實(shí)例的集合，計(jì)算針對(duì)遠(yuǎn)程監(jiān)督標(biāo)簽的第k層關(guān)系集合的特征向量rk，如式（4），其中“·”表示點(diǎn)乘。為集合中第i條句子在第k層關(guān)系集合的重要性權(quán)重，如式（5）。

其中：A為權(quán)重矩陣；qk為Rk中關(guān)系的查詢向量。最后，將總共k層的特征如式（6）串聯(lián)：

其中r表示集合的特征向量。

圖3是HATT根據(jù)關(guān)系層次抽取特征的過(guò)程，對(duì)關(guān)系標(biāo)簽的層次逐層進(jìn)行有效實(shí)例的關(guān)注，能夠加強(qiáng)網(wǎng)絡(luò)對(duì)文本信息的表達(dá)能力，抽取更加豐富的集合語(yǔ)義特征。

圖3 HATTFig.3 HATT

2.2 動(dòng)態(tài)標(biāo)簽方法

遠(yuǎn)程監(jiān)督數(shù)據(jù)集的噪聲為以下幾個(gè)方面：首先，包含大量NA 標(biāo)簽的集合，但實(shí)際較多實(shí)例存在有效關(guān)系信息。其次，MIL 集合中大多數(shù)實(shí)例實(shí)際上表達(dá)的關(guān)系信息與關(guān)系標(biāo)簽不符合。最后，集合僅有一個(gè)實(shí)例且關(guān)系標(biāo)簽可能錯(cuò)誤。對(duì)此，本文提出了動(dòng)態(tài)標(biāo)簽方法，在訓(xùn)練期間根據(jù)集合特征信息之間的關(guān)系類別相似性決定是否需要生成新的標(biāo)簽代替原來(lái)的遠(yuǎn)程監(jiān)督標(biāo)簽，以減少錯(cuò)誤標(biāo)注對(duì)關(guān)系抽取過(guò)程的影響。

對(duì)于T組集合，根據(jù)第i組集合特征向量ri計(jì)算其關(guān)系得分向量Si，定義如式（7）。通過(guò)關(guān)系權(quán)重矩陣M將集合特征映射到Ro維，其中，o為關(guān)系類別數(shù)目，Si向量則代表集合i對(duì)應(yīng)于每一類關(guān)系的得分。

由評(píng)分函數(shù)決定集合i的動(dòng)態(tài)標(biāo)簽熱向量，如式（8）～（9）所示：

式（8）中：argmax 函數(shù)計(jì)算索引值Ii，這里索引代表關(guān)系類別。式（9）生成動(dòng)態(tài)標(biāo)簽的熱向量（one-hot）表示，以替代遠(yuǎn)程監(jiān)督Li。

由式（8），組成評(píng)分函數(shù)的兩部分如下：第一部分，代表集合之間綜合關(guān)系類別相似性；第二部分，代表集合遠(yuǎn)程監(jiān)督標(biāo)簽的可信度。兩部分組成一個(gè)綜合表示向量，取最大值的索引Ii，該索引代表一個(gè)關(guān)系類別，生成新的動(dòng)態(tài)標(biāo)簽。如果與遠(yuǎn)程監(jiān)督標(biāo)簽相同，說(shuō)明集合暫時(shí)不需要替換標(biāo)簽；反之，說(shuō)明集合的標(biāo)簽需要被替換為。兩部分共同決定集合的動(dòng)態(tài)標(biāo)簽，既考慮了遠(yuǎn)程監(jiān)督標(biāo)簽的影響，又加入了關(guān)系類別相似性特征對(duì)遠(yuǎn)程監(jiān)督標(biāo)簽的限制。訓(xùn)練過(guò)程中不斷生成新的標(biāo)簽，直至收斂。

第一部分的關(guān)系類別相似性計(jì)算過(guò)程如下。分析集合關(guān)系得分向量，在訓(xùn)練過(guò)程中，擁有相同關(guān)系標(biāo)簽的集合，其關(guān)系特征存在相似性。根據(jù)自注意力機(jī)制能夠解決長(zhǎng)距離依賴學(xué)習(xí)的思想，計(jì)算任意兩兩集合之間的關(guān)系類別相似性，并得到相似性權(quán)重值a(Si，Sj)，根據(jù)a(Si，Sj)大小決定與集合i相似的集合，選擇集合的遠(yuǎn)程監(jiān)督標(biāo)簽作為可能待產(chǎn)生的新標(biāo)簽，以改善集合的標(biāo)簽噪聲問(wèn)題。由此，存在一組集合的關(guān)系得分向量Si，通過(guò)內(nèi)積函數(shù)Ys(Si，Sj)計(jì)算與其他集合之間相似性，并通過(guò)Softmax 得到集合之間的相似性權(quán)重值a(Si，Sj)，代表任意集合i與j之間的相似性，如式（10）所示。

其中：權(quán)重a(Si，Sj)越大，表明集合i與集合j之間的關(guān)系類別越相似；T為當(dāng)前集合的個(gè)數(shù)。

根據(jù)a(Si，Sj)計(jì)算集合i屬于某種關(guān)系類別的可能性。進(jìn)一步，將其累加求和得到集合i的綜合相似性表示向量sim(Si），如式（11）：

其中，Li為遠(yuǎn)程監(jiān)督標(biāo)簽熱向量，該部分首次將標(biāo)簽信息作為特征，計(jì)算集合i與其他集合的相似程度。由于數(shù)據(jù)集中較多集合的標(biāo)簽為NA，可能導(dǎo)致生成動(dòng)態(tài)標(biāo)簽時(shí)更偏向NA標(biāo)簽，所以屏蔽sim(Si)中NA 標(biāo)簽以避免對(duì)生成動(dòng)態(tài)標(biāo)簽過(guò)程的影響。由于sim(Si)包含集合i與其他集合的關(guān)系類別相似性特征，通過(guò)sim(Si)的最大值的索引作為可能待產(chǎn)生的新標(biāo)簽。

第二部分為遠(yuǎn)程監(jiān)督標(biāo)簽的可信度，分為兩個(gè)子部分（前者和后者）。前者Si為集合i的關(guān)系得分向量；后者Li為遠(yuǎn)程監(jiān)督標(biāo)簽熱向量。兩者求和判斷前者與后者的最大值索引是否相同，以判斷關(guān)系類別得分與遠(yuǎn)程監(jiān)督標(biāo)簽代表的關(guān)系類別是否相同。若Si與遠(yuǎn)程監(jiān)督標(biāo)簽表示關(guān)系相同，則信任遠(yuǎn)程監(jiān)督標(biāo)簽，此部分將對(duì)關(guān)系標(biāo)簽不作調(diào)整；若不同，則削弱遠(yuǎn)程監(jiān)督標(biāo)簽的影響，并增加關(guān)系得分Si代表的關(guān)系標(biāo)簽可能性，對(duì)待產(chǎn)生的動(dòng)態(tài)標(biāo)簽起促進(jìn)作用。

圖4為標(biāo)簽調(diào)整過(guò)程，其中：S代表集合特征向量，圓圈表示關(guān)系類別，顏色深淺表示屬于某種關(guān)系的可能性，L代表遠(yuǎn)程監(jiān)督關(guān)系標(biāo)簽。以集合S4為例，當(dāng)根據(jù)類別相似性語(yǔ)義生成一個(gè)新標(biāo)簽，且關(guān)系得分S4與遠(yuǎn)程監(jiān)督標(biāo)簽的關(guān)系類別不同時(shí)，集合S4的遠(yuǎn)程監(jiān)督標(biāo)簽L4被替換為，說(shuō)明集合S4遠(yuǎn)程監(jiān)督標(biāo)簽可能錯(cuò)誤，可能與集合S1和S3更相似。替換完成后，以訓(xùn)練模型參數(shù)。

圖4 生成動(dòng)態(tài)標(biāo)簽的過(guò)程Fig.4 Process of generating dynamic label

由式（8）的兩部分綜合表示共同決定是否產(chǎn)生新的動(dòng)態(tài)標(biāo)簽。新生成的動(dòng)態(tài)標(biāo)簽作為訓(xùn)練時(shí)的標(biāo)簽，并且動(dòng)態(tài)標(biāo)簽可能在訓(xùn)練過(guò)程中進(jìn)行不斷的調(diào)整，以更新HATT 關(guān)注集合中有效實(shí)例。綜上，不斷進(jìn)行的調(diào)整使得所有的集合都擁有更多的有效實(shí)例，以達(dá)到為遠(yuǎn)程監(jiān)督數(shù)據(jù)集降噪的目的。

下面針對(duì)SL-HATT模型進(jìn)行詳細(xì)介紹：

1）將集合文本單詞以Skip-Gram 詞向量和位置向量表示為w，將句子矩陣表示為W。

2）添加MIL層，將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)實(shí)體對(duì)集合，將關(guān)系標(biāo)簽直接賦予集合。

3）添加CNN 層和最大池化層，利用式（2）～（3）得到集合中的句子特征矩陣x和句子特征向量h。

4）引入HATT 層，利用式（4）～（6）將集合中的句子以標(biāo)簽層次關(guān)聯(lián)的注意力機(jī)制，抽取到集合中所有句子的綜合關(guān)系類別特征、集合特征向量r。

5）在少許訓(xùn)練次數(shù)后，添加SL 方法層，利用式（7）～（11）學(xué)習(xí)集合之間的關(guān)系類別相似性特征，以及判斷集合特征與遠(yuǎn)程監(jiān)督標(biāo)簽特征是否相同，決定是否需要生成新的標(biāo)簽熱向量Lsl。

6）定義模型損失函數(shù)，通過(guò)更新成參數(shù)矩陣，達(dá)到優(yōu)化模型的效果。

2.3 模型訓(xùn)練

本文模型訓(xùn)練的優(yōu)化算法采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）算法，損失函數(shù)為交叉熵代價(jià)函數(shù)。同時(shí)為了避免過(guò)擬合問(wèn)題，加入了L2正則化。給定實(shí)體對(duì)集合，以及相應(yīng)的遠(yuǎn)程監(jiān)督關(guān)系，將損失函數(shù)定義如下，

其中：T集合數(shù)目；是動(dòng)態(tài)標(biāo)簽；ri是集合i的特征向量；λ是正則化參數(shù)；θ為關(guān)系抽取模型中的訓(xùn)練參數(shù)。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集及參數(shù)設(shè)置

本文采用由遠(yuǎn)程監(jiān)督方法生成的紐約時(shí)報(bào)（New York Times，NYT）數(shù)據(jù)集。其中，關(guān)系標(biāo)簽有53 種，包含無(wú)用關(guān)系NA。訓(xùn)練集有570 088 條句子、293 162 個(gè)實(shí)體對(duì)集合，測(cè)試集有172 448條句子、96 678個(gè)實(shí)體對(duì)集合。為了保證實(shí)驗(yàn)的準(zhǔn)確性，測(cè)試集由人工手動(dòng)標(biāo)注。在訓(xùn)練和測(cè)試集中，將超過(guò)120個(gè)單詞的句子截?cái)酁?20個(gè)單詞［13］。

本文使用交叉驗(yàn)證來(lái)確定模型的參數(shù)，由于SL 方法使用與基線模型相同的實(shí)體對(duì)集合，并且應(yīng)用文獻(xiàn)［13］的HATT網(wǎng)絡(luò)結(jié)構(gòu)。為了公正地比較SL-HATT 模型與基線模型，本文采用文獻(xiàn)［13］實(shí)驗(yàn)的大部分參數(shù)，與文獻(xiàn)［7］使用相同的CNN編碼器及參數(shù)、預(yù)訓(xùn)練的詞向量，如表1所示。由于SL方法對(duì)與HATT 結(jié)合的時(shí)間較敏感，實(shí)驗(yàn)過(guò)程中單獨(dú)測(cè)試其關(guān)鍵參數(shù)全局步數(shù)（global_step）。

3.2 實(shí)驗(yàn)對(duì)比模型及評(píng)估策略

本文分別采用近年來(lái)幾種經(jīng)典的關(guān)系抽取模型與SLHATT模型進(jìn)行比較，相應(yīng)的模型如下。

1）PCNN+ATT（Piecewise CNN ATTention）［6］是使用分段卷積神經(jīng)網(wǎng)絡(luò)結(jié)合普通注意力機(jī)制的關(guān)系抽取模型。

2）PCNN-ONE+Soft是基于軟標(biāo)簽方法同時(shí)只關(guān)注集合中的一個(gè)句子的注意力模型［16］。

3）PCNN-ATT+Soft 是基于軟標(biāo)簽的注意力模型［16］，該模型使用分段卷積作為句子編碼器，結(jié)合注意力機(jī)制，首次提出軟標(biāo)簽方法，提出相對(duì)簡(jiǎn)單的評(píng)分函數(shù)調(diào)整關(guān)系標(biāo)簽。

4）RL（Reinforcement Learning）是一種利用強(qiáng)化學(xué)習(xí)在遠(yuǎn)程監(jiān)督數(shù)據(jù)中進(jìn)行句子關(guān)系抽取的模型［14］。在實(shí)驗(yàn)中，都采用了相同的常規(guī)參數(shù)以統(tǒng)一實(shí)驗(yàn)變量來(lái)獲得更準(zhǔn)確的實(shí)驗(yàn)結(jié)果。

5）CNN+HATT 是基于標(biāo)簽關(guān)系分層注意力機(jī)制的模型［13］，該方法是基于以層次劃分關(guān)系標(biāo)簽的注意力機(jī)制，相較于大多數(shù)現(xiàn)有方法中每種關(guān)系都是彼此獨(dú)立的，該方法的關(guān)系層次結(jié)構(gòu)很好地揭示了關(guān)系之間的豐富關(guān)聯(lián)。

表1 實(shí)驗(yàn)參數(shù)Tab.1 Experimental parameters

本文采用準(zhǔn)確率（Precision，P）、微觀平均F1分?jǐn)?shù)（Micro）和宏觀平均F1 分?jǐn)?shù)（Macro）對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。Micro 是一種對(duì)數(shù)據(jù)集中的每一個(gè)實(shí)例不分類別進(jìn)行統(tǒng)計(jì)，從而建立全局混淆矩陣的評(píng)價(jià)指標(biāo)。Macro 則是先對(duì)每一個(gè)類統(tǒng)計(jì)指標(biāo)值，然后再對(duì)所有類求算術(shù)平均值。

3.3 結(jié)果分析

3.3.1 SL方法global_step討論

本節(jié)中，對(duì)模型中一項(xiàng)重要參數(shù)global_step做了中間實(shí)驗(yàn)來(lái)討論其取值。由于SL-HATT 模型動(dòng)態(tài)產(chǎn)生新的標(biāo)簽具有一定的隨機(jī)性。為了減少隨機(jī)性，且使模型擁有基本的關(guān)系抽取初始權(quán)重，本文設(shè)置實(shí)驗(yàn)，在開(kāi)始訓(xùn)練一定次數(shù)的global_step后，SL方法開(kāi)始動(dòng)態(tài)地調(diào)整關(guān)系標(biāo)簽。

如圖5所示，由于global_step次數(shù)設(shè)置太大會(huì)導(dǎo)致噪聲標(biāo)簽在訓(xùn)練過(guò)程的累計(jì)影響太大，本文取global_step=[1000，3 000，5 000，…，10 000]，根據(jù)實(shí)驗(yàn)得出，step_5000時(shí)模型精確率-召回率（Precision-Recall，P-R）曲線表現(xiàn)較好，故本文設(shè)置在第5 000次global_step時(shí)，引入SL方法較適宜。由于第10 000次global_step時(shí)模型抽取能力有所下降，文本不再繼續(xù)對(duì)后面的global_step進(jìn)行討論。

圖5 不同global_step次數(shù)比較Fig.5 Comparison of different global_step times

3.3.2 實(shí)驗(yàn)效果及模型性能分析

本節(jié)中，主要對(duì)本文模型的性能進(jìn)行詳細(xì)的分析比較。分別將本文提出的SL-HATT 模型與其他關(guān)系抽取模型比較，其P-R 曲線如圖6 所示。由圖6 可以看出，本文提出的SL 方法，使得SL-HATT 模型整體性能在P-R 曲線中有著較為明顯的優(yōu)勢(shì)。這反映出本文模型對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集中噪聲標(biāo)簽?zāi)苡行?dòng)態(tài)糾正，提取到更加豐富有用的特征信息，從而提升模型的整體效果。

圖6 不同模型的P-R曲線Fig.6 P-R curves of different models

如圖6 所示，本文提出的SL-HATT 模型在CNN+HATT 模型基礎(chǔ)之上加入了SL方法，相較于CNN+HATT模型關(guān)系抽取能力更強(qiáng)，表明基于關(guān)系類別相似性的動(dòng)態(tài)標(biāo)簽方法是可行且有效的，對(duì)遠(yuǎn)程監(jiān)督標(biāo)簽動(dòng)態(tài)糾正實(shí)現(xiàn)了標(biāo)簽噪聲的有效抑制，加強(qiáng)了關(guān)系抽取能力。

特別地，將本文提出的SL-HATT 模型與PCNN-ATT+Soft模型進(jìn)行比較。前者根據(jù)評(píng)分函數(shù)決定集合特征之間的相似性，選擇與之相似性最高集合的遠(yuǎn)程監(jiān)督標(biāo)簽。后者僅根據(jù)集合關(guān)系特征向量與集合遠(yuǎn)程監(jiān)督標(biāo)簽的置信度決定是否需要更新標(biāo)簽，缺少集合之間的相似性計(jì)算，本文認(rèn)為根據(jù)集合之間的關(guān)系類別相似性獲取的特征更準(zhǔn)確，便于關(guān)系標(biāo)簽調(diào)整。特別的，由于SL方法與HATT的組合，本文模型即使使用簡(jiǎn)單的句子編碼器，依然取得了較好的關(guān)系抽取效果，表明關(guān)系標(biāo)簽擁有豐富的特征信息，有助于集合特征抽取。

由于更加關(guān)注那些排名靠前的結(jié)果的性能，研究召回率為0.1、0.2、0.3及其平均值時(shí)不同模型的精確率，結(jié)果如表2所示。由表2 可以看出：一般的模型，在提高召回率的同時(shí)，會(huì)伴隨著精確率的急劇下降，而SL 方法則同時(shí)兼顧了精確率與召回率，表明本文提出的方法對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的噪聲處理使得模型的魯棒性更強(qiáng)。

表2 不同召回率下不同模型的精確率Tab.2 Precisions of different models under different recalls

由于數(shù)據(jù)集中各個(gè)類的分布不平衡，本文使用Macro 和Micro 評(píng)價(jià)模型性能。由表3 可知，本文模型的Micro 分?jǐn)?shù)以及Macro 分?jǐn)?shù)相較基線模型（PCNN+ATT）有5個(gè)百分點(diǎn)和3.3個(gè)百分點(diǎn)的提升，相較CNN+HATT 模型有1.3 個(gè)百分點(diǎn)和1.9 個(gè)百分點(diǎn)的提升，表明標(biāo)簽調(diào)整策略對(duì)模型整體性性能發(fā)揮了積極的影響。特別的，據(jù)統(tǒng)計(jì)，在測(cè)試數(shù)據(jù)集中，有74 857個(gè)集合只對(duì)應(yīng)一個(gè)句子，約占所有集合的3/4［7］，標(biāo)簽錯(cuò)誤直接影響關(guān)系抽取的效果。因此，對(duì)于僅含有一個(gè)實(shí)例的集合，SL方法尤其重要。

表3 微觀平均分與宏觀平均分單位：%Tab.3 Mean values of Micro and Macro unit：%

由于SL 方法動(dòng)態(tài)產(chǎn)生新的標(biāo)簽，可能存在實(shí)例的關(guān)系表達(dá)方式與常規(guī)關(guān)系模式有所不同，產(chǎn)生錯(cuò)誤動(dòng)態(tài)標(biāo)簽的情況。對(duì)此進(jìn)行以下分析：首先，數(shù)據(jù)集中噪聲標(biāo)簽遠(yuǎn)少于正確標(biāo)注的標(biāo)簽。其次，在訓(xùn)練過(guò)程中根據(jù)集合的關(guān)系得分和遠(yuǎn)程監(jiān)督標(biāo)簽生成動(dòng)態(tài)標(biāo)簽，隨著訓(xùn)練收斂過(guò)程，產(chǎn)生錯(cuò)誤標(biāo)簽的可能性會(huì)越來(lái)越小。最后，本文在訓(xùn)練開(kāi)始的5 000 次global_step時(shí)開(kāi)始引入SL 方法，試圖減少動(dòng)態(tài)標(biāo)簽的隨機(jī)性。根據(jù)實(shí)驗(yàn)結(jié)果來(lái)看，本文認(rèn)為在訓(xùn)練過(guò)程中對(duì)關(guān)系事實(shí)進(jìn)行較小的錯(cuò)誤更正不會(huì)對(duì)整體性能產(chǎn)生太大影響。

綜上，SL-HATT 模型的優(yōu)勢(shì)在于兩個(gè)方面：首先，SL 方法改善了以往訓(xùn)練時(shí)使用硬標(biāo)簽的方式，根據(jù)集合關(guān)系類別相似性信息與遠(yuǎn)程監(jiān)督標(biāo)簽相互對(duì)抗，決定是否調(diào)整關(guān)系標(biāo)簽，最終使得集合獲得更合適的關(guān)系標(biāo)簽。其次，SL 方法作用于HATT，不僅HATT 抽取關(guān)系之間的豐富關(guān)聯(lián)性，而且促進(jìn)HATT 動(dòng)態(tài)地重新關(guān)注集合中的實(shí)例，使集合中包含更準(zhǔn)確的關(guān)鍵詞特征和有效實(shí)例特征。二者共同作用于關(guān)系標(biāo)簽的層面，共同加強(qiáng)關(guān)系抽取能力。

4 結(jié)語(yǔ)

本文針對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集噪聲較多的問(wèn)題，提出了一種根據(jù)關(guān)系類別相似性產(chǎn)生動(dòng)態(tài)標(biāo)簽的方法。將本文提出的動(dòng)態(tài)標(biāo)簽方法作用于分層注意力機(jī)制，二者同時(shí)作用于關(guān)系標(biāo)簽的層面，不僅抽取關(guān)系之間豐富的關(guān)聯(lián)性，而且根據(jù)關(guān)系之間的相似性動(dòng)態(tài)調(diào)整關(guān)系標(biāo)簽，更新注意力機(jī)制關(guān)注有效實(shí)例，抽取更全面以及豐富的句子表征，明顯加強(qiáng)了模型的關(guān)系抽取能力。實(shí)驗(yàn)表明，SL-HATT 模型相較以往關(guān)系抽取模型性能更優(yōu)，即使是簡(jiǎn)單的句子編碼器也能達(dá)到較好的關(guān)系抽取效果。在以后的研究中，我們將繼續(xù)在句子編碼器方面進(jìn)一步優(yōu)化SL-HATT模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡