国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Multi-head Attention和Bi-LSTM的實體關(guān)系分類①

2019-07-23 02:08:04于碧輝郭放達
計算機系統(tǒng)應用 2019年6期
關(guān)鍵詞:類別實體向量

劉 峰,高 賽,于碧輝,郭放達

1(中國科學院大學,北京 100049)

2(中國科學院 沈陽計算技術(shù)研究所,沈陽 110168)

3(東北大學,沈陽 110819)

信息抽取是自然語言處理領(lǐng)域的一項重要任務(wù),其目標是從普通的非結(jié)構(gòu)化文本中抽取易于機器或程序理解的結(jié)構(gòu)化信息,從而將互聯(lián)網(wǎng)上大量的信息存儲成一個龐大的知識庫,提供給用戶查看或者為其它自然語言處理任務(wù)提供服務(wù).隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上的信息越來越龐大,信息抽取任務(wù)就變得愈發(fā)重要.

關(guān)系抽取作為信息抽取的一個重要組成部分,它旨在從語義層面發(fā)現(xiàn)實體之間的關(guān)系.關(guān)系抽取可以使用一組三元組來描述<Entity1,Relation,Entity2>,其中Entity1 和Entity2 表示實體,Relation 表示兩個實體之間的關(guān)系.例如“<e1>葉莉</e1>是<e2>姚明</e2>的妻子”.其中“<e1>”和“</e1>”這兩個符號聲明第一個實體為“葉莉”,“<e2>”和“</e2>”則聲明第二個實體為“姚明”.可以看出,兩個實體之間的關(guān)系是"配偶".在無監(jiān)督或半監(jiān)督學習領(lǐng)域,關(guān)系抽取是指從沒有任何預先確定的實體和關(guān)系類別中提取事實以及關(guān)系短語;在監(jiān)督學習領(lǐng)域,關(guān)系抽取又可以看作一項關(guān)系分類任務(wù),是指將包含已知實體對的文本的實體關(guān)系分類到一組已知的關(guān)系類別上.本文的研究是在具有既定關(guān)系和已知實體對的數(shù)據(jù)集上進行關(guān)系抽取任務(wù),因此本文的關(guān)系抽取任務(wù)就是一項關(guān)系分類任務(wù).

傳統(tǒng)的關(guān)系分類方法常用的有兩種,基于規(guī)則的方法和基于特征向量的方法.基于規(guī)則的方法需要領(lǐng)域?qū)<业慕槿肭倚枰斯?gòu)建大量的匹配規(guī)則,可擴展性差.基于特征的方法需要人工構(gòu)建大量的特征,費時費力,且人工提取的特征都停留在詞法和句法層面,模型無法很好地捕獲文本的語義特征.近年來,隨著深度學習的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型開始應用在各類關(guān)系分類任務(wù)上,并取得出色表現(xiàn).本文在此研究基礎(chǔ)上,提出基于多頭注意力機制(multi-head attention)和雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)相結(jié)合的實體關(guān)系分類模型.本文主要貢獻如下:

(1)引入aulti-head Attention.它是self-attention的一種拓展,能夠從多個不同維度計算attention,從而使模型在不同子空間學習特征.

(2)模型的輸入在已有的詞向量和位置向量的基礎(chǔ)上,進一步引入依存句法特征和相對核心謂詞依賴特征作為輸入,可以使模型更好地捕獲句法信息,進一步提高模型分類的精度.

1 相關(guān)研究

目前,已有的關(guān)系分類方法包括:基于規(guī)則的方法、基于特征向量的方法、基于核函數(shù)的方法和基于深度學習模型的方法.

基于規(guī)則的方法需要依賴領(lǐng)域?qū)<?通過構(gòu)建大量的模式匹配規(guī)則進行關(guān)系分類,適合于特定領(lǐng)域的關(guān)系分類任務(wù).Aone[1]等通過人工構(gòu)建匹配規(guī)則開發(fā)了REES 系統(tǒng),該系統(tǒng)可識別100 多種關(guān)系.Humphreys[2]等對文本進行句法分析,通過構(gòu)建復雜的句法規(guī)則來識別實體間的關(guān)系.基于規(guī)則的方法需要領(lǐng)域?qū)<业闹笇?耗時耗力,且系統(tǒng)可移植性差.

基于特征向量的方法需要人工構(gòu)造特征,然后將特征轉(zhuǎn)化為向量,利用機器學習算法構(gòu)建模型,將特征向量作為模型的輸入對實體對之間的關(guān)系進行分類.Kambhatla[3]等人通過結(jié)合詞匯特征、句法特征和語義特征,利用最大熵模型作為分類器,在ACE RDC2003的評測數(shù)據(jù)集上,最終分類的F值達到了52.8%.車萬翔[4]等人通過引入實體類型、兩個實體的出現(xiàn)順序、實體周圍的w個詞等特征,利用支持向量機(SVM)作為分類器,在ACE RDC2004 的評測數(shù)據(jù)集上,最終分類的F值達到了73.27%.基于機器學習的方法依賴于人工構(gòu)造特征,其效果的好壞也嚴重依賴于特征選取的好壞,且為達到較高的分類性能往往需要從不同層次構(gòu)造大量特征.

基于核函數(shù)的方法不需要顯示構(gòu)造特征,因此避免了人工構(gòu)造特征的過程.它將文本的字符串或者文本的句法樹作為輸入實例,使用核函數(shù)計算實例間的相似度來訓練分類器.在關(guān)系分類任務(wù)中使用核函數(shù)的方法最早是由Zelenko[5]等人引入的,他們在文本的淺層解析表示上定義核函數(shù),并將核函數(shù)與支持向量機(SVM)和投票感知器學習算法相結(jié)合.實驗表明,該方法取得了良好的效果.

近年來,隨著深度學習的興起,越來越多的研究工作都嘗試使用神經(jīng)網(wǎng)絡(luò)模型去解決問題,從而避免顯式的人工構(gòu)造特征的過程.Liu CY 等人[6]在關(guān)系分類任務(wù)中最早嘗試使用卷積神經(jīng)網(wǎng)絡(luò)自動學習特征.它建立了一個端到端(End-to-End)的網(wǎng)絡(luò),該網(wǎng)絡(luò)利用同義詞向量和詞法特征對句子進行編碼,實驗結(jié)果表明,該模型在ACE 2005 數(shù)據(jù)集上的性能比當時最先進的基于核函數(shù)的模型的F值高出9 個百分點.Zeng DJ 等人[7]也使用了卷積神經(jīng)網(wǎng)絡(luò)模型來進行關(guān)系分類,他們使用了預先在大型未標記語料庫上訓練的詞向量(Word Embedding),并首次將位置向量(Position Embedding)引入模型的輸入.最終該模型在SemEval-2010 任務(wù)8 的評測數(shù)據(jù)集上的F值達到了82.7%.

卷積神經(jīng)網(wǎng)絡(luò)(CNN)雖然在關(guān)系抽取任務(wù)中取得了不錯的表現(xiàn),然而CNN 不適合具有長距離依賴信息的學習.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適用于解決具有長距離依賴的問題,但是它存在梯度消失問題,對上下文的處理就受到限制.為了解決這個問題,Hochreiter 和Schmidhuber 在1997年提出長短時記憶網(wǎng)絡(luò)(LSTM),該網(wǎng)絡(luò)通過引入門控單元來有效緩解RNN 的梯度消失問題.另外,近年來基于神經(jīng)網(wǎng)絡(luò)和注意力機制(attention)相結(jié)合的模型也被廣泛應用在關(guān)系分類任務(wù)上.注意力機制是對人類大腦注意力機制的一種模擬,最早應用在圖像處理領(lǐng)域,Bahdanau 等人[8]最早將其應用在機器翻譯任務(wù)上.此后注意力機制就被廣泛地應用到各種NLP 任務(wù)中.Zhou P 等人[9]提出一種用于關(guān)系分類的神經(jīng)網(wǎng)絡(luò)ATT-BLSTM.該模型利用長短時記憶網(wǎng)絡(luò)對句子進行建模,并結(jié)合自注意力機制(self-attention)來進一步捕捉句子中重要的語義信息.通過計算self-attention,可以得到句子內(nèi)部詞之間依賴關(guān)系,捕獲句子內(nèi)部結(jié)構(gòu).本文的研究在文獻[9]工作的基礎(chǔ)上,引入多頭注意力機制(multi-head attention),其本質(zhì)是進行多次self-attention 計算,可以進一步提高實體關(guān)系分類精度.

2 基于Multi-head Attention 和Bi-LSTM 的關(guān)系分類算法

本文采用雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)對文本特征進行建模.在將詞向量和相對位置向量作為網(wǎng)絡(luò)層輸入的基礎(chǔ)上,進一步考慮將依存句法特征和相對核心謂詞依賴特征引入網(wǎng)絡(luò)輸入層.將這兩個特征引入輸入層的原因是:

(1)依存句法分析可以很好地揭示文本句法結(jié)構(gòu),并且反映出兩個實體之間直接或間接的關(guān)系特征.

(2)大量研究表明,對一個句子的所有謂詞,核心謂詞對于識別實體邊界、承接實體關(guān)系起著至關(guān)重要的作用[10].因此每個詞與核心謂詞的相對依賴也是一種隱含特征,這種依賴關(guān)系必然也能反映出實體間的關(guān)系特征.

同時在網(wǎng)絡(luò)輸出層引入multi-head attention.Multi-head attention 由Vaswani[11]等人提出,基于Self-Attention.Self-Attention 通過計算每個詞和所有詞的注意力概率來捕獲句子的長距離依賴.所謂multi-head,就是進行多次Self-attention 計算,每次計算時使用的映射矩陣不同,最后將每一次計算結(jié)果進行拼接,作為最終multi head 計算結(jié)果.容易看出multi head attention 和單頭self-attention 相比,它可以學習多個映射器,進而從不同維度,不同子空間來表征特征.最后通過將多個特征進行拼接進行特征融合,可以使模型進一步提高特征表達能力.文獻[11]中的實驗結(jié)果表明,使用單頭注意力機制可以學習得到句子內(nèi)部詞的某些長距離依賴關(guān)系,而multi-head attention 除了能夠加強這種學習能力以外,甚至能夠理解句子的句法和語義結(jié)構(gòu)信息.因此本文引入multi-head attention思想,來進一步提高模型建模能力,從而提高實體關(guān)系分類的精度.

圖1 模型框架圖

本文的模型包含以下5 個部分,模型結(jié)構(gòu)圖如圖2所示.

(1)文本預處理、特征提取.

(2)Embedding 層:將網(wǎng)絡(luò)輸入的各種特征全部映射為低維向量表示.

(3)Bi-LSTM 層:使用Bi-LSTM 對輸入信息進行建模,獲取高層特征表示.

(4)Multi-head attention 層:進行多次selfattention 計算,并將多次計算結(jié)果進行拼接和線性映射,獲取最終句子級特征表示.

(5)輸出層:采用SoftMax 函數(shù)作為分類器,將上一步得到的特征向量作為輸入,可以得到最終的關(guān)系類別.

圖2 模型結(jié)構(gòu)圖

2.1 文本預處理、特征提取

以"<e1>葉莉</e1>是<e2>姚明</e2>的妻子"為例,使用哈工大的LTP 對句子進行分詞和依存句法分析,結(jié)果如下圖所示,抽取以下三個特征:

(1)相對位置特征PF.即句子中每個詞分別到實體1 和實體2 的距離.如例句中兩個實體分別是“葉莉”、“姚明”.每個詞到實體1“葉莉”的距離PF1={0,1,2,3,4};每個詞到實體2“姚明”的距離PF2={-2,-1,0,1,2}

(2)依存句法特征DP.特征DP 包含兩部分DP_NAME 和DP_PAR.DP_NAME 要獲取每一個詞在句子中的依存句法屬性值,那么例句的DP_NAME={SBV,HED,ATT,RAD,VOB};DP_PAR 要獲取每一個詞所依賴的詞在句子中的索引值,那么例句的DP_PAR={2,0,5,3,2}

(3)相對核心謂詞依賴特征DEP.根據(jù)句子中每個詞與核心謂詞是否存在依賴關(guān)系,將DEP 特征取值分為三類:DEP_S(核心謂詞本身),DEP_C(核心謂詞子節(jié)點),DEP_O(其它).容易看出例句的核心謂詞為“是”,那么例句的DEP={DEP_C,DEP_S,DEP_O,DEP_O,DEP_C}.

2.2 Embedding 層

假定句子S由T個詞組成,S={w1,w2,···,wT},對于每個詞wi都 要提取五種特征,用表示,其中1 ≤j≤5.每個特征所對應的特征向量矩陣分別為:{Wword,Wpf,Wdp_name,Wdp_par,Wdep}.Wword∈Rdw×|V|,Wf∈Rdv×|Vf|,dw是詞向量的維度,|V|表示數(shù)據(jù)集詞匯量大小.f∈{pf,dp_name,dp_par,dep},dv是相應特征向量的維度,Vf表示特征f取值類別個數(shù).Wword使用一個預訓練好的詞向量矩陣[12],其余特征向量矩陣都采用隨機初始化的方式賦予初始值.使用式(1)對每個詞的各個特征進行Embedding,得到每個特征的向量化表示.

2.3 Bi-LSTM 層

LSTM 是RNN 的一種變體,它通過引入門控單元克服RNN 長期依賴問題從而緩解梯度消失.一個LSTM 單元由三個門組成,分別是輸入門it,遺忘門ft和輸出門ot.以特征embs={e1,e2,···,eT}作為輸入,將t作為當前時刻,ht-1表 示前一時刻隱層狀態(tài)值,ct-1表示前一時刻細胞單元狀態(tài)值,計算第t時刻詞對應的LSTM 各個狀態(tài)值:

通過以上計算,最終得到t時刻LSTM 隱層狀態(tài)的輸出值ht.在本文中使用的是Bi-LSTM.將前向LSTM 中t時刻隱層狀態(tài)值記為f_ht,將后向LSTM中t時刻隱層狀態(tài)的輸出值記為b_ht,則最終Bi-LSTM 第t時刻輸出值為:

2.4 Multi-head Attention 層

Multi-head attention 本質(zhì)就是進行多次selfattention 計算,它可以使模型從不同表征子空間獲取更多層面的特征,從而使模型能夠捕獲句子更多的上下文信息.Multi-head attention 模型結(jié)構(gòu)如圖3所示.

圖3 Multi-head attention

(1)單次self-attention 計算.使用符號H表示一個矩陣,它由Bi-LSTM 層所有時刻輸出向量組成[h1,h2,···,hT].使用符號r表示該層最終的輸出值,計算過程如下:

其中,H∈Rdh×T,dh是隱藏層節(jié)點數(shù),w是一個參數(shù)向量.w,?和r的維度分別是dh,T,dh.經(jīng)過selfattention 計算,可以得到單次attention 輸出特征值為:

(2)Multi-head attention 計算.即進行k次selfattention 計算.在計算過程中,針對式(10),在每次使用H時,需要先將H進行一次線性變換[11],即,其中這樣,每次在進行單次self-attention 計算時,都會對H的維度進行壓縮,且multi-head attention 計算可以并行執(zhí)行.另外,本文使用的是乘法注意力機制,乘法注意力機制在實現(xiàn)上可以使用高度優(yōu)化的矩陣乘法,那么整體計算成本和單次注意力機制的計算成本并不會相差很大,同時又提升了模型的特征表達能力.使用式(10)~(12)進行k次計算,注意每次計算使用的w均不相同.將結(jié)果h?進行拼接和線性映射,得到最終結(jié)果hs:

其中,向量ws的 維度是k×dh,?表示逐元素點乘.

2.6 輸出層

在本文中,關(guān)系分類為一個多分類問題.使用SoftMax 函數(shù)計算每一個類別的條件概率,然后選取條件概率最大值所對應的類別作為預測輸出類別.計算過程如下:

其中,Wo∈Rc×kdw,c表示數(shù)據(jù)集的類別個數(shù).目標函數(shù)是帶有L2 正則化的類別標簽y的負對數(shù)似然函數(shù):

其中,m是樣本的個數(shù),ti∈Rm是一個關(guān)于類別的onehot 向量,y′i是SoftMax 的輸出概率向量,λ是L2 正則化因子

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)

本次實驗采用SemEval-2010 任務(wù)8 的數(shù)據(jù)集.該數(shù)據(jù)集共包含10 種關(guān)系類別,其中有9 種是明確的關(guān)系類別,一種是未知類別“Other”.數(shù)據(jù)集中共有10 717 條人工標注實體和關(guān)系類別的數(shù)據(jù),包括8000 條訓練數(shù)據(jù),2717 條測試數(shù)據(jù).關(guān)系類別如表1所示.

表1 關(guān)系類別

3.2 實驗評價指標

在本次實驗中采用官方評測標準F1 值(F1-Score)作為模型性能評價指標.表2為分類結(jié)果的混淆矩陣.

表2 分類結(jié)果混淆矩陣

在計算F1值之前,需要先計算查準率P、查全率R,計算公式如下:

根據(jù)P、R值計算最終的F1值:

3.3 參數(shù)設(shè)置

本文神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法采用Adam,其學習率設(shè)置為1.0,激活函數(shù)使用relu 函數(shù),隱層節(jié)點數(shù)dh設(shè) 置為300,每個單詞嵌入向量大小dw為50,輸入的batch 大小為50.另外,為了緩解過擬合現(xiàn)象,在目標函數(shù)中加入L2 正則化項,正則化因子取值為1 0-5,同時引入dropout 策略.將dropout 應用在Embedding 層、Bi-LSTM 層,經(jīng)過多輪實驗(采用5 折交叉驗證),當丟碼率(dropout rate)分別為0.3,0.3,模型可以達到一個比較好的性能.Multi-head 層中的參數(shù)k的值過大或過小都不好,參考文獻[11]的實驗,取[1,2,4,6,10,15,30]作為候選值(k要能被 dh整除),采用5 折交叉驗證方法評估模型性能,實驗結(jié)果如下表所示.易知,最終當k值為4 的時候模型可以達到一個較好的性能.單次self-attention 要比k= 4 時multi-head attention 的效果差,但隨著k值的不斷增加,模型性能會下降.故最終選取k的值為4.

表3 k值實驗結(jié)果

3.4 實驗結(jié)果

為將本文模型與其它模型效果進行對比實驗,所有模型均采用同一數(shù)據(jù)集,關(guān)系類別個數(shù)為10.RNN 模型、ATT-LSTM 模型的輸入詞向量和位置向量、網(wǎng)絡(luò)隱層節(jié)點數(shù)、網(wǎng)絡(luò)激活函數(shù)、模型優(yōu)化方法等均與本文實驗中的參數(shù)設(shè)置保持一致.另外CNN 中與本文無關(guān)的參數(shù)設(shè)置參考其原論文.實驗結(jié)果如表4.

CNN:該模型是文獻[7]提出的.使用CNN 對句子進行建模,同時引入位置特征和詞匯特征,使用SoftMax作為分類器.最終實驗結(jié)果F1值達到80.3%.

RNN:該模型是文獻[13]提出的.使用雙向RNN來進行關(guān)系分類,使用SoftMax 作為分類器.最終實驗結(jié)果F1值達到81.5%.

ATT-LSTM:該模型文獻[9]提出.使用雙向LSTM對句子進行建模,并引入自注意力機制,使用SoftMax 作為分類器.最終實驗結(jié)果F1 值達到83.4%.

表4 實驗結(jié)果

以上四種模型相比,本文提出的方法最終F1值達到85.4%,均高于以上三種模型.本文模型與以上三種模型相比,在embedding 層,進一步引入了句法層面的信息.與CNN 和RNN 方法相比,本文神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用雙向LSTM.雙向LSTM 相比CNN 更能捕獲具有長期依賴的信息,更適合處理文本序列;與RNN 相比,LSTM 通過引入門控機制,緩解了模型的梯度消失問題.與ATT-LSTM 模型相比,本文的模型將單層selfattention 改為multi-head attention.綜上所述,本文方法在embedding 層融入了更加豐富的句法特征,通過使用雙向LSTM 使模型學到更多具有長期依賴的上下文信息,在最后的attention 層,通過使用multi-head attention 進一步提高了模型的特征表達能力.通過實驗驗證,本文方法進一步提高了實體關(guān)系分類模型的精度.

4 結(jié)語

本文從現(xiàn)有的基于深度學習模型的關(guān)系抽取方法出發(fā),使用Bi-LSTM 和multi-head attention 機制對文本進行建模,同時為了使模型更好地學習到文本句法結(jié)構(gòu)信息,進一步引入句法結(jié)構(gòu)特征和相對核心謂詞依賴特征.在公共評測語料上的實驗結(jié)果證明該方法相較于其他深度學習模型性能有進一步提升.未來的工作可考慮如何進一步改進attention 以及如何將模型應用到無監(jiān)督關(guān)系抽取研究上.

猜你喜歡
類別實體向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
哲學評論(2017年1期)2017-07-31 18:04:00
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
向量垂直在解析幾何中的應用
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
泗水县| 馆陶县| 屏南县| 海安县| 中牟县| 建德市| 申扎县| 漳州市| 乳源| 岱山县| 隆子县| 西林县| 灵寿县| 商水县| 永吉县| 凤翔县| 禄丰县| 南木林县| 淄博市| 合川市| 楚雄市| 峨眉山市| 雷波县| 广东省| 连城县| 翼城县| 格尔木市| 大理市| 星子县| 宜君县| 象山县| 天柱县| 沁水县| 东阳市| 郸城县| 定边县| 农安县| 恩平市| 陆河县| 临高县| 确山县|