王旭強,岳順民,張亞行,劉 杰,王 揚,楊 青
(1.國網(wǎng)天津市電力公司 信息通信公司,天津300310;2.南開大學(xué) 計算機學(xué)院,天津300071;3.南開大學(xué) 人工智能學(xué)院,天津300071)
序列標(biāo)注是自然語言處理任務(wù)中的一個重要研究課題,其目標(biāo)是基于給定的文本序列預(yù)測對應(yīng)的標(biāo)簽序列[1],包括命名實體識別(named entity recognition,NER)、組塊分析(text chunking)和意見抽取(opinion extraction)等在實際問題中具有重要應(yīng)用價值的子任務(wù)。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)方法逐漸被應(yīng)用在序列標(biāo)注任務(wù)中。但這些方法普遍存在兩方面的問題。首先基于深度學(xué)習(xí)方法的序列標(biāo)注模型通常具有局部依賴性[2],對于遠距離的語義信息存在語義損失。例如,給定一個句子“Apple is a U.S.high-tech company”,其中“company”是影響“Apple”被標(biāo)注為“Organization”的關(guān)鍵信息。理想情況下,“company”的語義應(yīng)該被無損失地傳遞給“Apple”,但是信息傳遞過程實際上會損失“company”的語義,并引入無關(guān)詞的語義;且兩個詞間距離越長,這個問題越明顯。其次,基于深度學(xué)習(xí)方法的序列標(biāo)注模型還受限于序列化的特征學(xué)習(xí),無法靈活地建模任意兩個詞之間的語義關(guān)系。
針對上述兩個問題,提出了基于注意力機制的特征融合序列標(biāo)注模型。模型首先利用一個雙向長短時記憶(bi-directional long short-term memory,BLSTM)單元學(xué)習(xí)詞的上下文語義特征[3]。隨后,基于BLSTM 學(xué)習(xí)到的隱藏表示,采用多頭注意力機制,建模句子中任意兩個詞之間的語義關(guān)系[4],得到每個詞應(yīng)關(guān)注的全局語義。為了充分考慮局部上下文語義和全局語義的互補性,設(shè)計了三種特征融合方式將兩部分語義進行融合,并基于融合后的特征,使用條件隨機場(conditional random fields,CRF)模型進行標(biāo)簽序列的預(yù)測[5]。實驗結(jié)果表明,本研究提出的模型取得了較優(yōu)的性能。
命名實體識別是指識別文本中具有特定意義的實體,包括人名、地名、機構(gòu)名等;組塊分析用以識別不同功能語法的詞語塊,比如名詞性短語、動詞性短語、介詞性短語等[6];意見抽取包括對評價對象和評價詞的識別和抽取。本研究還關(guān)注在實體識別、組塊分析、意見抽取三種序列標(biāo)注任務(wù)上進行實驗分析。
早期的序列標(biāo)注方法大多基于規(guī)則,需要建立規(guī)則模板和專家知識,耗費大量的人力物力,同時還不易擴展、移植到其它領(lǐng)域。如王寧等[7]采用基于規(guī)則的方式,人工地建立了金融方面公司名稱識別的知識庫。
由于基于規(guī)則方法的缺點,基于統(tǒng)計學(xué)習(xí)方法的機器學(xué)習(xí)模型逐漸被應(yīng)用在序列標(biāo)注,比如支持向量機(support vector machines,SVM)、隱馬爾可夫模型(hidden Markov model,HMM)、條件隨機場、最大熵模型(maximum entropy model,MEM)等。Mayfield等[8]利用SVM 從訓(xùn)練數(shù)據(jù)中抓取成百上千個特征進行訓(xùn)練,在英語NER上得到84.67%的F1值。Zhou等[9]提出基于HMM 的命名實體識別系統(tǒng),可以應(yīng)用和融合字的簡單特征(比如大小寫、數(shù)字等),在數(shù)據(jù)集MUC-6和數(shù)據(jù)集MUC-7的英語NER 上分別得到96.6%和94.1%的F1值。Mccallum 等[10]將CRFs應(yīng)用在命名實體識別中,在CoNLL2003的英語NER和德語NER中取得了良好表現(xiàn)。劉艷超等[11]將MEM 應(yīng)用到命名實體識別上,同時結(jié)合了句子內(nèi)部的局部特征和全局特征相融合的方法。雖然基于統(tǒng)計學(xué)習(xí)模型的方法取得了較好的效果,但是仍然嚴(yán)重依賴人工特征,并且存在只能抓取局部特征的缺陷。
近些年非線性的深度神經(jīng)網(wǎng)絡(luò)因為其較強的學(xué)習(xí)和自動提取特征能力在自然語言處理中大獲成功,如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)等,RNN 可以較強地建模序列信息,LSTM 能夠解決長期依賴和梯度爆炸的問題,CNN 是一種層次網(wǎng)絡(luò)結(jié)構(gòu),擅長抓取局部或位置不變特征。張苗苗等[12]將BLSTM-CRF框架模型應(yīng)用到序列標(biāo)注,因為BLSTM 能夠有效利用上下文特征,CRF能夠建模句子級別的標(biāo)簽信息,所以取得了有競爭力的表現(xiàn)。Chiu等[3]提出了一個新穎的BLSTM-CNN 模型,通過CNN 獲取字符特征,與詞嵌入相拼接送入BLSTM 中,雖然效果很好,但是用到了詞典或詞匯特征。最近,注意力機制大受歡迎,相比于LSTM 或CNN 在建模時的語義依賴,注意力機制不必在意距離的長短。比如,Luo等[13]證明了將注意力機制引入到BLSTM-CRF中,能夠提升化學(xué)藥物實體識別效果,在文檔級別上可以提升標(biāo)注一致性,在句子級別上可以豐富上下文信息。
綜合上述研究工作發(fā)現(xiàn),現(xiàn)有的方法大多基于BLSTM-CRF框架實現(xiàn)與注意力機制的簡單結(jié)合,仍然存在局部依賴性、位置信息獲取不準(zhǔn)確等缺陷,因此本研究提出一種基于注意力機制的特征融合序列標(biāo)注模型,更好地捕獲語義依賴信息,彌補LSTM 建模的局部依賴性,以在序列標(biāo)注上獲得更好效果。
輸入一個句子W=(w1,w2,…,wn),其中wi表示句子中的第i個詞,序列標(biāo)注任務(wù)的目標(biāo)是對輸入序列進行語義分析并預(yù)測對應(yīng)的標(biāo)簽序列Y=(y1,y2,…,yn)。
為了解決LSTM-CRF模型的局部依賴性以及受限于序列化特征學(xué)習(xí)的問題,提出一種基于注意力機制的特征融合序列標(biāo)注模型。模型的整體框架如圖1所示。首先使用BLSTM 學(xué)習(xí)詞的上下文表示,隨后采用多頭注意力機制靈活地建模句子中任意兩個詞之間的語義關(guān)系,最后利用三種不同的特征融合方式將兩部分語義深度融合,并基于融合后的語義利用CRF進行標(biāo)簽序列的預(yù)測。具體的模型細節(jié)將在2.1節(jié)到2.5節(jié)介紹。
圖1 基于注意力機制的特征融合序列標(biāo)注模型Fig.1 Attention based sequence labeling model with feature fusion
對于中文數(shù)據(jù)集,直接將單詞進行隨機初始化作為詞向量表示。對于英文數(shù)據(jù)集,考慮到單詞通常包含豐富的形態(tài)特征,比如前綴、后綴信息,經(jīng)過BLSTM 和拼接的方式,得到每個詞的初始向量表示。如圖2所示,給定句子的第i個單詞wi=(c1,c2,…,cn),然后使用BLSTM 進行建模。由于LSTM 最后的隱藏變量包含了整個序列的信息,可以更好地捕獲單詞前綴和后綴的特征,本節(jié)將前向LSTM 最后的隱藏變量與后向LSTM 最后的隱藏變量進行拼接,得到字符級詞向量,最后與預(yù)訓(xùn)練的詞向量再進行拼接,得到最終的詞向量表示X=(x1,x2,…,xn)。
為了獲取句子的上下文語義信息,本研究采用BLSTM 對句子進行建模。LSTM 是對RNN 的改進,構(gòu)建了一個記憶單元用以考慮長距離依賴性和避免梯度消失的問題。具體地,借鑒了Lample等[14]的LSTM實現(xiàn)方法:
其中,it、ft、ot分別是輸入門(用來決定在細胞狀態(tài)Ct中存儲什么新的信息)、遺忘門(決定將哪些信息從Ct中丟棄)、輸出門(決定哪些信息作為輸出);σ 是sigmoid激活函數(shù),·表示元素級別的乘法;at表示新記憶單元,ct表示最終的記憶單元,xt是當(dāng)前的輸入,ht是得到的當(dāng)前的隱藏變量;Ui、Wi、Vi是輸入門中的模型參數(shù),Uf、Wf、Vf是遺忘門中的模型參數(shù),Uc、Wc是記憶單元中的模型參數(shù),Uo、Wo、Vo是輸出門中的模型參數(shù),bi、bc、bo、bf是偏移量。
為了更好地獲得前向和后向的上下文信息,本研究采用BLSTM 來建模序列。經(jīng)過前向LSTM 得到隱藏變量經(jīng)過后向LSTM 得到隱藏變量將兩者進行拼接得到代表序列信息的隱藏變量
圖2 字符級向量表示的模型圖Fig.2 Model graph of character level vector representation
經(jīng)過BLSTM 層編碼,每個單詞xi被表示為隱藏狀態(tài)hi,其中hi包含了詞的上下文語義信息。然而,由于LSTM 具有鏈?zhǔn)浇Y(jié)構(gòu),長距離語義將會隨著序列編碼而逐漸衰減。例如,通過LSTM 中的門控機制,如果長距離語義信息被當(dāng)前單詞遺忘,那么即使被遺忘掉的語義對后續(xù)單詞具有重要作用,后續(xù)單詞也將無法接收到該信息。因此,LSTM 仍存在局部依賴性問題。
為了解決上述問題,在BLSTM 的基礎(chǔ)上引入了自注意力機制來增強詞之間的語義交互。給定當(dāng)前單詞,注意力機制可以從全局范圍內(nèi)捕獲相關(guān)信息,而不受順序方式的限制。進一步地,為了學(xué)習(xí)多樣化的語義關(guān)系,使用多頭自注意力機制來建模句子中任意兩個詞之間的語義關(guān)系。
首先將矩陣Q、K 和V 線性映射到k 維子空間,每個子空間的計算公式為:
隨后將所有的注意力頭拼接起來,得到:
考慮到注意力機制雖然在建模語義或句法依賴時不受距離限制,能夠彌補LSTM 遠距離語義建模的缺陷,但注意力機制是一種無序的計算機制,在建模過程中可能會損失序列上的前后關(guān)系,所以本研究將BLSTM 學(xué)習(xí)到的順序和局部特征與注意力機制學(xué)習(xí)到的全局語義信息相融合,達到優(yōu)勢互補的效果。實驗中采取三種特征融合的方式,下面介紹具體的計算公式(S對應(yīng)Sigmoid,V 對應(yīng)Vector,T 對應(yīng)Twoparam)。
S 表示從ht和zt自身學(xué)習(xí)一個參數(shù)進行特征融合。首先將ht和zt進行拼接,接著用一個權(quán)重參數(shù)將之映射到一維空間,并利用sigmoid做激活函數(shù),公式如下:
其中,βs 為標(biāo)量。若設(shè)LSTM 的隱藏單元大小為dh,那么ht和zt的維度都為2dh,因為是拼接之后做線性映射,所以Ws是1×4dh的向量,這樣才能保證映射后是一個一維的數(shù)值,最后經(jīng)過sigmoid激活,得到[0,1]間的一個參數(shù)。最后再將ht和zt按學(xué)習(xí)到的參數(shù)融合,計算公式:
其中,mt的維度為2dh。
V 與S 不同,Wv是一個通過學(xué)習(xí)得到的2dh×4dh的權(quán)重矩陣,β是2dh的列向量,計算公式如下:
其中e表示全1的列向量?!け硎驹丶墑e的相乘,mt的維度為2dh。觀察可知,都借鑒了LSTM 單元里的遺忘門和記憶門操作,記住一部分信息,遺忘一部分信息,避免造成信息冗余。
T:將ht和zt加權(quán)求和,得到新的語義和句法上下文特征表示mt,α、β 為變量,兩個權(quán)重作為自由參數(shù)將由模型去學(xué)習(xí),以求達到最好的加權(quán)融合方式,公式如下,
其中,mt和ht、zt的維度相同,都為2倍的LSTM 隱藏單元大小。
序列標(biāo)注可以看作是一類特殊的分類問題,直觀上可以簡單地使用分類器來進行標(biāo)簽的預(yù)測。然而,考慮到序列標(biāo)注任務(wù)中標(biāo)簽之間通常存在依賴關(guān)系,而這種依賴關(guān)系無法使用分類器進行建模,因此本研究利用CRF來進行標(biāo)簽預(yù)測。CRF能夠?qū)?biāo)簽之間的關(guān)系進行建模,而不是單獨預(yù)測每個標(biāo)簽進而得到全局最優(yōu)的標(biāo)注序列。
具體地,CRF定義了一個轉(zhuǎn)移矩陣A 來建模相鄰標(biāo)簽之間的交互關(guān)系,并定義了一個狀態(tài)矩陣P 建模詞和標(biāo)簽之間的交互關(guān)系。假設(shè)Y=(y1,y2,…,yn)為標(biāo)簽序列,P 為n×k 的矩陣,n 是序列長度,k 是不同標(biāo)簽數(shù),其第t行的轉(zhuǎn)置就是上面特征融合后的向量mt,mt包含了更為全面和精準(zhǔn)的系列上下文語義和句法信息,Pi,j表示第i個詞為第j個標(biāo)簽的可能性。定義標(biāo)簽序列的預(yù)測值為:
其中,A 為轉(zhuǎn)移矩陣,Ai,j表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的分?jǐn)?shù)。y0和yn+1是一個句子的開始和結(jié)束標(biāo)簽,將之加入到可能的標(biāo)簽集合中,所以A 是一個大小為k+2的方陣。在所有可能標(biāo)簽序列上進行一個softmax 計算,得到當(dāng)前標(biāo)簽序列Y 的一個條件概率:
通過log函數(shù)最大化正確標(biāo)簽序列的對數(shù)概率:
其中,YX是指數(shù)空間中句子X 所有可能的標(biāo)簽序列。通過最大化上式,模型將會學(xué)習(xí)正確的標(biāo)簽順序。由于在指數(shù)空間內(nèi)對上式進行優(yōu)化是NP難問題,借鑒Mccallum 等[10]在線性條件隨機場中用前向后向算法有效地解決這個問題。在測試的過程中,模型使用最大后驗概率來預(yù)測輸出:
本研究只建模二元交互,所以用維特比算法來計算公式(17)和公式(18)的最大后驗概率Y*。
為了綜合評價模型的效果,本節(jié)分別在中文和英文數(shù)據(jù)集上對序列標(biāo)注的三類任務(wù)(意見抽取、命名實體識別和組塊分析)進行測試。
中文數(shù)據(jù)集采用2008年中文傾向性分析評測(Chinese opinion analysis evaluation,COAE)。其中原數(shù)據(jù)評價對象已經(jīng)被標(biāo)注,從手機、筆記本電腦和照相機三個領(lǐng)域進行評價抽取,并在手機領(lǐng)域由人工標(biāo)注評價詞,有沖突的標(biāo)注采用人工投票方式解決。表1為中文評價數(shù)據(jù)的統(tǒng)計情況。
本文將中文評價數(shù)據(jù)集按照文檔數(shù)以4∶1∶1的比例隨機劃分為訓(xùn)練集、驗證集和測試集。
英文數(shù)據(jù)集包括餐飲評價數(shù)據(jù)集、命名實體識別和組塊分析數(shù)據(jù)集三部分。其中餐飲評價數(shù)據(jù)集來自2015年語義評估(semantic evaluation,SemEval)比賽的子任務(wù)Restaurant(原數(shù)據(jù)只標(biāo)注了評價對象,評價詞由Wang等[15]人工標(biāo)注),命名實體識別數(shù)據(jù)集來自2003年計算自然語言學(xué)習(xí)會議(conference on computational natural language learning,CoNLL)技術(shù)評測的英文NER數(shù)據(jù)(包含四類實體),組塊分析數(shù)據(jù)集來自CoNLL-2000分享的短語分塊任務(wù)(包含11種短語塊)。表2是三個英文數(shù)據(jù)集的統(tǒng)計情況。
表1 中文評價數(shù)據(jù)的統(tǒng)計信息Tab.1 Statistics of Chinese evaluation data
表2 英文數(shù)據(jù)集的統(tǒng)計情況Tab.2 Statistics of English dataset
中文評價數(shù)據(jù)集的詞向量設(shè)定維度為100,由隨機初始化得到。英文評價數(shù)據(jù)中Restaurant評價數(shù)據(jù)詞向量維度為200,由Wang等[15]預(yù)訓(xùn)練得到。NER和Chunking數(shù)據(jù)詞向量維度為100,由Lample等[14]通過skip-n-gram 模型訓(xùn)練得到。
為了防止訓(xùn)練過程出現(xiàn)過擬合,當(dāng)最終的詞向量進入BiLSTM 之前會經(jīng)過一個dropout率為0.5的dropout層;另外將數(shù)據(jù)中的數(shù)字全部用0表示,英文數(shù)據(jù)集在訓(xùn)練字符級別特征時區(qū)分大小寫。在中文和英文數(shù)據(jù)集上的學(xué)習(xí)率分別為0.005和0.01,迭代次數(shù)為100。在多頭注意力機制的試驗中,設(shè)定h=5,即進行5次低維注意力計算。
實驗中的評價指標(biāo)采用精度P1和召回率R 和綜合衡量指標(biāo)F 1值,計算公式如下:
其中:P1用來衡量預(yù)測結(jié)果的準(zhǔn)確度,即預(yù)測結(jié)果中正確的目標(biāo)個數(shù)與預(yù)測的目標(biāo)總數(shù)之間的比例;R 用來衡量預(yù)測結(jié)果中有多少個正確的目標(biāo)數(shù),即預(yù)測的正確目標(biāo)數(shù)占總的目標(biāo)數(shù)的比例;#PredCorr 表示識別的正確目標(biāo)數(shù);#Pred All表示識別的目標(biāo)總數(shù);#TrueAll表示真實的目標(biāo)總數(shù)。
3.4.1 指標(biāo)分析
根據(jù)上述實驗設(shè)置,對上述數(shù)據(jù)集進行實驗,各方法得到的F 1值如表3、表4所示。
表3 各類對比算法在英文數(shù)據(jù)集上的F 1值Tab.3 F 1 values of various comparison algorithms on english datasets
表4 各類對比算法在中文數(shù)據(jù)集上的F 1值Tab.4 F 1 values of various comparison algorithms on chinese datasets
表3、表4中ABLSTM 為BLSTM+注意力機制(Attention),BLSTM(MHA)為BLSTM+多頭注意力機制(Multi-headed attention),ABLSTM_S、ABLSTM_V 和ABLSTM_T分別為在ABLSTM 的基礎(chǔ)上經(jīng)過三種特征融合。BLSTM_S(MHA)、BLSTM_V(MHA)、BLSTM_T(MHA)分別為在BLSTM(MHA)的基礎(chǔ)上經(jīng)過三種特征融合。
表3、表4列出了基于多頭注意力機制的深度學(xué)習(xí)模型在三種特征融合方式下的F 1值結(jié)果,以及對比算法的F 1值,可以得出以下結(jié)論:
從總體來看,與BLSTM-CRF相比,通過消融實驗證明其他加了注意力機制的模型效果均得到了進一步地提升,表明了注意力機制的作用,能夠捕獲遠距離的依賴信息,并抓取最相關(guān)的信息;相比不進行特征融合的ABLSTM-CRF和BLSTM(MHA)-CRF,經(jīng)過特征融合后模型的效果普遍得到了提升,說明注意力機制建模在BLSTM 上確實存在信息的損失,但是BLSTM 代表的序列和局部信息和注意力機制代表的全局語義和句法信息融合后,能夠達到優(yōu)勢互補的效果,表明了特征融合的有效性。
另外相對于單一注意力機制,多頭注意力機制在中英文數(shù)據(jù)集上普遍都獲得了效果提升,表明多頭注意力機制可以獲得更為豐富的語義和句法上的關(guān)聯(lián)表示,有效地驗證了本模型的可行性。
通過對比實驗,可以發(fā)現(xiàn)BLSTM 在建模序列獲取字符級別表示和詞級別表示的效果要優(yōu)于CNN,在三種特征融合方式的模型中,BLSTM _T(MHA)-CRF在3個數(shù)據(jù)集上達到了最高的F 1值,表現(xiàn)效果最優(yōu),在照相機和Restaurant數(shù)據(jù)上的效果也優(yōu)于單一注意力機制模型,表明注意力機制學(xué)習(xí)參數(shù)權(quán)重可以達到較好的特征融合效果。BLSTM _V(MHA)-CRF特征融合的方式在照相機和Restaurant數(shù)據(jù)上達到了最高的F 1值,并且提升效果最明顯。
3.4.2 注意力機制分析
圖3展示了英文評價數(shù)據(jù)句子中某一個詞“incredible”對其他詞關(guān)注度的分布情況:
圖3中第一行“Attention”表示不進行特征融合的ABLSTM-CRF模型中的注意力分布,后面的3行表示三種基于特征融合的注意力分布,顏色越深關(guān)注度越大。標(biāo)簽中的“P”代表評價詞,“T”代表評價對象,可以看出單一的注意力機制會出現(xiàn)有些詞只關(guān)注自身的情況,而進行特征融合后,情況大為改觀,促使評價詞“incredible”關(guān)注到了其他評價對象和評價詞。
本研究設(shè)定多頭注意力的h=5,即將輸入映射到5個不同的子空間或低維空間后,同時進行注意力分布的計算。圖4是NER測試數(shù)據(jù)中某一個句子的5個詞對其它詞的平均注意力分布圖,圖的左邊和下邊的英文文字表示詞和標(biāo)簽信息,“ORG”表示該詞為機構(gòu)名,“B-ORG”表示起始詞,“E-ORG”表示結(jié)束詞。可以觀察到本研究的多頭注意力機制能夠關(guān)注到相似語義的詞,比如“Islander”關(guān)注到了具有相同“ORG”標(biāo)簽的“NBA”、“NHL”、“LA”和“Clippers”等詞,尤其對標(biāo)簽完全相同的“Clippers”關(guān)注度最大,因為都是機構(gòu)名的結(jié)束詞,即標(biāo)簽都為“E-ORG”。
圖3 英文評論數(shù)據(jù)中某個詞對句子中其它詞的關(guān)注度分布:特征融合前后的對比Fig.3 Distribution of the attention of one word in English comment data to other words in sentences:Comparison before and after feature fusion
圖4 5個head平均的注意力熱力分布圖Fig.4 Heat distribution of attention in five heads
多頭注意力機制能夠在不同的表示子空間學(xué)習(xí)到不同的信息,本研究抽取了詞“Clippers”在兩個子空間上的注意力分布,如圖5所示。head_0表示第0個空間的注意力分布熱力圖,head_1表示第1個空間的注意力分布熱力圖。其中,“Clippers”在head_0上關(guān)注到了所有的機構(gòu)詞,還錯誤地關(guān)注到了標(biāo)簽為“O”的“Corrects”,而在head_1上除了關(guān)注到自身,還給予了同樣作為機構(gòu)名結(jié)束詞的“Islanders”較多權(quán)重。所以head_0用來捕獲相似語義信息并確定標(biāo)簽類別,head_1用來判斷在所屬標(biāo)簽中的位置屬于開始、中間還是末尾。
圖5 詞“Clippers”在兩個不同表示子空間的注意力分布圖Fig.5 Attention distribution of the word“Clippers”in two different subspaces
3.4.3 Dropout實驗分析
多頭注意力機制在多個子空間內(nèi)進行注意力分布的計算,將結(jié)果進行拼接和線性映射,可能存在信息冗余的問題,所以考慮在每個詞的5個注意力分布向量上進行Dropout實驗,設(shè)定Dropout為0.2,即隨機地丟棄關(guān)注到的一些重復(fù)或者錯誤的信息,結(jié)果如表5所示,除了Chunking數(shù)據(jù)外,模型在其他數(shù)據(jù)集上的效果都得到了進一步提升,表明Dropout具有正面的作用。
表5 基于TwoParam特征融合的MHA模型在數(shù)據(jù)集上的Dropout實驗結(jié)果Tab.5 Dropout experimental results of MHA model based on TwoParam feature fusion on dataset
本研究關(guān)注序列標(biāo)注任務(wù),提出基于注意力機制的特征融合序列標(biāo)注模型??紤]到現(xiàn)有的LSTM-CRF模型通常存在局部依賴性以及受限于序列化的特征學(xué)習(xí),本模型在LSTM 的基礎(chǔ)上引入多頭注意力機制建模任意兩個詞之間的語義關(guān)系,進而得到每個詞應(yīng)關(guān)注的全局語義表示。進一步地,為了更好地融合LSTM 學(xué)習(xí)的局部上下文語義以及多頭注意力機制學(xué)習(xí)的全局語義,設(shè)計了三種特征融合方法進行兩部分語義的深度融合。為了證明模型的有效性,在四個數(shù)據(jù)集上構(gòu)建了一系列實驗,實驗結(jié)果表明本模型達到了較優(yōu)的性能。