文志霄,梁志劍
(中北大學(xué) 大數(shù)據(jù)學(xué)院,山西 太原 030051)
情感是影響人類行為的重要因素之一,使計(jì)算機(jī)自動(dòng)識(shí)別文本的情感極性一直是自然語言處理領(lǐng)域的研究熱點(diǎn)[1].比如在商業(yè)領(lǐng)域,情感分析可以通過提取有用信息,來幫助用戶決定某個(gè)產(chǎn)品是否值得購買.情感分析還被用來提取各種對(duì)象的情感信息[2].傳統(tǒng)的情感分析側(cè)重于句子級(jí)或文檔級(jí)任務(wù),一般用來判斷整個(gè)句子或文檔的整體情感極性.然而,細(xì)粒度情感分析主要是分析一條語句對(duì)不同方面的評(píng)價(jià).首先,從評(píng)價(jià)對(duì)象來說,細(xì)粒度情感分析的評(píng)價(jià)對(duì)象更具體,主要針對(duì)某一對(duì)象的某個(gè)方面.其次,細(xì)粒度情感分析的情感極性往往決定了粗粒度情感分析的情感極性.在對(duì)整個(gè)句子做粗粒度情感分析時(shí),先將句子劃分為若干短句,再分別判斷這些短句的情感極性,整個(gè)句子的情感極性是這些短句的情感極性之和.比如描述餐廳的話:“價(jià)格合理,但是服務(wù)非常差”,在粗粒度情感分析中,這句話的評(píng)價(jià)對(duì)象是餐廳.而細(xì)粒度情感分析中的評(píng)價(jià)對(duì)象則是價(jià)格和服務(wù),且對(duì)“價(jià)格”評(píng)價(jià)為正,“服務(wù)”評(píng)價(jià)為負(fù).若取褒義詞情感極性權(quán)重為1,貶義詞情感極性權(quán)重為-1,程度副詞權(quán)重為2,那么情感極性與程度副詞權(quán)重相乘為短句的情感極性值,則這句話對(duì)餐廳的整體評(píng)價(jià)為負(fù)面.因此,基于句子或文檔的情感分析會(huì)導(dǎo)致信息混淆,使用細(xì)粒度情感分析可區(qū)分不同方面對(duì)一個(gè)實(shí)體的情感取向,從而避免信息丟失.
細(xì)粒度的情感分析主要分為兩個(gè)方面:方面檢測和情感分類.其中,方面檢測是指從用戶評(píng)論中提取方面詞與其對(duì)應(yīng)的情感詞.本文的細(xì)粒度情感分類任務(wù)假設(shè)方面是已知的,因此,只需關(guān)注情感分類任務(wù).情感分類任務(wù)主要解決兩個(gè)問題:特征提取和情感極性判斷.早期的方法通常采用啟發(fā)式方法手動(dòng)提取上下文特征,如支持向量機(jī)(Support vector machine,SVM)[3]、樸素貝葉斯[4].近年來,深度學(xué)習(xí)網(wǎng)絡(luò)被用于自動(dòng)提取文本特征.文獻(xiàn)[5]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的文本特征提取,文獻(xiàn)[6]通過將語言正則化器應(yīng)用于長短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)實(shí)現(xiàn)了對(duì)語句的情感分類.文獻(xiàn)[7] 提出了基于注意力機(jī)制的網(wǎng)絡(luò)模型用于特征提取,均取得了比傳統(tǒng)機(jī)器學(xué)習(xí)更好的效果.文獻(xiàn)[8]提出了融合情感詞典與上下文語言模型的文本情感分析模型.文獻(xiàn)[9]利用門控制和卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子級(jí)的文本情感分類,進(jìn)一步證明了深度學(xué)習(xí)在情感分析中的優(yōu)勢.
本文提出了一種基于BiLSTM(Bi-directional long-short term memory)和異核卷積(Heteronuclear convolution neural networks,HCNN)的多重注意力網(wǎng)絡(luò)(BiLSTM-HCNN-Multi-Attention network,BHMAN)模型.細(xì)粒度情感分析中大都采用語義級(jí)特征對(duì)情感進(jìn)行分類,此類方法忽略了方面和上下文在詞級(jí)的相互影響.為解決這個(gè)問題,采用BiLSTM提取方面和上下文的語義級(jí)特征,同時(shí)采用HCNN提取方面和上下文的詞級(jí)特征.在獲取到詞級(jí)和語義級(jí)特征之后,使用多重注意力機(jī)制分別計(jì)算方面和上下文在詞級(jí)和語義級(jí)之間的相互影響,使得上下文對(duì)方面情感極性判斷影響較大的單詞權(quán)重進(jìn)一步增加.
本文的主要工作為:① 提出了一種BHMAN模型用于細(xì)粒度情感分析任務(wù).該模型將詞級(jí)特征與語義級(jí)特征融合,并結(jié)合多重注意力網(wǎng)絡(luò),有效提高了情感分析性能.② 提出了異核卷積的方式來提取詞級(jí)特征,使用不同規(guī)模的卷積核可以抽取不同級(jí)別的詞級(jí)特征,強(qiáng)化了神經(jīng)網(wǎng)絡(luò)對(duì)詞級(jí)特征的提取能力.③ 提出了多重注意力機(jī)制,使用交互注意力網(wǎng)絡(luò)(Interactive attention network,IAN)和改進(jìn)的雙重注意力網(wǎng)絡(luò)(Improved attention over attention,IAOA)分別計(jì)算方面和上下文的相互影響,使上下文中對(duì)情感分析相關(guān)詞的權(quán)重進(jìn)一步增加.
在細(xì)粒度情感分析任務(wù)中.傳統(tǒng)的方法主要是利用機(jī)器學(xué)習(xí)[10-11]來提取特征,基于機(jī)器學(xué)習(xí)的細(xì)粒度情感分析的優(yōu)劣都是基于對(duì)良好特征的選擇.近些年,神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用于多個(gè)領(lǐng)域,如文本情感分析.文獻(xiàn)[12]提出了一種用于句子分類的CNN,該網(wǎng)絡(luò)采用定長滑動(dòng)窗口提取文本特征,然而,忽略了文本的全局信息相關(guān)性.此外,文獻(xiàn)[13]采用門控制神經(jīng)網(wǎng)絡(luò)從上下文中提取情感對(duì)目標(biāo)的影響,卻缺乏語義的邏輯性和流暢性.細(xì)粒度情感分析中最常見的模型是LSTM.LSTM網(wǎng)絡(luò)可以在不需要特征工程的情況下對(duì)句子進(jìn)行編碼,已經(jīng)在許多自然語言處理任務(wù)中得到了應(yīng)用.例如,文獻(xiàn)[14]等構(gòu)建了擴(kuò)展的LSTM,采用兩段注意力機(jī)制對(duì)方面和上下文分別進(jìn)行建模.文獻(xiàn)[15]采用多源數(shù)據(jù)融合的方法進(jìn)行細(xì)粒度情感分類.
文獻(xiàn)[16]提出了基于注意力機(jī)制的細(xì)粒度情感分類的ATAE-LSTM(Attention-based LSTM with aspect embedding)模型,該模型將方面的詞向量進(jìn)行融合并分析了LSTM隱層輸出之間的相互影響,然而,該模型只是將這些向量連接起來,并沒有學(xué)習(xí)方面與上下文單詞之間的關(guān)聯(lián).文獻(xiàn)[17] 利用交互注意力機(jī)制來計(jì)算方面和上下文之間的相互影響.文獻(xiàn)[18]提出一種基于圖卷積網(wǎng)絡(luò)的分類模型用于捕獲多個(gè)方面之間的情感依賴關(guān)系.文獻(xiàn)[19]提出DA-BERT (Deep-attention with bidirectional encoder representations from transformers)模型,該模型采用transformer[20]作為特征提取器來計(jì)算每個(gè)單詞與句子中其他單詞的相關(guān)性,并取得了較好的效果.文獻(xiàn)[21] 提出了融合句法特征與BERT詞嵌入的BiLSTM-CRF(BiLSTM-Conditional random field)注意力機(jī)制模型,該模型并未對(duì)商品的隱式情感進(jìn)一步分析.文獻(xiàn)[22]等提出了雙重注意力機(jī)制,通過計(jì)算方面和上下文單詞的交互矩陣得到最終的交互權(quán)重,但是該模型使用BiLSTM單獨(dú)訓(xùn)練句子和方面的嵌入,并沒有考慮方面和上下文在詞級(jí)的相互影響.如何將詞級(jí)特征與語義級(jí)特征相融合,并利用注意力機(jī)制計(jì)算方面和上下文的相互影響,是本文的研究重點(diǎn).
本文在Bi-LSTM網(wǎng)絡(luò)模型的基礎(chǔ)上引入HCNN網(wǎng)絡(luò)提取詞級(jí)特征,在Bi-LSTM和HCNN基礎(chǔ)上分別引入注意力機(jī)制,構(gòu)建了基于多重注意力機(jī)制的細(xì)粒度情感分析模型.模型的整體架構(gòu)如圖1 所示,主要包括詞嵌入層、特征提取層、注意力層、特征融合和分類層.
圖1 模型整體流程架構(gòu)圖Fig.1 Overall process structure diagram of model
在本文模型中,使用 “BERT-Base”得到上下文和方面中每個(gè)單詞的向量表示.假設(shè)上下文長度為n,即上下文中包含有n個(gè)單詞,此時(shí)上下文可以表示為s= (w1,w2,w3,…,wn),上下文的一個(gè)方面有m個(gè)單詞,則該方面可以表示為a=(wi,wi+1,wi+2,…,wi+m-1),其中1≤i≤i+m-1≤n.在這里,只考慮一個(gè)上下文中僅包含一個(gè)方面的情況.如果一個(gè)上下文中包含多個(gè)方面,則將其中的一個(gè)方面和上下文考慮為一對(duì)未被分類的實(shí)例,一般來說,一個(gè)方面可能包含有一個(gè)單詞或者多個(gè)單詞.
(1)
(2)
式中:am表示方面中第m個(gè)單詞的BERT向量表示;sn表示上下文中第n個(gè)單詞的BERT向量表示.
詞級(jí)特征提取主要是分析方面和上下文在詞級(jí)的相互影響.在得到BERT訓(xùn)練出來的方面和上下文的詞向量表示后,利用異核卷積對(duì)方面和上下文分別提取詞級(jí)特征,再利用交互注意力機(jī)制計(jì)算方面和上下文在詞級(jí)的相互影響.其中,HCNN通過卷積操作提取卷積核范圍內(nèi)詞語之間的局部特征,采用不同大小的卷積核進(jìn)行卷積時(shí),HCNN可以通過學(xué)習(xí)得到不同詞組合的卷積核權(quán)重,受卷積核大小的限制,HCNN可以得到幾個(gè)相鄰詞之間的關(guān)聯(lián)信息,即詞級(jí)特征,而無法提取整個(gè)文本中詞語之間的關(guān)聯(lián)信息.
2.3.1 異核卷積神經(jīng)網(wǎng)絡(luò)
為有效地提取方面和上下文的詞級(jí)特征,采用不同大小的卷積核對(duì)方面和上下文進(jìn)行卷積操作.采用雙通道輸入的方式以增強(qiáng)模型學(xué)習(xí)詞級(jí)特征的能力.為了方便描述,本文采用單通道卷積的形式.為了使卷積操作之后矩陣形狀保持不變,采用“相同”模式進(jìn)行卷積,選取尺寸分別為t×m1×d的卷積核W1∈Rm1×d和t×m2×d的卷積核W2∈Rm2×d對(duì)輸入矩陣進(jìn)行卷積操作,卷積公式為
(3)
(4)
式中:f表示ReLu (Rectified linear units);t表示卷積核的個(gè)數(shù);m1和m2為卷積計(jì)算滑動(dòng)窗口的大小.
矩陣中每一行表示t個(gè)卷積核在上下文矩陣相同位置上的提取結(jié)果.矩陣A和S中的行向量分別表示針對(duì)方面和上下文相同位置提取出的所有卷積特征.以上下文為例的卷積過程如圖2 所示.
圖2 異核卷積計(jì)算過程Fig.2 Computational process of HCNN layer
2.3.2 交互注意力網(wǎng)絡(luò)
為了分析方面和上下文在詞級(jí)的相互影響,使用IAN來計(jì)算.以卷積網(wǎng)絡(luò)提取的特征作為輸入,首先計(jì)算方面和上下文的平均池化,即
(5)
(6)
然后,計(jì)算方面對(duì)上下文中每個(gè)單詞的影響.
(7)
式中:γ為分?jǐn)?shù)計(jì)算函數(shù),用于計(jì)算上下文中每個(gè)單詞的權(quán)重,分?jǐn)?shù)計(jì)算函數(shù)為
(8)
同理,通過式(9)來計(jì)算上下文對(duì)方面的影響.
(9)
式中:γ為分?jǐn)?shù)計(jì)算函數(shù),同式(7).
在計(jì)算完成方面和上下文中每個(gè)單詞的權(quán)重之后,得到了方面和上下文的向量表示,即
(10)
(11)
將方面向量與上下文向量拼接形成上下文和方面的詞級(jí)特征向量,交互注意計(jì)算過程如圖3 所示.
圖3 交互注意力計(jì)算過程Fig.3 Computational process of IAN
本節(jié)主要介紹語義級(jí)特征的提取,首先通過BiLSTM獲取上下文和方面的語義級(jí)特征,然后通過改進(jìn)的雙重注意力機(jī)制計(jì)算上下文和方面在語義級(jí)的相互影響.因?yàn)長STM適合處理時(shí)序特征問題,并且能夠計(jì)算這些特征之間的關(guān)系,比如某個(gè)單詞的意思會(huì)因?yàn)樯舷挛闹刑岬降膬?nèi)容而有不同的含義.
2.4.1 BiLSTM層
使用BiLSTM網(wǎng)絡(luò)提取語義級(jí)特征,以方面和文本的BERT向量表示作為網(wǎng)絡(luò)的輸入,將這兩個(gè)矩陣分別代入到兩個(gè)BiLSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用BiLSTM網(wǎng)絡(luò)得到上下文和方面的語義級(jí)特征.每個(gè)BiLSTM由兩個(gè)LSTM堆疊形成.
(12)
(13)
(14)
2.4.2 IAOA層
通過BiLSTM得到方面和上下文的語義級(jí)特征之后,利用IAOA計(jì)算方面和上下文在語義級(jí)別的相互影響.AOA模型中通過計(jì)算方面中每個(gè)單詞對(duì)上下文的影響,得到上下文中每個(gè)單詞的權(quán)重,然而,并沒有考慮上下文對(duì)方面的影響.方面中的單詞雖然較少,但每個(gè)單詞的權(quán)重卻不一定相同.IAOA模型增加了計(jì)算上下文中每個(gè)單詞對(duì)方面的影響模塊,通過分別計(jì)算方面中每個(gè)單詞對(duì)上下文的影響和上下文中每個(gè)單詞對(duì)方面的影響,得到上下文和方面中每個(gè)單詞的權(quán)重.IAOA計(jì)算如圖4 所示.
圖4 改進(jìn)的雙重注意力計(jì)算過程Fig.4 Computational process of IAOA
首先,通過方面與上下文矩陣相乘可以得到一個(gè)關(guān)聯(lián)矩陣即I=hs·(ha)T,其中,(ha)T為ha的轉(zhuǎn)置矩陣.I∈Rn×m矩陣中每個(gè)值代表上下文與方面每個(gè)單詞的相關(guān)性.通過在交互矩陣的行方向和列方向分別使用softmax,可以將得到的交互矩陣歸一化,公式為
(15)
(16)
式中:Iij為矩陣I中第i行第j列的數(shù)值;ηij表示上下文中的每個(gè)單詞對(duì)方面的影響;μij表示方面中每個(gè)單詞對(duì)上下文的影響.
然后,執(zhí)行列和行方向的平均操作,通過平均操作可以忽略上下文和方面中不重要的單詞,而更加關(guān)注方面和上下文中的重要單詞.公式為
(17)
(18)
式中:ηavg∈R1×m代表的是上下文對(duì)方面的平均注意力,可以表示方面中某些單詞的重要性程度.此外,上下文中某些單詞的重要性程度也可以由μavg∈Rn×1表示出來.
根據(jù)上下文對(duì)方面的平均注意力ηavg和交互矩陣在列方向使用softmax之后得到的矩陣μT,上下文特征權(quán)重φ的計(jì)算公式為
φ=ηavg·μT.
(19)
同理,方面特征權(quán)重λ計(jì)算公式為
λ=μavg·ηT.
(20)
在分別獲取到上下文和方面的權(quán)重后,上下文和方面的最終表示通過特征權(quán)重與矩陣相乘得到,公式為
(21)
(22)
綜上,可拼接形成最后輸入softmax的向量Rf.
一種混合應(yīng)用模式的國土資源“一張圖”架構(gòu)設(shè)計(jì)(吳旋等) ......................................................................7-50
通過2.4節(jié)中的方法得到融合了詞級(jí)和語義級(jí)特征的向量表示Rf,將Rf作為情感分類器的特征向量,利用softmax輸出細(xì)粒度情感分類的判定結(jié)果.分類計(jì)算過程為
y=softmax(Ws·Rf+bs),
(23)
式中:Ws表示softmax參數(shù)矩陣;bs表示偏至項(xiàng).分類器采用交叉熵作為損失函數(shù),則整個(gè)模型優(yōu)化的目標(biāo)函數(shù)為
(24)
選取“l(fā)aptop2014”、“restaurant2014”和“twitter”數(shù)據(jù)集,最后一個(gè)數(shù)據(jù)集包含手動(dòng)標(biāo)記情感標(biāo)簽的twitter文本.3個(gè)實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息如表1 所示.
表1 實(shí)驗(yàn)數(shù)據(jù)Tab.1 Experimental data
BERT詞向量維度設(shè)置為300維.為了對(duì)比不同詞向量對(duì)細(xì)粒度情感分析的準(zhǔn)確性,本文采用了維基百科Glove預(yù)訓(xùn)練詞作為對(duì)比,Glove預(yù)訓(xùn)練詞向量的維度同樣為300維.
本文實(shí)驗(yàn)采用了PyTorch深度學(xué)習(xí)框架.實(shí)驗(yàn)環(huán)境配置如表2 所示.
表2 實(shí)驗(yàn)環(huán)境配置Tab.2 Configuration of experimental environment
表3 模型參數(shù)設(shè)置Tab.3 Parameter setting of model
在介紹評(píng)價(jià)指標(biāo)之前,首先介紹混淆矩陣.
表4 混淆矩陣Tab.4 Confusion matrix
其中,True Positive(TP)表示將正例預(yù)測為正例;True Negative(TN)表示將負(fù)例預(yù)測為負(fù)例;False Positive(FP)表示將負(fù)例預(yù)測為正例;False Negative(FN)表示將正例預(yù)測為負(fù)例.
精確度xpre表示被分類為正例的示例中實(shí)際為正例的比例,計(jì)算公式為
(25)
召回率xrec表示有多少個(gè)正例被正確分類為正例,計(jì)算公式為
(26)
準(zhǔn)確率xacc表示在所有預(yù)測結(jié)果中正確分類的比例,計(jì)算公式為
(27)
F1可通過計(jì)算xpre和xrec獲得,是xpre和xrec的調(diào)和平均,可以綜合衡量模型的分類效果.F1值的定義為
(28)
3.4.1 模型對(duì)比實(shí)驗(yàn)與結(jié)果分析
為了驗(yàn)證所提模型的有效性,將本文模型在3.1節(jié)中介紹的數(shù)據(jù)集與經(jīng)典模型和最新模型進(jìn)行對(duì)比實(shí)驗(yàn).
1) Feature-based SVM:該模型利用傳統(tǒng)的特征工程提取上下文特征,然后利用支持向量機(jī)進(jìn)行情感分類[23];
2) TD-LSTM:采用兩個(gè)LSTM網(wǎng)絡(luò)分別對(duì)左側(cè)上下文和右側(cè)上下文進(jìn)行建模,然后將這兩個(gè)隱層狀態(tài)輸出連接起來,生成最終的上下文表示[24];
3) ATAE-LSTM:該模型為基于注意的LSTM,主要考慮特定方面對(duì)上下文中每個(gè)單詞的影響,然后計(jì)算LSTM隱層的加權(quán)輸出之和,以生成上下文的最終表示[16];
4) AOA-LSTM:該模型引入了雙重注意力機(jī)制,對(duì)方面與上下文中單詞之間的交互進(jìn)行建模,可以得到上下文中每個(gè)單詞的權(quán)重[22];
5) IAN:該模型使用兩個(gè)LSTM學(xué)習(xí)上下文和方面的表示,通過注意機(jī)制來計(jì)算方面與上下文的交互信息,得到方面和上下文的向量[17];
6) MGAN:使用LSTM學(xué)習(xí)上下文和方面表示,并對(duì)LSTM的輸出分別應(yīng)用粗粒度和細(xì)粒度注意機(jī)制,以捕獲方面和上下文之間的交互信息[25];
7) RAM:該模型使用雙向LSTM,并通過反復(fù)注意機(jī)制捕獲特征.構(gòu)造了一個(gè)位置加權(quán)記憶網(wǎng)絡(luò)來捕獲長距離信息[26];
8) BERT-PT:基于BERT的后訓(xùn)練模型,利用多任務(wù)微調(diào)進(jìn)行情感分類任務(wù),BERT語言模型通過問答任務(wù)微調(diào)[27];
9) AEN-BERT:提出了一種注意編碼網(wǎng)絡(luò),該網(wǎng)絡(luò)采用基于注意的編碼來建立上下文和目標(biāo)之間的模型[28];
10) BERT-SPC:該模型采用句子對(duì)分類模型預(yù)測情感極性[29];
11) BERT-MSDF:該模型將方面級(jí)、句子級(jí)語料庫和情感詞典數(shù)據(jù)整合,通過多源數(shù)據(jù)融合提高細(xì)粒度情感分析的準(zhǔn)確性[15].
實(shí)驗(yàn)結(jié)果如表5 所示,加粗字體表示本文模型在3個(gè)數(shù)據(jù)集上取得的最大值.
表5 不同模型實(shí)驗(yàn)結(jié)果對(duì)比Tab.5 Experimental results of different models
在以上3個(gè)數(shù)據(jù)集中,BHMAN相比其他模型在情感極性分類上均有一定的提升,在Restaurant14數(shù)據(jù)集中的準(zhǔn)確率達(dá)到了 86.63%.在Laptop14和twitter數(shù)據(jù)集中的F1值達(dá)到了 76.92% 和73.94%.比對(duì)照模型中的最高值分別提高了0.61%和0.31%.
在Restaurant14數(shù)據(jù)集中,Glove-BHMAN模型相比AOA-LSTM模型和IAN-LSTM模型的準(zhǔn)確率分別提高了1.44%和3.04%.因?yàn)楸疚哪P屯ㄟ^HCNN提取詞級(jí)特征,將HCNN提取的詞級(jí)特征與語義級(jí)特征進(jìn)行融合,組成更豐富的文本特征表示,從而提升分類效果.
在Restaurant14數(shù)據(jù)集中,BERT-BHMAN模型相比AEN-BERT模型的準(zhǔn)確率提高了3.51%.因?yàn)楸疚哪P屯ㄟ^多重注意力機(jī)制分別計(jì)算詞級(jí)特征與語義級(jí)特征中上下文和方面的每個(gè)單詞權(quán)重,進(jìn)一步提高分類的準(zhǔn)確性.
3.4.2 注意力機(jī)制對(duì)分類效果的影響
為了進(jìn)一步驗(yàn)證多重注意力機(jī)制對(duì)模型分類效果的影響,在原模型的基礎(chǔ)之上進(jìn)行修改,得到了無注意力機(jī)制模型和單注意力機(jī)制模型作為對(duì)照進(jìn)行對(duì)比實(shí)驗(yàn).
1) 無注意力模型:BiLST-HCNN去掉原模型中的多重注意力機(jī)制;
2) 單注意力機(jī)制模型BiLSTM-HCNN+IAN和BiLSTM+ IAOA-HCNN,分別去掉BiLSTM中的IAOA注意力計(jì)算模塊和HCNN中的IAN注意力計(jì)算模塊.
以上模型的參數(shù)設(shè)置均與本文模型相同,在Restaurant14數(shù)據(jù)集上進(jìn)行測試,共訓(xùn)練15個(gè)epoch,迭代結(jié)果如圖5 所示,其中BHMAN為本文所采用模型.
通過多重注意力模型BHMAN與無注意力模型BiLST-HCNN對(duì)比可知,使用注意力機(jī)制提取文本序列中上下文和方面的交互信息,可以明顯提高模型的整體分類效果.在單注意機(jī)制模型中,BiLSTM+HCNN-IAN模型使用IAN計(jì)算上下文和方面在詞級(jí)的交互信息,而BiLSTM+IAOA-HCNN 模型使用IAOA計(jì)算上下文和方面在語義級(jí)的交互信息.對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),通過IAOA計(jì)算上下文和方面在語義級(jí)的交互信息對(duì)分類效果有更好的提升.
3.4.3 不同詞向量作為輸入的實(shí)驗(yàn)與結(jié)果分析
本文采用了兩種不同的詞向量輸入:Glove和BERT詞向量.其中,Glove詞向量采用維基百科公共詞向量作為預(yù)訓(xùn)練詞向量,根據(jù)細(xì)粒度情感分析的任務(wù)進(jìn)行進(jìn)一步的訓(xùn)練,可以更好地表示情感分析任務(wù)中的上下文和方面,其維度為300維.BERT詞向量采用BERT預(yù)訓(xùn)練模型得到方面和上下文的詞向量.其他參數(shù)保持不變,在3.1節(jié)中介紹的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6 所示.
圖6 不同詞向量對(duì)xacc的影響Fig.6 Effects of different word embedding on xacc
通過實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),Glove詞向量使用基于全局的統(tǒng)計(jì)信息訓(xùn)練詞向量,但是無法融合單詞上下文中的信息.BERT模型訓(xùn)練時(shí),其可以捕獲語句中的雙向關(guān)系,可以融合單詞上下文中的信息,從而獲得更豐富的文本信息表示.
本文提出了結(jié)合語義級(jí)特征和詞級(jí)特征的多重注意力網(wǎng)絡(luò).該模型從詞級(jí)和語義級(jí)分別提取上下文和方面的特征,并利用多重注意力網(wǎng)絡(luò)計(jì)算上下文和方面的相互影響,使上下文和方面中與情感極性判斷相關(guān)詞的權(quán)重進(jìn)一步加強(qiáng).與采用Glove詞向量的模型相比,本文模型在SemEval-2014 Task4數(shù)據(jù)集上的準(zhǔn)確率提升了3%~4%,表明采用Bert預(yù)訓(xùn)練模型的詞向量表示可以提高模型的準(zhǔn)確性.與AEN-BERT和BERT-SPC模型相比,該模型正確率分別提升了3.51%和2.17%,證明了在細(xì)粒度情感分析任務(wù)中引入詞級(jí)特征不僅豐富了文本的特征表示,而且可以進(jìn)一步提升細(xì)粒度情感分類的準(zhǔn)確性.下一步的工作重心是研究本文模型在中文細(xì)粒度情感分類任務(wù)中的應(yīng)用,并考慮將文本詞性與神經(jīng)網(wǎng)絡(luò)相結(jié)合,以引入更多的文本特征來提升細(xì)粒度情感分析任務(wù)的性能.