劉 洋,黎茂鋒,黃 俊,陳立偉
(西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
在web2.0的時(shí)代背景下,互聯(lián)網(wǎng)用戶能夠通過社交媒體瀏覽并發(fā)布大量帶有情感極性的文本信息,所以,意見挖掘、情感分析[1]逐漸成為熱門研究話題。而方面級(jí)情感分析(ABSA)是一種更加細(xì)粒度的情感分析任務(wù),它能夠?qū)ξ谋揪唧w的方面實(shí)體所攜帶的情感極性進(jìn)行預(yù)測(cè),而不是簡(jiǎn)單地預(yù)測(cè)整條文本的情感極性。以“The food is good, but the service is terrible.”為例,food和 service是文本的兩個(gè)方面項(xiàng),兩者的意見項(xiàng)分別是good和terrible,ABSA任務(wù)的目標(biāo)就是識(shí)別出兩個(gè)方面項(xiàng)的情感極性分別是積極和消極。
ABSA任務(wù)關(guān)鍵在于建立方面項(xiàng)與意見項(xiàng)之間的聯(lián)系,以此來引導(dǎo)方面項(xiàng)感知情感信息。近年來,以句法依賴為基礎(chǔ)的圖神經(jīng)網(wǎng)絡(luò)在ABSA任務(wù)上取得了顯著成果。然而,這些方法[2-3]忽略了上下文語義信息和單詞自身所攜帶的情感信息對(duì)建立方面項(xiàng)與意見項(xiàng)聯(lián)系的作用。而自注意力機(jī)制能有效地捕獲上下文的語義相關(guān)性。受此啟發(fā),該文利用多頭自注意力機(jī)制增強(qiáng)句法依賴圖,設(shè)計(jì)了一個(gè)具有上下文語義信息的句法依賴圖(SrG);整合SenticNet詞典中單詞的情感信息構(gòu)建文本情感依賴圖(SeG);最后,基于SrG和SeG兩個(gè)圖構(gòu)建了一種雙通道圖卷積網(wǎng)絡(luò)(DC-GCN),以同時(shí)利用文本的語義相關(guān)性和單詞自身的情感信息引導(dǎo)方面項(xiàng)感知情感信息,并將融合雙通道圖卷積網(wǎng)絡(luò)特征用于情感分類。為了驗(yàn)證模型的有效性,在四個(gè)公開數(shù)據(jù)集(Twitter,Rest14,Lap14和Rest16)上與多個(gè)較優(yōu)的經(jīng)典模型以及最新模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,提出的模型取得了更好的效果。
方面級(jí)情感分析(ABSA)概念由Thet等人[4]在2010年明確提出,至今已有十多年的應(yīng)用與發(fā)展。早期,受限于硬件條件,大多數(shù)研究采用傳統(tǒng)機(jī)器學(xué)習(xí)結(jié)合特征工程的方法建模方面級(jí)情感分析任務(wù)。比如在最大熵、支持向量機(jī)等經(jīng)典機(jī)器學(xué)習(xí)模型的基礎(chǔ)上結(jié)合情感詞典、依賴信息等對(duì)情感進(jìn)行分類[5],這些方法需要投入較大的人力成本和時(shí)間成本。而隨著技術(shù)的逐漸成熟與發(fā)展,各種硬件設(shè)施越來越先進(jìn),依托于先進(jìn)的設(shè)備,深度學(xué)習(xí)得到了良好的應(yīng)用環(huán)境,大大降低了ABSA研究的人力成本與時(shí)間成本,所以深度學(xué)習(xí)漸漸代替了傳統(tǒng)機(jī)器學(xué)習(xí)在方面級(jí)情感分析的研究地位。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)序列信息有良好記憶功能,所以其對(duì)文本這種具有序列特征的信息具有良好的建模性能。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)和門控神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Units,GRU)在傳統(tǒng)RNN的基礎(chǔ)上融入門控基礎(chǔ),提高了網(wǎng)絡(luò)對(duì)上下文數(shù)據(jù)的記憶性能,從而改善了傳統(tǒng)RNN存在的梯度爆炸和梯度彌散等問題。Tang等人[6]提出了兩個(gè)改進(jìn)模型(TD-LSTM和TC-LSTM)用于ABSA任務(wù),整合了方面項(xiàng)與上下文知識(shí),比直接使用LSTM對(duì)文本進(jìn)行建模取得了更好的效果。注意力機(jī)制能根據(jù)文本的特征計(jì)算得到上下文的語義相關(guān)性[7],所以,研究人員結(jié)合注意力機(jī)制和LSTM網(wǎng)絡(luò)在ABSA任務(wù)上開展了大量研究。Wang等人[8]基于方面項(xiàng)的詞嵌入和注意力機(jī)制構(gòu)建了ATAE-LSTM模型,在ABSA任務(wù)上取得了良好的成果。Tan等人[9]針對(duì)文本中具有沖突意見的意見項(xiàng),提出了一種雙重注意力網(wǎng)絡(luò),以識(shí)別文本中方面項(xiàng)的沖突情感。另外,Devlin等人[10]提出的基于注意力機(jī)制的BERT預(yù)訓(xùn)練模型也一度刷新了NLP領(lǐng)域的各大任務(wù)成果。Sun等人[11]提出構(gòu)造輔助句的方式微調(diào)BERT模型,從句子對(duì)分類的角度考慮ABSA任務(wù),取得了良好的效果;Xu等人[12]針對(duì)ABSA任務(wù)提出了一種基于BERT的后訓(xùn)練微調(diào)方式,提升了BERT預(yù)訓(xùn)練模型在微調(diào)ABSA任務(wù)上的性能。雖然以上方法使用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)上下文序列信息建模,并結(jié)合注意力機(jī)制在ABSA任務(wù)上取得了良好效果,但是這些方法不能學(xué)習(xí)到文本的外部結(jié)構(gòu)信息。
而利用文本的句法依賴知識(shí)有助于在方面項(xiàng)和文本上下文單詞之間建立聯(lián)系。遵循這一思路,基于句法依賴知識(shí)的圖神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)被廣泛應(yīng)用于ABSA任務(wù)。Lu等人[13]設(shè)計(jì)了一種星形圖,并提出基于節(jié)點(diǎn)和基于文檔的分類方法,在情感分析上取得了良好效果;Zhang等人[14]提出ASGCN模型,首次使用文本句法依賴構(gòu)建圖卷積神經(jīng)網(wǎng)絡(luò)并將其用于ABSA任務(wù);Liang等人[15]提出一種依賴關(guān)系嵌入式圖卷積網(wǎng)絡(luò)(DREGCN),并且設(shè)計(jì)了一個(gè)簡(jiǎn)單有效的消息傳遞機(jī)制,以充分利用語法知識(shí)和上下文語義知識(shí),在ABSA任務(wù)上取得了良好的效果;Pang等人[16]基于句法依賴樹和多頭注意力機(jī)制分別生成句法依賴圖和語義圖,構(gòu)建了動(dòng)態(tài)多通道圖卷積網(wǎng)絡(luò)(DM-GCN)來有效地從生成的圖中學(xué)習(xí)相關(guān)信息;Tang等人[17]利用依賴關(guān)系標(biāo)簽構(gòu)建了一個(gè)潛在的文本依賴圖,并設(shè)計(jì)了一個(gè)情感細(xì)化策略引導(dǎo)網(wǎng)絡(luò)捕捉方面項(xiàng)的情感線索;Liang等人[18]通過整合SenticNet詞典的情感信息來增強(qiáng)句子的句法依賴,在ABSA任務(wù)上取得了良好效果;Li等人[19]提出一種雙圖卷積神經(jīng)網(wǎng)絡(luò)同時(shí)對(duì)語法知識(shí)和語義知識(shí)進(jìn)行學(xué)習(xí),并提出了正交正則化器和差分正則化器鼓勵(lì)句法知識(shí)和語義知識(shí)相互感知學(xué)習(xí);Xing等人[20]提出了DigNet模型,設(shè)計(jì)了一種局部全局交互圖,將句法圖和語義圖結(jié)合在一起,實(shí)現(xiàn)兩個(gè)圖中有益知識(shí)的相互交換。趙振等人[21]提出基于關(guān)系交互的圖注意力網(wǎng)絡(luò)模型,將關(guān)系特征融入到注意力機(jī)制中,使用一個(gè)新的擴(kuò)展注意力來引導(dǎo)信息從方面項(xiàng)的句法上下文傳播到方面項(xiàng)本身;陽影等人[22]在句法依賴樹上融合情感知識(shí),并與文本的語義相關(guān)性進(jìn)行有效交互,提出SKDGCN雙通道GCN模型,在多個(gè)公開數(shù)據(jù)集上表現(xiàn)優(yōu)異;楊春霞等人[23]提出基于注意力與雙通道的模型TCCM,實(shí)現(xiàn)了通道內(nèi)信息的殘差互補(bǔ),有效結(jié)合了句法與語義關(guān)聯(lián)信息。以上基于圖卷積網(wǎng)絡(luò)的方法使用句法依賴、情感知識(shí)增強(qiáng)句法依賴來聚合文本的句法結(jié)構(gòu)特征;使用注意力得分矩陣、句法解析標(biāo)簽聚合文本的上下文特征,這些方法在ABSA任務(wù)上取得了良好的效果。
而文中方法通過將上下文語義信息與句法依賴進(jìn)行結(jié)合,從而將上下文語義信息融進(jìn)句法依賴中,以此來引導(dǎo)方面項(xiàng)聚合具有上下文語義性的句法信息;并且使用文本自身的情感知識(shí)來引導(dǎo)方面項(xiàng)聚合上下文的情感信息;最后使用雙通道的圖卷積神經(jīng)網(wǎng)絡(luò)將具有上下文語義性的句法信息和上下文情感信息進(jìn)行融合,用于最終的情感分類。
該文提出一種融合具有上下文語義信息的句法依賴知識(shí)和文本情感知識(shí)的雙通道圖卷積網(wǎng)絡(luò)模型(DC-GCN),如圖1所示。該模型主要由以下三個(gè)模塊構(gòu)成:(1)詞嵌入與BiLSTM模塊;(2)具有上下文語義信息的句法依賴圖(SrG),整合SenticNet詞典情感信息構(gòu)建的一個(gè)文本情感依賴圖(SeG)構(gòu)造模塊;(3)雙通道圖卷積網(wǎng)絡(luò)(DC-GCN)特征融合與情感分類模塊。
圖1 DC-GCN模型
使用Glove將文本S={w1,w2,…,wn}的每個(gè)單詞都映射成一個(gè)三百維的詞向量,然后使用BiLSTM中對(duì)其進(jìn)行訓(xùn)練,生成了包含豐富上下文信息的文本詞向量矩陣E={e1,e2,…,en}。
2.2.1 具有上下文語義信息的句法依賴圖(SrG)構(gòu)造
首先,使用Spacy依賴解析器提取文本的句法依賴樹,以文本“The food is very good.”為例,將有向句法依賴轉(zhuǎn)換成無向句法依賴,并考慮單詞的自循環(huán),示例如圖2所示。
圖2 有向句法依賴(左)與無向句法依賴(右)
(1)
其中,i,j分別表示某一天評(píng)論數(shù)據(jù)中的第i,j個(gè)單詞。
(2)
(3)
其中,hi和hj分別表示數(shù)據(jù)本經(jīng)過BiLSTM層的第i和第j個(gè)單詞的詞向量,wq和wk是兩個(gè)可訓(xùn)練的參數(shù)矩陣,d表示詞向量的維度。
(4)
2.2.2 整合SenticNet詞典情感信息構(gòu)建的一個(gè)文本情感依賴圖(SeG)構(gòu)造
該文基于SenticNet詞典構(gòu)建了潛在的文本情感依賴圖(SeG),其中SenticNet詞典是由單詞及其單詞的情感得分組成,示例如表1所示。
表1 SentiNet詞典示例
(5)
另外,為了使網(wǎng)絡(luò)對(duì)方面項(xiàng)的關(guān)注度增加,增大了方面項(xiàng)的情感得分:
(6)
(7)
2.3.1 特征提取
該文基于SrG和SeG兩個(gè)文本依賴圖構(gòu)建了雙通道的圖卷積神經(jīng)網(wǎng)絡(luò),以同時(shí)利用文本上下文單詞的語義相關(guān)性和單詞自身的情感信息來提取增強(qiáng)后的句法特征和情感知識(shí)特征。
(8)
(9)
(10)
(11)
2.3.2 特征融合
首先使用拼接的方式,將雙通道圖卷積網(wǎng)絡(luò)輸出的文本特征進(jìn)行融合:
(12)
再使用平均池化提取特征的重要信息并對(duì)特征進(jìn)行降維:
(13)
(14)
(15)
2.5.1 方面項(xiàng)局部特征提取
使用卷積神經(jīng)網(wǎng)絡(luò)提取方面項(xiàng)的具局部特征,并過濾掉文本中非方面項(xiàng)特征,實(shí)現(xiàn)的方法如下:
(16)
(17)
(18)
2.5.2 方面項(xiàng)權(quán)重計(jì)算
首先運(yùn)用雙通道圖卷積網(wǎng)絡(luò)輸出的方面項(xiàng)特征和卷積神經(jīng)網(wǎng)絡(luò)輸出的方面項(xiàng)特征進(jìn)行計(jì)算,并在特征維度上做加法,得到最終方面項(xiàng)及非方面項(xiàng)的權(quán)重:
(19)
(20)
2.5.3 最終特征表示
最后將特征權(quán)重反饋到BiLSTM中,使得富含多種依賴信息的方面項(xiàng)特征感知到上下文的情感信息,以獲取最終的文本特征表示:
(21)
其中,ei是BiLSTM輸出的文本第i個(gè)單詞的向量表示。
在獲取到文本的最終特征表示后,將其饋送進(jìn)一個(gè)全連接層并使用softmax進(jìn)行歸一化,得到情感極性的概率分布p∈R(dp×2dh):
p=softmax(Wpr+bp)
(22)
其中,dp是情感類別的維度,dh是向量的維度,Wp和bp分別是一個(gè)可訓(xùn)練的參數(shù)矩陣和偏置。
文中模型選擇具有交叉熵?fù)p失和L2正則化的標(biāo)準(zhǔn)梯度下降算法進(jìn)行訓(xùn)練:
(23)
其中,D表示數(shù)據(jù)集,t表示標(biāo)簽,pt表示標(biāo)簽t的概率,θ表示所有可以訓(xùn)練的參數(shù),λ表示L2正則化的系數(shù)。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
在四個(gè)公開的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),Twitter數(shù)據(jù)集是從Twitter上收集整理的一些評(píng)論數(shù)據(jù);Rest14數(shù)據(jù)集和Lap14數(shù)據(jù)集來自于SemEval-2014方面級(jí)情感分析大賽;Rest16數(shù)據(jù)集是SenEval-2016方面級(jí)情感分析大賽提供的公開數(shù)據(jù)集。每個(gè)數(shù)據(jù)集都提供了方面項(xiàng)及其相應(yīng)的情感極性,數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)如表2所示。
表2 數(shù)據(jù)集
3.1.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境如表3所示。
表3 實(shí)驗(yàn)環(huán)境
3.1.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
為了便于與對(duì)比模型作比較,以體現(xiàn)文中模型的有效性,選擇ABSA任務(wù)模型性能的通用評(píng)價(jià)指標(biāo)─準(zhǔn)確率Acc和Macro-F1,兩者的計(jì)算過程如下所示:
(24)
(25)
(26)
(27)
(28)
其中,TP表示成功預(yù)測(cè)的正樣本數(shù),FP表示錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù),FN是錯(cuò)誤預(yù)測(cè)的正樣本數(shù),TN表示成功預(yù)測(cè)的負(fù)樣本數(shù),P為精確率,R是召回率,F1為精確率與召回率的調(diào)和平均,C是情感類別數(shù),F1υ為第υ個(gè)類別的F1值。
ATAE-LSTM[8]:利用方面嵌入和注意力機(jī)制進(jìn)行方面級(jí)情感分類。
IAN[24]:在BiLSTM的基礎(chǔ)上利用交互注意力機(jī)制,實(shí)現(xiàn)方面項(xiàng)與上下文信息的交互。
RAM[25]:使用多層注意力和記憶網(wǎng)絡(luò)學(xué)習(xí)句子表達(dá),用于方面級(jí)情感分析。
MGAN[26]:結(jié)合粗粒度和細(xì)粒度的注意力機(jī)制,設(shè)計(jì)了一個(gè)方面對(duì)齊損失實(shí)現(xiàn)不同方面項(xiàng)與上下文之間的詞級(jí)交互。
TNet[27]:將BiLSTM詞嵌入轉(zhuǎn)換為特定方面項(xiàng)嵌入,并用CNN提取用于分類的特征。
ASGCN[14]:首次提出基于句法依賴樹的圖卷積神經(jīng)網(wǎng)絡(luò)用于方面項(xiàng)情感分析。
CDT[28]:利用基于句法依賴樹的GCN來學(xué)習(xí)文本特征。
BiGCN[29]:提出基于詞共現(xiàn)信息和句法依賴樹的層次圖卷積網(wǎng)絡(luò)。
kumaGCN[30]:使用潛在的圖結(jié)構(gòu)信息來補(bǔ)充句法特征。
CPA-SA[31]:設(shè)計(jì)了兩個(gè)不對(duì)稱的上下文權(quán)重函數(shù)來調(diào)整方面項(xiàng)特征的權(quán)重。
IAGCN[32]:使用BiLSTM和修正動(dòng)態(tài)權(quán)重對(duì)上下文進(jìn)行建模,GCN對(duì)句法信息編碼,再利用交互注意力機(jī)制學(xué)習(xí)上下文和方面項(xiàng)的注意力,將上下文信息和方面項(xiàng)進(jìn)行重構(gòu)。
該文選取的對(duì)比模型涵蓋了方面級(jí)情感分析從2016年到2022年期間在方面級(jí)情感分析上取得良好效果的經(jīng)典模型以及最新的模型。對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。
表4 對(duì)比實(shí)驗(yàn)結(jié)果 %
分析表4結(jié)果發(fā)現(xiàn),與基線模型中取得最好效果的模型作對(duì)比,總體上文中模型取得了更優(yōu)的效果,在四個(gè)公開數(shù)據(jù)集(Twitter,Rest14,Lap14和Rest16)上Macro-F1分別比對(duì)比模型中最好的結(jié)果高出0.95百分點(diǎn)、1.24百分點(diǎn)、0.62百分點(diǎn)、2.75百分點(diǎn);在Twitter,Rest14,Rest16上Accuracy分別比對(duì)比模型中最好的結(jié)果高出0.68百分點(diǎn)、0.31百分點(diǎn)、1.03百分點(diǎn),但是在Lap14上Accuracy比CDT模型低0.07。對(duì)比了Lap14和Twitter,Rest14,Rest16的差別,發(fā)現(xiàn)Lap14中的數(shù)據(jù)對(duì)方面項(xiàng)隱式表達(dá)情感的樣本相較于其他三個(gè)數(shù)據(jù)集占比更高,這會(huì)導(dǎo)致模型更難根據(jù)文本依賴圖引導(dǎo)方面項(xiàng)感知上下文情感信息,從而影響模型的性能。
另外,在訓(xùn)練過程中,文中模型在BiLSTM和GCN網(wǎng)絡(luò)中均使用正則化來防止模型出現(xiàn)過擬合現(xiàn)象。為探究不同的正則化系數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,以Lap14為例,設(shè)置了5組正則化系數(shù)(在BiLSTM和GCN的正則化系數(shù)分別為0.7與0.4,0.7與0.5,0.7與0.6,0.6與0.5,0.8與0.5)展開對(duì)比實(shí)驗(yàn),結(jié)果如圖3所示。
圖3 不同正則化系數(shù)下的模型效果
圖3中橫坐標(biāo)B_0.7/G_0.4表示BiLSTM和GCN中的正則化參數(shù)分別設(shè)置為0.7和0.4,其余四個(gè)橫坐標(biāo)的含義以此類推;縱坐標(biāo)表示準(zhǔn)確率和F1值;經(jīng)圖3可知,正則化參數(shù)對(duì)模型最終的性能有影響,在BiLSTM和GCN網(wǎng)絡(luò)中的正則化參數(shù)選擇取得最好效果的0.7和0.5。
為驗(yàn)證具有上下文語義信息的句法依賴圖、基于情感知識(shí)構(gòu)建的文本情感依賴圖對(duì)提升模型性能的有效性,以及使用CNN提取方面項(xiàng)局部特征對(duì)更新方面項(xiàng)權(quán)重的有效性,在保持參數(shù)一致的情況下開展消融實(shí)驗(yàn),結(jié)果如表5所示。
表5 消融實(shí)驗(yàn)結(jié)果 %
DC-GCN:表示該文提出的完整的模型,使用了具有上下文語義信息的句法依賴圖(SrG)、情感知識(shí)構(gòu)建的文本情感依賴圖,并使用CNN提取的方面項(xiàng)局部特征用于更新方面項(xiàng)權(quán)重。
DC-GCN w/o SrG:表示在完整的模型中移除了具有上下文語義信息的句法依賴圖(SrG)。
DC-GCN w/o SeG:表示在完整的模型中移除了基于情感知識(shí)構(gòu)建的潛在的文本依賴圖(SeG)。
DC-GCN (SrG w/o Att):表示不使用自注意力機(jī)制對(duì)文本的句法依賴進(jìn)行增強(qiáng)。
DC-GCN w/o CNN:表示在計(jì)算方面項(xiàng)權(quán)重的過程中不使用CNN提取方面項(xiàng)的局部特征參與方面項(xiàng)權(quán)重更新過程。
根據(jù)表5中消融實(shí)驗(yàn)的結(jié)果證明:在移除具有上下文語義信息的SrG、移除基于情感知識(shí)構(gòu)建的SeG、移除SrG中的上下文信息、不使用CNN提取方面項(xiàng)的局部特征參與方面項(xiàng)權(quán)重更新過程,均會(huì)導(dǎo)致模型性能的下降。由此證明了所提方法在方面級(jí)情感分析上的有效性。
設(shè)計(jì)了具有上下文相關(guān)性的SrG和SeG,并基于兩個(gè)圖構(gòu)建了一個(gè)雙通道的圖卷積神經(jīng)網(wǎng)絡(luò)(DC-GCN),實(shí)現(xiàn)了對(duì)文本特征的優(yōu)化以及多種文本特征的有效融合,提升了模型在ABSA任務(wù)上的性能。通過大量實(shí)驗(yàn)證明該方法相比于基線模型有更好的效果。
雖然提出的模型在ABSA任務(wù)上取得了不錯(cuò)的效果,但模型仍有進(jìn)一步改進(jìn)的空間。一方面,可以設(shè)計(jì)更有效的特征融合方法以提升模型的性能;另一方面,需要將模型擴(kuò)展到更多的數(shù)據(jù)集上進(jìn)行訓(xùn)練,以增強(qiáng)模型的魯棒性。