徐丹,龔紅仿,羅容容
具有方面項(xiàng)和上下文表示的方面情感分析
徐丹,龔紅仿*,羅容容
(長(zhǎng)沙理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)沙 410114)( ? 通信作者電子郵箱ghongfang@126.com)
針對(duì)預(yù)測(cè)特定方面情感極性時(shí)存在只依賴單一方面項(xiàng)而忽略了同一句子中方面項(xiàng)之間間情感依賴關(guān)系的問(wèn)題,提出一種具有方面項(xiàng)和上下文表示的多層多跳記憶網(wǎng)絡(luò)(AICR-M3net)。首先,通過(guò)雙向門(mén)控循環(huán)單元(Bi-GRU)融合位置加權(quán)信息,并將隱藏層輸出作為混合上下文編碼層的輸入以獲取與上下文語(yǔ)義關(guān)聯(lián)度更高的上下文表示;其次,引入多層多跳記憶網(wǎng)絡(luò)(M3net)多次逐詞匹配方面詞和上下文,從而生成特定上下文的方面詞向量;同時(shí),建模特定方面項(xiàng)與句子中其他方面項(xiàng)的情感依賴性,從而引導(dǎo)特定方面項(xiàng)的上下文向量的生成。在Restaurant、Laptop和Twitter數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與AOA-MultiACIA (Attention-Over-Attention Multi-layer Aspect-Context Interactive Attention)相比,所提模型的分類準(zhǔn)確率分別提高了1.34、3.05和2.02個(gè)百分點(diǎn),F(xiàn)1值分別提高了3.90、3.78和2.94個(gè)百分點(diǎn)。以上驗(yàn)證了所提模型能更有效地處理上下文中多方面的混合信息,且在處理特定方面情感分類任務(wù)中具有一定的優(yōu)勢(shì)。
特定方面情感分析;情感依賴;記憶網(wǎng)絡(luò);多頭注意力機(jī)制;門(mén)控循環(huán)單元
情感分類是自然語(yǔ)言處理中一項(xiàng)重要的任務(wù),主要分析用戶對(duì)產(chǎn)品或者事件的評(píng)論的情感極性。與傳統(tǒng)的對(duì)評(píng)論句子或者文段的情感分類不同,針對(duì)特定方面的情感分類是情感分類的分支,它捕獲給定評(píng)論句子或者上下文中特定方面的情感極性,是一種更加細(xì)粒度的分析。例如句子“Everything is so easy to use, Mac software is just so much simpler than Microsoft software”,分別對(duì)目標(biāo)詞“use”和“Microsoft software”表達(dá)了積極和消極的情感。
特定方面情感分析的關(guān)鍵挑戰(zhàn)是如何設(shè)計(jì)有效的算法建模方面與它相對(duì)應(yīng)的意見(jiàn)詞部分,在同一個(gè)句子中可能存在多個(gè)方面詞,在判斷每個(gè)方面詞的情感極性時(shí)只需要上下文中的部分內(nèi)容。例如句子“The restaurant is good but the service is terrible”,“good”能確定方面詞“restaurant”的情感極性為積極,不影響判斷方面項(xiàng)“service”的情感極性。因此,精準(zhǔn)建模上下文和方面詞之間的語(yǔ)義具有挑戰(zhàn)性[1]。以往的研究集中通過(guò)注意力機(jī)制學(xué)習(xí)特定方面的上下文表示,相關(guān)模型也取得了較好的效果,但是仍然沒(méi)有有效提取目標(biāo)特定的情緒信息,模型在判斷的過(guò)程中也可能定位到不正確的目標(biāo)特征。
因此,作為一種替代方法,文獻(xiàn)[2]中提出的AOA(Attention-over-Attention)模型讓上下文和方面項(xiàng)分別參與對(duì)方的特征生成,相較于只使用注意力機(jī)制的模型,進(jìn)一步提高了性能。文獻(xiàn)[3]中提出了一種交互式注意網(wǎng)絡(luò)(Interactive Attention Network, IAN)交互式學(xué)習(xí)上下文和目標(biāo)的注意,并分別生成目標(biāo)和上下文的表示。在該網(wǎng)絡(luò)中,交互注意力機(jī)制在從給定方面詞的上下文中選擇性地提取目標(biāo)相關(guān)的情感信息,起著至關(guān)重要的作用;然而該模型的信息交互方法是粗粒度的,分別使用上下文和方面詞隱藏層輸出的向量平均后作為查詢向量,生成方面詞和上下文的表示,這種方法會(huì)造成一定的信息損失。
受問(wèn)答系統(tǒng)中記憶網(wǎng)絡(luò)(Memory Network, MN)[4]的啟發(fā),文獻(xiàn)[5]中將外部記憶網(wǎng)絡(luò)引入神經(jīng)系統(tǒng)。文獻(xiàn)[6]中提出了一種深度記憶網(wǎng)絡(luò)(deep Memory Network, MemNet)用于特定方面的情感分類,該模型通過(guò)多個(gè)計(jì)算層明確捕獲每個(gè)上下文的重要性,取得了和支持向量機(jī)(Support Vector Machine, SVM)性能相當(dāng)?shù)慕Y(jié)果。文獻(xiàn)[7]中引入門(mén)控循環(huán)單元(Gated Recurrent Unit, GRU)作為深度記憶網(wǎng)絡(luò)的門(mén)控機(jī)制,將注意力結(jié)果與遞歸神經(jīng)網(wǎng)絡(luò)非線性結(jié)合,提高了模型處理復(fù)雜語(yǔ)境的能力。文獻(xiàn)[8]中針對(duì)傳統(tǒng)MN僅依賴于注意力機(jī)制不能很好地檢測(cè)給定目標(biāo)的情緒特征的問(wèn)題,提出了一種目標(biāo)敏感記憶網(wǎng)絡(luò)(Target-sensitive Memory Network, TMN),以捕獲目標(biāo)敏感情緒。為了利用相關(guān)句法約束和單詞長(zhǎng)距離依賴性,文獻(xiàn)[9]中在依賴樹(shù)上構(gòu)建一個(gè)圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN),再結(jié)合注意力機(jī)制提取最終用于分類的特征。文獻(xiàn)[10]中考慮了具有邊緣約束的不同類型的鄰域,更有效地學(xué)習(xí)方面和目標(biāo)表示,用于具有交互注意力的方面情感分類。文獻(xiàn)[11]中使用一系列卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)從句子中捕獲多尺度信息,通過(guò)GCN和注意力機(jī)制將方面信息合并用于情感分析。文獻(xiàn)[12]中首先利用GCN提取句法依存樹(shù)上的句法信息,其次通過(guò)交互式學(xué)習(xí)生成上下文和方面表示。文獻(xiàn)[13]中考慮到了依賴項(xiàng)標(biāo)簽信息,集成類型化句法依賴信息提出了一種關(guān)系圖注意網(wǎng)絡(luò)(Relational Graph ATtention network, RGAT),實(shí)驗(yàn)結(jié)果證明有效利用標(biāo)簽信息能提高目標(biāo)情感分類性能。
上述預(yù)測(cè)模型通過(guò)捕獲上下文和方面項(xiàng)的相互作用提取對(duì)情感分析有效的特征,但是忽略了同一句話中特定方面項(xiàng)和其他方面項(xiàng)的情感依存關(guān)系。本文認(rèn)為,方面項(xiàng)之間的情感依賴有助于生成更精確的特定方面項(xiàng)的句子特征表示,因此要建立一個(gè)有效的記憶網(wǎng)絡(luò)用于方面情感分類需要考慮以下幾點(diǎn):
1)方面項(xiàng)之間的情感依賴信息有助于生成更精確的句子特征表示。例如在句子“The best thing about this laptop is the price along with some of the newer features”中,方面項(xiàng)“newer features”沒(méi)有明顯修飾的情感詞,但是通過(guò)鄰近方面項(xiàng)“price”積極的情感極性和“along with”表達(dá)的并列關(guān)系可以得知它的情感極性是積極的。
2)與上下文相同,部分目標(biāo)詞中也包含多個(gè)詞語(yǔ),每個(gè)詞語(yǔ)在生成最終目標(biāo)詞的表示時(shí)貢獻(xiàn)不同,因此需要計(jì)算各個(gè)詞語(yǔ)的重要度以捕獲相關(guān)信息。例如方面詞“cooling system”中,“system”在方面詞的角色更關(guān)鍵。
3)考慮到位置信息在方面項(xiàng)和上下文語(yǔ)境之間的作用,直覺(jué)上越接近方面項(xiàng)的詞語(yǔ)對(duì)判斷方面的情感貢獻(xiàn)越大。
基于以往研究的不足,本文提出一種具有方面項(xiàng)和上下文表示的多層多跳記憶網(wǎng)絡(luò)(Multi-layer Multi-hop Memory network with Aspect Item and Context Representation, AICR-M3net),用于方面情感分析。
本文的主要工作如下:
1)提出AICR-M3net用于方面情感分類。通過(guò)多次提取方面項(xiàng)之間的情感依賴信息用于合成特定方面項(xiàng)的情感分類特征向量,并通過(guò)GRU剔除冗余信息,保留對(duì)情感分類有用的特征用于下一個(gè)計(jì)算層的更新。
2)對(duì)方面項(xiàng)單獨(dú)建模,逐詞匹配方面詞和上下文,生成特定的方面詞向量。
3)考慮上下文關(guān)于特定方面項(xiàng)的位置信息的有效性,通過(guò)對(duì)雙向門(mén)控循環(huán)單元(Bi-directional GRU, Bi-GRU)融合位置特征,獲得上下文和方面項(xiàng)向量表示。
AICR-M3net的模型架構(gòu)如圖1所示。模型包含4個(gè)部分:嵌入層、混合上下文編碼層、多層多跳記憶層和輸出層,其中:嵌入層生成位置感知的字向量表示;混合上下文編碼層獲得與句子語(yǔ)義更相關(guān)的特征表示,以涵蓋單詞之間的長(zhǎng)距離依賴;多層多跳記憶層對(duì)給定方面和句子中其他方面依賴關(guān)系建模,分別生成更準(zhǔn)確的上下文和方面詞向量,用于情感分類。
圖1 AICR-M3net模型框架
模型的嵌入層由位置加權(quán)和Bi-GRU兩部分組成。獲得句子和方面項(xiàng)對(duì)應(yīng)的詞向量表示后進(jìn)行位置加權(quán),再通過(guò)Bi-GRU融合位置特征,獲得上下文和方面項(xiàng)向量表示。
為了融合位置信息,獲得整個(gè)模型的輸入詞向量,本文模型使用Bi-GRU網(wǎng)絡(luò),GRU通過(guò)重置門(mén)和更新門(mén)控制輸入和輸出,利用門(mén)控機(jī)制讓模型學(xué)習(xí)當(dāng)前時(shí)刻的依賴關(guān)系,時(shí)刻重置門(mén)和更新門(mén)的計(jì)算公式為:
混合上下文編碼層的主要目的是捕獲語(yǔ)義特征,生成新的單詞向量用于方面間情感依賴關(guān)系建模。本文采用多頭注意力(Multi-Head Attention, MHA)機(jī)制生成上下文的語(yǔ)義編碼[15]。內(nèi)部多頭注意力(intra-MHA)機(jī)制是MHA中一種特殊情況,通過(guò)多通道機(jī)制可以在訓(xùn)練的過(guò)程中學(xué)習(xí)前文與自身、后文與自身的依賴關(guān)系和自身內(nèi)部關(guān)系。
具體地,
為了準(zhǔn)確預(yù)測(cè)目標(biāo)方面詞的情感極性,需要獲得更準(zhǔn)確的上下文表示。受文獻(xiàn)[16]啟發(fā),考慮到同一句話中不同的方面詞的情感具有的依賴性,將多層多跳記憶網(wǎng)絡(luò)(Multi-layer Multi-hop Memory Network, M3net)用于建模特定方面項(xiàng)與其他方面項(xiàng)間的依賴關(guān)系。本文所闡述的“多跳”指在單個(gè)計(jì)算層中包含兩個(gè)計(jì)算步驟:一是生成問(wèn)題向量表示,二是捕捉方面項(xiàng)之間的情感依賴生成上下文表示。
選取一個(gè)句子中的特定方面項(xiàng)輸入MN,首先需要生成方面項(xiàng)單個(gè)詞匯特定的特征表示。方面詞與上下文相同,也可以由多個(gè)詞語(yǔ)組成,每個(gè)詞對(duì)它生成的最終表示貢獻(xiàn)不同,將它們均值化后作為方面項(xiàng)的特征表示不合適;因此考慮逐詞匹配方面詞和上下文,生成特定的方面詞向量,即問(wèn)題向量,用于在上下文特征中計(jì)算特定方面項(xiàng)與句子中其他方面項(xiàng)情感依賴的相關(guān)信息,生成更準(zhǔn)確的上下文特征表示。M3net是單層網(wǎng)絡(luò)的疊加,每個(gè)計(jì)算層使用兩個(gè)GRU作為門(mén)控機(jī)制分別重置更新上下文到方面的注意信息和方面項(xiàng)之間的注意信息。單層訓(xùn)練過(guò)程如下:
其中pooling為平均池化函數(shù)。
3)M3net更新。單層MN可能無(wú)法充分提取情感依賴信息,因此本文將多個(gè)計(jì)算層疊加,每一層得到比上一層更精確的上下文和方面詞表示。MN的更新分為兩個(gè)部分:
在模型訓(xùn)練的過(guò)程中,引入L2正則化機(jī)制,通過(guò)最小化交叉熵函數(shù)優(yōu)化模型參數(shù),目標(biāo)函數(shù)的定義如下:
本文使用Twitter數(shù)據(jù)集[17],以及SemEval 2014任務(wù)4中提供的用于方面情感分析的評(píng)論公開(kāi)數(shù)據(jù)集[18]:Laptop數(shù)據(jù)集和Restaurant數(shù)據(jù)集,3個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果如表1所示。
表1 數(shù)據(jù)集詳情
在本文實(shí)驗(yàn)中,使用預(yù)訓(xùn)練的BERT初始化詞向量,維度為768,隱藏層的維度設(shè)置為300。模型的所有權(quán)重使用均勻分布初始化。注意力的頭數(shù)、GCN層和深度交互層是本文實(shí)驗(yàn)的重要參數(shù),采用網(wǎng)格搜索的方式調(diào)整這3個(gè)參數(shù)。模型的主要參數(shù)值見(jiàn)表2。此外設(shè)置早停機(jī)制,如果模型連續(xù)5輪訓(xùn)練性能沒(méi)有提高,將自動(dòng)停止訓(xùn)練并保留最佳模型。本文的句法依存樹(shù)由開(kāi)源工具Spacy的依存解析器生成。本文采用準(zhǔn)確率(ACCuracy,ACC)和Macro-F1(F1)評(píng)估針對(duì)特定方面情感分類模型的性能。
表2 每個(gè)數(shù)據(jù)集的主要參數(shù)值
為了評(píng)估本文模型的性能,選擇了以下前沿模型作為基準(zhǔn)模型:
1)長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)[17]。使用單一模型LSTM的隱藏層的輸出進(jìn)行情感分類。
2)目標(biāo)相關(guān)的長(zhǎng)短時(shí)記憶(Target-Dependent LSTM, TD-LSTM)網(wǎng)絡(luò)[1]。將句子以方面詞為界分為左右兩個(gè)部分,分別輸入LSTM,將左上下文和右上下文的隱藏狀態(tài)轉(zhuǎn)移到目標(biāo)以獲得情感信息。
3)基于注意的方面嵌入的長(zhǎng)短時(shí)記憶(ATtention-based LSTM with Aspect Embedding, ATAE-LSTM)網(wǎng)絡(luò)[19]。為了更好地捕獲方面信息,將方面詞嵌入向量和上下文嵌入向量拼接后輸入LSTM,得到的隱藏層輸出結(jié)合注意力機(jī)制捕獲方面詞和上下文的依賴信息進(jìn)行情感分類。
4)深度交互式記憶網(wǎng)絡(luò)(Deep Interactive Memory Network, DIMN)[20]?;谧⒁饬吞厥忾T(mén)控機(jī)制構(gòu)建了一個(gè)深度交互記憶網(wǎng)絡(luò),以捕獲目標(biāo)和上下文的多個(gè)交互,為目標(biāo)和上下文生成特定的記憶,有助于情感分類。
5)注意力編碼網(wǎng)絡(luò)(Attentional Encoder Network, AEN)[15]。針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)難以并行化的問(wèn)題,設(shè)計(jì)了一種基于多頭注意力編碼的網(wǎng)絡(luò)在上下文和方面詞之間建模。
6)IAN[3]?;贚STM和注意力機(jī)制的交互式注意力網(wǎng)絡(luò)。利用與目標(biāo)相關(guān)聯(lián)的注意力機(jī)制從上下文中提取重要信息,生成上下文表示;同理,利用上下文與目標(biāo)的交互信息監(jiān)督目標(biāo)的生成,拼接向量后用于情感分類。
7)具有語(yǔ)義依賴和上下文矩的深度掩碼記憶網(wǎng)絡(luò)(Deep Mask Memory Network with Semantic Dependency and Context Moment, DMMN-SDCM)[21]。一種具有語(yǔ)義依賴和上下文時(shí)刻的深度掩碼記憶網(wǎng)絡(luò)。將方面的語(yǔ)義解析信息和方面間的相關(guān)信息集成在記憶網(wǎng)絡(luò)中,引用語(yǔ)義解析信息代替?zhèn)鹘y(tǒng)的位置信息引導(dǎo)注意力機(jī)制,同時(shí)有效學(xué)習(xí)其他非目標(biāo)方面提供的信息。
8)AOA-MultiACIA(Attention-Over-Attention Multi-layer Aspect-Context Interactive Attention)[22]。一種上下文和方面詞的深層交互模型,僅依賴注意力機(jī)制在上下文中捕獲特定方面相關(guān)特征,合成更精確的方面詞表示。
9)具有位置感知的分層門(mén)控深度記憶網(wǎng)絡(luò)(Hierarchical Gated Deep Memory network with Position-Aware, HGDM-PA)[23]。提出了細(xì)粒度信息交互機(jī)制,對(duì)方面詞和上下文之間的詞級(jí)交互建模,并且將位置信息作為特征嵌入句子的表示中,從而獲得句子和方面詞的特征表示。
實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,本文模型在3個(gè)數(shù)據(jù)集上的方面情感分類結(jié)果均為最優(yōu),在Restaurant、Laptop和Twitter數(shù)據(jù)集上,比AOA-MultiACIA的分類準(zhǔn)確率分別提升了1.34、3.05和2.02個(gè)百分點(diǎn),F(xiàn)1分別提升了3.90、3.78和2.94個(gè)百分點(diǎn)。結(jié)果表明對(duì)方面短語(yǔ)單獨(dú)建模并利用其他非目標(biāo)方面的情感依賴信息,對(duì)特定方面的情感分類的準(zhǔn)確率的提高有一定作用。
傳統(tǒng)的LSTM、TD-LSTM模型僅粗粒度學(xué)習(xí)上下文的語(yǔ)義關(guān)系,對(duì)方面項(xiàng)前后的上下文賦予的權(quán)重一致,無(wú)法考慮到上下文中方面詞的信息。一般地,基于注意力的模型優(yōu)于基于LSTM的模型,ATAE-LSTM在方面詞的監(jiān)督下,使用單個(gè)注意力對(duì)句子和目標(biāo)建模,在Restaurant和Laptop數(shù)據(jù)集上,相較于LSTM和TD-LSTM,分類準(zhǔn)確率分別提升了1.70~2.92和1.00~2.25個(gè)百分點(diǎn)。由于數(shù)據(jù)集中可能出現(xiàn)多個(gè)方面項(xiàng),因此考慮到方面項(xiàng)和上下文交互作用的AOA-MultiACIA、AEN、IAN模型在3個(gè)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于基于單個(gè)注意力機(jī)制的ATAE-LSTM模型。而本文模型基于M3net,實(shí)質(zhì)是多重注意網(wǎng)絡(luò),相較于ATAE-LSTM,在3個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率分別提升了6.73、9.62和5.02個(gè)百分點(diǎn)。說(shuō)明基于方面項(xiàng)引導(dǎo)注意力機(jī)制對(duì)捕獲方面項(xiàng)相關(guān)的情感特征是有效的。
在Restaurant和Laptop數(shù)據(jù)集上,本文模型相較于性能較好的HGDM-PA的分類準(zhǔn)確率分別提升了1.98和3.50個(gè)百分點(diǎn)。HGDM-PA和本文模型都使用記憶網(wǎng)絡(luò),區(qū)別是本文的記憶網(wǎng)絡(luò)在殘差連接的基礎(chǔ)上對(duì)每一個(gè)計(jì)算層外部記憶和查詢特征向量更新,經(jīng)過(guò)多個(gè)計(jì)算層,每一層都利用特定方面項(xiàng)和句子中其他方面的情感信息合成更精確的特定方面的上下文表示。DMMN-SDCM在深度掩碼記憶網(wǎng)絡(luò)中有效學(xué)習(xí)其他非目標(biāo)方面提供的信息,在Laptop數(shù)據(jù)集上分類準(zhǔn)確率僅次于本文模型。本文模型同樣使用一個(gè)句子中特定方面項(xiàng)和其他方面項(xiàng)的依賴關(guān)系對(duì)上下文建模,比其他基準(zhǔn)模型的分類準(zhǔn)確率高。
表3 不同數(shù)據(jù)集上的方面情感分類實(shí)驗(yàn)結(jié)果 單位:%
2.3.1模型消融分析
為了驗(yàn)證AICR-M3net各個(gè)子模塊對(duì)模型性能的影響,本文對(duì)模型進(jìn)行了消融,分別在Restaurant、Laptop和Twitter數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果見(jiàn)圖2。
從圖2可以看出,消融后的模型在3個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率和F1評(píng)估指標(biāo)都不如原始模型,表明,被消融的子模塊對(duì)提高模型性能至關(guān)重要。首先,混合上下文編碼前取消對(duì)句子表示的位置編碼(AICR-M3net w/o POS),在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率和F1均有一定的下降,表明接近特定方面項(xiàng)的詞語(yǔ)對(duì)最終的情感分析預(yù)測(cè)有一定的作用。其次,用Bi-GRU代替方面項(xiàng)單獨(dú)建模(AICR-M3net w/o A),在3個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率也有一定程度的下降。最后,取消使用方面間情感依賴引導(dǎo)特定方面項(xiàng)的上下文生成(AICR-M3net w/o IA),相較于前兩次消融,模型的效果進(jìn)一步下降,表明建模特定方面項(xiàng)與句子中其他方面項(xiàng)情感依賴性對(duì)最終的情感分類起著關(guān)鍵作用。
圖2 移除關(guān)鍵模塊對(duì)準(zhǔn)確率和F1值的影響
2.3.2記憶網(wǎng)絡(luò)的層數(shù)對(duì)性能的影響
為了驗(yàn)證多重多跳記憶網(wǎng)絡(luò)的層數(shù)對(duì)模型性能的影響,在Restaurant、Laptop和Twitter數(shù)據(jù)集上設(shè)置層數(shù)從1到8進(jìn)行實(shí)驗(yàn),以準(zhǔn)確率和F1為評(píng)價(jià)指標(biāo),得到在不同層數(shù)下,AICR-M3net在3個(gè)數(shù)據(jù)集上的方面情感分類的準(zhǔn)確率和F1值,結(jié)果如表4所示。
表4 M3net層數(shù)對(duì)準(zhǔn)確率和F1值的影響 單位:%
從表4可以看出,多個(gè)計(jì)算層對(duì)模型情感分類能力的提升是有效的。在Restaurant數(shù)據(jù)集上,設(shè)置多重多跳記憶網(wǎng)絡(luò)的層數(shù)為5時(shí),準(zhǔn)確率和F1都最高;在Laptop數(shù)據(jù)集上設(shè)置層數(shù)為3時(shí),模型達(dá)到最佳性能;在Twitter數(shù)據(jù)集上,當(dāng)記憶網(wǎng)絡(luò)計(jì)算層為6時(shí),準(zhǔn)確率和F1最高。因此,在設(shè)置模型的超參數(shù)時(shí),在Restaurant、Laptop和Twitter數(shù)據(jù)集上分別設(shè)置層數(shù)為5、3、6。這說(shuō)明具有不同層數(shù)記憶網(wǎng)絡(luò)的模型的分類性能不同,表明AICR-M3net對(duì)特定目標(biāo)和其他非特定目標(biāo)項(xiàng)的情感依賴信息進(jìn)行了有效的建模,生成了與特定目標(biāo)更相關(guān)的上下文特征向量表示。當(dāng)跳級(jí)數(shù)大于5時(shí),模型在3個(gè)公開(kāi)數(shù)據(jù)集上的性能開(kāi)始下降,這是因?yàn)殡S著層數(shù)增多,模型參數(shù)也增多,出現(xiàn)過(guò)擬合現(xiàn)象,因此設(shè)置合適的參數(shù)有助于分類性能的提高。
利用本文模型和基準(zhǔn)模型IAN[15]、ATBL-MHMN[15]模型進(jìn)行分類性能的對(duì)比分析,以此研究本文模型的泛化能力。將樣本數(shù)據(jù)集Restaurant和Laptop根據(jù)評(píng)論句子中含有單個(gè)方面或多個(gè)方面進(jìn)行分類形成4個(gè)數(shù)據(jù)集,分別為Restaurant單方面、Restaurant多方面、Laptop單方面和Laptop多方面。分別在這4個(gè)數(shù)據(jù)集上展開(kāi)實(shí)驗(yàn),得到各個(gè)模型在單方面和多方面數(shù)據(jù)集上情感分類的結(jié)果,如表5所示。
表5 在單方面和多方面數(shù)據(jù)集上的情感分類準(zhǔn)確率 單位:%
由表5可知,本文模型在2個(gè)單方面數(shù)據(jù)集上的情感分類準(zhǔn)確率比IAN模型提高了7.20個(gè)百分點(diǎn)和4.90個(gè)百分點(diǎn),由此可見(jiàn)本文模型對(duì)于只含有一個(gè)方面項(xiàng)的評(píng)論句子進(jìn)行情感分類時(shí)性能有所提升。本文模型在2個(gè)多方面數(shù)據(jù)集上的分類準(zhǔn)確率比IAN模型提高了5.80個(gè)百分點(diǎn)和6.50個(gè)百分點(diǎn),比ATBL-MHMN模型提高了3.02個(gè)百分點(diǎn)和4.00個(gè)百分點(diǎn)。由于單個(gè)句子中方面項(xiàng)的個(gè)數(shù)增加,導(dǎo)致單個(gè)句子中情感信息增多,IAN模型在區(qū)分特定方面項(xiàng)對(duì)應(yīng)的情感信息上優(yōu)勢(shì)減弱,故分類準(zhǔn)確率降低。ATBL-MHMN模型在Bi-LSTM的基礎(chǔ)上,使用了端到端記憶網(wǎng)絡(luò),一定程度上提高了模型的分類性能。本文模型除了引入方面項(xiàng)的位置信息外,將GRU融入記憶網(wǎng)絡(luò)中剔除冗余信息,分別生成方面項(xiàng)和特定方面項(xiàng)句子的上下文表示,多次提取特定方面項(xiàng)的情感依賴信息,同時(shí)對(duì)方面項(xiàng)進(jìn)行單獨(dú)建模。根據(jù)以上分析,本文模型能很好地處理多方面評(píng)論句子的情感極性分類,泛化能力較強(qiáng)。
本文通過(guò)Bi-GRU融合上下文中每個(gè)詞的位置權(quán)重,用多頭注意力機(jī)制得到句子的語(yǔ)義編碼,使用改進(jìn)的多層記憶網(wǎng)絡(luò)捕獲方面項(xiàng)之間的情感依賴關(guān)系,生成特定上下文的方面項(xiàng)表示和特定方面項(xiàng)的上下文表示,以確定特定方面項(xiàng)在句子中的情感極性。在3個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型能夠有效處理上下文中的方面混合信息,可以構(gòu)建與特定方面項(xiàng)更相關(guān)的情感特征向量。未來(lái)將進(jìn)一步完善模型,提高模型的語(yǔ)義識(shí)別能力,以更好地分析一些不符合語(yǔ)法的句子,進(jìn)一步擴(kuò)大模型的應(yīng)用范圍。
[1] TANG D, QIN B, FENG X, et al. Effective LSTMs for target-dependent sentiment classification[C]// Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. [S.l.]: The COLING 2016 Organizing Committee, 2016: 3298-3307.
[2] HUANG B, OU Y, CARLEY K M. Aspect level sentiment classification with attention-over-attention neural networks[C]// Proceedings of the 2018 International Conference on Social Computing, Behavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation, LNCS 10899. Cham: Springer, 2018: 197-206.
[3] MA D, LI S, ZHANG X, et al. Interactive attention networks for aspect-level sentiment classification[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2017: 4068-4074.
[4] WESTON J, CHOPRA S, BORDES A. Memory networks[EB/OL]. (2015-11-29) [2022-04-13].https://arxiv.org/pdf/1410.3916.pdf.
[5] SUKHBAATAR S, SZLAM A, WESTON J, et al. End-to-end memory networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems — Volume 2. Cambridge: MIT Press, 2015: 2440-2448.
[6] TANG D, QIN B, LIU T. Aspect level sentiment classification with deep memory network[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 214-224.
[7] CHEN P, SUN Z, BING L, et al. Recurrent attention network on memory for aspect sentiment analysis[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 452-461.
[8] WANG S, MAZUMDER S, LIU B, et al. Target-sensitive memory networks for aspect sentiment classification[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2018: 957-967.
[9] ZHANG C, LI Q, SONG D. Aspect-based sentiment classification with aspect-specific graph convolutional networks[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2019: 4568-4578.
[10] XIAO Y, ZHOU G. Syntactic edge-enhanced graph convolutional networks for aspect-level sentiment classification with interactive attention[J]. IEEE Access, 2020, 8: 157068-157080.
[11] ZHA Y, XIE Y, HUANG Q, et al. Aspect level sentiment classification with multi-scale information[C]// Proceedings of the 2nd International Conference on Electronics, Communications and Information Technology. Piscataway: IEEE, 2021: 279-285.
[12] HAN H, QIN X, ZHAO Q. Interactive attention graph convolution networks for aspect-level sentiment classification[C]// Proceedings of the 3rd International Conference on Artificial Intelligence and Advanced Manufacture. Piscataway: IEEE, 2021: 271-275.
[13] BAI X, LIU P, ZHANG Y. Investigating typed syntactic dependencies for targeted sentiment classification using graph attention neural network[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 503-514.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[15] SONG Y, WANG J, JIANG T, et al. Attentional encoder network for targeted sentiment classification[EB/OL]. (2019-04-01) [2022-07-05].https://arxiv.org/pdf/1902.09314.pdf.
[16] 盧天蘭,陳荔. 面向方面級(jí)別情感分析的端到端多跳記憶網(wǎng)絡(luò)[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(5): 1409-1415, 1427.(LU T L, CHEN L. End-to-end multi-hop memory network for aspect-level sentiment analysis[J]. Application Research of Computers, 2021, 38(5): 1409-1415, 1427.)
[17] DONG L, WEI F, TAN C, et al. Adaptive recursive neural network for target-dependent Twitter sentiment classification[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: ACL, 2014: 49-54.
[18] PONTIKI M, GALANIS D, PAVLOPOULOS J, et al. SemEval-2014 Task 4: aspect based sentiment analysis[C]// Proceedings of the 8th International Workshop on Semantic Evaluation. Stroudsburg, PA: ACL, 2014:27-35.
[19] WANG Y, HUANG M, ZHU X, et al. Attention-based LSTM for aspect-level sentiment classification[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 606-615.
[20] SUN C, LV L, TIAN G, et al. Deep interactive memory network for aspect-level sentiment analysis[J]. ACM Transactions on Asian and Low-Resource Language Information Processing, 2021, 20(1): No.3.
[21] LIN P, YANG M, LAI J. Deep mask memory network with semantic dependency and context moment for aspect level sentiment classification[C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2019: 5088-5094.
[22] WU Z, LI Y, LIAO J, et al. Aspect-context interactive attention representation for aspect-level sentiment classification[J]. IEEE Access, 2020, 8: 29238-29248.
[23] JIA Z, BAI X, PANG S. Hierarchical gated deep memory network with position-aware for aspect-based sentiment analysis[J]. IEEE Access, 2020, 8: 136340-136347.
Aspect sentiment analysis with aspect item and context representation
XU Dan, GONG Hongfang*, LUO Rongrong
(,,410114,)
When predicting the emotional polarity of a specific aspect, there is a problem of only depending on a single aspect item and ignoring the emotional dependence between aspect items in the same sentence, a Multi-layer Multi-hop Memory network with Aspect Item and Context Representation (AICR-M3net) was proposed. Firstly, the position weighting information was fused by Bi-directional Gated Recurrent Unit (Bi-GRU), and the hidden layer output was used as the input of the mixed context coding layer to obtain a context representation with higher semantic relevance to the context. Then, Multi-layer Multi-hop Memory Networks (M3net) was introduced to match aspect words and context many times and word by word to generate aspect word vectors of specific context. At the same time, the emotional dependence between specific aspect item and other aspect items in the sentence was modeled to guide the generation of context vector of specific aspect item. Experimental results on Restaurant, Laptop and Twitter datasets show that the proposed model has the classification accuracy improved by 1.34, 3.05 and 2.02 percentage points respectively, and the F1 score increased by 3.90, 3.78 and 2.94 percentage points respectively, compared with AOA-MultiACIA (Attention-Over-Attention Multi-layer Aspect-Context Interactive Attention). The above verifies that the proposed model can deal with the mixed information with multiple aspects in context more effectively, and has certain advantages in dealing with the sentiment classification task in specific aspects.
aspect-specific sentiment analysis; emotional dependence; Memory Network (MN); Multi-Head Attention (MHA) mechanism; Gated Recurrent Unit (GRU)
This work is partially supported by National Natural Science Foundation of China (61972055), Natural Science Foundation of Hunan Province (2021JJ30734).
XU Dan, born in 1997, M. S. candidate. Her research interests include natural language processing, sentiment analysis.
GONG Hongfang, born in 1968, Ph. D., professor. His research interests include machine learning, intelligent information processing, queuing theory and its applications.
LUO Rongrong, born in 1997, M. S. candidate. Her research interests include natural language processing, sentiment analysis.
1001-9081(2023)10-3086-07
10.11772/j.issn.1001-9081.2022101482
2022?10?11;
2023?04?04;
國(guó)家自然科學(xué)基金資助項(xiàng)目(61972055);湖南省自然科學(xué)基金資助項(xiàng)目(2021JJ30734)。
徐丹(1997—),女,湖南婁底人,碩士研究生,主要研究方向:自然語(yǔ)言處理、情感分析; 龔紅仿(1968—),男,湖北天門(mén)人,教授,博士生導(dǎo)師,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、智能信息處理、排隊(duì)論及應(yīng)用; 羅容容(1997—),女,湖南邵陽(yáng)人,碩士研究生,主要研究方向:自然語(yǔ)言處理、情感分析。
TP391.1
A
2023?04?10。