武婷 曹春萍
摘 要:針對(duì)傳統(tǒng)的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型不能對(duì)方面特征和情感信息進(jìn)行有效關(guān)注,以及不同距離或不同方向的上下文詞對(duì)方面詞的情感極性判斷有不同的貢獻(xiàn)等問(wèn)題,提出一種融合位置權(quán)重的基于注意力交叉注意力的長(zhǎng)短期記憶方面情感分析模型(LWAOA-LSTM)。首先,為詞向量加入位置權(quán)重信息;然后,使用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)同時(shí)對(duì)方面和句子進(jìn)行建模以生成方面表示和句子表示,同時(shí)通過(guò)注意力交叉注意力模塊共同學(xué)習(xí)方面和句子的表示以獲得方面到文本和文本到方面的交互關(guān)注,并自動(dòng)關(guān)注句子中的重要部分;最后,在景點(diǎn)、餐飲、住宿不同主題數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了該模型對(duì)方面情感分析的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,所提模型在景點(diǎn)、餐飲、住宿主題數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到78.3%、80.6%和82.1%,取得了比傳統(tǒng)LSTM網(wǎng)絡(luò)模型更好的效果。
關(guān)鍵詞:深度學(xué)習(xí);方面情感分析;位置加權(quán)詞向量;注意力交叉注意力;長(zhǎng)短期記憶網(wǎng)絡(luò)
中圖分類(lèi)號(hào):?TP183; TP391.1
文獻(xiàn)標(biāo)志碼:A
Aspect level sentiment classification model with location weight and long-short term memory based on attention-over-attention
WU Ting*, CAO Chunping
School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200082, China
Abstract:
The traditional attention-based neural network model can not effectively pay attention to aspect features and sentiment information, and context words of different distances or different directions have different contributions to the sentiment polarity assessment of aspect words. Aiming at these problems, Location Weight and Attention-Over-Attention Long-short Term Memory (LWAOA-LSTM) model was proposed. Firstly, the location weight information was added to the word vectors. Then Long-Short Term Memory (LSTM) network was used to simultaneously model aspects and sentences to generate aspect representation and sentence representation, and the aspect and sentence representations were learned simultaneously through attention-over-attention module to obtain the interactions
from the aspect to the text and from the text to the aspect, and the important part of the sentence was automatically paid attention to. Finally, the experiments were carried out on different thematic datasets of attractions, catering and accommodation, and the accuracy of the aspect level sentiment analysis by the model was verified. Experimental results show that the accuracy of the model on the datasets of attractions, catering and accommodation is 78.3%, 80.6% and 82.1% respectively, and LWAOA-LSTM has better performance than traditional LSTM network model.
Key words:
deep learning; aspect level sentiment classification; location-weighted word vector; attention-over-attention; Long-Short Term Memory (LSTM) network
0 引言
隨著互聯(lián)網(wǎng)進(jìn)入Web 2.0時(shí)代,人們?cè)絹?lái)越喜歡使用網(wǎng)絡(luò)分享知識(shí)、經(jīng)驗(yàn)、意見(jiàn)和感受等,這些評(píng)論性文本蘊(yùn)含了大量的情感信息,如何從社交網(wǎng)絡(luò)文本信息中挖掘用戶(hù)的情感傾向已得到越來(lái)越多研究人員的關(guān)注。不像文檔級(jí)情感分析[1],基于方面情感分析是一個(gè)更細(xì)粒度的分類(lèi)任務(wù),當(dāng)一個(gè)句子中出現(xiàn)了多個(gè)方面時(shí),基于方面情感分析克服了文檔情感分析的一個(gè)局限性,能夠針對(duì)文本中特定一方面來(lái)分析其情感極性(例如積極、消極、中立)。例如句子“這家飯店味 道不錯(cuò),但服務(wù)不好”,“食物味道”方面的情感極性為積極,而“服務(wù)”方面的情感極性卻是消極的。這個(gè)例子中涉及到兩個(gè)方面,因?yàn)楦鱾€(gè)方面的情感極性不同,句子的整體情感判斷是不準(zhǔn)確的。如果忽略了方面信息,那么將很難獲得特定方面的情感極性。這種錯(cuò)誤普遍存在于情感分析任務(wù)中。在最近的一個(gè)研究中,Jiang等[2]手工評(píng)估了Twitter情感分類(lèi)器,結(jié)果表明40%的情感分類(lèi)錯(cuò)誤都是因?yàn)闆](méi)有考慮方面信息。因此,方面情感分析具有很大的研究?jī)r(jià)值。
目前,已經(jīng)提出很多方法來(lái)處理基于方面情感分析問(wèn)題。傳統(tǒng)的基于規(guī)則和詞典的方法,大多數(shù)依靠情感詞典的建立,性能好壞與規(guī)則和人工干預(yù)密不可分[3]。基于機(jī)器學(xué)習(xí)的方法通過(guò)監(jiān)督訓(xùn)練來(lái)構(gòu)建機(jī)器學(xué)習(xí)分類(lèi)器,但人工設(shè)計(jì)特征的分類(lèi)器仍需要依賴(lài)復(fù)雜的人工規(guī)則和特征工程[4]。近年來(lái),由于無(wú)需特征工程就可以從數(shù)據(jù)中學(xué)習(xí)表示,深度學(xué)習(xí)在自然語(yǔ)言處理任務(wù)中越來(lái)越受歡迎[5]。其中,長(zhǎng)短期記憶(Long-Short Term Memory, LSTM)網(wǎng)絡(luò)可以解決梯度爆炸或消失的問(wèn)題,被廣泛應(yīng)用于方面級(jí)情感分析,如Target-Dependent LSTM(TD-LSTM)、Target-Connection LSTM(TC-LSTM)等。 同時(shí),結(jié)合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理任務(wù)中取得了比傳統(tǒng)方法更好的效果,加入注意力機(jī)制不僅可以提高閱讀理解力,而且能關(guān)注句子的特定方面[6-8]。但是對(duì)于中文評(píng)論尤其是長(zhǎng)篇評(píng)論,其中會(huì)包含很多與方面情感判斷無(wú)關(guān)的單詞,會(huì)對(duì)方面情感分析的準(zhǔn)確率產(chǎn)生影響。
近年來(lái),方面級(jí)情感分析任務(wù)取得了很好的發(fā)展,從各種研究中可以發(fā)現(xiàn)研究方面情感分析的關(guān)鍵因素主要有三個(gè):結(jié)合上下文后方面詞的語(yǔ)義信息、方面詞與上下文詞之間的相關(guān)性和方面詞在上下文中的位置信息??紤]到所有三個(gè)關(guān)鍵因素,可以獲得更好的效果,然而,尚未有模型充分考慮上述三個(gè)因素。研究發(fā)現(xiàn)不同位置的單詞對(duì)特定方面的情感極性判斷有不同的貢獻(xiàn),并且關(guān)鍵詞總是位于方面的一側(cè),綜合考慮方面情感分析的三個(gè)關(guān)鍵因素,本文提出了
一種融合位置權(quán)重的基于注意力交叉注意力的長(zhǎng)短期記憶方面情感分析模型
(Location-Weight and Attention-Over-Attention LSTM, LWAOA-LSTM)。該模型首先通過(guò)捕獲位置信息為不同單詞生成不同的位置權(quán)重,將此權(quán)重與詞向量合并;然后,使用基于長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)來(lái)解決方面情感分析,傳統(tǒng)的基于LSTM的方法主要側(cè)重于分別對(duì)方面和文本進(jìn)行建模[6-7],而本文使用LSTM同時(shí)對(duì)各個(gè)方面和文本進(jìn)行建模。此外,由LSTM生成的方面表示和文本表示通過(guò)注意力交叉注意力(Attention-Over-Attention, AOA)模型進(jìn)行交互,AOA模型會(huì)自動(dòng)產(chǎn)生方面到文本以及文本到方面之間的交互關(guān)注。經(jīng)過(guò)研究分析發(fā)現(xiàn),一個(gè)句子中只有幾個(gè)詞語(yǔ)會(huì)與方面情感分析相關(guān),并且很多時(shí)候這些情感詞匯都是與方面密切相關(guān)的。例如,“這家酒店環(huán)境不錯(cuò),但價(jià)格有點(diǎn)貴”,根據(jù)人類(lèi)閱讀經(jīng)驗(yàn),消極詞“貴”更可能描述“價(jià)格”而不是“環(huán)境”。類(lèi)似地,對(duì)于方面的短語(yǔ)也應(yīng)該關(guān)注最重要的對(duì)應(yīng)的情感部分,因此本文選擇AOA模型來(lái)處理方面和句子中最重要的部分。與傳統(tǒng)基于LSTM神經(jīng)網(wǎng)絡(luò)模型相比,本文的模型能提高情感分類(lèi)的準(zhǔn)確率。
1 相關(guān)工作
1.1 情感分類(lèi)
情感分類(lèi)旨在檢測(cè)文本的情感極性。針對(duì)這一研究問(wèn)題提出了許多方法[9],大多數(shù)方法使用機(jī)器學(xué)習(xí)以監(jiān)督的方式進(jìn)行文本分類(lèi),例如大多使用樸素貝葉斯算法[10]以及支持向量機(jī)(Support Vector Machine, SVM)來(lái)解決此問(wèn)題[11]。這些方法大多數(shù)依賴(lài)于n-gram特征或人工設(shè)計(jì)的特征,因此多種情感詞典被建立[12-14]。但這些方法存在很多缺點(diǎn),比如不可能存在一個(gè)詞典包括所有的情感詞匯,而規(guī)則制定也是需要專(zhuān)家大量的經(jīng)驗(yàn)和耗費(fèi)許多人力成本,并且還可能對(duì)某些特征考慮得不夠全面。
近年來(lái),神經(jīng)網(wǎng)絡(luò)的應(yīng)用大大提高了情感分類(lèi)的準(zhǔn)確率與效率?;谏窠?jīng)網(wǎng)絡(luò)的方法自動(dòng)學(xué)習(xí)特征表示,而無(wú)需大量的特征工程。研究者提出了各種神經(jīng)網(wǎng)絡(luò)模型,Socher等[15]將遞歸神經(jīng)網(wǎng)絡(luò)用于情感樹(shù)的構(gòu)建,提高了分類(lèi)的準(zhǔn)確率;Tang等[16]采用循環(huán)神經(jīng)網(wǎng)絡(luò)建立篇章級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型相比標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型具有較高的優(yōu)越性,在情感分類(lèi)任務(wù)中取得了進(jìn)步;Tai等[17]改進(jìn)標(biāo)準(zhǔn)的LSTM模型,引入Tree-LSTM模型,該模型建立了樹(shù)狀LSTM的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),在情感分類(lèi)任務(wù)中有較好的表現(xiàn)。這些方法在情感分析上取得了令人滿(mǎn)意的結(jié)果。
1.2 方面情感分析
方面級(jí)情感分析是情感分類(lèi)的一個(gè)分支,其目標(biāo)是識(shí)別句子中某個(gè)特定方面的情感極性。在過(guò)去的一些研究中,基于規(guī)則的模型被應(yīng)用于解決方面情感分析[18]。Nasukawa等[19]首次提出對(duì)句子進(jìn)行依賴(lài)句法分析,然后加入預(yù)先定義的規(guī)則從而判斷某一方面的情感;Jiang等[2]提出目標(biāo)依賴(lài)情感分析,通過(guò)基于句子的語(yǔ)法結(jié)構(gòu)建立目標(biāo)相關(guān)特征從而達(dá)到對(duì)特定目標(biāo)的情感極性判斷。這些與方面相關(guān)的特征與其他文本特征一起反饋到分類(lèi)器(如SVM)中。
之后,多種基于神經(jīng)網(wǎng)絡(luò)的模型被應(yīng)用于解決這類(lèi)方面情感分析問(wèn)題。典型模型是基于LSTM神經(jīng)網(wǎng)絡(luò),如TD-LSTM[7]在模型中使用兩個(gè)LSTM從而模擬特定方面的上下文,此模型使用兩個(gè)LSTM最后的隱藏層預(yù)測(cè)情感。為了更好捕捉句子的重要部分,Wang等[6]使用方面嵌入來(lái)生成注意力向量,以此來(lái)關(guān)注句子的不同部分。在此基礎(chǔ)上,Ma等[20]使用兩個(gè)LSTM網(wǎng)絡(luò)分別對(duì)句子和方面建模,并進(jìn)一步使用由句子生成的隱藏狀態(tài),通過(guò)池化操作來(lái)計(jì)算方面目標(biāo)的注意力,能夠同時(shí)關(guān)注到句子的重要部分和方面信息。這種方法與本文提出的模型相似,但是,池化操作會(huì)忽略句子與方面之間的詞對(duì)交互,并且實(shí)驗(yàn)表明本文提出的模型性能更優(yōu)。
2 方面情感分析模型
2.1 問(wèn)題定義
在方面情感分析問(wèn)題中,本文定義句子s={w1,w2,…,wi,…,wj,…,wn},方面目標(biāo)為t={wi,wi+1,…,wi+m-1}。 其中方面標(biāo)簽可以是一個(gè)單詞也可以是一個(gè)長(zhǎng)短語(yǔ)。模型的目標(biāo)是分析出句子中某一方面的情感極性。
本文提出的總體結(jié)構(gòu)如圖1所示,主要由四部分組成:詞向量、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional LSTM, Bi-LSTM)、AOA模型和最終預(yù)測(cè)。
2.2 帶有位置權(quán)重的詞向量
長(zhǎng)度為n的句子表示為s={w1,w2,…,wi,…, wj, …, wn},長(zhǎng)度為m的方面詞表示為t={wi,wi+1,…,wi+m-1},本文首先將每個(gè)單詞映射為一個(gè)低維實(shí)值向量,稱(chēng)為詞向量。對(duì)于每個(gè)單詞wi,可以從MV×dw得到向量 v i, 其中 | ?V ?| 是詞典大小,dw為向量維度。詞向量處理之后得到兩組詞向量:句子向量[ v 1; v 2;…; v n]∈ R n×dw和方面向量[ v i; v i+1;…; v i+m-1]∈ R n×dw。 另外,表達(dá)某方面的情感的關(guān)鍵詞總是比較接近方面詞,越接近方面詞匯包含的相關(guān)信息越多。例如句子“這家酒店環(huán)境不錯(cuò),但價(jià)格有點(diǎn)貴”,“不錯(cuò)”是“酒店環(huán)境”評(píng)價(jià)的關(guān)鍵詞,而“貴”是“價(jià)格”的關(guān)鍵詞,由于“不錯(cuò)”比“貴”要更接近方面詞“環(huán)境”,所以“不錯(cuò)”對(duì)方面“環(huán)境”的情感極性判斷有更多貢獻(xiàn),“貴”對(duì)“價(jià)格”有更多貢獻(xiàn)。
并且,描述方面詞情感的關(guān)鍵詞總是只位于方面詞的一側(cè)。在上述例子中,情感詞“不錯(cuò)”和“貴”都是位于“環(huán)境”和“價(jià)格”的右側(cè),因此,在這個(gè)例子中,方面詞右側(cè)的詞語(yǔ)要比左邊的詞語(yǔ)有更大的影響力。為此,設(shè)計(jì)了兩個(gè)參數(shù)來(lái)表示某一詞匯的重要性,此參數(shù)也是通過(guò)訓(xùn)練來(lái)學(xué)習(xí)。
直接將詞向量輸入模型中生成的句子向量將包含很多與方面詞無(wú)關(guān)的信息,在生成句子向量時(shí)使用位置權(quán)重來(lái)強(qiáng)調(diào)與方面詞相關(guān)的情感信息,與此同時(shí),與方面詞無(wú)關(guān)的詞也相應(yīng)地被削弱了。加入位置信息有利于獲得更好的結(jié)果,輸入層由位置加權(quán)詞向量組成。由于希望遠(yuǎn)離方面詞的權(quán)重下降得更快,有助于防止與方面無(wú)關(guān)的信息的干擾,因此使用Laplacian概率函數(shù)來(lái)獲得位置權(quán)重。
每個(gè)詞向量 V ={ v 1, v 2,…, v n} 對(duì)應(yīng)的位置權(quán)重定義為:
λ=[λ1,λ2,…,λn]
(1)