馬圓圓,禹 龍,田生偉,錢夢瑩,張立強
1(新疆大學(xué) 軟件學(xué)院,烏魯木齊 830008) 2(新疆大學(xué) 網(wǎng)絡(luò)與信息中心,烏魯木齊 830008)
隱喻大量存在于人類的語言表達中[1],是在一類事物的暗示下談?wù)摿硪活愂挛锏恼Z言行為,也代表了一部分心理活動[2].情感分析是自然語言處理領(lǐng)域的重要內(nèi)容之一[3],目的在于挖掘研究人們在各種渠道獲取到的文本信息情感類別.部分研究表明隱喻是一種重要的表達方式,通常比字面直接表達更情緒化[4].
互聯(lián)網(wǎng)的蓬勃發(fā)展使信息網(wǎng)絡(luò)工具被廣泛應(yīng)用在日常生活中,人們可以對社會事件、公共服務(wù)、產(chǎn)品質(zhì)量和政治活動等各方面進行評價,在這個過程中產(chǎn)生了大量具有情感傾向的隱喻信息.為了滿足信息預(yù)測、輿情監(jiān)督和產(chǎn)品銷售等方面的需求,這些信息的情感傾向需要被準確分析,因此隱喻情感分析研究具有重要的理論應(yīng)用價值.
近年來,自然語言處理領(lǐng)域和語言學(xué)對隱喻識別和文本情感分類給予了關(guān)注,但隱喻情感分析的研究工作和成果相對較少,且研究大多集中在篇章級和句子級.對于方面級隱喻情感分析而言,一個語句中含有多種不同極性的情感,難以做出正確判斷[5].
一般來說隱喻有兩種情感表達方式[6]:1)用隱喻直接描述情感;2)通過隱喻詞構(gòu)建情感.以上兩種隱喻表達方式都可以使用方面級情感分析方法(Aspect-Based Sentiment Analysis,ABSA)來判斷情感傾向.方面級情感分析,即ABSA,是一種細粒度情感分類方法[7],通過識別一條句子中一個指定方面詞(Aspect)的情感極性來判斷句子不同方面的情感極性,適用于針對不同的目標挖掘更細膩的情感信息.例如“離滿分就差一分,小紅的肺要氣炸了,在發(fā)現(xiàn)老師算錯分數(shù)后,小紅頓時心花怒放”這個隱喻句,其中“心花怒放”和“肺要氣炸了”被看做此句的兩個方面詞,它們表現(xiàn)出兩種不同的情緒表達.ABSA方法可以分析出不同方面詞的情感信息,即它們具有不同的情感極性:積極情感和消極情感.
當(dāng)前,針對方面級情感分析這一任務(wù),國內(nèi)外的專家學(xué)者提出了多種研究方法.Kim等[8]為增強模型特征感知能力選擇拼接多個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN).Ma等人[9]提出的IAN(Interactive Attention Networks)將目標方面詞與文本分開建模,采用注意力機制對方面信息和句子進行交互操作;Xue等人[10]將情感分析分為方面-類別情感分析(Aspect-category Sentiment Analysis,ACSA)和方面-術(shù)語情感分析(Aspect-term Sentiment Analysis,ATSA)兩個子任務(wù);袁勛等人[11]提出一種基于BERT(Bidirectional Encoder Representation from Transformers)的方面級情感分類模型,證明了強化目標方面權(quán)重和上下文交互的方法對情感分類問題是有效的.
同時,在情感分類任務(wù)中,預(yù)訓(xùn)練模型可以用于解決語法邏輯問題[12,13],能有效提高分類準確率.Peters等人[14]提出的ELMo和Radford等人[15]提出的OpenAI可以有效應(yīng)用于情感分析的研究.而Devlin等人[16]針對隱喻情感極性分類問題,使用BERT等預(yù)訓(xùn)練模型也取得了較好的實驗結(jié)果.
針對隱喻情感分類問題,許多研究者相繼提出了一些分類方法.林鴻飛等人[6]對情感隱喻計算和識別進行了深入研究和分析,并討論了隱喻情感計算的應(yīng)用途徑;Kozareva等人[17]實驗了幾種方法來研究了隱喻使用的情感特征;Mohammad等人[4]專注于隱喻情感研究,建立了一個由隱喻表達和字面表達組成語句對的小語料庫,用于判斷隱喻表達和字面表達的情緒,然后對隱喻使用相關(guān)情緒進行定量研究;Veale和Li[18]利用隱喻情感信息開發(fā)出了隱喻磁石網(wǎng)絡(luò)應(yīng)用;Strzalkowski等人[19]研究了近年用于計算隱喻情感的方法并詳細分析了影響隱喻情感傾向判斷的各類因素.
然而以上方法在隱喻情感分析任務(wù)中沒有采用ABSA方法對隱喻文本進行細粒度情感分析,對方面注意力引入不足,且沒有充分利用預(yù)訓(xùn)練模型的優(yōu)勢,導(dǎo)致判斷準確率難以提高.
針對隱喻方面級情感分析任務(wù),本文提出了一種基于RMLA(RoBERTa and Multi-layered attention)的細粒度情感分類模型.RMLA首先輸入具有方面信息的文本,通過RoBERTa網(wǎng)絡(luò)結(jié)構(gòu)對方面信息和文本信息分別進行編碼,將編碼后的方面信息和隱藏層信息表征向量進行融合,形成多層方面注意力表征向量.將該表征向量與隱喻句的關(guān)聯(lián)結(jié)果作為文本原始特征,利用全局注意力層對其進行解碼,然后通過卷積網(wǎng)絡(luò)計算隱喻句與方面詞的關(guān)聯(lián)度.合并池化層輸出結(jié)果和卷積計算結(jié)果,隨后計算隱喻句不同方面詞的情感極性的概率.最后,通過計算句子中正、負標簽的數(shù)量差值來判斷整個隱喻句的情感極性.
本文提出的RMLA是由RoBERTa[20](Robustly Optimized Bidirectional Encoder Representation from Transformers Pre-training Approach)結(jié)合多層注意力機制(Multi-layer attention)構(gòu)成的神經(jīng)網(wǎng)絡(luò)模型.
RMLA整體結(jié)構(gòu)如圖1所示,由以下3個部分構(gòu)成:
圖1 RMLA情感分析模型Fig.1 RMLA model for sentiment analysis
a)網(wǎng)絡(luò)輸入層和Robustly Optimized BERT(RoBERTa)對數(shù)據(jù)的預(yù)處理部分.
b)方面注意力的層結(jié)構(gòu),共6層,其中Multi-Head指多頭注意力部分,Add&Norm指殘差連接和層歸一化,Feed Forward是一個全連接前饋神經(jīng)網(wǎng)絡(luò),最后再次經(jīng)過殘差連接和層歸一化后獲得此部分輸出.
c)全局注意力的層結(jié)構(gòu)和模型輸出層.LSTM和三層方面注意力融合形成全局注意力層,然后將方面注意力層和全局注意力層融合形成多層注意力網(wǎng)絡(luò)結(jié)構(gòu).在輸出層使用SoftMax函數(shù)計算隱喻文本在不同方面情感分類的概率.
RMLA的網(wǎng)絡(luò)輸入層的主要作用是,通過特征映射來獲得字嵌入矩陣.RoBERTa的輸入以方式可以是句子或句子對,構(gòu)建輔助句來合并原句和方面詞,這種方式能將ABSA轉(zhuǎn)化為句子對的分類任務(wù).
將隱喻原句和方面信息組合成一個句子對,分割每個句子,將其映射成低維向量作為RMLA的輸入.
圖2 RMLA模型輸入形式
Fig.2 RMLA model input form
網(wǎng)絡(luò)層的輸入形式如圖2所示,其中[CLS]標志[21]放在句子首位得到的的表征向量C可以用于后續(xù)的分類任務(wù);token是分割后的sentence,即帶有情感傾向的隱喻語句;[SEP]標志[22]用于分開句子對中的兩個句子;Aspect是方面詞信息.
RoBERTa屬于BERT的強化版本,也是BERT模型更為精細的調(diào)優(yōu)版本.針對模型的具體細節(jié)、訓(xùn)練策略、數(shù)據(jù)這3個層面進行了改進.
RMLA選擇RoBERTa的原因如下:
1)RoBERTa是在BERT基礎(chǔ)上優(yōu)化了函數(shù)部分,并且使用動態(tài)掩碼的方式訓(xùn)練模型,證明了在BERT中NSP(Next Sentence Prediction)訓(xùn)練策略的不足;
2)采用了更大的batch size,訓(xùn)練數(shù)據(jù)方面使用了更大的數(shù)據(jù)集,數(shù)據(jù)集大小從16G提升到160G,并改變多個steps,尋找最佳的超參數(shù);
3)采用BPE(Byte-Pair Encoding)來處理文本數(shù)據(jù);
4)RoBERTa在大量數(shù)據(jù)上訓(xùn)練后具有非常豐富的語義信息,這一特點讓它在接收輸入序列后能有效提取到方面詞對應(yīng)的語義特征.
RoBERTa采用動態(tài)Masking,首先將預(yù)訓(xùn)練的數(shù)據(jù)復(fù)制10份,每一份都隨機選擇15%的Tokens進行Masking,同一條語句會有10種不同的mask方式.然后在N個epoch的訓(xùn)練中,每個序列被mask的tokens會不斷變化.上述特點能夠明顯提高模型性能.
在RMLA中,RoBERTa的自注意力網(wǎng)絡(luò)結(jié)構(gòu)對方面信息和句子信息進行編碼.單純提取表征向量會忽略方面詞和隱喻句之間的關(guān)聯(lián)性,為避免該問題,RMLA模型采用多層注意力網(wǎng)絡(luò)結(jié)構(gòu),其中多層注意力網(wǎng)絡(luò)指方面注意力層結(jié)構(gòu)和全局注意力層結(jié)構(gòu)的整體結(jié)構(gòu).
注意力機制中最重要的部分是計算權(quán)重系數(shù),權(quán)重系數(shù)越高,此部分信息越重要.多層注意力讓網(wǎng)絡(luò)結(jié)構(gòu)每個隱藏層都包含其他網(wǎng)絡(luò)單元的注意力權(quán)重,從而能夠解決方面注意力不足的問題.
3.2.1 方面注意力層結(jié)構(gòu)
在RoBERTa預(yù)訓(xùn)練過程中,句子的token序列被雙向Transformer轉(zhuǎn)為表征向量和編碼信息.將表征向量和方面編碼信息融合后的結(jié)果作為方面注意力部分的輸入,此過程增強了方面編碼信息的權(quán)重.
方面注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.方面注意力結(jié)構(gòu)會提高方面詞信息的注意力權(quán)重,句子表征向量與方面表征向量之間的依賴關(guān)系進一步增強.
圖3 RMLA注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 RMLA attention network structure
圖3中注意力層的雙向自注意力機制的計算過程如公式(1)所示,Q、K、V是輸入詞嵌入矩陣經(jīng)過線性變換得到的,Q、K矩陣向量維度dk使梯度值保持穩(wěn)定:
(1)
(2)
雙向自注意力的計算過程,使得每個靠后的隱藏層包含的語義信息注意力權(quán)重更高,因此最后三張隱藏層的權(quán)重系數(shù)最高.權(quán)重越高,此部分信息越重要.為了簡化計算參數(shù),從而提高計算效率,選取權(quán)重最高的最后三層方面注意力張量,然后將其與LSTM網(wǎng)絡(luò)融合,此過程在不丟失信息的情況下能夠提高方面特征的注意力.
3.2.2 全局注意力層結(jié)構(gòu)
在獲取方面信息后,RMLA將全局信息和其融合,通過卷積網(wǎng)絡(luò)計算方面詞和隱喻文本的關(guān)聯(lián)度.公式(3)說明了圖1中卷積運算操作的過程,輸入文本長度為d,卷積核尺寸q,p,卷積核權(quán)重w,卷積運算到文本當(dāng)前位置的值為v,激活函數(shù)使用Relu函數(shù).
(3)
RoBERTa的輸出層與方面注意力層并聯(lián)后進行卷積,卷積核數(shù)量為250,尺寸為3*1.為提高模型對詞嵌入的感知能力,將卷積堆疊兩次.將卷積結(jié)果和LSTM pooling文本合并后形成block,由于max pooling的負采樣文本在1/2 pooling(步長為2)中長度會減半,所以單個經(jīng)過1/2 pooling池化層后,block感知到的文本數(shù)量會增長一倍.
block數(shù)量的增加導(dǎo)致輸入序列長度不斷減少.而網(wǎng)絡(luò)層數(shù)會逐漸變多,網(wǎng)絡(luò)結(jié)構(gòu)也隨之加深,從而形成深度循環(huán)卷積神經(jīng)網(wǎng)絡(luò),用以捕獲方面信息與句子間關(guān)聯(lián)關(guān)系.負采樣殘差組合能有效解決梯度爆炸或梯度消失問題;采用循環(huán)卷積和殘差組合方法,然后將沒有經(jīng)過卷積的無損數(shù)據(jù)傳送至前端,循環(huán)往復(fù)這個過程可以增強RMLA對方面信息的感知注意力.
公式(4)和公式(5)是計算卷積結(jié)果Sout和池化結(jié)果P得到輸出的過程,conv是卷積運算,交替循環(huán)此過程,當(dāng)語義維度達到1時結(jié)束循環(huán),最后的Sout將被用于隱喻情感分類.
P=pooling(Sout)
(4)
Sout=P+max{0,conv[max(0,conv(P))]}
(5)
在經(jīng)過了方面注意力層和全局注意力層后,數(shù)據(jù)被傳送進入全連接層.使用SoftMax函數(shù)計算隱喻文本在不同方面情感分類的概率Pi,計算該文本某個方面的情感極性預(yù)測值yi,訓(xùn)練過程中的權(quán)重和偏差分別是Wc和bc,公式(6)和公式(7)是計算過程:
(6)
(7)
損失函數(shù)計算如公式(8),其中模型分類類別是C,標簽是x.
(8)
本文數(shù)據(jù)集的構(gòu)建采用人工標注方式.為實現(xiàn)此目標需要以下策略予以支持:
1)確立知識采集策略及收錄原則;
2)制定語言標注體系的原則和規(guī)范,選擇標注集.
Bizzon和Lappin[23]于2017年構(gòu)建的隱喻注釋語料庫(Metaphor Paraphrase Master,MPM)是目前已知最大的用于隱喻解釋排序的數(shù)據(jù)集,其中隱喻句的使用包含動詞,名詞、形容詞和復(fù)雜詞.該語料庫的每組數(shù)據(jù)由5個句子構(gòu)成:一個隱喻句和4個解釋句.
VUA(VU Amsterdam Metaphor Corpus)[6]是目前規(guī)模最大的手工標注隱喻語料庫,隱喻文本內(nèi)容涵蓋了學(xué)術(shù)、會話、新聞、小說.
本文的方面級情感分析是針對隱喻句進行研究,因此篩選出兩個語料庫中所包含的隱喻句,并為每個句子標注方面詞和其對應(yīng)的情感極性.刪除重復(fù)數(shù)據(jù)后,分別構(gòu)建出兩個用于隱喻方面級情感分析的數(shù)據(jù)集MPM-S(Metaphor Paraphrase master sentiment)和VUA-S(VU Amsterdam Metaphor Corpus sentiment).
表1 隱喻句方面詞標注示例Table 1 Examples of metaphorical aspect words annotation
表1中情感極性分為消極(標簽為-1),中立(標簽為0)和積極(標簽為1)3種.標注方法如表1所示,對例句中不同的方面或目標詞標注各自對應(yīng)的情緒標簽,如第1個方面詞“happy song”的情緒標簽為1,第2個方面詞“cicadas′ chattering”的情緒標簽為-1,表1展示了語料的形式.
將每個句子的正標簽(標簽為1)與負標簽(標簽為-1)的數(shù)量之差設(shè)為p:當(dāng)p>0,此句情感類別為積極情感(Positive);當(dāng)p<0,此句情感類別為消極情感(Negative);當(dāng)p=0,此句情感類別為中立情感(Neutral).
表2 MPM-S和VUA-S數(shù)據(jù)集Table 2 MPM-S and VUA-S datasets
將數(shù)據(jù)集以7:3的比例劃分為訓(xùn)練集和測試集,測試集用于驗證RMLA能否準確檢測出不同目標詞的情感極性.兩個數(shù)據(jù)集語料數(shù)量如表2所示.
本文實驗選擇在Nvidia GTX 1070 GPU上訓(xùn)練模型,采用Adam優(yōu)化器;開發(fā)環(huán)境是python3.6,通過隨機梯度下降法進行訓(xùn)練.實驗開始前需要分別為兩個數(shù)據(jù)集預(yù)設(shè)參數(shù),由于MPM-S和VUA-S數(shù)據(jù)類型有些許差異,參數(shù)設(shè)置也會有所區(qū)別.需要說明的是RoBERTa在更大的batch_size上更能發(fā)揮優(yōu)勢.
MPM-S最大文本長度為32,方面詞長度為2;VUA-S最大文本長度為128,方面詞長度為4.兩個數(shù)據(jù)集都采用roberta-base預(yù)訓(xùn)練模型,學(xué)習(xí)速率2e-5,在將特征輸入LSTM前設(shè)置dropout rate為0.1,epoch為10,batch_size為256,最終情感分類類別是3種.
RMLA基本能夠應(yīng)用于以下文本數(shù)據(jù)分類:
1)隱喻方面級情感極性分類;2)多詞隱喻情感極性分類:在數(shù)據(jù)集中多詞隱喻句數(shù)量較多,部分句中會出現(xiàn)不常見的隱喻詞,這種情況下準確判斷情感分類較為困難.
為了驗證RMLA的有效性,本文選擇其他用于方面級情感分析的模型進行對比,采用F1值(F1-Score)、準確率(Accuracy)對模型性能進行評估,其中F1值是對精確率(Precision)和召回率(Recall)的綜合評判.
BERT-att[24]:該方法通過提取BERT隱藏層注意力,將其融合后使用上下文交互的方法來挖掘方面詞和情感極性之間的關(guān)系.
TD-LSTM[5]:使用兩個LSTM網(wǎng)絡(luò)對目標詞的上下文進行建模,最終生成基于目標詞的情感預(yù)測表示結(jié)果.
ATAE-LSTM[5]:針對ACSA任務(wù)提出的基于注意力的LSTM網(wǎng)絡(luò)結(jié)構(gòu).該模型將給定的方面詞附加每個單詞中然后輸入到LSTM,并且在LSTM結(jié)構(gòu)上方添加了一個注意層.
IAN[9]:用于ATSA任務(wù)的交互式注意網(wǎng)絡(luò),基于LSTM和注意力機制.
RAM[25]:針對ATSA任務(wù)的一種周期性注意力網(wǎng)絡(luò),它使用了LSTM網(wǎng)絡(luò)和多種注意機制.
BERT-LSTM[26]:BERT和LSTM的組合,增加文本信息的利用程度,最終通過全連接層的輸出結(jié)果判斷情感分類.
為驗證RMLA模型性能,本文首先在MPM-S數(shù)據(jù)集進行實驗,并與不同的模型進行對比,實驗結(jié)果如表3所示.
表3 MPM-S各模型實驗結(jié)果Table 3 MPM-S results of different models
對比發(fā)現(xiàn),在MPM-S數(shù)據(jù)集上,由于積極情感傾向較易識別,各模型對積極情感的分類均表現(xiàn)良好,其次是消極情感分類,但對中立情感的分類效果較差.在積極情感和消極情感分類方面,相較于其他模型,RMLA表現(xiàn)最佳,準確率分別達到了85.06%和83.23%,F1值分別達到了84.26和85.22;在中立情感方面,雖然BERT-attention的分類準確率最高,但RMLA的F1值是最高的,且RMLA的準確率僅比其低0.32%.
表4 VUA-S各模型實驗結(jié)果Table 4 VUA-S results of different models
同時,本文在VUA-S數(shù)據(jù)集上對RMLA模型性能再次進行驗證.實驗結(jié)果如表4所示,展示了各模型在VUA-S數(shù)據(jù)集上的實驗結(jié)果.
此處需要說明的是,VUA-S中隱喻句構(gòu)成更為復(fù)雜,包含信息量更多.與MPM-S數(shù)據(jù)集上的實驗結(jié)果相比,各模型在VUA-S數(shù)據(jù)集上的整體分類準確率均有所降低.對比發(fā)現(xiàn),在積極情感和消極分類方面,RMLA表現(xiàn)最佳,準確率分別達到了81.46%和80.15%,F1值分別達到了79.26%和85.22%.
與TD-LSTM等其他模型相比,RMLA模型的網(wǎng)絡(luò)結(jié)構(gòu)融合多注意力網(wǎng)絡(luò)層,能夠為方面詞分配更高的權(quán)重,從而提高了模型的抗干擾能力,因此當(dāng)句子出現(xiàn)多個方面極性時,RMLA能夠避免注意力不足對實驗產(chǎn)生干擾,從而導(dǎo)致情感分類效果不理想的問題,在方面級情感分析任務(wù)中表現(xiàn)出更好的性能.
綜上所述,RMLA模型在隱喻方面級情感分類的任務(wù)中表現(xiàn)良好,能較為準確的判斷句子不同方面詞的情感極性.
本文提出了一種基于RoBERTa結(jié)合注意力機制的模型.針對隱喻方面級情感分析任務(wù),本文主要做了以下工作:1)利用方面詞與句子的語義關(guān)系構(gòu)建輔助句,將ABSA轉(zhuǎn)化為句子對的分類任務(wù),融合上下文中的情感信息會使分類任務(wù)更容易實現(xiàn);2)利用預(yù)訓(xùn)練后RoBERTa具有豐富語義信息的特點,有效提取到方面詞對應(yīng)的語義特征;3)融合了多層注意力網(wǎng)絡(luò),能夠為方面詞分配更高的權(quán)重,從而加強方面詞和隱喻句情感信息之間的關(guān)聯(lián)程度;4)多層注意力結(jié)構(gòu)讓每個隱藏層都包含其他網(wǎng)絡(luò)單元的注意力權(quán)重,解決了注意力不足對實驗產(chǎn)生干擾,從而導(dǎo)致情感分類效果不理想的問題.在兩個數(shù)據(jù)集上的實驗結(jié)果證明,RMLA具有更好的方面情感分類效果,性能更佳,可以有效應(yīng)用于隱喻方面級情感判斷.
在以后的工作中會嘗試以下3方面工作:1)RMLA模型的訓(xùn)練時間相對較長,考慮使用其他方法來改善此問題;2)進一步擴大數(shù)據(jù)集的規(guī)模和種類;3)將心理知識與方面情感分析結(jié)合.