張華輝,馮 林,廖凌湘,劉鑫磊,王 俊
1(四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610100)2(四川師范大學(xué) 商學(xué)院,成都 610100) E-mail:fenglin@sicnu.edu.cn
方面級(jí)情感分類是一種細(xì)粒度的情感分類任務(wù),旨在識(shí)別文本中不同方面的情感,如文本:“Good food but dreadful service at that restaurant.”中,方面詞food表達(dá)了積極情感,起作用的情感詞是Good,方面詞service表達(dá)了消極情感,起作用的情感詞是dreadful.在文本含有多個(gè)情感詞的情況下,如何令情感詞動(dòng)態(tài)地自適應(yīng)方面詞是值得關(guān)注的一個(gè)問題.
在處理方面級(jí)情感分類問題上,傳統(tǒng)的機(jī)器學(xué)習(xí)算法取得了一定的效果.通過復(fù)雜的人工規(guī)則和特征工程構(gòu)造機(jī)器學(xué)習(xí)模型,但是這類做法往往需要消耗大量的時(shí)間和寶貴人力資源,而且訓(xùn)練出來的分類器存在精度較低、泛化能力較弱等問題.
近年來,方面級(jí)情感分類問題在深度網(wǎng)絡(luò)模型中取得了長(zhǎng)足的進(jìn)步,特別是深度網(wǎng)絡(luò)模型結(jié)合注意力機(jī)制能更好的提取深層次的文本特征、減少人工干預(yù)、提升模型的精度和泛化能力.Sun等人[1]通過方面詞構(gòu)造輔助句子,將方面級(jí)情感分類任務(wù)轉(zhuǎn)化為句子對(duì)分類任務(wù),分類效果有一定提升.Xu等人[2]基于BERT模型添加后訓(xùn)練任務(wù),讓模型增加領(lǐng)域和任務(wù)相關(guān)知識(shí),取得了不錯(cuò)的分類效果.Yang等人[3]提出了一種基于上下文的局部注意力聯(lián)合模型,模型能處理中英文數(shù)據(jù),集成訓(xùn)練了領(lǐng)域適應(yīng)的后訓(xùn)練任務(wù),在多個(gè)基準(zhǔn)數(shù)據(jù)集上有最佳表現(xiàn).
然而,大多數(shù)深度網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)情感分類模型采用均值注意力,不能很好的感知到文本情感詞,突出情感詞對(duì)文本分類的影響.同時(shí),在一條文本中,還會(huì)有上文提到的多個(gè)情感詞的情況.所以,如何令情感詞動(dòng)態(tài)地自適應(yīng)方面詞是非常值得研究的問題.為此,本文提出一種基于對(duì)抗學(xué)習(xí)的自適應(yīng)加權(quán)方面級(jí)情感分類算法AWSCM(Adaptive Weighted aspect-level Sentiment Classification Model based on adversarial learning),AWSCM通過動(dòng)態(tài)加權(quán)機(jī)制對(duì)文本的每個(gè)單詞自適應(yīng)地學(xué)習(xí)權(quán)重,提升情感詞影響.同時(shí),為提升模型的魯棒性,AWSCM采用了對(duì)抗學(xué)習(xí),通過對(duì)抗學(xué)習(xí)算法和訓(xùn)練樣本計(jì)算擾動(dòng)以獲得對(duì)抗樣本,再通過學(xué)習(xí)對(duì)抗樣本擴(kuò)大模型的決策邊界.實(shí)驗(yàn)結(jié)果表明,AWSCM與基線模型相比較有提升,而且通過消融實(shí)驗(yàn)也驗(yàn)證了AWSCM的注意力機(jī)制和對(duì)抗學(xué)習(xí)方法有效,AWSCM的結(jié)構(gòu)設(shè)計(jì)合理.
在對(duì)抗學(xué)習(xí)[4]的訓(xùn)練中,標(biāo)簽采用的是原訓(xùn)練樣本的標(biāo)簽,通過對(duì)抗學(xué)習(xí),模型可以優(yōu)化決策邊界,提升模型的魯棒性和泛化能力.
在有標(biāo)簽的環(huán)境下,對(duì)抗訓(xùn)練損失為:
在無標(biāo)簽的環(huán)境下,對(duì)抗訓(xùn)練損失為:
由Goodfellow等人[5]提出的FGSM(Fast Gradient Sign Method)算法是一種基于梯度計(jì)算擾動(dòng)的方法.FGSM算法先通過輸入數(shù)據(jù)計(jì)算梯度,再通過梯度計(jì)算擾動(dòng),公式如下:
g=▽xL(Θ,x,y)
radv=ε·sign(g)
式中,L表示損失函數(shù),g表示梯度,sign表示激活函數(shù).
由Dai等人提出的FGM(Fast Gradient Method)算法[6]是基于FGSM的改進(jìn).FGM提出一種基于輸入梯度L2范數(shù)縮放的優(yōu)化計(jì)算擾動(dòng)公式為:
radv=ε·g/‖g‖2,where g=?xlog p(y|x;Θ)
FGSM和FGM都是依據(jù)超參數(shù)ε可以一步到位獲得擾動(dòng)radv,為獲得更優(yōu)解的擾動(dòng),Madry等人[7]提出基于多次迭代的PGD(Projected Gradient Descent)算法,PGD算法的對(duì)抗樣本計(jì)算公式為:
xt+1=Πx+R(xtαsign(?xL(Θ,x,y)))
式中,R表示擾動(dòng)集合,α表示步長(zhǎng),Πx+R表示以某個(gè)擾動(dòng)閾值為半徑的球上投影,如果迭代擾動(dòng)幅度過大會(huì)投影回球面.PGD算法通過α步長(zhǎng)迭代多次獲得和學(xué)習(xí)對(duì)抗樣本,再最優(yōu)化內(nèi)部損失和外部損失,公式如下:
式中,D表示一種數(shù)據(jù)分布.對(duì)比FGSM和FGM算法,PGD算法需要多次迭代優(yōu)化擾動(dòng),存在計(jì)算資源消耗較大的問題.因此,FreeAT算法[8]和YOPO算法[9]都是基于PGD的訓(xùn)練消耗問題,相繼提出的優(yōu)化算法.
此外,基于計(jì)算擾動(dòng)優(yōu)化問題,Zhu等人[10]提出FreeLB算法,通過求取多次迭代的平均梯度計(jì)算擾動(dòng).Jiang等人[11]提出關(guān)于對(duì)抗正則損失的擾動(dòng)優(yōu)化計(jì)算,提升模型的魯棒性.
2018年,Devlin等人[12]提出的BERT模型,刷新了NLP大多數(shù)任務(wù)的最佳表現(xiàn).BERT模型與以往的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)完全不同,采用Transformer[13]的編碼器Encoder結(jié)構(gòu).
首先,BERT模型注意力機(jī)制的一個(gè)核心組件是縮放注意力機(jī)制(Scaled Dot-Product Attention,SDA).其計(jì)算公式為:
式中,Q、K、V是文本向量化后的查詢、鍵、值矩陣.dk代表K的維度,dk使內(nèi)積不至于太大,防止梯度消失.
其次,BERT模型注意力機(jī)制的另一個(gè)關(guān)鍵組件是多頭注意力(Multi-Head Attention,MHA),如圖1所示,Q、K、V要先進(jìn)行線性變換,再進(jìn)行SDA操作,得到某一個(gè)頭的計(jì)算公式如下:
圖1 多頭注意力機(jī)制Fig.1 Multi-head attention mechanism
一次SDA計(jì)算操作是一種角度的特征提取,這種操作要進(jìn)行多次,即多角度進(jìn)行特征的提取,也就是多頭注意力,然后把SDA提取的所有特征進(jìn)行拼接和線性變換,得到多頭注意力的表示如下:
MHA=(MHA1?MHA2?…?MHAh)·W*
假設(shè)數(shù)據(jù)集文本表示為context={w1,w2,…,wk,wk+1,…,wk+t-1,…,wm},方面詞表示為aspect={wk,wk+1,…,wk+t-1},方面詞情感標(biāo)簽polarity∈{-1,0,1}.其中,m表示文本長(zhǎng)度、t表示方面詞長(zhǎng)度、k∈[1,m)表示方面詞在文本中的起始位置.那么,方面級(jí)情感分類的任務(wù)可以描述為:
Function:F[(context,aspect)]→polarity
即從上下文中學(xué)習(xí)方面詞的情感.
圖2 AWSCM模型結(jié)構(gòu)Fig.2 Structure of AWSCM model
AWSCM的結(jié)構(gòu)如圖2所示,主要有4部分組成:輸入層、編碼層、注意力機(jī)制層、分類層.輸入層輸入通過特定預(yù)處理后的文本序列.編碼層采用BERT模型對(duì)文本編碼,通過訓(xùn)練樣求取梯度以計(jì)算擾動(dòng),擾動(dòng)加在訓(xùn)練樣本上生成對(duì)抗樣本.在注意力機(jī)制層,動(dòng)態(tài)加權(quán)機(jī)制提取到自適應(yīng)權(quán)重文本特征、多頭注意力機(jī)提取深層文本特征.在分類層,模型聯(lián)合學(xué)習(xí)文本特征,并完成對(duì)抗樣本的訓(xùn)練.
將文本預(yù)處理成兩種形式的輸入,由于BERT模型提取的特征較好,所以令這兩種輸入形式都能適配BERT模型輸入,以充分發(fā)揮BERT模型的優(yōu)勢(shì).假設(shè)有一條文本數(shù)據(jù):“The battery is very longer.”那么,通過預(yù)處理會(huì)得到輸入序列1樣本:“[CLS] The battery is very longer [SEP] battery [SEP]”和000000011,其中“[CLS]”符號(hào)表示起始標(biāo)識(shí)符,“[SEP]”表示分隔符,全0標(biāo)記“起始符+句子+分隔符”,全1標(biāo)記“方面詞+分隔符”.以及輸入序列2樣本:“[CLS] The battery is very longer [SEP]”和“[CLS] battery [SEP]”.
為了獲得更好的表現(xiàn),AWSCM使用了兩個(gè)獨(dú)立的特征提取器.在編碼層,使用的都是BERT編碼,通過編碼層每個(gè)詞都可以映射到一個(gè)對(duì)應(yīng)向量空間的位置[14].假設(shè)輸入序列1和輸入序列2分別表示為X1和Xg,那么有:
圖3 BERT編碼過程Fig.3 Encode process of BERT
1)嵌入模塊
首先,根據(jù)BERT字典(1)https://github.com/google-research/bert,將預(yù)處理得到的輸入序列替換成對(duì)應(yīng)的BERT詞序列.根據(jù)序列中的“[CLS]”和“[SEP]”等信息,得到與詞序列同等長(zhǎng)度的不同句子標(biāo)志序列,再計(jì)算每個(gè)詞的位置,由詞位置組成位置序列.最后疊加計(jì)算詞序列+不同句子標(biāo)志序列+位置序列之和作為多頭注意力機(jī)制模塊的輸入.
2)多頭注意力機(jī)制模塊
多頭注意力機(jī)制見3.3節(jié)第1部分有詳盡的描述.此部分值得注意的是這里的多頭注意力機(jī)制輸出要經(jīng)過隨機(jī)失活和歸一化操作.
3)前饋網(wǎng)絡(luò)模塊
在前饋網(wǎng)絡(luò)模塊,要經(jīng)過兩次線性變換網(wǎng)絡(luò)和RELU激活函數(shù).假設(shè)多頭注意力機(jī)制模塊的輸出為x*,那么有:
FFN(x*)=max(0,x*W1+b1)W2+b2
式中的權(quán)重矩陣、偏置都是可學(xué)習(xí)和隨機(jī)初始化的.與多頭注意力機(jī)制模塊相似,FFN(x*)也要經(jīng)過隨機(jī)失活和歸一化操作.
最后,AWSCM編碼層的輸出是圖3的BERT編碼過程重復(fù)執(zhí)行6次提取特征的結(jié)果,上一BERT編碼過程的輸出作為下一BERT編碼過程的輸入.
通過BERT模型自身的注意力機(jī)制提取的特征只有一種,較為單一.所以AWSCM采用多頭注意機(jī)制提取深層文本特征,采用動(dòng)態(tài)加權(quán)機(jī)制增強(qiáng)文本的局部特征.
1)多頭注意力機(jī)制
依據(jù)SDA公式有:
2)動(dòng)態(tài)加權(quán)機(jī)制
在大多數(shù)情況下,一條文本中可能會(huì)有多個(gè)情感詞.在多個(gè)情感詞的文本環(huán)境下,情感詞的位置很重要,一般而言,靠近方面詞端的情感詞起到的作用較大,而遠(yuǎn)離方面詞端的情感詞不僅對(duì)方面詞的影響相對(duì)較小,還有可能產(chǎn)生相反效果干擾模型的學(xué)習(xí).
為此,AWSCM采用動(dòng)態(tài)加權(quán)機(jī)制增大靠近方面詞端的情感詞權(quán)重、減小遠(yuǎn)離方面詞端的情感詞權(quán)重.AWSCM定義了語義距離D,根據(jù)D來給上下文單詞進(jìn)行動(dòng)態(tài)分配權(quán)重.根據(jù)本章的符號(hào)表示,對(duì)context中任意一個(gè)單詞wc(1≤c≤m),語義距離D的計(jì)算公式為:
Dc=|c-(k+|t/2|)|-|t/2|
式中的k和t在上文有提及,分別表示方面詞在文本中的起始位置和方面詞長(zhǎng)度.通過上面的公式得到每個(gè)位置的語義距離Dc后,進(jìn)一步計(jì)算權(quán)重SC:
下面通過文本“Good food but dreadful service at that restaurant.”作為案例,展示動(dòng)態(tài)加權(quán)機(jī)制.設(shè)閾值ρ為1,同時(shí)暫不考慮起始標(biāo)識(shí)符“[CLS]” 和分隔符“[SEP]”的情況下.當(dāng)方面詞為food時(shí),那么t=1,k=2,根據(jù)上面的公式有權(quán)重矩陣S={1,2,1,-1,-2,-3,-4},當(dāng)方面詞為service時(shí),那么t=1,k=5,根據(jù)上面的公式有矩陣S={-2,-1,0,1,2,1,0,-1},將兩種權(quán)重矩陣可視化展示,如圖4所示.
圖4 權(quán)重分布Fig.4 Weight distribution
圖4中,橫軸是文本中的每個(gè)單詞,縱軸是文本中的方面詞,顏色越深代表響應(yīng)權(quán)重越大.當(dāng)food為方面詞時(shí),情感詞Good的權(quán)重大于dreadful,而當(dāng)方面詞為service時(shí),情感詞dreadful的權(quán)重大于Good,展示了多情感詞能自適應(yīng)文本.同時(shí),情感詞Good在不同方面詞food和service下的權(quán)重會(huì)不同,情感詞dreadful在不同方面詞下的權(quán)重也會(huì)不同,充分展示了情感詞基于不同方面詞對(duì)文本的自適應(yīng)性.
式中Ws和bs是線性網(wǎng)絡(luò)的權(quán)重矩陣和偏置.通過最終語義表示X計(jì)算情感概率,有:
式中yi表示訓(xùn)練樣本的情感預(yù)測(cè)概率,Z代表情感的類別數(shù).
假設(shè)模型的參數(shù)Θ,模型使用交叉熵?fù)p失函數(shù)進(jìn)行參數(shù)學(xué)習(xí),采用L2規(guī)范化防止過擬合,有模型訓(xùn)練損失L1:
L=L1+L2
算法1.AWSCM學(xué)習(xí)策略
輸入:數(shù)據(jù)集T,訓(xùn)練次數(shù)epoch,隨機(jī)失活率dropout,
輸出:情感分類模型F
1. 將數(shù)據(jù)處理成輸入序列1和序列2的形式,表示為X1和Xg
2 .隨機(jī)初始化模型F中所有網(wǎng)絡(luò)參數(shù)
3. FOR(i=0;i 4. 通過PGD算法計(jì)算X1和Xg的擾動(dòng),得到rg和r1 8. 將y與真實(shí)標(biāo)簽做交叉熵?fù)p失,更新參數(shù) 12. 將y*與真實(shí)標(biāo)簽做交叉熵?fù)p失,更新參數(shù) 13.END FOR 14.輸出分類模型F 本文采用SemEval2014任務(wù)4的Laptop、Restaurant評(píng)論數(shù)據(jù)集和ACL-14 Twitter社交數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,如表1所示,Laptop數(shù)據(jù)集一共有2328條訓(xùn)練數(shù)據(jù)和638條測(cè)試數(shù)據(jù),Restaurant數(shù)據(jù)集一共有3608條訓(xùn)練數(shù)據(jù)和1120條測(cè)試數(shù)據(jù),Twitter數(shù)據(jù)集一共有6248條訓(xùn)練數(shù)據(jù)和692條測(cè)試數(shù)據(jù). 表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Datasets of experiment 1)準(zhǔn)確率:三類樣本中,分類正確的樣本所占的比例. 式中,Tpos、Tneu、Tneg代表分類正確的積極樣本、中性樣本、消極樣本.Fpos、Fneu、Fneg代表分類錯(cuò)誤的積極樣本、中性樣本、消極樣本. 2)f1macro分?jǐn)?shù):f1macro分?jǐn)?shù)是精度和查全率的加權(quán)平均值.f1macro分?jǐn)?shù)的公式為: 式中,Z代表類別數(shù)、precisioni和recalli代表第i類的精度和召回率. 本文的實(shí)驗(yàn)在TeslaV100-32GPU、PyTorch深度學(xué)習(xí)框架、Linux操作系統(tǒng)環(huán)境下進(jìn)行.模型采用Adam優(yōu)化器快速迭代和最小化訓(xùn)練損失[15]、BERT詞嵌入的維度為768、隱含層維度為300、學(xué)習(xí)率LR=2e-5、L2規(guī)范化的權(quán)重衰減率λ=1e-5、每個(gè)batch=16、一個(gè)token的最大長(zhǎng)度為85、參數(shù)的初始化采用Xavier分布正態(tài)初始化、驗(yàn)證集和訓(xùn)練集的劃分比為0.25、dropout參數(shù)依據(jù)不同的數(shù)據(jù)集靈活變動(dòng)[16]、對(duì)抗樣本的學(xué)習(xí)用PGD算法、擾動(dòng)閾值為1、步長(zhǎng)α=0.3、語義距離閾值ρ=5. 1)TD-LSTM模型[17],通過將方面詞與上文、方面詞與下文分別單獨(dú)建模,放入長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),提取最后一層隱含層作為最后的語義表示. 2)交互注意力網(wǎng)絡(luò)模型(Interactive Attention Networks,IAN)[18]分別采用兩個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)上下文和方面詞編碼,然后分別提取兩個(gè)隱含層的注意力特征,最后將上下文注意力和方面詞注意力進(jìn)行交叉學(xué)習(xí).效果比LSTM等模型有較大提升. 3)循環(huán)注意力記憶網(wǎng)絡(luò)模型(Recurrent Attention Network on Memory,RAM)[19]使用雙向的LSTM來生成記憶切片,記憶切片根據(jù)上下文與方面詞的位置學(xué)習(xí)不同權(quán)重,然后再通過遞歸網(wǎng)絡(luò)構(gòu)建一個(gè)多層注意力模型. 4)AOA模型[20],模型采用Bi-LSTM對(duì)方面詞和上下編碼,然后在隱含層提取方面詞和上下文矩陣乘積的行占比向量與列占比均值向量,二者相乘作為最終的注意力向量. 5)MGAN模型[21],MGAN模型在IAN模型的基礎(chǔ)上,通過拼接上下文、方面詞以及上下文與方面詞的乘積矩陣提取了更細(xì)粒度的注意力網(wǎng)絡(luò). 6)BERT模型[12],基礎(chǔ)版本的BERT模型采用多頭注意力機(jī)制提取特征,在方面級(jí)情感分類上有很強(qiáng)的表現(xiàn),超越了很多經(jīng)典模型的深度網(wǎng)絡(luò)模型. 7)CAJLN模型[22],由楊等人提出的一種面向上下文注意力聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)的方面級(jí)短文本情感分類模型. 8)基于BERT的交互注意網(wǎng)絡(luò)模型(BERT-base Interactive Attention Network,BIAN)[23],BINA模型在IAN模型的基礎(chǔ)上,通過BERT采用多種注意力機(jī)制學(xué)習(xí)特征. 實(shí)驗(yàn)結(jié)果如表2所示,其中,Accuray用Acc表示,f1macro用F1表示. 表2 對(duì)比實(shí)驗(yàn)結(jié)果(%)Table 2 Result of compared experiment(%) 表2中,TD-LSTM、IAN、RAM、AOA、MGAN模型都是基于RNN的深度網(wǎng)絡(luò)模型.TD-LSTM模型較為簡(jiǎn)單將方面詞與上文、方面詞與下文分別單獨(dú)建模提取特征,在Restaurant和Laptop評(píng)論數(shù)據(jù)集上的表現(xiàn)低于其他RNN模型大約5%的準(zhǔn)確率,結(jié)果表明TD-LSTM模型提取的特征不好,分類效果不佳.同TD-LSTM模型類似地,IAN模型也是分別對(duì)上下文和方面詞單獨(dú)建模,再交互學(xué)習(xí)提取特征,IAN模型提取的特征是淺層次的,實(shí)驗(yàn)效果上低于其他RNN模型大約2%到3%的準(zhǔn)確率.RAM、AOA、MGAN模型提取的特征是較為復(fù)雜的深層次特征,從實(shí)驗(yàn)效果上整體來看,深層次注意力網(wǎng)絡(luò)模型RAM、AOA、MGAN相對(duì)比淺層次注意力網(wǎng)絡(luò)模型TD-LSTM、IAN效果更好. BERT模型的結(jié)構(gòu)完全不同于RNN的模型,在3個(gè)公開數(shù)據(jù)集上有較高準(zhǔn)確率.CAJLN、BIAN、AWSCM都是基于BERT結(jié)構(gòu)的網(wǎng)絡(luò)模型,AWSCM在Restaurant、Laptop、Twitter數(shù)據(jù)集上的準(zhǔn)確率分別為84.48%、78.84%、73.99%,對(duì)比BERT模型準(zhǔn)確率提升明顯.AWSCM對(duì)比CAJLN模型準(zhǔn)確率提升1.53%、2.02%、0.71%,對(duì)比BIAN模型準(zhǔn)確率提升1.37%、2.35%、2.51%.綜上所述,AWSCM與大多數(shù)深度神經(jīng)網(wǎng)絡(luò)情感分類模型相比有提升. 在本小結(jié)通過控制變量驗(yàn)證動(dòng)態(tài)加權(quán)機(jī)制和對(duì)抗學(xué)習(xí)部分的設(shè)計(jì)是否合理.為區(qū)分帶不同子部件的模型,用AWSCM_1表示模型不帶動(dòng)態(tài)加權(quán)注意力機(jī)制和對(duì)抗學(xué)習(xí)算法的情況,用AWSCM_2表示模型不帶對(duì)抗學(xué)習(xí)算法的情況,用AWSCM_3表示模型不帶動(dòng)態(tài)加權(quán)注意力機(jī)制的情況,用AWSCM表示模型子部件完備的情況.消融實(shí)驗(yàn)結(jié)果如表3所示. 通過表3可以看出,AWSCM_1在Restaurant、Laptop、Twitter數(shù)據(jù)集上準(zhǔn)率分別達(dá)到了81.61%、75.08%、71.24%,表現(xiàn)好于AOA等5個(gè)基線模型,證明模型的基礎(chǔ)部件提取特征能力強(qiáng).AWSCM_2在Restaurant、Laptop、Twitter數(shù)據(jù)集上比AWSCM_1分別提升2.69%、2.98%、0.73%準(zhǔn)確率,F1值也不同程度提升,證明了動(dòng)態(tài)加權(quán)機(jī)制有效,分類效果提升明顯.AWSCM_3在Restaurant、Laptop、Twitter數(shù)據(jù)集上比AWSCM_1分別提升2.32%、1.25%、2.75%準(zhǔn)確率,F1值也不同程度提升,證明了AWSCM的對(duì)抗學(xué)習(xí)算法能擴(kuò)大模型的決策邊界.AWNBLA對(duì)比AWSCM_2、AWSCM_3在不同數(shù)據(jù)集上有不同程度的提升,驗(yàn)證了模型的結(jié)構(gòu)設(shè)計(jì)合理. 由表1可知,Twitter數(shù)據(jù)集對(duì)比Laptop和Restaurant數(shù)據(jù)集有更明顯的數(shù)據(jù)不平衡問題.在Twitter數(shù)據(jù)上,AWSCM對(duì)比AWSCM_3準(zhǔn)確率沒有提升,F1值小幅度提升0.11%,同時(shí)AWSCM_2比較AWSCM_1(即動(dòng)態(tài)加權(quán)機(jī)制的消融)也是只有0.73%的較小幅度提升.類似的情況,還有基線模型中的RAM模型對(duì)比TD-LSTM模型,在Restaurant和Laptop數(shù)據(jù)集上表現(xiàn)好于TD-LSTM模型,然而在Twitter數(shù)據(jù)集上反而差于TD-LSTM.AWSCM的一個(gè)局限性就是沒有采取有效的方法處理數(shù)據(jù)不平衡問題.另外,AWSCM的另一個(gè)局限性在于AWSCM的動(dòng)態(tài)加權(quán)機(jī)制是一種模糊注意力機(jī)制,不能直接感知情感詞的位置,準(zhǔn)確的賦予情感詞更大的權(quán)重. 方面級(jí)情感分類是情感分析的子任務(wù).早期的傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理方面級(jí)情感分類問題上取得了一定的成就,然而存在繁瑣的特征工程處理、訓(xùn)練出的分類器準(zhǔn)確率低、泛化能力弱等問題.近年來,深度神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制模型有更好的表現(xiàn),能提取出更深層次的文本特征,提升模型的準(zhǔn)確率,然而大多數(shù)模型的注意力機(jī)制使用的是均值注意力,均值注意力機(jī)制無法有效的賦予情感詞比較大的權(quán)重.為此,AWSCM采用了一種動(dòng)態(tài)加權(quán)機(jī)制,通過動(dòng)態(tài)加權(quán)機(jī)制能有效降低遠(yuǎn)離方面詞端的情感詞影響,提升靠近方面詞端的情感詞作用.同時(shí),為了提升模型的魯棒性,AWSCM還通過訓(xùn)練對(duì)抗樣本擴(kuò)大模型的決策邊界,提升分類效果.實(shí)驗(yàn)結(jié)果表明,動(dòng)態(tài)加權(quán)機(jī)制能增強(qiáng)靠近方面詞端的情感詞作用,提升分類準(zhǔn)確率,基于對(duì)抗樣本的訓(xùn)練能擴(kuò)大模型決策邊界,提升模型的魯棒性. 但是,AWSCM沒有處理不平衡數(shù)據(jù)的機(jī)制,以及在情感詞的感知上采用的是模糊注意力機(jī)制.所以,下一步的工作將圍繞不平衡數(shù)據(jù)處理問題和靠近方面詞端的情感詞感知問題展開.4 實(shí)驗(yàn)及結(jié)果分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 評(píng)估標(biāo)準(zhǔn)
4.3 實(shí)驗(yàn)環(huán)境
4.4 對(duì)比實(shí)驗(yàn)
4.5 消融實(shí)驗(yàn)
5 總結(jié)及未來的工作