李 錦,夏鴻斌,2+,劉 淵,2
1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122
2.江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122
基于方面的情感分析(aspect-based sentiment analysis,ABSA)旨在對文本如用戶評論進(jìn)行細(xì)粒度的情感分析[1],是對文本中一個(gè)或多個(gè)方面的情感極性進(jìn)行分類,在學(xué)術(shù)界受到廣泛關(guān)注的同時(shí)也在工業(yè)界得到了廣泛的實(shí)施。它通過亞馬遜等網(wǎng)站上的在線評論提供的實(shí)時(shí)反饋,獲取客戶對特定產(chǎn)品或服務(wù)的意見。如圖1 所示,在句子“This book is a hardcover version,but the price is a bit high.”中“version(封面)”的情感是積極的,而“price(價(jià)格)”的情感是消極的。由于這兩個(gè)方面詞表達(dá)了相反的情感,僅僅分配一個(gè)句子級別的情感極性是不合適的。于是,Jo 等人[2]和Pontiki 等人[3]提出了基于方面的情感分析(ABSA),旨在識別針對特定方面的細(xì)粒度情感極性。細(xì)粒度的方面情感分析根據(jù)方面目標(biāo)實(shí)體數(shù)量的不同可以分為單目標(biāo)方面情感分析任務(wù)和多目標(biāo)方面情感分析任務(wù)。ABSA 任務(wù)通常只有一個(gè)目標(biāo)實(shí)體,而為了處理多個(gè)目標(biāo)實(shí)體在預(yù)先給定的方面集合中對多個(gè)不同的方面產(chǎn)生不同的情感傾向的問題。Saeidi等人[4]又引入了基于目標(biāo)方面的情感分析(target aspect-based sentiment analysis,TABSA)任務(wù),旨在識別句子中一個(gè)指定實(shí)體(target,aspect term)的一個(gè)指定方面類別(aspect category)的情感。本文中提到的方面詞、方面類別以及方面集合等概念較易混淆,特舉例說明。例如“這塊牛排的味道非常好吃,但價(jià)格有點(diǎn)貴。果汁既便宜又好喝”在給定的關(guān)于餐廳的目標(biāo)方面集合{味道,服務(wù),價(jià)格,位置,服務(wù),裝修等}中,方面詞“牛排”“果汁”分別提到了它們在“價(jià)格”和“味道”兩個(gè)方面類別中的情感傾向。為了全面地對句子進(jìn)行細(xì)粒度的情感分析,本文分別針對一個(gè)實(shí)體的多個(gè)方面類別(ABSA 任務(wù))以及多個(gè)實(shí)體的多個(gè)方面類別(TABSA 任務(wù))進(jìn)行研究。
圖1 上下文詞對情感極性預(yù)測的不同影響Fig.1 Different influences of context words on sentiment polarity prediction
最初,研究者對ABSA任務(wù)使用神經(jīng)網(wǎng)絡(luò)模型的研究主要集中在使用深度神經(jīng)網(wǎng)絡(luò)。近年來,隨著強(qiáng)大的自注意力機(jī)制[5-7]的出現(xiàn),以自注意力機(jī)制為內(nèi)核的Transformer[8]和BERT(bidirectional encoder representations from transformers)[9]因其強(qiáng)大的特征抽取能力被Sun 等人[10]相繼應(yīng)用于ABSA,使模型的效果得到顯著增強(qiáng)。Zeng 等人[11]提出了一種不同于上述模型的局部上下文關(guān)注模型(local context focus,LCF),LCF 模型使用句子序列中單詞距離作為語義相關(guān)距離(semantic-relative distance,SRD)來得到局部上下文表示。該模型注意到一個(gè)方面的情感極性與接近自身的上下文詞更相關(guān),且遠(yuǎn)離方面詞的上下文詞可能會對特定方面極性的預(yù)測精確度產(chǎn)生消極影響。吳仁彪等人[12]參考圖像處理領(lǐng)域的膠囊網(wǎng)絡(luò),將膠囊網(wǎng)絡(luò)運(yùn)用于情感分析任務(wù)上,有效降低了模型在特征迭代中信息丟失的問題。趙志影等人[13]提出了GCAN(GCN-aware attention network),引入了基于句法分析樹的圖卷積神經(jīng)網(wǎng)絡(luò),以挖掘句子的句法特征和結(jié)構(gòu)信息,從而更好地將全局信息整合到特定方面的向量表示中。Wu 等人[14]用Context-Aware Self-Attention Networks 作為模型的特征抽取層,提出了面向方面情感分析的CG-BERT(contextguided BERT for targeted aspect-based sentiment analysis)模型,獲得了比基礎(chǔ)的BERT 模型更好的結(jié)果,上下文感知的自注意力網(wǎng)絡(luò)的引入,使得深度學(xué)習(xí)模型能夠更好地抽取輸入序列的全局語義特征,在多個(gè)數(shù)據(jù)集上都取得了前沿性的成果。
盡管現(xiàn)有的模型在方面詞情感分析任務(wù)上有著不俗的表現(xiàn),但仍存在三個(gè)方面的不足。其一,在很多研究工作中,方面詞的重要性未能得到充分的重視。Jiang 等人[15]在Twitter 數(shù)據(jù)集上評估了一個(gè)情感分類器的效果,結(jié)果發(fā)現(xiàn)40%的分類錯(cuò)誤都緣于沒有考慮方面詞的指示作用。這說明,如何充分使用方面詞提供的位置特征和語義特征將是影響模型效果的重要因素。其二,現(xiàn)有的模型在提取文本特征的過程中未能充分發(fā)揮局部特征和全局特征的優(yōu)勢,方面詞的情感極性更多的相關(guān)于與之在絕對位置和邏輯位置相近的詞語,距離較遠(yuǎn)的詞語往往會成為情感分類的干擾項(xiàng)。有些模型雖然發(fā)現(xiàn)了局部特征或全局特征的重要性,卻未能將兩者的特征進(jìn)行很好的結(jié)合進(jìn)而消除干擾項(xiàng)的不良影響。同時(shí),在局部特征和全局特征進(jìn)行融合的過程中使用拼接或相加的方式容易造成特征損失和特征覆蓋的問題。其三,現(xiàn)階段大部分模型使用Softmax 激活函數(shù)來計(jì)算每個(gè)位置的注意力分?jǐn)?shù),由于Softmax 函數(shù)的值域?yàn)閇0,1],這導(dǎo)致每個(gè)特征都會對注意力的計(jì)算產(chǎn)生積極的影響,從而產(chǎn)生一定的噪聲干擾。
針對上述不足,本文受Zeng 等人[11]提出的局部注意力和Yang 等人[16]提出的情境感知網(wǎng)絡(luò)的啟發(fā),提出了基于BERT 的雙特征融合注意力模型(dual features local-global attention with BERT,DFLGA-BERT),借助BERT 來獲取高質(zhì)量的語義編碼,為突出方面詞的重要性,本文根據(jù)上下文動態(tài)掩碼(context dynamic mask,CDM)設(shè)計(jì)了局部特征抽取模塊聚焦與方面詞在語義上更相關(guān)的特征,在此基礎(chǔ)上計(jì)算局部特征的注意力分?jǐn)?shù)。同時(shí),為了彌補(bǔ)局部特征容易忽略遠(yuǎn)距離特征的缺陷和挖掘多維度的全局特征,本文模型使用情景感知網(wǎng)絡(luò)設(shè)計(jì)了全局特征抽取模塊模型。在獲取深度全局語義信息的同時(shí)盡可能地降低干擾項(xiàng)對情感分類的影響。同時(shí)受Tay 等人[17]的啟發(fā),本文將“準(zhǔn)”注意力融入到全局注意力的計(jì)算中,將注意力分?jǐn)?shù)的值域由原來的[0,1]變換到[-1,1]。通過訓(xùn)練線性層參數(shù)讓模型學(xué)習(xí)在不同的上下文語境中分配合適的注意力,(正向、零、負(fù)向)分別對應(yīng)(增加注意力、忽略、降低注意力),從而降低文本噪聲對于模型的影響。在特征融合階段,模型采用多個(gè)條件層規(guī)范化(conditional layer normalization,CLN)[18]的組合結(jié)構(gòu),在強(qiáng)調(diào)平衡局部特征和全局特征的同時(shí),避免了融合階段的特征損失,強(qiáng)化了模型的擬合能力。實(shí)驗(yàn)證明,DFLGA-BERT 在SentiHood 和SemEval 2014 Task 4數(shù)據(jù)集上都取得了優(yōu)異的成績。同時(shí),在消融實(shí)驗(yàn)中進(jìn)行了子模塊的有效性驗(yàn)證,也充分證明了模型主要組成部分的設(shè)計(jì)合理性。
對于方面情感分類,為模型準(zhǔn)備的輸入序列通常由上下文序列和方面詞序列組成,方面詞序列通常為單個(gè)方面詞或多個(gè)詞組成的方面詞組,這使得模型能夠?qū)W習(xí)到與方面相關(guān)的信息。假設(shè)s={wi|i∈[1,n]}是一個(gè)包含方面的上下文序列,st={wi|i∈[1,m]}是一個(gè)方面序列,其中st是s的子序列,且m≥1。如圖1,整個(gè)句子為上下文序列s,而“version”和“price”是兩個(gè)不同的方面序列st。本文模型的目的是預(yù)測st在s中所表現(xiàn)的情感極性。模型總體架構(gòu)如圖2 所示,宏觀上可以分為三層:輸入層、特征抽取層以及輸出層。特征抽取層又可以分為局部特征抽取模塊和全局特征抽取模塊,分別用以獲取方面詞局部特征以及全局上下文語境動態(tài)加權(quán)特征。模型的介紹將圍繞輸入層、局部特征抽取模塊、全局特征抽取模塊以及輸出層這四個(gè)部分展開。
圖2 DFLGA-BERT模型整體架構(gòu)Fig.2 Overall architecture of DFLGA-BERT model
輸入層是DFLGA-BERT 模型的第一層,其目的是將上下文序列轉(zhuǎn)化為向量化表示然后輸入到模型中。在DFLGA-BERT模型中,為了充分發(fā)揮BERT在模型訓(xùn)練中的作用,本文將輸入序列處理成“[CLS]”+上下文序列+“[SEP]”+方面詞序列+“[SEP]”的形式。其中,“[CLS]”和“[SEP]”是BERT 使用的兩種標(biāo)記符號,“[CLS]”是特殊分類向量標(biāo)記符,聚集了分類相關(guān)的信息,“[SEP]”是分隔符,在輸入多個(gè)序列時(shí)用于分隔不同序列。將原輸入序列處理成BERT 在處理文本分類任務(wù)時(shí)所要求的輸入格式,從而最大程度地發(fā)揮BERT 的效果。
1.2.1 局部特征抽取器
(1)詞嵌入層
將句子輸入到詞嵌入層進(jìn)行特征表示,詞嵌入層可以將分好的詞變?yōu)槌砻艿南蛄?。在DFLGABERT 中,由于BERT 具有強(qiáng)大的表示能力,為了加快學(xué)習(xí)進(jìn)程和獲得更強(qiáng)性能,使用經(jīng)過預(yù)訓(xùn)練的BERT詞向量作為詞嵌入層。假設(shè)L∈Rde×|v|是BERT 向量,de是嵌入向量的維度,|V|是詞庫的大小,每個(gè)上下文詞Wi對應(yīng)一個(gè)向量。
(2)MHSA 編碼器
經(jīng)過詞嵌入層的表示后,輸入序列的隱層向量已經(jīng)包含了所提及的語義特征,為了提取其中有助于判別方面情感的特征,使用多頭注意力(multihead self-attention,MHSA)來對特征進(jìn)行提取。多頭注意力與單頭注意力的不同之處在于進(jìn)行了多次計(jì)算而不僅僅算一次,這樣可以允許模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息。MHSA 的主要思想是通過多個(gè)注意力函數(shù)來對每個(gè)單詞計(jì)算注意力數(shù)值,將這多個(gè)注意力數(shù)值拼接在一起后進(jìn)行激活函數(shù)運(yùn)算,其結(jié)果即為輸入序列的語義表示。令詞嵌入層的輸出為El,單頭注意力的計(jì)算方式為:
式中,Wq、Wk、Wv均為權(quán)重矩陣,。這三個(gè)矩陣中的權(quán)重屬于模型的可訓(xùn)練參數(shù)。dq、dk、dv是矩陣維度,三者的值都是dh/h。其中,dh是隱藏層維數(shù),h是多頭注意力機(jī)制中的頭數(shù)。根據(jù)每個(gè)注意力頭的H計(jì)算結(jié)果,可得到整個(gè)MHSA 的輸出Out(El):
式中,⊕表示向量的拼接操作;WMHSA是一個(gè)向量矩陣,;Tanh 是激活函數(shù)。通過以上步驟,多頭注意力將基礎(chǔ)的詞嵌入向量編碼為包含豐富信息的語義向量表示。
(3)語義相關(guān)距離SRD
語義相關(guān)距離(SRD)就是指同一句子中兩個(gè)詞互相之間的語義影響度,一般來說,兩個(gè)單詞之間的語義相關(guān)距離越近,則兩個(gè)單詞之間的語義相關(guān)程度越高。SRD 一般分序列距離和依存距離兩種,序列距離就是兩個(gè)詞在句子中位置的絕對距離。依存距離是指兩個(gè)詞在句法依存樹中對應(yīng)節(jié)點(diǎn)之間的最短距離。如果方面詞由多個(gè)詞語組成,則SRD 被計(jì)算為方面詞每個(gè)組件單詞和輸入單詞之間的平均距離。SRD(序列距離)的計(jì)算過程如下:設(shè)輸入的原上下文序列為W={w1,w2,…,wi,wi+1,…,wi+m-1,wi+m,…,wn},其中{wi,wi+1,…,wi+m-1}為方面詞序列,對上下文序列中的任意單詞wj(1 ≤j≤n),SRD 的計(jì)算方法為:
經(jīng)過實(shí)驗(yàn)測試,本文模型中使用序列距離的效果更好,因此選用序列距離作為詞語的語義相關(guān)距離。
(4)上下文動態(tài)掩碼CDM
通過計(jì)算句子中各詞與方面詞之間的語義相關(guān)距離,然后根據(jù)與方面詞的SRD 大小可以掩蔽掉一些對方面詞的情感傾向無關(guān)的部分上下文詞。給定全局上下文向量H以及語義相關(guān)距離的閾值a。具體流程為:對于輸入的上下文序列,本文首先計(jì)算上下文詞與方面詞的語義相關(guān)距離,再根據(jù)閾值a將上下文中與方面詞的語義相關(guān)距離超過a的詞用全零矩陣進(jìn)行覆蓋,進(jìn)而計(jì)算上下文的掩碼向量M。
式中,O和E分別表示全零向量和全一向量;O,E∈,其中dh為上下文隱層向量的維度,?表示哈達(dá)瑪積(即兩個(gè)相同維度的矩陣相同位置兩兩相乘),通過式(10)將與方面詞的語義相關(guān)距離超過a的詞用全零矩陣進(jìn)行覆蓋即得到局部特征嵌入層的輸出Outlocal。最后通過注意力機(jī)制提取之后輸出局部上下文對方面詞的注意結(jié)果如式(11)。
1.2.2 全局特征抽取器
其中詞嵌入部分、MHSA 編碼器部分和局部特征抽取器相同,就不再贅述。
(1)上下文感知注意力編碼
與傳統(tǒng)的注意力編碼不同,本文模型采用Yang等人[16]提出的上下文語境融合網(wǎng)絡(luò),其核心思想是在保持自注意力模型并行計(jì)算和特征抽取的基礎(chǔ)上充分利用語料的內(nèi)在信息去挖掘句子中詞語之間的聯(lián)系。傳統(tǒng)注意力編碼的計(jì)算[16]和深度全局語境融合網(wǎng)絡(luò)編碼[16]的區(qū)別見圖3和圖4所示。
圖3 傳統(tǒng)注意力計(jì)算Fig.3 Conventional attention calculating
圖4 深度全局上下文注意力計(jì)算Fig.4 Deep-global context attention calculating
在傳統(tǒng)的注意力編碼中主要是建模了詞與詞之間的關(guān)聯(lián),得到整個(gè)輸入序列對某一個(gè)詞的權(quán)重序列。全局上下文注意是指用一個(gè)在層與層之間共享的向量c來建模序列的全局語義,幫助模型理解整句的整體語義。深度是指模型內(nèi)部具有多層的隱藏層,在深度學(xué)習(xí)模型中通常會使用多層的隱藏層來建模多個(gè)方面的信息,例如每個(gè)詞在不同方面的句法信息和語法信息,Yang 等人[16]的研究表明,底層的隱藏層通常會蘊(yùn)含句法相關(guān)的信息,較高層的隱藏層用來捕獲上下文相關(guān)的方面信息。在深度全局上下文注意力的計(jì)算當(dāng)中結(jié)合了全局上下文和深度上下文,充分利用全局上下文和深度上下文的優(yōu)勢,跨層融合全局上下文,將詞與詞之間的詞匯信息、句法信息、語義信息一起融入到特征向量中。
(2)深度全局上下文注意
深度全局上下文注意分?jǐn)?shù)計(jì)算是基于上下文感知的注意力編碼,為了緩解自注意力模型上下文信息的缺乏,模型將上下文的信息嵌入到編碼層的查詢矩陣Q和鍵值矩陣K中,在避免了顯著增加計(jì)算量的同時(shí)保持了原有的并行計(jì)算,具體的方式見式(12)所示:
(3)“準(zhǔn)”注意力分?jǐn)?shù)計(jì)算
在常規(guī)的注意力計(jì)算中,由于使用了Softmax 函數(shù)注意力分?jǐn)?shù)在[0,1]之間,也就是說,它只允許每個(gè)位置的隱層向量進(jìn)行凸加權(quán)組合,對注意力分?jǐn)?shù)的貢獻(xiàn)只能是相加的,這會導(dǎo)致即使是跟目標(biāo)方面詞不相關(guān)的詞也會得到正的注意力分?jǐn)?shù),從而對最終方面詞的情感分類造成一定程度的干擾。因此本文模型將Tay 等人[17]在2019 年提出的“準(zhǔn)”注意力[17]注入其中,同時(shí)允許加性注意和減性注意來克服這一限制。為了導(dǎo)出“準(zhǔn)”注意力矩陣,本文首先定義了“準(zhǔn)”上下文查詢矩陣CQ和“準(zhǔn)”上下文鍵值矩陣CK,如式(14)所示:
式中,α是一個(gè)比例因子;fφ(?)是相似度度量函數(shù),用來捕捉和之間的相似度,本文使用點(diǎn)積函數(shù)來參數(shù)化fφ。根據(jù)每個(gè)注意力頭的H(Eg)計(jì)算結(jié)果,可得到整個(gè)MHSA的輸出Out(Eg):
式中,⊕表示向量的拼接操作;WMHSA是一個(gè)向量矩陣,;Tanh 是激活函數(shù)。將全局上下文的權(quán)重系數(shù)的值表示為雙向的,得到式(18):
式中,{β,γ}是控制權(quán)重的標(biāo)量。用來控制“準(zhǔn)”注意力權(quán)重系數(shù),進(jìn)而調(diào)整全局特征在總體特征中權(quán)重占比。由式(13)可知{,}的值域?yàn)閇0,1]。當(dāng)β=1,γ=1 時(shí),(β?+γ?)的值域?yàn)閇0,2],則的值域?yàn)閇-1,1]。此時(shí),局部特征和全局特征對模型總體的貢獻(xiàn)為1∶1,由此來平衡局部特征和全局特征。通過注意力機(jī)制進(jìn)行提取之后得到全局上下文對方面詞的注意力分?jǐn)?shù)的結(jié)果,全局特征抽取模塊的輸出可表示為式(19):
在局部特征和全局特征進(jìn)行融合時(shí),普通的融合方式如線性層、拼接、和、積等,很容易損失和覆蓋特征信息,最終導(dǎo)致模型的性能下降。
為了解決這個(gè)問題,本文基于CLN 設(shè)計(jì)了新的特征融合結(jié)構(gòu),張龍輝等人[18]曾在對序列進(jìn)行層規(guī)范化(layer normalization,LN)的同時(shí)將額外的條件c1和c2融入到LN的過程中,來增強(qiáng)特征,提出了CLN。LN和CLN的計(jì)算過程如下:
式(20)為LN 的計(jì)算公式,其中E[x]為求x的均值,Var[x]為求x的方差,ε為保持分母不為零的極小常量,φ和η分別為縮放變量和平移變量。式(21)為CLN 的計(jì)算公式,其中Wφ、Wη為可訓(xùn)練參數(shù),c1和c2為待融合條件。對比式(20),CLN 將條件c1和c2通過線性變換映射到兩個(gè)不同的空間,作為縮放變量φ和平移變量η加入到y(tǒng)的規(guī)范化過程中。
CLN 中變量的不同輸入順序,同樣會導(dǎo)致不同的融合結(jié)果,能夠體現(xiàn)變量間的方向性特征。本文利用多個(gè)CLN 的組合結(jié)構(gòu)來強(qiáng)化階段間的特征傳輸過程,豐富語義特征的表達(dá),保留原有特征的信息以及方向性特征,進(jìn)而達(dá)到特征融合的目的。為了最大程度地保留特征抽取模塊抽取的特征信息,本文首先將全局特征作為輔助信息融入到局部特征中,過程如下:
然后將局部特征作為輔助信息融入到全局特征中,過程如下:
最后取式(22)和式(23)的均值得到雙特征融合向量Ofusion,如式(24)所示:
得到特征抽取層輸出的雙特征融合向量Ofusion后,將其輸入到線性分類層去做關(guān)于方面詞的情感分類,使用Softmax 層預(yù)測情感極性。計(jì)算過程如式(25)和式(26)所示:
式中,MLP(multilayer perceptron)表示多層感知機(jī),p與情緒標(biāo)簽的維數(shù)相同,而分別是學(xué)習(xí)權(quán)重和偏置。
在本章中,為了驗(yàn)證模型的有效性,首先介紹了用于評估的數(shù)據(jù)集和用于比較的基線方法。然后,針對細(xì)粒度情感分析任務(wù)ABSA 以及它的子任務(wù)TABSA 分別進(jìn)行了實(shí)驗(yàn),并從不同的角度報(bào)告了實(shí)驗(yàn)結(jié)果。
本文實(shí)驗(yàn)環(huán)境如下:CPU 為Intel Core i7 8700K,GPU為GeForce GTX 1080Ti,內(nèi)存大小為DDR4 16 GB,開發(fā)環(huán)境為win10 64位操作系統(tǒng),Pytorch1.5.0。
為了更加全面地對本文模型進(jìn)行評估,本文采用兩個(gè)公開的英文數(shù)據(jù)集對ABSA任務(wù)和TABSA任務(wù)進(jìn)行了實(shí)驗(yàn)評估。對于TABSA 任務(wù),本文使用了由雅虎問答構(gòu)建的Sentihood 數(shù)據(jù)集5,它由5 215 個(gè)句子組成,其中3 862個(gè)句子包含一個(gè)目標(biāo)方面,1 353個(gè)句子包含多個(gè)目標(biāo)方面。對于ABSA任務(wù),本文使用的數(shù)據(jù)集是SemEval 2014 Task 4,這些數(shù)據(jù)集中包含多個(gè)方面項(xiàng)及其對應(yīng)的情緒極性(積極、中立或消極)。表1顯示了每個(gè)類別中的訓(xùn)練和測試實(shí)例的數(shù)量。此外,本文在參數(shù)選擇過程中隨機(jī)劃分出20%的訓(xùn)練集作為開發(fā)集。本次實(shí)驗(yàn)所有復(fù)現(xiàn)的模型以及本文模型都使用了同樣的數(shù)據(jù)集處理方式。
表1 SemEval數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistics of SemEval datasets
與學(xué)者Pontiki等人[3]的研究一樣,本文為每個(gè)數(shù)據(jù)集定義了兩個(gè)子任務(wù):(1)方面詞的檢測;(2)基于方面的情感分析。對于方面詞的檢測,如果它是TABSA任務(wù),則檢測在目標(biāo)實(shí)體為t的輸入句子中是否提到了預(yù)先給定的方面集合中的方面類別a(如果為None,則意味著沒有提到),如果是ABSA 任務(wù)則直接檢測輸入句子中是否提到了預(yù)先給定的方面集合中的方面類別a。對于方面的情感分析,本文給出了模型存在的方面(即忽略掉在句子中沒有提到的方面),讓模型預(yù)測方面的情感極性(Sentihood 數(shù)據(jù)集是積極或消極,SemEval 2014 Task 4 數(shù)據(jù)集是積極、中立、消極或沖突)。
在本文的實(shí)驗(yàn)中,對于方面詞的檢測(輸入的句子中是否存在給定的方面,如不存在則為None),本文采用分類任務(wù)常用的準(zhǔn)確度Acc、F1 以及AUC 值作為評價(jià)指標(biāo),對于基于方面的情感分析任務(wù)本文使用召回率F1和AUC值作為評價(jià)指標(biāo)。本文使用預(yù)先訓(xùn)練好的BERT進(jìn)行微調(diào),特征向量的層數(shù)為12,維度為768。在本文的模型訓(xùn)練中,使用Adam作為優(yōu)化器,初始學(xué)習(xí)率為2E-5,batch_size 為4,dropout 概率為0.1,epoch 為20,在兩個(gè)數(shù)據(jù)集中單次的訓(xùn)練時(shí)間為19 h。
基于目標(biāo)方面的情感分析TABSA旨在識別句子中針對一個(gè)指定實(shí)體(target,aspect term)的一個(gè)指定方面(aspect category)的情感。例如:“這塊牛排的味道非常好吃,但價(jià)格有點(diǎn)貴。果汁既便宜又好喝”在給定的關(guān)于餐廳的目標(biāo)方面集合{味道,服務(wù),價(jià)格,位置,服務(wù),裝修等}中表現(xiàn)出了對“牛排味道”“果汁味道”“果汁價(jià)格”這個(gè)方面的積極情感,對“牛排價(jià)格”這個(gè)方面的消極情感,模型需要正確識別出目標(biāo)實(shí)體在目標(biāo)方面的情感極性。相較于關(guān)于方面的情感分析ABSA 任務(wù),TABSA 中可能出現(xiàn)的實(shí)體更多,預(yù)測的是實(shí)體-方面類別詞對的情感極性。
為了綜合評價(jià)本文模型,將它們與一系列基線和最先進(jìn)的模型進(jìn)行比較,如下所示:
(1)LR:一種具有多分類語法和位置標(biāo)簽的邏輯回歸分類器。
(2)LSTM-Final[20]:Ruder等人使用分層雙向長短期記憶網(wǎng)絡(luò)(long short-term memory networks,LSTM)對評論中句子的相互依存關(guān)系進(jìn)行建模。
(3)LSTM-Loc[21]:Tang 等人將目標(biāo)位置相關(guān)聯(lián)的狀態(tài)融入特征的雙向長短期記憶網(wǎng)絡(luò)模型。
(4)LSTM+TA+SA[22]:Ma 等人在長短期記憶網(wǎng)絡(luò)中引入了目標(biāo)層注意和句子層注意的分層注意機(jī)制。情感相關(guān)概念的常識知識被納入用于情感分類的深度神經(jīng)網(wǎng)絡(luò)的端到端訓(xùn)練中。
(5)SenticLSTM[22]:Ma 等人將SenticNet[23]的外部信息引入到模型之中,是LSTM+TA+SA 模型的升級版本。
(6)Dmu-Entnet[24]:Liu 等人受機(jī)器閱讀記憶增強(qiáng)模型的最新進(jìn)展的啟發(fā),提出了一種新的雙向Entnet[25]體系結(jié)構(gòu),利用外部“內(nèi)存鏈”和延遲的內(nèi)存更新機(jī)制來跟蹤實(shí)體。
(7)BERT-single[9]:Devlin 等人設(shè)計(jì)為通過聯(lián)合限制所有層的左右上下文來預(yù)先訓(xùn)練來自未標(biāo)記文本的深層雙向表征。僅使用BERT 對自然語言表征進(jìn)行編碼后進(jìn)行目標(biāo)方面情感分析。
(8)BERT-pair-QA-M[10]:Sun 等人利用BERT 做神經(jīng)表征編碼的基礎(chǔ)上,通過從方面詞構(gòu)造一個(gè)助句,將方面情感分析任務(wù)轉(zhuǎn)換為問答。
(9)BERT-pair-NLI-B[10]:通過從方面詞構(gòu)造一個(gè)助句,將方面情感分析任務(wù)轉(zhuǎn)換為自然語言推理。
(10)LCF-BERT[11]:Zeng等人使用語義-關(guān)系距離(SRD)的局部上下文-關(guān)注設(shè)計(jì)來丟棄無關(guān)的情感詞。
(11)LCFS-BERT[26]:Phan 等人結(jié)合詞性嵌入、基于依賴關(guān)系的嵌入和上下文嵌入來提高方面抽取器的性能。提出了句法相對距離來淡化不相關(guān)詞的負(fù)面影響,提高了方面情感分類器的準(zhǔn)確性。
(12)Dual-MRC[27]:Mao等人基于三元組的抽取任務(wù),構(gòu)造了兩個(gè)機(jī)器閱讀理解(machine reading comprehension,MRC)問題,并通過聯(lián)合訓(xùn)練兩個(gè)參數(shù)共享的BERT-MRC模型來解決端到端框架的所有子任務(wù)。
(13)DualGCN[28]:Li等人提出雙重圖卷積網(wǎng)絡(luò)模型,分別捕獲句法知識和語義相關(guān)性。
(14)CG-BERT[14]:Wu 等人基于上下文動態(tài)分配自注意力權(quán)重提出上下文引導(dǎo)的BERT 模型CGBERT,可以針對不同的上下文背景自適應(yīng)地調(diào)節(jié)上下文語境對方面詞的影響。
(15)QACG-BERT[14]:Wu 等人對CG-BERT 模型進(jìn)行改進(jìn),提出“準(zhǔn)”注意力的CG-BRRT 模型,使得模型在學(xué)習(xí)的過程中支持值為負(fù)數(shù)的注意力分?jǐn)?shù)。
(16)DFLGA-BERT:本文模型,基于雙特征融合注意力分別設(shè)計(jì)了局部與全局的特征抽取模塊,充分捕捉方面詞和上下文的語義關(guān)聯(lián)。并將一種改進(jìn)的“準(zhǔn)”注意力添加到DFLGA-BERT 中,使模型學(xué)習(xí)在注意力的融合中使用減性注意力以削弱文本噪聲產(chǎn)生的負(fù)面影響。
表2 展示了模型在Sentihood 數(shù)據(jù)集5 上的實(shí)驗(yàn)結(jié)果。如表2 所示,在普通的基線模型中,基于特征工程的邏輯回歸分類器首先開始嘗試方面級情感分析任務(wù)。時(shí)間最早,但在情感分類上的效果卻出人意料得好,超過了許多不含BERT 加持的基線模型。但在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中由于手動制作特征的復(fù)雜性,在不考慮人工成本的條件下依舊是一個(gè)不錯(cuò)的選擇。在長短期記憶網(wǎng)絡(luò)問世之后,Ruder 等人[20]和Ma等人[22]先后利用分層雙向LSTM 以及將目標(biāo)層注意和句子層的注意引入到LSTM中,模型整體在方面類別抽取子任務(wù)上的性能得到了提升。由于LSTM的結(jié)構(gòu)比較簡單,且未考慮方面詞的有關(guān)信息,分類的效果依舊不是很理想。BERT-pair-QA-M 和BERTpair-NLI-B模型利用BERT模型在自然語言推理和問答任務(wù)上的優(yōu)勢,巧妙地通過構(gòu)造助句的方法,將情感分析任務(wù)轉(zhuǎn)換為問答任務(wù)和自然語言推理任務(wù),在方面情感分析任務(wù)上的Acc 指標(biāo)提升了0.07~0.11。LCFS-BERT、CG-BERT、QACG-BERT 也都設(shè)計(jì)了合適的網(wǎng)絡(luò)結(jié)構(gòu)和子模塊來引導(dǎo)整個(gè)模型滿足方面詞情感分析任務(wù)的要求,充分發(fā)揮了BERT 強(qiáng)大的優(yōu)勢,取得了令人矚目的成績。DFLGA-BERT 則是憑借整合局部特征和深度全局上下文特征的優(yōu)勢,在情感分類的Acc和AUC上,都獲得了比上述基線更理想的結(jié)果。證明了整體模型在解決方面詞情感分析任務(wù)上的優(yōu)秀能力。
表2 實(shí)驗(yàn)結(jié)果對比(TABSA任務(wù))Table 2 Comparison of experimental results(TABSA task) 單位:%
基于方面的情感分析任務(wù)ABSA 目的是給定文本以及文本中可能出現(xiàn)的方面,預(yù)測文本是否提到該方面詞,并預(yù)測該方面詞在文本中的情感極性。
在ABSA 任務(wù)中,將本文的DFLGA-BERT 模型與在SemEval-2014 數(shù)據(jù)集上表現(xiàn)優(yōu)秀的幾個(gè)模型進(jìn)行比較。在方面檢測任務(wù)中本文采用分類常用的Precision、Recall、F1 值作為衡量指標(biāo),在方面情感分析方面,本文采用Acc 作為評價(jià)指標(biāo),結(jié)果展示了模型在二分類(積極,消極)、三分類(積極,中性,消極)、四分類(積極,中性、消極、沖突)上的表現(xiàn)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 實(shí)驗(yàn)結(jié)果對比(ABSA任務(wù))Table 3 Comparison of experimental results(ABSA task) 單位:%
為了綜合評價(jià)本文模型,將它們與一系列基線和最先進(jìn)的模型進(jìn)行比較,如下所示:
(1)XRCE[29]:Brun 等人介紹了為SemEval-2014任務(wù)4開發(fā)的專門用于基于方面的情感分析的系統(tǒng)。該系統(tǒng)基于一個(gè)健壯的解析器,該解析器為不同的分類器提供信息,為不同的分類器提供專用于方面類別和方面類別極性分類的語言特征。
(2)NRC-Canada[30]:Kiritchenko等人基于SemEval-2014 任務(wù)4 設(shè)計(jì)的關(guān)于方面檢測以及方面情感分析的分類器。
其他對比模型同實(shí)驗(yàn)1中模型,此處不予贅述。
表3 展示了各個(gè)模型在SemEval-2014 數(shù)據(jù)集上的表現(xiàn)。如表3 所示,XRCE 和NRC-Canada 模型是Brun 等人[29]和Kiritchenko 等人[30]基于SemEval-2014任務(wù)4 設(shè)計(jì)的關(guān)于方面類別檢測以及方面情感分析的分類器,雖然沒有用復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò),但依靠手工編碼特征依舊取得了不錯(cuò)的成績,為之后的學(xué)者提供了可參考的實(shí)驗(yàn)結(jié)果。Sun 等人[10]在利用BERT 做神經(jīng)表征編碼的基礎(chǔ)上,通過從方面詞構(gòu)造一個(gè)助句,將方面情感分析任務(wù)轉(zhuǎn)換為問答和自然語言推理,充分利用BERT 模型在分析句子對任務(wù)上天然的優(yōu)勢。在二分類的情感分類任務(wù)上達(dá)到了95.4%的準(zhǔn)確率,該模型的性能已近乎達(dá)到其潛在最優(yōu)效果的極限。LCFS-BERT則基于依賴關(guān)系提出了句法相對距離來淡化不相關(guān)詞的負(fù)面影響,在三分類和四分類的任務(wù)上提升了1 個(gè)百分點(diǎn)。本文模型在方面詞檢測的精確度和召回率上都表現(xiàn)出了比基線模型更優(yōu)的實(shí)驗(yàn)結(jié)果,Macro-F1 分?jǐn)?shù)比Wu 等人[14]的QACG-BERT 模型略低4E-4,在情感分類任務(wù)上也相對占優(yōu),證明了整體模型在解決方面詞情感分析任務(wù)上的優(yōu)秀能力。
綜合兩個(gè)實(shí)驗(yàn)來看,本文提出的基于雙特征融合注意力的方面情感分析模型,針對局部特征抽取和全局特征抽取分別設(shè)計(jì)了局部特征和全局特征的抽取模塊,能夠顯著提升BERT 在方面詞檢測和方面情感分析任務(wù)上的表現(xiàn),在TABSA 任務(wù)和ABSA 任務(wù)上都有比較好的效果。其一,本文將模型的輸入處理成BERT 在處理文本分類任務(wù)時(shí)所要求的輸入格式,最大程度地利用BERT 在語義抽取方面的優(yōu)勢。其二,ABSA 任務(wù)和TABSA 任務(wù)中由于有來自方面詞(aspect)和目標(biāo)項(xiàng)(target)的額外信息,分類場景比普通的SA(sentiment analysis)任務(wù)更加復(fù)雜,直接微調(diào)傳統(tǒng)的BERT 預(yù)訓(xùn)練模型并不能實(shí)現(xiàn)模型性能的增長。本文根據(jù)不同的上下文場景,設(shè)計(jì)局部特征抽取模塊減少注意力的感知范圍,屏蔽距離較遠(yuǎn)的詞對方面詞產(chǎn)生的干擾,強(qiáng)化方面詞的范圍感知能力。同時(shí)設(shè)計(jì)全局特征抽取模塊,去彌補(bǔ)局部特征抽取時(shí)忽略的距離較遠(yuǎn)但也和方面詞比較相關(guān)的詞。以內(nèi)部的隱藏狀態(tài)作為上下文的特征向量,在不增加外語義信息的條件下深度抽取全局語義信息。其三,本文在特征融合階段采用多個(gè)條件層規(guī)范化的組合結(jié)構(gòu),豐富了語義特征的表達(dá),避免了特征融合階段的特征損失。在方面詞的檢測和情感分類上都取得了相比于之前的基線模型更好的結(jié)果。
為了檢驗(yàn)DFLGA-BERT模型學(xué)習(xí)到的全局參數(shù)的有效性,本文用訓(xùn)練好的DFLGA-BERT 模型將測試集中的一個(gè)句子進(jìn)行了自注意力和準(zhǔn)注意力的可視化展示,如圖5所示。在這個(gè)句子中本文正確地預(yù)測了“book version”的情感極性為正,high 相對于方面詞version 也是一個(gè)積極情感的詞,因此在自注意力的計(jì)算中high的自注意力分?jǐn)?shù)和hardcover都很高。但是就全句上下文語境而言,high與price更相關(guān),并且表示負(fù)面的情感極性,因此可以看到在“準(zhǔn)”注意力分?jǐn)?shù)上high的分?jǐn)?shù)接近負(fù)1.0,這也會在本文最終的關(guān)注度中將對應(yīng)的注意分?jǐn)?shù)減去,最終得到version更多相關(guān)于hardcover 并且情感極性為正。由于準(zhǔn)注意力的存在,很明顯看到在特征融合之后部分詞的注意力分?jǐn)?shù)為負(fù),Tay等人[17]在論文“Compositional De-Attention Networks”第四章對自然語言處理任務(wù)的分析中得出結(jié)論,“準(zhǔn)”注意力的使用能有效幫助模型學(xué)習(xí)在不同的上下文語境中分配合適的注意力(正向、零、負(fù)向),這些分別對應(yīng)(增加注意力、忽略、降低注意力),因此方面詞會降低對“high”的關(guān)注度。這也證明了DFLGA-BERT模型能有效地排除大部分的噪聲干擾,能夠忽略輸入中一部分不相關(guān)的信息,有效提升后期情感分類任務(wù)的準(zhǔn)確度。
圖5 測試集中對(book,version)詞對的注意力權(quán)重示例Fig.5 Example of attention weights extracted from test set of pair(book,version)
從圖6 可知,在傳統(tǒng)的自注意力(attention)中,方面詞“book version”將注意力主要集中于上下文的“a hardcover”以及“a bit high”中,由于自注意力分?jǐn)?shù)的計(jì)算受到softmax 函數(shù)的限制,注意力分?jǐn)?shù)的數(shù)值會分布在[0,1]區(qū)間內(nèi)。通俗地理解為方面詞會按照注意力分?jǐn)?shù)的大小分配自身的自注意力,而所有上下文詞的自注意力分?jǐn)?shù)都大于0,這表示它們或多或少都會“被關(guān)注”,因此才會造成一定的噪聲問題。例如圖中的例子,從自注意力的角度而言,“a hardcover”和“a bit high”的關(guān)注度都很高,那么“a bit high”也很有可能在最后進(jìn)行情感分類的時(shí)候被誤認(rèn)為是“book version”的觀點(diǎn)項(xiàng),從而導(dǎo)致模型預(yù)測結(jié)果不準(zhǔn)確。而從“準(zhǔn)”注意力(de-attention)的角度而言,“準(zhǔn)”注意力中學(xué)習(xí)了全局上下文的整體語義,它“學(xué)”到“a bit high”也飽含情感,但與“book version”在語境上不符,因此降低對它的關(guān)注度,最終會將注意力集中于“a hardcover”,將它作為情感分類的觀點(diǎn)項(xiàng),這正是本文模型所追求的。
圖6 自注意力與“準(zhǔn)”注意力可視化效果對比(book,version)Fig.6 Comparison of visualization between attention and de-attention(book,version)
為了探究不同的語義相關(guān)距離對DFLGA 模型的影響,以及尋求DFLGA 模型在各個(gè)數(shù)據(jù)集上的最佳SRD 閾值參數(shù),本文在兩個(gè)數(shù)據(jù)集上進(jìn)行了關(guān)于SRD 閾值a和序列距離以及依存距離的實(shí)驗(yàn),以評估在不同情況下的最佳語義相關(guān)距離和閾值a。相應(yīng)模型和數(shù)據(jù)集的SRD 范圍為0 到8,如果SRD 閾值a為0,則局部上下文等于方面詞本身。結(jié)果如圖7 和圖8 所示,序列距離為Seq,依存距離為Deq。在本次的比較實(shí)驗(yàn)中,除SRD 閾值外,所有的參數(shù)和超參數(shù)均一致。由于實(shí)驗(yàn)結(jié)果波動,本文在每個(gè)數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn),以得到的平均結(jié)果進(jìn)行比較。由圖7 和圖8 可知,無論是在Sentihood 數(shù)據(jù)集還是SemEval-2014 數(shù)據(jù)集中,使用序列距離的效果都優(yōu)于使用依存距離。當(dāng)閾值為3 附近的時(shí)候取得本次實(shí)驗(yàn)的最佳結(jié)果。
圖7 不同a下DFLGA的精度(Sentihood)Fig.7 Accuracy of DFLGA under different a(Sentihood)
圖8 不同a下DFLGA的精度(SemEval-2014)Fig.8 Accuracy of DFLGA under different a(SemEval-2014)
為了分析DFLGA-BERT 模型每個(gè)組件的重要性,本文設(shè)計(jì)了DFLGA-BERT 關(guān)于TABSA 任務(wù)和ABSA任務(wù)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果列于表4和表5。
表4 DFLGA-BERT消融實(shí)驗(yàn)(TABSA任務(wù))Table 4 DFLGA-BERT ablation experiment(TABSA task) 單位:%
表5 DFLGA-BERT消融實(shí)驗(yàn)(ABSA任務(wù))Table 5 DFLGA-BERT ablation experiment(ABSA task) 單位:%
由表4 和表5 可以清楚地看到,缺少了任意一個(gè)模塊,DFLGA 的效果都會出現(xiàn)明顯的下降。全局特征抽取模塊對模型整體的效果影響最大,這表明了全局語義特征對自然語言理解任務(wù)的重要性,相對于普通句中方面詞和情感指示詞都相距較近,比較容易判斷。最難判斷的句子往往是情感指示詞出現(xiàn)在模型意想不到的地方,甚至是局部特征抽取會直接忽略的地方,此時(shí)就只能依靠全局語義特征來進(jìn)行判斷。在模型整體中,局部語義特征和全局語義特征相輔相成,全局語義特征能夠估計(jì)全面的語義但不夠突出,局部特征能充分捕捉鄰近的語義特征但容易忽略較遠(yuǎn)的詞語,兩個(gè)特征抽取模塊都對DFLGA 模型非常關(guān)鍵。通過上述消融實(shí)驗(yàn),可以驗(yàn)證DFLGA各個(gè)子模塊在本任務(wù)中的有效性。
本文針對當(dāng)前方面詞情感分析任務(wù)研究中存在的不足,設(shè)計(jì)了DFLGA 模型。該模型首次將局部注意力模型LCF 與全局特征抽取的深度上下文感知網(wǎng)絡(luò)相結(jié)合,能夠高效地抽取指定方面詞的情感特征。全局和局部特征抽取器的設(shè)計(jì)使模型能夠兼顧全面的同時(shí)聚焦局部特征,同時(shí)注入“準(zhǔn)”注意力來削弱文本中噪聲對分類的影響。為了加快模型的訓(xùn)練獲得更好的結(jié)果,本文使用了BERT 的預(yù)訓(xùn)練模型,在TABSA 任務(wù)的Sentihood 數(shù)據(jù)集5、ABSA 任務(wù)的SemEval 2014 中,進(jìn)行了實(shí)驗(yàn)驗(yàn)證,取得了比之前的模型更好的結(jié)果。此外,本文還設(shè)計(jì)了消融實(shí)驗(yàn)以驗(yàn)證模型各組件的有效性。盡管DFLGA 模型在多個(gè)數(shù)據(jù)集上都有不錯(cuò)的表現(xiàn),但仍然存在一定的提升空間。在未來,將考慮使用額外的領(lǐng)域內(nèi)語料資源來增強(qiáng)BERT 在該領(lǐng)域的語義表示能力,從而幫助模型獲得更優(yōu)秀的情感判斷能力。