韓 虎,郝俊,張千錕,孟甜甜
蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州730070
隨著社交網(wǎng)絡(luò)的快速發(fā)展,用戶擁有廣闊平臺(tái)來(lái)發(fā)表觀點(diǎn)和言論,通過(guò)情感分析獲取評(píng)論文本的情感傾向,已經(jīng)成為研究人員關(guān)注的熱點(diǎn)[1]。區(qū)別于普通情感分析,方面級(jí)情感分析(aspect-based sentiment analysis,ABSA)[2]可以挖掘出句子中不同方面的情感極性,例如句子“This bracelet is simple to use,but it costs too much!”,對(duì)于方面“use”是積極的,而方面“cost”是消極的。不同的方面對(duì)應(yīng)的情感極性可能完全相反,可見(jiàn)方面級(jí)情感分析能提高模型對(duì)句子中多個(gè)方面情感極性的判定能力。
早期,一些學(xué)者將傳統(tǒng)的機(jī)器學(xué)習(xí)方法引入來(lái)處理情感分析問(wèn)題,Boiy 等人[3]通過(guò)人工標(biāo)注一部分?jǐn)?shù)據(jù)作為訓(xùn)練集,然后利用訓(xùn)練集來(lái)構(gòu)建模型,最后利用模型對(duì)測(cè)試集的數(shù)據(jù)進(jìn)行預(yù)測(cè),這類方法通常需借助復(fù)雜的人工規(guī)則和特征工程。近年來(lái),深度學(xué)習(xí)的應(yīng)用使情感分析領(lǐng)域取得了顯著的進(jìn)展。Kim[4]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)通過(guò)識(shí)別目標(biāo)所在子句的情感來(lái)推斷目標(biāo)的情感,取得了優(yōu)異的性能。Wang 等人[5]提出了一種基于注意力的LSTM(long short-term memory)模型,當(dāng)以不同的方面作為輸入時(shí),注意力機(jī)制可以集中在句子的不同部分。Ma 等人[6]提出了交互式注意力網(wǎng)絡(luò)(interactive attention networks,IAN)來(lái)進(jìn)行交互學(xué)習(xí),得到上下文和方面的注意力,并分別生成方面和上下文的表示。通過(guò)這種設(shè)計(jì),IAN 模型能夠很好地表示方面及其對(duì)應(yīng)的上下文。融入注意力機(jī)制的網(wǎng)絡(luò)模型能夠有效關(guān)注到與方面相關(guān)的特征,并可以針對(duì)不同方面調(diào)參,進(jìn)而挖掘更多的隱藏特征,但是這類方法通常在訓(xùn)練過(guò)程中僅考慮方面本身,無(wú)法有效地識(shí)別長(zhǎng)句中復(fù)雜的語(yǔ)言關(guān)系。
在一個(gè)句子中通常存在詞的頻繁搭配,例如:“food was okay,nothing special”,單詞對(duì)“nothing special”在數(shù)據(jù)集中出現(xiàn)了5 次,而此單詞對(duì)是消極的,如果沒(méi)有該消極信息來(lái)抵消“okay”帶來(lái)的積極作用,模型可能會(huì)對(duì)“food”做出錯(cuò)誤的預(yù)測(cè)。Tay 等人[7]提出了一種將特征信息集成到神經(jīng)模型中的新方法,通過(guò)建模詞-方面關(guān)系,將方面信息融入到神經(jīng)模型中。Yao 等人[8]考慮到詞的共現(xiàn)關(guān)系和文檔-詞的關(guān)系,對(duì)照語(yǔ)料庫(kù)建立單一的文本圖,然后為其構(gòu)建文本圖卷積網(wǎng)絡(luò)。同時(shí),合理利用句法信息可以有效解決單詞間長(zhǎng)距離依賴問(wèn)題。Shafie 等人[9]提出通過(guò)挖掘評(píng)論中詞語(yǔ)之間的句法依存關(guān)系,來(lái)識(shí)別評(píng)論中的多個(gè)方面及其對(duì)應(yīng)的情感。Zhang 等人[10]提出基于特定方面的圖卷積網(wǎng)絡(luò)(aspect-specific graph convolutional network,ASGCN)利用依賴樹(shù)捕獲長(zhǎng)期的上下文語(yǔ)義信息,從而獲得較為精確的方面情感極性。
雖然這些模型基于深層神經(jīng)網(wǎng)絡(luò),能夠很好地捕捉上下文和目標(biāo)之間的語(yǔ)法和語(yǔ)義信息,但是它們?cè)谟行У卣贤獠恐R(shí)以幫助理解文本方面存在不足,特別是利用神經(jīng)網(wǎng)絡(luò)處理之前未知的單詞時(shí),例如句子“The safari opened so fast that I couldn’t see it clearly”,傳統(tǒng)的模型可能把safari 當(dāng)作新詞,無(wú)法判斷出safari為瀏覽器以及單詞“fast”的情感傾向,而這恰恰是分辨出方面情感的關(guān)鍵。因此學(xué)者們嘗試?yán)弥R(shí)圖譜中的先驗(yàn)知識(shí)為模型提供監(jiān)督信號(hào),提高模型語(yǔ)義解析能力。Chen 等人[11]通過(guò)引入知識(shí)圖譜來(lái)解決不同語(yǔ)境下的“一詞多義”問(wèn)題。Bian 等人[12]使用多頭注意機(jī)制來(lái)表示目標(biāo)和上下文,并與從外部知識(shí)庫(kù)中提取的概念知識(shí)融合來(lái)增強(qiáng)上下文和目標(biāo)的語(yǔ)義表示。
受上述工作的啟發(fā),本文通過(guò)融合知識(shí)圖譜和詞共現(xiàn)信息、句法信息構(gòu)建知識(shí)增強(qiáng)圖注意力網(wǎng)絡(luò)模型,以交互注意力網(wǎng)絡(luò)為基礎(chǔ),通過(guò)詞共現(xiàn)信息、句法特征等隱性知識(shí)和知識(shí)圖譜概念信息增強(qiáng)文本表示,從而達(dá)到語(yǔ)義消歧和特征融合的效果。本文的貢獻(xiàn)如下:
(1)提出將知識(shí)增強(qiáng)后的方面和經(jīng)過(guò)句法、詞匯圖處理后的上下文進(jìn)行有效的結(jié)合,不僅能學(xué)習(xí)到語(yǔ)言知識(shí)(詞共現(xiàn)信息、句法信息),還能夠充分融合概念知識(shí)。
(2)模型使用交互注意力機(jī)制建模方面與上下文詞之間的語(yǔ)義關(guān)系,完成方面與上下文的協(xié)調(diào)優(yōu)化。
(3)在五個(gè)公開(kāi)數(shù)據(jù)集上評(píng)估模型的性能,實(shí)驗(yàn)結(jié)果表明,該模型對(duì)不同數(shù)據(jù)集的準(zhǔn)確率(accuracy,Acc)與宏平均F1 值(macro averageF1,MF1)均有所提升,并進(jìn)一步證明了知識(shí)引入對(duì)于模型的重要性。
基于方面的情感分析是情感分析中的一項(xiàng)細(xì)粒度情感分類任務(wù),其目的是識(shí)別句子對(duì)方面表達(dá)的情感極性,通常有兩種方法用于方面級(jí)情感分析:(1)采用傳統(tǒng)機(jī)器學(xué)習(xí)方法,依賴人工構(gòu)建的特征和規(guī)則,不過(guò)該類方法非常耗時(shí)、耗力。(2)采用深度學(xué)習(xí)方法,將神經(jīng)網(wǎng)絡(luò)引入情感分類研究領(lǐng)域,其可以對(duì)特征進(jìn)行自動(dòng)選擇而不需要人工干預(yù),大大緩解了模型對(duì)特征工程的依賴,使模型用更低的代價(jià)取得更好的分類效果。如文獻(xiàn)[4]利用預(yù)訓(xùn)練的詞向量,將CNN 應(yīng)用于文本分類任務(wù)中。文獻(xiàn)[13]中的模型使用LSTM 網(wǎng)絡(luò)對(duì)文本序列進(jìn)行語(yǔ)義建模,通過(guò)LSTM 建模后的句子表達(dá)能體現(xiàn)文本上下文的語(yǔ)義聯(lián)系。然而,基于神經(jīng)網(wǎng)絡(luò)的方法不能有效地區(qū)分句子中每個(gè)單詞的重要程度,而且句子的情感極性不僅由內(nèi)容決定,還與所涉及的方面密切相關(guān)。為此,一些學(xué)者將注意力機(jī)制引入來(lái)重點(diǎn)關(guān)注句子中的重要信息。如文獻(xiàn)[14]提出兩種不同的基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型用于目標(biāo)相關(guān)的情感分類。文獻(xiàn)[15]使用一種基于注意力機(jī)制的深層記憶網(wǎng)絡(luò)用于基于方面的情感分析任務(wù)中。
研究表明,上述方法利用詞嵌入技術(shù)僅編碼了文本語(yǔ)義信息,忽略了句法結(jié)構(gòu)信息和詞頻信息,而這些信息對(duì)保存結(jié)構(gòu)信息有重要作用,并有助于縮短方面詞和意見(jiàn)詞之間的距離。且若不能正確利用句法路徑上的依存關(guān)系,句法結(jié)構(gòu)的作用就不能得到充分發(fā)揮。最近,一些學(xué)者使用基于圖的模型來(lái)整合句法結(jié)構(gòu),比如Sun 等人[16]將依存關(guān)系樹(shù)轉(zhuǎn)化為圖,然后將GCN(graph convolutional network)在依存樹(shù)上學(xué)習(xí)來(lái)建模句子的結(jié)構(gòu),將信息從句法鄰域意見(jiàn)詞傳播到方面詞。
雖然這些模型在情感分析任務(wù)上有較好的表現(xiàn),但只用僅有的句子信息,而未考慮到單詞在多種語(yǔ)境下的“一詞多義”問(wèn)題,極大影響了情感分析任務(wù)的預(yù)測(cè)性能。外部知識(shí)在情感分析任務(wù)中至關(guān)重要,因此,本文提出了一種交互注意力網(wǎng)絡(luò)模型,在利用詞匯、句法圖合并關(guān)系類型的同時(shí)融入知識(shí)來(lái)指導(dǎo)方面級(jí)情感分析任務(wù)。
1.2.1 局部層次句法、層次詞匯圖
句子中蘊(yùn)含豐富的信息,如何有效利用文本自身的語(yǔ)法知識(shí)也受到了廣泛關(guān)注。例如融入詞匯信息、句法依存關(guān)系來(lái)提高情感分析結(jié)果的準(zhǔn)確度。然而上述方法性能雖有一定的提升,但并未考慮關(guān)系類型的影響。Zhang 等人[17]在句法、詞匯的基礎(chǔ)上構(gòu)造概念層次,以區(qū)分不同類型的依存關(guān)系或詞對(duì)共現(xiàn)關(guān)系,提升了模型在方面情感分類任務(wù)上的性能。Tian 等人[18]有效融入依存句法信息并設(shè)計(jì)在各種語(yǔ)境下為不同的關(guān)系類型加權(quán),從而有效識(shí)別句法信息中的噪音。因此,本文考慮借助具有概念層次結(jié)構(gòu)的局部層次句法圖和層次詞匯圖,來(lái)區(qū)分不同類型的依存關(guān)系和詞對(duì)共現(xiàn)關(guān)系,利用這些詞性、句法等文本內(nèi)部知識(shí)增強(qiáng)評(píng)論文本特征表示,提高模型分類能力。
局部層次句法圖(hierarchical syntactic graph,HSG)[17]可以區(qū)分各種類型的依賴關(guān)系,如圖1 所示,每條邊均附有表示關(guān)系類型的標(biāo)簽,多種依賴關(guān)系共分為五種關(guān)系類型,包 括“noun”“verb”“adverb”“adjective”“others”,表示為S1,S2,…,S5。具體地,HSG 表示為{Vs,Es,Rs},其中Vs、Es和Rs分別是節(jié)點(diǎn)集、邊集和句法關(guān)系類型集,Es中的每條邊現(xiàn)在都附加有一個(gè)標(biāo)簽,代表Rs中的依賴關(guān)系類型。例如,acomp關(guān)系“was-nothing”和amod 關(guān)系“nothing-special”組合成一種形容詞關(guān)系類型,而nsubj 關(guān)系“food-was”將形成另一種名詞關(guān)系類型。
圖1 局部層次句法圖Fig.1 Hierarchical syntactic graph
層次詞匯圖(hierarchical lexical graph,HLG)[17]用概念層次來(lái)捕捉各種單詞的共現(xiàn)關(guān)系,如圖2 所示,用d1和d2表示頻率為20和21的詞對(duì)關(guān)系,用d3,d4,…,d7表示頻率落在[2k+1,2k+1](1 ≤k≤5)區(qū)間內(nèi)的詞對(duì)關(guān)系,d8表示所有頻率大于26的詞對(duì)的詞匯關(guān)系。最后基于詞匯概念層次構(gòu)造一個(gè)層次詞匯圖HLG,記為{Vd,Ed,Rd},其中Vd、Ed、Rd分別是節(jié)點(diǎn)集、邊集和詞匯關(guān)系類型集。
圖2 層次詞匯圖Fig.2 Hierarchical lexical graph
1.2.2 知識(shí)圖譜
知識(shí)圖譜作為一種重要的外部知識(shí)來(lái)源,它可以提供豐富的背景信息,基于知識(shí)圖譜的文本表示方法可以有效地提升各項(xiàng)自然語(yǔ)言處理任務(wù)的性能。如Hu 等人[19]提出了一種基于知識(shí)庫(kù)構(gòu)造的異質(zhì)圖神經(jīng)網(wǎng)絡(luò),利用知識(shí)庫(kù)中的知識(shí)增強(qiáng)文本語(yǔ)義表示,提高短文本分類效果。
大型的知識(shí)圖譜系統(tǒng)——Microsoft概念圖譜[20],其擁有對(duì)海量的網(wǎng)頁(yè)和搜索日志進(jìn)行學(xué)習(xí)后掌握的常識(shí)性知識(shí),以實(shí)例、概念和關(guān)系三元組的形式表示。通過(guò)將文本中的方面映射到不同的語(yǔ)義概念,在實(shí)際應(yīng)用中為計(jì)算機(jī)提供有助于文本理解的先驗(yàn)知識(shí),具體功能如下:
(1)提供了常識(shí)計(jì)算功能,概念化將實(shí)例或短文本映射到概念空間,可以將其視為人類可理解的文本和機(jī)器可理解的文本嵌入。
(2)提供了文本概念標(biāo)記的功能,用于理解文本的短文本語(yǔ)義相似度計(jì)算等。
(3)可以使各種文本處理應(yīng)用程序受益,包括搜索引擎、自動(dòng)問(wèn)答、在線廣告、推薦系統(tǒng)和人工智能系統(tǒng)。
本文將方面及其概念信息結(jié)合構(gòu)成方面實(shí)體嵌入,有效充實(shí)方面的概念知識(shí)。
知識(shí)增強(qiáng)的交互注意力圖卷積網(wǎng)絡(luò)模型(knowledge enhanced attention graph convolution network,KEAT-GCN)如圖3 所示,該模型同時(shí)融合兩方面外部知識(shí),一是語(yǔ)言知識(shí)(句法、詞匯關(guān)系),二是先驗(yàn)知識(shí)(概念圖譜)。文本上下文首先通過(guò)嵌入層獲得上下文詞向量矩陣,然后通過(guò)KGBiGCN(knowledge graph bi-level interactive graph convolution network)模塊與詞匯圖、句法圖進(jìn)行融合得到語(yǔ)言知識(shí)處理映射矩陣,方面與其知識(shí)圖譜中對(duì)應(yīng)的概念集結(jié)合后得到方面概念嵌入表示,再通過(guò)交互注意力層將兩部分表示進(jìn)行交互操作得到注意力表示矩陣,最后到輸出層進(jìn)行分類,KEAT-GCN 模型主要由以下四部分組成:
圖3 模型整體結(jié)構(gòu)Fig.3 Overall structure of model
(1)概念化編碼。通過(guò)調(diào)用微軟概念圖譜的API,得到方面對(duì)應(yīng)的概念集并向量化,將方面和方面對(duì)應(yīng)的概念進(jìn)行拼接,獲得實(shí)體概念化嵌入表示。
(2)語(yǔ)言化編碼。通過(guò)將初始處理后的上下文表示輸入到KGBiGCN 層中進(jìn)行多次變換,得到語(yǔ)言知識(shí)處理表示。
(3)交互注意力層。通過(guò)對(duì)兩種處理后的表示分別計(jì)算注意力得分,然后進(jìn)行多次不同的線性變換,捕獲上下文和方面之間的依賴關(guān)系。
(4)輸出層。將處理后的兩部分表示拼接,使用Softmax 函數(shù)得到輸出結(jié)果,最終獲得方面對(duì)應(yīng)的情感極性。
2.1.1 嵌入層和Bi-LSTM層
給定包含n個(gè)詞的句子s=(w1,w2,…,wa+1,…,wa+m,…,wn-1,wn),其中a=(wa+1,wa+2,…,wa+m)表示有m個(gè)詞的方面(可以是方面詞或方面短語(yǔ)),首先每個(gè)單詞映射到低維實(shí)值向量空間中得到低維的實(shí)數(shù)向量,即詞向量。通過(guò)該操作,得到詞向量表示(w1′,w2′,…,wn′),然后將詞向量輸入BiLSTM 中,以生成句子的隱藏狀態(tài)向量H=(h1,h2,…,hn)。
2.1.2 位置嵌入層
位置嵌入層(position embedding,PE)采用方面與上下文詞之間的距離來(lái)衡量二者的相關(guān)性,距離分為語(yǔ)法距離和相對(duì)距離。語(yǔ)法距離可由句法依存樹(shù)得到,設(shè)方面詞a與上下文詞H之間的語(yǔ)法距離為di,將di定義為二者在依存樹(shù)中的路徑長(zhǎng)度,語(yǔ)法距離特征計(jì)算公式如下:
通過(guò)計(jì)算式(1)可以得到句子中方面與上下文詞之間的語(yǔ)法距離特征向量S=(s1,s2,…,sn),其中,dmax表示路徑長(zhǎng)度的最大值,si表示方面與上下文詞之間的語(yǔ)法距離特征。若方面為短語(yǔ),則以該短語(yǔ)中距離依存樹(shù)根節(jié)點(diǎn)最近的一個(gè)單詞作為方面詞,相對(duì)距離可由方面與上下文詞在句子中的路徑長(zhǎng)度得到,相對(duì)距離特征計(jì)算公式如下:
通過(guò)式(2)可以得到句子中方面與上下文詞之間的相對(duì)距離特征向量R=(r1,r2,…,rn),其中ri表示方面與上下文詞H之間的相對(duì)距離特征。然后,結(jié)合語(yǔ)法距離特征和相對(duì)距離特征生成新的距離特征表示:
其中,pi表示句子中方面與上下文詞之間的距離特征。最后,通過(guò)引入距離特征更新句子的隱藏狀態(tài),新生成的句子特征表示包含了單詞的語(yǔ)義信息和位置信息,更新公式如下:
2.1.3 KGBiGCN層
利用局部層次詞匯圖和層次句法圖獲得句子的更好表示,基本思想是讓兩個(gè)圖與經(jīng)過(guò)Bi-LSTM(bidirectional long short-term memory)加工后的上下文嵌入進(jìn)一步交互。由于局部句法圖和詞匯圖包含概念層次結(jié)構(gòu),而普通GCN無(wú)法在帶有標(biāo)記邊的圖上卷積,因此利用可以合并不同關(guān)系類型的雙層GCN,在給定上下文信息后進(jìn)行兩個(gè)合并操作執(zhí)行雙層卷積。
(1)合并相同關(guān)系的節(jié)點(diǎn)到虛擬節(jié)點(diǎn),然后在GCN 中使用相同的歸一化隱藏特征總和作為聚合函數(shù)來(lái)獲取虛擬節(jié)點(diǎn)嵌入,每一種關(guān)系類型r對(duì)應(yīng)的表示為,其中,l是層號(hào),i是聚合的目標(biāo)節(jié)點(diǎn)。
(2)合并所有虛擬節(jié)點(diǎn)及其特定關(guān)系,使用平均聚合函數(shù)針對(duì)不同關(guān)系類型(虛擬節(jié)點(diǎn))更新目標(biāo)節(jié)點(diǎn)i的表示形式:
其中,⊕r表示不同關(guān)系類型對(duì)應(yīng)表示的連接,Wl表示第l層中的權(quán)重矩陣。
文本概念化常用知識(shí)圖譜有Yago[21]、WordNet[22]、Microsoft Concept Graph,本文使用微軟發(fā)布的Concept Graph 知識(shí)圖譜對(duì)方面進(jìn)行概念化,獲取方面相關(guān)概念集合K=(k1,k2,…,kn),ki表示概念集中的第i個(gè)概念向量。概念集往往存在多個(gè)概念,不恰當(dāng)?shù)母拍羁赡軙?huì)對(duì)方面造成錯(cuò)誤的影響,因此在概念集內(nèi)部加入自注意力機(jī)制并進(jìn)行注意力計(jì)算,以獲取每個(gè)概念ki在整個(gè)概念集中的重要性權(quán)重:
其中,αi為概念集中的第i個(gè)概念向量的注意力權(quán)重,W∈為權(quán)重矩陣,v∈為權(quán)重向量,da為超參數(shù),b為偏置。注意力機(jī)制賦予重要概念較大的權(quán)重,賦予不重要的概念極小的權(quán)重(接近于0),以突出概念集中的重要概念。
獲取每個(gè)概念向量的注意力權(quán)重后,對(duì)每個(gè)概念向量進(jìn)行加權(quán)計(jì)算,獲取最終的概念表示:
然后,把方面向量a與其對(duì)應(yīng)的概念向量p相連接,得到了方面的概念化向量ap。
給定的句子方面和上下文分別經(jīng)過(guò)概念化編碼和語(yǔ)言化編碼后得到上下文語(yǔ)言化編碼表示和方面概念化嵌入表示,然后在交互注意力層,對(duì)兩部分表示進(jìn)行交互建模,利用注意力機(jī)制來(lái)捕獲上下文和方面中的重要信息。對(duì)隱藏狀態(tài)向量取平均,得到上下文的初始表示。
(1)方面-上下文注意力計(jì)算
γ函數(shù)的計(jì)算形式為:
(2)上下文-方面注意力計(jì)算
同理,對(duì)于方面表示,使用上下文表示cavg來(lái)計(jì)算其注意力向量:
經(jīng)過(guò)上述計(jì)算后,得到上下文和方面表示:
通過(guò)這種設(shè)計(jì),方面和上下文可以交互地影響其表示的生成,將方面表示ar和上下文表示cr連接作為最終表示:
其中,z∈R4dh。
利用交互注意力層的輸出z作為全連接層輸入,通過(guò)一個(gè)Softmax 函數(shù)輸出最終情感極性,即:
其中,W為全連接層權(quán)重矩陣;B為全連接層偏置項(xiàng)矩陣;模型的損失函數(shù)采用交叉熵?fù)p失函數(shù),通過(guò)標(biāo)準(zhǔn)的梯度下降算法訓(xùn)練模型來(lái)完成分類任務(wù):
其中,J為所有的訓(xùn)練數(shù)據(jù)的個(gè)數(shù);yi和分別是訓(xùn)練集的基本事實(shí)和預(yù)測(cè)標(biāo)簽,θ代表所有可訓(xùn)練參數(shù),λ是L2 正則化系數(shù)。
本文使用5個(gè)基準(zhǔn)數(shù)據(jù)集(Twitter、Lap14、Rest14、Rest15、Rest16)來(lái)進(jìn)行評(píng)估,上述數(shù)據(jù)集均來(lái)自Twitter[23]、SemEval(SemEval14[2]、SemEval15[24]、Sem-Eval16[25]),樣本就極性分為積極、消極和中性,具體如表1 所示。
表1 數(shù)據(jù)集Table 1 Datasets
模型采用準(zhǔn)確率(Accuracy,Acc)和宏平均值(macro averageF1,MF1)作為評(píng)價(jià)指標(biāo)。
其中,T表示正確預(yù)測(cè)的樣本數(shù)量;N表示樣本總數(shù);F1 是分類問(wèn)題的衡量指標(biāo),是精確率和召回率的調(diào)和平均數(shù);Precision表示預(yù)測(cè)出來(lái)為正類中真正的正類所占的比例;Recall表示預(yù)測(cè)出來(lái)正確的正類占所有真實(shí)正類的比例。
本文利用Glove[26]來(lái)初始化詞嵌入向量,為了獲取模型最優(yōu)的性能,經(jīng)過(guò)多次實(shí)驗(yàn),超參數(shù)設(shè)置如表2 所示。
表2 實(shí)驗(yàn)參數(shù)Table 2 Experimental parameters
將本文提出的KEAT-GCN 模型與以下幾種方面級(jí)情感分析方法進(jìn)行比較。
(1)LSTM:文獻(xiàn)[27]利用LSTM 編碼上下文信息,將其最后一層隱藏向量作為文本特征表示輸入到分類器中。
(2)IAN:文獻(xiàn)[6]提出的IAN 模型利用注意力機(jī)制對(duì)上下文和目標(biāo)交互學(xué)習(xí),得到最終的表示。
(3)ASGCN:文獻(xiàn)[10]利用依賴樹(shù)上的GCN 來(lái)挖掘句法信息和單詞依賴,并結(jié)合注意力機(jī)制進(jìn)行情感分類。
(4)BiGCN:文獻(xiàn)[17]提出了一種結(jié)合層次句法和詞匯圖的新型網(wǎng)絡(luò)結(jié)構(gòu),更好地利用語(yǔ)料庫(kù)級(jí)別的單詞共現(xiàn)信息以及不同類型的句法依存關(guān)系。
本文在Twitter、Lap14、Rest14、Rest15、Rest16 數(shù)據(jù)集上進(jìn)行了5 組模型的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
從表3 的實(shí)驗(yàn)結(jié)果可以看出,本文提出的KEATGCN 模型與最新對(duì)比模型BiGCN 相比,在Lap14、Rest14、Rest15、Rest16 數(shù)據(jù)集上MF1 值分別提升了1.37 個(gè)百分點(diǎn)、0.58 個(gè)百分點(diǎn)、1.11 個(gè)百分點(diǎn)、3.97 個(gè)百分點(diǎn),并且僅在Twitter 數(shù)據(jù)集存在0.01 個(gè)百分點(diǎn)的差值,在Twitter、Lap14、Rest16 數(shù)據(jù)集上Acc值分別提升了0.41 個(gè)百分點(diǎn)、2.06 個(gè)百分點(diǎn)、0.49 個(gè)百分點(diǎn),并且在Rest14 數(shù)據(jù)集上與BiGCN 表現(xiàn)相當(dāng),進(jìn)一步驗(yàn)證了本文方法的優(yōu)越性。
對(duì)比引入注意力機(jī)制的LSTM 和IAN 模型的實(shí)驗(yàn)數(shù)據(jù),相比僅將獨(dú)立句子作為輸入的LSTM 模型,IAN 模型采用交互機(jī)制建模其內(nèi)部關(guān)系,在5 個(gè)數(shù)據(jù)集上顯著優(yōu)于LSTM模型。這是因?yàn)長(zhǎng)STM沒(méi)有考慮到上下文與方面之間的交互作用,所以分類效果不好,這表明句子中的方面與上下文交互需要得到關(guān)注。然后,由表3可知,未利用GCN的基礎(chǔ)模型分類結(jié)果都不理想,在分類效果最好的Rest16 數(shù)據(jù)集上的Acc值也只有86.80%,而利用了GCN 的ASGCN、BiGCN、KEAT-GCN 模型在Rest16 數(shù)據(jù)集上的Acc值相比LSTM 和IAN 兩個(gè)模型提升了多個(gè)百分點(diǎn),這充分說(shuō)明句子中語(yǔ)法知識(shí)對(duì)提升模型的分類性能的重要性。
表3 實(shí)驗(yàn)結(jié)果對(duì)比研究Table 3 Comparison of experimental results 單位:%
此外,相較4 個(gè)對(duì)比模型,本文提出的KEATGCN 模型性能進(jìn)一步提高。這是因?yàn)槲谋据^短,包含的信息有限,對(duì)于文本背后的知識(shí)缺乏較多,而KEAT-GCN 模型可以有效地融入先驗(yàn)知識(shí)來(lái)豐富表示。尤其在Lap14、Rest16 數(shù)據(jù)集上的Acc值較BiGCN 提升了2.06 個(gè)百分點(diǎn)、0.49 個(gè)百分點(diǎn),在Lap14、Rest16 數(shù)據(jù)集上的Acc值較IAN 提升了4.60個(gè)百分點(diǎn)、4.71 個(gè)百分點(diǎn)。由實(shí)驗(yàn)結(jié)果可以看出,外部知識(shí)對(duì)精確表示文本語(yǔ)義信息的重要性,本文的模型可以通過(guò)外部知識(shí)增強(qiáng)方面詞的語(yǔ)義信息,加強(qiáng)評(píng)論文本表示,提高模型分類能力。
為了進(jìn)一步檢查KEAT-GCN 的每個(gè)組件對(duì)性能的影響,對(duì)KEAT-GCN 進(jìn)行了消融研究,各個(gè)模型的描述如下:
BiLSTM+Att:模型由LSTM 層和交互注意力層組成,LSTM 層用來(lái)學(xué)習(xí)句子的語(yǔ)義特征表示,Att 層用來(lái)建立方面和上下文之間的語(yǔ)義關(guān)系。
BiLSTM+KGBiGCN+Att:模型僅添加KGBiGCN模塊來(lái)融入局部層次句法圖和局部層次詞匯圖,用來(lái)將語(yǔ)言知識(shí)(句法結(jié)構(gòu)與詞對(duì)之間的共現(xiàn)關(guān)系)融入到特征表示中。
BiLSTM+KG+Att:模型僅在LSTM 層后新增了知識(shí)圖譜的概念信息,用來(lái)使方面的概念知識(shí)更充分。
KEAT-GCN:完整的模型,同時(shí)考慮了概念知識(shí)和語(yǔ)言知識(shí)。
各個(gè)模型的性能對(duì)比如表4 所示,可以看出,BiLSTM+Att 模型在5 個(gè)數(shù)據(jù)集的Acc與MF1 值整體不及其他模型,這表明句子中的方面和上下文的相關(guān)知識(shí)背景和交互是不可忽略的。BiLSTM+KGBiGCN+Att 的性能整體上優(yōu)于BiLSTM+Att 模型,但和KEAT-GCN 相比仍有差距,這表明雖然句法結(jié)構(gòu)和詞匯信息對(duì)于方面級(jí)情感分析有利,但也不可以忽略概念知識(shí)的影響。BiLSTM+KG+Att 模型的性能在Lap14、Twitter、Rest14、Rest15 上比KEAT-GCN 要差,但在Rest16 數(shù)據(jù)集上優(yōu)于KEAT-GCN,這也許和數(shù)據(jù)集的特點(diǎn)有關(guān)。在Rest15 數(shù)據(jù)集上,BiLSTM+KG+Att 的性能接近KEAT-GCN,這表明相對(duì)于概念信息,Rest15 數(shù)據(jù)集對(duì)于語(yǔ)言知識(shí)更敏感。由此可見(jiàn),KGBiGCN 層對(duì)KEAT-GCN 模型的貢獻(xiàn)最大,其次是交互注意力層,但也不能忽略知識(shí)圖譜嵌入層的影響。
表4 消融實(shí)驗(yàn)研究Table 4 Ablation experiment study 單位:%
本文提出一種融合知識(shí)圖譜、注意力機(jī)制和雙向GCN 的方面級(jí)情感分析模型,通過(guò)對(duì)齊方面及方面在知識(shí)圖譜中的概念表示,解決了方面詞在不同語(yǔ)境下的一詞多義問(wèn)題。利用評(píng)論文本句法圖和層次詞匯圖有效識(shí)別評(píng)論文本的語(yǔ)法、詞匯關(guān)系,解決了因?yàn)殄e(cuò)誤整合關(guān)系導(dǎo)致的噪聲問(wèn)題。使用交互注意力機(jī)制加強(qiáng)上下文與方面的交互,使上下文和方面進(jìn)一步協(xié)調(diào)優(yōu)化,在五個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文模型在方面級(jí)情感分析的有效性。未來(lái)研究將嘗試使用近年來(lái)發(fā)布的新知識(shí)庫(kù)來(lái)解決新詞無(wú)法查詢的問(wèn)題,完善文本中單詞不同類型的句法關(guān)系、概念的屬性,后期將在上述方面進(jìn)一步改進(jìn)。