陳 珂, 梁 斌, 左敬龍, 朱興統(tǒng)
(1.廣東石油化工學(xué)院 計算機(jī)學(xué)院 廣東 茂名 525000;2.哈爾濱工業(yè)大學(xué)(深圳) 計算機(jī)科學(xué)與技術(shù)學(xué)院 廣東 深圳 518055)
隨著社交媒體的日漸繁榮,社交文本已成為人們在生活中發(fā)表意見和觀點的最重要信息來源[1-2]。文本情感分析可以從微博文本中挖掘用戶的情感表達(dá),能有效幫助人們學(xué)習(xí)和判斷事物的好壞。如何從微博文本中挖掘用戶的情感表達(dá),是自然語言處理領(lǐng)域的研究熱點之一[3]。和普通文本分類不同,文本情感分析任務(wù)需要考慮文本的情感表達(dá)以及文本中包含的不同極性的情感詞語,并有效利用這些信息[4]。近年來,越來越多學(xué)者開始將深度學(xué)習(xí)方法應(yīng)用在自然語言處理任務(wù)中,并且在文本情感分析任務(wù)中也得到了廣泛利用。文獻(xiàn)[5]提出一種使用卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用在文本分類任務(wù)中,并驗證了該模型在文本分類任務(wù)中的有效性。文獻(xiàn)[6]基于LSTM網(wǎng)絡(luò)提出一種短文本情感分析網(wǎng)絡(luò)模型,并驗證了LSTM網(wǎng)絡(luò)在短文本情感分析任務(wù)中的有效性。文獻(xiàn)[7]基于卷積神經(jīng)網(wǎng)絡(luò)提出了一種使用自適應(yīng)卷積濾波器的深度網(wǎng)絡(luò)模型,該模型在文本分類任務(wù)中取得了令人矚目的成功。在結(jié)合情感信息的研究工作中,文獻(xiàn)[8]使用不同通道接收文本信息的輸入,可以從短文本中挖掘更深層次的情感特征。但是,這類方法往往無法充分挖掘文本的深層次詞語特征信息,并且在分詞錯誤時會造成情感信息的缺失和噪聲的引入。因此,在中文微博情感分析任務(wù)中效果不佳。
基于目前深度學(xué)習(xí)在短文本情感分析任務(wù)中的成果,本文從詞語和單字兩個層面來分析短文本的情感特征,并通過帶有門控操作的卷積神經(jīng)網(wǎng)絡(luò)來結(jié)合不同粒度的特征信息,從而可以控制信息的更新和傳遞,完成短文本的情感極性判斷。本文提出的多粒度門控卷積神經(jīng)網(wǎng)絡(luò)(MG-GCNN)模型思路如下:1) 使用一個作用在詞語層面的卷積神經(jīng)網(wǎng)絡(luò)來獲取文本的詞語信息,從而學(xué)習(xí)文本的詞語層面抽象化特征。2) 由于微博文本中往往會存在很多新興的網(wǎng)絡(luò)用語,而傳統(tǒng)的分詞方法無法將這類詞語正確分詞。因此,在詞語層面信息的基礎(chǔ)上,使用單字來表示文本信息,并通過卷積神經(jīng)網(wǎng)絡(luò)來獲取文本的抽象化單字特征。3) 使用一個門控操作來結(jié)合詞語和單字粒度的特征信息,從而使抽象化特征能夠有控制地更新和傳遞,更好地挖掘短文本深層次的情感特征。在微博文本數(shù)據(jù)集上的實驗結(jié)果表明,MG-GCNN模型取得了較好的情感分類效果。
在以往研究的基礎(chǔ)上使用詞語和單字層面來構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的輸入,并通過門控操作來控制信息的傳遞和調(diào)整,所提出的MG-GCNN模型的結(jié)構(gòu)如圖1所示。
圖1 MG-GCNN模型的結(jié)構(gòu)Figure 1 The structure of MG-GCNN model
中文微博文本情感分析需要模型從有限的文本資源中獲取文本的情感特征信息,并通過學(xué)習(xí)提取到文本特征信息,對文本進(jìn)行情感極性的判別。對于句子s={c1,c2,…,cr}和s={w1,w2,…,wn},其中wi和ci表示詞語和單字,分別代表文本的詞特征和字特征。通過將文本的詞特征和字特征映射為一個多維的連續(xù)值向量,可以得到文本的特征表示ei∈Rd和xi∈Rd,其中d為詞特征或者字特征向量的維度,在實驗中將詞向量和字向量映射為相同維度的特征向量。
將輸入句子表示成一個詞語序列來獲取輸入文本詞語層面的特征信息。對于包含n個詞語的輸入句子,輸入矩陣可以表示為
e1:n=e1⊕e2⊕…⊕en,
(1)
式中:⊕為拼接操作;e1:n∈Rd×n。卷積神經(jīng)網(wǎng)絡(luò)通過對句子進(jìn)行卷積操作來完成輸入句子的詞語層面特征提取。對于窗口大小為h的卷積核,可以把輸入句子分為{e0:h-1,e1:h,…,en-h+1:n},然后對每一個分量進(jìn)行卷積操作,得到的卷積特征圖可以表示為
Ai=ei:i+h-1·W+b,
(2)
式中:Ai為卷積操作得到的特征信息;ei:i+h-1∈Rd×h為長度為h的卷積窗口包含的詞語向量信息;W為權(quán)重矩陣;b為偏置向量。
由于中文微博文本的長度往往較短,同時文本中會包含大量無法正確分詞的網(wǎng)絡(luò)用語。因此,文本使用單字序列表示輸入句子來獲取文本更深層次的特征信息。對于單字序列s={c1,c2,…,cr},單字向量卷積神經(jīng)網(wǎng)絡(luò)輸入矩陣可以表示為
x1:n=x1⊕x2⊕…⊕xr,
(3)
式中:x1:n∈Rd×r。與詞語粒度卷積神經(jīng)網(wǎng)絡(luò)操作相同,通過不同大小的卷積核來對輸入信息進(jìn)行卷積操作,獲取單字層面的情感特征信息。對于窗口大小為h的卷積核,卷積操作可以表示為
Bi=xi:i+h-1·W+b,
(4)
式中:Bi為卷積操作得到的特征信息;xi:i+h-1∈Rd×h為長度為h的卷積窗口包含的單字向量信息;W為權(quán)重矩陣;b為偏置向量。
圖2 門控卷積網(wǎng)絡(luò)Figure 2 Gated convolutional networks
雖然詞語層面的信息包含了輸入文本最重要的特征,但是當(dāng)輸入文本分詞不恰當(dāng)、新型網(wǎng)絡(luò)用語使用較多時,單從詞語層面將無法挖掘輸入文本的情感信息。針對該問題,使用一個門控操作來結(jié)合不同粒度的特征信息,使模型可以更充分地挖掘文本的情感特征,門控卷積網(wǎng)絡(luò)如圖2所示。
使用門控操作連接不同粒度的特征信息,可以表示為
Hi=A?σ(B),
(5)
式中:A為詞語粒度特征信息;B為單字粒度特征信息;σ為Sigmoid激活函數(shù);?為對應(yīng)元素相乘。通過卷積操作,模型在訓(xùn)練過程中可以有選擇地使用和學(xué)習(xí)不同粒度的特征信息,完成模型參數(shù)的調(diào)整,從而可以挖掘更準(zhǔn)確的情感特征信息。
為了提取句子中最重要的特征信息,采用max-over-time pooling對門控操作得到的特征信息進(jìn)行池化操作,提取特征向量圖中最重要的特征信息,即Ho=max{Hi}。然后通過一個全連接層來完成特征信息的向量化映射,輸入文本的向量化表示為
H=Relu(Ho·W+b),
(6)
式中:H∈Rm為輸入文本的向量化表示,m為向量維度;W和b為全連接層的權(quán)重矩陣和偏置向量;Relu為全連接層激活函數(shù)。
通過一個Softmax函數(shù)輸出分類結(jié)果,即
y=Softmax(X·W+b),
(7)
X=H°r,
(8)
式中:r∈Rm為下采樣層輸出的正則項限制;°為對應(yīng)元素相乘;W∈R|X|為全連接層權(quán)重矩陣;b∈R為全連接層偏置向量。使用反向傳播算法來訓(xùn)練模型,通過最小化交叉熵來優(yōu)化模型,交叉熵代價函數(shù)可以表示為
(9)
從COAE2014數(shù)據(jù)集中標(biāo)注6 000條帶有極性的數(shù)據(jù),其中積極情緒樣本2 864條,消極情緒樣本3 136條。此外,從不同領(lǐng)域微博語料中隨機(jī)爬取5 000條帶有極性的中文微博文本,作為微博語料數(shù)據(jù)集(micro-blog dataset, MBD),其中積極情緒樣本和消極情緒樣本各2 500條。使用ICTCLAS分詞工具對語料進(jìn)行分詞,詞向量和字向量采用Google的word2vec工具的skip-gram模型進(jìn)行訓(xùn)練,維度設(shè)置為300維。對于未登錄詞,采用均勻分布U(-0.01,0.01)來隨機(jī)初始化詞向量。在實驗中使用多窗口、多卷積核對句子進(jìn)行卷積操作,其中窗口大小分別為2、3、4、5,每種窗口的卷積核個數(shù)均為100。為了防止過擬合,使用了dropout機(jī)制和權(quán)重的正則化限制,訓(xùn)練過程采用Adadelta更新規(guī)則[9]。
在COAE2014和MBD數(shù)據(jù)集上,將所提出的MG-GCNN模型和目前取得突破性成果的傳統(tǒng)方法、深度學(xué)習(xí)方法進(jìn)行對比實驗。對比實驗所用的模型具體包括:1) MG-CNN為本文提出的多粒度信息輸入卷積神經(jīng)網(wǎng)絡(luò),但僅使用簡單拼接來結(jié)合不同輸入粒度的特征信息;2) MG-GCNN為本文提出的多粒度門控卷積神經(jīng)網(wǎng)絡(luò)的完整模型;3) SVM[10];4) CNN[5];5) WFCNN[11];6) EMCNN[12];7) MCCNN[8];8) AC-CNN[7]。
在COAE2014和MBD數(shù)據(jù)集上進(jìn)行實驗,不同模型的情感分類結(jié)果如表1所示。
表1 不同模型的情感分類結(jié)果Table 1 Sentiment classification results of different models
從表1可以看出,所提出的MG-GCNN模型在2個數(shù)據(jù)集上的分類效果都優(yōu)于對比實驗,其中在分類效果最好的MBD數(shù)據(jù)集上,F(xiàn)1值比以往研究中取得最好效果的MCCNN模型分別提升了0.42%和1.01%,從而驗證了本文提出方法的有效性。加入情感序列的WFCNN模型在COAE2014和MBD數(shù)據(jù)集上的分類效果都優(yōu)于CNN模型,相比CNN模型分別提升了2.57%和3.05%。這表明在情感分析任務(wù)中,結(jié)合情感特征的模型能更好地學(xué)習(xí)句子的情感傾向,根據(jù)情感特征信息,使模型可以有效地學(xué)習(xí)句子的情感極性。對比使用門控操作的MG-GCNN模型和不使用門控操作的MG-CNN模型,可以看出,MG-GCNN模型在2個數(shù)據(jù)集上的分類效果比MG-CNN模型分別提升了2.19%和4.02%。這表明使用門控操作的MG-GCNN模型在訓(xùn)練過程中,可以通過門控操作來控制不同粒度特征信息的傳遞和更新,同時也能保留輸入文本信息的序列化情感依賴;在分詞不恰當(dāng)?shù)那闆r下,也能通過門控卷積操作挖掘單字層面上信息的提取和學(xué)習(xí),完成輸入文本的情感極性判別。此外,相比COAE2014數(shù)據(jù)集,MBD數(shù)據(jù)集保留了中文微博的原始文本特征,并且從不同領(lǐng)域的數(shù)據(jù)中隨機(jī)選取訓(xùn)練集和測試集,在最大程度上保留了中文微博的特征。對比兩個數(shù)據(jù)集的實驗結(jié)果可以看出,MG-GCNN模型在MBD數(shù)據(jù)集上的分類效果優(yōu)于COAE2014,表明MG-GCNN模型在更一般性的中文微博語料中能有更好的效果,從而驗證了MG-GCNN模型在中文微博情感分析任務(wù)中的有效性。
為了進(jìn)一步驗證所提出的MG-GCNN模型的有效性,分析了MCCNN、MG-CNN和MG-GCNN模型在2個數(shù)據(jù)集上的召回率和F1值的分類效果,對比結(jié)果如圖3和圖4所示。
圖3 召回率對比結(jié)果Figure 3 Comparison results of recall
圖4 F1值對比結(jié)果Figure 4 Comparison results of F1-score
從圖3可以看出,MG-GCNN模型與以往研究中取得最好效果的MCCNN模型進(jìn)行對比,MCCNN模型在積極樣本數(shù)據(jù)集上的分類效果都略優(yōu)于MG-GCNN模型,表明結(jié)合文本多樣化特征表示的MCCNN模型能通過不同類型特征信息來挖掘文本的隱藏特征,完成文本的情感極性判別。而在消極樣本數(shù)據(jù)集上,MG-GCNN模型的召回率都高于MCCNN模型,表明結(jié)合門控操作方法能使模型在訓(xùn)練過程中學(xué)習(xí)不同粒度的文本特征信息,并通過門控操作保留文本的特征信息依賴關(guān)系。因此,在其他模型表現(xiàn)欠佳的消極樣本數(shù)據(jù)集上也能取得更優(yōu)的情感分類效果。此外,從圖4的對比結(jié)果可以看出,MG-GCNN模型在4組實驗中的F1值都取得了最優(yōu)的效果,表明MG-GCNN模型在不同極性數(shù)據(jù)集上的分類有效性比其他模型都平均,從而驗證了MG-GCNN模型在微博文本情感分析任務(wù)中的有效性。
為了進(jìn)一步分析所提出的MG-GCNN模型在微博文本情感分析任務(wù)中的有效性,從數(shù)據(jù)集中抽取一些經(jīng)典樣例進(jìn)行對比分析,實驗結(jié)果如表2所示。
表2 經(jīng)典樣例分析Table 2 Analysis of typical sentences
如表2所示,樣例1和樣例2屬于情感表達(dá)明顯、結(jié)構(gòu)簡單的句子,這類句子是用戶表達(dá)情感的常用句子結(jié)構(gòu),所以3種模型都能正確識別這類句子的情感極性。樣例3屬于含有網(wǎng)絡(luò)用語的句子,這類句子通常包含分詞工具無法正確分詞的網(wǎng)絡(luò)用詞,結(jié)合多粒度特征輸入的MG-CNN和MG-GCNN模型都能有效利用這類詞語的情感信息正確識別文本的情感極性。樣例4也屬于微博文本中用戶表達(dá)情感的常用類型,這類句子往往包含有積極情感詞,但句子本身表示消極情感。不使用門控操作的MG-CNN模型因為無法保留句子中上下文的依賴關(guān)系,所以無法正確識別文本的情感極性。而使用多樣化信息輸入的MCCNN模型和結(jié)合門控操作的MG-GCNN模型通過對文本信息依賴關(guān)系的學(xué)習(xí),都能正確識別文本的情感極性。樣例5屬于具有反問表達(dá)的句子,這類句子結(jié)構(gòu)普遍比較復(fù)雜,所以MCCNN和MG-CNN模型都無法正確識別這類句子的情感極性。而MG-GCNN模型通過多粒度的信息輸入,可以挖掘更深、更細(xì)膩的情感信息表達(dá),從而可以有效判別文本的情感極性。
基于卷積神經(jīng)網(wǎng)絡(luò)和門控操作,本文提出一種MG-GCNN模型應(yīng)用在中文微博情感分析任務(wù)中。在不使用外部特征的情況下,所提出的MG-GCNN模型在不同數(shù)據(jù)集上的多組實驗中都取得了最好的分類效果,從而驗證了該方法的有效性。同時通過對經(jīng)典樣例的對比分析,進(jìn)一步分析了MG-GCNN模型在中文微博情感分析中的優(yōu)勢。本文在實驗中僅使用了詞語和單字粒度的特征信息,沒有考慮文本中的情感詞語特征,在后續(xù)研究工作中將進(jìn)一步研究如何將所提出的模型和情感信息相結(jié)合。