薛興榮 靳其兵
(北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院 北京 100029)
文本情感識(shí)別也稱為情感分析、意圖挖掘[3],它是根據(jù)文本所表達(dá)的含義和情感信息將文本分為積極、消極的兩種或多種類型,它是特殊的文本分類問題[4]。通過分析和研究這些數(shù)據(jù),挖掘出潛在的信息,以此來分析網(wǎng)民對(duì)社會(huì)熱點(diǎn)話題的關(guān)注度和情感傾,從而為相關(guān)部門的政策制定提供支持以及正確引導(dǎo)網(wǎng)民的情緒傳播[5~11]。
本文提出了一種混合深度神經(jīng)網(wǎng)絡(luò)文本分類模型TBLC-rAttention,如圖1 所示。模型由七個(gè)部分組成:1)輸入層:獲取文本數(shù)據(jù);2)預(yù)處理層:分詞并去除無關(guān)數(shù)據(jù);3)詞嵌入層:把文本數(shù)據(jù)映射為詞向量;4)Bi-LSTM 層:提取文本數(shù)據(jù)的上下文語義特征;5)Attention 機(jī)制層:生成含有注意力概率分布的加權(quán)全局語義特征;6)CNN 層:在加權(quán)全局語義特征的基礎(chǔ)上進(jìn)行局部語義特征提?。?)輸出層:實(shí)現(xiàn)文本分類。
圖1 TBLC-rAttention文本分類模型
對(duì)文本數(shù)據(jù)按照以下方式進(jìn)行預(yù)處理操作。
1)數(shù)據(jù)清,刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)以及處理異常和缺失數(shù)據(jù);
2)進(jìn)行類別標(biāo)簽標(biāo)注;
3)使用jieba 進(jìn)行分詞和去停用詞,在分詞的過程中可以使用一些領(lǐng)域?qū)倜~以提高分詞的準(zhǔn)確度;
4)將預(yù)處理完成的文本數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集。
詞嵌入是把文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別和處理的過程[12],如圖2所示。
在這樣的故事情節(jié)之中,小說的創(chuàng)作還體現(xiàn)出如下的特點(diǎn):首先,小說具有歐·亨利特有的結(jié)尾方式。即,故事的結(jié)局既在人的預(yù)料之中又出乎人的意料。因而,它體現(xiàn)出了故事獨(dú)有的幽默,體現(xiàn)出了小說主題特有的諷刺。其次,小說語言與眾不同。在小說各種語言描寫中,作者不僅通過巧妙的修辭增強(qiáng)了文學(xué)語言的意蘊(yùn)性,還且通過對(duì)時(shí)弊的針砭產(chǎn)生了“含淚的微笑”。
圖2 文本數(shù)據(jù)向量化表示
通過詞嵌入矩陣Ew的映射,把按批次讀入帶有標(biāo)簽的文本數(shù)據(jù)映射為一個(gè)三維詞向量矩陣M,Ew可以通過Word2Vec 等方法得到。此時(shí),一個(gè)包含n 個(gè)字的文本Dj=(x1,x2,…,xn)可以表示如下:
其中,M∈Rbatch×n×d,Ew∈Rvw×d,batch為每一批次讀入的文本數(shù)據(jù)條數(shù),vw為字典大小,d 為詞向量維度,每個(gè)字在Ew中都有一個(gè)唯一的用于檢索其對(duì)應(yīng)詞向量的索引bxi。
在Bi-LSTM 網(wǎng)絡(luò)之后引入注意力機(jī)制[14~16],對(duì)重要的信息給予較多的關(guān)注,模型如圖3所示。
圖3 多注意力機(jī)制
其中,V∈Rbatch×r*n×2d為加權(quán)全局語義特征,a∈Rbatch×r*n×2d為注意力概率分布,r 為每個(gè)文本的Attention 方案數(shù),Wa1∈Rd×n是全局注意力權(quán)重矩陣,ba為全局注意力偏置矩陣,wa2∈Rr*n×d為每個(gè)文本不同的Attention 方案矩陣,m 值越大說明了該時(shí)刻的全局語義特征越重要。
得到每一時(shí)刻的ai后,將它們分別和該時(shí)刻對(duì)應(yīng)的hi相乘,得到第i 時(shí)刻的加權(quán)全局語義特征Vi。
把V作為CNN的[17~18]輸入進(jìn)行局部特征提取,如圖4 所示。每一次卷積都通過一個(gè)固定大小的窗口來產(chǎn)生一個(gè)新的特征,經(jīng)過卷積后得到第j個(gè)文本包含局部和全局語義特征的Cj,接著采用最大池化方法得到每個(gè)文本的最終特征表示C。
圖4 CNN模型
其中,C ∈Rbatch×2d,Cj∈R(r*n-h+1)×2d,Wvi∈R2d×h為卷積核向量,h 和2d 分別為卷積核窗口的高和寬,Vi:h表示第i行到第h 行的加權(quán)全局語義特征值,bvi表示偏置。
把C 作為分類層的輸入,分類層采用dropout方式將最佳特征Cd連接到Softmax 分類器中,并計(jì)算輸出向量p(y):
其中,p(y)∈Rbatch×classes,Wc和bc分別表示分類器的權(quán)重參數(shù)和偏置項(xiàng),classes表示文本的類別數(shù),Cd為C通過dropout產(chǎn)生的最佳特征。
分類器用于計(jì)算出每個(gè)文本屬于每一類別的概率向量p(y),然后選擇最大概率y對(duì)應(yīng)的類型作為文本分類的預(yù)測輸出,通過分類器層之后,整個(gè)模型就實(shí)現(xiàn)對(duì)文本的分類任務(wù)。
語料數(shù)據(jù)是利用爬蟲技術(shù)爬取某電商平臺(tái)上一種感冒藥銷售的評(píng)論數(shù)據(jù),語料的一些基本信息如表1、圖5和圖6所示。
圖5 語料句子長度分布
圖6 語料詞云圖
表1 語料數(shù)據(jù)信息
具體實(shí)驗(yàn)設(shè)置如表2和表3所示。
表2 實(shí)驗(yàn)環(huán)境
表3 實(shí)驗(yàn)參數(shù)設(shè)置
其中,θ為模型當(dāng)前參數(shù),α為學(xué)習(xí)率,N 為訓(xùn)練樣本大小,D 是訓(xùn)練樣本,L是樣本D 對(duì)應(yīng)的真實(shí)類別標(biāo)簽,Li∈L,y 為分類器的預(yù)測分類結(jié)果,p(Lj)表示正確分類結(jié)果,λ是L2正則項(xiàng)系數(shù)。
其中,TP 為真正率,TN 為真負(fù)率,F(xiàn)P 為假正率,F(xiàn)N為假負(fù)率。
模型訓(xùn)練過程的準(zhǔn)確度和損失值變化如圖7所示,為了比較本文提出的模型性能,選取了CNN、LSTM、Bi-LSTM、BiLSTM+Attention、RCNN 5 種模型作為比較基準(zhǔn),比較結(jié)果如表4 所示,所有結(jié)果都是在訓(xùn)練的準(zhǔn)確度和測試準(zhǔn)確度都不再變化再循環(huán)1000次后得到的結(jié)果。
圖7 訓(xùn)練過程中個(gè)模型的準(zhǔn)確度和損失值變化
表4 各文本分類模型分類效果對(duì)比
在表4 中,通過LSTM 和Bi-LSTM 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),雖然Bi-LSTM 花費(fèi)的時(shí)間比LSTM 多,但是準(zhǔn)確度提高了約3%,這是由于Bi-LSTM 網(wǎng)絡(luò)通過正向和反向兩層網(wǎng)絡(luò)結(jié)構(gòu)來擴(kuò)展單向的LSTM 網(wǎng)絡(luò)的結(jié)果,這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以充分提取文本的上下文信息,但是空間復(fù)雜度是LSTM 的2倍,所以花費(fèi)的時(shí)間比LSTM 略長;在Bi-LSTM 模型中引入Attention 機(jī)制準(zhǔn)確度提高了4%左右,說明Attention 機(jī)制的確可以有效識(shí)別出對(duì)分類影響較大的特征信息;只使用CNN 時(shí),雖然準(zhǔn)確率不是最好的但大大的節(jié)省了訓(xùn)練時(shí)間;RCNN 汲取了RNN 和CNN 各自的優(yōu)勢,分類效果比單獨(dú)使用RNN、CNN 都好,與BiLSTM+Attention 效果相近;本文提出的模型分類準(zhǔn)確率達(dá)到了99%,在本次實(shí)驗(yàn)的所有模型中分類準(zhǔn)確度最高,模型在驗(yàn)證時(shí)以100%的準(zhǔn)確率實(shí)現(xiàn)了數(shù)據(jù)分類,值得注意的是當(dāng)消費(fèi)者沒有進(jìn)行評(píng)論,電商系統(tǒng)會(huì)默認(rèn)為好評(píng),但模型將這類數(shù)據(jù)視為中評(píng)。
本文提出了一種基于混合深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情識(shí)別方法,該方法先提取文本數(shù)據(jù)的上下文語義特征,再提取局部語義特征得到最終的特征表示,并通過實(shí)驗(yàn)驗(yàn)證了本文提出模型的有效性。未來的工作是如何對(duì)語料數(shù)據(jù)進(jìn)行更好的預(yù)處理操作,例如進(jìn)一步減少噪聲數(shù)據(jù)、更好地進(jìn)行精準(zhǔn)分詞等;同時(shí),研究其他算法和模型,并進(jìn)行有效的融合和改進(jìn),進(jìn)一步提高分類的準(zhǔn)確度。