国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BiGRU-attention的中文微博評(píng)論情感分析

2024-12-31 00:00:00薛嘉豪黃海孫宜琴
軟件工程 2024年7期
關(guān)鍵詞:情感分析注意力機(jī)制

關(guān)鍵詞:情感分析;微博評(píng)論;注意力機(jī)制;門控循環(huán)單元

0 引言(Introduction)

自21世紀(jì)以來,情感分析已經(jīng)成為自然語言處理(NaturalLanguage Processing,NLP)領(lǐng)域中備受關(guān)注的研究方向之一。隨著互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)中的文本信息進(jìn)行精準(zhǔn)分類和辨析顯得愈發(fā)重要。在互聯(lián)網(wǎng)環(huán)境中,人們每天在社交媒體上發(fā)表對(duì)事件的觀點(diǎn)、對(duì)他人的評(píng)價(jià)或者獲取他人的意見。然而,由于數(shù)據(jù)量巨大,網(wǎng)絡(luò)上的媒體網(wǎng)站監(jiān)視、查找和提取其中的信息成為一項(xiàng)艱巨的任務(wù)[1]。微博[2]作為目前國內(nèi)比較受歡迎的社交平臺(tái)之一,時(shí)刻承載著海量的信息交互。通過對(duì)微博評(píng)論進(jìn)行情感分析,可以了解消費(fèi)者對(duì)產(chǎn)品、服務(wù)、品牌等的情感傾向;通過監(jiān)測(cè)社交媒體、新聞報(bào)道等渠道中的輿論情緒,可以幫助政府、企業(yè)和組織把握公眾對(duì)特定事件或話題的態(tài)度與反應(yīng)。

1 研究背景及其意義(Research backgroundand significance)

傳統(tǒng)方法通常用機(jī)器學(xué)習(xí)對(duì)情感問題進(jìn)行分類,例如支持向量機(jī)(Support Vector Machine, SVM)、樸素貝葉斯分類器及最大熵等算法和技術(shù)。DAUD等[3]通過建立支持向量機(jī)模型,并通過超參數(shù)調(diào)優(yōu)對(duì)模型進(jìn)行優(yōu)化,使SVM 分類器的準(zhǔn)確率提高了20.81%。HADDI等[4]使用SVM 分類器進(jìn)行情感分析,通過構(gòu)建特征之間的關(guān)系網(wǎng)絡(luò)衡量和選擇屬性的貢獻(xiàn)度,利用屬性之間的相關(guān)性和重要性評(píng)估每個(gè)屬性對(duì)于情感分類任務(wù)的價(jià)值,從而減少特征空間的維度,提高分類模型的效果,并降低計(jì)算成本。然而,基于機(jī)器學(xué)習(xí)的傳統(tǒng)方法有許多不足之處,在處理長文本和復(fù)雜語境時(shí)面臨巨大挑戰(zhàn)。傳統(tǒng)方法高度依賴人工設(shè)計(jì),需要人工進(jìn)行特征工程、模型選擇和參數(shù)調(diào)整等。這些步驟不僅需要人工付出大量的時(shí)間和精力,而且結(jié)果可能受到人為因素的影響。傳統(tǒng)方法通常無法捕捉到文本的語義信息,它們主要依賴于淺層的特征表示。

除了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)在情感分類問題中的應(yīng)用近年來也比較受關(guān)注。陶林娟等[5]介紹了一種GRUCNN(Gate Recurrent Unit-Convolution Neural Networks)網(wǎng)絡(luò)模型,從詞語表征和上下文編碼模型兩個(gè)方面改進(jìn),在情感分析問題上使模型準(zhǔn)確率提高了許多。李洋等[6]用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)提取文本向量局部特征,用BiLSTM(Bi-directional Long Short-Term Memory)提取與文本上下文相關(guān)的全局特征,兩者互補(bǔ)解決文本情感分析中容易忽略上下文語義的問題。何穎剛等[7]基于FastText構(gòu)建文本向量,將特征輸入多尺度深層金字塔卷積神經(jīng)網(wǎng)絡(luò)(DPCNN)進(jìn)行情感分類。卷積神經(jīng)網(wǎng)絡(luò)在處理文本時(shí)存在一些限制,對(duì)長文本的全局語義理解能力較弱。并且,對(duì)于詞序信息的處理不夠靈活,無法捕捉到詞語之間的順序關(guān)系。YANG等[8]介紹了目標(biāo)相關(guān)長短期記憶神經(jīng)網(wǎng)絡(luò)(TD-LSTM),對(duì)目標(biāo)字符串上下文進(jìn)行建模,通過捕捉這些信息提高情感分類的準(zhǔn)確率。HAMEED 等[9]使用SBi-LSTM(Single-layeredBiLSTM)模型,并采用了一種標(biāo)準(zhǔn)且高度實(shí)用的無監(jiān)督嵌入方法進(jìn)行權(quán)重初始化,通過單層雙向LSTM 網(wǎng)絡(luò)訓(xùn)練模型,該模型在情感分析問題上相較于其他模型更具有競(jìng)爭(zhēng)力??追扁暤萚10]基于改進(jìn)的雙向LSTM 模型,結(jié)合Word2Vec的評(píng)教文本情感分析方法對(duì)評(píng)教文本進(jìn)行情感分析。LSTM 模型在處理非常長的序列時(shí),仍然存在計(jì)算復(fù)雜性高和消耗內(nèi)存的問題。相比之下,GRU是LSTM的改進(jìn)版本,它的參數(shù)調(diào)節(jié)量更少,網(wǎng)絡(luò)的結(jié)構(gòu)也更加簡(jiǎn)單,在處理文本情感問題時(shí)的表現(xiàn)更好一些。

本文提出一種基于雙向門控循環(huán)單元和注意力機(jī)制BiGRU-attention的方法來完成情感分析任務(wù),通過jieba分詞,把所有的詞匯總做出詞表Vocab,并進(jìn)行詞向量轉(zhuǎn)化;使用模型提取句子的詞向量,并結(jié)合上下文詞向量?jī)?nèi)容獲取更多特征信息;采用softmax函數(shù)得出情感分類結(jié)果;通過混淆矩陣,使用精確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)、F1值(F1 Score)評(píng)估模型性能。

2 GRU模型和自注意力機(jī)制(GRU model andself-attention mechanism)

2.1 GRU模型

GRU[11]由重置門Rt、更新門Zt 組成,GRU結(jié)構(gòu)圖如圖1所示。重置門Rt 是由隱藏狀態(tài)Ht-1 與輸入Xt 拼接后與權(quán)重矩陣Wr 乘積,再通過Sigmoid函數(shù)將數(shù)據(jù)維持在0~1,如公式(1)所示。更新門接收的數(shù)據(jù)與重置門是一樣的,由輸入Xt 和隱藏狀態(tài)Ht-1 負(fù)責(zé)t 時(shí)刻更新門的輸入,如公式(2)所示。

候選隱藏狀態(tài)Ht 是由輸入Xt 拼接重置門Rt 與隱藏狀態(tài)的hadamard乘積(矩陣相同位置上的元素進(jìn)行乘積),再乘以權(quán)重矩陣Wh,通過激活函數(shù)tanh將值固定在-1~1的范圍,如公式(3)所示。

總體來看,GRU 模型與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwork,RNN)可學(xué)習(xí)的參數(shù)是一樣的,可學(xué)習(xí)的權(quán)重矩陣是RNN網(wǎng)絡(luò)的3倍。與LSTM 相比較,GRU結(jié)構(gòu)更加簡(jiǎn)單,門的數(shù)量少一個(gè),參數(shù)數(shù)量少了很多。

2.2Self-attention自注意力機(jī)制

注意力機(jī)制[12]是一種能夠根據(jù)輸入序列中各個(gè)元素之間的相關(guān)性,對(duì)序列進(jìn)行加權(quán)求和的方法。通過計(jì)算元素之間的相關(guān)性,注意力機(jī)制可以捕捉輸入序列中不同元素之間的依賴關(guān)系,從而更好地理解和處理序列數(shù)據(jù)。這種機(jī)制有助于網(wǎng)絡(luò)在訓(xùn)練過程中處理長期依賴性。

注意力機(jī)制有Q、K、V 三個(gè)參數(shù),其中Q 是查詢向量,K是標(biāo)簽向量,V 是標(biāo)簽對(duì)應(yīng)的信息的向量。分別計(jì)算Q 與每一個(gè)K 之間的相似度α,一般有點(diǎn)積模型、縮放點(diǎn)積模型、雙線性模型、加性模型等,本文采用縮放點(diǎn)積模型,如公式(5)所示。dk 是K 向量的長度,對(duì)其開平方的目的是防止維度太大。α 經(jīng)過歸一化函數(shù)softmax處理后作為V 的權(quán)重,這些權(quán)重用于加權(quán)求和V。

3 GRU-attention模型(GRU-attention model

與普通GRU模型相比,雙向門控循環(huán)單元(BiGRU)是由兩個(gè)互相獨(dú)立的GRU組成,分別為正向GRU 和反向GRU。正向GRU處理輸入序列,負(fù)責(zé)從序列起始位置捕捉上下文信息。反向GRU從序列末尾處理輸入數(shù)據(jù),由序列逆序捕捉上下文信息。相比于單向GRU從前向后的傳播更能反映過去和未來時(shí)刻對(duì)當(dāng)前時(shí)刻的影響[13]。加入自注意力機(jī)制后,能夠?qū)斎胄蛄兄懈P(guān)鍵的部分賦予更大的權(quán)重,從而更好地捕捉上下文信息,并減少了信息的丟失,保留了輸入序列中重要的信息,提高了模型的性能。GRU模型可以有效地解決長依賴問題,并且在處理序列數(shù)據(jù)時(shí)表現(xiàn)出色。注意力機(jī)制可以幫助模型集中關(guān)注輸入序列中最重要的部分,從而提高模型的精度。GRU-attention結(jié)構(gòu)圖如圖2所示,GRU-attention模型的實(shí)現(xiàn)步驟如下。

第一步:對(duì)本實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行數(shù)據(jù)處理。首先,去掉無意義的字符和英文符號(hào),留下中文,防止這些無效信息增大計(jì)算機(jī)的負(fù)載,幫助加快模型運(yùn)算速度。其次,使用jieba庫[14]對(duì)數(shù)據(jù)進(jìn)行分詞操作,得到分詞后的文本數(shù)據(jù)集;結(jié)合百度去停用詞表和哈工大去停用詞表構(gòu)成去停用詞表,分詞后的文本語句不要過長;對(duì)文本數(shù)據(jù)集去停用詞;對(duì)所有詞統(tǒng)計(jì)詞頻,按照詞頻排序和以詞的形式進(jìn)行索引。最后,將詞和編號(hào)對(duì)應(yīng)起來制作成一個(gè)有序詞典;根據(jù)有序詞典把每個(gè)單詞作為特征,把文本數(shù)據(jù)集的文本轉(zhuǎn)化為詞向量。

第二步:將詞向量序列輸入BiGRU層。GRU網(wǎng)絡(luò)不僅可以增加網(wǎng)絡(luò)的整體深度,還能提高模型訓(xùn)練的性能和效率,通過雙向GRU提取文本信息的全局特征,有助于擴(kuò)展前向和后向文本的情感分析,利于模型訓(xùn)練。公式(8)、公式(9)分別是前向GRU和后向GRU,其中Ht 是隱藏狀態(tài)。

第三步:經(jīng)過GRU層,詞向量序列變?yōu)殡[藏狀態(tài)序列,再把它們加入注意力層。注意力層能夠計(jì)算文本中每個(gè)詞的注意力概率,將每個(gè)詞向量劃分出Q、K、V 三個(gè)部分。經(jīng)過一系列計(jì)算和加權(quán)處理,賦予詞向量不同部分不同的權(quán)重,使得模型更好地關(guān)注當(dāng)前任務(wù)的相關(guān)部分。

第四步:通過全連接層,將得到的詞向量序列與輸出特征相結(jié)合,提高模型的預(yù)測(cè)結(jié)果,為了確保注意力機(jī)制得到的詞向量序列權(quán)重之和為1,需要使用softmax函數(shù)對(duì)這些注意力權(quán)重進(jìn)行歸一化處理,其計(jì)算公式如下:

4 實(shí)驗(yàn)過程與分析(Experimental process andanalysis)

4.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)采用的是Windows10操作系統(tǒng),處理器型號(hào)為Intel(R) Core i5-7 300H,運(yùn)行內(nèi)存為16 GB。編程語言為Python3.7,通過pycharm 平臺(tái)開發(fā),使用深度學(xué)習(xí)框架Pytorch 1.13、numpy 1.21.6、jieba 0.42.1等進(jìn)行實(shí)驗(yàn)。參數(shù)設(shè)置如表1所示。

4.2 數(shù)據(jù)集

本文采用的是公開的微博情感分析數(shù)據(jù)集Weibo[15],一共有119 988條微博評(píng)論數(shù)據(jù),分為積極情緒和消極情緒,標(biāo)簽為“1”代表積極情緒,標(biāo)簽為“0”代表消極情緒。將數(shù)據(jù)集按照6∶2∶2的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。所有數(shù)據(jù)首先用jieba分詞庫[14]進(jìn)行分詞,其次按詞頻排序構(gòu)造有序字典,詞頻大的在字典前面,識(shí)別不了的詞用“”標(biāo)記,空格用“”標(biāo)記,并排在字典后面,再將詞元映射成其在字典里的索引。

4.3 評(píng)價(jià)指標(biāo)

情感分析實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)能幫助研究人員了解模型在情感分類任務(wù)中的性能表現(xiàn),并進(jìn)行模型比較、調(diào)優(yōu)和選擇。本實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy,A)、精確率(Precision,P)、召回率(Recall,R)、F1值。

(1)準(zhǔn)確率

準(zhǔn)確率是為了評(píng)估模型在整體樣本預(yù)測(cè)正確的比例,準(zhǔn)確率能反映模型的分類準(zhǔn)確率,計(jì)算公式如下:

(2)精確率

精確率是評(píng)估模型預(yù)測(cè)為正例的樣本中實(shí)際為正例的比例,計(jì)算公式如下:

(3)召回率

召回率又稱查全率,召回率是評(píng)估模型預(yù)測(cè)為正例的樣本中實(shí)際為正例的比例,即預(yù)測(cè)為正例并且實(shí)際也為正例的樣本占所有類別樣本預(yù)測(cè)為正例的比值,計(jì)算公式如下:

(4)F1值

F1值是精確率與召回率的調(diào)和平均數(shù),綜合考慮了兩個(gè)因素。F1值能綜合評(píng)估模型性能,特別適用于樣本不平衡的情況,計(jì)算公式如下:

4.4 對(duì)比實(shí)驗(yàn)與結(jié)果分析

4.4.1 消融實(shí)驗(yàn)

消融組a:不使用注意力機(jī)制,僅使用GRU處理序列。

消融組b:不使用注意力機(jī)制,僅使用雙向GRU 處理序列。

消融組c:使用注意力機(jī)制,并且使用雙向GRU 處理序列。

消融實(shí)驗(yàn)結(jié)果如表2所示。從表2中的數(shù)據(jù)可以看出,BiGRU的表現(xiàn)比GRU 的表現(xiàn)略好,加入注意力機(jī)制的BiGRU比BiGRU 的準(zhǔn)確率和F1值分別高1.22百分點(diǎn)和1.01百分點(diǎn)。雙向GRU 整體的表現(xiàn)比單向GRU 的表現(xiàn)更好。

4.4.2 與已有的文本情感分析方法進(jìn)行實(shí)驗(yàn)對(duì)比

(1)CNN?;谖墨I(xiàn)[6]使用卷積神經(jīng)網(wǎng)絡(luò)提取文本局部特征,并構(gòu)建了一個(gè)基礎(chǔ)的文本分類模型。采用Weibo[15]數(shù)據(jù)集。

(2)RNN?;谖墨I(xiàn)[16]中的RNN模型,通過RNN建模對(duì)情感分析問題進(jìn)行研究。采用Weibo[15]數(shù)據(jù)集。

(3)LSTM。LSTM是在RNN的基礎(chǔ)上加入了門限控制,這里采用文獻(xiàn)[17]中提到的方法。采用Weibo[15]數(shù)據(jù)集。

(4)BGRU?;谖墨I(xiàn)[18],將BRNN隱藏層神經(jīng)元換成GRU記憶單元。采用Weibo數(shù)據(jù)集。

(5)Text-CNN。文獻(xiàn)[19]提出了一種新穎的文本注意卷積神經(jīng)網(wǎng)絡(luò)Text-CNN。采用Yahoo Answers數(shù)據(jù)集[20]。

(6)UCRNN。用戶屬性卷積和遞歸神經(jīng)網(wǎng)絡(luò)[21],使用了基于用戶屬性的CNN和基于文本的RNN。采用MicroblogPCU數(shù)據(jù)集[21]。

(7)TD-LSTM。目標(biāo)相關(guān)長短期記憶神經(jīng)網(wǎng)絡(luò)[8](TDLSTM)對(duì)目標(biāo)字符串周圍上下文建模,使兩個(gè)方向都可以作為情感分類的特征表示。采用Twitter數(shù)據(jù)集[22]。

(8)TC-LSTM。目標(biāo)連接長短期記憶神經(jīng)網(wǎng)絡(luò)[8](TCLSTM)加入了目標(biāo)連接組件擴(kuò)展了TD-LSTM,該組件在構(gòu)建句子表示時(shí)利用目標(biāo)詞和每個(gè)上下文詞之間的連接,來提高對(duì)句子中目標(biāo)詞相關(guān)信息的捕捉能力。采用Twitter[22]數(shù)據(jù)集。

(9)fastText-CNN。fastText嵌入CNN模型[23]。采用MR數(shù)據(jù)集[24]。

(10)fastText-BiLSTM。fastText嵌入單層BiLSTM模型[23]。采用MR數(shù)據(jù)集[24]。

(11)fastText-BiGRU。fastText嵌入的單層雙向門控循環(huán)單元(BiGRU)模型[23]。采用MR數(shù)據(jù)集[24]。

(12)Singal-layered Bi-LSTM(SBi-LSTM)。單層Bi-LSTM模型[9],與fastText嵌入結(jié)合有更好的分類效果。采用MR數(shù)據(jù)集[24]。

不同模型下的實(shí)驗(yàn)結(jié)果如表3所示。

通過表3中的數(shù)據(jù)可以看出,相較于CNN[6]、RNN[16]、LSTM[17]、BGRU[18]4個(gè)神經(jīng)網(wǎng)絡(luò)模型,BiGRU-attention模型在評(píng)價(jià)指標(biāo)上展現(xiàn)出了顯著的優(yōu)勢(shì)。具體分析如下。

CNN模型和RNN模型都使用word2vec將文本轉(zhuǎn)化為對(duì)應(yīng)的詞向量,CNN對(duì)卷積操作得到的局部特征采用最大池化的方法以提取值最大的特征代替整個(gè)局部特征。RNN通過其循環(huán)結(jié)構(gòu)捕捉序列化文本上下文語義信息,生成包含文本深層次含義的表示。實(shí)驗(yàn)結(jié)果表明,CNN模型和RNN模型在處理長文本語義時(shí)存在一定局限性,無法充分理解文本語義和上下文關(guān)系,在情感分析任務(wù)上不如本文提出的模型。

LSTM針對(duì)RNN的態(tài)度消失和梯度爆炸問題進(jìn)行了改進(jìn)。本文模型在準(zhǔn)確率上比LSTM模型高4.42百分點(diǎn),由于在處理非常長的文本序列時(shí),LSTM難以捕捉長期的依賴關(guān)系,在長序列的信息傳遞中可能會(huì)虛弱,所以情感分類的準(zhǔn)確率難以提高。

BGRU模型是在雙向RNN模型的基礎(chǔ)上將BRNN中的隱藏層神經(jīng)元替換成GRU 記憶單元。BiGRU-attention模型的準(zhǔn)確率和F1值分別提高了2.58百分點(diǎn)和2.24百分點(diǎn)。BiGRU-attention在處理前向和反向序列時(shí),相較于僅使用一個(gè)GRU單元的BGRU,表現(xiàn)更為出色。同時(shí),加入注意力機(jī)制對(duì)不同詞向量特征分配了新的權(quán)重,突出了文本重要的特征,有效地提高了模型對(duì)正例樣本和負(fù)例樣本的識(shí)別能力,提高了模型的情感分類能力。實(shí)驗(yàn)表明,基于BiGRU-attention的情感分類模型在文本情感分類數(shù)據(jù)集上的表現(xiàn)更好。

5 結(jié)論(Conclusion)

本文基于BiGRU神經(jīng)網(wǎng)絡(luò),結(jié)合注意力機(jī)制,設(shè)計(jì)了一種文本的情感分析模型BiGRU-attention。該模型通過BiGRU網(wǎng)絡(luò)提取文本的全局特征,捕捉上下文信息;用注意力機(jī)制進(jìn)行了特征權(quán)重的分配,對(duì)輸入序列中更關(guān)鍵的部分賦予了更大的權(quán)重,減少了有效信息的丟失,提高了模型的性能。通過與其他情感分析模型進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明,本文模型提高了情感分析的準(zhǔn)確性。未來,將繼續(xù)優(yōu)化attention機(jī)制的計(jì)算方法,減少其對(duì)模型運(yùn)算效率的影響,進(jìn)一步提高模型的情感分析性能,將該模型應(yīng)用于其他場(chǎng)景中。

猜你喜歡
情感分析注意力機(jī)制
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個(gè)基于知識(shí)庫的問答系統(tǒng)
基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
枞阳县| 彰武县| 自贡市| 麻栗坡县| 韩城市| 兴山县| 安泽县| 青铜峡市| 昌宁县| 文登市| 灵丘县| 宜宾市| 长武县| 密山市| 无为县| 阿拉善左旗| 澳门| 阿鲁科尔沁旗| 大姚县| 左贡县| 通渭县| 丹寨县| 新丰县| 珲春市| 铜山县| 竹北市| 盐津县| 蚌埠市| 大城县| 无极县| 赞皇县| 阳信县| 天祝| 郎溪县| 南岸区| 抚宁县| 图木舒克市| 新余市| 邵武市| 石城县| 南宫市|