謝潤(rùn)忠,李 燁
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海,200093)
句子級(jí)別的文本情感分析,即針對(duì)語句的情感傾向性分析,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。隨著論壇、博客和推特等社交媒體的發(fā)展,我們擁有了海量的情緒化數(shù)據(jù),情感分析技術(shù)扮演著越來越重要的角色。
現(xiàn)有的情感分析技術(shù)有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法?;谇楦性~典的方法通過對(duì)文本進(jìn)行詞語和句法分析,并計(jì)算情感值作為判斷文本情感傾向的依據(jù)。該方法根據(jù)情感詞典可以很好地鎖定文本情感信息,且實(shí)現(xiàn)較為簡(jiǎn)單。個(gè)體在進(jìn)行語言表達(dá)時(shí),會(huì)增添必要的情感詞匯,情感褒貶詞、程度副詞、否定詞等對(duì)情感語義增強(qiáng)或減弱有著重要的促進(jìn)作用[1]。趙妍妍等[2]通過構(gòu)建否定詞、副詞、情感表情等相關(guān)詞典來擴(kuò)充情感詞典,大大增強(qiáng)了文本情感極性的判斷能力。Keshavarz 等[3]將語料庫與詞典相結(jié)合,構(gòu)建自適應(yīng)情感詞典,以改善微博中情感的極性分類。蔣翠清等[4]利用初始情感種子詞構(gòu)建了一個(gè)面向中文社交媒體文本的領(lǐng)域情感詞典,有效地改進(jìn)了句子級(jí)文本的情感分類效果。
基于機(jī)器學(xué)習(xí)的方法主要是將文本的情感傾向分析轉(zhuǎn)換為一個(gè)分類問題,然后利用經(jīng)典的支持向量機(jī)、樸素貝葉斯等機(jī)器學(xué)習(xí)算法[5],通過有監(jiān)督的訓(xùn)練得到一個(gè)模型,進(jìn)而根據(jù)該模型進(jìn)行文本情感傾向分析。然而由于傳統(tǒng)的機(jī)器學(xué)習(xí)算法多采用詞袋模型來表示文本,其面臨數(shù)據(jù)特征稀疏,且不能很好地抽取文本中蘊(yùn)涵的情感信息等問題。
近年來興起的深度學(xué)習(xí)方法能夠較好地彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)方法的缺陷,由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)為代表的深度學(xué)習(xí)模型被廣泛地應(yīng)用于文本情感分析領(lǐng)域。王煜涵等[6]采用CNN 模型學(xué)習(xí)文本中的深層語義信息,挖掘Twitter 文本的情感傾向,比傳統(tǒng)機(jī)器學(xué)習(xí)方法取得了顯著提高。Zhu 等[7]提出了一種統(tǒng)一的CNN-RNN 模型,用于視覺情感識(shí)別。該體系結(jié)構(gòu)利用CNN 的多個(gè)層次,在多任務(wù)學(xué)習(xí)框架內(nèi)提取不同層次的特征,并提出了一種雙向RNN 來集成CNN模型中不同層次的學(xué)習(xí)特征,極大地提高了情感分類性能。Zhang 等[8]提出了一種基于BiGRU 的分層多輸入輸出模型,該模型同時(shí)考慮了情感表達(dá)的語義信息和詞匯信息,實(shí)現(xiàn)了對(duì)客戶評(píng)論情感分類的突破性改進(jìn)。Peng 等[9]將BiGRU 與注意力機(jī)制融合應(yīng)用于細(xì)粒度文本情感分析,在不同的數(shù)據(jù)集上都取得了良好的性能。此后,基于CNN、BiGRU、注意力機(jī)制等的混合神經(jīng)網(wǎng)絡(luò)模型在文本情感分析任務(wù)中得到了廣泛應(yīng)用。
Word2vec[10]是目前NLP 領(lǐng)域中最常用的詞向量工具。Glove 模型于2014 年由Pennington 等[11]提出,因其提高了詞向量在大語料上的訓(xùn)練速度且穩(wěn)定性高,在最近幾年得以流行。預(yù)訓(xùn)練模型(Pretrained model)是一種基于大型基準(zhǔn)數(shù)據(jù)集訓(xùn)練得到的深度學(xué)習(xí)架構(gòu),在此基礎(chǔ)上可以進(jìn)行后續(xù)任務(wù)。預(yù)訓(xùn)練模型對(duì)改進(jìn)許多NLP 任務(wù)都有非常大的幫助[12]。隨著預(yù)訓(xùn)練模型研究的深入,ELMo[13]、ULMFiT[14]、基于變換器的雙向編碼器表征技術(shù)(Bidirectional encoder representations from transformers,BERT)15]等眾多NLP 預(yù)訓(xùn)練模型相繼被提出,通過將大型文本語料庫作為語言模型進(jìn)行預(yù)訓(xùn)練,為給定句子中的每個(gè)單詞創(chuàng)建上下文關(guān)聯(lián)的嵌入(Embedding),這些嵌入將被輸入到后續(xù)任務(wù)中。選擇高效的詞向量表示工具對(duì)深度學(xué)習(xí)的應(yīng)用研究有著極其重要的影響。
對(duì)比傳統(tǒng)情感分類方法,情感詞、否定詞、強(qiáng)度詞等情感信息詞起著至關(guān)重要的作用[16]。盡管情感語言詞很有用,但在近幾年的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)等深度神經(jīng)網(wǎng)絡(luò)模型中,情感語言知識(shí)的應(yīng)用還很有限。受文獻(xiàn)[15,17]啟發(fā),結(jié)合深度學(xué)習(xí)和情感詞典方法的優(yōu)點(diǎn),本文提出一種基于BERT 和雙通道注意力(Dualchannel attention,DCA)的新模型(BERT-DCA)應(yīng)用于句子級(jí)文本情感分析。
修飾詞詞典一般包括否定詞、程度副詞、連詞等部分。當(dāng)情感詞被這些修飾詞圍繞時(shí),有很大概率伴隨著整句的情感極性變化,如極性反轉(zhuǎn)、加強(qiáng)或減弱等。因此,綜合考慮情感詞和修飾詞對(duì)判斷文本情感極性至關(guān)重要。參考Lei 等[18]構(gòu)造情感語言庫的方法,本文構(gòu)建的情感語言庫主要考慮情感詞、否定詞和程度副詞。通過構(gòu)建的情感語言庫,提取文本句子中包含的情感信息,從而得到每一條文本句子所對(duì)應(yīng)的情感信息集合。設(shè)定策略方案如下:
策略1:若當(dāng)前詞語為情感詞,直接將當(dāng)前詞語加入到情感信息集合中。
策略2:若當(dāng)前詞語為程度副詞,且下一個(gè)詞語為情感詞,則將二者作為一個(gè)整體加入到情感信息集合中;若該情感詞已存在于情感信息集合中,則將其刪除。
策略3:若當(dāng)前詞語為否定詞,且下一個(gè)詞語為情感詞,則將二者作為一個(gè)整體加入到情感信息集合中;若該情感詞已存在于情感信息集合中,則將其刪除?;蛘呷舴穸ㄔ~依次緊跟副詞和情感詞,則將三者作為一個(gè)整體加入到情感信息集合中;類似的,若副詞與情感詞的整體存在于情感信息集合中,則將其刪除。
Word2vec 等傳統(tǒng)詞向量工具只是簡(jiǎn)單地提供詞嵌入作為特性,相比之下,BERT 還可以集成到下游任務(wù)中,并作為特定于任務(wù)的體系結(jié)構(gòu)進(jìn)行動(dòng)態(tài)調(diào)整。與ELMo 使用獨(dú)立訓(xùn)練的從左到右和從右到左LSTM 的級(jí)聯(lián)來生成下游任務(wù)的特征不同,BERT 使用的是更為強(qiáng)大的雙向 Transformer 編碼器[19],如圖 1 所示,并以遮蔽語言建模(Masked language model,MLM)和下一句話預(yù)測(cè)(Next sentence prediction,NSP)為無監(jiān)督目標(biāo),使模型輸出的每個(gè)字與詞的向量表示都能盡可能全面、準(zhǔn)確地刻畫輸入文本的整體信息,為后續(xù)的微調(diào)任務(wù)提供更好的模型參數(shù)初始值;且其輸入表征(Input embedding)是通過對(duì)相應(yīng)詞的詞塊嵌入(Token embedding)、段嵌入(Segment embedding)和位置嵌入(Position embedding)求和來構(gòu)造的,包含了更多的參數(shù),因此具有更強(qiáng)的詞向量表示能力。
BERT 在大量句子級(jí)和Token 級(jí)任務(wù)上獲得了最佳性能,優(yōu)于許多具有任務(wù)特定體系結(jié)構(gòu)的系統(tǒng),包括情感分析領(lǐng)域中的任務(wù)[20]。
門控循環(huán)單元(Gated recurrent unit,GRU)由Cho 等[21]提出,是一種對(duì)LSTM 改進(jìn)的深度網(wǎng)絡(luò)模型,其模型結(jié)構(gòu)如圖2 所示。GRU 最大的優(yōu)點(diǎn)在于很好地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)期依賴問題,且被認(rèn)為更易于計(jì)算和實(shí)施。它保留了LSTM 對(duì)解決梯度消失問題的優(yōu)點(diǎn),但內(nèi)部結(jié)構(gòu)更簡(jiǎn)單,只有2 個(gè)控制門:更新門和重置門。GRU 神經(jīng)網(wǎng)絡(luò)的參數(shù)比LSTM 減少了1/3,不易產(chǎn)生過擬合,同時(shí)由于采取對(duì)Cell 融合和其他一些改進(jìn),在收斂時(shí)間和需要的迭代次數(shù)上更勝一籌。
圖1 BERT 模型結(jié)構(gòu)圖Fig.1 BERT model structure
圖2 GRU 神經(jīng)元結(jié)構(gòu)圖Fig.2 Structure of a GRU neuron
GRU 神經(jīng)網(wǎng)絡(luò)的更新方式如下
式中:rt為t時(shí)刻的重置門,zt為t時(shí)刻的更新門,ht為t時(shí)刻的候選激活狀態(tài),ht為t時(shí)刻的激活狀態(tài),ht-1為t-1 時(shí)刻的隱層狀態(tài),wr、wz、w為相應(yīng)的權(quán)重矩陣,σ為sigmoid 激活函數(shù),tanh 為雙曲正切激活函數(shù)。更新門由當(dāng)前狀態(tài)需要被遺忘的歷史信息和接受的新信息決定;重置門由候選狀態(tài)從歷史信息中得到的信息決定。
單向GRU 在使用時(shí)是從上文向下文推進(jìn)的,容易導(dǎo)致后面的詞比前面的詞更重要,而雙向GRU(BiGRU)通過增加從后往前傳遞信息的隱藏層,能更充分利用上下文信息,克服了這一缺陷。BiGRU 的模型結(jié)構(gòu)如圖3所示。
2014 年,Mnih 等[22]在圖像分類任務(wù)中首次提出注意力機(jī)制,使得結(jié)合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)成為研究的熱點(diǎn)。Bahdanau 等[23]將注意力機(jī)制和RNN 結(jié)合以解決機(jī)器翻譯任務(wù),將注意力機(jī)制引入到自然語言處理領(lǐng)域。
通過計(jì)算概率分布,選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,可對(duì)深度學(xué)習(xí)模型起到優(yōu)化作用,注意力機(jī)制在文本情感分析領(lǐng)域中已經(jīng)得到廣泛應(yīng)用。
如圖4 所示,BERT-DCA 模型結(jié)構(gòu)包含輸入層、信息提取層、特征融合層和輸出層4 個(gè)信息處理層次,在結(jié)構(gòu)上則采用了2 個(gè)信息處理通道:左側(cè)為語義信息注意力通道(Semantic information attention channel,SAC),右側(cè)為情感信息注意力通道(Emotional information attention channel,EAC)。
1.5.1 輸入層
對(duì)于一條文本句子序列,經(jīng)分詞后的詞語序列{W1,W2,???,Wn}作為SAC 的輸入,通過情感信息集合的提取策略,進(jìn)而得到由該文本句子提取的情感信息詞集合{E1,E2,???,Em}作為EAC 的輸入;然后利用預(yù)訓(xùn)練模型BERT 為整個(gè)模型提供詞向量,能配合上下文語境實(shí)現(xiàn)詞向量的動(dòng)態(tài)調(diào)整,更好地將真實(shí)情感語義嵌入模型訓(xùn)練,從而得到語義信息詞向量矩陣Rx和情感信息詞向量矩陣Re
式中:⊕為行向量連接運(yùn)算符,Rx和Re的維數(shù)即為評(píng)論文本中詞語的數(shù)目和情感信息詞的數(shù)目。
圖3 BiGRU 結(jié)構(gòu)圖Fig.3 Structure of BiGRU
圖4 BERT-DCA 模型結(jié)構(gòu)示意圖Fig.4 Structure of BERT-DCA model
1.5.2 信息提取層
對(duì)于語義信息文本,首先利用BiGRU 神經(jīng)網(wǎng)絡(luò)同時(shí)處理正向和反向文本序列,對(duì)文本深層次的信息進(jìn)行特征提取,然后利用注意力機(jī)制對(duì)提取的特征信息分配相應(yīng)的權(quán)重。對(duì)于情感信息集合,采用全連接網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的方式對(duì)情感信息詞進(jìn)行編碼,以獲取最重要的情感信號(hào)。
某一時(shí)刻t的BiGRU 信息提取模塊輸出狀態(tài)由正向GRU 和反向GRU 的輸出相連接組成,其計(jì)算方法為
為了捕獲更直接的語義依賴關(guān)系(使模型在訓(xùn)練時(shí)聚焦到數(shù)據(jù)中的重要信息),將評(píng)論文本BiGRU 模型的輸出和情感信息集合全連接網(wǎng)絡(luò)的輸出分別輸入到注意力機(jī)制中,采用雙通道注意力分別對(duì)評(píng)論文本句子和情感信息進(jìn)行編碼。注意力計(jì)算方法如下
式中:ww與bw為注意力機(jī)制的可調(diào)節(jié)權(quán)重和偏置項(xiàng),ht為BiGRU 或全連接網(wǎng)絡(luò)的輸出;ut為ht的隱含狀態(tài),uw為Softmax 分類器的權(quán)重參數(shù),αt表示句子中每個(gè)詞的重要度信息;V即為經(jīng)過注意力模型計(jì)算后的特征向量。
1.5.3 特征融合層
特征融合層的主要任務(wù)是將SAC 中生成的特征向量Vs和EAC 中生成的特征向量Ve進(jìn)行合并,從而構(gòu)建文本整體的情感特征向量。為了簡(jiǎn)化模型的計(jì)算量,采用行連接的方式進(jìn)行特征融合,構(gòu)建一個(gè) (rs+re)×c的 矩 陣V*,生 成 最 終 情 感 特 征 向 量 ,其 中rs和re分 別 為Vs和Ve的 行 數(shù) ,c為Vs和Ve的列數(shù)。
1.5.4 輸出層
將特征融合層生成的情感特征向量V*輸入Softmax 分類器,從而得到模型最終預(yù)測(cè)的情感分類結(jié)果
式中:wo為權(quán)重系數(shù)矩陣,bo為偏置矩陣,p為輸出的預(yù)測(cè)情感標(biāo)簽。
1.5.5 模型訓(xùn)練
情感分析模型的訓(xùn)練采用端到端的反向傳播方式,最小化所有文本中已知情感類別和預(yù)測(cè)情感類別的交叉熵。
式中:D為訓(xùn)練數(shù)據(jù)集,C為情感標(biāo)簽的類別數(shù),y為實(shí)際情感類別,為預(yù)測(cè)情感類別,λ為L(zhǎng)2正則化,θ為設(shè)置的參數(shù)。
選取2 個(gè)語料庫進(jìn)行實(shí)驗(yàn):
實(shí)驗(yàn)數(shù)據(jù)1采用流行的中文情感挖掘酒店評(píng)論語料ChnSentiCorp,該語料規(guī)模為10 000 篇。為了方便起見,將語料整理為4 個(gè)子集。選擇ChnSentiCorp-Htl-ba-6000 的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),該語料為平衡語料,包含正負(fù)類各3 000 篇。
實(shí)驗(yàn)數(shù)據(jù)2利用爬蟲工具Pyspider 在豆瓣電影平臺(tái)上抓取了近30 部熱播電影用戶評(píng)論及評(píng)分,并進(jìn)行了去短文本(少于30 個(gè)字符)處理操作,再以影評(píng)的評(píng)分作為判定依據(jù),2 星及以下判定為情感消極的評(píng)論,反之4 星及以上判定為情感積極的評(píng)論,分別獲取消極情感評(píng)論文本10 000 條,積極情感評(píng)論文本20 000 條。
情感詞詞典來自大連理工大學(xué)的情感詞本體數(shù)據(jù)庫,程度副詞和否定詞來自于知網(wǎng)中文詞庫HowNet。為了構(gòu)建語義信息和情感信息的詞向量,采用結(jié)巴分詞系統(tǒng)對(duì)酒店評(píng)論語料文本句子進(jìn)行分詞,在分詞過程中,將構(gòu)建的情感語言庫作為自定義分詞詞典,如表1,使其在分詞后作為一個(gè)基本的語言單元存在。此外,還進(jìn)行了去重、過濾、去停用詞等文本預(yù)處理。
實(shí)驗(yàn)設(shè)置的超參數(shù)如表2 所示。
表1 情感語言庫Table 1 Emotional language library
表2 模型參數(shù)設(shè)置Table 2 Model parameter setting
采用文本情感分析中常用的準(zhǔn)確率P(Precision)、召回率R(Recall)、F1測(cè)度(F1measure)和損失率L(Loss rate)作為實(shí)驗(yàn)數(shù)據(jù)的評(píng)測(cè)指標(biāo)。
式中,對(duì)于某一類別,nTP表示正確判斷屬于該類別的數(shù)量,nFP表示誤判為該類別的數(shù)量,nFN指誤判為錯(cuò)誤類別的數(shù)量,G為測(cè)試數(shù)據(jù)集。
進(jìn)行3 組對(duì)比實(shí)驗(yàn),所有實(shí)驗(yàn)均基于情感二分類(積極和消極)的任務(wù)進(jìn)行十折交叉驗(yàn)證。第1 組比較詞向量工具對(duì)模型的影響,只采用SAC 通道;第2 組實(shí)驗(yàn)對(duì)比SAC 和EAC 對(duì)模型分類性能的影響;第3 組實(shí)驗(yàn)探究模型情感分類迭代過程中準(zhǔn)確率和損失率的變化情況。
2.3.1 詞向量工具對(duì)比實(shí)驗(yàn)
基于SAC 通道信息提取層中的BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)模型對(duì)比不同詞向量工具的性能。
優(yōu)質(zhì)的內(nèi)容是線上競(jìng)爭(zhēng)的核心競(jìng)爭(zhēng)力,年輕人樂于分享、熱衷模仿,選取極具特色景點(diǎn),多元融合創(chuàng)造趣味性,移動(dòng)互聯(lián)網(wǎng)時(shí)代的短視頻肯定不同于以往的電視廣告,短視頻創(chuàng)造了新的平等對(duì)話語境,一定要有原創(chuàng)性,使用平臺(tái)內(nèi)容的調(diào)性。如西瓜視頻具有精致化、精品化的特征,而抖音則帶有節(jié)奏的嘻哈快感,迎合年輕人的口味。原創(chuàng)內(nèi)容即是用戶心理的表現(xiàn),也是用戶內(nèi)心情感的宣泄,同時(shí)還能表達(dá)用戶的生活態(tài)度,所以容易產(chǎn)生共鳴,創(chuàng)造出魔性內(nèi)容,更具傳播性。
Word2vec-SAC:采用Word2ec 作為詞向量工具,然后通過BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
Glove-SAC:將詞通過Glove 模型轉(zhuǎn)換為詞向量以后,利用BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
ELMo-SAC:將詞通過ELMo 模型轉(zhuǎn)換為詞向量以后,利用BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
BERT-SAC:采用Google 預(yù)訓(xùn)練好的中文模型BERT-Base-Chinese 訓(xùn)練數(shù)據(jù)文本轉(zhuǎn)換為詞向量以后,利用BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
對(duì)表3 中的實(shí)驗(yàn)結(jié)果進(jìn)行分析:
(1)由于Glove 模型是在統(tǒng)計(jì)詞向量模型和預(yù)測(cè)詞向量模型基礎(chǔ)上,通過矩陣分解的方法利用詞共現(xiàn)信息,不僅關(guān)注Word2vec 窗口(Context)大小的上下文,而且用到了全局信息,能較好地提高語義表征能力。因此,Glove-SAC 的模型評(píng)價(jià)結(jié)果略優(yōu)于Word2vec-SAC。
表3 基于不同詞向量模型的對(duì)比結(jié)果Table 3 Comparison results based on different word vector models
(3)相比ELMo 采用LSTM 進(jìn)行提取詞向量特征,BERT 采用更為強(qiáng)大的Transformer 編碼器,進(jìn)一步提高了特征提取的能力,有效增強(qiáng)了情感表征,在2 組數(shù)據(jù)中BERT-SAC 均獲得了最優(yōu)結(jié)果。
2.3.2 分類模型對(duì)比實(shí)驗(yàn)
本組實(shí)驗(yàn)參照文獻(xiàn)[24]選擇了現(xiàn)階段句子級(jí)情感分析領(lǐng)域中較為常用的幾種分類模型進(jìn)行對(duì)比研究,其中5 種模型均采用BERT 作為詞向量工具。實(shí)驗(yàn)結(jié)果如表4。
對(duì)表4 中的實(shí)驗(yàn)結(jié)果進(jìn)行分析:
(1)相比于CNN,BiLSTM 更擅長(zhǎng)時(shí)序特征的捕獲,因此BERT-CNN 實(shí)驗(yàn)效果稍遜于BERT-BiLSTM;而BERT-BiGRU 的表現(xiàn)性能更優(yōu),這與Xu 等[25]針對(duì)CNN 與BiLSTM 的評(píng)論文本情感分析實(shí)驗(yàn)的結(jié)論一致。
(2)相比 BERT-BiGRU 模型,BERT-SAC 模型在BiGRU 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了注意力機(jī)制,有助于提取文本重點(diǎn)信息,因而性能取得了明顯的提升。
(3)相比于 BERT-SAC 模型,BERT-DCA 模型的性能有進(jìn)一步提升,這是由于BERT-DCA 構(gòu)建了SAC和EAC 雙通道,其中EAC 中采用由全連接網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合的深度網(wǎng)絡(luò)模型,針對(duì)文本中包含否定詞、程度副詞、情感詞等具情感色彩的詞進(jìn)行提取,結(jié)構(gòu)化的情感語言詞及全局上下文都得到了充分考慮,有助于捕捉文本潛在的語義特征,更好地挖掘出文本深層情感信息。
(4)相對(duì)于數(shù)據(jù) 1 的實(shí)驗(yàn)結(jié)果,數(shù)據(jù) 2 中 BERT-DCA 比 BERT-SAC 在準(zhǔn)確率、召回率、F1測(cè)度上分別提升了2.94%,3.31%,3.09%,且5 個(gè)綜合模型的分類效果均優(yōu)于數(shù)據(jù)1,這是因?yàn)楸窘M實(shí)驗(yàn)選取了大于等于30 個(gè)字符的長(zhǎng)文本實(shí)驗(yàn)數(shù)據(jù),其情感信息詞詞頻更高,文本數(shù)據(jù)中所含的情感信息更豐富,有利于情感信息注意力通道中注意力機(jī)制發(fā)揮更好的效果,準(zhǔn)確捕捉文本情感極性。
2.3.3 迭代過程性能對(duì)比實(shí)驗(yàn)
為進(jìn)一步說明BERT-DCA 模型的有效性,且更直觀地體現(xiàn)注意力機(jī)制和語義信息與情感信息的雙通道構(gòu)造對(duì)模型的性能提升效果,本組實(shí)驗(yàn)選擇均包含了雙向GRU 神經(jīng)網(wǎng)絡(luò)架構(gòu)、較為相近的3 種模型BERT-BiGRU、BERT-SAC、BERT-DCA,對(duì)比分析其分別在2 個(gè)數(shù)據(jù)集實(shí)驗(yàn)中10 次迭代的準(zhǔn)確率和損失率變化,實(shí)驗(yàn)結(jié)果如圖5,6 所示。
可以觀察到,在2 個(gè)數(shù)據(jù)集上BERT-DCA 的準(zhǔn)確率始終高于其他2 種模型,而損失率則始終更低。而且,雖然隨著迭代的進(jìn)行,3 個(gè)模型均出現(xiàn)了不同程度的性能退化,但相對(duì)而言BERT-DCA 的性能要穩(wěn)定得多,準(zhǔn)確度下降和損失率上升的幅度小,顯然這得益于雙通道的構(gòu)建。在收斂速度上,BERT-DCA 和BERT-SAC 模型在2 個(gè)數(shù)據(jù)集上均優(yōu)于BERT-BiGRU 模型,這歸功于注意力機(jī)制帶來的優(yōu)化效果。在數(shù)據(jù)2 上3 個(gè)模型的收斂速度均比在數(shù)據(jù)1 上更快些,這是由于數(shù)據(jù)2 選擇的文本序列長(zhǎng)度較為統(tǒng)一,情感信息更為豐富,為模型準(zhǔn)確快速識(shí)別評(píng)論文本情感極性提供了良好條件。
表4 分類模型實(shí)驗(yàn)的對(duì)比結(jié)果Table 4 Comparison results of classification model experiments
圖5 3 種模型準(zhǔn)確率變化曲線Fig.5 Accuracy curves of the three models
圖6 3 種模型損失率變化曲線Fig.6 Loss rate curves of the three models
表5 給出了部分評(píng)論文本示例在BERT-DCA 模型訓(xùn)練后的情感分類效果。
表5 實(shí)例展示Table 5 Case demonstration
針對(duì)句子級(jí)文本情感分析任務(wù),提出了一種基于BERT 和雙通道注意力的新模型。采用BERT 作為詞向量工具,一方面,由BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)作為語義信息注意力通道,另一方面,通過自定義的情感信息集合提取策略和引入注意力機(jī)制,構(gòu)建并行的情感信息注意力通道;最后進(jìn)行雙通道特征融合,利用Softmax 分類器實(shí)現(xiàn)情感分類。實(shí)驗(yàn)結(jié)果表明,相比其他詞向量工具,BERT 的特征提取能力更為優(yōu)異,而情感信息通道和注意力機(jī)制增強(qiáng)了模型捕捉情感語義的能力,明顯提升了情感分類性能,且在收斂速度和穩(wěn)定性上表現(xiàn)更優(yōu)。