基于BERT 和雙通道注意力的文本情感分類模型

2020-08-11 06:52謝潤(rùn)忠

數(shù)據(jù)采集與處理 2020年4期

謝潤(rùn)忠，李燁

（上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院，上海，200093）

引言

句子級(jí)別的文本情感分析，即針對(duì)語句的情感傾向性分析，是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。隨著論壇、博客和推特等社交媒體的發(fā)展，我們擁有了海量的情緒化數(shù)據(jù)，情感分析技術(shù)扮演著越來越重要的角色。

現(xiàn)有的情感分析技術(shù)有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法?；谇楦性~典的方法通過對(duì)文本進(jìn)行詞語和句法分析，并計(jì)算情感值作為判斷文本情感傾向的依據(jù)。該方法根據(jù)情感詞典可以很好地鎖定文本情感信息，且實(shí)現(xiàn)較為簡(jiǎn)單。個(gè)體在進(jìn)行語言表達(dá)時(shí)，會(huì)增添必要的情感詞匯，情感褒貶詞、程度副詞、否定詞等對(duì)情感語義增強(qiáng)或減弱有著重要的促進(jìn)作用[1]。趙妍妍等[2]通過構(gòu)建否定詞、副詞、情感表情等相關(guān)詞典來擴(kuò)充情感詞典，大大增強(qiáng)了文本情感極性的判斷能力。Keshavarz 等[3]將語料庫與詞典相結(jié)合，構(gòu)建自適應(yīng)情感詞典，以改善微博中情感的極性分類。蔣翠清等[4]利用初始情感種子詞構(gòu)建了一個(gè)面向中文社交媒體文本的領(lǐng)域情感詞典，有效地改進(jìn)了句子級(jí)文本的情感分類效果。

基于機(jī)器學(xué)習(xí)的方法主要是將文本的情感傾向分析轉(zhuǎn)換為一個(gè)分類問題，然后利用經(jīng)典的支持向量機(jī)、樸素貝葉斯等機(jī)器學(xué)習(xí)算法[5]，通過有監(jiān)督的訓(xùn)練得到一個(gè)模型，進(jìn)而根據(jù)該模型進(jìn)行文本情感傾向分析。然而由于傳統(tǒng)的機(jī)器學(xué)習(xí)算法多采用詞袋模型來表示文本，其面臨數(shù)據(jù)特征稀疏，且不能很好地抽取文本中蘊(yùn)涵的情感信息等問題。

近年來興起的深度學(xué)習(xí)方法能夠較好地彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)方法的缺陷，由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent neural network，RNN）為代表的深度學(xué)習(xí)模型被廣泛地應(yīng)用于文本情感分析領(lǐng)域。王煜涵等[6]采用CNN 模型學(xué)習(xí)文本中的深層語義信息，挖掘Twitter 文本的情感傾向，比傳統(tǒng)機(jī)器學(xué)習(xí)方法取得了顯著提高。Zhu 等[7]提出了一種統(tǒng)一的CNN-RNN 模型，用于視覺情感識(shí)別。該體系結(jié)構(gòu)利用CNN 的多個(gè)層次，在多任務(wù)學(xué)習(xí)框架內(nèi)提取不同層次的特征，并提出了一種雙向RNN 來集成CNN模型中不同層次的學(xué)習(xí)特征，極大地提高了情感分類性能。Zhang 等[8]提出了一種基于BiGRU 的分層多輸入輸出模型，該模型同時(shí)考慮了情感表達(dá)的語義信息和詞匯信息，實(shí)現(xiàn)了對(duì)客戶評(píng)論情感分類的突破性改進(jìn)。Peng 等[9]將BiGRU 與注意力機(jī)制融合應(yīng)用于細(xì)粒度文本情感分析，在不同的數(shù)據(jù)集上都取得了良好的性能。此后，基于CNN、BiGRU、注意力機(jī)制等的混合神經(jīng)網(wǎng)絡(luò)模型在文本情感分析任務(wù)中得到了廣泛應(yīng)用。

Word2vec[10]是目前NLP 領(lǐng)域中最常用的詞向量工具。Glove 模型于2014 年由Pennington 等[11]提出，因其提高了詞向量在大語料上的訓(xùn)練速度且穩(wěn)定性高，在最近幾年得以流行。預(yù)訓(xùn)練模型（Pretrained model）是一種基于大型基準(zhǔn)數(shù)據(jù)集訓(xùn)練得到的深度學(xué)習(xí)架構(gòu)，在此基礎(chǔ)上可以進(jìn)行后續(xù)任務(wù)。預(yù)訓(xùn)練模型對(duì)改進(jìn)許多NLP 任務(wù)都有非常大的幫助[12]。隨著預(yù)訓(xùn)練模型研究的深入，ELMo[13]、ULMFiT[14]、基于變換器的雙向編碼器表征技術(shù)（Bidirectional encoder representations from transformers，BERT）15]等眾多NLP 預(yù)訓(xùn)練模型相繼被提出，通過將大型文本語料庫作為語言模型進(jìn)行預(yù)訓(xùn)練，為給定句子中的每個(gè)單詞創(chuàng)建上下文關(guān)聯(lián)的嵌入（Embedding），這些嵌入將被輸入到后續(xù)任務(wù)中。選擇高效的詞向量表示工具對(duì)深度學(xué)習(xí)的應(yīng)用研究有著極其重要的影響。

對(duì)比傳統(tǒng)情感分類方法，情感詞、否定詞、強(qiáng)度詞等情感信息詞起著至關(guān)重要的作用[16]。盡管情感語言詞很有用，但在近幾年的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional neural network，CNN）和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long short-term memory，LSTM）等深度神經(jīng)網(wǎng)絡(luò)模型中，情感語言知識(shí)的應(yīng)用還很有限。受文獻(xiàn)[15,17]啟發(fā)，結(jié)合深度學(xué)習(xí)和情感詞典方法的優(yōu)點(diǎn)，本文提出一種基于BERT 和雙通道注意力（Dualchannel attention，DCA）的新模型（BERT-DCA）應(yīng)用于句子級(jí)文本情感分析。

1 相關(guān)技術(shù)與BERT-DCA 模型

1.1 情感信息集合的提取

修飾詞詞典一般包括否定詞、程度副詞、連詞等部分。當(dāng)情感詞被這些修飾詞圍繞時(shí)，有很大概率伴隨著整句的情感極性變化，如極性反轉(zhuǎn)、加強(qiáng)或減弱等。因此，綜合考慮情感詞和修飾詞對(duì)判斷文本情感極性至關(guān)重要。參考Lei 等[18]構(gòu)造情感語言庫的方法，本文構(gòu)建的情感語言庫主要考慮情感詞、否定詞和程度副詞。通過構(gòu)建的情感語言庫，提取文本句子中包含的情感信息，從而得到每一條文本句子所對(duì)應(yīng)的情感信息集合。設(shè)定策略方案如下：

策略1：若當(dāng)前詞語為情感詞，直接將當(dāng)前詞語加入到情感信息集合中。

策略2：若當(dāng)前詞語為程度副詞，且下一個(gè)詞語為情感詞，則將二者作為一個(gè)整體加入到情感信息集合中；若該情感詞已存在于情感信息集合中，則將其刪除。

策略3：若當(dāng)前詞語為否定詞，且下一個(gè)詞語為情感詞，則將二者作為一個(gè)整體加入到情感信息集合中；若該情感詞已存在于情感信息集合中，則將其刪除?；蛘呷舴穸ㄔ~依次緊跟副詞和情感詞，則將三者作為一個(gè)整體加入到情感信息集合中；類似的，若副詞與情感詞的整體存在于情感信息集合中，則將其刪除。

1.2 BERT 預(yù)訓(xùn)練模型

Word2vec 等傳統(tǒng)詞向量工具只是簡(jiǎn)單地提供詞嵌入作為特性，相比之下，BERT 還可以集成到下游任務(wù)中，并作為特定于任務(wù)的體系結(jié)構(gòu)進(jìn)行動(dòng)態(tài)調(diào)整。與ELMo 使用獨(dú)立訓(xùn)練的從左到右和從右到左LSTM 的級(jí)聯(lián)來生成下游任務(wù)的特征不同，BERT 使用的是更為強(qiáng)大的雙向 Transformer 編碼器[19]，如圖 1 所示，并以遮蔽語言建模（Masked language model，MLM）和下一句話預(yù)測(cè)（Next sentence prediction，NSP）為無監(jiān)督目標(biāo)，使模型輸出的每個(gè)字與詞的向量表示都能盡可能全面、準(zhǔn)確地刻畫輸入文本的整體信息，為后續(xù)的微調(diào)任務(wù)提供更好的模型參數(shù)初始值；且其輸入表征（Input embedding）是通過對(duì)相應(yīng)詞的詞塊嵌入（Token embedding）、段嵌入（Segment embedding）和位置嵌入（Position embedding）求和來構(gòu)造的，包含了更多的參數(shù)，因此具有更強(qiáng)的詞向量表示能力。

BERT 在大量句子級(jí)和Token 級(jí)任務(wù)上獲得了最佳性能，優(yōu)于許多具有任務(wù)特定體系結(jié)構(gòu)的系統(tǒng)，包括情感分析領(lǐng)域中的任務(wù)[20]。

1.3 雙向GRU 神經(jīng)網(wǎng)絡(luò)

門控循環(huán)單元（Gated recurrent unit，GRU）由Cho 等[21]提出，是一種對(duì)LSTM 改進(jìn)的深度網(wǎng)絡(luò)模型，其模型結(jié)構(gòu)如圖2 所示。GRU 最大的優(yōu)點(diǎn)在于很好地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)期依賴問題，且被認(rèn)為更易于計(jì)算和實(shí)施。它保留了LSTM 對(duì)解決梯度消失問題的優(yōu)點(diǎn)，但內(nèi)部結(jié)構(gòu)更簡(jiǎn)單，只有2 個(gè)控制門：更新門和重置門。GRU 神經(jīng)網(wǎng)絡(luò)的參數(shù)比LSTM 減少了1/3，不易產(chǎn)生過擬合，同時(shí)由于采取對(duì)Cell 融合和其他一些改進(jìn)，在收斂時(shí)間和需要的迭代次數(shù)上更勝一籌。

圖1 BERT 模型結(jié)構(gòu)圖Fig.1 BERT model structure

圖2 GRU 神經(jīng)元結(jié)構(gòu)圖Fig.2 Structure of a GRU neuron

GRU 神經(jīng)網(wǎng)絡(luò)的更新方式如下

式中：rt為t時(shí)刻的重置門，zt為t時(shí)刻的更新門，ht為t時(shí)刻的候選激活狀態(tài)，ht為t時(shí)刻的激活狀態(tài)，ht-1為t-1 時(shí)刻的隱層狀態(tài)，wr、wz、w為相應(yīng)的權(quán)重矩陣，σ為sigmoid 激活函數(shù)，tanh 為雙曲正切激活函數(shù)。更新門由當(dāng)前狀態(tài)需要被遺忘的歷史信息和接受的新信息決定；重置門由候選狀態(tài)從歷史信息中得到的信息決定。

單向GRU 在使用時(shí)是從上文向下文推進(jìn)的，容易導(dǎo)致后面的詞比前面的詞更重要，而雙向GRU（BiGRU）通過增加從后往前傳遞信息的隱藏層，能更充分利用上下文信息，克服了這一缺陷。BiGRU 的模型結(jié)構(gòu)如圖3所示。

1.4 注意力機(jī)制

2014 年，Mnih 等[22]在圖像分類任務(wù)中首次提出注意力機(jī)制，使得結(jié)合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)成為研究的熱點(diǎn)。Bahdanau 等[23]將注意力機(jī)制和RNN 結(jié)合以解決機(jī)器翻譯任務(wù)，將注意力機(jī)制引入到自然語言處理領(lǐng)域。

通過計(jì)算概率分布，選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息，可對(duì)深度學(xué)習(xí)模型起到優(yōu)化作用，注意力機(jī)制在文本情感分析領(lǐng)域中已經(jīng)得到廣泛應(yīng)用。

1.5 BERT-DCA 模型

如圖4 所示，BERT-DCA 模型結(jié)構(gòu)包含輸入層、信息提取層、特征融合層和輸出層4 個(gè)信息處理層次，在結(jié)構(gòu)上則采用了2 個(gè)信息處理通道：左側(cè)為語義信息注意力通道（Semantic information attention channel，SAC），右側(cè)為情感信息注意力通道（Emotional information attention channel，EAC）。

1.5.1 輸入層

對(duì)于一條文本句子序列，經(jīng)分詞后的詞語序列{W1,W2,???,Wn}作為SAC 的輸入，通過情感信息集合的提取策略，進(jìn)而得到由該文本句子提取的情感信息詞集合{E1,E2,???,Em}作為EAC 的輸入；然后利用預(yù)訓(xùn)練模型BERT 為整個(gè)模型提供詞向量，能配合上下文語境實(shí)現(xiàn)詞向量的動(dòng)態(tài)調(diào)整，更好地將真實(shí)情感語義嵌入模型訓(xùn)練，從而得到語義信息詞向量矩陣Rx和情感信息詞向量矩陣Re

式中：⊕為行向量連接運(yùn)算符，Rx和Re的維數(shù)即為評(píng)論文本中詞語的數(shù)目和情感信息詞的數(shù)目。

圖3 BiGRU 結(jié)構(gòu)圖Fig.3 Structure of BiGRU

圖4 BERT-DCA 模型結(jié)構(gòu)示意圖Fig.4 Structure of BERT-DCA model

1.5.2 信息提取層

對(duì)于語義信息文本，首先利用BiGRU 神經(jīng)網(wǎng)絡(luò)同時(shí)處理正向和反向文本序列，對(duì)文本深層次的信息進(jìn)行特征提取，然后利用注意力機(jī)制對(duì)提取的特征信息分配相應(yīng)的權(quán)重。對(duì)于情感信息集合，采用全連接網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的方式對(duì)情感信息詞進(jìn)行編碼，以獲取最重要的情感信號(hào)。

某一時(shí)刻t的BiGRU 信息提取模塊輸出狀態(tài)由正向GRU 和反向GRU 的輸出相連接組成，其計(jì)算方法為

為了捕獲更直接的語義依賴關(guān)系（使模型在訓(xùn)練時(shí)聚焦到數(shù)據(jù)中的重要信息），將評(píng)論文本BiGRU 模型的輸出和情感信息集合全連接網(wǎng)絡(luò)的輸出分別輸入到注意力機(jī)制中，采用雙通道注意力分別對(duì)評(píng)論文本句子和情感信息進(jìn)行編碼。注意力計(jì)算方法如下

式中：ww與bw為注意力機(jī)制的可調(diào)節(jié)權(quán)重和偏置項(xiàng)，ht為BiGRU 或全連接網(wǎng)絡(luò)的輸出；ut為ht的隱含狀態(tài)，uw為Softmax 分類器的權(quán)重參數(shù)，αt表示句子中每個(gè)詞的重要度信息；V即為經(jīng)過注意力模型計(jì)算后的特征向量。

1.5.3 特征融合層

特征融合層的主要任務(wù)是將SAC 中生成的特征向量Vs和EAC 中生成的特征向量Ve進(jìn)行合并，從而構(gòu)建文本整體的情感特征向量。為了簡(jiǎn)化模型的計(jì)算量，采用行連接的方式進(jìn)行特征融合，構(gòu)建一個(gè) (rs+re)×c的矩陣V*，生成最終情感特征向量，其中rs和re分別為Vs和Ve的行數(shù) ，c為Vs和Ve的列數(shù)。

1.5.4 輸出層

將特征融合層生成的情感特征向量V*輸入Softmax 分類器，從而得到模型最終預(yù)測(cè)的情感分類結(jié)果

式中：wo為權(quán)重系數(shù)矩陣，bo為偏置矩陣，p為輸出的預(yù)測(cè)情感標(biāo)簽。

1.5.5 模型訓(xùn)練

情感分析模型的訓(xùn)練采用端到端的反向傳播方式，最小化所有文本中已知情感類別和預(yù)測(cè)情感類別的交叉熵。

式中：D為訓(xùn)練數(shù)據(jù)集，C為情感標(biāo)簽的類別數(shù)，y為實(shí)際情感類別，為預(yù)測(cè)情感類別，λ為L(zhǎng)2正則化，θ為設(shè)置的參數(shù)。

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)設(shè)置

選取2 個(gè)語料庫進(jìn)行實(shí)驗(yàn)：

實(shí)驗(yàn)數(shù)據(jù)1采用流行的中文情感挖掘酒店評(píng)論語料ChnSentiCorp，該語料規(guī)模為10 000 篇。為了方便起見，將語料整理為4 個(gè)子集。選擇ChnSentiCorp-Htl-ba-6000 的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，該語料為平衡語料，包含正負(fù)類各3 000 篇。

實(shí)驗(yàn)數(shù)據(jù)2利用爬蟲工具Pyspider 在豆瓣電影平臺(tái)上抓取了近30 部熱播電影用戶評(píng)論及評(píng)分，并進(jìn)行了去短文本（少于30 個(gè)字符）處理操作，再以影評(píng)的評(píng)分作為判定依據(jù)，2 星及以下判定為情感消極的評(píng)論，反之4 星及以上判定為情感積極的評(píng)論，分別獲取消極情感評(píng)論文本10 000 條，積極情感評(píng)論文本20 000 條。

情感詞詞典來自大連理工大學(xué)的情感詞本體數(shù)據(jù)庫，程度副詞和否定詞來自于知網(wǎng)中文詞庫HowNet。為了構(gòu)建語義信息和情感信息的詞向量，采用結(jié)巴分詞系統(tǒng)對(duì)酒店評(píng)論語料文本句子進(jìn)行分詞，在分詞過程中，將構(gòu)建的情感語言庫作為自定義分詞詞典，如表1，使其在分詞后作為一個(gè)基本的語言單元存在。此外，還進(jìn)行了去重、過濾、去停用詞等文本預(yù)處理。

實(shí)驗(yàn)設(shè)置的超參數(shù)如表2 所示。

表1 情感語言庫Table 1 Emotional language library

表2 模型參數(shù)設(shè)置Table 2 Model parameter setting

2.2 實(shí)驗(yàn)評(píng)測(cè)指標(biāo)

采用文本情感分析中常用的準(zhǔn)確率P（Precision）、召回率R（Recall）、F1測(cè)度（F1measure）和損失率L（Loss rate）作為實(shí)驗(yàn)數(shù)據(jù)的評(píng)測(cè)指標(biāo)。

式中，對(duì)于某一類別，nTP表示正確判斷屬于該類別的數(shù)量，nFP表示誤判為該類別的數(shù)量，nFN指誤判為錯(cuò)誤類別的數(shù)量，G為測(cè)試數(shù)據(jù)集。

2.3 對(duì)比實(shí)驗(yàn)

進(jìn)行3 組對(duì)比實(shí)驗(yàn)，所有實(shí)驗(yàn)均基于情感二分類（積極和消極）的任務(wù)進(jìn)行十折交叉驗(yàn)證。第1 組比較詞向量工具對(duì)模型的影響，只采用SAC 通道；第2 組實(shí)驗(yàn)對(duì)比SAC 和EAC 對(duì)模型分類性能的影響；第3 組實(shí)驗(yàn)探究模型情感分類迭代過程中準(zhǔn)確率和損失率的變化情況。

2.3.1 詞向量工具對(duì)比實(shí)驗(yàn)

基于SAC 通道信息提取層中的BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)模型對(duì)比不同詞向量工具的性能。

優(yōu)質(zhì)的內(nèi)容是線上競(jìng)爭(zhēng)的核心競(jìng)爭(zhēng)力，年輕人樂于分享、熱衷模仿，選取極具特色景點(diǎn)，多元融合創(chuàng)造趣味性，移動(dòng)互聯(lián)網(wǎng)時(shí)代的短視頻肯定不同于以往的電視廣告，短視頻創(chuàng)造了新的平等對(duì)話語境，一定要有原創(chuàng)性，使用平臺(tái)內(nèi)容的調(diào)性。如西瓜視頻具有精致化、精品化的特征，而抖音則帶有節(jié)奏的嘻哈快感，迎合年輕人的口味。原創(chuàng)內(nèi)容即是用戶心理的表現(xiàn)，也是用戶內(nèi)心情感的宣泄，同時(shí)還能表達(dá)用戶的生活態(tài)度，所以容易產(chǎn)生共鳴，創(chuàng)造出魔性內(nèi)容，更具傳播性。

Word2vec-SAC：采用Word2ec 作為詞向量工具，然后通過BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

Glove-SAC：將詞通過Glove 模型轉(zhuǎn)換為詞向量以后，利用BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

ELMo-SAC：將詞通過ELMo 模型轉(zhuǎn)換為詞向量以后，利用BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

BERT-SAC：采用Google 預(yù)訓(xùn)練好的中文模型BERT-Base-Chinese 訓(xùn)練數(shù)據(jù)文本轉(zhuǎn)換為詞向量以后，利用BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

對(duì)表3 中的實(shí)驗(yàn)結(jié)果進(jìn)行分析：

（1）由于Glove 模型是在統(tǒng)計(jì)詞向量模型和預(yù)測(cè)詞向量模型基礎(chǔ)上，通過矩陣分解的方法利用詞共現(xiàn)信息，不僅關(guān)注Word2vec 窗口（Context）大小的上下文，而且用到了全局信息，能較好地提高語義表征能力。因此，Glove-SAC 的模型評(píng)價(jià)結(jié)果略優(yōu)于Word2vec-SAC。

表3 基于不同詞向量模型的對(duì)比結(jié)果Table 3 Comparison results based on different word vector models

（3）相比ELMo 采用LSTM 進(jìn)行提取詞向量特征，BERT 采用更為強(qiáng)大的Transformer 編碼器，進(jìn)一步提高了特征提取的能力，有效增強(qiáng)了情感表征，在2 組數(shù)據(jù)中BERT-SAC 均獲得了最優(yōu)結(jié)果。

2.3.2 分類模型對(duì)比實(shí)驗(yàn)

本組實(shí)驗(yàn)參照文獻(xiàn)[24]選擇了現(xiàn)階段句子級(jí)情感分析領(lǐng)域中較為常用的幾種分類模型進(jìn)行對(duì)比研究，其中5 種模型均采用BERT 作為詞向量工具。實(shí)驗(yàn)結(jié)果如表4。

對(duì)表4 中的實(shí)驗(yàn)結(jié)果進(jìn)行分析：

（1）相比于CNN，BiLSTM 更擅長(zhǎng)時(shí)序特征的捕獲，因此BERT-CNN 實(shí)驗(yàn)效果稍遜于BERT-BiLSTM；而BERT-BiGRU 的表現(xiàn)性能更優(yōu)，這與Xu 等[25]針對(duì)CNN 與BiLSTM 的評(píng)論文本情感分析實(shí)驗(yàn)的結(jié)論一致。

（2）相比 BERT-BiGRU 模型，BERT-SAC 模型在BiGRU 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了注意力機(jī)制，有助于提取文本重點(diǎn)信息，因而性能取得了明顯的提升。

（3）相比于 BERT-SAC 模型，BERT-DCA 模型的性能有進(jìn)一步提升，這是由于BERT-DCA 構(gòu)建了SAC和EAC 雙通道，其中EAC 中采用由全連接網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合的深度網(wǎng)絡(luò)模型，針對(duì)文本中包含否定詞、程度副詞、情感詞等具情感色彩的詞進(jìn)行提取，結(jié)構(gòu)化的情感語言詞及全局上下文都得到了充分考慮，有助于捕捉文本潛在的語義特征，更好地挖掘出文本深層情感信息。

（4）相對(duì)于數(shù)據(jù) 1 的實(shí)驗(yàn)結(jié)果，數(shù)據(jù) 2 中 BERT-DCA 比 BERT-SAC 在準(zhǔn)確率、召回率、F1測(cè)度上分別提升了2.94%,3.31%,3.09%，且5 個(gè)綜合模型的分類效果均優(yōu)于數(shù)據(jù)1，這是因?yàn)楸窘M實(shí)驗(yàn)選取了大于等于30 個(gè)字符的長(zhǎng)文本實(shí)驗(yàn)數(shù)據(jù)，其情感信息詞詞頻更高，文本數(shù)據(jù)中所含的情感信息更豐富，有利于情感信息注意力通道中注意力機(jī)制發(fā)揮更好的效果，準(zhǔn)確捕捉文本情感極性。

2.3.3 迭代過程性能對(duì)比實(shí)驗(yàn)

為進(jìn)一步說明BERT-DCA 模型的有效性，且更直觀地體現(xiàn)注意力機(jī)制和語義信息與情感信息的雙通道構(gòu)造對(duì)模型的性能提升效果，本組實(shí)驗(yàn)選擇均包含了雙向GRU 神經(jīng)網(wǎng)絡(luò)架構(gòu)、較為相近的3 種模型BERT-BiGRU、BERT-SAC、BERT-DCA，對(duì)比分析其分別在2 個(gè)數(shù)據(jù)集實(shí)驗(yàn)中10 次迭代的準(zhǔn)確率和損失率變化，實(shí)驗(yàn)結(jié)果如圖5，6 所示。

可以觀察到，在2 個(gè)數(shù)據(jù)集上BERT-DCA 的準(zhǔn)確率始終高于其他2 種模型，而損失率則始終更低。而且，雖然隨著迭代的進(jìn)行，3 個(gè)模型均出現(xiàn)了不同程度的性能退化，但相對(duì)而言BERT-DCA 的性能要穩(wěn)定得多，準(zhǔn)確度下降和損失率上升的幅度小，顯然這得益于雙通道的構(gòu)建。在收斂速度上，BERT-DCA 和BERT-SAC 模型在2 個(gè)數(shù)據(jù)集上均優(yōu)于BERT-BiGRU 模型，這歸功于注意力機(jī)制帶來的優(yōu)化效果。在數(shù)據(jù)2 上3 個(gè)模型的收斂速度均比在數(shù)據(jù)1 上更快些，這是由于數(shù)據(jù)2 選擇的文本序列長(zhǎng)度較為統(tǒng)一，情感信息更為豐富，為模型準(zhǔn)確快速識(shí)別評(píng)論文本情感極性提供了良好條件。

表4 分類模型實(shí)驗(yàn)的對(duì)比結(jié)果Table 4 Comparison results of classification model experiments

圖5 3 種模型準(zhǔn)確率變化曲線Fig.5 Accuracy curves of the three models

圖6 3 種模型損失率變化曲線Fig.6 Loss rate curves of the three models

表5 給出了部分評(píng)論文本示例在BERT-DCA 模型訓(xùn)練后的情感分類效果。

表5 實(shí)例展示Table 5 Case demonstration

3 結(jié)束語

針對(duì)句子級(jí)文本情感分析任務(wù)，提出了一種基于BERT 和雙通道注意力的新模型。采用BERT 作為詞向量工具，一方面，由BiGRU-Attention 神經(jīng)網(wǎng)絡(luò)作為語義信息注意力通道，另一方面，通過自定義的情感信息集合提取策略和引入注意力機(jī)制，構(gòu)建并行的情感信息注意力通道；最后進(jìn)行雙通道特征融合，利用Softmax 分類器實(shí)現(xiàn)情感分類。實(shí)驗(yàn)結(jié)果表明，相比其他詞向量工具，BERT 的特征提取能力更為優(yōu)異，而情感信息通道和注意力機(jī)制增強(qiáng)了模型捕捉情感語義的能力，明顯提升了情感分類性能，且在收斂速度和穩(wěn)定性上表現(xiàn)更優(yōu)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡