基于RoBERTa_WWM和Bi-LSTM的短文本情感分析①

2022-08-23 12:12吳鐵峰

佳木斯大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年4期

王恒，吳鐵峰

(佳木斯大學(xué)信息電子技術(shù)學(xué)院，黑龍江佳木斯 154007)

0 引言

情感分析又被稱為意見挖掘，隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，社交媒體上用戶間的文本交互信息越來越多。通過文本挖掘出用戶的情感傾向已成為自然語言處理的熱門任務(wù)之一。文本情感分析主要分為兩種任務(wù)：文本特征提取和表示、文本語義分析和分類。第一個(gè)任務(wù)常用的方法是用Mikolov等[1]提出的Word2vec模型來表示文本，但是它得到的文本表征是靜態(tài)的，不能考慮到上下文的信息，針對(duì)這種情況Peters等[2]提出ELMO模型，雖能考慮到上下文的語義信息但是不能并行計(jì)算。Devlin[3]等人提出的BERT模型不僅能獲得文本的動(dòng)態(tài)表征計(jì)算過程也是并行的。目前在BERT模型的基礎(chǔ)之上研究者們又提出了很多改進(jìn)的模型，如 ERNIE[4],Xlnet[5],Roberta[6],alBERT[7]等。

對(duì)于第二個(gè)任務(wù)，常用方法主要是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。前者雖取得了好的效果[8][9]，但也存在諸如復(fù)雜人工特征工程、泛化能力較弱等缺點(diǎn)。目前深度學(xué)習(xí)成為該任務(wù)的主流技術(shù)，如S.Kai[10],LSTM，Kim[11]等利用CNN解決情感分析問題，使分類效果明顯提升。目前將BERT及其改進(jìn)模型應(yīng)用到情感分析的任務(wù)中并成為了主流方法，如謝潤忠[12]、諶志群[13]等人利用BERT和GRU,BERT和LSTM來進(jìn)行文本情感分類。

考慮到目前常用文本表征方法仍采用靜態(tài)表征方法且BERT模型主要是在字級(jí)別上進(jìn)行預(yù)訓(xùn)練，而中文文本更希望在詞或短語級(jí)別上進(jìn)行建模，所以提出利用全詞掩蓋技術(shù)的預(yù)訓(xùn)練語言模型RoBERTa_WWM來獲取文本動(dòng)態(tài)表征，利用Bi-LSTM來提取文本語義特征進(jìn)行情感分類并獲得更好的分類效果。

1 相關(guān)技術(shù)

1.1 預(yù)訓(xùn)練語言模型及WWM技術(shù)

相比于如Word2vec等靜態(tài)的詞向量模型，利用預(yù)訓(xùn)練模型如BERT能獲得考慮到上下文語義信息的動(dòng)態(tài)詞向量。預(yù)訓(xùn)練語言模型BERT有兩種訓(xùn)練方式：MLM(Masked Language Model)即遮住幾個(gè)字預(yù)測(cè)這幾個(gè)字、NSP(Nextsentence Prediction)即預(yù)測(cè)上下兩句關(guān)系，通過兩種訓(xùn)練方式從文檔中學(xué)習(xí)語義知識(shí)。但是BERT中的MLM任務(wù)是對(duì)字級(jí)別進(jìn)行隨機(jī)掩蓋，然后預(yù)測(cè)掩蓋掉的字，對(duì)于中文語料來說這種訓(xùn)練方式得到的只是局部的語言信號(hào)，缺乏對(duì)句子全局的建模，難以學(xué)到短語、實(shí)體的完整語義。

針對(duì)以上情況, Turc I[14]等人在訓(xùn)練BERT模型的過程中使用了一個(gè)新的技術(shù)WWM(Whole Word Masking)，在進(jìn)行MLM任務(wù)時(shí)將一個(gè)短語或者實(shí)體掩蓋，比如“哈爾濱是一座冰城”這句話是將“哈爾濱”和“冰城”進(jìn)行掩蓋，并預(yù)測(cè)出這兩個(gè)實(shí)體并且能夠?qū)W習(xí)到這兩個(gè)實(shí)體之間的關(guān)系。

1.2 Bi-LSTM模塊

鑒于傳統(tǒng)的RNN模型在訓(xùn)練過程中存在梯度消失和爆炸的問題，Hochreiter等[15]提出LSTM模型，LSTM中的每個(gè)單元包含輸入門it,遺忘門ft,輸出門ot和記憶單元ct。利用這些門控機(jī)制來控制當(dāng)前時(shí)刻要保留多少上一時(shí)刻的信息，有多少信息要加入到當(dāng)前時(shí)刻。四個(gè)門的計(jì)算公式如式(1)-(6)所示：

it=σ(wi[ht-1;xt]+bi)

(1)

ft=σ(wf[ht-1;xt]+bf)

(2)

ot=σ(wo[ht-1;xt]+bo)

(3)

gt=tanh(wc[ht-1;xt]+bc)

(4)

ct=it⊙gt+ft⊙ct-1

(5)

ht=ot⊙tanh(ct)

(6)

xt表示t時(shí)刻的詞向量；ht表示隱層向量；wi,wf,wo,wc為權(quán)重矩陣；bi,bf,bo,bc為訓(xùn)練過程中的偏置項(xiàng)；σ為sigmod激活函數(shù)；tanh表示激活函數(shù)；⊙表示點(diǎn)乘。

Bi-LSTM其實(shí)是利用兩個(gè)LSTM來獲取上下文信息，前項(xiàng)LSTM從前往后獲取上文信息，后項(xiàng)LSTM從后往前獲取下文信息。

2 本文模型

采用RoBERTa_WWM[16]來表示文本特征，得到能夠考慮到上下文的動(dòng)態(tài)詞向量，然后將RoBERTa_WWM的輸出作為雙向LSTM的輸入，得到最終的情感極性。模型如圖1所示。

2.1 詞嵌入層

詞嵌入是將自然語言轉(zhuǎn)換成深度學(xué)習(xí)網(wǎng)絡(luò)能夠識(shí)別的向量，采用BERT的變種RoBERTa_WWM預(yù)訓(xùn)練詞向量模型，來表示文本的詞向量。RoBERTa_WWM主要是對(duì)BERT的參數(shù)進(jìn)行了優(yōu)化，采用了更大的BatchSize，能夠輸入更長的文本序列；證明了BERT中的NSP任務(wù)對(duì)模型的性能有影響，所以去掉了NSP任務(wù)；對(duì)于BERT的靜態(tài)掩碼的問題，它采用動(dòng)態(tài)掩碼的方式讓模型更加有效；此外它采用BPE字符編碼，可以處理自然語言語料庫中常見的詞匯，比BERT擁有更大的語料。

對(duì)于一條短文本語句S={x1,x2,x3…xn}構(gòu)建出對(duì)應(yīng)的字符向量(Token Embedding)、位置向量(Position Embedding)和分段向量(Segment Embedding)，并將這些向量在行維度上進(jìn)行拼接得到輸入文本的詞向量矩陣Ib×s，其中b為batchsize，s為句子的長度(seq_length)，經(jīng)過RoBERTa_WWM之后得到文本的動(dòng)態(tài)詞向量表示E= {e1,e2,e3…en}，E的維度大小為：E∈Rb×s×e，其中e為詞向量的維度(embedding_dim)。

2.2 語義提取層

如圖1所示，將RoBERTa_WWM的最后一層輸出，即2.1中的E作為雙向LSTM的輸入A=(a1,a2...at...an)，其中at表示t時(shí)刻的LSTM的輸入，其計(jì)算公式如式(7)所示：

圖1 本文模型結(jié)構(gòu)

at=σ(WheEt+ba)

(7)

σ為激活函數(shù)sigmoid，Whe∈Re×h為權(quán)重矩陣，ba為偏置項(xiàng)。

(8)

Whh∈Rh×hLSTM前一時(shí)刻ht-1到當(dāng)前時(shí)刻ht的權(quán)重矩陣，bh為當(dāng)前時(shí)刻的偏置，ht∈Rb×2h，同理后項(xiàng)LSTM的計(jì)算與前項(xiàng)LSTM一致。

將前項(xiàng)LSTM的最后一個(gè)時(shí)刻的隱層和后項(xiàng)LSTM最后一個(gè)時(shí)刻的一層進(jìn)行拼接后輸出，計(jì)算公式如式(9)：

(9)

Obilstm∈Rb×4h，是雙向LSTM的輸出。

2.3 情感分類層

將雙向LSTM的輸出經(jīng)過一個(gè)線性層之后再經(jīng)過softmax函數(shù)得到最終的分類結(jié)果，計(jì)算公式如式(10)：

P=softmax(linear(ObilstmU+bo))

(10)

U∈R4h×2是線性層的權(quán)重矩陣，bo為偏置項(xiàng)。由于本模型是一個(gè)二分類問題，所以采用的loss為二元交叉熵?fù)p失函數(shù)。公式如式(11)：

(11)

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

采用兩種數(shù)據(jù)集(數(shù)據(jù)集1：ChnSentiCorp和數(shù)據(jù)集2：NLPCC14-SC)，這兩種數(shù)據(jù)集都是作為句子級(jí)的文本情感分析數(shù)據(jù)，其中數(shù)據(jù)集1包含酒店、筆記本和書籍三個(gè)領(lǐng)域的評(píng)論，數(shù)據(jù)集2包含書籍、DVDS和電子產(chǎn)品的評(píng)論文本，數(shù)據(jù)集1訓(xùn)練集大小9600，開發(fā)集大小1200，測(cè)試集大小1200,數(shù)據(jù)集2訓(xùn)練集大小9000，開發(fā)集大小1000，測(cè)試集大小2500。

由于數(shù)據(jù)集中的評(píng)論文本中包含很多無意義的詞，所以對(duì)于這兩種數(shù)據(jù)集先進(jìn)行去停用詞，如表1所示。

表1 文本預(yù)處理示例

3.2 參數(shù)設(shè)置

為保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性，對(duì)比實(shí)驗(yàn)與本文實(shí)驗(yàn)均在相同環(huán)境下進(jìn)行，試驗(yàn)過程中的超參數(shù)配置如表2所示。

表2 模型參數(shù)設(shè)置

3.3 對(duì)比實(shí)驗(yàn)設(shè)置及結(jié)果分析

通過對(duì)比其他5個(gè)主流模型，來評(píng)估所提出的模型的效果，并且證明了所提出的方案能夠很好的分析出文本的情感極性，相對(duì)于其他模型具有優(yōu)越性，各個(gè)模型的具體情況如下：

1)CNN模型：詞向量采用word2vec，然后利用CNN來提取文本特征，采用三種尺寸的卷積核，它們的大小分別取3，4，5，通道數(shù)設(shè)置為50。

2)LSTM模型：詞向量同樣采用word2vec，LSTM設(shè)置為兩層，隱藏層的單元數(shù)設(shè)置為100。

3)BiLSTM_attention：使用雙向LSTM，層數(shù)設(shè)置為兩層，同時(shí)加入注意力機(jī)制，將隱層輸出經(jīng)過tanh激活函數(shù)之后與權(quán)重矩陣相乘，得到注意力分?jǐn)?shù)，注意力分?jǐn)?shù)經(jīng)過softmax之后，再與隱層輸出相乘，然后再經(jīng)過全連接層進(jìn)行分類。

4)BERT模型：利用預(yù)訓(xùn)練語言模型BERT來進(jìn)行微調(diào)，直接在BERT輸出中的CLS這個(gè)token上作二分類。

5)BERT_Bi-LSTM模型：利用bert預(yù)訓(xùn)練模型得到文本的特征表示，然后將其作為Bi-LSTM的輸入進(jìn)行分類。

6)RBL：即本文模型。

模型的分類標(biāo)準(zhǔn)采用準(zhǔn)確率作為模型的評(píng)估標(biāo)準(zhǔn)，各個(gè)模型準(zhǔn)確率如下表3所示。

表3 各模型的情感分析結(jié)果

為了直觀的觀察所提出的模型在兩個(gè)數(shù)據(jù)集上相對(duì)于其他網(wǎng)絡(luò)在性能上的優(yōu)勢(shì)，以及模型的收斂情況，將各個(gè)模型在這兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率(Acc)和損失(Loss)隨步長(Step)的變化情況展示出來，如下圖2至5圖所示。

圖2 各模型在數(shù)據(jù)集1的Acc趨勢(shì)圖

圖3 各模型在數(shù)據(jù)集1的Loss趨勢(shì)圖

圖4 各模型在數(shù)據(jù)集2的Acc趨勢(shì)圖

圖5 各模型在數(shù)據(jù)集2的Loss趨勢(shì)圖

對(duì)于ChnSentiCorp數(shù)據(jù)集，從圖2，3可以看出模型在330步左右Acc和Loss有所波動(dòng)，但是之后逐漸趨于平穩(wěn)，同時(shí)可以看出本文模型較其他模型的Loss一直是最小的，表明了其收斂效果更好，Acc較其他模型的提高也是有明顯的提升，體現(xiàn)出本文模型較其他模型的優(yōu)越性。在NLPCC14-SC數(shù)據(jù)集上，從圖4，5中可以看出本文模型在1000步之后Acc開始趨于平緩且較其他模型有更高的值，同時(shí)Loss也是最快趨于平緩，說明模型收斂較快。

4 結(jié) 論

基于RoBERTa_WWM和雙向LSTM來進(jìn)行文本情感分析。以往的短文本情感分析任務(wù)中采用例如Word2Vec的靜態(tài)詞向量的方式來表示文本，這種方式雖然能夠考慮到文本上下文的關(guān)系，但是這種方式不能夠解決一詞多義的問題，尤其是中文文本中一個(gè)詞在不同語境下的語義是不同的，本文采用的是RoBERTa_WWM預(yù)訓(xùn)練模型來表示文本，并在情感分析任務(wù)中得到的較好的效果。主要對(duì)文本評(píng)論的極性進(jìn)行二分類，在此基礎(chǔ)上對(duì)中文文本的情感極性進(jìn)行多分類及情感原因分析是以后研究的重點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡