基于Bi-LSTM-Attention 的英文文本情感分類方法

2022-09-02 06:24朱亞輝

電子設(shè)計工程 2022年16期

朱亞輝

（長沙師范學(xué)院外國語學(xué)院，湖南長沙 410100）

情感分類是自然語言處理中的一種底層技術(shù)，對于問答系統(tǒng)、推薦系統(tǒng)等任務(wù)都有較大的幫助[1]。當(dāng)前，隨著社交媒體的廣泛普及，網(wǎng)絡(luò)上的很多關(guān)于商品、服務(wù)的評論留言對改善商家服務(wù)以及了解人們的情感傾向很有幫助[2]。而情感分類任務(wù)就是能夠根據(jù)評論文本中的情感色彩傾向性進(jìn)行分類，得到積極和消極情感兩個類別[3]。該文將重點(diǎn)討論句子級別的情感分類任務(wù)，即對給定的語句進(jìn)行情感二分類。

1 相關(guān)工作

最近十幾年里，基于深度學(xué)習(xí)的理論在圖像和文本處理領(lǐng)域均取得了飛躍式的成果與發(fā)展[4-5]，情感分類任務(wù)自然也引入了基于深度學(xué)習(xí)的方法[6-8]。當(dāng)前，盡管情感分類領(lǐng)域中有不少的研究工作都已達(dá)到了良好的成效，但一方面情感模型無法有效地捕捉兩個方向的句子上下文依賴[9]，另一方面又無法對情感特征內(nèi)部的相互依賴性進(jìn)行建模。

為了解決上述問題，該文同時采用雙向長短期記憶（Bidirectional Long Short-term Memory）網(wǎng)絡(luò)Bi-LSTM 與自注意力機(jī)制，提出了一種采用Bi-LSTM 與Attention 的英文文本情感分類算法模型。

2 相關(guān)技術(shù)

2.1 長短期記憶網(wǎng)絡(luò)LSTM

圖1為一個基本的LSTM的結(jié)構(gòu)圖。

圖1 標(biāo)準(zhǔn)的LSTM結(jié)構(gòu)

LSTM 網(wǎng)絡(luò)[10]是基于門控機(jī)制構(gòu)建而成的，每個LSTM 單元中主要包含了輸入門i、遺忘門f和輸出門o。首先，遺忘門根據(jù)當(dāng)前輸入與上一個隱藏狀態(tài)ht-1來選擇遺忘上一個狀態(tài)ht-1中的哪些信息。其次，輸入門對單元的狀態(tài)進(jìn)行更新，決定了輸入xt和上一個隱藏狀態(tài)ht-1的信息通過量。最后，輸出門控制從當(dāng)前單元狀態(tài)到隱藏狀態(tài)的信息流。在第t個時間步單個LSTM 單元狀態(tài)的運(yùn)算流程如下：

其中，xt∈Rn是輸入向量，而W∈Rm·n是各個門的參數(shù)，b∈Rm是偏置向量；上標(biāo)n與m分別是輸入向量的維度與數(shù)據(jù)集中單詞的總數(shù)；而[·]表示拼接操作。

2.2 雙向長短期記憶網(wǎng)絡(luò)

Bi-LSTM 網(wǎng)絡(luò)[11]同時考慮了從前往后和從后往前兩個方向的上下文信息，這樣就可以獲取到單個句子中相鄰詞語間的依賴關(guān)系。如圖2 所示是一個標(biāo)準(zhǔn)的Bi-LSTM 的基本結(jié)構(gòu)。給定輸入xt和上一個時間步的隱藏狀態(tài)ht-1，前向和后向的LSTM 的隱藏狀態(tài)的計算公式如下：

圖2 標(biāo)準(zhǔn)的Bi-LSTM結(jié)構(gòu)

最終，Bi-LSTM 的輸出是拼接前后兩個方向的隱藏狀態(tài)得出的，即。

3 基于Bi-LSTM-Attention的情感分類模型

如圖3 所示為該文所提模型的整體網(wǎng)絡(luò)架構(gòu)圖。該模型主要包含了以下幾個必不可少的組成部分，分別是輸入句子序列層、詞嵌入層、Bi-LSTM 層、自注意力層和一個Softmax 分類器。

圖3 Bi-LSTM-Attention模型的整體架構(gòu)圖

3.1 輸入句子序列層

輸入的第i句子si可以表示為：

其中，xik是句子序列中的第k個單詞，n是句子序列的最大長度。

3.2 詞嵌入層

詞嵌入層主要用于將輸入句子序列中的單詞表示為一個個維度為n的實(shí)值向量。該文使用了300維的GloVe 向量作為詞嵌入預(yù)訓(xùn)練模型。

3.3 Bi-LSTM層

Bi-LSTM 利用前后兩個方向的上下文特征信息，有效解決了上下文信息的提取和利用問題。Bi-LSTM 層的輸出為：

3.4 自注意力層

在情感分類任務(wù)中，自注意力機(jī)制可以實(shí)現(xiàn)對當(dāng)前輸入進(jìn)行權(quán)重調(diào)整，突出了對分類結(jié)果有重大影響的詞語的作用，而非同等對待所有的上下文信息。給定Bi-LSTM 層的隱層輸出h，注意力權(quán)重的計算過程如下：

其中，K∈，α∈RT，r∈Rd，Wh∈Rd×d，Wa∈以及w∈都是參數(shù)矩陣。α是注意力權(quán)重矩陣，而r是輸入句子的權(quán)重表示。ha?ek表示向量h重復(fù)地拼接了k次，而ek是大小為k的列向量。

最終，用于分類的句子表示為：

3.5 Softmax分類器

該文通過Softmax 層來計算條件概率分布，即預(yù)測輸入句子對應(yīng)的標(biāo)簽。條件概率的計算公式為：

其中，Wsm和bsm分別是Softmax 層的權(quán)重參數(shù)與偏置參數(shù)。

3.6 損失函數(shù)

該文在訓(xùn)練的過程中主要使用交叉熵?fù)p失函數(shù)：

其中，i和j分別是句子的索引與類別索引，yi是預(yù)測的標(biāo)簽。λ是L2正則化項(xiàng)，θ代表模型的可優(yōu)化參數(shù)集合，即{Wf,bf,Wi,bi,Wc,bc,Wo,bo,Wsm,bsm}。同樣地，詞嵌入向量也是模型的參數(shù)。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)設(shè)置

在訓(xùn)練模型之前，該文通過GloVe 詞向量來建立所有的詞向量，模型中的詞向量及其隱藏層向量均為300 維，Bi-LSTM 層的節(jié)點(diǎn)數(shù)為16 個。注意力權(quán)重的長度與句子的最大寬度是相同的，設(shè)為25。批次大小設(shè)置為32，學(xué)習(xí)率初始值設(shè)置為0.001，衰減因子為0.01，選擇Adam 作為優(yōu)化器，L2正則化項(xiàng)λ=0.1。為了防止模型過擬合，該文使用了隨機(jī)失活的方法隨機(jī)丟棄掉Bi-LSTM 層中的一些網(wǎng)絡(luò)單元，隨機(jī)失活率設(shè)為0.3，訓(xùn)練總輪數(shù)為50。

4.2 數(shù)據(jù)集和評價指標(biāo)

該文主要使用兩個常用的公開數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)，分別是MR 數(shù)據(jù)集和SST-2 數(shù)據(jù)集。表1 中給出了各個數(shù)據(jù)集的詳細(xì)統(tǒng)計信息。

表1 數(shù)據(jù)集的詳細(xì)信息

該文主要采用準(zhǔn)確率（Accuracy）作為指標(biāo)來評估所提出的模型的性能和有效性。上述指標(biāo)的計算公式如下：

其中，TP為被準(zhǔn)確地區(qū)分為正例的總數(shù)，F(xiàn)P為被誤分為正例的總數(shù)，F(xiàn)N為被誤分為負(fù)例的總數(shù)，TN是被準(zhǔn)確地區(qū)分為負(fù)例的總數(shù)。

4.3 對比的基準(zhǔn)模型

為了充分地驗(yàn)證所提算法模型的效果，該節(jié)將所提出的模型與其他8 種基準(zhǔn)模型進(jìn)行了實(shí)驗(yàn)對比，即SVM[12]、RNTN[13]、RAE[14]、MV-RNN[15]、CNNmultichannel[16]、CNN-non-static[16]、LSTM與Bi-LSTM。為了確保公平合理，所有的對比模型都是基于同一訓(xùn)練集從零開始訓(xùn)練的。

4.4 實(shí)驗(yàn)結(jié)果

表2 中提供了上述各個對比模型在MR 與SST-2數(shù)據(jù)集中的測試結(jié)果。對比表2 中的各個模型的準(zhǔn)確率可以發(fā)現(xiàn)，采用深度學(xué)習(xí)的分類模型的性能遠(yuǎn)勝于常規(guī)的采用機(jī)器學(xué)習(xí)方法（即SVM）的分類模型。實(shí)驗(yàn)對比結(jié)果表明，該文所提出的模型在兩個數(shù)據(jù)集上的性能是最優(yōu)的。具體而言，原始的LSTM 模型在兩個數(shù)據(jù)集上的性能明顯低于CNN 模型的性能，而使用了Bi-LSTM 模型之后性能稍微有所提升，因?yàn)锽i-LSTM 同時考慮了前后兩個方向的上下文信息，但其整體性能依舊低于CNN 模型的。然而，所提出的Bi-LSTM-Attention 模型結(jié)合了自注意力機(jī)制之后，其性能一舉超越了CNN 模型，這充分表明結(jié)合了自注意力機(jī)制的Bi-LSTM 模型能夠更好地探索語義特征間的內(nèi)部依賴關(guān)系，并自適應(yīng)地提升句子中的情感詞的語義特征的權(quán)重，從而提升情感分類的性能。

表2 在MR和SST-2數(shù)據(jù)集上的準(zhǔn)確率

5 結(jié)論

針對英文文本的情感分類任務(wù)，該文主要提出了一種Bi-LSTM-Attention 分類模型。實(shí)驗(yàn)結(jié)果表明，該文提出的Bi-LSTM-Attention 模型在MR 和SST-2數(shù)據(jù)集上的性能顯著勝于其他對比模型，能夠利用注意力機(jī)制提升評論文本中的重要情感詞語的權(quán)重，從而提升情感分類的性能。此外，該文提出的模型同時利用了前后兩個方向的LSTM 來捕獲雙向的上下文信息，大大提升了模型的特征捕獲與表達(dá)能力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡