朱亞輝
(長沙師范學(xué)院外國語學(xué)院,湖南長沙 410100)
情感分類是自然語言處理中的一種底層技術(shù),對于問答系統(tǒng)、推薦系統(tǒng)等任務(wù)都有較大的幫助[1]。當(dāng)前,隨著社交媒體的廣泛普及,網(wǎng)絡(luò)上的很多關(guān)于商品、服務(wù)的評論留言對改善商家服務(wù)以及了解人們的情感傾向很有幫助[2]。而情感分類任務(wù)就是能夠根據(jù)評論文本中的情感色彩傾向性進(jìn)行分類,得到積極和消極情感兩個類別[3]。該文將重點(diǎn)討論句子級別的情感分類任務(wù),即對給定的語句進(jìn)行情感二分類。
最近十幾年里,基于深度學(xué)習(xí)的理論在圖像和文本處理領(lǐng)域均取得了飛躍式的成果與發(fā)展[4-5],情感分類任務(wù)自然也引入了基于深度學(xué)習(xí)的方法[6-8]。當(dāng)前,盡管情感分類領(lǐng)域中有不少的研究工作都已達(dá)到了良好的成效,但一方面情感模型無法有效地捕捉兩個方向的句子上下文依賴[9],另一方面又無法對情感特征內(nèi)部的相互依賴性進(jìn)行建模。
為了解決上述問題,該文同時采用雙向長短期記憶(Bidirectional Long Short-term Memory)網(wǎng)絡(luò)Bi-LSTM 與自注意力機(jī)制,提出了一種采用Bi-LSTM 與Attention 的英文文本情感分類算法模型。
圖1為一個基本的LSTM的結(jié)構(gòu)圖。
圖1 標(biāo)準(zhǔn)的LSTM結(jié)構(gòu)
LSTM 網(wǎng)絡(luò)[10]是基于門控機(jī)制構(gòu)建而成的,每個LSTM 單元中主要包含了輸入門i、遺忘門f和輸出門o。首先,遺忘門根據(jù)當(dāng)前輸入與上一個隱藏狀態(tài)ht-1來選擇遺忘上一個狀態(tài)ht-1中的哪些信息。其次,輸入門對單元的狀態(tài)進(jìn)行更新,決定了輸入xt和上一個隱藏狀態(tài)ht-1的信息通過量。最后,輸出門控制從當(dāng)前單元狀態(tài)到隱藏狀態(tài)的信息流。在第t個時間步單個LSTM 單元狀態(tài)的運(yùn)算流程如下:
其中,xt∈Rn是輸入向量,而W∈Rm·n是各個門的參數(shù),b∈Rm是偏置向量;上標(biāo)n與m分別是輸入向量的維度與數(shù)據(jù)集中單詞的總數(shù);而[·]表示拼接操作。
Bi-LSTM 網(wǎng)絡(luò)[11]同時考慮了從前往后和從后往前兩個方向的上下文信息,這樣就可以獲取到單個句子中相鄰詞語間的依賴關(guān)系。如圖2 所示是一個標(biāo)準(zhǔn)的Bi-LSTM 的基本結(jié)構(gòu)。給定輸入xt和上一個時間步的隱藏狀態(tài)ht-1,前向和后向的LSTM 的隱藏狀態(tài)的計算公式如下:
圖2 標(biāo)準(zhǔn)的Bi-LSTM結(jié)構(gòu)
最終,Bi-LSTM 的輸出是拼接前后兩個方向的隱藏狀態(tài)得出的,即。
如圖3 所示為該文所提模型的整體網(wǎng)絡(luò)架構(gòu)圖。該模型主要包含了以下幾個必不可少的組成部分,分別是輸入句子序列層、詞嵌入層、Bi-LSTM 層、自注意力層和一個Softmax 分類器。
圖3 Bi-LSTM-Attention模型的整體架構(gòu)圖
輸入的第i句子si可以表示為:
其中,xik是句子序列中的第k個單詞,n是句子序列的最大長度。
詞嵌入層主要用于將輸入句子序列中的單詞表示為一個個維度為n的實(shí)值向量。該文使用了300維的GloVe 向量作為詞嵌入預(yù)訓(xùn)練模型。
Bi-LSTM 利用前后兩個方向的上下文特征信息,有效解決了上下文信息的提取和利用問題。Bi-LSTM 層的輸出為:
在情感分類任務(wù)中,自注意力機(jī)制可以實(shí)現(xiàn)對當(dāng)前輸入進(jìn)行權(quán)重調(diào)整,突出了對分類結(jié)果有重大影響的詞語的作用,而非同等對待所有的上下文信息。給定Bi-LSTM 層的隱層輸出h,注意力權(quán)重的計算過程如下:
其中,K∈,α∈RT,r∈Rd,Wh∈Rd×d,Wa∈以及w∈都是參數(shù)矩陣。α是注意力權(quán)重矩陣,而r是輸入句子的權(quán)重表示。ha?ek表示向量h重復(fù)地拼接了k次,而ek是大小為k的列向量。
最終,用于分類的句子表示為:
該文通過Softmax 層來計算條件概率分布,即預(yù)測輸入句子對應(yīng)的標(biāo)簽。條件概率的計算公式為:
其中,Wsm和bsm分別是Softmax 層的權(quán)重參數(shù)與偏置參數(shù)。
該文在訓(xùn)練的過程中主要使用交叉熵?fù)p失函數(shù):
其中,i和j分別是句子的索引與類別索引,yi是預(yù)測的標(biāo)簽。λ是L2正則化項(xiàng),θ代表模型的可優(yōu)化參數(shù)集合,即{Wf,bf,Wi,bi,Wc,bc,Wo,bo,Wsm,bsm}。同樣地,詞嵌入向量也是模型的參數(shù)。
在訓(xùn)練模型之前,該文通過GloVe 詞向量來建立所有的詞向量,模型中的詞向量及其隱藏層向量均為300 維,Bi-LSTM 層的節(jié)點(diǎn)數(shù)為16 個。注意力權(quán)重的長度與句子的最大寬度是相同的,設(shè)為25。批次大小設(shè)置為32,學(xué)習(xí)率初始值設(shè)置為0.001,衰減因子為0.01,選擇Adam 作為優(yōu)化器,L2正則化項(xiàng)λ=0.1。為了防止模型過擬合,該文使用了隨機(jī)失活的方法隨機(jī)丟棄掉Bi-LSTM 層中的一些網(wǎng)絡(luò)單元,隨機(jī)失活率設(shè)為0.3,訓(xùn)練總輪數(shù)為50。
該文主要使用兩個常用的公開數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn),分別是MR 數(shù)據(jù)集和SST-2 數(shù)據(jù)集。表1 中給出了各個數(shù)據(jù)集的詳細(xì)統(tǒng)計信息。
表1 數(shù)據(jù)集的詳細(xì)信息
該文主要采用準(zhǔn)確率(Accuracy)作為指標(biāo)來評估所提出的模型的性能和有效性。上述指標(biāo)的計算公式如下:
其中,TP為被準(zhǔn)確地區(qū)分為正例的總數(shù),F(xiàn)P為被誤分為正例的總數(shù),F(xiàn)N為被誤分為負(fù)例的總數(shù),TN是被準(zhǔn)確地區(qū)分為負(fù)例的總數(shù)。
為了充分地驗(yàn)證所提算法模型的效果,該節(jié)將所提出的模型與其他8 種基準(zhǔn)模型進(jìn)行了實(shí)驗(yàn)對比,即SVM[12]、RNTN[13]、RAE[14]、MV-RNN[15]、CNNmultichannel[16]、CNN-non-static[16]、LSTM與Bi-LSTM。為了確保公平合理,所有的對比模型都是基于同一訓(xùn)練集從零開始訓(xùn)練的。
表2 中提供了上述各個對比模型在MR 與SST-2數(shù)據(jù)集中的測試結(jié)果。對比表2 中的各個模型的準(zhǔn)確率可以發(fā)現(xiàn),采用深度學(xué)習(xí)的分類模型的性能遠(yuǎn)勝于常規(guī)的采用機(jī)器學(xué)習(xí)方法(即SVM)的分類模型。實(shí)驗(yàn)對比結(jié)果表明,該文所提出的模型在兩個數(shù)據(jù)集上的性能是最優(yōu)的。具體而言,原始的LSTM 模型在兩個數(shù)據(jù)集上的性能明顯低于CNN 模型的性能,而使用了Bi-LSTM 模型之后性能稍微有所提升,因?yàn)锽i-LSTM 同時考慮了前后兩個方向的上下文信息,但其整體性能依舊低于CNN 模型的。然而,所提出的Bi-LSTM-Attention 模型結(jié)合了自注意力機(jī)制之后,其性能一舉超越了CNN 模型,這充分表明結(jié)合了自注意力機(jī)制的Bi-LSTM 模型能夠更好地探索語義特征間的內(nèi)部依賴關(guān)系,并自適應(yīng)地提升句子中的情感詞的語義特征的權(quán)重,從而提升情感分類的性能。
表2 在MR和SST-2數(shù)據(jù)集上的準(zhǔn)確率
針對英文文本的情感分類任務(wù),該文主要提出了一種Bi-LSTM-Attention 分類模型。實(shí)驗(yàn)結(jié)果表明,該文提出的Bi-LSTM-Attention 模型在MR 和SST-2數(shù)據(jù)集上的性能顯著勝于其他對比模型,能夠利用注意力機(jī)制提升評論文本中的重要情感詞語的權(quán)重,從而提升情感分類的性能。此外,該文提出的模型同時利用了前后兩個方向的LSTM 來捕獲雙向的上下文信息,大大提升了模型的特征捕獲與表達(dá)能力。