基于BiGRU和注意力交互模型的方面級情感分析

2021-12-10 06:00汪平凡

傳感器世界 2021年10期

汪平凡

北京星網(wǎng)船電科技有限公司，北京 102308

0 前言

互聯(lián)網(wǎng)技術(shù)的發(fā)展拓寬了信息交互的渠道，人們習(xí)慣在網(wǎng)絡(luò)平臺(tái)發(fā)表觀點(diǎn)，表達(dá)個(gè)人情感。提取并分析帶有個(gè)人情感色彩的文本信息可以幫助我們認(rèn)識(shí)事物的多面性，具有一定的應(yīng)用價(jià)值[1]。如何將非結(jié)構(gòu)文本轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化信息，以及如何有效識(shí)別文本中特定方面的情感傾向成為研究的熱點(diǎn)。

傳統(tǒng)的粗粒度級情感分析只關(guān)注文本整體情感傾向，無法深入挖掘句子中潛在的語義信息[2]。方面級情感分析旨在識(shí)別句子中某個(gè)特定實(shí)體或?qū)傩缘那楦袃A向（如積極、消極、中性）。例如，給定一句話“餐廳的食物非常美味，但周圍的環(huán)境很糟糕”，那么“食物”和“環(huán)境”這兩個(gè)方面詞的情感極性分別是積極和消極，因此，情感極性的判別不僅由句子的內(nèi)容決定，而且與文本中特定方面詞密切相關(guān)。如果我們忽略了方面詞對整個(gè)句子的影響，就無法準(zhǔn)確地分析出文本所表達(dá)的情感傾向[3]。

神經(jīng)網(wǎng)絡(luò)因其獨(dú)特的優(yōu)勢而被研究者們應(yīng)用在情感分析領(lǐng)域。TANG D等人[4]提出TD-LSTM模型，該模型使用兩個(gè)LSTM網(wǎng)絡(luò)分別對上下文和方面詞建模，將得到的隱藏向量拼接起來輸入到softmax層進(jìn)行情感分類。GRAVES A等人[5]使用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分析，該方法從正反兩個(gè)方向?qū)W習(xí)詞語的時(shí)序關(guān)系。TAI KS等人[6]考慮了句子語義信息，在LSTM網(wǎng)絡(luò)基礎(chǔ)上引入外部依存樹來提高情感分析的準(zhǔn)確度。

由于句子中每個(gè)詞對情感分類的貢獻(xiàn)不同，注意力機(jī)制被應(yīng)用到深度學(xué)習(xí)模型中為詞語分配不同的權(quán)重分?jǐn)?shù)。WANG X等人[7]結(jié)合LSTM網(wǎng)絡(luò)和注意力機(jī)制分析文本中特定方面的情感傾向，模型在訓(xùn)練過程中關(guān)注特定方面信息，避免對文本做相同處理。余本功等人[8]使用雙重注意力機(jī)制分析文本信息，利用綜合權(quán)重強(qiáng)化特定方面詞和上下文之間的相關(guān)特征。MA D等人[9]提出交互注意力模型（IAN），利用注意力機(jī)制交互學(xué)習(xí)方面詞和上下文之間的關(guān)聯(lián)信息，取得了較好的情感分類效果。曾鐸等人[10]提出多頭注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型，使得模型充分學(xué)習(xí)方面詞和上下文之間的特征關(guān)系。

本文將GRU網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合，提出了基于BiGRU的注意力交互模型。該模型分別對句子和方面詞建模，考慮方面詞對句子整體情感極性的影響。首先，利用Bert預(yù)訓(xùn)練模型表示句子和方面詞的特征向量，然后，GRU網(wǎng)絡(luò)提取詞向量信息，得到隱藏層向量表示，注意力機(jī)制交互學(xué)習(xí)句子和方面詞之間的關(guān)聯(lián)，區(qū)分句子中不同詞語對情感分類結(jié)果的影響。

1 相關(guān)模型和技術(shù)

1.1 Bert模型

Bert模型是DEVLIN J等人[11]提出的一種預(yù)訓(xùn)練模型，該模型在Transformer的基礎(chǔ)上進(jìn)行改進(jìn)。與word2Vec、Glove等語言表征模型不同，Bert模型旨在通過調(diào)節(jié)所有層中的信息來預(yù)先訓(xùn)練詞向量，去除詞語之間較長距離的限制，將目標(biāo)詞與上下文之間的內(nèi)在關(guān)聯(lián)顯式地表現(xiàn)出來，可以解決模型無法并行處理和信息長期依賴的問題。Bert網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

1.2 門控循環(huán)單元

門控循環(huán)單元（Gate Recurrent Unit，GRU）是循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）中的一種門控機(jī)制，其旨在解決循環(huán)神經(jīng)網(wǎng)絡(luò)中出現(xiàn)的梯度衰減或爆炸問題，并同時(shí)捕捉時(shí)間序列中長距離間的依賴關(guān)系。GRU網(wǎng)絡(luò)是在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來，僅存在更新門和重置門，GRU網(wǎng)絡(luò)通過門結(jié)構(gòu)來控制信息的流動(dòng)。與LSTM網(wǎng)絡(luò)相比，GRU網(wǎng)絡(luò)結(jié)構(gòu)相對簡單，更容易進(jìn)行訓(xùn)練，能夠在很大程度上提高模型的訓(xùn)練速度。

1.3 注意力機(jī)制

BAHDANAU D等[12]首次將注意力機(jī)制引入到自然語言處理任務(wù)中，用以解決源序列與目標(biāo)序列因距離過長而無法建立依賴關(guān)系的問題。注意力機(jī)制可以自動(dòng)學(xué)習(xí)并計(jì)算輸入數(shù)據(jù)對輸出數(shù)據(jù)的貢獻(xiàn)大小，從而為詞語分配相應(yīng)的權(quán)重分?jǐn)?shù)，引入注意力機(jī)制可以更好地學(xué)習(xí)詞之間的依賴關(guān)系，增強(qiáng)對重要詞匯的關(guān)注。

2 基于BiGRU的注意力交互模型

在方面級情感分析問題中，首先給定一個(gè)句子s=[w1,w2,…,wi,…,wj,…,wn]和方面詞t=[wi,wi+1,…,wi+m]，方面詞可以是單詞或短語，目的是判斷方面詞在句子中的情感極性。本文提出的模型如圖2所示，主要包括詞嵌入層、雙向GRU層、注意力交互層和輸出層。

2.1 詞嵌入層

詞嵌入層包括方面詞向量和句子向量嵌入，給定句子s=[w1,w2,…,wi,…,wj,…,wn]，n表示句子的長度，方面詞t=[wi,wi+1,…,wi+m]，m表示方面詞的長度。使用Bert預(yù)訓(xùn)練模型將每個(gè)單詞映射為連續(xù)的詞向量表示，Bert模型通過調(diào)節(jié)所有層的信息來預(yù)訓(xùn)練詞向量，能夠根據(jù)上下文信息調(diào)整詞向量表示，從而有效解決詞語的多義性問題。

本文使用規(guī)模較小的BERTBase訓(xùn)練詞向量，其相關(guān)的參數(shù)設(shè)置如表1所示。

表1 BERTBase參數(shù)

2.2 雙向GRU網(wǎng)絡(luò)層

將文本詞向量輸入到雙向GRU網(wǎng)絡(luò)中，GRU網(wǎng)絡(luò)提取方面詞和上下文信息得到隱藏層向量表示。通過輸入s=[v1;v2;…;vn]和前向GRU網(wǎng)絡(luò)，可以得到隱藏狀態(tài)序列，其中，dh是隱藏狀態(tài)的維數(shù)。通過輸入s=[v1;v2;…;vn]和后向GRU網(wǎng)絡(luò)得到。雙向GRU網(wǎng)絡(luò)中，最終輸出的隱藏向量表示為，其中，，n為句子長度。

2.3 注意力交互層

注意力機(jī)制獲取隱藏層向量的關(guān)鍵信息，為詞語分配不同的權(quán)重分?jǐn)?shù)，交互式學(xué)習(xí)詞向量之間的依賴關(guān)系。給定方面序列表示為，句子序列表示，首先計(jì)算交互注意力權(quán)重矩陣矩陣的值表示句子和方面詞之間的詞對相關(guān)性，分別對交互矩陣的行和列做歸一化處理，得到行和列的權(quán)重值α和β，其中，α表示方面詞對句子的權(quán)重分?jǐn)?shù)，β表示句子對每個(gè)方面詞的權(quán)重分?jǐn)?shù)，對β逐列取平均值得到方面級注意力權(quán)重，用以表示方面詞中的重要部分，最后得出方面詞序列對每個(gè)詞語的權(quán)重分?jǐn)?shù)γ∈Rn，γ值代表著文本詞對方面詞的重要程度，具體計(jì)算公式如式（1）～式（4）所示：

其中，αij——方面詞對全部文本的注意力權(quán)重值；

Iij——方面序列和句子序列的交互注意力權(quán)重矩陣。

其中，βij——文本對方面詞的注意力權(quán)重值。

其中，——方面級注意力權(quán)重；

n——句子長度。

其中，α——方面詞對文本的注意力權(quán)重值；

——方面級注意力權(quán)重的轉(zhuǎn)置。

使用文本對方面詞和方面詞對文本的注意力權(quán)重值乘上句子隱藏向量表示，最終得到方面詞和上下文的交互表示，用于文本的最終分類，具體計(jì)算如公式（5）所示：

其中，——句子向量的轉(zhuǎn)置；

γ——注意力權(quán)重。

2.4 輸出層

將最終的向量表示輸送到softmax層得到文本的

情感極性，P表示真實(shí)的情感分類，表示預(yù)測的情感分類，損失目標(biāo)函數(shù)如公式（6）所示：

其中，i——句子中的索引；

j——3種分類；

λ——L2正則化系數(shù)；

θ——模型中設(shè)置的參數(shù)。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集及參數(shù)設(shè)置

本文在SemEval2014數(shù)據(jù)集（包括Laptop和Restaurant數(shù)據(jù)集）進(jìn)行實(shí)驗(yàn)，該數(shù)據(jù)集已標(biāo)注句子中的方面詞及其Positive、Neural和Negative 3種情感極性。數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示。

表2 數(shù)據(jù)集統(tǒng)計(jì)

將數(shù)據(jù)集分為訓(xùn)練集和測試集進(jìn)行學(xué)習(xí)，所有權(quán)重矩陣隨機(jī)初始化，所有偏置項(xiàng)設(shè)置為0，L2正則化系數(shù)設(shè)置為0.0001，dropout設(shè)置為0.5，使用Bert預(yù)訓(xùn)練模型表示句子和方面詞的特征向量。GRU隱藏狀態(tài)的維度設(shè)置為150，Adam優(yōu)化器初始學(xué)習(xí)率為0.01，批處理大小為64。

3.2 對比模型及實(shí)驗(yàn)結(jié)果

將BiGRU-IAT模型與多個(gè)模型在SemEval數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，驗(yàn)證本文模型的有效性。

TD-LSTM模型[4]：使用兩個(gè)LSTM網(wǎng)絡(luò)學(xué)習(xí)文本信息，將得到的隱藏向量拼接起來，送入softmax層進(jìn)行情感分類。

AT-LSTM模型[7]：使用LSTM網(wǎng)絡(luò)分別對句子和方面詞編碼，注意力機(jī)制捕捉隱藏狀態(tài)與方面詞向量之間的內(nèi)在聯(lián)系。

ATAE-LSTM模型[7]：該模型在AT-LSTM模型的基礎(chǔ)上改進(jìn)，將方面詞嵌入到每個(gè)單詞向量中，充分考慮方面詞對句子整體情感傾向的影響。

IAN模型[9]：利用LSTM網(wǎng)絡(luò)學(xué)習(xí)句子和方面詞信息，注意力機(jī)制交互式學(xué)習(xí)句子和方面詞的注意權(quán)重。

實(shí)驗(yàn)中使用準(zhǔn)確率和F1值作為評價(jià)指標(biāo)，驗(yàn)證模型的有效性，實(shí)驗(yàn)結(jié)果如表3所示。

表3 不同模型實(shí)驗(yàn)結(jié)果對比

從表3中可以看出本文模型取得了較好的分類效果，分類準(zhǔn)確率分別達(dá)到77.45%、83.61%，F(xiàn)1值達(dá)到73.5%、78.28%。TD-LSTM模型的性能較差，主要原因是根據(jù)方面詞的位置信息分割語句，LSTM網(wǎng)絡(luò)無法獲取完整的語義信息，從而影響了模型的情感分類效果。AT-LSTM模型中引入注意力機(jī)制，模型可以充分捕捉句子中方面詞的關(guān)鍵信息。ATAE-LSTM模型在AT-LSTM模型基礎(chǔ)上進(jìn)一步擴(kuò)展，使用LSTM網(wǎng)絡(luò)對方面詞和上下文建模，充分考慮方面詞對句子情感極性的影響，將方面詞作為模型的一部分參與訓(xùn)練，得到文本在給定方面詞上的權(quán)重表示。IAN模型使用交互注意網(wǎng)絡(luò)學(xué)習(xí)方面詞和上下文的內(nèi)在聯(lián)系，進(jìn)一步強(qiáng)調(diào)文本中方面詞的重要性。

本文提出的BiGRU-IAT模型結(jié)合了GRU網(wǎng)絡(luò)和注意力機(jī)制的優(yōu)勢，使用Bert預(yù)訓(xùn)練模型分別對句子和方面詞編碼，充分考慮文本語義相關(guān)性，分析詞語在不同上下文中的語義表達(dá)，從而有效地解決一詞多義的問題。GRU網(wǎng)絡(luò)從正反兩個(gè)方向提取詞向量信息得到隱藏層向量表示，注意力機(jī)制交互式學(xué)習(xí)方面詞和句子之間的關(guān)聯(lián)性，從而得到較好的情感分類效果。

在不同模型中分類準(zhǔn)確率的對比結(jié)果如圖3所示，橫軸表示Laptop和Restaurant數(shù)據(jù)集，縱軸為準(zhǔn)確率（ACC）。

從圖中可以直觀地看出，BiGRU-IAT模型在SemEval2014數(shù)據(jù)集上準(zhǔn)確率最高，實(shí)驗(yàn)結(jié)果充分說明了該模型的有效性。

4 結(jié)論

本文針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型忽略方面詞的問題，提出了基于BiGRU的注意力交互模型，充分考慮方面詞對文本整體情感傾向的影響。模型使用Bert表示句子和方面詞的特征向量，GRU網(wǎng)絡(luò)從正反兩個(gè)方向獲取方面詞和上下文的語義信息，利用注意力機(jī)制交互學(xué)習(xí)句子和方面詞之間的內(nèi)在聯(lián)系。最后，在SemEval2014數(shù)據(jù)集上與多個(gè)模型進(jìn)行對比，實(shí)驗(yàn)結(jié)果驗(yàn)證了BiGRU-IAT模型的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡