国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

BiGRU結合注意力機制的文本分類研究

2021-08-23 07:19黃忠祥李明
北京聯(lián)合大學學報 2021年3期
關鍵詞:注意力機制

黃忠祥 李明

[摘 要] ?隨著信息時代的發(fā)展,文本包含的信息量越來越多,而同一段文本可以隸屬于不同的類別,為了提升多標簽文本分類任務的準確率,提出了一種基于ALBERT預訓練、雙向GRU并結合注意力機制的改進的多標簽文本分類模型——BiGRU-Att模型。在百度發(fā)布的中文事件抽取數(shù)據(jù)集上進行實驗,該模型的識別準確率達到了99.68%,相對比較組的BiLSTM-Att、LSTM-Att、BiGRU、BiLSTM、LSTM等模型的測試結果,準確率更高,性能更優(yōu)。實驗結果表明,改進的BiGRU-Att模型能有效提升多標簽文本分類任務的準確率。

[關鍵詞] 多標簽;預訓練;雙向門控循環(huán)單元(BiGRU);注意力機制

[中圖分類號] TP 391.1 ?[文獻標志碼] A ?[文章編號] 1005-0310(2021)03-0047-06

Abstract: ?With the development of information age, the amount of information contained in texts is increasing. It is often the case that the same text can belong to different categories. In order to improve the accuracy of multi-label text classification, BiGRU-Att model, an improved multi-label text classification model,is proposed based on ALBERT pre-training, BiGRU combined with attention mechanism. Experiments on Chinese event extraction data set published by Baidu show that the recognition accuracy of the model reaches 99.68%. Compared with the test results of?BiLSTM-Att, LSTM-Att, BiGRU, BiLSTM, LSTM and other models of the comparison group, the model has higher accuracy and better performance. Experimental results show that the improved BiGRU-Att model can effectively improve the accuracy of multi-label text classification.

Keywords: Multi-label;Pre-training;Bi-direction Gate Recurrent Unit (BiGRU);Attention mechanism

0 引言

文本分類是自然語言處理中比較經(jīng)典的任務,以往的文本分類任務通常屬于較為簡單的單標簽文本分類任務,并且各標簽之間是獨立的。隨著互聯(lián)網(wǎng)的發(fā)展,文本的分類精細化要求越來越高,一段文本常常可以對應多個標簽,例如,對于同一篇文章,其所屬類別可以同時是軍事類和科技類。對于多標簽分類問題,還沒有很成熟的處理方案,這就對多標簽文本分類技術提出了更高的要求。

文本分類方法一般分為兩類:傳統(tǒng)的機器學習的方法和基于深度學習的分類方法。由于深度學習技術的發(fā)展較為迅猛,所以,目前大多數(shù)研究采用基于深度學習的模型去處理多標簽文本分類任務。例如,Kim[1]首先提出的TextCNN模型,首次將常用于圖像處理領域的CNN結構引入到文本分類任務中,開辟了這一領域新的篇章;Lai等[2]在TextCNN基礎上提出了TextRCNN模型,以改進TextCNN不能處理長序列文本的缺點;Liu等[3]提出了TextRNN模型,改進了當時網(wǎng)絡只針對單一任務訓練的缺點;Zhang等[4]提出了BP-MLL模型,以處理多標簽文本分類任務。

為了改進現(xiàn)有研究,有效提高模型處理文本分類任務的準確性,本文開展了下述研究:首先,針對多標簽文本分類中使用Word2Vec[5]等靜態(tài)編碼的方法,存在因為忽略了特征所在的上下文依賴關系,導致最后識別準確率不高的缺陷,本文采用ALBERT[6-8]預訓練模型進行文本內容的動態(tài)編碼,使得文本特征向量能保留更多的細節(jié)信息,同時,預先訓練好的詞向量包含的先驗信息對于小數(shù)據(jù)集很有幫助;其次,對于使用單向LSTM模型[9]無法較好地獲取語義信息的缺陷,本文采用了雙向GRU網(wǎng)絡[10-13];最后,為了增強分類效果,模型在通過softmax分類前,加入了注意力機制[14-16],形成本文基于ALBERT預訓練的BiGRU-Att多標簽文本分類模型。

1 相關技術

1.1 ALBERT預訓練模型

ALBERT層對文本處理的基本流程為:首先輸入文本,變成序列文本E1,E2,…,EN,然后將序列文本輸入到多層雙向Transformer中進行訓練;最終得到輸入文本的特征向量表示T1,T2,…,TN。其中,Transformer編碼器是一個包含了Encoder-Decoder結構的編碼器,同時使用了多頭自注意力層以便處理更長的序列信息,而ALBERT模型只保留了Encoder的部分。Encoder又包含多個相同網(wǎng)絡層的疊加,Encoder的每一層網(wǎng)絡包含著兩個次級網(wǎng)絡層:一層是多頭自注意力機制層,另一層是前饋網(wǎng)絡層,兩層之間的特征傳輸使用了殘差連接,而兩層內部各自有著相同的處理數(shù)據(jù)輸入輸出的求和及歸一化(Add&Norm)模塊。ALBERT模型結構如圖1所示。

相對于BERT預訓練網(wǎng)絡,ALBERT模型的網(wǎng)絡參數(shù)較少,訓練所需要的資源也少了很多,訓練的時間大大縮短,主要因為ALBERT做出了兩點比較獨特的改進:一是ALBERT模型通過進行嵌入層參數(shù)因式分解和跨層參數(shù)共享等兩個方面的改進,參數(shù)的數(shù)目得以大量減少,從而使得模型進行語義理解的速度得到了顯著的提升。二是針對BERT模型中的NSP任務存在的弊端[17-18],ALBERT模型提出了使用SOP任務取代NSP任務,使得多句子輸入的下游任務效果得到提升[6]。

序列文本經(jīng)過ALBERT層處理后,得到對應的特征向量表示后,還要輸入到下級的BiGRU神經(jīng)網(wǎng)絡層進行進一步的處理。

1.2 雙向GRU

在需要關注詞語上下文關系的時候,通常使用LSTM進行特征向量的處理,使得語料特征能根據(jù)所在特定語境產(chǎn)生動態(tài)的變化。LSTM模型包含了3個門控模塊的計算,分別為輸入門、輸出門和遺忘門。GRU和LSTM模型同屬于對RNN的改進,但是GRU在LSTM的基礎上,進行了模型的簡化,設計為只包含重置門和更新門兩個門控單元的結構。重置門主要決定對于上一個狀態(tài)信息的丟棄比例,重置門值越小,表示丟棄越多;更新門主要決定要將多少過去的特征傳遞到目前狀態(tài),更新門值越大,表示傳遞越多。如果將重置門設定為1,更新門設置為0,則GRU模型就退化為傳統(tǒng)的RNN模型。重置門與更新門的結構設計使得GRU[19-20]相對于LSTM的參數(shù)更少而且收斂速度更快,并同樣有效地解決了模型訓練過程中梯度爆炸和梯度消失的問題。GRU細胞結構如圖2所示,其中rt代表重置門,zt代表更新門,ht-1和ht分別表示前一時刻隱藏層狀態(tài)和當前時刻隱藏層狀態(tài)。

在使用單向的GRU時,狀態(tài)的傳輸只是簡單的從前向后單向傳播,使得重要信息容易丟失,可能出現(xiàn)最能包含整句話信息的特征向量得不到充分使用的問題。在這種情況下,可以考慮使用雙向的GRU結構,雙向的GRU結構讓網(wǎng)絡不僅能從前向傳播中獲得信息,更能反向地利用信息,使得更多重要特征得到充分使用,網(wǎng)絡提取到的特征也更為豐富[21]。

1.3 注意力機制

注意力機制(Attention Mechanism,ATT)如圖3所示,注意力機制本質上還是一個編碼器到解碼器的結構,表現(xiàn)為序列到序列的處理方式,模仿了人腦在處理大量信息時,忽略不必要細節(jié)、只聚焦于處理關鍵細節(jié)的人腦思維方式。這種方式可以有效避免由于GRU網(wǎng)絡輸出層直接連接全連接層造成的特征信息浪費,使得模型對于重要局部信息的捕捉能力得到提升,從而提高模型判斷的準確率。具體計算過程大概可以分為3個階段:首先是在詞嵌入特征向量經(jīng)過BiGRU處理后,根據(jù)Query和對應的Key值計算兩者的相關性,其中E為能量函數(shù),負責計算當前Query與序列特征的相關度;然后使用softmax函數(shù)進行數(shù)字轉換,實現(xiàn)數(shù)值歸一化,同時softmax函數(shù)的內在機制使得更重要的特征得到凸顯,即對應的權重值也更高;最后,根據(jù)權重系數(shù)對value進行加權求和,得到注意力數(shù)值Score。

2 模型建立

基于ALBERT預訓練的BiGRU-Att模型的工作流程如圖4所示。

1)ALBERT預訓練層:文本數(shù)據(jù)經(jīng)過預處理后,輸入到ALBERT層進行文本數(shù)據(jù)的向量化。ALBERT層可以很好地捕捉到詞語所在位置與前后詞語之間的聯(lián)系,會根據(jù)同一個詞在不同的語境體現(xiàn)出不同含義的情況,生成對應的動態(tài)詞向量。為了減少計算資源的消耗,這一層使用了tiny版本的ALBERT預訓練模型進行文本內容的向量化。

2)雙向GRU層:將經(jīng)過ALBERT層向量化所獲得的動態(tài)詞向量,分別輸入到前向傳遞GRU層和后向傳遞GRU層中,且由GRU層中的更新門控制保留前一時刻特征信息的比例,由GRU層的重置門決定忽略前一時刻特征信息的比例,對輸入的文本特征進行訓練。其中,每一個前向傳遞GRU層和對應的后向傳遞GRU層組成一個BiGRU單元,網(wǎng)絡中包含多個BiGRU單元,BiGRU單元的更新公式如式(1)所示:

ht=WFthFt+WBthBt+bt。(1)

其中,WFt表示前向(Forward)傳遞時的權重矩陣,WBt表示反向(Backward)傳遞時的權重矩陣,bt為偏置量,通過前后傳遞的GRU對特征信息進行疊加,使得最重要的特征得到了最大限度的保留。

3)注意力機制和歸一化層:將經(jīng)過雙向GRU訓練后得出的特征向量作為Attention層的輸入,對特征向量進行加權操作后,再將從Attention層獲取的語義向量輸入到Dense層,最終實現(xiàn)多標簽文本分類。

4)驗證:輸入待預測的語句,通過模型判斷出事件的類別標簽。

3 實驗結果與分析

選取谷歌的Colab平臺進行實驗,使用Python 3.6進行編程,深度學習框架版本為Tensorflow 1.15.0。實驗使用的數(shù)據(jù)集為百度發(fā)布的中文事件抽取數(shù)據(jù)集,包含65個事件類型的具有事件信息的句子,每個句子對應一個或者多個事件類型。從中抽取13 456條新聞數(shù)據(jù),且將句子順序打亂,重新進行隨機混合編排分布,按照8∶2的比例劃分,使用10 764個樣本作為訓練集、2 692個樣本作為測試集進行實驗。

設置BiGRU-Att、BiLSTM-Att、LSTM-Att、BiGRU、BiLSTM、LSTM等共6個模型,模型中均使用tiny版本的ALBERT預訓練模型進行編碼,除BiGRU-Att外,其他5個模型作為對照組進行實驗,迭代訓練20次。其中,tiny版本的ALBERT模型的參數(shù)為:隱藏層尺寸為768,隱藏層層數(shù)為12,注意力頭數(shù)為12個,使用ReLU激活函數(shù)的變種——GELU作為模型激活函數(shù);BiGRU的參數(shù)為:隱藏層尺寸為128,網(wǎng)絡層數(shù)為1,使用ReLU激活函數(shù),將Dropout系數(shù)設置為0.2;輸出層的激活函數(shù)為softmax,將多分類交叉熵作為損失函數(shù)。

從表1中的數(shù)據(jù)可以看出,所有模型在迭代20次以后,無論是否加入注意力機制,基于BiGRU的模型性能都優(yōu)于基于BiLSTM和單向LSTM的模型;當模型都被加入注意力機制時,相較于無注意力機制的網(wǎng)絡,性能均會得到相應的提升。另外,當LSTM網(wǎng)絡加入注意力機制形成LSTM-Att模型時,會和無注意力機制的BiGRU模型有著相似的性能,兩者在訓練集和測試集上的準確度都十分接近。

由表1中的數(shù)據(jù)可以對比發(fā)現(xiàn),基于BiGRU-Att的模型取得了最好的效果,在訓練集的準確率達到了99.68%,損失值為0.0111,相對于無注意力機制的LSTM和加入注意力機制的BiLSTM-Att模型,準確率分別提升了4.37%和1.56%;其在測試集的準確率達到了99.64%,損失值為0.0117,相對于無注意力機制的LSTM和加入注意力機制的BiLSTM-Att模型,準確率分別提升了4.34%和1.37%。雙向GRU網(wǎng)絡的使用和注意力機制的加入,使得BiGRU-Att模型在訓練集和測試集的表現(xiàn)均優(yōu)于其他對比模型,證明雙向GRU網(wǎng)絡能夠規(guī)避梯度爆炸和梯度消失的問題,同時還能在網(wǎng)絡前向和后向傳播中使重要的特征信息更好地保留下來,注意力機制也使得分類過程中重要特征信息的權重得到了提升,從而提高了分類的準確性。

使用訓練好的模型進行文本分類驗證,從表2可以看出,模型對于單標簽或者多標簽的文本內容均能正確識別其類別。

4 結束語

目前,我們處于互聯(lián)網(wǎng)技術不斷發(fā)展的時代,各種平臺里的文本信息數(shù)據(jù)量十分巨大,在存儲這些信息之前,給信息分門別類地打上標簽是十分必要的。本文提出一種基于ALBERT獲取文本對應的動態(tài)詞向量,且結合雙向GRU網(wǎng)絡加入注意力機制的BiGRU-Att模型。相對于以往的模型,該模型使用了預訓練ALBERT模型進行詞向量的獲取,在數(shù)據(jù)集較小的情況下使得詞向量表達的語義特征更強;雙向GRU網(wǎng)絡使信息在模型中進行了前向和后向傳播,能夠保留聚焦詞附近上下文之間的語義特征關聯(lián);注意力機制把不重要的語義信息進行了隔離,將注意力放在最重要的特征上,提升了分類效果。實驗表明,結合雙向GRU網(wǎng)絡和注意力機制的模型表現(xiàn)最優(yōu),其性能與對比模型相比有著明顯的提升,最后通過輸入待預測語句驗證實驗結果,說明模型能較好地完成多標簽文本分類任務。

[參考文獻]

[1] KIM Y. Convolutional neural networks for sentence classification [Z/OL]. (2014-09-03) [2021-05-13]. https://arxiv.org/pdf/1408.5882v2.pdf.

[2] LAI S W, XU L H, LIU K, et al. Recurrent convolutional neural networks for text classification[Z/OL]. (2015-02-19) [2021-05-13]. https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745/9552.

[3] LIU P, QIU X, HUANG X. Recurrent neural network for text classification with multi-task learning[C]//Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York: IJCAI Inc, 2016: 2873-2879.

[4] ZHANG M L, ZHOU Z H. Multilabel neural networks with applications to functional genomics and text categorization[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.

[5] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [Z/OL]. (2013-09-07) [2021-05-13]. https://arxiv.org/pdf/1301.3781.

[6] LAN Z Z, CHEN M D, GOODMAN S, et al. ALBERT: a lite BERT for self-supervised learning of language representations[Z/OL]. (2020-02-09) [2021-05-13]. https://arxiv.org/pdf/1909.11942v6.

[7] CHOI H, KIM J, JOE S, et al. Evaluation of BERT and ALBERT sentence embedding performance on downstream NLP tasks[C]//2020 25th International Conference on Pattern Recognition (ICPR). Milan: IEEE Computer Society, 2021: 5482-5487.

[8] 余同瑞,金冉,韓曉臻,等.自然語言處理預訓練模型的研究綜述[J].計算機工程與應用,2020,56(23):12-22.

[9] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[10] CHALKIDIS I, FERGADIOTIS M, MALAKASIOTIS P, et al. Extreme multi-label legal text classification: a case study in EU legislation[C]//Proceedings of the 17th Natural Legal Language Processing Workshop 2019. Minnesota: NAACL HLT, 2019: 78-87.

[11] CHALKIDIS I, FERGADIOTIS M, MALAKASIOTIS P, et al. Large-scale multi-label text classification on EU legislation[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 6314-6322.

[12] 劉心惠,陳文實,周愛,等.基于聯(lián)合模型的多標簽文本分類研究[J].計算機工程與應用,2020,56(14):111-117.

[13] 溫超東,曾誠,任俊偉,等.結合ALBERT和雙向門控循環(huán)單元的專利文本分類[J].計算機應用,2021,41(2):407-412.

[14] KITADA S, IYATOMI H. Attention meets perturbations: robust and interpretable attention with adversarial training [Z/OL]. (2020-09-25) [2021-05-13].https://arxiv.org/pdf/2009.12064v1.

[15] KITADA S, IYATOMI H. Making attention mechanisms more robust and interpretable with virtual adversarial training for semi-supervised text classification [Z/OL]. (2021-04-18) [2021-05-13]. https://arxiv.org/pdf/2104.08763v1.

[16] LU H, MAO Y, NAYAK A. On the dynamics of training attention models[Z/OL]. (2021-03-19) [2021-05-13]. https://arxiv.org/pdf/2011.10036v2.

[17] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[Z/OL]. (2019-07-26) [2021-05-13]. https://arxiv.org/pdf/1907.11692.

[18] JOSHI M, CHEN D, LIU Y, et al. Spanbert: improving pre-training by representing and predicting spans[J]. Transactions of the Association for Computational Linguistics, 2020(8): 64-77.

[19] DEY R, SALEM F M. Gate-variants of gated recurrent unit (GRU) neural networks[C]//2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS). Massachusetts: IEEE, 2017: 1597-1600.

[20] 方炯焜,陳平華,廖文雄.結合GloVe和GRU的文本分類模型[J].計算機工程與應用,2020,56(20):98-103.

[21] DENG J F, CHENG L L, WANG Z W. Self-attention-based BiGRU and capsule network for named entity recognition[Z/OL]. (2020-01-30) [2021-05-13]. https://arxiv.org/pdf/2002.00735v1.pdf.

(責任編輯 白麗媛)

猜你喜歡
注意力機制
基于注意力機制的行人軌跡預測生成模型
基于注意力機制和BGRU網(wǎng)絡的文本情感分析方法研究
多特征融合的中文實體關系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度學習的手分割算法研究
從餐館評論中提取方面術語
面向短文本的網(wǎng)絡輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經(jīng)網(wǎng)絡的文本特征提取方法
顺昌县| 民丰县| 翼城县| 云霄县| 安泽县| 怀化市| 龙井市| 温泉县| 安远县| 丹寨县| 政和县| 门头沟区| 眉山市| 台北市| 敖汉旗| 河东区| 逊克县| 黑河市| 和林格尔县| 南川市| 兴仁县| 邹城市| 安泽县| 工布江达县| 桃园市| 盐源县| 临澧县| 浮山县| 遵义市| 栖霞市| 岗巴县| 时尚| 全椒县| 雅江县| 哈密市| 舟山市| 修文县| 阿瓦提县| 玉屏| 共和县| 广河县|