国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)BERT詞向量的BiLSTM-Attention文本分類模型*

2023-10-25 01:12:24楊興銳趙壽為張如學(xué)陶葉輝楊興俊
傳感器與微系統(tǒng) 2023年10期
關(guān)鍵詞:集上殘差注意力

楊興銳,趙壽為,張如學(xué),陶葉輝,楊興俊

(1.上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620;2.重慶大學(xué) 機(jī)械與運(yùn)載工程學(xué)院,重慶 400044;3.上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620)

0 引 言

由于文本分類在情感分析以及輿情分析等方面有著廣泛的應(yīng)用。近年來,關(guān)于文本分類任務(wù)的研究引起國內(nèi)外許多學(xué)者的關(guān)注,提出了許多的模型,例如:循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長短期記憶(long shortterm memory,LSTM)網(wǎng)絡(luò)、雙向長短期記憶[1](bidirectional LSTM,BiLSTM)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、BERT[2]模型以及注意力(attention)模型等。傳統(tǒng)的文本分類主要有詞袋模型或者TF-IDF(term frequency-inverse document frequency)算法、詞典匹配算法以及基于統(tǒng)計(jì)學(xué)的特征提取方法[3,4]。但這些方法提取特征往往需要消耗大量的時(shí)間。因此,許多學(xué)者致力于深度學(xué)習(xí)方法的文本分類研究[5,6]。

1 相關(guān)工作

RNN在文本分類任務(wù)中已經(jīng)取得了不錯(cuò)的效果,然而當(dāng)所研究的文本較長時(shí),RNN與LSTM 并不能很好地學(xué)習(xí)到距離較遠(yuǎn)的詞語之間的“聯(lián)系”,即缺乏“記憶信息”的能力。BiLSTM通過雙向?qū)W習(xí)語義信息,可以捕獲句子的上下文聯(lián)系。謝思雅等人[7]基于BiLSTM 提出了BiLSTM-Attention模型用于微博情感分析任務(wù)。李啟行等人[8]結(jié)合CNN與BiLSTM提出了雙通道DAC-RNN文本分類模型,利用注意力機(jī)制與BiLSTM模型分別捕獲文本中的關(guān)鍵特征和上下文聯(lián)系。

隨著注意力機(jī)制模型的提出,鮑海龍等人[9]以及Tian H等人[10]同時(shí)將注意力機(jī)制運(yùn)用到語義分割任務(wù)上均取得了良好的效果;張周彬等人[11]建立了相互循環(huán)作用的注意力模型用于情感分析任務(wù)中;程艷等人[12]基于注意力機(jī)制提出了多通道CNN 和雙向門控循環(huán)單元(bidirectional gated recurrent unit,BiGRU)的文本情感分析模型,提取豐富的文本特征。

本文在改進(jìn)的BERT詞向量、BiLSTM 和Attention 機(jī)制的基礎(chǔ)上,提出了一種基于改進(jìn)BERT 詞向量的BiLSTMAttention中文文本分類模型。

2 改進(jìn)BERT詞向量的BiLSTM-Attention模型的構(gòu)建

2.1 模型的結(jié)構(gòu)

本文首先將殘差網(wǎng)絡(luò)引入到BERT模型內(nèi)部的注意力模型部分中,構(gòu)建殘差注意力模塊。然后,將BERT詞向量輸入到BiLSTM-Attention 模型中,用注意力機(jī)制改善Bi-LSTM網(wǎng)絡(luò)不能長距離記憶信息的不足,然后將BERT 預(yù)訓(xùn)練模型中的“[CLS]”對(duì)應(yīng)的輸出結(jié)果與BiLSTM 模型的輸出結(jié)果進(jìn)行向量拼接,最后進(jìn)行全連接以及SoftMax運(yùn)算得到文本分類結(jié)果。實(shí)驗(yàn)表明,本文模型在公開的THUNews數(shù)據(jù)集上準(zhǔn)確率和F1值均優(yōu)于其他深度學(xué)習(xí)模型的結(jié)果。模型結(jié)構(gòu)如圖1所示。

圖1 BiLSTM-Attention文本分類模型

2.2 文本表示

由于深度學(xué)習(xí)模型的輸入數(shù)據(jù)并不支持文本類型。本文首先將句子進(jìn)行分詞,并建立詞典映射得到每個(gè)詞語的序列號(hào)。本文的初始輸入是每個(gè)詞語的序號(hào),模型自動(dòng)查找對(duì)應(yīng)詞語的詞向量作為BERT模型的輸入。模型訓(xùn)練前的詞向量是隨機(jī)生成的,隨著模型的訓(xùn)練,詞向量不斷地得到更新。假設(shè)輸入的句子長度為N,則文本表示向量為

2.3 BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型[5]在較大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,最后將訓(xùn)練好的模型運(yùn)用到下游任務(wù)中。BERT 預(yù)訓(xùn)練模型有兩種基本的訓(xùn)練方法,其中一種方法是將輸入變量信息以一個(gè)概率值進(jìn)行掩蓋(MASK),訓(xùn)練模型來預(yù)測所被掩蓋的輸入變量,這種方法稱MLM(masked language model);第二種訓(xùn)練方法是構(gòu)建具有上下文關(guān)系的句子,在上文句子的句首加入特殊字符“[CLS]”,同樣在下文句子的句首也加入特殊字符“[SEP]”;同時(shí)準(zhǔn)備不具有上下文關(guān)系的兩條句子。訓(xùn)練模型判斷句子是否具備上下文關(guān)系。這種方法稱為預(yù)測序列句子。

BERT模型基本的結(jié)構(gòu)如圖2所示。

圖2 BERT預(yù)訓(xùn)練模型

該模型結(jié)構(gòu)中,每個(gè)Trm 結(jié)構(gòu)由注意力層、全連接網(wǎng)絡(luò)、歸一化以及殘差單元構(gòu)成,BERT 模型使用的是雙向Transformer編碼器[13]。將輸入的文本以單個(gè)“詞”為單位進(jìn)行分詞,將分詞結(jié)果進(jìn)行詞典映射為序列,從而可以對(duì)應(yīng)查找到相應(yīng)的詞向量,接著輸入給微調(diào)后的BERT 預(yù)訓(xùn)練模型輸出文本類別,這樣得到的輸出向量結(jié)果極大地刻畫了原始文本的信息。

2.4 BiLSTM

BiLSTM模型較合適更加細(xì)粒度的文本分類問題。設(shè)S =[x1,x2,…,xn]為模型輸入的文本表示,BiLSTM 模型的計(jì)算方法如下

該計(jì)算過程中,sigmoid(·)為激活函數(shù);ft,at,wt,Ct,outt,Ht分別為遺忘門、輸入門、細(xì)胞狀態(tài)、輸出門在時(shí)刻t的狀態(tài)和隱含層。

2.5 自注意力機(jī)制

自注意力機(jī)制的核心是給每個(gè)輸入的詞語進(jìn)行權(quán)重賦值并不斷學(xué)習(xí)更新,將重要詞語賦予較大的權(quán)重,表示該詞語在句子中的作用較大。因此,本文Attention 層主要使用自注意力機(jī)制,其基本結(jié)構(gòu)如圖3所示。

圖3 自注意力機(jī)制模型

首先,對(duì)于輸入文本信息分別乘以相應(yīng)的權(quán)重得到q1,k1以及v1,多個(gè)權(quán)重值拼接后即可得到Q、K以及V 矩陣,將得到的Q與K 做矩陣運(yùn)算;接著,將得到的信息值歸一化處理;最后,將結(jié)果乘以相應(yīng)的權(quán)重矩陣V得到信息輸出內(nèi)容。將上述計(jì)算過程用矩陣的方式表示為

2.6 殘差網(wǎng)絡(luò)模型

殘差網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示[14]。

圖4 殘差網(wǎng)絡(luò)模型

x為輸入,H(x)為特征的輸出,F(xiàn)(x)為殘差,其表達(dá)式為

特征信息x可以直接與后邊層相互連接,這樣使得后邊的層可以學(xué)習(xí)到殘差值。殘差結(jié)構(gòu)通過恒等映射來增大模型的深度,其基本的運(yùn)算為

式中 xL為第L層深度單元特征信息的表示,當(dāng)殘差值等于0時(shí),殘差網(wǎng)絡(luò)相當(dāng)于進(jìn)行恒等映射,使得模型的精度不會(huì)受影響。事實(shí)上,由于數(shù)據(jù)的復(fù)雜性與多樣性,殘差值并不會(huì)為0,即相當(dāng)于模型在不斷地堆疊層,而學(xué)習(xí)到更多的特征信息。

2.7 SoftMax層

經(jīng)過自注意力機(jī)制輸出的特征向量帶有詞語權(quán)重信息、詞語上下文信息以及詞語多樣化信息。將特征向量作為全連接層的輸入,該層中使用ReLU 激活函數(shù)進(jìn)行非線性運(yùn)算。在進(jìn)行全連接運(yùn)算后,將得到的輸出值作為Soft-Max層的輸入,用于預(yù)測文本的分類結(jié)果概率。其基本運(yùn)算為下式

2.8 模型算法分析

模型的計(jì)算流程是:對(duì)于輸入的文本表示首先進(jìn)行BERT詞向量計(jì)算,BERT內(nèi)部的殘差注意力計(jì)算為

其中

即BERT模型內(nèi)部多個(gè)Trm結(jié)構(gòu)的注意力模塊相互殘差相連,使得模型學(xué)習(xí)到的詞向量更具多樣性;然后將BERT詞向量輸入到BiLSTM模型中用于學(xué)習(xí)詞語的上下問關(guān)系,接著將BERT模型對(duì)應(yīng)“[CLS]”的輸出內(nèi)容與BiLSTM 模型信息的輸出內(nèi)容進(jìn)行向量拼接,這有利于特征信息的深度融合。設(shè)“[CLS]”對(duì)應(yīng)的輸出向量為C,BiLSTM 模型的輸出向量為h =[h0,h1,…,Ht-1,ht],則向量拼接運(yùn)算過程為

最后將特征信息進(jìn)行自注意力、全連接運(yùn)算以及Soft-Max運(yùn)算得到分類的結(jié)果。

3 模型實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文選擇清華大學(xué)THUNews 網(wǎng)站的部分新聞文本數(shù)據(jù),共計(jì)20萬條,另外在互聯(lián)網(wǎng)上搜集到10 萬條最新的文本數(shù)據(jù)加入一起訓(xùn)練,隨機(jī)劃分26 萬條訓(xùn)練集,測試集與驗(yàn)證集各劃分2萬條。新聞文本分為10 個(gè)類別,各個(gè)類別的含義如表1所示。

表1 新聞?lì)悇e名稱及其ID

3.2 實(shí)驗(yàn)環(huán)境與模型參數(shù)

環(huán)境配置如表2所示。

表2 實(shí)驗(yàn)環(huán)境配置信息

深度學(xué)習(xí)模型參數(shù)設(shè)置如表3所示。

表3 模型參數(shù)設(shè)置

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 與BERT詞向量模型的對(duì)比

首先,將文本數(shù)據(jù)進(jìn)行序列標(biāo)注,序列的長度固定為34,序列長度不足34的用0補(bǔ)充;句子序列長度大于34 的進(jìn)行裁剪使其長度為34,最后將序列輸入到BERT 預(yù)訓(xùn)練模型中訓(xùn)練。模型在訓(xùn)練集上訓(xùn)練,訓(xùn)練的結(jié)果用驗(yàn)證集來評(píng)估,將驗(yàn)證集上結(jié)果最好的模型用于測試集上測試并得到最終的結(jié)果。將此結(jié)果用準(zhǔn)確率以及F1值進(jìn)行評(píng)估,其中的F1值的計(jì)算公式為

由公式可以看出,F(xiàn)1值是精確率(precision)和召回率(recall)的調(diào)和均值,其中的TP、FP 以及FN 由混淆矩陣(confusion matrix)給出,如表4所示。

表4 混淆矩陣

精確率P和召回率R由下式給出

訓(xùn)練過程中為了防止過擬合加入了Dropout[15]方法,其值設(shè)置為0.4,表示以0.4 的概率去除某些神經(jīng)元,達(dá)到防止過擬合的作用。該過程本質(zhì)上在模擬集成學(xué)習(xí),其訓(xùn)練的結(jié)果如表5所示。

表5 模型的訓(xùn)練結(jié)果對(duì)比 %

對(duì)比BERT +全連接模型以及BERT +BiLSTM模型,本文模型在測試集上的準(zhǔn)確率和F1值分別為90.30 %與90.03%;BERT +全連接模型在測試集上的準(zhǔn)確率和F1值分別為87.21%與87.68%;BERT +BiLSTM在測試集上的準(zhǔn)確率和F1值分別為87.36%與87.10%。本文模型可以學(xué)習(xí)到注意力殘差值,通過殘差運(yùn)算可以學(xué)習(xí)到句子的多樣化信息,同時(shí)本文模型通過BERT 模型中“[CLS]”的輸出信息與BiLSTM模型的輸出信息拼接,融合了更加豐富的特征信息,使得模型可以充分利用特征進(jìn)行學(xué)習(xí),保證模型不過擬合的前提下訓(xùn)練精度得到提高。因此,無論準(zhǔn)確率還是F1值,本文模型均優(yōu)于其他模型,其中,本文模型較BERT +BiLSTM 準(zhǔn)確率和F1值在測試集上分別提高了3.37%和3.36%,較BERT +全連接模型準(zhǔn)確率和F1值分別提高了3.5%和2.7%,證明了本文模型的有效性。本文所采用的新聞文本句子長度較小,訓(xùn)練集、測試集以及驗(yàn)證集上的句子平均長度是34,BERT +BiLSTM以及BERT +全連接模型在短文本分類任務(wù)上很容易克服長期依賴問題。因此,BERT +全連接與BERT +BiLSTM模型的訓(xùn)練精度大致相同。

3.3.2 與其他詞向量模型的對(duì)比

本文還對(duì)比了基于Word2Vec[16]詞向量以及FastText詞向量的深度學(xué)習(xí)模型。本文主要利用Word2Vec 工具包進(jìn)行詞向量的訓(xùn)練,該工具使用Skip-gram 和CBOW(continuous bag-of-words)兩種模型進(jìn)行詞向量的訓(xùn)練。Skip-gram模型通過上下文信息來預(yù)測中心目標(biāo)詞的方式來捕獲詞語的語義信息。FastText 詞向量采用FastText 工具直接得到訓(xùn)練的結(jié)果。其訓(xùn)練的結(jié)果如表6所示。

表6 模型的訓(xùn)練結(jié)果 %

4 結(jié) 論

本文引入殘差注意力BERT 詞向量構(gòu)建BiLSTMAttention模型。實(shí)驗(yàn)結(jié)果表明:對(duì)比主流的深度學(xué)習(xí)模型,本文模型在文本的分類任務(wù)中取得了比較好的分類結(jié)果。

猜你喜歡
集上殘差注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
復(fù)扇形指標(biāo)集上的分布混沌
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
平穩(wěn)自相關(guān)過程的殘差累積和控制圖
河南科技(2015年8期)2015-03-11 16:23:52
美姑县| 同江市| 滕州市| 黄山市| 云林县| 天门市| 宜兰市| 黄浦区| 东阿县| 卢龙县| 南通市| 五河县| 武平县| 陆川县| 龙山县| 丰顺县| 仁化县| 新余市| 枞阳县| 衡水市| 灵川县| 依兰县| 商洛市| 惠来县| 大洼县| 达州市| 平乡县| 华安县| 富民县| 东乌珠穆沁旗| 上栗县| 清远市| 张北县| 滕州市| 临武县| 砚山县| 太保市| 云龙县| 海南省| 东兰县| 遂溪县|