石杰
關(guān)鍵詞: 預(yù)訓(xùn)練模型; 雙通道模型; TCN網(wǎng)絡(luò); BiGRU網(wǎng)絡(luò); 情感分類
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)20-0031-05
0 引言
隨著人工智能技術(shù)的不斷發(fā)展,情感分類技術(shù)在現(xiàn)實(shí)生活中變得越來越重要,目前已在多個(gè)領(lǐng)域得到了廣泛應(yīng)用,例如輿情分析、產(chǎn)品推薦、情感監(jiān)測(cè)等。深度學(xué)習(xí)興起以來,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法已成了自然語言處理任務(wù)的研究熱點(diǎn)。Mikolov等人[1]最先提出了Word2vec 模型,包括 CBOW 詞袋模型和Skip-gram 模型用于當(dāng)前詞與上下文內(nèi)容的預(yù)測(cè)。Pennington 等人[2]提出了具有將全局統(tǒng)計(jì)信息與局部上下文相結(jié)合特點(diǎn)的 GloVe 模型。Devlin 等人[3] 結(jié)合ELMo 和 GPT 模型提出了 BERT 模型,通過字向量和多頭自注意力機(jī)制,解決了現(xiàn)有詞向量模型無法捕獲完整文本語義信息的問題。隨后百度團(tuán)隊(duì)以 BERT 模型為基礎(chǔ),針對(duì)中文文本任務(wù)進(jìn)行優(yōu)化提出了ERNIE [4]模型,并取得了良好的效果。Bai等人[5]提出了TCN網(wǎng)絡(luò),并將因果卷積、膨脹卷積和殘差連接應(yīng)用其中,使其得到了廣泛應(yīng)用。GRU網(wǎng)絡(luò)是Tang 等人[6]在繼 LSTM 網(wǎng)絡(luò)之后對(duì)RNN做出的又一次優(yōu)化,將LSTM 中的三個(gè)門結(jié)構(gòu)進(jìn)行了簡(jiǎn)化,提升了訓(xùn)練效率。Adabelief算法[7]是一種新興的優(yōu)化算法,它結(jié)合了Adam和AMSGrad的優(yōu)點(diǎn),能夠?yàn)槟P陀?xùn)練提供高效穩(wěn)定的支持,特別是在處理文本任務(wù)時(shí)表現(xiàn)出色。綜上,本文基于詞向量表示、情感特征提取、模型訓(xùn)練優(yōu)化三方面考慮,提出了一種基于預(yù)訓(xùn)練模型的雙通道情感分類方法。
1 相關(guān)理論技術(shù)
1.1 ERNIE模型
ERNIE 模型是為了使模型訓(xùn)練時(shí)能夠更好地匹配中文語義語法所做出的改進(jìn),在結(jié)構(gòu)上,仍然是采用雙向Transformer進(jìn)行特征學(xué)習(xí)。和BERT模型的不同之處在于該模型訓(xùn)練所使用的數(shù)據(jù)全部來自中文語料庫,通過大量中文語料的訓(xùn)練使其能夠更好地適用于中文文本處理任務(wù)。另外,ERNIE 模型在掩碼機(jī)制方面也做出了改進(jìn),它不同于BERT 模型隨機(jī)地遮蓋單個(gè)漢字,而是利用詞語掩碼和實(shí)體掩碼來遮蓋詞語或命名實(shí)體,因?yàn)闈h語的語法結(jié)構(gòu)不同于其他語言,如果只遮蓋某個(gè)單獨(dú)漢字,極大可能會(huì)拆散字詞間的關(guān)系,導(dǎo)致特征提取不準(zhǔn)確,而ERNIE 模型的掩碼機(jī)制能很好地預(yù)測(cè)完整語義信息。
1.2 TCN網(wǎng)絡(luò)
TCN(Temporal Convolutional Network) 網(wǎng)絡(luò)基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)間序列進(jìn)行建模,一般用于時(shí)序數(shù)據(jù)的建模任務(wù),其主要思想是利用卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)中的特征,通過殘差網(wǎng)絡(luò)進(jìn)一步優(yōu)化模型的性能。相較于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò),TCN網(wǎng)絡(luò)在處理長(zhǎng)序列數(shù)據(jù)時(shí)更為高效,而且可以避免梯度消失的問題。TCN網(wǎng)絡(luò)所具有的因果卷積和膨脹卷積,不僅可以用于時(shí)間序列預(yù)測(cè),而且在語音識(shí)別、自然語言處理、圖像處理等多個(gè)領(lǐng)域也得到了廣泛應(yīng)用。TCN網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖1所示。
1.3 GRU網(wǎng)絡(luò)
GRU(Gated Recurrent Unit) 網(wǎng)絡(luò),即門控循環(huán)單元,是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的變體模型。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò),GRU具有更好的長(zhǎng)期記憶能力和更少的參數(shù)量,可以有效避免傳統(tǒng)RNN中遇到的梯度消失和梯度爆炸問題。GRU的結(jié)構(gòu)也比較簡(jiǎn)單,由更新門、重置門和候選隱藏狀態(tài)組成。其中,更新門控制了前一時(shí)刻的隱藏狀態(tài)有多少信息需要傳遞給當(dāng)前時(shí)刻,重置門控制了前一時(shí)刻的隱藏狀態(tài)需要被多大程度地忘記,而候選隱藏狀態(tài)則是當(dāng)前時(shí)刻的輸入和前一時(shí)刻的隱藏狀態(tài)的線性組合。GRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示:
2 基于預(yù)訓(xùn)練模型的雙通道情感分類方法
由于情感特征的提取具有一定的復(fù)雜性,因此基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法目前仍是情感分類任務(wù)中研究最為廣泛的方法之一。黃澤民等人[8]提出在BERT模型的預(yù)訓(xùn)練下,利用BiSRU網(wǎng)絡(luò)和注意力機(jī)制進(jìn)行情感特征提取。胡玉琦等人[9]針對(duì)文本評(píng)論數(shù)據(jù)利用BiGRU-CNN模型和注意力機(jī)制進(jìn)行情感分類任務(wù)。蘇天等人[10]提出利用BERT模型結(jié)合BiGRU網(wǎng)絡(luò)對(duì)水利新聞數(shù)據(jù)進(jìn)行情感分析研究。本文基于Adabelief 算法,并結(jié)合ERNIE 預(yù)訓(xùn)練語言模型和TCN、Att-BiGRU雙通道網(wǎng)絡(luò)提出了一種基于預(yù)訓(xùn)練模型的雙通道情感分類方法。其結(jié)構(gòu)如圖3所示:
2.1 預(yù)訓(xùn)練層
原始文本數(shù)據(jù)經(jīng)過預(yù)處理后以詞向量的形式輸入預(yù)訓(xùn)練層中,經(jīng)過多層的雙向Transformer 進(jìn)行訓(xùn)練后形成最終的文本特征。該模型中預(yù)訓(xùn)練層使用ERNIE模型,由于ERNIE模型基于雙向結(jié)構(gòu)的Trans?former進(jìn)行訓(xùn)練,且本身具有多頭注意力機(jī)制,因此能夠很好地增強(qiáng)文本的情感語義特征表示,其計(jì)算方式如下所示:
2.2 雙通道層
在模型的特征提取部分,分別使用TCN網(wǎng)絡(luò)和Att-BiGRU網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)特征的訓(xùn)練提取。由于兩種網(wǎng)絡(luò)模型在文本特征的處理上有著各自不同的優(yōu)勢(shì),利用雙通道模型進(jìn)行文本信息提取,再對(duì)兩者進(jìn)行特征融合,從而獲取到更豐富的情感特征信息。
1) TCN網(wǎng)絡(luò)
TCN網(wǎng)絡(luò)所具有的因果卷積和膨脹卷積,能夠很好地對(duì)時(shí)序數(shù)據(jù)進(jìn)行處理。因果卷積具有嚴(yán)謹(jǐn)?shù)囊蚬裕荒芾卯?dāng)前時(shí)刻之前的時(shí)間步信息來進(jìn)行預(yù)測(cè),而不能利用之后的時(shí)間步信息進(jìn)行預(yù)測(cè),因此,可以有效避免未來因素所造成的影響。將預(yù)訓(xùn)練后得到的特征輸入TCN網(wǎng)絡(luò)中,從右至左進(jìn)行計(jì)算來提取特征,其公式如式(13)所示:
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)所使用的操作系統(tǒng)為Windows10,內(nèi)存為32GB,CPU 為英特爾的E5-2678v3,GPU 為NVIDIARTX3080。模型所用的深度學(xué)習(xí)框架為PyTorch,在Pycharm上使用Python3.8完成編程和訓(xùn)練。
實(shí)驗(yàn)參數(shù):ERNIE預(yù)訓(xùn)練模型保持原有的默認(rèn)參數(shù)不變;TCN網(wǎng)絡(luò)的卷積層數(shù)為4,卷積核大小為3,膨脹因子為2,詞向量維度為768。另外,學(xué)習(xí)率為1e-5,損失率為0.25,BiGRU的隱藏層為256,使用ReLU 作為激活函數(shù),Adabelief 算法作為模型訓(xùn)練時(shí)的優(yōu)化器。
3.2 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
1) 實(shí)驗(yàn)數(shù)據(jù)集
本模型訓(xùn)練所用的數(shù)據(jù)集為中文情感分析語料庫提供的新浪微博評(píng)論數(shù)據(jù)集和平板商品評(píng)論數(shù)據(jù)集,所有數(shù)據(jù)均按積極和消極兩類情感進(jìn)行了標(biāo)注,并按照8:2劃分訓(xùn)練集和測(cè)試集。數(shù)據(jù)集條目統(tǒng)計(jì)及示例如表1、表2所示。
其中,TP 表示將正樣本預(yù)測(cè)為正樣本的數(shù)量;FP表示將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量;FN 表示將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量。
3.3 結(jié)果分析與對(duì)比
1) 評(píng)價(jià)指標(biāo)對(duì)比
為證明該雙通道模型在情感分類任務(wù)中的有效性,該實(shí)驗(yàn)從精確率、召回率和F1值方面,對(duì)該模型進(jìn)行消融實(shí)驗(yàn)對(duì)比分析。實(shí)驗(yàn)結(jié)果如圖4、圖5所示:
通過圖4、圖5可知,在新浪微博評(píng)論數(shù)據(jù)集上,TCN+Att-BiGRU 模型相比單一的TCN 和Att-BiGRU 模型,F(xiàn)1值分別提升了2.05%和1.98%,在平板商品評(píng)論數(shù)據(jù)集上,則提升了2.4%和2.3%,這是由于雙通道模型對(duì)各自提取的特征進(jìn)行融合后,所提取的情感特征更加豐富;在新浪微博評(píng)論數(shù)據(jù)集上,RENIETCN+Att-BiGRU 模型相比于TCN+Att-BiGRU 模型,F(xiàn)1值提升了3.24%,在平板商品評(píng)論數(shù)據(jù)集上,則提升了3.51%,這說明使用ERNIE模型進(jìn)行預(yù)訓(xùn)練后,使得詞向量的情感特征表示更加充分,模型性能有了很大提升;本文模型相比于RENIE-TCN+Att-BiGRU 模型,在兩個(gè)數(shù)據(jù)集上,其F1值則分別提升了0.32% 和0.26%,這主要是由于該模型在訓(xùn)練過程中引入了Adabelief算法,在加速收斂的同時(shí),也使模型的訓(xùn)練更加穩(wěn)定,因此其性能指標(biāo)也有所上升。
2) 優(yōu)化算法收斂性對(duì)比
為證明基于Adabelief算法的雙通道模型在情感分類任務(wù)中的有效性,分別將Adam算法和Adabelief 算法的損失率情況進(jìn)行了對(duì)比。對(duì)比結(jié)果如圖6、圖7 所示:
由圖6和圖7可以看出,在新浪微博評(píng)論數(shù)據(jù)集上,基于Adabelief算法的雙通道模型在訓(xùn)練之初,其收斂速度就要明顯優(yōu)于Adam算法,雖然在訓(xùn)練到2000步時(shí)發(fā)生了波動(dòng),但在3 000步左右時(shí)又很快恢復(fù)了正常收斂,并保持穩(wěn)定狀態(tài),損失率最終收斂到0.22。在平板商品評(píng)論數(shù)據(jù)集上,基于Adabelief算法的雙通道模型仍然在訓(xùn)練開始時(shí),其收斂速度仍然優(yōu)于Adam算法,雖然在訓(xùn)練到1 000步左右時(shí)發(fā)生了波動(dòng),但在3 000步之后又開始正常收斂,并逐漸超越Adam算法,最終損失率保持到0.18。整體可知,基于Adabelief算法的雙通道模型在情感分類任務(wù)上,其收斂速度更快,具有較強(qiáng)的泛化性,整體表現(xiàn)性能要優(yōu)于Adam算法。
4 結(jié)束語
針對(duì)中文文本情感分類任務(wù),本文提出了一種基于預(yù)訓(xùn)練模型的雙通道情感分類方法。通過將處理后的文本數(shù)據(jù)輸入ERNIE 模型中進(jìn)行預(yù)訓(xùn)練,然后將預(yù)訓(xùn)練后的特征向量分別輸入TCN 網(wǎng)絡(luò)和Att-BiGRU網(wǎng)絡(luò)中進(jìn)行特征提取,最后將雙通道模型獲取的特征進(jìn)行融合拼接后經(jīng)由Softmax計(jì)算輸出。同時(shí)在訓(xùn)練過程中,使用Adabelief算法進(jìn)行模型優(yōu)化。經(jīng)實(shí)驗(yàn)證明,該模型在新浪微博評(píng)論數(shù)據(jù)集和平板商品評(píng)論數(shù)據(jù)集上各方面表現(xiàn)性能均優(yōu)于對(duì)比模型。下一步,將對(duì)更加復(fù)雜的多模態(tài)情感分類任務(wù)展開研究,進(jìn)一步提升情感分類應(yīng)用范圍。