徐 瑞,曾 誠,程世杰,張海豐,何 鵬
(1.湖北大學(xué) 計算機(jī)與信息工程學(xué)院,湖北 武漢 430062;2.湖北大學(xué) 人工智能學(xué)院,湖北 武漢 430062;3.湖北大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,湖北 武漢 430062;4.湖北大學(xué) 智慧感知系統(tǒng)與安全教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430062)
近年來,隨著網(wǎng)絡(luò)媒體的迅速普及,人們在諸多平臺上留下了大量含有主觀感情色彩的評論,對這些評論數(shù)據(jù)進(jìn)行情感傾向分析,可以挖掘出用戶有效的觀點(diǎn)信息。
當(dāng)前預(yù)訓(xùn)練技術(shù)使得情感分類任務(wù)取得了突破性進(jìn)展[1],但由于語言的復(fù)雜性和多樣性,情感分類數(shù)據(jù)集中包含著較多難以學(xué)習(xí)的易混淆文本。此類文本個性特征不鮮明,通常包含較多的混淆詞,因與被混淆類別之間特征相似度較高而難以被準(zhǔn)確區(qū)分。分類模型往往傾向于區(qū)分易分類文本,對易混淆文本的分類效果不佳,因此整體的訓(xùn)練效果受到了一定影響。易混淆文本示例如表1所示。
表1 易混淆文本示例
傳統(tǒng)的文本向量化方法 Word2Vec和GloVe忽略了文本上下文語境信息,在面對易混淆文本時無法處理一詞多義問題。預(yù)訓(xùn)練模型BERT通過捕獲句子上下文信息可以消除詞的多義性,但未能挖掘出易混淆文本的深層語義特征,下游任務(wù)想要準(zhǔn)確識別出真實(shí)類別同樣困難。
易混淆文本屬于困難樣本的研究范疇,困難樣本目前的解決思路是從數(shù)據(jù)分布和模型結(jié)構(gòu)兩個方面進(jìn)行優(yōu)化[2]。Wang等[3]利用數(shù)據(jù)增強(qiáng)方法對困難樣本進(jìn)行擴(kuò)充,平衡簡單樣本和困難樣本之間的數(shù)據(jù)比例,但模型分類能力提升有限;Shrivastava等[4]提出困難樣本挖掘算法,將篩選出的困難樣本加入到新的訓(xùn)練批次進(jìn)行訓(xùn)練,但此方法一般用于困難樣本中困難負(fù)樣本的挖掘。相較于數(shù)據(jù)層面的處理,Lin等[5]提出Focal Loss損失函數(shù),對困難樣本賦予更大權(quán)重,使得模型更加關(guān)注于難分類的樣本,但也造成了模型容易受到噪聲的影響。事實(shí)上,對于困難樣本中的易混淆文本的處理,本質(zhì)是希望其與同類別文本的距離盡可能相近,與被混淆類別文本的距離盡可能遠(yuǎn)。對此,Jiang等[6]利用有監(jiān)督對比學(xué)習(xí)模式針對于困難負(fù)樣本進(jìn)行損失優(yōu)化,增大不同類別之間的距離;而Cai等[7]在行人重識別領(lǐng)域利用三元組網(wǎng)絡(luò)的特點(diǎn),有效地拉近了同類別樣本間的距離,又與混淆類別樣本保持了區(qū)分度。
但是傳統(tǒng)的三元組樣本選擇方式在同類別特征之間仍有明顯的差異,有進(jìn)一步提升的空間。鑒于此,本文提出一種針對易混淆文本的雙三元組網(wǎng)絡(luò)情感分類方法(Double Triplet Network for Sentiment Classification,DTN4SC),針對文本情感分類領(lǐng)域的語義特色,在數(shù)據(jù)層面和模型結(jié)構(gòu)上同時進(jìn)行優(yōu)化。該方法在傳統(tǒng)模型構(gòu)建的分類器上,利用改進(jìn)的雙三元樣本組構(gòu)建方式,將得到的樣本組合傳入三元組網(wǎng)絡(luò)進(jìn)行針對訓(xùn)練,使模型深入挖掘混淆文本的深層語義信息;同時參考困難樣本挖掘思路將篩選出的易混淆文本動態(tài)加入到下一批次訓(xùn)練中,以降低數(shù)據(jù)中易混淆文本產(chǎn)生的負(fù)面影響,提升模型的分類效果。本文的主要貢獻(xiàn)包括兩個方面:
(1) 提出了一種針對易混淆文本的雙三元組網(wǎng)絡(luò)情感分類方法,對模型訓(xùn)練過程中篩選出的易混淆文本進(jìn)行針對訓(xùn)練,使用改進(jìn)的雙三元樣本構(gòu)建方式可有效降低數(shù)據(jù)中易混淆文本產(chǎn)生的負(fù)面影響,最大化地挖掘數(shù)據(jù)中潛在的情感信息,提升模型的分類性能。
(2) 本文設(shè)計的針對易混淆文本方法具備通用性,可兼容不同結(jié)構(gòu)的深度語言模型,在多個分類模型上效果表現(xiàn)良好。
情感分類是指分析、總結(jié)和判斷文本中情感信息并將其劃分成各類情感傾向的研究方法,是對文本所表達(dá)的觀點(diǎn)、態(tài)度的類別劃分[8]?,F(xiàn)有的文本情感分類方法主要分為3類: 基于詞典和規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[9]。
基于詞典和規(guī)則的情感分類方法[10-11]利用構(gòu)建的情感詞典或者人工規(guī)則,提取文本中情緒相關(guān)的觀點(diǎn)詞進(jìn)行情感計算。但由于情感詞典構(gòu)建難度較大,通用性較差,同時存在人工設(shè)計的知識庫和判斷規(guī)則無法解決不同領(lǐng)域的問題[12],使得基于情感詞典和規(guī)則的方法魯棒性較低,分類效果不理想。對此研究人員開展了基于機(jī)器學(xué)習(xí)的情感分類方法的研究,Pang等[13]使用支持向量機(jī)(Support Vector Machine,SVM)、最大熵算法(ME)、樸素貝葉斯算法(NB)和n-gram等算法分別實(shí)現(xiàn)對電影影評和旅游博客評論的分類,隨后研究人員利用不同機(jī)器學(xué)習(xí)模型對情感數(shù)據(jù)展開了一系列實(shí)驗(yàn)。但基于機(jī)器學(xué)習(xí)的情感分類方法依賴于人工篩選的特征,并且難以學(xué)習(xí)到較深層的語義信息,因此泛化能力和遷移學(xué)習(xí)能力較差。
相較于基于機(jī)器學(xué)習(xí)的方法,基于深度學(xué)習(xí)的方法不需要人工提取特征,其會自動挖掘出文本表征中更加深層的語義特征。Blunsom等[14]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對Twitter文本進(jìn)行情感分析研究;Wang等[15]則利用長短時記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)存儲長文本的特性,在Twitter文本上情感分類效果更好。此外,多種網(wǎng)絡(luò)模型的融合結(jié)構(gòu)也被相繼提出,Lai 等[16]提出了結(jié)合CNN與BiGRU的網(wǎng)絡(luò)模型,充分利用了兩個模型各自的優(yōu)勢。為了捕捉數(shù)據(jù)特征的內(nèi)部相關(guān)性,挖掘文本的關(guān)鍵特征,注意力機(jī)制[17]也被引入NLP領(lǐng)域,其與TextCNN、LSTM等模型融合后,有效降低了對外部信息的依賴程度,提升了模型的分類效果。隨著預(yù)訓(xùn)練技術(shù)的快速發(fā)展,大量自然語言處理領(lǐng)域的研究人員逐漸采用BERT等預(yù)訓(xùn)練模型對文本進(jìn)行向量表征來完成下游的情感分類任務(wù)。BERT模型采用雙向Transformer結(jié)構(gòu),相較于傳統(tǒng)Word2Vec等詞向量方法,它突破了單向語言模型的局限,面對情感文本中的易混淆文本,可以更好地表示文本特征,因此本文采用BERT模型作為基準(zhǔn)編碼器來進(jìn)行文本特征提取。
盡管上述深度學(xué)習(xí)方法在情感分類任務(wù)中有著不錯的表現(xiàn),但是部分文本存在個性特征不鮮明、情感傾向易混淆等問題,仍然制約模型的整體分類效果。這些易混淆的文本在經(jīng)過詞嵌入模型后,分類層無法有效地識別其真實(shí)類別,因此對于易混淆文本的進(jìn)一步研究是不容忽視的。
易混淆文本在一定程度上制約了現(xiàn)有模型的分類效果,如圖1所示,易混淆文本大部分集中在分類決策線周圍,模型對其特征差異性不敏感,無法有效識別出真實(shí)類別[18]。
圖1 易混淆文本
在文本情感領(lǐng)域中,易混淆文本是由于情感傾向模糊或者包含較多的混淆詞而導(dǎo)致類別被混淆的文本,如何有效地避免易混淆文本對模型的負(fù)面影響,是一個棘手的問題。宋等[19]在BERT模型中引入Focal loss損失函數(shù),在一定程度上提高了對易混淆文本的分類能力,但沒有充分利用易混淆文本;Xu等[20]通過圖神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制的方式來學(xué)習(xí)易混淆法律文本間的特征差異,在法律文本中得到不錯的效果,但其缺點(diǎn)是忽略了同類型法律詞條之間的關(guān)聯(lián)性。因此,如何在擴(kuò)大混淆類別距離的同時,對同類別文本進(jìn)一步聚類,是研究易混淆文本的重要思路。事實(shí)上,三元組網(wǎng)絡(luò)可以很好地解決這個問題,其在行人重識別領(lǐng)域中處理行人重疊混淆問題時表現(xiàn)突出。因此,本文同樣采用三元組網(wǎng)絡(luò)對易混淆文本進(jìn)行針對性訓(xùn)練,并根據(jù)文本情感數(shù)據(jù)的特性進(jìn)行優(yōu)化改進(jìn)。
三元組網(wǎng)絡(luò)由孿生網(wǎng)絡(luò)發(fā)展而來,在人臉識別領(lǐng)域中,由于人臉結(jié)構(gòu)相似導(dǎo)致模型對不同樣本特征差異不敏感,對此,Chopra等[21]提出孿生網(wǎng)絡(luò),使用兩個結(jié)構(gòu)相同、參數(shù)共享的神經(jīng)網(wǎng)絡(luò),向網(wǎng)絡(luò)中輸入一個正例人臉圖片和負(fù)例人臉圖片,經(jīng)過計算得到兩個樣例的特征相似度,通過訓(xùn)練可以有效地增大不同類別間的距離。
但孿生網(wǎng)絡(luò)對基準(zhǔn)樣例較為敏感,無法在區(qū)分不同類別之間距離的同時識別同類別中的樣本。對此,Hoffer提出三元組網(wǎng)絡(luò)[22]使用基準(zhǔn)樣例、正例和負(fù)例組成訓(xùn)練組,利用三個參數(shù)共享的神經(jīng)網(wǎng)絡(luò)模型提取輸入特征,最后進(jìn)行三元組損失計算,有效地解決了孿生網(wǎng)絡(luò)中對同類別個體識別能力較差的問題。如圖2所示的三元樣本組,這樣構(gòu)建的目的是綜合考慮同類樣本和非同類樣本,因此三元組網(wǎng)絡(luò)在多個任務(wù)上效果比孿生網(wǎng)絡(luò)表現(xiàn)出色。尤其是針對行人重識別[23],三元組網(wǎng)絡(luò)可以很好地跟蹤重疊行人的軌跡,同樣可以利用三元組網(wǎng)絡(luò)對易混淆文本的特征信息與其他文本進(jìn)行特征相似度對比,挖掘出豐富的語義信息。
圖2 三元樣本組
同時Chen等[24]在構(gòu)建三元組時,在傳統(tǒng)三元訓(xùn)練準(zhǔn)則上多加入一個負(fù)樣本,發(fā)現(xiàn)能更好地實(shí)現(xiàn)類內(nèi)差異的縮小以及類間差異的增加。受該工作啟發(fā),本文設(shè)計出雙三元組網(wǎng)絡(luò),分別從易分類文本和普通文本中構(gòu)建出兩對三元樣本組并賦予不同的權(quán)重,相較于傳統(tǒng)隨機(jī)挑選樣本構(gòu)造的三元組,在度量不同類別文本的同時,本文方法更加關(guān)注從易分類文本中挑選出的樣本,以此深入挖掘出簡單樣本和易混淆樣本的共性情感特征。
本節(jié)詳細(xì)闡述所提出的基于雙三元組網(wǎng)絡(luò)的易混淆文本情感分類方法DTN4SC,其總體訓(xùn)練流程如圖3所示。該流程包括3個部分: ①分類模型的構(gòu)建; ②易混淆文本與易分類文本篩選; ③基于雙三元組網(wǎng)絡(luò)的易混淆文本針對性訓(xùn)練。
圖3 DTN4SC方法訓(xùn)練流程圖
首先,基于BERT模型構(gòu)建分類器,對輸入文本編碼后經(jīng)過非線性激活層得到文本的深層特征語義,再添加分類層對文本進(jìn)行初步分類,得到每個類別的預(yù)測概率;然后,設(shè)計出文本特征篩選器,根據(jù)各類別預(yù)測情況過濾出易混淆文本和易分類文本的語義特征;隨機(jī)從易分類文本中挑選正例樣本和負(fù)例樣本與易混淆文本,構(gòu)建出第一個三元樣本組。同樣,隨機(jī)在普通文本中挑選正例樣本和負(fù)例樣本與易混淆文本構(gòu)建出第二個三元樣本組,將兩對易混淆三元樣本組以不同權(quán)重分別送入三元組網(wǎng)絡(luò)得到雙三元組損失函數(shù),并加入到交叉熵?fù)p失中來提高易混淆數(shù)據(jù)在模型中的影響程度;同時,將本批次篩選出的易混淆文本加入到下一批次繼續(xù)進(jìn)行訓(xùn)練,進(jìn)一步學(xué)習(xí)同類數(shù)據(jù)間的相似性和易混淆數(shù)據(jù)的差異性。
BERT模型采用雙向Transformer編碼器結(jié)構(gòu),利用大規(guī)模無標(biāo)注語料庫進(jìn)行訓(xùn)練。在模型訓(xùn)練階段,為了能夠有效學(xué)習(xí)到雙向編碼的能力,BERT采用了掩碼語言模型(Masked Language Model,MLM)和下句預(yù)測(Next Sentence Prediction,NSP)任務(wù),使其能夠充分學(xué)習(xí)到句子中上下文的語境信息,并盡量避免過擬合問題的產(chǎn)生??紤]到在情感分類任務(wù)中使用BERT模型作為編碼器分類效果良好,因此本文采用BERT作為特征提取器得到輸入文本的語義表示,然后進(jìn)一步提取特征并進(jìn)行分類,BERT模型結(jié)構(gòu)如圖4所示。
圖4 BERT分類模型
輸入文本si=<[CLS],e1,e2,…,et,[SEP]>,其中si表示該訓(xùn)練批次第i條樣本,et表示為輸入文本中的第t個字,[CLS]和[SEP]分別作為輸入文本的開頭和結(jié)尾標(biāo)志。如式(1)所示,當(dāng)文本序列經(jīng)過BERT編碼器后,hi∈d輸出向量蘊(yùn)含了整個句子的語義信息,如式(1)所示。
hi=fbert(si)[0]
(1)
其中,W1∈d×d和W2∈M×d為權(quán)重矩陣,W3∈M為參數(shù)矩陣,類別預(yù)測概率中最大值即為當(dāng)前輸入文本si的類別預(yù)測值。
輸入文本經(jīng)過上述所構(gòu)建的分類器得到不同類別的概率預(yù)測情況,此時設(shè)計出篩選函數(shù)過濾出易混淆文本和易分類文本。對于易混淆文本而言,由于分類器難以從當(dāng)前文本序列中學(xué)習(xí)到正確類別的個性特征,導(dǎo)致與被混淆類別特征向量相似度較高,兩者預(yù)測分?jǐn)?shù)十分接近;而易分類文本是模型能夠較快學(xué)習(xí)到特征的文本,預(yù)測標(biāo)簽與真實(shí)標(biāo)簽誤差較小,此類文本也被定義為簡單樣本[5],普通文本則為上述兩類文本以外的其他文本。從損失函數(shù)角度分析,訓(xùn)練過程中易混淆文本損失較大,易分類文本損失較小,為此,本文引入了針對這兩種文本的篩選策略。
易混淆文本篩選策略如式(4)所示,λ為超參數(shù)表示混淆類別分?jǐn)?shù)閾值。類別預(yù)測概率前二的差值在閾值λ之內(nèi)的文本會被篩選器判別為易混淆文本,此時篩選出此文本的特征向量。
(4)
易分類文本的篩選策略類似,為了進(jìn)一步挖掘易混淆文本中潛在的情感信息,篩選出易分類文本與易混淆文本特征,充分對比學(xué)習(xí),提升分類器對易混淆文本的學(xué)習(xí)能力,篩選易分類文本規(guī)則如式(5)所示。
(5)
其中,μ為超參數(shù),為易分類文本的分?jǐn)?shù)閾值,本文設(shè)置策略為二分類數(shù)據(jù)集值為0.7,七分類值為0.3。在實(shí)際訓(xùn)練過程中,為了讓模型進(jìn)一步關(guān)注易混淆文本,對其施加更高的權(quán)重,本文將篩選出來的易混淆文本加入到下一批次繼續(xù)訓(xùn)練,以達(dá)到擴(kuò)充易混淆文本數(shù)據(jù)的目的。
針對易混淆文本訓(xùn)練策略,首先隨機(jī)從易分類文本中挑選正例樣本和負(fù)例樣本與易混淆文本構(gòu)建出第一個三元樣本組,同樣隨機(jī)從普通文本中挑選正例樣本和負(fù)例樣本與易混淆文本構(gòu)建出第二個三元樣本組;接著,分別通過三元組網(wǎng)絡(luò)得到雙三元損失函數(shù),同時賦予第一項(xiàng)損失函數(shù)更高的權(quán)重?fù)p失,以此使得訓(xùn)練目標(biāo)拉近基準(zhǔn)樣例和正例的距離,同時使基準(zhǔn)樣例遠(yuǎn)離負(fù)例,設(shè)計如式(6)所示加權(quán)雙三元組損失(Weighted Double Triplets Loss,WDTL)函數(shù)。
(6)
其中,[z]+=max(z,0),前一項(xiàng)稱為強(qiáng)推動,由易分類文本中挑選構(gòu)建;后一項(xiàng)為弱推動,為普通文本中挑選構(gòu)建。為了讓模型深入挖掘出易分類文本中的特征以供易混淆文本學(xué)習(xí),設(shè)置前一項(xiàng)權(quán)重大于后一項(xiàng),即β小于1。δ1和δ2是超參數(shù),為訓(xùn)練過程中設(shè)置的閾值參數(shù),a為基準(zhǔn)樣例,p+和n+分別為易分類文本中構(gòu)建的正例樣本和負(fù)例樣本,p-和n-分別為普通文本中構(gòu)建的正例樣本和負(fù)例樣本,d(a,p)和d(a,n)分別表示基準(zhǔn)樣例與正例的距離、基準(zhǔn)樣例與負(fù)例的距離。本文選用歐氏距離作為距離度量方式,將樣本特征向量映射到歐氏距離空間以實(shí)現(xiàn)三元組學(xué)習(xí)的目標(biāo)。
在訓(xùn)練微調(diào)階段,本文設(shè)計使用了基于三元組損失函數(shù)優(yōu)化過的目標(biāo)函數(shù)。在對易混淆文本,針對訓(xùn)練的同時保證普通文本不受影響,目標(biāo)函數(shù)如式(7)、式(8)所示。
Lwdtl為雙三元組損失,Lce表示傳統(tǒng)交叉熵(Cross Entropy,CE)損失。cm為預(yù)測類別屬于類別m的概率;gm是指示變量,如果文本預(yù)測類別和真實(shí)類別相同則為1,否則為0,α為超參數(shù),用于調(diào)節(jié)雙三元組損失權(quán)重。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
為檢驗(yàn)所提方法對易混淆文本的分類性能,本文使用微博情緒分類數(shù)據(jù)集nlpcc2014、外賣評論數(shù)據(jù)集waimai_10k以及譚松波博士整理的評論數(shù)據(jù)集ChnSentiCorp作為實(shí)驗(yàn)數(shù)據(jù)集。
數(shù)據(jù)集nlpcc2014來源于NLPCC2014任務(wù)中微博評論情緒識別,包含7種情感標(biāo)注,其中happiness類別3 301條、like類別5 760條、anger類別2 086條、sadness類別2 712條、fear類別363條、disgust類別3 751條、surprise類別1 061條。數(shù)據(jù)集waimai_10k來源于百度外賣用戶用餐評價,其中正向情感數(shù)據(jù)有4 001條,負(fù)向情感數(shù)據(jù)有7 987條。數(shù)據(jù)集ChnSentiCorp來源于譚松波收集關(guān)于酒店、筆記本和書籍相關(guān)的語料評論,其中,正向情感數(shù)據(jù)有5 322條,負(fù)向情感數(shù)據(jù)有2 444條。各數(shù)據(jù)集詳情如表2所示,實(shí)驗(yàn)數(shù)據(jù)按照8∶1∶1的比例劃分為訓(xùn)練集、測試集和驗(yàn)證集。
表2 數(shù)據(jù)集統(tǒng)計信息
3.1.2 實(shí)驗(yàn)參數(shù)設(shè)置
本文實(shí)驗(yàn)參數(shù)主要包括BERT模型參數(shù)、易混淆篩選器超參數(shù)和雙三元組損失參數(shù),具體模型參數(shù)配置如表3所示。
表3 模型參數(shù)配置
根據(jù)不同數(shù)據(jù)集的具體特征,對易混淆篩選器混淆類別閾值λ和三元組損失加權(quán)超參數(shù)α進(jìn)行了參數(shù)敏感性分析,最終選取最優(yōu)的參數(shù)作為實(shí)驗(yàn)參數(shù),各數(shù)據(jù)集表現(xiàn)最優(yōu)參數(shù)如表4所示。
表4 不同數(shù)據(jù)集參數(shù)
3.2.1 評價指標(biāo)
本文采用準(zhǔn)確率(Acc)和F1值對分類結(jié)果進(jìn)行評價,計算如式(9)~式(12)所示。
其中,TP(True Positive)表示事實(shí)為正樣本預(yù)測為正,FP(False Positive)表示事實(shí)為負(fù)樣本預(yù)測為正,TN(True Negative)表示事實(shí)為正樣本預(yù)測為負(fù),FN(False Negative)表示事實(shí)為負(fù)樣本預(yù)測為負(fù)。
3.2.2 對比實(shí)驗(yàn)
為評估所提方法針對易混淆文本的分類效果,本文以BERT作為基準(zhǔn)編碼器,并選取部分在困難樣本領(lǐng)域和易混淆文本中表現(xiàn)較好的方法與之進(jìn)行對比實(shí)驗(yàn)。
(1)EDA[3]: 通過對易混淆文本進(jìn)行數(shù)據(jù)增強(qiáng),平衡數(shù)據(jù)比例,提高模型對易混淆文本學(xué)習(xí)能力。
(2)Focal-Loss[19]: 構(gòu)建困難樣本損失函數(shù),緩解了少量易混淆文本和大量普通文本對分類器學(xué)習(xí)貢獻(xiàn)度不同的問題。
(3)OHEM[25]: 使用在線困難樣本挖掘的Add模式,直接將篩選出的易混淆文本加入到訓(xùn)練數(shù)據(jù),相較于Replace模式效果更好。
(4)Noisy-HEM[26]: 利用余弦距離過濾混淆文本,進(jìn)行損失優(yōu)化,同時微調(diào)階段之前加入噪聲提高泛化能力。本文選取該方法中的損失優(yōu)化作為對比實(shí)驗(yàn)。
(5)H-SCL[6]: 對易混淆文本進(jìn)行有監(jiān)督對比學(xué)習(xí),相較于無監(jiān)督對比學(xué)習(xí)方法UCL(Unsupervised Contrastive Learning),其隨機(jī)采樣性能更好。
不同方法在三個數(shù)據(jù)集上的準(zhǔn)確率(Acc)和F1值如表5所示。由實(shí)驗(yàn)結(jié)果可知,針對易混淆文本處理后的模型普遍優(yōu)于基準(zhǔn)模型BERT,在準(zhǔn)確率和F1值上都得到了一定的提升。其中,本文方法DTN4SC相比于其他所列舉方法,在三個公開數(shù)據(jù)集上整體表現(xiàn)更好。對于waimai_10k數(shù)據(jù)集和nlpcc2014數(shù)據(jù)集,本文方法對基準(zhǔn)模型效果提升最大,F1值分別提升了2.35%和3.16%。而對于ChnSentiCorp數(shù)據(jù)集,本文方法相較于Noisy-HEM方法效果欠佳。分析結(jié)果發(fā)現(xiàn)ChnSentiCorp數(shù)據(jù)集的平均長度為140,而waimai_10k和nlpcc2014數(shù)據(jù)集平均長度分別為40和50,短文本所含信息量少,其他方法很難學(xué)習(xí)其中的個性特征,而本文方法可以挖掘并對比同類和非同類之間的相似性和差異性,因此在對短文本的處理上會優(yōu)于其他方法;而長文本中所含信息豐富,各個方法都能較好地學(xué)習(xí)到文本中的特征模式,對基準(zhǔn)模型BERT的提升效果相近,其中Noisy-HEM方法效果最佳。
表5 各方法在不同數(shù)據(jù)集上的結(jié)果 (單位: %)
同時,為驗(yàn)證本文方法對不同分類模型的兼容性,進(jìn)一步說明本文方法對文本混淆問題的改善情況,分別使用近年來發(fā)布的其他模型LSTM、BERT-BiGRU[27]和XLNET-RCNN[28]替代本文所選分類模型進(jìn)行實(shí)驗(yàn),結(jié)果如表6所示。實(shí)驗(yàn)結(jié)果表明,將基準(zhǔn)模型BERT替換為其他分類模型,本文方法依然能使分類效果得到明顯的提升,對數(shù)據(jù)中易混淆文本進(jìn)一步聚類,可以明顯提升模型的分類性能,驗(yàn)證了本文方法不僅兼容大型預(yù)訓(xùn)練模型,而且也兼容傳統(tǒng)模型。同時,實(shí)驗(yàn)結(jié)果表明,在情感分類問題的研究中,對文本混淆問題進(jìn)行處理是十分必要的。
表6 DTN4SC方法在其他模型上的效果 (單位: %)
為測試易混淆文本篩選器閾值α和三元組損失權(quán)重參數(shù)λ對DTN4SC方法性能的影響。以數(shù)據(jù)集waimai_10k為例,本文選取了不同參數(shù)對模型進(jìn)行訓(xùn)練,繪制不同閾值和權(quán)重參數(shù)的三維曲線圖如圖5所示。
當(dāng)易混淆篩選器類別閾值α選取為0.04,且三元組損失權(quán)重λ選為0.3時,模型性能此時表現(xiàn)最優(yōu)。這是由于: ①當(dāng)篩選器閾值選取過小時,篩選器無法過濾出大部分易混淆文本,針對訓(xùn)練效果較差;當(dāng)篩選器閾值選取過大時,篩選器誤將普通樣本識別為易混淆文本,減弱了模型的泛化能力。②由于易混淆文本在總體樣本中占比不大,合適的三元組權(quán)重可以保證模型的性能。
為了深入挖掘出易混淆文本語義特征,本文在設(shè)計三元損失函數(shù)時構(gòu)建了兩組三元樣本組。對此,進(jìn)一步說明所提出的雙三元組損失函數(shù)相較于傳統(tǒng)三元組損失函數(shù)的性能效果,以此驗(yàn)證本文方法對混淆文本的改善程度,本文選取nlpcc2014數(shù)據(jù)集中易混淆的happiness、like和surprise三個類別,使用t-SNE算法(t-distributed Stochastic Neighbor Embedding)對測試集輸出的特征可視化處理,結(jié)果如圖6所示。
圖6 nlpcc2014測試集數(shù)據(jù)可視化
圖6(a)為基準(zhǔn)模型BERT訓(xùn)練過后在nlpcc2014測試集上happiness、like和surprise三個類別特征向量的二維空間表示,測試集數(shù)據(jù)在嵌入空間的分布情況較為散亂,文本混淆問題突出,模型的分類性能受到制約。圖6(b)使用傳統(tǒng)三元組損失構(gòu)建模型進(jìn)行訓(xùn)練,相較于圖6(a)不同類別之間距離有了明顯的差異,但happiness和like類別交錯堆疊問題突出,類內(nèi)之間距離較為分散。圖6(c)為使用本文方法DTN4SC優(yōu)化后的模型,明顯看出同類別之間的距離得到了拉近,混淆問題得到明顯改善,離群文本也得到了減少,這說明對易混淆文本進(jìn)行了修正加強(qiáng)了模型對情感數(shù)據(jù)的區(qū)分能力。但事實(shí)上,采用三元組損失無法消除樣本的錯誤移動,只能約束和抑制這種負(fù)面趨勢,因此圖6(b)和圖6(c)仍有不少互相交錯的離群樣本。
為進(jìn)一步說明所提方法的合理性,本文進(jìn)行了消融實(shí)驗(yàn)。
實(shí)驗(yàn)一是分別設(shè)計了使用傳統(tǒng)三元組損失構(gòu)建的方法和“去除易混淆文本動態(tài)加入下一批次步驟”的方法,消融實(shí)驗(yàn)結(jié)果如表7所示。從表中可以看出,相較于傳統(tǒng)三元組損失函數(shù)構(gòu)建的模型,本文提出的加權(quán)雙三元組損失函數(shù)對模型的提升效果更加明顯,對易混淆文本區(qū)分能力更強(qiáng)。同時,如果去除易混淆文本動態(tài)加入下一批次步驟,模型的分類性能會有一定的下降,證明了所提方法的合理性和有效性。
表7 消融實(shí)驗(yàn)結(jié)果 (單位: %)
實(shí)驗(yàn)二是進(jìn)一步探索出在不同混淆數(shù)據(jù)比例下的對比實(shí)驗(yàn)。
易混淆文本篩選器閾值決定了對混淆文本的容忍程度,不同數(shù)據(jù)集由于文本特性信息不同、質(zhì)量和長度不同,導(dǎo)致篩選器閾值最優(yōu)參數(shù)也不同,在其他超參數(shù)為最優(yōu)參數(shù)下,探究數(shù)據(jù)集混淆比例在什么范圍時,本文方法對基準(zhǔn)模型的性能提升較大,實(shí)驗(yàn)結(jié)果如圖7所示。不同篩選器閾值對基準(zhǔn)模型的性能提升差異明顯,但篩選器閾值選取范圍在0.03~0.1之間時,模型整體性能提升較為理想??s小了對不同數(shù)據(jù)集調(diào)參時選擇合適閾值超參數(shù)范圍,提高本文方法的適用性。
圖7 不同混淆比例下的準(zhǔn)確率
本文針對情感分類任務(wù)中易混淆文本對模型性能的影響,提出了基于雙三元組網(wǎng)絡(luò)的情感分類方法DTN4SC。該方法在構(gòu)建易混淆三元樣本組合時,更加關(guān)注易分類文本的個性特征,充分挖掘同類樣本之間的共有特性,并減弱混淆樣本帶來的負(fù)面影響;同時,將各批次篩選的易混淆加入到下一批次進(jìn)行訓(xùn)練,進(jìn)一步提高模型的分類能力和泛化能力。在三個公開的中文情感分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果充分證明了本文所提方法的有效性和合理性。但也存在著一些不足之處,比如易混淆篩選器閾值參數(shù)需要針對不同數(shù)據(jù)集進(jìn)行微調(diào)設(shè)置,缺乏靈活性。在下一步工作中,將嘗試對根據(jù)數(shù)據(jù)集整體樣本的平均距離生成自適應(yīng)的權(quán)重,進(jìn)一步實(shí)現(xiàn)對易混淆文本檢測的優(yōu)化。