国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)和情感詞典的情感分析模型

2022-06-14 09:22沈金金陳荔
情報(bào)工程 2022年2期
關(guān)鍵詞:詞典向量準(zhǔn)確率

沈金金 陳荔

上海理工大學(xué) 上海 200093

引言

隨著傳統(tǒng)信息傳播方式的改變以及互聯(lián)網(wǎng)用戶數(shù)量的爆炸式增長(zhǎng),研究人員愈發(fā)關(guān)注網(wǎng)絡(luò)數(shù)據(jù)所蘊(yùn)含的巨大價(jià)值。其中,從網(wǎng)民的觀點(diǎn)和評(píng)論中挖掘用戶的主觀性情感傾向?qū)τ谡墓芸?、社?huì)發(fā)展和商業(yè)決策等多個(gè)領(lǐng)域有著重大的指導(dǎo)意義。因此為了高效地從巨量互聯(lián)網(wǎng)文本資源中挖掘出用戶的情感傾向,情感分析作為自然語(yǔ)言處理的一大重要分支成為了近年來(lái)學(xué)界研究的熱門話題。它具有許多應(yīng)用場(chǎng)景,比如產(chǎn)品在線評(píng)論數(shù)據(jù)[1-3]、用戶體驗(yàn)感知[4],以及相關(guān)個(gè)性化推薦[5]等。

在早期比較傳統(tǒng)的方法是基于情感詞典的文本情感分類,是指根據(jù)所建立的詞典和語(yǔ)義規(guī)則計(jì)算情感分值最后判斷情感傾向。比較成熟的中文情感詞典有知網(wǎng)HowNet、NTUSD[6]等,英語(yǔ)情感詞典有sentiwordnet[7]等。許多學(xué)者在這些詞典的基礎(chǔ)上做了大量的研究。Ebert等[8]將詞典詞向量和語(yǔ)義詞向量合并取得了分類準(zhǔn)確率的提高。陳國(guó)蘭[9]根據(jù)微博文本的特點(diǎn)基于開(kāi)源詞典作出了改進(jìn),提出了微博文本情感計(jì)算方法。雖然基于情感詞典的方法應(yīng)用范圍比較廣且易于操作和理解,但是它過(guò)于依賴所創(chuàng)建的情感詞典,特別在社交文本的情感傾向分析方面,網(wǎng)絡(luò)新詞層出不窮,需要對(duì)情感詞典不斷地?cái)U(kuò)充才能保證情感分類的準(zhǔn)確率,詞典的構(gòu)建需要耗費(fèi)大量時(shí)間和資源且遷移性差。因此越來(lái)越多的研究者基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)情感分類任務(wù)進(jìn)行了研究,并證明了這兩種方法在情感分析任務(wù)上可以取得更高的準(zhǔn)確率[10]。Ahmad等[11]介紹了常見(jiàn)的基于機(jī)器學(xué)習(xí)的情感分類算法,例如SGD、隨機(jī)森林、SVM和最大熵等。Singh等[12]對(duì)樸素貝葉斯、J48、BFTree和OneR四種用于情感分析的機(jī)器學(xué)習(xí)分類器進(jìn)行了比較,其中樸素貝葉斯的學(xué)習(xí)速率比較快而OneR在分類準(zhǔn)確率上更勝一籌。深度學(xué)習(xí)模型可以挖掘隱含的文本特征,解決數(shù)據(jù)稀疏性問(wèn)題從而獲得更好的分類效果。Kim等[13]將卷積神經(jīng)網(wǎng)絡(luò)用于句子級(jí)情感分類任務(wù),并在多個(gè)基準(zhǔn)數(shù)據(jù)集上獲得了很好的結(jié)果。Zhu等[14]將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和多列卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合捕捉了更高層次的語(yǔ)義特征。然而基于深度學(xué)習(xí)的方法屬于有監(jiān)督學(xué)習(xí),其訓(xùn)練效果過(guò)于依賴訓(xùn)練文本的質(zhì)量而導(dǎo)致情感分類不準(zhǔn)確。

綜上所述,三種不同的情感分類算法均有自己的優(yōu)缺點(diǎn),因此論文嘗試結(jié)合基于情感詞典和深度學(xué)習(xí)的情感分類方法,充分利用情感詞典對(duì)特定領(lǐng)域情感詞的敏感程度以及深度學(xué)習(xí)在數(shù)據(jù)稀疏問(wèn)題和高層次文本特征提取方面的優(yōu)勢(shì),提出了基于多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)和情感詞典的情感分析模型(SD-DMN,Sentiment Dictionary with Dynamic Memory Network)。在情感分析領(lǐng)域中引入多跳動(dòng)態(tài)記憶網(wǎng)絡(luò),首先將基于注意力的GRU結(jié)構(gòu)與記憶單元結(jié)合構(gòu)建情節(jié)記憶模塊,可以對(duì)單詞權(quán)重進(jìn)行調(diào)整消除權(quán)重偏置問(wèn)題對(duì)分類結(jié)果的影響。其次將情節(jié)記憶模塊進(jìn)行疊加形成多跳結(jié)構(gòu)可以在更短的路徑上獲得長(zhǎng)距離依賴,記憶單元融合本層提取的特征以及歷史特征信息,利用記憶單元與通過(guò)單層GRU編碼得到的情感問(wèn)題向量進(jìn)行多次更新捕捉更深層次的非線性特征。同時(shí)構(gòu)建擴(kuò)充的網(wǎng)絡(luò)情感詞典作為動(dòng)態(tài)記憶網(wǎng)絡(luò)模型的輔助方法,充分發(fā)揮對(duì)網(wǎng)絡(luò)情感詞識(shí)別的敏感性優(yōu)勢(shì)。最后將兩個(gè)方法得到的情感分值進(jìn)行線性加權(quán)得到情感分類結(jié)果,減少深度學(xué)習(xí)模型中對(duì)于訓(xùn)練語(yǔ)料的依賴和參數(shù)設(shè)置的偏差以及情感詞典詞庫(kù)的覆蓋度對(duì)分類結(jié)果帶來(lái)的負(fù)面影響,提高模型的性能。

1 相關(guān)工作

1.1 基于情感詞典的情感分析

基于情感詞典的情感傾向分析就是利用標(biāo)注好的情感詞典和語(yǔ)法語(yǔ)義規(guī)則,找到文本中的種子情感詞以及與之相關(guān)的同義詞和反義詞最后得到情感詞集合,以達(dá)到挖掘并判斷主體對(duì)于某客體的內(nèi)在評(píng)價(jià)傾向的目的[15,16]。情感詞典最早由Hatzivassiloglou等[17]提出,之后大量的學(xué)者通過(guò)擴(kuò)充情感詞典以及改進(jìn)語(yǔ)義規(guī)則提高模型性能,并應(yīng)用于社交文本情感識(shí)別中。Georgios等[18]提出了一種基于情感詞典的無(wú)監(jiān)督方法對(duì)推特上的社交短文本進(jìn)行情感評(píng)估,在三個(gè)真實(shí)數(shù)據(jù)集上的準(zhǔn)確率都高于傳統(tǒng)機(jī)器學(xué)習(xí)方法。Ma等[19]、林江豪等[20]以及王志濤等[21]將表情符號(hào)加入情感詞典在社交平臺(tái)上進(jìn)行應(yīng)用得到了更準(zhǔn)確的情感分析結(jié)果。Maks等[22]通過(guò)不同詞性的組合建立了新的詞典模型用于情感分析和觀點(diǎn)挖掘。

1.2 融合注意力機(jī)制的情感分析

注意力機(jī)制可以使得神經(jīng)網(wǎng)絡(luò)能夠具備專注于特征子集的能力,用來(lái)自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的貢獻(xiàn)大小從而將注意力集中在更為重要的數(shù)據(jù)上,是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理方法。Attention機(jī)制其實(shí)最早于上世紀(jì)九十年代在視覺(jué)圖像領(lǐng)域被提出來(lái),但是直到2014年Google Mind 團(tuán)隊(duì)[23]在 RNN 模型上使用了Attention機(jī)制來(lái)進(jìn)行圖像分類才讓注意力機(jī)制開(kāi)始成為深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),與此同時(shí)也被廣泛應(yīng)用于情感分析領(lǐng)域。馮興杰等[24]、胡榮磊等[25]將注意力機(jī)制與其他例如CNN、LSTM等神經(jīng)網(wǎng)絡(luò)模型進(jìn)行拼接得到改進(jìn)的情感分析模型,其情感分類準(zhǔn)確率明顯高于單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型。宋云峰等[26]利用跨模態(tài)注意力機(jī)制將CNN和Bi-GRU提取的單模態(tài)內(nèi)部特征兩兩融合,通過(guò)實(shí)驗(yàn)證明情感分類的準(zhǔn)確率和召回率均有所提升。但是這些研究沒(méi)有將注意力機(jī)制融入模型改變其結(jié)構(gòu)而是進(jìn)行簡(jiǎn)單的拼接,因此學(xué)界開(kāi)始關(guān)注注意力機(jī)制的深入融合。王盛玉等[27]在卷積神經(jīng)網(wǎng)絡(luò)的詞嵌入層中增加注意力機(jī)制層以提取重要的局部特征,結(jié)果驗(yàn)證該模型擁有更高的情感分類準(zhǔn)確率。

1.3 記憶網(wǎng)絡(luò)

常見(jiàn)的擁有記憶功能的神經(jīng)網(wǎng)絡(luò)模型包括LSTM、GRU、RNN等模型,雖然在序列建模問(wèn)題上有一定優(yōu)勢(shì),在時(shí)間跨度較長(zhǎng)時(shí)能具備不錯(cuò)的預(yù)測(cè)效果,但是把這些信息壓縮成一個(gè)稠密的向量會(huì)丟失很多信息,為了解決長(zhǎng)距離記憶存儲(chǔ)的問(wèn)題,2015年Facebook AI實(shí)驗(yàn)室第一次提出了記憶神經(jīng)網(wǎng)絡(luò)(MemNN)[28]的概念。輸入文本和問(wèn)題經(jīng)過(guò)Input(輸入模塊)被編碼成特征向量的形式,輸入文本被傳送到Generalization(記憶更新模塊)中進(jìn)行記憶的讀寫,文本信息基本大部分被保留在記憶插槽中,Output(輸出模塊)根據(jù)問(wèn)題對(duì)記憶插槽中的信息進(jìn)行加權(quán)處理,然后抽取與問(wèn)題相關(guān)性最高的記憶組合向量,最后經(jīng)過(guò)Response(響應(yīng)模塊)將向量轉(zhuǎn)化為需要的自然語(yǔ)言答案,如圖1所示。

圖1 記憶網(wǎng)絡(luò)

然而對(duì)于復(fù)雜的輸入文本或者問(wèn)題而言,通過(guò)簡(jiǎn)單的前饋可能無(wú)法有效的將記憶組件中所有需要的信息挖掘出來(lái),因此Kumar等[29]提出了一種動(dòng)態(tài)的記憶網(wǎng)絡(luò)(DMN)用于問(wèn)答任務(wù),模型可以根據(jù)需要任意訪問(wèn)數(shù)據(jù)充分捕捉與問(wèn)題相關(guān)的句子特征信息。模型使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為數(shù)據(jù)處理的工具,因此可以廣泛應(yīng)用于其他自然語(yǔ)言處理任務(wù)中,解決了Memory Networks使用詞袋處理輸入的局限性。模型包括輸入、問(wèn)題、情節(jié)記憶和回答四部分,使用單向GRU對(duì)文本與問(wèn)題進(jìn)行編碼,在情節(jié)記憶模塊中引入基于注意力機(jī)制的GRU模型,注意力機(jī)制從前一輪迭代的輸入記憶結(jié)果以及問(wèn)題向量中進(jìn)行取舍提取特征向量以形成本輪的記憶,問(wèn)題通過(guò)多次的迭代注意過(guò)程得到最終的答案。

2 整體框架

針對(duì)情感詞典情感分類模型遷移性差以及深度學(xué)習(xí)模型過(guò)于依賴訓(xùn)練文本和參數(shù)的設(shè)置問(wèn)題,論文提出了一種結(jié)合情感詞典和深度學(xué)習(xí)的情感分類模型,使得模型學(xué)習(xí)到更深層次的語(yǔ)義情感特征,改善模型的分類性能。模型主要分為三個(gè)部分:1)利用多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)對(duì)文本進(jìn)行訓(xùn)練然后得到分類結(jié)果;2)對(duì)情感詞典進(jìn)行擴(kuò)充,基于情感詞典和語(yǔ)義規(guī)則計(jì)算文本的情感分值;3)將兩種方法所得的分值進(jìn)行線性加權(quán)得到最終的情感分值,完成情感分類任務(wù)。論文模型整體框架圖如圖2所示。

圖2 論文模型整體框架圖

2.1 構(gòu)建多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)

論文的深度學(xué)習(xí)模型部分引入了優(yōu)化的動(dòng)態(tài)記憶網(wǎng)絡(luò)作為模型的主干框架,將情感分類任務(wù)建模為一個(gè)問(wèn)答系統(tǒng)使輸入詞向量進(jìn)行多次前饋,每個(gè)詞嵌入表示都會(huì)被賦予權(quán)重,權(quán)重與其和問(wèn)題的相關(guān)性對(duì)應(yīng),經(jīng)過(guò)多計(jì)算層的注意力機(jī)制提取情感特征,再依據(jù)記憶更新機(jī)制得到和問(wèn)題最相關(guān)的最終句子特征表示。最后一個(gè)記憶模塊所提取的句子情感分類特征表示送入softmax層獲得最終的情感極性預(yù)測(cè)結(jié)果。

考慮到社交文本大多都是短文本,也可能包括擁有多個(gè)情感詞的復(fù)雜句式,論文引入了動(dòng)態(tài)記憶網(wǎng)絡(luò)以更好的捕捉時(shí)序信息。動(dòng)態(tài)記憶網(wǎng)絡(luò)是一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)框架,一般分為輸入模塊、問(wèn)題模塊、情節(jié)記憶模塊和答案模塊四個(gè)部分,常用于文本問(wèn)答,論文模型把情感極性分類建模為一個(gè)問(wèn)答系統(tǒng),將情節(jié)記憶模塊拆分為多跳注意力和記憶更新兩個(gè)部分,并將答案模塊單獨(dú)列為情感分類層。具體來(lái)說(shuō)首先設(shè)計(jì)與情感分類相關(guān)的問(wèn)題輸入到問(wèn)題模塊中,對(duì)其進(jìn)行編碼得到問(wèn)題向量表示,輸入模塊接收原始數(shù)據(jù),經(jīng)過(guò)語(yǔ)義挖掘?qū)又须p向GRU處理后生成句子特征向量,將其輸入到情節(jié)記憶模塊中,多跳結(jié)構(gòu)幫助注意力機(jī)制提取出與情感分類問(wèn)題最相關(guān)的子信息,并進(jìn)一步利用記憶更新機(jī)制高效的捕捉融合更精確的情感特征。多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)是多個(gè)注意力機(jī)制和記憶更新模塊的疊加,每經(jīng)過(guò)一個(gè)注意力機(jī)制提取模塊,都會(huì)根據(jù)最終的隱層狀態(tài)、問(wèn)題以及上一層提取的記憶計(jì)算本層的記憶,如此一來(lái)便完成了一次記憶更新。多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)結(jié)構(gòu)

假設(shè)用于訓(xùn)練句子級(jí)情感分析的語(yǔ)料庫(kù)為CS,語(yǔ)料庫(kù)中包含多條評(píng)論語(yǔ)句,其中將擁有n個(gè)詞的文本語(yǔ)句S表示為S={S1,S2…Si…Sn},Si表示句子中的第i個(gè)單詞,利用預(yù)訓(xùn)練好的word2vec詞向量得到句子的詞嵌入向量W={W1,W2…Wi…Wn},Wi表示句子中第i個(gè)詞的詞向量表示。本模塊的最終任務(wù)就是根據(jù)所建立的多跳動(dòng)態(tài)記憶網(wǎng)絡(luò)模型學(xué)習(xí)得到語(yǔ)句S的情感分類結(jié)果。動(dòng)態(tài)記憶網(wǎng)絡(luò)各層的具體任務(wù)如下所示:

(1)輸入模塊。該模塊將原始數(shù)據(jù)轉(zhuǎn)化為一組有序向量傳遞到情節(jié)記憶模塊中,在經(jīng)典的動(dòng)態(tài)記憶網(wǎng)絡(luò)模型中,常用單向GRU進(jìn)行簡(jiǎn)單的輸入處理,論文事先將原始輸入傳遞到雙向GRU模型中進(jìn)行輸入優(yōu)化,最終得到一個(gè)有序的句子特征表示其中N表示句子中包含的單詞數(shù)量,D1表示雙向GRU隱藏層輸出向量的維度。

(2)問(wèn)題模塊。論文的情感分類結(jié)果包括正向和負(fù)向兩種,因此針對(duì)情感極性分析結(jié)果設(shè)計(jì)對(duì)應(yīng)的問(wèn)題”這句句子的情感分析結(jié)果是?”將其映射為詞向量后利用單向GRU對(duì)其編碼得到向量其中q為單向GRU最終0的隱藏層狀態(tài),D2表示GRU網(wǎng)絡(luò)隱藏層輸出向量的維度。

(3)情節(jié)記憶模塊。情節(jié)記憶模塊主要由多個(gè)基于GRU的記憶提取注意力機(jī)制以及捕捉特征的記憶更新模塊兩部分疊加組成。這一模塊假設(shè)經(jīng)過(guò)k個(gè)注意力機(jī)制和記憶更新模塊以后得到的記憶單元mk可以包含與情感分類相關(guān)的所有信息。

(a)注意力機(jī)制

論文使用門控作為注意力機(jī)制,通過(guò)對(duì)輸入信息的加權(quán)求和提取記憶,構(gòu)建一個(gè)權(quán)重門替代GRU中的更新門,通過(guò)權(quán)重門控制輸入的事實(shí)因子ct,更好的結(jié)合問(wèn)題、上一層的記憶以及本次輸入的事實(shí)信息控制信息流動(dòng)。其中,權(quán)重門的計(jì)算如下:

其中⊙表示元素乘積,|·|是取絕對(duì)值,分號(hào)表示向量拼接,mk–1是上一層的記憶信息,ct是第t個(gè)事實(shí),Q為問(wèn)題向量,W3、W4和b3、b4為第k層注意力機(jī)制的參數(shù),公式1其實(shí)是在計(jì)算問(wèn)題向量、輸入向量與記憶單元之間的相似度,然后將其傳入公式2所示的兩層神經(jīng)網(wǎng)絡(luò)中并用softmax函數(shù)激活得到權(quán)重門gtk,從上述三個(gè)公式可以看出權(quán)重門與輸入門相比,雖然同樣具備決定信息流動(dòng)的能力,但是不僅考慮了輸入和前一時(shí)間步的記憶信息,而且包括前一層注意力機(jī)制提取的記憶信息以及事實(shí)因子,可以更好地決定重要信息的通過(guò)。

構(gòu)建權(quán)重門函數(shù)替代輸入門之后的流程與標(biāo)準(zhǔn)GRU類似,進(jìn)行隱藏層的更新,通過(guò)權(quán)重門和重置門得到GRU最終的隱藏層狀態(tài)用于記憶更新。主要的計(jì)算過(guò)程如下:

上述運(yùn)算式中的上標(biāo)k均表示第k層,W、U、b是需要學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),本文模型的GRU使用權(quán)重門gtk更新其內(nèi)部狀態(tài),rtk是第k層的重置門,用來(lái)控制候選狀態(tài)kth~與上一時(shí)刻的隱藏層狀態(tài)的依賴大小,公式(6)清楚的表現(xiàn)了權(quán)重門gtk可以決定從候選狀態(tài)中接收多少信息,并且能控制當(dāng)前隱藏狀態(tài)htk保留多少上一時(shí)刻隱藏狀態(tài)中的信息。如公式(7)所示傳送給最后一個(gè)用于情感分類的記憶模塊的是GRU的最終隱藏狀態(tài)ek,即經(jīng)過(guò)第k層基于注意力的GRU訓(xùn)練得到的最終隱藏狀態(tài),在本文中我們將ek稱之為情節(jié)向量,可把它看成第k層的事實(shí)聚焦,經(jīng)過(guò)多層的迭代運(yùn)算實(shí)現(xiàn)嵌入信息的注意力選擇。基于注意力的GRU內(nèi)部結(jié)構(gòu)模型如圖4所示。

圖4 基于注意力的GRU內(nèi)部結(jié)構(gòu)

(b)記憶更新

每一層的注意力機(jī)制都會(huì)生成一個(gè)新的情節(jié)向量,用于本層記憶單元的更新,動(dòng)態(tài)記憶網(wǎng)絡(luò)的記憶更新通常使用單層GRU,論文采用ReLU函數(shù)更新記憶,計(jì)算公式如下:

(4)答案模塊。在經(jīng)過(guò)k層動(dòng)態(tài)記憶網(wǎng)絡(luò)訓(xùn)練后,將記憶更新模塊最終的句子特征表示mk傳遞給情感分類層,由于論文所設(shè)計(jì)的情感分類問(wèn)題最終的答案是單個(gè)詞,因此可以直接用softmax函數(shù)作為線性層進(jìn)行情感極性預(yù)測(cè),主要公式為:

(5)模型訓(xùn)練。本模塊的訓(xùn)練以最小化情感極性預(yù)測(cè)序列的交叉熵誤差為目標(biāo),為了防止過(guò)擬合引入了L2正則化參數(shù),交叉熵?fù)p失函數(shù)的公式如下:

其中D是訓(xùn)練數(shù)據(jù)集,C為情感極性類別數(shù),論文共有正向和負(fù)向兩類,yd表示真實(shí)情感極性,是預(yù)測(cè)情感極性,λ||θ||2為正則項(xiàng),λ為L(zhǎng)2正則化權(quán)重參數(shù),θ為模型中所有參數(shù)的集合。

2.2 構(gòu)建情感詞典

使用情感詞典進(jìn)行情感分析是一種比較傳統(tǒng)的情感傾向分析方法,國(guó)內(nèi)外已經(jīng)有很多成熟的情感詞典。論文在其他研究的基礎(chǔ)上,整合了臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文情感詞典、知網(wǎng)Hownet情感詞典、清華大學(xué)李軍中文褒貶義詞典、BosonNLP網(wǎng)絡(luò)情感詞典以及一些人工定義的詞匯,并且融合了百度搜索引擎和小雞詞典中獲取的網(wǎng)絡(luò)新詞,最終整理得到正向詞匯14497個(gè),負(fù)向詞匯13906個(gè),程度副詞216個(gè),否定詞58個(gè)。詞典中主要包括基礎(chǔ)情感詞、程度副詞以及否定詞三類,主要設(shè)定如下:

(1)基礎(chǔ)情感詞:在計(jì)算情感值時(shí),將詞典中的正向情感詞設(shè)為1,負(fù)向情感詞設(shè)為-1,然后依次尋找句子中所有的情感詞進(jìn)行求和。

(2)程度副詞:在文本分析中,情感詞前出現(xiàn)的程度副詞往往能在很大程度上影響情感的強(qiáng)烈程度。當(dāng)文本匹配到詞典中的基礎(chǔ)情感詞以后,自情感詞向前尋找程度副詞并與所建立的程度副詞詞典匹配得到相應(yīng)的權(quán)重值,最后將基礎(chǔ)情感詞分值與程度副詞對(duì)應(yīng)的權(quán)重值相乘得到情感值。程度副詞的劃分如表1所示。

表1 程度副詞表

(3)否定詞:文本中是否存在否定詞對(duì)語(yǔ)義情感傾向起著至關(guān)重要的作用。如果情感詞之前出現(xiàn)否定詞,原先的情感傾向可能會(huì)出現(xiàn)截然相反的轉(zhuǎn)變。判斷基礎(chǔ)情感詞之前是否存在程度副詞之后,再判斷情感詞之前是否存在否定詞。如果存在否定詞且數(shù)量為奇數(shù),則進(jìn)行反轉(zhuǎn)取值[30],如果數(shù)量為偶數(shù),則情感值不變。論文所收錄的否定詞詞表如表2所示。

表2 否定詞表

2.3 情感值計(jì)算

論文的情感度計(jì)算包括兩個(gè)部分:(1)基于情感詞典的情感詞加權(quán)法。(2)基于動(dòng)態(tài)記憶網(wǎng)絡(luò)的softmax分類法。將兩個(gè)方法得到的情感分值進(jìn)行線性加權(quán)得到最終的情感分值,形成文本情感分類結(jié)果。

用情感詞加權(quán)法計(jì)算時(shí),將文本按照標(biāo)點(diǎn)符號(hào)劃分為若干分句。計(jì)算每個(gè)分句的情感分值,然后將分句的情感值相加得到整個(gè)句子的情感值,計(jì)算公式如下:

其中,S代表整個(gè)句子的情感值,wi表示第i個(gè)短句中程度副詞的權(quán)重,ui表示第i個(gè)短句中否定詞的權(quán)重,Eij表示第i個(gè)短句中第j個(gè)情感詞的分值。

用深度學(xué)習(xí)模型進(jìn)行情感分類時(shí),最終的softmax分類層得到的標(biāo)簽結(jié)果如下所示:

其中?y表示經(jīng)過(guò)深度模型訓(xùn)練后的句子情感分類結(jié)果,pi表示第i個(gè)標(biāo)簽情感分類估計(jì)的概率值。

基于深度學(xué)習(xí)的情感分類和基于情感詞典的情感分類都有各自的優(yōu)缺點(diǎn),將上述兩種方法的分類結(jié)果進(jìn)行加權(quán)可以提高情感識(shí)別的準(zhǔn)確率。

其中,α作為權(quán)重系數(shù)表示不同情感分類方法的重要程度。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為了評(píng)估論文模型的效果在WEIBO_SENTI_100K[31]和NLPCC2013[32]兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。這兩個(gè)數(shù)據(jù)集都是質(zhì)量比較高的微博情感分析數(shù)據(jù)集,其中WEIBO_SENTI_100K包含十萬(wàn)多條二分類微博文本,而NLPCC2013包含一萬(wàn)多條文本數(shù)據(jù),有七種情緒分類,本實(shí)驗(yàn)將喜悅、開(kāi)心合并為正向情感標(biāo)簽數(shù)據(jù),將厭惡、難過(guò)、生氣合并為負(fù)向情感標(biāo)簽數(shù)據(jù)。最終從經(jīng)過(guò)處理的WEIBO_SENTI_100K和NLPCC2013兩個(gè)二分類公開(kāi)數(shù)據(jù)集中隨機(jī)抽取一萬(wàn)條語(yǔ)料樣本數(shù)據(jù),將其按照4:1劃分為訓(xùn)練集和測(cè)試集,兩個(gè)數(shù)據(jù)集的具體分類情況如表3所示。

表3 數(shù)據(jù)集各類情感類別分布情況

3.2 評(píng)價(jià)指標(biāo)和模型參數(shù)

本實(shí)驗(yàn)在參考了Kumar等[7]使用DMN完成問(wèn)答任務(wù)實(shí)驗(yàn)中設(shè)置的參數(shù)基礎(chǔ)上,結(jié)合兩個(gè)數(shù)據(jù)集自身的特征調(diào)整了模型的超參數(shù),以使得模型的訓(xùn)練效果更好。文本的嵌入維度為80,選取文本數(shù)據(jù)的最大長(zhǎng)度作為標(biāo)準(zhǔn)長(zhǎng)度,對(duì)其余不足的文檔進(jìn)行補(bǔ)全并輸入到Bi-GRU中,隱藏層單元大小為80,DMN最終提取的特征向量維度為80,為了防止過(guò)擬合在全連接層中加入了dropout正則化技術(shù),主要的超參數(shù)設(shè)置如表4所示。

論文使用分類準(zhǔn)確率(Acc)、精確率(P)、召回率(R)以及F1-score作為評(píng)測(cè)指標(biāo)來(lái)評(píng)價(jià)模型性能并確定權(quán)重系數(shù)和各參數(shù)。各指標(biāo)公式如下所示:

其中,TP表示模型預(yù)測(cè)正確的正樣本,F(xiàn)N表示模型預(yù)測(cè)為negative的正樣本,F(xiàn)P表示模型預(yù)測(cè)為positive的負(fù)樣本,TN為模型預(yù)測(cè)正確的負(fù)樣本。

3.3 權(quán)重因子選擇

權(quán)重因子α的作用是以加權(quán)平衡的方式通過(guò)最終的準(zhǔn)確率判斷兩種模型在情感分類任務(wù)中的重要性程度從而使得模型具有一個(gè)更佳的性能。通過(guò)具體實(shí)驗(yàn),我們發(fā)現(xiàn)不同的權(quán)重因子選擇對(duì)分類準(zhǔn)確率的影響各不相同,結(jié)果如表5所示。

表5 權(quán)重因子α對(duì)比實(shí)驗(yàn)

從表5中不難發(fā)現(xiàn),在其他條件相同的前提下,對(duì)于兩個(gè)不同的數(shù)據(jù)集來(lái)說(shuō),情感詞典與動(dòng)態(tài)記憶網(wǎng)絡(luò)相結(jié)合的綜合模型基本上都比單獨(dú)的模型分類效果好,其中NLPCC2013的結(jié)果更佳,一個(gè)可能的原因是它本身的情感傾向更細(xì)膩,數(shù)據(jù)質(zhì)量更高。隨著權(quán)重因子越來(lái)越大,情感識(shí)別的準(zhǔn)確率呈現(xiàn)出先上升后下降的趨勢(shì),而當(dāng)權(quán)重因子α為0.2時(shí),兩個(gè)數(shù)據(jù)集都達(dá)到了他們最佳的情感分類準(zhǔn)確率,分別為87.75%和89%,因此我們選擇0.2作為論文模型的權(quán)重因子。與此同時(shí)也可以證明,相比起基于情感詞典的傳統(tǒng)分類模型,系統(tǒng)更依賴于動(dòng)態(tài)記憶網(wǎng)絡(luò)模型。

3.4 模型性能對(duì)比

為了評(píng)價(jià)論文提出的 SD-DMN 模型在兩個(gè)數(shù)據(jù)集上的有效性,實(shí)驗(yàn)中不僅將本文模型與單個(gè)情感詞典及動(dòng)態(tài)記憶網(wǎng)絡(luò)模型進(jìn)行對(duì)比,還在同等實(shí)驗(yàn)環(huán)境下與以下一些典型的機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)基準(zhǔn)模型進(jìn)行對(duì)比:

(a)RAE:該模型可以對(duì)比較復(fù)雜的短語(yǔ)進(jìn)行學(xué)習(xí)以了解其空間向量,是以遞歸自編碼器為基礎(chǔ)預(yù)測(cè)句子級(jí)情感分類的一種模型。

(b)Bayes:貝葉斯分類算法以貝葉斯定理為基礎(chǔ),首先確定特征屬性,然后通過(guò)分類器分別計(jì)算樣本屬于每一個(gè)類別的概率,取其最大值作為預(yù)測(cè)結(jié)果。

(c)BiLSTM:該模型將正向長(zhǎng)短期記憶網(wǎng)絡(luò)和負(fù)向長(zhǎng)短期記憶網(wǎng)絡(luò)整合并融入了注意力機(jī)制,是比較常用的一種神經(jīng)網(wǎng)絡(luò)模型。

(d)CNN:卷積神經(jīng)網(wǎng)絡(luò)模型通過(guò)卷積操作捕捉并表示特征向量,以得到分類結(jié)果。

(e)情感詞典:利用建好的詞庫(kù)以及自行設(shè)定的情感語(yǔ)義規(guī)則計(jì)算情感分值并實(shí)現(xiàn)分類,論文中的情感詞典結(jié)合了近年來(lái)普遍使用的幾大情感詞典以及最新的網(wǎng)絡(luò)用語(yǔ)。

(f)DMN:是一個(gè)包括輸入、輸出、問(wèn)題和情境記憶的問(wèn)答模型,結(jié)合Attention機(jī)制選擇出與問(wèn)題最相關(guān)的輸入向量,通過(guò)層層迭代生成記憶,最后結(jié)合記憶向量和問(wèn)題向量生成答案。

論文模型與上述基準(zhǔn)模型的對(duì)比實(shí)驗(yàn)結(jié)果如表6所示。

表6 基于WEIBO_SENTI_100K的模型對(duì)比實(shí)驗(yàn)結(jié)果

從表7中可以直觀的看出,機(jī)器學(xué)習(xí)方法(樸素貝葉斯、RAE)所得的情感分類效果明顯低于深度學(xué)習(xí)方法(BiLSTM、CNN、DMN),這是因?yàn)樯疃葘W(xué)習(xí)模型擁有強(qiáng)大的特征捕捉能力,可以通過(guò)海量數(shù)據(jù)的訓(xùn)練學(xué)習(xí)更精確的情感特征,而機(jī)器學(xué)習(xí)模型只能刻畫(huà)比較有限且簡(jiǎn)單的數(shù)據(jù)特征,因此分類效果不如深度學(xué)習(xí)方法好。

表7 基于NLPCC2013的模型對(duì)比實(shí)驗(yàn)結(jié)果

進(jìn)一步對(duì)比表中數(shù)據(jù)可以發(fā)現(xiàn)論文所提出的SD-DMN模型在兩個(gè)數(shù)據(jù)集中都取得了最高的情感分類準(zhǔn)確率、召回率和F1值。其中,論文模型在WEIBO_SENTI_100K的實(shí)驗(yàn)中取得了87.7%的準(zhǔn)確率,相比于單獨(dú)的情感詞典和動(dòng)態(tài)記憶網(wǎng)絡(luò)模型分別提高了6.9%和1.3%,F(xiàn)1值也相應(yīng)提高了4.6%和0.7%;在NLPCC2013中取得了高達(dá)89.1%的準(zhǔn)確率,同樣的比單獨(dú)的情感詞典和動(dòng)態(tài)記憶網(wǎng)絡(luò)模型分別提高了4.3%和1.2%。此外,論文模型與傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法相比模型性能都有了一定的提高。在上述基準(zhǔn)模型中分類效果最佳的是BiLSTM,而本文模型的準(zhǔn)確率、召回率和F1值在其基礎(chǔ)上均有所提升。從上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),樸素貝葉斯作為機(jī)器學(xué)習(xí)中的經(jīng)典模型分類效果不佳,主要原因可能是因?yàn)槠渌惴ㄔ肀容^簡(jiǎn)單相當(dāng)于一個(gè)判斷器的作用,由于短文本的語(yǔ)義稀疏性無(wú)法深度挖掘語(yǔ)義特征之間的聯(lián)系。RAE模型無(wú)法衡量節(jié)點(diǎn)之間的權(quán)重從而無(wú)法保證微博信息提取的準(zhǔn)確性。CNN和BiLSTM模型的情感分類結(jié)果相對(duì)比較好,可以提取局部的關(guān)鍵特征有效捕捉情感詞匯,但是單一的深度學(xué)習(xí)模型依賴于訓(xùn)練文本,對(duì)于新型詞匯的敏感度不高,并且當(dāng)句子中出現(xiàn)特殊情感詞或者多個(gè)情感詞時(shí)可能無(wú)法準(zhǔn)確識(shí)別而出現(xiàn)誤分類的情況。本文提出的混合模型可以更好的利用情感詞典與深度學(xué)習(xí)模型的優(yōu)勢(shì),在三個(gè)評(píng)價(jià)指標(biāo)上都得到了提升,可以證明本文模型的有效性。

3.5 錯(cuò)誤分析

雖然本文的模型與傳統(tǒng)的情感分類模型相比性能得到了提高,但是在測(cè)試時(shí)仍然能發(fā)現(xiàn)一些誤分類的樣本,例如表8所示。

表8 實(shí)驗(yàn)錯(cuò)誤結(jié)果示例

上述示例是比較典型四類誤分類樣本:

(1)未考慮情感方面項(xiàng)

可以發(fā)現(xiàn)第一個(gè)錯(cuò)誤樣本情感色彩濃烈,基于情感詞典的情感分類模型只關(guān)注到“血腥”“暴力”這些負(fù)面情感詞,但是忽略了情感詞所對(duì)應(yīng)的方面項(xiàng)是“影片”,雖然DMN模型識(shí)別到了句子的正傾向性,但最后混合模型的結(jié)果仍然偏向于負(fù)面。

(2)玩笑語(yǔ)氣

第二類錯(cuò)誤樣本是由于無(wú)法正確識(shí)別語(yǔ)氣導(dǎo)致的,例如樣本2中的“怪叔叔”“騷擾”等詞匯會(huì)誤導(dǎo)情感詞典將其歸為負(fù)向情感樣本,而基于深度學(xué)習(xí)的模型會(huì)聯(lián)系上下文語(yǔ)義進(jìn)行深層次的情感判斷,混合模型最后的結(jié)果因?yàn)榍楦性~典給出的負(fù)分值較大導(dǎo)致歸類錯(cuò)誤。

(3)微博文本的特殊性

樣本3與其他句子的不同點(diǎn)在于將圈出的用戶昵稱也涵蓋在內(nèi),在數(shù)據(jù)預(yù)處理時(shí)只是單純提取出中文字符的做法會(huì)把帶有情感色彩的昵稱也涵蓋在文本內(nèi),而昵稱內(nèi)容本不該影響句子的情感分類,這也是第三類樣本情感傾向判斷錯(cuò)誤的主要原因。

(4)無(wú)情感詞

第四類樣本沒(méi)有明顯的情感詞,所以在情感詞典中傾向于把樣本認(rèn)為是中性的,此時(shí)情感分類結(jié)果完全取決于深度學(xué)習(xí)模型,此時(shí)的混合模型無(wú)法起到平衡分值的作用。

從上述的分析中可以對(duì)現(xiàn)有模型做后續(xù)的改進(jìn)。首先在預(yù)處理過(guò)程中可以提前識(shí)別并去除用戶昵稱;其次可以結(jié)合文本的表情符號(hào)判斷文本的語(yǔ)氣從而改變語(yǔ)氣詞的程度分值;最后現(xiàn)有情感詞典所覆蓋的情感詞是有限的。由于很多像微博這樣的社交平臺(tái)的核心都是UGC(用戶輸出內(nèi)容),網(wǎng)絡(luò)新詞的迭代速度非??烨揖哂锌谡Z(yǔ)化、非正式化的特點(diǎn)使得模型的泛化能力降低,因此可以引入PMI算法計(jì)算新詞與現(xiàn)有詞之間的語(yǔ)義相似度,將新詞加入情感詞典中。

3.6 模型多跳結(jié)構(gòu)分析

為了分析SD-DMN模型的多跳結(jié)構(gòu)對(duì)于整個(gè)模型性能的有效性以及不同跳數(shù)設(shè)置對(duì)于不同數(shù)據(jù)集的影響,在兩個(gè)數(shù)據(jù)集上取不同跳數(shù)做對(duì)比實(shí)驗(yàn),以獲得對(duì)于每個(gè)數(shù)據(jù)集最佳的跳數(shù)設(shè)置,提升模型性能。分別繪制出跳數(shù)在1~8范圍中變化的兩個(gè)數(shù)據(jù)集的情感分類準(zhǔn)確率,準(zhǔn)確率結(jié)果如圖5和圖6所示。

圖5 不同跳數(shù)下數(shù)據(jù)集 WEIBO_SENTI_100K 上的分類準(zhǔn)確率

圖6 不同跳數(shù)下數(shù)據(jù)集 NLPCC2013上的分類準(zhǔn)確率

從兩張實(shí)驗(yàn)結(jié)果圖中我們可以發(fā)現(xiàn),對(duì)于不同的數(shù)據(jù)集來(lái)說(shuō),模型的最優(yōu)跳數(shù)是不同的,其中WEIBO_SENTI_100K數(shù)據(jù)集的最優(yōu)跳數(shù)為5,對(duì)應(yīng)的準(zhǔn)確率為87.35%;NLPCC2013數(shù)據(jù)集的最優(yōu)跳數(shù)為6,對(duì)應(yīng)的準(zhǔn)確率為88.59%。通過(guò)兩張圖的對(duì)比我們可以發(fā)現(xiàn),準(zhǔn)確率的變化折線圖是不規(guī)則的,并沒(méi)有一個(gè)標(biāo)準(zhǔn)的形狀,但是他們有共同的趨勢(shì),隨著跳數(shù)的增加,模型的分類準(zhǔn)確率會(huì)逐漸上升至一個(gè)最優(yōu)值,隨著跳數(shù)的繼續(xù)增加,模型的分類準(zhǔn)確率呈現(xiàn)下降的趨勢(shì),這是因?yàn)槿绻洃浘W(wǎng)絡(luò)的層數(shù)過(guò)多可能會(huì)導(dǎo)致過(guò)擬合問(wèn)題的出現(xiàn)。這表明,動(dòng)態(tài)記憶網(wǎng)絡(luò)的多跳結(jié)構(gòu)可以優(yōu)化模型的性能,特定記憶模塊的疊加結(jié)構(gòu)可以讓模型提取到更深層次、更準(zhǔn)確的語(yǔ)義信息,但是一味的增加記憶模塊數(shù)量會(huì)使得訓(xùn)練參數(shù)過(guò)多,反而降低模型的性能。

4 結(jié)束語(yǔ)

本文針對(duì)網(wǎng)絡(luò)短文本的特點(diǎn),通過(guò)閱讀大量文獻(xiàn)和已有研究成果,發(fā)現(xiàn)在文本情感分析方面主要的研究逐漸從傳統(tǒng)情感詞典分類轉(zhuǎn)向了機(jī)器學(xué)習(xí)和深度學(xué)習(xí),三種情感分類策略各有其獨(dú)有的優(yōu)勢(shì)和缺陷,因此論文在其他研究的基礎(chǔ)上,提出了融合情感詞典和深度學(xué)習(xí)的情感分類模型。模型首先利用擴(kuò)充的網(wǎng)絡(luò)情感詞典和設(shè)定的語(yǔ)義規(guī)則計(jì)算情感分值,其次將情感分析設(shè)計(jì)為問(wèn)答任務(wù),引入動(dòng)態(tài)記憶網(wǎng)絡(luò),結(jié)合改進(jìn)的多跳記憶結(jié)構(gòu)進(jìn)一步挖掘深層次的文本特征,最后將基于詞典和基于優(yōu)化動(dòng)態(tài)記憶網(wǎng)絡(luò)的情感分值進(jìn)行線性加權(quán)得到最終的情感分類結(jié)果。經(jīng)實(shí)驗(yàn)驗(yàn)證,論文模型在WEIBO_SENTI_100K和NLPCC2013兩個(gè)數(shù)據(jù)集上的分類效果較流行的基線模型有一定的提高,并且多跳結(jié)構(gòu)對(duì)于模型性能的提高也有一定的作用。雖然文本模型構(gòu)建的初衷是基于社交文本的情感分類,但是可以利用混合模型的優(yōu)勢(shì)實(shí)現(xiàn)跨領(lǐng)域分類。動(dòng)態(tài)記憶網(wǎng)絡(luò)中的多個(gè)注意力機(jī)制可以充分捕捉文本中的重要情感詞匯,根據(jù)領(lǐng)域文本的特點(diǎn)通過(guò)擴(kuò)充和更改情感詞典以及規(guī)則改進(jìn)等方法可以將該混合模型遷移到金融、醫(yī)療等專業(yè)領(lǐng)域,大大降低不同領(lǐng)域特征分布的差異導(dǎo)致的誤分類問(wèn)題。

但是論文模型在未來(lái)仍然有可提升的空間,情感詞典和語(yǔ)言/規(guī)則需要進(jìn)一步的擴(kuò)充和完善,例如需要考慮否定詞、程度詞與情感詞的位置關(guān)系,以進(jìn)一步提高詞典分類策略的質(zhì)量。此外,動(dòng)態(tài)記憶網(wǎng)絡(luò)的情境記憶模塊可以加入詞性等輔助信息讓模型更高效的挖掘出復(fù)雜信息,優(yōu)化模型性能。

猜你喜歡
詞典向量準(zhǔn)確率
向量的分解
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
聚焦“向量與三角”創(chuàng)新題
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
詞典引發(fā)的政治辯論由來(lái)已久 精讀
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
向量垂直在解析幾何中的應(yīng)用
和田县| 大荔县| 沂源县| 泗水县| 左云县| 马山县| 太和县| 刚察县| 南昌县| 瓮安县| 温泉县| 河曲县| 来宾市| 阿图什市| 晋城| 图木舒克市| 娄底市| 绥阳县| 思茅市| 大荔县| 潞西市| 眉山市| 射阳县| 大兴区| 泸定县| 克什克腾旗| 乌海市| 甘洛县| 淮南市| 百色市| 武义县| 东乡| 青阳县| 双柏县| 开原市| 凌云县| 洛川县| 读书| 大荔县| 犍为县| 云浮市|