張永成,王懷彬
(天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們?cè)谏缃痪W(wǎng)絡(luò)上的交流愈發(fā)活躍,愈來愈多的網(wǎng)絡(luò)用戶通過社交媒體發(fā)表自己的意見和評(píng)論。對(duì)網(wǎng)絡(luò)評(píng)論文本中的信息進(jìn)行情感分析和信息挖掘,有助于更高效地作出決策[1]。文本情感分析又被稱為意見挖掘[2],它運(yùn)用自然語言處理、文本挖掘和計(jì)算機(jī)語言學(xué)等方法,遵循對(duì)需要處理的主觀信息加以識(shí)別和提取的原則。將具有主觀情緒的文本加以處理、分析和推理,進(jìn)而提取出其中的感情傾向是文本情感分析的主要任務(wù)。因其在微博輿情分析、電商打分評(píng)價(jià)系統(tǒng)和新聞報(bào)道感情分析等任務(wù)中有著較為廣泛的應(yīng)用,所以自面世以來就受到了研究領(lǐng)域內(nèi)外的廣泛關(guān)注和認(rèn)同。盡管在被關(guān)注前,就已有相關(guān)領(lǐng)域人員做過類似的深入研究,但限于互聯(lián)網(wǎng)等條件影響,無法進(jìn)行大規(guī)模的研究。隨著時(shí)代的發(fā)展,大數(shù)據(jù)時(shí)代的到來,獲得信息的途徑不斷增加,如何在獲取的互聯(lián)網(wǎng)的海量文本中提取更有意義的信息,是當(dāng)前需要解決的問題,也是相關(guān)領(lǐng)域中備受關(guān)注的熱門研究話題。
近年來,基于深度學(xué)習(xí)的方法在自然語言處理領(lǐng)域的情感分析子任務(wù)中有許多成功案例[3]。在情感分析任務(wù)中,現(xiàn)有的深度學(xué)習(xí)模型常常用softmax函數(shù)做最后的分類輸出,但softmax在輸出層面上并不會(huì)考慮上下文之間的關(guān)系,這會(huì)直接導(dǎo)致輸出結(jié)果可能產(chǎn)生錯(cuò)誤。
針對(duì)上述問題,本文提出一種基于注意力機(jī)制(attention)結(jié)合雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional gated recurrent unit neural network,BiGRU)和條件隨 機(jī) 場(chǎng)(conditional random field,CRF)的Att-BiGRU-CRF模型,該模型使用BiGRU捕捉文本的語義結(jié)構(gòu)和特征信息,通過注意力機(jī)制調(diào)整偏重,同時(shí)使用CRF作為分類器,在輸出層也考慮了上下文之間的關(guān)系,有效地提高了輸出結(jié)果的準(zhǔn)確率。
目前,文本情感分析的方法主要包含以下3種:基于詞典的文本情感分析方法、基于機(jī)器學(xué)習(xí)的文本情感分析方法和基于深度學(xué)習(xí)的文本情感分析方法[4]。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,數(shù)據(jù)大爆炸時(shí)代的到來,基于詞典的文本情感分析方法和基于機(jī)器學(xué)習(xí)的文本情感方法逐漸退出歷史的舞臺(tái),基于深度學(xué)習(xí)的文本情感分析方法已經(jīng)有了較為成熟的應(yīng)用。
孫志遠(yuǎn)等[5]提出了深度學(xué)習(xí)的概念,神經(jīng)網(wǎng)絡(luò)等技術(shù)由此應(yīng)運(yùn)而生。起初,神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖形圖像處理領(lǐng)域,但隨著科研人員的不斷研究與探索,深度學(xué)習(xí)的核心技術(shù)逐漸得以成熟,因此神經(jīng)網(wǎng)絡(luò)技術(shù)在其他領(lǐng)域也得到了廣泛的應(yīng)用。在自然語言處理領(lǐng)域,研究人員也開始嘗試將深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)融入其中。LECUN等[6]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用到文本情感極性研究領(lǐng)域。KIM[7]首次將CNNs應(yīng)用到文本分類任務(wù)上。MIKOLOV等[8]提出將循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)應(yīng)用到文本分類任務(wù),RNN能夠充分學(xué)習(xí)上下文文本之間的關(guān)系,但是存在著一系列梯度爆炸和信息丟失等問題[9]。為了解決RNN在情感分析任務(wù)中出現(xiàn)的問題,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[10]、門控循環(huán)單元[11]、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short-term memory networks,BiLSTM)和BiGRU[12]等方法被接連提出。
注意力機(jī)制起初應(yīng)用于計(jì)算機(jī)視覺圖像領(lǐng)域,為了解決模型訓(xùn)練時(shí)間過長(zhǎng)和文本特征提取不充分等問題,研究人員開始將融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語言處理領(lǐng)域。文獻(xiàn)[13]提出了基于注意力機(jī)制的C-GRU模型,該模型能夠更有效地捕捉文本信息,相比于傳統(tǒng)模型,其準(zhǔn)確率和綜合評(píng)價(jià)值得到了提升。鄭雄風(fēng)等[14]提出了BiGRU和注意力機(jī)制的用戶和產(chǎn)品文本分類模型,達(dá)到了提高模型的訓(xùn)練速度和準(zhǔn)確率的效果。趙勤魯?shù)萚15]提出了LSTM-注意力機(jī)制模型,該模型能夠更加充分地提取文本語義結(jié)構(gòu)信息。朱星嘉等[16]提出了改進(jìn)的基于注意力機(jī)制的LSTM特征選擇模型,有效地突出了文本的重點(diǎn)特征信息。白靜等[17]提出使用BiLSTM-CNN-注意力機(jī)制的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行2種特征融合的分類。司念文等[18]提出的注意力機(jī)制和LSTM混合模型能有效地對(duì)中文詞性進(jìn)行標(biāo)注。
與現(xiàn)有的研究不同,本文使用BiGRU減少了模型的參數(shù),解決了訓(xùn)練時(shí)間長(zhǎng)和梯度消失問題,并且融合了注意力機(jī)制,突出文本的重點(diǎn)信息,進(jìn)一步提取文本的語義特征。本文還結(jié)合CRF分類器,輸出最優(yōu)序列結(jié)果,避免了非法輸出問題,以期模型得到更高的綜合評(píng)價(jià)值,達(dá)到更好的情感分類效果。
本文提出的Att-BiGRU-CRF模型框架如圖1所示。其主要由3個(gè)部分組成:BiGRU神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制和CRF分類器。
圖1 Att-BiGRU-CRF模型框架Fig.1 Att-BiGRU-CRF model framework
該模型在情感分析任務(wù)中的處理流程如下:
1)嵌入層:該層將預(yù)處理后的語料數(shù)據(jù)通過預(yù)訓(xùn)練詞向量以詞嵌入的方式轉(zhuǎn)換成詞向量輸入到下一層。
2)BiGRU層:將嵌入層輸出的詞向量作為BiGRU語言模型的輸入,通過BiGRU提取文本的語義信息和特征結(jié)構(gòu)。
3)注意力機(jī)制層:通過注意力計(jì)算學(xué)習(xí)每個(gè)詞語對(duì)句子情感傾向的權(quán)重,從而學(xué)習(xí)到對(duì)分類結(jié)果影響較大的重點(diǎn)詞語,突出詞向量的重點(diǎn)信息。
4)CRF層:將CRF作為分類器,獲取情感標(biāo)簽,計(jì)算序列最優(yōu)解,輸出最終結(jié)果。
門控循環(huán)記憶神經(jīng)網(wǎng)絡(luò)[19](gated recurrent unit neural network,GRU)是對(duì)LSTM的一種簡(jiǎn)化與改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型。在LSTM神經(jīng)網(wǎng)絡(luò)模型中,一個(gè)LSTM模塊是由輸入門(it)、遺忘門(ft)和輸出門(ot)3種門控單元組成的。輸入門(it)確定哪些信息必須存儲(chǔ)在神經(jīng)單元中,遺忘門(ft)確定哪些信息必須被丟棄,輸出門(ot)則顯示最終結(jié)果。而在GRU神經(jīng)網(wǎng)絡(luò)中,LSTM中的3種門控單元被更新門(zt)和重置門(rt)所取代,通過這種方式減少模型的參數(shù)和張量,使得GRU比LSTM更簡(jiǎn)潔、更高效,GRU單元如圖2所示。
圖2 GRU單元Fig.2 GRU unit
GRU通過一個(gè)當(dāng)前輸入xt和上一個(gè)節(jié)點(diǎn)傳遞下來的隱狀態(tài)ht-1來獲取兩個(gè)門控的信息。
重置門rt:
更新門zt:
得到門控信息后,將當(dāng)前輸入xt與重置后的數(shù)據(jù)進(jìn)行拼接,再通過tanh激活函數(shù)激活得到當(dāng)前隱藏節(jié)點(diǎn)的輸出:
最后進(jìn)入“更新記憶”階段,更新表達(dá)式為:
式(1)、式(2)和式(3)中,Wr、Wz、W表示相對(duì)應(yīng)的權(quán)重矩陣。
注意力機(jī)制[20]就是從大量信息中選擇相對(duì)重要的信息。注意力機(jī)制可以表征文本句子中單詞與輸出結(jié)果之間的關(guān)聯(lián),并顯示句子中每個(gè)單詞的重要性,因此可以成功地應(yīng)用于自然語言處理的各種任務(wù)。注意力機(jī)制的核心思想是將注意力權(quán)重α輸入到輸入序列當(dāng)中,對(duì)相關(guān)信息的位置集進(jìn)行優(yōu)先考慮,以生成下一個(gè)輸出特征。在本文提出的模型中,注意力機(jī)制主要對(duì)輸入矩陣H進(jìn)行注意力計(jì)算,使模型在進(jìn)一步提取特征時(shí),將注意力集中在與情感相關(guān)的詞語上,弱化與情感無關(guān)的干擾詞的權(quán)重,從而達(dá)到提高模型正確率的效果。首先將輸入矩陣H中的每個(gè)隱狀態(tài)與方面向量va,i相拼接,然后計(jì)算注意力值,最后,再通過加權(quán)平均的方法來確定有關(guān)特定方面的文本表示vc,i。具體計(jì)算公式為:
式中,i為第i個(gè)方面注意力模塊,Wa,i為注意力的權(quán)重矩陣,ba,i為注意力的偏置項(xiàng)。
CRF模型是由LAFFERTY等[21]提出的一種無向圖模型,它結(jié)合了最大熵模型和隱馬爾科夫模型的特點(diǎn),是典型的判別式模型,通常應(yīng)用于序列標(biāo)記的任務(wù)中。CRF的參數(shù)化表達(dá)式中定義了狀態(tài)特征函數(shù)、狀態(tài)轉(zhuǎn)移函數(shù)和預(yù)測(cè)序列的條件概率公式[22]。
定義矩陣Pm×n為Att-BiGRU層的輸出,n=[Max_length×0.8],[]表示取數(shù)值的整數(shù)部分,Max_length表示語料數(shù)據(jù)的最大句子長(zhǎng)度,m表示標(biāo)簽類別的個(gè)數(shù),Pij表示句中第i個(gè)字是第j個(gè)標(biāo)簽的概率。定義狀態(tài)轉(zhuǎn)移矩陣A(m+2)×(m+2),其中Aij表示在一個(gè)連續(xù)的時(shí)間段內(nèi),第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率。對(duì)于預(yù)測(cè)序列y,其概率可以表示為:然后通過softmax層計(jì)算出所有類別標(biāo)簽的概率。
相比于逐幀softmax,CRF在輸入層顯著地考慮了上下文之間的聯(lián)系,應(yīng)用在情感分析任務(wù)中可以避免一些非法的輸出。因此,本文采用CRF作為模型的分類器,以輸出情感分析任務(wù)的最優(yōu)結(jié)果,提高輸出的正確率。
實(shí)驗(yàn)數(shù)據(jù)集使用的是譚松波老師的酒店評(píng)論語料,數(shù)據(jù)集內(nèi)分為2個(gè)文件夾,分別為pos文件和neg文件,每個(gè)文件內(nèi)有2 000個(gè)txt文件,共4 000條酒店評(píng)論文本。其中,pos文件夾內(nèi)的數(shù)據(jù)帶有標(biāo)簽1,表示好評(píng);neg文件夾內(nèi)的數(shù)據(jù)帶有標(biāo)簽0,表示差評(píng)。將數(shù)據(jù)隨機(jī)打亂順序后,以9∶1的比例劃分,取其中3 600條數(shù)據(jù)作為訓(xùn)練樣本,其余400條數(shù)據(jù)作為測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)劃分如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)劃分Tab.1 Statistics of experimental data
在實(shí)驗(yàn)中,預(yù)訓(xùn)練詞向量模型采用的是北京師范大學(xué)中文信息處理研究所與中國(guó)人民大學(xué)數(shù)據(jù)庫(kù)與智能信息檢索實(shí)驗(yàn)室(database &intelligent information retrieval laboratory,DBIIR Lab.)的研究者開發(fā)的預(yù)訓(xùn)練詞向量模型(Chinese-wordvectors),其中每個(gè)詞向量的維度為300維。在模型參數(shù)設(shè)置中,隱藏層維數(shù)設(shè)置為216,學(xué)習(xí)率設(shè)置為0.001,epoch設(shè)置為50,batch-size設(shè)置為20。同時(shí)在每層神經(jīng)網(wǎng)絡(luò)中加入dropout層,dropout設(shè)置為0.5,已達(dá)到避免過擬合現(xiàn)象發(fā)生的目的。梯度更新規(guī)則使用的是Adam優(yōu)化器。
評(píng)價(jià)標(biāo)準(zhǔn)使用深度學(xué)習(xí)中常用的3種評(píng)價(jià)標(biāo)準(zhǔn),分別為準(zhǔn)確率(Pacc)、召回率(Prec)和綜合評(píng)價(jià)值F1,計(jì)算公式為:
式(8)、式(9)和式(10)中,TP表示真陽性,即判斷正確且把正的標(biāo)簽判斷為正的數(shù)量;TN表示真陰性,即判斷正確且把負(fù)的標(biāo)簽判斷為負(fù)的數(shù)量;FP表示假陽性,即判斷錯(cuò)誤且把負(fù)的標(biāo)簽錯(cuò)判為正的數(shù)量;FN表示假陰性,即判斷錯(cuò)誤且把正的標(biāo)簽錯(cuò)判為負(fù)的數(shù)量。
為了驗(yàn)證本文提出的模型的優(yōu)越性,本文設(shè)置了3組對(duì)比模型:
1)BiGRU:它能夠捕捉詞語的前后時(shí)間關(guān)系,有效地提取詞語之間的依賴關(guān)系。
2)Att-BiLSTM:融合注意力機(jī)制的BiLSTM,能夠突出重點(diǎn)詞向量信息。
3)Att-BiGRU:融合注意力機(jī)制的BiGRU模型,能夠針對(duì)有效詞語提取特征,避免無意義詞語對(duì)情感的干擾。
將本文提出的Att-BiGRU-CRF模型與3個(gè)對(duì)比模型在譚松波老師的酒店評(píng)論語料數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,以準(zhǔn)確率、召回率和F1為評(píng)價(jià)指標(biāo),驗(yàn)證本文模型的有效性及優(yōu)越性。每個(gè)模型訓(xùn)練10次,實(shí)驗(yàn)結(jié)果取平均值,不同模型在數(shù)據(jù)集上的分類結(jié)果如表2所示,實(shí)驗(yàn)結(jié)果如圖3所示。
表2 不同模型在數(shù)據(jù)集上的分類結(jié)果Tab.2 Classification results of different models on the dataset
圖3 實(shí)驗(yàn)結(jié)果Fig.3 Experimental result
由表2和圖3可知,Att-BiGRU模型對(duì)比于BiGRU模型,準(zhǔn)確率提高了3.79%,召回率提高了0.57%,F(xiàn)1值提高了2.09%,這表示注意力機(jī)制的加入使得模型能夠進(jìn)一步提取文本的語義信息,達(dá)到提高情感分類的效果;Att-BiGRU模型對(duì)比于Att-BiLSTM模型,準(zhǔn)確率提高了0.65%,召回率提高了0.84%,F(xiàn)1提高了2.09%,這表示BiGRU神經(jīng)網(wǎng)絡(luò)的性能要優(yōu)于BiLSTM神經(jīng)網(wǎng)絡(luò),訓(xùn)練速度更快,分類結(jié)果更好;Att-BiGRU-CRF模型對(duì)比于Att-BiGRU模型,準(zhǔn)確率提高了4.54%,召回率提高了2.04%,F(xiàn)1值提高了3.27%,這驗(yàn)證了CRF結(jié)合注意力機(jī)制在情感分析任務(wù)中的可行性及優(yōu)越性,表明了本文提出的方法能夠有效地解決情感分析任務(wù)中文本特征提取不充分和分類結(jié)果準(zhǔn)確率低的問題。
本文提出了一種結(jié)合注意力機(jī)制與CRF分類器的Att-BiGRU-CRF模型,首先通過BiGRU充分提取文本語義信息,然后使用注意力機(jī)制學(xué)習(xí)每個(gè)詞語對(duì)句子情感傾向影響的權(quán)重,進(jìn)一步提取重點(diǎn)詞語的特征結(jié)構(gòu),最后使用CRF分類器輸出最優(yōu)分類結(jié)果。該模型能夠有效地解決現(xiàn)有情感分析任務(wù)中訓(xùn)練時(shí)間長(zhǎng)、特征提取不充分等問題,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的方法的有效性。未來工作中,將結(jié)合漢字拼寫自動(dòng)糾錯(cuò)知識(shí),針對(duì)情感分析任務(wù),進(jìn)一步提高模型的準(zhǔn)確率。