梁 軍,柴玉梅,原慧斌,高明磊,昝紅英
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2. 中國核科技信息與經(jīng)濟(jì)研究院,北京 100048)
?
基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析
梁 軍1,柴玉梅1,原慧斌2,高明磊1,昝紅英1
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2. 中國核科技信息與經(jīng)濟(jì)研究院,北京 100048)
長短時(shí)記憶(long short term memory,LSTM)是一種有效的鏈?zhǔn)窖h(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,R2NN*為了與遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)進(jìn)行區(qū)別,本文稱之為R2NN。),被廣泛用于語言模型、機(jī)器翻譯、語音識(shí)別等領(lǐng)域。但由于該網(wǎng)絡(luò)結(jié)構(gòu)是一種鏈?zhǔn)浇Y(jié)構(gòu),不能有效表征語言的結(jié)構(gòu)層次信息,該文將LSTM擴(kuò)展到基于樹結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)上,用于捕獲文本更深層次的語義語法信息,并根據(jù)句子前后詞語間的關(guān)聯(lián)性引入情感極性轉(zhuǎn)移模型。實(shí)驗(yàn)證明本文提出的模型優(yōu)于LSTM、遞歸神經(jīng)網(wǎng)絡(luò)等。
LSTM,遞歸神經(jīng)網(wǎng)絡(luò),情感分析
近年來隨著學(xué)者對深度學(xué)習(xí)的不斷探索,其在圖像、語音識(shí)別領(lǐng)域都取得了重大進(jìn)展。與此同時(shí)NLP領(lǐng)域眾多學(xué)者也在進(jìn)行各種深入研究,尤其在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行語言模型建立、文本特征學(xué)習(xí)和短文本情感分析方向上都有突破。
在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行文本特征學(xué)習(xí)時(shí)首先要面對的問題就是對文本數(shù)據(jù)建模,通常有三種模型: 詞袋模型(bag-of-words model)、序列化模型(sequence model)和結(jié)構(gòu)化模型(structure model)。這三種模型各有優(yōu)劣,對于詞袋模型,文本被看作是無序的詞匯集合,忽略語法甚至是單詞的順序,該模型被廣泛應(yīng)用于傳統(tǒng)貝葉斯模型、LSA、LDA等文本分類模型中,被證明是簡單有效的,但同時(shí)該模型的缺點(diǎn)也是十分明顯的,它忽略了文本本身的語法語義信息所以很難捕獲到文本中深層的語義信息。而序列化模型則將文本看作是有序的詞語序列,這種模型考慮了文本的有序性以及詞語間的關(guān)聯(lián)性可以學(xué)習(xí)到一些詞袋模型無法學(xué)習(xí)到的語義信息,如
Bengio等人提出的神經(jīng)網(wǎng)絡(luò)語言模型[1]就考慮了詞語間的順序性,但為了降低模型的復(fù)雜度僅僅考慮窗口內(nèi)的詞語。Mikolov等人[2]在2010年提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)來構(gòu)建語言模型, 這使得網(wǎng)絡(luò)模型可以充分地利用上下文信息從而更好地進(jìn)行語言建模。不過這些模型依然是將文本看作有序列的詞語組合,僅考慮了文本的有序性信息而忽略了文本在語義上的結(jié)構(gòu)性。結(jié)構(gòu)化模型則試圖將文本看作有結(jié)構(gòu)的詞語組合,使得在學(xué)習(xí)文本特征時(shí)能夠充分保存文本的結(jié)構(gòu)特征,例如,Socher等人[3]利用Recursive Autoencoder方法試圖以一種樹形結(jié)構(gòu)來描述文本,希望能夠?qū)W習(xí)到文本的句法信息,該方法在解決短文本情感分析的問題上取得了不錯(cuò)的效果。
在解決序列化問題時(shí),R2NN被證明是一種有效的方法,可以充分地利用上下文信息,但該方法存在著梯度爆炸和消失的問題[4],Hochreiter和Schmidhube等人[5]提出的LSTM型R2NN有效地解決了這一問題。然而LSTM-R2NN也是一種鏈?zhǔn)骄W(wǎng)絡(luò)并不能利用文本的結(jié)構(gòu)化信息,因此本文將LSTM這一網(wǎng)絡(luò)結(jié)構(gòu)拓展到基于樹形結(jié)構(gòu)的RNN網(wǎng)絡(luò)上,構(gòu)成LSTM-RNN模型,并結(jié)合情感分析中的情感極性轉(zhuǎn)移現(xiàn)象(Polarity Shifting)提出 PLSTM-RNN模型,從而更好地利用文本上下文信息、結(jié)構(gòu)化信息和情感語義信息來解決文本情感分析這一問題。
本文具體章節(jié)安排如下: 第二節(jié)介紹了與本文相關(guān)的一些工作進(jìn)展;第三節(jié)介紹了融合LSTM和情感極性轉(zhuǎn)移模型之后的網(wǎng)絡(luò)模型;第四節(jié)介紹將融合之后的模型應(yīng)用于情感分析;第五節(jié)為實(shí)驗(yàn)及分析;最后對本文做出總結(jié),并指出后續(xù)的工作方向。
2.1 遞歸神經(jīng)網(wǎng)絡(luò)
Socher等人在2011年將遞歸神經(jīng)網(wǎng)絡(luò)成功應(yīng)用在句法解析上[6],之后人們對它進(jìn)行了許多研究。隨后Socher在RNN的基礎(chǔ)上添加一個(gè)感知層,從而提高模型的表達(dá)能力[7];Irsoy和Cardie[8]將RNN擴(kuò)展為3-layer RNN從而成為一個(gè)深層網(wǎng)絡(luò)結(jié)構(gòu)。除了對模型的結(jié)構(gòu)進(jìn)行優(yōu)化,RNN也被應(yīng)用在NLP的其他領(lǐng)域,Li P和Liu Y[9]等人將RNN應(yīng)用到機(jī)器翻譯領(lǐng)域;Le和Zuidema[10]將其應(yīng)用在依存句法分析上,都取得了不錯(cuò)的效果。這些方法通過遞歸神經(jīng)網(wǎng)絡(luò)為語言建模,可以有效地捕獲到文本的語義信息,從而提高了利用機(jī)器學(xué)習(xí)方法解決這些傳統(tǒng)任務(wù)時(shí)的性能。
2.2 情感分析
情感分析是一個(gè)新興的研究課題,具有很大的研究價(jià)值和應(yīng)用價(jià)值[11]。鑒于此,該研究課題受到國內(nèi)外越來越多的研究機(jī)構(gòu)的重視。Pang和Lee等人在2008年就利用詞袋模型對文本進(jìn)行情感分析,隨后許多人嘗試設(shè)計(jì)更好的工程特征或者使用基于句法結(jié)構(gòu)的極性轉(zhuǎn)移規(guī)則來提升情感分析的準(zhǔn)確率。這些模型都是基于詞袋模型,無法獲取到文本中的深層語義信息,因此效果并不理想。2013年Socher等人利用遞歸神經(jīng)網(wǎng)絡(luò)模型對影評(píng)數(shù)據(jù)進(jìn)行情感分析取得了比傳統(tǒng)方法更好的效果。梁軍等人[12]通過在Recursive Autoencoder模型中融入情感極性轉(zhuǎn)移模型,在中文微博情感分析上取得不錯(cuò)效果。這兩種模型都是樹形結(jié)構(gòu)網(wǎng)絡(luò),但沒有充分利用句子的歷史信息。
神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到不同長度、句法結(jié)構(gòu)的短語的特征表示。這些特征表示可以作為分類器的特征輸入為短語、句子進(jìn)行分類。在利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行句子特征表示學(xué)習(xí)時(shí),需要先將句子中的詞語映射為d維的實(shí)數(shù)向量。這些詞語對應(yīng)的d維實(shí)數(shù)向量可以使用高斯分布U(_r,r)進(jìn)行初始化,也可以使用一些無監(jiān)督方法進(jìn)行預(yù)訓(xùn)練,例如,google推出的將詞語轉(zhuǎn)化為詞向量的工具word2vec,Socher等人提出的Recursive Autoencoder方法。所有詞語對應(yīng)的詞向量將會(huì)存儲(chǔ)在一個(gè)詞向量矩陣L∈Rd×|V|中,其中|V|是詞表的大小。詞向量矩陣L同樣會(huì)作為神經(jīng)網(wǎng)絡(luò)模型的參數(shù)被訓(xùn)練,當(dāng)模型訓(xùn)練完成后詞向量矩陣L就會(huì)存儲(chǔ)每個(gè)詞對應(yīng)的特征表示。在有了詞語對應(yīng)的詞向量之后,需要一定的方式來計(jì)算詞語組合形成的詞組、句子所對應(yīng)的特征表示,有了詞組、句子對應(yīng)的特征表示之后,將這些特征作為softmax分類器的輸入就可以得到它們的分類結(jié)果。
本節(jié)將介紹兩個(gè)學(xué)習(xí)詞語、句子特征表示的網(wǎng)絡(luò)結(jié)構(gòu)模型RNN和R2NN模型,并結(jié)合兩個(gè)模型的特點(diǎn)提出一個(gè)新的LSTM-RNN模型。該模型可以有效利用句子的語法結(jié)構(gòu)信息和語義的歷史信息進(jìn)行詞語、短語和句子的特征表示學(xué)習(xí)。通過該模型學(xué)習(xí)到的特征已經(jīng)可以有效地用于文本情感分析,但語言中會(huì)廣泛出現(xiàn)情感極性轉(zhuǎn)移的現(xiàn)象,本文進(jìn)一步結(jié)合該現(xiàn)象對模型進(jìn)行改進(jìn),提出 PLSTM-RNN模型。
3.1 RNN
遞歸神經(jīng)網(wǎng)絡(luò)最早由Goller[14]提出,它根據(jù)句子語法的樹形結(jié)構(gòu)由底向上遞歸地合并兩個(gè)相鄰的節(jié)點(diǎn),如圖1所示。
圖1 RNN的網(wǎng)絡(luò)結(jié)構(gòu)
遞歸神經(jīng)網(wǎng)絡(luò)可以根據(jù)一個(gè)給定的有向無環(huán)圖從下往上遞歸地應(yīng)用相同的權(quán)重組合去構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)。通過遍歷該有向無環(huán)圖拓?fù)浣Y(jié)構(gòu)中的節(jié)點(diǎn),可以不斷遞歸地由子節(jié)點(diǎn)的向量表示學(xué)習(xí)到父節(jié)點(diǎn)的
向量表示。一般來說有向無環(huán)圖的結(jié)構(gòu)是沒有限定的,但為了結(jié)構(gòu)的統(tǒng)一性和簡潔性通常將該有向無環(huán)圖轉(zhuǎn)換為二叉樹的形式。
假定文本為xi-1xixi+1,其句法解析樹對應(yīng)的二叉樹結(jié)構(gòu)為(pi+1(pi(xi-1xi)xi+1)),xi-1,xi,xi+1∈d表示詞語,pi∈Rd表示短語xi-1xi,pi+1∈Rd表示xi-1xixi+1;W1,W2∈Rd×d為系數(shù)矩陣,則可以表述為:
(1)
其中g(shù)為激活函數(shù)tanh。如圖1所示遞歸神經(jīng)網(wǎng)絡(luò)通過不斷合并兩個(gè)短語的特征表示來學(xué)習(xí)更大跨度的短語的特征表示,在特征學(xué)習(xí)的過程中它根據(jù)語法結(jié)構(gòu)關(guān)系先后合并句子中的詞語,既保留了句子的詞序特征,又結(jié)合了句子的語法層次結(jié)構(gòu)特征。
3.2 LSTM型R2NN
循環(huán)神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別在于組成這些網(wǎng)絡(luò)的神經(jīng)元相互關(guān)聯(lián)的結(jié)構(gòu)不同: 遞歸神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的結(jié)合是按照有向無環(huán)圖進(jìn)行的,而循環(huán)神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)是按照出現(xiàn)的時(shí)序關(guān)系結(jié)合。事實(shí)上,可以把循環(huán)神經(jīng)網(wǎng)絡(luò)看作是一個(gè)具有特定結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)。如圖2所示。
圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)
在第t次網(wǎng)絡(luò)傳播時(shí)假定輸入為xt∈RM,t-1次傳播時(shí)隱含層為ht-1∈Rn(m,n分別表示向量維度),則t次傳播時(shí)隱含層計(jì)算方式如式(1)所示。
(1)
其中Wx∈Rn×m是第t次輸入的詞向量xt對應(yīng)的系數(shù)矩陣,U∈Rn×m是t-1次傳播輸出ht-1對應(yīng)的系統(tǒng)矩陣,δ是非線性激活函數(shù)(sigmoid函數(shù)或者tanh函數(shù))。這樣隱含層在每次計(jì)算時(shí)都會(huì)把上次輸出作為本次輸入從而達(dá)到保存歷史信息的目的。但是在使用BP、BPTT算法優(yōu)化網(wǎng)絡(luò)時(shí)會(huì)遭遇梯度爆炸或者梯度衰減的問題[4],而LSTM使用一個(gè)記憶單元(memory cell)來替代R2NN中的隱含層從而可以避免梯度在反向傳播中遇到的爆炸和衰減問題。LSTM的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
LSTM型R2NN由input gate i、output gate o和forget gate f和memory cell c組成,其中input gate、output gate和forget gate是控制memory cell的讀、寫和丟失操作的控制器。利用形式化語言,LSTM可以表述為:
it=δ(Wixt+Uiht-1+Vict-1+bi)
ft=δ(Wfxt+Ufht-1+Vfct-1+bf)
ct=ft⊙ct-1+it⊙tanh(Wcxt+Ucht-1+bc)
ot=δ(Woxt+Uoht-1+Voct+bo)
ht=ot⊙tanh(ct)
(2)
其中δ是激活函數(shù)sigmoid;⊙是點(diǎn)乘運(yùn)算;W*,U*,V*,b*分別表示系數(shù)矩陣和偏置向量,it,ft,ot分別表示t時(shí)刻input gate、forget gate和output gate的計(jì)算方法,ct表示t時(shí)刻memory cell的計(jì)算
方法,ht為t時(shí)刻LSTM單元的輸出。由圖3可以看出三個(gè)控制門input gate,output gate和forget gate的輸出分別連接到一個(gè)乘法單元上,從而分別控制網(wǎng)絡(luò)的輸入、輸出以及cell單元的狀態(tài)。
3.3 基于LSTM的RNN
本小節(jié)介紹如何將LSTM擴(kuò)展到RNN模型上,使得既可以獲得文本的結(jié)構(gòu)信息,又可以利用LSTM對歷史信息進(jìn)行存儲(chǔ)。這樣在計(jì)算父節(jié)點(diǎn)的向量表示時(shí)不僅僅可以用到兩個(gè)子節(jié)點(diǎn)的結(jié)構(gòu)信息,還可以利用歷史信息進(jìn)行計(jì)算。
與LSTM單元類似,LSTM-RNN的記憶單元也同樣由input gate,forget gate,output gate和memory cell組成,但由于LSTM-RNN是基于樹結(jié)構(gòu),所以在t時(shí)刻LSTM-RNN的輸入不止一個(gè)(對于二叉樹來說,每次輸入有兩個(gè)),所以LSTM-RNN對于每個(gè)LSTM單元都有兩個(gè)input gate和forget gate,如圖4所示,一個(gè)基于二叉樹結(jié)構(gòu)的LSTM-RNN單元是由兩個(gè)input gate,一個(gè)output gate,一個(gè)memory cell和兩個(gè)forget cell組成。
圖4 LSTM-RNN網(wǎng)絡(luò)結(jié)構(gòu)
(3)
由于每個(gè)孩子節(jié)點(diǎn)都對應(yīng)一個(gè)input gate,通過訓(xùn)練可以使得對父節(jié)點(diǎn)貢獻(xiàn)大的子節(jié)點(diǎn)對應(yīng)的input gate更接近1,對父節(jié)點(diǎn)貢獻(xiàn)小的子節(jié)點(diǎn)對應(yīng)的input gate則更接近0;同樣的forget gate控制在計(jì)算父節(jié)點(diǎn)時(shí)利用每個(gè)子節(jié)點(diǎn)的歷史信息。
3.4 融合極性轉(zhuǎn)移的LSTM-RNN
在各個(gè)語言中,極性轉(zhuǎn)移對于文本情感分析都是一個(gè)極大的挑戰(zhàn)。句子中的一些否定詞、程度副詞等的使用都可能會(huì)使得句子的極性發(fā)生偏轉(zhuǎn)。張小倩[13]等人對極性轉(zhuǎn)移現(xiàn)象進(jìn)行研究分析,將其分為三類,本文根據(jù)其研究進(jìn)行如下分類(表1)。
表1 極性轉(zhuǎn)移實(shí)例
(4)
本節(jié)介紹如何將擴(kuò)展的PLSTM-RNN模型應(yīng)用于情感分析,具體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5所示。
圖5 PLSTM-RNN
其中l(wèi)x是節(jié)點(diǎn)x通過PLSTM-RNN模型訓(xùn)練得到特征向量表示后作為softmax回歸的輸入得到的情感極性標(biāo)簽,同時(shí)lx作為PLSTM的輸入決定偏置向量的選取。假定y是節(jié)點(diǎn)x對應(yīng)的真正的情感。那么節(jié)點(diǎn)x的情感極性為Ak的概率計(jì)算方法如式(5)所示。
(5)
假定訓(xùn)練樣本為T,那么在訓(xùn)練時(shí)定義損失函數(shù)為:
(6)
其中s為樣本集T中的句子,n為每個(gè)句子中的節(jié)點(diǎn),l{·}是示性函數(shù),其取值規(guī)則為:l{Ture}=1。在訓(xùn)練模型的時(shí)候可以使用梯度下降[14]的方法來最小化損失函數(shù)J(θ),當(dāng)然也可以采用LBFGS或AdaGrad[14-15]等方法來優(yōu)化參數(shù)。模型的算法描述如下所示:
PLSTM-RNN輸入:語料及其對應(yīng)標(biāo)簽構(gòu)成的訓(xùn)練語料T輸出:θ1)初始化詞向量及θ;2)while不收斂do?J=0forall∈Tdo whilepisn’tRootdo p=PLSTM_RNN(xl,xr) endwhile 計(jì)算?Ji=?J(s,t)/?θ 更新?J=?J+?Ji endfor 更新Θ=1N?J+λθ endwhile
5.1 數(shù)據(jù)集
為了驗(yàn)證模型的有效性,本文選用斯坦福大學(xué)在影評(píng)數(shù)據(jù)上開發(fā)的Stanford Sentiment Treebank[7],該數(shù)據(jù)集的標(biāo)簽分為五類(very negative, negative, neutral, positive, very positive),共有11 855個(gè)句子, 平均每個(gè)句子包含19個(gè)詞語,共有215 154個(gè)短語,按照原有的數(shù)據(jù)集分割方案: 訓(xùn)練集8 544句,開發(fā)集1 101句,測試集2 210句。另外,將其中沒有極性的句子去掉,將其作為二分類的驗(yàn)證數(shù)據(jù)集,沒有極性的句子約占整個(gè)數(shù)據(jù)集的20%左右,去掉之后的開發(fā)集6 920句,開發(fā)集872句,測試集1 821句。
5.2 向量維度的選擇
在進(jìn)行實(shí)驗(yàn)時(shí),詞向量使用Jeffrey Pennington et al[16]使用Common Crawl數(shù)據(jù)訓(xùn)練得到的300維向量*http://nlp.stanford.edu/projects/glove/初始化,中間節(jié)點(diǎn)則使用不同維度的向量進(jìn)行表征。因?yàn)殡S著內(nèi)部節(jié)點(diǎn)維度的增加整個(gè)模型的復(fù)雜度成倍增長,因此需要為內(nèi)部節(jié)點(diǎn)的向量表征選擇一個(gè)合適的維度,圖6是在開發(fā)集上對內(nèi)部節(jié)點(diǎn)使用不同的向量維度表征得到的PLSTM-RNN模型的評(píng)估。
圖6 內(nèi)部節(jié)點(diǎn)向量維度的影響
由上圖可以看出,內(nèi)部節(jié)點(diǎn)向量維度在100維時(shí)即可達(dá)到較理想的效果。
5.3 模型對比實(shí)驗(yàn)
本節(jié)將該文提出的模型PLSTM-RNN和之前在該數(shù)據(jù)集上試驗(yàn)過的模型進(jìn)行對比(使用準(zhǔn)確率作為評(píng)估標(biāo)準(zhǔn)),主要有Naive Bayes with bag of bigram features ( BiNB),Recursive neural tensor network (RNTN)[7],Convolutional neural network (CNN)[17],Dynamic convolutional neural network (DCNN)[18]和 Deep RNN(DRNN)[8]模型。
通過表2可以看出,在對文本進(jìn)行二分類或者五分類時(shí)PLSTM-RNN模型都能夠達(dá)到很好的效果,證明該模型是有效的。從直觀上來看,利用LSTM可以有效保存文本的歷史信息,這對文本進(jìn)行情感分析是非常有幫助的;同時(shí)結(jié)合RNN網(wǎng)絡(luò)的特點(diǎn)可以充分利用句子本身的結(jié)構(gòu)信息,使得模型學(xué)習(xí)到的特征表示更完備;在此基礎(chǔ)上進(jìn)一步加入節(jié)點(diǎn)的聯(lián)合情感信息,最終結(jié)合了文本的語義信息、結(jié)構(gòu)信息和情感信息,從而使模型可以達(dá)到最好的效果。
表2 模型對比結(jié)果
本文將基于鏈?zhǔn)浇Y(jié)構(gòu)的LSTM型網(wǎng)絡(luò)擴(kuò)展到RNN網(wǎng)絡(luò),使得模型可以在更好地獲取文本歷史信息的同時(shí),挖掘到文本的結(jié)構(gòu)信息,豐富特征學(xué)習(xí),同時(shí)針對情感極性轉(zhuǎn)移這一問題提出情感極性轉(zhuǎn)移模型,并將其融入到LSTM-RNN中,進(jìn)一步優(yōu)化了模型的表征能力。
基于文本結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型在文本處理上有較強(qiáng)的優(yōu)勢,但對于如何快速有效學(xué)習(xí)到文本的結(jié)構(gòu)特征,仍然是一個(gè)亟待解決的問題,下一步工作也將在這方面進(jìn)行探索,從而更好地對文本進(jìn)行結(jié)構(gòu)化表征。
[1] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.
[2] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010. 2010: 1045-1048.
[3] Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 151-161.
[4] Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies[M]. Wiley-IEEE Press, 2001: 237-243.
[5] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.
[6] Socher R, Lin C C, Manning C, et al. Parsing natural scenes and natural language with recursive neural networks[C]//Proceedings of the 28th international conference on machine learning (ICML-11). 2011: 129-136.
[7] Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]//Proceedings of the conference on empirical methods in natural language processing (EMNLP). 2013: 1631-1642.
[8] Irsoy O, Cardie C. Deep Recursive Neural Networks for Compositionality in Language[C]//Proceedings of the Advances in Neural Information Processing Systems. 2014: 2096-2104.
[9] Li P, Liu Y, Sun M. Recursive Autoencoders for ITG-Based Translation[C]//Proceedings of the EMNLP. 2013: 567-577.
[10] Le P, Zuidema W. Inside-Outside Semantics: A Framework for Neural Models of Semantic Composition[C]//Proceedings of the Deep Learning and Representation Learning Workshop: NIPS 2014.
[11] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848. DOI:10.3724/SP.J.1001.2010.03832.
[12] 梁軍, 柴玉梅, 原慧斌, et al. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報(bào), 2014, 28(5):155-161.
[14] Goller C, Kuchler A. Learning task-dependent distributed representations by backpropagation through structure[C]//Proceedings of the IEEE International Conference on. IEEE, 1996, 1: 347-352.
[15] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. The Journal of Machine Learning Research, 2011, 12: 2121-2159.
[16] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C]//Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 2014, 12.
[17] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
[18] Blunsom P, Grefenstette E, Kalchbrenner N. A convolutional neural network for modelling sentences[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014.
Polarity Shifting and LSTM Based Recursive Networks for Sentiment Analysis
LIANG Jun1, CHAI Yumei1, YUAN Huibin2, GAO Minglei1, ZAN Hongying1
(1. School of Information Engineering, Zhengzhou University, Zhengzhou, Henan 450001, China;2. China Institute of Nuclear Information & Economics, Beijing 100048, China)
The chain-structured long shortterm memory (LSTM) has been shown to be effective in a wide range of tasks such as language modeling, machine translation and speech recognition. Because it cannot storage the structure of hierarchical information language, we extend it to a tree-structure based recursive neural network to capture more syntactic and semantic information, as well as the sentiment polarity shifting. Compared to LSTM, RNN etc, the proposed model achieves a state-of-the-art performance.
LSTM; recursive neural network; sentiment analysis
梁軍(1990—),通信作者,碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、自然語言處理。E-mail:zhengdaxg@163.com柴玉梅(1964—),教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和自然語言處理。E-mail:ieymchai@zzu.edu.cn原慧斌(1966—),學(xué)士,研究員級(jí)高工,主要研究領(lǐng)域?yàn)橹形娜臋z索技術(shù),自然語言處理。E-mail:1074821578@qq.com
1003-0077(2015)05-0152-08
2015-07-08 定稿日期: 2015-09-09
國家社會(huì)科學(xué)基金(14BYY096);國家自然科學(xué)基金(61402419,61272221);國家高技術(shù)研究發(fā)展863計(jì)劃(2012AA011101);計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué))開放課題(201401);國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃 973 課題(2014CB340504);河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(15A520098)
TP391
A
張小倩. 情感極性轉(zhuǎn)移現(xiàn)象研究及應(yīng)用[D]. 蘇州大學(xué), 2012.
10.7666/d.y2120830.