国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語言模型的神經(jīng)網(wǎng)絡的文本情感分析

2018-04-24 07:54陳軍清張毓
現(xiàn)代計算機 2018年7期
關(guān)鍵詞:語料分類器向量

陳軍清,張毓

(四川大學計算機學院,成都610065)

0 引言

隨著網(wǎng)絡社交以及網(wǎng)絡評論的大量的活動不斷地流行,情感分析也迅速地成為一個新的研究課題,其不管在研究方面還是商業(yè)應用方面,它都不斷地受到越來越多人的重視,并且也產(chǎn)生了不少的價值。情感分析任在自然語言處理中是一個基礎而且重要的任務,它是對帶有情感色彩的主觀性文本進行分析,處理,歸納和推理的過程,發(fā)現(xiàn)用戶對商品的傾向性表達,對熱門事件的關(guān)注度等。

目前,基于語言學特征和統(tǒng)計機器學習的方法在情感分析任務中仍然受到很多人的關(guān)注,例如,支持向量機、樸素貝葉斯、最大熵等方法,這些傳統(tǒng)的機器學習方法,需要先驗知識,依賴專業(yè)知識,預先的人工設計好的模型特征,構(gòu)造出結(jié)構(gòu)化的文本信息特征。然而這些方法對文本的表達能力有限,并且需要大量人工標注的情感詞典、句法和語法信息,這些需要過多的人工,費時費力,在模型的泛化能力上并不沒有表現(xiàn)地很好。

隨著大數(shù)據(jù)時代的到來,文本數(shù)據(jù)規(guī)模也不斷地擴大,深度學習方法表現(xiàn)出了它的優(yōu)勢,它是以數(shù)據(jù)為驅(qū)動,可以自動地從數(shù)據(jù)中獲取有用的特征知識,無須人工的參與,避免了大量的先驗知識。深度神經(jīng)網(wǎng)絡的出現(xiàn)也在自然語言處理任務中得到了很大的應用,并且取得了很大的提升作用。

對于文本情感分析問題,本文我們提出采用結(jié)合語言模型(Language Model,LM)的長短時記憶網(wǎng)絡(Long Short-Term Memory Network,LSTM),即 LSTMLM。LSTM通過一種門機制解決了RNN的梯度消失問題,并且能夠有效地學習長時間依賴關(guān)系。結(jié)合語言模型,獲取了大量數(shù)據(jù)的語言特征,加速了訓練的收斂速度,以及提高了模型的泛化能力。在中文情感數(shù)據(jù)集上,用精確率、召回率和F1值3個指標評估了我們的模型,通過實驗結(jié)果嚴重表明,相對其他方法,我們的模型LSTM-LM取得了不錯的效果。

1 基于神經(jīng)網(wǎng)絡和語言模型的結(jié)構(gòu)

目前,由于深度神經(jīng)網(wǎng)絡在許多領(lǐng)域中取得了不錯的成績,尤其在自然語言處理領(lǐng)域中,達到了先進的效果,例如情感分析,神經(jīng)機器翻譯[3]和短文本分類[4]等。為了實現(xiàn)文本的情感分析任務,本文提出了一種基于語言模型的LSTM,即LSTM-LM(Long Short-Term Memory Network with LanguageModel)。

(1)RNN

標準的回復式神經(jīng)網(wǎng)絡(Recurrent Neural Net?work,RNN)結(jié)構(gòu)如圖1所示。RNN的隱藏層之間是有連接的,隱藏層的輸入不僅有輸入層的輸入,還包含上一時刻隱藏層的輸出,并且模型每個時刻都會結(jié)合當前輸入和隱藏狀態(tài)產(chǎn)生一個輸出。

圖1 RNN神經(jīng)網(wǎng)絡結(jié)構(gòu)圖

RNN的公式定義如下,對于一個給定長度為T的輸入序列它按照時間順序,從t=1到t=T順序迭代公式,按序得到隱藏層神經(jīng)元狀態(tài)和輸出序列

其中模型參數(shù)W是權(quán)值矩陣(Wxh是輸入層x到隱藏層h的連接權(quán)值矩陣,Why是隱藏層h到輸出層y的連接權(quán)值矩陣,Whh是隱藏層h到隱藏層h的連接權(quán)值矩陣),b是偏置值向量(bh是隱層偏置值,by是輸出層偏置值),F(xiàn)是隱藏層的激活函數(shù)[5],通常設置為Sig?moid函數(shù)。

(2)LSTM[6]

對于文本序列問題而已,簡單的RNN模型在處理長序列時可能面臨的梯度消失的問題,而對于RNN的變體LSTM,它通過構(gòu)建特殊的神經(jīng)處理單元結(jié)構(gòu),減弱了梯度消失問題的影響,使得網(wǎng)絡可以利用長距離的上下文信息,并且可以存儲長時間的知識信息,因此在眾多的任務中取得了很好的效果。其運算可以表示如下:

其中σ表示sigmoid激活函數(shù),i、f、o和c分別是表示輸入門(InputGate),遺忘門(ForgetGate),輸出門(Output Gate)和記憶細胞(Memory Cell)的激活向量[3]。xt表示文本序列分詞后的第t個詞的詞向量輸入。

LSTM通過構(gòu)建特殊的神經(jīng)元處理結(jié)構(gòu),通過一種門機制的方式解決梯度消失問題,它能夠有效地學習長時間依賴關(guān)系,使得網(wǎng)絡能更好地發(fā)現(xiàn)和利用長距離的上下文信息。

LSTM的結(jié)構(gòu)如圖2所示。LSTM通過門機制結(jié)構(gòu),讓輸入的信息有選擇性的影響每個時刻的神經(jīng)元狀態(tài)。而所謂的門結(jié)構(gòu)就是通過不同的激活函數(shù),例如sigmoid函數(shù)的輸出一個0到1之間的值,來描述當前的輸入能有多少信息量可以通過這些門結(jié)構(gòu),以此來控制和影響其他神經(jīng)元狀態(tài)和記憶存儲。

圖2 長短時記憶單元

(2)語言模型

我們在模型中引入了語言模型,它在自然語言處理處理領(lǐng)域,例如詞性標注、機器翻譯和信息檢索等任務中起到了很大的作業(yè)。語言模型主要用來判斷一個文本或者一個單詞序列的連貫性,即通過大量的語料,通過統(tǒng)計每個詞的統(tǒng)計數(shù)據(jù),以此來計算該句子的概率,概率越大,表示它作為一個完整有意義的句子的可能性越大,概率越小,表示它作為一個完整有意義的句子的可能性越小。通過在特定的語境下,例如本文實驗的語料數(shù)據(jù),酒店評論數(shù)據(jù)集,它可以獲得該語境下的語言特點。

語言模型的形象化描述就是給定一個長度為t的字符串,W=(w1,w2,...,wt),看它是自然語言的聯(lián)合概率P(W)=P(w1,w2,...,wt)有多大,P(W)就是語言模型,即用來計算一個句子W的概率模型。

如何計算P(W)的概率呢?利用Bayes公式,上述聯(lián)合概率式可以被鏈式分解為:

在我們的LSTM-LM網(wǎng)絡中,我們采用的是基于循環(huán)神經(jīng)網(wǎng)絡的語言模型,詞向量作為LSTM的每一個時刻作為輸入,并通過一個Softmax分類器來預測下一個詞出現(xiàn)的概率,其中用#符號作為結(jié)束符。

(3)總體模型結(jié)構(gòu)

LSTM-LM模型的總體結(jié)構(gòu)如圖3所示,該模型主要由三部分組成:詞向量層、LSTM網(wǎng)絡和語言模型。本模型的整體流程為:首先對文本序列通過分詞后,用詞向量作為模型的輸入,通過LSTM模型后,每個時刻都輸出一個隱藏表達向量,再通過Pooling機制去融合每個時刻的輸出向量,最終輸出輸入文本的向量化表示,本文采用了平均池化(Mean Pooling)的方式,它可以總體上反映句子的某種特征。對pooling層輸入的向量,我們通過Softmax分類器進行二分類處理,進行句子的情感表達判斷。同時,在LSTM輸出的每個時刻,我們通過了一層前饋神經(jīng)網(wǎng)絡,主要是提升向量的表達能力,并且每個時刻都通過了一個具有語料庫詞匯大小的Softmax分類器,預測下一個詞出現(xiàn)的概率。該語言模型的加入只要是為了提高模型的整體的泛化能力和提高模型的收斂速度。我們還在網(wǎng)絡的全鏈接層中加入了防止過擬合的dropout機制。并且,把語言模型產(chǎn)生的誤差和情感分析分類器產(chǎn)生的誤差求和,最為該整體模型的代價函數(shù)。

2 實驗介紹

為了驗證本文提出的模型對文本的情感分析的有效性,本文通過互聯(lián)網(wǎng)獲取了有關(guān)中文情感挖掘的酒店評論語料數(shù)據(jù)進行對比實驗分析。

(1)數(shù)據(jù)集介紹

本文我們選用了中科院計算所的譚松波博士提供的較大規(guī)模的中文酒店評論語料(ChnSentiCorp),其公布的語料規(guī)模約有10000篇,并標注了褒貶類別,被分為了 4個子集,ChSenti Corp-Htl-ba-2000、Ch Senti?Corp-Htl-ba-4000、ChSentiCorp-Htl-ba-6000和ChSentiCorp-Htl-ba-10000,本文選用了ChSentiCorp-Htl-ba-6000的數(shù)據(jù)集做為實驗對象,其為平衡語料數(shù)據(jù),正負類各3000篇。我們使用了10折交叉驗證的方法去劃分6000條數(shù)據(jù),對我們的LSTM-LM模型進行訓練和測試。表1為部分數(shù)據(jù)的代表樣例。

圖3 基于語言模型的LSTM

表1 ChSenti Corp-H tl-ba數(shù)據(jù)集樣例

(2)數(shù)據(jù)預處理

數(shù)據(jù)預處理是我們模型訓練的前提和關(guān)鍵步驟。我們實驗所采用的是中文數(shù)據(jù),而中文不像英文,在字詞層面有明顯的分割,例如空格,中文在詞層面上沒有一個形式上的分界符。所以,我們必須對中文語句先進行分詞操作,將文本序列切分成單詞序列。本文,我們采用了結(jié)巴分詞工具來對文本段進行分詞處理。在我們的實驗中,我們使用非監(jiān)督的預訓練的方式去初始化詞向量,最為模型的輸入層。我們采用中文維基百科數(shù)據(jù)作為訓練的語料庫,并且對其做了特殊的處理:簡繁轉(zhuǎn)換、中文分詞、去除非UTF-8字符等。使用了Google開源的Word2Vec工具訓練了Continuous Bag-of-Words(CBOW)[7]模型,上下文窗口設置為7,詞向量的維度設置為400,采樣值大小設為1e-5,我們用均勻分布[-0.25,0.25]初始化了未登錄詞的詞向量。在訓練過程中,詞向量隨著模型的其他參數(shù)一起調(diào)整。

考慮到整個系統(tǒng)軟硬件的狀況和人員配置問題,備用系統(tǒng)的運行維護采用如下方式:數(shù)據(jù)服務器、前置服務器、歷史服務器長期帶電運行,任何時候保證兩個系統(tǒng)的圖形和數(shù)據(jù)庫的同步。其他設備如調(diào)度員工作站定期半個月進行一次通電試運行,對各項功能進行測試,如果發(fā)現(xiàn)問題,馬上處理。這樣的運行維護方式可以減少調(diào)度自動化人員的工作量,又能保證備用系統(tǒng)隨時可以投人運行。

(3)模型參數(shù)設置

對于本文的網(wǎng)絡結(jié)構(gòu),我們采用了Sigmoid作為激活函數(shù),LSTM的隱藏層的神經(jīng)元個數(shù)為100,dropout值為0.5用來防止過擬合,訓練集和測試集的batchsize大小為32,輸出層采用了Softmax進行二分類處理。我們采用了10則交叉驗證方法,隨機將數(shù)據(jù)集分成了10份,我們10折交叉驗證,隨機將數(shù)據(jù)集分為10份,每次將一份做為測試集數(shù)據(jù),其余作為訓練數(shù)據(jù)。訓練過程中,采用了基于隨機打亂的mini-batches的隨機梯度下降法來進行權(quán)值的更新迭代。最后采用了提前終止訓練的方法,當驗證集上的F1值連續(xù)下降5次后,或者迭代次數(shù)超過30次后,我們就終止訓練。

(4)實驗評價指標

對于二分類問題,常用精確率(precision)和召回率(recall)來作為評價指標。通常以關(guān)注的類為正類,其他類為負類。根據(jù)分類器在測試數(shù)據(jù)集上的預測結(jié)果數(shù)分為4種情況:TP:將正類預測為正類數(shù);FN:將正類預測為負類數(shù);FP:將負類預測為正類數(shù);TN:將負類預測為負類數(shù)。

則兩種評價指標定義如下:

其中精確率用來衡量分類器的精確性,召回率用來衡量分類器是否能找全該類的樣本,而為了兼顧兩者,引入了它們的調(diào)和均值,即F1值,定義如下:

精確率和召回率都高時,F(xiàn)1值也會高。

3 實驗結(jié)果與分析

本次實驗是在深度學習框架Theano上進行訓練,在文本情感分析中,我們用Word2Vec的方式對詞向量提前做好了預訓練處理,在ChnSentiCorp-Htl-ba-600數(shù)據(jù)集上訓練,我們采用了 SVM、CNN、CNN_LM、LSTM、LSTM_LM、BiLSTM、BiLSTM_LM 七種方法進行了對比實驗,才用精確率、召回率和F1值作為評價指標。實驗結(jié)果如表2所示。

表2 七種模型的分類結(jié)果性能對比

通過以上對比實驗可以發(fā)現(xiàn),基于神經(jīng)網(wǎng)絡的各種方法都優(yōu)于傳統(tǒng)機器學習方法SVM,因為神經(jīng)網(wǎng)絡方法在自動獲取文本隱藏的知識特點有更好的能力,并且在泛化能力上也更加出眾。并且在神經(jīng)網(wǎng)絡方法對比來看,基于RNN(LSTM,BiLSTM)的方法整體上也好于基于CNN的方法。因為CNN善于獲取靜態(tài)數(shù)據(jù)特征,例如圖片等,它的卷積核的窗口大小在獲取文本數(shù)據(jù)特征時,只能得到有限的上下文的特征。而對于RNN方法,它善于處理連續(xù)的動態(tài)序列問題,并且可以處理長序列問題,獲取更長的上下文數(shù)據(jù)特征,LSTM對于傳統(tǒng)的RNN模型,解決的了梯度消失問題。

語言模型的引入主要為了能在語義特征方面獲取語料的語言特征,通過實驗發(fā)現(xiàn),它也在不同的程度上給各個模型帶來了提升。通過實驗對比,它的引入使各種神經(jīng)網(wǎng)絡模型訓練可以更快地收斂,并且也提高了模型的性能。

其中本文介紹的LSTM-LM方法,其精確率、召回率和F1值分別為88.64%、88.30%和88.46%,其結(jié)果都比其他模型的結(jié)果都高,說明了該方法可以取得更好的結(jié)果。對于BiLSTM模型,它從文本的兩個方向獲取數(shù)據(jù)的信息,也因此獲得了更多更全面的知識信息,但是其結(jié)果與LSTM模型的結(jié)果差不多,也取得較好的效果,但是其參數(shù)更多,且訓練時間較其他方法緩慢的很多。

4 結(jié)語

本文主要提出了一種基于神經(jīng)網(wǎng)絡和語言模型的文本情感分析方法,及LSTM-LM模型,首先對文本進行分詞處理,利用詞向量對分詞后的中文文本進行向量化表示,并且采用了LSTM模型網(wǎng)絡獲得文本的每個時刻的語義表達,LSTM相比CNN,能夠獲取更長更多的上下文信息。再對每個時刻通過池化操作,獲取文本的向量化表示。將文本向量通過Softmax分類器判別文本的情感。同時,我們還引入了神經(jīng)網(wǎng)絡語言模型,在訓練的過程中對每個時刻要求網(wǎng)絡預測下一個詞的概率,使得模型能搞掌握特定語料中的語言特征,有效的提高了模型的泛化能力和收斂速度。通過實驗表明了,本方法的可行性和有效性,能很好的挖掘文本信息的情感傾向性。由于有的文本存在二義性、前褒后貶或者前貶后褒等特點,對情感分析帶來了一定的難度,下一步的工作重點就是找到更合適的深度神經(jīng)網(wǎng)絡方法來更好的解決這些問題,使情感分析能力得到提升,也對各種不同任務有所幫助。

參考文獻:

[1]S.Hochreiter,J.Schmidhuber.Long Shortterm Memory.Neural Computation,9(8):1735-1780,1997.

[2]R.Collobert,J.Weston,L.Bottou,etal.Natural Language Processing(Almost)from Scratch.Journal of Machine Learning Research,12(Aug):2493-2537,2011.

[3]D.Bahdanau,K.Cho,Bengio Y.Neural Machine Translation by Jointly Learning to Align and Translate.Computer Science,2014.

[4]Yoon Kim.Convolutional Neural Networks for Sentence Classification.In Proceedings of EMNLP,2014:1746-1751.

[5]A.Graves,N.Jaitly,A.R.Mohamed.Hybrid Speech Recognition with Deep Bidirectional LSTM.Automatic Speech Recognition and Understanding,273-278,2013.

[6]Hochreiter S,Schmidhuber J.Long Short-Term Memory.Neural Computation,1997.9(8):1735-1780.

[7]T.Mikolov,I.Sutskever,K.Chen,etal.Distributed Representations of Words and Phrases and Their Compositionality.Advances in Neural Information Processing Systems,.3111-3119,2013.

猜你喜歡
語料分類器向量
向量的分解
學貫中西(6):闡述ML分類器的工作流程
面向低資源神經(jīng)機器翻譯的回譯方法
聚焦“向量與三角”創(chuàng)新題
基于樸素Bayes組合的簡易集成分類器①
基于動態(tài)分類器集成系統(tǒng)的卷煙感官質(zhì)量預測方法
可比語料庫構(gòu)建與可比度計算研究綜述
一種自適應子融合集成多分類器方法
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線