国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本情感要素抽取

2016-12-30 05:40鄭秋生
中原工學(xué)院學(xué)報 2016年6期
關(guān)鍵詞:語料短文向量

張 英, 鄭秋生

(中原工學(xué)院, 鄭州 450007)

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本情感要素抽取

張 英, 鄭秋生

(中原工學(xué)院, 鄭州 450007)

針對大數(shù)據(jù)互聯(lián)網(wǎng)短文本信息,比較幾種深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)模型,提出了一種基于雙向長短時記憶(Bidirectional Long Short-Term Memory,BLSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型的互聯(lián)網(wǎng)短文本情感要素抽取方法。實驗結(jié)果表明,該方法不僅可以有效完成互聯(lián)網(wǎng)短文本中情感要素抽取工作,而且明顯提高了抽取準(zhǔn)確率。

互聯(lián)網(wǎng)短文本;情感要素抽??;循環(huán)神經(jīng)網(wǎng)絡(luò);自然語言處理;深度學(xué)習(xí)

隨著互聯(lián)網(wǎng)與信息技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)的文本信息迅速膨脹。面對互聯(lián)網(wǎng)海量的文本數(shù)據(jù),準(zhǔn)確、高效地從這些文本中挖掘觀點信息對網(wǎng)絡(luò)輿情分析具有重要意義。文本情感要素的抽取是指抽取情感詞語的評價對象以及評價對象屬性。因此,利用抽取的文本情感信息進行分析挖掘,對識別情感詞語以及判斷文本情感的傾向性等情感分析問題具有重要的意義[1]。

目前,情感分析是自然語言處理領(lǐng)域的研究熱點,雖然在情感傾向性分析的研究方面已經(jīng)取得了不少成果,但通過情感要素抽取來判斷情感傾向性方面的研究并不充分[2]。目前,情感要素抽取的方法主要有兩類:一類是使用基于機器學(xué)習(xí)的條件隨機場(Conditional Random Field,CRF)方法識別情感對象;另一類是首先依照情感詞表抽取情感詞,然后通過關(guān)聯(lián)規(guī)則抽取情感對象。這些傳統(tǒng)方法對現(xiàn)今大量格式隨意的互聯(lián)網(wǎng)文本處理效果并不理想,主要原因是其結(jié)果局限于特征模板、情感詞典資源以及句法分析器等外部資源[3]。

與傳統(tǒng)方法不同,本文針對現(xiàn)今互聯(lián)網(wǎng)文本格式隨意、數(shù)據(jù)量大、無法使用正規(guī)文本的分類方法等問題,提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(CNNs)模型的中文互聯(lián)網(wǎng)短文本情感要素抽取方法。

1 情感要素抽取方法

1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)應(yīng)用已在眾多自然語言處理領(lǐng)域中取得了不錯的成績。Bengio Y等首先提出了利用神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型來處理自然語言問題[4]。2010年,Mikolov T等提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型,充分利用上下文信息進行語言建模[5],但該模型存在梯度爆炸和消失等問題。隨后,長短時記憶(Long Short-Term Memory,LSTM)型循環(huán)神經(jīng)網(wǎng)絡(luò)由Morin F等提出[6],并由Graves A等進行了改進[7]。實驗證明,該網(wǎng)絡(luò)結(jié)構(gòu)在長序列依賴問題中非常有效。因此,LSTM模型的很多優(yōu)化改進形式被應(yīng)用于神經(jīng)語言程序(Neuro-Linguistic Programming,NLP)領(lǐng)域,如Huang Z等使用BLSTM-CRF模型處理序列標(biāo)注問題[8],Chiu J P C等使用BLSTM-CNNs模型解決命名實體識別問題[9],Wang P等使用基于Word Embedding的BLSTM模型處理標(biāo)注問題[10]。這些對深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)模型進行優(yōu)化應(yīng)用的方法大都取得了不錯的效果。

1.2 情感要素抽取

在情感要素抽取方面,張凌等以情感詞為基準(zhǔn),通過計算先驗概率建立詞性模板庫,根據(jù)依存規(guī)則抽取情感要素[11]。劉鴻宇等使用句法分析結(jié)果抽取候選評價對象,再使用基于網(wǎng)絡(luò)挖掘的PMI算法和名詞剪枝方法,對候選評價對象進行過濾篩選[12]。Hu M等按照標(biāo)簽序列規(guī)則(Label Sequential Rule,LSR)匹配語料中產(chǎn)品特征的方法[13]針對性強,可以高效地識別結(jié)構(gòu)類似文章中的評價對象,但是該方法需要人工編寫相應(yīng)的模板,通用性不強。這些方法具有一定的應(yīng)用效果。但是,在中文的文本情感要素抽取方面,傳統(tǒng)的抽取方法和現(xiàn)有研究在開放的數(shù)據(jù)上表現(xiàn)并不令人滿意,而且傳統(tǒng)的情感要素抽取方法大多是基于大量的標(biāo)注語料,這些標(biāo)注語料也都是較規(guī)則文本,用這些規(guī)則語料訓(xùn)練得到的模型并不能對如今互聯(lián)網(wǎng)上大量的不規(guī)則數(shù)據(jù)進行有效抽取。

雖然傳統(tǒng)方法在情感分析問題中獲得了應(yīng)用,但這些方法對情感特征的選擇過于依賴現(xiàn)有情感詞典或人工標(biāo)注的語料庫,需要大量人力資源對情感語料庫進行不斷完善。由于情感特征的選擇是情感分析的重要依據(jù),因此,本文提出用基于深度學(xué)習(xí)的word2vec模型來提取情感特征,處理互聯(lián)網(wǎng)短文本情感分類問題。

在自然語言處理中,詞向量的選擇在模型的訓(xùn)練過程中具有重要意義。傳統(tǒng)的one-hot representation詞向量表示方法要求創(chuàng)建一個詞表并給每個詞編號,向量的維度是詞表的大小,每個詞的向量中只有一個維度的值為1,該維度就是詞在詞表中的位置,并用稀疏矩陣來存儲。但這種表達方式容易造成維數(shù)災(zāi)難,并且這種詞向量表示法與詞語的語義并沒有太大的關(guān)系。因此,本文選用Hinton G E[14]提出的Embedding表示法。這種詞向量表示法不僅將詞表示在低維向量空間中,而且可以反映出詞語間潛藏的語義關(guān)系,這對詞語的情感分析具有重要意義。

1.3 詞向量

本文使用word2vec工具訓(xùn)練Embedding詞向量,用連續(xù)詞袋模型(Continuous Bag-Of-Words,CBOW)和Skip-Gram模型實現(xiàn)詞向量計算[15]。其中,CBOW模型以圍繞目標(biāo)單詞的語境作為輸入來預(yù)測目標(biāo)單詞;Skip-Gram模型則與其相反,通過當(dāng)前詞來預(yù)測語境。本文選擇Skip-Gram模型來訓(xùn)練語料,通過調(diào)整窗口大小訓(xùn)練出合適的詞向量。

2 基于BLSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)模型

隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,越來越多的神經(jīng)網(wǎng)絡(luò)模型在處理自然語言問題中得到了應(yīng)用。本文在前人研究的基礎(chǔ)上,提出了采用BLSTM-RNN網(wǎng)絡(luò)模型的互聯(lián)網(wǎng)短文本要素抽取方案。

2.1 RNN模型

RNN是近年來深度學(xué)習(xí)領(lǐng)域比較流行的模型,實踐證明它應(yīng)用于NLP領(lǐng)域是非常成功的。與其他人工神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)是一種序列模型,用來處理序列數(shù)據(jù)。在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型中,輸入層與輸出層之間彼此獨立,而循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出不僅依據(jù)當(dāng)前的輸入而且與上一時刻的輸出有關(guān)。因此,RNN是具有記憶功能的,能夠記住以前的計算信息。典型的RNN網(wǎng)絡(luò)如圖1所示。

圖1 RNN網(wǎng)絡(luò)圖

圖1展示了一個完整展開的RNN網(wǎng)絡(luò)。其中:Xt表示t時刻的輸入;St為t時刻隱藏層的狀態(tài),它是網(wǎng)絡(luò)的記憶單元,通過循環(huán)方式傳遞到下一層。根據(jù)當(dāng)前層的輸出與上一隱藏層的狀態(tài)進行計算,可得出St=f(UXt-WSt-1)。其中,f是非線性激活函數(shù),如tanh或ReLU;通常,St的初始值為0;Ot表示t時刻的輸出,僅與當(dāng)前時刻的St有關(guān),Ot=softmax(VSt);U、V、W分別為輸入、輸出、隱藏層權(quán)重矩陣。

在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,各個網(wǎng)絡(luò)層的參數(shù)是不能共享的。而在RNN中,由于每步都在做相同的事,只是輸入不同,因此,每輸入一步,各層都共享參數(shù)U、V、W。這樣,RNN大大降低了網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù)。在圖1所示的網(wǎng)絡(luò)圖中,每個時間步都會有輸出,但是,在循環(huán)神經(jīng)網(wǎng)絡(luò)中,每個時間步并不必有輸出。比如,使用循環(huán)神經(jīng)網(wǎng)絡(luò)來預(yù)測一條語句所表達的情緒,僅需要得到輸入最后一個單詞后的輸出,并不需要知道輸入每個單詞后的輸出。同理,每個時間步的輸入也不是必需的。RNN的關(guān)鍵之處在于隱藏層,隱藏層能夠捕捉序列的信息。

2.2 LSTM型RNN模型

循環(huán)神經(jīng)網(wǎng)絡(luò)是一個在時間序列上傳遞的神經(jīng)網(wǎng)絡(luò),在沿時間序列反向傳播(Back Propagation Through Time,BPTT)訓(xùn)練時會產(chǎn)生時間序列上梯度消失的問題。為了解決梯度消失問題,Graves A等設(shè)計了長短時記憶單元(Long Short Term Memory,LSTM)型RNN[7]。圖2為一個LSTM單元。

圖2 LSTM單元

在圖2中,可以將隱藏層當(dāng)作一個黑盒子,給定當(dāng)前輸入和先前隱藏狀態(tài),然后計算出下一個隱藏狀態(tài)。LSTM在本質(zhì)上仍屬于循環(huán)神經(jīng)網(wǎng)絡(luò),只是用一個記憶單元(Memory Cell,MC)來代替RNN中的隱藏層,并用門開關(guān)實現(xiàn)時間序列上的記憶功能,從而避免梯度消失的問題。LSTM網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)如圖3所示。

圖3 LSTM網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)

在圖3中:i、f、o分別為輸入門、輸出門、忘記門單元;c為1個記憶單元,用來描述LSTM的當(dāng)前狀態(tài)。輸入門、輸出門和忘記門是3個控制門,其輸出分別連接到1個乘法單元上,用來控制網(wǎng)絡(luò)的輸入、輸出以及記憶單元的讀、寫狀態(tài)。關(guān)于LSTM的計算如下:

it=σ(WiXt+Uiht-1+bi)

(1)

ft=σ(WfXt+Ufht-1+bf)

(2)

ot=σ(WoXt+Uoht-1+bo)

(3)

gt=tanh(WcXt+Ucht-1+bc)

(4)

ct=ftect-1+itegt

(5)

ht=ote tanh(ct)

(6)

式(1)、式(2)、式(3)分別為t時刻輸入門、輸出門、忘記門的計算式。這些門的計算式由使用不同參數(shù)矩陣的相同計算方程構(gòu)成,并且所有門都具有相同的尺寸,即隱藏狀態(tài)的大小相等。gt為t時刻候選的隱藏狀態(tài),根據(jù)當(dāng)前輸入和以前的隱藏狀態(tài)計算得出。ct為t時刻記憶單元的計算式。ht為t時刻LSTM單元的輸出。bi、bf、bo為3個控制門相應(yīng)的偏置向量。σ表示激活函數(shù)。

與傳統(tǒng)的RNN網(wǎng)絡(luò)模型相比,LSTM模型的門控機制使記憶單元在工作中可以保持一段時間的信息記憶,并在訓(xùn)練時保證內(nèi)部梯度不受不利因素的干擾。因此,LSTM適合于處理和預(yù)測時間序列中間隔和延遲非常長的重要事件[16]。

2.3 BLSTM型RNN模型

由于LSTM型RNN模型只能獲取單向文本信息,因此,設(shè)計了一種BLSTM型RNN模型,以便從兩個方向獲取上下文信息。圖4所示BLSTM模型即為雙向LSTM模型。

圖4 BLSTM模型

類似于LSTM,BLSTM在隱藏層包含一個正向LSTM和一個反向LSTM。根據(jù)LSTM相關(guān)公式,可以推導(dǎo)出如下正向LSTM的公式:

F_it=σ(WiXt+UiF_ht-1+bi)

(7)

F_ft=σ(WfXt+UfF_ht-1+bf)

(8)

F_ot=σ(WoXt+UoF_ht-1+bo)

(9)

F_gt=tanh(WcXt+UcF_ht-1+bc)

(10)

F_ct=F_ftect-1+F_iteF_gt

(11)

F_ht=F_ote tanh(F_ct)

(12)

同理,可以推導(dǎo)出反向LSTM的公式。將模型每個時刻的正向、反向記憶單元的狀態(tài)ct和輸出ht連接,即可獲得BLSTM層的特征輸出。BLSTM可以學(xué)習(xí)更長距離的上下文特征信息。因此,通常情況下,使用雙向LSTM型RNN模型的效果優(yōu)于單向LSTM型RNN模型。

2.4 基于BLSTM的情感要素抽取模型訓(xùn)練

本文將圖5所示基于BLSTM的模型應(yīng)用于情感要素抽取問題。

圖5 BLSTM神經(jīng)網(wǎng)絡(luò)模型

對于BLSTM-RNN模型,本文使用隨機梯度下降法來訓(xùn)練模型,即先隨機初始化參數(shù),然后每次批處理部分樣本,參與運算,更新參數(shù)值。為加快梯度下降的收斂速度,使用ReLU激活函數(shù),同時在LSTM層的各節(jié)點訓(xùn)練中引入Dropout策略,可以有效防止模型的過擬合[10]。該方法不僅能找到最優(yōu)解,而且訓(xùn)練速度較快。

3 模型驗證

3.1 數(shù)據(jù)集

為了驗證模型的有效性,本文將COAE2014評測中任務(wù)5提供的40 000條微博數(shù)據(jù)作為實驗數(shù)據(jù),并以該評測最終公布的抽取結(jié)果中6 479條評價對象為實驗的訓(xùn)練語料,并且采用了數(shù)據(jù)集提供的40 000條數(shù)據(jù)訓(xùn)練詞向量。表1為數(shù)據(jù)樣例。表2為標(biāo)注語料樣例。

表1 數(shù)據(jù)樣例

表2 標(biāo)注語料樣例

注:B-P表示評價對象;B-F表示評價對象屬性;O表示其他。

3.2 模型參數(shù)

在使用神經(jīng)網(wǎng)絡(luò)模型時,參數(shù)設(shè)定是非常重要的環(huán)節(jié),不同的參數(shù)訓(xùn)練得到的結(jié)果有很大不同。BLSTM-RNN網(wǎng)絡(luò)模型的參數(shù)設(shè)置如表3所示。

表3 BLSTM-RNN網(wǎng)絡(luò)模型參數(shù)設(shè)置

3.3 對比實驗

本文用傳統(tǒng)基于機器學(xué)習(xí)的CRF模型對比采用深度學(xué)習(xí)的RNN模型和LSTM模型,基于CRF模型,選擇詞作為特征,并添加詞性以及依存關(guān)系兩種特征組合,使用CRF++工具進行實驗,而且,在深度學(xué)習(xí)模型中,以Word2vec工具訓(xùn)練的詞級別的特征向量作為特征。

3.4 實驗結(jié)果分析

本文采用十折交叉法驗證實驗結(jié)果,并根據(jù)COAE2014評測提供的實驗結(jié)果評價指標(biāo)計算出了各模型的準(zhǔn)確率(見表4)。

表4 不同模型的準(zhǔn)確率

從表4可以看出,使用BLSTM模型處理要素抽取任務(wù)效果較好,證明該模型是有效的。對比實驗結(jié)果可以發(fā)現(xiàn),使用BLSTM模型比傳統(tǒng)模型在準(zhǔn)確率上有明顯提升,深度學(xué)習(xí)模型的結(jié)果明顯優(yōu)于傳統(tǒng)機器學(xué)習(xí)模型的結(jié)果。對比RNN模型與BLSTM-RNN模型的準(zhǔn)確率可以發(fā)現(xiàn),使用BLSTM-RNN模型可以取得更好的效果。

4 結(jié) 語

本文針對情感要素抽取問題將模型擴展到雙向LSTM型網(wǎng)絡(luò),通過實驗證明了BLSTM-RNN模型處理情感要素抽取問題的可行性。與傳統(tǒng)模型相比,采用該模型能夠取得更好的效果。因此,對于互聯(lián)網(wǎng)短文本,采用基于詞向量的BLSTM-RNN模型進行情感要素抽取是可行的。

[1] 劉銘, 昝紅英, 原慧斌. 基于SVM與RNN的文本情感關(guān)鍵句判定與抽取[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2014,49(11):68-73.

[2] 劉鴻宇, 趙妍妍, 秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學(xué)報, 2010, 24(1):84-88.

[3] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8):1834-1848.

[4] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research, 2003, 3(6): 1137-1155.

[5] Mikolov T, Karafiát M, Burget L, et al. Recurrent Neural Network Based Language Model[C]//The International Speech Communication Association. Makuhari, Chiba: Interspeech, 2010:1045-1048.

[6] Morin F, Bengio Y. Hierarchical Probabilistic Neural Network Language Model[J]. Aistats,2005, 5: 246-252.

[7] Graves A, Mohamed A, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington: IEEE, 2013: 6645-6649.

[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science, 2015,9:1508-1519.

[9] Chiu J P C, Nichols E. Named Entity Recognition with Bidirectional LSTM-CNNs[J]. Computer Science, 2015,11:8308-8315.

[10] Huang Z, Xu W, Yu K. A Unified Tagging Solution: Bidirectional LSTM Recurrent Neural Network with Word Embedding[J]. Computer Science,2015,11:511-515.

[11] 張凌, 馮欣. 基于詞性模板與依存分析的中文微博情感要素抽取[J]. 計算機科學(xué), 2015,42(6A):474-478.

[12] 劉鴻宇, 趙妍妍, 秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學(xué)報, 2010, 24(1):84-88.

[13] Hu M, Liu B. Mining and Summarizing Customer Reviews[C]// Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington:ACM, 2004:168-177.

[14] Hinton G E. Learning Distributed Representations of Concepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society. Washington: IEEE, 1986: 1-12.

[15] 蔡慧蘋,王麗丹,段書凱. 基于word embedding和CNN的情感分類模型[J]. 計算機應(yīng)用研究,2015(10):1-5.

[16] 梁軍,柴玉梅,原慧斌,等. 基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 中文信息學(xué)報, 2015, 29(5): 152-159.

(責(zé)任編輯:王長通)

Sentiment Classification of the Short Texts on Internet Based on Convolutional Neural Networks

ZHANG Ying, ZHENG Qiu-sheng

(Zhongyuan University of Technology, Zhengzhou 450007, China)

For the information of big data Internet essay, a deep convolution neural network (convolutional neural networks, CNNs) model of the short text on the Internet is put forward. And first use the Skip-gram in the Word2vec training model of feature vector, then further extracting feature vector into CNNs, finally training the classification model of the depth convolution neural network. The experimental results show that, compared with classification methods of traditional machine learning, this method not only could effectively handle Internet emotion classification in this essay, but also significantly improves the accuracy of emotion classification.

short texts on the Internet; sentiment classification; convolutional neural networks; natural language processing; deep learning

2016-09-08

國家自然科學(xué)基金項目 (U1304611);河南省科技攻關(guān)項目(132102210186);河南省科技攻關(guān)項目(132102310284);河南省教育廳科學(xué)技術(shù)研究重點項目(14A520015)

張英 (1992-),女,河南洛陽人,碩士生,主要研究方向為機器學(xué)習(xí)、自然語言處理。

1671-6906(2016)06-0082-05

TP391

A

10.3969/j.issn.1671-6906.2016.06.017

猜你喜歡
語料短文向量
向量的分解
基于歸一化點向互信息的低資源平行語料過濾方法*
聚焦“向量與三角”創(chuàng)新題
KEYS
Keys
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
短文改錯
合水县| 宣汉县| 云龙县| 惠州市| 临桂县| 乐清市| 巴楚县| 阜宁县| 垫江县| 屏东县| 溧水县| 商城县| 中宁县| 乌拉特后旗| 新河县| 永康市| 广昌县| 丰顺县| 东安县| 吉安市| 莲花县| 安福县| 溧水县| 综艺| 眉山市| 阜宁县| 盐津县| 安吉县| 永靖县| 古丈县| 古交市| 湛江市| 棋牌| 祁阳县| 司法| 龙南县| 马公市| 太原市| 南涧| 佛教| 丹凤县|