楊 璐,何明祥
(山東科技大學計算機科學與工程學院,山東青島 266590)
隨著互聯(lián)網的快速發(fā)展,人們在諸多平臺上留下了大量帶有情感觀點的主觀性文本,例如微博私信、微信聊天、淘寶咨詢等,這些文本蘊含著豐富的情感信息,通過對這些文本進行分析,可以挖掘出有效的觀點信息[1];然而,人工提取這類文本數(shù)據(jù)工作量較大,因此如何構建自動化提取文本情感傾向的模型引起人們的關注。
文獻[2]提出了文本評論情感極性分類的概念,并且利用統(tǒng)計學的方法對電影評論數(shù)據(jù)集進行分類。文本情感分析指的是利用自然語言處理(Natural Language Processing,NLP)或者文本分析技術自動識別文本數(shù)據(jù)的情感極性。情感分析方法包括基于情感詞典和規(guī)則的情感分析方法[2]和基于機器學習技術的情感分析方法[3],其中基于情感詞典的方法主要利用情感詞典與分詞后的文本進行比較,通過制定規(guī)則來獲取整個句子的情感分數(shù),達到識別情感極性的目的,例如:文獻[4]通過對HowNet 情感詞典和臺灣大學的情感詞典(National Taiwan University Sentiment Dictionary,NTUSD)進行擴展,建立了一個具有不同情感傾向程度的情感詞典,并基于此開發(fā)了一個半自動化網絡輿情分析系統(tǒng);文獻[5]提出將多個現(xiàn)有的情感詞典進行合并去重作為基于HowNet 和SentiWordNet的中文情感詞典(Sentiment Lexicon based on HowNet and SentiWordNet,SLHS)的基礎詞語集,采用支持向量機(Support Vector Machine,SVM)的方法對文本進行情感分析,與臺灣大學情感詞典方法進行對比可知,該情感詞典具有較優(yōu)的結果。
基于機器學習技術的情感分析方法又分為監(jiān)督學習的情感分析方法和無監(jiān)督學習[6]的情感分析方法,有監(jiān)督學習憑借帶標簽的數(shù)據(jù)訓練分類器,所得到的準確率和F1值略優(yōu)于無監(jiān)督方法;然而,在應對大規(guī)模數(shù)據(jù)集時,兩種方法的效果都有所欠缺。深度學習的出現(xiàn),憑借其自動表征信息的學習功能和較好的識別效果[7],引起了學者的關注。
隨著深度學習技術的發(fā)展,神經網絡被廣泛地應用到各項任務,其中包括文本情感分析。例如,文獻[8]提出了一種利用卷積神經網絡(Convolutional Neural Network,CNN)對文本進行分類的算法,利用具有局部特征提取功能的卷積層來提取句子中的關鍵信息,達到了理想的效果。針對提取句子的序列特征,文獻[9]提出了一種深度記憶網絡,該模型利用雙向長短期記憶網絡獲取句子的上下文特征,再經過多計算層,從而挖掘句子和目標的特征信息。文獻[10]提出了一種多注意力的卷積神經網絡模型,該模型能夠接收平行化的文本信息,并且針對特定目標識別出其情感極性。盡管神經網絡模型取得了較好的效果,然而中文文本情感分析領域中由于中文文本分詞的特殊性,容易產生噪聲信息,噪聲信息在情感分類時會影響分類結果,而且傳統(tǒng)的卷積神經網絡不能挖掘深層的情感信息。門控機制在長短期記憶(Long Short-Term Memory,LSTM)網絡中已經證明了其可用性,在控制信息傳遞方面能夠發(fā)揮優(yōu)勢,因此本文利用門控機制和現(xiàn)有的情感詞典來剔除噪聲信息,挖掘深層情感信息。
本文提出了一種結合情感詞典的雙輸入通道門控卷積神經網絡(Dual-Channel Gated Convolutional Neural Network with Sentiment Lexicon,DC-GCNN-SL)模型,該模型利用情感詞典對分詞文本進行情感分數(shù)標記,將情感分數(shù)高的詞篩選出來,從而有效地剔除文本中含有的噪聲。為了防止破壞原有語義信息,將分詞的文本和篩選后的文本分別經過兩個通道輸入到卷積神經網絡中,可以使模型學習到更多的信息,使用基于GTRU(Gated Tanh-ReLU Unit)的門控層處理特征信息,進一步挖掘深層特征信息,控制訓練過程中信息在網絡中的傳遞。通過在不同數(shù)據(jù)集上的實驗,驗證了本文模型的有效性。
本文的主要工作如下:
1)提出了一種DC-GCNN-SL 模型用于中文情感分析任務。該模型將情感詞典和門控卷積神經網絡相結合,有效提高了情感分析的性能。
2)提出了一種使用情感詞典標記和篩選句子中的詞的方法。該方法通過使用詞典中的情感分數(shù),提供情感先驗知識,去除情感分數(shù)不高的詞,達到了控制噪聲信息的目的。
3)提出了一種基于GTRU 的門控卷積層,通過與雙通道的卷積核單元相連接,控制信息在網絡中的傳遞,進一步挖掘文本情感特征。
在三個不同數(shù)據(jù)集上進行對比,實驗結果表明,本文提出的DC-GCNN-SL 模型具有更好的情感表達能力,在中文情感分析任務中取得了更好的準確率、召回率和F1值。
卷積神經網絡是一種典型的前饋神經網絡,源于生物中感受野[11]的概念。卷積神經網絡憑借強大的特性,逐漸被應用在各種領域,其中就包括自然語言處理(Natural Language Processing,NLP)領域。在NLP 領域,卷積神經網絡涉及的數(shù)據(jù)為文本數(shù)據(jù),詞向量決定卷積核的寬度,再利用不同高度的卷積核對詞向量矩陣進行卷積操作。因此,卷積神經網絡可以利用不同大小的卷積核自動地學習到文本不同粒度的隱藏特征,也可以將學習到的特征傳遞到其他模型進行分類。
文獻[12]提出了一種雙通道的卷積神經網絡來學習文本特征,將使用Word2Vec訓練的詞向量和字向量通過兩個不同的通道進行卷積運算,使用不同尺寸的卷積核獲取特征,完成文本分類;然而模型只是簡單地將兩個通道的特征進行合并,不能充分利用提取到的特征。文獻[13]將雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)網絡和CNN模型串聯(lián)起來,提取文本的上下文特征和局部語義特征,從而提供文本情感準確率,但是同時也帶來了模型不能并行處理數(shù)據(jù)、訓練時間長的問題。文獻[14]提出了一種卷積神經網絡融合圖文信息的情感分析方法,輸入數(shù)據(jù)變成了圖片和文本的結合,融合了圖文特征進行情感分析。
基于GTU(Gated Tanh Unit)、GLU(Gated Linear Unit)和GTRU 的門控機制在自然語言處理領域中應用廣泛[15],獲取了較好的效果。文獻[16]提出了一種基于非殘差封裝的門控卷積機制和層次注意力的方法來解決單一詞變量引發(fā)的歧義問題,該模型利用卷積神經網絡計算多語義詞向量,構建了一種非對稱語義窗口,利用注意力機制計算目標單詞語義權重的方法來合成語義向量;文獻[17]使用帶有方向的門控單元來處理基于aspect 的情感分析任務,利用非線性門與卷積層連接,進行重要特征的篩選,并使用SemEval 數(shù)據(jù)集驗證了模型的有效性;文獻[18]針對遠程監(jiān)督關系抽取任務中存在的噪聲過濾問題,提出了一種融合門控過濾機制的分段池化卷積神經網絡方法,顯著地提升了模型的整體性能。可見,門控卷積神經網絡在自然語言處理所用的效果較好,其中包括利用基于GTRU 的特定目標情感分析、基于GLU的事件監(jiān)測,然而門控卷積神經網絡處理句子層面文本情感分析任務的模型較少,憑借門控機制在控制信息傳遞的良好特性,本文提出了一種基于GTRU 的門控卷積網絡模型,用于處理雙通道的特征信息,完成文本情感分析任務。
本文構建的模型如圖1 所示,可分為預處理部分、詞嵌入層、基于GTRU 的門控卷積層、池化層和全連接層及分類層。首先,使用Word2Vec模型訓練情感詞典監(jiān)督的數(shù)據(jù)和原始數(shù)據(jù)后得到對應的詞向量,分別通過兩個不同的通道輸入到卷積層中;然后,利用卷積層的卷積操作來獲取文本的初步特征表示,再使用基于GTRU 的門控機制對初步特征進行優(yōu)化,并控制信息傳遞;再用池化層對上一層的特征進行池化操作,得到最優(yōu)特征;最后,使用全連接層和分類層處理特征,完成文本的情感分類。
圖1 DC-GCNN-SL模型結構Fig.1 Structure of DC-GCNN-SL model
中文文本情感分析需要模型對當前的文本進行特征提取和情感特征學習,完成情感極性的判別。在文本特征提取之前,需要進行文本預處理操作,本文使用jieba 分詞工具(https://github.com/fxsjy/jieba)對中文文本進行分詞處理,得到組成句子的每一個詞。傳統(tǒng)的神經網絡模型在分詞后直接訓練詞向量,這會導致在分詞后存在噪聲信息,噪聲信息會隨著詞向量進入網絡參與訓練,導致模型的效果下降;另外,神經網絡模型忽視了現(xiàn)有的一些情感知識,導致了情感資源的浪費。
因此,為了增強網絡先驗知識、去除噪聲信息、提高模型情感分析的準確率,本文利用情感詞典對分詞后的數(shù)據(jù)進行標記,記錄下詞典中該詞的情感分數(shù),如果詞典中不存在該詞,則分數(shù)為0;再根據(jù)詞語的情感分數(shù)絕對值篩選詞語。例如句子“不怎么樣的酒店。我是1 月11 日住的,天氣特別冷,房間空調根本就不管用,我在房間待了4 個小時,手腳冰涼,最后沒有辦法打電話投訴,給我加了個電暖氣。反正以后不會在住這里了,青島有好多好酒店,我自己也遺憾為什么選擇這里?!苯涍^分詞處理和情感詞典監(jiān)督后,得到“不怎么樣,的,酒店,,是,的,天氣,特別,冷,空調,根本,就,不管,用,在,待,最后,沒有,辦法,打電話,投訴,效果,反正,以后,不會,在,住,這里,了,青島,有,好多,好,酒店,我,自己,遺憾,為什么,選擇,這里”??梢钥闯觯幚砗蟮木渥尤コ艘欢ǖ脑肼?,沒有改變句子的極性信息。情感詞典監(jiān)督算法過程如下:
算法1 情感詞典監(jiān)督算法。
輸入 中文文本數(shù)據(jù)X,情感詞典D;
輸出 經過詞典篩選的數(shù)據(jù)S。
步驟1 逐步輸入中文文本數(shù)據(jù),對文本數(shù)據(jù)進行預處理操作,刪除特殊字符,清洗數(shù)據(jù)。
步驟2 對中文數(shù)據(jù)進行分詞,去除停用詞,得到中文數(shù)據(jù)X'。
步驟3 將中文數(shù)據(jù)X'的情感分數(shù)都設置成0。
步驟4 對i從1 到n進行判斷,對比中文數(shù)據(jù)第i個詞是否在情感詞典中出現(xiàn):若出現(xiàn),分數(shù)設置成情感詞典中的分數(shù),并將該中文數(shù)據(jù)xi加入S中;否則i+1,重復步驟4。
步驟5 輸出中文數(shù)據(jù)S。
2.2.1 詞嵌入層
為了將自然語言數(shù)字化,本文使用skip-gram 模型[19]對分詞后的單詞進行詞向量訓練,使用三層神經網絡將詞表示為空間向量形式。對具有n個詞的句子,經詞嵌入表示后可得到S=[x1,x2,…,xn],xi∈Rd,其中,d表示詞向量的維度,即每個詞用d個實數(shù)表示。則句子S可以用x1:n表示為:
其中:⊕表示拼接操作;x1:n∈Rd×n。
2.2.2 原始句子卷積通道
為了保證情感詞典篩選后不丟失信息,本文所提模型由兩個輸入通道獲取句子信息,無詞典標記的原始通道和帶有詞典監(jiān)督的通道,分別通過兩個輸入通道使用卷積神經網絡進行特征提取,利用不同尺寸的卷積核對詞嵌入層的向量矩陣作卷積操作,提取序列中不同粒度的文本特征,可以獲得較好的特征序列矩陣,生成不同的特征矩陣輸入到下一層。取卷積核為h的濾波器與無詞典標記通道的輸入向量進行卷積運算得到特征序列,生成的特征序列如式(2)所示:
其中:WA表示權重矩陣;bA表示偏置向量表示句子矩陣中從i到i+h-1的詞語向量矩陣;f(·)表示用于非線性變換的激活函數(shù)。步長為1的卷積,在長度為n的序列上計算結束后,可得到n-h+1個輸出,最終生成的特征集合為:
2.2.3 情感詞典監(jiān)督卷積通道
句子經過詞典監(jiān)督后篩選出文本情感傾向最強的特征,對于該輸入向量使用相同大小的卷積核處理,經過卷積操作,來完成輸入句子的情感特征層面特征的提取。對于窗口大小為h的卷積,得到的特征序列可以表示為式(4):
其中:WB表示權重矩陣;bB表示偏置向量表示經過詞典監(jiān)督后的句子矩陣,通過卷積操作可得到特征序列矩陣合并后得CB。
2.2.4 基于GTRU的門控卷積層
考慮到充分挖掘文本情感特征,獲取深層次的特征信息,模型使用基于GTRU 的門控卷積層,來結合兩個通道得到的特征信息?;贕TRU 的門控運算可以獲得與較強情感信息的詞的信息,控制情感信息和噪聲數(shù)據(jù)的傳遞,將兩個特征序列CA和CB作為門控卷積層的輸入,通過對位相乘的方法可以得到:
則生成的特征組合可以表示為:
2.2.5 池化層
為了將門控層得到的特征矩陣CG固定在同一維度,解決特征維度過高產生的問題,往往加入池化操作。本文采用最大池化層,提取出句子最重要的特征,生成固定維度的特征向量。最大池化目的是從卷積神經網絡中提取關鍵特征,降低向量維度,進一步縮小網絡的規(guī)模。對每個門控卷積通道單獨進行池化操作,選取特征向量中的最大值來表示這一特征,其計算式如式(7)所示:
假設卷積核的數(shù)量為m,則最終生成的池化特征集可以表示為:
2.2.6 輸出層
將池化得到的特征作為全連接層的輸入,使用tanh 函數(shù)作為激活函數(shù),全連接層可以表示為:
其中:O∈Rq為全連接層的輸出,q表示輸出向量的維度;Wh∈Rq×m為全連接層的權重矩陣;bh∈Rq為全連接層的偏置向量。通過全連接層可以更好地過濾影響分類性能的特征,為防止過擬合加入dropout 機制,在每次訓練時舍棄一部分神經元,最后將得到的結果輸入到sigmoid 分類器中,完成情感分類。
其中:j表示類別數(shù),在二分類中取值為0 或1;θ表示模型的所有參數(shù)。
本文使用帶標簽的數(shù)據(jù),利用反向傳播算法訓練模型,訓練目標是將模型最小化損失函數(shù),損失函數(shù)使用交叉熵(categorical Cross-entropy)函數(shù),其計算式為:
本文的實驗環(huán)境如下:操作系統(tǒng)為Windows 10,處理器為AMD Ryzen 5 2600 Processor 3.40 GHz,內存大小為16 GB,開發(fā)工具使用的是Python 3.6,深度學習框架為Keras 2.1.2。
為了評估模型的有效性,本文使用真實外賣評論數(shù)據(jù)集、真實商品評論數(shù)據(jù)集和譚松波博士整理的酒店評論數(shù)據(jù)集(http://www.searchforum.org.cn/tansongbo/senti_corpus.jsp),如表1~2所示。
表1 實驗所使用的數(shù)據(jù)集Tab.1 Datasets used in experiments
按照8∶2 的比例劃分訓練集和測試集。情感詞典選擇BosonNLP 情感詞典(http://bosonnlp.com),表3 給出了部分詞典示例。
表2 不同數(shù)據(jù)集的數(shù)據(jù)示例Tab.2 Data samples of different datasets
表3 BosonNLP情感詞典部分示例Tab.3 Some samples of BosonNLP sentiment lexicon
本文使用的實驗參數(shù)如表4 所示,為了損失函數(shù)最小化,使用1E-3 學習率的Adam 算法訓練模型。網絡訓練流程如圖2所示。
表4 實驗參數(shù)配置Tab.4 Experimental parameter setting
圖2 DC-GCNN-SL網絡訓練流程Fig.2 Flowchart of DC-GCNN-SL network training
采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值作為評價指標,計算方法如下:
其中:TP(True Positive)表示事實為正樣本,預測也為正樣本的數(shù)量;TN(True Negative)表示事實為負樣本,預測也為負樣本的數(shù)量;FP(False Positive)表示事實為負樣本,預測為正樣本的數(shù)量;FN(False Negative)表示事實為正樣本,預測為負樣本的數(shù)量。Accuracy 表示所有文本正確識別情感傾向的比例,Precision 表示正樣本中正確識別情感傾向的比例,Recall表示正確預測的正樣本占所有正樣本的比例,F(xiàn)1 值為Precision 和Recall 的調和平均值,指標的值越大表示分類效果越好。
本文設置了3 組不同實驗來測試模型的性能,選取部分實驗結果作為展示。
實驗1 為了測試詞嵌入維度對DC-GCNN-SL 模型分類性能的影響,本文取詞向量維度為[10,30,50,100,200,300],測試不同的取值對其準確率的影響。
圖3 是DC-GCNN-SL 模型在3 個數(shù)據(jù)集上詞嵌入維度不同取值時的準確率結果。
圖3 DC-GCNN-SL模型在三個數(shù)據(jù)集上的實驗結果Fig.3 Experimental results of DC-GCNN-SL model on three datasets
從圖3 中可以看出,當選取的維度值較小,則得到的文本特征不充分;選取的維度值太大,則文本特征冗余。由此可以看出隨著詞向量維度的增加,DC-GCNN-SL 模型的準確率會上升;但是當詞向量維度取值為300 時,與詞向量維度取值為200 時相比,DC-GCNN-SL 模型的準確率有所下降。從實驗1可以看出,綜合考慮,在后續(xù)所有實驗中,選擇的詞向量維度為100。
實驗2 為了測試模型的情感分析性能,本文將其與以下神經網絡模型進行對比,包括:
1)融合卷積神經網絡和注意力的情感分析模型(ADCNN)[20]。輸入為Word2Vec 訓練的詞向量,使用卷積神經網絡和K最近鄰(K-NearestNeighbor,KNN)算法,融合注意力機制,獲取文本更多的信息。網絡參數(shù)按照文獻[20]設置。
2)遞歸卷積神經(Recursive Convolutional Neural Network,RCNN)[21]。使用遞歸結構卷積神經網絡,能捕獲上下文信息,使用自動判斷的池化層獲取關鍵信息。
3)卷積神經網絡(CNN)。普通的卷積神經網絡,實驗參數(shù)設置與3.3 節(jié)保持一致,使用相同的詞向量作為輸入,經過卷積層、池化層、全連接層和分類層輸出結果。
4)循環(huán)神經網絡(Recurrent Neural Network,RNN)[22]。使用流行的循環(huán)神經網絡分析句子的情感,輸入為Word2Vec訓練的詞向量,使用RNN結構提取句子特征。
5)長短期記憶(LSTM)網絡[23]。使用單方向的長短期記憶網絡進行訓練,神經元數(shù)量為128。
6)雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)網絡[24]。輸入為Word2Vec訓練的詞向量,使用雙向的長短期記憶網絡進行訓練,神經元數(shù)量為128。
表5~7 給出了不同模型在酒店評論數(shù)據(jù)集、外賣評論數(shù)據(jù)集和商品評論數(shù)據(jù)集上的實驗結果。
表5 不同模型在酒店評論數(shù)據(jù)集上的實驗結果對比 單位:%Tab.5 Experimental result comparison of different models on hotel review dataset unit:%
表6 不同模型在外賣評論數(shù)據(jù)集上的實驗結果對比 單位:%Tab.6 Experimental result comparison of different models on takeaway review dataset unit:%
表7 不同模型在商品評論數(shù)據(jù)集上的實驗結果對比 單位:%Tab.7 Experimental result comparison of different models on commodity review dataset unit:%
從表5~7 可以看出,在酒店評論數(shù)據(jù)集和商品評論數(shù)據(jù)集的實驗結果明顯優(yōu)于外賣評論數(shù)據(jù)集上的實驗結果,原因在于外賣評論數(shù)據(jù)集的樣本數(shù)雖然達到12 000 條,但是詞典大小明顯小于另外兩個數(shù)據(jù)集的詞典,導致Word2Vec訓練的詞向量表達能力不佳,這是由輸入所決定的。
通過比較表5~7 的不同模型的實驗結果,可以發(fā)現(xiàn):RNN模型的結果相較于LSTM 結果性能較差,原因在于LSTM 避免了梯度消失或爆炸的問題,能夠捕捉長距離文本特征;BiLSTM模型相較于LSTM模型,采用了雙向結構,能夠捕獲兩個方向的序列特征,效果更好。在外賣評論數(shù)據(jù)集上的實驗結果表明,句子長度較短的文本(平均長度為40)更適用CNN模型,CNN 模型提取局部特征的優(yōu)勢也更容易發(fā)揮。通過進一步比較不同模型的實驗結果,DC-GCNN-SL 模型的實驗結果均優(yōu)于其他模型,表明使用情感詞典監(jiān)督文本,可以去除文本內含有的噪聲信息,使用基于GTRU 的門控卷積機制能夠增強神經網絡模型的分類能力。
實驗3 為了測試卷積神經網絡中卷積核大小對模型準確率的影響,設置了不同的卷積核大小來計算情感分類的準確率。本文設置了7 組不同的卷積核大小,卷積核數(shù)量設置為100,分別在酒店評論數(shù)據(jù)集、外賣評論數(shù)據(jù)集和商品評論數(shù)據(jù)集上進行實驗。
表8 為不同卷積核的DC-GCNN-SL 模型在3 個數(shù)據(jù)集上的準確率。
表8 不同卷積核的模型在三個數(shù)據(jù)集上的準確率對比 單位:%Tab.8 Accuracy comparison of models with different convolution kernels on three datasets unit:%
從表8 中可知,卷積核尺寸為(3,4,5)的模型的在數(shù)據(jù)集上進行實驗得到的準確率均高于其他的卷積核模型,這是因為不同大小的卷積核可以獲取到不同粒度的文本特征,得到的局部特征更加豐富,對分類的準確率有促進效果,比使用單一尺寸的卷積核效果要好。因此,本文使用卷積核為(3,4,5)的模型進行實驗,有助于獲得更好的情感分析結果。
本文中的門控機制使用GTRU 控制信息傳遞到池化層,可以有效地獲取情感信息。門控機制在LSTM 上已經被證明是有效的,而在CNN 中,門控機制的選擇有基于GTU、GLU 和GTRU 的結構,不同結構的區(qū)別在于門函數(shù)的不同:GTU 的門函數(shù)為tanh門和sigmoid門,GLU的門函數(shù)為線性門和sigmoid門,而GTRU 的門函數(shù)為tanh 門和relu 門。為了更好地對比三種不同結構的結果,在酒店評論數(shù)據(jù)集上進行了實驗,模型的區(qū)別僅為門控單元的不同,實驗結果如表9所示。
表9 不同門控單元的模型在酒店評論數(shù)據(jù)集上的實驗結果 單位:%Tab.9 Experimental results of models with different gated units on hotel review dataset unit:%
從表9可以看出,使用GTRU的模型與另外兩個門控單元的模型進行對比,GTRU 的模型的分類效果略優(yōu)于GTU 的模型,表明GTRU 能夠獲取深層情感特征信息,完成文本的情感極性判別。GLU 的分類效果最差,由于模型結構僅有一層卷積層,可知在單一卷積層的網絡結構中,GLU在防止梯度消失的作用并不能發(fā)揮出來,反而降低了獲取特征信息的優(yōu)勢。
針對傳統(tǒng)神經網絡不能挖掘深層情感信息和中文文本噪聲的問題,本文提出了一種結合情感詞典的門控卷積神經網絡模型。所提模型避免了文本噪聲信息影響情感極性判斷,利用情感詞典篩選文本有用信息,獲取了情感先驗知識,同時利用門控卷積操作,捕獲深層情感特征,獲取文本情感極性。在不同的數(shù)據(jù)集上進行了大量實驗,實驗結果驗證了本文所提模型的有效性。
由于數(shù)據(jù)類型的不同,英文情感分析任務與中文數(shù)據(jù)相比,英文具有天然優(yōu)勢,不需要進行分詞處理。目前也存在大量的英文情感詞典,下一步的工作重心是研究本文模型在英文數(shù)據(jù)情感分類任務的有效性,并且將考慮語法結構與神經網絡的結合,引入更多文本特征來提升文本情感分析任務的性能。