滕飛 鄭超美 李文
摘要:針對中文微博全局性情感傾向分類的準確性不高的問題,提出基于長短期記憶模型的多維主題模型(MT-LSTM)。該模型是一個多層多維序列計算模型,由多維長短期記憶(LSTM)細胞網絡組成,適用于處理向量、數組以及更高維度的數據。該模型首先將微博語句分為多個層次進行分析,縱向以三維長短期記憶模型(3D-LSTM)處理詞語及義群的情感傾向,橫向以多維長短期記憶模型(MD-LSTM)多次處理整條微博的情感傾向;然后根據主題標簽的高斯分布判斷情感傾向;最后將幾次判斷結果進行加權得到最終的分類結果。實驗結果表明,該算法平均查準率達91%,最高可達96.5%;中性微博查全率高達50%以上。與遞歸神經網絡(RNN)模型相比,該算法F-測量值提升40%以上;與無主題劃分的方法相比,細致的主題劃分可將F-測量值提升11.9%。所提算法具有較好的綜合性能,能夠有效提升中文微博情感傾向分析的準確性,同時減少訓練數據量,降低匹配計算的復雜度。
關鍵詞:中文微博;情感傾向分析;長短期記憶;多層多維模型;主題標簽
中圖分類號:TP181
文獻標志碼:A
0引言
隨著網絡新媒體的飛速發(fā)展,大量用戶已習慣于通過微博表達自己真實的想法和理念,從而產生了龐大的數據量和很多創(chuàng)造性的自由、隨性的表達方式。這些新鮮的方式不僅表達了微博作者的態(tài)度和想法,還帶有極高的商業(yè)、社會價值。為此,分析這些大量且復雜的微博信息中的情感已成為當下研究熱點之一。
與傳統(tǒng)文本的情感分析不同,微博有其獨特的情感特征,其不僅需要明白表面意思,更需要分析字里行間的內在含義。這就需要從不同方面對微博信息的特征進行分析,否則很難準確判斷它的情感傾向,更難以得出準確結果。其次,微博具有篇章短小精悍、語言結構口語化、存在表情符號和創(chuàng)造性語言的特征,增加了語言處理和分析的難度。
目前,循環(huán)神經網絡(Recurrent Neural Network, RNN)模型正應用于各種機器學習所涉及的任務中,尤其適用于輸入輸出序列長度可變的環(huán)境中進行分類和生成任務;然而在實際應用中,由于長期目標依賴性導致訓練難度極大。Socher等[1]使用張量形式的遞歸神經網絡(Recursive Neural Network, RsNN)側重于對整個句子的理解,但中文尤其是微博很少有完整的句子和完善的句法結構。Koutnik等[2]將循環(huán)神經網絡的隱藏單元劃分為組,采用不同頻率時鐘的發(fā)條循環(huán)神經網絡(Clockwork Recurrent Neural Network, CW-RNN)模型跨時空鏈接信息;但不適用于正則文法表達,缺乏上下文的內在關聯(lián),使整條微博的識別性降低。近來相對有效的方法之一,是增加特殊控制單元來限制內存訪問,即使用長短期記憶模型(Long Short-Term Memory, LSTM)來獲得更持久的記憶,以及更輕松地捕獲長期依賴項,減緩信息衰減的速率,增加深度計算的優(yōu)勢。Stollenga等[3]則是從線的角度出發(fā)進行掃描,代替了原先的點輻射的思想,提出金字塔型長短期記憶模型(Pyramidal Multi-Dimensional LSTM, PMD-LSTM);但其打破了上下文的關聯(lián),且復雜度較高,影響分類效果。Li等[4]在RNN的基礎上增加了自動編碼模型形成了一種按等級劃分的自動編碼模型HNA(Hierarchical Neural Autoencoder),是一種多維的LSTM模型;但其效率不高,每句話都要反復地進行編碼和解碼的工作。
針對以上問題,筆者根據中文微博的特性,提出了基于LSTM的多維主題模型(Multidimensional Topic LSTM, MT-LSTM),以提高微博情感傾向預測的準確率。它不依賴于句子的標簽和形式,通過分層的方式增強詞與詞之間的聯(lián)系,以及義群與義群、句與句之間的聯(lián)系。最后,通過主題分類判斷情感傾向,再將每一層結果進行加權求和得到最終的情感傾向。由此,增強了句子的特征,解決了因時間遷移導致數據模糊而無法計算的問題,降低了因長期記憶影響導致遺忘速率過快而對結果產生的不利影響,增強了分類的準確性,且更適用于口語化的中文微博。
隱藏序列和記憶序列的計算與傳統(tǒng)RNN不同,通過Python予以實現[5]。本文通過輸入序列得到標準RNN計算出的隱藏序列和記憶序列。由于目標類會與邏輯序列產生聯(lián)系,所以這種表示不會產生邏輯衰退。實驗表明,通過這種組合方式進行情感分析得到的結果準確率更高。
1相關工作
上述控制門和記憶細胞允許LSTM單元自適應地忘記、記憶和展示記憶內容。遺忘門的開閉可以同時發(fā)生在不同的LSTM單元?;赗NN的多重LSTM單元可以同時捕捉在網絡中快速和緩慢移動的數據。
2構建模型
2.1模型架構
與英文相比,中文的語法不夠嚴謹,而微博語言的隨意性更強,使得依據細致的語法分析進行句子的傾向性分析比較困難。為此,考慮放棄復雜的語法分析,而對句子的內部構造進行整合。目前的研究多是將整條微博當成一個句子進行處理,或僅處理微博中的一句話。為此,可以將整條微博視作一個整體,探討其內在的邏輯和最終的情感傾向;再加上對微博主題傾向的邏輯劃分,形成細粒度的微博情感模型。以一條微博為例,其情感分析的框架結構如圖1所示。
其中最底層的句子為預處理后的結果。由于計算時間會隨著維度的增加呈指數級上升,為避免形成維數災難,本文模型縱向傳播采用三維長短期記憶模型(Three-Dimensional Long Short-Term Memory, 3D-LSTM),橫向傳播采用多維長短期記憶模型(Multi-Dimensional Long Short-Term Memory, MD-LSTM)。
圖1給出了處理某一條微博的詳細過程,其詳細內容如下:
1)對語料庫進行預處理,去掉無關部分。依照ICTCLAS分詞系統(tǒng)將句子進行詞語劃分,并保留標點以及各種符號和符號集(多個符號組成的表情符號)。
2)通過谷歌的word2vec工具進行詞語向量化表示,并將向量化的詞語調整格式進行輸入。
3)隨時間推移,每條微博的處理方式:
a)向上傳播:使用3D-LSTM模型,在不同句子粒度上進行分析;
b)向右傳播:使用MD-LSTM模型,在不同句子層次上進行分析。
4)當分析完一整條微博后,根據原本的微博主題或人工分類的主題進行主題匹配,并根據高斯分布確定情感傾向。
5)對輸出的所有情感傾向進行加權運算,得到最終的情感傾向。
2.2三維長短期記憶模型
LSTM雖然通過增加部分長期記憶元素可以解決RNN中重要的序列依賴問題,但在解決實際問題時,無論短期還是長期的記憶和遺忘都應該得到相同的重視,解決該問題的有效思路之一是縮短句子長度。為此,考慮將長句子拆分成短句,同時還可以減少反復記憶和遺忘的時間,提高處理速度?;谏鲜鏊悸罚紤]將微博語言數據擴展為3維進行處理,更加有效地利用圖形處理器(Graphics Processing Unit, GPU)的處理功能。
MT-LSTM中涉及的隱藏層和記憶單元可抽象表示為圖2和圖3。圖2中不包括遺忘門的輸入輸出,僅為一層中的一次輸入及其輸出;圖3為立體結構的整體模型示意圖。以圖3所使用的框架模型的第一層為例,將得到的詞向量按照句子的標點將其劃分成多個分句,以每個分句的長度作為向量空間的劃分依據。第一層不考慮標點符號,只以分句為單位進行輸出,則每一個分句都可以根據這種標準構成一個二維向量矩陣;再加上LSTM中的時間坐標,構成3維的長短期記憶模型。
與之類似,當進入到以義群為單位的第二層時,加入標點符號的成分,以句子較長時間的停頓符號(句號、分號或省略號等)作為向量空間劃分的依據,即:將原有句子中的逗號、頓號或加號等,連同上一層的訓練結果作為本層的輸入矩陣。句子層則可以看作是普通的二維LSTM模型,可以通過公式表達為:
2.3多維長短期記憶模型
多維長短期記憶模型(MD-LSTM)不需要對整篇微博進行細致的劃分。它是一個相對獨立的模型,可以將總體模型中的某一層作為輸入,直接得到該層對應的情感傾向。
MD-LSTM與3D-LSTM的區(qū)別是,MD-LSTM將一整條微博視為一個整體,更側重對全局的考慮,故這里的多維度僅針對隱藏層進行設置。根據前面的經驗公式,可以知道記憶單元的維度也會隨著隱藏層維度的增加而增長,也就意味著記憶周期更長。為抵消短周期記憶的缺失,定義每個義群或句子中的標準輸入為:
同樣,以圖3中第一次使用MD-LSTM模型的層為例。其中:xj為某一義群中的第j個詞向量,n為該義群中全部向量的長度。中間第二次使用MD-LSTM模型時,xj為某一句子中得第j個義群。最后一次由于不存在群體概念,xj為其本身,此時MD-LSTM模型即為標準LSTM模型。
由式(14)可見,輸入隊列中每個詞或義群與其周圍詞或義群相互之間的關系更加緊密,可以減輕MD-LSTM短期記憶的負擔。
3實例分析
3.1實驗數據
實驗數據來自新浪網提供的應用程序編程接口(Application Programming Interface, API),根據主題獲取微博,共隨機獲取到20個不同主題的微博,其中正向主題10個(如:“剛出生的雙胞胎手牽手”),負向主題10個(如“每天一劑負能量”)。去除轉發(fā)和無文字內容的微博,每類主題約有3000條微博進入預處理。同時由10人進行人工分類,每條微博的情感傾向均由3人評價打分的結果確定。最終得到的情感分類結果如表1所示,該結果作為實驗中MT-LSTM與比較模型訓練及檢驗的標準。
3.2預處理
由于微博更傾向于口語表達,存在較多噪聲,因而需要預處理,其主要工作是對微博信息進行清洗,為此參考文獻[9] 并根據最新微博版本進行調整,去掉微博中不存在情感的噪聲數據,包括:話題、標題、回復、統(tǒng)一資源定位器(Uniform Resoure Locator, URL)、來源等。
此外,還需將表情符號改為文字,以便后續(xù)處理。其中,表情符號為微博官方表情符號庫,轉為文字形式時使用符號庫中表情對應文字;不存在于官方表情庫中的表情,如:“
_(:з」∠)_”,則以原格式保留,作為標點符號處理。
3.3使用詞向量表示詞語
使用詞向量可以使模型變得更加客觀,目標詞向量不依賴RNN的權重。Turney等[10]使用詞向量作為特征進行有監(jiān)督的訓練和測試,但詞袋(bag-of-words)模型[11]已經不能準確地捕獲詞語的含義。為獲取情感傾向性分析的基本依據,國內往往將整條微博進行拆分,僅保留已知的情感詞作為整條微博情感傾向判斷的依據。實際上,中文表達十分豐富,很多名詞或網絡用語也存在主觀情感,如用“小凱”或“凱凱”作為對凱迪拉克轎車的稱呼,表現了使用者喜愛的情緒,也是積極情感傾向的一種。
筆者使用中國科學院計算技術研究所開發(fā)的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞系統(tǒng)[12]對已經預處理的文檔進行分詞;使用谷歌的word2vec工具[13]對完成分詞的文檔進行詞向量轉換工作;使用詞向量表示詞語。由此,擺脫了傳統(tǒng)方法的束縛,更適用于微博這種靈活的語言形式,可以更全面地反映句子中存在的情感傾向。
3.4微博主題分類
在微博使用過程中,用戶可以根據提示添加已有主題或自己添加主題。實驗發(fā)現,一般情況下,同一微博話題下的情感傾向呈高斯分布。大多數帶有主題的微博,其情感一般都趨近于相關主題,當主題情感為正向時,極少出現負向情感,反之亦然。
此外,雖然存在情感傾向的微博數量比例較高,而僅僅表達中性或無明確意義的微博相對存在數量較少,但在大數據的分析中也不能忽視。筆者采集多類不同主題的語料進行分析,發(fā)現詳細的主題劃分有助于微博情感傾向的判斷。
為驗證主題分類的有效性,使用不同方法將主題分為不同數量的類別,如表2所示。
由此可以方便地計算反向傳播[14],并使用梯度下降訓練網絡。
根據文獻[4]設置訓練中用到的參數,具體細節(jié)如下:
1)統(tǒng)一初始化3D-LSTM和MD-LSTM中的參數,參數值設置區(qū)間為[-0.08, 0.08];
2)隨機梯度下降使用固定學習速率0.1,訓練了接近7個周期;
3)最低批處理文件數為20;
4)漏碼率為0.2;
5)當梯度規(guī)模超過臨界值5,進行梯度裁剪;
6)模型框架中每層的權重為[0.3, 0.4, 0.3]。
模型訓練過程中使用單獨GPU(Tesla K40m, 1 Kepler GK110B),處理速度約為每秒600~1200條微博。
3.6結果分析
為保證分析的客觀性,選取目前公認較先進的四種模型與MT-LSTM進行比對,分析比對的主要性能評估指標為查準率和查全率。查準率定義為正確判別為該類的測試樣本占判別為該類測試樣本的比例,而查全率定義為正確判別為該類的測試樣本占該類總測試樣本的比例[15]。然而,這兩個指標往往相互矛盾,為此一般采用F-測量值作為綜合評估標準,其定義如下:
由表3數據可以看出,MT-LSTM可以較準確地查出微博的情感傾向,同時可準確全面識別50%以上的中性微博。
觀察表4可以發(fā)現:通過第3層判斷,即增加主題分類,可以有效提高微博情感傾向的準確率;適當增加第2層的權重,可以提升模型整體的查全率,對提升總體的F-測量值起到至關重要的作用。
實驗中,分別采用10%和1%的訓練數據占比(從實驗數據中隨機取樣的訓練數據比例)進行訓練,并采用10折交叉驗證技術,得到的F-測量值的結果如圖4所示。
由圖4可見,與四種先進模型相比,當訓練數據占比為10%時,通過MT-LSTM進行情感分析得到的F-測量值與表現最好的HNA不相上下;當占比減少到1%時,MT-LSTM的F-測量則比其他模型至少提高了40.2%。值得注意的是,占比越小,意味著所需要的訓練數據越少,還可以有效降低計算復雜度。當訓練數據減少時,其他模型的F-測量值都相對較低且結果大致相同,應該是因為它們僅僅縱向使用模型,而未考慮到層次間的聯(lián)系。
由圖5可知,主題的細致劃分有助于提高分類的準確性。當主題數量達到20時,與無主題分類(即主題數量為1時)相比,F-測量值提高了11.9%。
上述分析表明,MT-LSTM可以較準確地劃定情感傾向,同時對中性微博有較強的分辨能力;而且當訓練集數據較少時,結果依然令人滿意;同時主題數量對F-測量值有較大影響。因此,與目前的幾種先進模型相比,在對中文微博的情感傾向性進行分析時,MT-LSTM具有更好的綜合性能。
4結語
本文在傳統(tǒng)LSTM模型基礎上提出了一個多層多維主題情感分析模型。與原序列模型相比,MT-LSTM模型對每條微博進行逐層分析,在增加詞與詞相關性的基礎上,增加了義群與句子和句子與句子的邏輯結構;其次,在保留了句子的一致性和完整性的同時,增加了對主題的考慮,可以更真實地反映用戶對熱點事件的態(tài)度;第三,可以自動學習中文口語表述,在多個層次上對整條中文微博的情感傾向進行判斷,提高了中文微博情感分類的準確性。值得指出的是,此模型還可以應用到更廣泛的領域,如翻譯和文字識別等。
雖然MT-LSTM模型可以根據上下文較準確地推斷微博的情感傾向,但網絡詞語和較少出現的古代文體對準確率造成一定影響。在今后的工作中,希望構建一個不需要分詞的神經網絡模型,處理上下文關聯(lián)較弱的文本內容。
參考文獻:
[1]SOCHER R, PERELYGIN A, WU J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank [C]// EMNLP 2013: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1631-1642.
[2]KOUTNIK J, GREFF K, GOMEZ F, et al. A clockwork RNN [C]// ICML 2014: Proceedings of the 31st International Conference on Machine Learning. [S.l.]: International Machine Learning Society, 2014: 1863-1871.
[3]STOLLENGA M F, BYEON W, LIWICKI M, et al. Parallel multi-dimensional LSTM, with application to fast biomedical volumetric image segmentation [C]// NIPS 2015: Proceedings of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015.
http://mrbrains13.isi.uu.nl/pdf/IDSIA.pdf
http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2015_5642.pdf
[4]LI J, LUONG M T, JURAFSKY D. A hierarchical neural autoencoder for paragraphs and documents [EB/OL]. [2015-11-09]. http://arxiv.org/pdf/1506.01057v2.pdf.
[5]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// NIPS 2014: Proceedings of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3104-3112.
[6]GRAVES A. Generating sequences with recurrent neural networks [EB/OL]. [2015-08-24]. http://arxiv.org/pdf/1308.0850v5.pdf.
[7]HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780.
[8]ZAREMBA W, SUTSKEVER I, VINYALS O. Recurrent neural network regularization [EB/OL]. [2015-08-24]. http://arxiv.org/pdf/1409.2329v5.pdf.
[9]袁丁,周延泉,魯鵬,等.多方法融合的微博情感分析[C]//第六屆中文傾向性分析評測報告.昆明:中國中文信息學會信息檢索專業(yè)委員會,2014:35-39. (YUAN D, ZHOU Y Q, LU P, et al. Sentiment analysis of microblog combining multi-methods [C]// Proceedings of the sixth Chinese Orientation Analysis Evaluation Report. Kunming: China Computer Federation and Chinese Information Processing Society of China, 2014:35-39.)
[10]TURNEY P D, PANTEL P. From frequency to meaning: Vector space models of semantics [J]. Journal of Artificial Intelligence Research, 2010, 37(1): 141-188.
[11]PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques [C]// EMNLP 02: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2002: 79-86.
[12]張華平.NLPIR漢語分詞系統(tǒng)[CP/OL]. [2014-12-11]. http://ictclas.nlpir.org/. (ZHANG H P. Chinese lexical analysis system [CP/OL]. [2014-12-11]. http://ictclas.nlpir.org/.)
[13]Google. word2vec [CP/OL]. [2015-03-25]. http://word2vec.googlecode.com/svn/trunk/.
[14]WILLIAMS R J, ZIPSER D. Gradient-based learning algorithms for recurrent networks and their computational complexity [M]// Backpropagation: Theory, Architectures and Applications. Hillsdale, NJ: L. Erlbaum Associates Inc., 1995: 433-486.
[15]張啟蕊,董守斌,張凌.文本分類的性能評估指標[J].廣西師范大學學報(自然科學版),2007,25(2):119-122. (ZHANG Q R, DONG S B, ZHANG L. Performance evaluation in text classification [J]. Journal of Guangxi Normal University (Natural Science Edition), 2007, 25(2): 119-122.)