杜 銳,朱艷輝,田海龍,劉 璟,馬 進
(湖南工業(yè)大學 計算機與通信學院,株洲 湖南 412007)
基于平滑SO-PMI算法的微博情感詞典構建方法研究
杜 銳,朱艷輝,田海龍,劉 璟,馬 進
(湖南工業(yè)大學 計算機與通信學院,株洲 湖南 412007)
對現有情感詞典在微博情感分類中的適用性進行了分析,針對現有情感詞典在微博中情感詞覆蓋度低的問題,整合現有情感詞典資源,構建了一個微博基礎情感詞典,同時提出了一種基于拉普拉斯平滑的SO-PMI算法對微博基礎情感詞典中沒有收錄的情感詞傾向性進行判斷,最后利用微博情感詞典與拉普拉斯平滑的SO-PMI算法對微博情感詞典進行了構建,并對所構建微博情感詞典的分類性能進行了實驗。實驗結果表明,該方法所構建的情感詞典在微博情感分類中能達到較好的分類效果。
中文微博;情感詞典;情感分類;平滑
隨著移動互聯網的快速發(fā)展,以微博為代表的社交媒體得到了廣泛的應用。在微博中,人們可以享受快捷的獲取信息的方式,也可以分享自己身邊有趣的人或事。在海量的微博文本中包含著大量表達人們情感的主觀性文本,這些主觀性的微博在文本長度、表達方式、語言風格等方面與傳統評論存在著較大的區(qū)別,分析主觀文本的情感傾向是輿情監(jiān)控的重要基礎。
在微博情感分析中,微博情感詞典的構建具有重要的研究意義和使用價值,其不僅能為情感分析的研究提供參考,而且在情感特征選擇及特征降維等方面有著重要的應用。在情感詞典的構建過程中,情感詞的傾向性計算是重點也是難點。目前,計算情感詞傾向性的方法主要有基于語義相似度的計算與基于統計的計算方法。
文獻[1]采用HowNet和NTUSD 2種資源對現有情感詞典進行擴展,建立了一個具有傾向性程度的情感詞典。文獻[2]提出了一種自動構建與上下文相關的情感詞典的最優(yōu)化方法。文獻[3]利用知網進行同義詞擴展,提出一種HowNet和PMI(pointwise mutual information)相融合的詞語極性計算方法。
基于HowNet的語義相似度計算方法[4]以及基于SO-PMI(semantic orientation-pointwise mutual information)的情感詞傾向性計算方法[5],這2種方法的共同點是:需要選取一定數量的正面種子詞和負面種子詞。不同點是:前者通過計算未知詞與正、負面種子詞相似度的方法判斷未知詞的傾向性,其中詞語的相似度采用計算2個詞語義原相似度的最大值而得到[6];而后者通過互信息計算未知詞與正、負面種子詞關聯度的方法對未知詞的傾向性進行判斷。上述2種方法在情感詞的傾向性判斷中取得了一定的效果,但是在中文微博中,由于網絡新詞較多,部分詞如“給力”“正能量”“坑爹”等在HowNet中找不到義原,進而也就無法根據2個詞義原的相似度計算詞語的相似度。因此,基于HowNet的語義相似度計算方法對微博中部分詞的傾向性判斷并不適用。
基于SO-PMI的方法需要計算候選情感詞與種子詞的互信息,種子詞通常選詞頻較高的情感詞。而在微博中,若選取詞頻較高的情感詞作為種子詞則會帶來如下問題:由于同一情感詞可能在一條微博中出現多次,而在其他微博中出現的次數較少或并不出現,若將該情感詞選為種子詞則候選情感詞與該種子詞在整個語料中同現的次數可能為0,候選情感詞與種子詞的互信息無法計算,進而無法判斷候選情感詞的情感傾向性。因此基于SO-PMI的方法在判斷微博中情感詞的傾向性時也存在局限性,本文在已有情感詞典資源的基礎上,提出了一種基于改進SO-PMI的微博情感詞典構造方法。
情感詞典是指由一系列情感詞及其相應的傾向性值構成的詞集合。在含有情感詞的微博情感句中,情感詞是進行傾向性判斷的重要特征。雖然,已有一些研究機構發(fā)布了一系列情感詞典如《知網》情感詞詞典[7]、《大連理工大學情感本體》[8]等,這些情感詞典為情感分類的研究提供了重要的參考。但由于微博中網絡新詞和網絡用語層出不窮,現有情感詞典對微博中所有情感詞的覆蓋程度難以確定。為此,本文對現有情感詞典在微博中情感詞的覆蓋程度進行了分析。
課題組首先從COAE2013(2013年中文傾向性評測)任務三發(fā)布的微博評測標注語料中隨機選取正、負面微博各100條,采用ICTCLAS[9]分詞后,人工挑選微博中所有的正、負情感詞及情感短語,其中正面情感詞及短語119個、負面情感詞及短語99個。然后,對現有情感詞典資源《知網》《大連理工大學情感本體》分別進行了整理,情感詞典整理結果如表1所示。
表1 微博基礎情感詞典Table 1 The basic sentiment lexicon of microblog
表1中,Dalian為大連理工大學情感本體,Co為合并HowNet與Dalian情感詞典并去掉重復的詞構成的情感詞典,即微博基礎情感詞典。將上述整理后的情感詞典分別與人工挑選的微博正、負情感詞進行對比,并計算整理后的情感詞典對微博中情感詞的覆蓋程度,覆蓋度計算為:
式中:m為整理后與基礎情感詞典完全匹配的情感詞個數;n為正、負微博情感詞個數。
利用上述公式分別計算HowNet正、負情感詞典及Dalian正、負情感詞典對微博正、負面情感詞的覆蓋度,其覆蓋度結果如圖1所示。
圖1 正、負情感詞覆蓋度Fig. 1 The coverage of positive and negative sentiment words
由圖1可以看出,HowNet正面情感詞典對微博正面情感詞的覆蓋程度較好,Dalian負面情感詞對微博負面情感詞典的覆蓋程度較好,微博基礎情感詞典對微博的正、負面情感詞覆蓋程度有顯著提升,因此,整合現有情感詞典在一定程度上能提高微博中情感詞的覆蓋度。但是,整合后的情感詞典離完全覆蓋微博中的正、負情感詞還有一定的差距。
當微博條數增加時,需要判斷整合后的情感詞典是否具有穩(wěn)定性,即隨著微博條數的增加,情感詞典對微博中情感詞的覆蓋度是否保持不變。為了對情感詞典的穩(wěn)定性進行分析,本文共進行了8組實驗,每組分別選取50, 100, 150, 200, 250, 300, 350, 400條微博,人工挑選出每組中的所有微博情感詞,并利用微博基礎情感詞典計算其對微博中情感詞的覆蓋度,其計算結果如圖2所示。
圖2 情感詞覆蓋度隨微博條數的變化趨勢Fig. 2 The sentiment words coverage changed with the numbers of microblog
由圖2可知,當微博條數增加時,微博基礎情感詞典對微博中的情感詞覆蓋度降低。分析其原因,隨著微博條數增加時,微博中的情感詞也隨之增加,而部分情感詞如網絡新詞、情感短語等并沒有在整合后的微博基礎情感詞典中收錄。因此,整合后的基礎情感詞典在微博中并不具有穩(wěn)定性。
2.1 候選微博情感詞的提取
候選微博情感詞是指微博中可能是情感詞的詞或短語,其主要以名詞、動詞、形容詞、副詞存在。因此,微博中候選情感詞的提取可以通過分詞后詞語的詞性而得到,但僅僅以詞性作為候選情感詞的提取方式則會產生過多的候選情感詞,為了減少候選情感詞的粗糙程度,本文采用如下方式提取微博中的候選情感詞。
首先,采用ICTCLAS對微博進行分詞,提取詞性為/a, /v, /n, /vn, /ag, /vi的詞作為待入選候選微博情感詞;然后,待入選候選微博情感詞分別與微博基礎情感詞典中的正、負情感詞匹配,正面匹配相同的詞存入sp,記sp={a1, a2, …, an},負面匹配相同的詞存人sn,記sn={b1, b2, …, bm};則未匹配的詞即為候選微博情感詞,將該類詞存入sd,記為sd={c1, c2, …, cp}。
2.2 判斷候選微博情感詞傾向性
在利用SO-PMI算法對候選微博情感詞的傾向性進行判斷時需選取情感種子詞,通常種子詞采用詞頻統計的方式選取詞頻較高的情感詞作為種子詞。但由于微博文本長度較短,詞頻較高的種子詞其文檔頻率并不一定高,若情感種子詞在較少的微博中出現,則微博候選情感詞與情感種子詞在訓練語料中同現的次數較少或不同現而無法計算其互信息。因此,為了避免上述問題的出現,認為,種子詞的選取應選取文檔頻次較高的情感詞而并非詞頻較高的情感詞。若候選情感詞與情感種子詞在整個語料中同現的次數為0,則候選情感詞與情感種子詞的互信息無法計算,進而無法判斷候選情感詞的情感傾向性。為了避免解決上述問題,本文對SO-PMI算法進行了如下改進。
設有n個正面情感種子詞:P={p1, p2, …, pn},m個負面情感種子詞:N={r1, r2, …,rm},則對候選微博情感詞中的每個詞ci(i=1, 2, …, p),其與正面情感種子詞pj(j=1, 2, …, n)的互信息為
式中:p(ci, pj)為詞ci與正面情感種子詞pj在訓練語料中同現的概率;
p(ci), p(pj)為詞ci, pj在訓練語料中出現的概率。
在實際計算過程中,上述概率值可用頻率進行估計,因此有以下公式,即
式(3)~(5)中:count(ci, pj)為表示詞ci與pj在訓練語料中同現的微博條數;
count(ci)為包含詞ci的微博條數;
count(pj)為包含詞pj的微博條數;
q為訓練集中總的微博條數。
將式(3)~(5)帶入式(2)后得到式(6):
由于在實際計算過程中count(ci, pj)的值可能為0,此時計算PMI值將無意義,因此,本文對式(3)引入拉普拉斯平滑技術:
則式(6)可改進為:
同理,詞ci(i=1, 2, …, p)與負面情感種子詞rj(j=1, 2, …, m)的互信息可進行相應的改進,則詞ci的SOPMI值可用如下公式計算:
將式(9)化簡后可變?yōu)椋?/p>
在封閉的訓練語料中,出現正、負面種子情感詞的微博條數是固定的,因此j可看做一個常數,其取值范圍為(0, +∞)。在訓練語料中,如果
即詞ci與pj, rj在訓練語料中同現的微博條數相等,則ci可視為中性詞,即
而根據式(10)計算后有
因此,改進后的SO-PMI值的計算公式為:
最終,候選微博情感詞的情感傾向性可通過式(16)進行判斷:若式(16)大于0則詞ci被判定為正面情感詞;若式(16)小于0則詞ci被判定為負面情感詞;若式(16)等于0則ci被判定為中性詞。將被判定為正面的情感詞加入到sp中,被判定為負面的情感詞加入到sn中,最后將加入了正、負情感詞的sp與sn合并,組成微博領域情感詞典。
3.1 實驗數據選擇
實驗采用COAE2014任務四的評測語料,其中共有40 000條微博(含干擾數據)。首先,對評測語料進行分詞、去除非法字符、數據格式規(guī)范化處理;然后,采用2.1~2.2節(jié)中的方式提取候選微博情感詞、計算候選情感詞的權值,并構造微博情感詞典;最后利用構造的微博情感詞典,對40 000條微博數據進行情感傾向性判斷,以判別微博情感詞典構建的質量。
3.2 種子詞個數對微博情感詞典的影響
為了考察種子詞的選取對構建微博情感詞典的影響,實驗分別選取了5, 10, 15, 20, 25個TF-IDF值較高的正、負面種子情感詞,并用所選取的情感詞利用式(16)構建微博情感詞典,采用準確率、召回率、F-measure對微博情感詞典構建的效果進行量化分析,其中準確率(presion)、召回率(recall)、F-measure的計算方式如下:
實驗結果如圖3所示。
圖3 情感詞典準確率、召回率、F-measure與種子詞個數的變化趨勢Fig. 3 The emotional dictionary presion, recall and F-measure changed with seed word numbers
從圖3可知,隨著種子詞個數的增加,準確率、召回率、F-measure隨之增加,表明情感詞典構建越準確。分析其原因,主要由于種子情感詞個數越多,其參與有效計算的情感詞隨之增加,從而減少個別情感詞對候選情感詞SO-PMI值的影響,因此,計算出的候選情感詞的傾向性值的可信度較大,從而使識別出的有效情感詞個數增加,準確率、召回率、F-measure隨之增加。
3.3 微博情感詞典的應用驗證
為了驗證微博情感詞典在微博情感分析中的應用適用性,實驗應用情感詞典并采用基于規(guī)則的方法對40 000條微博進行情感傾向性判斷,其判斷結果如表2所示。
表2 微博傾向性分析結果Table 2 Result of the microblog tendency analysis
表2中PosP, PosR, PosF分別為正面準確率、召回率和F值,NegP, NegR, NegF分別為負面準確率、召回率和F值,Hit_run3為采用基礎情感詞典[10]判斷微博情感傾向性的結果,Medians為COAE2014評測中的平均值。由表2可知,利用本文方法構建的微博情感詞典在情感分析中較Hit_run3效果要好,且高于評測中的平均值。分析其原因:文獻[10]所構建的情感詞典對網絡情感詞的覆蓋度較低,而本文方法在構建的基礎情感詞典的基礎上,采用改進的SO-PMI算法有效發(fā)現候選情感詞中的網絡情感詞,因而識別效果較好,有效驗證了本文方法構建的微博情感詞典在微博情感分析中的有效性。
本文針對SO-PMI算法在判斷微博中候選情感詞的傾向性時,對情感詞傾向性判斷不準的問題,在SO-PMI算法的基礎上,引入拉普拉斯平滑技術對SO-PMI算法進行了改進。采用改進后的SO-PMI算法在COAE2014評測語料的基礎上構建了微博情感詞典,利用構建的微博情感詞典對微博進行情感傾向性分析。實驗結果表明,本文方法構建的情感詞典在微博情感分析中具有較好的識別效果。
由于在分詞過程中,存在候選情感詞分詞不準的問題,同時在構建詞典中沒有考慮微博中表情符號的情感傾向性,因此在應用情感詞典進行微博情感傾向性判斷時存在召回率不高的問題,這表明采用規(guī)則的方法進行傾向性判斷存在一定的局限性,因此在規(guī)則的基礎上融合機器學習的方法對微博進行傾向性判斷將是下一步研究工作的重點。
[1]楊 超,馮 時,王大玲,等. 基于情感詞典擴展技術的網絡輿情傾向性分析[J]. 小型微型計算機系統,2010,31(4):691-695. Yang Chao,Feng Shi,Wang Daling,et al. Analysis on Web Public Opinion Orientation Based on Extending Sentiment Lexicon[J]. Journal of Chinese Computer Systems,2010,31(4):691-695.
[2]Lu Y,Castellanos M,Dayal U,et al. Automatic Construction of a Context-Aware Sentiment Lexicon :An Optimization Approach[C]//World Wide Web Conference Series. Newyork:ACM,2011,347-356.
[3]王振宇,吳澤衡,胡方濤. 基于HowNet 和PMI的詞語情感極性計算[J]. 計算機工程,2012,38(15):187-189. Wang Zhenyu,Wu Zeheng,Hu Fangtao. Words Sentiment Polarity Calculation Based on HowNet and PMI[J]. Computer Engineering,2012,38(15):187-189.
[4]朱嫣嵐,閔 錦,周雅倩,等. 基于HowNet的詞匯語義傾向性計算[J]. 中文信息學報,2006,20(1):14-20. Zhu Yanlan,Min Jin,Zhou Yaqian,et al. Semantic Orientation Computing Based on HowNet[J]. Journal of Chinese Information Processing,2006,20(1):14-20.
[5]Turney P D,Littman M L. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transactions on Information Systems,2003,21(4):315-346.
[6]知網. 《知網》情感分析用詞語集[EB/OL]. [2015-04-15]. http://www.keenage.com/html/c_index.html. HowNet. Words Set for Sentiment Analysis of HowNet [EB/OL]. [2015-04-15]. http://www.keenage.com/html/ c_index.html.
[7]大連理工大學信息檢索研究室. 大連理工大學情感詞匯本體庫[EB/OL]. [2015-04-15]. http://ir.dlut.edu.cn/ EmotionOntologyDownload.asp? xutm_source= weibolife. Information Retrieval Laboratory of Dalian University of Technology. Emotional Vocabulary Ontology Library of Dalian University of Technology[EB/OL]. [2015-04-15]. http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx? utm_source= weibolife.
[8]ICTCLAS分詞系統. ICTCLAS下載[EB/OL]. [2015-06-11]. http://ictclas/org/ictclas_download.aspx. ICTCLAS Word Segmentation System. ICTCLAS Download [EB/OL]. [2015-06-11]. http://ictclas/org/ ictclas_download. aspx.
[9]劉 群,李素建. 基于《知網》的詞匯語義相似度的計算[EB/OL]. [2015-06-15]. http://www.docin.com/ p-655858216.html. Liu Qun, Li Sujian. Lexical Semantic Similarity Computing Based on HowNet[EB/OL]. [2015-06-15]. http://www. docin.com/ p-655858216.html.
[10]柳位平,朱艷輝,栗春亮. 中文基礎情感詞詞典構建方法研究[J]. 計算機應用,2009,29(10):2875-2877. Liu Weiping,Zhu Yanhui,Li Chunliang. Research on Building Chinese Basic Semantic Lexicon[J]. Journal of Computer Applications,2009,29(10):2875-2877.
(責任編輯:申 劍)
Research on Construction of Microblog Sentiment Lexicon Based on the Smooth SO-PMI Algorithm
Du Rui,Zhu Yanhui,Tian Hailong,Liu Jing,Ma Jin
(School of Computer and Communication,Hunan University of Technology,Zhuzhou Hunan 412007,China)
Analyzed the applicability of the existing sentiment lexicon in the microblog sentiment classification. In view of low coverage of the existing sentiment lexicon, built a basic microblog sentiment lexicon by integrating the existing sentiment lexicon, and put forward a Laplacian-based smooth SO-PMI algorithm to judge emotional orientation of the words which not included in the basic sentiment lexicon, finally applied the microblog sentiment lexicon and the Laplacian smooth SO-PMI algorithm to construct the microblog sentiment lexicon, and tested the constructed lexicon classification capabilities. Experimental results showed that the constructed microblog sentiment lexicon achieved good effect inmicroblog sentiment classification.
chinese microblog;sentiment lexicon;sentiment classification;smoothing
TP391.1
A
1673-9833(2015)05-0077-05
10.3969/j.issn.1673-9833.2015.05.016
2015-07-13
國家自然科學基金資助項目(61170102),國家社會科學基金資助項目(12BYY045),湖南省教育廳重點項目基金資助項目(15A049),湖南工業(yè)大學研究生創(chuàng)新基金資助項目(CX1313)
杜 銳(1987-),男,湖北仙桃人,湖南工業(yè)大學碩士生,主要研究方向為文本處理,E-mail:578781015@qq.com
朱艷輝(1968-),女,湖南株洲人,湖南工業(yè)大學教授,主要從事文本分類和信息檢索方面的教學和研究,E-mail:swayhzhu@163.com