摘要:微博作為異軍突起的新媒體,已經(jīng)成為傳統(tǒng)媒體跟蹤突發(fā)消息的重要來源。文章對突發(fā)事件輿情傳播的特征與趨勢、微博短文本預處理、微博突發(fā)事件情感分析3個微博突發(fā)事件監(jiān)測的關(guān)鍵問題進行了闡釋和探討,并基于已有的研究,給出可能地解決方案。最后提出了一個高效的微博突發(fā)事件輿情監(jiān)測的設計框架,通過發(fā)現(xiàn)突發(fā)事件情感特征及突發(fā)期,再對處于突發(fā)期的博文進行主題聚類抽取突發(fā)事件。
關(guān)鍵詞:微博;突發(fā)事件;短文本;情感分析;輿情監(jiān)測
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)05-0905-03
Research on Chinese Micro-blog Bursty Topics Detection
CHEN Guo-lan1,2
(1.Library of Nanjing University of Posts and Telecommunications, Nanjing 210003,China;2. Libraries Information Institute of Nanjing University of Posts and Telecommunications, Nanjing 210003,China)
Abstract: As a new media, microblog has become an important source to track a breaking news for traditional media. In this paper, Characteristics and trend of emergency public opinion transmission, the pretreatment, microblog essay emergency sentiment analysis, three key problems about blog bursty topics detection are explained and discussed. And based on the existing research, possible solutions are presented. Finally put forward an efficient design framework of emergency microblogging public opinion monitoring, emotional characteristics by finding emergencies and sudden period, then to post at the emergency period subject cluster extraction emergency.
Key words: microblog; bursty topics; short texts; emotion analysis; Public opinion monitoring
根據(jù)第32次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[1],截至2013年6月底,我國微博網(wǎng)民規(guī)模為3.31億,較2012年底增長了2216萬,增長7.2%。網(wǎng)民中微博使用率達到了56.0%,較上年底增加了1.3個百分點。目前微博已經(jīng)成為網(wǎng)民獲取信息的重要途徑之一,微博從滿足人們?nèi)蹶P(guān)系的社交需求上逐漸演變成為大眾化的輿論平臺,越來越多機構(gòu)及公眾人物都通過微博來發(fā)布或傳播信息。
在微博影響力呈幾何式倍增升態(tài)勢下,微博成為突發(fā)事件網(wǎng)絡輿情轉(zhuǎn)移擴散的重要源頭。
微博作為一種異軍突起的新媒體,正在對傳統(tǒng)主流媒體的影響力產(chǎn)生重大沖擊。歷數(shù)近幾年年國內(nèi)外發(fā)生的大事幾乎都會在微博傳播,并通過微博平臺擴大傳播形成輿論中心,特別是一些突發(fā)事件,微博由于其發(fā)布的便捷性,成為很多突發(fā)消息的首發(fā)平臺。因此如果輿情監(jiān)督部門或者決策者通過對微博中的話題進行監(jiān)測及時的發(fā)現(xiàn)突發(fā)事件,在合適的時機介入,就能夠爭取化危機為轉(zhuǎn)機,盡可能的避免突發(fā)事件轉(zhuǎn)化成惡性群體性事件。
1 突發(fā)事件監(jiān)測的關(guān)鍵問題
1.1微博突發(fā)事件輿情傳播的特征與趨勢
作為一種新型的媒體,微博信息具有自身的傳播特點:首先發(fā)布和接收信息簡便,很多重大突發(fā)事件都是由現(xiàn)場的用戶在第一時間發(fā)出的,具有很強的即時性和現(xiàn)場性;其次微博的轉(zhuǎn)發(fā)功能激發(fā)民眾進行全民參與,使信息呈現(xiàn)“核裂變”式的幾何級數(shù)擴散態(tài)勢;另外擁有眾多粉絲數(shù)的意見領(lǐng)袖具有強大話語權(quán),在突發(fā)事件的產(chǎn)生、發(fā)酵、傳播等環(huán)節(jié)中起主要推動作用,潛意識里影響著數(shù)以萬計的圍觀群眾。
突發(fā)事件輿情在微博里面的傳播主要經(jīng)歷潛伏期、醞釀期、爆發(fā)期、衰退期四個階段。潛伏期時, 輿情危機的起因往往是爆料人的發(fā)帖具有很強的新聞性,能引起網(wǎng)民的關(guān)注;醞釀期時,信息經(jīng)過傳播者(特別是擁有眾多粉絲數(shù)的微博名人)的傳播得到更多網(wǎng)民的關(guān)注,其特有的新聞話題能迅速引起廣大網(wǎng)民的轉(zhuǎn)發(fā)和討論; 爆發(fā)期時, 事件經(jīng)過媒體、意見領(lǐng)袖進一步放大,迅速升級為一個熱門事件,通常網(wǎng)民的情緒激化,負面情感爆發(fā);若相關(guān)部門在爆發(fā)期時能積極的應對危機事件提出合理的解決方案, 便能疏導民眾的情緒, 使事件進入衰退期。
突發(fā)事件一個很重要的特點是引發(fā)突然性和瞬間聚眾性,微博的轉(zhuǎn)發(fā)功能能夠使得處于潛伏期的一個事件跳過醞釀期迅速擴散進入爆發(fā)狀態(tài)。一個事件演變成為突發(fā)事件,通常具備幾要素:一、傳播過程中通常有微博名人的參與,微博的名人效應有助于微博信息的迅速傳播,信息經(jīng)過他們的轉(zhuǎn)載,即可產(chǎn)生多米諾骨牌效應,放大網(wǎng)絡輿論,加速主流輿論形成;二、單位時間內(nèi)發(fā)文和回帖數(shù)劇增,微博里面的轉(zhuǎn)發(fā)和評論數(shù)也劇增;三、評論人數(shù)多,能引起眾多的心里共鳴,評論中情感傾向嚴重偏向負極。
為了提高監(jiān)測環(huán)節(jié)的計算速度和準確性,可以根據(jù)突發(fā)事件的傳播特點,在采集微博數(shù)據(jù)時可對不可能是突發(fā)事件話題的噪音微博進行過濾:1)過濾噪聲用戶的微博。噪聲用戶主要指一些僵尸粉,這些用戶會發(fā)布大量重復的內(nèi)容用于一些商業(yè)目的,會對話題檢測造成不少的影響,會對聚類算法產(chǎn)生干擾。僵尸粉通常關(guān)注人數(shù)多,粉絲數(shù)量少(接近于零),可以對它們的比值設定一定的閥值,如果小于一定閥值,就判定為僵尸用戶,就可以過濾其所發(fā)的微博。2)過濾轉(zhuǎn)發(fā)數(shù)量和評論數(shù)量小于一定閾值的微博消息,一個熱門事件必定有較大量的轉(zhuǎn)發(fā)數(shù),同時引起網(wǎng)民的廣泛評論或跟帖。3)過濾單純用戶之間對話性微博,通常帶有“@用戶”格式的消息,多數(shù)是用戶之間對話式的互動。而我們的檢測目標是突發(fā)事件,通常受眾面較廣,很少只是用戶之間的交流,所以對帶有@格式的指向性消息進行過濾,可以大大提高事件檢測的精度。4)過濾微博平臺給出的熱門話題,這種消息以“#話題名#”為格式,這通常是微博平臺針對熱門事件之后給定的一些熱門話題,這其中多數(shù)是對熱門事件的討論,再次成為突發(fā)事件的概率較小。
1.2微博短文本處理
由于微博平臺有發(fā)表字數(shù)限制,多數(shù)用戶使用微博通長只是以日志形式記錄自己的生活事宜,因此微博文本與傳統(tǒng)的新聞、博客相比,有其自身的特點:1)文本內(nèi)容短,可使用的文本特征詞少且稀疏;2)文本口語化,諧音詞、變異詞多,給文本理解帶來困難。3)文本數(shù)量大,存在較大比重的噪聲數(shù)據(jù)。微博短文本是微博內(nèi)容挖掘的基礎,在微博話題檢測、情感傾向性分析等研究中均需要使用到短文本挖掘技術(shù)。
為了較好的實現(xiàn)對微博短文本的挖掘,國內(nèi)外學者做了很多嘗試。楊震等將每個短文本文檔看成一個由文字、數(shù)字和標點構(gòu)成的字符串,并基于字符串自身的特性直接計算其相似性,在此基礎上進行短文本層次化聚類,進而發(fā)現(xiàn)網(wǎng)絡輿情熱點. 由于這種方法免去特征提取和文本表示過程,在一定程度上避免了傳統(tǒng)方法在短文本表示時特征向量稀疏的不足,有效解決了短文本內(nèi)容聚類問題[2]。金甌提出長文本輔助短文本的知識遷移聚類方法,此方法通過與主題相關(guān)的長文本利用二元隱含狄利克雷分配模型 (DLDA)來輔助數(shù)據(jù)稀疏的短文本聚類。該方法通過對大規(guī)模的廣告和微博數(shù)據(jù)進行實驗,獲得了較好的短文本聚類效果[3]。因此針對微博文本特征稀疏的問題,常用的解決方法是利用知網(wǎng)、維基百科等一些常用的知識庫作為輔助數(shù)據(jù)集來對短文本進行拓展,豐富短文本的特征。
上述研究均基于假定微博文本信息都是相互獨立的前提下的,并沒有考慮到微博文本所具有的話題線索性,通常微博文本包括大量對主題貼的回復,微博文本的這種“對話性”特性,使其擁有豐富的上下文,如果加以語境線索可以增加對微博短文本的理解。趙文清等[4]就充分利用了這種話題線索性,提出基于詞共現(xiàn)圖的識別中文微博新聞話題的方法。它首先通過綜合相對詞頻和詞頻增加率2 個因素抽取微博數(shù)據(jù)中的主題詞,然后利用詞共現(xiàn)圖原理構(gòu)建微博話題簇來識別微博新聞話題,實驗驗證了該方法的有效性。
針對微博文本口語化,諧音詞、變異詞多的特點,該文提出變體詞表歸一化的思想。微博文本的不規(guī)則形式變化多端,包括使用拼音或者諧音字來代替非法詞或敏感詞其中的某些單字,或者在非法詞或敏感詞中間插入特殊符號等。首先選取民眾普遍關(guān)注,容易演變成熱點話題的社會事項,如:醫(yī)療衛(wèi)生、公共安全、司法公正、公共教育、社會就業(yè)、權(quán)力腐敗等主題,提取短文本敏感關(guān)鍵詞,然后根據(jù)已知所有的詞變體制作一個變形詞表,然后濾掉待過濾文本中的特殊符號,,最后將文本中的詞到詞典中查詢,如果存在則判定為變體詞。 最終將所有原文中出現(xiàn)的變體詞都歸一化到最具代表性的一個詞上。例如,"GCD"和"共*黨"都代表“共產(chǎn)黨”,那么當歸一化完成,所有的"GCD"或"共*黨"都會被映射為“共產(chǎn)黨”。這個過程的難點是變形詞表的制作是一個很大的工作量,而且是一個動態(tài)增長的過程,需要后期持續(xù)的進行補充和維護。
針對微博文本樣本數(shù)量大,少部分短文本占整體比重大的特點,有學者將“長尾理論”應用到大規(guī)模短文本聚類中?!伴L尾”實際上是統(tǒng)計學中冪律(Power Laws)和帕累托分布(Pareto distributions)特征的一個口語化表達。應用在文本領(lǐng)域,舉例來說,我們常用的漢字實際上不多,但為數(shù)不多的漢字因出現(xiàn)頻次高占據(jù)了很大比例,而絕大部分的漢字難得一用,它們就屬于長尾。俞曉明等[5]發(fā)現(xiàn)“長尾理論”也適合在微博的主題聚類中,在微博的海量文本中,少部分占很大比例的短文本不太具有主題聚類的效果和意義,屬于孤立點。因此他們提出不完全聚類思想來實現(xiàn)微博的大規(guī)模短文本聚類,在聚類過程中集中資源處理重要的大類別短文本,減少資源在孤立點聚類上的浪費, 盡量減少小類別短文本的聚類時間,增加大類別短文本聚類的機會。
1.3突發(fā)事件微博情感分析
突發(fā)事件的發(fā)生容易引發(fā)網(wǎng)絡社會情緒危機。當突發(fā)事件發(fā)生時,用戶的情感和情緒也會呈現(xiàn)出一個爆發(fā)現(xiàn)象,像恐懼、害怕、憤恨等一些負面情感會迅速蔓延。因此可以通過監(jiān)測微博中的用戶情感變化,特別是大規(guī)模的負面情緒的爆發(fā)來檢測突發(fā)事件。劉志明等[6]以Aging theory主題生命周期模型為基礎,設計了面向突發(fā)事件的微博民眾負面情緒生命周期模型,并結(jié)合主題檢測與跟蹤技術(shù)來檢測突發(fā)事件主題數(shù)據(jù)流,構(gòu)建基于微博的民眾負面情緒實時監(jiān)控預警框架。文中最后以25 起突發(fā)事件為實驗對象,驗證了提出模型的有效性。但是由于此模型需要突發(fā)事件作為訓練樣本,訓練模型的好壞跟訓練樣本數(shù)量多少相關(guān),因此需要持續(xù)的收集各類突發(fā)事件樣本數(shù)據(jù)。另外沒有考慮到突發(fā)事件的演化模式不同導致的模型差別。
微博情感傾向性分析的關(guān)鍵在于提取微博短文本中的情感詞作為特征屬性,并對信息進行正確分類。情感詞又稱為極性詞,是指帶有情感傾向性的詞語,通常分為正極、負極和中性。情感詞的抽取和判別主要可基于大規(guī)模語料庫的統(tǒng)計方法和基于情感詞典的判別方法?;谡Z料庫的情感詞語抽取和判別主要是利用大規(guī)模語料中挖掘出的語言學規(guī)則特征,以機器學習模型對詞匯的情感極性進行判別。這種方法的最大優(yōu)點在于簡單易行, 缺點則在于可以利用的情感語料庫有限,同時情感詞語在大語料庫中的分布等現(xiàn)象并不容易歸納[7]。因此如果能將語料庫按照專業(yè)領(lǐng)域建設,并和微博的主題結(jié)合,則可以進一步提升機器學習判斷的正確率。
基于情感詞典的判別方法主要是使用詞典中詞語之間的詞義聯(lián)系來挖掘情感詞,其判別難度在于情感詞典的構(gòu)建。中文里有較多的一詞多義現(xiàn)象,且在不同的語境下表達的意義可能相反?,F(xiàn)有的中文情感詞典資源有《知網(wǎng)》、《常用褒貶義詞語詳解詞典》、《學生褒貶義詞典》、NT-USD、《褒義詞詞典》和《貶義詞詞典》等,基于微博五花八門的網(wǎng)絡用語不斷涌現(xiàn),需要建立相應的網(wǎng)絡語言情感詞庫,來提高情感判別的準確性。
近年來,國內(nèi)外學者關(guān)于情感傾向性分析的研究也較多,主要集中于情感傾向分類和情感詞抽取。段建勇[8]等提出一個基于句法語義的情感傾向性評測算法,通過構(gòu)建特定領(lǐng)域的輿情知識庫,然后結(jié)合人工分析給出高頻詞匯的情感傾向知識庫,為后續(xù)情感分析提供必要的基本數(shù)據(jù)。算法以句子為基本單位進行處理,運用基于擴展句法樹的語言處理模型,從單句到篇章計算文本情感傾向。王振宇等[9]針對HowNet和PMI兩種方法的局限性,提出了一種知網(wǎng)與PMI 相融合的詞語情感極性計算方法,該方法首先利用知網(wǎng)進行同義詞擴展來降低情感詞在語料庫中出現(xiàn)頻率低所帶來的問題,同時根據(jù)知網(wǎng)相似度計算的特性,將知網(wǎng)相似度與PMI 計算方法相融合。并通過實驗驗證了該方法的有效性。
另外在對情感詞判別其情感傾向時,還要結(jié)合其詞語所在的語境,在不同的領(lǐng)域甚至在相同的領(lǐng)域,同樣的單詞在不同的語境下可以表達出不同的觀點。例如,“你的建議很高明!”這里面“高明”是褒義詞,代表正面情感。反之在“我們都被他高明的伎倆給騙了”里,“高明”就是貶義詞,代表負面情感。因此情感詞識別需要結(jié)合其上下文語境,不僅要提取情感詞,還要提取其評價的對象,根據(jù)其評價對象來判別情感詞的極性。
2 監(jiān)測系統(tǒng)框架
探討完微博突發(fā)事件監(jiān)測的幾個關(guān)鍵問題后,設計微博突發(fā)事件的監(jiān)測流程圖如下:
圖1
大體思路如下: 首先通過網(wǎng)絡爬蟲對具有影響力的微博網(wǎng)站采集微博頁面信息,然后經(jīng)過頁面分析,根據(jù)我們前面提到的過濾規(guī)則消除掉不太可能引起突發(fā)事件的噪聲數(shù)據(jù),提取微博短文本集;再對微博短文本進行短文本預處理(包括變體詞識別、短文本擴展、不完全聚類裁剪)變成易于識別和處理的傳統(tǒng)文本;然后再對其文本數(shù)據(jù)進行預處理( 包括特征選擇、中文分詞處理、停用詞過濾、情感標注等)得到文本向量,之后再用分類器對數(shù)據(jù)進行情感極性分類, 通過情感評估,將情感極性大于一定閥值的熱門博文庫進行主題聚類,最后抽取出突發(fā)事件。
3 總結(jié)
在基于前人研究的基礎上,對微博突發(fā)事件監(jiān)測涉及的幾個關(guān)鍵問題,進行了探討。首先根據(jù)微博突發(fā)事件輿情傳播的特征與趨勢,對微博的文本采集提出了合理的過濾規(guī)則,對不可能引發(fā)突發(fā)事件的微博文本進行過濾,可以大大提高監(jiān)測的效率;之后又根據(jù)微博短文本的3個特點,結(jié)合前人的研究,給出相應可能的解決方案;文章最后提出了一個微博突發(fā)事件監(jiān)測框架,其主要思想是基于情感分析的微博突發(fā)事件監(jiān)測,通過監(jiān)測情感爆發(fā)詞提取突發(fā)期,再用主題聚類方法對突發(fā)期內(nèi)的話題進行聚類,識別出突發(fā)事件。該文的主要工作主要是基于理論的探討,將此理論付諸實踐,開發(fā)出一個微博突發(fā)事件監(jiān)測系統(tǒng),是后續(xù)研究的重點。
參考文獻:
[1] 第32次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》.
[2] 楊震, 段立娟, 賴英旭.基于字符串相似性聚類的網(wǎng)絡短文本輿情熱點發(fā)現(xiàn)技術(shù)[J].北京工業(yè)大學學報,2010(5):669-673.
[3] 金甌.長文本輔助短文本的知識遷移聚類方法[D]. 上海:上海交通大學,2012.
[4] 趙文清,侯小可.基于詞共現(xiàn)圖的中文微博新聞話題識別[J].智能系統(tǒng)學報,2012(10):444-449.
[5] 彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學報,2011(1):54-59.
[6] 劉志明,劉魯.面向突發(fā)事件的民眾負面情緒生命周期模型[J].管理工程學報,2013(1):15-20.
[7] 周勝臣,瞿文婷,石英子等.中文微博情感分析研究綜述[J].計算機應用與2013(3):161-164
[8] 段建勇,謝宇超,張梅基.基于句法語義的網(wǎng)絡輿論情感傾向性評價技術(shù)研究[J].情報雜志,2012(1):147-150.
[9] 王振宇,吳澤衡,胡方濤.基于HowNet 和PMI的詞語情感極性計算[J].計算機工程,2012(8):187-193.