趙妍妍,秦兵,劉挺
1. 哈爾濱工業(yè)大學(xué)機電學(xué)院媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;
2. 哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001
社會焦點透視鏡系統(tǒng)
—— 大數(shù)據(jù)視角下的輿情觀測平臺
趙妍妍1,秦兵2,劉挺2
1. 哈爾濱工業(yè)大學(xué)機電學(xué)院媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;
2. 哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001
Web2.0時代的開啟和社會媒體的不斷發(fā)展,使得互聯(lián)網(wǎng)上的數(shù)據(jù)規(guī)模呈爆炸性增長。網(wǎng)絡(luò)大數(shù)據(jù)不僅為社會治理領(lǐng)域帶來了新的契機,也對數(shù)據(jù)處理技術(shù)提出了巨大的挑戰(zhàn)。構(gòu)建了一個社會焦點透視鏡系統(tǒng),結(jié)合新浪微博數(shù)據(jù),不僅能夠?qū)崟r提供每日的焦點事件及其情感分布展示,供輿情分析部門進行檢測,還能夠深層剖析焦點事件的情感分布原因和人群分布,協(xié)助社會治理領(lǐng)域進行策略的提出和實施。以“9?3閱兵”為例,呈現(xiàn)社會焦點透視鏡系統(tǒng)深度剖析的結(jié)果展示。
網(wǎng)絡(luò)大數(shù)據(jù);社會焦點透視鏡;焦點事件抽??;情感分布
Web 2.0時代的開啟和社會媒體(如微信、微博)的出現(xiàn)使得大量用戶從被動地在網(wǎng)絡(luò)上接收知識轉(zhuǎn)變?yōu)楹A烤W(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生者。據(jù)統(tǒng)計,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便翻一番,網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)運而生。目前,大數(shù)據(jù)的研究和應(yīng)用價值已在很多領(lǐng)域初見端倪。例如:在零售業(yè),可以在大數(shù)據(jù)中挖掘出高消費者和高影響者兩類有價值的客戶,進行產(chǎn)品推薦和口碑宣傳,與社交網(wǎng)絡(luò)相結(jié)合創(chuàng)造出新的商品營銷模式。此外,社交網(wǎng)絡(luò)中的大數(shù)據(jù)也為很多政治選舉提供了新的宣傳手段,最典型的如在Facebook上開展的奧巴馬的總統(tǒng)競選運動。
隨著大數(shù)據(jù)理念和相關(guān)技術(shù)的不斷深入,大數(shù)據(jù)應(yīng)用也在慢慢向社會治理領(lǐng)域滲透。2015年8月31日,國務(wù)院以國發(fā)〔2015〕50 號印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》。大數(shù)據(jù)發(fā)展與“提升政府治理能力現(xiàn)代化”緊緊相連,成為全文亮點。大數(shù)據(jù)將如何助力政府治理,以改善百姓民生、社會服務(wù)成為大家最為關(guān)注的話題。眾所周知,爆炸性增長的大數(shù)據(jù)蘊藏著巨大的價值,因此尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段成為基于大數(shù)據(jù)進行社會治理的最本質(zhì)的需求。
在眾多的大數(shù)據(jù)形式中,社會媒體數(shù)據(jù),如微博和微信數(shù)據(jù),是很好的一種洞察民情、觀測大眾行為的數(shù)據(jù)形式。例如,當(dāng)某一焦點事件發(fā)生時,大量民眾在微博上發(fā)表自己的觀點,可以通過觀測相關(guān)的微博大數(shù)據(jù)來統(tǒng)計并獲取民眾對于該事件的情感分布趨勢,繼而協(xié)助相關(guān)部門進行社會治理策略的提出和實施。此外,微博大數(shù)據(jù)還可以挖掘出民眾普遍關(guān)注的話題類型、暴露出民眾的整體情緒趨勢,供輿情部門監(jiān)測。
目前國內(nèi)外已經(jīng)有多項借助微博或Twitter來進行淺層社會治理和分析的技術(shù)和系統(tǒng)。Zhao等人[1]構(gòu)建了一個名為MoodLens的中文微博情感分析系統(tǒng),將微博的情感分為憤怒、厭惡、高興和低落4類,進行異常或突發(fā)事件的監(jiān)測。Wang等人[2]構(gòu)建了一個實時的預(yù)測2012年美國大選結(jié)果的系統(tǒng),該系統(tǒng)通過統(tǒng)計Twitter上民眾對于4位候選人的情感分布來進行結(jié)果預(yù)測。Ciot等人[3]研究了Twitter上進行用戶性別預(yù)測的算法。Diao等人[4]研究了如何在Twitter上實時發(fā)現(xiàn)突發(fā)事件。Jennifer等人[5]研究了在Twitter上某個事件的發(fā)生時間預(yù)測算法。以上這些有代表性的系統(tǒng)和算法均是圍繞微博或Twitter大數(shù)據(jù)中焦點事件抽取和情感分析這兩大項任務(wù)進行的,屬于淺層的大數(shù)據(jù)分析結(jié)果顯示,存在的問題是缺乏事件和情感的深層分析和透視。這些傳統(tǒng)的系統(tǒng)和研究往往只關(guān)注民眾關(guān)心的焦點事件是什么,情緒走向是什么。如圖1(a)1a所示,基于自然語言處理技術(shù),可以對2015年5月29日的微博大數(shù)據(jù)進行分析,挖掘出全國十大焦點事件以及每個事件的民眾情感分布,屬于淺層分析,分析出的結(jié)果可以為相關(guān)部門提供一定的預(yù)警信號。
然而,對于社會治理而言,相關(guān)部門更關(guān)心的是為何某一事件的發(fā)生會產(chǎn)生異常情緒、什么樣的人群會導(dǎo)致某些情緒的產(chǎn)生等深入的原因剖析,基于此來指導(dǎo)社會治理方案的制定。如圖1(b)1b所示,看到民眾對于“長江游輪傾覆”事件的情緒分布后,相關(guān)部門更想知道為何會有人喜悅、為何會有人憤怒等異常情緒的形成原因。又如圖1(c)1c所示,相關(guān)部門還想知道針對同一焦點事件,不同的用戶畫像(性別、職業(yè)、年齡等)產(chǎn)生的情感分布的差別是什么,用以框定某一異常情緒的用戶群體進行監(jiān)測。相比微博大數(shù)據(jù)的淺層分析和呈現(xiàn)而言,深層透視能夠更精準地聚焦原因和人群,顯然對社會治理有更大的幫助。
圖1 面向焦點事件的情感淺層分析和深層透視
基于此,本文將詳細展示一個大數(shù)據(jù)視角下的輿情觀測平臺——社會焦點透視鏡系統(tǒng)。該系統(tǒng)圍繞微博大數(shù)據(jù)進行焦點事件及其情感分布的深層透視,旨在為新時代的社會治理提供創(chuàng)造性的思路。如前文所述,社會焦點透視鏡系統(tǒng)包括兩大部分的內(nèi)容:焦點事件發(fā)現(xiàn)與情感分布展示;焦點事件情感分布原因和人群的深層透視。在第一部分內(nèi)容中,本系統(tǒng)主要采用了事件抽取技術(shù)和情感分析技術(shù);在第二部分內(nèi)容中,主要采用情感原因分析技術(shù)和用戶畫像技術(shù)。本文以“9?3閱兵”為例,呈現(xiàn)社會焦點透視鏡系統(tǒng)的淺層和深層分析展示結(jié)果。
社會焦點透視鏡系統(tǒng)是一個實時的互聯(lián)網(wǎng)大數(shù)據(jù)輿情監(jiān)測平臺。通過對微博海量數(shù)據(jù)的分析、挖掘和可視化,構(gòu)建社會焦點事件的發(fā)現(xiàn)、追蹤和挖掘的深層透視。圖22展示了社會焦點透視鏡系統(tǒng)的流程,共包括兩部分內(nèi)容:社會焦點事件的淺層分析和社會焦點事件的深層透視。
· 社會焦點透視鏡的淺層分析:主要包括事件發(fā)現(xiàn)和情感分析兩個模塊。淺層分析可以每隔2 h實時更新當(dāng)天的焦點事件,并實時對這些焦點事件進行民眾情感的分析。如圖1(a)1a右側(cè)框中所示的焦點事件以及情感分布。此外,社會焦點透視鏡的淺層分析還可以實時給出全國各省民眾的整體情緒指數(shù)及各省民眾關(guān)心的焦點事件。如圖1(a)1a中顯示的地圖,從深至淺代表了情緒指數(shù)(喜悅情緒)由高至低。
· 社會焦點透視鏡的深層透視:主要包括情感歸因分析和基于用戶畫像的情感分析兩個模塊。深層透視是對某一段時期的某一個焦點事件的深層剖析。主要從兩個角度入手,一個是導(dǎo)致某一種情緒的事件原因,另一個是導(dǎo)致某一種情緒的人群歸類。
下面將詳細介紹每個模塊。
2.1 數(shù)據(jù)來源
選擇新浪微博作為實時的數(shù)據(jù)來源。新浪微博匯集了有關(guān)焦點事件的民眾的多角度評論以及民眾每天的行為情緒動態(tài)。社會焦點透視鏡系統(tǒng)每天的微博處理總量在1 600萬條微博左右,每2 h更新一次。數(shù)據(jù)格式見表11。
圖2 社會焦點透視鏡的系統(tǒng)流程
表1 微博數(shù)據(jù)格式
2.2 預(yù)處理
預(yù)處理主要包括兩個部分:文本噪聲預(yù)處理和文本分析預(yù)處理。
文本噪聲預(yù)處理部分包括去廣告、去水軍和文本去重等步驟。考慮到微博可能存在的廣告會對后續(xù)的事件發(fā)現(xiàn)和情感分類等步驟造成干擾,本文收集了400條廣告標(biāo)記短語,用于過濾帶有廣告詞匯的微博;同時結(jié)合新浪微博數(shù)據(jù)中心的水軍過濾算法,初步緩解部分話題水軍泛濫的問題;考慮到每日系統(tǒng)需要處理海量數(shù)據(jù)的微博,其中部分微博存在表述重復(fù)的現(xiàn)象,針對性地對其進行去重處理。
文本分析預(yù)處理部分包括必要字符的替換、分詞和詞性標(biāo)注等步驟??紤]到微博文本的特點,即用戶信息(例如“@張三”)和短鏈接信息(例如“http://t.cn/Ryrc”)等會對后續(xù)的步驟造成干擾,所以本文對其進行必要的替換或屏蔽;后續(xù)步驟本文使用哈爾濱工業(yè)大學(xué)語言技術(shù)平臺(language technology platform,LTP)①http://www.ltpcloud.com/對文本進行精準的分詞與詞性標(biāo)注。
2.3 事件發(fā)現(xiàn)
這里的事件具體是指微博焦點事件,即在短時間內(nèi)被大量用戶高度關(guān)注、討論的話題。有些話題與社會事件密切相關(guān),如“長江游輪傾覆”、“馬航失聯(lián)”等;有些話題與社會事件無關(guān),但仍在短時間內(nèi)獲得了很高的關(guān)注度,如:“你最喜愛的男神”、“最美英語教師”等。微博焦點事件不同于官方媒體的頭條新聞,微博植根于草根之中,是普通大眾的心聲或思想的網(wǎng)絡(luò)直接反饋?;诖?,挖掘浩瀚如海的微博中的焦點事件變得尤為重要。
在社會焦點透視鏡系統(tǒng)中,設(shè)計了一個實時微博焦點事件抽取框架。該框架的核心是基于統(tǒng)計的思想,利用啟發(fā)式規(guī)則和聚類算法。該框架主要包含3個組成部分,分別如下。
· 話題發(fā)現(xiàn):候選熱點話題發(fā)現(xiàn)。
· 話題聚類:候選熱點話題聚類。
· 話題排序:對聚類得到的話題聚簇進行排序,排序靠前的即焦點事件。
具體的算法可見參考文獻[6]。
2.4 情感分析
這里使用的情感分析技術(shù)具體是指面向焦點事件的情緒分類,最終顯示為如圖1(a)1a所示的焦點事件的情緒分布。其中的基礎(chǔ)技術(shù)環(huán)節(jié)是,針對一條包含焦點事件的微博,判斷它所表達的情緒是“喜悅”、“憤怒”、“悲傷”、“恐懼”還是“驚奇”。
情緒分類是情感分析領(lǐng)域研究得比較深入的一項基礎(chǔ)任務(wù),主要有基于情感詞和基于分類器兩大類方法。其中基于SVM(support vector machine,支持向量機)和豐富特征的方法是最經(jīng)典和快速的方法[7]。近年來,隨著深度學(xué)習(xí)在自然語言處理的深入發(fā)展,深度學(xué)習(xí)技術(shù)在情感分類領(lǐng)域也取得了較好的效果[8]。因此,在社會焦點透視鏡系統(tǒng)中,筆者采用了詞向量和SVM經(jīng)典特征相結(jié)合的方法[9],取得了較好的性能。
這里值得一提的是,微博的口語化較為嚴重,充斥著隱式情感(如:“滿滿的正能量”,“我給他打滿分”)和反諷(如:“你真是太給我長臉了!”)、隱喻(如:“此人是垃圾”)等豐富的語言現(xiàn)象,這給情感分析技術(shù)提出了較大的挑戰(zhàn),這也是未來努力的目標(biāo)。
2.5 情感歸因分析
如前文所述,“事件發(fā)現(xiàn)”和“情感分析”模塊屬于社會焦點透視鏡系統(tǒng)的淺層分析。用戶更想探究的是為何會有某種情緒的產(chǎn)生、什么導(dǎo)致了某種情緒等更深層的透視。這也是本文的社會焦點透視鏡系統(tǒng)不同于國內(nèi)外其他現(xiàn)有系統(tǒng)的重要區(qū)別所在。在該系統(tǒng)中,第一層次的透視就是面向焦點事件的民眾情緒的原因分析,具體體現(xiàn)為哪個子事件的發(fā)生導(dǎo)致了這種情緒。
本系統(tǒng)首次提出了情感歸因分析任務(wù),并使用自動抽取用戶自然標(biāo)注的Hashtag作為子事件的算法來解釋焦點事件的原因分析。圖33顯示的是“長江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒的原因分析。從圖3(a)3a中可以看出,子事件“沉船內(nèi)部有生命跡象”和“載客458人已救起8人”的情緒分布中“喜悅”的情緒占據(jù)了一定的比重,因此這兩個子事件可以用來解釋“長江游輪傾覆”事件所表露出的“喜悅”情緒。從圖3(b)3b中可以看出,子事件“乘客家屬收到詐騙短信”的情緒分布中“憤怒”的情緒占據(jù)了大部分的比重,因此該子事件可以用來解釋“長江游輪傾覆”事件所表露出的“憤怒”情緒。具體的算法細節(jié)可見參考文獻[10]。
圖3 “長江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒歸因分析
2.6 基于用戶畫像的情感分析
除了焦點事件的情緒歸因分析之外,用戶不同群體與情緒之間的對照也是社會焦點透視鏡系統(tǒng)深層透視的重要組成部分。事實證明,不同的用戶群體對同一事件的情緒反饋也不同。如圖1(c)1c所示,不同性別的用戶對“文章出軌事件”的情緒反饋是不同的。用戶群體的特性除了用性別表示外,還有職業(yè)、年齡、地域等不同的用戶畫像角度,都可以從不同的側(cè)面展示出不同的用戶群體對同一事件的情緒反饋。如果能夠?qū)⒂脩舻母鱾€畫像角度與情緒分析相結(jié)合,無疑是從用戶角度對焦點事件的深層次透視。
在目前的社會焦點透視鏡系統(tǒng)中,僅僅針對用戶的地域和性別兩個維度的屬性,對提及的微博數(shù)量進行了統(tǒng)計分析,圖4(a)4a和圖4(b)4b分別展示了針對“長江游輪傾覆”事件用戶在省份和性別這兩個維度上的微博數(shù)量。當(dāng)然,將不同的用戶屬性與其情感分布進行對照是更深入的社會輿情透視,這也將是下一步的研究工作。
除了以上幾個重要模塊的展示外,社會焦點透視鏡系統(tǒng)還有其他一些豐富的展示效果,詳情請見http://qx.8wss.com。
與人民網(wǎng)和新浪微博合作,筆者將社會焦點透視鏡系統(tǒng)的關(guān)鍵技術(shù)用于了2015年的“9?3閱兵”話題中,推出了閱兵大數(shù)據(jù)“網(wǎng)民情緒展示”平臺,該平臺每隔15 min刷新一次數(shù)據(jù),進行展示。
“網(wǎng)民情緒展示”平臺的主要功能包括:網(wǎng)民實時關(guān)注熱門地區(qū)排名、網(wǎng)民實時評論閱兵熱點高頻詞分析、網(wǎng)民實時熱點話題排行榜以及整個閱兵過程中的輿情走勢等。該平臺共采集了9月3日8:30-12:30這4 h內(nèi)網(wǎng)民在新浪微博平臺上的閱兵相關(guān)話題,并進行分析統(tǒng)計。大數(shù)據(jù)分析結(jié)果顯示:原創(chuàng)微博及轉(zhuǎn)發(fā)微博總帖量共計453萬人次,網(wǎng)民參與發(fā)帖的峰值點出現(xiàn)在中午12:00,峰值數(shù)據(jù)為50萬人次;熱門地區(qū)被廣東、北京和山東包攬前三甲;網(wǎng)民熱議的高頻詞有“國泰民安、挺身而出、舍生忘死”等;“習(xí)近平宣布將裁軍30萬”成為網(wǎng)民最熱議的話題。
圖55是“網(wǎng)民情緒展示”平臺的部分數(shù)據(jù)截圖。
圖4 “長江游輪傾覆”事件微博數(shù)量
圖5 “網(wǎng)民情緒展示”平臺的部分數(shù)據(jù)截圖
本文介紹的“社會焦點透視鏡系統(tǒng)”是微博大數(shù)據(jù)時代下的一種新型的輿情監(jiān)測平臺。該系統(tǒng)不僅可以像傳統(tǒng)系統(tǒng)一樣展示出社會熱議的事情及民眾的情緒分析,還可以深層透視焦點事件背后情緒分布的原因及其相應(yīng)的用戶群體,相信可以對當(dāng)代社會治理方案的制定提供一定的技術(shù)支持。
[1] ZHAO J C, DONG L, WU J J, et al. MoodLens: an emoticon-based sentiment analysis system for Chinese Tweets in Weibo[C]//The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, August 12-16, 2012, Beijing, China. New York: ACM Press, 2012: 1528-1531.
[2] W A N G H, C A N D, K A Z E M Z A D E H A, e t a l. A s y s t e m f o r r e a l-t i m e Twitter sentiment analysis of 2012 U.S. presidential election cycle[C]//The ACL 2012 System Demonstrations, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 115-120.
[3] CIOT M, SONDEREGGER M, RUTHS D. Gender inference of Twitter users in non-English contexts[C]//The 2013 Conference on Empirical Methods in Natural Language Processing, October 18-21, 2013, Seattle, Washington, USA. Sofia: Association for Computational Linguistics, 2013: 1136-1145.
[4] DIAO Q M, JIANG J, ZHU F D, et al. Finding bursty topics from microblogs[C]// T he 50 th Annual Me e ting of the Association for Computational Linguistics, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 536-544.
[5] W I L L I A M S J, K AT Z G. E x t r a c t i n g and modeling durations for habits and events from Twitter[C]//The 50th Annual Meeting of the Association for Computational Linguistics, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 223-227.
[6] ZHAO Y Y, QIN B, LIU T, et al. Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on Microblog[J]. Multimedia Tools and Applications, 2014: 1-18.
[7] MOHAMMAD S M, KIRITCHENKO S, ZHU X D. NRC-Canada: building the state-of-the-art in sentiment analysis of Tweets[C]//The International Workshop on Semantic Evaluation, June 2013, Atlanta, USA. New York: Association for Computational Linguistics, 2013: 321-327.
[8] SOCHER R, PERELYGIN A, Wu J, et al. Recursive deep models for semantic compositionality over a sentiment tre ebank[C]//T he Conference on Empirical Methods in Natural Language Processing(EMNLP 2013), October 18-21, 2013, Seattle, WA, USA. Sofia: Association for Computational Linguistics, 2013: 1631-1642.
[9] TANG D Y, WEI F R, YANG N, et al. Learning sentiment-specific word embedding for Twitter sentiment classification[C]// The 52th Annual M e e t i n g o f t h e A s s o c i a t i o n f o r Computational Linguistics (ACL 2014), June 22-27, 2014, Baltimore, MD, USA. Baltimore: Association for Computational Linguistics, 2014: 1555-1565.
[10] ZHAO Y Y, QIN B, DONG Z J, et al. What causes different emotion distributionsof a hot event? A deep event-emotion analysis system on microblogs[C]//The 4th CCF Conference on Natural Language Processing & Chinese Computing(NLPCC 2015), October 9-13, 2015, Nanchang, China. Berlin: Springer, 2015: 453-464.
Social event sensor: a public opinion platform from the big data perspective
ZHAO Yanyan1, QIN Bing2, LIU Ting2
1. Department of Media Technology and Art, Harbin Institute of Technology, Harbin 150001
2. Research Center for Social Computing and Information Retrieval of Computer Science and Technology School, Harbin Institute of Technology, Harbin 150001
The development of Web 2.0 and social media has led to the explosive growth of online user generated content. Big data brings a new opportunity for social governance, but also poses a great challenge for the data processing technology. A social event sensor system was constructed, which not only can automatically extract the daily hot events and their emotion distributions in real time for opinion monitoring, but also can deeply analyze the emotion distribution causations and the population distributions to help policy-making in social governance. Finally, one case study “9.3 Parade”was showed to show the deeply analysis of social event sensor system.
big Web data, social event sensor, hot event extraction, sentiment distribution
TP391.1
A
10.11959/j.issn.2096-0271.2016018
趙妍妍(1983-),女,哈爾濱工業(yè)大學(xué)機電學(xué)院媒體技術(shù)與藝術(shù)系副教授、碩士生導(dǎo)師,中國中文信息學(xué)會社會媒體處理專委會委員,主要研究方向為社會計算、情感分析。
秦兵(1968-),女,哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,社會計算與信息檢索中心副主任,中文信息學(xué)會信息檢索專委會委員,中國計算機學(xué)會中文信息技術(shù)委員會委員,主要研究方向為社會計算、自然語言處理、文本挖掘。
劉挺(1972-),男,哈爾濱工業(yè)大學(xué)教授,社會計算與信息檢索研究中心主任,中國計算機學(xué)會理事,中國中文信息學(xué)會常務(wù)理事、社會媒體處理專業(yè)委員會主任,國際會議ACL 2014、EMNLP 2015領(lǐng)域主席,主要研究方向為社會計算、信息檢索和自然語言處理。
2016-01-20
國家自然科學(xué)基金資助項目(No.61300113, No.61273321, No.61133012)
Foundation Items: The National Natural Science Foundation of China(No.61300113,No.61273321,No.61133012)