宋祖康 閻瑞霞 辜麗瓊
摘 要:作為社交網(wǎng)絡(luò)重要載體,微博成為信息傳播的重要平臺(tái),承載著公眾情感表達(dá)及輿論傳播的重要功能。對(duì)微博博文及評(píng)論作出主題概括及情感分析在網(wǎng)絡(luò)管控、輿情監(jiān)測(cè)及公眾情緒引導(dǎo)方面具有重要的實(shí)踐意義。提出一種基于機(jī)器學(xué)習(xí)與文本分析的主題概括及情感分析模型。以武漢理工大學(xué)研究生墜亡事件為話題,利用Word2vec將文本轉(zhuǎn)化為詞向量,并且通過機(jī)器學(xué)習(xí)聚類方法對(duì)輿情各個(gè)生命周期過程進(jìn)行主題概括,采用基于詞典文本分析方法,對(duì)評(píng)論文本進(jìn)行多元情感分析,對(duì)表現(xiàn)突出的情感大類作細(xì)粒度分析,最終實(shí)現(xiàn)基于主題與情感分析的多元細(xì)粒度公眾情感變化分析模型。該分析模型可在特定輿情事件下得出公眾在各階段的關(guān)注中心及情緒變化規(guī)律,實(shí)現(xiàn)輿情主題與情感變化的協(xié)同演化研究。
關(guān)鍵詞:主題概括;Word2vec;K-Means;情感分析
DOI:10. 11907/rjdk. 182107
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)004-0004-05
0 引言
作為社交網(wǎng)絡(luò)的重要載體,微博以簡(jiǎn)潔、短小的特點(diǎn)爆發(fā)式成長(zhǎng),截至2017年年底,微博已發(fā)展至4億用戶。微博的特點(diǎn)在于可以即時(shí)分享,信息傳播不受時(shí)間、空間影響,因此成為熱點(diǎn)輿論產(chǎn)生及傳播的重要平臺(tái)。平臺(tái)上信息傳播深度、廣度及速度均有驚人潛力,若不能及時(shí)對(duì)公眾情感作出更加準(zhǔn)確的分析與把握,可能會(huì)使其成為國家與社會(huì)不安定的潛在因素,甚至引起極大恐慌。因此,對(duì)輿情事件下公眾情緒進(jìn)行細(xì)粒度多元情感分析刻畫,對(duì)于維護(hù)社會(huì)穩(wěn)定、消除社會(huì)潛在不穩(wěn)定因素有深遠(yuǎn)影響與意義。
1 研究現(xiàn)狀
國內(nèi)外學(xué)者在短文本主題概括與情感分析方面積累了大量有意義的成果。在微博博文主題概括方面,目前常用模型為L(zhǎng)DA主題抽取模型,李保利等[1]通過LDA模型自動(dòng)抽取一個(gè)時(shí)間間隔里的話題,得到不同話題,然后通過簡(jiǎn)單的啟發(fā)式規(guī)則找出種子話題,并根據(jù)種子話題語義相似度將其進(jìn)行關(guān)聯(lián),得到話題演化趨勢(shì)。然而,由于LDA模型采用的是詞袋方法,每篇文檔被視作一個(gè)詞頻向量, LDA模型并沒有考慮詞與詞之間的關(guān)系,因此會(huì)漏掉一些關(guān)鍵特征。近年來,隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的研究不斷深入,越來越多的實(shí)例證明,基于神經(jīng)網(wǎng)絡(luò)模型的Word2vec開源算法在提取微博主題上顯著優(yōu)于LDA主題模型,其中,安璐等[2]通過Word2vec模型對(duì)微博主題進(jìn)行提取,取得了較好結(jié)果;薛煒明等[3]使用Word2vec算法,通過大量實(shí)驗(yàn)將其與傳統(tǒng)詞袋模型、經(jīng)典KNN算法及其改進(jìn)方法進(jìn)行效果對(duì)比,證明了算法優(yōu)良性。然而,以上研究大多數(shù)關(guān)注Word2vec模型應(yīng)用及中文短文本分詞,仍使用傳統(tǒng)聚類方法進(jìn)行中文主題概括,不能有效地對(duì)短文本進(jìn)行分析。因此,本文通過Word2vec工具集將詞語轉(zhuǎn)化為詞向量,并引入無監(jiān)督學(xué)習(xí)下的K-Means均值聚類算法,力求對(duì)各個(gè)時(shí)序階段的微博博文主題準(zhǔn)確抽取。
針對(duì)文本情感分析的研究方法有兩種:一種是基于機(jī)器學(xué)習(xí),另一種是基于情感詞典?;跈C(jī)器學(xué)習(xí)方面,李巖等[4] 基于短文本聚類及評(píng)論情感分析,在一定程度上解決了由于關(guān)鍵詞稀疏特征引起的相似度漂移問題;王宏偉等[5]在分析用戶評(píng)論后對(duì)其中隱含的情感信息進(jìn)行識(shí)別,并研究了用戶情感演化過程;張小倩[6]將微博文本極性轉(zhuǎn)移分為強(qiáng)調(diào)、否定、轉(zhuǎn)折3種類型,根據(jù)該研究,王文凱[7]設(shè)置了一種注意力機(jī)制以解決非連續(xù)詞情感相關(guān)性導(dǎo)致的極性轉(zhuǎn)移現(xiàn)象,并且引入卷積神經(jīng)網(wǎng)絡(luò),通過注意力機(jī)制捕獲長(zhǎng)距離上下文之間的相關(guān)性。然而,由于機(jī)器學(xué)習(xí)十分依賴標(biāo)注的訓(xùn)練集,但在海量數(shù)據(jù)的情況下又難以實(shí)現(xiàn),因此機(jī)器學(xué)習(xí)方法存在一定局限性。在基于字典的研究方面,國內(nèi)現(xiàn)在較為成熟的字典有大連理工大學(xué)情感詞匯本體庫[16]、臺(tái)灣大學(xué)“NTUSD”中文情感極性字典[11]及知網(wǎng)HowNet情感字典[12]。
綜上所述,本文參考大連理工大學(xué)情感詞匯本體庫[16],以武漢理工大學(xué)研究生跳樓事件為實(shí)驗(yàn)案例,建立一個(gè)基于Word2vec與K-Means均值算法的細(xì)粒度多元情感分析模型。該模型可更加細(xì)致地掌握公眾情緒發(fā)展走向,并對(duì)各階段博文主題進(jìn)行主題概括,有助于在各個(gè)階段更好地把握輿論中心走向,對(duì)公眾言論作出更有效的辨別和管控,為有關(guān)部門更加精準(zhǔn)地遏制謠言及更加全面地掌握公眾情感提供參考意見。
2 研究框架
2.1 Word2vec算法
Word2vec是Google公司在2013年開源的一款將詞表征為實(shí)數(shù)值向量的工具,其基本思想來源于Mikolov提出的CBOW及Skip-gram模型。最早提出的前饋神經(jīng)網(wǎng)絡(luò)模型NNLM由4個(gè)主要層級(jí)構(gòu)成,分別為輸入層、映射層、隱藏層及輸出層,主要計(jì)算障礙是從映射層到隱藏層的計(jì)算,為提升計(jì)算效率,Mikolov提出CBOW及Skip-gram模型,本文主要使用Python開源庫Gensim工具包的Skip-gram模型進(jìn)行求解。
Skip-gram是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型,主要思想是根據(jù)當(dāng)前單詞預(yù)測(cè)前后文語境,其輸入層為一個(gè)輸入單元,輸入值為當(dāng)前單詞,輸出層是前后文單詞,輸出層數(shù)量為用戶設(shè)置的窗口數(shù), 將Skip-gram模型的前向計(jì)算過程攜程數(shù)學(xué)形式,為方便敘述,定義以下符號(hào):文本集合為[T],當(dāng)前單詞為[w],語境[c]定義為以單詞[w]為起點(diǎn),向前[k]個(gè)數(shù)量、向后[k]個(gè)數(shù)量所包含的單詞,模型參數(shù)設(shè)為[θ],在[w]確定的情況下,上下文單詞[c]出現(xiàn)的概率設(shè)為[pc|w;θ],在文本中,單詞[w]所有上下文單詞[c]的集合設(shè)為[Cw],切分后的文本詞匯表設(shè)為[V],所有[w]及相對(duì)應(yīng)[Cw]的集合設(shè)為[D],Skip-gram目標(biāo)函數(shù)利用隨機(jī)梯度下降最大化以下條件的概率乘積為:
2.2 K-Means均值算法
將得到的詞向量作為訓(xùn)練文本,使用K-Means聚類方法進(jìn)行聚類。聚類分析是一種無監(jiān)督學(xué)習(xí)的方法,與分類不同的地方在于分類目標(biāo)已預(yù)知,但聚類類別是沒有定義的,聚類分析試圖將相似的對(duì)象歸入同一簇中,在本文K-Means聚類中,相似度由兩個(gè)詞向量之間的歐氏距離決定。
K-Means主要目的是發(fā)現(xiàn)給定數(shù)據(jù)集的[k]個(gè)簇。首先隨機(jī)選定[k]個(gè)質(zhì)心,然后將數(shù)據(jù)集中的每個(gè)點(diǎn)按照歐氏距離計(jì)算其與[k]個(gè)質(zhì)心的相似度,將各個(gè)點(diǎn)分配到離它們最近的質(zhì)心所在簇中,遍歷整個(gè)數(shù)據(jù)集后,將每個(gè)簇的質(zhì)心更新為該簇所有點(diǎn)的平均值,然后重復(fù)上述過程。K-Means算法迭代過程在算法迭代到指定步數(shù)或其誤差值小于設(shè)定閾值時(shí)停止,K-Means誤差值為簇中每個(gè)點(diǎn)到質(zhì)心的距離之和,該誤差值也可用來對(duì)聚類效果進(jìn)行評(píng)價(jià),本文根據(jù)聚類結(jié)果得到相應(yīng)階段的輿論中心話題。
3 文本情感分析——基于情感詞典
通過博文得到各階段的主題后,本文對(duì)各階段評(píng)論的情感進(jìn)行分析,獲得輿情發(fā)展過程中公眾情感變化。本文參考大連理工大學(xué)情感詞匯本體庫,對(duì)各階段微博評(píng)論進(jìn)行細(xì)粒度多元情感分析。
在文本預(yù)處理方面,由于微博具有短文本特點(diǎn),其行文風(fēng)格偏向口語化,因此本文在去除停用詞的步驟中,不僅去除常用停用詞,還根據(jù)詞頻統(tǒng)計(jì),去除出現(xiàn)較多的詞匯,以保證高頻詞匯情感取值不會(huì)影響本文情感分析。
本文參照大連理工情感詞匯本體庫[16],根據(jù)武漢理工大學(xué)研究生墜亡事件的語境基礎(chǔ),將其情感分類略作修改,將情感分為七大類,分別為樂、信、諷、哀、懼、惡、驚,具體分類見表1。
在傳統(tǒng)文本情感分析中,否定詞的研究是一個(gè)重要環(huán)節(jié),傳統(tǒng)情感分析往往是極性分析,分析判斷目標(biāo)僅是二元極性,而本文情感分析為細(xì)粒度多元分析。當(dāng)分析文本為微博短文本時(shí),否定詞會(huì)產(chǎn)生豐富的語義內(nèi)容,若一概而論,僅將其作反向轉(zhuǎn)變情感處理,則有失偏駁,因此本文設(shè)定規(guī)則,根據(jù)實(shí)際情況,若在情感大類敬這類詞語前3個(gè)窗口內(nèi)出現(xiàn)否定詞,則將文本情感極性轉(zhuǎn)換為“惡”,若在其它情感大類的詞語向前3個(gè)窗口內(nèi)出現(xiàn)否定詞,則削減其情感強(qiáng)度,見公式(4)。
程度副詞表及各個(gè)程度副詞賦分情況部分截取見表2。
最后將各情感大類的情感得分相加,并畫出直方圖,對(duì)情感分析結(jié)果進(jìn)行可視化。
通過對(duì)各個(gè)情感大類的劃分,可得出情感比較集中的幾個(gè)類,再對(duì)幾個(gè)類中的各個(gè)小類進(jìn)行同樣的情感判別分析,通過細(xì)粒度劃分出公眾此時(shí)具體情感。
4 案例分析
4.1 文本主題概括
本文以武漢理工大學(xué)研究生跳樓事件為實(shí)驗(yàn)案例,搜集3月29號(hào)開始一個(gè)月內(nèi)4 849條博文,經(jīng)去重操作后剩 1 941條。按照時(shí)間對(duì)其進(jìn)行聚類分析,最終得到9 607個(gè)詞語分類結(jié)果,根據(jù)賈亞敏等[10]結(jié)合城市突發(fā)事件的特點(diǎn)及具體案例劃分的輿情傳播生命周期(起始階段、爆發(fā)階段、衰退階段和平息階段),結(jié)合數(shù)據(jù)特征,得出各階段微博發(fā)文數(shù)量分布,如圖1所示。
結(jié)合微博熱點(diǎn)時(shí)效短、公眾注意力容易被轉(zhuǎn)移且言論管控嚴(yán)的特點(diǎn),將本事件分為3個(gè)階段,分別為起始階段(3.29-4.2)、爆發(fā)階段(4.3-4.10)與平息階段(4.11-4.30),并提取相關(guān)微博博文主題詞,見表3。
從整個(gè)輿論主題演化過程來看,此次事件從起始階段寒門學(xué)子不堪重負(fù)自殺開始,兩天后事件當(dāng)事人王某作出回應(yīng),此時(shí)公眾熱點(diǎn)已經(jīng)形成,事件走向爆發(fā),直至武漢理工大學(xué)在4月8號(hào)作出回應(yīng)時(shí)達(dá)到高潮,公眾大多表達(dá)了憤怒及質(zhì)疑的情緒,并且由此次事件深挖到北京大學(xué)沈陽當(dāng)年性侵女生致其自殺的新聞,而當(dāng)事件發(fā)酵到一定時(shí)期后,網(wǎng)絡(luò)上便開始出現(xiàn)了一些雖沒有根據(jù)、但邏輯卻很通順的謠言,由此事件開始轉(zhuǎn)化為社會(huì)不穩(wěn)定因素,相關(guān)危機(jī)管理部門為了防止謠言擴(kuò)散及事態(tài)進(jìn)一步惡化,開始對(duì)微博大量用戶刪帖禁言,使事件很快進(jìn)入了衰退階段,這也與前段時(shí)間的“北電侯亮平”、“三色幼兒園”等事件的發(fā)展軌跡相似。
4.2 文本情感分析
本文對(duì)網(wǎng)友評(píng)論進(jìn)行情感分析,根據(jù)爬蟲爬取一個(gè)月內(nèi)15 523條有關(guān)評(píng)論推演公眾各階段情緒變化。
首先本文對(duì)各階段公眾情感進(jìn)行情感大類分析,見圖2。
從圖2中可以看出,這起事件引起的公眾情感大多集中于惡及諷刺,并且無論在哪一個(gè)階段,惡的情緒都處于高漲階段;在第二個(gè)階段,即爆發(fā)階段,公眾對(duì)該事件惡的情感達(dá)到最大值,因此本文對(duì)惡的情緒再作細(xì)粒度情感分析,見圖3。
從圖中可以看出,公眾情感大多集中于憎惡與貶責(zé),在事件爆發(fā)前期,公眾大多持貶責(zé)及憎惡的情緒,對(duì)導(dǎo)師壓榨學(xué)生一事,這些情緒是正常表現(xiàn),公眾一方面是憎惡該事件,另一方面,根據(jù)聚類主題可看出,公眾同時(shí)也在譴責(zé)學(xué)校及領(lǐng)導(dǎo)管理不善,譴責(zé)導(dǎo)師師德淪喪。在事件演化到輿論中期時(shí),憎惡的情感愈演愈烈,貶責(zé)的情感雖有所下降,但仍然高居不下,在此期間,導(dǎo)師王某以及武漢理工大學(xué)相繼發(fā)表申明,這也導(dǎo)致了憎惡情緒不斷攀升,懷疑的情緒也到達(dá)了周期峰值。在事件末期,除憎惡外,所有情緒都出現(xiàn)了相當(dāng)程度的衰退,再加上有關(guān)部門網(wǎng)論管控,其它更新鮮的事件發(fā)生,此時(shí)微博熱點(diǎn)效應(yīng)已經(jīng)過去,然而從情感大類的分析圖中可看出,此時(shí)公眾情緒并沒有從惡、諷轉(zhuǎn)向哀、信,惡、諷這兩種負(fù)面情緒依然占據(jù)主流,此時(shí)公眾依然對(duì)該事件懷有強(qiáng)烈的不信任,對(duì)整個(gè)導(dǎo)師制度及對(duì)校方處理方式不滿,因此在這種情況下事后相關(guān)部門進(jìn)行追罰、完善制度才是引導(dǎo)輿論導(dǎo)向積極情緒,防止該類悲劇再次發(fā)生的根本辦法。
由此可以看出,分析輿情事件下的公眾情感態(tài)度可以幫助有關(guān)部門更加準(zhǔn)確地把握各時(shí)段公眾情緒,制定符合當(dāng)前狀況的有效措施。在事件起始階段,有關(guān)部門應(yīng)當(dāng)及時(shí)分析公眾情感,對(duì)事件有關(guān)人員作出處罰,緩和公眾與政府、有關(guān)單位之間的緊張關(guān)系,避免引發(fā)大規(guī)模不滿情緒;在時(shí)間爆發(fā)階段,有關(guān)部門應(yīng)當(dāng)及時(shí)公布事件處理進(jìn)程,分析網(wǎng)民情緒構(gòu)成,避免謠言傳播,通過社交媒體等多個(gè)途徑使事件調(diào)查結(jié)果公開化、透明化;在事件末尾階段,有關(guān)部門應(yīng)該分析公眾此時(shí)主要情感,有針對(duì)地安撫公眾情緒,做好善后工作,并且將結(jié)果反饋給相關(guān)部門,避免該類影響社會(huì)安定的事件再次發(fā)生,而如果此時(shí)公眾情感仍處于偏激、負(fù)面狀態(tài),有關(guān)部門更應(yīng)該反思該周期內(nèi)工作是否到位,分析是由于措施有效性不足,還是自身權(quán)威性已有所下降或其它原因造成了不良后果。
5 結(jié)語
本文構(gòu)建了一個(gè)基于主題及細(xì)粒度文本分析的公眾情感分析模型,使用機(jī)器學(xué)習(xí)方法,用構(gòu)建詞向量聚類分析的構(gòu)想,得到了不同周期下輿情事件的主題概括,并在不同周期下對(duì)公眾情感基于詞典進(jìn)行細(xì)粒度分析,結(jié)合武漢理工大學(xué)研究生墜亡事件,論證了結(jié)合各階段主體及情感演化,可有效把握公眾情感變化趨勢(shì)。本文建立的模型可為有關(guān)危機(jī)管理部門提供借鑒,有助于有關(guān)部門在認(rèn)知輿情事件中實(shí)現(xiàn)有效輿情管控及情緒引導(dǎo)。
由于本研究是基于詞典的情感分析,對(duì)詞典依賴性較強(qiáng),在實(shí)踐中發(fā)現(xiàn),大連理工大學(xué)情感詞匯本體庫仍有許多不完善之處,并且由于中文的復(fù)雜性,對(duì)有些反諷、一詞多義現(xiàn)象處理得還不夠完善,在下一步的工作中需完善情感詞匯本體庫,提高情感分析有效性及準(zhǔn)確性。
參考文獻(xiàn):
[1] 李保利,楊星. 基于LDA模型和話題過濾的研究主題演化分析[J]. 小型微型計(jì)算機(jī)系統(tǒng),2012,33(12):2738-2743.
[2] 安璐,吳林. 融合主題與情感特征的突發(fā)事件微博輿情演化分析[J]. 圖書情報(bào)工作,2017,61(15):120-129.
[3] 薛煒明,侯霞,李寧. 一種基于Word2vec 的文本分類方法[J].? 北京信息科技大學(xué)學(xué)報(bào)2018,33(1):72-75.
[4] 李巖,韓斌,趙劍,等. 基于短文本及情感分析的微博輿情分析[J]. 計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):240-243.
[5] 王宏偉,劉勰,尹裴,等. 基于語義分析的微博搜索[J]. 情報(bào)學(xué)報(bào),2010(5):931-938.
[6] 張小倩. 情感極性轉(zhuǎn)移現(xiàn)象研究及應(yīng)用[D]. 蘇州:蘇州大學(xué), 2012.
[7] 王文凱,王黎明,柴玉梅,等. 基于卷積神經(jīng)網(wǎng)絡(luò)和Tree-LSTM的微博情感分析[J/OL]. 計(jì)算機(jī)應(yīng)用與研究,2019,36(5):1-7.2018- 03-09.http://www.arocmag.com/article/02-2019-05-007.html.
[8] 杜振雷. 面向微博短文本的情感分析研究[D]. 北京:北京信息科技大學(xué),2013.
[9] 馮成剛,田大鋼. 基于機(jī)器學(xué)習(xí)的微博情感分類研究[J]. 軟件導(dǎo)刊,2018,17(6): 58-61.
[10] 賈亞敏,安璐,李綱,城市突發(fā)事件網(wǎng)絡(luò)信息傳播時(shí)序變化規(guī)律研究[J]. 情報(bào)雜志,2015,34(4):91-96.
[11] 臺(tái)灣大學(xué)NTUSD中文情感極性字典[EB/OL].? https://download.csdn.net/download/huixion/9470816.
[12] 知網(wǎng). HowNet情感字典[EB/OL]. http://www.keenage.com/.
[13] 韓忠明,張玉沙,張慧,等. 有效的中文微博短文本傾向性分類算法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89-93.
[14] DAVISON B D. Structural link analysis and prediction in Microblogs[C]. Proceedings of the 20th ACM Conference on Information and Knowledge Management, 2011 :1163-1168.
[15] HANNON J,BENNETT M,SMYTH B. Recommending Twitter users to follow using content and collaborative filtering approaches[C]. Proceedings of the 2010 ACM Conference on Recommender Systems, 2010:199-206.
[16] 大連理工大學(xué). 大連理工大學(xué)情感詞匯本體庫[DB/OL].? http://ir.dlut.edu.cn/group/detail/4.
(責(zé)任編輯:江 艷)