馬昊 馬曉悅
摘?要:[目的/意義]現(xiàn)有新媒體事件的聚類研究聚焦于事件的單一維度屬性,并未考慮事件傳播的網(wǎng)絡(luò)結(jié)構(gòu)特征和文本分布特征。[方法/過(guò)程]本研究基于信息熵的相關(guān)概念,提出基于網(wǎng)絡(luò)結(jié)構(gòu)熵與內(nèi)容分布熵的事件聚類模型。模型在表征事件網(wǎng)絡(luò)結(jié)構(gòu)特征、內(nèi)容分布特征的基礎(chǔ)上完成跨內(nèi)容事件相似度對(duì)比,并使用圖表示學(xué)習(xí)算法與k-means聚類算法對(duì)事件進(jìn)行分析與聚類。本文選取113例微博事件作為實(shí)驗(yàn)對(duì)象,并使用事件基本屬性(點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)等)作為聚類對(duì)照實(shí)驗(yàn)組。[結(jié)論/發(fā)現(xiàn)]實(shí)驗(yàn)結(jié)果分析表明,本研究提出的模型能夠捕捉到新媒體事件更深層次的傳播、分布特征,能夠?qū)ΜF(xiàn)有相似度計(jì)算指標(biāo)進(jìn)行完善與補(bǔ)充。[創(chuàng)新/價(jià)值]本研究不僅能夠從多維度層次提取事件的傳播特征,即事件網(wǎng)絡(luò)結(jié)構(gòu)特征和內(nèi)容分布特征,還能夠?yàn)檩浨轭A(yù)測(cè)、管控提供支持,通過(guò)熵維度的信息變化監(jiān)測(cè)不同事件之間的傳播共性,輔助后續(xù)輿情事件的預(yù)測(cè)與監(jiān)管。
關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu);內(nèi)容分布;新媒體事件;微博傳播;網(wǎng)絡(luò)結(jié)構(gòu)熵;信息分布熵;事件聚類;圖表示學(xué)習(xí)
DOI:10.3969/j.issn.1008-0821.2021.02.004
〔中圖分類號(hào)〕G206?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2021)02-0030-12
Abstract:[Purpose/Significance]The existing clustering research of new media events focuses on the single-dimensional attributes of events,and does not consider the network structure characteristics and text distribution characteristics of event propagation.[Method/Process]This research was inspired by the concept of information entropy,and proposed an event clustering model based on network structure entropy and content distribution entropy.The model completed cross-content event similarity comparison on the basis of characterizing event network structure characteristics and content distribution characteristics,then Network Representation Learning algorithm and k-means clustering algorithm cluster the events.This paper selected 113 microblog events as the experimental objects,and used the basic attributes of the events(likes,comments,reposts,etc.)as the cluster control experimental group.[Results/Conclusion]The analysis of the experimental results showed that the model proposed in this study could capture the deeper communication and distribution characteristics of new media events.At the same time,it could improve and supplement existing similarity calculation indicators.[Originality/Value]This research can not only extract the propagation characteristics of the event from multi-dimensional levels,that is,the characteristics of the event network structure and the distribution of event content.Also it can provide support for public opinion prediction and control.The model can also monitor the communication commonality between different events through the entropy dimension of information changes to assist subsequent reflection on public opinion events.
Key words:network structure entropy;information distribution entropy;event clustering;network representation learning;network structure;content distribution;new media events;microblog;communication
信息技術(shù)和自媒體行業(yè)的飛速發(fā)展使得互聯(lián)網(wǎng)行業(yè)中用戶創(chuàng)造內(nèi)容的數(shù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)[1]。在海量用戶生產(chǎn)數(shù)據(jù)的背景下,信息的自動(dòng)聚類與分類成為研究焦點(diǎn)[2-3]。具體到新媒體環(huán)境中,由用戶生成信息所構(gòu)成的新媒體事件聚類與分類是新媒體輿情管理與檢測(cè)的一項(xiàng)重點(diǎn)研究[4-5]。如何精確地度量事件之間的相似度、對(duì)事件進(jìn)行聚類分析和分類成為組織和使用輿情信息的先決條件與研究熱點(diǎn)。
現(xiàn)有聚類研究局限于新媒體事件的文本內(nèi)容,導(dǎo)致相關(guān)計(jì)算指標(biāo)存在一定的局限性。學(xué)術(shù)界目前對(duì)于事件聚類亦或表征事件的文本聚類多關(guān)注于信息的特征提取,如早期的詞袋模型[6]及后續(xù)對(duì)詞語(yǔ)進(jìn)行加權(quán)的TF-IDF模型[7-8],并針對(duì)研究?jī)?nèi)容展開(kāi)了多個(gè)領(lǐng)域的探索,如網(wǎng)絡(luò)短文本聚類[9]、新聞文本聚類[10]等。而新媒體事件是以新媒體為載體的網(wǎng)絡(luò)熱點(diǎn)事件,具有兩大特征:雙向傳遞與用戶創(chuàng)造內(nèi)容。雙向傳遞即意味著用戶既可作為信息的接收者亦可成為信息的生產(chǎn)者;用戶創(chuàng)造內(nèi)容則指事件中傳遞的信息大多由用戶創(chuàng)造[11]。而這種傳播特點(diǎn)的深層邏輯是用戶對(duì)于某一話題的支持與關(guān)注。之前的研究也表明,用戶在新媒體事件傳播中形成的傳播網(wǎng)絡(luò)及網(wǎng)絡(luò)中的文本代表著用戶的喜好、影響力[12]、事件觀點(diǎn)等屬性[13]。這使得用戶創(chuàng)造內(nèi)容與用戶在事件之間形成的傳播網(wǎng)絡(luò)成為新媒體事件傳播的重要構(gòu)成部分[14]。且現(xiàn)有方法并未將事件的網(wǎng)絡(luò)結(jié)構(gòu)與事件的內(nèi)容分布結(jié)合考慮,現(xiàn)存指標(biāo)也并未對(duì)跨領(lǐng)域、跨內(nèi)容事件的相似度進(jìn)行計(jì)算。
基于此,本文提出綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)與內(nèi)容分布的信息熵相似度度量模型,用于新媒體事件的類別計(jì)算。模型能夠從事件傳播的網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容分布對(duì)事件特征進(jìn)行提取,同時(shí)基于熵的概念構(gòu)建相似度計(jì)算指標(biāo)以完成跨事件對(duì)比。最后本文使用基于NRL(Network Representation Learning,圖表示學(xué)習(xí))和k-means的聚類方法將傳統(tǒng)指標(biāo)與本文構(gòu)建指標(biāo)在事件聚類層面的差異進(jìn)行對(duì)比,結(jié)果證明,本文指標(biāo)能夠考慮事件在傳播過(guò)程中網(wǎng)絡(luò)結(jié)構(gòu)和文本分布等深層特征,完善和補(bǔ)充傳統(tǒng)指標(biāo)對(duì)相似度的計(jì)算和聚類的劃分。
1?相關(guān)研究
本研究模型旨在對(duì)新媒體事件的網(wǎng)絡(luò)結(jié)構(gòu)特征及文本分布特征進(jìn)行量化表征?;诒疚哪P徒Y(jié)構(gòu),目前國(guó)內(nèi)外關(guān)于新媒體事件相似度計(jì)算、事件聚類的相關(guān)研究可分為兩大類別:一是基于圖論或者復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相似度研究;二是基于新媒體短文本內(nèi)容的內(nèi)容特征相似度研究。
1.1?新媒體環(huán)境中事件網(wǎng)絡(luò)特征相似度研究
新媒體環(huán)境中網(wǎng)絡(luò)結(jié)構(gòu)相似度研究根據(jù)其最終的研究對(duì)象分為兩類。首先是網(wǎng)絡(luò)中節(jié)點(diǎn)的相似性研究,其次是網(wǎng)絡(luò)整體結(jié)構(gòu)相似性研究。
網(wǎng)絡(luò)節(jié)點(diǎn)相似性研究主要將用戶等研究對(duì)象作為社交網(wǎng)絡(luò)節(jié)點(diǎn),研究其在網(wǎng)絡(luò)中的相似度。Celik M等在其研究中提出了一種根據(jù)用戶在新媒體社交中訪問(wèn)站點(diǎn)的社交重要性來(lái)對(duì)用戶間相似性進(jìn)行量化的方法。該方法使用用戶經(jīng)常訪問(wèn)具有重要社交價(jià)值的站點(diǎn)對(duì)用戶進(jìn)行網(wǎng)絡(luò)特征表示,使用編輯距離(Levenshtein距離)實(shí)現(xiàn)用戶之間相似度的量化[15]。Zhou X等提出了FRUI-P模型以識(shí)別跨平臺(tái)匿名用戶。將社交網(wǎng)絡(luò)中各用戶的朋友特征提取至朋友特征向量中。最后,開(kāi)發(fā)了一對(duì)一的映射方案,以基于相似性來(lái)識(shí)別用戶[16]。
網(wǎng)絡(luò)整體相似性研究是將新媒體事件傳播網(wǎng)絡(luò)看作整體,度量網(wǎng)絡(luò)整體相似性以達(dá)成相應(yīng)的研究目標(biāo)。Jiang L等構(gòu)造了一種將醫(yī)療保健社交媒體數(shù)據(jù)表示為異構(gòu)醫(yī)療保健信息網(wǎng)絡(luò)的方法。該方法從局部(直接連接)和全局(間接連接)結(jié)構(gòu)出發(fā)度量網(wǎng)絡(luò)相似性,以此實(shí)現(xiàn)相似醫(yī)療保健用戶發(fā)現(xiàn)和推薦。其研究結(jié)果表明,基于結(jié)構(gòu)的相似性方法相較于基于內(nèi)容的方法在準(zhǔn)確度與效率方面具有更好的性能[17]。此外,Li Y等基于不同社交網(wǎng)絡(luò)中友誼網(wǎng)絡(luò)的相似性,提出了跨網(wǎng)絡(luò)的用戶識(shí)別與發(fā)現(xiàn)方法[18]。田世海等使用事件間共現(xiàn)作為新媒體事件之間的關(guān)系鏈接構(gòu)建輿情事件復(fù)雜網(wǎng)絡(luò),以此計(jì)算事件相似度并完成輿情事件的聚類分析[19]。
1.2?新媒體環(huán)境中事件內(nèi)容特征相似度研究
新媒體環(huán)境中內(nèi)容相似度研究主要針對(duì)短文本內(nèi)容的相似度,根據(jù)研究方法可分為兩類,首先是基于單詞的短文本相似度計(jì)算方法,其次是基于語(yǔ)義的短文本相似度計(jì)算方法。
基于單詞的短文本相似度計(jì)算將單詞作為最小分析單位,對(duì)應(yīng)的將短文本視為單詞的組合。因此在這類方法中,短文本的相似度即為組成該短文本的單詞對(duì)相似度。此類方法又可分為基于知識(shí)的相似度計(jì)算和基于語(yǔ)料的相似度計(jì)算?;谥R(shí)的相似度計(jì)算依賴于人工認(rèn)知對(duì)詞組間關(guān)系的標(biāo)記。其中典型案例為WordNet[20],一種基于認(rèn)知語(yǔ)言學(xué)組成的語(yǔ)義網(wǎng)絡(luò)。Lee J C等將單詞在WordNet中的最短路徑長(zhǎng)度作為相似度計(jì)算指標(biāo)[21]。也有學(xué)者將詞嵌入模型與WordNet模型相結(jié)合以構(gòu)建新的相似度計(jì)算方法[22]?;陬A(yù)料的相似度則將單詞嵌入具體的預(yù)料之中,根據(jù)單詞在當(dāng)前預(yù)料中的分布特征對(duì)單詞間相似度進(jìn)行計(jì)算。其中最具代表性的方法是詞移動(dòng)距離[23]。即在當(dāng)前語(yǔ)料組成的空間中,一個(gè)單詞從其位置移動(dòng)到另一個(gè)單詞所在位置之間的距離作為其詞移動(dòng)距離,以對(duì)單詞間相似度進(jìn)行表征。
基于語(yǔ)義的短文本相似度計(jì)算將文本中詞語(yǔ)分布的真實(shí)含義考慮在內(nèi)。其中最為經(jīng)典的方法為L(zhǎng)SA系列模型[24]。模型假設(shè)單詞語(yǔ)義及其理解可從其在語(yǔ)料中的分布得出,即具有相似上下文的詞語(yǔ)具有相同的語(yǔ)義。在此基礎(chǔ)上,Hofmann T提出了基于LSA的概率潛在語(yǔ)義分析模型(PLSA),從概率視角對(duì)文本建模[25]。Blei D M等則提出了潛在的狄利克雷分布(LDA),為PLSA添加了貝葉斯框架,并使用單詞和文本之間的概率分布來(lái)表達(dá)文本含義[26]。也有研究人員試圖將短文本編碼為機(jī)器與用戶易為理解的形式,并在此基礎(chǔ)上進(jìn)行相似度計(jì)算。ESA(Explicit Semantic Analysis)模型是其中的經(jīng)典模型。Gabrilovich E等將維基百科作為文本的概念空間,將短文本表示為帶有權(quán)重的維基百科空間向量,后續(xù)的相似度計(jì)算則回歸為空間向量相似度計(jì)算[27]。
1.3?現(xiàn)存問(wèn)題及研究目標(biāo)
新媒體事件的相關(guān)聚類研究較少,且研究?jī)?nèi)容多局限于特定的指標(biāo)與屬性,并未從新媒體事件的傳播內(nèi)容特征及其傳播網(wǎng)絡(luò)特征視角出發(fā)進(jìn)行綜合探究。傳統(tǒng)的事件相似度度量手段無(wú)法準(zhǔn)確地表征新媒體事件的多維度特征,且缺少跨內(nèi)容領(lǐng)域的相似度指標(biāo)。
本研究創(chuàng)新點(diǎn)如下:首先,從網(wǎng)絡(luò)結(jié)構(gòu)維度與內(nèi)容分布維度出發(fā)捕捉新媒體事件特征。具體來(lái)說(shuō),本研究從復(fù)雜網(wǎng)絡(luò)角度出發(fā),根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)熵的概念構(gòu)建了新媒體事件在傳播網(wǎng)絡(luò)的特征屬性。從新媒體事件內(nèi)容相似度出發(fā),基于傳播網(wǎng)絡(luò)對(duì)新媒體事件文本內(nèi)容分布網(wǎng)絡(luò)進(jìn)行重構(gòu),并延續(xù)網(wǎng)絡(luò)結(jié)構(gòu)熵的概念構(gòu)建了內(nèi)容分布熵以表征新媒體事件內(nèi)容特征屬性。
其次,本研究從熵的角度出發(fā),將事件相似度對(duì)比映射至熵維度,在保留事件內(nèi)容分布屬性的基礎(chǔ)上,實(shí)現(xiàn)了跨內(nèi)容領(lǐng)域的不同事件相似度對(duì)比。研究將事件特征分為網(wǎng)絡(luò)結(jié)構(gòu)與文本分布兩大維度,二者從局部細(xì)粒度和整體粗粒度表征事件特征。具體而言,局部細(xì)粒度將網(wǎng)絡(luò)結(jié)構(gòu)與文本分布視為概率分布,求取局部屬性對(duì)全局屬性的代表性,以此來(lái)表征事件內(nèi)容的混亂程度,即熵;全局粗粒度則是對(duì)局部細(xì)粒度的補(bǔ)充,將事件規(guī)模屬性納入研究范圍。由于熵自身特征及其對(duì)文本分布的網(wǎng)絡(luò)重構(gòu),本研究能夠?qū)⒉煌I(lǐng)域事件映射至熵維度進(jìn)行對(duì)比。
最后,根據(jù)本研究提出的相似度計(jì)算方法,使用NRL(Network Representation Learning,圖表示學(xué)習(xí))和k-means算法對(duì)事件進(jìn)行聚類分析,并使用事件基礎(chǔ)屬性設(shè)置對(duì)照組進(jìn)行對(duì)比。
2?基于網(wǎng)絡(luò)與內(nèi)容結(jié)構(gòu)熵的事件相似度度量模型
本模型旨在將新媒體環(huán)境中內(nèi)容數(shù)據(jù)與聯(lián)系數(shù)據(jù)抽象為多維度復(fù)雜網(wǎng)絡(luò),并使用基于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)熵、基于內(nèi)容分布結(jié)構(gòu)熵的模型對(duì)其進(jìn)行相似度計(jì)算,模型組成與流程示意如圖1所示。
從事件內(nèi)容數(shù)據(jù)與聯(lián)系數(shù)據(jù)的特征維度出發(fā),模型可分為兩部分:基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度度量和基于內(nèi)容分布熵的相似度度量。前者度量新媒體環(huán)境下事件傳播形成的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似度,后者度量新媒體環(huán)境下事件傳播中內(nèi)容變化(即內(nèi)容熵)的相似度。
基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度可從網(wǎng)絡(luò)結(jié)構(gòu)自身的復(fù)雜度(NND,Network Node Dispersion,網(wǎng)絡(luò)節(jié)點(diǎn)離散度)及兩個(gè)網(wǎng)絡(luò)之間的結(jié)構(gòu)相似度(EMD,Earth Mover's Distance,陸地移動(dòng)距離,也叫第一Wasserstein距離)對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似性進(jìn)行量化表征;基于內(nèi)容分布的結(jié)構(gòu)熵與之類似,本文使用Bert模型基于內(nèi)容相似度對(duì)事件傳播網(wǎng)絡(luò)進(jìn)行重構(gòu)——生成“內(nèi)容分布網(wǎng)絡(luò)”,并在該網(wǎng)絡(luò)上度量NND與EMD指標(biāo)。
本文提出的模型能夠從網(wǎng)絡(luò)結(jié)構(gòu)與內(nèi)容分布結(jié)構(gòu)兩個(gè)維度,研究對(duì)象自身復(fù)雜度與對(duì)象之間相似度兩個(gè)指標(biāo)對(duì)于新媒體網(wǎng)絡(luò)事件進(jìn)行相似度計(jì)算。
在實(shí)例驗(yàn)證階段,本文對(duì)采集的微博事件進(jìn)行相似度度量后形成事件距離矩陣,其次對(duì)其進(jìn)行基于圖表示學(xué)習(xí)聚類分析,使用事件原有屬性作為聚類對(duì)照組。結(jié)果表明,本模型能夠從內(nèi)容數(shù)據(jù)與網(wǎng)絡(luò)聯(lián)系兩個(gè)層面對(duì)事件的特征進(jìn)行捕捉,能夠?qū)鹘y(tǒng)事件相似度度量方法指標(biāo)進(jìn)行補(bǔ)充與完善。
2.1?基于熵的相似度度量
新媒體網(wǎng)絡(luò)事件在傳播過(guò)程中體現(xiàn)出“多個(gè)重要傳播節(jié)點(diǎn)引導(dǎo),大量普通節(jié)點(diǎn)依附參與討論,其隨時(shí)間節(jié)點(diǎn)的討論規(guī)模遞減”的狀態(tài),如圖2所示。
圖2?新媒體事件的傳播演變
以新浪微博為例,特定事件相關(guān)微博通常以“#事件關(guān)鍵詞#”形式的超鏈接為索引。在事件傳播過(guò)程中,少數(shù)節(jié)點(diǎn)引導(dǎo)著多數(shù)普通用戶節(jié)點(diǎn)進(jìn)行討論與交互,且隨著時(shí)間演變討論與交互的規(guī)模逐漸減小。
模型旨在度量此類網(wǎng)絡(luò)結(jié)構(gòu)分布的內(nèi)在復(fù)雜度及網(wǎng)絡(luò)與其他網(wǎng)絡(luò)間分布的相似度,從而在保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的前提下完成事件間的距離計(jì)算;同理,借助自然語(yǔ)言處理模型對(duì)事件傳播網(wǎng)絡(luò)進(jìn)行重構(gòu)得到內(nèi)容分布網(wǎng)絡(luò)后,模型能夠計(jì)算事件內(nèi)容分布的內(nèi)在復(fù)雜度、內(nèi)容與其他事件內(nèi)容分布之間的相似度,從而保證了跨事件內(nèi)容相似度計(jì)算的可能性,并保留了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。
2.1.1?基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度
模型的基礎(chǔ)理念事件傳播網(wǎng)絡(luò)理解為基于節(jié)點(diǎn)度的概率分布。為清晰地介紹本文模型,引入基本概念KL散度,如式(1)所示:
其中,p和q表示兩種維度為N的概率分布。
KL散度又稱為相對(duì)熵,是一種度量?jī)煞N分布相似度的方法。以該理論為基礎(chǔ),學(xué)者Schieber T等提出了網(wǎng)絡(luò)相似度模型,其中NND(Network Node Dispersion,網(wǎng)絡(luò)節(jié)點(diǎn)離散度)子模塊將網(wǎng)絡(luò)中節(jié)點(diǎn)的度看作概率分布以表征其結(jié)構(gòu)熵,其研究證明該方法能夠很好地在拓?fù)浣Y(jié)構(gòu)層面度量網(wǎng)絡(luò)相似度且具有較低的計(jì)算要求[28]。
本文受該模型啟發(fā),綜合考慮網(wǎng)絡(luò)規(guī)模與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似性,定義基于結(jié)構(gòu)熵的網(wǎng)絡(luò)相似度,如式(2)所示:
其中,g1和g2為待計(jì)算相似度的網(wǎng)絡(luò),EMD為陸地移動(dòng)距離也稱Wasserstein距離[29],NND為網(wǎng)絡(luò)節(jié)點(diǎn)離散度指標(biāo),w1與w2為權(quán)重系數(shù)默認(rèn)取值0.5,μg1={μ1,μ1,…,μN(yùn)}w。
NND指標(biāo)的詳細(xì)定義如式(3)所示:
其中,J(P1,P2,…,PN)表示JS距離,詳細(xì)定義如式(4)。節(jié)點(diǎn)Pi的節(jié)點(diǎn)度概率分布可表示為Pi={Pi(j)},Pi(j)表示對(duì)于節(jié)點(diǎn)i來(lái)說(shuō)與其距離為j的節(jié)點(diǎn)的比例。d為當(dāng)前網(wǎng)絡(luò)直徑,目的是對(duì)計(jì)算結(jié)果進(jìn)行標(biāo)準(zhǔn)化。
其中,N表示當(dāng)前網(wǎng)絡(luò)中節(jié)點(diǎn)的總數(shù)量,μj定義如式(5)所示:
其中,Pi(j)定義與上式相同,N表示當(dāng)前網(wǎng)絡(luò)中節(jié)點(diǎn)的總數(shù)量。
因此,NND模塊能夠很好地捕捉網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)的熵值,即網(wǎng)絡(luò)平均局部節(jié)點(diǎn)度分布的概率對(duì)總體網(wǎng)絡(luò)節(jié)點(diǎn)分布概率的表征度。但其對(duì)于k-regular網(wǎng)絡(luò)不能進(jìn)行區(qū)分[28],對(duì)于k-regular網(wǎng)絡(luò)而言,局部節(jié)點(diǎn)度分布概率完全等同于全局節(jié)點(diǎn)分布概率,Schieber T在其研究中對(duì)該方法進(jìn)行詳實(shí)的改進(jìn)和說(shuō)明。
在網(wǎng)絡(luò)事件中,僅使用NND指標(biāo),模型可能對(duì)過(guò)度傳播的熱門(mén)事件和傳播結(jié)構(gòu)單一的冷門(mén)事件缺乏區(qū)分度,因?yàn)檫@些事件的局部節(jié)點(diǎn)均能夠很好地表征全體節(jié)點(diǎn)的度分布概率。因此,本文對(duì)NND模型進(jìn)行改進(jìn),使用EMD距離作為NND的補(bǔ)充,如式(2)。EMD距離能夠度量將兩個(gè)分布移動(dòng)為相同分布所花費(fèi)的最小距離。μg1={μ1,μ1,…,μN(yùn)}作為EMD的輸入能夠?qū)⒕W(wǎng)絡(luò)結(jié)構(gòu)的規(guī)模納入度量中,彌補(bǔ)了NND的缺陷。
本文旨在構(gòu)建跨領(lǐng)域、跨事件類型的相似度度量方法,這種將網(wǎng)絡(luò)特征抽象為熵的方法能夠有效實(shí)現(xiàn)跨類型計(jì)算。
2.1.2?基于內(nèi)容分布熵的相似度
基于結(jié)構(gòu)熵的相似度度量從事件網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)度量了事件的相似性,即單個(gè)節(jié)點(diǎn)的度概率分布在多大程度上可表征網(wǎng)絡(luò)整體,同時(shí)加以事件規(guī)模參數(shù)(EMD)對(duì)其進(jìn)行修正。
內(nèi)容分布熵的相似度計(jì)算與基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度計(jì)算所使用的基本方法相同,但前者的相似度計(jì)算基于重構(gòu)后的內(nèi)容相似網(wǎng)絡(luò),后者的相似度計(jì)算基于事件傳播過(guò)程中的真實(shí)聯(lián)系網(wǎng)絡(luò)。
重構(gòu)內(nèi)容相似度網(wǎng)絡(luò)的方法如下:①使用BERT模型作為短文本相似度計(jì)算指標(biāo);②根據(jù)事件傳播網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算節(jié)點(diǎn)之間文本相似度;③使用相似度均值作為判斷不同節(jié)點(diǎn)之間是否存在新連接的閾值;④根據(jù)閾值重構(gòu)文本分布網(wǎng)絡(luò)。
最終,基于熵的網(wǎng)絡(luò)相似度模型如式(6):
其中,Dt(g1,g2)、Dn(g1,g2)分別表示基于內(nèi)容分布熵的相似度與基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度,w1與w2為權(quán)重系數(shù)默認(rèn)取值0.5。
2.2?基于NRL和k-means的事件聚類模型
本文相似度計(jì)算模型可直接得出事件之間的距離或多個(gè)事件間的距離矩陣。為進(jìn)一步論證本文模型的有效性和本文模型與傳統(tǒng)事件相似性計(jì)算方法的不同之處,本文選擇對(duì)事件距離矩陣進(jìn)行基于NRL(圖表示學(xué)習(xí))和k-means的聚類分析,并將事件基本屬性特征組作為聚類對(duì)照組進(jìn)行分析。選擇的事件基本屬性如式(8)。
其中,Ei表示網(wǎng)絡(luò)事件i,Mi、Ii分別表示其對(duì)應(yīng)的媒介數(shù)量向量,即包含圖片與視頻數(shù)量;事件影響力向量,其中包括評(píng)論用戶數(shù)量、轉(zhuǎn)發(fā)用戶數(shù)量、點(diǎn)贊用戶數(shù)量。上述向量均進(jìn)行標(biāo)準(zhǔn)化。
NRL是一種將圖類型數(shù)據(jù)進(jìn)行降維并保留其圖形結(jié)構(gòu)特征屬性的有效方法,本文選擇Node2Vec算法[30]對(duì)事件距離舉證進(jìn)行向量化,使用k-means算法對(duì)事件向量進(jìn)行聚類。對(duì)照組基于事件基本屬性特征直接進(jìn)行k-means聚類分析。
3?模型實(shí)例分析
本文隨機(jī)選擇了113例微博網(wǎng)絡(luò)事件。事件由“#”加事件關(guān)鍵詞的超鏈接進(jìn)行索引,所有包含該鏈接的事件被微博平臺(tái)定義為話題,并提供單獨(dú)頁(yè)面供用戶瀏覽。所收集事件的微博討論量均在10w左右,事件涉及領(lǐng)域及其規(guī)模各不相同。
3.1?事件概述
根據(jù)模型對(duì)數(shù)據(jù)的需求,采集數(shù)據(jù)屬性包括事件名稱、事件分布內(nèi)容、發(fā)布內(nèi)容點(diǎn)贊數(shù)、發(fā)表內(nèi)容評(píng)論數(shù)、發(fā)布內(nèi)容轉(zhuǎn)發(fā)數(shù)(三者即式(8)中的事件影響力向量,表1中的數(shù)據(jù)為三者均值和)。
計(jì)算事件內(nèi)各個(gè)博文的平均媒介數(shù)量、平均影響力、平均原創(chuàng)內(nèi)容量并對(duì)其進(jìn)行描述性統(tǒng)計(jì),結(jié)果如表1、表2所示。
事件平均可視化媒介數(shù)量穩(wěn)定在1.09/條微博左右,標(biāo)準(zhǔn)差為0.08;事件平均影響力則因?yàn)槭录念I(lǐng)域和關(guān)注人群不同呈現(xiàn)出較大差異,標(biāo)準(zhǔn)差為55 680.71;事件平均原創(chuàng)內(nèi)容量是對(duì)原創(chuàng)博文長(zhǎng)度的度量。受微博平臺(tái)博文數(shù)量限制,事件平均原創(chuàng)量均值為102.58,標(biāo)準(zhǔn)差為3.47。
3.2?基于熵的相似度度量結(jié)果
數(shù)據(jù)集中各個(gè)事件的網(wǎng)絡(luò)結(jié)構(gòu)熵與事件內(nèi)容熵(即NND指標(biāo))如圖3所示。
圖中橫坐標(biāo)為事件編號(hào),縱坐標(biāo)為標(biāo)準(zhǔn)化后的NND值。在不同事件中,相比于事件網(wǎng)絡(luò)結(jié)構(gòu)重構(gòu)后的事件內(nèi)容分布網(wǎng)絡(luò)普遍具有更高的NND值。重構(gòu)后的事件分布網(wǎng)絡(luò)具有更高混亂度,即局部信息分布難以表征全體信息分布情況。
EMD彌補(bǔ)了NND對(duì)網(wǎng)絡(luò)規(guī)模不敏感的缺點(diǎn),從網(wǎng)絡(luò)總體基于度的概率分布對(duì)兩個(gè)網(wǎng)絡(luò)進(jìn)行距離計(jì)算。圖4為部分事件EMD距離熱力圖,橫縱坐標(biāo)為事件編號(hào),圖中顏色的填充變化對(duì)應(yīng)橫縱坐標(biāo)下的具體數(shù)值即事件之間的EMD距離。距離數(shù)值高說(shuō)明事件之間相似度小,事件網(wǎng)絡(luò)的度分布差異度較大,對(duì)應(yīng)填充顏色為藍(lán)色;距離數(shù)值低說(shuō)明事件之間相似度大,事件網(wǎng)絡(luò)的度分布差異度較小,對(duì)應(yīng)填充顏色為紅色(紅色與藍(lán)色的深淺變化由繪圖算法基于當(dāng)前數(shù)據(jù)的分布給出,即規(guī)定極小值為紅色、極大值為藍(lán)色,其余顏色深淺變化由其具體數(shù)值與極值之間的差值決定,差值越高顏色越淺),詳細(xì)標(biāo)度見(jiàn)圖右側(cè)圖例。由圖可知網(wǎng)絡(luò)結(jié)構(gòu)EMD與文本分布(內(nèi)容分布)EMD總體具有一致性,但在個(gè)別事件中存在較大差異。
不同維度EMD與NND值加權(quán)求和后形成最終事件距離指標(biāo),圖5為部分事件距離熱力圖,其中橫縱坐標(biāo)為事件編號(hào)。圖中顏色的填充變化對(duì)應(yīng)橫縱坐標(biāo)下的具體數(shù)值即事件之間的相異度,相異度數(shù)值高說(shuō)明事件之間相似度小,對(duì)應(yīng)填充顏色為藍(lán)色;相異度數(shù)值低說(shuō)明事件之間相似度大,對(duì)應(yīng)填充顏色為紅色(紅色與藍(lán)色的深淺變化由繪圖算法基于當(dāng)前數(shù)據(jù)的分布給出,即規(guī)定極小值為紅色、極大值為藍(lán)色,其余顏色深淺變化由其具體數(shù)值與極值之間的差值決定,差值越高顏色越淺),詳細(xì)標(biāo)度見(jiàn)圖右側(cè)圖例。左側(cè)子圖為最終事件距離矩陣,中間子圖為基于網(wǎng)絡(luò)結(jié)構(gòu)的事件距離矩陣,右側(cè)子圖為基于重構(gòu)文本分布網(wǎng)絡(luò)的事件距離矩陣。由圖可知,基于網(wǎng)絡(luò)結(jié)構(gòu)和基于文本分布網(wǎng)絡(luò)均能捕捉到事件的相似特征,且二者總體具有一致性。體現(xiàn)在圖中為二者熱度圖矩陣色塊分布整體較為一致,局部存在不同。二者加權(quán)融合為最終的事件距離矩陣——事件相異度矩陣。
3.3?事件聚類結(jié)果
使用Grover A等提供的Node2Vec方法對(duì)事件距離矩陣進(jìn)行向量化[30]。最終將事件的聚類分析分為實(shí)驗(yàn)組與對(duì)照組。實(shí)驗(yàn)組使用事件相異度矩陣作為輸入,通過(guò)Node2vec表示為事件特征向量,最終通過(guò)k-means進(jìn)行聚類分析;對(duì)照組使用事件基本特征作為輸入向量,其定義見(jiàn)式(8),最終使用k-means進(jìn)行聚類分析。
1)實(shí)驗(yàn)組聚類結(jié)果
使用SSE(Sum of the Squared Errors,誤差平方和)繪制聚類“肘部圖”獲得的最佳聚類類別數(shù)如圖6所示。
在k=4時(shí),SSE指標(biāo)迅速減小,此時(shí)k對(duì)應(yīng)較為真實(shí)的聚類類別數(shù)。對(duì)于聚類數(shù)據(jù)進(jìn)行降維繪圖[31],得到其最終類別分布結(jié)果如圖7所示。
由圖7可知,類別-2具有最多的樣本數(shù)(N=66),類別-4次之(N=35),類別-1樣本數(shù)N=10,類別-3樣本數(shù)量最?。∟=2)。通過(guò)觀察原始數(shù)據(jù),最終聚類結(jié)果中各個(gè)類別典型事件與特征如表3所示。
表中NND值為該類中NND均值標(biāo)準(zhǔn)化后的數(shù)值。由表可知,類別-1中事件傳播結(jié)構(gòu)均勻,即局部節(jié)點(diǎn)能夠很好地表征整體節(jié)點(diǎn),但其文本分布復(fù)雜,即局部文本不能較好地表征全體;類別-2中事件數(shù)量最多,其傳播結(jié)構(gòu)均勻、文本分布復(fù)雜,但程度均低于類別-1;類別-3中事件網(wǎng)絡(luò)結(jié)構(gòu)NND和文本分布NND較小,說(shuō)明局部信息能夠很好地表征整體,具體到實(shí)際數(shù)據(jù)中為突發(fā)危機(jī)事件;類別-4中不論是網(wǎng)絡(luò)結(jié)構(gòu)還是文本分布,局部信息都不能很好地表征全體,事件引發(fā)較多爭(zhēng)議和討論,傳播網(wǎng)絡(luò)結(jié)構(gòu)不規(guī)則。
2)對(duì)照組聚類結(jié)果
對(duì)于對(duì)照組同樣使用SSE指標(biāo)尋找最優(yōu)聚類類別數(shù),結(jié)果如圖8所示。
在k=4時(shí),SSE指標(biāo)迅速減小,此時(shí)k對(duì)應(yīng)較為真實(shí)的聚類類別數(shù)。同樣,對(duì)于聚類數(shù)據(jù)進(jìn)行降維繪圖,得到對(duì)照組最終類別分布結(jié)果如圖9所示。
對(duì)照組聚類結(jié)果中:類別-1事件在討論人規(guī)模與圖片視頻等媒介數(shù)量最多;類別-2中事件參與討論人數(shù)較多,但圖片視頻等媒介數(shù)量較少;類別-3中事件參與討論人數(shù)較多,圖片視頻等媒介數(shù)量較多;類別-4事件參與人數(shù)較少,圖片媒介數(shù)量較多。
實(shí)驗(yàn)組(熵聚類)與對(duì)照組(特征聚類)事件分類的關(guān)系如圖10所示。
圖中熵聚類,即本實(shí)驗(yàn)提出的方法能夠?qū)鹘y(tǒng)的類別劃分進(jìn)行補(bǔ)充。傳統(tǒng)的數(shù)據(jù)基礎(chǔ)特征僅針對(duì)事件淺層數(shù)據(jù)特征的變化將事件進(jìn)行分組,且組間數(shù)據(jù)差異大(86∶21∶4∶2),不能很好地區(qū)分事件;依據(jù)本文提出的模型熵聚類考慮了事件規(guī)模、網(wǎng)絡(luò)結(jié)構(gòu)、文本分布等特征,能夠?qū)κ录卣鬟M(jìn)行精細(xì)捕捉,從而完成跨領(lǐng)域但不舍棄內(nèi)容的相似度度量與聚類分析。
4?討?論
4.1?模型可捕捉新媒體事件傳播中的“結(jié)構(gòu)簇”與“內(nèi)容簇”的分布特征
新媒體事件相似度計(jì)算、聚類與分類的研究實(shí)質(zhì)是對(duì)新媒體環(huán)境中同質(zhì)性內(nèi)容與異質(zhì)性內(nèi)容進(jìn)行分化,即同類事件間相似度最大且非同類事件間相似度最小。熵在信息中的本質(zhì)是度量系統(tǒng)的“內(nèi)在的混亂程度”,因此新媒體事件聚類是尋求事件分類后熵的最小化。本研究將新媒體事件中相似的網(wǎng)絡(luò)結(jié)構(gòu)與相似的內(nèi)容分布作為局部的“結(jié)構(gòu)簇”與“內(nèi)容簇”,“結(jié)構(gòu)簇”基于用戶評(píng)論行為形成的局部網(wǎng)絡(luò),“內(nèi)容簇”是基于用戶分布文本相似度形成的重構(gòu)網(wǎng)絡(luò)。本研究提出NND指標(biāo)對(duì)“簇”的分布特征進(jìn)行量化,即量化新媒體事件的熵。在本次實(shí)驗(yàn)中,基于熵的相似度度量模型能夠從網(wǎng)絡(luò)事件網(wǎng)絡(luò)結(jié)構(gòu)維度和事件內(nèi)容分布維度出發(fā),考慮事件內(nèi)部分布不一致性和事件規(guī)模兩個(gè)因素,最終形成了事件相似度度量的綜合指標(biāo)。體現(xiàn)在以下3個(gè)方面。
首先,模型能夠提取事件傳播中“網(wǎng)絡(luò)結(jié)構(gòu)簇”的分布特征。受Schieber T等提出的NND概念的啟發(fā)[28],本文將網(wǎng)絡(luò)結(jié)構(gòu)看作基于度的概率分布,NND能夠度量在網(wǎng)絡(luò)中單個(gè)節(jié)點(diǎn)對(duì)于整體數(shù)據(jù)的表征程度,如式(2)。在新媒體事件中,基于用戶評(píng)論等信息行為,事件的傳播網(wǎng)絡(luò)自發(fā)形成“結(jié)構(gòu)簇”?!敖Y(jié)構(gòu)簇”的數(shù)量及其大小因不同事件而相異,但其分布是否一致具有可量化性。若事件“結(jié)構(gòu)簇”分布較為均勻則NND數(shù)值較小,若事件“結(jié)構(gòu)簇”分布具有較大差異,即事件“結(jié)構(gòu)簇”分布對(duì)于事件整體傳播網(wǎng)絡(luò)的表征性較弱,事件“結(jié)構(gòu)簇”分布較為不均勻,NND數(shù)值較高。
其次,模型能夠提取事件傳播中“內(nèi)容分布簇”的分布特征。與網(wǎng)絡(luò)結(jié)構(gòu)相異,網(wǎng)絡(luò)事件中并不存在明確的文本網(wǎng)絡(luò)結(jié)構(gòu)且各事件描述對(duì)象與內(nèi)容均不相同,文本間不存在明確的上下文關(guān)系,因此導(dǎo)致文本分布網(wǎng)絡(luò)不能直接對(duì)比,文本網(wǎng)絡(luò)不能直接沿用傳播的網(wǎng)絡(luò)結(jié)構(gòu)。本文使用基于Bert的短文本相似度度量方法對(duì)文本網(wǎng)絡(luò)進(jìn)行重構(gòu)。重構(gòu)后的網(wǎng)絡(luò)根據(jù)用戶發(fā)布文本之間的相似度對(duì)內(nèi)容分布進(jìn)行“簇”劃分,每個(gè)文本都有其歸屬的“內(nèi)容分布簇”,因此重構(gòu)后的文本分布能夠直接使用NND作為度量其一致性的手段。
最后,模型能夠提取事件網(wǎng)絡(luò)結(jié)構(gòu)規(guī)模和文本分布規(guī)模作為補(bǔ)充。由于NND本質(zhì)上是對(duì)目標(biāo)內(nèi)部一致性的度量,即“簇”與整體網(wǎng)絡(luò)之間的表征程度,因此在網(wǎng)絡(luò)結(jié)構(gòu)相似或者文本分布相似但規(guī)模差距巨大的事件無(wú)法被區(qū)分,而事件規(guī)模是網(wǎng)絡(luò)事件進(jìn)行區(qū)分的一項(xiàng)不可忽視的指標(biāo),因此研究選取EMD距離作為NND指標(biāo)的補(bǔ)充,使模型在跨事件的同時(shí)兼顧事件規(guī)模。
4.2?模型揭示了異質(zhì)新媒體事件傳播的普遍規(guī)律
本研究從“熵”的角度出發(fā),以不同維度事件“簇”分布對(duì)于事件總體的表征性對(duì)事件之間的相似度進(jìn)行度量并完成了聚類。由于是局部“簇”與總體網(wǎng)絡(luò)間的對(duì)比,即熵的對(duì)比,因此本研究模型天然具有跨事件性,即可將異質(zhì)性新媒體事件映射到熵維度直接進(jìn)行對(duì)比,而忽略其文本、網(wǎng)絡(luò)的具體差異,從而發(fā)現(xiàn)異質(zhì)性新媒體事件間的普遍規(guī)律。
首先,相較于內(nèi)容分布,事件網(wǎng)絡(luò)結(jié)構(gòu)更容易形成穩(wěn)定均勻的“結(jié)構(gòu)簇”,即相較于內(nèi)容分布維度中局部與全局的表征性關(guān)系,新媒體事件局部網(wǎng)絡(luò)結(jié)構(gòu)更能夠表征全局網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。相較于內(nèi)容分布,新媒體事件在網(wǎng)絡(luò)結(jié)構(gòu)維度具有更低的NND數(shù)值。數(shù)據(jù)角度,事件傳播的網(wǎng)絡(luò)局部特征能夠更好地表征整體網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)較為均勻,網(wǎng)絡(luò)中“結(jié)構(gòu)簇”的規(guī)模較為相近。事件與用戶交互角度,用戶在新媒體事件的評(píng)論過(guò)程中形成“結(jié)構(gòu)簇”與“內(nèi)容簇”,“結(jié)構(gòu)簇”分布較之“內(nèi)容簇”分布規(guī)模更為均勻。說(shuō)明在新媒體事件中,用戶討論內(nèi)容難以形成規(guī)模一致的“內(nèi)容簇”,即難以達(dá)成普遍的意見(jiàn)統(tǒng)一。
其次,“結(jié)構(gòu)簇”對(duì)于新媒體事件具有更好的區(qū)分度。如表3內(nèi)容所示,本研究將新媒體事件聚為4類,其中類別1特征為:“結(jié)構(gòu)簇”相對(duì)均勻,“內(nèi)容簇”差異較大;類別2特征為:“結(jié)構(gòu)簇”差異較大,“內(nèi)容簇”差異較大;類別3特征為:“結(jié)構(gòu)簇”均勻,“內(nèi)容簇”差異較小;類別4特征為:“結(jié)構(gòu)簇”差異較大,“內(nèi)容簇”差異較大。結(jié)合不同類別中對(duì)應(yīng)的具體事件可得出如下結(jié)論,當(dāng)事件為極富爭(zhēng)議性時(shí),“結(jié)構(gòu)簇”差異巨大,如類別4;當(dāng)事件易在新媒體環(huán)境中達(dá)成一致、缺少爭(zhēng)議時(shí),“結(jié)構(gòu)簇”分布均勻差異較小,如類別3突發(fā)危機(jī)事件。
4.3?基于熵的相似度度量模型是對(duì)傳統(tǒng)模型的補(bǔ)充和擴(kuò)展
本文提出的相似度度量模型并非是對(duì)現(xiàn)有相似度度量指標(biāo)的否定和取代,而是對(duì)現(xiàn)有指標(biāo)、方法的補(bǔ)充與完善。具體體現(xiàn)在以下兩個(gè)方面:
一方面,模型從熵的角度——目標(biāo)局部特征從全局的表征性來(lái)對(duì)事件傳播的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行相似度計(jì)算。這種方法天然具有可比性,即目標(biāo)對(duì)象局部與全局的表征關(guān)系無(wú)量綱,模型可以對(duì)于不同領(lǐng)域事件、不同規(guī)模事件進(jìn)行相似度對(duì)比。這是對(duì)傳統(tǒng)方法局限于特定領(lǐng)域無(wú)法進(jìn)行跨事件對(duì)比的補(bǔ)充。同時(shí),網(wǎng)絡(luò)結(jié)構(gòu)NND度量了事件網(wǎng)絡(luò)結(jié)構(gòu)的變化。事件傳播網(wǎng)絡(luò)結(jié)構(gòu)的變化暗示著事件傳播處于激化點(diǎn)或事件沉寂點(diǎn)。在網(wǎng)絡(luò)結(jié)構(gòu)層面,新媒體環(huán)境中事件的影響可被傳播廣度與傳播深度界定,NND指標(biāo)以概率分布視角對(duì)傳播廣度深度進(jìn)行了量化,使得不同類型不同結(jié)構(gòu)網(wǎng)絡(luò)可進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)特征比較。連續(xù)計(jì)算NND指標(biāo)并找出其突變點(diǎn),即能夠揭示并定位事件傳播網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)與轉(zhuǎn)折節(jié)點(diǎn),可在輿情檢測(cè)中準(zhǔn)確地預(yù)測(cè)輿情爆發(fā)點(diǎn),從而精準(zhǔn)地制定并實(shí)施輿情疏控措施。
另一方面,模型重構(gòu)了文本分布網(wǎng)絡(luò)。傳統(tǒng)的事件網(wǎng)絡(luò)結(jié)構(gòu)基于具體的用戶信息行為,網(wǎng)絡(luò)中的文本關(guān)系不明確。本文對(duì)事件文本進(jìn)行重構(gòu),在真實(shí)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上完成了文本分布網(wǎng)絡(luò)。同時(shí)針對(duì)該網(wǎng)絡(luò)的相似度計(jì)算同樣基于熵的概念,故具有跨事件可比性。模型保留了事件文本特征忽略了文本的具體內(nèi)容,因此可發(fā)現(xiàn)事件更加隱性的特征,對(duì)傳統(tǒng)方法進(jìn)行補(bǔ)充,如圖8所示。同時(shí),內(nèi)容分布NND基于事件傳播結(jié)構(gòu)的內(nèi)容相似度重構(gòu)網(wǎng)絡(luò),暗示了事件內(nèi)部輿情討論的激烈程度。在內(nèi)容分布層面,新媒體環(huán)境中事件的輿情沖突、復(fù)雜性由用戶發(fā)表內(nèi)容之間觀點(diǎn)的認(rèn)同與否共同決定。內(nèi)容分布的NND指標(biāo)在重構(gòu)內(nèi)容分布網(wǎng)絡(luò)的基礎(chǔ)上,量化了事件內(nèi)部的輿情復(fù)雜性,可揭示事件討論觀點(diǎn)沖突的關(guān)鍵點(diǎn)。連續(xù)計(jì)算內(nèi)容分布NND指標(biāo)即可揭示事件輿情變化。通過(guò)識(shí)別挖掘新媒體傳播事件中的隱性內(nèi)容,對(duì)提升輿情把控與識(shí)別能力、通過(guò)量化事件內(nèi)部輿情復(fù)雜性對(duì)新媒體事件研判等具有實(shí)踐意義。整體而言對(duì)政府、企業(yè)等部門(mén)的形象公關(guān)、重大突發(fā)事件有效的防控把握、宣傳工作開(kāi)展、政務(wù)新媒體工作部署等也具有應(yīng)用價(jià)值。
5?總?結(jié)
傳統(tǒng)網(wǎng)絡(luò)事件相似度計(jì)算模型或聚類模型局限于事件表層特征且難以構(gòu)建跨事件的統(tǒng)一相似度度量指標(biāo)。本文從網(wǎng)絡(luò)結(jié)構(gòu)、文本分布兩個(gè)維度出發(fā),結(jié)合事件規(guī)模、文本一致性、網(wǎng)絡(luò)結(jié)構(gòu)一致性等特征構(gòu)建了基于熵的跨事件網(wǎng)絡(luò)事件相似度度量模型。使用聚類方法對(duì)本模型提出的相似度方法與傳統(tǒng)方法進(jìn)行比較,結(jié)果表明本模型能夠補(bǔ)充和發(fā)現(xiàn)目前指標(biāo)的缺點(diǎn)和劣勢(shì)。
理論方面,模型對(duì)現(xiàn)有網(wǎng)絡(luò)事件相似度大量的指標(biāo)方法進(jìn)行補(bǔ)充和完善。模型基于事件網(wǎng)絡(luò)結(jié)構(gòu)熵與事件內(nèi)容分布熵捕捉事件更深層次的信息,同時(shí)模型對(duì)于熵的度量具有天然可比性,使得模型能夠完成跨事件相似度對(duì)比。模型在文本分布層面進(jìn)行文本分布網(wǎng)絡(luò)構(gòu)建,使得微博類網(wǎng)絡(luò)事件能夠在傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)之上重構(gòu)出基于內(nèi)容相似的文本分布網(wǎng)絡(luò),重構(gòu)文本上下文性關(guān)系。
實(shí)踐方面,模型提出的方法可以對(duì)日后輿情事件分析、預(yù)測(cè)、分類等領(lǐng)域提供事件特征的基本指標(biāo),這種基于熵的指標(biāo)可以對(duì)現(xiàn)有指標(biāo)進(jìn)行補(bǔ)充和修正。同時(shí),模型對(duì)于文本分布網(wǎng)絡(luò)的重構(gòu)可以進(jìn)行進(jìn)一步的擴(kuò)展和完善,使得輿情平臺(tái)或者輿情處理方法能夠更加多元化和合理化。
參考文獻(xiàn)
[1]傅湘玲,齊佳音,高威.基于微博用戶創(chuàng)作內(nèi)容的新聞線索自動(dòng)發(fā)現(xiàn)研究[J].情報(bào)學(xué)報(bào),2016,35(10):1038-1047.
[2]王彥慈.基于云計(jì)算的微博輿情流式快速自聚類方法研究[J].情報(bào)科學(xué),2017,35(8):23-27.
[3]高慧穎,魏甜,劉嘉唯.基于用戶聚類與動(dòng)態(tài)交互信任關(guān)系的好友推薦方法研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(10):66-77.
[4]吳恒,陳燕翎.基于UGC文本挖掘的游客目的地選擇信息研究——以攜程蜜月游記為例[J].情報(bào)科學(xué),2017,35(1):101-105.
[5]張海濤,唐詩(shī)曼,魏明珠,等.多維度屬性加權(quán)分析的微博用戶聚類研究[J].圖書(shū)情報(bào)工作,2018,62(24):124-133.
[6]Wu L,Hoi S C,Yu N.Semantics-preserving Bag-of-Words Models and Applications[J].IEEE Transactions on Image Processing,2010,19(7):1908-1920.
[7]Zhang W,Yoshida T,Tang X.A Comparative Study of TF*IDF,LSI and Multi-words for Text Classification[J].Expert Systems with Applications,2011,38(3):2758-2765.
[8]路永和,李焰鋒.改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J].圖書(shū)情報(bào)工作,2013,57(3):90-95.
[9]安璐,周亦文.恐怖事件情境下微博信息與評(píng)論用戶的畫(huà)像及比較[J].情報(bào)科學(xué),2020,38(4):9-16.
[10]官賽萍,靳小龍,徐學(xué)可,等.基于WMD距離與近鄰傳播的新聞評(píng)論聚類[J].中文信息學(xué)報(bào),2017,31(5):203-214.
[11]翟?shī)檴?,潘英增,胡畔,?UGC挖掘中的在線醫(yī)療社區(qū)分面體系構(gòu)建與實(shí)現(xiàn)[J].圖書(shū)情報(bào)工作,2020,64(9):114-121.
[12]Cha M,Haddadi H,Benevenuto F,et al.Measuring User Influence in Twitter:The Million Follower Fallacy[J].Icwsm,2010,10(10-17):30.
[13]Suh B,Hong L,Pirolli P,et al.Want to Be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing,2010:177-184.
[14]林云,曾振華,曾林浩.微博社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)特征對(duì)輿情信息傳播的影響研究[J].情報(bào)科學(xué),2019,37(3):55-59.
[15]Celik M,Dokuz A S.Discovering Socially Similar Users in Social Media Datasets Based on Their Socially Important Locations[J].Information Processing & Management,2018,54(6):1154-1168.
[16]Zhou X,Liang X,Du X,et al.Structure Based User Identification Across Social Networks[J].IEEE Transactions on Knowledge and Data Engineering,2018,30(6):1178-1191.
[17]Jiang L,Yang C C.User Recommendation in Healthcare Social Media By Assessing User Similarity in Heterogeneous Network[J].Artificial Intelligence in Medicine,2017,81:63-77.
[18]Li Y,Su Z,Yang J,et al.Exploiting Similarities of User Friendship Networks Across Social Networks for User Identification[J].Information Sciences,2020,506:78-98.
[19]田世海,董月文,王健.基于NRL和k-means的輿情事件聚類研究[J].情報(bào)科學(xué),2020:1-7.
[20]Miller G A.WordNet:A Lexical Database for English[J].Communications of the ACM,1995,38(11):39-41.
[21]Lee J C,Cheah Y-N.Paraphrase Detection Using Semantic Relatedness Based on Synset Shortest Path in WordNet[C]//2016 International Conference on Advanced Informatics:Concepts,Theory and Application(ICAICTA),2016:1-5.
[22]Lee Y Y,Ke H,Yen T Y,et al.Combining and Learning Word Embedding with WordNet for Semantic Relatedness and Similarity Measurement[J].Journal of the Association for Information Science and Technology,2020,71(6):657-670.
[23]Kusner M,Sun Y,Kolkin N,et al.From Word Embeddings to Document Distances[C]//International Conference on Machine Learning,2015:957-966.
[24]Landauer T K,F(xiàn)oltz P W,Laham D.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998,25(2-3):259-284.
[25]Hofmann T.Probabilistic Latent Semantic Analysis[J].arXiv Preprint arXiv:1301.6705,2013.
[26]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.
[27]Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C].IJcAI,2007:1606-1611.
[28]Schieber T,Carpi L,Diaz-Guilera A,et al.Quantification of Network Structural Dissimilarities[J].Nature Communications,2017,(8):13928.
[29]Vallender S.Calculation of the Wasserstein Distance Between Probability Distributions on the Line[J].Theory of Probability & Its Applications,1974,18(4):784-786.
[30]Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016:855-864.
[31]Maaten L V D,Hinton G.Visualizing Data Using t-SNE[J].Journal of Machine Learning Research,2008,9(11):2579-2605.
(責(zé)任編輯:孫國(guó)雷)