劉寶立 董榮勝 蔡國(guó)永
(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004)
?
H7N9疫情背景下的微博信息傳播特性研究
劉寶立董榮勝蔡國(guó)永
(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室廣西 桂林 541004)
摘要自主研制微博爬蟲(chóng)系統(tǒng)WeiboCrawler。針對(duì)2013年3月爆發(fā)的甲型H7N9流感疫情,使用該系統(tǒng)抓取了新浪微博中與該主題相關(guān)的數(shù)據(jù)集,包括用戶信息、原創(chuàng)和轉(zhuǎn)發(fā)博文信息。以原創(chuàng)博文為根節(jié)點(diǎn),基于轉(zhuǎn)發(fā)關(guān)系采用遞歸方法構(gòu)造博文轉(zhuǎn)發(fā)樹(shù),為了嚴(yán)格、清晰地描述微博信息傳播過(guò)程,對(duì)博文轉(zhuǎn)發(fā)樹(shù)進(jìn)行形式化定義,進(jìn)而研究微博信息傳播過(guò)程及轉(zhuǎn)發(fā)樹(shù)的大小、深度、寬度等結(jié)構(gòu)特性。結(jié)果表明:博文轉(zhuǎn)發(fā)樹(shù)的結(jié)構(gòu)特性分布符合長(zhǎng)尾分布,博文轉(zhuǎn)發(fā)樹(shù)具有深度小、密度大的結(jié)構(gòu)特性;博文流行程度取決于博文轉(zhuǎn)發(fā)樹(shù)的寬度,而與博文轉(zhuǎn)發(fā)樹(shù)的深度無(wú)關(guān);在博文轉(zhuǎn)發(fā)的不同階段,信息傳播表現(xiàn)出相似的傳播特性??紤]微博平臺(tái)信息傳播的特點(diǎn)以及博文轉(zhuǎn)發(fā)樹(shù)的結(jié)構(gòu)特性,結(jié)合Galton-Watson分支過(guò)程,給出一種新的信息流傳播模型,使用該模型對(duì)博文轉(zhuǎn)發(fā)樹(shù)的大小、深度、寬度三項(xiàng)結(jié)構(gòu)特性進(jìn)行仿真,發(fā)現(xiàn)該模型能較準(zhǔn)確地體現(xiàn)信息傳播的結(jié)構(gòu)特性。
關(guān)鍵詞轉(zhuǎn)發(fā)信息傳播結(jié)構(gòu)特性社交網(wǎng)絡(luò)傳播模型
0引言
社交媒體作為傳播觀點(diǎn)和意見(jiàn)的重要平臺(tái)在近年來(lái)得到了巨大的發(fā)展,其中最具代表性的是微博客服務(wù)。微博客服務(wù)為信息傳播提供了一種獨(dú)特的方式,用戶在使用微博客推送消息時(shí),消息受到字?jǐn)?shù)限制。在新浪微博和twitter中,用戶推送的消息內(nèi)容不能超過(guò)140個(gè)字符,微博客用戶之間的關(guān)系無(wú)需一定是雙向關(guān)注關(guān)系,也就是說(shuō),如果用戶A關(guān)注了用戶B,無(wú)需用戶B也關(guān)注用戶A,用戶A的個(gè)人主頁(yè)中就會(huì)顯示用戶B發(fā)布的博文。新浪微博作為在中國(guó)大陸最受歡迎的社交媒體之一,自從2009年發(fā)布以來(lái),積累了巨大的用戶群,截止到2013年12月,新浪微博的月活躍用戶(MAU)數(shù)量和日活躍用戶(DAU)數(shù)量分別達(dá)到了1.291億和6160萬(wàn)[1]。如此巨大的用戶數(shù)量以及新浪微博本身便于信息傳播的特點(diǎn),使得新浪微博中信息的傳播和共享達(dá)到了前所未有的高度。
微博客服務(wù)具有用戶數(shù)量巨大、通信迅速和跨平臺(tái)等特性,這些特性使其迅速成為社會(huì)熱點(diǎn)事件期間信息傳播的重要媒介。對(duì)微博客服務(wù)中的信息傳播進(jìn)行的研究有很多[2-5],但是有一個(gè)方面沒(méi)有得到應(yīng)有的關(guān)注,即微博客平臺(tái)中信息傳播的結(jié)構(gòu)特性研究,也就是微博客服務(wù)中信息傳播的實(shí)際機(jī)制是怎樣的。
社交媒體中的信息傳播具有一定的結(jié)構(gòu)特性,結(jié)構(gòu)特性指的是信息傳播的深度、廣度等特性,文獻(xiàn)[6]研究了網(wǎng)絡(luò)連鎖信中信息傳播的結(jié)構(gòu)特性。那么在微博客服務(wù)中,特別是在特定的應(yīng)急事件背景下,信息傳播的結(jié)構(gòu)特性是怎樣的呢?若能構(gòu)建一種相應(yīng)的信息傳播模型來(lái)對(duì)這些結(jié)構(gòu)特性進(jìn)行仿真,顯然是具有價(jià)值的。研究信息傳播的結(jié)構(gòu)特性為信息傳播模型的設(shè)計(jì)提供了參考,也能夠?yàn)檩浨楸O(jiān)控、應(yīng)急事件響應(yīng)提供有價(jià)值的信息。本文以2013年3月底中國(guó)大陸爆發(fā)的甲型H7N9流感疫情為主題背景。研究的微博數(shù)據(jù)集來(lái)源于新浪微博,包括與H7N9流感相關(guān)的原創(chuàng)微博數(shù)據(jù)、轉(zhuǎn)發(fā)微博數(shù)據(jù)以及所有的原創(chuàng)用戶和轉(zhuǎn)發(fā)用戶信息。為了研究微博信息傳播的結(jié)構(gòu)特性,基于微博轉(zhuǎn)發(fā)功能遞歸構(gòu)造了博文轉(zhuǎn)發(fā)樹(shù),并對(duì)其進(jìn)行了形式化定義。在此基礎(chǔ)上對(duì)微博信息傳播的過(guò)程和結(jié)構(gòu)特性進(jìn)行了實(shí)證研究,研究發(fā)現(xiàn)博文轉(zhuǎn)發(fā)樹(shù)結(jié)構(gòu)特性表現(xiàn)為傳播寬度大、濃度密集;博文最終的流行程度取決于博文轉(zhuǎn)發(fā)樹(shù)的寬度,而與轉(zhuǎn)發(fā)樹(shù)的深度無(wú)關(guān)。以基本結(jié)構(gòu)特性分析為基礎(chǔ),對(duì)博文轉(zhuǎn)發(fā)樹(shù)中不同層次的博文轉(zhuǎn)發(fā)進(jìn)行了研究,發(fā)現(xiàn)信息傳播在不同的階段表現(xiàn)出了相似的傳播特性。以結(jié)構(gòu)特性研究為基礎(chǔ),結(jié)合Galton-Watson分支過(guò)程構(gòu)建了一種新的信息傳播模型,使用該模型對(duì)博文轉(zhuǎn)發(fā)樹(shù)的結(jié)構(gòu)特性進(jìn)行了仿真,得到了與實(shí)際情況較吻合的效果。
1相關(guān)工作
社交媒體中的信息傳播已經(jīng)成為了一個(gè)熱門(mén)的研究領(lǐng)域。Lerman等[7]對(duì)Twitter和Digg社交網(wǎng)絡(luò)上的信息傳播進(jìn)行了實(shí)證分析發(fā)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)會(huì)影響信息流的傳播動(dòng)力學(xué)特性,具體來(lái)說(shuō)由于Digg相比于Twitter具有更濃密的網(wǎng)絡(luò)結(jié)構(gòu),因此Digg中信息傳播的速度更快,而Twitter中信息傳播的更遠(yuǎn);Suh等[8]對(duì)影響twitter博文轉(zhuǎn)發(fā)率的因素進(jìn)行了研究,發(fā)現(xiàn)在博文的內(nèi)容特征方面,URLs和Hashtag與博文受到轉(zhuǎn)發(fā)具有很強(qiáng)的關(guān)系。
微博客服務(wù)在近年來(lái)政治活動(dòng)期間的信息傳播中扮演了重要的角色,其中最著名的例子是奧巴馬總統(tǒng)在2008年的選舉中成功的利用了社交媒體。有關(guān)這方面的研究工作也有很多,Stieglitz等[9]研究了Twitter中與政治相關(guān)的微博中的情感信息是否會(huì)影響其轉(zhuǎn)發(fā)速率;Starbird等[10]研究了2011年埃及政治起義期間微博信息傳播活動(dòng)。
應(yīng)急事件期間的通信是非常重要的,近年來(lái),微博客服務(wù)作為信息傳播的重要媒介,為各種應(yīng)急事件期間的有效通信發(fā)揮了重要的作用。Li等[11]以2011年日本福島地震和海嘯后的核輻射危機(jī)為背景,研究了具有警告和安撫意味的相關(guān)微博轉(zhuǎn)發(fā)模式,發(fā)現(xiàn)當(dāng)政府部門(mén)發(fā)布比普通民眾更多的具有安撫作用的微博后,那么政府部門(mén)發(fā)布的信息會(huì)慢慢失去影響力;有關(guān)地震災(zāi)害期間網(wǎng)民如何使用社交媒體進(jìn)行應(yīng)急響應(yīng)的研究包括[12,13];另外Mendoza等[14]探索了2011年智力發(fā)生地震后twitter用戶的行為,特別研究了真實(shí)消息和錯(cuò)誤謠言的傳播情況。
社交媒體信息傳播還包括另一個(gè)研究領(lǐng)域,也就是對(duì)建立信息傳播分析模型的研究。Galuba等[15]研究了Twitter中含有URL信息的傳播,并提出了使用LT(線性閾值模型)模型來(lái)對(duì)用戶會(huì)轉(zhuǎn)發(fā)哪些URL信息進(jìn)行預(yù)測(cè);Yang等[16]基于LT模型構(gòu)建了LIM(線性影響力模型)來(lái)預(yù)測(cè)信息傳播過(guò)程中節(jié)點(diǎn)之間的交互;Cha等[17]引進(jìn)級(jí)聯(lián)模型研究Fickr社交網(wǎng)絡(luò)中信息的傳播。
2數(shù)據(jù)獲取與說(shuō)明
本文的數(shù)據(jù)集是與2013年3月底中國(guó)大陸爆發(fā)的甲型H7N9流感相關(guān)的新浪微博數(shù)據(jù)。數(shù)據(jù)的獲取采用自主研制的微博爬蟲(chóng)系統(tǒng)WeiboCrawler并結(jié)合新浪微博開(kāi)放API完成,新浪微博提供開(kāi)放的API,用戶可以在經(jīng)過(guò)新浪微博開(kāi)放平臺(tái)認(rèn)證的情況下獲得相應(yīng)數(shù)據(jù)獲取權(quán)限,這一點(diǎn)與Twitter提供的API類似。
微博爬蟲(chóng)系統(tǒng)獲取數(shù)據(jù)的一個(gè)重要前提是微博的模擬登陸過(guò)程。新浪微博模擬登錄過(guò)程是WeiboCrawler與新浪微博服務(wù)器之間建立數(shù)據(jù)請(qǐng)求連接的前提。微博登錄過(guò)程中密碼加密采用的是RSA公鑰加密算法。具體加密過(guò)程如下:
username_=urllib.quote(username)
username=base64.encodestring(username)[:-1]
rsaPublickey=int(pubkey, 16)
key=rsa.PublicKey(rsaPublickey, 65537)
message=str(servertime) +′ ′ +str(nonce) + ′ ′ +str(password)
passwd=rsa.encrypt(message,key)
passwd=binascii.b2a_hex(passwd)
對(duì)用戶名和密碼進(jìn)行加密,在建立請(qǐng)求連接時(shí)作為授權(quán)信息發(fā)送給服務(wù)器,獲取請(qǐng)求返回的內(nèi)容,從而實(shí)現(xiàn)了模擬登錄。
圖1展示了WeiboCrawler系統(tǒng)的數(shù)據(jù)獲取流程。數(shù)據(jù)獲取流程分為三步:(1) 首先使用WeiboCrawler系統(tǒng)向新浪微博高級(jí)搜索頁(yè)面發(fā)送搜索請(qǐng)求,然后通過(guò)關(guān)鍵詞匹配找出與H7N9相關(guān)的所有原創(chuàng)博文頁(yè)面,接下來(lái)從頁(yè)面中提取出所有的原創(chuàng)博文ID;(2) 以上一步中得到的原創(chuàng)博文ID為線索,調(diào)用新浪微博API中的statuses/show()接口,通過(guò)該接口可以得到每一條原創(chuàng)博文信息及其對(duì)應(yīng)的博主信息;接下來(lái)調(diào)用API中的statuses/repost_timeline()接口,以原創(chuàng)博文作為根節(jié)點(diǎn),逐層遍歷當(dāng)前博文的轉(zhuǎn)發(fā)博文及其用戶信息,同時(shí)提取博文間的轉(zhuǎn)發(fā)關(guān)系;(3) 最后調(diào)用friendships/show()接口獲取存在轉(zhuǎn)發(fā)關(guān)系的用戶之間的關(guān)系類型,并根據(jù)博文轉(zhuǎn)發(fā)關(guān)系構(gòu)建原創(chuàng)博文的轉(zhuǎn)發(fā)樹(shù)。
圖1 數(shù)據(jù)獲取流程圖
數(shù)據(jù)集合的描述性信息如表1所示。最終得到的數(shù)據(jù)集合包括52 679條原創(chuàng)博文、1 728 850條轉(zhuǎn)發(fā)博文,博文信息屬性包括博文ID、博文用戶ID、博文創(chuàng)建時(shí)間、文本信息、博文獲得的轉(zhuǎn)發(fā)次數(shù)以及評(píng)論次數(shù)等屬性;另外還包括1 314 778個(gè)用戶信息,用戶信息屬性包括ID、地理位置、帳號(hào)注冊(cè)時(shí)間、粉絲數(shù)量、好友數(shù)量以及發(fā)表的博文數(shù)量等屬性。
表1 數(shù)據(jù)集合描述
3博文轉(zhuǎn)發(fā)樹(shù)形式化定義
本部分對(duì)博文轉(zhuǎn)發(fā)樹(shù)進(jìn)行形式化定義。每一棵博文轉(zhuǎn)發(fā)樹(shù)都由某一條原創(chuàng)博文及其對(duì)應(yīng)的轉(zhuǎn)發(fā)博文組成。首先給出博文的結(jié)構(gòu)定義,然后給出博文轉(zhuǎn)發(fā)樹(shù)的形式化定義。博文集合用TS表示,其中包括原創(chuàng)博文OT和轉(zhuǎn)發(fā)博文RT。博文轉(zhuǎn)發(fā)樹(shù)集合用TRTS表示(共有22 364棵博文轉(zhuǎn)發(fā)樹(shù))。
3.1博文結(jié)構(gòu)
博文分為原創(chuàng)博文和轉(zhuǎn)發(fā)博文,下面分別對(duì)原創(chuàng)博文OT和轉(zhuǎn)發(fā)博文RT的結(jié)構(gòu)進(jìn)行形式化定義:
定義1
OT=〈id,user,time,text,repostCount,commentCount〉
其中:
id表示原創(chuàng)博文的編號(hào),每一條原創(chuàng)博文都有一條唯一的編號(hào);
user表示博文OT的博主;
time為日期類型數(shù)值,表示OT創(chuàng)建的時(shí)間;
text為文本類型數(shù)據(jù),表示OT的內(nèi)容;
repostCount,表示博文OT被轉(zhuǎn)發(fā)的次數(shù);
commentCount,表示博文OT獲得的評(píng)論次數(shù);
定義2
RT=〈st_id,id,user,time,text,repostCount,commentCount〉
其中:
st_id(sourcetweetid)表示與該轉(zhuǎn)發(fā)博文具有直接轉(zhuǎn)發(fā)關(guān)系的源博文(可能為轉(zhuǎn)發(fā)博文,也可能為原創(chuàng)博文)的編號(hào);
id表示該轉(zhuǎn)發(fā)博文的編號(hào),每一條轉(zhuǎn)發(fā)博文都有一條唯一的編號(hào);
user表示博文RT的博主;
time為日期類型數(shù)值,表示RT創(chuàng)建的時(shí)間;
text為文本類型數(shù)據(jù),表示RT的內(nèi)容;
repostCount表示博文RT被轉(zhuǎn)發(fā)的次數(shù);
commentCount表示博文RT獲得的評(píng)論次數(shù);
3.2博文轉(zhuǎn)發(fā)樹(shù)TRT
為了研究信息傳播結(jié)構(gòu)特性,遞歸構(gòu)造每一條原創(chuàng)博文的博文轉(zhuǎn)發(fā)樹(shù),該博文轉(zhuǎn)發(fā)樹(shù)是有向的并且屬于根樹(shù),如圖2所示。樹(shù)的根節(jié)點(diǎn)(OT)表示原創(chuàng)博文,樹(shù)中的其他節(jié)點(diǎn)(RTi)表示該原創(chuàng)博文的所有轉(zhuǎn)發(fā)博文。
圖2 博文轉(zhuǎn)發(fā)樹(shù)
圖2是博文轉(zhuǎn)發(fā)樹(shù)的一個(gè)實(shí)例,其中:
OT∈{OT|(OT∈TS)∧(OT.repostCount>0)}
其中,RTi表示該原創(chuàng)博文的所有轉(zhuǎn)發(fā)博文,博文轉(zhuǎn)發(fā)樹(shù)有四個(gè)重要的結(jié)構(gòu)特性,即樹(shù)的大小(size)、樹(shù)的深度(depth)、樹(shù)的寬度(width)、樹(shù)的度(degree)。
下面給出博文轉(zhuǎn)發(fā)樹(shù)TRT∈(TRTS)的形式化定義:
定義3
TRT=〈N,E,Ndegree,size,depth,level,Li_d,width,degree〉
其中:
N表示轉(zhuǎn)發(fā)樹(shù)中的節(jié)點(diǎn),對(duì)應(yīng)博文;
E表示有向邊,對(duì)應(yīng)轉(zhuǎn)發(fā)關(guān)系;
Ndegree表示節(jié)點(diǎn)度,指的是節(jié)點(diǎn)具有的孩子數(shù)量,也就是某一條博文的直接轉(zhuǎn)發(fā)數(shù)量;
size表示轉(zhuǎn)發(fā)樹(shù)的大小,對(duì)應(yīng)轉(zhuǎn)發(fā)樹(shù)中的博文總數(shù),size=OT.repostCount+1;
depth表示轉(zhuǎn)發(fā)樹(shù)的深度,指的是從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的最長(zhǎng)路徑長(zhǎng)度;
level為博文轉(zhuǎn)發(fā)樹(shù)的層次,其中0≤level≤depth;
Li_d指轉(zhuǎn)發(fā)樹(shù)的層次度,也就是轉(zhuǎn)發(fā)樹(shù)第i層節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度;
width表示轉(zhuǎn)發(fā)樹(shù)的寬度,寬度等于具有最多節(jié)點(diǎn)數(shù)量的那一層的節(jié)點(diǎn)數(shù)量和;
degree表示轉(zhuǎn)發(fā)樹(shù)的度,指的是轉(zhuǎn)發(fā)樹(shù)中節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度;
由上述博文轉(zhuǎn)發(fā)樹(shù)的定義可知,圖2中的轉(zhuǎn)發(fā)樹(shù)的大小為9,樹(shù)的深度為3,樹(shù)的寬度為5,樹(shù)的度為3(節(jié)點(diǎn)RT1的節(jié)點(diǎn)度),RT1處于博文轉(zhuǎn)發(fā)樹(shù)的第1層,該博文轉(zhuǎn)發(fā)樹(shù)的第一層的層次度為3。
4信息傳播結(jié)構(gòu)特性實(shí)證研究
本部分對(duì)信息傳播的結(jié)構(gòu)特性進(jìn)行實(shí)證研究,博文轉(zhuǎn)發(fā)樹(shù)提供了有關(guān)信息傳播的重要描述性信息,博文轉(zhuǎn)發(fā)樹(shù)的大小反映博文的受歡迎程度相關(guān);博文轉(zhuǎn)發(fā)樹(shù)的深度與博文的穿透力相關(guān);博文轉(zhuǎn)發(fā)樹(shù)的寬度與博文的擴(kuò)散能力相關(guān);博文轉(zhuǎn)發(fā)樹(shù)度的分布反映轉(zhuǎn)發(fā)樹(shù)中的關(guān)鍵節(jié)點(diǎn),因?yàn)橐豢貌┪霓D(zhuǎn)發(fā)樹(shù)的度指的是轉(zhuǎn)發(fā)樹(shù)中節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度。
H7N9數(shù)據(jù)集合中共包含22 364棵博文轉(zhuǎn)發(fā)樹(shù)(不考慮未被轉(zhuǎn)發(fā)的原創(chuàng)博文,也就是轉(zhuǎn)發(fā)次數(shù)為0的原創(chuàng)博文沒(méi)有考慮),每一棵轉(zhuǎn)發(fā)樹(shù)都可以被看作是一棵有向樹(shù),信息從一個(gè)節(jié)點(diǎn)傳播到另一個(gè)節(jié)點(diǎn)。這里主要關(guān)注兩個(gè)問(wèn)題:(1) 信息傳播過(guò)程的結(jié)構(gòu)特性有哪些?(2) 信息的傳播過(guò)程是否具有階段依賴性,即信息的傳播在轉(zhuǎn)發(fā)樹(shù)的不同層次中是否會(huì)表現(xiàn)出不同的特征?我們發(fā)現(xiàn),與文獻(xiàn)[6]中的寬度小、深度大的傳播樹(shù)型結(jié)構(gòu)特征相比,H7N9博文轉(zhuǎn)發(fā)樹(shù)呈現(xiàn)出密度大、深度小的特征;另外信息的傳播過(guò)程不具有階段依賴性。
4.1博文轉(zhuǎn)發(fā)樹(shù)的結(jié)構(gòu)特性
根據(jù)3.2節(jié)中對(duì)博文轉(zhuǎn)發(fā)樹(shù)的形式化定義,對(duì)博文轉(zhuǎn)發(fā)樹(shù)的大小、寬度、深度、度四項(xiàng)結(jié)構(gòu)特征屬性進(jìn)行了統(tǒng)計(jì)分析。
圖3-圖6分別顯示了博文轉(zhuǎn)發(fā)樹(shù)的大小、寬度、深度和度四項(xiàng)結(jié)構(gòu)特征屬性的分布情況。
圖3 博文轉(zhuǎn)發(fā)樹(shù)大小分布 圖4 博文轉(zhuǎn)發(fā)樹(shù)寬度分布
圖5 博文轉(zhuǎn)發(fā)樹(shù)深度分布 圖6 博文轉(zhuǎn)發(fā)樹(shù)度分布
四項(xiàng)結(jié)構(gòu)特征屬性的統(tǒng)計(jì)公式依次為(說(shuō)明:|A|表示集合A中元素的數(shù)量):
(1)
(2)
(3)
(4)
其中,|TRTS|表示轉(zhuǎn)發(fā)樹(shù)集合的大小,對(duì)于任一點(diǎn)坐標(biāo)(k,PTRT.size=k),其統(tǒng)計(jì)意義是(以式(1)為例):轉(zhuǎn)發(fā)樹(shù)大小為k的轉(zhuǎn)發(fā)樹(shù)在所有轉(zhuǎn)發(fā)樹(shù)中所占的比例。
對(duì)數(shù)據(jù)進(jìn)行了線性擬合,線性擬合采用的冪律分布函數(shù)為:p(X=x)=c·x-γ,其中c,γ∈R+,x∈N+,置信度設(shè)為95%。
首先從四項(xiàng)特征屬性的分布情況可以看出其均具有長(zhǎng)尾分布特征,這說(shuō)明絕大多數(shù)的轉(zhuǎn)發(fā)樹(shù)的大小、寬度、深度、度都非常小,屬性值很大的轉(zhuǎn)發(fā)樹(shù)只占非常小的一部分。從圖3、圖4可以看出博文轉(zhuǎn)發(fā)樹(shù)的大小和寬度均服從冪律分布,冪律分布指數(shù)分別為1.447、1.507。冪律分布本身并沒(méi)有什么特別之處,但是這兩者的冪律指數(shù)很相似,這表明博文轉(zhuǎn)發(fā)樹(shù)的大小會(huì)隨著樹(shù)的寬度的變大而增大。可以將樹(shù)的寬度看做擴(kuò)散系數(shù),將樹(shù)的大小用來(lái)衡量博文的受歡迎程度,那么可知擴(kuò)散系數(shù)會(huì)影響博文最終的受歡迎程度,圖7很好地表明了博文轉(zhuǎn)發(fā)樹(shù)的這一特點(diǎn)。從圖8可以看出博文轉(zhuǎn)發(fā)樹(shù)的深度與博文轉(zhuǎn)發(fā)樹(shù)的大小無(wú)關(guān)。博文轉(zhuǎn)發(fā)樹(shù)具有的另一個(gè)特點(diǎn)是深度很小,在22 364棵博文轉(zhuǎn)發(fā)樹(shù)中,有77%的博文轉(zhuǎn)發(fā)樹(shù)的深度都不超過(guò)2。結(jié)合這四項(xiàng)結(jié)構(gòu)特征屬性分布可知,對(duì)于博文轉(zhuǎn)發(fā)樹(shù)集合中大小、寬度、度都很大的那一部分轉(zhuǎn)發(fā)樹(shù)來(lái)說(shuō),它們的深度很淺,這體現(xiàn)了博文轉(zhuǎn)發(fā)樹(shù)具有密度大的特點(diǎn)。大量的節(jié)點(diǎn)都聚集在樹(shù)的有限的幾個(gè)層次中,另外博文轉(zhuǎn)發(fā)樹(shù)深度小、密度大的特點(diǎn)也體現(xiàn)了微博平臺(tái)中信息傳播的有效性,即信息擴(kuò)散到大量的節(jié)點(diǎn)后迅速消散衰減。
圖7 博文轉(zhuǎn)發(fā)樹(shù)的大小與寬度的關(guān)系圖8 博文轉(zhuǎn)發(fā)樹(shù)的大小與深度的關(guān)系
4.2信息傳播的階段無(wú)關(guān)特性
在4.1節(jié)中對(duì)基本結(jié)構(gòu)特性研究的基礎(chǔ)上,本節(jié)研究信息傳播是否與傳播階段相關(guān),也就是在不同的階段,信息傳播過(guò)程是否會(huì)表現(xiàn)出不同的特性。圖9展示了博文轉(zhuǎn)發(fā)樹(shù)不同層次的層次度(即Li_d,某一層中節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度)分布。由于大多數(shù)的博文轉(zhuǎn)發(fā)樹(shù)的深度都很小,因此只給出了博文轉(zhuǎn)發(fā)樹(shù)第0層(根節(jié)點(diǎn)所在的層次)到第3層的度分布情況。
圖9 博文轉(zhuǎn)發(fā)樹(shù)的不同層次度分布
對(duì)于任一點(diǎn)坐標(biāo)(k,P(k|level=i)),統(tǒng)計(jì)公式如下:
(5)
其中i∈{0,1,2,3},概率P(k|level=i)表示具有第i層且該層層次度為k的轉(zhuǎn)發(fā)樹(shù)在所有的轉(zhuǎn)發(fā)樹(shù)中所占的比例。第0層到第3層的冪律分布指數(shù)依次為1.531、1.403、1.487和1.484。從圖9中首先可以看出具有大量孩子的節(jié)點(diǎn)很少會(huì)出現(xiàn)在樹(shù)的深層次中;另外由不同層次的冪律分布指數(shù)可知,隨著樹(shù)的層次的加深,冪律指數(shù)的分布并沒(méi)有太大的變化,這與文獻(xiàn)[18]中所提到隨著樹(shù)的深度的增加冪律指數(shù)分布會(huì)變得更加“陡峭”的現(xiàn)象不同,體現(xiàn)了該數(shù)據(jù)集中的微博信息傳播在不同的階段的傳播機(jī)制不會(huì)有太大的變化。我們認(rèn)為導(dǎo)致這種現(xiàn)象的原因一方面是不同的社交平臺(tái)的機(jī)制不同,另一方面是由于H7N9疫情具有突發(fā)性的特點(diǎn),這一特征可以為微博平臺(tái)中信息傳播預(yù)測(cè)模型的設(shè)計(jì)提供有價(jià)值的參考。
5信息傳播仿真模型
微博空間信息傳播過(guò)程構(gòu)成了博文轉(zhuǎn)發(fā)樹(shù)集合,博文轉(zhuǎn)發(fā)樹(shù)的結(jié)構(gòu)特性表現(xiàn)為深度小、密度大。結(jié)合信息傳播的網(wǎng)絡(luò)結(jié)構(gòu)特性和微博平臺(tái)信息傳播的特征,本部分構(gòu)建一個(gè)基于Galton-Watson[19]分支過(guò)程的新的信息傳播模型對(duì)博文轉(zhuǎn)發(fā)樹(shù)的結(jié)構(gòu)特性進(jìn)行仿真。
5.1模型構(gòu)建
Galton-Watson分支過(guò)程是概率論中生成隨機(jī)樹(shù)的一個(gè)經(jīng)典模型,是隨機(jī)圖理論中的重要部分,它曾被成功地用來(lái)進(jìn)行家族姓氏演變消亡過(guò)程的模擬[20]。家族姓氏演變消亡的過(guò)程與微博平臺(tái)信息傳播的過(guò)程具有很大的相似之處,一個(gè)家族中的男性控制著家族姓氏的演變消亡,而在微博平臺(tái)中信息的傳播依賴于轉(zhuǎn)發(fā)博文的用戶。因此選擇采用Galton-Watson過(guò)程來(lái)對(duì)微博信息傳播進(jìn)行仿真。但微博平臺(tái)中的信息傳播與家族姓氏的演變存在一個(gè)關(guān)鍵的不同,在微博平臺(tái)中信息的傳播具有快速擴(kuò)散、迅速消亡的特點(diǎn),而家族姓氏演變消亡的過(guò)程則要慢得多。考慮到微博平臺(tái)信息傳播這一關(guān)鍵特性,在仿真模型中考慮在特定情況下結(jié)束信息擴(kuò)散過(guò)程。
綜合以上考慮,構(gòu)建如下信息傳播模型:
(1) 設(shè)P(m)是關(guān)于一系列獨(dú)立同分布的固定概率;
(2) 每一棵博文轉(zhuǎn)發(fā)樹(shù)TRT的形成起始于根節(jié)點(diǎn),并以離散的步驟進(jìn)行。在形成博文轉(zhuǎn)發(fā)樹(shù)的第i層時(shí),第i層的每一個(gè)葉子節(jié)點(diǎn)按照概率P(m)獨(dú)立生成一定數(shù)量的孩子節(jié)點(diǎn),即葉子節(jié)點(diǎn)具有m個(gè)孩子的概率為P(m);
(3) 當(dāng)m=0時(shí),N是一個(gè)葉子節(jié)點(diǎn),當(dāng)m>0時(shí),將節(jié)點(diǎn)N加入到博文轉(zhuǎn)發(fā)樹(shù)的第i+1層;
(4) 引入一個(gè)信息傳播結(jié)束概率k,表示到達(dá)博文轉(zhuǎn)發(fā)樹(shù)第n層時(shí)信息結(jié)束傳播的概率,即博文轉(zhuǎn)發(fā)樹(shù)能夠到達(dá)第n層的概率pn如下:
pn=k(1-k)n-1
(6)
由以上定義的模型可知,該模型包含兩個(gè)參數(shù):分布概率P和信息傳播結(jié)束概率k。對(duì)于分布概率P(m),使用最大似然估計(jì)法進(jìn)行計(jì)算,設(shè)T(x)為該模型下生成博文轉(zhuǎn)發(fā)樹(shù)x的概率,f(m,x)為博文轉(zhuǎn)發(fā)樹(shù)x中具有m個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)量,P(m)為博文轉(zhuǎn)發(fā)樹(shù)x中具有m個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)概率,則可得如下等式:
T(x)=∏mP(m)f(m,x)
(7)
由式(7)有如下對(duì)數(shù)似然函數(shù):
(8)
根據(jù)最大似然估計(jì)法對(duì)P(m)求導(dǎo)得:
(9)
從式(9)可知P(m)等于博文轉(zhuǎn)發(fā)樹(shù)中具有m個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)比例。對(duì)于概率k,計(jì)算方法如下:將公式pn=k(1-k)n-1與博文轉(zhuǎn)發(fā)樹(shù)的深度分布進(jìn)行擬合,擬合結(jié)果如圖10所示,得到k的值為0.46。
圖10 博文轉(zhuǎn)發(fā)深度擬合
5.2模型驗(yàn)證
根據(jù)5.1節(jié)中對(duì)信息傳播模型的定義,本部分對(duì)模型進(jìn)行驗(yàn)證。量化后的參數(shù)P(m)如表2所示,由于不同的孩子節(jié)點(diǎn)數(shù)量值較多,此處只給出占比例較大的部分。參數(shù)k的值為0.46。
表2 參數(shù)P(m)
將量化后的參數(shù)代入傳播模型進(jìn)行仿真,得到生成的博文轉(zhuǎn)發(fā)樹(shù)結(jié)構(gòu)特性數(shù)據(jù)集合,共22 364棵博文轉(zhuǎn)發(fā)樹(shù),仿真結(jié)果如圖11-圖13所示。
圖11 博文轉(zhuǎn)發(fā)樹(shù)大小分布仿真結(jié)果圖12 博文轉(zhuǎn)發(fā)樹(shù)寬度分布仿真結(jié)果
圖13 博文轉(zhuǎn)發(fā)樹(shù)深度分布仿真結(jié)果
仿真實(shí)驗(yàn)采用的是Matlab工具,從圖11-圖13可以看出博文轉(zhuǎn)發(fā)樹(shù)的大小、寬度和深度分布均服從冪律分布,在這里采用與4.1節(jié)部分同樣的方法對(duì)數(shù)據(jù)進(jìn)行了線性擬合。線性擬合采用的冪律分布函數(shù)為:p(X=x)=c·x-γ,其中c,γ∈R+,x∈N+,置信度設(shè)為95%。仿真得到的博文轉(zhuǎn)發(fā)樹(shù)大小、寬度和深度冪律指數(shù)依次為1.412、1.464和3.640,這與真實(shí)博文轉(zhuǎn)發(fā)樹(shù)中的冪律指數(shù)(實(shí)際博文轉(zhuǎn)發(fā)樹(shù)大小、寬度、深度冪律指數(shù)依次為1.447、1.507和3.976)分布較為吻合,這說(shuō)明該傳播模型能較準(zhǔn)確的模擬真實(shí)的信息傳播情況。
6結(jié)語(yǔ)
本文以2013年3月底中國(guó)大陸爆發(fā)的甲型H7N9流感疫情為主題背景,微博數(shù)據(jù)集合來(lái)源于新浪微博,利用博文之間的轉(zhuǎn)發(fā)關(guān)系,構(gòu)造了每一條原創(chuàng)博文的博文轉(zhuǎn)發(fā)樹(shù),分析了H7N9疫情期間新浪微博中信息傳播的結(jié)構(gòu)特性。對(duì)博文轉(zhuǎn)發(fā)樹(shù)的四項(xiàng)結(jié)構(gòu)特征屬性進(jìn)行研究發(fā)現(xiàn)博文轉(zhuǎn)發(fā)樹(shù)具有密度大、深度小的結(jié)構(gòu)特性,博文最終的流行程度受博文轉(zhuǎn)發(fā)樹(shù)寬度的影響,微博信息傳播在不同的傳播階段表現(xiàn)出了相似的傳播特性。根據(jù)真實(shí)數(shù)據(jù)集合表現(xiàn)出的結(jié)構(gòu)特性,結(jié)合Galton-Watson分支過(guò)程構(gòu)建了一種新的微博信息傳播模型,使用該模型進(jìn)行仿真得到的結(jié)果較準(zhǔn)確地反映了信息傳播的結(jié)構(gòu)特性。這些發(fā)現(xiàn)能夠?yàn)槲⒉┢脚_(tái)中信息傳播預(yù)測(cè)、輿情監(jiān)控引導(dǎo)和應(yīng)急事件響應(yīng)提供有價(jià)值的信息。
參考文獻(xiàn)
[1] 新浪微博關(guān)鍵數(shù)據(jù):月活躍用戶[EB/OL].http://tech.qq.com/a/20140315/004999.htm.
[2]ZhengbiaoGuo,ZhitangLi,HaoTu.SinaMicroblog:AnInformation-drivenOnlineSocialNetwork[C]//InternationalConferenceonCyberworlds,2011:160-167.
[3]DongWang,HosungPark,GaogangXie,etal.AGenealogyofInformationSpreadingonMicroblogs:aGalton-Watson-basedExplicativeModel[C]//ProceedingsofIEEEINFOCOM,2013:2391-2399.
[4]EytanBakshy,ItamarRosenn,CameronMarlow,etal.TheRoleofSocialNetworksinInformationDiffusion[C]//Proceedingsofthe21stInternationalConferenceonWorldWideWeb,2012:519-528.
[5]PengyiFan,PeiLi,ZhihongJiang,etal.MeasurementandAnalysisofTopologyandInformationPropagationonSina-Microblog[C]//IEEEInternationalConferenceonIntelligenceandSecurityInformatics,2011:396-401.
[6]DavidLiben-Nowell,JonKleinberg.TracinginformationflowonaglobalscaleusingInternetchain-letterdata[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2008,105(12):4633-4638.
[7]KristinaLerman,RumiGhosh.InformationContagion:AnEmpiricalStudyoftheSpreadofNewsonDiggandTwitterSocialNetworks[C]//ProceedingsoftheFourthInternationalAAAIConferenceonWeblogsandSocialMedia,2010:90-97.
[8]BongwonSuh,LichanHong,PeterPirolli,etal.WanttobeRetweeted?LargeScaleAnalyticsonFactorsImpactingRetweetinTwitterNetwork[C]//IEEESecondInternationalConferenceonSocialComputing,2010:177-184.
[9]StefanStieglitz,LinhDangxuan.PoliticalCommunicationandInfluencethroughMicroblogging-AnEmpiricalAnalysisofSentimentinTwitterMessagesandRetweetBehavior[C]//Proceedingsofthe45ndHawaiiInternationalConferenceonSystemSciences,2012:3500-3509.
[10]KateStarbird,LeysiaPalen.(How)WilltheRevolutionbeRetweeted?InformationDiffusionandthe2011EgyptianUprising[C]//ProceedingsoftheACM2012conferenceonComputerSupportedCooperativeWork,2012:7-16.
[11]JessicaLi,ArunVishwanath,HRaghavRao.RetweetingthefukushimanuclearRadiationDisaster[J].CommunicationsoftheACM,2014,57(1):78-85.
[12]YanQu,PhilipFeiWu,XiaoqingWang.OnlineCommunityResponsetoMajorDisaster:AStudyofTianyaForuminthe2008SichuanEarthquake[C]//Proceedingsofthe42ndHawaiiInternationalConferenceonSystemSciences,2009:1-11.
[13]YanQu,ChenHuang,PengyiZhang,etal.MicrobloggingafteraMajorDisasterinChina:ACaseStudyofthe2010YushuEarthquake[C]//ProceedingsoftheACM2011conferenceonComputersupportedcooperativework,2011:25-34.
[14]MarceloMendoza,BarbaraPoblete,CarlosCastillo.TwitterUnderCrisis:CanwetrustwhatweRT?[C]//ProceedingsoftheFirstWorkshoponSocialMediaAnalytics,2010:71-79.
[15]WojciechGaluba,KarlAberer,DipanjanChakraborty,ZoranDespotovic,WolfgangKellerer.OuttweetingtheTwitterers-PredictingInformationCascadesinMicroblogs[C]//Proceedingsof3rdWorkshoponOnlineSocialNetworks,2010:1-9.
[16]JaewonYang,JureLeskovec.ModelingInformationDiffusioninImplicitNetworks[C]//IEEEInternationalConferenceonDataMining,2010:599-608.
[17]MeeyoungCha,AlanMislove,KrishnaPGummadi.Ameasurement-drivenanalysisofinformationpropagationintheflickrsocialnetwork[C]//Proceedingsofthe18thinternationalconferenceonWorldwideweb,2009:721-730.
[18]RaviKumar,MohammadMahdian,MaryMcGlohon.DynamicsofConversations[C]//Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2010:553-556.
[19]GaltonF,WatsonHW.Ontheprobabilityoftheextinctionoffamilies[J].InMendelianHeredity,AnnalofMathematicalStatistics,1944,4:385.
[20]WilliamJReed,BarryDHughes.Onthedistributionoffamilynames[J].PhysicaAStatisticalMechanicsanditsApplications,2003,319(7):579-590.
STUDY ON CHARACTERISTICS OF MICROBLOGGING INFORMATIONDISSEMINATIONUNDERH7N9FLUBACKGROUND
Liu BaoliDong RongshengCai Guoyong
(Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)
AbstractWe researched and developed the microblogging crawler system—WeiboCrawler independently. Aiming at the type A H7N9 flu epidemic broken out in March 2013, by using this system we captured the dataset correlated with this topic from Sina microblogging, including user information, original and forwarded microblogs information. Taking the original microblog as the root node, we constructed the microblogs forwarding tree (MFT) with recursion method based on forwarding relationship. To describe the process of information dissemination clearly and strictly, we gave the formal definition on the microblogs forwarding tree, and then studied the microblogging information dissemination process and the structural characteristics of MFT in size, depth and width, etc. Result showed that the distribution of MFT structural characteristics is in line with long-tailed distribution, the MFT has the characteristics of small depth and large density, the popularity of microblogs depends on the width of the MFT but has nothing to do with the depth of MFT. At different stages of microblogs forwarding, the information disseminations show similar characteristics. Considering the characteristics of information dissemination on microblogging platform and the structural characteristic of MFT, and combining the Galton-Watson branching process, we presented a new information flow dissemination model and simulated the three structural characteristics of MFT in size, depth and width with the model, we found that this model can quite accurately reflect the structural characteristics of information dissemination.
KeywordsForwardingInformation disseminationStructural characteristicsSocial networksDissemination model
收稿日期:2014-12-04。廣西自然科學(xué)基金項(xiàng)目(2011GXNSFA01 8156);廣西高等學(xué)校高水平創(chuàng)新團(tuán)隊(duì)及卓越學(xué)者計(jì)劃;桂林電子科技大學(xué)創(chuàng)新團(tuán)隊(duì)項(xiàng)目。劉寶立,碩士生,主研領(lǐng)域:社會(huì)計(jì)算,數(shù)據(jù)挖掘,形式化技術(shù)。董榮勝,教授。蔡國(guó)永,教授。
中圖分類號(hào)TP391
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.06.075