鮑 鵬,沈華偉,程學(xué)旗
1.中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190
2.北京交通大學(xué) 軟件學(xué)院,北京 100044
信息傳播中的用戶轉(zhuǎn)發(fā)選擇預(yù)測*
鮑 鵬1,2,沈華偉1+,程學(xué)旗1
1.中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190
2.北京交通大學(xué) 軟件學(xué)院,北京 100044
BAO Peng,SHEN Huawei,CHENG Xueqi.Prediction of“forwarding whom”behavior in information diffusion.Journal of Frontiers of Computer Science and Technology,2016,10(11):1524-1531.
在線社會(huì)關(guān)系網(wǎng)絡(luò)中,用戶之間的關(guān)注關(guān)系網(wǎng)絡(luò)承載著上層的信息傳播,關(guān)注關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)影響著消息的可見度,并影響著信息傳播過程的轉(zhuǎn)發(fā)選擇。以新浪微博為例,圍繞信息傳播中的多次暴露現(xiàn)象展開研究,結(jié)合用戶關(guān)注關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu),探索信息傳播過程中多次暴露情形下用戶轉(zhuǎn)發(fā)選擇行為的模式和規(guī)律。針對信息傳播中用戶在多個(gè)暴露源下的轉(zhuǎn)發(fā)選擇預(yù)測問題,融合消息內(nèi)容、網(wǎng)絡(luò)結(jié)構(gòu)、時(shí)序和交互歷史等多方面因素,建模和預(yù)測用戶轉(zhuǎn)發(fā)選擇。實(shí)驗(yàn)結(jié)果表明,新方法的預(yù)測準(zhǔn)確率高達(dá)91.3%。
在線社會(huì)關(guān)系網(wǎng)絡(luò);信息傳播;多次暴露;轉(zhuǎn)發(fā)選擇
隨著信息技術(shù)的高速發(fā)展,當(dāng)今人們正逐步邁進(jìn)一個(gè)全新的網(wǎng)絡(luò)化、數(shù)字化、虛擬化的工作和生活環(huán)境。越來越多的網(wǎng)民通過網(wǎng)絡(luò)獲取信息,并參與到信息的生成過程中,進(jìn)而不斷地促進(jìn)網(wǎng)絡(luò)的社會(huì)化。在用戶群體規(guī)模飛速增長的同時(shí),人們的信息需求和參與網(wǎng)絡(luò)的方式也不斷發(fā)生著變化。近年來,社交網(wǎng)站和社會(huì)媒體等在線社會(huì)關(guān)系網(wǎng)絡(luò)逐漸成為互聯(lián)網(wǎng)服務(wù)和應(yīng)用的主流,典型代表包括Facebook、Twitter、微博等。這些在線社會(huì)關(guān)系網(wǎng)絡(luò)中,人的互聯(lián)和信息互聯(lián)高度融合,人人參與到信息的產(chǎn)生與傳播過程,人們信息傳播和信息共享的訴求得到了極大程度的滿足,并獲得了前所未有的信息自主權(quán)。同時(shí),大量的用戶信息也帶來了諸如信息過載、內(nèi)容碎片化等問題,給學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用帶來了新的挑戰(zhàn)。因此,深入分析在線社會(huì)關(guān)系網(wǎng)絡(luò),建模和預(yù)測個(gè)體的行為具有重要意義。
在很長的一段歷史時(shí)期內(nèi),由于難以獲得大規(guī)模數(shù)據(jù)以提供穩(wěn)定統(tǒng)計(jì),信息傳播和人類行為預(yù)測的研究主要局限于統(tǒng)計(jì)物理、社會(huì)學(xué)、認(rèn)知學(xué)、心理學(xué)、行為學(xué)等學(xué)科的小規(guī)模樣本分析。然而,對于小樣本的研究分析結(jié)果的穩(wěn)定性和代表性的質(zhì)疑從未間斷過。作為銜接人類社會(huì)與網(wǎng)絡(luò)空間的紐帶,在線社會(huì)關(guān)系網(wǎng)絡(luò)匯聚了大量可感知、可計(jì)算的網(wǎng)絡(luò)數(shù)據(jù)。這類網(wǎng)絡(luò)數(shù)據(jù)詳細(xì)記錄了用戶之間的網(wǎng)絡(luò)結(jié)構(gòu)以及用戶產(chǎn)生信息的傳播軌跡,這些人類活動(dòng)的真實(shí)記錄為研究在線社會(huì)關(guān)系網(wǎng)絡(luò)上的信息傳播以及個(gè)體行為提供了寶貴的數(shù)據(jù)資源和難得的機(jī)遇。在國內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界,利用在線社會(huì)關(guān)系上的在線行為數(shù)據(jù)研究人類行為逐漸成為關(guān)注的熱點(diǎn)[1-2]。
在信息傳播過程中,個(gè)人行為存在很強(qiáng)的隨機(jī)性和自發(fā)性,不同的個(gè)體具有各異的行為模式,個(gè)體在參與信息傳播時(shí)會(huì)采取不同的決策模式,使得個(gè)體傳播行為呈現(xiàn)出差異性和不確定性。Barabási[3]發(fā)表在Nature的論文分析了人類行為的時(shí)間間隔,指出人類行為具有陣發(fā)性(burst),并給出了一種基于優(yōu)先級(jí)的排隊(duì)模型來解釋該現(xiàn)象,從此拉開了人類動(dòng)力學(xué)研究的序幕。Song等人[4]基于大量手機(jī)用戶的通話記錄,挖掘了單個(gè)用戶的移動(dòng)行為模式,其研究結(jié)果表明,用戶的位置移動(dòng)具有高達(dá)93%的可預(yù)測性。Katz[5]在社會(huì)學(xué)中提出了“兩級(jí)傳播”理論,強(qiáng)調(diào)了具有高影響力的“意見領(lǐng)袖”在行為傳播中起著重要的作用。Wu等人[6]對Twitter全網(wǎng)數(shù)據(jù)進(jìn)行了實(shí)證研究,并發(fā)現(xiàn)不同類型用戶在行為周期上具有多樣性。Liben-Nowell等人[7]利用大量互聯(lián)網(wǎng)連環(huán)信的軌跡,發(fā)現(xiàn)連環(huán)信的傳播樹展現(xiàn)出窄而深的樹狀結(jié)構(gòu)。Leskovec等人[8]發(fā)現(xiàn),在社交網(wǎng)絡(luò)上商品的口口相傳推薦中,人與人之間的影響力會(huì)對推薦結(jié)果起到影響。Yang等人[9]分析了消息傳播過程中的時(shí)序性特征,將消息傳播過程聚類成6種常見類型,為理解社交網(wǎng)絡(luò)上的用戶行為提供了一些啟發(fā)。Suh等人[10]在大規(guī)模社交網(wǎng)絡(luò)數(shù)據(jù)上分析了影響個(gè)體轉(zhuǎn)發(fā)行為的因素,發(fā)現(xiàn)消息自身的URL和Hashtag對于預(yù)測個(gè)體的轉(zhuǎn)發(fā)行為具有重要指示作用。Romero等人[11]提出了粘著力(stickness)和持久力(persistence)兩個(gè)重要概念,分析不同領(lǐng)域內(nèi)的Hashtag在Twitter上的傳播過程。Myers等人[12]發(fā)現(xiàn)社交網(wǎng)絡(luò)外部因素是造成信息擴(kuò)散不可預(yù)測性的一個(gè)重要因素,融合了外部因素后的個(gè)體行為建??梢燥@著地提高信息擴(kuò)散的預(yù)測準(zhǔn)確性。Macskassy等人[13]從另外一個(gè)角度研究了Twitter上用戶的轉(zhuǎn)發(fā)行為,他們發(fā)現(xiàn)反同質(zhì)性在個(gè)體轉(zhuǎn)發(fā)行為上起到重要作用。Aral等人[14]認(rèn)為用戶自身屬性中不僅具有影響力,還有易受影響程度,進(jìn)而從接受和影響兩個(gè)角度對用戶行為進(jìn)行建模和預(yù)測。Bao等人[15-17]研究了微觀結(jié)構(gòu)和時(shí)序信息對個(gè)體轉(zhuǎn)發(fā)行為的影響,從而更好地預(yù)測消息未來的流行度。Ugander等人[18]對信息傳播的微觀機(jī)制做了更深入的研究,發(fā)現(xiàn)個(gè)體受感染的概率不是由該個(gè)體的接觸鄰居個(gè)數(shù)決定的,而是由其接觸鄰居的連通分支個(gè)數(shù)決定的。
綜上所述,在線社會(huì)關(guān)系網(wǎng)絡(luò)中信息傳播的基本規(guī)律目前尚未得到深刻理解和充分掌握,關(guān)于個(gè)體行為建模和預(yù)測的工作主要針對用戶面對一條消息僅一次暴露的簡單傳播場景。本文將以新浪微博(http://weibo.com)為例,研究信息傳播過程中的多次暴露現(xiàn)象(即消息在傳播過程中暴露于一個(gè)用戶多次),并建模和預(yù)測用戶的轉(zhuǎn)發(fā)選擇行為。
2.1 數(shù)據(jù)說明
微博是一種基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái),用戶可以通過Web、WAP等各種客戶端組建個(gè)人社區(qū),以不超過140字的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。根據(jù)CNNIC關(guān)于中國社交類應(yīng)用用戶行為研究報(bào)告的統(tǒng)計(jì)(http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201408/P020140822379356612744.pdf),在2014年上半年中,43.6%的網(wǎng)民使用過微博,其中使用過新浪微博的網(wǎng)民比例最高。80.3%的新浪微博用戶通過新浪微博關(guān)注新聞/熱點(diǎn)話題,新浪微博已經(jīng)成為人們了解熱點(diǎn)信息的主要渠道之一,也是在線社會(huì)關(guān)系網(wǎng)絡(luò)中信息傳播研究的代表性場景。
本文使用的數(shù)據(jù)集是第13屆在線信息系統(tǒng)工程會(huì)議(Web information system engineering,WISE)所發(fā)布的新浪微博數(shù)據(jù)集(http://www.wise2012.cs.ucy. ac.cy/challenge.html)。該數(shù)據(jù)集不僅包含5 800多萬的用戶和他們之間所形成的2億7 000多萬條關(guān)注關(guān)系,而且包括從2009年8月至2012年1月期間這些用戶發(fā)布的消息及其完整的傳播軌跡,其中還包括消息的主要內(nèi)容屬性(如是否包含嵌入式URL、相關(guān)熱點(diǎn)事件關(guān)鍵詞等)。
2.2 信息傳播中的多次暴露現(xiàn)象
在新浪微博中,用戶與用戶之間存在著“關(guān)注”和“被關(guān)注”的關(guān)系,形成了一個(gè)關(guān)注關(guān)系網(wǎng)絡(luò)(relationship network)。用戶發(fā)出的消息(文中用戶發(fā)出的消息均包括原發(fā)和轉(zhuǎn)發(fā)兩種消息類型)正是沿著該網(wǎng)絡(luò)的結(jié)構(gòu)被其關(guān)注者看到并傳播開的。因此,關(guān)注關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)是其上信息傳播的基礎(chǔ),不僅影響著消息的傳播,同時(shí)也會(huì)受其作用而動(dòng)態(tài)演化。隨著網(wǎng)絡(luò)中的連邊越來越稠密,信息傳播過程也會(huì)產(chǎn)生一些復(fù)雜的現(xiàn)象。
本文首先定義并探索了信息傳播過程中消息的“暴露”(exposure)現(xiàn)象。當(dāng)一條消息被用戶發(fā)出后,該用戶的所有關(guān)注者都會(huì)看到這條消息,則稱消息暴露于該用戶的關(guān)注者一次。如圖1所示,一條消息在傳播過程中,先后于t1時(shí)刻被用戶Bob轉(zhuǎn)發(fā),t2時(shí)刻被用戶Jim轉(zhuǎn)發(fā)。在關(guān)注關(guān)系網(wǎng)絡(luò)中,由于用戶Allen同時(shí)關(guān)注了Bob和Jim兩人,該消息將會(huì)兩次暴露給Allen。這就是本文所研究的信息傳播中的多次暴露現(xiàn)象。為了探索真實(shí)信息傳播過程中,消息多次暴露現(xiàn)象是否存在,本文利用消息的傳播軌跡,結(jié)合關(guān)注關(guān)系網(wǎng)絡(luò),統(tǒng)計(jì)信息傳播過程中消息暴露于用戶的次數(shù)分布,如圖2所示。
Fig.1 Multiple exposure in information diffusion圖1 信息傳播中多次暴露現(xiàn)象示例
本文首先提出信息傳播中的用戶轉(zhuǎn)發(fā)選擇預(yù)測問題,并對其進(jìn)行形式化。然后從內(nèi)容、結(jié)構(gòu)、時(shí)序、交互歷史四方面挖掘影響因素。最后建模和預(yù)測了用戶的轉(zhuǎn)發(fā)選擇行為,并設(shè)計(jì)實(shí)驗(yàn)對其進(jìn)行驗(yàn)證和分析。
Fig.2 Statistics of multiple exposure圖2 多次暴露現(xiàn)象統(tǒng)計(jì)
3.1 問題定義
本文針對消息兩次暴露于用戶并被其轉(zhuǎn)發(fā)的情形,將用戶轉(zhuǎn)發(fā)選擇預(yù)測問題形式化成一個(gè)二分類問題。圖3為用戶轉(zhuǎn)發(fā)選擇預(yù)測問題示例,具體闡述如下。
Fig.3 An example of“forwarding whom”problem圖3 用戶轉(zhuǎn)發(fā)選擇預(yù)測問題示例
3.2 轉(zhuǎn)發(fā)選擇的影響因素
3.2.1 內(nèi)容特征
消息內(nèi)容信息對于信息傳播具有重要的影響。一個(gè)直觀的認(rèn)識(shí)是:一條富含信息量的消息,更容易引起人們的關(guān)注和轉(zhuǎn)發(fā),而且每個(gè)人也有不同話題粒度的影響力和易受影響程度[11]。結(jié)合微博短文本內(nèi)容自身的特點(diǎn),已有研究結(jié)論表明,消息內(nèi)容中是否包含嵌入式URL,消息是否與熱點(diǎn)事件相關(guān)最能表達(dá)消息的內(nèi)容屬性,并影響用戶的傳播行為[15]。此外,消息當(dāng)前的流行度也會(huì)對用戶轉(zhuǎn)發(fā)選擇行為起一定的指示作用。例如對于那些被人們大量轉(zhuǎn)發(fā)的熱門消息,用戶更愿意轉(zhuǎn)發(fā)消息源或者較為權(quán)威的暴露源。
3.2.2 結(jié)構(gòu)特征
首先考察兩個(gè)暴露源之間的結(jié)構(gòu)特征。在圖3中,Allen所面臨的一個(gè)暴露源為Bob,另一個(gè)暴露源為Jim。在有向關(guān)注關(guān)系網(wǎng)絡(luò)中,Bob與Jim之間存在著3種可能的關(guān)注關(guān)系:(1)Bob與Jim之間互不關(guān)注;(2)Bob與Jim之間為單向關(guān)注關(guān)系,即Bob關(guān)注Jim或者Jim關(guān)注Bob;(3)Bob與Jim之間互相關(guān)注。根據(jù)Bao等人[15]對信息傳播中結(jié)構(gòu)基序的研究,可以知道兩個(gè)暴露源之間的關(guān)注關(guān)系是影響用戶轉(zhuǎn)發(fā)行為的一個(gè)重要因素。其次,入度是衡量用戶影響力和可信度的一個(gè)重要因素,因此用戶往往更愿意轉(zhuǎn)發(fā)一個(gè)高入度的暴露源。信息傳播過程中,消息的源頭往往更容易受到人們的關(guān)注,因此暴露源是否為消息的原發(fā)者,是一個(gè)重要的特征。此外,由于互惠邊對于信息傳播也有著重要的作用[19],暴露源是否也關(guān)注了當(dāng)前用戶Allen也是一個(gè)重要因素。
3.2.3 時(shí)序特征
除了結(jié)構(gòu)特征外,用戶的轉(zhuǎn)發(fā)選擇行為還會(huì)受到時(shí)序信息的影響[10]。例如如果兩次轉(zhuǎn)發(fā)行為時(shí)間間隔過大,用戶很有可能并未看到第一次暴露源,因此轉(zhuǎn)發(fā)時(shí)間間隔是影響用戶轉(zhuǎn)發(fā)選擇行為的一個(gè)因素。此外,如果一個(gè)消息是在系統(tǒng)不活躍時(shí)間段(如深夜)發(fā)出的,當(dāng)用戶第二天登錄系統(tǒng)時(shí),之前進(jìn)行過轉(zhuǎn)發(fā)的暴露源很有可能不會(huì)被用戶看到,因此消息的原發(fā)時(shí)間也是一個(gè)重要因素。本文主要考察三方面因素:(1)兩個(gè)暴露源之間的轉(zhuǎn)發(fā)時(shí)間間隔;(2)消息傳播過程中的平均轉(zhuǎn)發(fā)時(shí)間間隔;(3)消息的原發(fā)時(shí)間。
3.2.4 交互歷史
用戶之間的交互歷史體現(xiàn)了用戶之間的親密程度以及用戶一段時(shí)間內(nèi)的關(guān)注興趣,因此也會(huì)對用戶的轉(zhuǎn)發(fā)選擇行為起到一定的影響[6,20]。本文利用當(dāng)前用戶是否轉(zhuǎn)發(fā)過暴露源來表示用戶之間的交互歷史。
根據(jù)上述影響因素的分析,本文主要從消息內(nèi)容、消息暴露源的結(jié)構(gòu)、時(shí)序以及交互歷史四方面提取特征,用于模型的訓(xùn)練與預(yù)測。詳細(xì)的特征選擇及其描述如表1所示。
Table 1 Features list表1 特征列表
4.1 預(yù)測模型與評(píng)價(jià)指標(biāo)
本文在數(shù)據(jù)集中選取2011年7月和8月的數(shù)據(jù)分別作為訓(xùn)練集和測試集,抽取出所有用戶兩次暴露于消息并最終轉(zhuǎn)發(fā)的例子。最終,訓(xùn)練集包含10 390個(gè)例子,測試集包含11 041個(gè)例子。依據(jù)表1進(jìn)行特征提取后,選擇機(jī)器學(xué)習(xí)中經(jīng)典的二分類模型——邏輯回歸(logistic regression)模型來預(yù)測用戶的轉(zhuǎn)發(fā)選擇行為。
文中二分類因變量y的取值有兩種可能(0和1)。以圖3為例,y=1表示Allen會(huì)轉(zhuǎn)發(fā)暴露源Jim,y=0表示Allen不會(huì)轉(zhuǎn)發(fā)暴露源Jim。設(shè)結(jié)果y=1的概率為 p,y=0的概率則為1-p。假設(shè)x1,x1,…,xm表示結(jié)果為y的m個(gè)影響因素。本文實(shí)驗(yàn)中m對應(yīng)表1的特征編號(hào),用邏輯回歸公式表示y=1的概率為:
式中,β0,β1,β2,…,βm是模型的參數(shù),即回歸系數(shù)。
本文采用極大似然法進(jìn)行回歸系數(shù)的估計(jì)。假設(shè)有n個(gè)觀測樣本,其觀測值為y1,y2,…,yn,其對數(shù)似然函數(shù)如下所示:
實(shí)驗(yàn)中使用準(zhǔn)確率(Precision)、召回率(Recall)及F值為指標(biāo)對模型預(yù)測結(jié)果做出評(píng)價(jià),其計(jì)算方法如下所示:
4.2 實(shí)驗(yàn)結(jié)果
本節(jié)重點(diǎn)考察模型的預(yù)測性能以及各類特征對于模型預(yù)測能力的重要性,實(shí)驗(yàn)結(jié)果如表2所示??梢园l(fā)現(xiàn)在融合本文所提取的四方面特征后,模型的預(yù)測準(zhǔn)確率高達(dá)91.3%,遠(yuǎn)遠(yuǎn)高于隨機(jī)猜測的50%,從而很好地預(yù)測了用戶的轉(zhuǎn)發(fā)選擇行為。
Table 2 Experimental results表2 實(shí)驗(yàn)結(jié)果
為了研究各類特征對于模型預(yù)測能力的重要性,本文通過移除相應(yīng)類別特征的方法,來考察其對模型預(yù)測性能的影響。實(shí)驗(yàn)結(jié)果表明,移除內(nèi)容特征后,F(xiàn)值從83.7%下降到71.1%。因此,內(nèi)容特征對于用戶轉(zhuǎn)發(fā)選擇預(yù)測具有指示作用。在移除結(jié)構(gòu)特征后,F(xiàn)值更是下降到59.6%。由此可見用戶之間的結(jié)構(gòu)特征,對于用戶轉(zhuǎn)發(fā)選擇行為具有重要的指示作用。而在分別移除簡單時(shí)序特征和交互歷史特征后,模型預(yù)測性能并沒有顯著的下降,由此判斷,這兩類信息對于用戶的轉(zhuǎn)發(fā)選擇行為的影響較小。
本文將模型訓(xùn)練所得參數(shù)列于表3中,從而可以更為清晰地看出各個(gè)特征所起的作用。例如特征11(表示Bob是否為消息的原發(fā)者)與Allen轉(zhuǎn)發(fā)暴露源Jim的概率呈負(fù)相關(guān),即當(dāng)Bob為消息的原發(fā)者時(shí),Allen更傾向于轉(zhuǎn)發(fā)暴露源Bob而不是Jim。再比如特征8(表示Jim的入度是否大于Bob)與Allen轉(zhuǎn)發(fā)暴露源Jim的概率呈正相關(guān),即當(dāng)Jim的入度大于Bob時(shí),Allen更傾向于轉(zhuǎn)發(fā)入度大的暴露源Jim而不是Bob。
Table 3 Feature coefficients表3 特征系數(shù)
本文以新浪微博為場景,圍繞信息傳播中的多次暴露現(xiàn)象展開研究,探索信息傳播過程中多次暴露情形下用戶轉(zhuǎn)發(fā)選擇行為的基本規(guī)律。針對用戶在多個(gè)消息暴露源下的轉(zhuǎn)發(fā)選擇預(yù)測問題,融合了消息內(nèi)容、暴露源的結(jié)構(gòu)、時(shí)序以及交互歷史等多方面因素,建模和預(yù)測了個(gè)體的轉(zhuǎn)發(fā)選擇行為。實(shí)驗(yàn)結(jié)果表明,在融合上述特征后,模型的預(yù)測準(zhǔn)確率高達(dá)91.3%,其中結(jié)構(gòu)特征和內(nèi)容特征對于用戶轉(zhuǎn)發(fā)選擇行為具有重要的指示作用。
本文后續(xù)研究方向包括量化用戶之間話題層面的影響力和易受影響程度,探索和建模系統(tǒng)外部事件對用戶轉(zhuǎn)發(fā)行為的影響,并結(jié)合多次暴露對于用戶轉(zhuǎn)發(fā)行為所帶來的累積效應(yīng),提出了一個(gè)用戶轉(zhuǎn)發(fā)行為預(yù)測的概率模型框架。此外,本文后續(xù)還將研究個(gè)體的轉(zhuǎn)發(fā)選擇行為與消息流行度及其動(dòng)態(tài)過程之間的關(guān)聯(lián)關(guān)系,利用消息早期的擴(kuò)散信息,通過對微觀個(gè)體行為的建模,來預(yù)測消息的未來流行度。為了進(jìn)一步驗(yàn)證本文的泛化能力和適用場景,未來還將在多個(gè)語料集上進(jìn)行方法的驗(yàn)證和擴(kuò)展。
[1]Lazer D,Pentland A,Adamic L,et al.Computation social science[J].Science,2009,323(5915):721-724.
[2]Li Deyi,Zhang Tianlei,Huang Liwei.A down-to-earth cloud computing:location-based service[J].Chinese Journal of Electronics,2014,42(4):786-790.
[3]Barabási A-L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435:207-211.
[4]Song Chaoming,Qu Zehui,Blumm N,et al.Limits of predictability in human mobility[J].Science,2010,327(5968): 1018-1021.
[5]Katz E.The two-step flow of communication:an up-to-date report on a hypothesis[J].Public Opinion Quarterly,1957, 21(1):61-78.
[6]Wu Shaomei,Hofman J M,Mason W A,et al.Who says what to whom on Twitter[C]//Proceedings of the 20thInternational Conference on World Wide Web,Hyderabad,India,Mar 28-Apr 1,2011.New York:ACM,2011:705-714.
[7]Liben-Nowell D,Kleinberg J.Tracing information flow on a global scale using Internet chain-letter data[J].Proceedings of the National Academy of Sciences of the United States ofAmerica,2008,105(12):4633-4638.
[8]Leskovec J,Adamic L,Huberman B.The dynamics of viral marketing[J].ACM Transactions on the We b,2007,1(1): 1-28.
[9]Yang J,Leskovec J.Patterns of temporal variation in online media[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining,Hong Kong,China, Feb 9-12,2011.New York:ACM,2011:177-186.
[10]Suh B,Hong Lichan,Pirolli P,et al.Want to be retweeted? Large scale analytics on factors impacting retweet in Twitter network[C]//Proceedings of the 2010 IEEE 2nd International Conference on Social Computing,Minneapolis,USA,Aug 20-22,2010.Piscataway,USA:IEEE,2010:177-184.
[11]Romero D M,Meeder B,Kleinberg J.Differences in the mechanics of information diffusion across topics:idioms, political hashtags,and complex contagion on Twitter[C]// Proceedings of the 20th International Conference on World Wide Web,Hyderabad,India,Mar 28-Apr 1,2011.New York: ACM,2011:695-704.
[12]Myers S A,Zhu Chenguang,Leskovec J.Information diffusion and external influence in networks[C]//Proceedings of the 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,Beijing,Aug 12-16,2012.New York: ACM,2012:33-41.
[13]Macskassy S A,Michelson M.Why do people Retweet?antihomophily wins the day![C]//Proceedings of the 5th International Conference on Weblogs and Social Media,Barcelona,Spain,Jul 17-21,2011.Palo Alto,USA:AAAI,2011: 209-216.
[14]Aral S,Walker D.Identifying influential and susceptible members of social networks[J].Science,2012,337(6092): 337-341.
[15]Bao Peng,Shen Huawei,Chen Wei,et al.Cumulative effect in information diffusion:empirical study on a microblogging network[J].PLoS ONE,2013,8(10):e76027.
[16]Bao Peng,Shen Huawei,Huang Junming,et al.Popularity prediction in microblogging network:a cxase study on Sinaweibo[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio de Janeiro,Brazil,Apr 7-11, 2013.New York:ACM,2013:177-178.
[17]Bao Peng,Shen Huawei,Jin Xiaolong,et al.Modeling and predicting popularity dynamics of microblogs using selfexcited Hawkes processes[C]//Proceedings of the 24th International Conference on World Wide Web,Florence,Italy, Mar 18-22,2015.New York:ACM,2015:9-10.
[18]Ugander J,Backstrom L,Marlow C,et al.Structural diversity in social contagion[J].Proceedings of the National Academy of Sciences of the United States of America,2012,109 (16):5962-5966.
[19]Zhu Yuxiao,Zhang Xiaoguang,Sun Guiquan,et al.Influence of reciprocal links in social networks[J].PLoS ONE, 2014,9(7):e103007.
[20]Huang Junming,Li Chao,Wang Wenqiang,et al.Temporal scaling in information propagation[J].Scientific Reports, 2014,4:5334.
附中文參考文獻(xiàn):
[2]李德毅,張?zhí)炖?黃立威.位置服務(wù):接地氣的云計(jì)算[J].電子學(xué)報(bào),2014,42(4):786-790.
BAO Peng was born in 1987.He received the Ph.D.degree in computer science from Institute of Computing Technology,ChineseAcademy of Sciences in 2015.Now he is an assistant professor and M.S.supervisor at Beijing Jiaotong University.His research interests include social media analytics,information propagation and network science.
鮑鵬(1987—),男,安徽六安人,2015年于中國科學(xué)院計(jì)算技術(shù)研究所獲得博士學(xué)位,現(xiàn)為北京交通大學(xué)講師、碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樯鐣?huì)媒體分析,信息傳播,網(wǎng)絡(luò)科學(xué)。作為科研骨干參與了863課題、973課題和國家自然科學(xué)基金等重要科研任務(wù)。
SHEN Huawei was born in 1982.He received the Ph.D.degree in computer science from Institute of Computing Technology,Chinese Academy of Sciences in 2010.Now he is an associate professor and M.S.supervisor at Institute of Computing Technology,Chinese Academy of Sciences.His research interests include social media analytics, information propagation and network science.
沈華偉(1982—),男,河南太康人,2010年于中國科學(xué)院計(jì)算技術(shù)研究所獲得博士學(xué)位,現(xiàn)為中國科學(xué)院計(jì)算技術(shù)研究所副研究員、碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樯鐣?huì)媒體分析,信息傳播,網(wǎng)絡(luò)科學(xué)。發(fā)表學(xué)術(shù)論文60余篇,主持國家自然科學(xué)基金項(xiàng)目3項(xiàng),并承擔(dān)863課題和973課題等重要科研任務(wù)。
CHENG Xueqi was born in 1971.He received the Ph.D.degree in computer science from Institute of Computing Technology,Chinese Academy of Sciences in 2006.Now he is a professor and Ph.D.supervisor at Institute of Computing Technology,Chinese Academy of Sciences.His research interests include Web information retrieval,social media analytics and network data science.
程學(xué)旗(1971—),男,安徽安慶人,2006年于中國科學(xué)院計(jì)算技術(shù)研究所獲得博士學(xué)位,現(xiàn)為中國科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室主任,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息檢索,社會(huì)媒體分析,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)。發(fā)表學(xué)術(shù)論文100余篇,主持10余項(xiàng)國家自然科學(xué)基金、973課題、863課題等重要科研項(xiàng)目,2014年獲國家杰出青年科學(xué)基金資助。
Prediction of“Forwarding Whom”Behavior in Information Diffusion?
BAO Peng1,2,SHEN Huawei1+,CHENG Xueqi1
1.Institute of Computing Technology,ChineseAcademy of Sciences,Beijing 100190,China
2.School of Software Engineering,Beijing Jiaotong University,Beijing 100044,China
+Corresponding author:E-mail:shenhuawei@ict.ac.cn
On online social networks,follow-ship network among users underlies the diffusion dynamics of messages; meanwhile,the structure of underlying social network determines the visibility of messages and forwarding activities in the diffusion process.Taking SinaWeibo as an example,this paper focuses on multiple exposure phenomena in information diffusion,and investigates the patterns and regularities of users? forwarding behavior among multiple exposures combined with the structure of follow-ship network.This paper analyzes the“forwarding whom”problem of users among multiple exposures in information diffusion,aiming to model and predict the forwarding behavior of individuals,combining content features,network structure,temporal and historical information.The experimental results demonstrate that the new method achieves a high accuracy of 91.3%.
online social network;information diffusion;multiple exposures;forwarding whom
10.3778/j.issn.1673-9418.1509083
A
TP391
*The National Natural Science Foundation of China under Grant Nos.61472400,61232010,61174152(國家自然科學(xué)基金);the National Basic Research Program of China under Grant Nos.2014CB340401,2013CB329606(國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃));the Fundamental Research Funds for the Central Universities of China under Grant No.2015RC031(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金).
Received 2015-09,Accepted 2015-12.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-12-14,http://www.cnki.net/kcms/detail/11.5602.TP.20151214.1644.002.html