劉 晶 李 琳 李石君
1(武漢大學計算機學院 湖北 武漢 430072)2(中南民族大學計算機科學學院 湖北 武漢 430074)3(武漢數(shù)字工程研究所 湖北 武漢 430074)
?
基于社交網(wǎng)絡大規(guī)模行為數(shù)據(jù)的用戶關系研究
劉晶1,2李琳3李石君1
1(武漢大學計算機學院湖北 武漢 430072)2(中南民族大學計算機科學學院湖北 武漢 430074)3(武漢數(shù)字工程研究所湖北 武漢 430074)
摘要用戶關系是構成微博社會網(wǎng)絡的基礎。用戶關系的分析可以幫助更好地研究社會網(wǎng)絡的構成、消息傳播模式等多個方面。對超過百萬用戶的海量微博數(shù)據(jù)進行分析處理,利用信息論理論分析比較用戶微博行為的特點,構建用戶活躍交互網(wǎng)絡并觀察交互網(wǎng)絡的動態(tài)性,分析社交網(wǎng)絡用戶群體的在線行為模式及特點。實驗表明在微博的交互活動中,用戶的直接交互關系相對穩(wěn)定,不因時間的變化而變化,而用戶的轉發(fā)對象會不斷地變化,即用戶實際關注的群體是動態(tài)變化的。
關鍵詞社會網(wǎng)絡用戶行為微博交互
0引言
對用戶行為數(shù)據(jù)進行收集并理解的研究可以追溯到1945年[1],美國學者Vannevar Bush提出了“Memex”設想,一個原始的用戶行為記錄系統(tǒng)。近十年來,在線社交網(wǎng)絡取得飛速發(fā)展。國內(nèi)各主流門戶網(wǎng)站也紛紛推出各自的微博產(chǎn)品,微博在中國呈指數(shù)級擴張,用戶數(shù)量與日俱增。在線社交網(wǎng)絡已經(jīng)成為連接物理社交世界和虛擬網(wǎng)絡空間的橋梁。網(wǎng)絡用戶產(chǎn)生的信息和用戶與用戶之間的交互在社交網(wǎng)站上留下了各種足跡,直接促成了網(wǎng)絡大數(shù)據(jù)時代的到來。如何從這些大數(shù)據(jù)中更好地理解用戶和為用戶服務是信息產(chǎn)業(yè)中的一個重要研究方向。
微博作為一種社會媒體不僅滿足了用戶的信息個性化發(fā)布、社會性傳播和社交的需求,還改變了用戶在網(wǎng)絡上的交互方式。深入理解用戶的在線交互模式可以為分析人類社會行為提供新的視角[2];幫助提高社交媒體和相關應用的設計元素,包括用戶影響力度量[3,4]、消息傳播路徑[5]、朋友推薦[6-8]等。
針對社會網(wǎng)絡的用戶關系分析問題,學者們開展了大量的相關研究。其中,一些學者如Tang等[9,10]利用半監(jiān)督學習方法來計算用戶的關系強度,推斷用戶社會關系類型;Kahanda等[11]利用用戶之間的交互性來度量用戶關系強度;用戶關系分析也經(jīng)常被用于好友推薦[12]。
與傳統(tǒng)的社交網(wǎng)絡不同,微博是一個基于弱關系的信息分享、傳播及獲取平臺。美國斯坦福大學的Mark教授提出了“弱連接威力”理論[13]:除了傳統(tǒng)社會中的親人、朋友、同事等十分穩(wěn)定但傳播范圍有限的社會“強連接”關系,還存在另外一類更為廣泛的社會關系,即所謂的“弱連接”。Mark的研究發(fā)現(xiàn),在信息的擴散和傳播上,弱連接關系其實比強連接關系發(fā)揮的作用更大。
本文借助微博開放平臺,利用用戶的公開行為數(shù)據(jù)來分析用戶的交互行為及其背后蘊含的關系強度,從而更有針對性地為用戶服務。本文以新浪微博用戶為單位,定量對微博用戶的微博行為進行深入分析,發(fā)現(xiàn)轉發(fā)在微博活動中占主導地位。即使在單邊通信關系中,人們也更愿意從其他人那里獲取信息:用戶更愿意作為信息接收者、傳播者而不是信息發(fā)布者。本文還對新浪微博用戶行為的細節(jié)和用戶的交互隨時間動態(tài)變化模式進行了研究,發(fā)現(xiàn)用戶的直接交互關系相對穩(wěn)定,不因時間的變化而變化,而用戶的轉發(fā)對象會不斷地變化,即用戶實際關注的群體是動態(tài)變化的。
1用戶關系分析
1.1數(shù)據(jù)
根據(jù)新浪微博開放平臺提供的應用程序接口(API)設計爬蟲抓取用戶基本信息,用戶發(fā)表的微博和用戶關注/粉絲關系網(wǎng)絡。我們使用4臺不同IP的機器,以2012年6月新浪微博人氣總榜Top100用戶為種子,通過粉絲/關注列表雙向滾雪球式爬取粉絲數(shù)1000以上的用戶及其2012年全年發(fā)表的微博。歷時3個月爬回165 841 156條微博和8 386 628個用戶信息。數(shù)據(jù)集包含三部分:用戶基本信息、微博和關注/粉絲網(wǎng)絡。
? 用戶基本信息(User profile)
包含用戶名、性別、帳號創(chuàng)建時間、位置信息(省/市)、已發(fā)表微博數(shù)、粉絲數(shù)、關注數(shù)、描述、認證信息。
? 微博(Tweets)
微博信息集包含:微博創(chuàng)建時間、轉發(fā)數(shù)、評論數(shù)、被“贊”數(shù)、微博內(nèi)容,如果該條微博是轉發(fā),則還包括被轉微博的用戶ID、被轉微博ID、創(chuàng)建時間、微博內(nèi)容。
? 關注/粉絲網(wǎng)絡(following/followers)
新浪微博設置了三種用戶關系網(wǎng)絡:關注、雙向關注和粉絲,其中,關注和粉絲是一對相互關系。如果A關注了B,則B在A的關注列表中,而A在B的粉絲列表中。如果A關注了B并且B也關注了A,則稱A、B雙向關注。雙方互相出現(xiàn)在對方的關注和粉絲列表中。
本文主要研究用戶的微博交互行為,因此對采集到的微博數(shù)據(jù)進行預處理,只考慮轉發(fā)微博和包含提及的微博,即微博消息中包含了@[account]字段的微博。對微博文本進行解析,利用正則表達式提取出每條微博的提及對象:@[account]中的account,對每個用戶u構造提及對象集mention(u)={ a| 用戶a在u的微博中被提及}。
1.2用戶模型
對于給定的用戶集U中的任意一個用戶u∈U,其用戶信息包含3種屬性:個人背景、社交關系和交互信息。因此用戶u可以表示為模型M(u)={Info(u),Relation(u),Inter(u)}。具體說明如下:
1) Info(u) 表示u的個人描述信息,包括位置信息location、性別gender、個人描述describe、粉絲數(shù)量foNum、關注數(shù)量friNum、雙向關注數(shù)量bifNum。用元組表示為Info(u)={location(u), gender(u), describe(u), foNum(u), friNum (u), bifNum (u)}。
2) Relation(u) 表示u的社交關系,包括關注向量friend(u)、粉絲向量follower(u)和雙向關注向量bifollower(u)。因此Relation(u) = {friend(u),follower(u),bifollower(u)}。
3) Inter(u) 表示u的交互信息,包括轉發(fā)向量retweet(u)、提及向量mention(u)和評論向量comment(u)。因此,u的交互模型可表示為Inter(u)={retweet(u), mention(u)}。
對整個用戶集U中的每個用戶從1開始依次編號,向量retweet(u)和 mention(u)中的第i個分量分別表示用戶u轉發(fā)、提及和評論用戶i的次數(shù)。
1.3用戶交互行為分析
對微博用戶來說,他們的關注行為具有怎樣的特點;是愿意僅與少部分人交流還是喜歡與更多的人交流;如果一個用戶與其他很多用戶都存在交互行為,他對每一個對象的關注度是否一樣,即該用戶是否平均分配時間給各個交互用戶。為了研究這些問題,我們定義每個用戶u的轉發(fā)熵ERT如下:
(1)
其中,Su∈Inter(u). retweet(u),是用戶u所有轉發(fā)微博的來源用戶集,pu(r)是u轉發(fā)用戶r的微博的頻率。得到的轉發(fā)熵矩陣ERT中,轉發(fā)熵值越高,說明該用戶越熱衷于接收、傳播來自不同用戶的消息;反之,低轉發(fā)熵表明該用戶只轉發(fā)來自少數(shù)特定用戶的微博,轉發(fā)來源可預測性高。
類似的,計算每個用戶的提及熵EC如下:
(2)
其中,Nu∈Inter(u). mention (u)是用戶u所有提及對象的集合,pu(n)是用戶u提及用戶n的次數(shù)占所有的提及微博的比例。評論熵矩陣EC中高熵值用戶平均與其他用戶的交互是均衡的;反之,用戶更多的與少數(shù)“親密”用戶交流。
由于不同用戶轉發(fā)微博來源的規(guī)模亦不同,為了跨用戶比較轉發(fā)行為,歸一化轉發(fā)熵使之取值在[0,1]區(qū)間內(nèi):
E′(u)=E(u)/-0.5×|n|×log(|n|/2)
(3)
其中,|n|是用戶u的交互(轉發(fā)、提及)用戶集規(guī)模。
對于微博用戶行為分析的一個重要問題是:用戶是否持續(xù)性的關注某一組特定用戶?用戶的轉發(fā)和提及行為與用戶的關聯(lián)度是否會隨著時間的變化而變化?為了找出答案,我們分別以一周和一個月為時間窗口,觀察用戶的轉發(fā)和提及熵隨時間的變化情況。把用戶u在每個時間周期發(fā)表的微博作為一個集合ti,計算基于時間的轉發(fā)熵和提及熵如下:
(4)
其中,r(v)是用戶u的轉發(fā)或提及的時間集合中v至少出現(xiàn)一次的概率,即包含v的ti占所有集合的比例。如果計算的是基于時間的轉發(fā)熵,則Mu=Su;如果計算的是基于時間的提及熵,則Mu=Nu。同樣地,為了使熵值落在區(qū)間[0,1]中,進行歸一化處理:
E′(u)=E(u)/log(|n|)
(5)
在得到的用戶—時間熵矩陣中,低熵值表示該用戶一直與同樣的用戶群交互(轉發(fā)或提及);反之,高熵值表示用戶在不同時間段關注的用戶群是變化的。
2實驗分析
為了滿足實驗的大數(shù)據(jù)量運算,我們以高性能NF8560M2服務器為基礎虛擬出10個主機節(jié)點,并以此為底層的分布式硬件環(huán)境。每個節(jié)點虛擬出一個XENO E7-4807的CPU和8 GB的內(nèi)存,主機采用的是Windows Server 2008 R2操作系統(tǒng),節(jié)點采用Ubuntu 12操作系統(tǒng)的Hadoop 0.20.2平臺。
我們從用戶個體的角度出發(fā),統(tǒng)計了轉發(fā)、提及微博占該用戶所有微博行為的比重,圖1以累計分布函數(shù)表示統(tǒng)計結果。
圖1 用戶轉發(fā)、提及行為比重在[0,1]區(qū)間的用戶分布
從圖1提及曲線可以看出,49.3%的用戶在微博中從未提及他人,有95.4%的用戶在微博中提及他人的的行為比例小于30%。轉發(fā)曲線顯示51.7%的用戶的轉發(fā)行為占所有微博行為的73%,且這部分用戶中,轉發(fā)微博超過91.8%的用戶有一個爆發(fā)式的增長。
分別計算每個用戶的轉發(fā)熵和提及熵,結果顯示用戶的平均提及熵為0.21,而平均轉發(fā)熵為0.52。可以看出,提及是一種比較親密的個人交互行為,更傾向于出現(xiàn)在小團體內(nèi)部且相互間交互的更頻繁,是強聯(lián)系;而轉發(fā)行為中用戶的關注面更廣,并且對轉發(fā)來源的關注不像提及行為那樣集中,是弱聯(lián)系。圖2顯示了用戶不同微博行為的熵值區(qū)間的分布情況。
圖2 用戶在不同行為熵值區(qū)間的分布
從圖2用戶不同微博行為的熵值分布區(qū)間可以看出,用戶的轉發(fā)和提及行為具有明顯區(qū)別。在轉發(fā)行為中,用戶峰值出現(xiàn)在0.5至0.6的熵值區(qū)間,而轉發(fā)熵小于0.4的用戶不到5%;在提及行為中,用戶峰值出現(xiàn)在0.1至0.2的熵值區(qū)間,然后隨著熵值的增大快速降低。這一現(xiàn)象說明用戶的主要轉發(fā)行為分布在較大的社區(qū)中,并且相對均勻的轉發(fā)來自不同用戶的微博,只有極少的用戶只轉發(fā)來自特定用戶的微博。而大部分用戶的提及行為集中在一個特定的小群體。
從圖3可以看出,在用戶的轉發(fā)行為中,多數(shù)用戶的不同時段的轉發(fā)熵大于0.5,表明用戶在不同時期頻繁關注的用戶集是變化的,用戶在不斷地尋求建立新的弱連接。而在用戶的提及行為中,大部分用戶的提及時間熵小于0.5,表明用戶的直接交互關系相對穩(wěn)定,不因時間的變化而變化。
圖3 用戶轉發(fā)、提及行為的動態(tài)性
表1給出了不同微博行為與社會網(wǎng)絡的皮爾遜相關系數(shù),以*表示p值(p-value)范圍:p<0.005(***),p<0.05(**),p<0.1(*)。用戶微博行為與其社會網(wǎng)絡的皮爾遜積矩相關系數(shù)可以分析用戶的微博交互行為和他的朋友數(shù)量,粉絲數(shù)量是否存在關聯(lián)。
表1 微博行為與社會網(wǎng)絡的皮爾遜相關系數(shù)
從表1可以看出用戶發(fā)表微博的數(shù)量與用戶的關注數(shù)量正相關(r=0.36)。而用戶的轉發(fā)和提及行為與粉絲/關注數(shù)量沒有直接聯(lián)系。微博數(shù)量和關注者的數(shù)量相關,但是用戶間的交互與靜態(tài)網(wǎng)絡的規(guī)模無關。
3結語
在對社交網(wǎng)絡的用戶關系和交互的研究中,以用戶為結點,用戶間的關系為邊的圖模型是最常用的研究手段。然而隨著社交網(wǎng)絡規(guī)模的急劇膨脹,在有限的計算能力和存儲空間的條件下分析用戶交互行為是一個巨大的挑戰(zhàn)。
本文以用戶為單位,利用信息論理論對超過百萬用戶的海量微博數(shù)據(jù)進行建模和定量分析,通過交互之間的微博交互行為發(fā)現(xiàn)潛在的用戶關系。文中的方法在分布式云計算平臺實驗環(huán)境下能大大提高對用戶交互行為的分析效率。
實驗表明在所有交互行為中,轉發(fā)在微博活動中占主導地位。即使在單邊通信關系中,微博用戶更愿意從其他人那里獲取信息:用戶更愿意作信息接收者、傳播者而不是信息發(fā)布者;我們發(fā)現(xiàn)用戶發(fā)表的微博量與用戶的關注數(shù)量正相關,而用戶的粉絲數(shù)量對用戶的微博交互行為幾乎沒有影響。本文還對新浪微博用戶行為的細節(jié)和用戶的交互隨時間動態(tài)變化模式進行了研究,發(fā)現(xiàn)用戶的轉發(fā)對象會隨著時間的推移而變化,而用戶直接交流的用戶集則相對穩(wěn)定。在實驗中還發(fā)現(xiàn),用戶間的關系強度會隨著時間而變化,互相提及的用戶關系的持久性更強。
在接下來的工作中,我們準備進一步完善用戶的交互模型,分析交互行為相似用戶的共有特點并利用該交互模型進行用戶推薦以及用戶在社區(qū)內(nèi)的影響力排序。
參考文獻
[1] 袁晶,謝幸.基于大規(guī)模行為數(shù)據(jù)的用戶理解[J].中國計算機學會通訊,2014,10(5):14-17.
[2] Tiancheng L,Jie T,John H,et al.Learning to Predict Reciprocity and Triadic Closure in Social Networks[J].ACM Transactions on Knowledge Discovery from Data,2013,7(2):5.
[3] 肖宇,許煒,商召璽.微博用戶區(qū)域影響力識別算法及分析[J].計算機科學,2012,39(9):38-42.
[4] Cha M,Haddadi H,Benecenuto F,et al.Measuring use rinfluence in twitter: The million follower fallacy[C]//ICWSM2010:Proceedings of International AAAI Conference on Weblogs and Social Media, Washington,DC,May 23-26, 2010 California:AAAI,2010.
[5] 曹玖,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預測[J].計算機學報,2014,37(4):779-790.
[6] Hopcroft J,Lou T,Tang J.Who will follow you back? Reciprocal relationship prediction[C]//CIKM2011:Proceedings of the 20th ACM International Conference on Information and Knowledge Management,Scotland,UK,24th-28th October 2011.New York:ACM,2011:1137-1146.
[7] Tang J,Wu S,Sun J,et al.Cross-domain collaboration recommendation[C]//KDD2012:Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Beijing,August 12-16,2012.New York:ACM,2012.
[8] 郭磊,馬軍,陳竹敏.一種信任關系強度敏感的社會化推薦算法[J].計算機研究與發(fā)展,2013,50(9):1805-1813.
[9] Tang W,Zhuang H,Tang J.Learning to infer social ties in large networks[C]//ECML/PKDD2011:Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases,Athens,Greece,5-9 September,2011.Berlin:Springer,2011:381-397.
[10] Eric G,Karrie K.Predicting Tie Strength With Social Media[C]//CHI2009: Proceedings of the 27th International Conference on Human Factors in Computing Systems, Boston,4-9 April,2009.New York:ACM,2009.
[11] Kahanda I,Nevile J.Using transactional information to predict link strength in online social networks[C]//ICWSM2009:Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media, San Jose, California, 17-20 May,2009.California:AAAI,2009.
[12] Hannon J,McCarthy K,Smyth B.Finding useful users on twitter:Twittomender the followee recommender[C]//ECIR2011:Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland,18-21 April,2011.Berlin:Springer,2011.
[13] Mark S G.The Strength of Weak Ties[J].American Journal of Sociology,1973,78(6):1360-1380.
收稿日期:2015-02-15。國家自然科學基金項目(61272109);中央高?;究蒲袠I(yè)務費專項資金項目(CZY15006)。劉晶,講師,主研領域:社會媒休,數(shù)據(jù)挖掘。李琳,工程師。李石君,教授。
中圖分類號TP393
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.07.009
ON USERS RELATIONSHIP BASED ON LARGE-SCALE BEHAVIOUR DATA IN SOCIAL NETWORKS
Liu Jing1,2Li Lin3Li Shijun1
1(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)2(CollegeofComputerScience,South-CentralUniversityforNationalities,Wuhan430074,Hubei,China)
3(WuhanDigitalEngineeringResearchInstitute,Wuhan430074,Hubei,China)
AbstractUser relationship is the basis of microblogging social network formation. To analyse users relationship can help the better study in regard to the formation of social networks and the messages dissemination patterns, etc. In this paper we analyse and process massive microblogging data of more than one million users, and use information theory to analyse and compare the features of users microblogging behaviour, construct active users interaction network and observe its dynamics property, as well as analyse the online behaviour patterns and features of user groups in social networks. Experiments show that in microblogging interactions, direct interactive relationship between users are relatively stable and will not change along with the time going, while their forwarding objects are constantly change, that is, the groups actually concerned by the users are dynamically changing.
KeywordsSocial networkUser behaviourMicroblogInteraction