李佳 肖基毅 吳霖
摘要:以新浪微博為研究平臺,隨機獲取微博用戶數(shù)據(jù)作為研究樣本,通過共鏈關(guān)系構(gòu)建社會網(wǎng)絡(luò),利用聚類分析方法對樣本進行微博關(guān)注好友的網(wǎng)絡(luò)群體分析,網(wǎng)絡(luò)內(nèi)部子結(jié)構(gòu)分析和個體角色分析。進而從微博用戶好友數(shù)據(jù)中挖掘關(guān)注對象的特征和關(guān)注對象間的關(guān)聯(lián)特征,并對改進微博用戶關(guān)注好友的推薦和信息推送提出一些建議。
關(guān)鍵詞:微博社區(qū);用戶關(guān)系;特征分析;關(guān)注推薦
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)16-3943-05
Abstract: With sina microblog platform for research, access to user data as the research samplerandomly, build social networksby public chain relationship, analyze microblogfriends network group, network internal substructure and the individual character using of clustering analysis. Then mining the characteristics of friends and the connections between them from data of they own, and to improve the recommendationof the microblogging users about his best friend's and the information push to some users.
Key word: the microblogging community; user relationship; characteristics analysis; recommend attention
微博,即微博客(Microblog)的簡稱,是一個基于用戶關(guān)系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組建個人社區(qū),以140字左右的文字更新信息,并實現(xiàn)即時分享。最早也是最著名的微博是美國的twitter。2007年5月,飯否網(wǎng)成立,這是中國國內(nèi)第一家微博網(wǎng)站。此后,嘰歪、做啥網(wǎng)、騰訊“滔滔”、嘀咕等微博網(wǎng)站如雨后春筍般大量涌現(xiàn)。2009年8月份中國最大的門戶網(wǎng)站新浪網(wǎng)推出“新浪微博”內(nèi)測版,成為門戶網(wǎng)站中第一家提供微博服務(wù)的網(wǎng)站,微博正式進入中文上網(wǎng)主流人群的視野。 如今微博已經(jīng)不再是一個新鮮的名詞。中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布數(shù)據(jù)顯示[1],截至2013年12月,中國網(wǎng)民規(guī)模達6.18億,據(jù)統(tǒng)計網(wǎng)民中微博使用率為45.5%,微博已經(jīng)成為人們表達思想,傳播信息和交流學習的平臺。
受到智能手機的推廣普及,手機端應用的使用獨占性較強,類似平臺性手機即時通信的快速發(fā)展及其對微博功能的高度重合分流了部分手機微博用戶,使得微博用戶略有下降。一些人認為,隨著微博的發(fā)展并進入穩(wěn)定期,一些營銷賬號、僵尸賬號的主動或被動消失,可能是微博用戶下降的重要因素。對已注冊了微博的人,用戶體驗不好,最多是不用;減少的大部分可能還是機器人。因此微博的自我進化和發(fā)展更新已經(jīng)到了一個用戶關(guān)系結(jié)構(gòu)趨于合理固化的階段。
微博用戶如此龐大,微博平臺上的用戶信息量和微博消息數(shù)量驚人,如何更加有效的挖掘用戶之間的網(wǎng)絡(luò)關(guān)系,更加合理的了解用戶需求,更加合理的劃分用戶群體一直是微博用戶關(guān)系挖掘研究領(lǐng)域的熱點話題。然而目前的研究都是對熱點人物,熱點話題的研究,沒有對微博用戶群體進行特征關(guān)系的更普遍性的特征分析研究。
微博社區(qū)群體的挖掘,不同的分類挖掘方式會得到不同的社區(qū)群體。傳統(tǒng)的網(wǎng)絡(luò)群體的分類有很多,常見的有:家庭、同學、同事、朋友等社區(qū),這些社區(qū)和現(xiàn)實世界中常見的個人社會圈有很多相似之處[3]。而微博用戶按照個人興趣構(gòu)建的社區(qū)網(wǎng)絡(luò)更加多元和復雜化,這種社區(qū)群體在現(xiàn)實社會中受到地區(qū)、性別、學歷、環(huán)境等條件的限制很難組合起來,但以互聯(lián)網(wǎng)為基礎(chǔ)的微博網(wǎng)絡(luò)平臺上就很容易實現(xiàn)。這種根據(jù)興趣或相似性特征構(gòu)建的社區(qū)網(wǎng)絡(luò)的關(guān)系對好友推薦以及其他信息推送都有很好的指導性作用。
對微博社區(qū)群體的挖掘,楊方方提出了一組人物相關(guān)性的計算方法,并給出了人物網(wǎng)絡(luò)的構(gòu)建方法。根據(jù)數(shù)據(jù)的特點,選擇適合的人物相關(guān)性方法進行組合即可得到人物之間的相關(guān)性計算結(jié)果,并通過網(wǎng)絡(luò)構(gòu)建方法構(gòu)建相關(guān)的網(wǎng)絡(luò),在相關(guān)性網(wǎng)絡(luò)的基礎(chǔ)上開展了團體挖掘的工作,介紹了網(wǎng)絡(luò)分析的概念和應用于團體挖掘的GN算法[4]。何黎等利用UCINET軟件進行基于(Girvan andNewman' s)算法的社區(qū)劃分,通過設(shè)置區(qū)間范圍,選擇出模塊度值最大的劃分方式,從網(wǎng)絡(luò)密度、聚類系數(shù)和平均距離三方而分析,選取的4個社區(qū)均優(yōu)于劃分前的社會網(wǎng)絡(luò),說明社區(qū)劃分是有效的[5]。袁園等以新浪微博為研究平臺,隨機抽取部分用戶及其關(guān)注對象數(shù)據(jù)作為研究樣本,通過共鏈關(guān)系建立社會網(wǎng)絡(luò)結(jié)構(gòu)[6]。
本文就是以新浪微博500個用戶為研究樣本,使用java語言和微博開放平臺提供的SDK對用戶數(shù)據(jù)進行分析處理,使用UCINET軟件,利用共鏈關(guān)系構(gòu)建社會網(wǎng)絡(luò)。通過聚類分析方法,挖掘微博用戶之間的關(guān)系特征,對微博用戶關(guān)注好友的推薦和其他信息推送提供一些建議。
1 數(shù)據(jù)處理
目前由于新浪微博API對friendships/friends接口實行了限制,只提供獲取自己關(guān)注好友的權(quán)限。因此用戶關(guān)系樣本沒有從新浪微博平臺上直接獲取最新的用戶,而是取自數(shù)據(jù)堂會員ckj1989提供的隨機獲取的500條用戶關(guān)系數(shù)據(jù)[2]。,該文首先對從數(shù)據(jù)堂網(wǎng)站下載新浪微博500條用戶關(guān)系(如圖1所示,由于數(shù)據(jù)量較大和頁面寬度限制,僅列出12條用戶部分信息,下同),使用java語言和新浪微博開發(fā)平臺官方提供的SDK對該數(shù)據(jù)進行處理并從該平臺上獲取關(guān)注好友信息。經(jīng)過若干步程序運算處理,獲取共鏈關(guān)系數(shù)據(jù),生成網(wǎng)絡(luò)社區(qū)群圖。具體操作步驟如下:
1) 使用java語言編寫程序從500個用戶關(guān)系文件中獲取所關(guān)注的全部好友,共42122個被這500個用戶關(guān)注的好友,利用新浪微博開放平臺提供的SDK,通過users/show接口獲取關(guān)注好友的基本信息(如圖2),并按被關(guān)注頻次降序排列(每一行第一個逗號之前的數(shù)字表示該被關(guān)注好友的在500個微博用戶中被關(guān)注的頻次)。圖中現(xiàn)示this user not exists表示該用戶數(shù)據(jù)被官方關(guān)閉或注銷。
2) 利用獲得的數(shù)據(jù),使用java語言編寫程序生成被關(guān)注好友的共鏈關(guān)系下三角矩陣(按被關(guān)注頻次降序排列,42122階矩陣),如下表3所示(由于篇幅有限只截取了部分數(shù)據(jù)表)。矩陣中單元格U(i,j)表示i和j同時被關(guān)注的頻次,同時被關(guān)注的頻次越高表示兩者關(guān)系越強,相似度越高。
3) 對表3微博關(guān)注好友的共鏈矩陣分析,當被關(guān)注好友頻次小于16時,矩陣中將出現(xiàn)大量零值,因此選取被關(guān)注頻次前277個微博用戶進行分析,利用UCINET軟件對277階的關(guān)注好友矩陣進行二值化處理(菜單導航:transform>symmetrize),然后把處理后的共鏈關(guān)系矩陣導入UCINET軟件(菜單導航:network>centrality>degree)生成被關(guān)注好友的社區(qū)群圖,如下圖3所示(由于篇幅有限圖中離群點成員僅顯示了部分)。
2 數(shù)據(jù)分析和討論
2.1微博關(guān)注好友的網(wǎng)絡(luò)群體分析
采用中心度指標(Centrality)分析判斷微博用戶在整體網(wǎng)絡(luò)中的重要性,中心度指標主要分為兩種:一種是點度中心度,它刻畫的是個體之間發(fā)生關(guān)系的能力;另一種是中間中心度,它刻畫的是個體控制網(wǎng)絡(luò)中其他個體的能力[7]。
1) 點度中心的分析
將二值化處理的277階關(guān)注好友的共鏈矩陣導入UCINET(菜單導航:Network>Centrality>Degree),生成277個關(guān)注好友社群節(jié)點的點度中心度,如表2所示(限于篇幅僅截取排名靠前的12個關(guān)注好友進行展示,下同):
表2中給出了每個關(guān)注好友的序號(OrderNo)、名字(Name)、絕對點度中心度(Degree)和相對點度中心度(NrmDegree)。UCINET同時分析給出了關(guān)注好友社群的點度中心:Network Centralization = 33.00%,這說明此社群的點度中心度并不是很高,這可能跟數(shù)據(jù)隨機選取,而不是針對特殊群體(如熱點人物)有關(guān),這反而更能體現(xiàn)了該方法結(jié)論的普遍性。其中點度中心度降序排名前8的關(guān)注好友是:240號韓庚、213號胡歌、82號全球超級時尚、244號郭德綱、239號明道、223號佟大為、150號服飾搭配控、109號閨蜜至上。此結(jié)果說明在該微博社群的溝通交流中,這些被關(guān)注的好友與500個微博用戶關(guān)系密切,是樣本用戶關(guān)注的核心對象。
2) 中間中心度分析
將二值化處理的277階關(guān)注好友的共鏈矩陣導入UCINET(菜單導航:Network>Centrality>Freeman Betweenness>Node Betweenness),生成277個關(guān)注好友社群節(jié)點的中間中心度,如表3所示:
表3中給出了每個關(guān)注好友的序號(OraderNo)、姓名(Name)絕對中間中心度(Betweenness)和相對中間中心度(nBetweenness)。UCINET同時分析給出了關(guān)注好友社群的中間中心指數(shù):Network Centralization Index = 5.76%,這說明此社群的中間中心度并不是很高,同樣這可能跟數(shù)據(jù)隨機選取,而不是針對特殊群體(如熱點人物)有關(guān),這反而更能體現(xiàn)了該方法結(jié)論的普遍性。其中點度中心度降序排名前8的關(guān)注好友是:240號韓庚、82號全球超級時尚、213號胡歌、244號郭德綱、243號李厚霖、275號非誠勿擾、21號女人幫大本營、223號佟大為。此結(jié)果說明在該微博社群的結(jié)構(gòu)中,這些被關(guān)注的好友具有相對較高的資源控制盒鏈接互通功能,處在所有微博關(guān)注好友的“中間位置”。
從以上兩個方面對中心度分析可以看出240號韓庚、82號全球超級時尚、213號胡歌、244號郭德綱、223號佟大為同時具有相對較高的兩種中心度表現(xiàn),說明他們居于該樣本社群的核心位置。是500個微博用戶關(guān)注的焦點,也可能是微博用戶借以聯(lián)系其他更廣泛用戶的中間橋梁。
2.2 微博關(guān)注好友網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)分析
為了刻畫這些關(guān)注好友的內(nèi)部之間的聯(lián)系屬性,通過成分分析和派系分析進一步對該群體的內(nèi)部結(jié)構(gòu)進行分析研究。尋找該網(wǎng)絡(luò)內(nèi)部成員間關(guān)系的緊密程度,以期更有力的表現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)特點。
1) 群體成分分析
將二值化處理的277階關(guān)注好友的共鏈矩陣導入UCINET(菜單導航:Network>Regions>Components>Simple Graphs),生成成分分析清單,如表7所示:
從表7給出了277個被關(guān)注好友分成了123個成分,成分1由偵探柯南小說集等155個成員組成,其他成分都只有一個成員,這說明該社網(wǎng)絡(luò)內(nèi)部成員之間聯(lián)系相對緊密和集中。
圖4可以看出277個關(guān)注好友社群多達345個派系,由此可見派系眾多,群體中個體之間關(guān)系錯綜復雜,各個派系成員的重疊度很高。結(jié)合表5和表6可以看出,派系10、1、303擁有較多的成員,但相對于277個成員數(shù)并是很多,這說明派系多而雜,群體內(nèi)部緊密性不高。240號韓庚、213號胡歌在較多的派系中都有出現(xiàn),說明他們在該網(wǎng)絡(luò)中的核心成員,能夠和大多數(shù)其他關(guān)注好友間有聯(lián)系。還有大量成員出現(xiàn)在幾十個派系中,他們是該網(wǎng)絡(luò)的主干成員,發(fā)揮重要作用,另外還有123個成員不屬于任何派系,他們在該網(wǎng)絡(luò)的貢獻幾乎為零,處在網(wǎng)絡(luò)的邊緣。
由群體內(nèi)部結(jié)構(gòu)分析可見,隨機抽取的微博用戶所關(guān)注的好友構(gòu)成的網(wǎng)絡(luò),結(jié)構(gòu)比較復雜,派系較多,派系之間區(qū)別不明顯。從單個成員角度來看,大部分成員存在于很多派系之中,這個說明個體的特征較多樣性明顯。社區(qū)群體內(nèi)部之間多以名人熱點方知名用戶為核心成員,這和現(xiàn)實人們的興趣愛好廣泛,熱點人物或事件受關(guān)注較多時一致的。
2.3關(guān)注好友在網(wǎng)絡(luò)中的角色與位置分析
以上從兩個方面對關(guān)注好友的整體網(wǎng)絡(luò)從結(jié)構(gòu)上進行了分析,下面將從內(nèi)容上對每個關(guān)注好友的角色位置進行分析。利用UCINET(菜單導航:Network>Subgroups>Cliques)軟件中的層次聚類分析工具來挖掘社群的聚類結(jié)果,如圖5所示(由于成員較多全部成員顯示分辨率不佳)。
通過放大圖5可以看出,213號胡歌與240韓庚、215號淘寶五十元專區(qū)與239號明道、115號戀上微小說與117誓言心語等聚成小類他們在該社群網(wǎng)絡(luò)中具有較高層次的相似性,結(jié)構(gòu)位置對等。223號佟大為與244郭德綱聚成第一小類后與265號六六構(gòu)成第二小類,而后再與李厚霖構(gòu)成一類,這種情況說明六六在第一小類與李厚霖之間起到了橋梁作用。通過聚類發(fā)現(xiàn),微博名人大多在較高程度上聚集在一起,而后在與其他生活、體育、娛樂、新聞、科技類主題微博構(gòu)成關(guān)聯(lián)。
3 結(jié)束語
微博用戶的需求往往具有多元性和分散性的特點。 微博用戶形成的群體網(wǎng)絡(luò)錯綜復雜,從整體分析效果上看,沒有明顯的結(jié)構(gòu)特征,社群成員之間聯(lián)系緊密性并不高,成員之間主要被一些名人或熱點類微博用戶所聯(lián)系起來。從個體層面看,用戶隨機性組合進行關(guān)注好友的群體分析可能過于分散,下一步將在對用戶類別分類的基礎(chǔ)上進行社群分析研究。
參考文獻:
[1] 第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/t20140305_46240.htm.
[2] 新浪微博500條用戶關(guān)系[EB/OL]http://www.datatang.com/data/46116.
[3] Gruzd A,Wwllman B,Takhteyev Y.Imaginging Twitter as an Imagined Community[J].American Behavioral Scientist, 2011,55(10):1294-1318.
[4] 楊方方.面向社會化媒體的社會網(wǎng)絡(luò)挖掘與分析[D]. 哈爾濱:哈爾濱工業(yè)大學,2011.
[5] 何黎,何躍,霍葉青.微博用戶特征分析和核心用戶挖掘[J].信息系統(tǒng),2011,34(11):121-125.
[6] 袁園,孫霄凌,朱慶華.微博用戶關(guān)注興趣的社會網(wǎng)絡(luò)分析[J].情報分析與研究,2012(2):68-75.
[7] 張玥,朱慶華.Web2.0環(huán)境下學術(shù)交流的社會網(wǎng)絡(luò)分析——以博客為例[J].情報理論與實踐,2009,32(8):28-32.