陳智 梁娟 謝兵 傅籬
摘要:隨著微博用戶的不斷增加,微博用戶網(wǎng)絡(luò)也在不斷地變化和發(fā)展。該文首先討論了微博用戶網(wǎng)絡(luò)的現(xiàn)狀和微博用戶網(wǎng)絡(luò)分析的內(nèi)容,然后基于實(shí)際的微博用戶數(shù)據(jù),研究微博用戶網(wǎng)絡(luò)節(jié)點(diǎn)的度分布。在此基礎(chǔ)上,分析影響微博用戶節(jié)點(diǎn)關(guān)鍵程度的因素,提出了一種結(jié)合用戶活躍度、用戶粉絲重要程度的微博關(guān)鍵用戶發(fā)現(xiàn)算法。該算法充分考慮了微博高時(shí)效性的特點(diǎn),能夠從不斷變化的微博用戶網(wǎng)絡(luò)中,快速發(fā)現(xiàn)關(guān)鍵用戶。
關(guān)鍵詞:新浪微博;微博用戶網(wǎng)絡(luò);節(jié)點(diǎn)度分析;關(guān)鍵用戶發(fā)現(xiàn)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)17-0234-03
1概述
隨著智能設(shè)備的普及以及互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,在線社交網(wǎng)絡(luò)逐漸成為人們生活和工作的一部分。作為國(guó)內(nèi)最主要的在線社交網(wǎng)絡(luò)之一,微博以其無(wú)界共享、以個(gè)體為核心的特征得到了廣泛的支持和陜速發(fā)展。新浪微博發(fā)布的《2016微博用戶發(fā)展報(bào)告》顯示:2016年,微博月活躍人數(shù)和日活躍人數(shù)都以30%以上的高速度增長(zhǎng)。2017年2月,微博發(fā)布了2016年第四季度及全年財(cái)報(bào)。截至2016年底,微博月活躍用戶達(dá)到了3.13億,移動(dòng)端用戶占比首次達(dá)到90%。
微博用戶的不斷增長(zhǎng),使得微博作為社交媒體的平臺(tái)性作用不斷凸顯。個(gè)人用戶以微博作為發(fā)布信息、獲取信息的手段。首先,基于微博的跨地域性,個(gè)人用戶可以在足不出戶的條件下,通過(guò)發(fā)表微博、評(píng)論微博、發(fā)布短視頻或直播等多種方式,使自己成為外發(fā)的信息源,實(shí)現(xiàn)與他人的交流;其次,基于微博的隱匿性,個(gè)人用戶可以更好的根據(jù)自己的興趣選擇虛擬的社會(huì)群,更自由地表達(dá)對(duì)各種社會(huì)事件的觀點(diǎn);再次,基于微博的隨意性,個(gè)人用戶也可以充分展示個(gè)人個(gè)性,突出所長(zhǎng),獲得社會(huì)認(rèn)可,而不用像在真實(shí)的社會(huì)環(huán)境中那樣在意是否尷尬等問(wèn)題。企業(yè)用戶以微博作為廣告宣傳和在線銷售的平臺(tái)。隨著微博用戶數(shù)的不斷增多,企業(yè)早已認(rèn)識(shí)到微博在企業(yè)宣傳、新產(chǎn)品展示、客戶興趣分析、銷售預(yù)測(cè)等方面的重要作用,隨著微博用戶白領(lǐng)化以及用戶對(duì)微博內(nèi)容付費(fèi)的不斷認(rèn)可,企業(yè)用戶更可以利用微博,實(shí)現(xiàn)企業(yè)的在線盈利。與個(gè)人用戶相比,企業(yè)用戶多數(shù)活動(dòng)為發(fā)布信息,而較少地評(píng)論其他用戶微博。
作為社交網(wǎng)絡(luò),微博復(fù)制了現(xiàn)實(shí)生活中人類社會(huì)的結(jié)構(gòu),同時(shí)也具備信息網(wǎng)絡(luò)的特性,表現(xiàn)在以下幾點(diǎn)。第一,微博具有數(shù)據(jù)個(gè)性化發(fā)布、社會(huì)性傳播和結(jié)合用戶社交的特點(diǎn);第二,微博信息在網(wǎng)絡(luò)上呈網(wǎng)狀交差擴(kuò)展;第三,微博信息擴(kuò)張速度快,隨著轉(zhuǎn)發(fā)數(shù)量的增加,一條微博往往能以指數(shù)速度傳播;第四,微博信息的傳播能力與最初發(fā)布微博用戶的人物影響力有密切關(guān)系,其擴(kuò)展能力取決于微博用戶網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。因此,對(duì)微博用戶網(wǎng)絡(luò)特性的分析,是分析用戶興趣度、提取敏感話題、輿情監(jiān)測(cè)以及情感傳染分析的基礎(chǔ)。
2微博用戶網(wǎng)絡(luò)分析的內(nèi)容
微博用戶所組成的網(wǎng)絡(luò)可以看作一個(gè)有向無(wú)權(quán)圖,每個(gè)微博用戶是圖中的一個(gè)節(jié)點(diǎn),用戶的粉絲數(shù)量決定了節(jié)點(diǎn)的入度,用戶的關(guān)注數(shù)量決定了節(jié)點(diǎn)的出度。對(duì)微博用戶網(wǎng)絡(luò)的分析通常以以下三個(gè)方面進(jìn)行。
1)節(jié)點(diǎn)分析
節(jié)點(diǎn)分析首先收集微博用戶的基本信息,包括用戶ID、用戶名、VIP情況、用戶等級(jí)、地理位置、關(guān)注數(shù)、粉絲數(shù)、粉絲列表、發(fā)表微博數(shù)等,然后通過(guò)使用貝葉斯網(wǎng)絡(luò)等分類算法進(jìn)行用戶節(jié)點(diǎn)屬性分析,并結(jié)合人工標(biāo)識(shí)和領(lǐng)域?qū)<抑R(shí)等建立用戶模型,進(jìn)而篩選出重要的用戶節(jié)點(diǎn)。通過(guò)對(duì)用戶節(jié)點(diǎn)的中心性和影響力進(jìn)行進(jìn)一步研究,為輿情監(jiān)測(cè)、用戶推薦或?yàn)槠渌治鎏峁┲С帧?/p>
2)關(guān)系分析
微博用戶之間的關(guān)注關(guān)系構(gòu)成了微博用戶網(wǎng)絡(luò)的邊,單純地分析這種關(guān)注關(guān)系,可以得到微博用戶網(wǎng)絡(luò)的基本結(jié)構(gòu),進(jìn)而得到微博用戶的社交圈以及一條微博可能的傳播路徑及傳播方式。進(jìn)一步通過(guò)粉絲對(duì)被關(guān)注用戶所發(fā)表微博的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等活動(dòng),分析用戶關(guān)系網(wǎng)絡(luò)的特點(diǎn),可以預(yù)測(cè)微博用戶網(wǎng)絡(luò)中,潛在的關(guān)系鏈接,從而實(shí)現(xiàn)興趣話題、興趣用戶的友好推薦,提高微博用戶網(wǎng)絡(luò)的社交平臺(tái)能力。
3)網(wǎng)絡(luò)拓?fù)浞治?/p>
微博用戶網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)決定了一條微博的可能傳播路徑以及傳播速度。通過(guò)網(wǎng)絡(luò)拓?fù)浞治觯M(jìn)行話題跟蹤,可以有效地為輿情監(jiān)測(cè)提供的最佳監(jiān)測(cè)點(diǎn),提取相似用戶群和進(jìn)行網(wǎng)絡(luò)團(tuán)體挖掘等。
3微博用戶網(wǎng)絡(luò)節(jié)點(diǎn)分析
3.1微博數(shù)據(jù)獲取及預(yù)處理
本文對(duì)微博用戶網(wǎng)絡(luò)進(jìn)行分析,需要兩類微博數(shù)據(jù):一類是用戶基本數(shù)據(jù),主要包括微博用戶ID、關(guān)注數(shù)、粉絲數(shù)、粉絲列表、發(fā)表微博數(shù)等,用于對(duì)微博用戶節(jié)點(diǎn)進(jìn)行度分析;另一類是某個(gè)用戶最近發(fā)表的微博數(shù)據(jù),包括發(fā)表微博的時(shí)間、轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)等,用于評(píng)價(jià)微博用戶的活躍度,發(fā)現(xiàn)關(guān)鍵用戶。
新浪微博為獲取微博數(shù)據(jù)提供了開(kāi)放接口API,可以實(shí)現(xiàn)微博、評(píng)論、用戶及關(guān)系的各種操作,但是由于其采用的Oauth2.0認(rèn)證授權(quán)的模式及訪問(wèn)權(quán)限限制,使用起來(lái)并不是很方便。因此,本文使用的用戶基本數(shù)據(jù)來(lái)自專門的數(shù)據(jù)提供網(wǎng)站“爬盟”,而實(shí)時(shí)獲取的微博數(shù)據(jù)則使用爬蟲程序,以模擬瀏覽器訪問(wèn)的形式,通過(guò)解析得到的HTML文件獲取。
網(wǎng)上直接得到的用戶基本數(shù)據(jù)采用CSV格式存儲(chǔ),每條用戶數(shù)據(jù)包括戶ID、屏幕名、性別、VIP描述、自我介紹、地區(qū)、用戶名、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、工作、教育、頭像、加V、標(biāo)簽、生日、QQ、Msn、Email、創(chuàng)建時(shí)間、關(guān)注列表、會(huì)員、達(dá)人、等級(jí),共24個(gè)數(shù)據(jù)項(xiàng),很多用戶的數(shù)據(jù)項(xiàng)內(nèi)容并不完整,部分用戶的數(shù)據(jù)存在缺漏,缺少關(guān)鍵的數(shù)據(jù)項(xiàng)。在使用之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,僅保留在節(jié)點(diǎn)度分析中需要的用戶ID、關(guān)注數(shù)、粉絲數(shù)、粉絲列表、發(fā)表微博數(shù),5個(gè)數(shù)據(jù)項(xiàng),并刪除了存在缺漏的用戶數(shù)據(jù)。經(jīng)過(guò)預(yù)處理后,實(shí)際使用259836個(gè)用戶基本數(shù)據(jù)進(jìn)行后續(xù)的分析。
3.2微博用戶節(jié)點(diǎn)的度分布
節(jié)點(diǎn)的度是網(wǎng)絡(luò)特征分析最基本,也是最重要的特征度量之一,對(duì)一個(gè)網(wǎng)絡(luò)而言,一個(gè)節(jié)點(diǎn)的度是直接與這個(gè)節(jié)點(diǎn)相聯(lián)的其他節(jié)點(diǎn)的個(gè)數(shù)。微博用戶節(jié)點(diǎn)的度分布情況直接反映了用戶在微博用戶網(wǎng)絡(luò)中的重要程度。微博用戶節(jié)點(diǎn)的出度(關(guān)注數(shù))說(shuō)明了這個(gè)用戶對(duì)微博信息的關(guān)心程度,微博用戶節(jié)點(diǎn)的人度(粉絲數(shù))說(shuō)明了微博用戶在整個(gè)網(wǎng)絡(luò)社區(qū)中的重要程度。這里考慮單個(gè)微博用戶對(duì)微博用戶網(wǎng)絡(luò)信息傳播的影響力,因此只分析入度的分布規(guī)律。
用橫軸表示微博用戶節(jié)點(diǎn)的粉絲數(shù),縱軸表示具有相同粉絲數(shù)的微博用戶節(jié)點(diǎn)個(gè)數(shù),可以得到微博用戶節(jié)點(diǎn)的人度分布情況,如圖1。
圖1中,沒(méi)有顯示粉絲數(shù)小于10微博用戶節(jié)點(diǎn)個(gè)數(shù),這樣的節(jié)點(diǎn)共96165個(gè),占比37.01%;當(dāng)粉絲數(shù)為439時(shí),微博用戶節(jié)點(diǎn)個(gè)數(shù)首次下降到10個(gè),粉絲數(shù)大于439的節(jié)點(diǎn)數(shù)為8378個(gè),占比3.22%。因此,圖1顯示的是其余155293個(gè)微博用戶節(jié)點(diǎn)(占比59.77%)的入度分布情況,即隨著粉絲數(shù)的增加,具有該粉絲數(shù)的微博用戶節(jié)點(diǎn)迅速減少。
對(duì)微博用戶節(jié)點(diǎn)進(jìn)行度分布分析,可以看作是關(guān)鍵用戶發(fā)現(xiàn)的預(yù)處理過(guò)程,依據(jù)度分布分析的結(jié)果,可以對(duì)微博用戶節(jié)點(diǎn)進(jìn)行過(guò)濾,直接忽略97%左右的微博用戶,提高關(guān)鍵用戶發(fā)現(xiàn)算法的執(zhí)行效率。
4微博關(guān)鍵用戶的快速發(fā)現(xiàn)
4.1用戶關(guān)鍵程度的影響因素
在微博用戶網(wǎng)絡(luò)中,判斷一個(gè)用戶的重要程度,除了和該微博用戶節(jié)點(diǎn)的粉絲數(shù)有關(guān),還和以下兩個(gè)因素直接相關(guān)。
1)用戶的活躍度
對(duì)于粉絲數(shù)相同的用戶,活躍度越高其影響力越大。微博用戶的活躍度表現(xiàn)為一個(gè)用戶發(fā)表、轉(zhuǎn)發(fā)、評(píng)論微博的數(shù)量,其中,一個(gè)用戶發(fā)表或轉(zhuǎn)發(fā)的微博會(huì)被推薦給關(guān)注者,而其評(píng)論的內(nèi)容是否會(huì)引起其他用戶興趣,往往具有一定隨意性。所以在評(píng)價(jià)用戶活躍度時(shí),只考慮用戶發(fā)表或轉(zhuǎn)發(fā)微博的數(shù)量。
另外,微博具有很高的時(shí)效性,距離當(dāng)前越近發(fā)表的微博,被閱讀的可能性越高。而很久以前發(fā)表的微博,則可能無(wú)人問(wèn)津。因此,在計(jì)算活躍度時(shí),用戶發(fā)表或轉(zhuǎn)發(fā)微博的數(shù)量需要乘以時(shí)間權(quán)值。由于一條微博的時(shí)效性并不呈線性衰減,故引入模糊數(shù)學(xué)中的戒上型隸屬函數(shù)估算時(shí)間權(quán)值。一條微博的時(shí)效通常在一周左右,在確定隸屬函數(shù)個(gè)參數(shù)值時(shí),做如下約定:第一,新微博發(fā)表1-2天會(huì)被頻繁瀏覽和傳播,此時(shí)活躍度權(quán)值為1;第二,微博發(fā)表的一周之內(nèi),活躍度權(quán)值會(huì)逐漸降低;第三,微博發(fā)表超過(guò)一周,活躍度權(quán)值會(huì)迅速下降;第四,微博權(quán)值最終穩(wěn)定在0.1左右,不再下降。因此,可計(jì)算得到參數(shù)a,b,c的值為:由此參數(shù)得到用戶活躍度參數(shù)曲線如圖2。
2)用戶粉絲的重要程度
除了活躍度之外,一個(gè)用戶的粉絲的重要程度越高,其發(fā)表的微博就越容易被更多的人看到,也會(huì)一定程度提高用戶的重要性。
在計(jì)算粉絲的重要程度時(shí),理論上,同樣需要考慮三個(gè)方面內(nèi)容:粉絲數(shù)、活躍度、粉絲的重要程度。但是這樣做,會(huì)使算法進(jìn)入復(fù)雜的遞推過(guò)程,同時(shí),由于微博龐大的用戶數(shù)量,也會(huì)是算法運(yùn)行緩慢,讓人難以接受。因此,在算法中只考慮當(dāng)前微博用戶粉絲的粉絲數(shù),并乘以粉絲權(quán)值,計(jì)算用戶的重要程度。
4.2微博關(guān)鍵用戶快速發(fā)現(xiàn)算法
綜合以上的討論,可以得到結(jié)合用戶活躍度、用戶粉絲重要程度的關(guān)鍵用戶快速發(fā)現(xiàn)算法。為方便算法的表示,引入以下標(biāo)記:
4.3實(shí)驗(yàn)數(shù)據(jù)的執(zhí)行結(jié)果
分析實(shí)驗(yàn)數(shù)據(jù)中的259836個(gè)微博用戶節(jié)點(diǎn)的入度后,去除了明顯不能成為關(guān)鍵用戶的用戶數(shù)據(jù),進(jìn)而使用微博關(guān)鍵用戶快速發(fā)現(xiàn)算法對(duì)剩下的8378個(gè)用戶進(jìn)行處理,然后得到了關(guān)鍵度值最高的10個(gè)用戶,如表1。
分析實(shí)驗(yàn)數(shù)據(jù)的執(zhí)行結(jié)果可以發(fā)現(xiàn),用戶“2921020640”擁有遠(yuǎn)多于其他用戶粉絲數(shù),因此成為排名第1的關(guān)鍵用戶。排名第5和第6的用戶,雖然粉絲數(shù)差距不大,但是關(guān)鍵度值相差將近一倍,這主要是因?yàn)榕琶?的用戶在最近一周非常活躍,發(fā)表和轉(zhuǎn)發(fā)的微博數(shù)遠(yuǎn)超過(guò)排名第6的用戶。排名第8的用戶,雖然粉絲數(shù)少于排名第9的用戶,但是其粉絲的粉絲數(shù)較多,而排名第9的用戶,其粉絲多為“水軍”,也使兩者的評(píng)分差別較大。
在所得到的10位關(guān)鍵用戶中,有4位為VIP用戶,另外6位均為活躍在微博這一網(wǎng)絡(luò)社交平臺(tái)的非VIP用戶。另外需要說(shuō)明的是,由于微博關(guān)鍵用戶發(fā)現(xiàn)算法考慮了“時(shí)間”對(duì)用戶關(guān)鍵程度的影響,每次得到的用戶群會(huì)有所不同,而這種不同也符合微博用戶網(wǎng)絡(luò)動(dòng)態(tài)變化的特點(diǎn)。
5結(jié)束語(yǔ)
通過(guò)微博關(guān)鍵用戶發(fā)現(xiàn)算法,可以得到微博用戶網(wǎng)絡(luò)中最需要關(guān)注的用戶,對(duì)這些用戶的行為進(jìn)行監(jiān)測(cè),即可以對(duì)微博輿情進(jìn)行更有效的控制;另一方面,關(guān)鍵用戶也為微博推廣、廣告投放等商業(yè)活動(dòng)提供了參考。
微博用戶網(wǎng)絡(luò)分析更多體現(xiàn)的是微博社交網(wǎng)絡(luò)的靜態(tài)結(jié)構(gòu),通過(guò)分析微博用戶的度分布,進(jìn)而快速地發(fā)現(xiàn)關(guān)鍵用戶以及各個(gè)用戶群,可以為輿情控制、微博營(yíng)銷、微博廣告投放等活動(dòng)提供有力的參考。在對(duì)用戶關(guān)鍵程度的量化表示時(shí),充分考慮了微博高時(shí)效性、動(dòng)態(tài)變化的特點(diǎn)。微博關(guān)鍵用戶發(fā)現(xiàn)算法使用較簡(jiǎn)單的模型,簡(jiǎn)化了微博用戶關(guān)鍵程度的評(píng)價(jià),為快速找到新興的關(guān)鍵用戶提供了借鑒。當(dāng)然,由于算法僅運(yùn)行于部分微博用戶數(shù)據(jù),當(dāng)考慮整個(gè)微博用戶網(wǎng)絡(luò)時(shí),其可靠性、有效性也需要進(jìn)一步的研究、比較和討論。