国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新浪微博用戶網(wǎng)絡(luò)分析及關(guān)鍵用戶快速發(fā)現(xiàn)研究

2017-07-14 07:35:39陳智梁娟謝兵傅籬
電腦知識(shí)與技術(shù) 2017年17期
關(guān)鍵詞:新浪微博

陳智 梁娟 謝兵 傅籬

摘要:隨著微博用戶的不斷增加,微博用戶網(wǎng)絡(luò)也在不斷地變化和發(fā)展。該文首先討論了微博用戶網(wǎng)絡(luò)的現(xiàn)狀和微博用戶網(wǎng)絡(luò)分析的內(nèi)容,然后基于實(shí)際的微博用戶數(shù)據(jù),研究微博用戶網(wǎng)絡(luò)節(jié)點(diǎn)的度分布。在此基礎(chǔ)上,分析影響微博用戶節(jié)點(diǎn)關(guān)鍵程度的因素,提出了一種結(jié)合用戶活躍度、用戶粉絲重要程度的微博關(guān)鍵用戶發(fā)現(xiàn)算法。該算法充分考慮了微博高時(shí)效性的特點(diǎn),能夠從不斷變化的微博用戶網(wǎng)絡(luò)中,快速發(fā)現(xiàn)關(guān)鍵用戶。

關(guān)鍵詞:新浪微博;微博用戶網(wǎng)絡(luò);節(jié)點(diǎn)度分析;關(guān)鍵用戶發(fā)現(xiàn)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)17-0234-03

1概述

隨著智能設(shè)備的普及以及互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,在線社交網(wǎng)絡(luò)逐漸成為人們生活和工作的一部分。作為國(guó)內(nèi)最主要的在線社交網(wǎng)絡(luò)之一,微博以其無(wú)界共享、以個(gè)體為核心的特征得到了廣泛的支持和陜速發(fā)展。新浪微博發(fā)布的《2016微博用戶發(fā)展報(bào)告》顯示:2016年,微博月活躍人數(shù)和日活躍人數(shù)都以30%以上的高速度增長(zhǎng)。2017年2月,微博發(fā)布了2016年第四季度及全年財(cái)報(bào)。截至2016年底,微博月活躍用戶達(dá)到了3.13億,移動(dòng)端用戶占比首次達(dá)到90%。

微博用戶的不斷增長(zhǎng),使得微博作為社交媒體的平臺(tái)性作用不斷凸顯。個(gè)人用戶以微博作為發(fā)布信息、獲取信息的手段。首先,基于微博的跨地域性,個(gè)人用戶可以在足不出戶的條件下,通過(guò)發(fā)表微博、評(píng)論微博、發(fā)布短視頻或直播等多種方式,使自己成為外發(fā)的信息源,實(shí)現(xiàn)與他人的交流;其次,基于微博的隱匿性,個(gè)人用戶可以更好的根據(jù)自己的興趣選擇虛擬的社會(huì)群,更自由地表達(dá)對(duì)各種社會(huì)事件的觀點(diǎn);再次,基于微博的隨意性,個(gè)人用戶也可以充分展示個(gè)人個(gè)性,突出所長(zhǎng),獲得社會(huì)認(rèn)可,而不用像在真實(shí)的社會(huì)環(huán)境中那樣在意是否尷尬等問(wèn)題。企業(yè)用戶以微博作為廣告宣傳和在線銷售的平臺(tái)。隨著微博用戶數(shù)的不斷增多,企業(yè)早已認(rèn)識(shí)到微博在企業(yè)宣傳、新產(chǎn)品展示、客戶興趣分析、銷售預(yù)測(cè)等方面的重要作用,隨著微博用戶白領(lǐng)化以及用戶對(duì)微博內(nèi)容付費(fèi)的不斷認(rèn)可,企業(yè)用戶更可以利用微博,實(shí)現(xiàn)企業(yè)的在線盈利。與個(gè)人用戶相比,企業(yè)用戶多數(shù)活動(dòng)為發(fā)布信息,而較少地評(píng)論其他用戶微博。

作為社交網(wǎng)絡(luò),微博復(fù)制了現(xiàn)實(shí)生活中人類社會(huì)的結(jié)構(gòu),同時(shí)也具備信息網(wǎng)絡(luò)的特性,表現(xiàn)在以下幾點(diǎn)。第一,微博具有數(shù)據(jù)個(gè)性化發(fā)布、社會(huì)性傳播和結(jié)合用戶社交的特點(diǎn);第二,微博信息在網(wǎng)絡(luò)上呈網(wǎng)狀交差擴(kuò)展;第三,微博信息擴(kuò)張速度快,隨著轉(zhuǎn)發(fā)數(shù)量的增加,一條微博往往能以指數(shù)速度傳播;第四,微博信息的傳播能力與最初發(fā)布微博用戶的人物影響力有密切關(guān)系,其擴(kuò)展能力取決于微博用戶網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。因此,對(duì)微博用戶網(wǎng)絡(luò)特性的分析,是分析用戶興趣度、提取敏感話題、輿情監(jiān)測(cè)以及情感傳染分析的基礎(chǔ)。

2微博用戶網(wǎng)絡(luò)分析的內(nèi)容

微博用戶所組成的網(wǎng)絡(luò)可以看作一個(gè)有向無(wú)權(quán)圖,每個(gè)微博用戶是圖中的一個(gè)節(jié)點(diǎn),用戶的粉絲數(shù)量決定了節(jié)點(diǎn)的入度,用戶的關(guān)注數(shù)量決定了節(jié)點(diǎn)的出度。對(duì)微博用戶網(wǎng)絡(luò)的分析通常以以下三個(gè)方面進(jìn)行。

1)節(jié)點(diǎn)分析

節(jié)點(diǎn)分析首先收集微博用戶的基本信息,包括用戶ID、用戶名、VIP情況、用戶等級(jí)、地理位置、關(guān)注數(shù)、粉絲數(shù)、粉絲列表、發(fā)表微博數(shù)等,然后通過(guò)使用貝葉斯網(wǎng)絡(luò)等分類算法進(jìn)行用戶節(jié)點(diǎn)屬性分析,并結(jié)合人工標(biāo)識(shí)和領(lǐng)域?qū)<抑R(shí)等建立用戶模型,進(jìn)而篩選出重要的用戶節(jié)點(diǎn)。通過(guò)對(duì)用戶節(jié)點(diǎn)的中心性和影響力進(jìn)行進(jìn)一步研究,為輿情監(jiān)測(cè)、用戶推薦或?yàn)槠渌治鎏峁┲С帧?/p>

2)關(guān)系分析

微博用戶之間的關(guān)注關(guān)系構(gòu)成了微博用戶網(wǎng)絡(luò)的邊,單純地分析這種關(guān)注關(guān)系,可以得到微博用戶網(wǎng)絡(luò)的基本結(jié)構(gòu),進(jìn)而得到微博用戶的社交圈以及一條微博可能的傳播路徑及傳播方式。進(jìn)一步通過(guò)粉絲對(duì)被關(guān)注用戶所發(fā)表微博的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等活動(dòng),分析用戶關(guān)系網(wǎng)絡(luò)的特點(diǎn),可以預(yù)測(cè)微博用戶網(wǎng)絡(luò)中,潛在的關(guān)系鏈接,從而實(shí)現(xiàn)興趣話題、興趣用戶的友好推薦,提高微博用戶網(wǎng)絡(luò)的社交平臺(tái)能力。

3)網(wǎng)絡(luò)拓?fù)浞治?/p>

微博用戶網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)決定了一條微博的可能傳播路徑以及傳播速度。通過(guò)網(wǎng)絡(luò)拓?fù)浞治觯M(jìn)行話題跟蹤,可以有效地為輿情監(jiān)測(cè)提供的最佳監(jiān)測(cè)點(diǎn),提取相似用戶群和進(jìn)行網(wǎng)絡(luò)團(tuán)體挖掘等。

3微博用戶網(wǎng)絡(luò)節(jié)點(diǎn)分析

3.1微博數(shù)據(jù)獲取及預(yù)處理

本文對(duì)微博用戶網(wǎng)絡(luò)進(jìn)行分析,需要兩類微博數(shù)據(jù):一類是用戶基本數(shù)據(jù),主要包括微博用戶ID、關(guān)注數(shù)、粉絲數(shù)、粉絲列表、發(fā)表微博數(shù)等,用于對(duì)微博用戶節(jié)點(diǎn)進(jìn)行度分析;另一類是某個(gè)用戶最近發(fā)表的微博數(shù)據(jù),包括發(fā)表微博的時(shí)間、轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)等,用于評(píng)價(jià)微博用戶的活躍度,發(fā)現(xiàn)關(guān)鍵用戶。

新浪微博為獲取微博數(shù)據(jù)提供了開(kāi)放接口API,可以實(shí)現(xiàn)微博、評(píng)論、用戶及關(guān)系的各種操作,但是由于其采用的Oauth2.0認(rèn)證授權(quán)的模式及訪問(wèn)權(quán)限限制,使用起來(lái)并不是很方便。因此,本文使用的用戶基本數(shù)據(jù)來(lái)自專門的數(shù)據(jù)提供網(wǎng)站“爬盟”,而實(shí)時(shí)獲取的微博數(shù)據(jù)則使用爬蟲程序,以模擬瀏覽器訪問(wèn)的形式,通過(guò)解析得到的HTML文件獲取。

網(wǎng)上直接得到的用戶基本數(shù)據(jù)采用CSV格式存儲(chǔ),每條用戶數(shù)據(jù)包括戶ID、屏幕名、性別、VIP描述、自我介紹、地區(qū)、用戶名、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、工作、教育、頭像、加V、標(biāo)簽、生日、QQ、Msn、Email、創(chuàng)建時(shí)間、關(guān)注列表、會(huì)員、達(dá)人、等級(jí),共24個(gè)數(shù)據(jù)項(xiàng),很多用戶的數(shù)據(jù)項(xiàng)內(nèi)容并不完整,部分用戶的數(shù)據(jù)存在缺漏,缺少關(guān)鍵的數(shù)據(jù)項(xiàng)。在使用之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,僅保留在節(jié)點(diǎn)度分析中需要的用戶ID、關(guān)注數(shù)、粉絲數(shù)、粉絲列表、發(fā)表微博數(shù),5個(gè)數(shù)據(jù)項(xiàng),并刪除了存在缺漏的用戶數(shù)據(jù)。經(jīng)過(guò)預(yù)處理后,實(shí)際使用259836個(gè)用戶基本數(shù)據(jù)進(jìn)行后續(xù)的分析。

3.2微博用戶節(jié)點(diǎn)的度分布

節(jié)點(diǎn)的度是網(wǎng)絡(luò)特征分析最基本,也是最重要的特征度量之一,對(duì)一個(gè)網(wǎng)絡(luò)而言,一個(gè)節(jié)點(diǎn)的度是直接與這個(gè)節(jié)點(diǎn)相聯(lián)的其他節(jié)點(diǎn)的個(gè)數(shù)。微博用戶節(jié)點(diǎn)的度分布情況直接反映了用戶在微博用戶網(wǎng)絡(luò)中的重要程度。微博用戶節(jié)點(diǎn)的出度(關(guān)注數(shù))說(shuō)明了這個(gè)用戶對(duì)微博信息的關(guān)心程度,微博用戶節(jié)點(diǎn)的人度(粉絲數(shù))說(shuō)明了微博用戶在整個(gè)網(wǎng)絡(luò)社區(qū)中的重要程度。這里考慮單個(gè)微博用戶對(duì)微博用戶網(wǎng)絡(luò)信息傳播的影響力,因此只分析入度的分布規(guī)律。

用橫軸表示微博用戶節(jié)點(diǎn)的粉絲數(shù),縱軸表示具有相同粉絲數(shù)的微博用戶節(jié)點(diǎn)個(gè)數(shù),可以得到微博用戶節(jié)點(diǎn)的人度分布情況,如圖1。

圖1中,沒(méi)有顯示粉絲數(shù)小于10微博用戶節(jié)點(diǎn)個(gè)數(shù),這樣的節(jié)點(diǎn)共96165個(gè),占比37.01%;當(dāng)粉絲數(shù)為439時(shí),微博用戶節(jié)點(diǎn)個(gè)數(shù)首次下降到10個(gè),粉絲數(shù)大于439的節(jié)點(diǎn)數(shù)為8378個(gè),占比3.22%。因此,圖1顯示的是其余155293個(gè)微博用戶節(jié)點(diǎn)(占比59.77%)的入度分布情況,即隨著粉絲數(shù)的增加,具有該粉絲數(shù)的微博用戶節(jié)點(diǎn)迅速減少。

對(duì)微博用戶節(jié)點(diǎn)進(jìn)行度分布分析,可以看作是關(guān)鍵用戶發(fā)現(xiàn)的預(yù)處理過(guò)程,依據(jù)度分布分析的結(jié)果,可以對(duì)微博用戶節(jié)點(diǎn)進(jìn)行過(guò)濾,直接忽略97%左右的微博用戶,提高關(guān)鍵用戶發(fā)現(xiàn)算法的執(zhí)行效率。

4微博關(guān)鍵用戶的快速發(fā)現(xiàn)

4.1用戶關(guān)鍵程度的影響因素

在微博用戶網(wǎng)絡(luò)中,判斷一個(gè)用戶的重要程度,除了和該微博用戶節(jié)點(diǎn)的粉絲數(shù)有關(guān),還和以下兩個(gè)因素直接相關(guān)。

1)用戶的活躍度

對(duì)于粉絲數(shù)相同的用戶,活躍度越高其影響力越大。微博用戶的活躍度表現(xiàn)為一個(gè)用戶發(fā)表、轉(zhuǎn)發(fā)、評(píng)論微博的數(shù)量,其中,一個(gè)用戶發(fā)表或轉(zhuǎn)發(fā)的微博會(huì)被推薦給關(guān)注者,而其評(píng)論的內(nèi)容是否會(huì)引起其他用戶興趣,往往具有一定隨意性。所以在評(píng)價(jià)用戶活躍度時(shí),只考慮用戶發(fā)表或轉(zhuǎn)發(fā)微博的數(shù)量。

另外,微博具有很高的時(shí)效性,距離當(dāng)前越近發(fā)表的微博,被閱讀的可能性越高。而很久以前發(fā)表的微博,則可能無(wú)人問(wèn)津。因此,在計(jì)算活躍度時(shí),用戶發(fā)表或轉(zhuǎn)發(fā)微博的數(shù)量需要乘以時(shí)間權(quán)值。由于一條微博的時(shí)效性并不呈線性衰減,故引入模糊數(shù)學(xué)中的戒上型隸屬函數(shù)估算時(shí)間權(quán)值。一條微博的時(shí)效通常在一周左右,在確定隸屬函數(shù)個(gè)參數(shù)值時(shí),做如下約定:第一,新微博發(fā)表1-2天會(huì)被頻繁瀏覽和傳播,此時(shí)活躍度權(quán)值為1;第二,微博發(fā)表的一周之內(nèi),活躍度權(quán)值會(huì)逐漸降低;第三,微博發(fā)表超過(guò)一周,活躍度權(quán)值會(huì)迅速下降;第四,微博權(quán)值最終穩(wěn)定在0.1左右,不再下降。因此,可計(jì)算得到參數(shù)a,b,c的值為:由此參數(shù)得到用戶活躍度參數(shù)曲線如圖2。

2)用戶粉絲的重要程度

除了活躍度之外,一個(gè)用戶的粉絲的重要程度越高,其發(fā)表的微博就越容易被更多的人看到,也會(huì)一定程度提高用戶的重要性。

在計(jì)算粉絲的重要程度時(shí),理論上,同樣需要考慮三個(gè)方面內(nèi)容:粉絲數(shù)、活躍度、粉絲的重要程度。但是這樣做,會(huì)使算法進(jìn)入復(fù)雜的遞推過(guò)程,同時(shí),由于微博龐大的用戶數(shù)量,也會(huì)是算法運(yùn)行緩慢,讓人難以接受。因此,在算法中只考慮當(dāng)前微博用戶粉絲的粉絲數(shù),并乘以粉絲權(quán)值,計(jì)算用戶的重要程度。

4.2微博關(guān)鍵用戶快速發(fā)現(xiàn)算法

綜合以上的討論,可以得到結(jié)合用戶活躍度、用戶粉絲重要程度的關(guān)鍵用戶快速發(fā)現(xiàn)算法。為方便算法的表示,引入以下標(biāo)記:

4.3實(shí)驗(yàn)數(shù)據(jù)的執(zhí)行結(jié)果

分析實(shí)驗(yàn)數(shù)據(jù)中的259836個(gè)微博用戶節(jié)點(diǎn)的入度后,去除了明顯不能成為關(guān)鍵用戶的用戶數(shù)據(jù),進(jìn)而使用微博關(guān)鍵用戶快速發(fā)現(xiàn)算法對(duì)剩下的8378個(gè)用戶進(jìn)行處理,然后得到了關(guān)鍵度值最高的10個(gè)用戶,如表1。

分析實(shí)驗(yàn)數(shù)據(jù)的執(zhí)行結(jié)果可以發(fā)現(xiàn),用戶“2921020640”擁有遠(yuǎn)多于其他用戶粉絲數(shù),因此成為排名第1的關(guān)鍵用戶。排名第5和第6的用戶,雖然粉絲數(shù)差距不大,但是關(guān)鍵度值相差將近一倍,這主要是因?yàn)榕琶?的用戶在最近一周非常活躍,發(fā)表和轉(zhuǎn)發(fā)的微博數(shù)遠(yuǎn)超過(guò)排名第6的用戶。排名第8的用戶,雖然粉絲數(shù)少于排名第9的用戶,但是其粉絲的粉絲數(shù)較多,而排名第9的用戶,其粉絲多為“水軍”,也使兩者的評(píng)分差別較大。

在所得到的10位關(guān)鍵用戶中,有4位為VIP用戶,另外6位均為活躍在微博這一網(wǎng)絡(luò)社交平臺(tái)的非VIP用戶。另外需要說(shuō)明的是,由于微博關(guān)鍵用戶發(fā)現(xiàn)算法考慮了“時(shí)間”對(duì)用戶關(guān)鍵程度的影響,每次得到的用戶群會(huì)有所不同,而這種不同也符合微博用戶網(wǎng)絡(luò)動(dòng)態(tài)變化的特點(diǎn)。

5結(jié)束語(yǔ)

通過(guò)微博關(guān)鍵用戶發(fā)現(xiàn)算法,可以得到微博用戶網(wǎng)絡(luò)中最需要關(guān)注的用戶,對(duì)這些用戶的行為進(jìn)行監(jiān)測(cè),即可以對(duì)微博輿情進(jìn)行更有效的控制;另一方面,關(guān)鍵用戶也為微博推廣、廣告投放等商業(yè)活動(dòng)提供了參考。

微博用戶網(wǎng)絡(luò)分析更多體現(xiàn)的是微博社交網(wǎng)絡(luò)的靜態(tài)結(jié)構(gòu),通過(guò)分析微博用戶的度分布,進(jìn)而快速地發(fā)現(xiàn)關(guān)鍵用戶以及各個(gè)用戶群,可以為輿情控制、微博營(yíng)銷、微博廣告投放等活動(dòng)提供有力的參考。在對(duì)用戶關(guān)鍵程度的量化表示時(shí),充分考慮了微博高時(shí)效性、動(dòng)態(tài)變化的特點(diǎn)。微博關(guān)鍵用戶發(fā)現(xiàn)算法使用較簡(jiǎn)單的模型,簡(jiǎn)化了微博用戶關(guān)鍵程度的評(píng)價(jià),為快速找到新興的關(guān)鍵用戶提供了借鑒。當(dāng)然,由于算法僅運(yùn)行于部分微博用戶數(shù)據(jù),當(dāng)考慮整個(gè)微博用戶網(wǎng)絡(luò)時(shí),其可靠性、有效性也需要進(jìn)一步的研究、比較和討論。

猜你喜歡
新浪微博
新浪微博熱門話題成因及作用分析
新聞世界(2017年2期)2017-02-20 18:30:59
我國(guó)省級(jí)圖書館微博的社會(huì)網(wǎng)絡(luò)分析
中文信息(2016年9期)2017-02-04 14:54:29
新浪微博數(shù)據(jù)爬取研究
新浪微博熱點(diǎn)事件的輿論傳播與群體心理
新浪微博娛樂(lè)明星的社會(huì)網(wǎng)絡(luò)分析
社交媒體平臺(tái)醫(yī)患關(guān)系報(bào)道特點(diǎn)研究
今傳媒(2016年8期)2016-10-17 23:50:55
微博的社會(huì)公信力現(xiàn)狀探究及其未來(lái)構(gòu)建研究
商(2016年21期)2016-07-06 17:23:54
社交媒體的用戶生成內(nèi)容(UGC)動(dòng)機(jī)淺析
商(2016年18期)2016-06-20 08:09:31
網(wǎng)絡(luò)媒體與傳統(tǒng)媒體議程設(shè)置互動(dòng)機(jī)制研究
商(2016年2期)2016-03-01 00:38:52
微博中群體極化的呈現(xiàn)方式及動(dòng)力機(jī)制探析
新聞界(2014年3期)2014-04-18 01:31:37
温宿县| 武川县| 洛阳市| 麻江县| 大安市| 印江| 澄城县| 兴宁市| 靖宇县| 阳城县| 锦屏县| 克东县| 自贡市| 青川县| 洛扎县| 大丰市| 栾川县| 遂溪县| 吴堡县| 时尚| 景宁| 大关县| 汪清县| 宿迁市| 双牌县| 济南市| 肇东市| 黄大仙区| 永顺县| 陈巴尔虎旗| 方正县| 原平市| 石泉县| 旌德县| 景泰县| 江北区| 关岭| 铜山县| 龙海市| 安远县| 蚌埠市|