国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新浪微博轉(zhuǎn)發(fā)數(shù)的冪律分布現(xiàn)象

2015-04-29 00:44:03張寧饒婕張書卿陳虹羅楊
計算機時代 2015年3期
關(guān)鍵詞:新浪微博

張寧 饒婕 張書卿 陳虹 羅楊

摘 要: 網(wǎng)絡(luò)是一個包含了大量個體及個體之間相互作用的系統(tǒng),近年來在對復(fù)雜網(wǎng)絡(luò)的研究過程中,科學(xué)家們發(fā)現(xiàn)了眾多的冪律分布現(xiàn)象。不僅網(wǎng)頁的點擊次數(shù)存在冪律分布現(xiàn)象,微博也同樣存在著冪律分布現(xiàn)象。利用新浪微博的API技術(shù)抓取了新浪微博數(shù)據(jù),對其進行了詳細的數(shù)據(jù)清理和統(tǒng)計,對統(tǒng)計結(jié)果進行分析發(fā)現(xiàn),新浪微博的轉(zhuǎn)發(fā)數(shù)也同樣存在著冪律分布現(xiàn)象。只有為數(shù)不多的微博,才能被大量的閱讀和轉(zhuǎn)發(fā),進而成為熱點微博,而絕大多數(shù)微博的閱讀次數(shù)和轉(zhuǎn)發(fā)次數(shù)都是非常少的。

關(guān)鍵詞: 新浪微博; 轉(zhuǎn)發(fā)數(shù); 冪律分布; Zipf定律

中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1006-8228(2015)03-33-03

Abstract: Network contains a large number of interaction between the individual and the individual system.In recent years, the scientists find a large number of power-law distribution phenomenon in the research of complex networks. The power-law distribution phenomenon exists not only in the page clicks, but also in the number of micro- blog access. In this paper, we use API technology of Sina micro-blog to capture the recent micro-blog data, make the data cleaning and statistic , by analysing the final statistical results,we find that the phenomenon of power-law distribution also exists in the number of forwards in Sina micro-blog. Only a few micro-blog, can be a hot micro-blog which has a large number of reading and forwarding,in contrast the vast majority of others have very few number of reading and forwarding.

Key words: Sina micro-blog; number of forwards; phenomenon of power-law distribution; Zipf's Law

0 引言

全球復(fù)雜網(wǎng)絡(luò)權(quán)威、無尺度網(wǎng)絡(luò)的創(chuàng)立者、匈牙利計算機學(xué)會馮·諾依曼金質(zhì)獎?wù)芦@得者Barabasi揭開人類行為背后隱藏的 “爆發(fā)”模式,指出人類活動模式不是隨機的,而是具有“爆發(fā)性”的。爆發(fā)的本質(zhì)規(guī)律就是冪律分布。冪律分布現(xiàn)象的共性是絕大多數(shù)事件的規(guī)模很小,而只有少數(shù)事件的規(guī)模相當(dāng)大。著名的Zipf定律是冪律的主要形式之一,哈佛大學(xué)的語言學(xué)專家Zipf發(fā)現(xiàn),如果把單詞出現(xiàn)的頻率按由大到小的順序排列,則每個單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡單的反比關(guān)系。這一定律表明:只有極少數(shù)的單詞被經(jīng)常使用,而絕大多數(shù)單詞很少被使用。冪律分布的通式可記為y=cx-r,重要特征是個體的尺度相差懸殊,缺乏一個具有代表性的規(guī)模,或者說,存在“爆發(fā)”(或稱“涌現(xiàn)”)現(xiàn)象。

本文抓取了新浪微博的微博數(shù)據(jù),并獲得轉(zhuǎn)發(fā)數(shù),對微博的轉(zhuǎn)發(fā)現(xiàn)象進行統(tǒng)計并試著分析產(chǎn)生該現(xiàn)象的原因。

1 抓取數(shù)據(jù)來源說明

數(shù)據(jù)來源于新浪微博8月份實時微博??紤]到每天新浪微博的數(shù)據(jù)量巨大,每天新產(chǎn)生微博約1億條左右。隨機抽樣需要樣本空間巨大。所以我們采取隨機抓取關(guān)注列表里的820人的微博

1.1 數(shù)據(jù)抓取技術(shù)

數(shù)據(jù)的抓取是基于新浪API的信息獲取。新浪微博 API 是應(yīng)用編程接口(Application Programming Interface)的縮寫。開放API就是“在互聯(lián)網(wǎng)時代,把互聯(lián)網(wǎng)產(chǎn)品的服務(wù)封裝成一系列計算機易識別的數(shù)據(jù)接口開放出去,供第三方開發(fā)者使用”。微博開放平臺包含了新浪微博平臺海量的微博信息、用戶間的關(guān)注關(guān)系以及隨時隨地信息的擴散式的傳播機制。通過API,用戶可以實時地獲取監(jiān)控微博賬號的各種相關(guān)數(shù)據(jù),包括微博的轉(zhuǎn)發(fā)數(shù),評論數(shù)等。用戶使用新浪微博API的前提是需要通過身份認(rèn)證。OAuth用戶身份認(rèn)證:開放授權(quán)(OAuth)是一個開放標(biāo)準(zhǔn),允許用戶讓第三方應(yīng)用訪問該用戶在某一網(wǎng)站上存儲的私密資源(如照片、視頻、聯(lián)系人列表),而無需將用戶名和密碼提供給第三方應(yīng)用。因此,OAuth 為新浪微博API提供了一個安全、高效的認(rèn)證機制,其具體過程如下。

⑴ 用戶向新浪微博開放平臺提出開發(fā)者服務(wù)申請,提交實名身份認(rèn)證。

⑵ 向新浪微博開放平臺OAuth服務(wù)商提交創(chuàng)建應(yīng)用請求,獲得應(yīng)用資料,并將其中的應(yīng)用編號App Key和應(yīng)用口令A(yù)pp Secret寫入認(rèn)證程序配置文件。

⑶ 利用新浪微博 SDK 提供的認(rèn)證程序,向新浪微博服務(wù)器提交API使用申請,填寫申請者微博賬號、口令,獲取第三方軟件應(yīng)用許可。

⑷ 申請成功后,服務(wù)器在瀏覽器返回URL地址中提供一個由32位十六進制數(shù)組成的認(rèn)證碼Access_code,用戶將此認(rèn)證碼提交給認(rèn)證服務(wù)器,服務(wù)器同意用戶請求,

向其頒發(fā)通過新浪微博授權(quán)的API調(diào)用令牌Access_Token與對應(yīng)的密鑰。

⑸ 用戶利用此令牌作為參量調(diào)用相應(yīng)的API接口。通過上述OAuth認(rèn)證登錄新浪微博開放平臺成功后,用戶便可調(diào)用開放平臺的各種接口,令牌使用期限為24小時,超過期限后需重新進行認(rèn)證才能繼續(xù)調(diào)用API接口。

1.2 轉(zhuǎn)發(fā)數(shù)獲取

2 數(shù)據(jù)統(tǒng)計分布情況

所統(tǒng)計的微博數(shù)量去除重復(fù)后,共計4253條。以2000為區(qū)間單位,統(tǒng)計轉(zhuǎn)發(fā)數(shù)落在每個區(qū)間內(nèi)的微博條數(shù)。統(tǒng)計表明,以轉(zhuǎn)發(fā)數(shù)在0-2000區(qū)間內(nèi)的微博最多,共計3963條。最少的轉(zhuǎn)發(fā)數(shù)區(qū)間的微博條數(shù)為0條,極差為3963。按微博轉(zhuǎn)發(fā)數(shù)分段統(tǒng)計情況如表2和圖2所示。可以判斷,轉(zhuǎn)發(fā)數(shù)的分布范圍很大,一定程度上符合Zipf定律,存在“爆發(fā)”現(xiàn)象。

從表2和圖2可見,微博轉(zhuǎn)發(fā)數(shù)分布較大程度上符合Zipf定律。熱門的微博非常少,越冷門的微博數(shù)量越多。其中,轉(zhuǎn)發(fā)數(shù)在區(qū)間0-2000的微博數(shù)明顯高于其他區(qū)間,可視為“爆發(fā)點”。在該區(qū)間內(nèi),主要分布的大多是粉絲人數(shù)較少的用戶發(fā)布的微博,沒有龐大的粉絲基礎(chǔ),所以轉(zhuǎn)發(fā)數(shù)普遍很低。還有一部分微博雖然是有粉絲數(shù)較多的用戶發(fā)布的,但是該微博不能吸引用戶的興趣,不能成為熱點事件,轉(zhuǎn)發(fā)數(shù)也就普遍偏低。其中轉(zhuǎn)發(fā)數(shù)最高的微博為張杰在發(fā)布新單曲“我在這”時,自己在路上邊走邊拍攝的一段視頻,該微博轉(zhuǎn)發(fā)數(shù)介于82000-84000區(qū)間。

3 原因分析

新浪微博中的冪律分布現(xiàn)象屬于復(fù)雜網(wǎng)絡(luò)中普遍存在的冪律分布現(xiàn)象的一種。在網(wǎng)絡(luò)動態(tài)演化的過程中,成長性和優(yōu)先連接性是無標(biāo)度網(wǎng)絡(luò)度分布呈現(xiàn)冪律的兩個最根本原因。所謂成長性是指網(wǎng)絡(luò)節(jié)點數(shù)的增加,在本文中主要指新浪微博數(shù)量的增加,新微博的增加更多的是依靠大多數(shù)沒有巨大粉絲數(shù)量基礎(chǔ)的普通用戶發(fā)布的,也包括有巨大粉絲數(shù)量基礎(chǔ)的用戶所發(fā)布的那些不能引起用戶興趣和轉(zhuǎn)發(fā)欲望的微博。優(yōu)先連接性是指,轉(zhuǎn)發(fā)數(shù)高的熱門微博總是由粉絲數(shù)量基礎(chǔ)巨大的用戶發(fā)布或者轉(zhuǎn)發(fā),比如,一條新的有轉(zhuǎn)發(fā)價值的微博由普通用戶直接發(fā)布后,因為該用戶的粉絲數(shù)量很少,也不能被大量的用戶閱讀和轉(zhuǎn)發(fā),往往是這條微博在自己的少量用戶的粉絲圈里轉(zhuǎn)發(fā)后就被新熱點微博淹沒掉了。如果該條微博被粉絲數(shù)量基礎(chǔ)巨大的用戶轉(zhuǎn)發(fā)后,能閱讀和轉(zhuǎn)發(fā)該微博的用戶呈現(xiàn)出跳躍式增加的方式增多,就會被大量粉絲用戶轉(zhuǎn)發(fā),而轉(zhuǎn)發(fā)次數(shù)就呈現(xiàn)飆升的現(xiàn)象。并且隨著時間的演進,微博的轉(zhuǎn)發(fā)數(shù)逐漸呈現(xiàn)出一種轉(zhuǎn)發(fā)數(shù)多的會被轉(zhuǎn)的更多,轉(zhuǎn)發(fā)數(shù)少的微博直接被淹沒掉的現(xiàn)象。

參考文獻:

[1] 姚科.開放API:新浪微博必經(jīng)之路[J].互聯(lián)網(wǎng)天地,2010.8:73-74

[2] 胡海波,王林.冪律分布研究簡史[J].物理,2005.12:889-890

[3] 黃延煒,劉嘉勇.新浪微博數(shù)據(jù)獲取技術(shù)研究[J].信息安全與通信保

密,2013.6:71-72

[4] 張嗣瀛.復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)自相似結(jié)構(gòu)的涌現(xiàn)規(guī)律[J].復(fù)雜系統(tǒng)與

復(fù)雜性科學(xué),2006.4:41-51

[5] 胡泳.冪律分布[J].商務(wù)周刊,2009.22:94

[6] 方愛麗,高齊圣,張嗣瀛.引文網(wǎng)絡(luò)的冪律分布檢驗研究[J].統(tǒng)計與決

策,2007.14:22-24

猜你喜歡
新浪微博
新浪微博熱門話題成因及作用分析
新聞世界(2017年2期)2017-02-20 18:30:59
我國省級圖書館微博的社會網(wǎng)絡(luò)分析
中文信息(2016年9期)2017-02-04 14:54:29
新浪微博數(shù)據(jù)爬取研究
新浪微博熱點事件的輿論傳播與群體心理
新浪微博娛樂明星的社會網(wǎng)絡(luò)分析
時代金融(2016年29期)2016-12-05 17:09:47
社交媒體平臺醫(yī)患關(guān)系報道特點研究
今傳媒(2016年8期)2016-10-17 23:50:55
微博的社會公信力現(xiàn)狀探究及其未來構(gòu)建研究
商(2016年21期)2016-07-06 17:23:54
社交媒體的用戶生成內(nèi)容(UGC)動機淺析
商(2016年18期)2016-06-20 08:09:31
網(wǎng)絡(luò)媒體與傳統(tǒng)媒體議程設(shè)置互動機制研究
商(2016年2期)2016-03-01 00:38:52
微博中群體極化的呈現(xiàn)方式及動力機制探析
新聞界(2014年3期)2014-04-18 01:31:37
松原市| 正定县| 辽阳县| 会同县| 西峡县| 新野县| 山西省| 广水市| 措美县| 铜陵市| 拉萨市| 收藏| 南汇区| 新龙县| 陇西县| 嘉义市| 手机| 化隆| 花莲县| 鄂温| 当雄县| 孟州市| 扶余县| 富民县| 南漳县| 龙口市| 稷山县| 彭州市| 新巴尔虎左旗| 广平县| 无棣县| 军事| 黑龙江省| 甘孜县| 高雄县| 商城县| 西林县| 贵德县| 台江县| 汝州市| 黎川县|