趙玲 張靜
〔摘要〕移動互聯(lián)網(wǎng)的發(fā)展為微博的發(fā)展提供了更加廣闊的發(fā)展空間,以復(fù)雜網(wǎng)絡(luò)的基本統(tǒng)計特性為基礎(chǔ),通過抓取新浪微博中的相關(guān)數(shù)據(jù),對其進(jìn)行處理分析,詳細(xì)分析微博用戶在信息發(fā)布行為、信息發(fā)布內(nèi)容方面的相關(guān)特性以及用戶的關(guān)注行為和評論轉(zhuǎn)發(fā)行為進(jìn)行了詳細(xì)地分析,認(rèn)為微博網(wǎng)絡(luò)是典型的小世界網(wǎng)絡(luò),微博網(wǎng)絡(luò)整體密度較小,呈稀疏狀態(tài),但局部密集;微博網(wǎng)絡(luò)用戶的分布呈不均勻的狀態(tài),用戶在信息發(fā)布、分享等方面存在較大的信息不對稱性,只有小部分用戶擁有較多的信息資源,扮演核心角色,大部分用戶在微博中處于邊緣地位。這為微博營銷和微博輿論引導(dǎo)與消解提供了基礎(chǔ)。
〔關(guān)鍵詞〕復(fù)雜網(wǎng)絡(luò);微博用戶;行為;小世界特性;關(guān)注;非均勻網(wǎng)絡(luò)
DOI:10.3969/j.issn.1008-0821.2013.09.007
〔中圖分類號〕G202〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2013)09-0035-09
伴隨著移動通信技術(shù)的不斷發(fā)展,移動互聯(lián)網(wǎng)日趨成熟,為微博的發(fā)展提供了發(fā)展契機(jī)。Twitter是產(chǎn)生最早的微博,據(jù)Semiocast發(fā)布的數(shù)據(jù)調(diào)查數(shù)據(jù)顯示,截至2012年12月,Twitter用戶數(shù)達(dá)到517億,成為僅次于Facebook的全球第二大社交網(wǎng)站,其中141億美國用戶;2012年6月,Twitter用戶一共發(fā)布消息1058億條[1],這個信息量是任何一家媒體,無論是傳統(tǒng)媒體還是網(wǎng)絡(luò)媒體,都無法企及的。目前國內(nèi)較具代表性的微博主要以門戶網(wǎng)站為主,如新浪微博、騰訊微博、人民網(wǎng)微博等,它們依靠網(wǎng)站自身的影響力與巨大的用戶群,幾乎占據(jù)了微博的全部用戶,有著較大的影響力。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的最新報告,2012年12月底,我國微博用戶規(guī)模為309億,其中手機(jī)微博用戶規(guī)模達(dá)到202億,手機(jī)成為微博用戶的首選終端,微博逐漸移動化發(fā)展[2]。
自2005年Twitter出現(xiàn)后,學(xué)術(shù)界關(guān)于微博行為的研究的不斷增加,對于用戶行為、用戶關(guān)系、用戶興趣等都進(jìn)行了較為深入的研究,也取得了較多成果。麥田(2009)認(rèn)為,以Twitter為代表的微博信息發(fā)布平臺能夠成功的主要原因有:可迅速發(fā)布的內(nèi)容,可迅速發(fā)布的網(wǎng)站結(jié)構(gòu)以及病毒式的信息傳播[3]。所以,微博自身的信息傳播模式的便利性與快捷性對于用戶來說吸引力是極大的。彭蘭教授在《微博發(fā)展的動力》(2009)中指出,微博的發(fā)展除了來自微博形式的自動力外,還有來自微博用戶需求的拉動力和微博社會功能的主動力[4]。實踐方面,主要研究微博用戶行為的動機(jī),以及其對微博用戶行為的影響程度,在此基礎(chǔ)上對微博用戶行為的表現(xiàn)進(jìn)行預(yù)測,以及微博用戶行為對興趣構(gòu)成和購買行為的影響;理論方面,主要運(yùn)用相關(guān)的理論基礎(chǔ)來解釋微博用戶行為,并通過一些實證研究對用戶行為的具體表征進(jìn)行統(tǒng)計分析。
基于復(fù)雜網(wǎng)絡(luò)和社會網(wǎng)絡(luò)的理論研究微博是近年來的一個熱點(diǎn),它能夠較好的解釋微博用戶的信息發(fā)布、評論、轉(zhuǎn)發(fā)等行為所呈現(xiàn)的網(wǎng)絡(luò)關(guān)系,也可以從中挖掘出關(guān)鍵用戶,可以較好的反映出用戶之間的關(guān)系,并對用戶行為進(jìn)行預(yù)測。李林紅和李榮榮認(rèn)為,新浪微博社會網(wǎng)絡(luò)是一個自組織系統(tǒng),從整體網(wǎng)絡(luò)、個體網(wǎng)絡(luò)、小團(tuán)體、小世界效應(yīng)構(gòu)建模型,通過實證研究考慮用戶在信息“發(fā)布、轉(zhuǎn)發(fā)、評論、@、回復(fù)”之間的關(guān)系,認(rèn)為微博中存在自組織行為,通常整體的自組織現(xiàn)象弱,局部明顯,而且這種關(guān)系的形成往往依據(jù)用戶角度的不同,形成的自組織網(wǎng)的凝聚力也是不同的[5]。易蘭麗(2012)利用人類動力學(xué)和復(fù)雜網(wǎng)絡(luò)的相關(guān)理論,從網(wǎng)絡(luò)互動的角度出發(fā),對用戶的信息發(fā)布、轉(zhuǎn)發(fā)和評論行為進(jìn)行統(tǒng)計分析,了解三者之間的關(guān)系,并建立用戶信息評論模型和興趣驅(qū)動模型,對微博用戶的行為做了較詳細(xì)的分析[6]。
從以上的分析可以看出,研究者主要是通過直觀的靜態(tài)分布的網(wǎng)絡(luò)形態(tài)表現(xiàn)用戶在關(guān)注、評論和轉(zhuǎn)發(fā)方面的特征,大多是從數(shù)學(xué)和技術(shù)方面考慮,較少地考慮社會因素和用戶因素。本文以復(fù)雜網(wǎng)絡(luò)的基本統(tǒng)計特性為基礎(chǔ),以新浪微博為例,通過抓取相關(guān)數(shù)據(jù),對其進(jìn)行處理分析,對微博用戶的關(guān)注行為和轉(zhuǎn)發(fā)評論行為的網(wǎng)絡(luò)特性進(jìn)行分析,提出微博網(wǎng)絡(luò)是典型的小世界網(wǎng)絡(luò);微博網(wǎng)絡(luò)較為稀疏,但也存在部分密集的社群,即微博群體;微博網(wǎng)絡(luò)是一個不均勻的網(wǎng)絡(luò),在信息傳播與分享方面存在較大的信息不對稱。
1數(shù)據(jù)獲取與處理
通過新浪微博發(fā)布的最新數(shù)據(jù)報告可知,目前新浪微博的用戶已超過4億,同時在騰訊微博、人民網(wǎng)微博等平臺上也擁有大量的用戶;但在用戶總量、活躍用戶數(shù)量、微博影響力與代表性方面,新浪微博有著顯著的優(yōu)勢。所以本文選取新浪微博中的數(shù)據(jù)作為研究樣本,以期能夠較好的反映微博的復(fù)雜網(wǎng)絡(luò)特性,完整地呈現(xiàn)微博用戶行為的基本特性。
目前獲取微博中的數(shù)據(jù)有兩大主流方式:一是通過新浪微博開放端口,利用API平臺獲取。這種方式獲取較為簡潔、方便、高效,便是數(shù)據(jù)數(shù)量有一定的限制;二是網(wǎng)絡(luò)爬蟲。通過設(shè)定的URL地址,按照一定的爬行策略抓取信息,這種方式獲取的信息數(shù)量大且全,但是較為繁瑣,且效率低,后期數(shù)據(jù)處理難度也較大。所以本文通過新浪的API平臺抓取數(shù)據(jù)。
本文采用滾雪球抽樣的方法,選中其中一個節(jié)點(diǎn),對其粉絲的信息進(jìn)行抓取,再對粉絲的粉絲信息抓取,持續(xù)若干輪,共獲取節(jié)點(diǎn)信息65 536個、100萬余條用戶關(guān)系信息、10萬條微博信息等。抓取的用戶信息內(nèi)容主要包括:用戶ID、昵稱、姓名、省、市、地區(qū),個人描述、URL、圖像URL、性別、粉絲數(shù)、關(guān)注數(shù)、收藏數(shù)、創(chuàng)建時間、是否加V、是否允許定位等用戶的基本信息,用戶評論信息主要包括:評論ID、評論內(nèi)容、來源URL、發(fā)布方式、發(fā)布時間、發(fā)布者ID、評論者ID等基本信息。微博內(nèi)容信息主要包括:內(nèi)容ID、創(chuàng)建時間、具體內(nèi)容、來源URL、發(fā)布方式、收藏數(shù)、發(fā)布時間、發(fā)布者ID等基本信息。以這種方式獲取的微博數(shù)據(jù)使一些孤立的節(jié)點(diǎn)和“僵尸粉”也被囊括其中,使得網(wǎng)絡(luò)密度可能較稀疏;但在很大程度上反映了微博的整體特性,無論是活躍用戶,還是僵尸粉,都是分析數(shù)據(jù)的組成部分。
在進(jìn)行實際分析的過程中,為了確保分析的準(zhǔn)確性和真實性,剔除無效信息后,對獲取的64 961條信息進(jìn)行基本分析。在數(shù)據(jù)庫中,選取1 021個關(guān)注信息,組成關(guān)注矩陣,對其關(guān)注行為進(jìn)行分析;提取1123*386的微博評論矩陣和1122*537的微博轉(zhuǎn)發(fā)矩陣,對微博用戶的評論轉(zhuǎn)發(fā)行為進(jìn)行分析。
2微博用戶行為的復(fù)雜網(wǎng)絡(luò)特性
2.1小世界網(wǎng)絡(luò)特性分析
小世界網(wǎng)絡(luò)最基本的特征是有較短的平均路徑長度和較大的聚類系數(shù)。用N表示節(jié)點(diǎn)數(shù)量,dij表示節(jié)點(diǎn)之間的最短距離,那么網(wǎng)絡(luò)平均路徑長度的計算公式如下所示:
L=21N(N-1)∑N-11i=1∑N1j=i+1dij
另外,假設(shè)節(jié)點(diǎn)i與其他Ki個節(jié)點(diǎn)都相連,如果這Ki個節(jié)點(diǎn)也相互連接,那么它們之間應(yīng)該有Ki(Ki-1)/2條邊;但這Ki個節(jié)點(diǎn)之間實際存的邊數(shù)只有Ei,那么二者之比即為聚類系數(shù)Ci,用公式表示如下:
Ci=2Ei1Ki(Ki-1)
其中Ki是表示節(jié)點(diǎn)數(shù)量,Ei表示實際的邊數(shù),Ci表示節(jié)點(diǎn)的聚類系數(shù)。由此可知,整個網(wǎng)絡(luò)的平均聚類系數(shù)C可以定義為網(wǎng)絡(luò)中所有節(jié)點(diǎn)聚類系數(shù)的平均值,如下所示:
C=11N∑N1i=1Ci