陳珊 戴俊譚 臨沂大學(xué)傳媒學(xué)院
伴隨著社交網(wǎng)絡(luò)的崛起,人們獲取信息的方式由大眾傳播主導(dǎo)轉(zhuǎn)變?yōu)槿穗H傳播優(yōu)先[1]。微博作為一種重要的傳播途徑在公眾之間迅速組成一個(gè)關(guān)系緊密、結(jié)構(gòu)復(fù)雜的社交網(wǎng)絡(luò),公眾通過微博載體進(jìn)行大量的信息分發(fā)和輿論傳播[2]。網(wǎng)絡(luò)成為社會(huì)事件的“放大器”,網(wǎng)絡(luò)輿情的肆意傳播在一定程度上影響社會(huì)事件的發(fā)展趨勢(shì)[3]。
從微觀視角,社交網(wǎng)絡(luò)中的個(gè)體節(jié)點(diǎn)構(gòu)成了無(wú)標(biāo)度的拓?fù)渚W(wǎng)絡(luò),網(wǎng)絡(luò)中節(jié)點(diǎn)的結(jié)構(gòu)屬性不同,對(duì)信息傳播的影響效應(yīng)也不同。社交網(wǎng)絡(luò)中節(jié)點(diǎn)結(jié)構(gòu)性質(zhì)的分析有助于信息傳播范圍的評(píng)估和預(yù)測(cè),能對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)、引導(dǎo)和管理控制提供重要依據(jù)。鑒于此,本文借助社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析節(jié)點(diǎn)影響力與傳播覆蓋率之間的關(guān)系,探討信息在各類節(jié)點(diǎn)中的傳播特點(diǎn)和趨勢(shì),并利用節(jié)點(diǎn)屬性特征預(yù)測(cè)信息傳播能力。
節(jié)點(diǎn)重要性度量和節(jié)點(diǎn)影響最大化問題是復(fù)雜網(wǎng)絡(luò)分析中的重要研究課題,對(duì)于口碑營(yíng)銷、病毒性營(yíng)銷有著重要的參考意義。在已有的研究中,節(jié)點(diǎn)結(jié)構(gòu)屬性的研究包括基于網(wǎng)絡(luò)節(jié)點(diǎn)局部屬性的研究[4-5],基于網(wǎng)絡(luò)節(jié)點(diǎn)全局屬性的研究[6-8],基于節(jié)點(diǎn)隨機(jī)游走的研究[9-10],基于節(jié)點(diǎn)的時(shí)變特性研究[11]。國(guó)內(nèi)外學(xué)者在基于網(wǎng)絡(luò)結(jié)構(gòu)分析節(jié)點(diǎn)影響力還是基于信息傳播本身分析節(jié)點(diǎn)影響力,做了很多有價(jià)值的研究,為本文奠定了堅(jiān)實(shí)的理論基礎(chǔ)。然而在現(xiàn)有研究中對(duì)指標(biāo)權(quán)重較高的重要節(jié)點(diǎn)研究較多,而和重要節(jié)點(diǎn)相鄰,可能成為信息傳播源點(diǎn)的節(jié)點(diǎn)的研究相對(duì)較少。本文有效區(qū)分各類節(jié)點(diǎn)的差異,建立非線性回歸模型,通過監(jiān)控哨兵節(jié)點(diǎn)評(píng)估消息在重要節(jié)點(diǎn),一般節(jié)點(diǎn)等各類節(jié)點(diǎn)中傳播覆蓋的程度。
新浪微博中每個(gè)微博用戶視為一個(gè)節(jié)點(diǎn),通過網(wǎng)絡(luò)行為與其他微博用戶建立的聯(lián)系視為連接邊,構(gòu)成典型的小世界復(fù)雜網(wǎng)絡(luò),符合經(jīng)典的六度分離理論[12]。在微博系統(tǒng)中普遍存在以下幾類節(jié)點(diǎn):(1)意見領(lǐng)袖節(jié)點(diǎn)。該類節(jié)點(diǎn)的度非常高,數(shù)量稀少,具有重要影響力的網(wǎng)絡(luò)節(jié)點(diǎn)。觀點(diǎn)和意見從意見領(lǐng)袖流向普通用戶的時(shí)間非常短暫,當(dāng)意見領(lǐng)袖的消息流向微博中不太活躍的用戶時(shí),信息傳播會(huì)出現(xiàn)裂變效應(yīng)。(2)活躍節(jié)點(diǎn)。該類節(jié)點(diǎn)在某些特定的領(lǐng)域網(wǎng)絡(luò)行為頻繁,在發(fā)微博時(shí)間和頻率兩個(gè)指標(biāo)表現(xiàn)出高活躍度。從信息傳播能力角度,這類節(jié)點(diǎn)容易成為網(wǎng)絡(luò)意見的源點(diǎn)或者接近源點(diǎn)的節(jié)點(diǎn)。(3)不活躍節(jié)點(diǎn)。該類節(jié)點(diǎn)連接度小,具有一定隨機(jī)性。發(fā)微博頻率低,位于信息傳播的鏈路末端。(4)啞節(jié)點(diǎn)[13]。該類微博用戶雖然注冊(cè)了賬號(hào),但是長(zhǎng)期處于“潛水”或“未登錄”狀態(tài),而在信息傳播過程中這類用戶節(jié)點(diǎn)不具有傳播性,屬于復(fù)雜網(wǎng)絡(luò)中的噪聲節(jié)點(diǎn)。
為了描述方便本節(jié)對(duì)微博信息傳播覆蓋程度分析與評(píng)估進(jìn)行形式化描述。研究?jī)?nèi)容建立在兩個(gè)假設(shè)條件上:(1)只關(guān)注社會(huì)網(wǎng)絡(luò)的線上信息傳播,暫時(shí)不考慮線下傳播對(duì)線上傳播的影響;(2)只考慮同質(zhì)信息在有效用戶范圍內(nèi)的傳播規(guī)律,暫時(shí)不考慮異質(zhì)信息的傳播。研究的目的是依據(jù)部分節(jié)點(diǎn)的信息來(lái)評(píng)估消息在微博有效用戶中的傳播程度,即消息在有效用戶網(wǎng)絡(luò)的傳播能力。
首先用有向圖G={V,E}表示信息傳播的在線社會(huì)網(wǎng)絡(luò),其中V表示微博用戶節(jié)點(diǎn)的集合,用戶節(jié)點(diǎn)通過發(fā)布、評(píng)論或轉(zhuǎn)發(fā)信息與其他節(jié)點(diǎn)建立聯(lián)系;E表示連接節(jié)點(diǎn)之間邊的集合。設(shè)vs表示信息的原創(chuàng)節(jié)點(diǎn),即消息傳播源點(diǎn);為已經(jīng)傳播到的節(jié)點(diǎn)集合。Vi表示在時(shí)刻i 傳播到的節(jié)點(diǎn)子集,接著定義消息傳播的覆蓋率O。
定義1 消息傳播覆蓋率為已獲知消息的節(jié)點(diǎn)集合與全部節(jié)點(diǎn)集合的比值,即:
消息傳播過程是個(gè)時(shí)間序列T={t1,t2, …,ti,ti+1, …},則監(jiān)測(cè)時(shí)刻tk的信息覆蓋率為Ok,如式2 所示:
定義2 哨兵節(jié)點(diǎn)。在消息傳播過程中,若時(shí)刻tk時(shí)消息傳播到節(jié)點(diǎn)子集Vk即出現(xiàn)Vk并入到集合現(xiàn)象,則Vk中的節(jié)點(diǎn)就是監(jiān)測(cè)哨兵節(jié)點(diǎn)。
由此,通過微博網(wǎng)絡(luò)哨兵節(jié)點(diǎn)來(lái)預(yù)測(cè)信息覆蓋率的問題可轉(zhuǎn)變?yōu)橛珊喜⒌降氖录?lái)預(yù)測(cè)Ok。研究節(jié)點(diǎn)子集Vk與覆蓋率O之間的規(guī)律,并建立相應(yīng)預(yù)測(cè)模型。通過探測(cè)屬于Vk的哨兵節(jié)點(diǎn)的信息實(shí)現(xiàn)對(duì)信息覆蓋率的評(píng)估。
(1)節(jié)點(diǎn)影響力
從全局角度來(lái)考慮,設(shè)一條消息傳播的路徑為Vi={v1,v3,v8,vi, …,vm},則與節(jié)點(diǎn)i 間接連通的節(jié)點(diǎn)越多,對(duì)整個(gè)信息傳播的影響力也越大[14]。因此構(gòu)造節(jié)點(diǎn)影響力的涵義如下。
定義3 節(jié)點(diǎn)影響力I 為節(jié)點(diǎn)的度與間接連通節(jié)點(diǎn)平均距離的乘積,如式(3)所示:
其中I(i)表示節(jié)點(diǎn)i的影響力,outdegree(i)為節(jié)點(diǎn)的出度,dij表示與節(jié)點(diǎn)i間接連通的節(jié)點(diǎn)j之間的距離,count(i)表示節(jié)點(diǎn)i間接連通的其他所有節(jié)點(diǎn)的個(gè)數(shù)。
(2)預(yù)測(cè)模型
預(yù)測(cè)模型的基本思想如下:先用統(tǒng)計(jì)方法建立節(jié)點(diǎn)影響力與信息覆蓋率之間的關(guān)系模型,
以式(4)作為預(yù)測(cè)依據(jù),探測(cè)若干節(jié)點(diǎn)是否傳播到某條信息,以此來(lái)評(píng)估信息覆蓋率。例如節(jié)點(diǎn)j的傳播影響力為Ij,則代入式(4)后得出O(Ij),簡(jiǎn)寫為Oj表示用探測(cè)節(jié)點(diǎn)j 獲取到的信息覆蓋率。在實(shí)際應(yīng)用中可對(duì)一系列傳播影響力的節(jié)點(diǎn)進(jìn)行實(shí)時(shí)監(jiān)控,當(dāng)檢測(cè)到某條信息的關(guān)鍵詞后來(lái)評(píng)價(jià)消息的傳播范圍。
從微博信息傳播的基本規(guī)律來(lái)看,當(dāng)傳播影響力大的節(jié)點(diǎn)接收到某信息時(shí),信息覆蓋率通常較低;當(dāng)傳播影響力小的節(jié)點(diǎn)接收到某信息時(shí),信息覆蓋率較大;這里需要排除鄰近傳播源點(diǎn)的節(jié)點(diǎn),這類節(jié)點(diǎn)影響力并不高,檢測(cè)到這類節(jié)點(diǎn)時(shí)信息覆蓋率較低。在預(yù)測(cè)模型的應(yīng)用中可以迅速的剔除這類干擾判斷的節(jié)點(diǎn),檢測(cè)到影響力低的節(jié)點(diǎn)后,再檢測(cè)該傳播路徑上的后續(xù)節(jié)點(diǎn),若后續(xù)影響力大的節(jié)點(diǎn)未接收到該信息,則將該類節(jié)點(diǎn)界定為干擾信息。然而,信息覆蓋率和節(jié)點(diǎn)影響力之間并不是一種簡(jiǎn)單的線性關(guān)系,因此嘗試用統(tǒng)計(jì)方法來(lái)擬合一種非線性預(yù)測(cè)模型。
(3)統(tǒng)計(jì)方法
統(tǒng)計(jì)學(xué)習(xí)的范圍選取某大學(xué)工科四個(gè)學(xué)院的校選課學(xué)生587 人,涉及3 個(gè)年級(jí)12 個(gè)專業(yè)15 個(gè)班級(jí)的在讀大學(xué)生。每個(gè)人注冊(cè)新浪微博后,以自然方式形成線上社會(huì)關(guān)系,根據(jù)同寢室、朋友、同學(xué)和校內(nèi)社區(qū)活動(dòng)形成穩(wěn)定的線上關(guān)系后不允許添加新關(guān)系。另外只考慮在大學(xué)范圍內(nèi)的節(jié)點(diǎn),忽略其他方式的節(jié)點(diǎn)關(guān)系,比如高中同學(xué)、親友等。
以新浪微博系統(tǒng)為信息傳播平臺(tái),選取隨機(jī)節(jié)點(diǎn)作為信息源點(diǎn)來(lái)發(fā)布一些同質(zhì)信息,只允許學(xué)生利用微博來(lái)了解和傳播信息,盡量消除線下傳播的干擾。為每條測(cè)試消息定義一個(gè)唯一的id,標(biāo)記為Mi,每個(gè)學(xué)生節(jié)點(diǎn)設(shè)定唯一id,記為Vj,當(dāng)學(xué)生收到Mi進(jìn)行正常評(píng)論和轉(zhuǎn)發(fā),同時(shí)向一個(gè)公共的郵箱發(fā)送一封電子郵件,該電子郵件標(biāo)題為Mi和Vj。最后在電子郵件列表中提取消息傳播的軌跡,每個(gè)學(xué)生信息為一個(gè)三元組<Mi,Vj,ti>,其中Mi為信息標(biāo)示號(hào),Vj為用戶標(biāo)示號(hào),ti為郵件的接收時(shí)間,在此近似表示消息傳播到達(dá)時(shí)間。
研究中采用三種影響力節(jié)點(diǎn)作為傳播源點(diǎn):影響力低的節(jié)點(diǎn)、影響力高的節(jié)點(diǎn)和中等影響力節(jié)點(diǎn),分別為圖1 至圖3 所示。圖中x 軸表示節(jié)點(diǎn)影響力,y 軸表示信息覆蓋率。每次選擇5 個(gè)同質(zhì)消息傳播進(jìn)行實(shí)證分析,確定信息覆蓋率的誤差范圍。觀察圖1 至圖3 后發(fā)現(xiàn)節(jié)點(diǎn)影響力與信息覆蓋率之間存在一定的非線性關(guān)系,影響力高節(jié)點(diǎn)對(duì)應(yīng)較低的信息覆蓋率,而影響力低的節(jié)點(diǎn)對(duì)應(yīng)高的信息覆蓋率。這種規(guī)律與現(xiàn)實(shí)社會(huì)中直觀分析是一致的,我們嘗試通過統(tǒng)計(jì)數(shù)據(jù)構(gòu)造一個(gè)非線性模型來(lái)建立節(jié)點(diǎn)影響力與信息覆蓋率直接的關(guān)系。
圖1 中以影響力小的節(jié)點(diǎn)作為傳播源,形成一條比較平滑的曲線??刹捎没貧w分析的方法來(lái)擬合式(4)O(Ij)。相比較而言,實(shí)證中監(jiān)測(cè)到的中等影響力節(jié)點(diǎn)較少,中等影響力節(jié)點(diǎn)的區(qū)間相對(duì)稀疏。
圖2 中以影響力大的節(jié)點(diǎn)作為傳播源,中等影響力節(jié)點(diǎn)區(qū)域更加稀疏,但是在影響力大的節(jié)點(diǎn)區(qū)間中誤差范圍明顯減小,這是因?yàn)橛糜绊懥Υ蟮墓?jié)點(diǎn)作為傳播源的因素,5 次實(shí)驗(yàn)過程誤差波動(dòng)較小。
圖3 中以中等影響力的節(jié)點(diǎn)作為傳播源,中等影響力節(jié)點(diǎn)所在區(qū)間不再稀疏,而且誤差波動(dòng)較?。挥绊懥Υ蟮墓?jié)點(diǎn)出現(xiàn)減少趨勢(shì),信息覆蓋率誤差波動(dòng)變大;影響力小的節(jié)點(diǎn)增加,誤差波動(dòng)無(wú)明顯變化。
圖1 影響力小節(jié)點(diǎn)
圖2 影響力大節(jié)點(diǎn)
圖3 中等影響力節(jié)點(diǎn)
通常情況下大部分網(wǎng)絡(luò)輿情起源于影響力小的節(jié)點(diǎn),在此用圖1 的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行一元非線性回歸分析,根據(jù)統(tǒng)計(jì)散點(diǎn)圖的分布情況,可選配S曲線作為回歸分析的基礎(chǔ)模型,為了更符合實(shí)際需要,采用文獻(xiàn)[14]提供的S曲線形式:
其中a為曲線的常數(shù)系數(shù);b為彈性系數(shù),c為彈性常數(shù)系數(shù),利用b,c參數(shù)來(lái)調(diào)整曲線的變化彈性。通過擬合分析求得式(5)的參數(shù)a,b,c。則為信息覆蓋率預(yù)測(cè)模型:
以不確定系數(shù)R2來(lái)判斷回歸分析的可信性,對(duì)20 次擬合過程的殘差進(jìn)行分析,確定性系數(shù)的平均值為0.983,其中大部分大于0.95,只有個(gè)別擬合的R2值小于0.9,因此可認(rèn)為取得較高的擬合可信度。
實(shí)驗(yàn)過程不能與實(shí)證過程相同,否則失去了驗(yàn)證意義。為了提高驗(yàn)證的有效性,實(shí)驗(yàn)方案的設(shè)計(jì)中體現(xiàn)兩個(gè)特點(diǎn):無(wú)侵入性和自主性。具體實(shí)驗(yàn)方案如下:首先獲取新浪微博社會(huì)網(wǎng)絡(luò)中的完整子圖。分別從不同類型的用戶開始爬取這些用戶近期發(fā)表的100 條微博,并根據(jù)每條微博的轉(zhuǎn)發(fā)軌跡來(lái)爬取轉(zhuǎn)發(fā)用戶。持續(xù)循環(huán)使用廣度優(yōu)先搜索算法運(yùn)行兩周,從4270092 個(gè)用戶中獲得了23456827 條微博消息。再剔除抓取的僵尸用戶和特殊的大V 用戶后,我們獲得了5741 個(gè)用戶節(jié)點(diǎn)的真實(shí)微博網(wǎng)絡(luò)。該實(shí)驗(yàn)樣本網(wǎng)絡(luò)的聚類系數(shù)為0.153,網(wǎng)絡(luò)直徑為5.21,平均距離為3.1769。然后為了克服新浪API監(jiān)測(cè)的限制,我們進(jìn)一步裁剪了樣本網(wǎng)絡(luò),把樣本網(wǎng)絡(luò)減小到1872 個(gè)節(jié)點(diǎn),該網(wǎng)絡(luò)中包括11 個(gè)較完整的社團(tuán)子圖。最后兩周內(nèi)通過爬蟲監(jiān)控程序?qū)崟r(shí)監(jiān)測(cè)不同類型用戶發(fā)表的原創(chuàng)微博的傳播情況。
在這1872 個(gè)節(jié)點(diǎn)的實(shí)驗(yàn)網(wǎng)絡(luò)中,監(jiān)控影響力小、影響力中等和影響力大的三類節(jié)點(diǎn)微博轉(zhuǎn)發(fā)情況(如表二第一行所示微博傳播源點(diǎn)有三個(gè)分類)。轉(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)和全部節(jié)點(diǎn)數(shù)的比值即為微博傳播范圍。在該網(wǎng)絡(luò)中也選擇了10 個(gè)影響力不同的哨兵節(jié)點(diǎn)(如表1 第一列所示),具體實(shí)驗(yàn)結(jié)果如表1 所示。
本次實(shí)驗(yàn)中采用真實(shí)新浪微博社會(huì)網(wǎng)絡(luò)的完整子圖,微博傳播完全處于自發(fā)狀態(tài)。通過實(shí)驗(yàn)數(shù)據(jù)分析觀察到以下現(xiàn)象:(1)真實(shí)微博網(wǎng)絡(luò)中預(yù)測(cè)模型的準(zhǔn)確性普遍降低。中低影響力的哨兵節(jié)點(diǎn)的預(yù)測(cè)準(zhǔn)確性在可以接受范圍內(nèi),然而影響力高的哨兵節(jié)點(diǎn)預(yù)測(cè)誤差較大。影響力高哨兵節(jié)點(diǎn)的預(yù)測(cè)誤差大與監(jiān)控爬蟲的采用時(shí)間有關(guān)系,微博傳播具有一定的裂變效果,導(dǎo)致影響力大的哨兵節(jié)點(diǎn)的監(jiān)測(cè)靈敏度下降,預(yù)測(cè)誤差也因此變大。(2)在真實(shí)微博網(wǎng)絡(luò)中,中等影響力的哨兵節(jié)點(diǎn)不再出現(xiàn)捕獲傳播信息失敗的情況。這是因?yàn)檎鎸?shí)微博網(wǎng)絡(luò)中節(jié)點(diǎn)規(guī)模較大,中等影響力的哨兵節(jié)點(diǎn)一定會(huì)處于微博信息的傳播路徑中。這也證明了中等影響力的哨兵在真實(shí)微博網(wǎng)絡(luò)中具有較好的監(jiān)測(cè)效果。
本文在微博網(wǎng)絡(luò)中綜合考慮節(jié)點(diǎn)的全局與局部拓?fù)浣Y(jié)構(gòu),用統(tǒng)計(jì)學(xué)的方法擬合節(jié)點(diǎn)特征與信息傳播覆蓋率之間的關(guān)系模型。在真實(shí)社會(huì)網(wǎng)絡(luò)中用統(tǒng)計(jì)的方法獲取數(shù)據(jù),取得非線性擬合預(yù)測(cè)模型,這種方法對(duì)統(tǒng)計(jì)數(shù)據(jù)有一定的要求和依賴性,因此預(yù)測(cè)模型對(duì)影響力小的源點(diǎn)傳播準(zhǔn)確性高。實(shí)驗(yàn)分析中發(fā)現(xiàn)中等影響力的節(jié)點(diǎn)作為哨兵節(jié)點(diǎn)比較穩(wěn)定,適合監(jiān)測(cè)各種源點(diǎn)傳播的信息。然而預(yù)測(cè)模型存在一定局限性,首先是實(shí)證微博網(wǎng)絡(luò)的有界性對(duì)信息傳播的影響,需要進(jìn)一步研究有界社會(huì)網(wǎng)絡(luò)的研究結(jié)論對(duì)無(wú)界網(wǎng)絡(luò)的意義;另外微博信息傳播中節(jié)點(diǎn)同步問題,特別是節(jié)點(diǎn)同步對(duì)信息傳播規(guī)律的負(fù)面作用,未來(lái)建立更合理的預(yù)測(cè)模型來(lái)解決同步機(jī)制對(duì)預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性的影響。
表1 哨兵節(jié)點(diǎn)監(jiān)測(cè)結(jié)果統(tǒng)計(jì)