朱義鑫,朱 愷
(新疆財經(jīng)大學(xué) 信息管理學(xué)院,新疆 烏魯木齊 830000)
在網(wǎng)絡(luò)輿情傳播[1]中的意見領(lǐng)袖的識別方面,已有許多學(xué)者做了廣泛的研究,目前較為主流的研究方法有:
(1)使用網(wǎng)絡(luò)輿情數(shù)據(jù),建立指標(biāo)算法實現(xiàn)意見領(lǐng)袖的識別。如郭博等通過建立活躍度、可信度、影響力等信息指標(biāo)利用層次分析法得到用戶的綜合評價模型指標(biāo)[2];馬寧等建立人物、話題和網(wǎng)絡(luò)三大維度,構(gòu)建謠言和辟謠信息綜合影響力模型[3];金海通過用戶信息和微博信息的采集,使用神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)意見領(lǐng)袖的識別和預(yù)測[4]。
(2)以網(wǎng)絡(luò)輿情傳播數(shù)據(jù)建立社交網(wǎng)絡(luò),通過用戶間的連接識別網(wǎng)絡(luò)中的關(guān)鍵節(jié)點,實現(xiàn)意見領(lǐng)袖的發(fā)現(xiàn)。如王日芬等提出了網(wǎng)絡(luò)輿情生命周期階段劃分、網(wǎng)絡(luò)輿情社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點識別、輿情事件主題發(fā)現(xiàn)3個研究內(nèi)容[5];Chunlin Li等提出了一種基于內(nèi)容相似度、時間相似度和用戶拓?fù)浣Y(jié)構(gòu)的輿情社區(qū)檢測方法,并在融合相似性的基礎(chǔ)上提出了一種基于用戶影響和情感分析的意見領(lǐng)袖檢測方法[6]。馬玉燃在PageRank算法的基礎(chǔ)上,引入節(jié)點的權(quán)威度,并結(jié)合用戶主觀意向下對節(jié)點的選擇偏好,提出 Au-2Step-PageRank算法[7]。
PageRank算法最初由Google開發(fā),用于其搜索引擎進(jìn)行網(wǎng)頁排序,通過對每個網(wǎng)頁節(jié)點的重要性判斷,優(yōu)化其搜索結(jié)果。其原理為:若有網(wǎng)頁A、B、C,其中網(wǎng)頁C均可以由網(wǎng)頁A和網(wǎng)頁B中的鏈接指向,則網(wǎng)頁C的PageRank值由網(wǎng)頁A和網(wǎng)頁B的PageRank值共同決定的,即一個頁面的重要性取決于指向它的所有頁面的數(shù)量和質(zhì)量。其計算方式如式(1)所示
(1)
式中:q為阻尼系數(shù),通常取值0.85,頁面指向方向為pj指向pi, L(pj) 為pj的出度,PageRank(pj)為pi的射入鄰接點pj的PageRank值。
PageRank算法在兩個節(jié)點之間只存在一條有向邊,即判斷兩個節(jié)點之間是否存在指向關(guān)系,并采取平均分配的原則將各節(jié)點影響力進(jìn)行傳遞。近年來,已有學(xué)者在PageRank算法的基礎(chǔ)上提出許多改進(jìn)算法,如IARank算法[8]、UI-LR算法[9]、FW-Rank算法[10]等,均使用用戶節(jié)點之間的互動關(guān)系進(jìn)行連接,改進(jìn)了節(jié)點影響力傳遞方式。
現(xiàn)階段社交網(wǎng)絡(luò)中意見領(lǐng)袖識別的研究方法依然存在較多挑戰(zhàn)[11]:首先在構(gòu)建網(wǎng)絡(luò)時通常選取用戶間一種固定關(guān)系作為用戶節(jié)點之間的聯(lián)系,較為片面不能真實完全反映整個社交網(wǎng)絡(luò)中用戶之間的復(fù)雜關(guān)系。其次,在構(gòu)建社交網(wǎng)絡(luò)的過程中,通常將整個網(wǎng)絡(luò)輿情的發(fā)展作為靜態(tài)網(wǎng)絡(luò)進(jìn)行分析,忽視了網(wǎng)絡(luò)輿情傳播的動態(tài)過程。最后,在網(wǎng)絡(luò)輿情傳播過程中每一時刻的輿情狀態(tài)會對后續(xù)的輿情發(fā)展產(chǎn)生影響,且這種影響隨著時間的發(fā)展而變化,而現(xiàn)有研究多考慮相鄰快照之間的聯(lián)系,忽視了各快照輿情狀態(tài)對事件后續(xù)發(fā)展的動態(tài)影響。
針對網(wǎng)絡(luò)輿情傳播過程中用戶群體互動性強(qiáng),信息流動速度快的特點,本文爬取微博用戶互動數(shù)據(jù)構(gòu)建時序網(wǎng)絡(luò),使用快照內(nèi)用戶互動強(qiáng)度重定義節(jié)點間的影響力貢獻(xiàn)來改進(jìn)PageRank算法,計算網(wǎng)絡(luò)快照中各節(jié)點影響力得分,引入網(wǎng)絡(luò)快照的記憶效應(yīng)參數(shù),構(gòu)建一種包含在線社交時序網(wǎng)絡(luò)記憶效應(yīng)的意見領(lǐng)袖動態(tài)識別算法——DWIR算法(dynamic-web interaction rank)。
意見領(lǐng)袖動態(tài)識別模型構(gòu)建及實驗主要包括4個步驟:①獲取實驗數(shù)據(jù),劃分用戶互動方式。②根據(jù)數(shù)據(jù)時間戳劃分時間窗口,以用戶為節(jié)點,互動關(guān)系為邊生成快照網(wǎng)絡(luò),計算用戶活躍度,得到快照網(wǎng)絡(luò)中用戶影響力得分。③所有快照網(wǎng)絡(luò)組成時序網(wǎng)絡(luò),引入記憶效應(yīng)參數(shù),構(gòu)建DWIR算法,計算網(wǎng)絡(luò)輿情各階段用戶DWIR得分,以此排序得到意見領(lǐng)袖動態(tài)識別結(jié)果。④利用DWIR意見領(lǐng)袖動態(tài)識別結(jié)果與其它算法識別結(jié)果比較進(jìn)行深入分析。
快照網(wǎng)絡(luò)中,每個用戶的重要程度既取決于其它與其互動的所有用戶的數(shù)量與質(zhì)量,還取決于用戶之間的互動方式,本文使用用戶之間的互動方式和互動程度計算用戶互動強(qiáng)度[12]。
對于一篇帖子,用戶可以進(jìn)行轉(zhuǎn)發(fā)與評論,本文用WC(weight_comments)和WF(weight_forward)分別表示相鄰用戶節(jié)點之間的評論權(quán)重和轉(zhuǎn)發(fā)權(quán)重。用Comment_times(Am,Aj) 表示用戶Aj(j=1,2,3…n) 對用戶Am(m=1,2,3…n,m≠j) 的評論次數(shù); Forward_times(Am,Aj) 表示用戶Aj(j=1,2,3…n) 對用戶Am(m=1,2,3…n,m≠j) 的轉(zhuǎn)發(fā)次數(shù)。用戶Ai的評論權(quán)重WC和轉(zhuǎn)發(fā)權(quán)重WF計算方式分別為式(2)、式(3)所示
(2)
(3)
本文使用式(4)進(jìn)行用戶互動強(qiáng)度(Interaction-Strength)的計算
IS(Ai,Aj)=α·WC(Ai,Aj)+β·WF(Ai,Aj)
(4)
式中: IS(Ai,Aj) 表示Ai的相鄰節(jié)點Aj提供的互動強(qiáng)度,α對應(yīng)評論的相對權(quán)重,β對應(yīng)轉(zhuǎn)發(fā)的相對權(quán)重。
根據(jù)在線社交平臺的用戶互動特點,評論和轉(zhuǎn)發(fā)兩種互動方式雖然都可以為用戶增加影響力,但是重要程度明顯不同。本研究采用AHP層次分析法求解[13],使用“1-9”標(biāo)度法計算α和β。
令I(lǐng)1為評論的重要程度,I2為轉(zhuǎn)發(fā)的重要程度,本研究根據(jù)評論和轉(zhuǎn)發(fā)行為對用戶提供的不同影響力,取I1的相對影響力標(biāo)度為1,I2的相對影響力標(biāo)度為3,構(gòu)建判斷矩陣如式(5)所示
(5)
將判斷矩陣按列進(jìn)行歸一化處理,并逐行計算算數(shù)平均值即可求得其最終權(quán)重ω, 其表達(dá)方式如式(6)所示
(6)
經(jīng)過一致化檢驗,最終解得:I1≈0.25、I2≈0.75。 即評論的相對權(quán)重α=0.25,轉(zhuǎn)發(fā)的相對權(quán)重β=0.75,可得IS(Ai,Aj) 計算方式如式(7)所示
IS(Ai,Aj)=0.25·WC(Ai,Aj)+0.75·WF(Ai,Aj)
(7)
本文通過用戶之間的互動強(qiáng)度對PageRank算法進(jìn)行改進(jìn),重新定義了相鄰節(jié)點之間的影響力貢獻(xiàn)方式,得到基于在線社交網(wǎng)絡(luò)用戶互動的PageRank改進(jìn)算法(web interaction rank,WIR),其計算方法如式(8)所示
(8)
快照網(wǎng)絡(luò)用戶影響力計算過程描述如下:
輸入:Gi為快照內(nèi)用戶關(guān)系集合;Ci為快照內(nèi)用戶評論數(shù)據(jù);Ai為快照內(nèi)用戶轉(zhuǎn)發(fā)數(shù)據(jù);ε為迭代終止條件。
輸出:快照內(nèi)用戶節(jié)點WIR算法影響力得分/*通過互動方式和次數(shù)計算各用戶在快照內(nèi)互動強(qiáng)度*/
(1) forCviinCido
(2)使用式(2)計算WC(Ai,Aj)
(3) end for
(4) forAviinAido
(5)使用式(3)計算WA(Ai,Aj)
(6) end for
(7)forviinGi
(8)使用式(7)計算IS(Ai,Aj)
(9)end for
/*使用計算的用戶互動強(qiáng)度重新定義節(jié)點間影響力貢獻(xiàn)方式, 改進(jìn)PageRank算法*/
(10) forviinGi
(11) 使用式(8)計算WIR(Ai)
end for
(13) 輸出快照網(wǎng)絡(luò)用戶節(jié)點WIR算法影響力得分
在線社交網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情傳播過程中,用戶影響力都會在記憶效應(yīng)下向事件后期產(chǎn)生影響,而且隨著事件發(fā)展,早期用戶影響力記憶效應(yīng)呈現(xiàn)衰減的趨勢。本文引入了快照間的記憶效應(yīng)參數(shù),令時序網(wǎng)絡(luò)中第j期快照在第i期快照上的記憶效應(yīng)參數(shù)計算方式如式(9)所示
(9)
式中:Ti為第i期快照,Tj為第j期快照,且j
網(wǎng)絡(luò)輿情傳播過程中,各快照用戶互動規(guī)模的不同導(dǎo)致各快照在整個事件中重要程度不同,本文引入快照活躍度,計算各快照在整個事件中的重要程度,體現(xiàn)不同快照間的差異性,計算方式如式(10)所示
(10)
其中,Ei表示第i期快照網(wǎng)絡(luò)的用戶互動次數(shù),E表示整個時序網(wǎng)絡(luò)中所有用戶互動次數(shù)。
本文對時序網(wǎng)絡(luò)以快照網(wǎng)絡(luò)用戶影響力記憶效應(yīng)加權(quán)聚合[14]的方式,計算網(wǎng)絡(luò)輿情發(fā)展至不同階段的用戶節(jié)點影響力,并根據(jù)其值進(jìn)行排名,實現(xiàn)意見領(lǐng)袖的動態(tài)識別。
本文使用WIR算法計算用戶在各快照內(nèi)的影響力,引入記憶效應(yīng)參數(shù)得到意見領(lǐng)袖動態(tài)識別算法——Dynamic-WebInteractionRank(Ti,Am)(以下稱DWIR(Ti,Am)), 其計算方式如式(11)所示
WIR(Tj,Am)
(11)
式中:Am表示用戶節(jié)點m,Ti表示第i期快照,Tj表示第j期快照(j≤i), Memory(Ti,Tj) 表示第j快照對第i快照的記憶效應(yīng)參數(shù), d(Tj) 表示當(dāng)前快照活躍度。
本文使用工具“八爪魚”進(jìn)行微博數(shù)據(jù)的爬取,選取主題“棲霞礦井爆炸”爬取了2021年1月12日至2021年1月31日共計20日間的主題微博搜索結(jié)果,根據(jù)爬取到的微博數(shù)據(jù)將沒有得到轉(zhuǎn)發(fā)、評論行為的用戶節(jié)點作為孤立節(jié)點進(jìn)行剔除,并根據(jù)時間跨度將其劃分為5個快照,使用網(wǎng)絡(luò)工具“Gephi”進(jìn)行快照網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計,經(jīng)統(tǒng)計整個事件共有31 950名用戶參與互動,共產(chǎn)生119 195次互動關(guān)系。
本文使用的微博數(shù)據(jù)包含了用戶j對用戶i的評論與轉(zhuǎn)發(fā),在快照網(wǎng)絡(luò)中可表示為:就轉(zhuǎn)發(fā)關(guān)系而言,若用戶進(jìn)行了轉(zhuǎn)發(fā),則轉(zhuǎn)發(fā)用戶與原用戶之間會產(chǎn)生一條用戶互動關(guān)系連線,用戶節(jié)點間的連線方向表示用戶影響力的傳遞方向,其方向是由轉(zhuǎn)發(fā)用戶指向原用戶;就評論關(guān)系而言,若用戶進(jìn)行了評論,則評論用戶與原用戶之間也會產(chǎn)生一條用戶互動關(guān)系連線,用戶節(jié)點間的連線方向表示用戶影響力的傳遞方向,其方向是由評論用戶指向原用戶。
本文選取用戶作為節(jié)點,基于用戶之間的互動關(guān)系作為連接用戶節(jié)點的邊生成網(wǎng)絡(luò)。通過時間戳對微博數(shù)據(jù)進(jìn)行時間窗口切分,所有快照Gi(i=1,2,3…5) 的集合 {G1,G2,G3,G4,G5} 構(gòu)成微博數(shù)據(jù)的在線社交時序網(wǎng)絡(luò)[15]。
在復(fù)雜網(wǎng)絡(luò)中,PageRank算法、HITS算法與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)值排名在意見領(lǐng)袖識別中有較寬廣的使用范圍和較為準(zhǔn)確的識別結(jié)果,是較為公認(rèn)的具有良好識別效果的意見領(lǐng)袖識別算法。
對于DWIR算法得到的意見領(lǐng)袖動態(tài)識別結(jié)果,本文選取前5名在其它靜態(tài)網(wǎng)絡(luò)經(jīng)典意見領(lǐng)袖影響力排序算法中的排名進(jìn)行比較,見表1。
表1 微博數(shù)據(jù)意見領(lǐng)袖排名結(jié)果
通過表1可以看出DWIR算法意見領(lǐng)袖的識別結(jié)果在其它算法中的排名同樣靠前,各個算法對于影響力較為突出的意見領(lǐng)袖的識別結(jié)果具有一致性,說明DWIR的意見領(lǐng)袖識別結(jié)果在其它算法中有較高的認(rèn)可度。
本文分別選擇PageRank算法、HITS算法與DWIR算法的意見領(lǐng)袖識別結(jié)果進(jìn)行比較[16],驗證DWIR算法意見領(lǐng)袖動態(tài)識別結(jié)果的用戶重要度排序準(zhǔn)確性。本文分別對3種算法在每個快照的意見領(lǐng)袖識別結(jié)果進(jìn)行對比,在其它學(xué)者研究的基礎(chǔ)上,計算每種算法在各個快照意見領(lǐng)袖識別結(jié)果的準(zhǔn)確率和召回率,進(jìn)而得到每種算法在各快照的F-Measure指標(biāo)[17],并以此判斷每種算法意見領(lǐng)袖識別結(jié)果的準(zhǔn)確度,其計算方式如式(12)所示
Ranks=(RankDWIR∩RankPR)∪(RankDWIR∩RankHITS)∪
(RankPR∩RankHITS)
(12)
式中:Ranks表示所有算法識別的共有意見領(lǐng)袖集合;RankDWIR表示DWIR算法的意見領(lǐng)袖識別結(jié)果集合;RankPR表示PageRank算法的意見領(lǐng)袖識別結(jié)果集合;RankHITS表示HITS算法的意見領(lǐng)袖識別結(jié)果集合。
令model表示進(jìn)行比較的各個算法,各算法識別結(jié)果準(zhǔn)確率(Precision)的計算方式如式(13)所示
(13)
各算法識別結(jié)果召回率(Recall)的計算方式如式(14)所示
(14)
各算法識別結(jié)果F-Measure指標(biāo)的計算方式如式(15)所示
(15)
本文在每一快照選取TOP20-TOP1000的不同意見領(lǐng)袖識別區(qū)間對各個算法的意見領(lǐng)袖識別結(jié)果進(jìn)行F-Measure指標(biāo)計算,分別得到各個快照的各算法F-Measure指標(biāo)對比折線圖,如圖1所示。
圖1 各階段意見領(lǐng)袖識別結(jié)果F-Measure指標(biāo)對比折線
通過事件各階段不同算法之間意見領(lǐng)袖識別結(jié)果F-Measure值對比折線圖可以看出,在每個階段的意見領(lǐng)袖識別結(jié)果中,3種算法的F-Measure值均取得較高值,說明3種算法對于意見領(lǐng)袖的識別具有較為一致的結(jié)果,且隨著事件的階段進(jìn)展,在各意見領(lǐng)袖識別區(qū)間上,DWIR識別結(jié)果的F-Measure值與PageRank和HITS算法的F-Measure值的差距逐漸增大,說明在記憶效應(yīng)影響下,DWIR算法的意見領(lǐng)袖識別結(jié)果式中保持較為出色的準(zhǔn)確度,在各階段意見領(lǐng)袖動態(tài)識別過程中,DWIR算法在前400名意見領(lǐng)袖識別區(qū)間內(nèi)準(zhǔn)確率平均高達(dá)94%,明顯高于PageRank算法的平均值90%和HITS算法的平均值88%,在幾種算法中意見領(lǐng)袖識別結(jié)果的準(zhǔn)確率最高。通過匯總各階段的意見領(lǐng)袖識別結(jié)果對比,DWIR算法可準(zhǔn)確實現(xiàn)事件發(fā)展過程中意見領(lǐng)袖動態(tài)識別的效果。
此外,為了確定DWIR算法中記憶效應(yīng)的變化對于意見領(lǐng)袖識別結(jié)果準(zhǔn)確度的影響,本文從集合 {0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9} 中選取不同記憶效應(yīng)衰減率σ值進(jìn)行意見領(lǐng)袖動態(tài)識別,與PageRank算法、HITS算法進(jìn)行比較計算F-Measure值,并選取最后階段DWIR算法相較于PageRank算法和HITS算法的F-Measure值的最大差值作為DWIR算法意見領(lǐng)袖識別優(yōu)度,并統(tǒng)計各快照在相同記憶效應(yīng)衰減率和相同識別區(qū)間下的意見領(lǐng)袖識別平均優(yōu)度,其計算方式如式(16)所示。制作了記憶效應(yīng)參數(shù)變化意見領(lǐng)袖動態(tài)識別平均優(yōu)度對比表,見表2。
表2 記憶效應(yīng)參數(shù)變化意見領(lǐng)袖動態(tài)識別平均優(yōu)度
(16)
經(jīng)過各快照不同記憶效應(yīng)參數(shù)作用下意見領(lǐng)袖識別平均優(yōu)度的對比,可以看到在不同記憶效應(yīng)下,各意見領(lǐng)袖識別區(qū)間之間的DWIR算法意見領(lǐng)袖識別優(yōu)度變化趨勢較為一致;且在同一意見領(lǐng)袖區(qū)間上,不同記憶效應(yīng)作用的DWIR意見領(lǐng)袖識別優(yōu)度的波動較大,說明記憶效應(yīng)作用力的選取對于意見領(lǐng)袖識別結(jié)果的準(zhǔn)確度有較為明顯的影響,通過對比各快照各意見領(lǐng)袖區(qū)間的DWIR算法意見領(lǐng)袖識別優(yōu)度,可以看出記憶效應(yīng)衰減率σ=0.3時,隨著意見領(lǐng)袖識別區(qū)間的擴(kuò)大,DWIR算法意見領(lǐng)袖識別優(yōu)度較其它兩種算法逐漸提高,隨著σ取值區(qū)間的不同,DWIR算法的意見領(lǐng)袖識別優(yōu)度有較為顯著的影響,本文令0.3作為記憶效應(yīng)衰減率計算記憶效應(yīng)參數(shù),并以此進(jìn)行意見領(lǐng)袖的動態(tài)識別具有較好的準(zhǔn)確度。
本文提出的DWIR算法通過建立快照時序網(wǎng)絡(luò),在快照網(wǎng)絡(luò)內(nèi)使用用戶的轉(zhuǎn)發(fā)和評論關(guān)系改進(jìn)了PageRank算法計算快照內(nèi)用戶影響力,并引入快照的記憶效應(yīng),實現(xiàn)了網(wǎng)絡(luò)輿情意見領(lǐng)袖的動態(tài)識別。本文通過計算每一快照DWIR算法與PageRank算法、HITS算法的意見領(lǐng)袖識別結(jié)果之間的F-Measure指標(biāo),經(jīng)過對比,驗證得到DWIR算法意見領(lǐng)袖動態(tài)識別結(jié)果具有更高的準(zhǔn)確度。并通過選取不同記憶效應(yīng)參數(shù),比較得出記憶效應(yīng)衰減率的不同取值對該意見領(lǐng)袖動態(tài)識別算法準(zhǔn)確率有顯著影響。
本算法的意見領(lǐng)袖識別結(jié)果準(zhǔn)確實現(xiàn)了不同快照的意見領(lǐng)袖動態(tài)識別。通過對比意見領(lǐng)袖的動態(tài)識別結(jié)果,可以得到不同快照意見領(lǐng)袖的變化趨勢,并結(jié)合意見領(lǐng)袖在不同快照的活躍度,從而根據(jù)網(wǎng)絡(luò)輿情傳播趨勢的特點制定相應(yīng)的網(wǎng)絡(luò)輿情監(jiān)管與引導(dǎo)措施,使得網(wǎng)絡(luò)輿情監(jiān)管手段更加靈活,更具針對性[18]。