国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PageRank和最短路徑的用戶影響力評(píng)估

2018-05-03 11:45:06張俊豪
關(guān)鍵詞:關(guān)注度網(wǎng)頁(yè)影響力

張俊豪

(鐵道警察學(xué)院公安技術(shù)系 河南 鄭州 450003)

1 引言

微博作為我國(guó)主流的社交網(wǎng)絡(luò)之一[1],每一次社會(huì)輿論的醞釀、傳播、爆發(fā)都與其有著直接的關(guān)系,其中,微博中那些重要的微博用戶對(duì)輿論的引導(dǎo)、走向起著至關(guān)重要的作用。通過(guò)衡量微博用戶影響力可以挖掘出影響輿論發(fā)展的重要用戶、預(yù)測(cè)輿論的發(fā)展方向、確定微博網(wǎng)絡(luò)的核心框架以及為其他的研究奠定理論接觸等[2]。目前對(duì)用戶影響力的研究已經(jīng)取得了很大突破,根據(jù)算法種類可將前期研究分為4類:①基于PageRank的用戶影響力評(píng)估模型。主要有王彪的peoplerank算法[3]、陳少欽的實(shí)時(shí)用戶影響力算法等[4]。②基于微博行為的用戶影響力評(píng)估模型。主要有肖宇的基于用戶行為特性的評(píng)估模型[5]、齊超的三大網(wǎng)絡(luò)評(píng)估模型[6]、朱郭峰的主題行為評(píng)估模型[7]、Ye等人的行為對(duì)比評(píng)估模型等[8]。③基于路徑的用戶影響力評(píng)估模型。主要有郭浩等人的基于直接影響力和級(jí)聯(lián)影響力的用戶影響力評(píng)估模型[9]、陳燦的K-覆蓋度評(píng)估模型[10]。④其他用戶影響力評(píng)估模型。主要是利用博弈論、傳染病模型等進(jìn)行用戶影響力評(píng)估。

以上的評(píng)估模型各有優(yōu)缺點(diǎn),但都未能從用戶所處微博中的關(guān)鍵位置出發(fā)去衡量用戶影響力。本文綜合運(yùn)用圖論、微博網(wǎng)絡(luò)特性、社會(huì)學(xué)等知識(shí),提出一種基于PageRank和最短路徑的用戶影響力算法(User Influence Assessment Based on PageRank and Shortest Path,UIA-PSP)。

2 PageRank算法原理

PageRank算法通過(guò)網(wǎng)頁(yè)之間的鏈接關(guān)系得到網(wǎng)頁(yè)權(quán)值,算法主要有以下兩個(gè)核心思想[11]:

(1)一個(gè)網(wǎng)頁(yè)的鏈入鏈接越多,該網(wǎng)頁(yè)就越重要。

(2)一個(gè)高權(quán)威網(wǎng)頁(yè)鏈接至另一個(gè)網(wǎng)頁(yè),那么被鏈接的網(wǎng)頁(yè)也非常重要。

PageRank算法的計(jì)算過(guò)程如圖1所示。

圖1 網(wǎng)頁(yè)結(jié)構(gòu)圖

假設(shè),在圖1中,存在著4個(gè)網(wǎng)頁(yè)的拓補(bǔ)結(jié)構(gòu),其中網(wǎng)頁(yè)D在指向網(wǎng)頁(yè)A的同時(shí)又指向了其他兩個(gè)網(wǎng)頁(yè)。其中網(wǎng)頁(yè)A的PR值如公式 (1)所示:

若用有向圖G (V,E)表示萬(wàn)維網(wǎng)的話,那么V代表網(wǎng)頁(yè)集,E代表超鏈接集。其中網(wǎng)頁(yè)i的權(quán)威值可用公式(2)所示:

公式(2)中,P(i)代表網(wǎng)頁(yè)i的權(quán)威值,O(j)表示網(wǎng)頁(yè)j的鏈出鏈接總數(shù),(i,j)代表網(wǎng)頁(yè)j指向網(wǎng)頁(yè)i的鏈接。根據(jù)萬(wàn)維網(wǎng)中存在著懸垂葉等特征,Google最終將PageRank的計(jì)算公式確定為公式(3)所示:

公式(3)中,P代表網(wǎng)頁(yè)的權(quán)威向量,d代表阻尼系數(shù),e代表單位矩陣,B是網(wǎng)頁(yè)的鏈接關(guān)系得到的轉(zhuǎn)移矩陣。

3 基于PageRank和最短路徑的用戶影響力評(píng)估算法

萬(wàn)維網(wǎng)由大量的網(wǎng)頁(yè)和鏈接組成,微博由大量的用戶和關(guān)注關(guān)系組成,都可以用有向圖表示,所以,用戶影響力的評(píng)估可以借鑒PageRank算法。微博和萬(wàn)維網(wǎng)的拓?fù)浣Y(jié)構(gòu)有所相似,也有所不同,網(wǎng)頁(yè)之間除了鏈接關(guān)系,其他的關(guān)系幾乎不存在,微博用戶之間除了關(guān)注關(guān)系,還存在著轉(zhuǎn)發(fā)微博、提及、評(píng)論等諸多行為關(guān)系,所以,在衡量微博用戶影響力的同時(shí),應(yīng)考慮微博用戶行為這一核心要素。

3.1 微博網(wǎng)絡(luò)加權(quán)圖的構(gòu)成

用有向圖G (V,E)表示微博網(wǎng)絡(luò),V代表用戶集,E代表關(guān)注關(guān)系集。關(guān)注關(guān)系涉及到評(píng)論X、轉(zhuǎn)發(fā)、提及等多種用戶行為,所以關(guān)注關(guān)系有著強(qiáng)弱之分,如圖2所示。

圖2 用戶關(guān)注網(wǎng)絡(luò)

圖2中的微博用戶關(guān)注網(wǎng)絡(luò)中,若用戶C同時(shí)關(guān)注了用戶E和用戶D,但是用戶C對(duì)用戶D的微博很少轉(zhuǎn)發(fā)、評(píng)論或者收藏,而對(duì)用戶E的微博卻是頻繁的轉(zhuǎn)發(fā)、評(píng)論等。本文在借鑒PageRank衡量用戶影響力時(shí),會(huì)根據(jù)關(guān)注關(guān)系的強(qiáng)弱將C的影響力權(quán)值多分給用戶E,而少分給用戶D。

微博用戶之間的行為主要有評(píng)論、轉(zhuǎn)發(fā)、提及。這3種行為對(duì)于關(guān)注關(guān)系的強(qiáng)弱又有著不同程度的影響,從對(duì)微博消息傳播力度的角度考慮,轉(zhuǎn)發(fā)對(duì)關(guān)系的強(qiáng)度影響最大,提及其次,評(píng)論最小。本文采用加權(quán)融合的方法量化用戶之間的關(guān)注關(guān)系,并用關(guān)注度表示,如圖3所示。

圖3 用戶之間的關(guān)注度

根據(jù)圖3可知,用戶之間關(guān)注度的大小可由公式(4)表示:

在公式(4)中,A(u,v)代表用戶u和v之間的關(guān)注度,R代表用戶u轉(zhuǎn)發(fā)v的微博數(shù),M代表用戶u評(píng)論v微博的總次數(shù),@代表u提及v的總次數(shù),用戶的關(guān)注度具有方向性。α,β,γ表示相應(yīng)因素的權(quán)值。由于微博用戶實(shí)際中的評(píng)論、轉(zhuǎn)發(fā)和提及都不是在一個(gè)數(shù)量級(jí),若直接進(jìn)行加權(quán)計(jì)算,會(huì)面臨著大數(shù)吃小數(shù)的問題,所以要對(duì)每種行為數(shù)值進(jìn)行歸一化處理。本文采用離差標(biāo)準(zhǔn)化對(duì)這些行為數(shù)據(jù)進(jìn)行線性變換,如公式(5)所示:

在公式(5)中 Yi是歸一后的用戶轉(zhuǎn)發(fā)值(評(píng)論值,提及值),Xi是歸一前的用戶轉(zhuǎn)發(fā)微博數(shù)值(評(píng)論值,提及值),mini是用戶i在轉(zhuǎn)發(fā)(評(píng)論,提及)所有微博對(duì)象中,轉(zhuǎn)發(fā)值(評(píng)論值,提及值)最小的那個(gè),同理maxi代表其最大的用戶轉(zhuǎn)發(fā)值(評(píng)論值,提及值)。在經(jīng)過(guò)歸一化處理之后,用戶之間的關(guān)注度可由公式(6)表示:

在公式(6)中A(U,V)‘代表經(jīng)過(guò)歸一化處理之后的用戶關(guān)注度,R’代表經(jīng)過(guò)歸一化處理之后的轉(zhuǎn)發(fā)數(shù),M’代表經(jīng)過(guò)歸一化處理之后的評(píng)論數(shù),@’代表經(jīng)過(guò)歸一化處理之后的提及數(shù)。在微博關(guān)注網(wǎng)絡(luò)圖中,加上用戶之間的關(guān)注度,可得到微博網(wǎng)絡(luò)加權(quán)圖。

3.2 權(quán)值分配計(jì)算

通過(guò)兩個(gè)用戶之間的關(guān)注度可以衡量用戶傳播消息的局部能力,卻不能從全局的角度衡量用戶傳播消息的能力。本文根據(jù)用戶在微博網(wǎng)絡(luò)中所處的關(guān)鍵位置,從全局的角度衡量用戶傳播消息的能力。

時(shí)效性是研究微博輿情的一個(gè)主要觀測(cè)點(diǎn),在微博網(wǎng)絡(luò)中,用戶能否以最快的方式將消息傳播出去是衡量用戶影響力的關(guān)鍵因素。在微博網(wǎng)絡(luò)加權(quán)圖的基礎(chǔ)之上,通過(guò)用戶處于其他用戶到自己粉絲的最短路徑上的頻率衡量用戶的全局影響力,如圖4。

圖4 微博網(wǎng)絡(luò)加權(quán)圖

在圖4中,箭頭表示消息的走向,箭頭上的數(shù)值表示關(guān)系權(quán)值。為了計(jì)算的方便,將用戶之間的關(guān)注度進(jìn)行取逆運(yùn)算得到用戶之間的關(guān)系權(quán)值,即關(guān)系權(quán)值越小,關(guān)系越強(qiáng)。

圖4中,若A想要獲取D的微博消息,根據(jù)Floyd算法可知,消息最快的傳播路徑應(yīng)是D->B->A,而不是D->C->A,盡管A對(duì)C的關(guān)注關(guān)系很強(qiáng),但是B對(duì)D的關(guān)注關(guān)系更強(qiáng),消息的走向不僅依賴于A的關(guān)注關(guān)系,也依賴于B的關(guān)注關(guān)系。同樣,根據(jù)Floyd算法可知B、D、E、F、G用戶的微博消息若想以最快的方式流向A,都經(jīng)過(guò)B,說(shuō)明B對(duì)A的影響力比C對(duì)A的影響力更強(qiáng)。

通過(guò)以上分析可知,一個(gè)用戶處于其他用戶之間最短路徑上的頻率越大,該用戶對(duì)微博消息的傳播作用力更強(qiáng)。例如在圖4中,所有節(jié)點(diǎn)到節(jié)點(diǎn)A的最短路徑中,通過(guò)B的有5次,通過(guò)C的有1次,那么A則將自己的影響力均分為6份,5份給B,1份給C。

3.3 算法核心

根據(jù)文中3.1和3.2的描述,在PageRank算法的基礎(chǔ)上,本文的算法核心基本上有以下3點(diǎn):①粉絲數(shù)決定用戶影響力。②關(guān)注度決定用戶影響力。③位置決定用戶影響力。

本文UIA-PSP算法的核心可用公式(7)表示:

在公式(7)中,參照PageRank的公式,可知UIA-PSP(v)為v的用戶影響力,e為單位矩陣,F(xiàn)為根據(jù)用戶的關(guān)注關(guān)系和Floyd得到的轉(zhuǎn)移矩陣,即F(u,v)代表粉絲u貢獻(xiàn)給用戶v的比例值。其中F(u,v)可通過(guò)公式(8)確定:

在公式(8)中,t(i,v,u)表示微博網(wǎng)絡(luò)中其他任意節(jié)點(diǎn)i經(jīng)過(guò)用戶V達(dá)到用戶u的最短路徑數(shù)目,t(i,u)表示微博網(wǎng)絡(luò)中其他任意節(jié)點(diǎn)i到用戶u的最短路徑數(shù)目。

因此,UIA-PSP算法的核心結(jié)構(gòu)可如圖5所示。

綜上所述,UIA-PSP算法的核心可用如下偽代碼所示:

本算法中,根據(jù)Google給出參數(shù)建議,將阻尼因子d取值為0.85,ε取值為0.00001。根據(jù)層次分析法(AHP)可確定UIA-PSP算法中的參數(shù)為:α= 0.65A,β=0.0638,γ=0.2746[12]。

4 實(shí)驗(yàn)及結(jié)果分析

本文的實(shí)驗(yàn)數(shù)據(jù)是在數(shù)據(jù)堂提供的原始信息之上,利用微博爬蟲得到用戶之間的行為信息,主要的信息包含2012年1月1日至2016年1月1日的關(guān)注關(guān)系、轉(zhuǎn)發(fā)數(shù)目、評(píng)論數(shù)目、提及數(shù)目。最終得到的實(shí)驗(yàn)數(shù)據(jù)包含114名用戶,703條關(guān)注關(guān)系。部分實(shí)驗(yàn)數(shù)據(jù)如圖6所示。

圖6 實(shí)驗(yàn)的部分?jǐn)?shù)據(jù)

為了進(jìn)行實(shí)驗(yàn)的對(duì)比分析,本文采用PageRank算法和基于用戶的粉絲數(shù)衡量用戶影響力的算法(User Influence Assessment Based on the number of User’ Fans,UIA-UF)作為UIA-PSP算法的兩種對(duì)比算法,進(jìn)行綜合的分析比較。

采用UIA-PSP對(duì)用戶影響力進(jìn)行排序,排序結(jié)果如圖7所示。

圖7 UIA-PSP排序結(jié)果

采用PageRank對(duì)用戶影響力進(jìn)行排序,排序結(jié)果如圖8所示。

采用UIA-UF對(duì)用戶影響力進(jìn)行排序,排序結(jié)果如圖9所示。

本文采用P@N作為實(shí)驗(yàn)分析指標(biāo),衡量UIAPSP算法的準(zhǔn)確性,P@N的計(jì)算公式,如公式(9)所示:

在公式(9)中,AN∩BN代表算法A(B)得到的前N名用戶影響力的交集量,本文N的取值分別為10、20、30、40、50、60、70、80。

圖8 PageRank排序結(jié)果

圖9 UIA-UF排序結(jié)果

若將以UIA-UF為基線模型,以PageRank和UIAPSP為對(duì)比模型,那么對(duì)比模型所得結(jié)果在P@N指標(biāo)下的表現(xiàn)如表1所示。

表1 以UIA-UF為基線算法的P@N值測(cè)試結(jié)果

若以PageRank為基線模型,以UIA-UF和本文的UIA-PSP算法為對(duì)比模型,那么對(duì)比模型所得結(jié)果在P@N指標(biāo)下的表現(xiàn)如表2所示。

表2 以PageRank為基線算法的P@N值測(cè)試結(jié)果

從表1和表2中,通過(guò)UIA-PSP得到用戶影響力排名結(jié)果的準(zhǔn)確率與N值成正比例。在表1中,以UIA-UF為基線模型時(shí),PageRank得到結(jié)果的準(zhǔn)確率高于UIA-PSP,并且幅度從0~50%不等,這說(shuō)明UIA-PSP相比PageRank對(duì)用戶影響力的排名進(jìn)行了調(diào)整。在表2中,以PageRank為基線算法時(shí),UIA-PSP得到結(jié)果的準(zhǔn)確率總體上高于UIA-UF,并且幅度從0-30%不等。這可以得出兩個(gè)結(jié)論:①PageRank與UIA-UF更為相似。②UIA-PSP與兩個(gè)算法對(duì)比都各有不同。

在UIA-PSP中,粉絲最多的27號(hào)用戶僅排名23位,在PageRank中排名28位,這說(shuō)明了在UIA-PSP算法中,粉絲僅是衡量用戶影響力的一個(gè)因素,但不是決定性因素。在PageRank算法中排名第一的57號(hào)用戶,在UIA-PSP算法中排名第56位,因?yàn)?7號(hào)用戶擁有大量的粉絲,而且其中有3個(gè)粉絲的用戶影響力很大,所以PageRank得到的57號(hào)用戶影響力就很大;在UIA-PSP中,其他用戶之間的最短路徑中經(jīng)過(guò)57號(hào)用戶的數(shù)量很少,所以排名有所下滑。類似的用戶還有21、86號(hào)用戶。在UIAPSP得到的用戶影響力排名結(jié)果中,22號(hào)用戶排名第一,因?yàn)橥ㄟ^(guò)22號(hào)用戶的最短路徑多達(dá)312條,也是因?yàn)?2號(hào)用戶的部分粉絲影響力很大,所以22號(hào)用戶獲得了較多的用戶影響力貢獻(xiàn)值。類似的用戶還有11、81號(hào)用戶等。這可得出第3個(gè)結(jié)論:UIA-PSP算法能夠通過(guò)用戶處傳播消息的能力衡量用戶的影響力。

通過(guò)實(shí)驗(yàn)可知,UIA-PSP算法根據(jù)用戶關(guān)注度衡量用戶的局部影響力,又根據(jù)用戶處于其他用戶之間的最短路徑上的頻率衡量用戶的全局影響力。在公安工作中,可將此算法作為參考,進(jìn)行輿情的實(shí)時(shí)管控。例如在微博網(wǎng)絡(luò)中,可通過(guò)用戶的關(guān)注度找出那些粉絲真正關(guān)注的用戶,也可通過(guò)用戶處于其他用戶之間的最短路徑上的頻率找出推動(dòng)微博消息快速傳播的用戶。在出現(xiàn)微博輿情時(shí),可實(shí)現(xiàn)對(duì)重點(diǎn)人員和幕后推動(dòng)輿情發(fā)展人員的實(shí)時(shí)監(jiān)控,而不是對(duì)那些僅僅擁有眾多粉絲數(shù)的“大V”進(jìn)行盲目的監(jiān)控。另外通過(guò)本算法,可提取出微博輿情傳播的主體框架,對(duì)輿情的下一步發(fā)展以及輿情的導(dǎo)控做出科學(xué)的判斷。

5 小結(jié)

本文在PageRank和最短路徑的基礎(chǔ)上提出了UIA-PSP算法,既根據(jù)用戶行為考慮到了用戶的局部影響力,又根據(jù)用戶在微博中的位置考慮了用戶的全局影響力。實(shí)驗(yàn)結(jié)果證明了UIA-PSP具有較高的說(shuō)服力。

參考文獻(xiàn):

[1] 張坤.國(guó)內(nèi)微博的傳播形態(tài)與發(fā)展研究[D].南昌:江西師范大學(xué),2012:6-15.

[2] Maksim Tsvetovat,Alexander Kouznetsov.社會(huì)網(wǎng)絡(luò)分析方法與實(shí)踐[M].王薇,王成軍,王穎,等譯.北京:機(jī)械工業(yè)出版社,2013:13-45.

[3] 王彪.社交網(wǎng)絡(luò)中的用戶影響力分析[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012:4-19.

[4] 陳少欽.基于PageRank的社交網(wǎng)絡(luò)用戶實(shí)時(shí)影響力研究[D].上海:上海交通大學(xué),2013:12-33.

[5] 肖宇.校園網(wǎng)絡(luò)信息傳播特性與用戶影響力研究[D].武漢:華中科技大學(xué),2012:8-55.

[6] 齊超,陳鴻昶,于洪濤.基于用戶行為綜合分析的微博用戶影響力評(píng)價(jià)方法[J]. 計(jì)算機(jī)應(yīng)用研究,2014(7):2004-2007.

[7] 朱郭峰,楊彥,周竹榮,等.基于領(lǐng)域的微博用戶影響力計(jì)算方法[J].西南大學(xué)學(xué)報(bào)(自然科學(xué)版)2014(3):145-151.

[8] Ye S,Wu S F.Measuring Message Propagation and Social Influence on Twitter.com[J].International Journal of Communication Networks & Distributed Systems,2010(1):216-231.

[9] 郭浩,陸玉良,王宇,等.基于信息傳播的微博用戶影響力度量[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2012(5):78-83.

[10] 陳燦.微博用戶的影響力分析[D].濟(jì)南:山東大學(xué),2013:16-33.

[11] 劉兵.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2009:66-99.

[12] 郭金玉,張忠彬,孫慶云.層次分析法的研究與應(yīng)用[J].中國(guó)安全科學(xué)學(xué)報(bào),2008(5):148-153.

猜你喜歡
關(guān)注度網(wǎng)頁(yè)影響力
天才影響力
NBA特刊(2018年14期)2018-08-13 08:51:40
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
雄安新區(qū)媒體關(guān)注度
全國(guó)兩會(huì)媒體關(guān)注度
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
黃艷:最深遠(yuǎn)的影響力
暴力老媽
網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
“王者”泛海發(fā)布會(huì)聚焦百萬(wàn)關(guān)注度
3.15消協(xié)三十年十大影響力事件
通海县| 云安县| 武乡县| 抚松县| 合川市| 堆龙德庆县| 台中县| 登封市| 信阳市| 延吉市| 衡水市| 富川| 华亭县| 温州市| 黄平县| 平泉县| 太和县| 确山县| 吴川市| 图木舒克市| 广丰县| 类乌齐县| 巴彦淖尔市| 湘潭县| 翁源县| 龙游县| 达尔| 五指山市| 楚雄市| 乐至县| 阜新市| 大埔区| 绥棱县| 灌阳县| 扶风县| 信丰县| 横峰县| 乐陵市| 柳州市| 浙江省| 连云港市|