邱繼遠(yuǎn),岳振軍,榮傳振,蘇豐龍
(中國人民解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
?
網(wǎng)頁排序算法在社會(huì)認(rèn)知管理效果評(píng)價(jià)中的應(yīng)用*
邱繼遠(yuǎn),岳振軍,榮傳振,蘇豐龍
(中國人民解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
摘要:描述了當(dāng)前突發(fā)公共事件中社會(huì)認(rèn)知管理的現(xiàn)狀,針對(duì)當(dāng)前突發(fā)公眾事件中社會(huì)認(rèn)知管理水平不高,沒有統(tǒng)一的認(rèn)知管理水平評(píng)價(jià)標(biāo)準(zhǔn)等問題,提出了應(yīng)用網(wǎng)頁排序打分的方法來對(duì)突發(fā)事件中主流媒體網(wǎng)絡(luò)信息發(fā)布受公眾關(guān)注度的情況進(jìn)行評(píng)價(jià),從而間接評(píng)價(jià)網(wǎng)絡(luò)媒體在社會(huì)認(rèn)知管理中發(fā)揮的作用。針對(duì)傳統(tǒng)PageRank算法偏重舊網(wǎng)頁的現(xiàn)象,對(duì)算法進(jìn)行了改進(jìn),增加了時(shí)間權(quán)重。在Hadoop分布式計(jì)算平臺(tái)上實(shí)現(xiàn)了該算法,并對(duì)比分析了算法改進(jìn)前后的排序結(jié)果。
關(guān)鍵詞:認(rèn)知管理; 突發(fā)性公共事件; Hadoop;PageRank;時(shí)效性
引用格式:邱繼遠(yuǎn),岳振軍,榮傳振,等. 網(wǎng)頁排序算法在社會(huì)認(rèn)知管理效果評(píng)價(jià)中的應(yīng)用[J].微型機(jī)與應(yīng)用,2016,35(12):16-17,20.
0引言
當(dāng)前,國際形勢復(fù)雜多變,國內(nèi)改革逐步深化,各類問題和矛盾引發(fā)的突發(fā)性公共事件頻繁出現(xiàn)。社會(huì)認(rèn)知管理在處置突發(fā)事件中的作用日益凸顯,它能夠在突發(fā)性公共事件發(fā)生時(shí)對(duì)公眾的心理活動(dòng)過程進(jìn)行干預(yù)和引導(dǎo),從而及時(shí)有效地糾正公眾認(rèn)知的偏差。信息發(fā)布作為社會(huì)認(rèn)知管理的主要手段,有多種方式,在大數(shù)據(jù)時(shí)代背景下,網(wǎng)絡(luò)信息的發(fā)布是極為重要的一種方式。對(duì)網(wǎng)絡(luò)信息發(fā)布的受關(guān)注程度進(jìn)行評(píng)價(jià),能夠在一定程度上體現(xiàn)政府的認(rèn)知管理效果。針對(duì)當(dāng)前媒體網(wǎng)絡(luò)建設(shè)水平參差不齊、信息發(fā)布受公眾關(guān)注度不高、缺乏有效的信息評(píng)價(jià)機(jī)制的現(xiàn)狀,本文致力于通過基于Hadoop[1-4]的網(wǎng)頁排序技術(shù)對(duì)突發(fā)性公共事件中各網(wǎng)站信息發(fā)布的受關(guān)注度進(jìn)行綜合排序打分,找出影響關(guān)注度的主要因素,以此來推動(dòng)網(wǎng)站信息發(fā)布水平的提升,進(jìn)而提升政府的社會(huì)認(rèn)知管理水平。
1當(dāng)前認(rèn)知管理中存在的問題
在大數(shù)據(jù)時(shí)代,由于信息傳播的速度和廣度前所未有,因此政府開展認(rèn)知管理活動(dòng)更加困難。宋園園[5]認(rèn)為,在大數(shù)據(jù)背景下的突發(fā)公共事件中,政府、媒體和公眾是危機(jī)管理的三大核心力量,本文分別從這三個(gè)方面探討當(dāng)前認(rèn)知管理中存在的問題。
在政府層面存在的問題主要有:管理者缺乏社會(huì)認(rèn)知管理意識(shí),官本位思想依然存在,政府在信息系統(tǒng)方面還相對(duì)薄弱等。在媒體層面,存在官方媒體信息傳播職能相對(duì)弱化、個(gè)別媒體單純地只做政府的發(fā)言人和撰稿人、信息收集渠道過窄、信息發(fā)布不全不準(zhǔn)等問題。在公眾層面,存在公共危機(jī)意識(shí)薄弱、對(duì)各種媒介信息的判斷能力普遍較差等問題。
當(dāng)前,由于國內(nèi)外對(duì)社會(huì)認(rèn)知管理的研究還沒有形成統(tǒng)一的理論體系,缺乏對(duì)認(rèn)知管理水平的評(píng)價(jià)標(biāo)準(zhǔn)。針對(duì)該問題,本文引入信息檢索技術(shù)中的網(wǎng)頁排序技術(shù),通過對(duì)公共突發(fā)事件發(fā)生后媒體的網(wǎng)絡(luò)信息發(fā)布受關(guān)注程度進(jìn)行評(píng)價(jià),進(jìn)而對(duì)影響受關(guān)注度的因素加以分析,提出建議,提升社會(huì)認(rèn)知管理水平。
2PageRank算法
PageRank算法由斯坦福大學(xué)的PAGE L[6]提出,該排序算法根據(jù)網(wǎng)頁間鏈接信息迭代計(jì)算得到。用有向圖G(V,E)表示網(wǎng)絡(luò)頁面間的鏈接關(guān)系,其中V是網(wǎng)頁集合,E是邊集(當(dāng)且僅當(dāng)存在從頁面i到頁面j的鏈接時(shí),存在相應(yīng)的邊)。
計(jì)算PageRank的過程是求矩陣特征向量的過程:M表示有向圖G的聯(lián)接矩陣, 當(dāng)存在節(jié)點(diǎn)j到i的邊時(shí),矩陣元素[i,j]的值為1/Nj,否則賦值0,其滿足:
x=Mx
(1)
其中,x表示各頁面構(gòu)成的向量。根據(jù)構(gòu)成可得,矩陣M最大特征值為1;x為1對(duì)應(yīng)的特征向量,使用簡單迭代法對(duì)以上公式求解。M必須滿足兩個(gè)條件,迭代過程才會(huì)收斂:(1)M是非循環(huán)的;(2)M為強(qiáng)制連通。條件(1)由網(wǎng)絡(luò)結(jié)構(gòu)來保證,條件(2)通過在迭代過程中增加一個(gè)阻尼因子c來保證。新公式定義如下:
(2)
此時(shí),在保證迭代收斂的同時(shí),PageRank定義轉(zhuǎn)變?nèi)缦?設(shè)頁面z1,z2,…,zn鏈接指向頁面i,則
(3)
其中阻尼因子c為0.15,N(z)n為網(wǎng)頁(z)n的出鏈個(gè)數(shù),(1-c)為阻尼系數(shù)。
PageRank算法中,由于網(wǎng)頁的內(nèi)外部鏈接需要時(shí)間的積累,收錄數(shù)與反鏈數(shù)隨著時(shí)間的積累而增加, PageRank的計(jì)算方法會(huì)使新網(wǎng)頁P(yáng)R值偏低,導(dǎo)致歧視新網(wǎng)頁的現(xiàn)象。而公共危機(jī)發(fā)生后對(duì)信息發(fā)布時(shí)效性要求較高,故需要在傳統(tǒng)算法的基礎(chǔ)上添加時(shí)間權(quán)重。公眾對(duì)信息的實(shí)時(shí)需求較高,網(wǎng)頁被檢索到的時(shí)間與公共事件發(fā)生的時(shí)間差值越大,則網(wǎng)頁內(nèi)容價(jià)值相對(duì)越低。信息發(fā)布時(shí)間差Td的計(jì)算公式為:
Td=(Eq-Ec)×24+(Fq-Fc)
(4)
式中:Eq、Fq分別為檢索時(shí)間的天數(shù)、小時(shí);Ec、Fc分別為網(wǎng)頁發(fā)布時(shí)間的天數(shù)、小時(shí)。
Ti表示突發(fā)公共事件發(fā)生后,信息發(fā)布距事件發(fā)生在各時(shí)間段的賦值。
3實(shí)驗(yàn)結(jié)果及分析
整個(gè)實(shí)驗(yàn)包括數(shù)據(jù)集的獲取、預(yù)處理、實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析四個(gè)部分。本文使用3臺(tái)PC搭建Hadoop的分布式計(jì)算平臺(tái),分別為PC1~PC3。其中:PC1作Master;PC2~PC3作Slave。每臺(tái)PC具體配置硬件環(huán)境為:Intel Core 2 Duo 2.20 GHz CPU;2 GB內(nèi)存;300 GB硬盤;千兆網(wǎng)卡。軟件環(huán)境為Radhat 7;Hadoop 0.20。
3.1網(wǎng)頁數(shù)據(jù)的獲取
本文以新聞?lì)悜?yīng)用為例,網(wǎng)絡(luò)蜘蛛負(fù)責(zé)獲取網(wǎng)頁數(shù)據(jù), 網(wǎng)頁來自新華網(wǎng)、環(huán)球網(wǎng)、搜狐、新浪、網(wǎng)易、騰訊、鳳凰網(wǎng)等各大門戶網(wǎng)站,設(shè)定查詢時(shí)間為突發(fā)公共事件72小時(shí)以內(nèi)上述網(wǎng)站有關(guān)的新聞報(bào)道,經(jīng)過約24小時(shí)網(wǎng)絡(luò)蜘蛛的運(yùn)行共爬取5×104張符合條件的新聞網(wǎng)頁。
3.2實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
3.2.1實(shí)驗(yàn)設(shè)計(jì)
本文分別以“青島38元一只大蝦事件”、“美軍拉森號(hào)艦艇進(jìn)入南海島礁12海里事件”等查詢詞作為突發(fā)公共事件類應(yīng)用實(shí)驗(yàn)參數(shù),以PageRank值的變化量小于0.000 1作為算法收斂條件,求得事件發(fā)生后72小時(shí)內(nèi)各網(wǎng)站報(bào)道的新聞頁面的PR平均值。依據(jù)數(shù)值大小進(jìn)行排名。
3.2.2實(shí)驗(yàn)結(jié)果分析
表1顯示,在事件1~3中,環(huán)球網(wǎng)和新華網(wǎng)在排序中較靠后,沒有較強(qiáng)從屬關(guān)系的鳳凰、網(wǎng)易等網(wǎng)頁排序較靠前。事件4中,環(huán)球網(wǎng)和新華網(wǎng)排名有所提升,但仍然沒有排在前列。
表1 網(wǎng)站PR排名
表2顯示,在添加時(shí)間權(quán)重后,環(huán)球網(wǎng)和新華網(wǎng)排名有所下降。
表2 添加時(shí)間權(quán)重后排名
綜上所述,可以得到如下啟示:一是在突發(fā)公共事件中官方網(wǎng)站發(fā)布的消息受到的公眾關(guān)注度遠(yuǎn)低于當(dāng)前主流媒體所發(fā)布的消息,在綜合排名中相對(duì)位置比較靠后;二是在對(duì)外的突發(fā)事件中,官方媒體排序相對(duì)較高,說明
在對(duì)外事件中,公眾對(duì)官網(wǎng)消息的認(rèn)可度較高;三是在加入時(shí)間權(quán)重后,官方網(wǎng)站的排名更加靠后,說明官方網(wǎng)站消息的時(shí)效性不強(qiáng),遠(yuǎn)遠(yuǎn)滯后于當(dāng)前主流媒體;四是在統(tǒng)計(jì)中發(fā)現(xiàn),官方網(wǎng)站發(fā)布的新聞數(shù)量和篇幅都遠(yuǎn)低于主流媒體,所報(bào)道內(nèi)容不全面、不完整也是官方網(wǎng)頁受關(guān)注度不高的原因。
4結(jié)論
本文通過對(duì)公共突發(fā)事件和認(rèn)知管理特點(diǎn)的研究,提出了通過PageRank排序算法對(duì)突發(fā)公共事件網(wǎng)絡(luò)新聞報(bào)道進(jìn)行關(guān)注度排名的方法,并將算法在Hadoop分布式計(jì)算平臺(tái)上實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果在一定程度上能夠反映各大主流媒體在突發(fā)事件的網(wǎng)絡(luò)新聞傳播中受公眾關(guān)注的程度。
參考文獻(xiàn)
[1] RAJARAMAN A,ULLMAN J D.大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘分布式處理[M].北京:人民郵電出版社,2013.
[2] 陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與NoSQL 數(shù)據(jù)庫技術(shù)[M].北京:電子工業(yè)出版社, 2013.
[3] 馬東杰.基于IEEE 802.15.4的接人算法研究[D].秦皇島:燕山大學(xué),2012.
[4] Wen Hao,Lin Chang,Chen Zhijia,et al.An improved Markov model for IEEE 802.15.4 slotted CSMA/CA mechanism[J].Journal of Computer Science and Technology,2009,24(3):495-504.
[5] 宋園園.公共危機(jī)治理中認(rèn)知管理的解析與構(gòu)建[J].行政領(lǐng)導(dǎo),2012(20):14-18.
[6] BRIN S, MOTWANI R, PAGE L, et al. What can you do with a Web in your pocket Bull[J]. Data Engineering Bulletin,1998,21(1):37-47.
*基金項(xiàng)目:江蘇省自然科學(xué)基金資助項(xiàng)目(BK2012511)
中圖分類號(hào):TP23
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.1674- 7720.2016.12.006
(收稿日期:2016-01-27)
作者簡介:
邱繼遠(yuǎn)(1985-),通信作者,男,碩士研究生,主要研究方向:軍事情報(bào)分析與對(duì)抗技術(shù)研究。E-mail:917120545@qq.com。
岳振軍(1963-),男,博士,教授,主要研究方向:智能信息處理。
榮傳振(1985-),男,助教,主要研究方向:可視語音全成、唇語識(shí)別。
Web page sorting application in social cognitive management effect evaluation
Qiu Jiyuan, Yue Zhenjun, Rong Chuanzhen, Su Fenglong
(College of Communications Engineering, PLA University of Science and Technology Nanjing 210007, China)
Abstract:It describes the current situation of social cognition in the public emergency management. In view of the current social recognition in the public emergency management level is not high, and there is no uniform cognitive problems such as management level evaluation standard, web page sorting scoring method was proposed for emergencies in the mainstream media to evaluate network information to release the circumstance of the public attention, and indirectly, evaluate network media role in the management of social cognition.In view of the phenomenon that the traditional PageRank algorithm lays particular stress on the old website, the algorithm is improved and the time weight is increased.On distributed computing platform Hadoop, the algorithm is realized. The results of the algorithm before and after being improved are contrasted and analysed.
Key words:knowledge management;sudden public events;Hadoop;PageRank;timeliness