国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)輿情信息源影響力的評估研究

2011-06-14 03:45劉春陽余智華
中文信息學(xué)報(bào) 2011年3期
關(guān)鍵詞:信息源關(guān)注度網(wǎng)頁

郭 巖,劉春陽,余智華,張 瑾,戴 媛

(1. 中國科學(xué)院計(jì)算技術(shù)研究所, 網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室, 北京 100190;2. 國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

1 引言

網(wǎng)絡(luò)輿情的傳播是一把“雙刃劍”。近年來,網(wǎng)絡(luò)輿情信息的分析和利用越來越受到相關(guān)研究人員的高度關(guān)注。網(wǎng)絡(luò)輿情的傳播途徑有很多,最主要的三大輿情通道是新聞、論壇和博客。本文中,輿情信息源主要包括新聞網(wǎng)站、新聞?lì)l道、論壇網(wǎng)站、論壇版塊、博客托管網(wǎng)站、博客。輿情信息源如雨后春筍,繁雜多樣。來自這些信息源的海量信息給輿情信息處理帶來了巨大的挑戰(zhàn)。實(shí)際上,網(wǎng)絡(luò)輿情信息源良莠不齊。如果在網(wǎng)絡(luò)輿情分析時(shí),能夠重點(diǎn)關(guān)注價(jià)值較大的網(wǎng)絡(luò)信息源傳播的信息,則將為輿情信息處理帶來事半功倍的效果。也就是說,如果我們能夠?qū)W(wǎng)絡(luò)輿情信息源做出客觀而準(zhǔn)確的評價(jià),則對進(jìn)一步的網(wǎng)絡(luò)輿情信息分析能夠具有重要的指導(dǎo)意義。對網(wǎng)絡(luò)信息源的評價(jià)有各種不同的方法、指標(biāo),本文將從影響力方面對網(wǎng)絡(luò)信息源進(jìn)行評價(jià)。這是因?yàn)?,影響力是指信息源在互?lián)網(wǎng)中傳播輿情的能力。影響力越大,其傳播的輿情信息的價(jià)值可能就越大,該信息源就越值得關(guān)注、甚至需要監(jiān)管。

目前,已有不少對網(wǎng)站影響力的評價(jià)工作。國內(nèi)外的網(wǎng)站影響力評價(jià)方法主要有兩種: 定性方法和定量方法。當(dāng)前大多數(shù)的影響力評價(jià)的研究都是使用定量的方法: 即基于網(wǎng)絡(luò)計(jì)量學(xué)的角度,通過入鏈接數(shù)、出鏈接數(shù)、網(wǎng)絡(luò)影響因子、網(wǎng)站的訪問量等一些可量化的指標(biāo)來對網(wǎng)站影響力進(jìn)行評價(jià)分析[1]。但是,據(jù)我們所知,幾乎沒有專門對網(wǎng)絡(luò)輿情信息源影響力的評價(jià)工作。

我們認(rèn)為,輿情信息源影響的發(fā)出者是信息源,收受者是網(wǎng)民。信息源通過發(fā)布信息、轉(zhuǎn)載(引用)信息等方式向網(wǎng)民傳播輿情信息。同時(shí),網(wǎng)民通過發(fā)表文章、點(diǎn)擊、回復(fù)等方式表達(dá)對各種輿情信息的感興趣程度,這些方式也隱含了網(wǎng)民被信息源影響的程度。因此,在評價(jià)網(wǎng)絡(luò)輿情信息源影響力時(shí),首先要考慮信息源的自身表現(xiàn)力。該表現(xiàn)力通過發(fā)表文章的頻率體現(xiàn)。另外,網(wǎng)絡(luò)輿情是指由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合[2]??梢钥吹?,網(wǎng)民作為輿情信息源影響的接收者,在網(wǎng)絡(luò)輿情傳播中占有非常重要的地位。因此,我們在評價(jià)影響力時(shí),還要考慮網(wǎng)民對信息源的關(guān)注度。而這個(gè)關(guān)注度可以從信息源發(fā)布信息的頻率,以及網(wǎng)民對信息的點(diǎn)擊頻率、回復(fù)頻率中得以體現(xiàn)。最后,網(wǎng)絡(luò)信息源作為第四媒體,同行間的關(guān)注度也隱含了對信息源影響力的評價(jià)。因此,我們還要考慮媒體的關(guān)注度。而這種關(guān)注度則體現(xiàn)在信息源之間對于信息的轉(zhuǎn)載和被轉(zhuǎn)載關(guān)系中。轉(zhuǎn)載和被轉(zhuǎn)載說明了對有價(jià)值的信息的繼承與利用。重要度越高的信息源,其信息被轉(zhuǎn)載的數(shù)量越大;反之,亦然。

基于以上分析,利用層次分析法并結(jié)合專家打分,我們構(gòu)建了網(wǎng)絡(luò)信息源影響力的評估模型,通過信息源表現(xiàn)力指標(biāo)、網(wǎng)民關(guān)注度指標(biāo)和媒體關(guān)注度指標(biāo)等多個(gè)指標(biāo)對影響力進(jìn)行評估。值得一提的是,我們將借鑒經(jīng)典的網(wǎng)絡(luò)鏈接算法PageRank計(jì)算媒體關(guān)注度指標(biāo)。

2 相關(guān)工作

2.1 網(wǎng)站影響力的評價(jià)方法

文獻(xiàn)[1, 3-4]對網(wǎng)站影響力的評價(jià)方法做了較全面的闡述。網(wǎng)站影響力的評價(jià)方法可以分為定性和定量兩種。定性的評價(jià)方法主要有問卷調(diào)查法和效益評價(jià)。定量的方法則是基于網(wǎng)絡(luò)計(jì)量學(xué)的角度,通過一些可量化的指標(biāo)來對網(wǎng)站影響力進(jìn)行評價(jià)分析。

國內(nèi)外對網(wǎng)站影響力評價(jià)的研究工作大多數(shù)是通過定量的方法,利用相關(guān)工具獲得實(shí)驗(yàn)數(shù)據(jù),然后通過網(wǎng)絡(luò)計(jì)量學(xué)的研究方法對影響力進(jìn)行測評。定量的評價(jià)方法主要有:

? 鏈接分析: 超文本鏈接是互聯(lián)網(wǎng)的重要特征,任意兩個(gè)網(wǎng)頁都可以建立鏈接。站點(diǎn)B建立了與站點(diǎn)A的鏈接,證明站點(diǎn)B認(rèn)為站點(diǎn)A質(zhì)量高,站點(diǎn)A對站點(diǎn)B產(chǎn)生了影響力。一個(gè)站點(diǎn)被鏈接的次數(shù)越多,證明該站點(diǎn)影響越大。鏈接分析法就是基于站點(diǎn)的被鏈接次數(shù)來評價(jià)其影響力。以鏈接分析為基礎(chǔ),并借鑒期刊影響因子的計(jì)算方法,Ingwersen于1998年提出了網(wǎng)絡(luò)影響因子的概念[5-6]。它的計(jì)算方法是用網(wǎng)絡(luò)空間中所有指向某網(wǎng)站的超鏈接總數(shù)除以該網(wǎng)站內(nèi)的所有頁面總數(shù)。網(wǎng)絡(luò)影響因子越高,網(wǎng)絡(luò)影響力就越大。

? 流量分析: 在網(wǎng)絡(luò)營銷學(xué)中,網(wǎng)站流量泛指網(wǎng)站的訪問量,可用一個(gè)網(wǎng)站一段時(shí)間內(nèi)訪問者的數(shù)量、訪問者所瀏覽的網(wǎng)頁的點(diǎn)擊率和平均停留時(shí)間等指標(biāo)來描述[7]。用戶對網(wǎng)站的訪問量大,說明該網(wǎng)站蘊(yùn)含的信息價(jià)值高,對網(wǎng)民的吸引力高。因此網(wǎng)站的訪問量可以作為評價(jià)網(wǎng)站影響力的一個(gè)較為客觀的指標(biāo)。

網(wǎng)站影響力的評估指標(biāo)已經(jīng)有很多,可以歸納為流量指標(biāo)、網(wǎng)絡(luò)鏈接指標(biāo)和可見度指標(biāo)。一些研究者針對特定領(lǐng)域的網(wǎng)站特點(diǎn),制定了該領(lǐng)域網(wǎng)站的影響力評價(jià)指標(biāo)。文獻(xiàn)[1, 3-4]對科技信息服務(wù)網(wǎng)站的影響力評價(jià)進(jìn)行了研究。文獻(xiàn)[8]對中、美兩國部分綜合實(shí)力排名靠前的醫(yī)院網(wǎng)站的網(wǎng)絡(luò)影響力進(jìn)行測度和分析。文獻(xiàn)[9]研究了中國重點(diǎn)大學(xué)網(wǎng)絡(luò)影響力的評價(jià)。文獻(xiàn)[10]對中外企業(yè)網(wǎng)站的網(wǎng)絡(luò)影響力進(jìn)行了評價(jià)。

網(wǎng)絡(luò)輿情信息源的影響力有其獨(dú)特之處,直接套用已有指標(biāo)去評價(jià)它是不盡合理的。淘寶網(wǎng)就是一個(gè)很好的例子,現(xiàn)有的流量指標(biāo)、網(wǎng)絡(luò)鏈接指標(biāo)和可見度指標(biāo)都會(huì)把淘寶網(wǎng)排在一個(gè)非??壳暗奈恢茫欢渥鰹榫W(wǎng)絡(luò)輿情信息源的影響力并不高。因此需要針對網(wǎng)絡(luò)輿情信息源影響力獨(dú)有的特點(diǎn),制定客觀、準(zhǔn)確的評價(jià)指標(biāo)。但是,據(jù)我們所知,目前在網(wǎng)絡(luò)輿情信息源的影響力評價(jià)方面尚無相關(guān)的研究工作。

2.2 頁面質(zhì)量評價(jià)算法PageRank

PageRank算法[11-12]是Stanford大學(xué)研究人員開發(fā)的Google搜索引擎的頁面質(zhì)量評價(jià)算法。該算法則基于網(wǎng)絡(luò)圖上的拓?fù)浣Y(jié)構(gòu),計(jì)算網(wǎng)頁的重要度。算法基于這樣的假設(shè): 1)被越多網(wǎng)頁鏈接到的網(wǎng)頁越重要;2)被越重要的網(wǎng)頁鏈接到的網(wǎng)頁越重要。

我們將借鑒PageRank算法的思路,計(jì)算網(wǎng)絡(luò)信息源的媒體關(guān)注度。與PageRank的主要不同之處在于,我們并不基于網(wǎng)頁間的超鏈接構(gòu)成網(wǎng)絡(luò)圖,而是基于網(wǎng)站之間的信息轉(zhuǎn)載關(guān)系構(gòu)成網(wǎng)絡(luò)圖。

2.3 期刊評價(jià)方法

期刊影響因子是表征期刊影響大小的一項(xiàng)定量指標(biāo),是一個(gè)國際上通行的期刊評價(jià)指標(biāo)。它的計(jì)算方法是: 某期刊前兩年發(fā)表的論文在統(tǒng)計(jì)當(dāng)年的被引用總次數(shù)除以該期刊在前兩年內(nèi)發(fā)表的論文總數(shù)[13]。

近幾年,不少研究者[14]借鑒網(wǎng)頁排名算法Page-Rank的思路,基于期刊之間的引用關(guān)系構(gòu)成網(wǎng)絡(luò)圖。并基于網(wǎng)絡(luò)圖上的拓?fù)浣Y(jié)構(gòu)對期刊的重要度進(jìn)行排名。這種評價(jià)方法不但考慮了期刊被引用的次數(shù),還區(qū)分了引用期刊的重要性,與影響因子單純考慮期刊被引用次數(shù)相比較,更為合理些。

我們在計(jì)算信息源的媒體關(guān)注度時(shí),也借鑒了PageRank的思路,但是和期刊評價(jià)中的網(wǎng)絡(luò)圖的構(gòu)成不同,我們是基于網(wǎng)站之間的信息轉(zhuǎn)載關(guān)系構(gòu)成網(wǎng)絡(luò)圖。另外,我們將網(wǎng)站之間對信息的轉(zhuǎn)載關(guān)系類比成期刊之間的論文引用關(guān)系,參考期刊的影響因子的計(jì)算思路,基于轉(zhuǎn)載數(shù)計(jì)算網(wǎng)絡(luò)圖中邊的權(quán)重。但計(jì)算方法和期刊的影響因子不同。

2.4 層次分析法

層次分析法AHP(The Analytic Hierarchy Process)理論是美國著名運(yùn)籌學(xué)家T.L.Saaty于1980年在他的著作《層次分析法》中確立的,是一種多準(zhǔn)則的決策方法,是系統(tǒng)工程中對非定量事件作定量分析處理的一種簡便方法。它把一個(gè)復(fù)雜的問題表示為有序的遞階層次結(jié)構(gòu),將人的主觀判斷用數(shù)量形式加以表示和處理,通過人們的判斷對決策方案的優(yōu)劣進(jìn)行排序。這種方法能夠?qū)Q策中的定性與定量因素統(tǒng)一處理,具有實(shí)用性、系統(tǒng)性、簡潔性等優(yōu)點(diǎn),特別適用于在社會(huì)經(jīng)濟(jì)系統(tǒng)的決策分析中使用。在指標(biāo)體系研究中,層次分析法是常用的一種指標(biāo)權(quán)重的確定方法。層次分析法有其一般步驟[15]。我們將采用層次分析法,按照信息源表現(xiàn)力、網(wǎng)民關(guān)注度、媒體關(guān)注度等指標(biāo)的層次結(jié)構(gòu),構(gòu)建網(wǎng)絡(luò)輿情信息源影響力評估體系。

3 評估指標(biāo)體系的建立

3.1 指標(biāo)體系概述

根據(jù)對網(wǎng)絡(luò)輿情、網(wǎng)絡(luò)輿情信息源、網(wǎng)絡(luò)輿情信息源影響力等概念的深入研究,我們構(gòu)建了網(wǎng)絡(luò)輿情信息源評估指標(biāo)體系。這里需要說明的是,我們認(rèn)為,新聞、論壇、博客這三大輿情通道各有特點(diǎn),因此在構(gòu)建指標(biāo)體系時(shí)需要分別對待。表1~3分別展示了新聞、論壇、博客的指標(biāo)體系中各級指標(biāo)的層次關(guān)系。

表1 網(wǎng)絡(luò)新聞信息源影響力指標(biāo)體系

表2 論壇信息源影響力指標(biāo)體系

表3 博客信息源影響力指標(biāo)體系

3.2 各級指標(biāo)詳解

本節(jié)將詳細(xì)描述各級指標(biāo)的含義和計(jì)算方法。

3.2.1 網(wǎng)絡(luò)輿情信息源影響力指標(biāo)

網(wǎng)絡(luò)輿情信息源影響力指標(biāo)描述了網(wǎng)絡(luò)輿情信息源在互聯(lián)網(wǎng)中傳播輿情的能力。信息源影響力越高,說明其傳播輿情的能力越強(qiáng)。

信息源的影響力首先體現(xiàn)在其自身的表現(xiàn)力中。同時(shí),網(wǎng)民作為信息源影響的接收者,其對信息源傳播的信息的關(guān)注度也反映了信息源的影響力。另外,網(wǎng)絡(luò)信息源作為第四媒體,同行間的關(guān)注度也隱含了對信息源影響力的評價(jià)。因此,網(wǎng)絡(luò)輿情信息源影響力指標(biāo)的計(jì)算基于信息源表現(xiàn)力指標(biāo)、網(wǎng)民關(guān)注指標(biāo)和媒體關(guān)注度指標(biāo)。

需要說明的是,我們認(rèn)為,對于論壇和博客而言,因?yàn)樾畔⒃粗邪l(fā)表的文章基本都是網(wǎng)民張貼上去的,因此信息源自身的表現(xiàn)力實(shí)際上可納入網(wǎng)民關(guān)注度中。

3.2.2 信息源表現(xiàn)力指標(biāo)

信息源表現(xiàn)力指標(biāo)描述了網(wǎng)絡(luò)輿情信息源在傳播網(wǎng)絡(luò)信息時(shí)的自身表達(dá)能力。表現(xiàn)力越強(qiáng),說明其表達(dá)能力越強(qiáng),其影響力則可能越大。發(fā)表網(wǎng)絡(luò)文章是新聞信息源傳播信息的最直接、也是最主要的途徑。因此,信息源表現(xiàn)力指標(biāo)的計(jì)算基于其發(fā)表文章頻率指標(biāo)。

3.2.3 網(wǎng)民關(guān)注度指標(biāo)

網(wǎng)民關(guān)注度指標(biāo)描述了網(wǎng)民對網(wǎng)絡(luò)輿情信息源的關(guān)注程度。影響力越大信息源越容易獲得網(wǎng)民的關(guān)注度。也就是說,網(wǎng)民的關(guān)注度反映了信息源的影響力。

對于新聞而言,網(wǎng)民的關(guān)注度隱含在網(wǎng)民對信息源的訪問頻率中,即用戶對信息源發(fā)布信息的點(diǎn)擊頻率。訪問頻率越高,則說明網(wǎng)民的關(guān)注度越高。另外,網(wǎng)民對信息源發(fā)布信息的回復(fù)頻率則反映了網(wǎng)民的參與程度。網(wǎng)民的參與程度越高,則也反映了網(wǎng)民的關(guān)注度越高。因此,新聞信息源的網(wǎng)民關(guān)注度指標(biāo)的計(jì)算基于點(diǎn)擊頻率指標(biāo)和回復(fù)頻率指標(biāo)。

對于論壇和博客而言,網(wǎng)民的關(guān)注度隱含在網(wǎng)民發(fā)表文章的頻率、對信息源的訪問頻率和對信息源發(fā)布信息的回復(fù)頻率中。發(fā)表文章的頻率越高,說明網(wǎng)民關(guān)注度越高。信息源的訪問頻率即為用戶對信息源發(fā)布信息的點(diǎn)擊頻率,訪問頻率越高,則說明網(wǎng)民的關(guān)注度越高。網(wǎng)民對信息源發(fā)布信息的回復(fù)頻率則反映了網(wǎng)民的參與程度。網(wǎng)民的參與程度越高,則也反映了網(wǎng)民的關(guān)注度越高。因此,論壇和博客的信息源的網(wǎng)民關(guān)注度指標(biāo)的計(jì)算基于發(fā)表文章頻率、點(diǎn)擊頻率指標(biāo)和回復(fù)頻率指標(biāo)。

3.2.4 發(fā)表文章頻率指標(biāo)

發(fā)表文章頻率指標(biāo)描述了信息源發(fā)布信息的速度。速度越快,說明信息源在傳播信息方面的自身表現(xiàn)力越強(qiáng)。

發(fā)表文章頻率是指網(wǎng)絡(luò)輿情信息源在單位時(shí)間內(nèi)發(fā)表文章的頻率。這里,單位時(shí)間取分鐘。因此該指標(biāo)的計(jì)算公式如下:

假設(shè)t分鐘內(nèi),信息源發(fā)表文章數(shù)量為P篇,則

發(fā)表文章頻率=P/t

(1)

3.2.5 點(diǎn)擊頻率指標(biāo)

點(diǎn)擊頻率指標(biāo)描述了用戶對信息源發(fā)布信息的訪問速度。速度越快,說明發(fā)布的信息越吸引用戶,用戶的關(guān)注度越高。

點(diǎn)擊頻率是指網(wǎng)絡(luò)輿情信息源在單位時(shí)間內(nèi)用戶對信息源發(fā)布文章的點(diǎn)擊(或稱瀏覽)頻率。這里,單位時(shí)間取分鐘。因此該指標(biāo)的計(jì)算公式如下:

假設(shè)t分鐘內(nèi),信息源發(fā)布文章被用戶點(diǎn)擊的總次數(shù)為C次,則

點(diǎn)擊頻率=C/t

(2)

3.2.6 回復(fù)頻率指標(biāo)

回復(fù)頻率指標(biāo)描述了用戶對信息源發(fā)布信息的參與速度。速度越快,說明發(fā)布的信息越吸引用戶,用戶的關(guān)注度越高。

回復(fù)頻率是指網(wǎng)絡(luò)輿情信息源在單位時(shí)間內(nèi)用戶對信息源發(fā)布文章的回復(fù)(或稱評論)頻率。這里,單位時(shí)間取分鐘。因此該指標(biāo)的計(jì)算公式如下:

假設(shè)t分鐘內(nèi),信息源發(fā)布文章被用戶回復(fù)的總次數(shù)為R次,則

回復(fù)頻率=R/t

(3)

3.2.7 媒體關(guān)注度指標(biāo)

媒體關(guān)注度指標(biāo)描述了輿情網(wǎng)絡(luò)信息源對同行的關(guān)注程度。隱含了信息源同行之間對信息源重要度的評價(jià)。同行對信息源的關(guān)注度越高,其重要度越高。媒體關(guān)注度指標(biāo)的計(jì)算基于信息源重要度指標(biāo)。

3.2.8 信息源重要度指標(biāo)

信息源重要度指標(biāo)描述了網(wǎng)絡(luò)輿情信息源同行之間對信息源重要度的評價(jià)。我們借鑒PageRank的思路,提出算法SrcRank,基于信息源之間的信息轉(zhuǎn)載關(guān)系計(jì)算信息源的重要度。

網(wǎng)絡(luò)輿情信息源傳播信息的主要方式之一是轉(zhuǎn)載其他信息源的文章。對一篇文章的轉(zhuǎn)載,意味著對該文章的推薦。這就類似于網(wǎng)頁鏈接中,對一個(gè)網(wǎng)頁的鏈接,意味著對該網(wǎng)頁的鏈接。因此基于信息轉(zhuǎn)載關(guān)系,信息源之間可以構(gòu)成信息源轉(zhuǎn)載網(wǎng)絡(luò)。盡管信息源轉(zhuǎn)載網(wǎng)絡(luò)與網(wǎng)頁鏈接網(wǎng)絡(luò)存在不少差異,但是信息源轉(zhuǎn)載網(wǎng)絡(luò)與網(wǎng)頁鏈接網(wǎng)絡(luò)均可看成一個(gè)有向圖,有向圖的一個(gè)結(jié)點(diǎn)代表一個(gè)信息源或網(wǎng)頁,節(jié)點(diǎn)間的邊代表信息源的轉(zhuǎn)載關(guān)系或者網(wǎng)頁的鏈接關(guān)系。另外,PageRank基于假設(shè): 1)被越多網(wǎng)頁鏈接到的網(wǎng)頁越重要;2)被越重要的網(wǎng)頁鏈接到的網(wǎng)頁越重要。信息源轉(zhuǎn)載同行發(fā)布的文章,這一行為隱含了對其他信息源的重要度的評價(jià)。存在這樣的假設(shè): 1)發(fā)表的文章被同行轉(zhuǎn)載得越多,說明該信息源被同行關(guān)注的程度越高,其重要度也有可能越高;2)被重要度高的信息源轉(zhuǎn)載次數(shù)越多的信息源的重要度也越高。因此,利用PageRank這種源自網(wǎng)頁重要度排序的算法來進(jìn)行信息源重要度排序從理論上講是完全可行的。

仿照PageRank,算法SrcRank基于網(wǎng)絡(luò)中信息源之間的轉(zhuǎn)載關(guān)系構(gòu)成網(wǎng)絡(luò)圖。網(wǎng)絡(luò)圖是有向圖,圖中的節(jié)點(diǎn)為網(wǎng)絡(luò)輿情信息源,節(jié)點(diǎn)之間的邊為信息源之間的轉(zhuǎn)載關(guān)系。假設(shè)信息源A和信息源B對應(yīng)網(wǎng)絡(luò)圖中的節(jié)點(diǎn)a和節(jié)點(diǎn)b,則如果信息源A轉(zhuǎn)載了信息源B的文章,那么節(jié)點(diǎn)a和節(jié)點(diǎn)b之間存在一條邊,且邊的方向?yàn)閍指向b。

互聯(lián)網(wǎng)中網(wǎng)絡(luò)輿情信息源的重要度之間存在如圖1所示的傳遞關(guān)系圖。

如果用r(i)表示信息源i的重要度,B(i)表示通過轉(zhuǎn)載指向信息源i的信息源集合,信息源i在一定統(tǒng)計(jì)時(shí)間內(nèi)被其他信息源轉(zhuǎn)載的總次數(shù)為c(i),f(j,i)表示在一定統(tǒng)計(jì)時(shí)間內(nèi)信息源j轉(zhuǎn)載信息源i發(fā)布文章的次數(shù),則互聯(lián)網(wǎng)上所有信息源的重要度滿足如下關(guān)系:

(4)

下面給出算法SrcRank的形式描述:

令W是網(wǎng)絡(luò)輿情信息源集合,N=|W|,B(i)是通過轉(zhuǎn)載指向信息源i的信息源集合,信息源i在一定統(tǒng)計(jì)時(shí)間內(nèi)被其他信息源轉(zhuǎn)載的總次數(shù)為c(i),f(j,i)表示在一定統(tǒng)計(jì)時(shí)間內(nèi)信息源j轉(zhuǎn)載信息源i發(fā)布文章的次數(shù),則對于信息源i,它的重要度SR(i)用下面公式計(jì)算:

(5)

公式(5)是遞歸定義的,實(shí)際計(jì)算中需要進(jìn)行迭代。要保證迭代收斂,需要對公式(6)進(jìn)行改進(jìn)。改進(jìn)策略與算法PageRank相似,改進(jìn)后的公式如下:

(6)

從公式(6)可以看到,一個(gè)信息源的重要度由兩部分組成: 一部分是其自身固有的重要度,即1/N,另一部分是其他轉(zhuǎn)載它發(fā)布文章的信息源傳播給它的重要度。兩部分各自所占的比重由參數(shù)d決定。類似于PageRank,本文中我們?nèi)=0.85。

與算法PageRank類似,數(shù)學(xué)上可以證明,公式(6)的計(jì)算過程是收斂的。

圖1 算法SrcRank中網(wǎng)絡(luò)輿情信息源的重要度傳遞關(guān)系圖

4 評估模型的構(gòu)建

4.1 構(gòu)建步驟

4.1.1 第一步: 建立遞階層次結(jié)構(gòu)

在這一步驟中, 首先要求將需要解決的問題所含的要素進(jìn)行分組,把每一組作為一個(gè)層次,并將它們按照: 最高層(目標(biāo)層)——若干中間層(準(zhǔn)則層)——最低層(屬性層)的次序排列起來。同一層次的元素作為準(zhǔn)則,對下一層次的某些元素起支配作用,同時(shí)它又受上一層元素的支配。這種自上而下的支配關(guān)系形成了一個(gè)遞階層次。處于最高層的一般是分析問題的預(yù)定目標(biāo),中問的層次一般是準(zhǔn)則層、子準(zhǔn)則層,最低一層包括決策的方案。層次數(shù)與問題的復(fù)雜程度和所需要分析的詳盡程度有關(guān),每一層次中的元素一般不超過九個(gè)[1]。

我們將表1中的網(wǎng)絡(luò)信息源影響力指標(biāo)體系構(gòu)建成如圖2所示的模型。

圖2 網(wǎng)絡(luò)信息源影響力評估模型

4.1.2 第二步: 構(gòu)造比較判斷矩陣

這一步驟是層次分析法中的一個(gè)關(guān)鍵步驟。判斷矩陣表示針對上一層次中的某元素而言,該層次中各有關(guān)元素的相對重要性程度,其形式如下[1]:

或者B=[bij],i,j=1,2,…n

其中,bij是就上層某元素而言bi與bj兩元素的相對重要性標(biāo)度。

我們通過專家打分法構(gòu)建判斷矩陣。首先專家需要填寫調(diào)查問卷,如表4~6所示,填表時(shí)參考如表4所示的層次分析法比例標(biāo)度表。然后,將每個(gè)指標(biāo)的評分取均值,兩兩相比較,構(gòu)建比較判斷矩陣。

表4 網(wǎng)絡(luò)信息源影響力指標(biāo)重要程度兩兩比較調(diào)查表

表5 網(wǎng)民關(guān)注度指標(biāo)重要程度兩兩比較調(diào)查表

4.1.3 第三步: 計(jì)算權(quán)重并一致性校驗(yàn)

得到了各準(zhǔn)則層的比較判斷矩陣后,需要計(jì)算對該準(zhǔn)則下的各元素的相對權(quán)重,并進(jìn)行一致性檢驗(yàn)。

常用的權(quán)重計(jì)算方法有冪法、和法及根法。其中,冪法較精確,后兩種方法較近似??紤]到我們在精度方面要求不高,且要求計(jì)算簡便,故采用根法。具體步驟為:

表6 層次分析法比例標(biāo)度表

(1) 將比較判斷矩陣A中的元素按行相乘;

(2) 對得到的乘積分別開n次方(n為矩陣的階);

(3) 將方根向量歸一化得排序權(quán)向量W;

(4) 進(jìn)行一致性判斷,具體過程為:

1) 計(jì)算比較判斷矩陣A的最大特征根λmax;

2) 計(jì)算一致性指標(biāo)CI=(λmax-n)/(n-1);

3) 計(jì)算一致性比例CR=CI/RI

對n=1,2, ...,9,RI的值如表7所示。

表7 RI取值表

當(dāng)CR<0.1時(shí),認(rèn)為判斷矩陣的一致性是可以接受的,否則應(yīng)對判斷矩陣作適當(dāng)修正。若判斷能通過一致性檢驗(yàn),第(3)步得到的排序權(quán)向量即為各指標(biāo)的權(quán)重;若不能通過,需要重新設(shè)置判斷矩陣,進(jìn)行計(jì)算,直至通過為止。

4.2 網(wǎng)絡(luò)輿情信息源影響力評估模型

按照第4.1節(jié)的模型構(gòu)建方法,我們分別構(gòu)建了新聞、論壇、博客的信息源影響力評估模型,各模型的指標(biāo)遞階層級關(guān)系與相應(yīng)權(quán)重如表8所示。

表8 新聞、論壇、博客三大信息源通道的影響力評估指標(biāo)體系權(quán)重表

5 實(shí)例分析

5.1 數(shù)據(jù)集

我們從近200個(gè)國內(nèi)較活躍的信息源獲取如下數(shù)據(jù):

? 數(shù)據(jù)時(shí)間跨度: 一年半的數(shù)據(jù),從2009年1月1日至2010年6月1日;

? 新聞數(shù)據(jù): 來自91個(gè)網(wǎng)絡(luò)新聞信息源,共 1 495 482條記錄,每條記錄包含了一張新聞網(wǎng)頁的發(fā)布時(shí)間、對該網(wǎng)頁的點(diǎn)擊數(shù)、評論數(shù),以及轉(zhuǎn)載它的網(wǎng)頁;

? 論壇數(shù)據(jù): 來自87個(gè)論壇信息源,共 2 865 447條記錄,每條記錄包含了一個(gè)論壇帖子的發(fā)布時(shí)間、對該帖子的點(diǎn)擊數(shù)、回復(fù)數(shù),以及轉(zhuǎn)載它的網(wǎng)頁;

? 博客數(shù)據(jù): 來自10個(gè)博客信息源,共 897 097條記錄,每條記錄包含了一篇博文的發(fā)布時(shí)間、對該博文的點(diǎn)擊數(shù)、評論數(shù),以及轉(zhuǎn)載它的網(wǎng)頁。

5.2 結(jié)果與分析

我們將已經(jīng)構(gòu)建好的影響力評估模型用于以上數(shù)據(jù)集,得到如表9所示的影響力排名。限于篇幅,我們只展示了排名前10名的網(wǎng)絡(luò)新聞信息源、論壇信息源、博客信息源。

從表9可以看到,影響力排在前10名的信息源確實(shí)是比較著名的信息源,基本符合我們的直觀印象。這也說明了我們提出的網(wǎng)絡(luò)輿情信息源評估模型是客觀、合理的。

在這里需要指出的是,有些信息源并沒有在網(wǎng)頁中顯示出點(diǎn)擊數(shù)(例如新浪網(wǎng)),使得我們無法獲得這樣的數(shù)據(jù)。對于這種情況,我們只能憑經(jīng)驗(yàn)為該數(shù)據(jù)源賦予點(diǎn)擊數(shù)值。主要方法是: 憑借直觀經(jīng)驗(yàn),找出5個(gè)與該信息源影響力相當(dāng)?shù)男畔⒃?,將這5個(gè)信息源在相應(yīng)時(shí)間段的點(diǎn)擊數(shù)求平均值,作為該信息源的點(diǎn)擊數(shù)。另外,因?yàn)槲覀兊姆治鰯?shù)據(jù)有限,所以排名結(jié)果難免會(huì)有不夠客觀的地方,僅供參考。

6 結(jié)論及未來工作

根據(jù)對網(wǎng)絡(luò)輿情、網(wǎng)絡(luò)輿情信息源、網(wǎng)絡(luò)輿情信息源影響力等概念的深入研究,我們構(gòu)建了網(wǎng)絡(luò)輿情信息源評估指標(biāo)體系。本文的貢獻(xiàn)主要有兩點(diǎn): 一是與已有的網(wǎng)站影響力評估方法相比較,文章提出的評估方法從根本上抓住了網(wǎng)絡(luò)輿情信息源影響力的本質(zhì)特點(diǎn)。不僅考慮到了信息源自身的表現(xiàn)力,還考慮到了網(wǎng)民對影響力的反饋,以及信息源轉(zhuǎn)載信息這一行為中隱含的對同行信息源影響力的反饋。二是在對信息源重要度進(jìn)行排名時(shí),借鑒網(wǎng)絡(luò)鏈接分析算法PageRank,提出了算法SrcRank。實(shí)例分析結(jié)果表明,該評估方法能夠客觀而合理地評價(jià)網(wǎng)絡(luò)輿情信息源的影響力。

表9 網(wǎng)絡(luò)輿情信息源影響力排名

我們在這個(gè)方向的工作只是一個(gè)初步的結(jié)果,目前對結(jié)果的分析僅是定性的,在后續(xù)的研究中,我們將進(jìn)行定量分析。此外,我們對網(wǎng)絡(luò)輿情信息源影響力進(jìn)行評估時(shí),并沒有考慮網(wǎng)頁內(nèi)容的觀點(diǎn)傾向。在未來工作中,我們將加入此方面內(nèi)容,使得評估更加客觀,合理。

[1] 陳斯杰. 基于用戶視角的科技信息服務(wù)網(wǎng)站影響力評估研究[D]. 南京:南京理工大學(xué), 2009.

[2] 曾潤喜. 我國網(wǎng)絡(luò)輿情研究與發(fā)展現(xiàn)狀分析[J]. 圖書館學(xué)研究, 2009(8): 2-6.

[3] 范闖. 基于網(wǎng)絡(luò)計(jì)量學(xué)的科技信息服務(wù)網(wǎng)站影響力評估研究[D]. 南京:南京理工大學(xué), 2009.

[4] 劉雁書, 方平. 網(wǎng)絡(luò)信息影響力評價(jià)方法[J]. 高校圖書館工作, 2002, 22(88):16-19.

[5] Ingwersen, P.. The Calculation of Web Impact Factors[J]. Journal of Documentation. 1998, 54(2) :236-243.

[6] Almind, T.C.I., Peter. Informetric Analyses on the World Wide Web: Methodological Approaches to “WEBOMETRICS”[J]. Journal of Documentation, 1997, 53(4): 404-426.

[7] 姜旭平. 網(wǎng)絡(luò)營銷[M]. 北京:清華大學(xué)出版社, 2003.

[8] 朱雷. 中美兩國醫(yī)院網(wǎng)站網(wǎng)絡(luò)影響力指標(biāo)對比評測研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2006(134): 64-81.

[9] 邱均平, 程妮. 中國重點(diǎn)大學(xué)的網(wǎng)絡(luò)影響力評價(jià)研究[J]. 科學(xué)學(xué)研究, 2009,27(2): 190-195.

[10] 陳太洋,任全娥. 中外企業(yè)網(wǎng)站的鏈接分析與網(wǎng)絡(luò)影響力評價(jià)[J]. 信息系統(tǒng), 2008,31(4): 614-619.

[11] Larry Page, S.B., R. Motwani, T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford InfoLab, 1999[R/OL]. http://en.scientificcommons.org/42893894

[12] Haveliwala, T.H.. Efficient computation of PageRank[R]. Stanford University, 1999[R/OL]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.3145&rep=rep1&type=pdf

[13] Garfield, E.. Citation indexing: Its theory and application in science, technology, and humanities. Institute for Scientific Information,1979[EB/OL]. http://www.garfield.library.upenn.edu/cifwd.html

[14] 蘇成, 潘云濤, 袁軍鵬,等. 基于PageRank的期刊評價(jià)研究[J]. 中國科技期刊研究, 2009, 20(4): 614-617.

[15] 郝海, 蹤家峰. 系統(tǒng)分析與評價(jià)方法[M]. 北京:經(jīng)濟(jì)科學(xué)出版社, 2007.

猜你喜歡
信息源關(guān)注度網(wǎng)頁
睡眠者效應(yīng)
基于HTML5與CSS3的網(wǎng)頁設(shè)計(jì)技術(shù)研究
新媒體時(shí)代,記者如何正確使用信息源
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁設(shè)計(jì)
雄安新區(qū)媒體關(guān)注度
全國兩會(huì)媒體關(guān)注度
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
暴力老媽
“王者”泛海發(fā)布會(huì)聚焦百萬關(guān)注度