国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)輿情熱點(diǎn)新聞發(fā)現(xiàn)技術(shù)研究

2017-10-13 13:56:05黃克敏魏洪凱馮建鞏
關(guān)鍵詞:閱讀數(shù)熱點(diǎn)新聞關(guān)注度

◆黃克敏 先 科 李 帥 魏洪凱 馮建鞏

?

網(wǎng)絡(luò)輿情熱點(diǎn)新聞發(fā)現(xiàn)技術(shù)研究

◆黃克敏 先 科 李 帥 魏洪凱 馮建鞏

(貴州航天計(jì)量測(cè)試技術(shù)研究所 貴州 550000)

隨著互聯(lián)網(wǎng)逐漸邁入移動(dòng)化時(shí)代,智能手機(jī)和平板電腦等智能設(shè)備的廣泛使用成為移動(dòng)互聯(lián)網(wǎng)時(shí)代的重要標(biāo)志。網(wǎng)絡(luò)新聞在成為移動(dòng)互聯(lián)時(shí)代重要信息來(lái)源的同時(shí),網(wǎng)絡(luò)熱點(diǎn)新聞則成為網(wǎng)絡(luò)輿論和社會(huì)輿論的重要源泉。因此,對(duì)網(wǎng)站發(fā)布的網(wǎng)絡(luò)新聞內(nèi)容進(jìn)行監(jiān)管及時(shí)發(fā)現(xiàn)熱點(diǎn)新聞評(píng)論內(nèi)容意見(jiàn)的傾向性,準(zhǔn)確把握網(wǎng)絡(luò)輿論動(dòng)向顯得尤為重要。為了實(shí)現(xiàn)熱點(diǎn)新聞的發(fā)現(xiàn)及對(duì)不同領(lǐng)域熱點(diǎn)新聞分級(jí)監(jiān)管的需求,需要建立熱點(diǎn)新聞發(fā)現(xiàn)規(guī)則及對(duì)熱點(diǎn)新聞按照?qǐng)?bào)道內(nèi)容的不同進(jìn)行領(lǐng)域分類。熱點(diǎn)新聞發(fā)現(xiàn)及分類技術(shù)是網(wǎng)絡(luò)輿情檢測(cè)系統(tǒng)中的一項(xiàng)重要技術(shù)。本文在研究新聞結(jié)構(gòu)及特點(diǎn)的基礎(chǔ)上,針對(duì)大眾和政府部門都比較關(guān)注的熱點(diǎn)新聞,在深入研究新聞結(jié)構(gòu)和特點(diǎn)的基礎(chǔ)上改進(jìn)熱點(diǎn)新聞發(fā)現(xiàn)算法,并通過(guò)大量實(shí)驗(yàn)樣本對(duì)改進(jìn)算法的有效性進(jìn)行了驗(yàn)證。

網(wǎng)絡(luò)輿情;新聞結(jié)構(gòu);熱點(diǎn)新聞;熱點(diǎn)新聞發(fā)現(xiàn)規(guī)則

0 引言

互聯(lián)網(wǎng)是一把雙刃劍。一方面,互聯(lián)網(wǎng)為人們的生活、工作、學(xué)習(xí)、娛樂(lè)帶來(lái)巨大的便利;另一方面,一些不法分子利用熱點(diǎn)新聞事件的巨大影響力發(fā)表不當(dāng)言論,煽動(dòng)群眾情緒,制造社會(huì)動(dòng)蕩,極大影響社會(huì)公共秩序和社會(huì)穩(wěn)定。因此,為互聯(lián)網(wǎng)建立一個(gè)合理的監(jiān)管機(jī)制,對(duì)非法的網(wǎng)絡(luò)言論進(jìn)行監(jiān)管。通過(guò)對(duì)熱點(diǎn)新聞評(píng)論的內(nèi)容進(jìn)行意見(jiàn)挖掘進(jìn)而掌握輿論傾向性,對(duì)不良的網(wǎng)絡(luò)輿論導(dǎo)向進(jìn)行合理引流和正確引導(dǎo),無(wú)論是對(duì)于維護(hù)社會(huì)穩(wěn)定,打擊利用網(wǎng)絡(luò)違法犯罪活動(dòng),還是對(duì)凈化網(wǎng)絡(luò)環(huán)境,保護(hù)公民的身心健康都具有重要意義。

當(dāng)前,對(duì)網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)及評(píng)論傾向性研究已成為信息安全研究中信息內(nèi)容安全研究的一個(gè)重要部分。本文在研究網(wǎng)絡(luò)新聞結(jié)構(gòu)和特點(diǎn)的基礎(chǔ)上建立熱點(diǎn)新聞特征規(guī)則,研究并改進(jìn)熱點(diǎn)新聞發(fā)現(xiàn)算法,并對(duì)網(wǎng)絡(luò)熱點(diǎn)新聞進(jìn)行發(fā)現(xiàn);為了方便對(duì)不同領(lǐng)域的熱點(diǎn)新聞事件進(jìn)行分級(jí)監(jiān)管,需對(duì)發(fā)現(xiàn)的熱點(diǎn)新聞進(jìn)行領(lǐng)域劃分,以方便輿情系統(tǒng)中對(duì)不同領(lǐng)域的熱點(diǎn)新聞事件的網(wǎng)絡(luò)評(píng)論做傾向性分析,掌握網(wǎng)民的網(wǎng)絡(luò)輿論傾向,對(duì)公共的輿論進(jìn)行正確及時(shí)的引導(dǎo),減少消極輿論傾向帶來(lái)的負(fù)面影響,從而確?;ヂ?lián)網(wǎng)內(nèi)容安全,使互聯(lián)網(wǎng)這把雙刃劍真正做到趨利避害。

1 網(wǎng)絡(luò)輿情熱點(diǎn)新聞發(fā)現(xiàn)技術(shù)研究

1.1網(wǎng)絡(luò)新聞結(jié)構(gòu)

無(wú)論是網(wǎng)站根據(jù)用戶對(duì)新聞閱讀數(shù)或參與討論的評(píng)論數(shù),還是百度風(fēng)云榜根據(jù)用戶搜索量作為判斷熱點(diǎn)新聞事件的標(biāo)準(zhǔn)都不能體現(xiàn)普通新聞事件轉(zhuǎn)換為熱點(diǎn)新聞事件的發(fā)展趨勢(shì)的強(qiáng)度及過(guò)程,因此存在一定的不合理性。由于本節(jié)針對(duì)手機(jī)客戶端的新聞APP產(chǎn)生的新聞進(jìn)行熱點(diǎn)新聞的發(fā)現(xiàn),因此首先要分析新聞的結(jié)構(gòu)。下面以鳳凰新聞APP新聞“大學(xué)生掏鳥(niǎo)案被告父親自首稱9次行賄辦案人員”為例,分析新聞結(jié)構(gòu),其新聞內(nèi)容如圖1所示。

由圖1可知,新聞內(nèi)容包括新聞標(biāo)題、新聞來(lái)(轉(zhuǎn)載)源、新聞發(fā)布的時(shí)間、新聞評(píng)論數(shù)目、新聞?wù)膬?nèi)容等部分組成。

由圖2 可知,新聞評(píng)論包括熱門評(píng)論和最新評(píng)論。熱門評(píng)論主要是指評(píng)論點(diǎn)贊數(shù)超過(guò)一定數(shù)目的評(píng)論數(shù)。熱門評(píng)論包括熱門評(píng)論數(shù)、評(píng)論者的頭像、評(píng)論者的昵稱、評(píng)論距當(dāng)前時(shí)間、評(píng)論內(nèi)容、評(píng)論點(diǎn)贊數(shù),如果開(kāi)啟允許地理位置分享的話,還會(huì)有地理位置信息。最新評(píng)論和熱門評(píng)論包括的部分幾乎相同,就不再做過(guò)多介紹。

1.2熱點(diǎn)新聞判別標(biāo)準(zhǔn)

由于熱點(diǎn)新聞能夠在短時(shí)間內(nèi)吸引網(wǎng)民的關(guān)注、引起網(wǎng)絡(luò)輿論熱議,形成以一定的輿論傾向,因此對(duì)熱點(diǎn)新聞進(jìn)行判斷檢測(cè)顯得尤為重要。根據(jù)哪些條件判斷當(dāng)前新聞是否為熱點(diǎn)新聞。表1中選取部分參數(shù)作為判斷新聞是否為熱點(diǎn)新聞的參考標(biāo)準(zhǔn):

圖1 新聞內(nèi)容

圖2 新聞評(píng)論

表1 判斷熱點(diǎn)新聞的參考參數(shù)

1.3 熱點(diǎn)新聞發(fā)現(xiàn)算法

影響熱點(diǎn)新聞因素可以分為兩個(gè)方面:一個(gè)是從媒體角度考慮;另一個(gè)是從網(wǎng)民角度考慮。目前常用關(guān)注度來(lái)描述某事件當(dāng)前的狀態(tài)和熱度,即某事件被關(guān)注的程度。百度借助百度指數(shù)描述某個(gè)關(guān)鍵詞用戶關(guān)注度(用戶熱度)和媒體關(guān)注度(媒體熱度)來(lái)表示某個(gè)關(guān)鍵詞的重要程度,因此本文借用百度指數(shù)的思想用熱點(diǎn)新聞的關(guān)注度描述當(dāng)前新聞被關(guān)注的程度,用媒體關(guān)注度和網(wǎng)民關(guān)注度來(lái)表示熱點(diǎn)新聞關(guān)注度。本文提出的熱點(diǎn)新聞發(fā)現(xiàn)過(guò)程為:首先對(duì)參數(shù)進(jìn)行定量化表示,在此基礎(chǔ)上提出熱點(diǎn)新聞發(fā)現(xiàn)算法,并用實(shí)驗(yàn)對(duì)算法有效性進(jìn)行檢驗(yàn)。

1.3.1媒體關(guān)注度的數(shù)學(xué)描述

媒體關(guān)注度指新聞被媒體報(bào)道關(guān)注的程度。某一新聞被媒體報(bào)道越多或重復(fù)轉(zhuǎn)載性越高,說(shuō)明該新聞受媒體關(guān)注程度越高;新聞只有被報(bào)道且為大眾所熟悉并引起廣泛關(guān)注才能成為熱點(diǎn)新聞,因此媒體對(duì)新聞從普通新聞到成為熱點(diǎn)新聞起著重要的推動(dòng)作用,對(duì)于這種推動(dòng)作用用媒體關(guān)注度表示。用來(lái)衡量媒體關(guān)注度的標(biāo)準(zhǔn)主要包括:?jiǎn)挝粫r(shí)間新聞報(bào)道數(shù)(新聞報(bào)道頻率)、新聞報(bào)道持續(xù)時(shí)間、新聞報(bào)道總數(shù),以上三個(gè)標(biāo)準(zhǔn)都是針對(duì)某一段時(shí)間內(nèi)的統(tǒng)計(jì)量或計(jì)算量。

在話題的熱度分析中,Khoo Khyou Bun提出TF*PDF(Term Frequency*Proportional Document Frequency)算法用于熱點(diǎn)話題的發(fā)現(xiàn),此種方法并沒(méi)有考慮特征項(xiàng)出現(xiàn)的頻率因素。因此本文在TF*PDF基礎(chǔ)上,將某一段時(shí)間內(nèi)新聞報(bào)道時(shí)間越多則該新聞越重要這一事實(shí)考慮在內(nèi),提出改進(jìn)媒體關(guān)注度計(jì)算方法,其方法的數(shù)學(xué)描述如下所示:T(i,t)為某段時(shí)間t內(nèi),信息i在網(wǎng)站上的媒體關(guān)注度。1式中指數(shù)描述的是某一信息報(bào)道數(shù)量越多,該新聞的PDF越大;新聞報(bào)道的時(shí)間越多則新聞越重要。公式如下:

RF(t)數(shù)學(xué)表達(dá)式為:

(2)

其中,時(shí)間t是任一時(shí)間段,如幾個(gè)小時(shí)、一天、一周等;RF(t)為在時(shí)間段t內(nèi)新聞i的報(bào)道總數(shù),即新聞i報(bào)道的頻數(shù);RT(t)為在時(shí)間段t內(nèi)報(bào)道的新聞i的總數(shù);TR(t)為時(shí)間t內(nèi)有新聞i報(bào)道時(shí)間,以天為計(jì)算單位;TS(t)從第一條新聞報(bào)道到當(dāng)前統(tǒng)計(jì)的時(shí)間間隔;N為新聞i報(bào)道總數(shù)。

1.3.2用戶關(guān)注度的數(shù)學(xué)描述

用戶關(guān)注度指新聞被用戶關(guān)注的程度。影響用戶關(guān)注度主要有三個(gè)參數(shù):新聞閱讀數(shù)、新聞評(píng)論數(shù)、單位時(shí)間評(píng)論數(shù)。新聞閱讀數(shù)用RN(Reader Number)表示,新聞評(píng)論數(shù)用CN(Comment Number)表示。新聞閱讀人數(shù)越多說(shuō)明用戶對(duì)此新聞越感興趣。新聞評(píng)論人數(shù)越多說(shuō)明新聞受關(guān)注程度和重要程度越高。

新聞評(píng)論數(shù)和新聞閱讀數(shù)對(duì)熱點(diǎn)新聞形成所起的作用大小不同,應(yīng)該對(duì)其設(shè)定不同的權(quán)重。通常情況下如果用戶對(duì)某個(gè)新聞比較感興趣,則會(huì)在閱讀后對(duì)新聞進(jìn)行評(píng)論,所以認(rèn)為新聞評(píng)論人數(shù)對(duì)熱點(diǎn)新聞的形成比新聞閱讀數(shù)更要要,應(yīng)賦以較高的權(quán)重。本文經(jīng)過(guò)多次試驗(yàn)發(fā)現(xiàn)新聞閱讀數(shù)的權(quán)重是新聞評(píng)論數(shù)兩倍時(shí),熱點(diǎn)新聞的發(fā)現(xiàn)效果達(dá)到最佳。因此得到用戶關(guān)注度的計(jì)算公式如下3式所示:

其中a為:

(4)

計(jì)算公式為:

計(jì)算公式為:

(6)

其中: 表示在時(shí)間段t內(nèi)用戶對(duì)新聞i的關(guān)注度;表示對(duì)新聞i評(píng)論人數(shù)所占的比例;λ為動(dòng)態(tài)調(diào)整因子,用于平衡相關(guān)因子對(duì)公式的影響;表示新聞i閱讀人數(shù)所占的比例;CN為時(shí)間段t內(nèi)新聞評(píng)論數(shù);時(shí)間段t為任意一段時(shí)間:可以為幾個(gè)小時(shí)、一天、一周等。

熱點(diǎn)新聞關(guān)注度用媒體關(guān)注度和用戶關(guān)注度表示。因上面討論媒體關(guān)注度和用戶關(guān)注度的數(shù)學(xué)描述,所以熱點(diǎn)新聞關(guān)注度應(yīng)將媒體關(guān)注度計(jì)算公式和用戶關(guān)注度的計(jì)算公式結(jié)合起來(lái)。因此得到熱點(diǎn)新聞關(guān)注度的計(jì)算公式如下7式所示:

公式中參數(shù)a和b為調(diào)整參數(shù),主要作用是調(diào)整媒體關(guān)注度和用戶關(guān)注度的數(shù)值因子差異,防止出現(xiàn)因一方數(shù)值過(guò)大把另一方給淹沒(méi)的可能性。

1.3.3熱點(diǎn)新聞的獲取實(shí)驗(yàn)

利用采集的新聞和評(píng)論數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)源,利用熱點(diǎn)新聞發(fā)現(xiàn)算法作為熱點(diǎn)新聞發(fā)現(xiàn)方法,通過(guò)實(shí)驗(yàn)驗(yàn)證熱點(diǎn)新聞發(fā)現(xiàn)算法的有效性。

(1)實(shí)驗(yàn)數(shù)據(jù)源

實(shí)驗(yàn)選擇從騰訊網(wǎng)站采集的2016年11月和12月兩個(gè)月的新聞數(shù)據(jù),其數(shù)據(jù)大小如表2所示。

表2 熱點(diǎn)新聞發(fā)現(xiàn)數(shù)據(jù)源

(2) 實(shí)驗(yàn)方法和步驟

為了保證公式7中用戶關(guān)注度T(i,t)中的值隨著用戶閱讀數(shù)和評(píng)論數(shù)增加,用戶關(guān)注度呈現(xiàn)正相關(guān)變化,對(duì)數(shù)的底數(shù)a>1,此處λ值取λ=1。另外新聞的評(píng)論中并沒(méi)有直接給出評(píng)論閱讀數(shù),此處把新聞評(píng)論數(shù)和點(diǎn)贊數(shù)之和作為新聞的閱讀數(shù)。

首先需要對(duì)媒體關(guān)注度和用戶關(guān)注度的權(quán)值因子:即公式7中的a和b進(jìn)行確定。通過(guò)隨機(jī)選取11月份和12月份各500條新聞數(shù)據(jù)及對(duì)應(yīng)的評(píng)論,對(duì)式子中a、b值進(jìn)行從[0,1]遍歷,遍歷步長(zhǎng)為0.01,并對(duì)篩選出的結(jié)果進(jìn)行統(tǒng)計(jì),最終選擇篩選出結(jié)果時(shí)所對(duì)應(yīng)的a和b值。

其次利用公式12對(duì)熱點(diǎn)新聞關(guān)注度計(jì)算,最后對(duì)實(shí)驗(yàn)結(jié)果的結(jié)果進(jìn)行統(tǒng)計(jì)分析,將得到的熱點(diǎn)新聞與同時(shí)間段內(nèi)百度搜索風(fēng)云榜新聞排行數(shù)據(jù)對(duì)比。

(3) 實(shí)驗(yàn)結(jié)果

根據(jù)(2)的實(shí)驗(yàn)方法,得出7式子中a=0.65,b=0.27,此時(shí)發(fā)現(xiàn)熱點(diǎn)新聞發(fā)現(xiàn)效果最佳。

按照上述實(shí)驗(yàn)步驟,最終得到實(shí)驗(yàn)數(shù)據(jù)如表3所示。

表3 熱點(diǎn)新聞發(fā)現(xiàn)結(jié)果統(tǒng)計(jì)表

將上述實(shí)驗(yàn)發(fā)現(xiàn)的熱點(diǎn)新聞與同一時(shí)間段內(nèi)的百度搜索風(fēng)云榜排行新聞對(duì)比可知此種方法與百度風(fēng)云榜熱點(diǎn)新聞的重合度在85%以上,說(shuō)明此方法有效。

[1]劉星星,何婷婷等.網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)[J].中文信息學(xué)報(bào),2008.

[2]宋雙永,李秋丹,路冬媛.面向微博客的熱點(diǎn)事件情感分析方法[J].計(jì)算機(jī)科學(xué),2012.

[3]王國(guó)華,鄧海峰,王雅蕾等.網(wǎng)絡(luò)熱點(diǎn)事件中輿情關(guān)聯(lián)問(wèn)題研究[J].情報(bào)雜志,2012.

[4]龔凱,唐明,尚明生等.在線熱點(diǎn)事件的時(shí)空演變規(guī)律[J].物理學(xué)報(bào),2012.

[5]焦超,劉功申.網(wǎng)絡(luò)突發(fā)熱點(diǎn)事件的熱點(diǎn)分布[J].信息安全與通信保密,2012.

猜你喜歡
閱讀數(shù)熱點(diǎn)新聞關(guān)注度
科技政務(wù)微信傳播方式與效果研究
——以某省科技微信公眾號(hào)為例
熱點(diǎn)新聞事件中網(wǎng)絡(luò)流行語(yǔ)產(chǎn)生的原因及其傳播效應(yīng)
新聞傳播(2018年5期)2018-05-30 07:02:43
做精做深熱點(diǎn)新聞,提升地方媒體影響力
雄安新區(qū)媒體關(guān)注度
全國(guó)兩會(huì)媒體關(guān)注度
2016年中考物理熱點(diǎn)新聞延伸題
暴力老媽
熱點(diǎn)新聞在大學(xué)生中的傳播及其對(duì)思政工作的啟示研究
新聞傳播(2016年21期)2016-07-10 12:22:35
“王者”泛海發(fā)布會(huì)聚焦百萬(wàn)關(guān)注度
編讀往來(lái)
惠安县| 荣成市| 普洱| 江门市| 庄浪县| 金昌市| 平和县| 行唐县| 邮箱| 南宁市| 扶余县| 大埔县| 张家界市| 高陵县| 明星| 巩留县| 宁夏| 和林格尔县| 浦北县| 英德市| 松滋市| 长泰县| 庆安县| 曲阳县| 榕江县| 榆树市| 安西县| 新巴尔虎右旗| 临漳县| 哈尔滨市| 香格里拉县| 泰宁县| 镇康县| 阿勒泰市| 安泽县| 桦甸市| 宁安市| 建昌县| 页游| 江口县| 太和县|