国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向輿情監(jiān)測(cè)的話(huà)題追蹤方法*

2021-09-15 08:34陳黎明黃瑞章秦永彬陳艷平劉麗娟
關(guān)鍵詞:閾值輿情文獻(xiàn)

陳黎明 黃瑞章 秦永彬 陳艷平 劉麗娟

(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽(yáng) 550025)(2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴陽(yáng) 550025)(3.貴州師范學(xué)院 貴陽(yáng) 550018)

1 引言

如今各大新聞網(wǎng)站會(huì)對(duì)各種各樣的事件進(jìn)行報(bào)道,這些大量的新聞報(bào)道中既存在著正能量的有利信息,也可能隱藏著負(fù)面或者敏感的信息。一條普通新聞一旦被關(guān)注可在極短的時(shí)間傳播開(kāi)來(lái),往往會(huì)從普通事件演變成爆點(diǎn)事件,繼而引發(fā)政府公信力下降等問(wèn)題。因此,輿情監(jiān)管部門(mén)對(duì)新聞報(bào)道高度重視,要求加強(qiáng)監(jiān)測(cè)力度,密切關(guān)注事態(tài)發(fā)展。

話(huà)題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)[1]是一種面向新聞信息流的處理技術(shù),旨在自動(dòng)識(shí)別新話(huà)題和持續(xù)跟蹤已知話(huà)題,其中話(huà)題由一個(gè)種子事件以及與其直接相關(guān)的事件組成。話(huà)題追蹤作為T(mén)DT子任務(wù),其目的是依據(jù)給定的新聞集合或描述在后續(xù)辨認(rèn)出話(huà)題相關(guān)報(bào)道,能夠用于快速獲取話(huà)題信息,協(xié)助有關(guān)部門(mén)進(jìn)行輿情監(jiān)測(cè)和分析。

輿情監(jiān)測(cè)的對(duì)象為熱點(diǎn)或敏感話(huà)題,需要人為介入的機(jī)制,因此更傾向于使用一組關(guān)鍵詞來(lái)進(jìn)行話(huà)題追蹤,方便在追蹤過(guò)程中進(jìn)行調(diào)整。根據(jù)關(guān)鍵詞來(lái)進(jìn)行特定話(huà)題追蹤,有以下難點(diǎn):1)輿情新聞數(shù)據(jù)容易遺漏。使用關(guān)鍵詞進(jìn)行簡(jiǎn)單匹配會(huì)引入大量無(wú)關(guān)數(shù)據(jù),所以需要衡量詞語(yǔ)在文章中的重要性,常用來(lái)衡量詞語(yǔ)重要性的方法難以處理詞語(yǔ)出現(xiàn)頻率較低的情況,這會(huì)導(dǎo)致當(dāng)新聞中與話(huà)題相關(guān)的信息出現(xiàn)頻率較低時(shí)難以追蹤到此類(lèi)新聞數(shù)據(jù)。2)用戶(hù)給定的關(guān)鍵詞可能不全,不足以全面描述話(huà)題,造成追蹤結(jié)果不理想。3)隨著時(shí)間的變化,話(huà)題重心也在變化,會(huì)產(chǎn)生話(huà)題漂移現(xiàn)象,話(huà)題關(guān)鍵詞也隨之變化,初始給定的關(guān)鍵詞需要?jiǎng)討B(tài)更新。

為了解決上述問(wèn)題,本文提出了一種面向輿情監(jiān)測(cè)的話(huà)題追蹤方法,根據(jù)用戶(hù)給出的關(guān)鍵詞監(jiān)督信息進(jìn)行話(huà)題追蹤,充分考慮人為介入的應(yīng)用場(chǎng)景;針對(duì)輿情新聞數(shù)據(jù)容易遺漏的問(wèn)題,本文通過(guò)對(duì)話(huà)題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法來(lái)提取有傾向的關(guān)鍵詞作為文本特征表示,進(jìn)而提升追蹤效果;針對(duì)關(guān)鍵詞不完全的問(wèn)題,對(duì)輿情數(shù)據(jù)進(jìn)行分析,通過(guò)點(diǎn)互信息對(duì)話(huà)題關(guān)鍵詞進(jìn)行補(bǔ)全;針對(duì)話(huà)題漂移的現(xiàn)象,在話(huà)題追蹤過(guò)程中根據(jù)關(guān)鍵詞衰減指數(shù)[2]對(duì)話(huà)題關(guān)鍵詞進(jìn)行動(dòng)態(tài)調(diào)整。實(shí)驗(yàn)結(jié)果表明,本文方法在面向輿情監(jiān)測(cè)的話(huà)題追蹤任務(wù)上取得了較好的效果。

2 相關(guān)工作

話(huà)題追蹤是在后續(xù)新聞報(bào)道中辨認(rèn)出已知話(huà)題所相關(guān)的新聞報(bào)道[3],可以為新聞事件的追蹤及判斷決策提供輔助支持[4]。針對(duì)話(huà)題追蹤的研究集中在分類(lèi)或聚類(lèi)算法的選擇與融合、自適應(yīng)話(huà)題追蹤幾個(gè)方面。

基于分類(lèi)的追蹤方法利用訓(xùn)練好的分類(lèi)器來(lái)進(jìn)行話(huà)題相關(guān)性分析。文獻(xiàn)[5]使用SVM算法訓(xùn)練了一個(gè)是否相關(guān)的分類(lèi)器,避免了需要類(lèi)型標(biāo)簽的問(wèn)題。文獻(xiàn)[6]在改進(jìn)型DF文本特征的基礎(chǔ)上,通過(guò)構(gòu)建樸素貝葉斯模型來(lái)實(shí)現(xiàn)話(huà)題追蹤。文獻(xiàn)[7]提出了一種基于改進(jìn)KNN的話(huà)題跟蹤算法,解決了由于數(shù)據(jù)不平衡和跟蹤代價(jià)較高的問(wèn)題。雖然分類(lèi)算法使用廣泛,但需要大量訓(xùn)練數(shù)據(jù)。此外隨著時(shí)間的發(fā)展,話(huà)題的重心在動(dòng)態(tài)變化,會(huì)產(chǎn)生話(huà)題漂移的現(xiàn)象,簡(jiǎn)單的分類(lèi)算法已經(jīng)不能滿(mǎn)足動(dòng)態(tài)話(huà)題追蹤需求。

基于聚類(lèi)的追蹤方法常見(jiàn)的是SinglePass算法以及K-means算法。文獻(xiàn)[8~10]使用了改進(jìn)的SinglePass算法來(lái)進(jìn)行話(huà)題追蹤,其主要研究在于選取不同的文本特征來(lái)提升聚類(lèi)效果。雖然這類(lèi)算法效率較高,但容易受輸入順序的影響。文獻(xiàn)[11]提出了一種改進(jìn)的K-means算法,基于新聞報(bào)道相似性選擇初始聚類(lèi)中心點(diǎn),保證各新聞話(huà)題集群具有很好的區(qū)分度。文獻(xiàn)[12]根據(jù)K-means聚類(lèi)結(jié)果對(duì)子話(huà)題向量集進(jìn)行動(dòng)態(tài)調(diào)整,能夠更精確地對(duì)話(huà)題繼續(xù)追蹤。但K-means算法又具有其局限性,如對(duì)初始中心點(diǎn)的選擇敏感和用戶(hù)必須自定義分組K等。

由于話(huà)題漂移現(xiàn)象的存在,自適應(yīng)話(huà)題追蹤得到了進(jìn)一步發(fā)展。此類(lèi)算法在話(huà)題追蹤時(shí)將新特征融入至初始模型并對(duì)特征項(xiàng)權(quán)重進(jìn)行實(shí)時(shí)修正,進(jìn)而改進(jìn)追蹤效果。文獻(xiàn)[13]提出了一種基于詞匯相關(guān)性的自適應(yīng)追蹤方法。文獻(xiàn)[14]利用最小特征平均可信度閾值更新策略來(lái)完善話(huà)題模型。文獻(xiàn)[15]基于時(shí)間的分布屬性調(diào)整特征向量權(quán)重分配,實(shí)現(xiàn)話(huà)題模型的自適應(yīng)學(xué)習(xí)更新。文獻(xiàn)[16]根據(jù)報(bào)道時(shí)間特點(diǎn)研究了動(dòng)態(tài)閾值話(huà)題追蹤方法。文獻(xiàn)[17]提出一種基于關(guān)聯(lián)語(yǔ)義網(wǎng)絡(luò)的話(huà)題追蹤方法,解決了無(wú)法詳細(xì)描述話(huà)題追蹤趨勢(shì)的問(wèn)題。文獻(xiàn)[18]利用了主題新穎性和消退概率來(lái)追蹤話(huà)題。

相比于上述方法,本文方法基于關(guān)鍵詞對(duì)特定話(huà)題進(jìn)行追蹤,更適用于輿情監(jiān)測(cè)的應(yīng)用場(chǎng)景。

3 方法介紹

3.1 方法概述

本文方法流程如圖1所示。待追蹤新聞?dòng)尚侣剺?biāo)題和正文組成,話(huà)題表示為一組關(guān)鍵詞,人為給定的關(guān)鍵詞監(jiān)督信息作為其初始值,用戶(hù)可以在追蹤的過(guò)程中進(jìn)行介入,修改話(huà)題關(guān)鍵詞。在每批待追蹤輿情新聞數(shù)據(jù)到來(lái)時(shí),追蹤流程按以下步驟進(jìn)行處理。首先,通過(guò)對(duì)話(huà)題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法提取新聞關(guān)鍵詞。其次,通過(guò)點(diǎn)互信息對(duì)話(huà)題關(guān)鍵詞進(jìn)行補(bǔ)全。最后,計(jì)算每篇新聞文本和話(huà)題的關(guān)鍵詞相似度,相似度大于閾值的新聞文本被判定為與話(huà)題相關(guān),并對(duì)話(huà)題關(guān)鍵詞進(jìn)行反饋更新。接下來(lái),將對(duì)這些步驟做詳細(xì)介紹。

圖1 話(huà)題追蹤方法流程

3.2 新聞關(guān)鍵詞提取

目前最常見(jiàn)的關(guān)鍵詞抽取算法為T(mén)extRank[19],它是一種基于詞匯圖模型的算法,把文檔看作是由詞匯構(gòu)成的圖結(jié)構(gòu),依靠文檔自身的結(jié)構(gòu)關(guān)系,即可實(shí)現(xiàn)關(guān)鍵詞抽取,簡(jiǎn)單有效,但傳統(tǒng)TextRank算法忽略了詞語(yǔ)本身的重要性信息[20]。當(dāng)在追蹤某個(gè)的特定話(huà)題時(shí),僅關(guān)心特定的一些詞語(yǔ),這些詞的重要程度比其他詞語(yǔ)高,比如話(huà)題關(guān)鍵詞。因此,本文對(duì)傳統(tǒng)TextRank算法進(jìn)行了改進(jìn),對(duì)話(huà)題關(guān)鍵詞加權(quán),提高話(huà)題關(guān)鍵詞在新聞中出現(xiàn)時(shí)被作為新聞文本關(guān)鍵詞提取出來(lái)的概率。

設(shè)G(V,E)是由給定文本的詞匯構(gòu)成的一個(gè)圖結(jié)構(gòu),那么對(duì)于該文本中任何一個(gè)詞語(yǔ)Vi,其基于加權(quán)TextRank算法的權(quán)值迭代公式為

式(1)中d為調(diào)節(jié)系數(shù),一般取0.85;I n(Vi)表示指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)的集合;Out(Vj)表示節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)的集合。wji為節(jié)點(diǎn)Vj的詞語(yǔ)重要性影響力傳遞到節(jié)點(diǎn)Vi的權(quán)重,其計(jì)算公式如下:

式(2)中I(vi)表示節(jié)點(diǎn)Vi的重要性取值,設(shè)λ為對(duì)詞語(yǔ)進(jìn)行加權(quán)的參數(shù),本文中λ取2,則I(vi)賦值如下:

基于式(1)~(4)進(jìn)行迭代運(yùn)算,當(dāng)式(1)兩次迭代結(jié)果之間的差異非常小時(shí)停止迭代運(yùn)算,該值一般取0.0001。然后按照大小對(duì)WS(V)進(jìn)行降序排序,選取前8個(gè)候選詞作為新聞文本關(guān)鍵詞。

3.3 相似度計(jì)算和話(huà)題追蹤

Jaccard相似度用來(lái)比較樣本集之間的相似性,Jaccard系數(shù)值越大,說(shuō)明相似度越高。設(shè)KT為話(huà)題關(guān)鍵詞集合,K N為新聞文本關(guān)鍵詞集合,則Jaccard系數(shù)計(jì)算如式(5)所示。

通過(guò)式(5)計(jì)算追蹤話(huà)題和新聞文本之間的相似度,相似度大于閾值α的新聞文本被判定為與話(huà)題相關(guān),相似度低于閾值的則判定為與話(huà)題不相關(guān)。

3.4 話(huà)題關(guān)鍵詞更新

為了充分補(bǔ)全話(huà)題關(guān)鍵詞,采用點(diǎn)互信息PMI(Pointwise Mutual Information)來(lái)挖掘潛在的關(guān)鍵詞。PMI被用來(lái)衡量?jī)蓚€(gè)關(guān)鍵詞之間的關(guān)系,PMI的大小代表了它們關(guān)系的強(qiáng)弱。PMI的計(jì)算公式如下:

通過(guò)式(6)計(jì)算出新聞文本關(guān)鍵詞對(duì)的PMI,挑選出PMI大于閾值μ的關(guān)鍵詞對(duì)。如果一個(gè)關(guān)鍵詞和任意兩個(gè)話(huà)題關(guān)鍵詞的PMI大于閾值,則添加該關(guān)鍵詞到話(huà)題關(guān)鍵詞集中,對(duì)話(huà)題關(guān)鍵詞進(jìn)行補(bǔ)全。

此外,針對(duì)話(huà)題漂移現(xiàn)象,需要融入新的話(huà)題特征,對(duì)話(huà)題關(guān)鍵詞進(jìn)行更新。當(dāng)一篇新聞被判定為與話(huà)題相關(guān)時(shí),采用基于關(guān)鍵詞衰減指數(shù)的算法來(lái)對(duì)話(huà)題關(guān)鍵詞進(jìn)行動(dòng)態(tài)更新,詳細(xì)描述如算法1所示。設(shè)話(huà)題候選關(guān)鍵詞向量為V(K)=(K1:w1,K2:w2,…,Kn:wn),其中K表示話(huà)題候選關(guān)鍵詞,w表示候選關(guān)鍵詞權(quán)重。第一次進(jìn)行更新時(shí),V(K)用話(huà)題關(guān)鍵詞進(jìn)行初始化,w的初始值為2。

算法1話(huà)題關(guān)鍵詞更新算法

輸入:

話(huà)題候選關(guān)鍵詞向量V(K)

新聞文本關(guān)鍵詞集合K N

衰減指數(shù)θ

輸出:

更新后的話(huà)題關(guān)鍵詞集合K Tupdated

更新后的話(huà)題候選關(guān)鍵詞向量Vupdated(K)

1)for每個(gè)關(guān)鍵詞Ki∈KNdo

2) ifKi i n V(K)then

3)wi←wi+0.5

4) else在V(K)中添加(Ki,0.5)

5)for每個(gè)關(guān)鍵詞Kj i n V(K)do

6) ifKj?KNthen

7)wj←wj*θ

8)輸出Vupdated(K)

9)Vupdated(K)按權(quán)重w大小進(jìn)行排序

10)初始化KTupdated為空

11)forKm i n Vupdated(K)do

12) 在KTupdated中添加Km

13) ifKTupdated的關(guān)鍵詞個(gè)數(shù)>8 then

14) break

15)輸出KTupdated

4 實(shí)驗(yàn)及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn)

為了驗(yàn)證所提方法的有效性,本文從新浪、鳳凰、搜狐、網(wǎng)易等新聞網(wǎng)站收集了2018年11月~2019年1月共28125篇新聞作為實(shí)驗(yàn)原始數(shù)據(jù)。從原始數(shù)據(jù)中選取五個(gè)話(huà)題進(jìn)行追蹤,并對(duì)其進(jìn)行標(biāo)注,除五個(gè)話(huà)題外,其它數(shù)據(jù)均為反例。話(huà)題名稱(chēng)和對(duì)應(yīng)的新聞數(shù)量如表1所示。

表1 數(shù)據(jù)集

實(shí)驗(yàn)使用準(zhǔn)確率P、召回率R和兩者綜合性能指標(biāo)F值三個(gè)指標(biāo)進(jìn)行量化考察,F(xiàn)值越高,話(huà)題追蹤性能越好。設(shè)TP為在追蹤結(jié)果中被判定屬于某話(huà)題且實(shí)際也屬于該話(huà)題的新聞數(shù)量,F(xiàn)P為在追蹤結(jié)果中被判定屬于某話(huà)題但實(shí)際不屬于該話(huà)題的新聞數(shù)量,F(xiàn)N為在追蹤結(jié)果中被判定為其它類(lèi)別但實(shí)際屬于該話(huà)題的新聞數(shù)量。則準(zhǔn)確率P、召回率R和F值的計(jì)算公式如下:

4.2 話(huà)題追蹤對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文方法在話(huà)題追蹤上的效果,選取基于SinglePass的追蹤方法和文獻(xiàn)[2]方法作為對(duì)比方法。實(shí)驗(yàn)設(shè)置相似度閾值α為0.1,衰減指數(shù)θ為0.8,時(shí)間窗口為天,并選取兩篇種子新聞作為對(duì)比方法的初始類(lèi)心,其中基于SinglePass的追蹤方法選取的文本特征表示方法是TF-IDF。實(shí)驗(yàn)結(jié)果如表2所示。

表2 話(huà)題追蹤方法實(shí)驗(yàn)結(jié)果

從表2可以看出,本文方法優(yōu)于基于Single-Pass的追蹤方法,原因是選取了有傾向的關(guān)鍵詞作為新聞文本特征表示,而基于SinglePass的方法選取的文本特征表示方法是TF-IDF,當(dāng)新聞中關(guān)鍵詞出現(xiàn)頻率比較低時(shí),其所占權(quán)重較小,導(dǎo)致聚類(lèi)效果不理想,而有傾向的關(guān)鍵詞加大了重要詞的權(quán)重,能夠提取出關(guān)鍵詞出現(xiàn)頻率低的新聞。此外,本文方法和文獻(xiàn)[2]方法都有反饋更新話(huà)題關(guān)鍵詞的機(jī)制,然而本文方法在平均F值上比其高出2.32%,主要是因?yàn)楸疚睦肞MI對(duì)話(huà)題關(guān)鍵詞進(jìn)行了補(bǔ)全以及引入了話(huà)題關(guān)鍵詞候選向量,在反饋更新策略上做了改進(jìn),從而取得了較為優(yōu)越的結(jié)果。

4.3 話(huà)題關(guān)鍵詞分析

本文基于關(guān)鍵詞對(duì)輿情話(huà)題進(jìn)行動(dòng)態(tài)追蹤,關(guān)鍵詞的變化影響著話(huà)題自適應(yīng)追蹤的效果。表3展示了本文方法在追蹤“孟晚舟被捕”話(huà)題過(guò)程中關(guān)鍵詞的變化。從表中可以看出,話(huà)題發(fā)生了漂移現(xiàn)象,重心從“被捕”發(fā)展成為了“保釋”,這表明本文方法能夠有效地應(yīng)對(duì)話(huà)題漂移現(xiàn)象,對(duì)話(huà)題進(jìn)行自適應(yīng)追蹤。

表3“孟晚舟被捕”關(guān)鍵詞變化

5 結(jié)語(yǔ)

本文提出了一種面向輿情監(jiān)測(cè)的話(huà)題追蹤方法,根據(jù)給出的關(guān)鍵詞信息來(lái)進(jìn)行特定的話(huà)題追蹤,充分考慮到了輿情監(jiān)測(cè)需要人為介入的應(yīng)用場(chǎng)景,解決了輿情新聞容易遺漏、關(guān)鍵詞不完整、話(huà)題漂移的難點(diǎn),取得了較好的追蹤效果。在未來(lái)的工作中,擬研究如何根據(jù)追蹤到的新聞數(shù)據(jù)梳理話(huà)題發(fā)展脈絡(luò)。

猜你喜歡
閾值輿情文獻(xiàn)
非平穩(wěn)聲信號(hào)下的小波變換去噪方法研究
基于改進(jìn)閾值的MRI圖像降噪
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
Hostile takeovers in China and Japan
一種改進(jìn)小波閾值去噪法及其仿真
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
消費(fèi)輿情
月度最熱輿情事件榜11月
澄城县| 汉川市| 蓬安县| 哈巴河县| 都安| 吉木萨尔县| 岳西县| 吉隆县| 平原县| 普定县| 高平市| 方正县| 庆城县| 平潭县| 亳州市| 卫辉市| 茌平县| 治县。| 团风县| 揭东县| 建湖县| 罗城| 甘德县| 轮台县| 贺兰县| 濮阳县| 大兴区| 邛崃市| 本溪市| 元阳县| 安阳县| 湟中县| 阿拉善盟| 安化县| 康保县| 三门峡市| 广平县| 江西省| 喀喇沁旗| 高碑店市| 苏尼特右旗|