陳黎明 黃瑞章 秦永彬 陳艷平 劉麗娟
(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽(yáng) 550025)(2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴陽(yáng) 550025)(3.貴州師范學(xué)院 貴陽(yáng) 550018)
如今各大新聞網(wǎng)站會(huì)對(duì)各種各樣的事件進(jìn)行報(bào)道,這些大量的新聞報(bào)道中既存在著正能量的有利信息,也可能隱藏著負(fù)面或者敏感的信息。一條普通新聞一旦被關(guān)注可在極短的時(shí)間傳播開(kāi)來(lái),往往會(huì)從普通事件演變成爆點(diǎn)事件,繼而引發(fā)政府公信力下降等問(wèn)題。因此,輿情監(jiān)管部門(mén)對(duì)新聞報(bào)道高度重視,要求加強(qiáng)監(jiān)測(cè)力度,密切關(guān)注事態(tài)發(fā)展。
話(huà)題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)[1]是一種面向新聞信息流的處理技術(shù),旨在自動(dòng)識(shí)別新話(huà)題和持續(xù)跟蹤已知話(huà)題,其中話(huà)題由一個(gè)種子事件以及與其直接相關(guān)的事件組成。話(huà)題追蹤作為T(mén)DT子任務(wù),其目的是依據(jù)給定的新聞集合或描述在后續(xù)辨認(rèn)出話(huà)題相關(guān)報(bào)道,能夠用于快速獲取話(huà)題信息,協(xié)助有關(guān)部門(mén)進(jìn)行輿情監(jiān)測(cè)和分析。
輿情監(jiān)測(cè)的對(duì)象為熱點(diǎn)或敏感話(huà)題,需要人為介入的機(jī)制,因此更傾向于使用一組關(guān)鍵詞來(lái)進(jìn)行話(huà)題追蹤,方便在追蹤過(guò)程中進(jìn)行調(diào)整。根據(jù)關(guān)鍵詞來(lái)進(jìn)行特定話(huà)題追蹤,有以下難點(diǎn):1)輿情新聞數(shù)據(jù)容易遺漏。使用關(guān)鍵詞進(jìn)行簡(jiǎn)單匹配會(huì)引入大量無(wú)關(guān)數(shù)據(jù),所以需要衡量詞語(yǔ)在文章中的重要性,常用來(lái)衡量詞語(yǔ)重要性的方法難以處理詞語(yǔ)出現(xiàn)頻率較低的情況,這會(huì)導(dǎo)致當(dāng)新聞中與話(huà)題相關(guān)的信息出現(xiàn)頻率較低時(shí)難以追蹤到此類(lèi)新聞數(shù)據(jù)。2)用戶(hù)給定的關(guān)鍵詞可能不全,不足以全面描述話(huà)題,造成追蹤結(jié)果不理想。3)隨著時(shí)間的變化,話(huà)題重心也在變化,會(huì)產(chǎn)生話(huà)題漂移現(xiàn)象,話(huà)題關(guān)鍵詞也隨之變化,初始給定的關(guān)鍵詞需要?jiǎng)討B(tài)更新。
為了解決上述問(wèn)題,本文提出了一種面向輿情監(jiān)測(cè)的話(huà)題追蹤方法,根據(jù)用戶(hù)給出的關(guān)鍵詞監(jiān)督信息進(jìn)行話(huà)題追蹤,充分考慮人為介入的應(yīng)用場(chǎng)景;針對(duì)輿情新聞數(shù)據(jù)容易遺漏的問(wèn)題,本文通過(guò)對(duì)話(huà)題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法來(lái)提取有傾向的關(guān)鍵詞作為文本特征表示,進(jìn)而提升追蹤效果;針對(duì)關(guān)鍵詞不完全的問(wèn)題,對(duì)輿情數(shù)據(jù)進(jìn)行分析,通過(guò)點(diǎn)互信息對(duì)話(huà)題關(guān)鍵詞進(jìn)行補(bǔ)全;針對(duì)話(huà)題漂移的現(xiàn)象,在話(huà)題追蹤過(guò)程中根據(jù)關(guān)鍵詞衰減指數(shù)[2]對(duì)話(huà)題關(guān)鍵詞進(jìn)行動(dòng)態(tài)調(diào)整。實(shí)驗(yàn)結(jié)果表明,本文方法在面向輿情監(jiān)測(cè)的話(huà)題追蹤任務(wù)上取得了較好的效果。
話(huà)題追蹤是在后續(xù)新聞報(bào)道中辨認(rèn)出已知話(huà)題所相關(guān)的新聞報(bào)道[3],可以為新聞事件的追蹤及判斷決策提供輔助支持[4]。針對(duì)話(huà)題追蹤的研究集中在分類(lèi)或聚類(lèi)算法的選擇與融合、自適應(yīng)話(huà)題追蹤幾個(gè)方面。
基于分類(lèi)的追蹤方法利用訓(xùn)練好的分類(lèi)器來(lái)進(jìn)行話(huà)題相關(guān)性分析。文獻(xiàn)[5]使用SVM算法訓(xùn)練了一個(gè)是否相關(guān)的分類(lèi)器,避免了需要類(lèi)型標(biāo)簽的問(wèn)題。文獻(xiàn)[6]在改進(jìn)型DF文本特征的基礎(chǔ)上,通過(guò)構(gòu)建樸素貝葉斯模型來(lái)實(shí)現(xiàn)話(huà)題追蹤。文獻(xiàn)[7]提出了一種基于改進(jìn)KNN的話(huà)題跟蹤算法,解決了由于數(shù)據(jù)不平衡和跟蹤代價(jià)較高的問(wèn)題。雖然分類(lèi)算法使用廣泛,但需要大量訓(xùn)練數(shù)據(jù)。此外隨著時(shí)間的發(fā)展,話(huà)題的重心在動(dòng)態(tài)變化,會(huì)產(chǎn)生話(huà)題漂移的現(xiàn)象,簡(jiǎn)單的分類(lèi)算法已經(jīng)不能滿(mǎn)足動(dòng)態(tài)話(huà)題追蹤需求。
基于聚類(lèi)的追蹤方法常見(jiàn)的是SinglePass算法以及K-means算法。文獻(xiàn)[8~10]使用了改進(jìn)的SinglePass算法來(lái)進(jìn)行話(huà)題追蹤,其主要研究在于選取不同的文本特征來(lái)提升聚類(lèi)效果。雖然這類(lèi)算法效率較高,但容易受輸入順序的影響。文獻(xiàn)[11]提出了一種改進(jìn)的K-means算法,基于新聞報(bào)道相似性選擇初始聚類(lèi)中心點(diǎn),保證各新聞話(huà)題集群具有很好的區(qū)分度。文獻(xiàn)[12]根據(jù)K-means聚類(lèi)結(jié)果對(duì)子話(huà)題向量集進(jìn)行動(dòng)態(tài)調(diào)整,能夠更精確地對(duì)話(huà)題繼續(xù)追蹤。但K-means算法又具有其局限性,如對(duì)初始中心點(diǎn)的選擇敏感和用戶(hù)必須自定義分組K等。
由于話(huà)題漂移現(xiàn)象的存在,自適應(yīng)話(huà)題追蹤得到了進(jìn)一步發(fā)展。此類(lèi)算法在話(huà)題追蹤時(shí)將新特征融入至初始模型并對(duì)特征項(xiàng)權(quán)重進(jìn)行實(shí)時(shí)修正,進(jìn)而改進(jìn)追蹤效果。文獻(xiàn)[13]提出了一種基于詞匯相關(guān)性的自適應(yīng)追蹤方法。文獻(xiàn)[14]利用最小特征平均可信度閾值更新策略來(lái)完善話(huà)題模型。文獻(xiàn)[15]基于時(shí)間的分布屬性調(diào)整特征向量權(quán)重分配,實(shí)現(xiàn)話(huà)題模型的自適應(yīng)學(xué)習(xí)更新。文獻(xiàn)[16]根據(jù)報(bào)道時(shí)間特點(diǎn)研究了動(dòng)態(tài)閾值話(huà)題追蹤方法。文獻(xiàn)[17]提出一種基于關(guān)聯(lián)語(yǔ)義網(wǎng)絡(luò)的話(huà)題追蹤方法,解決了無(wú)法詳細(xì)描述話(huà)題追蹤趨勢(shì)的問(wèn)題。文獻(xiàn)[18]利用了主題新穎性和消退概率來(lái)追蹤話(huà)題。
相比于上述方法,本文方法基于關(guān)鍵詞對(duì)特定話(huà)題進(jìn)行追蹤,更適用于輿情監(jiān)測(cè)的應(yīng)用場(chǎng)景。
本文方法流程如圖1所示。待追蹤新聞?dòng)尚侣剺?biāo)題和正文組成,話(huà)題表示為一組關(guān)鍵詞,人為給定的關(guān)鍵詞監(jiān)督信息作為其初始值,用戶(hù)可以在追蹤的過(guò)程中進(jìn)行介入,修改話(huà)題關(guān)鍵詞。在每批待追蹤輿情新聞數(shù)據(jù)到來(lái)時(shí),追蹤流程按以下步驟進(jìn)行處理。首先,通過(guò)對(duì)話(huà)題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法提取新聞關(guān)鍵詞。其次,通過(guò)點(diǎn)互信息對(duì)話(huà)題關(guān)鍵詞進(jìn)行補(bǔ)全。最后,計(jì)算每篇新聞文本和話(huà)題的關(guān)鍵詞相似度,相似度大于閾值的新聞文本被判定為與話(huà)題相關(guān),并對(duì)話(huà)題關(guān)鍵詞進(jìn)行反饋更新。接下來(lái),將對(duì)這些步驟做詳細(xì)介紹。
圖1 話(huà)題追蹤方法流程
目前最常見(jiàn)的關(guān)鍵詞抽取算法為T(mén)extRank[19],它是一種基于詞匯圖模型的算法,把文檔看作是由詞匯構(gòu)成的圖結(jié)構(gòu),依靠文檔自身的結(jié)構(gòu)關(guān)系,即可實(shí)現(xiàn)關(guān)鍵詞抽取,簡(jiǎn)單有效,但傳統(tǒng)TextRank算法忽略了詞語(yǔ)本身的重要性信息[20]。當(dāng)在追蹤某個(gè)的特定話(huà)題時(shí),僅關(guān)心特定的一些詞語(yǔ),這些詞的重要程度比其他詞語(yǔ)高,比如話(huà)題關(guān)鍵詞。因此,本文對(duì)傳統(tǒng)TextRank算法進(jìn)行了改進(jìn),對(duì)話(huà)題關(guān)鍵詞加權(quán),提高話(huà)題關(guān)鍵詞在新聞中出現(xiàn)時(shí)被作為新聞文本關(guān)鍵詞提取出來(lái)的概率。
設(shè)G(V,E)是由給定文本的詞匯構(gòu)成的一個(gè)圖結(jié)構(gòu),那么對(duì)于該文本中任何一個(gè)詞語(yǔ)Vi,其基于加權(quán)TextRank算法的權(quán)值迭代公式為
式(1)中d為調(diào)節(jié)系數(shù),一般取0.85;I n(Vi)表示指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)的集合;Out(Vj)表示節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)的集合。wji為節(jié)點(diǎn)Vj的詞語(yǔ)重要性影響力傳遞到節(jié)點(diǎn)Vi的權(quán)重,其計(jì)算公式如下:
式(2)中I(vi)表示節(jié)點(diǎn)Vi的重要性取值,設(shè)λ為對(duì)詞語(yǔ)進(jìn)行加權(quán)的參數(shù),本文中λ取2,則I(vi)賦值如下:
基于式(1)~(4)進(jìn)行迭代運(yùn)算,當(dāng)式(1)兩次迭代結(jié)果之間的差異非常小時(shí)停止迭代運(yùn)算,該值一般取0.0001。然后按照大小對(duì)WS(V)進(jìn)行降序排序,選取前8個(gè)候選詞作為新聞文本關(guān)鍵詞。
Jaccard相似度用來(lái)比較樣本集之間的相似性,Jaccard系數(shù)值越大,說(shuō)明相似度越高。設(shè)KT為話(huà)題關(guān)鍵詞集合,K N為新聞文本關(guān)鍵詞集合,則Jaccard系數(shù)計(jì)算如式(5)所示。
通過(guò)式(5)計(jì)算追蹤話(huà)題和新聞文本之間的相似度,相似度大于閾值α的新聞文本被判定為與話(huà)題相關(guān),相似度低于閾值的則判定為與話(huà)題不相關(guān)。
為了充分補(bǔ)全話(huà)題關(guān)鍵詞,采用點(diǎn)互信息PMI(Pointwise Mutual Information)來(lái)挖掘潛在的關(guān)鍵詞。PMI被用來(lái)衡量?jī)蓚€(gè)關(guān)鍵詞之間的關(guān)系,PMI的大小代表了它們關(guān)系的強(qiáng)弱。PMI的計(jì)算公式如下:
通過(guò)式(6)計(jì)算出新聞文本關(guān)鍵詞對(duì)的PMI,挑選出PMI大于閾值μ的關(guān)鍵詞對(duì)。如果一個(gè)關(guān)鍵詞和任意兩個(gè)話(huà)題關(guān)鍵詞的PMI大于閾值,則添加該關(guān)鍵詞到話(huà)題關(guān)鍵詞集中,對(duì)話(huà)題關(guān)鍵詞進(jìn)行補(bǔ)全。
此外,針對(duì)話(huà)題漂移現(xiàn)象,需要融入新的話(huà)題特征,對(duì)話(huà)題關(guān)鍵詞進(jìn)行更新。當(dāng)一篇新聞被判定為與話(huà)題相關(guān)時(shí),采用基于關(guān)鍵詞衰減指數(shù)的算法來(lái)對(duì)話(huà)題關(guān)鍵詞進(jìn)行動(dòng)態(tài)更新,詳細(xì)描述如算法1所示。設(shè)話(huà)題候選關(guān)鍵詞向量為V(K)=(K1:w1,K2:w2,…,Kn:wn),其中K表示話(huà)題候選關(guān)鍵詞,w表示候選關(guān)鍵詞權(quán)重。第一次進(jìn)行更新時(shí),V(K)用話(huà)題關(guān)鍵詞進(jìn)行初始化,w的初始值為2。
算法1話(huà)題關(guān)鍵詞更新算法
輸入:
話(huà)題候選關(guān)鍵詞向量V(K)
新聞文本關(guān)鍵詞集合K N
衰減指數(shù)θ
輸出:
更新后的話(huà)題關(guān)鍵詞集合K Tupdated
更新后的話(huà)題候選關(guān)鍵詞向量Vupdated(K)
1)for每個(gè)關(guān)鍵詞Ki∈KNdo
2) ifKi i n V(K)then
3)wi←wi+0.5
4) else在V(K)中添加(Ki,0.5)
5)for每個(gè)關(guān)鍵詞Kj i n V(K)do
6) ifKj?KNthen
7)wj←wj*θ
8)輸出Vupdated(K)
9)Vupdated(K)按權(quán)重w大小進(jìn)行排序
10)初始化KTupdated為空
11)forKm i n Vupdated(K)do
12) 在KTupdated中添加Km
13) ifKTupdated的關(guān)鍵詞個(gè)數(shù)>8 then
14) break
15)輸出KTupdated
為了驗(yàn)證所提方法的有效性,本文從新浪、鳳凰、搜狐、網(wǎng)易等新聞網(wǎng)站收集了2018年11月~2019年1月共28125篇新聞作為實(shí)驗(yàn)原始數(shù)據(jù)。從原始數(shù)據(jù)中選取五個(gè)話(huà)題進(jìn)行追蹤,并對(duì)其進(jìn)行標(biāo)注,除五個(gè)話(huà)題外,其它數(shù)據(jù)均為反例。話(huà)題名稱(chēng)和對(duì)應(yīng)的新聞數(shù)量如表1所示。
表1 數(shù)據(jù)集
實(shí)驗(yàn)使用準(zhǔn)確率P、召回率R和兩者綜合性能指標(biāo)F值三個(gè)指標(biāo)進(jìn)行量化考察,F(xiàn)值越高,話(huà)題追蹤性能越好。設(shè)TP為在追蹤結(jié)果中被判定屬于某話(huà)題且實(shí)際也屬于該話(huà)題的新聞數(shù)量,F(xiàn)P為在追蹤結(jié)果中被判定屬于某話(huà)題但實(shí)際不屬于該話(huà)題的新聞數(shù)量,F(xiàn)N為在追蹤結(jié)果中被判定為其它類(lèi)別但實(shí)際屬于該話(huà)題的新聞數(shù)量。則準(zhǔn)確率P、召回率R和F值的計(jì)算公式如下:
為了驗(yàn)證本文方法在話(huà)題追蹤上的效果,選取基于SinglePass的追蹤方法和文獻(xiàn)[2]方法作為對(duì)比方法。實(shí)驗(yàn)設(shè)置相似度閾值α為0.1,衰減指數(shù)θ為0.8,時(shí)間窗口為天,并選取兩篇種子新聞作為對(duì)比方法的初始類(lèi)心,其中基于SinglePass的追蹤方法選取的文本特征表示方法是TF-IDF。實(shí)驗(yàn)結(jié)果如表2所示。
表2 話(huà)題追蹤方法實(shí)驗(yàn)結(jié)果
從表2可以看出,本文方法優(yōu)于基于Single-Pass的追蹤方法,原因是選取了有傾向的關(guān)鍵詞作為新聞文本特征表示,而基于SinglePass的方法選取的文本特征表示方法是TF-IDF,當(dāng)新聞中關(guān)鍵詞出現(xiàn)頻率比較低時(shí),其所占權(quán)重較小,導(dǎo)致聚類(lèi)效果不理想,而有傾向的關(guān)鍵詞加大了重要詞的權(quán)重,能夠提取出關(guān)鍵詞出現(xiàn)頻率低的新聞。此外,本文方法和文獻(xiàn)[2]方法都有反饋更新話(huà)題關(guān)鍵詞的機(jī)制,然而本文方法在平均F值上比其高出2.32%,主要是因?yàn)楸疚睦肞MI對(duì)話(huà)題關(guān)鍵詞進(jìn)行了補(bǔ)全以及引入了話(huà)題關(guān)鍵詞候選向量,在反饋更新策略上做了改進(jìn),從而取得了較為優(yōu)越的結(jié)果。
本文基于關(guān)鍵詞對(duì)輿情話(huà)題進(jìn)行動(dòng)態(tài)追蹤,關(guān)鍵詞的變化影響著話(huà)題自適應(yīng)追蹤的效果。表3展示了本文方法在追蹤“孟晚舟被捕”話(huà)題過(guò)程中關(guān)鍵詞的變化。從表中可以看出,話(huà)題發(fā)生了漂移現(xiàn)象,重心從“被捕”發(fā)展成為了“保釋”,這表明本文方法能夠有效地應(yīng)對(duì)話(huà)題漂移現(xiàn)象,對(duì)話(huà)題進(jìn)行自適應(yīng)追蹤。
表3“孟晚舟被捕”關(guān)鍵詞變化
本文提出了一種面向輿情監(jiān)測(cè)的話(huà)題追蹤方法,根據(jù)給出的關(guān)鍵詞信息來(lái)進(jìn)行特定的話(huà)題追蹤,充分考慮到了輿情監(jiān)測(cè)需要人為介入的應(yīng)用場(chǎng)景,解決了輿情新聞容易遺漏、關(guān)鍵詞不完整、話(huà)題漂移的難點(diǎn),取得了較好的追蹤效果。在未來(lái)的工作中,擬研究如何根據(jù)追蹤到的新聞數(shù)據(jù)梳理話(huà)題發(fā)展脈絡(luò)。