国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)新聞話題演化趨勢(shì)檢測(cè)研究

2015-06-24 15:42:34趙旭劍等
電腦知識(shí)與技術(shù) 2015年2期
關(guān)鍵詞:新聞報(bào)道趨勢(shì)聚類

趙旭劍等

摘要:演化趨勢(shì)檢測(cè)能提前獲取話題的演變軌跡,有效提高決策者對(duì)于話題輿情處理的主動(dòng)性和預(yù)判性。針對(duì)該需求,該文深入研究新聞話題的演變過(guò)程,利用K-means算法對(duì)專題新聞報(bào)道集進(jìn)行聚類,得到新聞話題演化階段的不同類簇,并且采用Text Rank方法提取各個(gè)新聞話題演化階段的有效關(guān)鍵詞,然后基于時(shí)間信息,整理生成話題演化趨勢(shì)。該文以百度百科相關(guān)詞條的客觀描述作為評(píng)判標(biāo)準(zhǔn)進(jìn)行算法評(píng)測(cè),實(shí)驗(yàn)結(jié)果表明本文算法具有較高的準(zhǔn)確性。

關(guān)鍵詞: 話題演化; 演化趨勢(shì); 趨勢(shì)檢測(cè); K-means; Text Rank

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)02-0052-03

Abstract:The evolutionary trend detection can obtain the topic evolution track in advance, and it can effectively improve the initiative and anticipation of the decision for the resolution of the public opinion on the news topic. According to the requirement, this paper studies the evolution of news topic firstly, using k-means algorithm for clustering of special news and getting different clusters for different stages of news topic evolution. And then we extract the keywords existing in various stages of news topic evolution with Text Rank model to represent the topic evolution trend based on temporal information in news pages. Finally, this paper takes the objective description of the relevant entries of Baidu encyclopedia as the evaluation criteria for the assessment of the algorithm, and the experimental results show that the algorithm is of high precision.

Key words:topic evolution; evolution trend; trend detection; K-means; Text Rank

新聞話題是指一個(gè)熱點(diǎn)事件及與之相關(guān)的所有事件活動(dòng)的集合[1]。新聞話題演化趨勢(shì)是指一個(gè)新聞話題發(fā)生后,隨著時(shí)間推進(jìn),事態(tài)演變從開端、發(fā)展、高潮、結(jié)局及其影響的完整過(guò)程,符合人類認(rèn)識(shí)事物的邏輯順序。按照這樣的邏輯順序整理出來(lái)的網(wǎng)絡(luò)新聞,簡(jiǎn)潔明了地展現(xiàn)出新聞話題的演化規(guī)律。新聞話題的演變趨勢(shì)對(duì)于網(wǎng)絡(luò)輿情研究具有重要研究意義和應(yīng)用價(jià)值,學(xué)術(shù)界近幾年開始出現(xiàn)有關(guān)話題演化研究的工作[2-5],并日益得到研究學(xué)者的關(guān)注。通過(guò)趨勢(shì)檢測(cè)能幫助人們了解新聞話題的前因后果,同時(shí)話題演化的各個(gè)階段的差異充分體現(xiàn)了新聞事件的事態(tài)發(fā)展,有效提高決策者對(duì)于新聞事件處理的主動(dòng)性和預(yù)判性[6]。例如,圖1反映了從2002年11月至2003年3月有關(guān)SARS疫情的新聞報(bào)道中我們抽取出的前5個(gè)關(guān)鍵詞的變化趨勢(shì),不難看出,隨著時(shí)間的推移,疫情越發(fā)嚴(yán)重,事態(tài)越發(fā)緊急。

顯然,如果政府部門能夠及時(shí)、準(zhǔn)確地掌握該話題的演化軌跡,就能針對(duì)話題各個(gè)階段采取相應(yīng)的應(yīng)對(duì)措施,特別包括網(wǎng)絡(luò)輿情的監(jiān)控,有效地對(duì)重大公共突發(fā)事件進(jìn)行全面管控,避免或者減輕突發(fā)事件對(duì)社會(huì)帶來(lái)的不利影響。針對(duì)該需求,本文提出了面向網(wǎng)絡(luò)新聞的話題演化趨勢(shì)檢測(cè)模型,通過(guò)對(duì)專題新聞聚類劃分出新聞話題不同發(fā)展階段的類簇,對(duì)新聞?lì)惔剡M(jìn)行關(guān)鍵詞抽取,根據(jù)新聞報(bào)道中的時(shí)間信息,整理生成專題新聞集合的話題演變軌跡,有效挖掘出新聞話題的演化過(guò)程,有助于提高政府及相關(guān)部門應(yīng)對(duì)社會(huì)突發(fā)事件的決策力。

1 話題演化趨勢(shì)檢測(cè)

本文根據(jù)話題演化研究的實(shí)際需要,對(duì)專題新聞文檔進(jìn)行話題演化趨勢(shì)檢測(cè),采用圖2所示的研究流程先后完成新聞文檔預(yù)處理、新聞話題聚類、話題演化特征抽取以及話題演化序列構(gòu)建等關(guān)鍵研究任務(wù)。

2.1 新聞話題聚類

對(duì)文檔進(jìn)行聚類時(shí),可以根據(jù)需要將新聞話題劃分成相應(yīng)數(shù)量的類簇。話題演化聚類結(jié)束后,將目標(biāo)新聞話題相關(guān)的新聞文檔序列組織成一系列類簇,每個(gè)類簇代表一個(gè)話題演化階段,而整個(gè)新聞文檔序列則全面體現(xiàn)了目標(biāo)新聞話題的演化軌跡。K-means算法是最為經(jīng)典的基于劃分的聚類方法,K-means算法的基本思想是:以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。通過(guò)迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果[7]。一般都采用均方差作為標(biāo)準(zhǔn)度量函數(shù),如公式1所示。k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開,輸出結(jié)果是k個(gè)類簇的集合。

它假設(shè)對(duì)象屬性來(lái)自于空間向量,并且目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小。假設(shè)有k個(gè)群組Si, i=1,2,...,k。μi是群組Si內(nèi)所有元素xj的重心,或叫中心點(diǎn)。

假設(shè)要把樣本集分為S個(gè)類別,算法描述如下:

(1)適當(dāng)選擇S個(gè)類的初始中心;

(2)在第k次迭代中,對(duì)任意一個(gè)樣本,求其到S個(gè)中心的距離,將該樣本歸到距離最短的中心所在的類;

(3)利用均值等方法更新該類的中心值;

(4)對(duì)于所有的S個(gè)聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。

該算法的最大優(yōu)勢(shì)在于簡(jiǎn)潔快速,算法的關(guān)鍵在于初始中心的選擇和距離公式。

2.2 話題演化特征抽取

多篇新聞報(bào)道聚類后,類簇的核心思想(話題)是由文中的詞項(xiàng)來(lái)體現(xiàn)。通過(guò)詞語(yǔ)間的語(yǔ)義關(guān)系分析,找出最能代表該類簇核心內(nèi)容的特征詞項(xiàng)。為了彌補(bǔ)傳統(tǒng)方法(TF-IDF模型)只計(jì)算文中詞語(yǔ)詞頻而沒(méi)有考慮詞項(xiàng)之間語(yǔ)義關(guān)系的不足,本文通過(guò)構(gòu)建詞項(xiàng)間的Text Rank模型[8],分析多文檔間詞項(xiàng)的語(yǔ)義關(guān)系,抽取出有效關(guān)鍵詞。

Text Rank與Google提出的Page Rank非常類似,它本質(zhì)是在以詞匯作為頂點(diǎn)、詞之間關(guān)聯(lián)作為帶權(quán)或無(wú)權(quán),有向或無(wú)向邊的圖上進(jìn)行random walk的過(guò)程[9]。Text Rank模型表示為一個(gè)帶權(quán)有向圖G=(V,E),由點(diǎn)集合V和邊集合E組成,E是V×V的子集,圖中兩點(diǎn)i,j之間的權(quán)重為Wji。對(duì)于一個(gè)給定的點(diǎn)Vi,In(Vi)為指向該點(diǎn)的點(diǎn)集合,Out(Vi)為點(diǎn)Vi指向的點(diǎn)集合。點(diǎn)Vi的分?jǐn)?shù)定義為:

其中,d為阻尼因數(shù),取值范圍為0到1,代表從圖中某一特定點(diǎn)指向其他任一點(diǎn)的概率。在使用Text Rank算法計(jì)算圖中點(diǎn)的分?jǐn)?shù)時(shí),需要給圖中的點(diǎn)指定任意的初值并遞歸計(jì)算知道某個(gè)詞語(yǔ)分?jǐn)?shù)收斂,收斂后每個(gè)點(diǎn)都獲得一個(gè)分?jǐn)?shù),代表該點(diǎn)在圖中的重要性。需要注意,點(diǎn)的最后分?jǐn)?shù)不受給定初值的影響,點(diǎn)的初值只影響該算法達(dá)到收斂的迭代次數(shù)。根據(jù)基于圖排序算法的基本理論,可以在具有語(yǔ)義關(guān)系的詞語(yǔ)之間連線構(gòu)建Text Rank模型。根據(jù)詞語(yǔ)之間的相互“投票”,遞歸計(jì)算詞語(yǔ)分?jǐn)?shù),選擇分?jǐn)?shù)較大的詞語(yǔ)為重要詞語(yǔ),其中不和任何詞語(yǔ)有連線的詞語(yǔ)為孤立點(diǎn)。例如,“2009年鶴崗新興煤礦爆炸事故”專題新聞文本的詞語(yǔ)序列,通過(guò)Text Rank模型計(jì)算得到詞項(xiàng)間的關(guān)聯(lián)關(guān)系(圖3所示)。

構(gòu)建Text Rank模型是根據(jù)待選關(guān)鍵詞詞語(yǔ)之間的語(yǔ)義相似關(guān)系大小來(lái)決定是否在兩個(gè)詞語(yǔ)之間建立邊。因此,Text Rank圖是帶權(quán)無(wú)向圖,邊的權(quán)重為兩個(gè)詞語(yǔ)之間的關(guān)聯(lián)度,通過(guò)詞語(yǔ)間的投票遞歸計(jì)算出權(quán)重,關(guān)鍵詞的選取按分?jǐn)?shù)序列從高到低選擇,選取范圍可以根據(jù)需要設(shè)置。

2.3 話題演化序列構(gòu)建

新聞作為一種流數(shù)據(jù),新聞話題具有明確的動(dòng)態(tài)變化性,話題隨著時(shí)間的發(fā)展而演化,反映了新聞事態(tài)階段性漸變的過(guò)程。當(dāng)用戶關(guān)注某個(gè)新聞話題時(shí),都希望能從了解新聞話題事件的緣由開始,逐步深入到事件的發(fā)展、高潮,最終到話題事件的結(jié)束,整個(gè)邏輯順序就是新聞話題完整的動(dòng)態(tài)演化[10]。本文將對(duì)基于時(shí)間模式和基于邏輯模式的話題演化序列構(gòu)建展開研究。

網(wǎng)絡(luò)新聞報(bào)道具有高時(shí)效性的特點(diǎn),在構(gòu)建基于時(shí)間模式的話題演化序列時(shí),本文采用新聞發(fā)布時(shí)間作為構(gòu)建的標(biāo)準(zhǔn)。例如,對(duì)“2009年鶴崗新興煤礦爆炸事故”的142篇新聞報(bào)道,統(tǒng)計(jì)整理出該話題隨時(shí)間漸變的完整過(guò)程,如圖4所示。從基于時(shí)間的演化軌跡不難發(fā)現(xiàn)隨著時(shí)間的推移,新聞話題發(fā)生演變,事件中心發(fā)生改變,主要體現(xiàn)在話題特征(關(guān)鍵詞)的變化。

新聞話題聚類后形成不同的類簇,但由于特定話題相關(guān)的新聞報(bào)道的主題是一致的,因此其中類簇中包含大量的“共性詞”。例如“新興煤礦瓦斯爆炸事故”專題新聞聚類后形成五個(gè)類簇,在五個(gè)類簇中的關(guān)鍵詞中,“事故、煤礦、爆炸、礦工”等詞語(yǔ)的分?jǐn)?shù)都較高,屬于該主題的共性關(guān)鍵詞。因此,在分析每個(gè)類簇的特征時(shí),選擇除去“共性詞”以外評(píng)分較高的詞語(yǔ)作為這類新聞報(bào)道特征詞。同時(shí),本文根據(jù)百度百科中相應(yīng)話題(事件)的話題目錄(如圖5所示)為標(biāo)準(zhǔn)構(gòu)建基于邏輯模式的話題演化序列。顯然,新聞話題的內(nèi)容描述是按照事件發(fā)展的邏輯順序建立的,因此,基于話題目錄構(gòu)建話題類簇能夠直接反映話題的演化過(guò)程。

3 實(shí)驗(yàn)結(jié)果與分析

為了評(píng)測(cè)本文算法的有效性,我們利用從網(wǎng)易爬取的同一個(gè)專題(“2009年鶴崗新興煤礦爆炸事故”)的新聞進(jìn)行話題演化趨勢(shì)檢測(cè)算法的實(shí)驗(yàn)分析。數(shù)據(jù)集包括同一專題下12個(gè)月(2009年11月21日至2010年12月2日)的142篇新聞文檔,評(píng)測(cè)標(biāo)準(zhǔn)是通過(guò)人工對(duì)比在線知識(shí)庫(kù)(百度百科)相應(yīng)話題的內(nèi)容描述進(jìn)行評(píng)判。

3.1 話題演化序列檢測(cè)結(jié)果

在構(gòu)建基于時(shí)間模式的話題演化序列時(shí),我們采用新聞發(fā)布時(shí)間作為構(gòu)建的標(biāo)準(zhǔn),表1給出了基于時(shí)間模式的話題“2009年鶴崗新興煤礦爆炸事故”隨時(shí)間演變的檢測(cè)結(jié)果。

隨著時(shí)間的推移,新聞話題發(fā)生演變,其特征詞也在發(fā)生變化,2009年11月21日至2009年11月24日,重大事故發(fā)生,迅速成為社會(huì)熱點(diǎn),人們對(duì)事故原因調(diào)查、搜救、傷員醫(yī)治情況比較關(guān)心,國(guó)家相關(guān)部門也很重視,該時(shí)段的新聞報(bào)道占比高達(dá)74.7%。隨著事態(tài)發(fā)展,人們的關(guān)注重心轉(zhuǎn)移到了賠償、國(guó)家相關(guān)部門的措施上,關(guān)注度有所下降。最后,相關(guān)責(zé)任人的處理,媒體的報(bào)道量較少。

不難發(fā)現(xiàn),由于聚類模式的差異導(dǎo)致兩種檢測(cè)方法得到的類簇具有明顯區(qū)別,在話題特征的選擇上存在較大出入。因此,為了進(jìn)一步評(píng)測(cè)兩種方法的性能優(yōu)劣,我們對(duì)基于時(shí)間模式的話題演化趨勢(shì)檢測(cè)方法和基于邏輯模式的話題演化趨勢(shì)檢測(cè)方法進(jìn)行了對(duì)比分析,具體討論見(jiàn)下一節(jié)。

3.2 對(duì)比實(shí)驗(yàn)分析

首先,我們根據(jù)百度百科的相關(guān)話題內(nèi)容對(duì)兩種邏輯模式的話題演化趨勢(shì)檢測(cè)方法進(jìn)行了對(duì)比實(shí)驗(yàn)分析,結(jié)果如表3所示。

觀察表3的數(shù)據(jù)可以發(fā)現(xiàn),基于邏輯模式的話題演化趨勢(shì)檢測(cè)結(jié)果具有一定的合理性,性能較基于時(shí)間模式的話題演化趨勢(shì)檢測(cè)方法有大幅提升。同時(shí),將基于邏輯模式的話題演化序列與百度百科相關(guān)話題的描述進(jìn)行對(duì)比分析,不難發(fā)現(xiàn),該序列對(duì)于整個(gè)新聞話題的“現(xiàn)場(chǎng)工作指導(dǎo)”、“搜救”、“事故原因調(diào)查”、“賠償”方面的內(nèi)容都有所覆蓋,但在“善后”的最終傷亡數(shù)據(jù)方面的話題相關(guān)性還有所欠缺。另外,由于抽取關(guān)鍵詞以后,話題由權(quán)重較高的獨(dú)立詞組集合表示,事實(shí)數(shù)據(jù)沒(méi)有具體呈現(xiàn)。因此,話題演化序列在展現(xiàn)方式上沒(méi)有對(duì)傷亡人員數(shù)字、賠償金額方面做詳細(xì)闡述。然而,本文認(rèn)為基于邏輯模式的話題演化趨勢(shì)檢測(cè)結(jié)果的重點(diǎn)是總結(jié)出新聞話題的發(fā)展階段,對(duì)專題新聞進(jìn)行整理,去除冗余報(bào)道,讓用戶了解到最直觀簡(jiǎn)潔的而又最全面的新聞報(bào)道。因此該方法在實(shí)現(xiàn)自動(dòng)化分析新聞話題演化趨勢(shì)方面具有積極意義。

參考文獻(xiàn):

[1] 趙華,趙鐵軍,于浩. 面向動(dòng)態(tài)演化的話題檢測(cè)研究[J]. 高技術(shù)通訊,2006,16(12):1230-1235.

[2] 于滿泉, 駱衛(wèi)華, 許洪波, 等. 話題識(shí)別與跟蹤中的層次化話題識(shí)別技術(shù)研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 43(3): 489-495.

[3] Blei D, Lafferty J. Dynamic Topic Models[C]//Proceedings of the International Conference on Machine Learning (ICML), Pittsburgh, PA, USA, 2006, 113-120.

[4] Li B, Li W, Li Q. Enhancing Topic Tracking with Temporal Information[C]//Proceedings of ACM SIGIR, Seattle, Washington, USA, 2006, 667-668.

[5] Wang X, McCallum A. Topic over Time: A Non-markov Continuous-time Model of Topical Trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia, PA, USA, 2006, 424-433.

[6] 洪宇,張宇,劉挺,李生. 話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 中文信息學(xué)報(bào),2007, 21(6): 71-87.

[7] Yu Bao Liu, Jia-Rong Cai, Jian Yin, Ada Wai-Chee Fu. Clustering Text Data Streams[J], JCST, 2008, 23(1): 112-128.

[8] 陳宏,陳偉. 基于突發(fā)特征分析的事件檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用研究,2011, 28(1): 117-120.

[9] Pearson, K. The Problem of the Random Walk[J]. Nature. 1905, 72:294.

[10] 趙旭劍. 中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究[D]. 中國(guó)科學(xué)技術(shù)大學(xué),2012.

猜你喜歡
新聞報(bào)道趨勢(shì)聚類
趨勢(shì)
淺析如何在新聞報(bào)道中彰顯以人為本
活力(2019年15期)2019-09-25 07:22:10
基于DBSACN聚類算法的XML文檔聚類
初秋唇妝趨勢(shì)
Coco薇(2017年9期)2017-09-07 21:23:49
SPINEXPO?2017春夏流行趨勢(shì)
基于改進(jìn)的遺傳算法的模糊聚類算法
深化“走轉(zhuǎn)改”在新聞報(bào)道中踐行群眾路線
新聞傳播(2015年21期)2015-07-18 11:14:22
如何讓新聞報(bào)道鮮活起來(lái)
新聞傳播(2015年9期)2015-07-18 11:04:11
新聞報(bào)道要求真實(shí)的細(xì)節(jié)描寫
新聞傳播(2015年13期)2015-07-18 11:00:41
趨勢(shì)
汽車科技(2015年1期)2015-02-28 12:14:44
通化市| 抚远县| 萍乡市| 沙洋县| 韶山市| 甘洛县| 汶上县| 绩溪县| 屏南县| 峨边| 遂溪县| 招远市| 文山县| 南和县| 陆丰市| 西藏| 额尔古纳市| 秦安县| 广丰县| 浪卡子县| 朝阳县| 巴东县| 察雅县| 斗六市| 边坝县| 陆良县| 宁乡县| 法库县| 土默特右旗| 石门县| 江西省| 梨树县| 栾城县| 盈江县| 茌平县| 瑞安市| 兴海县| 牡丹江市| 新宁县| 深水埗区| 宿迁市|