趙旭劍+張立+李波+張暉+楊春明+喻瓊+王耀彬
摘要:針對(duì)特定主題的新聞話題演化模式挖掘?qū)τ谠掝}動(dòng)態(tài)演化研究具有重要的研究意義和應(yīng)用價(jià)值,能幫助人們清晰地梳理話題事件的來龍去脈,直觀地展現(xiàn)話題演化軌跡的邏輯結(jié)構(gòu)。針對(duì)該需求,本文提出一種面向特定話題的網(wǎng)絡(luò)新聞話題演化模式挖掘方法,擬從挖掘話題演化邏輯的角度出發(fā),針對(duì)特定話題(礦難事件)進(jìn)行話題演化一般規(guī)律的深入分析,對(duì)話題演變過程進(jìn)行階段化表示,建立話題演化模式。實(shí)驗(yàn)結(jié)果表明,本文構(gòu)建的特定話題演化模式具有較強(qiáng)的語義表達(dá)能力,符合話題邏輯。
關(guān)鍵詞:話題演化;演化模式挖掘;話題聚類;Text Rank
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.3969/j.issn.1003-6970.2015.06.001
本文著錄格式:趙旭劍,張立,李波,等,網(wǎng)絡(luò)新聞話題演化模式挖掘[J].軟件,2015,36(6): 1-6
Mining of the Topic Evolution Pattern of Network News
ZHAO Xu-jian, ZHANG Li, LI Bo, ZHANG Hui, YANG Chun-ming, YU Qiong, WANG Yao-bin
[Abstract] : Patterns mining for topic evolution of topic-specific news is of great significance and value in the researchon topic dynamic evolution. It can help people clearly sort out topics of the whole story and intuitively show the logicalstructure of the topic evolution track. According to the requirement, this paper proposes a pattern mining method fortopic-specific news evolution. Firstly, this method takes the in-depth analysis to the general rules of the topic evolutionfor the specific topic from the logical point ofview of the topic evolution discovery and then studies the topic evolutionstage representation to establish the topic evolution patterns. Experimental results show that the topic-specific evolutionpattern constructed in this paper has strong semantic expression ability, and accords with the topic logic.
[Key words]: Topic evolution; Evolution patterns mining; Topic cluster; Text rank
0 引言
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)資訊已進(jìn)入人們生活中的方方面面,而網(wǎng)絡(luò)新聞更以其獨(dú)特的魅力在眾多傳統(tǒng)新聞方式中脫穎而出。網(wǎng)絡(luò)新聞相比于其他新聞方式具覆蓋面廣、使用率高、傳播效率高與親和力強(qiáng)等特點(diǎn),人人可看,人人可說,使得它具有更加深遠(yuǎn)的影響力。對(duì)于新聞話題的發(fā)展,從最早話題剛剛興起時(shí)的不成熟,到現(xiàn)在對(duì)話題演變研究的不斷挖掘,新聞話題目前已經(jīng)擁有了一定的演化規(guī)律,而國內(nèi)外的研究者們希望通過各種判別分析方式[1-6]再加上大量的同類話題的數(shù)據(jù)統(tǒng)計(jì)分析,總結(jié)推導(dǎo)出一套行之有效的新聞話題演化模式,建立一套新聞話題演化的發(fā)展模型。新聞話題的演化模式挖掘?qū)τ谠掝}動(dòng)態(tài)演化研究具有重要研究意義和應(yīng)用價(jià)值,能幫助人們清晰地梳理話題事件的來龍去脈,直觀地展現(xiàn)話題演化軌跡的邏輯結(jié)構(gòu),對(duì)于政府進(jìn)行輿情監(jiān)控以及企業(yè)進(jìn)行情報(bào)挖掘都有著十分重要的作用。
中文新聞話題演化模式挖掘研究工作大多集中于國內(nèi),大致分為兩類:基于統(tǒng)計(jì)學(xué)的模式挖掘[1-3]和基于邏輯分析的模式挖掘[4]?;诮y(tǒng)計(jì)學(xué)的模式挖掘,其優(yōu)勢是與事實(shí)契合度高,所有素材源于新聞報(bào)道,得出的結(jié)論符合分析內(nèi)容,對(duì)于話題的結(jié)論可直接使用,針對(duì)各個(gè)話題得出其特點(diǎn)與熱點(diǎn),比如說2009山西古交煤礦瓦斯爆炸事故,分析之后除了單純的煤礦事故,還會(huì)突出其瓦斯爆炸的事故特點(diǎn),有著較強(qiáng)的特色分析能力。但其不足的地方是,太過于依賴新聞素材,有時(shí)如果報(bào)道太過雜亂,會(huì)影響其分析結(jié)果,容易出現(xiàn)熱點(diǎn)重復(fù)的問題?;谶壿嫹治龅哪J酵诰?,其優(yōu)勢是話題演化形式分析全面,得出結(jié)果準(zhǔn)確率高,利于分析。但缺點(diǎn)是,分析工作量大,針對(duì)比較成熟的話題分析方便,但是對(duì)于一個(gè)新的專題演化模式的挖掘有著較大難度。
本文結(jié)合了兩種新聞話題演化模式挖掘的優(yōu)點(diǎn),再引入時(shí)間模型,在統(tǒng)計(jì)的基礎(chǔ)上得出初步結(jié)論,再結(jié)合邏輯分析的方式,添加時(shí)間特征,通過多話題演化模式的對(duì)比,得出相應(yīng)話題演化模式模型,增加了分析的準(zhǔn)確率,提高了分析的效率。
1 話題演化模型
話題演化軌跡可以歸納為不同階段的話題特征所構(gòu)成的時(shí)間序列,是指一個(gè)話題產(chǎn)生后,隨著時(shí)間的發(fā)展,從開始發(fā)展到高潮再到衰落,最后直至話題消亡的過程。如圖1所示,一個(gè)完整的話題演化過程具有與事件發(fā)展的時(shí)間順序一致的演化順序,完全符合人類的邏輯思維方式。因此,針對(duì)話題演化模式挖掘問題,我們首先要解決話題演化階段表示以及話題特征提取兩個(gè)問題。
1.1 新聞話題聚類
我們采用話題聚類的方法生成話題演化軌跡中的各個(gè)階段,以類簇中的特征來表示當(dāng)前階段下話題的內(nèi)容。對(duì)文檔進(jìn)行聚類時(shí),可以根據(jù)需要將新聞話題劃分成相應(yīng)數(shù)量的類簇。話題演化聚類結(jié)束后,將目標(biāo)新聞話題相關(guān)的新聞文檔序列組織成一系列類簇,每個(gè)類簇代表一個(gè)話題演化階段,而整個(gè)新聞文檔序列則全面體現(xiàn)了目標(biāo)新聞話題的演化軌跡。K-means算法是最為經(jīng)典的基于劃分的聚類方法[7,8],K-means算法的基本思想是:以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果[9]。一般都采用均方差作為標(biāo)準(zhǔn)度量函數(shù),如公式1所示。k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開,輸出結(jié)果是k個(gè)類簇的集合。
它假設(shè)對(duì)象屬性來白于空間向量,并且目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小。假設(shè)有k個(gè)群組Si,i=1,2,…,k。μt是群組Si內(nèi)所有元素Xt的重心,或叫中心點(diǎn)。
假設(shè)要把樣本集分為S個(gè)類別,算法描述如下:
(1)適當(dāng)選擇S個(gè)類的初始中心;
(2)在第七次迭代中,對(duì)任意一個(gè)樣本,求其到S個(gè)中心的距離,將該樣本歸到距離最短的中心所在的類;
(3)利用均值等方法更新該類的中心值;
(4)對(duì)于所有的S個(gè)聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。
該算法的最大優(yōu)勢在于簡潔快速,算法的關(guān)鍵在于初始中心的選擇和距離公式,滿足本文的文本處理要求。
1.2 話題特征提取
多篇新聞報(bào)道聚類后,類簇的核心思想(話題)是由文中的詞項(xiàng)來體現(xiàn)。通過詞語間的語義關(guān)系分析,找出最能代表該類簇核心內(nèi)容的特征詞項(xiàng)。為了彌補(bǔ)傳統(tǒng)方法(TF-IDF模型)只計(jì)算文中詞語詞頻而沒有考慮詞項(xiàng)之間語義關(guān)系的不足,本文通過構(gòu)建詞項(xiàng)間的Text Rank模型[10],分析多文檔間詞項(xiàng)的語義關(guān)系,抽取出有效關(guān)鍵詞。
Text Rank與Google提出的Page Rank非常類似,它本質(zhì)是在以詞匯作為頂點(diǎn)、詞之間關(guān)聯(lián)作為帶權(quán)或無權(quán),有向或無向邊的圖上進(jìn)行random walk的過程[11]。Text Rank模型表示為一個(gè)帶權(quán)有向圖G=(V,E),由點(diǎn)集合V和邊集合E組成,E是VxV的子集,圖中兩點(diǎn)i,j之間的權(quán)重為Wiio。對(duì)于一個(gè)給定的點(diǎn)Vi,In( Vi)為指向該點(diǎn)的點(diǎn)集合,Out( Vi)為點(diǎn)Vi指向的點(diǎn)集合。點(diǎn)Vi的分?jǐn)?shù)定義為:
其中,d為阻尼因數(shù),取值范圍為0到1,代表從圖中某一特定點(diǎn)指向其他任一點(diǎn)的概率。在使用TextRank算法計(jì)算圖中點(diǎn)的分?jǐn)?shù)時(shí),需要給圖中的點(diǎn)指定任意的初值并遞歸計(jì)算知道某個(gè)詞語分?jǐn)?shù)收斂,收斂后每個(gè)點(diǎn)都獲得一個(gè)分?jǐn)?shù),代表該點(diǎn)在圖中的重要性。需要注意,點(diǎn)的最后分?jǐn)?shù)不受給定初值的影響,點(diǎn)的初值只影響該算法達(dá)到收斂的迭代次數(shù)。根據(jù)基于圖排序算法的基本理論,可以在具有語義關(guān)系的詞語之間連線構(gòu)建Text Rank模型。根據(jù)詞語之間的相互“投票”,遞歸計(jì)算詞語分?jǐn)?shù),選擇分?jǐn)?shù)較大的詞語為重要詞語,其中不和任何詞語有連線的詞語為孤立點(diǎn)。例如,“國家養(yǎng)老保險(xiǎn)調(diào)整”專題新聞文本的詞語序列(如下所示),通過Text Rank模型計(jì)算得到詞項(xiàng)間的關(guān)聯(lián)關(guān)系(圖2所示)。
保險(xiǎn)養(yǎng)老人員單位制度企業(yè)事業(yè)基金社會(huì)保障社保工作參保職工改革退休個(gè)人養(yǎng)老金試點(diǎn)管理農(nóng)民待遇勞動(dòng)建立農(nóng)村發(fā)放規(guī)定機(jī)關(guān)參加上海推進(jìn)問題統(tǒng)籌繳納確保完善實(shí)行續(xù)保國務(wù)院
構(gòu)建Text Rank模型是根據(jù)待選關(guān)鍵詞詞語之間的語義相似關(guān)系大小來決定是否在兩個(gè)詞語之間建立邊。因此,Text Rank圖是帶權(quán)無向圖,邊的權(quán)重為兩個(gè)詞語之間的關(guān)聯(lián)度,通過詞語間的投票遞歸計(jì)算出權(quán)重,關(guān)鍵詞的選取按分?jǐn)?shù)序列從高到低選擇,選取范圍可以根據(jù)需要設(shè)置。
2話題演化模式構(gòu)建
構(gòu)建話題演化模式,我們需要分為兩步來進(jìn)行,第一步,構(gòu)建同類主題不同話題各白的演化模式;第二步,對(duì)各個(gè)話題演化模式進(jìn)行分析與總結(jié),構(gòu)建統(tǒng)一主題的演化模式。首先,我們對(duì)剔除噪聲后的關(guān)鍵詞提取結(jié)果進(jìn)行分析,看其中是否存在具有代表意義的詞語,例如話題“2009黑龍江鶴崗煤礦爆炸”的聚類結(jié)果中存在“醫(yī)院…‘治療…‘心理…‘巷道…‘弟弟”這幾個(gè)非常獨(dú)特的詞語,這幾個(gè)詞語在其他聚類結(jié)果的關(guān)鍵詞提取中不曾出現(xiàn)過,而且在該類簇中的Text Rank值很大,因此,本文定義其為核心詞,用以表達(dá)該類簇的核心內(nèi)容。同時(shí),我們結(jié)合前期完成的話題時(shí)間抽取工作[12],根據(jù)文檔的話題時(shí)間對(duì)聚類結(jié)果進(jìn)行二次整合,構(gòu)建針對(duì)單一話題事件的演化模式序列。表1給出了話題“2009黑龍江鶴崗煤礦爆炸”的演化模式生成結(jié)果。
將同一主題下不同話題(礦難)的各個(gè)專題新聞進(jìn)行演化模式序列的一致性對(duì)比分析,在每個(gè)演化階段提取具有相同或相似語義信息的關(guān)鍵詞作為該階段的“共性詞”,然后將這些詞組成的集合映射到該話題(礦難)相應(yīng)的演化階段,作為該階段的話題特征,依次處理各個(gè)演化階段,進(jìn)而構(gòu)建統(tǒng)一主題的演化模式序列。整個(gè)處理流程如圖3所示。
3 實(shí)驗(yàn)結(jié)果及分析
3.1實(shí)驗(yàn)環(huán)境
本文采用利于分析的典型話題作為實(shí)驗(yàn)的原始數(shù)據(jù),數(shù)據(jù)來源于新浪新聞的專題新聞,我們選擇礦難專題作為測試話題。數(shù)據(jù)集包括21個(gè)專題、2175篇新聞報(bào)道,由于考慮到有些專題報(bào)道時(shí)間過長、鏈接失效或是報(bào)道相關(guān)度較低,本文對(duì)數(shù)據(jù)進(jìn)行篩選后選用了其中六個(gè)篇幅量適中、報(bào)道全面的話題(“2009黑龍江鶴崗煤礦爆炸”181篇、“2009山西古交發(fā)生煤礦瓦斯爆炸事故”87篇、“2010河南平煤集團(tuán)平禹四礦礦難”58篇、“2010河南伊川煤礦爆炸”46篇、“2011黑龍江煤礦透水事故”66篇、“2011云南曲靖師宗縣煤礦事故”97篇),其他話題的文檔作為參考與分析,不參與模型構(gòu)建。
3.2 實(shí)驗(yàn)結(jié)果
根據(jù)本文的方法,針對(duì)六個(gè)不同話題事件的礦難專題新聞,我們得到六個(gè)話題演化模式挖掘結(jié)果,圖4、圖5分別給出了話題“2009山西古交發(fā)生煤礦瓦斯爆炸事故”和話題“2010河南伊川煤礦爆炸”的演化模式序列。
生成了話題演化模式序列后,可以看出并不是每一個(gè)話題演化模式的都是一樣的,每個(gè)礦難話題都有自己的演化特點(diǎn),但是大致都可以分為事件發(fā)生、救援工作展開、家屬反映、遇難人數(shù)與救援結(jié)果以及責(zé)任追究這五個(gè)方面,同時(shí)結(jié)合話題時(shí)間特征與話題邏輯順序的分析和理解,我們得到針對(duì)礦難話題的基本演化模式:同時(shí),我們以基本演化模式為標(biāo)準(zhǔn),對(duì)六個(gè)礦難話題事件的新聞話題演化軌跡進(jìn)行了實(shí)驗(yàn)評(píng)測,采用聚類算法的準(zhǔn)確率來評(píng)測基本演化模式的性能,如表2所示。從實(shí)驗(yàn)數(shù)據(jù)不難發(fā)現(xiàn)本文算法得到的基本演化模式具有較好的聚類準(zhǔn)確率,對(duì)于特定話題的演化軌跡具有較好的語義表達(dá)能力,符合話題發(fā)展的邏輯順序。
4結(jié)論
本文針對(duì)網(wǎng)絡(luò)新聞話題演化研究的實(shí)際需求,提出一種面向特定話題的話題演化模式挖掘方法,從挖掘話題演化邏輯的角度出發(fā),針對(duì)特定話題(礦難事件)進(jìn)行話題演化一般規(guī)律的深入分析,對(duì)話題演變過程進(jìn)行階段化表示,建立統(tǒng)一的話題演化模式。實(shí)驗(yàn)結(jié)果表明,本文構(gòu)建的特定話題演化模式具有較強(qiáng)的語義表達(dá)能力,符合話題邏輯。
參考文獻(xiàn)
[1] 趙華,趙鐵軍,于浩.面向動(dòng)態(tài)演化的話題檢測研究[J].高技術(shù)通訊,2006, 16(12): 1230-1235.
[2] Blei D,Lafferty J. Dynamic Topic Models[C]//Proceedings of the International Conference on Machine Learning (ICML), Pittsburgh, PA, USA, 2006, 113-120.
[3] Wang X, McCallum A.Topic over Time:A Non-markov Continuous-time Model of Topical Trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia, PA, USA, 2006, 424-433.
[4] 趙旭劍,楊春明,李波,等.一種基于特征演變的新聞話題演化挖掘方法[J].計(jì)算機(jī)學(xué)報(bào),2014, 04: 819-832.
[5] 鄭世卓,崔曉燕.基于半監(jiān)督LDA的文本分類應(yīng)用研究[J].軟件,2014, 35(1): 46-48.
[6] 曾利,李白力,譚躍進(jìn).基于動(dòng)態(tài)LDA的科研文獻(xiàn)主題演化分析[J].軟件,2014, 35(5): 102-109.
[7] 陳磊磊.不同距離測度的K-Means文本聚類研究[J].軟件,2015, 36(1): 56-61.
[8] 徐步云,倪禾.白組織神經(jīng)網(wǎng)絡(luò)和K-means聚類算法的比較分析[J].新型工業(yè)化,2014, 4(7): 63-69.
[9] Yu Bao Liu, Jia-Rong Cai, Jian Yin, Ada Wai-Chee Fu. Clustering Text Data Streams[J]. JCST, 2008, 23(1): 112-128.
[10]陳宏,陳偉.基于突發(fā)特征分析的事件檢測[J].計(jì)算機(jī)應(yīng)用研究,2011, 28(1): 117-120.
[11] Pearson,K.The Problem of the Random Walk[J]. Nature. 1905, 72: 294.
[12]趙旭劍,金培權(quán),岳麗華.TTP: -個(gè)面向中文新聞網(wǎng)頁的主題時(shí)間解析器[J].小型微型計(jì)算機(jī)系統(tǒng),2013, 34(5): 1042-1049.