胡福玲 吳國文 趙臣升
摘 要:針對話題跟蹤的任務(wù)是從時序新聞報(bào)道流中實(shí)時識別和挖掘相關(guān)于特定新聞話題的報(bào)道,本文提出一種事件-時間關(guān)聯(lián)模型(Event-Time Relation Model,ETRM)用來展開話題跟蹤研究。ETRM將相關(guān)報(bào)道的時間屬性引入向量空間模型,話題跟蹤過程中將話題與相關(guān)報(bào)道相同特征項(xiàng)的時間相關(guān)度應(yīng)用于相關(guān)性判定機(jī)制,同時基于時間的分布屬性調(diào)整特征向量的權(quán)重分配,實(shí)現(xiàn)話題模型的自適應(yīng)學(xué)習(xí)更新。實(shí)驗(yàn)采用DET曲線評測系統(tǒng)性能,結(jié)果顯示相比于傳統(tǒng)的話題模型,ETRM能夠更加準(zhǔn)確的追蹤到話題焦點(diǎn)演化趨勢,有效提高了話題跟蹤系統(tǒng)的性能。
關(guān)鍵字:話題跟蹤;事件-時間關(guān)聯(lián)模型;時間相關(guān)度;DET曲線
中圖分類號: TP391.1 文獻(xiàn)標(biāo)識碼: A 文章編號:2095-2163(2016)01-
Abstract:This paper proposes an Event-Time relation model (abbr.ETRM) to study topic tracking for its task that is to identify and mining subsequent on-topic stories in the temporal story stream. The ETRM introduces the time property of the story to the vector space model, apply time correlations of same feature to the correlation decision mechanism in topic tracking process, adjusting feature vector weight allocation based on time property to implement subject model of adaptive learning at the same time. Experiment adopts DET curve performance evaluation system, the results show that ETRM can more accurately track the topic focus of evolution trend compared with the traditional model of subject, effectively improve the performance of topic tracking system.
Keywords: topic track; event-time relation model; time correlation; DET curve
0 引 言
話題檢測與跟蹤[1] (Topic Detection and Tracking, TDT) 作為信息處理領(lǐng)域重要的研究分支正逐步成為國內(nèi)新穎的研究熱點(diǎn)之一,話題跟蹤 (Topic Tracking, TT) 是其中的一個子任務(wù)。話題定義為由一個種子事件以及后續(xù)相關(guān)事件或活動組成[2],而事件定義為在特定時間特定地點(diǎn)發(fā)生的事情[3],可見時間是輔助話題模型區(qū)分不同的新聞事件的重要屬性。一般來說,話題的種子事件發(fā)生的時間總是最早,并長期駐留于相關(guān)話題的報(bào)道流中,而話題的新穎事件往往發(fā)生的時間較晚,并且論述新穎事件的報(bào)道會在短時間內(nèi)爆發(fā)式地出現(xiàn)。所以時間也是反映話題發(fā)展趨勢的主要脈絡(luò)[4]。
針對上述新聞事件報(bào)道的時間特性,本文提出一種事件-時間關(guān)聯(lián)模型(ETRM),即在傳統(tǒng)的向量空間模型 (Vector Space Model, VSM) 的基礎(chǔ)上引入相關(guān)事件報(bào)道的時間屬性對話題進(jìn)行描述,并基于ETRM對話題跟蹤過程中的相關(guān)算法提出以下改進(jìn):
(1)將相同特征項(xiàng)之間的時間相關(guān)度應(yīng)用于報(bào)道與話題的相關(guān)性判定中,借以提高判定精度;
(2)在對話題模型中相關(guān)報(bào)道的特征項(xiàng)進(jìn)行自學(xué)習(xí)更新時,基于其時間分布屬性進(jìn)行相應(yīng)權(quán)重調(diào)整,借以及時準(zhǔn)確地追蹤到話題的焦點(diǎn)。實(shí)驗(yàn)采用檢測錯誤權(quán)衡 (Detection Error Tradeoff, DET) 曲線[5]分別對基于VSM和基于ETRM兩種跟蹤系統(tǒng)性能進(jìn)行評測,結(jié)果顯示后者有效提高了話題跟蹤演化趨勢的性能。
1 相關(guān)工作
1.1 傳統(tǒng)的文本表示模型
對新聞信息進(jìn)行文本預(yù)處理時,需要將其轉(zhuǎn)化為計(jì)算機(jī)可以識別的形式[6]。傳統(tǒng)的話題跟蹤系統(tǒng)中,通常應(yīng)用向量空間模型 (Vector Space Model, VSM)[7] 來對話題和報(bào)道進(jìn)行描述。VSM將文本表示成一個空間向量,向量的每一維代表該文本的一個特征,并且每一維的取值(即權(quán)重),對應(yīng)于該特征對相應(yīng)文本的重要性。形如公式(1):
(1)
其中, 為特征詞, 為 對應(yīng)的權(quán)重, , 為特征向量的維數(shù)。該模型要求各個特征項(xiàng)互異且無先后順序關(guān)系[8],后續(xù)可以通過計(jì)算特征向量之間的相似性來度量文本間的相似性。
VSM把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,以空間上的相似度表達(dá)語義上的相似度。該模型直觀易懂,計(jì)算高效且操作靈活,目前廣泛應(yīng)用于文本過濾和關(guān)鍵字檢索等信息處理領(lǐng)域。
1.2 文本特征選擇及其權(quán)重計(jì)算
將新聞報(bào)道用空間向量模型表示后,特征向量可能成百上千甚至更多,需要從中選出最具有代表性的特征項(xiàng)來進(jìn)行后續(xù)研究。
TF-IDF加權(quán)策略[9]是一種常用的特征權(quán)重計(jì)算方法,其特點(diǎn)是特征項(xiàng)的重要性隨著自身在文檔中出現(xiàn)的頻數(shù)成正比增加,卻也會隨著自身在相關(guān)文檔集中出現(xiàn)的頻率成反比下降。新聞話題是動態(tài)地不斷向前發(fā)展的,在不同時段報(bào)道事件的內(nèi)容可能不同,比如當(dāng)突發(fā)的新穎事件報(bào)道大量出現(xiàn)時,一些高頻出現(xiàn)的特征詞能更好的代表目前階段話題的核心,此時反文檔頻率IDF將會降低高頻詞匯的影響力。所以在本文的特征權(quán)重計(jì)算中只考慮TF因子。具體地,在一篇新聞報(bào)道中,位于標(biāo)題、首段、末尾的特征詞一般更能表述此篇文檔的主要內(nèi)容,因此通過修正因子 對相關(guān)位置上的特征詞賦予較高的權(quán)重,具體的權(quán)重計(jì)算如公式(2)所示。
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
為了更好地體現(xiàn)實(shí)驗(yàn)語料的權(quán)威性和實(shí)時性,本文實(shí)驗(yàn)用語料采用搜狗實(shí)驗(yàn)室提供的采集自全網(wǎng)2012年6月~2012年7月期間多個頻道的新聞數(shù)據(jù)。該數(shù)據(jù)集共含有16080篇文檔,涉及16個話題,為了便于話題檢測與跟蹤結(jié)果測評,選擇前面的3054篇作為訓(xùn)練集,后面13026篇作為測試集。
4.2實(shí)驗(yàn)設(shè)計(jì)
本文分別基于傳統(tǒng)的向量空間模型和ETRM新模型,設(shè)計(jì)了兩個話題跟蹤系統(tǒng),通過漏檢率和誤檢率以及歸一化開銷來衡量話題與跟蹤系統(tǒng)的性能。
4.2.1 設(shè)計(jì)實(shí)現(xiàn)一
系統(tǒng)采用傳統(tǒng)的向量空間模型(VSM)對新聞話題和報(bào)道進(jìn)行文本表示。首先,對新聞?wù)Z料進(jìn)行文本預(yù)處理、分詞等操作,并通過公式(2)計(jì)算各特征詞權(quán)重;然后,選取訓(xùn)練集中 篇相關(guān)報(bào)道中的特征詞及其相應(yīng)權(quán)重來構(gòu)成初始話題模型;接著采用傳統(tǒng)余弦公式(13)衡量新聞話題與報(bào)道之間相關(guān)度,如果相關(guān)度高于預(yù)設(shè)的閾值,則判定待測報(bào)道是相關(guān)于話題的,并實(shí)時更新話題模型的特征向量,否則判定為不相關(guān);最后重復(fù)上一步驟來處理下一篇報(bào)道,直到所有新聞報(bào)道處理完為止。
4.2.2 設(shè)計(jì)實(shí)現(xiàn)二
系統(tǒng)對每個新聞話題和報(bào)道采用事件-時間模型(VSM)構(gòu)建話題模型。同4.2.1一樣首先對新聞?wù)Z料進(jìn)行文本預(yù)處理和分詞等操作,用公式(2)計(jì)算各特征詞權(quán)重,并提取每個特征詞的時間信息;然后,采用 篇最早的相關(guān)報(bào)道作為訓(xùn)練語料,從中抽取特征詞、特征詞的相應(yīng)權(quán)重和時間對來構(gòu)成初始的話題模型,如式(8)和式(9);接著按照公式(13) 計(jì)算話題與后續(xù)報(bào)道的相似度,若相似度大于設(shè)定的閾值,則把相關(guān)報(bào)道加入到相關(guān)文檔集中,并且把報(bào)道中新的特征詞更新到話題模型,更新過程如3.2節(jié)所述;最后重復(fù)上一步驟來處理下一篇報(bào)道,直到所有新聞報(bào)道處理完為止。
4.3實(shí)驗(yàn)結(jié)果及分析
本實(shí)驗(yàn)通過漏檢率( )、誤檢率( )和歸一化開銷 來衡量話題與跟蹤系統(tǒng)的性能。雖然本文沒有使用 TDT 會議提供的標(biāo)準(zhǔn)語料,但是通過自己從搜狗實(shí)驗(yàn)室獲取的語料,同樣可以使用這些指標(biāo)來評測話題檢測與跟蹤系統(tǒng)算法的性能,驗(yàn)證本文提出的方法的有效性。
實(shí)驗(yàn)在0.12~0.5的范圍內(nèi)隨機(jī)設(shè)置相似度閾值,觀察不同閾值情況下基于兩個不同模型的話題跟蹤系統(tǒng)的漏檢率和誤檢率以及歸一損耗代價,如表1所示。
表1 不同閾值下兩種模型的實(shí)驗(yàn)結(jié)果
Tab.1 Results of the two models under different thresholds
根據(jù)表1中不同閾值下的跟蹤結(jié)果繪制DET曲線,如圖1所示。DET曲線的橫坐標(biāo)表示誤檢率,縱坐標(biāo)表示漏檢率,曲線上的點(diǎn)代表相似度閾值不同時的漏檢率和誤檢率。曲線越接近原點(diǎn),系統(tǒng)性能越好。由此得出,基于ETRM構(gòu)建話題模型的跟蹤系統(tǒng)的誤檢率和漏檢率都有所降低,其性能效果明顯更好。
由圖2可以看出,隨著相似度閾值的增大,基于兩種不同模型的跟蹤系統(tǒng)的歸一化損耗都是先減小后增大。究其原因,一方面是因?yàn)殚撝递^小時,容易引入誤檢的新聞報(bào)道,導(dǎo)致誤檢率PFA較高,使得 損耗也較高;另一方面是因?yàn)殚撝递^高時,漏檢的新聞報(bào)道會逐漸增多,相應(yīng)的漏檢率也會升高,導(dǎo)致 損耗也隨之增大。結(jié)合表1可以得知,當(dāng)閾值為0.2時,兩種算法的 值達(dá)到最低,當(dāng)閾值范圍在0.16~0.26之間時,系統(tǒng)的錯誤代價較低,則其性能將達(dá)到最優(yōu)。具體地,當(dāng)閾值 =0.2時,兩種模型算法的實(shí)驗(yàn)結(jié)果對比如圖3所示。
由圖3結(jié)合表1可以得出,在基于VSM的話題跟蹤系統(tǒng)中,最小的 值為0.13148,而在基于ETRM的話題跟蹤系統(tǒng)中,最小的 值為0.0956,相比之下,后者大大降低了歸一化錯誤代價,使得跟蹤系統(tǒng)性能有了顯著的提高。
5 結(jié)束語
本文提出一種事件-時間關(guān)聯(lián)模型用于跟蹤新聞話題演化過程。在傳統(tǒng)向量空間模型中引入時間屬性,基于相同特征項(xiàng)之間的時間相關(guān)度改進(jìn)話題與報(bào)道相關(guān)性判定機(jī)制,并應(yīng)用于話題模型特征詞的更新過程中的權(quán)重調(diào)整。實(shí)驗(yàn)采用傳統(tǒng)的基于VSM的話題模型與本文提出的新模型ETRM進(jìn)行跟蹤性能的對比,結(jié)果表明,后者在漏檢率、誤檢率以及最小歸一化損耗代價上均有所降低,使得跟蹤系統(tǒng)的性能有了顯著的提高。但本文仍有不足之處,如特征項(xiàng)的時間屬性統(tǒng)一采用的是報(bào)道發(fā)布的時間,在某些情況下,報(bào)道事件不一定與事件發(fā)生時間一致。在今后的工作中還需要進(jìn)一步改進(jìn)。
參考文獻(xiàn):
[1] 駱衛(wèi)華, 劉群, 程學(xué)旗. 話題檢測與跟蹤技術(shù)的發(fā)展與研究[A]. 孫茂松,陳群秀. 語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C]. 北京:清華大學(xué)出版社,2003:560-566.
[2]ALLAN J. Topic detection and tracking: Event-based Information Organization[M]. NewYork: Kluwer Academic Publishers,2002.
[3] YANG Y, CARBONELL JG , BROWN RD. Learning Approaches for Detecting and Tracking News Events[J]. 1999, 14(04):32-43.
[4] 倉玉, 洪宇, 姚建民, 朱巧明. 基于時序話題模型的新事件檢測[J]. 智能計(jì)算機(jī)與應(yīng)用, 2011,1(3):74-78.
[5]MARTIN A,DODDINGTON G,KAMMETAL T.TheDETCurveinassessmentofdetectiontaskperformance[C] //Proceedingsof the Fifth European Conference on Speech Comunication and Technology, EUROSPEECH 1997. Rhodes, Greece:ACM,1997:1895-1898.
[6] LAVRENKO V, ALLAN J, DEGUZMAN E, et al. Relevance Models for Topic Detection and Tracking[C] //Proceedings of HLT2002 on Human Language Technology Research. San Francisco:ACM, 2002:115-121.
[7] 宋丹, 衛(wèi)東, 陳英. 基于改進(jìn)向量空間模型的話題識別跟蹤[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2006, 9(16):62-67.
[8] 宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2008:342-343.
[9]ALLAN J, LAVRENKO V, FREY D,et al. UMass at TDT 2000[C] // Proceedings of Topic Detection and Tracking Workshop. USA: National Institute of Standard and Technology, 2000:109-115.
[10] ALLAN J, CARBONELL J , DODDINGTON G, et al. Topic detection and tracking pilot study: Final report[C] //Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: DARPA, 1998: 194-218.
[11] 洪宇, 張宇,劉挺,等. 話題檢測與跟蹤的評測及研究綜述[J] .中文信息學(xué)報(bào), 2007, 21(6):71-87.
[12] MAKKONEN J, AHONEN-MYKA H, SALMENKIVI M. Simple semantics in topic detection and tracking[J] . Information Retrieval, 2004, 7(3-4):347-368.