康建紅,龐晶源,寧寶坤,張晨俠
(1.吉林省地震局,長春 130117;2.中國地震應(yīng)急搜救中心,北京 100049)
Web2.0時(shí)代,現(xiàn)實(shí)生活中的突發(fā)事件,比如地震,一經(jīng)報(bào)道,短時(shí)間內(nèi)便會(huì)引起民眾們的關(guān)注,越來越多的民眾選擇通過網(wǎng)絡(luò)來發(fā)表自己的態(tài)度、觀點(diǎn)、意見等,形成海量的突發(fā)事件網(wǎng)絡(luò)輿情信息。及時(shí)跟蹤相關(guān)突發(fā)事件的輿情信息,對(duì)于掌控網(wǎng)絡(luò)輿情發(fā)展態(tài)勢(shì),提高政府決策的民主化與科學(xué)化、維護(hù)社會(huì)穩(wěn)定具有十分重要的作用。
網(wǎng)絡(luò)論壇(BBS)自產(chǎn)生以來就一直深受用戶的關(guān)注和喜愛。由于BBS在信息傳播速度、廣度和便捷性等方面的優(yōu)勢(shì),加上其龐大的用戶數(shù)量,BBS對(duì)突發(fā)事件的介入和參與能力越來越強(qiáng),是網(wǎng)絡(luò)輿情信息傳播的重要途徑和集聚地。
為此,本文以地震事件為例,對(duì)面向BBS 的突發(fā)事件網(wǎng)絡(luò)輿情信息跟蹤方法進(jìn)行研究。但在實(shí)驗(yàn)中我們發(fā)現(xiàn),以下2個(gè)方面的原因?qū)е赂櫹到y(tǒng)的性能不是很理想:首先,BBS信息作為一種用戶產(chǎn)生內(nèi)容(User Generated Content,UGC),其中含有較多的噪音,而且長度一般比較短,屬于一種短文本,數(shù)據(jù)稀疏嚴(yán)重,為此,本文提出構(gòu)建論壇帖子的上下文,并在上下文內(nèi)基于潛在語義分析(Latent Semantic Analysis,LSA)建立帖子模型;其次,由于話題動(dòng)態(tài)演化特性的存在,話題跟蹤系統(tǒng)的漏報(bào)率比較高,為此,本文提出建立多焦點(diǎn)的話題模型;最后,實(shí)現(xiàn)了基于多分類的信息跟蹤方法。實(shí)驗(yàn)結(jié)果表明,本文提出的方法較好地改善了突發(fā)事件信息跟蹤的性能。
突發(fā)事件信息跟蹤是基于話題檢測與跟蹤研究中的話題跟蹤方法實(shí)現(xiàn)。論壇話題跟蹤已經(jīng)引起了國內(nèi)外研究者的廣泛關(guān)注[1-2],其中的關(guān)鍵技術(shù)有帖子表示模型、話題(突發(fā)事件)表示模型以及話題方法[3]。
話題跟蹤研究中,最為廣泛使用的話題表示模型是向量空間模型,最初由Allan 等人[4]引入到話題跟蹤研究中,此后又出現(xiàn)了很多改進(jìn)方法[5];另外還有基于語言模型[6]、基于LDA[7]的話題建模方法。近期針對(duì)話題模型的研究則更多地融入話題結(jié)構(gòu)特征[8-9],從而在真正意義上進(jìn)入新聞話題形態(tài)學(xué)習(xí)的研究階段。
實(shí)現(xiàn)話題跟蹤最簡單的方法是基于傳統(tǒng)信息檢索技術(shù)的構(gòu)建查詢的方法[10-11]。該方法簡單易行,是研究者們常用的方法。另外,不少研究者采用基于文本分類算法的話題跟蹤算法,其中常用的分類算法有KNN[12]、Rocchio[13]以及SVM[14]等。
動(dòng)態(tài)演化特性是話題的重要特性,即隨著時(shí)間的流逝,話題所關(guān)注的焦點(diǎn)會(huì)發(fā)生漂移,這是影響話題檢測與跟蹤性能的重要因素之一。目前對(duì)該方面的研究開展了一些,但是收效不大。本論文從論壇文本特點(diǎn)和話題的動(dòng)態(tài)演化特性分析入手,分別提出了基于上下文和潛在語義分析的論壇帖子建模方法以及基于多焦點(diǎn)的突發(fā)事件建模方法,在此基礎(chǔ)上實(shí)現(xiàn)了多分類的突發(fā)事件信息跟蹤系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該方法取得了不錯(cuò)的效果。
在地震信息跟蹤的基本模型中,論壇帖子采用向量空間模型表示,而突發(fā)事件采用中心向量表示。其中包括2部分關(guān)鍵內(nèi)容:最初的中心向量的建立方法和話題與帖子之間的相似度計(jì)算。同時(shí),在信息跟蹤過程中引入偽反饋技術(shù)?;灸P途唧w描述如下:
1)對(duì)已知的與地震相關(guān)信息進(jìn)行預(yù)處理操作,包括分詞,去停用詞;
2)建立表示突發(fā)事件的中心向量:首先,利用公式(1)計(jì)算給定的相關(guān)信息中的每個(gè)詞k的TFIDF值wk;然后采用TOP-N 的方法抽取突發(fā)事件的特征項(xiàng),而相應(yīng)的TFIDF 值作為它們的權(quán)值,從而建立突發(fā)事件的向量表示模型
式中:Ti(1≤i≤Nt)為已知的與突發(fā)事件E相關(guān)的帖子,Nt為已知的與突發(fā)事件相關(guān)的帖子個(gè)數(shù),TR(E)為突發(fā)事件E的訓(xùn)練語料集合,tfik為詞k在帖子Ti中的詞頻,N為訓(xùn)練語料中包含帖子的個(gè)數(shù),Nk為訓(xùn)練語料中包含詞k的帖子的個(gè)數(shù)。
3)使用Cosine函數(shù)(公式(2))計(jì)算突發(fā)事件E與待跟蹤的帖子Ti之間的相似度Cosine(Ti,E),通過相似度閾值θ和相似度之間的比較做出待跟蹤的帖子是否和突發(fā)事件相關(guān)的判斷。具體來講:如果Cosine(Ti,E)>θ,那么帖子和突發(fā)事件相關(guān),否則不相關(guān)。
式中:wtik和wek分別表示特征項(xiàng)在論壇帖子Ti和突發(fā)事件E中的權(quán)值,基于TFIDF 公式計(jì)算得到。
4)當(dāng)Sim(Ti,E)>θ時(shí),判定Sim(Ti,E)是否大于更新閾值μ:如果Sim(Ti,E)>μ,基于偽反饋的思想,將Ti作為起初給定的與突發(fā)事件相關(guān)的訓(xùn)練帖子,即假設(shè)訓(xùn)練語料中突發(fā)事件有Nt個(gè)相關(guān)帖子,那么此時(shí)突發(fā)事件的相關(guān)帖子為Nt+1,利用現(xiàn)在的Nt+1個(gè)相關(guān)帖子重新統(tǒng)計(jì)突發(fā)事件的查詢向量;否則不更新突發(fā)事件的中心向量。
本文提出采用上下文和潛在語義分析相結(jié)合的方法建立帖子模型,該方法分為以下3個(gè)步驟:
1)預(yù)處理。在對(duì)帖子建模之前,首先對(duì)帖子及其回復(fù)進(jìn)行預(yù)處理操作,主要包括中文分詞、去除停用詞、去除表情符號(hào)等。
2)建立帖子上下文。傳統(tǒng)的話題跟蹤研究是面向規(guī)范的新聞長文本的,但是論壇中的帖子長短不一,通常比較短。對(duì)一個(gè)帖子的回復(fù)通常是與帖子圍繞同一個(gè)話題展開的,為此,本文提出建立帖子的上下文,即一條帖子和對(duì)該貼的回復(fù)組成了該帖子的上下文。
3)潛在語義分析。LSA 是一種常用的向量降維模型,即把高維向量空間模型表示的文檔映射到低維的潛在語義空間中。本文在建立了帖子上下文的基礎(chǔ)上,采用LSA 建立帖子的向量空間模型,過程如下:
①建立詞匯—語義空間的共現(xiàn)矩陣,即Am×n矩陣。經(jīng)過預(yù)處理,我們共得到14089個(gè)上下文,其中含有60147個(gè)不同詞匯,即m=60147,n=14089,得到A60147×14089矩陣。同時(shí)aij采用經(jīng)典的TFIDF公式來計(jì)算:
式中:tfij是第i個(gè)詞在第j條帖子中出現(xiàn)的頻度,N是帖子集合中的帖子數(shù),ni是含有第i個(gè)詞匯的帖子條數(shù)。
②對(duì)A進(jìn)行奇異值分解,本文實(shí)驗(yàn)中采用SVDLIBC工具進(jìn)行分解,它是由麻省理工大學(xué)開發(fā)的,從而得到共現(xiàn)矩陣A60147×14089的近似矩陣Ak,并同時(shí)得到詞匯向量Uk和帖子向量Vk。
動(dòng)態(tài)演化特性是話題的重要特性之一,該特性是指隨著事態(tài)的發(fā)展,話題所關(guān)注的焦點(diǎn)內(nèi)容往往會(huì)發(fā)生遷移和分化,后續(xù)的相關(guān)內(nèi)容甚至?xí)c最初的內(nèi)容大相徑庭。比如對(duì)于地震事件,最初與話題相關(guān)的帖子一般是對(duì)地震的時(shí)間、地點(diǎn)及現(xiàn)場等情況的簡短介紹,接下來便是關(guān)于救援、傷亡、成因、影響、災(zāi)后重建等內(nèi)容的帖子。
話題的動(dòng)態(tài)演化特性給話題跟蹤帶來了一定的困難。通過分析實(shí)際突發(fā)事件可以發(fā)現(xiàn),雖然話題存在著動(dòng)態(tài)演化,但在一般情況下,與某個(gè)突發(fā)事件相關(guān)的內(nèi)容大致都是圍繞幾個(gè)焦點(diǎn)展開的,而且每個(gè)焦點(diǎn)都有一些特定的核心詞匯。為此,本文提出了多焦點(diǎn)的話題建模思想。
鑒于以上的分析,我們基于多焦點(diǎn)的話題建模方法如下:
1)從網(wǎng)絡(luò)論壇中收集大規(guī)模關(guān)于地震的帖子;
2)將上述的帖子進(jìn)行聚類,目的是為了獲取地震事件里的所有焦點(diǎn),假設(shè)聚類的個(gè)數(shù)為Num,即生成焦點(diǎn)為Focusi(1≤i≤Num);
3)統(tǒng)計(jì)每個(gè)焦點(diǎn)Focusi(1≤i≤Num)里面出現(xiàn)的高頻詞;
4)為每一個(gè)焦點(diǎn)Focusi(1≤i≤Num)建立一個(gè)向量空間模型,其中,特征項(xiàng)為焦點(diǎn)里出現(xiàn)的高頻詞,而權(quán)值采用TFIDF公式進(jìn)行計(jì)算。
基于多分類信息跟蹤方法的思想是指將突然事件動(dòng)態(tài)演化過程中出現(xiàn)的多個(gè)焦點(diǎn)看成是多個(gè)類,而各個(gè)類會(huì)在跟蹤過程中動(dòng)態(tài)更新。該方法的過程如下:
1)對(duì)已知的與地震相關(guān)的信息進(jìn)行預(yù)處理操作,包括分詞,去停用詞;
2)首先按照基礎(chǔ)模型中的方法建立突發(fā)事件的向量空間模型,開始系統(tǒng)會(huì)建立一個(gè)模型,隨著跟蹤過程的進(jìn)行,會(huì)根據(jù)跟蹤的焦點(diǎn)情況建立多個(gè)模型;
3)使用公式(4)計(jì)算待跟蹤的帖子Ti與突發(fā)事件的相似度
式中:E_Fj表示當(dāng)前時(shí)刻已經(jīng)建立的突發(fā)事件的焦點(diǎn);
4)如果Sim(Ti,E)大于預(yù)設(shè)的相似度閾值θ,則此帖子與突發(fā)事件相關(guān),否則不相關(guān);
5)設(shè)定一個(gè)是否建立新焦點(diǎn)的閾值ω(ω>θ),如果Sim(Ti,E)>ω>θ,則將Ti加入到取得最高相似度的焦點(diǎn)中;如果ω>Sim(Ti,E)>θ,則新建立一個(gè)焦點(diǎn)。
由于目前尚無公認(rèn)的用于網(wǎng)絡(luò)輿情信息跟蹤的論壇語料,為了評(píng)測本文提出的算法的有效性,我們從各大論壇手動(dòng)收集了123 709條論壇帖子,其中有75 231條帖子是關(guān)于“汶川地震”的,其余的帖子都是和地震無關(guān)的。在實(shí)驗(yàn)中,將語料分為2部分,一部分作為訓(xùn)練,另一部分作為測試。訓(xùn)練語料包含86 570條論壇帖子,其中50 476條帖子是關(guān)于汶川地震的,其余的語料作為測試語料。
實(shí)驗(yàn)中采用了話題檢測與跟蹤評(píng)測會(huì)議的評(píng)價(jià)標(biāo)準(zhǔn),采用漏報(bào)率、誤報(bào)率和歸一化檢測開銷作為評(píng)價(jià)標(biāo)準(zhǔn)。如果用表1表示跟蹤結(jié)果,則系統(tǒng)的漏報(bào)率Pmiss和誤報(bào)率Pfallout及歸一化檢測開銷(CDet)Norm可以分別由公式(5)、(6)、(7)定義:
表1 評(píng)測標(biāo)準(zhǔn)含義
式中:CMiss和CFallout分別表示漏報(bào)和誤報(bào)的開銷,Ptarget是目標(biāo)話題的先驗(yàn)概率,表示關(guān)于某個(gè)話題的微博出現(xiàn)的可能性,而Pnon-target=1-Ptarget。CMiss、CFallout及Ptarget的值通常都是根據(jù)具體情況預(yù)先設(shè)定,TDT 評(píng)測中他們通常取值1.0,0.1,0.02,本文實(shí)驗(yàn)中也采用此值。顯然,漏報(bào)率、誤報(bào)率越小,歸一化檢測開銷(CDet)Norm越小,話題檢測系統(tǒng)的性能就越好。
5.2.1 突發(fā)事件信息跟蹤基本模型實(shí)驗(yàn)與結(jié)果分析
本組實(shí)驗(yàn)主要是驗(yàn)證本文采用的突發(fā)事件信息跟蹤基本模型(Baseline)的性能,首先在訓(xùn)練語料上進(jìn)行了訓(xùn)練,得到了最佳性能時(shí)的參數(shù);其次在測試語料上進(jìn)行了測試。
1)基本模型的訓(xùn)練
實(shí)驗(yàn)1:不采用偽反饋技術(shù),即表示突發(fā)事件的中心向量不會(huì)隨著跟蹤過程的進(jìn)行而動(dòng)態(tài)更新。通過在訓(xùn)練語料上進(jìn)行實(shí)驗(yàn),當(dāng)相似度閾值θ=0.19時(shí),Baseline 系統(tǒng)的性能最好,其中漏報(bào)率=0.396 8,誤 報(bào) 率=0.192 0,歸 一 化 檢 測 開 銷=1.337 6。
實(shí)驗(yàn)2:采用了偽反饋技術(shù),即當(dāng)跟蹤到一個(gè)相似度非常高的網(wǎng)絡(luò)輿情時(shí),我們將其用于更新突發(fā)事件中心向量。通過實(shí)驗(yàn),當(dāng)相似度閾值θ=0.18,更新閾值μ=0.32時(shí),Baseline系統(tǒng)的性能最好,其中,漏報(bào)率=0.367 2,誤報(bào)率=0.187 6,歸一化檢測開銷=1.286 4。
從上述2組實(shí)驗(yàn)結(jié)果看出,通過引入偽反饋技術(shù),可以隨著跟蹤過程的進(jìn)行動(dòng)態(tài)更新中心向量,從而很好地應(yīng)對(duì)話題的動(dòng)態(tài)演化特性。為此,我們后續(xù)所有的實(shí)驗(yàn)中都采用了偽反饋技術(shù),并且都將相似度閾值設(shè)置為0.18,更新閾值設(shè)置為0.32。
2)基本模型的測試
我們?cè)谙嗨贫乳撝郸龋?.18,更新閾值μ=0.32時(shí),對(duì)基本模型在測試語料上進(jìn)行了實(shí)驗(yàn),此時(shí)的實(shí)驗(yàn)結(jié)果為:漏報(bào)率=0.367 0,誤報(bào)率=0.180 9,歸一化檢測開銷=1.253 4。
5.2.2 改進(jìn)方法的實(shí)驗(yàn)與結(jié)果分析
本組實(shí)驗(yàn)主要對(duì)本文提出的方法進(jìn)行了驗(yàn)證,實(shí)驗(yàn)設(shè)置見表2。
表2 實(shí)驗(yàn)設(shè)置表
可以看出,我們共設(shè)置了6 組實(shí)驗(yàn),其中,ModiSys1至ModiSys5 是基于我們提出的不同方法的不同組合而形成的系統(tǒng)。各個(gè)系統(tǒng)的評(píng)測結(jié)果見表3。
表3 實(shí)驗(yàn)結(jié)果
可以看出,本文提出的方法對(duì)系統(tǒng)性能有著不同程度的改善,證明了本文提出方法的有效性。仔細(xì)對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),改進(jìn)的信息跟蹤系統(tǒng)的漏報(bào)率和誤報(bào)率有了不同程度的降低,這說明我們提出的改進(jìn)方法可以更好地發(fā)現(xiàn)有關(guān)突發(fā)事件的網(wǎng)絡(luò)輿情信息,漏報(bào)的概率越來越低[15]。
論壇是民眾們發(fā)表網(wǎng)絡(luò)輿情信息的重要網(wǎng)絡(luò)媒介之一,是許多單位和個(gè)人進(jìn)行輿情監(jiān)控的重要場所[16]。突發(fā)事件發(fā)生后,為了及時(shí)有效地發(fā)現(xiàn)論壇中關(guān)于該事件的網(wǎng)絡(luò)輿情信息,本文對(duì)面向論壇的突發(fā)事件信息跟蹤方法進(jìn)行了研究,從論壇帖子表示模型和突發(fā)事件表示模型2個(gè)方面展開研究。首先提出了基于上下文和潛在語義分析的帖子表示模型;其次多焦點(diǎn)的突然事件表示模型;最終實(shí)現(xiàn)了基于多焦點(diǎn)突發(fā)事件表示模型的信息跟蹤方法。結(jié)合對(duì)話題動(dòng)態(tài)演化特性的分析,該方法基于多分類思想實(shí)現(xiàn)跟蹤,即將一個(gè)突發(fā)事件演化過程中出現(xiàn)的各個(gè)焦點(diǎn)看成是一個(gè)分類,而且這些分類會(huì)在跟蹤過程中動(dòng)態(tài)變化。
實(shí)驗(yàn)結(jié)果表明,潛在語義分析可以較好地應(yīng)對(duì)論壇草根性帶來的用詞多樣性問題,而多焦點(diǎn)的話題模型可以在一定程度上彌補(bǔ)話題的動(dòng)態(tài)演化特性對(duì)跟蹤系統(tǒng)性能的影響,二者結(jié)合起來取得了不錯(cuò)的實(shí)驗(yàn)效果。
目前研究中所使用的評(píng)測語料是手工收集的,下一步工作擬研制面向主題的網(wǎng)絡(luò)爬蟲技術(shù),通過爬蟲程序自動(dòng)下載突發(fā)事件網(wǎng)絡(luò)輿情信息,在更大規(guī)模的語料上驗(yàn)證本文提出方法的有效性。
[1] 劉曉亮.基于維基百科的軍事輿情論壇話題追蹤方法[J].計(jì)算機(jī)應(yīng)用,2012,32(11):3026-3029.
[2] 席耀一,林琛,李弼程,等.基于語義相似度的論壇話題追系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2011,31(1):93-96.
[3] Kamaldeep Kaur,Vishal Gupta.A survey of Topic Tracking Techniques[J].International Journal of Advanced Research in Computer Science and Software Engineering,2012,5(2):383-392.
[4] Allan J,Papka R,Lavrenko V.On-Line new event detection and tracking[C].Proc of the SIGIR'98,1998:37-45.
[5] Paraskevas Tsantarliotis,Evaggelia Pitoura.Topic Detection Using a Critical Term Graph on News-Related Tweets[C].Proc of the EDBT/ICDT 2015Joint Conference,2015:446-453.
[6] Damiano Spina,Julio Gonzalo,Enrique Amigo.Learning Similarity Functions fro Topic Detection in Online Reputation Monitoring[C].Proc of SIGIR'14,Gold Coast,Queensland Australia,2014:150-167.
[7] Tengfei Liu,Nevin L Zhang,Peixian Chen.Hierarchical Latent Tree Analysis for Topic Detection[C].Proc of ECML PKDD 2014,Part II,LNCS 8725,2014:256-272.
[8] Wenxu Long,Jixun Gao,Zhengtao Yu,et al.Online Chinese-Vietnamese Bilingual Topic Detection Based on RCRP Algorithm with Event Elements[C].Proc of C.Zong et al.(Eds.):NLPCC 2014,CCIS 496,2014:422-429.
[9] Feng A,Allan J.Finding and linking incidents in news[J].Proc of the Conf on Information and Knowledge Management.Lisbon,2007:821-830.
[10] 王會(huì)珍,朱靖波,季鐸,等.基于反饋學(xué)習(xí)自適應(yīng)的中文話題追蹤[J].中文信息學(xué)報(bào),2006,20(3):92-98.
[11] 焦健,瞿有利.知網(wǎng)的話題更新與跟蹤算法研究[J].北京交通大學(xué)學(xué)報(bào),2009,33(5):132-136.
[12] 張輝,周敬民,王亮,等.基于三維文檔向量的自適應(yīng)話題追蹤模型[J].中文信息學(xué)報(bào),2010,24(5):70-76.
[13] Mrs Lavanya S,Kavipriya R.A Survey on Event Detection in News Streams[J].International Journal of Computer Science Trends and Technology,2014,5(2):33-35.
[14] 王強(qiáng).基于SVM 的突發(fā)事件新聞話題跟蹤方法研究[D].山西:山西大學(xué),2009.
[15] 王海鷹,歐陽春,孫剛.地震應(yīng)急期關(guān)鍵應(yīng)急處置業(yè)務(wù)的時(shí)序特征[J].華北地震科學(xué),2014,32(1):59-64.
[16] 葉佳寧,何霆.地震信息微信自動(dòng)發(fā)布系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華北地震科學(xué),2014,32(4):23-28.