国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于事件圖的在線事件檢索

2017-10-11 07:31楊文靜邱泳欽李思旭
中文信息學(xué)報(bào) 2017年4期
關(guān)鍵詞:文檔檢索模型

楊文靜,邱泳欽,李思旭,李 銳,王 斌

(1. 中國(guó)科學(xué)院 信息工程研究所,北京 100093;2. 中國(guó)科學(xué)院大學(xué),北京 100093)

基于事件圖的在線事件檢索

楊文靜1,2,邱泳欽1,2,李思旭1,2,李 銳1,王 斌1

(1. 中國(guó)科學(xué)院 信息工程研究所,北京 100093;2. 中國(guó)科學(xué)院大學(xué),北京 100093)

在線事件檢索是針對(duì)事件查詢,按時(shí)間序迭代返回小批量數(shù)據(jù)集中事件相關(guān)文檔的檢索任務(wù)。其目標(biāo)是在時(shí)間軸上不斷收集新鮮的事件文檔,是進(jìn)行一系列事件相關(guān)工作的重要基礎(chǔ)。面對(duì)此任務(wù),傳統(tǒng)方法采用先進(jìn)的檢索模型來提升檢索精度,然而卻沒有考慮事件本身的特性。針對(duì)這一問題,該文嘗試使用兩類圖(事件關(guān)鍵詞共現(xiàn)圖、融合事件類型的二部圖)對(duì)事件建模,提出了一種基于事件圖的在線檢索框架。案例分析與在兩個(gè)公開的TREC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該文方法顯著提升了事件檢索精度(P@10最高增幅達(dá)30%,平均增幅5.85%),且能自適應(yīng)在線檢索環(huán)境,支持事件的演變分析。

事件圖;在線事件檢索;事件查詢模型;事件演變

Abstract: Online Event Retrieval is a retrieval task for event queries, which returns important event-related documents from mini-batch data sets iteratively in chronological order. This paper propose san online event retrieval framework based on two kinds of graphs: event key-words co-occurrence graph and bipartite graph incorporated with event type. Case study and experiments on two pubic TREC corpus indicate that our approach improves the event retrieval precision significantly (maximum increase reaches 30%, average reaches 5.85% in metric P@10).

Key words: event graph; online event-based retrieval; event query model; event development

1 引言

事件是指在特定時(shí)間、特定地點(diǎn)發(fā)生的事情[1]。如今,現(xiàn)實(shí)生活中一旦發(fā)生重大公共事件(如地震、暴亂、恐怖襲擊等),人們立即被源源不斷的來自新聞媒體的相關(guān)報(bào)道、各大社交平臺(tái)的有關(guān)評(píng)論所湮沒。事件檢索[2]是面向事件查詢(常以事件名稱為查詢,如“汶川大地震”)的檢索任務(wù)。事件在時(shí)間軸上不 停 演 變,事 件 查 詢 的 信

息需求是動(dòng)態(tài)的,使得相同事件在不同時(shí)刻的相關(guān)文檔集合及集合內(nèi)部排序并非一成不變。在線事件檢索(online event-based retrieval,OER)便是針對(duì)特定事件,按時(shí)間序迭代地在每個(gè)時(shí)間單元的小批量數(shù)據(jù)集中進(jìn)行事件檢索,得到每個(gè)時(shí)間間隔的重要相關(guān)信息。

OER與信息檢索(information retrieval,IR)、信息過濾(information filtering,IF)及事件追蹤(event tracking,ET)對(duì)應(yīng)的問題都非常相似,但在數(shù)據(jù)的到來方式、輸入與輸出等方面都存在一定的差異,研究重點(diǎn)及應(yīng)用場(chǎng)景也不盡相同,如表1所示。OER與ET皆以演變的事件為研究對(duì)象,因此在事件表示、自適應(yīng)事件模型等方面存在共通技術(shù)。OER側(cè)重研究自適應(yīng)的事件模型如何作用于檢索的各個(gè)階段(索引構(gòu)建,查詢重構(gòu),相關(guān)反饋,相似性度量,結(jié)果重排等)以提升演變事件的檢索精度。ET側(cè)重自適應(yīng)過濾。從應(yīng)用場(chǎng)景來說,OER提供演變事件的最新檢索結(jié)果,可用于新聞事件的實(shí)時(shí)搜索,也可為后續(xù)事件分析(事件摘要、事件演變分析)提供當(dāng)前最相關(guān)的文檔輸入。而ET從數(shù)據(jù)流中過濾得到所有事件相關(guān)文檔,進(jìn)行事件模型的維護(hù)與分析。

表1 OER與相似任務(wù)的對(duì)比

針對(duì)上述任務(wù),傳統(tǒng)方案是采用state-of-the-art的檢索模型,但在事件檢索、在線自適應(yīng)方面存在缺陷。本文在分析傳統(tǒng)檢索方法缺陷的基礎(chǔ)上,提出了一種基于事件圖的在線事件檢索框架。其核心思想是使用圖的方式對(duì)事件進(jìn)行建模,通過在圖中累積歷史檢索結(jié)果中事件相關(guān)知識(shí)作為反饋,當(dāng)新批量數(shù)據(jù)到來時(shí),將事件的先驗(yàn)信息融入到檢索過程。經(jīng)實(shí)驗(yàn)證實(shí),本方法具有如下優(yōu)點(diǎn): (1)提升事件檢索精度; (2)自適應(yīng)在線環(huán)境; (3)事件圖可支持事件的演變分析。

如圖1所示,框架共包含三個(gè)重要步驟: (1)估計(jì)事件查詢模型; (2)檢索事件相關(guān)文檔; (3)更新事件圖。本文組織形式如下,第二節(jié)介紹相關(guān)工作;第三節(jié)介紹事件查詢模型的估計(jì)及檢索過程,即步驟(1)、(2);第四節(jié)介紹事件圖的更新并對(duì)框架進(jìn)行總結(jié);第五節(jié)案例分析;第六節(jié)介紹實(shí)驗(yàn)設(shè)置、評(píng)價(jià),并進(jìn)行實(shí)驗(yàn)結(jié)果分析;第七節(jié)結(jié)論。

圖1 基于事件圖的在線事件檢索框架

2 相關(guān)工作

在已有的少量事件檢索研究中,有借助于NLP工具對(duì)事件進(jìn)行語義角色標(biāo)注[2],也有將查詢與文檔用圖表達(dá),使用graph kernel計(jì)算二者相似性[3]。但上述方法都較復(fù)雜,可行性差。在大多數(shù)事件檢索場(chǎng)景下,最為常用的方式依然是使用通用檢索模型結(jié)合偽相關(guān)反饋的方式。

清晰地表達(dá)信息需求(information need)是精準(zhǔn)檢索的重要前提。查詢模型最早在研究[4]中提出,其目標(biāo)是在基于語言模型的檢索方法中更好地將用戶查詢上下文、反饋信息等融入到查詢中。已有的查詢模型估計(jì)方法,如Relevance Model[5-6]、Divergence Minimization Model[7]、Mixture Model[5]、Marchov Chain[4]等以不同的原理都試圖從偽相關(guān)反饋文檔集合中抽取出與查詢相關(guān)的重要詞匯,對(duì)原始查詢模型進(jìn)行重新估計(jì)。但上述方法在事件檢索中表現(xiàn)不佳,主要原因在于查詢中缺乏事件信息,使得首次檢索過程生成的偽相關(guān)反饋文檔集合存在大量非事件相關(guān)的噪聲,使得用于重新估計(jì)查詢模型的信息不夠可靠。

針對(duì)此問題,我們通過對(duì)事件建模,并將事件模型融入到查詢中來進(jìn)行探索研究。在(EDT)(event detection and tracking)的相關(guān)研究中,基于圖的事件建模方法廣泛使用。Sayyadi[8]等使用KeyGraph捕獲關(guān)鍵詞的共現(xiàn)信息,Weng[9]等使用小波變化將詞語共現(xiàn)轉(zhuǎn)化為信號(hào)并計(jì)算信號(hào)的cross-correlation關(guān)系圖,最后基于圖使用community detection算法得到各個(gè)子簇表示不同事件。Fukumoto[10]等基于KeyGraph研究事件追蹤過程中的話題漂移現(xiàn)象。上述建模方法皆基于圖分割算法發(fā)掘子簇對(duì)事件進(jìn)行表達(dá),然而圖分割算法十分費(fèi)時(shí),難以應(yīng)用于在線環(huán)境。本文將事件建模成為一元語言模型,并基于兩類事件圖進(jìn)行簡(jiǎn)單的模型估計(jì),可得到較為準(zhǔn)確的事件描述。

3 估計(jì)事件查詢模型

3.1 事件圖

3.1.1 事件關(guān)鍵詞共現(xiàn)關(guān)系圖 事件可由具有事件區(qū)分力的單詞聚集在一起來共同刻畫。將出現(xiàn)在原始事件查詢中的詞語視為種子詞匯,基于關(guān)聯(lián)假設(shè)[11]: “如果一個(gè)詞語具有區(qū)分相關(guān)與非相關(guān)文檔的能力,那么它的近鄰詞匯都可能擅長(zhǎng)于此?!彼钥商暨x與種子詞匯相鄰共現(xiàn)的候選詞對(duì)關(guān)系圖進(jìn)行更新。事件關(guān)鍵詞共現(xiàn)的事件圖(event graph based on co-occurrence,簡(jiǎn)稱EG_co或共現(xiàn)圖)是一個(gè)有向圖,如圖2(a)所示。EG_co=G,eij∈E,vi∈V。其中vi表示事件關(guān)鍵詞,eij=1僅當(dāng)vi與vj在去停用詞后的句子中相鄰共現(xiàn)。eij具有兩個(gè)屬性,cvi,vj代表累積共現(xiàn)次數(shù),wvi,vj=cvi,vj/odvi,其中odvi是vi的出度。

圖2 “Russia Protests”事件圖

3.1.2 融入事件類型的二部圖

事件可由兩部分信息共同刻畫,事件特有信息(時(shí)間、地點(diǎn)、起因等)和事件類型信息(一類事件共有的屬性)。如事件“Russia Protests”,在表達(dá)這一特定事件時(shí),“demonstrate”“opposite”等關(guān)鍵詞描述的是抗議類事件的共有特征。而該事件特有信息來自于“election”“fraud”等關(guān)鍵詞,表明抗議與俄羅斯作弊選舉相關(guān)。據(jù)此,我們將事件建模成一個(gè)二部圖,EG_bi=(U,V,E),融入事件類型的二部圖(event graph based on bipartite,簡(jiǎn)稱EG_bi或二部圖),如圖2(b)所示,擁有兩種節(jié)點(diǎn)類別U、V,分別表示事件特有信息和事件類型信息,以及連接兩部分節(jié)點(diǎn)的邊E。u∈U,v∈Veuv=1表明節(jié)點(diǎn)u和v共現(xiàn)于同一句子中。類似3.1.1節(jié)所述,其每一條邊也具有同上的兩個(gè)屬性。

3.2 事件模型

假設(shè)每個(gè)特定事件都存在一個(gè)精確的一元語言模型θE。準(zhǔn)確估計(jì)p(w|θE)的困難在于無法獲取足夠多的訓(xùn)練語料。為了近似估計(jì)p(w|θE),我們從另一個(gè)角度假設(shè)事件模型是一個(gè)混合模型,具有事件區(qū)分力的詞語以高概率與背景模型融合而得,并希望融合后的概率分布能顯著地描述特定事件。混合模型由背景部分θBG和事件部分組成,θBG可從語料中統(tǒng)計(jì)得到,事件部分所需信息可從上文提及的事件圖獲取,如式(1)所示。

(1)

顯然,估計(jì)p(w|θE)的關(guān)鍵步驟在于如何基于事件圖估計(jì)p(w|θEG)。

3.2.1p(w|θEG)——基于事件關(guān)鍵詞共現(xiàn)關(guān)系圖的概率估計(jì) 考慮到需要融入節(jié)點(diǎn)的相互依賴關(guān)系,我們使用PageRank的方法來估計(jì)p(w|θEG)。在事件關(guān)鍵詞共現(xiàn)關(guān)系圖中生成的穩(wěn)態(tài)概率能較準(zhǔn)確地反映各關(guān)鍵詞對(duì)于事件的重要程度。形式化如下,

(2)

其中節(jié)點(diǎn)間的轉(zhuǎn)移概率puw=α1×cu.w/odu=α1×wu,w,α1是繼續(xù)游走概率(walk continuation probability),p{ξn=w}是n時(shí)刻隨機(jī)游走止于節(jié)點(diǎn)w的概率。πw是隨機(jī)游走的穩(wěn)態(tài)概率,存在∑wπw=1。

3.2.2p(w|θEG)——基于融入事件類型二部圖的概率估計(jì) 事件的準(zhǔn)確描述離不開二部圖中的兩個(gè)部分,事件特有信息(eventspecificinformation,ES)及事件類型信息(eventtypeinformation,ET)。固有:

p(w|θEG)=λp(w|θES)+(1-λ)p(w|θET)

(3)

θET可通過收集統(tǒng)計(jì)同一事件類型的語料得到。估計(jì)θES,首先采用“資源-分配”的方式[12]將二部圖投影到ES集合上,根據(jù)協(xié)同思想,ES與ET兩部分的關(guān)系能映射為ES集合中任意兩點(diǎn)間的關(guān)聯(lián)。如式(4)所示。

(4)

其中wu,k=cu,k/odu是邊權(quán)重,式(4)的物理意義在于,ES中任意兩點(diǎn)通過ET能夠相互分享到更多資源,兩點(diǎn)關(guān)系就越緊密?;谑?4)能得到ES集合內(nèi)任意兩點(diǎn)間的權(quán)重矩陣。類似地,根據(jù)式(2),便能得到WS集合中各點(diǎn)的穩(wěn)態(tài)概率值,即p(w|θES)的估計(jì)值。

3.3 事件查詢模型

(5)

在概率距離檢索框架[4]下,式(6)計(jì)算兩個(gè)概率分布θQ和θD的負(fù)KL距離(Kullback-Leibler divergence)來衡量文檔與查詢的相似程度。在事件查詢模型中,大量事件信息融入到查詢中使得事件相關(guān)的文檔排序靠前,從而提升了事件檢索的精度。

(6)

4 在線事件檢索框架

在第三節(jié)闡述了圖1框架中①、②兩個(gè)步驟。本節(jié)提出事件圖在事件軸上的更新算法,并對(duì)在線事件檢索框架進(jìn)行總結(jié)。

4.1 事件圖更新

在線環(huán)境下,我們假設(shè)在歷史檢索單元中得到的檢索結(jié)果是事件相關(guān)的,如算法1,在時(shí)刻t,使用t-1時(shí)刻的檢索結(jié)果對(duì)事件圖擴(kuò)充并適當(dāng)裁剪。事件種子詞集合(original kernel set,OKS)由原查詢?cè)~及它們的同義詞構(gòu)成。經(jīng)去停用詞、Porter算法詞干還原后,至少包含一個(gè)種子詞匯的句子被挑選用于事件圖擴(kuò)充。節(jié)點(diǎn)使用中心性度量進(jìn)行裁剪。每一條邊具有生命周期,自創(chuàng)建時(shí)刻起在圖中的生存長(zhǎng)度為定值,即對(duì)事件圖的觀察窗口大小(observation window size,OWS),一旦過時(shí),則將被移除,此即PruningEdges函數(shù)的功能。

算法1 事件圖更新算法

輸入: 上一時(shí)刻檢索結(jié)果Rt-1, 事件查詢Q, 上一時(shí)刻事件圖Gt-1,節(jié)點(diǎn)中心性閾值NODE_THRESHOD, 觀察窗口大小 OWS,

輸出: 當(dāng)前時(shí)刻事件圖Gt

1. IFt=1 THEN

2.G1,OKS=initialed withQ

3. ELSE

4. FORdocbelong toRt-1

5. FORsentbelong todocIF termInOKS(sent) is ture

6.Gt=Gt-1.EnrichWith(sent);

7. END FOR

8. END FOR

9.Gt.PruningEdges(OWS);

10.Gt.PruningNodes(NODE_THRESHOD);

11.Gt.NormalizingWeight();

12. RETURN Gt

4.2 在線事件檢索框架

2.3.4 穩(wěn)定性 取精密度試驗(yàn)配制的樣品溶液,放入樣品盤后,按色譜方法,樣品盤設(shè)置溫度為15℃,于15 min、30 min、60 min、3 h、5 h、7 h測(cè)定峰面積,考察各目標(biāo)物的穩(wěn)定性。結(jié)果表明:各目標(biāo)物峰面積并未明顯減少,說明各目標(biāo)物經(jīng)強(qiáng)酸處理后,由于溶液中大部分酶被滅活,低溫環(huán)境下溶液相對(duì)穩(wěn)定。結(jié)果如圖2所示。

k是觀察窗口的大小,φ函數(shù)使用歷史檢索結(jié)果更新事件圖。Rt(t>0)是t時(shí)間間隔的檢索結(jié)果,由檢索函數(shù)φ生成。R0是無意義的,為了統(tǒng)一表達(dá),設(shè)定R0=Q。在此框架下,當(dāng)前時(shí)刻的檢索過程,借助事件圖這一信息容器,間接地使用到了歷史k個(gè)時(shí)間間隔的信息反饋。

5 案例分析

本節(jié)以事件查詢哥斯達(dá)協(xié)和號(hào)(Costa Concordia)*http: //en.wikipedia.org/wiki/Costa_Concordia_disaster”為例,從查詢模型、檢索結(jié)果兩個(gè)方面進(jìn)行分析,并進(jìn)一步展示事件圖在時(shí)間軸上捕獲事件的演變。

5.1 查詢模型對(duì)比

圖3展示了事件查詢“Costa Concordia”在時(shí)間間隔2012-01-14-11(約時(shí)間發(fā)生后的13個(gè)小時(shí))中的RM1,EM_co,EM_bi和背景語料(Background,簡(jiǎn)稱為BG)的語言模型。取背景語料的前300個(gè)詞,皆以logp(w|θBG)降序排列。在圖3上子圖中曲線即為背景語言模型,下子圖中分別對(duì)應(yīng)繪制了RM1,EM_co,EM_bi。在背景模型曲線上散布的點(diǎn),是EM與RM1的差異點(diǎn)。這些點(diǎn)在EM中,分配了足夠的概率,但在RM1中卻未被足夠看重。

通過對(duì)圖3的分析,我們可以得出以下兩點(diǎn)觀察: (1)EM曲線圖相對(duì)于RM1的曲線變化更劇烈,同時(shí)與背景模型差異也更大,具有低歧義的特點(diǎn); (2)差異點(diǎn)皆為具有事件區(qū)分力的關(guān)鍵詞語,EM更具事件顯著的特點(diǎn)。研究[13]表明,低歧義與事件顯著的查詢模型更可能取得較好的檢索效果。

為了進(jìn)一步地證實(shí)本文提出的EQM優(yōu)于RM3,一種更為直接的方式是對(duì)比兩種方法的檢索結(jié)果。表2~4分別列出了RM3、EM_co、EM_bi三種查詢模型在時(shí)刻2012-01-14-11下的Top 10檢索結(jié)果列表。兩名標(biāo)注者根據(jù)文檔中事件相關(guān)信息的密度及質(zhì)量共同對(duì)結(jié)果集合的每一篇文檔的事件相關(guān)度進(jìn)行等級(jí)評(píng)定。使用NDCG作為綜合量化評(píng)價(jià)指標(biāo)。RM3返回較多僅部分內(nèi)容相關(guān)的混合文檔。表3和表4排序靠前的文章幾乎都是事件相關(guān)的詳細(xì)報(bào)道。綜上,我們得出如下結(jié)論: 本文提出的事件查詢模型,提升了查詢對(duì)事件的表達(dá)能力,清晰的查詢意圖大幅提升了檢索效果。

圖3 “Costa Concordia”查詢模型對(duì)比圖

編號(hào)相關(guān)度摘要評(píng)價(jià)者備注1mediumCostaConcordiaranagroundofftheislandofGiglioPartialrelevance2highThreedeadinCostaCruiseshipincidentDetailreport3highThreedeadinCostaCruiseshipincidentDetailreport4mediumCruiseShipRunsAground,3BodiesFoundpartialrelevance5mediumSome30UkrainianswereonboardIndirectlydescription6lowCruiseCriticistheworld'slargestcommunityofpeoplewholovetocruise.Noise7lowSomeothernewsNoise8highItalianrescuersworktoremove3rdsurvivorfromcruiseshipthatranagroundDetailreport9mediumSixdeadascruiseshiprunsagroundoffItaliancoastPartialrelevance10mediumSixdeadascruiseshiprunsagroundoffItaliancoastPartialrelevanceNDCG@100.495

表3 EQM(基于共現(xiàn)圖的事件查詢模型)檢索結(jié)果

表4 EQM(基于二部圖的事件查詢模型)檢索結(jié)果

5.2 事件圖演化

在本文提出的檢索框架中,事件圖起到了最為核心的作用。其能穩(wěn)定工作的關(guān)鍵前提在于: (1)需捕獲事件的關(guān)鍵信息; (2)需隨著事件演變而更新。為了證實(shí)事件圖捕獲關(guān)鍵信息的能力,及在時(shí)間軸上的信息變化,以“Costa Concordia”事件為例。事件初期的報(bào)道集中于事故基本信 息,哥 斯 達(dá)

協(xié)和號(hào)在Giglio島觸礁擱淺傾覆。緊急救援結(jié)束后,調(diào)查表明事故原因是船長(zhǎng)Schettino的操作失誤。事故后期,游輪所屬公司發(fā)布了針對(duì)乘客和船員(大量菲律賓籍)的賠償細(xì)節(jié)。在閱讀維基百科該事件頁面之后,了解到上述事件梗概各自對(duì)應(yīng)的重要時(shí)刻(皆取上午11點(diǎn))的事件圖,得到事件模型的Top 10單詞。如表5所示,可以看出,事件圖很好地捕獲到了事件關(guān)鍵信息,且及時(shí)地隨著事件演變而變化。

表5 事件圖演變

6 實(shí)驗(yàn)

6.1 數(shù)據(jù)集 據(jù)我們所知,目前在線事件檢索任務(wù)暫無公開標(biāo)準(zhǔn)測(cè)試數(shù)據(jù),傳統(tǒng)TREC檢索數(shù)據(jù)集缺乏事件在時(shí)間軸上的持續(xù)相關(guān)信息,不滿足需求。本文采用標(biāo)準(zhǔn)公開的TREC時(shí)序摘要(temporal summarization,TREC-TS)任務(wù)[13]2013、2014兩個(gè)數(shù)據(jù)集。數(shù)據(jù)包含了來自新聞媒體、社交網(wǎng)絡(luò)、博客評(píng)論等數(shù)十種數(shù)據(jù)源。數(shù)據(jù)集相關(guān)統(tǒng)計(jì)信息如表6所示。針對(duì)每一個(gè)事件,給出了相應(yīng)的查詢、事件類型及事件起止時(shí)間戳。事件類型包括災(zāi)難、爆炸、人質(zhì)等八種類型。針對(duì)每種事件類型,我們?cè)诰S基百科中人工收集了20個(gè)該類型下的典型事件,用于統(tǒng)計(jì)生成二部圖中事件類型模型。

表6 實(shí)驗(yàn)數(shù)據(jù)集基本信息

6.2 評(píng)價(jià)方式

針對(duì)每一個(gè)小時(shí)內(nèi)的檢索結(jié)果,人工判定文檔的事件相關(guān)性,計(jì)算P@10、P@15。然而,僅TREC-TS 2014數(shù)據(jù)集便含有近3 000個(gè)小時(shí)的檢索結(jié)果,人工評(píng)價(jià)如此龐大的結(jié)果集合幾乎不可能。我們通過采樣計(jì)算近似結(jié)果。采樣過程如下,針對(duì)每個(gè)事件,大量噪聲可能存在于事件起止端的檢索結(jié)果,截?cái)嗍录孜?3%×該事件總持續(xù)小時(shí)數(shù))后,均勻采樣10個(gè)小時(shí)的數(shù)據(jù)作為待評(píng)價(jià)數(shù)據(jù)。在TREC-TS 2013、TREC-TS 2014數(shù)據(jù)集上,對(duì)8種檢索方法生成的結(jié)果進(jìn)行pooling(共約6 000篇文檔),三名評(píng)價(jià)者獨(dú)立地對(duì)數(shù)據(jù)池中所有事件的待評(píng)價(jià)數(shù)據(jù)進(jìn)行相關(guān)性判定。對(duì)于每個(gè)事件查詢,計(jì)算檢索精度如式(10)所示,S為采樣小時(shí)數(shù)(S=10),N為每次檢索返回文檔數(shù)(N=10或N=15)。

(10)

6.3 實(shí)驗(yàn)結(jié)果

本文實(shí)現(xiàn)了八種檢索方法,其中EQM_co,EQM_bi分別是本文提出的基于共現(xiàn)圖和二部圖的方法,其余六種對(duì)比方法皆為帶偽相關(guān)反饋的方法,其中基于語言模型的方法是RM3、RM4、Divergence Minimization Model(簡(jiǎn)稱DivMin)、Mixture Model(簡(jiǎn)稱Mixture),另外兩種為TFIDF+feedback、BM25+feedback。為了對(duì)比的公平,本文方法和其他對(duì)比方法涉及的共有參數(shù)都采用相同設(shè)置。使用Dirichlet作為文檔平滑方法,μ=1 000。原始查詢模型插值參數(shù)α=0.5。偽反饋文檔數(shù)目為10,選取反饋詞數(shù)目為30。本文基于事件圖的方法中,OWS=72,即3天,與背景語料模型插值系數(shù)β=0.7。共現(xiàn)圖中NODE_THRESHOLD=0.03, 二部圖中NODE_THRESHOLD=0.1,ES與ET插值系數(shù)λ=0.6。在Okapi BM25中,k1=1.2,b=0.75,k3=7。

如表7所示,EQM_co在TREC-TS 2014數(shù)據(jù)的P@10指標(biāo)上,以0.434的效果超過位于第二名BM25方法約5.85%,EQM_bi以0.424超越BM25約3.4%。在P@15指標(biāo)上,EQM_co以0.393居首,EQM_bi和TDIDF以0.384次之。在TREC-TS 2013集合上,EQM的方法P@10稍優(yōu)于其他所有對(duì)比方法,在P@15上以0.185次優(yōu)于RM4和DivMin。本文嘗試的兩種事件建模方法中,基于共現(xiàn)圖的EQM_co是樸素且有效的,在TREC-TS 2014上EQM_bi的表現(xiàn)不及EQM_co,可能原因在于訓(xùn)練事件類型模型的語料不夠充足,使事件模型估計(jì)有所偏差。

表7 檢索方法在兩個(gè)數(shù)據(jù)集的檢索精度對(duì)比(P@10/P@15)

通過深入觀察表現(xiàn)優(yōu)異的查詢?cè)跁r(shí)間軸上的10次采樣結(jié)果,得出另一重要結(jié)論: 在線事件檢索框架中形成的前向正反饋提升了事件整體的檢索精度。以TREC-TS 2014中的事件查詢“Southern California Shooting”為例,10次采樣結(jié)果如圖4所示。較最優(yōu)基準(zhǔn)方法的P@10=0.34,EQM_co和EQM_bi在此查詢的檢索精度分別為0.46、0.41,分別提升了35.3%、20.6%。原因在于,EQM在事件后期其他方法效果急劇下降時(shí),仍能保持較高的準(zhǔn)確率。該現(xiàn)象能夠通過前向正反饋加以解釋。在其他方法中,各個(gè)時(shí)刻的檢索相互獨(dú)立,無前向反饋形成。在本文的檢索框架中,倘若前幾個(gè)歷史時(shí)刻的檢索結(jié)果精度較高,通過事件圖的方式將正反饋知識(shí)前向傳遞到了當(dāng)前時(shí)刻,使得此時(shí)的檢索結(jié)果不至嚴(yán)重震蕩。

同時(shí)我們也分析了另一類本文方法無優(yōu)勢(shì)的查詢。大致有兩種情形,第一種是數(shù)據(jù)集中存在極少的事件相關(guān)文檔(在評(píng)價(jià)池中,相關(guān)文檔占比不足1/10)。在此情形下,本文方法難以形成前向正反饋,事件圖裁剪噪聲困難,整體檢索效果下降。另一種情況是數(shù)據(jù)集中存在充足的事件相關(guān)文檔(在評(píng)價(jià)池中,相關(guān)文檔占比超過8/10)。簡(jiǎn)單說來,檢索方法幾乎都能得到較高P@10。從數(shù)據(jù)集的角度分析,本文方法更適用于存在適量噪聲的數(shù)據(jù)集。在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,這類居中的情形是占大多數(shù)的,即本文方法是普遍適用的。

圖4 查詢“Southern California Shooting”采樣點(diǎn)的檢索精度

7 結(jié)論

在線事件檢索是一項(xiàng)面向事件查詢,在時(shí)間軸上迭代地檢索出事件相關(guān)文檔的任務(wù)。該任務(wù)能夠?yàn)槭录O(jiān)測(cè)與事件研究提供有力的數(shù)據(jù)支撐。針對(duì)該任務(wù),我們提出了一種基于圖的在線事件檢索框架。重點(diǎn)研究了基于事件關(guān)鍵詞共現(xiàn)圖和融合事件類型的二部圖兩類事件建模方法,并將事件模型融合到查詢模型中,通過提升查詢的事件區(qū)分力來提升單次事件檢索的精度,并借助事件圖在事件檢索框架中構(gòu)成前向正反饋,以提升整個(gè)時(shí)間軸的事件檢索精度。案例分析表明: (1)本文的事件查詢模型具有低歧義、事件顯著的特點(diǎn),相對(duì)于RM3,得到了更加精確的事件檢索結(jié)果; (2)事件圖能夠隨事件演變而變化。在兩個(gè)公開實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法針對(duì)事件查詢,特別是模糊的事件查詢,能夠顯著提升檢索精度。

[1] Allan J, Papka R, Lavrenko V. On-line new event detection and tracking[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1998: 37-45.

[2] Lin C H, Yen C W, Hong J S, et al. Event-based textual document retrieval by using semantic role labeling and coreference resolution[C]//Proceedings of IADIS International Conference WWW/Internet 2007, 2007.

[3] Glava G, Nnajder J. Event-centered information retrieval using kernels on event graphs[J]. Graph-Based Methods for Natural Language Processing, 2013: 1.

[4] Lafferty J, Zhai C. Document language models, query models, and risk minimization for information retrieval[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2001: 111-119.

[5] Lavrenko V, Croft W B. Relevance based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2001: 120-127.

[6] Lv Y, Zhai C X. Positional relevance model for pseudo-relevance feedback[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2010: 579-586.

[7] Zhai C, Lafferty J. Model-based feedback in the language modeling approach to information retrieval[C]//Proceedings of the 10th International Conference on Information and Knowledge Management. ACM, 2001: 403-410.

[8] Sayyadi H, Hurst M, Maykov A. Event detection and tracking in social streams[C]//Proceedings of ICWSM, 2009.

[9] Weng J, Lee B S. Event detection in Twitter[J]. ICWSM, 2011(11): 401-408.

[10] Fukumoto F, Suzuki Y. Using graph-based indexing to identify subject-shift in topic tracking[M]//Human Language Technology. Challenges of the Information Society. Springer Berlin Heidelberg, 2007: 392-404.

[11] van Rijsbergen C J. A theoretical basis for the use of co-occurrence data in information retrieval[J]. Journal of Documentation, 1977, 33(2): 106-119.

[12] Zhou T, Ren J, Medo M, et al. Bipartite network projection and personal recommendation[J]. Physical Review E, 2007, 76(4): 046115.

[13] Aslam J, Diaz F, Ekstrand-Abueg M, et al. TREC 2014 temporal summarization track overview[R]. National Inst of Standards and Technology Gaithersburg MD, 2015.

楊文靜(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔z索,自然語言處理。

E-mail: yangwenjing1992@163.com

邱泳欽(1983—),博士研究生,助理研究員,主要研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò)分析。

E-mail: qiuyongqin@iie.ac.cn

李思旭(1990—),碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)。

E-mail: lisixu_job@163.com

Online Event Retrieval Based on Event Graph

YANG Wenjing1,2, QIU Yongqin1,2, LI Sixu1,2,LI Rui1,WANG Bin1

(1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;2. University of Chinese Academy of Sciences, Beijing 100093, China)

1003-0077(2008)04-0154-11

TP391

A

2015-12-01 定稿日期: 2016-04-07

國(guó)家自然科學(xué)基金(6157050517);科技部重點(diǎn)專項(xiàng)子課題(2016YFB0801003)

① 本文將event-based retrieval翻譯為事件檢索,特指document retrieval w.r.t event queries。而非以關(guān)鍵詞檢索返回事件列表的任務(wù)。

猜你喜歡
文檔檢索模型
適用于BDS-3 PPP的隨機(jī)模型
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
重要模型『一線三等角』
瑞典專利數(shù)據(jù)庫(kù)的檢索技巧
一種基于Python的音樂檢索方法的研究
模型小覽(二)
淺議專利檢索質(zhì)量的提升
Word文檔 高效分合有高招
離散型隨機(jī)變量分布列的兩法則和三模型