梁月仙,陳自巖,王 洋,張 躍,郭 智
(1.中國科學(xué)院 空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點實驗室,北京 100190; 2.中國科學(xué)院電子學(xué)研究所,北京 100190;3.中國科學(xué)院大學(xué),北京 100190)
近年來,世界各地頻繁地發(fā)生地震、恐怖襲擊等突發(fā)事件,突發(fā)事件的發(fā)生嚴(yán)重影響社會秩序的安定和人們生命的安全?;ヂ?lián)網(wǎng)上呈現(xiàn)的突發(fā)事件信息通常被淹沒在眾多的普通事件中,人們難以發(fā)現(xiàn)潛在的突發(fā)性事件,因此,迫切需要一種有效的工具檢測出突發(fā)性事件。突發(fā)事件指在短時間內(nèi)出現(xiàn),且其信息量迅速膨脹并隨后消亡的事情。突發(fā)事件檢測旨在從文本中抽取出相關(guān)的事件信息并檢測其突發(fā)性,包括事件抽取和突發(fā)性檢測兩部分。事件抽取指從非結(jié)構(gòu)化的文本中抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)。
事件抽取主要實現(xiàn)特定事件類型的識別以及事件元素的發(fā)現(xiàn),現(xiàn)有事件抽取方法可分為基于規(guī)則匹配的方法、基于監(jiān)督學(xué)習(xí)的方法和基于無監(jiān)督學(xué)習(xí)的方法?;谝?guī)則匹配或監(jiān)督學(xué)習(xí)的方法[1-4]依賴于標(biāo)注語料,存在領(lǐng)域移植性問題,無法有效地運用于開放領(lǐng)域的網(wǎng)絡(luò)文本。面向開放領(lǐng)域的非監(jiān)督學(xué)習(xí)方法采用離線的方式進(jìn)行事件抽取[5-7],無法實時地處理在線的網(wǎng)絡(luò)數(shù)據(jù)流。
突發(fā)事件檢測主要實現(xiàn)事件的突發(fā)權(quán)重、突發(fā)時間段和突發(fā)空間區(qū)域的識別,已有工作基于事件的詞頻信息進(jìn)行突發(fā)性檢測[8-10],忽略了事件的重要性。另外,事件的突發(fā)性不僅與時間序列有關(guān),而且也受地理位置的影響,但是現(xiàn)有大多數(shù)工作只考慮事件的突發(fā)時間性或突發(fā)空間性[11-15]。雖然一些研究[16-17]同時考慮了事件的時空突發(fā)性,但是它們以孤立的方式看待事件的突發(fā)時間域和突發(fā)空間域,未能充分挖掘事件的時空關(guān)聯(lián)性。
針對上述方法存在的問題,本文提出一種聯(lián)合時空要素綜合分析的突發(fā)事件檢測方法。該方法通過引入數(shù)據(jù)立方體結(jié)構(gòu)存儲事件詞,綜合分析事件的時空要素并且挖掘事件的時空關(guān)聯(lián)性。同時,給出一種基于語義相似性的實時事件聚類算法,可實時地處理在線的網(wǎng)絡(luò)數(shù)據(jù)流,從而擺脫特定領(lǐng)域的限制。在聚類過程中,采用GloVe模型挖掘事件詞之間的語義關(guān)聯(lián)性,使同一事件類的事件詞具有較強(qiáng)的語義相關(guān)性,并基于事件類在時空維度上的出現(xiàn)權(quán)重,采用有限狀態(tài)機(jī)-高斯分布模型識別時空突發(fā)事件。
本文基于時空要素綜合分析的框架,提出一種新穎的突發(fā)事件檢測方法。該方法首先利用爬蟲技術(shù)獲取大規(guī)模的未標(biāo)注網(wǎng)絡(luò)文本數(shù)據(jù),并通過數(shù)據(jù)預(yù)處理獲取時間表達(dá)式、地名實體和事件詞。其次基于事件詞的時空特性,采用數(shù)據(jù)立方體存儲事件詞。然后提出一種基于語義相似性的實時事件聚類算法抽取出重要事件。最后基于事件在時空維度上的出現(xiàn)權(quán)重,采用有限狀態(tài)機(jī)-高斯分布模型,建模事件的突發(fā)特性。突發(fā)事件檢測的系統(tǒng)框架如圖1所示。
圖1 突發(fā)事件檢測系統(tǒng)
通過數(shù)據(jù)預(yù)處理,從網(wǎng)絡(luò)文本中抽取出事件詞、時間表達(dá)式和地名實體。
事件觸發(fā)詞是表達(dá)事件發(fā)生的性質(zhì)或狀態(tài)的詞[18],例如“由于電池門問題,三星Galaxy Note7 發(fā)生爆炸”,本文將事件觸發(fā)詞作為事件詞。為了抽取出事件觸發(fā)詞,將事件觸發(fā)詞的識別視為一個二分類任務(wù)。首先隨機(jī)選取200篇新聞文檔作為訓(xùn)練語料,這些文檔涵蓋政治、社會、經(jīng)濟(jì)、體育、軍事等領(lǐng)域。為了確保訓(xùn)練語料的可靠性,按照Timebank Corpus[19]標(biāo)注指導(dǎo)對語料進(jìn)行人工標(biāo)注。在眾多的分類器中,CRF模型考慮了文本的語境特征和詞性特征,在序列標(biāo)注任務(wù)和分類任務(wù)中能夠取得較好的效果,因此本文采用CRF(Conditinal Random Fields)模型[20]抽取出最合適的事件觸發(fā)詞。
一篇文檔通常包含多個時間表達(dá)式、多個地名實體,新聞媒體或社交網(wǎng)絡(luò)網(wǎng)站是一個實時報道當(dāng)天事件的平臺,本文將文檔的生成時間作為事件詞的發(fā)生時間,將距離事件詞最近的地名實體作為該事件詞的發(fā)生地點。為了將地名實體轉(zhuǎn)換成空間信息,構(gòu)建一個完善且全面的地理空間知識庫,該知識庫包括地名本體子庫、規(guī)則子庫等輔助數(shù)據(jù)源,并提供相應(yīng)的查詢接口。在地名-空間信息轉(zhuǎn)換過程中,采用了地名消歧和地名經(jīng)緯度轉(zhuǎn)換等技術(shù)。地名消歧通過啟發(fā)式的規(guī)則方法實現(xiàn)[21],通過計算地名和上下文地名之間的地理關(guān)聯(lián)度進(jìn)行地名的消歧,首先識別出文檔中的所有地名,并確定歧義地名對應(yīng)的所有地理位置,構(gòu)成候選位置集合,然后設(shè)置啟發(fā)式規(guī)則方法,從候選位置集合中確定唯一的地理位置。地名經(jīng)緯度轉(zhuǎn)換通過啟發(fā)式的規(guī)則匹配方法實現(xiàn)。將事件詞的時間信息和空間信息結(jié)合,即可獲取事件詞的時空信息。最后基于事件詞的時空信息,將事件詞存儲于數(shù)據(jù)立方體中,如圖2所示。
圖2 數(shù)據(jù)立方體示意圖
在1.1節(jié)的基礎(chǔ)上,由于事件詞已存儲于立方體中,但立方體的事件詞是雜亂無章的,需要對這些事件詞進(jìn)行有效的聚類以抽取出重要事件?,F(xiàn)有方法研究事件聚類通常采用K-means和Latent Dirichlet Allocatio等的改進(jìn)方法[5-7],但它們都是離線的批處理聚類方式,不適用于動態(tài)的網(wǎng)絡(luò)數(shù)據(jù)流。近年來,隨著網(wǎng)絡(luò)文本數(shù)據(jù)的興起,研究者提出了許多在線的聚類算法[22-24],但是當(dāng)涉及到相似性計算時,這些方法通常只考慮詞之間的空間距離,未挖掘詞的語義關(guān)聯(lián)性。
針對現(xiàn)有聚類方法存在的問題,本文提出一種基于語義相似性的實時事件聚類算法,該算法是一種增量式的聚類方式。隨著數(shù)據(jù)流的到來,聚類結(jié)果將會動態(tài)地改變,該聚類算法如算法1所示。
算法1事件聚類(E,w)
輸入詞w,現(xiàn)有事件集E={e1,e2,…,eK}
輸出更新事件集E
If E is null
e1=w,c1=w
Else
For each event eiin the E do
Si=Sim(ci,w)
Return the biggest Sb
If Sb>threshold T then
Add w to the existing event eb
Update the center vector cbof event eb
For word wiin the ebdo
Else
add w to E as a new event
考慮一個新到達(dá)的事件詞w,假如w是第一個到來的事件詞,那么將其作為第一個事件類;否則,將w分別與已有的事件類進(jìn)行相似性計算,然后對所有相似值做降序排序,獲得最大的相似值Sb,假設(shè)Sb為w與事件類eb的相似值,如果Sb大于閾值T,w被聚到事件類eb中,同時更新事件類eb的質(zhì)心向量cb,否則w被作為一個新的事件類添加到事件集E中,算法1中的相似性計算采用余弦相似度公式:
(1)
上述聚類算法的一個核心環(huán)節(jié)為事件詞間的相似性計算。目前最流行的計算詞相似性的方法為詞向量的方式。已有的許多表證詞的向量空間法,例如文獻(xiàn)[25]提出一種全局向量模型(GloVe)訓(xùn)練詞向量。GloVe模型充分利用詞的全局共現(xiàn)統(tǒng)計和語境特征來挖掘詞之間的語義關(guān)聯(lián)性,在語義相似性任務(wù)上,GloVe模型的實驗結(jié)果優(yōu)于Word2Vec模型[26],因此,本文采用GloVe模型挖掘事件詞之間的語義關(guān)聯(lián)性。GloVe模型的詳細(xì)推導(dǎo)過程見文獻(xiàn)[25]。
在突發(fā)性檢測中,具有代表性的方法為文獻(xiàn)[9]提出的有限狀態(tài)機(jī)模型,該模型基于文檔的到達(dá)時間間隔,使用有限狀態(tài)機(jī)建模事件的突發(fā)性,從而識別出突發(fā)的開始時間和結(jié)束時間。該模型為一個隱馬爾可夫鏈,模型的隱變量是詞所處的狀態(tài)(突發(fā)態(tài)或普通態(tài)),其假設(shè)文檔的到達(dá)速率服從指數(shù)分布,當(dāng)文檔的到達(dá)速率加快時,模型會依據(jù)狀態(tài)轉(zhuǎn)換代價判定是否發(fā)生狀態(tài)轉(zhuǎn)換,通過對模型的狀態(tài)序列進(jìn)行推理最終獲得一條最優(yōu)的狀態(tài)序列,序列中2個時間點的狀態(tài)改變代表著突發(fā)時間段的邊界。文獻(xiàn)[8]借鑒Kleinberg的思想,基于時間序列中話題的出現(xiàn)頻率,假設(shè)話題的出現(xiàn)頻率服從泊松分布,并采用有限狀態(tài)機(jī)-泊松分布模型識別突發(fā)性話題。Kleinberg和Diao的方法研究重點在于檢測突發(fā)事件和突發(fā)時間段,未考慮事件的突發(fā)區(qū)域性,并且它們依據(jù)事件的頻率信息進(jìn)行突發(fā)性檢測,忽略了事件的重要性。本文基于Kleinberg和Diao識別突發(fā)性的方法,提出綜合分析事件的時間要素和空間要素,依據(jù)事件在時空維度上的出現(xiàn)權(quán)重,采用有限狀態(tài)機(jī)-高斯分布模型建模事件的時空突發(fā)特性。
1.3.1 事件在時空維度上的重要性計算
現(xiàn)有方法通常依據(jù)特征項在時間序列上的出現(xiàn)頻率,構(gòu)建相應(yīng)的模型判斷事件是否為突發(fā)性事件。但是特征項的頻率信息并不能有效地將某一個特征與其他特征區(qū)分開,即頻率統(tǒng)計法并不具備很好的區(qū)分能力。事件間的重要程度有一定的差異,現(xiàn)有方法考慮事件的出現(xiàn)頻率而忽略了事件的重要性,因此,無法有效突顯事件的重要程度。詞頻反文檔頻率(TFIDF)則可克服該缺點,TFIDF是一種有效體現(xiàn)特征重要性的值。TFIDF的思想是:如果詞w在某一類別中出現(xiàn)的頻率高,而在別的類別中出現(xiàn)的頻率低,則說明該詞能夠很好地代表該類別的特征,即可以有效地將某一類別與別的類別區(qū)分開。
本文采用TFIDF計算事件在時間維度、空間維度上的出現(xiàn)權(quán)重,用以評估事件在整個事件集中的重要程度。對于事件集E={e1,e2,…,ei,eN}中的事件ei,計算其在不同的地理位置r,不同的單位時間點t上的權(quán)重Weights(ei,t,r)。其中,t∈[1:T]為時間序列中某個單位時間點,r∈[1:R]為空間區(qū)域中某個地理位置。假設(shè)一個事件ei由K個事件詞{w1,w2,…,wi,wk}組成,考慮事件元素wj,令Weights(wj,t,r)為事件詞在單位時間點t、地理位置r上的權(quán)重值,則有:
(2)
1.3.2 事件突發(fā)性的檢測
本文提出采用有限狀態(tài)機(jī)-高斯分布模型對事件的狀態(tài)進(jìn)行建模。該模型是一個隱馬爾可夫鏈,模型中的隱變量是詞所處的狀態(tài),觀測數(shù)據(jù)是事件在時間序列上單位時間點的權(quán)重值。該有限狀態(tài)機(jī)模型如圖3所示,其中,qt為自動機(jī)的隱狀態(tài),“0”代表正常態(tài),“1”代表突發(fā)態(tài),模型處在不同的隱狀態(tài),就以不同強(qiáng)度的概率來生成觀測數(shù)據(jù),即狀態(tài)轉(zhuǎn)移鏈的發(fā)射概率服從高斯分布。
圖3 有限狀態(tài)機(jī)模型
p(Weights(ei,t,r)/qt=l)=
(3)
其中,qt為事件在單位時間點t的狀態(tài),l=0或者l=1,qt=0為正常態(tài),qt=1為突發(fā)態(tài)。高斯分布的4個參數(shù)為u0、u1、σ0、σ1。設(shè)置u0為事件在時序上的權(quán)重均值:
(4)
其中,設(shè)置u1=3u0,σ0為事件在時序上的權(quán)重均方差,σ1=σ0。
狀態(tài)序列Q={q1,q2,…,qT}為狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)移鏈,其轉(zhuǎn)移規(guī)律服從隱馬爾科夫假設(shè),由狀態(tài)轉(zhuǎn)移矩陣M和先驗概率θ控制。在狀態(tài)q1之前,假設(shè)有一個虛擬的正常態(tài)q0,則狀態(tài)機(jī)的先驗概率為θl=(p00,p01),狀態(tài)轉(zhuǎn)移矩陣為:
(5)
其中,設(shè)置超參數(shù)θ0=0.7,θ1=0.6。
采用維特比算法獲取最優(yōu)的狀態(tài)轉(zhuǎn)移序列Q*。序列中的突發(fā)態(tài)對應(yīng)的連續(xù)時間段為突發(fā)時間段。對于突發(fā)時間段T=[t1:t2],其突發(fā)權(quán)重為:
p(Weights(ei,t,r)/qt=0))
(6)
為了識別出合理的突發(fā)時空區(qū)域,采用矩形R表征事件的突發(fā)空間區(qū)域,時空窗W表征事件的突發(fā)時空域。定義事件e在突發(fā)時間段T矩形區(qū)域R上的突發(fā)權(quán)重值為事件詞落在時間段T和矩形R上的突發(fā)權(quán)重值之和,并取多個區(qū)間的交疊區(qū)段為事件的突發(fā)時空域,突發(fā)權(quán)值為多個區(qū)間的權(quán)重值之和。事件e在時間序列和空間區(qū)域上的突發(fā)區(qū)間如圖4所示,突發(fā)區(qū)間在時序上是非交疊的,而在空間區(qū)域上存在著交疊。對于突發(fā)時間段T=[t1:t2]、突發(fā)區(qū)域R=[r1:r2],獲取事件的突發(fā)時空窗權(quán)重分?jǐn)?shù)為:
(7)
通過式(7)可獲取任意時空窗的權(quán)重分?jǐn)?shù),對權(quán)重分?jǐn)?shù)排序,即可獲取Top-rank 突發(fā)事件。
圖4 事件在多個地理位置上的突發(fā)時間段示意圖
采用網(wǎng)絡(luò)爬蟲技術(shù)抓取2015年3月1日—2015年8月30日的121篇、157篇新聞文檔。這些文檔涵蓋政治、經(jīng)濟(jì)、體育等領(lǐng)域。通過數(shù)據(jù)預(yù)處理,獲取184個事件的發(fā)生時間、7 494個地名實體和10 022個事件詞,然后基于事件詞的時空信息構(gòu)建立方體。在事件聚類中,基于數(shù)據(jù)集的相似性統(tǒng)計分析,設(shè)置相似度閾值為0.76。在事件突發(fā)性檢測中,設(shè)置時序上的單位時間為d。
2.2.1 對比方法
為了證明本文提出的事件抽取方法的有效性,設(shè)置基于StreamCube方法[27]和DTM(Dynamic Topic Models)模型[28]的對比實驗。StreamCube方法基于層級時空的hashtags聚類實現(xiàn)事件搜索,該方法將hashtags作為事件詞,考慮了hashtags之間的時空關(guān)聯(lián)性,采用在線的聚類算法實現(xiàn)事件搜索。在聚類過程中,StreamCube采用one-hot模型表征詞的向量空間,因此未能充分挖掘hashtags之間的語義相似性。DTM是一種離線的主題生成模型,旨在研究基于時間維度的話題演化過程,體現(xiàn)話題隨時間變化的特性。DTM關(guān)注了話題隨時間變化的演化過程,但是它忽略了話題的空間特性。
2.2.2 評價分析
本文引入3個評價聚類質(zhì)量的指標(biāo):NMI(Normalized Mutual Information),RI(Rand Index)和F1值。這3個評價指標(biāo)的含義及計算公式如下所示。
NMI(X,Y)=2×I(X,Y)/(H(X)+H(Y))
(8)
其中,I(X,Y)為向量X與向量Y的互信息,H(X)為向量X的信息熵,同理,H(Y)為向量Y的信息熵。
RI=(TP+TN)/(TP+FP+FN+TN)
(9)
F1=2TP/(2TP+FP+FN)
(10)
表1列舉了每種方法的測評結(jié)果,StreamCube方法在聚類過程中,采用one-hot模型表征事件詞的詞向量,即只考慮事件詞之間的空間距離,沒有挖掘出事件詞的語義關(guān)聯(lián)性,因此聚類效果最差。另外,one-hot模型產(chǎn)生的將是一個高維度的稀疏共現(xiàn)矩陣,容易導(dǎo)致維數(shù)災(zāi)難的問題。DTM對隨著時間變化的文檔集進(jìn)行主題建模,由文檔-詞語-主題的生成過程判明出時間片段內(nèi)文檔所包含的主題。從聚類結(jié)果可以看出,DTM可以較為有效地抽取出文檔所包含的事件類。但是DTM需在整個數(shù)據(jù)集上迭代計算,是一種離線的抽取方式,因此并不能有效地處理動態(tài)的網(wǎng)絡(luò)數(shù)據(jù)流。另外,DTM忽略了話題的空間概念,無法處理事件的空間信息。本文事件抽取方法采用Glove模型訓(xùn)練事件詞之間的語義相關(guān)性,使聚在同一事件類的事件詞具有強(qiáng)的語義關(guān)聯(lián)性,因此聚類效果優(yōu)于StreamCube方法和DTM方法。另外,本文方法能夠用較少的向量維度(200維、300維、400維等)表征事件詞的向量空間,因此占用較少的內(nèi)存空間和聚類時間。
表1 3種方法的事件聚類效果
2.3.1 對比方法
為了證明本文提出的突發(fā)事件檢測方法的有效性,與Diao的方法進(jìn)行對比,Diao的方法旨在研究從微博數(shù)據(jù)流中發(fā)現(xiàn)突發(fā)性話題,其通過結(jié)合用戶對話題的關(guān)注度以及話題在時序上的出現(xiàn)頻率,采用基于有限狀態(tài)機(jī)-泊松分布模型檢測出突發(fā)性話題。
2.3.2 評價分析
采用本文的突發(fā)事件檢測方法進(jìn)行實驗,列舉了Top-5突發(fā)事件的實驗結(jié)果,其中,每個事件列舉了Top-8個事件詞,如表2所示。可以看出,所有的突發(fā)事件都是有意義的,這些突發(fā)事件不僅具有一定的突發(fā)時間段,而且還具有一定的突發(fā)區(qū)域。另外,不同突發(fā)事件的突發(fā)時間段和突發(fā)區(qū)域都是不同的,表明了突發(fā)時空特性的重要性。
表2 突發(fā)事件檢測結(jié)果
設(shè)置基于Diao的方法的對比實驗。圖5和圖6分別為自然災(zāi)難事件基于時間序列的事件強(qiáng)度變化過程,其中,圖5為Diao的方法基于事件在單位時間內(nèi)的出現(xiàn)頻率以及,建模有限狀態(tài)機(jī)-泊松分布模型獲取的事件強(qiáng)度變化過程。圖6為STBEvent模型中基于事件的TFIDF權(quán)重以及建模有限狀態(tài)機(jī)-高斯分布模型獲取的事件強(qiáng)度變化過程。從圖5、圖6可以看出,采用Diao的方法檢測出該自然災(zāi)害事件有4個異常高頻段,模型認(rèn)為此事件并非一個突發(fā)事件,而是一個周期性事件。而采用STBEvent模型可正確檢測出一個異常高頻段,并認(rèn)為其是一個突發(fā)事件。因此,采用STBEvent模型檢測事件的突發(fā)性更為有效。
圖5 采用有限狀態(tài)機(jī)-泊松分布模型獲取的坍塌事件強(qiáng)度
圖6 采用有限狀態(tài)機(jī)-高斯分布模型獲取的坍塌事件強(qiáng)度
圖7為采用有限狀態(tài)機(jī)-泊松分布模型獲取的坍塌災(zāi)難事件(突發(fā)事件)和體育競技事件(非突發(fā)事件)分別基于時間序列的事件強(qiáng)度變化過程,其中,實線為自然災(zāi)難事件的事件強(qiáng)度變化過程,虛線為體育競技事件的事件強(qiáng)度變化過程圖。圖8為采用STBEvent基于事件的TFIDF權(quán)重,以及建模有限狀態(tài)機(jī)-高斯分布模型獲取的坍塌災(zāi)難事件(突發(fā)事件)和體育競技事件(非突發(fā)事件)分別基于時間序列的事件強(qiáng)度變化過程,其中,實線為自然災(zāi)難事件的事件強(qiáng)度變化過程,虛線為體育競技事件的事件強(qiáng)度變化過程。Diao的方法對于突發(fā)事件,其與普通事件的頻率分布并不具有很強(qiáng)的區(qū)分性。而STBEvent模型,對于坍塌災(zāi)難事件,在非突發(fā)態(tài),其TFIDF值是低的;在突發(fā)態(tài),其TFIDF值驟然增高,并急劇降低,符合突發(fā)事件的定義,這表明了STBEvent模型檢測出的突發(fā)性事件與普通事件具有更為明顯的區(qū)分性。
圖7采用有限狀態(tài)機(jī)-泊松分布模型獲取的坍塌事件(突發(fā)事件)與體育競技事件(非突發(fā)事件)強(qiáng)度
圖8采用有限狀態(tài)機(jī)-高斯分布模型獲取的坍塌事件(突發(fā)事件)與體育競技事件(非突發(fā)事件)強(qiáng)度
本文方法不僅能識別出突發(fā)時間段,而且可以識別出突發(fā)空間區(qū)域。圖9為坍塌事件(突發(fā)事件)在不同地理位置序號的TFIDF值變化情況,圖10為體育競技事件(非突發(fā)事件)在不同地理位置序號的TFIDF值變化情況??梢钥闯?坍塌事件的突發(fā)區(qū)域為3個(上海、遼寧、山西),而體育競技事件無明顯的突發(fā)區(qū)域。
圖9 坍塌事件(突發(fā)事件)基于地理區(qū)域的權(quán)重值變化
圖10 體育競技事件(非突發(fā)事件)基于地理區(qū)域的權(quán)重值變化
傳統(tǒng)的突發(fā)事件檢測方法依賴人工標(biāo)注數(shù)據(jù)集,以孤立的方式看待事件的時空要素,且忽略事件的重要性等問題。為此,本文提出一種基于時空要素綜合分析的突發(fā)事件檢測方法。該方法首先引入數(shù)據(jù)立方體結(jié)構(gòu)存儲事件詞,綜合分析事件的時空要素,并且挖掘出事件的時空關(guān)聯(lián)性。然后給出一種基于語義相似性的實時事件聚類算法,實時地處理在線的動態(tài)網(wǎng)絡(luò)數(shù)據(jù)流,從而擺脫了特定領(lǐng)域的限制。同時,采用GloVe模型挖掘出事件詞之間的語義關(guān)聯(lián)性,使聚在同一事件類的事件詞具有強(qiáng)的語義相關(guān)性。其次采用TFIDF計算事件的出現(xiàn)權(quán)重,評估某一事件在整個事件集中的重要程度。最后采用有限狀態(tài)機(jī)-高斯分布模型識別出時空突發(fā)事件。實驗結(jié)果表明,該方法能夠較為準(zhǔn)確地抽取出重要的事件,并取得77.4%的抽取準(zhǔn)確率;在突發(fā)性檢測時,該方法比現(xiàn)有方法更能準(zhǔn)確地檢測出突發(fā)事件,且能夠有效地識別出事件的突發(fā)時間段和突發(fā)空間區(qū)域。下一步將研究事件抽取和突發(fā)性檢測的聯(lián)合學(xué)習(xí)算法。
[1] BETHART S,MARTIN J H.Identification of event mentions and their semantic class[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Sydney,Australia:[s.n.],2006:146-154.
[2] LI P,ZHOU G,ZHU Q.Minimally supervised Chinese event extraction from multiple views[J].ACM Transactions on Asian and Low-resource Language Information Processing,2016,6(2):13.
[3] NGUYEN M T,NGUYEN T T.Extraction of disease events for a real-time monitoring system[C]//Proceedings of Symposium on Information and Communication Technology.Washington D.C.,USA:IEEE Press,2013:139-147.
[4] 侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件識別研究[J].計算機(jī)工程,2012,38(24):191-195.
[5] TSOLMON B,LEE K S.An event extraction model based on timeline and user analysis in latent dirichlet allocation[M].New York,USA:ACM Press,2014.
[6] SILVA J D A,HRUSCHKA E R.A support system for clustering data streams with a variable number of clusters[J].ACM Transactions on Autonomous & Adaptive Systems,2016,11(2):11.
[7] LIN C X,ZHAO B,MEI Q.PET:a statistical model for popular events tracking in social communities[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2010:929-938.
[8] DIAO Q,JIANG J,ZHU F,et al.Finding bursty topics from microblogs[C]//Proceedings of Association for Computational Linguistics.[S.1.]:Association for Computational Linguistics,2012:536-544.
[9] KLEINBERG J.Bursty and hierarchical structure in streams[J].Data Mining & Knowledge Discovery,2003,7(4):373-397.
[10] LAPPAS T,ARAI B,PLATAKIS M,et al.On burstiness-aware search for document sequences[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2009:477-486.
[11] ALVES R A D S,ASSUNCAO R M,STANCIOLI V D M P O.Burstiness scale:a parsimonious model for characterizing random series of events[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York,USA:ACM Press,2016:1405-1414.
[12] KALOGERATOS A,ZAGORISIOS P,LIKAS A.Improving text stream clustering using term burstiness and co-burstiness[C]//Proceedings of Hellenic Conference on Artificial Intelligence.Athens,Hellenic:[s.n.],2016:1-9.
[13] ZHAO L,CHEN F,LU C T,et al.Online spatial event forecasting in microblogs[J].ACM Transactions on Spatial Algorithms & Systems,2016,2(4):15.
[14] SCHUBERT E,WEILER M,KRIEGEL H P.SPOTHOT:scalable detection of geo-spatial events in large textual streams[C]//Proceedings of International Conference on Scientific & Statistical Database Management.Washington D.C.,USA:IEEE Press,2016:1-12.
[15] QUEZADA M,POBLETE B.Location-aware model for news events in social media[C]//Proceedings of International ACM SIGIR Conference.New York,USA:ACM Press,2015:935-938.
[16] LAPPAS T,VIEIRA M R,GUNOPULOS D,et al.On the spatiotemporal burstiness of terms[J].Proceedings of the VLDB Endowment,2012,5(9).
[17] TAMURA K,MATSUI T,KITAKAMI H,et al.Identifying local temporal burstiness using MACD histogram[C]//Proceedings of IEEE International Conference on Systems,Man,and Cybernetics.Washington D.C.,USA:IEEE Press,2015:2666-2671.
[18] DODDINGTON G,MITCHELL A,PRZYBOCKI M,et al.The automatic content extraction program-tasks,data,and evaluation[C]//Proceedings of LREC’04.Washington D.C.,USA:IEEE Press,2004:158-165.
[19] PUSTEJOVSKY J,HANKS P,SAURI R,et al.The timebank corpus[C]//Proceedings of Corpus Linguistics Conference.Washington D.C.,USA:IEEE Press,2003:215-222.
[20] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence Data[J].Machine Learning 2002,3(2):282-289.
[21] 馬雷雷,李宏偉,連世偉,等.地名知識輔助的中文地名消歧方法[J].地理與地理信息科學(xué),2016,32(4):5-10.
[22] SILVA J A,FARIA E R,BARROS R C,et al.Data stream clustering:a survey[J].ACM Computing Surveys,2014,46(1):13.
[23] 蔡偃武.面向大規(guī)模數(shù)據(jù)的在線新事件檢測[D].上海:華東理工大學(xué),2014.
[24] YIN J,WANG J.A text clustering algorithm using an online clustering scheme for initialization[C]//Proceedings of ACM SIGKDD International Conference.New York,USA:ACM Press,2016:1995-2004.
[25] PENNINGTON J,SOCHER R,MANNING C.Glove:global vectors for word representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Washington D.C.,USA:IEEE Press,2014:1532-1543.
[26] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[EB/OL].[2013-01-12].https://www.mendeley.com.
[27] FENG W,ZHANG C,ZHANG W,et al.STREAMCUBE:hierarchical spatio-temporal hashtag clustering for event exploration over the twitter stream[C]//Proceedings of IEEE International Conference on Data Engineering.Washington D.C.,USA:IEEE Press,2015:1561-1572.
[28] BLER D M,LAFFERTY J D.Dynamic topic models[C]//Proceedings of DBLP’06.Washington D.C.,USA:IEEE Press,2006:113-120.