趙旭劍,王崇偉,王俊力
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川綿陽 621010)
社交網(wǎng)絡(luò)平臺(tái)的開放性與社交性導(dǎo)致其迅速發(fā)展,與之對(duì)應(yīng)的則是爆炸式的微博數(shù)據(jù)增長[1]。微博中突發(fā)社會(huì)事件以社交網(wǎng)絡(luò)或新聞網(wǎng)站為傳播載體,經(jīng)過傳播發(fā)酵產(chǎn)生社會(huì)熱點(diǎn)事件,隨著時(shí)間推移與事態(tài)發(fā)展,熱點(diǎn)事件形成動(dòng)態(tài)演化,在各個(gè)時(shí)間戳上產(chǎn)生不同的關(guān)鍵信息,其中蘊(yùn)含著事件間錯(cuò)綜復(fù)雜的發(fā)展演化關(guān)系。盡管微博擁有豐富的社會(huì)熱點(diǎn)事件資源,但面對(duì)海量數(shù)據(jù),用戶卻難以捕獲社會(huì)熱點(diǎn)事件中的各個(gè)演化階段的關(guān)鍵信息。作為社交網(wǎng)絡(luò)的代表性平臺(tái),新浪微博為事件的傳播作出了巨大貢獻(xiàn),但從社會(huì)網(wǎng)絡(luò)信息傳播的角度看,微博的“轉(zhuǎn)發(fā)”特性帶來大量冗余信息也導(dǎo)致了信息泛濫,因此,社會(huì)熱點(diǎn)事件的過濾篩選和關(guān)鍵事件抽取對(duì)用戶了解社會(huì)熱點(diǎn)、追蹤熱點(diǎn)演化具有重要意義[2-4]。此外,從社會(huì)熱點(diǎn)事件中提取關(guān)鍵事件,對(duì)決策者分析輿情態(tài)勢、引導(dǎo)社會(huì)輿論等同樣具有研究意義。
目前,社會(huì)熱點(diǎn)事件的相關(guān)研究工作以事件內(nèi)容特征為基礎(chǔ),傳統(tǒng)方法中詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)模型是衡量文本重要性的最常用模型,但TF-IDF 模型僅能在詞語級(jí)別揭示事件的重要性。最近有研究人員基于貝葉斯網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)輿情事件分析[5],也有一些研究提出將事件建模為圖結(jié)構(gòu),利用支配集算法或計(jì)算圖節(jié)點(diǎn)的度與聚集系數(shù),從圖論的角度考慮節(jié)點(diǎn)的重要性,從而提取關(guān)鍵事件[6-7],但構(gòu)建圖需要豐富的事件語義信息,而這是微博數(shù)據(jù)所缺乏的??傊?,以上研究都忽略了微博環(huán)境下事件的傳播對(duì)關(guān)鍵事件的影響。
為解決上述問題,本文提出一種融合事件社會(huì)影響力和時(shí)間分布的微博關(guān)鍵事件提取方法。首先,基于微博中事件特征對(duì)事件的社會(huì)影響力建模;然后,基于事件演化的時(shí)間分布特征,提取不同時(shí)間分布下的關(guān)鍵事件;最后,基于真實(shí)微博數(shù)據(jù)集的實(shí)驗(yàn)表明,本文方法能有效提取社會(huì)熱點(diǎn)事件各演化階段的關(guān)鍵事件。本文主要工作如下:
1)提出了一種建模微博事件重要性的方法。通過建立與事件主題相關(guān)的社會(huì)影響模型,挖掘微博事件重要元素,構(gòu)建基于微博社會(huì)影響力的事件重要性評(píng)價(jià)模型。
2)建立融合事件社會(huì)影響力和時(shí)間分布的微博關(guān)鍵事件檢測模型。基于事件社會(huì)影響力,融合微博事件演化過程中的時(shí)間特性以捕獲事件在不同時(shí)間分布下的差異,并檢測各演化階段的關(guān)鍵事件。
3)在兩個(gè)真實(shí)微博數(shù)據(jù)集上對(duì)本文提出的抽取方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證并構(gòu)建了一個(gè)微博關(guān)鍵事件抽取系統(tǒng),實(shí)驗(yàn)結(jié)果表明,所提方法能有效抽取微博熱點(diǎn)中的關(guān)鍵事件,抽取效果優(yōu)于傳統(tǒng)方法。
面向社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘是目前Web 文本挖掘的重要研究方向。針對(duì)微博的數(shù)據(jù)挖掘分析一般包含話題事件挖掘、情感分析和網(wǎng)絡(luò)輿情分析等。其中話題事件挖掘包括高質(zhì)量信息抽?。?]和事件演化挖掘[9-10]等,而目前高質(zhì)量信息抽取側(cè)重于事件抽?。?1]和事件摘要[12],有別于本文工作所關(guān)注的關(guān)鍵事件抽取研究。當(dāng)前社會(huì)熱點(diǎn)中關(guān)鍵事件提取方法可分為基于傳統(tǒng)內(nèi)容特征的方法、基于圖的方法和基于機(jī)器學(xué)習(xí)的方法,下面將簡述不同方法的特點(diǎn)與不足。
1)基于傳統(tǒng)內(nèi)容特征的方法。該類方法利用事件內(nèi)容特征對(duì)事件進(jìn)行評(píng)價(jià)排序,通過得分排名提取關(guān)鍵事件。如歐陽逸等[11]計(jì)算事件中關(guān)鍵詞的TF-IDF 得分,將關(guān)鍵詞得分之和作為事件得分,提取得分排名靠前的事件作為關(guān)鍵事件;彭敏等[8]將事件多特征融合并轉(zhuǎn)換到小波域捕獲事件間的細(xì)節(jié)差異,并引入核主成分分析進(jìn)行特征變換提取關(guān)鍵事件;夏立新等[13]利用事件熱點(diǎn)劃分輿情關(guān)系,基于TextRank算法提取事件關(guān)鍵詞和關(guān)鍵事件的文本摘要,最后建立事理圖譜并可視化事件摘要。
2)基于圖的方法。該類方法基于事件內(nèi)容特征關(guān)系把事件建模為圖結(jié)構(gòu),利用圖算法,將提取關(guān)鍵事件轉(zhuǎn)化為提取圖中關(guān)鍵節(jié)點(diǎn)。如李培等[6]基于相似性將微博建模為多視點(diǎn)圖,利用最小權(quán)重支配集求解重要節(jié)點(diǎn)以提取關(guān)鍵事件,并引入Top-K集緩解微博數(shù)據(jù)量巨大的問題;Yuan 等[7]引入度與聚集系數(shù)[14]評(píng)價(jià)圖中節(jié)點(diǎn)重要性提取關(guān)鍵事件。
3)基于機(jī)器學(xué)習(xí)的方法。該類方法利用機(jī)器學(xué)習(xí)算法對(duì)熱點(diǎn)事件建模學(xué)習(xí),實(shí)現(xiàn)關(guān)鍵事件提取。如田世海等[15]融合網(wǎng)絡(luò)表示學(xué)習(xí)與K均值聚類算法,將輿情事件用低維向量表示,聚類得到輿情事件;李進(jìn)華等[16]使用K均值聚類算法、K最近鄰分類算法和決策樹三類方法建模微博事件的地理特征,檢測提取不同地理位置的關(guān)鍵事件。
上述方法從事件內(nèi)容特征的角度對(duì)事件重要性進(jìn)行評(píng)價(jià),并引入了外部模型(例如圖算法)進(jìn)行算法增強(qiáng),但忽略了事件傳播對(duì)事件重要性的影響,彭敏等[8]雖然引入微博事件的傳播行為特征,但復(fù)雜的數(shù)學(xué)變換將導(dǎo)致巨大的時(shí)間開銷?;跈C(jī)器學(xué)習(xí)的方法雖然對(duì)事件特征進(jìn)行細(xì)粒度建模,但忽略了社交網(wǎng)絡(luò)中的事件特性。本文利用事件的社會(huì)影響力彌補(bǔ)基于內(nèi)容特征方法的不足,此外引入事件時(shí)間分布,最大限度保證抽取事件在時(shí)間線上分布的合理性,提升關(guān)鍵事件抽取精度。
定義1熱點(diǎn)事件。熱點(diǎn)事件E指社會(huì)突發(fā)事件在傳播介質(zhì)中經(jīng)過傳播發(fā)酵和演化發(fā)展形成的具有一定演化階段的事件聚合體。
定義2關(guān)鍵事件。關(guān)鍵事件e指熱點(diǎn)事件E在其演化過程中,各時(shí)間戳上最具代表性的事件,是組成熱點(diǎn)事件的基本單位。因此,上述熱點(diǎn)事件E可形式化定義為E={e1,e2,…,ei,ei+1,…,en},其中ei表示E在第i個(gè)時(shí)間戳上最具代表性的事件。
為有效提取社會(huì)熱點(diǎn)中的關(guān)鍵事件,反映社會(huì)熱點(diǎn)事件的發(fā)展演化過程,本文提出一種融合微博事件社會(huì)影響力和時(shí)間分布的關(guān)鍵事件抽取方法,主要包括如下4 個(gè)步驟,如圖1 所示。
圖1 融合社會(huì)影響力和時(shí)間分布的微博關(guān)鍵事件提取框架Fig.1 Framework of key event extraction integrating social influence and temporal distribution
1)微博數(shù)據(jù)采集,基于微博的“話題”標(biāo)簽對(duì)熱點(diǎn)事件的數(shù)據(jù)進(jìn)行采集。
2)文本預(yù)處理,對(duì)微博數(shù)據(jù)進(jìn)行切分、冗余過濾、時(shí)間表達(dá)式規(guī)范化等。
3)社會(huì)影響力建模,基于微博的社會(huì)影響力特征建立事件重要性評(píng)價(jià)模型。
4)時(shí)間分布模型,分析事件演化的時(shí)間分布,捕獲不同時(shí)間戳上的關(guān)鍵事件。
為采集相關(guān)社會(huì)事件微博數(shù)據(jù),利用微博的“話題”標(biāo)簽,能夠有效提升檢索事件帖子的相關(guān)性。根據(jù)微博的搜索工具(https://s.weibo.com)對(duì)相關(guān)話題進(jìn)行檢索,基于Scrapy爬蟲框架捕獲相關(guān)數(shù)據(jù)。圖2 展示了微博數(shù)據(jù)采集以及儲(chǔ)存的設(shè)計(jì)流程。對(duì)于初始化層,首先確定研究的社會(huì)熱點(diǎn)事件,分析事件核心詞和起止時(shí)間;在業(yè)務(wù)層,利用核心詞和時(shí)間構(gòu)建爬蟲URL 地址池,基于Scrapy 爬蟲框架模擬用戶登錄并解析頁面中的微博帖子數(shù)據(jù);最后,將數(shù)據(jù)規(guī)范化并儲(chǔ)存。通過爬蟲解析并儲(chǔ)存到本地的微博數(shù)據(jù)主要包括微博發(fā)布者、微博原始文本、發(fā)布時(shí)間、轉(zhuǎn)發(fā)量、評(píng)論量、點(diǎn)贊量和原文鏈接等核心數(shù)據(jù)。
圖2 數(shù)據(jù)采集流程Fig.2 Flowchart of data acquisition
對(duì)于微博集合,本文的預(yù)處理模塊主要包含微博切分、冗余過濾和時(shí)間規(guī)范化3 個(gè)步驟。圖3 展示了文本預(yù)處理過程。
圖3 文本預(yù)處理流程Fig.3 Flowchart of text preprocessing
微博切分 每一個(gè)完整的微博句子都能表示一種完整的事件語義信息,因此基于表達(dá)句子結(jié)尾意思的標(biāo)點(diǎn)符號(hào)對(duì)微博帖子進(jìn)行切分,得到大致的事件集合,然后考慮將每一個(gè)包含時(shí)間表達(dá)式的微博帖子視為一個(gè)事件。事件文本中的鏈接將被移除,并且少于25 個(gè)字符的事件將被舍棄,這些事件構(gòu)成了最初的事件集合。
其中:Norz(len(ei))為歸一化事件ei的內(nèi)容長度,ε指自然常數(shù)。
冗余過濾 由于微博的“社交”特性,轉(zhuǎn)發(fā)將導(dǎo)致大量的冗余微博,使事件集合存在大量冗余事件導(dǎo)致信息泛濫。此外,同一社會(huì)事件不同發(fā)布人員可能包含相似的文本內(nèi)容,這部分重復(fù)數(shù)據(jù)也應(yīng)該考慮刪除。因此為了有效過濾冗余帖子,基于顯式相似度對(duì)事件集合進(jìn)行冗余過濾,提出了使用兩層相似度衡量事件相似性,分別是句子層面和事件集合層面:句子層面的相似度由最長公共子串計(jì)算,可以有效去除由轉(zhuǎn)發(fā)帶來的重復(fù)微博;事件集合層面的相似度利用TF-IDF 算法將事件文本表示為向量,通過計(jì)算事件向量的余弦相似性得到,能有效去除由相同事件帶來的重復(fù)微博。最后總體相似度由式(2)計(jì)算:
基于事件間的總體相似度,利用增量聚類的思想形成事件集合,此時(shí)每個(gè)事件集合中事件內(nèi)容高度相似,保留每個(gè)事件集合中可理解性權(quán)重最大的事件,由此得到了低冗余度的事件集合。
時(shí)間規(guī)范化 時(shí)間是事件最重要的特征之一,微博事件中時(shí)間表達(dá)式主要可分為兩類[17],分別為顯式時(shí)間表達(dá)和隱式時(shí)間表達(dá),其中顯式時(shí)間表達(dá)指直接的時(shí)間戳描述,而隱式事件表達(dá)指間接的時(shí)間戳描述。本文沿用其中對(duì)時(shí)間概念的定義,并對(duì)時(shí)間進(jìn)行了細(xì)粒度劃分,把顯式時(shí)間表達(dá)劃分為完整顯式時(shí)間表達(dá)和模糊顯式時(shí)間表達(dá),具體信息如表1 所示。時(shí)間表達(dá)式規(guī)范化主要是將模糊顯式時(shí)間表達(dá)和隱式時(shí)間表達(dá)進(jìn)行規(guī)范,將其統(tǒng)一為完整顯式時(shí)間表達(dá)的格式。
表1 時(shí)間表達(dá)式分類Tab.1 Classification of time expressions
此外,通過數(shù)據(jù)分析發(fā)現(xiàn)微博中社會(huì)事件的時(shí)間精度往往較低,因此本文僅將事件的時(shí)間精度精確到“日”級(jí)別。對(duì)于顯式時(shí)間表達(dá),利用正則表達(dá)式對(duì)事件中的所有顯式時(shí)間進(jìn)行識(shí)別,設(shè)定了兩種模糊粒度,分別為(a)“X 月X 日”和(b)“X 日”,并提取其時(shí)間表達(dá)式,采用一種順序匹配的方法對(duì)事件中的模糊時(shí)間進(jìn)行補(bǔ)全。首先,經(jīng)過時(shí)間表達(dá)式匹配得到了每個(gè)事件中的所有時(shí)間表達(dá)式集合,并把該事件微博的發(fā)表時(shí)間作為基準(zhǔn)時(shí)間;然后,遍歷時(shí)間集合中的時(shí)間表達(dá)式,用基準(zhǔn)時(shí)間補(bǔ)全每次遍歷到的時(shí)間戳(如果該時(shí)間戳為模糊時(shí)間的話);接著,將新補(bǔ)全的時(shí)間表達(dá)式作為新的基準(zhǔn)時(shí)間,繼續(xù)遍歷時(shí)間集合,直到集合遍歷完畢。算法1 展示了對(duì)每個(gè)事件包含的模糊時(shí)間表達(dá)式規(guī)范化過程。
算法1 模糊時(shí)間表達(dá)式規(guī)范化。
輸入 事件tei,時(shí)間戳集合T={t1,t2,…,ti,ti+1,…,tn}。
輸出 具有標(biāo)準(zhǔn)化時(shí)間表達(dá)式的事件te'i。
對(duì)于隱式時(shí)間表達(dá),基于規(guī)則編寫隱式時(shí)間表達(dá)式識(shí)別的正則表達(dá)式,通過建立時(shí)間映射規(guī)則將隱式時(shí)間表達(dá)式規(guī)范化。例如“今日”“今天”和事件原始微博的發(fā)布時(shí)間建立映射關(guān)系,而“昨日”“昨天”在建立映射關(guān)系的前提下,相較基準(zhǔn)時(shí)間進(jìn)行時(shí)間偏移。表2 展示了部分高頻隱式時(shí)間表達(dá)式的映射關(guān)系。
表2 隱式時(shí)間表達(dá)映射Tab.2 Implicit time expression mapping
微博熱點(diǎn)事件往往隨時(shí)間在各個(gè)演化階段產(chǎn)生事件內(nèi)容的動(dòng)態(tài)變化,導(dǎo)致傳統(tǒng)的事件抽取方法不能準(zhǔn)確提取各個(gè)演化階段的事件信息;同時(shí),用于構(gòu)建熱點(diǎn)事件演化集合的事件個(gè)體在時(shí)間維度上必須能全面地代表熱點(diǎn)事件的演化信息。對(duì)于社交網(wǎng)絡(luò)而言,意見領(lǐng)袖對(duì)微博社會(huì)事件傳播具有更強(qiáng)的影響力,因?yàn)樗麄兺ǔ1绕胀ㄓ脩魝鬟f更多的關(guān)鍵信息,因此,意見領(lǐng)袖發(fā)表的帖子更有可能成為具有代表性的事件。本文提出使用基于社會(huì)影響力的評(píng)價(jià)模型來衡量事件的代表性,利用微博的轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊來量化事件的代表性程度。如果一篇文章有更多轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊,那么本文認(rèn)為該帖子包含了大量用戶都能識(shí)別的基本信息。因此,與那些轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊相對(duì)較少的微博相比,這條微博將更有可能討論具有代表性的事件。具體來說,事件的社會(huì)影響力(Social Influence,SI)可以用式(3)來表示:
其中轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊的數(shù)量被定義為fn、Cn和ln;α、β和γ表示不同的影響力權(quán)重;ε是自然常數(shù),使計(jì)算得到的社會(huì)影響力大于0 并且更加平滑。
微博熱點(diǎn)事件由許多關(guān)鍵事件構(gòu)成,反映熱點(diǎn)事件隨時(shí)間的演變。對(duì)于同時(shí)發(fā)生的事件,用戶的注意力是有限的,這意味著用戶通常關(guān)注具有更大社會(huì)影響力的事件,因此,提取代表性事件需要考慮事件的時(shí)間分布。本文根據(jù)事件的時(shí)間分布,選取具有更大社會(huì)影響力的事件來表征關(guān)鍵事件。
關(guān)鍵事件序列在事件演化時(shí)間軸上的分布是較為分散的,過于集中在某個(gè)時(shí)間戳上的關(guān)鍵事件將無法反映事件演化的全部過程。通過考慮事件的社會(huì)影響力,對(duì)每一個(gè)時(shí)間戳的重要性程度加權(quán),在每一個(gè)時(shí)間戳上提取具有更高社會(huì)影響力的事件,同時(shí)通過時(shí)間戳權(quán)重確定每個(gè)時(shí)間戳上提取的事件數(shù)量。對(duì)事件的時(shí)間序列Et,每個(gè)時(shí)間戳的權(quán)重IW(ti)定義為:
即ti時(shí)刻事件的社會(huì)影響力之和。同時(shí),ti時(shí)刻提取的關(guān)鍵事件個(gè)數(shù)N(ti)被定義為:
式中:Min_IW和Max_IW分別指所有時(shí)間戳上社會(huì)影響力的最小值和最大值,通過歸一化計(jì)算得到每個(gè)時(shí)間戳的重要性程度加權(quán);n是一個(gè)常數(shù),表示每個(gè)時(shí)間戳提取關(guān)鍵事件的最大值,通過實(shí)驗(yàn)本文n值取2,最外層括號(hào)表示向下取整。
算法2 描述了通過融合微博事件演化過程中的時(shí)間特性以捕獲事件在不同時(shí)間分布下的差異,并檢測各演化階段關(guān)鍵事件的具體過程。首先對(duì)熱點(diǎn)事件E={e1,e2,…,ei,ei+1,…,en},記錄每一個(gè)事件的時(shí)間戳信息,得到事件的時(shí)間戳序列Et={t1:[…,e(i-1),ei,e(i+1),…],t2:[…,e(j-1),ej,e(j+1),…],…};然后遍歷每個(gè)時(shí)間戳ti中的事件,將ti中具有最大社會(huì)影響力的事件加入關(guān)鍵事件集合C中,并從ti中刪除該事件;接著判斷ti時(shí)刻提取的關(guān)鍵事件是否為n個(gè),若小于n則重復(fù)上述過程直到提取事件個(gè)數(shù)滿足條件;最后得到抽取的關(guān)鍵事件集合C。
算法2 關(guān)鍵事件提取。
輸入 熱點(diǎn)事件E={e1,e2,…,ei,ei+1,…,en}。
輸出 關(guān)鍵事件抽取結(jié)果C={e'1,e'2,…,e'j,e'j+1,…,e'm}。
為了評(píng)估系統(tǒng)的性能,在新浪微博上收集了兩個(gè)真實(shí)事件的微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),通過特定事件相關(guān)的查詢?cè)~,對(duì)包含這些查詢?cè)~的微博帖子進(jìn)行爬取。數(shù)據(jù)集詳情如表3所示,圖4 顯示了數(shù)據(jù)集中不同日期的帖子數(shù)量。
表3 數(shù)據(jù)集詳情Tab.3 Details of datasets
圖4 不同時(shí)間節(jié)點(diǎn)的帖子數(shù)量Fig.4 Number of posts at different time nodes
為了評(píng)測事件提取方法的實(shí)驗(yàn)性能,將本文方法與4 種基準(zhǔn)方法進(jìn)行了比較,如下所述:
1)隨機(jī)選擇(Random),從事件集合中隨機(jī)選擇關(guān)鍵事件,表示一種隨機(jī)的思想。
2)詞頻-逆文本頻率(TF-IDF)[11],計(jì)算TF-IDF 分?jǐn)?shù),選擇較高分?jǐn)?shù)的事件作為關(guān)鍵事件。
3)最小權(quán)重支配集(Minimum-Weight connected Dominating Set,MWDS)[6],基于事件相似度構(gòu)建圖結(jié)構(gòu),利用最小權(quán)重支配集算法選擇關(guān)鍵事件。
4)度與聚集系數(shù)(Degree and Clustering Coefficient Information,DCCI)[7],基于事件相似度構(gòu)建圖結(jié)構(gòu),基于度與聚集系數(shù)選擇關(guān)鍵事件。
本文的事件提取評(píng)價(jià)標(biāo)準(zhǔn)基于人工標(biāo)注,邀請(qǐng)數(shù)據(jù)挖掘的研究人員從微博帖子中提取標(biāo)準(zhǔn)的關(guān)鍵事件,并使用完整性和冗余度作為事件提取的評(píng)價(jià)指標(biāo)。完整性是指集合中的關(guān)鍵事件是否能充分反映熱點(diǎn)事件隨時(shí)間的演變過程。本文基于ROUGE(Recall-Oriented Understudy for Gisting Evaluation)來評(píng)估事件集的完整性[18]。具體使用ROUGE-1和ROUGE-L(ROUGE-Longest common subsequence)來評(píng)價(jià)事件集的完整性;此外,本文還用冗余度來評(píng)估事件集的重復(fù)信息。本文定義每個(gè)事件的冗余度是與集合中最相似事件的相似度,而事件集合的冗余度是每個(gè)事件的冗余度之和。這意味著每個(gè)事件與其他事件盡可能不同,事件集的冗余度將更小。其中冗余度(Redundancy)由式(6)計(jì)算:
表4 展示了在兩個(gè)不同數(shù)據(jù)集上的幾種方法的性能比較結(jié)果。與其他方法相比,在完整性評(píng)估中,本文方法取得了最佳的ROUGE-1 和ROUGE-L,這意味著本文提出的基于社會(huì)影響力和時(shí)間分布的方法能夠從微博中準(zhǔn)確提取關(guān)鍵事件。此外,本文方法在Dataset1的冗余度評(píng)價(jià)中取得了第二名,在Dataset2中取得了第一名,這意味著本文方法提取的關(guān)鍵事件幾乎都是純凈的,即每個(gè)事件都能較好地表示熱點(diǎn)事件在不同演化階段的差異。進(jìn)一步分析,本文方法在Dataset1上的冗余度性能略差于TF-IDF 算法,部分原因是TF-IDF 算法考慮了事件中單詞的特殊性,導(dǎo)致TF-IDF 算法提取的關(guān)鍵事件是盡可能稀有的。而事實(shí)上,由于社交網(wǎng)絡(luò)的轉(zhuǎn)發(fā)特性,包含稀有詞匯的事件社會(huì)影響很小,這恰恰與本文考慮的方法相反。
表4 事件提取性能比較Tab.4 Comparison of event extraction performance
為了驗(yàn)證本文方法在微博環(huán)境下抽取關(guān)鍵事件的有效性,本文設(shè)計(jì)并開發(fā)了一個(gè)面向微博的微博事件抽取系統(tǒng)Post2Event。如圖5 所示,Post2Event 主要包含兩個(gè)對(duì)象模塊:數(shù)據(jù)模塊(圖5(a))和事件模塊(圖5(b))。數(shù)據(jù)模塊顯示本地?cái)?shù)據(jù)集以及數(shù)據(jù)集中各熱點(diǎn)事件的微博熱度。用戶可以瀏覽本地?cái)?shù)據(jù)集,并在界面中可視化每個(gè)數(shù)據(jù)的詳細(xì)信息。此外,Post2Event 提供了一個(gè)查詢接口,用戶可以從數(shù)據(jù)庫中檢索相關(guān)的熱點(diǎn)事件。在事件模塊中,用戶能得到系統(tǒng)自動(dòng)抽取出的各個(gè)時(shí)間戳上的關(guān)鍵事件以及整個(gè)熱點(diǎn)事件的關(guān)鍵詞分布,讓用戶可以準(zhǔn)確把握熱點(diǎn)事件演化分支的主題方向。
圖5 Post2Event系統(tǒng)快照Fig.5 Snapshots of Post2Event system
社會(huì)熱點(diǎn)事件爆發(fā)往往會(huì)引起數(shù)百萬的微博討論,針對(duì)新浪微博信息爆炸式增長的問題,從社會(huì)熱點(diǎn)事件中提取關(guān)鍵事件具有較高應(yīng)用價(jià)值。本文通過將事件的社會(huì)影響力和時(shí)間分布進(jìn)行混合建模,提出一個(gè)面向微博熱點(diǎn)事件的關(guān)鍵事件提取框架,能夠有效抽取微博熱點(diǎn)中的關(guān)鍵事件,建模事件的發(fā)展演化過程。在兩個(gè)真實(shí)微博數(shù)據(jù)集上對(duì)本文提出的抽取方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證并構(gòu)建了一個(gè)微博關(guān)鍵事件抽取系統(tǒng),對(duì)完整性和冗余度兩個(gè)指標(biāo)進(jìn)行評(píng)價(jià),結(jié)果表明本文提出的抽取方法能保證提取事件集合的完整性,同時(shí)有效減小提取事件集合的冗余度。