張仰森,段宇翔,黃改娟,蔣玉茹
(1. 北京信息科技大學 智能信息處理研究所,北京 100192;2. 國家經濟安全預警工程北京實驗室,北京 100044)
隨著計算機與互聯(lián)網(wǎng)技術的蓬勃發(fā)展,互聯(lián)網(wǎng)信息呈現(xiàn)出爆炸性增長,越來越多的人將互聯(lián)網(wǎng)視為獲取信息的最佳平臺。如今,我們所處的不再是信息貧乏的時代,而是一個充斥著海量信息的新時代,所面臨的問題也從如何獲取信息變成了如何在短時間內獲取有價值的信息。關鍵詞檢索是目前從海量信息中獲取有用信息的主要途徑,但通過關鍵詞檢索得到的信息,其冗余度往往較高,同時有用信息也常常丟失。因此,人們迫切希望有一種方法可以自動處理大量信息并挖掘相關的話題,對話題相關信息進行有效的組織,以便于人們查詢。話題檢測與追蹤(topic detection and tracking,TDT)技術就是在這種需求下應運而生的,它可以幫助普通網(wǎng)民從海量信息中篩選感興趣的話題信息,也可以幫助相關部門對輿情進行監(jiān)控。通過話題檢測技術發(fā)現(xiàn)熱點話題,使用話題追蹤技術對檢測到的熱門話題進行后續(xù)追蹤,這樣就可以有效地組織起一個與某話題有關的信息集合,進而可以探索事件中各種信息之間的關系。
本文第1節(jié)介紹了話題檢測與追蹤的發(fā)展歷程;第2節(jié)介紹話題檢測技術相關成果與方法;第3節(jié)介紹話題追蹤技術,從非自適應話題追蹤和自適應話題追蹤兩個方面進行介紹;第4節(jié)列舉了話題檢測與追蹤技術中存在的難題,并對該領域的發(fā)展前景進行展望。
1996年,美國國防高級研究計劃署迫切地需要一種可以實現(xiàn)新聞數(shù)據(jù)流主題判斷的全自動化技術,于是就產生了話題檢測與追蹤技術的概念。話題檢測與追蹤技術的發(fā)展可大致分為三個階段,如表1所示。
表1 話題檢測與追蹤技術發(fā)展歷程
話題檢測與跟蹤技術中的“話題”與一般的信息技術中涉及的“話題”不同,它表示一個相對具體的“事件”,而不是某一個“領域”。例如,韓美軍演、福島核電站泄露等。下面將介紹話題檢測與追蹤研究中的四個研究要素,以便更好地理解本文的研究內容。
(1) 話題: 通常是指一個由若干個相關子事件或活動組合而成的事件集合。一個話題往往經歷事件的產生、發(fā)展、演化、消亡四個階段。例如,尋找森林大火的幸存者、進行災后重建等,都可以視為與某次自然災害相關的話題。
(2) 事件: 通常是指發(fā)生在特定時間、特定地點,具備時間、地點、對象三要素的事情[1]。例如,2001年7月13日,在俄羅斯首都莫斯科,國際奧委會主席薩馬蘭奇宣布北京成為2008年奧運會主辦城市。
(3) 主題: 主題的定義相對寬泛,可以簡單理解為多個相關話題的抽象描述,但并不涉及任何實際事件。例如,“自然災害”就是一個主題,“奧運會”也是一個主題。
(4) 報道: 報道是指與話題事件相關,包含多個描述語句的新聞片段。例如,據(jù)中央氣象臺消息,10日白天起,持續(xù)多日的南部強降雨天氣范圍繼續(xù)擴大,強度顯著增強,中央氣象臺1月10日18時發(fā)布暴雨紅色預警。
在檢測追蹤技術的文獻調研中,本文主要針對話題和事件這兩個要素展開。從話題的相關定義可以看出,如果一個目標事件與某個話題內的事件有聯(lián)系,那么可以認為該事件在該話題的范圍內,事件也可以看作話題的一種低粒度的展現(xiàn)。
目前,主要有兩種類型的話題,一種是以新聞報道為主體的傳統(tǒng)媒體話題,另一種是以微博、Twitter為代表的社交媒體話題。其中,社交媒體話題建立在Web 2.0之上,它與傳統(tǒng)媒體話題的區(qū)別主要體現(xiàn)在以下三點: ①以新聞報道為主體的傳統(tǒng)媒體在傳播信息時由編輯對信息進行細致的人工處理,話題中心清楚、明確,而社交媒體中的大部分內容是由每一個用戶自由創(chuàng)造和編輯的,話題中心遠沒有傳統(tǒng)媒體那么清晰; ②社交媒體比傳統(tǒng)媒體包含更多的信息,以微博為例,其不僅有轉發(fā)、評論、點贊等信息,還有標簽、影響力、地理定位等諸多非文本信息; ③社交媒體較傳統(tǒng)媒體而言,口語化傾向更加明顯,規(guī)范性較差。上面所列舉的三個顯著區(qū)別導致了社交媒體話題的檢測與追蹤難度比傳統(tǒng)媒體更高。
美國國家標準技術研究所為TDT研究設定了五項基本任務,包括: 報道切分任務、話題跟蹤任務、話題檢測任務、首次報道檢測任務、關聯(lián)檢測任務。
1.3.1 報道切分任務
報道切分任務(story segmentation task,SST)要求將原始報道分割成具有完整結構和統(tǒng)一主題的報道。如果有一條包括不同類型信息的報道,報道切分系統(tǒng)需要對報道進行識別并按照要求切分。SST最初針對的是新聞廣播報道,其切分方式包括以下兩種: 一、直接切分音頻信號;二、將音頻信號轉為文本信息后進行切分。報道切分過程如圖1所示。
圖1 報道切分過程
1.3.2 話題跟蹤任務
話題跟蹤任務(topic tracking task,TT)是對已知的話題報道進行后續(xù)跟蹤。由于已知的話題沒有明確、詳細的描述,描述信息主要是給定的若干篇相關報道。美國國家標準技術研究院為每一個待測話題提供1~4篇相關的報道,同時提供了相應的訓練語料來訓練跟蹤系統(tǒng)和更新話題模型。話題跟蹤任務通過計算后續(xù)數(shù)據(jù)流中每一篇報道與話題模型的匹配程度來判斷新數(shù)據(jù)是否屬于該話題,從而實現(xiàn)跟蹤功能。
1.3.3 話題檢測任務
話題檢測任務(topic detection task,TD)主要是檢測系統(tǒng)中未知的話題。TD任務在構建話題系統(tǒng)時的先驗信息非常少,因此,TD系統(tǒng)必須在不清楚話題信息的情況下完成檢測模型的構建。同時,構建的檢測模型不能僅針對一個特殊的話題,而是應可以檢測所有的話題。通過檢測模型對后續(xù)數(shù)據(jù)流的檢測和識別,找出數(shù)據(jù)庫中沒有出現(xiàn)的話題并生成“新話題”[2]。話題檢測過程如圖2所示。
圖2 話題檢測過程
1.3.4 首次報道檢測任務
首次報道檢測任務(first-story detection task,F(xiàn)SD)是要在時序報道流中檢測出各種話題的第一篇報道。總的來講,F(xiàn)SD與TD有相似之處,但是FSD的結果是某話題的第一篇報道,而TD的結果是關于某一話題的一系列報道,可以說,F(xiàn)SD是話題檢測系統(tǒng)的基礎和前提。
1.3.5 關聯(lián)檢測任務
關聯(lián)檢測任務(link detection task,LDT)是判斷兩篇報道是否屬于同一個話題。與TD相同,LDT也沒有先驗信息輔助判斷。所以,LDT系統(tǒng)必須能夠自己分析報道所描述的話題,并通過對比話題模型來判定兩篇報道的話題相關性。
話題檢測首先是在離線的靜態(tài)文本中提出的,而靜態(tài)文本的話題檢測一般都是基于LDA(latent Dirichlet allocation)主題模型或者改進的LDA主題模型。LDA主題模型將一篇文檔理解成由若干隱含主題組合而成,而隱含主題通過文檔中一些特定詞語來體現(xiàn)[3]。一般情況下,隱含主題被視為詞的一種概率分布,單個文檔可以由多個隱含主題按照一定比例來構成。本節(jié)將介紹三個典型的改進LDA主題模型,分別是有監(jiān)督潛在狄利克雷模型(supervised LDA,sLDA)、標簽潛在狄利克雷模型(labeled LDA,L-LDA)、在線潛在狄利克雷模型(online LDA,OLDA)。有監(jiān)督學習與無監(jiān)督學習最主要的區(qū)別在于,有監(jiān)督學習不僅將訓練數(shù)據(jù)傳給計算機,還將帶標簽的數(shù)據(jù)傳給計算機。在話題檢測與追蹤領域,有監(jiān)督LDA模型的效果要明顯優(yōu)于無監(jiān)督LDA模型,故僅介紹有監(jiān)督LDA模型。sLDA[4]是一個可以添加額外屬性的話題檢測模型,與普通的LDA模型的區(qū)別是,sLDA含有一個甚至多個文本標簽,可以通過文本標簽對建模過程進行監(jiān)督。Zhang等[5]使用經整理過濾后的北弗吉尼亞州和紐約市2016年300萬條的Twitter正文和評論數(shù)據(jù),進行交通事故的話題發(fā)現(xiàn)。在進行sLDA主題建模時,添加了上述兩個地區(qū)的高速公路事故記錄和15 000個環(huán)路探測器的交通數(shù)據(jù)。實驗結果證明,66%以上的事故可以通過事故日志找到,80%以上的事故能夠從探測器中的交通數(shù)據(jù)找到,其檢測準確率比LDA和SVM更高。既然sLDA需要通過標簽的建立來實現(xiàn)話題檢測,那么如何尋找最合適的標簽便成為了最大的問題。于是,Ramage等[6]在2009年提出了L-LDA模型,這是一個基于多標簽文本的主題模型,通過將標簽直接映射到主題的方法以實現(xiàn)文檔的多標簽決策。但是,L-LDA模型沒有考慮到人為設置的文檔類別標簽和通過主題模型提取出來的標簽之間的差異性,從而導致模型與文檔數(shù)據(jù)無法充分擬合,泛化能力較差。例如,LDA模型在進行話題提取時,經常會生成我們無法理解的內容,如果簡單地把生成的內容與文檔進行匹配關聯(lián),就會導致檢測準確率的下降。周先琳[7]對新浪微博短文本進行預處理后,使用改進后的VSM特征選擇方法對文本特征進行選擇,并構建動態(tài)L-LDA模型?;?萬多條預處理后的新浪微博文本進行實驗,可以發(fā)現(xiàn),動態(tài)L-LDA模型與LDA模型相比,前者在微博動態(tài)文本主題挖掘方面有明顯的優(yōu)勢。同樣的,為了解決L-LDA模型無法充分擬合和泛化性能較差的問題,江雨燕等[8]提出了一種可用于文檔多標簽判定的改進L-LDA模型,該模型定義了類別標記在獨享主題、共享主題之間的映射關系,這樣的映射關系可以更加真實地反映文檔的生成過程。基于新浪微博數(shù)據(jù)的實驗表明,該模型可以有效地解決類別標記在共享主題和獨享主題中分析困難的問題。
前面介紹的幾種模型都是在靜態(tài)數(shù)據(jù)下進行實驗的,但在真實情況下,數(shù)據(jù)通常不是靜態(tài)的,而是以在線文本數(shù)據(jù)流的形式存在,所以,將時間屬性引入LDA模型后就構建了OLDA模型。該模型為了保證主題的延續(xù)性,將范圍廣泛的主題進行一定的縮小,對即將消失的話題在時間粒度上做出延續(xù),減輕了主題演化過程中的偏差問題。余本功等[9]提出了一種改進的雙通道OLDA模型,該模型一方面改進了文檔中主題分布與詞分布之間的遺傳度,另一方面改進了詞概率的計算方法,有效解決了因為新、舊主題混合和冗余詞較多而導致的新興主題檢測困難的問題。
當前,適用于文本領域的聚類算法主要有四種,分別是: 基于劃分的聚類算法、基于增量式的聚類算法、基于層次的聚類算法和基于圖模型的聚類算法。因為基于劃分的聚類算法在話題檢測與追蹤任務中的效率較低,所以本文僅對后面三種聚類算法進行介紹。
2.2.1 基于增量式的聚類
增量式聚類算法是一種高效的處理文本數(shù)據(jù)流的算法,其中Single-Pass算法較為簡單且應用最廣。Single-Pass算法是處理流式數(shù)據(jù)的經典算法,對于輸入的流式數(shù)據(jù),按照輸入順序依次將每一條數(shù)據(jù)與已有類別進行匹配,若匹配成功則將該條數(shù)據(jù)歸入該類別,若匹配失敗則創(chuàng)建一個新類別來存放該數(shù)據(jù),這樣就實現(xiàn)了流式數(shù)據(jù)的聚類。結合微博文本和微博評論信息都是逐步增量產生的特點,下面將對Single-Pass算法在話題檢測中的應用進行介紹。
由于Single-Pass聚類算法是隨機選取聚類中心的,所以其聚類效率較低,針對這一缺點,李倩[10]提出了一種改進的Single-Pass聚類算法。在聚類中心的選擇上,設置鄰域半徑和最小密度閾值,并根據(jù)文檔處于鄰域半徑內的文檔數(shù)目與最小密度閾值的大小關系來確定初始聚類中心。在相似度的比較上,不是簡單地將新文檔與類中所有的文檔進行比較,而是與主題相似程度最高的文檔進行比較,如果其相似度小于設定的相似度閾值,則不需要再與其他文檔進行比較,極大地提升了檢測效率。葉施仁等[11]提出了一種結合孤立點預處理和Single-Pass聚類的中文微博熱點話題檢測模型。該模型主要有三部分工作: ①優(yōu)化微博文本的特征選擇策略; ②提出了微博文本閾值的概念,將主題分散的文本視為噪聲并進行過濾; ③引入主題詞的概念,而主題詞是根據(jù)中心向量的特征權重確定的。因為該模型加強了對孤立點的處理,同時優(yōu)化了中心向量的特征選擇和相關權重的設置,所以過濾掉了大量的噪聲數(shù)據(jù),使主題聚類更加準確。不同于葉施仁采用的設置文本閾值來進行噪聲過濾的方法,周雪梅等[12]在進行微博話題檢測時引入了文本重構的思想,在文本中定義了主題塊和細節(jié)塊兩個模塊,主題塊包括文本的標題和首段信息,細節(jié)塊包括文本的其余部分和文后的評論信息。因為標題和首段信息往往是文本的總結歸納,最具有區(qū)分性,所以用主題塊劃分出不同的主話題,而主話題下的小話題則是利用細節(jié)塊劃分。實驗語料來自2015年5月的新浪微博的社會新聞模塊,通過實驗數(shù)據(jù)分析得知,當主話題閾值為0.28,子話題閾值在0.28到0.58之間時,子話題區(qū)分效果基本可以與人工效果媲美。
2.2.2 基于層次的聚類
k-means算法是一種簡單好用的劃分聚類算法,但是算法中k值的選擇和初始聚類中心點的選擇是k-means算法的重點和難點。不同于k-means聚類算法,層次聚類是對樣本逐層聚類,直到滿足聚類要求,避免了參數(shù)設置和聚類中心點選取的難題。
Peixian Chen等[13]在進行Twitter研究的過程中提出了一種稱為HLTA的分層主題檢測方法,這個方法使用分層潛在樹模型來模擬單詞共現(xiàn)。HLTA中的每個潛在變量都表示文檔的分區(qū),分區(qū)中的文檔集群即視為主題,而這個主題一定是在屬于該主題的文檔中以高概率出現(xiàn),而在不屬于該主題的文檔中以低概率出現(xiàn)。HLTA不同于基于LDA的分層主題檢測方法,雖然兩種方法都定義了文檔的概率分布,但它們使用不同類型的觀察變量和潛在變量。實驗結果表明,HLTA在模型擬合和主題層次結構質量方面優(yōu)于基于LDA的方法。鑒于中文微博具有規(guī)模大、話題多、話題無關性強等特點,Xiao Geng等[14]提出了一種三層混合聚類算法進行話題檢測。第一層使用K-means算法,對微博文本進行話題聚類。第二層應用凝聚式層次聚類算法,將相同主題的文本結合成小型簇。前兩層已經消除了大部分的干擾噪聲,第三層再次使用k-means算法,對原先分配給錯誤簇的文本進行重新聚類,實現(xiàn)對聚類結果的修正。
2.2.3 基于圖模型的聚類
基于圖模型的聚類與其說是聚類算法,還不如說是一種圖的向量表示?;谙蛄窟M行表示之后,一般可以采用其他的聚類方法得到最后的聚類結果。所以基于圖模型的聚類既依賴于向量表示,也與之后采用的聚類算法有關。
Dong等[15]針對Twitter上的突發(fā)話題,提出了一種面向突發(fā)話題的圖模型,該模型可以表示大量Twitter用戶對突發(fā)話題進行傳播的拓撲結構。通過該模型可以從宏觀上分析突發(fā)事件的傳播模式,從微觀上挖掘突發(fā)事件的傳播特點。實驗結果表明,通過該方法可以有效地從突發(fā)事件中發(fā)現(xiàn)新興話題。不同于微博主體的長文本,在線社交媒體用戶每天在評論區(qū)會產生大量的短文本評論信息,傳統(tǒng)的話題檢測對有限的包含大量信息的文檔有良好的效果,但是對海量的包含信息量低的小文本見效甚微。因此,Kambiz Ghoorchian等[16]提出了利用降維和聚類技術的話題檢測方法,首先將輸入的文檔集壓縮成一個密集的圖,并在圖中創(chuàng)建多個稠密的拓撲區(qū)域,然后將圖分成若干個密集的子圖,每一個子圖代表一個主題。該方法與標準的LDA和BiTerm方法相比,不僅保持了更好的精度,而且執(zhí)行速度快一個數(shù)量級。
傳統(tǒng)的主題檢測方法通過挖掘語義關系聚合成主題,但是這樣的方法忽略了文檔間的共現(xiàn)關系。為了解決這個問題,Zhang等[17]提出了一種混合關系分析方法來整合語義關系和共現(xiàn)關系。具體而言,該方法將多個關系融合成語義圖,并使用圖分析方法從語義圖中檢測主題。通過梳理圖中的關系,不僅可以更有效地檢測話題,還可以利用潛在的共現(xiàn)關系挖掘潛在的重要信息。
由于社交媒體產生的內容大大超出了人工處理這些數(shù)據(jù)的能力,而已經提出的各種自動主題檢測方法,大部分都基于文檔聚類和突發(fā)檢測,它們無法實現(xiàn)對噪聲文件的過濾,而對于噪聲文件的過濾又是話題檢測中的重點和難點。因此,Pablo Torres-Tramón等[18]提出了一種基于拓撲數(shù)據(jù)分析的主題檢測方法,它將歐幾里德特征空間轉換成一個拓撲空間,在這個拓撲空間中,被視為噪聲的不相關文檔的形狀很容易與局部相關的文檔區(qū)分開來。根據(jù)點(即文檔)的連通性將該拓撲空間組織在網(wǎng)絡中,并且根據(jù)連接組件的大小進行二次過濾,以達到去除噪聲文件、實現(xiàn)話題檢測的目的。
基于多特征融合的話題檢測可以充分地利用多特征數(shù)據(jù),實現(xiàn)對話題的精確檢測。根據(jù)話題檢測的方法途徑,把多特征分為兩大類: 一類是基于文本的多特征,另一類是基于非文本的多特征。
2.3.1 基于文本多特征融合的檢測方法
基于社交媒體文本特征的方法是指利用微博、Twitter等新興社交媒體上的文本消息,根據(jù)事件隨時間的變化不斷對新出現(xiàn)的話題做出檢測。
由于中文微博多數(shù)為短文本,甚至是超短文本,文本的稀疏性往往導致文本相似度的度量不準確。黃賢英等[19]提出一種基于多維度的微博短文本相似度算法,該算法根據(jù)詞形相同和詞義相近來尋找微博短文本中的公共塊,構建基于公共塊序列的語義相似度。利用微博短文本發(fā)布時間、轉發(fā)與評論等信息來修正該語義相似度,形成新的微博短文本相似度算法。最后,將新的微博短文本相似度算法結合Single-Pass聚類算法,最終實現(xiàn)對微博話題的檢測。
金鎮(zhèn)晟[20]利用特征詞的時間屬性和增長程度這對屬性,在傳統(tǒng)的TF-IDF基礎上提出一種改進的特征提取算法,稱之為TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解決突發(fā)性熱點話題在聚類時特征不明顯的問題。該算法結合動能原理,將特征項的突發(fā)值用動能的概念進行描述,并加入權值計算中,提高了突發(fā)性特征項的權重,最后通過文本聚類實現(xiàn)了微博的話題檢測。該方法描述了文本和特征項所具有的動態(tài)屬性,實驗結果表明,該方法能夠有效地提高話題檢測的效果。劉志雄[21]針對微博話題的熱度、突發(fā)性以及時序特征,提出了一種時間窗口下的融合詞重要度的微博話題檢測方法。該方法首先根據(jù)時間屬性對微博文本進行分塊處理,然后根據(jù)詞在時間塊里的熱度進行排序,并選取熱度最大的n個詞作為主題詞候選詞。其次,以主題詞候選詞為基礎構建詞共現(xiàn)網(wǎng)絡,并利用社區(qū)劃分算法對該詞共現(xiàn)網(wǎng)絡進行主題劃分,最后對每個劃分社區(qū)內的候選詞進行重要度排序。利用新浪微博半個月內的三個主題板塊數(shù)據(jù)進行實驗,結果表明,通過該檢測算法進行社區(qū)話題發(fā)現(xiàn)有較高的召回率,但是在準確率和漏檢率上并沒有突出的成績。
2.3.2 基于非文本多特征融合的檢測方法
基于社交媒體文本特征的檢測方法主要圍繞關鍵詞特征進行,但是隨著非文本媒體的盛行,僅依靠關鍵詞特征已經無法滿足當前網(wǎng)絡環(huán)境下的話題檢測,結合社交網(wǎng)絡中豐富的用戶數(shù)據(jù)(例如,用戶行為、好友關系、地理位置、視頻等)來進行話題檢測就顯得尤為重要[22]。
有些微博話題可能在全網(wǎng)范圍內并不突出,但是在某一局部地區(qū)卻是一個熱點話題。針對這一情況,李正[23]提出利用地理位置信息進行中文微博突發(fā)話題檢測,一方面,根據(jù)微博空間環(huán)境現(xiàn)狀,增加適應環(huán)境的文本過濾規(guī)則,盡可能地過濾冗余數(shù)據(jù);另一方面,將微博文本中出現(xiàn)的地點名詞與微博所攜帶的空間地理位置信息進行匹配,并提出“親歷度”的概念,用此概念提高相應微博分詞的基礎權重,以提高對應用戶在該事件上的話語權,從而達到更加精準地獲取突發(fā)詞集的目的。
傳統(tǒng)的話題檢測方法主要集中在單一媒體上,Zhang等[24]提出將互聯(lián)網(wǎng)視頻和新聞報道中豐富的多媒體信息進行融合,實現(xiàn)跨媒體話題關鍵詞的提取。首先,利用視頻相關的文本信息和新聞標題,找出粗加權密集關鍵詞組;然后,利用文本鏈接和可視化鏈接細化關鍵詞組并更新權重;最后,將文檔與細化的關鍵詞組重新關聯(lián)以形成與事件相關的文檔集。在包含網(wǎng)絡視頻和新聞圖片報道的跨媒體數(shù)據(jù)集上進行實驗,取得了良好的檢測效果。在以微博、Twitter為首的社交媒體中,也存在著大量的視頻和圖片信息,多媒體信息融合同樣可以在社交媒體領域得到應用。
隨著社交媒體功能的多樣化,越來越多的用戶行為信息和時間屬性被挖掘出來并用于話題檢測。萬越等[25]結合微博數(shù)據(jù)的時序特征以及社交網(wǎng)絡用戶的行為特征,提出一種動量信號增強模型來進行微博突發(fā)話題檢測。該文首次提出用影響力因子來修正動量模型的誤差。影響力因子是指當前時間點前指定周期內的數(shù)據(jù)對當前數(shù)據(jù)的變化的影響,其將作為修正詞頻序列的依據(jù)。通過對比用于檢測是否存在突發(fā)信號的MACD值指標和提前設置好的突發(fā)性閾值,判斷目標特征詞是否是突發(fā)特征詞。最后,通過k-means聚類算法將特征詞歸類合并,得到突發(fā)話題。賀敏等[26]針對微博數(shù)據(jù)稀疏、微博內容間的關系難以準確度量、微博內容多而雜的特點[27],提出了基于特征驅動的中文微博話題檢測方法。該檢測方法通過選取有意義的詞或者詞組來獲取微博特征,將微博的轉發(fā)數(shù)、評論數(shù)以及點贊量等文檔影響力和關注數(shù)、粉絲數(shù)等微博博主影響力組成特征影響力屬性組并進行建模。最后,根據(jù)特征屬性劃分話題關鍵特征和噪聲特征,并將話題關鍵特征之間的互信息作為最鄰近聚類法的距離度量,通過關鍵特征的最鄰近聚類得到話題結果。根據(jù)新浪微博1 000個加V的活躍博主的78萬余條微博消息進行實驗,相比于傳統(tǒng)的k-means方法,該方法的檢測準確率、召回率以及F1值都有將近20%的提升,故該方法有一定的應用價值[28]。Fang等[28]從話題在時間和空間上局部分布的性質入手,提出了一個基于多視圖聚類的新框架MVTD。該框架通過整合Twitter中的語義關系、社會標簽關系和時間關系,提出了一種基于后綴樹的新文檔相似性度量方法和基于后綴樹的新關鍵詞提取方法。通過在真實Twitter數(shù)據(jù)上進行實驗,發(fā)現(xiàn)基于多視圖聚類的新框架MVTD的聚類性能遠遠優(yōu)于單一視圖,并且對于Twitter的話題檢測有良好的效果。
話題追蹤的主要任務是,在已知目標話題的基礎上對后續(xù)報道進行持續(xù)追蹤。由于社交媒體的迅速普及,話題追蹤技術應用到了微博、貼吧、論壇、博客等社交媒體平臺上。話題追蹤可以簡單地分為兩個步驟: 第一步,訓練并得到話題模型;第二步,根據(jù)得到的話題模型進行判斷。該過程如圖3所示。
圖3 話題追蹤基本流程
本節(jié)將話題追蹤方法分為非自適應話題追蹤和自適應話題追蹤兩種,自適應話題追蹤的優(yōu)越性在于無指導條件下的自適應能力,而這種自適應能力可以有效地解決“話題漂移”現(xiàn)象。
非自適應話題追蹤有基于知識和基于統(tǒng)計兩種研究思路?;谥R的話題追蹤主要是分析報道內容之間的相關關系,并利用與報道內容相關的領域知識對報道進行歸類追蹤。基于統(tǒng)計的話題追蹤主要是利用統(tǒng)計學方法分析報道與話題模型之間的關聯(lián)程度。
鑒于話題追蹤方法大多面向新聞、博客和微博等社交媒體,席耀一等[29]針對網(wǎng)絡論壇的結構和內容特點,提出基于語義相似度的論壇話題追蹤方法。該方法提取百度貼吧、網(wǎng)易論壇、天涯社區(qū)等諸多平臺的帖子的關鍵詞,分別構建出話題關鍵詞詞表和帖子關鍵詞詞表,并建立話題與帖子的文本表示模型。利用《知網(wǎng)》的語義框架計算帖子關鍵詞與話題關鍵詞的相似度,當相似度高于設定的閾值時就可以判定該帖子為話題追蹤的目標帖。實驗證明,該方法的準確率和F1值均高于傳統(tǒng)的基于向量空間模型的話題追蹤方法,可以廣泛應用于論壇領域的話題追蹤。不同于前面提到的語義相似度分析,Chen等[30]提出一種基于語義相關度的微博文本主題跟蹤方法來解決微博文本的稀疏性問題。該方法根據(jù)微博的結構化信息,以及《知網(wǎng)》的語義關系網(wǎng)絡,構建了針對微博的語義關聯(lián)模型。根據(jù)該模型提取文本信息,并以關鍵詞列表的形式表現(xiàn)出來,結合文本相似度的相關理論,綜合衡量文本與主題之間的相關性。實驗結果表明,該方法比向量空間法和單純基于文本相似度的方法能更好地降低錯誤率,大大提升了話題追蹤的效果。唐曉波等[31]基于維基語義擴展網(wǎng)絡構建出一種微博話題追蹤模型,該模型旨在解決微博文本中的語義稀疏性問題和話題漂移性問題。首先,使用維基百科數(shù)據(jù)進行知識庫的構建;其次,利用該知識庫對目標微博文本的特征向量進行擴展,經過擴展后的微博文本對事件的描述能力有了很大的提升;最后,通過支持向量機(support vector machine,SVM)進行語義層面的話題追蹤。實驗結果表明,與傳統(tǒng)的SVM方法和自適應SVM方法相比,基于維基百科進行語義擴展后的SVM分類模型有效降低了分類器對初始話題數(shù)量的敏感性,同時減輕了話題漂移現(xiàn)象對微博話題追蹤產生的影響。
基于統(tǒng)計策略的話題追蹤方法主要是根據(jù)話題模型與后續(xù)報道相關性進行判斷,而基于分類策略的話題追蹤又是基于統(tǒng)計策略中最常用到的方法。卡內基梅隆大學在話題追蹤任務中利用統(tǒng)計策略率先提出了兩種方法,分別是k—最近鄰(k-nearest neighbor,KNN)和決策樹(decision tree,D-Tree)。
馬薩諸塞大學的Papka[32]采用KNN分類算法,將與當前報道最相似的k個報道作為最鄰近報道,則待測報道所屬的話題就由這k個報道中出現(xiàn)頻率最高的話題來決定??突仿〈髮W的Carbonell等[33]采用D-Tree算法進行話題追蹤,該算法通過訓練語料來構建決策樹,決策樹中的每個中間節(jié)點代表一種決策屬性,節(jié)點向下的分支則代表一種決策,最終在葉節(jié)點得出所屬的話題。大量實驗和論文表明,基于KNN算法的話題追蹤效果要優(yōu)于D-Tree算法,其原因在于KNN可以通過減少k值來保證追蹤的正確率,而D-Tree必須依賴多層樹結構得出正確的追蹤策略,這樣很容易造成漏檢和誤檢。
由于微博信息有變化速度過快、噪聲高、文本較短等缺點,所以針對微博的新興話題追蹤的效率一直不高[34],Huang等[35]提出了一種新興的微博話題追蹤方法,它將新詞檢測與相關話題挖掘相結合。具體來說就是通過一個基于局部線性的加權回歸算法來計算單詞的新穎性,同時抑制已有話題的單詞新穎性,最后利用單詞新穎性和衰落性來追蹤新興的話題。在超過100萬條的微博評論數(shù)據(jù)上進行實驗,結果表明該方法在檢測新興話題和追蹤現(xiàn)有話題上有著良好的性能。
非自適應話題追蹤是根據(jù)少量的話題報道來構建話題模型,進而實現(xiàn)話題追蹤。現(xiàn)實生活與之非常類似,用戶對突發(fā)性話題的了解通常也非常少,而這也是經過訓練得到的話題模型不夠準確的緣故。因此,研究一種擁有自我學習能力的自適應話題追蹤系統(tǒng)(adaptive topic tracking,ATT)就顯得尤為重要。自適應話題追蹤的核心思想是對話題模型進行自學習,不僅為話題嵌入新的特征,同時可以動態(tài)調整特征權重。其優(yōu)點是可以減小因為先驗知識不足而導致的話題模型不完備的問題,同時還可以通過自學習機制實現(xiàn)對話題的持續(xù)跟蹤。
Khandelwal等[36]是最早進行ATT研究的成員之一,他們根據(jù)話題報道構造話題模型,將話題報道與構造出來的話題模型之間的相關度的平均值作為閾值,當有后續(xù)相關報道輸入時,將其放入訓練語料進行訓練并重新構建話題模型和閾值。該自適應話題追蹤方法有一個很大的缺陷: 對于系統(tǒng)反饋不進行任何驗證,即反饋信息中包含的相關和不相關報道都會放入訓練語料重新訓練,這會導致模型更新出現(xiàn)偏差,產生話題漂移現(xiàn)象。針對上述方法可能會造成話題漂移的問題,美國BBN公司的Lo等[37]在其研發(fā)的LIMSI話題追蹤系統(tǒng)中,采用設置二次閾值的方式來解決反饋信息沒有驗證的問題。只有在滿足反饋閾值的前提下才會把信息提交給系統(tǒng)進行模型更新,反饋閾值的設定有效降低了話題漂移現(xiàn)象的產生[38]。LIMSI系統(tǒng)有靜態(tài)和動態(tài)兩種權重更新策略,經實驗證明,面對社交媒體的話題追蹤時選用動態(tài)權重更新策略效果更佳。
有些研究者在微博話題追蹤中引入語義信息[39],劉彥偉[40]將話題中心向量引入話題模型的同時,使用語義相似度對判斷結果進行修正,將微博文檔劃分到對應話題后進行話題中心向量的自適應調整。不同于利用語義信息的自適應話題追蹤,柏文言等[41]提出了一種融合用戶關系的自適應微博話題追蹤方法。首先將追蹤時間窗內的推文映射到特征空間,形成候選推文集合,然后根據(jù)推文的分布特點和話題追蹤的目的對推文特征空間做出變換,最后利用改進的k-means聚類算法對候選推文集合進行二元聚類,劃分出相關推文集合。使用Twitter平臺的實時數(shù)據(jù)進行實驗,結果表明,該方法能夠及時追蹤話題的熱度變化和話題焦點的演變,同時也可以提高微博話題追蹤的穩(wěn)定性。
因為話題的演化過程與時間緊密相關,F(xiàn)uling Hu等[42]提出了一個事件—時間關系模型來研究話題跟蹤任務,該方法主要通過識別和挖掘后續(xù)報道中的事件─時間流,將事件的時間屬性引入向量空間模型,并將該模型應用于話題跟蹤的相關決策,最后根據(jù)時間屬性重新調整特征向量的權重分配,實現(xiàn)自適應話題追蹤。實驗結果顯示,在DET曲線性能評估系統(tǒng)平臺上, 該模型能夠比非自適應話題追蹤模型更加準確地跟蹤話題事件的演化過程。
中文語義信息復雜多變,想要通過機器對文本信息進行深層挖掘就顯得格外困難。另外,針對目前熱門的社交媒體,又出現(xiàn)了海量短文本,甚至超短文本的挑戰(zhàn)。因此,有許多方面的問題需要解決。
(1) 海量信息問題。由于社交媒體數(shù)據(jù)量龐大,且更新速度快,如新浪微博在2017年有3.76億月活躍用戶,1.65億日活躍用戶,每天發(fā)送微博數(shù)目超過1億條,所以建立針對社交媒體的流數(shù)據(jù)處理系統(tǒng)是一個亟需解決的問題。為了解決上述問題,可以在原有算法的基礎上,結合Hadoop、Spark等大數(shù)據(jù)分析工具對微博數(shù)據(jù)進行處理和分析。在話題檢測追蹤的任務中,需要研究出有效的針對大規(guī)模文本數(shù)據(jù)的快速聚類算法,以應對這一挑戰(zhàn)。
(2) 噪聲干擾問題。社交媒體中充斥著大量的廣告信息,這些廣告不僅包括公司的推廣信息,還有很多個人用戶的商品買賣信息,這些廣告噪聲對話題檢測與追蹤基本沒有實際的意義,甚至會使檢測結果出現(xiàn)一定程度的偏差。針對垃圾郵件問題,研究者提出了許多垃圾郵件檢測算法。在未來的研究中,可以將這些算法改進,并應用到微博數(shù)據(jù)中。同時,鑒于微博的廣告中有很大一部分是商品信息,可以將各大電商網(wǎng)站的商品信息作為微博廣告庫的擴展信息源,這樣可以省去大量的人工廣告信息標注任務。
(3) 多源信息傳播問題。在當前的社交網(wǎng)絡中,大部分話題檢測追蹤的研究都是針對單一數(shù)據(jù)源的,如國外的Twitter或者中國的新浪微博。雖然它們的數(shù)據(jù)量巨大且更新迅速,但是如果忽略了社交媒體平臺間轉發(fā)、分享等功能,就會遺失許多其他來源的話題信息,導致無法全面地獲取新興話題以及話題的演變過程。因此,可以考慮在檢測過程中加入關聯(lián)網(wǎng)站信息,全面反映網(wǎng)絡中目標話題的分布態(tài)勢。
(4) 非文本信息問題。針對熱門話題的檢測,應該同時考慮文本信息和非文本信息對檢測過程的貢獻。近期的研究中,有人將社交媒體的時序特征和用戶細節(jié)特征等非文本信息用于話題檢測模型的構建,取得了一定的效果,但是,目前的研究只簡單利用了用戶的權威度和評論轉發(fā)數(shù)等用戶行為特征[43]。在以后的研究中,可以將用戶的影響力信息、用戶參與社交媒體互動的行為信息等特征納入話題檢測與追蹤的研究中。
(5) 結果評估問題。話題檢測與追蹤結果的評價方法除了傳統(tǒng)的準確率、召回率、F1值外,第三方使用效果、人工評估也是經常用于評價的指標。第三方使用效果指的是將話題檢測追蹤模型應用于文本分類、信息檢索等方面,利用文本分類的效果、信息檢索的準確性對話題檢測追蹤的效果進行間接評估。在實際工作中,人工評價其實是最可靠、適用范圍最廣的評估方式,這也是話題檢測追蹤領域一個亟需解決的問題,即找到一種自動的適用全領域的評估方法。
(6) 深度學習缺乏應用的問題。深度學習在話題檢測與追蹤領域缺乏有效的應用,我們認為有兩方面的原因: 一方面,深度學習從2006年取得突破性進展后,最先應用于圖像和語音領域,而在自然語言處理領域的應用則是近些年才開始的,這導致話題檢測與追蹤領域目前還沒有較為成熟的模型。另一方面,話題檢測與追蹤數(shù)據(jù)的時效性很強,而深度學習方法非常依賴對數(shù)據(jù)的訓練和學習,所以頻繁的數(shù)據(jù)變化也是導致深度學習方法沒有廣泛應用到話題檢測與追蹤任務的原因之一。