劉雅筠
(長(zhǎng)沙南方職業(yè)學(xué)院 湖南·長(zhǎng)沙 410208)
在眾多形式的在線社交網(wǎng)絡(luò)應(yīng)用中,以微博為代表的社會(huì)化新媒體的發(fā)展更是舉世矚目。微博類應(yīng)用以其快速的信息傳播能力,廣泛的用戶參與特性以及顯著的自媒體特征,為信息傳播掀起了劃時(shí)代的變革浪潮,形成了深遠(yuǎn)的社會(huì)影響。例如近年來(lái)我國(guó)頻繁發(fā)生了多起突發(fā)公共事件,這些事件均能在微博中找到對(duì)應(yīng)的第一手信息。另一方面,與及時(shí)發(fā)布的事件信息同時(shí)出現(xiàn)在微博這一平臺(tái)上的還有洶涌的輿論,即公眾對(duì)事件的看法、意見(jiàn)、態(tài)度等信息。社會(huì)輿論在微博上不斷匯集,逐漸形成了不可小覷的民意力量,進(jìn)而又推動(dòng)事件進(jìn)一步向前發(fā)展,這在近年來(lái)發(fā)生的事件中屢見(jiàn)不鮮?,F(xiàn)實(shí)世界中的事件與虛擬世界中的微博信息之間是如何相互作用、相互影響的,逐漸成為了一個(gè)重要且富有挑戰(zhàn)性的研究課題。
話題發(fā)現(xiàn)與跟蹤技術(shù)在國(guó)內(nèi)外都有著長(zhǎng)足的研究。社會(huì)的生產(chǎn)生活秩序由各行各業(yè)的緊密關(guān)聯(lián)所維系,因而處在社會(huì)一環(huán)的群體或個(gè)體都需要準(zhǔn)確把握社會(huì)動(dòng)態(tài),其中尤為重要的是洞察和掌握公共事件的發(fā)生與發(fā)展。例如政府機(jī)構(gòu)關(guān)注于突發(fā)的群體性事件以及可能引發(fā)它的重大輿情事件;公司企業(yè)關(guān)注于影響品牌市場(chǎng)的商業(yè)行為以及業(yè)務(wù)領(lǐng)域的最新動(dòng)態(tài)等等。而了解和引導(dǎo)社會(huì)輿論的走向更是把握公共事件的重中之重,例如政府關(guān)注民生,問(wèn)政于民,又如企業(yè)服務(wù)客戶,營(yíng)銷品牌等,都離不開(kāi)對(duì)公共事件中的社會(huì)輿論進(jìn)行準(zhǔn)確的分析。因此研究和分析公共事件和社會(huì)輿論對(duì)政治經(jīng)濟(jì)生活都有重要的現(xiàn)實(shí)意義。
20世紀(jì)90年代末,由美國(guó)國(guó)防高等研究計(jì)劃署(Defense Advanced Research Projects Agency,DARPA)發(fā)起,馬薩諸塞大學(xué)阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大學(xué)(Carnegie Mellon University,CMU),Dragon Systems等研究機(jī)構(gòu)共同參與制定和設(shè)計(jì)了話題檢測(cè)與跟蹤任務(wù)及評(píng)測(cè)體系(Topic Detection and Tracking,TDT)。
TDT將這些語(yǔ)料按照話題進(jìn)行標(biāo)注。為了盡可能消除概念上的歧義,TDT對(duì)話題、活動(dòng)、事件做了如下非形式化的定義:
事件(Event):發(fā)生在特定時(shí)間、地點(diǎn)的事,有著必要的前提條件和不可避免的結(jié)果;
活動(dòng)(Activity):具有共同焦點(diǎn)或目的,發(fā)生在特定時(shí)間、地點(diǎn)的相關(guān)事件的集合;
話題(Topic):一個(gè)事件或活動(dòng)及直接與其相關(guān)的事件和活動(dòng)。
這一定義明確了話題和事件的結(jié)構(gòu)關(guān)系,認(rèn)為話題是由相互關(guān)聯(lián)的事件構(gòu)成的。但實(shí)際研究中由于話題這一概念的外延很難確定,有時(shí)會(huì)把話題與事件的概念不加區(qū)分地相互替代。例如在TDT的前瞻性研究(Pilot study)中,將話題這一概念進(jìn)行了狹化,選擇了25個(gè)事件作為目標(biāo)話題,因而研究中話題與事件的概念等同。
基于標(biāo)注好的語(yǔ)料庫(kù),TDT提出了多項(xiàng)基本任務(wù)。例如1996年基于TDT-Pilot語(yǔ)料庫(kù),研究者提出的任務(wù)分別是:
(1)報(bào)道切分任務(wù)(The Segmentation Task):將連續(xù)的文本流依報(bào)道邊界進(jìn)行切分;(2)事件檢測(cè)任務(wù)(The Detection Task):在目標(biāo)事件信息未知的情況下檢測(cè)出事件;(3)回顧事件檢測(cè)(Retrospective Event Detection):檢測(cè)出語(yǔ)料庫(kù)新聞報(bào)道中的所有事件,即將新聞報(bào)道按事件進(jìn)行劃分;(4)在線新事件檢測(cè)(On-line New Event Detection):在新聞報(bào)道流中檢測(cè)出新事件,即檢測(cè)討論了新事件的首篇新聞報(bào)道;(5)事件跟蹤任務(wù)(The Tracking Task):給定已知事件,檢測(cè)出所有討論相同事件的新聞報(bào)道。
隨著研究的深入,TDT研究任務(wù)也發(fā)生著變化。一些任務(wù)的內(nèi)容發(fā)生微調(diào),一些任務(wù)由于需求降低逐漸淡出,而又有一些新的任務(wù)被補(bǔ)充進(jìn)來(lái)。例如基于TDT-4語(yǔ)料庫(kù),研究任務(wù)主要?jiǎng)澐譃椋?/p>
(1)新事件檢測(cè)(New Event Detection):檢測(cè)報(bào)道流中每個(gè)話題的首次出現(xiàn);(2)話題檢測(cè)(Topic Detection):檢測(cè)預(yù)先未知的話題;(3)話題跟蹤(Topic Tracking):在流中檢測(cè)出討論目標(biāo)話題的報(bào)道;(4)關(guān)聯(lián)檢測(cè)(Link Detection):判斷兩篇報(bào)道是否討論同一話題。
2004年,基于TDT-5語(yǔ)料庫(kù),研究者又引入了有監(jiān)督的自適應(yīng)話題跟蹤(Supervised Adaptive Topic Tracking)與層次式話題檢測(cè)(Hierarchical Topic Detection)兩項(xiàng)實(shí)驗(yàn)性任務(wù)。前者旨在讓話題模型隨著話題的演化自動(dòng)更新,后者則嘗試建立層次化的話題模型。
Trieschnigg等定義了層次式話題檢測(cè)這一任務(wù),提出用XML描述有向無(wú)環(huán)圖的標(biāo)準(zhǔn),并提出用話題的檢測(cè)損耗函數(shù)和圖中遷移邊的檢測(cè)損耗函數(shù)二者的加權(quán)平均值來(lái)度量檢測(cè)方法的優(yōu)劣。Allan等基于TDT-3和TDT-5語(yǔ)料庫(kù)提出了一種可伸縮的層次式話題結(jié)構(gòu):首先從語(yǔ)料庫(kù)中采樣獲得種子文檔,然后通過(guò)種子文檔構(gòu)建層次類簇結(jié)構(gòu),再通過(guò)優(yōu)化代價(jià)函數(shù)得到種子文檔的二叉樹(shù),最后將剩下的文檔聚攏到先前得到的層次結(jié)構(gòu)中完成構(gòu)建。
早期的研究中,報(bào)道的所有詞匯特征被同等對(duì)待,反映在同一個(gè)向量空間中。例如 Schultz等設(shè)計(jì)的話題跟蹤系統(tǒng)首先從單個(gè)報(bào)道或多個(gè)報(bào)道中選擇話題特征詞,利用tfidf特征值將報(bào)道映射到向量空間中,再通過(guò)計(jì)算向量與話題間的余弦?jiàn)A角度量報(bào)道間的相似性。
很快研究者發(fā)現(xiàn),單一的向量表示忽略了詞匯在報(bào)道中重要性及語(yǔ)義的差異,一些研究者遂將自然語(yǔ)言處理中的研究成果運(yùn)用在話題模型的建立上。張曉艷等將自然語(yǔ)言處理中的命名實(shí)體識(shí)別技術(shù)引入到新事件檢測(cè)中,將每篇報(bào)道轉(zhuǎn)化為三種詞匯特征向量,一種只由報(bào)道中的命名實(shí)體構(gòu)成,一種只由報(bào)道中的話題詞構(gòu)成,一種由全部詞匯構(gòu)成。通過(guò)三類特征訓(xùn)練支持向量機(jī),從而將新事件檢測(cè)轉(zhuǎn)化為二元分類任務(wù)。隨后又對(duì)全文詞匯向量,命名實(shí)體向量,非命名實(shí)體向量三種表達(dá)方式在TDT-3和TDT-4語(yǔ)料庫(kù)上進(jìn)行了比較,發(fā)現(xiàn)命名實(shí)體在一些語(yǔ)料中起到很好的區(qū)分作用,而在另一些語(yǔ)料中則效果完全相反,提出“命名實(shí)體是一把雙刃劍”的論斷。Lavrenko等將單一的事件向量分解為四個(gè)子向量,用四種不同類型的詞匯表征,分別是:人物機(jī)構(gòu)指示詞,地點(diǎn)位置指示詞,時(shí)間日期指示詞和事件指示詞。將時(shí)間表達(dá)式進(jìn)行形式化,并利用本體知識(shí)對(duì)地點(diǎn)信息進(jìn)行擴(kuò)展,進(jìn)而應(yīng)用在話題檢測(cè)中。
2004年,基于TDT-5語(yǔ)料庫(kù),研究者提出了層次式話題檢測(cè)(Hierarchical Topic Detection,HTD)這一新任務(wù),任務(wù)的目標(biāo)是將無(wú)結(jié)構(gòu)的新聞報(bào)道組織成有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)的形式以表達(dá)話題。Tan等針對(duì)TDT-5語(yǔ)料庫(kù)中多來(lái)源多語(yǔ)種的語(yǔ)料采用了先從來(lái)自同一語(yǔ)種、同一來(lái)源的新聞流中采用1-NN的聚類方法抽取事件鏈,再采用凝聚式聚類方法將不同語(yǔ)種和來(lái)源的多條事件鏈按時(shí)間進(jìn)行對(duì)齊和合并,構(gòu)成層次結(jié)構(gòu)。
大多數(shù)TDT方法都可用于離線處理,例如Zhang等提出以事件為核心的新聞報(bào)道產(chǎn)生式模型,從內(nèi)容和時(shí)序兩個(gè)角度入手,抓住多個(gè)媒體會(huì)對(duì)同一事件發(fā)表許多冗余報(bào)道這一特點(diǎn),依據(jù)概率分布特征發(fā)現(xiàn)事件,在語(yǔ)料中回顧式地檢測(cè)話題。而另一方面,適用于在線處理的方法相對(duì)較少,尤其是只有少數(shù)概率模型適用于在線處理,這一空缺成為近年來(lái)研究的熱點(diǎn)。例如吳斌等提出的在線文檔聚類的概率模型采用了狄里克萊過(guò)程對(duì)類簇的增長(zhǎng)進(jìn)行了建模,用英語(yǔ)語(yǔ)言模型判斷新類簇的產(chǎn)生。
微博是公眾廣泛參與的社交媒體平臺(tái),若將微博流視為一種特殊的新聞報(bào)道流,則可以將很多TDT中的研究方法推廣到微博中。Lin等提出和比較了直接模型、兩步流水線模型和兩步混合模型等三種模型檢測(cè)Twitter中諸如奧巴馬獲得諾貝爾和平獎(jiǎng)等具有爭(zhēng)議性的事件。
Deng等使用Tibetan網(wǎng)絡(luò)中的標(biāo)簽訓(xùn)練話題模型,利用分類器從微博流中鑒別話題。通過(guò)實(shí)驗(yàn)對(duì)前景模型、背景模型的平滑技術(shù)和歷史信息的組織方式進(jìn)行了評(píng)測(cè)。
Shiwen等在兩狀態(tài)自動(dòng)機(jī)模型上加以改進(jìn),提出了一種話題多樣性的度量方法從檢測(cè)結(jié)果中提煉具有新聞報(bào)道價(jià)值的突發(fā)特征,又提出用上下文模型為突發(fā)特征賦以有意義的標(biāo)簽,增強(qiáng)突發(fā)特征的可解釋性。
在Weng等針對(duì)Twitter的博文數(shù)據(jù)量大,噪音多的特點(diǎn),提出了一種基于小波信號(hào)分析的事件檢測(cè)方法(EDCoW),首先應(yīng)用小波分析方法對(duì)每個(gè)詞匯構(gòu)造信號(hào)流,根據(jù)信號(hào)的相關(guān)性過(guò)濾掉瑣碎的噪音詞匯,再基于圖劃分技術(shù)將剩下的詞匯聚類構(gòu)成事件。
Dou等提出基于內(nèi)容相似度、事件近似度和文檔分布近似度三重因素對(duì)事件進(jìn)行關(guān)聯(lián),構(gòu)造事件演化圖。
馬雯雯等提出一種隱含語(yǔ)義分析的微博話題發(fā)現(xiàn)方法,用無(wú)監(jiān)督的隱式馬爾科夫方法建模出話題的線性序,但這一算法被證明只適用于地震、災(zāi)害等結(jié)構(gòu)簡(jiǎn)單的話題。
在得到事件演化模型之后,研究者提出了一種新的應(yīng)用方法稱為預(yù)期事件檢測(cè)(Anticipatory Event Detection,AED),其主旨是檢測(cè)出事件狀態(tài)發(fā)生遷移的時(shí)機(jī)。Pan等首先提出這一概念,并通過(guò)一種句子分類的方法自動(dòng)發(fā)現(xiàn)NBA比賽的最終比分。Zhang等將突發(fā)特征檢測(cè)引入AED,提出突發(fā)向量空間模型,檢測(cè)事件遷移中的突發(fā)特征。He等也提出AED中由于檢測(cè)狀態(tài)遷移的二元分類模型無(wú)法找到具有很強(qiáng)區(qū)分能力的特征詞,因而將突發(fā)特征作為分類的依據(jù)以提升檢測(cè)能力。Zhang等以復(fù)雜網(wǎng)絡(luò)理論為基礎(chǔ),基于評(píng)論詞語(yǔ)間的共現(xiàn)關(guān)系構(gòu)建基于事件發(fā)展的子事件網(wǎng)絡(luò),通過(guò)社群發(fā)現(xiàn)算法來(lái)識(shí)別子事件評(píng)論網(wǎng)絡(luò)中的話題社群。
綜上所述,盡管話題檢測(cè)與跟蹤(TDT)已經(jīng)針對(duì)新聞報(bào)道等較長(zhǎng)篇幅的語(yǔ)料提出了許多切實(shí)有效的方法,但對(duì)于充斥噪音,語(yǔ)言簡(jiǎn)短,語(yǔ)法不規(guī)范,上下文結(jié)構(gòu)松散的微博語(yǔ)料而言,依然面臨著嚴(yán)峻的挑戰(zhàn)。如何構(gòu)建更好的檢測(cè)模型,提高微博話題發(fā)現(xiàn)的精度,可能成為目前研究的一個(gè)方向。