馬 彬,洪 宇,陸劍江,姚建民,朱巧明
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006)
微博是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取的平臺(tái),用戶可以通過 WEB、WAP以及各種客戶端設(shè)備構(gòu)建個(gè)人社區(qū),以最高140字的信息量發(fā)布消息,實(shí)現(xiàn)即時(shí)分享。相對(duì)于網(wǎng)頁,微博具有更強(qiáng)的互動(dòng)性和及時(shí)性;相比于傳統(tǒng)博客,微博文本更加短小,更新更加及時(shí)、方便,另外,用戶層次多樣化,使得信息更加豐富、多元化。
據(jù)第三方數(shù)據(jù)統(tǒng)計(jì),新浪微博注冊(cè)用戶數(shù)已達(dá)1.4億,騰訊微博的注冊(cè)用戶也已經(jīng)超過8千萬,Twitter注冊(cè)用戶已達(dá)2億,如此龐大的用戶群每天發(fā)布數(shù)以千萬計(jì)的微博文本[1]。如何在信息多樣化且高速更新的動(dòng)態(tài)環(huán)境下準(zhǔn)確檢測(cè)特定時(shí)間內(nèi)用戶關(guān)注或滿足其興趣偏好的話題信息,對(duì)面向互聯(lián)網(wǎng)的信息處理研究及應(yīng)用都具有重要的意義。
話題檢測(cè)起源于1996年的話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)評(píng)測(cè)會(huì)議的子任務(wù)。以新聞專線、廣播、電視等媒體信息流為處理對(duì)象,將信息流中的報(bào)道歸入不同的話題。話題檢測(cè)關(guān)注的是新信息的發(fā)現(xiàn)能力,尤其側(cè)重識(shí)別特定語義內(nèi)聚且所屬事件相互關(guān)聯(lián)的信息集合—話題。因此,話題檢測(cè)本身是一種面向?qū)崟r(shí)媒體的信息組織方式,而面向微博的話題檢測(cè)則在最活躍的新型語言學(xué)資源上對(duì)這一課題提出了全新的挑戰(zhàn)。
本文在前期針對(duì)新聞媒體的話題檢測(cè)工作基礎(chǔ)上,結(jié)合微博的特點(diǎn)提出一種基于線索樹的雙層聚類話題檢測(cè)方法。后續(xù)章節(jié)組織結(jié)構(gòu)如下,第2節(jié)介紹相關(guān)工作;第3節(jié)給出微博文本的基本屬性及特點(diǎn);第4節(jié)介紹基于線索樹雙層聚類的話題檢測(cè)方法;第5節(jié)給出實(shí)驗(yàn)設(shè)計(jì)方案;第6節(jié)分析實(shí)驗(yàn)結(jié)果;第7節(jié)總結(jié)全文并闡述未來工作。
傳統(tǒng)的話題檢測(cè)主要針對(duì)普通文本,目前話題檢測(cè)常用的聚類方法有:中心向量法[2-3],層次聚類法[3],K-means[4],Single-Pass[5-6]聚類方法等。 以上研究方法在普通文本的話題檢測(cè)任務(wù)中起到了很好的效果,如在TDT語料中進(jìn)行的話題檢測(cè)任務(wù),但是,將上述方法直接應(yīng)用到微博文本上很容易造成數(shù)據(jù)稀疏問題。
2010年出現(xiàn)了一些微博文本話題分析的研究。Bharath Sriram等[7]在將Twitter文本分類到預(yù)定義的話題類別下時(shí),為解決文本較短造成的數(shù)據(jù)稀疏問題,通過抽取作者profile文件和文本記錄中的領(lǐng)域相關(guān)的特征集合,對(duì)Twitter文本的特征進(jìn)行擴(kuò)充。Ramage等[8]采取Labeled LDA模型,將Twitter微博文本映射到substance、style、status和social characteristics四個(gè)潛在維,并基于上述分析結(jié)果實(shí)現(xiàn)微博排序和微博推薦功能。O'Connor等[9]采用文檔聚類和文本摘要技術(shù),采用四個(gè)步驟對(duì)與檢索詞相關(guān)的話題進(jìn)行歸類。針對(duì)每一個(gè)檢索詞,返回和該檢索詞相關(guān)的話題集合。但是,以上工作均假定微博文本之間彼此獨(dú)立,并沒有有效利用微博的“對(duì)話性”特點(diǎn),因此都存在嚴(yán)重的數(shù)據(jù)稀疏問題。Liu等[10]試圖借助HowNet實(shí)現(xiàn)特征擴(kuò)展,但也帶來了一些噪音信息,導(dǎo)致處理效果提高不明顯。
微博文本是限定在140字之內(nèi),用戶自由編輯的短文本。其中,首帖和跟帖都稱為微博文本。在轉(zhuǎn)發(fā)和評(píng)論的微博文本中會(huì)顯示被轉(zhuǎn)發(fā)和被評(píng)論的對(duì)象。圖1給出的是相關(guān)于話題“利比亞局勢(shì)”的微博文本實(shí)例。其中:
圖1 微博文本示例
首帖:稱通過自發(fā)發(fā)言而產(chǎn)生的微博文本為首帖,記為dH。如圖1中首段文字“【美國(guó)白宮發(fā)言人……并希望會(huì)談在近期進(jìn)行?!?/p>
跟帖:對(duì)首帖進(jìn)行轉(zhuǎn)發(fā)或者評(píng)論的微博文本,記為dF。如圖1中“MongoTV芒果紅”等評(píng)論人給出的評(píng)論性回復(fù)。
微博線索樹(Thread):本文將某首帖為根、其跟帖為子節(jié)點(diǎn)的具有語義及時(shí)序關(guān)聯(lián)的微博文本集稱為微博線索樹,記為T= (V,E),如圖1所示。
微博森林:本文將微博空間中所有微博線索樹的全集稱為微博森林,記為F=(VU,EU)。如圖2所示,(a)、(b)和(c)分別代表不同線索樹,三者之和為森林。
圖2 微博文本森林結(jié)構(gòu)示意圖
由此,本文的研究核心問題可表示為:從全集微博森林F中自動(dòng)劃分其中包含的所有話題Z={zi},i=1…K(此處,Z 表示話題集合、zi表示某一特定微博話題、K表示森林F中的話題總數(shù))。
微博展現(xiàn)了一種獨(dú)特的自然語言文本形式:微型文本。除了規(guī)模大及傳播速度驚人等實(shí)際應(yīng)用特點(diǎn)外,微博文本還包括以下語言特性。
1)文字容量小。微博系統(tǒng)限定一個(gè)微博文本介于0到140個(gè)漢字之間;
2)語言形式自由。文法往往非正式,語言口語化程度高。為了提高交流速度,微博文本中縮寫和拼寫錯(cuò)誤極為常見,并摻雜一些新近流行的網(wǎng)絡(luò)語言;
3)半結(jié)構(gòu)化。除了文本內(nèi)容,微博文本還包含一些元信息,例如作者和時(shí)間信息;
4)線索嵌套。微博文本通常是某對(duì)話線索中的一個(gè)發(fā)言或回復(fù)。微博系統(tǒng)自動(dòng)保存了大量的微博文本線索,每個(gè)線索又包含了多個(gè)微博文本;
5)跨文本上下文信息豐富。每個(gè)微博文本都在評(píng)論別人,同時(shí)也是別人評(píng)論的對(duì)象。這些評(píng)論關(guān)系體現(xiàn)在不斷回復(fù)過程中的線索上下文。
上述微博文本的語言特性給微博話題檢測(cè)中的文本處理帶來了以下問題。
1)微博文本短,尤其是“跟帖”往往僅有幾個(gè)詞(<=10)。然而大多數(shù)話題聚類算法的性能優(yōu)劣極大程度上取決于話題描述(即特征空間)的合理性和充分性。顯然,短小的微博文本造成的數(shù)據(jù)稀疏性難以滿足話題描述的這一要求;
2)微博文本文法不正式,且新詞不斷出現(xiàn),導(dǎo)致標(biāo)準(zhǔn)的語言分析工具的適應(yīng)性較差。例如,標(biāo)準(zhǔn)分詞工具無法有效識(shí)別網(wǎng)絡(luò)詞匯(例如“童鞋”暗指“同學(xué)”);
3)“跟帖”數(shù)量在微博文本中占多數(shù),為提高發(fā)帖效率,跟帖經(jīng)常通過指代或者省略手段標(biāo)引上下文,這導(dǎo)致微博文本中存在大量話題特征的缺失現(xiàn)象,無法有效支持話題內(nèi)容及語義的有效分析。
本文針對(duì)上述問題充分結(jié)合微博文本的“對(duì)話性”特點(diǎn),提出基于線索樹雙層聚類的話題檢測(cè)方法:先在微博文本線索范圍內(nèi)構(gòu)造線索話題模型,準(zhǔn)確濾掉“跑題”(即語義偏差)或“灌水”(即內(nèi)容無關(guān))的微博文本,從而將微博文本線索樹安全轉(zhuǎn)化為一個(gè)較長(zhǎng)的、特征豐富的文本;在此基礎(chǔ)上,針對(duì)微博文本的整體內(nèi)容構(gòu)造全局話題模型,輔助話題的精準(zhǔn)聚類。
本文面向微博文本話題檢測(cè)提出一種時(shí)序特征和作者信息相融合的話題模型(Temporal-Author-Topic,TAT)。下面首先概述基于這一模型的微博話題檢測(cè)方法框架,然后,具體分析和闡述TAT模型。
基于線索樹雙層聚類的話題檢測(cè)方法總體架構(gòu)如圖3所示(見下頁)。預(yù)處理階段主要進(jìn)行微博文本的分詞和去停用詞等操作;“線索局部話題”階段主要進(jìn)行線索內(nèi)局部話題模型的構(gòu)造,并濾除線索中的噪音文本;“全局話題”階段將線索樹內(nèi)的相關(guān)文本結(jié)合起來,形成能夠代表整個(gè)線索樹的線索文本,從而有效地?cái)U(kuò)展微博文本的特征空間,解決數(shù)據(jù)稀疏問題。最終,利用全局話題模型進(jìn)行微博話題檢測(cè),形成話題庫(kù)。
理論上,上述兩步話題建模(先局部后全局)本身是同質(zhì)的過程,區(qū)別在于運(yùn)行在不同的文檔空間。局部話題建模過程在線索內(nèi)運(yùn)行,而全局話題建模則在全集線索森林上運(yùn)行。對(duì)局部和全局話題進(jìn)行分析時(shí),除文本內(nèi)容外,該方法還考慮作者、時(shí)間等特征。因而,形成融合了時(shí)序、作者信息和話題內(nèi)容特征的TAT話題模型。這一模型具有顯著的微博文本結(jié)構(gòu)化特征,下面分別進(jìn)行詳細(xì)陳述。
微博作為網(wǎng)絡(luò)短文本的一種,具有較強(qiáng)的意圖性、對(duì)話性和個(gè)人信息特性。因此,微博文本的話題模型也應(yīng)充分反映上述特點(diǎn)。根據(jù)這一需要,TAT建模引入以下的特征。
1)作者特征。在微博文本中,作者是一個(gè)重要的特征。通過觀察數(shù)據(jù)發(fā)現(xiàn)同一個(gè)作者通常只關(guān)注有限個(gè)相對(duì)固定的話題。在本文中,將作者信息添加到普通的話題模型中形成融合了作者背景的話題模型(Author-based Topic model,AT)。
2)時(shí)間信息。根據(jù)數(shù)據(jù)觀察發(fā)現(xiàn),某一個(gè)時(shí)段內(nèi),微博的交互評(píng)論往往針對(duì)有限個(gè)相對(duì)固定的話題。為此,TAT融入時(shí)序特征,首先設(shè)置時(shí)間窗口為i小時(shí)(實(shí)驗(yàn)中的經(jīng)驗(yàn)性地設(shè)置為1,即i=1),如果兩篇微博的發(fā)布時(shí)間同屬一個(gè)時(shí)間窗口內(nèi),即認(rèn)為兩篇文本相關(guān)于同一個(gè)話題的概率較高。由此,在AT模型的基礎(chǔ)上繼續(xù)引入時(shí)間信息形成TAT模型。
3)線索樹。在微博話題檢測(cè)中,線索是非常重要的話題聚類特征。在同一線索樹(即針對(duì)同一首帖發(fā)生的系列交互,如圖1中首帖和跟帖)內(nèi)的微博文本往往集中討論同一話題,其不同文字片段的語義一致性和內(nèi)容相關(guān)性較強(qiáng),有助于話題檢測(cè)。
TAT在傳統(tǒng)概率話題模型基礎(chǔ)上,以線索樹為核心,在線索樹內(nèi)外的局部話題模型和全局話題模型構(gòu)造過程中融入上述時(shí)間信息和作者信息的特征分布,其數(shù)學(xué)表達(dá)式如下:
其中,t代表時(shí)序信息,a代表作者信息,w代表詞特征,z代表話題信息。進(jìn)行話題檢測(cè)中,在構(gòu)造特征空間時(shí),將時(shí)序信息和作者信息作為兩個(gè)維度添加到特征空間中。
圖3 系統(tǒng)流程圖
線索內(nèi)話題檢測(cè)(即主框架中的局部檢測(cè))作為本文微博話題檢測(cè)的第一步,通過聚類檢測(cè)出特定線索樹內(nèi)所討論的話題信息,并將與話題不相關(guān)的微博文本和垃圾文本過濾掉,例如,“哈哈”、笑臉符號(hào)等垃圾或者灌水的文本。
圖4給出了圖1所示微博實(shí)例的樹形結(jié)構(gòu)。該線索樹含有3個(gè)子話題。但該結(jié)構(gòu)圖顯示右側(cè)子樹和首帖的話題明顯不相關(guān)。因此,在這一線索樹中,上述子樹的微博文本被認(rèn)定為垃圾帖。上述局部聚類的任務(wù)即為對(duì)這類垃圾帖或不相關(guān)帖進(jìn)行過濾。
在此基礎(chǔ)上,局部檢測(cè)進(jìn)一步融入交互關(guān)系(同一首帖下用戶相互回復(fù)的文本信息):如果A帖和B帖之間具有回復(fù)關(guān)系,即A-回復(fù)-B,則假定兩個(gè)帖子之間討論的是同一個(gè)話題。這種回復(fù)關(guān)系在局部話題檢測(cè)中起到很重要的作用。針對(duì)具有A-回復(fù)-B關(guān)系的微博文本,局部聚類過程在度量?jī)蓚€(gè)文本相關(guān)度時(shí)(即衡量?jī)烧哂懻撏辉掝}的概率時(shí))進(jìn)行加權(quán)操作,如式(2)所示:
圖4 微博線索的樹型結(jié)構(gòu)
其中,Sim(P1,P2)采用向量空間模型 VSM 描述文本,向量余弦值為其相關(guān)性;|N|代表線索中的微博文本總數(shù)。
在微博文本內(nèi)容基礎(chǔ)上融入交互信息形成線索樹內(nèi)的話題檢測(cè)模型,進(jìn)而對(duì)微博線索樹進(jìn)行話題分析。線索樹內(nèi)話題分析通過聚類實(shí)現(xiàn),過濾掉話題不相關(guān)的垃圾文本(實(shí)驗(yàn)中設(shè)定聚類個(gè)數(shù)K,保留類別內(nèi)部文本數(shù)較多的類別,即類別內(nèi)部文本數(shù)較少的文本信息認(rèn)為是話題不相關(guān)的內(nèi)容)。最后,我們得到一個(gè)干凈的、話題相關(guān)的線索文本樹TR。
全局話題聚類是在局部話題檢測(cè)的基礎(chǔ)上,在微博森林上進(jìn)行話題檢測(cè)的過程。為了解決數(shù)據(jù)稀疏問題,本文充分利用線索樹結(jié)構(gòu)。將第一步處理后的線索樹TR中的微博文本進(jìn)行合并,擴(kuò)充為信息豐富的線索文本(thread text)。然后,對(duì)線索文本集進(jìn)行全局話題檢測(cè)。如果線索文本屬于某個(gè)話題,那么定義該線索文本下的所有微博文本都屬于該話題。
假如線索樹TR中的微博文本結(jié)合后形成線索文本Xi,即TR所有微博文本的組合。微博森林則最終會(huì)形成線索文本集合{Xi},i=1,2,…,n。從而,話題檢測(cè)的任務(wù)就轉(zhuǎn)化為在集合{Xi},i=1,2,…,n中發(fā)現(xiàn)話題信息的過程。
本文在采用詞頻和反文檔頻率(TFIDF)作為特征選擇和特征權(quán)重計(jì)算的基礎(chǔ)上,同時(shí)測(cè)試了潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)的特征選擇性能。事實(shí)上,LDA模型已被驗(yàn)證有益于長(zhǎng)文的特征選擇(優(yōu)于TFIDF)[11],但在微博這類短文本上的性能尚未得到驗(yàn)證。為了嘗試更好的特征選擇方法,本文實(shí)驗(yàn)部分對(duì)TFIDF和LDA分別進(jìn)行了測(cè)試,并驗(yàn)證LDA特征選擇方法對(duì)微博文本的話題檢測(cè)更為有益。4.5.1 基于LDA模型的特征選擇
LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)算法,采用詞包(bag of words)方法,將每篇文檔視為一個(gè)詞頻向量,用來識(shí)別大規(guī)模文檔集或語料庫(kù)中潛在的主題信息。
語料庫(kù)中每一篇文檔與T個(gè)主題的一個(gè)多項(xiàng)分布相對(duì)應(yīng),該多項(xiàng)分布記為θ。每個(gè)主題又與詞匯表中的V個(gè)單詞的一個(gè)多項(xiàng)式分布相對(duì)應(yīng),將這個(gè)多項(xiàng)式分布記為φ。上述詞匯表是由語料庫(kù)中所有互異單詞組成,實(shí)際建模中要進(jìn)行去除停用詞、詞干還原等處理操作。θ和φ分別帶有一個(gè)超參數(shù)α和β的Dirichlet先驗(yàn)分布。對(duì)每一篇文檔d中的每一個(gè)單詞,我們從該文檔所對(duì)應(yīng)的多項(xiàng)分布θ中抽取一個(gè)主題Z,然后我們?cè)購(gòu)闹黝}Z所對(duì)應(yīng)的多項(xiàng)分布φ中抽取一個(gè)單詞W。將這個(gè)過程重復(fù)Nd次,就產(chǎn)生了文檔d。
對(duì)中文微博的研究尚處于起步階段,尚無公認(rèn)的語料集和標(biāo)注結(jié)果。因此,本文使用新浪開發(fā)平臺(tái)①open.weibo.com提供的API獲取數(shù)據(jù),根據(jù)TDT4標(biāo)注大綱,借助六位志愿者進(jìn)行人工標(biāo)注。
本文選擇1 100個(gè)線索樹作為語料集,其中共包括16 500個(gè)微博文本(平均每個(gè)線索樹中含有15個(gè)微博文本)。針對(duì)該語料集的人工標(biāo)注結(jié)果總共提交了100個(gè)不同話題。
實(shí)驗(yàn)繼承了Steinbach等[12]提出的評(píng)測(cè)方法。其中,使用Ai代表由系統(tǒng)聚類獲得的話題類ci的文檔集合,Aj代表人工標(biāo)注的話題類cj的文檔集合。ci的F值計(jì)算方法如下:
其中pi,j,ri,j和fi,j分別代表類ci和類cj進(jìn)行比較后的p值(精確率)、r值(召回率)和f值。對(duì)求出的p,r和f值通過求平均之后得出系統(tǒng)的P,R和F值。
為了驗(yàn)證時(shí)間信息、作者信息和線索信息在話題檢測(cè)中的作用,本文設(shè)置三項(xiàng)Baseline系統(tǒng),所有系統(tǒng)中的聚類算法統(tǒng)一采用K-means和層次聚類(HAC),描述形式如下:
B-sys1:只含有微博的文本內(nèi)容(詞特征+VSM)。
B-sys2:在B-sys1基礎(chǔ)上添加作者信息特征。
B-sys3:在B-sys2基礎(chǔ)上添加時(shí)間信息特征。
實(shí)驗(yàn)中,本文所嘗試的基于線索樹的雙層聚類算法(Our-sys),在B-sys3 的基礎(chǔ)上充分使用了線索信息,先進(jìn)行線索內(nèi)聚類(同一首帖下交互信息的聚類),再進(jìn)行全局聚類。此外,B-sys1,B-sys2,B-sys3和Our-sys系統(tǒng)都分別采用TFITF和LDA方法進(jìn)行特征選擇;在聚類過程中,分別采用了K-means聚類算法和HAC層次聚類算法。
實(shí)驗(yàn)首先驗(yàn)證不同的聚類個(gè)數(shù)對(duì)系統(tǒng)性能的影響。實(shí)驗(yàn)給出從50到150不同的聚類個(gè)數(shù)。從圖5中可以發(fā)現(xiàn),隨著話題個(gè)數(shù)的增加,系統(tǒng)的性能持續(xù)優(yōu)化;但當(dāng)K大于100時(shí)性能出現(xiàn)下滑。不同特征選擇方法和不同的聚類算法結(jié)果都呈現(xiàn)相同趨勢(shì)。并且在聚類個(gè)數(shù)趨于真實(shí)類別個(gè)數(shù)時(shí)(100)本文所涉方法能夠取得最優(yōu)的效果。
圖5 K取不同的值時(shí)的F值
表1顯示了Baseline系統(tǒng)和雙層聚類系統(tǒng)(Our-sys)的在K取100時(shí)的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果顯示,系統(tǒng)B-sys2比B-sys1平均提高了4.0%,系統(tǒng)B-sys3比系統(tǒng)B-sys2平均提高了0.1%,而雙層聚類系統(tǒng)Our-sys比B-sys3平均提高了2.7%。說明作者信息、時(shí)間信息和線索信息在微博話題檢測(cè)中起到了正面的作用。其中,B-sys2的結(jié)果比B-sys1的平均提高了4個(gè)百分點(diǎn),說明作者信息在微博短文本的話題檢測(cè)任務(wù)中起到了非常重要的作用,驗(yàn)證了本文前面的假設(shè):同一用戶在一段時(shí)間內(nèi)關(guān)注的話題相對(duì)固定。
B-sys3和B-sys2的對(duì)比結(jié)果可以看出,時(shí)序信息在微博文本的話題檢測(cè)中并沒有達(dá)到預(yù)期的明顯效果,主要原因是特定時(shí)間段內(nèi)的微博文本具有一定的話題相關(guān)性,但是話題分布較為廣泛。通過K-means+LDA這組最好的性能中可以看出,時(shí)序信息仍然對(duì)話題檢測(cè)起到了積極的促進(jìn)作用。
通過Our-sys和B-sys3的對(duì)比結(jié)果中可以看出,線索樹信息在微博文本話題檢測(cè)中起到了顯著的作用。Our-sys很好地利用了線索樹信息,即首先在線索樹內(nèi)進(jìn)行局部話題聚類,然后在線索樹集合中進(jìn)行全局話題聚類,有效地利用了針對(duì)同一首帖進(jìn)行跟帖的微博文本集合中微博文本高度語義一致性和內(nèi)容相關(guān)性的結(jié)構(gòu)特點(diǎn)。
表1 不同的方法在K=100時(shí)的F值
Our-sys能夠?qū)aseline系統(tǒng)的改進(jìn)源于如下兩方面:其一,Baseline系統(tǒng)將微博文本看作獨(dú)立信息單元,沒有充分利用上下文信息。比如“支持,打!”,對(duì)于這樣一個(gè)和上下文有顯著回復(fù)關(guān)系的微博文本,Baseline很難準(zhǔn)確判斷該文本屬于哪個(gè)話題,而本文的方法將此微博和處在同一線索樹中的首帖“美國(guó)出兵利比亞”聯(lián)系起來,有效地利用上下文信息解決類似的信息缺省的微博文本的話題聚類問題;其二,Baseline將每個(gè)微博看作獨(dú)立的文本。由于微博文本短小,所以每篇文本中的詞語信息很少,很容易造成數(shù)據(jù)稀疏問題。在構(gòu)造特征向量時(shí),數(shù)據(jù)稀疏問題很嚴(yán)重。而Our-sys將線索樹(同一首帖下圍繞核心話題的交互信息)看作統(tǒng)一整體,在線索文本上進(jìn)行話題檢測(cè),有效地解決了數(shù)據(jù)稀疏的問題。
其次,通過對(duì)特征選擇方法的對(duì)比看出,LDA對(duì)微博文本的特征選擇有助于話題檢測(cè)系統(tǒng)性能的提高,并優(yōu)于TFIDF,繼承了其在長(zhǎng)文本中的優(yōu)勢(shì),如表1所示。此外,通過對(duì)聚類算法的比較可以發(fā)現(xiàn),Our-sys系統(tǒng)使用K-means聚類算法取得的性能比HAC聚類算法的性能好,說明,雖然HAC聚類算法和本文的方法性質(zhì)很像,但是,HAC聚類算法并沒有有效利用微博的上下文信息,因此,在最終的聚類效果上并沒有Our-sys系統(tǒng)的效果好。
本文根據(jù)微博文本的特點(diǎn)提出了基于線索樹雙層聚類的話題檢測(cè)算法。利用融合了時(shí)序特征、作者信息以及話題內(nèi)容的TAT模型,先后在線索樹內(nèi)和線索樹外進(jìn)行局部話題檢測(cè)和全局話題檢測(cè),最終形成話題庫(kù)。實(shí)驗(yàn)結(jié)果表明,本文的方法很好地解決了數(shù)據(jù)稀疏的問題。
微博文本中網(wǎng)絡(luò)詞語出現(xiàn)頻繁,因此,在使用中國(guó)科學(xué)院分詞工具進(jìn)行分詞時(shí)效果不理想,進(jìn)而影響特征選擇的性能;同時(shí),微博文本中的語言表達(dá)較為隨意、含蓄,例如,“狐貍尾巴露出來了”這樣一條根據(jù)首帖展開的回復(fù),是針對(duì)話題“美國(guó)出兵利比亞”展開的討論,但是由于語言表達(dá)含蓄,本文的方法很難將這類文本歸類到話題“美國(guó)出兵利比亞”中。針對(duì)上述問題,在以后的工作中,將針對(duì)微博文本特點(diǎn)改進(jìn)分詞工具;完善微博語料庫(kù),在更大規(guī)模的語料中進(jìn)行測(cè)試。另外,由于微博文本具有很強(qiáng)的意圖性,可以將話題檢測(cè)結(jié)果作為意見挖掘?qū)ο蟮暮蜻x集合進(jìn)行微博文本意見挖掘,以解決文本短引起的召回率低的問題。
[1]China and Microbloging:How people tweet in China[DB/OL].www.digimind.com,2011.
[2]J Allan,J Carbonell.Topic Detection and Tracking Pilot Study:Final Report[C]//Proceeding of the DARPA Broadcast News Transcriptions and Understanding Workshop,F(xiàn)ebruary,1998:11-17.
[3]Y Yang,T Pierce,J Carbonell.A Study on Retrospective and On-Line Event Detection[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1998:28-36.
[4]J Xu,W Croft.Cluster-based language models for distributed retrieval[C]//Proceedings of the SIGIR 1999:254-261.
[5]Z Jia,Q He,H Zhang,et al.A New Event Detection and Tracking Algorithm Based on Dynamic Evolution Model[J].Journal of Computer Research and Development,2004,41(7):1273-1280.
[6]賈自艷,何清,張俊海,等.一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J].計(jì)算機(jī)研究與發(fā)展.2004,41(7):1273-1280.
[7]B Sharifi,M-A Hutton,J Kalita.Summarizing Microblogs with Topic Models [C]//Proceeding of NAACL-HLT'2010:685-688.
[8]D Ramage,S Dumais,D Liebling.Characterizing Microblogs with Topic Models [C]//Proceeding of ICWSM'2010.
[9]B O'Connor,M Krieger,D Ahn.TweetMotif:Exploratory Search and Topic Summarizing for Twitter[C]//Proceedings of ICWSW 2010.
[10]Z Liu,W Yu,W Chen,et al.Short Text Feature Selection and Classification for Micro Blog Mining[C]//Proceedings of CiSE'2010:1-4.
[11]M Blei,Y Ng,I Jordan.Latent Dirchlet Allocation[J].Journal of Machine Learning Research,2003:993-1022.
[12]M Steinbach,G Kapypis,V Kumar.A Comparison of Document Clustering Techniques[C]//Proceedings of KDD Workshop on Text Mining,2000:109-111.