鄧定勝
一種基于劃分的周期性話(huà)題挖掘方法研究
鄧定勝
周期性話(huà)題挖掘是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一,針對(duì)當(dāng)前絕大部分研究只限于時(shí)間序列數(shù)據(jù)庫(kù)、無(wú)法直接應(yīng)用于文本數(shù)據(jù)的不足,提出了一種基于劃分的周期性話(huà)題挖掘方法(PTMP),首先,將話(huà)題劃分為周期性話(huà)題、背景話(huà)題和突發(fā)性話(huà)題,然后,將每個(gè)周期性話(huà)題的時(shí)標(biāo)分布建模為混合高斯分布,為了緩解背景噪聲問(wèn)題,通過(guò)均勻分布生成背景話(huà)題的時(shí)標(biāo),用高斯分布來(lái)生成突發(fā)話(huà)題的時(shí)標(biāo),然后通過(guò)將該混合模型根據(jù)時(shí)標(biāo)文本數(shù)據(jù)進(jìn)行調(diào)整,從而發(fā)現(xiàn)周期性話(huà)題及其時(shí)間分布。最后,收集了包括研討會(huì)、DBLP和Flickr在內(nèi)的多個(gè)代表性數(shù)據(jù)集,驗(yàn)證方法的有效性。
周期性話(huà)題;數(shù)據(jù)挖掘;混合高斯分布;噪聲;時(shí)標(biāo)
隨著Web技術(shù)的發(fā)展,許多文本數(shù)據(jù)帶有時(shí)間信息,比如新聞帶有發(fā)布日期,F(xiàn)lickr照片帶有拍照日期(http://www.flickr.com),Twitter(http://twitter.com)上發(fā)布的tweet帶有上傳時(shí)間。這些文本數(shù)據(jù)蘊(yùn)含了許多有用信息。發(fā)現(xiàn)周期性話(huà)題并描述它們的時(shí)間模式,是個(gè)非常有趣的課題。由于周期性分析的重要性,人們針對(duì)時(shí)間序列數(shù)據(jù)庫(kù)進(jìn)行了周期性檢測(cè)研究[1,2]。一些研究為了檢測(cè)周期性模式,在分析單個(gè)標(biāo)記或單次查詢(xún)的時(shí)間分布時(shí)使用的策略非常類(lèi)似[3]。然而,當(dāng)前絕大部分研究只限于時(shí)間序列數(shù)據(jù)庫(kù),無(wú)法直接應(yīng)用于文本數(shù)據(jù)。首先,一個(gè)詞組并不足以描述一個(gè)話(huà)題,只有更多的詞組才能全面概括一個(gè)話(huà)題。其次,只對(duì)單個(gè)詞組進(jìn)行分析并不足以發(fā)現(xiàn)周期性話(huà)題。例如,“音樂(lè)”、“節(jié)日”、“芝加哥”等詞組如果單獨(dú)考慮,不會(huì)展現(xiàn)出周期性模式,但如果綜合考慮則可能存在周期性話(huà)題。第三,由于語(yǔ)言的多樣性,存在許多同義詞和多義詞,這讓周期性話(huà)題檢測(cè)更加困難。
本文提出PTMP方法來(lái)處理以上問(wèn)題。本文方法不是根據(jù)單個(gè)詞組或模式出現(xiàn)的周期性展開(kāi)分析,而是利用了詞組的周期性及共生性,進(jìn)而檢測(cè)出以詞組分布為載體的周期性話(huà)題。本文貢獻(xiàn)總結(jié)如下:(1)首次引入潛在周期性話(huà)題分析問(wèn)題。(2)提出PTMP模型,通過(guò)利用詞組的周期屬性及共性結(jié)構(gòu)來(lái)檢測(cè)周期性話(huà)題。(3)基于多個(gè)代表性數(shù)據(jù)集進(jìn)行全面的實(shí)驗(yàn),證明了本文算法的有效性。
相繼有眾多學(xué)者提出了一系列方法用于解決周期性話(huà)題挖掘問(wèn)題。如Mei等人[4]將時(shí)線(xiàn)分割為多個(gè)儲(chǔ)體,并提出概率算法對(duì)網(wǎng)絡(luò)博客的子話(huà)題主題和時(shí)空主題模式同時(shí)建模。Wang等人[5]從同等處理過(guò)后的文本流中挖掘相關(guān)的突發(fā)話(huà)題模式。Blei等[6]針對(duì)話(huà)題多項(xiàng)式分布的自然參數(shù)使用了狀態(tài)空間模型,設(shè)計(jì)了一種動(dòng)態(tài)話(huà)題模型,以模擬文件流的時(shí)間進(jìn)化情況。Iwata等人[7]提出了一種在線(xiàn)話(huà)題模型,可依次分析文檔集合話(huà)題的時(shí)間進(jìn)化情況,該模型假設(shè)根據(jù)上一時(shí)間的多尺度詞匯分布生成了具體話(huà)題的當(dāng)前詞匯分布。Lahiri等人[8]提出了如何在動(dòng)態(tài)社交網(wǎng)絡(luò)中檢測(cè)周期性或近似周期性子圖這一新的數(shù)據(jù)挖掘問(wèn)題。Murata等人[9]根據(jù)搜索意圖數(shù)量及其時(shí)間特性來(lái)對(duì)檢索分類(lèi),然后對(duì)每個(gè)搜索意圖的比例進(jìn)行離散傅立葉變換,以檢測(cè)出周期性變化。然而,這些研究只分析了單個(gè)詞匯的分布。本文則采用更為系統(tǒng)的方式,對(duì)潛在周期性話(huà)題分析進(jìn)行建模,每個(gè)話(huà)題用詞匯分布表示。然后,從話(huà)題而非單個(gè)詞匯角度分析周期性模式,并對(duì)周期性突發(fā)情況及其對(duì)應(yīng)話(huà)題實(shí)現(xiàn)了同步檢測(cè),而不是分步進(jìn)行。
本節(jié)將對(duì)潛在周期性話(huà)題分析問(wèn)題進(jìn)行定義。本文所用標(biāo)記法如表1所示:
表1 本文采用的標(biāo)記法
定義1:話(huà)題是指具有語(yǔ)義條理性的一種主題,它通過(guò)詞組的多項(xiàng)式分布表現(xiàn)出來(lái)。一般地,每個(gè)話(huà)題z可表示為如下詞組分布:
定義2:周期性話(huà)題 是指定期重復(fù)的一種話(huà)題。給定話(huà)題z且時(shí)間t時(shí)的條件概率遵守周期性間隔為T(mén)的周期性模式。換句話(huà)說(shuō),每個(gè)話(huà)題的時(shí)標(biāo)分布每隔時(shí)間T展現(xiàn)一次。周期性間隔T可由用戶(hù)根據(jù)自身需要確定,可以是1周、1月、1年,等等。
定義3:時(shí)標(biāo)文檔 是指帶有時(shí)標(biāo)的文本文檔。它可以是帶有發(fā)布時(shí)期的新聞,帶有發(fā)布時(shí)期的Twitter網(wǎng)上的鳥(niǎo)叫聲,也可以是帶有上傳日期的Flickr網(wǎng)上的照片,此時(shí)照片上的標(biāo)記可以看成是文本,照片的拍攝時(shí)間可以看成是照片的時(shí)標(biāo)。
有了時(shí)標(biāo)文件和周期性話(huà)題定義后,本文可以定義潛在周期性話(huà)題分析如下:
定義4:給定一組時(shí)標(biāo)文檔D,周期性間隔T,話(huà)題數(shù)量K,我們希望發(fā)現(xiàn)每隔時(shí)間T便重復(fù)一次的K個(gè)周期性話(huà)題,即其中Z為話(huà)題集合,時(shí)間分布
本節(jié)給出PTMP模型。首先,介紹本文模型的總體思路。然后,詳細(xì)介紹本文周期性話(huà)題生成過(guò)程。最后,解釋如何估計(jì)參數(shù)。
3.1 總體思路
我們將每個(gè)周期性話(huà)題的時(shí)標(biāo)分布建模為混合高斯分布,其中兩個(gè)連續(xù)部分的間隔為T(mén)。除了周期性話(huà)題外,文檔集合可能包括背景詞匯。為了緩解背景噪聲問(wèn)題,我們?cè)谀P椭袑?duì)背景話(huà)題進(jìn)行了建模。尤其地,通過(guò)均勻分布生成背景話(huà)題的時(shí)標(biāo)。除了周期性話(huà)題和背景話(huà)題外,我們使用突發(fā)話(huà)題來(lái)模擬短時(shí)間而非經(jīng)常性的突發(fā)行為模式。用高斯分布來(lái)生成突發(fā)話(huà)題的時(shí)標(biāo)。因此,文檔集合建模為背景話(huà)題、突發(fā)話(huà)題、周期性話(huà)題的混合。通過(guò)將該混合模型根據(jù)時(shí)標(biāo)文本數(shù)據(jù)進(jìn)行調(diào)整,我們可以發(fā)現(xiàn)周期性話(huà)題及其時(shí)間分布。
3.2 PTMP方法
(1)從多項(xiàng)式dφ中采樣一個(gè)話(huà)題z。(a)如果z是背景話(huà)題,則從均勻分布中采樣時(shí)間t,其中tstart和是文檔集合的開(kāi)始和截止時(shí)間。(b)如果z是突發(fā)話(huà)題,從采樣t。(c)如果z是周期性話(huà)題,從均勻分布中采集文檔d的周期k,從采集時(shí)間t,其中T是周期性間隔。
(2)從多項(xiàng)式zθ采集一個(gè)詞匯w。若有數(shù)據(jù)集合,其中wd是文檔d的詞匯集合,td是文檔d的時(shí)標(biāo),時(shí)的集合對(duì)數(shù)似然概率為公式(1)、(2):
其中,n( d, w)是文檔d中詞匯w的數(shù)量。
3.3 參數(shù)估計(jì)
為了估計(jì)等式1中的參數(shù)Ψ,我們使用最大期望估計(jì)(EM)算法[6]來(lái)解決問(wèn)題,循環(huán)計(jì)算似然局部最大值。本文引入隱藏參數(shù)概率表示文檔d詞匯w屬于話(huà)題z的概率。在步驟E時(shí),它計(jì)算完整似然期望值,其中是在第t次迭代時(shí)w的估計(jì)值。在步驟M時(shí),它可以獲得使完整似然期望最大化的估計(jì)值
如果z是突發(fā)話(huà)題,zμ和zσ做如下更新為公式(9)、(10):
如果話(huà)題z是周期性話(huà)題,我們將時(shí)間線(xiàn)分為長(zhǎng)度為T(mén)的多個(gè)間隔,并假設(shè)每個(gè)文檔只與對(duì)應(yīng)的間隔有關(guān)。換句話(huà)說(shuō),如果文檔d未在第k個(gè)間隔,則式5中的設(shè)為0。周期性話(huà)題z的zμ和zσ做如下更新為公式(11)、(12):
其中,Id是文檔d的對(duì)應(yīng)間隔。
4.1 數(shù)據(jù)集
本文基于多個(gè)數(shù)據(jù)集來(lái)評(píng)估所提方法:
1)研討會(huì)數(shù)據(jù)。我們收集了伊利諾斯州大學(xué)(http://cs.illinois.edu/)計(jì)算機(jī)專(zhuān)業(yè)6個(gè)研究小組一個(gè)學(xué)期內(nèi)的每周研討會(huì)聲明。6個(gè)研究小組的研究?jī)?nèi)容包括AIIS(人工智能和信息系統(tǒng)),DAIS(數(shù)據(jù)庫(kù)和信息系統(tǒng)),圖像,HCI,理論和UPCRC(通用并行計(jì)算研究中心)。研討會(huì)時(shí)間作為文檔時(shí)標(biāo)。為了確定每周話(huà)題,本文把周期間隔設(shè)為1周。該研討會(huì)數(shù)據(jù)集共有61個(gè)文件和901個(gè)詞匯。
2)數(shù)字目錄工程DBLP數(shù)據(jù)。它是基于計(jì)算機(jī)科學(xué)的目錄項(xiàng)目。我們收集了2010到2013年不同會(huì)議的論文題目。會(huì)議包括WWW, SIGMOD, SIGIR, KDD,VLDB和NIPS。根據(jù)項(xiàng)目安排確定文檔的時(shí)標(biāo)。為了發(fā)現(xiàn)年度話(huà)題,本文設(shè)置周期性間隔T為1年。該DBLP數(shù)據(jù)集有4070個(gè)文檔和2132個(gè)詞匯。
3) Flickr。Flickr是一個(gè)在線(xiàn)照片共享網(wǎng)站。從Flickr API(http://www.flickr.com/services/api/)選擇照片。照片標(biāo)記作為文檔文本,照片拍攝時(shí)間作為文檔時(shí)標(biāo)。根據(jù)實(shí)際情況,本文選擇了2009到2013年間多個(gè)音樂(lè)會(huì)的照片,例如SXSW (South by Southwest), Coachella, Bonna-roo,Lollapalooza和ACL (Austin City Limits)等。我為了發(fā)現(xiàn)年度話(huà)題,設(shè)置周期間隔為1年。該數(shù)據(jù)集共有84244個(gè)文檔和7524個(gè)詞匯。
4.2 定量評(píng)估
(1)PTMP話(huà)題檢測(cè):結(jié)合數(shù)據(jù)集構(gòu)建情況,我們分別設(shè)置研討會(huì)、DBLP和Flickr的周期性話(huà)題數(shù)據(jù)為6、6、5。如表2所示:
表2 基于PTMP的部分周期性話(huà)題檢測(cè)。日期和括號(hào)中的持續(xù)時(shí)間是對(duì)應(yīng)周期性話(huà)題時(shí)標(biāo)的均值和標(biāo)準(zhǔn)差。
PTMP在不同數(shù)據(jù)集檢測(cè)出來(lái)的部分話(huà)題。對(duì)研討會(huì)數(shù)據(jù)集,PTMP可以有效檢測(cè)不同研究小組的話(huà)題及其對(duì)應(yīng)時(shí)間。例如,第一個(gè)話(huà)題是DAIS,每周二下午4點(diǎn),主流詞匯為數(shù)據(jù)、文本和挖掘。第二個(gè)話(huà)題是AIIS,每周5下午兩點(diǎn),主要內(nèi)容是機(jī)器學(xué)習(xí)和算法。對(duì)DBLP數(shù)據(jù)集,PTMP可以檢測(cè)出6個(gè)周期性話(huà)題,也就是6個(gè)年度會(huì)議。例如,第一個(gè)話(huà)題是8月的KDD,議題是數(shù)據(jù)挖掘。第二個(gè)話(huà)題是SIGIR,主要議題是數(shù)據(jù)檢索、網(wǎng)絡(luò)、搜索、相關(guān)性和評(píng)估。對(duì)Flickr數(shù)據(jù)集,PTMP可以有效檢測(cè)出音樂(lè)節(jié)及其持續(xù)時(shí)間。
(2)PTMP VS周期性檢測(cè)。為了證明把相關(guān)詞匯放在一起檢測(cè)比各個(gè)詞匯單獨(dú)分析更為合理,我們對(duì)PTMP和周期性檢測(cè)算法做一對(duì)比。與單個(gè)詞匯表示相比,PTMP使用多個(gè)詞匯描述話(huà)題,如表3所示:
表3 不同數(shù)據(jù)集使用PTMP和LDA時(shí)被檢測(cè)出來(lái)的部分話(huà)題
例如,對(duì)DBLP數(shù)據(jù)集,PTMP發(fā)現(xiàn)話(huà)題VLDB時(shí)的詞匯分布為data 0.0530, xml 0.0208, query 0.0196, queries 0.0176,efficient 0.0151, mining 0.0142, database 0.0136, streams 0.0112, databases 0.0111。我們可以看出,單個(gè)詞匯并不足以表示這樣一個(gè)話(huà)題,只有多個(gè)詞匯才能更好表示。PTMP不僅可以更全面的描述話(huà)題,還可以當(dāng)組成詞匯單獨(dú)考慮不具有周期性模式時(shí)檢測(cè)出周期性話(huà)題。對(duì)PTMP,我們可以根據(jù)和文件時(shí)標(biāo),繪出檢測(cè)話(huà)題的時(shí)間分布,其中可以根據(jù)貝葉斯理論由獲得。如圖1所示:
圖1 基于PTMP檢測(cè)的話(huà)題VLDB的時(shí)間分布及話(huà)題詞匯的時(shí)間分布
我們可以繪出DBLP數(shù)據(jù)集VLDB話(huà)題的時(shí)間分布及話(huà)題最流行詞匯data、xml、query的時(shí)間分布。我們可以看出,話(huà)題VLDB的周期性模式非常清晰,而詞匯data、xml、query沒(méi)有周期性出現(xiàn)。這表明,即使周期性話(huà)題的組成詞匯本身沒(méi)有周期性,PTMP也可以有效檢測(cè)出這些周期性話(huà)題。
(3)PTMP VS 話(huà)題模式。為了研究傳統(tǒng)話(huà)題模型能否檢測(cè)出有意義話(huà)題,我們對(duì)話(huà)題建模算法結(jié)果進(jìn)行比較,包括PLSA、LDA和PTMP。對(duì)PLSA和LDA,我們?cè)O(shè)置研討會(huì)、DBLP和Flickr數(shù)據(jù)集的話(huà)題數(shù)量分別為5、5、6?;赑LSA和LDA的部分話(huà)題如表4所示:
表4 使用PTMP時(shí)周期性及突發(fā)性數(shù)據(jù)集的話(huà)題檢測(cè)。
由于計(jì)算機(jī)領(lǐng)域詞匯的相關(guān)度非常高,PLSA和LDA無(wú)法檢測(cè)出研討會(huì)數(shù)據(jù)集不同研究領(lǐng)域的話(huà)題。對(duì)DBLP數(shù)據(jù)集,所有的話(huà)題非常類(lèi)似,導(dǎo)致PLSA和LDA無(wú)法檢測(cè)出有意義的話(huà)題群組。對(duì)Flickr數(shù)據(jù)集,PLSA混合了幾個(gè)音樂(lè)節(jié)。例如,話(huà)題1包括southbysouthwest和coachella,話(huà)題2包括lollapalooza和austincitylimits。我們發(fā)現(xiàn),LDA在該數(shù)據(jù)集上的表現(xiàn)要優(yōu)于PLSA。即使話(huà)題1混合了coachella和bonnaroo,LDA也可以檢測(cè)出不同的節(jié)日。與表2中的PTMP相比,我們可以發(fā)現(xiàn),PTMP檢測(cè)出來(lái)的有意義話(huà)題的質(zhì)量更高。
(5)周期性話(huà)題 VS 突發(fā)性話(huà)題。為了驗(yàn)證PTMP方法對(duì)周期性話(huà)題和突發(fā)性話(huà)題的平衡性能,本文對(duì)Flickr數(shù)據(jù)集的以下情況進(jìn)行研究。我們沒(méi)有將與音樂(lè)節(jié)有關(guān)的所有照片混在一起,而是只保存了2006-2010年間的SXSW和ACL及2009年的Coachella和Lollapalooza音樂(lè)節(jié)的照片。于是,我們模擬了帶有2個(gè)周期性話(huà)題和2個(gè)突發(fā)性話(huà)題的數(shù)據(jù)集情況。對(duì)PTMP,我們將周期性話(huà)題和突發(fā)性話(huà)題數(shù)據(jù)均設(shè)為2,并在表4中給出了被檢測(cè)出來(lái)的話(huà)題名稱(chēng)。從表5中可以看出,每年出現(xiàn)時(shí)間比較類(lèi)似的詞匯,比如sxsw和acl,屬于兩種對(duì)應(yīng)的周期性話(huà)題(即話(huà)題1和話(huà)題2),而只在某段時(shí)間才會(huì)出現(xiàn)的詞匯,比如lollapalooza、chicago、grantpark、illinois、coachella、indio、california,屬于兩種對(duì)應(yīng)的突發(fā)性話(huà)題(即話(huà)題3和話(huà)題4)。PTMP可以區(qū)分該數(shù)據(jù)集的突發(fā)性話(huà)題和周期性話(huà)題。周期性話(huà)題SXSW和ACL的平均日期為每年的3月18日和9月28日,突發(fā)性話(huà)題Lollapalooza和Coachella的平均日期為2009年的8月8日和4月17日。
(6)小結(jié)。從以上定量分析可以看出,與針對(duì)單個(gè)詞匯的周期性檢測(cè)相比,PTMP不僅可以更全面的描述話(huà)題,還可以當(dāng)周期性話(huà)題的構(gòu)成詞匯單獨(dú)分析不具有周期性模式時(shí),檢測(cè)出周期性話(huà)題。與PLSA和LDA話(huà)題建模算法相比,PTMP可以檢測(cè)出更具語(yǔ)義的周期性話(huà)題。此外,PTMP還可以有效檢測(cè)出每個(gè)周期性話(huà)題的平均日期和標(biāo)準(zhǔn)差。我們從DBLP的SIGMOD vs. VLDB及SIGMOD vs. CVPR數(shù)據(jù)集可以看出,如果沒(méi)有綜合文本和時(shí)間信息,則難以檢測(cè)出有意義的話(huà)題;同時(shí)可以看出,PTMP在二者間實(shí)現(xiàn)了很好的平衡。對(duì)于周期性話(huà)題和突發(fā)性話(huà)題間的折衷,我們從Flickr網(wǎng)站周期性話(huà)題VS突發(fā)性話(huà)題示例中可以看出,具有周期性或突發(fā)性模式的詞匯將隸屬于對(duì)應(yīng)的周期性或突發(fā)性話(huà)題。
本文引入了帶有時(shí)標(biāo)的文檔的潛在周期性話(huà)題分析問(wèn)題。提出了PTMP潛在周期性話(huà)題分析模型,既利用了詞匯周期性,又利用了詞匯共生性。在測(cè)試本文算法時(shí),收集了研討會(huì)、DBLP和Flickr等幾個(gè)代表性數(shù)據(jù)集。評(píng)估結(jié)果表明,本文PTMP模型綜合了話(huà)題聚類(lèi)和周期性模式信息,可以有效檢測(cè)出潛在周期性話(huà)題。周期性分析是網(wǎng)絡(luò)挖掘和社交媒體挖掘的重要課題。下步工作中,我們將重點(diǎn)研究如何對(duì)本文結(jié)論進(jìn)行拓展,以應(yīng)對(duì)不斷增加的網(wǎng)絡(luò)文檔數(shù)量和日趨復(fù)雜的社交媒體結(jié)構(gòu)。
[1] Vlachos M, Yu P, Castelli V. On periodicity detection and structural periodic similarity[C]. SIAM International Conference on Data Mining. 2005: 449-460
[2] Bathoorn R, Welten M, Richardson M, et al. Frequent episode mining to support pattern analysis in developmental biology[M]. Pattern Recognition in Bioinformatics. Springer Berlin Heidelberg, 2010: 253-263
[3] Chen L, Roy A. Event detection from flickr data through wavelet-based spatial analysis[C]. Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009: 523-532
[4] Mei Q, Liu C, Su H, et al. A probabilistic approach to spatiotemporal theme pattern mining on weblogs[C]. Proceedings of the 15th international conference on World Wide Web. ACM, 2006: 533-542
[5] Wang X, Zhai C X, Hu X, et al. Mining correlated bursty topic patterns from coordinated text streams[C]. Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2007: 784-793
[6] Blei D M. Probabilistic topic models [J]. Communications of the ACM, 2012, 55(4): 77-84
[7] Iwata T, Yamada T, Sakurai Y, et al. Online multiscale dynamic topic models[C]. Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2010: 663-672
[8] Lahiri M, Berger-Wolf T Y. Periodic subgraph mining in dynamic networks [J]. Knowledge and information systems, 2010, 24(3): 467-497
[9] Murata M, Toda H, Matsuura Y, et al. detecting periodic changes in search intentions in a search engine[C]. Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1525-1528
Research on A Periodic Topic Ming Method Based on Partition
Deng Dingsheng
(Computer Science Department, Sichuan University Nationalities, Kangding 626001, China)
Periodic topic mining is a hot problem of current research in the data mining region. Aiming at the disadvantages of most existing studies which are limited to time series database and cannot be applied on text data directly, this paper proposes a periodic topic mining method based on partition, firstly, topics can be classified into three types: periodic topics, background topics, and bursty topics, we model the distribution of time-stamps for each periodic topic as a mixture of Gaussian distributions, in order to alleviate the problem of background noises, the time-stamps of the background topics are generated by a uniform distribution, the time-stamps of the bursty topics are generated from a Gaussian distribution, and then By fitting such a mixture model to time-stamped text data, we can discover periodic topics along with their time distributions. To show the effectiveness of our model, we collect several representative datasets including Seminar, DBLP and Flickr.
Periodic Topic; Data Ming; Mixture of Gaussian Distributions; Noise; Time-Stamps
TP391
A
2014.06.05)
鄧定勝(1978-),男,四川廣安人,四川民族學(xué)院計(jì)算機(jī)科學(xué)系,碩士,講師。研究方向:軟件體系結(jié)構(gòu),算法分析與程序設(shè)計(jì),康定,626001
1007-757X(2014)08-0021-06