一種適用于微博主題提取的SMLDA模型

2015-04-01 03:25華綠綠黃廷磊劉久云夏威

桂林電子科技大學(xué)學(xué)報(bào) 2015年3期

華綠綠，黃廷磊，劉久云，夏威

(桂林電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，廣西桂林541004)

隨著網(wǎng)絡(luò)空間數(shù)據(jù)量越來越龐大，人們隨時(shí)都會(huì)淹沒在數(shù)據(jù)中，很難快速地找到有價(jià)值的信息，導(dǎo)致未能制定合適的決策。數(shù)據(jù)挖掘成為社會(huì)各個(gè)領(lǐng)域的需求。近年來，新浪微博社交網(wǎng)絡(luò)依靠LDA模型［1］對瞬間產(chǎn)生的大量數(shù)據(jù)進(jìn)行一個(gè)主題挖掘工作。然而，新浪微博數(shù)據(jù)具有信息簡短、不受時(shí)空限制、信息量大、更新傳播速度快等特征，這給傳統(tǒng)的LDA模型帶來一定的困難［2］。

目前，針對英文微博環(huán)境下的主題提取模型已有較多研究，但針對于中文微博的主題提取模型仍處于初步階段。Weng Jianshu等［3］為了發(fā)現(xiàn)有關(guān)敏感性主題的權(quán)威博主，采用先聚類后通過LDA模型建模方法;作者主題模型［4］(author topic model，簡稱ATM)是LDA的一種擴(kuò)展模型，其引入了文章的作者信息，對于簡短微博而言，LDA模型處于劣勢;Zhao等［5］對ATM模型進(jìn)行了擴(kuò)展，提出了Twitter-LDA模型，它與ATM模型的主要區(qū)別是，Twitter-LDA不僅可在微博用戶層面進(jìn)行主題建模，而且可針對一條微博進(jìn)行建模;Labeled-LDA［6］一定程度上降低了微博文本語法不規(guī)范的干擾。張晨逸等［7］基于LDA提出一種MB-LDA(micro blog latent dirichlet allocation)模型，它引入了微博文本之間的相關(guān)性和用戶之間的相關(guān)性。中文微博和外文微博除了文字字符不同外，在功能上也有差異。謝昊等［8］針對中文微博提出了一個(gè)RT-LDA模型，不僅考慮博主和轉(zhuǎn)發(fā)信息的主題關(guān)聯(lián)性，還添加了背景主題。馮普超［9］針對中文微博提出了一種基于CMBLDA模型的微博主題挖掘，融入了4種類型微博特點(diǎn)。鑒于前期研究者的經(jīng)驗(yàn)和新浪微博的數(shù)據(jù)特征，提出一種SMLDA(Sina microblog latent dirichlet allocation)模型，在加入背景主題的同時(shí)添加新浪微博特定主題標(biāo)簽關(guān)系，通過調(diào)整處理順序，采用吉布斯抽樣算法［10］進(jìn)行主題提取。

1 LDA模型概述

傳統(tǒng)的LDA模型的主要思想為:對于給定的一個(gè)文檔集，主題模型認(rèn)為每個(gè)文檔包含了若干個(gè)主題的概率，而每個(gè)主題又由很多詞語構(gòu)成，形成了一個(gè)多項(xiàng)式分布，不同的主題在文檔上的分布也不同［11］。在這個(gè)框架中，文檔主題都是潛在變量，而文本中所有詞語是可見的。生成一個(gè)文檔時(shí)，其中詞的概率分布式為:

LDA是第一個(gè)完備的主題模型，它在文檔-主題、主題-詞語這2個(gè)層級進(jìn)行建模，并以概率分布表示建模過程，其目的是為了得到θ(包含參數(shù)α的狄利克雷分布)和φ(包含參數(shù)β的分布)。聯(lián)合概率分布可表示為:

其中條件概率表明了變量之間的依賴關(guān)系。為了合理設(shè)計(jì)算法，可使用概率圖簡化模型。LDA的Bayesian網(wǎng)絡(luò)如圖1所示。

圖1 LDA模型的Bayesian網(wǎng)絡(luò)Fig.1 Bayesian network of LDA

2 SMLDA模型

2.1 SMLDA模型的生成過程

微博文本與傳統(tǒng)文本有著顯著的不同。微博文本信息中帶有“@”、“#”和“轉(zhuǎn)發(fā)”這類信息?！癅用戶”代表微博作者之間具有關(guān)聯(lián)關(guān)系，一般而言，帶有“@”標(biāo)簽的微博就是與被@作者的微博主題具有較強(qiáng)的相關(guān)性;“轉(zhuǎn)發(fā)”就是用戶可轉(zhuǎn)發(fā)別人的微博，可加評論，因而2條微博之間相互關(guān)聯(lián);“#主題#”是指微博文本的特定主題的標(biāo)簽。如“為所有遇難者默哀#雅安地震#”，這就是有關(guān)雅安地震的主題。根據(jù)微博信息的特征，SMLDA模型通過加入微博作者之間關(guān)系以及特定主題的標(biāo)簽與微博文本之間的關(guān)聯(lián)關(guān)系，運(yùn)用Gibbs抽樣算法進(jìn)行主題提取。SMLDA模型的Bayesian網(wǎng)絡(luò)如圖2示。

圖2 SMLDA模型的Bayesian網(wǎng)絡(luò)Fig.2 Bayesian network of SMLDA

SMLDA模型的生成過程如下:

1)任意選擇某個(gè)有關(guān)主題-詞語的分布φ，生成φb～D(β)分布，其中φb為背景主題，而且生成λ～D(γ)分布。

2)假設(shè)數(shù)據(jù)集包含T個(gè)主題，首先生成關(guān)于主題的分布φ～D(β)。

3)SMLDA生成1條微博時(shí)，因?yàn)橛行┺D(zhuǎn)發(fā)微博和原創(chuàng)微博正文均有帶“#”的主題，所以考慮特定標(biāo)簽“#”的文本，而轉(zhuǎn)發(fā)微博內(nèi)容又帶有回復(fù)“@”的對話性質(zhì)微博(專門評論回復(fù)而不轉(zhuǎn)發(fā)的數(shù)據(jù)“轉(zhuǎn)發(fā)”)，若有，則為轉(zhuǎn)發(fā)微博信息，θr為轉(zhuǎn)發(fā)部分和主題之間的分布，r取值為1，從αr中抽取出θr并賦值給θd，否則r取值為0，繼續(xù)判斷是否含有“@”，若有，則πc=1，其描述1個(gè)“@”類型的微博(對話性質(zhì)和“@”用戶的微博)，然后獲取θc有關(guān)參數(shù)αc的分布并賦值給θd，若無，則πc=0，直接獲取θd～D(α)。微博中關(guān)于主題的θ分布為:

繼續(xù)判斷是否含有“#主題#”，若有，則從包含參數(shù)η的Bemoulli分布中獲取t，從而確定是從θt還是從θd中提取當(dāng)前詞所屬的主題zd，i;若無，則t取值為0，直接從θd獲取當(dāng)前詞所屬的主題zd，i。微博中關(guān)于主題的θ分布式為:

4)確定主題分布后，就需要判斷詞應(yīng)該選什么主題，這由y決定，當(dāng)它的值等于0時(shí)，選擇從φb中獲取，反之，從φzd，i中抽取具體詞匯wd，i。

在一個(gè)新浪微博文本當(dāng)中，其文檔中的詞和其對應(yīng)主題的聯(lián)合分布可表述為:

2.2 Gibbs算法

文本SMLDA方法為了得到詞語的相關(guān)概率分布，可直接計(jì)算詞語-主題的后驗(yàn)概率，并采用Gibbs抽樣算法推導(dǎo)得到φ和θ的值［12］。Gibbs抽樣算法是一種簡單高效的MCMC(markov chain monte carlo)抽樣方法，其每次采樣均以隨機(jī)變量的后驗(yàn)分布代替當(dāng)前的分布，并用于下一次采樣，如此重復(fù)采樣迭代，最終使隨機(jī)變量收斂。后驗(yàn)分布可用式為:

進(jìn)行實(shí)驗(yàn)時(shí)，對式(6)重復(fù)迭代抽樣，最后達(dá)到穩(wěn)定狀態(tài)，就可評估φ和θ的值:

其中:w為唯一詞匯;為主題j的總詞語數(shù);為詞語w在主題j的總數(shù)目;為某個(gè)文檔d中主題j總詞語數(shù);為文檔d中有歸屬主題的詞語數(shù)。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)簡介

為了更好地對微博文本進(jìn)行建模，獲取文本數(shù)據(jù)很重要。實(shí)驗(yàn)所采用的數(shù)據(jù)集從新浪微博的數(shù)據(jù)堂網(wǎng)站上消費(fèi)獲取，涵蓋6萬多個(gè)微博博主所發(fā)布的信息，內(nèi)容包括6萬名新浪微博的用戶信息、2014年4月29日至5月12日的8萬多條數(shù)據(jù)(包括12個(gè)主題)和139萬條用戶間的關(guān)注關(guān)系，通過前期對微博數(shù)據(jù)集進(jìn)行中文分詞、去噪等預(yù)處理工作，選取了其中的4萬條數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

3.2 性能評估指標(biāo)

主題模型通常采用perplexity［13］來衡量其性能。perplexity表示不確定度，值越大，說明該模型性能越差，不確定性就越強(qiáng);相反，值越小，性能越好。Perplexity的計(jì)算公式為:

其中:Mt為測試的數(shù)據(jù)文檔集;wm為數(shù)據(jù)文檔集中可直接看到的詞語;Nm為文檔m所具有的詞總數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)建模過程中，根據(jù)已有經(jīng)驗(yàn)［14］，參數(shù)值設(shè)為α=1，β=0.01，αc=αt=1，γ=0.5，αr默認(rèn)為1，描述的是轉(zhuǎn)發(fā)微博主題與原創(chuàng)微博主題的完全相關(guān)性。

每篇文檔中的詞用空格分開。模型得到的數(shù)據(jù)有6個(gè)輸出文件，文件說明如表1所示。

表1 SMLDA訓(xùn)練結(jié)果文件說明Tab.1 The introduction of SMLDA’s training result files

3.3.1 主題提取結(jié)果

采用SMLDA方法對微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)操作，獲取有關(guān)12個(gè)主題的實(shí)驗(yàn)結(jié)果。由于主題數(shù)目及其概率分布較多，挑選出前3個(gè)比較熱門的主題，主要包含每個(gè)主題下其概率排在前8的關(guān)鍵詞。3個(gè)主題及其前8個(gè)詞語的分布情況如表2所示。

表2 3個(gè)主題及其前8個(gè)詞語分布情況Tab.2 3 hot topics and 8 key words

3.3.2 實(shí)驗(yàn)結(jié)果對比

主題霧霾一直是大家關(guān)注的熱點(diǎn)，為此，分別對SMLDA和LDA模型提取的主題霧霾的結(jié)果進(jìn)行對比分析，提取結(jié)果如表3所示。從表3可見，同樣是前8個(gè)關(guān)鍵詞及其相對應(yīng)的概率值，概率越大，說明詞和主題的相關(guān)性越強(qiáng)。相對LDA模型，SMLDA提取的關(guān)鍵詞和概率準(zhǔn)確率更高，更適用于微博短文本的主題提取。

表3 2個(gè)主題模型對霧霾的提取結(jié)果Tab.3 Fog extraction results of 2 topic models

困惑度是衡量一個(gè)模型性能好壞的另一指標(biāo)。在參數(shù)值設(shè)置相同的情況下，分別對LDA和SMLDA模型的困惑度進(jìn)行比較，觀測其取值的變化情況，比較結(jié)果如圖3所示。從圖3可見，當(dāng)?shù)螖?shù)逐漸上升時(shí)，2種模型的困惑度都在慢慢減小;在實(shí)驗(yàn)迭代次數(shù)相同時(shí)，SMLDA模型的困惑度值比LDA模型的小，說明其主題提取整體效果更好，更適用于短文本式的新浪微博。

圖3 2個(gè)模型的困惑度比較Fig.3 The perplexity of two models

4 結(jié)束語

根據(jù)新浪微博自身的數(shù)據(jù)特點(diǎn)，加入微博用戶之間的相關(guān)關(guān)系、特定主題以及轉(zhuǎn)發(fā)內(nèi)容和背景主題，建立一種適用于中文微博的主題提取方法，即基于傳統(tǒng)的LDA模型改進(jìn)的SMLDA模型，并通過Gibbs抽樣算法對數(shù)據(jù)集進(jìn)行試驗(yàn)。實(shí)驗(yàn)結(jié)果表明，SMLDA模型對于中文新浪微博的主題提取效果更佳。后續(xù)研究可繼續(xù)優(yōu)化SMLDA模型，并利用該模型為微博數(shù)據(jù)進(jìn)行文本表示，引入SVM算法，對微博文本進(jìn)行主題分類處理，以提高其分類性能。

［1］Blei D，Ng A，Jordan M.Latent dirichlet allocation［J］.Journal of Machine Learning Research，2003(3):993-1022.

［2］Hong Liangjie，Davison B.Empirical study of topic modeling in Twitter［C］//Proceedings of the First Workshop on Social Media Analytics.New York:ACM Press，2010:80-88.

［3］Weng Jianshu，Lim Ee-Peng，Jiang Jing，et al.Twitterrank:finding topic-sensitive influential Twitterers［C］//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining.New York:ACM Press，2010:261-270.

［4］Zvi M，Griffiths T，Steyvers M，et al.The author-topic model for authors and documents［C］//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence.Arlington:AUAI Press，2004:487-494.

［5］Zhao W X，Jiang Jing，Weng Jianshu，et al.Comparing Twitter and traditional media using topic models［C］//Proceedings of the 33rd European Conference on Information Retrieval.Berlin，Heidelberg:Springer-Verlag，2011:338-349.

［6］Ramage D，Dumais S，Liebling D.Characterizing micro blogs with topic models［C］//Proceedings of International AAAI Conference on Weblogs and Social Media.Menlo Park.CA:AAAI，2010:130-137.

［7］張晨逸，孫建，丁軼群.基于MB-LDA模型的微博主題挖掘［J］.計(jì)算機(jī)研究與發(fā)展，2011，48(10):1795-1802.

［8］謝昊，江紅.一種面向微博主題挖掘的改進(jìn)LDA模型［J］.華東師范大學(xué)學(xué)報(bào):自然科學(xué)版，2013，11(6):93-100.

［9］馮普超.基于CMBLDA的微博主題挖掘［D］.杭州:浙江大學(xué)，2014:37-47.

［10］Philip R，Eric H.Gibbs sampling for the uninitiated［R］.Technical Reports from UMIACS，2010.

［11］Griffiths T，Steyvcrs M.Probabilistic topic models［C］//Latent Semantic Analysis:A Road to Meaning.Hillsdale.NJ:Laurence Erlbaum，2004:5221-5228.

［12］Blei D，Lafferty J.Visualizing topics with multi-word expressions［J］.Statistics，2009:1050-1055.

［13］Griffiths T L，Steyvcrs M.Finding scientific topics［J］.Proc of the National Academy of Science of the United States of America，2004，101(S11):5228-5235.

［14］Guo Xin，Xiang Yang，Chen Qian，el al.LDA-based online topic detection using tensor factorization［J］.Journal of Information Science，2013，39(4):459-469.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡