華綠綠,黃廷磊,劉久云,夏威
(桂林電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林541004)
隨著網(wǎng)絡(luò)空間數(shù)據(jù)量越來越龐大,人們隨時(shí)都會(huì)淹沒在數(shù)據(jù)中,很難快速地找到有價(jià)值的信息,導(dǎo)致未能制定合適的決策。數(shù)據(jù)挖掘成為社會(huì)各個(gè)領(lǐng)域的需求。近年來,新浪微博社交網(wǎng)絡(luò)依靠LDA模型[1]對瞬間產(chǎn)生的大量數(shù)據(jù)進(jìn)行一個(gè)主題挖掘工作。然而,新浪微博數(shù)據(jù)具有信息簡短、不受時(shí)空限制、信息量大、更新傳播速度快等特征,這給傳統(tǒng)的LDA模型帶來一定的困難[2]。
目前,針對英文微博環(huán)境下的主題提取模型已有較多研究,但針對于中文微博的主題提取模型仍處于初步階段。Weng Jianshu等[3]為了發(fā)現(xiàn)有關(guān)敏感性主題的權(quán)威博主,采用先聚類后通過LDA模型建模方法;作者主題模型[4](author topic model,簡稱ATM)是LDA的一種擴(kuò)展模型,其引入了文章的作者信息,對于簡短微博而言,LDA模型處于劣勢;Zhao等[5]對ATM模型進(jìn)行了擴(kuò)展,提出了Twitter-LDA模型,它與ATM模型的主要區(qū)別是,Twitter-LDA不僅可在微博用戶層面進(jìn)行主題建模,而且可針對一條微博進(jìn)行建模;Labeled-LDA[6]一定程度上降低了微博文本語法不規(guī)范的干擾。張晨逸等[7]基于LDA提出一種MB-LDA(micro blog latent dirichlet allocation)模型,它引入了微博文本之間的相關(guān)性和用戶之間的相關(guān)性。中文微博和外文微博除了文字字符不同外,在功能上也有差異。謝昊等[8]針對中文微博提出了一個(gè)RT-LDA模型,不僅考慮博主和轉(zhuǎn)發(fā)信息的主題關(guān)聯(lián)性,還添加了背景主題。馮普超[9]針對中文微博提出了一種基于CMBLDA模型的微博主題挖掘,融入了4種類型微博特點(diǎn)。鑒于前期研究者的經(jīng)驗(yàn)和新浪微博的數(shù)據(jù)特征,提出一種SMLDA(Sina microblog latent dirichlet allocation)模型,在加入背景主題的同時(shí)添加新浪微博特定主題標(biāo)簽關(guān)系,通過調(diào)整處理順序,采用吉布斯抽樣算法[10]進(jìn)行主題提取。
傳統(tǒng)的LDA模型的主要思想為:對于給定的一個(gè)文檔集,主題模型認(rèn)為每個(gè)文檔包含了若干個(gè)主題的概率,而每個(gè)主題又由很多詞語構(gòu)成,形成了一個(gè)多項(xiàng)式分布,不同的主題在文檔上的分布也不同[11]。在這個(gè)框架中,文檔主題都是潛在變量,而文本中所有詞語是可見的。生成一個(gè)文檔時(shí),其中詞的概率分布式為:
LDA是第一個(gè)完備的主題模型,它在文檔-主題、主題-詞語這2個(gè)層級進(jìn)行建模,并以概率分布表示建模過程,其目的是為了得到θ(包含參數(shù)α的狄利克雷分布)和φ(包含參數(shù)β的分布)。聯(lián)合概率分布可表示為:
其中條件概率表明了變量之間的依賴關(guān)系。為了合理設(shè)計(jì)算法,可使用概率圖簡化模型。LDA的Bayesian網(wǎng)絡(luò)如圖1所示。
圖1 LDA模型的Bayesian網(wǎng)絡(luò)Fig.1 Bayesian network of LDA
微博文本與傳統(tǒng)文本有著顯著的不同。微博文本信息中帶有“@”、“#”和“轉(zhuǎn)發(fā)”這類信息?!癅用戶”代表微博作者之間具有關(guān)聯(lián)關(guān)系,一般而言,帶有“@”標(biāo)簽的微博就是與被@作者的微博主題具有較強(qiáng)的相關(guān)性;“轉(zhuǎn)發(fā)”就是用戶可轉(zhuǎn)發(fā)別人的微博,可加評論,因而2條微博之間相互關(guān)聯(lián);“#主題#”是指微博文本的特定主題的標(biāo)簽。如“為所有遇難者默哀#雅安地震#”,這就是有關(guān)雅安地震的主題。根據(jù)微博信息的特征,SMLDA模型通過加入微博作者之間關(guān)系以及特定主題的標(biāo)簽與微博文本之間的關(guān)聯(lián)關(guān)系,運(yùn)用Gibbs抽樣算法進(jìn)行主題提取。SMLDA模型的Bayesian網(wǎng)絡(luò)如圖2示。
圖2 SMLDA模型的Bayesian網(wǎng)絡(luò)Fig.2 Bayesian network of SMLDA
SMLDA模型的生成過程如下:
1)任意選擇某個(gè)有關(guān)主題-詞語的分布φ,生成φb~D(β)分布,其中φb為背景主題,而且生成λ~D(γ)分布。
2)假設(shè)數(shù)據(jù)集包含T個(gè)主題,首先生成關(guān)于主題的分布φ~D(β)。
3)SMLDA生成1條微博時(shí),因?yàn)橛行┺D(zhuǎn)發(fā)微博和原創(chuàng)微博正文均有帶“#”的主題,所以考慮特定標(biāo)簽“#”的文本,而轉(zhuǎn)發(fā)微博內(nèi)容又帶有回復(fù)“@”的對話性質(zhì)微博(專門評論回復(fù)而不轉(zhuǎn)發(fā)的數(shù)據(jù)“轉(zhuǎn)發(fā)”),若有,則為轉(zhuǎn)發(fā)微博信息,θr為轉(zhuǎn)發(fā)部分和主題之間的分布,r取值為1,從αr中抽取出θr并賦值給θd,否則r取值為0,繼續(xù)判斷是否含有“@”,若有,則πc=1,其描述1個(gè)“@”類型的微博(對話性質(zhì)和“@”用戶的微博),然后獲取θc有關(guān)參數(shù)αc的分布并賦值給θd,若無,則πc=0,直接獲取θd~D(α)。微博中關(guān)于主題的θ分布為:
繼續(xù)判斷是否含有“#主題#”,若有,則從包含參數(shù)η的Bemoulli分布中獲取t,從而確定是從θt還是從θd中提取當(dāng)前詞所屬的主題zd,i;若無,則t取值為0,直接從θd獲取當(dāng)前詞所屬的主題zd,i。微博中關(guān)于主題的θ分布式為:
4)確定主題分布后,就需要判斷詞應(yīng)該選什么主題,這由y決定,當(dāng)它的值等于0時(shí),選擇從φb中獲取,反之,從φzd,i中抽取具體詞匯wd,i。
在一個(gè)新浪微博文本當(dāng)中,其文檔中的詞和其對應(yīng)主題的聯(lián)合分布可表述為:
文本SMLDA方法為了得到詞語的相關(guān)概率分布,可直接計(jì)算詞語-主題的后驗(yàn)概率,并采用Gibbs抽樣算法推導(dǎo)得到φ和θ的值[12]。Gibbs抽樣算法是一種簡單高效的MCMC(markov chain monte carlo)抽樣方法,其每次采樣均以隨機(jī)變量的后驗(yàn)分布代替當(dāng)前的分布,并用于下一次采樣,如此重復(fù)采樣迭代,最終使隨機(jī)變量收斂。后驗(yàn)分布可用式為:
進(jìn)行實(shí)驗(yàn)時(shí),對式(6)重復(fù)迭代抽樣,最后達(dá)到穩(wěn)定狀態(tài),就可評估φ和θ的值:
其中:w為唯一詞匯;為主題j的總詞語數(shù);為詞語w在主題j的總數(shù)目;為某個(gè)文檔d中主題j總詞語數(shù);為文檔d中有歸屬主題的詞語數(shù)。
為了更好地對微博文本進(jìn)行建模,獲取文本數(shù)據(jù)很重要。實(shí)驗(yàn)所采用的數(shù)據(jù)集從新浪微博的數(shù)據(jù)堂網(wǎng)站上消費(fèi)獲取,涵蓋6萬多個(gè)微博博主所發(fā)布的信息,內(nèi)容包括6萬名新浪微博的用戶信息、2014年4月29日至5月12日的8萬多條數(shù)據(jù)(包括12個(gè)主題)和139萬條用戶間的關(guān)注關(guān)系,通過前期對微博數(shù)據(jù)集進(jìn)行中文分詞、去噪等預(yù)處理工作,選取了其中的4萬條數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
主題模型通常采用perplexity[13]來衡量其性能。perplexity表示不確定度,值越大,說明該模型性能越差,不確定性就越強(qiáng);相反,值越小,性能越好。Perplexity的計(jì)算公式為:
其中:Mt為測試的數(shù)據(jù)文檔集;wm為數(shù)據(jù)文檔集中可直接看到的詞語;Nm為文檔m所具有的詞總數(shù)。
本實(shí)驗(yàn)建模過程中,根據(jù)已有經(jīng)驗(yàn)[14],參數(shù)值設(shè)為α=1,β=0.01,αc=αt=1,γ=0.5,αr默認(rèn)為1,描述的是轉(zhuǎn)發(fā)微博主題與原創(chuàng)微博主題的完全相關(guān)性。
每篇文檔中的詞用空格分開。模型得到的數(shù)據(jù)有6個(gè)輸出文件,文件說明如表1所示。
表1 SMLDA訓(xùn)練結(jié)果文件說明Tab.1 The introduction of SMLDA’s training result files
3.3.1 主題提取結(jié)果
采用SMLDA方法對微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)操作,獲取有關(guān)12個(gè)主題的實(shí)驗(yàn)結(jié)果。由于主題數(shù)目及其概率分布較多,挑選出前3個(gè)比較熱門的主題,主要包含每個(gè)主題下其概率排在前8的關(guān)鍵詞。3個(gè)主題及其前8個(gè)詞語的分布情況如表2所示。
表2 3個(gè)主題及其前8個(gè)詞語分布情況Tab.2 3 hot topics and 8 key words
3.3.2 實(shí)驗(yàn)結(jié)果對比
主題霧霾一直是大家關(guān)注的熱點(diǎn),為此,分別對SMLDA和LDA模型提取的主題霧霾的結(jié)果進(jìn)行對比分析,提取結(jié)果如表3所示。從表3可見,同樣是前8個(gè)關(guān)鍵詞及其相對應(yīng)的概率值,概率越大,說明詞和主題的相關(guān)性越強(qiáng)。相對LDA模型,SMLDA提取的關(guān)鍵詞和概率準(zhǔn)確率更高,更適用于微博短文本的主題提取。
表3 2個(gè)主題模型對霧霾的提取結(jié)果Tab.3 Fog extraction results of 2 topic models
困惑度是衡量一個(gè)模型性能好壞的另一指標(biāo)。在參數(shù)值設(shè)置相同的情況下,分別對LDA和SMLDA模型的困惑度進(jìn)行比較,觀測其取值的變化情況,比較結(jié)果如圖3所示。從圖3可見,當(dāng)?shù)螖?shù)逐漸上升時(shí),2種模型的困惑度都在慢慢減小;在實(shí)驗(yàn)迭代次數(shù)相同時(shí),SMLDA模型的困惑度值比LDA模型的小,說明其主題提取整體效果更好,更適用于短文本式的新浪微博。
圖3 2個(gè)模型的困惑度比較Fig.3 The perplexity of two models
根據(jù)新浪微博自身的數(shù)據(jù)特點(diǎn),加入微博用戶之間的相關(guān)關(guān)系、特定主題以及轉(zhuǎn)發(fā)內(nèi)容和背景主題,建立一種適用于中文微博的主題提取方法,即基于傳統(tǒng)的LDA模型改進(jìn)的SMLDA模型,并通過Gibbs抽樣算法對數(shù)據(jù)集進(jìn)行試驗(yàn)。實(shí)驗(yàn)結(jié)果表明,SMLDA模型對于中文新浪微博的主題提取效果更佳。后續(xù)研究可繼續(xù)優(yōu)化SMLDA模型,并利用該模型為微博數(shù)據(jù)進(jìn)行文本表示,引入SVM算法,對微博文本進(jìn)行主題分類處理,以提高其分類性能。
[1]Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[2]Hong Liangjie,Davison B.Empirical study of topic modeling in Twitter[C]//Proceedings of the First Workshop on Social Media Analytics.New York:ACM Press,2010:80-88.
[3]Weng Jianshu,Lim Ee-Peng,Jiang Jing,et al.Twitterrank:finding topic-sensitive influential Twitterers[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining.New York:ACM Press,2010:261-270.
[4]Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence.Arlington:AUAI Press,2004:487-494.
[5]Zhao W X,Jiang Jing,Weng Jianshu,et al.Comparing Twitter and traditional media using topic models[C]//Proceedings of the 33rd European Conference on Information Retrieval.Berlin,Heidelberg:Springer-Verlag,2011:338-349.
[6]Ramage D,Dumais S,Liebling D.Characterizing micro blogs with topic models[C]//Proceedings of International AAAI Conference on Weblogs and Social Media.Menlo Park.CA:AAAI,2010:130-137.
[7]張晨逸,孫建,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.
[8]謝昊,江紅.一種面向微博主題挖掘的改進(jìn)LDA模型[J].華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013,11(6):93-100.
[9]馮普超.基于CMBLDA的微博主題挖掘[D].杭州:浙江大學(xué),2014:37-47.
[10]Philip R,Eric H.Gibbs sampling for the uninitiated[R].Technical Reports from UMIACS,2010.
[11]Griffiths T,Steyvcrs M.Probabilistic topic models[C]//Latent Semantic Analysis:A Road to Meaning.Hillsdale.NJ:Laurence Erlbaum,2004:5221-5228.
[12]Blei D,Lafferty J.Visualizing topics with multi-word expressions[J].Statistics,2009:1050-1055.
[13]Griffiths T L,Steyvcrs M.Finding scientific topics[J].Proc of the National Academy of Science of the United States of America,2004,101(S11):5228-5235.
[14]Guo Xin,Xiang Yang,Chen Qian,el al.LDA-based online topic detection using tensor factorization[J].Journal of Information Science,2013,39(4):459-469.