趙臣升 吳國(guó)文 胡福玲
摘要:微博文本簡(jiǎn)短、信息量少且語法隨意,傳統(tǒng)主題分類并不理想。Labeled LDA在LDA主題模型上附加類別標(biāo)簽協(xié)同計(jì)算隱含主題分配量使文本分類效果有所改進(jìn),但標(biāo)簽在處理隱式微博或主題頻率相近的分類上,存在一定的模糊分配。本文提出的Union Labeled LDA模型通過引入評(píng)論轉(zhuǎn)發(fā)信息豐富Label標(biāo)簽,進(jìn)一步提升標(biāo)簽監(jiān)督下的主題詞頻強(qiáng)度,一定程度上顯化隱式微博、優(yōu)化同頻分配,采用吉布斯采樣的方法求解模型。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,Union Labeled LDA模型能更有效地對(duì)微博進(jìn)行主題挖掘。
關(guān)鍵字:微博;主題挖掘;LDA;Union Labeled LDA;詞頻
中圖分類號(hào): TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào):2095-2163(2016)01-
Abstract:Microblog is brief and short, with a little information and irregular grammar, cause traditional method of topic classification effect is not satisfying. The Labeled LDA topic model attach classification label to original LDA model to help cooperative computing the implicit topics, but still exist some vague allocate when handling microblog whose topic frequency are neck and neck. This paper proposes to use the Union Labeled LDA model with comments and retransmissions which enrich the information of labels to enhance the supervision of topic frequency strength by themselves. The experimental results on actual dataset show that the Union Labeled LDA model can effectively mining the topics of Microblog.
Keywords:Microblog; Topic Mining; LDA; Union Labeled LDA; Word Frequence
0 引言
隨著Web技術(shù)的日益完善和大數(shù)據(jù)時(shí)代的悄然來臨,微博已經(jīng)成為人們思想?yún)R聚和信息交流的重要媒介,從海量數(shù)據(jù)中挖掘出有效的主題信息,分析其內(nèi)在語義關(guān)聯(lián)則正日顯其現(xiàn)實(shí)突出的技術(shù)主導(dǎo)作用。微博本身文本簡(jiǎn)短、數(shù)據(jù)稀疏、語法隨意和網(wǎng)絡(luò)詞匯大量出現(xiàn),這些特點(diǎn)給傳統(tǒng)文本挖掘算法帶來了挑戰(zhàn)[1-2]。
LDA(latent dirichlet allocation)主題模型是近年來文本挖掘領(lǐng)域熱門研究方向,模型具有優(yōu)秀的建模能力、文本分析降維能力和良好的概率模型擴(kuò)展性,挖掘出的主題能幫助人們理解大數(shù)據(jù)文本背后的語義。LDA模型假設(shè)各主題權(quán)重在Dirichlet分布上相同,因此在處理隱性主題劃分時(shí)存在部分主題強(qiáng)制分配的現(xiàn)象。Labeled LDA主題模型通過引入Label標(biāo)簽,單獨(dú)對(duì)各類主題計(jì)算分布,在一定程度上克服了LDA的不足[3]。
本文在研究LDA和Labeled LDA模型的基礎(chǔ)上,引入微博評(píng)論與轉(zhuǎn)發(fā)數(shù)據(jù)信息,進(jìn)一步豐富Labeled LDA模型的Label標(biāo)簽信息。通過改善訓(xùn)練階段Labeled LDA標(biāo)簽對(duì)各個(gè)主題分量的影響,更準(zhǔn)確地確定隱含主題,提升主題挖掘效率。
1 相關(guān)工作
近年來文本聚類和主題挖掘廣受關(guān)注,各類算法和模型不斷涌現(xiàn)。其中主題模型(topic model)是一種概率產(chǎn)生式模型。模型假設(shè)主題可以根據(jù)一定規(guī)則生成單詞,那么在已知文本單詞情況下便可通過概率方法反推出文本集的主題分布情況[4]。最熱門的主題模型就是LDA,其派生模型有ATM,Twitter LDA,Labeled LDA,MB LDA等[5-7]。
1.1 傳統(tǒng)的主題挖掘算法
傳統(tǒng)主題挖掘最早采用文本聚類的算法,使用矢量空間模型VSM(vector space model)將文本里的非結(jié)構(gòu)化的數(shù)據(jù)映射到向量空間中的點(diǎn),用聚類算法實(shí)現(xiàn)文本聚類求近似相同的主題。通常使用基于劃分的算法(如K-means算法)、基于層次的算法、基于密度的算法[8-9]。但這種聚類算法普遍依賴于文本之間距離的計(jì)算,在海量文本中較難定義,聚類作用在于區(qū)分類別,語義上的信息也不利于理解。
1.2 基于線性代數(shù)的主題挖掘算法
LSA(latent semantic analysis)是Deerwester等人提出的一種基于線性代數(shù)挖掘文本主題的方法[10],利用SVD(singular value decomposition)的降維方法來挖掘文檔的潛在語義結(jié)構(gòu),在低維的語義空間里進(jìn)行查詢和相關(guān)性分析,打破了傳統(tǒng)“詞典空間”表示文本的思維模式,能很好地挖掘出隱含的相關(guān)性。研究表明,當(dāng)這個(gè)語義空間的維度與人類語義理解維度相近的時(shí)候,LSA抽象轉(zhuǎn)化率最高。
1.3 基于概率模型的主題挖掘算法
Hofmann等人在研究LSA的基礎(chǔ)上,提出了基于最大似然法(maximun likelihood)和產(chǎn)生式模型(generative model)的概率模型PLSA(probabilistic latent semantic analysis) [11]。PLSA沿用了LSA的降維思想,在主題數(shù)量有限的低維語義空間里,運(yùn)用EM算法對(duì)模型進(jìn)行求解,EM算法復(fù)雜度小于傳統(tǒng)SVD的矩陣運(yùn)算,在運(yùn)行性能和大數(shù)據(jù)處理方面優(yōu)于LSA。PLSA引入概率使得每個(gè)語義維度對(duì)應(yīng)一個(gè)詞典上的概率分布,明確區(qū)分單詞不同意思和類型,解決了一詞多義問題[12]。
2 LDA模型在文本分類中應(yīng)用
2.1 LDA文本生成模型
LDA的創(chuàng)始人Blei[13]等人發(fā)現(xiàn),模型中待估參數(shù)隨著語料庫的大小呈線性增長(zhǎng),容易出現(xiàn)過度擬合(overfitting)現(xiàn)象,于是進(jìn)一步引入了Dirichlet先驗(yàn)分布以擴(kuò)展文檔層的概率。
2.2 Labeled LDA文本生成模型
微博是網(wǎng)絡(luò)文本,部分?jǐn)?shù)據(jù)已經(jīng)被用戶貼上標(biāo)簽,利用這些存在的標(biāo)簽信息資源,能有助于更好地進(jìn)行主題挖掘。D.Ramage等人提出使用受監(jiān)督的主題模型Labeled LDA,通過引入標(biāo)簽信息來提高主題可解釋性,學(xué)習(xí)得來的主題直接與每個(gè)標(biāo)簽對(duì)應(yīng)關(guān)聯(lián),準(zhǔn)確找出標(biāo)簽密切關(guān)聯(lián)的詞匯,改變LDA模型的對(duì)稱先驗(yàn)分布,解決了LDA在各個(gè)隱含主題分量上平等分配的問題[14-15]。
Labeled LDA模型假定詞的范圍是 ,文檔 是由 個(gè)詞 組成的序列, 是文檔 的第 個(gè)詞,語料 是 篇文檔集合 ,標(biāo)簽信息轉(zhuǎn)換成文檔 的主題向量 ,其中 。
模型通過伯努利分布產(chǎn)生文檔標(biāo)簽集 ,定義文檔標(biāo)簽向量 ,將Dirichlet主題先驗(yàn)分布超參數(shù) 降維成向量 ,依據(jù)不同的標(biāo)簽信息,向量 在不同主題上的權(quán)重也不同[16]。
假設(shè)一個(gè)語料庫中共有5個(gè)類別的標(biāo)簽,其中一個(gè)文檔 含有兩個(gè)類別標(biāo)簽,那么 表示文檔 對(duì)應(yīng)2、3主題標(biāo)簽。當(dāng) 、 時(shí),文檔 中的詞分配更傾向于2、3主題標(biāo)簽。如圖2所示,Labeled LDA利用向量 將類別與主題一一映射產(chǎn)生文本的貝葉斯網(wǎng)絡(luò)圖。
2.3 Labeled LDA應(yīng)用于文本分類
當(dāng)使用Labeled LDA推斷一篇文檔在隱含主題上的概率分布時(shí),可以認(rèn)為該文檔在某個(gè)主題上的詞分配越多,即屬于該主題對(duì)應(yīng)類別的概率就越大。但是有些微博通過Labeled LDA訓(xùn)練得到的概率最高主題與類別標(biāo)簽對(duì)應(yīng)主題并不一致,如這樣一條微博:“體檢報(bào)告已入手,一會(huì)就可以賣啦,真開心”,會(huì)被Labeled LDA分配到以醫(yī)療健康為主題的類別中。然而微博下第1、2條直接評(píng)論是:“簽了哪家公司,月薪多少”,“這么快就要簽三方了嗎”,可以很直觀地發(fā)現(xiàn)這兩條評(píng)論的主題是公司與招聘,由此通過評(píng)論可以更確定地認(rèn)為這個(gè)主題才是這條微博真正的分類,而依據(jù)Labeled LDA模型對(duì)原微博詞分配的數(shù)量反而會(huì)有錯(cuò)分主題的現(xiàn)象。
3 基于Labeled LDA算法改進(jìn)
微博區(qū)別于一般文本的特點(diǎn)是可以被評(píng)論或轉(zhuǎn)發(fā),這些評(píng)論在很大程度上和微博本身有著相同的主題。雖然在使用Labeled LDA模型對(duì)微博數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)會(huì)出現(xiàn)一定的詞頻相等或非主題詞頻略高的情況,但是合理利用微博評(píng)論與轉(zhuǎn)發(fā)之間的隱含關(guān)聯(lián)信息,可以引導(dǎo)改進(jìn)模型在監(jiān)督過程中產(chǎn)生較為準(zhǔn)確的主題頻率。
定義1微博與其評(píng)論之間的主題關(guān)系 稱為評(píng)論聯(lián)合相關(guān)性,聯(lián)合系數(shù)為 ;微博與其轉(zhuǎn)發(fā)微博之間的主題關(guān)系 稱為轉(zhuǎn)發(fā)聯(lián)合相關(guān)性,聯(lián)合系數(shù)為 。
微博的另一個(gè)特點(diǎn)是其評(píng)論是分層級(jí)的:有直接對(duì)微博本身的評(píng)論(Direct Comment),也有對(duì)評(píng)論的再評(píng)論,稱之為間接評(píng)論(Indirect Comment)。顯然,直接評(píng)論針對(duì)微博本身,所談及的內(nèi)容更接近于微博本身主題,而間接評(píng)論是對(duì)直接評(píng)論的內(nèi)容進(jìn)行再評(píng)價(jià),主題聯(lián)合性沒有直接評(píng)論強(qiáng)。
定義2一條直接評(píng)論與所有屬于它的間接評(píng)論構(gòu)成一個(gè)評(píng)論組,一條微博有若干個(gè)評(píng)論組。直接評(píng)論的主題聯(lián)合系數(shù)記為 ,間接評(píng)論的主題聯(lián)合系數(shù)記為 ,且 。
轉(zhuǎn)發(fā)和評(píng)論與微博本身的主題相關(guān)性隨著時(shí)間推移有一定的衰減偏離,經(jīng)常可以看到一條微博被評(píng)論多次后,評(píng)論各方會(huì)引入其他的焦點(diǎn)和主題。此時(shí)應(yīng)適當(dāng)降低其他主題的引入權(quán)重,為原主題降噪。
定義 3評(píng)論與其微博的主題相關(guān)性隨時(shí)間推移會(huì)降低,直接評(píng)論隨時(shí)間衰減系數(shù) ,間接評(píng)論時(shí)間衰減系數(shù) ,且 。
在Labeled LDA主題模型生成文檔的過程中,標(biāo)簽信息會(huì)監(jiān)督產(chǎn)生主題分配向量 。通過引入微博評(píng)論,假設(shè)一條微博的一條直接評(píng)論 所附帶標(biāo)簽信息經(jīng)過訓(xùn)練后得到其在 個(gè)主題上的分配量是 ,根據(jù)定義1和3可知該直接評(píng)論分配量關(guān)系為 。若屬于這條微博的直接評(píng)論有 條,則所有直接評(píng)論產(chǎn)生的混合主題聯(lián)合分布向量為:
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)準(zhǔn)備
4.1.1 數(shù)據(jù)集
本實(shí)驗(yàn)使用的數(shù)據(jù)來源于數(shù)據(jù)堂,該數(shù)據(jù)集提取了53241個(gè)用戶2015-5-26至2015-07-01期間在新浪微博平臺(tái)發(fā)布的123147條微博信息,其中既有顯式主題、也有隱含主題的微博及其轉(zhuǎn)發(fā)與評(píng)論。
4.1.2 數(shù)據(jù)預(yù)處理
鑒于用戶平時(shí)所發(fā)布的微博文本中含有視頻、圖片及表情等非文本內(nèi)容,本文只針對(duì)微博具體內(nèi)容進(jìn)行主題分類與挖掘,因此將依據(jù)停用詞字典的規(guī)則,去除指示代詞、語氣助詞和停用詞等出現(xiàn)頻率很高卻沒有實(shí)際意義的詞匯。
4.1.3 微博文本分詞處理
文本分詞在很大程度上決定著后期主題結(jié)果最終展示。本文采用的是中科院的ICTCLAS分詞系統(tǒng)的C#版本。通過該分詞系統(tǒng)分詞后,微博文本轉(zhuǎn)換為一系列的詞語,每個(gè)詞語都有詞性標(biāo)注,如名詞、動(dòng)詞、形容詞、副詞等。不同詞性的詞語對(duì)主題的貢獻(xiàn)程度不同,其中名詞和動(dòng)詞具有最高的主題辨識(shí)度,因此本文中只考慮這兩種詞性的詞語,過濾掉其他詞性的詞語。
4.1.4 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境為Intel Core i7-4790K 3.6GHZ CPU、8GB內(nèi)存、2TB硬盤的臺(tái)式機(jī)。操作系統(tǒng)為Window 7 Ultimate,實(shí)驗(yàn)工具為Microsoft Visual Studio 2012。
4.2實(shí)驗(yàn)結(jié)果與數(shù)據(jù)對(duì)比分析
4.2.1 主題挖掘效果
本文模型的參數(shù)設(shè)置根據(jù)文獻(xiàn)[17]中的方法,設(shè)置 , , ,依據(jù)多次實(shí)驗(yàn)數(shù)據(jù)的比較,取 較優(yōu)值表示Union Labeled LDA模型中 影響原Labeled LDA模型 參數(shù)的比例。對(duì)數(shù)據(jù)集預(yù)處理時(shí),抽樣統(tǒng)計(jì)了大部分微博與其評(píng)論組主題相關(guān)與否的比例,設(shè)置評(píng)論的主題聯(lián)合系數(shù) , ;依據(jù)評(píng)論組內(nèi)的主題相關(guān)性系數(shù)和其所屬層級(jí),采用線性平均值統(tǒng)計(jì)的方法分析主題隨時(shí)間和層級(jí)衰減的規(guī)律,設(shè)置主題隨時(shí)間衰減系數(shù) , ;為了統(tǒng)計(jì)10次以內(nèi)轉(zhuǎn)發(fā)和評(píng)論對(duì)主題相關(guān)性的影響,設(shè)置轉(zhuǎn)發(fā)微博主題隨時(shí)間波動(dòng)系數(shù) 。
Union Labeled LDA模型的整體效果如圖4所示,共挖掘了37個(gè)主題,圖中只展示了其中前6個(gè)主題。通過觀察主題所屬詞匯并比對(duì)數(shù)據(jù),這6個(gè)主題分別為韓劇,霧霾,腐敗,娛樂,生活,明星,與其對(duì)應(yīng)的詞匯信息相符。證明Union Labeled LDA挖掘到的主題不僅與其對(duì)應(yīng)的關(guān)鍵詞匯匹配準(zhǔn)確率較高,互相之間的獨(dú)立性較強(qiáng)。
4.2.2 對(duì)比實(shí)驗(yàn)
本文通過兩種方式對(duì)比LDA模型、Labeled LDA模型和Union Labeled LDA模型,其中一種是人工評(píng)價(jià)方法對(duì)實(shí)驗(yàn)結(jié)果逐一分析,評(píng)價(jià)的目的是確定主題的主題單詞分類是否合理,主題之間是否相互獨(dú)立。另一種是用Perplexity指標(biāo)來量化評(píng)估模型。Perplexity指標(biāo)是度量概率圖模型性能的常用指標(biāo),也是主題建模界常用的衡量方法,表示預(yù)測(cè)數(shù)據(jù)時(shí)的不確定度,取值越小表示性能越好、推廣度越高、泛化能力越強(qiáng)。人工評(píng)價(jià)的計(jì)算得分公式如下:
5 結(jié)束語
本文主要在微博評(píng)論上下文相關(guān)性方面豐富及改善Labeled LDA的Label標(biāo)簽信息對(duì)隱含主題的分類。在Labeled LDA模型基礎(chǔ)上,通過引入評(píng)論主題及轉(zhuǎn)發(fā)微博的主題向量,使聯(lián)合主題模型提升并加強(qiáng)原標(biāo)簽信息產(chǎn)生的主題分布影響。在語料庫上的實(shí)驗(yàn)表明,信息豐富的Label標(biāo)簽?zāi)芨行У靥岣呶⒉┰陔[性主題語義分類上的準(zhǔn)確性。
未來擬開展的研究包括:轉(zhuǎn)發(fā)微博中的主題提煉與微博語義的相關(guān)性,以及雙向關(guān)注頻繁互動(dòng)用戶在同一興趣主題上的相關(guān)度研究,以待更進(jìn)一步提高微博主題分類的性能。由于海量微博文本信息快速更新,實(shí)現(xiàn)主題模型在微博環(huán)境下大規(guī)模部署和在線學(xué)習(xí)訓(xùn)練,探索在分布式環(huán)境下的大數(shù)據(jù)主題分類的并行處理等也是改進(jìn)方向之一。
參考文獻(xiàn):
[1] KWAK H, LEE C, PARK H, et al. What is Twitter, a social network or a news media?[C]//Proceedings of the 19th international conference on World wide web. Raleigh, NC, USA:ACM, 2010: 591-600.
[2] 謝昊, 江紅. 一種面向微博主題挖掘的改進(jìn) LDA 模型[J]. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, (6): 93-101.
[3] RAMAGE D, DUMAIS S T, LIEBLING D J. Characterizing Microblogs with topic models[C]// Proceedings of the Fourth International Conference on Weblogs and Social Media, ICWSM 2010. Washington, DC, USA:AAAI, 2010:130-137.
[4] 唐曉波, 王洪艷. 基于潛在語義分析的微博主題挖掘模型研究[J]. 圖書情報(bào)工作, 2013, 56(24): 114-119.
[5] ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents[C]//Proceedings of the 20th conference on Uncertainty in artificial intelligence, AUAI Press. Arlington, Virginia, United States:ACM, 2004: 487-494.
[6] ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[M]//CLOUGH P, FOLEY C, GURRIN C,et al. Advances in Information Retrieval.
Berlin Heidelberg: Springer , 2011: 338-349.
[7] 張晨逸, 孫建伶, 丁軼群. 基于 MB-LDA 模型的微博主題挖掘[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 48(10): 1795-1802.
[8] YANG Y, CARBONELL J, BROWN R, et al. Multi-strategy learning for topic detection and tracking[M]// YANG Y M,CARBONELL J,BRWON R, et al. Topic detection and tracking.New York: Springer US, 2002: 85-114.
[9] ALLAN J, LAVRENKO V, SWAN R. Explorations within topic tracking and detection[M]// ALLAN J. Topic detection and tracking. New York: Springer US, 2002: 197-224.
[10] DEERWESTER S C, DUMAIS S T, LANDAUER T K, et al. Indexing by latent semantic analysis[J]. JAsIs, 1990, 41(6): 391-407.
[11] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. Berkeley, CA, USA:ACM 1999: 50-57.
[12] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine learning, 2001, 42(1-2): 177-196.
[13] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
[14] QUERCIA D, ASKHAM H, CROWCROFT J. TweetLDA: supervised topic classification and link prediction in Twitter[C]// Proceedings of the 4th Annual ACM Web Science Conference. Evanston, IL, USA:ACM, 2012: 247-250.
[15] RAMAGE D, HALL D, NALLAPATI R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Stroudsburg, PA, USA:ACM, 2009: 248-256.
[16] LU Y, ZHAI C. Opinion integration through semi-supervised topic modeling[C]// Proceedings of the 17th international conference on World Wide Web. Beijing, China:ACM, 2008: 121-130.
[17] STEYVERS M, GRIFFITHS T. Probabilistic topic models[J]. Handbook of latent semantic analysis, 2007, 427(7): 424-440.