基于LDA模型的微信留言文本主題發(fā)現(xiàn)研究

2017-09-15 01:26施利萍

科教導(dǎo)刊·電子版 2017年24期

施利萍

摘要目前越來越多的機構(gòu)建立微信公眾平臺，在公眾號文章中的留言反映其受眾在該文章話題下的關(guān)注熱點和真實觀點，因此分析和挖掘留言具有十分重要的參考價值。分析了微信公眾號留言文本的挖掘價值，通過LDA主題模型，研究了如何從留言文本出挖掘出熱點話題，從而幫助公眾號更好地發(fā)展。

關(guān)鍵詞微信留言文本主題發(fā)現(xiàn) LDA模型

中圖分類號：TP181 文獻(xiàn)標(biāo)識碼：A

1微信公眾號留言文本的挖掘價值

隨著移動互聯(lián)網(wǎng)的普及，通過手機上網(wǎng)的中國網(wǎng)民規(guī)模近十億，而微信是目前使用最多的社交軟件，月活躍用戶數(shù)達(dá)5億，微信公眾號達(dá)數(shù)百分個。越來越多各單位機構(gòu)建立微信公眾平臺，利用其進(jìn)行宣傳、展示、服務(wù)、產(chǎn)品推介等。微信公眾平臺傳播資訊具有針對性強，覆蓋一切碎片化時間；傳播精準(zhǔn)，歷史信息傳播周期長；交互性強，方便及時的交互體驗；實時、靈活、低成本等特點。公眾號的訂閱者一般對該公眾號信息較為關(guān)注，在公眾號文章中的留言反映他們在該文章話題下的關(guān)注熱點和真實觀點。因此我們可以利用數(shù)據(jù)挖掘技術(shù)從這些留言文本中挖掘出網(wǎng)民所討論的熱點話題，從而了解到網(wǎng)民的態(tài)度。留言大數(shù)據(jù)挖掘有利于公眾平臺獲取當(dāng)前的熱門關(guān)注點，從而有針對性地加強相關(guān)內(nèi)容創(chuàng)建，進(jìn)而提升用戶體驗和活躍度，增加用戶的粘度和參與度。

留言文本具有信息內(nèi)容短、信息量少的特征，這加大了提取話題的難度。本文針對公眾號留言文本，應(yīng)用LDA主題模型提取出熱點話題。

2 LDA主題模型

主題模型是當(dāng)前文本表示研究的主要范式，LDA（LatentDirichletAllocafion）主題模型是一種基于概率的主題發(fā)現(xiàn)模型，能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型，是主體模型中典型的代表。由于LDA模型是全概率主題生成模型，可以利用高效的概率推斷算法進(jìn)行計算，同時LDA模型在計算過程中與訓(xùn)練文檔數(shù)量無關(guān)，因此更適合處理大規(guī)模語料庫。

LDA模型是一個三層貝葉斯產(chǎn)生式概率模型，該模型采用“詞袋”的方法，這種方法將每一篇文檔看作一個詞頻向量，假設(shè)文檔是由一系列潛在主題混合而成，主題是由詞匯表中所有的詞匯混合而成，每一篇文檔代表了主題所代表的一個概率分布，而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。

3基于LDA模型的微信留言文本主題提取

3.1文本預(yù)處理

保證數(shù)據(jù)的質(zhì)量，降低無關(guān)數(shù)據(jù)或噪聲數(shù)據(jù)對結(jié)果的影響，需要對抓取到元數(shù)據(jù)進(jìn)行預(yù)處理。本文主要從以下方面對數(shù)據(jù)進(jìn)行整理：

（1）剔除只包含特殊字符和數(shù)字的留言，只保留重復(fù)評論中的一條；

（2）利用IKAnalyzer2012開源分詞類庫對每條留言進(jìn)行分詞，保留名詞和動詞；對短文本分詞可通過使用詞典中的詞條進(jìn)行字符串匹配來實現(xiàn)。將短文本分詞后再去掉一些無意義的詞語，如“的”、“了”等詞語，雖然出現(xiàn)頻率高，但對文本分類沒有太大的貢獻(xiàn)；

（3）建立停用詞表剔除文本內(nèi)容中的無用字詞。

3.2 LDA建模

假定給定一個留言集R包含M篇留言文本{r1，r2，…，rM}，留言文本rm是長度為Nm的詞匯序列，記為rm={w1，w2，…，wN}，其中wn表示序列中的第n個詞匯，在M篇留言中分布著K個主題{t1，t2，…，tk}。詞匯wi在留言rm中的概率可以表示為：

p（wi|rm） ==1p（（wi|zi=j）p（zj=j|rm））（1）

其中，zi是潛在主題，標(biāo)示詞匯wi的主題序號，p（wi|zi=j）標(biāo)示詞匯wi被分配到第j個主題的概率p（zj=j|rm），標(biāo)示第j個主題在留言rm中的概率。

模型假定每篇留言是由各個主題隨機混合而成，將主題表示為在詞匯上的概率分布，由此其中每個主題都是可解釋的。模型使用多項式分布建立貝葉斯網(wǎng)絡(luò)中各參數(shù)和變量之間的關(guān)聯(lián)，并假設(shè)多項式分布的參數(shù)服從Dirichlet。每個主題又是詞匯表中所有詞匯的隨機混合，混合比例也服從多項式分布。

根據(jù)經(jīng)驗，模型中主題數(shù)目K預(yù)設(shè)為50，同時根據(jù)Steyvers的建議，令根據(jù)主題數(shù)目變化，的所有分量取經(jīng)驗值=50/T，而的所有分量取固定的經(jīng)驗值 =0.01，這三個可變量的取值確定后，結(jié)合輸入向量運行Gibbs抽樣，得到詞匯表中的詞語在K個潛在主題上的概率分布以及潛在主題在每篇留言中的概率分布。

本文認(rèn)為表達(dá)某個主題的留言越多該主題就越重要。在模型中，一個留言可能包含一個或若干個主題，是若干主題的混合，那么某個主題的重要度就與該主題在所有留言的各混合主題中所占的比例有關(guān)。所以留言集合中主題的重要度可以通過計算留言集合中所有句子包含的該主題的權(quán)重的累加和得到。最后將主題按重要程度排序，從而得到留言文本的熱點主題。

4 結(jié)束語

本文分析了微信公眾號留言文本的挖掘價值，通過LDA主題模型，研究了如何從留言文本出挖掘出熱點話題，從而幫助公眾號更好地發(fā)展。

參考文獻(xiàn)

[1] 劉坤峰，劉斌，秦長濤，劉振名，梁品超.新媒體微信公眾平臺建設(shè)及運營策略研究[J].河北工程技術(shù)高等?？茖W(xué)校學(xué)報，2017（01）：42—44.

[2] 余傳明，張小青，陳雷.基于LDA模型的評論熱點挖掘：原理與實現(xiàn)[J].情報理論與實踐，2010（05）：103—106.endprint

科教導(dǎo)刊·電子版2017年24期

科教導(dǎo)刊·電子版的其它文章: 淺析當(dāng)前計算機通信與網(wǎng)絡(luò)發(fā)展的應(yīng)用技術(shù); “互聯(lián)網(wǎng)+”時代下的ERP與電子商務(wù)的融合; 基于ABAQUS的鎖腳錨桿全長位移分布變化特征的研究; 關(guān)于林業(yè)病蟲害防治的綜合研究; 集束化護(hù)理在重癥中暑患者急救中的應(yīng)用與效果分析; 痔瘡術(shù)后及并發(fā)癥護(hù)理干預(yù)與觀察分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于LDA模型的微信留言文本主題發(fā)現(xiàn)研究