国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的網(wǎng)絡(luò)微博輿情分析

2016-05-14 22:04:23徐維林朱宗高麗劉金嶺
軟件導(dǎo)刊 2016年5期

徐維林 朱宗 高麗 劉金嶺

摘要:LDA模型對長文本聚類有優(yōu)勢。將微博文本按一定規(guī)則構(gòu)建長文本,根據(jù)文本中隱含的豐富語義信息,將SVM模型與LDA模型相結(jié)合,利用K-Means算法聚類。實驗結(jié)果表明,SVM和LDA相結(jié)合的模型,明顯提高了聚類質(zhì)量和穩(wěn)定性。

關(guān)鍵詞:SVM模型;LDA模型;微博輿情;K-Means算法聚類

DOIDOI:10.11907/rjdk.161005

中圖分類號:TP319

文獻標識碼:A 文章編號:1672-7800(2016)005-0153-02

0 引言

互聯(lián)網(wǎng)對社會的影響力與日俱增,網(wǎng)絡(luò)輿情研究越來越受到重視。隨著論壇、社區(qū)、博客、微博、微信等新興互聯(lián)網(wǎng)媒體的興起,社會輿情的傳播速度變得越來越快。因此,加強輿情信息的監(jiān)控,及時掌握輿情動態(tài),利用現(xiàn)代信息技術(shù)促進網(wǎng)絡(luò)輿情信息健康有序發(fā)展,是各級政府部門的重要工作之一。

主題模型(Latent Dirichlet Allocation,LDA)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),是目前公認的自然語言處理中較好的模型之一。為了使LDA模型較好地處理微博文本,以獲得較有價值的輿情信息,先將微博集合信息進行粗分類,構(gòu)成主題較為明確的長文本集合,利用數(shù)據(jù)預(yù)處理、特征詞提取,用TF-IDF策略得到SVM特征詞空間向量,結(jié)合LDA進行聚類,得到微博輿情熱點話題。本文先將微博集合按一定的規(guī)則構(gòu)成長文本集,將LDA主題模型與SVM有機結(jié)合,從特征詞和主題兩個方面對文本進行聚類分析,以彌補兩種方式的不足,提高了聚類準確率。

1 相關(guān)研究

LDA模型是Blei[1]提出的一種基于潛在Dirichlet分布的概率主題生成模型,該模型生成文本過程:一系列主題以服從多項式分布形式生成每個文本,再從這些主題中同樣以服從多項式分布的方式抽樣出每個單詞。劉振鹿等[2]應(yīng)用LDA模型進行文本的潛在語義分析,將語義分布劃分成低頻、中頻、高頻語義區(qū),以低頻語義區(qū)的語義進行Web游離文本檢測,以中、高頻語義區(qū)的語義作為文本特征進行文本聚類,采用文本類別與語義互作用機制對聚類結(jié)果進行修正,獲得了較好的聚類效果。曹娟等[3]研究了LDA模型的最優(yōu)化問題,證明當主題之間的相似度最小時模型最優(yōu)。王少鵬等[4]提出了一種基于LDA的主題模型文本聚類方法,利用TF-IDF算法和LDA主題模型,通過耗費函數(shù)確定文本相似度的融合系數(shù),進行線性結(jié)合來獲取文本之間的相似度,通過計算得到文本相似度矩陣,使用K-mean進行文本聚類,利用F值對聚類結(jié)果評估,取得了良好的聚類效果。但LDA僅對于長文本效果較為突出,對具有短文本特點的微博文本分類往往效果不明顯。

2 基于LDA與SVM結(jié)合的輿情獲取

2.1 微博數(shù)據(jù)采集

微博輿情信息數(shù)據(jù)采集是進行輿情分析的基礎(chǔ)。一般情況下,微博信息的獲取都是通過專門的獲取工具,比如網(wǎng)上免費提供的新浪微博數(shù)據(jù)獲取采集器 V1.0綠色版(http://www.cr173.com/soft/141381.html)等。

2.2 微博長文本集構(gòu)建

本文實驗數(shù)據(jù)是新浪網(wǎng)上采集的9 800條微博信息,采用同一用戶某時間段內(nèi)(本文選取48個小時)所發(fā)出的微博按時間順序排序構(gòu)造一個長文本集。具體算法如下:

算法1:構(gòu)建微博長文本集

該算法將每個用戶在時間間隔T0(選取T0=24)內(nèi)發(fā)出的微博有序地構(gòu)建了一個長文本向量,這基于兩方面考慮:①假設(shè)每條微博知識反映一個主題;②一個用戶連續(xù)發(fā)出微博為一個主題的概率很大,因此某一時間段內(nèi)連續(xù)發(fā)出的微博只會是有限個主題。

2.3 基于LDA和VSM的聚類算法設(shè)計

2.3.1 LDA模型

LDA模型具有清晰的層次結(jié)構(gòu),依次為文檔集合層、主題層和特征詞層。

LDA模型是典型的有向概率圖模型[6],由參數(shù)(α,β)確定,α反映了文檔集合中隱含主題間的相對強弱,β刻畫所有隱含主題自身的概率分布。其中θk表示文檔主題的概率分布,φk表示特定主題下特征詞的概率分布,-表示文檔集的文本數(shù),K表示文檔集的主題數(shù),N表示每篇文檔包含的特征詞數(shù)。

2.3.2 LDA 和VSM結(jié)合的聚類算法

3 實驗結(jié)果與分析

3.1 線性相關(guān)系數(shù)λ

λ分別取值0.1-0.9時,計算其漏判率、錯判率和耗費函數(shù)值[4],通過實驗數(shù)據(jù)可以看出,漏判率、錯判率和耗費函數(shù)值先是隨λ的值增大而減小,在0.6處達到最低點,而后隨著λ的值增大而增大,因此λ=0.6時聚類效果最佳,所以本文實驗取λ=0.6。

3.2 聚類質(zhì)量檢測

基于數(shù)據(jù)集的分布情況常用F值進行評價。F值評價原理是利用查全率和查準率對聚類結(jié)果質(zhì)量進行評價。對于實驗的比較,本文通過計算SVM與LDA結(jié)合模型(簡記為SVM+LDA)、LDA模型和SVM模型的F值比較實驗結(jié)果得到,SVM與LDA結(jié)合模型不僅在質(zhì)量上有一定提高,而且聚類結(jié)果的穩(wěn)定性也較好。這是因為SVM模型中利用TF-IDF進行大樣本集進行特征詞抽取時具有明顯的優(yōu)勢,而LDA模型又強化了文本間語義關(guān)系,同時,LDA模型又具有強大的降維能力。綜合以上幾點,使得SVM+LDA在進行微博集中的輿情識別時提高了聚類質(zhì)量和穩(wěn)定性。

4 結(jié)語

文本間潛在的語義關(guān)系是通過文本相似度來反映和度量的。LDA模型是解決文本潛在主題的概率生成模型,為了發(fā)揮LDA模型對長文本多主題聚類的優(yōu)勢,本文利用微博時序和用戶聚集特點,將某用戶在某時間段內(nèi)所發(fā)送的微博按時序排序為一個長文本,再利用SVM模型提取特征詞的優(yōu)勢,結(jié)合SVM與LDA模型的相似度進行聚類,克服LDA主題向量維數(shù)過低和對文本區(qū)分度較弱的不足,以此提高文本聚類的穩(wěn)定性和準確性。

參考文獻:

[1]BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Rasearch,2003(3):993-995.

[2]劉振鹿,王大玲,馮時,等.一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[J].中文信息學報,2011,25(1):60-67.

[3]曹娟,張勇東.一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J].計算機學報,2008,31(10):1780-1788.

[4]王少鵬,彭巖,王潔.基于LDA 的文本聚類在網(wǎng)絡(luò)輿情分析中的應(yīng)用研究[J].山東大學學報:理學版,2014,49(9):129-134.

[5]劉金嶺.基于降維的短信文本語義分類及主題提取[J].計算機工程與應(yīng)用,2010,46(23):159-161,174.

[6]徐戈,黃厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1437.

[7]鄔啟為.基于向量空間的文本聚類方法與實現(xiàn)[D].北京:北京交通大學,2014.

[8]張永軍,劉金嶺,馬甲林.中文短信文本信息流中多話題的分類抽取[J].現(xiàn)代圖書情報技術(shù),2014,30(7):101-106.

(責任編輯:杜能鋼)

包头市| 合作市| 米泉市| 旅游| 天峨县| 琼中| 托克逊县| 库车县| 罗山县| 略阳县| 广东省| 呼和浩特市| 肇源县| 安塞县| 武穴市| 于都县| 贵港市| 佛冈县| 景德镇市| 德化县| 五大连池市| 犍为县| 永新县| 南漳县| 富裕县| 神木县| 淳安县| 宽甸| 房产| 无棣县| 吉隆县| 邢台县| 鄢陵县| 鄯善县| 台南县| 三河市| 海宁市| 西平县| 崇仁县| 宁武县| 英吉沙县|