国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

LDA在提取涉警輿情關(guān)鍵詞中的應(yīng)用

2018-12-19 12:44羅玉王玲
現(xiàn)代計算機 2018年32期
關(guān)鍵詞:爬蟲文檔輿情

羅玉,王玲

(西華大學計算機與軟件工程學院,成都 610039)

0 引言

伴隨著社會的迅速發(fā)展和信息技術(shù)的廣泛應(yīng)用,涉警輿情越來越多輿情信息的增長速度越來越快,一些負面涉警輿情,甚至是謠言,在網(wǎng)上傳播,如果不引起重視任由其發(fā)展,必然會對公安工作的正常建設(shè)造成不良影響,引發(fā)涉警輿情危機。所以如果能通過一些關(guān)鍵詞幫助公安人員進行輿情分析,那么無疑對社會的長治久安具有重大意義。

1 主題爬蟲

考慮到涉警輿情數(shù)據(jù)來源廣,文本數(shù)量龐大,種類多,本文使用主題爬蟲技術(shù),主題爬蟲技術(shù)是一種依照特定的對象,主動的抓取萬維網(wǎng)信息的程序或者腳本[1]。相較于通用爬蟲,主題爬蟲對爬取對象更加聚焦,抓取的網(wǎng)頁信息與特定主題相關(guān)。主題爬蟲主要面對兩個問題主題的描述和主題的相似度計算。主題描述,指用戶對所要爬取主題的描述。主題描述的好壞,對于爬蟲的結(jié)果有著較大的影響[2]。通常主題描述有兩種方法,一種是專家確定關(guān)鍵詞集,另一種是通過初始頁面提取關(guān)鍵詞。

當前學者在此基礎(chǔ)上提出了一些新的方法,李東暉[3]等提出了一種無監(jiān)督的主題自動擴展技術(shù),能讓一個簡單抓取腳本從開始的主題不斷積累主題知識。主題爬蟲的另一個核心問題,主題相似度計算根據(jù)符合要求的主題判斷當前網(wǎng)頁和當前網(wǎng)頁的URL是否保留的算法。有兩處需要進行主題相似度計算,一是對當前爬取頁面的正文內(nèi)容,二是對當前頁面中的URL。根據(jù)網(wǎng)頁結(jié)構(gòu)、內(nèi)容,判斷是否與期望主題相關(guān),Guo[4]等提出基于SVN分類的主題爬蟲技術(shù),通過訓練SVN分類器,來表現(xiàn)文字內(nèi)容和鏈接的主題相關(guān)度。

由于依據(jù)擔負任務(wù)、職能、領(lǐng)域的不同,人民警察種別,分為戶籍、交通、治安、消防森林、經(jīng)濟、經(jīng)濟犯罪偵查等警種,在這里,我們可以把警種類別看作不同的主題,每個警種對應(yīng)一個或多個主題,每個主題下有與之相關(guān)的關(guān)鍵詞。

本文將采取LDA方法來進行主題爬蟲,利用Word2Vec詞向量表示計算主題和網(wǎng)頁內(nèi)容的相似度,主題之間的相似度[5]。

2 LDA主題模型

LDA主題模型屬于監(jiān)督學習,它是一種文檔的主題生成模型,它可以從語料中抽取潛在的主題,已經(jīng)被普遍的應(yīng)用到信息的主題發(fā)現(xiàn)中。

該模型的主要思想是一個主題由一些詞生成,一篇文章則由一些主題生成,即一篇文章由某些詞語生成。LDA模型如圖1所示。

圖1

其中,wd,n是可計算變量,表示一個文檔D中的詞匯,zd,n代表每個詞在主題上的設(shè)定值,θd代表每個文檔在主題空間中的比例,βk代表主題空間中第K個主題,α和η分別代表預(yù)先設(shè)定的比例系數(shù)和主題參數(shù)。圖中矩形部分表示重復(fù)過程,|D|表示該語料庫中文檔的數(shù)量,K是當前主題空間的主題數(shù)。

因此,文檔集D={d1,d2,...,dn}中的任意一個文本d={w1,w2,...,wn}的概率生成過程如下:

(1)D中詞的總個數(shù)N服從泊松分布。

(2)主題分布 θ服從狄利克雷分布,即 θ|α~Dir(α)

(3)關(guān)于每個n,n∈{1,2,...,N}均存在潛在主題zn服從多元分布,zn|θ~Mult(θ)參數(shù)

(4)每個詞wn也服從多元分布,即:

ξ,α,β表示超參數(shù),其中,ξ僅僅確保表達的完整性,對模型的求解過程無影響;α表示任意一個與文檔中主題分布有關(guān)的狄利克雷超參數(shù);β表示一個與文本集合中主題詞概率相關(guān)的狄利克雷超參數(shù)。這些超參數(shù)根據(jù)經(jīng)驗或多次訓練來設(shè)定。

綜上所述,LDA模型采用對文檔中每一個詞語的概率來進行計算,即:

P(wj|di)表示每個文檔中單詞出現(xiàn)的概率,即詞頻,P(wj|zk)表示某個主題中每個單詞出現(xiàn)的概率,P(zk|di)表示某個文檔中每個主題出現(xiàn)的概率。故得到文檔中每個詞的生成概率為:

3 關(guān)鍵詞提取

本文的關(guān)鍵詞算法采取融合LDA和TF-IDF的自動擴展提取算法。TF-IDF(Term Frequency-Inverse Document Frequency)在自然語言中通常用來表示詞語的重要性的加權(quán)技術(shù)。TF表示詞語的頻率(Term Fre?quency)如公式(4)所示,IDF表示的是是逆文本頻率(Inverse Document Frequency),一個特定詞語的IDF,表示總的文件數(shù)除以包含該詞的文件的數(shù),為了簡化計算將得到的商取對數(shù)。如公式(5)所示。

這里ni,j表示第j篇文檔的第i個詞語,|D|代表總的文檔數(shù),|{j:ti∈dj}|代表包含詞語ti的文件數(shù)目。

我們選定部分初始關(guān)鍵詞,將其加入到爬取種子集中,作為數(shù)據(jù)抓取的初始種子,通過這些初始種子檢索新聞網(wǎng)站,通過融合LDA和TF-IDF算法抽取出文本關(guān)鍵詞,將符合標準的關(guān)鍵詞作為種子加入到種子集中,再進行新一輪的爬取。如圖2所示。

圖2 種子集獲取流程圖

4 實驗結(jié)果和分析

本實驗主要是使用Python實現(xiàn),通過爬取互聯(lián)網(wǎng)上的新聞作為訓練語料,主要來自新浪、新華網(wǎng)、中國新聞網(wǎng)等,抓取新聞?wù)奈迦f篇。使用Gensim包實現(xiàn)LDA主題模型的訓練,訓練過程采用Gibbs采樣,由于時間和資源有限,選取三個區(qū)分度較高的主題作為實驗素材,考察實驗效果,選取消防、經(jīng)濟犯罪偵查、刑事案件三個主題,結(jié)果如表1所示。

表1 F值對比表

表1結(jié)果表明,LDA融合TF—IDF的算法在F值上優(yōu)于單純地使用LDA和TF-IDF,證明了LDA主題爬蟲的可行性和有效性,并隨著主題更新的次數(shù)不斷增加,會有一定提升。

實驗進行了6次更新,得到更新后的主題文檔,通過統(tǒng)計對比了前后主題文檔中出現(xiàn)相同的詞,詞的主題概率提高了3.12%。

5 結(jié)語

本文提出了一種涉警輿情關(guān)鍵詞提取方法,通過使用融合LDA和TF-IDF抽取關(guān)鍵詞的方法和為垂直領(lǐng)域的關(guān)系抽取提供了一種新思路,為垂直領(lǐng)域的關(guān)鍵詞提取建提供了良好的借鑒,后續(xù)的工作中將會加大對數(shù)據(jù)的采集,提高關(guān)鍵詞抽取的準確率。

猜你喜歡
爬蟲文檔輿情
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個文檔
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)
誰搶走了低價機票
數(shù)字輿情
Word文檔 高效分合有高招
數(shù)字輿情
消費輿情
泸定县| 富蕴县| 威远县| 金塔县| 田东县| 肥城市| 郧西县| 乌审旗| 辽源市| 南投县| 宣恩县| 华坪县| 清徐县| 绍兴县| 忻城县| 通渭县| 屏东县| 安泽县| 乐清市| 原平市| 忻州市| 八宿县| 陆川县| 邓州市| 金湖县| 新昌县| 边坝县| 凌海市| 明星| 蓬溪县| 昔阳县| 双牌县| 杭锦后旗| 梅州市| SHOW| 德清县| 三门峡市| 广平县| 四子王旗| 友谊县| 甘肃省|