羅玉,王玲
(西華大學計算機與軟件工程學院,成都 610039)
伴隨著社會的迅速發(fā)展和信息技術(shù)的廣泛應(yīng)用,涉警輿情越來越多輿情信息的增長速度越來越快,一些負面涉警輿情,甚至是謠言,在網(wǎng)上傳播,如果不引起重視任由其發(fā)展,必然會對公安工作的正常建設(shè)造成不良影響,引發(fā)涉警輿情危機。所以如果能通過一些關(guān)鍵詞幫助公安人員進行輿情分析,那么無疑對社會的長治久安具有重大意義。
考慮到涉警輿情數(shù)據(jù)來源廣,文本數(shù)量龐大,種類多,本文使用主題爬蟲技術(shù),主題爬蟲技術(shù)是一種依照特定的對象,主動的抓取萬維網(wǎng)信息的程序或者腳本[1]。相較于通用爬蟲,主題爬蟲對爬取對象更加聚焦,抓取的網(wǎng)頁信息與特定主題相關(guān)。主題爬蟲主要面對兩個問題主題的描述和主題的相似度計算。主題描述,指用戶對所要爬取主題的描述。主題描述的好壞,對于爬蟲的結(jié)果有著較大的影響[2]。通常主題描述有兩種方法,一種是專家確定關(guān)鍵詞集,另一種是通過初始頁面提取關(guān)鍵詞。
當前學者在此基礎(chǔ)上提出了一些新的方法,李東暉[3]等提出了一種無監(jiān)督的主題自動擴展技術(shù),能讓一個簡單抓取腳本從開始的主題不斷積累主題知識。主題爬蟲的另一個核心問題,主題相似度計算根據(jù)符合要求的主題判斷當前網(wǎng)頁和當前網(wǎng)頁的URL是否保留的算法。有兩處需要進行主題相似度計算,一是對當前爬取頁面的正文內(nèi)容,二是對當前頁面中的URL。根據(jù)網(wǎng)頁結(jié)構(gòu)、內(nèi)容,判斷是否與期望主題相關(guān),Guo[4]等提出基于SVN分類的主題爬蟲技術(shù),通過訓練SVN分類器,來表現(xiàn)文字內(nèi)容和鏈接的主題相關(guān)度。
由于依據(jù)擔負任務(wù)、職能、領(lǐng)域的不同,人民警察種別,分為戶籍、交通、治安、消防森林、經(jīng)濟、經(jīng)濟犯罪偵查等警種,在這里,我們可以把警種類別看作不同的主題,每個警種對應(yīng)一個或多個主題,每個主題下有與之相關(guān)的關(guān)鍵詞。
本文將采取LDA方法來進行主題爬蟲,利用Word2Vec詞向量表示計算主題和網(wǎng)頁內(nèi)容的相似度,主題之間的相似度[5]。
LDA主題模型屬于監(jiān)督學習,它是一種文檔的主題生成模型,它可以從語料中抽取潛在的主題,已經(jīng)被普遍的應(yīng)用到信息的主題發(fā)現(xiàn)中。
該模型的主要思想是一個主題由一些詞生成,一篇文章則由一些主題生成,即一篇文章由某些詞語生成。LDA模型如圖1所示。
圖1
其中,wd,n是可計算變量,表示一個文檔D中的詞匯,zd,n代表每個詞在主題上的設(shè)定值,θd代表每個文檔在主題空間中的比例,βk代表主題空間中第K個主題,α和η分別代表預(yù)先設(shè)定的比例系數(shù)和主題參數(shù)。圖中矩形部分表示重復(fù)過程,|D|表示該語料庫中文檔的數(shù)量,K是當前主題空間的主題數(shù)。
因此,文檔集D={d1,d2,...,dn}中的任意一個文本d={w1,w2,...,wn}的概率生成過程如下:
(1)D中詞的總個數(shù)N服從泊松分布。
(2)主題分布 θ服從狄利克雷分布,即 θ|α~Dir(α)
(3)關(guān)于每個n,n∈{1,2,...,N}均存在潛在主題zn服從多元分布,zn|θ~Mult(θ)參數(shù)
(4)每個詞wn也服從多元分布,即:
ξ,α,β表示超參數(shù),其中,ξ僅僅確保表達的完整性,對模型的求解過程無影響;α表示任意一個與文檔中主題分布有關(guān)的狄利克雷超參數(shù);β表示一個與文本集合中主題詞概率相關(guān)的狄利克雷超參數(shù)。這些超參數(shù)根據(jù)經(jīng)驗或多次訓練來設(shè)定。
綜上所述,LDA模型采用對文檔中每一個詞語的概率來進行計算,即:
P(wj|di)表示每個文檔中單詞出現(xiàn)的概率,即詞頻,P(wj|zk)表示某個主題中每個單詞出現(xiàn)的概率,P(zk|di)表示某個文檔中每個主題出現(xiàn)的概率。故得到文檔中每個詞的生成概率為:
本文的關(guān)鍵詞算法采取融合LDA和TF-IDF的自動擴展提取算法。TF-IDF(Term Frequency-Inverse Document Frequency)在自然語言中通常用來表示詞語的重要性的加權(quán)技術(shù)。TF表示詞語的頻率(Term Fre?quency)如公式(4)所示,IDF表示的是是逆文本頻率(Inverse Document Frequency),一個特定詞語的IDF,表示總的文件數(shù)除以包含該詞的文件的數(shù),為了簡化計算將得到的商取對數(shù)。如公式(5)所示。
這里ni,j表示第j篇文檔的第i個詞語,|D|代表總的文檔數(shù),|{j:ti∈dj}|代表包含詞語ti的文件數(shù)目。
我們選定部分初始關(guān)鍵詞,將其加入到爬取種子集中,作為數(shù)據(jù)抓取的初始種子,通過這些初始種子檢索新聞網(wǎng)站,通過融合LDA和TF-IDF算法抽取出文本關(guān)鍵詞,將符合標準的關(guān)鍵詞作為種子加入到種子集中,再進行新一輪的爬取。如圖2所示。
圖2 種子集獲取流程圖
本實驗主要是使用Python實現(xiàn),通過爬取互聯(lián)網(wǎng)上的新聞作為訓練語料,主要來自新浪、新華網(wǎng)、中國新聞網(wǎng)等,抓取新聞?wù)奈迦f篇。使用Gensim包實現(xiàn)LDA主題模型的訓練,訓練過程采用Gibbs采樣,由于時間和資源有限,選取三個區(qū)分度較高的主題作為實驗素材,考察實驗效果,選取消防、經(jīng)濟犯罪偵查、刑事案件三個主題,結(jié)果如表1所示。
表1 F值對比表
表1結(jié)果表明,LDA融合TF—IDF的算法在F值上優(yōu)于單純地使用LDA和TF-IDF,證明了LDA主題爬蟲的可行性和有效性,并隨著主題更新的次數(shù)不斷增加,會有一定提升。
實驗進行了6次更新,得到更新后的主題文檔,通過統(tǒng)計對比了前后主題文檔中出現(xiàn)相同的詞,詞的主題概率提高了3.12%。
本文提出了一種涉警輿情關(guān)鍵詞提取方法,通過使用融合LDA和TF-IDF抽取關(guān)鍵詞的方法和為垂直領(lǐng)域的關(guān)系抽取提供了一種新思路,為垂直領(lǐng)域的關(guān)鍵詞提取建提供了良好的借鑒,后續(xù)的工作中將會加大對數(shù)據(jù)的采集,提高關(guān)鍵詞抽取的準確率。