陳麓屹 戴國勇 劉靜靜
摘 要: 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各類網(wǎng)絡(luò)新聞表達(dá)和信息傳遞的渠道越來越大,網(wǎng)絡(luò)輿情的傳播也更加迅速。該文對(duì)網(wǎng)絡(luò)輿情信息意見挖掘的關(guān)鍵技術(shù)進(jìn)行研究,通過對(duì)熱點(diǎn)事件提取、動(dòng)態(tài)主題庫的構(gòu)建、情感傾向分析這三個(gè)技術(shù)的分析研究,可以更好的監(jiān)控網(wǎng)絡(luò)輿情走向,確保網(wǎng)絡(luò)安全。
關(guān)鍵詞: 網(wǎng)絡(luò)輿情;熱點(diǎn)事件;動(dòng)態(tài)主題庫;情感傾向
【中圖分類號(hào)】 G350 【文獻(xiàn)標(biāo)識(shí)碼】 A【文章編號(hào)】 2236-1879(2018)14-0009-01
1 引 言
當(dāng)今社會(huì)的主流媒體,如博客、微信、微博等網(wǎng)絡(luò)媒體,已經(jīng)被越來越多人使用,新聞或信息的傳播變得更加快速,輿論力量也越來越強(qiáng)大。從海量的、種類繁雜的、數(shù)據(jù)信息多樣化的輿論信息中挖掘出有價(jià)值的信息,并對(duì)信息進(jìn)行分析,是目前進(jìn)行網(wǎng)絡(luò)輿情信息監(jiān)控,控制輿情走向的關(guān)鍵點(diǎn)。本文主要針對(duì)網(wǎng)絡(luò)輿情信息意見挖掘的關(guān)鍵技術(shù)進(jìn)行研究。
2 意見挖掘關(guān)鍵技術(shù)
該文主要從熱點(diǎn)事件提取、動(dòng)態(tài)主題庫的構(gòu)建、情感傾向分析這三個(gè)技術(shù)關(guān)鍵點(diǎn)進(jìn)行分析。
2.1 熱點(diǎn)事件提取。
熱點(diǎn)事件的提取可以采用文本聚類算法:K-means[1]。在提取熱點(diǎn)事件中,主要進(jìn)行文本預(yù)處理、關(guān)鍵特征詞提取和聚類模型的選擇。
文本預(yù)處理主要是對(duì)中文和英文進(jìn)行分詞操作[2],并提取關(guān)鍵性文本,過濾無用文本,其中無用文本包括標(biāo)點(diǎn)符號(hào)、垃圾詞語以及無實(shí)際意義的助詞、介詞和連詞等。
關(guān)鍵特征詞提取,主要是獲取文本中出現(xiàn)頻率較高的句子以及詞語。可采用TF-IDF特征加權(quán)算法[3],該算法可以通過計(jì)算句子的權(quán)重,評(píng)估出該句子在文本中的重要程度,再從選出的主題句中使用該算法計(jì)算關(guān)鍵詞語的權(quán)重,評(píng)估關(guān)鍵特征詞。
聚類模型主要選擇K-means聚類模型[4],其中心思想是:選擇其中k個(gè)關(guān)鍵特征詞所代表的熱點(diǎn)事件,對(duì)k個(gè)熱點(diǎn)事件依次計(jì)算與其余頁面文本熱點(diǎn)事件的相識(shí)度,如果相識(shí)度超過閥值,就進(jìn)行熱點(diǎn)事件合并,否則,就將當(dāng)前頁面的文本作為新的熱點(diǎn)事件;該算法迭代進(jìn)行,對(duì)生成的新熱點(diǎn)事件進(jìn)行重新聚類,直到找到特定個(gè)數(shù)的熱點(diǎn)事件。
2.2 動(dòng)態(tài)主題庫的構(gòu)建。
動(dòng)態(tài)主題庫主要是構(gòu)建一種樹形結(jié)構(gòu)的意見主題庫,第一層為根節(jié)點(diǎn);第二層為意見類型;第三層為包含意見主題的規(guī)則,每條規(guī)則由兩到三個(gè)同義詞組構(gòu)成,每個(gè)同義詞組中的詞語可以和其它同義詞組中的所有詞語進(jìn)行組合。動(dòng)態(tài)主題庫的構(gòu)建主要用來將網(wǎng)絡(luò)信息和動(dòng)態(tài)主題庫進(jìn)行匹配,提取出當(dāng)前網(wǎng)絡(luò)信息的主題類型。
2.3 情感傾向分析。
情感傾向分析技術(shù)包含數(shù)據(jù)獲取、特征詞提取、情感詞庫的構(gòu)建,以及情感傾向的分析[5]。
數(shù)據(jù)獲?。和ㄟ^軟件抓取網(wǎng)絡(luò)信息,對(duì)獲取到的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行過濾,刪除無用信息[6],得到純文本信息。
特征詞提?。簩?duì)獲取到的純文本信息進(jìn)行篩選,篩選出現(xiàn)頻率比較高的特征詞,并將篩選出的特征詞構(gòu)造特征詞本體,計(jì)算特征詞的語義相似度,構(gòu)建出語義共詞矩陣,對(duì)語義共詞矩陣進(jìn)行定量的聚類分析。
情感詞庫的構(gòu)建:將具有情感傾向的詞,通過人工評(píng)定的方式,分別抽取出表達(dá)正面信息和表達(dá)負(fù)面信息的詞,并確定不同情感值的程度級(jí)別和強(qiáng)度,構(gòu)建出情感強(qiáng)度詞表;將情感程度與情感詞相搭配構(gòu)成情感詞庫,情感詞語搭配減弱型情感程度會(huì)減弱情感的強(qiáng)度,反之情感詞語搭配增強(qiáng)型情感程度會(huì)增強(qiáng)情感的強(qiáng)度。
情感傾向分析:抽取詞語特征和情感詞語,構(gòu)建本體[7]。將語句中的詞語匹配本體中的特征詞,將句子的特征詞映射到本體中相應(yīng)的特征上,匹配情感詞所在的語境,形成特征-情感詞組。最后對(duì)特征-情感詞組進(jìn)行判定,整理情感傾向,得出分析結(jié)果。
3 結(jié) 語
本文主要闡述了如何進(jìn)行網(wǎng)絡(luò)輿情信息的意見挖掘。首先通過文本聚類算法進(jìn)行熱點(diǎn)事件的提??;然后構(gòu)建動(dòng)態(tài)意見主題庫,將提取出來的熱點(diǎn)事件與動(dòng)態(tài)意見主題庫的規(guī)則進(jìn)行匹配,獲取到熱點(diǎn)事件的主題類型。最后都與熱點(diǎn)事件進(jìn)行情感傾向分析,分析出熱點(diǎn)事件的情感傾向和強(qiáng)度。以便能夠挖掘出有價(jià)值的信息,及時(shí)監(jiān)控輿論信息,保證網(wǎng)絡(luò)安全,維護(hù)社會(huì)穩(wěn)定。
參考文獻(xiàn)
[1] 王千,王成,馮振元,等 .K-means聚類算法研究綜述[J].電子設(shè)計(jì)工程,2012(07)21-24.
[2] 劉 件,魏 程. 中文分詞算法研究[J]. 微計(jì)算機(jī)應(yīng)用,2008,29( 8) : 11-16.
[3] 韓敏,唐常杰,段磊,等 .基于TF-IDF相似度的標(biāo)簽聚類方法[J].計(jì)算機(jī)科學(xué)與探索,2010(03)240-246.
[4] 芬芬 .基于概念和語義相似度的文本聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2012(18)136.
[5] 李耀林 .面向評(píng)價(jià)對(duì)象的商品評(píng)論情感傾向性分析研究[D]. 杭州: 浙江工商大學(xué), 2013.
[6] 胡昌平,胡吉明 .個(gè)性化服務(wù)中基于支持向量機(jī)的用戶興趣挖掘分析 [J]. 情報(bào)學(xué)報(bào),2009,28 ( 4) : 543-547.
[7] 朱禮軍,陶蘭,劉慧 .領(lǐng)域本體中的概念相似度計(jì)算[J]. 華南理工大學(xué)學(xué)報(bào): 自然科學(xué)版,2004,32:147-150.