国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)輿情分析系統(tǒng)信息清理的研究

2009-07-16 09:33呂洪波姚錦峰
新媒體研究 2009年8期
關(guān)鍵詞:信息采集

呂洪波 姚錦峰 梁 飛

[摘要]信息采集是網(wǎng)絡(luò)輿情分析系統(tǒng)中最主要的步驟之一,搜索引擎在網(wǎng)絡(luò)上搜索主題相關(guān)信息時(shí),不可避免的會產(chǎn)生相當(dāng)數(shù)量的與主題無關(guān)信息。將這些無關(guān)信息清理掉,對提高話題抽取和情感分析的效率和精度意義重大,能夠加快整個系統(tǒng)分析速度和準(zhǔn)確度。提出信息清理的必要性,在系統(tǒng)中將信息清理和中文采詞結(jié)合起來,提高系統(tǒng)運(yùn)行效率和準(zhǔn)確度。

[關(guān)鍵詞]網(wǎng)絡(luò)輿情分析 信息采集 中文分詞 信息清理

中圖分類號:TP3文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0420070-01

一、引言

公眾關(guān)于現(xiàn)實(shí)社會以及社會中的各種現(xiàn)象、問題所持有的信念態(tài)度及觀點(diǎn)和(或)情緒的總和稱之為輿情。輿情可以通過多種方式、多種媒介表示和表達(dá)出來。其中,通過計(jì)算機(jī)網(wǎng)絡(luò)和通信網(wǎng)絡(luò),是當(dāng)前最重要的方式之一。這就是所謂網(wǎng)絡(luò)輿情[1-3]。在互聯(lián)網(wǎng)上,網(wǎng)民針對那些關(guān)系到自身利益或者是自己所關(guān)心的各種公共事務(wù),包括突發(fā)事件、社會熱點(diǎn)問題、政府決策、公眾人物言行等等,比在現(xiàn)實(shí)世界中會更積極地發(fā)言,這是有益的一面。但由于歷史的原因,我國曾長期處于封閉狀態(tài),容易受到外來思想文化的沖擊,這是有害的一面。我國當(dāng)前所面臨的網(wǎng)絡(luò)輿情分析與預(yù)警的形勢極其嚴(yán)峻,政府及相關(guān)管理者亟需對處于“未然態(tài)”的輿情信息進(jìn)行挖掘與分析,把握處理危機(jī)事件的最佳時(shí)機(jī)。

因此,必須利用現(xiàn)代信息技術(shù)對網(wǎng)絡(luò)輿情予以分析,從而進(jìn)行控制和引導(dǎo)。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動化的網(wǎng)絡(luò)輿情分析系統(tǒng)。及時(shí)應(yīng)對網(wǎng)絡(luò)輿情,由被動防堵,化為主動梳理、引導(dǎo)。系統(tǒng)中的信息采集一步中,不可避免地會有相當(dāng)數(shù)量與主題無關(guān)的信息被采集到,從而影響到后面分析的速度和準(zhǔn)確度,所以應(yīng)該將其清除。本文主要闡述對無關(guān)信息的清理,提高后面分析的速度與準(zhǔn)確度。

二、信息處理

(一)信息采集系統(tǒng)

信息采集是通過搜索引擎實(shí)現(xiàn)的。搜索引擎(searchEngine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎的搜索過程一般包括3個步驟:

本系統(tǒng)采用Win web Crawer v2.0 Final。它是強(qiáng)大的網(wǎng)站抓取工具,可從網(wǎng)站、網(wǎng)頁目錄、搜索結(jié)果、文件的URL清單中抓取URL的Meta 標(biāo)簽(標(biāo)題,描述,關(guān)鍵字);標(biāo)簽間的純文本;頁面大??;最后修改日期值等信息。高速,多因子,準(zhǔn)確抓取-直接存儲數(shù)據(jù)到磁盤文件。程序有無數(shù)過濾器來限制進(jìn)程,例如URL過濾器,文本過濾器,數(shù)據(jù)過濾器,域過濾器,數(shù)據(jù)修改等等。它允許用戶選擇重建等級,激活信息,超時(shí)限制,代理支持等許多其它功能。將主題句輸入進(jìn)行搜索,得到的結(jié)果依次存入數(shù)據(jù)庫中。

(二)中文分詞模塊

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子"I am a student",用中文則為:"我是一個學(xué)生"。計(jì)算機(jī)可以很簡單通過空格知道"student"是一個單詞,但是不能很容易明白「學(xué)」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。

中國科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識別。ICTCLAS被中外媒體廣泛地報(bào)道,國內(nèi)很多免費(fèi)的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。

本系統(tǒng)的中文分詞模塊就是基于ICTCLAS,能對中文句子進(jìn)行分詞和詞形標(biāo)注。如圖1。

(三)信息處理模塊

通過Win web Crawer v2.0 Final搜索到的信息會有大量與主題無關(guān)??梢酝ㄟ^相應(yīng)的標(biāo)題和用于搜索的主題句,將這些用于下一步分析的標(biāo)簽間的純文本清除。具體過程為:將用于搜索的主題句通過中文分詞程序,保留名詞、動詞和詞組,再將采集到的每篇文章的標(biāo)題依次從數(shù)據(jù)庫中調(diào)出,通過中文分詞程序,將名詞、動詞和詞組分別與主題句中得到的進(jìn)行比較,如果找不到相同的就采用VC程序?qū)⑵鋸臄?shù)據(jù)庫中刪除,從而去除了大量無關(guān)的信息[4-6]。

三、試驗(yàn)結(jié)果

(一)實(shí)驗(yàn)環(huán)境

由于數(shù)據(jù)量不是很大(小于10萬條),所以使用一般的PC作為服務(wù)器。CPU使用Intel(R)Pentium(R)D2.80GHz(雙核),內(nèi)存大小為1GB,操作系統(tǒng)使用W in-dowsXP Professional SP2,數(shù)據(jù)庫為SQL Server2000。

(二)性能分析

實(shí)驗(yàn)結(jié)果見表1。表1的說明:N信息源個數(shù);EN清除后信息源個數(shù);MN清除掉的信息源;個數(shù)V平均每秒處理的個數(shù);包括信息的數(shù)據(jù)庫存儲。

由實(shí)驗(yàn)結(jié)果可見,使用該方法可以有效的清除大量無關(guān)信息,處理速度較快,能夠完成網(wǎng)絡(luò)輿情分析系統(tǒng)對該模塊的要求。

四、結(jié)束語

信息采集中得到的無關(guān)信息不但會占用空間還會影響后面分析的速度與精度,為了提高話題抽取和情感分析的效率與精度,有必要把這些無關(guān)的信息清理掉。每次采集得到的無關(guān)信息的多少都會不同,經(jīng)過信息清理得到的效果也不相同。通過信息清理去除了大量無關(guān)信息,提高了后面分析的速度與準(zhǔn)確度,信息清理工作是成功的。

參考文獻(xiàn):

[1]王來華,輿情研究概論:理論、方法和現(xiàn)實(shí)熱點(diǎn),天津:天津社會科學(xué)院,2003.9(1).

[2]陳力丹,輿論學(xué)輿論導(dǎo)向研究[M].北京:中國廣播電視出版社,1999:10-11.

[3]王來華、劉毅,中國2004年輿情研究綜述[J].新華文摘,2005(18).

[4]Introuduction to Programming with C++:Comprehensive Version.

[5]Sartaj Sahni.Data Structures,Algorithms,and Applications in C++Publisher: Silicon Press;2 edition (August 31,2004).

[6]Vapnik V.Statistical Learning Theory .Wiley, 1998.

猜你喜歡
信息采集
基于Internet的網(wǎng)絡(luò)化交通信息采集系統(tǒng)
如何提高卷煙零售市場信息采集的有效性
無線傳感器網(wǎng)絡(luò)在農(nóng)田溫濕度信息采集中的應(yīng)用
淺析計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在電子信息工程中的實(shí)踐
淺析卷煙消費(fèi)者研究分析工作的運(yùn)用與開展
绥中县| 景东| 巨野县| 长沙市| 古交市| 英山县| 和静县| 陆川县| 耿马| 于都县| 铜川市| 涞源县| 烟台市| 罗田县| 名山县| 潞西市| 绵竹市| 富源县| 兴文县| 台州市| 微博| 福海县| 伊宁县| 青川县| 寿光市| 新河县| 绥德县| 武宁县| 南木林县| 临清市| 出国| 津市市| 磴口县| 平顶山市| 手机| 汝阳县| 左贡县| 乌鲁木齐市| 镇江市| 汪清县| 镶黄旗|