劉小強(qiáng) 茍?jiān)?/p>
摘 要: 針對(duì)當(dāng)前網(wǎng)絡(luò)輿情監(jiān)測(cè)引導(dǎo)方面出現(xiàn)的一系列問(wèn)題,本文設(shè)計(jì)實(shí)現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),通過(guò)系統(tǒng)設(shè)計(jì)和應(yīng)用,為地方政府及時(shí)高效的進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè)分析、進(jìn)一步做好網(wǎng)絡(luò)形象構(gòu)建與傳播發(fā)揮積極的作用。
關(guān)鍵詞: 網(wǎng)絡(luò)輿情; 輿情監(jiān)測(cè); 引導(dǎo)機(jī)制
中圖分類號(hào): TP 393.07 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1671-2153(2015)03-0065-04
0 引 言
伴隨著信息技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)已成為廣大人民群眾抒發(fā)民意、表達(dá)愿望、參政議政的重要場(chǎng)所,也是政府職能部門收集民意、了解民情、監(jiān)測(cè)互聯(lián)網(wǎng)活動(dòng)的重要場(chǎng)所。面對(duì)互聯(lián)網(wǎng)上每天迅速增長(zhǎng)的海量互聯(lián)網(wǎng)信息和產(chǎn)生的網(wǎng)絡(luò)輿情,人工方式已經(jīng)遠(yuǎn)不能實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)信息處理和網(wǎng)絡(luò)輿情的監(jiān)測(cè)[1]。因此,設(shè)計(jì)與實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)是目前迫切的需要,本文對(duì)此進(jìn)行了研究。
1 系統(tǒng)的設(shè)計(jì)思路、目標(biāo)及框架結(jié)構(gòu)
1.1 基本思路
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)能夠?yàn)檎块T全面掌握網(wǎng)絡(luò)輿情、爭(zhēng)取處置主動(dòng)權(quán)提供有效分析依據(jù),實(shí)現(xiàn)政府部門對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專題追蹤等需求[2,3]。本系統(tǒng)將利用整合互聯(lián)網(wǎng)搜索技術(shù)及信息智能處理技術(shù),通過(guò)對(duì)互聯(lián)網(wǎng)海量信息自動(dòng)抓取、自動(dòng)分類聚類、熱點(diǎn)發(fā)現(xiàn)和分析、專題聚焦等,形成簡(jiǎn)報(bào)、報(bào)告、圖表等分析結(jié)果。
1.2 系統(tǒng)建設(shè)目標(biāo)
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)要能實(shí)現(xiàn)及時(shí)快捷的對(duì)互聯(lián)網(wǎng)信息進(jìn)行整合,包括網(wǎng)站新聞、微博言論、論壇帖子等,并運(yùn)用先進(jìn)的中文網(wǎng)站過(guò)濾技術(shù)[4]、信息處理技術(shù)、文本聚類技術(shù)、熱點(diǎn)追蹤挖掘等技術(shù)對(duì)互聯(lián)網(wǎng)海量進(jìn)行自動(dòng)篩選獲取、自動(dòng)分析產(chǎn)生監(jiān)測(cè)預(yù)警,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情信息的收集與監(jiān)測(cè),并最終將處理結(jié)果以圖形、圖表等多種方式顯示出來(lái),為政府主管職能部門全面掌握互聯(lián)網(wǎng)上民眾的思想動(dòng)態(tài)、社會(huì)活動(dòng),及時(shí)有效的做出正確輿論引導(dǎo),避免惡性事件發(fā)生,有利于維護(hù)社會(huì)穩(wěn)定、構(gòu)建和諧社會(huì)。本文設(shè)計(jì)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)包括三大功能模塊,即:輿情數(shù)據(jù)采集模塊,數(shù)據(jù)處理模塊和輿情分析模塊。
1.3 系統(tǒng)框架結(jié)構(gòu)
本文所設(shè)計(jì)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)采用了面向?qū)ο蟮姆椒?,?shí)現(xiàn)手動(dòng)進(jìn)行信息采集、信息數(shù)據(jù)分析、數(shù)據(jù)索引建立以及輿情發(fā)現(xiàn)與跟蹤等功能;用戶使用時(shí)可自行設(shè)置運(yùn)行參數(shù),服務(wù)器按照設(shè)置要求定時(shí)運(yùn)行,完成用戶設(shè)定參數(shù)的信息采集、分析以及話題發(fā)現(xiàn)和追蹤等功能并將運(yùn)行結(jié)果進(jìn)行存儲(chǔ),方便以后比較使用;數(shù)據(jù)處理完成后,系統(tǒng)以圖表圖形等方式展現(xiàn)統(tǒng)計(jì)結(jié)果,具體系統(tǒng)框架結(jié)構(gòu)如圖 1所示。
2 系統(tǒng)建設(shè)方案
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)流來(lái)自系統(tǒng)數(shù)據(jù)采集模塊,數(shù)據(jù)采集模塊從設(shè)置定義的網(wǎng)站采集海量互聯(lián)網(wǎng)數(shù)據(jù)信息,并將采集結(jié)果存儲(chǔ)到服務(wù)器上;數(shù)據(jù)處理模塊負(fù)責(zé)解析HTML文件,將服務(wù)器上的文件讀取出來(lái),對(duì)文件中的文本進(jìn)行分詞,同時(shí)把分詞前后的語(yǔ)句及相關(guān)信息分別保存到數(shù)據(jù)庫(kù)中[5];輿情分析模塊對(duì)保存到數(shù)據(jù)庫(kù)中的文本信息進(jìn)行分析,確定其事態(tài)的強(qiáng)弱程序,以此完成輿情發(fā)現(xiàn)和深度挖掘分析;輿情預(yù)警模塊按照預(yù)先設(shè)定的報(bào)警機(jī)制讀取數(shù)據(jù)庫(kù)中形成的輿情信息,并以直觀的圖表方式將結(jié)果反饋給用戶。
本系統(tǒng)主要分為三大模塊,即:輿情數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和輿情分析決策模塊。其中數(shù)據(jù)處理模塊又包含信息處理、話題發(fā)現(xiàn)兩大功能模塊。該系統(tǒng)主要用于數(shù)據(jù)的采集分析與處理,為用戶提供有效的輿情信息。
3 網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)
3.1 輿情數(shù)據(jù)采集
輿情信息采集模塊為整個(gè)輿情監(jiān)測(cè)系統(tǒng)的基礎(chǔ)模塊,該模塊主要完成了對(duì)指定數(shù)據(jù)采集空間內(nèi)的信息資源進(jìn)行采集與存儲(chǔ),該模塊所采集的信息資源,將作為輿情分析的有效文本集合[6]。采集過(guò)程中運(yùn)用網(wǎng)絡(luò)蜘蛛技術(shù)實(shí)現(xiàn)多線程蜘蛛同時(shí)進(jìn)行抓取,大大提高抓取效率。
在采集過(guò)程中,為了提高系統(tǒng)性能,系統(tǒng)采用了如下處理方案:
(1) 系統(tǒng)采用文本數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),降低了關(guān)系型數(shù)據(jù)庫(kù)讀寫(xiě)消耗;
(2) 設(shè)置緩存區(qū),對(duì)常用數(shù)據(jù)進(jìn)行緩存,定期將過(guò)期信息寫(xiě)入文本數(shù)據(jù)庫(kù),降低輸入輸出讀寫(xiě)消耗;
(3) 采用多線程數(shù)據(jù)采集,以提高采集速度。
采集模塊主要代碼如下:
protected void search()
{
DateTime start = DateTime.Now;
_indexDirectory = Server.MapPath("index"); //詞庫(kù)路徑;
dictPath = Server.MapPath("App_Data"); //詞庫(kù)路徑
highanalyzer = new Lucene.Net.Analysis.Standard.StandardAnalyzer();
_searcher = new IndexSearcher(_indexDirectory);
Analyzer KTDanalyzer = new KTDictSegAnalyzer(dictPath);
PerFieldAnalyzerWrapper wrapper = new PerFieldAnalyzerWrapper(highanalyzer);
simpleAnalyzer = new WawaSimpleAnalyzer(); //按分隔符語(yǔ)匯單元化的分析器
wrapper.AddAnalyzer("title",simpleAnalyzer);
wrapper.AddAnalyzer("content",simple Analyzer);
string[] fields = new string[] { "title" };
if (keyssidt == "2")
{ fields = new string[] { "content" }; }
_mfqp = new MultiFieldQueryParser(fields, wrapper);
string nowq1 = reqs(this.Query);
if (nowq1.Length<2)
return;
q1 = _mfqp.Parse(reqs(this.Query));
BooleanQuery m_BooleanQuery = new Boolean Query();
Query query1 = new TermQuery(new Lucene.Net.Index.Term("soid", keyssid)); //詞語(yǔ)搜索
m_BooleanQuery.Add(q1, BooleanClause.Occur.MUST);
……
Repeater1.DataBind();
DataBind();
}
采集模塊主要結(jié)構(gòu)如圖2所示。
3.2 數(shù)據(jù)信息處理模塊
數(shù)據(jù)信息處理模塊實(shí)現(xiàn)分詞與建立索引的功能。該模塊主要對(duì)信息采集過(guò)程采集到的文本數(shù)據(jù)庫(kù)進(jìn)行讀取,逐條進(jìn)行數(shù)據(jù)清理,去除文本中的腳本等無(wú)用信息,提取出文本的標(biāo)題、內(nèi)容,并利用 Lucene.Net 對(duì)文本進(jìn)行分詞索引,為熱點(diǎn)話題發(fā)現(xiàn)模塊創(chuàng)建文本模型提供數(shù)據(jù)資源[6]。
分詞索引功能的實(shí)現(xiàn),主要是利用了采集回的HTML信息,進(jìn)行信息處理,并對(duì)有效數(shù)據(jù)進(jìn)行分詞,建立索引[7]。
實(shí)現(xiàn)步驟如下:第一步,系統(tǒng)讀取文本數(shù)據(jù)庫(kù),將每條數(shù)據(jù)的內(nèi)容讀入信息預(yù)處理模塊,在信息預(yù)處理模塊中,對(duì)文本內(nèi)容進(jìn)行分析,根據(jù)
public class HTMLDocParser
{ private String htmlPath;
private HTMLParser htmlParser;
public HTMLDocParser(String htmlPath)
{ this.htmlPath=htmlPath;
initHtmlParser();
}
private void initHtmlParser()
{ InputStream inputStream=null;
try
{inputStream=new FileInputStream(htmlPath);}
catch (FileNotFoundException e)
{e.printStackTrace();}
if(null!=inputStream)
{ try
{
htmlParser=new HTMLParser(new Input Stream Reader(inputStream,”utf-8”));
catch (UnsupportedEncodingException e)
{ e.printStackTrace();}
}
}
……
}
信息處理模塊主要結(jié)構(gòu)如圖3所示。
3.3 輿情分析模塊
使用 B/S訪問(wèn)方式作為輿情分析模塊的主要開(kāi)發(fā)模式,更加有利于分析人員及時(shí)有效獲取當(dāng)前輿情信息,其實(shí)現(xiàn)步驟為:第一步,抽取階段主要完成數(shù)據(jù)源數(shù)據(jù)的鏈接、數(shù)據(jù)訪問(wèn)等工作;第二步,清洗階段則完成了對(duì)列屬性的清洗和增補(bǔ)、對(duì)數(shù)據(jù)結(jié)構(gòu)的清洗和增補(bǔ)以及對(duì)數(shù)據(jù)規(guī)則和業(yè)務(wù)規(guī)則的清洗和增補(bǔ)工作,并為下一步準(zhǔn)備數(shù)據(jù);第三步,一致性處理完成了維度表的建立、度量及性能指標(biāo)的建立,去除重復(fù)數(shù)據(jù),并為下一步準(zhǔn)備數(shù)據(jù);第四步,交付階段則主要完成了維度表數(shù)據(jù)的加載及處理,并將處理好的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù),然后利用 Reporting Service 功能實(shí)現(xiàn)輿情信息的統(tǒng)計(jì)、分析。
4 結(jié) 論
本文針對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)引導(dǎo)進(jìn)行了系統(tǒng)開(kāi)發(fā)研究,提出了輿情數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和輿情分析模塊相結(jié)合的設(shè)計(jì)思路,并設(shè)計(jì)實(shí)現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。通過(guò)系統(tǒng)設(shè)計(jì)和應(yīng)用,實(shí)現(xiàn)政府部門對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專題追蹤等需求,形成簡(jiǎn)報(bào)、報(bào)告、圖表等分析結(jié)果顯示出來(lái),從而更好的為地方政府開(kāi)展網(wǎng)絡(luò)輿情監(jiān)測(cè)分析、做好社會(huì)管理工作發(fā)揮積極的作用;并且在地方政府掌握網(wǎng)絡(luò)輿情、引導(dǎo)網(wǎng)絡(luò)輿情發(fā)展、構(gòu)建地方政府良好形象方面提供了有效分析依據(jù)。
參考文獻(xiàn):
[1] 高洪杰. 互聯(lián)網(wǎng)輿情監(jiān)測(cè)分析系統(tǒng)實(shí)現(xiàn)[D]. 上海:復(fù)旦大學(xué),2009.
[2] 楊濤. 智能信息處理技術(shù)在互聯(lián)網(wǎng)輿情分析中的應(yīng)用[D]. 上海:同濟(jì)大學(xué),2008.
[3] 潘文富,郭友實(shí). 網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)研究綜述[J]. 福建電腦,2011(8):39-41.
[4] 劉小強(qiáng),廖建鋒. WSN中一種基于網(wǎng)格的并行數(shù)據(jù)收集方案[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014(7):127-131.
[5] 張顯江,劉小強(qiáng). 一種參數(shù)聯(lián)合優(yōu)化的網(wǎng)絡(luò)流量非線性預(yù)測(cè)模型[J]. 計(jì)算機(jī)工程與應(yīng)用,2014(6):64-67.
[6] 于琨,孫新領(lǐng). 基于信息挖掘的高校網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)開(kāi)發(fā)[J]. 河南機(jī)電高等??茖W(xué)校學(xué)報(bào),2012(1):24-26.
[7] 劉小強(qiáng). 二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2010(3):118-121.
(責(zé)任編輯:徐興華)