国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Nutch與元搜索引擎技術的高校網(wǎng)絡輿情監(jiān)測系統(tǒng)研究*

2014-04-29 00:44:03聶琰
計算機時代 2014年11期
關鍵詞:分詞搜索引擎校園網(wǎng)

聶琰

摘 要: 針對高校網(wǎng)絡輿情監(jiān)測工作的不足,結合高校輿情信息的傳播特點,提出了在校園網(wǎng)范圍內基于Nutch搜索引擎技術進行信息檢索,在互聯(lián)網(wǎng)上采用元搜索引擎技術獲取相關信息的輿情監(jiān)測系統(tǒng)構建方案。采用關鍵詞特征庫匹配方式自動進行網(wǎng)絡輿情監(jiān)測,及時準確地發(fā)現(xiàn)網(wǎng)絡輿情信息;探討了高校對于網(wǎng)絡輿情的監(jiān)測、分析、引導和反饋等環(huán)節(jié)的處理方法,從而形成完善的應對機制。

關鍵詞: 網(wǎng)絡輿情; Lucene; Nutch; 元搜索引擎; 信息檢索

中圖分類號:TP309.2 文獻標志碼:A 文章編號:1006-8228(2014)11-19-03

Research of public opinion monitoring system in campus network based on

Nutch and meta search engine technology

Nie Yan

(College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)

Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on Meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.

Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval

0 引言

高校師生是網(wǎng)絡利用率極高的一個群體,也是網(wǎng)絡輿情的主要生成力量和影響對象。高校網(wǎng)絡輿情的形成原因主要有三方面:一是由于國內外相關熱點問題的觸發(fā),二是校內外突發(fā)事件的網(wǎng)上討論,三是與高校師生利益密切相關事情的網(wǎng)上訴求。近年來,由于社會上網(wǎng)絡輿情導致政府信任危機的事件不斷發(fā)生,高校也逐漸重視了網(wǎng)絡輿情突發(fā)事件的應對機制研究。同時,隨著公安部對網(wǎng)絡信息安全工作的逐步加強,高校利用自身技術優(yōu)勢,自主構建輿情監(jiān)測系統(tǒng)并建立一套完善的應對機制正逐漸成為高校網(wǎng)絡信息安全工作的重點。因此,在新形勢下,遭遇突發(fā)事件,高校如何能以最快的速度收集網(wǎng)絡上相關信息,跟蹤事態(tài)發(fā)展, 及時向有關部門通報,防范網(wǎng)絡不良輿情的快速擴散和演化,并建立相應的響應機制,實現(xiàn)對網(wǎng)絡輿情的有效管理與控制,使健康的網(wǎng)絡輿情成為維護高校穩(wěn)定,推動社會文明發(fā)展的動力,已經(jīng)成為當前亟需解決的重要課題。

高校的網(wǎng)絡輿情信息主要來自兩部分,一是內部獨立的校園網(wǎng)絡,二是外部開放的互聯(lián)網(wǎng)絡。隨著高校校園信息化建設的深入發(fā)展,校園網(wǎng)中網(wǎng)站、論壇、博客等平臺上信息資源數(shù)量呈指數(shù)級增長,僅依靠人工檢索和信息發(fā)布審核的方式無法有效實現(xiàn)對網(wǎng)絡輿情信息的監(jiān)測,急需利用技術手段實現(xiàn)對海量網(wǎng)絡信息的挖掘與分析,快速匯總成輿情信息;互聯(lián)網(wǎng)上信息量十分巨大,通過垂直搜索引擎方式所獲取的與高校相關的信息往往存在查全率不高的缺陷。高校網(wǎng)絡輿情的監(jiān)測,既要考慮信息采集的深度和廣度,又要提高系統(tǒng)的精度與準度;同時對于發(fā)現(xiàn)的輿情信息,要能夠做到快速定位,有效控制。本系統(tǒng)針對上述高校網(wǎng)絡輿情監(jiān)測工作的不足,并結合網(wǎng)絡輿情傳播特點,提出了構建高校網(wǎng)絡輿情監(jiān)測系統(tǒng)的整體方案,并探討高校面對網(wǎng)絡輿情在監(jiān)測、分析、引導和反饋等環(huán)節(jié)的處理方法,從而形成完善的應對機制。

1 系統(tǒng)體系結構

高校網(wǎng)絡輿情監(jiān)測系統(tǒng)主要包括三個功能模塊,分別是:校園網(wǎng)輿情信息采集模塊、互聯(lián)網(wǎng)輿情信息采集模塊、網(wǎng)絡輿情分析與預警模塊,體系結構如圖1所示。

圖1 高校網(wǎng)絡輿情檢測系統(tǒng)體系結構

由于高校對校園網(wǎng)絡具有較大的控制權限,一部分信息數(shù)據(jù)可利用各種信息發(fā)布系統(tǒng)的管理平臺與數(shù)據(jù)庫的訪問權限來獲取;另一部分可利用網(wǎng)絡爬蟲從網(wǎng)頁數(shù)據(jù)中獲取,系統(tǒng)基于Nutch搜索引擎技術對校園網(wǎng)內數(shù)據(jù)進行信息采集,采集的深度與廣度都達到了較好的效果。對于互聯(lián)網(wǎng)上的海量網(wǎng)絡信息,如果采用垂直搜索引擎進行數(shù)據(jù)采集,所獲取的數(shù)據(jù)質量不高,為此系統(tǒng)采用元搜索引擎技術來獲取互聯(lián)網(wǎng)信息,既提高了信息采集的針對性又擴大了采集范圍。此外,對于某些特定的互聯(lián)網(wǎng)網(wǎng)站,可以采取以上兩種方式相結合的監(jiān)測方式,同時采用網(wǎng)絡爬蟲與元搜索引擎技術,來提高系統(tǒng)的監(jiān)測精度。

網(wǎng)絡輿情分析與預警模塊采用關鍵詞特征庫匹配方式和機器學習算法自動進行網(wǎng)絡輿情監(jiān)測,實現(xiàn)對輿情信息及時準確的發(fā)現(xiàn),并與短信預警等系統(tǒng)接口實現(xiàn)對接,實現(xiàn)輿情信息的實時發(fā)送。

2 系統(tǒng)主要功能模塊

2.1 Nutch搜索引擎與校園網(wǎng)信息檢索

Nutch是一個開源的Java實現(xiàn)的Web搜索引擎,其在Lucene基礎上添加了網(wǎng)頁數(shù)據(jù)抓取功能,提供了構建搜索引擎所需的基本工具模塊,包括網(wǎng)絡爬蟲、文本分析、分詞工具、建立索引、搜索功能和結果過濾等。Lucene是一個高性能、可伸縮的信息搜索庫,可為Nutch提供了文本索引和搜索的API,也可為應用程序添加索引和搜索功能,通過Lucene的數(shù)據(jù)庫接口直接從數(shù)據(jù)庫中取出數(shù)據(jù),用API 建立索引并提供搜索接口。利用Nutch搜索引擎作為校園網(wǎng)輿情信息采集工具,不但可以縮短開發(fā)周期,提高開發(fā)效率,而且通過其內部的接口和插件機制可以實現(xiàn)對校園網(wǎng)數(shù)據(jù)的高質量采集。網(wǎng)絡爬蟲模塊用來實現(xiàn)對校園網(wǎng)內網(wǎng)頁文件的信息采集;Lucene接口實現(xiàn)與各種異構數(shù)據(jù)庫的連接;利用Nutch的插件機制,采用POI插件和PDFBox插件來實現(xiàn)對Word、Excel、PDF等文檔的讀取。通過上述三種方式可以實現(xiàn)對校園網(wǎng)內多種異構數(shù)據(jù)源的信息采集。

2.2 元搜索引擎與互聯(lián)網(wǎng)信息采集

元搜索引擎是建立在獨立搜索引擎之上的搜索引擎。元搜索引擎沒有自己的爬蟲系統(tǒng)和索引系統(tǒng),數(shù)據(jù)全部來自于不同的成員搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎將用戶的搜索請求轉發(fā)給多個成員搜索引擎,對成員搜索引擎的查詢結果進行篩選與去重操作后返回給用戶。將元搜索引擎應用于系統(tǒng)可有效提高互聯(lián)網(wǎng)范圍內輿情信息采集的廣度、精度和速度。各獨立搜索引擎查詢接口的格式和編碼并不相同,首先要將元搜索引擎中的檢索條件轉換為各獨立成員搜索引擎能夠接受的格式,并通過各自的查詢接口提交,然后對獲得的HTML源文件格式的檢索結果進行分析、處理,如百度搜索引擎返回結果中所包含的em、href標簽,通過對上述標簽信息的解析與提取,可以獲得與之相對應的鏈接地址、網(wǎng)頁標題以及部分說明文字,將上述信息處理為結構化數(shù)據(jù)后存放到相應的數(shù)據(jù)庫中。再通過對不同獨立成員搜索引擎所獲取的輿情信息的鏈接地址和網(wǎng)頁標題等信息的對比和有效性檢測來實現(xiàn)結果的篩選和去重,然后將最終結果提交給Nutch的文檔分析與分詞模塊,建立索引。

2.3 文檔分析與中文分詞

信息檢索的基礎是文檔分析,而文檔分析在很大程度上依賴于分詞模塊對語言的處理。文檔分析是信息采集完成后的首要任務,Nutch中的文本分析模塊能夠完成對各異構文件中結構化標記語言的處理,得到純文本文件。Nutch自帶的CJK分詞模塊在中文分詞的效率和準確度上不能滿足實際需要。為此,在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過Nutch的插件機制集成到系統(tǒng)當中。其原理是Nutch中的抽象類Analyzer類實現(xiàn)了配置和插入中文分詞模塊的接口,該抽象類中定義了一個公有的抽象方法tokenStream(String fieldname,Reader reader)返回的類型是TokenStream。Paoding分詞的分詞類返回類型也是TokenStream,故只需將參數(shù)fieldName和reader作為Paoding分詞的輸入?yún)?shù)并將其結果返回給Analyzer類即可。

2.4 信息索引與檢索

系統(tǒng)為校園網(wǎng)和互聯(lián)網(wǎng)內的多個異構數(shù)據(jù)源分別建立了各自的索引文件,為有效整合索引文件,并將其作為統(tǒng)一的索引庫提供給輿情分析與預警模塊,需要對索引文件進行優(yōu)化。索引優(yōu)化其實是將多個索引文件合并成單個文件的過程,目的是減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。Nutch中的IndexWrite類提供了optimize方法實現(xiàn)該優(yōu)化操作。索引優(yōu)化完成后,利用Nutch中的MultiSearcher類可實現(xiàn)對優(yōu)化后索引的統(tǒng)一檢索功能,檢索結果會以一種指定的順序合并起來。針對高校網(wǎng)絡輿情信息的特點,綜合考慮信息相關度,時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機制,Lucene的文本相關度公式作為信息檢索的主要排序依據(jù),輔助以信息發(fā)布時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過Lucene的激勵因子boost值來改變文檔得分,從而調整文檔的出現(xiàn)順序。

2.5 信息預警

系統(tǒng)采用關鍵詞特征庫匹配與機器學習算法相結合的方式對輿情信息進行預警。在對特征庫內的關鍵詞進行組合后,對輿情信息索引庫進行檢索,獲取與之相關的信息,再通過與數(shù)據(jù)庫中歷史記錄的比對得到最新發(fā)現(xiàn)的輿情信息。對新發(fā)現(xiàn)的輿情信息通過聚類算法對信息進行分類,從而獲得輿情信息的分析結果;系統(tǒng)提供了良好的人機交互接口與信息展示界面,預警信息通過短信接口發(fā)送給網(wǎng)絡輿情監(jiān)測人員,做到輿情信息的及時發(fā)現(xiàn)、快速預警。

3 應對機制研究

高校網(wǎng)絡輿情除了要依靠技術手段進行防范與監(jiān)測外,還要構建合理的網(wǎng)絡輿情應急響應組織的架構。網(wǎng)絡輿情突發(fā)性強、傳播速度快,因此高校必須整合各部門資源,成立專門的網(wǎng)絡輿情應急響應小組,其組織結構圖如圖2所示,由校領導直接擔任組長,以黨委宣傳部為核心,校辦、學工部和網(wǎng)絡中心為重要組成成員,其他部門密切配合,建立起一支高效的網(wǎng)絡輿情應急響應隊伍。網(wǎng)絡輿情事件一旦發(fā)生,應立即啟動應急預案,預案應包括信息收集、分析應對、部門聯(lián)動和引導反饋四個環(huán)節(jié)。各部門由網(wǎng)絡輿情應急響應小組統(tǒng)一領導,預案中的各環(huán)節(jié)可同時啟動,要實現(xiàn)技術手段與思想教育工作并重,防止事態(tài)擴大,力爭快速及時的化解輿情危機。

圖2 網(wǎng)絡輿情應急響應小組組織結構圖

4 結束語

通過對高校網(wǎng)絡輿情監(jiān)測系統(tǒng)的研究,實現(xiàn)了基于Nutch與元搜索引擎技術的高校網(wǎng)絡輿情監(jiān)測系統(tǒng),解決了多數(shù)據(jù)源、異構信息檢索的難點;引入元搜索引擎技術,完成與源搜索引擎的對接,達到了較高的查全率;采用關鍵詞、敏感詞特征庫匹配與機器學習算法相結合的方式對采集信息進行分析處理,提高了系統(tǒng)的準確率,最終實現(xiàn)了高校網(wǎng)絡輿情信息的早發(fā)現(xiàn),早預警,從而彌補了高校網(wǎng)絡輿情監(jiān)測技術手段上的不足;通過對網(wǎng)絡輿情的自動采集、分析與預警替代了人工操作,提高了工作效率,并且能夠對輿情信息進行快速、準確的發(fā)現(xiàn)。目前該系統(tǒng)依靠關鍵詞匹配的方式進行輿情信息發(fā)現(xiàn),并用聚類算法對發(fā)現(xiàn)的輿情信息進行分類,該方法對已知關鍵詞的輿情信息能夠取得較好的效果,但對未知關鍵詞的信息還無法實現(xiàn)有效監(jiān)測,今后將進一步加強對這方面的研究。通過高校網(wǎng)絡輿情監(jiān)測系統(tǒng)的部署和應對機制的構建,高校能夠從整體上實現(xiàn)對網(wǎng)絡輿情隱患的及早發(fā)現(xiàn)、快速響應、應急控制、主動疏導和反饋調整,促進了高校的穩(wěn)定與和諧發(fā)展。

參考文獻:

[1] 羅剛.解密搜索引擎技術實戰(zhàn)Lucene &Java精華版[M].電子工業(yè)出

版社,2014.

[2] 王雪松.Lucene+Nutch搜索引擎[M].人民郵電出版社,2008.

[3] 邱哲,符滔滔,王雪松.開發(fā)自己的搜索引擎Lucene+Heritrix[M].人民

郵電出版社,2010.

[4] 費洪曉,莫天池,秦啟飛.社交網(wǎng)絡相關機制應用于搜索引擎的研究

綜述[J].計算技術與自動化,2014.1:1-9

[5] 董堅峰.基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警研究[J]. 現(xiàn)代情報,

2014.2:43-51

[6] 戴維民,劉軼.我國網(wǎng)絡輿情信息工作現(xiàn)狀及對策思考[J]. 圖書情報

工作,2014.1:24-29

[7] 樸辰熙.元搜索引擎的原理與革新[J].電子技術與軟件工程,

2013.23:34-34

[8] 李俊俊.中國高校網(wǎng)絡輿情探究[J].廣西民族師范學院學報,2014.1:

126-129

猜你喜歡
分詞搜索引擎校園網(wǎng)
數(shù)字化校園網(wǎng)建設及運行的幾點思考
甘肅教育(2020年18期)2020-10-28 09:05:54
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
試論最大匹配算法在校園網(wǎng)信息提取中的應用
電子制作(2019年10期)2019-06-17 11:45:26
NAT技術在校園網(wǎng)中的應用
電子制作(2017年8期)2017-06-05 09:36:15
值得重視的分詞的特殊用法
網(wǎng)絡搜索引擎亟待規(guī)范
VPN在校園網(wǎng)中的集成應用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
高考分詞作狀語考點歸納與疑難解析
宁远县| 陈巴尔虎旗| 永济市| 江陵县| 陵水| 吐鲁番市| 微博| 中江县| 十堰市| 德惠市| 蓝山县| 汶川县| 磐石市| 齐齐哈尔市| 安国市| 厦门市| 漳州市| 方城县| 黎川县| 开化县| 阜阳市| 莫力| 台东市| 雅江县| 灯塔市| 稻城县| 常山县| 呼图壁县| 恩平市| 河西区| 陆丰市| 宁夏| 广州市| 翁牛特旗| 永德县| 万荣县| 汝州市| 平远县| 凤山县| 保康县| 甘南县|