趙新輝 郭瑞
摘要:隨著互聯網的普及,網絡改變著人們的生活和表達方式。個人觀點態(tài)度在網上的宣泄就產生網絡輿情,面對紛雜的海量信息,亟需一種機制做正確的監(jiān)測與引導,對網絡輿情監(jiān)測與引導分析方法中引入數據挖掘技術,能夠科學地分析各種潛在的有利和不利的因素,本文基于數據挖掘技術提出網絡輿情智能監(jiān)測與引導平臺的設計模型,可以有效的進一步完善網絡輿情監(jiān)測與引導機制,從而為網絡營造一個更加安全和綠色的網絡環(huán)境。
關鍵詞:數據挖掘;網絡輿情;監(jiān)測引導;決策平臺
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2012)01-0001-02
互聯網的應用擴展了人們的生活空間,也改變著人們的生活和表達方式,隨著信息技術的發(fā)展,作為“第四媒體”的互聯網已經成為人們發(fā)布、交換、獲取信息的重要渠道。網絡本身具有虛擬性、匿名性的特點,已經成為人們情緒表達、宣泄及交流的重要平臺,其中社會政治態(tài)度的表現就是網絡輿情。網絡也自然而然的成為了政治問題和社會問題的集散地,更加為政府了解民情,政府治國理政提供了重要平臺。
在網絡大量輿情數據的背后隱藏了很多具有決策意義的信息,那么在飛漲的信息數據中,有效利用數據寶藏,是近年信息技術領域研究熱點之一。在數據生產、傳輸能力遠遠大于數據分析能力的今天,人們希望能夠提供更高層次的數據分析功能,自動和智能地將待處理的數據轉化為有用的信息和知識。面對這一嚴峻挑戰(zhàn),數據挖掘和知識發(fā)現(Data Mining and Knowledge Discovery,簡稱DMKD)技術應運而生,并蓬勃發(fā)展起來。
1網絡輿情
1.1網絡輿情概念
網絡輿情是指通過互聯網或者其他網絡手段傳播出的廣大公眾對于現實生活中存在的某些焦點、熱點問題所持的有較強影響力和傾向性的言論及觀點。開通微博、建立專區(qū)留言板,新聞跟帖,BBS論壇,都已經成為了群眾與組織展開交流的重要手段,這些網絡手段的確起到了一定的交流作用。
網絡自身具有虛擬性、隱蔽性、隨意性和滲透性等特點,廣大用戶都很樂意通過這些渠道參與到各種話題的討論中去,盡管起到了一定的積極作用,然而一旦引導不利,產生一系列的負面的網絡輿情就會嚴重的威脅到社會大環(huán)境的安全,甚至會對公共環(huán)境的發(fā)展起到消極作用。這就要求要加強對于網絡輿情的及時監(jiān)測和有效的引導,并且及時的關注網絡輿情的負面危機。這對于維護社會安全發(fā)展,穩(wěn)定民情民心有著重要的作用,對于促進國家的發(fā)展與進步更是有著重要的現實意義。
1.2輿情監(jiān)測與引導
從當前網絡輿情的傳播速度來看,爆炸性消息3小時之內就能夠迅速被各大論壇轉載,6小時內就有可能已經出現在各大新聞網站的網頁上,那么可想而知,24小時之后,關于新聞事件的追蹤和跟帖就會使其成為熱點事件,并且很有可能在網絡上掀起輿論討論的熱潮。所以對于有關部門來說,能夠在第一時間掌握哪些是熱點輿情,哪些有可能在短時間內發(fā)展成熱點輿論,哪些又會對社會安全造成影響是十分必要的。
輿情監(jiān)測與引導系統(tǒng)就是在這樣的背景下產生的,網絡輿情監(jiān)測與引導平臺是針對在一定的社會空間內,圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產生和持有的社會政治態(tài)度于網絡上表達出來意愿集合而進行的計算機監(jiān)測的系統(tǒng)統(tǒng)稱。通過這個系統(tǒng),能夠讓我們有效的對網絡輿情進行預警和應對。這個系統(tǒng)的產生在一定程度上解決了一些網絡輿情帶來的負面影響。
2數據挖掘
數據挖掘起源于從數據庫中發(fā)現知識,它首次出現在1989年8月在底特律舉行的第十一屆國際聯合人工智能學術會議上。在1996年出版的總結該領域進展的權威論文集《知識發(fā)現與數據進展》中,Fayyd,Piatetsky-Shapiro and Smyth給出了知識發(fā)現和數據挖掘的最新定義,將二者加以區(qū)分。
數據挖掘的定義為:數據挖掘是知識發(fā)現中通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。數據挖掘技術在技術上又有著這樣的定義:從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘技術從一開始就是面向應用的。目前,在很多重要的領域,數據挖掘都可以發(fā)揮積極促進的作用,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)應用領域。如果把我們所有需要的知識和想要得到的信息比作一個巨大的數據庫的話,數據挖掘技術就是能讓你在龐大的數據庫中輕而易舉的搜取自己需要的信息和知識的重要技術。對于如今數據庫龐大的互聯網來說產生的意義十分重大,對于廣大用戶來說更是必不可少的技術。對于現如今的網絡輿情監(jiān)測來說,數據挖掘技術更是作為基礎作為了重要的技術支持,它對于網絡監(jiān)測系統(tǒng)的研制也有著千絲萬縷的影響。
3網絡輿情監(jiān)測與引導平臺
網絡輿情監(jiān)測與引導平臺的設計可以分為五大功能模塊,具體指:網絡輿情采集模塊、網絡輿情存儲模塊、網絡輿情分析模塊、網絡輿情檢索模塊和網絡輿情發(fā)布模塊,共同組成了網絡輿情監(jiān)測與引導平臺。如圖1網絡輿情智能監(jiān)測與引導平臺設計框架所示。
輿情采集模塊是網絡輿情分析的重要基礎保障。它是指利用搜索引擎完成的在各大網頁網站中收集網頁信息并建立起原始網頁數據庫的過程,然后將收集的信息和數據等統(tǒng)一的存儲到網絡存儲系統(tǒng)。既而,網絡輿情分析系統(tǒng)便會對存儲的一些輿情進行分類、歸納、整理,這樣就能夠得出近一段時間內網絡輿情的變化走向,之后便把分析歸納好的信息進行存儲。最后,通過輿情分析系統(tǒng)分析以及檢索系統(tǒng)的一系列檢索,還有存儲系統(tǒng)里的信息及數據都可以通過輿情報告系統(tǒng)發(fā)送和展示給各用戶。這就是簡單的輿情監(jiān)測與引導平臺的整個工作流程。
3.1輿情采集模塊
互聯網的信息量是十分龐大的,隨著信息技術的不斷發(fā)展和進步,網頁的設計也開始越來越靈活,這就使得網頁結構十分的復雜化,而且網頁的更新速度使得內容更加動態(tài)化,以及一些網站對站內信息限制的技術手段造成網頁內容不完整性,使得傳統(tǒng)手工采集信息的方法非常低效率和高錯誤率。針對這一問題,輿情采集模塊主流技術是自動采集,較為流行的采集工具可以分為六大類:Wrapper的專用高級語言、以HTML為中間件的工具、基于NLP(Natural language processing)的工具、包裝器的歸納工具、基于模型的工具、基于本體的工具。這些工具首先需要專家參與,人工建立某領域的知識庫,然后工具基于知識庫去做抽取操作。
網絡輿情信息主要是從以下幾個方面來進行的挖掘:①新聞類信息中所包括的中央重大政策以及一系列改革措施的頒布、國內外重要新聞、與廣大人民群眾利益密切相關的政策等等由此所引發(fā)的輿情,要依靠一些主流媒體、新聞網站和權力部門的相應網站為主要挖掘渠道。②社會焦點事件以及突發(fā)情況,這些主要要以虛擬社區(qū)當中的熱門版塊和BBS跟帖為主要挖掘渠道。③對于一些小道消息、謠傳以及各種議論的集中集散地,蘊含著較強的傾向性、指向性的輿情信息,主要是以個人網頁或博客為主要挖掘渠道。
3.2輿情存儲模塊
提供對輿情數據的存儲功能。包括全文數據、統(tǒng)計數據、日志操作等。
3.3輿情分析模塊
網絡輿情分析模塊可以說是整個網絡輿情監(jiān)測與引導平臺最為核心的功能,并且具有以下的特點:關聯分析、熱點識別能力、聚類分析、傾向性分析與統(tǒng)計、信息自動摘要功能。這些功能對于輿情分析工作的完成有著重要意義。
熱點識別能力在當今互聯網信息變化速度突飛猛進的今天,熱點識別就已經成為了整個分析模塊的總的前提條件,他能給出在一段時間內以信息出處權威度、評論的數量以及和跟帖密集度等作為參數,然后統(tǒng)計出一定時間段來的熱點和重要輿情。
在數據挖掘技術中,關聯規(guī)則算法為一種較為成熟的技術。關聯規(guī)則算法的形式化描述如下所示:
設I={i1,i2,…,in}表示為全部項目的集合,也稱I為項目集,項目集的元素ip={p=1,…,n}表示為每一個單獨的項目,Tp={ t1,t2,…,tn }表示為全部事務的集合,即T表示成事務數據庫,事物數據庫的的事務表示成元素Tp={ p=1,…,n },一些項目的集合組成單個事務。
采用關聯規(guī)則實施數據挖掘的通常方法是:計算出支持度比提供的最小支持度閥值大的頻繁項集,然后根據計算出的頻繁項集,生成關聯規(guī)則。對網絡上繁雜的海量數據分析,需要找到相關輿情信息的內在關聯規(guī)則,這樣就能有效對輿情加以分析、檢索和存儲。
3.4輿情檢索模塊
檢索模塊可以將存儲模塊中的信息進行關于時間、地點、類型、網站等等有關信息進行檢索,繼而提供給用戶。在分析模塊中所提供的熱點分析一般只是對已經產生的熱點,或者是將要成為熱點的次熱點。而檢索模塊還可以讓用戶自定義關鍵詞對采集到的信息進行自定義監(jiān)控。
3.5輿情發(fā)布模塊
根據網絡輿情分析模塊處理后的結果或網絡輿情檢索模塊查詢的結果生成報告,系統(tǒng)可通過短信、電話、網頁瀏覽等各種手段及時告知,提供決策支持。整合以上所有系統(tǒng)的工作結果,將熱點度較高的輿情發(fā)布給廣大用戶和相關部門最終完成這一監(jiān)測系統(tǒng)的最終使命。
4結束語
通過以上分析加之現在的社會現狀,我們不難得出網絡輿情智能監(jiān)測與引導機制實施的緊迫性和必要性。智能監(jiān)測系統(tǒng)的出臺和應用不僅僅是改善了網絡輿情存在的環(huán)境,更重要的是,為更多社會組織、企業(yè)、政府提供了更多可以信賴的,真正反映民情的正確的網絡輿情。并且為更好的解決社會問題和社會矛盾提供了一系列的保障。為國家能夠有一個健康安全的輿論環(huán)境提供了重要的基礎,并且真正為民眾與政府和各大社會組織提供了一個健康的溝通渠道,為我們的社會進步也是有著重要的影響的。尤其是作為政府,作為公共管理的主要部門,必須要時刻關注網絡輿情,對于互聯網中的海量信息進行系統(tǒng)監(jiān)測,及時發(fā)現問題,解決問題,防微杜漸,積極處理,防止一些不必要的事情發(fā)生。
盡管,網絡輿情監(jiān)測系統(tǒng)出現時間還比較短,基于其的算法和方法還都很不完善,然而我們相信方便、快捷、智能、通用將是今后輿情監(jiān)測系統(tǒng)發(fā)展的方向,關于網絡輿情智能監(jiān)測與引導機制的研究也將會更上一層樓。
參考文獻:
[1]曹進松.政府網絡傳播[M].南京:江蘇人民出版社,2010.
[2]葉皓百.正確應對網絡事件[M].濟南:山東教育出版社,2009.
[3]郭建永.基于文本聚類技術的主題發(fā)現[J].計算機工程與設計,2008(6).
[4]中國互聯網信息中心.第25次中國互聯網絡發(fā)展狀況調查統(tǒng)計報告[R].中國互聯網信息中心,2010.
[5]許鑫,張嵐嵐.突發(fā)事件網絡輿情預警模式探索[J].圖書情報工作,2010(11).
[6]謝海光,陳中潤.互聯網內容及輿情深度分析模式[J].中國青年政治學院學報,2006(3).