柳源
摘要:隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的快速發(fā)展,人們的行為、交流方式發(fā)生了深刻的變化。社會(huì)上一些的熱點(diǎn)、焦點(diǎn)問(wèn)題通過(guò)互聯(lián)網(wǎng)傳播、碰撞和整合,形成網(wǎng)絡(luò)輿論,對(duì)社會(huì)經(jīng)濟(jì)的發(fā)展產(chǎn)生重大影響。數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)輿情信息獲取、內(nèi)容分析、研判與預(yù)警等多方面都有極其重要的指導(dǎo)意義。該文提出基于數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)網(wǎng)絡(luò)輿情分析系統(tǒng),引導(dǎo)輿論向著積極的方向發(fā)展,從而推進(jìn)社會(huì)的穩(wěn)定發(fā)展。
關(guān)鍵詞:數(shù)據(jù)挖掘;輿情分析;網(wǎng)絡(luò)爬蟲(chóng)
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)20-0009-02
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 概述
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為社會(huì)輿論傳播的主要載體之一。網(wǎng)絡(luò)與人們的工作和生活息息相關(guān),它在給人們帶來(lái)便利的同時(shí),也給社會(huì)管理工作帶來(lái)諸多挑戰(zhàn)。大量網(wǎng)民通過(guò)網(wǎng)絡(luò)社交平臺(tái)評(píng)論、轉(zhuǎn)發(fā)社會(huì)突發(fā)事件,這些事件在網(wǎng)絡(luò)傳播的過(guò)程中很容易偏離事件性質(zhì)本身,影響了事件的公正處理。網(wǎng)絡(luò)輿論對(duì)社會(huì)經(jīng)濟(jì)的發(fā)展和個(gè)體聲譽(yù)都將會(huì)產(chǎn)生一定的影響,如果不加以適當(dāng)干預(yù),對(duì)輿論的方向起誤導(dǎo)作用。網(wǎng)絡(luò)傳播媒介多元化的今天,使得輿論的信息源呈現(xiàn)出多樣性,同樣實(shí)時(shí)有效地對(duì)網(wǎng)絡(luò)輿論進(jìn)行監(jiān)測(cè)分析也變得越發(fā)困難。因此,本文將設(shè)計(jì)一個(gè)基于數(shù)據(jù)挖掘的輿情分析系統(tǒng),采用分布式并行方法收集、處理數(shù)據(jù),它能有效地對(duì)網(wǎng)絡(luò)輿論進(jìn)行預(yù)警和響應(yīng),在一定程度上減輕網(wǎng)絡(luò)輿論的負(fù)面影響,盡量把輿論維持在一個(gè)可控的范圍內(nèi),提高政府的公信力。
2 相關(guān)理論
2.1 網(wǎng)絡(luò)輿情
網(wǎng)絡(luò)輿情信息,是指人們借助互聯(lián)網(wǎng),對(duì)社會(huì)公共事務(wù),特別是社會(huì)熱點(diǎn)和熱點(diǎn)問(wèn)題,發(fā)表有影響力、有偏見(jiàn)的意見(jiàn)和言論。是人們社會(huì)中各種現(xiàn)象、問(wèn)題所表達(dá)認(rèn)知、態(tài)度、情感和行為傾向的集合。
網(wǎng)絡(luò)輿情是社會(huì)輿情在互聯(lián)網(wǎng)空間上的一種映射,是社會(huì)輿情的直接反映。2019年2月28日,中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)在北京發(fā)布了第43期中國(guó)互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告。截至2018年12月,全國(guó)互聯(lián)網(wǎng)用戶數(shù)為8.29億,全年新增網(wǎng)民5653萬(wàn)人,互聯(lián)網(wǎng)普及率達(dá)59.6%,較2017年底提升3.8%。由于網(wǎng)絡(luò)是一個(gè)開(kāi)放的環(huán)境,因此它是匿名的,分散的,難以控制的。網(wǎng)絡(luò)輿論表達(dá)迅速、信息多元化、互動(dòng)性強(qiáng),傳播范圍更加廣泛,有著巨大的社會(huì)影響力。
2.2 數(shù)據(jù)挖掘
所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。
3 輿情分析系統(tǒng)的設(shè)計(jì)
為了及時(shí)、準(zhǔn)確地掌握網(wǎng)絡(luò)輿論的導(dǎo)向,發(fā)揮政府的輿論監(jiān)督作用,利用數(shù)據(jù)挖掘技術(shù)建立輿情分析系統(tǒng)勢(shì)在必行。一個(gè)完整的輿論分析系統(tǒng)由數(shù)據(jù)模塊、分析模塊和評(píng)價(jià)模塊組成,主要包括以下四個(gè)功能組件:數(shù)據(jù)收據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、預(yù)測(cè)評(píng)價(jià)。
1)數(shù)據(jù)收集。數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析內(nèi)容,收集相關(guān)數(shù)據(jù)的過(guò)程,它為數(shù)據(jù)分析提供了素材和依據(jù)。根據(jù)所得的數(shù)據(jù),抽象出數(shù)據(jù)的特征信息,將收集到的信息存入數(shù)據(jù)庫(kù)。選擇一種合適的數(shù)據(jù)存儲(chǔ)和管理的數(shù)據(jù)倉(cāng)庫(kù)類型數(shù)據(jù)集的選取對(duì)數(shù)據(jù)挖掘模式是否有趣起決定作用。網(wǎng)絡(luò)輿情信息搜集可以從一個(gè)URL集合開(kāi)始,通過(guò)與敏感關(guān)鍵字集合進(jìn)行比對(duì),過(guò)濾無(wú)關(guān)選項(xiàng),把有用的信息加入數(shù)據(jù)隊(duì)列。
2)數(shù)據(jù)預(yù)處理。從對(duì)不同的源數(shù)據(jù)進(jìn)行預(yù)處理的功能來(lái)分,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)規(guī)約等四個(gè)基本的功能。在數(shù)據(jù)挖掘整體過(guò)程中,海量的原始數(shù)據(jù)中存在這大量復(fù)雜的,重復(fù)的,不完整的數(shù)據(jù),嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差,為此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對(duì)收集到的原始數(shù)據(jù)進(jìn)行預(yù)處理,以改進(jìn)數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘過(guò)程的效率,精度,性能。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換與數(shù)據(jù)規(guī)約等技術(shù)。數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過(guò)程的準(zhǔn)確率和效率。
3)數(shù)據(jù)分析。網(wǎng)絡(luò)輿情分析系統(tǒng)充分利用數(shù)據(jù)挖掘分析工具,從海量的、不完整的、復(fù)雜多變的網(wǎng)絡(luò)輿論信息中,我們可以找到輿論演變的內(nèi)在原因和規(guī)律,并分析其內(nèi)在因素之間的關(guān)系,準(zhǔn)確地把握可以預(yù)見(jiàn)的輿情發(fā)展方向。數(shù)據(jù)分析是一個(gè)十分復(fù)雜的過(guò)程,首先需要對(duì)收集的數(shù)據(jù)做清洗工作,排除異常值、空白值、無(wú)效值、重復(fù)值等,然后進(jìn)行加工、分析和轉(zhuǎn)化,從中獲得有效的數(shù)據(jù)內(nèi)容。
4)預(yù)測(cè)評(píng)價(jià)。評(píng)估和分析是指根據(jù)可用信息,按照特定方法和法律衡量未來(lái)趨勢(shì)或事物的可能結(jié)果,以便事先了解事物發(fā)展的過(guò)程和結(jié)果。網(wǎng)絡(luò)輿情分析系統(tǒng)充分應(yīng)用現(xiàn)有的關(guān)鍵字詞云技術(shù),對(duì)分析的結(jié)果可視化地表示,向管理者提供有針對(duì)性、可行性的評(píng)估報(bào)告。
4 總結(jié)
社會(huì)在發(fā)展,時(shí)代在進(jìn)步,輿論網(wǎng)絡(luò)也變得錯(cuò)綜復(fù)雜,很多原有的數(shù)據(jù)挖掘技術(shù)難以達(dá)到預(yù)期的效果。本文結(jié)合數(shù)據(jù)挖掘最新技術(shù)和熱門事件評(píng)價(jià)模型,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)原理實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化采集工作,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿論的精準(zhǔn)分析、研判和引導(dǎo),讓社會(huì)管理部門能夠及時(shí)、高效地處理突發(fā)輿情,為維護(hù)社會(huì)秩序的穩(wěn)定奠定堅(jiān)實(shí)的基礎(chǔ)。
參考文獻(xiàn):
[1] 段淑敏. 網(wǎng)絡(luò)輿情監(jiān)測(cè)引導(dǎo)系統(tǒng)研究[J]. 經(jīng)濟(jì)研究導(dǎo)刊, 2012(28): 227.
[2] 余宏, 洪如霞, 史文津. 基于大數(shù)據(jù)的企業(yè)主題網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 現(xiàn)代計(jì)算機(jī): 專業(yè)版, 2018(13): 17.
[3] 高濤濤, 匡芳君. 基于大數(shù)據(jù)的高校網(wǎng)絡(luò)輿情分析研究[J]. 電腦與電信, 2017(10): 16.
[4] 段淑敏. 基于WUM的Web輿情監(jiān)測(cè)引導(dǎo)系統(tǒng)研究[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用, 2012(14): 45-46.
[5] 潘大慶. 基于數(shù)據(jù)挖掘的輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)[J]. 大眾科技, 2014(11): 1.
[6] 張治斌, 劉威. 淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J]. 數(shù)字技術(shù)與應(yīng)用, 2017(10): 115.
【通聯(lián)編輯:謝媛媛】