趙立芳
摘 要 文章主要從大數(shù)據(jù)時(shí)代,如何對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析并建立輿情監(jiān)控和引導(dǎo)機(jī)制,找出了集中分析處理方法,并預(yù)測了未來大數(shù)據(jù)輿情研究方向及存在的問題。
關(guān)鍵詞 大數(shù)據(jù);網(wǎng)絡(luò)輿情;發(fā)展;分析;機(jī)制
中圖分類號 G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號 2096-0360(2016)08-0035-02
隨著數(shù)據(jù)統(tǒng)計(jì)和采集的發(fā)展以及網(wǎng)絡(luò)背景下結(jié)構(gòu)化數(shù)據(jù)的普及,“大數(shù)據(jù)”作為這一背景下新生的要素,給社會(huì)的各方面帶來了深遠(yuǎn)的影響。輿情分析,是社會(huì)科學(xué)中一項(xiàng)較為經(jīng)典的研究領(lǐng)域,對輿情分析的概念的劃分可以分為傳統(tǒng)輿情分析與網(wǎng)絡(luò)輿情分析兩個(gè)方面。傳統(tǒng)社會(huì)輿情分析立足于經(jīng)典的方式方法與傳統(tǒng)信息傳播媒介,致力于研究社會(huì)熱點(diǎn)事件、新頒布的政策及法律條文對于社會(huì)輿論的影響,并試圖探索社會(huì)輿論與這些“關(guān)鍵事件”之間的關(guān)系;網(wǎng)絡(luò)輿情的研究則立足于計(jì)算機(jī)網(wǎng)絡(luò)這一個(gè)新生的信息傳播媒介下展開,其早期因?yàn)榫W(wǎng)絡(luò)普及度相對較低等原因,在研究中相對簡單粗放,而隨著網(wǎng)絡(luò)普及程度的提高,尤其是在類似于推特(Twitter)、飯否、Facebook、新浪微博、人人網(wǎng)等具有方便于海量個(gè)人用戶快速發(fā)布信息的功能的“自媒體(owned media)”平臺(tái)的建立與推廣,當(dāng)前的研究轉(zhuǎn)向應(yīng)對海量網(wǎng)絡(luò)數(shù)據(jù)下的輿情研究。
1 自媒體與社科研究
自媒體的普及與運(yùn)用改變了人們的信息處理行為,將個(gè)體塑造成為傳播的核心。在這種根本性的轉(zhuǎn)變中,自媒體成為大數(shù)據(jù)時(shí)代自主生成優(yōu)質(zhì)數(shù)據(jù)的重要平臺(tái),同時(shí)成為大數(shù)據(jù)運(yùn)用的關(guān)鍵陣地,它具有以下2個(gè)較為突出的特點(diǎn)。
1)數(shù)據(jù)數(shù)量大,來源廣泛。大數(shù)據(jù)之所以被稱之為“大”,源于他的數(shù)量相對以前的研究數(shù)據(jù)來說較大,數(shù)據(jù)量大的結(jié)果便是數(shù)據(jù)加工與分析的難度遠(yuǎn)遠(yuǎn)大于以前的有限數(shù)量下的數(shù)據(jù)研究工作;而來源廣泛則是指的用來調(diào)查的數(shù)據(jù)不是從單一的某一個(gè)點(diǎn)進(jìn)行獲取,而且擴(kuò)大到面。
2)數(shù)據(jù)整體價(jià)值高,但單個(gè)數(shù)據(jù)有待進(jìn)一步規(guī)范。在大數(shù)據(jù)時(shí)代,以微博、微信等為代表的“自媒體”中蘊(yùn)含了大量的、具有不同的知識(shí)背景獨(dú)立個(gè)體,而相對“匿名”和不限定格式的表達(dá)方式,使得用戶得以很方便的表達(dá)出自己內(nèi)心的實(shí)際
觀點(diǎn)。
2 基于自媒體的網(wǎng)絡(luò)輿情分析關(guān)鍵技術(shù)
如前所述,當(dāng)前在社會(huì)科學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)的應(yīng)用最為成功的即為網(wǎng)絡(luò)輿情分析研究。與傳統(tǒng)的基于調(diào)查等手段的社會(huì)輿情分析不同,大數(shù)據(jù)背景下所進(jìn)行的網(wǎng)絡(luò)輿情調(diào)查因?yàn)榫W(wǎng)絡(luò)的普及等原因,所獲取的范圍更加廣闊,從而大大降低了傳統(tǒng)的基于調(diào)查的社會(huì)輿情分析中因?yàn)檎{(diào)查不全而造成的結(jié)論不準(zhǔn)的情況,使研究成果更能反映真實(shí)的社會(huì)輿論情況。
當(dāng)前基于自媒體網(wǎng)絡(luò)輿情分析的關(guān)鍵技術(shù)主要有以下幾種。
2.1 信息采集技術(shù)
進(jìn)行網(wǎng)絡(luò)輿情分析,首要的工作就是進(jìn)行信息采集。常見的信息采集流程包含數(shù)據(jù)的爬取、清洗與存儲(chǔ)等步驟。
所謂數(shù)據(jù)爬取,即通過網(wǎng)絡(luò)爬蟲(如比較著名的火車頭采集器)或是通過網(wǎng)站API接口獲取研究數(shù)據(jù),當(dāng)然如果數(shù)據(jù)相對較小且人員充足的話,也可以利用人工手動(dòng)采集的原始方法。但是相比之下機(jī)器爬取的準(zhǔn)確率和效率較高,可以有效縮短研究的時(shí)間,而且現(xiàn)在有足夠的開源爬蟲軟件可以輔助相關(guān)的數(shù)據(jù)抓取工作,因此在現(xiàn)有的研究中提倡使用程序自動(dòng)爬取。
所謂數(shù)據(jù)清洗,即對所采集數(shù)據(jù)進(jìn)行精簡處理,去除與研究無關(guān)或重復(fù)的數(shù)據(jù)。對于數(shù)據(jù)清洗,大致可以分為以下2個(gè)階段。
1)數(shù)據(jù)采集時(shí)期的一次清洗。主要的清除對象是無效鏈接、重復(fù)和無關(guān)數(shù)據(jù)。
2)數(shù)據(jù)分析時(shí)期的二次清洗。主要的清除對象是停用詞。
通過爬取所獲得的數(shù)據(jù)中含有大量的諸如HTML語言字段等對于研究來說是無效的數(shù)據(jù),如不將其過濾將會(huì)因?yàn)槠漭^高的重復(fù)率影響最終的分析結(jié)果。因此需要進(jìn)行數(shù)據(jù)清洗工作來去除這些無效
數(shù)據(jù)。
2.2 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)
所謂網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn),即通過對新聞與目標(biāo)話題的識(shí)別與跟蹤,分析并繪制其發(fā)展軌跡,最終利用聚類的方式將結(jié)果推送給用戶。
該技術(shù)的技術(shù)依據(jù)為對關(guān)鍵詞或話題(標(biāo)識(shí)標(biāo)注為“#”號,英文稱為hash tag)的統(tǒng)計(jì)數(shù)量隨時(shí)間的變動(dòng)情況,需要大量的數(shù)據(jù)進(jìn)行支撐。
2.3 熱點(diǎn)評估與跟蹤技術(shù)
所謂“熱點(diǎn)評估與跟蹤”,即根據(jù)某一特定熱點(diǎn)事件中公眾的情感和行為反應(yīng),分析其對公眾輿論的影響,建立一套針對輿情變化的評分方案,并設(shè)定其中的各狀態(tài)極值。在這種研究中,常用的研究手段有詞頻統(tǒng)計(jì)與情感分類。詞頻統(tǒng)計(jì),即對所采集并清洗后信息進(jìn)行統(tǒng)計(jì),然后對統(tǒng)計(jì)結(jié)果進(jìn)行分析,從而得出結(jié)論的方法。情感分類,與前述的“數(shù)據(jù)清洗”方法類似,將數(shù)據(jù)與人工編輯成的情感詞詞典進(jìn)行相似性比對,然后進(jìn)行分類統(tǒng)計(jì)。
2.4 網(wǎng)絡(luò)輿情的分析處理技術(shù)
網(wǎng)絡(luò)輿情的分析處理技術(shù),是大數(shù)據(jù)背景下社會(huì)科學(xué)領(lǐng)域的服務(wù)于決策管理層的技術(shù)。該技術(shù)包含針對網(wǎng)絡(luò)輿情事件的早期預(yù)警、現(xiàn)場引導(dǎo)、實(shí)際反饋以及評估與自我完善機(jī)制等諸多方面。
3 結(jié)束語
目前,大數(shù)據(jù)時(shí)代社會(huì)輿情的研究還處于探索中。在處理技術(shù)、分析構(gòu)架等領(lǐng)域上還存在著很多的問題,具體體現(xiàn)在以下幾個(gè)方面。
1)針對海量非結(jié)構(gòu)數(shù)據(jù)處理技術(shù)尚不夠成熟。
2)研究方向相對分散,缺乏協(xié)作。
3)輿情監(jiān)控對決策支持相對簡單,時(shí)效性
不高。
結(jié)合當(dāng)前研究,大數(shù)據(jù)背景下的公眾輿情研究將會(huì)有如下的發(fā)展。
1)行為分析與數(shù)據(jù)分析交叉驗(yàn)證。
2)人工智能(AI)與心智模型相結(jié)合。
3)基于已有的研究成果構(gòu)建具有學(xué)習(xí)功能的決策支持平臺(tái)。
參考文獻(xiàn)
[1]楊海龍.論大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情監(jiān)測[J].情報(bào)探索,2015(10):132-135.
[2]張寧熙.大數(shù)據(jù)在突發(fā)公共事件網(wǎng)絡(luò)輿情信息工作中的應(yīng)用[J].現(xiàn)代情報(bào),2015,35(6):38-42.
[3]郭躍軍.論大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)管機(jī)制的構(gòu)建[J].山西農(nóng)業(yè)大學(xué)學(xué)報(bào),2015,14(6):640-644.