摘 要: 大數(shù)據(jù)背景下,傳統(tǒng)網(wǎng)絡(luò)輿情預(yù)警技術(shù)已經(jīng)表現(xiàn)出不能適應(yīng)大數(shù)據(jù)4V特性的局限性,基于Web挖掘的網(wǎng)絡(luò)輿情分析和預(yù)警技術(shù)可以有效的解決這一問題,Web挖掘憑借在內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用挖掘的信息分析優(yōu)勢,是構(gòu)建及時、高效、全面和動態(tài)的網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)的路徑選擇。
關(guān)鍵詞:大數(shù)據(jù) 網(wǎng)絡(luò)輿情 信息分析
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082(2016)08-0013-02
一、大數(shù)據(jù)及網(wǎng)絡(luò)輿情概述
所謂大數(shù)據(jù)(Big date),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)堪稱是一座有待挖掘的數(shù)字金山,因為根據(jù)研究機(jī)構(gòu)Gaetner的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的技術(shù)的戰(zhàn)略意義不僅在于對龐大信息量的掌握,而且在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)、有效的處理。換句話說,如果把大數(shù)據(jù)比毛胚,經(jīng)過專業(yè)加工后的大數(shù)據(jù)成品,其市場價值和應(yīng)用價值獲得了增值,而且這種增值的市場前景是不可限量的。
網(wǎng)絡(luò)輿情就是人類在互聯(lián)網(wǎng)上所產(chǎn)生的原創(chuàng)數(shù)據(jù),對網(wǎng)絡(luò)輿情的有效治理離不開對大數(shù)據(jù)的挖掘和應(yīng)用。當(dāng)前我國網(wǎng)絡(luò)輿情數(shù)據(jù)愈來愈呈現(xiàn)出大數(shù)據(jù)的特征,形成了體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)、處理快速(Velocity)的4V特點。[1]
如果說以往是抽樣數(shù)據(jù)分析計算的話,那么大數(shù)據(jù)為人們帶來的是信息全覆蓋的相對全體數(shù)據(jù)的計算。社會信息化的這種發(fā)展將給人類社會帶來諸多的變化。在小數(shù)據(jù)時代,相關(guān)關(guān)系也是有用的,但在大數(shù)據(jù)的背景下,相關(guān)關(guān)系大放異彩。通過相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物,而且不易受偏見的影響。[2]“大數(shù)據(jù)時代將推動我們從根本上改變企業(yè)的運作方式,以及我們宰社會中的生活方式?!盵3]大數(shù)據(jù)不僅對互聯(lián)網(wǎng)的規(guī)模、性能、能耗和安全等有著巨大影響,同時也對人類的思維方式具有顛覆性作用,尤其對政府的信息公開和決策構(gòu)成了新的挑戰(zhàn)。
傳統(tǒng)的政府信息采集、分析、公開和決策是建立在有限、少量、二維、靜態(tài)的數(shù)據(jù)基礎(chǔ)上,依賴采樣和精確的方式獲得數(shù)據(jù)。而大數(shù)據(jù)時代的到來,將改變政府的這一數(shù)據(jù)獲取方式,代之以在宏觀、碎片化、模糊、多維的數(shù)據(jù)上,通過微觀洞察、定量分析、挖掘有效數(shù)據(jù)和尋找“相關(guān)性”,從而作出高效率和高質(zhì)量的決策。
在信息時代,如何在海量、雜亂以基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)媒體數(shù)據(jù)中進(jìn)行科學(xué)、有效的信息分析,為政府決策提供智力支持和權(quán)威數(shù)據(jù),有賴于在大數(shù)據(jù)背景下建立和完善網(wǎng)絡(luò)輿情預(yù)警機(jī)制。美國學(xué)者馬丁——哈利森分析了在社交情報的大數(shù)據(jù)中如何進(jìn)行引導(dǎo)決策的信息分析,他認(rèn)為可以從識別數(shù)據(jù)到劃分組群和交談信息、從數(shù)據(jù)收集到預(yù)設(shè)和跟蹤、從分析和整合到建構(gòu)和挖掘、從報道到管理和嵌入等方法和路徑入手。[4]本文就是從馬丁——哈利森的社交情報信息分析方法和路徑入手探討在數(shù)據(jù)背景下網(wǎng)絡(luò)輿情預(yù)警機(jī)制的建立。
二、大數(shù)據(jù)背景下傳統(tǒng)網(wǎng)絡(luò)輿情分析和預(yù)警機(jī)制存在的問題
在大數(shù)據(jù)背景下,傳統(tǒng)的基于小樣本和定性分析的輿情分析技術(shù)在海量的數(shù)據(jù)面前愈發(fā)體現(xiàn)出局限性,其存在的問題主要體現(xiàn)在以下三點:
1.數(shù)字信息的海量和高分散度增大了網(wǎng)絡(luò)輿情分析和預(yù)警的困難
據(jù)CNNIC《第32次互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》統(tǒng)計,我國網(wǎng)民規(guī)模達(dá)5.91億,網(wǎng)站和網(wǎng)絡(luò)論壇達(dá)294萬個,手機(jī)上網(wǎng)用戶4.64億,全民網(wǎng)絡(luò)普及率達(dá)44.1%,其中博客、論壇和微博使用人數(shù)分別為4.01億、1.41億和3.31億。如此數(shù)量巨大的網(wǎng)民和網(wǎng)絡(luò)媒體勢必會產(chǎn)生海量的數(shù)字信息,而且這些數(shù)字信息呈現(xiàn)高分散度,固定互聯(lián)網(wǎng)(以電腦為載體的互聯(lián)網(wǎng))和移動互聯(lián)網(wǎng)(以智能手機(jī)為載體的互聯(lián)網(wǎng))使得數(shù)字信息的產(chǎn)生源呈現(xiàn)高度分散分布的特征。這些大大增加了研究者收集和采集信息的難度。結(jié)果就囿于信息數(shù)量以及信息搜集難度的極度擴(kuò)張和研究手段的相對萎縮,使得研究者得出結(jié)論愈發(fā)帶有主觀性、片面性、臨時性、階段性、閃爍性,從而使得輿情分析的質(zhì)量呈現(xiàn)相對下降的趨勢,借助這樣的輿情分析帶來形勢誤判的風(fēng)險呈現(xiàn)不斷加大的趨勢,從而也就增大了網(wǎng)絡(luò)輿情分析和預(yù)警的困難。[5]
2.傳統(tǒng)網(wǎng)絡(luò)輿情分析方法的局限性
傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法主要有網(wǎng)絡(luò)調(diào)查方法、基于統(tǒng)計規(guī)則的模式識別方法、基于內(nèi)容挖掘的主題監(jiān)測方法。這些傳統(tǒng)網(wǎng)絡(luò)輿情分析方法在大數(shù)據(jù)背景下存在著不足和問題。
2.1網(wǎng)絡(luò)調(diào)查方法是基于采樣分析的調(diào)查方法,其有效性主要與樣本的隨機(jī)性和樣本數(shù)量有關(guān),而受制于大數(shù)據(jù)背景下的海量和復(fù)雜,基于小樣本和“最優(yōu)抽樣”的網(wǎng)絡(luò)調(diào)查方法其信度和效度都值得商榷。
2.2基于統(tǒng)計規(guī)則的模式識別方法其有效性囿于特定對象,而大數(shù)據(jù)的信息源廣泛、多元、分散和復(fù)雜,基于統(tǒng)計規(guī)則的模式識別方法表現(xiàn)出很大的局限性。
2.3基于內(nèi)容挖掘的主題監(jiān)測方法雖然能突破傳統(tǒng)網(wǎng)絡(luò)輿情分析的技術(shù)窠臼,主要體現(xiàn)在當(dāng)前語義分析技術(shù)的準(zhǔn)確度和效率在面對復(fù)雜的人類語言和快速發(fā)展的網(wǎng)絡(luò)語言時,顯得滯后和不足,主要體現(xiàn)為精確度不高以及大量的人工分析所帶來的主觀誤差問題,因此這一方法在大數(shù)據(jù)背景下也顯得差強(qiáng)人意。
3.傳統(tǒng)網(wǎng)絡(luò)輿情信息分析研判和預(yù)警能力不足
傳統(tǒng)網(wǎng)絡(luò)輿情信息分析研判能力不足主要體現(xiàn)在以下幾點:一是信息來源較為單一,整合力度不夠。目前網(wǎng)絡(luò)輿情分析的信息源主要來源于搜索數(shù)據(jù)、點擊數(shù)據(jù)、關(guān)鍵詞頻率、網(wǎng)民個人身份數(shù)據(jù)等,但是信息源一般是來源其中的一部分或幾部分,囿于技術(shù)、成本限制,很少有全網(wǎng)采集數(shù)據(jù)并進(jìn)行整體關(guān)聯(lián)性分析,也就難以深度挖掘有價值的信息,從而制約了網(wǎng)絡(luò)輿情分析的研判能力。二是現(xiàn)有網(wǎng)落輿情信息分析人工智能程度不高,主要還是依靠人工和統(tǒng)計學(xué)的手段進(jìn)行信息分析,未能深入挖掘信息“隱性”的深層含義。三是預(yù)警判斷能力弱,現(xiàn)有的網(wǎng)絡(luò)輿情體系缺乏科學(xué)的預(yù)警指標(biāo)體系,主要依靠人工智能與人工相結(jié)合的方式,一定程度上導(dǎo)致預(yù)警缺乏客觀性、科學(xué)性,不能及時滿足決策需要。
鑒于在大數(shù)據(jù)背景下現(xiàn)有網(wǎng)絡(luò)輿情分析和預(yù)警系統(tǒng)已不能滿足網(wǎng)絡(luò)輿情預(yù)警的現(xiàn)實需要,本文提出以基于Web挖掘的網(wǎng)絡(luò)輿情信息分析和預(yù)警技術(shù)。
三、大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情預(yù)警機(jī)制的建立——基于Web挖掘的網(wǎng)絡(luò)輿情信息分析和預(yù)警
1.Web挖掘簡介
Web挖掘是數(shù)字挖掘在Web?的應(yīng)用,它綜合使用數(shù)字挖掘、機(jī)器學(xué)習(xí)、自然語言處理和人工智能等智能信息處理技術(shù)從WWW的資源、Web 文檔和行為、Web 服務(wù)中自動發(fā)現(xiàn)并提取人們感興趣的、有用的模式和隱含的信息。根據(jù)挖掘?qū)ο蟮牟煌?,Web?挖掘可以分為Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web使用挖掘。與傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法(抽象分析、比較分析、相關(guān)分析和內(nèi)容分析法)相比,Web挖掘可以得到指定時間段內(nèi)網(wǎng)絡(luò)輿情的狀況和走向以及與之關(guān)聯(lián)的熱點,為網(wǎng)絡(luò)輿情的狀況和走向以及與之相關(guān)聯(lián)的熱點問題,為網(wǎng)絡(luò)輿情的深層次分析和智能化預(yù)警提供了技術(shù)支持和解決方案。[6]
2.大數(shù)據(jù)背景下Web挖掘的優(yōu)勢
大數(shù)據(jù)背景下,基于Web挖掘的網(wǎng)絡(luò)輿情分析可以突破傳統(tǒng)網(wǎng)絡(luò)輿情分析技術(shù)小樣本、精確性低、維度單一、偏重靜態(tài)分析等局限性,發(fā)揮其從內(nèi)容挖掘、結(jié)構(gòu)挖掘到使用挖掘全方位、多維度、全時性和動態(tài)追蹤的優(yōu)勢,能完全適應(yīng)大數(shù)據(jù)背景下信息體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)、處理快速(Velocity)的4V特點,能有效地解決傳統(tǒng)網(wǎng)絡(luò)輿情分析技術(shù)滯后和落后的問題,能充分滿足大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情預(yù)警及時、高效、全面和動態(tài)的要求。
3.Web挖掘內(nèi)容簡介
依據(jù)在挖掘過程中使用的數(shù)據(jù)類別,Web挖掘任務(wù)可以被劃分為三種主要類型:Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘:
3.1Web內(nèi)容挖掘:Web內(nèi)容挖掘是指對Web頁面內(nèi)容及后臺交易數(shù)據(jù)庫進(jìn)行挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有用知識的過程。同時還可以對Web的組織結(jié)構(gòu)和鏈接關(guān)系進(jìn)行挖掘,從人為的鏈接結(jié)構(gòu)中獲取有用的知識。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。
3.2Web內(nèi)容挖掘:Web內(nèi)容挖掘從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。例如:根據(jù)網(wǎng)頁的主題,可以進(jìn)行自動的聚類和分類。雖然這些任務(wù)與傳統(tǒng)數(shù)據(jù)挖掘的任務(wù)相似,但是依然可以為了各種不同的目的從網(wǎng)頁中根據(jù)模式抽取有用的信息,例如商品描述、論壇回帖等。而這些信息可以被用作進(jìn)一步分析來挖掘用戶態(tài)度。這些任務(wù)也不是傳統(tǒng)的數(shù)據(jù)挖掘任務(wù)。
3.3Web使用挖掘:Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。這項任務(wù)也使用了許多數(shù)據(jù)挖掘的算法。其中一項重要的議題是點擊流數(shù)據(jù)的預(yù)處理,以便生成可以用來挖掘的合適數(shù)據(jù)。
Web挖掘的目標(biāo)是從Web的超鏈接結(jié)構(gòu)、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數(shù)據(jù)挖掘技術(shù),但它并不僅僅是傳統(tǒng)數(shù)據(jù)挖掘的一個簡單應(yīng)用。[7]
3.4Web挖掘預(yù)警的流程
Web挖掘預(yù)警流程是對以上Web挖掘技術(shù)的綜合使用,Web挖掘預(yù)警的流程一般包含以下五個步驟:
①設(shè)定輿情預(yù)警主題: 根據(jù)網(wǎng)絡(luò)輿情預(yù)警需求設(shè)定主題目標(biāo),并根據(jù)主題目標(biāo)設(shè)定所要采集的信息源和主題。
②輿情信息采集:根據(jù)主題從目標(biāo)Web文檔中獲得要采集的輿情數(shù)據(jù),對Web上的數(shù)據(jù)進(jìn)行信息檢索和信息抽取。挖掘Web上的超鏈接結(jié)構(gòu),挖掘超文本結(jié)構(gòu)中的信息。通過Web使用挖掘獲取一切用戶與站點之間可能的交互記錄。
③輿情信息預(yù)處理:利用基于Robot的檢索模型,掃描Web上的所有文檔,并建立索引,從檢索后的Web文檔中剔除無用和不相關(guān)的輿情信息和將信息進(jìn)行必要的整理。
④輿情信息分析:用Web挖掘算法對預(yù)處理后的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行分析,挖掘有價值的信息。
⑤輿情信息預(yù)警:對挖掘出的輿情信息進(jìn)行最終處理,并參照網(wǎng)絡(luò)輿情預(yù)警等級分類指標(biāo),生成網(wǎng)絡(luò)輿情預(yù)警報告。
3.5 Web挖掘網(wǎng)絡(luò)輿情預(yù)警模型策略簡介
Web挖掘網(wǎng)絡(luò)輿情預(yù)警模型主要包括輿情采集層、輿情挖掘?qū)印⑤浨榉治鰧雍洼浨檠信袑?。限于篇幅本文僅Web挖掘網(wǎng)絡(luò)輿情預(yù)警模型的策略進(jìn)行簡介。
①輿情采集層
輿情采集層是網(wǎng)絡(luò)輿情預(yù)警的模型的最底層,主要任務(wù)是負(fù)責(zé)網(wǎng)絡(luò)輿情信息的采集和預(yù)處理。Web挖掘可以使輿情信息源突破Web文本的局限,深入到Web網(wǎng)絡(luò)結(jié)構(gòu)和Web用戶偏好中,并在整合的基礎(chǔ)尋找其中隱藏的關(guān)聯(lián),從而能挖掘出深度和有價值的信息。
②輿情挖掘?qū)?/p>
輿情挖掘?qū)邮抢肳eb內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘?qū)σ呀?gòu)的輿情信息庫進(jìn)行多維挖掘和處理。綜合使用Web文本挖掘、Web多媒體挖掘、PAGERANK、ClEVER、挖掘算法等技術(shù)對信息庫進(jìn)行深度挖掘,以更好對網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控和預(yù)警。
③輿情分析層
輿情分析層是網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)中的關(guān)鍵層。網(wǎng)絡(luò)輿情分析層包含著靜態(tài)分析和動態(tài)分析兩個方面。輿情靜態(tài)分析包含對網(wǎng)絡(luò)輿情高頻詞匯聚類、輿情情感傾向、敏感信息關(guān)聯(lián)等分析。網(wǎng)絡(luò)輿情動態(tài)分析包含著實體數(shù)據(jù)態(tài)勢、引用關(guān)系變化、用戶聚類模式等動態(tài)數(shù)據(jù)。靜態(tài)分析與動態(tài)分析相結(jié)合從而預(yù)測網(wǎng)絡(luò)輿情現(xiàn)狀發(fā)展和趨勢進(jìn)行分析和預(yù)測。
④輿情研判層
輿情研判層主要是根據(jù)輿情分析層所生成的輿情分析報告進(jìn)行綜合輿情研判和預(yù)警。主要是根據(jù)網(wǎng)絡(luò)輿情的熱度、特性、敏感性、危險性,并參照網(wǎng)絡(luò)輿情預(yù)警級別分類指標(biāo)決定是否發(fā)布網(wǎng)絡(luò)輿情預(yù)警以及所發(fā)布的網(wǎng)絡(luò)輿情預(yù)警的層級。
參考文獻(xiàn)
[1]朱曉明.“大、云、平、移”助力上海創(chuàng)新[N].解放日報,2013-3-10(9)
[2]盛楊,周濤,譯.維克多-邁爾-舍恩伯格,肯尼斯-庫克耶著.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:71,75
[3]維克多-邁爾-舍恩伯格.大數(shù)據(jù)時代停業(yè)帶來更理性、更可靠的決策[N].文匯報,20213-3-11
[4]唐濤:網(wǎng)絡(luò)輿情治理研究[M]上海:上海社會科學(xué)出版社,2014.9:10
[5]唐濤:網(wǎng)絡(luò)輿情治理研究[M]上海:上海社會科學(xué)出版社,2014.9:184.
[6]張玉峰、何超:基于Web挖掘的網(wǎng)絡(luò)輿情智能分析研究[J]情報科學(xué),2011.4:64-68.
[7]什么是Web挖掘?[EB/OL]http://server.zzidc.com/fwqcjwt/web/633.html
作者簡介:1季英偉:(1980-)吉林大學(xué)行政管理博士,廣東海洋大學(xué)政治與行政學(xué)院講師。
2援引維基百科對“大數(shù)據(jù)”的定義