劉曉輝,邵開(kāi)麗,周凱祥
(黃河科技學(xué)院,河南 鄭州 450009)
互聯(lián)網(wǎng)時(shí)代,每個(gè)人都擁有使用網(wǎng)絡(luò)發(fā)表自己意見(jiàn)的權(quán)力。人們?cè)诰W(wǎng)絡(luò)中表達(dá)自己情緒和發(fā)表評(píng)論的渠道越來(lái)越多,也越來(lái)越復(fù)雜。而大多數(shù)人正是通過(guò)這些渠道來(lái)了解災(zāi)情信息。在復(fù)雜的環(huán)境下,如果一旦有人發(fā)表了背離災(zāi)情真實(shí)性的消息,就會(huì)誤導(dǎo)網(wǎng)民,使災(zāi)情在傳播過(guò)程中逐漸偏離其真實(shí)的軌道。因此,研究解決災(zāi)情在傳播過(guò)程中的質(zhì)量問(wèn)題,有很大的使用和探索價(jià)值。
如何對(duì)災(zāi)情輿情產(chǎn)生的大數(shù)據(jù)進(jìn)行分析和處理,并給出相應(yīng)的預(yù)警,國(guó)內(nèi)一些研究者對(duì)其進(jìn)行了很多研究。王展、趙征鵬的研究中,對(duì)學(xué)校的輿情管理起到了關(guān)鍵作用。夏玲玲等的研究中,幫助政府和有關(guān)監(jiān)管部門(mén)及時(shí)管理和掌握公眾號(hào)的文章和評(píng)論內(nèi)容,有助于提高社會(huì)穩(wěn)定性。鄺楚文的研究中,通過(guò)對(duì)大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)面臨的問(wèn)題進(jìn)行分析,設(shè)計(jì)了校內(nèi)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。袁志遠(yuǎn)、徐懷超等的研究中,對(duì)輿情信息進(jìn)行了多個(gè)維度的智能分析,提升了對(duì)輿情信息的分析能力。王政的研究中,精準(zhǔn)、迅速的掌握和判斷互聯(lián)網(wǎng)輿情發(fā)展現(xiàn)狀及未來(lái)發(fā)展走勢(shì),為構(gòu)建和諧社會(huì),打造良好的輿情生態(tài)環(huán)境和正能量意識(shí)形態(tài)打下了基礎(chǔ)。黃迅、孫軍梅的研究中,通過(guò)LSTM-CNN混合模型了解學(xué)生主要關(guān)注的熱點(diǎn),進(jìn)而分析學(xué)生的思想。田煜的研究中,為網(wǎng)絡(luò)熱點(diǎn)事件得到控制和增強(qiáng)管控提供了技術(shù)支撐。朱琪的研究中,通過(guò)對(duì)數(shù)據(jù)的預(yù)處理,為數(shù)據(jù)去重、降噪,并利用數(shù)據(jù)分析方法實(shí)現(xiàn)了預(yù)警。陳剛、李弼程等的研究中,用威脅評(píng)估等方法構(gòu)建預(yù)警系統(tǒng)模型。曾宇的研究提高了監(jiān)測(cè)的準(zhǔn)確率,增強(qiáng)了輿情的管控能力。
以上研究可分為三類(lèi):
(1)第一類(lèi)只是對(duì)災(zāi)情數(shù)據(jù)的分析和分類(lèi)進(jìn)行了研究;
(2)第二類(lèi)主要為系統(tǒng)的數(shù)據(jù)來(lái)源比較單一;
(3)第三類(lèi)是系統(tǒng)的對(duì)象只針對(duì)政府和有關(guān)部門(mén)而設(shè)計(jì),預(yù)警涉及面窄。
綜合而言,這些研究針對(duì)基層網(wǎng)民的比較少,收集的輿情評(píng)論范圍不夠廣泛,沒(méi)能從根本上起到對(duì)網(wǎng)民的預(yù)警作用。網(wǎng)民是數(shù)據(jù)的產(chǎn)生者和傳播者,如果系統(tǒng)能建立起與網(wǎng)民之間的聯(lián)系,直接引導(dǎo)、糾正網(wǎng)民對(duì)災(zāi)情的評(píng)論與傳播行為,從根本上解決輿情傳播變質(zhì)的問(wèn)題,將大大減少災(zāi)情輿情的監(jiān)控工作量。
在網(wǎng)民普遍的時(shí)代,數(shù)據(jù)越來(lái)越多,出現(xiàn)了很多獲取數(shù)據(jù)的手段。面對(duì)如此多的數(shù)據(jù),可以用爬蟲(chóng)迅速獲取需要的數(shù)據(jù)。爬蟲(chóng)選擇需要爬取的網(wǎng)頁(yè),使用規(guī)定的規(guī)則,通過(guò)網(wǎng)頁(yè)鏈接及源代碼進(jìn)行數(shù)據(jù)爬取,爬蟲(chóng)流程如圖1所示。
圖1 基于大數(shù)據(jù)的災(zāi)情輿情采集流程
本文針對(duì)網(wǎng)絡(luò)信息的海量特性,將爬蟲(chóng)技術(shù)從功能上分為3個(gè)部分,分別為數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)。
(1)數(shù)據(jù)獲取是通過(guò)爬取網(wǎng)頁(yè)的鏈接獲取其中摻雜文本的源代碼,然后對(duì)源代碼進(jìn)行解析,獲得需要的輿情數(shù)據(jù);
(2)數(shù)據(jù)處理是對(duì)獲取的災(zāi)情輿情數(shù)據(jù),利用自然語(yǔ)言處理技術(shù)進(jìn)行處理;
(3)數(shù)據(jù)存儲(chǔ)是將處理好的輿情數(shù)據(jù)自動(dòng)存儲(chǔ)到數(shù)據(jù)庫(kù)中,方便后續(xù)流程使用數(shù)據(jù)。
為使獲取的原始數(shù)據(jù)能夠在系統(tǒng)中有效使用,需要對(duì)災(zāi)情輿情數(shù)據(jù)做進(jìn)一步提取,并且對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,獲取標(biāo)準(zhǔn)格式的數(shù)據(jù),然后再對(duì)數(shù)據(jù)進(jìn)行文本分析,得到不同類(lèi)型的輿情數(shù)據(jù)。數(shù)據(jù)分析流程如圖2所示。
圖2 數(shù)據(jù)的分析流程
爬蟲(chóng)爬取HTML頁(yè)面的原始代碼,找到代碼中對(duì)應(yīng)的成對(duì)標(biāo)簽。標(biāo)簽層層嵌套,在爬取時(shí)要選對(duì)標(biāo)簽,找到需要的信息后開(kāi)始爬取。
由于爬取的數(shù)據(jù)并非標(biāo)準(zhǔn)數(shù)據(jù),所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)的清洗、集成、變換和規(guī)約。數(shù)據(jù)清洗是指去除噪聲和部分無(wú)用數(shù)據(jù)。其中,噪聲是數(shù)據(jù)隨機(jī)產(chǎn)生的誤差和方差,即obs=。數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源合并,最終變成一個(gè)大數(shù)據(jù)并存儲(chǔ)。數(shù)據(jù)變換是將原數(shù)據(jù)轉(zhuǎn)換成適合使用的數(shù)據(jù)。數(shù)據(jù)規(guī)約的主要方法一般為維度歸約、離散化等。
在得到標(biāo)準(zhǔn)格式的數(shù)據(jù)后需要進(jìn)行文本分詞和文本分類(lèi)。文本分詞一般基于詞典分詞或者基于語(yǔ)言模型分詞。詞典分詞有英文分詞,通常以空格分詞。中文分詞有3種匹配法,分別為正向最大匹配法、逆向最大匹配法和雙向最大匹配法,這些方法基于詞典匹配而成?;谡Z(yǔ)言模型的分詞方法有很多,常用的是隱馬爾可夫模型。文本分類(lèi)方法包括K-最近鄰、決策樹(shù)、貝葉斯分類(lèi)方法等。KNN是指找到個(gè)最近的測(cè)試樣本,按照占比最多的類(lèi)別,判斷測(cè)試樣本為該類(lèi),計(jì)算可由公式(1)實(shí)現(xiàn),其中為奇數(shù)。
式中,=1, 2, ...,
在貝葉斯公式中,B被認(rèn)為是導(dǎo)致試驗(yàn)結(jié)果發(fā)生的原因,而(B)(=1, 2, ...)是多種原因發(fā)生的概率,即先驗(yàn)概率;(B|)(=1, 2, ...)是當(dāng)產(chǎn)生一個(gè)試驗(yàn)結(jié)果后,對(duì)其他原因進(jìn)行新的概率分析,即后驗(yàn)概率。
該系統(tǒng)由5層組成,分別為數(shù)據(jù)的采集層、處理層、提取層、應(yīng)用層和用戶(hù)交互層。系統(tǒng)的總體框架如圖3所示。
圖3 系統(tǒng)總體框架
數(shù)據(jù)采集層:主要功能是通過(guò)反爬蟲(chóng)、網(wǎng)頁(yè)爬取、框架設(shè)計(jì)獲取新聞、微博、微信、APP、短視頻、評(píng)論等數(shù)據(jù)。
數(shù)據(jù)處理層:主要包含2個(gè)模塊,分別為數(shù)據(jù)處理和聚類(lèi)法分類(lèi)。其中,數(shù)據(jù)處理主要是對(duì)采集的災(zāi)情輿情數(shù)據(jù)進(jìn)行規(guī)范化處理,包括過(guò)濾去重、降噪、格式轉(zhuǎn)換等處理方式。聚類(lèi)法模塊主要是對(duì)采集的數(shù)據(jù)進(jìn)行簡(jiǎn)單分類(lèi)。
數(shù)據(jù)提取層:從輿情采集模塊中獲取及時(shí)數(shù)據(jù),形成不斷更新的數(shù)據(jù)流,再通過(guò)輿情檢索模塊、輿情分析模塊構(gòu)建具有流動(dòng)性數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)。結(jié)構(gòu)化數(shù)據(jù)庫(kù)采用分布式存儲(chǔ)方法,分類(lèi)存儲(chǔ)不同類(lèi)型的數(shù)據(jù),為應(yīng)用層的數(shù)據(jù)計(jì)算和數(shù)據(jù)分析提供大量不同類(lèi)型的數(shù)據(jù)。
應(yīng)用層:在數(shù)據(jù)提取層的基礎(chǔ)上,借助輿情采集、檢索、分析、預(yù)警4個(gè)模塊,為預(yù)警系統(tǒng)構(gòu)建簡(jiǎn)潔、方便、通俗易懂的可視化頁(yè)面。
用戶(hù)交互層:主要結(jié)合數(shù)據(jù)整合和文本處理與分析,判斷用戶(hù)發(fā)表的輿情言論是否準(zhǔn)確,便于系統(tǒng)發(fā)揮對(duì)用戶(hù)引導(dǎo)和預(yù)警的作用。校對(duì)信息來(lái)自數(shù)據(jù)提取層。
3.2 系統(tǒng)主要功能模塊
該系統(tǒng)主要包含4個(gè)模塊,分別是輿情采集、檢索、分析和預(yù)警模塊。系統(tǒng)主要功能模塊如圖4所示。
圖4 系統(tǒng)主要功能模塊
輿情采集模塊:輿情采集主要是對(duì)系統(tǒng)涉及的輿情信息進(jìn)行采集、收納,并存入數(shù)據(jù)庫(kù)。信息來(lái)源于不同網(wǎng)站,以及微博、微信、抖音等APP。
輿情檢索模塊:該部分主要將檢索的網(wǎng)絡(luò)輿情信息暫時(shí)儲(chǔ)存,然后信息數(shù)據(jù)采集爬蟲(chóng)根據(jù)任務(wù)要求工作,并將結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。
輿情分析模塊:輿情分析主要完成對(duì)收集的災(zāi)情信息的分類(lèi),提取其中的重要信息,以及對(duì)用戶(hù)評(píng)論的內(nèi)容進(jìn)行分析,最終構(gòu)建結(jié)構(gòu)化數(shù)據(jù)庫(kù),為后續(xù)預(yù)警打下基礎(chǔ)。
輿情預(yù)警模塊:預(yù)警模塊主要根據(jù)結(jié)構(gòu)化數(shù)據(jù)庫(kù)對(duì)用戶(hù)發(fā)表有關(guān)輿情的評(píng)論內(nèi)容,進(jìn)行真實(shí)性的監(jiān)測(cè)與追蹤,最終通過(guò)頁(yè)面展示分析結(jié)果,達(dá)到預(yù)警目的。
為提高系統(tǒng)的預(yù)警性能,需要對(duì)災(zāi)情信息進(jìn)行分類(lèi)并劃出預(yù)警的標(biāo)準(zhǔn),見(jiàn)表1所列。表中將災(zāi)難分為四大類(lèi),即自然災(zāi)難、人為災(zāi)難、技術(shù)性災(zāi)難、區(qū)域性災(zāi)難。預(yù)警等級(jí)為4個(gè)等級(jí),每個(gè)等級(jí)都有相應(yīng)的條件。在系統(tǒng)預(yù)警過(guò)程中,根據(jù)這些條件可以很好地實(shí)現(xiàn)對(duì)輿情走勢(shì)的把控,預(yù)防劣質(zhì)災(zāi)情信息傳播。
表1 災(zāi)情信息分類(lèi)與預(yù)警標(biāo)準(zhǔn)
由于互聯(lián)網(wǎng)數(shù)據(jù)飛速增長(zhǎng)和輿情信息快速傳播,使輿情分析難度增大。在應(yīng)對(duì)網(wǎng)絡(luò)輿情時(shí)要充分利用大數(shù)據(jù)技術(shù),通過(guò)專(zhuān)業(yè)的技術(shù)分析可以很好地進(jìn)行測(cè)評(píng)和評(píng)估,實(shí)現(xiàn)預(yù)警。該系統(tǒng)有助于及時(shí)、快速,并且準(zhǔn)確地分析輿情走向,引導(dǎo)用戶(hù)成為高質(zhì)量的輿情傳播者。