王一帆,邵開麗,徐志文,葉鴻鑫
(黃河科技學(xué)院 工學(xué)部,河南 鄭州 450000)
在大數(shù)據(jù)環(huán)境下,針對突發(fā)事件網(wǎng)絡(luò)輿情的分析主要是對大量突發(fā)事件產(chǎn)生的網(wǎng)絡(luò)信息數(shù)據(jù)進行采集、分析、篩選、儲存,并甄別出有用的信息。大數(shù)據(jù)環(huán)境下的突發(fā)事件具有數(shù)據(jù)量大、形式多樣、傳播流動性強、真實性低等特點。按照傳統(tǒng)數(shù)據(jù)統(tǒng)計的方法控制突發(fā)事件網(wǎng)絡(luò)輿情已不符合當前需求,如何在大量且無序的網(wǎng)絡(luò)輿情信息中篩選出有效信息并分類,避免“數(shù)據(jù)爆炸”,提高有關(guān)部門對突發(fā)事件的趨勢判斷能力,是當前環(huán)境下突發(fā)事件輿情分析面臨的主要挑戰(zhàn)。
為探究輿情引導(dǎo)重點與管理方案,莊文英、許英姿、任俊玲、王興芬分析了輿情演化特征,將SEIR傳染病模型與LDA文檔主題生成模型相結(jié)合,采取LDA進行主題抽取,劃分意見群體,構(gòu)建拓展SEInR多意見競爭演化模型,并利用Python針對大宗商品領(lǐng)域突發(fā)事件“中行原油寶事件”進行數(shù)據(jù)采集、模型仿真與靈敏度檢驗,實現(xiàn)輿情演化與輿情防控分析,進而分析平臺管控、媒體引導(dǎo)與監(jiān)管干預(yù)對網(wǎng)絡(luò)輿情演化的影響。對于使用單個預(yù)測模型會出現(xiàn)結(jié)果不準確的情況以及網(wǎng)民和媒體對于網(wǎng)絡(luò)輿情的影響有直接關(guān)系等現(xiàn)象,劉定一、沈陽陽、詹天明、劉亞軍、應(yīng)毅提供了新的預(yù)測辦法,該預(yù)測辦法主要包括兩部分,一是社交媒體熱門看點分析,二是循環(huán)記憶神經(jīng)中的長短期神經(jīng)網(wǎng)絡(luò)。實驗證明了模型的精確性,說明此模型的預(yù)測精度較高,可以運用到實際生活中?;跀?shù)據(jù)分解的研究思路,程鐵軍、王曼、黃寶鳳、馮蘭萍利用自適應(yīng)噪聲完備集成經(jīng)驗?zāi)B(tài)分解、BP神經(jīng)網(wǎng)絡(luò)以及相空間重構(gòu)理論構(gòu)建基于CEEMDAN-BP的輿情預(yù)測方法,并根據(jù)突發(fā)事件的案例進行了實證研究。針對各種突發(fā)事件的網(wǎng)絡(luò)輿情,許多專家都提供了自己的預(yù)測辦法,并且將會隨著科學(xué)技術(shù)的發(fā)展進步,提出更多、更好的分析預(yù)測方法來應(yīng)對突發(fā)事件網(wǎng)絡(luò)輿情。
隨著科技的發(fā)展,社會輿情主要通過網(wǎng)絡(luò)進行傳播。截至2021年6月,中國網(wǎng)民規(guī)模達10.11億,互聯(lián)網(wǎng)普及率達71.6%。當突發(fā)事件發(fā)生后,網(wǎng)絡(luò)平臺成為輿情傳播的主流媒體。例如,突發(fā)的新冠肺炎疫情,網(wǎng)絡(luò)輿情會隨時更新疫情最新進展、確診人員情況和活動軌跡、藥物供給情況、政府防控應(yīng)對措施等,成為突發(fā)事件和應(yīng)對方法的及時反饋,提高了政府公信力。因此,對于網(wǎng)絡(luò)輿情進行準確識別和分類,為公眾及時準確地了解突發(fā)事件提供了信息支持,為網(wǎng)絡(luò)輿情管理部門提供了數(shù)據(jù)支持。
網(wǎng)絡(luò)輿情動態(tài)分類流程如圖1所示。
圖1 網(wǎng)絡(luò)輿情動態(tài)分類流程
大數(shù)據(jù)或稱海量數(shù)據(jù),當前主流的數(shù)據(jù)處理工具無法對基數(shù)如此巨大的信息進行快速的處理分類。大量突發(fā)事件的網(wǎng)絡(luò)輿情與大數(shù)據(jù)相似,其關(guān)鍵內(nèi)容并非網(wǎng)絡(luò)中發(fā)布的海量數(shù)據(jù)本身,而是基于大量數(shù)據(jù)研究分析得到的具有現(xiàn)實意義的結(jié)論,所以利用大數(shù)據(jù)分析突發(fā)事件的網(wǎng)絡(luò)輿情更加便捷。
對于突發(fā)事件的網(wǎng)絡(luò)輿情進行分類分析,需要對網(wǎng)絡(luò)輿情進行深度挖掘,包括網(wǎng)絡(luò)輿情采集、網(wǎng)絡(luò)輿情處理等過程,如圖2所示。
圖2 網(wǎng)絡(luò)輿情信息采集與處理流程
要實現(xiàn)網(wǎng)絡(luò)輿情分類的前提是突發(fā)事件網(wǎng)絡(luò)輿情采集。只有基于大量網(wǎng)絡(luò)輿情信息的支持,聚類算法的結(jié)果才能夠精準。此處運用了Scrapy爬蟲框架,其具有可擴展、高性能、多線程、分布式爬蟲等特點,可抓取微博、微信等媒體平臺及官方網(wǎng)站中有關(guān)以下四類突發(fā)事件的網(wǎng)絡(luò)輿情信息:
(1)自然災(zāi)害。主要包括水澇、干旱、臺風(fēng)、地震、沙塵暴、森林火災(zāi)、泥石流等。
(2)事故災(zāi)難。主要包括石油泄漏、車禍、道路坍塌、天然氣井噴發(fā)、瓦斯爆炸等。
(3)公共衛(wèi)生事件。主要包括非典、食物中毒、新冠肺炎、禽流感等。
(4)社會安全事件。主要包括持槍搶劫、毒氣武器攻擊、暴亂等。
2.1.1 Scrapy爬蟲提取
Scrapy爬蟲框架基于Python開發(fā),能夠高效的從網(wǎng)頁中抓取有效數(shù)據(jù)。Scrapy框架結(jié)構(gòu)如圖3所示。
圖3 Scrapy框架結(jié)構(gòu)
2.1.2 網(wǎng)絡(luò)輿情采集結(jié)果
Scrapy爬蟲提取的部分突發(fā)事件網(wǎng)絡(luò)輿情信息見表1所列,其中id表示網(wǎng)絡(luò)輿情編號,detail表示網(wǎng)絡(luò)輿情信息。
表1 Scrapy爬蟲提取的部分網(wǎng)絡(luò)輿情信息
對網(wǎng)絡(luò)輿情的研究基于文本,通過Scrapy爬蟲提取的結(jié)果并非都可以直接使用,往往會出現(xiàn)一些例如“?!?、字母、數(shù)字之類的無用信息,所以必須對挖掘的網(wǎng)絡(luò)信息進行處理。一般使用文本處理的方法,除缺失值處理、去重等一般方法外,還包括如下方法:
(1)jieba分詞。中文的數(shù)據(jù)文本,詞和詞之間都存在緊密的聯(lián)系,而此處使用的網(wǎng)絡(luò)輿情文本基于詞語,運用jieba分詞方法對輿情信息進行處理,可以得到含有重要特征的關(guān)鍵詞。如:將“2020年2月2日湖南發(fā)生高致病性禽流感”處理為“2020年 2月2日 湖南 發(fā)生 高 致病性 禽流感”。
(2)去字母、數(shù)字。從表1可以看出,采集的網(wǎng)絡(luò)輿情信息含有數(shù)字、字母等文本內(nèi)容,例如“2020年2月2日湖南發(fā)生高致病性禽流感”中含有數(shù)字,會影響之后網(wǎng)絡(luò)輿情特征詞的提取。這里去除數(shù)字為“年 月 日 湖南 發(fā)生 高 致病性 禽流感”。
(3)去停用詞。通過以上步驟處理得到的結(jié)果,還不能很好地運用到模型中。其中“?!薄?、”“的”等標點符號和詞,對輿情信息分類作用不大,故需將無用信息剔除,便于后續(xù)網(wǎng)絡(luò)輿情特征文本詞的提取。
經(jīng)過缺失值處理、去重處理、jieba分詞、去停用詞等方法對網(wǎng)絡(luò)輿情信息進行處理后,得到了清晰的文本。經(jīng)過網(wǎng)絡(luò)輿情處理部分網(wǎng)絡(luò)輿情信息對比見表2所列。
表2 經(jīng)過網(wǎng)絡(luò)輿情處理部分網(wǎng)絡(luò)輿情信息對比
基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡(luò)輿情動態(tài)分類流程如圖4所示。
圖4 基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡(luò)輿情動態(tài)分類流程
經(jīng)過缺失值處理、去重處理、jieba分詞、去停用詞等方法對網(wǎng)絡(luò)輿情信息進行處理后,得到的是仍然是文本,由于中文無法直接被計算機讀取,無法將文本運用K-means聚類算法進行分析。因此,需要將網(wǎng)絡(luò)輿情文本轉(zhuǎn)化為特征向量,經(jīng)過計算,如果網(wǎng)絡(luò)輿情的特征向量相似度較高,代表網(wǎng)絡(luò)輿情之間的相似度較高,可將其分為一類。
3.1.1 詞袋模型
將通過上述步驟得到的網(wǎng)絡(luò)輿情信息切分成特征文本后,進一步轉(zhuǎn)換成向量,以便放入K-means聚類模型中。詞袋模型構(gòu)建:首先把提取的特征文本轉(zhuǎn)化成此詞條列表,然后針對每個特征集創(chuàng)建一個向量,詞條重復(fù)的次數(shù)即為向量的值。
3.1.2 權(quán)值轉(zhuǎn)換
采用TF-IDF統(tǒng)計方法判斷網(wǎng)絡(luò)輿情特征文本對于該網(wǎng)絡(luò)輿情文本的權(quán)值。詞頻向量中的數(shù)字代表每條網(wǎng)絡(luò)輿情對應(yīng)的特征文本在總詞條列表中出現(xiàn)的次數(shù),使用TF-IDF算法可將其中出現(xiàn)次數(shù)多的,即詞頻向量中數(shù)字較大的特征文本做進一步提取,得到對應(yīng)的網(wǎng)絡(luò)輿情特征文本關(guān)鍵詞。
經(jīng)過權(quán)值轉(zhuǎn)換后得到的矩陣,列代表全部特征文本詞的集合,行代表網(wǎng)絡(luò)輿情對應(yīng)特征文本詞的權(quán)值向量。矩陣即可代入之后的聚類算法中,實現(xiàn)網(wǎng)絡(luò)輿情動態(tài)分類。
經(jīng)過權(quán)值轉(zhuǎn)換得到的矩陣可用于聚類算法構(gòu)建模型,此處使用K-means聚類算法。作為一種常用的劃分聚類算法,K-means具有實現(xiàn)簡單、能夠處理大型數(shù)據(jù)等優(yōu)點。對未分組的網(wǎng)絡(luò)輿情進行分類,屬于無監(jiān)督學(xué)習(xí)。K-means算法以為參數(shù),將一個或多個對象分成個簇,提高簇內(nèi)部的相似度,同時降低簇之間的相似度。計算方法如下:
式中:代表所有網(wǎng)絡(luò)輿情權(quán)值向量平方誤差的總和;為每條網(wǎng)絡(luò)輿情對應(yīng)的點;m為某一簇的平均值。從圖5可以看出:值越小,每簇分類的網(wǎng)絡(luò)輿情之間的相似度越高。
圖5 K-means聚類算法工作流程
值得一提的是,一般聚類算法中距離度量使用的是歐氏距離,此處我們使用余弦相似度作為距離度量。余弦相似度與歐氏距離相比,更利于文本的相似度計算,因此使用余弦相似度計算網(wǎng)絡(luò)輿情對應(yīng)的特征文本詞之間的相似度,便于對網(wǎng)絡(luò)輿情進行分類。
通過TF-IDF算法得到每條網(wǎng)絡(luò)輿情特征文本詞權(quán)值向量之間夾角的余弦值,就可以評估網(wǎng)絡(luò)輿情之間的相似度。為方便后續(xù)分析,需要把余弦值轉(zhuǎn)換到0~1范圍內(nèi),再做歸一化處理。公式如下:
通過聚類算法我們得到4種分類結(jié)果,從左至右將得到的簇標號為1、2、3、4,得到的部分聚類算法分類結(jié)果見表3所列。
表3 聚類算法分類結(jié)果
將4種網(wǎng)絡(luò)輿情分類與聚類算法結(jié)果結(jié)合,設(shè)定分類編號1、2、3、4分別對應(yīng)自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件以及社會安全事件,4種輿情分類的部分結(jié)果見表4、表5、表6、表7所列。
表4 分類為自然災(zāi)害的部分網(wǎng)絡(luò)輿情文本
表5 分類為事故災(zāi)難的部分網(wǎng)絡(luò)輿情文本
表6 分類為公共衛(wèi)生事件的部分網(wǎng)絡(luò)輿情文本
表7 分類為社會安全事件的部分網(wǎng)絡(luò)輿情文本
將4個表中的數(shù)據(jù)與4種網(wǎng)絡(luò)輿情分類對比,可以看出K-means聚類算法對網(wǎng)絡(luò)輿情分類準確率較高,能夠基本達到對大數(shù)據(jù)環(huán)境下突發(fā)事件網(wǎng)絡(luò)輿情分類的目的。
本文通過研究基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡(luò)輿情動態(tài)分類的背景、現(xiàn)狀、意義,敘述了網(wǎng)絡(luò)輿情動態(tài)分類的現(xiàn)實意義和重要性,使用網(wǎng)絡(luò)爬蟲方法進行網(wǎng)絡(luò)輿情信息采集與處理,提取網(wǎng)絡(luò)輿情關(guān)鍵特征文本,將其轉(zhuǎn)化為權(quán)值向量,放入K-means聚類模型得到4種分類,可以直接觀察對突發(fā)事件網(wǎng)絡(luò)輿情分類的結(jié)果,實現(xiàn)研究目標。