国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感特征的新冠肺炎疫情輿情演化分析

2021-05-13 12:30:38甘宇祥王亞博薛均曉張若琪許書寧郭毅博
圖學(xué)學(xué)報(bào) 2021年2期
關(guān)鍵詞:極性輿情輿論

甘宇祥,王亞博,薛均曉,張若琪,許書寧,郭毅博

基于情感特征的新冠肺炎疫情輿情演化分析

甘宇祥1,王亞博2,薛均曉2,張若琪3,許書寧2,郭毅博4

(1. 鄭州聯(lián)大教育集團(tuán),河南 鄭州 450001; 2. 鄭州大學(xué)軟件學(xué)院,河南 鄭州 450002; 3. 河南師范大學(xué)軟件學(xué)院,河南 新鄉(xiāng) 453007; 4. 鄭州大學(xué)信息工程學(xué)院,河南 鄭州 450001)

針對(duì)突發(fā)事件的輿情演變態(tài)勢(shì)進(jìn)行分析,發(fā)現(xiàn)社會(huì)輿情的演變規(guī)律,提出了一種基于情感特征的輿情演化分析方法,該方法包含輿論情感分析模塊與輿情演化分析模塊。輿論情感分析模塊基于BERT預(yù)訓(xùn)練模型和BiGRU模型,其中BERT作為詞嵌入模型提取輿情文本特征向量,BiGRU則用于提取文本特征向量的上下文聯(lián)系實(shí)現(xiàn)對(duì)輿情數(shù)據(jù)情感極性的精準(zhǔn)判別。在輿情演化分析模塊中,將輿情的情感特征在時(shí)間維度上進(jìn)行動(dòng)態(tài)可視化建模,并基于其結(jié)果實(shí)現(xiàn)輿情數(shù)據(jù)的演化規(guī)律解析。在實(shí)驗(yàn)部分,利用2020年1月1日到2020年2月19日的100萬(wàn)條新冠肺炎背景下的輿論數(shù)據(jù)進(jìn)行了數(shù)值實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地對(duì)疫情背景下的輿情數(shù)據(jù)進(jìn)行演化分析。

新冠肺炎;輿情情感分析;輿情演變分析

隨著微博、抖音等網(wǎng)絡(luò)社交媒體的興起,每個(gè)網(wǎng)民均可以作為輿論源進(jìn)行信息的發(fā)表、閱讀與傳播。社交媒體的興起一方面給人們帶來(lái)巨大便利,另一方也帶來(lái)了安全隱患。

當(dāng)重大公共事件突發(fā)時(shí),網(wǎng)民們往往不經(jīng)過(guò)深思熟慮,便會(huì)在網(wǎng)上發(fā)表自己的見解,表達(dá)其對(duì)事件的情感態(tài)度,從而形成網(wǎng)絡(luò)輿論[1]。自新冠肺炎疫情暴發(fā)以來(lái),大眾對(duì)疫情相關(guān)信息高度關(guān)注,在這樣的背景下,社交媒體在信息聚合、輿論生成方面扮演的角色越來(lái)越重要。通過(guò)分析新冠肺炎疫情下的網(wǎng)絡(luò)輿論情感極性,可以獲得公眾對(duì)新冠肺炎事件的主要情感觀點(diǎn)和價(jià)值取向,從而使相關(guān)部門能夠更加準(zhǔn)確地把握特定事件的焦點(diǎn)輿論和發(fā)展方向,進(jìn)一步輔助其進(jìn)行分析、決策,從而更有效地干預(yù)和引導(dǎo)輿論方向來(lái)實(shí)現(xiàn)科學(xué)戰(zhàn)“疫”。

文本情感分析指利用自然語(yǔ)言處理(natural language processing,NLP)和文本挖掘技術(shù),對(duì)具有主觀情感色彩的文本進(jìn)行分析、處理、歸納和推理的過(guò)程[2]。就網(wǎng)絡(luò)輿論情感分析而言,主要有基于情感維度模型的網(wǎng)絡(luò)輿情信息分級(jí)等理論模型研究,情感傾向性分析、有如何構(gòu)建網(wǎng)絡(luò)輿情情感詞典、用戶情感和關(guān)系網(wǎng)絡(luò)演化等技術(shù)應(yīng)用研究,還有針對(duì)熱門事件網(wǎng)絡(luò)輿情情感分析的案例研究,形成了完善的網(wǎng)絡(luò)輿情情感分析研究體系。所使用的情感分析技術(shù)包括基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2種方法,其中機(jī)器學(xué)習(xí)方法使用TF-IDF等文本特征加傳統(tǒng)的機(jī)器學(xué)習(xí)模型;深度學(xué)習(xí)方法使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)模型去自動(dòng)地提取文本特征。

本文基于情感分析和數(shù)據(jù)可視化方法,對(duì)新冠疫情期間的輿論情感態(tài)勢(shì)進(jìn)行研究。本文基于情感特征對(duì)新型冠狀肺炎疫情期間的網(wǎng)絡(luò)輿論進(jìn)行情感分析,構(gòu)建了疫情期間的輿論情感極性分析模型。并結(jié)合相關(guān)輿論的情感特征對(duì)疫情期間的輿情信息進(jìn)行了演變研究,從而更好地把握輿情演變的規(guī)律,提出針對(duì)性的方法應(yīng)對(duì)輿情。為輿情系統(tǒng)的治理提供幫助,加強(qiáng)相關(guān)部分應(yīng)對(duì)輿情的管理能力。

1 相關(guān)的工作

1.1 自然語(yǔ)言處理

NLP是用計(jì)算機(jī)來(lái)處理、理解人類語(yǔ)言,其屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科,又稱為計(jì)算語(yǔ)言學(xué)。NLP技術(shù)可以將非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化信息[3],并允許計(jì)算機(jī)通過(guò)算法來(lái)理解人類語(yǔ)言。從研究?jī)?nèi)容看,NLP包括語(yǔ)法和語(yǔ)義分析、篇章理解等。從應(yīng)用角度看,NLP具有廣泛的應(yīng)用前景。特別是在信息時(shí)代,NLP的應(yīng)用包羅萬(wàn)象,本文所涉及到的便是NLP中的文本情感分析。

1.2 文本情感分析

文本將情感分析方法分為:基于情感詞典、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的情感分析[3]3類。其中,基于情感詞典的方法主要依賴的是人工搭建的情感詞典,周詠梅等[4]提出了構(gòu)建基于HowNet和SentiWordNet的中文情感詞典的方法,該方法在微博文本情感分析任務(wù)取得了不錯(cuò)的效果。但其屬于無(wú)監(jiān)督學(xué)習(xí),會(huì)導(dǎo)致構(gòu)建情感詞典困難,從而消耗了大量的時(shí)間和精力,但并非廣泛適用。

PANG等[5]2002年第一次在電影評(píng)論數(shù)據(jù)集上將機(jī)器學(xué)習(xí)的方法應(yīng)用在文本情感分類任務(wù)中。常用的機(jī)器學(xué)習(xí)方法包括樸素貝葉斯、K最近鄰、最大熵等。但這類方法需要人工構(gòu)造大量特征從而獲得更高、更好的分類效果,不僅如此,還需要大量的專業(yè)知識(shí),此外仍存在泛化能力不足的問(wèn)題,導(dǎo)致了此類方法只適用于特定場(chǎng)景。

而基于深度學(xué)習(xí)的情感分析方法則不需要特點(diǎn)領(lǐng)域的專業(yè)人士進(jìn)行分析并確定分類特征,該方法的擴(kuò)展性得到大大地提升[6]。最初應(yīng)用于計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別方向,然后擴(kuò)展到了情感分析的領(lǐng)域,并成為該領(lǐng)域的熱門技術(shù)。HEIKAL等[7]通過(guò)構(gòu)建CNN模型和LSTM模型進(jìn)行情感分析。梁軍等[8]基于情感極性轉(zhuǎn)移模型的文本情感分析算法的實(shí)驗(yàn)結(jié)果顯示,其較普通LSTM和RNN模型有更好的效果。傳統(tǒng)的深度學(xué)習(xí)模型是將特征設(shè)置為相同的權(quán)重進(jìn)行訓(xùn)練,從而導(dǎo)致無(wú)法更好地關(guān)注短文本中對(duì)情感類別貢獻(xiàn)較為突出的特征。隨后Google Mind[9]團(tuán)隊(duì)首次提出自注意力機(jī)制,由于該機(jī)制依賴參數(shù)少,且能夠更好地幫助模型獲得文本特征,表現(xiàn)出優(yōu)秀的文本處理能力,也因此廣泛應(yīng)用于文本數(shù)據(jù)挖掘中。

1.3 輿情演化分析

輿情事件的演化過(guò)程往往具有生命周期[10]。國(guó)內(nèi)外研究者均對(duì)輿情的傳播過(guò)程進(jìn)行了探索,這些研究根據(jù)不同角度將輿情按照事件發(fā)生序列和發(fā)展生命周期來(lái)劃分階段并構(gòu)建模型。其中比較突出的傳播模型包括BURKHOLDER和TOOLE[11]提出的三階段模型、文獻(xiàn)[12]在三階段模型基礎(chǔ)上提出的四階段模型;方付建[13]將網(wǎng)絡(luò)輿情發(fā)展歷程劃分為孕育、擴(kuò)散、變換和衰減4個(gè)階段。潘崇霞[14]將演化歷程簡(jiǎn)化為初始傳播、迅速擴(kuò)散和消退3個(gè)階段。同時(shí)學(xué)者們也對(duì)突發(fā)事件網(wǎng)絡(luò)輿情各個(gè)階段的特征進(jìn)行了相應(yīng)地分析。

1.4 門控循環(huán)單元

門控循環(huán)單元(gated recurrent unit,GRU)是循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)。其通過(guò)引入更新門和重置門機(jī)制,有效地解決了RNN在訓(xùn)練過(guò)程中出現(xiàn)的梯度爆炸和梯度彌散問(wèn)題[15]。相較于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM),GRU簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),減少了模型的參數(shù),并提高了訓(xùn)練速度(圖1)。在解決序列數(shù)據(jù)處理任務(wù)中,GRU網(wǎng)絡(luò)可以學(xué)習(xí)句子中單詞的長(zhǎng)期依賴性,還可以更好地對(duì)文本進(jìn)行表征和建模[16]。GRU網(wǎng)絡(luò)不僅可以通過(guò)存儲(chǔ)單元存儲(chǔ)句子中的重要特征,同時(shí)還能選擇性地忘記一些不重要的信息。在GRU網(wǎng)絡(luò)中,每個(gè)神經(jīng)元包括1個(gè)存儲(chǔ)單元和2個(gè)門單元。

圖1 GRU相比LSTM的改進(jìn)

1.5 BERT

目前,在NLP領(lǐng)域,現(xiàn)有模型大多使用Word2Vec或Glove等詞向量訓(xùn)練工具,然而這些模型訓(xùn)練的詞向量本身就具有一定的自身缺陷,是屬于靜態(tài)編碼的一種,同一單詞在不同的上下文語(yǔ)義環(huán)境中會(huì)表達(dá)相同的含義,這使得模型對(duì)語(yǔ)義的理解會(huì)產(chǎn)生一定的偏差。

為了充分利用左右兩側(cè)的上下文信息,體現(xiàn)句子語(yǔ)義的空間相互關(guān)系,2018年10月,Google的DEVLIN等[17]提出了預(yù)訓(xùn)練模型BERT (bidirectional encoder representation from transformers)(圖2),該語(yǔ)言表示模型采用了基于微調(diào)的多層雙向Transformer編碼器,并用于進(jìn)行文本特征的提取,從而達(dá)到融合字左右兩側(cè)信息的效果[18]。自注意力機(jī)制是BERT 編碼器的核心,可以得到詞的雙向表示,并創(chuàng)新性地提出了Masked語(yǔ)言模型與下一個(gè)句子預(yù)測(cè)任務(wù)。BERT模型輸入的是3個(gè)向量的和,對(duì)于每一個(gè)輸入的詞,其表征包括詞向量(token embeddings)、分段向量(segment embeddings)和位置向量(positions embeddings) 3部分。BERT向量相比于Word2Vec等模型詞向量固定不變以及短距離單向的前后文信息融合,其融合了其他模型的優(yōu)點(diǎn),同時(shí)也替代了其缺點(diǎn),能夠充分結(jié)合上下文動(dòng)態(tài)生成特征向量,表征字的多義性,因此該模型在多種NLP的后續(xù)特定任務(wù)上取得了良好的效果[19]。

圖2 BERT結(jié)構(gòu)圖

2 方法介紹

2.1 方法概述

為了能夠更好地對(duì)疫情期間的輿論數(shù)據(jù)進(jìn)行輿論情感極性分析與演化分析,如圖3所示,本文提出了基于情感特征的疫情期間輿論情感極性分析算法來(lái)對(duì)疫情期間的輿論數(shù)據(jù)進(jìn)行情感識(shí)別,在BERT模型后面加了一層BiGRU,用來(lái)更好地捕獲詞向量之間的上下文聯(lián)系,并對(duì)疫情期間的輿論數(shù)據(jù)進(jìn)行精準(zhǔn)的情感極性識(shí)別。接著聯(lián)合疫情期間感染數(shù)據(jù)對(duì)輿情數(shù)據(jù)進(jìn)行演化分析。通過(guò)對(duì)負(fù)面輿論每日變化數(shù)據(jù)與疫情期間每日感染數(shù)據(jù)進(jìn)行關(guān)聯(lián)來(lái)探尋輿情演變規(guī)律,并通過(guò)計(jì)算詞頻的方式探究不同情感極性下的輿論熱點(diǎn)。

圖3 方法結(jié)構(gòu)圖

2.2 方法推導(dǎo)

傳統(tǒng)的詞向量模型適合對(duì)短句和簡(jiǎn)單的句子進(jìn)行分析。為了解決一詞多義的問(wèn)題,還應(yīng)考慮上下文本及單詞與單詞之間的關(guān)系。BERT模型是Google提出的語(yǔ)言表示模型,與傳統(tǒng)文本情感分析相比,BERT可以更好地覆蓋上下文之間的聯(lián)系,本文使用Google Research發(fā)布的預(yù)訓(xùn)練模型。

通過(guò)BERT Base提取文本特征。對(duì)于輸入的文本可使用Bert進(jìn)行特征提取,即

模型取[CLS]標(biāo)記在BERT訓(xùn)練的最后一層的輸出,加上權(quán)重作為雙向GRU模型的輸入,即

其中,1≤≤,為BERT輸出的特征維度;是偏置量;激活函數(shù)為Sigmoid函數(shù)。

模型將輸入向量送入BiGRU中,使用2個(gè)GRU從2個(gè)不同的方向計(jì)算向量序列,最后將2個(gè)方向的結(jié)果進(jìn)行合并輸出,即

然后使用Softmax函數(shù)對(duì)BiGRU輸出的特征向量進(jìn)行分類,得到最后的情感極性識(shí)別結(jié)果。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集介紹

本實(shí)驗(yàn)選取的數(shù)據(jù)集為中國(guó)計(jì)算機(jī)學(xué)會(huì)所舉辦的疫情期間網(wǎng)民情緒識(shí)別比賽中所提供的數(shù)據(jù)集,該數(shù)據(jù)集依據(jù)與“新冠肺炎”相關(guān)的230個(gè)主題關(guān)鍵詞進(jìn)行數(shù)據(jù)采集,抓取了2020年1月1日至2020年2月20日期間共計(jì)100萬(wàn)條微博數(shù)據(jù),其中10萬(wàn)條為標(biāo)注數(shù)據(jù),被分為消極、積極與中性3類,見表1。在本文實(shí)驗(yàn)中,本文使用其中10萬(wàn)條標(biāo)注數(shù)據(jù)作為訓(xùn)練集來(lái)訓(xùn)練疫情期間輿論情感極性分模型。然后利用訓(xùn)練得到的模型對(duì)另外90萬(wàn)條未標(biāo)注數(shù)據(jù)進(jìn)行情感極性的識(shí)別,并利用可視化技術(shù)研究輿情演化與疫情之間的潛在關(guān)系。

表1 部分?jǐn)?shù)據(jù)集展示

同時(shí)為了驗(yàn)證本文方法的有效性,人們?cè)陂_源的潭松波酒店評(píng)論數(shù)據(jù)集上進(jìn)行了模型性能的測(cè)試。該數(shù)據(jù)集共6 000條樣本,其中情感積極樣本3 000條,負(fù)面情感樣本3 000條。

3.2 實(shí)驗(yàn)參數(shù)

本文使用Tensorflow 2.0搭建疫情期間輿論情感極性分析模型,使用的硬件設(shè)備為NVIDIA RTX2080Ti。模型中的詞嵌入部分為Google開源的BERT預(yù)模型,其參數(shù)見表2。本文使用的損失函數(shù)為交叉熵?fù)p失函數(shù),并使用Adam算法對(duì)損失函數(shù)進(jìn)行優(yōu)化。

表2 模型參數(shù)設(shè)置

3.3 情感極性分析實(shí)驗(yàn)

為了驗(yàn)證本文方法的有效性,將其與幾種主流的實(shí)驗(yàn)方法進(jìn)行了實(shí)驗(yàn)結(jié)果對(duì)比,并使用了準(zhǔn)確率、召回率和F1 Score等指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè)。召回率是某類判斷正確的數(shù)目除以測(cè)試集中該類的數(shù)目。

(1) TF-IDF+LR:TF-IDF用來(lái)評(píng)估字詞對(duì)于一份文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降[20]。本文先提取文本的TF-IDF特征,然后使用LR進(jìn)行分類。

(2) LSTM:長(zhǎng)短期記憶網(wǎng)絡(luò)是一種特殊的RNN,主要目的是解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失問(wèn)題[21]。

(3) TextCNN:將CNN應(yīng)用到文本分類任務(wù),利用多個(gè)不同size的kernel來(lái)提取句子中的關(guān)鍵信息,從而更好地捕捉局部相關(guān)性[22]。

參照Sayers R L的方法提取花生蛋白[27],將其稀釋到濃度為1 mg·mL-1用于電泳分析,上樣量為15 μL。Marker上樣量為4 μL。選用膠濃度為:12%分離膠,4%濃縮膠。設(shè)定電泳條件分別為恒流12和24 mA,時(shí)間分別為30 min和1.5 h。電泳結(jié)束后,進(jìn)行剝膠、染色、脫色等工序。

(4) BERT-Base:BERT是谷歌發(fā)布的大規(guī)模文本預(yù)訓(xùn)練模型,這里使用的BERT-Base僅為BERT預(yù)訓(xùn)練模型提取文本特征后不做任何處理,然后使用Softmax進(jìn)行文本分類。

按照1∶4的比例切分訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集用于疫情期間輿論情感極性模型的訓(xùn)練,驗(yàn)證集則用來(lái)驗(yàn)證本文方法的有效性。其對(duì)比實(shí)驗(yàn)結(jié)果見表3。

表3 不同實(shí)驗(yàn)方法的性能表現(xiàn)

從表3可看出,本文方法在疫情期間的輿論情感分析中相比其他方法,在4個(gè)指標(biāo)上均有較大程度的提高。其原因:①在大規(guī)模數(shù)據(jù)上,訓(xùn)練得到的BERT預(yù)訓(xùn)練模型能夠涵蓋到更多的信息來(lái)應(yīng)對(duì)突發(fā)的疫情期間輿論數(shù)據(jù);②本文方法在引入BiGRU之后可以更加有效地提取輿情數(shù)據(jù)中詞與詞之間的聯(lián)系。

3.4 疫情期間輿情數(shù)據(jù)情感演化分析

使用前文訓(xùn)練所得到的疫情期間輿論情感分析模型對(duì)另外90萬(wàn)未標(biāo)注的輿論數(shù)據(jù)進(jìn)行預(yù)測(cè),然后將該數(shù)據(jù)和新冠疫情期間每日新增人數(shù)與患者總數(shù)目進(jìn)行關(guān)聯(lián)與可視化分析。各類數(shù)據(jù)占比如圖4所示。其部分預(yù)測(cè)結(jié)果見表4,可以看出對(duì)于這90萬(wàn)的未標(biāo)注數(shù)據(jù),本文模型也能實(shí)現(xiàn)較為精確地識(shí)別結(jié)果。其中,0代表負(fù)面數(shù)據(jù)、1代表中性數(shù)據(jù)、2代表積極數(shù)據(jù)。

圖4 各類情感極性輿論數(shù)據(jù)的占比

表4 部分預(yù)測(cè)數(shù)據(jù)展示

考慮疫情的變化的波動(dòng)會(huì)影響公眾發(fā)表輿論的情感,例如在疫情高發(fā)期間,不斷增長(zhǎng)的感染者數(shù)目會(huì)造成社會(huì)恐慌,也會(huì)直接影響負(fù)面情緒輿論的數(shù)目變化,所以將每日新增人數(shù)與每日感染總?cè)藬?shù)與負(fù)面輿論每日變化數(shù)目進(jìn)行關(guān)聯(lián)與可視化分析,并將其結(jié)果繪制成圖,圖5中左邊的縱坐標(biāo)為全國(guó)每天新增確診人數(shù),右邊的縱坐標(biāo)代表每天的負(fù)面輿論的數(shù)目,其中負(fù)面輿論數(shù)目越多,越可近似認(rèn)為當(dāng)天網(wǎng)民負(fù)面情緒積累較多;圖6左邊的縱坐標(biāo)是全國(guó)每天確診總?cè)藬?shù),右邊的縱坐標(biāo)代表每天的負(fù)面輿論的數(shù)目。

圖5 負(fù)面輿論數(shù)目與每日新增患者數(shù)目變化

圖6 負(fù)面輿論數(shù)目與每日確診患者總數(shù)目變化

從圖5和圖6可以看出,隨著疫情感染的加劇,公眾情緒也會(huì)越來(lái)越趨于負(fù)面。同時(shí)對(duì)圖中幾個(gè)負(fù)面輿論總數(shù)量的關(guān)鍵拐點(diǎn)進(jìn)行了分析,分析結(jié)果如下:

(1) 1月1日至1月19日:全國(guó)各省份并未對(duì)每日新增感染者數(shù)量進(jìn)行匯總與公示,盡管疫情已經(jīng)開始持續(xù)了一段時(shí)間,但并未引起全國(guó)范圍內(nèi)廣大人民群眾的一些負(fù)面情緒。

(2) 1月20至1月23日:從1月20日起,各省份均開始對(duì)每日的疫情信息進(jìn)行統(tǒng)計(jì)上報(bào),國(guó)家衛(wèi)生健康委員在國(guó)家衛(wèi)生健康委網(wǎng)站每日匯總發(fā)布全國(guó)各個(gè)省份確診病例和疑似病例的數(shù)量,每日的負(fù)面輿論數(shù)目也隨著新增確診病人數(shù)逐漸攀升,由此可見,在這段時(shí)間內(nèi)大家開始逐步意識(shí)到這場(chǎng)疫情所造成的危害。這種增長(zhǎng)情況直至1月23日武漢封城之后得到了緩解。黨和政府做出的強(qiáng)有力的積極有效抗疫措施導(dǎo)致疫情得到了進(jìn)一步的遏制,為此可以看出國(guó)家的有效舉措就是民眾的定心針。

(3) 2月3日至2月5日:疫情持續(xù)時(shí)期,發(fā)生了“武漢紅十字會(huì)在捐贈(zèng)物資調(diào)度、配置等方方面面出現(xiàn)的問(wèn)題”等惡性事件引起負(fù)面輿論,致使短時(shí)間內(nèi)公眾負(fù)面情緒的積累達(dá)到了最高點(diǎn)。在紅十字會(huì)專職副會(huì)長(zhǎng)失職失責(zé)被免職后,輿論報(bào)道數(shù)量也出現(xiàn)了明顯的下降,后期逐步進(jìn)入輿情的平穩(wěn)期。

(4) 2月12日:在2月12日,全國(guó)對(duì)新冠肺炎患者的統(tǒng)計(jì)口徑發(fā)生了改變,《新型冠狀病毒感染的肺炎診療方案(試行第五版)》在湖北省的病例診斷分類中,增加了“臨床診斷病例”,即疑似病例具有肺炎影像學(xué)特征者。但主流媒體及時(shí)對(duì)這一修改做出了報(bào)道,在2月12日新冠肺炎患者激增的情況下,負(fù)面新聞數(shù)目在后續(xù)幾天呈下降趨勢(shì)。

從上述結(jié)果可以看出,在疫情高發(fā)期間,負(fù)面輿論的數(shù)目也隨之增加。為了更好地緩解社會(huì)恐慌,政府及有關(guān)部分應(yīng)該在疫情爆發(fā)的節(jié)點(diǎn)做好輿情的防控。

3.5 疫情期間輿情數(shù)據(jù)熱點(diǎn)分析

探究疫情期間各類情感極性的熱點(diǎn)信息,對(duì)各類情感極性的輿論新熱點(diǎn)的把控有助于了解疫情的趨勢(shì)與走向,本實(shí)驗(yàn)步驟如下:

(1) 分詞。探尋輿情數(shù)據(jù)熱點(diǎn),將輿論數(shù)據(jù)進(jìn)行分詞是基礎(chǔ)。這里使用Python所帶的Jieba庫(kù)對(duì)90萬(wàn)條預(yù)測(cè)的數(shù)據(jù)進(jìn)行分詞處理。

(2) 去除停用詞。停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞。這里使用哈爾濱工業(yè)大學(xué)所提供的中文停用詞表對(duì)上一部分分好的詞進(jìn)行去除停用詞處理。

(3) 計(jì)算詞頻。按照消極、中性、積極3個(gè)標(biāo)簽對(duì)文本歸類,并統(tǒng)計(jì)高頻詞匯的次數(shù)。以此判斷疫情期間數(shù)據(jù)的熱點(diǎn)。

通過(guò)上述實(shí)驗(yàn)步驟,可以獲得各類情感輿論中的高頻熱點(diǎn)詞匯見表5。為了更加直觀地分析輿情熱點(diǎn),將其繪制成詞云,如圖7和圖8所示。

表5 高頻詞匯表

圖7 正面輿論詞云圖

圖8 負(fù)面輿論詞云圖

從圖7和圖8可看出,針對(duì)積極的輿論,在疫情期間集中對(duì)國(guó)家以及醫(yī)護(hù)人員的支持,例如“中國(guó)加油”、“武漢加油”、“致敬”等。

而消極則是體現(xiàn)在對(duì)于疫情源頭的痛恨,例如“野味”、“蝙蝠”。反映了公眾對(duì)于輿論所公布的疫情源頭的痛恨,同時(shí)也出現(xiàn)了“李文亮”,“醫(yī)生”,“護(hù)士”等詞,反映了公眾對(duì)于逝去醫(yī)護(hù)人員的緬懷。

4 結(jié)束語(yǔ)

本文基于情感分析和數(shù)據(jù)可視化方法,對(duì)新冠疫情期間輿論衍生的情感態(tài)勢(shì)進(jìn)行了演化研究。本文基于情感特征對(duì)新型冠狀肺炎疫情期間的網(wǎng)絡(luò)輿論進(jìn)行情感進(jìn)行分析建模。構(gòu)建疫情期間的輿論情感極性分析模型。并結(jié)合輿論的情感特征,對(duì)疫情期間的輿情數(shù)據(jù)進(jìn)行了深入分析與演化研究。通過(guò)可視化技術(shù)將感染疫情患者人數(shù)與輿情情感極性進(jìn)行關(guān)聯(lián)來(lái)探尋輿情演化與疫情之間的潛在關(guān)系,從而把握輿情演變規(guī)律,提出有針對(duì)性的輿情應(yīng)對(duì)方法。以期為輿情生態(tài)系統(tǒng)的治理提供及時(shí)有效地幫助,加強(qiáng)輿情災(zāi)害管理能力。實(shí)驗(yàn)表明,本文模型能夠更加有效地對(duì)輿情數(shù)據(jù)進(jìn)行情感極性分析,同時(shí)進(jìn)行對(duì)疫情與輿情的關(guān)聯(lián)研究,使其從多個(gè)角度把握了輿情演變規(guī)律。

未來(lái)工作將會(huì)關(guān)注輿論的真?zhèn)?,?duì)其進(jìn)行判別并結(jié)合現(xiàn)有成果去分析輿情演變規(guī)律。

[1] 許鑫, 章成志, 李雯靜. 國(guó)內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報(bào)理論與實(shí)踐, 2009, 32(3): 115-120.XU X, ZHANG C Z, LI W J. Research on the Chinese word rough segmentation based on multiple hash dictionary and K-shortest path[J]. Information Studies: Theory & Application, 2009, 32(3):115-120 (in Chinese).

[2] 魏韡, 向陽(yáng), 陳千. 中文文本情感分析綜述[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(12): 3321-3323. WEI W, XIANG Y, CHEN Q. Survey on Chinese text sentiment analysis[J]. Journal of Computer Applications, 2011, 31(12): 3321-3323(in Chinese).

[3] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8): 1834-1848. ZHAO Y Y, QIN B, LIU T. Sentiment analysis[J]. Journal of Software, 2010, 21(8): 1834-1848(in Chinese).

[4] 周詠梅, 楊佳能, 陽(yáng)愛民. 面向文本情感分析的中文情感詞典構(gòu)建方法[J]. 山東大學(xué)學(xué)報(bào): 工學(xué)版, 2013, 43(6): 27-33. ZHOU Y M, YANG J N, YANG A M. A method on building Chinese sentiment lexicon for text sentiment analysis[J]. Journal of Shandong University: Engineering Science, 2013, 43(6): 27-33(in Chinese).

[5] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques[C]//2002 ACL Conference on Empirical Methods in Natural Language Processing. Philadelphia: ACL Press, 2002: 79-86.

[6] 孫建旺, 呂學(xué)強(qiáng), 張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(7): 177-181. SUN J W, Lü X Q, ZHANG L H. On sentiment analysis of Chinese microblogging based on lexicon and machine learning[J]. Computer Applications and Software, 2014, 31(7): 177-181(in Chinese).

[7] HEIKAL M, TORKI M, EL-MAKKY N. Sentiment analysis of Arabic tweets using deep learning[J]. Procedia Computer Science, 2018, 142: 114-122.

[8] 梁軍, 柴玉梅, 原慧斌, 等. 基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 中文信息學(xué)報(bào), 2015, 29(5): 152-159. LIANG J, CHAI Y M, YUAN H B, et al. Polarity shifting and LSTM based recursive networks for sentiment analysis[J]. Journal of Chinese Information Processing, 2015, 29(5): 152-159(in Chinese).

[9] MNIH V, HEESS N, GRAVES A. Recurrent models of visual attention[C]//2001 MIT Neural Information Processing Systems (NIPS) Conference. Cambridge: MIT Press, 2014: 2204-2212.

[10] 史波. 公共危機(jī)事件網(wǎng)絡(luò)輿情應(yīng)對(duì)機(jī)制及策略研究[J]. 情報(bào)理論與實(shí)踐, 2010, 33(7): 93-96. SHI B. Research on the coping mechanism and strategies for network public opinion on public crisis event[J]. Information Studies: Theory & Application, 2010, 33(7): 93-96(in Chinese).

[11] BURKHOLDER B T, TOOLE M J. Evolution of complex disasters[J]. The Lancet, 1995, 346(8981): 1012-1015.

[12] CANTON L G. Emergency management[M]. Hoboken: Wiley-Interscience, 2007: 22-23.

[13] 方付建. 突發(fā)事件網(wǎng)絡(luò)輿情演變研究[D]. 武漢: 華中科技大學(xué), 2011. FANG F J. Study on the evolution of public opinion on network of unexpected event[D]. Wuhan: Huazhong University of Science and Technology, 2011(in Chinese).

[14] 潘崇霞. 網(wǎng)絡(luò)輿情演化的階段分析[J]. 計(jì)算機(jī)與現(xiàn)代化, 2011(10): 203-206. PAN C X. Analysis of evolution phases of network public opinion[J]. Computer and Modernization, 2011(10): 203-206(in Chinese).

[15] 李驍, 黃征. 基于GRU網(wǎng)絡(luò)的互聯(lián)網(wǎng)信息挖掘[J]. 信息技術(shù), 2018, 42(3): 1-5, 9. LI X, HUANG Z. A gated recurrent unit neural network for Web information extraction[J]. Information Technology, 2018, 42(3): 1-5, 9(in Chinese).

[16] 楊東, 王移芝. 基于Attention-based C-GRU神經(jīng)網(wǎng)絡(luò)的文本分類[J]. 計(jì)算機(jī)與現(xiàn)代化, 2018(2): 96-100. YANG D, WANG Y Z. An attention-based C-GRU neural network for text classification[J]. Computer and Modernization, 2018(2): 96-100(in Chinese).

[17] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. [2020-09-01]. https://xueshu.baidu. com/usercenter/paper/show?paperid=147v0rh04e5c0a70qy4u0mc03q394989&site=xueshu_se.

[18] 楊飄, 董文永. 基于BERT嵌入的中文命名實(shí)體識(shí)別方法[J]. 計(jì)算機(jī)工程, 2020, 46(4): 40-45, 52. YANG P, DONG W Y. Chinese named entity recognition method based on BERT embedding[J]. Computer Engineering, 2020, 46(4): 40-45, 52(in Chinese).

[19] 王子牛, 姜猛, 高建瓴, 等. 基于BERT的中文命名實(shí)體識(shí)別方法[J]. 計(jì)算機(jī)科學(xué), 2019, 46(S2): 138-142. WANG Z N, JIANG M, GAO J L, et al. Chinese named entity recognition method based on BERT[J]. Computer Science, 2019, 46(S2): 138-142(in Chinese).

[20] 施聰鶯, 徐朝軍, 楊曉江. TFIDF算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2009, 29(S1): 167-170, 180. SHI C Y, XU C J, YANG X J. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(S1): 167-170, 180(in Chinese).

[21] 任智慧, 徐浩煜, 封松林, 等. 基于LSTM網(wǎng)絡(luò)的序列標(biāo)注中文分詞法[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(5): 1321-1324, 1341. REN Z H, XU H Y, FENG S L, et al. Sequence labeling Chinese word segmentation method based on LSTM networks[J]. Application Research of Computers, 2017, 34(5): 1321-1324, 1341(in Chinese).

[22] 劉春磊, 武佳琪, 檀亞寧. 基于TextCNN的用戶評(píng)論情感極性判別[J]. 電子世界, 2019(3): 48, 50. LIU C L, WU J Q, TAN Y N. Polarity discrimination of user comments based on TextCNN[J]. Electronics World, 2019(3): 48, 50 (in Chinese).

Public opinion evolution analysis of “COVID-19 epidemic”based on sentiment feature

GAN Yu-xiang1, WANG Ya-bo2, XUE Jun-xiao2, ZHANG Ruo-qi3, XU Shu-ning2, GUO Yi-bo4

(1. Zhengzhou United Education Group, Zhengzhou Henan 450001, China; 2. School of Software, Zhengzhou University, Zhengzhou Henan 450002, China; 3. College of Software, Henan Normal University, Xinxiang Henan 453007, China; 4. School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450001, China)

In order to analyze the evolution of public opinion under emergencies and discover the law of the evolution of public opinion, a sentiment feature-based public opinion evolution analysis method was proposed, includdinga News Sentiment Analysis Module and a Public Opinion Evolution Analysis Module. The News Sentiment Analysis Module was based on the BERT pre-training model and the BiGRU model, where BERT was extracted as a word embedding, and BiGRU was employed to extract the contextual links of the textual feature vector to achieve a better understanding of the sentiment polarity of public opinion data. In the Public Opinion Evolution Analysis Module, this paper modeled the dynamic visualization of the sentiment features of public opinion in the time dimension, and then based on the visualization results, enabled the resolution of evolutionary patterns of public opinion data. Finally, a numerical experiment was conducted using one million pieces of the COVID-19 news data from January 1, 2020 to February 19, 2020. The experimental results show that the method proposed in this paper can effectively analyze the sentiment polarity of public opinion data.

COVID-19; analysis of public sentiment and emotion; analysis of public opinion evolution

TP 391

10.11996/JG.j.2095-302X.2021020222

A

2095-302X(2021)02-0222-08

2020-09-16;

16 September,2020;

2020-10-23

23 October,2020

國(guó)家自然科學(xué)基金項(xiàng)目(6160051017);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目;河南省高等學(xué)校青年骨干教師培養(yǎng)計(jì)劃

National Natural Science Foundation of China (6160051017); National Key R & D Plan; Plan for Young Backbone Teachers in Henan Province

甘宇祥(1967-),男,河南信陽(yáng)人,高級(jí)工程師,碩士。主要研究向?yàn)榇髷?shù)據(jù)與人工智能。E-mail:frencgan@126.com

GAN Yu-xiang (1967-), male, senior engineer, master. His main research interests cover data and artificial intelligence. E-mail:frencgan@126.com

薛均曉(1982-),男,河南南陽(yáng)人,副教授,博士。主要研究向?yàn)槿斯ぶ悄?、網(wǎng)絡(luò)空間安全等。E-mail:xuejx@zzu.edu.cn

XUE Jun-xiao (1982-), male, associate professor, Ph.D. His main research interests cover artificial intelligence, cyberspace security, etc. E-mail:xuejx@zzu.edu.cn

猜你喜歡
極性輿情輿論
跟蹤導(dǎo)練(四)
阿桑奇突然被捕引爆輿論
輿情
輿情
突發(fā)事件的輿論引導(dǎo)
表用無(wú)極性RS485應(yīng)用技術(shù)探討
輿情
一種新型的雙極性脈沖電流源
誰(shuí)能引領(lǐng)現(xiàn)代輿論場(chǎng)?
輿論引導(dǎo)中度的把握
聲屏世界(2014年6期)2014-02-28 15:18:07
安义县| 四子王旗| 乌什县| 襄樊市| 湘西| 武宁县| 新宾| 时尚| 革吉县| 武胜县| 乐平市| 元阳县| 鄄城县| 新平| 龙门县| 浮山县| 梁平县| 黄山市| 德州市| 怀安县| 武宣县| 祁阳县| 宁南县| 工布江达县| 任丘市| 岢岚县| 玉环县| 苏州市| 宝应县| 余江县| 三明市| 高雄市| 陇南市| 崇州市| 黄浦区| 鹤壁市| 盖州市| 眉山市| 甘谷县| 株洲市| 长子县|