基于LSTM-BLS的突發(fā)氣象災(zāi)害事件中公眾情感傾向分析

2021-10-14 08:57羅嘉王樂豪涂姍姍宋鴿韓瑩

南京信息工程大學(xué)學(xué)報(bào) 2021年4期

羅嘉王樂豪涂姍姍宋鴿韓瑩

0 引言

我國作為氣象災(zāi)害[1-2]發(fā)生頻率較高的國家之一,各種極端天氣的頻繁發(fā)生,給人們帶來了嚴(yán)重的經(jīng)濟(jì)損失,甚至?xí)T發(fā)災(zāi)難造成人員傷亡．氣象災(zāi)害的發(fā)生不僅是對國家應(yīng)急治理體制的重大考驗(yàn),影響人們的日常生活,還會(huì)在網(wǎng)絡(luò)上引起社會(huì)輿論的爆發(fā)[3],使人產(chǎn)生負(fù)面焦慮的情緒[4]．對于災(zāi)害引起的輿論[5],若不加以干預(yù)引導(dǎo),容易在網(wǎng)絡(luò)上演變成新的突發(fā)事件,加劇危機(jī)事件本身的負(fù)面影響．

網(wǎng)絡(luò)用戶數(shù)量在近幾年呈幾何趨勢增長,大大提升了輿論的產(chǎn)生和傳播速度,網(wǎng)絡(luò)輿論本身帶有的情感指向性和其內(nèi)在包含的應(yīng)用價(jià)值也逐漸成為專家們關(guān)注的熱點(diǎn)．傳統(tǒng)的機(jī)器學(xué)習(xí)算法諸如支持向量機(jī)(Support Vector Machines,SVM)[6]、K-means算法[7]等方法已被提出用于英語和漢語的情感極性分析,且取得了很大的進(jìn)展．但是面對大量數(shù)據(jù)時(shí),傳統(tǒng)算法的訓(xùn)練力不從心．深度學(xué)習(xí)的發(fā)展減輕了機(jī)器學(xué)習(xí)模型手動(dòng)提取特征的負(fù)擔(dān)．長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[8]具有長時(shí)記憶功能并且實(shí)現(xiàn)起來簡單的優(yōu)勢,解決了訓(xùn)練過程中存在的梯度消失和梯度爆炸的問題．文獻(xiàn)[9]將LSTM模型與SVM模型在相同數(shù)據(jù)集上進(jìn)行對比,在情感分類方面LSTM模型的準(zhǔn)確率遠(yuǎn)高于基線模型．輿情文本分析[10-11]是通過度量向量空間中單詞向量之間的關(guān)系進(jìn)行的,因此單詞嵌入的質(zhì)量直接影響到分類結(jié)果．雖然LSTM能夠從訓(xùn)練數(shù)據(jù)中挖掘出更抽象的特征,使其具有很好的泛化能力,但它的擬合能力并不理想,而且LSTM提取特征時(shí)存在語義不完整、精度不高等問題．

研究者通過引入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來彌補(bǔ)上述缺陷,CNN-LSTM模型[12]的提出使得處理高維數(shù)據(jù)更加輕松、精度更高．自然語言包含結(jié)合詞和短語的句法特性使得底層模型不滿足應(yīng)用需求．短文包含的上下文信息往往有限,對其進(jìn)行情感分類具有一定的挑戰(zhàn)性．文獻(xiàn)[13]將10層CNN和10層LSTM結(jié)合起來,使用不同的超參數(shù)和不同的預(yù)訓(xùn)練策略訓(xùn)練,其產(chǎn)生的模型比單獨(dú)使用模型的歷史最高精度更勝一籌．許杰等[14]考慮到CNN并行計(jì)算能力強(qiáng)的優(yōu)點(diǎn)而將其作為特征提取器,提取到的高層次特征輸入到LSTM中得到最終結(jié)果．較之以往模型,該模型能夠在提取局部特征的同時(shí)獲取句子的時(shí)態(tài)語義,提高了情感文本分類的精度．但CNN-LSTM模型存在性能過度依賴于標(biāo)記數(shù)據(jù)的數(shù)量和質(zhì)量,且未考慮到單詞之間的句法依存的問題,情感文本分類的精度仍有提升的空間．

注意到寬度學(xué)習(xí)(Broad Learning System,BLS)作為一種簡單的新型快速增量學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[15],是基于隨機(jī)向量函數(shù)連接網(wǎng)絡(luò)RVFL(Random Vector Functional Link Network),將原始的輸入先通過特征節(jié)點(diǎn)學(xué)習(xí)稀疏的映射特征,然后經(jīng)由增強(qiáng)節(jié)點(diǎn)非線性擴(kuò)展得到增強(qiáng)特征,并聯(lián)兩種特征表達(dá)作為最后的總輸入送到輸出層進(jìn)行分類識別,由此可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到重要的特征,對訓(xùn)練數(shù)據(jù)達(dá)到高度擬合．

本文爬取了2020年末斷崖式降溫輿情文本并對其進(jìn)行數(shù)據(jù)預(yù)處理之后,發(fā)現(xiàn)文本中大多是短句文本，其包含的上下文信息有限,因此底層模型不滿足應(yīng)用需求．將數(shù)據(jù)集使用LSTM模型進(jìn)行訓(xùn)練,得到的實(shí)驗(yàn)結(jié)果在擬合度方面沒有達(dá)到預(yù)期的效果,精確度不高．

考慮到深度學(xué)習(xí)模型能夠從訓(xùn)練數(shù)據(jù)中挖掘出更抽象的特征,這使得它具有很好的泛化能力,而BLS具有能夠從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到重要的特征,對訓(xùn)練數(shù)據(jù)達(dá)到高度擬合的特點(diǎn),因此使用LSTM作為本文模型的特征提取層,將文本進(jìn)行初步分類,再將初步分類的文本輸入到BLS層中進(jìn)一步提取重要特征,最終獲取高精度分類結(jié)果．本文提出的LSTM-BLS模型,將不同級別的特征層信息進(jìn)行融合使用,既有低級紋理信息又有高級語義信息,彌補(bǔ)了LSTM、CNN-LSTM模型在輿情文本分析方面提取特征時(shí)存在語義不完整、精度不高和未考慮到單詞之間的句法依存等問題．實(shí)驗(yàn)結(jié)果表明,本文提出的模型較之于K-means、SVM模型精度分別提高了17.23和13.46個(gè)百分點(diǎn),與LSTM與CNN-LSTM模型相比精度分別提高了7.13和4.17個(gè)百分點(diǎn)．文中模型在經(jīng)過數(shù)據(jù)集測試后取得良好的效果,并且不依賴特定領(lǐng)域的自然語言庫,也可以應(yīng)用在其他中文文本分析驗(yàn)證上,具有廣泛的適用性．

1 模型

1.1 LSTM

LSTM的核心概念在于細(xì)胞狀態(tài)以及“門”結(jié)構(gòu)．

圖1展示了LSTM的基本架構(gòu)，其包含的三個(gè)門：輸入門、遺忘門和輸出門.通過三個(gè)門的函數(shù)和細(xì)胞狀態(tài)，LSTM可以捕獲短期和長期時(shí)間序列中的復(fù)雜相關(guān)性.其中，xt是輸入向量，it是時(shí)間步長t中的輸入狀態(tài)，ft是時(shí)間步長t中的遺忘狀態(tài)，ot是時(shí)間步長t中的輸出狀態(tài)，ht(ht-1)是時(shí)間步長t(t-1)中的隱藏狀態(tài)，ct(ct-1)是時(shí)間步長t(t-1)中的單元狀態(tài).以tanh和sigmoid激活函數(shù)σ的形式在三個(gè)門的頂部添加非線性.

圖1 LSTM的基本架構(gòu)Fig.1 Basic architecture of LSTM

LSTM的數(shù)學(xué)原理在式(1)—(6)中給出:

ft=σ(Wxfxt+Whfht-1+bf)，

(1)

it=σ(Wxixt+Whiht-1+bi)，

(2)

ot=σ(Wxoxt+Whoht-1+bo)，

(3)

(4)

(5)

ht=ot?tanh(ct)，

(6)

其中，Wxf，Whf，Wxi，Whi，Wxo，Who，Wxc，Whc代表了輸入向量與輸入門、輸出門、記憶單元之間對應(yīng)的權(quán)向量，bf，bi，bo，bc是偏置變量，?是矩陣的Hadamard積.

1.2 BLS

BLS網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示．

圖2 BLS網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of BLS

假設(shè)輸入數(shù)據(jù)集X包含N個(gè)樣本，每個(gè)樣本有M個(gè)維度，Y是屬于RN×C的輸出矩陣.對于n個(gè)特征通過式(7)映射后生成k個(gè)節(jié)點(diǎn)：

Zi=φ(XWei+βei),i=1,…,n.

(7)

將所有特征節(jié)點(diǎn)表示為Zn≡[Z1,…,Zn]，第m組增強(qiáng)節(jié)點(diǎn)表示為

Hm≡ξ(ZnWhj+βhj),j=1,…,m,

(8)

其中Wei,Whj和βei,βhj分別是隨機(jī)生成的連接權(quán)重和偏置值.

因此，BLS模型可以表示為

Y=[Z1,…,Zn|ξ(ZnWh1+βh1)，…，ξ(ZnWhm+βhm)]Wm=

[Z1,…,Zn|H1,…，Hm]Wm=

[Zn|Hm]Wm.

(9)

1.3 LSTM-BLS輿情文本情感分類模塊

針對輿情文本的歧義性或多義性的問題,考慮到深度學(xué)習(xí)能夠?qū)γ總€(gè)分量進(jìn)行數(shù)據(jù)特征識別與特征提取,從而實(shí)現(xiàn)分量的單步向前預(yù)測,達(dá)到獲取最終分類的效果的特點(diǎn)，本文在上述基礎(chǔ)模型上通過融合BLS提出了一種新的的文本情感分析模型．該模型整體結(jié)構(gòu)如圖3所示．

圖3 LSTM-BLS的文本情感分析流程Fig.3 Flow chart of text sentiment analysis based on LSTM-BLS

LSTM-BLS模型(圖4)的主體是3個(gè)拼接的LSTM層、2個(gè)全連接層(Dense)和1個(gè)BLS模型通道,3層LSTM通道主要用來提取句子特征,而加入的BLS層可以和別的機(jī)器學(xué)習(xí)算法靈活地結(jié)合，即利用LSTM提取到的特征來訓(xùn)練．并且,其加入的增量學(xué)習(xí)算法,允許在網(wǎng)絡(luò)結(jié)構(gòu)中加入新的節(jié)點(diǎn)時(shí),以很小的計(jì)算開銷來更新網(wǎng)絡(luò)權(quán)重．

圖4 LSTM-BLS模型Fig.4 LSTM-BLS public opinion analysis model

1)第1層是輸入層(input layer),將爬取到的文本進(jìn)行人工數(shù)據(jù)集標(biāo)注后生成的文本導(dǎo)入程序．

2)第2層是嵌入層(embedding layer),作用是把輸入的每個(gè)詞語映射成一個(gè)向量表示．

3)第3～5層是LSTM層,主要是為了提取句子的特征．本文詞向量維度選取300維,選擇的過濾器分別為256、128、64個(gè),訓(xùn)練次數(shù)(epochs)=50,并在LSTM的每一層都加入了dropout機(jī)制,該機(jī)制可以在訓(xùn)練過程中通過讓部分神經(jīng)元停止工作,而達(dá)到防止過擬合的效果．

4)第6層是Dense層,將LSTM層輸出端融合的特征作為全連接層的輸入,應(yīng)用Sigmoid激活函數(shù)后的值是介于0到1之間的浮點(diǎn)數(shù),表示概率或者置信度,并加入L2正則化,防止過擬合．

5)第7層為BLS層,利用前面提取到的特征進(jìn)行計(jì)算,調(diào)用Softmax進(jìn)行分類,其中每個(gè)映射特征點(diǎn)的個(gè)數(shù)N1=10、映射特征個(gè)數(shù)N2=30、增強(qiáng)節(jié)點(diǎn)個(gè)數(shù)N3=280以及正則化參數(shù)C=0.000 1．

2 實(shí)證分析

2.1 數(shù)據(jù)來源

本文主要以2020年末兩次斷崖式降溫輿情數(shù)據(jù)為例．2020年12月28—30日我國中東部大部地區(qū)迎來大風(fēng)降溫天氣,局部地區(qū)遭遇了16 ℃以上的斷崖式降溫．中央氣象臺迅速發(fā)布了最高級別的寒潮橙色預(yù)警．此次寒潮影響范圍廣,以及其伴隨而來的劇烈降溫、長時(shí)間持續(xù)性大風(fēng),給各行各業(yè),甚至人們?nèi)粘５拇┮鲁鲂卸紟砹藰O大的影響,并迅速在網(wǎng)絡(luò)上掀起了輿論風(fēng)暴．本文基于Python的Scrapy模塊,爬取微博大V及相關(guān)媒體共計(jì)37 852條數(shù)據(jù),包括發(fā)表評論的用戶名稱、評論內(nèi)容、發(fā)表時(shí)間、轉(zhuǎn)發(fā)量、點(diǎn)贊量等多極化數(shù)據(jù)信息．

在對文本進(jìn)行訓(xùn)練前,先對爬取到的信息進(jìn)行了一系列的數(shù)據(jù)清洗工作,包括繁體字簡化、刪除垃圾廣告、無效評論等,最終得到32 358條有效數(shù)據(jù)．預(yù)處理包括以下內(nèi)容:

1) 去除含HTML標(biāo)簽的內(nèi)容;

2) 刪除純標(biāo)點(diǎn)評論;

3) 去除表情評論;

4) 單詞詞形還原;

5) 刪除停用詞．

2.2 超參數(shù)設(shè)置

社交網(wǎng)絡(luò)的快速發(fā)展使得媒體信息在社交平臺的傳播更加迅速．災(zāi)害相關(guān)信息會(huì)在事件發(fā)生短期內(nèi)迅速傳播發(fā)酵,在網(wǎng)絡(luò)上引起輿論風(fēng)波．輿情結(jié)果往往會(huì)形成兩極分化,積極的輿論引導(dǎo)事件朝好的方向發(fā)展,而消極的輿論將會(huì)在網(wǎng)絡(luò)上引發(fā)二次災(zāi)害．因此,輿情文本分析的準(zhǔn)確性,大大影響著輿情引導(dǎo)的走向．有鑒于此,本文將數(shù)據(jù)集分為兩個(gè)類別:積極的、消極的．

將分類結(jié)果生成詞云可以直觀地反映正面和負(fù)面評論中出現(xiàn)頻率最高的詞語，可以看到圖5、6中,部分詞匯可以清楚地反映用戶的積極和消極情緒．然而,網(wǎng)絡(luò)評論中時(shí)常包含褒義貶用以及貶義褒用的詞匯,此類詞匯經(jīng)常包含在具有完全相反含義的評論中．因此,僅僅根據(jù)是否出現(xiàn)代表積極或者消極情緒的詞語而對評論進(jìn)行簡單的分類已經(jīng)達(dá)不到預(yù)想的結(jié)果時(shí),便需要深度學(xué)習(xí)技術(shù)來分析詞語之間的關(guān)系,獲取語義從而進(jìn)行分類．

圖5 積極的詞匯Fig.5 Examples of positive word

圖6 消極的詞匯Fig.6 Examples of negative word

本文使用人工標(biāo)注的微博語料數(shù)據(jù)集正向和負(fù)向評論各14 000條,從中挑取正負(fù)向評論各8 000條作為訓(xùn)練集,剩下的作為測試集進(jìn)行測試．實(shí)驗(yàn)需要通過詞袋模型將語料庫更改詞向量,之后將訓(xùn)練好的詞向量輸入到搭建好的神經(jīng)網(wǎng)絡(luò)中．

在本文搭建的輿情文本分析模型中,輸入的詞向量的效果很大程度上影響著最終訓(xùn)練結(jié)果,多次實(shí)驗(yàn)結(jié)果表明,將詞向量進(jìn)行預(yù)訓(xùn)練可以有效地提高模型的準(zhǔn)確率．經(jīng)過不斷調(diào)試模型參數(shù),本文最終采用詞向量維度為300．?dāng)?shù)據(jù)訓(xùn)練前,利用Jieba分詞工具將原文本進(jìn)行分詞、去除停用詞后,將得到的詞語轉(zhuǎn)換為詞向量并進(jìn)行預(yù)訓(xùn)練,得到的結(jié)果將作為本文模型的輸入．

為了得到更加豐富的情感特征信息,本文在LSTM-BLS模型上進(jìn)行了一系列實(shí)驗(yàn)．為了防止過擬合現(xiàn)象,本文使用了dropout機(jī)制和L2正則化．詳細(xì)超參數(shù)設(shè)置如表1所示．

表1 模型超參數(shù)設(shè)置

2.3 結(jié)果討論

為了驗(yàn)證本文提出的模型的有效性，本文使用準(zhǔn)確率(A)、召回率(R)、F1值(F1)作為評估指標(biāo).

準(zhǔn)確率計(jì)算公式：

(10)

召回率計(jì)算公式：

(11)

F1值計(jì)算公式：

(12)

其中：ηTP為正確的匹配數(shù)目；ηFP為匹配不正確的數(shù)目；ηFN為沒有找到正確匹配的數(shù)目；ηTN為正確的非匹配數(shù)目.

將本文使用的LSTM-BLS模型分別與另外的4種模型方法在準(zhǔn)確率上進(jìn)行實(shí)驗(yàn)對比:

1) K-means.K-means算法是無監(jiān)督的聚類算法,因其實(shí)現(xiàn)簡單、聚類效果好,被廣泛應(yīng)用．本文設(shè)置算法模型最大迭代次數(shù)為300,k值為2,容忍度為0.000 1．

2) SVM.SVM是機(jī)器學(xué)習(xí)中最好的現(xiàn)成的分類器,可以不加修改直接使用,并且能夠得到較低的錯(cuò)誤率．本次試驗(yàn)將句子中的單詞轉(zhuǎn)換為詞向量,再將這些向量進(jìn)行加權(quán)平均作為模型的輸入進(jìn)行分類．

3)LSTM.本文使用的是三層LSTM的單通道模型,將詞向量作為輸入,最后通過全連接層和Softmax層輸出分類結(jié)果．

4)CNN-LSTM.該模型由CNN和LSTM組合而成,在上述LSTM模型的基礎(chǔ)上,使用CNN提取特征,作為LSTM模型的輸入．

5)LSTM-BLS.本文提出的模型,是在上述三層LSTM的基礎(chǔ)上拼接了BLS層．將爬取到的微博評論經(jīng)過預(yù)處理,分詞后經(jīng)過詞嵌入生成詞向量,作為本文模型的輸入得到最終準(zhǔn)確率結(jié)果．

實(shí)驗(yàn)結(jié)果對比如表2、3所示．

表2 基線模型在斷崖式降溫?cái)?shù)據(jù)集上的性能對比

由表2和表3可知,在斷崖式降溫?cái)?shù)據(jù)集上,LSTM-BLS模型的網(wǎng)絡(luò)輿情分析準(zhǔn)確率相比基礎(chǔ)的機(jī)器學(xué)習(xí)模型K-means和SVM,分別提高了17.23和13.46個(gè)百分點(diǎn),比LSTM模型提高7.13個(gè)百分點(diǎn),比CNN-LSTM復(fù)合模型提高4.17個(gè)百分點(diǎn)．準(zhǔn)確率和召回率在實(shí)踐中會(huì)出現(xiàn)矛盾的情況,而F1值作為準(zhǔn)確率和召回率的調(diào)和平均值,往往成為實(shí)驗(yàn)最有效的綜合評價(jià)指標(biāo)．由表2、3可知,本文提出的新模型在綜合評價(jià)方面表現(xiàn)最優(yōu),效果最好．綜上,LSTM-BLS模型在文本情感分析方面具有良好的性能,可以更加準(zhǔn)確地對輿情文本進(jìn)行正負(fù)向情感分類,彌補(bǔ)了現(xiàn)有的機(jī)器學(xué)習(xí)模型面對大量數(shù)據(jù)集時(shí)訓(xùn)練吃力的缺陷,解決了深度學(xué)習(xí)模型擬合能力欠佳、精度不高的問題．

表3 本文模型和其他深度學(xué)習(xí)模型在斷崖式降溫?cái)?shù)據(jù)集上的性能對比

3 結(jié)論

氣象輿情分析的主要任務(wù)是為了更加精準(zhǔn)地掌握網(wǎng)絡(luò)輿情動(dòng)態(tài),避免災(zāi)害事件在網(wǎng)絡(luò)輿情方面形成二次災(zāi)害．本文提出的LSTM-BLS算法模型一方面考慮到單詞之間的句法依存問題,另一方面在此次輿情文本分析經(jīng)過爬取到的數(shù)據(jù)集驗(yàn)證測試后,準(zhǔn)確率、F1值均超過K-means、SVM、LSTM和CNN-LSTM模型,在短文本情感分類方面效果優(yōu)異,經(jīng)公開數(shù)據(jù)集驗(yàn)證也同樣具有適用性．將寬度學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,對紛繁復(fù)雜的網(wǎng)絡(luò)輿情文本進(jìn)行準(zhǔn)確的分類,對短文本數(shù)據(jù)信息的有效分析和挖掘,提高了對網(wǎng)絡(luò)輿論的監(jiān)管能力,有利于開展后續(xù)引導(dǎo)工作．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡