于 強(qiáng),徐志棟,時(shí) 斌,魏 偉,任鵬程
1(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)
2(中國(guó)人民解放軍國(guó)防大學(xué) 國(guó)家安全學(xué)院,北京 100091)
3(青島海爾空調(diào)電子有限公司,青島 266101)
4(青島海爾智能技術(shù)研發(fā)有限公司,青島 266101)
信息技術(shù)的發(fā)展促進(jìn)交流方式的轉(zhuǎn)變,眾多網(wǎng)絡(luò)媒體、社交平臺(tái)成為大眾了解信息、獲取信息的重要來源,催生了網(wǎng)絡(luò)輿情這一社會(huì)輿論獨(dú)特表現(xiàn)形式的產(chǎn)生與發(fā)展.網(wǎng)絡(luò)輿論具有強(qiáng)大的社會(huì)監(jiān)督能力[1,2],但如果網(wǎng)絡(luò)輿論失控,將會(huì)給社會(huì)安定帶來不利影響.在眾多類型的人類知識(shí)中,事理邏輯是一種非常重要且普遍存在的知識(shí),許多人工智能應(yīng)用依賴于對(duì)事理邏輯知識(shí)的深刻理解,但目前的研究缺少針對(duì)輿情事件因果動(dòng)態(tài)演化過程的分析,難以對(duì)輿情事件發(fā)展方向進(jìn)行有效預(yù)測(cè)[3].本文依據(jù)采集的輿情數(shù)據(jù)挖掘因果事件邏輯,構(gòu)建事理知識(shí)圖譜,通過文本向量化融合增強(qiáng)事理知識(shí)圖譜的泛化性.針對(duì)目標(biāo)事件,實(shí)現(xiàn)了根據(jù)事理知識(shí)圖譜中相似事件的演化方向,預(yù)測(cè)其未來發(fā)展.
目前在網(wǎng)絡(luò)輿情事件推演方面已經(jīng)出現(xiàn)過諸多研究,前期學(xué)者們多利用模糊推理作為演化規(guī)則來探究輿情的演化規(guī)律.比如張春嬌[4],黨小超等[5]分別考慮信息在傳遞過程中普遍存在模糊性的特點(diǎn),結(jié)合元胞自動(dòng)機(jī)理論和模糊推理算法建立了網(wǎng)絡(luò)輿情傳播的模糊元胞自動(dòng)機(jī)模型;Ding 等[6]利用模糊元胞自動(dòng)機(jī)分析了不同觀點(diǎn)持有者對(duì)輿情發(fā)展的影響.然而基于推理規(guī)則的方法往往停留在對(duì)輿情熱度、情感等表象的研究,忽視了核心輿情事件發(fā)展規(guī)律,泛化性難以保證.近年來得益于計(jì)算機(jī)技術(shù)有力發(fā)展,學(xué)者們開始運(yùn)用大數(shù)據(jù)、人工智能技術(shù)研究網(wǎng)絡(luò)輿情演化規(guī)律.比如蘭月新等[7]定性的分析了大數(shù)據(jù)環(huán)境下網(wǎng)民情緒特征和分類,構(gòu)建了網(wǎng)民情緒演化機(jī)理微分方程模型分析網(wǎng)民情緒演化趨勢(shì);曾子明等[8]等構(gòu)建了基于BP 神經(jīng)網(wǎng)絡(luò)的輿情熱度趨勢(shì)預(yù)測(cè)模型用于預(yù)測(cè)突發(fā)傳染病事件的發(fā)展趨勢(shì);Yang 等[9]利用多類別支持向量機(jī)進(jìn)行觀點(diǎn)挖掘以及情感分析,實(shí)現(xiàn)了對(duì)輿情的趨勢(shì)以及熱度預(yù)測(cè),但該類方法在可解釋性上存在欠缺.
哈爾濱工業(yè)大學(xué)劉挺教授團(tuán)隊(duì)率先提出“事理圖譜(Event Logic Graph,ELG)”[10,11]概念,其本質(zhì)是事件邏輯知識(shí)庫,用于揭示現(xiàn)實(shí)世界事件的演化模式和發(fā)展邏輯,對(duì)于認(rèn)識(shí)人類行為和社會(huì)發(fā)展變化規(guī)律具有重要的意義.目前基于事理圖譜進(jìn)行輿情事件預(yù)測(cè)研究正處于起步階段,單曉紅等[12]、夏立新等[13]、Li等[14]在這一領(lǐng)域做出了一些探索,但在輿情邏輯事件抽取與泛化方面仍有待加強(qiáng).本文在傳統(tǒng)通過模式匹配抽取事件基礎(chǔ)上,研究了基于神經(jīng)網(wǎng)絡(luò)的事件識(shí)別與抽取方法,優(yōu)化了事理知識(shí)圖譜中邊權(quán)重計(jì)算方式,實(shí)驗(yàn)結(jié)果證明本文提出的輿情推演方法有效,可以較好地揭示輿情事件演化規(guī)律,從而為輿情管控提供支持.
基于事理知識(shí)圖譜的輿情推演方法如圖1所示.
圖1 輿情推演流程
首先處理原始輿情語料,識(shí)別、抽取出因果事件元組;其次對(duì)事件進(jìn)行融合減少冗余,完成事理知識(shí)圖譜構(gòu)建與泛化;最終根據(jù)圖譜中事件節(jié)點(diǎn)的演化規(guī)律對(duì)目標(biāo)輿情事件的可能發(fā)展動(dòng)向進(jìn)行研判.
本文以因果關(guān)系邏輯為基礎(chǔ)構(gòu)建事理知識(shí)圖譜,將其分為了兩個(gè)過程.首先對(duì)文本進(jìn)行分析,判斷識(shí)別是否含有因果邏輯,然后再抽取事件元組.
1)因果邏輯識(shí)別
我們將事件因果關(guān)系邏輯識(shí)別作為文本分類任務(wù)處理,設(shè)計(jì)了基于BERT的因果邏輯事件識(shí)別模型.BERT[15]是谷歌團(tuán)隊(duì)于2018年底發(fā)布的基于雙向Transformer[16]的大規(guī)模預(yù)訓(xùn)練語言模型,在多項(xiàng)自然語言處理任務(wù)中獲取了最好效果.
我們對(duì)標(biāo)準(zhǔn)的BERT 模型進(jìn)行了改進(jìn),在BERT模型輸出層取得所有輸入字符對(duì)應(yīng)的輸出向量后對(duì)接文本分類器,分類器選擇包括長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)RNN,用于對(duì)BERT 輸出的向量再次進(jìn)行計(jì)算,判斷其是否含有因果邏輯語義.進(jìn)一步,我們使用了原始的BiLSTM、RNN 以及Transformer模型處理相同的實(shí)驗(yàn)數(shù)據(jù),以對(duì)比分析BERT 模型的加入以及不同BERT 模型改進(jìn)方式對(duì)結(jié)果造成的影響,各個(gè)模型的準(zhǔn)確率在實(shí)驗(yàn)部分給出.實(shí)驗(yàn)結(jié)果顯示BERT-BiLSTM 模型能夠得到最好的識(shí)別分類效果,后續(xù)處理分析將基于BERT-BiLSTM 模型處理結(jié)果進(jìn)行.
用于因果邏輯識(shí)別的BERT-BiLSTM 模型如圖2所示.
對(duì)于任意輸入文本序列,在完成數(shù)據(jù)清洗之后處理為單個(gè)字符的形式輸入模型,便可自動(dòng)判斷其是否屬于因果邏輯性描述.
圖2 因果邏輯識(shí)別
從圖2可以明顯看到BERT 模型由嵌入層、編碼層、輸出層3 部分構(gòu)成,關(guān)鍵部分是雙向Transformer結(jié)構(gòu),實(shí)質(zhì)是一個(gè)基于“自注意力機(jī)制”的深度網(wǎng)絡(luò),即通過計(jì)算同一個(gè)句子中的詞與詞之間的關(guān)聯(lián)程度調(diào)整權(quán)重系數(shù)矩陣以表征詞:
其中,Q,K,V是字向量矩陣,dk是Embedding的維度,多頭注意力機(jī)制通過多個(gè)不同的線性變化對(duì)Q,K,V進(jìn)行投影,通過公式(2)(3)將不同Attention結(jié)果拼接起來.
其中,W是權(quán)重矩陣,由此模型可以實(shí)現(xiàn)對(duì)文本重點(diǎn)特征的聚焦提取.編碼器結(jié)構(gòu)如圖3所示.
圖3 Transformer 編碼器
2)因果邏輯抽取
在篩選得到含有因果邏輯事件描述的文本之后,本文通過BiLSTM-CRF[17]算法獲取因果事件元組.BiLSTM-CRF 算法已被成功應(yīng)用于實(shí)體命名識(shí)別工作中,取得了良好的效果.而元事件抽取與實(shí)體命名識(shí)別有許多共通之處,所以本文將BiLSTM-CRF 算法引用到元事件抽取過程中.類比于命名實(shí)體抽取方法,本文采用序列標(biāo)注任務(wù)中經(jīng)典的BIO 標(biāo)注體系[18]對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,具體使用的標(biāo)注標(biāo)簽如下:
(1)詞語的位置:B (開始),I (內(nèi)部),E (結(jié)束);
(2)語義角色信息:C (原因),R (結(jié)果);
(3)事件的序號(hào):1–N(每個(gè)對(duì)應(yīng)序號(hào)為同一事件的因、果);
(4)其他詞語:O.
例如,對(duì)于“受特大暴雨影響,242 國(guó)道洛南段部分路段被沖毀.”,標(biāo)注結(jié)果如表1所示.因果邏輯事件抽取模型需要對(duì)輸入序列中的每一個(gè)詞語進(jìn)行類別判斷,然后為其輸出一個(gè)類別標(biāo)簽,標(biāo)簽代表了序列的類別和邊界,元事件抽取過程如圖4所示.
表1 標(biāo)注示例
圖4 元事件抽取過程
本文將提取到的元事件轉(zhuǎn)化為圖譜“因 →果”形式,即以事件為節(jié)點(diǎn),因果關(guān)系為邊構(gòu)建事理知識(shí)圖譜.事理知識(shí)圖譜可以表示為EventGraph={Nodes,Edges,Trans forms},其中Nodes={n1,n2,···,nk}為節(jié)點(diǎn),即元事件集合;Edges={e1,e2,···,ek}為邊,即因果關(guān)系,每一條邊都是由原因事件指向結(jié)果事件;Trans forms={t1,t2,···,tk}為邊的權(quán)重,用于計(jì)算某一原因事件造成特定結(jié)果事件的可能性.
對(duì)于抽取結(jié)果中重復(fù)的因果事件描述可能造成圖譜冗余問題,本文分兩種情形處理:
① 重復(fù)描述同一輿情事件存在的因果邏輯.
② 屬于不同輿情事件但內(nèi)容相同的因果邏輯,例如“暴雨引發(fā)山體滑坡”事件,在“2019年7月上中旬長(zhǎng)江中下游洪水”,“四川‘8·20’強(qiáng)降雨特大山洪、泥石流災(zāi)害”等輿情事件中都存在.
我們將事件文本向量化處理,通過相似度計(jì)算解決以上兩種問題.具體方法如下:對(duì)所有輿情事件進(jìn)行分詞處理獲得原始語料數(shù)據(jù),使用Word2Vec[19]模型處理所有原始數(shù)據(jù),得到單詞向量,使用事件文本組成詞的向量和平均值作為事件向量,公式為:
其中,wi是事件ni的組成詞匯,wivec為對(duì)應(yīng)單詞向量,nivec為事件節(jié)點(diǎn)ni的向量.
進(jìn)一步,計(jì)算事件之間向量余弦相似度[20],計(jì)算公式為:
其中,Sim(ni,j)為事件節(jié)點(diǎn)ni與nj的相似度.若兩個(gè)事件相似度高于預(yù)定閾值:
針對(duì)情形①,刪除重復(fù)描述,即同一事件內(nèi)每種因果邏輯只保留一條記錄;
針對(duì)情形②,合并為同一事件節(jié)點(diǎn),并增加對(duì)應(yīng)邊的權(quán)重.如圖5所示,陰影節(jié)點(diǎn)表示兩個(gè)事件高度相似,權(quán)重代表某一事件發(fā)生過的次數(shù).
圖5 相似事件歸并
輿情事件推演是在已知某一事件發(fā)生之后,推測(cè)它可能導(dǎo)致的后續(xù)事件,本文構(gòu)建的輿情推演方法具體步驟如圖6.
圖6 事件推演
為保持一致,對(duì)于目標(biāo)輿情事件我們使用第3.2 節(jié)中同樣的向量化方法進(jìn)行表示.遍歷已構(gòu)建的事理知識(shí)圖譜,基于式(5)計(jì)算目標(biāo)輿情事件與圖譜各個(gè)節(jié)點(diǎn)的相似度,找到相似度最高的節(jié)點(diǎn).如果相似度最大值小于預(yù)設(shè)閾值,說明圖譜中沒有目標(biāo)事件對(duì)應(yīng)節(jié)點(diǎn),無法進(jìn)行推演.否則根據(jù)圖譜中后續(xù)節(jié)點(diǎn)推測(cè)現(xiàn)實(shí)中可能發(fā)生的事件.若某節(jié)點(diǎn)有多個(gè)后續(xù)事件,根據(jù)邊權(quán)重系數(shù)計(jì)算可能發(fā)生概率.如圖7所示,在“泥石流發(fā)生”所引發(fā)的后續(xù)事件中,“淹沒村鎮(zhèn)”發(fā)生概率為4/11,且發(fā)生可能性低于 “沖毀公路設(shè)施”.
圖7 事件發(fā)生概率計(jì)算示例
相似度閾值的設(shè)置對(duì)模型推演效果有著顯著的影響.若相似度閾值設(shè)置過小會(huì)造成事件過度匹配,即事理知識(shí)圖譜中不存在的事件記錄匹配到了事件知識(shí),造成錯(cuò)誤的推演結(jié)果;相反,若相似度閾值設(shè)置過大會(huì)造成事件欠缺匹配,即事理知識(shí)圖譜存在的事件記錄未匹配到事件知識(shí),同樣造成推演結(jié)果的錯(cuò)誤.本文在進(jìn)行多次實(shí)驗(yàn)之后選定相似度閾值為0.72,相關(guān)實(shí)驗(yàn)過程及結(jié)果見第4 節(jié)的輿情推演實(shí)驗(yàn)部分.
自然災(zāi)害給生產(chǎn)活動(dòng)帶來巨大損失同時(shí),還會(huì)引發(fā)社會(huì)輿論的關(guān)注.災(zāi)害輿情具有突發(fā)性強(qiáng)、內(nèi)容復(fù)雜、信息數(shù)量龐大等特點(diǎn),當(dāng)自然災(zāi)害發(fā)生時(shí),積極有效的輿情應(yīng)對(duì)工作對(duì)救災(zāi)工作順利開展、社會(huì)維持穩(wěn)定和增強(qiáng)政府公信力有著重要意義.
本文選取了2019年引發(fā)輿論關(guān)注的全國(guó)十大自然災(zāi)害事件[21],包括“1909 號(hào)超強(qiáng)臺(tái)風(fēng)‘利奇馬’”、“6月上中旬廣西廣東江西等6 省(區(qū))洪澇災(zāi)害”、“貴州水城‘7·23’特大山體滑坡災(zāi)害、“四川‘8·20’強(qiáng)降雨特大山洪泥石流災(zāi)害”、“7月上中旬長(zhǎng)江中下游洪水”、“南方地區(qū)夏秋冬連旱”、“四川長(zhǎng)寧6.0 級(jí)地震”、“四川木里‘3·30’森林火災(zāi)”、“山西鄉(xiāng)寧‘3·15’滑坡災(zāi)害”、“青海玉樹等地雪災(zāi)”.使用網(wǎng)絡(luò)爬蟲工具獲取輿情數(shù)據(jù)信息,共搜集12000 余條輿情數(shù)據(jù),使用本文提出的方法,構(gòu)成事理知識(shí)圖譜共含有1256個(gè)節(jié)點(diǎn)(事件)、842 條邊(因果關(guān)系),部分實(shí)例如圖8.
圖8 自然災(zāi)害事理知識(shí)圖譜(部分)
1)因果邏輯輿情事件識(shí)別
本文搜集了2020年“南方水災(zāi)”這一引發(fā)輿情高度關(guān)注的自然災(zāi)害事件信息,對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注構(gòu)建測(cè)試數(shù)據(jù)集,共包含3000 余條輿情事件文本記錄,根據(jù)包含因果邏輯與否約各1500 條.數(shù)據(jù)中包括“content”的輿情事件內(nèi)容字段以及“l(fā)abel” 標(biāo)注字段(0表示非因果邏輯,1表示包含因果邏輯).實(shí)驗(yàn)對(duì)比基準(zhǔn)文本分類模型與本文所使用的方法在數(shù)據(jù)集的效果,實(shí)驗(yàn)結(jié)果如表2所示.
表2 模型結(jié)果對(duì)比
由表2結(jié)果可以看出,基于標(biāo)準(zhǔn)BERT 模型改進(jìn)的BERT-RNN、BERT-BiLSTM 相對(duì)于基準(zhǔn)RNN、Bi-LSTM 模型都取得了更好的識(shí)別結(jié)果,說明在此數(shù)據(jù)集上BERT 模型憑借其創(chuàng)新的訓(xùn)練模式以及參數(shù)體量的優(yōu)勢(shì)能更加有效的識(shí)別出文本特征信息,從而取得更佳的分類效果.由于本數(shù)據(jù)集中數(shù)據(jù)信息都是完整的輿情事件記錄,文本長(zhǎng)度較大,RNN 模型以及BERT-RNN 模型都未取得較好的效果,而LSTM 由于門控機(jī)制的存在,相對(duì)RNN 能夠更加高效的捕捉更長(zhǎng)距離的依賴,實(shí)現(xiàn)了更好的分類效果,最終BERTBiLSTM 通過結(jié)合BERT 模型與BiLSTM 模型的優(yōu)勢(shì),取得了最優(yōu)的分類效果.
2)輿情推演
鑒于在第3.3 節(jié)中介紹的輿情推演方法與某些推薦算法的工作過程存在異曲同工之處,本文移植了推薦算法的常用評(píng)價(jià)指標(biāo)MRR[24]對(duì)輿情推演結(jié)果做出評(píng)價(jià).
MRR使用正確檢索結(jié)果值在檢索結(jié)果中的排名來評(píng)估檢索系統(tǒng)的性能,是一個(gè)國(guó)際上通用的對(duì)搜索算法進(jìn)行評(píng)價(jià)的機(jī)制,其計(jì)算公式為:
其中,Q為樣本query集合,|Q|表示Q中query個(gè)數(shù),ranki表示在第i個(gè)query中,第1個(gè)正確答案的排名.比如某測(cè)試集有3個(gè)query,結(jié)果中的第一個(gè)正確答案分別被排在第4,2,5 位,則該系統(tǒng)的MRR得分為(1/4+1/2+1/5)/3=0.3177.
在本文中基于已構(gòu)建事理知識(shí)圖譜為測(cè)試事件(因)推測(cè)可能后續(xù)事件(果),出現(xiàn)多個(gè)推測(cè)結(jié)果情況時(shí)則是根據(jù)邊的權(quán)重系數(shù)大小進(jìn)行排序.我們對(duì)2020年“南方水災(zāi)”數(shù)據(jù)中的因果信息進(jìn)行了人工篩選與抽取,共得到166個(gè)因果事件對(duì)作為測(cè)試數(shù)據(jù).使用MRR評(píng)價(jià)指標(biāo)進(jìn)行評(píng)分,最高準(zhǔn)確率得分為0.716,這證明了本文所提出方法的有效性.
同時(shí),本文分析了使用各不同因果識(shí)別模型以及不同事件相似度閾值設(shè)置下對(duì)模型結(jié)果造成的影響,圖9顯示了不同相似度閾值設(shè)置下模型推演結(jié)果準(zhǔn)確率的變化.
圖9 相似度閾值-準(zhǔn)確率影響
通過實(shí)驗(yàn)結(jié)果表明,相似度閾值的變化會(huì)對(duì)模型推演性能造成一定的影響.若相似度閾值設(shè)置過小會(huì)造成事件過度匹配;相反,若相似度閾值設(shè)置過大會(huì)造成事件欠缺匹配.在設(shè)置事件相似度計(jì)算閾值為0.72時(shí)可以在本文數(shù)據(jù)集上取得最優(yōu)結(jié)果.
本文同時(shí)分析了使用不同事件識(shí)別模型對(duì)最終推演結(jié)果的影響,實(shí)驗(yàn)過程事件相似度閾值設(shè)置為0.72,結(jié)果如圖10所示.
圖10 事件識(shí)別模型對(duì)應(yīng)模型推演結(jié)果準(zhǔn)確率
結(jié)果表明,不同因果邏輯事件識(shí)別模型處理結(jié)果的差異進(jìn)一步影響到了因果元事件抽取效果及事理知識(shí)圖譜的構(gòu)建,并最終擴(kuò)散到模型推演效果.選擇更好的因果邏輯事件識(shí)別模型可以增強(qiáng)事理知識(shí)圖譜對(duì)于輿情事件邏輯信息的表達(dá)能力,從而提高輿情推演結(jié)果的準(zhǔn)確率.
本文提出了一種基于事理知識(shí)圖譜的輿情事件推演分析方法,具體介紹了因果邏輯事件識(shí)別與提取、事理知識(shí)圖譜的構(gòu)建、輿情事件演化分析方法,并通過實(shí)驗(yàn)驗(yàn)證了本文提出方法的有效性與先進(jìn)性.輿情事件分析作為輿情治理的核心問題之一,研究輿情事件演化過程對(duì)于維護(hù)社會(huì)長(zhǎng)治久安具有重要意義.
誠(chéng)然,本文工作仍有可以改進(jìn)之處,主要在于因果邏輯抽取層面,未來工作將進(jìn)一步探討如何更加準(zhǔn)確地對(duì)事件邊界進(jìn)行界定.