面向微博文本流的負(fù)面情感突發(fā)話題檢測(cè)

2020-12-31 02:23李艷紅趙宏偉王素格李德玉

計(jì)算機(jī)應(yīng)用 2020年12期

李艷紅，趙宏偉，王素格，李德玉

（1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院，太原 030006；2.計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室（山西大學(xué)），太原 030006）

（?通信作者電子郵箱liyh@sxu.edu.cn）

0 引言

近年來(lái)，社交媒體如Twitter和新浪微博，已經(jīng)是人們了解信息資訊、探討社會(huì)問(wèn)題的主要平臺(tái)，根據(jù)Twitter 發(fā)布的2019 年第四季度財(cái)報(bào)顯示，Twitter 日活躍用戶(hù)增加了700 萬(wàn)人，達(dá)到1.52 億人；根據(jù)新浪微博發(fā)布的用戶(hù)發(fā)展報(bào)告顯示，2019 年第四季度微博月活躍用戶(hù)為5.16 億，同比增長(zhǎng)11.7%。微博受到了越來(lái)越多民眾的歡迎，大家可以享受即時(shí)信息，分享自己的看法，此外信息在微博中迅速?gòu)V泛地傳播，使其成為各類(lèi)突發(fā)話題的第一發(fā)布現(xiàn)場(chǎng)。由于微博信息的高度動(dòng)態(tài)性、交互性、海量性，使民眾在享受服務(wù)便利的同時(shí)，也會(huì)面臨新的挑戰(zhàn)：微博中非負(fù)面情感突發(fā)話題（如明星慶生、體育賽況等）會(huì)吸引大量的網(wǎng)民關(guān)注，而負(fù)面情感突發(fā)話題（如地震災(zāi)害、疫情傳播等）同樣也會(huì)引發(fā)社會(huì)熱議。傳統(tǒng)的突發(fā)話題檢測(cè)方法并沒(méi)有考慮兩者的區(qū)別，導(dǎo)致檢測(cè)出的突發(fā)話題還需進(jìn)一步判定是否為負(fù)面情感突發(fā)話題，這樣既浪費(fèi)了資源，也不能達(dá)到及時(shí)有效的輿論監(jiān)控。

目前，微博突發(fā)話題檢測(cè)方法主要分為兩類(lèi)：以微博文本為中心的方法和以突發(fā)特征為中心的方法。以微博文本為中心的方法首先對(duì)滑動(dòng)窗口中的微博文本聚類(lèi)，然后評(píng)估聚類(lèi)結(jié)果的突發(fā)性從而發(fā)現(xiàn)突發(fā)類(lèi)，最后從突發(fā)類(lèi)中提取主題詞以表示突發(fā)話題，如：Li 等［1］提出了一種增量時(shí)間主題模型，通過(guò)微博文本流的時(shí)間信息進(jìn)行建模，若當(dāng)前時(shí)間窗口中微博數(shù)量相較于歷史均值顯著增加時(shí)，則認(rèn)為存在突發(fā)話題。Diao 等［2］通過(guò)改進(jìn)隱狄利克雷分布（Latent Dirichlet Allocations，LDA）主題模型，綜合考慮了時(shí)間因素和用戶(hù)因素來(lái)發(fā)現(xiàn)微博文本流中的突發(fā)話題。Huang 等［3］首先利用局部加權(quán)線性回歸方法估計(jì)單詞的新穎度和衰減度，然后使用主題模型獲取微博話題，最后將二者相結(jié)合確定主題的突發(fā)度和衰減度，并實(shí)現(xiàn)對(duì)話題的追蹤。Wang 等［4］提出了一種主題級(jí)別的突發(fā)話題檢測(cè)模型，通過(guò)單詞的突發(fā)性以及與其他單詞的共現(xiàn)性來(lái)確定突發(fā)話題。

以突發(fā)特征為中心的方法通過(guò)分析微博流的突發(fā)特征（如主題詞的詞頻、加速度、動(dòng)量、情感特征）的變化來(lái)判斷突發(fā)，然后對(duì)具有突發(fā)特征的微博文本進(jìn)行聚類(lèi)從而獲取突發(fā)話題結(jié)構(gòu)。Fung等［5］首次提出了以特征為中心的突發(fā)話題檢測(cè)方法，通過(guò)分析時(shí)間信息和單詞的分布情況來(lái)發(fā)現(xiàn)特征詞，突發(fā)話題由若干特征詞組成。Zhu 等［6］利用主題詞頻的變化率以及對(duì)其變化趨勢(shì)的預(yù)測(cè)發(fā)現(xiàn)突發(fā)話題，由于在主題的提取過(guò)程中加入了時(shí)間和地理位置信息，得以更好地確定突發(fā)內(nèi)容。Xie等［7］提出了TopicSketch 突發(fā)話題檢測(cè)框架，將單詞對(duì)和三元單詞組的加速度作為突發(fā)特征，然后利用草圖模型和張量分解技術(shù)確定突發(fā)話題的主題。Zhang等［8］在文獻(xiàn)［7］的基礎(chǔ)上，提出了一種改進(jìn)的張量分解模型，將聚類(lèi)和模糊集理論加入到模型當(dāng)中，使其過(guò)濾掉普通主題，從而檢測(cè)出突發(fā)話題。Zou 等［9］首先通過(guò)離線構(gòu)建情感共現(xiàn)圖對(duì)微博文本進(jìn)行情感分類(lèi)，然后利用Kleinberg 等［10］提出的自動(dòng)機(jī)模型判斷每種情感中的微博文本數(shù)量是否存在突發(fā)，最后將具有突發(fā)狀態(tài)的微博主題標(biāo)簽作為突發(fā)話題的關(guān)鍵詞，選擇與其相關(guān)的單詞共同描述突發(fā)話題。Paltoglou 等［11］將與關(guān)鍵詞相關(guān)微博的情感極性相較于歷史情感平均值的變化作為突發(fā)特征發(fā)現(xiàn)突發(fā)話題。張魯民等［12］利用情感符號(hào)模型監(jiān)測(cè)微博流中情感符號(hào)的變化，發(fā)現(xiàn)情感符號(hào)的突發(fā)期，然后通過(guò)啟發(fā)式近鄰傳播（Affiliation Propagation，AP）聚類(lèi)算法得到話題的主題結(jié)構(gòu)。文獻(xiàn)［5-8］在檢測(cè)突發(fā)話題時(shí)沒(méi)有考慮微博的情感特征，文獻(xiàn)［9，11-12］中雖然考慮了微博的情感特征，但在檢測(cè)時(shí)沒(méi)有區(qū)分突發(fā)話題的情感極性。

以微博文本為中心的檢測(cè)方法需先將微博流劃分為多個(gè)滑動(dòng)窗口，并對(duì)窗口中的微博進(jìn)行聚類(lèi)，這種檢測(cè)方式不適合實(shí)時(shí)檢測(cè)任務(wù)。以突發(fā)特征為中心的方法重點(diǎn)在于檢測(cè)微博文本流中突發(fā)特征隨時(shí)間的變化，但是以往的工作還存在以下問(wèn)題需要深入研究：1）由于在輿情監(jiān)控中更加關(guān)注負(fù)面情感突發(fā)話題，因此如何有效地區(qū)分負(fù)面情感突發(fā)話題與非負(fù)面情感突發(fā)話題是當(dāng)前需要解決的問(wèn)題。2）已有的檢測(cè)方法通常采用定長(zhǎng)滑動(dòng)窗口技術(shù)，滑動(dòng)窗口的大小難以確定，因此勢(shì)必對(duì)突發(fā)話題的檢測(cè)帶來(lái)影響。所以，如何確定突發(fā)話題的范圍也是研究難點(diǎn)之一。

針對(duì)以上問(wèn)題，本文提出了面向微博文本流的負(fù)面情感突發(fā)話題檢測(cè)（Negative Emotion Burst Topic Detection，NEBTD）算法。該算法同時(shí)考慮主題詞對(duì)的加速度和負(fù)面情感強(qiáng)度的變化率進(jìn)行負(fù)面情感突發(fā)話題檢測(cè)，并根據(jù)突發(fā)詞對(duì)的速度確定負(fù)面情感突發(fā)話題的持續(xù)范圍，然后使用一種基于吉布斯采樣的狄利克雷多項(xiàng)式混合模型（Gibbs Sampling Dirichlet Multinomial Mixture model，GSDMM）聚類(lèi)算法［13］獲取突發(fā)話題的主題結(jié)構(gòu)。最后通過(guò)與一種已有的基于情感方法的話題檢測(cè)（Emotion-Based Method of Topic Detection，EBM-TD）算法進(jìn)行對(duì)比，結(jié)果表明本文所提算法的準(zhǔn)確率和召回率均有明顯提高，而且可以減少負(fù)面情感突發(fā)話題檢測(cè)的時(shí)間延遲。

1 問(wèn)題的形式化定義

2 負(fù)面情感突發(fā)話題檢測(cè)的相關(guān)定義

2.1 突發(fā)特征定義

在微博文本流中分布著大量話題，這些話題可分為突發(fā)話題和一般話題兩類(lèi)。直觀地，突發(fā)話題區(qū)別于一般話題的特征為：1）微博涌現(xiàn)。突發(fā)話題出現(xiàn)時(shí)，在短時(shí)間內(nèi)微博文本流中會(huì)涌現(xiàn)大量的相關(guān)微博；而一般話題沒(méi)有此特征。2）情感增強(qiáng)。突發(fā)話題出現(xiàn)時(shí)，在短時(shí)間內(nèi)微博文本的情感強(qiáng)度會(huì)明顯增強(qiáng)，特別地，當(dāng)負(fù)面情感突發(fā)話題出現(xiàn)時(shí)，會(huì)伴隨著微博文本流負(fù)面情感強(qiáng)度的顯著增強(qiáng)。

圖1 是對(duì)“全國(guó)多地大雪導(dǎo)致交通癱瘓”這一負(fù)面情感突發(fā)話題和“吳亦凡參加快樂(lè)大本營(yíng)”這一非負(fù)面情感突發(fā)話題的主題詞對(duì)數(shù)量變化和負(fù)面情感強(qiáng)度變化的分析結(jié)果?？梢园l(fā)現(xiàn)，在兩個(gè)話題發(fā)生的早期，主題詞對(duì)數(shù)量在短時(shí)間內(nèi)均有明顯的增多。但由于圖1（a）中的話題引發(fā)了民眾擔(dān)憂(yōu)、焦慮等負(fù)面情感的爆發(fā)，所以微博文本流負(fù)面情感強(qiáng)度在短時(shí)間內(nèi)明顯增強(qiáng)；而圖1（b）為明星參加綜藝節(jié)目，民眾大多為激動(dòng)、喜愛(ài)的情感，話題的負(fù)面情感強(qiáng)度沒(méi)有發(fā)生明顯的變化。由此可見(jiàn)，將主題詞對(duì)加速度和微博文本流負(fù)面情感強(qiáng)度變化率共同作為負(fù)面情感突發(fā)話題的突發(fā)特征是可行的。

圖1 主題詞對(duì)和負(fù)面情感強(qiáng)度分布Fig.1 Distribution of topic word pair and negative emotion intensity

為了檢測(cè)微博文本流中的負(fù)面情感突發(fā)話題，本文提出將主題詞對(duì)的加速度和微博文本流負(fù)面情感強(qiáng)度的變化率作為突發(fā)特征。這是因?yàn)楫?dāng)突發(fā)話題出現(xiàn)時(shí)，會(huì)出現(xiàn)“微博涌現(xiàn)”現(xiàn)象，微博中相關(guān)主題詞的速度也會(huì)隨之明顯增高，而速度的變化快慢可以利用“加速度”來(lái)刻畫(huà)。由于主題詞對(duì)相較于單個(gè)主題詞包含更豐富的話題信息，如：（全國(guó)，大雪）、（大雪，交通）、（交通，癱瘓），因此，可以將主題詞對(duì)的加速度作為突發(fā)特征之一。此外，當(dāng)負(fù)面情感突發(fā)話題出現(xiàn)時(shí)，會(huì)出現(xiàn)“負(fù)面情感增強(qiáng)”現(xiàn)象，微博中帶有負(fù)面情感的情感詞、表情符號(hào)會(huì)明顯增多，因此可以將微博文本流負(fù)面情感強(qiáng)度的變化率作為另一個(gè)突發(fā)特征。

下面依次給出主題詞對(duì)速度、加速度，微博情感強(qiáng)度，微博文本流的負(fù)面情感強(qiáng)度、負(fù)面情感強(qiáng)度變化率定義。

定義1 微博di中主題詞對(duì)(wx，wy)在ti時(shí)刻的速度定義為(wx，wy)在時(shí)間片ΔT內(nèi)的微博出現(xiàn)的平均頻率［7］。表示為：

式中：ΔT是以ti為終止時(shí)間點(diǎn)的時(shí)間片；f j(wx，wy)為微博dj中主題詞對(duì)(wx，wy)的頻率。f j(wx，wy)計(jì)算式為：

定義2主題詞對(duì)(wx，wy)在ti時(shí)刻的加速度通過(guò)以ti為終止時(shí)刻的兩個(gè)時(shí)間片ΔT1、ΔT2所對(duì)應(yīng)的主題詞對(duì)速度的變化快慢來(lái)刻畫(huà)［14］。定義為：

式中：ΔT1< ΔT2。

定義3微博di的情感強(qiáng)度ei，可基于微博中的情感詞三元組(negj，vj，ej)來(lái)計(jì)算［15］。ei的計(jì)算式為：

式中：ne為微博di中情感詞個(gè)數(shù)；q(ej)為情感詞ej的情感強(qiáng)度值(-9 ≤q(ej)≤9)；g(vj)為程度副詞vj的程度值(-3 ≤g(vj)≤3)。其中q(ej)、g(vj)的值通過(guò)給定的情感詞典和程度副詞詞典確定。

若ei< 0，將微博di定義為負(fù)面情感微博；否則，di定義為非負(fù)面情感微博。

定義4ti時(shí)刻微博文本流的負(fù)面情感強(qiáng)度定義為：

式中：α為ΔT時(shí)間內(nèi)，負(fù)面情感微博數(shù)占總微博數(shù)的比值；ej為ΔT時(shí)間內(nèi)所有負(fù)面微博的情感強(qiáng)度值。

定義5ti時(shí)刻微博文本流的負(fù)面情感強(qiáng)度變化率ki，可以通過(guò)以ti為終止時(shí)間點(diǎn)的兩個(gè)時(shí)間片ΔT1和ΔT2所對(duì)應(yīng)的微博文本流負(fù)面情感強(qiáng)度的變化來(lái)刻畫(huà)，計(jì)算式為：

式中：ΔT1< ΔT2。

2.2 負(fù)面情感突發(fā)話題窗口定義

當(dāng)檢測(cè)到微博文本流中主題詞對(duì)的加速度和負(fù)面情感強(qiáng)度變化率均大于特定閾值時(shí)，則認(rèn)為出現(xiàn)了負(fù)面情感突發(fā)話題，并稱(chēng)該主題詞對(duì)為突發(fā)詞對(duì)。由于突發(fā)詞對(duì)的速度在一定程度上可以反映突發(fā)話題的受關(guān)注程度，因此將突發(fā)詞對(duì)的速度均不小于某個(gè)閾值的連續(xù)時(shí)間區(qū)間稱(chēng)為突發(fā)詞對(duì)窗口。又由于負(fù)面情感突發(fā)話題的情感傾向會(huì)隨著時(shí)間的推移發(fā)生變化，因此在確定負(fù)面情感突發(fā)話題窗口時(shí)沒(méi)有考慮情感因素。因?yàn)橐粋€(gè)負(fù)面情感突發(fā)話題中往往會(huì)存在多個(gè)突發(fā)詞對(duì)窗口，因此可以通過(guò)合并多個(gè)交叉、重疊或相鄰的突發(fā)詞對(duì)窗口從而得到負(fù)面情感突發(fā)話題窗口。

下面依次給出突發(fā)詞對(duì)、突發(fā)詞對(duì)窗口和負(fù)面情感突發(fā)話題窗口的定義。

定義6若≥ε，則稱(chēng)該主題詞對(duì)(wx，wy)為突發(fā)詞對(duì)，記為BPx，y。其中ε為突發(fā)詞對(duì)加速度的閾值。

定義7突發(fā)詞對(duì)BPx，y所對(duì)應(yīng)的突發(fā)詞對(duì)窗口BPWx，y利用該詞對(duì)的速度來(lái)確定，定義為：

定義8突發(fā)詞對(duì)BPx1，y1，BPx2，y2，…，BPxnum，ynum，若存在num個(gè)交叉、重疊或相鄰的突發(fā)詞對(duì)窗口BPWx1，y1，BPWx2，y2，…，BPWxnum，ynum，則對(duì)這些窗口進(jìn)行合并，得到負(fù)面情感突發(fā)話題窗口W，定義為：

3 負(fù)面情感突發(fā)話題檢測(cè)

3.1 負(fù)面情感突發(fā)話題檢測(cè)框架

本文提出的微博文本流負(fù)面情感突發(fā)話題檢測(cè)框架如圖2所示。該框架主要包括以下三部分：

1）突發(fā)特征識(shí)別。將微博文本流中主題詞對(duì)的加速度和負(fù)面情感強(qiáng)度的變化率共同作為負(fù)面情感突發(fā)話題的突發(fā)特征。當(dāng)有新的微博文本出現(xiàn)時(shí)，進(jìn)行突發(fā)特征識(shí)別，即統(tǒng)計(jì)微博中主題詞對(duì)的頻率、刷新主題詞對(duì)速度表，并計(jì)算主題詞對(duì)的加速度；根據(jù)微博中的情感詞三元組計(jì)算微博的情感強(qiáng)度、更新微博情感強(qiáng)度表，并進(jìn)一步得到微博文本流負(fù)面情感強(qiáng)度變化率。若主題詞對(duì)加速度和負(fù)面情感強(qiáng)度變化率均大于給定閾值，則認(rèn)為出現(xiàn)了負(fù)面情感突發(fā)話題，并且相應(yīng)的主題詞對(duì)為突發(fā)詞對(duì)。

2）負(fù)面情感突發(fā)話題窗口確定。針對(duì)每個(gè)發(fā)現(xiàn)的突發(fā)詞對(duì)，結(jié)合突發(fā)詞對(duì)的速度來(lái)確定突發(fā)詞對(duì)出現(xiàn)頻繁的區(qū)間，即突發(fā)詞對(duì)窗口。通過(guò)將多個(gè)交叉、重疊或相鄰的突發(fā)詞對(duì)窗口進(jìn)行合并，得到負(fù)面情感突發(fā)話題窗口。

3）負(fù)面情感突發(fā)話題的主題結(jié)構(gòu)獲取。利用基于吉布斯采樣的狄利克雷多項(xiàng)式混合模型（GSDMM）聚類(lèi)算法對(duì)負(fù)面情感突發(fā)話題窗口中的微博文本進(jìn)行聚類(lèi)，得到負(fù)面情感突發(fā)話題的主題結(jié)構(gòu)。該聚類(lèi)方法能夠很好地處理稀疏、高維的短文本，而且可以自動(dòng)推斷聚類(lèi)個(gè)數(shù)，并快速地收斂。

圖2 負(fù)面情感突發(fā)話題檢測(cè)框架Fig.2 Negative emotion burst topic detection framework

3.2 主題詞對(duì)速度表與微博情感強(qiáng)度表

本文設(shè)計(jì)了主題詞對(duì)速度表Z和微博情感強(qiáng)度表E，其中Z為Q*Q數(shù)組，用于保存主題詞對(duì)的速度。Z[x][y]存放的是主題詞對(duì)(wx，wy)的速度和，如圖3所示。

圖3 主題詞對(duì)速度表Fig.3 Speed table of topic word pairs

微博情感強(qiáng)度表E為一維動(dòng)態(tài)變化數(shù)組，用于保存以ti為終止時(shí)刻的ΔT2時(shí)間內(nèi)所有微博的情感強(qiáng)度。

當(dāng)有新的微博文本到達(dá)時(shí)，更新表Z和E，并計(jì)算主題詞對(duì)加速度和微博文本流負(fù)面情感強(qiáng)度變化率，以此來(lái)確定是否存在負(fù)面情感突發(fā)話題。

3.3 負(fù)面情感突發(fā)話題檢測(cè)算法

根據(jù)圖2 所示的負(fù)面情感突發(fā)話題檢測(cè)框架，本文設(shè)計(jì)了一種負(fù)面情感突發(fā)話題檢測(cè)（NE-BTD）算法，如算法1所示。

算法1 負(fù)面情感突發(fā)話題檢測(cè)算法。

輸入微博文本流D，時(shí)間片ΔT1和ΔT2，主題詞對(duì)加速度閾值ε，微博文本流負(fù)面情感強(qiáng)度變化率閾值δ，突發(fā)詞對(duì)速度閾值γ，突發(fā)詞對(duì)合并窗口個(gè)數(shù)閾值m。

輸出負(fù)面情感突發(fā)話題主題結(jié)構(gòu)。

1）按照D中的時(shí)間戳ti逐條讀取微博，進(jìn)行突發(fā)特征計(jì)算：

2）負(fù)面情感突發(fā)話題窗口確定：根據(jù)定義7，確定突發(fā)詞對(duì)窗口。若存在交叉、重疊或相鄰的突發(fā)詞對(duì)窗口BPWx1，y1，BPWx2，y2，…，BPWxnum，ynum，其中num≥m則合并突發(fā)詞對(duì)窗口，得到負(fù)面情感突發(fā)話題窗口W；否則轉(zhuǎn)到1）。

3）負(fù)面情感突發(fā)話題主題結(jié)構(gòu)確定：利用GSDMM 聚類(lèi)算法對(duì)負(fù)面情感突發(fā)話題窗口W內(nèi)的微博文本進(jìn)行聚類(lèi)，得到負(fù)面情感突發(fā)話題主題結(jié)構(gòu)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

本文實(shí)驗(yàn)均在PC 上完成，具體機(jī)器配置如下：CPU 為Intel Core i7-7700 3.6 GHz，內(nèi)存16 GB，Windows 10 操作系統(tǒng)，Pycharm開(kāi)發(fā)環(huán)境，Python版本3.5。

目前針對(duì)負(fù)面情感突發(fā)話題檢測(cè)并沒(méi)有標(biāo)準(zhǔn)的數(shù)據(jù)集，因此本文通過(guò)編寫(xiě)爬蟲(chóng)程序從新浪微博網(wǎng)站（www.weibo.com）爬取了從2019 年12 月23 日到2020 年1 月23 日期間32萬(wàn)余條微博。

針對(duì)本文的任務(wù)需要，對(duì)爬取到的微博數(shù)據(jù)進(jìn)行處理，保留微博的發(fā)布時(shí)間和內(nèi)容信息，形成微博文本流。在實(shí)驗(yàn)前對(duì)微博文本流進(jìn)行預(yù)處理，首先刪除微博內(nèi)容中的噪聲（如@×××、URL 鏈接），并將文本內(nèi)容中詞數(shù)小于3 的微博刪除，然后利用哈爾濱工業(yè)大學(xué)研發(fā)的語(yǔ)言技術(shù)平臺(tái)（Language Technology Platform，LTP）中文分詞工具，對(duì)微博文本進(jìn)行分詞、詞性標(biāo)注、去除停用詞操作，得到了30 余萬(wàn)條微博數(shù)據(jù)。經(jīng)過(guò)對(duì)微博數(shù)據(jù)進(jìn)行人工標(biāo)注，共得到突發(fā)話題48 個(gè)，其中負(fù)面情感突發(fā)話題有28 個(gè)。在實(shí)驗(yàn)中將上述30 余萬(wàn)條微博數(shù)據(jù)劃分為三部分，具體的數(shù)據(jù)描述如表1 所示。本實(shí)驗(yàn)所用的情感詞典是在大連理工大學(xué)徐琳宏等［16］構(gòu)造的情感詞典的基礎(chǔ)上，加入了人工收集的網(wǎng)絡(luò)流行語(yǔ)、表情符號(hào)等，情感詞典規(guī)模從原有的27 467個(gè)情感詞擴(kuò)充到現(xiàn)在的30 035個(gè)情感詞。

表1 數(shù)據(jù)描述Tab.1 Data description

4.2 NE-BTD算法的準(zhǔn)確率、召回率、F1值

本文使用準(zhǔn)確率（P）、召回率（R）、F1 值來(lái)評(píng)價(jià)算法的性能，并在上述三個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。P、R、F1值的計(jì)算公式為：

其中：Right_topic為算法檢測(cè)正確的負(fù)面情感突發(fā)話題數(shù)量；All_topic為算法檢測(cè)到的負(fù)面情感突發(fā)話題數(shù)量；lable_topic為標(biāo)注的負(fù)面情感突發(fā)話題數(shù)量。

本文提出的NE-BTD 算法參數(shù)取值為：主題詞對(duì)加速度閾值ε=0.15，微博文本流負(fù)面情感強(qiáng)度變化率閾值δ=0.20、突發(fā)詞對(duì)速度閾值γ=3.0，ΔT1=15 min，ΔT2=30 min，突發(fā)詞對(duì)窗口合并閾值m=4。目前針對(duì)負(fù)面情感突發(fā)話題的檢測(cè)算法，如文獻(xiàn)［17］提出的一種基于情感方法的話題檢測(cè)（EBM-TD）算法，該算法使用定長(zhǎng)滑動(dòng)窗口內(nèi)的主題詞頻增長(zhǎng)速率，并結(jié)合負(fù)面情感對(duì)主題詞頻加權(quán)來(lái)篩選突發(fā)詞。EBM-TD 算法的參數(shù)取值為：定長(zhǎng)滑動(dòng)窗口長(zhǎng)度為3 h，突發(fā)詞判定閾值0.3，突發(fā)詞聚類(lèi)閾值0.25。

圖4 為本文提出的NE-BTD 算法與EBM-TD 算法在三個(gè)數(shù)據(jù)集上檢測(cè)負(fù)面情感突發(fā)話題的P、R 和F1值的對(duì)比結(jié)果。由圖4 可知，本文所提出的NE-BTD 算法相較于EBM-TD 算法在三個(gè)數(shù)據(jù)集上，其準(zhǔn)確率、召回率、F1 值均有明顯提高。通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)中所有話題的持續(xù)時(shí)間、情感傾向，以及兩種算法檢出突發(fā)話題的情況分析，結(jié)果如表2 所示，可知EBM-TD算法雖然考慮了負(fù)面情感因素，但只是將其作為主題詞的權(quán)重，不能單獨(dú)作為判定負(fù)面情感突發(fā)話題的依據(jù)，以至于會(huì)將部分主題詞頻變化率高的非負(fù)面情感突發(fā)話題誤認(rèn)為是負(fù)面情感突發(fā)話題（如吳亦凡參加快樂(lè)大本營(yíng)），從而導(dǎo)致檢測(cè)準(zhǔn)確率的降低。又因?yàn)镋BM-TD 算法采用定長(zhǎng)滑動(dòng)窗口的方法，窗口可能會(huì)將話題切分開(kāi)，使得主題詞頻變化率達(dá)不到閾值而將突發(fā)話題遺漏，如“女乘客辱罵滴滴司機(jī)”，該突發(fā)話題從10：00 持續(xù)到12：00，而EBM-TD 算法中兩個(gè)定長(zhǎng)滑動(dòng)窗口分別為8：00—11：00、11：00—14：00，由于話題被窗口切分，主題詞頻變化率沒(méi)有達(dá)到閾值，所以未能檢測(cè)到這一突發(fā)話題，從而導(dǎo)致召回率的降低。而本文所提出的NE-BTD 算法根據(jù)每一條微博信息實(shí)時(shí)計(jì)算突發(fā)特征，其中主題詞對(duì)加速度能夠?qū)⒁话阍掝}過(guò)濾掉，負(fù)面情感強(qiáng)度變化率能夠有效地發(fā)現(xiàn)突發(fā)話題中負(fù)面情感突發(fā)話題。

圖4 兩種檢測(cè)算法的P、R、F1值Fig.4 P，R，F(xiàn)1 values of two detection algorithms

表2 部分話題持續(xù)時(shí)間及被檢出情況Tab.2 Duration and detected status of some topics

4.3 NE-BTD算法檢測(cè)的時(shí)效性

為了評(píng)價(jià)NE-BTD 算法檢測(cè)負(fù)面情感突發(fā)話題的時(shí)效性，比較了NE-BTD、EBM-TD 兩種算法檢出同一負(fù)面情感突發(fā)話題的時(shí)間，如圖5所示。

圖5 為五個(gè)負(fù)面情感突發(fā)話題每分鐘相關(guān)話題微博數(shù)隨時(shí)間變化的情況，以及兩種算法檢出負(fù)面情感突發(fā)話題的時(shí)間。由圖5 可知，本文提出的NE-BTD 算法相較于EBM-TD 算法至少提前40 min檢出負(fù)面情感突發(fā)話題，這是因?yàn)椋罕疚乃惴▽?shí)時(shí)進(jìn)行主題詞對(duì)加速度、微博文本流負(fù)面情感強(qiáng)度變化率的計(jì)算，當(dāng)加速度和變化率均達(dá)到閾值時(shí)則認(rèn)為存在負(fù)面情感突發(fā)話題；而EBM-TD 算法由于采用定長(zhǎng)滑動(dòng)窗口的方法，要比較當(dāng)前窗口和歷史窗口主題詞頻的變化情況，所以只有當(dāng)滑動(dòng)窗口結(jié)束后才進(jìn)行主題詞頻的分析，以至于其檢測(cè)出負(fù)面情感突發(fā)話題的時(shí)間滯后。

4.4 負(fù)面情感突發(fā)話題的主題結(jié)構(gòu)

在表3 中列舉了3 個(gè)負(fù)面情感突發(fā)話題，以及EBM-TD 算法檢測(cè)出的突發(fā)詞和NE-BTD 算法檢測(cè)出的突發(fā)詞對(duì)。為獲取負(fù)面情感突發(fā)話題的主題結(jié)構(gòu)，本文采用GSDMM 聚類(lèi)算法對(duì)負(fù)面情感突發(fā)話題窗口中的微博文本聚類(lèi)。以“春運(yùn)首日火車(chē)票購(gòu)買(mǎi)困難”這一負(fù)面情感突發(fā)話題為例，NE-BTD 算法檢測(cè)出了四個(gè)突發(fā)詞對(duì)，將交叉、重疊或相鄰的突發(fā)詞對(duì)窗口合并得到負(fù)面情感突發(fā)話題窗口，通過(guò)對(duì)窗口中的微博文本聚類(lèi)分析，得到該話題的兩個(gè)主題結(jié)構(gòu)，分別為：1）關(guān)于春運(yùn)首日，民眾購(gòu)買(mǎi)火車(chē)票困難的討論；2）民眾對(duì)于12306 購(gòu)票軟件候補(bǔ)功能的討論。

圖5 兩種算法檢出同一負(fù)面情感突發(fā)話題的時(shí)間對(duì)比Fig.5 Time comparison of two algorithms on detecting same negative emotion burst topic

表3 負(fù)面情感突發(fā)話題主題結(jié)構(gòu)Tab.3 Topic structures of negative emotion burst topics

4.5 參數(shù)ε、δ對(duì)算法P、R、F1值的影響

為分析不同的突發(fā)詞對(duì)加速度閾值ε、微博文本流的負(fù)面情感強(qiáng)度變化率閾值δ，對(duì)本文所提出的NE-BTD 算法的準(zhǔn)確率、召回率、F1 值的影響，在FT_DATA、ST_DATA、TT_DATA三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

本文設(shè)置突發(fā)詞對(duì)加速度閾值ε為0.10～0.20、微博文本流的負(fù)面情感強(qiáng)度變化率閾值δ為0.15～0.30進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表4所示。

由表4 可知，當(dāng)ε值一定時(shí)，隨著δ值的增大，算法的召回率下降，這是因?yàn)殡S著δ值的增大，會(huì)將部分負(fù)面情感強(qiáng)度變化率低的負(fù)面情感突發(fā)話題過(guò)濾掉，導(dǎo)致算法的召回率下降。通過(guò)比較數(shù)據(jù)可知，當(dāng)ε為0.15、δ為0.20 時(shí)，在三組數(shù)據(jù)中的效果最優(yōu)，算法的準(zhǔn)確率保持在80%以上，召回率保持在88%以上。

表4 ε一定，不同δ對(duì)算法P、R、F1的影響Tab.4 Under same ε，different δ influence on P，R，F(xiàn)1 of algorithm

5 結(jié)語(yǔ)

本文針對(duì)如何及時(shí)有效地檢測(cè)出微博文本流中負(fù)面情感突發(fā)話題的問(wèn)題，提出了一種面向微博文本流的負(fù)面情感突發(fā)話題檢測(cè)算法，該算法通過(guò)檢測(cè)主題詞對(duì)速度、加速度來(lái)發(fā)現(xiàn)突發(fā)話題，通過(guò)檢測(cè)微博情感強(qiáng)度、微博文本流的負(fù)面情感強(qiáng)度、負(fù)面情感強(qiáng)度變化率將負(fù)面情感突發(fā)話題與非負(fù)面情感突發(fā)話題區(qū)分開(kāi)來(lái)。本文利用突發(fā)詞對(duì)速度確定負(fù)面情感突發(fā)話題的窗口范圍，有效解決了傳統(tǒng)檢測(cè)方法中滑動(dòng)窗口難以確定的問(wèn)題，最后采用GSDMM 聚類(lèi)算法對(duì)負(fù)面情感突發(fā)話題窗口內(nèi)的微博文本進(jìn)行聚類(lèi)，得到負(fù)面情感突發(fā)話題的主題結(jié)構(gòu)，并在實(shí)驗(yàn)中驗(yàn)證了本文所提算法的有效性。在未來(lái)的工作中，我們將針對(duì)參數(shù)的取值進(jìn)行深入研究使其更加精準(zhǔn)有效，此外負(fù)面情感突發(fā)話題的演化、漂移問(wèn)題，也是我們接下來(lái)研究工作的重點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡