国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)間演化圖卷積網(wǎng)絡(luò)的輿情熱點(diǎn)內(nèi)容預(yù)測

2023-04-29 01:10:43文雅楊頻廖珊代金鞘賈鵬
關(guān)鍵詞:分片數(shù)據(jù)量熱點(diǎn)

文雅 楊頻 廖珊 代金鞘 賈鵬

有效預(yù)測輿情事件的熱點(diǎn)內(nèi)容有利于提高對輿論導(dǎo)向的把控能力和對公眾訴求的預(yù)判能力. 然而,現(xiàn)有的輿情預(yù)測工作大多關(guān)注事件整體趨勢指標(biāo)或情感極性的演變預(yù)測,鮮有針對輿情事件熱點(diǎn)內(nèi)容的預(yù)測研究. 為解決以上問題,本文提出一種基于時(shí)間演化圖卷積網(wǎng)絡(luò)的輿情熱點(diǎn)內(nèi)容預(yù)測方法:以輿情事件的熱點(diǎn)詞作為預(yù)測對象,首先,通過演化圖卷積網(wǎng)絡(luò)學(xué)習(xí)各時(shí)間片詞語的空間關(guān)聯(lián)關(guān)系;然后,使用門控循環(huán)單元捕捉各時(shí)間片詞語特征的時(shí)序變化;最后,通過全連接層進(jìn)行輸出,實(shí)現(xiàn)對輿情事件熱點(diǎn)詞的預(yù)測. 以微博上兩個(gè)不同的輿情突發(fā)事件的相關(guān)文本作為數(shù)據(jù)集,與兩種現(xiàn)有熱點(diǎn)詞預(yù)測方法開展對比實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果表明,該方法在兩個(gè)數(shù)據(jù)集上的精確率分別達(dá)到51.21%和50.98%,召回率分別達(dá)到50.17%和48.15%,F(xiàn)1值分別達(dá)到50.68%和49.52%,均高于兩種對比方法,能夠更好地完成輿情事件中熱點(diǎn)詞的預(yù)測.

輿情預(yù)測; 熱點(diǎn)詞預(yù)測; 時(shí)間演化圖卷積網(wǎng)絡(luò)

TP391.1A2023.033001

收稿日期: 2022-11-01

基金項(xiàng)目: 四川省科技廳重點(diǎn)研發(fā)項(xiàng)目(2021YFG0156)

作者簡介: 文雅(1997-), 女, 碩士研究生, 主要研究領(lǐng)域?yàn)檩浨榉治雠c預(yù)測. E-mail: tanya_scu@163.com

通訊作者: 楊頻. E-mail: yangpin@scu.edu.cn

A temporal evolving graph convolutional network for Public opinion prediction in emergencies

WEN Ya1, YANG Pin1, LIAO Shan2, DAI Jin-Qiao1, JIA Peng1

(1. College of Cybersecurity, Sichuan University, Chengdu 610211, China;

2. The 30th Research Institute of China Electronics Technology Group Corporation, Chengdu 610041, China)

Public opinion prediction is one of the key solutions to improve the ability to guide public opinion in emergencies. However, most of the existing public opinion prediction work focuses on the trend indicator or sentiment polarity of events ,while little attention paid to the prediction of hot words and topics in specific events. In this paper, a temporal evolving graph convolutional network for public opinion prediction in emergencies is proposed, in which the hot words associated with specific events are taken as the object of public opinion prediction. Our approach combines evolving graph convolutional network with gated recurrent unit: the former is used to learn the dynamic spatial correlation between words and the latter is used to capture the temporal changes of words, the hot words of an emergency in the next time period is then predicted through full connection layer output. To validate the proposed method, we selected discussion texts related to two emergencies on Weibo as the dataset, and conducted comparative experiments with two existing hot word prediction methods. The results show that our method achieved higher precision, recall, and F1-score in both emergencies, with precision of 51.21% and 50.98%, recall of 50.17% and 48.15%, and F1-scores of 50.68% and 49.52%, respectively. These results demonstrate that our proposed method is effective in predicting public opinion during emergencies

Public opinion prediction; Hot words prediction; Temporal evolving graph convolutional network

1 引 言

輿情指輿論情況,是指在輿情因變事項(xiàng)(下文簡稱輿情事件)發(fā)生、發(fā)展和轉(zhuǎn)變過程中,民眾所持有的看法、觀點(diǎn)和態(tài)度等[1]. 隨著互聯(lián)網(wǎng)和自媒體的發(fā)展,以前只會從事件發(fā)源地慢慢擴(kuò)散流傳的輿情事件,現(xiàn)在則很快通過網(wǎng)絡(luò)散播并被全國各地人民知曉[2]. 網(wǎng)絡(luò)輿情的傳播速度快,傳播規(guī)模大,參與門檻低[3].特別是當(dāng)惡性事件發(fā)生后,如果不能及時(shí)了解民眾訴求,盡快進(jìn)行輿論引導(dǎo),事件輿論可能會加速發(fā)酵升級,給群眾帶來恐慌,甚至影響民眾對政府的信任度[2].因此,有效開展輿論引導(dǎo)工作具有重要意義[4].

及時(shí)發(fā)現(xiàn)和實(shí)時(shí)監(jiān)控輿情可以對輿論引導(dǎo)工作起到幫助[4]. 目前,針對輿情的發(fā)現(xiàn)和監(jiān)控已有廣泛研究,其中Nielsen、Goonie和PALAS等輿情監(jiān)控系統(tǒng)都可以幫助企業(yè)和政府對輿情進(jìn)行發(fā)現(xiàn)和監(jiān)控[3]. 但是這些系統(tǒng)主要用于發(fā)現(xiàn)未知輿情,并對已知輿情的輿論走向進(jìn)行分析,對輿情輿論的未來發(fā)展預(yù)測較少. 面對復(fù)雜多變的網(wǎng)絡(luò)輿情環(huán)境,為了更有效地開展輿論引導(dǎo)工作,需要防患于未然,加強(qiáng)對公眾訴求的預(yù)判能力,預(yù)防突發(fā)的輿論危機(jī),那么一個(gè)關(guān)鍵的解決途徑是對輿情事件下一個(gè)階段的發(fā)展進(jìn)行有效預(yù)測.

如果能夠在輿情事件發(fā)展過程中,對其未來走向進(jìn)行有效預(yù)測,就能夠更加準(zhǔn)確地預(yù)判群眾對事件的看法,及時(shí)調(diào)整輿論引導(dǎo)策略[4]. 目前國內(nèi)外在輿情預(yù)測方面已有較多研究,然而,現(xiàn)有的相關(guān)研究工作,通常只對輿情事件整體的趨勢指標(biāo)或者情感極性進(jìn)行預(yù)測. 這類預(yù)測對象在一定程度上確實(shí)能夠反映大眾對事件的態(tài)度,如大眾對事件關(guān)注度的高低,對事件的態(tài)度是積極還是消極等. 但是這類預(yù)測對象難以捕捉輿情事件發(fā)展過程中群眾關(guān)注點(diǎn)和具體訴求的變化,即輿情熱點(diǎn)內(nèi)容的變化. 及時(shí)了解輿情熱點(diǎn)內(nèi)容變化的意義主要表現(xiàn)在:有助于提高政府和企業(yè)對輿情事件中群眾的關(guān)注點(diǎn)和具體訴求的預(yù)判能力,能夠在苗頭性傾向性問題上掌握主動權(quán),在群眾的不滿和對立等負(fù)面情緒升級之前,進(jìn)行適當(dāng)?shù)牧夹砸龑?dǎo),擺脫被動滯后,使輿論引導(dǎo)更加主動和精準(zhǔn)[4]. 因此,為了達(dá)到更好的輿論引導(dǎo)效果,可以通過預(yù)測輿情事件中熱點(diǎn)內(nèi)容隨時(shí)間的發(fā)展變化及時(shí)獲取群眾的關(guān)注點(diǎn)和具體訴求的變化,進(jìn)而為輿論引導(dǎo)策略的調(diào)整提供參考.

基于上述分析,本文提出了一種基于時(shí)間演化圖卷積網(wǎng)絡(luò)(Temporal Evolving Graph ConvolutionalNetwork,T-EGCN)的輿情熱點(diǎn)內(nèi)容預(yù)測方法. 以輿情事件每個(gè)時(shí)間片的熱點(diǎn)詞作為內(nèi)容預(yù)測對象,通過預(yù)測一個(gè)輿情事件發(fā)展過程中熱點(diǎn)詞的變化來體現(xiàn)熱點(diǎn)內(nèi)容的變化. 具體來說,本文首先搜集社交媒體上針對某個(gè)輿情事件的討論文本,通過主題模型篩選得到每個(gè)時(shí)間片的熱點(diǎn)詞,以此代表該輿情事件不同時(shí)間片群眾的關(guān)注點(diǎn)和具體訴求,即輿情熱點(diǎn)內(nèi)容. 然后,根據(jù)每個(gè)時(shí)間片的熱點(diǎn)詞的熱度權(quán)重為閾值選取每個(gè)時(shí)間片的候選熱點(diǎn)詞語,以關(guān)聯(lián)關(guān)系為邊轉(zhuǎn)化為圖結(jié)構(gòu),形成候選熱點(diǎn)詞空間關(guān)聯(lián)關(guān)系圖. 接著,將詞語特征和圖結(jié)構(gòu)輸入到演化圖卷積網(wǎng)絡(luò)(EvolveGCN)[5],通過候選熱點(diǎn)詞的動態(tài)空間關(guān)聯(lián)關(guān)系,為下一時(shí)間片的熱點(diǎn)詞預(yù)測提供豐富的前序時(shí)間片詞語關(guān)系變化信息. 然后,使用門控循環(huán)單元(GRU)學(xué)習(xí)帶有空間信息的詞語特征,實(shí)現(xiàn)對候選熱點(diǎn)詞時(shí)序關(guān)系的捕捉,使用詞語的時(shí)序信息豐富預(yù)測特征. 最后,使用全連接層進(jìn)行熱點(diǎn)詞預(yù)測輸出. 實(shí)驗(yàn)表明,本文方法相比已知的兩種熱點(diǎn)詞預(yù)測方法,能更準(zhǔn)確地預(yù)測輿情事件下一時(shí)間片的熱點(diǎn)詞,完成輿情熱點(diǎn)內(nèi)容預(yù)測.

本文的主要貢獻(xiàn)有:(1)提出了T-EGCN模型,在EvolveGCN的基礎(chǔ)上融入GRU,通過EvolveGCN捕捉空間特征變化,利用GRU學(xué)習(xí)時(shí)間特征變化,該模型能夠同時(shí)捕獲空間動態(tài)性和時(shí)間動態(tài)性,是圖卷積網(wǎng)絡(luò)(GCN)在時(shí)空預(yù)測任務(wù)上的一個(gè)擴(kuò)展方案,可以應(yīng)用于時(shí)間和空間信息均存在動態(tài)變化的時(shí)空預(yù)測任務(wù);(2)提出了一種網(wǎng)絡(luò)輿情熱點(diǎn)內(nèi)容預(yù)測方法,使用基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法、詞語相對熱度計(jì)算方法和候選熱點(diǎn)詞篩選方法對數(shù)據(jù)進(jìn)行預(yù)處理,并使用T-EGCN模型進(jìn)行預(yù)測,實(shí)現(xiàn)了一種利用輿情事件前序時(shí)間片段的詞語信息,預(yù)測后續(xù)時(shí)間片段該輿情事件熱點(diǎn)詞的方法;(3) 通過實(shí)驗(yàn)驗(yàn)證了本文所提方法能夠在已知前序多個(gè)時(shí)間片的事件數(shù)據(jù)的基礎(chǔ)上,預(yù)測下一時(shí)間片事件的熱點(diǎn)詞,方法預(yù)測效果優(yōu)于近年的兩種預(yù)測未來熱點(diǎn)詞的方法,在本文的兩個(gè)輿情事件數(shù)據(jù)集上,預(yù)測精確率分別達(dá)到51.21%和50.98%,召回率分別達(dá)到50.17%和48.15%,F(xiàn)1值分別達(dá)到50.68%和49.52%.

2 相關(guān)工作

目前,輿情預(yù)測的研究工作中,選取的研究對象主要是趨勢指標(biāo)[6]或情感極性[7]. 張虹等[8]以熱點(diǎn)事件的網(wǎng)絡(luò)論壇點(diǎn)擊率和回復(fù)數(shù)為預(yù)測對象,提出了一種基于小波分析和神經(jīng)網(wǎng)絡(luò)建模的非線性事件序列的預(yù)測方法. 杜慧等[9]針對熱度趨勢指標(biāo)缺乏統(tǒng)一衡量指標(biāo)的問題,提出了一種基于因果模型的主題熱度算法,以定量評估的主題熱度作為預(yù)測對象,實(shí)現(xiàn)了一種基于多峰高斯曲線擬合熱度變化進(jìn)行主題熱度預(yù)測的方法. 崔彥琛等[10]針對輿情預(yù)測研究中情感分析預(yù)測研究不足的問題,提出了一種構(gòu)建事件專屬情感詞典對情感極性進(jìn)行定量分析的方法,以定量評估的情感極性值為預(yù)測對象,實(shí)現(xiàn)了一種基于ARIMA模型的輿情事件情感分析預(yù)測方法. 程鐵軍等[11]以百度指數(shù)作為熱度趨勢指標(biāo),利用模態(tài)分解在非線性噪聲序列數(shù)據(jù)處理方面的優(yōu)勢,提出了一種結(jié)合BP 神經(jīng)網(wǎng)絡(luò)和模態(tài)分解對事件百度指數(shù)進(jìn)行預(yù)測的方法,增強(qiáng)輿情預(yù)測模型的泛化能力和非線性預(yù)測能力. 這些針對趨勢指標(biāo)或情感極性的預(yù)測研究,能夠在一定程度上反映輿情變化,但是并不能細(xì)粒度地反映輿情中群眾關(guān)注點(diǎn)和具體訴求的變化,即輿情熱點(diǎn)內(nèi)容的變化.

而目前針對熱點(diǎn)內(nèi)容的預(yù)測研究,通常只利用前序一個(gè)時(shí)間片的詞語空間關(guān)聯(lián)關(guān)系,如語義關(guān)系或者共現(xiàn)性關(guān)系,對下一時(shí)間片的熱點(diǎn)詞進(jìn)行預(yù)測,未考慮前序多個(gè)時(shí)間片的詞語空間關(guān)聯(lián)關(guān)系對熱點(diǎn)詞預(yù)測的影響. 岳麗欣等[12]提出一種基于word2vec語義關(guān)系的熱點(diǎn)詞預(yù)測方法,將與當(dāng)前熱點(diǎn)主題詞的word2vec詞語相似度最高的詞語作為預(yù)測的未來熱點(diǎn)詞,實(shí)現(xiàn)了對美國干細(xì)胞研究領(lǐng)域熱門研究方向的未來熱點(diǎn)詞預(yù)測. Li等[13]提出了一種基于詞共現(xiàn)概率的關(guān)鍵詞信息熵算法,將上一時(shí)間片中信息熵高的詞組預(yù)測為下一個(gè)時(shí)間片的熱點(diǎn)詞,最后通過新冠肺炎事件作為例子,說明了該算法在預(yù)測流行病事件話題的未來熱點(diǎn)詞上的可行性.

由于輿情熱點(diǎn)內(nèi)容會隨著輿情事件發(fā)展逐漸變化,所以每個(gè)時(shí)間片中詞語出現(xiàn)的頻率是會不斷變化的,詞語空間關(guān)聯(lián)關(guān)系也會隨之改變. 因此,如果要通過前序多個(gè)時(shí)間片的詞語空間關(guān)聯(lián)關(guān)系來預(yù)測熱點(diǎn)詞,就需要同時(shí)捕捉時(shí)間和空間特征.

Zhao等[14]提出了一種基于時(shí)間圖卷積網(wǎng)絡(luò)(Temporal Graph Convolutional Network,T-GCN)的時(shí)空預(yù)測模型,使用GCN學(xué)習(xí)節(jié)點(diǎn)的空間關(guān)聯(lián)關(guān)系特征,使用GRU學(xué)習(xí)節(jié)點(diǎn)的時(shí)間特征,成功將節(jié)點(diǎn)的時(shí)間依賴性和空間依賴性有機(jī)結(jié)合在一起. Pareja等[5]針對GCN難以挖掘圖的動態(tài)演化特征的問題,提出了演化GCN結(jié)構(gòu)的EvolveGCN模型,使用RNN演化圖節(jié)點(diǎn)在圖空間上的時(shí)序變化,能夠?yàn)椴煌臅r(shí)間節(jié)點(diǎn)輸入不同的節(jié)點(diǎn)空間關(guān)聯(lián)關(guān)系圖結(jié)構(gòu),并獲取隨著關(guān)系圖動態(tài)變化的節(jié)點(diǎn)嵌入.

3 基于T-EGCN的輿情熱點(diǎn)內(nèi)容預(yù)測方法

本文提出的基于T-EGCN的輿情熱點(diǎn)內(nèi)容預(yù)測方法的框架如圖1所示,方法架構(gòu)包括數(shù)據(jù)預(yù)處理、候選熱點(diǎn)詞提取、詞語關(guān)系圖構(gòu)建和T-EGCN模型預(yù)測等4個(gè)部分. 首先,通過關(guān)鍵詞搜索從社交媒體上爬取某一輿情事件在演化生命周期內(nèi)的全部原創(chuàng)發(fā)表文本,并對其進(jìn)行過濾清洗和分片. 接著,對每個(gè)時(shí)間片的詞語,通過轉(zhuǎn)贊評計(jì)算得到其內(nèi)容影響力,結(jié)合詞頻-逆文檔頻率(TF-IDF)進(jìn)行熱度量化,得到各個(gè)時(shí)間片的詞語相對熱度排序,并通過主題模型動態(tài)篩選候選主題詞形成候選熱點(diǎn)詞典. 然后,對每個(gè)時(shí)間片,分析候選熱點(diǎn)詞之間的語義相似度和共現(xiàn)性關(guān)系,進(jìn)而結(jié)合內(nèi)容影響力為每個(gè)時(shí)間片構(gòu)造出一個(gè)候選熱點(diǎn)詞空間關(guān)聯(lián)關(guān)系圖. 最后,使用EvolveGCN和GRU分析詞語關(guān)系共同進(jìn)行熱點(diǎn)詞預(yù)測輸出.

3.1 數(shù)據(jù)預(yù)處理

社交媒體上能夠發(fā)表的信息載體有文本、圖片和表情等[15]. 本文主要通過社交媒體上輿情事件的文本數(shù)據(jù)分析輿情熱點(diǎn). 考慮到本文研究的重點(diǎn)為熱點(diǎn)詞,所以對數(shù)據(jù)進(jìn)行去重后,使用正則表達(dá)式過濾掉了tag、表情符號、鏈接和評論的回復(fù)前綴. 由于文本中的名詞、動詞等是具有實(shí)際意義、能夠更好地反應(yīng)輿論熱點(diǎn)的詞語[16],所以使用jieba庫(https://pypi.org/project/jieba/) 進(jìn)行分詞,并做詞性分析,保留名詞、動詞、形容詞等有效詞語,并去除過濾后為空的文本.

在完成數(shù)據(jù)的清洗和過濾工作后,要對其進(jìn)行分片. 目前的輿情預(yù)測研究使用的時(shí)間分片方法通常是均等時(shí)長分片,即在輿情事件的整個(gè)生命周期內(nèi),按均等時(shí)間長度切分?jǐn)?shù)據(jù)進(jìn)行分片分析[3, 9-12],如每M分鐘,每H小時(shí),每D天等,該方法的優(yōu)點(diǎn)是劃分方式簡單,適用于輿情的事后分析工作.

然而,要在輿情事件發(fā)展過程中不斷進(jìn)行熱點(diǎn)內(nèi)容預(yù)測,顯然需要實(shí)時(shí)性. 但由于輿情事件的文本量在不同時(shí)刻變化較大[17],例如當(dāng)事件出現(xiàn)新發(fā)展時(shí),討論量會激增;根據(jù)作息規(guī)律,人們在凌晨的發(fā)帖量總是較少;爆發(fā)期博文數(shù)平均高于產(chǎn)生期和衰退期等. 這些情況導(dǎo)致均等時(shí)長分片的方法存在實(shí)時(shí)分析時(shí)不同時(shí)間片的數(shù)據(jù)量差異較大,而且無法及時(shí)感知輿情事件的突發(fā)新變化的問題,難以滿足本文輿情預(yù)測的實(shí)時(shí)分析需求.

因此,本文提出了一種基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法來實(shí)時(shí)和均衡地劃分?jǐn)?shù)據(jù),其流程如圖2所示. 首先以小時(shí)為單位捕獲數(shù)據(jù),設(shè)第t個(gè)小時(shí)獲取的數(shù)據(jù)量為numt,此時(shí)正在劃分第k個(gè)時(shí)間片的數(shù)據(jù),其已獲取的數(shù)據(jù)量為slicek,每個(gè)時(shí)間片的最小數(shù)據(jù)量閾值為MIN,當(dāng)slicek達(dá)到MIN時(shí),將slicek劃分為一個(gè)時(shí)間片的數(shù)據(jù). 本文參考事件輿情產(chǎn)生期的第一個(gè)數(shù)據(jù)量激增周期數(shù)據(jù)設(shè)置閾值MIN.

3.2 候選熱點(diǎn)詞提取

熱點(diǎn)詞是通過算法挑選出的能代表每個(gè)時(shí)間片中網(wǎng)民觀點(diǎn)的詞語[18,19]. 目前的研究當(dāng)中,通常使用的選方法有兩種,分別是基于主題模型的提取方法[12, 17, 20]和基于詞頻等權(quán)重排序的選取方法[13, 18, 21,22]. 由于目前沒有統(tǒng)一的挑選方法,本文同時(shí)考慮主題模型和權(quán)重排序,更全面地提取候選熱點(diǎn)詞.

本文結(jié)合內(nèi)容影響力和TF-IDF,獲取詞語的權(quán)重排序. 其中,內(nèi)容影響力代表一條文本對群眾的影響. 一般來說,文本的轉(zhuǎn)贊評在很大程度上體現(xiàn)了文本的影響力[18]. 不同影響力的文本對包含在其中的詞語的權(quán)重貢獻(xiàn)程度應(yīng)該不同,然而傳統(tǒng)的TF-IDF忽略了這一點(diǎn)[21].

本文在TF-IDF的基礎(chǔ)上加入內(nèi)容影響力作為TF-IDF的權(quán)重. 具體過程如下:對第t個(gè)時(shí)間片的文本d,其內(nèi)容影響力P(d)的計(jì)算公式為

P(d)=RPd+RTd+Ld+1RPDt+RTDt+LDt+NDt(1)

其中,RPDt、RTDt和LDt分別表示第t個(gè)時(shí)間片中的所有文本的回復(fù)總數(shù)、轉(zhuǎn)發(fā)總數(shù)和點(diǎn)贊總數(shù);NDt表示第t個(gè)時(shí)間片中的文本總數(shù);RPd、RTd和Ld表示文本d的回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù). 該公式可以使轉(zhuǎn)贊評越多的文本,其P(d)越大.

然后,將P(d)加入到TF-IDF當(dāng)中. 對文本d中出現(xiàn)的詞j,其權(quán)重表示為wj,t,wj,t的計(jì)算公式為

wj,t=∑Dtd=1Pd·tf-idfd,j(2)

其中,Dt表示第t個(gè)時(shí)間片中的所有文本;P(d)表示文本d的內(nèi)容影響力;tf-idfd,j表示文本d中詞j的TF-IDF值.

通過式(2)得到第t個(gè)時(shí)間片中所有詞語的權(quán)重后,進(jìn)行降序排列,便得到詞語的權(quán)重排序. 接下來即可設(shè)置閾值,選取排序靠前的詞語作為候選熱點(diǎn)詞.

本文選取在短文本上表現(xiàn)較佳的GSDMM主題模型[23,24]構(gòu)建每個(gè)時(shí)間片的熱點(diǎn)詞集并設(shè)置候選熱點(diǎn)詞選取閾值,具體方法如下:對第t個(gè)時(shí)間片的數(shù)據(jù),通過GSDMM主題模型抽取每個(gè)主題的前N個(gè)主題詞加入熱點(diǎn)詞集,根據(jù)式(2)計(jì)算得到的詞語權(quán)重排序,取熱點(diǎn)詞集中權(quán)重最低的詞的權(quán)重為閾值,選出該時(shí)間片所有權(quán)重高于該閾值的詞形成候選熱點(diǎn)詞典.

3.3 詞語關(guān)系圖構(gòu)建

對第t個(gè)時(shí)間片的所有候選熱點(diǎn)詞,根據(jù)詞語的語義和共現(xiàn)性,將它們關(guān)聯(lián)起來,構(gòu)建候選熱點(diǎn)詞空間關(guān)聯(lián)關(guān)系圖,其結(jié)構(gòu)參考圖3.

圖3中節(jié)點(diǎn)Wi,t和Wj,t表示第t個(gè)時(shí)間片的第i和j個(gè)候選熱點(diǎn)詞,Si=sa,sb,sc,sd代表第t個(gè)時(shí)間片的文本中出現(xiàn)詞Wi,t的文本集合,Sj=sa,sb,se,sk代表第t個(gè)時(shí)間片的文本中出現(xiàn)詞Wj,t的文本集合,文本和詞是多對多的關(guān)系. 本文提出一種結(jié)合內(nèi)容影響力的候選熱點(diǎn)詞相關(guān)性計(jì)算方法,來確定圖中詞與詞之間的邊的權(quán)值,即相關(guān)性ri,j,t. 如圖3所示,詞Wi,t和詞Wj,t的公共文本集合為ssame=sa,sb,其內(nèi)容影響力權(quán)重為hssame,不同文本集合為sdiff=sc,sd∪se,sk,其均值word2vec文本相似度[25]為simsdiff,內(nèi)容影響力權(quán)重為hsdiff,則詞Wi,t和詞Wj,t的相關(guān)性ri,j,t的計(jì)算公式為

ri,j,t=hssame+hsdiff·simsdiff(3)

內(nèi)容影響力權(quán)重hs的計(jì)算公式為

hs=RPs+RTs+Ls+NsRPS+RTS+LS+NS(4)

其中S表示Si和Sj的并集;s代表ssame或者sdiff,NS表示S包含的文本總數(shù);RPS、RTS和LS表示S包含的文本的回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù); Ns表示s1或者s2包含的文本總數(shù),RPs、RTs和Ls表示ssame或者sdiff包含的文本的回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù). 轉(zhuǎn)贊評越多的文本,其內(nèi)容影響力權(quán)重越大,詞語之間的相互影響程度越高.

以式(3)計(jì)算得到的相關(guān)性特征值作為圖結(jié)構(gòu)中節(jié)點(diǎn)之間的邊的權(quán)值,可以表現(xiàn)出第t個(gè)時(shí)間片的候選熱點(diǎn)詞之間的語義相似性和共現(xiàn)性關(guān)系,即空間關(guān)聯(lián)關(guān)系.

3.4 T-EGCN模型預(yù)測

T-EGCN模型利用EvolveGCN學(xué)習(xí)隨著時(shí)間片變化的輿情事件候選熱點(diǎn)詞關(guān)聯(lián)關(guān)系圖的拓?fù)浣Y(jié)構(gòu),獲得空間維度特征. 再將帶有空間信息的特征輸入GRU,提取時(shí)間維度特征,最后通過全連接層進(jìn)行預(yù)測輸出,模型結(jié)構(gòu)如圖4所示.

圖4的左側(cè)部分展示了T-EGCN模型的整體結(jié)構(gòu),它由前后依次連接的T-EGCN單元組成,每個(gè)T-EGCN單元內(nèi)部包含一個(gè)EvolveGCN層以及一個(gè)GRU層. 模型的輸入為節(jié)點(diǎn)特征矩陣Ot和通過候選熱點(diǎn)詞空間關(guān)聯(lián)關(guān)系圖得到的帶權(quán)重的鄰接矩陣At,EvolveGCN層通過圖卷積的過程來學(xué)習(xí)空間依賴性,GRU層通過重置門Rt和更新門Zt來學(xué)習(xí)時(shí)間依賴性.

圖4的右側(cè)部分展示了T-EGCN模型的內(nèi)部構(gòu)成. 在EvolveGCN層中,使用基于頻域的GCN來聚合候選熱點(diǎn)詞節(jié)點(diǎn)的鄰居信息,加入權(quán)重參數(shù)矩陣Wt,用于記憶和傳遞圖空間的時(shí)序變化,共同計(jì)算節(jié)點(diǎn)的嵌入矩陣Xt,具體計(jì)算過程如下.

At=At+I(5)

Dt=diag(∑jAtij)(6)

A︿t=Dt-12AtDt-12(7)

Xt=σA︿tOtWt(8)

其中,At為帶權(quán)重的鄰接矩陣;I為單位矩陣;diag表示加入自環(huán)圖的度矩陣計(jì)算函數(shù),得到對角線為對應(yīng)節(jié)點(diǎn)度加1,其余數(shù)值為0的度矩陣Dt;Ot是節(jié)點(diǎn)特征矩陣;Wt為EvolveGCN權(quán)重參數(shù)矩陣; σ代表ReLU激活函數(shù);卷積得到的節(jié)點(diǎn)嵌入矩陣Xt為GRU層的輸入.

如圖4所示,EvolveGCN層中也包含能夠傳遞圖結(jié)構(gòu)時(shí)序信息的GRU單元. 但是與GRU層相比,兩者的輸入It不相同:在GRU層中,輸入It是第t個(gè)時(shí)間片中EvolveGCN層卷積得到的節(jié)點(diǎn)嵌入矩陣Xt,學(xué)習(xí)的是詞語節(jié)點(diǎn)特征的時(shí)序變化;而在EvolveGCN層的 GRU單元中,輸入It是第t個(gè)時(shí)間片的候選熱點(diǎn)詞節(jié)點(diǎn)特征矩陣Ot,學(xué)習(xí)的是詞語圖空間的時(shí)序變化. 在第t個(gè)時(shí)間片中,GRU層和EvolveGCN層的GRU單元的重置門Rt、更新門Zt、候選隱藏狀態(tài)Ct和最終隱藏狀態(tài)Ct的計(jì)算公式為

Rt=σUrxIt+UrhCt-1+Br(9)

Zt=σUzxIt+UzhCt-1+Bz(10)

Ct=tanhUcxIt+Uch(Rt.Ct-1)+Bh(11)

Ct=Zt.Ct-1+1-Zt.Ct(12)

其中,U為可學(xué)習(xí)的權(quán)重參數(shù);B為可學(xué)習(xí)的偏差參數(shù);It為當(dāng)前時(shí)間片t的輸入;Ct-1為上一時(shí)間片的隱藏狀態(tài);σ代表sigmoid激活函數(shù);tanh代表tanh激活函數(shù);*代表哈達(dá)瑪積.

因此,EvolveGCN層的權(quán)重參數(shù)Wt和GRU層的隱藏狀態(tài)Ht的參數(shù)傳遞和計(jì)算過程如下.

Wt=GRUIt=Ot,Ct-1=Wt-1(13)

Ht=GRUIt=Xt,Ct-1=Ht-1(14)

可以看到,兩個(gè)GRU網(wǎng)絡(luò)結(jié)構(gòu)的輸入輸出存在差異,本文利用GRU的特性來捕捉和學(xué)習(xí)不同維度的時(shí)序變化. 最后,將GRU層的Ht作為最終節(jié)點(diǎn)特征表示,輸入到全連接層當(dāng)中,得到下一時(shí)間片的熱點(diǎn)詞預(yù)測Yt+1.

4 實(shí)驗(yàn)與分析

本節(jié)將基于微博輿情事件數(shù)據(jù)集,展開驗(yàn)證實(shí)驗(yàn). 首先,詳細(xì)介紹所用的數(shù)據(jù)集、評價(jià)指標(biāo)和相關(guān)實(shí)驗(yàn)設(shè)置. 然后,基于對比實(shí)驗(yàn),深入討論分析本文方法的優(yōu)點(diǎn)和不足. 其中,為了驗(yàn)證本文方法在時(shí)間分片上的數(shù)據(jù)均衡性和實(shí)時(shí)性,基于事件數(shù)據(jù)集,開展本文分片方法與常規(guī)分片方法的對比實(shí)驗(yàn);為了驗(yàn)證本文方法在未來熱點(diǎn)詞預(yù)測上的有效性,基于事件數(shù)據(jù)集,開展本文方法與該領(lǐng)域新工作的對比實(shí)驗(yàn);為了以更直觀的方式展現(xiàn)本文方法在預(yù)測熱點(diǎn)詞方面的效果,基于事件數(shù)據(jù)集,繪制熱點(diǎn)詞云進(jìn)行對比分析.

4.1 數(shù)據(jù)集

(1) 數(shù)據(jù)集A.爬取自新浪微博上關(guān)于2018年“女孩乘滴滴遇害”事件發(fā)布時(shí)間介于2018年 8月25日9時(shí)至8月31日24時(shí)生命周期內(nèi)[18]的中文原創(chuàng)微博文本和熱門微博評論文本,共38 668條. 通過過濾清洗,得到結(jié)果不為空且不重復(fù)的文本29 521條. 按照本文基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法,設(shè)最小數(shù)據(jù)量閾值MIN=500,將數(shù)據(jù)劃分為43個(gè)時(shí)間片,由于數(shù)據(jù)向前遞補(bǔ),所以最后一個(gè)時(shí)間片數(shù)據(jù)僅有431條,不足500條,為避免數(shù)據(jù)量不均衡問題,去掉最后一個(gè)時(shí)間片的數(shù)據(jù),最終數(shù)據(jù)的時(shí)間介于2018年 8月25日9時(shí)至8月30日19時(shí),一共有29 090條,分為42個(gè)時(shí)間片.

(2) 數(shù)據(jù)集B.爬取自新浪微博上關(guān)于2021年“三只松鼠模特妝容爭議”事件發(fā)布時(shí)間介于2021年 12月25日13時(shí)至12月29日24時(shí)生命周期內(nèi)的中文原創(chuàng)微博文本和熱門微博評論文本,一共有22 769條. 通過過濾清洗,得到結(jié)果不為空且不重復(fù)的文本17 900條. 按照本文基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法,設(shè)最小數(shù)據(jù)量閾值MIN=200,將數(shù)據(jù)劃分為51個(gè)時(shí)間片,由于數(shù)據(jù)向前遞補(bǔ),所以最后一個(gè)時(shí)間片數(shù)據(jù)僅有191條,不足200條,為避免數(shù)據(jù)量不均衡問題,去掉最后一個(gè)時(shí)間片的數(shù)據(jù),最終數(shù)據(jù)的時(shí)間介于2021年 12月25日13時(shí)至12月29日21時(shí),一共有17 709條,分為50個(gè)時(shí)間片.

4.2 評估指標(biāo)

由于方法的最終目標(biāo)是預(yù)測未來時(shí)間片的熱點(diǎn)詞,就實(shí)驗(yàn)結(jié)果而言,對詞語的判定為:若在第t個(gè)時(shí)間片的預(yù)測熱點(diǎn)詞集中則“是第t個(gè)時(shí)間片的熱點(diǎn)詞”,不在詞集中則“不是第t個(gè)時(shí)間片的熱點(diǎn)詞”. 所以可以看作分類預(yù)測,采用分類預(yù)測算法常用的評價(jià)指標(biāo),即精確率(Precision)、召回率(Recall)和兩者的調(diào)和平均(F1-score)對算法進(jìn)行評估,計(jì)算公式如下.

Precision=TPTP+FP(15)

Recall=TPTP+FN(16)

F1-score=2·Precision·RecallPrecision+Recall(17)

其中,TP代表真陽性,即預(yù)測結(jié)果和實(shí)際都為熱點(diǎn)詞的詞語數(shù)量;FP代表假陽性,即預(yù)測結(jié)果為熱點(diǎn)詞,但實(shí)際不是熱點(diǎn)詞的詞語數(shù)量;TN代表真陰性,即預(yù)測結(jié)果和實(shí)際都為非熱點(diǎn)詞的詞語數(shù)量;FN代表假陰性,即預(yù)測結(jié)果為非熱點(diǎn)詞,實(shí)際卻是熱點(diǎn)詞的詞語數(shù)量.

4.3 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)設(shè)置如下:

(1) 將數(shù)據(jù)集按時(shí)序關(guān)系切割成7∶3的兩部分,T-EGCN模型每次利用前序三個(gè)時(shí)間片的圖信息進(jìn)行學(xué)習(xí),預(yù)測下一個(gè)時(shí)間片的熱點(diǎn)詞. 因此,最開始的三個(gè)時(shí)間片不能作為預(yù)測輸出,數(shù)據(jù)集A構(gòu)成26個(gè)訓(xùn)練集和12個(gè)測試集,數(shù)據(jù)集B構(gòu)成31個(gè)訓(xùn)練集和15個(gè)測試集.

(2) T-EGCN模型輸入的節(jié)點(diǎn)特征值和輸出的節(jié)點(diǎn)預(yù)測值為詞語在對應(yīng)時(shí)間片的相對權(quán)重,優(yōu)化器為Adam,學(xué)習(xí)率為0.005,EvolveGCN層和GRU層的隱藏層單元數(shù)目均為200.

(3) 將整個(gè)數(shù)據(jù)集中出現(xiàn)的詞語進(jìn)行匯總,在第t個(gè)時(shí)間片中,對詞匯表的每個(gè)詞,根據(jù)真實(shí)熱點(diǎn)詞集,出現(xiàn)在熱點(diǎn)詞集中的詞語標(biāo)記為1,其余詞語標(biāo)記為0,作為樣本的真實(shí)標(biāo)簽. 以各類算法提取出的預(yù)測熱點(diǎn)詞集為預(yù)測結(jié)果,對詞匯表的每個(gè)詞,出現(xiàn)在預(yù)測熱點(diǎn)詞集中的詞語標(biāo)記為1,其余詞語標(biāo)記為0,作為樣本的預(yù)測標(biāo)簽.

(4) 本實(shí)驗(yàn)所用GPU服務(wù)器的顯卡型號為NVIDIA GeForce RTX 3090,顯存為24 G,編程語言為python,深度學(xué)習(xí)框架為pytorch.

4.4 實(shí)驗(yàn)結(jié)果與分析

本小節(jié)在GSDMM主題模型提供的對輿情事件的主題提取分析結(jié)果的基礎(chǔ)上,開展實(shí)驗(yàn).

4.5.1 時(shí)間分片對比實(shí)驗(yàn) 為了驗(yàn)證本文所提出的基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法比均等時(shí)長的時(shí)間分片方法更具有數(shù)據(jù)均衡性和實(shí)時(shí)性,對清洗后的數(shù)據(jù)數(shù)量進(jìn)行分片統(tǒng)計(jì). 對照組為每小時(shí)分片和每X小時(shí)分片,不同數(shù)據(jù)集選擇的X數(shù)值不同的原因是:在對應(yīng)數(shù)據(jù)集上選取的X時(shí)間長度和本文方法在對應(yīng)數(shù)據(jù)集上劃分的總數(shù)據(jù)片數(shù)最相近,在數(shù)據(jù)集A上X選擇4,劃分結(jié)果為39個(gè)時(shí)間片,在數(shù)據(jù)集B上X選擇2,劃分結(jié)果為52個(gè)時(shí)間片. 最終在兩個(gè)數(shù)據(jù)集上得到微博條數(shù)隨不同時(shí)間分片方法變化的規(guī)律如圖5和圖6所示.

從數(shù)據(jù)均衡性上來看,如圖5和圖6所示,當(dāng)按每小時(shí)和每X小時(shí)切分文本時(shí),不同時(shí)刻的數(shù)據(jù)量波動較大,特別是按每小時(shí)分片,某些凌晨時(shí)刻的博文數(shù)接近0,導(dǎo)致時(shí)間序列分析時(shí)會出現(xiàn)信息斷層問題,而本文方法每個(gè)分片的數(shù)據(jù)量分布明顯更加均衡,分片數(shù)量也更合理.

從實(shí)時(shí)性上來看,如圖5和圖6所示,每X小時(shí)分片的數(shù)據(jù)量峰值相較本文基于數(shù)據(jù)量的動態(tài)時(shí)間分片,有一定的滯后性. 例如圖5中數(shù)據(jù)集A的第32個(gè)小時(shí),事件數(shù)據(jù)量激增,討論較為激烈,但是每4個(gè)小時(shí)分片的方法會在第36個(gè)小時(shí)后,才將32~36這4個(gè)小時(shí)的數(shù)據(jù)劃分為一個(gè)時(shí)間片進(jìn)行分析,而本文基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法能夠感知數(shù)據(jù)量的激增,在第32~36小時(shí)期間幾乎每個(gè)小時(shí)就會匯總劃分一個(gè)時(shí)間片,能夠及時(shí)捕捉由于事件出現(xiàn)新進(jìn)展而出現(xiàn)的討論峰值.

由上述分析可知,均等時(shí)長的時(shí)間分片方法存在信息量不均等,捕捉數(shù)據(jù)激增點(diǎn)的滯后性明顯的缺點(diǎn). 而本文提出的基于數(shù)據(jù)量的動態(tài)時(shí)間分片方法能夠使每個(gè)時(shí)間片數(shù)據(jù)量相當(dāng),信息量均衡,并且能夠及時(shí)獲取事件的數(shù)據(jù)激增點(diǎn),實(shí)時(shí)性較好.

4.5.2 輿情熱點(diǎn)詞預(yù)測對比實(shí)驗(yàn) 針對上述兩個(gè)輿情事件數(shù)據(jù)集,將本文提出的基于T-EGCN的輿情熱點(diǎn)內(nèi)容預(yù)測方法和兩個(gè)近年的未來熱點(diǎn)詞預(yù)測方法以及EvolveGCN模型在網(wǎng)絡(luò)輿情熱點(diǎn)內(nèi)容預(yù)測上的性能進(jìn)行對比,相關(guān)對比方法描述如下.

(1) 基于word2vec的方法[12]:計(jì)算當(dāng)前時(shí)間片詞語與熱點(diǎn)詞典詞語的word2vec詞向量間距,篩選與每個(gè)主題詞語義距離最近的前三個(gè)詞匯作為下一時(shí)間片的預(yù)測熱點(diǎn)詞.

(2) 基于信息熵的方法[13]:通過關(guān)鍵詞關(guān)聯(lián)規(guī)則挖掘出共現(xiàn)頻率較高的關(guān)鍵詞組合,引入信息熵公式計(jì)算關(guān)鍵詞組合的信息熵,選取信息熵較高的關(guān)鍵詞組合,將其作為下一時(shí)間片的預(yù)測熱點(diǎn)詞.

(3) EvolveGCN[5]:本文提出的T-EGCN模型的EvolveGCN層,EvolveGCN能夠?qū)W習(xí)隨著時(shí)序圖關(guān)系變化的節(jié)點(diǎn)嵌入,將卷積得到的節(jié)點(diǎn)特征輸入到全連接層中,獲得下一時(shí)間片的預(yù)測熱點(diǎn)詞.

實(shí)驗(yàn)結(jié)果如表1所示. 由表1可知,在同一輿情數(shù)據(jù)集下,本文方法的預(yù)測精確率、召回率和F1值均為最高. EvolveGCN模型僅考慮空間拓?fù)浣Y(jié)構(gòu),預(yù)測效果略低于本文加入GRU后同時(shí)考慮時(shí)間和空間特征的模型結(jié)構(gòu). 說明相較其他方法,本文方法能夠更好完成輿情事件中熱點(diǎn)詞的預(yù)測.

為了更加直觀地分析不同方法的預(yù)測效果,繪制數(shù)據(jù)集A在第30和40個(gè)時(shí)間片的詞云進(jìn)行展示,如圖7和圖8所示. 第30個(gè)時(shí)間片事件處于爆發(fā)期,兇手剛被逮捕,此時(shí)群眾憤怒情緒高漲,輿論主要是希望判處兇手死刑、追責(zé)滴滴卸載滴滴軟件、希望社會保護(hù)女性安全和懷疑警方執(zhí)法不力;第40個(gè)時(shí)間片件處于衰退期,因?yàn)槭录嚓P(guān)人員都被懲處,事件有了交代,群眾的負(fù)面情緒得到了平復(fù),和事件相關(guān)的微博在慢慢減少,更多的關(guān)注重點(diǎn)轉(zhuǎn)移到了對如何避免此類事件再發(fā)生的建議上.

從表1可以看出,基于word2vec的方法的精確率偏低,但是召回率比較高. 這是因?yàn)樵摲椒〞榈趖個(gè)時(shí)間片的每個(gè)熱點(diǎn)詞尋找第t+1個(gè)時(shí)間片的三個(gè)預(yù)測熱點(diǎn)詞進(jìn)行對應(yīng),預(yù)測中存在很大冗余,所以精確度較低而召回率較高. 這一點(diǎn)也可以從圖7b和圖8b中可以看出,基于word2vec的方法能夠找到較多真實(shí)的熱點(diǎn)詞,但是其預(yù)測的熱點(diǎn)詞數(shù)量遠(yuǎn)遠(yuǎn)多于真實(shí)的熱點(diǎn)詞. 造成該情況的主要原因可能是該方法主要研究科技文獻(xiàn)領(lǐng)域的熱點(diǎn)詞預(yù)測,其預(yù)測工作通常以年為單位,熱點(diǎn)詞會有長期逐漸替代的過程,通過領(lǐng)域?qū)<疫M(jìn)行人工篩選,可以較為準(zhǔn)確地去除冗余詞. 而輿情事件變化時(shí)間間隔短,隨著事態(tài)發(fā)展,熱點(diǎn)內(nèi)容隨時(shí)間的波動較大,難以得到領(lǐng)域?qū)<业南闰?yàn)知識對預(yù)測得到的熱點(diǎn)詞進(jìn)行篩選,所以該方法在輿情熱點(diǎn)詞預(yù)測上的性能不佳.

同時(shí),從表1可以看出,基于信息熵的方法的精確率和召回率都較低. 通過分析圖7c和圖8c的熱點(diǎn)詞分布,可以推測出基于信息熵的方法在預(yù)測時(shí)通常能抓住最可能延續(xù)熱度的詞語,即第t個(gè)時(shí)間片信息熵最高的1~3個(gè)詞組實(shí)際上確實(shí)非??赡苁堑趖+1個(gè)時(shí)間片的熱點(diǎn)詞,例如長期被提及的“司機(jī)”等詞,以及第30個(gè)時(shí)間片前剛發(fā)生的罪犯被逮捕一事. 但是當(dāng)需要預(yù)測的范圍變大時(shí),該方法的性能急劇下降. 造成該情況的主要原因可能是該方法主要研究流行病事件的熱點(diǎn)詞預(yù)測,流行病事件的輿情周期較長,相比本文的需求,其分片的時(shí)間跨度較大,如10 d為一個(gè)時(shí)間片,所以該方法并未考慮多個(gè)前序時(shí)間片信息對熱點(diǎn)詞的影響,僅考慮了前一個(gè)時(shí)間片詞語之間的關(guān)聯(lián)關(guān)系,導(dǎo)致其在預(yù)測短期輿情事件時(shí),對次級重要的詞語的預(yù)判能力不足.

而本文方法中,T-EGCN模型會對每個(gè)候選熱點(diǎn)詞進(jìn)行單獨(dú)判斷,所以相比基于word2vec的方法,冗余詞較少;同時(shí)本文方法使用GRU考慮前序多個(gè)時(shí)間片的詞語信息,在預(yù)測時(shí)信息量更加豐富,所以相比基于信息熵的方法,對次級重要的詞語的預(yù)判能力更強(qiáng).

5 結(jié) 論

本文提出一種基于T-EGCN的輿情熱點(diǎn)內(nèi)容預(yù)測方法. 根據(jù)社交媒體上針對特定突發(fā)輿情事件的討論文本,獲得每個(gè)時(shí)間片中事件的熱點(diǎn)詞,通過熱點(diǎn)詞的變化反映大眾對該事件的關(guān)注重心的變化. 該方法將熱點(diǎn)詞作為預(yù)測的對象,利用候選熱點(diǎn)詞之間的語義相似性和共現(xiàn)性關(guān)系,為每個(gè)時(shí)間段都構(gòu)建一個(gè)對應(yīng)的候選熱點(diǎn)詞相關(guān)關(guān)系圖,再使用EvolveGCN與GRU進(jìn)行時(shí)間維度和空間維度上的聯(lián)合分析,預(yù)測下一時(shí)間片的熱點(diǎn)詞. 實(shí)驗(yàn)結(jié)果表明本方法能夠?qū)W(wǎng)絡(luò)輿情事件的熱點(diǎn)詞進(jìn)行有效預(yù)測,在輿情時(shí)間數(shù)據(jù)集上,模型預(yù)測精度高于近年的熱點(diǎn)詞預(yù)測方法,能夠?qū)崿F(xiàn)在特定輿情事件發(fā)展過程中對具體熱點(diǎn)內(nèi)容進(jìn)行預(yù)判.

參考文獻(xiàn):

[1] 高承實(shí), 陳越, 榮星, 等. 網(wǎng)絡(luò)輿情幾個(gè)基本問題的探討[J]. 情報(bào)雜志, 2011, 30: 52.

[2] 楊志, 祁凱. 基于 “情景-應(yīng)對” 的突發(fā)網(wǎng)絡(luò)輿論事件演化博弈分析[J]. 情報(bào)科學(xué), 2018, 36: 30.

[3] 彭思琪, 周安民, 廖珊, 等. 基于圖注意力網(wǎng)絡(luò)的輿情演變預(yù)測研究[J]. 四川大學(xué)學(xué)報(bào): 自然科學(xué)版, 2022, 59: 013004.

[4] 程新斌. 對重大輿情與突發(fā)事件輿論引導(dǎo)研究的分析與對策[J]. 西南民族大學(xué)學(xué)報(bào): 人文社會科學(xué)版, 2022, 43: 235.

[5] Pareja A, Domeniconi G, Chen J, et al. Evolvegcn: Evolving graph convolutional networks for dynamic graphs [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020.

[6] 游丹丹, 陳福集. 我國網(wǎng)絡(luò)輿情預(yù)測研究綜述[J]. 情報(bào)科學(xué), 2016, 34: 156.

[7] 史偉, 薛廣聰, 何紹義. 情感視角下的網(wǎng)絡(luò)輿情研究綜述[J]. 圖書情報(bào)知識, 2022, 39: 105.

[8] 張虹, 鐘華, 趙兵. 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢預(yù)報(bào)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 43: 159.

[9] 杜慧, 郭巖, 范意興, 等. 基于因果模型的主題熱度計(jì)算與預(yù)測方法[J]. 中文信息學(xué)報(bào), 2016, 30: 50.

[10] 崔彥琛, 張鵬, 蘭月新, 等. 面向時(shí)間序列的微博突發(fā)事件衍生輿情情感分析研究——以“6. 22”杭州保姆縱火案衍生輿情事件為例[J]. 情報(bào)科學(xué), 2019, 37: 119.

[11] 程鐵軍, 王曼, 黃寶鳳, 等. 基于CEEMDAN-BP模型的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)測研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2021, 5: 59.

[12] 岳麗欣, 劉自強(qiáng), 胡正銀. 面向趨勢預(yù)測的熱點(diǎn)主題演化分析方法研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2020, 4: 22.

[13] Li J, Tang H, Tan H. Research on the evolution and prediction of Internet public opinion of major pandemics-Taking the COVID-19 pandemic as an example [J]. J Phys, 2021, 1774: 012038.

[14] Zhao L, Song Y, Zhang C, et al. T-gcn: A temporal graph convolutional network for traffic prediction [J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21: 3848.

[15] Comito C, Forestiero A, Pizzuti C. Bursty event detection in Twitter streams[J]. ACM T Knowl Discov D, 2019, 13: 1.

[16] 張孝飛, 陳航行, 張春花. 基于語義概念和詞共現(xiàn)的微博主題詞提取研究[J]. 情報(bào)科學(xué), 2021, 39: 142.

[17] Huang J, Peng M, Wang H, et al. A probabilistic method for emerging topic tracking in microblog stream [J]. World Wide Web, 2017, 20: 325.

[18] 丁晟春, 劉笑迎, 李真. 融合評論影響力的網(wǎng)絡(luò)輿情熱點(diǎn)主題演化研究[J]. 現(xiàn)代情報(bào),? 2021, 41: 87.

[19] 劉定一, 沈陽陽, 詹天明, 等. 融合微博熱點(diǎn)分析和LSTM模型的網(wǎng)絡(luò)輿情預(yù)測方法[J]. 江蘇大學(xué)學(xué)報(bào): 自然科學(xué)版, 2021, 42: 546.

[20] 曾慶田, 胡曉慧, 李超. 融合主題詞嵌入和網(wǎng)絡(luò)結(jié)構(gòu)分析的主題關(guān)鍵詞提取方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3: 52.

[21] 蘇曉慧, 張曉東, 胡春蕾, 等. 基于改進(jìn)TF-PDF算法的地震微博熱門主題詞提取研究[J]. 地理與地理信息科學(xué), 2018, 34: 90.

[22] 張孝飛, 陳航行, 張春花. 基于語義概念和詞共現(xiàn)的微博主題詞提取研究[J]. 情報(bào)科學(xué), 2021, 39: 142.

[23] Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining. [S.l:s.n.], 2014: 233.

[24] Mazarura J, De Waal A. A comparison of the performance of latent Dirichlet allocation and the Dirichlet multinomial mixture model on short text[C]//Proceedings of the 2016 Pattern Recognition Association of South Africa and Robotics and Mechatronics International Conference. [S.l]:IEEE, 2016: 1.

[25] 馬思丹, 劉東蘇. 基于加權(quán) Word2vec 的文本分類方法研究[J]. 情報(bào)科學(xué), 2019, 37: 38.

引用本文格式:

中 文: 文雅, 楊頻, 廖珊, 等. 基于時(shí)間演化圖卷積網(wǎng)絡(luò)的輿情熱點(diǎn)內(nèi)容預(yù)測[J]. 四川大學(xué)學(xué)報(bào): 自然科學(xué)版, 2023, 60: 033001.

英 文: Wen Y, Yang P, Liao S, et al. A temporal evolving graph convolutional network for Public opinion prediction in emergencies [J]. J Sichuan Univ: Nat Sci Ed, 2023, 60: 033001.

猜你喜歡
分片數(shù)據(jù)量熱點(diǎn)
上下分片與詞的時(shí)空佈局
詞學(xué)(2022年1期)2022-10-27 08:06:12
熱點(diǎn)
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
分片光滑邊值問題的再生核方法
CDN存量MP4視頻播放優(yōu)化方法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
熱點(diǎn)
車迷(2019年10期)2019-06-24 05:43:28
基于模糊二分查找的幀分片算法設(shè)計(jì)與實(shí)現(xiàn)
汉源县| 荆州市| 综艺| 青河县| 陇南市| 达州市| 宁阳县| 华坪县| 龙泉市| 祥云县| 保定市| 诸城市| 司法| 宜阳县| 师宗县| 股票| 嘉兴市| 威海市| 永泰县| 龙南县| 广宁县| 周至县| 黄平县| 安远县| 康平县| 大荔县| 焦作市| 南靖县| 滦平县| 新龙县| 乌拉特中旗| 沭阳县| 青铜峡市| 剑阁县| 金溪县| 新和县| 南平市| 修武县| 钟祥市| 铜鼓县| 谷城县|