国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)間序列的方面級(jí)網(wǎng)絡(luò)輿情情感演化模型

2022-02-07 09:19:58董光文
關(guān)鍵詞:主題詞時(shí)間段輿情

董光文,袁 健

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

0 引言

隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)社交平臺(tái)已經(jīng)逐漸成為新興的輿論載體。當(dāng)面對(duì)一些熱點(diǎn)新聞或者突發(fā)事件時(shí),對(duì)網(wǎng)絡(luò)社交平臺(tái)中的相關(guān)言論進(jìn)行有效分析,實(shí)時(shí)了解當(dāng)前熱點(diǎn)或新聞事件的輿情演變發(fā)展趨勢(shì),并在必要時(shí)采取行動(dòng)施以重點(diǎn)監(jiān)控,保障網(wǎng)絡(luò)輿情平穩(wěn)發(fā)展,從而為人們營(yíng)造一個(gè)積極健康的良好網(wǎng)絡(luò)環(huán)境。

常見的情感演化研究大多偏向于對(duì)靜態(tài)文本的分析或以熱門話題為基礎(chǔ)進(jìn)行主題詞辨識(shí),同時(shí)也要有海量數(shù)據(jù)作為支持,而輿情事件在熱點(diǎn)初期卻較難察覺,若能對(duì)輿論情感進(jìn)行實(shí)時(shí)動(dòng)態(tài)的細(xì)粒度分析就可以準(zhǔn)確掌握輿情的動(dòng)態(tài)和趨勢(shì),對(duì)輿情的預(yù)測(cè)和調(diào)整具有重要的實(shí)用價(jià)值。

1 相關(guān)研究

1.1 情感分析研究

近年來,在情感分析領(lǐng)域,國(guó)內(nèi)外學(xué)者已取得了可觀成果,研究上也主要集中在情感極性分析、多分類情感分析和方面級(jí)情感分類三個(gè)方向。

常用的情感分析技術(shù)研發(fā)初期就是以情感詞典為主的研究方法,這種方法需要依賴人工去構(gòu)建詞典,并要不斷地?cái)U(kuò)充詞典,情感分析效率并不高[1]。后來學(xué)者們分別使用有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)方法來進(jìn)行情感分析研究,在一些模型上取得了較好的效果,但在此過程中也需進(jìn)行特征工程的構(gòu)建,往往消耗不少人力[2-3]。目前,深度學(xué)習(xí)技術(shù)已經(jīng)成為該領(lǐng)域主流的研究方法。特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及注意力機(jī)制在情感分析中的組合使用,使情感分析技術(shù)已然日臻成熟。Lv 等人[4]提出一種上下文和方面記憶網(wǎng)絡(luò)(CAMN)方法來解決方面級(jí)情感分析問題,引入了深度記憶網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和多重注意力機(jī)制,能夠更好地捕捉文本中的情感特征,獲得文本方面級(jí)情感分析結(jié)果。

1.2 情感演化研究

情感演變主要是對(duì)含有情感的主觀信息進(jìn)行分析,并從情感的態(tài)度和角度對(duì)情感在時(shí)間中的演變進(jìn)行分析。面對(duì)各類突發(fā)情況下不斷涌現(xiàn)的網(wǎng)絡(luò)輿論熱點(diǎn)事件,國(guó)內(nèi)外的學(xué)術(shù)界從多個(gè)角度對(duì)其情感演變進(jìn)行了全方位的分析和探討。

在網(wǎng)絡(luò)輿情情感演化分析方面,邢云菲等人[5]以“江歌案”為例,從情感的極端和情感的強(qiáng)弱入手,探討了其演變及變化規(guī)律。錢進(jìn)寶[6]以“穹頂之下”為例,建立以詞匯相關(guān)性為基礎(chǔ)的文字情感矢量模型,在K-medoids 中加入歷史代價(jià)函數(shù),可以對(duì)網(wǎng)絡(luò)上的熱門事件進(jìn)行動(dòng)態(tài)的情感演變分析,從而避免了以往僅限于對(duì)靜止的數(shù)據(jù)進(jìn)行分析的不足。戴杏云等人[7]在統(tǒng)計(jì)用戶關(guān)系、用戶影響力等指標(biāo)的基礎(chǔ)上,建立基于網(wǎng)絡(luò)的動(dòng)態(tài)情感圖的分析模型,從而為控制和指導(dǎo)社會(huì)網(wǎng)絡(luò)輿論提供了基礎(chǔ)。張柳等人[8]以“學(xué)術(shù)不端”為例,從輿論發(fā)展的角度來分析情感演變的規(guī)律,運(yùn)用了詞云圖和情感知識(shí)圖譜,分別揭示了爆發(fā)期、蔓延期和衰退期用戶使用高頻率詞和情感分配的演變規(guī)律。

綜合前文論述可知,目前網(wǎng)絡(luò)輿情情感演化的研究大多著重于輿情主題的挖掘、傳播的特征和生命周期模型等方向展開研究。研究時(shí)則需要大量的數(shù)據(jù)做支撐,也就是只有當(dāng)輿論成為熱點(diǎn)時(shí)才能更好地選擇準(zhǔn)確的主題、抽取出特征或劃分生命周期,而當(dāng)某輿論處于發(fā)展階段的初期時(shí)卻較難被發(fā)現(xiàn),這將導(dǎo)致輿論分析的效果欠佳。通常來說,人們對(duì)輿情的情感往往都是動(dòng)態(tài)的,輿情情感的波動(dòng)也會(huì)和某突發(fā)話題的發(fā)展趨勢(shì)密切相關(guān),若不考慮時(shí)間發(fā)展的維度,對(duì)網(wǎng)民們的情感動(dòng)態(tài)演化很難做出有效判斷。

基于此,本文引進(jìn)了時(shí)間序列ARMA 模型,并在方面級(jí)情感分析CAMN 模型[4]的基礎(chǔ)上,提出了基于時(shí)間序列的方面級(jí)網(wǎng)絡(luò)輿情情感演化模型(Aspect -level network public opinion sentiment evolution model based on time series,ARMA-ALEE)。該模型的創(chuàng)新點(diǎn)如下:

(1)在方面級(jí)情感分析基礎(chǔ)上獲取方面詞和情感極性,對(duì)方面詞使用過濾和優(yōu)化算法以提高其精度,并在方面詞的基礎(chǔ)上進(jìn)一步提取主題詞來做過濾優(yōu)化后分析,進(jìn)行更加細(xì)粒度的輿情演化分析。

(2)提出了ARMA-ALEE 情感動(dòng)態(tài)演化模型,引入ARMA 時(shí)間序列模型,基于ARMA 對(duì)方面詞、方面詞強(qiáng)度和情感強(qiáng)度動(dòng)態(tài)傾向性訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)輿情動(dòng)態(tài)情感演化分析。

2 ARMA-ALEE 情感演化模型

ARMA-ALEE 模型的整體結(jié)構(gòu)如圖1 所示,該模型先對(duì)實(shí)時(shí)文本數(shù)據(jù)集進(jìn)行預(yù)處理,并按時(shí)間順序進(jìn)行劃分,然后利用CAMN 模型對(duì)每個(gè)語料集進(jìn)行處理,對(duì)處理后的結(jié)果進(jìn)行方面詞優(yōu)化、情感強(qiáng)度計(jì)算和方面詞強(qiáng)度的算法實(shí)現(xiàn),接著將基于ARMA時(shí)間序列模型實(shí)現(xiàn)ARMA-ALEE 情感演化算法,最后進(jìn)行情感演化分析及可視化。

圖1 ARMA-ALEE 模型整體框架圖Fig. 1 Overall framework diagram of ARMA-ALEE model

2.1 方面詞的優(yōu)化

使用主題詞對(duì)輿情數(shù)據(jù)進(jìn)行演化分析時(shí),會(huì)有許多與數(shù)據(jù)集關(guān)聯(lián)不大且沒有實(shí)用價(jià)值的主題詞,為了避免對(duì)網(wǎng)絡(luò)輿情情感演化的影響,不少學(xué)者對(duì)無用主題的過濾也做了一定的研究[9]。本文將對(duì)文本數(shù)據(jù)中每個(gè)句子的方面級(jí)進(jìn)行研究,確定每個(gè)句子的方面屬性,采用方面屬性代替主題詞屬性對(duì)網(wǎng)絡(luò)輿情情感演化進(jìn)行分析。

由于文本數(shù)據(jù)集中的長(zhǎng)度參差不齊(尤其是針對(duì)微博),這就導(dǎo)致方面分類有時(shí)不精確、或者方面分類過多等問題,對(duì)網(wǎng)絡(luò)輿情情感演化造成了一定的影響,本文將對(duì)文本數(shù)據(jù)集中獲取的所有方面詞進(jìn)行優(yōu)化操作。

2.1.1 方面詞過濾框架

以時(shí)間為演化發(fā)展線索,利用CAMN 模型[4]獲取到每個(gè)時(shí)間段內(nèi)的方面詞,對(duì)提取的方面詞進(jìn)行過濾處理,提高方面詞對(duì)網(wǎng)絡(luò)輿情中情感演化分析的效果。本文對(duì)方面詞過濾的流程如圖2 所示。由圖2 可看到,首先把文本數(shù)據(jù)集以某個(gè)時(shí)間段為間隔劃分開,將對(duì)應(yīng)的數(shù)據(jù)集分配到相應(yīng)的時(shí)間段內(nèi),基于CAMN 模型[4]獲得每個(gè)時(shí)間段內(nèi)的方面主題詞及其個(gè)數(shù)。接下來,對(duì)方面詞進(jìn)行過濾,剔除一些沒有價(jià)值的方面詞,以防止在相鄰時(shí)間段內(nèi)對(duì)相關(guān)主題的辨識(shí)和判斷。最后,通過算法對(duì)經(jīng)過篩選后的方面詞確定最優(yōu)方面詞個(gè)數(shù)和鄰近時(shí)間段內(nèi)方面詞之間的相關(guān)性。

圖2 方面詞過濾圖Fig. 2 Aspect words filtering diagram

2.1.2 時(shí)間段內(nèi)方面詞過濾

對(duì)于每個(gè)時(shí)間段內(nèi)的方面詞數(shù),一些方面詞在文本中出現(xiàn)的概率極低或毫無相關(guān),不但加大運(yùn)算的難度,還將導(dǎo)致與無關(guān)話題之間的不必要聯(lián)系,從而對(duì)方面主題進(jìn)行演化的正確分析產(chǎn)生不利的作用。如果一個(gè)方面詞在數(shù)據(jù)集中出現(xiàn)的比例越高,那么該方面詞在某個(gè)時(shí)間片段內(nèi)的重要程度越大。相反,如果某個(gè)方面詞在數(shù)據(jù)集中出現(xiàn)的比例越低,通常就可把該方面詞視為不重要的詞語,這種出現(xiàn)次數(shù)較少的方面詞也不會(huì)形成網(wǎng)絡(luò)輿論。本文對(duì)方面詞進(jìn)行過濾篩選分為2 個(gè)階段,具體過程如下:

(1)基于方面詞分布的邊緣方面詞辨識(shí)和篩選。利用CAMN 模型[4]獲取到的方面詞在每個(gè)時(shí)間段內(nèi)分布概率差異較大,在同一時(shí)間段內(nèi)發(fā)生頻率較高的方面詞,則是該時(shí)間段內(nèi)較為核心的熱點(diǎn)方面詞,也是研究情感演化的關(guān)鍵因素。相反,出現(xiàn)概率較小的方面詞,往往被邊緣化或者說是毫無意義的,同時(shí)也會(huì)對(duì)情感演化的分析結(jié)果產(chǎn)生影響。因此,針對(duì)使用CAMN 模型[4]所獲得的某個(gè)時(shí)間段內(nèi)的方面詞數(shù),依據(jù)其在數(shù)據(jù)集中的分布情況來設(shè)定臨界點(diǎn),設(shè)定方式如下:在數(shù)據(jù)集中,計(jì)算每個(gè)方面詞A累積的概率P,將一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)集總量N進(jìn)行標(biāo)準(zhǔn)化處理,得出其在數(shù)據(jù)集中的權(quán)重值W,將權(quán)重W從大到小依次排序,并選取其平均值為篩選閾值,此處需用到的數(shù)學(xué)公式為:

其中,N表示數(shù)據(jù)集中所有方面詞A的總數(shù);p(wi |z)表示單獨(dú)一個(gè)方面詞在N中所占的比例;Pi表示單個(gè)方面詞的累加概率之和;Wi表示一個(gè)方面詞在數(shù)據(jù)集中的權(quán)重。

(2)基于方面詞分布的無用方面詞的辨識(shí)和篩選。經(jīng)過上一步篩選后,把方面詞匯聚在一起進(jìn)行概率的分布,這些方面詞之間的關(guān)聯(lián)意義通常是用來描繪某一話題相關(guān)意義或者發(fā)展趨勢(shì)的。假如某方面詞和大多數(shù)方面詞毫無關(guān)系且也不具備發(fā)展聯(lián)系,就會(huì)被視為無意義并篩選掉。

利用信息熵法對(duì)表達(dá)對(duì)象的方面詞傾向性進(jìn)行衡量。信息熵是一種信息不穩(wěn)定的度量方法,一個(gè)方面詞可以看作一系列隨機(jī)的方面詞,當(dāng)其在數(shù)據(jù)集中出現(xiàn)的可能性越大時(shí),其信息熵值越低,也就越能突出所要表達(dá)的內(nèi)涵。對(duì)經(jīng)過上一步篩選出的每個(gè)方面詞進(jìn)行信息熵計(jì)算,具體可由如下公式計(jì)算求得:

其中,Entropy(A)表示方面詞A的信息熵;Pj表示在方面詞A中第j個(gè)詞語出現(xiàn)的概率;K表示一般的常數(shù);m表示方面詞A中所包含的詞語的個(gè)數(shù)。

2.1.3 相鄰時(shí)間段內(nèi)方面詞相關(guān)性

在鄰近時(shí)間段內(nèi)的方面詞中,僅有相互關(guān)聯(lián)的方面詞之間才可能會(huì)存在相互演化的關(guān)系。方面詞的相似性是用來衡量方面詞之間的相似程度,使用“方面詞—單詞”概率分布來計(jì)算方面詞之間的相似性。

在相似度計(jì)算過程中,余弦相似度是用2 個(gè)矢量夾角的余弦值作為衡量矢量相似性的指標(biāo)。經(jīng)過濾后得到的每個(gè)時(shí)間段內(nèi)的方面詞是由一系列的詞語組成,而不是以傳統(tǒng)的字詞矢量來表達(dá),所以相對(duì)于余弦相似性,概率分布的距離公式在衡量方面詞之間的相似度時(shí)略有優(yōu)勢(shì)。KL的離散、即KL距離或者相關(guān)熵是對(duì)同一時(shí)間點(diǎn)在2 種概率分布的重要度量,能夠表示出2 個(gè)方面詞之間的差異情況。當(dāng)2 個(gè)方面詞隨機(jī)分布相同時(shí),KL距離為0,而隨著2 個(gè)方面詞隨機(jī)分配差異的加大,KL距離也隨之增大。推得的計(jì)算公式可寫為:

其中,KL(p‖q)表示2 個(gè)方面詞概率分布為p和q的KL距離;xi表示概率分布為p和q的第i個(gè)方面詞;n表示2 個(gè)概率分布為p和q的方面詞的總個(gè)數(shù)。

由于KL散度是非對(duì)稱化的,故根據(jù)其理論給出另一種變種JS散度,從而通過JS散度將KL散度轉(zhuǎn)化為真實(shí)的距離度量,如式(6)所示:

JS散度的擴(kuò)散系數(shù)一般為0 至1,JS散度的數(shù)值越低,則表示兩者的相似度越高。

2.1.4 最優(yōu)方面詞的確定

經(jīng)過方面詞過濾算法處理后,每個(gè)時(shí)間段內(nèi)方面詞數(shù)量是不確定的,方面詞的個(gè)數(shù)會(huì)影響對(duì)情感演化分析的效果。如果同一時(shí)間段內(nèi)方面詞個(gè)數(shù)太多,將會(huì)導(dǎo)致方面主題過于分散、且輿情方向過多,不能突出核心的演化方向。相反,如果同一時(shí)間段內(nèi)方面詞個(gè)數(shù)過少,輿情分析則容易向一個(gè)方向發(fā)展,就可能會(huì)忽略掉一些潛在的方面主題方向。

困惑度是衡量一個(gè)語言模型好壞的指標(biāo),困惑度越低,說明該模型具有較好的泛化能力[10]。給出的數(shù)學(xué)定義可表示為:

其中,Perplexity(D)表示該模型困惑度的大??;D表示數(shù)據(jù)集中的測(cè)試集;M表示測(cè)試集中含有的時(shí)間段數(shù);Nd表示第d個(gè)時(shí)間段中包含的方面詞數(shù)量;p(wd)表示第d個(gè)時(shí)間段中所含方面詞分布的概率。

當(dāng)潛在方面詞的數(shù)量增多時(shí),該模型的困惑度也就越低,但是往往會(huì)有一個(gè)拐點(diǎn),表明該模型的泛化能力得到了顯著的改善,從而可以通過這個(gè)拐點(diǎn)來估算方面詞最佳數(shù)量。然而,僅靠困惑度來判斷方面詞數(shù)量通常不準(zhǔn)確,還需要綜合考慮其它的因素。

主題平均相似度是一種度量各個(gè)主題詞之間相似度的平均差異程度的指標(biāo)[11],通常使用JS散度對(duì)其進(jìn)行較好的衡量,使用主題相似度來計(jì)算方面詞的平均相似度,計(jì)算方法可由式(8)表示為:

其中,avgsim(Ti,Tj)表示所有方面詞之間的方面平均相似度;Ti和Tj分別表示不同的2 個(gè)方面詞;JS(Ti‖Tj)表示2 個(gè)方面詞之間的JS散度。

JS離散指當(dāng)2 個(gè)方面詞的數(shù)值較大時(shí),則表示相似性越大。當(dāng)方面詞數(shù)目增多時(shí),方面詞之間的相似程度總體上呈現(xiàn)上升的態(tài)勢(shì),但同時(shí)也會(huì)出現(xiàn)一個(gè)拐點(diǎn)。

當(dāng)方面詞數(shù)量增加時(shí),方面詞間的平均相似性會(huì)變大,而困惑度將會(huì)呈現(xiàn)變小的趨勢(shì),但也都會(huì)有顯著的轉(zhuǎn)折點(diǎn),將二者結(jié)合起來確定最優(yōu)的主題詞個(gè)數(shù),從而使模型的泛化能力得到顯著的提高。

2.2 網(wǎng)絡(luò)輿情情感演化實(shí)現(xiàn)方法

2.2.1 ARMA 時(shí)間序列模型

ARMA 時(shí)間序列模型也稱為自回歸移動(dòng)平均模型,包括2 個(gè)方面:自回歸模型(AR)和移動(dòng)平均模型(MA)[12]。定義時(shí)間序列t =(t1,t2,…,tn),假設(shè)在一定的時(shí)間內(nèi),一個(gè)特定時(shí)間點(diǎn)的數(shù)值與前面的p個(gè)序列的數(shù)值和前面q個(gè)輸入的隨機(jī)干擾相關(guān),從而可以對(duì)接下來的時(shí)間點(diǎn)進(jìn)行預(yù)測(cè)。假定ti被前面p個(gè)時(shí)間順序的數(shù)字所影響的自回歸過程的計(jì)算方法具體見如下:

其中,η1,η2,…,ηp表示自回歸系數(shù),ei表示誤差項(xiàng)。

在不同的時(shí)序上,誤差項(xiàng)ei之間存在著相關(guān)性,其移動(dòng)的平均值的計(jì)算方法如式(10)所示:

其中,μ1,μ2,…,μq表示移動(dòng)的平均系數(shù),εi表示白噪聲序列。

聯(lián)立式(9)~(10)得到ARMA 模型的計(jì)算公式,即:

進(jìn)一步地,對(duì)ARMA 動(dòng)態(tài)預(yù)測(cè)模型的流程步驟可做闡釋分述如下:

Step 1首先對(duì)時(shí)間序列中的每個(gè)數(shù)值ti進(jìn)行均值化處理,然后對(duì)數(shù)值ti進(jìn)行穩(wěn)定性檢測(cè)。如果不穩(wěn)定,就進(jìn)行差分計(jì)算,直至差分后的數(shù)據(jù)平滑為止。

Step 2對(duì)穩(wěn)定后的數(shù)據(jù)進(jìn)行白噪聲測(cè)試,當(dāng)檢測(cè)到平滑的白噪聲數(shù)據(jù)時(shí),利用自相關(guān)函數(shù)(ACF)和偏相關(guān)函數(shù)(PACF)求出ARMA 的階p、q,并利用StatsModels 包來擬合ARMA(p,q),接著對(duì)不同組合(p,q)來計(jì)算最小信息準(zhǔn)則AIC的值,接下來選擇AIC(p,q)值中的最小階數(shù)作為值(p,q)的估計(jì)。

Step 3利用最小二乘方法對(duì)所建立的模型進(jìn)行求解,得到未知參數(shù)η和μ,對(duì)于i +1 時(shí)刻的動(dòng)態(tài)預(yù)測(cè)計(jì)算方法見式(12):

其中,t'i表示零均值時(shí)間序列。

2.2.2 方面詞強(qiáng)度計(jì)算

研究方面詞強(qiáng)度在不同時(shí)間窗口內(nèi)的發(fā)展趨向,能夠反映出一個(gè)方面詞的穩(wěn)定性,能夠把握一個(gè)方面主題的發(fā)展方向。用當(dāng)前時(shí)間段內(nèi)該方面詞在所有方面詞中所占的比例來表示,計(jì)算方法見式(13):

其中,AS(Ai)表示時(shí)間段內(nèi)方面詞Ai的強(qiáng)度;P(Ai)表示一個(gè)方面詞在時(shí)間段內(nèi)出現(xiàn)的概率;m表示一個(gè)時(shí)間段內(nèi)方面詞優(yōu)化后的總數(shù)量。

2.2.3 情感強(qiáng)度計(jì)算

在進(jìn)行方面級(jí)情感分類時(shí),會(huì)根據(jù)每個(gè)方面詞的情感極性值分成不同的類別,本文在進(jìn)行情感強(qiáng)度計(jì)算時(shí),選取時(shí)間段內(nèi)的方面詞并根據(jù)方面詞的極性值進(jìn)行累加求和得到該方面詞的情感強(qiáng)度,計(jì)算方法的數(shù)學(xué)公式可表示為:

其中,EI(Ai)表示方面詞Ai的情感強(qiáng)度;PV(Ai)表示一個(gè)方面詞的情感極性值;m表示一個(gè)時(shí)間段內(nèi)該方面詞出現(xiàn)的次數(shù)。

2.2.4 情感演化算法實(shí)現(xiàn)

針對(duì)網(wǎng)上輿論活動(dòng)中的文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)方面級(jí)情感演化分析,本文給出了一種動(dòng)態(tài)方面級(jí)情感演化分析模型ARMA-ALEE。ARMA-ALEE 情感動(dòng)態(tài)演化模型的具體工作流程見如下。

輸入網(wǎng)絡(luò)輿情文本數(shù)據(jù)集

輸出不同時(shí)間段內(nèi)情感動(dòng)態(tài)演化分析結(jié)果

Step 1對(duì)文本進(jìn)行預(yù)處理。

Step 2輿情演化時(shí)間段劃分。對(duì)數(shù)據(jù)集根據(jù)時(shí)間序列上的排序歸類進(jìn)行時(shí)間段的劃分,本文以時(shí)間為單位把對(duì)應(yīng)的數(shù)據(jù)集劃分到一個(gè)時(shí)間段(根據(jù)具體情況以不同單位劃分時(shí)間)。

Step 3使用CAMN 模型[4]對(duì)劃分的每個(gè)時(shí)間段內(nèi)的數(shù)據(jù)進(jìn)行模型訓(xùn)練,獲取每個(gè)時(shí)間段內(nèi)的數(shù)據(jù)集所對(duì)應(yīng)的方面詞、情感極性值,并用標(biāo)簽進(jìn)行標(biāo)記。

Step 4方面詞過濾和確定。根據(jù)式(1)~(4)方法篩選掉無用的方面詞。根據(jù)式(7)~(8)確定最終的方面詞個(gè)數(shù)。

Step 5方面詞強(qiáng)度計(jì)算。根據(jù)式(13)求出每個(gè)方面詞對(duì)應(yīng)的方面詞強(qiáng)度。

Step 6方面詞相似度計(jì)算。根據(jù)式(5)~(6)求出方面詞之間的相似度。

Step 7情感強(qiáng)度計(jì)算。根據(jù)式(14)求出方面詞的情感強(qiáng)度。

Step 8以時(shí)間為線索統(tǒng)計(jì)數(shù)據(jù)集特征。將上述步驟中計(jì)算得出的方面詞強(qiáng)度、情感極性值和方面詞相似度按時(shí)序分段并合并成文本時(shí)間序列集合,數(shù)學(xué)表示形式如下:

Step 9網(wǎng)絡(luò)輿情情感演化動(dòng)態(tài)傾向性訓(xùn)練。把DT作為訓(xùn)練集輸入到改進(jìn)的ARMA-ALEE 模型中進(jìn)行迭代訓(xùn)練,把損失函數(shù)降低到最小時(shí)得到最佳魯棒性模型。將15%的訓(xùn)練集分割成驗(yàn)證集進(jìn)行校驗(yàn),然后在校驗(yàn)集上重復(fù)校驗(yàn),獲得最優(yōu)化的超參量組合。接著將驗(yàn)證集和測(cè)試集結(jié)合,利用5 折交叉驗(yàn)證方法選取最佳模式,對(duì)i +1 時(shí)段下的情感趨勢(shì)進(jìn)行動(dòng)態(tài)獲取,以t'i+1的值作為該時(shí)間段內(nèi)的輿情情感分析結(jié)果。

Step 10網(wǎng)絡(luò)輿論情感演化分析。在劃分的時(shí)間段內(nèi),根據(jù)每個(gè)時(shí)間段內(nèi)情感傾向性結(jié)果得到每個(gè)時(shí)間段內(nèi)方面詞和情感極性的變化趨勢(shì),進(jìn)而分析網(wǎng)絡(luò)輿情情感演化的趨勢(shì)。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文以微博“北京冬奧會(huì)”為例,根據(jù)“北京冬奧會(huì)”關(guān)鍵字百度指數(shù)數(shù)據(jù)顯示,這一輿情熱點(diǎn)事件集中在2022 年2 月1 日至2022 年2 月25 日,本文爬取這25 天內(nèi)的數(shù)據(jù)內(nèi)容進(jìn)行輿情情感分析。首先對(duì)爬取的數(shù)據(jù)文本進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行清洗,篩選掉一些無用的文本數(shù)據(jù),最終獲取到159 332條博文數(shù)據(jù)和67 213 672 條評(píng)論文本數(shù)據(jù)。

3.2 網(wǎng)絡(luò)輿情情感演化分析

把數(shù)據(jù)集輸入到模型中進(jìn)行訓(xùn)練,得到“北京冬奧會(huì)”情感演化過程圖,如圖3 所示。

圖3 網(wǎng)絡(luò)輿情情感演化過程圖Fig. 3 The evolution process of network public opinion

由于數(shù)據(jù)集過于龐大,本文選取2 月4 日至2月8 日爆發(fā)期的一段時(shí)間進(jìn)行詳細(xì)分析。根據(jù)情感演化方面詞強(qiáng)度計(jì)算結(jié)果繪制出詞云圖,如圖4 所示,本文根據(jù)圖4 選取輿情熱度較高的方面詞“冰墩墩”進(jìn)行分析,并獲取該方面詞的相關(guān)事件分析表,詳見表1。

圖4 輿情演化方面詞詞云圖Fig. 4 Word cloud map of public opinion evolution

表1 “冰墩墩”情感演化事件分析表Tab.1 “Bingdundun” emotional evolution event analysis table

3.2.1 基于方面詞的詞頻和主題的可視化分析

在數(shù)據(jù)集中,根據(jù)標(biāo)簽標(biāo)注的方面詞找到對(duì)應(yīng)的文本句子,并將這些句子進(jìn)行主題詞提取優(yōu)化處理(主題詞優(yōu)化方法同方面詞優(yōu)化方法),這樣就可以清晰地看到該方面詞所對(duì)應(yīng)的主題詞,進(jìn)而便于進(jìn)行細(xì)粒度的輿情分析。

詞云圖是文本數(shù)據(jù)集經(jīng)過分詞和去停用詞等操作后,再進(jìn)行詞匯頻率的統(tǒng)計(jì),并對(duì)頻率高的詞匯在大小和顏色方面進(jìn)行視覺上的對(duì)比,直觀表現(xiàn)出文本數(shù)據(jù)集中所要表達(dá)的大致核心意思。本文對(duì)熱度較高的方面詞“冰墩墩”繪制出詞云圖,如圖5 所示,由圖5 便可直觀得出該時(shí)間段內(nèi)引起網(wǎng)友們對(duì)方面詞“冰墩墩”高度關(guān)注的高頻詞匯。采用主題提取模型對(duì)該方面詞內(nèi)的主題詞進(jìn)行提取并對(duì)其優(yōu)化處理,對(duì)應(yīng)的主題提取表見表2。

表2 方面詞“冰墩墩”主題詞提取表Tab.2 The subject word extraction table of the aspect word“Bingdundun”

圖5 方面詞“冰墩墩”詞云圖Fig. 5 Word cloud map of the aspect word “Bingdundun”

3.2.2 方面詞情感演化過程分析

方面詞“冰墩墩”情感演化過程圖如圖6 所示。

圖6 方面詞“冰墩墩”情感演化過程圖Fig. 6 The emotional evolution process diagram of the aspect word “Bingdundun”

從圖6 中紅線評(píng)論量曲線可以看出,網(wǎng)上關(guān)于冰墩墩的言論在2 月4 日之前也有一定的數(shù)量,隨著冬奧會(huì)開幕式的來臨,2 月4 日人氣暴漲,達(dá)到了頂峰,在之后幾天內(nèi)的連續(xù)傳播,并連續(xù)出現(xiàn)了高峰,仍有大量網(wǎng)民對(duì)此表達(dá)自己情感想法。對(duì)比情感極性中的積極、中性和消極三條曲線,人們對(duì)冰墩墩的評(píng)論始終是以積極的態(tài)度為主,只有少部分會(huì)產(chǎn)生中性和消極的情緒,這也說明了網(wǎng)民們對(duì)冰墩墩吉祥物的喜愛之情。

由圖6 分析可知,藍(lán)色積極情感極性曲線要遠(yuǎn)遠(yuǎn)高于橙色(中性)和綠色(消極)的曲線,分析其中的原因,在圖5 中,可以看到“可愛”、“吉祥物”、“喜歡”等一些高頻的詞,體現(xiàn)出人們對(duì)“冰墩墩”所表達(dá)的積極情感,結(jié)合表2,在Topic1~6 這些主題詞中,從“表達(dá)冬奧會(huì)開幕式的舉辦圓滿成功、到表達(dá)對(duì)冬奧會(huì)上運(yùn)動(dòng)健兒的驕傲贊揚(yáng)、到舉辦冬奧會(huì)中體現(xiàn)著中國(guó)科技的偉大、再到冰墩墩吉祥物和可愛等”言論中,大都體現(xiàn)著人們言論的積極情感。在圖6 中,某些時(shí)間點(diǎn)人們也表達(dá)出了消極的情緒。在圖5 中一些高頻詞“難買”、“搶購(gòu)”等,這與網(wǎng)民出現(xiàn)情感消極的原因相關(guān)。在表2 的Topic7 主題詞中,進(jìn)一步表達(dá)出網(wǎng)民們的情感極性,表現(xiàn)出網(wǎng)民們對(duì)一墩難求的消極情感。

3.3 性能評(píng)價(jià)

為了驗(yàn)證ARMA-ALEE 模型的有效性,本文在準(zhǔn)確率、召回率和F1值方面對(duì)模型的方面主題詞的抽取和情感分類極性的判斷性能進(jìn)行評(píng)估。對(duì)數(shù)據(jù)集按時(shí)間順序劃分,選取3 個(gè)時(shí)間段內(nèi)的數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集,并對(duì)這3 個(gè)時(shí)間段內(nèi)的數(shù)據(jù)進(jìn)行人工標(biāo)注標(biāo)記出主題詞,選用TF-IDF、TF-IDF-Means主題提取算法和本文的模型算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表3。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在主題詞提取優(yōu)化方面取得了較好的效果,其在準(zhǔn)確率、召回率和F1值方面都取得了較好的結(jié)果。

表3 各種算法對(duì)主題詞提取對(duì)比表Tab.3 Comparison table of various algorithms for subject word extraction

為了驗(yàn)證ARMA-ALEE 模型的效果是否可行,仍以上述選取的驗(yàn)證集作為實(shí)驗(yàn)數(shù)據(jù),選取“JST 模型[13]”、“ASUM 模型[14]”和“主題-情感聯(lián)合模型[15]”進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。

表4 各種模型情感演化性能評(píng)價(jià)表Tab.4 Emotional evolution performance evaluation table of various models

從表4 中可以看出,在驗(yàn)證數(shù)據(jù)集中模型ARMA-ALEE 在準(zhǔn)確率、召回率和F1值三個(gè)指標(biāo)上都有明顯的提升,表明模型ARMA-ALEE 的性能是遠(yuǎn)遠(yuǎn)優(yōu)于其它對(duì)比模型的。從實(shí)驗(yàn)結(jié)果分析可知,ARMA-ALEE 模型首先在方面級(jí)情感分析模型的基礎(chǔ)上獲取到方面詞和情感極性值,又在ARMA 時(shí)間序列模型基礎(chǔ)上對(duì)優(yōu)化后的方面詞、情感極性值和相似度進(jìn)行訓(xùn)練,提高了輿情演化主題的準(zhǔn)確率,并最終使用AMRA-ALEE 情感演化算法動(dòng)態(tài)得到網(wǎng)絡(luò)輿情情感演化結(jié)果。

4 結(jié)束語

為了提高主題詞提取的精確度和實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)絡(luò)輿情情感演化分析,本文提出了一種基于時(shí)間序列的方面級(jí)網(wǎng)絡(luò)輿情情感演化ARMA-ALEE 模型。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文提出的ARMA-ALEE 模型在準(zhǔn)確率、召回率和F1值方面都優(yōu)于其它參考模型,證明了ARMA-ALEE 模型在對(duì)網(wǎng)絡(luò)輿情動(dòng)態(tài)情感演化分析上的優(yōu)越性。由于新提出的模型要依賴于分類效果較好的方面級(jí)情感分析模型,這也是今后需要進(jìn)一步深入研究的地方。

猜你喜歡
主題詞時(shí)間段輿情
夏天曬太陽防病要注意時(shí)間段
發(fā)朋友圈沒人看是一種怎樣的體驗(yàn)
意林(2017年8期)2017-05-02 17:40:37
輿情
輿情
輿情
不同時(shí)間段顱骨修補(bǔ)對(duì)腦血流動(dòng)力學(xué)變化的影響
我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
2014年第16卷第1~4期主題詞索引
不同時(shí)間段服用左旋氨氯地平治療老年非杓型高血壓患者31例
克拉玛依市| 八宿县| 临高县| 山阳县| 自治县| 临汾市| 吉隆县| 舞钢市| 德令哈市| 郸城县| 科技| 兴国县| 惠水县| 建平县| 鹤岗市| 阿荣旗| 广州市| 安乡县| 宜章县| 东兴市| 望城县| 铜陵市| 土默特左旗| 日照市| 安丘市| 连云港市| 木兰县| 承德市| 三原县| 阳山县| 沙田区| 利辛县| 加查县| 宽城| 武邑县| 高唐县| 团风县| 钟山县| 玉树县| 六盘水市| 庄浪县|