国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于EKSC算法的網(wǎng)絡(luò)事件熱度預(yù)測(cè)方法

2018-03-06 11:05:23張茂元孫樹(shù)園王奕博孟瓊瑤
關(guān)鍵詞:輿情聚類預(yù)測(cè)

張茂元,孫樹(shù)園,王奕博,孟瓊瑤,王 琦

(華中師范大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430079)

1 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為思想文化信息的集散地和社會(huì)輿論的放大器,網(wǎng)絡(luò)輿情成為映射社會(huì)輿情態(tài)勢(shì)的實(shí)時(shí)晴雨表。由于互聯(lián)網(wǎng)的虛擬性,如果不能準(zhǔn)確把握網(wǎng)絡(luò)輿情的傳播規(guī)律并采取有效的引導(dǎo)管理措施,便極有可能影響社會(huì)的和諧與穩(wěn)定,近年來(lái),對(duì)網(wǎng)絡(luò)輿情研究與監(jiān)管已經(jīng)得到黨和國(guó)家的高度重視[1,2]。網(wǎng)絡(luò)輿情通常是由網(wǎng)絡(luò)中的各種熱點(diǎn)事件刺激而產(chǎn)生的,因此研究如何在熱點(diǎn)事件發(fā)展的萌芽階段預(yù)測(cè)其熱度及發(fā)展趨勢(shì)具有重要意義。

現(xiàn)實(shí)生活中,人們對(duì)網(wǎng)絡(luò)事件的參與程度(如報(bào)道數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)等)是衡量網(wǎng)絡(luò)事件熱度的重要度量,這些度量跟隨時(shí)間的變化呈現(xiàn)為一個(gè)時(shí)間序列。不同來(lái)源、不同類型的網(wǎng)絡(luò)事件的熱度隨著時(shí)間的發(fā)展呈現(xiàn)一定規(guī)律的變化[3 - 5]。如圖1所示,其中圖1a是關(guān)于“天津港爆炸事件”的熱度序列圖,有數(shù)個(gè)高峰,衰減速度緩慢;圖1b是關(guān)于藝人大婚的熱度序列圖,其波形只有一個(gè)高峰,且衰減迅速。由此可見(jiàn),網(wǎng)絡(luò)事件的時(shí)間序列蘊(yùn)含著豐富的時(shí)態(tài)信息,通常情況下,同一類事件的發(fā)展趨勢(shì)有較高的相似性[6]。

Figure 1 Development trend of two different events圖1 兩個(gè)不同事件的熱度圖

在熱度預(yù)測(cè)方面,現(xiàn)有的方法大多是通過(guò)文本處理方法對(duì)網(wǎng)絡(luò)上的信息進(jìn)行統(tǒng)計(jì),并通過(guò)挖掘自身歷史數(shù)據(jù)對(duì)未來(lái)熱度趨勢(shì)進(jìn)行預(yù)測(cè)。這種方法雖然可以達(dá)到較高的準(zhǔn)確率,但由于新事件產(chǎn)生時(shí),相關(guān)的報(bào)道數(shù)量、評(píng)論數(shù)、點(diǎn)擊率很少,加之網(wǎng)絡(luò)熱點(diǎn)事件通常具有爆發(fā)周期短的特點(diǎn),使得該類算法無(wú)法有效地對(duì)新出現(xiàn)的事件進(jìn)行預(yù)測(cè),并且在預(yù)測(cè)的過(guò)程中忽視了事件時(shí)間序列中蘊(yùn)含的時(shí)態(tài)信息。

在現(xiàn)實(shí)世界中,事件的發(fā)生并不是孤立的,相似事件的受關(guān)注程度及發(fā)展趨勢(shì)總是相似的。基于上述思想,本文提出了一種基于EKSC(EEMD-based K_SC)算法的網(wǎng)絡(luò)事件熱度預(yù)測(cè)模型。該模型使用EKSC算法對(duì)每類已知網(wǎng)絡(luò)輿情事件的時(shí)間序列進(jìn)行聚類,并構(gòu)建類模型庫(kù)。當(dāng)待預(yù)測(cè)的事件發(fā)生時(shí),首先確定事件的類別并獲取其已知的熱度時(shí)間序列,尋找合適的縮放比例并使用最小二乘法選取類模型庫(kù)中均方誤差和最小的模型對(duì)該事件進(jìn)行預(yù)測(cè)。

2 相關(guān)研究

2.1 輿情預(yù)測(cè)相關(guān)研究

在熱度發(fā)展趨勢(shì)預(yù)測(cè)方面,早期的預(yù)測(cè)方法主要是用于平穩(wěn)時(shí)間序列分析的自回歸模型AR(AutoRegressive)、滑動(dòng)平均模型MA(Moving Average)和自回歸滑動(dòng)平均模型ARMA(AutoRegressive Moving Average)三類。但自然界中絕大部分時(shí)間序列都是非平穩(wěn)的,隨著研究的逐漸深入,又出現(xiàn)了一批以現(xiàn)代科學(xué)技術(shù)方法為主要手段的預(yù)測(cè)模型。例如:文獻(xiàn)[7]采用高斯模型對(duì)帖子的發(fā)展態(tài)勢(shì)進(jìn)行擬合,在此基礎(chǔ)上對(duì)帖子的后續(xù)發(fā)展進(jìn)行預(yù)測(cè);文獻(xiàn)[8]利用小波變換對(duì)帖子的點(diǎn)擊數(shù)或回復(fù)數(shù)所形成的時(shí)間序列進(jìn)行轉(zhuǎn)換,得到低頻和高頻小波系數(shù)值,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集中各個(gè)小波系數(shù)進(jìn)行評(píng)價(jià),選取貢獻(xiàn)度最高的若干系數(shù)作為該類別的特征系數(shù);文獻(xiàn)[9]利用馬爾科夫鏈對(duì)輿情的發(fā)展趨勢(shì)做預(yù)測(cè)。通過(guò)分析輿情事件的點(diǎn)擊數(shù)、回復(fù)數(shù)以及轉(zhuǎn)載數(shù)得到事件的熱度值,并求出熱度趨勢(shì)值,運(yùn)用馬爾科夫鏈構(gòu)造狀態(tài)轉(zhuǎn)移矩陣,最后得到預(yù)測(cè)結(jié)果。文獻(xiàn)[10]通過(guò)將經(jīng)驗(yàn)?zāi)B(tài)分解EMD(Empirical Mode Decomposition)和自回歸積分滑動(dòng)平均模型ARIMA(AutoRegressive Integrated Moving Average Model)相結(jié)合進(jìn)行輿情演化分析。這類方法的共同特點(diǎn)是采用模型和方法,不追求嚴(yán)格的數(shù)學(xué)推導(dǎo),更重視對(duì)時(shí)間序列的擬合效果。雖然研究者們?cè)跓岫阮A(yù)測(cè)方面取得了豐碩的成果,但是由于網(wǎng)絡(luò)輿情是由多種成分共同作用的結(jié)果,而現(xiàn)有的方法大多在建模時(shí)使用具有一定局限性的單一模型進(jìn)行建模,忽略了相似的網(wǎng)絡(luò)事件背后蘊(yùn)含的發(fā)展規(guī)律。

2.2 熱度定義的相關(guān)研究

對(duì)網(wǎng)絡(luò)事件熱度定義的問(wèn)題,當(dāng)前研究多采用的方法可分為:(1) 直接將事件的報(bào)道數(shù)或點(diǎn)擊數(shù)作為熱度;(2) 綜合考慮時(shí)間、關(guān)注度、轉(zhuǎn)發(fā)數(shù)、用戶影響力等多種因素定義事件的熱度。

方法(1)將多種因素納入到熱度的計(jì)算中簡(jiǎn)單直觀,統(tǒng)計(jì)方便,如張虹等人[8]在使用小波分解對(duì)帖子的熱度進(jìn)行預(yù)測(cè)時(shí)采用帖子的點(diǎn)擊數(shù)作為熱度標(biāo)準(zhǔn);何炎祥等人[11]將各話題的發(fā)帖數(shù)量作為話題熱度,并以此為基礎(chǔ)改進(jìn)了人口模型,使用遺傳優(yōu)化的神經(jīng)網(wǎng)絡(luò)對(duì)話題的趨勢(shì)進(jìn)行預(yù)測(cè)。方法(2)綜合考慮時(shí)間、關(guān)注度、轉(zhuǎn)發(fā)數(shù)、用戶影響力等多種因素對(duì)熱度進(jìn)行計(jì)算。如鄭志蘊(yùn)等人[12]在內(nèi)容特征、博主特征和傳播特征三個(gè)方面對(duì)熱門微博進(jìn)行特征分解,并使用信息增益算法對(duì)微博的熱度進(jìn)行度量;Pal等人[13]在Twitter數(shù)據(jù)集上將發(fā)帖數(shù)、回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)、粉絲數(shù)、被引用數(shù)引入熱度的計(jì)算中。

3 基于EKSC算法的網(wǎng)絡(luò)輿情演化分析

3.1 相關(guān)定義

定義1(事件) 事件是在特定的時(shí)間和地點(diǎn),由一系列的原因和條件而產(chǎn)生的,對(duì)一定的人群產(chǎn)生影響的事情,其表現(xiàn)形式為與之相關(guān)的一系列報(bào)道和文檔[14]。

定義2(熱度) 對(duì)一個(gè)網(wǎng)絡(luò)事件,在時(shí)間間隔t內(nèi)被報(bào)道和評(píng)論的次數(shù)稱為該網(wǎng)絡(luò)事件在時(shí)間間隔t內(nèi)的熱度。

定義3(熱度序列) 在一定時(shí)間范圍內(nèi),對(duì)事件的熱度進(jìn)行記錄可得到關(guān)于該事件熱度的時(shí)間序列,稱為熱度序列。根據(jù)事件熱度序列,可畫出熱度時(shí)間序列圖,其反映了該事件的熱度是如何隨著時(shí)間的推移而變化的。

定義4(類模型) 對(duì)熱度時(shí)間序列聚類的結(jié)果中,每一個(gè)類別中所有成員序列所形成的矩陣中心曲線稱為類模型曲線。每一個(gè)類別的類模型序列反映了該類成員時(shí)間序列的共同模式特征。

3.2 K_SC算法

文獻(xiàn)[15]為了刻畫兩個(gè)話題的時(shí)間序列之間的內(nèi)在規(guī)律特征提出了K_SC(K_Spectral Centroid Clustering)算法。K_SC算法分為兩個(gè)步驟:首先,把所有時(shí)間序列隨機(jī)地進(jìn)行分類,根據(jù)矩陣中心公式計(jì)算出每個(gè)類別矩陣的中心;其次,遍歷所有的時(shí)間序列,使用差異度計(jì)算公式,計(jì)算出與每個(gè)類別矩陣中心的差異度,并將其歸到差異度最小的類中,最后更新該類的矩陣中心。K_SC算法是一個(gè)迭代的過(guò)程,迭代停止的條件是:每個(gè)類別的成員不再發(fā)生變化或者達(dá)到預(yù)定的迭代次數(shù)。

下面給出時(shí)間序列差異度計(jì)算公式和更新矩陣中心公式。

(1)差異度計(jì)算公式:

(1)

(2)更新矩陣中心公式:

(2)

化簡(jiǎn)后得到:

(3)

3.3 基于EKSC算法的網(wǎng)絡(luò)事件熱度預(yù)測(cè)

K_SC算法在初始類選擇上很敏感,如果初始類的選擇不好,則算法收斂的速度十分緩慢;此外,K_SC算法的差異度計(jì)算和矩陣中心選擇上使用了原始的時(shí)間序列進(jìn)行處理,由于網(wǎng)絡(luò)事件的時(shí)間序列呈現(xiàn)非平穩(wěn)的變化特點(diǎn),直接用來(lái)作為輸入會(huì)影響算法的聚類效果。因此,為了減少非平穩(wěn)性對(duì)聚類效果的影響,本文在集合經(jīng)驗(yàn)?zāi)J椒纸獾幕A(chǔ)上,提出了改進(jìn)的K_SC算法,稱為EKSC算法。EKSC算法分為兩個(gè)步驟:(1)對(duì)非平穩(wěn)的時(shí)間序列分解為若干近似于平穩(wěn)的時(shí)間序列進(jìn)行處理;(2)重構(gòu)并進(jìn)行聚類。EKSC算法通過(guò)集合經(jīng)驗(yàn)?zāi)J椒纸鈱⒎瞧椒€(wěn)的時(shí)間序列處理為不同尺度的時(shí)間分量,將不同周期的局部特征從原始序列中分離出來(lái),再利用多變量相空間估計(jì)嵌入維數(shù)對(duì)數(shù)據(jù)進(jìn)行重構(gòu),把在不同分量上的聚類結(jié)果作為迭代的基礎(chǔ),有效地減少了非平穩(wěn)特性對(duì)算法準(zhǔn)確性的影響。

非平穩(wěn)時(shí)間序列的分解方法較多,經(jīng)驗(yàn)?zāi)J椒纸釫MD(Empirical Mode Decomposition)[16]是美國(guó)航天局Huang等人提出的一種信號(hào)處理方法。該方法的本質(zhì)是對(duì)信號(hào)進(jìn)行平穩(wěn)化處理,通過(guò)將信號(hào)中不同尺度(頻率)的波動(dòng)逐級(jí)抽離出來(lái),產(chǎn)生一系列包含原信號(hào)不同時(shí)間尺度局部特征信息的本征模函數(shù)IMF(Intrinsic Mode Function)和趨勢(shì)項(xiàng)res。IMF需要滿足兩個(gè)條件:(1)任一局部點(diǎn)上的由序列的極大值和極小值定義的包絡(luò)均值必須為0;(2)序列過(guò)零點(diǎn)的數(shù)量和極值點(diǎn)的數(shù)量必須相等,或者最多相差一個(gè)。EMD的分解過(guò)程是根據(jù)信號(hào)自身的特性將高低頻率先后抽離出來(lái),因此EMD分解具有自適應(yīng)性;而且EMD分解的各個(gè)分量在局部與標(biāo)準(zhǔn)的正弦曲線相吻合,因此各個(gè)IMF分量在局部近似正交,這使得瞬時(shí)頻率具有物理意義。

雖然EMD在解決非線性問(wèn)題上比小波分解更加精確,但是EMD算法仍存在一些問(wèn)題,即出現(xiàn)不同模態(tài)之間的混淆,稱為模態(tài)混疊。模態(tài)混疊是由在信號(hào)分解的過(guò)程中原始時(shí)間信號(hào)中含有的噪聲而造成的,最終將會(huì)導(dǎo)致分解的結(jié)果不穩(wěn)定。為了解決這一缺陷,Wu等人[17]在EMD的基礎(chǔ)上提出了EEMD(Ensemble Empirical Model Decomposition)算法。EEMD算法的核心是,在信號(hào)處理的過(guò)程中加入高斯白噪聲,從而改變信號(hào)不同頻率成分的極值點(diǎn)的分布情況,通過(guò)改變加入白噪聲的次數(shù)和大小可以有效地解決模態(tài)混疊的問(wèn)題。序列y(t)的EEMD分解過(guò)程如下:

(1)設(shè)定加入高斯白噪聲的大小和次數(shù)為N,將第i次加入噪聲后的序列記為yi(t);

(2)將所有加入噪聲后的序列yi(t)進(jìn)行EMD分解,得到不同尺度的本征模函數(shù)IMFij和趨勢(shì)項(xiàng)resi。其中,IMFij表示序列第i次加入噪聲后分解得到的第j個(gè)IMF;

(3)將N次分解的結(jié)果進(jìn)行均值處理,得到EEMD分解后最終的IMF,即:

(4)

最終的結(jié)果表示為:

(5)

對(duì)某一類網(wǎng)絡(luò)事件的時(shí)間序列,我們首先對(duì)序列進(jìn)行平穩(wěn)化處理,得到具有物理意義的各個(gè)IMF分量;然后從低頻分量開(kāi)始聚類,將低頻分量的聚類結(jié)果作為高頻分量聚類的初始矩陣中心。算法迭代過(guò)程的結(jié)束條件為:

(1)如果低頻分量的聚類情況在高頻聚類時(shí)沒(méi)有改變,則跳出循環(huán)迭代結(jié)束;

(2)當(dāng)算法運(yùn)行到指定IMF分量層次時(shí),迭代結(jié)束。

算法1EKSC算法

輸入:N個(gè)維度為L(zhǎng)的時(shí)間序列,k個(gè)初始隨機(jī)類C={C1,C2,…,Ck}。

輸出:k個(gè)類的矩陣中心。

定義:IMF分量的個(gè)數(shù)用m表示

1.fori=1 toNdo

2.yi← EEMD Transform(xi);

3.end for

4.forj=mto 0 do

5. fori=1 toNdo

6. (C,μ1,μ2,…,μk)←K_SC(y,C,k);

7. if(finsh(C)) break;

8.end for

9.returnC,μ1,μ2,…,μk。

將原始序列使用EKSC算法進(jìn)行聚類后可得到聚類結(jié)果C={C1,C2,…,Ck} ,對(duì)于每一類Ci,使用最小二乘法求出與該類包含的所有時(shí)間序列均方誤差和最小的類模型。具體做法如下:設(shè)類別Ci所包含的時(shí)間序列集合為{y1,y2,…,yn},n為類別Ci中所包含的時(shí)間序列的個(gè)數(shù)。每個(gè)時(shí)間序列表示為yj={tj1,tj2,…,tjl},l為時(shí)間序列的維度,1≤j≤n。則類別Ci的類模型可以表示為:

(6)

(7)

將式(6)代入式(7),式(7)可以看做關(guān)于a0,a1,…,ak的多元函數(shù),根據(jù)多元函數(shù)求極值法,分別對(duì)a0,a1,…,ak求一階偏導(dǎo),并令等式的右邊為零,得到如下的非齊次線性方程組:

(8)

解上述非齊次線性方程組,求出所有的駐點(diǎn)a0,a1,…,ak,并找到邊界值上的最小值,最小值對(duì)應(yīng)的駐點(diǎn)即為該類類模型中的各個(gè)系數(shù),從而可獲得該類的類模型。采取同樣的方法,可以建立每一類的類模型。

3.4 熱度預(yù)測(cè)

當(dāng)新的網(wǎng)絡(luò)事件發(fā)生時(shí),首先確定事件所屬的類別,并按一定的時(shí)間間隔采集該事件的熱度,獲得該事件的時(shí)間序列;將該事件的時(shí)間序列進(jìn)行自適應(yīng)的縮放變換,并逐一與其所屬的事件類別中的所有類模型進(jìn)行匹配,選取與已知時(shí)間序列均方差和最小的類模型作為該事件的預(yù)測(cè)模型,具體流程如圖2所示。

Figure 2 Process of predicting development trend圖2 熱度預(yù)測(cè)流程

圖2中,新事件的熱度預(yù)測(cè)方法主要分為三個(gè)步驟:

(1)按一定的時(shí)間間隔采集新事件的熱度形成時(shí)間序列y,長(zhǎng)度為len(y),對(duì)時(shí)間序列的橫坐標(biāo)和縱坐標(biāo)按照比例p1、p2進(jìn)行平移和縮放。經(jīng)過(guò)縮放變換后的橫坐標(biāo)ti和縱坐標(biāo)yi分別為:

ti=(tθ+tr-tθ)(xi-θ))p2

(9)

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)共使用三個(gè)數(shù)據(jù)集,分別來(lái)自Stanford大學(xué)(http://snap.stanford.edu/data/volumeseries.html)的MemePhr數(shù)據(jù)集、Twhtag數(shù)據(jù)集和從“新浪新聞”爬取的社會(huì)安全類新聞報(bào)道數(shù)據(jù)。MemePhr數(shù)據(jù)集選取1 000個(gè)博客和網(wǎng)站上的熱門帖子和新聞,以評(píng)論數(shù)作為熱度,按小時(shí)進(jìn)行劃分,維度為128;Twhtag選自Twitter上的1 000個(gè)熱門帖子,以帖子被提及的次數(shù)作為熱度,按小時(shí)劃分,維度為128;第三個(gè)數(shù)據(jù)集來(lái)自“新浪”新聞中在2015年4月~2015年10月期間關(guān)于社會(huì)安全類的新聞報(bào)道,以新聞報(bào)道的評(píng)論數(shù)為熱度,按小時(shí)進(jìn)行劃分,維度為120。實(shí)驗(yàn)分為兩個(gè)部分,實(shí)驗(yàn)第一部分分別在MemePhr數(shù)據(jù)集、Twhtag數(shù)據(jù)集和從“新浪新聞”爬取的社會(huì)安全類新聞報(bào)道數(shù)據(jù)上對(duì)EKSC算法與K_SC算法的聚類效果進(jìn)行評(píng)估;實(shí)驗(yàn)第二部分在從“新浪新聞”爬取的社會(huì)安全類新聞報(bào)道數(shù)據(jù)上對(duì)“天津港爆炸”事件的發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)。

4.2 評(píng)價(jià)指標(biāo)

(1)EKSC算法和K_SC算法聚類效果評(píng)價(jià)指標(biāo)。

作為聚類算法,主要考慮算法的聚類結(jié)果是否合理,為此,分別從類內(nèi)和類間進(jìn)行評(píng)價(jià):

①F-Value(F值)。F值反映了每個(gè)類內(nèi)部成員的緊湊程度,F(xiàn)值越小,表明類內(nèi)的元素越緊湊。其計(jì)算方法如下:

②D-Value(D值)。

其中,μi、μj分別代表了類i和類j的中心。D值的大小反映了類間的差異性,因此,D值越大表明聚類的效果越好。

(2)趨勢(shì)預(yù)測(cè)評(píng)價(jià)指標(biāo)。

趨勢(shì)預(yù)測(cè)的目的在于對(duì)網(wǎng)絡(luò)事件發(fā)展過(guò)程中所形成的時(shí)間序列進(jìn)行預(yù)測(cè),其準(zhǔn)確性可通過(guò)預(yù)測(cè)值與真實(shí)值的對(duì)比進(jìn)行衡量。因此,選擇均方誤差MSE(Mean Square Error)和趨勢(shì)預(yù)測(cè)準(zhǔn)確率(PRE)兩個(gè)指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。

①均方誤差MSE。MSE反映了事件熱度的預(yù)測(cè)值與真實(shí)值之間的差距,計(jì)算方式如下:

(10)

②趨勢(shì)預(yù)測(cè)準(zhǔn)確率PRE。趨勢(shì)預(yù)測(cè)準(zhǔn)確率反映了對(duì)事件發(fā)展趨勢(shì)預(yù)測(cè)的準(zhǔn)確性,PRE值越大,表明預(yù)測(cè)的結(jié)果越準(zhǔn)確。對(duì)待預(yù)測(cè)事件所形成的時(shí)間序列Y和預(yù)測(cè)得到的時(shí)間序列Y′,其第i個(gè)時(shí)刻到第i+1個(gè)時(shí)刻的趨勢(shì)預(yù)測(cè)是否正確記為Ri,Ri的定義如下:

(11)

則趨勢(shì)預(yù)測(cè)準(zhǔn)確率PRE的計(jì)算公式如下:

(12)

4.3 實(shí)驗(yàn)結(jié)果與分析

4.3.1 EKSC算法與K_SC算法聚類效果比較

表1給出了K_SC算法和EKSC算法在三個(gè)數(shù)據(jù)集上的F值和D值。從表1中可以看出,EKSC算法在F值和D值上都要優(yōu)于K_SC算法,說(shuō)明無(wú)論在類內(nèi)成員的緊湊程度上還是類間的差異度上,EKSC算法都要好于K_SC算法。其原因在于,EEMD能根據(jù)信號(hào)的自身特性自適應(yīng)地分解若干表征局部特征的IMF分量,不同尺度的IMF分量物理含義明顯。在網(wǎng)絡(luò)事件的時(shí)間序列分解上,各個(gè)分量所代表的物理含義可以看作事件演化過(guò)程的特征成分、瞬時(shí)成分、周期成分和趨勢(shì)成分。因此,在初始矩陣中心的選擇上,EKSC算法所選擇的矩陣中心更能反映各個(gè)類別的發(fā)展特性。

Table 1 F-Value and D-value of two algorithms under different data sets

4.3.2 趨勢(shì)預(yù)測(cè)結(jié)果與分析

對(duì)“天津港爆炸事件”的預(yù)測(cè)需要對(duì)其所屬的事件類型構(gòu)建類模型庫(kù),為了構(gòu)建類模型庫(kù),首先使用EKSC算法對(duì)其所屬的社會(huì)安全類數(shù)據(jù)集進(jìn)行聚類,并通過(guò)最小二乘法得到每一小類的模型。對(duì)社會(huì)安全類事件的聚類,其模型曲線如圖3所示。圖3表示將該類事件劃分為4個(gè)小類的模型曲線。構(gòu)建得到每一小類的模型后,將“天津港爆炸事件”前60小時(shí)的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后60小時(shí)的數(shù)據(jù)作為測(cè)試數(shù)據(jù),設(shè)定橫縱坐標(biāo)的縮放比例,當(dāng)p1=2,p2=1.5時(shí),模型庫(kù)中的第3類模型與縮放后的“天津港爆炸事件”數(shù)據(jù)的均方誤差和最小。因此,選定模型3作為天津港事件的預(yù)測(cè)模型。對(duì)模型3的橫縱坐標(biāo)按照1/p1,1/p2的比例進(jìn)行反變化,并將模型中前60小時(shí)的數(shù)據(jù)替換為天津港事件前60小時(shí)的數(shù)據(jù),從而得到天津港事件的預(yù)測(cè)曲線。

Figure 3 Class model library of the development trend圖3 類模型曲線圖

為了驗(yàn)證本文方法的有效性,將本文提出的方法與其他兩種算法進(jìn)行比較。

算法1參照文獻(xiàn)[10]中提出的“基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢(shì)預(yù)報(bào)”方法,選取N=4階消失矩的db4小波,采用3層BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)模型對(duì)“天津港爆炸事件”進(jìn)行熱度預(yù)測(cè),其中隱含層和輸出層的傳遞函數(shù)設(shè)置為logsig,訓(xùn)練函數(shù)為trainlm。在BP神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)速率Ir的大小對(duì)收斂的速度和訓(xùn)練結(jié)果影響很大,一般設(shè)定在0.01~0.1,本文設(shè)定Ir為0.1。

算法2參照文獻(xiàn)[18]中提出的“基于K近鄰的新話題熱度預(yù)測(cè)算法” 對(duì)“天津港爆炸事件”進(jìn)行熱度預(yù)測(cè)。在文獻(xiàn)[18]中,當(dāng)K=1時(shí),實(shí)驗(yàn)效果最好,因此本文將K的值取為1。

表2給出了三種方法得到的預(yù)測(cè)值與實(shí)際值之間的均方誤差和趨勢(shì)預(yù)測(cè)準(zhǔn)確率,圖4給出了天津港事件的真實(shí)熱度曲線和預(yù)測(cè)曲線。從表2中可以看到,基于EKSC算法的熱度預(yù)測(cè)方法在預(yù)測(cè)熱度值的準(zhǔn)確性和事件發(fā)展趨勢(shì)的預(yù)測(cè)上都要優(yōu)于其他兩種方法,因此,本文提出的預(yù)測(cè)方法是有效的。

Table 2 Predicted results of different methods

Figure 4 Comparison of predicted trend and actual trend圖4 “天津港爆炸事件”熱度預(yù)測(cè)對(duì)比圖

5 結(jié)束語(yǔ)

近年來(lái)隨著我國(guó)進(jìn)入關(guān)鍵的轉(zhuǎn)型階段,社會(huì)的復(fù)雜程度進(jìn)一步提高,合理科學(xué)地監(jiān)管和引導(dǎo)網(wǎng)絡(luò)輿情對(duì)確保社會(huì)的穩(wěn)定和諧具有重要意義。如何準(zhǔn)確把握網(wǎng)絡(luò)輿情的傳播規(guī)律是一個(gè)關(guān)鍵問(wèn)題,本文就此提出了基于ESKC算法的網(wǎng)絡(luò)事件熱度預(yù)測(cè)模型。該模型使用EKSC算法對(duì)每類的已知網(wǎng)絡(luò)輿情事件的時(shí)間序列進(jìn)行聚類,并構(gòu)建類模型庫(kù)。當(dāng)待預(yù)測(cè)的事件發(fā)生時(shí),首先確定事件的類別并獲取其已知的熱度時(shí)間序列,尋找合適的縮放比例并使用最小二乘法選取類模型庫(kù)中均方誤差和最小的模型對(duì)該事件進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)表明本文提出的方法比傳統(tǒng)的預(yù)測(cè)方法預(yù)測(cè)結(jié)果更準(zhǔn)確,可以更好地幫助監(jiān)管部門對(duì)網(wǎng)絡(luò)輿情事件發(fā)展態(tài)勢(shì)的把控,提高網(wǎng)絡(luò)輿情監(jiān)管功效。

[1] Dai Yuan,Yao Fei.Research on information mining and evaluation index system based on network public opinion security [J].Information Studies:Theory & Application,2008,31(6):873-876.(in Chinese)

[2] Zeng Run-xi,Xu Xiao-lin.A study on early warning mechanism and index for network opinion [J].Journal of Intelligence,2009,28(11):52-54.(in Chinese)

[3] Szabo G,Huberman B A.Predicting the popularity of online content [J].Communications of the ACM,2010,53(8):80-88.

[4] Mei Q,Liu C,Su H et al.A probabilistic approach to spatiotemporal theme pattern mining on weblogs [C]∥Proc of the 15th International Conference on World Wide Web, 2006:533-542.

[5] Crane R, Sornette D.Robust dynamic classes revealed by measuring the response function of a social system [J].Proceedings of the National Academy of Sciences of the United States of America,2008,105(41):15649-15653.

[6] Gao Hui,Wang Sha-sha,Fu Yan.Prediction model for long-term development trend of web sentiment [J].Journal of University of Electronic Science and Technology of China,2011,40(3):440-445.(in Chinese)

[7] Lu Jun-jia,Zhang Hong-li,Zhang Yue.Research on the technology of hot topics foundation and trend forecast in BBS [J].Intelligent Computer and Applications,2012,2(2):1.(in Chinese)

[8] Zhang Hong,Zhong Hua,Zhao Bing.Hot trend prediction of network forum topic based on data mining [J].Computer Engineering and Applications,2007,43(31):159-161.(in Chinese)

[9] Liu Kan,Li Jing,Liu Ping.Trend analysis of public opinion based on Markov chain [J].Computer Engineering and Applications,2011,47(36):170-173.(in Chinese)

[10] Zhou Yao-ming, Wang Bo, Zhang Hui-cheng.Evolution analysis and modeling method of internet public opinions based on EMD [J].Computer Engineering,2012,38(21):5-9.(in Chinese)

[11] He Yan-xiang, Liu Jian-bo, Liu Nan.Based on improved Malthusian model microblogging topic trend forecast [J].Journal on Communications,2015,36(4):5-12.(in Chinese)

[12] Zheng Zhi-yun, Jiang Guo-lin,Zhang Hang-jin.Researh on the prediction algorithm for Sina popular micro blog based on multi-features [J].Journal of Chinese Computer System,2017,38(3):494-498.(in Chinese)

[13] Pal A,Counts S.Identifying topical authorities in microblogs [C]∥Proc of the 4th ACM International Conference on Web Search and Data Mining,2011:45-54.

[14] Chen Xue-chang,Han Jia-zhen,Wei Gui-ying.Topic detection and tracking pilot study [J].China Management Informationization,2011,14(9):56-58.

[15] Yang J,Leskovec J.Patterns of temporal variation in online media [C]∥Proc of the 4th ACM International Conference on Web Search and Data Mining,2011:177-186.

[16] Huang N E, Shen Zheng,Long S R,et al.The empirical mode decomposition and the hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society,1998,454(1971):903-995.

[17] Wu Zhao-hua, Norden E H.Ensemble empirical mode decomposition:A noise-assisted data analysis method[J].Advances in Adaptive Data Analysis,2009,1(1):1-41.

[18] Nie En-lun,Chen Li,Wang Ya-qiang.Algorithm for prediction of new topic’s hotness using theK-nearest neighbors [J].Computer Science,2012,39(S1):257-260.(in Chinese)

附中文參考文獻(xiàn):

[1] 戴媛,姚飛.基于網(wǎng)絡(luò)輿情安全的信息挖掘及評(píng)估指標(biāo)體系研究[J].情報(bào)理論與實(shí)踐,2008,6(31):873-876.

[2] 曾潤(rùn)喜,徐曉林.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)、指標(biāo)與機(jī)制[J].情報(bào)雜志,2009,28(11):52-54.

[6] 高輝,王沙沙,傅彥.Web輿情的長(zhǎng)期趨勢(shì)預(yù)測(cè)方法[J].電子科技大學(xué)學(xué)報(bào),2011,40(3):440-445.

[7] 盧珺珈,張宏莉,張玥.基于BBS的熱點(diǎn)話題發(fā)現(xiàn)與態(tài)勢(shì)預(yù)測(cè)技術(shù)的研究[J].智能計(jì)算機(jī)與應(yīng)用,2012,2(2):1.

[8] 張虹,鐘華,趙兵.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢(shì)預(yù)報(bào)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31):159-161.

[9] 劉勘,李晶,劉萍.基于馬爾可夫鏈的輿情熱度趨勢(shì)分析[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(36):170-173.

[10] 周耀明,王波,張慧成.基于EMD的網(wǎng)絡(luò)輿情演化分析與建模方法[J].計(jì)算機(jī)工程,2012,38(21):5-9.

[11] 何炎祥,劉健博,劉楠.基于改進(jìn)人口模型的微博話題趨勢(shì)預(yù)測(cè)[J].通信學(xué)報(bào),2015,36(4):5-12.

[12] 鄭志蘊(yùn),江國(guó)林,張行進(jìn),等.基于多特征的熱門微博預(yù)測(cè)算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(3):494-498.

[18] 聶恩倫,陳黎,王亞強(qiáng),等.基于K近鄰的新話題熱度預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,39(S1):257-260.

猜你喜歡
輿情聚類預(yù)測(cè)
無(wú)可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2-2期中考試預(yù)測(cè)卷(A卷)
基于DBSACN聚類算法的XML文檔聚類
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
輿情
輿情
輿情
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
大化| 宁武县| 大厂| 特克斯县| 饶阳县| 镇巴县| 海兴县| 大渡口区| 九江县| 石楼县| 钟山县| 利津县| 威宁| 湖州市| 邵阳市| 晴隆县| 万山特区| 措勤县| 哈密市| 丰台区| 西乡县| 潼关县| 桐梓县| 柞水县| 锦屏县| 开封市| 新宾| 张家界市| 平舆县| 乐东| 武城县| 黄龙县| 平定县| 鹰潭市| 鹤庆县| 深州市| 德化县| 闵行区| 宜丰县| 自治县| 麻栗坡县|