張仲榮, 崔舒為, 徐 森
(蘭州交通大學(xué) 數(shù)理學(xué)院, 甘肅 蘭州 730070)
網(wǎng)絡(luò)媒體的衍生與發(fā)展促進(jìn)了網(wǎng)絡(luò)輿情的產(chǎn)生與傳播,網(wǎng)絡(luò)輿情的演化影響著社會的穩(wěn)定與發(fā)展[1]。 相對真實消息而言,虛假消息傳播的更快更廣,人們更傾向于分享與交流虛假信息。因此,對網(wǎng)絡(luò)輿情進(jìn)行良好的引導(dǎo)與控制尤為重要[2]。
利用科學(xué)的數(shù)據(jù)分析對輿情的演化行為進(jìn)行預(yù)測與判斷,可更好的控制與干預(yù)輿情的傳播與發(fā)展[3]。 如改進(jìn)的Hegselmann-Krause輿論演化模型改善了模型中缺乏個體對領(lǐng)袖觀點持排斥意見的問題[4]; 灰色模型GM(1,1)對網(wǎng)絡(luò)輿情事件可進(jìn)行定量預(yù)測,取得了較好的效果,但預(yù)測精度較差[5]。 模擬近似非齊次指數(shù)序列的灰色模型NGM(1,1,k)改善了GM(1,1)對非齊次指數(shù)序列建模精度較差的問題[6];非齊次灰色模型NHGM(1,1)相對于NGM(1,1,k),對近似非齊次指數(shù)序列數(shù)據(jù)的包容性更好,預(yù)測效果更佳[7]。但是,這兩種模型均存在參數(shù)估計與時間響應(yīng)式之間的跳躍替代誤差,預(yù)測精度仍有提高的空間。而三參數(shù)灰色模型TPGM(1,1)[8]的參數(shù)估計與時間響應(yīng)式皆由差分方程推導(dǎo)得出,進(jìn)一步避免了跳躍替代誤差,但其初始值的選取方式并不是最優(yōu)。
為了對網(wǎng)絡(luò)輿情搜索指數(shù)數(shù)據(jù)預(yù)測更精確,本文建立一種改進(jìn)的三參數(shù)灰色模型TPGM(1,1)。將幾何平均弱化緩沖算子作用于初始數(shù)據(jù),減少由于沖擊擾動項的干擾造成的數(shù)據(jù)失真;引入TPGM(1,1),利用最小二乘法對TPGM(1,1)初始值的計算方法進(jìn)行改進(jìn),以期提高預(yù)測精度。
針對網(wǎng)絡(luò)輿情搜索指數(shù)數(shù)據(jù)的小樣本特點,選擇TPGM(1,1)進(jìn)行網(wǎng)絡(luò)輿情序列預(yù)測建模。TPGM(1,1)的參數(shù)估計與時間響應(yīng)式皆由差分方程推導(dǎo)得出,避免了GM(1,1)從微分方程到差分方程的跳躍替代誤差,預(yù)測精度更高。TPGM(1,1)建模過程[8]如下。
設(shè)初始序列
X(0)=[x(0)(1),x(0)(2),…,x(0)(n)],x(0)(k)≥0,k=1,2,…,n。
X(0)的一階累加生成(accumulating generation operater,1-AGO)序列為
(1)
X(1)的緊鄰均值生成序列為
Z(1)=[z(1)(2),z(1)(3),…,z(1)(n)],z(1)(k)=0.5[x(1)(k)+x(1)(k-1)]。
(2)
設(shè)定參數(shù)a、b和c,得TPGM(1,1)的表達(dá)式為
x(0)(k)+az(1)(k)=0.5(2k-1)b+c。
(3)
由式(1)、式(2)和式(3)可得方程組
(4)
解方程組(4)得
x(1)(k)-x(1)(k-1)+
0.5ax(1)(k)+0.5ax(1)(k-1)=
0.5(2k-1)b+c。
由此可推得
(5)
令
則式(5)可化簡為
x(1)(k)=φ1x(1)(k-1)+φ2k-φ3,k=2,3,…,n。
(6)
要求
(7)
由φ1,φ2,φ3可知,
(8)
利用數(shù)學(xué)歸納法,推導(dǎo)式(8)得到時間響應(yīng)式為
即
還原式為
(9)
根據(jù)式(9),利用TPGM(1,1)對網(wǎng)絡(luò)輿情搜索指數(shù)數(shù)據(jù)模擬與預(yù)測。但是,TPGM(1,1)是以x(0)(1)為初始值作為條件,初始值的選取方式并不是最優(yōu)。
網(wǎng)絡(luò)輿情數(shù)據(jù)的變化趨勢并不能完全正確地展現(xiàn)出數(shù)據(jù)本身真正的變化規(guī)律, 沖擊擾動項的存在阻擋了數(shù)據(jù)真實變化規(guī)律[9]。利用幾何平均弱化緩沖算子對原始序列進(jìn)行預(yù)處理,去除數(shù)據(jù)中的沖擊擾動項[10-11],然后引入TPGM(1,1),利用最小二乘法對其初始值的計算方法進(jìn)行改進(jìn)。
設(shè)系統(tǒng)真實序列為X(0),觀測序列[9]為
X=[x(1),x(2),…,x(n)]=
[x(0)(1)+ε1,x(0)(2)+ε2,…,x(0)(n)+εn]=
X(0)+ε
其中ε=(ε1,ε2,…,εn)為沖擊擾動項,則X也稱為沖擊擾動序列。
將幾何平均弱化緩沖算子作用于沖擊擾動序列X,得到去除沖擊擾動項序列[9]
XD=[x(1)d,x(2)d,…,x(n)d]
其中
利用最小二乘法對TPGM(1,1)的初始值進(jìn)行改進(jìn),以模型的整體模擬誤差最小為目標(biāo)選取初始值,也就是解決最優(yōu)化問題
(10)
解得
利用熱門關(guān)鍵詞“IG奪冠”的百度指數(shù)[12-13]作為輿情數(shù)據(jù)對改進(jìn)的TPGM(1,1)進(jìn)行檢驗。根據(jù)輿情搜索指數(shù)的變化具有急劇變化的特點,指數(shù)在一到兩日之內(nèi)就會達(dá)到最高峰,然后緩慢下降最終趨于穩(wěn)定。所以從搜索指數(shù)的最高點開始選取數(shù)據(jù),選用2018年11月3日至11月17日的百度指數(shù)(輿情序列)作為初始數(shù)據(jù),劃分11月3日至11月12日為訓(xùn)練集,11月13日至11月17日為測試集,對11月13日至11月17日“IG奪冠”的百度指數(shù)進(jìn)行預(yù)測。數(shù)據(jù)的選取與處理結(jié)果如表1所示。
表1 原始數(shù)據(jù)與預(yù)處理數(shù)據(jù)
由表1可以看出,經(jīng)過幾何平均弱化緩沖算子處理后,數(shù)據(jù)展示出了原本真實的變化規(guī)律,還原了數(shù)據(jù)的真實面目,將更有利于之后的數(shù)據(jù)建模。
利用評價指標(biāo)相對誤差、平均相對誤差、平均絕對百分比誤差(mean absolute percentage error,MAPE)和均方誤差(mean square error,MSE)[14-15],對比GM(1,1)、TPGM(1,1)和改進(jìn)的TPGM(1,1)的預(yù)測結(jié)果分別如表2和表3所示。
由表2和表3可以看出,TPGM(1,1)相對于GM(1,1)指標(biāo)均變小,說明移除參數(shù)替代誤差后預(yù)測精確度更高,而改進(jìn)的TPGM(1,1)比TPGM(1,1)的預(yù)測精度還有所提升,說明基于最小二乘法改進(jìn)初始值的選取方法是有效的。因此,改進(jìn)的TPGM(1,1)的預(yù)測精度更高。
表2 3種模型的預(yù)測結(jié)果
表3 3種模型的MAPE與MSE對比
引入幾何平均弱化緩沖算子對初始數(shù)據(jù)進(jìn)行預(yù)處理,然后利用最小二乘法對TPGM(1,1)的初始值進(jìn)行改進(jìn),最終建立改進(jìn)的TPGM(1, 1)。實驗結(jié)果表明,改進(jìn)模型比GM(1,1) 和TPGM(1,1)的預(yù)測精度更高。