楊雪林
摘 要: 針對傳統(tǒng)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法對大廣度、強干擾的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測性能差的缺點,在深入研究現(xiàn)有網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法基礎(chǔ)上提出一種基于大數(shù)據(jù)語義特征分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法。該算法采用二元語義對網(wǎng)絡(luò)輿情特征進行擬合,構(gòu)建與匹配網(wǎng)絡(luò)輿情關(guān)鍵詞,構(gòu)建時間序列模型,分析與提取語義特征,從而實現(xiàn)大數(shù)據(jù)分析法對網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測。最后利用仿真實驗對該算法進行驗證,其結(jié)果表明,該算法預(yù)測精度高、實時性強,對提高網(wǎng)絡(luò)輿情的監(jiān)管能力具有重要意義。
關(guān)鍵詞: 大數(shù)據(jù); 網(wǎng)絡(luò)輿情; 特征提??; 輿情監(jiān)管
中圖分類號: TN711?34; TP393 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)24?0028?03
Abstract: In allusion to the problem that the traditional network public opinion monitoring and prediction algorithm has poor prediction performance for large amount of network public opinion data with strong interference, a network public opinion monitoring and prediction algorithm based on semantic feature analysis of big data is proposed after the in?depth study on the current network public opinion monitoring and prediction algorithm. In the algorithm, the two?tuple semantics is used to fit the features of network public opinions, construct and match the keywords of network public opinions, construct the time series model, and analyze and extract semantic features, so as to realize the monitoring and prediction of network public opinions by using the big data analysis method. The simulation experiment was carried out to verify the algorithm. The results show that the algorithm has high prediction precision and strong real?time performance, which is of great significance for improving the network public opinion monitoring capability.
Keywords: big data; network public opinion; feature extraction; public opinion monitoring
網(wǎng)絡(luò)輿情是指在博客、微博、BBS論壇等網(wǎng)絡(luò)平臺上發(fā)表評論與意見,而形成的互聯(lián)網(wǎng)空間社會輿情的映射[1?4]。網(wǎng)絡(luò)的開放性與網(wǎng)絡(luò)通信技術(shù)的發(fā)展促進了信息的快速傳播,從而加速網(wǎng)絡(luò)輿情發(fā)酵傳播。為了避免不良情緒與謠言等網(wǎng)絡(luò)輿情給社會生活造成惡劣的影響,需要對網(wǎng)絡(luò)輿情加強管理[5?8]。針對傳統(tǒng)的基于主題[9]、基于自相關(guān)特征[10]、基于概念格的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法對大廣度、強干擾的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測性能差的缺點,本文在深入研究現(xiàn)有網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法基礎(chǔ)上提出了一種基于大數(shù)據(jù)語義特征分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法。該算法采用二元語義對網(wǎng)絡(luò)輿情特征進行擬合,構(gòu)建與匹配網(wǎng)絡(luò)輿情關(guān)鍵詞,構(gòu)建時間序列模型,分析與提取語義特征,從而實現(xiàn)大數(shù)據(jù)分析法對網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測,對提高網(wǎng)絡(luò)輿情的監(jiān)管能力具有重要意義[11]。
1 網(wǎng)絡(luò)輿情時間序列模型構(gòu)建
構(gòu)建本質(zhì)為非線性特征序列的網(wǎng)絡(luò)輿情的時間序列模型。設(shè)d維隨機變量Ui,監(jiān)測到的網(wǎng)絡(luò)輿情為,并通過網(wǎng)絡(luò)平臺對其進行特征提取與聚類分析。在經(jīng)過傳播之后,網(wǎng)絡(luò)輿情在路由鏈路層的域間關(guān)聯(lián)特征表示為:
式中:β為二元語義分解系數(shù),取值范圍為;S為熱點時間評價集;K為抽取關(guān)鍵詞算子。其中元素為實函數(shù),S中第k個元素為sk。設(shè)二元語義為,,對網(wǎng)絡(luò)平臺上頻繁出現(xiàn)的詞匯進行篩選,當(dāng)逆函數(shù)滿足:
采用傅里葉變換分解輿情語義特征,使其轉(zhuǎn)化為:
對熱點信息的關(guān)鍵詞與特征參量進行采集,從而實現(xiàn)基于大數(shù)據(jù)的時間序列模型構(gòu)建。并以此進行特征提取與數(shù)據(jù)分析,為網(wǎng)絡(luò)輿情監(jiān)管提供數(shù)據(jù)信息。
2 網(wǎng)絡(luò)輿情二元語義擬合
語義特征提取的基礎(chǔ)是基于主題詞表的二元語義擬合。主題詞表呈樹狀,其分叉特征為二元語義,,則其之間的距離為:
采用閉合頻繁項檢索法檢索二元語義,輸出為:
通過對網(wǎng)絡(luò)輿情時間序列的信息采樣與結(jié)合路徑消耗,網(wǎng)絡(luò)輿情主題詞表結(jié)構(gòu)圖如圖1所示。從中進行特征分解可得到,自特征序列和分解序列分別為:
基于叉項信息鏈狀態(tài)估計方法統(tǒng)計的信息實現(xiàn)網(wǎng)絡(luò)輿情的二元語義擬合。
3 基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法
3.1 語義特征分析
針對傳統(tǒng)網(wǎng)絡(luò)輿情監(jiān)測方法抗干擾能力低、精度差的缺點,本文提出基于大數(shù)據(jù)語義特征分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法,以提高抗干擾度與精度。相空間中的網(wǎng)絡(luò)輿情序列的語義本體模型表達式為:endprint
其實質(zhì)為非線性均衡信道模型。式中:相空間中的網(wǎng)絡(luò)輿情序列嵌入維數(shù),延遲時間為,,為輿情信息權(quán)重向量,由二元語義決策得到評價指標(biāo)權(quán)重輸出為。從而建立決策矩陣為:
網(wǎng)絡(luò)輿情相空間的綜合評價映射為:
根據(jù)綜合評價與指標(biāo)權(quán)重對網(wǎng)絡(luò)輿情語義列表向量進行分割,從而得到基于大數(shù)據(jù)語義特征分析的網(wǎng)絡(luò)輿情提取方案為:
3.2 基于大數(shù)據(jù)分析的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測實現(xiàn)
針對聚斂的語義特征網(wǎng)絡(luò)輿情可預(yù)測,而發(fā)散時擾動大的特點,本文采用協(xié)方差修正法對語義主題樹特征進行處理,協(xié)方差修正模型為:
網(wǎng)絡(luò)輿情預(yù)測基于輿情分布網(wǎng)頁與文檔的相關(guān)聯(lián)度匹配語義主題詞特征分析。由于大數(shù)據(jù)種類多樣、處理速度快,因而基于修正過后的主題詞表能夠?qū)崿F(xiàn)網(wǎng)絡(luò)輿情的準確預(yù)測,且速度更快。
4 仿真實驗分析
采用SQL Server數(shù)據(jù)庫中網(wǎng)絡(luò)輿情數(shù)據(jù),對本文所提算法進行實驗驗證。采樣周期為0.02 s,樣本長度為1 024,干擾強度為,圖2為采樣的網(wǎng)絡(luò)輿情大數(shù)據(jù)信息。對其進行二元語義擬合,提取其語義特征,結(jié)果如圖3所示。從圖3可見,語義特征匹配性好、聚斂性高。將本文方法與傳統(tǒng)預(yù)測方法進行比對,對比結(jié)果如圖4所示。從圖4可見,本文所提出的預(yù)測方法收斂時間較短,且誤差小。
5 結(jié) 語
本文通過對網(wǎng)絡(luò)輿情監(jiān)管與預(yù)測問題進行大量研究,針對傳統(tǒng)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法對大廣度、強干擾的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測性能差的缺點,提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法,并對其進行了仿真實驗驗證。驗證結(jié)果表明,該算法預(yù)測精度高,實時性強,對提高網(wǎng)絡(luò)輿情的監(jiān)管能力具有重要意義。
參考文獻
[1] 卜湛,伍之昂,曹杰,等.在線評論情感計算與博弈預(yù)測[J].電子學(xué)報,2015,43(12):2530?2535.
[2] 張雙雙,王延年.節(jié)點分布不均勻的無線傳感網(wǎng)絡(luò)低功耗算法[J].西安工程大學(xué)學(xué)報,2015,29(6):720?723.
[3] LANCET T. Identifying influential users in network public opinion of crowd unfollow on twitter [J]. Journal of information & computational science, 2015, 12(17): 6629?6642.
[4] PATCHARAMANEEPAKRON P, ARMOUR S, DOUFEXI A. Coordinated beamforming schemes based on modified signal?to?leakage?plus?noise ratio precoding designs [J]. IET communications, 2015, 9(4): 558?567.
[5] 柳虹.網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)研究[J].科技通報,2011,27(3):421?423.
[6] 馬俊濤,高梅國,董健.基于稀疏迭代協(xié)方差估計的缺失數(shù)據(jù)譜分析及時域重建方法[J].電子與信息學(xué)報,2016,38(6):1431?1437.
[7] 李云,陳龐森,孫山林.基于近場通信認證的無線局域網(wǎng)無線接入?yún)f(xié)議的安全性設(shè)計[J].計算機應(yīng)用,2016,36(5):1236?1245.
[8] MA N, LIU Y. SuperedgeRank algorithm and its application in identifying opinion leader of online public opinion supernetwork [J]. Expert systems with applications, 2014, 41(4): 1357?1368.
[9] 胡金柱,周星,舒江波,等.基于啟發(fā)式規(guī)則的網(wǎng)頁主題信息精確定位方法[J].計算機應(yīng)用研究,2010,27(2):494?497.
[10] ZHANG W, LI X, HE H, et al. Identifying network public opinion leaders based on Markov Logic Networks [J]. The scientific world journal, 2014, 4 (5): 435?444.
[11] 王少鵬,彭巖,王潔.基于LDA的文本聚類在網(wǎng)絡(luò)輿情分析中的應(yīng)用研究[J].山東大學(xué)學(xué)報(理學(xué)版),2014,49(9):129?134.endprint