金海
摘 要: 針對(duì)傳統(tǒng)預(yù)測系統(tǒng)一直存在預(yù)測結(jié)果不準(zhǔn)確、系統(tǒng)穩(wěn)定性差的問題,提出并設(shè)計(jì)了基于改進(jìn)神經(jīng)網(wǎng)絡(luò)算法的微博熱點(diǎn)預(yù)測系統(tǒng),其硬件部分主要對(duì)數(shù)據(jù)采集模塊、微博信息傳播趨勢分析模塊、微博熱點(diǎn)判別模塊進(jìn)行了分析并設(shè)計(jì),軟件部分主要引進(jìn)了改進(jìn)神經(jīng)網(wǎng)絡(luò)算法,對(duì)原有系統(tǒng)進(jìn)行了優(yōu)化。實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)系統(tǒng)對(duì)微博熱點(diǎn)進(jìn)行預(yù)測時(shí),其預(yù)測穩(wěn)定性相比傳統(tǒng)預(yù)測系統(tǒng)要優(yōu)越,在相同時(shí)間內(nèi),出現(xiàn)波動(dòng)的次數(shù)降低了2~4次,具有一定的優(yōu)勢。
關(guān)鍵詞: 微博熱點(diǎn); 預(yù)測系統(tǒng); 改進(jìn)神經(jīng)網(wǎng)絡(luò)算法; 數(shù)據(jù)采集; 微博信息傳播; 預(yù)測穩(wěn)定性
中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)12?0157?04
Abstract: In allusion to the long?existing problems of inaccurate prediction results and poor system stability of the traditional prediction system, a micro?blog hot spot prediction system based on improved neural network algorithm is proposed and designed. For the hardware part of the system, the data acquisition module, micro?blog information propagation trend analysis module, and micro?blog hot spot discrimination module are mainly analyzed and designed. For the software part, the improved neural network algorithm is mainly introduced to optimize the original system. The experimental results show that the improved micro?blog hot spot prediction system has superior prediction stability than the traditional prediction system, and the number of fluctuations is reduced by 2~4 times within the same time, which has a certain advantages.
Keywords: micro?blog hot spot; prediction system; improved neural network algorithm; data acquisition; micro?blog information propagation; prediction stability
隨著Web 2.0技術(shù)的大規(guī)模應(yīng)用,互聯(lián)網(wǎng)時(shí)代的來臨,各種移動(dòng)設(shè)備的出現(xiàn),為人們的生活增添了更多便捷的入網(wǎng)形式,從最初的QQ到現(xiàn)有的微博、博客再到論壇,各類社交網(wǎng)絡(luò)平臺(tái)迅猛發(fā)展[1]。人們生活日益簡便,同時(shí)用戶亦能方便地從社交網(wǎng)絡(luò)平臺(tái)獲得所需信息,將自己的觀點(diǎn)分享給大家,或者直接參加不同種類話題的研究分析,與其他用戶進(jìn)行溝通[2],人們對(duì)網(wǎng)絡(luò)事件參與度越來越高。如微博的使用,其微博信息的使用量達(dá)到上億條,每類微博話題均有上百億的閱讀量,用戶活躍量逐漸增加。數(shù)據(jù)量的快速增加,傳統(tǒng)系統(tǒng)已無法滿足微博熱點(diǎn)預(yù)測要求。而如何在超大數(shù)據(jù)量面前快速準(zhǔn)確地預(yù)測微博熱點(diǎn)成為一個(gè)重要的話題。一方面,如何對(duì)大量數(shù)據(jù)進(jìn)行有效存儲(chǔ)及快速檢索是該領(lǐng)域面臨的一大挑戰(zhàn);另一方面,從海量數(shù)據(jù)里面如何快速獲取及計(jì)算所需的微博熱點(diǎn)特征,也是該領(lǐng)域關(guān)注的重點(diǎn)。對(duì)此,提出并設(shè)計(jì)了基于改進(jìn)神經(jīng)網(wǎng)絡(luò)算法的微博熱點(diǎn)預(yù)測系統(tǒng)。
1 系統(tǒng)總體設(shè)計(jì)
微博熱點(diǎn)預(yù)測系統(tǒng)由熱點(diǎn)數(shù)據(jù)采集、關(guān)鍵詞提取、分析關(guān)鍵用戶行為影響力、熱點(diǎn)信息傳播趨勢分析等部分組成。其中,微博熱點(diǎn)數(shù)據(jù)的采集對(duì)象以微博用戶屬性、微博屬性、微博用戶關(guān)系三方面為主;然后經(jīng)提取微博用戶屬性、微博屬性進(jìn)行挖掘分析,獲取微博關(guān)鍵信息合集;同時(shí)采用關(guān)鍵詞分類算法,將熱點(diǎn)相關(guān)的微博信息從海量微博信息中分離出來,對(duì)微博信息進(jìn)行中文分詞,運(yùn)用改進(jìn)神經(jīng)網(wǎng)絡(luò)算法計(jì)算出某一段時(shí)間內(nèi)高頻微博信息[3];另一方面,計(jì)算各個(gè)關(guān)鍵用戶行為影響力,確定影響力大小及范圍;一句關(guān)鍵用戶集合及關(guān)鍵用戶行為影響力,對(duì)高頻微博信息傳播趨勢進(jìn)行分析,并進(jìn)行判斷,預(yù)測微博熱點(diǎn),系統(tǒng)流程圖如圖1所示。
實(shí)現(xiàn)微博熱點(diǎn)預(yù)測步驟如下:
1) 經(jīng)調(diào)用微博平臺(tái)的API,采用網(wǎng)絡(luò)爬蟲算法采集有關(guān)微博用戶屬性、微博屬性、用戶之間關(guān)聯(lián)性等數(shù)據(jù)[4]。
2) 對(duì)于獲取關(guān)鍵用戶,可對(duì)微博用戶進(jìn)行預(yù)處理,消除僵尸粉用戶對(duì)微博熱點(diǎn)預(yù)測的干擾、廣告用戶對(duì)微博熱點(diǎn)預(yù)測的影響,然后結(jié)合用戶被關(guān)注度、微博轉(zhuǎn)發(fā)數(shù)、微博評(píng)論數(shù),計(jì)算用戶微博自身的影響力,得到關(guān)鍵微博用戶集合。
3) 依據(jù)改進(jìn)神經(jīng)網(wǎng)絡(luò)算法,得到高頻微博關(guān)鍵詞。
4) 分析用戶間存在的影響概率、好友之間聯(lián)合影響概率,計(jì)算關(guān)鍵微博用戶的行為影響力。
5) 最后根據(jù)關(guān)鍵用戶集合和關(guān)鍵用戶行為影響力,對(duì)高頻微博關(guān)鍵詞傳播趨勢進(jìn)行分析,預(yù)測微博信息在未來一段時(shí)間內(nèi)是否會(huì)成為熱點(diǎn)。
2 硬件部分設(shè)計(jì)
2.1 數(shù)據(jù)采集
本文采用遞歸的思想對(duì)微博數(shù)據(jù)進(jìn)行爬取。由于微博信息發(fā)布的時(shí)間因素,需對(duì)微博信息進(jìn)行跟蹤觀察,間隔設(shè)置為1周,即1周后對(duì)微博信息活躍情況進(jìn)行預(yù)測。因此首先對(duì)采集的目標(biāo)微博信息進(jìn)行處理,設(shè)置某個(gè)時(shí)間點(diǎn)采集一條微博信息,在1周后對(duì)該微博信息活躍度再次進(jìn)行計(jì)算,根據(jù)計(jì)算結(jié)果進(jìn)一步預(yù)測。但為了消除時(shí)間上存在特殊性對(duì)預(yù)測結(jié)果造成的干擾,在一定時(shí)間內(nèi),對(duì)目標(biāo)微博信息進(jìn)行持續(xù)采集,且在下一次的采集前對(duì)該天前7天的微博再次進(jìn)行爬取,得到新的微博信息。
2.2 微博信息傳播趨勢分析模塊設(shè)計(jì)
對(duì)微博信息傳播趨勢進(jìn)行分析時(shí),以基于高頻微博關(guān)鍵詞集合、關(guān)鍵用戶集合、各關(guān)鍵用戶行為影響力等為前提。若能夠解析出微博信息傳播的形式,那么就能獲得微博信息擴(kuò)散的詳細(xì)狀況。依據(jù)得到的高頻率微博關(guān)鍵詞,確定是否被大量用戶所轉(zhuǎn)發(fā),并確定在以后的某段時(shí)期內(nèi)是否變成微博熱點(diǎn)信息。此外,經(jīng)過解析用戶行為傳播方式,預(yù)測微博信息傳播趨勢非常接近,如此可知微博信息的傳播趨勢與預(yù)測系統(tǒng)之間的關(guān)聯(lián)性。
2.3 關(guān)鍵用戶行為影響力分析模塊的設(shè)計(jì)
在對(duì)微博信息傳播趨勢進(jìn)行分析的基礎(chǔ)上,設(shè)置已有微博社交網(wǎng)絡(luò)有向圖[G=V,E,T],[G]為微博社交網(wǎng)絡(luò),[V=Vi]為用戶節(jié)點(diǎn)的集合,[E=ei,j]為用戶[Vi]和用戶[Vj]間的關(guān)聯(lián)性,[T=ti]為用戶[Vi]和用戶[Vj]間構(gòu)建的關(guān)聯(lián)時(shí)間節(jié)點(diǎn)。構(gòu)建已有的用戶行為日志表,此表把微博信息中每個(gè)用戶的行為一一記錄。如[Action(user,action,time)]元組為[(u,a,t)],即用戶u在時(shí)間t產(chǎn)生的行為a,A為所有行為全集,[Au]表示用戶u形成的行為總和,[Au?v]表示用戶u與v一起形成的行為數(shù)量,即:[Auv=Au+Av+Au?v],[Auv]為用戶v散播到用戶u的行為總數(shù)。
2.4 微博熱點(diǎn)判別模塊
在分析微博信息發(fā)展趨勢時(shí),對(duì)用戶和用戶發(fā)布的微博分別進(jìn)行建模處理,并采用離線的形式對(duì)每個(gè)用戶自身存在的影響力指數(shù)、發(fā)布每條微博的影響力指數(shù),進(jìn)行計(jì)算。系統(tǒng)每隔一個(gè)月對(duì)用戶數(shù)據(jù)更新一次,對(duì)用戶影響力指數(shù)進(jìn)行重新計(jì)算,然后結(jié)合發(fā)微博用戶的影響力,經(jīng)過熱點(diǎn)微博篩選算法,計(jì)算出微博熱度指數(shù),判斷此微博是否為微博熱點(diǎn),如果“是”,則進(jìn)入微博熱點(diǎn)池等待進(jìn)一步確定,反之,若無法滿足成為熱點(diǎn)的條件,則繼續(xù)跟蹤這條微博。維持10天后查看其是否成為熱點(diǎn),如果“是”,則進(jìn)入微博熱點(diǎn)池,“不是”,則系統(tǒng)推進(jìn)歷史數(shù)據(jù)集。本模塊的工作流程圖如圖2所示。
通過上述各模塊分析,將高頻微博關(guān)鍵詞集合中的詞匯一一取出,判斷其是否在關(guān)鍵用戶發(fā)的微博內(nèi)容中出現(xiàn)。若出現(xiàn),則把關(guān)鍵用戶儲(chǔ)存到傳播此高頻詞匯的關(guān)鍵用戶集合中。此外,把此關(guān)鍵用戶能影響的關(guān)注者添加到該關(guān)鍵用戶集合內(nèi)。反復(fù)此操作,直到遍歷完全部關(guān)鍵用戶為止,得到該高頻詞匯在未來一段時(shí)間內(nèi),傳播范圍及傳播到的用戶數(shù)量。
3 軟件部分設(shè)計(jì)
在軟件設(shè)計(jì)過程中,采用改進(jìn)神經(jīng)網(wǎng)絡(luò)算法對(duì)其進(jìn)行優(yōu)化。神經(jīng)網(wǎng)絡(luò)算法主要在正向傳播信息和反向傳播誤差的進(jìn)程里反復(fù)學(xué)習(xí)達(dá)到最優(yōu);由輸入層、中間層和輸出層組成整體架構(gòu),中間層又可以分為若干子層,每層都由多個(gè)神經(jīng)元構(gòu)成。微博信息經(jīng)過輸入層神經(jīng)元傳入,流到中間層的神經(jīng)元;在中間層微博信息預(yù)處理后,經(jīng)過最后子層傳輸?shù)捷敵鰧又?,在輸出層,?duì)微博信息進(jìn)一步進(jìn)行處理,再輸出到外界。若輸出結(jié)果與真實(shí)微博熱點(diǎn)數(shù)據(jù)存在較大誤差時(shí),開始反向傳播誤差信息,即采用梯度下降方法,以輸出層→中間層→輸入層路線進(jìn)行反傳,同時(shí)進(jìn)行各層級(jí)的參數(shù)權(quán)重的修正,此步驟反復(fù)進(jìn)行,直到輸出誤差最小,或傳輸次數(shù)達(dá)到傳輸上限為止。
4 實(shí)驗(yàn)結(jié)果分析
4.1 開發(fā)環(huán)境及總體設(shè)計(jì)
在對(duì)微博熱點(diǎn)預(yù)測系統(tǒng)進(jìn)行驗(yàn)證前,設(shè)置開發(fā)和運(yùn)行環(huán)境為:后臺(tái)編程語言python,C#;集成開發(fā)環(huán)境IDLE,[Visual Studio 2010];[SVM]庫[LibSVM 3.17];中文分詞器[ICTCLAS 2013];[SVN]版本控制;[Windows Server 2013]操作系統(tǒng);[Vmvare 6.5]虛擬機(jī);[SQL Server 2008][ R2 Enterprise]數(shù)據(jù)庫;[DELL PowerEdge R510]型號(hào)服務(wù)器。
4.2 實(shí)驗(yàn)結(jié)果對(duì)比
為了驗(yàn)證改進(jìn)設(shè)計(jì)系統(tǒng)在預(yù)測微博熱點(diǎn)方面的有效性及可行性,實(shí)驗(yàn)采用改進(jìn)設(shè)計(jì)系統(tǒng)、傳統(tǒng)預(yù)測系統(tǒng)為對(duì)比,以預(yù)測系統(tǒng)的穩(wěn)定性為指標(biāo)進(jìn)行對(duì)比驗(yàn)證,實(shí)驗(yàn)結(jié)果如圖3、圖4所示。
由圖3、圖4可知,在運(yùn)行時(shí)間不定的情況下,采用傳統(tǒng)預(yù)測方法對(duì)微博熱點(diǎn)進(jìn)行預(yù)測時(shí),由于微博熱點(diǎn)的不定性,使得預(yù)測結(jié)果不穩(wěn)定性很強(qiáng)。在預(yù)測時(shí)間為100~300 s之間,出現(xiàn)了4次波動(dòng),且在之后的預(yù)測時(shí)間也出現(xiàn)了多次波動(dòng),穩(wěn)定性差,對(duì)微博熱點(diǎn)預(yù)測結(jié)果不準(zhǔn)確。采用改進(jìn)預(yù)測系統(tǒng)時(shí),其預(yù)測結(jié)果雖然出現(xiàn)了不穩(wěn)定的現(xiàn)象,但只有在100~200 s,500~600 s這2個(gè)時(shí)間段出現(xiàn)3次波動(dòng),穩(wěn)定性較傳統(tǒng)預(yù)測系統(tǒng)要好,具有一定的優(yōu)勢。
5 結(jié) 論
綜上所述,針對(duì)傳統(tǒng)預(yù)測系統(tǒng)存在的穩(wěn)定性差的問題,提出基于改進(jìn)神經(jīng)網(wǎng)絡(luò)算法的微博熱點(diǎn)預(yù)測系統(tǒng)。通過采用神經(jīng)網(wǎng)絡(luò)算法優(yōu)化系統(tǒng)軟件部分預(yù)測性能,達(dá)到完善預(yù)測系統(tǒng)的目的。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)預(yù)測系統(tǒng),采用改進(jìn)預(yù)測系統(tǒng)其預(yù)測穩(wěn)定性較強(qiáng),未出現(xiàn)波動(dòng),達(dá)到了減少影響預(yù)測結(jié)果的目的。
參考文獻(xiàn)
[1] 鄭志蘊(yùn),江國林,張行進(jìn),等.基于多特征的熱門微博預(yù)測算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(3):494?498.
ZHENG Zhiyun, JIANG Guolin, ZHANG Xingjin, et al. Research on the prediction algorithm for Sina popular micro blog based on multi?features [J]. Journal of Chinese computer systems, 2017, 38(3): 494?498.
[2] 何炎祥,劉健博,劉楠,等.基于改進(jìn)人口模型的微博話題趨勢預(yù)測[J].通信學(xué)報(bào),2015,36(4):5?12.
HE Yanxiang, LIU Jianbo, LIU Nan, et al. Based on improved Malthusian model microblogging topic trend forecast [J]. Journal on communications, 2015, 36(4): 5?12.
[3] 姬建新.捕魚算法優(yōu)化核極限學(xué)習(xí)機(jī)的微博熱點(diǎn)話題預(yù)測[J].激光雜志,2015,36(1):128?131.
JI Jianxin. Hot topic prediction of micro?blog based on kernel extreme learning machine and fishing algorithm [J]. Laser journal, 2015, 36(1): 128?131.
[4] 陽馨.基于信息功率譜的微博熱點(diǎn)挖掘模型[J].蘭州理工大學(xué)學(xué)報(bào),2017,43(3):106?111.
YANG Xin. Micro?blog hot?spots mining model based on information power spectrum [J]. Journal of Lanzhou University of Technology, 2017, 43(3): 106?111.
[5] 張貴紅,李中華.基于數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測[J].現(xiàn)代電子技術(shù),2017,40(15):52?55.
ZHANG Guihong,LI Zhonghua. Micro?blog hot topic forecasting based on data mining technology [J]. Modern electronics technique, 2017, 40(15): 52?55.
[6] 齊銀峰,譚榮建.基于改進(jìn)粒子群優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)在大壩變形分析中的應(yīng)用[J].水利水電技術(shù),2017,48(2):118?124.
QI Yinfeng, TAN Rongjian. Application of improved particle swarm optimization algorithm?based BP neural network to dam deformation analysis [J]. Water resources and hydropower engineering, 2017, 48(2): 118?124.
[7] 劉業(yè)政,杜亞楠,姜元春,等.基于熱度曲線分類建模的微博熱門話題預(yù)測[J].模式識(shí)別與人工智能,2015,28(1):27?34.
LIU Yezheng, DU Yanan, JIANG Yuanchun, et al. Trend prediction for microblog based on classification modeling of heat curves [J]. Pattern recognition and artificial intelligence, 2015, 28(1): 27?34.
[8] 廖祥文,張麗瑤,宋志剛,等.基于卷積神經(jīng)網(wǎng)絡(luò)的中文微博觀點(diǎn)分類[J].模式識(shí)別與人工智能,2016,29(12):1075?1082.
LIAO Xiangwen, ZHANG Liyao, SONG Zhigang, et al. Chinese microblog sentiment classification based on convolutional neural network [J]. Pattern recognition and artificial intelligence, 2016, 29(12): 1075?1082.
[9] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報(bào),2015,29(6):159?165.
LIU Longfei, YANG Liang, ZHANG Shaowu, et al. Convolutional neural networks for Chinese micro?blog sentiment analysis [J]. Journal of Chinese information processing, 2015, 29(6): 159?165.