張琳
摘要:提出了基于神經(jīng)網(wǎng)絡(luò)的微博話題預(yù)測與分析系統(tǒng),介紹了此系統(tǒng)的整體結(jié)構(gòu)與流程,并說明了該系統(tǒng)具有抓取話題信息及其相關(guān)內(nèi)容、建立數(shù)據(jù)庫、熱門話題預(yù)判等功能,從各個角度表明該系統(tǒng)對商業(yè)情報分析、行業(yè)調(diào)研、信息安全、網(wǎng)絡(luò)輿情預(yù)警十分具有研究意義,本文對系統(tǒng)其中的數(shù)據(jù)處理和分析這一流程進(jìn)行了重點(diǎn)闡述,并法分別闡述了固定權(quán)重、函數(shù)構(gòu)建和神經(jīng)網(wǎng)絡(luò)這三種算法的主要內(nèi)容、公式以及它們優(yōu)缺點(diǎn),并且對神經(jīng)網(wǎng)絡(luò)訓(xùn)練這一過程進(jìn)行了仿真結(jié)果分析。我們采取三種算法相結(jié)合的方法來進(jìn)行數(shù)據(jù)處理,對話題熱度進(jìn)行預(yù)判,可以綜合三種方式的優(yōu)點(diǎn),避免一些缺點(diǎn)。系統(tǒng)將這三種方式相結(jié)合,使其更加貼近人類思考方式,提高預(yù)測準(zhǔn)確度。
關(guān)鍵詞:話題熱度;權(quán)重;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)03-0082-02
1 引言
近幾年,社交網(wǎng)絡(luò)飛速發(fā)展,各大社交媒體的用戶量呈指數(shù)性上升,微博也成為人們獲取和發(fā)布信息的重要渠道,其熱門話題也已經(jīng)成為了網(wǎng)絡(luò)熱點(diǎn)的風(fēng)向標(biāo)。微博話題預(yù)測與分析,可向用戶提供了解熱門信息的渠道,還能節(jié)省時間;對于網(wǎng)絡(luò)社交媒體網(wǎng)站的管理人員來說,可以幫助他們更好的了解用戶群體的喜好;對于企業(yè)來說,能幫助他們迅速了解市場動向,為業(yè)務(wù)決策提供數(shù)據(jù)支持和指導(dǎo)[1];對于政府來說,有助于了解民眾關(guān)注點(diǎn)與文化道德傾向,為施政方向提供參考等等。本文提出了將神經(jīng)網(wǎng)絡(luò)的思想應(yīng)用在話題預(yù)測中,使微博話題更有預(yù)見性,提高預(yù)測準(zhǔn)確度。
2 系統(tǒng)結(jié)構(gòu)
系統(tǒng)的整體結(jié)構(gòu)如圖1所示。首先從新浪微博開放接口中獲取并識別出話題信息,建立話題數(shù)據(jù)庫,并通過網(wǎng)絡(luò)爬蟲技術(shù)從微博搜索中抓取到與話題有關(guān)的微博數(shù)據(jù),均進(jìn)行特征提取[2]后分類存入話題相關(guān)數(shù)據(jù)庫中,對這些數(shù)據(jù)處理和分析后作出預(yù)判哪些話題為熱門話題,哪些為非熱門話題。本文將主要闡述數(shù)據(jù)處理分析這一過程中用算法實(shí)現(xiàn)對熱門話題的預(yù)判這一流程。
3 神經(jīng)網(wǎng)絡(luò)
3.1 固定權(quán)重計(jì)算
權(quán)重,即將話題熱度分為閱讀量、轉(zhuǎn)發(fā)量、增長率等影響因子,為其中每種影響因子分配各自的系數(shù)。最終將各項(xiàng)影響因子與其系數(shù)相乘再進(jìn)行累加可得到話題熱度。這種方式的優(yōu)點(diǎn)是劃分精細(xì),可根據(jù)測試后數(shù)據(jù)增減影響因子,改動系數(shù),但其缺點(diǎn)明顯,自適應(yīng)能力差,所需數(shù)據(jù)量太過龐大。其計(jì)算公式為:
(1)
式(1)中,T表示話題熱度,表示權(quán)重,表示影響因子。
3.2 構(gòu)建函數(shù)計(jì)算
根據(jù)各項(xiàng)數(shù)據(jù)之間的關(guān)系,可以簡單地抽象為一個熱度得分與權(quán)重的線性關(guān)系,得分越高,對應(yīng)權(quán)重在有限范圍內(nèi)同比上升。這種方式需要在前期獲取大量數(shù)據(jù)進(jìn)行測試和構(gòu)建函數(shù)模型,最后得到話題熱度。利用這種方式,我們可以在一定程度上進(jìn)行簡單的話題預(yù)測模擬。其具有較為清晰的邏輯,編程較為簡單的優(yōu)點(diǎn),缺點(diǎn)是需要大量的真實(shí)數(shù)據(jù)來構(gòu)建函數(shù)模型。其計(jì)算公式為:
(2)
式(2)中,T表示話題熱度,表示權(quán)重上限,表示權(quán)重下限,表示此話題下內(nèi)容條數(shù)上限,此話題下內(nèi)容條數(shù)下限,表示當(dāng)前內(nèi)容條數(shù)。
3.3 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)算法是指讓機(jī)器模擬邏輯性的思維,根據(jù)邏輯規(guī)則進(jìn)行推理的過程。人工神經(jīng)網(wǎng)絡(luò)按照一定的學(xué)習(xí)準(zhǔn)則,自發(fā)發(fā)現(xiàn)環(huán)境特征和規(guī)律性,減少下次犯錯的可能性,達(dá)到高準(zhǔn)確度的理想狀態(tài)[3]。其優(yōu)點(diǎn)是模擬人類思考的方式,對話題熱度預(yù)測的方式更加人性化,自適應(yīng)力強(qiáng),通過大量的訓(xùn)練課提高預(yù)測的準(zhǔn)確性,但它的編程比較困難,邏輯比較復(fù)雜。神經(jīng)網(wǎng)絡(luò)訓(xùn)練公式:
(3)
式(3)輸入樣本X根據(jù)誤差e對權(quán)重A不斷調(diào)整,直到e接近零;表示權(quán)重變化率,其取值不能過大或過小,過大會影響權(quán)重的穩(wěn)定,過小會使調(diào)整權(quán)重時收斂太慢。
3.4 概述
我們的方法綜合利用了以上三種思想。我們首先將話題的閱讀量、評論數(shù)、粉絲數(shù)按照一定比例賦予固定的權(quán)重,存入基本庫,得到熱度基值;而對于一些比較抽象的影響因子,例如名人效應(yīng)、時效性、內(nèi)容生動性、國家政策等沒有明顯劃分標(biāo)準(zhǔn)的因素,我們首先利用一些少量的數(shù)據(jù)來構(gòu)建一個簡單的函數(shù),提取內(nèi)容特征來并建立附加庫,再通過神經(jīng)網(wǎng)絡(luò)算法思想利用訓(xùn)練數(shù)據(jù)來不斷調(diào)整權(quán)重,豐富并完善附加庫,最終得到熱度附加值。最后,將熱度基值與熱度附加值相加得到話題熱度。
4 測試結(jié)果與分析
4.1 神經(jīng)網(wǎng)絡(luò)算法應(yīng)用
輸入訓(xùn)練數(shù)據(jù),先根據(jù)當(dāng)前的權(quán)重計(jì)算,看誤差是否達(dá)到訓(xùn)練要求,若沒有則對權(quán)重進(jìn)行調(diào)整,直到誤差接近于零,計(jì)算出的結(jié)果與訓(xùn)練數(shù)據(jù)的結(jié)果一樣,然后再進(jìn)行下一組數(shù)據(jù)的讀取,重復(fù)以上步驟,直到所有結(jié)果達(dá)到訓(xùn)練要求。其神經(jīng)網(wǎng)絡(luò)算法流程圖如圖2。
4.2 模擬結(jié)果與分析
如圖3,在做神經(jīng)網(wǎng)絡(luò)訓(xùn)練預(yù)測時,我們采取兩個點(diǎn)做回歸分析。橫坐標(biāo)為目標(biāo)值target,縱坐標(biāo)神經(jīng)網(wǎng)絡(luò)輸出。為防止過擬合,我們運(yùn)用matlab對數(shù)據(jù)劃分成三分,trainning表示訓(xùn)練,validation表示驗(yàn)證,test表示測試,最后統(tǒng)計(jì)了整體狀況all,只有trainning數(shù)據(jù)參加訓(xùn)練,其他兩組數(shù)據(jù)不參加訓(xùn)練,用于檢驗(yàn)。訓(xùn)練進(jìn)行時,目標(biāo)target和訓(xùn)練test數(shù)據(jù)之間的誤差會越來越小,validation數(shù)據(jù)和目標(biāo)之間的誤差也越來越小,曲線也越來越接近對角線。
5 結(jié)語
本文對微博熱門話題預(yù)測進(jìn)行了分析,針對數(shù)據(jù)處理及分析這一過程中的算法問題進(jìn)行研究,綜合應(yīng)用了固定權(quán)重法、構(gòu)建函數(shù)法和神經(jīng)網(wǎng)絡(luò)算法這三種算法。若要提高預(yù)測的準(zhǔn)確度,我們還需考慮更多影響因子與劃分標(biāo)準(zhǔn),需要更多數(shù)據(jù)加以測試與改進(jìn),優(yōu)化我們的算法,使其有更多的應(yīng)用價值和更加廣泛的應(yīng)用平臺。
參考文獻(xiàn)
[1]姚婧.中文微博的話題檢測和預(yù)警[D].上海:上海交通大學(xué),2012:1-2.
[2]劉月杰.基于中文微博的話題趨勢預(yù)測[D].北京:北京郵電大學(xué),2013:1-3.
[3]梁野.郭寧寧.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)媒體熱點(diǎn)話題預(yù)測研究方法與實(shí)現(xiàn)[J].微型機(jī)與應(yīng)用.2014.33(15).