国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的微博話題預(yù)測及分析

2017-05-17 09:05:05張琳
關(guān)鍵詞:權(quán)重神經(jīng)網(wǎng)絡(luò)

張琳

摘要:提出了基于神經(jīng)網(wǎng)絡(luò)的微博話題預(yù)測與分析系統(tǒng),介紹了此系統(tǒng)的整體結(jié)構(gòu)與流程,并說明了該系統(tǒng)具有抓取話題信息及其相關(guān)內(nèi)容、建立數(shù)據(jù)庫、熱門話題預(yù)判等功能,從各個角度表明該系統(tǒng)對商業(yè)情報分析、行業(yè)調(diào)研、信息安全、網(wǎng)絡(luò)輿情預(yù)警十分具有研究意義,本文對系統(tǒng)其中的數(shù)據(jù)處理和分析這一流程進(jìn)行了重點(diǎn)闡述,并法分別闡述了固定權(quán)重、函數(shù)構(gòu)建和神經(jīng)網(wǎng)絡(luò)這三種算法的主要內(nèi)容、公式以及它們優(yōu)缺點(diǎn),并且對神經(jīng)網(wǎng)絡(luò)訓(xùn)練這一過程進(jìn)行了仿真結(jié)果分析。我們采取三種算法相結(jié)合的方法來進(jìn)行數(shù)據(jù)處理,對話題熱度進(jìn)行預(yù)判,可以綜合三種方式的優(yōu)點(diǎn),避免一些缺點(diǎn)。系統(tǒng)將這三種方式相結(jié)合,使其更加貼近人類思考方式,提高預(yù)測準(zhǔn)確度。

關(guān)鍵詞:話題熱度;權(quán)重;神經(jīng)網(wǎng)絡(luò)

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)03-0082-02

1 引言

近幾年,社交網(wǎng)絡(luò)飛速發(fā)展,各大社交媒體的用戶量呈指數(shù)性上升,微博也成為人們獲取和發(fā)布信息的重要渠道,其熱門話題也已經(jīng)成為了網(wǎng)絡(luò)熱點(diǎn)的風(fēng)向標(biāo)。微博話題預(yù)測與分析,可向用戶提供了解熱門信息的渠道,還能節(jié)省時間;對于網(wǎng)絡(luò)社交媒體網(wǎng)站的管理人員來說,可以幫助他們更好的了解用戶群體的喜好;對于企業(yè)來說,能幫助他們迅速了解市場動向,為業(yè)務(wù)決策提供數(shù)據(jù)支持和指導(dǎo)[1];對于政府來說,有助于了解民眾關(guān)注點(diǎn)與文化道德傾向,為施政方向提供參考等等。本文提出了將神經(jīng)網(wǎng)絡(luò)的思想應(yīng)用在話題預(yù)測中,使微博話題更有預(yù)見性,提高預(yù)測準(zhǔn)確度。

2 系統(tǒng)結(jié)構(gòu)

系統(tǒng)的整體結(jié)構(gòu)如圖1所示。首先從新浪微博開放接口中獲取并識別出話題信息,建立話題數(shù)據(jù)庫,并通過網(wǎng)絡(luò)爬蟲技術(shù)從微博搜索中抓取到與話題有關(guān)的微博數(shù)據(jù),均進(jìn)行特征提取[2]后分類存入話題相關(guān)數(shù)據(jù)庫中,對這些數(shù)據(jù)處理和分析后作出預(yù)判哪些話題為熱門話題,哪些為非熱門話題。本文將主要闡述數(shù)據(jù)處理分析這一過程中用算法實(shí)現(xiàn)對熱門話題的預(yù)判這一流程。

3 神經(jīng)網(wǎng)絡(luò)

3.1 固定權(quán)重計(jì)算

權(quán)重,即將話題熱度分為閱讀量、轉(zhuǎn)發(fā)量、增長率等影響因子,為其中每種影響因子分配各自的系數(shù)。最終將各項(xiàng)影響因子與其系數(shù)相乘再進(jìn)行累加可得到話題熱度。這種方式的優(yōu)點(diǎn)是劃分精細(xì),可根據(jù)測試后數(shù)據(jù)增減影響因子,改動系數(shù),但其缺點(diǎn)明顯,自適應(yīng)能力差,所需數(shù)據(jù)量太過龐大。其計(jì)算公式為:

(1)

式(1)中,T表示話題熱度,表示權(quán)重,表示影響因子。

3.2 構(gòu)建函數(shù)計(jì)算

根據(jù)各項(xiàng)數(shù)據(jù)之間的關(guān)系,可以簡單地抽象為一個熱度得分與權(quán)重的線性關(guān)系,得分越高,對應(yīng)權(quán)重在有限范圍內(nèi)同比上升。這種方式需要在前期獲取大量數(shù)據(jù)進(jìn)行測試和構(gòu)建函數(shù)模型,最后得到話題熱度。利用這種方式,我們可以在一定程度上進(jìn)行簡單的話題預(yù)測模擬。其具有較為清晰的邏輯,編程較為簡單的優(yōu)點(diǎn),缺點(diǎn)是需要大量的真實(shí)數(shù)據(jù)來構(gòu)建函數(shù)模型。其計(jì)算公式為:

(2)

式(2)中,T表示話題熱度,表示權(quán)重上限,表示權(quán)重下限,表示此話題下內(nèi)容條數(shù)上限,此話題下內(nèi)容條數(shù)下限,表示當(dāng)前內(nèi)容條數(shù)。

3.3 神經(jīng)網(wǎng)絡(luò)算法

神經(jīng)網(wǎng)絡(luò)算法是指讓機(jī)器模擬邏輯性的思維,根據(jù)邏輯規(guī)則進(jìn)行推理的過程。人工神經(jīng)網(wǎng)絡(luò)按照一定的學(xué)習(xí)準(zhǔn)則,自發(fā)發(fā)現(xiàn)環(huán)境特征和規(guī)律性,減少下次犯錯的可能性,達(dá)到高準(zhǔn)確度的理想狀態(tài)[3]。其優(yōu)點(diǎn)是模擬人類思考的方式,對話題熱度預(yù)測的方式更加人性化,自適應(yīng)力強(qiáng),通過大量的訓(xùn)練課提高預(yù)測的準(zhǔn)確性,但它的編程比較困難,邏輯比較復(fù)雜。神經(jīng)網(wǎng)絡(luò)訓(xùn)練公式:

(3)

式(3)輸入樣本X根據(jù)誤差e對權(quán)重A不斷調(diào)整,直到e接近零;表示權(quán)重變化率,其取值不能過大或過小,過大會影響權(quán)重的穩(wěn)定,過小會使調(diào)整權(quán)重時收斂太慢。

3.4 概述

我們的方法綜合利用了以上三種思想。我們首先將話題的閱讀量、評論數(shù)、粉絲數(shù)按照一定比例賦予固定的權(quán)重,存入基本庫,得到熱度基值;而對于一些比較抽象的影響因子,例如名人效應(yīng)、時效性、內(nèi)容生動性、國家政策等沒有明顯劃分標(biāo)準(zhǔn)的因素,我們首先利用一些少量的數(shù)據(jù)來構(gòu)建一個簡單的函數(shù),提取內(nèi)容特征來并建立附加庫,再通過神經(jīng)網(wǎng)絡(luò)算法思想利用訓(xùn)練數(shù)據(jù)來不斷調(diào)整權(quán)重,豐富并完善附加庫,最終得到熱度附加值。最后,將熱度基值與熱度附加值相加得到話題熱度。

4 測試結(jié)果與分析

4.1 神經(jīng)網(wǎng)絡(luò)算法應(yīng)用

輸入訓(xùn)練數(shù)據(jù),先根據(jù)當(dāng)前的權(quán)重計(jì)算,看誤差是否達(dá)到訓(xùn)練要求,若沒有則對權(quán)重進(jìn)行調(diào)整,直到誤差接近于零,計(jì)算出的結(jié)果與訓(xùn)練數(shù)據(jù)的結(jié)果一樣,然后再進(jìn)行下一組數(shù)據(jù)的讀取,重復(fù)以上步驟,直到所有結(jié)果達(dá)到訓(xùn)練要求。其神經(jīng)網(wǎng)絡(luò)算法流程圖如圖2。

4.2 模擬結(jié)果與分析

如圖3,在做神經(jīng)網(wǎng)絡(luò)訓(xùn)練預(yù)測時,我們采取兩個點(diǎn)做回歸分析。橫坐標(biāo)為目標(biāo)值target,縱坐標(biāo)神經(jīng)網(wǎng)絡(luò)輸出。為防止過擬合,我們運(yùn)用matlab對數(shù)據(jù)劃分成三分,trainning表示訓(xùn)練,validation表示驗(yàn)證,test表示測試,最后統(tǒng)計(jì)了整體狀況all,只有trainning數(shù)據(jù)參加訓(xùn)練,其他兩組數(shù)據(jù)不參加訓(xùn)練,用于檢驗(yàn)。訓(xùn)練進(jìn)行時,目標(biāo)target和訓(xùn)練test數(shù)據(jù)之間的誤差會越來越小,validation數(shù)據(jù)和目標(biāo)之間的誤差也越來越小,曲線也越來越接近對角線。

5 結(jié)語

本文對微博熱門話題預(yù)測進(jìn)行了分析,針對數(shù)據(jù)處理及分析這一過程中的算法問題進(jìn)行研究,綜合應(yīng)用了固定權(quán)重法、構(gòu)建函數(shù)法和神經(jīng)網(wǎng)絡(luò)算法這三種算法。若要提高預(yù)測的準(zhǔn)確度,我們還需考慮更多影響因子與劃分標(biāo)準(zhǔn),需要更多數(shù)據(jù)加以測試與改進(jìn),優(yōu)化我們的算法,使其有更多的應(yīng)用價值和更加廣泛的應(yīng)用平臺。

參考文獻(xiàn)

[1]姚婧.中文微博的話題檢測和預(yù)警[D].上海:上海交通大學(xué),2012:1-2.

[2]劉月杰.基于中文微博的話題趨勢預(yù)測[D].北京:北京郵電大學(xué),2013:1-3.

[3]梁野.郭寧寧.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)媒體熱點(diǎn)話題預(yù)測研究方法與實(shí)現(xiàn)[J].微型機(jī)與應(yīng)用.2014.33(15).

猜你喜歡
權(quán)重神經(jīng)網(wǎng)絡(luò)
權(quán)重常思“浮名輕”
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
基于公約式權(quán)重的截短線性分組碼盲識別方法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
電測與儀表(2014年2期)2014-04-04 09:04:04
基于權(quán)重學(xué)習(xí)的圖像最大權(quán)對集匹配模型
镇安县| 绥中县| 临澧县| 望城县| 郸城县| 荥阳市| 台前县| 玉屏| 大关县| 太和县| 墨竹工卡县| 金华市| 米脂县| 宝清县| 建宁县| 尼木县| 房产| 虹口区| 南昌市| 嘉黎县| 敦煌市| 深水埗区| 政和县| 盖州市| 阿拉善右旗| 濮阳县| 卢湾区| 读书| 靖州| 洪泽县| 城步| 舞阳县| 贡嘎县| 浮梁县| 色达县| 新晃| 冕宁县| 宁晋县| 凌海市| 凤城市| 瑞金市|