国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微博網(wǎng)絡(luò)中基于主題發(fā)現(xiàn)的輿情分析*

2015-03-18 05:51趙丹丹

電訊技術(shù) 2015年6期

關(guān)鍵詞：分析模型關(guān)注度博文

彭浩，周杰，周豪，趙丹丹

(浙江師范大學(xué) 計(jì)算機(jī)科學(xué)與工程系，浙江金華321004)

1 引言

微博網(wǎng)絡(luò)作為社交網(wǎng)絡(luò)的一種重要方式，以其簡(jiǎn)短、便捷的特點(diǎn)呈現(xiàn)爆發(fā)式增長(zhǎng)勢(shì)態(tài)，截止到2014年7月微博用戶已突破2.75 億。由于微博網(wǎng)絡(luò)的信息能夠即時(shí)分享，使信息傳播時(shí)間趨向于零，已成為熱點(diǎn)輿情產(chǎn)生、傳播的重要源地，微博的影響力也呈現(xiàn)幾何式倍增態(tài)勢(shì)，并以驚人的速度滲透到社會(huì)和行業(yè)的各個(gè)方面，在極大地滿足人們發(fā)布和獲取信息便利的同時(shí)，也給用戶帶來很好的時(shí)空便利。同時(shí)我們看到，社交網(wǎng)絡(luò)上存在各種各樣對(duì)各種社會(huì)事件和各行各業(yè)評(píng)價(jià)的輿論信息，這些輿論評(píng)價(jià)信息既包含正面評(píng)價(jià)信息，也包含負(fù)面評(píng)價(jià)信息，這些輿論信息的傳播有可能對(duì)社會(huì)和一些行業(yè)產(chǎn)生重要的影響。面對(duì)微博網(wǎng)絡(luò)數(shù)據(jù)的不斷增多，如何設(shè)計(jì)相應(yīng)的輿情分析模型，使其能快速有效地收集和分析這些數(shù)據(jù)，并產(chǎn)生有用的輿情分析報(bào)告，是許多學(xué)者關(guān)注的焦點(diǎn)。

目前，國(guó)內(nèi)外學(xué)者在輿情分析方面做了許多有意義和相關(guān)的工作。李巖等［1］基于短文本聚類及用戶評(píng)論情感分析，解決了微博文本呈現(xiàn)的不完整性、稀疏性及碎片化等問題，在一定程度上解決了因關(guān)鍵詞稀疏帶來的相似度漂移問題。唐曉波等［2］將共詞網(wǎng)絡(luò)分析和復(fù)雜網(wǎng)絡(luò)的思想與方法拓展到微博輿情分析中，設(shè)計(jì)了基于網(wǎng)絡(luò)可視化的微博輿情分析模型，為基于微博的網(wǎng)絡(luò)輿情分析提供了有效的可視化途徑。Yu 等［3］基于輿情信息擴(kuò)散過程中的用戶交互過程，考慮到用戶的交互歷史、相互作用的類型和頻率，提出了一種有向樹模型，該模型可以描述信息的擴(kuò)散，更精確地表達(dá)輿情傳播的影響，在數(shù)據(jù)集中識(shí)別垃圾郵件更有效。曾振東等［4］基于現(xiàn)代統(tǒng)計(jì)學(xué)理論，專門針對(duì)小樣本、不確定性預(yù)測(cè)問題，提出了一種基于灰色支持向量機(jī)的網(wǎng)絡(luò)輿情預(yù)測(cè)模型，相對(duì)于傳統(tǒng)預(yù)測(cè)模型，該模型提高了網(wǎng)絡(luò)輿情的預(yù)測(cè)精度。然而，上述研究工作多集中在單一技術(shù)應(yīng)用層面，缺乏系統(tǒng)性、全局性的微博網(wǎng)絡(luò)輿情分析方法的研究和分析;同時(shí)，上述輿情分析模型中，結(jié)合社交網(wǎng)絡(luò)輿情特點(diǎn)的分析模型較少，不具有一般適用性。

基于上述分析，本文提出了微博網(wǎng)絡(luò)中一種基于主題發(fā)現(xiàn)的輿情分析模型，對(duì)微博網(wǎng)絡(luò)中的熱點(diǎn)話題，采用熱點(diǎn)分析和趨向性分析兩種思路，能夠進(jìn)一步了解用戶對(duì)社會(huì)或行業(yè)的熱點(diǎn)話題的觀點(diǎn)與態(tài)度，識(shí)別出其情感傾向及演化規(guī)律，更好地理解用戶的行為，分析熱點(diǎn)的輿情主題，從而為政府、企業(yè)或其他機(jī)構(gòu)的決策提供重要的參考依據(jù)。

2 微博網(wǎng)絡(luò)的分析模型

2.1 模型分析

微博網(wǎng)絡(luò)的本質(zhì)就是微博用戶及用戶之間所建立起來的穩(wěn)定關(guān)系所構(gòu)成的社會(huì)網(wǎng)絡(luò)，微博中信息和資源的傳播都在這一社會(huì)網(wǎng)絡(luò)上完成。在傳統(tǒng)的輿情分析研究中［5－7］，研究對(duì)象主要基于不同網(wǎng)站之間網(wǎng)頁(yè)的聯(lián)系，這種聯(lián)系的建立難以表現(xiàn)出以用戶為導(dǎo)向的信息自由流動(dòng)特征。為了克服基于鏈接的方法在微博網(wǎng)絡(luò)輿情分析中的不足，我們需要對(duì)微博網(wǎng)絡(luò)的輿情分析模型進(jìn)行相應(yīng)分析，確定該模型需要實(shí)現(xiàn)的基本功能，具體包含以下四個(gè)方面:

(1)文本抓取模塊:微博網(wǎng)絡(luò)具有用戶基數(shù)大、數(shù)據(jù)量巨大的特點(diǎn)，所以要實(shí)現(xiàn)自動(dòng)抓取功能，能對(duì)指定主題的微博自動(dòng)抓取;

(2)文本預(yù)處理模塊:微博網(wǎng)絡(luò)的內(nèi)容可能包括聲音、文字、圖片以及視頻，多而復(fù)雜，所以要有文本預(yù)處理的功能，對(duì)文本進(jìn)行簡(jiǎn)單的分類;

(3)微博信息跟蹤記錄模塊:微博轉(zhuǎn)發(fā)速度非?？?，需要實(shí)現(xiàn)對(duì)指定微博的轉(zhuǎn)發(fā)及評(píng)論用戶信息進(jìn)行抓取;

(4)輿情分析模塊:要進(jìn)行輿情分析，就要對(duì)抓取的內(nèi)容進(jìn)行分析，發(fā)現(xiàn)其中存在的微博主題，并進(jìn)行趨向性分析。

2.2 模型設(shè)計(jì)

微博網(wǎng)絡(luò)以傳播廣度為主，聚合度非常高。同時(shí)，微博網(wǎng)絡(luò)上聚集了大量的用戶群體，加速和擴(kuò)展了信息的傳播。結(jié)合微博網(wǎng)絡(luò)的這些特點(diǎn)，給出其輿情分析模型的框架，如圖1所示。該模型包括微博網(wǎng)頁(yè)的信息抓取、文本預(yù)處理、微博特征表示及提取、輿情分析等主要模塊，其中，輿情分析模型是本文研究的核心，包括主題發(fā)現(xiàn)、熱點(diǎn)分析、趨向性分析等三個(gè)方面。

圖1 微博網(wǎng)絡(luò)的輿情分析模型設(shè)計(jì)圖Fig.1 The design model of public opinion analysis in the micro－blog network

3 基于主題發(fā)現(xiàn)的輿情分析

3.1 文本預(yù)處理

文本預(yù)處理包含三個(gè)過程:信息自動(dòng)抓取、分詞和過濾停用詞。

第一，通過網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)對(duì)微博的抓取。網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。網(wǎng)絡(luò)爬蟲的基本搜索過程如圖2所示。

圖2 網(wǎng)絡(luò)爬蟲搜索過程Fig.2 The search process of web crawler algorithm

傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的統(tǒng)一資源定位器(Uniform Resource Location，URL)開始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過程中，不斷從當(dāng)前頁(yè)面上抽取新的URL 放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。由于聚類算法在處理微博網(wǎng)絡(luò)碎片信息方面［1］具有很好的性能，本文采用改進(jìn)的增量聚類方法，下面具體描述。

對(duì)于每一個(gè)抓取到的微博文本，我們都可以從主標(biāo)題和正文中提取m 個(gè)關(guān)鍵字，并根據(jù)關(guān)鍵字的屬性和權(quán)重構(gòu)成向量來表示微博文本的主題Xi，即主題向量Xi={W1，W2，…，Wm}，i =1，2，…，n，Wj(j=1，2，…，m)表示每一個(gè)關(guān)鍵字的屬性和權(quán)重。這樣n 個(gè)抓取到的微博文本就可以構(gòu)成由n 個(gè)特征向量組成的數(shù)據(jù)集合C ={X1，X2，…，Xn}。進(jìn)行微博文本的聚類，需要知道兩個(gè)微博文本的主題向量Xi、Xj的相似度Y(Xi，Xj)。假設(shè)Xi和Xj有k 個(gè)共同的關(guān)鍵字屬性，而Xi有k1個(gè)關(guān)鍵字屬性，Xj有k2個(gè)關(guān)鍵字屬性，那么兩個(gè)主題向量Xi、Xj的相似度表示如下:

根據(jù)兩個(gè)主題的相似度就可以完成微博文本的聚類，得到話題簇。

第二，需要對(duì)抓取的輿情信息進(jìn)行分詞。分詞可以分為中文分詞［8］和英文分詞［9］。英文分詞相對(duì)簡(jiǎn)單，一般通過空格分開，然而中文分詞就相對(duì)麻煩，詞與詞之間沒有明顯的分隔符。

如圖3所示，中文分詞的算法主要包含三大類，分別為基于字典匹配、基于統(tǒng)計(jì)和基于規(guī)則的分詞?；谧值淦ヅ涞姆绞接捎趯?shí)現(xiàn)簡(jiǎn)單、執(zhí)行效率高，目前使用較普遍。本文采取了其中的逆向最大匹配的方法。在分詞過程中，只需從后向前不斷進(jìn)行匹配，看詞庫(kù)中是否有該詞，而對(duì)于沒有在詞庫(kù)中出現(xiàn)的單詞就無需進(jìn)行分離。

圖3 中文分詞方法Fig.3 Chinese segmentation method

第三，停用詞［10］的過濾，可以提高系統(tǒng)的運(yùn)行效率。本文停用詞的過濾用了算法1 和算法2 兩個(gè)算法。

(1)算法1

輸入:所取詞語(yǔ)a;

輸出:詞語(yǔ)a 在查詢語(yǔ)料庫(kù)中和標(biāo)準(zhǔn)庫(kù)中的頻率之和;

計(jì)算:fb(a)為詞a 在標(biāo)準(zhǔn)庫(kù)中的頻率，fq(a)為詞a 在查詢語(yǔ)料庫(kù)中的頻率:

其中，p 設(shè)定的一個(gè)頻率的閥值，防止詞語(yǔ)a 在某類詞料中頻率極高使得誤差偏大，sum1就是詞語(yǔ)a 在查詢語(yǔ)料庫(kù)中和標(biāo)準(zhǔn)庫(kù)中的頻率之和。

(2)算法2

輸入:所取詞語(yǔ)a;

輸出:詞語(yǔ)a 在不同語(yǔ)料的左右熵之和;

計(jì)算:SWi(a)為詞語(yǔ)a 的左右熵，W = {left，right}，i={b，q}，即Sleftb，Sleftq，Srightb，Srightq:

for each a input{

其中，D 為詞語(yǔ)a 的鄰接詞語(yǔ)集，而d 為詞集D 其中的任意一個(gè)詞語(yǔ)，sum2就是詞語(yǔ)a 在不同語(yǔ)料的左右熵之和。

根據(jù)算法1 和算法2，sum1和sum2的取值越大就越可信。算法1 減少了因?yàn)樵~頻相差不大而排序等級(jí)相差較大造成的誤差，而算法2 降低了詞語(yǔ)在不同語(yǔ)料左右鄰接熵值帶來的誤差。

3.2 微博文本特征提取

微博信息進(jìn)行文本預(yù)處理后，需要對(duì)抓取的微博文本信息進(jìn)行特征提取。這里微博文本的表示，我們主要基于向量空間模型(VSM)［11］進(jìn)行構(gòu)建。首先，以向量(Weight1，Weight2，Weight3，…，Weightn)來表示微博文本，其中Weightj為第j 個(gè)特征項(xiàng)的權(quán)重(j =1，2，…，n)。對(duì)于每一個(gè)提取的微博文本進(jìn)行特征提取，將分詞后的詞的集合向量化，使得每一條微博文本都轉(zhuǎn)化為一個(gè)高維空間向量。同時(shí)，通過微博文本相似度的分析，得到兩個(gè)微博文本之間的關(guān)聯(lián)性。

在微博文本向量中用1 表示該微博文本中有該詞，用0 表示微博文本中沒有該詞。為了使微博文本特征提取的準(zhǔn)確度更高，后面漸漸用詞頻替代了原來的0 和1，目前一般通過TF－ IDF(Term Frequency－ Inverse Document Frequency)［12］方法計(jì)算得到。其核心思想為:如果某個(gè)特征項(xiàng)在大多數(shù)的微博文本中出現(xiàn)的頻率都很高，那這個(gè)特征項(xiàng)對(duì)微博文本的分類貢獻(xiàn)不大，不能表示該微博文本的特征?；诖耍覀?cè)谙到y(tǒng)中采用了一種改進(jìn)的TF－IDF 公式:

式中，Weight(w，a)為詞w 在文本a 中的權(quán)重;p(w，a)為詞w 在文本a 中出現(xiàn)的頻率;Nw為所有文本的總數(shù);nw包含詞w 的文本總數(shù);x 為一個(gè)系數(shù)，在這里可以改變x 的大小來調(diào)整準(zhǔn)確度，比如取0.01。將微博文本向量化以后，我們要確定該微博信息的重要性。一個(gè)微博文本可能包含大量的詞匯，導(dǎo)致對(duì)應(yīng)的向量可能包括很多維，因此我們需要減少維數(shù)從而提高效率和精度。為了使分類精度更高，應(yīng)去除那些和主題相差較遠(yuǎn)的一些詞，篩選出與該文本主題最相近的一定個(gè)數(shù)些詞作為該類的特征項(xiàng)集合。鑒于此，這里利用信息量判斷的標(biāo)準(zhǔn)進(jìn)行特征向量抽取，其算法過程如下:

(1)計(jì)算出特征集合中每一個(gè)詞在所有微博文本中出現(xiàn)的頻率之和:

式中，nw為詞的總數(shù)，na表示微博文本的總數(shù)，p(wi，aj)表示詞wi在微博文本aj中的頻率;

(2)對(duì)于每一個(gè)特征集合中的詞，計(jì)算該詞在每一個(gè)微博文本中的頻率之和:

(3)計(jì)算該詞在微博文本中的比重:

(4)計(jì)算得到該特征詞的互信息量:

對(duì)于特征集合中的每一個(gè)詞，重復(fù)步驟2～4，算出所有詞對(duì)應(yīng)的互信息量;

(5)對(duì)同一類的詞根據(jù)互信息進(jìn)行排序，最后取前面特定數(shù)量的詞組成特征向量，代表該微博文本的特征文本向量。

3.3 微博輿情的主題發(fā)現(xiàn)及趨向性分析

在微博網(wǎng)絡(luò)中，當(dāng)某一個(gè)話題的參與者超過某一值時(shí)，該話題就成為了熱點(diǎn)。要發(fā)現(xiàn)熱點(diǎn)，首先要將微博信息分類，將主題相近的一些微博歸類到一起，然后還要統(tǒng)計(jì)參與各個(gè)微博的用戶數(shù)，將所有同類的用戶數(shù)相加，就可以表示該主題在網(wǎng)絡(luò)的動(dòng)態(tài)情況。參與該類微博信息的用戶數(shù)越多，就說明該微博當(dāng)前時(shí)間段內(nèi)越熱。一條輿情的熱度等于關(guān)于此輿情的微博關(guān)注的熱度之和加上關(guān)于此輿情的評(píng)論熱度之和，其具體的算法實(shí)現(xiàn)如下:

輸入:該類微博中各條微博的聽眾數(shù)nl，微博被轉(zhuǎn)發(fā)的次數(shù)ns，微博被評(píng)論的次數(shù)np，微博發(fā)布時(shí)間T，微博第一條評(píng)論時(shí)間Tf，微博最后一條評(píng)論時(shí)間Tl;

輸出:該類微博輿情的熱度High:

其中，i 表示所有該類微博D 中的一條微博。對(duì)于每一類微博輿情，都可以通過上述算法算出對(duì)應(yīng)的熱度High。當(dāng)發(fā)現(xiàn)某個(gè)主題以后，我們不僅需要知道它是否為熱點(diǎn)話題，還要了解它未來的發(fā)展趨勢(shì)，從而能對(duì)未知的微博輿情信息進(jìn)行及時(shí)感知和響應(yīng)。

分析一個(gè)主題的趨向性需要統(tǒng)計(jì)各個(gè)時(shí)間段內(nèi)該主題參與的用戶數(shù)的動(dòng)態(tài)變化，如果該主題的參與者在該時(shí)間段內(nèi)參與的用戶數(shù)呈爆炸式的增長(zhǎng)，說明該主題將更快地在網(wǎng)絡(luò)上傳播;如果用戶傳播的數(shù)處于減少狀態(tài)，說明該主題已經(jīng)接近尾聲。同時(shí)我們看到，微博用戶觀點(diǎn)不僅會(huì)隨時(shí)間而變化，也會(huì)隨微博網(wǎng)絡(luò)環(huán)境而變化，觀點(diǎn)演化結(jié)果直接影響微博輿情危機(jī)的預(yù)警。預(yù)測(cè)輿情的趨向性本文采用了馬爾科夫［13］預(yù)測(cè)模型，具體描述如下:

根據(jù)上面的轉(zhuǎn)移方程就可以建立主題趨向性分析的馬爾科夫預(yù)測(cè)模型，其中P 為初始的概率轉(zhuǎn)移矩陣?？梢愿鶕?jù)初始的概率向量和初始狀態(tài)轉(zhuǎn)移矩陣推測(cè)出未來第t 個(gè)時(shí)期的概率S(t)?？梢钥闯觯ㄟ^熱點(diǎn)分析和趨向性分析兩種維度，微博網(wǎng)絡(luò)的當(dāng)前主題和未知主題都能進(jìn)行分析和預(yù)測(cè)。這將會(huì)為有關(guān)部門提供有意義的輿情分析結(jié)果，從而能對(duì)微博網(wǎng)絡(luò)系統(tǒng)的輿情現(xiàn)狀進(jìn)行感知和應(yīng)對(duì)。

4 仿真與分析

本仿真實(shí)驗(yàn)，硬件平臺(tái)是Intel i5－ 4200U 2.3 GHz的雙核處理器、8GB RAM 和64 位的Windows7 操作系統(tǒng)的PC。軟件平臺(tái)中Internet 信息服務(wù)是IIS6.0，數(shù)據(jù)庫(kù)為SQL Server 2008，在此基礎(chǔ)上基于C#語(yǔ)言實(shí)現(xiàn)微博輿情分析系統(tǒng)。該系統(tǒng)會(huì)周期地對(duì)新浪微博、騰訊微博、網(wǎng)易微博、搜狐微博等進(jìn)行網(wǎng)頁(yè)抓取，并對(duì)其內(nèi)容實(shí)行解析后得到熱點(diǎn)話題。通過大量的實(shí)驗(yàn)結(jié)果和真實(shí)的情景進(jìn)行比較，不斷地調(diào)整參數(shù)。本實(shí)驗(yàn)隨機(jī)對(duì)抓取的部分熱點(diǎn)話題進(jìn)行分析以及趨向性分析。

本實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)是采用開源的網(wǎng)絡(luò)爬蟲軟件Locoy Spoder［14］從新浪微博上抓取的，通過3 h的數(shù)據(jù)采集共抓取了83 571條有效微博數(shù)據(jù)。然后，采用3.1 節(jié)的方法進(jìn)行會(huì)話抽取之后對(duì)采集到的信息進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)化、分詞處理等加工，針對(duì)微博文本相對(duì)較長(zhǎng)的內(nèi)容，采用了中文詞法分析器ICTCLAS［15］進(jìn)行分詞操作，根據(jù)聚類的統(tǒng)一主題，收集日期、回帖量、點(diǎn)擊量等信息，對(duì)各個(gè)熱點(diǎn)話題進(jìn)行輿情分析，做出趨向性分析。根據(jù)前面的一些預(yù)處理，對(duì)網(wǎng)絡(luò)的一些熱點(diǎn)如馬航事件、烏克蘭事件等熱點(diǎn)事件進(jìn)行抓取分析，得到一個(gè)輿情主題關(guān)注度的表格，若以周為統(tǒng)計(jì)單位，則每個(gè)輿情主題關(guān)注度都有8 個(gè)統(tǒng)計(jì)數(shù)據(jù)，用Mi表示一個(gè)統(tǒng)計(jì)周期，滿足i∈［1，8］，如表1所示。

表1 輿情主題關(guān)注度TabLe 1 The attention degree of public opinion topic

根據(jù)以上數(shù)據(jù)，對(duì)應(yīng)的二維關(guān)注度趨勢(shì)分析圖如圖4所示。

圖4 關(guān)注度趨勢(shì)分析圖Fig.4 The trend analysis graph of concern

從圖4可以看出，春晚在2014年2月初關(guān)注度非常高，處于峰值，隨后關(guān)注度逐漸減少，呈下降的趨勢(shì)，而烏克蘭事件從2014年2月初到3月中期都處于不斷上升的狀態(tài)，在后面則慢慢呈減小的趨勢(shì)。從圖中還可看出，馬航自2014年3月初發(fā)生以后關(guān)注度快速飆升，直到3月中旬，關(guān)注度沖到峰值，后面慢慢下降，但關(guān)注度仍然較高。前面那些事件在3月末以后都呈下降趨勢(shì)，預(yù)測(cè)下面的關(guān)注度也會(huì)不斷減小，但像烏克蘭事件可能仍然會(huì)持續(xù)一段時(shí)間。而對(duì)于文章、姚笛出軌事件，在3月末關(guān)注度一下子暴增，很可能成為后面的一個(gè)熱點(diǎn)話題。

為了完成對(duì)采集的微博輿情進(jìn)行主題發(fā)現(xiàn)，可以按照以下步驟:

步驟1:設(shè)定一個(gè)合適的閥值T;

步驟2:計(jì)算各微博主題在某一段時(shí)間內(nèi)的關(guān)注度Y(Tf，Ts):

Y(Tf，Ts)=N(Ts)－N(Tf)。

式中，N(Tx)表示在時(shí)間Tx關(guān)于該微博主題的有關(guān)微博數(shù)目，x ={s，f}。則在Tf到Ts時(shí)間段該微博主題的關(guān)注度可以用這段時(shí)間內(nèi)微博數(shù)目的差值表示;

步驟3:計(jì)算各微博主題的關(guān)注度，然后與設(shè)定閥值T 比較，如果該微博主題的關(guān)注度大于T，那么該微博主題為熱點(diǎn)主題;

步驟4:對(duì)各熱點(diǎn)微博主題按照關(guān)注度進(jìn)行降序排序，從而了解當(dāng)前最熱的微博主題。

以2014年3月1～7日作為統(tǒng)計(jì)周期，將上述各輿情主題的關(guān)注度按降序排列，得到輿情熱點(diǎn)排行榜如圖5所示。從圖5可以看出，在2014年3月1～7日期間，文章、姚笛出軌事件備受關(guān)注，成為了當(dāng)時(shí)的輿情焦點(diǎn);烏克蘭事件和馬航客機(jī)失聯(lián)事件雖然關(guān)注度下降，但仍有較多的關(guān)注;而春晚則基本已經(jīng)沒有了關(guān)注，這和從輿情趨向性分析得到的結(jié)論基本相似。因此，決策者就可以根據(jù)民眾的不同主題傾向提出相關(guān)的改進(jìn)措施。由此可見，基于主題發(fā)現(xiàn)的輿情分析模型能夠針對(duì)一些熱點(diǎn)事件分析出網(wǎng)民的觀點(diǎn)、看法，識(shí)別出其主題傾向，進(jìn)而為政府、企業(yè)或其他機(jī)構(gòu)的決策提供重要的依據(jù)。

圖5 2014年3月1～7日部分輿情關(guān)注度情況Fig.5 The public opinion case in March 1－7，2014

5 結(jié)束語(yǔ)

本文對(duì)微博網(wǎng)絡(luò)中基于主題發(fā)現(xiàn)的輿情分析系統(tǒng)進(jìn)行了進(jìn)一步的分析和研究，在提取主題的基礎(chǔ)上進(jìn)行輿情分析，并作出相應(yīng)的輿情發(fā)展趨向性分析，對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)測(cè)。同時(shí)，本文對(duì)微博網(wǎng)絡(luò)中的輿情分析模型給出了實(shí)驗(yàn)結(jié)果和分析，將來還將繼續(xù)對(duì)多層社交網(wǎng)絡(luò)中輿情分析模型的設(shè)計(jì)和優(yōu)化等工作進(jìn)一步研究。

［1］李巖，韓斌，趙劍. 基于短文本及情感分析的微博輿情分析［J］. 計(jì)算機(jī)應(yīng)用與軟件，2013，30(12):240－243.LI Yan，HAN Bin，ZHAO Jian. Analyzing microblog public opinions based on short text and sentiment analysis［J］. Computer Applications and Software，2013，30(12):240－243.(in Chinese)

［2］唐曉波，宋承偉. 基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析［J］.情報(bào)學(xué)報(bào)，2012，31(11):1153－1162.TANG Xiaobo，SONG Chengwei. Analysis of micro－blog public opinion based on complex network［J］. Journal of The China Society for Scientific and Technical Information，2012，31(11):1153－1162.(in Chinese)

［3］ Yu M，Yang W，Wang W，et al. Information Diffusion and Influence Measurement Based on Interaction in Microblogging［M］//Social Media Processing. Heidelberg，Berlin:Springer Berlin Heidelberg，2014:129－140.(in Chinese)

［4］曾振東. 基于灰色支持向量機(jī)的網(wǎng)絡(luò)輿情預(yù)測(cè)模型［J］. 計(jì)算機(jī)應(yīng)用與軟件，2014，31(2):300－302.ZENG Zhendong. The network public opinion prediction models based on grey support vector machine［J］. Computer Applications and Software，2014，31(2):300－302.(in Chinese)

［5］殷俊，何芳. 微博在我國(guó)的傳播現(xiàn)狀及傳播特征分析［J］河南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)，2011(3):124－129.YIN Jun，HE Fang. The analysis of current situation and characteristics transmission of micro－blog in China［J］.Journal of Henan University(Social Science Edition)，2011(3):124－129.(in Chinese)

［6］吳建軍. 網(wǎng)絡(luò)輿情的云計(jì)算監(jiān)測(cè)模式分析與實(shí)現(xiàn)［J］.電訊技術(shù)，2013，53(4):476－481.WU Jianjun. The analysis and implementation of the cloud monitoring model of network public opinion ［J］.Telecommunication Engineering，2013，53(4):476－481.(in Chinese)

［7］許鑫，章成志.互聯(lián)網(wǎng)輿情分析及應(yīng)用研究［J］.情報(bào)科學(xué)，2008(8):1195－1204.XU Xin，ZHANG Chengzhi. Internet public opinion analysis and its application ［J］. Information Science，2008(8):1195－1204.(in Chinese)

［8］周俊，鄭中華，張煒. 基于改進(jìn)最大匹配算法的中文分詞粗分方法［J］. 計(jì)算機(jī)工程與應(yīng)用，2014，50(2):124－128.ZHOU Jun，ZHENG Zhonghua，ZHANG Wei. Chinese word rough segmentation method based on improved maximum matching algorithm［J］. Computer Engineering and Applications，2014，50(2):124－128.(in Chinese)

［9］ Heffner C C，Dilley L C，McAuley J D，et al. When cues combine:how distal and proximal acoustic cues are integrated in wordsegmentation［J］. Language and Cognitive Processes，2013，28(9):1275－1302.

［10］夏火松，陶敏，王一，等. 停用詞表對(duì)基于SVM 的中文文本情感分類的影響［J］. 情報(bào)學(xué)報(bào)，2011，30(4):347－352.XIA Huosong，TAO Min，WANG Yi，et al. The effect of stop list of Chinese text sentiment classification based on SVM［J］.Journal of The China Society for Scientific and Technical Information，2011，30 (4):347－ 352.(in Chinese)

［11］王旭仁，李娜，何發(fā)鎂，等. 基于改進(jìn)聚類算法的網(wǎng)絡(luò)輿情分析系統(tǒng)研究［J］. 情報(bào)學(xué)報(bào)，2014，33(5):530－537.WANG Xuren，LI Na，HE Famei，et al. The research on analyzing system of network public opinion based on improved clustering algorithm［J］. Journal of The China Society for Scientific and Technical Information，2014，33(5):530－537.(in Chinese)

［12］ Hong T P，Lin C W，Yang K T，et al. Using TF－IDF to hide sensitive itemsets［J］. Applied Intelligence，2013，38(4):502－510.

［13］何洪華，徐敬德，計(jì)哲，等. 基于二階隱馬爾可夫模型的清濁音恢復(fù)算法［J］. 電訊技術(shù)，2011，51(6):56－60.HE Honghua，XU Jingde，JI Zhe，et al. The algorithm speech recovery algorithm based on Two order hidden Markov model ［J］. Telecommunication Engineering，2011，51(6):56－60.(in Chinese)

［14］ Wang L，Zhao Y，Liang S H，et al. Microblog Social Network Analysis Based on Network Group Behavior［J］. Advanced Materials Research，2013，798－799:435－438.

［15］王松，吳亞東，李秋生，等. 基于時(shí)空分析的微博演化可視化［J］. 西南科技大學(xué)學(xué)報(bào)，2014(3):68－75.WANG Song，WU Yadong，LI Qiusheng，et al. The visualization of micro－ blog evolution based on temporal and spatial analysis［J］. Journal of Southwest University of Science and Technology，2014(3):68－75.(in Chinese)

猜你喜歡

分析模型關(guān)注度博文

基于BERT-VGG16的多模態(tài)情感分析模型

成都信息工程大學(xué)學(xué)報(bào)(2022年4期)2022-11-18

第一次掙錢

作文大王·低年級(jí)(2022年3期)2022-03-19

誰(shuí)和誰(shuí)好

小學(xué)生作文·小學(xué)低年級(jí)適用(2018年12期)2018-04-11

雄安新區(qū)媒體關(guān)注度

領(lǐng)導(dǎo)決策信息(2017年15期)2017-06-22

全國(guó)兩會(huì)媒體關(guān)注度

領(lǐng)導(dǎo)決策信息(2017年11期)2017-05-17

小雪花·成長(zhǎng)指南(2016年11期)2016-12-07

層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用

中國(guó)醫(yī)學(xué)裝備(2016年6期)2016-12-01

Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut

校園英語(yǔ)·下旬(2016年2期)2016-03-18

全啟發(fā)式語(yǔ)言分析模型

燕山大學(xué)學(xué)報(bào)(2015年4期)2015-12-25

“王者”泛海發(fā)布會(huì)聚焦百萬關(guān)注度

國(guó)際公關(guān)(2015年10期)2015-12-17

電訊技術(shù)2015年6期

電訊技術(shù)的其它文章: 自適應(yīng)約束下的雙邊全變差正則化超分辨率重建*; 求半正定Hermitian 矩陣特征向量的改進(jìn)乘冪法*; 基于網(wǎng)絡(luò)編碼和ECC 的無線體域網(wǎng)安全簽名方案*; 基于二階矩的雷達(dá)信號(hào)盲分離*; 無源超高頻抗金屬標(biāo)簽天線設(shè)計(jì)方法綜述*; 一種基于場(chǎng)強(qiáng)差的移動(dòng)臺(tái)定位改進(jìn)算法*