彭 浩,周 杰,周 豪,趙丹丹
(浙江師范大學(xué) 計(jì)算機(jī)科學(xué)與工程系,浙江 金華321004)
微博網(wǎng)絡(luò)作為社交網(wǎng)絡(luò)的一種重要方式,以其簡(jiǎn)短、便捷的特點(diǎn)呈現(xiàn)爆發(fā)式增長(zhǎng)勢(shì)態(tài),截止到2014年7月微博用戶已突破2.75 億。由于微博網(wǎng)絡(luò)的信息能夠即時(shí)分享,使信息傳播時(shí)間趨向于零,已成為熱點(diǎn)輿情產(chǎn)生、傳播的重要源地,微博的影響力也呈現(xiàn)幾何式倍增態(tài)勢(shì),并以驚人的速度滲透到社會(huì)和行業(yè)的各個(gè)方面,在極大地滿足人們發(fā)布和獲取信息便利的同時(shí),也給用戶帶來很好的時(shí)空便利。同時(shí)我們看到,社交網(wǎng)絡(luò)上存在各種各樣對(duì)各種社會(huì)事件和各行各業(yè)評(píng)價(jià)的輿論信息,這些輿論評(píng)價(jià)信息既包含正面評(píng)價(jià)信息,也包含負(fù)面評(píng)價(jià)信息,這些輿論信息的傳播有可能對(duì)社會(huì)和一些行業(yè)產(chǎn)生重要的影響。面對(duì)微博網(wǎng)絡(luò)數(shù)據(jù)的不斷增多,如何設(shè)計(jì)相應(yīng)的輿情分析模型,使其能快速有效地收集和分析這些數(shù)據(jù),并產(chǎn)生有用的輿情分析報(bào)告,是許多學(xué)者關(guān)注的焦點(diǎn)。
目前,國(guó)內(nèi)外學(xué)者在輿情分析方面做了許多有意義和相關(guān)的工作。李巖等[1]基于短文本聚類及用戶評(píng)論情感分析,解決了微博文本呈現(xiàn)的不完整性、稀疏性及碎片化等問題,在一定程度上解決了因關(guān)鍵詞稀疏帶來的相似度漂移問題。唐曉波等[2]將共詞網(wǎng)絡(luò)分析和復(fù)雜網(wǎng)絡(luò)的思想與方法拓展到微博輿情分析中,設(shè)計(jì)了基于網(wǎng)絡(luò)可視化的微博輿情分析模型,為基于微博的網(wǎng)絡(luò)輿情分析提供了有效的可視化途徑。Yu 等[3]基于輿情信息擴(kuò)散過程中的用戶交互過程,考慮到用戶的交互歷史、相互作用的類型和頻率,提出了一種有向樹模型,該模型可以描述信息的擴(kuò)散,更精確地表達(dá)輿情傳播的影響,在數(shù)據(jù)集中識(shí)別垃圾郵件更有效。曾振東等[4]基于現(xiàn)代統(tǒng)計(jì)學(xué)理論,專門針對(duì)小樣本、不確定性預(yù)測(cè)問題,提出了一種基于灰色支持向量機(jī)的網(wǎng)絡(luò)輿情預(yù)測(cè)模型,相對(duì)于傳統(tǒng)預(yù)測(cè)模型,該模型提高了網(wǎng)絡(luò)輿情的預(yù)測(cè)精度。然而,上述研究工作多集中在單一技術(shù)應(yīng)用層面,缺乏系統(tǒng)性、全局性的微博網(wǎng)絡(luò)輿情分析方法的研究和分析;同時(shí),上述輿情分析模型中,結(jié)合社交網(wǎng)絡(luò)輿情特點(diǎn)的分析模型較少,不具有一般適用性。
基于上述分析,本文提出了微博網(wǎng)絡(luò)中一種基于主題發(fā)現(xiàn)的輿情分析模型,對(duì)微博網(wǎng)絡(luò)中的熱點(diǎn)話題,采用熱點(diǎn)分析和趨向性分析兩種思路,能夠進(jìn)一步了解用戶對(duì)社會(huì)或行業(yè)的熱點(diǎn)話題的觀點(diǎn)與態(tài)度,識(shí)別出其情感傾向及演化規(guī)律,更好地理解用戶的行為,分析熱點(diǎn)的輿情主題,從而為政府、企業(yè)或其他機(jī)構(gòu)的決策提供重要的參考依據(jù)。
微博網(wǎng)絡(luò)的本質(zhì)就是微博用戶及用戶之間所建立起來的穩(wěn)定關(guān)系所構(gòu)成的社會(huì)網(wǎng)絡(luò),微博中信息和資源的傳播都在這一社會(huì)網(wǎng)絡(luò)上完成。在傳統(tǒng)的輿情分析研究中[5-7],研究對(duì)象主要基于不同網(wǎng)站之間網(wǎng)頁(yè)的聯(lián)系,這種聯(lián)系的建立難以表現(xiàn)出以用戶為導(dǎo)向的信息自由流動(dòng)特征。為了克服基于鏈接的方法在微博網(wǎng)絡(luò)輿情分析中的不足,我們需要對(duì)微博網(wǎng)絡(luò)的輿情分析模型進(jìn)行相應(yīng)分析,確定該模型需要實(shí)現(xiàn)的基本功能,具體包含以下四個(gè)方面:
(1)文本抓取模塊:微博網(wǎng)絡(luò)具有用戶基數(shù)大、數(shù)據(jù)量巨大的特點(diǎn),所以要實(shí)現(xiàn)自動(dòng)抓取功能,能對(duì)指定主題的微博自動(dòng)抓取;
(2)文本預(yù)處理模塊:微博網(wǎng)絡(luò)的內(nèi)容可能包括聲音、文字、圖片以及視頻,多而復(fù)雜,所以要有文本預(yù)處理的功能,對(duì)文本進(jìn)行簡(jiǎn)單的分類;
(3)微博信息跟蹤記錄模塊:微博轉(zhuǎn)發(fā)速度非???,需要實(shí)現(xiàn)對(duì)指定微博的轉(zhuǎn)發(fā)及評(píng)論用戶信息進(jìn)行抓取;
(4)輿情分析模塊:要進(jìn)行輿情分析,就要對(duì)抓取的內(nèi)容進(jìn)行分析,發(fā)現(xiàn)其中存在的微博主題,并進(jìn)行趨向性分析。
微博網(wǎng)絡(luò)以傳播廣度為主,聚合度非常高。同時(shí),微博網(wǎng)絡(luò)上聚集了大量的用戶群體,加速和擴(kuò)展了信息的傳播。結(jié)合微博網(wǎng)絡(luò)的這些特點(diǎn),給出其輿情分析模型的框架,如圖1所示。該模型包括微博網(wǎng)頁(yè)的信息抓取、文本預(yù)處理、微博特征表示及提取、輿情分析等主要模塊,其中,輿情分析模型是本文研究的核心,包括主題發(fā)現(xiàn)、熱點(diǎn)分析、趨向性分析等三個(gè)方面。
圖1 微博網(wǎng)絡(luò)的輿情分析模型設(shè)計(jì)圖Fig.1 The design model of public opinion analysis in the micro-blog network
文本預(yù)處理包含三個(gè)過程:信息自動(dòng)抓取、分詞和過濾停用詞。
第一,通過網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)對(duì)微博的抓取。網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。網(wǎng)絡(luò)爬蟲的基本搜索過程如圖2所示。
圖2 網(wǎng)絡(luò)爬蟲搜索過程Fig.2 The search process of web crawler algorithm
傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的統(tǒng)一資源定位器(Uniform Resource Location,URL)開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過程中,不斷從當(dāng)前頁(yè)面上抽取新的URL 放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。由于聚類算法在處理微博網(wǎng)絡(luò)碎片信息方面[1]具有很好的性能,本文采用改進(jìn)的增量聚類方法,下面具體描述。
對(duì)于每一個(gè)抓取到的微博文本,我們都可以從主標(biāo)題和正文中提取m 個(gè)關(guān)鍵字,并根據(jù)關(guān)鍵字的屬性和權(quán)重構(gòu)成向量來表示微博文本的主題Xi,即主題向量Xi={W1,W2,…,Wm},i =1,2,…,n,Wj(j=1,2,…,m)表示每一個(gè)關(guān)鍵字的屬性和權(quán)重。這樣n 個(gè)抓取到的微博文本就可以構(gòu)成由n 個(gè)特征向量組成的數(shù)據(jù)集合C ={X1,X2,…,Xn}。進(jìn)行微博文本的聚類,需要知道兩個(gè)微博文本的主題向量Xi、Xj的相似度Y(Xi,Xj)。假設(shè)Xi和Xj有k 個(gè)共同的關(guān)鍵字屬性,而Xi有k1個(gè)關(guān)鍵字屬性,Xj有k2個(gè)關(guān)鍵字屬性,那么兩個(gè)主題向量Xi、Xj的相似度表示如下:
根據(jù)兩個(gè)主題的相似度就可以完成微博文本的聚類,得到話題簇。
第二,需要對(duì)抓取的輿情信息進(jìn)行分詞。分詞可以分為中文分詞[8]和英文分詞[9]。英文分詞相對(duì)簡(jiǎn)單,一般通過空格分開,然而中文分詞就相對(duì)麻煩,詞與詞之間沒有明顯的分隔符。
如圖3所示,中文分詞的算法主要包含三大類,分別為基于字典匹配、基于統(tǒng)計(jì)和基于規(guī)則的分詞?;谧值淦ヅ涞姆绞接捎趯?shí)現(xiàn)簡(jiǎn)單、執(zhí)行效率高,目前使用較普遍。本文采取了其中的逆向最大匹配的方法。在分詞過程中,只需從后向前不斷進(jìn)行匹配,看詞庫(kù)中是否有該詞,而對(duì)于沒有在詞庫(kù)中出現(xiàn)的單詞就無需進(jìn)行分離。
圖3 中文分詞方法Fig.3 Chinese segmentation method
第三,停用詞[10]的過濾,可以提高系統(tǒng)的運(yùn)行效率。本文停用詞的過濾用了算法1 和算法2 兩個(gè)算法。
(1)算法1
輸入:所取詞語(yǔ)a;
輸出:詞語(yǔ)a 在查詢語(yǔ)料庫(kù)中和標(biāo)準(zhǔn)庫(kù)中的頻率之和;
計(jì)算:fb(a)為詞a 在標(biāo)準(zhǔn)庫(kù)中的頻率,fq(a)為詞a 在查詢語(yǔ)料庫(kù)中的頻率:
其中,p 設(shè)定的一個(gè)頻率的閥值,防止詞語(yǔ)a 在某類詞料中頻率極高使得誤差偏大,sum1就是詞語(yǔ)a 在查詢語(yǔ)料庫(kù)中和標(biāo)準(zhǔn)庫(kù)中的頻率之和。
(2)算法2
輸入:所取詞語(yǔ)a;
輸出:詞語(yǔ)a 在不同語(yǔ)料的左右熵之和;
計(jì)算:SWi(a)為詞語(yǔ)a 的左右熵,W = {left,right},i={b,q},即Sleftb,Sleftq,Srightb,Srightq:
for each a input{
其中,D 為詞語(yǔ)a 的鄰接詞語(yǔ)集,而d 為詞集D 其中的任意一個(gè)詞語(yǔ),sum2就是詞語(yǔ)a 在不同語(yǔ)料的左右熵之和。
根據(jù)算法1 和算法2,sum1和sum2的取值越大就越可信。算法1 減少了因?yàn)樵~頻相差不大而排序等級(jí)相差較大造成的誤差,而算法2 降低了詞語(yǔ)在不同語(yǔ)料左右鄰接熵值帶來的誤差。
微博信息進(jìn)行文本預(yù)處理后,需要對(duì)抓取的微博文本信息進(jìn)行特征提取。這里微博文本的表示,我們主要基于向量空間模型(VSM)[11]進(jìn)行構(gòu)建。首 先,以 向 量(Weight1,Weight2,Weight3,…,Weightn)來表示微博文本,其中Weightj為第j 個(gè)特征項(xiàng)的權(quán)重(j =1,2,…,n)。對(duì)于每一個(gè)提取的微博文本進(jìn)行特征提取,將分詞后的詞的集合向量化,使得每一條微博文本都轉(zhuǎn)化為一個(gè)高維空間向量。同時(shí),通過微博文本相似度的分析,得到兩個(gè)微博文本之間的關(guān)聯(lián)性。
在微博文本向量中用1 表示該微博文本中有該詞,用0 表示微博文本中沒有該詞。為了使微博文本特征提取的準(zhǔn)確度更高,后面漸漸用詞頻替代了原來的0 和1,目前一般通過TF- IDF(Term Frequency- Inverse Document Frequency)[12]方法計(jì)算得到。其核心思想為:如果某個(gè)特征項(xiàng)在大多數(shù)的微博文本中出現(xiàn)的頻率都很高,那這個(gè)特征項(xiàng)對(duì)微博文本的分類貢獻(xiàn)不大,不能表示該微博文本的特征?;诖耍覀?cè)谙到y(tǒng)中采用了一種改進(jìn)的TF-IDF 公式:
式中,Weight(w,a)為詞w 在文本a 中的權(quán)重;p(w,a)為詞w 在文本a 中出現(xiàn)的頻率;Nw為所有文本的總數(shù);nw包含詞w 的文本總數(shù);x 為一個(gè)系數(shù),在這里可以改變x 的大小來調(diào)整準(zhǔn)確度,比如取0.01。將微博文本向量化以后,我們要確定該微博信息的重要性。一個(gè)微博文本可能包含大量的詞匯,導(dǎo)致對(duì)應(yīng)的向量可能包括很多維,因此我們需要減少維數(shù)從而提高效率和精度。為了使分類精度更高,應(yīng)去除那些和主題相差較遠(yuǎn)的一些詞,篩選出與該文本主題最相近的一定個(gè)數(shù)些詞作為該類的特征項(xiàng)集合。鑒于此,這里利用信息量判斷的標(biāo)準(zhǔn)進(jìn)行特征向量抽取,其算法過程如下:
(1)計(jì)算出特征集合中每一個(gè)詞在所有微博文本中出現(xiàn)的頻率之和:
式中,nw為詞的總數(shù),na表示微博文本的總數(shù),p(wi,aj)表示詞wi在微博文本aj中的頻率;
(2)對(duì)于每一個(gè)特征集合中的詞,計(jì)算該詞在每一個(gè)微博文本中的頻率之和:
(3)計(jì)算該詞在微博文本中的比重:
(4)計(jì)算得到該特征詞的互信息量:
對(duì)于特征集合中的每一個(gè)詞,重復(fù)步驟2~4,算出所有詞對(duì)應(yīng)的互信息量;
(5)對(duì)同一類的詞根據(jù)互信息進(jìn)行排序,最后取前面特定數(shù)量的詞組成特征向量,代表該微博文本的特征文本向量。
在微博網(wǎng)絡(luò)中,當(dāng)某一個(gè)話題的參與者超過某一值時(shí),該話題就成為了熱點(diǎn)。要發(fā)現(xiàn)熱點(diǎn),首先要將微博信息分類,將主題相近的一些微博歸類到一起,然后還要統(tǒng)計(jì)參與各個(gè)微博的用戶數(shù),將所有同類的用戶數(shù)相加,就可以表示該主題在網(wǎng)絡(luò)的動(dòng)態(tài)情況。參與該類微博信息的用戶數(shù)越多,就說明該微博當(dāng)前時(shí)間段內(nèi)越熱。一條輿情的熱度等于關(guān)于此輿情的微博關(guān)注的熱度之和加上關(guān)于此輿情的評(píng)論熱度之和,其具體的算法實(shí)現(xiàn)如下:
輸入:該類微博中各條微博的聽眾數(shù)nl,微博被轉(zhuǎn)發(fā)的次數(shù)ns,微博被評(píng)論的次數(shù)np,微博發(fā)布時(shí)間T,微博第一條評(píng)論時(shí)間Tf,微博最后一條評(píng)論時(shí)間Tl;
輸出:該類微博輿情的熱度High:
其中,i 表示所有該類微博D 中的一條微博。對(duì)于每一類微博輿情,都可以通過上述算法算出對(duì)應(yīng)的熱度High。當(dāng)發(fā)現(xiàn)某個(gè)主題以后,我們不僅需要知道它是否為熱點(diǎn)話題,還要了解它未來的發(fā)展趨勢(shì),從而能對(duì)未知的微博輿情信息進(jìn)行及時(shí)感知和響應(yīng)。
分析一個(gè)主題的趨向性需要統(tǒng)計(jì)各個(gè)時(shí)間段內(nèi)該主題參與的用戶數(shù)的動(dòng)態(tài)變化,如果該主題的參與者在該時(shí)間段內(nèi)參與的用戶數(shù)呈爆炸式的增長(zhǎng),說明該主題將更快地在網(wǎng)絡(luò)上傳播;如果用戶傳播的數(shù)處于減少狀態(tài),說明該主題已經(jīng)接近尾聲。同時(shí)我們看到,微博用戶觀點(diǎn)不僅會(huì)隨時(shí)間而變化,也會(huì)隨微博網(wǎng)絡(luò)環(huán)境而變化,觀點(diǎn)演化結(jié)果直接影響微博輿情危機(jī)的預(yù)警。預(yù)測(cè)輿情的趨向性本文采用了馬爾科夫[13]預(yù)測(cè)模型,具體描述如下:
根據(jù)上面的轉(zhuǎn)移方程就可以建立主題趨向性分析的馬爾科夫預(yù)測(cè)模型,其中P 為初始的概率轉(zhuǎn)移矩陣??梢愿鶕?jù)初始的概率向量和初始狀態(tài)轉(zhuǎn)移矩陣推測(cè)出未來第t 個(gè)時(shí)期的概率S(t)??梢钥闯觯ㄟ^熱點(diǎn)分析和趨向性分析兩種維度,微博網(wǎng)絡(luò)的當(dāng)前主題和未知主題都能進(jìn)行分析和預(yù)測(cè)。這將會(huì)為有關(guān)部門提供有意義的輿情分析結(jié)果,從而能對(duì)微博網(wǎng)絡(luò)系統(tǒng)的輿情現(xiàn)狀進(jìn)行感知和應(yīng)對(duì)。
本仿真實(shí)驗(yàn),硬件平臺(tái)是Intel i5- 4200U 2.3 GHz的雙核處理器、8GB RAM 和64 位的Windows7 操作系統(tǒng)的PC。軟件平臺(tái)中Internet 信息服務(wù)是IIS6.0,數(shù)據(jù)庫(kù)為SQL Server 2008,在此基礎(chǔ)上基于C#語(yǔ)言實(shí)現(xiàn)微博輿情分析系統(tǒng)。該系統(tǒng)會(huì)周期地對(duì)新浪微博、騰訊微博、網(wǎng)易微博、搜狐微博等進(jìn)行網(wǎng)頁(yè)抓取,并對(duì)其內(nèi)容實(shí)行解析后得到熱點(diǎn)話題。通過大量的實(shí)驗(yàn)結(jié)果和真實(shí)的情景進(jìn)行比較,不斷地調(diào)整參數(shù)。本實(shí)驗(yàn)隨機(jī)對(duì)抓取的部分熱點(diǎn)話題進(jìn)行分析以及趨向性分析。
本實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)是采用開源的網(wǎng)絡(luò)爬蟲軟件Locoy Spoder[14]從新浪微博上抓取的,通過3 h的數(shù)據(jù)采集共抓取了83 571條有效微博數(shù)據(jù)。然后,采用3.1 節(jié)的方法進(jìn)行會(huì)話抽取之后對(duì)采集到的信息進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)化、分詞處理等加工,針對(duì)微博文本相對(duì)較長(zhǎng)的內(nèi)容,采用了中文詞法分析器ICTCLAS[15]進(jìn)行分詞操作,根據(jù)聚類的統(tǒng)一主題,收集日期、回帖量、點(diǎn)擊量等信息,對(duì)各個(gè)熱點(diǎn)話題進(jìn)行輿情分析,做出趨向性分析。根據(jù)前面的一些預(yù)處理,對(duì)網(wǎng)絡(luò)的一些熱點(diǎn)如馬航事件、烏克蘭事件等熱點(diǎn)事件進(jìn)行抓取分析,得到一個(gè)輿情主題關(guān)注度的表格,若以周為統(tǒng)計(jì)單位,則每個(gè)輿情主題關(guān)注度都有8 個(gè)統(tǒng)計(jì)數(shù)據(jù),用Mi表示一個(gè)統(tǒng)計(jì)周期,滿足i∈[1,8],如表1所示。
表1 輿情主題關(guān)注度TabLe 1 The attention degree of public opinion topic
根據(jù)以上數(shù)據(jù),對(duì)應(yīng)的二維關(guān)注度趨勢(shì)分析圖如圖4所示。
圖4 關(guān)注度趨勢(shì)分析圖Fig.4 The trend analysis graph of concern
從圖4可以看出,春晚在2014年2月初關(guān)注度非常高,處于峰值,隨后關(guān)注度逐漸減少,呈下降的趨勢(shì),而烏克蘭事件從2014年2月初到3月中期都處于不斷上升的狀態(tài),在后面則慢慢呈減小的趨勢(shì)。從圖中還可看出,馬航自2014年3月初發(fā)生以后關(guān)注度快速飆升,直到3月中旬,關(guān)注度沖到峰值,后面慢慢下降,但關(guān)注度仍然較高。前面那些事件在3月末以后都呈下降趨勢(shì),預(yù)測(cè)下面的關(guān)注度也會(huì)不斷減小,但像烏克蘭事件可能仍然會(huì)持續(xù)一段時(shí)間。而對(duì)于文章、姚笛出軌事件,在3月末關(guān)注度一下子暴增,很可能成為后面的一個(gè)熱點(diǎn)話題。
為了完成對(duì)采集的微博輿情進(jìn)行主題發(fā)現(xiàn),可以按照以下步驟:
步驟1:設(shè)定一個(gè)合適的閥值T;
步驟2:計(jì)算各微博主題在某一段時(shí)間內(nèi)的關(guān)注度Y(Tf,Ts):
Y(Tf,Ts)=N(Ts)-N(Tf)。
式中,N(Tx)表示在時(shí)間Tx關(guān)于該微博主題的有關(guān)微博數(shù)目,x ={s,f}。則在Tf到Ts時(shí)間段該微博主題的關(guān)注度可以用這段時(shí)間內(nèi)微博數(shù)目的差值表示;
步驟3:計(jì)算各微博主題的關(guān)注度,然后與設(shè)定閥值T 比較,如果該微博主題的關(guān)注度大于T,那么該微博主題為熱點(diǎn)主題;
步驟4:對(duì)各熱點(diǎn)微博主題按照關(guān)注度進(jìn)行降序排序,從而了解當(dāng)前最熱的微博主題。
以2014年3月1~7日作為統(tǒng)計(jì)周期,將上述各輿情主題的關(guān)注度按降序排列,得到輿情熱點(diǎn)排行榜如圖5所示。從圖5可以看出,在2014年3月1~7日期間,文章、姚笛出軌事件備受關(guān)注,成為了當(dāng)時(shí)的輿情焦點(diǎn);烏克蘭事件和馬航客機(jī)失聯(lián)事件雖然關(guān)注度下降,但仍有較多的關(guān)注;而春晚則基本已經(jīng)沒有了關(guān)注,這和從輿情趨向性分析得到的結(jié)論基本相似。因此,決策者就可以根據(jù)民眾的不同主題傾向提出相關(guān)的改進(jìn)措施。由此可見,基于主題發(fā)現(xiàn)的輿情分析模型能夠針對(duì)一些熱點(diǎn)事件分析出網(wǎng)民的觀點(diǎn)、看法,識(shí)別出其主題傾向,進(jìn)而為政府、企業(yè)或其他機(jī)構(gòu)的決策提供重要的依據(jù)。
圖5 2014年3月1~7日部分輿情關(guān)注度情況Fig.5 The public opinion case in March 1-7,2014
本文對(duì)微博網(wǎng)絡(luò)中基于主題發(fā)現(xiàn)的輿情分析系統(tǒng)進(jìn)行了進(jìn)一步的分析和研究,在提取主題的基礎(chǔ)上進(jìn)行輿情分析,并作出相應(yīng)的輿情發(fā)展趨向性分析,對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)測(cè)。同時(shí),本文對(duì)微博網(wǎng)絡(luò)中的輿情分析模型給出了實(shí)驗(yàn)結(jié)果和分析,將來還將繼續(xù)對(duì)多層社交網(wǎng)絡(luò)中輿情分析模型的設(shè)計(jì)和優(yōu)化等工作進(jìn)一步研究。
[1] 李巖,韓斌,趙劍. 基于短文本及情感分析的微博輿情分析[J]. 計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):240-243.LI Yan,HAN Bin,ZHAO Jian. Analyzing microblog public opinions based on short text and sentiment analysis[J]. Computer Applications and Software,2013,30(12):240-243.(in Chinese)
[2] 唐曉波,宋承偉. 基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析[J].情報(bào)學(xué)報(bào),2012,31(11):1153-1162.TANG Xiaobo,SONG Chengwei. Analysis of micro-blog public opinion based on complex network[J]. Journal of The China Society for Scientific and Technical Information,2012,31(11):1153-1162.(in Chinese)
[3] Yu M,Yang W,Wang W,et al. Information Diffusion and Influence Measurement Based on Interaction in Microblogging[M]//Social Media Processing. Heidelberg,Berlin:Springer Berlin Heidelberg,2014:129-140.(in Chinese)
[4] 曾振東. 基于灰色支持向量機(jī)的網(wǎng)絡(luò)輿情預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(2):300-302.ZENG Zhendong. The network public opinion prediction models based on grey support vector machine[J]. Computer Applications and Software,2014,31(2):300-302.(in Chinese)
[5] 殷俊,何芳. 微博在我國(guó)的傳播現(xiàn)狀及傳播特征分析[J]河南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011(3):124-129.YIN Jun,HE Fang. The analysis of current situation and characteristics transmission of micro-blog in China[J].Journal of Henan University(Social Science Edition),2011(3):124-129.(in Chinese)
[6] 吳建軍. 網(wǎng)絡(luò)輿情的云計(jì)算監(jiān)測(cè)模式分析與實(shí)現(xiàn)[J].電訊技術(shù),2013,53(4):476-481.WU Jianjun. The analysis and implementation of the cloud monitoring model of network public opinion [J].Telecommunication Engineering,2013,53(4):476-481.(in Chinese)
[7] 許鑫,章成志.互聯(lián)網(wǎng)輿情分析及應(yīng)用研究[J].情報(bào)科學(xué),2008(8):1195-1204.XU Xin,ZHANG Chengzhi. Internet public opinion analysis and its application [J]. Information Science,2008(8):1195-1204.(in Chinese)
[8] 周俊,鄭中華,張煒. 基于改進(jìn)最大匹配算法的中文分詞粗分方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(2):124-128.ZHOU Jun,ZHENG Zhonghua,ZHANG Wei. Chinese word rough segmentation method based on improved maximum matching algorithm[J]. Computer Engineering and Applications,2014,50(2):124-128.(in Chinese)
[9] Heffner C C,Dilley L C,McAuley J D,et al. When cues combine:how distal and proximal acoustic cues are integrated in wordsegmentation[J]. Language and Cognitive Processes,2013,28(9):1275-1302.
[10] 夏火松,陶敏,王一,等. 停用詞表對(duì)基于SVM 的中文文本情感分類的影響[J]. 情報(bào)學(xué)報(bào),2011,30(4):347-352.XIA Huosong,TAO Min,WANG Yi,et al. The effect of stop list of Chinese text sentiment classification based on SVM[J].Journal of The China Society for Scientific and Technical Information,2011,30 (4):347- 352.(in Chinese)
[11] 王旭仁,李娜,何發(fā)鎂,等. 基于改進(jìn)聚類算法的網(wǎng)絡(luò)輿情分析系統(tǒng)研究[J]. 情報(bào)學(xué)報(bào),2014,33(5):530-537.WANG Xuren,LI Na,HE Famei,et al. The research on analyzing system of network public opinion based on improved clustering algorithm[J]. Journal of The China Society for Scientific and Technical Information,2014,33(5):530-537.(in Chinese)
[12] Hong T P,Lin C W,Yang K T,et al. Using TF-IDF to hide sensitive itemsets[J]. Applied Intelligence,2013,38(4):502-510.
[13] 何洪華,徐敬德,計(jì)哲,等. 基于二階隱馬爾可夫模型的清濁音恢復(fù)算法[J]. 電訊技術(shù),2011,51(6):56-60.HE Honghua,XU Jingde,JI Zhe,et al. The algorithm speech recovery algorithm based on Two order hidden Markov model [J]. Telecommunication Engineering,2011,51(6):56-60.(in Chinese)
[14] Wang L,Zhao Y,Liang S H,et al. Microblog Social Network Analysis Based on Network Group Behavior[J]. Advanced Materials Research,2013,798-799:435-438.
[15] 王松,吳亞東,李秋生,等. 基于時(shí)空分析的微博演化可視化[J]. 西南科技大學(xué)學(xué)報(bào),2014(3):68-75.WANG Song,WU Yadong,LI Qiusheng,et al. The visualization of micro- blog evolution based on temporal and spatial analysis[J]. Journal of Southwest University of Science and Technology,2014(3):68-75.(in Chinese)