孫玲芳 尹培培
(1.泰州學(xué)院計算機科學(xué)與技術(shù)學(xué)院 泰州 225300)(2.江蘇科技大學(xué)計算機科學(xué)與工程學(xué)院 鎮(zhèn)江 212003)
隨著Web3.0時代的到來,互聯(lián)網(wǎng)應(yīng)用的迅猛發(fā)展,讓各種新興的交流媒介快速普及,公眾可以上網(wǎng)了解自己感興趣的事件,也可以就某事件自由地發(fā)表自己的觀點,并且政府有關(guān)部門也可以互聯(lián)網(wǎng)作為重要的窗口來了解公眾的思想動態(tài)和輿情信息。政府有關(guān)部門可以從網(wǎng)絡(luò)中的海量數(shù)據(jù)中獲取到公眾針對某事物的評論和情感傾向,并以此為重要依據(jù)把握公眾的情緒,從而做出更加正確有針對性的決策。
網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)表達(dá)和傳播的,公眾對自己關(guān)心或與自身利益緊密相關(guān)的各種公共事務(wù)所持有的多種情緒,態(tài)度和意見交錯的總和[1]。網(wǎng)絡(luò)輿情有很多明顯的特征,如自由、即時、情緒化、分散等,對于正面的事件,會對社會形成一種正能量,利于社會的穩(wěn)定,但是,很多存在不利影響的事件,一旦經(jīng)過網(wǎng)絡(luò)的傳播形成負(fù)面的網(wǎng)絡(luò)輿情,如果有關(guān)部門沒有很好的引導(dǎo),其造成的負(fù)面影響將對社會安全形成較大威脅。對各級政府來說,可依據(jù)網(wǎng)絡(luò)輿情系統(tǒng)對輿情事件進行情感分析,及時地采取相應(yīng)的措施,從而有效化解網(wǎng)絡(luò)輿論危機,起到及時發(fā)現(xiàn)和解決的正確引導(dǎo)作用。
肖文濤認(rèn)為,在互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和廣泛普及下,網(wǎng)絡(luò)輿情的影響力,特別是負(fù)面事件造成的影響力會被無限放大[2]。潘芳也認(rèn)為,突發(fā)事件發(fā)生形成的網(wǎng)絡(luò)輿情,政府有關(guān)部門會依據(jù)網(wǎng)絡(luò)輿情所反映的影響作出決策,但引導(dǎo)不當(dāng)就會容易引發(fā)社會問題[3]。美國學(xué)者Kathleen Feam–Banks認(rèn)為網(wǎng)絡(luò)輿情的擴散和危機的網(wǎng)絡(luò)傳播有類似的特征[4]。Kling等認(rèn)為網(wǎng)絡(luò)具有隱匿性、互動性、即時性等特性,這些特點使得輿情的形成過程更加快速之外,更加容易使輿情的發(fā)展超出人為的控制[5]。Sznajd從理論的角度研究了網(wǎng)絡(luò)輿情的演變發(fā)展過程[6]。曾潤喜(2010)在向?qū)<野l(fā)放的74份問卷調(diào)查的基礎(chǔ)上,利用層次分析法構(gòu)建了網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系[7]。薛素芝通過計算與特征詞語有關(guān)的用戶的增長程度和微博條數(shù)的增長程度來發(fā)現(xiàn)熱點主題詞,再通過主題詞聚類產(chǎn)生熱點話題[8]等等。
綜上所述,現(xiàn)在的大部分研究更多的關(guān)注網(wǎng)絡(luò)輿情的本質(zhì)、傳播和預(yù)警等研究,而且對于網(wǎng)絡(luò)輿情主要是正面、負(fù)面和中性的判斷。本文的研究重點是借鑒大數(shù)據(jù)技術(shù)處理海量數(shù)據(jù)的優(yōu)勢來對網(wǎng)絡(luò)輿情輿情文本進行挖掘,并在此基礎(chǔ)上從客觀和主觀兩個方面構(gòu)建衡量網(wǎng)絡(luò)輿情情感強度的輿情指標(biāo)模型,從而起到一定的引導(dǎo)作用。
大數(shù)據(jù)不單單是指海量的數(shù)據(jù)和信息,也包含如何在海量的數(shù)據(jù)中快速獲取有價值的信息。大數(shù)據(jù)的特征可用Volume、Variety、Value、Velocity 這4V來概括[9],如表1所示。
表1 大數(shù)據(jù)4V特征
網(wǎng)絡(luò)輿情并不是網(wǎng)絡(luò)中直接存在的數(shù)據(jù)信息,而是通過相關(guān)的技術(shù)對網(wǎng)絡(luò)數(shù)據(jù)進行處理后,分析匯總得到的有價值的信息??梢钥闯?,網(wǎng)絡(luò)輿情的數(shù)據(jù)信息的獲取來源和大數(shù)據(jù)的思想概念是可匹配的,并且,大數(shù)據(jù)的4V特征和網(wǎng)絡(luò)輿情具有的特點是有關(guān)聯(lián)的,如表2所示。
表2 大數(shù)據(jù)與網(wǎng)絡(luò)輿情的相似特征
大數(shù)據(jù)是從海量的信息中快速的查找和獲取有用的信息,而網(wǎng)絡(luò)輿情是從網(wǎng)絡(luò)中原始海量的數(shù)據(jù)中獲取高價值的數(shù)據(jù)來分析,二者的特點基本符合,這在理論上論證了將大數(shù)據(jù)的思想和相關(guān)的技術(shù)應(yīng)用到對網(wǎng)絡(luò)輿情的數(shù)據(jù)處理中具有的可行性。
2004年,Google公司提出MapReduce技術(shù),在設(shè)計之初,是致力于通過大規(guī)模廉價服務(wù)器集群來實現(xiàn)大數(shù)據(jù)的并行處理,引起了各界廣泛的關(guān)注。大數(shù)據(jù)技術(shù)具有處理海量數(shù)據(jù)的優(yōu)勢,作為面向大數(shù)據(jù)分析和處理的并行計算模型,大數(shù)據(jù)處理引擎MapReduce可以對海量網(wǎng)絡(luò)新聞和相關(guān)評論數(shù)據(jù)進行處理。MapReduce技術(shù)框架可看成3個部分:分布式文件系統(tǒng);并行編程模型(map、reduce函數(shù));并行執(zhí)行引擎。
分布式文件系統(tǒng)運行在廉價機器構(gòu)建的大規(guī)模集群上,數(shù)據(jù)是通過鍵值對(key-value)的形式進行存儲。整個的文件系統(tǒng)采用的模式是集中管理元數(shù)據(jù)、分散存儲數(shù)據(jù)塊,數(shù)據(jù)采用大塊進行存儲,這樣可以對數(shù)據(jù)進行更加方便的壓縮,從而節(jié)省存儲空間。還可以通過數(shù)據(jù)的復(fù)制來實現(xiàn)系統(tǒng)的高度容錯性。
MapReduce模型是將計算過程分為兩個階段:Map階段和Reduce階段。在Map任務(wù)中,輸入的數(shù)據(jù)是一篇篇的文檔,可以將每一篇文檔看作一個元素,則每個數(shù)據(jù)塊可看成由多個元素組成的集合,并且同一篇文檔是不可以跨數(shù)據(jù)塊進行存儲的。并且在模型中,所有的輸入和輸出的數(shù)據(jù)形式都是基于key-value對,這是為了便于模型的組合使用。
Map任務(wù)是將輸入的信息轉(zhuǎn)換成中建鍵值對(key-value pair),其中key值不具有唯一性,可重復(fù),然后通過MapReduce框架將Map過程產(chǎn)生的所有中間鍵值對按key值分類歸納好,載傳給Reduce過程作為輸入。Reduce任務(wù)是接受key值及對應(yīng)的一組value值,并重新進行計算合并得到我們需要的值或鍵值對。
MapReduce程序的具體計算過程如圖1所示。
圖1 MapReduce計算過程
MapReduce技術(shù)是并行計算模型,其在系統(tǒng)層面解決了容錯性、可擴展性等一些重要的問題,通過用戶編寫的Map和Reduce函數(shù),在大規(guī)模集群上對海量數(shù)據(jù)進行并行操作,從而可以快速高效地處理和分析。
由此可以看出,傳統(tǒng)的數(shù)據(jù)處理技術(shù)雖然可以做到準(zhǔn)確的對數(shù)據(jù)進行處理,但對于處理時間是不能保證的,但是網(wǎng)絡(luò)輿情的預(yù)警就是要在保證做到高準(zhǔn)確率的基礎(chǔ)上,更要及時地發(fā)現(xiàn)輿情,而要及時,首先要保證的就是數(shù)據(jù)處理事件,而MapReduce技術(shù)可以有效地處理這一問題。
首先要對文本進行分詞處理,過濾掉不重要的一些信息后,便于提取文本特征。文本分詞處理,也就是將文本分割成獨立的字、詞或短語,這樣比較方便進行后面的一系列操作?,F(xiàn)在存在一些發(fā)展較為成熟的中文分詞器,如中科院的ICTCLAS等,我們可以借助中文分詞器對文本進行分詞處理。本文將分詞后的文本信息作為研究對象,再利用改進的MapReduce模型來提取主題信息,進而得到相應(yīng)事件的情感強度。
在需要知道某個詞語或者短語在文檔中所體現(xiàn)的重要性來對文本進行特征向量的提取時,會使用TF-IDF的方法來計算特征向量權(quán)值從而建立空間向量模型,而TF-IDF的方法是數(shù)據(jù)向量化經(jīng)常使用的一種方法。
TF-IDF的主要思想是:假設(shè)一個詞語在一篇文章中出現(xiàn)的頻率高,而在其他文章中出現(xiàn)的頻率很低,則說明該詞語具有很高的辨識度,適合用來分類。TF,也叫作詞頻,顧名思義,即詞語在某一篇文章中出現(xiàn)的頻率。IDF,也叫作逆向文件頻率,可理解為:詞語在越少的文章中出現(xiàn),則該詞語的IDF值越大,那么該詞語就可以用來進行類別區(qū)分。
假設(shè)文檔總數(shù)為N,包含詞語ki的文檔數(shù)為ni(ni≤N ),文檔 dj中詞語 ki的數(shù)量為 fi,j,則詞語 ki的TFi,j如式1所示,分母表示文檔 dj的詞語總和。關(guān)鍵詞ki的IDFi的計算過程如式2表示。式3是通過權(quán)重wi,j來表示關(guān)鍵詞ki在文檔dj中的重要性[10]。
通過上述描述知道,ni和 fi,j是不能簡單的通過Reduce函數(shù)而得到,在這里我們需要通過對MapReduce模型進行改進,改進方法將在3.3節(jié)進行描述。通過TF-IDF方法計算出各詞語的權(quán)值,但在許多的文檔中,還需要得到各文檔的相似度來簡化計算過程。在本文中是通過計算兩個文檔的夾角大小來衡量相似程度[11],也就是余弦相似度方法,可用式(4)表示。
文檔與其它所有文檔的平均相似度越高,說明文檔的重要性越大,則采用這個文檔的關(guān)鍵詞作為熱點話題[12]。
據(jù)3.2節(jié)描述可知,要得到詞語的權(quán)值,對于大量待處理的網(wǎng)絡(luò)信息而言,MapReduce技術(shù)是關(guān)鍵,而圖1所示,MapReduce模型是由簡單的Map和Reduce函數(shù)兩個過程組成,而通過該模型簡單的計算是無法得到詞語的權(quán)值,需對其進行改進。
在文本特征項的提取過程中,是基于MapReduce模型。Map函數(shù)的作用是將輸入的文檔進行分詞,形成詞語序列 w1,w2,…,wn,在該序列中的key值就是文檔中的詞語,所有的value值都為1,即輸出形式為 (w1,1),(w2,1),…,(wn,1)。
當(dāng) Map 任務(wù)完成后,其輸出為 (k,v1),(k,v2),…,(k,vn),在經(jīng)過MapReduce框架將按key值整合后,作為Reduce任務(wù)的輸入傳給Reduce,對于鍵k,Reduce函數(shù)的輸入是 (k,[v1,v2,…,vn])。Reduce函數(shù)再將輸入的 (k,[v1,v2,…,vn])中的值按要求進行組合,然后將最后的結(jié)果存儲到底層的分布式存儲系統(tǒng)(GFS或HDFS)。
在3.2節(jié)中我們知道需要對MapReduce進行改進的必要性,在這里是將MapReduce中的Map和Reduce任務(wù)進行嵌套使用,在原來的基礎(chǔ)上進行了改進,形成了MapReduce的組合器。改進的MapReduce的模型的工作流程如圖2所示。
圖2 改進的MapReduce模型工作流程圖
其中,Map任務(wù)是將輸入信息轉(zhuǎn)換為中間key-value對序列;Reduce1任務(wù)是統(tǒng)計一篇文檔dj中某詞語wi的數(shù)量 fi,j;Reduce2任務(wù)中將所有的單個文檔中所有的鍵合并,并計算出所有的Reduce1任務(wù)中所有計算出的value的和,即為單個文檔dj中所有詞出現(xiàn)的次數(shù)的總和;去重任務(wù)是為了將value值設(shè)置為1,用來計算一篇文檔中出現(xiàn)的詞量,防止多次記錄,對結(jié)果產(chǎn)生影響;按鍵分組是將所有相同鍵的key-value對進行合并,變成(k,[v1,v2,…,vn]),再作為Reduce3任務(wù)的輸入;Reduce3任務(wù)是將key值對應(yīng)的value值相加,用來計算文檔中包含詞語wi的數(shù)量ni;最后無用、常用詞的過濾步驟是用來過濾一些不對結(jié)果產(chǎn)生影響或者影響可以忽略不計的詞項。
通過上述改進的MapReduce模型,最終得到處理之后的網(wǎng)絡(luò)數(shù)據(jù),保留每篇文檔中前10個TF-IDF值,則可以相應(yīng)地識別出主題,但是要想衡量主題所體現(xiàn)的輿情指數(shù),只依靠TF-IDF指標(biāo)是沒法完成的,可通過主題對應(yīng)的文檔數(shù)量作為輿情指標(biāo)的度量。在本文中采用基于MapReduce模型的矩陣和向量相乘的方法來進行計算,首先通過向量空間模型(VSM)形式來表示主題和文檔信息,分別對應(yīng)VSM的行和列,然后再取VSM和單位列向量的乘積即可得到主題對應(yīng)的文檔數(shù)量,但是向量的維數(shù)要根據(jù)實際的數(shù)據(jù)信息來確定。
由于是從海量的網(wǎng)絡(luò)數(shù)據(jù)經(jīng)過一系列的操作后生成VSM的相關(guān)向量,它的維度完全超出了傳統(tǒng)計算方法的范圍,由于數(shù)據(jù)量的龐大,運用傳統(tǒng)方法來處理會相當(dāng)耗時,這與輿情預(yù)警的及時特性是不符合的,因此我們采用的是采用的是基于MapReduce模型的矩陣—向量乘法。
基于MapReduce模型的矩陣—向量乘法的實現(xiàn)過程是:假設(shè)矩陣M 是m×n維,矩陣M 中元素mij是用來表示第i行、第 j列的元素,并有n維列向量V,向量V中元素vj表示第 j個元素。因此,矩陣M與列向量V的乘積可用一m維列向量X來表示,則向量X中第i個元素為
其中,對于矩陣M中元素mij,經(jīng)過Map任務(wù)輸出后的key-value對是(i,mij),再與列向量V相乘得到n個mijvj。由此可知,key值是相同的,經(jīng)MapReduce框架按key值合并后得到的結(jié)果作為Reduce任務(wù)的輸入,再經(jīng)過加法運算,將n個mijvj相加得到(i,xi)。因此,最后Reduce輸出的結(jié)果就是向量X。X就是人們所關(guān)注的網(wǎng)絡(luò)輿情事件的重點占所在范圍內(nèi)的輿情事件的比重,比重越大,則表明該事件被越多的人們關(guān)注,但是這只能了解到輿情事件被關(guān)注的熱度,但是不能知道該事件帶來的影響究竟是好的還是惡劣的,如果是惡劣的,那么政府相關(guān)部門就更需要對這些輿情事件予以關(guān)注,為了能有及時、有效的應(yīng)急措施,分析網(wǎng)絡(luò)輿情的情感傾向和強度對網(wǎng)絡(luò)輿情預(yù)警至關(guān)重要。
中文情感詞匯本體庫是大連理工大學(xué)信息檢索研究室整理和標(biāo)注的一個中文本體資源。該情感詞典可以用來作為輔助手段進行情感計算,便于對文本信息所表達(dá)的情感進行情感分析和傾向性分析。
中文情感詞匯本體的情感分類體系是基于Ekman的6大類情感分類體系構(gòu)建的。在Ekman的基礎(chǔ)上,詞匯本體對部分情感類別作了更詳細(xì)的劃分,主要是褒義情感類別加入了“好”的分類,因此在中文情感詞匯本體庫中,情感共分為7大類21小類,共含有情感詞27466個,并標(biāo)注出詞性種類、情感分類、情感強度和極性等重要屬性。
將中文情感詞匯本體庫和HowNet詞典進行組合,在去除掉不常用的、生僻的部分情感詞后,將其作為情感詞典。在現(xiàn)有的情感詞典的基礎(chǔ)上,通過詞語的極性和強弱程度兩個維度來綜合評價情感詞。在每類情感中的詞語都有一個極性。其中,0代表中性,1代表褒義,-1代表貶義。在該本體庫中,將情感詞的情感強度劃為五種,從1,3,5,7,9強度依次遞增。
在情感表達(dá)時,常常會使用否定詞來表達(dá)自己對于某事件的觀點,而否定詞由于其特殊的作用,如果不考慮則會對情感理解造成一定的偏差和影響。因此根據(jù)C-LIWC中提供的否定詞中挑選出經(jīng)常使用的31個所需使用的否定詞,如表3所示。
表3 否定詞表
上述構(gòu)建的基礎(chǔ)情感詞典包括了情感極性和情感強弱等相應(yīng)特性,這為后續(xù)的情感語句分析和判斷奠定了一定的基礎(chǔ)。
情感分析可以認(rèn)為是判斷主體對判斷客體的一種主觀評價或一種內(nèi)在喜好的傾向。情感傾向主要有兩個維度:一個是情感極性,另一個是情感強度[13]。
情感極性通常分為正向(褒義)、負(fù)向(貶義)和中性。對于新聞評論而言,是人們對某一新聞事件所持有的觀點是支持、是反對或是中立的,或者是某一事件所帶來的影響是正面的、負(fù)面或者中性的。
情感強度是指情感傾向的強弱程度,是人們對于某一事件所持觀點的情感傾向值,是對于該事件成為熱點事件、輿情事件具有一定的驅(qū)動力。通常,會使用不同強度的情感詞來體現(xiàn)自己就某一事件觀點的情感強度,因此可通過賦予情感詞不同的權(quán)值來進行情感判斷和分析。本文主要從客觀情感強度和主觀情感強度兩方面來分析[14]。
1)客觀情感強度??陀^情感主要通過情感詞來體現(xiàn)。相比較而言,新聞文本以及相關(guān)評論的篇幅都很簡短,則可以以句子為單位進行分割,將相應(yīng)的文本分割為n個句子S1、S2、S3…Sn,先將所有單句進行分詞,再與基礎(chǔ)情感詞典進行匹配,如果失敗,則判定該句話不是情感句,不能體現(xiàn)筆者的情感,因此不需要進行情感分析;如果包含情感詞,則進行句法分析。
修飾詞包含多種詞性,在本文中主要考慮的修飾詞是否定副詞和程度副詞。程度副詞是用來對句子中的情感詞的情感強度起到加強或者削弱的作用,否定詞是使情感詞和觀點詞的意思完全相反[15]。由于修飾詞會改變主觀性詞語的極性和強度,如果不考慮,很有可能會對筆者的情感傾向做出錯誤的判斷,因此需要對初步確定的情感詞的情感極性進行調(diào)整。本文中主要考慮程度副詞和否定詞的修飾。
(1)對于程度副詞的處理。將確定為情感句的分詞結(jié)果和基礎(chǔ)情感詞典中的程度副詞進行匹配,若匹配失敗,則目標(biāo)情感詞的情感強度沒有變化;若匹配成功,則根據(jù)《近代漢語:程度副詞研究》[16]中對各副詞標(biāo)注的強烈程度對目標(biāo)情感詞做出相應(yīng)的調(diào)整。在該研究中,將程度副詞按不同程度分為了4個等級,將“非常,極”等一類的詞定義為最高級,權(quán)重系數(shù)為2,“比較、稍微”等一類的詞定義為第二級,權(quán)重系數(shù)為1.5,“還、勉強”等這一類的詞定義為第三級,權(quán)重系數(shù)為0.5,而沒有程度詞修飾的目標(biāo)情感詞,默認(rèn)的程度權(quán)重系數(shù)是1,即目標(biāo)情感詞本身的情感強度值。
(2)對于否定詞的處理。將確定為情感句的分詞結(jié)果和基礎(chǔ)情感詞典中的否定詞進行匹配,若匹配失敗,則目標(biāo)情感詞的情感極性保持不變;若匹配成功,則考慮三種情況。如果在該情感句中的否定詞是用來修飾含否定的目標(biāo)情感詞,就是雙重否定,也就是對情感詞的肯定修飾,則該目標(biāo)情感詞的極性沒有變化;如果否定詞是修飾情感詞,則將該情感詞的極性反轉(zhuǎn),表示相反的意思;如果否定詞是對包含程度副詞的目標(biāo)情感詞組進行否定,則調(diào)整目標(biāo)情感詞所要表示的情感程度。
對于目標(biāo)情感句中情感詞,將初始情感值與定義級別值相乘,就可以定量表示出句子的情感值O_Si。因此,含有n條句子的文本Ti的內(nèi)部情感強度計算公式如式(5)所示。
式中η表示情感詞在文本中的影響因子,具體可用情感詞在該事件中的概率分布來表示。OSi表示情感句Si的情感強度。
2)主觀情感強度。主觀情感強度主要是指文本關(guān)注的程度,由新聞微博來說,關(guān)注程度主要是由其轉(zhuǎn)發(fā)和回復(fù)值來決定。假設(shè)同一新聞的相關(guān)微博文本是相互獨立的,則主觀情感強度的計算公式如式(6)所示:
式(6)中Tshare表示微博評論的轉(zhuǎn)發(fā)分享量,Treply表示微博評論的回復(fù)量。
3)總體情感強度。事件的總體情感強度是由客觀情感強度和主觀情感強度共同來決定,可通過式(7)來進行計算:
因此,根據(jù)最終的結(jié)果,可以得出目標(biāo)文本所體現(xiàn)的內(nèi)容的情感極性和情感強度。
本實驗主要是從新浪、百度貼吧、騰訊、網(wǎng)易四個具有代表性的網(wǎng)站,通過數(shù)據(jù)采集、數(shù)據(jù)清洗后得到的數(shù)據(jù)塊共350萬。經(jīng)過基于MapReduce的文本特征向量提取(某一個文檔基于TF-IDF指標(biāo)的主題識別如表4所示。),得到的基于VSM的矩陣M 是極其稀疏的,其中矩陣M的行為1萬,列為350萬,而且每一行包括1~10個非零元素,該非零元素mij是1,表示的是文檔 j中含有主題i。由于一篇文檔中可能會有多個主題,但在本實驗中,只提取10個特征詞的TF-IDF值,因此最多有10個主題。
表4 基于TF-IDF指標(biāo)的主題識別
矩陣M與單位列向量V通過乘積計算得到X,那么 Xi就是本實驗中所需要的第i個網(wǎng)絡(luò)主題包含的文檔數(shù)[17],則將其歸一化的結(jié)果作為主題的輿情指數(shù),因此輿情指數(shù)排在前10位的網(wǎng)絡(luò)話題就是2015年前10位的輿情熱點事件。為了使結(jié)果更加形象化,統(tǒng)一使用百分制來表示,則2015年前10位的輿情熱點事件如圖3所示。
通過與《2015年中國互聯(lián)網(wǎng)輿情分析報告》中發(fā)布的網(wǎng)絡(luò)輿情熱點事件相比,本模型中有6件網(wǎng)絡(luò)輿情熱點事件出現(xiàn)在報告中的前10位中,由此說明本模型具有良好的準(zhǔn)確性,并且本次實驗耗費的時間明顯較短,有效的提高了效率。
針對上述的10件輿情熱點事件,針對每一件熱點事件,通過數(shù)據(jù)采集軟件對上述實驗中的文檔進行采集,同時還對各大網(wǎng)站相應(yīng)的新聞事件的微博評論進行采集,然后通過中科院的ICTCLAS分詞工具進行分詞,并過濾掉無用詞和常用詞等不影響實驗計算結(jié)果的詞,依據(jù)4.3節(jié)中的情感強度計算公式進行計算,將結(jié)果歸一化后,最終得出衡量輿情熱點事件的情感強度的指數(shù),如表5所示。
圖3 2015年前10的輿情熱點事件
表5 輿情熱點事件指數(shù)
從新聞文本和微博評論來比較可以看出,評論的輿情指數(shù)基本都高于新聞文本的輿情質(zhì)素,這就說明,新聞文本的內(nèi)容主要是對事件進行客觀的陳述,當(dāng)然也會帶有筆者相應(yīng)的一些觀點和感情色彩。由于互聯(lián)網(wǎng)的發(fā)展,網(wǎng)名可以自由的發(fā)表自己的觀點,因此主觀性極強,并不一定在完全了解事件的真相后才理智的陳述,而是根據(jù)自己看到的,并加以自己的想法和價值觀來討論,感情色彩更為鮮明。
分別從新聞文本和微博評論可以看出,網(wǎng)民對于事件的判斷和看法和新聞的陳述大體上是一致的,對于輿情指數(shù)較高的事件,尤其是負(fù)面事件,地方政府應(yīng)及時地給與反饋并采取措施,以免由于負(fù)面思想的傳播從而造成嚴(yán)重的事故。
雖然在一定的事件中能有效地規(guī)避一些負(fù)面的影響,但在一些突發(fā)事件中,地方政府還是很被動,不能很好地實施應(yīng)急措施和有效的管理,政府和司法公信力亟待修復(fù)和提振。在2015年黑龍江慶安縣火車站槍擊案和天津8.12特大火災(zāi)爆炸事故中,地方政府對于這種突發(fā)而重大的輿情事件的處置和應(yīng)對遲緩而狼狽,官員的媒介素養(yǎng)仍然落后,由此說明,該模型具有一定的參考價值,從而及時避免不必要的恐慌、動亂。
大數(shù)據(jù)技術(shù)的模型比較簡單、容易擴展,是處理網(wǎng)絡(luò)輿情的有效工具。本文運用改進的MapReduce組合器模型能夠進行海量網(wǎng)絡(luò)數(shù)據(jù)的特征向量的提取,并且基于Mapreduce的矩陣-向量乘法可以快速有效的進行高維度的VSM計算,從時效性方面看,大數(shù)據(jù)技術(shù)處理海量網(wǎng)絡(luò)數(shù)據(jù)具有明顯的優(yōu)勢。而且,在此基礎(chǔ)上,對于熱點事件的主觀情感和客觀情感進行了分析,這對于政府和企業(yè)來說,能更好地掌握人們對于熱點事件的關(guān)注強度,從而制定出相應(yīng)的決策和措施,有利于社會的穩(wěn)定。在準(zhǔn)確性方面會有一定的誤差,數(shù)據(jù)采集的技術(shù)和關(guān)鍵詞的設(shè)定不夠全面,以及數(shù)據(jù)分析所使用的模型都會產(chǎn)生一定的影響,這也為以后的研究提供了方向。