竇悅琪,夏換,武帥,李岳馨
(1.貴州財經(jīng)大學(xué)信息學(xué)院,貴陽 550025;2.貴州省經(jīng)濟系統(tǒng)仿真重點實驗室,貴陽 550025;3.貴州財經(jīng)大學(xué),貴州省電子商務(wù)大數(shù)據(jù)營銷工程研究中心,貴陽 550025)
隨著互聯(lián)網(wǎng)的發(fā)展,各種各樣的網(wǎng)絡(luò)社交媒體涌現(xiàn)出來,這些社交媒體的出現(xiàn)不僅使用戶獲取信息更加便捷,同時也為用戶發(fā)表觀點、與他人溝通交流提供了平臺。用戶會對社交媒體發(fā)布的某一事件用簡短的語言表達自己的態(tài)度和情感傾向性,形成網(wǎng)絡(luò)輿論。通過對網(wǎng)絡(luò)輿論情感傾向進行分析,可以獲得公眾對某一事件的態(tài)度和主要觀點,使政府以及相關(guān)部門能夠更加準確地把握事件的焦點輿論和發(fā)展方向,從而更有效地干預(yù)和引導(dǎo)輿論。目前網(wǎng)絡(luò)輿情情感分析的研究角度主要包括:基于情感維度模型的網(wǎng)絡(luò)輿情信息分級等理論模型研究、網(wǎng)絡(luò)輿情情感詞典構(gòu)建、情感傾向性分析、用戶情感和關(guān)系網(wǎng)絡(luò)演化等技術(shù)應(yīng)用研究,還有針對熱點事件網(wǎng)絡(luò)輿情情感分析的案例研究,形成了完整的網(wǎng)絡(luò)輿情情感分析研究體系[1]。情感分析主要可以分為基于詞典的分類方法、基于機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。其中機器學(xué)習(xí)方法主要使用樸素貝葉斯和支持向量機模型,最早從事情感分析研究的Pang 等人將文本的N 元語法(N-Gram)和詞性(POS)等作為情感特征,使用有監(jiān)督的機器學(xué)習(xí)的方法將電影評論分為正向和負向兩類,結(jié)果顯示支持向量機在幾種分類方法中準確率最高,可以達到80%[2]。深度學(xué)習(xí)方法主要使用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型,例如Tai 等人[3]利用改進的樹形長短期記憶網(wǎng)絡(luò)(TreeLSTM)對電影評論進行情感分析研究,也取得了良好的效果。
雖然網(wǎng)絡(luò)輿論情感分析領(lǐng)域已經(jīng)取得了巨大成就,但是尚缺乏從文獻計量的角度對該領(lǐng)域的發(fā)展做一個簡要的概述和分析。因此,本文運用文獻計量的方法,同時利用可視化工具,整理了網(wǎng)絡(luò)輿論情感分析研究的相關(guān)文獻,并從時間、機構(gòu)、期刊、作者等多個角度分析該領(lǐng)域的發(fā)展現(xiàn)狀,總結(jié)發(fā)展趨勢,為今后的研究提供借鑒和參考。
本次研究擬在CNKI 數(shù)據(jù)庫進行相關(guān)文獻的檢索。在CNKI 中啟用高級檢索,選擇“期刊全文數(shù)據(jù)庫”,為了使檢索結(jié)果更全面,在檢索時將語義相近的“輿情”和“輿論”同時加入到檢索條件中。具體的檢索條件為:“主題=網(wǎng)絡(luò)輿情或網(wǎng)絡(luò)輿論并且主題=情感”,來源類別為全部期刊,其余條件為默認,本次研究的檢索時間為2020 年6 月10 日,共計得到相關(guān)中文文獻387 篇。為了提高分析結(jié)果的相關(guān)性與準確性,對檢索結(jié)果手動篩選、整理,最終得到有效數(shù)據(jù)256 條。
(1)文獻計量
本文主要采用文獻計量的方法對國內(nèi)網(wǎng)絡(luò)輿論情感分析研究現(xiàn)狀進行分析研究。文獻計量是指運用數(shù)學(xué)以及統(tǒng)計學(xué)方法,定量分析學(xué)術(shù)文獻的一種方法,被眾多學(xué)者廣泛的運用于學(xué)術(shù)文獻研究中。楊秀璋[4]運用文獻計量分析以及知識圖譜對水族文獻進行了計量研究,為水族文化的研究和發(fā)展提供了相關(guān)啟示。孫瑞英[5]通過文獻計量統(tǒng)計方法對國內(nèi)物聯(lián)網(wǎng)相關(guān)的核心期刊論文進行了分析,繪制了可視化圖譜來揭示出國內(nèi)物聯(lián)網(wǎng)研究的研究現(xiàn)狀,并對今后的研究趨勢做出了簡要的總結(jié)。王鵬飛[6]梳理“LDA 主題模型”提出以來的國內(nèi)研究現(xiàn)狀,總結(jié)其研究趨勢和發(fā)展情況,為進一步在情報學(xué)領(lǐng)域利用該模型進行研究提供參考和借鑒。
(2)社交網(wǎng)絡(luò)
本文擬使用社交網(wǎng)絡(luò)算法對網(wǎng)絡(luò)輿論情感分析相關(guān)文獻的作者之間的合作關(guān)系進行探究,并繪制知識圖譜將其合作關(guān)系清晰的展現(xiàn)出來。社交網(wǎng)絡(luò)算法(Social Network Algorithm)是一種可以識別強弱關(guān)系網(wǎng)絡(luò)的聚類算法,它可以運用知識圖譜的方式將彼此之間的關(guān)系進行形象化表示。節(jié)點代表對應(yīng)的關(guān)系點,邊代表節(jié)點之間的關(guān)系[4]。社交網(wǎng)絡(luò)作為發(fā)現(xiàn)核心關(guān)系的主要方法被廣泛使用,楊秀璋等人[7]利用社交網(wǎng)絡(luò)算法得出中國電影市場的演員關(guān)系圖譜。吳蕙羽[8]結(jié)合Python 技術(shù)及社交網(wǎng)絡(luò)準確的得到小說《白鹿原》中的人物關(guān)系圖。Kanamori Mariano J.等人[9]結(jié)合社交網(wǎng)絡(luò)算法分析出健康社會場所內(nèi)部之間的結(jié)構(gòu)特征和協(xié)助過程。
本文對網(wǎng)絡(luò)輿論情感分析相關(guān)文獻運用文獻計量的方法進行多角度的分析,為了使結(jié)果更加清晰明了的展現(xiàn)出來,本文采用Echart 技術(shù)將分析結(jié)果可視化。網(wǎng)絡(luò)輿論情感分析相關(guān)文獻的文獻計量分析主要包括:文獻綜合分析、發(fā)文機構(gòu)分析、來源期刊分析等。
運用Python 環(huán)境中的PyEcharts 對檢索結(jié)果數(shù)據(jù)進行可視化操作,最終生成了如圖1 所示的文獻綜合分析圖,圖中橫坐標表示發(fā)文年份,縱坐標表示不同年份的發(fā)文總量,最高下載量以及最高被引量。
圖1 國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻近年發(fā)表趨勢圖
如圖1 所示,網(wǎng)絡(luò)輿論情感分析的相關(guān)文獻發(fā)文量大致上呈遞增的趨勢,2007 年出現(xiàn)了第一篇與網(wǎng)絡(luò)輿論情感分析的相關(guān)文獻,但在此后的三年中相關(guān)文獻發(fā)文量雖然有緩慢的增長,但發(fā)文量一直保持在一個較低的水平,每年的發(fā)文量都在10 篇以內(nèi),這說明在這一階段相關(guān)研究還不夠成熟。自2014 開始,論文數(shù)量開始急劇攀升,在2018 年發(fā)文量達到了一個頂峰,文獻數(shù)量達到47 篇,此后的發(fā)文量呈較平穩(wěn)的狀態(tài),由圖中的發(fā)文量增長趨勢可以看出,對于網(wǎng)絡(luò)輿論情感分析的研究已經(jīng)由初步研究階段進入到穩(wěn)定發(fā)展階段。
下載量和被引量是衡量一篇文章影響力大小的重要指標,下載量和被引量次數(shù)越多,文章的價值越高。在檢索到的256 條相關(guān)文獻中,共被引用2405 次,共被下載165657 次,平均單篇被引9.39 次,平均單篇下載647.09 次。表1 為網(wǎng)絡(luò)輿論情感分析排名前十的高被引論文,該十篇論文平均被引68.7 次,總被引量達到687 次,占到所有網(wǎng)絡(luò)輿情情感分析文獻被引量的28.57%。其中最高被引量的文章是2010 年4 月楊超等人在《小型微型計算機系統(tǒng)》上發(fā)表的《基于情感詞典擴展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析》,這篇文章共計被引149 次。
表2 為網(wǎng)絡(luò)輿情情感分析下載量排名前十的論文,該十篇論文平均下載量達到2668 次,總下載量為26680 次,占到所有網(wǎng)絡(luò)輿情情感分析文獻下載量的16.1%,其中下載量最高的文章是陳憶金等人于2011年11 月在《圖書情報知識》期刊上發(fā)表的《網(wǎng)絡(luò)輿情信息監(jiān)測研究進展》,這篇文章共計下載4780 次。
對文獻的發(fā)文機構(gòu)進行統(tǒng)計有利于我們尋找某一領(lǐng)域的研究核心,對其進行研究并關(guān)注其發(fā)展動態(tài)能更準確的把握該領(lǐng)域地研究方向。為了更加清晰地了解國內(nèi)研究網(wǎng)絡(luò)輿論情感分析的核心機構(gòu)及其分布情況,本文對檢索到的256 篇相關(guān)文獻所屬機構(gòu)進行統(tǒng)計,結(jié)果顯示,我國對這一領(lǐng)域的研究機構(gòu)以高校為主,表3 列出了發(fā)文量最多的前五名機構(gòu),如表所示,發(fā)表相關(guān)論文數(shù)量最多的是吉林大學(xué),共計發(fā)文23篇,總引用量達184 次,總下載量達20507 次,篇均被引量及篇均下載量分別為184 次和891.61 次。篇均被引及篇均下載量最多的機構(gòu)是四川大學(xué),共發(fā)文9 篇,總引用量達到了160 次,總下載量達到了8590 次,篇均被引及篇均下載量分別達到了17.78 次和954.44 次。
對網(wǎng)絡(luò)輿論情感分析相關(guān)論文的來源期刊進行統(tǒng)計研究,不僅可以使我們更加清晰了解這一領(lǐng)域的核心期刊群,而且可以為研究者查找資料、了解此領(lǐng)域發(fā)展現(xiàn)狀提供便利。表4 列舉了發(fā)表網(wǎng)絡(luò)輿論情感分析有關(guān)論文最多的前十名期刊名稱,其中刊載相關(guān)論文量最多的是《情報雜志》,共計刊載相關(guān)論文19 篇,共計被引312 次,篇均被引16.42 次,總下載量達到17130 次,篇均下載量為901.58 次。篇均引用量和篇均下載量最多的期刊是《小型微型計算機系統(tǒng)》,該期刊共計刊載相關(guān)論文4 篇,總被引量為184 次,總下載量為3852 次,篇均被引46 次,篇均下載963 次。從表中我們可知,刊載網(wǎng)絡(luò)輿論情感分析相關(guān)論文較多的期刊主要集中在情報學(xué)、圖書情報學(xué)領(lǐng)域,并且刊載量在前十名的期刊中,有八個期刊為CSSCI 期刊,八個期刊為北大核心期刊,同時為CSSCI 和北大核心期刊的有7 個,且它們的影響因子都處于較高的水平,這說明刊載此領(lǐng)域論文的核心期刊群影響力比較大,同時也說明了這一領(lǐng)域研究價值較高。
表1 網(wǎng)絡(luò)輿論情感分析高被引論文TOP10
表2 網(wǎng)絡(luò)輿論情感分析論文高下載量TOP10
表3 重點發(fā)文機構(gòu)TOP5
為了確定國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻核心作者,本文嘗試利用普賴斯定律結(jié)合綜合指數(shù)算法加以實現(xiàn)。普賴斯定律是用來衡量各個學(xué)科領(lǐng)域文獻作者分布規(guī)律的方法,是研究科技情報學(xué)和文獻計量學(xué)的方法之一。普賴斯定律確定核心作者候選人計算公式如(1)所示:
公式(1)中Nmax表示國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻作者的最高發(fā)文量,在統(tǒng)計到的256 篇相關(guān)文獻中,發(fā)文量最多的作者是黃微(只記第一作者),共計發(fā)文5篇,即Nmax=5。經(jīng)計算,最終求得M 取整值為2。也就是說,國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻核心作者的最低發(fā)文量至少為2 篇。根據(jù)普賴斯公式計算結(jié)果,共有22位作者符合條件,結(jié)果如圖2 所示。
圖2 核心作者候選人及發(fā)文量
為進一步確定國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻核心作者,本文擬采用綜合指數(shù)算法從普賴斯定律確定的22名核心作者候選人中遴選出綜合指數(shù)得分較高的10位作為核心作者,具體步驟如下:
(1)平均發(fā)文量xˉ
平均發(fā)文量xˉ的計算公式如(2)所示,其中X總為22 位核心作者候選人的總發(fā)文量,n 是核心作者候選人總數(shù)。計算可得xˉ的值為2.41(保留兩位)即國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻核心作者平均發(fā)文量為2.41 篇。
表4 重點發(fā)文期刊TOP10
平均被引量的計算過程如公式(3)所示,其中Y總為22 位核心作者候選人所發(fā)表論文的總被引量,根據(jù)計算得到Y(jié)總為835,n 是核心作者候選人總數(shù)。計算可得的值為37.95(保留兩位)即國內(nèi)網(wǎng)絡(luò)輿論情感分析文獻核心作者所發(fā)論文的平均被引量為37.95 篇。
(3)計算綜合指數(shù)
通過對國內(nèi)網(wǎng)絡(luò)輿論情感分析相關(guān)文獻核心作者候選人進行綜合指數(shù)計算,最終遴選出得分較高的前10 位核心作者。如表所示,綜合指數(shù)最高的是來自南京理工大學(xué)經(jīng)濟管理學(xué)院的吳鵬,綜合指數(shù)為2.26,共計發(fā)文5 篇,文獻被引量共計93 次,單次被引數(shù)最多的是2015 年發(fā)表在《現(xiàn)代圖書情報技術(shù)》中的《突發(fā)事件網(wǎng)絡(luò)輿情中網(wǎng)民群體行為演化的Agent 建模與仿真研究》,這篇文章共計被引33 次,下載量為1077 次。
為了探求國內(nèi)網(wǎng)絡(luò)輿論情感分析相關(guān)文獻作者之間的合作關(guān)系。本文利用Gephi 軟件分析檢索到的256 篇文獻作者的合作關(guān)系并用知識圖譜的方式形象的將研究成果表現(xiàn)出來。如圖3 所示。圖中的節(jié)點表示每位作者,它們之間的連線表示合作關(guān)系,發(fā)文數(shù)越多的作者在圖中顯示的節(jié)點面積越大。在該圖中我們可以清晰的看到該領(lǐng)域的主要研究團隊有八個,分別是吳鵬、楊威等人的研究團隊,黃微、劉英杰、高俊峰等人的研究團隊,王晰巍、邢云菲等人的研究團隊,李勇、毛太田的研究團隊,王洪偉、朱茂然等人的研究團隊,黃衛(wèi)東、劉寧等人的研究團隊、陳憶金、曹樹金等人的研究團隊以及張海濤、王丹等人的研究團隊。同時,我們也可以看出存在很多單獨的節(jié)點以及只有一條鏈接的節(jié)點,這說明還有很多研究者處于獨自研究的狀態(tài)或者存在導(dǎo)師與指導(dǎo)的學(xué)生組成的團體完成論文的情況。
圖3 作者合作關(guān)系知識圖譜
筆者以國內(nèi)網(wǎng)絡(luò)輿論情感分析相關(guān)文獻為研究對象,從文獻計量的角度進行了文獻綜合分析、發(fā)文機構(gòu)以及來源期刊等多角度的分析,并運用綜合指數(shù)及社交網(wǎng)絡(luò)算法結(jié)合知識圖譜挖掘出該領(lǐng)域的核心作者以及作者之間的合作關(guān)系網(wǎng),較全面地剖析了國內(nèi)網(wǎng)絡(luò)輿論情感分析的研究現(xiàn)狀。經(jīng)歸納總結(jié),得出以下幾個方面的結(jié)論:
表5 國內(nèi)網(wǎng)絡(luò)輿論情感分析相關(guān)文獻核心作者
(1)從國內(nèi)網(wǎng)絡(luò)輿論情感分析相關(guān)文獻的發(fā)文數(shù)量時間分布來看,2014 年之后發(fā)文數(shù)量呈大幅度的波動上漲趨勢,預(yù)計未來幾年隨著計算機網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,這一領(lǐng)域的研究熱度將持續(xù)增溫。
(2)從發(fā)文機構(gòu)分布來看,我國網(wǎng)絡(luò)輿論情感分析研究機構(gòu)多為高校,且發(fā)文較多的機構(gòu)多為985、211或是雙一流高校,這說明高校的實力水平高低在一定程度上影響著該校對網(wǎng)絡(luò)輿論情感分析的研究,實力雄厚的高校更容易產(chǎn)生科研成果。
(3)從來源期刊分布來看,我國網(wǎng)絡(luò)輿論情感分析相關(guān)的文章主要集中在與情報學(xué)相關(guān)的期刊上,這說明這一領(lǐng)域主要是由情報學(xué)或圖書情報學(xué)的學(xué)者進行研究,其他學(xué)科的學(xué)者對這一領(lǐng)域缺乏重視。
(4)從發(fā)文作者來看,我國網(wǎng)絡(luò)輿論情感分析的研究者比較注重團隊合作研究,出現(xiàn)了幾個明顯的合作團隊,這有助于學(xué)者之間交流從而更有效的促進這一領(lǐng)域的發(fā)展。但同時我們也發(fā)現(xiàn),還有一些研究者處于“單打獨斗”的狀態(tài),本文希望這些研究者能夠更加注重團隊合作,增強持續(xù)研究能力。