劉 穎,王 哲,房 杰,2,朱婷鴿,2,李琳娜,劉繼明
1.西安郵電大學(xué)圖像與信息處理研究所,西安 710121
2.西安郵電大學(xué)電子信息現(xiàn)場勘驗應(yīng)用技術(shù)公安部重點實驗室,西安 710121
3.西安郵電大學(xué)網(wǎng)絡(luò)輿情監(jiān)測與分析中心,西安 710121
4.西安郵電大學(xué)通信與信息工程學(xué)院,西安 710121
互聯(lián)網(wǎng)時代具有開放性、多元性以及互動性等特點,這促使全民信息交流日趨便利。當(dāng)下網(wǎng)絡(luò)信息傳遞具有如下特點:(1)雙向傳播,信息發(fā)布方和接收方交流更加密切,接收方甚至可以對真假難辨的信息進行二次傳播,從而造成虛假信息爆炸式增長。(2)發(fā)布門檻走低,對于信息的發(fā)布方來說,只要注冊賬號就可以進行信息發(fā)布。一個突發(fā)的熱點問題就可能對政府和企業(yè)造成極大的損失,因而企業(yè)和政府只有對輿情事件做出合適的應(yīng)對決策,才能有效化解負(fù)面輿情。目前,針對網(wǎng)絡(luò)輿情監(jiān)測研究,主要圍繞網(wǎng)絡(luò)輿情概念、輿情演進特征、輿情信息獲取、輿情分析和預(yù)警監(jiān)測系統(tǒng)建立等方面展開。其中輿情分析是最關(guān)鍵的技術(shù)之一,而網(wǎng)絡(luò)輿情的情感分析尤為重要,其原因在于網(wǎng)絡(luò)輿情分析的主要原則是根據(jù)民眾對事件的情感態(tài)度來判斷事件的走向。
“情感分析”一詞由文獻[2]提出,但最早提出情感分析任務(wù)的是Pang 等研究者,他們將文本的主觀計算過程定義為情感分析和觀點挖掘。在線評論的情感分析需要考慮情感強度和情感極性,其主要任務(wù)是識別人們所表達的主觀態(tài)度或觀點。目前大多數(shù)研究者對單模態(tài)情感進行了分析,例如文獻[4]調(diào)查了一些基于情感分析的機器學(xué)習(xí)方法,文獻[5]考察了句子層面的情緒,文獻[6]總結(jié)了情感分析的主要任務(wù)和應(yīng)用。隨著網(wǎng)絡(luò)的多元化發(fā)展,人們不再滿足于僅僅使用文字在社交媒體上發(fā)布自己的狀態(tài),而是更青睞于文本與圖像結(jié)合的方式表達自己的情感。因此,結(jié)合文本和圖像信息進行輿情情感分析的研究變得越來越重要。
本文的重點是對網(wǎng)絡(luò)輿情的情感分析進行綜述。具體來講,本文以網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的構(gòu)建流程為主線,對基于圖文的網(wǎng)絡(luò)輿情情感分析進行了總結(jié),并對網(wǎng)絡(luò)輿情情感分析面臨的挑戰(zhàn)和未來的發(fā)展方向進行了探討。
網(wǎng)絡(luò)輿情是社會輿情在互聯(lián)網(wǎng)上反應(yīng)的一種特殊形式,是網(wǎng)民認(rèn)知、情感、態(tài)度和行為傾向的集合,更多的是民眾情感的體現(xiàn),涉及時政、環(huán)境衛(wèi)生、公共安全等廣泛領(lǐng)域。社會化媒體公眾參與度的提高促進了網(wǎng)絡(luò)輿論的發(fā)展,同時也使其傳播方式和演進方式不斷發(fā)生變化。針對熱點問題的輿情信息混雜著理性和非理性的成分,如果不能對輿情信息進行正確、及時的處理,可能會產(chǎn)生嚴(yán)重的社會后果。網(wǎng)絡(luò)輿情分析可以有效掌握公眾對熱點事件的看法,及時預(yù)測公共事件的發(fā)展趨勢,從而引導(dǎo)輿論健康發(fā)展。輿情情感分析綜合了計算機科學(xué)、社會學(xué)、數(shù)學(xué)、心理學(xué)等多個學(xué)科,通過文本、圖片或圖文融合對情感進行分類,進而分析情感趨勢,把握公眾的心理狀態(tài)。因此,通過對網(wǎng)絡(luò)輿情進行情感分析,可以有效掌握網(wǎng)民的態(tài)度、情緒和行為,從而達到疏導(dǎo)和控制網(wǎng)絡(luò)輿情事件的目的。
網(wǎng)絡(luò)輿情分析系統(tǒng)目的在于對社交媒體上的輿情進行價值和趨向判斷,在工作流程層面,其系統(tǒng)的構(gòu)成主要包括四個模塊:輿情數(shù)據(jù)的采集與處理模塊、輿情數(shù)據(jù)分析模塊、分析結(jié)果管理模塊以及輿情報告導(dǎo)出模塊。輿情數(shù)據(jù)的采集與處理模塊包括輿情數(shù)據(jù)采集和數(shù)據(jù)的預(yù)處理,其作用是記錄管理輿情信息,同時允許用戶進行信息檢索。數(shù)據(jù)分析模塊包括話題熱度計算和極性判斷,該模塊負(fù)責(zé)對收集到的輿情信息進行情感分析。分析結(jié)果管理模塊包括分析報告、輿情結(jié)果檢索以及進行趨勢分析,其作用是將輿情分析的結(jié)果量化,同時分析趨勢并將結(jié)果展現(xiàn)出來。輿情報告導(dǎo)出模塊允許用戶將可視化結(jié)果根據(jù)不同的需要格式保存到本地。其工作流程如圖1 所示。
圖1 輿情分析系統(tǒng)流程圖Fig.1 Public opinion analysis system flowchart
網(wǎng)絡(luò)輿情監(jiān)測研究最早興起于國外,文獻[8]指出早在20 世紀(jì)90 年代Allan 等就將主題檢測和跟蹤技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情的數(shù)據(jù)分析中。隨著網(wǎng)絡(luò)的不斷普及和Twitter 等社交平臺不斷興起,Hughes 等人在2009 年通過對突發(fā)事件中Twitter 用戶的態(tài)度和行為的研究,提出了Twitter 平臺如何疏導(dǎo)網(wǎng)絡(luò)輿情的方法。國內(nèi)研究相對較晚,劉英杰最早對輿情監(jiān)測系統(tǒng)構(gòu)建進行了研究,對輿情信息的情感維度在空間的特征和演化規(guī)律進行了分析。黃微等人對網(wǎng)絡(luò)輿情信息的語義識別技術(shù)進行了對比探討。這些早期的研究都對未來網(wǎng)絡(luò)輿情檢測研究奠定了基礎(chǔ)。在早期輿情情感分析研究中,主要研究的對象是文本或圖像,所采用的方法大多數(shù)是傳統(tǒng)的機器學(xué)習(xí)方法,例如貝葉斯分類、最大鄰近算法等。近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,研究者們逐漸傾向于用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本或圖像的特征以實現(xiàn)情感分析。
文本數(shù)據(jù)在新聞、網(wǎng)上評論、自媒體推文等網(wǎng)絡(luò)信息中較為常見,是目前網(wǎng)絡(luò)信息中的主要數(shù)據(jù)形式。文本數(shù)據(jù)的輿情情感分析又稱為數(shù)據(jù)挖掘,是指對帶有主觀情感色彩的文本進行情感傾向挖掘,并對其情感態(tài)度進行分類的過程。本文情感分析過程大致如圖2 所示。
常用的文本預(yù)處理策略包含分詞和詞性標(biāo)注。分詞即將一個連續(xù)的句子分割成若干獨立的詞序列,作為文本信息的特征項。常用的方法有基于詞典的分詞方法和基于統(tǒng)計的分詞方法。基于詞典的方法是將分割的字符串與情感字典中的已有詞匯進行對比。例如崔彥琛等人利用PMI-IR(point-wise mutual information-information retrieval)、SO-PMI(semantic orientation pointwise mutual information)等算法,建立了消防輿情詞典,其中包括通用詞典、消防領(lǐng)域情感詞典和網(wǎng)絡(luò)語言情感詞典,并證明了其高效性、準(zhǔn)確性以及在消防領(lǐng)域的適用性和專業(yè)性。該方法的優(yōu)點是處理簡單,效率高,其不足之處則在于太過依賴于詞典的規(guī)模與判別規(guī)則。在網(wǎng)絡(luò)輿情中,詞語的更新速度快,詞典分詞法很難滿足要求。因此,基于統(tǒng)計分詞的方法得到了較為廣泛的應(yīng)用,其中最經(jīng)典的模型為-gram。該模型的原理是給定一個句子,gram 就可以計算出一個概率值。通過列舉出所有可能的分詞方式,再根據(jù)所有可能的分詞方式分別計算該句子的概率,選擇使句子概率最大的分詞方式作為最終分詞結(jié)果。詞性標(biāo)注指在分詞的基礎(chǔ)上,根據(jù)上下文條件對每個詞進行詞性判斷并添加標(biāo)簽的過程。例如文獻[14]通過對關(guān)鍵詞進行情感標(biāo)注實現(xiàn)對文本數(shù)據(jù)的預(yù)處理,實驗效果大大提升。
文本表示與特征提取是情感分析中最為關(guān)鍵的一步。輿情信息的情感識別,最重要的就是提取出文本中的非結(jié)構(gòu)化信息,從而判斷情感傾向。因此,良好的文本表示模型對于提高情感識別效果至關(guān)重要。目前文本表示模型以及優(yōu)缺點如表1 所示。
傳統(tǒng)上,BoW(bag-of-words)模型已用于提取自然語言處理(natural language processing,NLP)和文本挖掘中句子和文檔的特征。BoW 模型將文檔轉(zhuǎn)換為具有固定長度的數(shù)字特征向量,并對向量中的每個元素進行評分。盡管BoW 受歡迎,但其仍有一些缺點。首先,該向量的維度等于詞匯表的大小,因此隨著詞匯表大小的增加,文檔的向量表示也增加。其次,由于忽略了單詞順序,BoW 模型幾乎不能對單詞的語義進行編碼。第三,每個文檔可以在詞匯表中包含非常少量的已知單詞,導(dǎo)致具有大量零分?jǐn)?shù)的向量,稱為稀疏向量或稀疏表示。
圖2 文本情感分析流程Fig.2 Text sentiment analysis process
表1 文本表示模型及其優(yōu)缺點Table 1 Text representation model and its advantages and disadvantages
針對此問題,引入了一個更復(fù)雜的模型bag-of-grams 的分組詞匯表,這是BoW 模型的擴展,改變了詞匯的范圍,并允許一袋單詞從文檔中獲取更多的意義。該模型可以在短上下文中考慮單詞順序,但它仍然存在數(shù)據(jù)稀疏性和高維度的問題。
為了克服BoW 模型和-grams 模型的缺點,提出了詞嵌入的技術(shù)。單詞嵌入使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本的表示,使得具有相同含義的單詞具有相似的表示。單詞嵌入將詞匯表中的單詞轉(zhuǎn)換為連續(xù)實數(shù)的向量。該技術(shù)通常涉及將高維稀疏向量嵌入到可以編碼單詞的一些語義和句法屬性的低維密集向量中。嵌入向量的每個維度表示單詞的潛在特征。目前,文本特征提取的最新趨勢集中在Glove(global vectors)或word2vec等大型語料庫上預(yù)先訓(xùn)練的單詞嵌入。
(1)基于傳統(tǒng)方法
傳統(tǒng)的情感分析方法主要基于情感詞典或機器學(xué)習(xí),并使用分類、回歸等方法實現(xiàn)特征提取和分類。基于詞典的方法依賴于情感詞典,情感詞典是包含情感極性信息的單詞或短語的列表。2016 年,Saif 等人提出了SentiCircles 模型,通過考慮不同語境下單詞的共現(xiàn)模式來捕捉語義,并更新預(yù)先分配的語義情感詞匯強度和極性,從而獲取更合適的情感詞典。該模型在Twitter 文本上的表現(xiàn)比SentiStrength模型更具競爭性。然而,在分析實時Web 平臺生成的評論文本時,其無法及時更新情感詞典,從而導(dǎo)致對新詞情感的識別難度的增加。因此僅使用基于詞典的方法,冗長的分析過程和有限的準(zhǔn)確度將限制該技術(shù)在本領(lǐng)域的應(yīng)用。
機器學(xué)習(xí)方法可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),在數(shù)據(jù)量足夠、數(shù)據(jù)類型多樣的情況下,該方法與基于詞典的方法相比,能夠有效避免上述問題。李婷婷等人改進了支持向量機方法和條件隨機場方法,結(jié)合多種特征組合,彌補了傳統(tǒng)機器學(xué)習(xí)方法中特征提取的不足。然而基于傳統(tǒng)的情感分析方法存在數(shù)據(jù)稀疏問題和字序問題,且需要大量標(biāo)記的文本。
(2)基于深度學(xué)習(xí)方法
深度學(xué)習(xí)可以避免繁瑣的特征選擇過程,自動抽象特征,學(xué)習(xí)相應(yīng)的參數(shù),并捕獲復(fù)雜的特征?;谏疃葘W(xué)習(xí)的方法在輸入層和輸出層之間嵌入隱藏層,以模擬其他算法無法學(xué)習(xí)的數(shù)據(jù)中間表示。該機制可以有效地從高維數(shù)據(jù)中學(xué)習(xí)更深層次的信息。
對于情感分類問題,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)由于結(jié)構(gòu)簡單,訓(xùn)練效率高,廣泛用于文本情感分類。Stojanovski等人使用CNN提取消息文本的特征,并融合不同的分類算法對新聞相關(guān)的Twitter 消息進行情感分析,以提供公眾對某些事件的反應(yīng)見解。然而單純的CNN 模型在訓(xùn)練過程中放棄了上下文之間的關(guān)系,因此無法很好地解決時序問題,也無法準(zhǔn)確分析過渡句子等數(shù)據(jù)。Sun等人使用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with CNN features,RCNN)來保留句子的時間關(guān)系,從而捕獲單詞之間更多的語義關(guān)系。因此,他們解決了在處理基于方面的情感分析任務(wù)時,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型在句子之間的連接較少并且單詞之間的語義信息較少的問題,在基于方面的情感分析中,具有良好的適應(yīng)性。Chen等人提出了一種稱為雙通道卷積神經(jīng)網(wǎng)絡(luò)的字符嵌入情感分析方法(character embedding with dual-channel convolutional neural network,char-DCCNN)。該方法將中文語料庫劃分為單個中文,然后將它們訓(xùn)練成字符向量,依次將表示文本的向量矩陣輸入到雙通道CNN 中,通過少量標(biāo)記數(shù)據(jù)和少量迭代獲得良好的分類性能。實驗表明,該方法改善了微博中短評論的情感類別結(jié)果,然而字符嵌入增加了文本的分布式表示的復(fù)雜性和計算成本。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)能夠循環(huán)保持信息(即使用以前的信息連接到當(dāng)前的任務(wù),并用過去的文本猜測當(dāng)前的文本)。然而,RNN 有一個明顯的長期依賴性問題:當(dāng)歷史文本太長時,文本的有效信息無法保存。鑒于此,裴頌文等人提出了一種特殊的RNN 結(jié)構(gòu)LSTM(long shortterm memory),該模型可以充分利用目標(biāo)情緒詞和句子中情緒極性詞之間的關(guān)系。受到該模型的啟發(fā),Xing 等人提出了一種用于情感分析的方面感知LSTM(aspect-aware LSTM,AALSTM),它在上下文建模階段將方面信息整合到LSTM 單元中。該方法在給定方面保留有效信息,同時過濾掉給定方面的無用信息,并且其最終的情緒表示更有效。
羅帆等人將RNN 與CNN 相結(jié)合,提出了一種分層神經(jīng)網(wǎng)絡(luò)(hierarchical RNN-CNN,H-RNN-CNN)作為表示情感分析文本的通用模型。為防止信息可能在長文本中丟失,使用CNN 來捕捉句子之間的關(guān)系。Rehman 等人提出了LSTM 和深層CNN 的混合模型用于情感分析。與基于CNN 的方法或基于LSTM 的方法相比,該模型具有更高的準(zhǔn)確性,然而其更適合具有更多參數(shù)的小數(shù)據(jù)集。Liu 等人提出了一種混合模型,在CNN的基礎(chǔ)上,通過BiLSTM(bidirectional long short-term memory)提取與文本上下文相關(guān)的全局特征,并融合兩個互補模型提取的特征。
社交媒體中,人們常常在發(fā)布動態(tài)、觀點等信息的同時會為其配上圖像。其原因在于圖像不僅可以在情感方面影響其他人,而且也能夠直接或間接地表達發(fā)布人的態(tài)度和情感?!耙曈X情感分析”的主要目的有兩點:一是模擬并檢測個人可觀察表達的情緒;二是檢測視覺媒體所發(fā)布的圖像表達其作者或在觀察者中喚起的情緒。雖然前者從個人(或群體)中提取面部表情或身體姿態(tài)從而判斷情感的研究較為成熟,然而后者對于社交媒體中非語言情感表達的基于視覺的情感分析領(lǐng)域研究還是一個較新的領(lǐng)域。在視覺情感分析中,“情感”表現(xiàn)為人們與視覺元素互動的結(jié)果。鑒于情感總是朝向?qū)ο蠡驅(qū)嶓w,視覺情感同樣被定義為視覺內(nèi)容中存在的對象、場景或事件。例如,一張展示美味食物的圖像可能表達了積極情緒;通過體驗這些圖像,觀眾可能會引發(fā)積極情緒。當(dāng)這些情感體驗被提煉成一組語義標(biāo)簽時,可以構(gòu)建計算機視覺問題,以從低級視覺多媒體(即原始像素、運動等)學(xué)習(xí)功能映射,到分類,本地化和匯總?cè)蝿?wù)中的高級情感標(biāo)簽。一般情況下,對于一個圖片的情感識別需要由圖像預(yù)處理、特征提取、分類器識別三部分組成,其流程如圖3 所示。
其中圖像預(yù)處理是為了減小圖像中干擾識別效果的信息,目前常用的預(yù)處理操作包括對象檢測技術(shù)、單圖像超分辨率技術(shù)、圖像增強技術(shù)(如縮放、旋轉(zhuǎn)和平移)。特征提取的目的是提取圖片中與情感相關(guān)且區(qū)分能力強的特征,是情感識別中最為關(guān)鍵的一步。圖像特征一般分為淺層特征、中層特征和深層特征。分類器的識別則是按照特征提取的結(jié)果進行分類。
計算機圖像分析算法的起點在于特征的選取。特征是一個數(shù)字圖像中“可重復(fù)性”的重要部分,算法的成功通常取決于其所使用和定義的特征的合適性?,F(xiàn)有的圖像特征一般分為淺層特征、中層特征和深層特征。淺層特征主要指顏色、形狀、線條等特征,中層特征一般指圖像中存在的對象、目標(biāo)等特征,而深層特征則是指行為、場景和情感等語義相關(guān)特征。傳統(tǒng)的關(guān)于視覺內(nèi)容情感語義分析研究大多數(shù)是直接建立低級視覺特征和情感語義之間的映射關(guān)系,然而,由于社交媒體中的視覺情感語義是由認(rèn)知語義間接驅(qū)動的,該方法不適用于社交媒體中視覺內(nèi)容的情感分析。此外,社交媒體中的視覺內(nèi)容也可以自由分享,多樣化的數(shù)據(jù)與其情感取向之間的關(guān)系極其復(fù)雜,語義鴻溝問題十分嚴(yán)重。
圖3 圖像情感識別流程圖Fig.3 Image sentiment recognition flowchart
為了填補這一語義空白,研究者們努力利用中層表征作為視覺底層特征和情感取向之間的橋梁。近年來,由于深度學(xué)習(xí)在計算機視覺領(lǐng)域取得了巨大成功,研究者們開始將深度學(xué)習(xí)技術(shù)應(yīng)用于視覺內(nèi)容的情感分析和觀點挖掘。因此,現(xiàn)有的社交媒體視覺內(nèi)容特征提取可以分為基于中層表征的方法和基于深度學(xué)習(xí)的方法。
現(xiàn)有的基于中層表征的方法主要利用視覺底層特征形成中層情感本體進行概念檢測,而忽略了本體概念之間的區(qū)別和聯(lián)系。Yuan 等人定義了一個通過提取場景描述符的底層特征,并利用四個特征對分類器進行Liblinear 訓(xùn)練,生成102 個預(yù)定義的中層屬性,然后利用這些屬性預(yù)測情感。與直接使用視覺底層特征的方法相比,該方法使得情感預(yù)測結(jié)果更具解釋性。Borth 等人提出了另一個具有代表性的中層表示框架,如圖4 所示。
他們使用形容詞-名詞對(adjective noun pairs,ANP)構(gòu)建了一個大規(guī)模的視覺情感本體(visual sentiment ontology,VSO),作為視覺情感分析的中層描述符。他們還提出了一套名為SentiBank的ANP概念檢測器,用于檢測視覺內(nèi)容中1 200 個ANP。ANP 的響應(yīng)可以作為視覺情感預(yù)測的中間層特征。視覺內(nèi)容的情感信息主要由圖像中的對象來傳達。因此,Chen 等人提出了一種基于VSO 和SentiBank 的視覺情感概念分析方法。他們首先定位視覺內(nèi)容的對象,然后用形容詞來描述相關(guān)屬性,將ANP 檢測問題分解為目標(biāo)定位和概念建模。該方法將情感語義分析與目標(biāo)檢測相結(jié)合,為視覺情感分析提供了一個新的視角。然而,結(jié)果表明,該方法在提高情感分類性能的同時,增加了計算復(fù)雜度。為了解決基于VSO的模型中ANP 與視覺內(nèi)容的情感取向相關(guān)性的問題,Cao 等人提出了一種用于視覺情感分析的視覺情感主題模型(visual sentiment topic model,VSTM)。VSTM 的主要優(yōu)點是包含了對視覺內(nèi)容主題的宏觀描述?,F(xiàn)有的基于VSO 和SentiBank 的應(yīng)用程序?qū)NP 概念的響應(yīng)作為中間層特征,忽略了這些ANP概念的情感信息。為解決此問題,Li等人提出了一種充分利用ANP 文本情感信息的方法。他們根據(jù)ANP 的文本情感值和圖像中相應(yīng)的響應(yīng)來計算圖像的整體情感值,然后將圖像情感值作為一維特征進行圖像情感預(yù)測。實驗結(jié)果表明,利用文本情感分析提高圖像情感分析的性能是可行的。
深度學(xué)習(xí)采用多層模型將底層特征轉(zhuǎn)化為抽象的特征空間,與人工特征相比,可以更好地描述輸入數(shù)據(jù)的內(nèi)在信息。更重要的是,社交媒體中大量的視覺數(shù)據(jù)可以為深度學(xué)習(xí)提供足夠的訓(xùn)練樣本?,F(xiàn)有的基于深度學(xué)習(xí)的視覺情感分析方法可以分為兩類:端到端模式和管道模式。
端到端方法嘗試使用諸如卷積神經(jīng)網(wǎng)絡(luò)(CNN)之類的深度模型來建立圖像像素和視覺情感取向之間的映射。在端到端的方法中,文獻[42]提出了兩個條件概率神經(jīng)網(wǎng)絡(luò)(conditional probability neural network,CPNN),稱為二進制CPNN(BCPNN)和增廣CPNN(ACPNN),其目的是預(yù)測一組已考慮的標(biāo)簽上的概率分布。文獻[43]改變了預(yù)先訓(xùn)練的CNN 對象分類的最后一層的維數(shù),以提取所考慮的情緒標(biāo)簽的概率分布,將原有的損失層替換為分類損失和情感分布損失通過加權(quán)組合集成的函數(shù),然后對修改后的CNN 進行微調(diào),以預(yù)測情緒分布。文獻[44]訓(xùn)練了一個CNN 進行情緒分析,然后實證地研究了每個層的貢獻,使用每一層的激活來訓(xùn)練不同的線性分類器。同時,還研究了權(quán)值初始化對微調(diào)的影響,通過改變輸出域,根據(jù)實驗結(jié)果和觀察結(jié)果提出了一種改進的CNN 架構(gòu)。
圖4 中層語義情感分析流程Fig.4 Middle-level semantic sentiment analysis process
基于管道模式的視覺情感分析中,研究者首先利用深度學(xué)習(xí)模型建立視覺內(nèi)容到認(rèn)知語義的映射關(guān)系,然后基于認(rèn)知語義預(yù)測視覺內(nèi)容的情感取向。一般來說,基于管道模式的深度學(xué)習(xí)方法更易于理解,因為它們模擬了人類的視覺感知。然而,概念(或事件)檢測性能是影響這些方法性能的關(guān)鍵因素。例如,Chen 等升級了文獻[37]中提出的SentiBank。他們使用深度卷積神經(jīng)網(wǎng)絡(luò)來檢測圖像中存在的本體概念。文獻[40]通過提取一組描述圖像的ANP 來表示圖像的情感。然后,以相應(yīng)的ANP 響應(yīng)作為權(quán)重,計算提取出的文本情感值的加權(quán)和。利用從圖像中提取的ANP 組成文本的情感,而不是只考慮在SentiBank中定義的ANP 響應(yīng)作為中層表示,最后使用邏輯回歸器來推斷情感傾向。在最先進的方法中,與用戶的社交圖像相關(guān)的文本噪聲問題是非常普遍的。Ahsan 等人提出了一種基于管道模式的深度學(xué)習(xí)方案來分析社會事件圖像的視覺情感。他們首先生成一系列社會事件概念,并利用CNN 架構(gòu)計算出相應(yīng)的概念得分,然后根據(jù)這些概念得分預(yù)測社會事件圖像的情感取向。
所有這些視覺情感分析方面的工作都表明了更高精度技術(shù)的潛力,然而情緒的多面性表明單獨的視覺情感分析將無法在多媒體數(shù)據(jù)中充分衡量或描述人們的體驗傾向和意見。
近年來,在情感分析領(lǐng)域出現(xiàn)了許多新的觀點,特別是在視覺情感分析方面。例如,在人工智能領(lǐng)域取得巨大成功的深度學(xué)習(xí),已經(jīng)開始應(yīng)用于不同類型社交媒體數(shù)據(jù)的情感分析。當(dāng)前,研究者們主要致力于社交媒體文本的情感提取。然而單一模態(tài)的輿情情感分析有很多不足,其信息很容易受到其他因素的干擾,從而造成情感分析效果不理想。圖片包含著太多的個人主觀性,不利于情感判斷,圖5形象化展示了單模態(tài)的不足。目前,在輿情信息中,圖片是除文本信息以外用戶使用最為廣泛的數(shù)據(jù),因此圖文融合的輿情情感分析成為當(dāng)前的熱點。
圖5 單模態(tài)情感分析的不足Fig.5 Shortcomings of monomodal sentiment analysis
基于圖文的輿情情感分析是多模態(tài)情感分析的一部分,目前仍處于起步階段。文獻[48]采用了圖文融合的情感分析方法,該算法證明了圖像特征與文本特征的互補關(guān)系。其實驗結(jié)果表明,相較于單模態(tài)的實驗結(jié)果,基于圖文的情感分析具有更好的效果。進行圖文融合情感分析,最重要的一步是提取文本特征和圖片特征,隨后根據(jù)圖文的融合策略判斷情感類型。圖文融合輿情情感分析的一般過程如圖6所示。
圖6 圖文融合情感分析過程Fig.6 Image and text fusion sentiment analysis process
圖文融合策略主要是關(guān)于圖文信息的融合和圖文相關(guān)性的融合,包括特征層融合、決策層融合和一致性回歸融合,具體如圖7 所示。
圖7 圖文融合策略分類Fig.7 Image and text fusion strategy classification
基于特征層融合的過程是在特征層上對情感信息進行處理,使其融合特征具有兩個模態(tài)的信息。首先分別提取文本和圖像的情感特征,接著將提取到的特征通過直接或加權(quán)連接的方式結(jié)合在一起而形成融合情感特征,最后輸入到分類器中進行輿情情感分類。特征層融合流程如圖8 所示。
圖8 特征層融合過程Fig.8 Feature layer fusion process
(1)基于傳統(tǒng)技術(shù)的情感分析
文獻[50]提出了一種跨媒體詞袋模型。對于多模態(tài)圖文分析,通過使用詞袋模型賦予文本和圖像統(tǒng)一的表示形式,從而形成消息的特征向量。在此基礎(chǔ)上,應(yīng)用Logistic回歸進行情感預(yù)測。文獻[51]基于NN(-nearest neighbor)和Minkowski距離融合了文本和圖像特征,使用Bi-gram 模型進行特征提取,其提取文本特征的同時提取圖像的顏色和紋理信息,并提出了一種新的基于相似度的鄰域分類器。其主要思想為選擇有價值的特征,并處理這些消息上的情感極性分類(二分類)。具體過程為:首先計算一個測試集中的帖子和另一個訓(xùn)練集中的帖子的文本和圖像的余弦相似度。然后構(gòu)建一個二維空間,其中兩個軸分別代表文本和圖像,一個點由文本和圖像的余弦相似度組成。最后將該點與(1,1)之間的距離視為最終的相似度(即距離越小,這兩個帖子越相似),并基于NN 獲得該帖子的分類結(jié)果。
(2)基于深度學(xué)習(xí)的情感分析
文獻[52]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多媒體情感分析方法,其主要針對圖像中文本和視覺信息的情感預(yù)測問題。該框架的總體架構(gòu)由三個組件組成:文本CNN、圖像CNN 和多CNN。通過兩個獨立的CNN 學(xué)習(xí)文本特征和視覺特征,其特征的聯(lián)合表示作為另一個CNN 的輸入以獲取兩種表示。以此為基礎(chǔ)使用Logistic 回歸作為分類器進行分類。文獻[53]提出了一種多模態(tài)情感分析框架,解決了圖像局部的高維語義信息問題。對于圖像特征的提取,采用了圖像描述的方法,并在圖像描述模型中采用了目標(biāo)檢測與多示例學(xué)習(xí)對作為輔助,提取精細化的圖像特征。將CNN 編碼的圖像作為雙向網(wǎng)格LSTM 的輸入,采用多示例學(xué)習(xí)(multiple instance learning,MIL)方法和目標(biāo)檢測方法(single shot multibox detector,SSD)分別提取圖像全局特征和圖像中所有獨立物體所在的矩形框。通過注意力模型(attention model)綜合了LSTM 的輸出與SSD 提取出的兩方面信息。對于文本特征,使用多層卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行文本特征提取,最后的文本特征經(jīng)過softmax 全連接層輸出。特征融合階段,為了圖像特征與文本特征的統(tǒng)一,首先使用單層的一維卷積對圖像特征進行編碼,然后把編碼后的圖像特征與文本特征融合,并經(jīng)過softmax輸出進行情感預(yù)測。文獻[54]提出了一種圖文融合的微博情感分析方法。該方法首先經(jīng)過參數(shù)遷移和微調(diào)的方法構(gòu)建圖片情感分類模型FCNN(fine-tuned CNN),得到圖片的情感極性概率;然后通過詞嵌入技術(shù)以及雙向網(wǎng)絡(luò)構(gòu)建文字情感分類模型WBLSTM(word-embedding bidirectional LSTM),得到文字的情感極性概率;最后根據(jù)late fusion 融合思想對圖片情感極性概率和文本情感極性概率進行融合,從而對圖文微博的情感極性進行預(yù)測。文獻[55]提出了一種共記憶網(wǎng)絡(luò)模型進行多模態(tài)情感分析,其關(guān)鍵是對圖像和文本的雙向交互進行建模。首先分別使用一個視覺記憶網(wǎng)絡(luò)和文本記憶網(wǎng)絡(luò)提取特征表示,并引入注意力機制聚集關(guān)鍵內(nèi)容。然后通過共同記憶網(wǎng)絡(luò)通過迭代將圖像特征輸入到文本記憶網(wǎng)絡(luò)中查詢關(guān)鍵字,將文本特征輸入到視覺記憶網(wǎng)絡(luò)中查詢圖像的關(guān)鍵內(nèi)容,并將圖像和文本的最終特征表示向量結(jié)合起來,最終通過softmax 進行情感分類。文獻[56]提出了一種視覺方面注意網(wǎng)絡(luò)(visual aspect attention network,VistaNet),其關(guān)鍵在于將視覺信息建模為注意力,而不是特征。VistaNet 框架是一個三層體系結(jié)構(gòu),底層為單詞編碼層,通過軟注意力機制將每個詞語賦予一個在句子表征中的“重要性”相對應(yīng)的權(quán)重。中間層為句子編碼層,從底層聚合句子級表示,使用視覺方面注意將其聚合為文檔級表示,同時利用視覺信息來增強注意機制。頂層為文檔指定情感標(biāo)簽的分類層,獲得文檔的高級表示之后,利用softmax 進行情感分析。
決策層融合首先分別提取文本和圖像的情感特征,并將提取的每個模態(tài)特征分別輸入各自的分類器中進行情感分類,最后根據(jù)兩個模態(tài)的分類結(jié)果選擇合適的融合規(guī)則進行融合和決策。決策層融合流程如圖9 所示。
圖9 決策層融合過程Fig.9 Decision layer fusion process
(1)基于傳統(tǒng)方法的情感分析
文獻[57]提出了一種基于轉(zhuǎn)移變量的圖文融合微博情感分析方法。首先基于主題情感統(tǒng)一模型構(gòu)建USAMTV(unsupervised sentiment analysis model based on transition variable)模型(基于轉(zhuǎn)移變量的無監(jiān)督情感分析模型),該模型通過添加轉(zhuǎn)發(fā)主題轉(zhuǎn)移變量和連詞情感轉(zhuǎn)移變量分別處理句子主題從屬關(guān)系和情感從屬關(guān)系,從而提取文本特征。對于圖片特征,根據(jù)文獻[58]中的視覺語義特征提取方法來進行圖片情感分析,并且將其特征以情感濃度指標(biāo)的方式來影響微博的整體情感傾向,最后整體進行微博的情感分析。
(2)基于深度學(xué)習(xí)的情感分析
文獻[59]提出了一種深度多模態(tài)注意融合(deep multimodal attentive fusion,DMAF)模型,該模型利用了視覺和語義內(nèi)容之間的區(qū)別特征和內(nèi)在關(guān)聯(lián)。首先,提出了兩個獨立的單峰注意模型(視覺注意力模型和語義注意力模型),分別學(xué)習(xí)圖像和文本中最具辨別力的特征和情感分類。在此基礎(chǔ)上,提出了一種基于深度中間融合的多模態(tài)注意模型,通過利用不同模式下的互補信息和非冗余信息,將兩個單獨的注意模型結(jié)合起來,挖掘不同模式特征之間的相關(guān)性,進而進行多模態(tài)情感分析。最后,通過后期融合方案對多模態(tài)情感進行分類。
文獻[60]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博視覺和文本情感分析,其核心為基于CNN的模型學(xué)習(xí)信息文本和相關(guān)圖像的更高層次的表示。在文本特征提取方面,采用預(yù)先訓(xùn)練的單詞向量訓(xùn)練文本DNN(deep convolutional neural network)模型,提取文本特征。圖像特征提取方面,通過DropConnect來減少過度擬合來訓(xùn)練模型,提取視覺特征。最后,使用后期融合來分析模型的性能,并且使用Logistic回歸進行情感預(yù)測。同樣是基于卷積神經(jīng)網(wǎng)絡(luò),文獻[48]試圖通過探索圖文情感特征之間的內(nèi)部聯(lián)系和互補作用,增強圖文微博的情感傾向性預(yù)測的準(zhǔn)確性。詞向量形式的文本和圖像分別經(jīng)過基于CNN的情感分析模型得到對應(yīng)的文本特征和圖像特征,把兩種特征分別經(jīng)過三個基于CNN 的模型(wordlevel CNN、phrase-leval CNN 和sentence-level CNN)的訓(xùn)練得到詞語級、短語級和句子級的圖文特征并向量化后輸入分類器WdCla、PhCla 和StCla,得到三種語義級別的圖文情感分類結(jié)果。在此基礎(chǔ)上構(gòu)造一個集成分類器EnsCla 進行決策融合,得到最終的圖文微博的情感極性。
特征層融合和決策層融合的方法都忽視了文本和圖像特征之間的一致性關(guān)系,但是跨模態(tài)一致性回歸模型則很好地解決了這個問題。其主要思想為同一事物通過不同模態(tài)的表示所表達的情感是一致的,因此主要是對兩種模態(tài)之間的相關(guān)性進行學(xué)習(xí)融合。首先分別提取文本和圖像的情感特征,然后將提取的兩個模態(tài)特征輸入回歸模型中,通過相關(guān)性學(xué)習(xí)算法學(xué)習(xí)相關(guān)性權(quán)重并進行輿情情感分析。一致性回歸模型流程圖如圖10 所示。
圖10 一致性回歸模型Fig.10 Consistency regression model
文獻[61]提出了一種跨模態(tài)一致性回歸(crossmodality consistent regression,CCR)模型,用于視覺和文本情感分析。其主要思想是對相關(guān)但不同的模態(tài)特征加以一致性的約束。在視覺特征提取方面,采用類似于文獻[62]的卷積神經(jīng)網(wǎng)絡(luò)進行視覺情感分析,在文本特征提取方面,采用最新的分布式文檔表示進行文本情感分析。最后,通過視覺和文字的特征,訓(xùn)練出一種跨模式一致的回歸模型,模型在相關(guān)但不同的模態(tài)之間施加一致的約束,通過集成不同的模態(tài)特征進行情感分析。文獻[64]提出了一個弱監(jiān)督的多模式深度學(xué)習(xí)(weakly supervised multimodal deep learning,WS-MDL)模型,該模型在統(tǒng)一的框架中解決了目前多模態(tài)融合的兩個問題,即挖掘跨多個模態(tài)的相關(guān)性,以實現(xiàn)模態(tài)獨立和人工標(biāo)注的負(fù)擔(dān)和主觀性,目前還沒有一個大規(guī)模的多模態(tài)情感數(shù)據(jù)集具有精確的人工標(biāo)注。特別的是將來自社交媒體用戶貢獻的表情通道的情感作為弱標(biāo)簽來初始化模型學(xué)習(xí),并使用CNN 和動態(tài)CNN 從圖像和文本模態(tài)中獲取傾斜的聯(lián)合特征。同時,為了訓(xùn)練多模態(tài)情感分類器,提出了一種多模態(tài)卷積神經(jīng)網(wǎng)絡(luò),它從不同的模式中學(xué)習(xí)有區(qū)別的聯(lián)合特征表示。為了推斷標(biāo)簽噪聲,引入了一種弱監(jiān)督學(xué)習(xí)范式,通過概率圖形模型描述了不同模式下預(yù)測標(biāo)簽之間的相關(guān)性。實驗結(jié)果顯示,該方案在情感預(yù)測方面具有較好的效果。
基于超圖的方法除了能夠反映高階信息外,還可以利用大量的未標(biāo)記數(shù)據(jù)集,采用傳遞學(xué)習(xí)的方式。鑒于此,文獻[69]提出了一種名為Bi-MHG(bi-layer multimodal hypergraph learning)的雙層多模態(tài)超圖學(xué)習(xí)方法。該方法包括兩個超圖層,即tweet級超圖和特征級超圖,其目標(biāo)是捕捉異質(zhì)模態(tài)之間的噪聲相關(guān)性,以及允許模型接收缺失模態(tài)作為輸入。用一種新的交替優(yōu)化方法進行雙層超圖學(xué)習(xí)。最后,根據(jù)測試微博的相關(guān)度得分得到測試微博的情感極性。
現(xiàn)有的多模態(tài)情感分析方法大多只考慮數(shù)據(jù)內(nèi)容,這些方法很難有效地捕捉視覺和文本表示之間的非線性關(guān)系,忽略了社會圖像之間的聯(lián)系信息。針對這些問題,文獻[74]提出了一種層次深度融合(hierarchical deep fusion,HDF)模型,該模型能夠探索圖像、文本及其社會聯(lián)系之間的跨模態(tài)相關(guān)性,學(xué)習(xí)全面的互補特征,從而進行更有效的情感分析。HDF 模型結(jié)構(gòu)如圖11 所示。
首先,通過三個層次化LSTM(H-LSTM)網(wǎng)絡(luò)將視覺內(nèi)容和文本內(nèi)容結(jié)合起來,并學(xué)習(xí)圖像和文本在三個層次上的相關(guān)性。然后,將社會圖像中的多種類型的鏈接轉(zhuǎn)化為一個加權(quán)關(guān)系網(wǎng)絡(luò),通過DeepWalk進行網(wǎng)絡(luò)嵌入。最后,將聯(lián)合圖像-文本表示和節(jié)點嵌入視為輸入到多層感知器(multi-layer perceptron,MLP)的兩個視圖,該多層感知器探索非線性交叉模態(tài)相關(guān)性,捕獲互補信息以進行多模態(tài)情感預(yù)測。
圖11 HDF 模型Fig.11 HDF model
文獻[76]提出了一種用于多模態(tài)情感分析的深層語義網(wǎng)絡(luò)MultiSentiNet,從圖像中提取包括對象和場景在內(nèi)的深層語義特征作為情感分類的附加信息。具體地,該模型將文本、對象和場景的三重特征定義為多模態(tài)tweet 的表示,并將其作為多模態(tài)情感分析任務(wù)的附加信息。模型結(jié)構(gòu)如圖12 所示。
圖12 MultiSentiNet模型Fig.12 MultiSentiNet model
在視覺方面,選擇VGG模型作為視覺目標(biāo)提取的目標(biāo)檢測器,同時使用最先進的場景VGG 模型作為場景檢測器進行場景特征提取。為了更好地理解文本,采用LSTM 模型進行文本特征提取,同時提出了視覺特征引導(dǎo)的注意機制來提取對情感有重要影響的詞語,并將這些信息性詞語的表征與視覺語義特征、對象和場景進行聚合。最后利用高級的三重特性:對象、場景和文本來表示多模態(tài)tweet。首先使用融合層來聚合這些三重特征,以獲得最終的多模態(tài)表示,然后在頂部添加一個softmax 分類器進行情感分類,最后提出一個視覺特征引導(dǎo)的注意LSTM 模型來提取對整個tweet 的情感有重要影響的詞,并將這些詞的表達與視覺語義特征、對象和場景進行聚合。
圖13 層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)Fig.13 Hierarchical and deeply interlinked integration network
文獻[79]提出了一種基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)的多媒體數(shù)據(jù)情感分類模型,該模型能同時兼顧視覺模態(tài)和文本模態(tài)最大相關(guān)性和兩模態(tài)各自的線性判別性,解決了圖片和文字之間的精細語義配準(zhǔn)問題。層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)模型如圖13 所示。
首先通過特征提取模型、文本模態(tài)和視覺模態(tài)特征產(chǎn)生最大相關(guān)的判別性特征。然后進一步通過co-attention 網(wǎng)絡(luò)融合特征,進而加大深層融合后的特征表示。最后合并最新的圖像視覺特征和文本語義特征,通過全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后再輸入情感分類器進行分類。
目前,針對圖文情感分析的數(shù)據(jù)集一般來源于個人制作,對于科研方面基本屬于半公開或不公開狀態(tài)。本文將介紹幾種典型的相關(guān)公開數(shù)據(jù)集,以便更好地推動圖文輿情情感分析領(lǐng)域的發(fā)展。具體如表2 所示。
Yelp 數(shù)據(jù)集:該數(shù)據(jù)集創(chuàng)建于2014 年,是涵蓋商戶、點評和用戶數(shù)據(jù)的一個子集,數(shù)據(jù)集包括來自于波士頓、芝加哥、洛杉磯、紐約和舊金山關(guān)于餐廳和食品的44 305 條評論,244 569 張圖片。通過1~5 這5個分值對數(shù)據(jù)集的情感傾向進行標(biāo)注。可以用于個人、教育和學(xué)術(shù)。數(shù)據(jù)集由5 個文件組成,每個文件分別對應(yīng)一個對象類型,該文件指定了業(yè)務(wù)ID、用戶ID、星號(介于1 和5 之間的整數(shù)值)、審查文本、日期和投票。數(shù)據(jù)集地址為https://www.kaggle.com/yelpdataset/yelp-dataset。
Tumblr 數(shù)據(jù)集:該數(shù)據(jù)集由Bourlai 等人提出。Tumblr 是一種微博服務(wù),用戶在上面發(fā)布的多媒體內(nèi)容通常包含圖片、文本和標(biāo)簽等。數(shù)據(jù)集是根據(jù)選定的15 種情緒搜索對應(yīng)的情緒標(biāo)簽的推文,并且只選擇其中既有文本又有圖片的部分,然后進行了數(shù)據(jù)處理,刪除了那些文本中原本就包含對應(yīng)情緒詞的內(nèi)容,以及那些不是英文為主的推文。數(shù)據(jù)集共有256 897 個多模態(tài)推文。數(shù)據(jù)集的情感標(biāo)注包含高興、悲傷、厭惡在內(nèi)的15 種情緒。
MVSA 數(shù)據(jù)集:該數(shù)據(jù)集由Niu等人提出,其中的所有圖像-文本對都是采用一個公共流API的方式從Twitter 收集,同時采用了406 個情感詞匯對其進行過濾,以此來獲取有價值的推文。數(shù)據(jù)集一共有2 592條圖文數(shù)據(jù),數(shù)據(jù)集的情感標(biāo)注是積極、消極和中性3種。數(shù)據(jù)集地址為http://mcrlab.net/research/mvsa-sentiment-analysis-on-multi-view-social-data/。
表2 圖文數(shù)據(jù)集總結(jié)Table 2 Summary of image and text datasets
Flickr 數(shù)據(jù)集:Flickr 是雅虎旗下的圖片分享網(wǎng)站,該數(shù)據(jù)集由文獻[83]提出,用于語言相似性的指稱度量的研究。數(shù)據(jù)集由31 783 張日?;顒印⑹录蛨鼍暗恼掌?58 915 個標(biāo)題組成。
Twitter15/17 數(shù)據(jù)集:Twitter15(4 290/1 432/1 459)數(shù)據(jù)集由Lu 等人提出,用于多模態(tài)社交媒體帖子中的姓名標(biāo)記任務(wù)。該數(shù)據(jù)集通過用體育和社會事件相關(guān)的詞語作為關(guān)鍵詞進行數(shù)據(jù)查詢,包含一對推文及其在2016 年5 月、2017 年1 月和2017 年6 月提取的相關(guān)圖片。Twitter-17(4 000/3 257/1 000)由Zhang等人提出,用于多模態(tài)命名實體識別問題。情感標(biāo)注為三分類。
Multi-ZOL:該數(shù)據(jù)集收集整理了中國領(lǐng)先的IT信息和商業(yè)門戶網(wǎng)站ZOL.com 上的關(guān)于手機的評論。原始數(shù)據(jù)有5 288 條多模態(tài)評論,構(gòu)成了Multi-ZOL 數(shù)據(jù)集。在這個數(shù)據(jù)集中,每條多模態(tài)數(shù)據(jù)包含一個文本內(nèi)容、一個圖像集,以及至少一個但不超過六個評價方面,分別是性價比、性能配置、電池、壽命、外觀和感覺、拍攝效果和屏幕。對于每個方面,數(shù)據(jù)集的情感標(biāo)注是一個從1 到10 的情感得分。數(shù)據(jù)集下載地址為https://github.com/xunan0812/MIMN。
Twitter 反諷數(shù)據(jù)集:Twitter 反諷數(shù)據(jù)集構(gòu)建自Twitter 平臺,由Cai 等提出,包括2.4 萬條的tweet,圖像和圖像屬性的樣本。數(shù)據(jù)集按照80%∶10%∶10%的比例被劃分為訓(xùn)練集、驗證集和測試集。數(shù)據(jù)集的情感標(biāo)注為“是諷刺/不是諷刺”二分類。
一般來說,準(zhǔn)確度是評估不同算法性能最常用的指標(biāo)。然而,考慮到基準(zhǔn)數(shù)據(jù)集中樣本的不均勻性,僅使用這一指標(biāo)進行績效評價是不公平的。為了解決這一問題,更好地展示各算法的實驗結(jié)果,本文引入準(zhǔn)確率(Accuracy)、召回率(Recall)、F1 值三種評價指標(biāo)進行綜合評價。在具體介紹之前先引入幾個符號,如表3 所示。
(1)準(zhǔn)確率:代表所有預(yù)測正確的樣本占總樣本的比例,其定義如式(1)所示。
表3 公式符號Table 3 Formula symbols
(2)召回率:針對的是原來的樣本,指的是樣本中的正例被預(yù)測正確的概率,其定義如式(2)所示。
(3)F1值:同時把查準(zhǔn)率和查全率考慮其中,讓二者同時達到最高,取一個平衡,其定義如式(3)所示。
表4 給出了基于特征層融合的實驗結(jié)果。表5總結(jié)了基于特征層融合算法的優(yōu)缺點。通過對其優(yōu)缺點的分析可知,特征層融合方法雖然綜合考慮了兩個模態(tài)間的信息,但在處理特征間的差異問題上仍存在缺陷。例如VistaNet 模型,其優(yōu)勢是第一次將圖像作為注意力納入基于評論的情感分析。然而當(dāng)評論中存在反諷情緒時,會導(dǎo)致模態(tài)間的差異性逐漸增大,情感不一致的問題愈加突出。
表4 特征層融合算法實驗結(jié)果Table 4 Experimental results of feature layer fusion algorithms
決策層融合避免了兩種模態(tài)特征由于本質(zhì)上不同造成的干擾。表6 給出了基于決策融合的實驗結(jié)果。表7 列出了決策層融合算法優(yōu)缺點,從中可以看出特征層融合的不足之處是無法學(xué)習(xí)到特征之間的情感互補關(guān)系。例如DNN 模型,其不足之處是文本和視覺內(nèi)容之間的關(guān)系經(jīng)常被忽略。因此在某種意義上,如何將兩個模態(tài)信息進行有效融合仍是圖文融合輿情情感分析的挑戰(zhàn)性問題。
表5 特征層融合算法優(yōu)缺點Table 5 Advantages and disadvantages of feature layer fusion algorithms
表6 決策層融合算法實驗結(jié)果Table 6 Experimental results of decision layer fusion algorithms
相較于決策層融合,一致性回歸融合重點關(guān)注了文本和圖像的情感特征的一致性。表8 給出了基于一致性回歸融合的實驗結(jié)果。表9 總結(jié)了一致性回歸算法優(yōu)缺點,從中可以看出,雖然一致性回歸融合關(guān)注了情感特征的一致性,但忽略了文本和圖像情感特征之間的情感異性。
表7 決策層融合算法優(yōu)缺點Table 7 Advantages and disadvantages of decision layer fusion algorithms
表8 一致性回歸融合算法實驗結(jié)果Table 8 Experimental results of consistent regression fusion algorithms
總體而言,得益于深度神經(jīng)網(wǎng)絡(luò)強大的特征表達能力,基于深度學(xué)習(xí)的聯(lián)合視覺文本情感分析和視聽內(nèi)容多模態(tài)情感分析取得了突破性進展。盡管如此,社交網(wǎng)絡(luò)中的視覺文本數(shù)據(jù)和網(wǎng)絡(luò)視頻的多模態(tài)情感分析仍然有許多問題亟待解決。
(1)現(xiàn)有的視覺-文本聯(lián)合情感分析方法大多采用不同的融合策略來整合文本和視覺信息,忽略了文本和視覺內(nèi)容之間的相關(guān)性。此外,大量深度學(xué)習(xí)模型已被應(yīng)用于現(xiàn)有的聯(lián)合視覺-文本情感分析研究中,而社交媒體文本情感分析的豐碩成果卻往往被忽視。因此,如何將已有的文本情感分析研究成果應(yīng)用到視覺-文本情感聯(lián)合分析中,仍值得深入研究。
(2)基準(zhǔn)數(shù)據(jù)集的缺乏是多媒體情感分析,尤其是視覺分析和多模態(tài)分析的瓶頸。此外,樣本的不均勻性和情感標(biāo)簽的不可靠性增加了在不同方法之間進行公平比較的難度。例如,相當(dāng)多的研究人員在他們自己的數(shù)據(jù)集上進行實驗,其中許多數(shù)據(jù)集只包含有限數(shù)量的樣本,這些樣本的標(biāo)簽并不完全正確。更糟糕的是,陽性樣本和陰性樣本的數(shù)量往往有很大的差異。在這些數(shù)據(jù)集上的實驗結(jié)果并不令人信服,因為沒有可信的數(shù)據(jù)集,性能評估就沒有意義。然而,現(xiàn)有的研究很少關(guān)注這一問題。因此,收集足夠的樣本,給它們貼上可靠的情感標(biāo)簽,并將其公之于眾,也是一項有意義的任務(wù)。
(3)現(xiàn)有的基于管道模式的視覺情感分析研究通常使用一組概念(如形容詞和名詞)來構(gòu)建描述視覺內(nèi)容的本體。在概念檢測過程中,要么對整個圖像進行聚焦,要么只對其中的局部對象進行聚焦,但人類對視覺內(nèi)容的感知是多維的。因此,可以對視覺內(nèi)容中的概念進行整體和局部的檢測,從而形成多角度、多層次的視覺內(nèi)容描述,提高情感分析的性能。然而,如何全面、統(tǒng)一地描述社交媒體中各種各樣的視覺內(nèi)容并有效檢測情感相關(guān)語義,仍是一個有待解決的問題。
表9 一致性回歸融合算法優(yōu)缺點Table 9 Advantages and disadvantages of consistent regression fusion algorithms
(4)目前,社交媒體用戶將圖像、視頻等視覺內(nèi)容與文字描述一起發(fā)布是非常常見的。在大多數(shù)情況下,文本內(nèi)容和視覺內(nèi)容之間存在相關(guān)性。一方面,文本描述可用于為相應(yīng)的視覺內(nèi)容生成情感標(biāo)簽。另一方面,在視覺-文本情感聯(lián)合分析中,可以綜合利用視覺和文本的內(nèi)容來獲得更可靠的預(yù)測。然而,社交媒體消息的文本描述可能會產(chǎn)生噪音或誤導(dǎo),其原因是評論可能與相應(yīng)的圖像內(nèi)容無關(guān)。在這種情況下,跨媒體的做法將產(chǎn)生負(fù)面影響。因此,無論是視覺情感分析,還是聯(lián)合視覺文本情感分析,挖掘和評價文本與視覺內(nèi)容之間的相關(guān)性并加以利用都是一個關(guān)鍵問題。
隨著社會媒體的迅速發(fā)展,多媒體數(shù)據(jù)已經(jīng)成為人類情感和觀點的重要載體,因而對社交網(wǎng)絡(luò)中的多媒體內(nèi)容進行情感分析具有重要的科學(xué)研究和實際應(yīng)用價值。本文在對網(wǎng)絡(luò)輿情情感分析的相關(guān)文獻進行全面回顧的基礎(chǔ)上得出如下結(jié)論:多模態(tài)用于網(wǎng)絡(luò)輿情情感分析是利用互補信息渠道進行情感分析的一種有效方法,其通常優(yōu)于單模態(tài)的分析方法。最后,本文深入探討了潛在的研究方向和研究趨勢。