拉桑吉,安見才讓
(1.青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810007;2.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室;3.省部共建藏語智能信息處理及應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室)
近年來,深度學(xué)習(xí)體現(xiàn)出較為優(yōu)異的學(xué)習(xí)表現(xiàn),越來越多的研究人員開始傾向使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本或者圖像的特征用于情感分類。但是單一模態(tài)的信息量容易受到其他因素干擾。通常情況下,對(duì)于一個(gè)雖然帶有情感色彩但情感傾向不明顯的藏文句子,如果配上表情和圖,其情感傾向相對(duì)會(huì)清晰很多。在社交平臺(tái)中圖像與文本存互補(bǔ)性,圖文兩種模態(tài)的信息往往比單一模態(tài)表達(dá)的情感更明確。所以多模態(tài)數(shù)據(jù)能有效地預(yù)測(cè)藏族網(wǎng)民所表達(dá)的情感傾向。
多模態(tài)情感分類的目標(biāo)是識(shí)別帶有情感色彩的文本及圖像內(nèi)容的情感極性。本文將情感極性分為三大類,即為積極情感傾向和消極情感傾向、中性等三種極性。積極情感極性由{1}來表示、消極由{-1}表示、中性由{0}表示。
⑴文本情感分類
本文是基于深度學(xué)習(xí)的方法。孫旺本等將深度學(xué)習(xí)算法的CNN-LSTM(convolutional neural networklong short-term memory,CNN-LSTM)等模型引入藏文的情感傾向分析中;訓(xùn)練了藏文微博詞向量模型,提高了特征向量對(duì)文本語義信息的表達(dá)。
一些藏文語料分詞存在不統(tǒng)一的問題。普次仁等將藏文用詞向量表示詞語,利用無監(jiān)督遞歸自編碼算法對(duì)矩陣向量化,預(yù)測(cè)藏文語句的情感傾向,其不足點(diǎn)是并未探究語料庫大小對(duì)深度學(xué)習(xí)算法性能的影響,以及深度學(xué)習(xí)中參數(shù)較多引起的過擬合現(xiàn)象。曲塔吉將基于注意力機(jī)制和LSTM 的神經(jīng)網(wǎng)絡(luò)對(duì)藏文多極情感句子做了情感分析實(shí)驗(yàn),建立藏文多極情感數(shù)據(jù)集,使用注意力機(jī)制和BiLSTM 神經(jīng)網(wǎng)絡(luò)模型來實(shí)驗(yàn),正確率很高。
本課題先收集藏文情感數(shù)據(jù)集,對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理。由于目前在藏民族居住地區(qū)沒有公開的情感數(shù)據(jù)資源,在數(shù)據(jù)預(yù)處理時(shí)將藏文分詞、情感標(biāo)注等工作都按照藏文傳統(tǒng)文法結(jié)構(gòu),由人工進(jìn)行完成。
⑵圖像情感分類
論文選用情感特征提取方法研究圖像情感數(shù)據(jù)集。Chen等提出一個(gè)包含多個(gè)CNN的深度神經(jīng)網(wǎng)絡(luò)對(duì)圖片情感進(jìn)行分類,模型性能顯著優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。Yang等提出了圖片局部區(qū)域信息和整體信息的圖片情感識(shí)別模型,取得良好的效果。曹建芳等提出了基于Adaboost-BP 的圖像情感分析方法,使用Adaboost 算法結(jié)合BP 神經(jīng)網(wǎng)絡(luò)的弱分類器,構(gòu)成一個(gè)強(qiáng)分類器,取得了良好的實(shí)驗(yàn)效果。
首先收集圖像情感數(shù)據(jù)集,這些圖像數(shù)據(jù)集都是在各種社交平臺(tái)中使用藏文的網(wǎng)民平時(shí)所使用的評(píng)論表情圖像,然后對(duì)其進(jìn)行情感標(biāo)注及數(shù)據(jù)預(yù)處理工作。
多模態(tài)情感分類研究可分為特征融合好、中間層融合和決策融合,本課題選擇特征融合。在多模態(tài)情感分類研究方面,各專家和學(xué)者都選用適合各種課題的技術(shù)來研究。
Jindal 和Singh使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)構(gòu)建圖像情感預(yù)測(cè)框架,使用于對(duì)象的識(shí)別與遷移學(xué)習(xí)當(dāng)中,在人工標(biāo)注的圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。多模態(tài)情感分類有著很大的研究空間。謝豪等提出了一種基于多層語義融合的圖文情感分類模型對(duì)社交媒體圖文數(shù)據(jù)進(jìn)行情感分類,以提高情感分類性能、為政府、企業(yè)決策提供科學(xué)依據(jù)。
綜上所述,目前在藏民族居住地區(qū)對(duì)情感分類的研究尚未涉及多模態(tài)情感分類。所以,本文選擇對(duì)多模態(tài)藏語情感分類進(jìn)行研究,以期得到更準(zhǔn)確的藏民族情感分析數(shù)據(jù)。
對(duì)本課題的研究選用一種即適合藏文文法結(jié)構(gòu),又適合圖像情感特征提取的神經(jīng)網(wǎng)絡(luò)模型是對(duì)多模態(tài)情感分類及識(shí)別的重要基礎(chǔ)。從多模態(tài)藏文文本及圖像情感分類的角度出發(fā)對(duì)神經(jīng)網(wǎng)絡(luò)模型的選擇進(jìn)行了分析研究,將深度學(xué)習(xí)的算法模型引入多模態(tài)藏語情感分類當(dāng)中。接下來會(huì)簡(jiǎn)單的將兩種單個(gè)模態(tài)的模型以及融合后的結(jié)果進(jìn)行分析。
在藏文文本的情感分類任務(wù)中,對(duì)藏文句子提取特征的時(shí)候應(yīng)該要增大對(duì)藏文關(guān)鍵詞的影響力,從而提高藏文情感分類的神經(jīng)網(wǎng)絡(luò)模型識(shí)別率。
圖1 藏文文本情感分類的全連接神經(jīng)網(wǎng)絡(luò)模型(FCNNMSCTT)
FCNNMSCTT 模型主要目的是識(shí)別出不同藏文句子的情感的類別和極性,有3種分類極性,分類任務(wù)數(shù)據(jù)集表示為D=(S,S,…,S,…,S)。公式如下:
FCNNMSCTT 模型把輸入數(shù)據(jù)分成兩個(gè)部分:詞和字符,并將詞和字符都表示成嵌入向量。其表達(dá)形式如式⑵中兩個(gè)公式:
其中,W表示第i 個(gè)的詞S詞向量,C表示第i 詞的第j 個(gè)字符嵌入向量。
在收集的情感語料中,其訓(xùn)練句子樣本的長(zhǎng)度不同,包含的詞與字符的長(zhǎng)度也不同。在藏文情感分類上我們需要考慮怎樣把藏文的字符向量和詞向量的維度大小一致,長(zhǎng)度大小一致等問題,因此,我們把藏文情感語料的字符向量和詞向量設(shè)置為512,句子長(zhǎng)度統(tǒng)一設(shè)置為80,模型的輸入向量Tc計(jì)算方法如式⑶所示:
句子S的向量表示為:
藏語情感分析表情圖像的深度學(xué)習(xí)我們采用了卷積神經(jīng)網(wǎng)絡(luò),模型如圖2所示。
圖2 藏語情感分類中表情圖像的卷積神經(jīng)網(wǎng)絡(luò)模型(CNNMEITSA)
使用CNNMEITSA 模型中,輸入層圖像大小為256×128×1。使用卷積核對(duì)此進(jìn)行特征提取和特征映射,第一個(gè)卷積層深度為32,卷積了四次池化了四次之后,全連接三次把第五層的輸出數(shù)據(jù)全部做拼接成維度為512 的張量YC,再做全連接處理,激活函數(shù)ReLu,輸出維度為3的張量Y,表達(dá)式為:
輸出結(jié)果Y計(jì)算出每一個(gè)圖像情感繼續(xù)極性。
多模態(tài)圖文情感分類中每一張積極圖像的特征和一條積極的藏文情感文本的特征相對(duì)應(yīng),一張消極圖像的特征和一條消極的藏文情感文本的特征相對(duì)應(yīng),中性圖像的特征和中性句子的特征對(duì)應(yīng)的存在。在最后結(jié)果輸出時(shí),對(duì)比圖像標(biāo)簽和文本標(biāo)簽的權(quán)重哪個(gè)模態(tài)正確率高,就會(huì)取出那一方的正確率來輸出分類結(jié)果。
基于神經(jīng)網(wǎng)絡(luò)情感分類模型的實(shí)驗(yàn)平臺(tái)是基于Python 編程語言的Anaconda 平臺(tái)中環(huán)境選擇了TensorFlow 和Keras。實(shí)驗(yàn)數(shù)據(jù)為多模態(tài)藏語圖文情感分類數(shù)據(jù)共6000多條,主要運(yùn)用的神經(jīng)網(wǎng)絡(luò)算法的知識(shí)有全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。
本課題的所有實(shí)驗(yàn)都是在同一個(gè)的硬件配置下的計(jì)算機(jī)上完成的,下面硬件及軟件的實(shí)驗(yàn)環(huán)境進(jìn)行介紹,具體如表1、表2所示。
表1 計(jì)算機(jī)硬件配置表
表2 計(jì)算機(jī)軟件配置
本課題是以藏文情感句子當(dāng)中的情感極性以及圖像中文的情感特征為研究對(duì)象,從而建立起6000多條藏文情感句子及情感圖像的數(shù)據(jù)集。
⑴藏文文本的三種情感極性:積極情感數(shù)據(jù)有表示滿意句子、表示一般滿意句子、表示非常滿意的句子;消極情感數(shù)據(jù)有表示不滿意的句子、表示一般不滿意的句子、表示非常不滿意的句子;中性句子不表達(dá)任何帶有情感色彩及情感傾向的句子。每一種情感數(shù)據(jù)都會(huì)按照句子本身所表達(dá)的情感極性做與之相對(duì)應(yīng)的標(biāo)注。其數(shù)據(jù)示例表3所示。
表3 情感文本數(shù)據(jù)示例
⑵情感圖像的三種情感極性:積極圖像數(shù)據(jù)有表示吉祥、開心、高興、興奮等圖;消極圖像數(shù)據(jù)表示不開心、不討喜、難過、傷心、孤獨(dú)、流淚等圖;中性圖像表面看不出任何內(nèi)心活動(dòng)的圖像、面無表情的圖。每一張圖都會(huì)根據(jù)圖片本身所表達(dá)的情感傾向?yàn)槌霭l(fā)點(diǎn)進(jìn)行標(biāo)注。其數(shù)據(jù)示例圖3所示。
圖3 情感表情圖像數(shù)據(jù)集
本課題采用了基于深度學(xué)習(xí)全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,在數(shù)據(jù)相同的驗(yàn)證集上提高識(shí)別精度。此外,在測(cè)試集中選擇不同情感極性的2400 條句子、2400 張圖片作為訓(xùn)練樣本,600 條句子和圖像作為測(cè)試樣本來驗(yàn)證識(shí)別效果。
基于神經(jīng)網(wǎng)絡(luò)的模型在圖像情感分類上的表現(xiàn)優(yōu)異。本次實(shí)驗(yàn)的數(shù)據(jù)共有3000 條文本情感數(shù)據(jù)和3000多張圖像情感數(shù)據(jù)其實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 三個(gè)模型訓(xùn)練結(jié)果示例
其中圖4(左)表示文本模型的結(jié)果,圖4(中)表示圖像模型的結(jié)果圖4(右)表示融合后的結(jié)果,各個(gè)模型實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表4所示。
表4 各模型實(shí)驗(yàn)結(jié)果示例
表4 中文本模型FCNNMSCTT 最終正確率56%、表情圖像模型CNNMEITSA 正確率88.75%、融合模型FUSIONMODEL 正確率96.98%。實(shí)驗(yàn)分析可知數(shù)據(jù)在計(jì)算機(jī)識(shí)別后的結(jié)果跟人想要表達(dá)的情感是十分吻合的。證明了多模態(tài)對(duì)人類日常生活中情感表達(dá)的影響程度比單個(gè)模態(tài)強(qiáng)很多。
本文對(duì)多模態(tài)情感分類識(shí)別的模塊進(jìn)行了實(shí)驗(yàn)。最終的實(shí)驗(yàn)結(jié)果表明模型框架損失值低、識(shí)別率高、分類性能優(yōu)。得出實(shí)驗(yàn)過程中樣本數(shù)據(jù)越多,其算法對(duì)情感分類的識(shí)別準(zhǔn)確率也會(huì)逐步提升趨于穩(wěn)定,損失值也會(huì)隨之降低的結(jié)論。后期還會(huì)增加數(shù)據(jù)查看此模型實(shí)驗(yàn)相對(duì)于其他模型是否更具穩(wěn)定性,增加語料之后的準(zhǔn)確率會(huì)不會(huì)也隨之上升。
針對(duì)當(dāng)前多模態(tài)藏語情感分類的不足,提出了基于神經(jīng)網(wǎng)絡(luò)FCNNMSCTT、CNNMEITSA 情感分類模型。實(shí)驗(yàn)結(jié)果表明,基于神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分類模型具較高的準(zhǔn)確率。但現(xiàn)有的多模態(tài)圖文情感分類的數(shù)據(jù)少、也沒有公開的數(shù)據(jù),只能花費(fèi)大量的人工進(jìn)行采集和標(biāo)注。在未來的研究中,多模態(tài)圖文情感分類語料庫需要進(jìn)一步的建立、提高語料標(biāo)注效率。