文/王淮
網(wǎng)絡(luò)的不斷發(fā)展催生了多媒體技術(shù)的廣泛應(yīng)用,一新的視頻評論方式開始逐漸流行。。不同于傳統(tǒng)的視頻評論,具有長篇幅、基于視頻整體的特點(diǎn),彈幕數(shù)據(jù)一般比較短而且具有時(shí)序性,所表達(dá)出來的視頻情感趨勢和觀點(diǎn)會更豐富、更具有參考性。用戶可以通過彈幕系統(tǒng)發(fā)布與視頻情節(jié)內(nèi)容相關(guān)的評論,也可以根據(jù)彈幕了解潛在的劇情。研究彈幕數(shù)據(jù)中蘊(yùn)含的情感,可以幫助用戶更愉快的觀看視頻,而且可以為相關(guān)商業(yè)機(jī)構(gòu)提供更準(zhǔn)確的用戶偏好調(diào)查解決方案。由于彈幕數(shù)據(jù)的復(fù)雜和誕生時(shí)間相對短暫,關(guān)于中文彈幕的分析研究還不夠充分,也沒有很好地進(jìn)行商業(yè)利用,因此本文將從彈幕定義、數(shù)據(jù)預(yù)處理、情感分析和總結(jié)五個(gè)方面對中文彈幕情感分析的研究現(xiàn)狀進(jìn)行介紹和分析,希望能夠推進(jìn)中文彈幕情感分析的進(jìn)程。
彈幕指的是從屏幕自右向左劃過或停留在頂部、底部等的文字。彈幕一詞源自日本,原意指對目標(biāo)進(jìn)行密集炮擊。彈幕起源于日本niconico,國內(nèi)AcFun率先引進(jìn),并隨著彈幕系統(tǒng)越來越完善,國內(nèi)主流的視頻平臺如BiliBili(以下簡稱B站)、騰訊視頻、優(yōu)酷、愛奇藝等以及直播平臺如斗魚、虎牙等也都開通了彈幕服務(wù),一時(shí)之間彈幕如春筍般一涌而出。
莊須強(qiáng)等人[4]認(rèn)為彈幕評論帶有時(shí)間標(biāo)簽信息,是針對當(dāng)前播放內(nèi)容的評論。彈幕數(shù)據(jù)是依附在視頻上由觀看者參與討論產(chǎn)生的,具有時(shí)間序列的特征。彈幕評論是網(wǎng)絡(luò)用戶自發(fā)產(chǎn)生的,具有獨(dú)特的風(fēng)格,區(qū)別于傳統(tǒng)的中文字詞,含有諸多口語化、諧音的網(wǎng)絡(luò)詞語以及表情等。一般而言,單條彈幕長度有限,不會出現(xiàn)類似豆瓣、爛番茄等影評長則上千字的評論。對于視頻整體而言,彈幕分布稀疏的,而在某些關(guān)鍵情節(jié)會出現(xiàn)爆發(fā)式的增長,具有整體稀疏,局部密集的特點(diǎn)。
莊須強(qiáng)等人[2]和鄧揚(yáng)等人[3]都將彈幕定義為一個(gè)由彈幕內(nèi)容、彈幕發(fā)送時(shí)間和用戶ΙD組成的三元組。通過對彈幕的提取,進(jìn)行了相關(guān)的彈幕情感分析。以B站彈幕內(nèi)容為例,彈幕格式是一個(gè)八元組,包括彈幕出現(xiàn)時(shí)間,彈幕的類型,彈幕的大小,彈幕的字體顏色,彈幕的發(fā)布時(shí)間,彈幕池,彈幕發(fā)送者ΙD,彈幕的rowΙD。
圖1:中文彈幕情感分析流程
在鄧揚(yáng)等人[3]文中,首先對視頻片段進(jìn)行切分,然后提取片段中的彈幕序列,進(jìn)行文本預(yù)處理后對詞語進(jìn)行了編號化處理。莊須強(qiáng)等人[4]對彈幕中每個(gè)不同的詞都用一個(gè)對應(yīng)的向量表示,建立情感詞典,以此去除深度學(xué)習(xí)可能出現(xiàn)的高緯度、梯度消失等問題。洪慶等人[1]對彈幕中的網(wǎng)絡(luò)流行詞建立了特定詞典,對彈幕數(shù)據(jù)用詞進(jìn)行詞性分析;對數(shù)據(jù)中的顏文字、表情則編寫了正則語句,識別后刪除。
彈幕詞典不同于傳統(tǒng)的漢字字典,其來源廣泛,具有多樣性和時(shí)效性。彈幕詞典從來源分析主要由兩部分組成,一部分是沒有意義的詞匯,由于社會的發(fā)展和從視頻的臺詞中演化出來的,另一部分是原本有確切含義的詞,出現(xiàn)了新的含義。彈幕詞典從成分分析有兩部分組成,一部分是網(wǎng)絡(luò)流行語,另一部分則是專屬于視頻領(lǐng)域的彈幕專用詞匯,如“打卡”、“火鉗劉明”等,只會在彈幕中出現(xiàn)。因此對于構(gòu)建彈幕詞典需要不斷地更新和廣泛的吸收。
不同于一般的NLP分詞,彈幕文本具有口語化、頻繁重復(fù)、句子較短的特點(diǎn),需要構(gòu)建特殊停用詞表。王素格等人[5]通過實(shí)驗(yàn)發(fā)現(xiàn)是否有形容詞、動詞等的停用詞表,對情感分類的影響較大。熊文新等人[6]總結(jié)了停用詞過濾在信息檢索用戶查詢語句中的使用情況。一般來說專業(yè)停用詞表是基于統(tǒng)計(jì)的自動學(xué)習(xí)方法,從語料庫中統(tǒng)計(jì)出高頻停用詞,然后構(gòu)建停用詞表,之后再由專人進(jìn)行核查[7]。
彈幕具有口語化和文本較短的特點(diǎn),一般的中文情感詞典只是對生活中的詞語進(jìn)行劃分,沒有考慮到彈幕的特點(diǎn) 因此需要專業(yè)的詞典。徐琳宏等人[9]在提出了一種情感分類樹,將情感分類為7類,這7類分別是: 樂,好,怒,愁,驚,惡和懼。樂和好屬于積極情感,其他的屬于消極情感。
4.2.1 MTER算法
鄧揚(yáng)等人[3]認(rèn)為彈幕的詞分布可視作一個(gè)概率模型,在同一個(gè)視頻片段中的詞相互之間具有情感依賴,因此提出一種基于多主體的視頻片段情感識別(Multi—Topic Emotion Recognition,MTER)算法。
MTER利用每個(gè)詞的隱含情感主題分布來評估詞的情感值,并用情感向量表示彈幕。由于視頻片段的情感具有傳遞性,歸屬于同一個(gè)視頻中的視頻片段具有一定的情感相關(guān)性和相似性,尤其是時(shí)間相隔較近的片段,因此作者還對視頻片段情感向量進(jìn)行了調(diào)整。
4.2.2 AT-LSTM 模型
莊須強(qiáng)等人[4]分析了多種機(jī)器學(xué)習(xí)模型在聚類時(shí)的優(yōu)劣勢,最后使用了基于Attention Model 的AT-LSTM 模型。AT-LSTM模型能夠有效的避免長期依賴問題,防止有用數(shù)據(jù)信息丟失,并且能突顯關(guān)鍵評論詞,降低非關(guān)鍵詞對彈幕情感帶來的影響。
4.2.3 計(jì)算情感值
鄭飏飏等人[8]認(rèn)為只考慮情感詞的分類不夠全面,還要考慮到否定詞的影響。杜振雷等人[10]在微博短文本的情感分析研究中指出,否定詞會對情感值計(jì)算產(chǎn)生相反的影響。因此在計(jì)算情感值時(shí),需要注意彈幕評論中是否夾雜著否定詞,再進(jìn)行計(jì)算。
通過對中文彈幕情感分析的研究,本文將中文彈幕情感分析流程一般化為圖1所示。首先構(gòu)建彈幕詞典,以此來支持文本預(yù)處理模塊,經(jīng)過彈幕分詞、詞性標(biāo)注、人工篩選等過程生成情感詞典,利用情感詞典對彈幕進(jìn)行情感分析,并保存到數(shù)據(jù)庫中。用戶可以通過客戶端查詢,選擇自己偏好的視頻,實(shí)現(xiàn)彈幕情感分析的價(jià)值。