吳法民 呂廣奕 劉 淇 何 明 常 標(biāo) 何偉棟 鐘 輝 張 樂(lè)
1(中國(guó)科學(xué)技術(shù)大學(xué)軟件學(xué)院 合肥 230051)2 (中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室 合肥 230027)
Fig. 1 Time-sync comments for videos圖1 視頻實(shí)時(shí)評(píng)論
隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)步,在線共享媒體已經(jīng)得到了突飛猛進(jìn)的發(fā)展,并極大地豐富了人們的生活.與此同時(shí),一種被稱作“彈幕”的新型視頻實(shí)時(shí)評(píng)論在國(guó)內(nèi)外視頻共享平臺(tái)中越來(lái)越受到大家的關(guān)注,如中國(guó)的bilibili、愛(ài)奇藝、優(yōu)酷,日本的niconico等網(wǎng)站,彈幕在視頻中扮演著極其重要的角色.在這些視頻共享平臺(tái)中,用戶可以在觀看視頻的同時(shí)發(fā)送評(píng)論消息(稱為彈幕).與傳統(tǒng)評(píng)論不同,彈幕評(píng)論可以在視頻的播放過(guò)程中實(shí)時(shí)呈現(xiàn),增進(jìn)了用戶之間的互動(dòng),改善了用戶的體驗(yàn).彈幕不僅包含文本信息,還包含該評(píng)論在視頻中出現(xiàn)的時(shí)間信息,即:允許用戶針對(duì)視頻中的某個(gè)片段進(jìn)行實(shí)時(shí)評(píng)論,使得在播放視頻時(shí),評(píng)論像“大量子彈飛過(guò)屏幕”,“彈幕”也因此得名[1].
彈幕機(jī)制具有諸多特點(diǎn).一方面,彈幕實(shí)時(shí)性的特點(diǎn)使得其與視頻的聯(lián)系更加密切,視頻實(shí)時(shí)評(píng)論在很大程度上影響視頻的流行程度[1-3].有研究表明,視頻的流行程度和該視頻之前的評(píng)論觀點(diǎn)以及評(píng)論數(shù)據(jù)量呈正相關(guān)性[2,4].另一方面,在觀看視頻的同時(shí)閱讀或發(fā)送彈幕,也成為了一種獨(dú)特的社交方式,這種觀眾之間通過(guò)評(píng)論交流的方式極大地滿足了現(xiàn)代人排解寂寞的心理需求,使得越來(lái)越多的用戶更青睞于觀看帶有彈幕的視頻.因此,作為一種眾包短文本的代表,彈幕拉近了人與互聯(lián)網(wǎng)信息的關(guān)系,也促進(jìn)了人與人之間的交流,成為以人為中心的媒體信息交互紐帶.總的來(lái)說(shuō),以彈幕為代表的眾包短文本,對(duì)于在線媒體分享平臺(tái),甚至娛樂(lè)產(chǎn)業(yè)都有著重要意義,而針對(duì)此類短文本展開(kāi)研究,為推薦系統(tǒng)、計(jì)算廣告學(xué)以及人工智能等領(lǐng)域的發(fā)展提供了新的機(jī)遇,對(duì)于互聯(lián)網(wǎng)、經(jīng)濟(jì)、教育、科研等行業(yè)具有巨大價(jià)值.
然而在彈幕帶來(lái)新機(jī)遇的同時(shí),這種面向視頻的眾包短文本分析也存在著諸多挑戰(zhàn),如圖1所示.首先,由數(shù)以萬(wàn)計(jì)的用戶生成的彈幕數(shù)據(jù)具有很高的噪聲.彈幕的噪聲主要源于2方面:一方面,用戶的彈幕內(nèi)容具有隨意性.在共享視頻評(píng)論的場(chǎng)景下,用戶受到其他用戶或者自身情緒的影響,可能發(fā)布與視頻內(nèi)容無(wú)關(guān)的彈幕,如:“看餓了…”、“Σ(° △ °|||)︴”等.另一方面,用戶的表達(dá)方式具有隨意性.在通常情況下,用戶不會(huì)像一般的評(píng)論那樣刻意嚴(yán)謹(jǐn)?shù)膶?duì)待所發(fā)布的彈幕內(nèi)容,進(jìn)而會(huì)產(chǎn)生一些輸入的錯(cuò)誤,比如“何暈東好堎”,事實(shí)上是用戶想表達(dá)“何潤(rùn)東好嫩”,但由于拼寫時(shí)帶有方言導(dǎo)致產(chǎn)生了錯(cuò)別字.這些表達(dá)均具有偶然性,不屬于用戶約定行為,因此沒(méi)有規(guī)律難以過(guò)濾,給彈幕的理解和研究帶來(lái)了困難.其次,彈幕中充斥著大量網(wǎng)絡(luò)用語(yǔ).視頻彈幕來(lái)源于網(wǎng)絡(luò)共享視頻平臺(tái),具有網(wǎng)絡(luò)平臺(tái)的共有特性,存在大量網(wǎng)絡(luò)用語(yǔ)和不規(guī)范的表達(dá).比如數(shù)字的諧音:“233”來(lái)源于“哈哈”笑的表情庫(kù),被用來(lái)指代“啊哈哈”,表示大笑的意思,“7456”則指代“氣死我了”等;英語(yǔ)拼音的諧音:“海皮”在視頻評(píng)論中可能就是指代“happy”縮寫;漢字的諧音:由于為了增加幽默效果和方言種類繁多等導(dǎo)致的替用,比如“內(nèi)流滿面”指代“淚流滿面”等.這些網(wǎng)絡(luò)用語(yǔ)的大量使用進(jìn)一步增加了彈幕相關(guān)研究的困難.最后,彈幕文本中普遍蘊(yùn)含著隱含語(yǔ)義.這一點(diǎn)在以動(dòng)漫為代表的ACG(animation,comic,game)視頻中體現(xiàn)得尤為明顯.由于視頻觀眾中存在各種小眾群體,這些群體經(jīng)過(guò)長(zhǎng)時(shí)間的交流,約定俗成了一系列獨(dú)特的表達(dá),如“前方高能”、“失蹤人口回歸”;與此同時(shí),對(duì)于像“元首”、“哲學(xué)家”、“老師”等詞語(yǔ)在某些特定劇情下則具有和原來(lái)完全不同的含義 ;而諸如“鬼畜”、“藍(lán)藍(lán)路”等則屬于完全新造的詞語(yǔ).彈幕中的隱含語(yǔ)義,有悖于正常的自然語(yǔ)言,如何正確理解彈幕的深度含義是對(duì)彈幕及視頻進(jìn)行分析建模的最大挑戰(zhàn).綜上所述,視頻實(shí)時(shí)評(píng)論的高噪聲、不規(guī)范表達(dá)和隱含語(yǔ)義等特性,使得傳統(tǒng)自然語(yǔ)言處理(natural language processing, NLP)技術(shù)具有很大局限性,因此亟需一種容錯(cuò)性強(qiáng)、能刻畫短文本的深度語(yǔ)義理解方法.
針對(duì)以上挑戰(zhàn),本文提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的深度語(yǔ)義表征模型.該模型建立在“相近時(shí)間段內(nèi)的視頻實(shí)時(shí)評(píng)論具有相似語(yǔ)義”的假設(shè)上,實(shí)現(xiàn)將離散的、不定長(zhǎng)的文本序列映射為連續(xù)取值的、低維的語(yǔ)義向量,使得語(yǔ)義向量能夠精準(zhǔn)地刻畫對(duì)應(yīng)彈幕所表達(dá)的語(yǔ)義信息.特別地,該模型由于引入了字符級(jí)別的循環(huán)神經(jīng)網(wǎng)絡(luò),避免了彈幕噪聲對(duì)文本分詞帶來(lái)的影響;而在實(shí)現(xiàn)語(yǔ)義表征的過(guò)程中,通過(guò)使用神經(jīng)網(wǎng)絡(luò),使得所得的語(yǔ)義向量能夠?qū)椖贿M(jìn)行更深層次的刻畫,表達(dá)其隱含語(yǔ)義.在此基礎(chǔ)上,針對(duì)彈幕文本具有隱含語(yǔ)義的特點(diǎn),本文進(jìn)一步設(shè)計(jì)了基于語(yǔ)義檢索的彈幕解釋框架,同時(shí)作為對(duì)語(yǔ)義表征結(jié)果的驗(yàn)證.該框架利用語(yǔ)義向量創(chuàng)建索引,從而對(duì)于給定彈幕,通過(guò)檢索與其語(yǔ)義相似但表達(dá)不同的彈幕來(lái)對(duì)其進(jìn)行解釋.
最后,本文設(shè)計(jì)了序列自編碼、詞袋特征索引、編碼器解碼器等多種對(duì)比方法,并通過(guò)BLEU(bilingual evaluation understudy)、流暢度、多樣性等多種指標(biāo)以及人工評(píng)價(jià)對(duì)本文所提出的模型進(jìn)行充分驗(yàn)證.實(shí)驗(yàn)結(jié)果表明這種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度語(yǔ)義表征模型能夠精準(zhǔn)地刻畫彈幕短文本的語(yǔ)義,也證明了關(guān)于彈幕相關(guān)假設(shè)的合理性.
本節(jié)將從彈幕分析及應(yīng)用、表征學(xué)習(xí)模型、文本表征模型這3個(gè)方面介紹視頻實(shí)時(shí)評(píng)論(彈幕)的相關(guān)工作.
彈幕視頻是一種新型視頻互動(dòng)方式,以其獨(dú)特的互動(dòng)交流方式備受廣大互聯(lián)網(wǎng)和視頻愛(ài)好者的喜愛(ài),并迅速風(fēng)靡國(guó)內(nèi)外視頻共享平臺(tái),如對(duì)于中國(guó)的bilibili、愛(ài)奇藝、優(yōu)酷,日本的niconico等網(wǎng)站,彈幕視頻扮演著極其重要的角色.然而目前關(guān)于彈幕視頻的研究還很少.國(guó)內(nèi)外對(duì)于彈幕的分析大多停留在基于彈幕的統(tǒng)計(jì)特征,以統(tǒng)計(jì)和自然語(yǔ)言處理技術(shù),研究視頻實(shí)時(shí)評(píng)論情況以及視頻評(píng)論和視頻之間的關(guān)系.其中,基于統(tǒng)計(jì)的有:文獻(xiàn)[5]提出基于統(tǒng)計(jì)的方法識(shí)別一個(gè)彈幕評(píng)論的詞匯是否是個(gè)外來(lái)詞或視頻內(nèi)容無(wú)關(guān)詞.基于自然語(yǔ)言處理的有:文獻(xiàn)[6]借助自然語(yǔ)言處理技術(shù)和統(tǒng)計(jì)學(xué)知識(shí),研究視頻評(píng)論的情感和視頻流行度之間的關(guān)系;鄭飏飏等人[7]利用自然語(yǔ)言處理技術(shù),提取彈幕中的情感數(shù)據(jù)實(shí)現(xiàn)對(duì)視頻的評(píng)論的情感可視化,獲取網(wǎng)絡(luò)視頻的情感特征和走勢(shì),并通過(guò)給視頻打情感標(biāo)簽的方式,達(dá)到從情感角度實(shí)現(xiàn)視頻的檢索.文獻(xiàn)[8]提出基于時(shí)間的個(gè)性化主題模型(TPTM),該模型結(jié)合視頻評(píng)論,為相應(yīng)時(shí)間段的視頻生成主題標(biāo)簽.文獻(xiàn)[9]提出了基于語(yǔ)義關(guān)聯(lián)的視頻標(biāo)簽提取方法,通過(guò)對(duì)彈幕數(shù)據(jù)的相似度分析,建立語(yǔ)義關(guān)聯(lián)圖,根據(jù)關(guān)聯(lián)圖的模型獲取視頻的主題分布給視頻打標(biāo)簽,同時(shí)根據(jù)提取的彈幕主題信息,過(guò)濾跟視頻無(wú)關(guān)的彈幕.文獻(xiàn)[10]提出了基于隱語(yǔ)義模型的網(wǎng)絡(luò)視頻推薦算法(video recommender fusing comment analysis and latent factor model, VRFCL),從網(wǎng)絡(luò)視頻入手,分析觀看者對(duì)某特定視頻的感情傾向值,抽取評(píng)論關(guān)鍵詞作為視頻元數(shù)據(jù),從隱語(yǔ)義特征的角度建立用戶-視頻二元組.然而,目前這些基于統(tǒng)計(jì)和自然語(yǔ)言處理技術(shù)的研究,并不能解決視頻實(shí)時(shí)評(píng)論的高噪聲、不規(guī)范表達(dá)和隱含語(yǔ)義等問(wèn)題.
深度學(xué)習(xí)是一種多層描述的表征學(xué)習(xí),把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的非線性的模型轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá).通過(guò)積累足夠多的上述表征轉(zhuǎn)化,機(jī)器能學(xué)習(xí)非常復(fù)雜的函數(shù)[11].深度學(xué)習(xí)中的重要思想就是自動(dòng)提取特征,也就是表征學(xué)習(xí),故深度學(xué)習(xí)有時(shí)也被稱作表征學(xué)習(xí)或者無(wú)監(jiān)督特征學(xué)習(xí)[12],通過(guò)設(shè)定所需達(dá)到的學(xué)習(xí)目標(biāo),自動(dòng)地從原始數(shù)據(jù)學(xué)習(xí)有效的特征,而無(wú)需具體的領(lǐng)域知識(shí)作為先導(dǎo)[13].近些年,深度學(xué)習(xí)在語(yǔ)音識(shí)別、圖像處理、文本處理等多個(gè)領(lǐng)域取得重大進(jìn)展,證明了表征模型是個(gè)很有效的處理方式[14].
學(xué)術(shù)界和工業(yè)界的研究者,將深度學(xué)習(xí)、表征學(xué)習(xí)等算法應(yīng)用在語(yǔ)音領(lǐng)域,通過(guò)將語(yǔ)音特征學(xué)習(xí)和語(yǔ)音識(shí)別的目標(biāo)轉(zhuǎn)化為對(duì)原始光譜或可能的波形的特征學(xué)習(xí)的過(guò)程[15],給語(yǔ)音識(shí)別帶來(lái)巨大影響和突破性的成果.2012年,微軟發(fā)布了新版本的音頻視頻搜索服務(wù)語(yǔ)音系統(tǒng),正是基于表征學(xué)習(xí)[16].在音樂(lè)方面,表征學(xué)習(xí)的應(yīng)用使得在復(fù)調(diào)轉(zhuǎn)錄中擊敗了其他技術(shù),獲得了極大改善,并贏得了MIREX音樂(lè)信息檢索比賽[17].圖像識(shí)別方面,早在2006年通過(guò)MNIST數(shù)字圖像分類,以1.4%的錯(cuò)誤率優(yōu)勢(shì)超越了支持向量機(jī)[18],從此在數(shù)字圖像識(shí)別方面表征學(xué)習(xí)一直保持獨(dú)特的優(yōu)勢(shì).鑒于表征學(xué)習(xí)在數(shù)字圖像識(shí)別方面的效果,相關(guān)專家學(xué)者利用表征學(xué)習(xí)從數(shù)字圖像的識(shí)別,應(yīng)用到自然圖像的識(shí)別.比如在ImageNet數(shù)據(jù)集上,通過(guò)表征學(xué)習(xí)實(shí)現(xiàn)了將錯(cuò)誤率從26.1%下降到15.3%的突破[19].
自編碼器是深度學(xué)習(xí)中非常常見(jiàn)的一個(gè)表征模型框架.該框架最早使用在機(jī)器翻譯領(lǐng)域,機(jī)器翻譯是把一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言的過(guò)程,即輸入一個(gè)文本序列,輸出另外一個(gè)語(yǔ)義相同但是結(jié)構(gòu)不同的文本序列.隨著自動(dòng)編碼框架在機(jī)器翻譯領(lǐng)域的成功應(yīng)用并取得不錯(cuò)的效果,該框架已經(jīng)從機(jī)器翻譯擴(kuò)展到其他領(lǐng)域.輸入數(shù)據(jù)到編碼器,解碼器還原出原始的輸入數(shù)據(jù),自動(dòng)編碼器可以分為2個(gè)部分,即編碼器和解碼器.編碼器部分生成語(yǔ)義向量,當(dāng)前使用最多的表示技術(shù)是循環(huán)神經(jīng)網(wǎng)絡(luò),實(shí)際應(yīng)用過(guò)程中根據(jù)處理問(wèn)題的情況,經(jīng)常用到是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的變種模型:長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory, LSTM)、門控制單元循環(huán)神經(jīng)網(wǎng)絡(luò)(gated recurrent unit, GRU)、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network, BiRNN)等模型.解碼器是對(duì)編碼器生成的序列進(jìn)行解碼的過(guò)程,最常見(jiàn)的模型是循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 (recurrent neural network language model, RNNLM)[20],在自然語(yǔ)言處理中具有很好的效果,越來(lái)越受到自然語(yǔ)言處理相關(guān)領(lǐng)域的人員的重視.Glorot等人[21]通過(guò)提取出評(píng)論的深層特征,解決了傳統(tǒng)文本分類算法跨領(lǐng)域分類不理想的問(wèn)題.文獻(xiàn)[22]采用深度自編碼器,通過(guò)改進(jìn)詞匯的翻譯模型,從而有效地提取特征集,在機(jī)器翻譯過(guò)程中取得很好的效果.
近年來(lái),隨著深度學(xué)習(xí)技術(shù)在自然語(yǔ)言領(lǐng)域的發(fā)展,詞表征模型由于其低維、連續(xù)的特征表示方式和挖掘文本潛在語(yǔ)義的能力,在自然語(yǔ)言處理領(lǐng)域越來(lái)越受到重視.通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行深層次的抽象和挖掘,建立數(shù)據(jù)表征來(lái)進(jìn)行特征表示和復(fù)雜映射,從而訓(xùn)練有用的表征模型.Hinton等人[23]引入分布式表征用于符號(hào)數(shù)據(jù)的分布式表示,Bengio等人[24]首次將詞分布式表征通過(guò)神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于上下文的統(tǒng)計(jì)語(yǔ)義模型.基于學(xué)習(xí)詞的分布式表征又稱詞嵌入,Collobert等人[25]通過(guò)增加卷積層開(kāi)發(fā)了senna系統(tǒng),實(shí)現(xiàn)了在語(yǔ)言建模、詞性標(biāo)注、命名實(shí)體識(shí)別、語(yǔ)法分析等任務(wù)中共享表征.文獻(xiàn)[26-27]指出自然語(yǔ)言處理領(lǐng)域通過(guò)將詞、字符轉(zhuǎn)化為低維的實(shí)數(shù)向量的詞嵌入技術(shù),使得處理結(jié)果得到明顯改進(jìn)和提升.文獻(xiàn)[28]設(shè)計(jì)了一個(gè)字符級(jí)別的雙向LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,該模型在語(yǔ)言表征和詞性標(biāo)注(part-of-speech tagging, POS)標(biāo)簽方面展現(xiàn)出強(qiáng)大的性能.在機(jī)器翻譯領(lǐng)域,文獻(xiàn)[29]對(duì)原輸入數(shù)據(jù)或目標(biāo)輸出數(shù)據(jù)使用字符級(jí)別的RNN結(jié)構(gòu),產(chǎn)生一個(gè)“字符-字符”的翻譯生成結(jié)構(gòu).在隱含語(yǔ)義表示方面,深度語(yǔ)義匹配模型(deep structured semantic models, DSSM)[10]利用多層神經(jīng)網(wǎng)絡(luò)把搜索關(guān)鍵詞和文檔注入到低維空間,通過(guò)計(jì)算相似度,挖掘隱含語(yǔ)義.在信息檢索領(lǐng)域,使用字符的n-gram作為神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)行信息檢索模型的訓(xùn)練[30].
傳統(tǒng)自然語(yǔ)言處理技術(shù)具有很大局限性,無(wú)法解決視頻實(shí)時(shí)評(píng)論的高噪聲、不規(guī)范表達(dá)和隱含語(yǔ)義等特性,因此亟需一種容錯(cuò)性強(qiáng)、能刻畫深度語(yǔ)義的短文本理解方法的需求.本文基于“相近時(shí)間段內(nèi)的視頻實(shí)時(shí)評(píng)論具有相似語(yǔ)義”的假設(shè),提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的深度語(yǔ)義表征模型,并設(shè)計(jì)了基于語(yǔ)義檢索的彈幕解釋框架.本節(jié)對(duì)相關(guān)問(wèn)題、深度語(yǔ)義表征模型、基于語(yǔ)義檢索的彈幕解釋框架進(jìn)行介紹.
彈幕跟視頻和時(shí)間具有高度關(guān)聯(lián)性,按如下格式符號(hào)化一個(gè)彈幕:D=Vid,Did,s,t,其中Vid是彈幕所在視頻的標(biāo)識(shí)符,Did是彈幕的標(biāo)識(shí)符,s是彈幕的文本內(nèi)容,t為彈幕的時(shí)間,該時(shí)間為彈幕在視頻中出現(xiàn)的時(shí)刻.
定義1. 視頻實(shí)時(shí)評(píng)論的深度語(yǔ)義表征.給定的彈幕D=Vid,Did,s,t,該表征的目的是通過(guò)D學(xué)習(xí)一個(gè)表征模型(編碼器)φ,使得對(duì)于任意彈幕Did可獲取相應(yīng)的語(yǔ)義向量vi=φ(si),并且滿足對(duì)任意的si,sj的真實(shí)語(yǔ)義相似或具有相關(guān)性,則vi,vj具有相近的距離,否則vi,vj距離較遠(yuǎn).
視頻實(shí)時(shí)評(píng)論的深度語(yǔ)義表征模型學(xué)習(xí)過(guò)程中,需要使用語(yǔ)義相似或相關(guān)彈幕進(jìn)行訓(xùn)練,關(guān)于語(yǔ)義相似性彈幕的獲取存在如下2個(gè)挑戰(zhàn):
1) 若語(yǔ)義相似或相關(guān)彈幕的獲取采取人工標(biāo)注的方式獲取,將會(huì)帶來(lái)巨大的人力成本,同時(shí)也會(huì)限制模型的實(shí)際應(yīng)用范圍.
2) 鑒于模型的實(shí)際應(yīng)用性,需能自動(dòng)獲取語(yǔ)義相似彈幕.然而,如何使選取的語(yǔ)義相似彈幕具有最佳近似語(yǔ)義相似性,是語(yǔ)義相似彈幕獲取的最大挑戰(zhàn).
鑒于語(yǔ)義相似彈幕獲取的挑戰(zhàn),本文從彈幕的特征出發(fā),分析彈幕數(shù)據(jù)的特點(diǎn).彈幕實(shí)時(shí)性的特點(diǎn),使得其與視頻的聯(lián)系更加密切,導(dǎo)致視頻的同一個(gè)情節(jié)、一個(gè)畫面出現(xiàn)的彈幕大多數(shù)都是基于這個(gè)情節(jié)或者畫面的評(píng)論;另一方面,在觀看視頻的同時(shí)閱讀或發(fā)送彈幕,也成為了一種獨(dú)特的社交方式,有時(shí)候,彈幕的內(nèi)容不一定是針對(duì)視頻內(nèi)容的評(píng)價(jià),很可能是彈幕發(fā)送者之間的對(duì)話,也有可能出現(xiàn)某個(gè)觀眾很感興趣的彈幕,其他彈幕發(fā)送者對(duì)該彈幕的評(píng)價(jià).然而,不管是對(duì)視頻內(nèi)容的評(píng)價(jià)還是彈幕發(fā)送者之間的交互,特定時(shí)間內(nèi)的彈幕一般都具有相似性.通過(guò)對(duì)彈幕特性的研究和大量的統(tǒng)計(jì),本文提出彈幕語(yǔ)義相似性假設(shè).
假設(shè)1. 彈幕數(shù)據(jù)語(yǔ)義相似性假設(shè).基于視頻的實(shí)時(shí)評(píng)論是對(duì)視頻內(nèi)容的評(píng)價(jià)或彈幕發(fā)送者之間的交互,往往一個(gè)情節(jié)、一個(gè)畫面中一起出現(xiàn)的評(píng)論具有語(yǔ)義相似性,相近時(shí)間段內(nèi)的實(shí)時(shí)評(píng)論具有語(yǔ)義相似.
視頻中會(huì)有視頻場(chǎng)景突然轉(zhuǎn)換的場(chǎng)景,往往伴隨著彈幕的語(yǔ)義也會(huì)跟著轉(zhuǎn)換.同時(shí),當(dāng)出現(xiàn)觀眾感興趣的彈幕,往往也會(huì)伴隨著彈幕話題的轉(zhuǎn)變.這種彈幕語(yǔ)義的突然轉(zhuǎn)變,是彈幕語(yǔ)義相似性假設(shè)的一大挑戰(zhàn).然而,無(wú)論視頻情節(jié)、畫面還是彈幕發(fā)送者的話題都具有連續(xù)性,當(dāng)彈幕數(shù)據(jù)量達(dá)到一定時(shí),這種干擾情況比例很少.接下來(lái),通過(guò)定義對(duì)語(yǔ)義相似彈幕的獲取進(jìn)行量化,以便能通過(guò)實(shí)驗(yàn)對(duì)彈幕語(yǔ)義數(shù)據(jù)語(yǔ)義相似性假設(shè)的合理性和科學(xué)性進(jìn)行驗(yàn)證.
定義2. 語(yǔ)義相似彈幕.對(duì)有Vid,Did,s,t格式的彈幕,若Vidi=Vidj,|ti-tj|<δ,則si,sj為語(yǔ)義相似彈幕.其中,δ的取值需根據(jù)實(shí)驗(yàn)結(jié)果,選取合適的大小.
由語(yǔ)義相似彈幕的定義,可以得到語(yǔ)義相似彈幕集合G={s1,s2,…,sn},?si,sj∈G,i,j∈{1,2,…,n},有|ti-tj|<δ.
接下來(lái)介紹實(shí)現(xiàn)深度語(yǔ)義表征的方法和損失函數(shù).根據(jù)語(yǔ)義相似彈幕的定義,可以對(duì)彈幕按時(shí)間切分,尋找語(yǔ)義相似彈幕.基于自編碼是深度學(xué)習(xí)領(lǐng)域非常常用的框架,已成功用于降維和信息檢索任務(wù)并且在機(jī)器翻譯、文本生成方面具有獨(dú)特的優(yōu)勢(shì),為了挖掘語(yǔ)義相似彈幕的深層語(yǔ)義表征,本文采用自編碼方法,學(xué)習(xí)輸入彈幕數(shù)據(jù)的特征,生成語(yǔ)義向量.下面介紹彈幕的自編碼.
對(duì)于彈幕文本s,自編碼過(guò)程如下:
其中,φ表示編碼過(guò)程,φ(s)為對(duì)彈幕s的編碼,生成s的語(yǔ)義向量v;ψ表示解碼過(guò)程,ψ(v)為對(duì)彈幕語(yǔ)義向量v的解碼,解碼生成彈幕s′.
實(shí)現(xiàn)深度語(yǔ)義表征,必須保證彈幕在經(jīng)過(guò)自編碼進(jìn)行重構(gòu)的同時(shí),保證語(yǔ)義相似彈幕的語(yǔ)義向量距離相近,通過(guò)選取合適的損失函數(shù),使得對(duì)任意的語(yǔ)義相似的彈幕si,sj,其語(yǔ)義向量vi,vj具有相近的距離.下面介紹深度語(yǔ)義表征的損失函數(shù).
定義3. 深度語(yǔ)義表征的損失函數(shù).深度語(yǔ)義表征的損失函數(shù)由彈幕重構(gòu)的損失函數(shù)Lrec和相似彈幕語(yǔ)義向量的距離損失函數(shù)Lsem構(gòu)成.其中彈幕重構(gòu)的損失函數(shù)為每一步的似然函數(shù)的負(fù)對(duì)數(shù)之和,如式(2)所示:
(2)
語(yǔ)義向量之間的距離采用余弦相似度,兩語(yǔ)義向量余弦距離越大越相似.語(yǔ)義向量距離的損失函數(shù)Lsem如式(3)所示,以達(dá)到訓(xùn)練過(guò)程中可以不斷最小化損失率.
(3)
深度語(yǔ)義表征的訓(xùn)練過(guò)程就是不斷地最小化Lrec+Lsem的損失率以達(dá)到收斂.
在語(yǔ)義相似彈幕深度語(yǔ)義表征的基礎(chǔ)上,針對(duì)彈幕文本具有隱含語(yǔ)義的特點(diǎn),本文進(jìn)一步設(shè)計(jì)了基于語(yǔ)義檢索的彈幕解釋框架,同時(shí)作為對(duì)深度語(yǔ)義表征結(jié)果的驗(yàn)證.本文對(duì)基于語(yǔ)義檢索的彈幕解釋框架的語(yǔ)義相似彈幕檢索過(guò)程給出如定義4所示的定義.
定義4. 基于語(yǔ)義的相似彈幕檢索.初始彈幕s+,使用已經(jīng)訓(xùn)練好的深度語(yǔ)義表征模型進(jìn)行編碼φ(s+),生成s+的語(yǔ)義向量v+,在深度語(yǔ)義表征空間中檢索與語(yǔ)義向量v+距離最近的k個(gè)語(yǔ)義向量,組成語(yǔ)義相似向量集合{v1,v2,…,vk},分別對(duì)檢索到的語(yǔ)義向量使用已經(jīng)訓(xùn)練好的深度語(yǔ)義表征模型進(jìn)行解碼,生成s+的語(yǔ)義相似彈幕集合ss+.
基于語(yǔ)義檢索的彈幕解釋框架可以檢索初始彈幕的語(yǔ)義相似彈幕,以解決彈幕文本具有隱含語(yǔ)義不易理解的問(wèn)題,同時(shí),通過(guò)比較初始彈幕與初始彈幕檢索到的語(yǔ)義向量之間的語(yǔ)義相似性,對(duì)語(yǔ)義表征結(jié)果的應(yīng)用驗(yàn)證進(jìn)行驗(yàn)證.
基于假設(shè)1:同一個(gè)視頻的彈幕,如果時(shí)間間隔小于δ,為語(yǔ)義相似彈幕.本節(jié)對(duì)深度語(yǔ)義表征模型訓(xùn)練過(guò)程和模型結(jié)構(gòu)進(jìn)行相關(guān)介紹.
Fig. 2 Deep semantic representation training圖2 深度語(yǔ)義表征訓(xùn)練
接下來(lái)從字符表征層、GRU單元、編碼器、解碼器4個(gè)方面,對(duì)基于字符級(jí)別編碼解碼的循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行介紹.
Fig. 3 RNN model based on character-based encode-decode圖3 基于字符級(jí)別編碼解碼的循環(huán)神經(jīng)網(wǎng)絡(luò)模型
1) 字符表征層.字符表征層是一個(gè)線性(linear model)結(jié)構(gòu)模型.字符表征輸入為字符ci,轉(zhuǎn)化成字符ci的one-hot向量xi,向量的維度等于詞表的大小m,是個(gè)高維稀疏向量,其中詞表為模型訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中所有字符的無(wú)重復(fù)的集合,詞表的大小即集合的字符個(gè)數(shù).通過(guò)分布式表示(distributed representations)將高維稀疏向量xi轉(zhuǎn)化為α維分布式表示向量li,以達(dá)到降維.彈幕逐字符輸入字符表征層,通過(guò)轉(zhuǎn)化one-hot向量并進(jìn)行分布式表示,最終字符表征層的輸出為該字符的分布式表示向量,作為GRU單元的輸入.
2) GRU單元.在傳統(tǒng)RNN模型中,輸入li,第i步的值為gi=σ(Uli+Wgi-1),其中U為li作為輸入時(shí)的權(quán)重,gi-1為上一步的值,W為上一步值gi-1作為本步輸入時(shí)的權(quán)重,σ為非線性激活函數(shù).針對(duì)傳統(tǒng)RNN難以保存長(zhǎng)距離信息的缺點(diǎn),LSTM和GRU,通過(guò)在隱藏層計(jì)算時(shí),引入門(gate)的機(jī)制來(lái)解決RNN的梯度消失的問(wèn)題,以達(dá)到處理長(zhǎng)序列依賴.GRU[31]可以看作是LSTM的變種,它的門單元結(jié)構(gòu)與LSTM非常相似,都在一定程度上解決了長(zhǎng)距離依賴問(wèn)題,使梯度可以更好地傳播而不用面臨太多梯度衰減的影響.GRU將LSTM中的遺忘門和輸入門用更新門替代,GRU需要的參數(shù)較少,訓(xùn)練速度較快,而且需要的樣本也較少.LSTM具有較多的參數(shù),當(dāng)大量樣本的情況,可能會(huì)很難訓(xùn)練得到最優(yōu)模型.因此采用GRU處理彈幕數(shù)據(jù),GRU通過(guò)更新門,決定是否保留上一步的狀態(tài)和是否接受此本步的外部輸入.GRU單元接受字符表征層的輸出和GRU單元上一步的值作為輸入,輸出是維度為β的向量.
在基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的深度語(yǔ)義表征模型的基礎(chǔ)上,進(jìn)一步設(shè)計(jì)了基于語(yǔ)義檢索的彈幕解釋框架.該框架利用語(yǔ)義向量創(chuàng)建深度表征空間,從而對(duì)給定的初始彈幕,通過(guò)檢索與其語(yǔ)義相似但表達(dá)不同的上下文相關(guān)彈幕來(lái)對(duì)其進(jìn)行解釋,同時(shí)作為對(duì)語(yǔ)義表征結(jié)果的應(yīng)用驗(yàn)證.
對(duì)彈幕數(shù)據(jù),劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),訓(xùn)練集用于建立深度語(yǔ)義表征空間,測(cè)試數(shù)據(jù)中的彈幕作為初始彈幕,通過(guò)基于空間劃分的索引,對(duì)深度語(yǔ)義表征空間檢索其上下文相關(guān)的彈幕.其中上下文相關(guān)彈幕為初始彈幕通過(guò)基于語(yǔ)義檢索的彈幕解釋框架檢索所得的語(yǔ)義相似彈幕.
彈幕語(yǔ)義檢索的彈幕解釋框架如圖4所示,分為如下過(guò)程:
1) 建立深度語(yǔ)義空間模型
通過(guò)訓(xùn)練好的深度語(yǔ)義表征模型,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行編碼,生成語(yǔ)義向量,組成語(yǔ)義向量集合.
2) 基于空間劃分的索引
高維空間中的近似最近鄰(approximate nearest neighbor, ANN)[32]查詢問(wèn)題是一個(gè)基本的查詢范式,尤其是在在數(shù)據(jù)挖掘、信息檢索、推薦系統(tǒng)等領(lǐng)域的相似性查詢上有重要的應(yīng)用價(jià)值.局部敏感散列(locality sensitive hashing, LSH)是近似最近鄰搜索算法中最流行的一種,它有堅(jiān)實(shí)的理論依據(jù)并且在高維數(shù)據(jù)空間中表現(xiàn)優(yōu)異[33].由于能夠克服維度災(zāi)難,且算法的精度和效率能夠滿足應(yīng)用需求,因而在許多應(yīng)用中都被使用,比如圖像、視頻、音頻和DNA序列等相似性查詢[34].
Fig. 4 Time-sync comment for videos explanation framework based on semantic retrieval圖4 基于語(yǔ)義檢索的彈幕解釋框架
對(duì)生成的語(yǔ)義向量集合,使用局部敏感散列(LSH)算法建立高維數(shù)據(jù)空間索引,按照語(yǔ)義向量之間的距離,進(jìn)行高維空間劃分.
3) 初始彈幕語(yǔ)義檢索
依次從測(cè)試數(shù)據(jù)中逐條選取彈幕作為初始彈幕,使用訓(xùn)練好的深度語(yǔ)義表征模型進(jìn)行編碼,生成語(yǔ)義向量.利用初始彈幕生成的語(yǔ)義向量通過(guò)基于空間劃分的索引,查找最近的k個(gè)語(yǔ)義向量,使用訓(xùn)練好的深度語(yǔ)義表征模型解碼生成上下文相關(guān)彈幕,作為初始彈幕的解釋.
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于國(guó)內(nèi)知名視頻共享平臺(tái)bilibili(https:www.bilibili.com)爬取的真實(shí)的彈幕數(shù)據(jù),彈幕數(shù)據(jù)集如表1所示:
Table 1 Bullet-Screen Data Set表1 彈幕數(shù)據(jù)集
所有的彈幕數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),訓(xùn)練數(shù)據(jù)用于訓(xùn)練深度語(yǔ)義表征模型和建立深度語(yǔ)義表征空間,測(cè)試數(shù)據(jù)作為初始彈幕,用于彈幕語(yǔ)義檢索.其中訓(xùn)練數(shù)據(jù)取彈幕數(shù)據(jù)的90%,剩下的10%作為測(cè)試數(shù)據(jù).
實(shí)驗(yàn)步驟分為數(shù)據(jù)預(yù)處理、模型訓(xùn)練過(guò)程、語(yǔ)義檢索.
1) 數(shù)據(jù)預(yù)處理
鑒于彈幕數(shù)據(jù)存在高頻、熱點(diǎn)等重復(fù)出現(xiàn)的情況,如“哈哈哈哈哈”、“前方高能”、“23333”等,為防止語(yǔ)義檢索出現(xiàn)檢索的上下文彈幕存在大量與初始彈幕完全相同的彈幕,給語(yǔ)義檢索的驗(yàn)證帶來(lái)困難,同時(shí)考慮對(duì)比方法中檢索出上下文相關(guān)彈幕完全和初始彈幕一樣的情況,影響實(shí)驗(yàn)評(píng)測(cè)的科學(xué)性,本文對(duì)彈幕進(jìn)行去重.
根據(jù)語(yǔ)義相似性定義,存在δ使得得到的語(yǔ)義相似彈幕集合G={s1,s2,…,sn}里面的彈幕語(yǔ)義相似.此時(shí)面臨的問(wèn)題為δ取值的選取,若δ過(guò)大,語(yǔ)義相似彈幕集合G中無(wú)關(guān)彈幕過(guò)多,導(dǎo)致G中的彈幕平均語(yǔ)義相似度低,影響模型的表征效果;若δ小,語(yǔ)義相似彈幕集合G中彈幕過(guò)少,導(dǎo)致噪聲占的比重反而更大.因此,需要選擇合適的δ對(duì)彈幕進(jìn)行切分,使得所得到的語(yǔ)義相似性集合G的平均語(yǔ)義相似度最高.然而,δ的取值獲取需要根據(jù)模型訓(xùn)練的結(jié)果進(jìn)行定量分析,即其他參數(shù)不變的情況下不斷改變?chǔ)牡娜≈?,使得模型損失函數(shù)的損失率最低,選取此時(shí)的δ作為最終的δ.雖然一開(kāi)始無(wú)法確定最優(yōu)的δ的大小,但是數(shù)據(jù)預(yù)處理部分必須對(duì)彈幕進(jìn)行按δ切分,得到當(dāng)前切分時(shí)間片δ的語(yǔ)義相似度彈幕集合.本文,在δ選取時(shí),最初通過(guò)人為觀察選擇一個(gè)δ值,在此δ的情況下,根據(jù)模型訓(xùn)練結(jié)果進(jìn)行調(diào)整.考慮最初δ的選取,過(guò)大或者過(guò)小,都會(huì)給最終δ的擬合帶來(lái)大量的訓(xùn)練次數(shù),所以最初δ選擇為3 s.
據(jù)對(duì)彈幕數(shù)據(jù)的人工觀察,進(jìn)一步,本文發(fā)現(xiàn)一定時(shí)間段內(nèi),彈幕數(shù)量越多,這段時(shí)間內(nèi)彈幕的語(yǔ)義相似度越高;一定時(shí)間段內(nèi),彈幕越少,噪聲的可能性越大,語(yǔ)義相關(guān)性越小.同時(shí)如果一定時(shí)間內(nèi),彈幕數(shù)據(jù)越多噪聲彈幕的所占比重也越少,所造成的干擾的影響也越小.結(jié)合此規(guī)律,對(duì)按一定時(shí)間段切分的語(yǔ)義相似彈幕集合,根據(jù)長(zhǎng)度排序并篩選.
為了便于字符級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)的處理,彈幕長(zhǎng)度設(shè)置為定長(zhǎng).鑒于過(guò)短或者過(guò)長(zhǎng)的彈幕,所占比重很少、對(duì)模型意義不大,通過(guò)人工對(duì)彈幕數(shù)據(jù)的觀察,選取長(zhǎng)度在(5,20)之間的彈幕.同時(shí)對(duì)于彈幕數(shù)據(jù)設(shè)置成定長(zhǎng)21,不足部分補(bǔ)0.
2) 模型訓(xùn)練過(guò)程
① 模型初始化
② 數(shù)據(jù)輸入
每次取batch_size個(gè)語(yǔ)義相似彈幕集合,并在其每個(gè)彈幕集合中隨機(jī)取2條彈幕,作為模型的數(shù)據(jù)輸入.
③ 參數(shù)選取
結(jié)合模型訓(xùn)練過(guò)程,不斷調(diào)整彈幕切片時(shí)間(slice time)T、字符表征向量的維度(word repre-sentation dimension)α、GRU單元彈幕表征向量的維度(bullet-screen representation dimension)β、每輪訓(xùn)練所取語(yǔ)義相似度集合數(shù)據(jù)數(shù)量(batch size)、學(xué)習(xí)率(learning rate),使語(yǔ)義表征模型的損失率最低并保持一定范圍內(nèi)變動(dòng).經(jīng)過(guò)多次訓(xùn)練,最終選取的參數(shù)如表2所示,記錄此時(shí)的訓(xùn)練次數(shù)(nloop)、損失率(loss rate),保存此時(shí)的訓(xùn)練模型.
Table 2 The Parameter of Model表2 模型參數(shù)選取
3) 語(yǔ)義檢索
利用訓(xùn)練好的深度語(yǔ)義表征模型,對(duì)訓(xùn)練數(shù)據(jù)解碼生成深度語(yǔ)義空間,深度語(yǔ)義空間是所有訓(xùn)練數(shù)據(jù)的語(yǔ)義向量在空間的分布.對(duì)深度語(yǔ)義空間的語(yǔ)義向量建立基于空間劃分的索引.對(duì)測(cè)試彈幕逐條選取作為初始彈幕,經(jīng)過(guò)訓(xùn)練好的深度語(yǔ)義表征模型進(jìn)行解碼,生成初始彈幕的深度語(yǔ)義向量,并基于空間劃分的索引檢索與初始彈幕語(yǔ)義相近的語(yǔ)義向量,對(duì)檢索到的語(yǔ)義向量經(jīng)過(guò)訓(xùn)練好的深度語(yǔ)義表征模型的解碼,解碼生成上下文相關(guān)彈幕,其中上下文相關(guān)彈幕即為檢索到的與初始彈幕語(yǔ)義相似的彈幕.本實(shí)驗(yàn)根據(jù)檢索的相似語(yǔ)義距離,每條初始彈幕選取語(yǔ)義距離最近的10條語(yǔ)義向量.最終,每條初始彈幕存在10條上下文相關(guān)彈幕,并且語(yǔ)義相似度依次遞減.
為了驗(yàn)證基于語(yǔ)義檢索的彈幕解釋框架,本文設(shè)計(jì)了如下3個(gè)對(duì)比方法.
1) 序列自編碼.si∈G,G為相似彈幕集合,si={c1,c2,…,cn},si的語(yǔ)義向量vi,序列自編碼模型損失函數(shù)為如式(4)所示,訓(xùn)練彈幕自編碼語(yǔ)義表征模型.初始彈幕通過(guò)訓(xùn)練好的序列自編碼模型解碼,解碼生成語(yǔ)義向量,利用基于語(yǔ)義檢索的彈幕解釋框架,檢索與初始彈幕語(yǔ)義距離最近的10個(gè)向量作為語(yǔ)義相似向量,并對(duì)檢索到的語(yǔ)義相似向量使用訓(xùn)練好的序列自編碼模型進(jìn)行解碼生成上下文相關(guān)彈幕.
(4)
2) 詞袋特征索引.使用詞袋模型將訓(xùn)練數(shù)據(jù)中的彈幕轉(zhuǎn)化為向量,建立語(yǔ)義向量空間.通過(guò)初始彈幕的語(yǔ)義向量在語(yǔ)義空間尋找相似向量.
(5)
本節(jié)通過(guò)BLEU-4、流暢度、多樣性、人工評(píng)測(cè)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià).
BLEU[35]是一種流行的機(jī)器翻譯評(píng)價(jià)指標(biāo),用于分析候選詞和參考序列中n元組共同出現(xiàn)的程度,不考慮詞的位置.本實(shí)驗(yàn)用初始彈幕檢索所得上下文彈幕和初始彈幕所在的語(yǔ)義相似集合的彈幕的n元單位切片(n-gram)進(jìn)行比較,并通過(guò)計(jì)算出匹配片段的個(gè)數(shù)來(lái)計(jì)算得分.匹配的片段數(shù)越多,檢索的上下文相關(guān)彈幕越好.BLEU值的取值范圍是0~1的數(shù)值,只有2個(gè)彈幕完全一樣的情況下才會(huì)取值1.本實(shí)驗(yàn)n=4,即BLEU-4標(biāo)準(zhǔn).
除此之外,流暢度和多樣性也是評(píng)價(jià)上下文相關(guān)彈幕的重要指標(biāo)[36],其中流暢度衡量了檢索的上下文相關(guān)彈幕在表達(dá)上與人類自然語(yǔ)言相似程度,多樣性衡量了檢索的上下文相關(guān)彈幕表達(dá)的豐富程度.具體而言,流程度和多樣性指標(biāo)的定義如下:
定義5. 流暢度.T0表示所有彈幕(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))的n-gram劃分塊集合,T表示檢索的上下文相關(guān)彈幕n-gram劃分塊集合.
(6)
本實(shí)驗(yàn)對(duì)流暢度的n-gram中n設(shè)置為n∈{2,3,4,5,6}.
對(duì)于初始彈幕檢索出來(lái)的10條上下文相關(guān)彈幕隨機(jī)取3條進(jìn)行n-gram劃分,得到該初始彈幕上下文相關(guān)彈幕的n-gram劃分塊集合T.逐個(gè)取T中的元素t,并將t的權(quán)重設(shè)置為len(t),若存在T0中則取1,若不存在取0,得到該初始彈幕上下文相關(guān)彈幕的流暢度.本實(shí)驗(yàn)最終的流暢度為所有初始彈幕的上下文相關(guān)彈幕的流暢度的求和均值.
定義6. 多樣性.對(duì)初始彈幕的上下文相關(guān)彈幕兩兩選取,進(jìn)行n-gram劃分.
(7)
本文結(jié)合彈幕這類短文本特點(diǎn),多樣性的n-gram中n設(shè)置為n∈{1,2,3}.
為了更好地從語(yǔ)義的角度評(píng)測(cè)檢索的上下文相關(guān)彈幕與初始彈幕的語(yǔ)義相似性,進(jìn)一步,本文提出了人工評(píng)測(cè)[26],具體指標(biāo)的定義如下:
定義7. 人工評(píng)測(cè).
(8)
其中,Ts表示所有上下文相關(guān)彈幕,|Ts|為上下文相關(guān)彈幕的數(shù)量.Tc表示為所有初始彈幕,c∈Tc表示彈幕c與初始彈幕相似.
通過(guò)人工對(duì)上下文相關(guān)彈幕進(jìn)行標(biāo)注,若與初始彈幕語(yǔ)義相似則為1,否則為0,得分為所有取值之和除以所有上下文彈幕個(gè)數(shù).鑒于語(yǔ)義相似性,無(wú)法單純從字面進(jìn)行判別并且不同評(píng)測(cè)者對(duì)相似性的判定和理解可能存在偏差,人工評(píng)測(cè)部分采取多人評(píng)測(cè).評(píng)測(cè)過(guò)程中,對(duì)于每條上下文相關(guān)彈幕若有一半以上結(jié)果認(rèn)為與初始彈幕語(yǔ)義相似,則此彈幕判定為語(yǔ)義相似彈幕.
實(shí)驗(yàn)的結(jié)果如表3所示,深度語(yǔ)義表征模型從BLEU、流暢度、多樣性、人工評(píng)測(cè)方面都取得了較好的效果.其中多樣性、人工評(píng)測(cè)2項(xiàng)指標(biāo)得分高于其他模型,可見(jiàn)基于語(yǔ)義檢索的彈幕解釋框架,能檢索與其語(yǔ)義相似但表達(dá)不同的彈幕,從而驗(yàn)證深度語(yǔ)義表征模型的合理性.其中BLEU、流暢度2項(xiàng)指標(biāo)詞袋模型得分高于其他模型,是由于詞袋模型是通過(guò)向量檢索,所得到的彈幕是原有檢索空間存在的彈幕而非根據(jù)初始彈幕生成的上下文相關(guān)彈幕,所以BLEU和流暢度得分取值較高,超過(guò)其他模型的得分.同時(shí),考慮到詞袋模型可能存在多條上下文彈幕與初始彈幕相同,影響結(jié)果的科學(xué)性和合理性,在數(shù)據(jù)預(yù)處理部分對(duì)重復(fù)彈幕進(jìn)行了剔除.因此,詞袋特征索引模型人工語(yǔ)義相似度評(píng)測(cè)結(jié)果的得分優(yōu)于編碼器解碼器模型和序列自編碼,低于深度語(yǔ)義表征模型.
Table 3 Performance of These Models表3 實(shí)驗(yàn)驗(yàn)證結(jié)果
綜上所述,通過(guò)在BLEU、多樣性、流暢性、人工評(píng)測(cè),對(duì)本文所提出的模型進(jìn)行了充分驗(yàn)證.結(jié)果表明這種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度語(yǔ)義表征模型能夠精準(zhǔn)地刻畫彈幕短文本的語(yǔ)義,也證明了關(guān)于彈幕相關(guān)假設(shè)的合理性.
在實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,通過(guò)案例對(duì)檢索的上下文相關(guān)彈幕和初始彈幕語(yǔ)義進(jìn)行分析.首先通過(guò)初始彈幕與上下文相關(guān)彈幕的語(yǔ)義關(guān)系,利用上下文相關(guān)彈幕對(duì)初始彈幕進(jìn)行解釋,使用語(yǔ)義相似彈幕集合分析解釋的合理性.然后,結(jié)合彈幕語(yǔ)義和彈幕視頻之間的關(guān)聯(lián),通過(guò)彈幕視頻分析檢索彈幕和初始彈幕的語(yǔ)義關(guān)系.
結(jié)合案例使用上下文相關(guān)彈幕解釋初始彈幕,使用語(yǔ)義相似彈幕集分析解釋的合理性.如圖5所示,黃色為初始彈幕,白色為初始彈幕的語(yǔ)義相似彈幕,紅色為基于語(yǔ)義檢索的彈幕解釋框架檢索出的上下文相關(guān)彈幕.初始彈幕“五毛…五毛”,包含隱含語(yǔ)義,很難理解語(yǔ)義.通過(guò)檢索出來(lái)的上下文相關(guān)彈幕,很好地解釋了“五毛”的語(yǔ)義,同時(shí)根據(jù)語(yǔ)義相似彈幕也驗(yàn)證了解釋的合理性.對(duì)于如初始彈幕為“哈哈哈哈”,檢索出來(lái)的上下文相關(guān)彈幕中出現(xiàn)了“噗哈哈哈哈,結(jié)局很贊呢!”、“23333我不行了”、“哈哈哈哈哈哈哈達(dá)”.檢索的上下文彈幕和初始彈幕存在大量重復(fù)的字符,恰恰正是初始彈幕的相似語(yǔ)義的表達(dá).其中“2333”正是代表初始彈幕“哈哈哈”的語(yǔ)義,如圖6所示.
Fig. 5 Case study figure 1圖5 案例展示1
Fig. 6 Case study figure 2圖6 案例展示2
結(jié)合彈幕語(yǔ)義和彈幕視頻之間的關(guān)聯(lián),對(duì)檢索得到的上下文相關(guān)彈幕,通過(guò)結(jié)合視頻進(jìn)行解釋分析,比如彈幕“這才是開(kāi)始”,從彈幕文本的自身角度,很難理解此句彈幕所表達(dá)的真實(shí)語(yǔ)義,通過(guò)深度語(yǔ)義檢索出來(lái)的相似彈幕為“不敢放大看”、“這個(gè)最嚇人”等令人費(fèi)解的語(yǔ)句.結(jié)合初始彈幕“不敢放大看”的視頻標(biāo)識(shí)符和時(shí)間,定位到所在視頻的出現(xiàn)地方.通過(guò)人工驗(yàn)證,此視頻為一部恐怖片,彈幕所出現(xiàn)的情節(jié)是靈異事件的開(kāi)場(chǎng)部分.通過(guò)視頻本身的內(nèi)容,很好地驗(yàn)證了初始彈幕檢索出來(lái)的上下文彈幕的合理性.
綜上所述,通過(guò)具體案例分析得到的上下文相關(guān)彈幕大多是初始彈幕和視頻情節(jié)的語(yǔ)義相似解釋和表達(dá),從而也驗(yàn)證了檢索的上下文相關(guān)彈幕的合理性和準(zhǔn)確性.
針對(duì)視頻實(shí)時(shí)評(píng)論的高噪聲、不規(guī)范表達(dá)和隱含語(yǔ)義等特性,使得傳統(tǒng)自然語(yǔ)言處理技術(shù)具有很大局限性,本文提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的深度語(yǔ)義表征模型.該模型由于引入了字符級(jí)別的循環(huán)神經(jīng)網(wǎng)絡(luò),避免了彈幕噪聲對(duì)文本分詞帶來(lái)的影響,在實(shí)現(xiàn)語(yǔ)義表征的過(guò)程中,通過(guò)使用神經(jīng)網(wǎng)絡(luò),使得所得的語(yǔ)義向量能夠?qū)椖贿M(jìn)行更深層次的刻畫,表達(dá)其隱含語(yǔ)義.在此基礎(chǔ)上,針對(duì)彈幕文本具有隱含語(yǔ)義的特點(diǎn),本文進(jìn)一步設(shè)計(jì)了基于語(yǔ)義檢索的彈幕解釋框架,同時(shí)作為對(duì)語(yǔ)義表征結(jié)果的驗(yàn)證.本文設(shè)計(jì)了包括序列自編碼、詞袋特征索引、編碼器解碼器等多種對(duì)比方法,并通過(guò)BLEU、流暢度、多樣性等多種指標(biāo)以及人工評(píng)測(cè)對(duì)本文所提出的模型進(jìn)行了充分地驗(yàn)證,表明這種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度語(yǔ)義表征模型能夠精準(zhǔn)地刻畫彈幕短文本的語(yǔ)義,也證明了關(guān)于彈幕相關(guān)假設(shè)的合理性.
本文在研究彈幕深度語(yǔ)義表征的基礎(chǔ)上,提出基于彈幕深度語(yǔ)義表征的彈幕語(yǔ)義檢索,用于解決高噪聲、不規(guī)范表達(dá)和隱含語(yǔ)義等特性.針對(duì)視頻實(shí)時(shí)評(píng)論的研究未來(lái)可進(jìn)一步從以下4點(diǎn)更深入的研究:1)彈幕數(shù)據(jù)較傳統(tǒng)的短文本最大區(qū)別在于用語(yǔ)的隨意性,任何人都能發(fā)表自己的看法,而不同的人擁有不同的風(fēng)格,因此利用用戶ID信息對(duì)語(yǔ)義的分析可能有一定的幫助,更好地體現(xiàn)彈幕的價(jià)值.2)若對(duì)視頻類型進(jìn)行分類,分析不同類別視頻中用戶行為的差異性,將具有巨大價(jià)值.3)未來(lái)的工作進(jìn)一步將通過(guò)實(shí)驗(yàn)對(duì)諸如搜索引擎搜索結(jié)果、論壇評(píng)論、微博等短文本適用性進(jìn)行探究,并將本文中對(duì)視頻短文本的分析推廣到搜索引擎搜索結(jié)果、論壇評(píng)論、微博等短文本.4)若考慮引入文本生成模型,在彈幕深度語(yǔ)義表征模型的基礎(chǔ)上,進(jìn)行彈幕生成,設(shè)計(jì)彈幕自動(dòng)回復(fù)、評(píng)論自動(dòng)生成,將具有重大實(shí)際應(yīng)用價(jià)值,也是未來(lái)的研究方向之一.