黃毅 鮑秉坤 徐常勝
摘要 視頻的自動描述任務(wù)是計算機視覺領(lǐng)域的一個熱點問題.視頻描述語句的生成過程需要自然語言處理的知識,并且能夠滿足輸入(視頻幀序列)和輸出(文本詞序列)的長度可變.為此本文結(jié)合了最近機器翻譯領(lǐng)域取得的進展,設(shè)計了基于編碼-解碼框架的雙層LSTM模型.在實驗過程中,本文基于構(gòu)建深度學(xué)習(xí)框架時重要的表示學(xué)習(xí)思想,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視頻幀的特征向量作為序列轉(zhuǎn)換模型的輸入,并比較了不同特征提取方法下對雙層LSTM視頻描述模型的影響.實驗結(jié)果表明,本文的模型具有學(xué)習(xí)序列知識并轉(zhuǎn)化為文本表示的能力.關(guān)鍵詞
視頻描述;LSTM模型;表示學(xué)習(xí);特征嵌入
中圖分類號 TP391.41;TP183
文獻標志碼 A
0 引言
隨著社會網(wǎng)絡(luò)和在線內(nèi)容分享服務(wù)的迅猛發(fā)展,互聯(lián)網(wǎng)上積累了大量的圖像、視頻等視覺數(shù)據(jù).據(jù)統(tǒng)計,每分鐘上傳YouTube視頻分享網(wǎng)站的視頻長度達到100 h,而上傳至Flickr圖片分享網(wǎng)站的圖片更是多達百萬幅.如果能充分理解如此龐大豐富的互聯(lián)網(wǎng)視覺數(shù)據(jù),它們就是一個高價值的信息庫,可以進一步為社會服務(wù).然而,為了應(yīng)對如此大量的視覺信息的收集、分類和處理工作,僅僅依靠人工方法是不夠的.這時進行視覺數(shù)據(jù)的內(nèi)容理解方面的研究工作就顯得尤為重要.
視覺數(shù)據(jù)的內(nèi)容理解在計算機視覺和多媒體應(yīng)用領(lǐng)域已有廣泛的研究,包括目標分類、檢測和圖像描述等.其中視覺數(shù)據(jù)的描述是近幾年新興的研究方向,主要研究如何自動生成對圖片或視頻片段的描述性文字,準確表達其所傳達的內(nèi)容.其在人機交互、基于內(nèi)容的視頻搜索、幫助視覺障礙者理解視覺內(nèi)容等方面都有重要的應(yīng)用.傳統(tǒng)的圖像描述方法[1]習(xí)慣將其劃為2個子問題:首先使用圖片分類技術(shù),提取圖像特征,識別圖像中實體、行為和場景;然后再結(jié)合從文本語料庫挖掘出的統(tǒng)計特征,估計最有可能的主語、動詞、賓語和地點的語法結(jié)構(gòu),最后生成圖像的文本描述.用手工設(shè)計的語法、根據(jù)所識別的內(nèi)容生成相當有限的描述性句子.這樣的方法更多的是關(guān)注圖像里面有什么,然后總是重復(fù)使用描述模型在訓(xùn)練時使用的語句,而對于圖像中的物體與物體之間、物體和環(huán)境之間的關(guān)聯(lián)及意義并不能給出滿意的描述.
顯然對圖像的自動描述需要更加高級的智能形態(tài).計算機不僅需要識別出圖像中的物體,同時必須更加深入理解視覺數(shù)據(jù)中物體之間以及物體和環(huán)境之間的關(guān)系,甚至包括一些抽象的屬性.圖像自動描述研究的突破得益于近年來計算機視覺和自然語言處理領(lǐng)域取得的進步.2012年,深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)在ImageNet對象識別挑戰(zhàn)賽中首先獲得成功[2].緊接著在2014年,機器翻譯研究獲得了巨大的進展,Cho等[3]研究人員利用一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)——長短期記憶模型(Long Short-Term Memory,LSTM)將源語言的句子編碼為一個具有豐富語義知識的向量,然后將這個語意向量作為解碼LSTM的起始隱藏狀態(tài),最后生成目標語言的句子.2015年,Google Brain團隊的Vinyals等[4]從上述研究中獲得了啟發(fā),利用CNN提取出具有高層語義知識的圖片特征,然后將其作為語言生成模型LSTM的輸入,生成文本序列.在遇見全新場景時,這個模型能夠基于圖片中物體和環(huán)境之間的交互關(guān)系,自動生成準確的圖像描述,并且使用的自然語言非常流暢.此后,該團隊發(fā)現(xiàn)對視覺模型和語言生成模型進行端到端的聯(lián)合訓(xùn)練有利于相互提升效果[5],圖片自動描述模型可以生成更精確、更細節(jié)化的句子.
而對于開放領(lǐng)域的視頻描述,其難點不僅在于難以確定視頻中的突出內(nèi)容,而且很難適當?shù)馗鶕?jù)視頻前后關(guān)系進行事件描述.視頻描述模型應(yīng)允許對可變長度輸入序列進行處理,并提供可變長度輸出.微軟亞洲研究院所提出的方法[6]將二維視覺上的卷積神經(jīng)網(wǎng)絡(luò)和三維的動態(tài)卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,并且增加了一種用于探索視覺內(nèi)容與句子語義之間關(guān)系的聯(lián)合嵌入模型.文獻[7-9]都構(gòu)建了雙層LSTM的語言生成模型,對視頻序列幀編碼和文字解碼進行聯(lián)合學(xué)習(xí).它們都可以捕捉長期依賴性,能夠如同描述靜態(tài)圖片一樣很好地描述動態(tài)視頻.
1 LSTM視頻描述模型
1.1 序列到序列框架
在例如機器翻譯、視頻描述等許多應(yīng)用場景中,需要將不同長度的輸入序列映射到不同長度的輸出序列.用于映射可變長度序列到另一可變長度序列最簡單的RNN架構(gòu)最初由Cho等[3]提出,之后被使用到機器翻譯中,獲得了當時最好的結(jié)果.研究人員把這種構(gòu)架稱作編碼-解碼或序列到序列構(gòu)架.
1.2 長短期記憶模型
在進行從輸入序列到輸出序列的映射時,能夠很好地利用序列前后之間的關(guān)系是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一個重要優(yōu)點.然而在實際操作過程中,標準的RNN結(jié)構(gòu)承載長期信息的能力非常有限.給定輸入對后續(xù)時間步上的隱藏層及輸出層的影響,會隨著網(wǎng)絡(luò)的循環(huán)而發(fā)生指數(shù)級的衰減,最后導(dǎo)致網(wǎng)絡(luò)“忘記”了最早學(xué)習(xí)到的信息.這種情況在機器學(xué)習(xí)領(lǐng)域被稱作梯度消失(Vanishing Gradient).為了解決這個問題,Hochreiter等[10]引入自循環(huán)的巧妙構(gòu)思,提出了長短期記憶(Long Short-Term Memory,LSTM)模型.
LSTM網(wǎng)絡(luò)相比簡單的循環(huán)構(gòu)架更容易學(xué)習(xí)長期依賴,其允許網(wǎng)絡(luò)在較長持續(xù)時間內(nèi)積累信息.一旦中間某些信息被使用,讓神經(jīng)網(wǎng)絡(luò)選擇將其遺忘的做法確實取得了更好的效果.LSTM已經(jīng)在極具挑戰(zhàn)性的序列處理任務(wù)上已經(jīng)取得了最先進的水平[11].
1.3 基于雙層LSTM的序列轉(zhuǎn)換模型
在視頻描述任務(wù)中,需要處理視頻的序列幀,然后輸出對應(yīng)的描述語句.序列到序列的深度學(xué)習(xí)框架可以很好地滿足這個要求.本文使用一個對時間結(jié)構(gòu)比較敏感的雙層LSTM模型:首先將視頻序列幀逐一編碼,逐步建立能夠有效地編碼視頻潛在對象、活動和場景的LSTM隱層語義表示.一旦讀取了視頻的所有幀,該模型就會逐詞生成一個句子.對于幀的編碼和詞的解碼,都利用平行語料庫共同進行學(xué)習(xí).這使得該模型具有以下特點:
1) 能夠處理不同的輸入幀數(shù)量;
2) 能夠?qū)W習(xí)和使用視頻的時間結(jié)構(gòu);
3) 能夠?qū)W習(xí)語言模型生成自然語言句子.
LSTM模型在時間上的展開如圖2所示.對于2個LSTM,隱層的單元數(shù)都設(shè)置為1 000.第1層LSTM的隱層ht作為第2層LSTM的輸入xt.在這個模型結(jié)構(gòu)中,第1層LSTM用于處理視頻輸入幀序列,第2層LSTM用于輸出單詞序列.在前幾個時間步中,第1層LSTM接受序列幀并編碼,同時第2層LSTM接收第1層LSTM的隱層ht,然后將其與零向量連接后進行編碼.這段時間,2個LSTM進行編碼不進行損失計算.在視頻所有幀都被作為輸入后,第2層LSTM接收語句開始標簽
3.3 實驗過程
本文使用CAFFE(Convolutional Architecture for Fast Feature Embedding)框架搭建深度神經(jīng)網(wǎng)絡(luò)模型[18],并對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試.
.
其中,從高維映射到低維的連接權(quán)重與雙層LSTM網(wǎng)絡(luò)共同訓(xùn)練.在整個訓(xùn)練過程中,綜合考慮訓(xùn)練的顯存消耗和模型處理視頻的長度的能力,我們將雙層LSTM視頻描述模型展開成80個時間步長,訓(xùn)練批量設(shè)置為32.在視頻幀序列輸入結(jié)束后,使用0填充后續(xù)的輸入.在切分視頻時,每隔10幀提取一個樣本,對于切分后的MSVD數(shù)據(jù)集中的視頻,都可以在80個時間步長內(nèi)編碼完成并解碼輸出詞序列.
3.4 結(jié)果分析
如表2所示的是視頻描述模型在MSVD數(shù)據(jù)集上的實驗結(jié)果.其中第1行是文獻[9]中利用VGGNet提取視頻特征訓(xùn)練LSTM描述模型的實驗結(jié)果.本文使用基于ResNet-152的特征提取和ResNet-152+BC-DNN的連接特征,在MSVD數(shù)據(jù)集上進行視頻描述實驗.
基于ResNet-152的視頻特征提取在METEOR指標上從VGGNet的29.0提高到了30.9,CIDER指標上比VGGNet略有下降.因為ResNet-152相比VGGNet對圖像中對象特征有更豐富的表示,在關(guān)注描述相關(guān)性的METEOR指標下,模型效果明顯提高.但是對象關(guān)系特征沒有提高,使關(guān)注描述結(jié)果與人為描述相似性的CIDER成績下降.
在ResNet-152特征中嵌入BC-DNN提取的關(guān)系特征后,視頻描述模型在METEOR和CIDER上的表現(xiàn)都比VGGNet情況有了提高,尤其是在關(guān)注與人為描述相似性下的CIDER得分從50.8提高到了56.2.但是在描述相關(guān)性評價的METEOR上比單純使用ResNet-152時的得分略有下降.
表3所示是3種不同特征表示方法下描述結(jié)果的例子.相比另外2種表示,ResNet+BC-DNN情況下的描述結(jié)果突出了視頻中對象之間的關(guān)系.例如表3
中第1行,ResNet+BC-DNN特征識別出了人與車之間不是簡單的騎行關(guān)系,而是人在車上做特技.
4 結(jié)束語
為視頻中的事件生成自然語言描述具有多種實際應(yīng)用.近年來,研究者們對靜態(tài)圖像和視頻描述的興趣日益激增.為了使用自然語言自動描述更廣泛的普通視頻,需要實現(xiàn)語言和視覺語意更深層次的整合.視頻自動描述技術(shù)應(yīng)該具備識別值得描述的突出事件的能力,并且應(yīng)該能夠適當?shù)孛枋鼍哂写罅坎煌瑒幼?、對象、場景和其他屬性的各種視頻內(nèi)容.基于深度神經(jīng)網(wǎng)絡(luò)的視頻描述模型在這個方向上邁出了重要的一步.
本文使用序列到序列建模的方法構(gòu)建視頻模型描述,模型首先在編碼階段按順序讀取視頻幀,然后解碼按序生成文字.該模型允許處理可變長度的輸入和輸出,同時可以對時間結(jié)構(gòu)建模.它將視頻視為一種“語言”,并采用機器翻譯的方法將視頻翻譯成文本,能夠直接從視頻和句子對中學(xué)習(xí)值得描述的顯著對象.文本的模型在MSVD數(shù)據(jù)集上的實驗獲得了較好的表現(xiàn).基于ResNet-152的視頻特征使視頻表示出更豐富的內(nèi)容,描述結(jié)果的相關(guān)性更好.基于ResNet-152+BC-DNN的特征提取在視頻表示中加入了關(guān)系特征,很大地提高了描述結(jié)果與人為描述的相似性.
參考文獻
References
[1] Thomason J,Venugopalan S,Guadarrama S,et al.Integrating language and vision to generate natural language descriptions of videos in the wild[C]∥International Conference on Computational Linguistics,2014:1218-1227
[2] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems,2012:1097-1105
[3] Cho K,Merrienboer B V,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv e-print,2014,arXiv:1406.1078
[4] Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[J].arXiv e-print,2014,arXiv:1411.4555
[5] Vinyals O,Toshev A,Bengio S,et al.Show and tell:Lessons learned from the 2015 MSCOCO image captioning challenge[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):652-663
[6] Pan Y W,Mei T,Yao T,et al.Jointly modeling embedding and translation to bridge video and language[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2016:4594-4602
[7] Donahue J,Hendricks L A,Rohrbach M,et al.Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(4):677-691
[8] Venugopalan S,Xu H,Donahue J,et al.Translating videos to natural language using deep recurrent neural networks[J].arXiv e-print,2015,arXiv:1412.4729
[9] Venugopalan S,Rohrbach M,Donahue J,et al.Sequence to sequence:Video to text[C]∥IEEE International Conference on Computer Vision,2015:4534-4542
[10] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780
[11] Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[J].arXiv e-print,2014,arXiv:1409.3215
[12] Zhou B L,Khosla A,Lapedriza A,et al.Object detectors emerge in deep scene CNNs[J].arXiv e-print,2015, arXiv:1412.6856
[13] Nian F D,Bao B K,Li T,et al.Multi-modal knowledge representation learning via webly-supervised relationships mining[C]∥ACM International Conference on Multimedia,2017(accepted)
[14] Chen D L,Dolan W B.Collecting highly parallel data for paraphrase evaluation[C]∥Meeting of the Association for Computational Linguistics:Human Language Technologies,2011:190-200
[15] Denkowski M,Lavie A.Meteor universal:Language specific translation evaluation for any target language[C]∥Workshop on Statistical Machine Translation,2014:376-380
[16] Vedantam R,Zitnick C L,Parikh D.CIDEr:Consensus-based image description evaluation[J].IEEE Conference on Computer Vision and Pattern Recognition,2015:4566-4575
[17] Elliott D,Keller F.Comparing automatic evaluation measures for image description[C]∥Meeting of the Association for Computational Linguistics,2013:452-457
[18] Jia Y Q,Shelhamer,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[J].arXiv e-print,2014,arXiv:1408.5093
[19] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[J].arXiv e-print,2015,arXiv:1512.03385