国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度視覺(jué)語(yǔ)義嵌入的視頻縮略圖推薦

2020-01-02 09:07張夢(mèng)琴孟權(quán)令張維剛
關(guān)鍵詞:關(guān)鍵幀語(yǔ)句語(yǔ)義

張夢(mèng)琴,孟權(quán)令,張維剛

(哈爾濱工業(yè)大學(xué)(威海)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,威海264209)

隨著移動(dòng)互聯(lián)網(wǎng)的快速普及和智能電子設(shè)備的高速發(fā)展,人們獲取信息的方式已不僅僅滿(mǎn)足于圖像,而直接選擇使用信息更豐富、畫(huà)面感更強(qiáng)的視頻,因此也帶動(dòng)了很多視頻分享網(wǎng)站和APP的快速崛起,比如YouTube、優(yōu)酷,以及最近兩年快速流行的抖音、快手等短視頻分享APP。人們?cè)絹?lái)越熱衷于將自己生活中發(fā)生的事情用短視頻的形式記錄下來(lái),并且分享到主流的視頻共享網(wǎng)站上。再加上一些新聞、體育、電視、電影等相關(guān)的視頻,使得互聯(lián)網(wǎng)上的網(wǎng)絡(luò)視頻每天爆炸式增長(zhǎng),充斥在網(wǎng)絡(luò)生活中。

為了能在海量的視頻資源中快速地提高某段視頻的點(diǎn)擊率,以及快速高效地為用戶(hù)找到需要的視頻資源,現(xiàn)在較大型的視頻分享網(wǎng)站都會(huì)對(duì)每段視頻添加一個(gè)視頻縮略圖,并配上合適的標(biāo)注文本,以將視頻的內(nèi)容“直截了當(dāng)”的呈現(xiàn)給用戶(hù)??梢?jiàn),對(duì)于一段視頻,用戶(hù)初步看到的是視頻縮略圖的內(nèi)容及對(duì)應(yīng)的標(biāo)注文本,這也是決定其是否點(diǎn)擊并觀看該視頻的關(guān)鍵要素之一。一個(gè)好的視頻縮略圖會(huì)讓這段視頻更有吸引力,所以研究一種能夠自動(dòng)提取有意義且有較好代表性的視頻縮略圖的方法就顯得尤為重要。

對(duì)于標(biāo)注文本,一般由視頻上傳者手動(dòng)輸入,也可通過(guò)視頻字幕(video captioning)技術(shù)來(lái)自動(dòng)生成。既然有了標(biāo)注文本,縮略圖自然要和文本內(nèi)容相匹配,因此,如何根據(jù)已有標(biāo)注文本為視頻選擇一個(gè)合適的視頻縮略圖就成為一個(gè)值得研究的問(wèn)題。本文提出一種基于深度視覺(jué)語(yǔ)義嵌入的網(wǎng)絡(luò)視頻縮略圖自動(dòng)生成框架,主要針對(duì)給定的一段視頻及描述視頻內(nèi)容的標(biāo)注文本,從視頻中選取出既與標(biāo)注文本內(nèi)容相符又滿(mǎn)足用戶(hù)瀏覽體驗(yàn)需求的視頻幀作為該視頻的縮略圖。該方法首先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)提取視頻幀的視覺(jué)特征,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)提取標(biāo)注文本的語(yǔ)義特征;然后將視覺(jué)特征與語(yǔ)義特征嵌入到視覺(jué)語(yǔ)義潛在空間,視覺(jué)語(yǔ)義潛在空間是指視覺(jué)特征與語(yǔ)義特征具有相同維度與表示方式的空間,以便對(duì)視覺(jué)特征與語(yǔ)義特征進(jìn)行相似度匹配;最后按照相似度得分對(duì)視頻幀排序,選出分?jǐn)?shù)最高的一個(gè)視頻幀作為該視頻的縮略圖。同時(shí),該方法還將選出多個(gè)與文本語(yǔ)義內(nèi)容相關(guān)聯(lián)的視頻幀來(lái)作為推薦縮略圖呈現(xiàn)給用戶(hù),以提高用戶(hù)的可選擇性。為了將選出的得分最高的縮略圖與推薦的縮略圖序列進(jìn)行區(qū)分,本文將前者稱(chēng)為關(guān)鍵縮略圖,后者稱(chēng)為推薦縮略圖序列。

本文的貢獻(xiàn)在于:①提出一個(gè)完整的視頻縮略圖推薦框架,該框架能夠根據(jù)描述語(yǔ)句推薦相關(guān)聯(lián)的視頻縮略圖序列;②提出一種深度視覺(jué)語(yǔ)義嵌入模型,模型將整個(gè)語(yǔ)句的語(yǔ)義特征與圖像的視覺(jué)特征嵌入到共同的潛在空間中以獲得兩者的相關(guān)性;③在已有相關(guān)數(shù)據(jù)集的基礎(chǔ)上,創(chuàng)建適用于本文任務(wù)的數(shù)據(jù)集,并取得較好的結(jié)果。

1 相關(guān)工作

大部分視頻分享網(wǎng)站都用到了視頻縮略圖自動(dòng)生成技術(shù),但一些視頻分享網(wǎng)站的視頻縮略圖通常是來(lái)自于視頻的固定某個(gè)時(shí)序位置(第一幀、最后一幀或者中間幀),或者借助相關(guān)的圖像捕獲工具隨機(jī)從視頻中捕獲一張圖片作為視頻縮略圖。很顯然,這種方法獲取的視頻縮略圖不具有代表性并且選取的圖片質(zhì)量也得不到保證。

為了讓自動(dòng)生成的視頻縮略圖更具有代表性,Gao等[1]提出了一種反映視頻內(nèi)容主題的視頻縮略圖提取算法,他們注意到基于視頻幀顏色和運(yùn)動(dòng)信息等底層特征的所選幀可能不具有語(yǔ)義代表性,所以使用主題標(biāo)準(zhǔn)對(duì)生成縮略圖的關(guān)鍵幀進(jìn)行排序。Lian和Zhang[2]提出使用包含正面人臉信息、側(cè)面人臉信息的高級(jí)視頻特征與包含灰度直方圖、像素值標(biāo)準(zhǔn)方差等低級(jí)視覺(jué)信息特征進(jìn)行融合來(lái)選擇最后的縮略圖的方法。Jiang和Zhang[3]提出一種矢量量化方法來(lái)生成視頻縮略圖,利用視頻時(shí)間密度函數(shù)(VIDF)來(lái)研究視頻數(shù)據(jù)的時(shí)間特性,使用獨(dú)立分量分析(ICA)構(gòu)建空間特征。Liu等[4]提出了一種查詢(xún)敏感的動(dòng)態(tài)網(wǎng)絡(luò)視頻縮略圖生成方法,所選的縮略圖不僅在視頻內(nèi)容上具有代表性還滿(mǎn)足了用戶(hù)的需求。而Zhang等[5]結(jié)合其之前在文獻(xiàn)[6]中所提出的基于圖像質(zhì)量評(píng)估和視覺(jué)顯著性分析的視頻縮略圖提取方法以及在文獻(xiàn)[4]中發(fā)表的方法,提出一種綜合考慮圖像質(zhì)量評(píng)估、圖像的可訪問(wèn)性、圖像的內(nèi)容代表性以及縮略圖與用戶(hù)查詢(xún)的關(guān)系等因素的方法,推薦出同時(shí)滿(mǎn)足視頻用戶(hù)與瀏覽器需求的縮略圖。Zhao等[7]在基于視覺(jué)美學(xué)的自動(dòng)縮略圖選擇系統(tǒng)[8]的基礎(chǔ)上提出一種利用視覺(jué)元數(shù)據(jù)和文本元數(shù)據(jù)來(lái)自動(dòng)合成類(lèi)似雜志封面形式的視頻縮略圖方法;所推薦的縮略圖不是取自于原視頻,而是通過(guò)自動(dòng)合成來(lái)得到的。

上述的部分視頻縮略圖選擇方法[2-3,6]都集中于單純從視頻內(nèi)容來(lái)學(xué)習(xí)視覺(jué)代表性。文獻(xiàn)[1,4-5]研究了如何將查詢(xún)與視頻內(nèi)容相結(jié)合來(lái)為不同查詢(xún)提供不同的縮略圖,但是他們都是使用基于搜索的方法。而Liu等[9]首次引入基于學(xué)習(xí)的方法,將深度視覺(jué)語(yǔ)義嵌入模型應(yīng)用到視頻縮略圖生成任務(wù)中,開(kāi)發(fā)一種多任務(wù)深度視覺(jué)語(yǔ)義嵌入模型,將查詢(xún)和視頻縮略圖映射到一個(gè)共同的潛在語(yǔ)義空間,直接計(jì)算查詢(xún)與視頻縮略圖之間的相似度,使得應(yīng)用可以根據(jù)視覺(jué)和邊緣信息自動(dòng)選擇依賴(lài)于查詢(xún)的縮略圖,但該方法的局限在于所用查詢(xún)是以Word Embedding(詞嵌入向量,是指將一個(gè)單詞轉(zhuǎn)換成固定長(zhǎng)度的向量表示形式)嵌入到潛在空間中,且一次只能獲取單個(gè)單詞的Word Embedding表示。對(duì)于查詢(xún)語(yǔ)句或者多個(gè)查詢(xún)關(guān)鍵詞需要將查詢(xún)以單詞的向量形式依次與視頻幀特征進(jìn)行相似度匹配,這種匹配方式忽略了查詢(xún)單詞之間的關(guān)聯(lián)信息。此外,文獻(xiàn)[9]中的視頻幀特征只使用簡(jiǎn)單幾層的CNN進(jìn)行提取,所提取的視頻幀特征也不夠豐富。本文提出的基于深度視覺(jué)語(yǔ)義嵌入的視頻縮略圖提取方法框架如圖1所示。首先使用預(yù)訓(xùn)練的深度CNN有效地依次提取各關(guān)鍵幀的視覺(jué)特征,同時(shí)使用基于RNN的神經(jīng)語(yǔ)言模型將整個(gè)語(yǔ)句的語(yǔ)義特征嵌入到一個(gè)固定的向量,使得語(yǔ)義特征不但包含了單詞之間的關(guān)聯(lián)信息,也更易與視覺(jué)特征進(jìn)行相關(guān)性比較。

圖1 基于深度視覺(jué)語(yǔ)義嵌入模型的視頻縮略圖推薦框架Fig.1 Video thumbnail recommendation framework based on deep visual-semantic embedding model

2 深度視覺(jué)語(yǔ)義嵌入學(xué)習(xí)方法

基于深度視覺(jué)語(yǔ)義嵌入的縮略圖推薦學(xué)習(xí)方法首先需要訓(xùn)練深度視覺(jué)語(yǔ)義嵌入模型,然后利用該模型實(shí)現(xiàn)縮略圖推薦。因此本節(jié)首先介紹深度視覺(jué)語(yǔ)義嵌入模型,然后介紹整個(gè)視頻縮略圖推薦框架。

2.1 深度視覺(jué)語(yǔ)義嵌入模型

深度視覺(jué)語(yǔ)義嵌入模型[10],實(shí)現(xiàn)將從文本域中學(xué)習(xí)的語(yǔ)義信息和圖像中的視覺(jué)信息共同嵌入到一個(gè)潛在的空間中,以便直接計(jì)算文本與圖像之間的相關(guān)性。并且對(duì)于與圖像內(nèi)容無(wú)關(guān)的語(yǔ)義信息也能夠根據(jù)與圖像之間的相關(guān)性,返回相關(guān)性較高的圖像[9]。而本文的任務(wù)就是從視頻中選擇與給定的語(yǔ)句語(yǔ)義相關(guān)的視頻幀作為推薦的視頻縮略圖,因此可利用深度視覺(jué)語(yǔ)義嵌入模型來(lái)計(jì)算給定的語(yǔ)句信息與視頻幀之間的相關(guān)性。所提出的深度視覺(jué)語(yǔ)義嵌入模型框架如圖2所示。首先使用預(yù)訓(xùn)練的CNN依次提取視頻關(guān)鍵幀序列的視覺(jué)特征,再使用基于RNN的神經(jīng)語(yǔ)言模型來(lái)提取文本的語(yǔ)義特征,并將視覺(jué)特征與語(yǔ)義特征嵌入到視覺(jué)語(yǔ)義潛在空間。

近年來(lái),RNN由于具有特定的記憶功能已經(jīng)在處理序列問(wèn)題和自然語(yǔ)言處理等領(lǐng)域取得了很大的成功,所以本文使用RNN的變式即擅長(zhǎng)解決中長(zhǎng)文本序列間依賴(lài)問(wèn)題的門(mén)控循環(huán)單元(GRU)[11]來(lái)提取單詞之間的依賴(lài)信息。對(duì)于給定的描述語(yǔ)句,本文方法不再是簡(jiǎn)單的提取一個(gè)單詞的Word Embedding來(lái)作為其特征向量,而是將一句話(huà)中的所有單詞都用Word Embedding表示,然后將整句話(huà)作為序列輸入GRU單元,最終輸出一個(gè)表達(dá)這句話(huà)語(yǔ)義特征的向量,這也是典型的多對(duì)一關(guān)聯(lián)模型,其主要結(jié)構(gòu)如圖3所示,本文方法使用GRU的最后一層隱層狀態(tài)hn,作為語(yǔ)義特征Vs:

圖2 深度視覺(jué)語(yǔ)義嵌入模型示意圖Fig.2 Schematic diagram of deep visual-semantic embedding model

式中:w1,w2,…,wn為單詞序列x1,x2,…,xn的Word Embedding形式;n為輸入的單詞個(gè)數(shù)。

本文方法使用預(yù)訓(xùn)練好的 ResNet152模型[12]來(lái)提取視頻幀的視覺(jué)特征,由于所提方法旨在將視覺(jué)特征嵌入到固定的潛在空間,因此需去除ResNet網(wǎng)絡(luò)的最后一層全連接層,并提取最后一個(gè)卷積層的特征得到視覺(jué)特征Vi。

將語(yǔ)義特征和視覺(jué)特征分別嵌入到一個(gè)N維的潛在空間得到潛在語(yǔ)義特征V′s和潛在視覺(jué)特征V′i。為使語(yǔ)義特征向量盡可能地?cái)M合提取到的視覺(jué)特征,本文采用均方誤差損失函數(shù):

式中:MSE函數(shù)用于計(jì)算兩個(gè)向量之間的均方誤差;N為潛在空間的維度(本文中是2 048維)。

圖3 神經(jīng)語(yǔ)言模型Fig.3 Neural language model

2.2 基于深度視覺(jué)語(yǔ)義嵌入模型的縮略圖推薦

本節(jié)將介紹如何利用上述深度視覺(jué)語(yǔ)義嵌入模型來(lái)為一段視頻選擇縮略圖。本過(guò)程分為2個(gè)階段,分別是關(guān)鍵幀提取和縮略圖推薦。

2.2.1 關(guān)鍵幀提取

本文方法使用基于順序聚類(lèi)與K-means聚類(lèi)相結(jié)合的關(guān)鍵幀提取算法對(duì)視頻進(jìn)行鏡頭分割。參考文獻(xiàn)[13]中的視頻鏡頭分割算法,對(duì)視頻進(jìn)行初步聚類(lèi)。首先將視頻幀映射到HSV(Hue,Saturation,Value)顏色空間,將3個(gè)顏色空間分別分成12、5和5三個(gè)量級(jí),生成對(duì)應(yīng)的歸一化顏色直方圖。將3個(gè)顏色空間的直方圖結(jié)果組合到一起為每個(gè)視頻幀生成一個(gè)22維的顏色空間向量。再用順序聚類(lèi)方法對(duì)轉(zhuǎn)換過(guò)的視頻幀進(jìn)行鏡頭分割[13]。對(duì)順序聚類(lèi)后的每個(gè)類(lèi)的視頻幀依次進(jìn)行清晰度、亮度、色偏檢測(cè),并將最后檢測(cè)的得分進(jìn)行加權(quán)融合,得出圖像質(zhì)量評(píng)價(jià)得分Df,檢測(cè)方法如下:

清晰度檢測(cè):使用Tenengrad梯度函數(shù)來(lái)計(jì)算每個(gè)視頻幀的清晰度得分fd,得分越高,圖像越清晰[14]。

色偏檢測(cè):將RGB圖像轉(zhuǎn)變到CIE L*a*b*空間(L*表示明暗度,a*表示紅-綠軸,b*表示黃-藍(lán)軸),通常存在色偏的圖像,在a*分量和b*分量上的均值會(huì)偏離原點(diǎn)很遠(yuǎn),方差也會(huì)偏?。挥?jì)算衡量圖像色偏程度的K因子得到色偏檢測(cè)得分fc,分?jǐn)?shù)越高,圖像色偏越嚴(yán)重[15]。

亮度檢測(cè):與色偏檢測(cè)相似,計(jì)算圖片在灰度圖上的均值和方差,當(dāng)存在亮度異常時(shí),均值會(huì)偏離開(kāi)均值點(diǎn)(假設(shè)為128);同樣根據(jù)計(jì)算衡量圖像亮度程度的K因子得到亮度檢測(cè)得分fb,分?jǐn)?shù)越高,圖像亮度異常越嚴(yán)重。

最后的圖像質(zhì)量評(píng)價(jià)得分為3種評(píng)價(jià)屬性的得分的加權(quán)融合。本文設(shè)置清晰度檢測(cè)的權(quán)重為0.5,亮度檢測(cè)的權(quán)重為0.3,色偏檢測(cè)的權(quán)重為0.2,由于圖像質(zhì)量與亮度檢測(cè)得分fc以及色偏檢測(cè)得分fb成反比,所以最后的得分Df為

得到每個(gè)視頻幀的圖像質(zhì)量得分Df后,通過(guò)分?jǐn)?shù)排序?qū)⒚總€(gè)聚類(lèi)中分?jǐn)?shù)較低的一半視頻幀過(guò)濾掉(對(duì)只包含一個(gè)視頻幀的聚類(lèi)不進(jìn)行過(guò)濾)。獲得過(guò)濾后的視頻幀和聚類(lèi)數(shù)K0。接下來(lái)對(duì)過(guò)濾后的視頻幀再進(jìn)行K-means聚類(lèi),K值設(shè)置為K0,得到最后的鏡頭分割結(jié)果。

如圖4所示,將視頻幀進(jìn)行鏡頭分割后,需要從每個(gè)鏡頭中提取能夠充分代表視頻鏡頭的視頻幀添加到關(guān)鍵幀序列以及為每個(gè)視頻鏡頭挑選候選縮略圖序列。

關(guān)鍵幀序列是從每個(gè)視頻鏡頭中挑選出最具代表性的一個(gè)視頻幀組成的序列,其將作為視覺(jué)語(yǔ)義嵌入模型的輸入以獲得關(guān)鍵幀的視覺(jué)特征序列。模型輸出關(guān)鍵幀的視覺(jué)特征序列中與輸入的文本語(yǔ)義特征相關(guān)性最高的視覺(jué)特征所對(duì)應(yīng)的關(guān)鍵幀作為關(guān)鍵縮略圖。

候選縮略圖序列是對(duì)關(guān)鍵幀序列的擴(kuò)充,從每個(gè)視頻鏡頭中挑選最具代表性的某幾個(gè)視頻幀,組成該視頻鏡頭的候選縮略圖序列。每個(gè)視頻鏡頭都有一個(gè)候選縮略圖序列,它們之間是獨(dú)立的。如果關(guān)鍵縮略圖屬于這個(gè)視頻鏡頭,那么這個(gè)鏡頭的候選縮略圖序列就會(huì)成為最后的推薦縮略圖序列。

圖4 基于已訓(xùn)練模型的視頻縮略圖推薦框架Fig.4 Video thumbnail recommendation framework based on trained model

為了從每個(gè)鏡頭中提取合適的視頻關(guān)鍵幀,本文使用熵值來(lái)作為視頻信息量的度量,熵值越大,表明圖像的信息越豐富,越具有代表性,在本文中,分別計(jì)算HSV三個(gè)顏色空間的熵值,其計(jì)算式為

式中:Pk為每個(gè)視頻幀生成歸一化顏色直方圖的值。然后分別計(jì)算出H 分量的熵值E(fh),m=12;S分量的熵值E(fs),m=5;以及V分量的熵值E(fv),m=5。由于人眼對(duì)Hue的敏感性比對(duì)Saturation和Value高[11],所以本文中對(duì)H、S、V三個(gè)分量的熵值分別賦0.5、0.3、0.2的權(quán)重,最終的熵值E(f)為

得到視頻鏡頭中每個(gè)視頻幀的熵值E(f)后,本文提取每個(gè)鏡頭中熵值最大的視頻幀作為該鏡頭的關(guān)鍵幀添加到關(guān)鍵幀序列。提取熵值最大的前5個(gè)視頻幀(不足5幀的鏡頭取全部視頻幀)作為該鏡頭的候選縮略圖序列。所以每個(gè)鏡頭的關(guān)鍵幀也包含在該鏡頭的候選縮略圖序列中。由于聚類(lèi)數(shù)是由順序聚類(lèi)結(jié)果而定,所以聚類(lèi)數(shù)(視頻鏡頭數(shù))是不固定的,取得的關(guān)鍵幀序列的數(shù)量也是不固定的。

2.2.2 縮略圖推薦

縮略圖推薦,如圖4所示,獲取關(guān)鍵幀序列之后需要對(duì)所有的關(guān)鍵幀進(jìn)行視覺(jué)特征提取得到視覺(jué)特征序列Vi1,Vi2…,ViN,并將這些視覺(jué)特征都映射到視覺(jué)語(yǔ)義潛在空間中。對(duì)于輸入文本,使用2.1節(jié)中訓(xùn)練好的神經(jīng)語(yǔ)言模型提取語(yǔ)義特征Vs,并將其也映射到視覺(jué)語(yǔ)義潛在空間中。分別計(jì)算潛在語(yǔ)義特征V′s與潛在視覺(jué)特征序列,…,V′iN之間的余弦相似度,相似度最大的視覺(jué)特征所對(duì)應(yīng)的關(guān)鍵幀將作為關(guān)鍵縮略圖。為了增加推薦縮略圖的多樣性與可選擇性,如果某個(gè)關(guān)鍵幀被選取作為關(guān)鍵縮略圖,由于與關(guān)鍵縮略圖在同一個(gè)視頻鏡頭中的視頻幀可能具有相同的視覺(jué)特征,因此將關(guān)鍵縮略圖所在鏡頭的候選縮略圖序列作為最后的推薦縮略圖序列。顯然,推薦的縮略圖序列,必然包含關(guān)鍵縮略圖,推薦的縮略圖序列最少包含1幀,最多包含5幀。

3 算法實(shí)現(xiàn)

3.1 數(shù)據(jù)集

本文的關(guān)鍵是訓(xùn)練深度視覺(jué)語(yǔ)義嵌入模型,在訓(xùn)練階段需要采用深度學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法,所以首先要解決的就是數(shù)據(jù)集問(wèn)題。已存在的縮略圖生成方法都是在圖像質(zhì)量評(píng)價(jià)或建立關(guān)聯(lián)模型等圖像處理的層面來(lái)獲取對(duì)應(yīng)的縮略圖,并且都是依賴(lài)于選擇算法的縮略圖生成方法。所以目前還沒(méi)有專(zhuān)門(mén)針對(duì)縮略圖推薦任務(wù)的數(shù)據(jù)集可供訓(xùn)練,本文只能自行收集或者對(duì)已有的相關(guān)數(shù)據(jù)集進(jìn)行改動(dòng)使其滿(mǎn)足對(duì)本任務(wù)的訓(xùn)練。

首先考慮的是微軟的MS COCO 2014[16]數(shù)據(jù)集,該數(shù)據(jù)集中包含8萬(wàn)多張訓(xùn)練圖片,4萬(wàn)多張測(cè)試圖片,由于該數(shù)據(jù)集是做圖像字幕(image captioning)任務(wù)常用的數(shù)據(jù)集,所以每張圖片都有5個(gè)左右的人工標(biāo)注文本語(yǔ)句來(lái)對(duì)圖像內(nèi)容進(jìn)行描述。圖像字幕任務(wù)是輸入一張圖片得到一個(gè)描述該圖像內(nèi)容的句子,本文提出的基于深度視覺(jué)語(yǔ)義嵌入的視頻縮略圖推薦任務(wù),雖然是基于視頻的任務(wù),但實(shí)質(zhì)上是根據(jù)輸入一句視頻描述文本,從視頻中獲取與文本內(nèi)容相關(guān)聯(lián)的一張圖像。相比于圖像字幕任務(wù),本文的任務(wù)是從文本到圖像的一個(gè)相反的過(guò)程,所以可以將MS COCO 2014數(shù)據(jù)集中的標(biāo)注語(yǔ)句作為模型的訓(xùn)練數(shù)據(jù),將圖片作為目標(biāo)值來(lái)進(jìn)行模型的訓(xùn)練,獲得用于訓(xùn)練的{語(yǔ)句,縮略圖}對(duì)。

另一個(gè)數(shù)據(jù)集是微軟的MSR-VTT(MSR Video-to-Text)[17],該數(shù)據(jù)集是用來(lái)做視頻相關(guān)任務(wù),比如視頻字幕。數(shù)據(jù)集中每段視頻大約有20條描述性語(yǔ)句,每段視頻時(shí)長(zhǎng)在20 s以?xún)?nèi)。由于本文的訓(xùn)練目標(biāo)是獲得圖像,所以需要對(duì)此數(shù)據(jù)集進(jìn)行重新標(biāo)注,生成適合本任務(wù)的數(shù)據(jù)集。本文根據(jù)MSR-VTT數(shù)據(jù)集提供的描述性語(yǔ)句從對(duì)應(yīng)的視頻中選出與語(yǔ)句內(nèi)容最相關(guān)并且視覺(jué)效果較好的視頻幀,組成訓(xùn)練需要的{語(yǔ)句,縮略圖}對(duì)。由于該數(shù)據(jù)集中有很多存在偏義以及無(wú)法從視頻中獲得相關(guān)視頻幀的描述語(yǔ)句,所以本文對(duì)原數(shù)據(jù)集提供的描述語(yǔ)句進(jìn)行了篩選,每段視頻只留取10句左右的描述語(yǔ)句。之所以要在MS COCO 2014數(shù)據(jù)集訓(xùn)練后還用這個(gè)視頻數(shù)據(jù)集來(lái)訓(xùn)練是因?yàn)镸S COCO 2014數(shù)據(jù)集圖片之間的差異較大,圖片之間以及標(biāo)注文本之間的關(guān)聯(lián)性較小,不利于細(xì)節(jié)處的學(xué)習(xí)。而從MSR-VTT數(shù)據(jù)集中選出的句子有些來(lái)源于同一段視頻,所以語(yǔ)句之間的關(guān)聯(lián)性較大,而對(duì)應(yīng)的圖片之間也會(huì)存在一定的聯(lián)系,更有利于模型的學(xué)習(xí)。最后從MSR-VTT數(shù)據(jù)集的前400段視頻中收集了4 000多個(gè)描述語(yǔ)句以及對(duì)應(yīng)的800多個(gè)視頻幀,其中不同的標(biāo)注文本可能會(huì)對(duì)應(yīng)同一個(gè)視頻幀,最后得到包含4 000多個(gè){語(yǔ)句,縮略圖}對(duì)的數(shù)據(jù)集。

3.2 模型的訓(xùn)練

3.2.1 文本預(yù)處理

所使用的語(yǔ)料庫(kù)來(lái)源于MS COCO 2014數(shù)據(jù)集中的標(biāo)注文本。首先將所有標(biāo)注語(yǔ)句中的單詞都轉(zhuǎn)化為小寫(xiě)形式,然后使用NLTK工具包中的word_tokenize函數(shù)對(duì)句子進(jìn)行分詞處理,并將標(biāo)點(diǎn)符號(hào)都移除。對(duì)每個(gè)單詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率小于3次的單詞移除。再加上<pad><unk>這2個(gè)補(bǔ)齊和補(bǔ)缺的標(biāo)注符,一共得到8 576個(gè)單詞的語(yǔ)料庫(kù)。對(duì)于輸入的文本語(yǔ)句,需要將語(yǔ)句中單詞映射成詞匯表中對(duì)應(yīng)的單詞序列號(hào),并且將每條語(yǔ)句的長(zhǎng)度都設(shè)置為30,語(yǔ)句長(zhǎng)度不夠就用<pad>對(duì)應(yīng)的序列號(hào)補(bǔ)齊,在語(yǔ)料庫(kù)中找不到對(duì)應(yīng)單詞則用<unk>對(duì)應(yīng)的序列號(hào)代替。

3.2.2 圖像預(yù)處理

訓(xùn)練階段的縮略圖圖像以及測(cè)試階段的視頻關(guān)鍵幀在進(jìn)行視覺(jué)特征提取之前,需要將圖像縮放到224×224大小。然后使用預(yù)訓(xùn)練的Res-Net152網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行特征提取,并將最后一個(gè)卷積層的特征保存下來(lái),得到一個(gè)2 048維的特征向量。

3.2.3 參數(shù)設(shè)置

訓(xùn)練模型階段:數(shù)據(jù)集形式為{語(yǔ)句,縮略圖}對(duì),潛在語(yǔ)義空間的維度是2 048維。訓(xùn)練神經(jīng)語(yǔ)言模型時(shí),設(shè)置Word Embedding維度為512,輸出的語(yǔ)義特征維度為2 048。由于2個(gè)數(shù)據(jù)集的規(guī)格不同,需要對(duì)其進(jìn)行分開(kāi)訓(xùn)練,先在MS COCO 2014數(shù)據(jù)集上進(jìn)行訓(xùn)練,設(shè)置BatchSize為128,學(xué)習(xí)率為0.001,學(xué)習(xí)了2個(gè)epoch。然后在MS COCO 2014訓(xùn)練的基礎(chǔ)上再在處理過(guò)的MSR-VTT數(shù)據(jù)集上進(jìn)行訓(xùn)練,設(shè)置BatchSize為16,學(xué)習(xí)率為0.001,學(xué)習(xí)了100個(gè)epoch。所有的參數(shù)都使用Adam優(yōu)化器進(jìn)行優(yōu)化。

在生成縮略圖階段:首先對(duì)視頻每6幀提取一幀作為視頻的輸入,在進(jìn)行順序聚類(lèi)時(shí),經(jīng)過(guò)多次實(shí)驗(yàn)將閾值設(shè)置為0.85。順序聚類(lèi)所得的聚類(lèi)數(shù)作為K-means聚類(lèi)的K值。

4 實(shí)驗(yàn)結(jié)果

為了有效地對(duì)本文提出的框架進(jìn)行評(píng)估,本文分別從YouTube和優(yōu)酷網(wǎng)站下載了不同類(lèi)別的視頻來(lái)測(cè)試該框架推薦的視頻縮略圖的效果。用于測(cè)試的視頻類(lèi)別主要有:教育、娛樂(lè)、電影、游戲與卡通、新聞與政治、生活、體育等。使用擊中率HIT@l[9]作為評(píng)價(jià)指標(biāo),即推薦的縮略圖序列中如果有與描述語(yǔ)句的語(yǔ)義內(nèi)容相匹配的縮略圖則為擊中,反之如果推薦的縮略圖序列中的所有縮略圖與語(yǔ)句描述之間都不相關(guān)的話(huà)則為不擊中。本文為了合理地顯示實(shí)驗(yàn)結(jié)果,共設(shè)置了3個(gè)等級(jí):A表示推薦的縮略圖序列中有與語(yǔ)義內(nèi)容完全相關(guān)的縮略圖,稱(chēng)為完全擊中;B表示推薦的縮略圖序列中有與語(yǔ)義內(nèi)容部分相關(guān)的縮略圖,稱(chēng)為一般擊中;C表示推薦的縮略圖序列與所給出的語(yǔ)義內(nèi)容完全不相關(guān),稱(chēng)為完全不擊中。

本文為每個(gè)類(lèi)別各選取2~4段視頻,每個(gè)視頻時(shí)長(zhǎng)在3 min左右,且都包含了多個(gè)場(chǎng)景的切換。針對(duì)每段視頻,結(jié)合所給的5個(gè)描述文本語(yǔ)句,分別進(jìn)行縮略圖推薦。根據(jù)每個(gè)描述文本語(yǔ)句從對(duì)應(yīng)的視頻中挑選出關(guān)鍵縮略圖作為默認(rèn)縮略圖,同時(shí)返回1~5個(gè)視頻幀作為推薦的縮略圖序列供用戶(hù)選擇。

本文采用主觀評(píng)價(jià)的方式來(lái)測(cè)定方法的有效性,邀請(qǐng)10位了解過(guò)視頻縮略圖任務(wù)的用戶(hù)對(duì)本文方法的推薦結(jié)果進(jìn)行了主觀打分評(píng)價(jià)。即針對(duì)每段視頻的每條描述文本語(yǔ)句所推薦的縮略圖序列,結(jié)合上述給出的3個(gè)評(píng)價(jià)等級(jí)來(lái)對(duì)推薦的結(jié)果進(jìn)行評(píng)價(jià),在實(shí)驗(yàn)測(cè)試集上獲得的評(píng)價(jià)結(jié)果如表1所示。從擊中率可以看出,所提方法對(duì)生活、電影與娛樂(lè)類(lèi)視頻所推薦的視頻縮略圖有較好的效果,而對(duì)游戲與動(dòng)畫(huà)、教育類(lèi)的視頻效果不是很理想。

圖5給出了部分推薦縮略圖示例,每個(gè)示例的第一個(gè)視頻幀即是選出的關(guān)鍵縮略圖,剩余為推薦的縮略圖序列。其中圖5(a)顯示的是完全擊中的視頻縮略圖(生活類(lèi)視頻的推薦結(jié)果),圖5(b)顯示的是完全沒(méi)有擊中的視頻縮略圖(體育類(lèi)視頻的推薦結(jié)果)。從圖5(a)中可以看出,針對(duì)每個(gè)描述文本語(yǔ)句,可得到1~5幅推薦縮略圖,推薦的縮略圖與給出的語(yǔ)句內(nèi)容完全相符,而且縮略圖序列具有一定的豐富性,增加了用戶(hù)的可選擇性;但從圖5(b)中看出,該方法針對(duì)體育類(lèi)的視頻效果并不是很好,一方面是因?yàn)轶w育類(lèi)的視頻包含較多的大幅度運(yùn)動(dòng),不能很好地提取和表征其視覺(jué)特征;另一方面是所采用的描述文本語(yǔ)句,如果其本身較復(fù)雜不易被理解,則會(huì)影響所提取的語(yǔ)義特征表達(dá),最終使得本文所描述的視覺(jué)語(yǔ)義嵌入模型不能很好的擬合。

表1 不同類(lèi)別網(wǎng)絡(luò)視頻的擊中率Table 1 Hit r ates of web videos in different categories

圖5 本文方法所獲得的推薦縮略圖序列示例Fig.5 Examples of recommended thumbnail sequence obtained by proposed method

此外,由于不是在專(zhuān)門(mén)的縮略圖推薦評(píng)測(cè)視頻集上測(cè)試,且訓(xùn)練集中所使用的{語(yǔ)句,縮略圖}對(duì)中縮略圖特征表達(dá)受限,所以本文方法目前對(duì)于通俗簡(jiǎn)單易懂的描述文本語(yǔ)句有較好的效果,而對(duì)描述復(fù)雜理解偏難的語(yǔ)句,并不能較好地推薦出合適的縮略圖序列,因此還具有很大的改進(jìn)空間。

5 結(jié) 論

1)本文針對(duì)網(wǎng)絡(luò)視頻縮略圖的自動(dòng)推薦問(wèn)題,提出一種深度視覺(jué)語(yǔ)義嵌入模型和縮略圖推薦框架,實(shí)現(xiàn)了將圖片的視覺(jué)信息與語(yǔ)句的語(yǔ)義信息嵌入到共同的潛在空間。

2)本文提出的框架能有效地根據(jù)給定的描述語(yǔ)句為用戶(hù)推薦內(nèi)容相關(guān)且具有視覺(jué)代表性的視頻縮略圖序列。20段3 min左右的視頻,100條描述語(yǔ)句,推薦的縮略圖序列完全擊中率為35.0%,完全擊中與一般擊中的總比率為68.3%。

3)本文提出的框架能夠?yàn)橛脩?hù)推薦細(xì)節(jié)多樣化的縮略圖,推薦的縮略圖語(yǔ)義場(chǎng)景相同但具體細(xì)節(jié)不同,增加了用戶(hù)的可選擇性。

4)對(duì)視頻表觀內(nèi)容有較好描述的文本語(yǔ)句,能夠獲得更好的縮略圖推薦結(jié)果;但對(duì)視頻中的運(yùn)動(dòng)信息表征識(shí)別能力偏弱,導(dǎo)致縮略圖推薦結(jié)果受影響。

由于沒(méi)有專(zhuān)門(mén)針對(duì)本文任務(wù)的數(shù)據(jù)集,所訓(xùn)練模型的準(zhǔn)確度還有待改進(jìn)。今后也需要在關(guān)鍵幀提取以及語(yǔ)料庫(kù)上進(jìn)行算法調(diào)整,以便進(jìn)一步提高模型的準(zhǔn)確度。

猜你喜歡
關(guān)鍵幀語(yǔ)句語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
基于圖像熵和局部幀差分的關(guān)鍵幀提取方法
基于誤差預(yù)測(cè)模型的半自動(dòng)2D轉(zhuǎn)3D關(guān)鍵幀提取算法
基于計(jì)算機(jī)三維動(dòng)畫(huà)建模技術(shù)的中國(guó)皮影藝術(shù)新傳承
運(yùn)動(dòng)圖像關(guān)鍵幀快速跟蹤系統(tǒng)的改進(jìn)
“吃+NP”的語(yǔ)義生成機(jī)制研究
漢語(yǔ)依憑介詞的語(yǔ)義范疇
基本算法語(yǔ)句
我喜歡
作文語(yǔ)句實(shí)錄
通城县| 韶山市| 峨山| 沿河| 云龙县| 北碚区| 罗山县| 门头沟区| 县级市| 靖边县| 井冈山市| 乳源| 靖州| 吉木萨尔县| 潼南县| 卓尼县| 卢湾区| 安福县| 逊克县| 瓦房店市| 乐亭县| 蒲城县| 万山特区| 陆丰市| 崇阳县| 资溪县| 五常市| 蓝田县| 莲花县| 措勤县| 黎川县| 雷山县| 多伦县| 潜江市| 会理县| 陕西省| 溧阳市| 鹤壁市| 潜山县| 三河市| 贵德县|