溫有福,賈彩燕,陳智能
(1.北京交通大學(xué) 交通數(shù)據(jù)分析與數(shù)據(jù)挖掘北京市重點實驗室,北京 100044; 2. 中國科學(xué)院自動化研究所 數(shù)字內(nèi)容技術(shù)與服務(wù)研究中心,北京 100190)
?
一種多模態(tài)融合的網(wǎng)絡(luò)視頻相關(guān)性度量方法
溫有福1,2,賈彩燕1,陳智能2
(1.北京交通大學(xué) 交通數(shù)據(jù)分析與數(shù)據(jù)挖掘北京市重點實驗室,北京 100044; 2. 中國科學(xué)院自動化研究所 數(shù)字內(nèi)容技術(shù)與服務(wù)研究中心,北京 100190)
摘要:隨著網(wǎng)絡(luò)和多媒體技術(shù)的發(fā)展,視頻分享網(wǎng)站中的網(wǎng)絡(luò)視頻數(shù)量呈爆炸式增長。海量視頻庫中的高精度視頻檢索、分類、標(biāo)注等任務(wù)成為亟待解決的研究問題。視頻間的相關(guān)性度量是這些問題所面臨的一個共性基礎(chǔ)技術(shù)。本文從視頻視覺內(nèi)容,視頻標(biāo)題和標(biāo)簽文本,以及視頻上傳時間、類別、作者3種人與視頻交互產(chǎn)生的社會特征等多源異構(gòu)信息出發(fā),提出一種新穎的多模態(tài)融合的網(wǎng)絡(luò)視頻相關(guān)性度量方法,并將所獲相關(guān)性應(yīng)用到大規(guī)模視頻檢索任務(wù)中。YouTube數(shù)據(jù)上的實驗結(jié)果顯示:相對于傳統(tǒng)單一文本特征、單一視覺特征的檢索方案,以及文本和視覺特征相融合的檢索方案,文本視覺和用戶社會特征多模態(tài)融合方法表現(xiàn)出更好的性能。
關(guān)鍵詞:網(wǎng)絡(luò)視頻; 海量視頻;社會特征; 交互;多源異構(gòu)信息;多模態(tài)信息融合; 相關(guān)性度量; 視頻檢索
視頻是集圖像、聲音和文字信息于一體的多源信息載體,其豐富直觀的表達(dá)形式非常契合人類接受信息的方式。隨著網(wǎng)絡(luò)和多媒體技術(shù)的快速發(fā)展,在線視頻服務(wù)正在以不可阻擋之勢在互聯(lián)網(wǎng)平臺上蓬勃發(fā)展。成立于2005年的視頻分享網(wǎng)站YouTube,目前已成為世界第三大網(wǎng)站和第二大搜索引擎。在國內(nèi),主流視頻分享網(wǎng)站優(yōu)酷網(wǎng)目前擁有超過1億網(wǎng)絡(luò)視頻,日均觀看次數(shù)超過4億次。網(wǎng)絡(luò)視頻已成為社會生活中知識傳播、信息獲取和休閑娛樂的重要載體之一。
網(wǎng)絡(luò)視頻數(shù)量的持續(xù)快速增長使得海量網(wǎng)絡(luò)視頻庫中視頻相關(guān)性的快速準(zhǔn)確度量成為一個至關(guān)重要的課題。對視頻分享網(wǎng)站而言,若能更好更快地度量網(wǎng)絡(luò)視頻之間的相關(guān)性,視頻推薦、視頻檢索、視頻主題發(fā)現(xiàn)等典型視頻服務(wù)則可以得到更好的開展。對視頻網(wǎng)站上網(wǎng)絡(luò)視頻的檢索而言,最為核心的是相關(guān)性度量問題,即對給定的查詢視頻,挖掘它與庫中其他視頻在文本或視覺上的相似性,進而得到相關(guān)度打分,通過相關(guān)度分?jǐn)?shù)的高低來得到檢索結(jié)果。關(guān)于相關(guān)性度量,有使用視頻文本相似度的方法,如Zhu等[1]應(yīng)用關(guān)鍵詞投票的相似性度量方法進行視頻文本標(biāo)題的分類。有文本相似性和視頻相似性相結(jié)合的方法,如Brezeale等[2]結(jié)合文本相似度和視覺特征相似度進行的視頻匹對與分類;Schmiedeke等[3]融合視頻的文本標(biāo)簽和視覺相似度進行視頻的分類。但主流研究集中在基于視頻內(nèi)容的相似性計算上,包括各類特征的提取、檢索結(jié)果的求精和加速等[4-9]。
近年來,人們開始引入更多的模態(tài)和信息來加強視頻相似性度量的準(zhǔn)確性。Feng等[10]融合視頻標(biāo)注、視覺、視頻間關(guān)系來提升視頻檢索質(zhì)量;Brezeale 等[11]面向視頻分類,分析比較了文本、視頻、音頻三模態(tài)融合的方法。上述方法雖然在實踐中取得了很好的效果,但忽視了網(wǎng)絡(luò)視頻網(wǎng)頁上的各種信息,例如視頻類別、視頻上傳時間、視頻作者等,我們將這些特征稱為社會特征。顯然,這些信息從特定角度體現(xiàn)了視頻內(nèi)容,可以用來更好地度量視頻之間的相關(guān)性。已有研究表明:僅僅使用視頻的視聽覺內(nèi)容很難將視頻歸到某一種類[12]。而網(wǎng)絡(luò)視頻網(wǎng)頁周邊的相關(guān)信息提供了很多的資源,這些資源可以更加準(zhǔn)確地評判視頻之間的相似性, 從而有利于檢索實現(xiàn)。目前也已經(jīng)有學(xué)者開始利用這些信息去研究網(wǎng)絡(luò)視頻的分類和檢索問題。例如Wu等[13]結(jié)合用戶興趣和文本解決視頻分類問題; Davidson 等[14]提出利用視頻的“共同觀看”關(guān)系進行視頻推薦。上述成果表明, 網(wǎng)絡(luò)視頻網(wǎng)頁上蘊含了豐富的信息,可以被用來更好地計算兩個視頻之間的相關(guān)度,從而為更多模態(tài)的融合提供更好的思路。上述多模態(tài)的融合方法,或者增加音頻、或者增加文本、或者使用視頻共現(xiàn)關(guān)系,但是沒有全面考慮社會特征對相關(guān)度度量的影響。
本文將文本(視頻標(biāo)題、視頻標(biāo)簽)、視覺(視頻內(nèi)容)、社會特征(視頻的上傳時間、視頻的作者、視頻的類別)進行全面的多模態(tài)的融合。真實網(wǎng)絡(luò)視頻數(shù)據(jù)上的實驗表明:相比于僅考慮視覺、文本、社會或者是視覺+文本的方法,本文方法可以取得5%~25%的性能提升,充分說明了本文方法的有效性。
1多模態(tài)融合的網(wǎng)絡(luò)視頻相關(guān)性度量
圖1給出了本文多模態(tài)融合的網(wǎng)絡(luò)視頻相關(guān)性度量方法的整體框架。
圖1 檢索融合流程圖Fig.1 The flow chart of image retrieval
多模態(tài)融合網(wǎng)絡(luò)視頻相關(guān)性度量方法分為3個模塊: 1)文本過濾;2)相關(guān)性度量;3)相關(guān)性融合。
對給定的網(wǎng)絡(luò)視頻,首先利用文本過濾模塊,濾除掉大量不相關(guān)的網(wǎng)絡(luò)視頻。然后,分別通過社會相關(guān)性度量、文本相關(guān)性度量和視覺相關(guān)性度量3個子模塊,計算3個模態(tài)上的相關(guān)度。最后,通過相關(guān)性融合模塊,進行融合,從而實現(xiàn)更準(zhǔn)確相關(guān)性度量。
1.1基于文本的過濾
(1)
上述步驟假設(shè):兩個網(wǎng)絡(luò)視頻的周邊文本中應(yīng)有至少一個共同的關(guān)鍵字才值得進行相關(guān)度計算。實際情況中,這一假設(shè)對絕大部分的相關(guān)視頻而言都是成立的。通過這一操作,大量無關(guān)的網(wǎng)絡(luò)視頻得到了有效濾除。
令文本過濾后生成的視頻集合為Ωq,Ωq中視頻雖然與輸入視頻有至少一個相同的關(guān)鍵字,但其中仍有大量無關(guān)或相關(guān)性不高的視頻。接下來,我們將從社會特征、文本和視覺3個模態(tài)上進行相關(guān)度挖掘和分析。首先介紹社會特征方面的度量方法。
1.2社會特征的選擇與相關(guān)性計算
社會特征是網(wǎng)絡(luò)視頻區(qū)別于其他視頻的特色之一,它泛指人與視頻各種交互行為產(chǎn)生的數(shù)據(jù)集合。典型的社會特征包括視頻上傳時間、上傳作者、視頻類別、視頻觀看次數(shù)、視頻評論等。
從社交網(wǎng)絡(luò)和多媒體的角度講,社會特征是用戶與視頻網(wǎng)頁進行的交互以及多媒體服務(wù)人員為相應(yīng)的視頻或者圖像所做的對于視頻或者圖像內(nèi)容的文字反映。社會特征包含的內(nèi)容很多,例如用戶上傳視頻的時間、視頻的分類類別、視頻的觀看次數(shù)、視頻的作者等。這些社會特征反映了用戶個人的具體信息,用戶與用戶的關(guān)聯(lián)信息等。通過用戶個人內(nèi)部的關(guān)聯(lián)信息以及用戶與用戶之間的關(guān)聯(lián)性社交網(wǎng)絡(luò),可以更容易發(fā)現(xiàn)相關(guān)性視頻,進而更好地進行視頻的相似性度量。本文選用視頻的上傳時間(反映視頻的新穎性)、視頻的分類類別、視頻上傳作者3種特征進行社會特征融合的嘗試。
1.2.1上傳時間
視頻的上傳時間是反映用戶對于當(dāng)前所關(guān)注視頻的時間在特定時間段上的描述。例如:存在3個視頻vq、vi和vj,如果vq與vi和vj之間的時間間隔分別為3個月和3年,那么vq與vi之間的相似度會更高一些。
然后,令時間間隔Δt為0.5個月,將vq經(jīng)過文本過濾后生成的視頻集合Ωq等間隔劃分為n個不相交的子集合:
(2)
(3)
式(3)實質(zhì)上是依照特定的時間間隔對視頻進行劃分,距離給定視頻vq上傳時間越近則ftime值越高。
1.2.2視頻類別
常見的視頻類別包括財經(jīng)類、政治類、綜藝類等。一般地,屬于同一個類別的視頻的相關(guān)度通常更高。例如:有3個視頻中有兩個是屬于綜藝類的,而另一個是屬于政治類的。從視頻類別的層面分析,兩個綜藝類視頻的相似性程度應(yīng)該更高一些。
對此,我們應(yīng)用式(4)反映:
(4)
式中channelq是視頻vq所屬的類別。式(4)反映了依照視頻的類別對視頻進行劃分,落入到同一個類別的視頻則其fchannel值為1。
1.2.3上傳作者
每位用戶都有自己的興趣愛好,這一特點通常在他/她上傳的視頻集合上可以得到一定體現(xiàn)。例如,用戶aq和ai上傳的視頻主要是體育類的,而用戶aj上傳的視頻主要是財經(jīng)類的,在不考慮其他因素的情況下,aq上傳的視頻與ai上傳的視頻的相關(guān)度通常比他/她與aj上傳的視頻的相關(guān)度更高。因此,本小節(jié)我們首先建立視頻作者的視頻喜好模型,然后通過喜好模型的相似度度量不同視頻在上傳用戶這一因素上的相關(guān)性。
于是,習(xí)慣了大手大腳的韓莎,不得不算計著過日子。星巴克沒了,西餐沒了,進口水果也不敢買了,甚至買兩斤排骨,杜飛都要心疼半天。
設(shè)視頻網(wǎng)站有K個視頻類別,則用戶aq上傳的所有視頻可表示為一個K維喜好向量:
(5)
式中Aq、Ai為歸一化后的作者喜好向量。
式(5)反映了若作者Aq與作者Ai有著類似的喜好向量,則他們上傳視頻的相關(guān)性在上傳作者這一維度應(yīng)被賦予更大的值。這一思想與著名的協(xié)同推薦方法有著類似之處。
1.3.4多社會特征融合
以上3個社會特征對于視頻的相似性度量都起到有益效果,我們將每個社會特征做相應(yīng)歸一化后進行融合,公式為
式中α,β,1-α-β∈[0,1]分別為上述3種社會特征的權(quán)重。本文在實驗中為三者賦予同等的權(quán)重。
1.3文本相關(guān)性計算
在文本相關(guān)性計算的過程中,我們采用了傳統(tǒng)基于文本關(guān)鍵詞匹配的方法。該方法首先基于整個視頻庫Ω中所有視頻的標(biāo)題和標(biāo)簽構(gòu)建一個N維向量空間模型。然后,基于該模型并結(jié)合文檔處理中常用的TF-IDF加權(quán)方法,將每個視頻的標(biāo)題和標(biāo)簽關(guān)鍵字集合分別表示為一個N維標(biāo)題特征向量和標(biāo)簽特征向量,通過計算不同視頻間標(biāo)題和標(biāo)簽特征向量的相似性,實現(xiàn)對它們文本相關(guān)性的評判。
1.3.1標(biāo)題
標(biāo)題是對視頻主要內(nèi)容的高度概括,通常簡要描述了視頻事件的主要內(nèi)容?;谙嚓P(guān)視頻在內(nèi)容上也存在較強相關(guān)性的假設(shè),兩個強相關(guān)的視頻標(biāo)題關(guān)鍵詞通常也會有一定交集。這種性質(zhì)則可以反映為
(6)
1.3.2標(biāo)簽
相對于標(biāo)題,標(biāo)簽通常則更加具體地反映了視頻的內(nèi)容,例如涉及的人物、地點和其他專有名詞等。與標(biāo)題類似,兩個強相關(guān)視頻的標(biāo)簽關(guān)鍵詞集合存在一定交集的情況也很常見。因此,我們通過與標(biāo)題類似的公式反映這種性質(zhì):
1.3.3文本信息融合
以上標(biāo)題和標(biāo)簽的信息從不同角度體現(xiàn)了視頻的內(nèi)容,將它們通過式(7)融合起來,可以更為準(zhǔn)確地描述了兩個視頻在文本模態(tài)上的相似度:
(7)
式中γ、1-γ∈[0,1]分別為標(biāo)題和標(biāo)簽。在實驗中γ被經(jīng)驗性的設(shè)置為0.5。
1.4視覺相關(guān)性計算
視頻的視覺內(nèi)容是用戶認(rèn)知的根本性來源,它從本質(zhì)上反映視頻的相似性程度。由此,視覺相似性計算對于視頻的相關(guān)性度量是不可或缺的一個方面。在視覺的相關(guān)性度量方面,我們采用了Zhao等[15]提出大規(guī)??截愐曨l檢測方法計算兩個給定視頻之間的視覺相似度。
該方法首先計算任意兩個視頻幀之間的視覺相似度,再根據(jù)Hough變換原理,對相似度大且在時序上有較高一致性的視頻賦予更大的相似度,該相似度基本反映了兩個視頻之間的程度。在計算視頻幀之間的兩兩相似度方面,采用的是經(jīng)典基于視覺詞袋模型的方法。其基本流程如圖2所示。
圖2 視覺詞典方法Fig.2 The method of visual vocabulary
具體地,我們首先以5 s為時間間隔,對視頻進行等間隔采樣,提取相應(yīng)圖像幀。其次,在圖像幀上提取sift特征,并利用預(yù)先訓(xùn)練好的視覺特征詞典將每個圖像幀的sift特征集合量化為一個高維的稀疏向量,進而通過比較兩個向量的相似性實現(xiàn)對圖像幀相似度的計算。
為實現(xiàn)從圖像幀相似度到視頻相似度的計算,Zhao等使用了Hough變換投票方法。其描述為:1)以等時間戳進行時間對準(zhǔn);2)進行等時間間隔霍夫投票,即如果兩個視頻某個相同時間差片段間的視覺相似性高于某一個閾值,則予以投票;3)以時間差為橫軸形成的直方圖,直方圖越高,則兩個視頻連續(xù)片段越相似,亦即視頻越相似。
除Hough變換投票外,從圖像幀相似度到視頻相似度計算方面的典型方法還有基于網(wǎng)絡(luò)流約束的線性規(guī)劃的方法[16]等??紤]更多方法并將它們的優(yōu)勢結(jié)合起來,實現(xiàn)更加準(zhǔn)確的視頻視覺相似度計算也是我們的下一步工作之一。
1.5多模態(tài)相關(guān)性計算
通過上述介紹的方法,可以分別計算得到兩個視頻在社會特征、文本和視覺模態(tài)的相似度,通過式(8)對這3方面的相似度進行融合:
(8)
式中ω、τ、1-ω-τ∈[0,1]分別為社會、文本、視覺3種異構(gòu)多模態(tài)特征的融合權(quán)重。在進行融合之前,我們將各個模態(tài)信息進行相應(yīng)的歸一化操作,每個模態(tài)信息均取相應(yīng)均等權(quán)重。
以上對本文方法的各個模塊進行了詳細(xì)介紹。本文初步探討多種在不同層次、從不同角度反映視頻相關(guān)性的信息的融合方法。在社會特征方面融合了視頻上傳日期、類別和作者信息,文本方面則融合了視頻標(biāo)題和標(biāo)簽的相似性;在整體層面,則將社會、文本和視覺三大模態(tài)的異構(gòu)信息進行了融合。目前,對于各模態(tài)內(nèi)部以及各模態(tài)之間權(quán)重的分配方面暫時沒有展開過多細(xì)節(jié)討論。
2實驗結(jié)果及分析
2.1實驗數(shù)據(jù)準(zhǔn)備
為驗證本文方法的有效性,我們在MCG-WEBV 2.0[17]數(shù)據(jù)集上進行了實驗。該數(shù)據(jù)集按月收集了2008年12月-2009年11月間YouTube給定的19個視頻類別上的“每月觀看最多”視頻,以及它們的相關(guān)視頻和同作者視頻,共計248 887個。
上述數(shù)據(jù)收集方法使得這一年內(nèi)網(wǎng)絡(luò)空間的熱點事件在該數(shù)據(jù)集上都有所體現(xiàn)?;诖?,選擇發(fā)生在這段時間內(nèi)關(guān)于11個熱點話題的視頻進行實驗,表1列出了這些話題的基本情況。
表1熱點話題的基本情況
Table 1 The hot topics
表2給出了實驗中依照特定關(guān)鍵詞篩選條件進行文本過濾后,每個話題剩余的滿足條件的視頻數(shù)量。第1列(ID)表示的是視頻的11個話題的集合,表的第2列反映了每一個主題下的關(guān)鍵詞,最后1列反映了依照篩選條件,時間間隔為依照時間(Date)參照點前后4個月的條件下,所得到的視頻數(shù)量結(jié)果。相對于整個視頻庫中總的視頻數(shù)量,本文提出的文本過濾策略平均濾掉了99.82%的視頻數(shù)據(jù)。從而使得視覺等較為耗費計算資源的運算可以在一個相對較小的集合上進行。
首先,我們使用類似文獻[18]的方法,對表1中的每一個話題給定文本篩選條件,利用1.2節(jié)中描述的文本篩選方法篩選出與這幾個話題相關(guān)的視頻集合,見表2。
表2 特定篩選條件及篩選結(jié)果
然后,對候選集合中的視頻進行人工標(biāo)注,一個視頻被標(biāo)注為與該話題相關(guān)當(dāng)且僅當(dāng)它包含了描述
上述熱點事件的鏡頭。兩個視頻的相關(guān)度被置為1(即標(biāo)注為相關(guān)視頻)當(dāng)且僅當(dāng)它們都被標(biāo)注為與同一個話題相關(guān),其余情況下,兩個視頻的相關(guān)度被置為0,即不相關(guān)。對任意一個輸入視頻,依據(jù)2.2.2小節(jié)給出的不同方法,計算它與數(shù)據(jù)集中其他視頻的相關(guān)度,為每個方法得到一個按相關(guān)度得分從高到低排序的結(jié)果列表。然后,我們用多媒體檢索中廣泛采用的AP作為衡量結(jié)果相關(guān)性度量準(zhǔn)確性的指標(biāo),其中AP的計算公式為
其中n+是測試集中相關(guān)視頻的總數(shù),n=100表示僅考慮列表的前100個結(jié)果。若第j個視頻是相關(guān)視頻,則Ij=1,否則Ij=0。Rj表示前j個結(jié)果中相關(guān)視頻的數(shù)量。 實驗中,所有被標(biāo)注為與某個話題相關(guān)的視頻組成了輸入視頻集合。它們被一一作為輸入視頻,通過2.2.2小節(jié)的各種方法得到相應(yīng)的相關(guān)視頻結(jié)果列表并計算AP。為便于結(jié)果展示和分析,我們將每個話題所有相關(guān)視頻的AP進行平均,得到該話題的AP。然后,再對多個話題AP再次求平均,得到刻畫各個方法整體性能的MAP值。
2.2多模態(tài)融合相關(guān)性度量實驗
依據(jù)第1節(jié)給出計算公式,可以得到任意兩個視頻的相關(guān)度。我們將計算得到的相關(guān)度應(yīng)用到對上述話題的網(wǎng)絡(luò)視頻檢索上,依據(jù)相關(guān)度大小從高到低對視頻進行排序。表3給出了用本文多模態(tài)融合的網(wǎng)絡(luò)視頻相關(guān)度度量方法的檢索結(jié)果。作為比較,僅用視覺相似性、文本相似性以及視覺與文本相結(jié)合相似性進行檢索的實驗結(jié)果也在表3中給出。
表3 各類方法試驗結(jié)果對照表
表3中的第1列ID表示11個相關(guān)話題,后面的每1列值表征的是AP的檢索結(jié)果;最后1列反映了實驗結(jié)果。我們的方法將特有的社會特征與文本、視覺進行融合,相比于單一的文本視覺,以及文本和視覺相融合的方法取得到了較好的效果。
綜上所述,將視覺、文本和社會特征進行多模態(tài)融合的方案取得了上述最好的結(jié)果,相對單一視覺,單一文本方法5%~25%的性能上的提升,相對于文本和視覺融合的方法,我們的方法也取得了更好的結(jié)果。
3結(jié)束語
本文提出一種新穎的網(wǎng)絡(luò)視頻相似性度量方法。從文本、視覺和社會特征3個角度同時挖掘視頻的相關(guān)關(guān)系并進行融合。在社會特征方面,我們選擇了視頻的上傳時間、作者、類別信息,給出了相關(guān)性在這3種特征上的形式化度量方法;文本特征方面,在向量空間模型中分別計算了兩個視頻在標(biāo)題和標(biāo)簽上的相似度;視覺特征方面,采用主流基于視覺拷貝視頻檢測的方法度量兩個視頻的相似性。通過在宏觀上對上述相似度進一步融合,實現(xiàn)了對視頻相關(guān)性的準(zhǔn)確魯棒度量。真實YouTube數(shù)據(jù)上的視頻檢索實驗表明,相比于僅考慮視覺、文本、或是視覺和文本相結(jié)合的方法,本文方法可取得5%~25%的性能提升。
以上工作初步證明了在相關(guān)性度量方面融合多模態(tài)信息的合理性和有效性。我們的下一步工作將在以下3個方面進行。1)研究更加有效的視頻視覺相似性度量方法。在度量細(xì)粒度的單純視頻視覺相似性的研究,已經(jīng)有兩種主流方法[18],基于這些方法的改進和融合也是一個研究點;2)探索更加有效的多模態(tài)信息融合方法。融入更多社會特征,研究多模態(tài)特征融合權(quán)重的自適應(yīng)確定方法;3)將本文方法計算得到的相關(guān)度應(yīng)用到除檢索外的更多應(yīng)用場景上,例如網(wǎng)絡(luò)視頻分類、標(biāo)注等。
參考文獻:
[1]ZHU Weiyu, TOKLU C, LIOU S P. Automatic news video segmentation and categorization based on closed-captioned text[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Tokyo, Japan, 2001: 829-832.
[2]BREZEALE D, COOK D J. Using closed captions and visual features to classify movies by genre[C]//Poster Session of the Seventh International Workshop on Multimedia Data Mining. Philadelphia, Pennsylvania, USA, 2006.
[3]SCHMIEDEKE S, KELM P, SIKORA T. TUB @ MediaEval 2011 genre tagging task: prediction using bag-of-(visual)-words approaches[C]//Working Notes Proceedings of the MediaEval 2011 Workshop. Pisa, Italy, 2011: 1-2.
[4]LAW-TO J, CHEN Li, JOLY A, et al. Video copy detection: a comparative study[C]//Proceedings of the 6th ACM International Conference on Image and Video Retrieval. New York, NY, USA, 2007: 371-378.
[5]WU Xiao, HAUPTMANN A G, NGO C W. Practical elimination of near-duplicates from web video search[C]//Proceedings of the 15th ACM International Conference on Multimedia. New York, NY, USA, 2007: 218-227.
[6]SONG Jingkuan, YANG Yi, HUANG Zi, et al. Multiple feature hashing for real-time large scale near-duplicate video retrieval[C]//Proceedings of the 19th ACM International Conference on Multimedia. New York, NY, USA, 2011: 423-432.
[7]PERRONNIN F, DANCE C. Fisher kernels on visual vocabularies for image categorization[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA, 2007: 1-8.
[8]JéGOU H, DOUZE M, SCHMID C, et al. Aggregating local descriptors into a compact image representation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA, 2010: 3304-3311.
[9]TAN H K, NGO C W, HONG R, et al. Scalable detection of partial near-duplicate videos by visual-temporal consistency[C]//Proceedings of the 17th ACM International Conference on Multimedia. New York, NY, USA, 2009: 145-154.
[10]FENG Bailan, CAO Juan, CHEN Zhineng, et al. Multi-modal query expansion for web video search[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA, 2010: 721-722.
[11]BREZEALE D, COOK D J. Automatic video classification: a survey of the literature[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2008, 38(3): 416-430.
[12]YANG Linjun, LIU Jiemin, YANG Xiaokang, et al. Multi-modality web video categorization[C]//Proceedings of the International Workshop on Workshop on Multimedia Information Retrieval. New York, NY, USA, 2007: 265-274.
[13]WU Xiao, ZHAO Wanlei, NGO C W. Towards google challenge: combining contextual and social information for
web video categorization[C]//Proceedings of the 17th ACM International Conference on Multimedia. New York, NY, USA, 2009: 1109-1110.
[14]DAVIDSON J, LIEBALD B, LIU J, et al. The YouTube video recommendation system[C]//Proceedings of the 4th ACM Conference on Recommender Systems. New York, NY, USA, 2010: 293-296.
[15]ZHAO Wanlei, WU Xiao, NGO C W. On the annotation of web videos by efficient near-duplicate search[J]. IEEE Transactions on Multimedia, 2010, 12(5): 448-461.
[16]TAN H K, NGO C W, CHUA T S. Efficient mining of multiple partial near-duplicate alignments by temporal network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(11): 1486-1498.
[17]CAO J, ZHANG Y D, SONG Y D, et al. MCG-WEBV: a benchmark dataset for web video analysis[R]. Technical Report, Beijing, China: Institute of Computing Technology, 2009: 324-334.
[18]JIANG Yugang, JIANG Yudong, WANG Jiajun. VCDB: a large-scale database for partial copy detection in videos[M]//FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision-ECCV 2014. Zurich, Switzerland: Springer, 2014: 357-371.
溫有福,男,1991年生,碩士研究生, 主要研究方向為視頻/圖像檢索、社交網(wǎng)絡(luò)分析。
賈彩燕, 女, 1976年生, 副教授,博士生導(dǎo)師,博士, 主要研究方向為數(shù)據(jù)挖掘、社會計算、文本挖掘及生物信息學(xué)。近年來主持國家自然科學(xué)基金面上項目1項,主持國家自然科學(xué)基金青年基金項目和面上項目1項;參加國家自然科學(xué)基金重點項目、國家科技重大專項、北京市自然科學(xué)基金項目各1項;獲得湖南省科學(xué)技術(shù)進步二等獎1項,發(fā)表學(xué)術(shù)論文40余篇。
陳智能, 男,1982年生,副研究員, 博士, 主要研究方向為多媒體內(nèi)容分析與檢索、機器學(xué)習(xí)、圖像處理。近年來主持國家自然科學(xué)基金青年基金1項,發(fā)表學(xué)術(shù)論文20余篇。
中文引用格式:溫有福,賈彩燕,陳智能.一種多模態(tài)融合的網(wǎng)絡(luò)視頻相關(guān)性度量方法[J]. 智能系統(tǒng)學(xué)報, 2016, 11(3): 359-365.
英文引用格式:WEN Youfu, JIA Caiyan, CHEN Zhineng. A multi-modal fusion approach for measuring web video relatedness[J]. CAAI transactions on intelligent systems, 2016,11(3): 359-365.
A multi-modal fusion approach for measuring web video relatedness
WEN Youfu1,2, JIA Caiyan1, CHEN Zhineng2
(1. Beijing Key Lab of Traffic Data Analysis and Mining,Beijing Jiaotong University, Beijing 100044, China; 2. Interactive Media Research and Services Center, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China)
Abstract:With the advances in internet and multimedia technologies, the number of web videos on social video platforms rapidly grows. Therefore, tasks such as large-scale video retrieval, classification, and annotation become issues that need to be urgently addressed. Web video relatedness serves as a basic and common infrastructure for these issues. This paper investigates the measurement of web video relatedness from a multi-modal fusion perspective. It proposes to measure web video relatedness based on multi-source heterogeneous information. The multi-modal fusion simultaneously leverages videos' visual content, title, and tag text as well as social features contributed by human-video interactions (i.e., the upload time, channel, and author of a video). Consequently, a novel multi-modal fusion approach is proposed for computing web video relatedness, which serves to give a ranking criterion and is applied to the task of large-scale video retrieval. Experimental results using YouTube videos show that the proposed text, visual, and users' social feature multi-modal fusion approach performs best in comparison tests with three alternate approaches; i.e., those approaches that compute web video relatedness based just on text features, just on visual features, or jointly on text and visual features.
Keywords:web video; large-scale video; social feature; human-video interactions; multi-source heterogeneous information; social features; multi-modal fusion; relatedness measurement; video retrieval
作者簡介:
中圖分類號:TP393
文獻標(biāo)志碼:A
文章編號:1673-4785(2016)03-0359-07
通信作者:賈彩燕. E-mail:cyjia@bjtu.edu.cn.
基金項目:國家自然科學(xué)基金項目(61473030,61303175);重點大學(xué)研究基金項目(2014JBM031);重點實驗室數(shù)字媒體技術(shù)開放課題
收稿日期:2016-03-19.網(wǎng)絡(luò)出版日期:2016-05-13.
DOI:10.11992/tis.201603040
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0957.032.html