周巨,羅兵
(五邑大學(xué) 智能制造學(xué)部,廣東 江門 529020)
手機、網(wǎng)絡(luò)等視頻相關(guān)設(shè)備和技術(shù)的進步使得視頻數(shù)據(jù)快速增加,大量的視頻數(shù)據(jù)也對視頻摘要提取產(chǎn)生了更大的需求.視頻摘要是從原始視頻數(shù)據(jù)中提取出的能反映原視頻主要信息內(nèi)容的單幀或一組少量視頻幀,用于視頻預(yù)覽、視頻分類、視頻識別等應(yīng)用.
現(xiàn)有的視頻摘要生成算法分為基于特征提取和基于視頻鏡頭分割兩類[1].其中基于特征的方法為了有效利用多幀圖像的多特征信息,無法預(yù)先去除冗余幀,每一幀都需要計算多特征值,再進行多次聚類,計算量大,且每種特征權(quán)重難以進行有效設(shè)定[2-3].而基于鏡頭分割的視頻摘要提取方法利用局部特征將視頻根據(jù)內(nèi)容分割成不同的視頻片段,來獲取整個視頻的結(jié)構(gòu)信息,但由于局部特征的時空局限性,出現(xiàn)多場景、多鏡頭的復(fù)雜視頻內(nèi)容變化時,易缺失重要幀或生成冗余幀,提取生成的視頻摘要不能有效表示原視頻的主要內(nèi)容,性能難以滿足實際需要[4-5].
本文設(shè)計了一種基于多特征分層的視頻摘要提取生成算法,分層采取先快后慢的策略,每層使用不同的特征進行鏡頭分割、片段聚類,最后得到保留時序信息的視頻鏡頭準確分割及各段關(guān)鍵幀.再對關(guān)鍵幀進行局部特征聚類相似度比較,得到候選視頻摘要.根據(jù)實際應(yīng)用需要,再結(jié)合全局特征,從候選視頻摘要中得到最終視頻摘要.
本文設(shè)計的分層多特征視頻摘要生成算法的特點是:
1)分層提取多特征進行視頻鏡頭分割,先用簡單特征分割,再對分割點采用復(fù)雜特征聚類,大大減少了計算量;
2)結(jié)合了像素、顏色、特征點信息進行分層視頻鏡頭分割,更全面地依據(jù)視頻內(nèi)容變化情況完整地分割鏡頭,具有旋轉(zhuǎn)不變性、錯誤率低、魯棒性好的優(yōu)點,降低了視頻摘要冗余度;
3)結(jié)合全局特征提取方式,保留了全局結(jié)構(gòu)信息,彌補了局部特征方法的不足與結(jié)構(gòu)信息出現(xiàn)偏差的缺點,能夠全面準確地表達視頻內(nèi)容;
4)在生成視頻摘要的同時,完成了基于視頻內(nèi)容的視頻鏡頭分割.
本文提出的視頻摘要生成算法主要分為兩個階段:視頻鏡頭分割與視頻摘要生成.
視頻摘要提取前一般對原始視頻先進行預(yù)處理,去除空幀、錯誤幀.鏡頭分割階段首先從像素特征、顏色特征和關(guān)鍵點匹配三個方向進行特征選擇.使用多個特征,能夠更好地依據(jù)視頻內(nèi)容變化完成視頻鏡頭分割,保證視頻鏡頭分割的結(jié)構(gòu)完整.選取速度相對快且效果好的三種算法提取不同特征:差異值哈希算法、HSV 改進算法和特征點匹配及描述算法(Oriented FAST and Rotated BRIEF,ORB).根據(jù)三種算法的計算復(fù)雜度和性能特點,將最快速簡單的差異值哈希算法放在第一層,初步對所有視頻幀進行相似度比對,得到初步分割好的視頻片段;再用各片段間的首尾幀依次采用HSV 改進算法進行聚類,粘合視頻鏡頭得到第二層分割的視頻片段.此時片段間需要計算的幀圖像逐層減少,此時引入ORB 特征點匹配算法,其聚類效果更好,同時避免了人為指定聚類中心帶來的干擾.
圖像差異值哈希算法多用于相似圖搜索和圖像相似度計算[6].圖像在計算機中以像素點的形式保存,像素值的差異是圖像最直觀的差異.基于哈希算法的視頻鏡頭分割算法直接利用像素差異進行等比例縮放后進行比對而分割視頻,速度極快,雖然存在準確率低、效果差的缺陷,但是可以用于初步分割,將內(nèi)容基本一致的視頻幀按照時間順序分割為小片段,為后續(xù)性能更好但速度較慢的特征提取算法減少冗余幀.
解碼得到的最初視頻RGB 圖像不能直觀地表示色彩明暗、色調(diào)及鮮艷度等顏色信息,因而轉(zhuǎn)化為HSV 表示.由于目前較多視頻是由手持設(shè)備拍攝,各種輕微的抖動都會導(dǎo)致拍攝角度變化而造成顏色明度的變化,實際上視頻內(nèi)容并沒有太大變化,這樣易將相同內(nèi)容的幀的進行錯誤的分割.在HSV 顏色空間中,色度H 及飽和度S 分量直接與人眼接受彩色信息緊密相連,而亮度V 分量與圖像的顏色信息沒有直接關(guān)系,對視頻分割作用較小,因此本文只對H 和S 分量做16 級量化,并按照式(1)合成為一維特征向量.
在相似度判別上,本文使用歐氏距離來計算兩幀圖像之間的相似度.設(shè)Sim(R,I) 為R、I 兩幀圖像的歐氏距離,Sim(R,I) 越小則越相似.設(shè)兩幀圖像按式(1)計算得到的一維特征向量歸一化后的結(jié)果分別為,則他們的歐氏距離可由式(2)計算得到.
通過HSV 特征的歐氏距離聚類視頻,仍然會受顏色特征干擾而影響分割.常常是幀間出現(xiàn)了某些顏色特征變化,但視頻內(nèi)容并未發(fā)生大的變化.因此進一步采用ORB 算法,通過兩幅圖像之間匹配到的ORB 特征點數(shù)目與兩幅圖像平均的特征點數(shù)目的比值來判定聚類,通過相似度匹配將視頻片段再次聚類.
ORB 算法包括ORB 特征點匹配和特征點描述兩部分.相對于其他特征點匹配算法,傳統(tǒng)的ORB算法速度快、效果好,但不具備旋轉(zhuǎn)不變性.為了解決此問題,本文使用oFAST(FAST Keypoint Orientation)算法進行特征點提取.oFAST 算法在FAST(Features from Accelerated Test)算法提取出特征點之后,給其定義一個特征點方向,得到二進制串描述符,以此實現(xiàn)ORB 特征點的旋轉(zhuǎn)不變性.在描述子方面,本文使用rBRIEF 算法選擇點對進行特征點描述,同時,采用漢明(Hamming)距離進行相似度計算.ORB 特征點匹配算法視頻幀間的顏色特征變化不敏感更集中于實際內(nèi)容的變化.通過相鄰幀之間匹配到的特征點數(shù)量與相鄰幀平均的特征點數(shù)量的比值來作為相似度判別.
通過三層多特征相似度判斷,得到了三次聚類后的視頻分割片段.
下一步在已分割好的各視頻片段中提取關(guān)鍵幀來作為候選的視頻摘要.首先將視頻分割聚類中第三次ORB 特征點匹配聚類時,已計算了ORB 特征值的各視頻片段邊界幀構(gòu)成集合Oj,其中j 為最終視頻分割后的視頻片段數(shù)目.這樣集合Oj中的圖像數(shù)目為最終分割得到的視頻片段數(shù)目 hj的兩倍,即2 hj.
然后以O(shè)RB 特征匹配點的數(shù)量來衡量視頻內(nèi)容發(fā)生突變的情況.設(shè)定斜率閾值α,Km為視頻片段m 最終將提取出的候選關(guān)鍵幀數(shù)目,m=1,2,3,…,j.由視頻片段m 中兩個邊界幀與集合Oj中的其他圖像的ORB 特征匹配點數(shù)量 ORBnum來確定Km.Km初值為1,視頻片段m 中邊界幀圖像與集合Oj中其他圖像的索引序號差為dist,若則 Km+ 1.計算邊界幀與集合Oj中所有其他圖像的比值后得到各視頻片段的候選關(guān)鍵幀數(shù)目Km.
對于每個視頻片段,根據(jù)片段中每幀圖像的特征向量xi來計算相鄰圖像間的幀間距離D (xjm,xjn).將幀間距最近的兩類合為一類,并計算各類的聚類中心:
其中Cnum為各類最新聚類中心,num 為聚類的類編號,lnum為該類幀圖像數(shù)目.反復(fù)聚類,直到聚類到Km個類結(jié)束,然后將每個類中與該類聚類中心幀間距離最小的幀圖像作為候選視頻摘要提出.最終候選視頻摘要的數(shù)目K 為 K1+K2+…+ Kj.
通過2.1 節(jié)得到候選視頻摘要,都是基于視頻鏡頭分割的視頻摘要,最大限度地保證完整反映了原視頻內(nèi)容.此時直接輸出候選視頻摘要,將得到較好的召回率,但精確率相對低,可以適用于召回率要求高的應(yīng)用,本文稱之為方法一.
由于方法一中相似視頻片段會有冗余的視頻摘要,為了進一步得到既保留了時序信息又能準確描述視頻內(nèi)容的視頻摘要,使用歐氏距離對候選視頻摘要提取全局特征進行聚類,將相似的候選視頻摘要再次聚類為一類,然后在同類中選出最具代表性的幀作為靜態(tài)視頻摘要進行輸出,如圖1 所示,本文將這種方法稱之為方法二,將得到更高的精確率.
具體算法為:
1)計算候選 視頻摘要關(guān)鍵幀集合 E={e1,e2,…,eK}中兩兩候選 視頻摘要 ei、ej的歐氏距離
圖1 對候選視頻摘要根據(jù)全局特征再次聚類
2)設(shè)定閾值φ,若Sim(ei,ej)<φ,將其歸為一類;
3)聚類后關(guān)鍵幀的選擇:根據(jù)每一類中原關(guān)鍵幀的數(shù)目n,當n=1時,直接輸出當前幀;當n=2時,將時序靠前的幀作為摘要輸出;當n≥3時,輸出每一類中離平均值最近的關(guān)鍵幀作為摘要.
本文使用OpenCV 與Python3.6 作為開發(fā)軟件,運行系統(tǒng)為Ubuntu16.0 64 位操作系統(tǒng),硬件配置為Inter Core i5-4590 處理器和12GB 內(nèi)存.
實驗結(jié)果的評估方法采用F-measure 統(tǒng)計量對本文的實驗結(jié)果進行評估,將使用精確率(Precision)、召回率(Recall)和F-score 3 個指標,分別按式(4)~(6)計算[7].
其中,Nc為提取得到的正確的視頻摘要數(shù)目,Nf指提取出的錯誤的視頻摘要數(shù)目,Nm指未提取出而丟失的視頻摘要數(shù)目.
實驗選擇公共視頻數(shù)據(jù)集VSUMM 數(shù)據(jù)集進行視頻摘要提取,該數(shù)據(jù)集自帶手動創(chuàng)建的用戶視頻摘要作為評價視頻摘要的標準[2].但是該數(shù)據(jù)集與目前實際應(yīng)用中的視頻數(shù)據(jù)相比存在分辨率不夠高、幀圖像質(zhì)量較差的問題,因此本文也將在本課題組建的WY-316 數(shù)據(jù)集進行相關(guān)實驗,以此驗證對目前網(wǎng)絡(luò)視頻數(shù)據(jù)的效果.WY-316 數(shù)據(jù)集為MP4 格式的隨機爬取于商業(yè)視頻網(wǎng)站的視頻,幀率以及分辨率均不固定,根據(jù)內(nèi)容分為51 類.WY-316 數(shù)據(jù)集隨機抽取每類視頻共計102 個,每個視頻均附有由5 位用戶人工選取的用戶摘要.這些視頻數(shù)據(jù)均未經(jīng)過再處理,更符合實際應(yīng)用中視頻數(shù)據(jù)由于視頻拍攝工具的多樣化導(dǎo)致的幀率分辨率多樣化實際情形,更能驗證算法的魯棒性.
表1 是用兩種不同的特征選擇分別在VSUMM 數(shù)據(jù)集和WY-316 數(shù)據(jù)集上生成視頻摘要的性能比較,兩種方法除圖像分量數(shù)采用不同外,其余參數(shù)均相同.
在VSUMM 數(shù)據(jù)集上,本文提出的H、S 兩分量方法相比H、S、V 三分量方法的精確率、召回率均有所提高,在WY-316 數(shù)據(jù)集上,召回率提高更明顯.在時間消耗上,兩分量方法比三分量方法減少了7.7%.由此可見,本文對HSV 顏色特征的改進方法優(yōu)于傳統(tǒng)方法.在WY-316 數(shù)據(jù)集上的實驗結(jié)果顯示,該方法對新的網(wǎng)絡(luò)視頻數(shù)據(jù)效果更好,使用H、S 分量顏色直方圖進行聚類比使用H、S、V 三分量更能避免因人為因素造成的抖動干擾的影響,顯示了更好的魯棒性.
按本文2.2 節(jié)提出的方法一、方法二與現(xiàn)有傳統(tǒng)視頻摘要算法分別在VSUMM 數(shù)據(jù)集進行視頻摘要提取得到的實驗數(shù)據(jù)比較如表2 所示,數(shù)據(jù)為該數(shù)據(jù)集所有實驗的平均值.
表1 使用不同通道的特征提取方法在VSUMM 數(shù)據(jù)集和WY-316 數(shù)據(jù)集上的比較
表2 本文算法與其他傳統(tǒng)算法在VSUMM 數(shù)據(jù)集上的實驗結(jié)果
由表2 可以看到,在VSUMM 數(shù)據(jù)集上,方法二的精確率遠高于VSUMM 算法、VISCOM 算法、VRHDPS 算法以及文獻[8]算法.本文方法二在提出候選視頻摘要后,再次考慮全局特征,減少相似候選視頻摘要,能最大限度保證視頻摘要準確描述視頻內(nèi)容;方法一在召回率上優(yōu)于其他算法,精確率優(yōu)于VSUMM 算法、VISCOM 算法和文獻[8]算法,方法一從切割好的視頻鏡頭中選出視頻摘要,能最大限度地保留時序信息,完整地表達了原視頻內(nèi)容.方法一的F-score 遠高于其他算法,方法二的F-score 略低于文獻[8]算法而高于其他算法,本文提出的算法整體性能更好.
為了更加直觀顯示本文所提出算法的實際效果,對網(wǎng)絡(luò)視頻WY-316 數(shù)據(jù)集用不同方法提取的視頻摘要對比如圖2 所示.可以看出,VSUMM 算法生成的摘要在光影變化較大的情況下易產(chǎn)生冗余,VISCOM 和VRHDPS 算法雖然冗余較少,但是摘要長度短,未能完整表達視頻內(nèi)容,文獻[8]算法雖然較為完整地表達了視頻內(nèi)容,但仍有明顯的冗余.本文方法二雖然沒有完整表達視頻內(nèi)容,但是沒有冗余,精確率最高,方法一與用戶摘要基本匹配,展示的摘要更加完整和豐富.
用本文提出的兩種方法對VSUMM 數(shù)據(jù)集提取視頻摘要與用戶摘要的對比如圖3 所示.用戶1~5 為VSUMM 數(shù)據(jù)集V14 視頻自帶的5 個用戶摘要,將其與本文算法生成的視頻摘要對比可以看出,方法二視頻摘要長度為9 張,小于用戶摘要平均長度15.4 張;方法一視頻摘要長度為16 張,接近用戶摘要平均長度.總體來看,本文提出的兩種方法能夠適應(yīng)不同用戶的需求,也能夠適應(yīng)不同應(yīng)用的實際需要.
圖2 對于網(wǎng)絡(luò)視頻數(shù)據(jù)不同算法生成的視頻摘要
圖3 本文提取的視頻摘要與數(shù)據(jù)集用戶摘要對比
本文設(shè)計了基于多特征分層的視頻摘要提取算法,對原始視頻數(shù)據(jù)首先按照視頻特征計算復(fù)雜度分別使用像素特征差異、顏色特征差異和特征點匹配差異進行多特征視頻鏡頭分割,然后根據(jù)視頻內(nèi)容突變情況,自適應(yīng)確定聚類數(shù)目,并得到候選視頻摘要;在最終視頻生成階段,引入全局特征,保留結(jié)構(gòu)信息,并采取了兩種不同的方法,用以滿足側(cè)重精確率和召回率的不同應(yīng)用需求.在公共數(shù)據(jù)集上的實驗結(jié)果顯示,本文算法由于其分層結(jié)構(gòu)和多特征信息利用,在加快了處理速度的同時,提高了視頻摘要質(zhì)量;每層單獨處理,避免了多特征權(quán)值分配問題;改進的HSV 顏色特征提取算法,比傳統(tǒng)使用HSV 顏色特征的提取算法在速度和性能上都得以提高.通過多特征相似度對視頻幀在時序順序上進行相鄰幀聚類,保留了時序信息;結(jié)合全局特征提取方式,彌補了局部特征方法的不足.如何結(jié)合時序信息和視頻分割的視頻片段生成動態(tài)視頻摘要、如何引入更有效的特征相似度計算方法來提高視頻摘要質(zhì)量和加快提取速度,將是需要進一步研究的重點.