金海燕,曹甜,肖聰,肖照林,*
(1.西安理工大學(xué) 計算機科學(xué)與工程學(xué)院,西安710048; 2.陜西省網(wǎng)絡(luò)計算與安全技術(shù)重點實驗室,西安710048)
如何以最為直觀且快速的方式查閱視頻數(shù)據(jù),完成像文字搜索一般的瀏覽效率是計算機視覺與圖像處理領(lǐng)域的研究熱點。視頻摘要是對原始視頻內(nèi)容的高度濃縮,其將重要且具有代表性的視頻內(nèi)容以一種簡潔的形式呈現(xiàn)出來,方便用戶對視頻的瀏覽和管理[1]。
2017年,劉全等[2]使用帶視覺注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)改進了傳統(tǒng)的深度Q網(wǎng)絡(luò)模型,提出了一種較為完善的深度強化學(xué)習(xí)模型。2018年,郎洪等[3]提出一種魯棒主成分分析(RPCA)優(yōu)化方法,為了快速篩選與追蹤前景目標,以基于幀差歐氏距離方法設(shè)計顯著性目標幀號快速提取算法。2019年,張芳等[4]為準確檢測復(fù)雜背景下的顯著區(qū)域,提出了一種全卷積神經(jīng)網(wǎng)絡(luò)與低秩稀疏分解相結(jié)合的顯著性檢測方法,結(jié)合利用全卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的高層語義先驗知識,檢測圖像中的顯著區(qū)域。李慶武等[5]針對現(xiàn)有顯著性檢測算法檢測目標類型單一、通用性差的問題,提出了一種基于無監(jiān)督棧式降噪自編碼網(wǎng)絡(luò)的顯著性檢測算法。2020年,陳炳才等[6]提出了一種融合邊界連通性與局部對比性的圖像顯著性檢測算法,得到的顯著圖更接近于真值圖。
由于現(xiàn)有視頻數(shù)據(jù)量過于龐大,占用內(nèi)存資源較多,在瀏覽時比較困難。本文基于多特征圖像和視覺注意力金字塔模型,提出了一種改進的可變比例及雙對比度計算的中心-環(huán)繞視頻摘要化方法,通過提取的關(guān)鍵幀快速理解視頻的主要內(nèi)容。本文方法不僅易于實現(xiàn),還改善了傳統(tǒng)方法的提取效果。在Segtrack V2、ViSal及OVP數(shù)據(jù)集上進行仿真實驗,驗證了本文方法的有效性。
在某一場景中,能夠令人眼所引起注意的區(qū)域就是該場景中最顯著的區(qū)域,場景其余部分則可能不會被人眼所注意或考慮在內(nèi)。通過不同方式滿足人眼的機制并遵循人眼視覺習(xí)慣所進行的檢測,即為視覺顯著區(qū)域的檢測。
2017年,Ablavatski等[7]設(shè)計了一種改進的基于注意力的體系結(jié)構(gòu),用于多對象識別;Qu等[8]為了解決僵化的描述問題,提出了一種神經(jīng)和概率框架,將卷積神經(jīng)網(wǎng)絡(luò)(CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,以產(chǎn)生端到端的圖像字幕。2019年,Liu和Yang[9]提出了一種“前景-中心背景”顯著區(qū)域檢測模型,提高了顯著性檢測的性能。
現(xiàn)有的大部分視頻摘要都為靜態(tài)視頻摘要。2016年,Li等[10]開發(fā)了一種用于在Internet上搜索結(jié)果的多媒體新聞?wù)男路f方法,可發(fā)現(xiàn)與查詢相關(guān)的新聞信息中的基本主題,并將每個主題中的新聞事件穿線以生成與查詢相關(guān)的簡要概述。2018年,Hu和Li[11]通過融合基于多個特征和圖像質(zhì)量的全局重要性和局部重要性來生成動態(tài)視頻摘要。Meng等[12]選擇在不同視圖之間代表視頻的視覺元素,使用質(zhì)心共正則化方法的多視圖稀疏字典選擇,優(yōu)化了每個視圖中的代表性選擇,并通過將它們針對共識選擇進行正則化來強制將視圖特定的選擇相似。
顏色特征作為較為常見和易于獲得的信息為特征提取時所廣泛采用。除了顏色以外,圖像的紋理也是視頻摘要化的常見特征。作為一個圖像或物體表面具有的固有特性,紋理特征通過空間中的某種形式的顏色變化而產(chǎn)生不同的圖案,并通過對圖像進行量化產(chǎn)生特征結(jié)果。LBP(Local Binary Pattern)算子是最常見的原始特征算子之一,所提取出的特征即為圖像中局部位置的紋理特征。
計算RG、BY顏色分量及亮度特征分量。其中,亮度分量Intensity=(R+B+G)/3,紅-綠顏色分量RG=R-G,黃-藍顏色分量BY=B-(G+R)/2。對已進行超像素分割的圖像序列,為每一個圖像特征通道構(gòu)建中心金字塔與環(huán)繞金字塔的尺度空間。設(shè)每一個圖像的中心金字塔為C,C={C0,C1,C2,…,CN},每一個圖像的環(huán)繞金字塔為s,s={S0,S1,S2,…,SN}。本文N的值為5,即金字塔的層數(shù)為5。同樣,每一個中心金字塔圖像Ck都有一個與之對應(yīng)的環(huán)繞金字塔圖像Sk。其中,環(huán)繞金字塔圖像Sk是由中心圖像經(jīng)過高斯平滑處理所得到。高斯平滑因子為
式中:μs為環(huán)繞金字塔圖像Sk的平滑因子值;μc為用于得到中心金字塔圖像Ck對應(yīng)的值。因此,算法可以自由動態(tài)地調(diào)整平滑因子的值大小,產(chǎn)生更多的靈活性來適應(yīng)系統(tǒng),從而在之后的計算中得到更好的效果。
對每一個圖像特征通道計算中心-環(huán)繞對比度。設(shè)中心金字塔中第i層圖像為Ci,環(huán)繞金字塔中第i層圖像為Si,由式(2)、式(3)分別得到正-負對比度Contrast+和負-正對比度Contrast-。
同時,將數(shù)值中所有小于0的特征值統(tǒng)一設(shè)為0。在得到對比度結(jié)果后,將所有特征圖按照正-負對比度與負-正對比度2類進行加法求和。
設(shè)像素點p(x,y)在某個時間段t內(nèi)移動的距離為(d x,d y),原像素點表示為p(x,y,t),變化移動的點表示為p(x+d x,y+d y,t+d t),考慮亮度恒定的情況,得到
根據(jù)亮度恒定得到的公式以灰度值進行空間坐標位置求導(dǎo),得到泰勒級數(shù)展開公式,進一步得
d x/d t、d y/d t分別為X、Y軸方向點以灰度信息來描述的值的變化速率,設(shè)為U、V;而?p/?x、?p/?y、?p/?t分別為二維圖像上X、Y、t方向的偏導(dǎo),設(shè)為px、py、pt,由此得到光流法公式:
px、py、pt即為根據(jù)圖像序列在(x,y,t)上的差分。由于式(6)中存在2個未知變量的情況,在求得式(6)后,需要多加一個約束式來得到光流場計算結(jié)果。這里使用Lucas-Kanade光流法方式來增加約束。
在動態(tài)檢測時,可能會由于經(jīng)常引入不相關(guān)的背景或線條輪廓內(nèi)容,對檢測產(chǎn)生較大影響,且在融合時并不能完全削減這部分噪聲。以顏色直方圖方式統(tǒng)計前后圖像內(nèi)顏色的占比,設(shè)當(dāng)前幀的顏色直方圖為Histi,前一幀為Histi-1,若相鄰2幀相似度較高,則2幀之間的相似性可以描述為
式中:j為顏色分量;N為總顏色量級數(shù)目;j∈N;D為2幀的相似性表示。
因此,構(gòu)建加權(quán)函數(shù)W如下:
最終融合時,按式(9)進行:
式中:Mi-1表示前一幀圖像的運動顯著性結(jié)果;Mi表示當(dāng)前幀的運動顯著性結(jié)果;M為最終運動顯著圖。
圖1 動態(tài)顯著圖調(diào)整效果前后對比Fig.1 Effect comparison of dynamic saliency map before and after adjustment
圖1展示了經(jīng)過調(diào)整前與調(diào)整后的動態(tài)顯著圖效果,并用橢圓形標出了調(diào)整后產(chǎn)生改進的區(qū)域。
設(shè)Mi為運動顯著結(jié)果,Ji為靜態(tài)顯著結(jié)果,通過difi將權(quán)重系數(shù)歸一化至[0,1],如下:
并通過式(11)完成融合:
式中:σ為比例系數(shù),本文設(shè)為0.4。
顯著結(jié)果自適應(yīng)融合如圖2所示。
圖2 顯著結(jié)果自適應(yīng)融合Fig.2 Adaptive fusion of saliency results
在關(guān)鍵幀提取前,對連續(xù)視頻圖像序列進行顯著性目標檢測的目的是為了能夠預(yù)先完成顯著前景目標的提取,同時提升關(guān)鍵幀提取階段的檢測準確率與效果。本節(jié)主要方法內(nèi)容和整體技術(shù)框架如圖3所示。
圖3 關(guān)鍵幀提取主要方法內(nèi)容和整體技術(shù)框架Fig.3 Main method content and overall technical framework of key frame extraction
通過尺寸為3×3的基準檢測窗口進行0、1標記,形成二進制的特征值結(jié)果,如下:
式中:g(j)為基準窗口內(nèi)第j個點的灰度;g(i)為中心點對應(yīng)的值。
根據(jù)旋轉(zhuǎn)不變原則,最終的特征值為
取顯著性檢測結(jié)果與原始視頻中同一幀圖像進行對應(yīng)相乘。先得到原圖像R、G、B分量,設(shè)為fR、fG、fB,設(shè)當(dāng)前幀顯著性結(jié)果圖像為F,將結(jié)果F分別與fR、fG、fB對應(yīng)相乘,得到增強的顯著性結(jié)果F′,如圖4所示。
圖4 顯著性檢測效果增強結(jié)果Fig.4 Enhancement results of saliency detection effect
將圖像從RGB空間轉(zhuǎn)化為HSV空間,再分別提取H、S、V三個分量結(jié)果,將H、S、V三通道按照16∶4∶4的等級進行量化;之后將所有的顏色分量按比例等級融合形成特征矢量,如下:
式中:Qs和Qv為量化的等級。
將顏色空間進行量化,并將量化后的顏色根據(jù)式(15)進行融合并映射,映射的像素值范圍為[0,255],得到相乘圖顏色信息。
基于內(nèi)容的感知哈希(Perceptual Hash)函數(shù)是一種用于獲取圖像哈希值,并用其來描述的特征相似性表示方法。根據(jù)值的對比計算,可以得到2幅圖像基于漢明距離的相似性程度結(jié)果。
調(diào)整圖像分辨率大小統(tǒng)一至32×32范圍,并轉(zhuǎn)換多通道圖像為單通道,完成離散余弦變換(DCT)。此步是為了將圖像具有的位置特征轉(zhuǎn)移至頻域當(dāng)中,并能夠?qū)D像進行良好的壓縮,且保持無損轉(zhuǎn)換?;贒CT的對稱變換方式,待圖像轉(zhuǎn)為頻域下的特征編碼后,反方向DCT得到原先的特征信息,具體的DCT變換如式(16)、式(17)所示。
式中:F(u,v)表示DCT變換結(jié)果;N為像素點的數(shù)量;c(u)c(v)為DCT變換中的正交變換矩陣;f(i,j)為DCT變換前原始像素點的值。
在得到32×32大小的圖像區(qū)域后,只取圖像矩陣中左上角位置中大小為8×8區(qū)域的像素點坐標值矩陣,此部分區(qū)域可以表示整幅圖像當(dāng)中頻率信息最低的區(qū)域。按式(18)計算圖像區(qū)域內(nèi)64個像素點的平均像素大小ˉp′:
式中:pi為像素點大小。
計算比較像素點與ˉp′的大小得到完整的pHash值,即圖像的感知哈希值,并計算2個不同圖像間pHash值的漢明距離。
互信息是指在2個不同的個體中,相互之間包含對方信息內(nèi)容數(shù)量多少的描述,屬于信息論理論范疇,其基于熵的概念來進行2個物體的計算,公式如下:
式中:p(xi)為基于事件xi的概率數(shù)值;I(xi)為具體內(nèi)容信息的量。則2個隨機變量間熵對應(yīng)的聯(lián)合信息期望值可表示為
若(x,y)對應(yīng)的聯(lián)合分布用p(x,y)表示,對應(yīng)的邊緣分布用p(x)、p(y)表示,聯(lián)合與乘積分布p(x,y)、p(x)p(y)相對熵的結(jié)果即為I(x,y),即互信息:
根據(jù)式(20),得到對于圖像中的互信息為
本文基于感知哈希函數(shù)進行圖像相似性計算,結(jié)合連續(xù)前后幀圖像的pHash圖像,進行相似性計算。
圖3中展示了2018年羽毛球湯姆斯杯丹麥對陣馬來西亞比賽視頻中第280幀、第281幀、第282幀圖像中的感知哈希圖像結(jié)果。其中,第280幀和第281幀屬于同一鏡頭下的相似場景圖像,而第281幀及第282幀圖像則發(fā)生了跳變,圖中展示了這連續(xù)3幀圖像的互信息值變化。
將得到的所有圖像的紋理信息、所有顯著增強圖像的顏色信息及光流法得到的光流信息進行融合,將每個特征圖像對應(yīng)的圖像矩定義為矩陣A、B、C并按列拼接,形成融合的特征向量矩陣[A B C]。計算前后2個特征矩陣之間的歐氏距離,其距離定義為其中所有元素間歐氏距離的累加和。根據(jù)歐氏距離計算特征矩陣之間的相似性,以距離的平均值進行冗余幀剔除,小于距離平均值的幀被舍棄。
假設(shè)滿足式(26)的最小I(X,Y)值為篩選分界值:
小于此值的圖像幀分為一類,否則另歸為新的一類,得到劃分后的關(guān)鍵幀類別序列f2={Cluster1,Cluster2,…,Clustern}。
設(shè)已劃分的2個相鄰關(guān)鍵幀集合Cluster1與Cluster2的互信息值為MI(Clusteri,Clusteri+1),則MI(Clusteri,Clusteri+1)=
式中:n1和n2分別為關(guān)鍵幀類別Clusteri和Clusteri+1中圖像的數(shù)量;MI為結(jié)果,即當(dāng)前關(guān)鍵幀類別集合與關(guān)鍵幀類別集合的圖像互信息值,定義為2個集合中所有圖像與除本身之外的所有其他圖像的互信息值和的平均值。
根據(jù)特定閾值進行關(guān)鍵幀分類結(jié)果合并。將2個集合的互信息值與閾值進行比較,合并規(guī)則與相鄰圖像間的篩選方式相同,最終得到經(jīng)合并后一定數(shù)量的分類集合f3={Cluster1,Cluster2,…,Clustern}。最終挑選每一集合中與集合內(nèi)其余圖像MI相比最大的圖像幀為當(dāng)前集合的代表。
在顯著性檢測的過程中,實驗所使用的圖像數(shù)據(jù)來源于Segtrack V2、MSRA[3]及ViSal數(shù)據(jù)集。Segtrack是一種視頻對象分割數(shù)據(jù)集,同時也作為顯著性檢測的數(shù)據(jù)集,Segtrack V2是Segtrack數(shù)據(jù)集的擴大版本,主要包含人類奔跑、鳥類、獵豹、羚羊等動物的運動視頻;MSRA則包含約5 000張圖像,囊括了各類場景圖像,且都包含了真值圖像ground truth;ViSal則同樣是用于目標檢測的數(shù)據(jù)集,且其中的數(shù)據(jù)都是視頻形式。
本文所使用的數(shù)據(jù)集包括了YouTube、OVP(Open Video Project)等公共視頻數(shù)據(jù)集。以運動視頻為研究對象,采集了網(wǎng)上大量的室內(nèi)羽毛球比賽運動場景視頻。YouTube數(shù)據(jù)集格式為MPEG,視頻分辨率大小為352×240;OVP數(shù)據(jù)集的格式包括FLV和AVI兩種,類型包括新聞、動畫、廣告、電視劇、比賽視頻等不同的場景。室內(nèi)羽毛球比賽場景視頻則包括2018年世界羽聯(lián)年終總決賽男單決賽、2018年羽毛球湯姆斯杯丹麥對陣馬來西亞、2019年世錦賽第二輪戴資穎對陣菲迪亞尼等的比賽視頻,皆為MP4、1 280×720分辨格式。在運動視頻的用戶摘要確定過程中,選擇10位同學(xué)進行人工篩選,在預(yù)先不告知內(nèi)容重點的情況下,得到10位同學(xué)的關(guān)鍵幀摘要結(jié)果,并對這10種結(jié)果中相似的視頻幀計算幀數(shù)平均值得到最終的用戶摘要結(jié)果,確保用戶摘要的客觀及合理性。
本文對多特征融入后的距離計算剔除冗余幀的過程中,使用了歐氏距離的平均值作為剔除的閾值。但有時完全通過平均值無法剔除足夠數(shù)量的冗余幀,仍然會保留一部分無用的幀,該部分圖像既會對之后的檢測和判斷產(chǎn)生干擾,也會降低整體的計算時間效率。根據(jù)數(shù)據(jù)集類型的不同,在平均值的基礎(chǔ)上加入了微調(diào)因子a,對You-Tube、OVP等數(shù)據(jù)集設(shè)置a=2.5,而對比賽視頻數(shù)據(jù)集設(shè)置為a=20。
仿真實驗中,人工閾值thresh可以控制最終生成的摘要所包含圖像數(shù)量的多少。thresh越高,所產(chǎn)生的摘要圖像數(shù)量越少;反之越多。經(jīng)過實驗分析,對YouTube、OVP等數(shù)據(jù)集設(shè)置thresh=0.5,對運動視頻數(shù)據(jù)集設(shè)置為thresh=1.2,使得結(jié)果達到了最佳。
本文方法主要與MR[14]、SF[15]、FT[16]、GS[17]方法進行對比,實驗結(jié)果如圖5所示。
MR方法根據(jù)圖像元素與給定種子或查詢的相關(guān)性定義圖像元素的顯著性,將圖像表示為以超像素為節(jié)點的閉環(huán)圖,以提取背景區(qū)域和前景顯著對象;SF方法采用基于對比度的顯著性估計抽象出不必要的細節(jié),從元素對比中得出顯著性度量,以將前景和背景分開;FT方法可輸出具有清晰定義的顯著對象邊界的全分辨率顯著圖,通過保留原始圖像中更多的頻率內(nèi)容,以保留這些邊界;GS方法使用背景先驗來計算圖像的測地線顯著性區(qū)域。
從圖5可知,MR方法無法有效區(qū)分物體中心和圖像之間的類別差異;SF方法對于背景明亮的物體同樣也會檢測出來,抗干擾性較差;FT方法可以快速地檢測出圖中不同物體間的頻譜差,但無法增加具體的細節(jié)信息,只能體現(xiàn)對比度信息;GS方法則與之前方法相比效果有所提升,但仍然會有較大的噪聲干擾存在。本文方法不但能夠準確定位目標,對于前后背景對比度差異較小的圖像也能較好地區(qū)分出前景目標。本文以Segtrack V2和MSRA為數(shù)據(jù)展示顯著性的F-measure柱狀結(jié)果差別,如圖6所示。
本文選用不同類別視頻,如OVP包含的新聞或比賽場景等,并將結(jié)果與現(xiàn)有的幾種經(jīng)典視頻摘要或關(guān)鍵幀提取算法(如OV[18]、VSUMM[19]、STIMO[20]、SD[21]、KBKS[22]等)進行對比。圖7為使用公共摘要數(shù)據(jù)集中的“v20.flv”動畫視頻及“v101.flv”新聞視頻得出的摘要化結(jié)果。
從圖7可以看到,在“v20.flv”和“v101.flv”視頻中,OV算法在左側(cè)視頻中的第1、4幀產(chǎn)生了冗余,右側(cè)視頻中第5幀圖像出現(xiàn)了冗余,同時在左側(cè)視頻中的第2、5、6、8幀出現(xiàn)了檢測不準確的情況,檢測結(jié)果較差;而在VSUMM算法中,左右2段視頻中誤檢的情況比OV算法相比較少,但仍有冗余的情況;在STIMO算法中,左側(cè)視頻有8幀圖像命中了用戶摘要結(jié)果,比OV、VSUMM 兩種算法的結(jié)果要更好一些,但檢測出的圖片數(shù)量較多,也包含了一些冗余的圖像;而在SD算法與KBKS算法中,得到的結(jié)果基本都包含了用戶摘要,只有少量誤檢的情況,但得到的摘要數(shù)量少于真實用戶標注結(jié)果,無法完整地描述視頻的主要內(nèi)容;在本文中左側(cè)視頻產(chǎn)生了13幀摘要結(jié)果,其中11幀命中了用戶摘要,同時只產(chǎn)生了2幀冗余,在右側(cè)視頻中,得到11幀摘要結(jié)果,其中11幀命中摘要,只漏掉了用戶摘要中的第3幀,表現(xiàn)出了良好的摘要化結(jié)果。
圖5 數(shù)據(jù)集在不同方法上的顯著性圖比較Fig.5 Comparison of saliency maps of datasets among different methods
圖6 F-measure在不同數(shù)據(jù)集上的情況Fig.6 F-measure on different datasets
圖7 視頻“v20.flv”及“v101.flv”在不同摘要算法下的結(jié)果Fig.7 Results of video“v20.flv”and“v101.flv”under different summarization algorithms
在圖8中,以2018年世界羽聯(lián)年終總決賽男單決賽及2018年羽毛球湯姆斯杯丹麥對陣馬來西亞兩段視頻為準,進行結(jié)果分析。由于電視中的運動比賽視頻分辨率較高,且會出現(xiàn)鏡頭停留時間較長的情況,一般方法較容易產(chǎn)生檢測冗余的現(xiàn)象。在OV算法與VSUMM 算法中,都得到了大于用戶摘要數(shù)量的關(guān)鍵幀,其中對于鏡頭產(chǎn)生移動,但基本內(nèi)容沒有產(chǎn)生變化的圖像,2種算法都得到了不同數(shù)量的相似場景冗余幀。
在OV算法與VSUMM 算法中,左側(cè)視頻的第1、2幀及右側(cè)的第4、5、8幀都得到了不同數(shù)量的相似場景冗余幀;STIMO算法也是相同;SD算法與KBKS算法則出現(xiàn)了更多;在本文方法中,左側(cè)視頻雖然得到的摘要結(jié)果數(shù)量不足,但9幀的結(jié)果中都命中用戶摘要,只有漏檢的情況發(fā)生,而在右側(cè)視頻中得到了足夠數(shù)量的圖像結(jié)果,用戶摘要共13幀,其中有11幀命中用戶結(jié)果,說明了本文方法的高準確性及低誤檢率。
為了更加直觀地描述不同方法在公開數(shù)據(jù)集及室內(nèi)羽毛球比賽運動場景視頻數(shù)據(jù)上的表現(xiàn),使用準確率、錯誤率、漏檢率、精度、召回率和Fmeasure等指標,分別對實驗數(shù)據(jù)視頻依次對比,如表1所示。
圖8 運動視頻在不同摘要算法下的結(jié)果Fig.8 Results of sports video under different summarization glgorithms
表1 運動視頻在不同摘要算法下的對比Table 1 Comparison of spor ts videos under various summarization algorithms
本文以視覺顯著性模型為基礎(chǔ),在中心-環(huán)繞比金字塔檢測模型中融合超像素分割以加速大分辨率圖像視頻數(shù)據(jù)的計算,同時選擇雙對比度方式計算、提取圖像中更多的特征信息;在計算運動顯著圖時,通過前后幀結(jié)果抑制的方式生成更佳的動態(tài)結(jié)果,并使用自適應(yīng)方式融合得到效果良好的顯著結(jié)果,良好的顯著性結(jié)果也為在視頻摘要與關(guān)鍵幀選擇的過程提供了更多的圖像信息。
1)在摘要化生成中,結(jié)合了顯著性檢測及感知哈希互信息方式進行提取。在顯著性檢測的基礎(chǔ)上,利用圖像的紋理及顏色等信息,對顯著性檢測的結(jié)果圖像進行了二次特征提取并完成相鄰圖像之間的相似性判斷,進行多次冗余幀的剔除及相似圖像的類別劃分,從而得到屬于不同類別的、能夠最大程度描述視頻的結(jié)果。
2)在公共數(shù)據(jù)集及本文的運動視頻數(shù)據(jù)集上進行了效果對比,驗證了本文方法對視頻摘要化生成的良好效果和較優(yōu)表現(xiàn)。