張?jiān)谱? 鄭婷婷, 蔡昭權(quán)
(1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.汕尾職業(yè)技術(shù)學(xué)院,廣東 汕尾 516600)
隨著智慧城市的建設(shè)和發(fā)展,監(jiān)控?cái)z像機(jī)被廣泛安裝和應(yīng)用,所產(chǎn)生的視頻數(shù)據(jù)量呈現(xiàn)爆炸式的增長。如何高效地利用監(jiān)控視頻大數(shù)據(jù)是當(dāng)前的研究熱點(diǎn),也是亟待解決的技術(shù)難點(diǎn),視頻濃縮[1-2]為此提供了有效的解決手段。
視頻濃縮,又稱基于目標(biāo)的視頻摘要[3],打破了傳統(tǒng)的視頻幀結(jié)構(gòu),以目標(biāo)作為處理單元,旨在將冗長的監(jiān)控視頻濃縮為簡短的概要視頻[1]。該技術(shù)采用以空間換時(shí)間的方式,消除視頻之間的冗余。首先采用目標(biāo)檢測(cè)和目標(biāo)跟蹤對(duì)運(yùn)動(dòng)目標(biāo)的軌跡進(jìn)行提取,生成目標(biāo)管;然后對(duì)目標(biāo)管進(jìn)行優(yōu)化重排,得到最優(yōu)的時(shí)間標(biāo)簽;最后對(duì)輸入視頻進(jìn)行背景建模生成背景,將重排后的目標(biāo)管進(jìn)行縫合,生成濃縮視頻。圍繞視頻濃縮,研究人員進(jìn)行了廣泛的研究和拓展,取得了豐富的研究成果[1,4],以下從離線優(yōu)化方法和在線優(yōu)化方法進(jìn)行闡述。
(1) 離線優(yōu)化方法。文獻(xiàn)[3]首次系統(tǒng)地提出了視頻濃縮技術(shù)框架,該框架將檢測(cè)到的目標(biāo)在時(shí)域上進(jìn)行平移,有2個(gè)主要步驟,分別為:在線獲取目標(biāo)管用來保存生成的軌跡;離線選取一個(gè)時(shí)間段,進(jìn)行背景生成、管重排和目標(biāo)縫合。該方法定義了一個(gè)包含目標(biāo)、時(shí)間一致性和碰撞代價(jià)的全局能量函數(shù),采用了模擬退火(simulated annealing algorithm,SA)[5]方法進(jìn)行能量最小化,得到了最優(yōu)的管重排結(jié)果。為了優(yōu)化能量函數(shù),研究人員隨后提出了遺傳算法[6]、HSATLBO算法[7]、HSAJAYA算法[8]、粒子群算法[9]和HGWOSA算法[10]等。區(qū)別于上述將管優(yōu)化重排問題看作求解能量函數(shù)最優(yōu)化問題,文獻(xiàn)[11]提出了將其表述為圖著色問題,通過著色圖找到目標(biāo)管從原始視頻到濃縮視頻的映射,通過定位碰撞時(shí)間在優(yōu)化中來安排目標(biāo)管。為了在濃縮視頻中更好地保留目標(biāo)之間時(shí)序性,文獻(xiàn)[12]提出了事件優(yōu)化重排方法,將目標(biāo)管重排問題看作軌跡關(guān)聯(lián)性和事件緊湊性的迭代判斷,該方法提出了融合時(shí)間、碰撞和密度的出現(xiàn)概率模型,在優(yōu)化過程中能夠很好地保留目標(biāo)之間的時(shí)序關(guān)系且碰撞較少。文獻(xiàn)[13]為了避免在平移過程中,管道重排產(chǎn)生“偽碰撞”,提出了一種同時(shí)進(jìn)行目標(biāo)移動(dòng)、尺寸縮放和速度改變的視頻濃縮方法,將3個(gè)單獨(dú)的構(gòu)件融合起來,構(gòu)造了一個(gè)集成框架來實(shí)現(xiàn)視頻濃縮。
(2) 在線優(yōu)化方法。為實(shí)時(shí)獲取濃縮視頻,文獻(xiàn)[14]采用了一種循序漸進(jìn)的在線內(nèi)容感知方法,將傳統(tǒng)的兩階段離線視頻摘要流程轉(zhuǎn)換為單階段在線框架。文獻(xiàn)[15]將管優(yōu)化重排歸結(jié)為最大后驗(yàn)概率估計(jì)問題,用在線概要表來確定目標(biāo)的開始時(shí)間標(biāo)簽且不需要經(jīng)過優(yōu)化過程。在沒有得到完整的軌跡時(shí),也能實(shí)時(shí)地對(duì)軌跡進(jìn)行重排列。該方法可以保證目標(biāo)軌跡是按照時(shí)間順序排列的,且重排列后的相對(duì)位置不發(fā)生改變。文獻(xiàn)[16]提出了一種基于快速傅里葉變換的并行電子管重排方法,用于解決當(dāng)輸入視頻管數(shù)較多時(shí)的濃縮視頻問題。文獻(xiàn)[17]提出了一種基于動(dòng)態(tài)圖著色的在線視頻濃縮管重排方法。該方法目標(biāo)管之間的關(guān)系是用動(dòng)態(tài)圖建模的,它的節(jié)點(diǎn)(即管的對(duì)象掩模)和邊(即關(guān)系)可以逐步插入和更新,從而實(shí)現(xiàn)實(shí)時(shí)壓縮,且會(huì)產(chǎn)生較少的碰撞。
上述離線和在線的優(yōu)化方法提取目標(biāo)管均依賴于目標(biāo)檢測(cè)和跟蹤,應(yīng)用于稀疏場景的監(jiān)控視頻時(shí)具有較好的濃縮結(jié)果,但當(dāng)面對(duì)包含擁擠場景的監(jiān)控視頻時(shí)目標(biāo)管的提取軌跡不完整。為此,文獻(xiàn)[18]提出了一種解決復(fù)雜場景的視頻濃縮方法,通過檢測(cè)目標(biāo)之間的交互性和視頻幀的擁擠程度劃分群,提出了一個(gè)基于群的貪心算法用于優(yōu)化重排,但其重點(diǎn)在于獲得具有交互性的目標(biāo),而忽略了對(duì)稀疏和擁擠片段的劃分。
基于此,本文聯(lián)合多層時(shí)空切片和二分思想進(jìn)行稀疏和擁擠視頻片段的劃分,提出了一種稀疏-擁擠的視頻濃縮框架,即SCVS框架,如圖1所示。
圖1 SCVS框架
該框架首先對(duì)原始視頻進(jìn)行稀疏和擁擠片段的劃分;然后針對(duì)稀疏片段進(jìn)行目標(biāo)管提取、管優(yōu)化重排和背景生成與縫合,生成稀疏濃縮視頻;最后融合稀疏濃縮視頻和擁擠片段生成濃縮視頻。
本文聯(lián)合多層時(shí)空切片和二分思想對(duì)輸入的視頻進(jìn)行稀疏和擁擠片段的劃分,具體分為兩步:采用聯(lián)合多層時(shí)空切片檢測(cè)視頻片段的擁擠程度;利用二分思想劃分稀疏和擁擠片段。
1.1.1 聯(lián)合多層時(shí)空切片檢測(cè)擁擠狀態(tài)
時(shí)空切片的概念由文獻(xiàn)[19]首次提出。所謂時(shí)空切片就是指將視頻看作是一個(gè)I(x,y,t)的三維圖像序列,其中:(x,y)為圖像維;t為時(shí)間維。沿t軸方向切分得到的剖面就是時(shí)空切片。常用的時(shí)空切片有水平時(shí)空切片、垂直時(shí)空切片和對(duì)角線時(shí)空切片。本文主要研究水平時(shí)空切片。一個(gè)水平時(shí)空切片是指固定一個(gè)值y=yk,然后連續(xù)地提取相同位置的一行像素點(diǎn)得到一個(gè)2維圖像I(x,y=yk,t)。
如果將移動(dòng)的目標(biāo)近似看成是一個(gè)“條形”的剛體目標(biāo),那么目標(biāo)在不同的切片圖像中不僅具有相同的水平坐標(biāo),而且具有一致的運(yùn)動(dòng)模式[20],如圖2a所示。測(cè)試視頻是2個(gè)運(yùn)動(dòng)目標(biāo)依次進(jìn)入和退出監(jiān)控區(qū)域,從不同的切片圖像可以看出,同一目標(biāo)不僅具有相同的坐標(biāo)信息,而且具有一致的運(yùn)動(dòng)模式。同時(shí),切片圖像不僅包含所需要的軌跡信息,還包含無關(guān)的背景信息。為便于操作,本文采用混合高斯背景建模的方法對(duì)切片圖像進(jìn)行背景去除,并對(duì)切片圖像進(jìn)行形態(tài)學(xué)處理以消除噪聲的影響,結(jié)果如圖2b所示。根據(jù)運(yùn)動(dòng)模式的可分性和一致性,對(duì)視頻的多層切片軌跡疊加處理,疊加后的切片圖像能夠避免背景干擾,局部時(shí)空切片所產(chǎn)生的軌跡斷裂等問題,提供了更完整且更連續(xù)的軌跡信息,如圖2c所示。
圖2 切片圖像展示
基于此,本文聯(lián)合多層時(shí)空切片對(duì)I(x,y,t)視頻序列進(jìn)行水平方向切片,形成水平時(shí)空切片圖像集合Sli-H,即
Sli-H={I(x,y=yk,t)|1≤k≤n}
(1)
其中,n為水平時(shí)空切片的個(gè)數(shù)。
根據(jù)疊加的時(shí)空切片圖像Sli-H,定義視頻片段的擁擠度為clip-S,即
(2)
其中:number為Sli-H中目標(biāo)像素點(diǎn)的個(gè)數(shù);x為視頻的寬;t為幀號(hào)。通過目標(biāo)軌跡像素點(diǎn)占切片圖像的比率反映該片段的擁擠程度。
1.1.2 二分思想劃分稀疏和擁擠片段
二分查找是一種快速檢索的方法,其原理是將待查找的元素與有序數(shù)列的中間元素進(jìn)行比較,根據(jù)得到的比較結(jié)果排除1/2的元素,再選取保留的一段折半查找,直至找到目標(biāo)元素所在位置。監(jiān)控視頻通常是一段同時(shí)包含稀疏和擁擠場景的視頻,且擁擠場景的長度往往小于稀疏場景,因此本文對(duì)輸入視頻利用二分的思想不斷尋找并保留擁擠片段。
假設(shè)輸入一段視頻長度為L,幀號(hào)f-num∈[1,L],幀率為p。首先將視頻一分為二,分割后的2部分片段幀號(hào)分別為f-num∈[1,L/2]和f-num∈[L/2+1,L]。若L/2≠0,則向下取整;例如一段視頻為1 663幀,將其分為[1,831]和[832,1 633],然后采用聯(lián)合多層時(shí)空切片檢測(cè)2個(gè)片段的擁擠狀態(tài)。
針對(duì)目前的任務(wù),需要一定的約束條件,本文定義劃分后視頻片段的長度小于4p的片段稱為最小擁擠片段。定義S為所有檢測(cè)結(jié)果為稀疏的片段集合,C為所有檢測(cè)結(jié)果為擁擠的片段集合。根據(jù)(2)式可得,檢測(cè)后的結(jié)果存在3種可能的組合:稀疏和稀疏、擁擠和稀疏、擁擠和擁擠。下面分別進(jìn)行闡述。
(1) 若檢測(cè)結(jié)果是稀疏和稀疏,則認(rèn)為該片段是稀疏的,之后按照1.2節(jié)所述對(duì)稀疏片段進(jìn)行濃縮。
(2) 若檢測(cè)結(jié)果是擁擠和稀疏,則分別對(duì)這2段視頻進(jìn)行處理。對(duì)于擁擠片段,首先判斷當(dāng)前片段是否是最小擁擠片段,若是,直接保留;若不是,采用聯(lián)合多層時(shí)空切片折半檢測(cè)。對(duì)于稀疏片段,按照1.2節(jié)所述對(duì)稀疏片段進(jìn)行濃縮。
(3) 若檢測(cè)結(jié)果是擁擠和擁擠,首先判斷當(dāng)前2段視頻是否是最小擁擠片段。針對(duì)最小擁擠片段直接保留,否則采用聯(lián)合多層時(shí)空切片折半檢測(cè)。
通過上述操作,即可獲得所有稀疏和擁擠片段且分別劃分到集合C和S。本文所提的劃分方法如圖3所示。設(shè)輸入視頻的長度為L,步驟如下:① 采用聯(lián)合多層時(shí)空切片對(duì)輸入的視頻折半檢測(cè),得到[1,L/2]段是擁擠的;② 對(duì)步驟①得到的擁擠片段折半檢測(cè),得到[1,L/4]段是擁擠的;③ 對(duì)步驟②得到的擁擠片段折半檢測(cè),得到[L/8,L/4]段是擁擠的且該段是最小擁擠片段,輸出擁擠片段。
圖3 二分搜索擁擠片段
1.2.1 目標(biāo)管提取
在目標(biāo)管提取階段,本文采用YOLOv4算法對(duì)輸入的視頻Si′進(jìn)行目標(biāo)檢測(cè)生成邊界框,這是首次在視頻濃縮領(lǐng)域采用YOLOv4目標(biāo)檢測(cè)算法。隨后采用卡爾曼濾波器和匈牙利算法進(jìn)行目標(biāo)跟蹤和軌跡匹配,引入了外觀特征,在整個(gè)視頻中追蹤邊界框,生成目標(biāo)管的軌跡集合T={Ti,…,Tl},其中Ti代表第i個(gè)目標(biāo)管。
1.2.2 管優(yōu)化重排
1.2.3 背景生成與縫合
在該階段有2個(gè)任務(wù)需要完成:一是監(jiān)控視頻背景的生成;二是目標(biāo)管和背景的縫合。
本文采用混合高斯背景建模的方法生成靜態(tài)背景,進(jìn)而利用泊松圖像編輯,將已經(jīng)安排好時(shí)間標(biāo)簽的目標(biāo)管縫合到背景上,生成稀疏場景下的濃縮視頻,稱為稀疏濃縮視頻。
本文根據(jù)1.1節(jié)保留的擁擠片段和1.2節(jié)生成稀疏濃縮視頻生成濃縮視頻。為了能夠在濃縮視頻中更好地保留原始視頻移動(dòng)目標(biāo)之間的時(shí)間順序,在融合多個(gè)視頻片段時(shí)按照其在輸入視頻中出現(xiàn)的時(shí)間關(guān)系拼接。
由于地域、師資水平等原因,高職學(xué)生英語聽說水平相差懸殊,兩極分化嚴(yán)重。傳統(tǒng)的聽說教學(xué)方式,無視學(xué)生差異,嚴(yán)重影響了學(xué)生的學(xué)習(xí)興趣和積極性,阻礙了學(xué)生英語聽說能力的提高。
首先,定義每個(gè)片段的開始時(shí)間:定義C中每一個(gè)擁擠片段Ci的開始時(shí)間為fi,fi為Ci對(duì)應(yīng)于輸入視頻的幀號(hào);定義每一個(gè)稀疏濃縮視頻的開始時(shí)間為fj,fj為T中每一個(gè)Ti的開始時(shí)間的最小值。然后,將獲得的所有開始時(shí)間按照從小到大排序。最后,按照排序順序拼接所對(duì)應(yīng)的片段。
為了驗(yàn)證所提框架的有效性和普適性,本文在10段監(jiān)控視頻上進(jìn)行了實(shí)驗(yàn),視頻分別來自不同的場景,如交叉路口、餐廳進(jìn)出口、道路等,并將所提出框架與經(jīng)典框架[21]及當(dāng)前主流的濃縮框架[12,18,22]分別從客觀和主觀的角度進(jìn)行對(duì)比。
為了準(zhǔn)確估計(jì)濃縮視頻中完整保留目標(biāo)軌跡的程度,本文根據(jù)文獻(xiàn)[13,21]的活動(dòng)代價(jià),提出目標(biāo)留存比(object preserving ratio,OPR),同時(shí)采用常用的濃縮評(píng)價(jià)指標(biāo)壓縮率[1,4](compression ratio,CR)作為客觀的評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)視頻進(jìn)行測(cè)試,CR和OPR的計(jì)算公式如下:
(3)
(4)
由(3)式、(4)式可知:CR的值越小說明濃縮的效果越好;OPR的值接近1說明在濃縮視頻中完整保留目標(biāo)軌跡的效果越好。對(duì)比框架以及SCVS框架的測(cè)試結(jié)果平均值,結(jié)果見表1所列。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
由表1可知,在壓縮率方面,本文的壓縮率均低于對(duì)比框架,這表明SCVS框架對(duì)于包含擁擠場景的監(jiān)控視頻在壓縮率方面可以獲得更佳的性能。為了更加清晰地展示CR的對(duì)比情況,每段測(cè)試視頻的CR值如圖4所示。
圖4 不同算法的CR值
從圖4可以看出,SCVS框架的CR值普遍低于對(duì)比框架。其中,文獻(xiàn)[12]框架出現(xiàn)了壓縮率大于1的結(jié)果,這是由于輸入視頻包含擁擠片段,而該框架限制在每一幀中目標(biāo)出現(xiàn)的個(gè)數(shù),于是導(dǎo)致濃縮視頻的長度大于原始視頻的長度,因此文獻(xiàn) [12]框架僅適用于目標(biāo)稀疏的監(jiān)控視頻。
在目標(biāo)留存比方面,SCVS的OPR值為1.13,更接近于1,說明生成濃縮視頻更能完整保留目標(biāo)軌跡。這表明,本文框架在一定程度上解決了當(dāng)應(yīng)用濃縮方法于包含擁擠場景的監(jiān)控視頻時(shí)性能表現(xiàn)不佳的問題。
本文采用平均意見得分(mean opinion score,MOS)作為主觀評(píng)價(jià)指標(biāo)。MOS是指征集用戶為待評(píng)估的數(shù)據(jù)進(jìn)行觀察并打分,然后統(tǒng)計(jì)所有的得分并取平均值作為評(píng)估結(jié)果。邀請(qǐng)了20位來自不同專業(yè)的用戶對(duì)生成的濃縮視頻根據(jù)自己的直觀感受逐個(gè)進(jìn)行打分。5分制目前是最流行的評(píng)估得分尺度之一,因此本文選擇打分的分?jǐn)?shù)范圍為0~5,分?jǐn)?shù)越高代表濃縮視頻質(zhì)量越佳,且取每一段視頻分?jǐn)?shù)的平均值作為主觀得分,主觀得分的統(tǒng)計(jì)結(jié)果如圖5所示。
在主觀評(píng)價(jià)方面,用戶分別對(duì)文獻(xiàn)[12]、文獻(xiàn)[18]、文獻(xiàn)[21-22]的濃縮框架和本文框架進(jìn)行打分,平均得分為3.935、4.255、3.86、4.32和4.558。這表明對(duì)于包含擁擠場景的監(jiān)控視頻,本文框架生成的濃縮視頻更符合用戶的視覺感知,具有更好的視覺效果,進(jìn)一步表明了SCVS框架的優(yōu)越性。
圖5 不同算法的主觀得分比較
為了更直觀地呈現(xiàn)所提框架的濃縮結(jié)果,本文選取了具有代表性的視頻6和視頻8進(jìn)行分析和展示,如圖6所示。
圖6a所示為視頻6的濃縮可視化結(jié)果。第1行是視頻6的代表幀,對(duì)視頻進(jìn)行稀疏和擁擠劃分。第402幀和第566幀分別來自稀疏片段,第766幀來自擁擠片段。視頻6的濃縮視頻展示在第2行,第47幀是稀疏場景濃縮視頻的代表幀,第347幀是擁擠片段中的保留幀。圖6b所示為輸入視頻8的代表幀,其中第71幀和第323幀來自稀疏片段,第648幀來自擁擠片段。生成的濃縮視頻展示在第2行,其中第65幀來自稀疏片段的濃縮視頻,第434幀是來自保留的擁擠片段。通過直觀的展示可以看出,所提框架能夠很好地解決包含擁擠場景的監(jiān)控視頻濃縮問題。
本文通過聯(lián)合多層時(shí)空切片和二分思想提出了一種稀疏-擁擠視頻的濃縮框架SCVS。該框架采用聯(lián)合多層時(shí)空切片和二分思想的劃分方法對(duì)輸入視頻進(jìn)行處理;檢測(cè)結(jié)果為擁擠片段則直接保留,檢測(cè)結(jié)果為稀疏片段則進(jìn)行稀疏場景下的視頻濃縮,得到稀疏濃縮視頻;最后融合稀疏濃縮視頻和擁擠片段生成最終的濃縮視頻。實(shí)驗(yàn)的主客觀結(jié)果均表明,該框架與以往的先進(jìn)框架相比具有更好的性能。