周 兵,郝偉偉,袁社鋒
(1.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001;2.河南農(nóng)業(yè)職業(yè)學(xué)院 電子信息工程系,河南 鄭州451450)
監(jiān)控產(chǎn)生的視頻具有數(shù)據(jù)量大而有用信息少的特點(diǎn),因此如何在海量的監(jiān)控視頻信息中快速有效地存儲(chǔ)和瀏覽信息,對(duì)現(xiàn)今監(jiān)控視頻的進(jìn)一步分析處理有著重要的意義. 而關(guān)鍵幀技術(shù)的提出,為其提供了良好的方法.
關(guān)鍵幀被定義為一個(gè)有限的視頻幀子集,其代表了視頻序列的主要內(nèi)容.早幾年,針對(duì)不同的應(yīng)用目的,關(guān)鍵幀提取已有了一定的研究. Mona Omidyeganeh 等人[1]使用廣義高斯密度特征向量之間的相對(duì)熵(KLD)進(jìn)行鏡頭聚類邊界的選取,進(jìn)而基于相似性和相異性標(biāo)準(zhǔn)提取關(guān)鍵幀. Jiang Peng 等人[2]介紹了一種基于視覺(jué)注意模型的視覺(jué)注意度(AVI)描述來(lái)提取關(guān)鍵幀.Liu Gentao 等人[3]提出了鏡頭邊界檢測(cè)與在鏡頭內(nèi)提取關(guān)鍵幀的統(tǒng)一架構(gòu). Gwo-Cheng Chao 等人[4]提出“增強(qiáng)三維關(guān)鍵幀”來(lái)濃縮監(jiān)控視頻片斷有意義的內(nèi)容信息,但算法實(shí)現(xiàn)復(fù)雜、計(jì)算量大.以上文獻(xiàn)都是針對(duì)視頻中所有幀序列進(jìn)行計(jì)算來(lái)提取關(guān)鍵幀,現(xiàn)實(shí)監(jiān)控視頻中多數(shù)含有大量的純背景幀,而僅包含運(yùn)動(dòng)目標(biāo)的視頻片斷才是人們想要查看的關(guān)鍵序列.
根據(jù)以往方法的總結(jié)以及自己工作的實(shí)驗(yàn)結(jié)果,本文結(jié)合具體應(yīng)用,針對(duì)視頻監(jiān)控提出一種基于運(yùn)動(dòng)目標(biāo)檢測(cè)的關(guān)鍵幀提取方法.首先,設(shè)計(jì)一種穩(wěn)健而且快速的背景差分算法檢測(cè)監(jiān)控視頻中的運(yùn)動(dòng)物體,記錄進(jìn)入和離開(kāi)視頻畫(huà)面的起始幀和結(jié)束幀;然后,基于聯(lián)合直方圖的對(duì)稱性來(lái)判定圖像的相似程度,對(duì)含有運(yùn)動(dòng)對(duì)象的關(guān)鍵視頻段進(jìn)行初步的關(guān)鍵幀提取;最后,為防止數(shù)據(jù)的冗余,對(duì)關(guān)鍵幀集合基于圖像的信息熵進(jìn)一步進(jìn)行提煉.
運(yùn)動(dòng)目標(biāo)的檢測(cè)過(guò)程,實(shí)際是對(duì)運(yùn)動(dòng)目標(biāo)在視頻序列中定位以及跟蹤的過(guò)程. 目前運(yùn)動(dòng)目標(biāo)的檢測(cè)主要有光流法、幀間差分法和背景差分法[5-7].其中背景差分法又被稱為背景減,通過(guò)背景模型檢測(cè)當(dāng)前幀與背景差異來(lái)檢測(cè)運(yùn)動(dòng)目標(biāo),該方法在速度和穩(wěn)健性上都較有優(yōu)勢(shì). 經(jīng)典的高斯混合背景模型[8],當(dāng)背景更新時(shí)需要排序運(yùn)算,計(jì)算量很大,不利于高清視頻處理.本文簡(jiǎn)化高斯混合背景模型,背景模型數(shù)固定為兩個(gè),在變化像素檢測(cè)時(shí)增加鄰域像素模型符合性檢測(cè),兼顧速度和穩(wěn)健性兩個(gè)方面.
若某一象素當(dāng)前強(qiáng)度值為xt,則該象素屬于兩個(gè)背景模型的概率計(jì)算公式如下式:
式中:k∈(1,2)分別表示兩個(gè)高斯模型公式;H服從d 維高斯分布;T 表示確定高斯分量個(gè)數(shù)的閾值;γk,t和νk,t分別是在t 時(shí)刻高斯模型的協(xié)方差和均值.
使用背景差分法將每幀像素強(qiáng)度值與其對(duì)應(yīng)的背景像素強(qiáng)度值做差處理,其處理結(jié)果大于設(shè)定閾值的像素即判定為變化像素,模型mk(k∈(1,2))中當(dāng)前像素是否是變化像素的計(jì)算公式如下:
其中,C∈[2.5,3]為系數(shù)常量.
為了消除背景中雜亂的虛假變化像素,在判定當(dāng)前像素是否為變化像素時(shí),除了檢查背景中像素(x,y)之外,還同時(shí)檢查其鄰域象素,即使用背景差分法將每幀像素強(qiáng)度值與其對(duì)應(yīng)的背景像素強(qiáng)度值和相鄰的背景像素強(qiáng)度值分別做差處理,只有當(dāng)前像素與背景中的這些像素差值結(jié)果均大于閾值時(shí),才認(rèn)為是運(yùn)動(dòng)象素.
使用◇(x,y)表示點(diǎn)(x,y)的鄰域像素坐標(biāo),則變化像素檢測(cè)公式修改為:
另外,因背景變化產(chǎn)生的前景大多數(shù)表現(xiàn)為小尺寸的象素塊,本文通過(guò)尺寸濾波加以消除,以降低監(jiān)控系統(tǒng)背景的錯(cuò)誤.
根據(jù)背景差分法確定含有運(yùn)動(dòng)物體視頻片段的定位信息,即起始幀及結(jié)束幀,在該關(guān)鍵視頻段內(nèi)進(jìn)行關(guān)鍵幀提?。?筆者基于聯(lián)合直方圖的關(guān)鍵幀提取方法,使用其對(duì)稱性來(lái)判定圖像的相似程度.
聯(lián)合直方圖表示兩幅大小相同的圖像Ii和Ij間其對(duì)應(yīng)位置上像素對(duì)的灰度組合出現(xiàn)的頻率.對(duì)于同為M×N 的圖像Ii(x,y)、Ij(x,y),對(duì)應(yīng)的像素值對(duì)(p,q)的聯(lián)合概率表示為:
根據(jù)上式可知,對(duì)所有可能的像素值對(duì)(p,q)求F(p,q)值,可得到圖像Ii(x,y)和Ij(x,y)的聯(lián)合直方圖.聯(lián)合直方圖對(duì)稱性定義為
式中:α 是聯(lián)合直方圖對(duì)角線上的權(quán)值,在此為小于1 的正常量;而β=(p-q)n則表示遠(yuǎn)離對(duì)角線元素的權(quán)重;公式中n 為整數(shù);ε 更直觀地表示出了兩幀之間的相似性,當(dāng)ε 越趨近于1,則表示聯(lián)合直方圖越對(duì)稱,即說(shuō)明兩圖像相似越大.當(dāng)目標(biāo)快速出現(xiàn)、亮度等視頻內(nèi)容發(fā)生較為明顯變化時(shí),幀間相似性也發(fā)生相應(yīng)變化,一般相鄰幀間的相似性ε∈(0,1]. 為避免關(guān)鍵幀的遺漏,文中設(shè)閾值T' =0.9.
根據(jù)監(jiān)控視頻連續(xù)的特性,在一段連續(xù)變化的視頻序列中,連續(xù)的前后視頻幀存在的特征值是漸變的,即相鄰幀的圖像信息值變化不大.圖像的熵信息體現(xiàn)了圖像包含的信息量,而關(guān)鍵幀則是一段視頻主要內(nèi)容的代表,因此關(guān)鍵幀所含的信息量也相對(duì)較大.為減少數(shù)據(jù)的冗余,本文提出在間隔較近的視頻序列中選取圖像的信息熵值最大的一幀作為關(guān)鍵幀.圖像信息嫡的計(jì)算公式為
式中:N 指圖像的灰度級(jí)數(shù);xi表示像素(x,y)的灰度值;p(xi)為各灰度級(jí)出現(xiàn)的概率. 為防止提取的關(guān)鍵幀中由于光照變化等原因造成關(guān)鍵幀存在冗余,筆者在相鄰較近的候選幀中選取信息熵最大的一幀作為關(guān)鍵幀.實(shí)驗(yàn)表明,在一段連續(xù)的監(jiān)控視頻段中,相鄰幀間的差異較小,幀間熵差很難區(qū)分出來(lái),而間隔20 幀的非相鄰幀間熵差則可明顯地區(qū)分出來(lái).因此,文中關(guān)鍵候選幀序列間隔小于20 時(shí),選取信息熵最大的一幀作為關(guān)鍵幀.這樣得到的關(guān)鍵幀即可有效地反映連續(xù)視頻序列的主要內(nèi)容,又減少了數(shù)據(jù)的冗余.
關(guān)鍵幀的提取具體步驟如下:
(1)對(duì)視頻I,基于背景差分法監(jiān)測(cè)視頻中含有運(yùn)動(dòng)物體的關(guān)鍵視頻段,記錄關(guān)鍵視頻段的起始幀I1與結(jié)束幀In;
(2)解析視頻得到關(guān)鍵視頻序列(I1,I2,I3,…,I(n-1),In),I1作為當(dāng)前關(guān)鍵幀Knew,即Knew=I1,加入到關(guān)鍵幀的集合K 中,i=1;
(3)i=i+1,計(jì)算Ii與Knew間的相似性ε,若大于閾值T'(T' =0.9),則Ii為新的關(guān)鍵幀,將該關(guān)鍵幀記錄進(jìn)關(guān)鍵幀集合K 中,并標(biāo)記為當(dāng)前關(guān)鍵幀,即Knew=Ii,否則不處理;
(4)檢測(cè)是否是幀序列最后一幀,若是則轉(zhuǎn)(5),否則轉(zhuǎn)(3)繼續(xù)處理;
(5)檢測(cè)初步提取的關(guān)鍵幀集合K,若相鄰關(guān)鍵幀之間Ii、Ij,<20,則選取信息熵最大的值作為關(guān)鍵幀;
(6)檢測(cè)是否是集合K 中最后一幀,若不是,則轉(zhuǎn)(5),否則結(jié)束.
本實(shí)驗(yàn)使用一個(gè)普通像素的攝像頭檢測(cè)室外一小時(shí)中含有運(yùn)動(dòng)目標(biāo)的關(guān)鍵視頻段. 每個(gè)關(guān)鍵視頻段可提取若干個(gè)關(guān)鍵幀,實(shí)驗(yàn)結(jié)果中只顯示各個(gè)關(guān)鍵視頻段中中間一幀,結(jié)果如圖1 所示.
圖1 各個(gè)關(guān)鍵視頻段中代表性關(guān)鍵幀F(xiàn)ig.1 Representative key frame of each key video segment
例如第一個(gè)關(guān)鍵視頻段有進(jìn)入視頻畫(huà)面和離開(kāi)畫(huà)面組成,該視頻段共180 幀,程序解析該過(guò)程的部分連續(xù)視頻幀序列如圖2 所示.
圖2 第一個(gè)關(guān)鍵視頻段中的部分幀序列Fig.2 Part of the frame sequence of the first key video segment
該關(guān)鍵視頻段通過(guò)關(guān)鍵幀的提取,可得關(guān)鍵幀序列如下:在系統(tǒng)用戶查看的頁(yè)面中顯示關(guān)鍵幀集合中的中間一幀,既第二關(guān)鍵幀. 如圖3 所示.監(jiān)控得到的視頻信息為:幀寬640、幀高480、數(shù)據(jù)速率為302 kbps,總比特率為350 kbps,幀速率為30 幀/s.1 h 錄像大小為150 MB,經(jīng)過(guò)視頻數(shù)據(jù)的處理,提取含有運(yùn)動(dòng)目標(biāo)的關(guān)鍵視頻段,對(duì)相應(yīng)視頻進(jìn)行關(guān)鍵幀提?。?第一個(gè)視頻段提取關(guān)鍵幀數(shù)據(jù)存儲(chǔ)大小為80 kB,該1 h 錄像提取關(guān)鍵幀后,共保存數(shù)據(jù)大小為756 kB,其數(shù)據(jù)的存儲(chǔ)量,遠(yuǎn)小于原監(jiān)控視頻的數(shù)據(jù)量,且涵蓋了主要的有效信息,便于用戶迅速查看.
圖3 第一個(gè)關(guān)鍵視頻段的關(guān)鍵幀F(xiàn)ig.3 The key frames of the first key video segment
提出一種在監(jiān)控視頻中提取關(guān)鍵幀的方法,該方法提取的關(guān)鍵幀很少存在冗余數(shù)據(jù),大大減少了視頻數(shù)據(jù)的存儲(chǔ)量,且系統(tǒng)顯示出每段關(guān)鍵視頻段的主要內(nèi)容,便于用戶瀏覽關(guān)鍵信息.上述提取的關(guān)鍵幀可能不是人的正面圖像,而人的正面信息才更有效直觀的顯示運(yùn)動(dòng)目標(biāo),因此下一步將引入人臉檢測(cè)算法,解決這一問(wèn)題.
[1] OMIDYEGANEH M,GHAEMMAGHAMI S,SHIRMOHAMMADI S. Video keyframe analysis using a segment-based statistical metric in a visually sensitive parametric space[J]. IEEE Transactions on Image Processing,2011,20(10):2730 -2737.
[2] JIANG Peng,QIN Xiao-lin.Keyframe-based video summary using visual attention clues[J].IEEE MultiMedia,2010,17(2):64 -73.
[3] LIU Gen-tao,WEN Xiang-ming,ZHENG Wei,et al.Shot boundary detection and keyframe extraction based on scale invariant feature transform[C]//2009 Eighth IEEE/ACIS International Conference on Computer and Information Science,Shanghai:IEEE Computer Society2009:1126 -1130.
[4] CHAO G C,TSAI Y P,JENG S K. Augmented 3 -D Keyframe extraction for surveillance videos[J]. IEEE Transactions on Circuits and Systems for Video Technology,2010,20(11):1395 -1408.
[5] 譚鑫,肖南峰. 運(yùn)動(dòng)人體的檢測(cè)跟蹤方法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(4):30 -31.
[6] BARNICH O,VAN DROOGENBROECK M. ViBe:A Universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing,2011,20(6):1709 -1724.
[7] 李毅,孫正興,遠(yuǎn)博,等.一種改進(jìn)的幀差和背景減相結(jié)合的運(yùn)動(dòng)檢測(cè)方法[J]. 中國(guó)圖象圖形學(xué)報(bào),2009,14(6):1163 -1168.
[8] LI Ying-hong,TIAN Hong-fang,ZHANG Yan. An improved Gaussian mixture background model with realtime adjustment of learning rate[C]//2010 International Conference on Information Networking and Automation (ICINA),Kunming:IEEE 10. 1109/ICINA.2010.5636758,2010(1):512 -515.