程海鷹, 王鳳隨, 朱樹(shù)明
(安徽工程大學(xué)電氣工程學(xué)院, 安徽蕪湖241000)
隨著互聯(lián)網(wǎng)和多媒體技術(shù)日新月異的進(jìn)步,數(shù)字視頻廣泛應(yīng)用在生活的各個(gè)方面,人們很難從海量視頻中獲取到有用信息,而視頻摘要技術(shù)就可以幫助用戶(hù)解決這個(gè)問(wèn)題。視頻摘要是一項(xiàng)緩解視頻存儲(chǔ)瀏覽等方面的關(guān)鍵技術(shù),它是對(duì)完整視頻的提煉和概括總結(jié),將原始視頻的主要信息簡(jiǎn)明扼要地呈現(xiàn)給目標(biāo)用戶(hù)。視頻摘要一般包括靜態(tài)視頻摘要和動(dòng)態(tài)視頻摘要,靜態(tài)視頻摘要主要通過(guò)提取具有代表性的關(guān)鍵幀組合形成視頻摘要,以標(biāo)題、海報(bào)和故事板等形式展示;動(dòng)態(tài)視頻主要通過(guò)視頻段的分割,選取和整合形成視頻摘要,多數(shù)以精彩集錦和全局縮略的形式展現(xiàn)[1-3]。視頻從本質(zhì)上來(lái)說(shuō)是由一幀幀連續(xù)的圖像序列按照時(shí)間發(fā)生的先后順序拼接而成,而提取關(guān)鍵幀就是在連續(xù)時(shí)間點(diǎn)上的采樣且去除冗余信息的過(guò)程。當(dāng)前在安防監(jiān)控視頻中,受用戶(hù)關(guān)注度較高的是人和車(chē)輛,而在制作視頻摘要的過(guò)程中,重點(diǎn)都是在于關(guān)鍵幀的提取。Zhao等[4]利用平均灰度累積直方圖和邊緣直方圖的方法來(lái)提取關(guān)鍵幀,該方法雖然能較準(zhǔn)確地提取關(guān)鍵幀,但內(nèi)容覆蓋率不高。Guan等[5]提出通過(guò)計(jì)算SIFT特征點(diǎn)來(lái)建立表示全局信息的特征點(diǎn)池,從而選取可以覆蓋特征點(diǎn)池的視頻幀作為關(guān)鍵幀,該方法雖然能真實(shí)全面地反映原始視頻信息,但所提取關(guān)鍵幀的冗余度高。司若妍等[6]提出基于HSV-LBP和K-means聚類(lèi)的方法提取關(guān)鍵幀,該方法能自適應(yīng)得到視頻的閾值,但準(zhǔn)確率不高且實(shí)時(shí)性不強(qiáng)。劉長(zhǎng)征等[7]提出利用改進(jìn)向量機(jī)和滑動(dòng)窗口的方法提取關(guān)鍵幀,該方法提高了關(guān)鍵幀提取速度,但所提取的關(guān)鍵幀冗余度高,影響視頻摘要的真實(shí)性,效果不佳。
本文提出的基于HOG-LBP特征和SVM分類(lèi)器的視頻摘要方法。首先,從分解到的視頻序列中提取形狀特征和紋理特征。其次,利用訓(xùn)練好的支持向量機(jī)(Support Vector Machines,SVM)對(duì)用戶(hù)感興趣的圖像進(jìn)行分類(lèi),將分類(lèi)正確且不冗余的序列定位為關(guān)鍵幀。最后將保留下的關(guān)鍵幀按照原始視頻中出現(xiàn)的時(shí)間順序依次組合起來(lái),形成視頻摘要。
方向梯度直方圖(Histograms of Oriented Gradients,HOG)可以表示圖像的形狀特征,不同的物體形狀不一樣,這樣可以作為區(qū)分目標(biāo)物體的重要參考。HOG特征是模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域很常用的一種特征描述子[8],能將局部區(qū)域內(nèi)目標(biāo)的梯度結(jié)構(gòu)和邊緣信息很好地表示出來(lái)。HOG特征最開(kāi)始是由Navneet Dalal和Bill Triggs等人于2005年提出來(lái)的[9-11],他們的方法是將一幅圖像分割成很多個(gè)細(xì)胞單元(cell),再?gòu)腸ell中提取特征,而不是直接從圖像整體中提取,以此反映圖像中不同像素之間的梯度。
SVM是一個(gè)有監(jiān)督的學(xué)習(xí)模型,它的特點(diǎn)是在分類(lèi)模型和模型參數(shù)的選擇上始終優(yōu)先結(jié)構(gòu)最小化,一般用于二類(lèi)別分類(lèi)問(wèn)題。在視頻檢測(cè)特征分類(lèi)中,針對(duì)低維空間的線性不可分問(wèn)題,通過(guò)核函數(shù)映射到高維空間達(dá)到線性可分,再進(jìn)行線性分割實(shí)現(xiàn)特征分類(lèi)[13-14],而核函數(shù)是一個(gè)對(duì)稱(chēng)函數(shù)K:Rn×Rn→R,它是將兩個(gè)Rn空間中的n維向量映射成一個(gè)實(shí)數(shù)。本文選取徑向基核函數(shù)(RBF)作為核函數(shù),通過(guò)SVM分類(lèi)器對(duì)待提取的圖像特征進(jìn)行分類(lèi)。核參數(shù)的選擇受訓(xùn)練數(shù)據(jù)大小的影響,需要進(jìn)行相應(yīng)的優(yōu)化。往往一個(gè)理想的SVM分類(lèi)器需要大量的具有代表性的訓(xùn)練樣本,比如在視頻監(jiān)控當(dāng)中就要選取大量的車(chē)輛和行人樣本,而選取的樣本要確保有大小、光照、遮擋等情況不一的圖片若干,以此保證樣本的多樣性,使得算法更具有魯棒性。
為了能有效地進(jìn)行分類(lèi),選取合適的分類(lèi)特征參數(shù)也是極其重要的。由于HOG特征是在圖像的局部單元上進(jìn)行提取,它對(duì)圖像幾何和光學(xué)的形變都能保持很好的不變性,LBP算子具有灰度不變性,光照對(duì)其基本沒(méi)有影響,改進(jìn)后的圓形LBP算子對(duì)圖像旋轉(zhuǎn)具有不變性。本文算法兼顧了兩者在特征提取上的優(yōu)勢(shì),將HOG形狀特征向量和LBP紋理特征因子融合在一起,可有效地減小形變和光照對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生的誤差。
由于圖像特征分明,比視頻更容易操作,從圖像中能捕獲到更多的細(xì)節(jié)信息。故從分解到的視頻序列中提取HOG-LBP特征。對(duì)于HOG特征提取,本文灰度化處理后得到歸一化圖像的大小為128×128,細(xì)胞單元大小設(shè)置為8×8,一個(gè)細(xì)胞單元的寬度為8個(gè)像素,塊(block)大小設(shè)置為16×16,參數(shù)設(shè)置完畢后進(jìn)行HOG特征計(jì)算。
首先采用Gamma校正法對(duì)圖像顏色空間進(jìn)行歸一化:
I(x,y)=I(x,y)gamma
(1)
再計(jì)算每個(gè)像素的梯度:
Mx(x,y)=N(x+1,y)-N(x-1,y)
(2)
My(x,y)=N(x,y+1)-N(x,y-1)
(3)
其中:Mx(x,y)表示水平方向梯度,My(x,y)表示垂直方向梯度,N(x,y)表示像素值。
由式(2)和式(3)計(jì)算出像素點(diǎn)(x,y)處的幅值和方向值為:
(4)
(5)
然后將圖像劃分為若干細(xì)胞單元,計(jì)算細(xì)胞單元的梯度直方圖。將每4個(gè)細(xì)胞單元構(gòu)成一個(gè)block,將4個(gè)9維的特征向量組合成一塊,那么每個(gè)block的特征向量為36維,最后把所有的block特征組合在一塊形成整幅圖像的HOG特征。HOG特征提取的流程圖如圖1所示。綜上所述,得到整幅圖像的HOG特征向量的總維數(shù)大小為(16-1)×(16-1)×9×2×2=8100維。
圖1HOG特征提取流程圖
由于HOG特征只能表征形狀信息,為了更好地表征圖像信息,本文在原本的HOG特征基礎(chǔ)上,增加了LBP紋理算子。
首先選取所要計(jì)算區(qū)域的中心像素,如圖2所示,設(shè)定這個(gè)中心像素的灰度值為閾值,然后將周?chē)鷪A形鄰域的像素灰度值與該閾值進(jìn)行一一對(duì)比,如果大于閾值,該像素點(diǎn)位置標(biāo)記為1,如果小于閾值則標(biāo)記為0。這樣便可以得到一串二進(jìn)制序列,再對(duì)不同位置的像素值進(jìn)行加權(quán)求和,就可以得到該區(qū)域的LBP值。
圖2基本LBP算子計(jì)算示意圖
圖3SVM分類(lèi)器訓(xùn)練模型
在通過(guò)SVM分類(lèi)器正確分類(lèi)后的圖片中,發(fā)現(xiàn)有不少車(chē)輛和人物相似或重復(fù),比如有的車(chē)輛一直處于靜止?fàn)顟B(tài)中,這會(huì)導(dǎo)致不少冗余幀的存在。為了精確得到關(guān)鍵幀,將執(zhí)行剔除冗余幀的步驟,利用余弦相似度方法將所有待定的關(guān)鍵幀之間進(jìn)行對(duì)比,篩查過(guò)濾冗余幀。
在余弦相似度方法中,將圖像的灰度直方圖劃分成64個(gè)區(qū),連續(xù)4個(gè)灰度等級(jí)劃分為一個(gè)區(qū),對(duì)每個(gè)區(qū)的4個(gè)灰度等級(jí)進(jìn)行求和運(yùn)算,這樣得到的64個(gè)數(shù)據(jù)表征一幅圖像的一個(gè)向量。通過(guò)對(duì)比兩幅圖像向量的余弦值和余弦?jiàn)A角的大小來(lái)判斷兩幅圖像的相似度。在分解的視頻幀中,余弦值越接近1,表明夾角越小,相似度越高。在本文中,若余弦值接近1,則這兩幀會(huì)被看作冗余,第二幀會(huì)被剔除。
綜上所述,提出算法提取關(guān)鍵幀的步驟如下:
Step1:從分解到的視頻序列中分別提取HOG和LBP特征,訓(xùn)練SVM分類(lèi)器。
Step2:利用訓(xùn)練后的SVM分類(lèi)器對(duì)待檢測(cè)圖片進(jìn)行分類(lèi),將分類(lèi)正確圖片暫定為關(guān)鍵幀。
Step3:利用圖像的余弦相似度方法對(duì)暫定的關(guān)鍵幀再進(jìn)行過(guò)濾篩選步驟,剔除其中的冗余幀。
本文算法實(shí)驗(yàn)硬件環(huán)境是普通臺(tái)式電腦,主要配置是Inter Core i3-7100(3.90 GHz)的四核處理器和4 GB內(nèi)存,軟件環(huán)境是Windows10 64位,仿真運(yùn)行工具為Matlab2017a。其中SVM訓(xùn)練庫(kù)采用的是VOC2007圖片數(shù)據(jù)集,從4952張圖庫(kù)中篩選出適合的訓(xùn)練樣本集,在篩選的過(guò)程保證同一樣本的多樣性,從不同的方向視角狀態(tài)出發(fā),建立了一個(gè)簡(jiǎn)易的人物庫(kù)和車(chē)輛庫(kù)。如圖4與圖5所示。
圖4車(chē)輛庫(kù)的部分內(nèi)容
圖5人物庫(kù)的部分內(nèi)容
基于SVM分類(lèi)器對(duì)視頻幀分別進(jìn)行單一特征提取和HOG-LBP特征提取,實(shí)驗(yàn)結(jié)果見(jiàn)表1。從表1中可以對(duì)比分類(lèi)的正確率、錯(cuò)誤率以及所耗費(fèi)的時(shí)間。
表1單一特征提取與HOG-LBP特征提取實(shí)驗(yàn)結(jié)果對(duì)比
由表1數(shù)據(jù)可知,在SVM分類(lèi)器、訓(xùn)練和測(cè)試樣本完全相同的情況下,三種特征提取方式所耗費(fèi)的時(shí)間相當(dāng),但HOG-LBP特征提取方式比HOG、LBP單一特征提取正確率分別提高了3.08%、12.31%,而錯(cuò)誤率分別降低了3.08%、10.78%。故HOG-LBP特征提取效果更好,表明HOG-LBP結(jié)合的特征提取優(yōu)于單一特征提取。
本文基于HOG-LBP特征,利用SVM分類(lèi)器將分類(lèi)正確且不冗余的幀作為視頻的關(guān)鍵幀。采用準(zhǔn)確率(Accuracy Rate,AR),錯(cuò)誤率(Error Rate,ER)這兩個(gè)指標(biāo)作為算法生成的視頻摘要的評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算公式為:
(6)
(7)
為了驗(yàn)證本文算法的有效性,另外選擇了街道、路口、校園三個(gè)不同場(chǎng)景的視頻作為測(cè)試數(shù)據(jù)。測(cè)試視頻屬性見(jiàn)表2。同時(shí)為了使實(shí)驗(yàn)結(jié)果更加具有說(shuō)服力,在同一場(chǎng)景下還將本文算法與文獻(xiàn)[7]算法作了對(duì)比,并采取了人為主觀的評(píng)價(jià)模式,實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表2測(cè)試視頻屬性
表3兩種算法在不同場(chǎng)景時(shí)對(duì)應(yīng)的準(zhǔn)確率和錯(cuò)誤率
從表3可知,對(duì)于三個(gè)不同場(chǎng)景的視頻,10個(gè)用戶(hù)選擇的關(guān)鍵幀作為真實(shí)值,在真實(shí)值相同的情況下,本文所使用的算法提取的關(guān)鍵幀數(shù)目比文獻(xiàn)[7]要少,但是與真實(shí)值重合的數(shù)目卻要多,反映了本文算法更具有針對(duì)性,更貼近真實(shí)值。本文算法與文獻(xiàn)[7]算法相比,三個(gè)場(chǎng)景關(guān)鍵幀提取的準(zhǔn)確率平均提高了2.08%,錯(cuò)誤率下降了21.31%,從而提高了關(guān)鍵幀的質(zhì)量。由于監(jiān)控視頻的所有視頻幀的背景都是靜止不變的,本文算法比文獻(xiàn)[7]算法增加了剔除冗余幀的步驟,減少了冗余幀的干擾,使提取到的關(guān)鍵幀更具有代表性,將關(guān)鍵幀按照原始視頻出現(xiàn)的時(shí)間順序依次組合起來(lái),更能反映原始視頻的真實(shí)內(nèi)容,視頻摘要效果更佳。
本文提出了一種基于HOG-LBP特征和SVM分類(lèi)器的視頻摘要方法,該算法結(jié)合HOG和LBP特征提取的優(yōu)勢(shì),利用SVM分類(lèi)器對(duì)監(jiān)控視頻圖像進(jìn)行分類(lèi),將分類(lèi)準(zhǔn)確且不冗余的視頻幀作為關(guān)鍵幀,最后,將提取到的所有關(guān)鍵幀按照原始視頻中出現(xiàn)的時(shí)間順序依次組合起來(lái),形成視頻摘要。實(shí)驗(yàn)結(jié)果表明,本文算法與文獻(xiàn)[7]算法相比,三個(gè)場(chǎng)景的準(zhǔn)確率平均提高了2.08%,錯(cuò)誤率平均下降了21.31%,提高了關(guān)鍵幀質(zhì)量,為用戶(hù)提取監(jiān)控視頻摘要提供了有效依據(jù)。