魯 雯,崔子冠,干宗良,劉 峰,朱秀昌
(南京郵電大學(xué) 江蘇省圖像處理與圖像通信重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210003)
基于空時(shí)域特征的視覺顯著圖生成算法
魯 雯,崔子冠,干宗良,劉 峰,朱秀昌
(南京郵電大學(xué) 江蘇省圖像處理與圖像通信重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210003)
提出了一種新的計(jì)算圖像空時(shí)域顯著圖的方法,該算法首先用lucas-kanade金字塔算法求絕對(duì)運(yùn)動(dòng)矢量,用8參數(shù)透視模型計(jì)算背景運(yùn)動(dòng)矢量,再用二者的差值求時(shí)域顯著圖;然后利用顏色對(duì)比度和紋理信息計(jì)算空域顯著圖;最后,融合空時(shí)域并設(shè)置閾值得到總的圖像顯著圖。實(shí)驗(yàn)結(jié)果表明,新算法能比已有算法更有效地提取視頻圖像的顯著性區(qū)域。
顯著圖;運(yùn)動(dòng)矢量;顏色對(duì)比度;紋理
人類視覺系統(tǒng)(Human Visual System)能感知圖像的變化,是處理后視頻和圖像的最終接收器。在一個(gè)場(chǎng)景中,人們只對(duì)其中一部分視覺場(chǎng)景感興趣,利用HVS可求出人眼對(duì)圖像關(guān)注度高的區(qū)域。基于HVS的顯著圖可以用在很多領(lǐng)域,例如感興趣區(qū)域視頻編碼、高性能的視頻壓縮[1]和目標(biāo)檢測(cè)[2]等。
視頻序列與靜止圖像的顯著區(qū)域不同,人們往往對(duì)視頻圖像中的運(yùn)動(dòng)物體更感興趣,文獻(xiàn)[3]把由運(yùn)動(dòng)引起的關(guān)注定義為時(shí)域顯著性,大部分對(duì)時(shí)域顯著性的估計(jì)通過計(jì)算運(yùn)動(dòng)對(duì)比度[4-6]得到。但這些模型只考慮視頻圖像中的局部運(yùn)動(dòng)信息,沒有考慮相機(jī)運(yùn)動(dòng)。當(dāng)相機(jī)運(yùn)動(dòng),相機(jī)引起的背景運(yùn)動(dòng)會(huì)影響前景物體的運(yùn)動(dòng),導(dǎo)致計(jì)算出的顯著圖不準(zhǔn)確。為了解決這個(gè)問題,已有一些模型在用運(yùn)動(dòng)信息估計(jì)時(shí)域顯著圖前,先減去相機(jī)的運(yùn)動(dòng)矢量[7-11],使得計(jì)算出的時(shí)域顯著圖更準(zhǔn)確。
除了時(shí)域特征外,利用視頻圖像中的顏色對(duì)比度、亮度對(duì)比度、紋理掩蔽和方向等低級(jí)視覺特征也可求顯著圖。在所有現(xiàn)存利用低級(jí)特征求顯著圖的方法中,IKN模型[12]最著名并被廣泛使用。由于IKN模型提出的用低級(jí)視覺特征求圖像顯著圖的思想值得學(xué)習(xí),現(xiàn)在有很多模型是在IKN模型上的改進(jìn)[13-15]。
本文提出了一種新的計(jì)算空時(shí)域顯著圖的方法。對(duì)比前人的方法,本文方法主要的工作有:1)用lucas-kanade金字塔光流[16]法計(jì)算絕對(duì)運(yùn)動(dòng)矢量替代由H.264解碼預(yù)測(cè)出的運(yùn)動(dòng)矢量,用8參數(shù)透視模型計(jì)算背景運(yùn)動(dòng)矢量,并從絕對(duì)運(yùn)動(dòng)矢量中減去背景運(yùn)動(dòng)矢量得到相對(duì)運(yùn)動(dòng)矢量,從而求得時(shí)域顯著圖。2)定義顏色對(duì)比度值,求顏色對(duì)比顯著圖;用prewitt濾波器求圖像梯度值,從而求得紋理顯著圖。3)融合空時(shí)域顯著圖,通過閾值后處理得到最終圖像的顯著圖。
首先,在一個(gè)給定的視頻序列中,引進(jìn)3種類型的運(yùn)動(dòng)場(chǎng),它們分別叫做絕對(duì)運(yùn)動(dòng)、背景運(yùn)動(dòng)和相對(duì)運(yùn)動(dòng)[10]。絕對(duì)運(yùn)動(dòng)代表一個(gè)視頻序列中,前一幀中的像素點(diǎn)與當(dāng)前幀中對(duì)應(yīng)的像素點(diǎn)之間的絕對(duì)空間位移;背景運(yùn)動(dòng)和全局運(yùn)動(dòng)相似,通常由相機(jī)運(yùn)動(dòng)產(chǎn)生;而相對(duì)運(yùn)動(dòng)則是絕對(duì)運(yùn)動(dòng)和背景運(yùn)動(dòng)之間的矢量差,三者的關(guān)系如圖1所示。
圖1 絕對(duì)運(yùn)動(dòng)、背景運(yùn)動(dòng)和相對(duì)運(yùn)動(dòng)之間的關(guān)系
本文算法的流程圖如圖2所示。首先,輸入一個(gè)視頻序列中的相鄰兩幀圖像,用金字塔光流法求出的這兩幀圖像的運(yùn)動(dòng)矢量,定義為絕對(duì)運(yùn)動(dòng)矢量;用全局運(yùn)動(dòng)估計(jì)求相機(jī)運(yùn)動(dòng)矢量,定義為背景運(yùn)動(dòng)矢量;定義絕對(duì)運(yùn)動(dòng)和背景運(yùn)動(dòng)的矢量差為相對(duì)運(yùn)動(dòng)矢量,并用相對(duì)運(yùn)動(dòng)矢量求時(shí)域顯著圖。其次,分別求當(dāng)前幀的顏色對(duì)比度顯著圖和紋理顯著圖。最后,融合空時(shí)域顯著圖,并對(duì)該圖做閾值處理,得到最終的顯著圖。
圖2 算法整體框架
2.1 計(jì)算時(shí)域顯著圖
文獻(xiàn)[9]通過H.264解碼,得到預(yù)測(cè)的運(yùn)動(dòng)矢量值,并將該運(yùn)動(dòng)矢量作為初始值帶入全局運(yùn)動(dòng)估計(jì)算法計(jì)算背景運(yùn)動(dòng)矢量。由于通過H.264解碼得到的運(yùn)動(dòng)矢量預(yù)測(cè)值并不準(zhǔn)確,導(dǎo)致用該值估計(jì)出的背景運(yùn)動(dòng)矢量有偏差。為了避免文獻(xiàn)[9]算法(該算法后面簡(jiǎn)稱SAVC算法)造成的誤差,本文使用金字塔光流法計(jì)算絕對(duì)運(yùn)動(dòng)矢量,求時(shí)域顯著圖的過程如下:
第一階段,計(jì)算相鄰兩幀的絕對(duì)運(yùn)動(dòng)矢量前,先把輸入的CIF格式圖像下采樣成1/4 CIF大小的圖像以減少計(jì)算量。再用lucas-kanade金字塔光流法求出兩個(gè)相鄰幀之間的絕對(duì)運(yùn)動(dòng)矢量。整個(gè)金字塔算法的流程是:首先,計(jì)算出金字塔最高級(jí)L級(jí)圖像的光流。然后,計(jì)算結(jié)果將作為初始像素位移值帶入L-1層圖像進(jìn)行計(jì)算。通過計(jì)算把修正過后的L-1層光流值再帶入L-2層中進(jìn)行計(jì)算,這樣迭代直至到0層(原始圖像),本文定義L=2。
第二階段,計(jì)算背景運(yùn)動(dòng)矢量。本文同SAVC算法一樣,使用8參數(shù)透視模型做全局運(yùn)動(dòng)估計(jì)。把求出的絕對(duì)運(yùn)動(dòng)矢量帶入8參數(shù)透視模型中去,計(jì)算出的MVX和MVY為背景運(yùn)動(dòng)矢量。從第一階段求出的絕對(duì)運(yùn)動(dòng)矢量中減去背景運(yùn)動(dòng)矢量MVX,MVY,獲得相對(duì)運(yùn)動(dòng)矢量值,如圖3所示。
第三階段,計(jì)算相對(duì)運(yùn)動(dòng)矢量的大小,并求得時(shí)域顯著圖。將X、Y方向上運(yùn)動(dòng)矢量的大小量化成圖像的顯著值,式(1)為量化公式
(1)
式中:MX,MY分別代表X,Y方向上的相對(duì)運(yùn)動(dòng)矢量;M0為圖像最終顯著值。對(duì)得到的圖像顯著值M0矩陣進(jìn)行均值濾波以減少孤立的噪點(diǎn)。為了方便后續(xù)研究,對(duì)濾波后的M0矩陣進(jìn)行張量積運(yùn)算。求得的強(qiáng)度圖矩陣值的范圍為0.0(黑)到1.0(白),該強(qiáng)度圖即最終的顯著圖,如圖4所示。
圖4 視頻soccer中第79幀的處理結(jié)果
觀察圖4,其中圖4a中運(yùn)動(dòng)物體包括圖像左邊正在走動(dòng)中的藍(lán)衣運(yùn)動(dòng)員以及圖像右邊正在踢球的紅衣運(yùn)動(dòng)員。圖4b是本文算法時(shí)域顯著圖,圖中有兩塊灰色/白色的顯著區(qū)域,實(shí)驗(yàn)結(jié)果顯示該算法已經(jīng)能很好地提取出左邊的藍(lán)衣運(yùn)動(dòng)員,但是僅能提取一部分右邊的紅衣運(yùn)動(dòng)員。分析實(shí)驗(yàn)結(jié)果,在圖4b中,不僅希望提取圖像左邊的藍(lán)衣運(yùn)動(dòng)員也希望能完整提取圖像右邊的紅衣運(yùn)動(dòng)員。下面,將通過分析其他的特征獲得更準(zhǔn)確的實(shí)驗(yàn)結(jié)果。通過分析,發(fā)現(xiàn)圖4b中踢足球的運(yùn)動(dòng)員穿著紅色的衣服,與周圍環(huán)境的顏色形成了鮮明的對(duì)比,因此可以考慮使用顏色對(duì)比度求顯著圖。另外,也可以通過提取邊緣信息,求邊緣特征圖,下一節(jié)將利用顏色對(duì)比度和邊緣信息求空域顯著圖。
2.2 計(jì)算空域顯著圖
本節(jié)計(jì)算空域顯著圖的過程分兩步:
第一步:利用顏色對(duì)比度求顯著圖。首先,定義RG和BY這兩個(gè)顏色對(duì)比度值,如式(3)和式(4)所示,式(2)中y為黃色分量。這樣定義的原因是:1)根據(jù)Dirk Walther[17]等人的研究,黃色被感知為紅色和綠色等份量的重疊,所以在一個(gè)RGB像素中所包含的黃色分量的大小應(yīng)由min(r,g)得出。2)對(duì)比Dirk Walther定義的顏色對(duì)比度值,本文引入平方運(yùn)算,拉伸每點(diǎn)顏色對(duì)比度值的范圍,突出與周圍背景顏色形成鮮明對(duì)比度的像素點(diǎn),使顏色特征圖的分層更加突出,減少視覺關(guān)注區(qū)域的冗余。然后,和IKN算法一樣對(duì)顏色分量進(jìn)行跨尺度相減和標(biāo)準(zhǔn)化處理,得到顏色顯著圖。
y=min(r,g)
(2)
(3)
(4)
第二步:求紋理顯著圖。本文使用梯度的方法[18]來計(jì)算圖像的邊緣。這里使用Prewitt濾波器來計(jì)算梯度,Prewitt濾波器垂直和水平方向的模版定義為
(5)
將圖像的亮度值與Hx,Hy做卷積得到點(diǎn)(X,Y)的梯度值,如式(6)所示
(6)
式中:I(x,y)代表圖像中點(diǎn)(X,Y)的亮度值;符號(hào)?代表卷積操作。把式(6)中G(x,y)定義為圖像中點(diǎn)(X,Y)的邊緣顯著值,最終得到圖像紋理顯著圖。
2.3 空時(shí)域顯著圖融合
目前,已經(jīng)有線性和非線性等多種融合多特征顯著圖的方法,本節(jié)使用了一種簡(jiǎn)單的線性融合方法。融合方法如式(7)所示
γ×Texture_map)
(7)
式中:S_Map為融合后的顯著圖;Motion_map、Color_map和Texture_map分別代表前面求出的基于運(yùn)動(dòng)特征、顏色對(duì)比度和紋理特征的顯著圖;α,β和γ分別代表分配給這3類顯著圖的權(quán)重,一般設(shè)置α>1,β>1和γ≤1(α>β>γ)。
圖5為空時(shí)域顯著圖融合后的結(jié)果。
圖5 各個(gè)特征顯著圖及融合后顯著圖
圖5的實(shí)驗(yàn)中,分別令α=4,β=3和γ=1。其中圖5a為soccer第79幀圖像。圖5b~5d分別是該幀圖像基于運(yùn)動(dòng)矢量、顏色對(duì)比度和紋理特征的顯著圖,圖5e為融合后的實(shí)驗(yàn)結(jié)果。從圖5e中可以看出本文模型能計(jì)算出視覺關(guān)注度高的區(qū)域,但由于顏色對(duì)比度和紋理顯著圖中提取了一些非關(guān)注度高的區(qū)域,造成了一些模糊現(xiàn)象。下面通過設(shè)置閾值對(duì)圖5e中的結(jié)果做一些后處理,改進(jìn)結(jié)果。如式(8)當(dāng)像素點(diǎn)的灰度值大于閾值T時(shí),將該點(diǎn)標(biāo)記為顯著點(diǎn),灰度值小于T時(shí),標(biāo)記為非顯著點(diǎn)
(8)
式中:T代表閾值;S_Map(x, y)表示顯著圖中點(diǎn)(x, y)的強(qiáng)度值;S(x, y)表示設(shè)定閾值后,點(diǎn)(x,y)的顯著值。圖5f代表閾值處理后的結(jié)果,這里T=0.3。對(duì)比圖5e和圖5f可以發(fā)現(xiàn),閾值可以有效減少那些顯著值不高的噪點(diǎn),即關(guān)注度不高的陰影部分。由此得出,設(shè)定一個(gè)合適的閾值,能提高提取顯著區(qū)域的準(zhǔn)確性。
圖6~圖9給出本文算法和SAVC算法求顯著圖的實(shí)驗(yàn)結(jié)果,其中4個(gè)實(shí)驗(yàn)視頻圖像分別為視頻akiyo第22幀、paris第39幀、football第79幀和silent第20幀。每個(gè)視頻圖像實(shí)驗(yàn)結(jié)果中a~e分別代表原始圖像、SAVC模型求出的顯著圖、二值化SAVC顯著圖、本文算法求出的顯著圖和二值化本文算法顯著圖的結(jié)果。將顯著圖二值化的目的是為了視覺上對(duì)比方便。其中本文選取的閾值為T=0.3。
圖6 akiyo第22幀實(shí)驗(yàn)算法對(duì)比
圖7 paris第39幀實(shí)驗(yàn)算法對(duì)比
圖8 football第79幀實(shí)驗(yàn)算法對(duì)比
圖9 silent第20幀實(shí)驗(yàn)算法對(duì)比
圖6~圖9表明SAVC算法在有些視頻場(chǎng)景中比較有效,如對(duì)視頻paris和football求得的結(jié)果相對(duì)準(zhǔn)確,圖7b中,該模型求出吸引人注意力的兩個(gè)人;又如圖8b中,該模型求出傳球的運(yùn)動(dòng)員們。但它并不是對(duì)所有視頻圖像都有效,比如對(duì)視頻akiyo和silent,SAVC算法并不能很好地提取顯著性區(qū)域,只能提取顯著圖的一小塊,而不是完整的顯著區(qū)域。經(jīng)過分析,筆者發(fā)現(xiàn)這是由于SAVC算法對(duì)視頻圖像的運(yùn)動(dòng)信息提取較好,能夠準(zhǔn)確計(jì)算出視頻圖像中的運(yùn)動(dòng)顯著圖。而SAVC算法用近似IKN算法求得的圖像空域顯著圖,效果十分不好,導(dǎo)致該算法對(duì)運(yùn)動(dòng)劇烈的部分提取較好,而運(yùn)動(dòng)較小但同樣是視覺關(guān)注度高的區(qū)域則幾乎提取不出來。視頻akiyo中運(yùn)動(dòng)較劇烈的主要是人臉部分,人的身體部分雖然同屬于視覺關(guān)注度高的區(qū)域但是運(yùn)動(dòng)不劇烈;slient中運(yùn)動(dòng)較劇烈的主要是人的手臂部分。因此SAVC模型只能提取akiyo的頭部運(yùn)動(dòng)區(qū)域和silent的手部運(yùn)動(dòng)區(qū)域,而不能計(jì)算出完整的顯著區(qū)域。
本文算法相對(duì)于SAVC算法,在效果上有了較大的提高。在時(shí)域顯著圖這塊,本文算法在SAVC模型上做了改進(jìn),使用金字塔光流法求視頻每幀圖像的絕對(duì)運(yùn)動(dòng)矢量信息,計(jì)算出的時(shí)域顯著圖很準(zhǔn)確。在空域這塊,本文利用顏色對(duì)比度和紋理信息求出了空域顯著圖,比SAVC算法中使用近似IKN算法的效果好很多。因此,本文不僅和SAVC算法一樣,能準(zhǔn)確提取出運(yùn)動(dòng)較劇烈的區(qū)域,如圖7d和圖8d所示;也能準(zhǔn)確提取出“靜止的”顯著區(qū)域,使得計(jì)算出的顯著區(qū)域更加完整,如圖6d和圖9d所示。
本文提出了一種新的基于空時(shí)域的計(jì)算視頻圖像顯著圖的方法。算法分為3步,首先,利用金字塔光流算法計(jì)算絕對(duì)運(yùn)動(dòng)矢量,估計(jì)相機(jī)運(yùn)動(dòng)產(chǎn)生的背景運(yùn)動(dòng)矢量,將背景運(yùn)動(dòng)從絕對(duì)運(yùn)動(dòng)中移除得到相對(duì)運(yùn)動(dòng)矢量,利用相對(duì)運(yùn)動(dòng)矢量計(jì)算時(shí)域顯著圖。然后,利用顏色對(duì)比度和紋理信息求空域顯著圖。最后,通過將3個(gè)特征圖像線性融合,得到總的顯著圖。實(shí)驗(yàn)結(jié)果顯示,無論是視頻圖像中的運(yùn)動(dòng)較劇烈物體,還是有高視覺關(guān)注度的非運(yùn)動(dòng)物體,算法都能有效地提取圖像的顯著區(qū)域。由于提取準(zhǔn)確的視覺顯著圖對(duì)視頻編碼很有用,算法具有一定的實(shí)用價(jià)值和應(yīng)用前景。
[1] LI Zhicheng,QIN Shiyin,ITTI L. Visual attention guided bit allocation in video compression[J]. Image and Vision Computing,2011,29(1):1-14.
[2] ZHANG W. An adaptive computational model for salient object detection[J]. Multimedia, 2010,12(4):300-316.
[3] MAHAPATRA D, WINKLER S, YEN S C. Motion saliency outweighs other low-level features while watching videos[C]//Proc. Electronic Imaging 2008. [S.l.]:International Society for Optics and Photonics,2008:680-689.
[4] LIU D,SHYU M L. Semantic retrieval for videos in non-static background using motion saliency and global features[C]//Proc. 2013 IEEE Seventh International Conference on Semantic Computing(ICSC).[S.l.]:IEEE Press,2013:294-301.
[5] ZHU Y,JACOBSON N,PAN H, et al. Motion-decision based spatiotemporal saliency for video sequences[C]//Proc. 2011 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).[S.l.]:IEEE Press,2011:1333-1336.
[6] HUA Z, XIANG T, YAO W C. A distortion-weighing spatiotemporal visual attention model for video analysis[C]//Proc. 2nd International Congress on Image and Signal Processing, CISP’09. [S.l.]:IEEE Press,2009:1-4.
[7] WU B, XU L, LIU G. A visual attention model for news video[C]//Proc. 2013 IEEE International Symposium on Circuits and Systems(ISCAS). [S.l.]:IEEE Press, 2013: 941-944.
[8] CHEN Y M,BAJIC I V. Motion vector outlier rejection cascade for global motion estimation[J]. Signal Processing Letters,2010,17(2):197-200.
[9] HADIZADEH H,BAJIC I V. Saliency-aware video compression[J]. Image Processing,2014,23(1):19-33.
[10] WANG Z,LI Q. Video quality assessment using a statistical model of human visual speed perception[J]. JOSA,2007,24(12):61-69.
[11] BARRANCO F,DIAZ J,ROS E,et al. Real-time visual saliency architecture for fpga with top-down attention modulation[J]. Industrial Informatics,2014,10(3):1726-1735.
[12] ITTI L,KOCH C,NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[13] HAREL J,KOCH C,PERONA P. Graph-based visual saliency[C]//Proc.Advances in Neural Information Processing Systems. [S.l.]:IEEE Press,2006:545-552.
[14] ROSIN P L. A simple method for detecting salient regions[J]. Pattern Recognition, 2009, 42(11): 2363-2371.
[15] BORJI A, ITTI L. State-of-the-art in visual attention modeling[J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 2013, 35(1): 185-207.
[16] LUCAS B D, KANADE T. An iterative image registration technique with an application to stereo vision[C]//Proc. IJCAI 1981. [S.l.]:IEEE Press,1981:674-679.
[17] WALTHER D, CHRISTOF K. Modeling attention to salient proto-objects[J]. Neural Networks,2006,19(9):1395-1407.
[18] XUE W,ZHANG L,MOU X,et al. Gradient magnitude similarity deviation: a highly efficient perceptual image quality index[J]. IEEE Trans. Image Processing, 2014, 23(2): 684-695.
魯 雯(1990— ),女,碩士生,主研視頻圖像處理;
崔子冠(1982— ),講師,主要研究方向視頻編碼與傳輸,為本文通訊作者;
干宗良(1979— ),副教授,主要研究方向?yàn)閳D像處理與視頻通信;
劉 峰(1964— ),博士生導(dǎo)師,主要研究方向?yàn)閳D像處理與多媒體通信、高速DSP與嵌入式系統(tǒng);
朱秀昌(1947— ),博士生導(dǎo)師,主要研究方向?yàn)閳D像處理與多媒體通信。
責(zé)任編輯:時(shí) 雯
Visual Saliency Map Algorithm Using Spatiotemporal Features
LU Wen,CUI Ziguan,GAN Zongliang,LIU Feng,ZHU Xiuchang
(JiangsuProvinceKeyLabonImageProcessing&ImageCommunications,NanjingUniversityofPostsandTelecommunications,Nanjing210003,China)
A new algorithm for computing spatio-temporal saliency maps is proposed in this paper. Firstly, the optical flow vectors of absolute motion is estimated.Then the background motion vectors to obtain the temporal saliency maps is calculated. Secondly, color contrast and texture information is used to calculate the spatial saliency maps. Finally,spatio-temporal saliency maps by fusing spatial and temoral maps is got. Experimental results show a better performance when compared to several state-of-the-art temporal saliency models.
saliency map;motion vectors;color contrast;texture
國(guó)家自然科學(xué)基金項(xiàng)目(61471201);江蘇省自然科學(xué)青年基金項(xiàng)目(BK20130867);江蘇省高校自然科學(xué)研究項(xiàng)目(12KJB510019);江蘇省高校自然科學(xué)重大項(xiàng)目(13KJA510004);南京郵電大學(xué)??蒲谢痦?xiàng)目(NY212015);南京郵電大學(xué)“1311人才計(jì)劃”資助課題項(xiàng)目
TP751.1
A
10.16280/j.videoe.2015.17.001
2015-01-14
【本文獻(xiàn)信息】魯雯,崔子冠,干宗良,等.基于空時(shí)域特征的視覺顯著圖生成算法[J].電視技術(shù),2015,39(17).