陳夢澤
(長春師范學院數(shù)學學院,吉林長春 130032)
隨著多媒體技術的快速發(fā)展,數(shù)字媒體呈現(xiàn)爆炸式增長趨勢,產生了大量的視頻數(shù)據[2]。如何有效實施數(shù)字多媒體版權保護和確保信息安全成為一項重要緊迫的研究課題。視頻水印是一個很好的方法。傳統(tǒng)的大多數(shù)視頻方法是將圖像水印方法直接移植過來,但是由于視頻獨有的特性,加入時間軸,沒有達到很好的效果,而在視頻中如何找到嵌入水印的位置是我們現(xiàn)在的一個研究重點。
人類視覺注意力對信息有很強的篩選能力,會自動地對感興趣區(qū)域進行處理,提取出有用的信息,這種機制就是使人們能夠在復雜的視覺環(huán)境中快速定位感興趣的目標或者區(qū)域。我們將此機制引入到視頻水印中,通過視覺注意力找出視頻中的感興趣區(qū)域作為水印的嵌入位置,從而達到不可見的目的。
視覺注意是人類視覺信息處理過程中一項重要的心理調節(jié)機制,面對大量的視頻信息,為了信息處理的效率,視覺注意力扮演一個信息篩選的功能。人類的感知可以讓我們減弱對不相關信息的處理,專注感興趣的事物,幫助我們快速地對視頻中主要的信息(顏色、亮度、運動等)進行分析,從而提取目標對象。這種自主的選擇性和主動的心理活動被稱為視覺注意機制。注意機制模型分為兩種:一種是基于初級視覺,由數(shù)據驅動的自底向上的注意;一種是基于高層視覺與任務、知識等相關的自頂向下的注意。
Itti模型屬于自底向上的模型,主要用于顯著區(qū)域快速搜索,它構建了第一個神經框架來模擬人類視覺注意力機制,由外界信號的特性而決定注意的導向,屬于比較經典的模型之一[4]。它包含兩個部分,即早期特征選擇和顯著度圖融合。其基本思想是在早期特征選擇階段對輸入的圖像提取多方面的特征,如顏色、朝向、亮度、運動等,形成各個特征維上的顯著圖;然后對這些顯著圖進行分析,通過Center-surround算子將圖像、視頻中的顯著區(qū)域提取出來形成一個融合成的顯著圖(Saliency map),顯著圖中由亮度值表示顯著度,由強到弱依次表示顯著性的強弱,越亮表明該像素點的顯著度越大。圖1為Itti模型圖。
圖1 Itti模型圖
圖2 水印算法流程圖
該方法不需要先驗知識,也不需要根據視頻調整模型,因此受到很多關注。但是該方法主要用于靜態(tài)的圖像,沒有用到視頻特有的運動特征,所以直接應用到視頻中沒有很好的效果。目前視頻序列下的顯著性區(qū)域檢測方法主要是在靜態(tài)圖像的視覺注意計算模型中增加運動特征,如光流特征。因此本文在此模型的基礎上考慮將靜態(tài)視覺注意區(qū)域和基于運動的動態(tài)視覺注意區(qū)域融合的方法。
基于視覺注意力理論,本文提取了一種基于視覺注意力的視頻水印。圖2為水印算法的整體流程。
靜態(tài)顯著性的研究已經比較成熟,如典型的Itti模型,Le Meur’s model[5]。用Itti模型來進行視頻中靜態(tài)顯著區(qū)域的提取。視頻可以看作是一組連續(xù)的圖像集,它的每一幀都有不同的亮度信息和顏色特征,通過Itti模型對進行原始載體視頻中的靜態(tài)顯著區(qū)域提取,操作步驟如下:(1)將視頻幀分為一系列的圖片集,一組圖片集在相同的場景下;(2)并行地對每幀圖像的RGB三個通道提取圖像的亮度特征,用(R+B+G)/3來表示圖像的灰度圖,然后將灰度圖送入高斯金字塔,可得到亮度特征I;(3)建立4個顏色通道r、g、b、y作為顏色特征,對其不同尺度的特征圖進行“中央-周邊差”計算,得到每幀圖像的顏色特征C;(4)利用Gaber小波對亮度通道進行θ方向的濾波操作,得到方向特征O;(5)對顏色、亮度、方向每個特征通道的各個特征圖進行跨尺度融合,并進行歸一化,得到三個特征的關注圖,最后將三個特征的關注圖合并為一幅綜合的視覺顯著圖T。
顯著圖中由亮度值表示顯著度,對輸入圖像中的每個像素,顯著圖用一個標量來衡量注意度。由經驗可知一副圖像中的感興趣區(qū)域通常不大于三個,因為太多的感興趣區(qū)域會使注意力分散,無法集中地注意某個物體。圖3(a)為通過Itti模型對圖4提出的靜態(tài)顯著圖。
下面主要介紹一下視頻中運動顯著區(qū)域的提取。視頻不同于圖像的關鍵在于它包含運動信息,人眼在觀看時相對于初級的視覺特征(顏色、亮度、方向等),會給運動信息更多的注意。幀與幀之間的物體運動情況能很好的說明視頻的動態(tài)顯著性。我們用運動概率矩陣來描述幀與幀之間的運動情況,用基于幀間差分的方法來建立運動概率矩陣。如圖3(c)為圖4的動態(tài)顯著區(qū)域。(1)將視頻分為一系列的連續(xù)的圖片集,以每一組圖片的第一幀為參考幀,連續(xù)的兩幀圖像相減得到差圖像,如圖3(b);(2)把差圖像分為大小為8*8的無重疊的塊,求每塊像素的和;(3)用每塊像素的和除以當前幀像素的總和,得到每塊圖像的運動概率;(4)對每塊圖像的運動概率進行排序,由此得到運動概率矩陣,矩陣中的每個值代表了該像素的運動情況,值越大說明運動得越快,顯著性就越高,越能引起人眼的注意;(5)將矩陣中值小于矩陣平均值的像素置為零,得到運動的顯著圖S。
通過平均融合的方法:Z=(T+S)/2,將靜態(tài)顯著圖和動態(tài)顯著圖合成一個整體的顯著圖,如圖3(d)所示,其為圖4(a)的整體顯著圖。
2.4.1 水印嵌入過程
通過以上步驟,我們得到幀圖像的感興趣區(qū)域,也就是水印的嵌入位置,那么水印的嵌入過程如下:
(1)將視頻分為一系列的幀圖像,提出每幀圖像的藍色通道;
(3)得到水印的嵌入位置后,修改幀圖像藍色通道中M所對應的像素值,實現(xiàn)水印的嵌入,公式為:
其中α是嵌入強度。然后重組含密的幀圖像,最后得到含密視頻。
2.4.2 秘密信息的提取
水印的提取算法為水印嵌入的逆過程,水印的提取需要原始視頻的參與,具體提取過程為:(1)將原始視頻和含秘視頻分為一系列幀圖像,提取幀圖像的藍色通道;(2)通過水印提取中的顯著區(qū)域提取方法,找到原視頻中的顯著區(qū)域M,在顯著區(qū)域中我們抽取出n*n個最大顯著度值,大小為水印的像素個數(shù),構成顯著區(qū)域子圖M,得到水印的嵌入位置,提取水印公式如下:
(3)重組二進制流,得到二值水印圖像W′。
為了驗證這里給的基于視覺注意力的視頻水印的性能,下面給出實驗結果。實驗中視頻序列是AVI格式的灰度視頻流,共200幀,時長大約6秒,幀圖像大小為352×288,水印圖像為64×64二值圖像。原始視頻的樣本幀圖像和二值水印圖像分別如圖4和圖5所示。在實驗中水印的嵌入強度為α=4。
圖4 原始視頻樣本幀圖像
圖5 水印圖像
為了驗證算法的魯棒性,對含水印的視頻采取高斯噪聲、椒鹽噪聲、掉幀以及幀平均等攻擊。我們在所有的幀圖像中都嵌入相同的水印信號。因此,在下面實驗中,以視頻序列中的一幀(10幀)作為樣本幀來描述實驗。
向含水印的幀圖像中分別加入高斯噪聲,均值為零,方差分別為0.00001、0.00002、0.00003。表1顯示了添加噪聲后的NC值和提出的水印。實驗結果表明,高斯噪聲的添加并沒有導致圖像質量的下降,提取出的水印圖像清晰。
取椒鹽噪聲的強度分別為0.01、0.02、0.03,表2為添加椒鹽噪聲后恢復出的水印圖像和NC值,實驗表明噪聲的污染使視頻質量有所下降,但并不影響水印的提取,水印圖像仍然能夠提取和識別。
表1 高斯噪聲攻擊
表2 椒鹽噪聲攻擊
掉幀攻擊是指從含密的視頻序列中任意的除去一幀或幾幀。如果在攻擊實驗中去掉太多的幀,會大大降低視頻的質量,被人眼所察覺。在實驗中,我們在含密視頻序列中隨機地去掉一幀。由于該算法是將同一個水印分別嵌入到所有的視頻幀中,所以掉幀不會對水印圖像的完全提取造成影響,NC值為1
幀平均是一種簡單的聯(lián)合攻擊。對一幀進行平均攻擊的步驟如下:首先,從視頻中隨機的選擇一幀fn;然后,利用幀fn-1,fn和fn+1計算得到平均幀fn;最后,用平均幀fn替換幀fn。圖5(a)為平均5幀后提取的水印。由于將同一水印嵌入到視頻中,幀平均造成第五幀中水印信息的丟失,我們還可以從其他幀中完整地提取出水印信息。
圖5 提取的水印圖像
由以上實驗結果可以看出,該視頻水印方法對高斯噪聲、椒鹽噪聲、掉幀以及幀交換的攻擊都具有較好好的魯棒性,但對Jpeg壓縮的魯棒性不是很好。
本文提出了一種基于視覺注意力的視頻水印算法。在基于視覺注意力的視頻水印中,通過Itti模型的生成靜態(tài)顯著圖,利用幀間差分的方法構造運動概率矩陣,以此得到動態(tài)顯著圖,最后用平均值融合法生成整體顯著圖的方法得到視頻中每一幀的感興趣區(qū)域(ROI),將秘密信息或者水印信號隱藏在感興趣區(qū)域內。由于對于每一幀圖像都有不同的嵌入位置,因此本算法有較高的安全性。實驗結果表明,該算法對于高斯濾波、高斯噪聲、椒鹽噪聲、掉幀以及幀交換等攻擊都具有很好的魯棒性。
[1]L.Itti,C.Koch.Computational modelingofvisual attention[J].Nature Reviews Neuroscience,2001,2(3):194-203.
[2]梁華慶,王磊,雙凱,等.一種在原始視頻幀中嵌入的魯棒的數(shù)字水印[J].電子與信息學報,2003,25(9):1281-1284.
[3]L.Itti,C.Koch and E.Niebur.AModel ofSaliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Trans.on Pattern Analysis and MachineIntelligence,1998,20(11):1254-1259.
[4]L.Itti,Koch C.Feature combination strategies for saliencybased visual attention systems[J].Journal ofElectronic Imaging,2001(10):161-169.
[5]O.Le Meur,P.Le Callet,D.Barba and D.Thoreau.Acoherent computational approach tomodel the bottom-up visual attention[J].IEEE Trans.On Pattern Analysis and Machine Intelligence,2006,28(5):802-817.