劉爍煒 劉琲貝 胡永健? 王宇飛 賴志茂
(1.華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640;2.中新國(guó)際聯(lián)合研究院,廣東 廣州 510700;3.中國(guó)人民警察大學(xué),廣東 廣州 510663)
目前,深度學(xué)習(xí)用于隱寫和隱寫分析已成為一種趨勢(shì),并在數(shù)字圖像隱寫[1- 2]和隱寫分析[3- 4]領(lǐng)域取得了矚目成果。然而,基于深度學(xué)習(xí)的視頻隱寫分析研究仍處于起步階段。由于視頻隱寫分析網(wǎng)絡(luò)(例如文獻(xiàn)[5- 6])沿用了典型圖像隱寫分析的深度卷積神經(jīng)網(wǎng)絡(luò),需要將視頻分幀為圖像序列后逐幀進(jìn)行嵌密判斷,忽視了視頻隱寫主要在編碼后的壓縮域而非在幀圖像上直接進(jìn)行嵌密操作,從而與圖像隱寫存在巨大差異的事實(shí),導(dǎo)致基于深度學(xué)習(xí)的視頻隱寫檢測(cè)網(wǎng)絡(luò)性能尚未達(dá)到令人滿意的程度。另一方面,傳統(tǒng)上利用視頻壓縮編碼特性所設(shè)計(jì)的手工特征具有維度小、針對(duì)性強(qiáng)、靈敏度高、可解釋性好,且不受視頻分辨率限制等特點(diǎn),因此對(duì)視頻隱寫分析而言,在現(xiàn)階段深化傳統(tǒng)方法的研究仍具有很好的理論和實(shí)際應(yīng)用意義。
典型的視頻隱寫方法包括修改運(yùn)動(dòng)向量[7- 9]、 DCT系數(shù)[10- 12]和幀內(nèi)預(yù)測(cè)模式[13- 14]等。其中,修改運(yùn)動(dòng)向量對(duì)編碼性能和視覺質(zhì)量的影響最小,并能提供足夠的嵌密負(fù)載,已成為目前最流行的視頻隱寫方式。為減少失真并提高安全性,通常在內(nèi)容自適應(yīng)策略下,對(duì)符合預(yù)定義選擇規(guī)則的運(yùn)動(dòng)向量進(jìn)行修改[7- 9]。檢測(cè)基于運(yùn)動(dòng)向量的視頻隱寫途徑有兩種:一種途徑是計(jì)算同一幀或相鄰幀上運(yùn)動(dòng)向量的統(tǒng)計(jì)特性[15];另一種是利用運(yùn)動(dòng)向量在多重編碼后出現(xiàn)異?;蛟谛薷暮缶植孔顑?yōu)性受損的特點(diǎn)。文中研究基于運(yùn)動(dòng)向量的視頻隱寫分析。
Cao等[16]證明了修改后的運(yùn)動(dòng)向量在重壓縮過程中具有向原始運(yùn)動(dòng)向量復(fù)原的趨勢(shì),并根據(jù)這種現(xiàn)象設(shè)計(jì)了反映運(yùn)動(dòng)向量復(fù)原(MV reversion-based,MVRB)的15維特征,但碼率對(duì)視頻幀像素塊的重構(gòu)有很大影響,在低碼率下量化引起的較大失真混淆了嵌密引起的失真,致使載體和載密視頻所提取的特征之間的差異性難以區(qū)分,檢測(cè)性能急劇下降。Wang等[17]指出運(yùn)動(dòng)向量的修改很大概率會(huì)破壞其局部最優(yōu)性,并根據(jù)實(shí)際絕對(duì)差值之和(SAD)與通過加1或減1(Add or Subtract One,AoSO)操作獲取的局部最優(yōu)SAD之間的差異設(shè)計(jì)了18維特征。然而AoSO檢測(cè)性能容易受到視頻比特率的影響,原因是在檢驗(yàn)局部最優(yōu)性時(shí)缺少對(duì)運(yùn)動(dòng)向量編碼所需的比特估計(jì)。對(duì)此,Zhang等[18]綜合考慮了運(yùn)動(dòng)向量預(yù)測(cè)失真和編碼所需的比特,提出了一種局部最優(yōu)性的近似最佳估計(jì)方法(Near-Perfect Estimation for Local Optimality,NPEFLO),并設(shè)計(jì)了36維特征用于檢測(cè),性能優(yōu)于MVRB和AoSO。文獻(xiàn)[6]首次提出一種用于視頻運(yùn)動(dòng)向量隱寫分析的深度神經(jīng)網(wǎng)絡(luò)VSRNet,對(duì)不同碼率具有很好的魯棒性,但整體檢測(cè)性能仍遜于文獻(xiàn)[18]的NPEFLO算法。
綜上,定性或啟發(fā)式利用嵌入端先驗(yàn)知識(shí)來指導(dǎo)隱寫檢測(cè)的方法已見于文獻(xiàn),然而通過全面定量刻畫嵌入優(yōu)先級(jí)來指導(dǎo)隱寫檢測(cè)的方法尚未見到。文中提出了一種利用嵌入概率來定量增強(qiáng)檢測(cè)特征的方法,以期穩(wěn)定有效地改善視頻隱寫檢測(cè)器的性能。
運(yùn)動(dòng)向量的嵌入優(yōu)先級(jí)與人眼視覺系統(tǒng)的運(yùn)動(dòng)注意機(jī)制、紋理掩蔽機(jī)制以及運(yùn)動(dòng)估計(jì)的原理密切相關(guān),文中綜合考慮這3方面因素,提出一種嵌入失真函數(shù)的估計(jì)方法,據(jù)此求出檢測(cè)單元內(nèi)各運(yùn)動(dòng)向量的嵌入概率。下面以HEVC/H.265[19]視頻為例介紹嵌入概率的估計(jì)方法。
在視頻快速運(yùn)動(dòng)區(qū)域進(jìn)行修改通常不易被察覺,這一人眼視覺系統(tǒng)的運(yùn)動(dòng)注意機(jī)制被用于許多基于運(yùn)動(dòng)向量的隱寫方法中。以Basketball視頻中的一幀局部區(qū)域(見圖1)為例,視頻中快速移動(dòng)的目標(biāo)所對(duì)應(yīng)的運(yùn)動(dòng)向量具有較大的幅值,而靜態(tài)背景區(qū)域的運(yùn)動(dòng)向量幅值較小。這里帶箭頭的線段表示運(yùn)動(dòng)向量,其長(zhǎng)度表示運(yùn)動(dòng)向量的幅值大小,箭頭表示預(yù)測(cè)的方向,紅色表示前向預(yù)測(cè),綠色表示后向預(yù)測(cè)。文中利用運(yùn)動(dòng)向量的幅值來刻畫視頻內(nèi)容的區(qū)域運(yùn)動(dòng)特征。設(shè)運(yùn)動(dòng)向量V=(x,y),其幅值用下式度量:
(a)預(yù)測(cè)單元?jiǎng)澐?/p>
(1)
式中,x、y分別為運(yùn)動(dòng)向量水平和垂直方向的分量。
紋理掩蔽機(jī)制已廣泛用于指導(dǎo)圖像隱寫和視頻隱寫。紋理復(fù)雜區(qū)域的運(yùn)動(dòng)向量應(yīng)具有更高的嵌入優(yōu)先級(jí)。以Soccer視頻中的一幀局部區(qū)域(見圖2(a))為例,圖2(b)顯示出紋理復(fù)雜區(qū)域和邊緣區(qū)域的預(yù)測(cè)殘差比平坦區(qū)域大,因此,對(duì)應(yīng)運(yùn)動(dòng)向量的修改更符合隱寫安全性原則。文中用預(yù)測(cè)單元的平均預(yù)測(cè)殘差來刻畫區(qū)域的紋理特性:
(2)
(a)重建視頻幀
在視頻編碼端,運(yùn)動(dòng)估計(jì)通過最小化拉格朗日失真函數(shù)來找到最優(yōu)的運(yùn)動(dòng)向量m*:
(3)
出于安全性考慮,目前大部分隱寫算法對(duì)運(yùn)動(dòng)向量?jī)H進(jìn)行±1操作。故在解碼端,局部最優(yōu)性的檢驗(yàn)可限制在當(dāng)前運(yùn)動(dòng)向量V的8鄰域集中進(jìn)行,即Ω(V)={(x+Δx,y+Δy)|Δx,Δy∈{0,±1}}。Ω(V)內(nèi)的每個(gè)運(yùn)動(dòng)向量mt(t∈[1,9])對(duì)應(yīng)的拉格朗日失真可計(jì)算為
(4)
J(V)與J(mt)差異越小,則修改后保持局部最優(yōu)性的概率越大,V越適合嵌密,其嵌密優(yōu)先級(jí)更高。文中用8鄰域集拉格朗日失真的偏離散度D來刻畫其差異性:
(5)
文中通過運(yùn)動(dòng)向量V的幅值|V|、平均預(yù)測(cè)殘差Epre以及8鄰域集拉格朗日失真的偏離散度D這3個(gè)方面對(duì)運(yùn)動(dòng)向量的嵌入優(yōu)先級(jí)進(jìn)行刻畫。考慮到新型隱寫算法大多遵循最小化失真或最大熵原則[20],載體元素以最優(yōu)概率進(jìn)行嵌密,文中利用這一線索定義嵌入概率。
設(shè)一個(gè)檢測(cè)單元包含N個(gè)運(yùn)動(dòng)向量,由于最優(yōu)嵌密概率服從Gibbs分布[20],對(duì)檢測(cè)單元內(nèi)的每個(gè)Vi(i∈[1,N]),其嵌入概率可定義為
(6)
式(6)計(jì)算得到的嵌入概率βi值可衡量當(dāng)前Vi的嵌密優(yōu)先級(jí)。其中,ρi為嵌密引起的失真,對(duì)于盲檢測(cè),接收端無法得到具體隱寫算法對(duì)于失真的定義。對(duì)此,文中綜合考慮式(1)、(2)和(5)的影響,定義嵌入失真函數(shù)為
(7)
無論是在給定平均載荷下最小化失真的隱寫,還是在給定平均失真下最大化平均載荷的隱寫,其嵌入概率的最優(yōu)分布是一致的[20]。因此,對(duì)于盲檢測(cè),這種最優(yōu)概率分布可作為先驗(yàn)知識(shí)用于特征的增強(qiáng)。以視頻運(yùn)動(dòng)向量的嵌密為例,各運(yùn)動(dòng)向量的嵌密優(yōu)先級(jí)存在差異。據(jù)此,在嵌密優(yōu)先級(jí)意義上,文中提出利用嵌入概率定量精確強(qiáng)化不同運(yùn)動(dòng)向量在構(gòu)造檢測(cè)特征集時(shí)的貢獻(xiàn),其本質(zhì)上是將嵌入的邊信息用于隱寫檢測(cè)。下面通過一個(gè)實(shí)例介紹文中的特征增強(qiáng)方法。
設(shè)一檢測(cè)單元的特征集為F={Fj|j∈[1,n]},其中Fj為第j維檢測(cè)特征。對(duì)于一個(gè)針對(duì)運(yùn)動(dòng)向量修改的隱寫檢測(cè)方法,F(xiàn)j的一般性構(gòu)造如下:
(8)
式中:fj(i)為運(yùn)動(dòng)向量Vi第j維特征描述子的值;αj為歸一化因子,由具體隱寫檢測(cè)算法所引用的文獻(xiàn)給出,若沒給出則為1。
為了區(qū)分各運(yùn)動(dòng)向量Vi的特征描述子fj(i)對(duì)隱寫檢測(cè)的貢獻(xiàn),可利用嵌入概率βi來評(píng)估當(dāng)前fj(i)對(duì)于檢測(cè)的影響,一種簡(jiǎn)單的方案是利用嵌入概率βi對(duì)fj(i)進(jìn)行加權(quán)。增強(qiáng)后的特征集則為
(9)
其中βi由式(6)估計(jì)。從此處開始,下文后綴“-EEP”(Enhancement with Embedding Probability,EEP)均代表增強(qiáng)操作。
(1)數(shù)據(jù)樣本采集:300段CIF分辨率(352×288)的視頻序列(YUV格式為4:2:0),每段視頻為300幀,幀率為30 f/s。所有視頻用HEVC/H.265編碼標(biāo)準(zhǔn),在250、500、750和1000 kb/s 4種 碼率下進(jìn)行編碼。I幀周期為32幀,且只使用P幀,GOP(圖像組)大小設(shè)置為4。
(2)視頻隱寫算法:文中將3種基于運(yùn)動(dòng)向量的經(jīng)典視頻隱寫算法,包括Xu方法[7]、Aly方法[8]和Yang方法[9],作為檢測(cè)目標(biāo)。其中,文獻(xiàn)[7]和[8]是基于H.264視頻編碼提出的方法,文中將其移植到HEVC編碼環(huán)境。嵌入率用被修改的運(yùn)動(dòng)向量個(gè)數(shù)比值(Corrupted MV Ratio,CMVR)來度量,即每幀用于嵌密的運(yùn)動(dòng)向量個(gè)數(shù)與總數(shù)的比值。CMVR取3種常見的嵌入率進(jìn)行隱寫:0.05、0.1和0.2。
(3)視頻隱寫分析算法:用3種經(jīng)典的隱寫分析算法,包括MVRB[16]、AoSO[17]和NPEFLO[18]來驗(yàn)證特征增強(qiáng)對(duì)檢測(cè)性能的提升,并與一種最新的基于深度神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法VSRNet[6]進(jìn)行對(duì)比。
(4)訓(xùn)練與分類:鑒于MVRB、AoSO和NPEFLO的特征維度分別為15、18和36,使用高斯核SVM分類器[22]進(jìn)行訓(xùn)練分類,其中通過對(duì)網(wǎng)格空間{(C,γ)|C=2-5,2-4,…,215,γ=2-15,2-14,…,23}進(jìn)行5倍交叉驗(yàn)證得到懲罰因子C和核參數(shù)γ。隨機(jī)選取60%的樣本用于訓(xùn)練,剩余40%的樣本用于測(cè)試。執(zhí)行20次迭代,取其平均檢測(cè)準(zhǔn)確率作為性能評(píng)估指標(biāo)??紤]到部分幀在隱寫時(shí)可能沒有被修改,也為了比較基準(zhǔn)一致,文中的檢測(cè)單元定義為一個(gè)GOP,即4幀的視頻子序列。
表1、2和3的實(shí)驗(yàn)包括兩種操作:用原始算法進(jìn)行檢測(cè)以及用文中技術(shù)增強(qiáng)特征后進(jìn)行檢測(cè)。傳統(tǒng)手工特征均按式(9)進(jìn)行增強(qiáng)??梢钥吹?,使用文中方法對(duì)特征增強(qiáng)后,3種隱寫分析算法對(duì)3種隱寫算法在3個(gè)典型的嵌入率下的檢測(cè)準(zhǔn)確率均有不同程度的提升。
表1 MVRB-EEP和MVRB的檢測(cè)性能比較(碼率為500 kb/s)Table 1 Comparison of detection performance between MVRB-EEP and MVRB (bitrate set as 500 kb/s)
表2 AoSO-EEP和AoSO的檢測(cè)性能比較(碼率為500 kb/s)Table 2 Comparison of detection performance between AoSO-EEP and AoSO (bitrate set as 500 kb/s)
表3 NPEFLO-EEP和NPEFLO的檢測(cè)性能比較(碼率為500 kb/s)Table 3 Comparison of detection performance between NPEFLO-EEP and NPEFLO (bitrate set as 500 kb/s)
增強(qiáng)方法在檢測(cè)Xu方法時(shí)性能表現(xiàn)最為突出,其提升幅度范圍為1.43~ 5.02個(gè)百分點(diǎn)。Yang方法直接利用了HEVC的編碼特點(diǎn),并使用運(yùn)動(dòng)向量空間編碼嵌密,故在嵌入相同密信時(shí)修改的運(yùn)動(dòng)向量個(gè)數(shù)比Xu方法和Aly方法少很多,在3個(gè)隱寫算法中最難檢測(cè)。此外,Yang方法在選擇運(yùn)動(dòng)向量時(shí)沒有考慮幅值特性,但遵循紋理優(yōu)先來選擇嵌密位置,故仍在文中失真函數(shù)的考慮范圍之內(nèi),因此文中增強(qiáng)方法在檢測(cè)時(shí)仍有一定的效果。
文中用KL散度(即相對(duì)熵)[23]從理論上來解釋文中增強(qiáng)方法性能提升的內(nèi)在原因,KL散度的定義如下:
(10)
(a)AoSO特征分布
碼率對(duì)視頻隱寫分析算法的性能有很大影響。為驗(yàn)證增強(qiáng)方法的魯棒性,文中選取了4種不同的碼率進(jìn)行實(shí)驗(yàn),結(jié)果如圖4所示,其中CMVR=0.1。圖4顯示,無論碼率如何變化,文中增強(qiáng)方法對(duì)原始檢測(cè)算法的檢測(cè)準(zhǔn)確率均有穩(wěn)定的提升,尤其是對(duì)MVRB和AoSO特征,其性能提升幅度更大。總的來說,在低碼率的情況下,文中增強(qiáng)方法提升的效果更加明顯。
(a)MVRB特征增強(qiáng)
(c)NPEFLO特征增強(qiáng)
為進(jìn)一步驗(yàn)證文中方法的有效性,在實(shí)驗(yàn)中加入最新的針對(duì)視頻運(yùn)動(dòng)向量隱寫的深度神經(jīng)網(wǎng)絡(luò)檢測(cè)方法VSRNet[6]進(jìn)行比較。表4給出了7種檢測(cè)方法在不同碼率下對(duì)Xu方法和Aly方法的檢測(cè)結(jié)果??紤]到Xu方法只對(duì)運(yùn)動(dòng)向量的一個(gè)分量進(jìn)行嵌密,而Aly方法對(duì)水平和垂直兩個(gè)分量均嵌密,為了保證公平的比較,嵌密長(zhǎng)度需要一致,文中將前者的嵌入率CMVR設(shè)為0.2,將后者的設(shè)為0.1。
表4 7種檢測(cè)方法在不同碼率下的檢測(cè)準(zhǔn)確率
VSRNet在不同碼率下的檢測(cè)性能具有良好的魯棒性,準(zhǔn)確率普遍優(yōu)于MVRB,在低碼率下也優(yōu)于AoSO。但VSRNet在構(gòu)造輸入矩陣時(shí),將運(yùn)動(dòng)向量以類似像素的形式進(jìn)行輸入,解決了深度網(wǎng)絡(luò)的輸入格式困難,但難以將運(yùn)動(dòng)向量在壓縮編碼中的特性在所學(xué)習(xí)到的深度特征中反映出來,導(dǎo)致深度檢測(cè)網(wǎng)絡(luò)的優(yōu)勢(shì)未能完全發(fā)揮。事實(shí)上,VSRNet整體檢測(cè)性能仍遜于NPEFLO,在高碼率下也低于AoSO。這一結(jié)果從側(cè)面也說明在現(xiàn)階段研究傳統(tǒng)方法仍具有積極的意義。
表4中,文中增強(qiáng)后的NPEFLO-EEP的檢測(cè)準(zhǔn)確率最高。 增強(qiáng)后,MVRB-EEP在碼率750 kb/s和1 000 kb/s下檢測(cè)Xu方法的準(zhǔn)確率超過VSRNet;AoSO-EEP在碼率500 kb/s下檢測(cè)Aly方法的準(zhǔn)確率也超過VSRNet,由此可見文中特征增強(qiáng)的效力。
每個(gè)GOP增強(qiáng)方法增加的運(yùn)行時(shí)間與原始特征提取時(shí)間的比值如表5所示。由表5可知,對(duì)于3種檢測(cè)方法,文中增強(qiáng)方法所增加的運(yùn)行時(shí)間均少于原始提取特征時(shí)間的0.5%,說明提升檢測(cè)性能所需的計(jì)算復(fù)雜度很小。實(shí)際上,在估計(jì)嵌入概率時(shí)的部分中間運(yùn)算結(jié)果可直接用于特征提取中,例如,在估計(jì)嵌入概率時(shí)計(jì)算預(yù)測(cè)殘差的SAD值可用于MVRB特征、AoSO特征的提取,而討論局部最優(yōu)性時(shí),計(jì)算的拉格朗日失真又可用于NPEFLO特征的提取。
表5 每個(gè)GOP增強(qiáng)方法增加的運(yùn)行時(shí)間與原始特征提取時(shí)間的比值Table 5 Ratio of the increased running time of each GOP to the time of original feature extraction %
文中根據(jù)最優(yōu)嵌密概率分布的一致性,將其作為盲檢測(cè)的先驗(yàn)知識(shí),以HEVC視頻為例,介紹了一種利用嵌入概率作為邊信息的隱寫分析特征增強(qiáng)框架,實(shí)驗(yàn)結(jié)果證明了增強(qiáng)方法的有效性,并從理論上解釋了性能提升的內(nèi)在原因。由于增強(qiáng)方法在估計(jì)嵌入概率時(shí)并不涉及具體的視頻編碼標(biāo)準(zhǔn),這種做法可方便地推廣到其他視頻編碼標(biāo)準(zhǔn)(例如H.264)。此外,盡管文中以運(yùn)動(dòng)向量為例進(jìn)行特征增強(qiáng),但對(duì)壓縮域其他編碼參數(shù)的隱寫分析,例如DCT系數(shù)和幀內(nèi)預(yù)測(cè)模式等,仍具有指導(dǎo)意義。文中在估計(jì)運(yùn)動(dòng)向量的嵌入概率時(shí),根據(jù)普遍的嵌入策略啟發(fā)式地定義失真函數(shù),將來可進(jìn)一步研究失真函數(shù)的優(yōu)化構(gòu)造方法。