張 濤, 葛育偉, 韓 旭, 張 昊, 汪 然
(1.戰(zhàn)略支援部隊信息工程大學 信息系統(tǒng)工程學院,河南 鄭州 450001;2.蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
近年來,各種安全高效的空域圖像隱寫算法和對應的精準通用的隱寫分析算法層出不窮,大多是以灰度圖像作為載體。但現(xiàn)實情況是彩色圖像占據(jù)網(wǎng)絡上圖像的主流部分,因此以彩色圖像為載體的隱寫與隱寫分析算法成為研究人員的關注重點。
在針對圖像的隱寫算法方面,基于失真函數(shù)構造[1]和校驗子格編碼[2]的自適應隱寫成為當前隱寫方法的主流。這類算法隱寫位置集中在圖像紋理復雜區(qū)域或邊緣區(qū)域等難以建模的地方,提高了防檢測性。典型的空域灰度圖像隱寫算法有:WOW(wavelet obtained weights)算法[3]、 S-UNIWARD(spatial-universal wavelet relative distortion)算法[4]以及HILL(high-pass,low-pass,low-pass)算法[5]。
彩色圖像隱寫可通過各個通道進行的獨立灰度圖像隱寫嵌入,將隱秘消息嵌入到彩色圖像中,但該方法忽略了3個通道之間的相關性,因此Tang等[6]提出一種非加性隱寫算法,在保留通道內(nèi)像素相關性的同時,充分利用通道間的相關性進行隱寫嵌入。由于大多數(shù)彩色圖像算法在生成過程中采用彩色濾光陣列解馬賽克算法,該做法會在一定程度上削弱圖像鄰域像素相關性,因此最早的彩色圖像隱寫分析便利用這一特性進行隱寫檢測,典型的彩色圖像檢測算法有CRM[7]、SGRM[8]和GCRM[9]等。
近年來,研究人員將深度學習與圖像隱寫分析相結合,取得了優(yōu)異的性能。Tan等[10]利用棧式卷積自編碼器進行隱寫分析;Qian等[11]將高斯激活函數(shù)引入卷積神經(jīng)網(wǎng)絡結構開發(fā)出GNCNN(Gaussian-neuron convolutional neural network);Xu等[12]提出包含5層卷積層的Xu-Net,檢測性能首次超過空域富模型方法;Ye等[13]設計了全新的激活函數(shù)TLU,在此基礎上提出了TLU-CNN;Zhang等[14]提出適用于多尺度圖像的隱寫分析網(wǎng)絡Zhu-Net;Zeng等[15]提出一種先分離后聚合的寬卷積網(wǎng)絡WISERNet,并取得了較好的效果;Yedroudj等[16]結合Xu-Net和Ye-Net中的優(yōu)秀成果,提出了Yedroudj-Net。
總體來看,現(xiàn)有方法主要沿用基于CNN的圖像分類框架,是一個二分類問題。但是通過對比不難發(fā)現(xiàn),圖像分類網(wǎng)絡提取更多的是內(nèi)容信息,難以提取能夠刻畫隱藏信息存在性的特征。此外,為加快網(wǎng)絡收斂,多數(shù)方法引入高通濾波器處理輸入圖像,但人工設計的濾波器并非最優(yōu),會對部分載密信號起到抑制效果。另一方面,現(xiàn)有算法多針對灰度圖像,少有能夠應對多通道彩色圖像隱寫的分析算法。鑒于此,本文提出一種新的網(wǎng)絡結構,通過引入逐通道卷積、多激活模塊與對抗機制實現(xiàn)針對彩色圖像的隱寫分析,提高了隱寫檢測的精度。
提出的基于CNN的隱寫分析網(wǎng)絡結構如圖1所示,命名為MAAMNet(multiple activation modules and adversarial mechanisms)。該網(wǎng)絡整體結構是由1個逐通道卷積模塊、2個多激活模塊、1個梯度反置層、多個基礎卷積模塊以及全連接層構成的端到端網(wǎng)絡。輸入為256×256像素的真彩圖像,輸出類別為載體圖像或隱寫圖像。
圖1 MAAMNet的網(wǎng)絡結構圖Figure 1 Network structure of MAAMNet
如圖1所示,逐通道卷積模塊和多激活模塊的卷積層中,Cout×(K×K×Cin)和(Cin,K×K,Cout)代表輸入輸出通道數(shù)分別為Cin和Cout、卷積核大小為K×K的卷積層,BN表示批歸一化,FC表示全連接層。整個網(wǎng)絡的基本結構按功能劃分為3部分:預處理、特征提取以及分類。預處理部分將彩色圖像拆分成3個獨立通道,分別運用SRM的30個基礎高通濾波器(非學習權重)對紅色通道、綠色通道以及藍色通道進行逐通道卷積,計算噪聲殘差,并將得到的結果拼接后送入后續(xù)的層次。特征提取部分主要由多激活模塊和基礎卷積模塊構成,多激活模塊利用TanH、ReLU以及Hardswish[17]3種激活函數(shù)同時對上層卷積輸出的特征圖進行非線性激活,豐富隱寫嵌入特征。分類由全連接層組成。另外,對抗模塊由GRL[18]和多層全連接層組成。下面分別對網(wǎng)絡結構中引入的逐通道卷積、多激活模塊以及對抗機制進行詳細的介紹。
逐通道卷積是常規(guī)卷積的變體,能夠對輸入圖像的每個通道都單獨進行卷積。針對彩色圖像,本文引入WISERNet[17]中的逐通道卷積,如圖2所示。網(wǎng)絡將引入的逐通道卷積和SRM濾波器組相結合,利用SRM中的30個高通濾波器對輸入彩色圖像的3個通道進行單獨卷積,分別得到30個特征圖,用作后續(xù)特征提取層次的輸入。
圖2 逐通道卷積結構示意圖Figure 2 Diagram of the channel-wise convolution structure
彩色圖像多通道間微弱的噪聲相關性為通道拆分提供了可能。CNN中常規(guī)卷積會保留強相關的圖像內(nèi)容信息,削弱噪聲信號,不利于增強信噪比,所以在底層網(wǎng)絡中引入逐通道卷積取代常規(guī)卷積。對于利用加性失真框架自適應隱寫算法進行隱寫嵌入的彩色圖像來說,其嵌入的加性隱寫噪聲在3個通道的同一位置像素表現(xiàn)出極其微弱的相關性,即便是考慮了彩色圖像多通道之間相關性的CMD-C隱寫算法,也僅僅只是起到了略微提升的作用,使得3個通道之間的隱寫噪聲呈現(xiàn)弱相關性。為盡可能降低隱寫嵌入帶來的失真、保障隱寫安全,不可避免地導致彩色圖像多通道之間的隱寫噪聲相關性變得很微弱,這種特性為彩色圖像能夠進行通道拆分、并對其進行逐一卷積提供了可能。此外,多尺度特征融合也會進一步增強特征表征能力[19]。
多激活模塊利用多種激活函數(shù)對輸入進行非線性映射,得到同一輸入的不同響應。而引入激活函數(shù)能夠給神經(jīng)元帶來非線性因素,增加了網(wǎng)絡的非線性擬合能力,多激活模塊的結構如圖3所示。
圖3 多激活模塊結構示意圖Figure 3 Schematic of the structure of a multiple activation module
上層卷積層的輸出被同時傳遞給3個分支層,每層的卷積、批歸一化操作保持一致,區(qū)別在于使用分別為TanH、ReLU和Hardswish的不同激活函數(shù)進行激活。其中Hardswish激活函數(shù)即硬編碼的swish函數(shù),其計算方法如式(1)所示,其集合分布如圖4所示。
圖4 Hardswish激活函數(shù)Figure 4 Hardswish activation function
(1)
一般認為,更寬的CNN結構能夠攜帶更多重信息[20]。而引入的多激活模塊在拓寬網(wǎng)絡的同時,增加了多種非線性映射來捕獲更多隱寫嵌入痕跡。
相較于圖像內(nèi)容信息,隱寫嵌入噪聲信號難以提取。本文借鑒遷移學習的思想,在特征提取層和標簽分類層之間引入對抗訓練,盡可能地抑制圖像內(nèi)容信息,凸顯隱寫信息。對抗機制主要分為3部分,如圖5所示。
圖5 對抗機制結構示意圖Figure 5 Diagram of the adversarial mechanism structure
(1)特征提取器。該部分對輸入的圖像進行特征提取,并根據(jù)圖像內(nèi)容和隱寫信息兩個域將展平的特征劃分為內(nèi)容特征和隱寫特征。正常情況下隱寫特征對隱寫分析是最有用的,圖像內(nèi)容特征對隱寫檢測來說是干擾信號,應當盡可能抑制。
(2)標簽分類器。經(jīng)特征分解得到的隱寫特征通過梯度反置層(gradient reversal layser, GRL),送入后續(xù)的標簽分類器,完成隱寫檢測的分類任務。梯度反置層能夠向負梯度方向優(yōu)化即最大化目標函數(shù),提取出更多的圖像內(nèi)容特征來誤導判別器的分類,從而更有利于隱寫信息存在性的檢測。通過對抗訓練,能分離出更多的隱寫嵌入特征,提升網(wǎng)絡的準確率。
(3)域分類器。該部分可以視作一個二分類器。將特征提取層輸出的結果按照圖像內(nèi)容信息和隱寫信息兩個域進行特征分解,通過域分類器的訓練,盡可能讓圖像內(nèi)容特征和隱寫特征從兩個域的類別空間上區(qū)分開。
網(wǎng)絡中引入了對抗學習利用生成器和判別器之間的對抗,抑制圖像內(nèi)容信息,凸現(xiàn)隱寫嵌入信息,所以訓練過程中設置的損失函數(shù)同樣由隱寫嵌入特征向量輸入標簽分類器的損失交叉熵Ls、圖像內(nèi)容特征向量輸入標簽分類器的損失Lc、域分類器的損失Ld組成,網(wǎng)絡的訓練就是在最小化該損失函數(shù)組,當取得最優(yōu)值時,網(wǎng)絡的性能達到最佳。
(1)隱寫嵌入特征向量輸入標簽分類器的交叉熵損失Ls:
(2)
(2)利用GRL簡化對抗訓練,圖像內(nèi)容特征向量輸入標簽分類器的損失Lc:
(3)
(3)域分類器的損失Ld表示圖像內(nèi)容特征和隱寫特征的分類損失,利用交叉熵損失計算兩類特征通過域分類器的輸出結果與實際類別的誤差和:
(4)
通過最小化該目標損失函數(shù),能夠有效地將兩類特征從空間上區(qū)分開,分離出更多的隱寫特征,進而提升網(wǎng)絡的識別性能。
PPG-LIRMM-COLOR[8]為實驗所用彩色圖像數(shù)據(jù)集。該數(shù)據(jù)集包含有10 000張尺寸為512×512像素、格式為ppm的彩色圖像,圖像分為人物、建筑、風景等多個實際生活場景下的常見類別。實驗中通過下采樣將該數(shù)據(jù)集中的原始圖像處理為256×256像素,并利用S-UNIWARD、HILL、CMD-C-SUNIWARD以及CMD-C-HILL等算法進行嵌入率為0.2 bpc和0.4 bpc的隱寫嵌入,后續(xù)的實驗主要對這兩種嵌入率進行性能對比。為了使HILL和S-UNIWARD能夠完成彩色圖像的隱寫嵌入,實驗對彩色圖像的每個通道都采用相應的嵌入率進行隱寫嵌入。
本文所有的實驗均使用擁有Tesla P100顯卡的Ubuntu16.06服務器。在實驗過程中利用MATLAB工具進行隱寫數(shù)據(jù)集的構建,網(wǎng)絡的訓練、驗證和測試使用的是PyTorch深度學習框架。
(1)第1部分實驗主要考察逐通道卷積、多激活模塊和對抗機制的有效性。實驗使用基于PPG-LIRMM-COLOR數(shù)據(jù)集的10 000張彩色修改圖像,隱寫后共計20 000張圖像,包含訓練集6 000對圖像,驗證集2 000對圖像,剩下的2 000對圖像作為測試集,圖像集合中無覆蓋。
(2)第2部分實驗是與其他彩色圖像隱寫分析方法進行對比實驗,具體包括利用彩色圖像富模型特征進行隱寫分析的方法以及調(diào)整后的Ye-Net和WISERNet。
(1)為了驗證網(wǎng)絡結構中引入的逐通道卷積、多激活模塊以及對抗機制的有效性,在底層網(wǎng)絡中用常規(guī)卷積代替了逐通道卷積,表1展示了在底層網(wǎng)絡中應用常規(guī)卷積和逐通道卷積模型時的準確率。
表1 底層網(wǎng)絡應用常規(guī)卷積和逐通道卷積的檢測準確率Table 1 Detection accuracy of conventional convolution and channel-wise convolution applied to the underlying network
從表1可以看出,在底層網(wǎng)絡中用逐通道卷積代替常規(guī)卷積能夠在不同的嵌入率下顯著提升隱寫檢測的準確率。底層引入的常規(guī)卷積操作會對彩色圖像的3個通道求取加權和,這被認為是一種線性共謀攻擊。在求取多通道像素之間的線性組合過程中,常規(guī)卷積更多保留的是強相關性的圖像內(nèi)容信息,削弱了相關性較弱的隱寫嵌入噪聲信號,降低了信噪比,不利于隱寫檢測。由表1數(shù)據(jù)可得,在嵌入率為0.2 bpc和0.4 bpc的S-UNIWARD和CMD-C-SUNIWARD隱寫算法進行檢測時,準確率提升了6.36%~7.69%,如此大的性能提升歸功于引入的逐通道卷積,這表明逐通道卷積相比于常規(guī)卷積能夠顯著增強信噪比,充分提取隱寫嵌入特征、提高檢測性能。
對于多激活模塊有效性的驗證包含多個方面,首先將多激活模塊從網(wǎng)絡結構中移除,以此來驗證多激活模塊的有效性。表2展示了未引入多激活模塊(標記為MAAMNet/wodam)和引入多激活模塊(標記為MAAMNet/widam)的兩種網(wǎng)絡在檢測使用S-UNIWARD和CMD-C-SUNIWARD隱寫算法對PPG-LIRMM-COLOR數(shù)據(jù)集進行隱寫時的準確率。
表2 未引入和引入多激活模塊的檢測準確率Table 2 Detection accuracy rates of non-introduction and introduction multiple activation modules
從表2中可以看出,同樣在對使用嵌入率為0.2 bpc 和0.4 bpc的S-UNIWARD和CMD-C-SUNIWARD隱寫算法嵌入圖像進行檢測時,準確率提升了3.82%~5.14%。此部分性能的提升歸功于多激活模塊的引入,該模塊利用多種激活函數(shù)對上層卷積結果進行非線性映射,相較于普通卷積模塊使用單一激活函數(shù),該模塊能夠獲取嵌入痕跡的不同信息,豐富隱寫嵌入特征,從而提升網(wǎng)絡的分類性能。上述實驗結果充分驗證了在網(wǎng)絡結構中引入多激活模塊的有效性。
(2)該部分實驗選擇對照算法時,綜合考慮了傳統(tǒng)使用富模型特征的隱寫分析方法和基于深度學習的彩色圖像隱寫分析器,最終選擇CRM、YeNet以及WISERNet作為實驗中的比較對象,其中CRM方法使用常用的FLD集成分類器進行分類,而對于YeNet和WISERNet采用驗證集上性能最好的模型對測試集進行評估。為了確保實驗的公平,YeNet并沒有引入選擇信道感知的先驗信息,僅僅使用普通版本的網(wǎng)絡,而且為了使針對灰度圖像的YeNet能夠更好地進行彩色圖像隱寫分析,將YeNet的底層網(wǎng)絡進行了相應的修改,用逐通道卷積代替了原始的常規(guī)卷積。表3展示了這部分實驗的結果。
表3 多種彩色圖像隱寫分析算法的檢測準確率Table 3 Detection accuracy of various color image steganalysis algorithms
如表3所示,在針對多種隱寫算法和不同嵌入率的情況時,本文方法取得了比其他方法更高的檢測準確率,比另外3種方法中效果最好的WISERNet還要高1.83%~4.99%。在檢測嵌入率為0.4 bpc的S-UNIWARD隱寫嵌入圖像時,所提方法更是取得了91.35%的檢測準確率。
以彩色圖像為載體,提出一種新的彩色圖像隱寫分析方法,該方法比目前已有的彩色圖像隱寫分析器具有更高的檢測精度。其中引入的逐通道卷積將多個通道拆分后進行逐一卷積,提高了信噪比;多激活模塊通過獲取卷積特征圖的不同映射,捕獲更多的隱寫信息,豐富了嵌入特征;對抗機制能夠迫使特征提取器提取更多的內(nèi)容信息特征,從而隔離出更多有用的隱寫嵌入特征。大量的實驗表明,與現(xiàn)有彩色圖像隱寫分析算法相比,所提出的方法明顯提高了檢測的準確率。
未來工作將聚焦于引入強表征能力的網(wǎng)絡模型,提取出具有強分類能力的隱寫嵌入特征,進一步提高隱寫檢測的精度。此外,本文網(wǎng)絡輸入的是固定尺寸的圖像,如何應對真實生活場景下任意尺寸的彩色圖像,仍需進一步的研究。