楊本娟, 黎小平
(1.貴州師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,貴州 貴陽(yáng) 550002;
基于核主成分分析的圖像模糊篡改檢測(cè)算法*
楊本娟1, 黎小平2
(1.貴州師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,貴州 貴陽(yáng) 550002;
2.江西財(cái)經(jīng)職業(yè)學(xué)院 信息工程系,江西 九江 332000)
現(xiàn)有的圖像模糊篡改檢測(cè)算法通常提取模糊操作引入的某單一特征進(jìn)行判斷,為更好地提高算法檢測(cè)效率,提出基于核主成分分析的模糊篡改檢測(cè)算法。通過奇異值分解提取第一組特征,計(jì)算圖像二次模糊相關(guān)性作為第二組特征,計(jì)算圖像質(zhì)量因子作為第三組特征。運(yùn)用核主成分分析方法實(shí)現(xiàn)多特征融合。采用支持向量機(jī)進(jìn)行判斷,從而實(shí)現(xiàn)模糊篡改檢測(cè)。實(shí)驗(yàn)表明:該算法能夠有效地檢測(cè)數(shù)字篡改圖像的模糊操作痕跡,并能對(duì)模糊篡改區(qū)域進(jìn)行準(zhǔn)確定位。
圖像篡改檢測(cè); 核主成分分析; 模糊操作
隨著圖像編輯軟件的普及和功能的多樣化,數(shù)字圖像極易被篡改而不留明顯痕跡,為公安偵破和司法取證帶來了挑戰(zhàn),也因此促進(jìn)了數(shù)字圖像盲取證技術(shù)研究的發(fā)展[1]。
為消除篡改留下的人眼可察覺的偽造痕跡,偽作者通常都會(huì)進(jìn)行人工模糊操作。因此,檢測(cè)模糊操作痕跡可為圖像篡改檢測(cè)提供有力憑據(jù)。王波等人利用模糊操作對(duì)異常色調(diào)率的影響來實(shí)現(xiàn)數(shù)字圖像取證[2]。周琳娜等人提出基于圖像形態(tài)學(xué)濾波邊緣特性的盲取證算法[3]。王偉等人提出一種基于二次模糊相關(guān)性的單通道分離方法來檢測(cè)模糊操作[4]。左菊仙等人利用二次模糊后像素差值的變化實(shí)現(xiàn)了模糊篡改的檢測(cè)和定位[5]。這些傳統(tǒng)方法都僅根據(jù)圖像模糊后的某一特征來實(shí)現(xiàn)模糊檢測(cè)并定位。因此,普遍存在以下兩個(gè)問題:1)由于利用的特征是單一的,所以,檢測(cè)效果不可避免地受到特征局限或特征顯著性的限制;2)通常采用了基于閾值的檢測(cè)方法,由于閾值的選擇缺乏理論依據(jù),所以,閾值的健壯性嚴(yán)重地制約著算法效果。
針對(duì)以上兩個(gè)問題,楊本娟等人從模式識(shí)別的角度來檢測(cè)篡改圖像中的模糊操作,提出了基于特征融合的盲檢測(cè)算法,一方面可以綜合利用多特征,另一方面也可避免閾值的影響[6]。本文提出了基于核主成分分析(kernel principal component analysis,KPCA)的圖像模糊檢測(cè)算法。首先通過奇異值分解提取第一組特征,計(jì)算圖像二次模糊相關(guān)性作為第二組特征,計(jì)算圖像質(zhì)量因子作為第三組特征。然后,運(yùn)用KPCA方法實(shí)現(xiàn)多特征融合。最后,采用支持向量機(jī)(support vector machine,SVM)進(jìn)行判斷,從而實(shí)現(xiàn)基于模糊檢測(cè)的圖像篡改盲取證。實(shí)驗(yàn)表明:該方法能夠有效地檢測(cè)數(shù)字篡改圖像的模糊操作痕跡,并能對(duì)模糊操作的圖像局部進(jìn)行準(zhǔn)確定位。
檢測(cè)圖像是否篡改,從模式識(shí)別的角度看,本質(zhì)上就是一個(gè)辨識(shí)原始圖像和篡改圖像的二元分類問題。本文算法的思想是:提取大量原始圖像和篡改圖像的特征,并在特征層進(jìn)行融合,用融合特征訓(xùn)練分類器,得到一個(gè)訓(xùn)練模型,最后利用訓(xùn)練模型對(duì)待測(cè)圖像或待測(cè)塊進(jìn)行分類判斷。算法流程圖如圖1所示。
圖1 算法流程圖
本文提取的特征是篡改操作引入的特征(具體特征如下節(jié)所示)。除了特征提取之外,特征融合也是篡改檢測(cè)的重要環(huán)節(jié)。本文在特征融合環(huán)節(jié)采用KPCA方法,具體特征融合方案如圖2所示。
圖2 特征融合方案的流程圖
2.1 奇異值特征
根據(jù)模糊操作對(duì)圖像奇異值的影響,采用下述三個(gè)度量因子CD1,CD2和CD3[6]。首先,令
然后,定義
(1)
(2)
(3)
其中,I為M×N的待測(cè)圖像或圖像塊,S為I的奇異值向量,P(k)為奇異值向量的第k個(gè)元素的比重。CD1描述了奇異值向量中后半部分的元素在整個(gè)向量中所占比重的均值。CD2描述了奇異值向量中小于某個(gè)閾值的元素個(gè)數(shù)與向量1/2長(zhǎng)度的比重,這里的閾值取2。CD3定義為奇異值向量中后半部分元素的能量。最后,令T1={CD1,CD2,CD3},稱為SVD特征。
2.2 二次模糊相關(guān)性特征
利用文獻(xiàn)[4]的方法得一個(gè)基于二次模糊相關(guān)性的度量因子CD4為
CD4=ρcorr(|lnF(I)|,|lnF(I′)|).
(4)
其中,F(xiàn)為傅氏變換,I為M×N的待測(cè)圖像或圖像塊,I′為I二次模糊后的圖像或圖像塊。本文二次模糊采用σ為2的高斯模糊,模板大小取5×5,并令T2={CD4},稱為二次模糊相關(guān)性特征。
2.3 圖像質(zhì)量因子
將文獻(xiàn)[7]中的圖像質(zhì)量因子應(yīng)用于模糊篡改檢測(cè),得5個(gè)度量因子CD5~CD9,分別是平均絕對(duì)誤差、均方差、Minkowsky測(cè)度、內(nèi)容結(jié)構(gòu)相關(guān)性和歸一化互相關(guān)
(5)
(6)
CD7=max(|I(i,j)-I′(i,j)|),
(7)
(8)
(9)
其中,I為M×N的待測(cè)圖像或圖像塊,I′為I的退化圖像或圖像塊。值得注意的是,計(jì)算圖像質(zhì)量度量(IQM)需要獲得待測(cè)圖像的退化圖像,通常采用小波變換,但由于目的是檢測(cè)模糊操作,因此,采用高斯模糊獲得退化圖像,也可視為二次模糊圖像。實(shí)驗(yàn)中,高斯模糊參數(shù)σ為2,模板大小為5×5。最后,令T3={CD5,CD6,CD7,CD8,CD9},稱為IQM特征。
KPCA采用核映射Φ將樣本數(shù)據(jù)映射到核空間F后,利用核方法實(shí)現(xiàn)核空間F中的主成分分析,經(jīng)過推導(dǎo)可得KPCA的準(zhǔn)則函數(shù)如下[8]
J(u)=uTStu.
(10)
其中,St為核空間F中的總體樣本協(xié)方差矩陣。由于目標(biāo)u∈F,所以,令
(11)
其中,n為樣本總數(shù),xi(i=1,2,…,n)為原始空間中第i個(gè)樣本,Φ(xi)為核空間中對(duì)應(yīng)的第i個(gè)樣本,ai為對(duì)應(yīng)的表示系數(shù),Z=[Φ(x1),Φ(x2),...,Φ(xn)],a=[a1,a2,…,an]T。利用式(10)和式(11)可得
(12)
其中,K=ZTZ為核矩陣。進(jìn)一步可得
(13)
其中,λi(i=1,2,…,r)為第i個(gè)特征值,gi為對(duì)應(yīng)的特征向量。從而可得到高維空間中協(xié)方差矩陣的前r個(gè)大特征向量。
本文實(shí)驗(yàn)中原始圖像選擇Columbia大學(xué)彩色拼接圖像數(shù)據(jù)庫(kù)中真實(shí)圖像部分,共183幅。模糊篡改圖像則利用Matlab獲得。篡改圖像的模糊類型為高斯模糊,參數(shù)σ為2,模板大小為5×5。實(shí)驗(yàn)樣本庫(kù)為183幅原始圖像和183幅模糊圖像組成。SVM選擇LIBSVM軟件包實(shí)現(xiàn),核函數(shù)采用非線性的徑向基函數(shù),并利用3折交叉驗(yàn)證方法確定最佳懲罰因子c和徑向基函數(shù)的參數(shù)γ。KPCA的核函數(shù)采用非線性的核函數(shù)為非線性的徑向基函數(shù),參數(shù)σ設(shè)置為30。為了驗(yàn)證提出算法的有效性,將實(shí)驗(yàn)結(jié)果與參考文獻(xiàn)[6]的實(shí)驗(yàn)結(jié)果對(duì)比。
1)不同主成分個(gè)數(shù)下的正確檢測(cè)概率
設(shè)計(jì)實(shí)驗(yàn)樣本集的75 %用于訓(xùn)練分類器,25 %用于測(cè)試分類器,統(tǒng)計(jì)隨機(jī)20次的平均正確檢測(cè)概率,并在不同主成分個(gè)數(shù)下對(duì)平均正確檢測(cè)概率進(jìn)行對(duì)比,其結(jié)果如圖3所示。實(shí)驗(yàn)結(jié)果表明:在不同的主成分個(gè)數(shù)下,本文算法的檢測(cè)效果優(yōu)于文獻(xiàn)[6]算法的檢測(cè)效果。同時(shí)可以看出,當(dāng)主成分個(gè)數(shù)取4時(shí)檢測(cè)算法的效果均較好,所以,接下來的實(shí)驗(yàn)中固定主成分個(gè)數(shù)為4。
圖3 不同主成分個(gè)數(shù)時(shí)的正確檢測(cè)概率
2)不同訓(xùn)練樣本數(shù)目下的正確檢測(cè)概率
為進(jìn)一步比較不同特征融合方法的效果,設(shè)計(jì)三種實(shí)驗(yàn):實(shí)驗(yàn)樣本集的25 %用于訓(xùn)練分類器,75 %用于測(cè)試分類器,并統(tǒng)計(jì)隨機(jī)20次的平均正確檢測(cè)概率;50 %訓(xùn)練,50 %測(cè)試;75 %訓(xùn)練,25 %測(cè)試。在不同訓(xùn)練樣本數(shù)目下對(duì)平均正確檢測(cè)概率進(jìn)行對(duì)比,其結(jié)果如圖4所示。實(shí)驗(yàn)結(jié)果表明:本文算法的的檢測(cè)效果優(yōu)于文獻(xiàn)[6]算法的檢測(cè)效果。
圖4 不同訓(xùn)練樣本數(shù)目時(shí)的正確檢測(cè)概率
本文從模式分類的角度探討圖像模糊篡改檢測(cè)問題,提出了基于KPCA特征融合的模糊篡改檢測(cè)算法。在特征提取階段,提取SVD特征,二次模糊相關(guān)性特征和IQM特征;在特征融合階段,利用KPCA進(jìn)行特征融合。實(shí)驗(yàn)結(jié)果顯示了算法的有效性,也證明了KPCA特征融合能有效提高檢測(cè)效果。本文算法對(duì)存在其他篡改(如雙重JPEG壓縮)時(shí)的魯棒性不好,一方面可考慮進(jìn)一步融合其他篡改引入的特征,另一方面可在決策層進(jìn)行信息融合。
[1] Farid H.Image forgery detection[J].IEEE Trans on Signal Processing,2009,26(2):16-25.
[2] 王 波,孫璐璐,孔祥維,等.圖像偽造中模糊操作的異常色調(diào)率取證技術(shù)[J].電子學(xué)報(bào),2006,34(12):2451-2454.
[3] 周琳娜,王東明.基于數(shù)字圖像邊緣特性的形態(tài)學(xué)濾波取證技術(shù)[J].電子學(xué)報(bào),2008,36(6):1047-1051.
[4] 王 偉,方 勇.基于二次模糊相關(guān)性的單通道置換圖像盲分離[J].應(yīng)用科學(xué)學(xué)報(bào),2011,29(2):169-175.
[5] 左菊仙,劉本永.偽造圖像典型篡改操作的檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2012,17(11):1367-1375.
[6] Yang B J,Liu B Y.Feature fusion for blurring detection in image forensics[J].IEICE Transactions on Information and Systems,2014,E97—D(6):1690-1693.
[7] 周長(zhǎng)輝,胡永健,譚莉玲.典型源相機(jī)分類算法性能研究[J].計(jì)算機(jī)應(yīng)用,2011,31(4):1133-1137.
[8] Scholkopf B,Smola A,Muller K.Nonlinear component analysis as a kernel eigenvalue problem[J].Neural Computation,1998,10(5):1299-1319.
Blur detection algorithm in image forgery based on kernel principal component analysis*
YANG Ben-juan1, LI Xiao-ping2
(1.School of Mathematics and Computational Science,Guizhou Normal University,Guiyang 550002,China; 2.Department of Information Engineering,Jiangxi Vocational College of Finance and Economics,Jiujiang 332000,China)
Most existing image blurring forgery detection algorithm consider only one single feature introduced by blurring operation,in order to improve algorithm detection efficiency,propose blur forgery detection algorithm based on kernel principal component analysis(KPCA).Through singular value decomposition(SVD),extract the first group of features,calculate the secondlary fuzzy correlation as the second group of features,calculate image quality factor as the third group of feature.Multi-feature fusion are achieved using KPCA.Judgement is carried out using support vector machine,so as to realize blur forgery detection.Experimental results show the proposed algorithm can effectively detect blur operation trace of digital tampering image and can accurately locate blur forgery area.
image forgery detection; kernel principal component analysis(KPCA); blur operation
2015—09—01
貴州省科學(xué)技術(shù)基金資助項(xiàng)目(黔科合J字(2012)2272); 教育部人文社會(huì)科學(xué)研究青年項(xiàng)目(13YJC870013)
10.13873/J.1000—9787(2015)11—0137—03
TP 391
A
1000—9787(2015)11—0137—03
楊本娟(1982-),女,貴州貴陽(yáng)人,博士,主要從事圖像處理與模式識(shí)別的研究。