劉光宇,袁 權(quán),張令威,吳哲夫,劉光燦
(南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210044)
圖像去模糊在模糊核是否已知的情況下可以分為兩大類:非盲去模糊方法(non-blind deconvolution)與盲去模糊方法(blind image deconvolution)。早期的圖像去模糊算法通常是在假設(shè)模糊核已知的情況下對(duì)模糊圖像進(jìn)行清晰化處理,也就是非盲去模糊方法。另一類方法是在模糊核未知情況下解決圖像去模糊問題,也就是盲去模糊方法。與非盲去模糊方法相比,這類任務(wù)更加貼近實(shí)際情況,但由于缺乏先驗(yàn)信息,所以相比非盲去模糊任務(wù)而言具有更高的病態(tài)性,解決起來會(huì)更加困難。近些年來隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,在盲去模糊方面的研究受到了廣泛的關(guān)注并取得了巨大的進(jìn)展。例如Pan的團(tuán)隊(duì)為提出了很多有效的盲去模糊算法,其中有基于圖像梯度與亮度先驗(yàn)的盲去模糊算法[1]、基于暗通道先驗(yàn)的圖像盲去模糊算法[2]、基于低秩先驗(yàn)的盲去模糊算法[3]與對(duì)于人臉與文本圖像的盲去模糊算法[4]都取得了良好的成效。同時(shí)隨著深度學(xué)習(xí)的火爆,也出現(xiàn)了很多基于神經(jīng)網(wǎng)絡(luò)的去模糊算法研究[5-11],也取得了很不錯(cuò)的效果。
本文針對(duì)空間移不變盲去卷積,提出了基于卷積譜特性[12]與L0正則化先驗(yàn)的盲去卷積算法,在保持L0正則化對(duì)文本去模糊任務(wù)的優(yōu)秀性能的同時(shí),增強(qiáng)了對(duì)自然圖像去模糊的能力,取得了有競爭力的效果。
一般情況下,圖像模糊中的運(yùn)動(dòng)模糊和聚焦模糊比較容易通過卷積建模,如式(1)所示
B=I*K+N
(1)
其中,B表示模糊圖像,I表示清晰圖像,K表示模糊核,N表示圖像噪聲,*代表卷積操作。正如引言中所提到的,模糊圖像可以理解成清晰圖像與模糊核卷積在加上隨機(jī)噪聲生成的。在不考慮噪聲情況下解決這個(gè)問題最直接的方法是同時(shí)尋找潛在的清晰圖像I與模糊核K,于是問題轉(zhuǎn)換成如式(2)
(2)
(3)
其中,α和β是兩個(gè)大于零的參數(shù)。
圖1為模糊圖像與其對(duì)應(yīng)的清晰圖像。
圖1 模糊圖像與其對(duì)應(yīng)清晰圖像
為解決式(3)的問題,可以將式(3)拆分成如式(4)、式(5)兩個(gè)子問題進(jìn)行求解
(4)
(5)
這兩個(gè)子問題的具體解決細(xì)節(jié)將在下節(jié)詳細(xì)介紹。
在文本圖像去模糊任務(wù)中,通過觀察發(fā)現(xiàn)文本字符與背景區(qū)域在沒有模糊的清晰圖像中通常具有近似一致的亮度值。如圖2(a)為清晰文本圖像,圖2(b)為其模糊版本。通過圖2(c)可以發(fā)現(xiàn),清晰圖像的像素值分布集中在兩個(gè)峰值0和255上,也就是說如果單一考慮零峰值,文本圖像的像素值是非常稀疏的。而對(duì)于一張模糊文本圖像而言,如圖2(d)所示,可以發(fā)現(xiàn)它像素強(qiáng)度的分布相比于清晰圖像更加稠密。對(duì)文本圖像而言,這一性質(zhì)是通用的,于是我們給出對(duì)于清晰圖像I的第一個(gè)約束,如式(6)所示
(6)
(7)
于是我們結(jié)合以上兩種約束,給出完整的L0正則先驗(yàn),如式(8)所示
(8)
其中,υ為一個(gè)權(quán)重。由半二次分裂L0極小化法,可以將此問題轉(zhuǎn)化為如式(9)的問題
(9)
(10)
其中,F(xiàn)(·)和F-1(·)分別表示快速傅里葉變換(fast Fourier transform,F(xiàn)FT)和快速傅里葉反變換(inverse FFT),F(xiàn)(·)*表示傅里葉變換的復(fù)共軛矩陣,°表示矩陣對(duì)應(yīng)元素相乘(element-wise multiplication)
(11)
(12)
圖2 清晰、模糊圖像像素與橫向梯度對(duì)比
以上就是解決子問題(4)的算法流程,實(shí)驗(yàn)結(jié)果表明,使用L0正則方法已經(jīng)可以很好完成文本圖像去模糊任務(wù),但在大部分自然圖像去模糊任務(wù)中取得的成果卻差強(qiáng)人意。
為了在保持文本去模糊高效的同時(shí)增強(qiáng)自然圖像去模糊的能力,我們?cè)俅我牖诰矸e譜特性的先驗(yàn)對(duì)模糊核K進(jìn)行約束。在介紹本節(jié)整體算法之前,首先給出卷積矩陣、卷積特征值和卷積特征向量的定義。如式(13)所示
vec(B*K)=C(B)vec(K)
(13)
其中,vec(·)代表將矩陣向量化操作,C(·)代表卷積矩陣,卷積矩陣具有將卷積運(yùn)算轉(zhuǎn)換為矩陣相乘運(yùn)算的作用,卷積特征值和卷積特征向量分別對(duì)應(yīng)C(B)TC(B)(設(shè)其規(guī)模為m×m)的奇異值和右奇異向量。
如圖3所示,圖3中兩段線條分別對(duì)應(yīng)圖2(a)與圖2(d)的卷積特征值自然對(duì)數(shù)值的大小,其中上側(cè)線條對(duì)應(yīng)清晰圖像的卷積特征值,下側(cè)線條對(duì)應(yīng)模糊圖像的卷積特征值??梢园l(fā)現(xiàn)每個(gè)卷積特征值在清晰圖像中的自然對(duì)數(shù)值明顯大于其對(duì)應(yīng)在模糊圖像中的自然對(duì)數(shù)值,基于此性質(zhì)我們給出關(guān)于K的目標(biāo)函數(shù)如式(14)所示
(14)
圖3 清晰、模糊圖像卷積特征值自然對(duì)數(shù)對(duì)比
其中,gi(·)代表矩陣的卷積特征向量,σi(·)代表矩陣的卷積特征值。容易發(fā)現(xiàn)這可以轉(zhuǎn)化成g(K)=(vec(K))TH(vec(K))的問題,其中H為Hessian矩陣,求法如式(15)所示
(15)
結(jié)合式(15)可以看出,求解子問題(5)本質(zhì)上是求解一個(gè)二次規(guī)劃問題,在matlab中可以直接運(yùn)用quadprog函數(shù)對(duì)此問題進(jìn)行求解。
為了通過唯一的輸入模糊圖像B求解清晰圖像I與模糊核K,本文提出了對(duì)目標(biāo)函數(shù)(3)進(jìn)行求解的算法,首先運(yùn)用1.2中交替極小化的算法求解第一個(gè)子問題(4),再運(yùn)用1.3中求解二次規(guī)劃的算法解決第二個(gè)子問題(5),交替迭代,當(dāng)整體算法收斂時(shí)即可得到清晰圖像I與模糊核K,具體實(shí)驗(yàn)結(jié)果會(huì)在下一章節(jié)展示。
本文的實(shí)驗(yàn)分為文本去模糊與自然圖像去模糊兩個(gè)部分,采用的圖片大小為300*300,采用的模糊核大小為15*15。本文采用PSNR(峰值信噪比)與SSIM(結(jié)構(gòu)相似度)作為評(píng)價(jià)指標(biāo)分,算法實(shí)驗(yàn)環(huán)境為Intel酷睿i7-6700CPU,16 G內(nèi)存的戴爾臺(tái)式電腦,使用MATLAB R2016a平臺(tái)對(duì)算法進(jìn)行了編程實(shí)現(xiàn)。由于篇幅限制,對(duì)比實(shí)驗(yàn)的可視化結(jié)果將選取其中效果最優(yōu)的兩組方法展示出來,完整的對(duì)比實(shí)驗(yàn)結(jié)果將在后文以表格形式給出。
如圖4,圖5所示,本文分別與Pan團(tuán)隊(duì)提出的盲去模糊算法[1,3],Liu提出的算法[12],以及Jia提出的算法[13]進(jìn)行了實(shí)驗(yàn)對(duì)比,其中圖4為文本圖像去模糊部分可視化結(jié)果,圖5為自然圖像去模糊部分可視化結(jié)果。
如圖4所示,在前3組對(duì)比實(shí)驗(yàn)中,我們對(duì)同一張文本圖像的3種模糊版本進(jìn)行了實(shí)驗(yàn)對(duì)比,在最后一組實(shí)驗(yàn)中,我們選擇了另外的文體模糊圖像進(jìn)行了實(shí)驗(yàn)對(duì)比。在可視化結(jié)果中,我們給出了模糊圖片,4種對(duì)比方法中效果最好的兩組和運(yùn)用本文算法得出的結(jié)果??梢园l(fā)現(xiàn),本文模型取得了最好的結(jié)果。
如圖5所示,展示了3組自然圖像去模糊對(duì)比實(shí)驗(yàn),引入卷積譜特征先驗(yàn)的本文算法模型取得了最優(yōu)的效果。
為了驗(yàn)證算法的有效性,本文實(shí)驗(yàn)不但分別對(duì)比了文體模糊圖像和自然模糊圖像去模糊的效果,而且在選取圖像上也選擇了低光照、復(fù)雜邊緣等不同類型的圖像進(jìn)行了模擬。除了以上的部分可視化結(jié)果外,我們將通過峰值信噪比和結(jié)構(gòu)相似度兩項(xiàng)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)效果進(jìn)行評(píng)估,完整結(jié)果通過如表1,表2展示出來,表格中數(shù)據(jù)結(jié)果對(duì)應(yīng)上文7張圖片。
圖4 文本圖像去模糊對(duì)比實(shí)驗(yàn)的可視化結(jié)果
在展示表格之前首先簡單介紹一下兩項(xiàng)評(píng)價(jià)指標(biāo)的含義。其中峰值信噪比(PSNR)是評(píng)價(jià)圖像的客觀標(biāo)準(zhǔn)之一,一般是用于最大值信號(hào)和背景噪音之間的一個(gè)工程項(xiàng)目。其數(shù)學(xué)上的求解如式(16)所示
(16)
結(jié)構(gòu)相似性(SSIM)是評(píng)價(jià)圖像的另一個(gè)常用標(biāo)準(zhǔn),是一種衡量兩幅圖像相似程度的指標(biāo)。其數(shù)學(xué)上的求解如式(17)所示
(17)
圖5 自然圖像去模糊對(duì)比實(shí)驗(yàn)結(jié)果
本文提出了基于卷積譜特性與L0正則先驗(yàn)的圖像盲去模糊算法。實(shí)驗(yàn)結(jié)果表明,本文模型可以在50到200次迭代之內(nèi)收斂,速度優(yōu)于大部分去模糊算法。相較于以往單一的L0正則先驗(yàn),本文在其中加入了卷積譜特征先驗(yàn)對(duì)模糊核進(jìn)行約束,使得算法保持了文本圖像去模糊優(yōu)越特性的同時(shí)增強(qiáng)了自然圖像去模糊的能力,在兩種去模糊任務(wù)中都取得了良好的效果,所以可以投入更廣泛的應(yīng)用。
表1 PSNR(峰值信噪比)實(shí)驗(yàn)結(jié)果對(duì)比
表2 SSIM(結(jié)構(gòu)相似度)實(shí)驗(yàn)結(jié)果對(duì)比