国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像去模糊研究綜述

2024-04-22 00:47:00胡張穎周全陳明舉崔景程吳曉富鄭寶玉
關(guān)鍵詞:卷積深度圖像

胡張穎,周全*,陳明舉,崔景程,吳曉富,鄭寶玉

1.南京郵電大學(xué)通信與信息工程學(xué)院,南京 210003;2.四川輕化工大學(xué)人工智能四川省重點(diǎn)實(shí)驗(yàn)室,宜賓 644000

0 引言

圖像模糊是由于圖像采集過程中的成像設(shè)備自身的散焦、抖動(dòng)或圖像物體運(yùn)動(dòng)等因素導(dǎo)致的(Joshi等,2008;Sun 等,2015)。例如,拍攝運(yùn)動(dòng)中的物體時(shí),快門時(shí)間較長(zhǎng)或手持相機(jī)不穩(wěn)定,會(huì)導(dǎo)致圖像模糊。而這種模糊會(huì)降低圖像的質(zhì)量,影響圖像的視覺感受效果和有效信息提取。為了解決這個(gè)問題,圖像去模糊技術(shù)應(yīng)運(yùn)而生。通過運(yùn)用先進(jìn)的算法和技術(shù),可以將模糊的圖像轉(zhuǎn)化為清晰、銳利的圖像,并重新展現(xiàn)其細(xì)節(jié)和質(zhì)感。這種圖像去模糊技術(shù)在醫(yī)療(Sharif 等,2023)、安防監(jiān)控(馬蘇欣 等,2019)、圖像分類(He 等,2016)和目標(biāo)檢測(cè)(Isola 等,2017)等領(lǐng)域具有重要的應(yīng)用價(jià)值。因此,研究如何對(duì)這些圖像進(jìn)行去模糊成為底層計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù),并具有廣泛的應(yīng)用前景。

根據(jù)造成圖像模糊的原因,模糊類型主要可以分為運(yùn)動(dòng)模糊(motion blur)、散焦模糊(out-of-focus blur)和高斯模糊(Gaussian blur)(Zhang 等,2022)。目前的研究主要關(guān)注解決圖像運(yùn)動(dòng)模糊問題,因?yàn)橄啾扔谏⒔鼓:透咚鼓:?,圖像運(yùn)動(dòng)模糊更常見且較難處理。特別是在拍攝運(yùn)動(dòng)物體或快速移動(dòng)場(chǎng)景時(shí),圖像容易受到運(yùn)動(dòng)模糊的影響。在進(jìn)行圖像去模糊后,需要對(duì)處理結(jié)果進(jìn)行評(píng)價(jià)。常用的方法是圖像質(zhì)量評(píng)價(jià)(image quality assessment,IQA),IQA可以分為主觀評(píng)價(jià)和客觀評(píng)價(jià)兩類(程茹秋 等,2022),而客觀評(píng)價(jià)方法又可分為全參考(Wang 等,2017)、半?yún)⒖迹↙iu 等,2018)和無參考(Mittal 等,2012;Kang 等,2014)3 類。鑒于主觀評(píng)價(jià)方法需要耗費(fèi)大量人力物力資源,在實(shí)際應(yīng)用中更多采用客觀評(píng)價(jià)方法。

傳統(tǒng)圖像去模糊方法可以視為反向求解圖像模糊模型的問題。當(dāng)整個(gè)圖像模糊均勻時(shí),模糊模型可以建模為模糊圖像與模糊核的卷積過程(Fergus等,2006;Chen 等,2019)。在已知模糊核的情況下,可稱之為非盲去模糊問題(Yuan 等,2008),早期采用圖像先去噪后反卷積或迭代求解模糊過程兩種算法來處理這些模糊圖像。而在未知模糊核或清晰圖像的情況下,則屬于盲去模糊問題(Krishnan 等,2011),傳統(tǒng)方法主要先通過估計(jì)模糊核,再轉(zhuǎn)變?yōu)榉敲D像去模糊問題。然而,傳統(tǒng)方法更適用于均勻模糊,對(duì)于多物體運(yùn)動(dòng)和復(fù)雜環(huán)境下的非均勻模糊效果不佳。隨著深度學(xué)習(xí)的發(fā)展,基于端到端的深度學(xué)習(xí)圖像去模糊方法相繼提出。相比于傳統(tǒng)圖像去模糊的方法,基于深度學(xué)習(xí)的方法能夠自動(dòng)學(xué)習(xí)圖像模糊過程中的深度特征,避免模糊核估計(jì)過程。這些方法包括基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)(Nah 等,2017;Cho 等,2021)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)(Zhang 等,2018;Gao 等,2019)、基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Kupyn 等,2018)和基于Transformer(Wang等,2022)等。

本文結(jié)構(gòu)如圖1 所示。對(duì)圖像去模糊領(lǐng)域的研究進(jìn)展進(jìn)行全面綜述,分別從傳統(tǒng)圖像去模糊方法和基于深度學(xué)習(xí)的一些新興方法兩個(gè)方面展開論述。首先,回顧圖像去模糊的發(fā)展歷程,然后介紹不同類型的模糊和質(zhì)量評(píng)價(jià)指標(biāo)。接著,詳細(xì)討論圖像去模糊的傳統(tǒng)方法和基于深度學(xué)習(xí)模型的方法。在傳統(tǒng)方法方面,根據(jù)模糊核是否已知對(duì)其進(jìn)行分類;而在基于深度學(xué)習(xí)的方法方面,則根據(jù)網(wǎng)絡(luò)模型架構(gòu)進(jìn)行細(xì)分,并闡述不同網(wǎng)絡(luò)模型方法的應(yīng)用。然后,介紹圖像去模糊領(lǐng)域的公共基準(zhǔn)數(shù)據(jù)集以及對(duì)具有代表性的算法進(jìn)行全面評(píng)估分析。最后,分析圖像去模糊領(lǐng)域所面臨的挑戰(zhàn),并對(duì)存在的一些問題進(jìn)行總結(jié)和展望。

圖1 本文架構(gòu)Fig.1 The architecture of this paper

Zhang 等人(2022)的綜述更多關(guān)注基于深度學(xué)習(xí)的圖像和視頻去模糊的方法,而本文綜述深入探討了圖像去模糊領(lǐng)域傳統(tǒng)方法和基于深度學(xué)習(xí)的方法之間的區(qū)別和聯(lián)系,以及近期在圖像去模糊任務(wù)中應(yīng)用和研究的Transformer 方法。相較現(xiàn)有綜述,本文更全面地梳理了圖像去模糊領(lǐng)域的進(jìn)展,并對(duì)相關(guān)領(lǐng)域起到借鑒和推動(dòng)的作用。

1 圖像去模糊方法的發(fā)展歷程

圖像去模糊領(lǐng)域自20世紀(jì)60年代發(fā)展至今,產(chǎn)生了許多具有影響力的工作。傳統(tǒng)的圖像去模糊方法大都采用線性模型進(jìn)行建模,無法有效應(yīng)對(duì)復(fù)雜先驗(yàn)分布下的圖像去模糊問題。隨著深度學(xué)習(xí)技術(shù)的日益發(fā)展,深度學(xué)習(xí)模型可以利用大量的訓(xùn)練數(shù)據(jù)自主選擇特征,并借助其自身非線性特性廣泛應(yīng)用于圖像去模糊問題。本文對(duì)圖像去模糊自2005年以來的發(fā)展進(jìn)行總結(jié),圖2 按時(shí)間軸在圖像非盲去模糊和圖像盲去模糊兩個(gè)領(lǐng)域展示了一些傳統(tǒng)方法和深度學(xué)習(xí)方法。其中黃色箭頭表示被廣泛認(rèn)為較經(jīng)典的算法;藍(lán)色和紫色箭頭分別表示非盲圖像去模糊和盲圖像去模糊中較具有代表性的算法。

圖2 圖像去模糊的發(fā)展歷程Fig.2 Chronology of classical methods for image deblurring

1.1 非盲圖像去模糊

1.1.1 基于圖像塊先驗(yàn)的非盲圖像去模糊

Zoran 和Weiss(2011)采用高斯混合模型對(duì)圖像塊進(jìn)行建模,并將學(xué)習(xí)到的圖像特征作為去模糊的正則化項(xiàng)。該方法證明了使用小圖像塊時(shí),可以有效地學(xué)習(xí)先驗(yàn)信息以進(jìn)行圖像恢復(fù),引起了很多研究人員的廣泛關(guān)注。其他代表性的工作包括:先去噪后反卷積(Chen 等,2010;Danielyan 等,2012)和迭代求解模糊過程(Yuan 等,2008;Kheradmand 和Milanfar,2014;Khetkeeree 和Liangrocapart,2019)的圖像去模糊方法。

1.1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的非盲圖像去模糊

模型優(yōu)化和判別式學(xué)習(xí)是解決底層視覺任務(wù)中逆問題的兩種策略,Zhang等人(2017)將兩種方法進(jìn)行結(jié)合,訓(xùn)練快速有效的CNN去噪器,以解決非盲圖像去模糊問題。隨著深度學(xué)習(xí)的發(fā)展,其他具有代表性的工作還包括:傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合的方法(Zhang等,2019b;Dong等,2022)和純深度學(xué)習(xí)的方法(Vasu等,2018;Zhou等,2020;Eboli等,2020)。

1.2 盲圖像去模糊

1.2.1 模糊核估計(jì)的盲去模糊方法

Fergus 等人(2006)的方法摒棄了以往盲去模糊方法對(duì)卷積核或圖像的先驗(yàn)假設(shè),實(shí)現(xiàn)了真正意義上的盲圖像去模糊。這類方法重點(diǎn)集中在未知模糊核的估計(jì)上,因?yàn)橐坏┠軌驕?zhǔn)確估計(jì)模糊核,任何非盲去模糊算法都可以用估計(jì)的模糊核對(duì)圖像進(jìn)行去模糊。傳統(tǒng)盲圖像去模糊具有代表性的工作還包括以下幾種方法:基于圖像邊緣特征的方法(Joshi等,2008;Chen 等,2019);基于最大后驗(yàn)概率(maximum a posteriori,MAP)的方法(Shan 等,2008;Cho和Lee,2009;Levin 等,2011);基于圖像稀疏表達(dá)的方 法(Krishnan 等,2011;Pan 等,2016;Yan 等,2017)。

1.2.2 基于深度學(xué)習(xí)的盲去模糊方法

Sun 等人(2015)首次將CNN 應(yīng)用到圖像去模糊領(lǐng)域,是圖像去模糊領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。它利用圖像塊統(tǒng)計(jì)信息來建模非均勻運(yùn)動(dòng)模糊,并取得了顯著效果。隨著深度學(xué)習(xí)的發(fā)展,盲圖像去模糊的代表性工作還包括:基于卷積神經(jīng)網(wǎng)絡(luò)的方法(Nah 等,2017;Zamir 等,2021);基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SRN-DeblurNet(scale-recurrent network for deep image deblurring)(Tao 等,2018);基于生成對(duì)抗網(wǎng)絡(luò)的DeblurGAN(Kupyn 等,2018)和在其改進(jìn)DeblurGAN-v2(Kupyn 等,2019);基于Transformer 的Restormer(Zamir等,2022)和CTMS(CNN-Transformer multiscale structure)(Zhao 等,2023)。這些深度學(xué)習(xí)的方法要么估計(jì)模糊核再進(jìn)行反卷積去模糊,要么采用端到端的方法,直接從模糊圖像預(yù)測(cè)清晰圖像。

2 圖像模糊成因及評(píng)價(jià)標(biāo)準(zhǔn)

圖像模糊是由多種原因引起的,主要包括運(yùn)動(dòng)模糊、散焦模糊和高斯模糊,使得圖像中的細(xì)節(jié)不清晰、邊緣模糊或整體呈現(xiàn)出模糊的效果(Zhang 等,2022)。在對(duì)圖像進(jìn)行去模糊處理后,需要評(píng)估圖像的清晰度,通常采用一些圖像質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)來衡量圖像的質(zhì)量。這些評(píng)價(jià)標(biāo)準(zhǔn)能夠確定恢復(fù)圖像是否清晰,并提供一種客觀的方式來比較不同圖像處理算法的性能。下面分別從模糊成因和圖像評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行綜述。

2.1 常見的模糊類型

圖像在獲取和存儲(chǔ)過程中存在著許多不確定的因素,無論是拍攝時(shí)物體的快速移動(dòng)或相機(jī)設(shè)備的抖動(dòng)等形成的運(yùn)動(dòng)模糊,還是相機(jī)設(shè)備聚焦不當(dāng)造成的散焦模糊,或是天氣因素產(chǎn)生的高斯模糊。模糊類型錯(cuò)綜復(fù)雜,但圖像模糊過程可以統(tǒng)一建模為

式中,X為清晰圖像,Y為模糊圖像,K為模糊核或點(diǎn)擴(kuò)散函數(shù)(point spread function,PSF),其中?為卷積操作,N為加性噪聲。整個(gè)圖像模糊過程可以表示為原始清晰圖像X與模糊核K進(jìn)行卷積運(yùn)算,并加上噪聲得到模糊圖像Y。

2.1.1 運(yùn)動(dòng)模糊

根據(jù)模糊區(qū)域,可以將運(yùn)動(dòng)模糊劃分為全局運(yùn)動(dòng)模糊和局部運(yùn)動(dòng)模糊兩類(劉利平 等,2022)。全局運(yùn)動(dòng)模糊是指整個(gè)圖像在同一方向上發(fā)生模糊,通常是由相機(jī)或物體的移動(dòng)造成(Pan 和Su,2013;Yan 等,2017)。例如,當(dāng)在拍攝運(yùn)動(dòng)車輛時(shí),由于相機(jī)或車輛移動(dòng),圖像中的車輛會(huì)變得模糊不清,這就屬于全局運(yùn)動(dòng)模糊。局部運(yùn)動(dòng)模糊是指圖像中只有某些區(qū)域發(fā)生模糊,通常是由物體的運(yùn)動(dòng)或相機(jī)焦距的變化造成(Dai和Wu,2008)。例如,當(dāng)在拍攝一個(gè)人物時(shí),如果他的手或頭部移動(dòng)了,這些區(qū)域就可能出現(xiàn)局部運(yùn)動(dòng)模糊。通常情況下,大多數(shù)運(yùn)動(dòng)模糊的模糊核是不清楚的,因此運(yùn)動(dòng)模糊大多是圖像盲去模糊問題。

2.1.2 散焦模糊

散焦模糊通常是因?yàn)橄鄼C(jī)或鏡頭無法將圖像的所有部分聚焦在同一平面上,導(dǎo)致圖像變得模糊不清(Shen 等,2012;衡紅軍 等,2021;Quan 等,2023)。當(dāng)相機(jī)或鏡頭無法正確對(duì)焦時(shí),圖像中的物體會(huì)失去清晰度,看起來模糊或者像是被涂上一層薄霧。散焦模糊的點(diǎn)擴(kuò)散函數(shù)表示為

式中,F(xiàn)(x,y)表示模糊核在位置(x,y)處的像素值,R表示散焦模糊半徑。

2.1.3 高斯模糊

對(duì)于每個(gè)像素,將其周圍的像素按照高斯分布函數(shù)計(jì)算權(quán)重,然后將這些像素的值加權(quán)平均,得到一個(gè)新的像素值。這個(gè)過程在整幅圖像上重復(fù)進(jìn)行,從而得到一幅模糊的圖像,這種模糊稱為高斯模糊(Bar 等,2006;Chen 和Ma,2009;Wang 等,2010)。高斯模糊的點(diǎn)擴(kuò)散函數(shù)表示為

式中,σ表示高斯模糊的標(biāo)準(zhǔn)差,也稱為模糊半徑,模糊半徑越長(zhǎng),圖像模糊程度越高。G(x,y)表示模糊核在位置(x,y)處的像素值。

2.2 圖像質(zhì)量評(píng)價(jià)

圖像去模糊質(zhì)量評(píng)價(jià)分為主觀評(píng)價(jià)和客觀評(píng)價(jià)兩類(程茹秋 等,2022)。主觀評(píng)價(jià)是指人們從感性認(rèn)識(shí)的視覺和經(jīng)驗(yàn)角度對(duì)圖像質(zhì)量進(jìn)行主觀判定。由于需要人為打分得到平均主觀分?jǐn)?shù)(mean opinion score,MOS)(Ho?feld 等,2016)來評(píng)估圖像質(zhì)量,因而往往這種評(píng)價(jià)機(jī)制更加符合人眼視覺特性。但是主觀打分容易受到主觀影響,而且需要耗費(fèi)大量的人力,成本高效率低。因此,大多圖像質(zhì)量評(píng)價(jià)以客觀評(píng)價(jià)為主,再進(jìn)一步劃分為全參考(full-reference,F(xiàn)R)(Wang 等,2017)、半?yún)⒖迹╮educed-reference,RR)(Liu等,2018)和無參考(no-reference,NR)(Mittal等,2012)圖像質(zhì)量評(píng)價(jià)。

2.2.1 全參考圖像質(zhì)量評(píng)價(jià)(FR-IQA)

FR-IQA 是基于原始圖像和失真圖像之間的差異來評(píng)估圖像質(zhì)量。廣泛采用的評(píng)價(jià)指標(biāo)包括均方誤差(mean square error,MSE)(Haigh,1980)和峰值信噪比(peak signal to noise ratio,PSNR)(Huynh-Thu和Ghanbari,2008)。然而,這兩種方法被認(rèn)為與人類視覺系統(tǒng)(human visual system,HVS)不符。因此,先后提出了基于結(jié)構(gòu)相似度(structual similarity,SSIM)(Wang等,2004)和基于HVS的評(píng)價(jià)方法。

SSIM通過比較原始圖像X與復(fù)原圖像Y之間的結(jié)構(gòu)信息變化來衡量圖像質(zhì)量。然而,SSIM 在評(píng)估圖像質(zhì)量方面的效果并不理想,Chen 等人(2006)提出基于梯度的結(jié)構(gòu)相似度(gradient-based structural similarity,GSSIM)方法,利用邊緣信息作為重要的圖像結(jié)構(gòu)信息,并使用梯度代替結(jié)構(gòu)相似度中的對(duì)比度和結(jié)構(gòu)度量。因?yàn)閳D像模糊會(huì)減弱圖像中包含的語義信息,為此Zhang 等人(2013)提出ESSIM(edge strength similarity-based image quality metric)方法,通過計(jì)算邊緣強(qiáng)度相似性來衡量由語義感知導(dǎo)致的質(zhì)量退化。

HVS 算法主要利用人眼的亮度適應(yīng)性、邊緣敏感性、多尺度和掩蔽效應(yīng)等多種特性來衡量圖像質(zhì)量。Chandler 和Hemami(2007)提出基于小波的自然圖像視覺信噪比方法,用于量化失真圖像的視覺保真度。Larson 和Chandler(2010)認(rèn)為用HVS 判斷圖像質(zhì)量時(shí)采用單一的策略(如提取圖像結(jié)構(gòu)信息)往往是不夠的,因此提倡HVS 使用多策略來衡量圖像質(zhì)量,對(duì)于高質(zhì)量圖像,采用局部亮度和對(duì)比度來感知失真;對(duì)于低質(zhì)量圖像,采用空間頻率分量的局部統(tǒng)計(jì)變化來感知失真。Zhang 等人(2011)將相位一致性作為主要特征,圖像梯度的幅度作為次要特征提出了基于HVS 底層特征的圖像質(zhì)量評(píng)價(jià)算法。

2.2.2 半?yún)⒖紙D像質(zhì)量評(píng)價(jià)(RR-IQA)

RR-IQA 一般基于圖像的部分信息而非完整信息來進(jìn)行質(zhì)量評(píng)價(jià)。相比于FR-IQA,RR-IQA 具有靈活性、適用性強(qiáng)和傳輸數(shù)據(jù)量小等特點(diǎn)。RR-IQA的代表性工作是采用變換域方法進(jìn)行質(zhì)量評(píng)估(Wang 等,2006;Li 和Wang,2009)。Wang 等人(2006)提出一種基于小波變換域的自然圖像統(tǒng)計(jì)模型。該模型使用小波系數(shù)對(duì)原始圖像進(jìn)行編碼,并通過比較解碼后的系數(shù)分布與原始圖像系數(shù)分布的偏差來量化圖像的質(zhì)量。Li 和Wang(2009)將分裂歸一化和小波變換結(jié)合,利用小波變換高斯混合模型計(jì)算圖像的分裂歸一化變換,在變換域提取特征進(jìn)行質(zhì)量評(píng)估。此外,另一類RR-IQA 方法采用稀疏表達(dá)進(jìn)行質(zhì)量評(píng)價(jià)(Liu 等,2018;Wan 等,2020)。Liu 等人(2018)利用稀疏表達(dá)分別預(yù)測(cè)參考圖像和失真圖像,然后通過預(yù)測(cè)誤差熵之間的差值衡量圖像質(zhì)量。而Wan 等人(2020)提出使用稀疏表達(dá)和自然場(chǎng)景統(tǒng)計(jì)特性來模擬大腦視覺感知的RR-IQA。

2.2.3 無參考圖像質(zhì)量評(píng)價(jià)(NR-IQA)

FR-IQA 和RR-IQA 都需要借助原始清晰圖像作為參考,并通過計(jì)算特征差異或統(tǒng)計(jì)度量來評(píng)估圖像質(zhì)量,但所得到的結(jié)果并不能很好地滿足HVS。因此,NR-IQA 應(yīng)運(yùn)而生。NR-IQA 通過建立圖像與主觀質(zhì)量評(píng)分之間的映射關(guān)系進(jìn)行質(zhì)量評(píng)價(jià),從而更加符合人眼的主觀性。在NR-IQA 模型中,當(dāng)算法評(píng)價(jià)值與MOS 值越接近、相關(guān)性越強(qiáng),說明評(píng)價(jià)越準(zhǔn)確,反之亦然。

無參考方法中的自然場(chǎng)景統(tǒng)計(jì)(natural scene statistical,NSS)方法是指高質(zhì)量圖像的視覺特征(如亮度、梯度等)服從一定的分布規(guī)律,而不同類型或不同程度的失真會(huì)對(duì)這種分布產(chǎn)生影響(方玉明等,2021)。Moorthy 和Bovik(2011)以及Mittal 等人(2012)分別提出DIIVINE 和BRISQUE 方法。DIIVINE 使用兩階段框架,首先用提取的場(chǎng)景統(tǒng)計(jì)信息預(yù)測(cè)失真類型,然后利用預(yù)測(cè)結(jié)果評(píng)估圖像質(zhì)量。而BRISQUE 模型采用空間域中的NSS 模型提取圖像特征進(jìn)行圖像質(zhì)量評(píng)價(jià)。

盡管基于NSS 的方法對(duì)部分失真效果較好,但由于外界因素的復(fù)雜性,這些方法還不能有效應(yīng)對(duì)各種失真。為此,Kang等人(2014)提出將CNN 應(yīng)用到NR-IQA,利用CNN 網(wǎng)絡(luò)架構(gòu)對(duì)圖像塊進(jìn)行特征提取,然后建模圖像特征和評(píng)價(jià)分?jǐn)?shù)之間的映射關(guān)系。Li 等人(2016)提出了端到端CNN 模型,直接以原始圖像作為輸入并輸出圖像質(zhì)量分?jǐn)?shù)。受無監(jiān)督預(yù)訓(xùn)練方法啟發(fā),Madhusudana 等人(2022)將圖像質(zhì)量評(píng)價(jià)從一個(gè)回歸問題轉(zhuǎn)化為分類問題,設(shè)計(jì)了一種基于對(duì)比學(xué)習(xí)的IQA訓(xùn)練框架。使用失真類型和失真程度作為輔助任務(wù),從未標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)特征,進(jìn)行正確的歸類。對(duì)輔助任務(wù)訓(xùn)練得到的模型進(jìn)行圖像評(píng)估,從而得到質(zhì)量分?jǐn)?shù)。

3 傳統(tǒng)方法圖像去模糊

如圖1 所示,2017 年之前圖像去模糊主要采用傳統(tǒng)方法,下面從非盲去模糊和盲去模糊兩個(gè)方面回顧經(jīng)典工作。

3.1 非盲圖像去模糊

傳統(tǒng)的非盲圖像去模糊算法主要關(guān)注如何在噪聲干擾的情況下,能夠有效地恢復(fù)出清晰圖像(楊航,2022)。因此,非盲圖像去模糊主要從以下兩類方法進(jìn)行考慮:先去噪后反卷積(Chen 等,2010;Danielyan 等,2012)和迭代求解模糊過程(Zoran 和Weiss,2011)。

3.1.1 先去噪后反卷積

在圖像去模糊領(lǐng)域,早期的研究包括Wiener(1964)提出的自適應(yīng)方差最小化濾波器,也稱為維納濾波。該方法通過信號(hào)和噪聲的統(tǒng)計(jì)特性來計(jì)算濾波器的權(quán)重,然后將這些權(quán)重應(yīng)用于原始信號(hào)以濾除噪聲的干擾,再進(jìn)行反卷積實(shí)現(xiàn)去模糊。Kalifa等人(2003)將小波技術(shù)融合到反卷積中,提出了一種能匹配卷積核頻域性質(zhì)的鏡像小波,通過閾值收縮來達(dá)到抑制噪聲的目的。由于非局部均值濾波具有較強(qiáng)的紋理保持和濾波能力,Chen 等人(2010)使用非局部均值濾波來減少彩色噪聲,從而在去模糊過程中更好地捕捉了模糊圖像中細(xì)膩的紋理信息。Danielyan 等人(2012)借鑒了三維圖像塊匹配濾波(block matching 3D filtering,BM3D)(Dabov 等,2007)的思想,將其應(yīng)用于圖像去模糊來濾除噪聲。

3.1.2 迭代求解模糊過程

盡管濾除噪聲有益于后續(xù)反卷積操作,但在沒有足夠先驗(yàn)信息的情況下可能會(huì)出現(xiàn)振鈴效應(yīng)(Mosleh 等,2018)或者噪聲濾波不完全的問題。因此,許多學(xué)者從迭代優(yōu)化的角度改善非盲圖像恢復(fù)效果。Lucy(1974)基于貝葉斯理論提出了Richardson-Lucy 迭代算法,利用最大似然估計(jì)對(duì)模糊圖像進(jìn)行非線性迭代,不斷優(yōu)化去模糊圖像結(jié)果。Yuan 等人(2008)提出了一種由粗到細(xì)的漸進(jìn)式反卷積方法。通過在每個(gè)尺度上迭代應(yīng)用雙邊正則化,可以恢復(fù)圖像的細(xì)節(jié)和邊緣,同時(shí)避免振鈴效應(yīng)。Krishnan 和Fergus(2009)通過迭代優(yōu)化圖像的稀疏表達(dá)來估計(jì)圖像的梯度分布,從而達(dá)到去模糊的效果。

迭代方法在很大程度上受正則化項(xiàng)的選擇影響,因此選擇適當(dāng)?shù)恼齽t化項(xiàng)可以更好地解決去模糊問題。Zoran和Weiss(2011)采用高斯混合模型對(duì)圖像塊進(jìn)行建模,利用學(xué)習(xí)得到的圖像特征作為正則項(xiàng)進(jìn)行非盲去模糊。Kheradmand 和Milanfar(2014)提出一種基于核相似度的圖像去模糊方法,通過估計(jì)相似度的權(quán)重來調(diào)整拉普拉斯正則化項(xiàng)和數(shù)據(jù)保真項(xiàng)組成的損失函數(shù)。Lanza 等人(2016)提出一種變分正則化模型,通過使用參數(shù)化正則化項(xiàng)來稀疏表達(dá)圖像梯度值,以恢復(fù)因加性高斯噪聲而損壞的圖像。Khetkeeree 和Liangrocapart(2019)設(shè)計(jì)一種基于維納濾波的正則項(xiàng),減輕了對(duì)先驗(yàn)信息的依賴,提高了去模糊圖像的質(zhì)量。

3.2 盲圖像去模糊

雖然非盲去模糊方法取得了一系列進(jìn)展,但在實(shí)際場(chǎng)景中,圖像的模糊核通常難以估計(jì),因此這類方法對(duì)于解決實(shí)際圖像去模糊問題存在一定局限性。傳統(tǒng)的盲去模糊方法先通過模糊核估計(jì),再轉(zhuǎn)變?yōu)榉敲D像去模糊問題。這兩個(gè)過程也可以迭代進(jìn)行,交替估計(jì)模糊核和清晰圖像,直到優(yōu)化到滿意的結(jié)果為止。估計(jì)模糊核常見方法有基于圖像邊緣特征(Xu 和Jia,2010;Chen 等,2019)、最大后驗(yàn)概率(Shan 等,2008;Levin 等,2011)和圖像稀疏表達(dá)(Xu等,2013)的方法。

3.2.1 基于圖像邊緣特征的方法

圖像邊緣特征是指圖像中明顯的亮度變化或顏色變化所形成的邊界或輪廓。Joshi 等人(2008)用高斯邊緣檢測(cè)器檢測(cè)到的邊緣特征來預(yù)測(cè)模糊核。然而過度強(qiáng)調(diào)邊緣并非總是有利于核估計(jì),Xu和Jia(2010)引入了一個(gè)新的指標(biāo)來衡量圖像邊緣在去模糊中的有用性,并基于該指標(biāo)對(duì)邊緣進(jìn)行梯度選擇,提高了模糊核估計(jì)的準(zhǔn)確性。Yang和Ji(2019)從變分貝葉斯推理的角度重新解釋了邊緣選擇的重要性,開發(fā)了一種內(nèi)置自適應(yīng)邊緣選擇的變分期望最大化算法,以去除圖像模糊。Chen 等人(2019)則提出了一種基于局部最大梯度先驗(yàn)的盲去模糊框架,用圖像的梯度信息來檢測(cè)邊緣,從而解決了圖像模糊處理后,局部塊最大梯度值減小的問題。

3.2.2 基于最大后驗(yàn)概率的方法

最大后驗(yàn)概率估計(jì)是一種基于貝葉斯統(tǒng)計(jì)思想的參數(shù)估計(jì)方法,通過最大化后驗(yàn)概率來選擇參數(shù)值。它結(jié)合了觀測(cè)數(shù)據(jù)和先驗(yàn)知識(shí),提供了對(duì)未知量的估計(jì)。Fergus 等人(2006)提出了在已知觀測(cè)圖像情況下,最大化原始圖像和模糊核的聯(lián)合后驗(yàn)概率,實(shí)現(xiàn)同時(shí)進(jìn)行模糊核估計(jì)和去模糊過程。Jia(2007)從物體邊界透明度與圖像運(yùn)動(dòng)模糊之間的關(guān)系出發(fā),提出了用透明度信息求解MAP 問題來估計(jì)模糊核。Shan 等人(2008)則基于MAP 準(zhǔn)則,對(duì)圖像的平滑區(qū)域和紋理區(qū)域進(jìn)行約束,通過引入逐塊連接函數(shù)來解決圖像梯度的長(zhǎng)尾分布問題,并將連接函數(shù)與局部先驗(yàn)聯(lián)合進(jìn)行圖像去模糊。而Cho 和Lee(2009)提出一種對(duì)模糊核進(jìn)行MAP 估計(jì),對(duì)模糊圖像采用稀疏表達(dá)的方法來實(shí)現(xiàn)圖像去模糊。Levin 等人(2011)在Fergus 等人(2006)的基礎(chǔ)上,對(duì)MAP 算法進(jìn)行優(yōu)化,并結(jié)合變分正則化算法對(duì)模糊圖像進(jìn)行反卷積。

3.2.3 基于圖像稀疏表達(dá)的方法

圖像稀疏表達(dá)是通過選擇適當(dāng)?shù)淖儞Q,將圖像轉(zhuǎn)換到一個(gè)稀疏表達(dá)的域中。通過稀疏表達(dá),可以將圖像的高頻和低頻部分有效地分離,并減少噪聲和偽影的產(chǎn)生(Donoho,2006)。Krishnan 等人(2011)在圖像的高頻上進(jìn)行核估計(jì),因?yàn)樗麄儼l(fā)現(xiàn)圖像的高頻部分具有稀疏性,可以用來區(qū)分清晰和模糊圖像。而Xu 等人(2013)提出一個(gè)可以用于均勻或非均勻模糊的統(tǒng)一去模糊框架,通過圖像的高稀疏性來約束由損失函數(shù)組成的正則化項(xiàng),從而實(shí)現(xiàn)了去模糊過程。譚海鵬等人(2015)對(duì)遙感圖像進(jìn)行去模糊研究,首先用濾波器進(jìn)行預(yù)處理,再結(jié)合模糊核的稀疏特性,使用正則化求解模糊核。Pan 等人(2016)用數(shù)學(xué)方法證明模糊過程會(huì)增加暗通道像素的值,因此可以利用暗通道的稀疏性來進(jìn)行盲去模糊。Yan 等人(2017)引入明通道的定義,并利用明暗通道各自的優(yōu)點(diǎn),更有效地去除圖像模糊。

4 基于深度學(xué)習(xí)的圖像去模糊

如圖1 所示,2017 年之后圖像去模糊主要采用深度學(xué)習(xí)方法,以下同樣也從非盲去模糊和盲去模糊兩方面進(jìn)行綜述。

4.1 非盲圖像去模糊

如3.1 節(jié)所述,傳統(tǒng)的非盲圖像去模糊方法(Danielyan 等,2012;Khetkeeree 和Liangrocapart,2019)大多采用線性模型進(jìn)行建模,不能很好地處理復(fù)雜先驗(yàn)分布下的圖像非盲去模糊問題。與傳統(tǒng)非盲去模糊方法不同,深度學(xué)習(xí)方法具有更強(qiáng)的非線性建模能力,能夠提取更豐富的特征表示,從而提高去模糊效果?,F(xiàn)有方法可以分為傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合(Schuler 等,2013)和純深度學(xué)習(xí)方法(Zhang等,2017;Eboli等,2020)。

4.1.1 傳統(tǒng)方法與深度學(xué)習(xí)結(jié)合的方法

與深度學(xué)習(xí)結(jié)合的首要方式是正則化。Schmidt 等人(2013)通過分析半二次正則化(half quadratic regularization,HQR)和稀疏圖像先驗(yàn),推導(dǎo)出判別級(jí)聯(lián)的回歸樹模型建模圖像去模糊問題。Schuler 等人(2013)則提出采用傅里葉域的正則化方法來恢復(fù)清晰圖像,并結(jié)合多層感知器去除偽影。Xie等人(2019)構(gòu)建一個(gè)基于全變分的深度網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠自適應(yīng)學(xué)習(xí)正則化的最佳參數(shù),從而實(shí)現(xiàn)更好的圖像去模糊效果。

然而,選擇合適的正則化項(xiàng)并非易事。因此,研究人員也嘗試從其他的角度來解決圖像非盲去模糊問題。Schmidt 和Roth(2014)將卷積層和傅里葉變換相結(jié)合,提出一種適用于圖像恢復(fù)的新型隨機(jī)場(chǎng)模型,提高了計(jì)算效率和圖像恢復(fù)質(zhì)量。Zhang 等人(2019b)設(shè)計(jì)一種深度圖像超分辨率雙立方退化模型(bicubic degradation model,BDM),通過可變分方法推導(dǎo)出即插即用算法,實(shí)現(xiàn)可以處理任意模糊核的模糊圖像?;贛AP 框架非盲去模糊方法需要定義合適的數(shù)據(jù)和正則化項(xiàng),但先前工作大多都集中推進(jìn)兩種關(guān)鍵成分之一。而Dong 等人(2021)提出在MAP 框架內(nèi)聯(lián)合學(xué)習(xí)空間變化數(shù)據(jù)和正則化項(xiàng),預(yù)測(cè)每像素的空間變化特征,而不是常用的空間均勻特征,從而改善了圖像細(xì)節(jié)的恢復(fù)。Dong 等人(2022)在多尺度級(jí)聯(lián)特征細(xì)化模塊中將維納濾波和深層卷積特征相結(jié)合,端到端訓(xùn)練圖像去模糊模型。

4.1.2 純深度學(xué)習(xí)的方法

將傳統(tǒng)方法和深度學(xué)習(xí)結(jié)合在一定程度上可以提升圖像去模糊的性能,但這類方法一般需要人工的提取特征和預(yù)處理。為了緩解這種情況,Zhang等人(2017)直接采用CNN 模型進(jìn)行端到端去模糊,取得了較好的效果。Vasu 等人(2018)利用深度CNN 去除核估計(jì)中存在的偽影,并增強(qiáng)圖像細(xì)節(jié),實(shí)現(xiàn)了非盲圖像去模糊。受傳統(tǒng)的從粗到細(xì)的方法啟發(fā),Zhou 等人(2020)采取多尺度策略對(duì)輸入圖像進(jìn)行處理,將低級(jí)信息和高級(jí)語義信息集成,有效提取了圖像特征,從而提高了圖像去模糊性能。而Eboli 等人(2020)將模糊和清晰圖像先驗(yàn)核的逆濾波器作為預(yù)訓(xùn)練條件,并將其嵌入到CNN 模型中來學(xué)習(xí)定點(diǎn)迭代算法中的參數(shù),解決了圖像去模糊過程中出現(xiàn)的最小二乘問題。Kim 等人(2022)采用多尺度失真先驗(yàn)?zāi)P?,在恢?fù)圖像過程中利用參考模糊圖像的空間信息去模糊。Quan 等人(2023)利用不同大小的散焦核之間的強(qiáng)相關(guān)性,提出一種處理散焦模糊的去模糊算法。

4.2 盲圖像去模糊

近年來,基于深度學(xué)習(xí)的圖像盲去模糊技術(shù)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的關(guān)注(Sun 等,2015;Zhang 等,2020a)。相比傳統(tǒng)方法,基于深度學(xué)習(xí)的方法直接對(duì)模糊圖像進(jìn)行去模糊處理,無需對(duì)模糊程度進(jìn)行估計(jì)。下面分別從CNN(Nah 等,2017;Cho等,2021)、RNN(Zhang 等,2018;Gao 等,2019)、GAN(Kupyn 等,2018)和Transformer(Wang 等,2022;Zamir 等,2022)等4 個(gè)方面對(duì)盲圖像去模糊進(jìn)行介紹。

4.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的方法

基于卷積神經(jīng)網(wǎng)絡(luò)的盲去模糊方法,通過多層卷積和池化操作,能夠自動(dòng)學(xué)習(xí)圖像或模糊核的特征,生成清晰圖像(Schuler 等,2016)。Sun 等人(2015)首次將CNN 引入到盲去模糊領(lǐng)域,采用CNN來預(yù)測(cè)圖像塊水平運(yùn)動(dòng)模糊核的概率分布。Schuler等人(2016)則利用由粗到細(xì)的建模思想,在CNN 中設(shè)計(jì)可學(xué)習(xí)層來提取局部圖像特征進(jìn)行核估計(jì)。然而,在未知的模糊核很大的情況下,上述方法表現(xiàn)并不理想。Chakrabarti(2016)采用多分辨率頻率分解方法來編碼輸入塊。他們通過頻率的局部性調(diào)整初始網(wǎng)絡(luò)層的連接方式,使得訓(xùn)練得到的網(wǎng)絡(luò)能夠估計(jì)較大的模糊核。Gong 等人(2017)利用圖像上下文信息,訓(xùn)練了一個(gè)全卷積深度神經(jīng)網(wǎng)絡(luò)來直接估計(jì)模糊核的運(yùn)動(dòng)流。Xu 等人(2018)受到模糊圖像邊緣預(yù)測(cè)方法的啟發(fā),提出用CNN 模型對(duì)模糊圖像提取主要結(jié)構(gòu)信息,并對(duì)其進(jìn)行增強(qiáng)處理,來估計(jì)模糊核。Nan 和Ji(2020)使用最小二乘估計(jì)器來優(yōu)化模糊核估計(jì)中的誤差問題,提高了模糊核估計(jì)的準(zhǔn)確率。傳統(tǒng)的基于MAP 方法對(duì)于先驗(yàn)知識(shí)的依賴性較強(qiáng),不能很好表征出原始圖像信息。為此,Ren等人(2020)將MAP 和深度模型結(jié)合,用具有跳躍連接的非對(duì)稱自編碼器網(wǎng)絡(luò)生成潛在清晰圖像,而用全連接網(wǎng)絡(luò)生成模糊核。Tang 等人(2023)利用未經(jīng)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)來表達(dá)模糊核的殘差,提出了一種無監(jiān)督的半盲去模糊模型。Fang 等人(2023)提出一種基于隱空間先驗(yàn)非均勻模糊核估計(jì)方法,利用標(biāo)準(zhǔn)化流動(dòng)模型將運(yùn)動(dòng)模糊核空間映射為高斯分布空間,在圖像隱空間內(nèi)估計(jì)模糊核。

上述方法主要通過模糊核估計(jì)再進(jìn)行去模糊,而CNN 可通過大量的模糊圖像和對(duì)應(yīng)的清晰圖像,學(xué)習(xí)到模糊圖像和清晰圖像之間的映射關(guān)系,從而避免了模糊核估計(jì)帶來的誤差。Nah 等人(2017)和Nimish等人(2017)采用端到端方式訓(xùn)練了一個(gè)深層的CNN 模型,可直接從模糊的輸入中重建高質(zhì)量的圖像。Dong 等人(2019)利用自然圖像的多尺度冗余特性,設(shè)計(jì)了一種基于CNN 模型的去噪器,去除圖像模糊。通過在多個(gè)尺度上進(jìn)行去模糊處理,可以更好地保留圖像的細(xì)節(jié)和結(jié)構(gòu)信息。針對(duì)此問題,Zhang等人(2019a)設(shè)計(jì)一個(gè)多尺度損失函數(shù),并采用空間金字塔從粗到精地逐步恢復(fù)清晰圖像。Cho 等人(2021)則重新審視從粗到細(xì)的結(jié)構(gòu),提出了多輸入多輸出網(wǎng)絡(luò)(multi-input multi-output UNet,MIMO-UNet)。該網(wǎng)絡(luò)利用單個(gè)編碼器接受多尺度輸入圖像,并使用單個(gè)解碼器輸出不同比例的去模糊圖像。通過引入非對(duì)稱特征融合機(jī)制改進(jìn)了去模糊效果。Zamir 等人(2021)采用編解碼網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)多尺度上下文信息,并利用解碼端輸出具有高分辨率的特點(diǎn),恢復(fù)了更多圖像細(xì)節(jié)信息,進(jìn)一步提高了去模糊效果。

4.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法

循環(huán)神經(jīng)網(wǎng)絡(luò)是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。在圖像盲去模糊中,RNN 通過對(duì)區(qū)塊特征信息進(jìn)行遞歸循環(huán)操作,將之前區(qū)塊的狀態(tài)信息傳遞給當(dāng)前區(qū)塊,從而學(xué)習(xí)不同區(qū)塊數(shù)據(jù)之間的關(guān)系,實(shí)現(xiàn)去模糊過程(Zhang 等,2018)。Zhang 等人(2018)利用RNN 的空間可變性隱式模擬去模糊過程,RNN 模型在時(shí)間和空間維度上進(jìn)行循環(huán)計(jì)算,逐步恢復(fù)圖像的細(xì)節(jié)和結(jié)構(gòu)。Tao 等人(2018)提出多尺度循環(huán)去模糊網(wǎng)絡(luò),在不同尺度上共享網(wǎng)絡(luò)權(quán)重,顯著降低了訓(xùn)練復(fù)雜度。同時(shí),通過循環(huán)模塊的狀態(tài)傳遞從而獲得各尺度上的有用信息,有助于圖像恢復(fù)。Gao 等人(2019)關(guān)注到圖像特征的尺度變化特性,在Tao 等人(2018)的基礎(chǔ)上提出參數(shù)選擇性共享方法來恢復(fù)圖像細(xì)節(jié)。因?yàn)槎喑叨忍崛D像特征參數(shù)量較大,Park 等人(2020)采用多時(shí)態(tài)代替多尺度的方法,通過將圖像分成多個(gè)小塊模糊塊,逐步處理原始尺度中這些模糊塊來進(jìn)行圖像去模糊,從而減少了模型參數(shù)量。而Zhang 等人(2020b)則提出一種兩階段混合去模糊網(wǎng)絡(luò),用于去除真實(shí)的運(yùn)動(dòng)模糊。在第1 階段,使用循環(huán)編解碼網(wǎng)絡(luò)來生成循環(huán)事件。在第2 階段,將模糊圖像與此循環(huán)事件連接起來作為輸入,從精到粗的逐步恢復(fù)模糊圖像。

4.2.3 基于生成對(duì)抗網(wǎng)絡(luò)的方法

生成對(duì)抗網(wǎng)絡(luò)是一種由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成的框架,包括生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)。在圖像去模糊任務(wù)中,生成器網(wǎng)絡(luò)將模糊圖像作為輸入,清晰圖像作為輸出。判別器網(wǎng)絡(luò)則用來判斷生成器網(wǎng)絡(luò)輸出的圖像是否與真實(shí)圖像一致。整個(gè)訓(xùn)練過程通過生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)相互對(duì)抗來優(yōu)化模型參數(shù)(Kupyn等,2018)。Kupyn等人(2018)設(shè)計(jì)了一種基于生成對(duì)抗網(wǎng)絡(luò)的單尺度去模糊網(wǎng)絡(luò)Deblur-GAN。其中生成器網(wǎng)絡(luò)采用殘差模塊和卷積網(wǎng)絡(luò)進(jìn)行去模糊,而判別器網(wǎng)絡(luò)則采用馬爾可夫判別器進(jìn)行鑒別生成圖像。然而,該方法可能會(huì)出現(xiàn)梯度消失或爆炸的情況。Kupyn 等人(2019)提出了DeblurGANv2,將特征金字塔引入到生成器網(wǎng)絡(luò),而判別器網(wǎng)絡(luò)采用可以評(píng)估圖像全局和局部特征的相對(duì)論判別器,從而避免了梯度消失或爆炸的問題。Lu 等人(2020)所采用的生成器網(wǎng)絡(luò)包含兩個(gè)編碼器,其中內(nèi)容編碼器提取清晰和模糊圖像的內(nèi)容特征,而模糊編碼器提取模糊信息。通過對(duì)抗性損失和周期一致性損失作為正則化器,來幫助生成器網(wǎng)絡(luò)產(chǎn)生清晰圖像。Zhang 等人(2020a)結(jié)合了兩種GAN 模型,即模糊GAN 和去模糊GAN,旨在減少真實(shí)模糊和合成模糊之間的差異。他們通過學(xué)習(xí)圖像模糊過程來實(shí)現(xiàn)圖像去模糊。Yang 等人(2021)利用深度神經(jīng)網(wǎng)絡(luò)的深層和淺層特征來生成GAN 的潛空間映射特征和噪聲,以恢復(fù)模糊圖像的全局結(jié)構(gòu)和局部細(xì)節(jié)。大多數(shù)現(xiàn)有方法都是直接端到端生成清晰圖像,并沒有進(jìn)行模糊核估計(jì)。而Li 等人(2021)訓(xùn)練了一個(gè)模糊核判別器網(wǎng)絡(luò),用于分析生成的模糊核圖像,并檢測(cè)生成器提供不正確模糊核時(shí)可能出現(xiàn)的錯(cuò)誤情況。

4.2.4 基于Transformer的方法

Transformer 模型是一種基于自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。自注意力機(jī)制有助于模型在處理序列時(shí)學(xué)習(xí)到不同位置之間的依賴關(guān)系,而前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地捕捉到局部信息和非線性關(guān)系(Liu 等,2021)。Zamir 等人(2022)提出了Restormer 模型,將Transformer 應(yīng)用到圖像去模糊任務(wù)。他們通過編解碼網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)圖像多尺度的局部和全局特征學(xué)習(xí),更高效地處理圖像的去模糊問題。Wang 等人(2022)認(rèn)為全局自注意力機(jī)制會(huì)增加計(jì)算復(fù)雜度,因此提出了局部增強(qiáng)窗口(locally-enhanced window,LeWin)Transformer 模塊,更好地捕獲局部上下文。同時(shí),將LeWin 模塊應(yīng)用在圖像多尺度恢復(fù)框架中,利用獲得的全局和局部信息來進(jìn)行圖像恢復(fù)。Kong 等人(2023)利用頻率前饋網(wǎng)絡(luò)來確定保留圖像中低頻還是高頻部分,從而解決了Transformer中使用前饋網(wǎng)絡(luò)去模糊效果不佳的問題。Yan 等人(2023)提出Sharpformer 模型,通過Transformer模塊直接學(xué)習(xí)圖像全局特征和自適應(yīng)局部特征,實(shí)現(xiàn)去除運(yùn)動(dòng)模糊。因?yàn)榫矸e操作有利于提取局部信息,而自注意力機(jī)制更側(cè)重于提取全局信息。因此Zhao(2023)設(shè)計(jì)并行的CNN 和Transformer 網(wǎng)絡(luò)架構(gòu),同時(shí)提取全局和局部圖像特征進(jìn)行圖像去模糊。

5 圖像去模糊的數(shù)據(jù)集和性能評(píng)估

5.1 數(shù)據(jù)集

圖像去模糊算法使用的數(shù)據(jù)集主要分為合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集。合成數(shù)據(jù)集是通過人工定義的模糊過程來生成模糊圖像(Levin 等,2009;Nah 等,2017)。模糊過程可以是模糊核與清晰圖像進(jìn)行卷積或者其他模糊方式。這些數(shù)據(jù)集通??梢蕴峁┠:龍D像和對(duì)應(yīng)的清晰圖像對(duì),方便用于訓(xùn)練和評(píng)估算法的性能。而真實(shí)數(shù)據(jù)集包含真實(shí)世界中的模糊圖像(Rim 等,2020;Jiang 等,2020)。這些圖像通常是由于相機(jī)晃動(dòng)、手持拍攝或其他因素導(dǎo)致的模糊圖像。這些數(shù)據(jù)集能夠更好地模擬實(shí)際場(chǎng)景中的圖像模糊情況,對(duì)算法的魯棒性提出更高的要求。表1詳細(xì)列出了圖像去模糊數(shù)據(jù)集的信息。

表1 圖像去模糊數(shù)據(jù)集Table 1 Image deblurring datasets

5.1.1 合成數(shù)據(jù)集

較早提出的合成數(shù)據(jù)集主要采用清晰圖像與模糊核卷積的方法生成模糊圖像。Levin 等人(2009)使用4 幅 255×255 像素的清晰圖像和8 個(gè)均勻模糊核進(jìn)行卷積,構(gòu)建一個(gè)包含32 幅模糊圖像的數(shù)據(jù)集。但是Levin 等人(2009)的測(cè)試圖像分辨率固定在 255×255 像素,且由于圖像數(shù)據(jù)較少而缺乏多樣性。Sun 等人(2013)通過將Sun 和Hays(2012)的80 幅高質(zhì)量自然圖像和Levin 等人(2009)的8 個(gè)均勻模糊核進(jìn)行卷積,最終生成640 幅模糊圖像。然而,上述數(shù)據(jù)集都假設(shè)模糊核為均勻模糊,因此在該數(shù)據(jù)集上訓(xùn)練得到的去模糊模型難以有效解決非均勻模糊核的去模糊問題。為了模擬非均勻模糊效果,K?hler 等人(2012)記錄了6D 相機(jī)隨時(shí)間的變化軌跡,并通過在機(jī)器人平臺(tái)上重新播放相機(jī)的運(yùn)動(dòng)來生成模糊圖像。他們使用4幅清晰圖像和12幅攝像機(jī)運(yùn)動(dòng)軌跡圖像進(jìn)行合成,構(gòu)建了一個(gè)包含48 幅非均勻模糊圖像的數(shù)據(jù)集。Lai 等人(2016)提供兩個(gè)大型數(shù)據(jù)集。其中一個(gè)數(shù)據(jù)集是在不同場(chǎng)景下拍攝的100 幅真實(shí)模糊圖像;另外一個(gè)數(shù)據(jù)集則包含了200 幅合成的模糊圖像,其中包括非均勻模糊圖像和均勻模糊圖像。

為了生成更真實(shí)的模糊圖像,Nah 等人(2017)使用高速攝像頭GOPRO 來快速拍攝一系列清晰圖像,通過對(duì)這些間隔時(shí)間極短的圖像進(jìn)行求平均的方式來得到模糊圖像,最終得到GoPro 數(shù)據(jù)集。該數(shù)據(jù)集包含2 103 對(duì)訓(xùn)練圖像和1 111 對(duì)測(cè)試圖像。Shen 等人(2019)建立一個(gè)運(yùn)動(dòng)模糊數(shù)據(jù)集HIDE(human-aware motion deblurring)。該數(shù)據(jù)集通過平均視頻中的11 個(gè)連續(xù)幀來合成模糊圖像,并將中心幀作為清晰圖像。HIDE 數(shù)據(jù)集包含8 422 幅圖像對(duì),分為6 397對(duì)訓(xùn)練圖像和2 025對(duì)測(cè)試圖像。

5.1.2 真實(shí)數(shù)據(jù)集

上述數(shù)據(jù)集的圖像主要通過人工合成而形成的模糊圖像,對(duì)于去模糊模型在實(shí)際生活中的應(yīng)用存在一定的局限性。Rim等人(2020)提出一個(gè)真實(shí)世界模糊圖像數(shù)據(jù)集RealBlur。該數(shù)據(jù)集由兩個(gè)子集組成,一個(gè)子集是RealBlur-R,它由相機(jī)原始圖像組成;另一個(gè)子集是RealBlur-J,它由相機(jī)處理后的JPEG 圖像組成。該數(shù)據(jù)集共包含9 476 對(duì)圖像。Jiang 等人(2020)使用DAVIS240C 相機(jī)捕獲一個(gè)大型戶外數(shù)據(jù)集Blur-DVS,包含1 782 對(duì)訓(xùn)練圖像和396 對(duì)測(cè)試圖像,同時(shí)還提供740 幅真實(shí)的模糊圖像。另外,Li 等人(2023)創(chuàng)建一個(gè)真實(shí)世界局部運(yùn)動(dòng)模糊數(shù)據(jù)集ReLoBlur(real-world local motion deblurring),該數(shù)據(jù)集真實(shí)地展示了局部運(yùn)動(dòng)物體自身和背景產(chǎn)生的混疊效應(yīng),其中包含2 010對(duì)訓(xùn)練圖像和395對(duì)測(cè)試圖像。

5.2 定量評(píng)估

為了更準(zhǔn)確地評(píng)估和分析圖像去模糊任務(wù)中具有代表性的算法模型的性能,采用了第2.2.1 節(jié)中所介紹的PSNR 和SSIM 兩個(gè)評(píng)價(jià)指標(biāo)進(jìn)行衡量。PSNR 通過計(jì)算原始圖像與重建圖像之間的均方差來衡量圖像之間的差異。而SSIM 通過加權(quán)平均圖像的亮度、對(duì)比度和結(jié)構(gòu)相似度來衡量圖像之間的相似性。

PSNR 越高,表示去模糊圖像的質(zhì)量越好。SSIM的取值范圍為0到1之間,越接近1表示圖像結(jié)構(gòu)相似度越高,重建圖像質(zhì)量越好。通過綜合考慮PSNR 和SSIM 這兩個(gè)評(píng)價(jià)指標(biāo),能夠全面評(píng)估圖像的清晰度、細(xì)節(jié)保留能力和對(duì)比度等方面的表現(xiàn)。表2和表3中的實(shí)驗(yàn)結(jié)果是從調(diào)研的論文中獲取。

表2 傳統(tǒng)圖像去模糊方法在Levin和Lai數(shù)據(jù)集上的性能Table 2 Performance of traditional image deblurring methods on Levin and Lai datasets

表3 基于深度學(xué)習(xí)圖像去模糊方法在GoPro和HIDE數(shù)據(jù)集上的性能Table 3 Performance of some deep learning-based image deblurring methods on GoPro and HIDE datasets

5.2.1 傳統(tǒng)圖像去模糊算法性能分析

由于傳統(tǒng)的圖像非盲去模糊大多針對(duì)單個(gè)標(biāo)準(zhǔn)圖像進(jìn)行定性分析,而不是在數(shù)據(jù)集上進(jìn)行定量分析。實(shí)驗(yàn)主要在早期被廣泛認(rèn)同的Levin 數(shù)據(jù)集(Levin 等,2009)和Lai 數(shù)據(jù)集(Lai 等,2016)上開展。Levin 數(shù)據(jù)集是一個(gè)模糊核為均勻模糊的合成數(shù)據(jù)集,而Lai數(shù)據(jù)集則包含真實(shí)圖像和合成圖像兩種類型的數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如表2所示。

從表2 可以看出,非盲去模糊算法(Krishnan和Fergus,2009)在PSNR 和SSIM 值上高于傳統(tǒng)盲去模糊算法(Cho 和Lee,2009;Levin 等,2009)。這是因?yàn)榉敲とツ:僭O(shè)模糊核已知,而盲去模糊需要對(duì)模糊核進(jìn)行估計(jì)。一旦對(duì)模糊核估計(jì)不準(zhǔn)確,將導(dǎo)致最終去模糊效果較差。為改善此問題,研究人員發(fā)現(xiàn)圖像邊緣信息有利于模糊核估計(jì)。Xu 和Jia(2010)提出對(duì)圖像邊緣信息進(jìn)行梯度選擇,提高了模糊核估計(jì)準(zhǔn)確性。在兩個(gè)數(shù)據(jù)集上都取得明顯的性能提升,表明邊緣特征提取有益于圖像去模糊?;谶吘壧卣魈崛〉囊幌盗懈倪M(jìn)算法(Sun 等,2013;Yang 和Ji,2019),從表2 中可以看出,其性能均有不同程度的提升。其中Sun 等人(2013)的方法在Levin 數(shù)據(jù)集上達(dá)到了傳統(tǒng)方法的最優(yōu)效果。

基于MAP 的方法(Chen 等,2019;Ren 等,2020)通過最大化原始圖像和模糊核的聯(lián)合后驗(yàn)概率,對(duì)模糊圖像進(jìn)行估計(jì)。兩個(gè)算法在Levin 數(shù)據(jù)集上的PSNR 和SSIM 與Sun 等人(2013)方法不相上下,但在Lai數(shù)據(jù)集上明顯優(yōu)于Sun等人(2013)方法。

基于圖像稀疏表達(dá)的方法(Xu等,2013;Pan 等,2016)將圖像的高頻和低頻部分分離,可以有效地減少噪聲和偽影的產(chǎn)生。雖然其性能指標(biāo)略差于Sun等人(2013)方法,但比之前的方法有一定程度的提升。

因?yàn)長(zhǎng)evin 數(shù)據(jù)集中的模糊圖像都是經(jīng)過均勻模糊處理后的合成圖像,而Lai數(shù)據(jù)集則包含真實(shí)圖像和合成圖像。因此,在表2 的實(shí)驗(yàn)結(jié)果中可以看出,所有方法在Levin 數(shù)據(jù)集上的表現(xiàn)優(yōu)于在Lai 數(shù)據(jù)集上的表現(xiàn)。盡管在Levin 數(shù)據(jù)集上能夠呈現(xiàn)較好的實(shí)驗(yàn)效果,但實(shí)際情況下,圖像模糊往往是非均勻的,因此模型的實(shí)用性存在一定局限性。此外,現(xiàn)有傳統(tǒng)方法大多主要針對(duì)特定失真,無法解決Lai數(shù)據(jù)集中的多種失真情況,這導(dǎo)致模型的泛化能力受到限制。

5.2.2 基于深度學(xué)習(xí)的圖像去模糊算法性能分析

基于深度學(xué)習(xí)的方法通常需要數(shù)據(jù)集具有多樣性,以確保模型能夠處理各種不同的模糊情況,并展現(xiàn)出更好的泛化能力。實(shí)驗(yàn)主要在合成數(shù)據(jù)集GoPro 數(shù)據(jù)集(Nah 等,2017)、HIDE 數(shù)據(jù)集(Shen 等,2019)以及真實(shí)數(shù)據(jù)集RealBlur 數(shù)據(jù)集(Rim 等,2020)上開展。GoPro 數(shù)據(jù)集和HIDE 數(shù)據(jù)集是常見的圖像去模糊合成數(shù)據(jù)集,它們通過平均視頻中連續(xù)幀來合成模糊。RealBlur 數(shù)據(jù)集包含由相機(jī)原始圖像組成RealBlur-R 和相機(jī)處理后的JPEG 圖像組成RealBlur-J。實(shí)驗(yàn)結(jié)果如表3所示。

Sun 等人(2015)較早將CNN 應(yīng)用在圖像去模糊領(lǐng)域。盡管其在GoPro 和HIDE 數(shù)據(jù)上的效果并不突出,但展現(xiàn)了深度學(xué)習(xí)在圖像去模糊領(lǐng)域的巨大潛力。后續(xù)研究中,DeepDeblur和DMPHN對(duì)骨干網(wǎng)絡(luò)進(jìn)行改進(jìn)。與Sun 等人(2015)方法相比,它們?cè)诤铣蓴?shù)據(jù)集上的PSNR 和SSIM 都取得了顯著提升,尤其是DMPHN 在HIDE 數(shù)據(jù)集上顯示出較好的性能。隨著深度學(xué)習(xí)快速發(fā)展,端到端的去模糊方法MPRNet(multi-stage progressive image restoration network)和MIMO-Unet 在合成數(shù)據(jù)集上表現(xiàn)出色,其PSNR 超過了30 dB。此外,在真實(shí)數(shù)據(jù)集RealBlur上也展現(xiàn)出令人滿意的效果。

從表3 可以看出,基于RNN 的SRN 和DSD(dynamic scene deblurring)方法相比同一時(shí)段提出的方法,在合成模糊和真實(shí)模糊上都表現(xiàn)出非常好的性能,其PSNR和SSIM指標(biāo)都高于其他方法。

基于GAN 設(shè)計(jì)的DeblurGan 方法雖然在合成數(shù)據(jù)集上的性能指標(biāo)略遜于DeepDeblur,但在Real-Blur 數(shù)據(jù)集上表現(xiàn)更優(yōu)。而且其改進(jìn)算法DeblurGan-v2和DBGAN(DeBlur GAN)的性能在2個(gè)合成數(shù)據(jù)集上的PSNR 和SSIM 與基于RNN 的方法不相上下,但在RealBlur數(shù)據(jù)集上表現(xiàn)欠缺。

Transformer 模型能夠建立全局依賴關(guān)系,并有效地捕捉到整個(gè)圖像的上下文信息。因此,近期提出的Restormer、FSAS(frequency-domain-based selfattention solver)和CTMS 等算法都是基于Transformer 模型。在GoPro 數(shù)據(jù)集上,它們的PSNR 和SSIM指標(biāo)都分別達(dá)到了32 dB和0.96,在HIDE數(shù)據(jù)集上,也遠(yuǎn)超其他算法。即便在真實(shí)數(shù)據(jù)集Real-Blur 上,也表現(xiàn)出優(yōu)秀的實(shí)驗(yàn)效果,進(jìn)一步展現(xiàn)了Transformer模型在圖像去模糊領(lǐng)域具有巨大潛力。

5.3 定性評(píng)估

圖3 和圖4 分別展示了傳統(tǒng)方法和基于深度學(xué)習(xí)方法在圖像去模糊任務(wù)上的可視化結(jié)果,并選擇了兩個(gè)代表性的場(chǎng)景以展示不同去模糊算法之間的差異。

圖3 傳統(tǒng)方法定性比較結(jié)果(Yang和Ji,2019)Fig.3 Qualitative comparisons of traditional methods(Yang and Ji,2019)((a)blurred images;(b)Cho and Lee(2009);(c)Xu and Jia(2010);(d)Xu et al.(2013);(e)Yang and Ji(2019))

圖4 深度學(xué)習(xí)方法定性比較結(jié)果(Zhao等,2023)Fig.4 Qualitative comparisons of deep learning methods(Zhao et al.,2023)((a)blurred images;(b)reference images;(c)DeepDeblur;(d)SRN;(e)DBGAN;(f)MPRNet;(g)CTMS)

圖3 展示了傳統(tǒng)圖像去模糊方法的可視化結(jié)果(Yang 和Ji,2019)。盡管各個(gè)算法采用了不同的方法,但在圖像去模糊上均呈現(xiàn)出令人滿意的效果。其中,基于圖像邊緣特征去除圖像模糊的方法(Xu和Jia,2010;Yang 和Ji,2019)更注重保留圖像的紋理細(xì)節(jié);基于最大后驗(yàn)概率的方法(Cho 和Lee,2009)通過引入正則化項(xiàng)成功地避免了圖像過度銳化和噪聲放大等問題;而基于圖像稀疏表達(dá)的方法(Xu 等,2013)能有效地分離圖像的高頻和低頻部分,從而減少了噪聲和偽影的產(chǎn)生。

基于深度學(xué)習(xí)的圖像去模糊方法可視化結(jié)果如圖4 所示(Zhao 等,2023)。通過對(duì)比以下幾種不同的方法:基于CNN 的Deepdeblur(Nah 等,2017)和MPRNet(Zamir等,2021)方法,基于RNN的SRN(Tao等,2018)方法,基于GAN 的DBGAN(Zhang 等,2020a)方法和基于Transformer 的CTMS(Zhao 等,2023)方法,可以觀察到,不僅模型架構(gòu)不同對(duì)去模糊結(jié)果會(huì)產(chǎn)生影響,即使采用相似網(wǎng)絡(luò)結(jié)構(gòu)的方法,如Deepdeblur 和MPRNet,也會(huì)產(chǎn)生不同的結(jié)果。值得特別關(guān)注的是,基于Transformer 的CTMS 方法在圖像去模糊的效果上表現(xiàn)最為出色。

5.4 運(yùn)行效率

在基于深度學(xué)習(xí)的圖像去模糊算法中,通常選取平均運(yùn)行時(shí)間和模型參數(shù)量作為衡量模型效率的重要指標(biāo)(Cho 等,2021)。選取了不同網(wǎng)絡(luò)架構(gòu)中具有代表性的算法,并統(tǒng)計(jì)它們?cè)贕oPro 數(shù)據(jù)集測(cè)試集上完成圖像去模糊所需的平均運(yùn)行時(shí)間和模型參數(shù)量,結(jié)果如表4 所示。結(jié)果表明,大部分算法的平均運(yùn)行時(shí)間都在1 s內(nèi),但部分模型的參數(shù)量相對(duì)較大。因此,選擇算法時(shí)需要綜合考慮這兩個(gè)指標(biāo),以確保模型在實(shí)際應(yīng)用中能夠取得良好的性能表現(xiàn)并滿足資源消耗的限制。但是如何平衡平均運(yùn)行時(shí)間和模型參數(shù)量仍需要進(jìn)一步的研究和探索,以提高圖像去模糊算法的效率和性能。

表4 不同算法的運(yùn)行效率Table 4 Running efficiency of representative methods

6 結(jié)語

傳統(tǒng)的圖像去模糊方法從去噪、迭代優(yōu)化、圖像邊緣信息和稀疏表達(dá)等方面展開研究,提出了許多優(yōu)秀的算法。然而,這些傳統(tǒng)方法需要人工選擇特征,并且大多針對(duì)某種情況下的模糊,因此其泛化能力受到一定限制。而隨著深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,基于深度學(xué)習(xí)的各類圖像去模糊算法不斷涌現(xiàn),不僅在性能上逐漸超越了傳統(tǒng)方法,而且能夠更好地適應(yīng)各種模糊環(huán)境。

盡管深度學(xué)習(xí)方法在圖像去模糊領(lǐng)域取得了巨大進(jìn)展,但仍存在一些嚴(yán)峻挑戰(zhàn)和難題:

1)全面的評(píng)估指標(biāo)。目前在圖像去模糊領(lǐng)域中最廣泛使用的評(píng)價(jià)指標(biāo)是PSNR 和SSIM。PNSR 僅衡量恢復(fù)圖像和原始圖像之間的均方誤差,無法反映圖像細(xì)節(jié)和清晰度等方面的質(zhì)量。同時(shí),PSNR對(duì)于人眼感知不敏感,可能導(dǎo)致PSNR 高但視覺效果差的情況。而SSIM 雖然可以反映圖像的結(jié)構(gòu)信息和視覺質(zhì)量,但對(duì)于圖像亮度和對(duì)比度的變化并不敏感。因此,在評(píng)估模型時(shí),需要考慮基于人眼視覺特性的感知質(zhì)量評(píng)價(jià)指標(biāo)。然而,這需要大量的主觀評(píng)價(jià)數(shù)據(jù)和人力資源,并且還會(huì)受評(píng)價(jià)者個(gè)體差異影響。因此,要獲得與人眼視覺特性相一致的評(píng)價(jià)指標(biāo)仍面臨挑戰(zhàn)。

2)模型的泛化性和數(shù)據(jù)集。在圖像去模糊領(lǐng)域,模型需要具備處理各種復(fù)雜模糊情況的能力,包括散焦模糊、高斯模糊和運(yùn)動(dòng)模糊等。但是,由于這些模糊成因的復(fù)雜性,訓(xùn)練出能夠應(yīng)對(duì)所有情況的模型是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。同時(shí),去模糊數(shù)據(jù)集通常需要大量的真實(shí)圖像和對(duì)應(yīng)的模糊圖像,以便訓(xùn)練出能夠?qū)Ω鞣N不同模糊情況進(jìn)行處理的模型。但是,由于獲取真實(shí)圖像和對(duì)應(yīng)的模糊圖像需要大量的時(shí)間和人力成本。因此,構(gòu)建大量高質(zhì)量的數(shù)據(jù)集也是一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)。

3)模型的效率問題。由于現(xiàn)在移動(dòng)拍攝設(shè)備捕獲的圖像具有超高分辨率,但很多圖像去模糊模型在處理高分辨率圖像時(shí)表現(xiàn)不佳或者需要長(zhǎng)時(shí)間的計(jì)算,使得在實(shí)際應(yīng)用中帶來了困擾。盡管基于深度學(xué)習(xí)的圖像去模糊方法相對(duì)傳統(tǒng)方法有更好的性能,但也伴隨著參數(shù)量大的問題。因此,如何開發(fā)出高效的輕量化去模糊算法還需要付出大量的努力。

圖像去模糊技術(shù)至今仍面臨眾多挑戰(zhàn),需要不斷研究與改進(jìn),從而提升其質(zhì)量和應(yīng)用領(lǐng)域的廣度。同時(shí),綜合考慮評(píng)估指標(biāo)、模型的泛化能力、數(shù)據(jù)的多樣性和數(shù)量等因素,能更好地在實(shí)際中應(yīng)用圖像去模糊技術(shù)。

猜你喜歡
卷積深度圖像
改進(jìn)的LapSRN遙感圖像超分辨重建
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
深度理解一元一次方程
有趣的圖像詩
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
深度觀察
深度觀察
深度觀察
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
伊宁县| 宝清县| 陕西省| 尼木县| 来凤县| 盖州市| 广灵县| 安陆市| 陕西省| 中超| 缙云县| 慈利县| 蒲江县| 兰州市| 乌苏市| 彰化县| 准格尔旗| 高唐县| 新密市| 道孚县| 三亚市| 屯昌县| 霍山县| 壶关县| 彩票| 黄陵县| 丹江口市| 广德县| 沙雅县| 桑植县| 乌审旗| 牟定县| 周宁县| 西吉县| 汪清县| 荆门市| 崇信县| 且末县| 报价| 类乌齐县| 孟村|