国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)多聚焦圖像融合方法綜述

2023-02-18 06:33:12王磊齊爭(zhēng)爭(zhēng)劉羽
中國圖象圖形學(xué)報(bào) 2023年1期
關(guān)鍵詞:邊界像素卷積

王磊,齊爭(zhēng)爭(zhēng),劉羽,2*

1.合肥工業(yè)大學(xué)生物醫(yī)學(xué)工程系,合肥 230009;2.合肥工業(yè)大學(xué)測(cè)量理論與精密儀器安徽省重點(diǎn)實(shí)驗(yàn)室,合肥 230009

0 引 言

受限于光學(xué)鏡頭的有限景深,成像裝置有時(shí)無法實(shí)現(xiàn)同一場(chǎng)景中所有物體或區(qū)域的清晰聚焦成像,導(dǎo)致景深范圍外的場(chǎng)景內(nèi)容出現(xiàn)散焦模糊現(xiàn)象(Liu等,2020)。為解決上述問題,多聚焦圖像融合(multi-focus image fusion,MFIF)技術(shù)提供了一種有效途徑,通過綜合同一場(chǎng)景下多幅部分聚焦圖像包含的互補(bǔ)信息,生成一幅全聚焦(all-in-focus)融合圖像,以更加適合人類觀察或計(jì)算機(jī)處理,在數(shù)碼攝影、顯微成像、全息成像和集成成像等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。多聚焦圖像融合的研究可以追溯到20世紀(jì)80年代,近40年來提出了數(shù)以百計(jì)的融合方法。傳統(tǒng)MFIF方法一般分為基于變換域的方法和基于空間域的方法兩類(Liu等,2020)。

基于變換域的方法主要包括3個(gè)步驟,即圖像分解(變換)、系數(shù)融合和圖像重構(gòu)(逆變換)。首先,利用某種圖像表示模型將源圖像轉(zhuǎn)換到變換域,得到變換系數(shù);然后,通過設(shè)計(jì)的融合策略對(duì)變換系數(shù)進(jìn)行融合處理;最后,對(duì)融合后的系數(shù)進(jìn)行相應(yīng)的逆變換重構(gòu)得到融合圖像。根據(jù)圖像表示模型的不同,變換域方法可以進(jìn)一步分為基于多尺度變換的方法(Burt和Adelson,1985;Li等,1995,2013a;Lewis等,2007;Yang等,2007;Zhang和Guo,2009;殷明等,2016)、基于稀疏表示的方法(Yang和Li,2010;Jiang和Wang,2014;Liu和Wang,2015;Liu等,2016)、基于梯度域的方法(Sun等,2013;Zhou等,2014)、基于其他變換的方法(Mitianoudis和Stathaki,2007;Liang等,2012)以及基于混合變換的方法(Li和Yang,2008a;Liu等,2015a;Zhu等,2018;楊培 等,2021)等。

基于空間域的方法直接在圖像空間域中對(duì)源圖像進(jìn)行處理和融合。在該類方法中,通常首先在空間域中提取相關(guān)特征來度量源圖像的活躍程度(activity level),然后根據(jù)計(jì)算出的活躍程度使用某種融合規(guī)則(fusion rule)對(duì)源圖像進(jìn)行融合。在MFIF方法中,最常用的融合規(guī)則是取極大(maximum selection)。在很多空間域方法中,最后還會(huì)使用一些一致性驗(yàn)證(consistency verification)技術(shù)(Piella,2003)對(duì)得到的決策圖或融合圖像進(jìn)行優(yōu)化,進(jìn)一步提升融合質(zhì)量。根據(jù)融合算法針對(duì)的基本處理單元,空間域方法可以進(jìn)一步分為基于分塊的方法(Li等,2001;Aslantas和Kurban,2010;Bai等,2015;Guo等,2015;Zhang和Levine,2016)、基于區(qū)域的方法(Li等,2006;Li和Yang,2008b;Duan等,2018)和基于像素的方法(Li等,2013b;Liu等,2015b;Nejati等,2015;Ma等,2019b;Qiu等,2019;Xiao等,2020)。

得益于強(qiáng)大的特征學(xué)習(xí)能力,深度學(xué)習(xí)在眾多圖像與視覺任務(wù)中獲得了極為成功的應(yīng)用。在MFIF問題研究中,基于深度學(xué)習(xí)的方法自2017年首次提出以來(Liu等,2017),迅速成為該問題的熱點(diǎn)研究方向,陸續(xù)提出了近百種方法。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)等深度學(xué)習(xí)模型成功應(yīng)用于MFIF方法研究。對(duì)上述研究工作進(jìn)行全面系統(tǒng)的回顧與總結(jié)有助于研究人員了解該方向的研究進(jìn)展,對(duì)該方向的未來發(fā)展也能起到一定的啟示作用,具有較強(qiáng)的實(shí)際意義。

隨著多源圖像融合的發(fā)展,國際上出現(xiàn)了一些優(yōu)秀的綜述論文,其中一些涉及多聚焦圖像融合問題。Li等人(2017)對(duì)多源圖像融合方向的研究現(xiàn)狀進(jìn)行了全面綜述,內(nèi)容涵蓋遙感、醫(yī)學(xué)、紅外與可見光、多聚焦等多種圖像融合問題,但所述方法均為傳統(tǒng)融合方法。Liu等人(2018)與Zhang(2022b)分別對(duì)基于深度學(xué)習(xí)的圖像融合方法進(jìn)行回顧,同樣不限于多聚焦圖像融合問題。Liu等人(2020)針對(duì)MFIF問題開展系統(tǒng)綜述工作,所述方法涉及傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。Zhang(2022b)對(duì)基于深度學(xué)習(xí)的MFIF方法進(jìn)行全面綜述和性能對(duì)比實(shí)驗(yàn)。然而上述工作距今期間又有數(shù)十種基于深度學(xué)習(xí)的MFIF方法陸續(xù)提出。此外,上述綜述工作均發(fā)表于國際英文期刊,國內(nèi)期刊上目前還鮮有相關(guān)的綜述工作。

鑒于上述背景,本文對(duì)基于深度學(xué)習(xí)的MFIF方法進(jìn)行系統(tǒng)回顧,將這些方法進(jìn)行歸納分類,更清晰地展現(xiàn)該方向的最新研究進(jìn)展。此外,本文對(duì)25種代表性MFIF方法(包括10種傳統(tǒng)方法和15種深度學(xué)習(xí)方法)在3個(gè)常用MFIF數(shù)據(jù)集上的性能進(jìn)行實(shí)驗(yàn)對(duì)比與分析。最后,對(duì)MFIF存在的挑戰(zhàn)性問題及未來發(fā)展趨勢(shì)進(jìn)行討論與展望。

1 基于深度學(xué)習(xí)的多聚焦圖像融合方法

根據(jù)采用的深度學(xué)習(xí)模型類型,基于深度學(xué)習(xí)的多聚焦圖像融合方法可以進(jìn)一步分為基于分類模型的方法和基于回歸模型的方法?;诜诸惸P偷姆椒▽⒍嗑劢箞D像融合建模為像素聚焦屬性的判別問題,使用分類型卷積網(wǎng)絡(luò)實(shí)現(xiàn)該目標(biāo)。與此不同,基于回歸模型的方法學(xué)習(xí)從源圖像到融合圖像的直接映射,使用端到端網(wǎng)絡(luò)模型預(yù)測(cè)輸出融合圖像。

1.1 基于分類模型的方法

基于分類模型的方法與很多傳統(tǒng)空間域方法具有類似的框架。具體而言,使用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征以及對(duì)圖像像素的聚焦屬性進(jìn)行分類,即判斷像素處于聚焦區(qū)域還是散焦區(qū)域。根據(jù)像素處理方式不同,基于分類模型的方法進(jìn)一步分為基于圖像分塊的方法和基于圖像分割的方法兩類。表1列出了基于深度分類模型的主要融合方法。

表1 基于深度分類模型的多聚焦圖像融合方法概述

1.1.1 基于圖像分塊的方法

Liu等人(2017)首次將卷積神經(jīng)網(wǎng)絡(luò)引入到多聚焦圖像融合方法研究中,設(shè)計(jì)了一個(gè)面向分類任務(wù)的孿生型卷積神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)從源圖像到聚焦圖(focus map)的直接映射,將傳統(tǒng)方法中活躍程度度量和融合規(guī)則這兩個(gè)關(guān)鍵步驟以網(wǎng)絡(luò)學(xué)習(xí)的方式一體化實(shí)現(xiàn),加強(qiáng)了兩者之間的關(guān)聯(lián)性,同時(shí)避免了傳統(tǒng)啟發(fā)式設(shè)計(jì)的困難。為了解決網(wǎng)絡(luò)訓(xùn)練的問題,采用多個(gè)尺度的高斯模糊來模擬散焦,人工創(chuàng)建了一個(gè)由清晰圖像塊和模糊圖像塊組成的大規(guī)模數(shù)據(jù)集,用于監(jiān)督學(xué)習(xí)。在具體實(shí)現(xiàn)中,通過將網(wǎng)絡(luò)中的全連接層等效轉(zhuǎn)換為卷積層,使網(wǎng)絡(luò)能夠接受任意大小的源圖像作為輸入,保證了算法的實(shí)用性。該方法的流程圖如圖1所示。

圖1 Liu等人(2017)提出的基于CNN的MFIF方法流程圖

在得到聚焦圖后,還需對(duì)其進(jìn)行二值分割和一致性驗(yàn)證處理,生成最終決策圖用于融合。為了提高圖像塊分類的精度,Tang等人(2018)將圖像塊分為聚焦、散焦和未知3類,對(duì)3類圖像像素進(jìn)行加權(quán)求和,得到源圖像的得分圖以生成決策圖。Zhao等人(2021)為了提高邊界區(qū)域的融合質(zhì)量,解決邊界像素屬性難以判別的困難,提出了一種基于區(qū)域和像素的融合方法。首先對(duì)源圖像進(jìn)行分塊,利用三分類網(wǎng)絡(luò)將圖像塊分為聚焦、散焦和邊界3類。然后利用邊界網(wǎng)絡(luò)對(duì)邊界區(qū)域進(jìn)行微調(diào),得到二值決策圖。Amin-Naji等人(2019)將集成學(xué)習(xí)的思想應(yīng)用于多聚焦圖像融合,利用多個(gè)CNN分別對(duì)源圖像及其梯度圖像進(jìn)行分類,以進(jìn)一步提高分類精度,該方法示意圖如圖2所示。Zhou等人(2021)基于梯度信息能直觀反映圖像邊緣信息這一思想,將原始圖像和其對(duì)應(yīng)的4種梯度圖像輸入到5個(gè)CNN中,得到5個(gè)初始聚焦圖,然后合并它們得到最終聚焦圖。Guo等人(2018a)基于拉普拉斯能量對(duì)源圖像進(jìn)行聚焦度量得到聚焦信息圖,然后利用深層神經(jīng)網(wǎng)絡(luò)對(duì)圖像塊進(jìn)行分類得到?jīng)Q策圖。Yang等人(2019)提出了一種基于多層特征卷積神經(jīng)網(wǎng)絡(luò)的方法,組合不同卷積層的特征圖以提高分類精度。

圖2 Amin-Naji等人(2019)提出的基于集成CNN的MFIF方法示意圖

1.1.2 基于圖像分割的方法

上述基于圖像分塊的方法由于分塊操作往往忽略了圖像的全局上下文信息,且相鄰圖像塊的預(yù)測(cè)通常是相互獨(dú)立的,導(dǎo)致得到的聚焦圖或決策圖存在空間不一致(連續(xù))性,影響融合質(zhì)量,尤其是聚焦區(qū)域和散焦區(qū)域之間邊界區(qū)域的融合質(zhì)量。為了解決這一問題,研究人員提出了一些基于圖像(語義)分割的方法,將融合任務(wù)建模為聚焦區(qū)域的分割問題。Guo等人(2018b)提出了一種基于全卷積網(wǎng)絡(luò)的融合方法,將整幅圖像用于網(wǎng)絡(luò)訓(xùn)練,輸出與源圖像大小相同的聚焦圖。為此,設(shè)計(jì)了一種基于高斯濾波的方法,使用原始圖像和聚焦/散焦分割圖合成用于監(jiān)督學(xué)習(xí)的訓(xùn)練圖像。此外,該方法通過全連接條件隨機(jī)場(chǎng)對(duì)決策圖進(jìn)行細(xì)化。Deshmukh等人(2018)將深度置信網(wǎng)絡(luò)(deep belief network)應(yīng)用于聚焦像素的檢測(cè),利用該網(wǎng)絡(luò)判斷像素類別,得到權(quán)重圖,以進(jìn)行加權(quán)融合生成融合結(jié)果。Xu等人(2020a)利用從源圖像獲得的梯度關(guān)系圖構(gòu)造損失函數(shù),幫助網(wǎng)絡(luò)快速收斂,提高決策圖精度。

為了進(jìn)一步提高聚焦邊界區(qū)域的分割精度,研究人員提出了一些對(duì)邊界進(jìn)行優(yōu)化的多聚焦圖像融合方法。Ma等人(2019a)提出了一種級(jí)聯(lián)的邊界感知卷積神經(jīng)網(wǎng)絡(luò)用于多聚焦圖像融合,如圖3所示。該方法首先使用初始融合網(wǎng)絡(luò)獲得初始聚焦圖,將像素分為聚焦、散焦和邊界像素,并加權(quán)求和得到初始融合圖;然后使用邊界融合網(wǎng)絡(luò)生成邊界融合圖像;最后二者相加得到最終融合結(jié)果。Xu等人(2020c)提出了一種邊界優(yōu)化算法對(duì)融合圖像的邊界進(jìn)行優(yōu)化。該方法首先對(duì)源圖像進(jìn)行聚焦圖檢測(cè)得到二分類聚焦圖,根據(jù)聚焦圖確定邊界,最后使用邊界優(yōu)化算法優(yōu)化融合結(jié)果中的邊界。

圖3 Ma等人(2019a)提出的基于邊界感知CNN的MFIF方法示意圖

除了直接對(duì)邊界進(jìn)行優(yōu)化,一些學(xué)者提出了利用多尺度特征和注意力機(jī)制等技術(shù)提升邊界分割精度的方法。Zhou等人(2019)提出一種基于金字塔場(chǎng)景解析網(wǎng)絡(luò)(pyramid scene parsing network)的多聚焦圖像融合方法,利用金字塔池化模塊提取圖像最后的多尺度特征,從而提高聚焦圖預(yù)測(cè)的準(zhǔn)確度。Xiao等人(2021)提出一種基于全局特征編碼的U-Net模型,用于多聚焦圖像融合,該網(wǎng)絡(luò)引入了全局特征金字塔提取模塊和全局注意力連接上采樣模塊,能有效提取和利用圖像的全局語義信息。Liu等人(2021)提出一種基于多尺度特征交互網(wǎng)絡(luò)的融合方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)提取的多尺度特征進(jìn)行融合,并引入坐標(biāo)注意力機(jī)制增強(qiáng)多尺度特征交互力度,提高聚焦圖的分割精度。

圖4 Liu等人(2021)提出的基于多尺度特征交互網(wǎng)絡(luò)的MFIF方法示意圖

除了利用卷積神經(jīng)網(wǎng)絡(luò)提取多尺度特征,一些方法通過多尺度分解提取多尺度特征。Wang等人(2019b)提出一種在離散小波變換域進(jìn)行分割的方法,首先將源圖像進(jìn)行多尺度分解得到4個(gè)不同頻率子帶圖像,然后將這些子帶圖像輸入到不同網(wǎng)絡(luò),輸出4個(gè)決策圖以融合各個(gè)子帶圖像。Guo等人(2020)在卷積神經(jīng)網(wǎng)絡(luò)中引入了位置自注意力機(jī)制和通道自注意力機(jī)制,幫助卷積神經(jīng)網(wǎng)絡(luò)捕獲更多的圖像特征。此外,一些方法采用增強(qiáng)網(wǎng)絡(luò)輸入的方式來提高邊界精度。Gao等人(2022)將一對(duì)源圖像和對(duì)應(yīng)的經(jīng)拉普拉斯算子檢測(cè)的特征圖像一起輸入到網(wǎng)絡(luò)中,以準(zhǔn)確區(qū)分聚焦區(qū)域和散焦區(qū)域的邊界。

上述方法在網(wǎng)絡(luò)訓(xùn)練時(shí)通常只是基于聚焦圖的分割結(jié)果,為了進(jìn)一步提升融合性能,一些方法將融合圖像直接輸出,并用于幫助網(wǎng)絡(luò)訓(xùn)練。Lai等人(2019)將多尺度特征提取單元和視覺注意力單元作為網(wǎng)絡(luò)的基本單元,然后網(wǎng)絡(luò)輸出聚焦圖,利用聚焦圖與源圖像進(jìn)行加權(quán)求和得到融合圖像,方法示意圖如圖5所示。該方法在訓(xùn)練過程中計(jì)算融合圖像與真實(shí)值(ground truth)之間的結(jié)構(gòu)相似性(structural similarity, SSIM)作為損失函數(shù),使融合圖像直接參與到網(wǎng)絡(luò)訓(xùn)練中。Li等人(2020)將融合圖像與ground truth之間的結(jié)構(gòu)相似性和梯度差異作為損失函數(shù)項(xiàng),以進(jìn)一步提高融合性能。Ma等人(2022)使用基于梯度的融合評(píng)價(jià)度量指標(biāo)作為訓(xùn)練過程中的損失函數(shù),并且設(shè)計(jì)了一種決策圖校準(zhǔn)策略以提高邊界融合質(zhì)量。Ma等人(2021b)提出一種自監(jiān)督掩膜優(yōu)化模型用于多聚焦圖像融合。該方法設(shè)計(jì)了帶引導(dǎo)濾波的引導(dǎo)塊生成初始二值掩膜加快網(wǎng)絡(luò)收斂,并且最小化融合圖像與源圖像間的梯度差異以迫使模型學(xué)習(xí)更精確的二值掩膜。

圖5 Lai等人(2019)提出的基于多尺度視覺注意力深度CNN(MADCNN)的MFIF方法示意圖

由于深度學(xué)習(xí)優(yōu)越的特征表示能力,一些方法利用網(wǎng)絡(luò)模型提取或增強(qiáng)源圖像特征,然后度量這些特征的活躍程度得到?jīng)Q策圖。Ma等人(2021a)提出一種基于無監(jiān)督編碼器—解碼器網(wǎng)絡(luò)的方法,采用網(wǎng)絡(luò)中的編碼器來獲取源圖像的深層特征,然后使用空間頻率(spatial frequency,SF)度量活躍程度,得到?jīng)Q策圖,最后對(duì)決策圖進(jìn)行一致性驗(yàn)證,得到融合結(jié)果。Song和Wu(2019)采用PCANet(principal component analysis network)提取圖像特征,利用核范數(shù)生成源圖像的活躍程度度量,得到?jīng)Q策圖,最后使用加權(quán)融合得到融合圖像。Liu等人(2022)提出一種基于超分辨重建網(wǎng)絡(luò)的方法,首先利用深度殘差網(wǎng)絡(luò)對(duì)源圖像進(jìn)行超分辨重建,然后通過滾動(dòng)引導(dǎo)濾波進(jìn)行噪聲平滑和邊緣保持,最后利用基于結(jié)構(gòu)梯度的聚焦區(qū)域檢測(cè)算法生成決策圖。

除了CNN模型,GAN也用于多聚焦圖像融合領(lǐng)域。Guo等人(2019)最早提出了基于GAN的MFIF方法,示意圖如圖6所示。在該方法中,生成器的輸出是一個(gè)聚焦決策圖,除了與真實(shí)決策圖計(jì)算二值交叉熵?fù)p失外,還設(shè)計(jì)了一個(gè)鑒別器模型,用于提高輸出與真實(shí)決策圖之間的相似性。Wang等人(2021b)針對(duì)多聚焦圖像中的散焦擴(kuò)散效應(yīng)(defocus spread effect,DSE)(Xu等,2020d)提出一種基于GAN的多聚焦圖像融合方法,該網(wǎng)絡(luò)采用了擠壓和激勵(lì)殘差模塊,并在損失函數(shù)中添加了重構(gòu)和梯度正則化以增強(qiáng)邊界細(xì)節(jié),提升融合質(zhì)量。

圖6 Guo等人(2019)提出的基于GAN的MFIF方法示意圖

1.2 基于回歸模型的方法

與上述基于分類模型的方法輸出像素聚焦屬性圖不同,基于回歸模型的方法使用網(wǎng)絡(luò)模型預(yù)測(cè)輸出融合圖像,學(xué)習(xí)從源圖像到融合圖像的端到端映射。在此類方法中,網(wǎng)絡(luò)框架通常包括特征提取、融合與重建3部分,類似于傳統(tǒng)變換域方法的框架。根據(jù)網(wǎng)絡(luò)模型學(xué)習(xí)方式的不同,本文將其進(jìn)一步分為基于監(jiān)督學(xué)習(xí)的方法和基于無監(jiān)督學(xué)習(xí)的方法兩類。表2列出了基于深度分類模型的主要融合方法。

表2 基于深度回歸模型的多聚焦圖像融合方法概述

1.2.1 基于監(jiān)督學(xué)習(xí)的方法

Xu等人(2018)提出一種用于多聚焦圖像融合的全卷積雙路徑網(wǎng)絡(luò),并采用高斯濾波來合成訓(xùn)練數(shù)據(jù)集。Zhang等人(2020b)提出一種包括特征提取、融合和重建3個(gè)階段的端到端網(wǎng)絡(luò)模型用于多聚焦圖像融合,如圖7所示。該方法利用深度信息和高斯模糊生成訓(xùn)練數(shù)據(jù)集,并采用感知損失進(jìn)行網(wǎng)絡(luò)訓(xùn)練。Zhao等人(2019)提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的多層特征處理機(jī)制用于多聚焦圖像融合,在不同層上進(jìn)行特征提取、融合和重建。Yu等人(2022)提出一種雙路徑融合網(wǎng)絡(luò),在網(wǎng)絡(luò)的特征提取模塊中添加了大量的注意力機(jī)制。Zang等人(2021)設(shè)計(jì)了一種基于統(tǒng)一融合注意力的融合策略以獲得更多信息,該融合策略由通道注意力和空間注意力構(gòu)成。Deng和Dragotti(2021)提出一種用于圖像融合的公共和唯一信息分離網(wǎng)絡(luò),該網(wǎng)絡(luò)能提取源圖像的公共特征和唯一特征。Wang等人(2022)提出一種兩階段漸進(jìn)殘差學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)由初始融合塊網(wǎng)絡(luò)和增強(qiáng)融合塊網(wǎng)絡(luò)構(gòu)成,初始融合塊網(wǎng)絡(luò)用于融合源圖像中的顏色信息,增強(qiáng)融合塊網(wǎng)絡(luò)進(jìn)一步融合細(xì)節(jié)特征。

圖7 Zhang等人(2020b)提出的基于CNN的通用圖像融合框架

此外,GAN也用于基于深度回歸模型的融合方法研究中。Huang等人(2020)提出一種基于GAN的端到端多聚焦圖像融合方法,在網(wǎng)絡(luò)模型中設(shè)計(jì)了一種自適應(yīng)權(quán)重塊,引導(dǎo)生成器自適應(yīng)學(xué)習(xí)聚焦像素的分布,如圖8所示。

圖8 Huang等人(2020)提出的基于GAN的MFIF方法示意圖

上述方法主要采用兩分支輸入方式,將源圖像分別輸入到對(duì)應(yīng)的分支網(wǎng)絡(luò)中,再通過一定的融合規(guī)則融合特征。此外,還有一些方法將源圖像進(jìn)行通道連接后再輸入到網(wǎng)絡(luò)。Li等人(2019a)提出一種U形端到端卷積網(wǎng)絡(luò),以提高多聚焦圖像融合的特征提取能力,并設(shè)計(jì)了基于結(jié)構(gòu)相似性的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。Pea等人(2019)提出一種基于沙漏網(wǎng)絡(luò)(hourglass network)的多聚焦圖像融合方法。

針對(duì)網(wǎng)絡(luò)中特征融合策略存在的單一性問題,一些方法首先將源圖像分解為多個(gè)尺度,為不同尺度設(shè)計(jì)不同的融合策略。Li等人(2019b)提出一種基于小波域的CNN用于多聚焦圖像融合。在該方法中,源圖像首先被小波變換分解為高頻和低頻圖像,然后用兩個(gè)網(wǎng)絡(luò)對(duì)它們進(jìn)行融合,最后逆變換得到融合圖像。Cheng等人(2021)使用引導(dǎo)濾波將源圖像分解為基礎(chǔ)層和細(xì)節(jié)層,為兩個(gè)層的特征設(shè)計(jì)了不同的融合策略。

1.2.2 基于無監(jiān)督學(xué)習(xí)的方法

除了基于監(jiān)督學(xué)習(xí)的融合方法,也有基于無監(jiān)督學(xué)習(xí)的多聚焦圖像融合方法,此類方法不需要人工構(gòu)造融合圖像的ground truth。Yan等人(2020)通過在融合圖像與源圖像之間設(shè)計(jì)基于結(jié)構(gòu)相似性的損失函數(shù),提出一種基于無監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的多聚焦圖像融合方法,如圖9所示。Mustafa等人(2019b)將多尺度架構(gòu)引入到端到端卷積神經(jīng)網(wǎng)絡(luò)模型中,用于無監(jiān)督的多聚焦圖像融合,并提出一種同時(shí)考慮像素差異和結(jié)構(gòu)相似性的損失函數(shù)用于網(wǎng)絡(luò)訓(xùn)練。Jung等人(2020)利用多通道圖像對(duì)比度的結(jié)構(gòu)張量表示,提出一種無監(jiān)督損失函數(shù)。Xu等人(2022)通過持續(xù)學(xué)習(xí)(continual learning)技術(shù)提出一種無監(jiān)督圖像融合框架,用統(tǒng)一的網(wǎng)絡(luò)解決多種類型的圖像融合問題。Zhang等人(2021)提出一種基于無監(jiān)督GAN模型的多聚焦圖像融合方法,設(shè)計(jì)了一個(gè)自適應(yīng)決策塊來豐富融合圖像的紋理細(xì)節(jié)。

圖9 Yan等人(2020)提出的基于無監(jiān)督CNN的MFIF方法示意圖

2 實(shí) 驗(yàn)

實(shí)驗(yàn)對(duì)多種代表性多聚焦圖像融合方法的性能進(jìn)行比較與分析。在3個(gè)多聚焦圖像數(shù)據(jù)集上,使用8個(gè)常用的客觀評(píng)價(jià)指標(biāo)對(duì)25種代表性融合方法(包括5種傳統(tǒng)空間域方法、5種傳統(tǒng)變換域方法和15種基于深度學(xué)習(xí)的方法)的性能進(jìn)行對(duì)比。

2.1 數(shù)據(jù)集

使用3個(gè)多聚焦圖像融合數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別是Lytro數(shù)據(jù)集(Nejati等,2015)(https://www.researchgate.net/publication/291522937_Lytro_Multi-focus_Image_Dataset)、MFFW(multi-focus image fusion in the wild)數(shù)據(jù)集(Xu等,2020d)(https://www.researchgate.net/publication/350965471_MFFW)和Classic數(shù)據(jù)集(自行收集)(https://www.researchgate.net/publication/361556764_Classic-MFIF-dataset)。其中,Lytro和MFFW數(shù)據(jù)集分別包含20對(duì)彩色圖像和13對(duì)彩色圖像,Classic數(shù)據(jù)集包含多聚焦圖像融合領(lǐng)域非常經(jīng)典的20對(duì)灰度圖像(與前兩個(gè)數(shù)據(jù)集不重復(fù))。圖10展示了3個(gè)數(shù)據(jù)集中的源圖像。

圖10 實(shí)驗(yàn)中使用的3個(gè)多聚焦圖像融合數(shù)據(jù)集

2.2 客觀評(píng)價(jià)指標(biāo)

2.3 對(duì)比方法

在實(shí)驗(yàn)中,選擇了25種多聚焦圖像融合方法進(jìn)行性能比較,選取原則主要包括:1)方法具有較高的領(lǐng)域影響力或是最近提出的;2)方法的源代碼在網(wǎng)上公開;3)所選方法盡可能全面地涵蓋多聚焦圖像融合方法的各個(gè)類別。表4列出了所選方法的詳細(xì)信息,包括方法類型、簡(jiǎn)稱和源代碼鏈接。所選方法中包括5種傳統(tǒng)變換域方法、5種傳統(tǒng)空間域方法和15種基于深度學(xué)習(xí)的方法。更具體地,傳統(tǒng)變換域方法中包括2種基于多尺度分解的方法:NSCT(nonsubsampled contourlet transform)(Yang等,2007)和GFF(guided filtering fusion)(Li等,2013a)、1種基于稀疏表示的方法:CSR(convolutional sparse representation)(Liu等,2016)、1種基于梯度域的方法:MWGF(multi-scale weighted gradient-based fusion)(Zhou等,2014)、1種基于不同變換組合的方法:NSCT-SR(nonsubsampled contourlet transform and sparse representation)(Liu等,2015a);傳統(tǒng)空間域方法中包括1種基于分塊的方法:QUADTREE(Bai等,2015)、4種基于像素的方法:DSIFT(dense scale invariant feature transform)(Liu等,2015b)、SRCF(sparse representation corresponding features)(Nejati等,2015)、GFDF(guided filter-based focus region detection for fusion)(Qiu等,2019)和BRW(boosted random walks)(Ma等,2019b);深度學(xué)習(xí)方法中包括10種基于分類模型的方法,其中CNN(Liu等,2017)和ECNN(ensemble of CNN)(Amin-Naji等,2019b)是基于圖像分塊的方法,GCF(gradients and connected regions based fusion)(Xu等,2020a)、MFF-SSIM(multi-focus image fusion based on structural similarity)(Xu等,2020c)、MSFIN(multiscale feature interactive network)(Liu等,2021)、MADCNN(multi-scale visual attention deep convolutional neural network)(Lai等,2019)、DRPL(deep regression pair learning)(Li等,2020)、GACN(gradient aware cascade network)(Ma等,2022)、SESF(squeeze excitation and spatial frequency)(Ma等,2020a)和SMFuse(self-supervised mask-optimization fuse)(Ma等,2021)是基于圖像分割的方法,以及5種基于回歸模型的方法,其中IFCNN(image fusion with convolutional neural network)(Zhang等,2020b)和R-PSNN(residual atrous pyramid pseudo-siamese neural network)(Jiang等,2021b)是基于監(jiān)督學(xué)習(xí)的方法,F(xiàn)usionDN(densely connected network for fusion)(Xu等,2020b)、PMGI(proportional maintenance of gradient and intensity)(Zhang等,2020a)和U2Fusion(unified unsupervised image fusion)(Xu等,2022)是基于無監(jiān)督學(xué)習(xí)的方法。所有方法均使用默認(rèn)參數(shù)設(shè)置和作者提供的訓(xùn)練模型。

表3 實(shí)驗(yàn)中選擇的25種方法

2.4 結(jié)果與討論

表4—表6列出了不同融合方法在3個(gè)數(shù)據(jù)集上的客觀評(píng)價(jià)結(jié)果,給出了每個(gè)數(shù)據(jù)集中所有測(cè)試圖像的平均得分??梢园l(fā)現(xiàn),3個(gè)數(shù)據(jù)集上的結(jié)果在整體上具有較強(qiáng)的相似性,變換域方法在QE上更有優(yōu)勢(shì),而空間域方法在其他指標(biāo)上更具優(yōu)勢(shì)。5種變換域方法中并不存在具有明顯優(yōu)勢(shì)的方法,整體定量性能差異不大。對(duì)于空間域方法,在大部分指標(biāo)上都能獲得非常有競(jìng)爭(zhēng)力的性能。因此,綜合來看,空間域方法的融合性能優(yōu)于變換域方法,這是由于空間域法可以更好地保持源圖像的原始聚焦信息,而變換域方法每個(gè)階段都可能引入像素誤差,導(dǎo)致融合性能的降低。

表4 不同融合方法在Lytro數(shù)據(jù)集上的客觀性能

表5 不同融合方法在MFFW數(shù)據(jù)集上的客觀性能

表6 不同融合方法在Classic數(shù)據(jù)集上的客觀性能

在基于深度學(xué)習(xí)的方法中,基于回歸模型的方法在指標(biāo)VIFF上取得不錯(cuò)的結(jié)果,而基于分類模型的方法通常能在其他大多數(shù)指標(biāo)上獲得比基于回歸模型的方法更好的性能。這是因?yàn)槔没貧w模型直接生成融合圖像的過程可分為特征提取、融合和重建3個(gè)階段,與變換域方法框架較為相似,受限于模型的預(yù)測(cè)精度,容易引入像素誤差,而基于分類模型的方法與空間域方法框架類似,整體性能更好。在基于回歸模型的方法中,有監(jiān)督的方法(即IFCNN和R-PSNN)的結(jié)果普遍優(yōu)于無監(jiān)督的方法(即FusionDN、PMGI和U2Fusion),由此可見,監(jiān)督學(xué)習(xí)的方式可以有效提升融合網(wǎng)絡(luò)的性能。此外,從排名來看,將源圖像由RGB轉(zhuǎn)到Y(jié)CbCr顏色空間的方法(即FusionDN、PMGI和U2Fusion)在VIFF指標(biāo)上的結(jié)果明顯優(yōu)于其他使用RGB源圖像作為網(wǎng)絡(luò)輸入的方法(即IFCNN和R-PSNN),這表明對(duì)源圖像的Y分量進(jìn)行融合能有效提高融合結(jié)果的視覺信息保真度。而在基于分類模型的方法中,有一致性驗(yàn)證等后處理操作的方法(如CNN、GCF、MFF-SSIM、MSFIN和SESF)一般能取得比沒有后處理的方法(如ECNN、MADCNN、DRPL、GACN和SMFuse)更好的融合性能。但是,所有方法都無法在3個(gè)數(shù)據(jù)集中排名前10。例如,MSFIN在Lytro數(shù)據(jù)集中所有指標(biāo)都排名前10,但是在MFFW和Classic數(shù)據(jù)集中所有指標(biāo)都未排進(jìn)前10。這表明多聚焦圖像融合方法研究仍有較大的提升空間。通過比較各方法每個(gè)指標(biāo)的值可以發(fā)現(xiàn),深度學(xué)習(xí)方法的整體性能與優(yōu)秀的傳統(tǒng)方法相當(dāng)甚至略低,并未展現(xiàn)明顯優(yōu)勢(shì),主要原因之一是多聚焦圖像融合領(lǐng)域缺乏大規(guī)??捎糜谟?xùn)練的真實(shí)數(shù)據(jù)集,通常采用的人工合成訓(xùn)練數(shù)據(jù)的方式與真實(shí)多聚焦圖像之間存在差異,導(dǎo)致訓(xùn)練得到的深度學(xué)習(xí)模型泛化能力不足,在真實(shí)多聚焦圖像數(shù)據(jù)集上的性能受限。

圖11—圖13展示了不同融合方法在3個(gè)數(shù)據(jù)集中一組測(cè)試圖像上的融合結(jié)果。由圖11可以看出,對(duì)于較為簡(jiǎn)單的Lytro數(shù)據(jù)集而言,幾乎所有融合方法獲得的融合圖像都具有良好的視覺效果,不同方法之間的差異相對(duì)較小。由圖12可以看出,在MFFW數(shù)據(jù)集中,源圖像存在明顯的散焦擴(kuò)散效應(yīng)(DSE)(Xu等,2020d),聚焦邊界像素的處理難度較高,幾乎所有方法在邊界區(qū)域都未能獲得令人滿意的結(jié)果,存在較為嚴(yán)重的偽邊緣現(xiàn)象,影響了視覺質(zhì)量。MFF-SSIM方法的結(jié)果相對(duì)較好,這是因?yàn)樵摲椒▽?duì)邊界區(qū)域進(jìn)行了特別的優(yōu)化。由圖13可以看出,在Classic數(shù)據(jù)集給出的示例中,源圖像之前沒有進(jìn)行精確的配準(zhǔn),導(dǎo)致大多數(shù)傳統(tǒng)變換域方法和基于深度回歸模型的方法融合質(zhì)量不夠理想,在一些區(qū)域存在明顯的細(xì)節(jié)模糊現(xiàn)象,空間域法和基于深度分類模型的方法相對(duì)而言融合效果較好。

圖11 不同方法在Lytro數(shù)據(jù)集中示例圖像瓶子上的融合結(jié)果

圖12 不同方法在MFFW數(shù)據(jù)集中示例圖像咖啡杯上的融合結(jié)果

圖13 不同方法在Classic數(shù)據(jù)集中示例圖像石獅子上的融合結(jié)果

表7列出了不同方法融合一對(duì)520 × 520像素的彩色圖像消耗的平均運(yùn)行時(shí)間。使用Lytro數(shù)據(jù)集中20對(duì)520 × 520像素的圖像進(jìn)行統(tǒng)計(jì),計(jì)算平均運(yùn)行時(shí)間。實(shí)驗(yàn)使用的計(jì)算機(jī)硬件配置是Intel CoreTMi9-10900X CPU,NVIDIA GeForce RTX 2080Ti GPU,128 MB RAM。在25種方法中,NSCT、GFF、CSR、MWGF、NSCT-SR、QUADYREE、DSIFT、SRCF、GFDF、BRW和CNN在MATLAB環(huán)境下僅以CPU串行方式運(yùn)行,ECNN、GCF、MFF-SSIM、MSFIN、MADCNN、DRPL、GACN、SESF、SMFuse、FusionDN、IFCNN、PMGI、R-PSNN和U2Fusion在Python環(huán)境下使用GPU并行加速方式運(yùn)行。

由表7可以看出,得益于GPU加速,大多數(shù)深度學(xué)習(xí)方法的計(jì)算效率較高,而個(gè)別方法由于分塊融合方式(如ECNN)或在CPU下實(shí)現(xiàn)(如CNN),運(yùn)行時(shí)間較長(zhǎng)。在傳統(tǒng)方法中,使用到稀疏表示模型的相關(guān)方法運(yùn)行效率一般較低,如NSCT-SR和CSR。

表7 不同方法融合一對(duì)520×520像素彩色圖像的平均運(yùn)行時(shí)間

3 結(jié) 語

本文對(duì)基于深度學(xué)習(xí)的多聚焦圖像融合方法進(jìn)行了全面綜述,將現(xiàn)有方法分為基于深度分類模型的方法和基于深度回歸模型的方法,并介紹了相關(guān)的代表性方法。此外,對(duì)25種具有代表性的多聚焦圖像融合方法進(jìn)行了實(shí)驗(yàn)性能驗(yàn)證與對(duì)比,實(shí)驗(yàn)中使用了3個(gè)多聚焦圖像融合數(shù)據(jù)集和8個(gè)常用的客觀質(zhì)量評(píng)價(jià)指標(biāo)。盡管近年來基于深度學(xué)習(xí)的多聚焦圖像融合方法研究取得了很大進(jìn)展,但實(shí)驗(yàn)結(jié)果表明這些新方法與傳統(tǒng)融合方法相比并未表現(xiàn)出明顯優(yōu)勢(shì),該方向仍存在一些挑戰(zhàn)性問題需要解決,未來工作可以從以下幾個(gè)方面開展:

1)聚焦邊界區(qū)域的融合。邊界區(qū)域表示源圖像中聚焦區(qū)域與散焦區(qū)域之間的區(qū)域,通常位于景深突變的區(qū)域。邊界區(qū)域的聚焦特性很復(fù)雜,因?yàn)樵谠磮D像中一些像素可能會(huì)聚焦,而一些像素可能會(huì)散焦,并且邊界形狀總是不規(guī)則的。此外,在不同的源圖像中,邊界周圍的像素通常具有不同的清晰度,存在所謂的散焦擴(kuò)散效應(yīng)(DSE)(Xu等,2020d),給邊界像素的處理帶來了很大挑戰(zhàn)。因此,邊界區(qū)域的融合是多聚焦圖像融合中的一個(gè)難點(diǎn),對(duì)融合圖像的視覺質(zhì)量有著至關(guān)重要的影響,提升邊界區(qū)域的融合質(zhì)量是未來一個(gè)值得深入研究的方向。

2)未精確配準(zhǔn)情況下的融合方法。現(xiàn)有絕大多數(shù)多聚焦圖像融合方法研究均假設(shè)源圖像之間已經(jīng)進(jìn)行了精確的空間配準(zhǔn),對(duì)于低配準(zhǔn)精度情況下的研究還十分有限,很多方法在融合未精確配準(zhǔn)的源圖像時(shí)性能顯著下降。因此,在設(shè)計(jì)融合方法時(shí),如何提升對(duì)未精確配準(zhǔn)情況的魯棒性,獲得高質(zhì)量的融合效果,也是該領(lǐng)域未來一個(gè)值得深入研究的方向。

3)具有真實(shí)標(biāo)簽的大規(guī)模訓(xùn)練數(shù)據(jù)集的構(gòu)造。目前多聚焦圖像融合領(lǐng)域缺乏大規(guī)模的真實(shí)訓(xùn)練數(shù)據(jù)集,大部分基于深度學(xué)習(xí)的方法往往只能通過人工模糊的方式合成數(shù)據(jù)集,然而這種方式忽略了真實(shí)多聚焦圖像中的散焦擴(kuò)散效應(yīng)等很多特點(diǎn),導(dǎo)致深度模型性能無法充分發(fā)揮,這一點(diǎn)從上述實(shí)驗(yàn)結(jié)果中可以明顯看出。因此,構(gòu)造大規(guī)模的真實(shí)訓(xùn)練數(shù)據(jù)集對(duì)于未來基于深度學(xué)習(xí)的多聚焦圖像融合研究也具有重要意義。

4)網(wǎng)絡(luò)模型以及網(wǎng)絡(luò)的學(xué)習(xí)方式的改進(jìn)。目前基于深度學(xué)習(xí)的多聚焦圖像融合方法中使用的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)相對(duì)比較簡(jiǎn)單,特別是對(duì)于聚焦邊界區(qū)域缺乏精細(xì)化的處理,訓(xùn)練方式也較為單一。在未來研究中,網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練方式等方面仍具有很大的改進(jìn)空間。

猜你喜歡
邊界像素卷積
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
拓展閱讀的邊界
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
論中立的幫助行為之可罰邊界
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
“偽翻譯”:“翻譯”之邊界行走者
磐安县| 望城县| 石河子市| 五莲县| 花莲市| 泌阳县| 乌拉特中旗| 民乐县| 苍梧县| 澄城县| 黑山县| 寿光市| 雅江县| 彰化县| 太仆寺旗| 广宁县| 浦北县| 老河口市| 麻江县| 南宁市| 海阳市| 福安市| 奈曼旗| 灵武市| 隆安县| 邹城市| 宣化县| 尚义县| 云浮市| 伊金霍洛旗| 澳门| 黔江区| 含山县| 渝北区| 东海县| 绥江县| 丰台区| 通化市| 贺兰县| 临邑县| 临海市|