林旭鋒,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108
單圖像超分辨率(Single Image Super-Resolution,SISR)旨在從低分辨率(Low Resolution,LR)圖像恢復(fù)高分辨率 (High Resolution,HR)圖像。在訓(xùn)練SISR的網(wǎng)絡(luò)時(shí),人們常使用二三次下采樣生成超分辨率數(shù)據(jù)集從而使網(wǎng)絡(luò)學(xué)習(xí)到相應(yīng)的退化模型,進(jìn)而恢復(fù)圖像高頻分量。但實(shí)際低質(zhì)量圖像的形成有兩大主因:成像設(shè)備性能以及環(huán)境因素干擾,這與二三次下采樣生成的低質(zhì)量圖像在退化模型上會有較大出入。
學(xué)者通過構(gòu)造數(shù)據(jù)集,將真實(shí)的LR-HR數(shù)據(jù)集應(yīng)用于超分辨率網(wǎng)絡(luò)的訓(xùn)練,使超分網(wǎng)絡(luò)能更好地應(yīng)用于真實(shí)的低分辨率圖像。例如利用不同的拍攝器材或調(diào)整參數(shù)構(gòu)造LR-HR數(shù)據(jù)集[1-5]以及利用生成對抗模型生成更接近于真實(shí)場景的LR-HR數(shù)據(jù)集[6]。
如圖1所示,與利用二三次下采樣得到的數(shù)據(jù)集不同,真實(shí)世界低分辨率數(shù)據(jù)集的退化模型復(fù)雜度較高,并且不同的設(shè)備型號以及不同的參數(shù)設(shè)置均會導(dǎo)致退化模型發(fā)生變化。而利用二三次下采樣得到的數(shù)據(jù)集則具有較為固定的退化模型,僅在圖像的高頻分量產(chǎn)生退化,而低頻分量則與原圖近似。
在處理真實(shí)低質(zhì)圖像的超分辨率問題中,真實(shí)世界超分辨率數(shù)據(jù)集發(fā)揮了核心作用。通過直接訓(xùn)練方法,成功克服了超分辨率網(wǎng)絡(luò)在真實(shí)低質(zhì)圖像應(yīng)用上的局限,顯著提升了在真實(shí)低質(zhì)數(shù)據(jù)集上的性能表現(xiàn)。例如Kong等人[3]提出對圖像區(qū)域分而治之的想法,對圖像內(nèi)容分類成為平坦、角點(diǎn)以及邊緣三種區(qū)域利用網(wǎng)絡(luò)分開對待。通過不同頻率特征優(yōu)化對真實(shí)圖像直接訓(xùn)練的網(wǎng)絡(luò)的超分結(jié)果。然而,這種方法仍存在局限性,如受到增加處理支路影響,會消耗更多的計(jì)算資源并降低訓(xùn)練速度。
近年,RealBasicVSR[7]提出大動作清洗(視頻預(yù)處理)模塊,主要負(fù)責(zé)解決真實(shí)低質(zhì)視頻數(shù)據(jù)集中的動作較大導(dǎo)致的殘影問題。通過預(yù)清洗模塊對復(fù)雜退化模型進(jìn)行簡化,在真實(shí)的低分辨率視頻數(shù)據(jù)集的上表現(xiàn)有明顯的提升。據(jù)不完全統(tǒng)計(jì),暫時(shí)還沒有使用預(yù)處理模塊處理復(fù)雜的真實(shí)圖像退化模型的真實(shí)圖像超分辨率重建方法。
通過預(yù)處理模塊簡化真實(shí)LR復(fù)雜的退化模型,將增強(qiáng)后的圖片輸入超分網(wǎng)絡(luò),實(shí)現(xiàn)真實(shí)圖像的超分辨率重建。相較于直接使用數(shù)據(jù)集進(jìn)行超分辨率網(wǎng)絡(luò)訓(xùn)練,利用預(yù)處理模塊來適應(yīng)真實(shí)低質(zhì)圖像由于模塊的參數(shù)較少,可以更快地通過訓(xùn)練得到,從而增強(qiáng)原始超分辨率網(wǎng)絡(luò)的適應(yīng)能力。此外,由于預(yù)處理模塊僅針對退化模型,可以適配所有基于二三次下采樣數(shù)據(jù)集訓(xùn)練的超分辨率網(wǎng)絡(luò)。最后,通過將預(yù)處理模塊與超分辨率網(wǎng)絡(luò)進(jìn)行多任務(wù)聯(lián)合訓(xùn)練,可以進(jìn)一步提升超分辨率效果??偟膩碚f,預(yù)處理模塊由于模型參數(shù)小,訓(xùn)練速度、模型收斂速度更快,更適用于實(shí)用環(huán)境。
因此,進(jìn)一步研究如何優(yōu)化預(yù)處理模塊以更好地適應(yīng)真實(shí)世界的復(fù)雜退化模型,并提高訓(xùn)練效率和計(jì)算資源的有效利用,對于推進(jìn)圖像超分辨率技術(shù)的發(fā)展具有重要意義。針對預(yù)處理模塊,本研究取得了以下成果:首先,本文提出了一個(gè)預(yù)處理模塊的架構(gòu),該架構(gòu)能夠有效地簡化真實(shí)世界低質(zhì)圖像的退化模型;其次,本文利用超分網(wǎng)絡(luò)的輸出特征學(xué)習(xí),進(jìn)一步提升了預(yù)處理模塊的性能以及其與超分模塊的匹配度;最后,提出了預(yù)處理模塊與超分網(wǎng)絡(luò)在后續(xù)聯(lián)調(diào)中的多任務(wù)學(xué)習(xí)機(jī)制,這有助于進(jìn)一步提高利用預(yù)處理模塊的超分網(wǎng)絡(luò)的性能指標(biāo)。通過在真實(shí)數(shù)據(jù)集DrealSR[4]和真實(shí)低光照數(shù)據(jù)集RELLISUR[5]上進(jìn)行實(shí)驗(yàn)證明所提出架構(gòu)和訓(xùn)練策略的有效性。
如圖2所示,本文采用密集塊[8](Dense Block)作為基礎(chǔ)架構(gòu)模塊,密集塊的設(shè)計(jì)理念在于其能夠融合多層次的特征信息,進(jìn)而形成更為平滑且準(zhǔn)確的決策邊界。這種設(shè)計(jì)在很多深度學(xué)習(xí)任務(wù)中都被證明是行之有效的。預(yù)處理階段產(chǎn)生的圖像偽影不僅影響超分辨率網(wǎng)絡(luò)對圖像特定區(qū)域紋理的重構(gòu),還可能引入不必要的噪聲或誤差。利用密集塊平滑的決策邊界可以有效地避免引入額外的圖像偽影。
圖2 增加預(yù)處理模塊網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)
為了進(jìn)一步提升網(wǎng)絡(luò)深度并增強(qiáng)預(yù)處理模型的特征映射能力,本文在密集塊的基礎(chǔ)上引入殘差連接[9]。這種連接方式允許信息在層與層之間直接流動,從而增強(qiáng)了網(wǎng)絡(luò)的表示能力。這種新架構(gòu)被命名為殘差致密塊(Residual Dense Block,RDB)。在加深RDB的深度時(shí),ESRGAN[10]曾經(jīng)指出批標(biāo)準(zhǔn)化層(Batch Normalization,BN)可能會導(dǎo)致架構(gòu)輸出偽影紋理??紤]到這一點(diǎn),移除基礎(chǔ)模塊中的所有BN層,以優(yōu)化網(wǎng)絡(luò)的性能。
為了從輸入圖像中初步提取普通圖像特征,本文在網(wǎng)絡(luò)的起始部分增加了卷積層,這些層能夠有效地提取淺層特征。之后,在RDB堆疊后,再次增加卷積層,以整合特征信息。這種設(shè)計(jì)滿足了從前往后的殘差連接需求,從而更好地集合了不同尺度下的特征結(jié)構(gòu)。最后,通過兩個(gè)卷積層對整合的特征進(jìn)行映射,輸出預(yù)處理后的圖像。這個(gè)過程確保了預(yù)處理后的圖像不僅提高圖像質(zhì)量,而且保留了原始圖像的重要細(xì)節(jié)和紋理。完整的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
如圖3所示,本節(jié)的核心目標(biāo)是利用真實(shí)世界超分辨率數(shù)據(jù)集訓(xùn)練預(yù)處理模塊,使其能夠?qū)W習(xí)到二三次下采樣退化模型與真實(shí)退化模型之間的差異。
圖3 預(yù)處理模塊訓(xùn)練模式
數(shù)據(jù)集準(zhǔn)備:選用通過調(diào)整拍攝設(shè)備獲得的具有不同分辨率和質(zhì)量真實(shí)世界超分辨率數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。為了讓預(yù)處理模塊習(xí)得真實(shí)的退化模型,采用真實(shí)高質(zhì)圖像進(jìn)行二三次下采樣生成LR*,使用真實(shí)低質(zhì)圖像作為LR。這種LR-LR*數(shù)據(jù)集為預(yù)處理模塊提供了關(guān)于圖像退化過程的信息。
預(yù)處理模塊訓(xùn)練:通過使用LR-LR*數(shù)據(jù)集對預(yù)處理模塊進(jìn)行訓(xùn)練,使預(yù)處理模塊能夠?qū)W習(xí)到從低質(zhì)圖像到高質(zhì)圖像的映射關(guān)系。訓(xùn)練過程中,超分辨率網(wǎng)絡(luò)不進(jìn)行參數(shù)優(yōu)化,這有助于減短整體訓(xùn)練過程,并使預(yù)處理模塊適用于所有二三次下采樣數(shù)據(jù)集訓(xùn)練得到的超分網(wǎng)絡(luò)。
特征學(xué)習(xí)與損失函數(shù)設(shè)計(jì):為了使預(yù)處理模塊更好地適應(yīng)超分辨率網(wǎng)絡(luò),引入了特征損失的概念。通過特征學(xué)習(xí),預(yù)處理模塊能夠更好地理解原始數(shù)據(jù)的底層結(jié)構(gòu),并從中提取出有用的特征。這種基于特征損失的設(shè)計(jì)使得預(yù)處理模塊能夠與超分辨率網(wǎng)絡(luò)緊密集成,從而提高整體性能。
根據(jù)所使用的超分辨率網(wǎng)絡(luò)類型的不同,預(yù)處理模塊會展現(xiàn)出不同的優(yōu)化方式。本文中選用ESRGAN作為超分辨率網(wǎng)絡(luò),利用其特征對預(yù)處理模型進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的預(yù)處理模型在結(jié)果中展現(xiàn)出與超分GAN網(wǎng)絡(luò)相似的特性,顯著提高了圖像的感知質(zhì)量。這進(jìn)一步證明了本文方法的有效性和適用性。
為了預(yù)處理模塊的快速訓(xùn)練而對超分網(wǎng)絡(luò)進(jìn)行的凍結(jié)處理存在由于超分網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集與實(shí)際應(yīng)用場景的不匹配問題。當(dāng)需要進(jìn)一步提高超分效果時(shí),不能僅依賴單一模塊的優(yōu)化。為了達(dá)到最佳的超分辨率效果,需要對整體網(wǎng)絡(luò)的超分模塊和預(yù)處理模塊進(jìn)行更為細(xì)致的聯(lián)合調(diào)優(yōu)。
本文中,將這種聯(lián)調(diào)方式通過式(1)進(jìn)行表示。在式(1)中,IHR代表真實(shí)高分辨率圖像,ILR表示真實(shí)低質(zhì)圖像,LOSStotal表示網(wǎng)絡(luò)的整體優(yōu)化目標(biāo),LOSSpreprocessing{·}表示預(yù)處理模塊的優(yōu)化目標(biāo),LOSSSRNet{·}表示超分模塊的優(yōu)化目標(biāo)。函數(shù)downsample4(·)表示以縮放因子為4的下采樣操作,而Preprocessing(·)則代表預(yù)處理模塊的映射函數(shù)。
LOSStotal=LOSSpreprocessing{ILR,downsample4(IHR)}+
LOSSSRNet{SRNet[Preprocessing(ILR)],IHR}
(1)
值得注意的是,由于預(yù)處理模塊和超分模塊的優(yōu)化目標(biāo)可能存在差異,這可能導(dǎo)致在聯(lián)調(diào)過程中出現(xiàn)側(cè)重于某一模塊優(yōu)化的現(xiàn)象。這種不均衡的優(yōu)化可能導(dǎo)致聯(lián)調(diào)失敗,進(jìn)而導(dǎo)致性能指標(biāo)的下降。為了解決這一問題,本文提出了一種利用損失值來為多任務(wù)優(yōu)化目標(biāo)賦予自適應(yīng)權(quán)重的策略。這種方法有效地平衡預(yù)處理模塊和超分模塊之間的權(quán)重,從而避免因過度側(cè)重某一模塊而導(dǎo)致聯(lián)調(diào)失敗的情況。優(yōu)化后的表達(dá)式如式(2)所示,其中ABS(·)表示對損失值求絕對值。
(2)
通過這種方式能夠確保預(yù)處理模塊和超分模塊在聯(lián)調(diào)過程中的協(xié)同優(yōu)化,從而提高整體網(wǎng)絡(luò)的超分辨率性能。并且根據(jù)實(shí)際需求下的性能要求,可以選擇是否需要進(jìn)行聯(lián)合調(diào)優(yōu),避免計(jì)算資源的浪費(fèi)。
根據(jù)參考文獻(xiàn),訓(xùn)練網(wǎng)絡(luò)所選擇的數(shù)據(jù)集和測試集均為DrealSR[4]和RELLISUR[5]。在評價(jià)指標(biāo)上,選擇了PSNR、SSIM和學(xué)習(xí)感知圖像塊相似度(Learned Perceptual Image Patch Similarity,LPIPS)作為評價(jià)指標(biāo)。
網(wǎng)絡(luò)訓(xùn)練所用平臺為Windows11,實(shí)驗(yàn)在單張NVIDIA GeForce GTX 3070顯卡上完成。模型參數(shù)使用Adam算法優(yōu)化,算法中參數(shù)設(shè)置為β1=0.9、β2=0.999。在學(xué)習(xí)策略方面,初始學(xué)習(xí)率設(shè)為1×10-4,將200K iterations設(shè)為一個(gè)周期,每經(jīng)過200K 迭代學(xué)習(xí)率重置為1×10-4。
由于預(yù)處理模塊輸出的視覺圖像效果對最終的超分辨率重建質(zhì)量具有顯著影響,本文以直觀的視覺圖像對比圖來評估預(yù)處理模塊的有效性。圖4展示了有無預(yù)處理模塊情況下二三次下采樣訓(xùn)練得到的ESRGAN對真實(shí)低質(zhì)的超分辨率重建結(jié)果。
圖4 預(yù)處理在真實(shí)圖像上的消融表現(xiàn)
在沒有預(yù)處理的情況下,ESRGAN在處理復(fù)雜的退化模型時(shí)表現(xiàn)出一定的局限性,難以有效去除圖像中的模糊效果。這表明,面對復(fù)雜的退化模型,單純的超分辨率網(wǎng)絡(luò)可能無法達(dá)到理想的重建效果。然而,通過引入預(yù)處理模塊,本文能夠顯著改善ESRGAN的超分辨率性能。預(yù)處理模塊有效地簡化了圖片中復(fù)雜的退化模型,為后續(xù)的超分辨率重建提供了更為清晰、準(zhǔn)確的圖像信息。
為了全面評估本文提出的預(yù)處理模塊在超分辨率重建方面的性能,本文將預(yù)處理模塊單模塊訓(xùn)練后的超分網(wǎng)絡(luò)ESRGANpre以及聯(lián)調(diào)后的ESRGANpre*與近年來一些先進(jìn)的圖像超分網(wǎng)絡(luò)進(jìn)行了對比。
3.3.1 DrealSR
在本節(jié)中與ESRGAN[10]、CDC[4]、STCN[11]、OR-Net[12]進(jìn)行對比。對比實(shí)驗(yàn)中的數(shù)據(jù)均來自相關(guān)論文,以便于公正客觀地評估各方法的性能。
通過表2,可以看到預(yù)處理模塊的應(yīng)用在不過量增加模型參數(shù)量的同時(shí),在ESRGAN中顯著提高了最終超分結(jié)果的感知質(zhì)量指標(biāo)表現(xiàn)。由于預(yù)處理模塊學(xué)習(xí)的特征來源于超分GAN網(wǎng)絡(luò),這導(dǎo)致在提高感知質(zhì)量的同時(shí),傳統(tǒng)指標(biāo)值有所降低。
表2 指標(biāo)對比
通過多任務(wù)學(xué)習(xí)后的整體網(wǎng)絡(luò)在不過度削弱結(jié)果感知質(zhì)量的同時(shí),大大提高傳統(tǒng)指標(biāo)表現(xiàn)。這一發(fā)現(xiàn)進(jìn)一步證實(shí)了聯(lián)調(diào)方法在平衡超分辨率重建的感知質(zhì)量和傳統(tǒng)指標(biāo)方面的有效性。
此外,本文還對模型的訓(xùn)練時(shí)長進(jìn)行數(shù)據(jù)對比,多個(gè)實(shí)驗(yàn)均在同一配置情況下進(jìn)行訓(xùn)練,訓(xùn)練過程中輸入圖像數(shù)據(jù)均為48×48大小。顯然,ESRGANpre與ESRGANpre*所需每次迭代的訓(xùn)練時(shí)長小于利用真實(shí)圖像對直接對ESRGAN進(jìn)行訓(xùn)練,能更好地滿足快速匹配需求的要求。
為了直觀展示不同方法的超分辨率效果,本文提供了如圖5所示的對比圖。上圖顯示了ESRGANpre*與CDC在保持圖像結(jié)構(gòu)方面的比較??梢钥闯觯珽SRGANpre*在強(qiáng)化圖像邊緣和紋理細(xì)節(jié)方面表現(xiàn)出色。下圖則展示了本文方法與CDC在恢復(fù)圖片上草塊的顏色與紋理方面的對比。通過對比可以明顯看出,本文方法能夠更好地還原原有圖像的質(zhì)量。
圖5 主觀視覺效果對比圖
3.3.2 RELLISUR
為了驗(yàn)證預(yù)處理模塊在其他真實(shí)退化模型的泛化能力,對比預(yù)處理模塊性能以及其單獨(dú)訓(xùn)練策略的有效性,本文選擇同樣具有分網(wǎng)絡(luò)訓(xùn)練的低光照超分辨率重建任務(wù)[5],數(shù)據(jù)均來源于論文。
低光照圖像增強(qiáng)網(wǎng)絡(luò)與超分網(wǎng)絡(luò)分別訓(xùn)練的策略,與單獨(dú)訓(xùn)練預(yù)處理模塊的訓(xùn)練策略進(jìn)行對比,證明預(yù)處理模型及單獨(dú)訓(xùn)練策略的有效性。
其中,MIRNet為低光照增強(qiáng)網(wǎng)絡(luò),DBPN為超分網(wǎng)絡(luò)。MIRNet利用RELLISUR數(shù)據(jù)集中低光照圖像-×1圖像對優(yōu)化,即將低光照圖像處理為真實(shí)低質(zhì)圖像。DBPN和ESRGAN用RELLISUR數(shù)據(jù)集中×1-×4圖像對優(yōu)化,即真實(shí)低質(zhì)圖像到真實(shí)高質(zhì)圖像的處理過程。
如表3所示,本文策略在該任務(wù)中在大幅減小模型大小的前提下,提高了SSIM和LPIPS指標(biāo)的表現(xiàn),PSNR也取得了較為先進(jìn)的結(jié)果。如圖6所示,在視覺效果對比中,本文的方法在圖像亮度和邊緣的恢復(fù)效果上表現(xiàn)更好,并且去除了大量的圖像中的噪聲,有更好的視覺質(zhì)量。
表3 低光照超分指標(biāo)對比
圖6 低光照超分視覺效果對比圖
實(shí)驗(yàn)結(jié)果說明預(yù)處理模塊能夠應(yīng)對各種不同的真實(shí)情況下的退化模型,同時(shí)也證明了利用超分特征學(xué)習(xí)能使得預(yù)處理模型良好的匹配于雙三次下采樣數(shù)據(jù)集訓(xùn)練得到超分網(wǎng)絡(luò)。
文獻(xiàn)[12]中指出,目前低光照超分暫時(shí)未有較好的解決方案,針對類似的圖像增強(qiáng)與超分相結(jié)合的底層視覺任務(wù),在匹配速度(訓(xùn)練速度)和精度上均有要求的實(shí)際場景中,本文提出了一個(gè)良好的思路。
針對圖像超分辨率算法在處理真實(shí)世界低分辨率圖像時(shí)難以消除復(fù)雜退化模型的問題,本文提出了一種創(chuàng)新的預(yù)處理模塊,旨在優(yōu)化超分辨率網(wǎng)絡(luò)的應(yīng)用。通過結(jié)合真實(shí)圖像預(yù)處理模塊和多種訓(xùn)練策略,本文成功地簡化了真實(shí)低分辨率圖像中的復(fù)雜退化模型。這一改進(jìn)不僅提高了重建效果和感知質(zhì)量,還有著快速訓(xùn)練匹配任務(wù)的特點(diǎn),為真實(shí)世界單低質(zhì)圖像超分辨率領(lǐng)域提供了新的思路和方法。