吳笑天,楊 航,孫興龍
(1.長春理工大學(xué)光電工程學(xué)院,吉林 長春130022;2.中國科學(xué)院 長春光學(xué)精密機(jī)械與物理研究所,吉林 長春130033)
計(jì)算成像技術(shù)是視覺技術(shù)不斷發(fā)展演進(jìn)中與時(shí)俱進(jìn)形成的新興交叉學(xué)科,一般泛指在成像全鏈路過程中涉及計(jì)算的成像技術(shù)。計(jì)算成像技術(shù)通過全成像鏈路環(huán)節(jié)的定向分析及聯(lián)合優(yōu)化,主動(dòng)或被動(dòng)的形成目標(biāo)場景和觀測圖像之間的調(diào)制或變換模型,并基于該模型通過數(shù)學(xué)上逆問題求解反演解算生成所需圖像的過程。因此,計(jì)算手段的求逆過程是計(jì)算成像中的核心問題。圖像清晰化技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)問題[1-2],近年來隨著計(jì)算成像技術(shù)的普及深入,也促進(jìn)著該技術(shù)在計(jì)算成像領(lǐng)域的發(fā)展及應(yīng)用。本文針對波前編碼、單透鏡計(jì)算成像等計(jì)算成像領(lǐng)域的全局一致模糊計(jì)算復(fù)原背景需求,開展圖像清晰化理論方法的研究。
在上述計(jì)算成像的子課題領(lǐng)域,波前編碼[3]計(jì)算成像過程通過添加相位掩模板實(shí)現(xiàn)光學(xué)調(diào)制的過程從而實(shí)現(xiàn)成像系統(tǒng)景深的延拓;單透鏡計(jì)算成像過程[4]則通過帶有菲涅爾結(jié)構(gòu)條紋的單透鏡實(shí)現(xiàn)光學(xué)調(diào)制的過程,并最終實(shí)現(xiàn)單透鏡大視場的輕巧成像。該調(diào)制過程在圖像傳感器層面上相當(dāng)于實(shí)施了全局一致模糊化降質(zhì)的過程,光學(xué)調(diào)制的引入需要“計(jì)算解調(diào)”過程實(shí)現(xiàn)圖像復(fù)原處理。因此,一種穩(wěn)定可靠的全局一致模糊復(fù)原算法成為上述領(lǐng)域研究的關(guān)鍵問題。
全局一致模糊化降質(zhì)的過程,可以建模為清晰圖像L與模糊核k的卷積,其數(shù)學(xué)表達(dá)式如公式(1)所示:
其中:O為觀察到的模糊圖像,L為清晰圖像,k為全局一致模糊核,n是加性噪聲,“?”表示卷積算子。圖像去模糊過程其實(shí)質(zhì)是在已知模糊圖像O而未知的清晰圖像L和模糊核k條件下,實(shí)施清晰圖像L的估計(jì)。該問題為全局一致的盲復(fù)原問題,在數(shù)學(xué)上是一個(gè)經(jīng)典的病態(tài)問題。
盲復(fù)原問題的求解通常通過構(gòu)建目標(biāo)函數(shù)及添加先驗(yàn)約束以實(shí)現(xiàn)病態(tài)問題中模糊核估計(jì)的可解化,并由此將盲復(fù)原問題轉(zhuǎn)化為非盲反卷積問題,從而實(shí)現(xiàn)清晰圖像L的求解。在這種情況下,模糊核估計(jì)的精度直接決定并影響著復(fù)原圖像的效果。傳統(tǒng)優(yōu)化方法一般通過添加先驗(yàn)約束實(shí)施,易出現(xiàn)先驗(yàn)約束失效的情形;通過構(gòu)建端到端的深度學(xué)習(xí)復(fù)原網(wǎng)絡(luò)能夠獲得很好的復(fù)原效果,但是實(shí)現(xiàn)效果依賴訓(xùn)練過程,限制了該方法的實(shí)際使用與普及推廣。
為了解決上述問題,本文提出了一種基于區(qū)域選擇網(wǎng)絡(luò)的圖像去模糊方法。該方法是傳統(tǒng)模糊復(fù)原與深度學(xué)習(xí)理論方法的結(jié)合。該方法最大的特點(diǎn)在于在傳統(tǒng)復(fù)原方法的主體基礎(chǔ)上,引入了區(qū)域選擇網(wǎng)絡(luò),該網(wǎng)絡(luò)不直接參與圖像端到端的復(fù)原,而是對于模糊復(fù)原問題中關(guān)鍵因素——模糊求取區(qū)域選擇進(jìn)行干預(yù),能夠在全局圖像中剔除平坦過曝、短小紋理等區(qū)域,自動(dòng)選取最適宜求解模糊核的區(qū)域,從而規(guī)避了基于優(yōu)化復(fù)原方法先驗(yàn)失效的弊端。
本文方法的實(shí)現(xiàn)思路不同于多數(shù)深度學(xué)習(xí)端到端的圖像復(fù)原方法。本論文所設(shè)計(jì)的網(wǎng)絡(luò)雖然需要數(shù)據(jù)集的預(yù)訓(xùn)練,但數(shù)據(jù)集的制備不依賴波前編碼、單透鏡計(jì)算成像等應(yīng)用場景的針對性訓(xùn)練,所提出的網(wǎng)絡(luò)不直接用于圖像端至端的生成,規(guī)避了其他深度學(xué)習(xí)方法依賴訓(xùn)練數(shù)據(jù)的弊端。
試驗(yàn)結(jié)果表明,本文提出的方法能夠適應(yīng)全局一致模糊復(fù)原任務(wù),區(qū)域選擇網(wǎng)絡(luò)魯棒性較好,能夠獲得良好的模糊核估計(jì),整體復(fù)原結(jié)果清晰可靠。
計(jì)算成像強(qiáng)調(diào)面向成像背景需求的定向化、定制化設(shè)計(jì),具有明顯的問題導(dǎo)向性特點(diǎn)。目前缺乏統(tǒng)一的數(shù)學(xué)模型表述。波前編碼和單透鏡計(jì)算成像為計(jì)算成像領(lǐng)域的兩個(gè)子分支。
波前編碼成像技術(shù)[3,5]是指在在光學(xué)成像系統(tǒng)中引入相位掩模板,從而使得像面上的光線不再匯聚為一點(diǎn),而是變成在一定離焦范圍內(nèi)均勻的細(xì)光束。雖然這樣的設(shè)計(jì)會(huì)導(dǎo)致探測器直接獲取的圖像變得模糊,但是這種模糊是計(jì)算可逆的,并且能在較長焦深范圍內(nèi)實(shí)施這種計(jì)算重構(gòu),最終擴(kuò)展的焦深范圍可達(dá)傳統(tǒng)鏡頭的10倍。圖1為文獻(xiàn)[5]所示的實(shí)現(xiàn)結(jié)果,該文的計(jì)算解調(diào)圖像復(fù)原算法基于傳統(tǒng)的優(yōu)化方法實(shí)現(xiàn)。
圖1 計(jì)算衍射成像及其圖像復(fù)原效果Fig.1 Diffractive computational imaging and its restora?tion
單透鏡計(jì)算成像領(lǐng)域旨在解決系統(tǒng)成像的輕巧化設(shè)計(jì)[6]。設(shè)計(jì)者通過單一透鏡取代傳統(tǒng)成像系統(tǒng)的多層鏡片光學(xué)結(jié)構(gòu),并將單一透鏡的像差優(yōu)化交付給計(jì)算軟件,實(shí)現(xiàn)清晰圖像的恢復(fù)。最新的單透鏡成像方式由斯坦福大學(xué)在2019年提出,該文實(shí)現(xiàn)了一種基于菲涅爾結(jié)構(gòu)條紋的單透鏡的大視場計(jì)算成像方法[4],該方法在光學(xué)設(shè)計(jì)上在單凸透鏡表面利用菲涅爾結(jié)構(gòu)條紋,實(shí)現(xiàn)的光學(xué)系統(tǒng)像差不隨入射角變化,全視場范圍內(nèi)光學(xué)系統(tǒng)的點(diǎn)擴(kuò)散函數(shù)(Point Spread Function,PSF)近乎一致但顯示出較大的光斑尺寸,便于計(jì)算復(fù)原的實(shí)施與開展,如圖2所示。
圖2 單透鏡計(jì)算成像及其復(fù)原效果Fig.2 Single-lens computational imaging and its restora?tion
該文的計(jì)算解調(diào)圖像復(fù)原算法基于生成對抗網(wǎng)絡(luò)[7]實(shí)現(xiàn)端至端的圖像復(fù)原,數(shù)據(jù)訓(xùn)練過程較為復(fù)雜,需要基于實(shí)驗(yàn)室條件下的采集回顯系統(tǒng)實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的制備。
上述兩者雖然應(yīng)用場景有著很大的區(qū)別,但是計(jì)算成像“光學(xué)調(diào)制”的過程均體現(xiàn)在探測器直接獲取的圖像表現(xiàn)為明顯的全局一致的成像模糊。計(jì)算解調(diào)的實(shí)施均依賴穩(wěn)定可靠的全局一致模糊圖像的復(fù)原算法。
對于2.1節(jié)所述的全局一致模糊的圖像復(fù)原需求,全局一致模糊核估計(jì)是其中的關(guān)鍵環(huán)節(jié),而區(qū)域選擇又是模糊核估計(jì)的關(guān)鍵步驟。文獻(xiàn)[8]指出從圖像中選擇最優(yōu)區(qū)域而不是整幅圖像,實(shí)現(xiàn)模糊核的估計(jì),不僅在成像效果提升上有顯著意義,同時(shí)還能夠降低復(fù)原計(jì)算的時(shí)間復(fù)雜度,提升運(yùn)算效率。
為了證明模糊核求取區(qū)域選擇對整體復(fù)原效果有著直接的影響,本文針對性地做了一組實(shí)驗(yàn),如圖3所示。
圖3 不同的區(qū)域的模糊核估計(jì)及其復(fù)原效果Fig.3 Different patches lead to different kernel estima?tions and different deblurred results.
圖3(a)為原始降質(zhì)模糊圖像,在該降質(zhì)模糊圖像中分別選取藍(lán)色、綠色及紅色圖塊區(qū)域?yàn)槟:饲笕^(qū)域,使用同樣的復(fù)原方法[9]獲得模糊核估計(jì)及整體復(fù)原效果分別如圖3(b)、圖3(c)、圖3(d)所示。試驗(yàn)結(jié)果表明,圖3(d)所示復(fù)原效果最優(yōu),圖3(c)所示的復(fù)原效果有少許振鈴,圖3(b)所示的復(fù)原效果則完全失效。由此可見,模糊核求取區(qū)域選擇對整體復(fù)原效果有著直接的影響(彩圖見期刊電子版)。
區(qū)域選擇需要充分利用模糊圖像中各類結(jié)構(gòu)信息。然而,并不是所有的模糊圖像像素都對模糊核估計(jì)有積極的影響。文獻(xiàn)[9]指出具有強(qiáng)邊緣的區(qū)域可以產(chǎn)生較好的去模糊效果。Fer?gus等人[10]選擇方差大、飽和度低的圖像塊進(jìn)行模糊核估計(jì)。文獻(xiàn)[11]基于一維信號證明了短長度的邊緣對模糊求取會(huì)產(chǎn)生有不利的影響,模糊核的尺度相對大于目標(biāo)時(shí),即使具有較強(qiáng)的邊緣信息的區(qū)域也不能改善模糊核估計(jì)的效果。文獻(xiàn)[12-14]中提出了多種基于梯度的方法,其試驗(yàn)結(jié)果均表明具有特殊梯度模式的顯著邊緣有利于模糊核估計(jì)。Bae等人[15]提出了一種基于非直線度和邊緣尺寸的像素級度量來選擇圖像區(qū)域來估計(jì)模糊核的方法。Hu等人[8]利用Ga?bor濾波器組構(gòu)造圖像特征,并學(xué)習(xí)二元分類器在條件隨機(jī)場(CRF)框架內(nèi)選擇好的去模糊區(qū)域。CRF模型雖然取得了良好的效果,但由于圖像特征的人為設(shè)計(jì)和計(jì)算復(fù)雜度的提高,使其應(yīng)用范圍受到了很大的限制。
計(jì)算成像領(lǐng)域的圖像復(fù)原需求雖然與運(yùn)動(dòng)模糊復(fù)原有著本質(zhì)的區(qū)別,但是計(jì)算成像采用的復(fù)原方法多數(shù)源自運(yùn)動(dòng)模糊復(fù)原領(lǐng)域。一般的運(yùn)動(dòng)模糊復(fù)原方法主體上可分為兩類:基于優(yōu)化的方法和基于學(xué)習(xí)的方法。
基于優(yōu)化的方法側(cè)重于探索圖像的各類先驗(yàn)?zāi)P?。Fergus等人[10]提出了自然圖像的稀疏梯度先驗(yàn)。Cho和Lee[13]在多尺度框架中利用圖像梯度先驗(yàn)進(jìn)行圖像去模糊處理。Xu等人[11]提出了一種兩階段算法來改進(jìn)模糊核的估計(jì)。Levin等人[9]通過優(yōu)化最大后驗(yàn)概率(MAP)模型來估計(jì)模糊核。Gong等人[16]利用梯度激活方法選擇梯度子集進(jìn)行模糊核估計(jì),而不是使用圖像中的強(qiáng)邊緣。這些圖像去模糊方法對大部分的自然模糊圖像是有效的,但是對于特殊類型的圖像,如低照度圖像、文本圖像和人臉圖像等等,這些方法都會(huì)遇到困難。
為了解決這些問題,學(xué)者們提出了許多更加具體的圖像先驗(yàn)?zāi)P停?7-21]。Lai等人[17]利用顏色線來復(fù)原圖像的邊緣。對于文本圖像,Pan等人[19]在圖像強(qiáng)度和梯度上均引入了L 0正則化先驗(yàn),提出了一種用于去模糊圖像的暗通道先驗(yàn)算法,該算法對低照度圖像、文本圖像和人臉圖像都有很好的復(fù)原效果。然而,當(dāng)圖像中以亮度高的像素為主時(shí),暗通道先驗(yàn)就無法有效的估計(jì)模糊核。針對暗通道先驗(yàn)算法的缺點(diǎn),Yan等人[20]進(jìn)一步提出了一種結(jié)合暗通道先驗(yàn)和亮通道先驗(yàn)的極端信道先驗(yàn),提高了去模糊方法的魯棒性。Chang等人[21]提出了一種局部最大梯度(LMG)先驗(yàn),它可以處理各種特殊的圖像場景。
隨著深度學(xué)習(xí)在高層次視覺領(lǐng)域的成功應(yīng)用[22-23],出現(xiàn)了許多基于深度卷積網(wǎng)絡(luò)的圖像去模糊方法。Schuler等人[24]使用訓(xùn)練好的深度網(wǎng)絡(luò)估計(jì)模糊核,然后使用傳統(tǒng)的非盲反卷積方法復(fù)原清晰圖像。Hradis等人[25]在不假設(shè)任何模糊類型的情況下,通過訓(xùn)練深度網(wǎng)絡(luò)直接重構(gòu)出清晰的文本圖像。Yan等人[26]提出了一個(gè)深層卷積網(wǎng)絡(luò)和一個(gè)一般回歸網(wǎng)絡(luò)來分類模糊核的類型并估計(jì)其參數(shù)。Li在文[27]中利用二元分類網(wǎng)絡(luò)訓(xùn)練優(yōu)化模型框架下的先驗(yàn)信息,取得良好的實(shí)現(xiàn)效果;Nah[28]提出了一種多尺度卷積神經(jīng)網(wǎng)絡(luò),以端到端(End to End)的方式實(shí)現(xiàn)模糊圖像的清晰化復(fù)原,同時(shí)該文發(fā)布了GOPRO數(shù)據(jù)集,廣泛用于后續(xù)的模糊圖像復(fù)原的各種對比研究。但此處需要指出的是,該數(shù)據(jù)集用于研究全局非均勻一致的模糊復(fù)原討論,與本文應(yīng)用限定的全局一致模糊前提不一致,因此本文后續(xù)的研究中沒有在該數(shù)據(jù)集的基礎(chǔ)上開展討論;Zhang在文[29]中提出將RNN的特征提取優(yōu)勢與CNN的權(quán)重學(xué)習(xí)特性相結(jié)合,提出了一種可用于非均勻運(yùn)動(dòng)模糊端至端的復(fù)原神經(jīng)網(wǎng)絡(luò);Kupyn等人在文[7,30]提出用于去圖像運(yùn)動(dòng)模糊的端到端生成對 抗 網(wǎng) 絡(luò)(Generative Adversarial Networks,GAN)。
大量的圖像去模糊研究致力于利用圖像先驗(yàn)假設(shè)來提高模糊核估計(jì)效果和改進(jìn)復(fù)原圖像的視覺質(zhì)量,而圖像結(jié)構(gòu)特征對模糊核估計(jì)的影響研究較少。Li在文[27]中雖然同樣提出使用二元分類網(wǎng)絡(luò),但該文方法使用網(wǎng)絡(luò)學(xué)習(xí)的手段實(shí)現(xiàn)先驗(yàn)信息的替代。本文方法是通過訓(xùn)練深度二元分類的區(qū)域選擇網(wǎng)絡(luò)找出有用的圖像結(jié)構(gòu)以進(jìn)行模糊核估計(jì),進(jìn)而復(fù)原出清晰圖像。
基于區(qū)域選擇網(wǎng)絡(luò)的圖像復(fù)原方法主要包括區(qū)域選擇網(wǎng)絡(luò)、模糊核估計(jì)、非盲圖像復(fù)原及基于光學(xué)衰減模型的圖像增強(qiáng)過程,其主要流程參見圖4所示。
圖4 基于區(qū)域選擇網(wǎng)絡(luò)的圖像復(fù)原方法的流程示意圖Fig.4 Flow chart of image restoring method based on region selection network
3.1.1 區(qū)域選擇網(wǎng)絡(luò)
區(qū)域選擇網(wǎng)絡(luò)的主要作用在于對傳統(tǒng)方法中模糊核求取區(qū)域的選擇進(jìn)行干預(yù),通過構(gòu)建的深度二元分類網(wǎng)絡(luò),能夠自動(dòng)在全局圖像中剔除平坦過曝、短小紋理等區(qū)域,并選取最優(yōu)的用于模糊核求取的圖塊區(qū)域;區(qū)域選擇網(wǎng)絡(luò)的詳細(xì)介紹參見3.2節(jié)所述。經(jīng)過區(qū)域選擇網(wǎng)絡(luò)的遍歷后,區(qū)域選擇網(wǎng)絡(luò)會(huì)依據(jù)圖塊的輸入自動(dòng)輸出最佳的區(qū)域選擇位置及相應(yīng)圖塊B。
3.1.2 模糊核估計(jì)
依據(jù)該區(qū)域選擇位置,我們采用文[19]的方法實(shí)現(xiàn)該區(qū)域的模糊核估計(jì),優(yōu)化函數(shù)如公式(2)所示:
其中:B為區(qū)域選擇網(wǎng)絡(luò)推薦的圖塊,L為推薦圖塊對應(yīng)的估計(jì)值;項(xiàng)使得估計(jì)值圖塊L與模糊核k的卷積應(yīng)盡量趨近于觀測圖塊B;為卷積核的正則化項(xiàng)用于促使復(fù)原圖塊L盡量保持梯度稀疏性為該文提出的用于測量暗通道先驗(yàn)稀疏性的正則化項(xiàng);γ,μ,λ為正則項(xiàng)參數(shù)。
3.1.3 非盲圖像復(fù)原
在已知模糊核估計(jì)的基礎(chǔ)上,利用文獻(xiàn)[18]的方法,實(shí)現(xiàn)全局模糊圖像的非盲復(fù)原過程,該過程首先使用Laplacian先驗(yàn)估計(jì)目標(biāo)圖像L l,然后再采用公式(3)所述的迭代過程得到另一個(gè)結(jié)果LTV。
然后計(jì)算二者的差值:L diff=L l-L TV,該差值圖像中包含振鈴,因此采用雙邊濾波對其中的振鈴進(jìn)行濾除,得到結(jié)果BF(Ldiff),最后,用L l減去BF(Ldiff)得到最終的去模糊圖像O?(x)。
3.1.4 圖像清晰化
從文獻(xiàn)[4-5]采集的計(jì)算成像系統(tǒng)的試驗(yàn)數(shù)據(jù)可知,這些計(jì)算成像的前端除了引入全局一致圖像模糊外,由于光學(xué)系統(tǒng)的“不完善”還引入一定程度的衰減。光學(xué)系統(tǒng)的衰減雖然在成像鏈條上與大氣衰減不同,但是成像衰減模型是相同的。因此,我們在后端加入基于光學(xué)衰減模型的圖像增強(qiáng)過程。試驗(yàn)結(jié)果表明,基于光學(xué)衰減模型的圖像增強(qiáng)過程能夠良好的改善圖像對比度,有利于保持成像系統(tǒng)的顏色恒常性。成像衰減模型如公式(4)所示:
其中:O(x)為經(jīng)過模糊化消除后的觀測圖像,J(x)為待恢復(fù)的場景圖像,t(x)為傳輸參數(shù),A為背景光參數(shù)。
在該衰減模型的基礎(chǔ)上,我們使用基于暗通道先驗(yàn)[31]及圖像引導(dǎo)濾波[32]的圖像清晰化方法實(shí)現(xiàn)圖像增強(qiáng)過程,如公式(5)所示,暗通道先驗(yàn)及引導(dǎo)濾波的相關(guān)原理參見相關(guān)文獻(xiàn)所述[31-32]:
其 中:Guided(minΩ(x)(O?(x)))表 征 在 引 導(dǎo) 濾 波優(yōu)化下的暗通道圖像的獲取,c為顏色空間,w為防止圖像過增強(qiáng)而引入的固定參數(shù),設(shè)置為0.9。
在已知傳輸參數(shù)圖像的基礎(chǔ)上,通過公式(6)實(shí)現(xiàn)圖像的復(fù)原處理。
其中:max(t(x),t0)為防止圖像過增強(qiáng)而引入的限值操作,t0為固定參數(shù),設(shè)置為0.1。
受文獻(xiàn)[27]利用二元分類網(wǎng)絡(luò)實(shí)現(xiàn)模糊先驗(yàn)評判的啟發(fā),本文同樣選擇二元分類網(wǎng)絡(luò)作為模糊區(qū)域的推薦網(wǎng)絡(luò)的主體架構(gòu)。在實(shí)際部署應(yīng)用時(shí),該網(wǎng)絡(luò)能夠?qū)斎雸D像以步長為5執(zhí)行全局遍歷圖塊過程,每一個(gè)圖塊均被輸入進(jìn)網(wǎng)絡(luò),網(wǎng)絡(luò)輸出為一個(gè)概率值,表征這個(gè)圖塊能夠用來估計(jì)模糊核的可能性有多大。例如如果輸出為0.95,則表明該圖像塊能夠估計(jì)出好的模糊核的可能性高達(dá)95%。最終選擇所有輸出中概率值最高的圖塊作為最優(yōu)的模糊核求取區(qū)域推薦。
為了實(shí)現(xiàn)這樣的二元分類網(wǎng)絡(luò),本文基于ResNet34[33]要作為網(wǎng)絡(luò)架構(gòu)的主體,合理設(shè)計(jì)了該網(wǎng)絡(luò)的損失函數(shù)及參數(shù)配置,構(gòu)建了該網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集,本文后續(xù)章節(jié)將詳細(xì)介紹上述內(nèi)容。
3.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
分類問題是機(jī)器學(xué)習(xí)的基本問題。深度學(xué)習(xí)理論方法對于分類領(lǐng)域有著成功的應(yīng)用。比較經(jīng)典的深度學(xué)習(xí)分類方法包括VGGNet,In?ceptionNet, ResNet, DenseNet, Inception?ResNet等。
考慮后續(xù)算法的工業(yè)化移植部署,權(quán)衡效果、效率、資源依賴等因素,本文選擇ResNet34[33]作為本文網(wǎng)絡(luò)實(shí)現(xiàn)架構(gòu)的主體。
部署ResNet34網(wǎng)絡(luò)的主要目的在于實(shí)現(xiàn)輸入圖塊是否適宜作為圖像模糊核估計(jì)區(qū)域的判定,即二元判定。以+1作為適宜模糊核估計(jì)的區(qū)域,以0作為非適宜模糊核估計(jì)的區(qū)域。
對于ResNet34網(wǎng)絡(luò)的直接部署不適宜本文的應(yīng)用場景。常規(guī)的神經(jīng)網(wǎng)絡(luò)以“分類”作為主要目的,希望強(qiáng)化平移不變性,以期實(shí)現(xiàn)對于目標(biāo)的穩(wěn)定分類。但是本文的網(wǎng)絡(luò)結(jié)構(gòu)在于圖像模糊核估計(jì)區(qū)域選擇,因此希望弱化網(wǎng)絡(luò)結(jié)構(gòu)的平移不變性。事實(shí)上,如圖5所示,對于圖5(a)圖塊平移少量像素確實(shí)導(dǎo)致核相似度的顯著變化。
圖5 移動(dòng)子窗口的不同模糊核估計(jì)Fig.5 Estimated kernels from shifting sub-windows
為了弱化網(wǎng)絡(luò)的平移不變性,同時(shí)也為了保證網(wǎng)絡(luò)訓(xùn)練的泛化性能和準(zhǔn)確性,我們對ResNet34進(jìn)行改進(jìn),將其中的池化層用大步長的卷積層替代,以此來提高網(wǎng)絡(luò)的分類性能。如此改動(dòng)的依據(jù)來自文獻(xiàn)[34],該文指出深度卷積網(wǎng)絡(luò)的平移不變性主要來自于池化層。
3.2.2 損失函數(shù)
本文對輸入圖像塊及其標(biāo)簽分別用x和y表示,網(wǎng)絡(luò)參數(shù)用θ表示。訓(xùn)練CNNs的目的是要學(xué)習(xí)訓(xùn)練出公式7所示的映射函數(shù)預(yù)測出x被分類為y的概率。
使用二元交叉熵?fù)p失函數(shù)對深度網(wǎng)絡(luò)進(jìn)行優(yōu)化:
其中:N表示樣本的個(gè)數(shù),=f(x;θ),表示網(wǎng)絡(luò)的輸出,本文設(shè)置y=1表示有利于模糊核估計(jì)的區(qū)域,y=0表示對模糊核估計(jì)無作用的區(qū)域。
3.2.3 數(shù)據(jù)準(zhǔn)備
為了證明本文方法遷移應(yīng)用的有效性,本文沒有在波前編碼系統(tǒng)[5]及單透鏡的成像系統(tǒng)[4]中實(shí)施針對場景部署的數(shù)據(jù)訓(xùn)練。本文使用運(yùn)動(dòng)模糊數(shù)據(jù)庫及相應(yīng)的模糊圖像生成技術(shù)實(shí)現(xiàn)數(shù)據(jù)庫的構(gòu)建。使用運(yùn)動(dòng)數(shù)據(jù)庫的意義有兩點(diǎn),一則證明本文方法的遷移應(yīng)用的有效性,二則方便后文與其他的運(yùn)動(dòng)模糊方法做對比。
3.2.3.1 圖塊制備
本文訓(xùn)練數(shù)據(jù)集主要源自Hu的文獻(xiàn)[8],本文選擇了其中30個(gè)清晰的圖像,包括自然場景、人造場景、文本和人臉圖像,以及32個(gè)大小、類型不同的模糊核,其尺度從11×11到55×55。采用文獻(xiàn)[9]中的方法生成960個(gè)模糊圖像以供訓(xùn)練,并獲取了960個(gè)模糊核的真值數(shù)據(jù)。然后,利用清晰圖像和模糊核的卷積,同時(shí)加入高斯噪聲合成模糊圖像,其中噪聲的方差為4.0。
在上述960個(gè)帶有真值模糊核的模糊圖像中截取圖塊作為網(wǎng)絡(luò)訓(xùn)練的樣本。對于每個(gè)圖像,構(gòu)造一個(gè)尺寸大小為228×228個(gè)像素的圖像子塊集合,其方法如下:從圖像的左上點(diǎn)為起始,每次取228×228大小的圖像塊作為集合中的一個(gè)元素,然后再向右平移20個(gè)像素,采集下一個(gè)圖像塊,當(dāng)一行掃描結(jié)束后,回到最左側(cè)并向下移動(dòng)20行作為新的起始點(diǎn),并按照第一行的方式獲取圖像子塊。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)模糊核的尺寸小于55×55個(gè)像素時(shí),本文設(shè)置的圖像塊的大小足以用來估計(jì)模糊核。在給定這些參數(shù)的情況下,對于一幅450×450大小的圖像,可以獲得121個(gè)圖像塊作為訓(xùn)練樣本。最終獲取了約3萬個(gè)訓(xùn)練圖塊。
3.2.3.2 數(shù)據(jù)標(biāo)定
在獲取的3萬個(gè)訓(xùn)練圖塊的基礎(chǔ)上,對數(shù)據(jù)圖塊進(jìn)行標(biāo)定,將數(shù)據(jù)圖塊進(jìn)行正類(+1)和負(fù)類(0)的標(biāo)識(shí),正類表示這些區(qū)域可以很好地估計(jì)模糊核,而負(fù)標(biāo)記圖像區(qū)域不能用來估計(jì)模糊核。正類和負(fù)類的標(biāo)定依據(jù)文[7]中提出的估計(jì)模糊核與相應(yīng)的真值間的相似性方法。
對于從每個(gè)圖像塊使用Yang等人[35]的方法來估計(jì)每個(gè)圖像塊的模糊核,使用文[8]方法評估真值相似性。如果相似度大于閾值λ,則將圖像區(qū)域標(biāo)記為1,否則將圖像區(qū)域標(biāo)記為0。為了便于訓(xùn)練和網(wǎng)絡(luò)的泛化能力,使正負(fù)樣本的比例接近1∶1,同時(shí)也為了保證模糊核估計(jì)的準(zhǔn)確性,將閾值λ=0.75。
3.2.4 參數(shù)設(shè)置
對于模型訓(xùn)練,利用隨機(jī)梯度下降法(SGD)對網(wǎng)絡(luò)進(jìn)行優(yōu)化。本文使用的批量大小為32,動(dòng)量設(shè)置為0.9,學(xué)習(xí)率設(shè)置為0.001。使用ResNet34的預(yù)訓(xùn)練參數(shù)作為初始化參數(shù),對網(wǎng)絡(luò)中被替換的卷積層、第三層、第四層和全連接層進(jìn)行微調(diào)。根據(jù)本文實(shí)驗(yàn),20次迭代可以達(dá)到收斂。
文獻(xiàn)[5]提供了幾組利用該文波前編碼成像系統(tǒng)采集試驗(yàn)數(shù)據(jù)。本文在未使用該文數(shù)據(jù)庫參與試驗(yàn)訓(xùn)練的基礎(chǔ)上,利用本文所述的方法獲得的試驗(yàn)效果如圖6所示。從圖中可以看出,本文方法在細(xì)節(jié)恢復(fù)及顏色對比度方面略優(yōu)于文獻(xiàn)[5]的方法。
圖6 單透鏡計(jì)算成像及其復(fù)原效果Fig.6 Diffractive computational imaging and its restora?tion
文獻(xiàn)[4]實(shí)現(xiàn)了基于菲涅爾條紋結(jié)構(gòu)的單透鏡成像系統(tǒng),并提供了幾組試驗(yàn)數(shù)據(jù)。本文同樣在未使用該文數(shù)據(jù)庫參與數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,利用本文所述的方法獲得的試驗(yàn)效果如圖7所示。試驗(yàn)結(jié)果表明,本文的方法在圖像復(fù)原處理效果上與文獻(xiàn)[4]的方法接近,但是細(xì)節(jié)對比處發(fā)現(xiàn),文獻(xiàn)[4]的方法在平坦區(qū)域形成明顯的噪聲。
圖7 單透鏡計(jì)算成像及其復(fù)原效果Fig.7 Single lens computational imaging and its restora?tion
此外,文獻(xiàn)[4]的方法實(shí)現(xiàn)了良好的顏色白平衡效果,這是端至端的匹配訓(xùn)練過程中由訓(xùn)練數(shù)據(jù)“驅(qū)動(dòng)”實(shí)現(xiàn)的效果,這是該類深度學(xué)習(xí)復(fù)原方法的優(yōu)勢;但同時(shí)也是其潛在的劣勢。如文獻(xiàn)[4]所述,該文需要部署專用的采集回顯系統(tǒng)做針對性的訓(xùn)練數(shù)據(jù)采集,不僅造成了系統(tǒng)批量使用中的諸多不便,也增加了實(shí)際使用中由于場景變化而導(dǎo)致的潛在的成像不確定性。
本文提出方法,算法主體沿用傳統(tǒng)模糊復(fù)原圖像清晰化理論方法;所引入的區(qū)域選擇網(wǎng)絡(luò),不直接參與圖像端到端的復(fù)原,而僅對模糊復(fù)原中關(guān)鍵因素模糊區(qū)域選擇進(jìn)行干預(yù),以此優(yōu)化模糊核估計(jì)這一關(guān)鍵參數(shù)。所涉及的網(wǎng)絡(luò)雖然需要數(shù)據(jù)集的預(yù)訓(xùn)練,但數(shù)據(jù)集的制備不依賴場景的針對性訓(xùn)練。從圖6~圖7的成像復(fù)原效果可知,本文方法在場景成像數(shù)據(jù)未參與訓(xùn)練的基礎(chǔ)上,在上述兩種計(jì)算成像場景中均實(shí)現(xiàn)了較好的復(fù)原效果,具有良好的復(fù)原穩(wěn)定性優(yōu)勢。
據(jù)調(diào)研,在2.1節(jié)所述的計(jì)算成像領(lǐng)域內(nèi)基于區(qū)域選擇網(wǎng)絡(luò)實(shí)施的圖像去模糊方法,本文尚屬首例,上述領(lǐng)域相關(guān)數(shù)據(jù)試驗(yàn)集的發(fā)布也較少,且無真值參考圖像,不利于開展對比試驗(yàn)。因此,本文選擇在運(yùn)動(dòng)模糊復(fù)原領(lǐng)域開展基于本文方法的對比試驗(yàn)。
4.2.1 人工及其他區(qū)域選擇方法的對比試驗(yàn)
現(xiàn)有的區(qū)域選擇方法主要包括Fergus的文獻(xiàn)[10],Xu的文獻(xiàn)[11],及Hu的文獻(xiàn)[8],及人工交互式的方法。在與人工交互方法的對比中,隨機(jī)選擇幾位計(jì)算機(jī)專業(yè)的學(xué)生作為試驗(yàn)用戶實(shí)現(xiàn)人工的區(qū)域選擇的試驗(yàn)。
對比試驗(yàn)結(jié)果如圖8所示。人工用戶在進(jìn)行交互式的去模糊區(qū)域選擇時(shí),傾向于選擇具有顯著邊緣的區(qū)域,但人為對于邊緣信息的理解并不等同于最適宜區(qū)域?qū)D像邊緣的預(yù)期。Fergus的區(qū)域選擇算法會(huì)因?yàn)樾∵吘壍呢?fù)面影響而導(dǎo)致結(jié)果不理想。Xu及Hu的方法在主觀復(fù)原效果上有輕微的振鈴效果。此外需要指出的是,雖然Hu的方法在個(gè)別試驗(yàn)數(shù)據(jù)上選擇的結(jié)果與本文結(jié)果臨近,但從復(fù)原效果上不及本文方法,這也從另一個(gè)角度證明了本文在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中充分考量弱化平移不變性而對網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整而帶來的優(yōu)勢。實(shí)驗(yàn)結(jié)果表明,本文方法的去模糊效果優(yōu)于其他三種區(qū)域選擇方法。
圖8 不同去模糊區(qū)域選擇方法的比較-1Fig.8 Comparison on different region selection approaches for deblurring-1.
4.2.2 與整幅模糊估計(jì)方法的對比試驗(yàn)
本文還將算法結(jié)果與基于整幅圖像的模糊核估計(jì)方法[19]進(jìn)行了比較,如圖9所示。與全幅圖像的去模糊結(jié)果相比,本文方法得到了更好的模糊核估計(jì)和復(fù)原圖像。此外,從圖9中,我們發(fā)現(xiàn)即使訓(xùn)練集不包括飽和圖像樣本,本文方法仍呈現(xiàn)出良好的復(fù)原效果。該實(shí)驗(yàn)例表明,本文設(shè)計(jì)的網(wǎng)絡(luò)具有良好的泛化能力。
圖9 不同去模糊區(qū)域選擇方法的比較-2Fig.9 Comparison on different region selection approaches for deblurring-2
4.2.3 客觀數(shù)據(jù)對比
為了進(jìn)行定量對比,使用640張具有挑戰(zhàn)性的測試圖像進(jìn)行比較,并展示它們的累積誤差直方圖。該數(shù)據(jù)集由文獻(xiàn)[36]提供,其中包括來自文獻(xiàn)[9]的80幅清晰圖像和8個(gè)模糊核,定量對比的客觀指標(biāo)為復(fù)原誤差度量。復(fù)原誤差度量由文獻(xiàn)[9]提出。該度量是用估計(jì)的模糊核復(fù)原整幅圖像的誤差和用真實(shí)的模糊核復(fù)原整幅圖像的誤差之間的比率,其數(shù)學(xué)表達(dá)式為:
其中:Ie表示用估計(jì)出的模糊核復(fù)原出的圖像,Ikg表示用真實(shí)的模糊核復(fù)原出的圖像,Ig是真實(shí)圖像。利用該復(fù)原誤差率的累積直方圖來評價(jià)該方法的有效性。
此外,將本文方法與區(qū)域選擇方法[8,10]和全局估計(jì)方法[19],以及基于深度學(xué)習(xí)的復(fù)原方法[27,37]進(jìn)行了比較。測量每個(gè)算法的復(fù)原誤差率,繪制結(jié)果如圖10中所示。
圖10 重建誤差率成功率Fig.10 Success rate of reconstructed error ratio
從圖10可以發(fā)現(xiàn),本文算法優(yōu)于其他方法。本文方法在ER>1.5時(shí),成功率一直穩(wěn)定在90%以上,而區(qū)域選擇算法[10]在ER=4.0時(shí),成功率也僅僅只有81.4%,另一個(gè)區(qū)域選擇算法[8]的成功率也一直低于90%。而利用整幅圖像進(jìn)行模糊 核 估 計(jì) 的 方 法 中,Pan[19]和Li[27]的 方 法 獲 得 的曲線和本文方法很接近,但是也略低于本文曲線。
本文同時(shí)使用自然圖像數(shù)據(jù)集[38]對算法進(jìn)行了評估,該數(shù)據(jù)集包含4幅清晰圖像和12個(gè)模糊核。將本文方法與Pan[19]和其他三種區(qū)域選擇方法Fergus[10],Xu[11],Hu[8]進(jìn)行了比較。通過比較每個(gè)去模糊圖像和沿著相同攝像機(jī)運(yùn)動(dòng)軌跡拍攝的清晰圖像來計(jì)算PSNR。如圖11所示,本文算法的平均峰值信噪比最高。本文平均PSNR可以達(dá)到30.05 d B,這也是五個(gè)算法中最高的。
圖11 PSNR定量比較試驗(yàn)(橫軸下的數(shù)字表示圖像索引,所有圖像的平均PSNR值顯示在最右邊的列中)Fig.11 Quantitative comparison of PSNR(The numbers below the horizontal axis denote the image index,the average PSNR values of all the images are shown on the rightmost column)
本文針對計(jì)算成像中波前編碼、單透鏡計(jì)算成像領(lǐng)域的均勻一致模糊復(fù)原的成像背景,提出了一種基于區(qū)域選擇網(wǎng)絡(luò)的圖像去模糊方法。該方法主體基于傳統(tǒng)的圖像復(fù)原及清晰化方法,但是對于復(fù)原中核心的模糊核求取問題引入了區(qū)域選擇網(wǎng)絡(luò)。該網(wǎng)絡(luò)不直接參與圖像端到端的復(fù)原,而是對于模糊復(fù)原中的關(guān)鍵因素——模糊區(qū)域選擇進(jìn)行干預(yù)。該網(wǎng)絡(luò)能夠在全局圖像中剔除平坦過曝、短小紋理等區(qū)域,自動(dòng)選取最適宜區(qū)域求解模糊核估計(jì)。因此,本文所述方法既保有了傳統(tǒng)優(yōu)化方法穩(wěn)定可靠的優(yōu)勢,又規(guī)避了主流深度學(xué)習(xí)端至端圖像復(fù)原方法的訓(xùn)練繁瑣、成像潛在不穩(wěn)定性的弊端。
試驗(yàn)結(jié)果表明,本文所述方法在計(jì)算成像場景數(shù)據(jù)不直接參與訓(xùn)練的前提下,能夠獲得邊緣良好且復(fù)原穩(wěn)定的處理效果。本文方法較比同類均勻一致運(yùn)動(dòng)模糊的復(fù)原方法具有一定的優(yōu)勢,客觀數(shù)據(jù)對比試驗(yàn)表明,本文所述方法復(fù)原成功率較現(xiàn)有方法至少提升了2.1%,同時(shí)平均PNSR至少提高0.5 d B。
在計(jì)算成像領(lǐng)域中,均勻一致性模糊復(fù)原能夠降低計(jì)算復(fù)原算法的實(shí)施難度,但是更為普遍的計(jì)算成像場景需求是非均勻一致性的復(fù)原問題。因此,在后續(xù)的研究中,課題團(tuán)隊(duì)將著重在此方向開展后續(xù)的算法及理論研究。