胡鐘昀 Nsampi Ntumba Elie 王慶
(西北工業(yè)大學(xué)計算機學(xué)院,陜西西安 710072)
任意至任意重光照(Any-to-Any Relighting)是指給定源圖像和引導(dǎo)圖像,利用隱含在引導(dǎo)圖像中的光照對源圖像進(jìn)行重新照明[1-2]。其中,任意至任意是指源圖像和引導(dǎo)圖像中的光照都是任意的,即能夠?qū)θ我夤庹障碌脑磮D像進(jìn)行任意光照的重新照明。與傳統(tǒng)重光照[3-5]不同的是,任意至任意重光照中的目標(biāo)光照是通過引導(dǎo)圖像間接給出,而非直接給出。這將極大降低圖像編輯[6-7]的使用門檻,普通用戶無需專業(yè)的光照知識,通過選定合適的引導(dǎo)圖像即可完成源圖像的重新照明。
基于逆向繪制的重光照方法[8-10]明確地恢復(fù)場景的光照、幾何和材質(zhì)屬性,然后給定新的光照,重新渲染以實現(xiàn)重光照。然而,這是一個不適定問題,不同物理屬性的組合可能產(chǎn)生相同的圖像[11]。相比之下,基于學(xué)習(xí)的方法[4,12-13]沒有明確的逆向繪制步驟來重新照明。相反,他們訓(xùn)練單個重光照網(wǎng)絡(luò),從一個或多個輸入圖像生成重光照圖像。特別是,Sun 等人[12]和Zhou 等人[13]提出直接從隱式神經(jīng)表征重新照明單張輸入圖像,而不需要顯式地恢復(fù)本征屬性。然而,由于光源假設(shè)不同,且只面向單個物體(肖像或人體),這些方法并不能直接應(yīng)用于任意至任意重光照。
最近,研究人員提出了一些基于學(xué)習(xí)的任意至任意重光照方法[14-16]。但是這些方法由于采用端對端的學(xué)習(xí)方式,導(dǎo)致陰影特征與色溫特征高度耦合,進(jìn)一步影響了陰影生成的準(zhǔn)確性。因此,本文從真實感渲染中的關(guān)鍵要素——陰影入手,設(shè)計額外的陰影生成任務(wù),學(xué)習(xí)深度陰影特征,以生成更加準(zhǔn)確的陰影。同時,為了有效利用學(xué)習(xí)到的深度陰影特征,我們引入基于注意力機制的特征融合模塊,實現(xiàn)深度陰影特征與重光照深度特征的自適應(yīng)融合。另外,我們實驗性地發(fā)現(xiàn),利用多項式核函數(shù)把源圖像映射到高維特征后,再作為網(wǎng)絡(luò)輸入,能進(jìn)一步提升性能。最終,本文提出了一種基于深度陰影特征增強的任意至任意重光照方法。
基于圖像的重光照方法通過對光傳輸函數(shù)進(jìn)行密集采樣來重新照明物體,而無需明確估計物體的物理屬性。Debevec 等人[3]構(gòu)建了第一個光照球(Light Stage)系統(tǒng),通過采集數(shù)千張不同光源下的圖像以實現(xiàn)物體的重新照明。后續(xù)大量研究[17-19]主要聚焦于光傳輸函數(shù)的相干性以降低采樣數(shù)量,從而實現(xiàn)同等質(zhì)量的重光照。然而,這些方法仍然需要數(shù)百張圖像,并且整個采集過程非常耗時。最近,隨著深度學(xué)習(xí)的突破性進(jìn)展,Xu 等人[4]利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)跨場景光傳輸函數(shù)中的相干性,僅用五張采樣圖像實現(xiàn)了物體的重光照。Meka 等人[5]提出使用深度神經(jīng)網(wǎng)絡(luò)直接從兩張球面梯度圖像重建光傳輸函數(shù)的方法。但是,這類基于圖像的重光照方法往往需要專門設(shè)計的采集系統(tǒng)以模擬所需的光照,這大大限制了其應(yīng)用范圍。因此,受益于深度學(xué)習(xí)強大的非線性擬合能力,Sun 等人[12]和Zhou 等人[13]幾乎同時提出了一種基于編碼-解碼結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)對單張非受控光源圖像的重新照明。盡管如此,這些方法通常只關(guān)注特定類別的物體(如肖像或人體),尚未考慮場景級的重光照。更重要的是,它們通常使用環(huán)境貼圖(Environment map)或球面諧波(Spherical harmonics)表示入射光,一般只適用于無窮遠(yuǎn)光源情形。對比之下,本文瞄準(zhǔn)面向點光源的場景重光照問題,需重點考慮近場光照效果,尤其是復(fù)雜的陰影。因此,本文通過增強深度陰影特征來進(jìn)一步提高近場光照效果。
逆向繪制(Inverse rendering)是根據(jù)觀測的單張或多張圖像來估計場景的物理屬性(如幾何形狀、反射率和光照)。一旦估計出反射率和光照,并輔以一個額外的物理渲染管線,任意至任意重光照都可以被視為逆向繪制的直接應(yīng)用。傳統(tǒng)的逆向繪制方法[20-25]通過大量的先驗知識來聯(lián)合優(yōu)化物理屬性,以獲得最能解釋觀測圖像的一組值。然而,直接優(yōu)化所有物理屬性往往是一個嚴(yán)重欠約束的問題,這會導(dǎo)致嚴(yán)重的偽影。在過去的數(shù)年里,研究人員專注于數(shù)據(jù)驅(qū)動的逆向繪制方法[26-28],從而避免手工設(shè)計先驗的局限。雖然這些方法估計場景物理屬性的準(zhǔn)確率大大提高,但是仍然受限于其對應(yīng)的物理渲染方程,圖像真實感需進(jìn)一步提升。
相比之下,其他一些基于學(xué)習(xí)的重光照方法[8-10,29-31]已將神經(jīng)渲染(Neural rendering)引入到重光照中。在逆向繪制網(wǎng)絡(luò)[27]的基礎(chǔ)上,Yu 等人[10]進(jìn)一步提出了一種針對室外場景重光照的神經(jīng)渲染框架。Bi 等人[31]利用多張非結(jié)構(gòu)化的手機閃光圖像,訓(xùn)練一個帶有場景外觀表征的神經(jīng)渲染框架,可實現(xiàn)重光照。Wang等人[29]和Nestmeyer等人[30]提出使用神經(jīng)網(wǎng)絡(luò)從若干估計的本征量直接渲染新圖像,可用于單張人臉圖像的重光照。Sang 等人[9]提出了一種級聯(lián)神經(jīng)網(wǎng)絡(luò)來同時進(jìn)行逆向繪制和渲染,從而實現(xiàn)了單幅圖像的重新照明。然而,這些方法要么需要精確的反射率真值,要么需要多視圖數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,這些在實踐中很難獲得。此外,它們往往關(guān)注單個物體,而不是復(fù)雜的場景。相比之下,本文提出的方法不但面向場景級的重光照問題,而且不需要顯式估計反射率。
任意至任意重光照首先由Helou 等人[1-2]提出,其目的是通過隱含在引導(dǎo)圖像里的光照設(shè)置來對源圖像進(jìn)行重新照明。Hu 等人[14]提出了一種帶有自注意力機制的編碼-解碼網(wǎng)絡(luò),以改善全局光照效果。最近,Hu 等人[32]又將物理先驗知識引入神經(jīng)渲染框架,以保留局部陰影細(xì)節(jié)并進(jìn)一步抑制任務(wù)混疊效應(yīng)。Yang 等人[15]將任意至任意重光照視為圖像到圖像的轉(zhuǎn)換,通過使用單流網(wǎng)絡(luò)將源圖像和引導(dǎo)圖像直接映射到重光照圖像。Yazdani 等人[16]提出通過學(xué)習(xí)一個權(quán)重圖,將基于本征分解的重光照結(jié)果與直接映射的重光照結(jié)果進(jìn)行融合,以提升性能。與上述方法不同,本文從真實感渲染中的關(guān)鍵要素——陰影入手,通過引入額外的陰影生成任務(wù),進(jìn)一步增強深度陰影特征,從而改善視覺效果。
目前,現(xiàn)有的任意至任意重光照數(shù)據(jù)集[33]尚未包含陰影圖像。為了獲得訓(xùn)練陰影生成任務(wù)時所需的陰影真值,我們設(shè)計了一種簡單的陰影標(biāo)注算法對該數(shù)據(jù)集進(jìn)行陰影標(biāo)注。
首先,我們將數(shù)據(jù)集中的所有彩色圖像轉(zhuǎn)換為灰度圖像,把轉(zhuǎn)換后的灰度圖像記為t。對于t中的像素x,其對應(yīng)的二值陰影圖像s(x)生成如下:
其中,T是決定陰影的閾值。因為不同圖像中的場景內(nèi)容和光照有時差異很大,所以T往往是隨著圖像的變化而發(fā)生變化。因此,對于每張圖像,我們設(shè)置不同大小的T,得到多張陰影圖像,再依據(jù)主觀判斷選取一張最合理的陰影圖像作為最終的陰影真值圖像。如圖1 所示,我們展示了不同T下的陰影標(biāo)注結(jié)果。一般而言,T的取值范圍為[10-25]。
圖1 不同T下的陰影標(biāo)注結(jié)果Fig.1 Shadow labeling results under different T
本節(jié)中,我們首先概要介紹提出的方法,接著給出具體的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn),最后說明損失函數(shù)和模型訓(xùn)練細(xì)節(jié)。
給定輸入圖像I及其對應(yīng)光照L,我們將重光照建模為:
其中Zi和Zl是圖像的隱式表征,分別對應(yīng)著圖像的本質(zhì)表征和光照表征。φ1和ψ1分別是輸入圖像I的重光照編碼器和重光照解碼器。φ2和ψ2分別是Zl的光照編碼器和光照解碼器。特別地,基于上述公式,任意至任意重光照可以按照圖2 解決。具體而言,將源圖像IS和引導(dǎo)圖像IG同時輸入到重光照編碼器φ1,分別得到對應(yīng)的隱式表征,即和。將輸入到光照編碼器φ2和光照解碼器ψ2,進(jìn)一步得到ψ1的光照表征輸入。聯(lián)合和,利用重光照解碼器ψ1將其解碼為重光照圖像。
圖2 方法原理圖Fig.2 Schematic diagram of the method
陰影特征增強:為了進(jìn)一步增強陰影的視覺效果,我們對重光照解碼器ψ1中的重光照特征FR進(jìn)行陰影特征增強。為此,我們引入了一個額外的陰影解碼器ψ3,從隱式表征生成出對應(yīng)的陰影圖像。同時,在陰影生成任務(wù)的驅(qū)動下,ψ3也將學(xué)習(xí)豐富的陰影特征FS。進(jìn)一步,利用可學(xué)習(xí)的權(quán)重{wR,},自適應(yīng)融合FR和FS,得到增強后的重光照特征,如下公式所示:
同理,利用可學(xué)習(xí)的權(quán)重{wS,},也可得到增強后的陰影特征。最終,F(xiàn)R和FS互為補充,相互增強。具體細(xì)節(jié)可見4.2.3小節(jié)。
在本文中,我們將所有的編碼器{φ1,φ2}和解碼器{ψ1,ψ2,ψ3}都建模為深度前饋神經(jīng)網(wǎng)絡(luò),具體的網(wǎng)絡(luò)結(jié)構(gòu)見4.2小節(jié)。
如圖3 所示,我們提出的任意至任意重光照網(wǎng)絡(luò)由數(shù)個編解碼器{φ1,φ2,ψ1,ψ2,ψ3}組成。其中,{φ1,ψ1,ψ3}遵循U 形網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,{φ2,ψ2}則由數(shù)個全連接層和激活層組成。
4.2.1 重光照編解碼器
對于重光照編解碼器{φ1,ψ1}而言,φ1包括一個輸入預(yù)處理模塊和四個下采樣模塊。其中,輸入預(yù)處理模塊由一個卷積層組成,每個下采樣模塊則由一個下采樣層(即最大池化)和一個卷積模塊組成。卷積模塊主要由卷積層、組規(guī)范層和激活層組成,并包括一個殘差連接,具體細(xì)節(jié)可見圖3中的卷積模塊。相應(yīng)地,ψ1包括一個輸出模塊和四個上采樣模塊。其中,輸出模塊由一個卷積層構(gòu)成,第一個上采樣模塊僅包含一個上采樣層(即縮放卷積),后三個上采樣模塊皆由一個卷積模塊和一個上采樣層組成。對于任意給定的圖像I,我們將其輸入重光照編碼器φ1,輸出一組特征圖,即為其對應(yīng)的隱式表征{Zi,Zl}。在具體實現(xiàn)中,我們?nèi)∏?56 維特征圖作為Zl,剩下的512維特征圖作為Zi。
圖3 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure
核函數(shù)映射:對于輸入圖像I的三個RGB 通道圖像{IR,IG,IB},利用三階多項式核函數(shù)K將其映射到高維特征Fp:
最終,聯(lián)合高維特征Fp和深度圖像作為重光照編碼器φ1的輸入,進(jìn)一步提高輸入的特征多樣性。
4.2.2 光照編解碼器
為了確保Zl光照可感知,我們需要利用光照編碼器φ2將Zl編碼為實際光照L,再通過光照解碼器ψ2解碼為。光照編碼器φ2由兩個全連接層組成,以預(yù)測光照L。其中,第一個全連層后接一個激活層。考慮到現(xiàn)有的任意至任意重光照數(shù)據(jù)集[33]包含光源方向真值LD和光源色溫真值LT,故本文中的φ2由兩個相同的全連接網(wǎng)絡(luò)構(gòu)成,分別用來預(yù)測光源方向和光源色溫。光照解碼器ψ2由兩個全連接層組成,每個全連接層都后接一個激活層。注意,光照解碼器ψ2僅由一個全連接網(wǎng)絡(luò)構(gòu)成,輸入是,輸出是。最后,本文采用One-Hot編碼來分別表征LD和LT。
4.2.3 陰影解碼器
陰影解碼器ψ3的輸入與重光照解碼器ψ2的輸入一樣,都是。另外,陰影解碼器ψ3的網(wǎng)絡(luò)結(jié)構(gòu)也和重光照解碼器ψ2保持一樣。不同的是,陰影解碼器ψ3需從隱式表征中恢復(fù)陰影圖像。在陰影生成任務(wù)的驅(qū)動下,陰影解碼器ψ3將從隱式表征中學(xué)習(xí)豐富的多尺度陰影特征FS。為此,我們將利用學(xué)習(xí)到的深度陰影特征FS進(jìn)一步增強重光照特征FR。
基于注意力機制的特征融合模塊:如圖3所示,我們利用可學(xué)習(xí)的權(quán)重需對不同空間尺度上的重光照特征FR和陰影特征FS進(jìn)行自適應(yīng)融合:
本文中,考慮到現(xiàn)有重光照數(shù)據(jù)集的特性,我們分別將重光照與光照估計視為回歸任務(wù)和分類任務(wù)。對于光照估計損失函數(shù)?c,我們使用交叉熵?fù)p失函數(shù)H來訓(xùn)練光照估計相關(guān)的網(wǎng)絡(luò):
其中,LT和LD分別是光源方向真值和光源色溫真值。對于重光照,均方誤差損失函數(shù)作為圖像的重建損失函數(shù)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練。受啟發(fā)于[34],我們也采用基于SSIM的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。最終,重光照的損失函數(shù)?r定義如下:
其中,在我們的實驗中,λ1和λ2都設(shè)置為1。本文中除了重光照與光照估計任務(wù)之外,還額外引入了一個陰影生成任務(wù)。因此,對于陰影生成損失函數(shù)?s,我們使用基于平均絕對誤差的損失函數(shù)來訓(xùn)練陰影解碼器:
其中,S是陰影圖像真值。最終,總的損失函數(shù)?total定義為上述三個子任務(wù)損失函數(shù)的和:
我們使用Adam 優(yōu)化器[35]來更新整個網(wǎng)絡(luò)的參數(shù)。其中,學(xué)習(xí)率設(shè)置為1e-5,β=(0.9,0.999)。整個網(wǎng)絡(luò)參數(shù)的初始化采用Kaiming 初始化[36]。我們在Pytorch 框架下實現(xiàn)整個網(wǎng)絡(luò)。實驗是在基于Titan RTX的圖形處理服務(wù)器上運行。
VIDIT 數(shù)據(jù)集[33]:由Helou 等人構(gòu)建,分別在AIM 2020[1]和NTIRE 2021[2]挑戰(zhàn)賽上用于場景重光照(包括任意至任意重光照)和光照估計等賽道上的性能評價。該數(shù)據(jù)集一共包括390 個場景,其中300個場景用于訓(xùn)練集,45個場景用于驗證集,剩下的45 個場景用于測試集。每個場景預(yù)定義8 個光照方向(北,東北,東,東南,南,西南,西,西北)和5個色溫(2500 K,3500 K,4500 K,5500 K,6500 K),這導(dǎo)致每個場景將有40個不同的光照設(shè)置。因此,整個數(shù)據(jù)集一共有15600張圖像。每張圖像的分辨率是1024*1024。另外,AIM 2020 中的每個場景僅包括RGB 圖像,而NTIRE 2021 中則進(jìn)一步提供了額外的深度圖像。注意,測試集只應(yīng)用于挑戰(zhàn)賽,為主辦方私有,而訓(xùn)練集和驗證集是公開的,用于學(xué)術(shù)評估。
評價指標(biāo):任意至任意重光照的性能評估除了常見的PSNR、SSIM 和LPIPS[37]等評價指標(biāo)外,Helou等人[1]還專門為其定義了一個MPS(Mean Perceptual Score)指標(biāo):
不難看出,MPS 是基于SSIM 和LPIPS 的綜合評價指標(biāo),被Helou 等人作為重光照賽道的排名指標(biāo)。因為對于重光照這類任務(wù),SSIM 和LPIPS 相較于PSNR 指標(biāo)更接近于人的主觀評價。另外,為了驗證本文光照估計模塊的有效性,我們采用了Helou等人[1]所提的基于預(yù)測準(zhǔn)確率的光照估計評價指標(biāo)TotalLoss,其定義如下:
其中,AngLoss 和TempLoss 分別是光源方向估計和光源色溫估計的評價指標(biāo)。
在本文的比較實驗中,我們除了比較現(xiàn)有的任意至任意重光照方法(SA-AE[14]和AMIDR-Net[16]),還比較了面向人臉的重光照方法DPR[13]。但是由于DPR 采用了球諧光照表征,與本文的光源假設(shè)不同,故我們將球諧光照替換為本文所用的光照表征,其他模型配置保持不變。我們按照作者提供的訓(xùn)練超參數(shù)將DPR 在NTIRE 2021 任意至任意重光照訓(xùn)練集上重新訓(xùn)練,當(dāng)損失函數(shù)收斂時,我們報告了DPR在驗證集上的結(jié)果。
5.2.1 任意至任意重光照性能比較
在NTIRE 2021任意至任意重光照驗證集上,我們與先前的工作進(jìn)行了比較。NTIRE 2021 任意至任意重光照驗證集一共包括90 個源圖像和引導(dǎo)圖像對。表1中展示了不同方法在該驗證集上的定量對比??梢钥闯觯覀兊姆椒ㄔ贛PS 上取得了最佳的結(jié)果,比AMIDR-Net 的方法提高了0.013。AMIDR-Net 取得了最高的PSNR,這主要是因為它利用了集成技術(shù),將多個模型組合在一起,但同時也會帶來模糊的副作用。在圖4 中,我們展示了定性結(jié)果。就重光照中的色溫改變而言,以圖4 中的第二列圖像為例,引導(dǎo)圖像中的色溫偏低,相比較于其他方法,我們方法的結(jié)果(尤其是方框部分)恢復(fù)了更低的色溫,與真值更接近。就重光照中的光源方向改變而言,以圖4中第三列圖像為例,由于引導(dǎo)圖像中的光源方向來自于圖像右下角,我們方法不僅去除了圖中方框處的陰影,而且在石頭左側(cè)(即方框左側(cè)的石頭)生成了豐富的陰影。AMIDRNet 沒有去除方框處的陰影,而其他方法則在石頭左側(cè)生成了有限的陰影。
圖4 不同方法在NTIRE 2021任意至任意驗證集上的定性比較Fig.4 Qualitative comparison of different methods on the NTIRE 2021 Any-to-any Relighting validation set
表1 不同方法在NTIRE 2021任意至任意驗證集上的定量比較Tab.1 Quantitative comparison of different methods on the NTIRE 2021 Any-to-any Relighting validation set
另外,圖5 展示了同一幅源圖像在不同引導(dǎo)圖像下的重光照結(jié)果。從圖中可以看出,源圖像中的光源方向為圖像的右方,而引導(dǎo)圖像中的光源方向依次為圖像右上方,正下方以及左上方。相應(yīng)地,我們的方法在重光照結(jié)果1 和重光照結(jié)果3 中,分別在石頭的左下方(即紅色方框處)和右下方(即藍(lán)色方框處)生成了合理的陰影。而在重光照結(jié)果2中,我們的方法則去除了石頭左處(即黃色方框處)的陰影。同時,我們也注意到,該區(qū)域由于陰影的消除而出現(xiàn)了模糊,如何填充陰影消除區(qū)域的紋理細(xì)節(jié)仍是未來值得進(jìn)一步研究的問題。最后,對于重光照中的色溫遷移而言,源圖像的色溫為5500 K,引導(dǎo)圖像1 和2 的色溫為2500 K,引導(dǎo)圖像3 的色溫為3500 K。從圖5 中的重光照結(jié)果可以看出,我們的方法準(zhǔn)確恢復(fù)了相應(yīng)的色溫。
圖5 同一幅源圖像在不同引導(dǎo)圖像下的重光照結(jié)果Fig.5 Relighting results of the same source image under different guide images
5.2.2 光照估計性能比較
在AIM 2020光照估計驗證集上,我們比較了不同方法中光照估計的性能。如表2 所示,我們方法的TotalLoss 為0.0957,比SA-AE 的降低了0.06 左右。比較所有方法的AngLoss 和TempLoss,不難發(fā)現(xiàn),我們的方法在AngLoss 取得了大幅提升。實際上,陰影的生成依賴于光源的方向。這意味著額外的陰影生成任務(wù)有助于光源方向估計準(zhǔn)確率的提升。
表2 不同方法在AIM 2020光照估計驗證集上的定量比較Tab.2 Quantitative comparison of different methods on the AIM 2020 Lighting Estimation validation set
5.2.3 模型參數(shù)量與推理時間比較
表3 報告了不同方法的模型參數(shù)量與推理時間。注意,所有方法都是在NTIRE 2021 任意至任意驗證集上使用單個RTX Titan GPU 進(jìn)行測試的。我們報告了不同方法下單張1024*1024圖像的平均處理時間。盡管具有最少參數(shù)量的DPR 取得了最短的推理時間(0.886 s),但是它只能處理人臉重光照,無法直接擴展到場景重光照上。AMIDR-Net 的推理時間最高,為1.383 s,這主要是由于它集成了多個模型。對比之下,雖然我們的方法推理時間比SA-AE 低了0.22 s,但是視覺效果上卻更好,有著更低的MPS。
表3 模型參數(shù)量與推理時間的對比Tab.3 Comparison in terms of model parameters count and inference time
為了驗證各個模塊的有效性,我們在NTIRE 2021 任意至任意重光照驗證集上報告了不同模型配置下的結(jié)果。注意,因為NTIRE 2021 任意至任意重光照訓(xùn)練集中的圖像分辨率為1024*1024,一次完整訓(xùn)練的時間成本很高。為了加快網(wǎng)絡(luò)的訓(xùn)練速度,我們將訓(xùn)練集和驗證集中的圖像都縮放到256*256。表4 中報告了我們的消融實驗結(jié)果。其中,基線方法(即配置1)僅由重光照編解碼器{φ1,ψ1}和光照編解碼器{φ2,ψ2}組成,并對重光照圖像只采用基本的均方誤差損失函數(shù),其MPS 結(jié)果最差,僅為0.5519。在配置1 上添加基于SSIM的損失函數(shù)(即配置2),則將基線方法的SSIM 值提高了近0.171。在配置2 的基礎(chǔ)上進(jìn)一步加入多項式特征(即配置3),則將MPS 提高了0.0052。從圖6 中的綠色方框部分可以看出,配置3 的結(jié)果相比于配置2 的結(jié)果恢復(fù)了更加準(zhǔn)確的色溫。當(dāng)深度陰影特征也融入配置3 中(即本文方法)取得了最高的MPS,為0.6601。從圖6 中的紅色方框部分可以看出,我們的結(jié)果具有更加準(zhǔn)確的陰影。
圖6 不同模型配置下的定性比較Fig.6 Qualitative comparison of different model configurations
表4 消融實驗Tab.4 Ablation Study
我們也研究了不同陰影閾值對于重光照結(jié)果的影響。在本文標(biāo)注的陰影閾值T的基礎(chǔ)上,我們加上±Δ 的擾動,得到不夠精確的陰影,作為陰影真值,來訓(xùn)練整個模型。在本實驗中,Δ 的取值為10。注意,若擾動后的陰影閾值小于0,則直接置為0。如表5 所示,精確陰影閾值T下的重光照性能最好,MPS 最高,為0.6601。對比之下,擾動后的陰影閾值T-Δ和T+Δ 都出現(xiàn)了不同程度的性能下降,MPS 分別下降了0.0052 和0.0118。這主要是因為,錯誤的陰影標(biāo)注勢必降低陰影生成的準(zhǔn)確性,干擾深度陰影特征,并最終影響重光照的性能。
表5 不同陰影閾值的影響Tab.5 Effects of different shadow thresholds
最后,我們研究了公式(9)中λ1和λ2的取值對于重光照結(jié)果的影響。本實驗中,我們對λ1和λ2按比例取了五組值,即(1.0,0.0),(0.7,0.3),(0.5,0.5),(0.3,0.7)和(0.0,1.0)。如表6 所示,在(0.5,0.5)的取值下,重光照的性能最好,MPS 為0.6599。對比之下,(1.0,0.0)取值下的重光照的性能最差,MPS 僅為0.5791,比(0.5,0.5)取值下的MPS 下降了12%左右。其中,MPS 的下降主要是由于SSIM 過低導(dǎo)致,這說明基于SSIM 的損失函數(shù)能顯著提升圖像的生成質(zhì)量。
表6 λ1和λ2的影響Tab.6 Effects of λ1 and λ2
本文提出了一種基于深度陰影特征增強的任意至任意重光照方法。該方法引入一個額外的陰影生成任務(wù),通過設(shè)計對應(yīng)的陰影解碼器,明確學(xué)習(xí)重光照中的陰影特征。同時,利用基于注意力機制的特征融合模塊,自適應(yīng)融合陰影特征與重光照特征,提高陰影生成的準(zhǔn)確性。為了訓(xùn)練陰影解碼器,我們結(jié)合人的主觀評價設(shè)計了一個簡單的陰影標(biāo)注算法,獲取陰影圖像真值。我們在VIDIT 數(shù)據(jù)集上進(jìn)行了大量的實驗,實驗結(jié)果驗證了本文所提方法的有效性。