近日,迪士尼研究院 (Disney Research Studios)、蘇黎世聯(lián)邦理工大學 (ETH Zurich)聯(lián)合在歐洲圖形學會渲染研討會 (Eurographics Symposium on Rendering,EGSR)發(fā)表論文 《用于視效制作的高分辨率神經(jīng)網(wǎng)絡人臉替換》 (High-Resolution Neural Face Swapping for Visual Effects),提出一種基于深度神經(jīng)網(wǎng)絡 (Deep Neural Networks)的角色人臉自動替換算法,可將照片/視頻中角色的面部替換為目標角色面部。論文提出,該算法支持最大圖像分辨率1024×1024,是首個可實現(xiàn)百萬像素 (Megapixel)分辨率的人臉替換算法,適用于場景中所有角色的人臉替換,并可在合成環(huán)節(jié)自動調整對比度和光照條件,從而確保合成面部與場景充分匹配。該算法的效率與當前流行的Deepfake(支持面部圖像最大分辨率256×256)等工具相當,改進后有望應用于影視制作,如制作角色年輕版/老年版形象,或將替身演員面部替換為明星面部。
該算法采用漸進式訓練多向梳狀網(wǎng)絡 (Multi-Way Comb Network),有效提高了圖像分辨率;同時支持網(wǎng)絡架構擴展和訓練數(shù)據(jù)規(guī)模提升,使生成的角色表情擁有更高精準性。為了更好地將生成的面部特征和表情合成到目標角色面部,該算法采用了多波段融合 (Multi-Band Blending)方法替代傳統(tǒng)泊松融合 (Poisson Blending)方法,并引入全局對比度因子 (Global Contrast Factor,GCF),使合成面部的對比度與原始面部及環(huán)境保持一致。另外,針對高分辨率圖像抖動瑕疵尤其明顯,采用面部特征穩(wěn)定算法 (Face Landmark Stabilization Algorithm)實現(xiàn)時域穩(wěn)定性。
人臉替換具體實現(xiàn)分為以下幾個步驟:①檢測輸入的面部圖像 (x),并定位面部特征點;②將輸入的面部圖像統(tǒng)一轉化為1024×1024分辨率,保存歸一化參數(shù);③將預處理過的圖像輸入多向梳狀神經(jīng)網(wǎng)絡,并保存第s個解碼器的輸出 (x);④按照歸一化參數(shù)將輸出面部還原為原始尺寸,用多波段融合方法將替換面部與原始圖像合成。如圖1所示。
圖1 面部替換全流程
圖2 單編碼器—多解碼器的多向梳狀網(wǎng)絡架構
對神經(jīng)網(wǎng)絡的訓練采用漸進式訓練方法,首先對輸入的高分辨率圖像數(shù)據(jù)實施下采樣,形成低分辨率圖像數(shù)據(jù)用于模型訓練;隨后,逐步提升訓練圖像的分辨率。在神經(jīng)網(wǎng)絡架構方面,該算法采用了單編碼器—多解碼器的多向梳狀模型,即網(wǎng)絡編碼部分采用共享通用編碼器,而解碼路徑則被分流為多個域。如圖2所示。通過這種方式,模型可同時處理多個面部替換任務,且與雙向模型相比,多向模型訓練時間明顯減少,并可以提高面部細節(jié)的精確性。
———參考英文資料來源:迪士尼研究院論文《用于視效制作的高分辨率神經(jīng)網(wǎng)絡人臉替換》