国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人臉去遮擋新技術(shù)研究綜述

2021-10-12 08:49張藝軒佘建初王富平林慶帆
計(jì)算機(jī)與生活 2021年10期
關(guān)鍵詞:人臉卷積語(yǔ)義

劉 穎,張藝軒,佘建初,王富平,2,林慶帆

1.西安郵電大學(xué) 圖像與信息處理研究所,西安 710121

2.西安郵電大學(xué) 電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,西安 710121

現(xiàn)如今隨著科技的發(fā)展及社會(huì)需求,人臉識(shí)別技術(shù)[1]得到進(jìn)一步的發(fā)展。其中包含人臉檢測(cè)[2]、人臉活體、人臉匹配、人臉特征提取、人臉屬性識(shí)別[3]等關(guān)鍵技術(shù),這些廣泛應(yīng)用于刷臉考勤、人臉識(shí)別解鎖、刷臉支付、考生認(rèn)證、安防[4]刑偵等場(chǎng)合。但人臉圖像獲取時(shí),不僅會(huì)受環(huán)境影響[5],而且存在人臉被遮擋的情況,這些因素都會(huì)影響人臉識(shí)別的準(zhǔn)確率[6]。各國(guó)人臉存在差異性,因此公安領(lǐng)域中使用專門的中國(guó)刑偵人臉數(shù)據(jù)集,對(duì)中國(guó)人臉進(jìn)行修復(fù),提高人臉識(shí)別準(zhǔn)確率,幫助公安干警快速鎖定嫌疑人,大大提升公安干警工作效率。因此,從現(xiàn)實(shí)需求層面討論,研究人臉去遮擋技術(shù)很有必要。

早期的圖像修復(fù)算法主要對(duì)塊遮擋、文本遮擋、噪聲、目標(biāo)遮擋、圖像遮擋以及圖像劃痕進(jìn)行去除并修復(fù)[7]。傳統(tǒng)的圖像修復(fù)技術(shù),如補(bǔ)丁匹配算法[8]是基于隨機(jī)算法的交互式圖像編輯工具,可以快速進(jìn)行圖像補(bǔ)丁之間的近似匹配;基于目標(biāo)周圍信息修復(fù)[9]通過(guò)整體的語(yǔ)義聯(lián)想待填充部分;矢量場(chǎng)與灰度聯(lián)合插值填充法[10]是基于圖像灰度級(jí)和梯度方向的聯(lián)合插值,自動(dòng)將等參線延伸到要修復(fù)的區(qū)域。傳統(tǒng)方法能夠通過(guò)圖像整體語(yǔ)義修復(fù)圖像缺失部分,但這不僅不能結(jié)合圖像的局部語(yǔ)義聯(lián)想并產(chǎn)生合理的內(nèi)容,而且計(jì)算成本高。近幾年卷積神經(jīng)網(wǎng)絡(luò)不斷改進(jìn),圖像修復(fù)技術(shù)也隨之發(fā)展。2016 年P(guān)athak等人[11]首次提出基于深度學(xué)習(xí)的圖像修復(fù)方法——上下文編碼器(context encoder,CE),如圖1,并結(jié)合生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[12]判斷預(yù)測(cè)圖像的可能性。之后Iizuka 等人[13]提出一種新方法——全局與局部一致的圖像修復(fù)(globally and locally consistent image completion,GLCIC),此算法使修復(fù)圖像的局部和全局信息保持一致。為了準(zhǔn)確參考較遠(yuǎn)的位置空間信息,Yu 等人研究出一個(gè)基于語(yǔ)義注意力的生成性圖像修復(fù)算法(generative image inpainting with contextual attention,CA)[14]。該算法的生成網(wǎng)絡(luò)引入了粗略到細(xì)化的網(wǎng)絡(luò)結(jié)構(gòu)。除此之外,為了克服卷積神經(jīng)網(wǎng)絡(luò)逐層處理特征,對(duì)獲取遠(yuǎn)處空間位置特征效果不佳的問(wèn)題引入了注意力機(jī)制。近幾年提出的算法常和以上三種方法進(jìn)行性能對(duì)比。

Fig.1 Context encoder圖1 上下文編碼器

人臉修復(fù)是圖像修復(fù)的重要分支且其本身含有大量特殊的人臉特征信息[15]。雖然人臉修復(fù)包含人臉去遮擋和人臉清晰化處理,但國(guó)內(nèi)外研究學(xué)者更多地將圖像或人臉修復(fù)看作圖像或人臉去遮擋,因此,本文中有提及的一些人臉修復(fù)都指為人臉去遮擋。目前針對(duì)人臉去遮擋算法的綜述只有一篇[16],通過(guò)對(duì)比,如表1。本文:(1)從不同角度對(duì)算法進(jìn)行歸納分析比較。根據(jù)遮擋方式和預(yù)測(cè)生成網(wǎng)絡(luò)的不同分別分類為規(guī)則、隨機(jī)遮擋算法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、GAN 網(wǎng)絡(luò)算法。(2)包含更多新算法。如人臉幾何感知的修復(fù)和編輯算法、基于先驗(yàn)引導(dǎo)生成式對(duì)抗網(wǎng)絡(luò)的語(yǔ)義修復(fù)算法、基于3D 可變形模型(3D morphable model,3DMM)和生成式對(duì)抗網(wǎng)絡(luò)的人臉去遮擋算法等。(3)評(píng)價(jià)指標(biāo)更全面。除了常用的圖像評(píng)價(jià)指標(biāo)峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index,SSIM)外,還添加初始分?jǐn)?shù)(inception score,IS)、Fréchet 距 離(Fréchet inception distance,F(xiàn)ID)、l1loss 和用戶調(diào)查(user study)指標(biāo)。(4)研究趨勢(shì)更新穎。未來(lái)研究可結(jié)合新型冠狀病毒肺炎提出的真實(shí)口罩遮擋人臉識(shí)別數(shù)據(jù)集(real-world masked face dataset,RMFRD)、零樣本技術(shù)等。

Table 1 Comparison of overviews表1 綜述的比較

本文先討論人臉去遮擋技術(shù)的研究背景及基礎(chǔ)算法的發(fā)展,并對(duì)比其他綜述。

1 基于CNN 和GAN 網(wǎng)絡(luò)的人臉去遮擋

隨著近幾年CNN 網(wǎng)絡(luò)和GAN 網(wǎng)絡(luò)的發(fā)展,更多學(xué)者關(guān)注和人臉修復(fù)的結(jié)合[17-20],提出的算法也有較好的效果。本文列舉近五年被引用次數(shù)較多、有代表性且修復(fù)效果較高的算法,并對(duì)其按遮擋方式的不同分為兩類:一類是規(guī)則遮擋,另一類是隨機(jī)遮擋。為了提高修復(fù)效果,算法網(wǎng)絡(luò)大多為混合式優(yōu)化結(jié)構(gòu),因此本文按照修復(fù)中預(yù)測(cè)生成階段(不考慮優(yōu)化、鑒別或重建階段)基于不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步分類:基于卷積神經(jīng)網(wǎng)絡(luò)和基于生成式對(duì)抗網(wǎng)絡(luò)。算法分類和匯總?cè)鐖D2 所示。

Fig.2 Classification圖2 分類

1.1 規(guī)則遮擋

規(guī)則遮擋包括矩形框遮擋塊(如128×128 大小的遮擋塊[21])、多個(gè)矩形框組合遮擋和人臉某一個(gè)關(guān)鍵特征(眼睛、鼻子、嘴等)的遮擋,如圖3 所示。其中包括9 個(gè)算法:基于生成式多列卷積神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)算法[22]、圖像修復(fù)的分割預(yù)測(cè)和引導(dǎo)網(wǎng)絡(luò)[23]、基于全端到端漸進(jìn)式生成式對(duì)抗網(wǎng)絡(luò)的具有多種可控屬性的高分辨率人臉修復(fù)[24]、金字塔-上下文編碼網(wǎng)絡(luò)修復(fù)高質(zhì)量圖像[25]、生成式人臉修復(fù)算法[26]、多樣性圖像修復(fù)算法[21]、基于幾何感知的人臉修復(fù)和編輯網(wǎng)絡(luò)[27]、無(wú)監(jiān)督式跨空間轉(zhuǎn)換的生成式對(duì)抗網(wǎng)絡(luò)[28]和基于語(yǔ)義修復(fù)的先驗(yàn)引導(dǎo)GAN 網(wǎng)絡(luò)[29]。它們對(duì)早期的深度學(xué)習(xí)算法進(jìn)行改進(jìn),對(duì)規(guī)則遮擋都有較好的修復(fù)效果。

Fig.3 Example of regular occlusion圖3 規(guī)則遮擋例圖

1.1.1 基于卷積神經(jīng)網(wǎng)絡(luò)

根據(jù)算法模型網(wǎng)絡(luò)特點(diǎn)、優(yōu)缺點(diǎn)以及算法適用場(chǎng)景的不同,本小節(jié)主要介紹4 種具有代表性的、對(duì)規(guī)則遮擋采用基于卷積神經(jīng)網(wǎng)絡(luò)的人臉修復(fù)算法模型,如表2。

Wang 等人[22]在2018 年提出一種基于生成式多列卷積神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)(image inpainting via generative multi-column convolutional neural networks)結(jié)構(gòu)。為提取圖像中的最佳特征,此算法融合并行方式將圖像分解為具有不同感受野和特征分辨率的分量,以此進(jìn)行圖像的合成;為確定相似度高的補(bǔ)丁塊,融合隱式多樣化馬爾可夫隨機(jī)場(chǎng)項(xiàng)(implicit diversified Markov random field,ID-MRF);設(shè)計(jì)新的置信驅(qū)動(dòng)的重建損失以更好地綜合圖像信息。該方法可以提取不同層次的圖像特征空間,克服從粗略化網(wǎng)絡(luò)到細(xì)化網(wǎng)絡(luò)修復(fù)圖像過(guò)程中帶來(lái)像素的丟失,甚至即便沒(méi)有普通修復(fù)算法的后處理也能產(chǎn)生較好的視覺(jué)效果,但是處理不同對(duì)象和不同場(chǎng)景的大規(guī)模有遮擋數(shù)據(jù)存在困難。經(jīng)過(guò)大量實(shí)驗(yàn),此方法適用于對(duì)增強(qiáng)圖像局部細(xì)節(jié)有要求、圖像信息空間分布復(fù)雜的情況。

同年,Song 等人[23]提出一個(gè)新的修復(fù)思路——融合圖像分割引導(dǎo)技術(shù)(segmentation prediction and guidance)生成修復(fù)結(jié)果。它把修復(fù)過(guò)程分為兩個(gè)網(wǎng)絡(luò):分割預(yù)測(cè)網(wǎng)絡(luò)(segmentation prediction networks,SP-Net)和分割引導(dǎo)網(wǎng)絡(luò)(segmentation guidance networks,SG-Net)。分割預(yù)測(cè)過(guò)程使用Deeplapv3+圖像分割技術(shù)生成圖像分割標(biāo)簽,并預(yù)測(cè)出缺失區(qū)域的分割標(biāo)記,生成缺失區(qū)域的細(xì)節(jié)先驗(yàn)信息的分割圖。分割引導(dǎo)過(guò)程將修復(fù)的分割圖和缺失原圖結(jié)合,進(jìn)行編解碼過(guò)程生成最終修復(fù)圖像。該方法不僅會(huì)生成分割信息圖,而且可以交互式編輯操作,輸出多種模型修復(fù)結(jié)果,如生成的結(jié)果中添加了格外的組件。在Cityscapes 數(shù)據(jù)集和Helen Face 數(shù)據(jù)集進(jìn)行大量測(cè)試,此方法適用于處理修復(fù)邊界模糊的情況,例如一張圖像中不同物體邊界之間需要產(chǎn)生真實(shí)鮮明的紋理細(xì)節(jié)。

Chen 等人[24]提出一種基于全端到端漸進(jìn)式生成式對(duì)抗網(wǎng)絡(luò)的具有多種可控屬性的高分辨率人臉修復(fù)(high resolution face completion with multiple controllable attributes via fully end-to-end progressive generative adversarial networks)。為控制生成內(nèi)容的屬性奠定基礎(chǔ),修復(fù)網(wǎng)絡(luò)的生成部分基于U-Net 網(wǎng)絡(luò),在卷積和反卷積之間的潛在向量中添加屬性標(biāo)簽。修復(fù)網(wǎng)絡(luò)的鑒別部分中不僅鑒別修復(fù)的圖像是否真實(shí),還融合了另外一個(gè)分支:預(yù)測(cè)屬性向量。該算法可以根據(jù)人的主觀意愿修復(fù)并生成某些屬性(微笑、性別等)。除此以外,生成器和鑒別器的訓(xùn)練是從低分辨率(4×4)開(kāi)始,逐漸增加更高層直至高分辨率,如圖4。因此該方法不僅可以控制生成人臉的多個(gè)屬性,還可以修復(fù)高分辨率的人臉圖像,沒(méi)有后處理卻可以在單一網(wǎng)絡(luò)中實(shí)現(xiàn)高質(zhì)量的修復(fù)功能,但是模型訓(xùn)練時(shí)間長(zhǎng),算法不能學(xué)習(xí)低級(jí)的皮膚紋理以及有時(shí)會(huì)生成不對(duì)稱的面部信息。經(jīng)過(guò)大量測(cè)試表明,此結(jié)構(gòu)適合于在高分辨率的情況下對(duì)缺失部分生成人們主觀意愿的屬性結(jié)果。

Table 2 Summary and comparison of regular occlusion CNN-based algorithms表2 規(guī)則遮擋的基于卷積神經(jīng)網(wǎng)絡(luò)算法的總結(jié)及對(duì)比

Fig.4 Generator with controlled attributes face completion圖4 具有可控屬性人臉修復(fù)的生成器

自從Yu 等人[14]在圖像修復(fù)中引入注意力,之后更多學(xué)者對(duì)此進(jìn)行深入的研究,例如Zeng等人[25]在提出的基于U-Net 的金字塔-上下文編碼網(wǎng)絡(luò)(pyramidcontext encoder network,PEN-Net)中,設(shè)計(jì)了一種注意力轉(zhuǎn)移網(wǎng)絡(luò)(attention transfer network,ATN)。ATN是從深層語(yǔ)義特征中融合缺失區(qū)域內(nèi)部和外部之間的注意力,并將注意力轉(zhuǎn)移到原始特征圖中高分辨的區(qū)域,最后通過(guò)四組不同速率的膨脹卷積對(duì)多尺度信息進(jìn)行聚合,達(dá)到修復(fù)淺層特征的目的。該模型不僅對(duì)缺失區(qū)域進(jìn)行修復(fù),還提高了網(wǎng)絡(luò)中編碼效率,但是該網(wǎng)絡(luò)目前還不能生成高分辨率的圖像。經(jīng)過(guò)測(cè)試,此方法適用于在視覺(jué)和語(yǔ)義都需要保持一致性的情況。

1.1.2 基于生成式對(duì)抗網(wǎng)絡(luò)

根據(jù)算法被提出年份,模型網(wǎng)絡(luò)特點(diǎn)、優(yōu)缺點(diǎn)以及算法適用場(chǎng)景的不同,本小節(jié)主要介紹5 種具有代表性的、對(duì)規(guī)則遮擋采用基于生成式對(duì)抗網(wǎng)絡(luò)的人臉修復(fù)算法模型,如表3。

Table 3 Summary and comparison of regular occlusion GAN-based algorithms表3 規(guī)則遮擋的基于生成式對(duì)抗網(wǎng)絡(luò)算法的總結(jié)及對(duì)比

Li 等人[26]基于深度生成模型提出一個(gè)生成式人臉修復(fù)(generative face completion,GFC)算法是由一個(gè)生成器、兩個(gè)鑒別器以及一個(gè)語(yǔ)義解析網(wǎng)絡(luò)構(gòu)成,如圖5 所示。模型中的生成器采用基于VGG-19(visual geometry group-19)的自動(dòng)編碼器[30];為了判別生成人臉圖像和缺失區(qū)域中合成的補(bǔ)丁圖像的真實(shí)度,融合全局鑒別器和局部鑒別器;語(yǔ)義解析網(wǎng)絡(luò)融合改進(jìn)的GAN 網(wǎng)絡(luò),最終生成人臉修復(fù)圖像。該算法專門針對(duì)具有特殊特征的人臉圖像,解決了傳統(tǒng)修復(fù)算法對(duì)人臉圖像修復(fù)不佳的問(wèn)題,且可以修復(fù)輸出逼真的結(jié)果,但是不能很好處理未對(duì)齊的人臉圖像。除此之外未能利用相鄰像素之間的空間相關(guān)性信息導(dǎo)致出現(xiàn)不正確的修復(fù)結(jié)果。經(jīng)過(guò)在專門的人臉數(shù)據(jù)集中測(cè)試,此網(wǎng)絡(luò)結(jié)構(gòu)適用于需要快速修復(fù)人臉大面積缺失的情況。

Fig.5 Generative face completion model structure圖5 生成式人臉修復(fù)模型結(jié)構(gòu)

Zheng 等人提出一種多樣性圖像修復(fù)方法(pluralistic image completion)[21]。提出的框架具有兩條平行但在訓(xùn)練中有連接的路徑(GAN 網(wǎng)絡(luò)對(duì)這兩條路徑都有作用):一條是基于VAE(variational auto encoder)[31]的重建路徑,它不僅從先驗(yàn)信息分布中重建原始圖像,且對(duì)缺失區(qū)域的隱藏空間加入先驗(yàn);另一條是生成路徑,它融合輔助鑒別器[12],對(duì)缺失區(qū)域隱藏的先驗(yàn)分布信息進(jìn)行采樣。為了使模型不僅可以學(xué)到局部特征,還能學(xué)到全局特征,融合一個(gè)新的短期+長(zhǎng)期注意力層。此算法可以生成合理的、內(nèi)容具有可變性的結(jié)果。對(duì)于解決人臉遮擋圖像,此算法在CelebA-HQ 數(shù)據(jù)集上進(jìn)行測(cè)試,表明該算法適合于不僅需要輸出高質(zhì)量的修復(fù)結(jié)果還能生成多種修復(fù)可能的情景。

Song 等人[27]通過(guò)研究人臉幾何結(jié)構(gòu),提出了一種基于幾何感知的人臉修復(fù)和編輯網(wǎng)絡(luò)(geometryaware face completion and editing)。其中設(shè)計(jì)的FCENet(face completion and editing network)由三個(gè)階段組成:第一階段,融合人臉幾何信息,從遮擋的人臉圖像中計(jì)算出人臉解析圖和特征點(diǎn)熱圖;第二階段,為了恢復(fù)人臉圖像,將遮擋圖像、預(yù)測(cè)的特征點(diǎn)熱圖和解析圖作為人臉修復(fù)生成器的輸入,如圖6;第三階段,兩個(gè)鑒別器分別在全局和局部上區(qū)分生成人臉圖像和真實(shí)人臉圖像。此外,算法為了對(duì)不同形狀和尺寸的遮擋進(jìn)行合理處理,新的低秩正則化方法被提出。此網(wǎng)絡(luò)可以充分利用人臉幾何先驗(yàn)信息[32],為人臉修復(fù)提供有用提示,以及可以修改遮擋區(qū)域的人臉屬性,例如眼睛形狀、嘴巴大小等[26]。在CelebA[33]和Multi-PIE[34]數(shù)據(jù)集上實(shí)驗(yàn),表明此方法適用于需要對(duì)遮擋人臉圖像進(jìn)行幾何修復(fù)且對(duì)面部屬性能夠進(jìn)行合理編輯的情況。

Fig.6 FCENet phase II圖6 FCENet第二階段

Zhao等人[28]提出了一個(gè)轉(zhuǎn)換網(wǎng)絡(luò)——無(wú)監(jiān)督式跨空間轉(zhuǎn)換的生成式對(duì)抗網(wǎng)絡(luò)(unsupervised cross-space translation generative adversarial networks,UCTGAN)。該網(wǎng)絡(luò)主要由三個(gè)網(wǎng)絡(luò)模塊組成:條件編碼器模塊、流形投影模塊和生成模塊。為了提高生成圖像的多樣性,將流形投影模塊和生成模塊相融合,將真實(shí)圖像空間和修復(fù)圖像空間投影到公共低維流形空間,并以無(wú)監(jiān)督的方式學(xué)習(xí)兩個(gè)空間之間一對(duì)一的圖像映射。此外,為了獲取全局信息,利用已知圖像和修復(fù)圖像之間的依賴關(guān)系,引入了一個(gè)新的跨語(yǔ)義關(guān)注層。該網(wǎng)絡(luò)降低了修復(fù)模型崩潰的可能性,提高了修復(fù)圖像的真實(shí)性。對(duì)于遮擋的人臉圖像,在CelebA-HQ 數(shù)據(jù)集測(cè)試并表明該方法適用于需要從同一幅待修復(fù)人臉圖像中生成多種多樣的語(yǔ)義合理且視覺(jué)真實(shí)的人臉圖像。

Lahiri等人[29]提出的基于語(yǔ)義修復(fù)的先驗(yàn)引導(dǎo)GAN網(wǎng)絡(luò)(prior guided GAN based on semantic inpainting):為了提高修復(fù)速度,用一個(gè)數(shù)據(jù)驅(qū)動(dòng)的參數(shù)網(wǎng)絡(luò)預(yù)估匹配遮擋圖像的先驗(yàn)信息;為了更好保證修復(fù)圖像的內(nèi)容和大小,融合結(jié)構(gòu)先驗(yàn)約束網(wǎng)絡(luò);此外,為了擴(kuò)展序列重構(gòu)模型,提出一種基于分組隱式先驗(yàn)學(xué)習(xí)的遞歸網(wǎng)絡(luò)。此算法不僅提高預(yù)測(cè)缺失區(qū)域的速度且對(duì)基于深度學(xué)習(xí)的語(yǔ)義修復(fù)進(jìn)行改進(jìn)。對(duì)于人臉遮擋圖像,該算法表明適合于先訓(xùn)練生成模型,通過(guò)隱式先驗(yàn)分布的映射預(yù)估出“最佳匹配”的場(chǎng)景。

1.1.3 小結(jié)

目前,在預(yù)測(cè)生成階段中修復(fù)規(guī)則遮擋的大多數(shù)CNN 網(wǎng)絡(luò)是基于U-Net[35]框架。前兩小節(jié)總結(jié)和對(duì)比修復(fù)規(guī)則遮擋的基于CNN 網(wǎng)絡(luò)和基于GAN 網(wǎng)絡(luò)的算法,它們是向基礎(chǔ)框架中融合新模塊或?qū)ζ溥M(jìn)行優(yōu)化改進(jìn),構(gòu)成一種對(duì)規(guī)則遮擋進(jìn)行多算法融合的修復(fù)系統(tǒng),最終獲得較佳的生成結(jié)果。例如1.1.1 小節(jié)中算法[23]將分割算法融合到CNN 網(wǎng)絡(luò),適用于修復(fù)邊界模糊場(chǎng)景。此外,還有一些規(guī)則遮擋算法被提出,例如融合多尺度神經(jīng)補(bǔ)丁合成技術(shù)[36];在CNN 網(wǎng)絡(luò)中融合移位連接(shift-net)層[37];在粗細(xì)網(wǎng)絡(luò)中設(shè)計(jì)并融合“patch-swap”層[38]。在去規(guī)則遮擋的人臉修復(fù)中,各類融合算法能滿足、解決或優(yōu)化不同的修復(fù)需求,如表2 和表3 所示。

1.2 隨機(jī)遮擋

隨機(jī)遮擋包括隨機(jī)噪聲的遮擋、隨機(jī)物體遮擋和隨機(jī)的涂鴉式遮擋,如圖7 所示。其中包括8 個(gè)算法:基于部分卷積對(duì)不規(guī)則遮擋圖像修復(fù)[39]、生成式特征點(diǎn)引導(dǎo)人臉修復(fù)[40]、基于門卷積的隨機(jī)遮擋圖像修復(fù)[41]、循環(huán)特征預(yù)測(cè)的圖像修復(fù)[42]、圖像細(xì)粒度修復(fù)[43]、基于深度生成模型的語(yǔ)義圖像修復(fù)算法[32]、基于3DMM 和生成對(duì)抗網(wǎng)絡(luò)的人臉去遮擋[44]、基于對(duì)抗式邊緣學(xué)習(xí)的生成式圖像修復(fù)算法[45]。盡管隨機(jī)遮擋修復(fù)所用網(wǎng)絡(luò)比規(guī)則遮擋修復(fù)網(wǎng)絡(luò)要復(fù)雜,但也表現(xiàn)了較好的修復(fù)結(jié)果。

Fig.7 Example of random occlusion圖7 隨機(jī)遮擋例圖

1.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)

根據(jù)算法被提出年份、模型網(wǎng)絡(luò)特點(diǎn)、優(yōu)缺點(diǎn)以及算法適用場(chǎng)景的不同,本小節(jié)主要介紹5 種具有代表性的、對(duì)隨機(jī)遮擋采用基于卷積神經(jīng)網(wǎng)絡(luò)的人臉修復(fù)算法模型,如表4。

Liu 等人[39]提出,用部分卷積對(duì)不規(guī)則遮擋進(jìn)行圖像修復(fù)(image inpainting for irregular holes using partial convolutions)。此算法融合迭代部分卷積和更新掩碼進(jìn)行修復(fù):部分卷積只在圖像的有效區(qū)域進(jìn)行,且遮擋隨網(wǎng)絡(luò)層的加深而不斷迭代和收縮;自動(dòng)掩碼的更新是一種刪除部分卷積對(duì)未遮擋值的操作,留下有效的響應(yīng)。此方法較為穩(wěn)定且可以修復(fù)任何形狀、大小、位置的遮擋,解決之前修復(fù)方法出現(xiàn)的顏色差異、模糊和偽影等問(wèn)題,但是對(duì)于稀疏的結(jié)構(gòu)圖像表現(xiàn)不佳。經(jīng)過(guò)大量實(shí)驗(yàn),此方法適合于遮擋區(qū)域大或遮擋隨機(jī)的場(chǎng)景。

Yang 等人[40]研究了一種生成式特征點(diǎn)引導(dǎo)人臉修復(fù)的網(wǎng)絡(luò)(generative landmark guided face inpainting)。模型融合兩個(gè)子網(wǎng)絡(luò):預(yù)測(cè)人臉關(guān)鍵點(diǎn)網(wǎng)絡(luò)使用關(guān)鍵特征點(diǎn)算法得到人臉拓?fù)浣Y(jié)構(gòu)和屬性;基于關(guān)鍵點(diǎn)的圖像修復(fù)網(wǎng)絡(luò)利用語(yǔ)義信息保證生成的人臉圖像屬性一致,如圖8。此算法為修復(fù)提供方向性和魯棒性,并可以擴(kuò)充人臉的特征數(shù)據(jù),減輕可能存在的人工標(biāo)注的工作量。通過(guò)實(shí)驗(yàn)表明,在擁有足夠和明確的人臉關(guān)鍵點(diǎn)時(shí),此方法可為人臉修補(bǔ)提供結(jié)構(gòu)信息性的引導(dǎo)。

Yu等人[41]提出了一個(gè)基于門卷積的隨機(jī)遮擋圖像修復(fù)(free-form image inpainting with gated convolution)。為了解決普通卷積,將所有輸入像素視為有效像素,編碼器結(jié)構(gòu)采用門卷積;為了解決隨機(jī)遮擋的自由性,融合基于GAN的頻譜歸一補(bǔ)?。╯pectral normalizedpatch based on generative adversarial network,SNPatch GAN),其訓(xùn)練快速且穩(wěn)定。此網(wǎng)絡(luò)不僅能參考較深網(wǎng)絡(luò)層的語(yǔ)義信息,在不同通道中突出遮擋區(qū)域,還能生成無(wú)縫邊界過(guò)渡的結(jié)果,解決了自由遮擋導(dǎo)致生成的顏色差異、模糊和遮擋周圍明顯的邊緣響應(yīng)[13]等問(wèn)題。實(shí)驗(yàn)表明,該算法在遮擋自由度較高和隨機(jī)時(shí),都能獲得視覺(jué)語(yǔ)義一致的修復(fù)結(jié)果。

Table 4 Summary and comparison of random occlusion CNN-based algorithms表4 隨機(jī)遮擋的基于卷積神經(jīng)網(wǎng)絡(luò)算法的總結(jié)及對(duì)比

Fig.8 Landmark guided face inpainting architecture圖8 特征點(diǎn)引導(dǎo)的人臉修復(fù)結(jié)構(gòu)

Li 等人[42]設(shè)計(jì)了一個(gè)循環(huán)特征預(yù)測(cè)(recurrent feature reasoning,RFR)的圖像修復(fù)網(wǎng)絡(luò)。RFR 模塊循環(huán)預(yù)測(cè)卷積特征的缺失邊界,將它們用作進(jìn)一步預(yù)測(cè)的根據(jù);為了在RFR 中獲得距離較遠(yuǎn)的圖像信息,融合設(shè)計(jì)了知識(shí)一致性注意(knowledge consistent attention,KCA)模塊,在循環(huán)中共享注意力得分,并用來(lái)引導(dǎo)修復(fù)區(qū)域的轉(zhuǎn)換和更新。該網(wǎng)絡(luò)結(jié)構(gòu)不僅能解決修復(fù)圖像紋理模糊的問(wèn)題,還能使生成的語(yǔ)義信息更準(zhǔn)確,但是不能直接使用注意力模塊,會(huì)生成邊界的偽影。根據(jù)實(shí)驗(yàn)證明,此算法對(duì)連續(xù)缺失區(qū)域的修復(fù)有較好的表現(xiàn),人臉圖像特征之間的一致性也得到提高。

Hui 等人[43]提出一種細(xì)粒度的修復(fù)算法(image fine-grained inpainting)。為擴(kuò)大視覺(jué)感受野且確保密集的卷積核,融合了密集多尺度融合塊(dense multiple fusion block,DMFB),它由4 個(gè)擴(kuò)張卷積組成,如圖9;將WGAN-GP(Wasserstein generative adversarial networkgradient penalty)[46]用于對(duì)抗訓(xùn)練,使用RaGAN(relativistic average generative adversarial network)[47]生成更逼真的圖像;為了生成具有真實(shí)的語(yǔ)義結(jié)構(gòu)圖像,設(shè)計(jì)了一個(gè)約束生成低級(jí)特征內(nèi)容的自引導(dǎo)回歸損失;最后為了補(bǔ)償預(yù)測(cè)特征和標(biāo)準(zhǔn)真實(shí)特征之間像素的距離,融合一種幾何對(duì)齊約束項(xiàng)。此算法網(wǎng)絡(luò)可以生成精細(xì)的紋理且具有全局性的語(yǔ)義結(jié)構(gòu),但是總體算法結(jié)構(gòu)復(fù)雜,訓(xùn)練耗時(shí)長(zhǎng)。因此,細(xì)粒度算法更適合于需要生成精細(xì)結(jié)果,且與目標(biāo)圖像一致的場(chǎng)景。

Fig.9 Dense multiple fusion block architecture圖9 密集多尺度融合塊架構(gòu)

1.2.2 基于生成式對(duì)抗網(wǎng)絡(luò)

根據(jù)算法被提出年份、模型網(wǎng)絡(luò)特點(diǎn)、優(yōu)缺點(diǎn)以及算法適用場(chǎng)景的不同,本小節(jié)主要介紹3 種具有代表性的、對(duì)隨機(jī)遮擋采用基于生成式對(duì)抗網(wǎng)絡(luò)的人臉修復(fù)算法模型,如表5。

Yeh 等人[32]提出了一種新的語(yǔ)義圖像修復(fù)方法:基于深度生成模型的語(yǔ)義圖像修復(fù)(semantic image inpainting with deep generative models)。該方法對(duì)訓(xùn)練好的生成模型中融合加權(quán)語(yǔ)義損失確定隱式空間和缺失圖像之間最相似的編碼信息,然后通過(guò)生成模型預(yù)測(cè)出缺失內(nèi)容。該方法優(yōu)于普通的基于語(yǔ)義算法CE,可以生成合理清晰的邊緣信息,但存在修復(fù)失敗的例子,無(wú)法在隱式中找到正確的生成結(jié)果,也說(shuō)明,此方法普適性不高。在人臉數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果表明,此算法預(yù)測(cè)大面積缺失區(qū)域有很好的效果。

Table 5 Summary and comparison of random occlusion GAN-based algorithms表5 隨機(jī)遮擋的基于生成式對(duì)抗網(wǎng)絡(luò)算法的總結(jié)及對(duì)比

在最近的幾十年中,3DMM[48]已普遍用于3D 人臉重建中。Yuan 和Park[44]提出了一種基于3DMM 和生成對(duì)抗網(wǎng)絡(luò)的人臉去遮擋(face de-occlusion using 3D morphable model and generative adversarial network)算法。融合3DMM 進(jìn)行面部去遮擋的網(wǎng)絡(luò),為人臉的幾何先驗(yàn)和局部鑒別器提供幫助;為使遮擋圖像多樣化,作者團(tuán)隊(duì)從300W-3D 和AFLW2000-3D[49]數(shù)據(jù)集中合成一個(gè)大型數(shù)據(jù)集。此方法不僅消除遮擋,重建無(wú)遮擋紋理的三維人臉模型,還可以通過(guò)修改3DMM 系數(shù)編輯人臉屬性。實(shí)驗(yàn)結(jié)果證實(shí)該算法更適合結(jié)合相關(guān)3D 算法。

Nazeri 等人[45]提出一種基于對(duì)抗式邊緣學(xué)習(xí)的生成式圖像修復(fù)(generative image inpainting with adversarial edge learning)。模型結(jié)構(gòu)包括:融合讓圖像缺失區(qū)域的邊緣產(chǎn)生幻覺(jué)的邊緣生成器和把幻覺(jué)邊緣作為先驗(yàn),對(duì)缺失區(qū)域補(bǔ)全的圖像補(bǔ)全網(wǎng)絡(luò),如圖10。最后通過(guò)語(yǔ)義信息將顏色填入所描繪的輪廓中。此兩階段對(duì)抗模型可以生成逼真結(jié)果且與大部分圖像結(jié)構(gòu)保持完整,但是邊緣生成器有時(shí)不能準(zhǔn)確修復(fù)高級(jí)紋理區(qū)域的邊緣,對(duì)于高分辨率圖像的修復(fù)還有待研究。對(duì)于人臉修復(fù),在數(shù)據(jù)集CelebA評(píng)估模型,并表明修復(fù)適合于不規(guī)則結(jié)構(gòu)缺失的場(chǎng)景,在邊緣信息存在時(shí)只學(xué)習(xí)顏色分布,修復(fù)效率和效果都有所提升。

1.2.3 小結(jié)

總結(jié)并對(duì)比1.2.1 小節(jié)和1.2.2 小節(jié)中基于CNN和基于GAN 網(wǎng)絡(luò)的算法,它們也是向修復(fù)框架中增加新模塊對(duì)其進(jìn)行改進(jìn),構(gòu)成一種對(duì)隨機(jī)遮擋進(jìn)行多算法融合的修復(fù)系統(tǒng)。例如文獻(xiàn)[45]算法設(shè)計(jì)并融合邊緣生成器,適用于不規(guī)則結(jié)構(gòu)缺失的修復(fù)。除此之外,還有一些融合修復(fù)算法,例如:融合注意力和解碼網(wǎng)絡(luò)的[50];融合邊緣計(jì)算的邊-端特性和門卷積[51];部分卷積、局部注意力和U-Net 結(jié)構(gòu)[52]相融合。在去除隨機(jī)遮擋人臉的修復(fù)中各類融合算法較為復(fù)雜,但能滿足不同的修復(fù)需求,如表4 和表5。

1.3 總結(jié)

目前提出的各類融合修復(fù)算法對(duì)修復(fù)的效果質(zhì)量、修復(fù)的多樣性以及控制生成屬性方面有較好的成果。規(guī)則遮擋的方法對(duì)編解碼網(wǎng)絡(luò)、粗細(xì)修復(fù)兩階段、生成鑒別兩階段等框架進(jìn)行不同程度的改進(jìn),融合局部和全局信息對(duì)規(guī)則遮擋塊進(jìn)行紋理和語(yǔ)義上的恢復(fù)。由于在去遮擋人臉修復(fù)方面,隨機(jī)遮擋的難度較大于規(guī)則遮擋,在隨機(jī)遮擋的算法中添加融合的模塊更多,其設(shè)計(jì)結(jié)構(gòu)更為復(fù)雜,運(yùn)算時(shí)間、成本比單一的修復(fù)網(wǎng)絡(luò)多,但是隨機(jī)遮擋更貼合實(shí)際的應(yīng)用,適用性更廣泛。預(yù)測(cè)生成階段更多學(xué)者關(guān)注對(duì)CNN 網(wǎng)絡(luò)的優(yōu)化和改進(jìn),而GAN 網(wǎng)絡(luò)因含有鑒別能力,常用于修復(fù)中的鑒別階段,因此近幾年的大部分算法在修復(fù)過(guò)程中融合CNN 網(wǎng)絡(luò)和GAN 網(wǎng)絡(luò)的優(yōu)點(diǎn),達(dá)到自然的修復(fù)效果。對(duì)于人臉遮擋,文獻(xiàn)[27]算法和文獻(xiàn)[40]算法分別提出將人臉幾何信息和人臉關(guān)鍵特征點(diǎn)融合到修復(fù)網(wǎng)絡(luò)中,并取得較好的修復(fù)效果。因此未來(lái)可以嘗試通過(guò)挖掘并融合更多人臉信息來(lái)優(yōu)化人臉去遮擋的效果。

2 評(píng)價(jià)指標(biāo)及數(shù)據(jù)集

2.1 評(píng)價(jià)指標(biāo)

判斷人臉去遮擋技術(shù)優(yōu)劣中需引入定量的評(píng)價(jià)指標(biāo),目前基于深度學(xué)習(xí)的人臉去遮擋算法常用的評(píng)價(jià)指標(biāo)有以下六種:PSNR、SSIM、IS、FID、l1loss和User Study。本文從人臉視覺(jué)修復(fù)效果的角度和對(duì)特殊數(shù)據(jù)的分布進(jìn)行了比較并羅列其優(yōu)缺點(diǎn),如表6。

Table 6 Summary of evaluation indicators表6 評(píng)價(jià)指標(biāo)總結(jié)

Fig.10 Edge connect inpainting model圖10 邊緣連接修復(fù)模型

2.1.1 峰值信噪比

峰值信噪比(peak signal to noise ratio,PSNR)[53]的初始意義是表示信號(hào)的最大可能功率和影響它精度的噪聲功率的比值。引申到圖像處理領(lǐng)域中,它作為一種廣泛應(yīng)用的評(píng)價(jià)圖像指標(biāo),在人臉去遮擋技術(shù)中用來(lái)衡量修復(fù)質(zhì)量的好壞,它越高,意味圖像壓縮后的失真越小。相關(guān)計(jì)算推導(dǎo)公式如下所示:

其中,MSE表示兩個(gè)m×n的I圖像和K圖像的均方誤差。

其中,MAXI表示圖像的最大像素值。

2.1.2 結(jié)構(gòu)相似性

結(jié)構(gòu)相似性(structural similarity index,SSIM)[54]是一種衡量無(wú)失真無(wú)壓縮圖像與待對(duì)比圖像之間結(jié)構(gòu)相似度的指標(biāo)[55]。它分別從亮度、對(duì)比度、結(jié)構(gòu)三方面度量?jī)烧邎D像的相似度,其值越大越好,最大值為1。在人臉去遮擋中,SSIM 被用來(lái)衡量修復(fù)圖像X和原始圖像Y間的完整性和相似性。公式如式(3)所示:

其中,μX是X的平均值,μY是Y的平均值,均值是對(duì)圖像的亮度估計(jì);是X的方差,是Y的方差,標(biāo)準(zhǔn)差是對(duì)圖像的對(duì)比度估計(jì);σXY是X和Y的協(xié)方差,協(xié)方差是對(duì)圖像間結(jié)構(gòu)相似度的度量,其范圍為0 到1;c1和c2是用來(lái)維持穩(wěn)定的常數(shù)。

2.1.3 初始分?jǐn)?shù)

初始分?jǐn)?shù)(inception score,IS)[56]是評(píng)價(jià)由GAN網(wǎng)絡(luò)生成圖像模型的重要指標(biāo)之一,其指標(biāo)又包含了生成圖像的質(zhì)量和多樣性兩個(gè)性能:生成圖像質(zhì)量由概率p(y|x)代表,概率越大,質(zhì)量越好;生成圖像多樣性由p(yn)代表,n是原訓(xùn)練的數(shù)據(jù)類數(shù),其熵越大越好。綜合這兩個(gè)性能,IS 公式為:

其中,G是生成器用噪聲得出的輸出圖像;x∈p表示從生成器中生成圖像;p(y|x)是生成圖像x屬于各個(gè)類別的概率;p(y)是從生成器中生成的所有圖像在所有類別上的邊緣分布;DKL是KL-divergence 的計(jì)算公式,它用來(lái)衡量?jī)蓚€(gè)概率的分布距離,值越大說(shuō)明二者分布越不像。

2.1.4 Fréchet距離

Fréchet 距離(Fréchet inception distance,F(xiàn)ID)是將生成數(shù)據(jù)和訓(xùn)練數(shù)據(jù)作為特征層面的對(duì)比。通過(guò)計(jì)算真實(shí)圖像和待預(yù)估圖像之間的特征距離,衡量生成圖像的質(zhì)量和多樣性。其值越低,代表生成圖像和訓(xùn)練圖像的特征數(shù)據(jù)分布之間越接近,從而使生成器生成的圖像多樣性和質(zhì)量都較好。公式如下:

其中,x代表真實(shí)圖像;g代表生成圖像;μx代表真實(shí)圖像的均值,μg代表生成圖像的均值;tr 代表特征數(shù)據(jù)矩陣對(duì)角線上元素的總和(trace,也稱矩陣的“跡”);Σx代表真實(shí)圖像的協(xié)方差,Σg代表生成圖像的協(xié)方差。

2.1.5 l1 loss

l1loss 也被稱為最小絕對(duì)值偏差,它是將目標(biāo)圖像和預(yù)估圖像的絕對(duì)差值總和最小化,其值越小越好。公式如下:

其中,S是目標(biāo)圖像和預(yù)估圖像的絕對(duì)差值的總和;Yi是目標(biāo)圖像值;f(xi)是預(yù)估圖像值。

2.1.6 用戶調(diào)查

用戶調(diào)查(user study)是一項(xiàng)人類主觀的研究,通過(guò)調(diào)查用戶對(duì)圖像間的比較,選出修復(fù)自然的圖像,旨在測(cè)試和衡量提出算法的性能。對(duì)于人臉圖像去遮擋常選用A/B 測(cè)試方法:利用平臺(tái)(MTurk、Google 平臺(tái)等),將調(diào)查用戶分成幾組,在有時(shí)間限制或無(wú)限時(shí)間且保證用戶特征差別不大的情況下,從數(shù)據(jù)集中隨機(jī)選擇一定數(shù)量的圖像,每幅圖像要求用戶進(jìn)行多次比較,也可打亂圖像順序保證結(jié)果公平性,最后要求用戶選擇出圖像修復(fù)自然的圖像,平臺(tái)對(duì)所有用戶的選擇結(jié)果進(jìn)行統(tǒng)計(jì)和分析。

2.2 人臉數(shù)據(jù)集

在人臉去遮擋實(shí)驗(yàn)中常采用的數(shù)據(jù)集,如表7所示。

Fig.11 CelebA dataset圖11 CelebA 數(shù)據(jù)集

Fig.12 CelebA-HQ dataset圖12 CelebA-HQ 數(shù)據(jù)集

Table 7 Commonly used datasets表7 常用數(shù)據(jù)集

Fig.13 Places2 dataset圖13 Places2 數(shù)據(jù)集

Fig.14 ImageNet dataset圖14 ImageNet數(shù)據(jù)集

Fig.15 Paris Street View dataset圖15 Paris Street View 數(shù)據(jù)集

因?yàn)镃elebA 圖11 和CelebA-HQ 圖12 數(shù)據(jù)集含有豐富的人臉特征屬性、數(shù)據(jù)量龐大且存在豐富標(biāo)簽等特點(diǎn),所以常被用于視覺(jué)圖像的處理,作為實(shí)驗(yàn)中的訓(xùn)練集和測(cè)試集。雖然Places2 圖13、ImageNet圖14、Paris Street View 圖15 和SVHN 圖16 數(shù)據(jù)集不是人臉數(shù)據(jù)集,但其數(shù)據(jù)量龐大且多樣,因此常作為深度學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)集。因?yàn)閬喼奕四樝噍^歐美人臉有獨(dú)特的特征信息,所以以上數(shù)據(jù)集不能很好地用于中國(guó)刑偵領(lǐng)域。因此,在未來(lái)建立屬于中國(guó)公安獨(dú)有的中國(guó)人臉數(shù)據(jù)集,對(duì)中國(guó)刑偵發(fā)展有著推動(dòng)作用。

Fig.16 SVHN dataset圖16 SVHN 數(shù)據(jù)集

3 各算法性能總結(jié)

表8 比較了規(guī)則遮擋中九種修復(fù)算法?;谏墒蕉嗔芯矸e神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)在CelebA 和CelebA-HQ 人臉數(shù)據(jù)集上進(jìn)行測(cè)試,在結(jié)構(gòu)合理和紋理清晰的人臉圖像上有明顯的視覺(jué)改善——偽影減少。和CA 算法[14]相比,可以生成臉部的陰影和光澤,比較如圖17。盡管圖像修復(fù)的分割預(yù)測(cè)和引導(dǎo)網(wǎng)絡(luò)的定量分析SSIM 和PSNR 數(shù)據(jù)是基于Cityscapes 數(shù)據(jù)集,但是針對(duì)人臉數(shù)據(jù),和算法GFC[26]進(jìn)行對(duì)比,對(duì)于邊界的修復(fù)更為清晰,說(shuō)明此網(wǎng)絡(luò)具有較強(qiáng)的泛化能力。對(duì)于基于全端到端漸進(jìn)式生成式對(duì)抗網(wǎng)絡(luò)的具有多種可控屬性的人臉修復(fù)算法的遮擋尺寸是輸入圖像尺寸的10%~30%,其評(píng)價(jià)指標(biāo)依靠于用戶調(diào)查后進(jìn)行方差計(jì)算后的數(shù)據(jù)結(jié)果,并對(duì)結(jié)果進(jìn)行等級(jí)排序,雖然不能得到底層的紋理,如皺紋,但可以產(chǎn)生豐富的紋理信息,如雀斑。金字塔-上下文編碼網(wǎng)絡(luò)修復(fù)高質(zhì)量圖像技術(shù)是基于Places2 數(shù)據(jù)集,采用MS-SSIM[64]評(píng)價(jià)標(biāo)準(zhǔn)衡量算法性能,實(shí)驗(yàn)表明生成的結(jié)果不僅視覺(jué)真實(shí)、語(yǔ)義合理,結(jié)構(gòu)顏色也與周圍圖像信息一致,但是偶爾會(huì)生成左半邊臉和右半邊臉差別大的結(jié)果,如圖18,左右眼不一致。生成式人臉修復(fù)算法在CelebA 數(shù)據(jù)集上分別對(duì)遮擋人臉左半邊、右半邊、兩只眼睛、左眼、右眼和下半邊這六類進(jìn)行評(píng)估,如圖19。大量實(shí)驗(yàn)表明此算法可以修復(fù)人臉圖像,但性能會(huì)隨遮擋尺寸的增加而下降,因此該算法在遮擋區(qū)域不超過(guò)64×64 像素下效果較好。多樣性圖像修復(fù)同樣在CelebA-HQ 人臉數(shù)據(jù)集上進(jìn)行評(píng)估,并和CA 算法[14]進(jìn)行結(jié)果對(duì)比,此算法可以生成多種自然且具有相似性的結(jié)果?;趲缀胃兄娜四樞迯?fù)和編輯修復(fù)在CelebA 數(shù)據(jù)集上和文獻(xiàn)[8,11,26,32]算法進(jìn)行對(duì)比,此算法表現(xiàn)更好,生成的

圖像更為真實(shí)。無(wú)監(jiān)督式跨空間轉(zhuǎn)換的生成對(duì)抗網(wǎng)絡(luò)在CelebA-HQ 數(shù)據(jù)集上和現(xiàn)有文獻(xiàn)[11,14,21,65-67]方法進(jìn)行定量比較,它可以生成多個(gè)不同的合理結(jié)果?;谡Z(yǔ)義的先驗(yàn)引導(dǎo)GAN 網(wǎng)絡(luò)在10%和40%的遮擋占比率下對(duì)比多種修復(fù)算法,表明此方法能夠快速生成較高質(zhì)量且精細(xì)的人臉圖像。

Table 8 Summary of regular occlusion algorithm experiments表8 規(guī)則遮擋算法實(shí)驗(yàn)總結(jié)

Fig.17 Inpainting results based on generative multicolumn convolutional neural networks and comparison圖17 基于生成式多列卷積神經(jīng)網(wǎng)絡(luò)的修復(fù)結(jié)果及對(duì)比

Fig.18 Defect of pyramid-context encoder network for high-quality image inpainting圖18 金字塔-上下文編碼網(wǎng)絡(luò)修復(fù)高質(zhì)量圖像的缺陷

Fig.19 Six types of occlusion圖19 六種遮擋類型

Fig.20 Inpainting results based on irregular occlusion using partial convolutions and comparison圖20 基于部分卷積的不規(guī)則遮擋修復(fù)結(jié)果及對(duì)比

表9 比較了隨機(jī)遮擋中八種修復(fù)算法?;诓糠志矸e的不規(guī)則遮擋修復(fù)在CelebA-HQ 數(shù)據(jù)集上和文獻(xiàn)[14]算法進(jìn)行比較,如圖20。定量分析是在Places2 數(shù)據(jù)集下測(cè)試,結(jié)果顯示此方法在不規(guī)則且不同遮擋占比率下優(yōu)于其他算法[8,13]。生成式特征點(diǎn)引導(dǎo)人臉修復(fù)在CelebA-HQ 數(shù)據(jù)集中進(jìn)行不同隨機(jī)遮擋占比率的比較,結(jié)果表明人臉特征點(diǎn)的修復(fù)引導(dǎo)比邊緣信息更具魯棒性?;陂T卷積的隨機(jī)遮擋圖像修復(fù)的定量指標(biāo)是以平均l1loss 和平均l2loss 為指標(biāo),在CelebA-HQ 數(shù)據(jù)集上針對(duì)自由形狀遮擋和一些算法[8,13-14,39]進(jìn)行修復(fù)對(duì)比,結(jié)果表明該算法可以快速去除遮擋,實(shí)現(xiàn)更高質(zhì)量的結(jié)果。循環(huán)特征預(yù)測(cè)的圖像修復(fù)和文獻(xiàn)[21,39,41,45,67]算法分別對(duì)不同占比率的遮擋進(jìn)行比較,不僅結(jié)果產(chǎn)生很好效果,運(yùn)算也相對(duì)快。圖像細(xì)粒度修復(fù)在CelebA-HQ和FFHQ 人臉數(shù)據(jù)集上進(jìn)行評(píng)估,其定量指標(biāo)是基于FFHQ 人臉數(shù)據(jù)集與文獻(xiàn)[14,21-22,25]算法相比,此算法對(duì)于大面積不規(guī)則的遮擋表現(xiàn)出更精細(xì)的修復(fù)效果,如圖21?;谏疃壬赡P偷恼Z(yǔ)義圖像修復(fù)算法和CE 算法[11]進(jìn)行對(duì)比,此算法修復(fù)的人臉圖像邊緣更清晰?;?DMM 和生成式對(duì)抗網(wǎng)絡(luò)的人臉去遮擋在CelebA 數(shù)據(jù)集上訓(xùn)練與文獻(xiàn)[26]算法進(jìn)行對(duì)比,可以在不同遮擋面積的情況下無(wú)需對(duì)遮擋區(qū)域進(jìn)行預(yù)處理就能自動(dòng)去除遮擋,且修復(fù)效果明顯?;趯?duì)抗式邊緣學(xué)習(xí)的生成式圖像修復(fù)表明了重建圖像輪廓信息有助隨機(jī)遮擋的修復(fù),如圖22。

Table 9 Summary of random occlusion algorithm experiments表9 隨機(jī)遮擋算法實(shí)驗(yàn)總結(jié)

Fig.21 Results of image fine-grained inpainting圖21 圖像細(xì)粒度修復(fù)結(jié)果

Fig.22 Inpainting results based on generative image inpainting with adversarial edge learning and comparison圖22 基于對(duì)抗式邊緣學(xué)習(xí)的生成式修復(fù)結(jié)果及對(duì)比

根據(jù)實(shí)驗(yàn)效果和算法間的對(duì)比,隨著算法不斷完善和改進(jìn),規(guī)則遮擋修復(fù)算法在視覺(jué)和定量上都有一定提高。一般情況人臉修復(fù)效果會(huì)隨遮擋面積的增大而效果降低,定量指標(biāo)可證明此結(jié)論。和規(guī)則遮擋修復(fù)算法相比,隨機(jī)遮擋修復(fù)效果會(huì)更受遮擋缺失面積大小的制約,不確定性會(huì)更多。但結(jié)合實(shí)際需求隨機(jī)遮擋修復(fù)是一個(gè)有價(jià)值的研究方向,其各項(xiàng)指標(biāo)和視覺(jué)效果隨各算法的改進(jìn)而表現(xiàn)提升,如表9。基于CNN 網(wǎng)絡(luò)和GAN 網(wǎng)絡(luò)的各類融合算法對(duì)預(yù)測(cè)和生成都起重要作用,且多數(shù)算法引入鑒別結(jié)構(gòu),使最終修復(fù)生成更為穩(wěn)定且自然的人臉圖像。與此同時(shí),學(xué)者們?nèi)岳^續(xù)探索,使去除遮擋的結(jié)果更合理、多樣和高質(zhì)量。

4 研究趨勢(shì)

為了人臉去遮擋技術(shù)在未來(lái)更有效,本文認(rèn)為在未來(lái)有五點(diǎn)需要探索和研究:

(1)建立應(yīng)用于中國(guó)刑偵領(lǐng)域的中國(guó)人臉數(shù)據(jù)集

有針對(duì)性的數(shù)據(jù)集會(huì)對(duì)去遮擋算法中模型的訓(xùn)練產(chǎn)生積極影響[68]。目前提出的人臉去遮擋技術(shù)都是基于國(guó)外的人臉數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練測(cè)試,例如,CelebA 數(shù)據(jù)集和CelebA-HQ 數(shù)據(jù)集。因此經(jīng)訓(xùn)練生成的去遮擋模型在應(yīng)用到中國(guó)遮擋人臉圖像時(shí),修復(fù)效果不夠準(zhǔn)確。中國(guó)人有著獨(dú)特的膚色、眼睛、頭發(fā)和人臉拓?fù)浣Y(jié)構(gòu),并結(jié)合中國(guó)刑偵對(duì)人臉去遮擋技術(shù)的迫切現(xiàn)實(shí)需求,建立一個(gè)專屬于中國(guó)刑偵領(lǐng)域的中國(guó)人臉數(shù)據(jù)集是未來(lái)研究中國(guó)人臉去遮擋算法的重要基礎(chǔ),其對(duì)中國(guó)刑偵的發(fā)展具有推動(dòng)作用。數(shù)據(jù)庫(kù)對(duì)模型建立的重要性目前已引起一些國(guó)內(nèi)學(xué)者的重視。例如,2020 年因受新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)疫情影響,武漢大學(xué)建立了真實(shí)口罩遮擋人臉識(shí)別數(shù)據(jù)集(realworld masked face dataset,RMFRD),如圖23。它包含525 個(gè)人的90 000 張正面和對(duì)應(yīng)戴口罩圖像,是目前世界上最大的真實(shí)口罩遮擋人臉數(shù)據(jù)集[69]。除此之外,中國(guó)科學(xué)院建立了一個(gè)大規(guī)模的中國(guó)人臉數(shù)據(jù)庫(kù)——CAS-PEAL[70],如圖24。它包含1 040 名共99 450 張中國(guó)人臉圖像,與其他人臉數(shù)據(jù)庫(kù)不同的是,不僅涵蓋了光照、表情、姿態(tài)和飾品的變化,一些人臉圖像數(shù)據(jù)還有時(shí)間、背景和距離的變化,提高了數(shù)據(jù)庫(kù)的實(shí)用性。因此,建立一個(gè)數(shù)據(jù)量龐大的,用于中國(guó)公安領(lǐng)域的中國(guó)人臉數(shù)據(jù)集對(duì)于未來(lái)國(guó)內(nèi)刑偵的發(fā)展有重要意義。

Fig.23 RMFRD dataset圖23 RMFRD 數(shù)據(jù)集

Fig.24 CAS-PEAL face dataset圖24 CAS-PEAL 人臉數(shù)據(jù)集

(2)發(fā)掘并結(jié)合更多人臉圖像有用信息應(yīng)用于修復(fù)工作中

在實(shí)際應(yīng)用中,由于遮擋缺少人臉圖像信息,為修復(fù)工作帶來(lái)困難,增加獲取人臉信息的方法有助于后續(xù)的修復(fù)。例如,目前在修復(fù)前對(duì)人臉遮擋區(qū)域進(jìn)行定位[71],對(duì)人臉特征點(diǎn)進(jìn)行檢測(cè)甚至遮擋點(diǎn)的預(yù)測(cè)[72],如圖25。但人臉含有豐富信息,不僅限于人臉的拓?fù)浣Y(jié)構(gòu),不同生活習(xí)慣、不同地區(qū)環(huán)境都存在獨(dú)特的人臉信息和屬性。因此充分發(fā)掘和利用人臉獨(dú)特且豐富的信息用于人臉去遮擋修復(fù),是未來(lái)研究的熱點(diǎn)。

(3)利用零樣本學(xué)習(xí)進(jìn)行修復(fù)

Fig.25 Masking point prediction圖25 遮擋點(diǎn)預(yù)測(cè)

人臉數(shù)據(jù)的獲取本身有一定局限性(肖像隱私),建立大規(guī)模的數(shù)據(jù)有一定的挑戰(zhàn)性,而零樣本學(xué)習(xí)現(xiàn)在被越來(lái)越多的學(xué)者關(guān)注,它是在標(biāo)簽類別缺失的情況下對(duì)圖像進(jìn)行分類[73]。目前有基于嵌入和基于生成模型[74]的兩種方法,使語(yǔ)義信息和圖像特征之間建立聯(lián)系。因此,使用零樣本學(xué)習(xí)優(yōu)化人臉去遮擋修復(fù)系統(tǒng),在未來(lái)是值得探索的問(wèn)題之一。

(4)多種復(fù)雜算法融合的同時(shí)提高修復(fù)效率

雖然近幾年去遮擋技術(shù)有很大進(jìn)展,提出的融合算法也都表現(xiàn)出其優(yōu)點(diǎn),但是由于越來(lái)越苛刻的缺失區(qū)域條件(像素低、缺失過(guò)大等),就更需要用復(fù)雜的融合算法解決問(wèn)題。例如可以融合:超分辨率技術(shù)[75],它可以有效解決人臉圖像模糊的情況;從低質(zhì)量的人臉圖像獲得高質(zhì)量的修復(fù)結(jié)果[76];從人臉不同姿態(tài)獲取人臉特征[77]等,但是復(fù)雜的融合算法會(huì)降低修復(fù)效率并增加計(jì)算資源的成本。因此,在進(jìn)行多種復(fù)雜修復(fù)算法融合的同時(shí)還能維持甚至提高修復(fù)效率,是未來(lái)研究的一個(gè)方向。

(5)新的修復(fù)評(píng)價(jià)指標(biāo)

目前人臉去遮擋算法的評(píng)價(jià)指標(biāo)有PSNR、SSIM、FID 等,但在一些算法測(cè)試中出現(xiàn)數(shù)據(jù)表現(xiàn)好、視覺(jué)效果差的情況。根據(jù)人臉去遮擋技術(shù)的最終應(yīng)用是輔助人臉識(shí)別,因此修復(fù)結(jié)果與人臉識(shí)別相結(jié)合[78]的方法是可以有效判斷修復(fù)效果,但是研究一個(gè)專門針對(duì)人臉修復(fù)算法的評(píng)價(jià)指標(biāo)不僅快速地、更具權(quán)威地判斷修復(fù)算法的優(yōu)劣,而且為各類人臉圖像處理算法增加一種新的評(píng)價(jià)指標(biāo)[79],有助于領(lǐng)域的發(fā)展。因此,新的修復(fù)評(píng)價(jià)指標(biāo)也是未來(lái)研究的重要趨勢(shì)。

5 結(jié)束語(yǔ)

人臉去遮擋技術(shù)近年來(lái)取得突破性進(jìn)展。算法間的相互融合和多角度探索使修復(fù)結(jié)果更加合理化。本文對(duì)近五年的算法根據(jù)遮擋方式和預(yù)測(cè)生成網(wǎng)絡(luò)的不同進(jìn)行歸類和對(duì)比。其次,總結(jié)了現(xiàn)有文獻(xiàn)中人臉去遮擋常用的數(shù)據(jù)集及算法性能評(píng)價(jià)指標(biāo)。從定量評(píng)價(jià)和視覺(jué)效果進(jìn)行修復(fù)效果對(duì)比,證明目前基于深度學(xué)習(xí)的人臉去遮擋技術(shù)有較好的實(shí)驗(yàn)效果。但在修復(fù)的過(guò)程中仍存在一些技術(shù)和數(shù)據(jù)問(wèn)題,在未來(lái)還需進(jìn)一步的研究。

猜你喜歡
人臉卷積語(yǔ)義
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有特點(diǎn)的人臉
玻璃窗上的人臉
“領(lǐng)家系”可愛(ài)臉VS“高冷系”美人臉
漢語(yǔ)依憑介詞的語(yǔ)義范疇
長(zhǎng)得象人臉的十種動(dòng)物
青龙| 安仁县| 拜泉县| 若尔盖县| 论坛| 名山县| 克山县| 潼关县| 邵武市| SHOW| 大田县| 呈贡县| 黑河市| 孟津县| 南溪县| 大连市| 堆龙德庆县| 余江县| 庐江县| 佳木斯市| 桃源县| 揭阳市| 桂阳县| 定陶县| 铅山县| 宣武区| 中卫市| 沧源| 绥德县| 长武县| 禹城市| 大埔区| 肇庆市| 罗源县| 汉中市| 湘潭县| 固阳县| 甘泉县| 阿瓦提县| 兴城市| 平顺县|