国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的人物肖像全自動摳圖算法

2022-05-09 07:03:22蘇常保龔世才
圖學(xué)學(xué)報 2022年2期
關(guān)鍵詞:前景分支語義

蘇常保,龔世才

基于深度學(xué)習(xí)的人物肖像全自動摳圖算法

蘇常保,龔世才

(浙江科技學(xué)院理學(xué)院,浙江 杭州 310000)

針對摳圖任務(wù)中人物摳圖完整度低、邊緣不夠精細化等繁瑣問題,提出了一種基于深度學(xué)習(xí)的人物肖像全自動摳圖算法。算法采用三分支網(wǎng)絡(luò)進行學(xué)習(xí),語義分割分支(SSB)學(xué)習(xí)圖的語義信息,細節(jié)分支(DB)學(xué)習(xí)圖的細節(jié)信息,混合分支(COM)將2個分支的學(xué)習(xí)結(jié)果匯總。首先算法的編碼網(wǎng)絡(luò)采用輕量級卷積神經(jīng)網(wǎng)絡(luò)(CNN) MobileNetV2,以加速算法的特征提取過程;其次在SSB中加入注意力機制對圖像特征通道重要性進行加權(quán),在DB加入空洞空間金字塔池化(ASPP)模塊,對圖像的不同感受野所提取的特征進行多尺度融合;然后解碼網(wǎng)絡(luò)的2個分支通過跳級連接融合不同階段編碼網(wǎng)絡(luò)提取到的特征進行解碼;最后將2個分支學(xué)習(xí)的特征融合在一起得到圖像的圖。實驗結(jié)果表明,該算法在公開的數(shù)據(jù)集上摳圖效果優(yōu)于所對比的基于深度學(xué)習(xí)的半自動和全自動摳圖算法,在實時流視頻摳圖的效果優(yōu)于Modnet。

全自動摳圖;輕量級卷積神經(jīng)網(wǎng)絡(luò);注意力機制;空洞空間金字塔池化;特征融合

摳圖算法研究的是如何將一張圖像中的前景和背景信息分離的問題,如何實現(xiàn)高質(zhì)量又無需人工交互的摳圖一直是工業(yè)界和學(xué)術(shù)界努力追求的目標(biāo)。1984年P(guān)ORTER和DUFF[1]提出了這類問題的數(shù)學(xué)模型

其中,為一張自然圖像;為圖像中的前景,為背景;為圖像的半透明度,其是前景和背景信息的線性混合表示方法。的取值通常介于0和1之間,0為像素點明確屬于背景,1為前景,而大多數(shù)的自然圖像,其像素點均屬于明確的前景或背景,但是對于圖像前景的邊緣,對應(yīng)的值通常介于0和1之間。所以對于摳圖來說,只要求解出,就可以用原始圖像與線性組合得出摳圖的區(qū)域,但準(zhǔn)確估計的取值卻是一個非常重要且困難的問題。

傳統(tǒng)摳圖算法通常只考慮圖像的低層級特征,例如顏色等。一般分為抽樣[2-4]和傳播[5-6]2類算法,但是面對復(fù)雜的場景圖像,這些算法的摳圖效果通常不盡人意。隨著近些年深度學(xué)習(xí)的快速發(fā)展,許多研究人員提出了基于深度學(xué)習(xí)的摳圖算法,使得這一問題有了很大的進步。但是現(xiàn)在大多數(shù)基于深度學(xué)習(xí)的摳圖算法[7-12]均需要人為進行交互。即以自然圖像和根據(jù)圖制作的三區(qū)圖(trimap)作為算法的輸入,預(yù)先為需要摳圖的圖像提供先決的約束條件,摳圖的質(zhì)量雖然很高,但效率大打折扣,因為trimap的制作通常耗時又耗力。為了解決此問題,大量學(xué)者研究無需輸入trimap的全自動摳圖算法。SENGUPTA等[13]的BackgroundMatting算法使用圖像的背景替代trimap和圖像同時輸入算法進行摳圖,達到了很好的效果;LIU等[14]使用前景粗略標(biāo)注改進摳圖效果,在主流的語義分割數(shù)據(jù)集上實驗,發(fā)現(xiàn)對語義分割標(biāo)簽的標(biāo)注精度提高明顯;QIAO等[15]提出注意力機制引導(dǎo)的層級結(jié)構(gòu)融合的圖像摳圖算法,摳圖精度較高,在自動摳圖領(lǐng)域中取得了突破性的進展;KE等[16]提出了MODNET算法,為實時視頻摳圖邁進了一大步。

1 數(shù)據(jù)集制作

1.1 a圖制作

目前學(xué)術(shù)界公開的摳圖數(shù)據(jù)集并不多,已經(jīng)開源的數(shù)據(jù)集中具有較高質(zhì)量圖的有Adobe[8],Distinctions-646 (DT-646)[15]和RealWorldPortrait- 636 (RW-636)[17],其中Adobe和DT-646數(shù)據(jù)集包含的人物肖像比較少。為了擴充前景的數(shù)量,本文使用PhotoShop摳圖工具標(biāo)注了640張只有人物肖像的前景圖,圖1為部分前景圖及其圖。

圖1 人工標(biāo)注a圖((a)前景圖和a圖示例1;(b)前景圖和a圖示例2))

1.2 Trimap的制作

Trimap是一個粗略的圖,將其劃分為前景區(qū)域、背景區(qū)域和未知區(qū)域3部分。通過trimap的引導(dǎo),讓摳圖任務(wù)主要專注于確定未知區(qū)域中的值,進而將摳圖任務(wù)變得相對簡單。

本文的全自動摳圖算法不需要事先加入trimap圖,但需要模型自動獲取trimap的信息,而為模型制作其標(biāo)簽。本文trimap無需手繪,可通過圖像的圖膨脹腐蝕得到,其中膨脹腐蝕的卷積核尺寸均設(shè)置為10×10。膨脹腐蝕后的trimap中像素值分別為0,128和255。其中,明確屬于背景是黑色,像素點的值為0;明確屬于前景是白色,像素點的值為255;而未知區(qū)域是灰色,像素點的值為128。其trimap的生成過程如圖2所示。

圖2 Trimap生成過程

根據(jù)圖2,首先對圖分別進行腐蝕和膨脹操作,然后將腐蝕和膨脹的結(jié)果相減得到灰色的未知區(qū)域,最后將灰色未知區(qū)域和腐蝕的圖像相加得到最終的trimap圖。

1.3 合成圖像

為了擴充數(shù)據(jù)集前景的數(shù)目,增加模型的泛化能力。本文使用了Adobe,DT-646和RW-636等數(shù)據(jù)集的人物肖像圖和自制的640張數(shù)據(jù)集。一共1 800張前景圖像,然后將每張前景圖像分別和20張不同的背景圖像進行合成,本文使用的背景圖像是公開的BG-20K數(shù)據(jù)集[18]。合成規(guī)則遵循式(1)進行,最終合成了36 000張圖像,訓(xùn)練集使用35 000張圖像,驗證集使用1 000張圖像,每個數(shù)據(jù)集部分合成圖如圖3所示。

圖3 部分合成訓(xùn)練集圖像

2 摳圖網(wǎng)絡(luò)架構(gòu)

2.1 本文算法網(wǎng)絡(luò)架構(gòu)

本文摳圖網(wǎng)絡(luò)結(jié)構(gòu)分為編碼網(wǎng)絡(luò)、過渡網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)3部分,如圖4所示。編碼網(wǎng)絡(luò)采用的是輕量級網(wǎng)絡(luò)MobilenetV2[19],過渡網(wǎng)絡(luò)由注意力機制模塊和空洞空間金字塔(atrous spatial pyramid pooling,ASPP)模塊組成,解碼網(wǎng)絡(luò)由3個網(wǎng)絡(luò)分支構(gòu)成:①對圖像的前景、背景、未知區(qū)域進行分類學(xué)習(xí),即語義分割分支(semantic segmentation branch,SSB);②對圖像邊緣細節(jié)信息學(xué)習(xí),即細節(jié)分支(detail branch,DB);③將前面2部分學(xué)習(xí)到的圖進行匯總,即混合分支(combination branch,COM)。根據(jù)MobilenetV2的特征提取尺寸的變化過程,共將MobilenetV2的特征提取分為5個部分,分別用1,2,···,5表示,即圖4中的Encoder模塊。過渡網(wǎng)絡(luò)由2個模塊構(gòu)成,即圖4中的SENet[20](SE)和ASPP模塊。

圖4 本文算法網(wǎng)絡(luò)結(jié)構(gòu)

2.2 語義分割分支

在計算機視覺任務(wù)中,對圖像語義信息的理解至關(guān)重要。語義信息是指一張圖像所包含的內(nèi)容,而摳圖任務(wù)中的語義信息可看作這幅圖像中的前景和背景。在摳圖任務(wù)中,語義信息直接決定了摳圖的整體效果。

2.2.1 注意力機制

本文算法在SSB網(wǎng)絡(luò)中加入了注意力機制SE模塊。SE模塊源于SENet,可以嵌到其他分類或檢測模型當(dāng)中,目的是在模型關(guān)注圖像特征通道的同時可以自動學(xué)習(xí)到不同通道的重要性,有利于模型處理分類問題。

SE模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。給定一個輸入,其特征通道數(shù)為,首先對進行Squeeze操作,將每個二維的特征通道變成一個實數(shù),某種程度上這個實數(shù)應(yīng)該具有全局的感受野,所以本文使用全局池化操作。其次通過Excitation操作壓縮后的1×1×的特征生成權(quán)重,本文使用2個全連接層,1個激活層,其中激活層放在2個全連接層的中間。最后對特征的通道進行加權(quán)操作,通過乘法操作,將Excitation操作生成的權(quán)重逐通道加權(quán)到特征上,完成對特征的通道注意力標(biāo)定。

圖5 SE模塊網(wǎng)絡(luò)結(jié)構(gòu)[20]

2.2.2 語義分割分支網(wǎng)絡(luò)結(jié)構(gòu)

SSB網(wǎng)絡(luò)是基于分類思想設(shè)計的,該分支網(wǎng)絡(luò)的主要任務(wù)是將一張圖像的背景、前景、以及背景和前景交叉的未知區(qū)域分離開,其分支共設(shè)置了11個卷積層,每個卷積層后均接著歸一化層和激活層,其中最后一層卷積層使用的是softmax激活函數(shù),主要是便于計算像素點的交叉熵損失。

SSB首先將編碼特征5經(jīng)過注意力機制模塊,進行通道重要性加權(quán),然后將編碼網(wǎng)絡(luò)的前4個階段的特征1~4分別與解碼網(wǎng)絡(luò)的不同階段進行concat特征融合。然后通過SSB網(wǎng)絡(luò)卷積和上采樣操作,最終輸出一個具有三通道的特征圖,每一個特征圖分別代表一個類別。

2.2.3 語義分割分支損失函數(shù)

由于SSB的預(yù)測其實是在做一個三分類的問題,分別是預(yù)測圖像的背景、前景和未知區(qū)域,所以SSB以trimap作為標(biāo)簽,主要學(xué)習(xí)trimap的信息,故采用交叉損失熵作為SSB的損失函數(shù),即

2.3 細節(jié)分支

2.3.1 空洞空間金字塔池化

空間金字塔池化(spatial pyramid pooling,SPP)可以在多個范圍內(nèi)捕捉上下文信息。為了獲得更大尺度的上下文信息,DeepLabv V2[21]提出了ASPP,使用不同采樣率的并行空洞卷積層捕獲多尺度信息。本文算法在DB加入ASPP,主要目的是通過擴大卷積核的感受野,引導(dǎo)模型聚合不同感受野的特征,使得位于未知區(qū)域的值可以有效地聯(lián)系前景和背景信息,從而實現(xiàn)更加精準(zhǔn)的預(yù)測。

本文的ASPP架構(gòu)是基于Deeplabv3+[22]進行改進的。ASPP模塊中共設(shè)置了6個卷積層,其中卷積核尺寸設(shè)置為1×1和3×3,3×3尺寸的卷積核空洞率分別設(shè)置為1,2,4,8。如圖6所示,ASPP網(wǎng)絡(luò)模塊中前5個卷積層是對編碼網(wǎng)絡(luò)的特征圖5分別進行卷積操作,最后一個卷積層采用1×1卷積核對前5個卷積層的輸出特征圖concat后進行通道壓縮獲得最終的輸出。

圖6 ASPP模塊網(wǎng)絡(luò)結(jié)構(gòu)

2.3.2 細節(jié)分支網(wǎng)絡(luò)結(jié)構(gòu)

DB采用特征融合的思想進行設(shè)計,共設(shè)置了12個卷積層,每個卷積層后均接歸一化層和激活層,其中最后一個卷積層的激活函數(shù)采用的是sigmoid,主要是將預(yù)測值控制到0和1之間。

DB網(wǎng)絡(luò)首先將編碼特征5經(jīng)過ASPP結(jié)構(gòu)提取圖像的多尺度信息,然后采用高層語義與低層語義信息特征融合的方式進行解碼操作,特征融合的具體方式和SSB的一樣。最終通過DB解碼階段的上采樣和卷積操作,對圖的細節(jié)信息進行學(xué)習(xí)。

2.3.3 損失函數(shù)

由于DB主要預(yù)測的是圖像的邊緣細節(jié)信息,所以損失函數(shù)也主要約束未知區(qū)域,這樣對于確定屬于前景和背景的預(yù)測可能不準(zhǔn)確,但是對確定屬于前景和背景的部分本文認為SSB已經(jīng)學(xué)習(xí)到了。本文DB采用smoothL1損失函數(shù),即

2.4 混合分支

2.4.1 混合分支網(wǎng)絡(luò)結(jié)構(gòu)

COM主要是預(yù)測最終的圖,共設(shè)置了2個卷積層,最后一層采用sigmoid激活函數(shù),目的是將預(yù)測的值直接控制在0和1之間。

COM將SSB和DB的特征進行融合,其融合特征分別來自各個分支的最后一個卷積層的結(jié)果,將2個特征圖的通道進行concat操作,最終輸出單通道的圖。

2.4.2 混合分支損失函數(shù)

COM的損失函數(shù)分為預(yù)測出的圖和合成圖損失2部分,均采用L1損失函數(shù),其數(shù)學(xué)模型為

其中,為預(yù)測值;為真實值;L來自于文獻[8],表示用預(yù)測出的圖合成圖像和真實圖像的損失。

本文算法最終通過3個分支的損失函數(shù)總和進行端到端的訓(xùn)練,即

其中,,為3個超參數(shù),用來平衡3個分支的損失,本文設(shè)置==1,=10。

3 實驗結(jié)果及分析

3.1 實驗參數(shù)設(shè)置

為了提高模型的泛化性能,數(shù)據(jù)集預(yù)處理時做了圖像隨機裁剪和隨機翻轉(zhuǎn)操作。本文采用python語言編寫,基于pytorch框架,在一塊GeForce RTX 2080 11 G GPU進行訓(xùn)練。實驗訓(xùn)練圖像的尺寸為320×320,batchsize設(shè)置為8,初始學(xué)習(xí)率為0.01,每迭代10次學(xué)習(xí)率下降為原來的1/10,選擇SGD優(yōu)化器進行梯度下降優(yōu)化參數(shù),最終實驗共迭代了20次。

3.2 對比實驗

為了比較本文算法的有效性,本文分別采用基于深度學(xué)習(xí)的半自動DIM[8]、全自動LFM[23]和全自動Modnet[16]3種基于深度學(xué)習(xí)的摳圖算法,在驗證集1 000張合成圖上做對比。圖7是幾種算法在驗證集-1k上的摳圖效果。

圖7 幾種方法在驗證集-1k上的摳圖結(jié)果((a)原圖像和不同算法的摳圖效果1;(b)原圖像和不同算法的摳圖效果2;(c)原圖像和不同算法的摳圖效果3)

圖7分別展示了原圖和幾種方法的摳圖結(jié)果以及人工標(biāo)注的圖(GroundTruth(GT))。直觀上看,基于深度學(xué)習(xí)的半自動摳圖算法DIM對于圖像的整體部分摳圖結(jié)果雖然較為完整,但是細節(jié)部分還是有所欠缺,主要是因為半自動算法trimap的制作直接影響了圖像的邊緣效果?;谏疃葘W(xué)習(xí)的全自動的摳圖算法LFM和Modnet對于圖像的細節(jié)部分摳圖效果雖然有所提升,但是沒有trimap作為輔助輸入,圖像的語義部分摳圖效果并不完整。相比之下,本文算法(Ours)在圖像的語義部分更加完整,細節(jié)部分摳圖效果更加精細,更接近GT。

3.3 實驗指標(biāo)評價

為了定量分析4種方法在驗證集上的摳圖質(zhì)量,本文采用摳圖算法中常用的2個評價指標(biāo)平均絕對誤差[16](mean absolute error,MAD)和平均方誤差[24](mean squared error,MSE),即

本文在相同的實驗環(huán)境下,對4種算法在驗證集-1k的合成圖的預(yù)測結(jié)果做了MAD和MSE的計算,見表1。

表1 4種算法在驗證集-1k的誤差值

由表1可看出,本文算法對于MAD和MSE的值均最小,客觀上證明了本文算法的有效性。

3.4 實時流視頻摳圖

為了驗證本文算法在自然圖像上的摳圖效果,本文又對2k網(wǎng)絡(luò)攝像頭的實時捕捉畫面進行摳圖。實驗設(shè)備均采用GeForce RTX 2080顯卡,將實時畫面均裁剪為320×320大小,其原視頻幀畫面和摳圖畫面如圖8所示。

由于實時流視頻摳圖對算法的實時性要求較高,所以本文只對比了Modnet摳圖算法,如圖8所示,本文對于自然圖像下的實時摳圖,泛化性依然很魯棒,人物摳圖相對較為完整,明顯優(yōu)于Modnet算法。經(jīng)測試,本文采用分辨率為320×320的實時流圖像,摳圖速度為每秒25幀以上。

圖8 2種方法實時流視頻摳圖結(jié)果((a)原視頻幀畫面和不同算法的摳圖效果1;(b)原視頻幀畫面和不同算法的摳圖效果2)

4 結(jié)束語

本文針對目前主流摳圖算法存在的自然圖像摳圖精度較低、摳圖任務(wù)繁瑣等問題,提出了一種基于深度學(xué)習(xí)的人物肖像全自動摳圖算法。①首先采用2個單獨的分支網(wǎng)絡(luò)分別對摳圖的語義信息和細節(jié)信息進行學(xué)習(xí),然后將二者學(xué)習(xí)的圖信息匯總,并用總的損失函數(shù)進行約束,實現(xiàn)了端到端的全自動摳圖算法;②采用輕量級網(wǎng)絡(luò)進行特征提取,實現(xiàn)了高效率摳圖;③為了實現(xiàn)高質(zhì)量的摳圖效果,網(wǎng)絡(luò)中加入注意力機制和ASPP結(jié)構(gòu)。在合成數(shù)據(jù)集上的實驗證明了摳圖效果有所提升。此外,本文算法還支持實時流視頻摳圖,由于實際場景的變化,摳圖效果可能有所不同。

[1] PORTER T, DUFF T. Compositing digital images[C]//The 11th Annual Conference On Computer Graphics And Interactive Techniques - SIGGRAPH ’84. New York: ACM Press, 1984: 253-259.

[2] FENG X X, LIANG X H, ZHANG Z L. A cluster sampling method for image matting via sparse coding[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 204-219.

[3] JOHNSON J, VARNOUSFADERANI E S, CHOLAKKAL H, et al. Sparse coding for alpha matting[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3032-3043.

[4] KARACAN L, ERDEM A, ERDEM E. Image matting with KL-divergence based sparse sampling[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 424-432.

[5] AKSOY Y, AYDIN T O, POLLEFEYS M. Designing effective inter-pixel information flow for natural image matting[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 228-236.

[6] AKSOY Y, OH T H, PARIS S, et al. Semantic soft segmentation[J]. ACM Transactions on Graphics, 2018, 37(4): 1-13.

[7] CHO D, TAI Y W, KWEON I. Natural image matting using deep convolutional neural networks[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 626-643.

[8] XU N, PRICE B, COHEN S, et al. Deep image matting[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 311-320.

[9] LUTZ S, AMPLIANITIS K, SMOLIC A. Alphagan: generative adversarialnetworks for natural image matting[EB/OL]. (2018-07-26) [2021-09-19]. https://arxiv.org/pdf/1807.10088.pdf.

[10] LU H, DAI Y T, SHEN C H, et al. Indices matter: learning to index for deep image matting[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 3265-3274.

[11] TANG J W, AKSOY Y, OZTIRELI C, et al. Learning-based sampling for natural image matting[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3050-3058.

[12] LI Y Y, LU H T. Natural image matting via guided contextual attention[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11450-11457.

[13] SENGUPTA S, JAYARAM V, CURLESS B, et al. Background matting: the world is your green screen[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2288-2297.

[14] LIU J L, YAO Y, HOU W D, et al. Boosting semantic human matting with coarse annotations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 8560-8569.

[15] QIAO Y, LIU Y H, YANG X, et al. Attention-guided hierarchical structure aggregation for image matting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 13673-13682.

[16] KE Z H, LI K C, ZHOU Y R, et al. Is a green screen really necessary for real-time portrait matting?[EB/OL]. (2020-11-29) [2021-09-19]. https://arxiv.org/abs/2011.11961.

[17] YU Q H, ZHANG J M, ZHANG H, et al. Mask guided matting via progressive refinement network[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 1154-1163.

[18] LI J, ZHANG J, MAYBANK S J, et al. Bridging composite and real: towards end-to-end deep image matting[EB/OL]. (2020-10-30) [2021-09-19]. https://arxiv.org/abs/2010.16188.

[19] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4510-4520.

[20] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[21] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. (2017-12-05) [2021-09-19]. https://arxiv.org/abs/1706.05587.

[22] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder- decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.

[23] ZHANG Y K, GONG L X, FAN L B, et al. A late fusion CNN for digital matting[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 7461-7470.

[24] RHEMANN C, ROTHER C, WANG J, et al. A perceptually motivated online benchmark for image matting[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 1826-1833.

Fully automatic matting algorithm for portraits based on deep learning

SU Chang-bao, GONG Shi-cai

(School of Science, Zhejiang University of Science and Technology, Hangzhou Zhejiang 310000, China)

Aiming at the problems of low completeness of character matting, insufficiently refined edges, and cumbersome matting in matting tasks, an automatic matting algorithm for portraits based on deep learning was proposed. The algorithm employed a three-branch network for learning: the semantic information of the semantic segmentation branch (SSB) learninggraph, and the detailed information of the detail branch (DB) learninggraph. The combination branch (COM) summarized the learning results of the two branches. First, the algorithm’s coding network utilized a lightweight convolutional neural network MobileNetV2, aiming to accelerate the feature extraction process of the algorithm. Second, an attention mechanism was added to the SSB branch to weight the importance of image feature channels, the atrous spatial pyramid pooling module was added to the DB branch, and multi-scale fusion was achieved for the features extracted from the different receptive fields of the image. Then, the two branches of the decoding network merged the features extracted by the encoding network at different stages through the jump connection, thus conducting the decoding. Finally, the features learned by the two branches were fused together to obtain the imagegraph. The experimental results show that on the public data set, this algorithm can outperform the semi-automatic and fully automatic matting algorithms based on deep learning, and that the effect of real-time streaming video matting is superior to that of Modnet.

fully automatic matting; lightweight convolutional neural network; attention mechanism;atrous spatial pyramid pooling; feature fusion

TP 391

10.11996/JG.j.2095-302X.2022020247

A

2095-302X(2022)02-0247-07

2021-08-17;

2021-09-24

浙江省自然科學(xué)基金項目(Ly20A010005)

蘇常保(1996–),男,碩士研究生,主要研究方向為圖像分割。E-mail:schangbao20@163.com

龔世才(1970–),男,教授,博士。主要研究方向為圖論,復(fù)雜網(wǎng)絡(luò)等。E-mail:scgong@zafu.edu.cn

17 August,2021;

24 September,2021

Natural Science Foundation of Zhejiang Province (Ly20A010005)

SU Chang-bao (1996–), master student, His main research interest covers image segmentation. E-mail:schangbao20@163.com

GONG Shi-cai (1970–), professor, Ph.D. His main research interests cover graph theory, complex network, etc. E-mail:scgong@zafu.edu.cn

猜你喜歡
前景分支語義
我國旅游房地產(chǎn)開發(fā)前景的探討
四種作物 北方種植有前景
語言與語義
離岸央票:需求與前景
中國外匯(2019年11期)2019-08-27 02:06:32
巧分支與枝
一類擬齊次多項式中心的極限環(huán)分支
量子糾纏的來歷及應(yīng)用前景
太空探索(2016年10期)2016-07-10 12:07:01
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
生成分支q-矩陣的零流出性
潮州市| 潼南县| 涡阳县| 枣阳市| 安福县| 安义县| 临武县| 松溪县| 凌云县| 绍兴市| 兖州市| 雷波县| 密山市| 施甸县| 出国| 丰镇市| 南宁市| 旬邑县| 固安县| 杭州市| 太湖县| 威海市| 宜良县| 香河县| 临城县| 开原市| 博兴县| 宿州市| 遂川县| 逊克县| 深泽县| 香格里拉县| 弥勒县| 双辽市| 林甸县| 乃东县| 武冈市| 镇原县| 铁岭市| 盘山县| 张家口市|