国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于三次精調(diào)的人臉分割方法

2021-09-10 07:22黃娜趙志剛于曉康

黃娜 趙志剛 于曉康

摘要:針對人臉分割的精度問題,提出了融合網(wǎng)絡(luò)深層特征和淺層特征的新結(jié)構(gòu),三次精調(diào)人臉檢測框,提高人臉分割的精確度。新結(jié)構(gòu)結(jié)合通道注意力與空間注意力機(jī)制,利用深度分離卷積,為每個(gè)通道特征提供各自對應(yīng)的注意力權(quán)重,充分利用深層語義信息與淺層定位信息,為精確分割提供特征信息,三次精調(diào)為分割提供準(zhǔn)確的檢測結(jié)果。實(shí)驗(yàn)結(jié)果相比Mask R-CNN的mAP提高0.1,相比最新方法mAP提高0.2。

關(guān)鍵詞:人臉分割;精調(diào);通道注意力;空間注意力

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

收稿日期:2020-09-30

通信作者:

于曉康,男,博士,副教授,主要研究方向?yàn)橛?jì)算機(jī)幾何,計(jì)算機(jī)圖形學(xué),計(jì)算機(jī)視覺等。E-mail: xyu_qdu@163.com

人臉是非常重要的特征,人臉檢測、人臉識(shí)別、人臉分割等技術(shù)廣泛應(yīng)用于安全、通信、醫(yī)療、社交等領(lǐng)域。Cuevas等[1]提出對光照變化有健壯性的人臉分割方法;Segundo等[2]提出基于人臉關(guān)鍵點(diǎn)的人臉分割算法;Subasic等[3]提出適用于電子身份文件識(shí)別的人臉分割模型;Khan等[4]以多任務(wù)的方式提出頭部姿態(tài)估計(jì)和人臉分割的模型;Masi等[5]在人臉檢測之后,通過3D投影計(jì)算得到完整的人臉形狀,再通過已有的人臉分割網(wǎng)絡(luò)得到有誤差的人臉分割,計(jì)算兩者之間的差異,構(gòu)造新的損失函數(shù),為人臉分割提供了新思路;Wang等[6]通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型,分割視頻中的人臉。但現(xiàn)實(shí)中人臉遮擋的情況復(fù)雜多樣,現(xiàn)有模型對于不同場景不同弧度的人臉邊界,還是無法精確分割。實(shí)例分割方法也不斷更新,經(jīng)典方案Mask R-CNN[7]在目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN[8]的基礎(chǔ)上,加入特征金字塔網(wǎng)絡(luò)FPN,提出RoIAlign方法代替RoIPooling,僅添加了一個(gè)mask分支做分割,取得不錯(cuò)的實(shí)驗(yàn)效果。Masklab[9]相比于Mask R-CNN,加入方向預(yù)測的分支與mask分支特征結(jié)合;MS R-CNN[10]在Mask R-CNN中添加了MaskIoU Head分支完善評分依據(jù)。這些提高分割精度的方法多數(shù)是通過增加新的任務(wù)分支,來提供給mask分支補(bǔ)充信息,輔助分割任務(wù)以獲得更好的效果,但沒有關(guān)注目標(biāo)檢測和網(wǎng)絡(luò)中間層特征對分割精度的影響。近年來在CNN中應(yīng)用注意力機(jī)制的研究逐漸展開,Hu[11]認(rèn)為通道注意力SE模塊能夠提高分類任務(wù)的準(zhǔn)確率;BiSeNet[12]借鑒SE模塊,將注意力機(jī)制應(yīng)用到語義分割任務(wù)中;SKNet[13]利用注意力機(jī)制融合不同層的特征;Woo[14]提出相加融合通道注意力和空間注意力分支特征。但這些已有的空間注意力對不同通道并沒有區(qū)分,使網(wǎng)絡(luò)中間層特征沒有得到充分利用,同時(shí)檢測結(jié)果不準(zhǔn)確也造成了人臉分割不精確,本文針對以上問題提出改進(jìn)方法。

1 方法分析與方案

在分割任務(wù)中,檢測階段的結(jié)果至關(guān)重要,通常將檢測框緊貼實(shí)例的邊界定義為好的檢測結(jié)果。人類臉型有多種,加上不同發(fā)型遮擋,不同姿勢角度的拍攝,使圖像中人臉邊界弧度不同,甚至存在尖角,這給檢測和分割任務(wù)增加了困難。二階段檢測通常采用兩次相同的框體調(diào)整方法,先對框體的中心位置進(jìn)行調(diào)整,再以中心位置為基準(zhǔn),調(diào)整框體四條邊的位置。在調(diào)整四條邊的位置時(shí),對上邊界和下邊界使用相同的調(diào)整值,對左邊界和右邊界使用相同的調(diào)整值。存在的問題是,在中心位置沒有得到準(zhǔn)確調(diào)整時(shí),后續(xù)進(jìn)行的邊框調(diào)整并不準(zhǔn)確。針對此問題提出了改進(jìn)方法,加入第三次調(diào)整分支,固定框體的中心位置不動(dòng),給出四條邊各自不同的調(diào)整值。在測試過程中,串聯(lián)在第二次框體調(diào)整之后,進(jìn)行第三次精調(diào)。在訓(xùn)練過程中,訓(xùn)練目標(biāo)由初始極值點(diǎn)與真實(shí)極值點(diǎn)計(jì)算差值得到,損失函數(shù)采用smoothL1損失函數(shù)。第三次精調(diào)分支結(jié)構(gòu)如圖1,對于RoIAlign截取到的7×7×256的人臉特征,分別進(jìn)行無邊界填充的7×7卷積操作、全局平局池化和全局最大池化操作,拼接兩種池化的結(jié)果,輸出特征維度為1×1×512,一層1×1的卷積+relu激活,一層1×1的卷積+sigmoid激活獲得通道感知。得到的通道感知與7×7的卷積結(jié)果相乘,作為殘差分支加入7×7的結(jié)果分支再做一次relu激活。最后經(jīng)過一層1×1的卷積+BN操作+relu激活,全連接調(diào)整維度,得到4條邊各自的調(diào)整值。

特征金字塔網(wǎng)絡(luò)FPN將網(wǎng)絡(luò)深層的語義信息傳遞到淺層,淺層特征有了語義信息的補(bǔ)充,但是定位信息有所丟失,影響人臉分割結(jié)果,尤其是小面積人臉,因?yàn)樾∶娣e人臉的特征是在網(wǎng)絡(luò)淺層截取的。圖2的(c1)、(c2)、(c3)為主干網(wǎng)絡(luò)resnet-101的C3特征,疊加深層特征后為(p1)、(p2)、(p3),疊加后的特征更模糊不清。PANet[15]改進(jìn)了FPN也只是考慮將淺層定位信息傳遞到網(wǎng)絡(luò)深層。針對以上問題,本文結(jié)合注意力機(jī)制,提出融合深淺特征的新結(jié)構(gòu),充分利用網(wǎng)絡(luò)深層特征和淺層特征。主干網(wǎng)絡(luò)resnet-101的C4、C5層的輸出通道數(shù)分別是1 024、2 048,通過1×1的卷積降維到256個(gè)通道,信息的損失很大,因此對于C4、C5層特征,由模塊attention-A替換普通的1×1的卷積,如圖3。

模塊attention-A的結(jié)構(gòu)見圖4,先對輸入特征分別做全局平均池化和全局最大池化,拼接兩種池化的結(jié)果,第一次全連接降維到128通道+relu激活,第二次全連接調(diào)整維度與輸入特征通道相同+sigmoid激活,得到各通道的權(quán)重,與輸入特征對應(yīng)通道相乘,受resnet的啟發(fā),再與輸入特征相加。經(jīng)過attention-A,有利的通道特征獲得更大的權(quán)重,特征得到了增強(qiáng)。已有的基于空間的注意力是應(yīng)用于所有通道的,由此提出注意力模塊attention-B,結(jié)合通道注意力機(jī)制和空間注意力機(jī)制,為每個(gè)通道特征生成各自不同的注意力,具體結(jié)構(gòu)如圖5所示。對于輸入特征Input,三個(gè)并列的分支分別做上采樣操作、全局平均池化操作和全局最大池化操作。對上采樣放大后的特征先進(jìn)行

一層3×3Depthwise卷積操作+relu激活,再進(jìn)行一層3×3 Depthwise卷積操作+sigmoid激活,得到每個(gè)通道各自的空間注意力。全局平均池化操作和全局最大池化操作的結(jié)果相拼接,一層全連接層降維到128通道+relu激活,一層全連接層恢復(fù)維度到256通道+sigmoid激活,得到通道注意力。將兩種注意力相乘,再與放大的特征相乘。受文獻(xiàn)[12]啟發(fā),再將相乘的結(jié)果與放大特征相加,得到經(jīng)注意力機(jī)制引導(dǎo)的深層特征,加到淺層特征中。圖6可視化C5到C4層的attention-B生成的權(quán)重,證實(shí)能夠得到每個(gè)通道不同的注意力。

2 實(shí)驗(yàn)

為使模型得到有效訓(xùn)練,訓(xùn)練集需要多種面積的人臉圖像,本文實(shí)驗(yàn)組合了300 Face in Wild數(shù)據(jù)集、Multi-Task Facial Landmark (MTFL)數(shù)據(jù)集、coco數(shù)據(jù)集中不同大小的人臉圖像,其中訓(xùn)練集1 800張,驗(yàn)證集240張,使用labelme標(biāo)注工具制作訓(xùn)練目標(biāo),實(shí)驗(yàn)選用resnet-101做主干網(wǎng)絡(luò),為減少GPU內(nèi)存的使用,設(shè)定resnet-101的C1-C4層不參與訓(xùn)練,使用在coco數(shù)據(jù)集預(yù)訓(xùn)練的權(quán)值。由本文提出的attention-A、attention-B結(jié)構(gòu)融合深淺層特征,第一、二次的框體調(diào)整與RPN網(wǎng)絡(luò)的調(diào)整方法相同,第三次框體調(diào)整由本文提出的第三次精調(diào)分支調(diào)整,調(diào)整后截取對應(yīng)的特征進(jìn)行分割預(yù)測。整體損失函數(shù)為

L=Lrpn_class+Lbox1+Lclass+Lbox2+Lbox3+Lmask(1)

其中,Lrpn_class表示RPN網(wǎng)絡(luò)的前背景分類損失,Lbox1表示第一次框體調(diào)整分支的損失,Lclass表示最終的分類損失,Lbox2表示第二次框體調(diào)整分支的損失,Lbox3表示第三次精調(diào)分支的損失,Lmask表示人臉分割mask的損失,L計(jì)算整體損失和。每次迭代訓(xùn)練1 800張圖,共迭代200次,初始學(xué)習(xí)率0.03,學(xué)習(xí)率衰減0.01,權(quán)重衰減為0.000 1,動(dòng)量為0.9。實(shí)驗(yàn)環(huán)境Intel(R) Core(TM) i5-3570K CPU,Nvidia GeForce GTX 1080 GPU,tensorflow-gpu2.0,keras2.3。

2.1 人臉檢測實(shí)驗(yàn)結(jié)果

圖7展示了Mask R-CNN和本文方法的人臉檢測結(jié)果,實(shí)驗(yàn)過程中主干網(wǎng)絡(luò)、參數(shù)設(shè)置一致??梢姳疚奶岢龅牡谌尉{(diào)分支是有效的,三次調(diào)整后的檢測框能更好的貼合人臉。表1和表2計(jì)算了人臉檢測的平均IoU和IoU閾值在0.5~0.95之間的mAP,本文方法的結(jié)果更優(yōu)。其中IoU是預(yù)測框pre_box和真實(shí)框gt_box的交集和并集的比值

IoU=pre_box∩gt_boxpre_box∪gt_box(2)

評價(jià)指標(biāo)mAP由準(zhǔn)確率Precision和召回率Recall計(jì)算得到。準(zhǔn)確率Precision

Precision=TPTP+FP(3)

召回率Recacll

Recall=TPTP+FN(4)

其中,TP表示被預(yù)測為正,實(shí)際也為正的樣本數(shù)量;FP表示被預(yù)測為正,實(shí)際為負(fù)的樣本數(shù)量;FN表示被預(yù)測為負(fù),實(shí)際為正的樣本數(shù)量;TN表示被預(yù)測為負(fù),實(shí)際為負(fù)的樣本數(shù)量。大于IoU閾值的記為正樣本,小于IoU閾值的記為負(fù)樣本。平均準(zhǔn)確率AP的計(jì)算取召回率變化的節(jié)點(diǎn)劃分區(qū)間,取對應(yīng)區(qū)間準(zhǔn)確率的最大值與區(qū)間長度相乘作為區(qū)間AP,最后區(qū)間AP相加得到最終的平均準(zhǔn)確率AP,mAP是計(jì)算多種IoU閾值的AP均值。

2.2 人臉分割實(shí)驗(yàn)結(jié)果

Mask R-CNN、文獻(xiàn)[5]和本文方法的人臉分割結(jié)果如圖8,實(shí)驗(yàn)結(jié)果證明第三次精調(diào)分支能有效提高檢測的準(zhǔn)確度,進(jìn)而提高人臉分割的精確度。本文提出的深淺層特征融合結(jié)構(gòu)能更好的結(jié)合網(wǎng)絡(luò)深層的語義信息和淺層精確的定位信息,對弧度較大的人臉邊界分割更精確。表3計(jì)算了三種方法的AP和mAP,IoU由預(yù)測人臉mask和真實(shí)人臉mask label計(jì)算得到。由表中數(shù)據(jù)可見本文方法的準(zhǔn)確率更高,文獻(xiàn)[5]由于網(wǎng)絡(luò)結(jié)構(gòu)較簡單,特征提取不夠充分,準(zhǔn)確率略低,但為人臉分割領(lǐng)域提供了新思路。表4使用同樣的驗(yàn)證集測試,比較了文獻(xiàn)[5]和本文預(yù)測mask與真實(shí)mask label的IoU,結(jié)果表明本文算法的分割精確度更高。由于增加了一次框體調(diào)整步驟,融合深淺層特征的結(jié)構(gòu)也比單純卷積操作復(fù)雜,本文算法整體復(fù)雜度略高。表5計(jì)算了Mask R-CNN、文獻(xiàn)[5]和本文方法的測試用時(shí),分別為處理50張圖像和200張圖像的用時(shí)。由于文獻(xiàn)[5]的模型網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,用時(shí)很少,本文方法由于網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,用時(shí)略長,但精確度更高。

3 結(jié)論

本文提出融合深淺層特征的新結(jié)構(gòu),充分利用網(wǎng)絡(luò)深層語義信息和淺層定位信息,三次精調(diào)檢測框。通過給出四條邊框各自不同的調(diào)整值,提高人臉檢測的準(zhǔn)確度,進(jìn)而提高人臉分割的精確度。但在人臉分割任務(wù)中,對于頭發(fā)等細(xì)致的物體對人臉造成遮擋時(shí),分割的精度還有待提高。現(xiàn)有的人臉分割網(wǎng)絡(luò)計(jì)算量較大,如何精簡網(wǎng)絡(luò)算法,提高計(jì)算速度,也是今后繼續(xù)深入研究的方向。

參考文獻(xiàn)

[1]CUEVAS E, ZALDIVAR D, PEREZ M, et al. LVQ neural networks applied to face segmentation[J]. Intelligent Automation & Soft Computing, 2009, 15(3):439-450.

[2]SEGONDO M P, SILVA L, BELLON O R P, et al. Automatic face segmentation and facial landmark detection in range images[J]. IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics, 2010, 40(5):1319-1330.

[3]SUBASIC M, LONCARIC S, HEDI A. Segmentation and labeling of face images for electronic documents[J]. Expert Systems with Applications, 2012, 39(5):5134-5143.

[4]KHAN K, AHMAD N, KHAN F, et al. A framework for head pose estimation and face segmentation through conditional random fields[J]. Signal, Image and Video Processing, 2019, 14(1):159-166.

[5]MASI I, MATHAI J, ABDAIMAGEED W. Towards learning structure via consensus for face segmentation and parsing[C]// 33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2020:5507-5517.

[6]WANG Y J, DONG M Z, SHEN J, et al. Dynamic face video segmentation via reinforcement learning[C]// 33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2020:6957-6967.

[7]HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]// 16th IEEE International Conference on Computer Vision (ICCV).Venice, 2017:2980-2988.

[8]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 36(6):1137-1149.

[9]CHEN L C, HERMANS A, PAPANDREOU G, et al. MaskLab: Instance segmentation by refining object detection with semantic and direction features[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018:4013-4022.

[10] HUANG Z J, HUANG L C, GONG Y C, et al. Mask scoring R-CNN[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, 2019:6402-6411.

[11] HU J, SHEN L, SUN G, Squeeze-and-excitation networks[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Salt Lake City, 2018:7132-7141

[12] YU C Q, WANG J B, PENG C, et al. BiSeNet: Bilateral segmentation network for real-time semantic segmentation[C]// 15th European Conference on Computer Vision(ECCV). Munich, 2018:334-349.

[13] LI X, WANG W H, HU X L, et al. Selective kernel networks[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach, 2019:510-519.

[14] WOO S, PARK J, LEE J, et al. CBAM: convolutional block attention module[C]// 15th European Conference on Computer Vision (ECCV). Munich, 2018:3-19.

[15] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018:8759-8768.

[16] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, 2017:6450-6458.

Face Segmentation Method Based on Three-fold Fine Tuning

HUANG Na, ZHAO Zhi-gang, YU Xiao-kang

(College of Computer Science and Technology, Qingdao University, Qingdao 266071, China)

Abstract:

As regards the precision of face segmentation, a new structure combining the deep and shallow features of the network was proposed, and the face detection frame was fine-tuned three times to improve the accuracy of face segmentation. The new structure combined the mechanisms of channel attention and spatial attention, and utilized depthwise separable convolution to provide corresponding attention weight for each channel feature. And semantic and location information were fully used to provide feature information for precise segmentation, and the third fine-tuning provides accurate detection results for segmentation. Compared with Mask R-CNN, the experimental results of this paper increase mAP by 0.1 and 0.2 compared with the latest method.

Keywords:

face segmentation; fine-tuning; channel attention; spatial attention

潞西市| 曲松县| 合川市| 梁平县| 余江县| 房产| 吉安县| 漠河县| 阳东县| 嫩江县| 萨嘎县| 赞皇县| 定远县| 安陆市| 平乐县| 荆州市| 禹州市| 包头市| 右玉县| 尉犁县| 合江县| 桂阳县| 金湖县| 藁城市| 晴隆县| 醴陵市| 昌平区| 江门市| 霍城县| 明水县| 张家界市| 厦门市| 福泉市| 长子县| 沂南县| 龙里县| 台中市| 太保市| 梓潼县| 屏东市| 锦屏县|