国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)Simpl e Basel ines的人體姿態(tài)估計(jì)算法

2021-05-14 07:15周昆陽趙夢婷張海潮
電腦與電信 2021年3期
關(guān)鍵詞:關(guān)節(jié)點(diǎn)特征提取修正

周昆陽 趙夢婷 張海潮 蔣 雯

(1.南通大學(xué)張謇學(xué)院,江蘇 南通 226019;2.南通大學(xué)交通與土木工程學(xué)院,江蘇 南通 226019)

1 引言

人體姿態(tài)估計(jì)在人體運(yùn)動(dòng)學(xué)分析、醫(yī)療康復(fù)、3D游戲等有著十分廣泛的應(yīng)用,人體姿態(tài)估計(jì)主要任務(wù)是通過攝像頭等設(shè)備能夠在任意場景中對(duì)人體的關(guān)節(jié)點(diǎn)進(jìn)行準(zhǔn)確的定位。

人體姿態(tài)估計(jì)最初的方法基于手工特征,但是這種方法過多依賴相關(guān)設(shè)備[1-2],并且方法的魯棒性較低。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,人體姿態(tài)估計(jì)取得很大的進(jìn)展。Yaser Sheikh等[3]提出的Convolutional Pose Machine(CPM),首次使用人體姿態(tài)熱圖對(duì)人體關(guān)節(jié)點(diǎn)進(jìn)行建模,通過尋找熱圖的最大響應(yīng)點(diǎn)實(shí)現(xiàn)人體姿態(tài)估計(jì)。隨著人體檢測器(YOLO,SSD等)的發(fā)展,人體姿態(tài)估計(jì)逐漸由單人人體姿態(tài)估計(jì)轉(zhuǎn)向多人人體姿態(tài)估計(jì)。現(xiàn)有的人體姿態(tài)估計(jì)方法主要分為兩類:Top-Down和Bottom-Up。

Bottom-Up是先檢測出所有關(guān)節(jié)點(diǎn),然后按不同的人將關(guān)節(jié)點(diǎn)進(jìn)行組裝的。Bottom-Up經(jīng)典算法是Openpose[4]。Openpose通過CPM定位圖片中所有人的關(guān)節(jié)點(diǎn),然后提出部件親和場(Part Affinity Fields,PAF)對(duì)關(guān)節(jié)點(diǎn)按不同的人進(jìn)行組裝。

Top-Down是先檢測出圖片中所有人的區(qū)域,然后在該區(qū)域上對(duì)人體的關(guān)節(jié)點(diǎn)進(jìn)行檢測。Top-Down的代表算法是CPN[5],CPN是一種由粗到細(xì)的網(wǎng)絡(luò),通過對(duì)人體的上下文信息進(jìn)行分析最終實(shí)現(xiàn)人體關(guān)節(jié)點(diǎn)檢測。FastHand[6]是一種基于Top-Down的手勢姿態(tài)估計(jì)算法,通過一種由低、中、高層組成Backbone有效提取手上的各個(gè)關(guān)節(jié)點(diǎn),實(shí)現(xiàn)姿態(tài)估計(jì)。

本文以Simple Baselines[7]為基礎(chǔ),通過把Simple Baselines的特征提取網(wǎng)絡(luò)替換為FastHand的特征提取網(wǎng)絡(luò)以提高模型檢測性能;同時(shí)引入姿態(tài)修正機(jī),提高關(guān)節(jié)點(diǎn)的定位效果。實(shí)驗(yàn)結(jié)果表明,本文的改進(jìn)方法能夠有效提升模型對(duì)人體關(guān)節(jié)點(diǎn)定位的準(zhǔn)確性。

2 Simple Baselines介紹

Simple Baselines是由微軟亞洲研究院提出的一種基于Top-Down的二維人體姿態(tài)估計(jì)算法,Simple Baselines并未采用Hourglass跨層連接機(jī)制,而是提出一種簡單的Baselines用于人體姿態(tài)估計(jì)。具體來說,Simple Baselines采用ResNet152作為特征提取網(wǎng)絡(luò),ResNet152輸出的特征再經(jīng)過3組反卷積+Batchnorm(BN)+ReLU將特征圖尺寸擴(kuò)大8倍,最后通過人體姿態(tài)熱圖得到人體姿態(tài)的每個(gè)關(guān)節(jié)點(diǎn)。Simple Baselines相較于其他人體姿態(tài)估計(jì)算法,其算法流程十分簡潔且對(duì)于硬件設(shè)備要求不高。

3 基于改進(jìn)Simple Baselines的二維人體姿態(tài)估計(jì)算法

本文算法流程如圖1所示,用于姿態(tài)估計(jì)的網(wǎng)絡(luò)整體與Simple Baselines相同。本文首先使用YOLOv4算法檢測每個(gè)圖像中的人體,接著在每個(gè)人體的子圖像上進(jìn)行對(duì)應(yīng)行人的姿態(tài)估計(jì)。為了提高人體姿態(tài)估計(jì)的準(zhǔn)確性,本文將Simple Baselines的Backbone從ResNet152替換為FastHand中的Backbone,并且引入一種高效的注意力機(jī)制姿態(tài)修正機(jī)(Pose Refine Machine,PRM)[8],最后輸出人體17個(gè)關(guān)節(jié)點(diǎn)的二維坐標(biāo),實(shí)現(xiàn)人體姿態(tài)的準(zhǔn)確估計(jì)。Backbone和PRM分別在3.1和3.2節(jié)中介紹。

圖1 算法流程圖

圖2 姿態(tài)修正機(jī)結(jié)構(gòu)圖

3.1 特征提取網(wǎng)絡(luò)選擇

為了提高人體姿態(tài)估計(jì)準(zhǔn)確率,本文選擇FastHand中的Backbone作為本文的特征提取網(wǎng)絡(luò)。具體來說,Backbone包含4個(gè)下采樣的組成塊(如圖1所示),每個(gè)塊由3個(gè)部分組成:一個(gè)重復(fù)n次的卷積塊,一個(gè)下采樣塊和一個(gè)3*3的標(biāo)準(zhǔn)卷積,如公式(1)-(3)。

其中,C3*3和C1*1分別表示3*3和1*1的卷積,P3*3表示3*3的最大池化操作。4個(gè)組成塊的重復(fù)次數(shù)分別為4、4、4和6次。特征圖每經(jīng)過一個(gè)組成塊,其長寬的尺寸就變?yōu)樵瓉淼囊话搿ackbone輸入特征大小為256×192×3,輸出大小為8×6×1024。相較于ResNet152中采用單個(gè)3×3卷積進(jìn)行下采樣,本文神經(jīng)網(wǎng)絡(luò)的Backbone結(jié)合了3×3卷積和最大池化輸出的特征,有利于更加有效地提取特征。

3.2 姿態(tài)修正機(jī)

為了進(jìn)一步提高人體關(guān)節(jié)點(diǎn)的定位效果,本文使用姿態(tài)修正機(jī)(Pose Refine Machine,PRM)來修正各個(gè)關(guān)節(jié)點(diǎn)的位置。姿態(tài)修正機(jī)是在Residual Steps Network(RSN)中提出的一種高效的注意力機(jī)制,其結(jié)構(gòu)如圖2所示。輸入特征大小為64×48×17,輸入特征首先經(jīng)過一個(gè)卷積核大小為3×3,步長為1的標(biāo)準(zhǔn)卷積,輸出特征A。接著特征分別經(jīng)過三條路徑:第一條是通道注意力attc,第三條是空間注意力attp,第二條是融合第一條和第三條路徑的結(jié)果fuse。姿態(tài)修正機(jī)的處理過程如公式(4)所示。

其中,變換函數(shù)attc包含了全局平均池化(Global Pooling,GP)、兩個(gè)1×1卷積以及Sigmoid激活函數(shù),輸出特征圖的大小為1×1×17;變換函數(shù)attp包含1×1卷積、9×9的深度可分離卷積以及Sigmoid激活函數(shù),輸出特征圖大小為64×48×17。fuse是逐元素相乘操作。通過姿態(tài)修正機(jī),算法輸出17個(gè)關(guān)節(jié)點(diǎn)更加準(zhǔn)確的位置信息。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)與平臺(tái)

4.1.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用COCO數(shù)據(jù)集[9]。COCO數(shù)據(jù)集包括200K圖片以250K個(gè)標(biāo)有17個(gè)人體關(guān)節(jié)點(diǎn)的標(biāo)注實(shí)例。17個(gè)關(guān)節(jié)點(diǎn)分別為:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左臀部、右臀部、左膝蓋、右膝蓋、左腳踝、右腳踝。本文使用COCO train2017數(shù)據(jù)集作為訓(xùn)練集,其中包含50K張行人圖片以及150K個(gè)人體關(guān)節(jié)點(diǎn)標(biāo)注實(shí)例。驗(yàn)證集使用COCOminival dataset(包括5000張圖片),測試集使用COCO test-dev(其中包括20000張圖片)。

為了增強(qiáng)數(shù)據(jù)集,本文采用隨機(jī)旋轉(zhuǎn)、隨機(jī)縮放、隨機(jī)亮度調(diào)整、隨機(jī)對(duì)比度調(diào)整、隨機(jī)飽和度調(diào)整等圖像增強(qiáng)方式。隨機(jī)縮放的比例因子為0.8~1.45,隨機(jī)旋轉(zhuǎn)角度為-45o~+45o,隨機(jī)亮度調(diào)整首先設(shè)定閾值為0.5,然后隨機(jī)在區(qū)間(0,1)內(nèi)抽取一個(gè)數(shù)c,如果c≥0.5,則亮度調(diào)整比例為c,如果c<0.5,則在區(qū)間(-c,c)內(nèi)隨機(jī)抽一個(gè)數(shù)a,調(diào)整比例即為a+1。隨機(jī)對(duì)比度調(diào)整、隨機(jī)飽和度調(diào)整和隨機(jī)亮度調(diào)整方法相同,閾值均為0.5。增強(qiáng)前后圖片對(duì)比如圖3所示。

4.1.2 實(shí)驗(yàn)平臺(tái)

模型訓(xùn)練與測試在百度AIStudio平臺(tái)進(jìn)行,CPU是Intel(R)Xeon(R)Gold 6271C@2.60GHz,GPU為Tesla V100顯存16GB,內(nèi)存32GB。編程環(huán)境為Python3.7,深度學(xué)習(xí)框架為PaddlePaddle 2.0。

圖3 增強(qiáng)前后圖片

4.2 訓(xùn)練策略

本文的單批次訓(xùn)練樣本數(shù)量(batch_size)為50,共訓(xùn)練100個(gè)epoch,每個(gè)epoch包含7200次迭代,優(yōu)化方法選擇Adam。為了加快模型的收斂,本文選擇余弦學(xué)習(xí)率和指數(shù)移動(dòng)平均的訓(xùn)練策略(Exponential Moving Average,EMA)。學(xué)習(xí)率和訓(xùn)練輪數(shù)(epochs)關(guān)系如公式(5)所示。

其中,begin_rate=0.0001為初始學(xué)習(xí)率,epoch為當(dāng)前訓(xùn)練輪數(shù),epochs為總的訓(xùn)練輪數(shù),本文的epochs為100。

為了使得模型在訓(xùn)練時(shí)參數(shù)更新能夠更加平緩,本文在模型訓(xùn)練時(shí)采用指數(shù)移動(dòng)平均(Exponential Moving Average,EMA)。指數(shù)移動(dòng)平均通過指數(shù)衰減方式計(jì)算參數(shù)更新過程中的移動(dòng)平均值。對(duì)于每一個(gè)參數(shù)W,都有一個(gè)指數(shù)移動(dòng)平均值Wt,W和Wt關(guān)系見公式(6)。

其中,α=0.993為衰減系數(shù),本文使用Wt用于更新參數(shù),Wt初始值為0。

表1 數(shù)據(jù)集介紹

4.3 實(shí)驗(yàn)結(jié)果與分析

本文使用基于Object Keypoint Similarity(Oks)[10]的Average Precision(AP[10])作為模型準(zhǔn)確度的評(píng)價(jià)標(biāo)準(zhǔn),F(xiàn)rames Per Second(FPS)作為模型預(yù)測速度的評(píng)價(jià)標(biāo)準(zhǔn),模型輸入大小為256×192。Oks定義如公式(7)所示。

其中,p表示在ground truth中某個(gè)人的id,pi表示某個(gè)人的關(guān)鍵點(diǎn)id,vpi=1表示這個(gè)關(guān)鍵點(diǎn)的可見性為1(即在圖片上可見),SP表示這個(gè)人所占的面積大小平方根,根據(jù)ground truth里人的box計(jì)算得到,σi表示第i個(gè)關(guān)節(jié)點(diǎn)的歸一化因子,這個(gè)因子是通過對(duì)已有的數(shù)據(jù)集中所有g(shù)round truth計(jì)算的標(biāo)準(zhǔn)差而得到的,反映出當(dāng)前骨骼點(diǎn)對(duì)與整體的影響程度,σi值越大,說明在整個(gè)數(shù)據(jù)集中對(duì)這個(gè)點(diǎn)的標(biāo)注效果越差;值越小,說明整個(gè)數(shù)據(jù)集中對(duì)這個(gè)點(diǎn)的標(biāo)注效果越好?;贠ks的AP含義為:先設(shè)定一個(gè)閾值t,每幅圖片計(jì)算的Oks值大于t,表明該圖片關(guān)節(jié)點(diǎn)檢測有效,小于則無效。所有圖片檢測結(jié)束后計(jì)算AP,AP計(jì)算如公式(8)所示。本文的t=0.95。

FPS表示每秒模型檢測圖片的數(shù)量。

4.3.1 特征提取網(wǎng)絡(luò)的作用

為了驗(yàn)證本文特征提取改進(jìn)的有效性,本文對(duì)比了ResNet152和改進(jìn)的特征提取網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表2所示。

表2 特征提取網(wǎng)絡(luò)改進(jìn)實(shí)驗(yàn)結(jié)果

從表2實(shí)驗(yàn)結(jié)果可以看出,雖然本文的特征提取網(wǎng)絡(luò)相較于ReaNet152,F(xiàn)PS降低0.96,但AP相較于ResNet152提高1.43%,綜合考慮FPS和AP,本文特征提取網(wǎng)絡(luò)的改進(jìn)是有效的。

4.3.2 姿態(tài)修正機(jī)的作用

為了驗(yàn)證本文引進(jìn)姿態(tài)修正機(jī)(PRM)的有效性,本文對(duì)比有/無姿態(tài)修正機(jī)的Simple Baselines,實(shí)驗(yàn)結(jié)果如表3所示。

表3 姿態(tài)修正機(jī)作用

從表3的實(shí)驗(yàn)結(jié)果得出,通過引進(jìn)姿態(tài)修正機(jī),Simple Baselines的AP提升1.41%,F(xiàn)PS僅下降0.47。本文引進(jìn)姿態(tài)修正機(jī)對(duì)模型性能的提升是有效的。

4.3.3 與主流模型比較

為了驗(yàn)證本文對(duì)Simple Baselines模型改進(jìn)方法的有效性,本文在COCO test-dev上將本文方法和主流姿態(tài)估計(jì)進(jìn)行比較。這里為了對(duì)比的公平性,本文模型輸入圖片大小與其他方法保持一致,調(diào)整為384×288。實(shí)驗(yàn)結(jié)果如表4所示。

從表4可以看出,本文改進(jìn)的Simple Baselines方法的AP在COCO test-dev上相較于HRNet-W48提高0.3%,相較于Simple Baselines提高2.1%。實(shí)驗(yàn)結(jié)果表明本文方法是有效的。

表4 本文方法與主流姿態(tài)估計(jì)算法的對(duì)比

4.3.4 檢測結(jié)果展示

圖4展示模型在COCO test-dev上檢測的效果。結(jié)果表明,本文方法是有效的。

圖4 檢測結(jié)果展示

5 結(jié)語

本文以Simple Baselines模型為基礎(chǔ),通過FastHand改進(jìn)其特征提取網(wǎng)絡(luò)的主干,并引入姿態(tài)修正機(jī),提高了人體關(guān)節(jié)點(diǎn)定位的準(zhǔn)確性。本文方法相較于主流姿態(tài)估計(jì)算法在COCO test-dev上取得較好的效果,未來可以針對(duì)姿態(tài)修正機(jī)以及特征提取網(wǎng)絡(luò)對(duì)本文方法做更進(jìn)一步的改進(jìn),使其應(yīng)用到更多場景中。

猜你喜歡
關(guān)節(jié)點(diǎn)特征提取修正
基于關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識(shí)別
修正這一天
基于人體行為模型的跌倒行為檢測方法①
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
對(duì)微擾論波函數(shù)的非正交修正
結(jié)構(gòu)化:向兒童思維更深處漫溯
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
修正2015生態(tài)主題攝影月賽