国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度殘差網絡的多人姿態(tài)估計

2021-05-17 02:36:56秦曉飛郭海洋陳浩勝何致遠
光學儀器 2021年2期
關鍵詞:力圖集上關鍵點

秦曉飛,郭海洋,陳浩勝,李 夏,何致遠

(1.上海理工大學 光電信息與計算機工程學院,上海 200093;2.上海理工大學 機械工程學院,上海 200093)

引 言

人體姿態(tài)估計就是在給定的一幅圖像或一段視頻中去進行人體關鍵點位置定位的過程,基于給定RGB圖像的關鍵點定位在多個領域都有著很好的應用前景,具有很高的研究價值。但由于存在光照變化、運動模糊、自身遮擋和視角不同等問題,所以現(xiàn)實生活中,多人姿態(tài)估計非常具有挑戰(zhàn)性。早期的人體姿態(tài)估計經典著作將人類關鍵點估計問題表述為樹形結構或圖形模型問題,并基于手工制作的特征來預測關鍵點位置。隨著深度卷積神經網絡(CNN)的發(fā)展,其在人體姿態(tài)估計領域的應用極大地提高了關鍵點預測的性能。

基于卷積神經網絡的人體姿態(tài)估計經歷了坐標回歸到預測熱力圖的發(fā)展趨勢。Toshev等[1]提出的DeepPose首次使用CNN強大的擬合能力去強制性地回歸人體骨骼關鍵點的坐標,并用級聯(lián)的形式不斷地調整結果。然而使用坐標回歸的方法非常容易造成過擬合問題,隨后出現(xiàn)的預測熱力圖的方法優(yōu)勢明顯。2016年,單人姿態(tài)估計領域以Hourglass[2]和卷積姿態(tài)機(CPM)[3]為代表的模型均使用了這一方法。前者重復使用降采樣和上采樣的沙漏狀網絡來推斷人體的關鍵點位置,后者使用排列有序的網絡架構來實現(xiàn)空間信息和紋理信息的建模。這兩個網絡中的每一個階段都會單獨地去監(jiān)督某一部分的學習,同時使用級聯(lián)的網絡結構將空間信息和紋理信息有效融合在一起。2017年,卡內基梅隆大學提出的OpenPose[4]使用部分親和場來表示人的肢體,并采用樹結構結合匈牙利算法求解線性整數(shù),在多人姿態(tài)估計自底而上流派中具有里程碑意義。2018年提出的MultiPoseNet[5]使用ResNet作為主干網絡,再加兩個特征金字塔網絡頭分別輸出人體檢測框和人體關鍵點,最后使用姿態(tài)殘差網絡將檢測到的所有關鍵點依據(jù)人體檢測結果進行聚類,得到每個人的人體關鍵點集合。2019年提出的HR-Net[6]模型極力追求檢測精度而忽視了模型參數(shù)量,與此同時也涌現(xiàn)出LPN[7]、FPD[8]等一批以簡單、快速和較高精度為特點的小模型。

本文提出了一種基于深度殘差網絡(ResNet)的多人姿態(tài)估計算法,該算法采用現(xiàn)有的人體檢測器,以Simple Baseline[9]為單人姿態(tài)估計網絡的主干網絡,通過改進殘差塊,引入多尺度監(jiān)督模塊和多尺度回歸模塊,結合豐富的多尺度特征,通過對各尺度特征的匹配,提高了關鍵點定位的魯棒性。另外,新穎的坐標提取方法也有效提升了模型的性能。該算法參數(shù)量少,檢測速度快,檢測精度也極具競爭力。

1 網絡結構

1.1 整體算法網絡結構

本文提出的算法屬于自頂而下方案,即先將圖片輸入到人體檢測網絡中,檢測圖片中的所有人體,給每個人體實例一個邊界框,隨后將邊界框裁減調整為適當尺寸輸入到單人姿態(tài)估計網絡(SPPE)內作關鍵點檢測。由于YOLOv3[10]很好地權衡了人體檢測速度和精度,是當下最先進的目標檢測算法之一,因此本文算法直接取其作為人體檢測器。整體算法網絡結構如圖1所示。

1.2 單人姿態(tài)估計模型

單人關鍵點檢測網絡往往會采用一個編解碼架構,通過特征提取網絡反復提取原始圖片的信息,隨著網絡的加深提取到的信息越來越抽象,特征圖的空間尺寸也會越來越小,這對關鍵點的最終預測有負面影響。本文受Simple Baseline[9]啟發(fā),采用ResNet50作為特征提取的主干網絡,在C5層后面接3個反卷積模塊,每個模塊為:反卷積層+BN+ReLU+ 1 ×1 卷積,每個反卷積層輸出的特征圖均為128個通道,經過 1 ×1 卷積后生成的熱力圖的大小依次為 1 6×12 ,32×24, 6 4×48 。在每個模塊上增加一個損失項,以允許對每一層輸出的特定尺度的熱力圖進行明確的監(jiān)督。多尺度監(jiān)督能夠有效地學習多尺度特征,從而更好地捕捉到身體關鍵點的局部上下文特征。將D1,D2,D3輸出的熱力圖分別上采樣至同一尺度后堆疊起來,再經過一個 1 ×1 的卷積輸出最終預測的熱力圖,對各尺度熱力圖的整合充分利用了全局上下文信息,提高了關鍵點定位的魯棒性。圖2詳細展示了單人姿態(tài)估計網絡結構。

圖1 整體算法網絡結構示意圖Fig.1 Overall algorithm network structure diagram

圖2 單人姿態(tài)估計網絡結構Fig.2 Network structure of single person pose estimation

1.2.1 殘差塊的改進

深度殘差網絡(ResNet)的基礎構造塊是殘差塊,分別由 1 ×1 , 3 ×3 , 1 ×1 的卷積以及1×1的旁路跳級連接組成。這一結構對特征圖的輸出通道數(shù)能進行非常靈活的設置,不過本文對這一基礎模塊進行了更為細致的改進,將普通卷積改成了深度可分離卷積,降低了參數(shù)量。將經過1×1卷積輸出的特征圖平均分成s個特征圖子集,然后分別再經過 3 ×3 的深度可分離卷積,各特征圖子集間加入跳級連接,這樣殘差塊的特征提取能力將大幅度提升。本文還對ResNet-50的C2~C5各層輸入輸出的通道數(shù)都進行了減半處理,降低了計算量。原始殘差塊的參數(shù)量為 N um1 ,引入深度可分離卷積并降低通道數(shù)后的參數(shù)量為 N um2 ,N、M分別是輸入和輸出通道數(shù),且滿足M=2N,N≥32 ,N為 32 的整數(shù)倍:

故 N um2/Num1 ≤ 0.222 , 即 改 造 后 的 殘 差塊參數(shù)量降低到原來的 1 /4 以下。改進過程見圖3。

1.2.2 多尺度監(jiān)督

Simple Baseline模型僅僅對最終的熱力圖進行監(jiān)督,忽視了對解碼階段各尺度信息的融合,對全局信息利用不夠全面。多尺度監(jiān)督模塊(MSSModel)就是要彌補這一不足,該模塊主要是對反卷積層進行監(jiān)督。反卷積層的每一層都有不同尺度,各個尺度的預測熱力圖都有其對應的真實熱力圖,多尺度監(jiān)督模塊就是通過計算真實熱力圖與這些預測熱力圖之間的殘差來實現(xiàn)監(jiān)督目的。為了使預測熱力圖的通道數(shù)相等以便計算對應的殘差,使用 1 ×1 的卷積進行降維,將高維特征映射轉化為所需數(shù)量的特征,其中,降維之后得到的熱力圖數(shù)量(即通道數(shù))與身體關鍵點的數(shù)量相同。另一方面,對真實關鍵點熱力圖進行下采樣,以匹配每個尺度下的關鍵點的預測熱力圖,方便計算殘差。具體結構見圖2。

圖3 殘差塊的改進過程Fig.3 Improvement process of residual block

為了訓練多尺度監(jiān)督網絡,本文定義了損失函數(shù)LMSE 。LMSE 定義為所有尺度上關鍵點的預測熱力圖與真實熱力圖的均方誤差( M SE )的均值。首先,

式中: (x,y) 表示熱力圖上任意像素點坐標;(xn,yn)是第k個關鍵點的真實坐標; σ 是高斯峰的標準差;(x,y) 是第d(d=1,2,3) 個尺度下的真實熱力圖,它是以每個關鍵點真實坐標為中心生成的二維高斯分布。損失函數(shù)LMSE定義為

式中:K表示人體關鍵點總數(shù);表示第d個尺度下第k個關鍵點的預測熱力圖,(x,y) 尺度與(x,y) 、(x,y) 一致。需要注意反卷積層預測的熱力圖與最終預測熱力圖的損失權重是不一樣的。

1.2.3 多尺度回歸

使用一個多尺度回歸模塊(MSR-Model)對多尺度關鍵點熱力圖進行全局優(yōu)化,以提高估計姿態(tài)的結構一致性。通過考慮所有尺度上的熱力圖進行姿勢優(yōu)化,可以從回歸網絡中學習這些先驗知識。該模塊以多尺度熱力圖作為輸入,通過 1 ×1 卷積后可以有效地將所有尺度上的熱力圖進行融合,以細化估計的姿態(tài)。多尺度回歸模塊根據(jù)多尺度特征確定人體關鍵點之間的連通性,共同優(yōu)化整體結構形態(tài)。具體結構見圖2。

1.3 坐標提取

推理時,大多數(shù)現(xiàn)有方法使用函數(shù)argmax來獲取熱力圖中的關鍵點位置并轉換為全分辨率,argmax的結果是離散的,只能是整數(shù),這限制了最終預測坐標的精度。Luvizon等[11]嘗試使用soft-argmax技術來回歸最終坐標,使整個過程可微。

將真實熱力圖歸一化到 [0,1]區(qū)間內,這意味著會有大量接近零的值,可能會影響soft-argmax的精度。

由于 e0=1 , e1=e ,熱力圖中大量的零會降低產生最大值的概率,進而影響結果的準確性。本文在Gk(x,y) 之前引入系數(shù) β 來抑制接近于零的值的影響??梢杂孟率絹肀硎荆?/p>

經過大量實驗,最終將 β 值設定為160,此時性能是最優(yōu)異的。將改良過的soft-argmax用于從單人姿態(tài)估計網絡輸出的熱力圖中提取關鍵點坐標,進一步提高了最終預測的準確性。

2 實 驗

2.1 數(shù)據(jù)集

MPII數(shù)據(jù)集由大約25 000幅多人圖片組成,提供大約40 000個帶注釋的人體樣本,其中約25 000用于訓練,約3 000作為驗證集進行評估,約11 000用于測試,每個人體樣本由16個關鍵點表示。COCO 2017訓練集有57 000幅圖像包含150 000個人體實例,COCO 2017驗證集包含5 000幅圖像,test-dev集包含20 000張圖像,關鍵點個數(shù)為17。

2.2 評價指標

主要評價指標有mAP和PCKh。mAP(平均精度均值)是基于對象關鍵點相似度(OKS)的評價指標,例如AP50代表目標關鍵點相似度(OKS)為0.50,mAP表示OKS分別為0.50,0.55,...,0.95時對應的AP的平均值。PCKh是另一種評價指標,代表以真實頭部邊界框對角線長度為歸一化參考的關鍵點正確估計的比例,如PCKh@0.5表示預測關鍵點與對應的真實關鍵點位置距離小于真實頭部邊界框對角線長度的50%則被認為是正確預測的。OKS的具體定義為

式中:p為真實的人的ID;i表示關鍵點的ID;dpi表示預測關鍵點與真實關鍵點的歐氏距離;Sp表示當前人的尺度因子,即人在真實情況中所占面積的平方根; σi代表第i個關鍵點的歸一化因子;vpi代表第p個人的第i個關鍵點是否可見; δ 是用于將可見點選出來進行計算的函數(shù)。

2.3 實施細節(jié)

首先在MPII數(shù)據(jù)集上對單人姿態(tài)估計網絡進行訓練。MPII多人圖片中每個人體實例都有一個中心點標簽和一個尺度因子,根據(jù)這兩個數(shù)據(jù)將人體附近的區(qū)域進行裁剪并將其大小調整為256×192像素,在此基礎上,本文使用了-30°~30°的隨機旋轉,0.7~1.30的隨機尺度水平翻轉進行數(shù)據(jù)擴增,將擴增后的圖片塊送入SPPE訓練。本文程序使用PyTorch框架來實現(xiàn),隨機初始化模型參數(shù),使用Adam算法,初始學習率設為10-4。對MPII訓練集子集的25 000個人體實例進行100個epoch的訓練,即在訓練batch設為30的情況下訓練60個epoch,沒有給學習率設置權重衰減,之后手動加載訓練好的模型,更改學習率為10-5,又訓練40個epoch。在2塊NVIDIA GTX1080Ti顯卡上共訓練了4天。在包含3 000個人體實例的驗證集上進行評估,確保單人姿態(tài)估計網絡性能有提升后再進行下一步訓練。

將預訓練好的單人姿態(tài)估計網絡用COCO數(shù)據(jù)集繼續(xù)進行多人姿態(tài)估計訓練。由于COCO 2017訓練集的圖片自帶人體邊界框的標簽數(shù)據(jù),因此可直接按人體邊界框進行裁剪,后續(xù)操作和在MPII上訓練時一致。不過本文是將訓練集和驗證集放在一起進行訓練的。最后將YOLOv3與SPPE相結合,在COCO 2017 test-dev集和MPII測試集分別進行測試。

2.4 結果分析

2.4.1 改進措施的有效性分析

在MPII驗證集上對改進的模塊進行消融實驗,直接使用Simple Baseline基準模型進行測試時,模型參數(shù)量約為3.4×107,對檢測速度影響很大,而且平均PCKh@0.5只有87.8%。本文先對殘差塊進行改進,縮減殘差塊的輸入輸出通道數(shù)、引入深度可分離卷積并將特征圖分組處理后,參數(shù)量大幅度下降,約為8.4×106,而同時PCKh@0.5得分卻有0.8%的提升,說明改進后的殘差塊特征提取能力確實得到提升。隨著多尺度監(jiān)督模塊和多尺度回歸模塊以及β-Soft-Argmax的引進與改良,總體參數(shù)量僅有約2×105的微小提升,卻分別帶來0.6%、0.3%和0.2%的性能提升,最終平均PCKh@0.5達到了89.7%,性價比很高。具體實驗過程見表1,√代表使用或者引進某模塊,×代表未使用??梢郧逦乜闯龈鞲倪M措施帶來的變化,在參數(shù)量大幅降低的同時,也意味著檢測速度的提升,與此同時模型檢測精度也不斷提升,充分證明了本文算法的有效性。

表1 MPII驗證集上 PCKh@0.5 性能對比Tab.1 Performance comparison of PCKh@0.5 on the MPII validation dataset

2.4.2 MPII數(shù)據(jù)集結果

表2是本文提出的算法與一些流行算法在MPII測試集上的性能對比??梢郧宄乜吹剑疚奶岢龅乃惴ㄊ欠浅8咝У?,PCKh@0.5得分達到了92.1%,雖然和最先進的算法相比較還有一定差距,但在個別關鍵點例如腕關節(jié)和踝關節(jié)處,本文提出的算法識別精度超過了現(xiàn)有最優(yōu)秀的算法,具體比較見圖4。圖5是本文算法在MPII數(shù)據(jù)集上對單人進行姿態(tài)估計的推理結果,可見檢測的精度相當高。圖6是本文算法在MPII數(shù)據(jù)集上對多人進行姿態(tài)估計的推理結果,由于采用YOLOv3作為人體檢測器,因此對于較小的人體實例也有很好的檢測效果。

表2 MPII測試集上 PCKh@0.5 性能對比Tab.2 Performance comparison of PCKh@0.5 on the MPII testing dataset

2.4.3 COCO數(shù)據(jù)集結果

圖7所示為本文算法在COCO數(shù)據(jù)集上的一些單人推理結果。對于常見的身體姿態(tài),檢測結果優(yōu)異。表3是本文提出的方法與一些流行方法在COCO數(shù)據(jù)集上的性能對比。需要注意的是,在以ResNet為主干網絡的各類算法中,本文算法采用較小的輸入就能獲得相當高的mAP得分,mAP達到了72.4。盡管本文算法檢測精度性能不是最先進的,但模型的參數(shù)量較小,因此推理速度優(yōu)勢明顯。圖8所示為本文算法在COCO數(shù)據(jù)集上的一些多人骨架推理結果,可以看出在人群密集情況下,對于部分遮擋的人體,本文算法依舊可以較準確地預測出人體關鍵點,但若人體肢體出現(xiàn)嚴重的缺失或者是遮擋時依舊會出現(xiàn)混亂的預測。這是由于經YOLOv3檢測并裁剪的人體邊界框內存在部分不可見的人體肢體,因此SPPE檢測關鍵點失敗,這是可以理解的。

圖4 MPII測試集上腕關節(jié)、踝關節(jié)處 PCKh 比較Fig.4 Comparison of PCKh at wrist and ankle on the MPII testing dataset

圖5 MPII數(shù)據(jù)集上單人推理結果Fig.5 Inference results of a single person on the MPII dataset

圖6 MPII數(shù)據(jù)集上多人推理結果Fig.6 Multi-person pose inference results on the MPII dataset

圖7 COCO 數(shù)據(jù)集上單人推理結果Fig.7 Inference results of a single person on the COCO dataset

表3 COCO 2017 test-dev 集上 AP 性能對比Tab.3 Comparison of AP performance on COCO 2017 test-dev dataset

圖8 COCO 數(shù)據(jù)集上多人推理結果Fig.8 Multi-person pose inference results on the COCO dataset

3 結 論

本文遵循自頂而下的方案,提出了一種用于圖片輸入的多人姿態(tài)估計算法,采用YOLOv3作為人體檢測器;基于深度殘差網絡(ResNet),通過改進基礎殘差塊大幅度降低了參數(shù)量并提高了特征提取能力,另外通過多尺度監(jiān)督模塊和多尺度回歸模塊進一步融合了不同尺度熱力圖之間的信息,有效加強了中間過程的監(jiān)督;改良過的坐標提取方式使得模型的梯度流可以從坐標點流動到高斯熱力圖上,使得模型端到端可訓練,縮短了模型推理時間,同時提升了人體關鍵點預測的精度。

猜你喜歡
力圖集上關鍵點
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
喬·拜登力圖在外交政策講話中向世界表明美國回來了
英語文摘(2021年4期)2021-07-22 02:36:30
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
血栓彈力圖在惡性腫瘤相關靜脈血栓栓塞癥中的應用進展
時空觀指導下的模塊整合教學——以《20世紀四五十年代力圖稱霸的美國》為例
復扇形指標集上的分布混沌
大面積燒傷患者血栓彈力圖檢測的臨床意義
醫(yī)聯(lián)體要把握三個關鍵點
疏勒县| 延津县| 南郑县| 南投市| 陆川县| 北辰区| 南昌县| 米脂县| 蒲城县| 西安市| 永吉县| 东山县| 渝中区| 孟连| 琼中| 游戏| 陕西省| 大新县| 芜湖市| 武乡县| 皮山县| 古蔺县| 肇州县| 丘北县| 宜黄县| 深泽县| 黔西县| 清流县| 得荣县| 无锡市| 阿图什市| 巫山县| 乐亭县| 北宁市| 张家港市| 荥经县| 阿图什市| 北安市| 望江县| 石楼县| 行唐县|