基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計方法研究

2020-12-01 03:15:00盧旭張炯華

軟件導(dǎo)刊 2020年10期

盧旭張炯華

摘要：隨著人工智能技術(shù)發(fā)展，人體姿態(tài)估計廣泛應(yīng)用于動作識別、人機交互和服裝解析等領(lǐng)域，成為計算機視覺領(lǐng)域研究熱點，其中基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計方法倍受關(guān)注。結(jié)合人體姿態(tài)識別相關(guān)流程，論述人體檢測、人體姿態(tài)估計和人體姿態(tài)優(yōu)化等步驟，闡述相關(guān)步驟中的新算法，為后續(xù)研究提供參考。

關(guān)鍵詞：人體姿態(tài)估計;神經(jīng)網(wǎng)絡(luò);人體檢測;人體姿態(tài)優(yōu)化

DOI：10. 11907/rjdk. 201135

中圖分類號：TP301 文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2020）010-0046-04

Abstract：With the development of artificial intelligence technology， human pose estimation has become a research hotspot in the field of computer vision. Human pose estimation is widely used in the fields of motion recognition，human-computer interaction，and clothing analysis. In recent years，many new methods of human pose estimation based on neural networks have appeared. This paper studies the human pose estimation method based on neural network，and combines the related processes of human pose recognition to explain the steps of human body detection，human pose estimation and human pose optimization，and analyzes some new implementation algorithms in the relevant steps， which provides reference to follow-up related research.

Key Words：human pose estimation;neural network;human detection;human pose optimization

0 引言

人體姿態(tài)估計方法最早應(yīng)用于服裝行業(yè)的虛擬試衣，大多為基于圖像處理方法，一般步驟是先獲取人的正面和側(cè)面圖像，經(jīng)過圖像處理提取人體外輪廓，從人體輪廓圖像中識別關(guān)鍵尺寸點，然后經(jīng)過統(tǒng)計分析與曲線擬合等建立人體維度曲線的函數(shù)模型，經(jīng)過相關(guān)輔助工具測量后將完整的人體數(shù)據(jù)記錄表導(dǎo)入人體體型數(shù)據(jù)庫[1]。隨著計算機視覺技術(shù)發(fā)展，人體姿態(tài)估計開始結(jié)合神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究，使得人體姿態(tài)估計準(zhǔn)確率與魯棒性得到顯著提升，應(yīng)用范圍得以拓展，已深入融入人們生活中。

基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計研究步驟：①對輸入圖像進(jìn)行人體檢測;②進(jìn)行人體姿態(tài)估計;③采用合適的優(yōu)化算法進(jìn)行結(jié)果優(yōu)化。如圖1所示。

1 人體檢測

人體檢測是構(gòu)建人體姿態(tài)估計神經(jīng)網(wǎng)絡(luò)的重要步驟，通常是用相關(guān)算法判斷輸入圖像中是否有目標(biāo)研究對象，如果有就在圖片中標(biāo)記出其具體位置，用邊框或紅色方框把目標(biāo)對象圈起來。人體姿態(tài)估計研究首先需要進(jìn)行人體檢測，輸入圖片通過特定的人體檢測器提取出人的邊界框，常見的人體檢測器有Mask R-CNN和SSD（Single Shot MultiBox Detector）。

1.1 Mask R-CNN

HE等[2]提出的Mask R-CNN為實例分割對象提供一個概念簡單、靈活且通用的神經(jīng)網(wǎng)絡(luò)框架。該框架可有效檢測圖像中的對象，同時為每個實例生成高質(zhì)量的分割蒙版，很適用于人體姿態(tài)估計。該框架由Faster R-CNN[3]改進(jìn)而來，在Faster R-CNN基礎(chǔ)上增加一個用于檢測掩碼的分支，同時用RoI Align代替原算法中的RoI Pooling以獲得更好的定位效果[4]。通過添加一個分支預(yù)測每個關(guān)注區(qū)域（RoI）上的分割蒙版擴展Faster R-CNN，并與現(xiàn)有的分類與回歸分支并行;韓孝天等[4]使用Mask R-CNN作為人體檢測器，提出包含3個模塊的多人姿態(tài)估計算法，提高多人姿態(tài)估計準(zhǔn)確率。

1.2 SSD

SSD是LIU等[5]提出的一種使用單個深度神經(jīng)網(wǎng)絡(luò)檢測圖像對象的方法。SSD檢測器將邊界框輸出空間離散化為不同縱橫比的一組默認(rèn)框，并按功能映射位置進(jìn)行比例縮放。在PASCAL VOC、COCO和ILSVRC數(shù)據(jù)集上，SSD精度更高。SSD提供統(tǒng)一的框架進(jìn)行訓(xùn)練和推理，其性能優(yōu)于同類Faster R-CNN模型。SSD方法基于前饋卷積神經(jīng)網(wǎng)絡(luò)生成固定大小的邊界框集合，并為這些框中實例對象打分，然后進(jìn)行非最大抑制步驟生成最終的檢測結(jié)果。SSD核心是使用小型卷積濾波器預(yù)測一組默認(rèn)邊界框的類別得分以及框偏移情況;黃鐸等[6]使用SSD作為人體檢測器，提出一種新的多人姿態(tài)檢測算法，在準(zhǔn)確率方面優(yōu)于兩步框架算法。

2 人體姿態(tài)估計

一般將人體姿態(tài)估計分為二維與三維估計兩種。

2.1 二維人體姿態(tài)估計

根據(jù)二維人體姿態(tài)估計對象中人的數(shù)目多少分為單人姿態(tài)估計與多人姿態(tài)估計。

2.1.1 單人姿態(tài)估計

由于單人姿態(tài)估計目標(biāo)只有單個對象，所以識別技術(shù)相對成熟，識別速度較快。TOSHEV等[7]最早基于神經(jīng)網(wǎng)絡(luò)提出DeepPose方法，該方法提出一個級聯(lián)的類DNN回歸量，能達(dá)到高精度估計效果。該方法優(yōu)點是以整體方式對姿態(tài)進(jìn)行估計，具有良好的泛化性能;TOMPSON等[8]提出一種新的混合體系結(jié)構(gòu)，該體系結(jié)構(gòu)由深層卷積神經(jīng)網(wǎng)絡(luò)與馬爾可夫隨機場組成，包括一個額外的“軀干聯(lián)合熱圖”用來合并數(shù)據(jù)，以便在混亂的場景中選擇正確的特征激活;YANG等[9]提出一種新的端到端人體姿態(tài)估計框架，將DCNN與零件的可表達(dá)變形混合在一起，采用DCNN將每個身體部位的熱圖回歸，通過神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的結(jié)構(gòu)化輸出進(jìn)一步模擬身體關(guān)節(jié)之間的關(guān)系。

WEI等[10]提出卷積姿態(tài)機（Convolutional Pose Machines，CPM），提供用于學(xué)習(xí)隱式空間模型的順序預(yù)測框架;CARREIRA等[11]提出一種稱為迭代誤差反饋（IEF）的方法，該方法通過引入自上而下的反饋，將分層特征提取器的表達(dá)能力擴展到輸入、輸出空間;FAN等[12]提出雙源深度卷積神經(jīng)網(wǎng)絡(luò)（DS-CNN），構(gòu)建熱圖回歸和關(guān)節(jié)點坐標(biāo)定位兩個并行網(wǎng)絡(luò)模塊，該神經(jīng)網(wǎng)絡(luò)為每個關(guān)節(jié)i構(gòu)造一個熱圖Hi。DS-CNN可用于聯(lián)合檢測和聯(lián)合定位。

2.1.2 多人姿態(tài)估計

由于多人姿態(tài)估計不能明確圖像中人的具體位置和總?cè)藬?shù)，故比單人姿態(tài)估計實現(xiàn)困難得多。通?？赏ㄟ^兩種方法實現(xiàn)多人姿態(tài)估計：①首先提供一個人體檢測器，然后分別估計每個部件，最后得到每個人的姿態(tài)，這種方法屬于自上而下方法;②先檢測圖像中所有人的部件，然后將不同的部件進(jìn)行關(guān)聯(lián)、分組，這種方法屬于自下而上方法。

CAO等[13]提出一種有效檢測圖像中多人姿態(tài)的方法，該方法在多個公共基準(zhǔn)上準(zhǔn)確性很高，在性能和效率上大大超過MPII數(shù)據(jù)集多人檢測水平。該方法通過部分親和力字段（PAF）表示自下而上的關(guān)聯(lián)評分，PAF是一組二維矢量場，可對圖像域上肢體的位置和方向進(jìn)行編碼，允許自下而上解析，能在保持高精度的同時實時實現(xiàn)且不受圖像中人的數(shù)量影響。

多人姿態(tài)估計自上而下方法有CPN、G-RMI和RMPE幾種。CHEN等[14]采用自上而下方法提出一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，稱為級聯(lián)金字塔網(wǎng)絡(luò)（CPN），該神經(jīng)網(wǎng)絡(luò)包括GlobalNet和RefineNet兩個階段。GlobalNet是一個功能金字塔網(wǎng)絡(luò)，可以準(zhǔn)確定位“簡單”關(guān)節(jié)點（如眼睛和手），但無法準(zhǔn)確識別被遮擋或看不見的關(guān)節(jié)點;RefineNet通過整合GlobalNet的所有特征表示，以及挖掘在線關(guān)節(jié)點損失顯式處理硬性關(guān)節(jié)點;PAPANDREOU 等[15]提出簡單而強大的G-RMI方法，該方法包括兩個階段：①預(yù)測容納人員的盒子位置和大小;②估計每個邊界框中可能包含人員的關(guān)鍵點。對關(guān)鍵點類型使用完全卷積的ResNet預(yù)測密集的熱圖與偏移量，同時引入一種新穎的聚合過程獲得高度本地化的關(guān)鍵點預(yù)測結(jié)果;FANG等[16]提出的RMPE是一種區(qū)域多人姿態(tài)估計神經(jīng)網(wǎng)絡(luò)框架，能處理不準(zhǔn)確的邊界框并進(jìn)行冗余檢測，在存在不準(zhǔn)確人體邊界框的情況下提高姿態(tài)估計效果。該框架由對稱空間變壓器網(wǎng)絡(luò)（SSTN）、參數(shù)姿態(tài)非最大抑制（NMS）和姿態(tài)指導(dǎo)的提議生成器（PGPG）3個組件組成。

2.2 三維人體姿態(tài)估計

目前三維人體姿態(tài)估計方法聚焦設(shè)計一些復(fù)雜的先驗約束，一般基于二維人體姿態(tài)特征感知或二維姿態(tài)預(yù)測三維人體姿態(tài)回歸。但由于用于訓(xùn)練的三維姿態(tài)數(shù)據(jù)集不足，以及二維空間和三維空間之間存在域間隙等問題，實際上這些方法可擴展性有限。為解決這些問題，WANG等[17]提出一種簡單而有效的自我監(jiān)督校正神經(jīng)網(wǎng)絡(luò)，從豐富的圖像中學(xué)習(xí)人體姿態(tài)的所有結(jié)構(gòu)。該神經(jīng)網(wǎng)絡(luò)涉及從二維到三維姿態(tài)轉(zhuǎn)換及從三維到二維姿態(tài)投影兩個學(xué)習(xí)任務(wù);ZHOU等[18]為解決三維人體姿態(tài)估計缺少訓(xùn)練數(shù)據(jù)問題，提出一種基于神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督遷移學(xué)習(xí)方法。該方法在深度中性網(wǎng)絡(luò)中使用混合的二維與三維標(biāo)簽，通過三維深度回歸子網(wǎng)絡(luò)增強二維姿態(tài)估計子網(wǎng)絡(luò)。

ALP等[19]基于RGB圖像和人體表面建立密集的對應(yīng)關(guān)系，提出密集的人體姿態(tài)估計方法DensePose。該方法首先通過引入有效的注釋管道收集COCO數(shù)據(jù)集中5萬人的密集信息，然后使用數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)，在存在背景遮擋和尺度變化的情況下密集應(yīng)對，通過級聯(lián)進(jìn)一步提高三維人體姿態(tài)估計的準(zhǔn)確性，獲得實時的高精度神經(jīng)網(wǎng)絡(luò)系統(tǒng)。VAROL等[20]提出一種全自動端到端多任務(wù)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)BodyNet，可從單個圖像預(yù)測三維人體形狀。

3 人體姿態(tài)優(yōu)化

對人體姿態(tài)進(jìn)行估計后需對估計結(jié)果進(jìn)行優(yōu)化。原始圖片與包含位姿信息的圖片可提供豐富的人體上下文信息與結(jié)構(gòu)信息，即使有錯誤位姿，但由于多數(shù)關(guān)鍵點處在正確位置或只是在正確位置上添加了一些抖動，因而也具有一定的結(jié)構(gòu)信息，利用這些信息訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型可有效提高模型對錯誤姿態(tài)的魯棒性。

MOON等[21]提出一種與模型無關(guān)的人體姿態(tài)修正網(wǎng)絡(luò)PoseFix。該網(wǎng)絡(luò)可根據(jù)輸入圖像與姿態(tài)的元組估計出正確姿態(tài)，其核心是將抖動、反轉(zhuǎn)、缺失等錯誤姿態(tài)出現(xiàn)的頻率信息作為先驗信息生成姿態(tài)，然后用這些姿態(tài)訓(xùn)練PoseFix;韓孝天等[4]使用基于PoseFix的姿態(tài)優(yōu)化算法對人體姿態(tài)估計結(jié)果進(jìn)行優(yōu)化;NEWELL等[22]提出的堆疊式沙漏網(wǎng)絡(luò)是一種新型的人體姿態(tài)估計卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，由多個堆疊沙漏模塊組成，該結(jié)構(gòu)重復(fù)自下而上、自上而下處理，與中間監(jiān)督結(jié)合使用對人體姿態(tài)估計進(jìn)行優(yōu)化，有效解決圖像中截斷和嚴(yán)重遮擋問題;BULAT等[23]提出一種CNN級聯(lián)架構(gòu)，先輸出檢測熱圖，然后對這些熱圖進(jìn)行坐標(biāo)回歸。神經(jīng)網(wǎng)絡(luò)的關(guān)鍵特征是檢測熱圖的聯(lián)合回歸，特別適合于學(xué)習(xí)關(guān)節(jié)點關(guān)系和空間上下文，即使在關(guān)節(jié)點嚴(yán)重遮擋的情況下也能正確推斷姿態(tài)，優(yōu)化人體姿態(tài)估計。

4 存在的問題

雖然借助神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計研究取得了一些成果，但人體姿態(tài)估計仍然存在一些問題。

（1）數(shù)據(jù)不全問題。適用于人體姿態(tài)估計神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集已經(jīng)很大，如COCO數(shù)據(jù)集，但數(shù)據(jù)集中大部分圖片姿態(tài)都是站立、走路等正常姿態(tài)，而摔跤、翻爬等特殊姿態(tài)數(shù)據(jù)較少，解決數(shù)據(jù)不全問題對提升算法性能有極大的促進(jìn)作用。

（2）關(guān)節(jié)點檢測問題?？拐趽?、抗變形和較高的魯棒性是人體姿態(tài)估計研究需要實現(xiàn)的目標(biāo)，但實際研究對象中，復(fù)雜關(guān)節(jié)之間相互依存，部分關(guān)節(jié)完全閉塞，身體形狀、衣服或燈光的變化以及不受限制的視角會導(dǎo)致尺寸輸入空間很大[8]。人體姿態(tài)關(guān)節(jié)點檢測算法還未達(dá)到理想效果，遇到較為復(fù)雜的場景仍會出現(xiàn)大量錯誤。

（3）實時性問題。人體檢測需要用到人體檢測器，但目前的人體檢測器在處理三維人體姿態(tài)估計問題時無法做到實時檢測，需要研究速度更快性能更好的人體檢測器，同時優(yōu)化神經(jīng)網(wǎng)絡(luò)模型以提高實時性。

（4）最低分辨率問題。諸如自動駕駛系統(tǒng)之類的人體姿態(tài)估計應(yīng)用場景，需要盡量提前檢測到遠(yuǎn)方路面情況，在路面出現(xiàn)橫穿馬路行人時，系統(tǒng)越遠(yuǎn)檢測到人體姿態(tài)就越能保障人員安全。因此，設(shè)定檢測人體姿態(tài)所需最低分辨率成為一項重要工作。

5 結(jié)語

神經(jīng)網(wǎng)絡(luò)的出現(xiàn)成為人體姿態(tài)估計研究的重要驅(qū)動力，最新的人體姿態(tài)估計研究方法普遍采用神經(jīng)網(wǎng)絡(luò)構(gòu)建主要模塊。本文介紹了基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計方法、步驟，闡述了最新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型，可為后續(xù)基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)識別研究提供參考。

參考文獻(xiàn)：

[1] 盧晨. 基于圖像的非接觸式人體測量系統(tǒng)研究與實現(xiàn)[D]. 蘇州：蘇州大學(xué)，2009.

[2] HE K，GKIOXARI G，DOLLAR P，et al. Mask R-CNN[C]. IEEE International Conference on Computer Vision， 2017：2980-2988.

[3] REN S，HE K，GIRSHICK R，et al.Faster R-CNN：towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2015， 39（6）：1137-1149.

[4] 韓孝天，萬旺根. 基于MSP的多人姿態(tài)估計算法[J]. 電子測量技術(shù)，2019，42（19）：79-84.

[5] LIU W，ANGUELOV D，ERHAN D，et al.SSD： single shot multibox detector[C]：European Conference on Computer Vision，Springer International Publishing，2016：21-37.

[6] 黃鐸，應(yīng)娜，蔡哲棟. 基于強化學(xué)習(xí)的多人姿態(tài)檢測算法優(yōu)化[J]. 計算機應(yīng)用與軟件，2019，36（4）：186-191.

[7] TOSHEV A，SZEGEDY C. Deeppose：human pose estimation via deep neural networks[C].? Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2014：1653-1660.

[8] TOMPSON J J，JAIN A，LECUN Y，et al. Joint training of a convolutional network and a graphical model for human pose estimation[C]. Advances in Neural Information Processing Systems，2014：1799-1807.

[9] YANG W，OUYANG W，LI H，et al. End-to-end learning of deformable mixture of parts and deep convolutional neural networks for human pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016：3073-3082.

[10] WEI S， RAMAKRISHNA V，KANADE T，et al. Convolutional pose machines[C].? IEEE Conference on Computer Vision and Pattern Recognition，2016：4724-4732.

[11] CARREIRA J，AGRAWAL P，F(xiàn)RAGKIADAKI K，et al.Human pose estimation with iterative error feedback[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016：4733-4742.

[12] FAN X，ZHENG K，LIN Y，et al.Combining local appearance and holistic view：dual-source deep neural networks for human pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015：1347-1355.

[13] CAO Z，SIMON T，WEI S E，et al.Realtime multi-person 2D pose estimation using part affinity fields[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2017：7291-7299.

[14] CHEN Y，WANG Z，PENG Y，et al.Cascaded pyramid network for multi-person pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2018：7103-7112.

[15] PAPANDREOU G，ZHU T，KANAZAWA N，et al.Towards accurate multi-person pose estimation in the wild[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2017：4903-4911.

[16] FANG H S，XIE S，TAI Y W，et al.RMPE：regional multiperson pose estimation[C]. Proceedings of the IEEE International Conference on Computer Vision，2017：2334-2343.

[17] WANG K，LIN L，JIANG C，et al.3D human pose machines with self-supervised learning[J]. arXiv，2019（1）： 1901-1928.

[18] ZHOU X，HUANG Q，SUN X，et al.Towards 3D human pose estimation in the wild：a weakly-supervised approach[C]. Proceedings of the IEEE International Conference on Computer Vision，2017：398-407.

[19] ALP G R，NEVEROVA N，KOKKINOS I.Densepose：dense human pose estimation in the wild[C].? Conference： 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， 2018：7297-7306.

[20] VAROL G，CEYLAN D，RUSSELL B，et al.Bodynet：volumetric inference of 3D human body shapes[C]. Proceedings of the European Conference on Computer Vision，2018：20-36.

[21] MOON G，CHANG J Y，LEE K M.Posefix：model-agnostic general human pose refinement network[EB/OL].? http：//www.doc88.com/p-9079133700506.html.

[22] NEWELL A，YANG K，DENG J.Stacked hourglass networks for human pose estimation[C]. Proceedings of European Conference on Computer Vision，2016：483-499.

[23] BULAT A，TZIMIROPOULOS G.Human pose estimation via convolutional part heatmap regression[C]. Proceedings of European Conference on Computer Vision，2016：717-732.

（責(zé)任編輯：杜能鋼）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計方法研究