汪檢兵 李俊
摘 要:相較于2017年提出的在當(dāng)時(shí)檢測(cè)效果近乎最優(yōu)的RMPE模型與Mask R-CNN模型,原用于人體骨骼關(guān)鍵點(diǎn)檢測(cè)的OpenPose模型有著在保持精度近乎不變的情況下能大幅縮短檢測(cè)周期的優(yōu)勢(shì),但同時(shí)該模型也存在著參數(shù)共享率低、冗余度高、耗時(shí)長(zhǎng)、模型規(guī)模太大等問題。針對(duì)上述問題,提出了新的OpenPose-slim模型。該模型減小網(wǎng)絡(luò)寬度,減少卷積塊層數(shù),將原并列式結(jié)構(gòu)改成序列式結(jié)構(gòu)并于內(nèi)模塊加入Dense連接機(jī)制,其處理過程主要分為3個(gè)模塊:1)關(guān)鍵點(diǎn)定位模塊,檢測(cè)出人體骨骼關(guān)鍵點(diǎn)的位置坐標(biāo);2)關(guān)鍵點(diǎn)聯(lián)系模塊,把關(guān)鍵點(diǎn)位置連接成肢體;3)肢體匹配模塊,進(jìn)行肢體匹配得到人體輪廓。每一個(gè)處理階段之間關(guān)聯(lián)緊密。在MPII數(shù)據(jù)集、COCO數(shù)據(jù)集和AI Challenger數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型使用4個(gè)定位模塊和2個(gè)聯(lián)系模塊,并于每一個(gè)模塊內(nèi)部使用Dense連接機(jī)制是最佳結(jié)構(gòu),與OpenPose模型相比,在保持檢測(cè)精度基本不變的基礎(chǔ)上,測(cè)試周期縮短為原來的近1/6,參數(shù)量縮小了近50%,模型規(guī)模縮小為近1/27。
關(guān)鍵詞:人體骨骼關(guān)鍵點(diǎn)檢測(cè);姿態(tài)檢測(cè);肢體;Dense連接機(jī)制;序列式結(jié)構(gòu)
中圖分類號(hào): TP183文獻(xiàn)標(biāo)志碼:A
Human skeleton key point detection method based on OpenPose-slim model
WANG Jianbing1,2, LI Jun1,2*
(1. College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan Hubei 430065, China;
2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System
(Wuhan University of Science and Technology), Wuhan Hubei 430065, China)
Abstract: The OpenPose model originally used for the detection of key points in human skeleton can greatly shorten the detection cycle while maintaining the accuracy of the Regional Multi-Person Pose Estimation (RMPE) model and the Mask Region-based Convolutional Neural Network (R-CNN) model, which were proposed in 2017 and had the near-optimal detection effect at that time. At the same time, the OpenPose model has the problems such as low parameter sharing rate, high redundancy, long time-consuming and too large model scale. In order to solve the problems, a new OpenPose-slim model was proposed. In the proposed model, the network width was reduced, the number of convolution block layers was decreased, the original parallel structure was changed into sequential structure and the Dense connection mechanism was added to the inner module. The processing process was mainly divided into three modules: 1) the position coordinates of human skeleton key points were detected in the key point localization module; 2) the key point positions were connected to the limb in the key point association module; 3) limb matching was performed to obtain the contour of human body in the limb matching module. There is a close correlation between processing stages. The experimental results on the MPII dataset, Common Objects in COntext (COCO) dataset and AI Challenger dataset show that, the use of four localization modules and two association modules as well as the use of Dense connection mechanism inside each module of the proposed model is the best structure. Compared with the OpenPose model, the test cycle of the proposed model is shortened to nearly 1/6, the parameter size is reduced by nearly 50%, and the model size is reduced to nearly 1/27.
Key words: human skeleton key point detection; attitude detection; limb; Dense connection mechanism; sequential structure
0 引言
隨著人工智能(Artificial Intelligence, AI)時(shí)代的到來,描述人體姿態(tài)、預(yù)測(cè)人體行為的應(yīng)用研究在不斷進(jìn)行。人體姿態(tài)檢測(cè),實(shí)現(xiàn)關(guān)鍵物體分析,自動(dòng)還原人體姿態(tài),在行為檢測(cè)(利用深度學(xué)習(xí)技術(shù)可以精確檢測(cè)人物異常行為)、行為識(shí)別(快速精確識(shí)別人體動(dòng)作中的各種姿態(tài))、視頻捕捉(精確捕捉視頻的精彩瞬間)和計(jì)算機(jī)圖形學(xué)等領(lǐng)域都有著廣泛的應(yīng)用價(jià)值和豐富的業(yè)務(wù)場(chǎng)景。
在人體骨骼關(guān)鍵點(diǎn)檢測(cè)的任務(wù)中,傳統(tǒng)模型方法存在以下一些難題:1)每張圖片的人數(shù)及出現(xiàn)位置不定,姿態(tài)各異,無法提前預(yù)知,給空間信息的獲取帶來困難;2)檢測(cè)周期會(huì)隨著識(shí)別人數(shù)的增加而不斷變長(zhǎng);3)檢測(cè)的魯棒性不強(qiáng),泛化能力差,無法將對(duì)人體的檢測(cè)系統(tǒng)方便移植到其他的檢測(cè)系統(tǒng)中。 Cao等[1]提出了最新的OpenPose模型,相較于到2017年為止檢測(cè)性能各項(xiàng)指標(biāo)近乎最優(yōu)的RMPE(Regional Muti-person Pose Estimation)模型[2]和Mask R-CNN(Region-based Convolutional Neural Network)模型[3]有著在保持檢測(cè)精度基本不變的情況下能夠大幅度縮短關(guān)鍵點(diǎn)檢測(cè)周期的優(yōu)勢(shì),但是也存在著參數(shù)共享率低、冗余度高、耗時(shí)長(zhǎng)、模型太大等不足之處。
本文在OpenPose模型[1]基礎(chǔ)上進(jìn)行改進(jìn),并提出了新的OpenPose-slim模型,對(duì)原模型的結(jié)構(gòu)主要作出如下改進(jìn):1)減小網(wǎng)絡(luò)結(jié)構(gòu)的寬度;2)減少3×3卷積核,增加1×1卷積核,不僅可以緩和降維,而且可以突出非線性,減少計(jì)算量;3)改并列式結(jié)構(gòu)為序列式結(jié)構(gòu),降低模型的復(fù)雜度;4)使用6個(gè)階段(4個(gè)關(guān)鍵點(diǎn)定位階段和2個(gè)肢體連接階段);5)前4個(gè)階段和后2個(gè)階段分別使用Dense連接機(jī)制,大幅提高了參數(shù)之間的共享率,并降低了參數(shù)冗余度。在MPII數(shù)據(jù)集、COCO(Common Objects in COntext)數(shù)據(jù)集和AI Challenger數(shù)據(jù)集[4]上的實(shí)驗(yàn)結(jié)果表明,與OpenPose模型相比,所提模型在保持檢測(cè)精度基本不變的基礎(chǔ)上,測(cè)試周期縮短為原來的近1/6,參數(shù)量縮小了近50%,模型規(guī)??s小為近1/27。
1 相關(guān)工作
傳統(tǒng)的姿態(tài)檢測(cè)算法是基于模板匹配的幾何計(jì)算方法,關(guān)鍵是利用多種模板控件進(jìn)行多維度建模做出適用性更強(qiáng)的模板以適配整個(gè)人體結(jié)構(gòu),但都是基于人工或簡(jiǎn)單算法實(shí)現(xiàn)的匹配,其工作量非常大,精度也很難達(dá)到預(yù)期要求。近幾年來,姿態(tài)檢測(cè)方法主要分為兩類:自頂向下方式(順序是先確定出人的位置,再檢測(cè)每人的可見關(guān)鍵點(diǎn))和自底向上方式(順序是先檢測(cè)可見關(guān)鍵點(diǎn),再確定其屬于哪個(gè)人)。近年來的姿態(tài)研究主要分為單人姿態(tài)研究和多人姿態(tài)研究。
單人姿態(tài)方面,Ke等[5]在視頻多幀人體姿態(tài)檢測(cè)系統(tǒng)研究中提出姿態(tài)檢測(cè)本質(zhì)上是檢測(cè)模型的思想,組合兩個(gè)AlexNet模型的特征圖作為輸出,使用簡(jiǎn)單數(shù)據(jù)增強(qiáng)的方法在
FLIC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明相較于傳統(tǒng)檢測(cè)算法精度提高了5%;Newell等[6]提出Stacked Hourglass網(wǎng)絡(luò)結(jié)構(gòu),將自頂向下方向的下采樣與自底向上方向的上采樣進(jìn)行綜合處理,每個(gè)漏斗樣式的結(jié)構(gòu)按照一定模式組合在一起,該模型以正確估計(jì)關(guān)鍵點(diǎn)比例PCKh(Percentage of Correct Keypoints of head)@0.5=90.9%的優(yōu)異成績(jī)?cè)?016年MPII競(jìng)賽中暫居榜首。Chen等[7]對(duì)其做出了改進(jìn),采用生成對(duì)抗網(wǎng)絡(luò) (Generative Adversarial Network, GAN)的方法進(jìn)行微調(diào),整體精度提高0.2%。
多人姿態(tài)方面,不同于單人姿態(tài),多人姿態(tài)另需考慮肢體匹配到人體的誤差,比較好的多人姿態(tài)研究在單人姿態(tài)應(yīng)用上的效果并不好。Rajchl等[8]提出了自頂向下的DeepCut網(wǎng)絡(luò)結(jié)構(gòu),首先找出候選的關(guān)鍵點(diǎn),使用空間聯(lián)系優(yōu)化算法得到每一對(duì)關(guān)鍵點(diǎn)屬于哪個(gè)人,找到其內(nèi)在聯(lián)系;Insafutdinov等[9]又提出DeeperCut結(jié)構(gòu),添加殘差模塊,在MPII多人姿態(tài)數(shù)據(jù)集上表現(xiàn)出mAP(mean Average Precision)[10]為60.5%。Insafutdinov等[11]提出了名為ArtTrack的無約束多人跟蹤模型,使用稀疏體簡(jiǎn)化圖結(jié)構(gòu)相較于DeeperCut不僅速度快20%,而且關(guān)鍵點(diǎn)匹配準(zhǔn)確率高5%。2017年, Fang等[2]提出了自頂向下RMPE模型,多人姿態(tài)檢測(cè)精度mAP [10]在MPII數(shù)據(jù)集上達(dá)到了76.7%;同年, He等[3]提出了自頂向下的Mask R-CNN新模型,該模型在實(shí)例語義分割任務(wù)中和關(guān)鍵點(diǎn)檢測(cè)任務(wù)中表現(xiàn)優(yōu)異,截至2017年,這兩種模型檢測(cè)評(píng)估結(jié)果近乎達(dá)到最優(yōu)。后來, Cao等[1]提出了自底向上全新的OpenPose模型,使用一種對(duì)關(guān)鍵點(diǎn)聯(lián)系的非參數(shù)表示方法——部分親和字段(Part Affinity Fields, PAFs )方法 [1,12],完成了從關(guān)鍵點(diǎn)檢測(cè)到肢體連接再到人體骨架的構(gòu)建過程,相較于前兩種模型,在MPII數(shù)據(jù)集和COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明檢測(cè)精度基本一致,但該模型在檢測(cè)周期上表現(xiàn)出了不隨人數(shù)的增加而延長(zhǎng)的魯棒性;但與此同時(shí),該模型也存在參數(shù)共享率低、冗余度高、耗時(shí)長(zhǎng)、模型太大等不足之處。2 OpenPose模型
OpenPose模塊示意圖如圖1所示。
圖1(a)描述了OpenPose[1]的外部框架結(jié)構(gòu)。首先,輸入圖片經(jīng)過VGG-19結(jié)構(gòu)的前10層得到特征圖(feature map)F, 接著由特征圖作為多階段輸入,每一個(gè)階段分為兩部分:一部分是Localization模塊(圖1中的L(·)部分),用于關(guān)鍵點(diǎn)定位;另一個(gè)是Association模塊(圖1中的A(·)部分),用于連接候選關(guān)鍵點(diǎn)組成連接肢體。大體結(jié)構(gòu)共分為12(2×6)個(gè)階段,過多階段數(shù)會(huì)耗費(fèi)更多計(jì)算資源,而且沒有參數(shù)跨層共享機(jī)制,容易生成較多冗余數(shù)據(jù)。
圖1(b)描述了OpenPose[1]內(nèi)部網(wǎng)絡(luò)層結(jié)構(gòu),其中Convolution Block部分是3個(gè)3×3卷積核所組成的小殘差網(wǎng)絡(luò)結(jié)構(gòu),每隔一層都有跳躍連接。為了在提取高層特征信息和空間紋理信息的同時(shí),也不會(huì)使得底層的信息被全部忽略,于是將底層的特征信息與高層的特征進(jìn)行一定程度上的連接,可解決層數(shù)過多時(shí)導(dǎo)致的梯度消失問題,使用多個(gè)3×3卷積核代替5×5或7×7卷積核也可一定程度上減少參數(shù)。其后使用1×1卷積核,不僅可用于升維和降維,并且可以增強(qiáng)非線性趨勢(shì),使得網(wǎng)絡(luò)變得更深以提取更高層特征。
3 OpenPose-slim模型
圖2(a)描述了OpenPose-slim的外部框架結(jié)構(gòu),與OpenPose模型[1]在外部細(xì)節(jié)結(jié)構(gòu)上大體相同,不同之處在于外部結(jié)構(gòu)中使用序列式L-A結(jié)構(gòu),而不是并列式L-A結(jié)構(gòu),大體結(jié)構(gòu)只有6個(gè)小階段,相較于OpenPose模型[1]的12個(gè)大階段而言,大幅減小了參數(shù)使用量,也縮短了檢測(cè)處理時(shí)間;且參考文獻(xiàn)[13-14]提出的DenseNet,在Localization模塊和Assocation模塊中分別使用Dense連接結(jié)構(gòu),如此能提高參數(shù)的共享性,減少參數(shù)冗余量和模型大小。如實(shí)驗(yàn)5.3節(jié)所示,在COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:總計(jì)使用6個(gè)階段(分別在4個(gè)Localization階段與2個(gè)Association階段使用Dense連接機(jī)制)的效果最好,相較于(3-L,3-A)結(jié)構(gòu)精度高,表明Localization的過程優(yōu)化所需要的層數(shù)比Association所需的層數(shù)更重要;相較于(4-L,2-A)和(4-L(Dense),2-A)結(jié)構(gòu)精度也略高,表明Dense連接對(duì)精度提高和參數(shù)傳遞很有幫助。后面的實(shí)驗(yàn)都是默認(rèn)在基于6階段(4-L,2-A)(Dense)的基礎(chǔ)上進(jìn)行。
圖2(b)描述了OpenPose-slim模型的內(nèi)部結(jié)構(gòu),在原OpenPose模型[1]基礎(chǔ)上做出的改進(jìn)是每個(gè)Convolution Block中去掉了一個(gè)3×3卷積核,并在L-Block和A-Block中添加一個(gè)1×1卷積核分別用于升維和降維。該模型是原OpenPose模型[1]的改進(jìn)模型,在保持精度基本不變的前提下,大幅縮短了檢測(cè)周期且縮小了模型規(guī)模。
表1詳細(xì)描述了OpenPose-slim模型每一個(gè)階段卷積核數(shù)目,R*與Y*分別代表左邊的Convolution Block與右邊的Convolution塊,OUTPUT代表該階段輸出的通道數(shù)。由表1可知,Localization模塊輸出的通道數(shù)高達(dá)1408,Association模塊輸出的通道數(shù)只有896,最后Detector的輸出通道數(shù)為(關(guān)鍵點(diǎn)數(shù)×關(guān)鍵點(diǎn)狀態(tài)),即14×3=42。
4 模型整體研究過程
本文模型整體研究過程主要分為三個(gè)模塊,如圖3所示,分別是:Localization(關(guān)鍵點(diǎn)定位模塊)、Association(關(guān)鍵點(diǎn)聯(lián)系模塊)和Matching(肢體匹配模塊)。關(guān)鍵點(diǎn)定位模塊主要是為了從圖像數(shù)據(jù)中獲取到每類候選關(guān)鍵點(diǎn)位置以及該關(guān)鍵點(diǎn)的置信度,關(guān)鍵點(diǎn)聯(lián)系模塊主要是為了從各個(gè)候選關(guān)鍵點(diǎn)中得到每一對(duì)異類關(guān)鍵點(diǎn)之間的候選肢體以及該肢體的置信度值,肢體匹配模塊是在候選肢體中進(jìn)行匹配以期選出合適的肢體構(gòu)建整個(gè)人體的骨架。
4.1 Localization
模型輸入端為彩色圖像數(shù)據(jù),從VGG-19的前10層提取高層特征信息得到特征圖Feature map,接著輸入到用作關(guān)鍵點(diǎn)分類和回歸的模型L(t)中,再經(jīng)過非極大值抑制 (Non-Maximum Suppression, NMS)算法[15]得到離散化的候選關(guān)鍵點(diǎn)集合和每個(gè)候選關(guān)鍵點(diǎn)的置信度圖Confidence map,每一個(gè)關(guān)鍵點(diǎn)的置信度圖分為x與y兩個(gè)方向上的向量,包括x方向上的向量信息和y方向上的向量信息,兩個(gè)方向上的合向量表示該關(guān)鍵點(diǎn)的置信度Confidence。除此之外,還有對(duì)每一個(gè)關(guān)鍵點(diǎn)的定位信息。
4.2 Association
根據(jù)從關(guān)鍵點(diǎn)定位階段輸出的每個(gè)候選關(guān)鍵點(diǎn)相對(duì)于第j號(hào)關(guān)鍵點(diǎn)的置信度,輸入A(t)中經(jīng)過PAFs算法[1,12]處理得到每一對(duì)候選關(guān)鍵點(diǎn)之間的候選肢體集合及每條候選肢體的置信度圖。
首先,計(jì)算任意一點(diǎn)p在肢體c上的置信度,如式(1)所示:如果點(diǎn)p在肢體c上,則點(diǎn)p相對(duì)于肢體c的置信度為肢體c方向上的單位向量;否則為零向量。其中,判斷點(diǎn)p是否在肢體c上的方法如圖4(a)和式(2)~(3)所示。
Ac(p)=ν, 點(diǎn)p在肢體c上
0,其他 (1)
0≤ν·(p-xj1)≤lc(2)
|νT·(p-xj1)|≤σc(3)
其中: j1與j2為兩個(gè)不同類的關(guān)鍵點(diǎn);定義ν向量為從j1指向j2方向上的單位向量,νT向量為ν向量的垂直向量;lc為肢體c的長(zhǎng)度;σc為肢體c的寬度;xj1表示候選關(guān)鍵點(diǎn)j1的位置坐標(biāo)。
接著,使用定積分求出肢體c上所有點(diǎn)的置信度圖和代表肢體c的置信度Ec,由肢體c上所有點(diǎn)置信度在c上求定積分后單位化所得,目的是為了在后面作匹配的時(shí)候可以統(tǒng)一度量,如式(4)~(5):
Ec=∫u=1u=0Ac(p(u))·dj2-dj1‖dj2-dj1‖2 du(4)
p(u)=(1-u)·dj1+u·dj2(5)
式中:p(u)代表取遍j1到j(luò)2之間的任意一點(diǎn),其中0≤u≤1。
4.3 Matching
獲得每一條肢體置信度后,就按照某一種方案去作匹配,本文提供兩種匹配方案,分別是全連接匹配方式和最大二分圖匹配方式。將匹配結(jié)果中所有肢體置信度求和,找出最大的匹配結(jié)果為最終的候選匹配集合。
三類關(guān)鍵點(diǎn)之間的兩種匹配方案如圖4(b)所示,圖中左右框代表兩個(gè)人,每一組關(guān)鍵點(diǎn)之間四條線(粗實(shí)線和細(xì)虛線)中的某一種線是一種匹配結(jié)果,其中粗實(shí)線是正確匹配方式,細(xì)虛線是錯(cuò)誤匹配方式。全連接匹配方式是四條線全部考慮在內(nèi)的匹配方式,而最大二分圖匹配方式是粗實(shí)線或細(xì)虛線的兩條線匹配方式,它要求任意兩條線沒有公共節(jié)點(diǎn)。所以,含有公共點(diǎn)的細(xì)虛線是錯(cuò)誤的匹配方式,其邊權(quán)和Ec為0;粗實(shí)線是正確的匹配方式,其邊權(quán)和Ec為2ν。
不同模型在COCO數(shù)據(jù)集上的測(cè)試結(jié)果如圖5所示。圖5(a)是四種模型隨著關(guān)鍵點(diǎn)數(shù)目增加而引起的mAP[10]指標(biāo)在關(guān)鍵點(diǎn)上的平均加權(quán)變化曲線,圖中OpenPose-slim的關(guān)鍵點(diǎn)檢測(cè)數(shù)目略小于OpenPose模型[1] ,其檢測(cè)的mAP[10]指標(biāo)相較于OpenPose模型[1]僅差0.01。圖5(b)是四種模型隨著幀數(shù)不斷增加而計(jì)算出的FPS指標(biāo)的平均加權(quán)變化曲線,OpenPose-slim模型的FPS指標(biāo)約是OpenPose模型[1]的5倍,且不會(huì)隨著檢測(cè)幀數(shù)的增加而明顯減小(即檢測(cè)周期明顯變長(zhǎng)),而Mask R-CNN模型[3]與RMPE模型[2]會(huì)隨著檢測(cè)幀數(shù)的變化而導(dǎo)致檢測(cè)周期變長(zhǎng)。
5.3 結(jié)構(gòu)對(duì)比實(shí)驗(yàn)
不同階段數(shù)分配方案的結(jié)果對(duì)比如表5所示。表5結(jié)果表明:6個(gè)Stages(4個(gè)的Localization 模塊和2個(gè)Association模塊分別使用Dense連接)效果最佳。由Stages=3和Stages=4所知,當(dāng)Stages使用較少時(shí),表現(xiàn)出精度明顯不夠的情況;但是當(dāng)Stages過多時(shí),如Stages=7,mAP [10]表現(xiàn)出下降趨勢(shì)。宏觀方面,原因是:隨著階段越來越多,后面的階段會(huì)不斷作局部參數(shù)優(yōu)化,而導(dǎo)致“斷層”現(xiàn)象,即高層特征提取器提取的信息和低層特征提取器提取的信息不能綜合起來,將閾值設(shè)置為0.90,則對(duì)于更高層信息的獲取就更難,表現(xiàn)出平均精度(AP)也會(huì)下降得非常大。微觀方面,原因是:隨著階段數(shù)的增加,梯度容易消失,在反向傳播過程中,參數(shù)更新非常細(xì)微以至于沒有變化,即使使用一定的殘差結(jié)構(gòu),但也只能解決部分問題,其根本性問題還是沒有完全解決。實(shí)驗(yàn)結(jié)果中,使用(4-L 2-A)(Dense)結(jié)構(gòu)比包括(4-L 2-A)和(4-L(Dense) 2-A)在內(nèi)的其他結(jié)構(gòu)效果都好,表明Dense結(jié)構(gòu)對(duì)參數(shù)的共享效果相較于普通的殘差神經(jīng)網(wǎng)絡(luò)ResNet(Residual Network)要好,對(duì)精度的提高也會(huì)表現(xiàn)得更優(yōu)異。
5.4 系統(tǒng)不足
如圖6所示,OpenPose-slim模型也存在一些表現(xiàn)不足的問題:1)圖6(a)中,站在前面的人的手無法檢測(cè)出來,而被誤判為后面的人手;圖6(b)中,左右手錯(cuò)亂交疊在一起,模型沒能準(zhǔn)確區(qū)分開。2)圖6(c)和圖6(d)中,人與人形雕塑出現(xiàn)判誤問題。
6 結(jié)語
本文提出的人體骨骼關(guān)鍵點(diǎn)檢測(cè)OpenPose-slim模型,是在先前研究的OpenPose模型[1]基礎(chǔ)上進(jìn)行的改進(jìn),可對(duì)人體骨骼關(guān)鍵點(diǎn)進(jìn)行精準(zhǔn)定位,并以連線的方式將人物的動(dòng)作用計(jì)算機(jī)的視覺呈現(xiàn)出來。本文主要解決了以下問題:1)對(duì)原模型OpenPose[1]做出多處改進(jìn),在保證精度基本不變的情況下,大幅提高了時(shí)間效率,減少了參數(shù)計(jì)算量,縮小了模型規(guī)模,進(jìn)一步滿足了嚴(yán)任務(wù)高需求。2)從模型結(jié)構(gòu)角度分析使用何種模型結(jié)構(gòu)對(duì)本文模型最有利,實(shí)驗(yàn)分析得出,使用Dense連接的6個(gè)階段(4個(gè)關(guān)鍵點(diǎn)定位階段+2個(gè)肢體連接階段)最為合適,不僅精度達(dá)到了最高要求,而且耗時(shí)相對(duì)較短。3)本文從三個(gè)大階段去分析整個(gè)姿態(tài)檢測(cè)的過程,包括關(guān)鍵點(diǎn)定位階段、關(guān)鍵點(diǎn)聯(lián)系階段和肢體匹配階段,這三個(gè)階段緊緊相連、相互制約、相互影響。
與此同時(shí),該檢測(cè)系統(tǒng)也存在一些局限性,有些問題沒有給出較好的解決方案:1)不足案例表現(xiàn)出多種待解決問題,如多姿態(tài)雜亂的圖片中肢體交疊在一起的問題,人物和人形雕塑無法分辨問題,占比面積較小的人體關(guān)鍵點(diǎn)無法精準(zhǔn)定位和檢測(cè)問題等。2)階段數(shù)過多會(huì)導(dǎo)致設(shè)備內(nèi)存溢出,故在結(jié)構(gòu)分析過程中只設(shè)計(jì)到7個(gè)階段,受到設(shè)備硬件要求,只能暫時(shí)對(duì)3~7個(gè)階段進(jìn)行分析對(duì)比,找到局部性最優(yōu)解。3)隨著Slim-Block的不斷增多和層數(shù)的不斷深入,使用DenseNet連接結(jié)構(gòu)的復(fù)雜性帶來高精度和參數(shù)共享優(yōu)化的同時(shí)也會(huì)帶來參數(shù)傳遞的冗余問題。4)模型僅限于有大量?jī)?yōu)質(zhì)數(shù)據(jù)集的人體姿態(tài)檢測(cè),對(duì)無大量?jī)?yōu)質(zhì)數(shù)據(jù)集的其他類別無法完成檢測(cè)。5)模型規(guī)模還是偏大,仍然有可縮小優(yōu)化的空間。
針對(duì)以上5個(gè)問題,接下來分別可從以下方向進(jìn)行研究:1)由于本文所述的關(guān)鍵點(diǎn)匹配方案存在由多節(jié)點(diǎn)姿態(tài)形式各異導(dǎo)致的關(guān)鍵點(diǎn)與其他人關(guān)鍵點(diǎn)之間出現(xiàn)錯(cuò)配問題時(shí)有發(fā)生,可以從關(guān)鍵點(diǎn)匹配階段對(duì)模型進(jìn)一步優(yōu)化。2)可使用更優(yōu)的GPUs計(jì)算資源進(jìn)行實(shí)驗(yàn),找到該模型的最優(yōu)結(jié)構(gòu)。3)Veit等[20]提出新的可行的Adaptive-Inference領(lǐng)域,對(duì)于不同的應(yīng)用,通過合適的自適應(yīng)推理算法獲得最合適的模型。4)可在GAN研究領(lǐng)域和半監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)[21]研究領(lǐng)域做到高質(zhì)量數(shù)據(jù)增強(qiáng)效果,給姿態(tài)研究領(lǐng)域乃至深度學(xué)習(xí)領(lǐng)域的數(shù)據(jù)問題做出根本性貢獻(xiàn)。5)在保持精度和耗時(shí)基本不變的前提條件下或在滿足基本要求的范圍內(nèi),將模型慢慢做小,以適用于更底層的超低內(nèi)存容量,應(yīng)用在高需求的芯片硬件設(shè)備應(yīng)用場(chǎng)景,比如自動(dòng)監(jiān)控等基礎(chǔ)設(shè)施中。
參考文獻(xiàn) (References)
[1]CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields [EB/OL]. [2018-12-30]. https://arxiv.org/pdf/1812.08008.pdf.
[2]FANG H, XIE S, TAI Y W, et al. RMPE: regional multi-person pose estimation [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2353-2362.
[3]HE K, GKIOXARI G, DOLLR P, et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[4]WU J, ZHENG H, ZHAO B, et al. AI challenger: a large-scale dataset for going deeper in image understanding [EB/OL]. [2018-12-30]. https://arxiv.org/pdf/1711.06475.pdf.
[5]KE L, QI H, CHANG M C, et al. Multi-scale supervised network for human pose estimation [C]// Proceedings of the 2018 IEEE International Conference on Image Processing. Piscataway: IEEE, 2018: 564-568.
[6]NEWELL A, YANG K, DENG J. Stacked hourglass networks for human pose estimation [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9912. Cham: Springer, 2016: 483-499.
[7]CHEN Y, SHEN C, WEI X, et al. Adversarial PoseNet: a structure-aware convolutional network for human pose estimation [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1212-1230.
[8]RAJCHL M , LEE M C H, OKTAY O , et al. DeepCut: object segmentation from bounding box annotations using convolutional neural networks [J]. IEEE Transactions on Medical Imaging, 2017, 36(2): 674-683.
[9]INSAFUTDINOV E, PISHCHULIN L, ANDRES B, et al. DeeperCut: a deeper, stronger, and faster multi-person pose estimation model [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9910. Cham: Springer, 2016: 34-50.
[10]HENDERSON P, FERRARI V. End-to-end training of object class detectors for mean average precision[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNCS 10115. Cham: Springer, 2016: 198-213.
[11]INSAFUTDINOV E, ANDRILUKA M, PISHCHULIN L, et al. ArtTrack: articulated multi-person tracking in the wild [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1293-1301.
[12]ZHU X, JIANG Y, LUO Z. Multi-person pose estimation for posetrack with enhanced part affinity fields [EB/OL]. [2018-12-30]. https://posetrack.net/workshops/iccv2017/pdfs/ML_Lab.pdf. // Proceedings of the 2017 IEEE International Conference on Computer Vision PoseTrack Workshop. Cham: Springer, 2017,1-4.
[13]HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2261-2269.
[14]黃奕暉,馮前進(jìn).基于三維全卷積DenseNet的腦膠質(zhì)瘤MRI分割[J].南方醫(yī)科大學(xué)學(xué)報(bào),2018,38(6):661-668.(HUANG Y H, FENG Q J. Segmentation of brain tumor on magnetic resonance images using 3D full-convolutional densely connected convolutional networks [J]. Journal of Southern Medical University, 2018, 38(6): 661-668.)
[15]HOSANG J, BENENSON R, SCHIELE B. Learning non-maximum suppression [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6469-6477.
[16]李默涵,王宏志,李建中,等.一種基于二分圖最優(yōu)匹配的重復(fù)記錄檢測(cè)算法[J].計(jì)算機(jī)研究與發(fā)展,2009,46(S2):339-345.(LI M H, WANG H Z, LI J Z, et al. Duplicate record detection method based on optimal bipartite graph matching [J]. Journal of Computer Research and Development, 2009, 46(S2): 339-345.)
[17]WANG Z, FENG Z, ZHANG P. An iterative Hungarian algorithm based coordinated spectrum sensing strategy [J]. IEEE Communications Letters, 2011, 15(1): 49-51.
[18]PAPANDREOU G, ZHU T, KANAZAWA N, et al. Towards accurate multi-person pose estimation in the wild [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 3711-3719.
[19]黃龍,楊媛,王慶軍,等.結(jié)合全卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)場(chǎng)景分割[J].中國(guó)圖象圖形學(xué)報(bào),2019,24(1):64-72.(HUANG L, YANG Y, WANG Q J, et al. Indoor scene segmentation based on fully convolutional neural networks [J]. Journal of Image and Graphics, 2019, 24(1): 64-72.)
[20]VEIT A, BELONGIE S. Convolutional networks with adaptive inference graphs [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11205. Cham: Springer, 2018: 3-18.
[21]徐毅瓊,葛臨東,王波,等.基于非監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的自動(dòng)調(diào)制識(shí)別研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(1):79-81,95.(XU Y Q, GE L D, WANG B, et al. On automatic modulation recognition based on unsupervised learning neural networks and its implementation [J]. Computer Applications and Software, 2011, 28(1): 79-81, 95.)
This work is partially supported by the National Natural Science Foundation of China (61572381), the Fund from Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System (Wuhan University of Science and Technology) (znxx2018QN06).
WANG Jianbing, born in 1998. His research interests include computer vision, adaptive reasoning.
LI Jun, born in 1978, Ph. D., associate professor. His research interests include intelligent computing, machine learning.
收稿日期:2019-06-06;修回日期:2019-07-30;錄用日期:2019-07-31?;痦?xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61572381);武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目(znxx2018QN06) 。
作者簡(jiǎn)介:汪檢兵(1998—),男,江西九江人,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺、自適應(yīng)推理; 李?。?978—),男,湖北黃石人,副教授,博士,主要研究方向:智能計(jì)算、機(jī)器學(xué)習(xí)。
文章編號(hào):1001-9081(2019)12-3503-07DOI:10.11772/j.issn.1001-9081.2019050954