劉 豪, 吳紅蘭, 孫有朝, 喻 賽
(南京航空航天大學(xué) 民航學(xué)院,江蘇 南京 211106)
人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)中一個(gè)基本且具有挑戰(zhàn)性的問(wèn)題,目的是定位人體關(guān)鍵點(diǎn),例如手部、膝蓋等部位。它的應(yīng)用較為廣泛,包括人體動(dòng)作識(shí)別和人機(jī)交互等。近些年來(lái),人們通過(guò)使用深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)取得了顯著的改進(jìn)。然而這些先進(jìn)的方法通常使用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),具有大量的參數(shù)和浮點(diǎn)數(shù)運(yùn)算次數(shù),這就導(dǎo)致模型推理十分耗時(shí),對(duì)設(shè)備內(nèi)存的要求很高。筆者研究了在計(jì)算資源有限的情況下,開發(fā)兼具準(zhǔn)確率和輕量化的人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型。
隨著CNN的發(fā)展,DeepPose[1]將深度神經(jīng)網(wǎng)絡(luò)引入人體姿態(tài)估計(jì)算法,將人體姿態(tài)估計(jì)看作是一個(gè)人體關(guān)鍵點(diǎn)的回歸問(wèn)題。之后,為了建立人體關(guān)鍵點(diǎn)的空間信息,學(xué)者使用CNN預(yù)測(cè)關(guān)鍵點(diǎn)熱圖成為主流。
SimpleBaseline[2]的網(wǎng)絡(luò)模型結(jié)構(gòu)為設(shè)計(jì)一個(gè)簡(jiǎn)單的人體姿態(tài)估計(jì)網(wǎng)絡(luò)提供了方法?;谠赗esNet主干網(wǎng)絡(luò)上添加的幾個(gè)反卷積層,顯示了一個(gè)簡(jiǎn)單方法的良好性能。這可能是從深度和低分辨率特征圖估計(jì)熱圖的最簡(jiǎn)單方法。在大型模型中,例如語(yǔ)義分割、人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)等位置敏感問(wèn)題中,HRNet[3]顯示出了強(qiáng)大的能力。為了提取多分辨率的特征信息,HRNet網(wǎng)絡(luò)模型通過(guò)并行多尺度分辨率特征圖,實(shí)現(xiàn)多個(gè)特征圖的特征信息融合。由于網(wǎng)絡(luò)模型采取保持高分辨率的策略,使得網(wǎng)絡(luò)模型具有較高的參數(shù)量和復(fù)雜度。Lite-HRNet[4]將ShuffleNet[5]中的高效組卷積模塊應(yīng)用于HRNet中,大幅度減少了參數(shù)量,同時(shí)表現(xiàn)出良好的性能。組卷積[6]是將輸入層的不同特征圖進(jìn)行分組,然后采用不同的卷積核對(duì)各個(gè)組進(jìn)行卷積,降低卷積結(jié)構(gòu)的計(jì)算量。DwiseConv(Depthwise Convolution)[7]作為一種比較特殊的組卷積,相對(duì)于傳統(tǒng)卷積的優(yōu)點(diǎn)在計(jì)算量上有巨大幅度的降低。將通道注意力整合到卷積塊中引起了廣泛的關(guān)注,在性能提升方面表現(xiàn)出了巨大的潛力,其中一個(gè)代表性的方法是SENet[8],它學(xué)習(xí)每個(gè)卷積塊的通道注意力,為各種深度CNN體系結(jié)構(gòu)帶來(lái)了明顯的性能增益。
在上述模型設(shè)計(jì)的啟發(fā)下,提出了一個(gè)輕量級(jí)姿態(tài)估計(jì)網(wǎng)絡(luò)DU-HRNet(Diverse Unit HRNet)。首先,分析了HRNet模型的基本組成,在HRNet中的高分辨率設(shè)計(jì)模式的基礎(chǔ)上,設(shè)計(jì)了DU-HRNet模型結(jié)構(gòu)的不同階段??紤]到CNN的深度、通道數(shù)目對(duì)模型的參數(shù)量和計(jì)算量的影響。相較于HRNet,重新設(shè)置了DU-HRNet模型在不同階段的多分辨率模塊數(shù)目。接著在不同階段多分辨率模塊的分支中使用一系列預(yù)定義的卷積單元,該卷積單元使用DwiseConv深度卷積代替常規(guī)的3×3卷積來(lái)減少模型參數(shù)量和計(jì)算量。為了探索并增強(qiáng)來(lái)自不同感受野大小層的多尺度信息,鼓勵(lì)卷積層間信息更加多樣化,DU-HRNet允許并行分支中的每一分支擁有不同類型的高效卷積單元。為了改善網(wǎng)絡(luò)模型的非線性,以及實(shí)現(xiàn)對(duì)特征權(quán)重的再分配,使用通道注意單元提升網(wǎng)絡(luò)性能。在MS COCO[9]關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)集和MPII[10]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文的模型在復(fù)雜度較低的條件下具有很強(qiáng)的競(jìng)爭(zhēng)力。
自上而下的方法將關(guān)鍵點(diǎn)的檢測(cè)過(guò)程解釋為兩個(gè)階段,即首先從圖像中定位并裁剪所有人形框,然后解決裁剪后的姿態(tài)估計(jì)問(wèn)題。卷積姿態(tài)機(jī)(Convolutional Pose Machine,CPM)[11]使用順序化的卷積架構(gòu)來(lái)表達(dá)空間信息和紋理信息,網(wǎng)絡(luò)分為多個(gè)階段,每一個(gè)階段都有監(jiān)督訓(xùn)練的部分。Hourglass[12]屬于一種沙漏型的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)能夠使同一個(gè)神經(jīng)元感知更多的上下文信息。CPN(Cascaded Pyramid Network)[13]結(jié)構(gòu)利用Mask-RCNN[14]的部分結(jié)構(gòu)檢測(cè)人體,之后實(shí)現(xiàn)關(guān)鍵點(diǎn)檢測(cè)。HRNet通過(guò)在整個(gè)過(guò)程中反復(fù)進(jìn)行信息交換來(lái)實(shí)現(xiàn)多尺度融合。
自下而上的方法直接預(yù)測(cè)所有關(guān)鍵點(diǎn),然后將關(guān)鍵點(diǎn)組合為人的姿態(tài)。OpenPose[15]網(wǎng)絡(luò)框架分為兩支路,一路使用熱力圖進(jìn)行關(guān)節(jié)點(diǎn)預(yù)測(cè),同時(shí)另一路用于關(guān)節(jié)點(diǎn)分組,兩支路進(jìn)行聯(lián)合學(xué)習(xí)和預(yù)測(cè)。Newell等[16]使用堆疊沙漏網(wǎng)絡(luò)進(jìn)行熱圖關(guān)鍵點(diǎn)預(yù)測(cè)和分組。分組方法是通過(guò)關(guān)聯(lián)嵌入完成的。HigherHRNet[17]使用了HRNet網(wǎng)絡(luò)主干結(jié)構(gòu),在末端使用高分辨率特征圖,提高了準(zhǔn)確率和模型的運(yùn)算復(fù)雜度。
在輕量級(jí)網(wǎng)絡(luò)中,可分離卷積和組卷積的使用越來(lái)越廣泛。MobileNetV2[18]為了獲得更多特征先使用了1×1的卷積核進(jìn)行升維,然后用3×3的空間卷積核,最后再用1×1卷積核進(jìn)行降維。Osokin[19]在OpenPose[20]的基礎(chǔ)上通過(guò)使用部分MobileNetV2結(jié)構(gòu)修改主干網(wǎng)絡(luò)進(jìn)行輕量化改進(jìn),使得整體網(wǎng)絡(luò)能在Intel的CPU上達(dá)到實(shí)時(shí)的運(yùn)行。
注意力模塊通過(guò)卷積特征的學(xué)習(xí)實(shí)現(xiàn)對(duì)特征通道信息重新分配權(quán)重。SENet[8]模塊主要通過(guò)全局平均池化方法來(lái)建模特征通道之間關(guān)系。CBAM[21]在此基礎(chǔ)上考慮了通道關(guān)系和空間關(guān)系,并單獨(dú)生成注意力圖。ECANet[22]基于SENet提出了一種不降維度的局部跨信道交互策略。CoordAttention[23]網(wǎng)絡(luò)在捕捉特征圖通道之間關(guān)系的前提下,有效地將空間方向的信息保存在注意力圖中。Liu等[24]提出了極化自注意力機(jī)制,用于解決像素級(jí)的回歸任務(wù)。
首先,回顧原始的HRNet的網(wǎng)絡(luò)架構(gòu);然后,基于HRNet網(wǎng)絡(luò)模型為基礎(chǔ)架構(gòu),通過(guò)分析把擁有不同卷積內(nèi)核高效卷積單元應(yīng)用于HRNet不同階段。在網(wǎng)絡(luò)不同階段的相同分辨率的并行分支中使用5×5和3×3卷積內(nèi)核的單元,增強(qiáng)來(lái)自不同感受野大小層的多尺度信息,在保證網(wǎng)絡(luò)模型性能的同時(shí),達(dá)到輕量型網(wǎng)絡(luò)模型的目的。
如圖1所示,HRNet在第1階段從一個(gè)高分辨率的主干開始,逐漸添加一個(gè)高到低分辨率的分支作為新階段。多分辨率分支是并行連接的,主體由4個(gè)階段組成,在每個(gè)階段,跨分辨率的信息都會(huì)反復(fù)交換。HRNet網(wǎng)絡(luò)模型主要包含4個(gè)階段,階段1特征圖分辨率為輸入原圖1/4,該階段包含4個(gè)殘差連接卷積單元,其中每個(gè)單元由Bottleneck[3]組成。然后經(jīng)過(guò)一個(gè)3×3的卷積,將特征圖的通道數(shù)降低至C。階段2、階段3和階段4分別包含1、4和3個(gè)多分辨率卷積模塊。該多分辨率卷積模塊的分支特征圖分辨率從高到底分別為輸入圖的1/4、1/8、1/16、1/32,其中4種分辨率分支通道數(shù)目分別為C、2C、4C和8C。每個(gè)分辨率分支具有4個(gè)Basicblock[3]殘差單元,該單元由2個(gè)3×3殘差連接卷積組成。在文本中,設(shè)置模型通道數(shù)目C為32。
圖1 原始的HRNet網(wǎng)絡(luò)模型
保持圖片高分辨率方法對(duì)于解決位置敏感的視覺(jué)問(wèn)題很重要。DU-HRNet模型繼承了HRNet模型原有的架構(gòu)。為了探索并增強(qiáng)來(lái)自不同感受野大小層的多尺度信息,鼓勵(lì)卷積層間信息更加多樣化,允許模型并行分支中的每一分支擁有不同類型的高效卷積單元。
主干網(wǎng)絡(luò)的深度對(duì)模型的精度是有重要影響的。重新設(shè)計(jì)了HRNet的階段2~階段4,得到每個(gè)階段的不同卷積單元流,如圖2所示。圖2中的實(shí)線框展示了DU-HRNet模型在階段2和階段3多分辨率分支中的信息交流方式。與HRNet不同之處,模型在每一階段中設(shè)置2個(gè)多分辨率模塊。其中每個(gè)多分辨率模塊的分支設(shè)計(jì)成一系列預(yù)定義的卷積單元,保持每一分支分辨率不變的情況下,調(diào)整卷積核尺寸,使得在最終融合的特征中充分利用有效信息。為了平衡網(wǎng)絡(luò)的深度和準(zhǔn)確率,設(shè)計(jì)了分支中的卷積單元個(gè)數(shù)為6。圖2中的虛線框內(nèi)詳細(xì)地展示了各個(gè)預(yù)定義的卷積單元的信息流向。
圖2 DU-HRNet的分支結(jié)構(gòu)
同一階段每一分支不同類型的卷積單元詳細(xì)結(jié)構(gòu),如圖3所示。包含了以下幾層單元:EBConv(Efficient Block)結(jié)構(gòu),首先第1層為卷積核1×1的卷積層,中間層為一個(gè)卷積核3×3或5×5 DwiseConv卷積,圖3(c)和圖3(d)在此基礎(chǔ)上使用一個(gè)即插即用的ECANet通道注意單元,最后使用了一個(gè)卷積核1×1的卷積層和一個(gè)殘差連接,將輸入直接加到輸出上。
圖3 多樣化高效卷積單元
2.2.1 準(zhǔn)確率與實(shí)時(shí)性的平衡
在網(wǎng)絡(luò)模型中使用大的深度內(nèi)核進(jìn)行輕量化改進(jìn)是有效的。大多數(shù)網(wǎng)絡(luò)架構(gòu)通常會(huì)多次重復(fù)3×3卷積核大小的卷積結(jié)構(gòu)。人們普遍認(rèn)為,大的內(nèi)核卷積在計(jì)算資源上是昂貴的,因?yàn)榫矸e內(nèi)核大小與模型的參數(shù)量以及運(yùn)行速度有著密切的聯(lián)系。然而通過(guò)應(yīng)用深度可分離卷積,可以很好地克服這個(gè)缺點(diǎn),假設(shè)內(nèi)核都經(jīng)過(guò)了合理的優(yōu)化。因此為了獲得更多特征,多樣的卷積單元包含較多的5×5深度卷積內(nèi)核。在形式上,給定一個(gè)輸入形狀(H,W,C)和輸出形狀(H,W,O),深度可分離卷積5×5和3×3內(nèi)核的乘法相加的計(jì)算代價(jià)分別為
C3×3=H×W×C×(9+O)
C5×5=H×W×C×(25+O)
2C3×3>C5×5ifO>7
(1)
由式(1)可知,當(dāng)輸出的深度O>7時(shí),2個(gè)3×3卷積核比1個(gè)5×5卷積核消耗更多的計(jì)算資源。為了兼顧模型的準(zhǔn)確率和實(shí)時(shí)性,經(jīng)過(guò)實(shí)驗(yàn),平衡了模型中3×3卷積核和5×5卷積核的數(shù)量。
2.2.2 ECANet的嵌入
由于SENet單元成功應(yīng)用于ResNet[25]中,本文使用了一個(gè)通道注意單元ECANet來(lái)改善網(wǎng)絡(luò)模型的非線性。SENet在通道Excitation(Fex)[8]的操作為給定一個(gè)輸入Z(Z∈R1×1×C)經(jīng)過(guò)Excitation變換參數(shù)矩陣W得到輸出S(S∈R1×1×C),即由式(2)可得:
S=Fex(Z,W)=σ(w2δ(w1z))
(2)
圖4 ECANet跨通道交互圖
(3)
式中:k為卷積核大小;C為輸入的通道數(shù)。k由式(4)計(jì)算得出。
(4)
式中:C為輸入的通道數(shù);|·|odd為最近的奇數(shù)。在DwiseConv卷積層之后,1×1卷積層之前插入一個(gè)通道注意單元ECANet,如圖3(c)和圖3(d)所示。該單元可以有效地改善原始卷積層的整體非線性,完成跨通道之間的信息交互,使輸出特征和輸入特征更加不同。
MS COCO數(shù)據(jù)集有超過(guò)20萬(wàn)張圖像和25萬(wàn)個(gè)人體實(shí)例,有17個(gè)關(guān)鍵點(diǎn)。模型是在train2017數(shù)據(jù)集上訓(xùn)練的,在val2017(包括5千張圖像)和test-dev2017(包括2萬(wàn)張圖像)上驗(yàn)證的。
3.1.1 評(píng)估標(biāo)準(zhǔn)
在MS COCO上采用關(guān)鍵點(diǎn)相似度(Object Keypoint Similarity,OKS)的平均精度均值(mAP)度量,OKS定義了不同人體姿態(tài)之間的相似性。使用mAP定義在OKS=0.50,0.55,…,0.95時(shí),10個(gè)閾值之間所有預(yù)測(cè)關(guān)鍵點(diǎn)平均精度。具體實(shí)現(xiàn)方法為
(5)
式中:j為每個(gè)關(guān)節(jié)點(diǎn)的類型;dj為檢測(cè)到的關(guān)鍵點(diǎn)與其對(duì)應(yīng)的標(biāo)注值之間的歐氏距離;vj為標(biāo)注值的可見性標(biāo)簽;s為結(jié)果的比例。
3.1.2 實(shí)驗(yàn)配置
實(shí)驗(yàn)配置:Ubuntu 20.04系統(tǒng),2塊GeForce RTX 3090顯卡,PyTorch 1.8.2深度學(xué)習(xí)框架。訓(xùn)練時(shí)將COCO數(shù)據(jù)集中的圖像固定到384像素×288像素或者256像素×192像素尺寸大小。實(shí)驗(yàn)采用Adam作為網(wǎng)絡(luò)訓(xùn)練時(shí)的優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1e-3;在第180輪時(shí)學(xué)習(xí)率衰減到1e-4;在第200輪時(shí),學(xué)習(xí)率衰減到1e-5;模型總共訓(xùn)練230輪。每個(gè)GPU的批量為64。在訓(xùn)練過(guò)程中使用圖像旋轉(zhuǎn)和水平翻轉(zhuǎn)方法增強(qiáng)數(shù)據(jù)。
3.1.3 實(shí)驗(yàn)結(jié)果分析
在COCO val2017進(jìn)行驗(yàn)證,得出該方法和其他先進(jìn)的方法的結(jié)果如表1所示(AR 為檢測(cè)結(jié)果的平均召回率)。預(yù)訓(xùn)練為是否使用在ImageNet上訓(xùn)練權(quán)重,參數(shù)量和GFLOPs是針對(duì)姿態(tài)估計(jì)網(wǎng)絡(luò)計(jì)算的。實(shí)驗(yàn)結(jié)果表明,DU-HRNet模型在較少的參數(shù)量和運(yùn)算復(fù)雜度的條件下仍然取得了較好的性能。該模型,從256像素×192像素尺寸開始訓(xùn)練,達(dá)到71.1 mAP分?jǐn)?shù),超過(guò)其他輕量級(jí)方法。同樣地,以下模型的對(duì)比采取了統(tǒng)一的輸入尺寸。
表1 模型在COCO val2017上的性能比較
在復(fù)雜的網(wǎng)絡(luò)模型上,與SimpleBaseline模型進(jìn)行對(duì)比,當(dāng)網(wǎng)絡(luò)模型參數(shù)量為22.3%,GFLOPs為29.2%的條件下,mAP分?jǐn)?shù)上提高了0.7精度分?jǐn)?shù);與HRNetV1模型相比,該網(wǎng)絡(luò)模型參數(shù)量下降了73.3%,GFLOPs下降了62.5%,在mAP分?jǐn)?shù)僅降低了2.3精度分?jǐn)?shù)。相較于CPN,該網(wǎng)絡(luò)模型在預(yù)測(cè)的平均準(zhǔn)確率提升了2.5精度分?jǐn)?shù)。在輕量化的網(wǎng)絡(luò)模型上,與網(wǎng)絡(luò)模型Lite-HRNet-18和Lite-HRNet-30相比,該網(wǎng)絡(luò)模型雖然參數(shù)量分別提升了6.5×106和5.8×106,但是在模型性能方面分別提升了9.7%和5.8%,同時(shí)所有的性能指標(biāo)均優(yōu)于Lite-HRNet-18模型和Lite-HRNet-30模型。相較于MobileNetV2、ShuffleNetV2、DY-ReLU,該網(wǎng)絡(luò)模型預(yù)測(cè)的平均準(zhǔn)確率分別提升了10.1%、18.7%、4.4%。
在COCO test-dev2017上的性能比較如表2所示。參數(shù)量和GFLOPs是針對(duì)姿態(tài)估計(jì)網(wǎng)絡(luò)計(jì)算得出的。與輕量網(wǎng)絡(luò)模型比較,結(jié)果表明本文的DU-HRNet達(dá)到71.8%mAP分?jǐn)?shù),超過(guò)其他輕量級(jí)方法;與復(fù)雜網(wǎng)絡(luò)模型比較,DU-HRNet模型性能優(yōu)于Mask-RCNN、G-RMI。盡管和一些大型網(wǎng)絡(luò)存在性能差距,但是DU-HRNet的GFLOPs和參數(shù)要低很多。
表2 在COCO test-dev2017上的性能比較
MPII人體姿勢(shì)數(shù)據(jù)集擁有大約2萬(wàn)5千張來(lái)自真實(shí)世界各地姿態(tài)標(biāo)注圖像。
3.2.1 評(píng)估標(biāo)準(zhǔn)
對(duì)于MPII數(shù)據(jù)集,使用標(biāo)準(zhǔn)度量PCKH@0.5(正確關(guān)鍵點(diǎn)的頭部歸一化概率分?jǐn)?shù))來(lái)評(píng)估網(wǎng)絡(luò)性能。
3.2.2 訓(xùn)練細(xì)節(jié)
實(shí)驗(yàn)配置:Ubuntu 20.04系統(tǒng),2塊GeForce RTX 3090顯卡,PyTorch 1.8.2深度學(xué)習(xí)框架。在MPII數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),統(tǒng)一將裁剪后的圖像縮放到固定的256像素×256像素大小,采用Adam作為網(wǎng)絡(luò)訓(xùn)練時(shí)的優(yōu)化器,設(shè)置初始學(xué)習(xí)率為1e-3;在第170輪時(shí)學(xué)習(xí)率衰減至1e-4;在第220輪時(shí),學(xué)習(xí)率衰減至1e-5;當(dāng)網(wǎng)絡(luò)訓(xùn)練230輪時(shí)候,學(xué)習(xí)率衰減為0。每個(gè)GPU的最小批量為48。在訓(xùn)練過(guò)程使用圖像旋轉(zhuǎn)和水平翻轉(zhuǎn)方法增強(qiáng)數(shù)據(jù)。
3.2.3 實(shí)驗(yàn)分析
在MPII驗(yàn)證集上進(jìn)行驗(yàn)證,模型的輸入尺寸為256像素×256像素。報(bào)告了該網(wǎng)絡(luò)和其他輕量級(jí)網(wǎng)絡(luò)的結(jié)果,如表3所示。該模型比MobileNetV2、MobileNetV3、ShuffleNetV2更低的參數(shù)量下,實(shí)現(xiàn)了更好的準(zhǔn)確性。與網(wǎng)絡(luò)模型Lite-HRNet-18和Lite-HRNet-30網(wǎng)絡(luò)模型相比,該網(wǎng)絡(luò)模型雖然分別高出了6.5×106與5.8×106參數(shù)量,但是在模型性能方面分別提升了2.1和1.2精度分?jǐn)?shù)。其中,所有的輕量型網(wǎng)絡(luò)中取得了最高的性能。
表3 在MPII驗(yàn)證集上的性能比較
為了探究4種多樣化卷積單元的數(shù)量對(duì)參數(shù)量和精度有何影響,本文分別使用了不同數(shù)量和不同類型的卷積單元進(jìn)行實(shí)驗(yàn)驗(yàn)證??紤]到模型的參數(shù)量和復(fù)雜度,在保證網(wǎng)絡(luò)深度相同的條件下,實(shí)驗(yàn)中模型被另外設(shè)計(jì)為4種典型類別,分別為DU-HRNet-T、DU-HRNet-S、DU-HRNet-B、DU-HRNet-M。其中網(wǎng)絡(luò)階段2、階段3、階段4分支層間單元的信流向由上到下。DU-HRNet與其他4種類型具體細(xì)節(jié)比較,如表4所示。使用多樣化卷積單元和通道注意力機(jī)制提升網(wǎng)絡(luò)模型精度的策略是有效的。DU-HRNet比DU-HRNet-S多使用了2層5×5卷積內(nèi)核,準(zhǔn)確率提升2.0分?jǐn)?shù)。DU-HRNet比DU-HRNet-B多使用了1層5×5卷積內(nèi)核,準(zhǔn)確率提升了0.9分?jǐn)?shù)。對(duì)比DU-HRNet-S和DU-HRNet-T兩種模型,在參數(shù)量相差不多的條件下,局部嵌入ECANet提升了0.4的精度分?jǐn)?shù)。對(duì)比DU-HRNet與DU-HRNet-M,模型使用ECANet,增加少量的參數(shù)量的條件下,提升0.5精度分?jǐn)?shù)。
表4 消融實(shí)驗(yàn)?zāi)P驮趘al2017上的比較,(模型輸入尺寸256像素×192像素)
從模型對(duì)單人、多人預(yù)測(cè)效果的正面、背面進(jìn)行了可視化,如圖5所示。模型表達(dá)出了良好的可視化性能。
圖5 模型的可視化效果圖
提出兼具準(zhǔn)確率和輕量化的人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型DU-HRNet。為了探索并增強(qiáng)來(lái)自不同感受野大小層的多尺度信息,鼓勵(lì)卷積層間信息更加多樣化,模型允許并行分支中的每一分支擁有不同類型的高效卷積單元。通過(guò)實(shí)驗(yàn)驗(yàn)證了文章方法的有效性。和其他的方法相比,本文的方法可以在MS COCO數(shù)據(jù)集上取得優(yōu)秀的結(jié)果,此方法能對(duì)開發(fā)輕量級(jí)模型有所幫助。后續(xù)的工作聚焦于多樣感受野的可解釋問(wèn)題,為姿態(tài)估計(jì)提供明確的證據(jù)。同時(shí),以期該方法能夠帶給輕量級(jí)人體姿態(tài)估計(jì)領(lǐng)域更多的啟發(fā)。