朱寬堂 呂曄
摘? 要: 在高分辨率網(wǎng)絡(luò)(HRNet)的基礎(chǔ)上,提出一種融合Ghost卷積的輕量型高分辨率網(wǎng)絡(luò)(GLHRNet)。首先使用Ghost卷積模塊和極化自注意力(PSA)模塊在HRNet中構(gòu)建新的殘差塊結(jié)構(gòu),新的殘差塊結(jié)構(gòu)可以在減少網(wǎng)絡(luò)模型參數(shù)量和計算量的同時,建模高分辨率圖像的長距離依賴關(guān)系。接著在新網(wǎng)絡(luò)模型中引入IBN-Net的設(shè)計思想,在新網(wǎng)絡(luò)模型的淺層同時使用批量歸一化和實例歸一化,為網(wǎng)絡(luò)模型引入外觀不變性,減小光照變化問題對模型的影響。算法在COCO人體姿態(tài)估計數(shù)據(jù)集上的實驗結(jié)果表明,與HRNet相比新網(wǎng)絡(luò)模型的參數(shù)量降低了36.1%,計算量降低了35.2%,人體姿態(tài)估計的平均準確率提高了1.4個百分點。
關(guān)鍵詞: 人體姿態(tài)估計; 高分辨率網(wǎng)絡(luò); Ghost卷積; 極化自注意力; 批量歸一化; 實例歸一化
中圖分類號:TP391.4? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)06-69-06
Lightweight human pose estimation method based on high-resolution network
Zhu Kuantang, Lv Ye
(Lenovo (Shanghai) Information Technology Co., Ltd., Shanghai 201203, China)
Abstract: Based on HRNet, a lightweight HRNet fused with Ghost convolution is proposed. Firstly, a new residual block structure is constructed in HRNet using Ghost convolution module and PSA module, which can model the long-distance dependence of high-resolution images while reducing the number of network model parameters and FLOPs. Then, the design idea of IBN-Net is introduced in the new network model, and both batch normalization and instance normalization are used in the shallow layer of the new network model, which can introduce appearance invariance for the network model and reduce the influence of lighting changes on the model. The experimental results on COCO human pose estimation dataset show that compared with HRNet, the number of parameters of the new network model is reduced by 36.1%, the FLOPs is reduced by 35.2%, and the average accuracy of human pose estimation is improved by 1.4 percentage points.
Key words: human pose estimation; high-resolution network (HRNet); Ghost convolution; polarized self-attention (PSA); batch normalization; instance normalization
0 引言
人體姿態(tài)估計是對圖片中眼睛、手肘等人體關(guān)鍵點的位置估計。其對于描述人體姿態(tài)、人體行為等至關(guān)重要,有許多的計算機視覺任務(wù)都是以人體姿態(tài)估計任務(wù)作為基礎(chǔ)的,如行為識別、行為檢測等[1]。
人體姿態(tài)估計任務(wù)擁有以下幾個困難點或挑戰(zhàn)。①尺度問題,圖片中不同人體的尺度可能不一樣。②姿態(tài)問題,圖片中不同人體的姿態(tài)會是多種多樣的。③圖片遮擋問題,圖片中人體的關(guān)鍵點可能被遮擋,一般可分成被本人的其他部位遮擋、被其他的人體遮擋、被其他物體遮擋三種。④光照問題,不同環(huán)境中的光照可能不同,這可能會改變圖像中人體的外觀。⑤實用性問題,對于實時檢測人體姿態(tài)的場景,算法對于模型的精度和大小都有一定的要求。
雖然高分辨率網(wǎng)絡(luò)的精度是比較高的,但是其參數(shù)量和計算量也是比較高的,若要將其部署在嵌入式設(shè)備上是比較困難的。為了解決此問題,本文將Ghost卷積模塊和極化自注意力模塊融合進HRNet原有的殘差塊結(jié)構(gòu)中得到新的GLneck模塊和GLblock模塊,新的殘差塊結(jié)構(gòu)能在減少網(wǎng)絡(luò)參數(shù)量和計算量的同時進一步提高網(wǎng)絡(luò)的精度。針對光照問題對人體姿態(tài)估計任務(wù)的影響,接著將IBN-Net的設(shè)計引入新的網(wǎng)絡(luò)模型中,讓網(wǎng)絡(luò)模型提取的特征具有外觀不變性,從而進一步提高模型的泛化能力。
1 相關(guān)工作
2014年,Google提出了單人姿態(tài)估計算法DeepPose[2],其第一次將卷積神經(jīng)網(wǎng)絡(luò)引入人體姿態(tài)估計任務(wù),該算法直接回歸關(guān)鍵點的數(shù)值坐標,模型雖然不能得到很好的空間泛化能力,但是相對于傳統(tǒng)算法取得了良好的效果。Tompson等[3]針對DeepPose的缺點,提出了基于熱圖(Heatmap)回歸的人體姿態(tài)方法,該方法通過高斯函數(shù),將姿態(tài)估計任務(wù)從回歸問題轉(zhuǎn)變?yōu)闄z測問題,其可以保留關(guān)鍵點坐標的空間信息,從而增加模型的空間泛化能力和算法的精度,之后大部分的人體姿態(tài)估計算法都使用基于熱圖回歸的方法。2016年,Newell等[4]提出了堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Networks, SHN),該網(wǎng)絡(luò)由多個類似沙漏的結(jié)構(gòu)堆疊而成,每個沙漏結(jié)構(gòu)將特征圖先下采樣到低分率,再上采樣恢復(fù)到高辨率,通過跨層連接將不同尺度的特征進行融合,從而提高人體姿態(tài)估計的精度。
單人姿態(tài)估計是多人姿態(tài)估計方法的基礎(chǔ),多人姿態(tài)估計有兩種實現(xiàn)方法,一種是自頂向下(top-down)的多人姿態(tài)估計方法,另一種是自底向上(bottom-up)的多人姿態(tài)估計方法。自頂向下的多人姿態(tài)估計方法是先使用行人檢測器檢測出圖片中所有行人的邊界框,然后對每個行人進行單人姿態(tài)估計。2017年,曠視科技[5]提出的級聯(lián)金字塔網(wǎng)絡(luò) (Cascaded Pyramid Networks,CPN),該算法使用GlobalNet定位簡單的關(guān)鍵點,然后使用RefineNet集合GlobalNet提取的特征定位困難的關(guān)鍵點。2018年,微軟亞洲研究院[6]提出了一個用于人體姿態(tài)估計任務(wù)的簡單基線(Simple Baseline),該算法使用類似堆疊沙漏網(wǎng)絡(luò)的結(jié)構(gòu),取消了跳躍連接,并使用反卷積操作實現(xiàn)上采樣,模型的結(jié)構(gòu)簡單明了,卻取得了當時最好的效果。2019年,微軟亞洲研究院又提出了高分辨率網(wǎng)絡(luò)HRNet[7],其是在以堆疊沙漏網(wǎng)絡(luò)為代表的一系列多分辨率融合網(wǎng)絡(luò)的進一步改進。整個HRNet模型采用并行子網(wǎng)的方式,實現(xiàn)了多個分辨率特征圖的充分融合,增強了特征圖的特征信息,但是,由于模型始終保持高分辨率特征圖,在提高預(yù)測人體關(guān)鍵點精度的同時,也增加了模型的參數(shù)量和運算復(fù)雜度[8]。
自底向上的多人姿態(tài)估計方法是先檢測出圖片中所有的行人關(guān)鍵點,然后將這些關(guān)鍵點分組,進而組裝成行人。2017年,卡梅隆大學的團隊提出了多階段的實時姿態(tài)估計算法Openpose[9],該算法同時預(yù)測部分置信圖(Part Confidence Maps)和部分關(guān)系場(Part Affinity Fields),前者預(yù)測行人的關(guān)鍵點位置,后者在關(guān)鍵點之間建立的一個向量場,最終使用二分圖最大權(quán)匹配算法來對關(guān)鍵點進行組裝。Newell等人[10]提出了依賴于聯(lián)系嵌入向量(Associative Embedding)的方法進行關(guān)鍵點分組,該算法為每一個關(guān)鍵點熱圖對應(yīng)分配一個標記熱圖(TagHeatmap),其將每個檢測與同一組中的其他檢測相關(guān)聯(lián)。
2 模型框架
人體姿態(tài)估計是位置敏感的計算機視覺任務(wù),為了使關(guān)鍵點的位置更加精準,維持高分辨率的特征圖是常用的策略,一般是先將特征圖下采樣得到強的語義信息,然后再上采樣將特征圖恢復(fù)為高分辨率的特征圖,從而得到關(guān)鍵點的位置信息,但是很多有用的信息會在下采樣和上采樣的過程中丟失。為了避免這種損失,本文以HRNet作為骨干網(wǎng)絡(luò),在此基礎(chǔ)上構(gòu)建了新的模型GLHRNet。新模型使用Ghost模塊和極化自注意力模塊構(gòu)建新的殘差塊結(jié)構(gòu),并在新的網(wǎng)絡(luò)模型中融入IBN-Net設(shè)計思想,其結(jié)構(gòu)如圖1所示。
輸入圖像首先經(jīng)過二個卷積核大小為3×3的卷積層,將其分辨率變成原圖大小的1/4、通道數(shù)變成64。接著將處理后的特征圖送入由四個Stage組成的模型結(jié)構(gòu),在每個Stage中分別使用1、2、3、4個不同分辨率和通道數(shù)的平行分支得到不同分辨率的特征圖,在中間進行不同分辨率特征的融合,從而進行不同分支之間的信息交互,得到的高分辨率特征圖能同時含有很強的語義信息和位置信息。第一個Stage由四個GLneck模塊組成,后三個Stage分別由四個GLblock模塊組成。具體實現(xiàn)的模塊有Ghost、極化自注意力、IBN-Net、GLneck和GLblock。
2.1 Ghost卷積
在卷積神經(jīng)網(wǎng)絡(luò)中,某一層輸出的特征圖中有許多是相似的,以前的想法是這些特征圖是冗余的,HAN等人[11]從另一個角度出發(fā),認為這些相似的特征圖(Ghost對)可以增強網(wǎng)絡(luò)模型的特征提取能力,不去避免產(chǎn)生相似的特征圖,而是使用簡單的線性操作獲得更多的相似特征圖。
假設(shè)普通卷積的輸入數(shù)據(jù)是[X∈Rh×w×c],c代表輸入數(shù)據(jù)的通道數(shù),h和w分別是輸入數(shù)據(jù)的高和寬,輸出數(shù)據(jù)是[Y∈Rh'×w'×n],n是輸出數(shù)據(jù)的通道數(shù),h′和 w′代表輸出數(shù)據(jù)的高和寬,卷積濾波器是[f∈Rc×k×k×n],k×k 代表卷積濾波器f的卷積核大小,此時每秒浮點運算量是[n×h'×w'×c×k×k],普通卷積的參數(shù)量是[n×c×k×k],由于濾波器和通道數(shù)非常大,因此 FLOPs通常高達數(shù)十萬[12]。
為了得到與普通卷積相同大小的輸出,Ghost卷積將普通的卷積操作分成了兩個部分,其結(jié)構(gòu)如圖2所示。第一部分是通過普通卷積得到通道數(shù)為m的本征特征圖(Intrinsic feature maps),m的值是小于等于n的,第二部分是使用線性操作將本征特征圖變成s個Ghost特征圖,最后將兩部分得到的本征特征圖和Ghost特征圖拼接在一起作為Ghost卷積的輸出結(jié)果。
為了比較Ghost卷積和普通卷積的性能,在以上基礎(chǔ)上,假設(shè)線性變換的卷積核大小為d。普通卷積和Ghost卷積的參數(shù)量對比如公式⑴所示,普通卷積和Ghost卷積的計算量對比如公式⑵所示,從公式中可知,Ghost卷積的參數(shù)量和計算量都只有普通卷積的1/s。
[rc=n×c×k×kns×c×k×k+(s-1)×ns×d×d≈s] ⑴
[rs=n×h'×w'×c×k×kns×h'×w'×c×k×k+(s-1)×ns×h'×w'×d×d≈s] ⑵
2.2 極化自注意力
針對人體姿態(tài)估計任務(wù),極化自注意力(Polarized Self-Attention,PSA)[13]是結(jié)合空間注意力和通道注意力的雙重注意力機制,在空間維度和通道維度上,都沒有進行很大程度的壓縮,圖像的信息損失比較小,其結(jié)構(gòu)如圖3所示。極化自注意力由兩個分支組成,一個分支是通道維度的自注意力機制,另一個分支是空間維度的自注意力機制,極化自注意力機制結(jié)構(gòu)的最終結(jié)果由兩個分支的輸出融合而成。在通道分支中,輸入特征X經(jīng)過兩個1×1的卷積分別得到特征Q和特征V,特征Q的通道維度被壓縮為1,而特征V的通道維度只被壓縮為原來的一半,接著使用softmax對Q的信息進行增強,讓兩個特征進行矩陣乘法,然后經(jīng)過1×1卷積、LN和Sigmoid函數(shù)將特征通道恢復(fù)到原本的維度,并歸一化到0到1之間,得到通道分支的特征權(quán)重,最后將特征權(quán)重乘以原特征圖得到通道分支的輸出。在空間分支中,與通道分支的操作類似,輸入特征X同樣經(jīng)過1×1的卷積得到特征Q和特征V,不同的點在于,特征Q經(jīng)過全局池化操作將特征圖壓縮為1×1大小,兩個特征進行矩陣乘法之后經(jīng)過reshape和sigmoid函數(shù)得到空間分支的特征權(quán)重,最后將同樣特征權(quán)重乘以原特征圖得到通道分支的輸出。整個極化自注意力模塊的輸出是從兩個分支輸出的融合得到的。
相比于其他使用全連接層和卷積層得到注意力權(quán)重的注意力機制,極化自注意力機制使用自注意力結(jié)構(gòu)得到注意力權(quán)重,可以充分利用自注意力結(jié)構(gòu)的建模能力,且其他注意力機制一般只使用softmax函數(shù)和sigmoid函數(shù),極化自注意力機制在兩個分支都同時使用了softmax函數(shù)和sigmoid函數(shù),從而可以擬合細粒度回歸結(jié)果的輸出分布。整個結(jié)構(gòu)只增加了少量的計算量,可以建模高分辨率圖像的長距離依賴關(guān)系。
2.3 IBN-Net
數(shù)據(jù)集通常是不同時間、不同環(huán)境中采集的,因現(xiàn)實場景復(fù)雜導(dǎo)致數(shù)據(jù)集中不同圖像的光照可能不一樣。在人體姿態(tài)估計任務(wù)中,光照變化可能導(dǎo)致人體的外觀發(fā)生變化。2018年,Pan等人[14]提出了IBN-Net網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)可以很容易的融入到ResNet等主流網(wǎng)絡(luò)結(jié)構(gòu)中,其可以在不增加模型計算量的同時,保存內(nèi)容相關(guān)信息,為網(wǎng)絡(luò)引入外觀不變性,提高模型的泛化能力。批量歸一化(BatchNormalization,BN)[15]是將每個Batch的數(shù)據(jù)歸一化,其可以讓模型保存更多的內(nèi)容相關(guān)信息,并學習到有用的特征信息,但是會影響網(wǎng)絡(luò)在外觀上的轉(zhuǎn)換,一般用于判別模型。實例歸一化(InstanceNormalization,IN)[16]是將每張圖像歸一化,其可以讓模型學習到具有外觀不變性的特征信息,但是會損失圖像中有用的特征信息,一般用于生成模型。IBN-Net研究發(fā)現(xiàn)如果同時將批量歸一化和實例歸一化應(yīng)用在網(wǎng)絡(luò)模型的淺層,只將批量歸一化應(yīng)用在網(wǎng)絡(luò)的深層,可以讓模型同時具有兩種歸一化操作的優(yōu)點,避免其缺點。
2.4 GLneck模塊和GLblock模塊
本文將HRNet中Bottleneck模塊和Basicblock模塊重新改造為GLneck模塊和GLblock模塊,GLblock模塊和GLneck模塊的結(jié)構(gòu)分別如圖4(a)和圖4(b)所示。首先使用Ghost卷積替換原本殘差塊結(jié)構(gòu)中的普通3×3卷積,然后將PSA模塊設(shè)置在第一個Ghost卷積后面,從而在減少模型參數(shù)量和計算復(fù)雜度的基礎(chǔ)上,建模高分辨率圖像的長距離依賴關(guān)系,增加模型的精度。為了降低光照變換對模型的影響,在模型中引入IBN-Net的設(shè)計思想,將批量歸一化和實例歸一化同時作用在模型的淺層能讓模型提取的特征具有外觀不變性且保存內(nèi)容相關(guān)信息,所以本文只在Stage1的四個GLneck模塊的第一個1×1卷積后面同時使用批量歸一化和實例歸一化,具體使用方法將把GLneck中第一個1×1卷積輸出的特征按通道平均分成了兩部分,分別進行批量歸一化和實例歸一化。
3 實驗和結(jié)果分析
本文算法由Pytorch框架實現(xiàn)的,其實驗是在64位Windows11系統(tǒng)、英偉達3070Ti的GPU上進行的。在COCO人體姿態(tài)估計數(shù)據(jù)集上進行算法的訓(xùn)練和測試。訓(xùn)練時,將數(shù)據(jù)集中的人體目標裁剪出來,將其縮放成固定的256×192大小,使用Adam優(yōu)化器訓(xùn)練210個epoch,模型的初始學習率是1e-3,在第170個epoch和第200個epoch降低為之前的0.1倍,模型結(jié)構(gòu)的基本通道數(shù)設(shè)置為32。測試使用COCO數(shù)據(jù)集的驗證集,訓(xùn)練和測試的批量大小都設(shè)置為32。
3.1 數(shù)據(jù)集
COCO(Common Objects in COntext)人體姿態(tài)估計數(shù)據(jù)集[17]來源于微軟舉辦的姿態(tài)估計挑戰(zhàn)賽,數(shù)據(jù)集內(nèi)含有超過200000張樣本圖片和250000個人體目標,訓(xùn)練集有118287張圖片,驗證集中有5000張圖片,測試集中有33619張圖片。完整的人體標注了17個姿態(tài)關(guān)鍵點,按順序從0到16分別是:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、表示左膝、右膝、左腳踝、右腳踝。并用mask標明關(guān)鍵點的狀態(tài),0表示沒有標注,1表示標注了但不可見,2表示標注了且可見。
3.2 評估標準
COCO數(shù)據(jù)集使用平均準確率(Average Precision,AP)作為評價標準,其是根據(jù)關(guān)鍵點相似度(Object Keypoint Similarity,OKS)計算得到的,關(guān)鍵點相似度表示兩個關(guān)鍵點之間的相似度,其如公式⑶所示。
[OKS=iexp(-d2i2s2k2i)δ(vi>0)iδ(vi>0)]? ⑶
其中,[δ(vi>0)]表示數(shù)據(jù)集中這個關(guān)鍵點i是被標注的,[di]表示預(yù)測關(guān)鍵點與標注關(guān)鍵點之間的歐式距離,[s]是目標尺度因子,[ki]是關(guān)鍵點i的歸一化因子。
在計算COCO數(shù)據(jù)集的評價指標時,若某個關(guān)鍵點的OKS大于一定的閾值,則這個關(guān)鍵點是正例。AP50表示關(guān)鍵點相似度閾值為0.5時預(yù)測關(guān)鍵點的準確率, AP75表示關(guān)鍵點相似度閾值為0.75時預(yù)測關(guān)鍵點的準確率,AP表示關(guān)鍵點相似度閾值為(0.5、0.55…0.90、0.95)時所有預(yù)測關(guān)鍵點準確率的平均值, APM表示人體尺度為中等時預(yù)測關(guān)鍵點的準確率, APL表示人體尺度為大時預(yù)測關(guān)鍵點的準確率,AR表示關(guān)鍵點相似度閾值為(0.5、0.55…0.90、0.95)時的平均召回率。
3.3 實驗仿真與結(jié)構(gòu)分析
3.3.1 與其他先進人體姿態(tài)估計算法的比較
為了驗證本文算法的有效性,選擇幾個經(jīng)典先進的人體姿態(tài)估計算法與本文算法進行比較,這些先進的人體姿態(tài)估計算法分別是Hourglass[4]、CPN[5]、CPN+ OHKM[5]、SimpleBaseLine[6]、HRNet[7]和SCANet[8],其結(jié)果如表1表所示。
如表1,在輸入圖像尺寸同為256×192情況下,本文提出的網(wǎng)絡(luò)模型的參數(shù)量只有18.2×106且計算量只有4.6GFLOPs,相比于高分辨率網(wǎng)絡(luò)HRNet,本文算法的參數(shù)量降低了36.1%,計算量降低了35.2%。本文算法的參數(shù)量和計算量降低了,而算法的平均準確率AP值進一步提升了1.4個百分點,其他設(shè)定OKS為不同閾值的AP值和平均召回率均有一定程度的提升。與Hourglass[4]、CPN[5]、CPN+OHKM[5]、SimpleBaseLine[6]和SCANet[8]網(wǎng)絡(luò)模型相比,本文網(wǎng)絡(luò)模型的平均準確率分別提高了8.9、7.2、6.4、5.4和3.5個百分點,證明了本文算法的先進性。
3.3.2 消融實驗
為了驗證本文算法加入的各個模塊的有效性,本節(jié)將只把Ghost卷積模塊融入HRNet定義為新結(jié)構(gòu)1,將同時把Ghost卷積模塊和極化自注意力機制模塊融入HRNet定義為新結(jié)構(gòu)2,在COCO數(shù)據(jù)集上進行相關(guān)消融實驗,其結(jié)果如表2所示。
從表2可知,相比于高分辨率網(wǎng)絡(luò)HRNet,新結(jié)構(gòu)1的參數(shù)量從28.5×106降低到15.8×106,平均準確率卻從74.4%降低到73.1%,雖然平均準確率降低了,但是模型的參數(shù)量也降低了,證明了Ghost卷積模塊降低模型參數(shù)量的能力。相比于新結(jié)構(gòu)1,新結(jié)構(gòu)2的參數(shù)量從15.8×106增加到18.2×106,平均準確率從71.1%增加到74.9%,證明了Ghost極化自注意力模塊可以在只增加少量模型參數(shù)量的情況下增加模型的精度。相比于結(jié)構(gòu)二,GLHRNet的平均準確率從74.9%提升到75.8%,證明了IBN-Net的設(shè)計思想可以進一步提升模型的泛化能力。
4 結(jié)束語
本文針對如何在降低高分辨人體姿態(tài)估計網(wǎng)絡(luò)模型參數(shù)量和計算復(fù)雜度的同時,提高模型精度的問題,使用Ghost卷積模塊和極化自注意力模塊重新構(gòu)建高分辨率網(wǎng)絡(luò)的殘差塊結(jié)構(gòu),并在此基礎(chǔ)上,在模型中引用IBN-Net的思想,提升模型對圖像外觀變化的適應(yīng)性,進一步提高模型的泛化能力,最后在COCO數(shù)據(jù)集中做了相關(guān)實驗,證明了本文的算法的有效性。如何在大幅降低模型參數(shù)量的情況下,進一步提高人體姿態(tài)估計模型的精度是今后研究的重點。
參考文獻(References):
[1] Zhao X, Liu Y, Fu Y. Exploring discriminative pose sub-
patterns for effective action classification. In: Proc. of the ACM Multimedia. Barcelona:ACM,2013:273?282
[2] TOSHEV A,SZEGEDY C. DeepPose:human pose
estimation via deep neural networks [C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2014:1653-1660
[3] Tompson J J, Jain A, LeCun Y, et al. Joint training of a
convolutional network and a graphical model for human pose estimation. Advances in neural information processing systems,2014,27:1799-1807
[4] Newell A, Yang K, Deng J. Stacked hourglass networks for
human pose estimation. European conference on computer vision. Springer, Cham,2016:483-499
[5] Chen Y, Wang Z, Peng Y, et al. Cascaded pyramid
network for multi-person pose estimation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7103-7112
[6] Xiao B, Wu H, Wei Y. Simple baselines for human pose
estimation and tracking. In: Proceedings of the European Conference on Computer Vision (ECCV),2018:466-481
[7] Sun K, Xiao B, Liu D, et al. Deep high-resolution
representation learning for human pose estimation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2019:5686-5696
[8] 李坤,侯慶.基于注意力機制的輕量型人體姿態(tài)估計[J].計算
機應(yīng)用,2022,42(8):2407-2414
[9] Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d
pose estimation using part affinity fields. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017: 7291-7299
[10] Newell A, Huang Z, Deng J. Associative embedding:
End-to-end learning for joint detection and grouping. Advances in Neural Information Processing Systems,2017:2277-2287
[11] HAN K,WANG Y H,TIAN Q,et al. GhostNet:more
features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2020:1577-1586
[12] 孫琪翔,何寧,張聰聰,等.基于輕量級圖卷積的人體骨架動
作識別方法[J].計算機工程,2022,48(5):306-313
[13] Liu H, Liu F, Fan X, et al. Polarized self-attention:
towards high-quality pixel-wise regression[J]. arXiv preprint arXiv:2107.00782,2021
[14] Pan X, Luo P, Shi J, et al. Two at once: Enhancing
learning and generalization capacities via ibn-net[C]//Proceedings of the European Conference on Computer Vision (ECCV),2018:464-479
[15] Ioffe S, Szegedy C. Batch normalization: Accelerating
deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR,2015:448-456
[16] Ulyanov D, Vedaldi A, Lempitsky V. Instance
normalization: The missing ingredient for fast stylization[J]. arXiv preprint arXiv:1607.08022, 2016.
[17] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft
COCOcommon objects in context[C]// Proceedings of the 2018 European Conference on Computer Vision. Cham:Springer,2014:740-755