国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于堆疊沙漏網(wǎng)絡(luò)的量體特征點(diǎn)定位

2020-10-15 01:50王偉燦李文生
關(guān)鍵詞:沙漏損失定位

鄒 昆,王偉燦,董 帥,李文生

(1. 電子科技大學(xué)中山學(xué)院計(jì)算機(jī)學(xué)院 廣東 中山 528402;2. 電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 611731)

人體參數(shù)測量是服裝定制、虛擬試衣、人體建模等應(yīng)用中的一個(gè)重要環(huán)節(jié),而基于正交圖像的非接觸式人體參數(shù)測量方法由于其簡便易行、適合在網(wǎng)絡(luò)環(huán)境下應(yīng)用等優(yōu)點(diǎn)得到了廣泛關(guān)注。此類方法以人體的正、側(cè)面圖像作為輸入,利用圖像處理算法定位量體特征點(diǎn)并結(jié)合輔助信息(如身高)計(jì)算二維量體數(shù)據(jù),最后通過圍度擬合獲得人體圍度數(shù)據(jù)[1],其精度在很大程度上依賴于特征點(diǎn)定位的準(zhǔn)確性。近年來,國內(nèi)外學(xué)者對量體特征點(diǎn)定位算法做了許多研究,大致可分為兩類:基于圖像分割的特征點(diǎn)定位和基于統(tǒng)計(jì)學(xué)習(xí)模型的特征點(diǎn)定位。

基于圖像分割的特征點(diǎn)定位算法通常先提取整體或局部人體輪廓,然后利用人體形態(tài)先驗(yàn)知識(shí)進(jìn)行特征點(diǎn)定位。文獻(xiàn)[2]在圖像差分并二值化后利用標(biāo)準(zhǔn)人體形態(tài)特征進(jìn)行特征點(diǎn)定位,但對人體形態(tài)的標(biāo)準(zhǔn)程度要求較高,無法適用于所有體形的人體。文獻(xiàn)[3]利用顏色信息和Canny 算子檢測人體輪廓,然后利用Freeman 8 連通鏈碼,通過考慮輪廓上相鄰點(diǎn)的方向變化來確定特征點(diǎn),但當(dāng)前特征點(diǎn)的檢測與上一特征點(diǎn)有依賴關(guān)系,易造成檢測的不穩(wěn)定。文獻(xiàn)[4]使用閾值分割和邊緣檢測算法提取人體完整輪廓線,然后利用Harris 角點(diǎn)檢測算法進(jìn)行特征點(diǎn)定位,適應(yīng)了多變的人體形態(tài),但由于圖像上角點(diǎn)過多需手工選取所需特征點(diǎn)。文獻(xiàn)[5]通過在色調(diào)通道進(jìn)行閾值分割來提取人體區(qū)域,并利用形態(tài)學(xué)方法得到單像素寬的人體輪廓,進(jìn)而將輪廓?jiǎng)澐譃椴煌姆侄?,將各分段視為一維信號(hào),利用其極小、極大值點(diǎn)來定位特征點(diǎn)。上述算法都要求背景單一且人體著裝與背景有顯著差異,雖然文獻(xiàn)[5]也嘗試在固定的真實(shí)背景下進(jìn)行圖像采集,利用高斯混合模型對背景進(jìn)行建模,但效果并不理想。文獻(xiàn)[6]在進(jìn)行人臉檢測后根據(jù)先驗(yàn)知識(shí)確定特征點(diǎn)所在區(qū)域,然后利用帶形狀約束的非閉合Snake 模型在提取局部輪廓線的同時(shí)定位特征點(diǎn),減少了圖像背景和人體著裝帶來的干擾,但該算法對初始輪廓的設(shè)置有一定依賴性,且在部分復(fù)雜背景環(huán)境和著裝情況下仍然會(huì)出現(xiàn)較大誤差。

基于統(tǒng)計(jì)學(xué)習(xí)模型的特征點(diǎn)提取算法適用于對柔性體特征點(diǎn)(如人臉特征點(diǎn))的定位,常用的模型有主動(dòng)形狀模型[7](active shape model, ASM)和主動(dòng)表現(xiàn)模型[8](active appearance model, AAM)等。近年來,已開始有學(xué)者將這些模型應(yīng)用到人體特征點(diǎn)定位中。文獻(xiàn)[9]利用改進(jìn)的ASM 模型對人體特征點(diǎn)進(jìn)行搜索,提高了特征點(diǎn)定位的精度,但其研究是在實(shí)驗(yàn)室環(huán)境下獲取的圖像上進(jìn)行,圖像背景單一,干擾較少。此類算法利用的統(tǒng)計(jì)模型都存在其自身的缺陷,ASM 只利用了形狀信息,AAM 加入了紋理信息對其進(jìn)行改進(jìn),但兩種模型都對光照和姿態(tài)的變化比較敏感,且在初始值不理想的情況下,都容易陷入局部極值從而使定位精度下降。

以上兩類特征點(diǎn)定位算法的精度都依賴于特征工程的構(gòu)建,而在數(shù)據(jù)量充足的情況下,相對于手動(dòng)構(gòu)建特征工程,深度學(xué)習(xí)可以提取到更好的特征表達(dá)。在計(jì)算機(jī)視覺領(lǐng)域中,基于深度學(xué)習(xí)的目標(biāo)檢測、圖像分類等的準(zhǔn)確率較傳統(tǒng)方法有大幅提升,但深度學(xué)習(xí)在基于正交圖像的人體參數(shù)測量中的應(yīng)用則十分少見。文獻(xiàn)[10]提出了一種基于深度學(xué)習(xí)的復(fù)雜背景和多姿態(tài)情況下的人體參數(shù)測量方法,利用deeplabv3 對人體進(jìn)行語義分割,得到人體輪廓,然后利用openpose 提取關(guān)鍵點(diǎn),用于對輪廓進(jìn)行分割,通過局部輪廓匹配找到數(shù)據(jù)庫中的適配人體模型,將模型的尺寸作為結(jié)果返回。該方法需要大規(guī)模的人體模型數(shù)據(jù)庫支持,而其提取的關(guān)鍵點(diǎn)也并非量體特征點(diǎn)。由于姿態(tài)識(shí)別中的人體關(guān)節(jié)點(diǎn)定位[11-13]以及人臉分析中的人臉關(guān)鍵點(diǎn)定位[14-16]與量體特征點(diǎn)定位有許多相似之處,因此本文將用于人體關(guān)節(jié)點(diǎn)定位的深度神經(jīng)網(wǎng)絡(luò)模型引入量體特征點(diǎn)定位中,并對其進(jìn)行改進(jìn),旨在解決傳統(tǒng)算法難以在復(fù)雜背景和任意著裝情況下準(zhǔn)確定位特征點(diǎn)的問題,從而能夠滿足遠(yuǎn)程服裝定制等應(yīng)用對高精度人體參數(shù)測量的要求。

本文采用文獻(xiàn)[12]提出的用于人體關(guān)節(jié)點(diǎn)定位的堆疊沙漏網(wǎng)絡(luò)(stacked hourglass networks, SHN)作為實(shí)驗(yàn)的基礎(chǔ)網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用殘差模塊作為基礎(chǔ)模塊,利用其構(gòu)成可以提取不同尺度特征的沙漏網(wǎng)絡(luò),此外為了更好地捕獲特征點(diǎn)間的空間關(guān)系,對多個(gè)沙漏網(wǎng)絡(luò)進(jìn)行了堆疊。在復(fù)雜背景和任意著裝情況下,SHN 定位的特征點(diǎn)基本分布在人工標(biāo)記附近,但距離高精度人體參數(shù)測量應(yīng)用的要求還有一定差距。所以本文在SHN 基礎(chǔ)上利用反卷積層替代初始模型的輸出層并修改了原始目標(biāo)函數(shù),構(gòu)建了反卷積堆疊沙漏網(wǎng)絡(luò)(deconvolutional stacked hourglass networks, Deconv-SHN)。修改后的網(wǎng)絡(luò)在僅增加少量計(jì)算的情況下提高了特征點(diǎn)定位的精度,基本能夠滿足服裝定制等應(yīng)用對人體參數(shù)測量的要求。

1 堆疊沙漏網(wǎng)絡(luò)

在人體關(guān)鍵點(diǎn)檢測中,堆疊沙漏網(wǎng)絡(luò)[12]在定位精度上取得了優(yōu)異的成績而且經(jīng)常被應(yīng)用到其他檢測模型中作為提取特征的基礎(chǔ)網(wǎng)絡(luò)。

1.1 殘差模塊

堆疊沙漏網(wǎng)絡(luò)的基礎(chǔ)模塊為殘差模塊,該模塊可在提取高層特征的同時(shí)保留低層的信息,其結(jié)構(gòu)如圖1 所示。

圖1 殘差模塊結(jié)構(gòu)

該模塊首先通過n 個(gè)1×1 的卷積核將特征降至n 維,然后利用n 個(gè)3×3 卷積核進(jìn)行特征提取,最后利用m 個(gè)1×1 卷積核將特征升至m 維(其中n

1.2 沙漏網(wǎng)絡(luò)

沙漏網(wǎng)絡(luò)是堆疊沙漏網(wǎng)絡(luò)的主要組成部件,其結(jié)構(gòu)如圖2 所示。圖中淺綠色模塊為圖1 所示的殘差模塊,模塊中第1 行數(shù)值表示輸入模塊的通道數(shù),C_IN 表示輸入沙漏網(wǎng)絡(luò)的通道數(shù),第2 行數(shù)值表示通過模塊后輸出的通道數(shù);紅色模塊為下采樣層;灰色模塊為上采樣層;虛線框框出的位置用來更改網(wǎng)絡(luò)的階數(shù),如果將框中的內(nèi)容替換成一個(gè)一階的沙漏子網(wǎng)絡(luò),則完成了二階沙漏網(wǎng)絡(luò)的構(gòu)建,依次類推可以構(gòu)建更高階的沙漏網(wǎng)絡(luò)。

圖2 沙漏網(wǎng)絡(luò)結(jié)構(gòu)

1.3 堆疊沙漏網(wǎng)絡(luò)

堆疊沙漏網(wǎng)絡(luò)則是將沙漏網(wǎng)絡(luò)進(jìn)行串行的堆疊。為了解決由于網(wǎng)絡(luò)加深導(dǎo)致的底層參數(shù)難以訓(xùn)練更新的問題,堆疊沙漏網(wǎng)絡(luò)采用了中繼監(jiān)督策略對底層損失進(jìn)行監(jiān)督訓(xùn)練。圖3 展示了包含兩個(gè)沙漏子網(wǎng)絡(luò)的二級(jí)堆疊沙漏網(wǎng)絡(luò)。

圖3 二級(jí)堆疊沙漏網(wǎng)絡(luò)結(jié)構(gòu)圖

2 數(shù)據(jù)集構(gòu)建

雖然目前存在許多公開的深度學(xué)習(xí)人體數(shù)據(jù)集,但這些數(shù)據(jù)集中人體姿態(tài)各異,不適用于測量人體參數(shù)信息??紤]到數(shù)據(jù)集對實(shí)驗(yàn)結(jié)果的重要性,本文自建了人體測量數(shù)據(jù)集,并在此數(shù)據(jù)集上進(jìn)行后續(xù)的實(shí)驗(yàn)。

本文對采集數(shù)據(jù)時(shí)的拍攝條件和人體站姿提出如下要求:盡可能在自然背景和任意著裝情況下進(jìn)行拍攝;拍攝設(shè)備位于被拍攝者正前方3~5 m 且拍攝方向與地面垂直;拍攝人體正面圖像時(shí)人體基本站姿為:昂首挺胸、掌心向前、雙臂張開、雙腳腳后跟并攏、前腳掌分開一定角度(也可以接受自然站立下雙腳腳后跟未并攏的情況);拍攝人體側(cè)面圖像時(shí)人體站姿為:成立正姿勢,手臂自然下垂貼于身體兩側(cè),站姿可參考圖4。

圖4 人體站姿示意圖

對每位采集對象拍攝了1~3 幅正面圖像以及1 幅側(cè)面圖像,其中拍攝多幅正面圖像時(shí),手臂張開的幅度有一定差異。共采集了6 700 幅正面圖像及3 300 幅側(cè)面圖像。

在對數(shù)據(jù)集進(jìn)行標(biāo)注時(shí)參考了國標(biāo)GB/T 16160-2017《服裝用人體測量的尺寸定義與方法》[17]中規(guī)定的人體特征點(diǎn),詳細(xì)標(biāo)注點(diǎn)名稱及位置如圖4所示。由10 名標(biāo)注人員對每幅圖像進(jìn)行標(biāo)注,取平均值作為最終標(biāo)注結(jié)果。

3 反卷積堆疊沙漏網(wǎng)絡(luò)

本文通過利用自建數(shù)據(jù)集中的5 700 幅圖像及文獻(xiàn)[12]的參數(shù)對SHN 重新訓(xùn)練,然后用1 000幅圖像對其定位效果進(jìn)行評(píng)估發(fā)現(xiàn),該模型具有較好的普適性,在復(fù)雜背景和任意著裝情況下仍能得到較為精確的定位結(jié)果,然而其精度距離服裝定制等應(yīng)用對人體參數(shù)測量的要求還有一定差距。本文還發(fā)現(xiàn)SHN 中的堆疊次數(shù)在3 級(jí)及以上時(shí)算法的準(zhǔn)確率基本沒有提升,所以為了減少網(wǎng)絡(luò)過擬合的可能性,本文中的實(shí)驗(yàn)均在二級(jí)堆疊沙漏網(wǎng)絡(luò)上進(jìn)行。

對模型的誤差來源分析發(fā)現(xiàn),在SHN 訓(xùn)練過程中,要將高分辨率圖像上的特征點(diǎn)位置縮小到低分辨率(64×64)的網(wǎng)絡(luò)輸出特征圖上,而該變換過程的不可逆性導(dǎo)致無法將網(wǎng)絡(luò)輸出預(yù)測值準(zhǔn)確地還原到高分辨率圖像上,從而導(dǎo)致精度丟失。雖然直接提升模型輸入圖像的分辨率可以增大輸出分辨率,從而減小對真實(shí)標(biāo)記的縮放倍數(shù),但會(huì)導(dǎo)致計(jì)算量過大,因此本文構(gòu)建了Deconv-SHN 模型。

圖5 反卷積堆疊沙漏網(wǎng)絡(luò)結(jié)構(gòu)

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

構(gòu)建的Deconv-SHN 模型結(jié)構(gòu)如圖5 所示,其中虛線框中的為新增模塊,因?yàn)檩斎胄畔⒌亩嗌贈(zèng)Q定了能夠還原多少信息,所以增加反卷積的層數(shù)需要由網(wǎng)絡(luò)輸入大小來定,當(dāng)網(wǎng)絡(luò)輸入為256×256 時(shí),對應(yīng)增加的反卷積層數(shù)為2。

從圖3 和圖5 可見,Deconv-SHN 的結(jié)構(gòu)與SHN基本保持一致,而加入的反卷積層可有效減少對真實(shí)標(biāo)記的縮放。

3.2 目標(biāo)函數(shù)優(yōu)化

3.2.1 基于Smooth L1 的目標(biāo)函數(shù)優(yōu)化

SHN 采用了在回歸問題中常用的均方誤差損失(也被稱為L2 損失)作為損失函數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,計(jì)算公式為:

式中, yi表示網(wǎng)絡(luò)的預(yù)測值; y?i表示對應(yīng)的目標(biāo)值;n 為樣本數(shù)目。

L2 損失的平方操作使模型在噪點(diǎn)處產(chǎn)生較大的損失,這相當(dāng)于給噪點(diǎn)賦予了較大的權(quán)重,當(dāng)模型向減小噪點(diǎn)處損失的方向進(jìn)行優(yōu)化時(shí)會(huì)使模型的整體性能變差,所以本文利用Smooth L1 損失[18]優(yōu)化原損失函數(shù),減小網(wǎng)絡(luò)對噪聲點(diǎn)的敏感度,讓網(wǎng)絡(luò)具有更好的泛化能力,Smooth L1 損失函數(shù)為:

3.2.2 基于局部響應(yīng)的目標(biāo)函數(shù)優(yōu)化

在人體參數(shù)測量數(shù)據(jù)集的圖像中目標(biāo)人物只占整幅圖像的一部分,如圖6 所示,而預(yù)測的關(guān)鍵點(diǎn)應(yīng)分布在此局部區(qū)域內(nèi),基于此考慮加入相應(yīng)的損失可一定程度削弱圖像背景區(qū)域的干擾,并幫助網(wǎng)絡(luò)訓(xùn)練。因此,本節(jié)基于由人體邊界上的特征點(diǎn)確定的外接矩形框(圖6 中的紅框),設(shè)計(jì)了基于人體邊界框信息的局部響應(yīng)損失函數(shù)。

考慮到有特征點(diǎn)不存在(不可見)的情況,該損失函數(shù)由兩部分構(gòu)成:一部分為預(yù)測的特征點(diǎn)分布在人體邊界框中的數(shù)目與要預(yù)測的特征點(diǎn)數(shù)目之間的差值帶來的損失;另一部分為出現(xiàn)在人體邊界框之外的特征點(diǎn)數(shù)目帶來的損失。加上之前堆疊沙漏網(wǎng)絡(luò)中關(guān)于點(diǎn)位置預(yù)測的Smooth L1 損失,最后網(wǎng)絡(luò)的目標(biāo)函數(shù)由這3 部分損失以加權(quán)求和的方式構(gòu)成:

式中,Lsmooth_L1為特征點(diǎn)位置損失;npred_in為在人體邊界框內(nèi)預(yù)測到的特征點(diǎn)數(shù)目;ntrue_in為在人體邊界框內(nèi)真實(shí)存在的特征點(diǎn)數(shù)目;npred_out為預(yù)測在邊界框外的特征點(diǎn)數(shù)目;因?yàn)楦鞑糠謸p失不在同一個(gè)數(shù)量級(jí)上,所以加入了權(quán)重系數(shù)λinbox和λoutbox用于調(diào)節(jié)各部分損失在目標(biāo)函數(shù)中所占的比例。

圖6 人體邊界框示意圖

3.3 模型及訓(xùn)練參數(shù)

網(wǎng)絡(luò)的輸入為256×256 的3 通道彩色圖像,沙漏網(wǎng)絡(luò)的堆疊次數(shù)為2,訓(xùn)練時(shí)batch_size設(shè)置為20,網(wǎng)絡(luò)優(yōu)化器選用RMSprop[19],學(xué)習(xí)率的初始值為2.5×10?4,訓(xùn)練過程中步數(shù)每增加50 000步學(xué)習(xí)率下降到原來的10%。為了減少網(wǎng)絡(luò)過擬合的可能性,在將訓(xùn)練圖像輸入到網(wǎng)絡(luò)模型之前采取了隨機(jī)裁剪、隨機(jī)修改亮度和對比度等數(shù)據(jù)增強(qiáng)方法,同時(shí)在模型中加入了批歸一化[20]操作。

在后續(xù)實(shí)驗(yàn)中,如無特殊說明,目標(biāo)函數(shù)中的參數(shù)λ和參數(shù)δ分別設(shè)置為0.5 和2,參數(shù)λinbox和λoutbox分別設(shè)置為100 和50。

4 實(shí)驗(yàn)結(jié)果與分析

本文以提取人體正面圖像中的量體特征點(diǎn)為例進(jìn)行對比實(shí)驗(yàn)。

4.1 特征點(diǎn)定位

文獻(xiàn)[6]算法在傳統(tǒng)算法中特征點(diǎn)定位精度較高,且在一定程度上弱化了對拍攝背景的要求,因此選擇該算法作為傳統(tǒng)算法的代表與基于深度學(xué)習(xí)的算法進(jìn)行對比,而在深度學(xué)習(xí)算法方面則選擇了SHN 以及本文提出的對SHN 的3 種優(yōu)化方法進(jìn)行實(shí)驗(yàn)對比。實(shí)驗(yàn)中4 種深度學(xué)習(xí)算法均采用5 700 幅圖像作為訓(xùn)練集,訓(xùn)練時(shí)采用3.3 節(jié)中超參數(shù)的設(shè)置,然后在同樣的1 000 幅圖像的測試集上對文獻(xiàn)[6]算法和4 種深度學(xué)習(xí)算法進(jìn)行評(píng)估,測試集和訓(xùn)練集中不存在相同人員。

考慮到數(shù)據(jù)集中圖像分辨率存在差異以及人體在圖像中所占比例不一等原因,計(jì)算定位特征點(diǎn)與人工標(biāo)記特征點(diǎn)的歸一化距離能更客觀地反應(yīng)定位精度。參考了文獻(xiàn)[12]中的方法,利用頭部在圖像中高度的2/3 對誤差進(jìn)行歸一化處理,歸一化距離為:

式中,Dimg為定位的特征點(diǎn)與人工標(biāo)記特征點(diǎn)在圖像中的像素距離;Hhead為圖像中的頭部高度。一般情況下,一個(gè)成年人頭高的2/3 在20 cm 左右,這樣歸一化距離在0.1 以下的特征點(diǎn)定位誤差在2 cm以內(nèi),而服裝定制對大部分人體參數(shù)的精度要求即是在2 cm 以內(nèi),由此可將0.1 作為可接受的歸一化誤差閾值。

圖7 為5 種算法在不同歸一化距離內(nèi)的特征點(diǎn)檢出率曲線圖,由于特征點(diǎn)較多,只選取了部分特征點(diǎn)進(jìn)行展示,其中Deconv 表示僅做了結(jié)構(gòu)優(yōu)化的網(wǎng)絡(luò),Deconv-S-L1 表示在Deconv 基礎(chǔ)上加了基于Smooth L1 的目標(biāo)函數(shù)優(yōu)化后的網(wǎng)絡(luò),Deconv-BBox 表示基于局部響應(yīng)的目標(biāo)函數(shù)優(yōu)化后的網(wǎng)絡(luò)。而表1 則給出了3 種優(yōu)化方法及SHN 在歸一化距離小于0.1 內(nèi)的各特征點(diǎn)的檢出率(后面簡稱為0.1-檢出率)。

從圖7 和表1 可以看到,在特征點(diǎn)定位精度方面,基于深度學(xué)習(xí)的特征點(diǎn)定位算法比文獻(xiàn)[6]算法表現(xiàn)出極大優(yōu)勢,所以將深度學(xué)習(xí)應(yīng)用到量體特征點(diǎn)定位中是可行的。此外也可看出,網(wǎng)絡(luò)結(jié)構(gòu)的修改使得檢測效果得到大幅度提升,可見模型精度與輸出特征圖的分辨率有很大關(guān)系,而反卷積在只增加相對較少計(jì)算量的情況下便可獲得較大分辨率的特征圖,所以用反卷積修改網(wǎng)絡(luò)存在其優(yōu)越性。從Deconv-S-L1 的檢測結(jié)果來看,雖然網(wǎng)絡(luò)在一些特征點(diǎn)定位的精度上沒有得到較大的提升但是也沒有產(chǎn)生消極的影響,而且在理論上該損失函數(shù)可以減小過擬合的風(fēng)險(xiǎn),所以利用該方法修改目標(biāo)函數(shù)是可取的。從Deconv-BBox 的檢測結(jié)果來看,利用該方法修改目標(biāo)函數(shù)后定位效果整體上取得了一定的提升,而且在訓(xùn)練過程中發(fā)現(xiàn),Deconv-BBox 收斂到該效果所需要的迭代次數(shù)要比其他網(wǎng)絡(luò)模型少許多,所以利用該方法修改目標(biāo)函數(shù)是可取的。

圖8 給出了人工標(biāo)記(紅色十字)、SHN(黃色十字)以及Deconv-BBox(綠色十字)在光線較暗、背景較為復(fù)雜、前后背景差異不明顯、光線較亮且光照不均勻的情況下的定位效果,從對比結(jié)果可見,優(yōu)化后的網(wǎng)絡(luò)模型在對絕大多數(shù)特征點(diǎn)的檢測中更加接近人工標(biāo)記的位置。

圖7 特征點(diǎn)檢出率

表1 歸一化距離小于0.1 的特征點(diǎn)檢出率%

圖8 特征點(diǎn)定位效果對比

圖像的訓(xùn)練標(biāo)簽是由人工標(biāo)記得到的,雖然遵循了國標(biāo)[17]中的量體特征點(diǎn)定義,但不同人員做的標(biāo)記還是會(huì)有一定差異,一些衣著也會(huì)影響標(biāo)記人員對部分特征點(diǎn)的把握(如左右胸點(diǎn)(腋下點(diǎn)))。所以為了觀察人工標(biāo)記的誤差并給網(wǎng)絡(luò)模型的定位效果一個(gè)對比標(biāo)準(zhǔn),進(jìn)行了以下實(shí)驗(yàn):選取30 個(gè)具有標(biāo)記經(jīng)驗(yàn)的人對1 000 幅圖像進(jìn)行特征點(diǎn)標(biāo)記,然后將30 份標(biāo)記結(jié)果的平均值作為1 000 張圖像的真實(shí)標(biāo)記值,最后在此基礎(chǔ)上分別計(jì)算人工標(biāo)記的0.1-檢出率均值以及之前實(shí)驗(yàn)中表現(xiàn)最好的Deconv-BBox 模型的0.1-檢出率,實(shí)驗(yàn)結(jié)果如表2所示。

表2 人工標(biāo)記與網(wǎng)絡(luò)提取0.1-檢出率對比%

從表2 可以看到,人工標(biāo)記的效果和網(wǎng)絡(luò)預(yù)測的效果在誤差的分布上較為類似,對較容易定位的頭頂點(diǎn)、左右頸點(diǎn)和腳底點(diǎn)都取得了較為理想的結(jié)果,其次是肩點(diǎn),而受衣著影響較大的胸點(diǎn)、肘點(diǎn)和腕點(diǎn)的定位效果相對較差。對較容易定位的點(diǎn),人工標(biāo)記的結(jié)果相對較好,但對于較難定位的點(diǎn),網(wǎng)絡(luò)模型的預(yù)測結(jié)果反而較好。分析其原因可能是,對于較容易定位的特征點(diǎn),人工標(biāo)記時(shí)產(chǎn)生誤差的可能性較小,而且其工作是在原始圖像上進(jìn)行的,分辨率較高,而模型在預(yù)測過程中存在對圖像的壓縮,丟失了部分圖像的細(xì)節(jié)信息;對于較難分辨的特征點(diǎn)的位置,不同的標(biāo)記人員會(huì)得到不同的估計(jì)值,即使同一個(gè)標(biāo)記人員也可能在長期的標(biāo)記工作中,對特征點(diǎn)位置的估計(jì)也會(huì)產(chǎn)生變化,而網(wǎng)絡(luò)模型在學(xué)習(xí)的過程中,為了獲得更小的誤差可能會(huì)偏向于學(xué)習(xí)一種平均水平,從而使得網(wǎng)絡(luò)模型在較難分辨的特征點(diǎn)上取得了更好的定位效果。從平均水平來看,網(wǎng)絡(luò)模型對特征點(diǎn)的定位效果略優(yōu)于人工標(biāo)記的結(jié)果。

從表2 中人工標(biāo)記一列可以看出,人工標(biāo)記也會(huì)產(chǎn)生一定的誤差,而在實(shí)驗(yàn)中是以人工標(biāo)記作為真實(shí)值對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,所以標(biāo)記的質(zhì)量也會(huì)對網(wǎng)絡(luò)模型預(yù)測的準(zhǔn)確率產(chǎn)生影響,如果能夠獲得更合規(guī)的圖像并在上面進(jìn)行更精確的人工標(biāo)記,網(wǎng)絡(luò)模型的準(zhǔn)確率應(yīng)該還能夠得到進(jìn)一步的提升。

此外,本文也對Deconv-BBox 網(wǎng)絡(luò)損失函數(shù)的參數(shù)設(shè)置進(jìn)行了兩組實(shí)驗(yàn)。實(shí)驗(yàn)1 將參數(shù)λinbox和λoutbox分別固定為100 和50,調(diào)整Smooth L1 損失中的 λ和δ進(jìn)行訓(xùn)練,得到10 個(gè)特征點(diǎn)的0.1-檢出率均值(稱其為平均檢出率),如表3 所示??梢钥吹剑?λ的取值對結(jié)果影響不明顯,多數(shù)情況下取0.5 更優(yōu),而δ取1、2、3 時(shí)差異不大,但其值顯著增大后結(jié)果有較明顯的變差。實(shí)驗(yàn)2 將λ和δ分別固定為0.5 和2,然后調(diào)節(jié)參數(shù)λinbox和λoutbox,這兩個(gè)參數(shù)主要用于調(diào)節(jié)Smooth L1 損失與局部響應(yīng)損失之間的權(quán)重,而局部響應(yīng)損失的兩部分的數(shù)量級(jí)相同,故先進(jìn)行了不同數(shù)量級(jí)的測試,將二者值同設(shè)為1、100 和1 000,得到的平均檢出率分別為72.63%、73.92%和73.05%,比設(shè)為100 時(shí)明顯更優(yōu)。進(jìn)而在該數(shù)量級(jí)下,進(jìn)一步調(diào)節(jié)這兩個(gè)參數(shù)的值,得到結(jié)果如表4 所示。當(dāng)λinbox和λoutbox有一個(gè)設(shè)為0 時(shí),網(wǎng)絡(luò)表現(xiàn)有較明顯的變差,說明這兩部分對結(jié)果都是有貢獻(xiàn)的,二者均非0 時(shí)結(jié)果差異不算大,當(dāng)分別取100 和50 時(shí)效果最佳。

表3 損失函數(shù)參數(shù)設(shè)置實(shí)驗(yàn)1 結(jié)果

表4 損失函數(shù)參數(shù)設(shè)置實(shí)驗(yàn)2 結(jié)果

4.2 實(shí)際尺寸預(yù)測

為了將深度學(xué)習(xí)方法應(yīng)用到人體參數(shù)測量中,需要將圖像中的像素距離轉(zhuǎn)換為實(shí)際距離。本文沿用文獻(xiàn)[6]中的距離換算方法,利用頭頂點(diǎn)和腳底點(diǎn)之間的距離和被拍攝者的身高信息確定像素距離與真實(shí)尺寸的比例尺S:

式中, Ph表示提取的頭頂點(diǎn); Pf表示腳底點(diǎn);H 表示被測者實(shí)際身高。

為了單純考量特征點(diǎn)定位帶來的誤差,本文僅對肩寬、臂長、胸寬等正面尺寸信息進(jìn)行估計(jì),同時(shí)選擇利用人工標(biāo)記特征點(diǎn)計(jì)算得到的尺寸信息作為標(biāo)準(zhǔn)結(jié)果。由于文獻(xiàn)[6]算法無法準(zhǔn)確定位特征點(diǎn),實(shí)際尺寸估計(jì)不再與其進(jìn)行對比實(shí)驗(yàn)。表5 給出了在150 幅有真實(shí)身高數(shù)據(jù)的人體正面圖像上,對SHN 和Deconv-SHN 模型進(jìn)行真實(shí)尺寸預(yù)測的誤差對比,可以看到,無論是平均誤差、最大誤差還是誤差小于2 cm 占比,Deconv-SHN 模型均明顯優(yōu)于SHN 模型,且誤差小于2 cm 的樣本占比最低也在80%左右。由于這部分測試集中人體都穿著較緊身的衣服,所以對胸點(diǎn)的定位準(zhǔn)確了許多,胸寬的預(yù)測也較精準(zhǔn);對于預(yù)測精度表現(xiàn)相對較低的左臂長,可通過選取左右臂長的均值作為最終預(yù)測結(jié)果來一定程度提高預(yù)測精度。

表5 真實(shí)尺寸預(yù)測誤差

5 結(jié) 束 語

為了解決在復(fù)雜背景和任意著裝情況下傳統(tǒng)量體特征點(diǎn)定位算法精度不夠的問題,本文提出將SHN 應(yīng)用到量體特征點(diǎn)定位中,并針對其不足,構(gòu)建了Deconv-SHN。實(shí)驗(yàn)結(jié)果表明:在復(fù)雜背景和任意著裝情況下,深度學(xué)習(xí)方法的定位效果明顯優(yōu)于傳統(tǒng)算法;且與SHN 相比,Deconv-SHN 定位精度更高,預(yù)測的實(shí)際尺寸誤差能夠基本滿足服裝定制等應(yīng)用對人體參數(shù)測量的要求。

本文的研究工作得到了廣東省中山市社會(huì)公益重大專項(xiàng)(2017B1014)的資助,在此表示感謝!

猜你喜歡
沙漏損失定位
測量時(shí)間
洪澇造成孟加拉損失25.4萬噸大米
銀行業(yè)對外開放再定位
兩敗俱傷
少兒智能定位鞋服成新寵
有趣的沙漏
難與易
DIY裝飾沙漏
DIY裝飾沙漏
損失
若尔盖县| 新巴尔虎左旗| 青铜峡市| 松原市| 海宁市| 通许县| 陵川县| 新兴县| 通州市| 乐亭县| 偃师市| 贡觉县| 康保县| 桐庐县| 淮滨县| 特克斯县| 阳信县| 新乡县| 新蔡县| 海阳市| 阜新市| 定州市| 保亭| 兴文县| 临高县| 沂南县| 青冈县| 榆中县| 涟源市| 西乌珠穆沁旗| 青州市| 富川| 中牟县| 水富县| 乡宁县| 乳山市| 会东县| 维西| 都安| 马公市| 辛集市|