楚雅璐,顧梅花,劉 杰,崔 琳
(西安工程大學 電子信息學院,陜西 西安 710048)
服裝圖像識別是服裝圖像分析和處理的重要基礎(chǔ)步驟[1],為后續(xù)的服裝語義分析[2]、服裝姿態(tài)估計[3]等問題研究提供了技術(shù)保障。在計算機視覺和模式識別相關(guān)領(lǐng)域中,服裝圖像分析與識別技術(shù)是最近非?;钴S的研究課題,其在服裝圖像檢索[4]、搭配推薦[5]以及行人描述[6]等領(lǐng)域都有著重要應用。然而,復雜場景下因為人體坐姿、站姿以及運動狀態(tài)的變化,存在不同程度的服裝形變問題,在一定程度上增加了服裝圖像識別的難度。
在早期服裝圖像識別研究中,采用數(shù)字圖像處理和模式識別技術(shù)提取服裝特征。對于全局特征,常用的方法有傅里葉描述子[7]、幾何不變距[8]、灰度共生矩陣(GLCM)[9]等,此類方法容易受到環(huán)境的干擾。對于局部特征,常用的方法有尺度不變特征變換(SIFT)[10]、加速魯棒特征(SURF)[11]和方向梯度直方圖(HOG)[12]等,此類方法只適合于對圖像進行匹配、檢索,對圖像理解則不太適合。近年來,出現(xiàn)了大量基于深度學習的圖像識別方法,典型算法有R-CNN[13]、YOLO系列[14-15]、GoogleNet[16]、ResNet[17]、Fast R-CNN[18]、SSD[19]、Mask R-CNN[20]、Faster R-CNN[21]等,此類方法提取的圖像特征魯棒性更強,泛化能力更好。研究者也已將深度學習方法應用于服裝圖像識別任務(wù)中,典型算法有:Fashion Net[22]、Match R-CNN[23]等,此類方法可以分階段完成服裝圖像分割、識別、檢索等任務(wù),但對服裝圖像識別沒有針對性,服裝易變形,識別準確率偏低,并沒有針對形變服裝圖像識別給出解決方案。
SSD算法因其通過提取不同尺度的特征圖進行目標識別,采用不同尺度的先驗框提升算法對不同尺度目標的識別能力而得到廣泛應用。因此本文將SSD算法應用于服裝圖像識別任務(wù)中,通過大量實驗發(fā)現(xiàn)算法對形變服裝的識別準確率偏低,在復雜場景下,服裝著裝在人體上容易發(fā)生形變,會出現(xiàn)漏檢或識別錯誤的現(xiàn)象。針對上述問題,本文提出了一種基于改進SSD的服裝圖像識別方法,首先采用空間變換網(wǎng)絡(luò)進行數(shù)據(jù)增強,接著采用可變形卷積提取更豐富的服裝特征信息,最后通過幾何信息融合網(wǎng)絡(luò)進行特征融合,旨在提升算法對形變服裝的識別精度。
改進SSD的服裝圖像識別方法網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 改進SSD的服裝圖像識別方法網(wǎng)絡(luò)結(jié)構(gòu)圖
首先輸入服裝圖像,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)對其進行特征提取,采用空間變換網(wǎng)絡(luò)對服裝圖像特征進行數(shù)據(jù)增強,通過對Conv3_x特征層進行仿射變換,得到適合于形變服裝的特征圖,以增強其空間不變性,減少數(shù)據(jù)變形的偏差;然后采用可變形卷積來改進Conv4_x特征層的標準卷積,采用偏移方法使特征抽取過程聚焦于有效信息區(qū)域,對偏移修正后的區(qū)域分配不同權(quán)重,實現(xiàn)更加準確的特征提??;最后通過幾何信息融合網(wǎng)絡(luò),將Conv3_x和Conv4_x兩個特征層進行特征融合,獲得更多的幾何細粒度特征信息,采用更多的淺層幾何特征信息進行預測,提高網(wǎng)絡(luò)對服裝圖像幾何信息的表達能力,從而提升模型對形變服裝圖像的識別準確度。
為了改善SSD對服裝圖像特征區(qū)分能力不強而造成其對形變服裝識別不敏感的問題,采用空間變換網(wǎng)絡(luò)[24]對服裝圖像特征進行數(shù)據(jù)增強,提高其數(shù)據(jù)質(zhì)量,通過仿射變換增強其空間不變性,減少數(shù)據(jù)變形的偏差。并對SSD的Conv3_x,Conv4_x,Conv5_x網(wǎng)絡(luò)層采用空間變換網(wǎng)絡(luò)進行實驗,結(jié)果表明,將空間變換網(wǎng)絡(luò)設(shè)計在Conv3_x處網(wǎng)絡(luò)識別精度最高。
空間變換網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,將服裝特征圖U輸入到空間變換網(wǎng)絡(luò),首先由定位網(wǎng)絡(luò)采用3×3的卷積操作提取特征,進而通過隱藏層預測出2×3維的仿射變換參數(shù)θ,學習仿射變換矩陣Aθ;隨后由網(wǎng)格生成器利用規(guī)則的空間網(wǎng)格G和Aθ創(chuàng)建與輸出圖像中的每個像素相對應的采樣網(wǎng)格Tθ(G),根據(jù)θ得到變換前后像素點坐標的對應關(guān)系,如式(1):
圖2 空間變換網(wǎng)絡(luò)結(jié)構(gòu)
(1)
(2)
為了改善傳統(tǒng)卷積核對形變服裝圖像描述不足的問題,在Conv4_x特征層對空間變換網(wǎng)絡(luò)增強后的服裝圖像特征采用可變形卷積替換傳統(tǒng)卷積核的方式進行優(yōu)化??勺冃尉矸e[25]在傳統(tǒng)卷積的基礎(chǔ)上增加了調(diào)整卷積核的方向向量,使卷積核的形態(tài)更貼近特征物,可根據(jù)識別目標的復雜空間結(jié)構(gòu)而改變,提高輸出特征對目標旋轉(zhuǎn)變換的敏感性。
可變形卷積操作過程如圖3所示,首先利用3×3的傳統(tǒng)卷積核提取輸入圖像的特征圖,作為可變形卷積操作的輸入,對特征圖再施加一個3×3的卷積層,獲得與輸入特征圖相同尺寸的偏差尺寸,生成通道維度為2N的原始輸出特征和偏移特征,做加權(quán)和得到可變形卷積的變形偏移量,用帶偏移的采樣來代替原來的固定位置采樣,然后通過將每個像素的相鄰相似結(jié)構(gòu)信息壓縮到固定網(wǎng)格中,生成可變形特征圖像。卷積操作后提取的服裝圖像特征信息能夠更好的表征形變服裝,對于形變服裝圖像的幾何形體有更好的適應性。
圖3 可變形卷積操作過程
為了能夠融合更多形變服裝的特征信息,在SSD模型的基礎(chǔ)上增加了幾何信息融合[26]模塊,通過將優(yōu)化后的Conv4_x深層次的語義信息與Conv3_x淺層次的語義信息相結(jié)合,使更多的淺層幾何特征信息用于預測,提高網(wǎng)絡(luò)對服裝圖像幾何信息的表達能力。
幾何信息融合模塊如圖4所示。該模塊在Conv3_x特征層后采用2×2的卷積核進行下采樣,使下采樣后的特征層與Conv4_x特征層為相同尺寸512×512,然后分別對每個特征層連接3×3的卷積核與歸一化層,最后分別對兩個特征層進行融合,作為SSD網(wǎng)絡(luò)中的一個預測通道,并與其他輸出特征進行多尺度預測輸出。
圖4 幾何信息融合模塊
實驗平臺采用PyTorch深度學習框架,操作系統(tǒng)為Ubuntu16.04,CPU為Inter Core i5-9400F,GPU為RTX2070 s。本文實驗提取DeepFashion2中的形變服裝制作成子數(shù)據(jù)集,其中訓練集圖片30 000張,測試集圖片1 000張。模型訓練迭代100次,前50次迭代batch_size為8,后50次迭代batch_size為4。
為更好地評估本文算法的性能,選擇精確率、召回率、準確率以及平均精度均值作為評價指標,用來評價模型的識別精度。精確率(Precision記為P)表示算法對服裝圖像正確識別結(jié)果占所有識別結(jié)果的比例,定義為式(3);召回率(Recall記為R)表示所有被正確識別的服裝圖像與真實服裝圖像標注的比值,定義為式(4);準確率(Accuracy記為A),是指服裝圖像識別結(jié)果正確的比例,定義為式(5);平均精度均值(Mean Average Precision,mAP)表示該模型對服裝數(shù)據(jù)集中所有類別圖像的識別準確度。將模型對所有樣本的預測和值依據(jù)置信度大小排序,并逐個繪制Precision-Recall曲線(即P-R曲線),平均精確度(Average Precision,AP)就是某一類別P-R曲線下的面積,在計算過程中對所有類別的AP取平均得到mAP,定義為式(6)。
(3)
(4)
(5)
(6)
式中:TP為正樣本識別為正;TN為負樣本識別為負;FN為正樣本識別為負;FP為負樣本識別為正;k為當前類別的序號,且k∈(1,2,…,N);N為總類別數(shù);APk是第k個類別的AP值。
采用DeepFashion2數(shù)據(jù)集中的形變服裝子數(shù)據(jù)集對SSD算法及其不同改進方法進行測試。消融實驗結(jié)果如表1所示,其中S-SSD表示SSD網(wǎng)絡(luò)進行空間變換優(yōu)化后的模型;D-SSD表示SSD網(wǎng)絡(luò)采用可變形卷積優(yōu)化后的模型;SD-SSD表示對SSD網(wǎng)絡(luò)采用空間變換網(wǎng)絡(luò)以及可變形卷積優(yōu)化的模型;本文方法表示對SD-SSD網(wǎng)絡(luò)進行淺層特征幾何信息融合后的模型,通過mAP值評價模型的識別精度。從表1可看出,各種改進方法都能顯著提升模型的識別精度,本文方法取得了最高的mAP值,比SSD原模型提高了3.63%。
表 1 消融實驗結(jié)果
采用熱力圖分析法[27]驗證不同改進方法的有效性。不同改進方法可視化生成的熱力圖如圖5所示,可以看出,由于坐姿狀態(tài)導致連衣裙發(fā)生形變,圖5(b)SSD網(wǎng)絡(luò)熱力圖中的鮮亮區(qū)域主要集中在形變連衣裙上半身;圖5(c)D-SSD網(wǎng)絡(luò)熱力圖中的鮮亮區(qū)域主要集中在連衣裙上半身以及少部分下半身;圖5(d)S-SSD網(wǎng)絡(luò)熱力圖中的鮮亮區(qū)域主要集中在連衣裙的下半身并且上半身有少部分鮮亮;圖5(e)SD-SSD網(wǎng)絡(luò)熱力圖中的鮮亮區(qū)域主要集中在連衣裙的大部分,但是鮮亮的部分較為分散;圖5(f)本文方法熱力圖中的鮮亮區(qū)域覆蓋了連衣裙,并且比較集中。采用不同改進方法都可以不同程度地增強模型對形變服裝的幾何特征提取能力,而將三種改進方法綜合而成的本文方法可以更好地表征形變服裝圖像,減少服裝形變的影響。
(a)原圖 (b)SSD (c)D-SSD
為評估本文方法對形變服裝圖像識別的有效性,在形變服裝子數(shù)據(jù)集上進行定性分析。將本文方法與SSD算法對不同程度形變服裝圖像的識別效果進行比較,結(jié)果如圖6所示。
(a)樣例1 (b)樣例2 (c)樣例3
可以看出,圖6(a)中由于坐姿,外套發(fā)生形變,SSD算法將其錯誤地識別為短袖上衣;圖6(b)中由于躺姿,連衣裙發(fā)生部分形變,SSD算法將連衣裙上半身錯誤地識別為背心;圖6(c)中由于坐姿,短裙平鋪發(fā)生嚴重形變,SSD算法沒有識別到短裙。結(jié)果表明,本文方法對不同形變程度的服裝都能準確識別。
本文方法與SSD算法對形變服裝識別置信度比較如圖7所示。
(a)樣例4 (b)樣例5 (c)樣例6
可以看出,圖7(a)中的連衣裙由于坐姿發(fā)生形變,SSD算法對連衣裙的識別結(jié)果置信度為0.87,本文方法識別結(jié)果置信度為0.98,置信度提升了0.11;圖7(b)中的短裙由于坐姿發(fā)生形變,SSD算法對短裙識別結(jié)果的置信度為0.74,本文方法識別結(jié)果置信度為0.95,提升了0.21;圖7(c)中的連衣裙由于坐姿發(fā)生嚴重形變,SSD算法對連衣裙的識別結(jié)果置信度為0.77,本文方法識別結(jié)果置信度為0.91,提升了0.14。結(jié)果表明,與原SSD算法相比,本文方法對不同程度形變服裝圖像的識別均能取得更高的置信度,對形變服裝的識別更具有魯棒性。
為進一步評估本文所提改進方法的性能,利用DeepFashion2數(shù)據(jù)集中豐富的標注樣本,在形變服裝子數(shù)據(jù)集上,對SSD原模型與各種改進方法進行定量分析,其識別精度比較如表2所示。結(jié)果表明,各種改進方法對各種不同形變服裝的識別精度都有明顯提升,其中通過空間變換網(wǎng)絡(luò)優(yōu)化后的S-SSD網(wǎng)絡(luò)比SSD算法的mAP提升了1.34%;通過采用可變形卷積優(yōu)化后的D-SSD網(wǎng)絡(luò)比SSD算法的mAP提升了1.9%;通過采用空間變換網(wǎng)絡(luò)以及可變形卷積優(yōu)化后的SD-SSD網(wǎng)絡(luò)比SSD算法的mAP提升了2.75%。與SSD算法相比,本文方法對形變服裝的識別精度提升最顯著,其平均mAP值提升了3.63%,對形變短袖上衣的識別精度mAP提升高達7.88%。
表 2 SSD原模型與各種改進方法對形變服裝識別精度比較
將本文方法與其他模型(YOLOv4[15]、GoogleNet[16]、ResNet-50[17]、Fast-RCNN[18]、SSD[19])對形變服裝的識別精度進行比較,結(jié)果如表3所示??梢钥闯觯啾扔谄渌P?,本文方法對不同種類形變服裝圖像的識別精度最高,其平均mAP提升最高可達16.51%。
表 3 本文方法與其他模型對形變服裝的識別精度比較
本文提出一種改進SSD的服裝圖像識別方法,以改善形變對服裝圖像識別的影響。采用空間變換網(wǎng)絡(luò)對服裝圖像特征進行數(shù)據(jù)增強,使網(wǎng)絡(luò)具有空間不變性;采用可變形卷積提取更豐富的服裝特征信息,提高網(wǎng)絡(luò)對于形變服裝的適應性;通過幾何信息融合網(wǎng)絡(luò)獲得更多的幾何細粒度特征信息,提高網(wǎng)絡(luò)對幾何信息的表達能力。實驗結(jié)果表明,本文所提方法能顯著提升對形變服裝圖像識別的準確度。