卓 力,袁 帥,李嘉鋒,2
(1.北京工業(yè)大學 信息學部,北京 100124;2.北京工業(yè)大學 計算智能與智能系統(tǒng)北京市重點實驗室,北京 100124)
在現(xiàn)實生活中,人們往往借助于離散且精確的屬性,例如服裝樣式、性別、胖瘦、發(fā)型等,來識別一個行人。行人屬性可以對行人的外觀進行精細表征,因此行人多屬性識別在行人再識別、智能化視頻監(jiān)控等諸多領域,均受到了研究者們的廣泛關注。但是,由于應用場景的不確定性,受行人攜帶物的遮擋、圖像分辨率低等復雜因素的影響,行人多屬性識別面臨著巨大的技術挑戰(zhàn)。
傳統(tǒng)的基于人工設計特征的行人多屬性識別普遍采用的是“特征提取+分類器”的框架,如何高效準確地對行人的外觀特征進行表達并設計合適的分類器是其中的關鍵所在。Layne等[1]針對行人的服裝樣式、性別、發(fā)型等手工標注了21種屬性,分別訓練每一種屬性的分類器,并且在訓練過程中,選取來源于不同角度攝像頭下的行人圖像,可有效對抗視角變化。Zhu等[2]引入了APiS數(shù)據(jù)庫,人工標注了13個屬性注釋,主要針對的是混合場景下的行人屬性識別,采用 AdaBoost分類器和KNN(K-Nearest Neighbors,K最近鄰)分類器分別對二值屬性和多值屬性進行識別。Gray等[3]采用局部特征集合的方法,將8個顏色通道和亮度通道的特征進行組合得到特征表示,用于屬性識別。這些研究工作常常依賴設計者的先驗知識或者經(jīng)驗為每個屬性單獨設計特征,由于特征的表達能力有限,區(qū)分能力不足,因此識別性能有待于進一步提升。同時,由于需要為每個屬性的識別設計專門的分類器,因此算法的實現(xiàn)復雜度高且參數(shù)冗余。由于無法充分利用屬性之間的內(nèi)在關聯(lián)關系,導致屬性的識別準確率低,難以滿足實際應用的需求。
近年來,深度學習在圖像分類、目標檢測和語義分割等諸多領域取得了巨大成功。相較于傳統(tǒng)機器學習方法,深度學習具有更優(yōu)秀的模型泛化能力。學者們將深度學習應用于行人屬性識別中,相繼提出了多種行人屬性識別方法。Sudowe等[4]提出一種聯(lián)合訓練的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)模型,僅利用屬性之間的依賴關系,不使用行人姿態(tài)、上下文等信息進行屬性識別。Li等[5]提出了單屬性識別模型和多屬性聯(lián)合識別的深度學習模型(DeepMAR)。Li等認為屬性間具有相關性,一個屬性有助于其他屬性的識別,因此將多個屬性聯(lián)合訓練,使用簡單的CNN模型同時識別多個屬性。Wang等[6]提出了一種基于遞歸神經(jīng)網(wǎng)絡的聯(lián)合遞歸學習(Joint Recurrent Learning,JRL)模型,通過挖掘?qū)傩陨舷挛男畔⒓皩傩蚤g相互關系來提高識別準確率。Wang等設計了一個新的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)編碼-解碼網(wǎng)絡結構,將行人之間的上下文信息及行人個體內(nèi)部屬性關聯(lián)在一起建模,學習一個統(tǒng)一的網(wǎng)絡架構,用于行人屬性預測。Sarfraz等[7]提出視點敏感行人屬性(View-Sensitive Pedestrian Attribute,VeSPA)模型,該模型采用深度神經(jīng)網(wǎng)絡進行聯(lián)合視圖預測和視圖特定屬性預測。實驗結果表明,視圖敏感的屬性推理能夠更好地對屬性進行預測。Bekele等[8]提出了多屬性殘差網(wǎng)絡模型(Multi-Attribute Residual Network,MAResNet),該模型將多屬性優(yōu)化與改進的殘差卷積神經(jīng)網(wǎng)絡相結合,在代價函數(shù)中優(yōu)化類不平衡。除此之外,模型訓練過程中不涉及任何數(shù)據(jù)擴充和預訓練。Fang等[9]提出一種聯(lián)合分層多任務學習算法來學習屬性之間的關系。首先根據(jù)屬性的空間位置和語義關系,將屬性分為局部屬性和全局屬性;之后分別利用不同的CNN模型,以多任務的方式對兩組屬性進行分類。Tan等[10]提出了一個聯(lián)合學習框架,以類似多任務的方式同時學習3種注意機制,以提取互補和相關的特征用于屬性識別。He等[11]提出了一種基于屬性的多任務卷積神經(jīng)網(wǎng)絡(Multi-Task Convolutional Neural Network,MTCNN)分組方法,該方法充分利用了屬性間的空間相關性,并保證了每個屬性的獨立性。同時,提出了一種新的在線批量加權損失模型,以縮小屬性間的性能差異,提高模型的平均識別精度。Tang等[12]提出了一種屬性定位模塊(Attribute Localization Module,ALM),用于自適應地發(fā)現(xiàn)最具區(qū)分性的區(qū)域,并在多個尺度上學習每個屬性的區(qū)域特征。此外,還引入了一種特征金字塔結構,利用高級語義指導來增強低層的屬性定位。Jia等[13]分析了常用的行人屬性識別數(shù)據(jù)集PETA和RAP的缺陷,即在訓練集和測試集中存在大量相同的行人身份,會導致現(xiàn)有數(shù)據(jù)集上最先進方法的性能被高估,并對數(shù)據(jù)集進行了修正,得到了PETAzs和RAPzs兩個數(shù)據(jù)集。王林等[14]提出了一種多級注意力跳躍連接網(wǎng)絡(Multi-Level Attention Skip Connection Net,MLASC-Net),該網(wǎng)絡使用敏感注意力模塊篩選行人圖像關鍵信息,多級跳躍連接結構保留淺層的細粒度信息,用多尺度金字塔模塊更全面地集成不同尺度和抽象層次的屬性信息,并利用自適應加權損失層加快模型的收斂速度,最終實現(xiàn)對行人屬性的預測。
與傳統(tǒng)基于人工設計特征的行人屬性識別方法相比,這類方法利用深度學習強大的特征表達能力和上下文信息提取能力,直接從海量數(shù)據(jù)中自動學習層次式的特征表示,通過構建一個多層神經(jīng)網(wǎng)絡,使機器能夠?qū)W習隱含在數(shù)據(jù)內(nèi)部的關系,可以對目標實現(xiàn)從細節(jié)紋理到局部塊再到高層語義的層次化遞進表達,獲得更具魯棒性、表達能力更強的特征,因此獲得了遠超過傳統(tǒng)方法的性能。
與現(xiàn)有的“特征提取+分類器”的思路不同,本文基于“特征提取+回歸”的思路,提出了一種行人多屬性協(xié)同識別方法。該方法通過對多個行人屬性標簽進行組合編碼,充分挖掘行人屬性特征之間的內(nèi)在關聯(lián)關系,可以在一個統(tǒng)一的框架下同時對行人的多種屬性進行準確識別。除此之外,本文使用改進的基于Sigmoid交叉熵損失函數(shù)和實時在線數(shù)據(jù)增強策略來平衡各種屬性數(shù)據(jù)量不均衡的差異,進而提升識別效果。在PETA[15]和RAP[16]兩個公共數(shù)據(jù)集上的識別平均準確度(Mean Accuracy,mA)分別達到了84.08%和88.12%,并在RAP數(shù)據(jù)集上獲得了目前最優(yōu)的識別性能。
本文方法的整體網(wǎng)絡結構如圖1所示。在模型訓練階段,網(wǎng)絡輸入的是歸一化后的帶有屬性標簽組合向量的行人圖像,通過訓練,建立圖像的深度特征與屬性標簽組合向量之間的映射關系模型。在測試階段,模型輸入的是行人圖像,輸出的則是二進制標簽組合向量,分別對應行人的不同屬性標簽預測結果。整個網(wǎng)絡框架包括深度特征提取、行人屬性二進制標簽組合編碼和回歸共3個核心部分,這3個部分納入到一個統(tǒng)一的網(wǎng)絡框架下加以實現(xiàn)。其中深度特征提取部分采用的是基于通道注意力機制的ResNet50作為主干網(wǎng)絡。回歸部分則由3個全連接層(FC)組成,用于將提取到的深度特征映射為二進制標簽組合向量。
圖1 提出的行人多屬性識別網(wǎng)絡架構
全連接層網(wǎng)絡(Fully Connected Network,F(xiàn)CN)映射模型在提出的多屬性識別方法中發(fā)揮著重要的作用。首先,多個全連接層組合能夠更好地擬合復雜的關聯(lián)關系,建立行人圖像深度特征與標簽組合向量之間的映射模型;其次,通過全連接層可以進一步增強圖像特征的區(qū)分能力,提升識別性能。
1.2.1 ResNet50網(wǎng)絡
ResNet網(wǎng)絡是He等[17]于2015年提出的,如圖2所示。主要貢獻是解決了隨著CNN深度加深而分類精度下降的問題,通過提出的殘差學習思想加速了CNN訓練過程,有效避免了梯度消失和梯度爆炸問題。
圖2 ResNet50網(wǎng)絡結構[17]
He等利用殘差學習的思想,提出了一個恒等映射的Shortcut Connections結構,如圖3所示。其中x為輸入,F(xiàn)(x)為殘差映射,H(x)為理想映射,H(x)=F(x)+x。通過將擬合殘差映射F(x)轉(zhuǎn)變?yōu)閿M合理想映射H(x),可以把輸出變?yōu)檩斎牒蜌埐钣成涞寞B加,使得網(wǎng)絡對輸入x和輸出H(x)之間的變動更加敏感。
圖3 Shortcut Connections結構示意圖
為了構建更深的網(wǎng)絡結構,He等還提出了Bottleneck結構,如圖4所示。為了適應更深的網(wǎng)絡結構,Bottleneck結構中增加了1×1卷積,目的是降低輸入的維度。ResNet-50/101/152網(wǎng)絡中均使用了Bottleneck結構。
圖4 Bottleneck結構示意圖
近年來ResNet網(wǎng)絡已經(jīng)被廣泛應用到各種計算機視覺任務中,均取得了突出的性能。本文選擇ResNet50作為主干網(wǎng)絡,并引入通道注意力機制,提取圖像的深度特征。
1.2.2 通道注意力機制
注意力機制借鑒人類的選擇性認知機制,從眾多信息中選擇出對當前任務目標更關鍵的信息加以增強,同時抑制無關信息。
為了提高ResNet50網(wǎng)絡的特征提取與表達能力,在ResNet50網(wǎng)絡中添加通道注意力機制(Squeeze-and-Excitation Network,SENet)[18],用于提升深度特征的表達能力。
通道注意力機制的核心思想是對分類任務有用的特征通道進行加強,對無用的特征通道進行抑制。通道注意力機制的網(wǎng)絡結構如圖5所示。其實現(xiàn)過程如下:首先對輸入特征進行壓縮操作Fsq(·)即全局平均池化,獲取全局感受野;然后進行激勵操作Fex(·,w),即兩個全連接操作,預測各通道的重要性,使用Sigmoid激活函數(shù)輸出各通道的權重;最后通過乘法操作Fscale(.)對每個特征通道進行加權,完成在通道維度上對原始特征的重標定。
圖5 通道注意力機制的網(wǎng)絡結構
通道注意力機制嵌入到殘差模塊中的示意圖如圖6所示。
圖6 通道注意力機制嵌入到殘差模塊中的示意圖[18]
對行人的原有屬性標簽進行整理,編碼組合,得到一個行人二進制屬性標簽組合向量。通過這種方式,每幅圖像的多個屬性標簽將由一個向量來代替。
假設需要轉(zhuǎn)換的圖像有N張,每一張圖像對應的屬性有L個,包含性別、年齡范圍、攜帶物、服裝類型等。將每個行人圖像樣本用xi(i=1,2,…,N)表示,對應的屬性向量為yi。每個標簽向量yi中包含的屬性值為yi,l,yi,l∈[0,1](l=1,2,…,L)。根據(jù)原有的屬性標注,如果行人圖像樣本xi包含這個屬性,則對應的yi,l=1,否則yi,l=0。
在PETA數(shù)據(jù)集中,共包含61個二值屬性和4個多分類屬性標注。將4個多分類屬性標簽按照二值化的形式進行處理,每一個多分類屬性可進一步拆分為11個二分類屬性標簽。將上述屬性拆分整理后,每一張行人圖像樣本將得到一個61+11×4=105維的二進制屬性標簽組合向量,且每個屬性標簽在標簽向量中的位置是固定的,如表1所示。
表1 PETA數(shù)據(jù)集的105個屬性標簽順序
RAP數(shù)據(jù)集的標簽組合向量采用同樣的處理方式,每張圖像樣本將對應著一個92維的標簽組合向量。
下面以常用的行人屬性公共數(shù)據(jù)集PETA中的一張行人圖像(如圖7所示)作為示例,來介紹行人圖像二進制屬性標簽組合向量的構建過程。
圖7 PETA數(shù)據(jù)集中行人圖像的屬性標簽組合示例
編碼時,按照表1所示的屬性標簽順序,逐一與圖7的屬性標注內(nèi)容進行對比,該屬性是哪一種標簽,則將標簽組合向量中相應位置處的數(shù)值置為1,該屬性的其余標簽置為0。對圖7的標簽進行編碼后,得到一個105維的二進制屬性標簽組合向量。
行人的屬性往往是相互關聯(lián)的,例如長發(fā)、長裙、高跟鞋等屬性往往與女性相關。為了充分利用屬性之間的關聯(lián)關系,將行人屬性標簽進行組合編碼,在一個統(tǒng)一的框架下同時識別行人的多個屬性。為此,在屬性識別過程中需要對各屬性的損失進行綜合考慮。采用Sigmoid交叉熵損失函數(shù)對網(wǎng)絡模型進行訓練[5],計算公式為
(1)
式中,yn,l為樣本xn是否擁有第l個屬性的真實標簽;pn,l為帶有第l個屬性的第n個樣本輸出概率,計算公式為
pn,l=1/(1+exp(-xn,l))
(2)
式中,xn,l為帶有第l個屬性的第n個樣本。然而在實際訓練時,數(shù)據(jù)集中的樣本分布并不十分均衡,例如V領、太陽鏡、下身衣服為紫色等屬性的正樣本數(shù)量遠低于性別男女、長發(fā)等屬性。為解決這一問題,引入了樣本屬性加權因子wl來綜合考慮每個屬性的損失值。wl表示第l個屬性損失值的權重,加入樣本屬性加權因子后的損失函數(shù)值可表示為
(3)
式中,wl的計算公式為
wl=exp(-pl/σ2)
(4)
式中,pl為訓練集中第l個屬性正樣本所占的比例;σ為一個調(diào)諧參數(shù),實驗中該值設為1。
為了驗證提出方法的有效性,在PETA和RAP兩個最具代表性的行人屬性識別公共數(shù)據(jù)集上進行了實驗。下面介紹實驗結果,并對結果進行分析。
PETA和RAP是兩個最常用的行人屬性識別數(shù)據(jù)集。其中PETA數(shù)據(jù)集[15]由10個用于行人再識別的小型數(shù)據(jù)集組成,共包含19000幅圖像,涉及8705個行人,圖像樣本多從行人再識別數(shù)據(jù)集中的正樣本中獲得,圖像分辨率從17像素×39像素到169像素×365像素不等,行人圖像是基于人的身份標注的,即對同一人的圖像樣本進行相同屬性集的標注,共包含61個二進制屬性標注和4個多類屬性,多分類屬性為11個不同的顏色類別屬性,因此識別起來更具挑戰(zhàn)性。PETA數(shù)據(jù)集的部分示例圖像如圖8(a)所示。
RAP數(shù)據(jù)集[16]是從一個購物中心實際監(jiān)控場景的數(shù)據(jù)中收集整理出來的,該數(shù)據(jù)集包含的行人圖像數(shù)量大、屬性注釋豐富。為了進一步研究屬性識別,對視點、遮擋樣式和身體部位這3個環(huán)境和語境因素進行了明確的標注。該數(shù)據(jù)集總共包含41585幅行人圖像,圖像大小在36像素×92像素到344像素×554像素之間,行人圖像是基于人的實例(Person Instance,PI)標注,共包含72個細粒度屬性(69個二進制屬性和3個多類屬性)。RAP數(shù)據(jù)集的部分示例圖像如圖8(b)所示。
圖8 行人屬性數(shù)據(jù)集中行人圖像樣本
本文將行人圖像大小歸一化為224像素×224像素,歸一化后的每幅圖像均對應著一個行人屬性標簽組合向量,用于訓練網(wǎng)絡模型。為了降低訓練樣本數(shù)量不足對網(wǎng)絡訓練性能的影響,采取在線數(shù)據(jù)增強的策略,例如平移、隨機旋轉(zhuǎn)、縮放等,增加各類屬性樣本的數(shù)量,以提升網(wǎng)絡訓練的性能。
基于Keras框架實現(xiàn)了所設計的網(wǎng)絡結構,硬件平臺配置為:Intel?CoreTMi5-4590 CPU @ 3.30 GHz、NVIDIA GeForce GTX 1080Ti 11 GB GPUs。在網(wǎng)絡訓練中,本文采用Adam算法優(yōu)化網(wǎng)絡,初始學習率(init_lr)為0.0001,PETA數(shù)據(jù)集和RAP數(shù)據(jù)集的batch size大小設置為32,開始訓練75個epochs,網(wǎng)絡訓練使用了數(shù)據(jù)增強方法,并采用“預訓練+細調(diào)”策略。為了與其他方法進行公平對比,在訓練過程中,參照文獻中的數(shù)據(jù)集劃分方式,以相同的比例對數(shù)據(jù)集進行了劃分[15-16]。具體地說,將PETA數(shù)據(jù)集中的圖像按照5∶1∶4的比例進行了劃分,訓練集中包括了9500張圖像,驗證集中包括了1900張圖像,測試集中包含了7600張圖像[15];將RAP數(shù)據(jù)集的圖片按照8∶2的比例進行劃分,訓練集和測試集分別包含33268和8317張圖片[16]。訓練集用于訓練網(wǎng)絡模型,測試集則用于測試網(wǎng)絡模型屬性識別的性能。
采用mA[15]作為行人屬性識別性能的評判指標。對于每一個行人屬性,分別計算正樣本和負樣本的分類識別的精確度,然后取平均值作為該屬性的最終識別精度。之后將選定的所有行人屬性識別精度的平均值作為本文算法的最終識別率,也就是平均準確度。mA的計算公式為
(5)
式中,N為樣本數(shù)目;L為進行訓練的屬性個數(shù);Pi為測試樣本中第i個屬性的正樣本的數(shù)目;TPi為測試樣本中第i個屬性的正標簽被預測正確的數(shù)目[19];Ni為測試樣本中第i個屬性的負樣本的數(shù)目;TNi為測試樣本中第i個屬性的負標簽被預測正確的數(shù)目。
采用SENet來提升深度特征的表達能力。為了驗證通道注意力機制對識別性能的影響,對比了對ResNet50網(wǎng)絡添加與不添加SENet模塊得到的屬性識別性能。
在PETA和RAP數(shù)據(jù)集上,ResNet50網(wǎng)絡與注意力模塊相結合得到的105個屬性識別性能(mA)對比實驗結果如表2所示。需要說明的是,為了對比通道注意力機制對識別性能的影響,表2中實驗數(shù)據(jù)未使用圖1中所示的全連接層,而是由網(wǎng)絡直接輸出二進制標簽組合向量。
表2 PETA和RAP數(shù)據(jù)集上采用通道注意力機制得到的識別性能對比結果 單位:%
從表2中可以看出,與未采用通道注意力機制相比,ResNet50網(wǎng)絡與該注意力機制結合后,能夠顯著提升識別精度,PETA和RAP數(shù)據(jù)集的識別精度分別提升了1.67%和2.73%。這說明SENet可以對重要的特征通道進行增強,并對無關的特征通道進行抑制,從而提升深度特征的表達能力。
如圖1所示,采用一個包含3個全連接層的網(wǎng)絡對深度特征與二進制標簽組合向量進行回歸,建立深度特征與組合向量之間的映射模型,實現(xiàn)多屬性的協(xié)同識別。但是,全連接層過多會導致網(wǎng)絡參數(shù)冗余、過擬合、模型運算時間增加、訓練效率低等一系列問題。因此,如何確定網(wǎng)絡結構至關重要為此,本文進行了全連接層組合實驗。在PETA和RAP數(shù)據(jù)集上,分別采用不同的全連接網(wǎng)絡結構得到的多屬性識別性能(mA)對比實驗結果,如表3所示。表3中數(shù)據(jù)均采用基于SENet的ResNet50網(wǎng)絡提取深度特征,區(qū)別在于采用了不同的全連接網(wǎng)絡結構。表3中第2列數(shù)據(jù)表示各個全連接層的神經(jīng)元數(shù)目,PETA和RAP數(shù)據(jù)集最后一層全連接層的神經(jīng)元數(shù)目分別為105和92。
表3 不同全連接網(wǎng)絡結構對識別性能的影響 單位:%
由表3可以看出,對于兩個數(shù)據(jù)集來說,采用3層結構,各層神經(jīng)元數(shù)目分別為1024、128和105/92時,可以獲得最優(yōu)的識別性能。原因在于PETA和RAP數(shù)據(jù)集的規(guī)模有限,全連接層數(shù)目多,模型參數(shù)隨之增加,網(wǎng)絡訓練過程中出現(xiàn)了過擬合現(xiàn)象,導致識別準確率下降。因此,通過大量的對比實驗確定了網(wǎng)絡層數(shù)和各層神經(jīng)元數(shù)目。實驗結果表明,這種配置可以在網(wǎng)絡規(guī)模和性能之間達到很好的折中。
設計了消融實驗,以驗證通道注意力機制、全連接層網(wǎng)絡映射模型等組件的作用。ResNet50網(wǎng)絡作為基準方法(Baseline),在此基礎上依次增加通道注意力機制(ResNet50-SENet)和通道注意力機制+全連接層網(wǎng)絡映射模型(ResNet50-SENet-FCN)。各種組合在PETA和RAP數(shù)據(jù)集上識別性能(mA)實驗結果如表4所示。
表4 不同網(wǎng)絡結構對識別性能的影響 單位:%
由表4可知,通道注意力機制能夠增強行人圖像特征的表達能力,在PETA和RAP數(shù)據(jù)集上的識別性能分別提升了1.67%和2.75%。而全連接層網(wǎng)絡映射模型則可以進一步提升識別性能,在PETA和RAP數(shù)據(jù)集上的識別性能又分別提升了0.21%和0.38%。而將通道注意力機制和全連接層網(wǎng)絡映射模型添加到ResNet50網(wǎng)絡中能夠獲得最優(yōu)的實驗性能,在PETA和RAP數(shù)據(jù)集上分別達到了90.2%和88.13%。
為了驗證提出的行人多屬性識別方法的性能,在PETA和RAP兩個最常用的公共行人屬性識別數(shù)據(jù)集上,將其與8種基于深度學習的行人屬性識別方法進行了對比實驗,對比方法包括ACN[4]、DeepMAR[5]、JRL[6]、VeSPA[7]、MAResNet[8]、JLPLS-PAA[10]等。
為了進行公平的比較,統(tǒng)計了上述實驗結果中相同的屬性識別結果。每種方法均選擇了PETA數(shù)據(jù)集的35個屬性標簽作為研究對象,這些屬性包括視頻監(jiān)控中最重要的15種屬性[20]和20種識別難度較大的屬性[21],覆蓋行人的所有身體部位和屬性的不同流行度,這35個屬性標簽詳見文獻[15]。RAP數(shù)據(jù)集選出了51個屬性標簽作為研究對象,這51個屬性標簽詳見文獻[16]。
表5為在PETA和RAP數(shù)據(jù)集上分別采用不同的方法得到的屬性識別性能(mA)對比結果。
表5 PETA和RAP數(shù)據(jù)集采用不同方法得到的屬性識別精度對比結果 單位:%
從表5可以看出,與目前的幾種基于深度學習的行人屬性識別方法相比,在RAP數(shù)據(jù)集上,本文方法的識別準確率最高,可達88.12%,比目前識別準確率最高的ALM方法提高了6.25%。但是在PETA數(shù)據(jù)集上,本文方法的識別精度比MLASC-Net、JRL和ALM等方法分別低了1.2%、1.59%和2.22%,主要原因如下。
① 本文方法采用的SENet+ResNet50網(wǎng)絡架構比較簡單。而MLASC-Net方法使用ResNet50提取特征并與敏感注意力模塊、多級跳躍連接結構、多尺度金字塔模塊和自設計損失函數(shù)共同作用進行屬性識別;JRL方法采用的是基于RNN的編碼-解碼網(wǎng)絡結構;ALM方法設計了一種屬性定位模塊,用于自適應發(fā)現(xiàn)最具區(qū)分性的區(qū)域,并在多個尺度上學習每個屬性的區(qū)域特征。此外,使用一種特征金字塔結構,利用高級語義指導來增強低層的屬性定位,網(wǎng)絡結構均比較復雜。
② PETA數(shù)據(jù)集是由多個小數(shù)據(jù)集合并得到的,場景復雜多變,每個小數(shù)據(jù)集標注的屬性標簽不統(tǒng)一,姿態(tài)改變、遮擋等因素也會導致屬性標簽信息不完整。而本文方法需要對屬性標簽進行編碼組合,標簽信息不完整、不統(tǒng)一在一定程度上會導致屬性識別的準確率下降。
RAP數(shù)據(jù)集的行人圖像分辨率相對較高,行人屬性標簽完整、統(tǒng)一、準確、場景單一,因此在該數(shù)據(jù)集上本文方法的性能遠超過其他方法。
綜上,本文方法比較適合于行人屬性標簽比較完整、統(tǒng)一、描述準確的應用場合,不僅網(wǎng)絡結構簡單,而且屬性識別準確率高。
利用訓練好的模型,隨機對PETA數(shù)據(jù)庫中的一張行人圖像進行了屬性預測,輸出了預測置信度最高的10個屬性標簽,如圖9所示??梢钥闯?,本文方法能對行人多個屬性同時進行準確識別。
圖9 在PETA上對10個屬性進行識別
對數(shù)據(jù)集中的所有屬性都進行了識別,發(fā)現(xiàn)“上衣是否V領”“皮鞋”“背包”等4個屬性的識別準確率較低。而 “年齡在31~45歲”“年齡在46~60歲”“上身著休閑裝”“下身著休閑裝”“無附件”等5個屬性的識別準確率較高。具體如表6所示。
表6 PETA數(shù)據(jù)集中識別準確較高和較低的屬性
經(jīng)過統(tǒng)計發(fā)現(xiàn),識別準確率較高的5個屬性標注率較高。相應地,識別準確率較低的屬性標注率較低。這是因為標注率高,則意味著樣本數(shù)量比較多,因此訓練出的網(wǎng)絡模型具有良好的識別能力和泛化性能。而標注率低,則由于數(shù)據(jù)量不足,導致模型的泛化能力較差,識別準確性較低。
本文針對行人屬性識別準確率低的問題,提出了一種基于ResNet50和通道注意力機制的行人多屬性協(xié)同識別方法。該方法將行人的原有屬性標簽進行整理,編碼組合,得到一個行人二進制屬性標簽組合向量。每幅圖像的多個屬性標簽由一個組合向量來代替,通過這種方式,將數(shù)據(jù)集中的所有屬性標簽利用起來,有助于網(wǎng)絡充分挖掘行人屬性之間的內(nèi)在聯(lián)系,提升屬性識別性能;通過基于ResNet50和通道注意力機制的網(wǎng)絡對輸入的圖像提取特征,再使用一個包含3個全連接層的網(wǎng)絡結構對圖像深度特征與二進制屬性標簽組合向量進行回歸,這樣不僅可以建立深度特征與屬性標簽組合向量之間的映射模型,實現(xiàn)多屬性的協(xié)同識別,而且該FCN結構能夠增強特征的表達能力,提升網(wǎng)絡模型的屬性識別準確率。實驗結果表明,本文方法在RAP數(shù)據(jù)集上可以獲得最優(yōu)的識別性能。
本文方法適合于行人屬性標簽比較統(tǒng)一、描述準確的應用場合,而在行人屬性標簽描述不準確的場合實驗性能有待提高。在未來的工作中,還將通過優(yōu)化網(wǎng)絡結構、調(diào)整超參數(shù)、設計新的注意力機制和損失函數(shù)等方式來改進算法,提高行人屬性的識別精度,并進一步將行人屬性特征應用于行人再識別中。