丁正彥,尚巖峰,張重陽
1.公安部第三研究所物聯(lián)網(wǎng)技術(shù)研發(fā)中心,上海 201204;2.上海交通大學電子信息與電氣工程學院,上海 200240
行人屬性識別任務一直以來都是智能視頻分析領域的研究熱點。該任務在行人檢測(羅艷 等,2022)的基礎上,通過識別行人目標的視覺屬性,包括性別、年齡、衣著以及攜帶物等語義內(nèi)容,為目標結(jié)構(gòu)化描述與快速檢索提供支撐。
隨著深度學習技術(shù)的不斷發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡模型在圖像分類領域的廣泛應用,研究人員提出了許多基于深度網(wǎng)絡模型的行人屬性識別優(yōu)化方法。Li 等人(2015)引入多屬性聯(lián)合學習機制,通過單個骨干網(wǎng)絡模型得到多屬性共享的全局特征,從而有效挖掘?qū)傩灾g的相互關(guān)系。Liu 等人(2017)引入視覺注意機制,采用多方向注意力模塊對骨干網(wǎng)絡模型的不同語義層提取注意力特征圖,并借助多尺度融合模塊實現(xiàn)特征優(yōu)化。Tang 等人(2019)引入屬性相關(guān)的弱監(jiān)督定位機制,結(jié)合高層語義的指導信息,實現(xiàn)特定屬性關(guān)注區(qū)域的多尺度自適應感知。
另一方面,研究人員通過采集不同場景下的行人目標數(shù)據(jù),并標注相關(guān)屬性信息,構(gòu)建了多個面向行人屬性識別任務的大規(guī)模公開數(shù)據(jù)集,例如PA100K(pedestrian attribute 100K)(Liu 等,2017)、PETA(pedestrian attribute)(Deng 等,2014)、RAPv1(richly annotated pedestrian v1)(Li 等,2016)和RAPv2(richly annotated pedestrian v2)(Li 等,2019),涵蓋各種全局目標屬性和局部目標屬性,其中全局屬性主要包括性別、年齡等,局部屬性主要包括頭部屬性、上身屬性和下身屬性等。
但是,現(xiàn)階段行人屬性識別任務存在的主要問題在于某些屬性類別的樣本分布嚴重不均衡,以RAPv2 數(shù)據(jù)集為例,屬性類別總數(shù)為54 個,其中正樣本所占比例低于10%的屬性類別達到34個,占比超過60%(34/54),如圖1所示(黃色標注)。
圖1 RAPv2數(shù)據(jù)集的各個屬性類別正樣本比例統(tǒng)計情況Fig.1 Positive sample ratio for each attribute category of RAPv2 dataset
針對樣本分布不均衡的問題,研究人員通常重點關(guān)注其中實例數(shù)較少的類別(記做少數(shù)類),在模型訓練過程中引入了多種優(yōu)化策略。1)數(shù)據(jù)增廣策略。通過對少數(shù)類進行數(shù)據(jù)混合(Zhang 等,2018)或數(shù)據(jù)噪聲(Zhong 等,2020)等操作,隨機生成新訓練樣本,從而增加相關(guān)類別的數(shù)量比例,該方法在目標實例分割等任務中也廣泛使用(Ghiasi 等,2021);2)損失加權(quán)策略。在損失函數(shù)的設計過程中增加類別自適應的權(quán)重,從而選擇性地提高少數(shù)類的樣本重要程度(Jia 等,2020);3)遷移學習策略,在樣本均衡的相關(guān)數(shù)據(jù)集上進行模型預訓練,并通過特征遷移實現(xiàn)少數(shù)類樣本數(shù)據(jù)上的模型泛化(Liu等,2019)。
雖然上述方法能夠緩解樣本分布不均衡問題,但是如何根據(jù)具體任務特點進行多種優(yōu)化策略的互補融合仍然有待進一步研究。因此,本文針對行人多屬性識別任務,提出一種基于漸進式迭代的優(yōu)化方法,深入融合上述3 種優(yōu)化策略,具體改進如下:1)數(shù)據(jù)生成。針對行人目標中的少數(shù)類屬性,采用馬賽克自編碼器(masked autoencoder,MAE)(He 等,2022)得到新生成的相關(guān)樣本數(shù)據(jù),通過提高少數(shù)類的正樣本比例,構(gòu)建基于屬性平衡化的數(shù)據(jù)生成模型(balanced attributes-data generation model,BADGM),同時實現(xiàn)從MAE 通用大模型到專用小任務的遷移學習和知識增強。2)數(shù)據(jù)判別。針對新生成的行人目標數(shù)據(jù),采用基于原有數(shù)據(jù)訓練的屬性判別模型進行數(shù)據(jù)篩選,根據(jù)屬性預測的分布一致性剔除異常數(shù)據(jù),通過啟發(fā)式的注意力機制,構(gòu)建基于特征注意力的數(shù)據(jù)判別模型(attention features-data discrimination model,AF-DDM),其中判別模型在訓練過程中需要根據(jù)樣本比例自適應調(diào)整損失函數(shù)的權(quán)重,保證數(shù)據(jù)判別的有效性。3)漸進式迭代。采用數(shù)據(jù)生成與數(shù)據(jù)判別相互交替的循環(huán)迭代框架,在不增加數(shù)據(jù)標注代價的情況下,實現(xiàn)行人多屬性識別數(shù)據(jù)的漸進式優(yōu)化,同時針對均衡后的數(shù)據(jù)集,通過知識蒸餾機制融合多個不同輪次的數(shù)據(jù)判別模型,如圖2 所示,構(gòu)建基于漸進式迭代的蒸餾融合模型(progressive iterations-distillation fusion model,PIDFM),在不增加模型復雜度的情況下進一步提升行人屬性識別精度。
圖2 基于漸進式迭代的行人屬性識別優(yōu)化框架Fig.2 Optimization framework based on progressive iteration for pedestrian attributes recognition
在實際應用過程中,本文所采用的基于漸進式迭代的行人屬性識別優(yōu)化方法能夠通過無監(jiān)督學習機制,在海量無標注的行人屬性識別數(shù)據(jù)集上進行自適應的數(shù)據(jù)均衡與模型融合,從而有效提升模型的泛化能力。
針對行人屬性識別任務中存在的樣本不均衡問題,現(xiàn)有的數(shù)據(jù)增廣策略主要通過數(shù)據(jù)混合和數(shù)據(jù)噪聲等操作實現(xiàn)。如圖3 所示,以常用的隨機擦除算法為例,隨機掩蓋部分圖像塊進行模擬(掩蓋比例為0.3),可以發(fā)現(xiàn)隨機擦除后的樣本數(shù)據(jù)與真實場景數(shù)據(jù)存在明顯差異,并且可能丟失某些局部屬性相關(guān)的關(guān)鍵特征信息,導致訓練穩(wěn)定性下降。
圖3 隨機掩蓋部分圖像塊與復原結(jié)果對比Fig.3 Comparison between random masks and restoration results
本文提出引入馬賽克自編碼器進行圖像復原,經(jīng)過復原后的目標圖像與真實場景的目標圖像無明顯差異(圖3),可以作為少數(shù)類樣本數(shù)據(jù)的補充,從而實現(xiàn)基于屬性平衡化的數(shù)據(jù)生成。在具體實現(xiàn)過程中,采用一種改進的MAE 算法,如圖4 所示。首先按照一定比例隨機掩蓋原始目標中的部分圖像塊,然后通過非對稱的編碼器與解碼器結(jié)構(gòu)進行復原操作,其中編碼器模塊采用基于Transformer 結(jié)構(gòu)的深度網(wǎng)絡模型(Dosovitskiy 等,2021)進行特征編碼,而解碼器模塊則采用輕量級模型,MAE 模型預先在海量無標注數(shù)據(jù)集上進行自監(jiān)督訓練,因此能夠很好地實現(xiàn)行人目標的通用特征表示。另一方面,為了進一步優(yōu)化模型對于行人目標屬性特征的表示能力,本文采用大規(guī)模行人屬性識別數(shù)據(jù)對MAE 模型進行微調(diào),并引入多個典型的行人屬性類別標簽作為監(jiān)督信息,例如性別、年齡和衣著等。
在生成模型的訓練過程中,本文采用原始MAE模型作為預訓練模型,通過增加行人屬性識別相關(guān)的監(jiān)督約束(圖4),從而進一步強化模型對于屬性相關(guān)的常識信息提取,訓練階段馬賽克區(qū)域所占比例(masking ratio,MR)的隨機取值范圍記為[MRlow,MRhigh],在保留關(guān)鍵特征信息的情況下增加生成數(shù)據(jù)的多樣性。
圖4 針對少數(shù)類采用改進的MAE算法進行數(shù)據(jù)生成Fig.4 Data generation using an improved MAE algorithm for small-amount categories
在生成模型的推理過程中,本文在[MRlow,MRhigh]范圍內(nèi)隨機選擇MR 值生成馬賽克圖像并進行復原操作,具體為
式中,E和D分別表示圖像編碼器和解碼器,θ和φ分別為編碼器和解碼器的模型參數(shù),M⊙為馬賽克操作,Iori和Igen分別為原始圖像和生成圖像。
本文采用上述數(shù)據(jù)生成策略,針對屬性識別任務中存在的少數(shù)類數(shù)據(jù),通過MAE 模型生成新樣本,即每個原始圖像得到N幅生成圖像,N的取值為
式中,num為屬性個數(shù),Nl為第l個屬性對應的生成圖像個數(shù),pl為第l個屬性的訓練集正樣本比例,yl為原始圖像的第l個屬性標簽,λ為數(shù)據(jù)增廣系數(shù),round(·)為四舍五入操作。在行人多屬性識別任務中,每個數(shù)據(jù)樣本對應num個屬性標簽(y1,y2,…,ynum)。
在數(shù)據(jù)生成過程中,MR 值的大小將對目標圖像的復原結(jié)果產(chǎn)生影響。如圖5所示,隨著MR值的不斷增加,所生成目標圖像的細節(jié)特征逐漸減少。從對比結(jié)果可以看出,當MR 大于0.9 時,目標馬賽克圖像的可見部分僅為零散分布的少數(shù)局部區(qū)域,但是通過MAE 模型仍然能夠充分挖掘可見區(qū)域的位置關(guān)系等深層信息,從潛在特征中恢復出行人的基本樣貌圖像,同時證明了本文所采用的自編碼器模型有效實現(xiàn)了行人目標的通用特征表示,其中包括各個關(guān)鍵部件之間的位置關(guān)系等常識特征。
圖5 不同MR值的數(shù)據(jù)生成結(jié)果對比Fig.5 Comparison of data generation results for different MR
通過數(shù)據(jù)生成,本文實現(xiàn)了從通用大模型(MAE 自編碼器)到專用小任務(行人屬性識別)的遷移學習和知識增強,如圖6 所示,其中MAE 模型采用自監(jiān)督學習機制,從大規(guī)模無標注數(shù)據(jù)中自主獲取目標的通用特征表示,包含行人目標姿態(tài)等先驗知識,即數(shù)據(jù)背后的目標常識特征,有助于提升行人目標屬性識別的準確性和泛化性。
圖6 從通用大模型到專用小任務的遷移學習Fig.6 Transfer learning from general big models to dedicated small tasks
針對生成模型得到的新樣本數(shù)據(jù),由于存在某些細節(jié)特征丟失,可能導致相關(guān)屬性類別發(fā)生變化。本文采用基于多標簽分類框架的判別模型進行數(shù)據(jù)篩選,如圖7 所示,結(jié)合原始圖像的屬性標簽信息,根據(jù)預測分布的一致性,從中過濾標簽異常的新生成樣本。篩選后的數(shù)據(jù)能夠保留與屬性相關(guān)的關(guān)鍵特征,通過啟發(fā)式的注意力機制,實現(xiàn)基于特征注意力的數(shù)據(jù)判別。
圖7 針對新生成樣本采用多標簽分類框架進行數(shù)據(jù)判別Fig.7 Multi-label classification framework used for data discrimination of newly generated samples
在判別模型的訓練過程中,本文基于多標簽分類框架,采用50 層的殘差網(wǎng)絡模型作為骨干網(wǎng)絡,在原始的屬性識別數(shù)據(jù)集上進行訓練。在訓練過程中采用類別自適應的權(quán)重(Jia 等,2020),即根據(jù)樣本比例自適應調(diào)整損失函數(shù)的權(quán)重,從而緩解原始數(shù)據(jù)不均衡問題對模型精度的影響。
在判別模型的推理過程(圖7)中,本文針對新生成樣本進行數(shù)據(jù)篩選,首先將判別模型輸出的多個屬性標簽分為關(guān)鍵屬性標簽和其他屬性標簽兩類,分別采用判別條件1 和判別條件2 進行篩選,其中Nl取值參見式(2)。
判別條件1:對于關(guān)鍵屬性標簽(Nl>0),若判別模型預測的標簽與原始標簽一致,且輸出的相應置信度值高于閾值τ,則滿足判別條件,否則不滿足;
判別條件2:對于其他屬性標簽(Nl= 0),若判別模型輸出的相應置信度值高于閾值τ,則滿足判別條件,否則不滿足。
根據(jù)上述判別條件對判別模型預測的所有屬性標簽進行逐一篩選,最后選擇每個屬性預測結(jié)果均滿足一致性的新生成樣本。
本文采用上述數(shù)據(jù)判別策略,針對新生成樣本進行數(shù)據(jù)篩選,如圖8 所示,當新生成樣本不滿足一致性判別條件時,則丟棄該樣本,并由生成模型隨機得到新樣本進行補充。通過生成模型與判別模型的相互對抗機制,使得新生成樣本能夠在保留屬性關(guān)鍵特征的情況下實現(xiàn)樣本多樣化,同時篩選后的生成數(shù)據(jù)訓練得到的模型將更加易于學習屬性相關(guān)特征,從而引入啟發(fā)式的模型注意力機制,進一步提升模型的可解釋性與泛化能力。
圖8 通過判別模型引入對抗學習與注意力機制Fig.8 Introducing adversarial learning and attention mechanisms through discriminative model
為了更好地解決行人屬性分類數(shù)據(jù)的樣本不均衡問題,本文在數(shù)據(jù)生成與數(shù)據(jù)篩選相互結(jié)合的基礎上提出漸進式迭代機制,通過兩者相互交替的循環(huán)迭代,逐步優(yōu)化得到類別均衡數(shù)據(jù)集,并通過知識蒸餾框架對不同輪次的判別模型進行有效融合,提升屬性識別模型對多種應用場景的適應能力。
本文采用循環(huán)迭代算法,具體步驟如下:
輸入:原始屬性識別數(shù)據(jù)集Dori,迭代輪數(shù)T。
輸出:類別均衡后的數(shù)據(jù)集Dnew,不同輪次訓練得到的屬性判別模型{M1,···,MT}。
1)D0=Dori;
2)fort= 1 toTdo;
3)通過生成模型擴充Dt-1的少數(shù)類,得到Gt。根據(jù)式(2)每個樣本隨機生成N個新樣本;
4)基于Dt-1訓練得到屬性判別模型Mt;
5)通過判別模型Mt篩選Gt,得到G*t。若新樣本不滿足判別條件1和2,則重新生成;
6)更新當前數(shù)據(jù)集:Dt=Dt-1∪;
7)returnDnew=DT。
本文采用上述循環(huán)迭代策略,經(jīng)過T輪迭代后,得到多個屬性判別模型{M1,···,MT},由于采用不同樣本比例的數(shù)據(jù)集訓練,模型之間具有較好的互補性。因此,本文實現(xiàn)了基于漸進式迭代的蒸餾融合 模 型 PI-DFM(progressive iterations-distillation fusion model),如圖9 所示,以不同迭代輪次的屬性判別模型作為教師模型,并且采用類別均衡后的屬性識別數(shù)據(jù)集Dnew作為訓練數(shù)據(jù)。
圖9 基于漸進式迭代實現(xiàn)蒸餾融合模型Fig.9 Achieving distillation fusion model based on progressive iteration
對于每個訓練樣本Xi,首先通過對不同教師模型的輸出結(jié)果Mt(Xi)進行加權(quán)融合,得到訓練監(jiān)督信息T(Xi),具體為
式中,wt為教師模型Mt所對應的權(quán)重,考慮到數(shù)據(jù)集的類別均衡性隨著迭代輪次增加逐步優(yōu)化,教師模型的準確率也同步實現(xiàn)漸進式提升,因此wt的取值為
然后,針對該樣本預測得到學生模型的輸出結(jié)果S(Xi),其網(wǎng)絡結(jié)構(gòu)與教師模型一致,最后通過計算S(Xi)和T(Xi)之間的KL(Kullback-Leibler)散度(Bagherinezhad 等,2018)作為蒸餾損失函數(shù),具體為
在大規(guī)模實際應用場景下,測試數(shù)據(jù)與已有訓練數(shù)據(jù)的樣本比例可能存在差異,本文通過知識蒸餾框架,融合不同樣本比例數(shù)據(jù)訓練得到的教師模型,能夠有效提升模型在開放不確定場景的泛化能力。
實驗在目前主流的4 種行人屬性識別評測數(shù)據(jù)集上進行。相關(guān)數(shù)據(jù)集的具體參數(shù)情況與常用評測方法(Jia等,2020)一致,如表1所示。
表1 行人屬性識別評測數(shù)據(jù)集的參數(shù)情況Table 1 Parameter configuration of benchmark datasets for pedestrian attributes recognition
實驗中,采用裝有4 張 Nvidia Tesla A100(單張顯卡的顯存大小為40 GB)的GPU 服務器,并基于Pytorch平臺進行模型訓練和推理。
1)生成模型。在模型訓練階段,參考MAE 模型的訓練超參數(shù)(He 等,2022),并增加屬性預測機制,如圖4 所示,在固定編碼器模型參數(shù)的情況下微調(diào)其他模塊,進一步優(yōu)化嵌入特征表示,同時馬賽克區(qū)域所占比例MR的取值范圍為[0.3,0.7];在模型推理階段,數(shù)據(jù)增廣系數(shù)λ的取值為2。
2)判別模型。在模型訓練階段,與常用評測方法(Jia 等,2020)的模型訓練超參數(shù)保持一致,以50 層的殘差網(wǎng)絡模型作為骨干網(wǎng)絡,輸入圖像尺度歸一化為H×W= 256 × 192;在模型推理階段,數(shù)據(jù)判別閾值τ的取值為0.7。
3)漸進式迭代。迭代輪數(shù)T取值為3,通過生成模型與判別模型之間的T次循環(huán)迭代優(yōu)化行人屬性識別精度。在迭代過程中,判別模型的訓練周期數(shù)根據(jù)生成數(shù)據(jù)的增加等比例減少。
在整個訓練和推理過程中,本文沒有對上述超參數(shù)進行調(diào)整,即針對不同數(shù)據(jù)集均采用一致的超參數(shù)。
實驗采用常用評測方法(Jia 等,2020)使用的行人屬性識別評測指標。針對不同屬性,統(tǒng)計全部屬性的平均準確率(mean accuracy,mA);針對不同樣本,統(tǒng)計全部樣本的平均精度(precision,Prec)、平均召回率(Recall)和平均F1 分數(shù)(準確率和召回率的調(diào)和平均,記做F1)。
在測試過程中,本文采用50 層的殘差網(wǎng)絡模型作為基準模型(baseline),并提出基于漸進式迭代的優(yōu)化方法,與多種目前主流的行人屬性識別方法DeepMAR(deep multi attribute recognition)(Li 等,2015)、VAC(visual attention consistency)(Guo 等,2019)和RPAR(rethinking pedestrian attribute recognition)(Jia 等,2020)分別在PA100K、PETA、RAPv1和RAPv2 數(shù)據(jù)集上進行對比,對比算法均采用與行人屬性識別任務常用評測方法(Jia 等,2020)一致的參數(shù)配置,實驗結(jié)果如表2—表5 所示??梢钥闯?,本文方法的mA 和F1 兩個指標均有明顯提升,表明本文方法能夠有效優(yōu)化行人屬性識別結(jié)果。在不增加模型復雜度的情況下,mA 和F1 兩項指標均優(yōu)于目前最優(yōu)的行人屬性識別算法RPAR。
表2 不同算法在PA100K數(shù)據(jù)集上的識別結(jié)果Table 2 Test results on PA100K dataset for different algorithms/%
表3 不同算法在PETA數(shù)據(jù)集上的識別結(jié)果Table 3 Test results on PETA dataset for different algorithms/%
表4 不同算法在RAPv1數(shù)據(jù)集上的識別結(jié)果Table 4 Test results on RAPv1 dataset for different algorithms/%
表5 不同算法在RAPv2數(shù)據(jù)集上的識別結(jié)果Table 5 Test results on RAPv2 dataset for different algorithms/%
實驗進一步將本文算法與目前主流的引入額外模型復雜度的行人屬性識別算法CAS-SAL-FR(cascaded split-and-aggregate learning with feature recombination)(Yang 等,2021)和DBSAN(dual- branch self-attention network)(Liu 等,2022)在PETA 數(shù)據(jù)集上進行對比,并比較了模型復雜度情況,結(jié)果如表6所示??梢钥闯?,本文所提出的算法在模型復雜度最小的情況下得到了較好模型準確率指標,其中F1指標在3種算法中結(jié)果最優(yōu)。
表6 3種算法在PETA數(shù)據(jù)集上的識別結(jié)果Table 6 Test results of three algorithms on PETA
本文提出的迭代優(yōu)化方法是從屬性類別均衡性的角度進行優(yōu)化,與目前主流的行人屬性識別方法具有較好的互補性。本文以RAPv2 數(shù)據(jù)集為例,針對34 個不均衡類別(正樣本所占比例低于10%)的屬性識別結(jié)果進行統(tǒng)計,如圖10 所示,與基準模型結(jié)果相比,通過漸進式迭代優(yōu)化后的屬性識別模型能夠有效緩解類別不均衡的問題,其中每個類別的平均準確率均有明顯提升。
圖10 漸進式迭代優(yōu)化模型與基準模型結(jié)果對比Fig.10 Results of progressive iterative optimization model and baseline model
4.3.1 關(guān)鍵子模塊選取
本文提出的漸進式迭代算法主要包括BA-DGM數(shù)據(jù)生成模塊(記做模塊1)、AF-DDM 數(shù)據(jù)判別模塊(記做模塊2)和PI-DFM 蒸餾融合模塊(記做模塊3)。為了進一步驗證各子模塊的有效性,本文分別采用第1 輪數(shù)據(jù)生成后得到的數(shù)據(jù)(D0+G1)和第1輪數(shù)據(jù)判別后得到的數(shù)據(jù)(D0+G*1)在RAPv2 數(shù)據(jù)集上進行實驗,并與經(jīng)過T輪迭代和蒸餾融合后的最終模型對比,結(jié)果如表7 所示,其中平均值表示mA 和F1 指標的平均,反映了針對不同屬性和針對不同樣本評測指標的綜合評價(參見4.2 節(jié))。實驗結(jié)果表明,3 個主要模塊對于屬性識別的準確率均有提升作用。
表7 3個改進模塊在RAPv2數(shù)據(jù)集上的識別結(jié)果Table 7 Test results of three improvements on RAPv2/%
4.3.2 數(shù)據(jù)判別閾值τ的參數(shù)分析
數(shù)據(jù)判別閾值的選擇需要考慮多個屬性的平均準確率和召回率情況,實驗分別針對4 個訓練集(具體情況參見表1)進行驗證,從中隨機抽取1/5 的樣本數(shù)據(jù)作為驗證集,由其余4/5的樣本數(shù)據(jù)訓練得到判別模型,并統(tǒng)計在不同閾值下的屬性判別結(jié)果平均準確率,結(jié)果如圖11 所示。實驗結(jié)果表明,當判別閾值大于0.7 時,屬性判別的平均準確率較高(94%~98%),繼續(xù)增加閾值后準確率的提升較小(小于1%);另一方面,增加判別閾值將導致滿足過濾條件的屬性樣本減少,以RAPv2 數(shù)據(jù)集為例,當判別閾值由0.7調(diào)整為0.8時,樣本的平均檢出率由77.9%下降至49.8%。因此,根據(jù)上述參數(shù)分析結(jié)果,本文采用判別閾值τ= 0.7,可以同時滿足準確率和召回率要求。
圖11 不同閾值下的屬性判別結(jié)果平均準確率Fig.11 Mean accuracy of attribute discrimination results under different thresholds
4.3.3 MR取值范圍的參數(shù)分析
MR 取值范圍的選擇需要考慮不同馬賽克區(qū)域比例下的新樣本生成情況,本文以RAPv2 數(shù)據(jù)集為例,首先分別對比了不同MR 取值下的新生成樣本通過數(shù)據(jù)判別的比例,如圖12 所示,當MR 大于0.7時,由于丟失了大量細節(jié)特征,導致屬性識別結(jié)果下降,樣本通過數(shù)據(jù)判別的比例低于5%(圖中紅色標注),因此MR 取值范圍的上限MRhigh可以確定為0.7。
圖12 不同MR取值下的新生成樣本通過數(shù)據(jù)判別的比例Fig.12 Passing ratios of data discrimination for newly generated samples under different MR values
進一步地,實驗分別針對不同MRlow取值下訓練得到的判別模型結(jié)果(mA)進行對比分析,結(jié)果如表8 所示,經(jīng)過第1 輪迭代,當MRlow< 0.3 時,由于新樣本的多樣性下降導致模型結(jié)果變差,而當MRlow> 0.3時,由于新樣本的低質(zhì)量比例增加導致模型結(jié)果變差,因此MR取值范圍的下限MRlow可以確定為0.3。
表8 不同MRlow取值下的模型結(jié)果mA對比Table 8 mA comparison of model results under different MRlowvalues
4.3.4 數(shù)據(jù)增廣系數(shù)λ的參數(shù)分析
數(shù)據(jù)增廣系數(shù)的選擇需要考慮生成數(shù)據(jù)集的規(guī)模大小和樣本均衡性,如表9所示,本文以RAPv2數(shù)據(jù)集為例,在不同的λ值下,分別針對第1 次迭代后和第T次迭代后的模型結(jié)果(mA)進行對比。實驗結(jié)果表明,當λ< 2 時,由于生成數(shù)據(jù)集的樣本均衡性變差導致模型精度下降,而當λ> 2 時,由于生成數(shù)據(jù)集的樣本規(guī)模變大影響模型訓練效率,導致經(jīng)過T輪漸進式迭代優(yōu)化后的最終模型精度下降。因此,數(shù)據(jù)增廣系數(shù)λ的取值可以確定為2。
表9 不同λ值下的模型結(jié)果mA對比Table 9 mA comparison of model results under different λvalues/%
本文對數(shù)據(jù)判別的篩選情況進行可視化驗證,如圖13 所示,以戴帽子、戴眼鏡、打電話和穿靴子4 個典型屬性為例,首先針對每個正樣本圖像隨機生成N個(N取100)新樣本,然后使用判別模型進行篩選,最后對通過篩選的新樣本的馬賽克區(qū)域進行實驗分析,統(tǒng)計其中保留的細節(jié)特征的空間概率分布。通過實驗結(jié)果可以發(fā)現(xiàn),數(shù)據(jù)判別能夠較好地保留行人目標關(guān)鍵屬性的相關(guān)特征,從而引入啟發(fā)式的注意力機制;另外,通過深入挖掘不同屬性的相關(guān)特征分布情況,能夠進一步提升判別模型的可解釋性。
圖13 4種典型屬性的數(shù)據(jù)判別篩選情況Fig.13 Filtering results of data discrimination for four typical attributes((a)wearing hat attribute;(b)wearing glasses attribute;(c)phoning attribute;(d)wearing boots attribute)
此外,本文以RAPv2數(shù)據(jù)集為例,驗證T輪迭代后不均衡類別(正樣本所占比例低于10%)的個數(shù)變化情況,如表10 所示,當T的取值為3 時,經(jīng)過T輪迭代,不均衡的類別數(shù)由34減少到0,最終實現(xiàn)了數(shù)據(jù)集的漸進式優(yōu)化。
表10 經(jīng)過T輪迭代后的不均衡類別的變化情況Table 10 Variation of uneven categories after the Tepochs
圍繞行人屬性識別任務中存在的樣本不均衡問題,本文提出了一種基于漸進式迭代的模型和數(shù)據(jù)優(yōu)化方法,通過數(shù)據(jù)生成與數(shù)據(jù)判別的相互對抗,引入啟發(fā)式注意力機制,并構(gòu)建了從MAE 通用大模型到專用小任務的遷移框架,深入挖掘人體目標的常識特征,有效提升了模型的泛化能力。通過與目前主流的行人屬性識別方法進行實驗對比,結(jié)果表明本文提出的數(shù)據(jù)均衡化和漸進式迭代方法與現(xiàn)有的改進方法之間具有良好的互補性,并有助于進一步提升模型的準確性指標。
但是,本文方法存在以下不足之處,需要進一步深入研究。1)在實際場景下行人目標存在相互遮擋等問題,影響數(shù)據(jù)生成和模型迭代效果;2)行人目標的不同屬性之間存在相關(guān)性,影響行人多屬性判別模型的識別效果;3)行人動作姿態(tài)的樣本多樣性對于某些特定屬性(如打電話等動作)的識別準確率影響較大,限制了模型精度的進一步提高。
下一步工作將基于MAE 模型的通用特征表示,融合目標質(zhì)量評價和人體骨架結(jié)構(gòu)等先驗知識,優(yōu)化行人多屬性之間的關(guān)系建模,進一步提升模型的可解釋性。