楊冰,徐丹,張豪遠(yuǎn),羅海妮
(云南大學(xué) 信息學(xué)院,云南 昆明 650000)
近年來,隨著國家實(shí)力的不斷增強(qiáng),為進(jìn)一步提升民族自豪感、認(rèn)同感,大力開展了傳統(tǒng)文化傳承學(xué)習(xí)活動[1],令越來越多的人了解和學(xué)習(xí)少數(shù)民族文化,并對其產(chǎn)生興趣。民族服飾是民族文化的重要載體,反映各民族在歷史文化、宗教信仰、生活習(xí)俗等方面的差異,擁有豐富的文化內(nèi)涵和文化價(jià)值。2008 年,多種少數(shù)民族服飾被列入國家級非物質(zhì)文化遺產(chǎn)名錄民俗類[2]。隨著計(jì)算機(jī)的普及,通過計(jì)算機(jī)對少數(shù)民族服飾圖像進(jìn)行自動分類識別成為可能,這對進(jìn)一步了解、認(rèn)識、弘揚(yáng)民族文化具有重要意義,并在將民族元素融入現(xiàn)代時(shí)尚設(shè)計(jì)中發(fā)揮了重要作用,對備受現(xiàn)代化沖擊的民族文化的保護(hù)和傳承具有現(xiàn)實(shí)意義。
傳統(tǒng)的服飾識別和分類主要依靠人工提取服飾的顏色、紋理、整體的邊緣特征進(jìn)行,方法較為煩瑣且易受光照等影響,分類精度較低。由于少數(shù)民族服飾的細(xì)節(jié)特征信息較多,加之受光照、背景的影響,圖像的分類識別難度較大。本文針對少數(shù)民族服飾的分類問題,在現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)DenseNet基礎(chǔ)上,提出一種多尺度局部與全局注意力機(jī)制融合的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型在收集到的9 類少數(shù)民族服飾數(shù)據(jù)集分類上取得了不錯的效果。
服飾分類問題一直是研究的熱點(diǎn),近年來,隨著電商的發(fā)展,涌入了海量服飾圖片,用人工方法分類不再現(xiàn)實(shí),基于圖像的服飾分類方法逐漸受關(guān)注。SHEN 等[3]通過姿勢估計(jì),基于通過對應(yīng)人體部位與服飾屬性之間的相關(guān)性,提高了服飾識別性能。BOSSARD 等[4]建立了自然場景中服飾的識別流程,用人體檢測器實(shí)現(xiàn)對服飾的檢測,然后采用隨機(jī)森林和支持向量機(jī)對服飾圖像進(jìn)行分類。CHEN等[5]提出用語義屬性與姿勢結(jié)合的方法提取服飾特征,通過探索屬性之間的相互依賴性,建立了服飾風(fēng)格識別規(guī)則。SURAKARIN 等[6]為減少單一特征受外界干擾,通過線性反投影算法將紋理特征與加速魯棒特征相融合,使服飾平均分類準(zhǔn)確率達(dá)64.29%。上述服飾分類方法大多基于傳統(tǒng)圖像特征和人體檢測方法,但服飾在多數(shù)場景下較為復(fù)雜,且受光照、形變等影響,識別率較低。
近年來,深度學(xué)習(xí)發(fā)展迅猛,在很多領(lǐng)域取得了不錯的成績,在圖像領(lǐng)域的應(yīng)用也越來越廣泛。LAO 等[7]通過訓(xùn)練神經(jīng)網(wǎng)絡(luò),基于神經(jīng)網(wǎng)絡(luò)搭建了一個(gè)服飾特征提取網(wǎng)絡(luò),并利用K鄰近方法對服飾的類型和屬性進(jìn)行檢索分類。DONG 等[8]為提高網(wǎng)絡(luò)模型的特征提取尺度與豐富性,在VGGNet 模型上加入空間池化金字塔,進(jìn)一步提高了服飾的識別率。包青平等[9]提出一種基于度量學(xué)習(xí)的服飾分類方法,在訓(xùn)練模型時(shí)加入距離和三元組損失函數(shù),對服飾圖像進(jìn)行細(xì)粒度分類。以上針對服飾圖像的分類方法,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),融合不同的服飾圖像信息,提出了更適合服飾分類的損失函數(shù),豐富了圖像特征信息,進(jìn)一步提高了服飾分類的準(zhǔn)確率。
在民族服飾分類方面,一直鮮有關(guān)注。吳圣美等[10]提出結(jié)合人體檢測的多任務(wù)學(xué)習(xí)的少數(shù)民族服飾識別方法,通過將底層特征和語義特征相結(jié)合,訓(xùn)練多任務(wù)支持向量機(jī)分類器模型進(jìn)行民族服飾的分類。程遠(yuǎn)菲[11]通過分割提取服飾上的服飾圖騰,利用HOG+Hu 的方法進(jìn)行特征提取,并通過支持向量機(jī)分類器進(jìn)行分類。以上方法均利用SIFT,HOG 等底層特征對服飾或少數(shù)民族圖騰進(jìn)行分類。NAWAZ 等[12]建立了民族服飾數(shù)據(jù)集,并以CNN模型為基礎(chǔ),加入Inception 結(jié)構(gòu)完成分類任務(wù),并比較了幾種反向傳播算法對模型的影響,最終選擇梯度優(yōu)化均方根反向傳播方法,該方法對民族服飾分類的準(zhǔn)確率達(dá)89.22%。
以上的少數(shù)民族服飾識別方法大多只考慮服飾本身的特征,忽略了其在自然場景中受光照、背景等的影響。
圖1 展示了部分少數(shù)民族服飾圖片,可見民族服飾蘊(yùn)含的顏色和細(xì)節(jié)特征信息較為豐富,不同少數(shù)民族的服飾樣式存在差異,同一民族的服飾在外形和顏色上也區(qū)別很大,因此無法利用單一的特征對少數(shù)民族服飾進(jìn)行描述和識別。由于服飾圖像受光照、背景和形變的影響,用傳統(tǒng)的圖像提取分類方法效果一般。針對以上問題設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)的多尺度注意力結(jié)合的少數(shù)民族服飾分類網(wǎng)絡(luò):(1)提出局部和全局結(jié)合的注意力機(jī)制,通過融合來自網(wǎng)絡(luò)中不同方面的注意力機(jī)制,忽略不相關(guān)信息,以提升對有效信息的提取能力。選擇計(jì)算量較小、可更好地利用提取特征的網(wǎng)絡(luò);(2)提出一種多尺度密集連接的特征提取單元,以增強(qiáng)模型對少數(shù)民族服飾中細(xì)節(jié)信息的提取。選擇計(jì)算量較小、可更好地利用提取特征的網(wǎng)絡(luò);(3)選擇分類準(zhǔn)確率高、計(jì)算量小、可充分利用提取特征進(jìn)行分類的網(wǎng)絡(luò)。
圖1 部分少數(shù)民族服飾圖片F(xiàn)ig.1 Part of ethnic costume pictures
由于目前缺少標(biāo)準(zhǔn)可靠的少數(shù)民族服飾圖像數(shù)據(jù)集,本文通過采集少數(shù)民族服飾圖片建立少數(shù)民族服飾圖像數(shù)據(jù)集。通過互聯(lián)網(wǎng)搜索引擎在淘寶、京東等網(wǎng)站搜索相應(yīng)民族名稱得到少數(shù)民族服飾圖片,用爬蟲工具下載,經(jīng)篩選和整理建立數(shù)據(jù)集,確保圖像的數(shù)量和廣泛性。通過研究少數(shù)民族服飾發(fā)現(xiàn),女性服飾更能體現(xiàn)少數(shù)民族的特色,所以收集的圖片以女性服飾為主。
由于爬蟲程序是自動下載的,存在與目標(biāo)民族不符的圖像,為此對下載的服飾圖片進(jìn)行適當(dāng)?shù)娜斯ずY選。去除不屬于服飾類的圖片,去除水印過多的圖片,去除分辨率較低的圖片。篩選后的數(shù)據(jù)集包含9 種少數(shù)民族服飾圖片,共計(jì)1 607 張。因?yàn)閺幕ヂ?lián)網(wǎng)下載的圖片格式多種多樣,有JPG、JPEG、PNG、BMP 等,給后續(xù)實(shí)驗(yàn)帶來不便,為此將所有圖片統(tǒng)一轉(zhuǎn)換為JPG 格式。表1 為收集的圖像數(shù)據(jù)集分布的詳細(xì)情況。
表1 圖像數(shù)據(jù)集詳細(xì)情況Table 1 Image data set details
由于少數(shù)民族服飾圖片是從網(wǎng)上下載的,存在噪聲且分辨率不同等問題,對后續(xù)識別造成影響,需進(jìn)行圖像預(yù)處理操作,即處理成符合實(shí)驗(yàn)要求的圖像。首先,采用中值濾波方法對圖像進(jìn)行去噪處理,在去除噪聲的同時(shí)更大程度保留圖像的細(xì)節(jié)特征。其次,用雙三次插值方法統(tǒng)一圖像的分辨率。
現(xiàn)有數(shù)據(jù)集中每類樣本數(shù)均較少,而基于監(jiān)督神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法往往需要大量數(shù)據(jù),否則數(shù)據(jù)較少可能無法更好地進(jìn)行網(wǎng)絡(luò)泛化,易陷入過擬合境地。在數(shù)據(jù)量不足的情況下,數(shù)據(jù)增強(qiáng)通常是較有效的解決方法之一。
圖2 展示的是部分?jǐn)?shù)據(jù)增強(qiáng)后的示例。采用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、隨機(jī)摳取的方式進(jìn)行圖像增強(qiáng),以增加樣本的多樣性。
圖2 數(shù)據(jù)增強(qiáng)方法Fig.2 Data enhancement method
從少數(shù)民族服飾分類的角度出發(fā),結(jié)合當(dāng)下在圖像分類領(lǐng)域取得巨大突破的DenseNet 卷積神經(jīng)網(wǎng)絡(luò)算法,設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的服飾分類算法模型。雖然基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法在各大數(shù)據(jù)集競賽中都取得了不俗的成績,但少數(shù)民族服飾分類尚存在一些難以解決的問題。本文以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)模型,對其進(jìn)行了改進(jìn)與優(yōu)化,設(shè)計(jì)了多尺度密集連接單元,以提高模型提取特征的能力,更好地提取少數(shù)民族服飾中的細(xì)節(jié)特征,進(jìn)而提升模型的識別能力。為增強(qiáng)模型的魯棒性,選用局部和全局注意力機(jī)制進(jìn)行輔助分類,以減少光照、衣服形變、背景等因素的影響,輔助提高模型的分類效果。
由于制作的少數(shù)民族服飾圖像數(shù)據(jù)集數(shù)量有限,VGGNet[13]、inception[14]模型的參數(shù)較多、結(jié)構(gòu)較為繁雜,易產(chǎn)生過擬合,且少數(shù)民族服飾細(xì)節(jié)特征較多。DenseNet 神經(jīng)網(wǎng)絡(luò)不但訓(xùn)練參數(shù)較少,而且其密集連接的方式使提取的特征能得到充分利用,因此采用DenseNet 神經(jīng)網(wǎng)絡(luò)。
DenseNet 由HUANG 等[15]于2017 年提出,在保證網(wǎng)絡(luò)層與層之間實(shí)現(xiàn)最大程度信息傳輸?shù)那疤嵯拢苯訉⑺袑酉噙B接,從而減輕梯度消失,加強(qiáng)特征間的傳遞,更有效地利用特征,一定程度上減少了參數(shù)數(shù)量。
DenseNet 中的密集連接機(jī)制,可互相連接所有的層,每層均接受前面所有層的輸出,并將其作為額外輸入。映射公式為
其中,xl為第l層的輸出,[x0,x1,…,xl?1]為各層產(chǎn)生的特征圖的拼接,Hl(·)為非線性轉(zhuǎn)換函數(shù)。
圖3 所示為DenseNet 網(wǎng)絡(luò)結(jié)構(gòu),可知每層均與前面所有層在通道維度上相連接,并作為下一層的輸入。DenseNet 通過直接拼接來自不同層的特征圖,實(shí)現(xiàn)特征的復(fù)用,提升效率。
圖3 DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 DenseNet network structure
本文選取DenseNet 網(wǎng)絡(luò)中的DenseNet-BC 作為基礎(chǔ)網(wǎng)絡(luò),與DenseNet 相比,相同深度的DenseNet-BC 網(wǎng)絡(luò)參數(shù)更少、更節(jié)省內(nèi)存,可減少過擬合。DenseNet-BC 由卷積層、密集連接塊、過渡層和輸出層構(gòu)成。每個(gè)密集連接塊中的子結(jié)構(gòu)分別由一個(gè)1×1 卷積層和一個(gè)3×3 卷積層組成,且每層的輸出特征數(shù)是固定的,方便與各子結(jié)構(gòu)拼接;每個(gè)傳輸層均由一個(gè)1×1 的卷積層和一個(gè)池化層組成,作為瓶頸層放在2 個(gè)密集連接塊的中間,起降維作用;最后輸出層經(jīng)過平均池化層和全連接層,用Softmax 分類器輸出分類結(jié)果。
密集連接網(wǎng)絡(luò)由一系列密集連接的特征提取單元組成,每個(gè)單元包括恒等映射和特征提取兩部分,采用如圖4(a)所示的結(jié)構(gòu),即BN+ReLU+1×1 Conv+BN+ReLU+3×3Conv 的連接方式進(jìn)行特征提取。其中1×1 的卷積層具有降低特征數(shù)量、提升計(jì)算效率的作用。單一卷積核可提取的特征信息較有限,從而限制了模型的分類性能。為提取更多的服飾特征信息,采用多尺度密集方法,對密集單元結(jié)構(gòu)進(jìn)行改進(jìn),改進(jìn)后的結(jié)構(gòu)如圖4(b)所示。
圖4 DenseNet 單元結(jié)構(gòu)Fig.4 DenseNet unit structure
在單元結(jié)構(gòu)中加入一個(gè)新分支,與原特征提取層構(gòu)成多尺度密集連接單元。新分支包括:先通過一個(gè)較小的1×1 卷積對上一層特征進(jìn)行降維,以減少計(jì)算量;再通過2 個(gè)3×3 卷積提取特征,利用2 個(gè)3×3 卷積代替一個(gè)5×5 卷積核,不但擴(kuò)展了特征提取的感受野,而且能更有效地控制網(wǎng)絡(luò)參數(shù)量的增加;最后分別將2 個(gè)分支的輸出相加得到多尺度特征。相加操作可在不增加網(wǎng)絡(luò)參數(shù)的情況下保留最多的特征信息。通過提取少數(shù)民族服飾的深層次特征,將少數(shù)民族服飾與各種不同尺度的特征融合,進(jìn)而提升分類準(zhǔn)確率。
注意力機(jī)制在圖像領(lǐng)域的應(yīng)用越來越廣泛,在特征提取中融入了通道注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu),關(guān)注特征的通道域,通道注意力機(jī)制構(gòu)成網(wǎng)絡(luò)中進(jìn)行關(guān)鍵特征提取的參數(shù)。如SENet[16]、CBAM[17]等注意力機(jī)制,能使網(wǎng)絡(luò)過濾掉與結(jié)果不相關(guān)的信息,將更多的關(guān)注點(diǎn)放在對結(jié)果產(chǎn)生正向影響的信息的獲取上[18]。SENet 采用平均池化方法壓縮空間維度,提取紋理特征;CBAM 中的通道注意力將平均池化結(jié)果與最大池化結(jié)果相加,以提取通道特征。以上注意力機(jī)制都只關(guān)注注意力分支的參數(shù),忽略了模型的全局注意力。
為充分保留紋理信息,本文提出一種適用于DenseNet 網(wǎng)絡(luò)的局部與全局相結(jié)合的注意力機(jī)制,對特征提取網(wǎng)絡(luò)層的構(gòu)造進(jìn)行修改,在卷積層的特征提取階段添加局部與全局相結(jié)合的注意力機(jī)制,以增強(qiáng)特征提取功能,如圖5 所示。
圖5 融合注意力機(jī)制的密集連接單元Fig.5 Dense connection unit incorporating attention mechanism
首先,為更好地控制網(wǎng)絡(luò)參數(shù)量和提取圖像通道之間的特征,通過平均池化在空間維度上對輸入進(jìn)行壓縮,再根據(jù)空間維度進(jìn)行特征壓縮。得到的實(shí)數(shù)不僅代表特征在通道上的全局分布,而且可有效控制參數(shù)量的增加。
其中,uc為輸入特征中第c通道的特征圖;H與W分別為特征圖的寬和高;Zc為特征圖在坐標(biāo)位置的取值。
其次,連接2 個(gè)1×1 卷積層和1 個(gè)ReLu 層學(xué)習(xí)權(quán)重參數(shù)。在實(shí)驗(yàn)中發(fā)現(xiàn),利用1×1 卷積層進(jìn)行權(quán)重學(xué)習(xí)的效果優(yōu)于全連接層。第1 個(gè)1×1 卷積層是將2 個(gè)輸入分別進(jìn)行一定比例的縮放,使其具有相同的通道數(shù),再將2 個(gè)輸入相加,得到局部和全局注意力。將第2 個(gè)卷積的輸出設(shè)置為與每個(gè)特征提取層輸出的通道數(shù)相同;利用Sigmoid 函數(shù)生成通道權(quán)重。為每個(gè)特征通道生成權(quán)重,特征通道間的相關(guān)性可表示為
其中,W為學(xué)習(xí)后的全連接層權(quán)重;zg和zp分別為經(jīng)過特征壓縮后的全局和局部通道響應(yīng);σ為ReLu激活函數(shù);δ為Sigmoid 函數(shù)。
最后,將輸出的具有局部和全局通道特征的權(quán)重與輸出特征相乘,完成對通道維度原始特征的標(biāo)定。公式為
其中,sc′為第c′個(gè)特征圖的權(quán)重。
通過將局部和全局的注意力融合,網(wǎng)絡(luò)更好地將更多的注意力特征結(jié)合,在特征提取時(shí),更多地關(guān)注重要信息,忽略背景等不相關(guān)信息,去除干擾,提高模型的識別率。
改進(jìn)的DenseNet-BC 模型的結(jié)構(gòu)與DenseNet模型大體一致。如表2 所示,首先,保持原有卷積層的結(jié)構(gòu)不變。然后,將密集連接塊中所有卷積層替換為多尺度卷積層。同時(shí),在密集連接塊的每層中嵌入注意力機(jī)制。最后,保留原全局平均池化層與全連接層。
表2 改進(jìn)的DenseNet-BC 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Improved DenseNet-BC network structure
實(shí)驗(yàn)在Ubuntu16.04 系統(tǒng)下,采用Python 語言,Pytorch 深度學(xué)習(xí)框架完成。硬件環(huán)境為CPU IntelI7-9700K,內(nèi) 存4 GB,顯 卡Nvidia GeForce RTX 1070Ti。
實(shí)驗(yàn)數(shù)據(jù)集為制作的少數(shù)民族服飾圖像數(shù)據(jù)集,按照8∶2 的比例將1 607 張圖片隨機(jī)分為訓(xùn)練集和測試集,訓(xùn)練集1 285 張,測試集322 張。采用數(shù)據(jù)增強(qiáng)方法將訓(xùn)練集擴(kuò)增5 倍,達(dá)6 425 張。
實(shí)驗(yàn)采用Adam 優(yōu)化算法訓(xùn)練模型,動量系數(shù)為0.9,迭代次數(shù)設(shè)為400,初始學(xué)習(xí)率設(shè)為0.001,學(xué)習(xí)率按照前160 次每80 個(gè)輪次改變一次,后240 次每40 個(gè)輪次改變一次,衰減系數(shù)為0.5。用交叉熵?fù)p失函數(shù)(Loss)訓(xùn)練優(yōu)化模型,表達(dá)式為
用準(zhǔn)確率(Accuracy)作為模型的評價(jià)指標(biāo),Accuracy 越高,表示模型的預(yù)測值與真實(shí)值越接近。假設(shè)TP 代表預(yù)測為正、實(shí)際為正的圖片數(shù)量,TN代表預(yù)測為負(fù)、實(shí)際為負(fù)的圖片數(shù)量,F(xiàn)P 代表預(yù)測為正、實(shí)際為負(fù)的圖片數(shù)量,F(xiàn)N 代表預(yù)測為負(fù)、實(shí)際為正的圖片數(shù)量,則
為驗(yàn)證所提出的改進(jìn)的DenseNet-BC 模型的有效性和穩(wěn)定性,將其與DenseNet 和ResNet-34 模型在少數(shù)民族服飾圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,對比分析各模型的準(zhǔn)確率。如圖6 所示,在前50 個(gè)輪次中,3 個(gè)模型均整體呈上升趨勢,改進(jìn)的DenseNet-BC模型準(zhǔn)確率上升較快;隨著輪次的增加,DenseNet和ResNet-34 模型的準(zhǔn)確率逐漸上升,訓(xùn)練至360個(gè)輪次時(shí),3 個(gè)模型的準(zhǔn)確率均趨于穩(wěn)定;網(wǎng)絡(luò)穩(wěn)定后,改進(jìn)的DenseNet-BC 模型的準(zhǔn)確率最高,且抖動幅度最小,更穩(wěn)定。
圖6 不同模型在數(shù)據(jù)集上的準(zhǔn)確率Fig.6 The accuracy of different models on the dataset
為驗(yàn)證注意力機(jī)制模塊和特征融合模塊的有效性,進(jìn)行了消融實(shí)驗(yàn)。表3 所列為模型整體準(zhǔn)確率和單組合準(zhǔn)確率,可知只包含多尺度密集連接單元的多尺度DenseNet 模型準(zhǔn)確率為94.84%,融合多尺度密集連接單元和局部與全局注意力機(jī)制的DenseNet-BC 模型準(zhǔn)確率為95.18%。注意力機(jī)制和局部與全局相結(jié)合的注意力機(jī)制二者均能顯著提高模型的準(zhǔn)確率。
表3 不同組合的實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of experimental results of different combinations
為進(jìn)一步驗(yàn)證本文提出的注意力機(jī)制的有效性,分別與添加了SENet 和CBAM 注意力機(jī)制的多尺度DenseNet 進(jìn)行了對比,結(jié)果如表4 所示。對比發(fā)現(xiàn),加入SENet 注意力機(jī)制后模型準(zhǔn)確率降低了1.66%;加入CBAM 注意力機(jī)制后模型準(zhǔn)確率提高了0.12%;而本文方法的準(zhǔn)確率提高了0.34%。由此可知,本文提出的局部與全局結(jié)合的注意力機(jī)制對模型的分類準(zhǔn)確率提升更大,能令網(wǎng)絡(luò)提取更多的有效特征信息。
表4 不同注意力機(jī)制的實(shí)驗(yàn)結(jié)果對比Table 4 Comparison of experimental results of different attention structures
本文提出的改進(jìn)的DenseNet-BC 模型與其他模型的準(zhǔn)確率對比結(jié)果如表5 所示,可知加入SENet 注意力機(jī)制后模型的性能不如預(yù)期,加入CBAM 注意力機(jī)制后模型性能提升也十分有限。在CBAM 注意力機(jī)制中加入空間注意力機(jī)制性能提升有限,可能由其模塊為減少參數(shù)特征將特征進(jìn)行的全局平均池化和平均池化造成,因?yàn)檩^暴力的維度壓縮可能會嚴(yán)重丟失特征。本文提出的局部與全局相結(jié)合的注意力機(jī)制對模型的分類準(zhǔn)確率提升更大,能令網(wǎng)絡(luò)提取更多的有效特征信息。
表5 各模型準(zhǔn)確率對比Table 5 Comparison of accuracy of different models
針對少數(shù)民族服飾細(xì)節(jié)較為繁雜這一問題,構(gòu)建了一種改進(jìn)的DenseNet-BC 神經(jīng)網(wǎng)絡(luò)算法,通過構(gòu)建改進(jìn)特征提取單元并融合注意力機(jī)制,更高效、準(zhǔn)確地提取各分類的圖像特征,并在少數(shù)民族服飾數(shù)據(jù)集上取得了95.18%的平均準(zhǔn)確率,較現(xiàn)有分類算法的準(zhǔn)確率有一定提升。
民族服飾種類繁雜,形式變化多樣,男性和女性的服飾差異較大,不同年齡段的服飾也存在差異。為提高檢測準(zhǔn)確率,需進(jìn)一步豐富訓(xùn)練數(shù)據(jù)量、增加多樣性,同時(shí)需對數(shù)據(jù)集進(jìn)行多標(biāo)簽標(biāo)定,優(yōu)化網(wǎng)絡(luò)和訓(xùn)練方法,對民族服飾進(jìn)行多標(biāo)簽訓(xùn)練。