候紅濤,汪 威,申紅婷,劉 寬,楊秀璋,羅子江
(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025;2.北京盛開(kāi)智聯(lián)科技有限公司,北京 101300)
少數(shù)民族服飾傳統(tǒng)文化是整個(gè)中華民族文化的瑰寶,對(duì)其紋理樣式、繡花雕飾、圖騰標(biāo)志、頭飾繡花的研究,能有效地保護(hù)和傳承少數(shù)民族服飾傳統(tǒng)文化,并對(duì)將民族元素融入現(xiàn)代時(shí)尚中起著重要的作用[1-4]。當(dāng)今社會(huì),許多學(xué)者對(duì)非物質(zhì)文化的傳承和保護(hù)進(jìn)行研究,但這些研究大多數(shù)都還停留在傳統(tǒng)的人工處理階段,通過(guò)博物館收藏服飾和人工分類(lèi)來(lái)進(jìn)行靜態(tài)保護(hù),較少有人對(duì)這些服飾進(jìn)行自動(dòng)分類(lèi)和識(shí)別研究[5]。面對(duì)海量的少數(shù)民族服飾圖像,人工分類(lèi)方法效率低且成本高,無(wú)法滿足信息化時(shí)代對(duì)少數(shù)民族服飾圖像自動(dòng)分類(lèi)提出的新要求。同時(shí),受光照強(qiáng)度、拍攝角度、紋理精小、背景復(fù)雜等因素影響,少數(shù)民族服飾圖像識(shí)別率較低,傳統(tǒng)的圖像分類(lèi)效果不理想。因此,利用數(shù)字化方法和計(jì)算機(jī)技術(shù)來(lái)自動(dòng)提取少數(shù)民族服飾元素,對(duì)海量民族服飾圖像進(jìn)行分類(lèi)具有重要的研究意義和應(yīng)用價(jià)值[6]。
本文提出一種基于自適應(yīng)圖像增強(qiáng)和卷積神經(jīng)網(wǎng)絡(luò)的少數(shù)民族服飾圖像分類(lèi)算法,通過(guò)計(jì)算復(fù)雜環(huán)境下的少數(shù)民族服飾圖像的均值亮度來(lái)判斷,采用不同算法進(jìn)行圖像增強(qiáng)處理,使圖像具有更強(qiáng)的魯棒性和適用性;接著利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練不同少數(shù)民族服飾圖像的局部特征,學(xué)習(xí)少數(shù)民族服飾的不同風(fēng)格和紋理特色,最終實(shí)現(xiàn)服飾圖像的自動(dòng)分類(lèi)。該技術(shù)也可以廣泛運(yùn)用于各領(lǐng)域的圖像分類(lèi)處理。
隨著計(jì)算機(jī)視覺(jué)迅速發(fā)展,圖像分類(lèi)技術(shù)已廣泛應(yīng)用于各行各業(yè),比如農(nóng)產(chǎn)品檢測(cè)[7]、車(chē)牌識(shí)別[8]、醫(yī)學(xué)圖像分類(lèi)[9]、車(chē)型分類(lèi)[10]、手寫(xiě)文字識(shí)別[11]、人臉表情識(shí)別[12]、疲勞駕駛檢測(cè)[13]等。目前,將計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用到民族服飾文化研究還處于初步階段,部分學(xué)者提出了相關(guān)方法,主要是通過(guò)KNN、SVM、決策樹(shù)等機(jī)器學(xué)習(xí)算法對(duì)少數(shù)民族服飾圖像進(jìn)行分類(lèi)[4],基本流程如圖1所示。利用計(jì)算機(jī)提取民族服飾圖像的灰度、顏色、紋理、形狀等底層特征,再用訓(xùn)練好的分類(lèi)器進(jìn)行預(yù)測(cè),以代替人類(lèi)的視覺(jué)判斷。
圖1 傳統(tǒng)的圖像分類(lèi)算法流程圖
陳金廣等[14]采用SIFT 和SURF 算法提取清代宮廷服飾圖案,并通過(guò)最優(yōu)節(jié)點(diǎn)優(yōu)先算法對(duì)所提取的特征匹配點(diǎn)進(jìn)行確認(rèn)。Hu 等[15]采用分類(lèi)算法對(duì)服飾的底層特征進(jìn)行分析。吳圣美等[4]通過(guò)融合多任務(wù)學(xué)習(xí)和人體檢測(cè)來(lái)識(shí)別少數(shù)民族服裝。程遠(yuǎn)菲[5]利用支持向量機(jī)建立分類(lèi)模型,對(duì)提取的HOG 和融合特征進(jìn)行少數(shù)民族服飾分類(lèi)識(shí)別。曹春梅[16]改進(jìn)了基于RANSAC 的特征點(diǎn)匹配算法,從而提升民族服飾圖案識(shí)別準(zhǔn)確率。Hidayati 等[17]通過(guò)基于視覺(jué)可區(qū)分的服裝設(shè)計(jì)元素算法自動(dòng)分類(lèi)不同風(fēng)格的服裝。Bossard 等[18]采用隨機(jī)森林和SVM 算法對(duì)服飾圖像進(jìn)行分類(lèi),并提出一套完整的檢測(cè)流程。但上述方法缺乏對(duì)少數(shù)民族服飾的細(xì)節(jié)特征學(xué)習(xí)和語(yǔ)義信息分析,并且由于少數(shù)民族服飾圖像受人體姿勢(shì)、拍攝角度及視覺(jué)遮擋等影響,降低了圖像分類(lèi)和識(shí)別的準(zhǔn)確率。
本文所提出算法的整體框架如圖2所示。
圖2 本文算法的整體框架圖
(1)首先自定義爬蟲(chóng)采集少數(shù)民族服飾圖像,構(gòu)建包含了5 種少數(shù)民族服飾的圖像數(shù)據(jù)集,并按照訓(xùn)練集和測(cè)試集7∶3 的比例進(jìn)行隨機(jī)劃分。
(2)其次,分別對(duì)訓(xùn)練集和測(cè)試集圖像進(jìn)行預(yù)處理和自適應(yīng)圖像增強(qiáng)操作,判斷圖像的光線、亮度、背景等復(fù)雜環(huán)境,通過(guò)圖像增強(qiáng)過(guò)濾噪聲。
(3)接著提取少數(shù)民族服飾圖像的特征,并利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練分類(lèi)器,獲取各少數(shù)民族服飾的細(xì)節(jié)信息和紋飾特征。
(4)最后利用訓(xùn)練好的分類(lèi)器對(duì)待識(shí)別圖像進(jìn)行預(yù)測(cè),判斷其少數(shù)民族服飾圖像所屬的民族。
卷積層旨在提取輸入圖像的數(shù)據(jù)特征。通過(guò)卷積核的滑動(dòng)來(lái)過(guò)濾輸入圖像的各個(gè)子區(qū)域,將過(guò)濾器與對(duì)應(yīng)位置的圖像像素做乘積求和運(yùn)算,其卷積操作如公式(1)所示。
式中,yi表示卷積后的結(jié)果,wi表示卷積核的參數(shù),xi表示原始圖像的像素值。CNN將輸入圖像卷積的過(guò)程映射到神經(jīng)網(wǎng)絡(luò)中,如公式(2)所示。
其中,表示第l層的第j個(gè)特征圖所對(duì)應(yīng)的卷積核,表示輸出特征圖的偏置項(xiàng),表示第l-1 層的第i個(gè)特征圖,Mj表示選擇的輸入圖的集合,f表示激活函數(shù)。
池化層旨在降低數(shù)據(jù)維度,減少數(shù)據(jù)量,同時(shí)能保持圖像特征統(tǒng)計(jì)屬性并有效避免過(guò)擬合現(xiàn)象。池化層的計(jì)算公式如(3)所示。
其中,表示對(duì)應(yīng)的系數(shù),表示第l層第j個(gè)特征圖的偏置項(xiàng),down表示采樣函數(shù)。
本文的圖像分類(lèi)模型如圖3所示,輸入圖像為5個(gè)民族的彩色女性少數(shù)民族服飾圖像,經(jīng)過(guò)第一個(gè)卷積層并調(diào)用ReLU 函數(shù)激活,輸出維度為28×28×20,再經(jīng)過(guò)第一個(gè)池化層處理,輸出維度為14×14×20;經(jīng)過(guò)第二個(gè)卷積層并調(diào)用ReLU 函數(shù)激活,輸出維度為10×10×40,再經(jīng)過(guò)第二個(gè)池化層處理,輸出維度為5×5×40;通過(guò)兩個(gè)全連接層并調(diào)用Dropout 解決過(guò)擬合現(xiàn)象;最終輸出層為5 個(gè)特征,分別代表白族、苗族、蒙古族、維吾爾族和藏族的服飾圖像分類(lèi)結(jié)果。該算法通過(guò)圖像多層卷積和池化,逐漸提取深層次的圖像特征和少數(shù)民族服飾細(xì)節(jié)信息,從而優(yōu)化圖像分類(lèi)結(jié)果。
圖3 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)模型
本文提出算法在進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)計(jì)算之前,針對(duì)不同的環(huán)境進(jìn)行自適應(yīng)圖像增強(qiáng)處理。在原有圖像分類(lèi)基礎(chǔ)上增加了圖像亮度溢出值的范圍判斷和圖像增強(qiáng)處理,為進(jìn)一步的少數(shù)民族服飾圖像分類(lèi)提供良好的環(huán)境,提高分類(lèi)準(zhǔn)確率。
該算法基本流程如圖4所示,其過(guò)程為:首先獲取圖像像素的均值亮度,再由均值亮度判斷少數(shù)民族服飾是否進(jìn)行圖像增強(qiáng)處理;當(dāng)均值亮度大于等于180時(shí),圖像處于曝光狀態(tài),明暗程度不均衡,此種情況采用伽馬變換降低對(duì)比度,提高圖像明暗程度,實(shí)現(xiàn)圖像增強(qiáng)處理;當(dāng)均值亮度在100 至180 之間時(shí),圖像是足夠清晰的,不需要進(jìn)行圖像增強(qiáng),直接輸入原始圖像進(jìn)行后續(xù)的圖像分類(lèi);當(dāng)均值亮度在40 至100之間時(shí),圖像明暗程度會(huì)出現(xiàn)暗部區(qū)域較廣泛的現(xiàn)象,采用自動(dòng)色彩均衡算法處理,提高對(duì)比度并增強(qiáng)色彩均衡;當(dāng)均值亮度小于40時(shí),圖像明暗程度趨于暗部,此時(shí)采用彩色直方圖均衡算法進(jìn)行圖像增強(qiáng),能夠在提高圖像對(duì)比度的同時(shí),保留原圖像的細(xì)節(jié)。
圖4 自適應(yīng)圖像增強(qiáng)算法流程圖
2.3.1 伽馬變換
伽瑪變換主要用于圖像增強(qiáng)或校正。其原理是降低灰度過(guò)高的像素值,增強(qiáng)灰度過(guò)低的像素值,從而增強(qiáng)圖像的對(duì)比度。如公式(4)所示。
圖5展示了白族服飾圖像經(jīng)過(guò)伽馬變換前后的對(duì)比效果,拉伸后的圖像色彩更均衡,細(xì)節(jié)更清晰,且保真程度極高。
圖5 伽馬變換圖像增強(qiáng)前后對(duì)比圖
2.3.2 自動(dòng)色彩均衡算法
Retinex 算法是典型的圖像增強(qiáng)算法,它根據(jù)人類(lèi)視網(wǎng)膜和大腦皮層模擬對(duì)物體顏色的波長(zhǎng)光線反射能力而形成,對(duì)圖像邊緣有一定自適應(yīng)增強(qiáng)。自動(dòng)色彩均衡(automatic color enhancement,ACE)算法是在Retinex 算法的理論基礎(chǔ)上提出的,旨在利用目標(biāo)像素點(diǎn)和周?chē)袼攸c(diǎn)的明暗程度及關(guān)系來(lái)校正圖像,實(shí)現(xiàn)圖像的對(duì)比度調(diào)整。其計(jì)算公式如下所示:
其中,w是權(quán)重參數(shù),g是對(duì)比度調(diào)節(jié)參數(shù),其計(jì)算方法如公式(6)所示,a表示控制參數(shù),該值越大細(xì)節(jié)增強(qiáng)越明顯。
圖6 是苗族女性服飾圖像經(jīng)過(guò)ACE 算法圖像增強(qiáng)處理后的對(duì)比圖,ACE 算法增強(qiáng)原圖像的明暗程度,同時(shí)更好地保留原圖像的細(xì)節(jié)信息,比如圖6中的苗族銀飾。
圖6 苗族服飾圖像增強(qiáng)前后對(duì)比圖
2.3.3 彩色直方圖均衡化算法
民族服飾圖像的直方圖均衡化處理能增強(qiáng)圖像的對(duì)比度,提高圖像的細(xì)節(jié)。當(dāng)均值亮度小于40 時(shí),圖像明暗程度趨于暗部,此時(shí)采用彩色直方圖均衡算法進(jìn)行圖像增強(qiáng),能夠在提高圖像對(duì)比度的同時(shí),保留原圖像的細(xì)節(jié)。圖7展示了蒙古族服飾彩色直方圖均衡化處理前后的效果圖。
圖7 彩色直方圖均衡處理前后對(duì)比圖
本文利用網(wǎng)絡(luò)爬蟲(chóng)采集并挑選了5000 張不同女性少數(shù)民族服飾的圖像,包括白族、苗族、蒙古族、維吾爾族和藏族。同時(shí),將訓(xùn)練集和測(cè)試集按7∶3 的比例隨機(jī)劃分,得出如表1 所示的圖像數(shù)據(jù)集。
表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)采用GPU 搭建TensorFlow 框架實(shí)現(xiàn),程序利用Python 3.6 編寫(xiě),并進(jìn)行了詳細(xì)的仿真對(duì)比實(shí)驗(yàn)。
評(píng)價(jià)指標(biāo)為準(zhǔn)確率(Precision)、召回率(Recall)和F1 值(F1-measure),最終結(jié)果為10 次圖像分類(lèi)實(shí)驗(yàn)結(jié)果的平均值。計(jì)算公式如下:
其中,N表示正確分類(lèi)的少數(shù)民族服飾圖像數(shù),S表示實(shí)際分類(lèi)的少數(shù)民族服飾圖像數(shù),T表示真實(shí)存在的少數(shù)民族服飾圖像數(shù)。Precision反映圖像分類(lèi)為正確目標(biāo)中真正的正樣本比重,Recall反映圖像分類(lèi)為正確目標(biāo)中正樣本占總的正樣本比重,F(xiàn)1-measure 是準(zhǔn)確率和召回率的平衡指標(biāo)。
3.3.1 傳統(tǒng)基于機(jī)器學(xué)習(xí)的圖像分類(lèi)仿真實(shí)驗(yàn)
首先進(jìn)行傳統(tǒng)的機(jī)器學(xué)習(xí)圖像分類(lèi)實(shí)驗(yàn)。表2是KNN算法的圖像分類(lèi)實(shí)驗(yàn)結(jié)果,由表2可知,維吾爾族數(shù)據(jù)集的F1 值最高,其準(zhǔn)確率、召回率和F1值分別為0.7241、0.6000、0.6563。
表2 基于KNN算法的圖像分類(lèi)結(jié)果
表3 是SVM 算法的圖像分類(lèi)實(shí)驗(yàn)結(jié)果,其結(jié)果稍優(yōu)于KNN 算法。其中,F(xiàn)1 值最高的為藏族,值為0.7368,與KNN 算法相比,藏族數(shù)據(jù)集的F1值提高了0.1019。
表3 基于SVM算法的圖像分類(lèi)結(jié)果
3.3.2 本文提出算法的圖像分類(lèi)仿真實(shí)驗(yàn)
CNN 對(duì)數(shù)據(jù)集訓(xùn)練的整體誤差從最初的高值逐漸降低并收斂,其誤差最終收斂至小于0.0002。表4 展示了通過(guò)自適應(yīng)圖像增強(qiáng)和卷積神經(jīng)網(wǎng)絡(luò)算法處理后的圖像分類(lèi)實(shí)驗(yàn)結(jié)果,其準(zhǔn)確率、召回率和F1值均高于傳統(tǒng)的方法。
表4 基于圖像增強(qiáng)和CNN算法的圖像分類(lèi)結(jié)果
圖8表示利用卷積神經(jīng)網(wǎng)絡(luò)和自適應(yīng)圖像增強(qiáng)算法圖像分類(lèi)預(yù)測(cè)正確的部分少數(shù)民族服飾圖像,其中圖8(a)、圖8(f)、圖8(k)被正確預(yù)測(cè)為“白族”;圖8(b)、圖8(g)、圖8(l)被正確預(yù)測(cè)為“苗族”;圖8(c)、圖8(h)、圖8(m)被正確預(yù)測(cè)為“蒙古族”;圖8(d)、圖8(i)、圖8(n)被正確預(yù)測(cè)為“維吾爾族”;圖8(e)、圖8(j)、圖8(o)被正確預(yù)測(cè)為“藏族”。
圖8 少數(shù)民族服飾的圖像分類(lèi)預(yù)測(cè)結(jié)果
圖9展示了各圖像分類(lèi)算法對(duì)比實(shí)驗(yàn)的平均準(zhǔn)確率、平均召回率和平均F1值。由圖9可知,本文所提出的算法少數(shù)民族服飾圖像分類(lèi)效果更好。相比于傳統(tǒng)的KNN 算法,本文改進(jìn)的CNN 圖像分類(lèi)算法的平均準(zhǔn)確率提升了27.50%,平均召回率提升了27.45%,平均F1值提升了27.76%;相比于傳統(tǒng)的SVM 算法,本文方法的平均準(zhǔn)確率提升了20.66%,平均召回率提升了20.46%,平均F1 值提升了20.62%。相對(duì)于傳統(tǒng)的CNN 算法,本文結(jié)合自適應(yīng)圖像增強(qiáng)算法進(jìn)行改進(jìn),最終平均準(zhǔn)確率提升了9.31%,平均召回率提升了9.16%,平均F1值提升了9.02%。綜合上述實(shí)驗(yàn),可以看到本文改進(jìn)算法的效果更好。
圖9 各圖像分類(lèi)算法對(duì)比實(shí)驗(yàn)結(jié)果
由于少數(shù)民族服飾的色彩、樣式、紋理繁多,容易受人體姿勢(shì)、拍攝光線、背景復(fù)雜等因素影響,導(dǎo)致傳統(tǒng)的少數(shù)民族服飾圖像識(shí)別率較低,圖像分類(lèi)效果不理想,并且無(wú)法進(jìn)行海量的民族服飾自動(dòng)分類(lèi)處理。為了解決上述問(wèn)題,本文提出了一種基于自適應(yīng)圖像增強(qiáng)和卷積神經(jīng)網(wǎng)絡(luò)的少數(shù)民族服飾圖像分類(lèi)算法。一方面通過(guò)自適應(yīng)圖像增強(qiáng)算法降低圖像背景噪聲,提高圖像的對(duì)比度并保留原圖像的細(xì)節(jié),從而為圖像分類(lèi)提供更好的數(shù)據(jù)集;另一方面通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)民族服飾的底層特征和細(xì)節(jié)信息,從而提升圖像分類(lèi)的效果。實(shí)驗(yàn)結(jié)果表明,本文提出算法的評(píng)價(jià)準(zhǔn)確率、召回率和F1 值均高于傳統(tǒng)基于機(jī)器學(xué)習(xí)的圖像分類(lèi)方法,能有效地進(jìn)行少數(shù)民族服飾圖像分類(lèi),且性能良好。同時(shí),本文的算法為少數(shù)民族服飾信息化處理打下良好基礎(chǔ),為民族文化的傳承和保護(hù)做出貢獻(xiàn)。
然而,本文方法還有一些不足:一方面由于少數(shù)民族服飾會(huì)隨季節(jié)、性別、節(jié)日、年齡的變化而不同,人體姿勢(shì)及服飾遮擋等因素也導(dǎo)致了特征提取和圖像分類(lèi)的準(zhǔn)確率降低;另一方面,本文僅針對(duì)5 個(gè)少數(shù)民族服飾進(jìn)行實(shí)驗(yàn),并且數(shù)據(jù)集規(guī)模較小,具有一定局限性。未來(lái),將進(jìn)一步完善民族圖像數(shù)據(jù)集,嘗試結(jié)合遷移學(xué)習(xí)和注意力機(jī)制改進(jìn)模型結(jié)構(gòu),從而提升圖像分類(lèi)的準(zhǔn)確率及效率。