張藝凡, 劉國華, 盛守祥, 王國棟, 王力民
(1 東華大學 計算機科學與技術學院, 上海201620; 2 華紡股份有限公司,山東 濱州256602)
隨著經(jīng)濟的發(fā)展,人們在穿著打扮方面愈發(fā)追求個性化風格。 服裝的流行趨勢隨著時代的發(fā)展不斷更迭,風格也在不斷擴展。 隨著電子商務的蓬勃發(fā)展,在網(wǎng)絡上選購自己心儀的服裝商品已然成為一種潮流和趨勢。 2019 年度中國消費者網(wǎng)購服裝情況如圖1 所示。
圖1 2019 年中國消費者網(wǎng)購服裝比例和渠道偏好Fig. 1 Chinese consumers' clothing purchase ratio and channel preferences in 2019
在網(wǎng)購的過程中,人們會根據(jù)服裝圖像來取舍商品。 服裝類電商平臺包含大量的服裝圖像,對這些圖像進行服裝風格的分類,有助于幫助用戶快速定位到滿足自己需求的商品區(qū)域[1]。 除此之外,對服裝圖像進行服裝風格屬性標注,可有效利用網(wǎng)絡服裝圖像數(shù)據(jù)。 已標注風格屬性的服裝圖像在各類服裝檢索及推薦系統(tǒng)中有良好的應用前景。
由于服裝風格的評判標準個性化強且風格特征發(fā)展迅速[2],其識別和分類問題非常復雜。 服裝風格通常被認為是一個相對模糊的概念,一般采用主觀評價的方法,一直以來缺少指標和主觀感受之間的對應關系,因此通過總結和提取各類服裝圖像特征,對服裝風格進行量化具有重要的研究意義[3]。最原始的服裝風格標注方法是文本手動標注,即通過人為判斷來對服裝圖像的風格進行標注,費時費力,且人為參與標注加入了主觀因素。
隨著計算機技術的發(fā)展,在圖像識別領域出現(xiàn)了大量提取圖像特征的算法。 傳統(tǒng)特征提取方法分為針對圖像全局和局部進行特征提取兩類。 常見的全局特征包括顏色特征[4]、紋理特征[5]和形狀特征[6]。 針對基于顏色特征的服裝圖像識別問題,構建了一個新的時尚圖像數(shù)據(jù)集,稱為Colorful-Fashion[7]。 除此之外,有文獻提出了一種基于顏色特征的服裝分割方法,該方法利用形狀和顏色信息對服裝商店數(shù)據(jù)庫中服裝圖像進行服裝分割[8],基于此類全局特征尤其形狀特征可以辨別出服裝的類別。 但是由于服裝的主觀風格量化難度較高,通過形狀、紋理等簡單特征無法準確識別服裝風格。
常見局部特征提取方法有:SURF[9]、SIFT(尺度不變特征變換)[10]、HOG(方向梯度直方圖)等。 但這類傳統(tǒng)的特征抽取算法有無法處理遮擋和無法提取光滑邊緣等缺點,其提取出的特征難以用于服裝圖像的分類。 針對服裝圖像的場景多樣雜亂以及遮擋等問題,利用基于多模態(tài)語義關聯(lián)規(guī)則(MMSAR)的自動融合關鍵詞和視覺特征的Web 圖像檢索方法加以解決[11]。
近年來,隨著深度學習的快速發(fā)展,深度學習在計算機視覺領域的應用取得了突破性進展。 P 使用BP 神經(jīng)網(wǎng)絡來識別機織物的圖案[12],從分類中提取正??椢锏馁|地和結構特征,輸入到神經(jīng)網(wǎng)絡中,以完成學習過程。 針對當前越來越多“以圖搜圖”的需求,期望通過街拍圖片來搜索到同一服裝的賣家圖片[13]。
傳統(tǒng)的特征提取方法難以利用大數(shù)據(jù)優(yōu)勢,依賴手工調整參數(shù),因此特征中參數(shù)量較少;而深度學習可以從海量數(shù)據(jù)中學習包含多參數(shù)的特征,因此深度學習提取出的特征表達效果更好,更適用于識別服裝風格這類需要大量特征對比來判斷的屬性。
本文采用基于深度學習的特征提取模型對服裝圖像的風格進行識別,根據(jù)提取出的特征訓練服裝風格分類器,通過將預測結果寫入數(shù)據(jù)庫記錄分類結果,實現(xiàn)服裝圖像風格的批量識別與標注。
服裝風格評定因素分為客觀評定因素和主觀評定因素[14]。 客觀評定因素即服裝的直觀樣式,包括面料、袖長、領形等易識別特征。 服裝的主觀評定因素,如:淑女風格、運動風格等等。
服裝的主觀風格的定義主要包括3 個方面:(1)時代特色和民族傳統(tǒng)。 (2)面料,顏色,圖案紋路等。 (3)服裝的功能性。 當代主流的服裝風格包括:都市、優(yōu)雅、復古、淑女、可愛、簡約、民族、職業(yè)等。
本文對六類服裝風格進行區(qū)分和識別。 (1)簡約風格。 服裝在色彩特征方面以黑、白、灰色為主,較少使用圖案,常采用廓形設計,形狀寬松。 (2)優(yōu)雅風格。 服裝在色彩特征方面以深色為主,常用色為紅色、黑色、紫色,給人感覺低調且華麗,形狀修身且偏長。 (3)復古風格。 服裝以深棕、卡其色等為主體色調,通常采用素色圖案,形狀特征主要有荷葉邊領、方形領、燈籠袖等突出形狀。 (4)民族風格。服裝的顏色通常以艷麗的紅色和藍色為主,多采用復雜且重復的紋路和圖案。 (5)可愛風格。 服裝代表顏色為淡粉色,也常采用對比強的顏色,款式層疊較多且造型復雜。 (6)職場風格。 服裝多采用黑、白、深藍色,款式固定,形狀對稱。 六大服裝風格指定特征總結如表1 所示。
表1 各類服裝風格特征總結Tab.1 Summary of various clothing style characteristics
GoogLeNet 團 隊 提 出 的 Inception 結 構, 是用基礎神經(jīng)元搭建的一個稀疏性、高計算性的網(wǎng)絡結構[15]。 Inception 網(wǎng)絡結構經(jīng)歷了V1,V2,V3,V4 這4 個版本,Inception V1 的網(wǎng)絡結構如圖2所示。
該結構將卷積神經(jīng)網(wǎng)絡中的卷積,池化操作疊加在一起,增加了網(wǎng)絡對尺寸的適應性,并在3*3卷積、5*5 卷積和max pooling 前加上了1*1 卷積來降低特征圖的厚度并修正ReLU。 與傳統(tǒng)CNN 一樣,V1 在每一次卷積操作之后,通過ReLU 激勵函數(shù)來為網(wǎng)絡添加非線性特征。
圖2 Inception V1 的網(wǎng)絡結構Fig. 2 Network structure of Inception V1
Inception V1 雖然準確率較高,但是堆疊網(wǎng)絡使Inception V1 的計算效率很低。 因此在V2 網(wǎng)絡中,用更多的小尺寸卷積核來代替大尺寸的卷積核來減少參數(shù)量[16]。 但在訓練過程中,每一層輸入的分布由于網(wǎng)絡中參數(shù)的更新而發(fā)生變化,導致訓練變難,此現(xiàn)象被稱為internal covariate shift[16]。 為了解決這一問題,在V2 網(wǎng)絡中添加了Batch Normalization層來對每一層神經(jīng)元的輸入做歸一化。
與V2 的改進不同,V3 提出了非對稱分解的概念,即將n*n 的卷積層分解為兩個1*N 和N*1的卷積層。 例如:將7×7 分解成兩個一維的卷積(1×7,7×1),這樣既可以進一步加速計算,又可以將1個卷積分解為2 個卷積,使得網(wǎng)絡深度進一步增加。實驗證明V3 的非對稱分解方式訓練結果優(yōu)于V2。
對V3 進一步分析和優(yōu)化, Inception v4 引入了專用的縮減塊(reduction block),添加更多一致的模塊從而提高性能[17]。 Inception-ResNet 則參考了ResNet 的設計思想,利用殘差連接(Residual Connection)來改進V3 和V4 結構[18],將Inception 模塊的卷積運算輸出添加到輸入上,殘差運算要求卷積計算的輸入輸出具有相同的維度,因此Inception-ResNet 在初始卷積后使用1*1 卷積來匹配深度。
ImageNet 提供了易于訪問的圖像數(shù)據(jù)庫,共有14 197 122 幅圖像,分為21 841 個類別(synsets)。
遷移學習是一種機器學習方法,是指在一個特定的數(shù)據(jù)集上,重新利用已經(jīng)訓練過的卷積神經(jīng)網(wǎng)絡,將其改造或遷移到一個不同的數(shù)據(jù)集中。
計算機視覺中使用深度學習技術進行圖像處理,通常需要大量標記的訓練數(shù)據(jù)和超強的計算能力。 在訓練過程中,數(shù)據(jù)量缺少或者運行速度過慢,使訓練過程十分艱難。 因此,在訓練時,常將通過海量數(shù)據(jù)訓練出的模型應用于新的實驗中。
(1)圖像數(shù)據(jù)集。 計算的服裝數(shù)據(jù)集全部來自于Deepfashion[19]數(shù)據(jù)集,起初的分類采用人工分類的方式。 六類風格中的服裝圖像個數(shù)如表2 所示。
(2)訓練。 重用了在ImageNet 數(shù)據(jù)集上訓練的圖像分類器的特征提取模塊,并在頂部訓練新的分類層,特征提取模塊采用了Inception V3 架構。
第一階段是將所有圖片輸入到預訓練好的模型,計算并存儲所有圖像的特征向量,分類器根據(jù)圖像特征向量來區(qū)分要識別的所有類。 第二階段是對網(wǎng)絡頂層進行訓練。 根據(jù)數(shù)據(jù)集數(shù)量對訓練過程的超參數(shù)進行調整。 在訓練時采用的超參數(shù)數(shù)值如表3 所示。
表3 訓練過程中的超參數(shù)數(shù)值Tab. 3 Hyper parameter values during training
其中,Step 表示訓練時會運行8 000 個步驟,每一步都將訓練集圖像的特征向量輸入到最后一層進行預測,將預測結果與實際進行對比,通過反向傳播更新權重。 Train_batch_size 和Validation_batch_size分別表示每一次訓練時隨機抽取圖像的數(shù)目和驗證時隨機抽取圖像的數(shù)目。
在處理分類問題時,分類結果通常分為以下4種情況:(1)TP:將正類預測為正類數(shù)。 (2)TN:將負類預測為負類數(shù)。 (3)FP:將負類預測為正類數(shù)。 (4)FN:將正類預測為負類數(shù)。
(1) 準確率。 準確率(Accuracy) 是指分類正確的樣本占總樣本個數(shù)的比例,可表達為:
訓練集準確率和驗證集準確率如圖3 所示。 其中,橙色和藍色分別表示訓練集的正確率和驗證集的正確率,訓練的正確率達到了0.74,驗證的正確率大約為0.72。
圖3 訓練準確率和驗證準確率Fig. 3 Training accuracy and verification accuracy
(2)交叉熵。 交叉熵用來描述模型預測值與真實值的差距大小。 機器學習算法中,交叉熵代價函數(shù)作為模型的優(yōu)化目標函數(shù),交叉熵代價函數(shù)表達式為:
訓練過程中,訓練集交叉熵值和驗證集交叉熵值的變化如圖4 所示,經(jīng)過訓練后,訓練集的損失達到0.75,驗證集達到0.82。
圖4 訓練交叉熵和驗證交叉熵Fig. 4 Training cross-entropy and verifying cross-entropy
在網(wǎng)購過程中,服裝風格的分類有助于幫助用戶根據(jù)自身喜好快速定位到自己所想要找的服裝區(qū)域。 目前,各類網(wǎng)站對服裝圖像的標注大多只關注服裝的種類而忽略了服裝的風格,累積了大量未標注風格屬性的服裝圖像,采用服裝風格預測模型對服裝圖像進行批量標記,對未標注服裝風格的圖像數(shù)據(jù)集進行屬性標注具有重要研究意義。
批量標記服裝風格將遍歷所有的圖片,將圖片依次輸入服裝風格識別模型,得到各類別分類的概率,取最大概率的風格類別作為預測結果。 預測概率數(shù)值及預測如圖5 所示。 其中A-F 代表A:簡約風格;B:優(yōu)雅風格;C:復古風格;D:民族風格;E:可愛風格;F 職場風格。
圖5 批量預測服裝類別Fig. 5 Batch prediction clothing category
隨著人們個性化的追求和對自身穿衣風格的明確,服裝風格已經(jīng)成為各類服裝檢索系統(tǒng)和電商平臺中服裝圖像不可缺少的標注屬性。 因此對服裝圖像的風格進行精確標注具有重要的研究意義和良好的應用前景。