国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多標(biāo)簽分類的傳統(tǒng)民族服飾紋樣圖像語(yǔ)義理解

2020-04-11 02:08:08趙海英侯小剛齊光磊
光學(xué)精密工程 2020年3期
關(guān)鍵詞:民族服飾中間層紋樣

趙海英,周 偉,侯小剛,齊光磊

(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876;2.北京郵電大學(xué) 數(shù)字媒體與設(shè)計(jì)藝術(shù)學(xué)院,北京 100876;3.北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院,北京100876;4.北京郵電大學(xué) 世紀(jì)學(xué)院,北京 102101)

1 引 言

傳統(tǒng)民族服飾紋樣記載著一個(gè)民族從建立到發(fā)展過(guò)程的歷史文化演變,在對(duì)服飾紋樣進(jìn)行解讀時(shí),不僅需要明確紋樣的類別(本體),更需要詮釋各紋樣所具有的深層文化語(yǔ)義信息(隱義)。例如,傳統(tǒng)民族服飾中紋樣本體“龍”是古代皇帝的象征,隱義是“權(quán)勢(shì)、高貴”;紋樣本體“牡丹”被譽(yù)為花王,隱義是“富貴、美滿”;紋樣本體“桃”具有圖騰、生殖崇拜的原始信仰,隱義是“長(zhǎng)壽、健康”。因此,在對(duì)傳統(tǒng)民族服飾紋樣進(jìn)行多標(biāo)簽分類時(shí),從“本體”和“隱義”兩個(gè)層面分類,可以更全面地闡述傳統(tǒng)民族服飾紋樣所蘊(yùn)含的文化語(yǔ)義信息。

近年來(lái),基于深度學(xué)習(xí)的方法在圖像分割[1]、識(shí)別[2]和檢索[3]等一系列計(jì)算機(jī)視覺任務(wù)中取得了巨大的成功。與此同時(shí),基于深度學(xué)習(xí)的圖像多標(biāo)簽分類方法越來(lái)越受歡迎。一方面,由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在單標(biāo)簽分類任務(wù)的成功,很多研究者直接將CNN應(yīng)用到多標(biāo)簽分類任務(wù)上[4-8]。例如WEI等[4]以任意數(shù)量的對(duì)象片段假設(shè)作為輸入,將共享的CNN與每個(gè)假設(shè)相連,最后將不同假設(shè)的CNN輸出結(jié)果用最大池化進(jìn)行聚合,得到最終的多標(biāo)簽預(yù)測(cè)。Yu等[6]將圖像的全局先驗(yàn)信息和局部實(shí)例信息相結(jié)合構(gòu)建了一個(gè)新的雙流網(wǎng)絡(luò),可以自動(dòng)定位觸發(fā)標(biāo)簽的關(guān)鍵圖像模式。另一方面,由于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在機(jī)器翻譯、圖像描述以及視覺問(wèn)題回答等任務(wù)的成功應(yīng)用,一些學(xué)者將圖像多分類看作是序列生成問(wèn)題,同時(shí)利用RNN建立標(biāo)簽之間的依賴關(guān)系[9-12]。例如,JIN等[9]將圖像標(biāo)注任務(wù)作為一個(gè)序列生成問(wèn)題,提出RIA模型能夠根據(jù)圖像內(nèi)容對(duì)標(biāo)簽的長(zhǎng)度進(jìn)行原生預(yù)測(cè),并考慮訓(xùn)練標(biāo)注序列輸入到LSTM順序的影響。WANG等[10]構(gòu)建一個(gè)端到端的CNN-RNN框架,學(xué)習(xí)圖像標(biāo)簽嵌入的方法來(lái)表征隱義標(biāo)簽依賴關(guān)系和圖像標(biāo)簽相關(guān)性。

然而,上述方法只能對(duì)圖像中多個(gè)物體類別(本體)進(jìn)行分類,而不能對(duì)同一張圖像中各類別所蘊(yùn)含的深層次語(yǔ)義信息(隱義)進(jìn)行分類。為解決上述問(wèn)題,本文提出了一個(gè)“本體-隱義”融合學(xué)習(xí)的圖像多標(biāo)簽分類模型,該模型首先利用CNN中間層學(xué)習(xí)圖像的本體信息,利用CNN較高層學(xué)習(xí)圖像的隱義信息,然后利用本體信息和隱義信息之間的依賴關(guān)系設(shè)計(jì)融合學(xué)習(xí)模型,實(shí)現(xiàn)對(duì)圖像中多類別以及各類別蘊(yùn)含的深層語(yǔ)義信息分類。此外,在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集和Scene數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文方法在圖像多標(biāo)簽分類任務(wù)上的有效性和優(yōu)越性。

2 “本體-隱義”融合學(xué)習(xí)的多標(biāo)簽分類模型

圖1 構(gòu)建模型縱覽圖Fig.1 Overview of the present model

從“本體”和“隱義”兩個(gè)層面對(duì)傳統(tǒng)民族服飾紋樣進(jìn)行分類,如表1所示,可以更全面地闡述傳統(tǒng)民族服飾紋樣所蘊(yùn)含的文化語(yǔ)義信息。

2.1 模型結(jié)構(gòu)

CNNs可以學(xué)習(xí)豐富的圖像層次特征,例如AlexNet模型前兩層學(xué)習(xí)的是顏色、邊緣等低層特征,第3層學(xué)習(xí)的是較復(fù)雜的紋理特征,第4層學(xué)習(xí)的是特定類別的局部特征,第5層學(xué)習(xí)的是具有辨別性的完整特征[13],即網(wǎng)絡(luò)的低層特征包含更多的圖像結(jié)構(gòu)信息,中間層因卷積核感受野小且個(gè)數(shù)多,更容易學(xué)習(xí)圖像的區(qū)域或局部特征,而高層特征更關(guān)注圖像的語(yǔ)義信息。

表1 圖像的本體標(biāo)簽和隱義標(biāo)簽多分類

在本文中,本體信息描述圖像中存在的物體類別,而隱義信息詮釋圖像所蘊(yùn)含的深層次文化語(yǔ)義,與本體信息相比較,隱義信息需要考慮圖像中存在的物體類別、組合規(guī)則等信息,從而需要更高層的特征進(jìn)行表征。因此,在同一個(gè)網(wǎng)絡(luò)中,可以利用網(wǎng)絡(luò)的中間層學(xué)習(xí)圖像的本體信息,高層學(xué)習(xí)圖像的隱義信息。然后,將本體信息和隱義信息分別利用損失函數(shù)進(jìn)行訓(xùn)練后,采用融合學(xué)習(xí)的方式更新網(wǎng)絡(luò)參數(shù),可以捕獲圖像的本體信息與隱義信息之間的關(guān)聯(lián)性,從而實(shí)現(xiàn)了對(duì)同一張圖像的本體標(biāo)簽分類和隱義標(biāo)簽分類。本文選取Inception-V3[14]作為基準(zhǔn)模型,構(gòu)建了一種“本體-隱義”融合學(xué)習(xí)的圖像多標(biāo)簽分類模型,如圖2所示(彩圖見期刊電子版)。為簡(jiǎn)單直觀地表述,圖中紅色虛線模塊為重復(fù)模塊,“x3”表示此模塊按先后順序重復(fù)3次,“x4”同理。(注:為便于下文表述,圖中紅色箭頭為對(duì)應(yīng)節(jié)點(diǎn)名稱,其中mixed_2和mixed_7分別是最后一個(gè)重復(fù)模塊的節(jié)點(diǎn)名稱)

圖2 “本體-隱義”融合學(xué)習(xí)的多標(biāo)簽分類模型Fig.2 Multi-label classification model based on “ontology-implicit” fusion learning

由于Inception-V3模型網(wǎng)絡(luò)層次較深,通常需要在非常大的數(shù)據(jù)集上經(jīng)過(guò)數(shù)百萬(wàn)次訓(xùn)練才能達(dá)到較好的效果。因此,本文利用ImageNet上預(yù)訓(xùn)練的Inception-V3在多標(biāo)簽分類任務(wù)上微調(diào)。本文采用的多標(biāo)簽損失函數(shù)為交叉熵?fù)p失。其中,采用Sigmoid作為激活函數(shù)得到輸出hθ(x):

(1)

預(yù)測(cè)值和真實(shí)值概率之間的交叉熵如下:

(2)

其中yi∈{0,1}。記本體標(biāo)簽的損失函數(shù)為Jy(θ),隱義標(biāo)簽的損失函數(shù)為Js(θ),將兩者加權(quán)求和進(jìn)行融合學(xué)習(xí),得到模型總損失函數(shù)為Jsum(θ),最后進(jìn)行反向傳播降低誤差,以獲得更好的分類效果:

Jsum(θ)=λJy(θ)+Js(θ),

(3)

其中λ為本體標(biāo)簽的損失函數(shù)Jy(θ)的權(quán)重。

2.2 模型不同中間層特征影響研究

Inception-V3網(wǎng)絡(luò)模型深度較深,模型中包含許多卷積操作和池化操作。為了研究Inception-V3模型不同位置獲取的中間層圖像特征對(duì)本體標(biāo)簽多分類結(jié)果的影響,如圖3所示,本文對(duì)Inception-V3模型的3個(gè)不同位置做出以下探討。

圖3 卷積和池化操作Fig.3 Convolution and pooling operations

在圖3(a)中,獲取Inception-V3網(wǎng)絡(luò)模型的非Inception Module的第2個(gè)池化層(即Pool_1)輸出特征,在其后面接1個(gè)平均池化層和3個(gè)卷積層,然后再接全連接層。在圖3(b)中,在Inception-V3模型中的第1個(gè)Inception模塊組的輸出(即Mixed_2)后面,連接1個(gè)平均池化層和3個(gè)卷積層,然后再接全連接層。章節(jié)2.1中間層如圖3(c)所示,即在Inception-V3模型中的第2個(gè)Inception模塊組的輸出(即Mixed_7)后面,連接一個(gè)平均池化層和兩個(gè)卷積層,然后再接全連接層。下文將對(duì)不同中間層特征進(jìn)行實(shí)驗(yàn),對(duì)比效果差異。

3 模型不同結(jié)構(gòu)對(duì)比研究

在2.1節(jié)中介紹的“本體-隱義”融合學(xué)習(xí)的圖像多標(biāo)簽分類CNN模型基礎(chǔ)上,對(duì)模型結(jié)構(gòu)進(jìn)行修改,提出另外3種“本體-隱義”圖像多標(biāo)簽分類模型,下面對(duì)3個(gè)對(duì)比模型進(jìn)行詳細(xì)闡述。

3.1 單流網(wǎng)絡(luò)

圖4 單流網(wǎng)絡(luò)Fig.4 Single stream network

3.2 分流網(wǎng)絡(luò)

圖5 分流網(wǎng)絡(luò)Fig.5 Shunt network

3.3 中間層分流網(wǎng)絡(luò)

圖6 中間層分流網(wǎng)絡(luò)Fig.6 Intermediate shunt network

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

本文在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集和Scene數(shù)據(jù)集上進(jìn)行多標(biāo)簽分類的對(duì)比實(shí)驗(yàn)。傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集由本實(shí)驗(yàn)室構(gòu)建,共有3 000張圖像,每張圖像均含有本體和隱義兩層標(biāo)簽。本體標(biāo)簽包含8個(gè)不同類別,即花、桃、鳥、龍、蝴蝶、蝙蝠、祥云以及人物;隱義標(biāo)簽包含有7個(gè)不同類別,即富貴、喜慶、權(quán)勢(shì)、幸福、典故、吉祥以及長(zhǎng)壽。另外,Scene數(shù)據(jù)集[15]共有2 000張圖像,包含沙漠、山脈、海洋、日落和樹木類等5類自然場(chǎng)景。另外,將兩個(gè)數(shù)據(jù)集分別按6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示,其中“>1 標(biāo)簽”表示同時(shí)含有多個(gè)標(biāo)簽的圖像在數(shù)據(jù)集中所占比例大小。

表2 數(shù)據(jù)集統(tǒng)計(jì)信息

在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集上,使用和文獻(xiàn)[9]同樣的評(píng)價(jià)指標(biāo),利用公式(4)計(jì)算總體的精確率、召回率和F1值(O-P、O-R、O-F1),以及每個(gè)類別的精確率、召回率和F1值(C-P、C-R、C-F1)。同時(shí)參考文獻(xiàn)[5],本文對(duì)每個(gè)類別也采用平均精度(Average Precision,AP),對(duì)于總體也采用平均精度均值(mAP)。

(4)

在實(shí)驗(yàn)中,本文使用TensorFlow深度學(xué)習(xí)框架,利用在ImageNet2012分類挑戰(zhàn)數(shù)據(jù)集上預(yù)訓(xùn)練的Inception-v3作為基礎(chǔ)模型。模型訓(xùn)練的初始學(xué)習(xí)率為0.001,共訓(xùn)練15 000步,在第10 000步時(shí)學(xué)習(xí)率降低為之前的1/10,動(dòng)量率為0.9,權(quán)重衰減率為0.000 5,使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)進(jìn)行優(yōu)化,batch_size設(shè)置為100,同時(shí)將原始圖像大小調(diào)整為299×299作為模型的輸入。

為標(biāo)記簡(jiǎn)潔,將單流網(wǎng)絡(luò)、分流網(wǎng)絡(luò)、中間層分流網(wǎng)絡(luò)以及2.1章節(jié)中提出的模型依次記為M1,M2,M3以及M4,同時(shí)考慮Inception-v3中間層的影響,將Pool_1,Mixed_2和Mixed_7輸出依次記為A,B和C,并將Pool_3的輸出記為D。在Scene數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)時(shí),遵循NGRM-1方法實(shí)驗(yàn)設(shè)置,即使用標(biāo)準(zhǔn)5-折交叉驗(yàn)證進(jìn)行評(píng)估,報(bào)告5次實(shí)驗(yàn)的平均性能,此外對(duì)比方法還有MLR[16],MIMLfast[17],KISAR[18]和MIMLcaus[19]。

4.2 實(shí)驗(yàn)結(jié)果

4.2.1 模型不同中間層特征對(duì)比結(jié)果

通過(guò)對(duì)“本體-隱義”融合學(xué)習(xí)的圖像多標(biāo)簽分類模型(M4)的不同中間層特征進(jìn)行研究,在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示,同時(shí)M4-A、M4-B和M4-C的參數(shù)量(單位:×105)分別是26.32,26.68和28.15。從表中可以看出,在AP的大多數(shù)指標(biāo)上,M4-C的結(jié)果優(yōu)于M4-A和M4-B,并且在mAP指標(biāo)上獲得了最好的結(jié)果,盡管M4-C模型參數(shù)量相較于M4-A和M4-B有所增加,但性能的提升是可觀的。因此,在本文的后續(xù)實(shí)驗(yàn)中,將采用Mixed_7作為中間層輸出。

表3 模型M4不同中間層特征的AP和mAP對(duì)比結(jié)果

注:黑色加粗為單列指標(biāo)最好結(jié)果。

4.2.2 模型融合學(xué)習(xí)參數(shù)選擇

由公式(3)可知,λ為模型M4中本體標(biāo)簽損失函數(shù)的權(quán)重值。將模型M4在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并且λ在[0.4,1.6]內(nèi)取值,實(shí)驗(yàn)結(jié)果如圖7所示(彩圖見期刊電子版)。從圖中可以看出,在λ的取值范圍內(nèi)本體標(biāo)簽分類的mAP值(紅線)顯著高于隱義標(biāo)簽分類的mAP值(綠線),另外當(dāng)λ取0.8或1.2時(shí),本體和隱義的mAP值之和取得最大值(藍(lán)線)??紤]到隱義標(biāo)簽分類的mAP值較小,在誤差反向傳播時(shí)應(yīng)賦予較大的權(quán)重,因此λ取值為0.8。

圖7 不同λ對(duì)應(yīng)的本體標(biāo)簽和隱義標(biāo)簽分類的mAPFig.7 mAP of ontology label and implicit label classification corresponding to different λ

4.2.3 模型不同結(jié)構(gòu)對(duì)比結(jié)果

本文比較了提出的4種模型結(jié)構(gòu),在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4所示(由于M1是將本體標(biāo)簽和隱義標(biāo)簽看作一個(gè)整體進(jìn)行訓(xùn)練,得到的是整體C-P,C-R,C-F1,O-P,O-R,O-F1以及mAP值,為方便直觀與其它網(wǎng)絡(luò)結(jié)果進(jìn)行比較,將其看作是本體標(biāo)簽分類和隱義標(biāo)簽分類的結(jié)果)。從表中可以看出,無(wú)論是本體標(biāo)簽分類結(jié)果還是隱義標(biāo)簽分類結(jié)果,M4在大多數(shù)指標(biāo)上獲得了最好的結(jié)果,并且在mAP指標(biāo)上明顯優(yōu)于其它方法。另外,比較4個(gè)模型的參數(shù)量(單位:×105),模型M4的參數(shù)量相較于模型M1和模型M2有所增加,但模型性能的提高是巨大的,如在本體標(biāo)簽分類的指標(biāo)mAP上分別提高10%和5%,同時(shí)比較模型M4和M3的參數(shù)量,可以發(fā)現(xiàn)參數(shù)量幾乎相等(數(shù)據(jù)只保留兩位小數(shù)),但采用融合學(xué)習(xí)使得在隱義標(biāo)簽分類的指標(biāo)mAP上提高1%。因此,將本體信息和隱義信息進(jìn)行融合學(xué)習(xí),可以很好地捕獲兩種之間的關(guān)聯(lián)性,更好地提高模型分類的性能。

表4 4種模型結(jié)構(gòu)對(duì)比結(jié)果

注:黑色加粗為單列指標(biāo)最好結(jié)果。

4.2.4 Scene數(shù)據(jù)集實(shí)驗(yàn)對(duì)比結(jié)果

為驗(yàn)證本文提出模型的圖像多標(biāo)簽分類效果,在公開的Scene數(shù)據(jù)集上與其他方法進(jìn)行性能比較。實(shí)驗(yàn)對(duì)比結(jié)果如表5所示,其中“↓”表示“越小越好”,“↑”表示“越大越好”??梢钥闯?,本文方法M4-D在Hamming loss、One-error和Average precision指標(biāo)上分別優(yōu)于其他最好方法0.103,0.096和0.083。在Coverage和Rank loss指標(biāo)上與NGRM-1(SVM)方法性能接近,可以表明本文方法的優(yōu)越性。同時(shí),本文M4-C方法在Hamming loss和Average precision指標(biāo)上優(yōu)于NGRM-1(3NN)方法,驗(yàn)證了CNN中間層的有效性,即CNN中間層能夠有效學(xué)習(xí)圖像特征。

表5 圖像多標(biāo)簽分類方法的性能比(mean±std)

注:黑色加粗為單列指標(biāo)最好結(jié)果。

5 結(jié) 論

本文提出了“本體-隱義”融合學(xué)習(xí)的圖像多標(biāo)簽分類模型。該模型能夠模仿人類的方式觀察圖像,既能對(duì)圖像中物體類別信息(本體)進(jìn)行分類,又能識(shí)別各個(gè)物體類別所蘊(yùn)含的深層次語(yǔ)義信息(隱義)。該模型首先利用CNN中間層和較高層分別學(xué)習(xí)圖像的本體信息和隱義信息,然后利用本體信息與隱義信息之間的依賴關(guān)系設(shè)計(jì)融合學(xué)習(xí)模型,從而實(shí)現(xiàn)對(duì)圖像中多類別以及各類別蘊(yùn)含的深層語(yǔ)義信息分類。在傳統(tǒng)民族服飾紋樣圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明模型的中間層特征能夠有效表示圖像的本體信息,利用融合學(xué)習(xí)可進(jìn)一步提高分類的準(zhǔn)確性;在Scene數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文方法在指標(biāo)Hamming loss、One-error和Average precision上大幅度優(yōu)于其他方法。在后續(xù)的工作中,將嘗試?yán)脙蓚€(gè)CNN網(wǎng)絡(luò)分別學(xué)習(xí)本體信息和隱義信息再進(jìn)行融合學(xué)習(xí)。

猜你喜歡
民族服飾中間層紋樣
北京服裝學(xué)院民族服飾博物館
傳統(tǒng)茶元素與民族服飾設(shè)計(jì)的融合探討
流行色(2019年7期)2019-09-27 09:33:20
《2020年杭州亞運(yùn)會(huì)紋樣設(shè)計(jì)》
流行色(2019年7期)2019-09-27 09:33:08
北京服裝學(xué)院民族服飾博物館
藏族傳統(tǒng)紋樣中幾何紋樣的類型及其文化解讀
北京服裝學(xué)院民族服飾博物館
袁飛紋樣設(shè)計(jì)
湖南包裝(2016年2期)2016-03-11 15:53:17
鎳基高溫合金TLP擴(kuò)散焊中間層材料研究進(jìn)展
焊接(2016年8期)2016-02-27 13:05:10
B含量對(duì)IC10合金TLP焊接用中間層材料及接頭組織的影響
焊接(2016年6期)2016-02-27 13:04:55
經(jīng)典的藝術(shù)幾何紋樣
Coco薇(2015年10期)2015-10-19 15:03:24
盐城市| 嘉善县| 青川县| 景谷| 东平县| 景洪市| 昔阳县| 延庆县| 灵山县| 南和县| 全州县| 车险| 当阳市| 迭部县| 连州市| 额敏县| 安溪县| 洪江市| 海晏县| 香格里拉县| 舞阳县| 井冈山市| 望城县| 霞浦县| 晋城| 宕昌县| 晴隆县| 德安县| 辽阳县| 岚皋县| 合阳县| 盖州市| 涟源市| 棋牌| 咸丰县| 岚皋县| 湖州市| 宜君县| 凤阳县| 梅州市| 思南县|