国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多任務(wù)判別器與注意力機(jī)制的虛擬試衣研究

2024-12-31 00:00:00魏峰鄭軍紅何利力
軟件工程 2024年7期
關(guān)鍵詞:特征融合

關(guān)鍵詞:虛擬試衣;高效通道注意力機(jī)制;多任務(wù)判別器;特征融合

0 引言(Introduction)

經(jīng)濟(jì)的快速發(fā)展和社會(huì)生活水平的提高,加速了人們對(duì)時(shí)尚產(chǎn)品的需求從單一需求特征到“多層次”“多元化”“個(gè)性化”需求特征的轉(zhuǎn)變。為此,時(shí)尚零售商都在想方設(shè)法地為顧客帶來更好的體驗(yàn)和感官刺激[1],這使得虛擬試穿技術(shù)的研究頗具商業(yè)價(jià)值。虛擬試衣的概念于2001年[2]被提出,基于圖像生成的虛擬試衣技術(shù)具有高效、成本低廉的優(yōu)點(diǎn)[3],目前已有的基于圖像生成的虛擬技術(shù),例如具有錯(cuò)位和遮擋處理?xiàng)l件的高分辨率虛擬試戴(High-Resolution Virtual Try-On with Misalignmentand Occlusion-Handled Conditions,HR-VITON)模型的測(cè)試結(jié)果中存在服裝紋理不夠真實(shí)、特征交互的局限性問題。通過改進(jìn),可以讓虛擬試衣更加符合現(xiàn)實(shí)效果,為用戶提供更加逼真的虛擬試穿體驗(yàn)。

本文基于HR-VITON虛擬試衣方法,在條件構(gòu)造器中引入高效通道注意力機(jī)制;在生成對(duì)抗網(wǎng)絡(luò)中新增馬爾可夫判別器[4],并采用了多任務(wù)判別器結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)提升了生成圖像的局部細(xì)節(jié)清晰度和紋理質(zhì)量,即提高了生成圖像的真實(shí)感和質(zhì)量。

1 本文方法(The proposed method

在HR-VITON虛擬試衣實(shí)驗(yàn)中,存在的主要問題是對(duì)服裝紋理的變形處理不夠真實(shí),以及在特征交互和圖像細(xì)節(jié)處理方面有限制。為了改進(jìn)這一缺陷,本文采用端到端的訓(xùn)練方式對(duì)HR-VITON虛擬試衣實(shí)驗(yàn)進(jìn)行了改善。HR-VITON虛擬試衣方法采用FlowNet處理服裝變形。然而,F(xiàn)lowNet在處理過程中需要從輸入圖像對(duì)中提取特征,這一環(huán)節(jié)的特征提取與融合存在不足,從而直接影響了FlowNet的計(jì)算效果,特別是在處理服裝的細(xì)節(jié)特征,如紋理和微小的設(shè)計(jì)元素時(shí),F(xiàn)lowNet的特征提取機(jī)制可能無法精確捕捉和恰當(dāng)處理這些細(xì)微變化,在處理服裝變形的精細(xì)度和真實(shí)感方面表現(xiàn)尤為明顯。此外,在HR-VITON的圖像生成網(wǎng)絡(luò)中僅包含一個(gè)多尺度判別器,沒有專門用于判別像素級(jí)細(xì)節(jié)的判別器。這意味著在生成圖像的質(zhì)量上,尤其是在像素級(jí)的精確度和細(xì)節(jié)表現(xiàn)上,網(wǎng)絡(luò)可能無法達(dá)到最優(yōu)效果。因此,為了提升HR-VITON在服裝特征保留和改善衣物與人體交互處理方面的性能,有必要對(duì)FlowNet特征提取和融合,以及圖像生成網(wǎng)絡(luò)進(jìn)行改進(jìn)。

本文以HR-VITON虛擬試衣方法為基礎(chǔ),提出了基于多任務(wù)判別器與注意力機(jī)制的虛擬試衣網(wǎng)絡(luò)(圖1),該網(wǎng)絡(luò)在條件構(gòu)造器特征融合模塊中引入了高效通道注意力機(jī)制,提升了對(duì)重要特征的關(guān)注程度,也提高了網(wǎng)絡(luò)特征融合和處理能力;在圖像生成網(wǎng)絡(luò)中引入馬爾可夫判別器,可強(qiáng)化真實(shí)性,提升對(duì)局部細(xì)節(jié)的辨別力,進(jìn)而提高試衣圖像的整體質(zhì)量。下面圍繞改進(jìn)的條件構(gòu)造器和圖像生成器網(wǎng)絡(luò)兩個(gè)部分進(jìn)行介紹。

1.1 增強(qiáng)特征融合的條件構(gòu)造器

在高分辨率的虛擬試衣領(lǐng)域,特征金字塔網(wǎng)絡(luò)(FPN)被廣泛應(yīng)用于提取不同尺度的特征,以捕獲衣物和人體姿態(tài)的復(fù)雜性。然而,F(xiàn)PN的一個(gè)局限性在于其通道特征權(quán)重是均勻的這意味著所有通道被賦予了相同的重要性,而實(shí)際上某些通道可能比其他通道包含更多與任務(wù)相關(guān)的信息。這種均勻的權(quán)重分配可能導(dǎo)致網(wǎng)絡(luò)無法有效地關(guān)注和提取對(duì)生成高質(zhì)量虛擬試衣圖像至關(guān)重要的細(xì)節(jié)特征。

為了克服這一局限性,在FPN的基礎(chǔ)上設(shè)計(jì)了一個(gè)高效通道注意力(Efficient Channel Attention, ECA)模塊,它通過動(dòng)態(tài)調(diào)整通道權(quán)重實(shí)現(xiàn)突出重要特征的目的,并抑制不相關(guān)的特征。ECA模塊在各個(gè)層級(jí)的FPN編碼器之后引入,直接作用于從ClothEncoder和PoseEncoder提取的高層特征。ECA模塊結(jié)構(gòu)如圖2所示,通過全局平均池化(GAP)操作獲取每個(gè)通道的全局信息,并利用1D卷積動(dòng)態(tài)學(xué)習(xí)每個(gè)通道的權(quán)重,ECA模塊可以自適應(yīng)地重加權(quán)每個(gè)通道的特征響應(yīng),從而為特征融合提供了更豐富的表達(dá)。假設(shè)模塊輸入特征圖X∈RC×H ×W ,其中C 為通道數(shù),H 和W 分別是特征圖的高度和寬度。

本文采用的增強(qiáng)特征融合的條件構(gòu)造器主要分為4個(gè)步驟,包括特征提取、通道注意力增強(qiáng)、流圖生成和特征融合,增強(qiáng)特征融合的條件構(gòu)造器網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先,對(duì)于訓(xùn)練數(shù)據(jù)中的每張服裝圖像和姿態(tài)圖像,使用ClothEncoder和PoseEncoder進(jìn)行特征提取,提取服裝和姿態(tài)的關(guān)鍵特征。這些特征通過殘差塊的多層卷積和池化操作進(jìn)行下采樣,捕獲輸入圖像的細(xì)節(jié)和上下文信息。提取后的特征通過高效通道注意力(ECA)模塊進(jìn)行通道注意力增強(qiáng)。ECA模塊使用全局平均池化和一維卷積動(dòng)態(tài)學(xué)習(xí)每個(gè)通道的權(quán)重,強(qiáng)調(diào)對(duì)當(dāng)前任務(wù)最重要的特征通道。其次,利用這些增強(qiáng)的特征生成流圖,流圖是通過卷積層生成的,用于指導(dǎo)服裝特征到模特姿態(tài)的空間映射。最后,通過特征融合步驟將服裝和姿態(tài)特征結(jié)合起來,生成最終的虛擬試衣圖像。融合過程包括上采樣、1×1卷積和殘差塊的使用,確保服裝特征與模特姿態(tài)的有效融合。最終的輸出層根據(jù)配置選項(xiàng)進(jìn)行特征的最后處理。整個(gè)網(wǎng)絡(luò)使用一系列如交叉熵?fù)p失等損失函數(shù)和優(yōu)化器進(jìn)行反向傳播,以更新網(wǎng)絡(luò)參數(shù),包括權(quán)重矩陣和特征表示。條件構(gòu)造器網(wǎng)絡(luò)的設(shè)計(jì)和實(shí)現(xiàn)旨在有效地處理和融合復(fù)雜的視覺信息,以生成高度準(zhǔn)確和自然的扭曲后的服裝圖像、服裝掩碼、試穿服裝后的人體分割圖。

1.2 基于多任務(wù)判別器的圖像生成網(wǎng)絡(luò)

本研究中,對(duì)傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)(GAN)[5]中的判別器結(jié)構(gòu)進(jìn)行了重要的改進(jìn)。傳統(tǒng)的GAN通常采用單一判別器評(píng)價(jià)生成圖像的真實(shí)性。為了提高生成圖像的質(zhì)量和逼真度,本文引入了一種多任務(wù)判別器架構(gòu),它通過不同類型的判別器協(xié)同工作,從全局、局部多個(gè)層面對(duì)生成圖像進(jìn)行評(píng)估。如圖4所示,多任務(wù)判別器由3個(gè)關(guān)鍵部分組成:D1、D2和D3。其中,D1和D2構(gòu)成了多尺度判別器,它由多個(gè)基礎(chǔ)判別器單元組成,能夠在不同尺度上分析生成圖像。這種多尺度策略能夠使網(wǎng)絡(luò)捕捉到生成圖像的不同層次,從而更全面地評(píng)估其真實(shí)性。除此之外,D3判別器采用了馬爾可夫判別器的設(shè)計(jì)理念,這種判別器充分考慮了圖像的局部區(qū)域,能夠更細(xì)致地評(píng)估圖像的局部真實(shí)性。馬爾可夫判別器的引入,能夠有效地幫助模型識(shí)別并改進(jìn)生成圖像中可能存在的局部不一致性。

圖像生成網(wǎng)絡(luò)中的生成器由一系列具有上采樣層的殘差塊組成,并且多任務(wù)判別器設(shè)計(jì)采用兩個(gè)多尺度鑒別器實(shí)現(xiàn)條件對(duì)抗損失,采用馬爾可夫判別器實(shí)現(xiàn)二維交叉熵?fù)p失[6],并且將頻譜歸一化[7]應(yīng)用于所有卷積層。為了訓(xùn)練試穿圖像生成器,總損失函數(shù)融合了條件對(duì)抗損失、感知損失、特征匹配損失及二維交叉熵?fù)p失。總損失函數(shù)表達(dá)式如下:

其中:λα 和λβ 表示不同的損失權(quán)重,LcGAN 表示條件對(duì)抗損失函數(shù),LVGG 表示感知損失,LFM 表示特征匹配損失,Lp 表示二維交叉熵?fù)p失函數(shù)。

多尺度判別器實(shí)現(xiàn)條件對(duì)抗損失使用的是鉸鏈損失函數(shù)(Hinge Loss)[8],它是一種用于支持向量機(jī)(SVM)和GAN模型的損失函數(shù)。在GAN中,它通常用于判別器的損失函數(shù)。鉸鏈損失通過衡量模型對(duì)真實(shí)樣本和生成樣本之間的間隔來評(píng)估模型性能。具體而言,對(duì)于真實(shí)樣本,它追求分?jǐn)?shù)高于某個(gè)閾值,而對(duì)于生成樣本,它希望分?jǐn)?shù)低于另一個(gè)閾值。這種損失鼓勵(lì)判別器能更好地區(qū)分真實(shí)樣本和生成樣本,通常導(dǎo)致更穩(wěn)定的訓(xùn)練和更高質(zhì)量的生成圖像。條件對(duì)抗損失的計(jì)算公式如下:

其中:LDR 表示真實(shí)圖像的損失函數(shù)之和,LDF 表示生成圖像的損失函數(shù)之和,N 表示樣本個(gè)數(shù),x 表示輸入的局部圖像區(qū)域,D(x)表示判別器的輸出,λR 和λF 表示不同的損失權(quán)重。

感知損失是通過在VGG-19網(wǎng)絡(luò)的多個(gè)層次上比較兩個(gè)圖像的特征表示來計(jì)算,旨在捕捉圖像在視覺內(nèi)容和風(fēng)格上的高層次差異。感知損失函數(shù)的計(jì)算公式如下:

其中:x 表示生成圖像,y 表示目標(biāo)圖像,F(xiàn)i(x)表示圖像x 在VGG網(wǎng)絡(luò)的第i 層的特征映射,F(xiàn)i(y)表示圖像y 在VGG網(wǎng)絡(luò)的第i 層的特征映射,wi 表示第i 層的權(quán)重,layids表示一個(gè)索引列表。

特征匹配損失技術(shù)在GAN訓(xùn)練中表現(xiàn)突出,它幫助生成器關(guān)注除了最終判別器輸出外的其他多個(gè)層次的學(xué)習(xí),從而獲得更豐富和多樣化的梯度信息。這樣的訓(xùn)練方法通常可以產(chǎn)生更加穩(wěn)定和高質(zhì)量的結(jié)果。特征匹配損失的計(jì)算公式如下:

其中:G 表示生成器,Dk 表示判別器的第k 個(gè)中間層,E(sx ) 表示對(duì)所有樣本sx 取均值,Ni 表示第i 個(gè)中間層的特征數(shù)量,D(i) k (sx )表示樣本sx 通過判別器Dk 中的第i個(gè)中間層得到的特種表示,G(sG ,G(sx ))表示生成器G 對(duì)樣本sx 進(jìn)行變換后的結(jié)果。

馬爾可夫判別器使用的是二維交叉熵?fù)p失,這種損失函數(shù)允許模型關(guān)注圖像的每個(gè)局部區(qū)域。對(duì)于每個(gè)像素點(diǎn)或Patch,模型都會(huì)輸出一個(gè)概率值,表示該區(qū)域?qū)儆凇罢鎸?shí)”類別的置信度。通過最小化這個(gè)損失,Patch判別器學(xué)習(xí)區(qū)分生成的圖像塊和真實(shí)的圖像塊,使得生成器在生成圖像時(shí),必須在每個(gè)局部區(qū)域內(nèi)都盡可能地接近真實(shí)圖像,從而提高生成圖像的整體質(zhì)量。二維交叉熵?fù)p失的計(jì)算公式如下:

其中:N 表示圖像中的像素點(diǎn)的總數(shù),C 表示類別的總數(shù),yij表示像素點(diǎn)i 是否屬于類別j,pij 表示模型預(yù)測(cè)像素點(diǎn)i 屬于類別j 的概率。

2 實(shí)驗(yàn)(Experiment)

2.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)采用Python 3.8和 Pytorch 1.8.2 構(gòu)建軟件仿真平臺(tái),圖像處理器(GPU)采用4090 GPU,內(nèi)存為24 GB。在實(shí)驗(yàn)中,所有訓(xùn)練和測(cè)試均在VITON- HD數(shù)據(jù)集上進(jìn)行,并且公共超參數(shù)的設(shè)置與HR- VITON保持一致,其中數(shù)據(jù)集包含13 679個(gè)正面女性和頂級(jí)服裝圖像對(duì)。圖像的原始分辨率為1 024×768,當(dāng)需要時(shí),圖像被雙三次下采樣到所需的分辨率。研究人員將數(shù)據(jù)集分割為訓(xùn)練集與測(cè)試集,其中訓(xùn)練集包含11 647對(duì)數(shù)據(jù),測(cè)試集包含2 032對(duì)數(shù)據(jù)。

2.2 評(píng)價(jià)指標(biāo)

本文使用Learned Perceptual Image Patch Similarity(LPIPS)[9]、Fréchet Inception Distance(FID)[10]、StructuralSimilarity Index Measure(SSIM)[11]衡量生成圖像的視覺質(zhì)量。其中:LPIPS專注于圖像的紋理和細(xì)節(jié),而不僅僅是像素級(jí)別的差異;FID用來比較一組生成的試衣圖像與一組真實(shí)圖像的統(tǒng)計(jì)分布差異;SSIM是一種評(píng)估兩張圖像視覺相似度的指標(biāo),它考慮了亮度、對(duì)比度和結(jié)構(gòu)3個(gè)維度。

2.3 實(shí)驗(yàn)結(jié)果

2.3.1 直觀對(duì)比

本文實(shí)驗(yàn)采用HR-VITON虛擬試衣方法所帶的數(shù)據(jù)集VITON-HD Dataset。本文將虛擬試衣結(jié)果與4種經(jīng)典虛擬試衣結(jié)果進(jìn)行視覺直觀對(duì)比,對(duì)比結(jié)果如圖5所示。在圖5中,從左到右分別為模特/目標(biāo)服裝圖、CP-VTON虛擬試衣效果圖、PF-AFN虛擬試衣效果圖、VITON-HD虛擬試衣效果圖、HR-VITON虛擬試衣效果圖、本文虛擬試衣效果圖、細(xì)節(jié)放大效果圖。從圖5中可以看出,本文方法可以更細(xì)致地捕捉和渲染復(fù)雜的紋理細(xì)節(jié),確保圖案的精準(zhǔn)對(duì)齊,同時(shí)保持色彩鮮明、自然。通過對(duì)比實(shí)驗(yàn)可以觀察到,在保留原始服裝設(shè)計(jì)元素的基礎(chǔ)上,所生成的圖像視覺效果更逼真,其紋理更豐富,顏色過渡更平滑。無論是在微觀紋理還是宏觀整體視覺上,該方法都優(yōu)于其他對(duì)比方法。

2.3.2 定量對(duì)比

二維試衣定量評(píng)價(jià)結(jié)果見表1。從表1中可以看出,添加高效通道注意力模塊和增加判別器后,圖像感知相似度LPIPS降低了0.004,F(xiàn)ID 降低了0.44,結(jié)構(gòu)相似度SSIM 降低了0.005,訓(xùn)練時(shí)間減少了130 min。以上數(shù)據(jù)表明本文方法生成的圖像在感知質(zhì)量、統(tǒng)計(jì)特性和計(jì)算效率方面均得到了提升,但在保持結(jié)構(gòu)相似度方面可能還需要進(jìn)一步優(yōu)化。

2.3.3 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證高效通道注意力機(jī)制與多任務(wù)判別器網(wǎng)絡(luò)的有效性,本研究設(shè)計(jì)了消融實(shí)驗(yàn)。選擇HR-VITON模型、加入注意力機(jī)制的HR-VITON(+ECA)、構(gòu)建多任務(wù)判別器的HR-VITON(+MTD)和本文方法作為基線模型,在數(shù)據(jù)集上進(jìn)行迭代訓(xùn)練生成結(jié)果的LPIPS、FID、SSIM。消融實(shí)驗(yàn)定量評(píng)價(jià)結(jié)果如表2所示。

從表2中的數(shù)據(jù)可以看出,加入高效注意力機(jī)制后的虛擬試衣網(wǎng)絡(luò)的LPIPS降低了0.001、FID降低了0.39、SSIM 提高了0.002;而在構(gòu)建多任務(wù)判別器網(wǎng)絡(luò)后,LPIPS 降低了0.003、FID降低了0.27,SSIM 降低了0.006。以上結(jié)果說明引入高效注意力機(jī)制可以有效提升圖像的整體質(zhì)量,注意力機(jī)制能夠更好地捕捉圖像的關(guān)鍵信息,減少冗余和噪聲,從而使輸出圖像更加清晰、逼真;相比之下,構(gòu)建多任務(wù)判別器網(wǎng)絡(luò)更注重提高感知質(zhì)量,即在視覺效果上更接近真實(shí)場(chǎng)景。通過多任務(wù)學(xué)習(xí)的方法,網(wǎng)絡(luò)可以更好地理解圖像內(nèi)容,并在保證一定的結(jié)構(gòu)相似性的同時(shí),提高感知質(zhì)量。然而,該方法的局限性是,為提升感知質(zhì)量,可能會(huì)降低部分結(jié)構(gòu)相似性。

3 結(jié)論(Conclusion)

本文提出了一種使用注意力機(jī)制增強(qiáng)特征融合的條件構(gòu)造器,以及設(shè)計(jì)了一個(gè)多任務(wù)判別器用于試衣圖像生成。使用注意力機(jī)制后,網(wǎng)絡(luò)能夠更好地聚焦于衣物和人物的關(guān)鍵特征,從而在虛擬試衣中更精確地生成逼真的圖像。同時(shí),多任務(wù)判別器的引入,使得網(wǎng)絡(luò)能夠同時(shí)完成試衣圖像的生成和鑒別任務(wù),進(jìn)一步提升了虛擬試衣的效果。實(shí)驗(yàn)結(jié)果表明,與其他虛擬試衣方法相比,本文方法在視覺質(zhì)量、定量分析等方面有了顯著提升,有效地解決了虛擬試衣過程中服裝細(xì)節(jié)保留不足和復(fù)雜紋理表現(xiàn)不佳的問題。在未來的工作中,研究人員計(jì)劃對(duì)現(xiàn)有的虛擬試衣網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn),不斷豐富虛擬試衣圖像的數(shù)據(jù)庫(kù),以及探索新的技術(shù)手段增強(qiáng)虛擬試衣的視覺效果和提升用戶體驗(yàn)。

猜你喜歡
特征融合
多特征融合的粒子濾波紅外單目標(biāo)跟蹤
基于稀疏表示與特征融合的人臉識(shí)別方法
一種“客觀度量”和“深度學(xué)習(xí)”共同驅(qū)動(dòng)的立體匹配方法
多特征融合的紋理圖像分類研究
語譜圖傅里葉變換的二字漢語詞匯語音識(shí)別
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識(shí)別的分析
基于移動(dòng)端的樹木葉片識(shí)別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
融合整體與局部特征的車輛型號(hào)識(shí)別方法
澄城县| 南涧| 郴州市| 中超| 山东| 高唐县| 阿拉善左旗| 莒南县| 丰镇市| 赤峰市| 沾益县| 龙井市| 长宁县| 平遥县| 苍南县| 达日县| 二连浩特市| 崇信县| 伊宁市| 容城县| 洮南市| 淳安县| 察雅县| 自贡市| 无棣县| 青浦区| 历史| 江油市| 缙云县| 盖州市| 边坝县| 长宁区| 雅江县| 胶南市| 灵石县| 阳谷县| 金阳县| 黄平县| 绥阳县| 剑川县| 普定县|