国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Diffusers框架的電商產(chǎn)品圖制作方法研究

2024-03-29 15:55伍海洋馬川越劉登輝
無(wú)線互聯(lián)科技 2024年2期
關(guān)鍵詞:全圖深度圖蒙版

伍海洋,馬川越,劉登輝

(西京學(xué)院 電子信息學(xué)院,陜西 西安 710123)

0 引言

產(chǎn)品展示圖是對(duì)商品全方位的圖片展示,一般為主圖部分的圖片以及更多產(chǎn)品應(yīng)用場(chǎng)景的圖片。產(chǎn)品展示圖主要包括白底圖以及商拍圖,單件商品有多種顏色,如果需要拍完單件產(chǎn)品的整套展示圖,不僅成本高,而且耗費(fèi)時(shí)間,影響商家的上新進(jìn)度與成本控制,所以商品圖的低成本批量生成對(duì)電商賣(mài)家具有重要的意義。

Diffusion模型可以根據(jù)提示詞生成圖像[1],也可以加入Control Net、LoRA等模型,從而加強(qiáng)圖像生成過(guò)程的可控性,本文的主要工作如下。

(1)設(shè)計(jì)并實(shí)現(xiàn)了電商產(chǎn)品圖背景替換以及模特替換的流程,該流程可以根據(jù)關(guān)鍵詞替換指定風(fēng)格的背景以及模特。

(2)使用Ultralytics、Segment Anything、Grounding DINO等算法來(lái)實(shí)現(xiàn)衣服分割以及人臉檢測(cè)等預(yù)處理,從而實(shí)現(xiàn)模特替換以及生成臉部和手部的細(xì)節(jié)修復(fù)。

1 擴(kuò)散模型與Control Net網(wǎng)絡(luò)

1.1 Diffusion模型

去噪擴(kuò)散概率模型[2](Denoising Diffusion Probabilistic Models,DDPM),在前向階段對(duì)數(shù)據(jù)逐步施加噪聲,直到數(shù)據(jù)完全變成高斯噪聲,然后再在逆向階段將噪聲還原為原始數(shù)據(jù)。在前向傳播過(guò)程中,會(huì)逐漸對(duì)初始圖像添加噪聲,將輸入的真實(shí)圖像x0逐漸變成無(wú)序的高斯噪聲圖像xt,在每一次的加噪過(guò)程中,該次添加噪聲的標(biāo)準(zhǔn)差是由固定值βt給定的,均值是由βt和當(dāng)前t時(shí)刻的數(shù)據(jù)xt決定的,整個(gè)過(guò)程是一個(gè)馬爾科夫鏈過(guò)程。

1.2 Control Net網(wǎng)絡(luò)

Control Net網(wǎng)絡(luò)創(chuàng)新性地提出了Zero Convolution概念,該網(wǎng)絡(luò)會(huì)復(fù)制原模型的編碼器部分,外部條件輸入會(huì)與原模型輸入經(jīng)過(guò)相同的編碼器部分,并通過(guò)Zero Convolution與編碼后的隱變量結(jié)合,從而實(shí)現(xiàn)對(duì)生成流程的控制。在DDPM中,模型使用類似于矢量量化生成對(duì)抗網(wǎng)絡(luò)(Vector Quantized Generative Adversarial Network,VQ-GAN)的預(yù)處理方法將尺寸為512×512像素的圖像數(shù)據(jù)集轉(zhuǎn)換為64×64像素的潛在圖像進(jìn)行訓(xùn)練,這需要Control Net將基于圖像的條件轉(zhuǎn)換為64×64像素的特征空間,以匹配卷積大小。Control Net在計(jì)算方式上是高效的,因?yàn)樵紮?quán)重是鎖定的[3],所以訓(xùn)練不需要在原始編碼器上進(jìn)行梯度計(jì)算,這樣可以加快訓(xùn)練速度,節(jié)省近一半的GPU內(nèi)存。

2 實(shí)驗(yàn)與分析

電商產(chǎn)品圖的制作包括圖像蒙版的制作、背景以及模特的生成、圖像細(xì)節(jié)修復(fù)3個(gè)部分。首先根據(jù)不同的任務(wù)獲得圖像的蒙版,再通過(guò)Control Net網(wǎng)絡(luò)控制DDPM模型生成所需背景或模特,再根據(jù)半身和全身的區(qū)別分別通過(guò)全圖超分和局部超分修復(fù)細(xì)節(jié),最終生成指定要求的商品圖。

2.1 背景替換

為實(shí)現(xiàn)背景替換效果,首先需要對(duì)輸入圖像進(jìn)行預(yù)處理。用MOD Net對(duì)圖像做人像分割,得到圖像蒙版,將圖像的前景和后景分開(kāi),再用ZoeDepth對(duì)原圖做預(yù)處理,得到圖像的深度圖,從而控制生成圖的前后景關(guān)系。本文對(duì)蒙版做邊緣檢測(cè),控制生成圖像的前景邊緣部分,進(jìn)一步將前后景分離,在將邊緣檢測(cè)加入DDPM時(shí),使用的Control Net模型是Sd-Controlnet-Canny,輸入圖像為邊緣檢測(cè)圖[4],網(wǎng)絡(luò)控制權(quán)重設(shè)置為1。在將深度圖加入DDPM時(shí),使用的Control Net模型是Control_V11f1p_Sd15_Depth,輸入圖像為深度圖,網(wǎng)絡(luò)控制權(quán)重為1,介入時(shí)間為0.5~1.0 s。

經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),重繪幅度越大,背景內(nèi)容會(huì)越豐富,但也會(huì)出現(xiàn)區(qū)域重復(fù)、無(wú)意義物體等壞圖現(xiàn)象,重繪幅度變小,圖像也會(huì)變成灰褐色背景,這是由于去噪時(shí)沒(méi)有明確的暗示。實(shí)驗(yàn)結(jié)果表明,重繪幅度在0.8時(shí),既能保證生成圖景深的準(zhǔn)確性,也能實(shí)現(xiàn)背景替換的功能。

2.2 模特替換

模特替換的預(yù)處理需要得到原圖的衣服蒙版、深度圖、邊緣檢測(cè)圖、姿態(tài)估計(jì)圖。邊緣檢測(cè)圖和深度圖的獲取方式與背景替換的獲取方式相同[5],不再贅述。本文獲取衣服蒙版的方式,是將Segment Anything模型與Grounding DINO模型相結(jié)合,自動(dòng)分割衣服蒙版。分割一切模型(Segment Anything Model,SAM)是Mata AI研究團(tuán)隊(duì)在ICCV2023上提出的一種新的全場(chǎng)景分割模型[6],該模型可以對(duì)任何圖像中的任何對(duì)象進(jìn)行分割,SAM是一個(gè)可提示模型,模型在數(shù)據(jù)收集循環(huán)中使用高效的方法構(gòu)建了迄今為止最大的數(shù)據(jù)集,具有良好的泛化能力。Grounding DINO是一種開(kāi)集目標(biāo)檢測(cè)方案,將基于Transformer的檢測(cè)器與DINO相結(jié)合,開(kāi)集檢測(cè)的關(guān)鍵是引入 Language 閉集檢測(cè)器,用于開(kāi)集概念泛化。本文將閉集檢測(cè)器分為3個(gè)階段,提出一種緊密融合方案,包括 Feature Enhancer、Language-Guided Query Selection、Cross-Modality Decoder。除了對(duì)新穎類別進(jìn)行檢測(cè),還可進(jìn)行特定屬性目標(biāo)識(shí)別[7]。在COCO 數(shù)據(jù)集上零樣本檢測(cè)達(dá)到 52.5AP,在 COCO 數(shù)據(jù)集 Finetune 后達(dá)到 63AP。本文用 Grounding DINO 實(shí)現(xiàn)衣服的目標(biāo)檢測(cè),得到衣服在圖中的位置,并將坐標(biāo)發(fā)送給 SAM,再利用 SAM 模型做衣服分割,從而得到準(zhǔn)確的衣服蒙版。在姿態(tài)估計(jì)方面,選擇了DWpose模型作為姿態(tài)估計(jì)模型,DWpose模型在RTMpose模型的基礎(chǔ)上做二階段蒸餾,一經(jīng)推出就是COCO-Wholebody數(shù)據(jù)集的SOTA,并且不需要依靠MMCV的依賴庫(kù)就可以接入Control Net,模型整體會(huì)更加輕量化[7],但是精度并未降低,推理速度更快。

2.3 圖像修復(fù)實(shí)驗(yàn)

2.3.1 局部修復(fù)實(shí)驗(yàn)

局部重繪的思想是先用Ultralyics做臉部檢測(cè)和手部檢測(cè),按照512×512的尺寸將圖像截取,再做皮膚分割,將皮膚的部分重繪,然后再將修復(fù)后的局部圖像與原圖像做泊松融合[8]。

在皮膚分割的算法中,選擇了 Will Brennan 在2020年發(fā)布在 github 上的一個(gè)項(xiàng)目,該項(xiàng)目是 Skin Detection 的優(yōu)化版本Semantic Segmentation,該項(xiàng)目分別使用FCNRes Net101 以及 BiSe NetV2 作為 Backbone 實(shí)現(xiàn)了皮膚的語(yǔ)義分割,該項(xiàng)目雖然只在 COCO 數(shù)據(jù)集選擇 150 張圖像作為自定義數(shù)據(jù)集進(jìn)行訓(xùn)練,但是從結(jié)果來(lái)看,對(duì)于皮膚的分割效果比 Paddle Seg 效果更好。為了進(jìn)一步優(yōu)化該模型的分割效果,再加入一個(gè) ViTmatte算法,讓邊緣更加清晰。ViTmatte 算法是基于 Hugging Face Transformers 庫(kù)開(kāi)發(fā)的摳圖算法,由NielsRogge開(kāi)發(fā),提供快速、高質(zhì)量的摳圖功能,快速分離圖像的前景與后景。

2.3.2 全圖超分修復(fù)實(shí)驗(yàn)

全圖超分不需要將局部切割出來(lái),而是在生成初始圖像后,使用超分算法將全圖重繪,將圖像超分為原圖的1.5倍,并使用生成式人臉完善器生成式對(duì)抗網(wǎng)絡(luò)(Generative Face Perfector Generative Adversarial Network,GFPGAN)模型以及 Codeformer模型,對(duì)全圖做圖像修復(fù)。超分過(guò)程的第一階段采樣器為ESRGAN_4x,第二階段采樣器為SwinIR_4x,強(qiáng)度為0.5。

經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在做半身圖的生成時(shí),使用全圖超分的效果更好,在做全身圖生成時(shí),使用局部重繪的效果更好,所以可以將圖像修復(fù)結(jié)合全身圖與半身圖的判斷,使得最終生成的圖像效果更好。

3 結(jié)語(yǔ)

本文提出一種基于擴(kuò)散模型與Control Net網(wǎng)絡(luò)生成電商圖的方法,達(dá)到低成本電商圖生成的目的,通過(guò)背景替換實(shí)驗(yàn)和模特替換實(shí)驗(yàn),驗(yàn)證了本文方法的實(shí)用性;提出了2種圖像修復(fù)方法,生成的電商圖能夠準(zhǔn)確地替換背景與模特部分;保證全圖的合理性與整體性,前后景的景深關(guān)系合理,無(wú)斷肢,無(wú)多余物體。本文方法能夠降低電商賣(mài)家制作產(chǎn)品圖的成本,在保證質(zhì)量的情況下,提高電商圖的制作效率。

本文提出的電商圖生成方法依然存在一些不足,如后景的潛變量對(duì)生成影響較大,原圖尺寸過(guò)小或者過(guò)大都會(huì)導(dǎo)致最終的結(jié)果圖效果較差,對(duì)飾品,如眼鏡、手表等分割效果較差,生成效果也較差等,需要在后續(xù)研究中進(jìn)一步提高對(duì)于飾品的分割效果與生成效果,消除后景的潛變量對(duì)生成的影響,為電商賣(mài)家提供更有效的電商圖制作手段。

猜你喜歡
全圖深度圖蒙版
《大清一統(tǒng)輿圖·陜西全圖》初探
圖層蒙版和剪貼蒙版技術(shù)分析與研究
——photoshop廣告設(shè)計(jì)專業(yè)職業(yè)能力形成
詳解圖層蒙版
基于深度圖的3D-HEVC魯棒視頻水印算法
圖畫(huà)捉迷藏
一種基于局部直方圖匹配的深度編碼濾波算法
疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
圖畫(huà)捉迷藏
圖畫(huà)捉迷藏
Photoshop中的蒙版技術(shù)淺析