摘" 要:藍印花布是中國的非物質(zhì)文化遺產(chǎn),具有重要的傳承創(chuàng)新意義。為了自動生成藍印花布新紋樣,提出一種端到端的藍印花布單紋樣自動生成方法。針對藍印花布的抽象風格和小數(shù)據(jù)集問題,改進動態(tài)低秩自適應算法(DyLoRA),提出了新的參數(shù)分解法來提高參數(shù)矩陣的秩,從而實現(xiàn)對穩(wěn)定擴散模型的微調(diào),最后將穩(wěn)定擴散模型的語義信息與承載藍印花布風格的DyLoRA模塊結(jié)合,并利用控制網(wǎng)絡(luò)(Controlnet)控制圖形結(jié)構(gòu),自動生成藍印花布新的單紋樣。使用上述方法進行藍印花布紋樣生成實驗,并與原始的DyLoRA方法進行對比。結(jié)果表明,基于改進的DyLoRA微調(diào)和Controlnet控制的模型能通過文本信息自動生成新的單紋樣,且主觀性上與原始風格最接近,有助于藍印花布的數(shù)字化傳承和創(chuàng)新。
關(guān)鍵詞:藍印花布;深度學習;動態(tài)低秩自適應;穩(wěn)定擴散模型;單紋樣;紋樣生成
中圖分類號:TP391.7
文獻標志碼:A
文章編號:1009-265X(2024)12-0048-10
DOI: 10.19398j.att.202402012
收稿日期:20240228
網(wǎng)絡(luò)出版日期:20240605
基金項目:浙江省自然科學基金項目(LQ23F020006)
作者簡介:冉二飛(1998—),男,碩士研究生,主要從事計算機視覺與圖像處理方面的研究。
通信作者:賈小軍,E-mail:xjjiad@sina.com
藍印花布作為首批列入國家級非物質(zhì)文化遺產(chǎn)名錄的民間傳統(tǒng)工藝,使用簡潔而樸素的藍色和白色為主要色調(diào),在布料上創(chuàng)造出絢麗多姿的藝術(shù)畫面。但是目前對藍印花布的研究,大都是從紋樣的主觀視覺語義寓意,或是從歷史發(fā)展和制作工藝角度進行人文方面的理論闡述[1-3],但對于紋樣的自動生成技術(shù)研究較為缺乏[4-5]。另外,現(xiàn)存的紋樣生成方法的技術(shù)路線大致為提取基元,選擇骨架和配置顏色,生成新紋樣[6],或者是通過對分形圖案[7]進行連續(xù)堆疊產(chǎn)生新紋樣。這些方法對于已有的基元圖像太過于依賴,不利于對基元本身的創(chuàng)新。而深度學習的發(fā)展提供了擴展藍印花布等紋樣研究的新思路?;谏疃葘W習的藍印花布紋樣生成方法國內(nèi)也有研究[8],雖然其能夠以風格遷移的形式將簡筆畫圖像轉(zhuǎn)換成藍印花布紋樣,但是仍存在生成質(zhì)量低、輸入條件受限等問題。基于深度學習的風格圖像生成可以分為兩種,一種為圖像風格遷移,一種為大模型文生圖方式。圖像風格遷移是兩個不同域中圖像的轉(zhuǎn)換,具體來說就是提供一種風格圖像,將任意一張圖像轉(zhuǎn)化為這種風格,并盡可能保留原圖像的內(nèi)容。大模型文生圖方式則通過訓練圖像風格的表示,并將其豐富的語義信息和圖像風格的表示結(jié)合,通過提示詞生成所需的圖片,生成的紋樣更加自由抽象。
Gatys等[9]率先將深度學習運用在風格遷移任務上,利用Gram矩陣將圖像表示為內(nèi)容和風格兩部分,通過圖像重建使內(nèi)容圖的Gram矩陣逼近風格圖的Gram矩陣。這種方法可以生成風格圖像,但是收斂速度慢,渲染時間長。Goodfellow等[10]提出了生成對抗網(wǎng)絡(luò)理論(GAN),GAN為圖像風格轉(zhuǎn)換提供了新的思路,相校于使用Gram矩陣進行不斷迭代得到最終風格圖像,GAN可通過其生成網(wǎng)絡(luò)一步生成風格圖像,大大加快了生成速度。李敏等[11]采用CycleGAN算法模型,擺脫了配對訓練數(shù)據(jù)集的限制要求實現(xiàn)迷彩圖像生成,但CycleGAN在幾何形狀改變方面表現(xiàn)不佳。盡管以GAN為基礎(chǔ)的各式變體[12-14]取得了不小的成就,但是基本都存在著模型損失震蕩難以收斂和模型崩塌的問題。Ho等[15]提出了去噪擴散概率模型(DDPM),其擺脫了GAN模型訓練過程中損失不收斂的問題,訓練過程更加穩(wěn)定。隨著Radford等[16]提出的語言圖像對比預訓練模型(CLIP),通過計算文本特征和圖像特征的余弦相似性,打通了文本與圖像之間的壁壘。Rombach等[17]提出了穩(wěn)定擴散模型(Stable Diffusion)結(jié)合了DDPM和CLIP,不僅在文生圖領(lǐng)域取得重大成就,在傳統(tǒng)圖像生成的諸多領(lǐng)域都達到了最優(yōu)水平。但是大模型運行成本和訓練成本都相當高昂,因而諸多微調(diào)大模型的方法應運而生。Gal等[18]提出了文本反演方法,通過在模型中插入新關(guān)鍵詞的方式,訓練新關(guān)鍵字的嵌入,使模型能夠根據(jù)提示生成新物體或是新的圖像風格,但是該訓練過程存在語義漂移問題會污染其他關(guān)鍵詞。Ruiz等[19]提出了Dreambooth方法,只需要四五張圖片進行訓練就可以將新物體融合入圖像中,但是由于Dreambooth方法對整個大模型進行微調(diào),訓練過程對顯存要求較高,產(chǎn)生的權(quán)重文件過大,不利于在不同場合下的切換使用。Hu等[20]提出了低秩自適應方法(LoRA),發(fā)現(xiàn)大模型訓練過程中的權(quán)重變化矩陣并非滿秩,利用兩低秩矩陣相乘取代權(quán)重變化矩陣,使其作為旁路與被凍結(jié)的原始權(quán)重矩陣相加。低秩自適應方法產(chǎn)生的權(quán)重文件較小,但是低秩自適應訓練過程中低秩矩陣的秩是人為指定,限制了自身的學習能力。為此,Valipour等[21]提出了動態(tài)低秩自適應方法(DyLoRA),在性能損失可接受的情況下,將在訓練期間的不同秩所學到的表示進行結(jié)合,使用一系列的秩而不是單一的秩訓練LoRA塊。
然而原始DyLoRA方法限制了參數(shù)矩陣分解后可攜帶的信息量,其參數(shù)矩陣分解方式對秩的提升沒有正向作用。為了自由可控地生成藍印花布紋樣,本文使用改進的DyLoRA方法微調(diào)Stable Diffusion,同時
引入控制網(wǎng)絡(luò)(ControlNet)技術(shù)[22]對圖像結(jié)構(gòu)進行控制,以自動生成藍印花布的新的單紋樣。
1" 擴散模型
Stable Diffusion的指導思想為去噪概率擴散模型(DDPM),即通過去噪的方式建模數(shù)據(jù)的概率分布,最終達到從完全的噪聲圖像逐步去噪生成目標域圖像的效果。風格圖像的生成過程如圖1反向過程所示。當神經(jīng)網(wǎng)絡(luò)訓練完成后,神經(jīng)網(wǎng)絡(luò)可依據(jù)當前步數(shù)預測出噪聲,隨后通過減去當前噪聲還原圖像。重復上述步驟最終得到目標域圖像。
在訓練的過程中,DDPM[17]可分為前向過程和反向過程。在前向過程中對原始數(shù)據(jù)x0~q(x0)逐步添加高斯噪聲直到數(shù)據(jù)變?yōu)殡S機噪聲,擴散過程共進行T次迭代,每次添加的噪聲為每一步都是對上一步得到的數(shù)據(jù)xt-1按照式(1)添加噪聲:
q(xt|xt-1)=N(xt;1-βtxt-1,βtI)(1)
式中{βt}Tt=1為每一步采用的方差,且越后面的迭代會采用越大的方差,即滿足β1lt;β2lt;…lt;βT。
如果迭代次數(shù)T足夠大,那么最終結(jié)果xt就會變成一個隨機噪聲,整個前向過程可表示為一個馬爾科夫鏈:
q(x1:T|x0)=∏Tt=1q(xt|xt-1)(2)
反向過程是一個去噪的過程。如果知道反向過程的每一步的真實分布pθ(xt-1|xt),那么就可以將隨機噪聲逐步去噪,產(chǎn)生一個真實樣本。其計算過程如式(3)—(4):
pθ(x0:T)=p(xT)∏Tt=1pθ(xt-1|xt)(3)
pθ(xt-1|xt)=N(xt-1;μθ(xt,t),∑θ(xt,t))(4)
在訓練過程中,最終的優(yōu)化目標是讓網(wǎng)絡(luò)預測的噪聲和真實的噪聲一致,其損失函數(shù)為下式(5):
L=Ex0,ε,t‖ε-εθ(αtx0+1-αtε,t)‖2(5)
式中:t表示[1,N]的均勻采樣,ε~N(0,1),αt=1-βt,αt=∏ts=1αs。
2" 模型微調(diào)方法
大模型直接進行微調(diào)雖然也是可行的方法之一,但是需要大量的標記數(shù)據(jù)來實現(xiàn)好的性能。由于大模型具有巨大的參數(shù)量,直接微調(diào)大模型可能會在小數(shù)據(jù)集上過擬合,從而導致模型在未見過的數(shù)據(jù)上性能下降。然而基于LoRA的方法可以在較小的標記數(shù)據(jù)集上執(zhí)行,其依賴于參數(shù)數(shù)據(jù)更新時的潛在結(jié)構(gòu)減少了數(shù)據(jù)需求,對于有限的藍印花布紋樣特別適合。
2.1" LoRA微調(diào)方法
LoRA原本用來解決微調(diào)大型語言模型的問題,但現(xiàn)在通常應用在擴散模型上。LoRA凍結(jié)預訓練模型的權(quán)重,并在每個Transformer塊中注入可訓練層(稱為秩分解矩陣)。大大減少了需要訓練參數(shù)的數(shù)量,從而降低了GPU內(nèi)存需求,其結(jié)構(gòu)如圖2所示。
在大模型微調(diào)訓練過程中存在許多稠密參數(shù)矩陣,但是微調(diào)過程中參數(shù)的變化矩陣卻并不滿秩,利用這一特點,可以通過凍結(jié)預訓練模型的權(quán)重,改為訓練一個旁支,如圖2中的輸入x,具有維度d,在LoRA方法中,首先使用線性層A,將數(shù)據(jù)從d維降到r維,這個r便是LoRA的秩,是LoRA中最重要的一個超參數(shù)。一般r會遠遠小于d,接著再用第二個線性層B,將數(shù)據(jù)從r維變回d維。最后再將左右兩部分的結(jié)果相加得到新的中間向量h。在這一過程其需要學習的參數(shù)量從d×d變成了d×r+r×d,在r=d的情況下,參數(shù)量大大降低。這個過程用公式表示為:
h=W0x+ΔWx=W0x+αrWupWdwx(6)
式中:W0凍結(jié)參數(shù)矩陣,Wdw、Wup分別為Linear層A、B的參數(shù)矩陣,x為輸入,r為秩,α為縮放因子。
但是在不同的任務中,固定的秩往往不能滿足需要,尋找合適的超參數(shù)秩又會浪費大量的資源。在本文中使用改進的動態(tài)低秩適應技術(shù)DyLoRA來替代普通LoRA。DyLoRA的基本思想與普通LoRA相同,但是在實現(xiàn)細節(jié)上做了很大的改進。同時對于重要的超參數(shù)秩,DyLoRA使用一個范圍[rmin,rmax]來代替原本的秩r。rmin和rmax是兩個新的超參數(shù)。在訓練過程中從固定好的概率分布b~PB,b∈{rmin,rmin+1,…,rmax}中隨機取樣b,并相應地截斷Wdw、Wup得到Wup↓b和Wdw↓b,分解后的兩矩陣形狀變?yōu)閐×b和b×d,如圖3所示。其計算方法如式(7)—(8):
Wup↓b=Wup[∶,1∶b](7)
Wdw↓b=Wdw[1∶b,∶](8)
于是在前向過程中式(6)轉(zhuǎn)化為:
h=W0x+ΔWx=W0x+αbWup↓bWdw↓bx(9)
而在反向過程中,為了防止先前學到的信息丟失,參數(shù)只更新第b列/行的參數(shù),其他參數(shù)則被固定,如圖4所示。
傳統(tǒng)的DyLoRA參數(shù)分解方式對于參數(shù)矩陣ΔW的秩沒有正向增大作用,但是秩的大小直接決定了參數(shù)矩陣可以攜帶的信息量。本文在參數(shù)矩陣分解方式上對DyLoRA進行改進,對于參數(shù)矩陣ΔW將其分為兩組Wup↓b、Wdw↓b的點乘,如圖5所示。
根據(jù)新的參數(shù)矩陣分解方式,在前向過程中參數(shù)矩陣可表示為:
h=W0x+αb(Wup↓b1Wdw↓b1⊙Wup↓b2Wdw↓b2)x(10)
式中b1=b2=b/2,左側(cè)矩陣的秩為b1,右側(cè)矩陣的秩為b2。
對于矩陣的點乘操作,有r(A⊙B)≤r(A)r(B),設(shè)A、B矩陣都是m×n矩陣,r(A)=r,r(B)=s。那么A、B矩陣可寫為A=∑ri=1αiβTi,B=∑si=1γiηTi,于是可得式(11):
A⊙B=∑ri=1∑si=1(αiβTi)⊙(γiηTi)
=∑ri=1∑si=1((αi⊙γi)(βi⊙ηi)T)(11)
式中:α1,…,αi和β1,…,βi為m維線性無關(guān)列向量組,γ1,…,γi和η1,…,ηi為n維線性無關(guān)列向量組。根據(jù)式(11)可得式(12):
r(A⊙B)=∑ri=1∑si=1r((αi⊙γi)(βi⊙ηi)T)
≤r(A)r(B)=rs(12)
若按照圖3所示的方式進行參數(shù)分解,分解出的兩個矩陣只是簡單做叉乘,兩者相乘的秩只能小于等于分解出的兩個矩陣的最小值。
r(A×B)≤min{r(A),r(B)}=min{r,s}(13)
理想情況下,通過點乘后得到的ΔW參數(shù)矩陣的秩為b1×b2=b2/4。如果按照圖3所示的方式進行參數(shù)分解,ΔW參數(shù)矩陣的秩為b。顯然當b的取值較大時(bgt;4),如果按照圖5所示的新的參數(shù)分解方式可以在參數(shù)總量相同的情況下使ΔW參數(shù)矩陣獲得更大的秩,從而獲得更多的信息量。
反向過程和圖4類似,但由于參數(shù)矩陣分解為了4個矩陣,參數(shù)更新過程每個參數(shù)矩陣需要更新的參數(shù)量相較于DyloRA增加了一倍,為4×d,然而相對于更新整個大模型(d×d)而言,由于其維度d遠大于4,增加的參數(shù)量依舊微不足道,參數(shù)更新過程如圖6所示。
2.2" 控制網(wǎng)絡(luò)
擴散模型在“文生圖”領(lǐng)域達到了很高的成就,對于同樣的文本提示詞,使用不同的隨機種子可以生成不同的圖片,這是其高泛用性的體現(xiàn)。但是當想要精準控制圖像的布局或是物體形狀時,僅僅使用文本提示詞這一條件,就略顯不足了。
Controlnet可以有效解決這一問題,通過增加額外的條件來控制圖像的生成,例如生成特定藍印花布單紋樣時,可以使用深度圖預處理器提取深度圖作為控制條件輸入從而得到形狀固定的單紋樣。Controlnet控制單個神經(jīng)網(wǎng)絡(luò)塊的結(jié)構(gòu)如圖7所示,當不添加Controlnet時,擴散模型的原始的神經(jīng)網(wǎng)絡(luò)F輸入x得到y(tǒng),參數(shù)用Θ表示。
y=F(x;Θ)(14)
在ControlNet中,將Stable Diffusion的Unet的Encoder鎖定,然后復制一份,在原始神經(jīng)網(wǎng)絡(luò)模塊復制上進行操作,施加控制條件。將施加控制條件之后的結(jié)果和原來模型的結(jié)果相加獲得最終的輸出。最后將原始網(wǎng)絡(luò)的輸出修改為:
yc=F(x;Θ)+Z(F(x+Z(c;Θz1);Θc);Θz2)(15)
式中:Z表示零卷積(Zero Convolution),是初始化權(quán)重和偏差為0的1×1卷積,Θz1、Θz2為兩層零卷積的參數(shù),c為輸入的條件。將控制條件通過零卷積之后,與原始輸入相加,相加之后進入ControlNet的復制神經(jīng)網(wǎng)絡(luò)塊中,將網(wǎng)絡(luò)輸出再做一次零卷積之后與原始網(wǎng)絡(luò)的輸出相加。未經(jīng)訓練的ControlNet初始狀態(tài)參數(shù)如下式(16)—(18):
Z(c;Θz1)=0(16)
F(x+Z(c;Θz1);Θc)=F(x;Θ)(17)
Z(F(x+Z(c;Θz1);Θc);Θz2)=0(18)
Controlnet未經(jīng)訓練的時候,輸出為0,初始狀態(tài)加到原始網(wǎng)絡(luò)上的也是0。此時對原始網(wǎng)絡(luò)沒有任何影響,確保原網(wǎng)絡(luò)的性能得以完整保存。
上述內(nèi)容實現(xiàn)了Controlnet對單個神經(jīng)網(wǎng)絡(luò)塊的控制,而控制整個穩(wěn)定擴散網(wǎng)絡(luò)的過程就是將其中的整個編碼器復制訓練,解碼器部分進行跳躍連接。其損失函數(shù)如式(19):
L=Ez0,t,ct,cf[‖ε-εθ(zt,t,ct,cf)‖2](19)
式中:εθ代表網(wǎng)絡(luò),t表示時間步長,ct表示文字控制,cf表示控制條件。
3" 實驗和結(jié)果分析
3.1" 實驗環(huán)境
實驗平臺處理器為Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60 GHz,顯卡型號為NAVID RTX A5000,24 GB顯存,操作系統(tǒng)為Ubuntu 18.04,使用PyTorch深度學習框架,版本為1.8.1,Cuda 11.1。
數(shù)據(jù)集包含80個圖像文本對,設(shè)置輸入圖片分辨率為256×256,批量訓練樣本數(shù)量(batchsize)為1,訓練總輪次(epoch)為100,rmin和rmax分別為32和128,采用adam優(yōu)化器,學習率(lr)為0.0001,使用cosine_with_restarts策略動態(tài)調(diào)整學習率,在前40個epoch前線性增加到0.0001,隨后以余弦方式逐漸降低。
在實驗過程中模型會將tag中文本作為條件一同輸入模型中,故而訓練出的DyLoRA塊中的特征表示為圖片中的所有特征減去tag所描述的特征?;诖耍瑢⑴c藍印花布特征無關(guān)的其他要素盡量使用tag表示出來,防止藍印花布風格特征與其他特征綁定。處理后的部分數(shù)據(jù)集和tag如圖8所示。
3.2" 結(jié)果分析
本文將基于Stable Diffusion方法與基于CycleGAN方法生成的紋樣進行主觀對比。其中CycleGAN網(wǎng)絡(luò)是使用簡筆畫數(shù)據(jù)集和藍印花布數(shù)據(jù)集從零開始訓練得到,CycleGAN網(wǎng)絡(luò)可以實現(xiàn)無配對圖像集之間的風格遷移,也可以完成生成藍印花布紋樣的任務。其輸入是一張待風格轉(zhuǎn)化的圖片,輸出為依據(jù)輸入的圖片結(jié)構(gòu)生成的藍印花布風格紋樣,如圖9所示。相對于微調(diào)Stable Diffusion的方法,CycleGAN方法在輸入條件上受到原始圖片的限制,而Stable Diffusion方法僅需要輸入文本;在圖片輸出上CycleGAN方法只能輸出固定256×256像素大小的圖片,而Stable Diffusion方法輸出圖片的大小沒有限制;在紋理的細節(jié)上Stable Diffusion方法明顯更加細膩,對細節(jié)的把握更好,清晰度也更高,同時沒有像CycleGAN方法一樣產(chǎn)生細碎的噪點。
更多的基于Stable Diffusion方法生成的藍印花布新紋樣如圖10所示。其提示詞分別為“Sunflower”“Flower in vase”“Tree”“Butterfly”“Butterfly on flower”,紋樣生成使用隨機種子(初始態(tài)為隨機高斯噪聲),步數(shù)設(shè)置為20。由此生成的藍印花布紋樣抓住了藍印花布線斷意連的基本特征,在保持整體架構(gòu)清晰的情況下對于過長的線條或彎曲弧度較大的造型產(chǎn)生了合適的斷線,并且沒有產(chǎn)生多余的噪點。
3.3" 控制網(wǎng)絡(luò)優(yōu)化
雖然使用改進的DyLoRA在較為簡單的物體上取得了不錯的結(jié)果,但是在較為復雜的物體上效果并不突出。如單純使用“Man riding horse”作為文本提示詞輸入,經(jīng)過DyLoRA微調(diào)后的模型產(chǎn)生的紋樣如圖11(a)所示。從圖11(a)中可以看出,雖然整體上仍然符合藍印花布的風格,但是缺乏美感,物體之間的邊界模糊,處理得并不好。
針對這一問題,引入Controlnet網(wǎng)絡(luò)對生成的圖像進行額外的控制。通過提取已有圖片的深度圖作為額外附加信息,對紋樣的外觀結(jié)構(gòu)進行控制。如圖11(b)所示,將“Man riding horse”和深度圖共同作為條件輸入即可得到相對復雜的藍印花布紋樣,且紋樣更符合藍印花布紋樣特征。這印證了本文提出的利用改進的DyLoRA對Stable Diffusion進行微調(diào)后,用于藍印花布紋樣自動生成的可行性及優(yōu)越性。
3.4" 消融實驗
為了直觀展示使用改進后DyLoRA的藍印花布紋樣生成效果。將原始的DyLoRA與改進后的DyLoRA方法進行對比。紋樣生成使用隨機種子(初始態(tài)為隨機高斯噪聲),步數(shù)設(shè)置為20。其提示詞分別為“flower circle”“Sunflower”“Flower in vase”,每一個提示詞分別生成兩張紋樣,以降低由于隨機種子造成的誤差,結(jié)果如圖12所示。左側(cè)兩列為原始DyLoRA生成的紋樣,右側(cè)兩列為改進后DyLoRA生成的紋樣。從圖12中可以看出原始的DyLoRA方法生成的紋樣雖然也有藍印花布風格但整體形狀生硬、突兀,部分色塊過大缺乏線斷意連的美感,而通過改進后的DyLoRA方法生成的圖片色塊的分離上更加自然、合理,整體布局更加完美,更加接近藍印花布的獨特風格。
為了進一步評估本文提出的方法,使用FID進行定量評估,F(xiàn)ID越低代表生成樣本的圖像質(zhì)量越高,多樣性越好,生成的樣本分布與真實數(shù)據(jù)分布越近。使用SE-CycleGAN方法的FID值為245.38,使用DyLoRA方法、改進DyLoRA方法、改進DyLoRA方法和Controlnet分別微調(diào)Stable Diffusion取得的FID值分別為140.12、126.44、117.26??梢钥闯鍪褂酶倪M微調(diào)方法并使用Controlnet控制的Stable Diffusion在藍印花布生成效果上表現(xiàn)最佳。
4 "結(jié)論
藍印花布是國家非物質(zhì)文化遺產(chǎn),對其進行數(shù)字化傳承和創(chuàng)新有重要的價值和意義。本文提出了一種基于Stable Diffusion微調(diào)生成藍印花布單紋樣的方法,該方法將原本用于微調(diào)大語言模型的DyLoRA方法遷移到微調(diào)穩(wěn)定擴散模型中,充分利用預訓練的大模型Stable Diffusion的豐富語義信息,將DyLoRA模塊中學習到的藍印花布特征表示和Stable Diffusion的語義信息相融合,并提出了新的參數(shù)分解方法,最后使用Controlnet對生成內(nèi)容的結(jié)構(gòu)進行限制,最終達到輸入合適提示詞便可輸出藍印花布紋樣的效果。
雖然最后經(jīng)過微調(diào)后的大模型Stable Diffusion能夠很好生成藍印花布單紋樣任務,在復雜場景上也可以使用Controlnet進行一定的限制,但是當生成的物體增多時,生成的成功率會急劇下降,如何在復雜的語義信息下仍保留藍印花布的風格特征仍需要進一步研究。接下來將在更多類、復雜的藍印花布紋樣自動生成方面繼續(xù)深入開展研究工作。
參考文獻:
[1]侯莉莉, 須秋潔. 藍印花布紋樣設(shè)計之點畫技法探析[J]. 美術(shù)教育研究, 2022(15): 50-52.
HOU Lili, XU Qiujie. Analysis on stippling techniques of blue calico pattern design[J]. Art Education Research, 2022(15): 50-52.
[2]金曉偉. 藍印花布圖案的視覺語言研究[J]. 美術(shù)觀察, 2022(8): 73-74.
JIN Xiaowei. Research on visual language of blue calico pattern[J]. Art Observation, 2022(8): 73-74.
[3]蔡雨軒, 周怡, 杜心怡. 江南文化視域下藍印花布技藝在女士皮包中的創(chuàng)新應用[J]. 皮革科學與工程, 2024,34(1):101-108.
CAI Yuxuan, ZHOU Yi, DU Xinyi. The innovative application of blue calico printing and dyeing techniques in women's bag from Jiangnan cultural perspective[J]. Leather Science and Engineering, 2024,34(1):101-108.
[4]賈小軍, 葉利華, 鄧洪濤, 等.基于卷積神經(jīng)網(wǎng)絡(luò)的藍印花布紋樣基元分類[J]. 紡織學報, 2020,41(1): 110-117.
JIA Xiaojun, YE Lihua, DENG Hongtao, et al. Elements classification of vein patterns using convolutional neural networks for blue calico[J]. Journal of Textile Research, 2020, 41(1): 110-117.
[5]丁黎玲, 李強, 夏克爾·賽塔爾. 基于CiteSpace的藍印花布文獻可視化計量分析[J]. 絲綢, 2024,61(6):98-107.
DING Liling, LI Qiang, SAITAER Xiakeer. CiteSpace-based visual econometric analysis of blue calico literature[J]. Silk, 2024,61(6):98-107.
[6]田玉晶,薛凱文,崔齊,等.貴州遵義苗繡紋樣的數(shù)字化生成研究[J].東華大學學報(社會科學版),2023,23(2):49-58.
TIAN Yujing, XUE Kaiwen, CUI Qi, et al. Study on digital generation of Miao embroidery patterns in Zunyi, Guizhou[J]. Journal of Donghua University (Social Science), 2023,23(2): 49-58.
[7]代沛涵. 分形圖案在紡織紋樣設(shè)計上的應用[D]. 蘇州: 蘇州大學,2015.
DAI Peihan, Application of Fractal Pattern to Textile Pattern Design[D]. Suzhou: Suzhou University, 2015.
[8]冉二飛,賈小軍,喻擎蒼,等.基于SE注意力CycleGAN的藍印花布單紋樣自動生成[J].絲綢,2024,61(1):31-37.
RAN Erfei, JIA Xiaojun, YU Qingcang, et al. Single pattern automatic generation of blue calico based on SE attention CycleGAN[J]. Journal of Silk,2024,61(1):31-37.
[9]GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR). Las Vegas, NV, USA. IEEE, 2016: 2414-2423.
[10]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[11]李敏,劉冰清,彭慶龍,等.基于CycleGAN算法的迷彩服裝圖案設(shè)計方法研究[J].絲綢,2022,59(8):100-106.
LI Min, LIU Bingqing, PENG Qinglong, et al. A camouflage suit pattern design based on the CycleGAN algorithm[J]. Journal of Silk, 2022, 59(8): 100-106.
[12]陳雨琪,薛濤,劉俊華.基于邊緣增強和關(guān)聯(lián)損失的服裝圖像風格遷移[J].現(xiàn)代紡織技術(shù),2024,32(8):117-126.
CHEN Yuqi, XUE Tao, LIU Junhua. Clothing pattern style transfer based on edge enhancement and association loss[J].Advanced Textile Technology,2024,32(8):117-126.
[13]KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 4396-4405.
[14]BERMANO A H, GAL R, ALALUF Y, et al. State-of-the-art in the architecture, methods and applications of StyleGAN[J]. Computer Graphics Forum. 2022, 41(2): 591-611.
[15]HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[C]//Proceedings of the 34th Interna-tional Conference on Neural Information Processing Sys-tems. Vancouver, BC, Canada. ACM, 2020: 6840-6851.
[16]RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language super-vision[J]. ArXiv e-Prints, 2021: arXiv: 2103.00020.
[17]ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. IEEE, 2022: 10674-10685.
[18]GAL R, ALALUF Y, ATZMON Y, et al. An image is worth one word: Personalizing text-to-image generation using textual inversion[J]. ArXiv preprint arXiv:2208.01618, 2022.
[19]RUIZ N, LI Y, JAMPANI V, et al. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation[C]//IEEE/CVF Conference on Com-puter Vision and Pattern Recognition (CVPR). Vancouver, BC, Canada. IEEE, 2023: 22500-22510.
[20]HU E J, WALLIS P, ALLEN Z Z, et al. Lora: Low-rank adaptation of large language models[J]. ArXiv preprint arXiv:2106.09685, 2021.
[21]VALIPOUR M, REZAGHOLIZADEH M, KOBYZEV I, et al. DyLoRA: Parameter-efficient tuning of pre-trained models using dynamic search-free low-rank adaptation[C]//Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. Dubrovnik, Croatia. Stroudsburg, PA, USA: Association for Computational Linguistics, 2023: 3274-3287.
[22]唐猷成,張龍,楊樂,等.面向智能制革的自動配料系統(tǒng)應用分析[J].皮革科學與工程,2024,34(2):30-36.
TANG Youcheng, ZHANG Long, YANG Le, et al. Application analysis of automatic batching system for intelligent leather production[J]. Leather Science and Engineering, 2024, 34(2): 30-36.
Automatic generation of blue calico's single pattern based on Stable Diffusion
RAN" Erfei1,2a," JIA" Xiaojun1," WANG" Zixiang2b," XIE" Hao2a," XU" Congyuan1
(1.College of Information Science and Engineering, Jiaxing University, Jiaxing 314001, China;
2a.School of Computer Science and Technology (School of Artificial Intelligence); 2b.School of
Information Science and Engineering, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract:
Blue calico is a traditional craft printing and dyeing product in China with a long history. It is famous for its distinctive pattern design style and broken lines. However, the lack of an algorithm for the automatic generation of blue calico's single pattern has hindered innovative research on blue calico's patterns. For this reason, an end-to-end automatic generation method of the single blue calico's single pattern was proposed to realize the automatic generation of blue calico's single pattern.
Our method is based on a diffusion model, which has been very popular recently. It has achieved great success in the field of image generation, and its main architecture consists of VAE (variational autoencoder), CLIP (contrastive language-image pre-training), and Unet. However, due to the high cost of fine-tuning the entire diffusion model, we choose to use improved DyLoRA (dynamic low-rank adaptation) technology to fine-tune the diffusion model. DyLoRA posits that changes in the parameter matrix during model training cannot achieve full rank. Therefore, the parameter matrix that needs to be updated is transformed into two small matrices multiplied so as to reduce the number of updated parameters. However, this parameter decomposition method has no effect on improving rank, so we improved this technique and proposed a new parameter decomposition method. Through this technology, we can fine-tune the diffusion model at an affordable cost to produce blue calico's single pattern. At the same time, in order to control the generation of blue calico, we also introduced the Controlnet network to control the overall layout of the generated single pattern.
There is no objective measurement standard in such experiments, so we used the generated image for visual comparison. In the experiment, to demonstrate the superiority of the proposed algorithm, we compared our algorithm with a model based on the CycleGan algorithm and original DyLoRA. The experimental results show that our proposed algorithm can effectively generate better blue calico single pattern than the other two methods, even though its input is only simple text. In the example, it can be seen that the generated blue calico single pattern conforms to the characteristics of broken lines and connected meanings, and is rich in artistic conception. At the same time, we used the ControlNet network to control the overall structure of the generated single pattern.
As a part of national intangible cultural heritage, blue calico has important value and significance in digital inheritance and innovation. This article proposed a method for fine-tuning the diffusion model Stable Diffusion to generate the blue calico's single pattern. This method fully utilized the rich semantic information from the pre-trained Stable Diffusion 1.5 model. Based on this large pre-trained model, the improved DyLoRA fine-tuning method was used to enable the model to learn the style of blue calico's single pattern, and Controlnet was used to limit the structure of the generated content. Finally, we achieved the effect of outputting blue calico's single pattern by inputting appropriate prompt words, and hundreds of sample images were generated according to this method. Next, research will be conducted on the automatic generation of more types and complex blue calico's single pattern.
Keywords:
blue calico; deep learning; DyLoRA; Stable Diffusion; single pattern; pattern generation