摘 要:親和特征提取和自然融合是實現風格遷移的關鍵。為此,提出一個新的自然特征保留的任意風格遷移模型NFP-AST。通過可逆殘差網絡在前向和后向推理中對特征二分處理,保證了提取特征親和性,減少因提取過程造成的圖像重建誤差。在自適應空間重構模塊ASRM中,先通過全局統(tǒng)計信息匹配內容風格特征,接著在融合特征中插值自適應權重捕獲細節(jié)無偏融合內容風格特征,使風格過渡自然。定性和定量實驗研究結果表明,NFP-AST產生的風格化圖像與先進方法相比都取得了較好得分,藝術表達更具有視覺沖擊力。
關鍵詞:自然特征保留; 可逆殘差網絡; 特征親和性; 自適應空間重構; 無偏融合
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)10-043-3183-05
doi:10.19734/j.issn.1001-3695.2023.12.0598
NFP-AST:arbitrary style transfer model for natural feature preservation
Zhao Min, Qian Xuezhong, Song Wei
(School of Artificial Intelligence & Computer Science, Jiangnan University, Wuxi Jiangsu 214122, China)
Abstract:The extraction of affinity features and natural fusion are crucial for achieving style transfer. To address this problem, this paper proposed a novel arbitrary style transfer model, called NFP-AST, emphasizing the preservation of natural features. Through a reversible residual network, it performed binary processing of features in both forward and backward infe-rences, ensuring the extraction of affinity features and reducing image reconstruction errors. In the adaptive space reconstruction module(ASRM), it firstly used global statistical information to match content and style features, followed by interpolating adaptive weights in the fusion features to capture details for unbiased merging of content and style features, resulting in a natural style transition. Qualitative and quantitative experimental results indicate that NFP-AST produces stylized images with better scores compared to state-of-the-art methods, demonstrating enhanced visual impact in artistic expression.
Key words:natural feature preservation; reversible residual network; feature affinity; adaptive spatial reconstruction; unbiased fusion
0 引言
風格遷移通過將兩個圖像的特征進行融合,創(chuàng)造出具有原始圖像內容但呈現出另一張圖像風格的全新圖像。提取特征要保證準確性,融合特征時需要自然過渡,確保圖像看起來和諧統(tǒng)一,沒有明顯的分界線;生成的藝術圖像才會呈現獨特而具有吸引力的視覺效果。因此,特征親和提取還原和自然傳遞是實現風格化的關鍵。
Gatys等人[1]首次利用卷積神經網絡對圖像的高級特征進行可視化,實現了將圖像的內容和風格分離并重新組合,解決了早期使用直方圖均衡化[2]、濾波器[3]等難以準確進行特征表示的問題,為后續(xù)的研究奠定了基礎。隨著對基于優(yōu)化算法的改進,實時風格遷移大大提高了風格遷移的效率?,F有實時風格遷移算法一部分是基于全局統(tǒng)計[4~7],涉及對兩幅圖像的統(tǒng)計特征(如二階全局統(tǒng)計量)進行比較和整合。增加它們的全局特征相似度,從而實現風格遷移。但在處理局部細節(jié)、復雜風格方面存在局限性,導致生成的圖像質量不盡人意。還有一部分基于局部補丁[8,9],需要編碼器提取圖像的局部補丁特征,它們可以捕捉到圖像的局部紋理和結構信息,根據補丁匹配調整后的局部特征生成新圖像,更加注重局部紋理和結構一致性,但是基于局部補丁的方法依賴圖像局部特征,缺乏自然感和整體一致性。上述算法大多采用編碼器-風格轉換模塊-解碼器框架。預訓練的VGG_19[10]作為風格遷移領域高頻使用的編解碼器,帶來了一定的缺陷。VGG_19是一個相對較深的卷積神經網絡,其結構和參數固定,難以根據風格遷移需求進行調整,且提取到的一部分高級語義信息不是所需的,在風格遷移過程中需要訓練一個結構對稱的解碼器來將 VGG_19 的特征還原為圖像,通過內容損失約束解碼器,但是由于編碼器中的池化操作會導致空間信息損失,未能有效避免由解碼器引起的圖像重建誤差,會影響合成風格化圖像的質量,一定程度上造成了信息丟失。為了減少遷移過程造成的人工偽影,現有方法采用跳躍連接模塊[11],或者采用輕量編解碼器[12],然而,這些方法都未能有效避免由解碼器引起的圖像重建誤差。在訓練對稱編解碼器的過程中,不能準確且自然地提取特征,導致生成的圖像缺乏一些細節(jié)和紋理。為了解決這個問題,本文提出了自然特征保留的任意風格遷移模型(NFP-AST)。受文獻[13,14]啟發(fā),本文使用可逆殘差特征提取還原器將特征沿通道維度二分處理,在前向推理中提取親和特征。它由二分填充模塊BSI、級聯(lián)殘差塊和擠壓塊、冗余消除模塊RE構成。前向推理中,對特征邊緣進行零填充,充分利用邊緣像素,減少信息丟失。由于前向推理中產生大量冗余信息,冗余消除模塊RE用于壓縮信道減少冗余信息,進一步增強特征表達能力。然后通過自適應空間重構模塊(adaptive spatial reconstruction module,ASRM)先進行全局匹配,再進行局部細節(jié)匹配,生成圖像在整體風格上與風格圖像保持一致,接著在融合特征中插值自適應權重保留內容語義結構細節(jié),然后二次融合風格統(tǒng)計特征,豐富紋理增添藝術感得到的風格化圖像融合更為自然。通過反向推理重建藝術圖像,避免圖像重建誤差。通過大量定性和定量實驗研究,本文提出的自然特征保留的任意風格遷移模型產生的藝術圖像更加接近藝術家的創(chuàng)作。
本文工作的貢獻主要為:
a)現有的風格遷移算法缺乏親和特征提取還原,無法自然傳遞造成圖像重建偏差。為此,提出了自然特征保留的任意風格遷移模型(arbitrary style transfer network for natural feature preservation,NFP-AST),在特征提取時減少信息丟失,無偏生成藝術圖像;
b)引入了可逆殘差特征提取還原器,在前向和后向推理中對特征二分處理,保證特征親和性;在自適應空間重構模塊(ASRM)中無偏融合內容風格特征,保留內容語義結構的同時豐富紋理,保證良好的視覺效果;
c)通過大量定性和定量實驗證明本文方法與先進的風格遷移算法相比的有效性,表達了不同的藝術創(chuàng)意,拓展了藝術表現的可能性。
1 相關工作
a)圖像風格遷移。最初使用非參數的方法來合成自然紋理,只能采用提取的底層特征進行紋理轉移。Gatys等人[1]提出基于優(yōu)化的方法,捕獲到高級圖像特征,盡管取得了顯著的遷移效果,但是通常需要大量的計算資源來進行內容損失和風格損失的最小化。隨著神經網絡的發(fā)展,具有高效性、實時性的快速風格遷移方法被提出。 Huang等人[15]引入一個簡單的IN擴展,通過實例歸一化和統(tǒng)計信息調整,使得內容圖像特征在統(tǒng)計上更接近風格特征。Li等人[16]通過白化操作減少特征之間的相關性,接著使用著色操作,使內容和風格特征在顏色空間上保持一致,但是帶來昂貴計算。LinearWCT模型[17]采用可學習的線性變換矩陣提高了效率。Zhao等人[8]采用二次對齊策略保留內容結構,紋理調制器生成風格卷積參數形成精美筆觸,以此平衡內容和風格。Park等人[9]提出SAnet,使用修改后的自注意機制學習內容和風格特征之間的映射,根據不同位置特征的長距離依賴關系賦予不同權重,豐富局部風格樣式。生成對抗網絡的出現為優(yōu)化風格遷移的視覺質量帶來了新的技術途徑,如He等人[18]提出ChipGAN,解決中國水墨畫中空隙、筆觸、水墨的問題,實現了水墨風格遷移。Xu等人[19]提出DRB-GAN,將學習藝術圖像集的風格代碼建模為動態(tài)重參數共享,縮小單個模型中任意樣式傳輸和集合樣式傳輸之間的差異。以上算法都采用編碼器-風格轉換器-解碼器來生成新的藝術圖像,不可避免地造成了圖像重建誤差,不能夠很好地進行親和特征提取還原。
b)可逆網絡。隨著神經網絡結構研究的不斷深入,傳統(tǒng)編解碼器結構存在信息丟失和效率低下的問題,可逆神經網絡為風格遷移帶來了新的思路。Gomez 等人[20]提出了可逆殘差網絡,本層激活可由下一層激活計算。Chen等人[21]在此基礎上利用可逆卷積生成流,顯著改進對數似然。An等人[13]提出了ArtFlow,引入可逆神經流在投影-傳輸-回歸方案中運行,解決了內容泄露的問題。文獻[22]使用基于Cholesky分解的無偏線性變換模塊,在特征空間中進行無偏風格轉移,采用通道細化避免冗余信息積累,但是合成圖像不夠自然。本文方法利用可逆殘差特征提取還原器,確保提取特征親和性,生成的圖像具有良好的視覺效果,包括清晰的紋理、自然的色彩過渡。
2 主要方法
2.1 NFP-AST模型總概
為了親和特征提取還原和自然傳遞,本文提出一個自然特征保留的任意風格遷移模型。與現有基于編解碼器框架的風格遷移算法不同,NFP-AST模型只由可逆殘差特征提取還原器來實現親和特征的提取和融合特征的重建。如圖1所示,NFP-AST模型首先通過基于可逆殘差網絡前向推理提取內容圖像中的基本語義結構和風格圖像中的紋理色彩特征,接著傳入自適應空間重構模塊(ASRM)中,更加自然地融合特征,然后在冗余消除模塊協(xié)助下通過可逆殘差網絡反向推理重建風格化圖像。
具體步驟如下:
a)前向推理。給定內容圖像C和風格圖像S,首先通過一個二分填充模塊(binary split injection,BSI),沿通道對特征二分處理,接著由可逆殘差特征提取器E無損提取親和內容特征Fc:=E(C1,C2)和親和風格特征Fs:=E(S1,S2)。
b)特征遷移。自適應空間重構模塊(ASRM)在特征空間根據風格圖像的統(tǒng)計特征對歸一化的內容特征進行調整,然后根據空間感知插值獲得自適應權重,進一步在內容風格特征之間進行插值,注入細節(jié),最后得到風格化特征Fcs。
c)反向推理。通過冗余消除模塊(redundancy elimination,RE)沿通道去除冗余信息后,可逆殘差特征還原器E將風格化特征Fcs逆映射回風格化圖像Y。
2.2 可逆殘差特征提取還原器
設輸入內容圖像為C,風格圖像為S,編解碼器結構在對圖像進行壓縮編碼的過程中可能丟失輸入圖像中的細節(jié)或特征,導致解碼器無法準確重建輸入圖像,為此本文使用可逆殘差特征提取還原器E,它由1個二分填充模塊、30個級聯(lián)殘差塊和擠壓塊、冗余消除模塊構成。前向推理時首先將輸入沿通道二分處理,用于增強特征表達能力,更好地捕捉輸入圖像的不同特征和結構信息;且在特征邊緣進行零填充,充分利用邊緣像素,減少信息丟失,如式(1)所示。
(C1,C2):=BSI(C), (S1,S2):=BSI(S)(1)
如圖1所示,本文每一個可逆殘差塊都是由3個反射填充層、3個核大小為3×3的卷積層和擠壓層構成。擠壓層squeeze函數把輸入特征通道數增加,空間維度減少,增強捕獲特征的局部性,使特征提取時更加關注局部細節(jié),提高提取特征的親和性。在級聯(lián)可逆殘差塊中選用式(2)的映射函數。
Xc1:=C1+F(C2),Xc2:=C2, XS1:=S1+F(S2),Xs2:=S2(2)
其中:函數F是由三個核大小為3的conv層實現。冗余消除模塊RE用來減少通道維數,減少前向推理過程的冗余信息,進一步增強特征表達能力。逆向映射函數見式(3),其中函數F同式(2)。
Y2:=fcs2,Y1:=fcs1-F(fcs2)(3)
其中:fcs1 、fcs2是由自適應空間重構模塊合成的風格化特征Fcs沿通道二分得到。
2.3 自適應空間重構模塊(ASRM)
此模塊用于對提取的親和內容特征和風格特征自然融合,具體模型結構如圖2所示。藝術圖像為風格化設定整體基調,內容保持度決定著生成圖像與原始內容圖像特征空間的距離。對內容圖像作歸一化處理,減少特征間相關性,更易于增強風格特征的影響。通過式(4)把握整體風格紋理,確保全局內容語義結構完整性。
Fc_norm:=(Fc-mean(Fc))/std(Fc),
Fg:=Fc_norm×std(Fs)+mean(Fs)(4)
其中:mean表示求均值;std表示求特征方差。邊界自然過渡才能產生貼近藝術家的創(chuàng)作,為此在信道密集上操作聯(lián)級特征,使用不同尺度卷積核在歸一化內容特征和風格特征上進行插值,以此獲得自適應權重,進一步捕獲內容特征和風格特征之間相關性,從而添加局部內容細節(jié),如式(5)所示。
F1:=f2(Fc_norm),F2:=f3(Fg), Fcat:=(f1[Fc_norm,Fg]),
w:=(sigmoid{g1(Fcat)}+sigmoid{g2(h1(Fcat))}+sigmoid{g3(h2(Fcat))})/3
Fcg:=clamp(w)⊙F1+clamp(1-w)⊙F2(5)
其中:f1(·)、 f2(·)、 f3(·)是核為1的可學習卷積;[·,·]表示特征級聯(lián)操作;sigmoid為激活函數;g1是內核1×1的可學習卷積;g2是內核3×3的可學習卷積;g3是內核5×5的可學習卷積;h1表示大小為1個像素的反射填充;h2表示大小為2個像素的反射填充;clamp為張量截斷操作,用于提高模型穩(wěn)定性和收斂性;⊙代表點乘。
確保局部內容細節(jié)后,以防內容保留過度失去生動的紋理細節(jié),根據自適應權重插值后重新排列的融合特征fcg執(zhí)行歸一化操作后,再次匹配全局統(tǒng)計風格特征,見式(6)。
Fcg_norm:=(Fcg-mean(Fcg))/std(Fcg)
Fcs:=Fcg_norm×std(Fs)+mean(Fs)(6)
先進行全局匹配再進行局部細節(jié)匹配,生成圖像在整體風格上與風格圖像保持一致,接著在融合特征中插值自適應權重保留內容語義結構細節(jié),然后二次融合風格統(tǒng)計特征,豐富紋理增添藝術感得到的Fcs融合更為自然。
2.4 目標函數
在內容語義結構保留上,大多采用均方誤差損失,受文獻[22]的啟發(fā),本文替換為消光拉普拉斯損失函數,強調相鄰幀之間一致性,避免出現突兀變化,可以幫助生成圖像在內容上自然過渡紋理,見式(7)。
Lp:=1N∑3c=1Vc[Fcs]TMVc[Fcs](7)
其中:N為像素個數;Vc表示向量化Fcs ;T表示轉置操作;M為內容特征Fc的消光拉普拉斯矩陣。消光拉普拉斯損失優(yōu)勢在于可以保持連續(xù)性和自然過渡,但計算復雜度會略高一些。特征提取還原模塊是可逆的,用可逆網絡重構Fcs特征,并與Fc在ASRM中融合得到Fcsc,通過拉近Fcsc和Fc像素差異,減少可逆網絡圖像重構時產生的偽影,提高生成圖像質量和逼真度,采用式(8)作為周期一致性損失。
Lcyc:=‖Fcsc-Fc‖1(8)
在風格上,要解決整個圖像的像素差異,選取凸函數讓模型容易收斂到較好結果,全局準確傳遞風格特點,使用式(9)作為損失函數。
Ls:=∑Lsi=1(‖μ(i(Fcs))-μ(i(Fs))‖2+
‖σ(i(Fcs))-σ(i(Fs))‖2)(9)
其中:μ和σ分別表示平均值和標準差;i表示預訓練的VGG_19的網絡層i,計算風格損失時使用具有相等權重的{ReLU1_1, ReLU2_1, ReLU3_1, ReLU4_1}層。
綜上,自然特征保留的任意風格遷移總目標為
Ltotal:=λpLp+λcycLcyc+λsLs(10)
其中:損失項對應權重超參數根據經驗設置為λp=60,λcyc =1,λs =1。
3 實驗與分析
3.1 實驗設置
NFP-AST在PyTorch框架上實現,采用MS-COCO數據集中約8萬張真實圖像作為內容圖像訓練集,WikiArt數據集中約8萬張不同藝術特點的畫作作為風格圖像訓練集。在訓練期間,將所有圖像分辨率隨機裁剪為256×256的大小,批量大小設置為4個內容風格圖像對。使用Adam作為優(yōu)化器,學習率設置為0.000 1,共需要160 000次線性衰減迭代。在測試期間,可逆殘差網絡可以處理任何大小的輸入圖像。涉及的所有實驗均在NVIDIA RTX 3060 12GB GPU上進行。
為了評估此方法,將NFP-AST與八種先進的風格遷移算法進行比較,包括SAnet[9]、ArtFlow[13]、AdaIN[15]、IECAST[21]、S2WAT[22]、StyTR2[23]、MicroUST[24]和STTR[25]。所有方法均采用了原文公開的代碼,并在相同的默認參數配置下進行了訓練。
3.2 定性評估
圖3展示出定性研究結果。選取了不同類型的內容圖像,如人物、動物、建筑等,藝術圖像按照不同色彩、風格、主題選取,確保風格遷移多樣性。AdaIN在空白背景都帶有明顯扭曲雜亂的紋理(例如第1行雜亂無章的背景紋理),這種算法采用實例歸一化將風格統(tǒng)計特征全局匹配內容,導致紋理無差別散布。S2WAT優(yōu)化風格局部結構,在紋理上保留細節(jié)較多(如第5行建筑物出現和風格圖像類似的彎曲紋理),但是內容結構大量丟失。SAnet引入自注意力機制,自適應處理紋理,保留大量風格特征,造成內容語義結構扭曲破壞了畫面布局完整性(如第2行錯位船頭,第5行喪失結構的房屋)。ArtFlow和本文一樣采用了可逆網絡,由于訓練時大量冗余信息未處理,殘留其他圖像的色彩(如第5行背景中出現了內容和風格圖像中不存在的綠色)。StyTR2使用Transformers風格表現優(yōu)異,有時會破壞內容細節(jié)(如第1行中畸形的左眼)。MicroUST使用輕量殘差編碼器保留了完整內容細節(jié),風格化在筆觸方面表現生硬。STTR遷移了絢麗色彩,在內容保留方面有時不可控,產生了不協(xié)調的人工偽影(如第4行虛化的樹枝)。本文NFP-AST在保留內容細節(jié)的同時,引入了和諧的紋理,使畫面更加自然,這表明NFP-AST優(yōu)化了生成圖像質量。
3.3 定量評估
藝術圖像鑒賞受個人欣賞喜好和審美影響,為此本文使用1個主觀指標(偏好得分preference)和3個客觀指標(PSNR、SSIM、效率)以定量評估NFP-AST,表1、2中列出評估結果,最優(yōu)數據加粗表示。
a)偏好得分。選擇不同類別的內容圖像10張,風格圖像15張,合成150張風格化圖像。選擇20個內容風格對,將其隨機排列展示給50個受試者,每個受試者從中選取偏好的藝術圖像,共得到1 000張選票,表1第4行展示選票百分比。結果表明,本文方法獲得了最高分數,說明NFP-AST生成的風格化圖像更受人們欣賞。
b)PSNR。主要關注圖像像素級差異,分別計算風格化圖像與原始內容圖像和風格圖像之間的均方誤差來評估圖像失真程度。PSNR值越高,表示圖像質量越高。如表1第2行所示,本文方法在內容語義結構保留方面表現優(yōu)異,取得最高分數。Adaconv優(yōu)化風格局部結構,模型偏向對紋理的處理,如表1第1行所示,NFP-UST僅次于它,說明本文方法在紋理渲染上也有一定建樹。
c)SSIM。通過比較圖像亮度、對比度和結構相似性來評估圖像,主要考慮圖像結構信息,SSIM值越高表示兩幅圖像結構相似性越好,結構保留效果越好。如表1第3行所示,NFP-AST取得最高分數,說明本文的方法在畫面結構布局方面表現出色。
b)效率。選取256 px、512 px、1 024 px內容風格圖像對,在相同服務器上比較本文方法與7個基線模型的效率,通過計算50個圖像對的平均運行時間進行評估。如表2所示,AdaIN通過自適應實力規(guī)范化公式融合,用時最短,MicroUST 采用輕量編解碼器,減少參數量,效率僅次之。NFP-UST目的為提高視覺質量,同時與其他基線模型效率相當,可以實時處理1 024 px圖像,計算效率良好。
3.4 消融實驗
1)自適應空間重構模塊(ASRM)
將設計的自適應空間重構模塊更換為AdaIN進行無偏特征轉換,如圖4(d)所示,更換后色彩分布混亂,人臉頭部出現雜亂網格,路面也出現不協(xié)調紋路。使用ASRM模塊進行遷移時解決了上述問題,首先通過全局特征匹配,使整體風格融合協(xié)調,后續(xù)通過自適應權重在內容風格特征之間進行插值,增添細節(jié)。因此,ASRM模塊存在使風格化圖像表現更為自然。
2)內容損失函數
將消光拉普拉斯損失Lp替換為均方誤差損失函數訓練網絡,如圖4(e)所示,兩個損失函數均在內容語義結構保留上表現出色,表3中的客觀指標兩者數值相近,但是本文采用的消光拉普拉斯損失函數益于風格自然傳遞,在色彩表現方面良好,生成圖像藝術更具有視覺沖擊力。
3)周期一致性損失
在圖4(f)展示了去掉周期一致性損失Lcyc的消融結果。由于提出的網絡是可逆的,周期一致性損失優(yōu)化模型圖像重建能力,其內容細節(jié)大量丟失,面部五官和樓體結構模糊,且遷移顏色單一,不能保證像素親和性。表3第5列表示去除后數據都有一定程度下降,證明了Lcyc的有效性。
消融實驗定量研究結果如表3所示,最優(yōu)數據加粗表示,測量消融實驗的PSNR和SSIM分數,完整NFP-AST模型均取得較高得分。
4 結束語
本文根據風格遷移任務中親和特征提取和自然融合這兩個關鍵點,提出了一個新的自然特征保留的任意風格遷移框架NFP-AST。該框架由一個可逆殘差特征提取還原器和自適應空間重構模塊(ASRM)構成。在可逆殘差網絡中對內容和風格特征進行二分處理,在前向推理和逆向映射中減少信息冗余,保證提取特征的親和性,降低了圖像重建誤差。內容特征和風格特征在自適應空間重構模塊中無偏融合,通過融合全局統(tǒng)計信息奠定風格整體基調,后在風格化特征中插值自適應權重,增加局部細節(jié)。本文方法使風格過渡自然,使生成圖像生動和諧,提高了畫面質量。
參考文獻:
[1]Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proc of the 36th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 2414-2423.
[2]Fier J, Jamrika O, Lukácˇ M, et al. StyLit: illumination-guided example-based stylization of 3D renderings[J]. ACM Trans on Graphics, 2016, 35(4): article No. 92.
[3]Kwatra V, Schdl A, Essa I, et al. GraphCut textures: image and video synthesis using graph cuts[J]. ACM Trans on Graphics, 2003, 22(3): 277-286.
[4]Chandran P, Zoss G, Gotardo P, et al. Adaptive convolutions for structure-aware style transfer[C]//Proc of the 41st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7968-7977.
[5]趙宇欣, 王冠. 基于生成式對抗網絡的畫作圖像合成方法[J]. 計算機應用研究, 2021, 38(4): 1208-1211. (Zhao Yuxin, Wang Guan. Painterly image composition based on generative adversarial net[J]. Application Research of Computers, 2021, 38(4): 1208-1211.)
[6]王偉光, 錢祥利. 基于深度學習的人臉妝容遷移算法[J]. 計算機應用研究, 2021, 38(5): 1559-1562. (Wang Weiguang, Qian Xiangli. Face makeup transfer algorithm based on deep learning[J]. Application Research of Computers, 2021, 38(5): 1559-1562.)
[7]Li Xueting, Liu Sifei, Kautz J, et al. Learning linear transformations for fast image and video style transfer[C]//Proc of the 39th IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 3809-3817.
[8]Zhao Min, Qian Xuezhong, Song Wei. BcsUST: universal style transformation network for balanced content styles[J]. Journal of Electronic Imaging, 2023, 32(5): 53017.
[9]Park D Y, Lee K H. Arbitrary style transfer with style-attentional networks[C]//Proc of the 39th IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 5880-5888.
[10]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[11]An Jie, Xiong Haoyi, Huan Jun, et al. Ultrafast photorealistic style transfer via neural architecture search[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 10443-10450.
[12]Chiu T Y, Gurari Danna. PCA-based knowledge distillation towards lightweight and content-style balanced photorealistic style transfer mo-dels[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 7834-7843.
[13]An Jie, Huang Siyu, Song Yibing, et al. ArtFlow: unbiased image style transfer via reversible neural flows[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 862-871.
[14]Wen Linfeng, Gao Chengying, Zou Changqing. CAP-VSTNet: content affinity preserved versatile style transfer[C]//Proc of the 43rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 18300-18309.
[15]Huang Xun, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 1510-1519.
[16]Li Yijun, Fang Chen, Yang Jimei, et al. Universal style transfer via feature transforms[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 385-395.
[17]Sheng Lu, Lin Ziyi, Shao Jing, et al. Avatar-Net: multi-scale zero-shot style transfer by feature decoration[C]//Proc of the 38th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8242-8250.
[18]He Bin, Gao Feng, Ma Daiqian, et al. ChipGAN: a generative adversarial network for Chinese ink wash painting style transfer[C]//Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1172-1180.
[19]Xu Wenju, Long Chengjiang, Wang Ruisheng, et al. DRB-GAN: a dynamic resblock generative adversarial network for artistic style transfer[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 6363-6372.
[20]Gomez A N, Ren Mengye, Urtasun R, et al. The reversible residual network: backpropagation without storing activations[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 2211-2221.
[21]Chen Haibo, Zhao Lei, Wang Zhizhong, et al. Artistic style transfer with internal-external learning and contrastive learning[C]//Proc of the 25th Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 26561-26573.
[22]Zhang Chiyu, Xu Xiaogang, Wang Lei, et al. S2WAT: image style transfer via hierarchical vision transformer using strips window attention [EB/OL]. (2023-12-15). https://arxiv.org/abs/2210.12381.
[23]Deng Yingying, Tang Fan, Dong Weiming, et al. StyTR2: image style transfer with transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11316-11326.
[24]Wang Zhizhong, Zhao Lei, Zuo Zhiwen, et al. MicroAST: towards super-fast ultra-resolution arbitrary style transfer[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2023: 2742-2750.
[25]Ke Zhanghan, Liu Yuhao, Zhu Lei, et al. Neural preset for color style transfer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 14173-14182.