程楊,林峰
(1.湖北美術(shù)學(xué)院,湖北 武漢 430205;2.奕行智能科技(廣州)有限公司,廣東 廣州 511457)
近幾十年在大數(shù)據(jù)、大算力、大模型的幫助下,以深度學(xué)習(xí)為代表的人工智能(AI)技術(shù)獲得了飛速的發(fā)展,在藝術(shù)領(lǐng)域也得到了較多的應(yīng)用。Elliot J.Crowley[1]提出使用AI 進(jìn)行藝術(shù)作品分類。Benoit Seguin 等[2]應(yīng)用AI 來研究繪畫史。肖弋[3]嘗試使用AI輔助學(xué)生美術(shù)教育。Sheng S[4]用AI 來生成藝術(shù)圖像的描述字幕。
雖然行業(yè)內(nèi)對(duì)于AI 能否進(jìn)行獨(dú)立創(chuàng)作存在巨大分歧,但是使用AI進(jìn)行輔助創(chuàng)作的相關(guān)技術(shù)卻在飛速發(fā)展,藝術(shù)行業(yè)從業(yè)者是時(shí)候關(guān)注相關(guān)工作原理和發(fā)展情況。本文將詳細(xì)介紹圖像風(fēng)格遷移和文本圖像生成的發(fā)展歷程、工作原理、應(yīng)用現(xiàn)狀。
藝術(shù)風(fēng)格指的是一件藝術(shù)品的獨(dú)特視覺表現(xiàn),讓它與同一藝術(shù)家或同一時(shí)期、培訓(xùn)、地點(diǎn)、“學(xué)?!?、藝術(shù)運(yùn)動(dòng)或考古文化的其他作品相關(guān)聯(lián),同時(shí)區(qū)別于此的其他藝術(shù)作品。圖像風(fēng)格遷移是一種將輸入圖像轉(zhuǎn)換成目標(biāo)風(fēng)格的過程,如果采用人工重新繪制,需要經(jīng)過專業(yè)培訓(xùn)的畫家花費(fèi)大量的時(shí)間才能完成,但使用計(jì)算機(jī)的風(fēng)格遷移技術(shù)卻能夠在很短時(shí)間完成這一過程。
根據(jù)方法的不同,基于計(jì)算機(jī)的圖像風(fēng)格遷移可以分成基于規(guī)則的風(fēng)格遷移和神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移。其中基于規(guī)則的圖像風(fēng)格遷移包括筆畫渲染、區(qū)域渲染、實(shí)例渲染和圖像濾波等,這些方法都需要根據(jù)目標(biāo)風(fēng)格選擇合適的規(guī)則和參數(shù),需要根據(jù)特定目標(biāo)風(fēng)格提前設(shè)定,需要深厚的數(shù)學(xué)和藝術(shù)背景知識(shí),且遠(yuǎn)遠(yuǎn)無法達(dá)到模擬真人的效果。
神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移方法提出的時(shí)間較短,但是效果已經(jīng)全面超過基于規(guī)則的風(fēng)格遷移方法。該方法一般由視覺風(fēng)格建模和圖像重構(gòu)兩部分組成。其中視覺風(fēng)格建模用來描述目標(biāo)作品的藝術(shù)風(fēng)格,圖像重構(gòu)用于生成目標(biāo)圖片。
以經(jīng)典的基于深度學(xué)習(xí)的風(fēng)格遷移方法為例來詳細(xì)說明其工作原理。在進(jìn)行神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移時(shí),需要將三張圖片送入AI 模型中,分別獲得三組輸出。三張圖片分別為內(nèi)容圖片、風(fēng)格圖片和重構(gòu)圖片。其中,內(nèi)容圖片包含我們希望輸出圖片包含的主要內(nèi)容,風(fēng)格圖片包含我們期望的目標(biāo)紋理,重構(gòu)圖片為隨機(jī)噪聲。Gatys L[5]等提出使用格萊姆矩陣(Gram Matrix)對(duì)目標(biāo)風(fēng)格建模,定義風(fēng)格圖片的輸出與重構(gòu)圖片的輸出之間的格萊姆矩陣平均距離為圖片風(fēng)格損失。同時(shí),定義內(nèi)容圖片與重構(gòu)圖片的輸出之間的歐氏距離為內(nèi)容損失。風(fēng)格遷移一般需要減小這兩種損失,來趨近目標(biāo)風(fēng)格,同時(shí)保留原始內(nèi)容。在圖像重構(gòu)階段,一般通過梯度反向傳播的方法,將三張圖片送入模型,并計(jì)算損失,然后調(diào)整重構(gòu)圖片。經(jīng)過多次迭代,最終可以獲得一張風(fēng)格損失和內(nèi)容損失都很小的重構(gòu)圖片,實(shí)現(xiàn)圖像的風(fēng)格遷移。并且該方法也可以改變權(quán)重,讓重構(gòu)圖片更趨近或者遠(yuǎn)離風(fēng)格圖片,此外還可以調(diào)整風(fēng)格的顆粒度。
神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移已經(jīng)在愛好者和行業(yè)中得到了較大范圍的應(yīng)用,在生活和社交領(lǐng)域出現(xiàn)了諸如手機(jī)應(yīng)用Prisma 和網(wǎng)站Ostagram。Adobe、美圖等應(yīng)用將風(fēng)格遷移嵌入修圖功能中,可以快速地將圖片轉(zhuǎn)換到目標(biāo)風(fēng)格,大大降低修圖的工作量和處理時(shí)間。syncedreview 等將圖像風(fēng)格遷移應(yīng)用到藝術(shù)設(shè)計(jì)中,大幅提升了藝術(shù)設(shè)計(jì)的效率。如圖1 是用戶在Ostagram上使用風(fēng)格遷移工具生成并公開的部分作品,每張作品的上半部分為輸出圖片,左下為內(nèi)容圖片,右下為風(fēng)格圖片。
雖然圖像風(fēng)格遷移已經(jīng)在很多方向得到應(yīng)用,但是該方法假設(shè)藝術(shù)風(fēng)格可以用數(shù)學(xué)公式表達(dá),與現(xiàn)實(shí)情況并不相符,同時(shí)深度學(xué)習(xí)還存在可解釋性低的問題,這些問題阻礙了該技術(shù)的發(fā)展。
相比圖像風(fēng)格遷移,文本圖像生成更接近于“無中生有”的創(chuàng)作過程。使用者只需要輸入對(duì)目標(biāo)圖片的內(nèi)容、風(fēng)格等特點(diǎn)描述的文字(prompt),例如“一只在草地上奔跑的白貓,高清照片”,等待一段時(shí)間之后,計(jì)算機(jī)就會(huì)輸出幾張涵蓋這些特點(diǎn)的圖片供使用者挑選。如果對(duì)生成的圖片效果不滿意,可以嘗試對(duì)描述文字進(jìn)行修改,生成的圖片也會(huì)隨之改變,直至調(diào)整到滿意的效果。
在計(jì)算機(jī)領(lǐng)域,文本生成圖像是一個(gè)比較困難的任務(wù)。在很長(zhǎng)時(shí)間里,只有人類畫師才具有根據(jù)客戶的語言輸入,創(chuàng)作符合其需求作品的能力,直到現(xiàn)今這依然是很多畫師和畫家的收入來源之一。隨著計(jì)算機(jī)技術(shù)和人工智能算法的發(fā)展,使用計(jì)算機(jī)實(shí)現(xiàn)文本生成圖像成為可能,2016 年Reed 等提出使用對(duì)抗神經(jīng)網(wǎng)絡(luò)[6]用于文本生成圖像時(shí),該方法還只能生成低像素且效果較差的圖片。但今天已經(jīng)可以使用stable diffusion 等免費(fèi)工具生成媲美真人作品的圖片。文本生成圖片技術(shù)實(shí)現(xiàn)了巨大的提升,并且還處在高速發(fā)展的狀態(tài)。
文本生成圖像主要包括兩個(gè)步驟:提取文本描述中與視覺相關(guān)的特征和利用這些信息合成滿足期望的圖片。針對(duì)上述問題,研究者們提出了多種方法,下面選擇其中一些經(jīng)典方法進(jìn)行詳細(xì)說明。
用于圖像生成的描述文本可能同時(shí)包含人物、場(chǎng)景、相對(duì)位置、圖片風(fēng)格等多種信息,并且不會(huì)按照固定句式描述這些信息,提取文本特征需要盡量包含其中與視覺相關(guān)的特征,并轉(zhuǎn)化成計(jì)算機(jī)能處理的數(shù)字形式。當(dāng)前比較先進(jìn)的方法,例如OpenAI[7]的DALLE模型,主要利用自然語言理解領(lǐng)域的模型結(jié)構(gòu)(Transformer)對(duì)文本進(jìn)行分詞和語義特征提取,生成的圖像與文本描述的匹配程度獲得顯著提升。CLIP 模型使用了幾億張圖像及其描述的組合數(shù)據(jù),分別用兩個(gè)子模型對(duì)文本和圖像進(jìn)行特征提取,并讓文本特征與對(duì)應(yīng)圖片的特征的距離最近,且與其他不匹配圖片的特征距離盡量遠(yuǎn),以此建立文本和圖像的聯(lián)系。訓(xùn)練完成后,利用其中文本特征提取模型來進(jìn)行圖片文本特征的提取。
從文本描述中提取的特征一般是呈數(shù)字向量的形式,需要通過圖像生成才能轉(zhuǎn)換成圖片,并且還需要讓生成的圖片滿足描述文本的要求。研究者嘗試過多種方法實(shí)現(xiàn)該過程,其中應(yīng)用比較廣泛的對(duì)抗生成網(wǎng)絡(luò)和擴(kuò)散模型兩種方法的基本原理。對(duì)抗生成網(wǎng)絡(luò)包含生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分,生成器用于合成“虛假”結(jié)果,判別器用于對(duì)生成的結(jié)果與真實(shí)結(jié)果進(jìn)行判別。從原理上說,生成器會(huì)盡量生成接近真實(shí)的結(jié)果來“欺騙”判別器,而判別器則會(huì)努力發(fā)現(xiàn)生成器的“虛假”結(jié)果,對(duì)抗生成網(wǎng)絡(luò)利用這種相互沖突的目標(biāo),讓二者在對(duì)抗中不斷提高生成器和判別器效果。對(duì)于文本圖片任務(wù),在生成器會(huì)使用文本特征作為輸入,輔助生成符合文本描述的圖片;對(duì)于判別器,除了使用區(qū)分是否為“虛假”圖片的任務(wù)外,也可以利用CLIP 來判別生成的圖片與文本描述的匹配關(guān)系,幫助生成器輸出與文本描述更相關(guān)的內(nèi)容,獲得的生成模型效果也將更好。擴(kuò)散模型[8]則利用圖片降噪的思想,擴(kuò)散模型的訓(xùn)練分成擴(kuò)散和逆擴(kuò)散兩個(gè)步驟,在擴(kuò)散過程中,會(huì)手動(dòng)向圖片中多次疊加噪聲,逐漸掩蓋圖片中的內(nèi)容,直到獲得一張全部由隨機(jī)噪聲組成的圖片;在逆擴(kuò)散過程中,擴(kuò)散模型會(huì)基于含噪聲的圖片重構(gòu)不含噪聲的圖片,嘗試消除擴(kuò)散過程添加的噪聲。在使用階段,只會(huì)使用模型的逆擴(kuò)散過程,會(huì)將文本特征作為逆擴(kuò)散的控制條件,從一張隨機(jī)噪聲中重構(gòu)出目標(biāo)圖片,通過加入文本描述的特征來重構(gòu)出滿足期望的圖片。對(duì)于圖片重構(gòu)任務(wù),除了上述方法,還有變分自編碼器、流模型等方法以及多方法的疊加。
從效果上看,能夠利用大量現(xiàn)有數(shù)據(jù)且不需要做額外特殊處理的無監(jiān)督學(xué)習(xí)方法,相比與其他方法,在描述文本特征提取和圖像生成上能夠獲取更優(yōu)的效果。
伴隨著文本生成圖片研究的迅速發(fā)展和相關(guān)技術(shù)的日趨成熟,非技術(shù)研究者也可以在多個(gè)途徑上體驗(yàn)文本生成圖像的功能。Midjourney、DALLE、novelai等都在提供免費(fèi)或者有償?shù)奈谋旧蓤D像服務(wù)。國內(nèi)的百度、ARTPAI等也提供了相關(guān)功能,甚至個(gè)人用戶可以基于Stable Diffusion提供的模型在個(gè)人電腦上自己搭建文本生成圖像功能。隨著文本生成圖像的使用越來越便捷,該功能已經(jīng)在個(gè)人創(chuàng)作、原畫、CG、設(shè)計(jì)原型等多個(gè)領(lǐng)域得到廣泛運(yùn)用,與此同時(shí)也引起了很多的討論和爭(zhēng)議。設(shè)計(jì)師杰森·艾倫通過Midjourney工具生成了一幅作品,參與并獲得了美國科羅拉多州博覽會(huì)舉辦的藝術(shù)創(chuàng)作比賽的數(shù)字藝術(shù)方向第一名。
雖然杰森·艾倫的獲獎(jiǎng)極大地振奮了相關(guān)的技術(shù)人員,但是用戶在實(shí)際使用文本生成圖像功能時(shí),還是很容易感受到這項(xiàng)技術(shù)的不成熟。圖片生成的質(zhì)量不穩(wěn)定,例如在人體復(fù)雜的部位如眼睛、手指等比較容易出問題,偶爾會(huì)輸出一些詭異甚至恐怖的圖片。若想獲得一張滿意的圖片,需要用戶長(zhǎng)時(shí)間嘗試不同輸入文本。
雖然近年來出現(xiàn)了很多AI 會(huì)在不久后取代藝術(shù)家的言論,但是通過文中對(duì)目前AI藝術(shù)創(chuàng)作的兩個(gè)主要方向的基本原理的分析,我們可以明確現(xiàn)階段的AI算法尚無法獨(dú)立進(jìn)行藝術(shù)創(chuàng)作,更不存在獨(dú)立的創(chuàng)作意識(shí)。具體表現(xiàn)在以下層面:①AI算法無法憑空創(chuàng)作全新的藝術(shù)風(fēng)格或者派系,對(duì)于風(fēng)格遷移要求目標(biāo)藝術(shù)風(fēng)格作為輸入,對(duì)于文本生成圖像更是要求目標(biāo)風(fēng)格參與過模型訓(xùn)練;②AI 算法沒有美學(xué)觀念,無論格萊姆矩陣還是CLIP 模型打分,都是在某些維度上對(duì)比生成作品和已有作品的相似度,沒有任何美學(xué)上的定義;③AI算法沒有表達(dá)情感的需要,現(xiàn)在的AI算法只能模擬人類工作的某一具體過程,還無法模擬人類的意識(shí)和思想,更加不會(huì)有通過藝術(shù)創(chuàng)作表達(dá)自我的需要。
與此同時(shí),通過對(duì)AI 算法的歷史進(jìn)展的分析,能夠清晰地感受到AI 算法驚人的發(fā)展速度。雖然現(xiàn)階段AI算法還無法像藝術(shù)家一樣自主創(chuàng)作,但是它已經(jīng)可以作為藝術(shù)創(chuàng)作的工具。它可以幫助使用者高效地創(chuàng)作數(shù)字藝術(shù)作品或者原型,應(yīng)用在游戲、動(dòng)畫、社交等領(lǐng)域,極大地降低相關(guān)工作者的負(fù)擔(dān)。正如同相機(jī)出現(xiàn)大大降低對(duì)寫實(shí)油畫的需求,進(jìn)而演化出印象派一樣,我們相信,隨著AI技術(shù)的應(yīng)用,也必然會(huì)給藝術(shù)的發(fā)展注入新的動(dòng)力,而且AI算法可以大大降低藝術(shù)創(chuàng)作的門檻,讓沒有繪畫基礎(chǔ)的使用者也可以通過AI工具創(chuàng)作屬于自己的藝術(shù)作品,抒發(fā)自己獨(dú)有的情感和體驗(yàn)。
AI 與藝術(shù)并不是對(duì)立的兩面,使用AI 工具可以更高效地滿足人們對(duì)藝術(shù)作品的需求;畫家們被釋放出來的時(shí)間和精力可以更多地投入AI 并不擅長(zhǎng)的藝術(shù)創(chuàng)新和藝術(shù)理論研究,創(chuàng)造出更豐富的藝術(shù)形式。AI創(chuàng)作還處于起步階段,目前主要由計(jì)算機(jī)等行業(yè)的研究者推進(jìn)。但是方向的進(jìn)一步發(fā)展更需要藝術(shù)理論的引導(dǎo)和藝術(shù)創(chuàng)作者們的建議,二者的結(jié)合也必將為藝術(shù)的發(fā)展帶來更多的可能性。