基于深度學(xué)習(xí)的多模態(tài)AIGC動畫探究

2023-02-19 05:40:30歐陽春雪

現(xiàn)代電影技術(shù) 2023年1期

歐陽春雪

四川美術(shù)學(xué)院,重慶 401331

1 引言

人工智能 (Artificial Intelligence,AI)是使計(jì)算機(jī)或機(jī)器模擬人類的智慧、能力的一項(xiàng)技術(shù),其作為二十一世紀(jì)的尖端技術(shù)之一,近三十年取得了迅速發(fā)展,早已成為人類現(xiàn)代生活中不可或缺的一部分。

學(xué)習(xí)能力是人類智慧的核心能力,如表1所示,機(jī)器學(xué)習(xí)(Machine Learning,ML)是一種使計(jì)算機(jī)具有學(xué)習(xí)技能的技術(shù),也是使計(jì)算機(jī)具有人類“智能”的關(guān)鍵。

表1 計(jì)算機(jī)技術(shù)與模擬能力[1]

為了真正模擬人腦學(xué)習(xí)的復(fù)雜神經(jīng)網(wǎng)絡(luò),從機(jī)器學(xué)習(xí)概念中延展出了 “深度學(xué)習(xí) (Deep Learning,DL)”。在解決實(shí)際問題時,深度學(xué)習(xí)技術(shù)通常與其他技術(shù)融會貫通,為AI賦予了更趨自主、更全面的能力。

AI的深度發(fā)展與數(shù)字內(nèi)容供給需求的增長使得各個行業(yè)的內(nèi)容生成方式由傳統(tǒng)的專業(yè)生產(chǎn)內(nèi)容(Professionally-generated Content,PGC)、用戶生成內(nèi)容(User-generated Content,UGC)轉(zhuǎn)向了人工智能生成內(nèi)容 (AI-generated Content,AIGC)[2]。

百度創(chuàng)始人兼董事長李彥宏認(rèn)為:AIGC 已不是單純用于輔助人類進(jìn)行內(nèi)容生產(chǎn)的助手,目前AIGC正處于“協(xié)作階段”,與人類相互配合完成內(nèi)容生產(chǎn)；在未來,AIGC將步入 “原創(chuàng)階段”,能夠獨(dú)立完成內(nèi)容創(chuàng)作。[3]

2022年8 月,一幅主要使用文本描述生成的AI畫作《太空歌劇院》 (Théatre D'opéra Spatial)奪得美國科羅拉多州博覽會大賽數(shù)字藝術(shù)類別冠軍[4],引起群眾對AIGC藝術(shù)創(chuàng)作的思考。

而早在2022年7月的戛納短片電影節(jié)(Cannes Short Film Festival),就出現(xiàn)了使用AIGC的動畫短片《烏鴉》(TheCrow),將真人舞蹈作品PAINTED 基于 “文本-圖像-視頻”的多模態(tài)轉(zhuǎn)換,以“世界末日中起舞的烏鴉”形象再創(chuàng)作,獲得最佳短片獎。

據(jù)《AIGC深度產(chǎn)業(yè)報(bào)告》顯示,AIGC未來發(fā)展更趨向多模態(tài)生成方式,且至2030年,AIGC 市場規(guī)模將超萬億人民幣。[5]動畫作為一門具綜合性、商業(yè)性的藝術(shù),隨著深度學(xué)習(xí)與多模態(tài)AIGC 的引入,傳統(tǒng)動畫生產(chǎn)方式勢必會面臨沖擊,并迎來新的機(jī)遇。

2 技術(shù)原理

2.1 NLP預(yù)訓(xùn)練模型

計(jì)算機(jī)語言是以 “0”與 “1”組成的二進(jìn)制,計(jì)算機(jī)要完成與人進(jìn)行交互的任務(wù)必須通過自然語言處理 (Natural Language Processing,NLP)技術(shù)。

Transformer的提出最開始用于機(jī)器翻譯任務(wù),其基本架構(gòu)如圖 1 所示,Transformer模型的核心自注意力機(jī)制 (Self-attention)使得其相對于RNN①和CNN②等傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)更擅長處理不同類型的數(shù)據(jù),具有更好的并行性與全局性。[6]

圖1 Transformer模型架構(gòu)

NLP的核心是語義理解,為保證計(jì)算機(jī)能夠高效地學(xué)習(xí),需要提前建立語義聯(lián)系,即預(yù)訓(xùn)練。通過大量含標(biāo)簽的訓(xùn)練集對文本語句進(jìn)行向量化表示[7],在下游的具體應(yīng)用中再對模型進(jìn)行參數(shù)調(diào)優(yōu),使得模型能更好地匹配任務(wù)[8]。

BERT 是典型的一種預(yù)訓(xùn)練模型,類似于完形填空,隨機(jī)遮蓋掉部分文本建上下文語義間的聯(lián)系[9]。

2.2 多模態(tài)模型

2019年谷歌發(fā)布的VideoBERT 將Transformer拓展到“文本-視頻”領(lǐng)域,驗(yàn)證了Transformer預(yù)訓(xùn)練用于多模態(tài)學(xué)習(xí)的可行性[10]。

2021年Open AI提出的CLIP 模型基于Transformer進(jìn)行預(yù)訓(xùn)練,分別提取文本與圖像的特征并進(jìn)行對比,得到“文本-圖像”的相似度,使得兩種不同模態(tài)的數(shù)據(jù)得到關(guān)聯(lián)。[11]

2.3 生成模型

生成模型用于對數(shù)據(jù)的建模,生成文本、圖像、視頻等內(nèi)容,主流的生成模型有生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)和擴(kuò)散模型(Diffusion Model)。

2.3.1 生成對抗網(wǎng)絡(luò)

GAN 的框架中含兩個模塊:生成器 (Generator)和判別器 (Discriminator)。[12]生成器的任務(wù)是將輸入的初始噪聲偽造成一個與真實(shí)內(nèi)容相似的新內(nèi)容,再由判別器來檢驗(yàn)偽造內(nèi)容的真假,當(dāng)經(jīng)過數(shù)次對峙訓(xùn)練后,生成內(nèi)容能夠以最大概率“騙”過判別器時,模型則能夠生成一張足夠“以假亂真”的最優(yōu)圖像。GAN 的基本原理如圖 2 所示。

圖2 GAN 原理圖

2.3.2 擴(kuò)散模型

擴(kuò)散模型正向是不斷加噪的過程,逆向是根據(jù)不同程度的噪聲生成新內(nèi)容的過程,其原理如圖3,擴(kuò)散模型試圖學(xué)習(xí)噪聲分布,其在圖片生成任務(wù)中的表現(xiàn)超越了GAN[13]。

圖3 擴(kuò)散模型對圖形加噪、去噪原理

3 多模態(tài)AIGC動畫生成模式與局限

3.1 圖像到動畫的生成

視頻是連續(xù)的圖像序列,而動畫是以逐格方式拍攝的畫面連續(xù)播放形成的活動影像?！皥D像-視頻”的跨模態(tài)AIGC視頻與動畫的原理相似,可看作是基于圖像的邏輯組合。

由單個圖像生成關(guān)聯(lián)圖像后進(jìn)行插幀或者使用擴(kuò)散模型補(bǔ)充幀數(shù),但在生成動畫方面效果存在以下問題:

(1)AI 難以把握無邏輯、主觀性語言

由于動畫的視覺語言與創(chuàng)作者的主觀感受息息相關(guān),根據(jù)故事想要傳達(dá)的內(nèi)容有不同的表現(xiàn)方式,這樣具主觀性、非規(guī)律性的信息難以對計(jì)算機(jī)進(jìn)行學(xué)習(xí)、訓(xùn)練。

(2)二維圖像難以進(jìn)行三維空間映射

二維動畫相對于三維動畫更難以讓計(jì)算機(jī)把控?cái)z像機(jī)與對象的空間關(guān)系,遮擋、透視變換、角度變換會造成 AI 計(jì)算錯誤而導(dǎo)致畫面割裂、變形、拖影等[14]。且由于鏡頭、場景變化多,要得到高準(zhǔn)確率的映射需要耗費(fèi)大量的算力。

(3)運(yùn)動規(guī)律復(fù)雜多變

對象的屬性、速度影響變形程度,幀數(shù)也會影響運(yùn)動表現(xiàn)的力度,例如表現(xiàn)力度大的動作時會刻意省略幀數(shù),故不是所有運(yùn)動都適合高幀數(shù)的表現(xiàn)方式。

除由圖像生成連續(xù)畫面的視頻外,AIGC 還涉及基于二維圖像生成三維模型以輔助三維動畫創(chuàng)作:

一款用于二次元手繪設(shè)定稿動畫化的神經(jīng)渲染器Co NR (Collaborative Neural Rendering)可實(shí)現(xiàn)用較少數(shù)量的手繪圖片映射到A-Pose③下的灰模,導(dǎo)入動作序列即可完成手繪角色模型的三維動畫[15]。

谷歌發(fā)布的一種端到端的可訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)PHORHUM 能夠基于單張圖像生成三維模型[16],目前尚未開源。新型2D-3D 算法的提出,為三維動畫建模提供了便利。

雖然二維圖像生成三維模型的技術(shù)日益進(jìn)步,但缺少對動作內(nèi)容的處理,尚且無法達(dá)到依靠硬件設(shè)備進(jìn)行動作捕捉的精度。

3.2 文本到圖像的生成

視頻內(nèi)容是圖像在時間維度上的疊加,圖片生成算法為動畫內(nèi)容的生成奠定了基礎(chǔ)。

文本生成圖像的熱門模型有Midjourney、Disco Diffusion、Stable Diffusion、Dall·E 2等。

其基本原理 (以主流模型為例):CLIP 基于Transformer進(jìn)行無監(jiān)督預(yù)訓(xùn)練后,會根據(jù)擴(kuò)散模型去噪過程中的圖像評估與文本的匹配度,引導(dǎo)擴(kuò)散模型生成最符合文本的圖像。

為提高生成圖像的準(zhǔn)確度,模型往往支持文本描述與圖片參考共同作為生成圖像的標(biāo)準(zhǔn) (即 “文本+圖像→圖像”),圖4、圖5、圖6為使用Midjourney模型生成圖像的實(shí)例。

圖4 文本描述為:“一位美麗的舞者,身穿舞裙,在莫高窟壁畫前跳舞?！?/p>

圖5 文本描述為:“三只劍齒虎,遠(yuǎn)處是高山,近處是寸草不生的地,地面有堆積的動物骸骨,背光,夕陽下沉,氛圍凄涼?！?/p>

圖6 在圖5基礎(chǔ)上增加了參考圖 (上)生成的4幅圖像 (下)

通過在開源模型試驗(yàn)后,總結(jié)出AIGC 由文本生成圖像的局限性:

(1)AI 生成場景效果普遍優(yōu)于生成人物

AI 可以模擬細(xì)致的顏色、紋理,且場景的排布較人物限制較少,尤其是在遠(yuǎn)景時,不用考慮過多透視問題。人物在高透視、多遮擋條件下難以生成符合要求的圖像,其中正確生成手的拓?fù)浣Y(jié)構(gòu)是AIGC的難題(圖7)。

圖7 Novel AI在生成角色時手與身體結(jié)構(gòu)出現(xiàn)偏差

(2)AI 對訓(xùn)練樣本少的語義理解不佳

深度學(xué)習(xí)是建立在大量數(shù)據(jù)訓(xùn)練基礎(chǔ)上的,必然涉及無樣本或樣本稀缺的類型,無法建立起文本與圖像的語義聯(lián)系。例如,圖4-圖6中的 “莫高窟”“劍齒虎” “寸草不生”“骸骨”等描述被忽略。而對于“佛跳墻 (Buddha Jumps Over the Wall)”“過橋米線 (Crossing-the-bridge Noodles)”等詞在轉(zhuǎn)換為英文時,AI易僅從字面上理解。

(3)需要參考圖的輔助才能使得AIGC 更加準(zhǔn)確

文本單模態(tài)的語義限制不夠,越多的描述詞延伸的語義也會越多,對于計(jì)算機(jī)可學(xué)習(xí)的樣本也越多；相較于描述詞限定以外的內(nèi)容由計(jì)算機(jī)隨機(jī)生成來講,圖像可提取的大量特征給了計(jì)算機(jī)更接近預(yù)期的參考。

(4)用戶需要經(jīng)過長時間的熟悉、學(xué)習(xí)、嘗試

基于不同模型的底層代碼,用戶的操作方式、表述語言都會有所差異。用戶使用新模型時需要進(jìn)行詞匯庫的積累和學(xué)習(xí),了解其工作原理并掌握更加精準(zhǔn)的描述詞；由于AIGC 的隨機(jī)性,每次生成均呈現(xiàn)隨機(jī)結(jié)果,即便使用同樣的描述詞也會呈現(xiàn)不同的最終圖像,需要多次生成嘗試后用戶自主選擇最符合目標(biāo)的內(nèi)容；對于有創(chuàng)作專業(yè)基礎(chǔ)的用戶來說,獲得理想圖像所消耗的時間成本不一定小于自主創(chuàng)作的時間成本。

3.3 文本到動畫的生成

Disco Diffusion在文本跨模態(tài)生成多幅圖像時,支持將不同描述的圖像連接成視頻。雖然AIGC 視頻內(nèi)容對畫面的銜接平滑流暢,但由于視頻生成技術(shù)尚不成熟,只能完成推拉、旋轉(zhuǎn)等單一的鏡頭切換效果,且動畫內(nèi)容會有明顯的抖動、變形。

清華大學(xué)與智源實(shí)驗(yàn)室聯(lián)合發(fā)布的Cog Video是首個開源的文本生成視頻模型 (只支持中文輸入),直接采用“文本-低幀視頻對”來對計(jì)算機(jī)進(jìn)行訓(xùn)練,能夠生成較為流暢的短視頻,其生成案例見圖8 。

圖8 Cog Video生成的 “文字-視頻”案例[17]

谷歌團(tuán)隊(duì)連續(xù)發(fā)布了在視頻分辨率、3D 圖像生成具有優(yōu)勢的Imagen Video和擅長生成長鏡頭(長達(dá)2分鐘以上)講故事的Phenaki,后者在空間透視關(guān)系與合理性方面取得了巨大提升 (圖9),但兩者尚未開源。

圖9 Phenaki在講述故事時考慮到了反射、交互、遮擋以及場景過渡[18]

雖然基于文本或 “文本+視頻”生成視頻的AIGC技術(shù)在分辨率、流暢性、合理性、故事性各方面都取得了迅速突破,但相較于傳統(tǒng)方式拍攝的視頻/動畫效果還有一定差距。

4 多模態(tài)AIGC動畫的前景

4.1 技術(shù)層面

(1)構(gòu)建更廣的語義網(wǎng)絡(luò),應(yīng)對不同場景的語義偏差

增加AIGC對于上下文及全局的聯(lián)系,根據(jù)語義推斷最匹配的理解方式,從而使得AI更易掌握動畫視覺語言規(guī)律,針對特定事件、背景作出更準(zhǔn)確的判斷。

(2)以更少的訓(xùn)練樣本達(dá)成更好的學(xué)習(xí)效果

提高AI學(xué)習(xí)效率及遷移運(yùn)用的能力,減少對監(jiān)督學(xué)習(xí)的依賴,降低對訓(xùn)練樣本較少的內(nèi)容的誤判率。尤其在“文本-視頻”訓(xùn)練樣本有限的情況下,高效運(yùn)用標(biāo)記信息是AIGC視頻的有利支撐。

(3)二維圖像到三維模型的映射更加精準(zhǔn)

對于空間、深度的映射更為準(zhǔn)確,為三維動畫模型建模、二維動畫攝像機(jī)定位創(chuàng)造基礎(chǔ),改善動畫主體、鏡頭運(yùn)動造成的生成內(nèi)容變形。

(4)提升系統(tǒng)的抗干擾能力及魯棒性

增加AIGC對于空間、角度、遮擋、變形的判斷力,增加對噪聲的抵御力,使得生成內(nèi)容更趨平滑穩(wěn)定。

(5)補(bǔ)充常識、邏輯信息

在訓(xùn)練集中引入常識,篩選有效經(jīng)驗(yàn)作為相關(guān)參考,權(quán)衡龐大額外數(shù)據(jù)帶來的 “運(yùn)算效率降低”與“結(jié)果邏輯增強(qiáng)”兩者的關(guān)系。

4.2 內(nèi)容層面

(1)作為提供創(chuàng)新思路的參考素材

AIGC動畫擁有基于大數(shù)據(jù)樣本的優(yōu)勢,生成內(nèi)容具有各異性、多樣性、跳躍性,且數(shù)字信息具有便于調(diào)整的優(yōu)勢,可輔助創(chuàng)作者尋找創(chuàng)新思路。

(2)作為抽象藝術(shù)內(nèi)容象征

AIGC 動畫系統(tǒng)穩(wěn)定性不足導(dǎo)致畫面出現(xiàn)非邏輯性的抖動、變換；而這樣的抽象藝術(shù)恰好符合用于刻畫意識與夢這樣光怪陸離的表現(xiàn)手法,可利用這種性質(zhì)作為抽象藝術(shù)的體現(xiàn)。

(3)作為動畫序列幀的初始版本

將AIGC圖像作為關(guān)鍵幀,或視頻分割為動畫序列幀,手動修改不合理、與目標(biāo)不匹配的部分,保留并提取可借鑒部分,在此基礎(chǔ)上進(jìn)行二次創(chuàng)作。

4.3 市場層面

(1)引入動畫制作流程

對于生成文本而言,可服務(wù)于編??；對于生成圖像而言,可服務(wù)于概念設(shè)計(jì)；對于生成動畫而言,可服務(wù)于原畫師、動畫師。AIGC 技術(shù)趨于成熟后,有望正式作為動畫制作流程的一部分,或增加基于AI 訓(xùn)練、AI 描述的額外崗位。

(2)改變市場供給關(guān)系

需求者與創(chuàng)作者身份會相互流通:部分原本不具供給實(shí)力的需求方利用 AIGC 轉(zhuǎn)變?yōu)閮?nèi)容的提供方,對于部分創(chuàng)作者不善使用AIGC 又渴望嘗試,會流向需求一方。

(3)增加崗位對綜合性人才的粘性

動畫的綜合性特征由于人工智能的飛速進(jìn)步而得到顯現(xiàn),對于崗位人才的能力需求不再是單一能力,而更趨向于綜合性方向。

4.4 倫理層面

(1)版權(quán)問題

AIGC模型進(jìn)行學(xué)習(xí)、訓(xùn)練的樣本庫來自網(wǎng)絡(luò)大量的數(shù)據(jù)信息,生成內(nèi)容是基于樣本信息的再創(chuàng)作。雖然部分模型官方以付費(fèi)方式出售生成內(nèi)容的使用版權(quán),但對于樣本的原作者是否構(gòu)成侵權(quán)卻無法界定。如將AIGC 投入動畫生產(chǎn),需在生成內(nèi)容上調(diào)整修改,不直接套用。

目前國內(nèi)缺少明文條例用以說明AIGC 的版權(quán)問題,依照其快速發(fā)展的趨勢,可期望于未來完善體制,保障原創(chuàng)者的權(quán)益。

(2)安全問題

AIGC追求還原真實(shí)性,若被不法分子利用生成違法信息、宣傳虛假內(nèi)容會造成嚴(yán)重后果,模型供應(yīng)方需對文本敏感詞匯進(jìn)行屏蔽,產(chǎn)出數(shù)據(jù)需要第三方合理監(jiān)管、跟蹤。

4.5 總結(jié)

AIGC的跨模態(tài)生成、多模態(tài)轉(zhuǎn)換算法真正融入動畫產(chǎn)業(yè)生產(chǎn)還需克服一定的困難,但隨著技術(shù)與體制的完善,借助AIGC 賦能動畫藝術(shù)創(chuàng)作未來可期。

注釋

①循環(huán)神經(jīng)網(wǎng)絡(luò)RNN:全稱為Recurrent Neural Network,是一類以序列數(shù)據(jù)為輸入,按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。

②卷積神經(jīng)網(wǎng)絡(luò)CNN:全稱為Convolutional Neural Networks,是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。

③A-pose:指人物直立,大臂向下30 度的一種標(biāo)準(zhǔn)角色姿勢。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡