薄一航
北京電影學(xué)院美術(shù)學(xué)院,北京 100088
電影是藝術(shù),更是技術(shù)。縱觀電影自誕生至今,每一次質(zhì)的飛躍都離不開技術(shù)的突破與進步,從默片到有聲,從單聲道到立體聲,從黑白到彩色,從平面到3D,再到今天的球面、全景以及虛擬現(xiàn)實電影等,處處可見新的科學(xué)技術(shù)給電影的發(fā)展進步所帶來的生機。對于電影美術(shù)的創(chuàng)作也不例外,從最早借鑒舞臺的單片繪畫布景到多層的立體空間布景,從實景搭建到實景與虛擬場景的結(jié)合以及純虛擬空間場景的制作等,技術(shù)的迭代更新也一直在推動著電影美術(shù)的發(fā)展和革新。到了今天虛擬現(xiàn)實 (VR)、人工智能 (AI)、5G、人機交互、顯示技術(shù)等各種新興技術(shù)迅猛發(fā)展的年代,尤其是在虛擬制片技術(shù)逐漸成熟的時刻,如何將這些新技術(shù)融合到電影美術(shù)的創(chuàng)作當(dāng)中,提升創(chuàng)作效率,拓寬創(chuàng)作思路,將電影美術(shù)創(chuàng)作推進到一個新的歷史階段是一個值得思考和探索的問題。
機器學(xué)習(xí)方法里程碑式的發(fā)展突破了人工智能(Artificial Intelligence,AI)多年來難以逾越的瓶頸,將其推進到了一個新的歷史階段。人工智能技術(shù)也越來越廣泛地應(yīng)用到了工業(yè)、醫(yī)學(xué)、軍事、航天、教育、文化、藝術(shù)等各個領(lǐng)域,在很大程度上幫助和輔助了人們的工作與生活,同時也極大程度地提高了我們的工作和生活效率。盡管如此,現(xiàn)階段的人工智能依舊還處于模仿復(fù)制的弱人工智能階段,機器仍然不具備人的思維、意識、靈感,以及理解能力等。然而,人作為藝術(shù)創(chuàng)作的主體,是任何一種藝術(shù)創(chuàng)作形式的核心,離開了人的因素,藝術(shù)作品也便失去了自身的價值和靈魂。換句話說,藝術(shù)作品更多地是藝術(shù)家或者創(chuàng)作者情感的一種表達和釋放。近年來,AI作曲、AI繪畫、AI作詩等各種人工智能藝術(shù)形式層出不窮,不得不說,人工智能技術(shù)的融入的確提升了這些新的藝術(shù)形式的生成效率,而這些作品是屬于機器的,是對原有規(guī)則的一種模仿與復(fù)制,無所謂創(chuàng)意和創(chuàng)新,是制作而非創(chuàng)作。真正的藝術(shù)創(chuàng)作是離不開人的,創(chuàng)作者、藝術(shù)家才是藝術(shù)創(chuàng)作的核心與靈魂。
早在20世紀(jì)80年代,錢學(xué)森先生就提出了“人-機結(jié)合”的重要性和必要性。無論到什么時候,人始終是認(rèn)識和改造世界的主導(dǎo)者,我們不能忽略掉人的主觀能動性的重要作用。隨后,戴汝為院士在第七次全國院士大會上正式提出了 “人-機結(jié)合”這個新的科學(xué)研究領(lǐng)域。2019年 《新一代人工智能發(fā)展規(guī)劃》中確定了我國未來人工智能的總體要求與戰(zhàn)略目標(biāo),并將人機協(xié)同的混合增強智能作為我們重要的發(fā)展方向之一。目前,人機協(xié)同已經(jīng)應(yīng)用于人機共駕、在線智能學(xué)習(xí)、平行管理與控制等多個領(lǐng)域。在高效快速的虛擬制片時代,如何利用人工智能、機器學(xué)習(xí)、人機交互等技術(shù),在提升電影創(chuàng)作效率的同時,又確保了以人為中心的創(chuàng)作地位,依舊由創(chuàng)作者來主導(dǎo)整個創(chuàng)作過程,充分利用機器的運算與存儲能力來提升創(chuàng)作效率,是現(xiàn)階段電影創(chuàng)作過程中亟需考慮的問題。
電影分鏡頭畫面設(shè)計是整個電影創(chuàng)作過程中至關(guān)重要的一步,是將劇本文字視覺化的第一步,可以說,劇本是美術(shù)部門一切工作的起始點,也是激發(fā)美術(shù)師創(chuàng)作靈感的源泉。美術(shù)師通過分析劇本從中挖掘出形象的潛質(zhì),并通過認(rèn)真解讀對劇本中的環(huán)境以及人物進行視覺化的思考,進而引發(fā)創(chuàng)作靈感,形成視覺語言。除此以外,美術(shù)師還要與導(dǎo)演和攝影師圍繞劇本共同展開分析與討論,確定整個影片的視覺風(fēng)格,以及場景、人物、道具等各個細節(jié),達成一致,以滿足各個視覺創(chuàng)作部門的要求與需要。尤其是在步入虛擬制作時代的今天,各種前期預(yù)覽、實時預(yù)覽的需求給美術(shù)部門的工作提出了更多、更高的要求。如何在確保美術(shù)師、導(dǎo)演以及攝影師創(chuàng)作主導(dǎo)地位的同時,大大提升分鏡頭畫面設(shè)計的效率與質(zhì)量是本文主要探索的問題。
人們在將文本轉(zhuǎn)化成圖像時,通常要在大量的學(xué)習(xí)訓(xùn)練的基礎(chǔ)上才能實現(xiàn),通過對不同對象的學(xué)習(xí),而形成關(guān)于顏色、紋理、形狀、語義以及空間布局等知識基礎(chǔ)。對于給定的文本描述,我們便會利用這些學(xué)習(xí)過的先驗知識來形成一個視覺印象。
目前,從文本到圖像的生成方法在圖像編輯、視頻游戲、生成藝術(shù),以及計算機輔助設(shè)計中都有應(yīng)用。鑒于其廣泛的應(yīng)用領(lǐng)域和前景,已有許多從文本到圖像生成的方法 (Text-to-Image),旨在將一段抽象的文字描述轉(zhuǎn)化成具象的視覺表達。文本與圖像之間存在著明顯的語義差異,因此,這一轉(zhuǎn)化過程最難,最關(guān)鍵的問題在于如何讓計算機從非結(jié)構(gòu)化的文字描述中學(xué)習(xí)其屬性特征,并將這些屬性特征與相應(yīng)的視覺屬性特征一一對應(yīng),生成相應(yīng)的視覺元素。
通過深層生成模型進行文本到圖像生成的方法有很多種,比如,近似Langevin采樣,變分自動編碼器方法,pixelCNN方法,以及生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)方法等。其中,最常用,也是最有效的機器學(xué)習(xí)方法莫過于生成對抗網(wǎng)絡(luò)深度學(xué)習(xí)模型。Gauthier等人對GAN模型進行擴展,提出了一種條件化的GAN模型用于人臉的生成。Xu等人采用跨模態(tài)注意的方法,通過提升文本中某些字或詞的注意力,提出了一種逐步細化的多階段生成框架,更為注重所生成圖像的細節(jié)信息。文章 [15]提出一個 “鏡面”的方式,通過在所生成圖像生成文字標(biāo)題來強制原始文本與生成圖像的一致性。上述方法雖然在準(zhǔn)確度、分辨率以及真實性上取得了可觀的結(jié)果,但這些方法更適用于簡單場景的情況。針對復(fù)雜場景的情況,文章 [16][17][18][19]根據(jù)文本描述,推斷其語義布局,并對其中的對象進行建模,形成一個從布局 (Layout)到遮罩 (Mask),再到圖像的框架。為了更進一步模擬人的文字到圖像的處理過程,Zhang等人提出了一種基于視覺記憶的創(chuàng)意對抗網(wǎng)絡(luò)來解決復(fù)雜場景的情況,在圖像生成過程中適當(dāng)?shù)乩猛獠恳曈X知識記憶。還有一些研究者將對比學(xué)習(xí)用于GAN模型,通過對比正對和負對來提升圖像表示的一致性。場景圖 (Scene Graph)的提出對解決復(fù)雜場景問題又更近了一步,從文本分析中生成對應(yīng)的場景圖,并根據(jù)場景圖以及目標(biāo)與目標(biāo)之間的關(guān)系最終合成相應(yīng)的圖像。
前面我們提到,深度學(xué)習(xí)方法的出現(xiàn)打破了人工智能多年以來發(fā)展的瓶頸,將人工智能技術(shù)推進到了一個具有里程碑意義的新階段,也已經(jīng)成功地應(yīng)用于眾多領(lǐng)域。尤其是在藝術(shù)領(lǐng)域,出現(xiàn)了一種新的藝術(shù)形式——人工智能藝術(shù) (AI Art)。無論是AI作曲、AI作詩還是AI繪畫,都已相對成熟,借助人工智能技術(shù),可以生成完全符合人們作曲、作詩以及繪畫規(guī)則和規(guī)律的作品,讓我們也深深體會到這種新的藝術(shù)形式的魅力所在。而談到藝術(shù)創(chuàng)作,藝術(shù)作品的誕生離不開創(chuàng)作過程,而藝術(shù)創(chuàng)作的主體離不開藝術(shù)家,即人的因素。藝術(shù)家或者創(chuàng)作者經(jīng)歷了藝術(shù)經(jīng)驗、藝術(shù)構(gòu)思以及藝術(shù)傳達來完成整個作品的創(chuàng)作過程。從另一個角度講,藝術(shù)作品的創(chuàng)作過程是藝術(shù)家、創(chuàng)作者情感、心理、人生閱歷以及思維方式的表達過程,任何一種形式藝術(shù)作品的創(chuàng)作都不能忽略人作為藝術(shù)創(chuàng)作者的核心和引領(lǐng)作用。然而,目前的人工智能依舊處于弱人工智能的階段,換句話說,即使深度學(xué)習(xí)方法極大地推進了人工智能技術(shù)的發(fā)展,但當(dāng)下機器所能做到的還停留在模仿和復(fù)制的水平,只能起到輔助作用,而無法完全取代人的位置,距離具有創(chuàng)造性思維的強人工智能還有很長的路要走,這也是人工智能在發(fā)展道路上的又一個新的瓶頸。
“以人為中心、人-機合作的人工智能”方法的提出,無疑引導(dǎo)人工智能朝著更加合理、更加人性化的方向發(fā)展?;旌显鰪娭悄艿娜藱C協(xié)同系統(tǒng)的提出試圖將人的認(rèn)知能力引入到人工智能系統(tǒng)中,在利用好機器強大的運算與存儲能力的同時,還可以充分地發(fā)揮人的認(rèn)知與思維能力,進而產(chǎn)生 “1+1>2”的合力效果,也彌補了目前機器學(xué)習(xí)算法中所存在的限制與不足。
關(guān)于混合增強智能系統(tǒng)主要有兩種形式的模型:人在回路的增強智能和基于認(rèn)知計算的增強智能。其中,人在回路的增強智能模型中,人也作為模型的一部分,通過人機交互的方式參與到模型運算當(dāng)中,換句話說,人也是該智能系統(tǒng)的一部分,計算機通過機器學(xué)習(xí)算法生成中間運算結(jié)果,對于置信度較高的結(jié)果可直接作為最終結(jié)果輸出,而對于置信度較低的結(jié)果,人會針對該結(jié)果提出判斷、修整指令,機器在接收到這些反饋指令后會重新學(xué)習(xí)并調(diào)整機器學(xué)習(xí)模型,以生成新的運算結(jié)果,重復(fù)該過程,形成一個能夠不斷提升整個系統(tǒng)智能的反饋回路,雙向的信息流將人的認(rèn)知與思維和計算機強大的計算與存儲能力有力結(jié)合,達到智能增強的效果。而基于認(rèn)知計算的混合增強智能則是通過模仿人腦的功能,來建立具有像人腦感知、推理以及決策能力的智能模型。無論哪種模型,都著重強調(diào)了“人”在其中的重要作用。如今,混合增強智能模型已經(jīng)成功地應(yīng)用到了人機共駕、在線智能學(xué)習(xí)以及平行控制與管理等多個領(lǐng)域,人工智能技術(shù)也正在迎來一場新的歷史性變革。
哈佛大學(xué)的Kochhar等人提出了一種人機協(xié)作的方法,通過人機交互的對比描述對圖形目標(biāo)進行建模,即對圖形目標(biāo)進行設(shè)計與表達。其中的設(shè)計過程其實為創(chuàng)作過程,單獨依靠計算機自身的力量只能完成生成過程,而達不到創(chuàng)作的高度。人機協(xié)作的工作模式融入了人對整個設(shè)計過程的指導(dǎo)與控制,將人的認(rèn)知與思路通過人機交互的形式傳達、反饋給計算機,從而指導(dǎo)計算機完成設(shè)計過程。從藝術(shù)創(chuàng)作的角度講,這種方法的提出對于真正將人工智能用于藝術(shù)家們的藝術(shù)創(chuàng)作又向前推進了一大步。Sun等人設(shè)計開發(fā)了一套基于GAN模型的共同創(chuàng)作繪畫系統(tǒng),進行卡通景觀的繪制,可以得到較高質(zhì)量的卡通繪畫作品。人機合作的人工智能將會是未來藝術(shù)創(chuàng)作的一種新方式。
在電影虛擬制作技術(shù)日益成熟的今天,對整個制作過程中視覺前置、實時預(yù)覽的效率和質(zhì)量提出了越來越高的要求。電影美術(shù)設(shè)計是將抽象劇本文字視覺化的第一步,也是關(guān)系著整個影片風(fēng)格和視覺效果至關(guān)重要的一步,可以說電影鏡頭畫面的設(shè)計是一部影片能否吸引觀眾的最主要因素。對于鏡頭畫面的設(shè)計,傳統(tǒng)的手繪方式已經(jīng)逐漸被各種繪圖軟件所替代,無論從視覺效果上,還是在創(chuàng)作效率上均有了不同程度的提升。而高效的虛擬制作流程給視覺設(shè)計提出了更高的要求,能否在保留人作為創(chuàng)作者的領(lǐng)導(dǎo)核心地位的同時,借助人工智能的方法,運用機器學(xué)習(xí)算法,充分發(fā)揮機器的高速運算能力與強大的存儲能力,將創(chuàng)作者的創(chuàng)意、情感和靈感與機器的算力和存儲能力有效地融合起來,實現(xiàn)人機協(xié)同,來共同完成電影鏡頭畫面的設(shè)計,進而達到 “1+1>2”的創(chuàng)作效果,是本文所要探索的主要問題。
分析劇本是將電影視覺化的第一步,導(dǎo)演、美術(shù)師以及攝影師等負責(zé)視覺創(chuàng)作的主創(chuàng)人員會圍繞劇本展開討論,初步確立整部影片的視覺風(fēng)格和方向。美術(shù)師會根據(jù)討論結(jié)果設(shè)計并繪制出多種分鏡頭畫面,繼續(xù)與主創(chuàng)進行分析討論,直至最終確定一套大家滿意度最高的分鏡頭畫面。為了提升整個分鏡頭畫面創(chuàng)作過程的效率與質(zhì)量,我們提出了一種人機協(xié)同的電影分鏡頭畫面創(chuàng)作框架,如圖1所示。劇本文本作為整個系統(tǒng)的輸入,經(jīng)由深度學(xué)習(xí)算法生成一組可能的分鏡頭畫面,對于其中置信值較低的生成結(jié)果,創(chuàng)作者們通過人機交互的方式輸入調(diào)整建議,針對這些建議,機器重新訓(xùn)練學(xué)習(xí)生成模型,進而繼續(xù)生成新的分鏡頭畫面,該過程重復(fù)執(zhí)行,直至輸出令創(chuàng)作者滿意的設(shè)計結(jié)果。
圖1 人在回路的人機協(xié)同電影分鏡頭畫面創(chuàng)作方法框架圖
我們可以把整個創(chuàng)作框架定義為一個過程(Process):
P={I,I,I,G,O,O,C,D}
其中,I為輸入劇本文本,I={i,i,…,i} 為電影數(shù)字資產(chǎn)庫,這里包括角色、場景、道具、聲音等各種不同的數(shù)字資產(chǎn),機器以及創(chuàng)作者可根據(jù)需要調(diào)用和修改資產(chǎn)庫中的各類資產(chǎn)。I為創(chuàng)作者的需求,即創(chuàng)作者創(chuàng)作時的一些個人習(xí)慣、風(fēng)格以及具體要求等。G為生成模型,該模型會根據(jù)具體輸入內(nèi)容生成一組中間設(shè)計結(jié)果,即G(I,I,I)=O,這 組 中 間 結(jié) 果 O={o,o,…,o} 經(jīng)過美學(xué)度量之后會輸出給創(chuàng)作者進行選擇和評價,創(chuàng)作者會將個人的修改建議以及新的需求反饋給機器進行重新訓(xùn)練學(xué)習(xí),調(diào)整算法模型,進而生成新的中間結(jié)果。該過程循環(huán)執(zhí)行,直至輸出令創(chuàng)作者滿意的結(jié)果O:
其中,D為決策函數(shù),C為創(chuàng)作者的理想結(jié)果,有助于通過決策函數(shù)確定最終的輸出結(jié)果。
這其中主要包括以下幾個關(guān)鍵問題。
對于導(dǎo)演或者美術(shù)師而言,從劇本 (文字)到分鏡頭畫面的轉(zhuǎn)換是一個從抽象到具象轉(zhuǎn)換的復(fù)雜過程。同一段劇本文字,對于不同的導(dǎo)演或者美術(shù)師而言會產(chǎn)生出截然不同的畫面。不同的人生閱歷,不一樣的思維方式,甚至不同的時間節(jié)點,所產(chǎn)生的靈感都會有所不同,美術(shù)師、導(dǎo)演和攝影師會作為創(chuàng)作者參與到我們的人機協(xié)同的創(chuàng)作系統(tǒng)當(dāng)中。
在分鏡頭樣本庫中主要包含兩類數(shù)據(jù),即分鏡頭畫面圖和其對應(yīng)的分鏡頭腳本文字,如圖2所示。樣本庫中,以下列幾種類型的影片分類,包括動作片、戰(zhàn)爭片、災(zāi)難片、愛情片、喜劇片、懸疑片和科幻片等。為了生成更符合人類視覺和心理認(rèn)知與構(gòu)圖的分鏡頭畫面,對于每種影片而言,將分鏡頭畫面分為特寫、近景、中景、全景和遠景等五種不同的景別。
圖2 分鏡頭畫面樣本庫示例圖
另外,應(yīng)將劇本文字中的關(guān)鍵信息標(biāo)注在對應(yīng)的每一張分鏡頭畫面中,如圖3所示,分鏡頭腳本文字中出現(xiàn)的具體表示某個人物或者物體的名詞“1900”“琴”和 “香煙”等。以及分鏡頭腳本文字中出現(xiàn)的表示動作的動詞所對應(yīng)的人物應(yīng)具有的動作或姿勢等。同時,還要考慮不同景別鏡頭的構(gòu)圖規(guī)律、不同類型影片的色彩色調(diào),以及紋理特征等。
圖3 數(shù)據(jù)庫標(biāo)注示例圖
從最早盧米埃爾兄弟在巴黎放映的第一部短片《工廠大門》開始至今,電影美術(shù)的品質(zhì)體現(xiàn)在 “景物與人物的關(guān)系互動、個別形象與整體形象之間的并列、環(huán)境的形式、畫面構(gòu)圖、視線體的運動等”各個方面,主要包括以下幾種形象:人物、景觀(場景)、道具與視效。其中,人物是鏡頭畫面的核心,也是故事的核心,場景是人物動作發(fā)展的外部環(huán)境,是故事的空間元素,可以說,道具支撐了人物動作的發(fā)展,是引發(fā)人物動作關(guān)系的條件,而視效則負責(zé)渲染場景的氛圍,往往起到畫龍點睛的作用。
數(shù)字資產(chǎn)庫按照時代分類進行建立,主要分為古代、現(xiàn)代、幻想和混合四個大的類別,如圖4所示。不同的類別均包括人物、場景、道具和視效四種形象。其中,對于人物來講,以性別分類為根本,按年齡階段分為老年、中年、青年、少年、幼年和嬰兒,不同的年齡段又可以包含有不同的職業(yè)等。對于場景,主要分成室內(nèi)與室外兩種,室內(nèi)場景可分為居家、辦公、商業(yè)、娛樂、醫(yī)院、學(xué)校等若干不同地點,而室外場景則可以大致分為自然場景、街景以及建筑場景等幾種。道具,按照其具體用途與出現(xiàn)的場景,分為陳列型道具與戲用型道具。視效則按照其具體內(nèi)容與功效分為光學(xué)類視效、化學(xué)類視效和物理類視效幾種。
圖4 電影數(shù)字資產(chǎn)庫分類示意圖
數(shù)字資產(chǎn)庫本身應(yīng)既包含各類資產(chǎn)的三維模型,還包括各類皮膚、貼圖等。對于數(shù)字資產(chǎn)庫中的各類資產(chǎn),創(chuàng)作者們不僅可以隨時調(diào)用,還可以根據(jù)具體的需要調(diào)整和修改。與此同時,修改或調(diào)整后的資產(chǎn)可以作為新的資產(chǎn)存在于資產(chǎn)庫中。因此,對于數(shù)字資產(chǎn)庫而言,其資產(chǎn)是不斷更新、完善和與時俱進的。
近年來,在繪畫、作曲、作詩等多種AI藝術(shù)中,隨處可見生成式對抗網(wǎng)絡(luò) (GAN)的身影。在生成式對抗網(wǎng)絡(luò)中,包含兩個子網(wǎng)絡(luò),即生成器網(wǎng)絡(luò) (Generator)和判別器網(wǎng)絡(luò) (Discriminator)。Goodfellow等人將GAN模型定義為:
其中,
這里,D:χ→ [0,1]為判別模型,將來自數(shù)據(jù)分布的概率分配給給定樣本x∈χ,即來區(qū)分由生成器生成的圖像和來自于訓(xùn)練集的真實圖像。G為生成模型G:Z→χ,Z為輸入數(shù)據(jù),即通過學(xué)習(xí)努力生成近似于訓(xùn)練集中的圖像。判別器D對生成器G所生成的圖像進行真假的判斷,并將判斷結(jié)果反饋給生成器G,直至判別器D無法判別出生成器G所生成結(jié)果的真假,二者博弈過程結(jié)束。
與傳統(tǒng)的GAN模型不同,我們所提出的人機協(xié)同的GAN方法是在傳統(tǒng)GAN模型的基礎(chǔ)上融入創(chuàng)作者的指導(dǎo)因素,以保證最終的設(shè)計結(jié)果仍以人的創(chuàng)意為引領(lǐng),是創(chuàng)作的結(jié)果,而非模擬生成的結(jié)果。
我們提出一種基于外部記憶的生成網(wǎng)絡(luò)模型,如圖5所示,主要包括四個組合模塊,即場景圖模塊、角色掩膜模塊、景別注意模塊以及外部記憶模塊,分別用來控制畫面構(gòu)圖、人物角色與場景的層次關(guān)系、鏡頭的景別以及整個畫面的視覺注意區(qū)域。根據(jù)所生成的分鏡掩膜圖,調(diào)用數(shù)字資產(chǎn)庫中相應(yīng)的數(shù)字資產(chǎn)生成分鏡圖畫面。
圖5 生成器網(wǎng)絡(luò)示意圖
判別器網(wǎng)絡(luò)要對生成器生成的分鏡圖與真實的美術(shù)師繪制的分鏡樣本進行比較和判斷,如圖6所示,主要包括三個方面的判斷:美學(xué)判斷、風(fēng)格判斷以及與劇本的匹配程度判斷。對于評分較低的結(jié)果,創(chuàng)作者會根據(jù)自己的創(chuàng)作經(jīng)驗通過人機交互的方式將修整建議反饋給生成網(wǎng)絡(luò)以及判別器網(wǎng)絡(luò),其中包括色調(diào)、構(gòu)圖、層次關(guān)系等。生成器與判別器在接收到創(chuàng)作者的反饋之后,會重新學(xué)習(xí)訓(xùn)練和調(diào)整生成模型與判別模型,進而生成更加理想的分鏡頭結(jié)果。
圖6 判別器網(wǎng)絡(luò)示意圖
這一部分是整個系統(tǒng)的核心,也是引領(lǐng)著整個創(chuàng)作過程朝著更加人性化方向發(fā)展的關(guān)鍵問題所在。如圖7所示,人機協(xié)同系統(tǒng)中主要包括人、人機接口和計算機三個重要組成成分。其中,人機接口起到了連接和溝通人與計算機的橋梁紐帶作用。人們通過觀測,分析、推理并決斷出自己的判斷結(jié)果通過人機接口輸入給計算機,對于計算機而言,有其自己對應(yīng)的數(shù)據(jù)庫、規(guī)則庫和進程方法庫,根據(jù)人們的反饋輸入,推理計算出滿足人們輸入需求和意見的結(jié)果,仍舊通過人機交互接口反饋給人。對于計算機反饋的結(jié)果,人們重復(fù)之前的決斷過程將新的反饋輸入給計算機。如此循環(huán),直至產(chǎn)生令創(chuàng)作者們滿意的結(jié)果為止。
圖7 人機協(xié)同系統(tǒng)示意圖
在我們的人機協(xié)同創(chuàng)作系統(tǒng)中,最關(guān)鍵的問題在于其中人機接口的形式,即對于計算機生成的結(jié)果以什么樣的形式輸出給創(chuàng)作者,而創(chuàng)作者又以什么樣的形式將自己的決斷結(jié)果反饋輸入給計算機。這里的創(chuàng)作者包括美術(shù)師、導(dǎo)演以及攝影師等與視覺設(shè)計相關(guān)的主創(chuàng)人員。
為了給創(chuàng)作者提供更加直觀、便捷的中間結(jié)果,且便于創(chuàng)作者反饋自己的決策意見,可以通過多通道的人機交互接口來共同實現(xiàn)。主要包括五個不同的通道:視覺注意通道 (圖8(a))、構(gòu)圖通道(圖8(b))、特征通道 (圖8(c))、極性通道(圖8(d))與強度通道 (圖8(e))。其中,在構(gòu)圖通道接口,創(chuàng)作者可以使用手繪板通過構(gòu)圖線條對生成結(jié)果的構(gòu)圖進行調(diào)整,或者通過構(gòu)圖線條給出新的構(gòu)圖,計算機會根據(jù)創(chuàng)作者輸入的線條重新學(xué)習(xí)和調(diào)整畫面的層次結(jié)構(gòu)與布局。特征通道通過滑動特征按鈕來調(diào)整顏色、飽和度、亮度、光影等圖像的各種底層特征,計算機會根據(jù)創(chuàng)作者的輸入來重新學(xué)習(xí)各種底層特征,調(diào)整模型參數(shù),以生成更理想的結(jié)果。視覺注意通道最為重要,視覺注意中心是整個分鏡頭畫面中最能吸引觀眾眼球的區(qū)域,也是畫面中突出強調(diào)的部分,創(chuàng)作者根據(jù)自己的認(rèn)知將更符合人們視覺感知的視覺中心反饋給計算機,計算機根據(jù)創(chuàng)作者反饋的新的中心重新調(diào)整畫面結(jié)構(gòu)和關(guān)系。
圖8 人機交互通道示意圖
創(chuàng)作人員的參與能夠極大地提升對抗網(wǎng)絡(luò)的博弈效率,快速準(zhǔn)確地生成符合主創(chuàng)人員要求的分鏡頭設(shè)計結(jié)果。在此過程中,既保留了藝術(shù)創(chuàng)作過程中創(chuàng)作者創(chuàng)作的主導(dǎo)地位,充分發(fā)揮了創(chuàng)作者的創(chuàng)作靈感、創(chuàng)作理念以及創(chuàng)作情感和創(chuàng)作習(xí)慣,還最大程度地利用了計算機超強的計算能力與存儲能力,將人與機器的能力與作用均發(fā)揮到最優(yōu)狀態(tài)。
藝術(shù)創(chuàng)作離不開人,離不開人的靈感與情感,可以說,人在藝術(shù)創(chuàng)作中起到了靈魂核心的作用。在人工智能、互聯(lián)網(wǎng)、人機交互、5G以及電影虛擬制片技術(shù)快速發(fā)展的今天,如何將這些新興技術(shù)手段融合到電影美術(shù)創(chuàng)作的過程中,以契合電影虛擬制片技術(shù)實時、高效的新需求,是我們必須要思考和解決的問題。傳統(tǒng)的手繪分鏡頭畫面的方式顯然已經(jīng)無法滿足創(chuàng)作者們的需要和腳步,深度學(xué)習(xí)算法、人機交互技術(shù)的進步給電影美術(shù)的創(chuàng)作帶來了直接的創(chuàng)作工具。本文提出了一套人機協(xié)同的電影分鏡頭畫面創(chuàng)作系統(tǒng),創(chuàng)作者在回路中針對機器產(chǎn)生的結(jié)果及時反饋給機器自己的想法與意見,讓機器進一步重新更新、學(xué)習(xí)生成模型,進而生成更優(yōu)的、更令創(chuàng)作者滿意的結(jié)果,如此循環(huán),直至產(chǎn)生最優(yōu)的,讓創(chuàng)作者們最滿意的結(jié)果。該系統(tǒng)不僅保留了創(chuàng)作者在整個創(chuàng)作過程中的靈魂核心地位,還最大程度地利用了機器的計算與存儲能力,讓二者融合協(xié)作,進而達到 “1+1>2”的最終效果。在未來的工作中,我們將針對文中所提到的各個主要問題具體展開實驗和測試,建立分鏡頭樣本庫、建立電影數(shù)字資產(chǎn)庫,測試調(diào)整生成模型與判別模型,并根據(jù)具體情況選擇最佳的人機交互通道和交互方式來完成整個系統(tǒng)的搭建。