基金項(xiàng)目:2023年教育部人文社會(huì)科學(xué)規(guī)劃基金項(xiàng)目“技術(shù)現(xiàn)象學(xué)視角下的城市空間感官生態(tài)變遷研究”(23YJAZH023);湖北科技學(xué)院科研創(chuàng)新團(tuán)隊(duì)項(xiàng)目“元宇宙與傳媒發(fā)展研究”(2022T06)
作者信息:鄧志文(1972— ),男,湖北麻城人,博士,湖北科技學(xué)院人文與傳媒學(xué)院教授,主要研究方向:美學(xué)、技術(shù)哲學(xué)。
【摘要】近日,OpenAI推出了代表了目前文生視頻最高水平的模型Sora,成為生成式人工智能發(fā)展史上的里程碑。然而,Sora還是存在著一些技術(shù)上的缺陷和不足。從時(shí)間現(xiàn)象學(xué)角度看,Sora外在時(shí)間結(jié)構(gòu)“陣容”殘缺,只有客觀時(shí)間,沒有主觀時(shí)間和內(nèi)在時(shí)間意識(shí),導(dǎo)致其無法描述人類的心理時(shí)間,不能解釋事件的因果關(guān)系和建構(gòu)復(fù)雜有意義的事件及情節(jié)。此外,滯留和前攝的缺席,導(dǎo)致其無法連接動(dòng)作和結(jié)果;缺少內(nèi)在時(shí)間性動(dòng)態(tài)生成結(jié)構(gòu)的介入,Sora亦難以展現(xiàn)隨著時(shí)間推移而發(fā)生的事件。因此,從技術(shù)層面增加數(shù)據(jù)模型的意向性實(shí)踐和提升意向性設(shè)計(jì)的算量、算法,完善內(nèi)外兩個(gè)時(shí)間性結(jié)構(gòu),成為提升Sora現(xiàn)實(shí)表現(xiàn)的關(guān)鍵。
【關(guān)鍵詞】文生視頻 Sora 時(shí)間性結(jié)構(gòu) 生成式人工智能 現(xiàn)象學(xué) 滯留與前攝
【中圖分類號(hào)】G206 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1003-6687(2024)6-046-07
【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.006
從虛擬現(xiàn)實(shí)到元宇宙,從ChatGPT到文生視頻,生成式人工智能以摧枯拉朽的技術(shù)偉力不斷創(chuàng)造著一個(gè)又一個(gè)科學(xué)神話和熱門話題,并以其驚艷的表現(xiàn)“俘虜”了世人的目光,其迭代速度可謂日新月異。目前,文生視頻正被廣泛地應(yīng)用于企業(yè)宣傳、數(shù)字化人、科普創(chuàng)作、線上社交等領(lǐng)域。[1]2024年伊始,OpenAI又隆重推出了新一代文生視頻大模型Sora。作為生成視頻領(lǐng)域的“王炸”,Sora再一次刷新了人們對(duì)人工智能技術(shù)的認(rèn)知,該消息迅速登上熱搜并成為各大新聞網(wǎng)站的頭條。Sora突破了之前Runway、Pika、Meta等公司的AI文生視頻最多只能持續(xù)十幾秒且單鏡頭單生成的“天花板”,能根據(jù)用戶的文本指令生成長達(dá)1分鐘的高質(zhì)量視頻。逼真的視覺效果令Sora在一夜之間“爆紅”,其精湛的技術(shù)表現(xiàn)亦讓人們嘆為觀止,就連馬斯克也驚嘆地表示“人類愿賭服輸”。Sora強(qiáng)大的視頻生成能力,使其在社交、創(chuàng)意產(chǎn)業(yè)、視覺藝術(shù)、新媒體、影視制作、教育培訓(xùn)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)、娛樂等領(lǐng)域有廣闊的用武之地。它標(biāo)志著人工智能在理解現(xiàn)實(shí)世界并與之互動(dòng)方面發(fā)生了質(zhì)的飛躍,這似乎昭示著通用人工智能“一統(tǒng)天下”的時(shí)代已經(jīng)近在眼前了。
就在人們對(duì)Sora頂禮膜拜和贊不絕口的浪潮中,一些理性的聲音也開始浮出水面。其實(shí),在此之前,已有學(xué)者對(duì)生成式人工智能的潛在風(fēng)險(xiǎn)表達(dá)了關(guān)切,如倫理風(fēng)險(xiǎn)、信息失序風(fēng)險(xiǎn)、科技安全風(fēng)險(xiǎn)、價(jià)值導(dǎo)向風(fēng)險(xiǎn),還包括系統(tǒng)性偏見、價(jià)值觀對(duì)抗、觀點(diǎn)霸權(quán)、刻板印象、虛假信息等問題。Sora作為熱點(diǎn)話題也自然進(jìn)入了人們討論的視野。《環(huán)球日?qǐng)?bào)》記者曾以Sora為話題采訪了劉偉、吳甘沙、楊靜等多名人工智能領(lǐng)域?qū)<液推髽I(yè)界人士。在喜憂參半中,他們都對(duì)Sora這個(gè)新生事物持較為辯證、客觀和理性的態(tài)度。任何技術(shù)產(chǎn)品都不是完美無缺的,我們應(yīng)該對(duì)Sora的現(xiàn)實(shí)表現(xiàn)與應(yīng)用前景秉持理性和謹(jǐn)慎的態(tài)度。一些人還對(duì)Sora可能帶來的各種風(fēng)險(xiǎn)憂心忡忡。他們認(rèn)為,Sora強(qiáng)大的擬真能力使得人工經(jīng)驗(yàn)和真實(shí)經(jīng)驗(yàn)的邊界更加模糊,并對(duì)人們?nèi)粘=?jīng)驗(yàn)產(chǎn)生負(fù)面影響,從而影響人們的實(shí)在觀。在人工經(jīng)驗(yàn)與真實(shí)經(jīng)驗(yàn)的雙重介入下,人們要形成對(duì)客觀世界的準(zhǔn)確認(rèn)知恐怕是比較難了。[2]“當(dāng)生成式人工智能信息來源的真實(shí)性無法保障時(shí),將嚴(yán)重影響用戶知情權(quán)和決策權(quán)的行使,從而演變?yōu)槿藱C(jī)對(duì)抗的不利局面,使得科技發(fā)展可能脫離人類可控范圍?!盵3]尤其對(duì)以真實(shí)性為生命的新聞業(yè)來說,在Sora的使用上更要慎之又慎。
盡管Sora的走紅有OpenAI公司營銷和眾多媒體背后推波助瀾的因素,但應(yīng)當(dāng)承認(rèn),作為生成式人工智能的一種,即通過大規(guī)模數(shù)據(jù)庫/集的學(xué)習(xí)和分析,進(jìn)而生成與訓(xùn)練數(shù)據(jù)相似的、具有一定邏輯性和連貫性的語言文本、音頻、 圖像、視頻等內(nèi)容,Sora也和ChatGPT一樣,是邁向通用人工智能時(shí)代的重要里程碑。截至目前,對(duì)文生視頻以及模型Sora的關(guān)注不在少數(shù),但多見于網(wǎng)絡(luò)新聞、發(fā)帖評(píng)論和對(duì)專業(yè)人士的采訪,以及《解放日?qǐng)?bào)》《證券日?qǐng)?bào)》《上海證券報(bào)》《聯(lián)合時(shí)報(bào)》《北京商報(bào)》《電腦報(bào)》《環(huán)球日?qǐng)?bào)》上的12篇介紹性文章,①內(nèi)容多是介紹和普及文生視頻和Sora的技術(shù)特點(diǎn)、應(yīng)用價(jià)值和應(yīng)用領(lǐng)域,包括對(duì)相關(guān)專家的采訪,不具有嚴(yán)格意義上的學(xué)術(shù)性,真正關(guān)于文生視頻(遑論剛剛問世的Sora)的學(xué)術(shù)研究嚴(yán)重滯后。②筆者在這里要提出的問題是:Sora作為代表迄今最高水平的文生視頻模型,其現(xiàn)實(shí)表現(xiàn)有何不足之處?原因何在?
一、“能”與“不能”:文生視頻模型Sora的技術(shù)可供性與現(xiàn)實(shí)表現(xiàn)
只有從現(xiàn)象學(xué)的視角出發(fā),人們才能獲得正確的術(shù)語以談?wù)撟鳛槭挛锉憩F(xiàn)語境的世界。這里要用到的第一個(gè)現(xiàn)象學(xué)術(shù)語叫意向相關(guān)項(xiàng)。在現(xiàn)象學(xué)理論中,意向相關(guān)項(xiàng)意指事物被體驗(yàn)的方式或被賦予的意義。意向相關(guān)項(xiàng)類似于詹姆斯·吉布森提出的可供性,后者用于解釋有機(jī)體在環(huán)境的支持或限制下展開行動(dòng)的可能性。[4]在技術(shù)哲學(xué)領(lǐng)域,可供性指的是技術(shù)為人們所能提供的服務(wù)資源及其限度。Sora是人工智能技術(shù)對(duì)現(xiàn)實(shí)世界的一種體驗(yàn)方式,后者賦予它在現(xiàn)實(shí)中的表現(xiàn)和意義。如果人工智能技術(shù)能讓Sora的某種行動(dòng)或表現(xiàn)成為可能,那么它就向Sora提供了一種可供性。智能技術(shù)的可供性決定了Sora實(shí)際上感知、理解世界和建構(gòu)視頻的方式和能力,也決定了Sora的可供性和現(xiàn)實(shí)表現(xiàn)。Sora的技術(shù)可供性主要體現(xiàn)為其技術(shù)上的進(jìn)步及其價(jià)值和意義,這并不純粹源于它的客觀屬性,還依賴于技術(shù)主體的屬性,正是人類這個(gè)意識(shí)主體的認(rèn)知資源即技術(shù)水平?jīng)Q定了Sora達(dá)到的高度。生成式人工智能的技術(shù)可供性為Sora的未來發(fā)展既提供了無限的可能,又在某種程度上限制它的現(xiàn)實(shí)表現(xiàn)。那么,生成式人工智能技術(shù)為Sora提供了哪些方面的可供性即意向相關(guān)項(xiàng)?Sora的現(xiàn)實(shí)表現(xiàn)又如何呢?
如果說以前的生成式人工智能如ChatGPT實(shí)現(xiàn)了從文字到文字、文字到圖片的靜態(tài)信息轉(zhuǎn)換和表達(dá),文生視頻則實(shí)現(xiàn)了在連續(xù)的時(shí)間序列中保持場景的一致性,能描述物體的動(dòng)態(tài)關(guān)系和光影變化,從而需要更強(qiáng)的時(shí)空建模能力和更高的算法技術(shù)。新一代文生視頻模型Sora則在此基礎(chǔ)上向前邁出了一大步,它不僅能將文字、圖片和視頻等數(shù)據(jù)轉(zhuǎn)換成高質(zhì)量的視頻,還突破了此前文生視頻受時(shí)長限制的瓶頸。Sora“按照預(yù)定的要求和規(guī)則,將用戶輸入的數(shù)據(jù)生成為特定的場景”,[5]通過復(fù)雜的深度學(xué)習(xí)模型,如生成對(duì)抗網(wǎng)絡(luò)和變分自編碼器,來捕捉動(dòng)態(tài)變化和細(xì)節(jié)。無論是飄動(dòng)的衣物還是水面倒影,Sora都能以接近真實(shí)物理世界的方式將其呈現(xiàn)出來。作為一款基于數(shù)據(jù)的物理模擬引擎,通過大規(guī)模的數(shù)據(jù)模型訓(xùn)練和數(shù)據(jù)驅(qū)動(dòng),Sora體現(xiàn)出對(duì)真實(shí)世界中的人、動(dòng)物和環(huán)境的不俗的模擬能力。總之,它能生成多個(gè)角色、特定類型的運(yùn)動(dòng)、背景復(fù)雜細(xì)膩的場景、綜合多樣的鏡頭運(yùn)動(dòng)、逼真的人物和生動(dòng)的角色表情等。借助世界模型,Sora理解真實(shí)世界的能力得到質(zhì)的提升,它可以描述簡單運(yùn)動(dòng)的物理規(guī)律,理解物體在物理世界中的存在方式,如演示視頻中真實(shí)的光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等,世界模型是其重要標(biāo)簽。Sora對(duì)語言有深入的理解,可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,精準(zhǔn)地保留角色和視覺風(fēng)格。無論是視頻的長度、真實(shí)性、穩(wěn)定性、連貫性、一致性、分辨率,還是對(duì)文本的理解,Sora均代表了目前文生視頻的最高水平?!癝ora具有三維空間的連貫性、模擬數(shù)字世界、長期連續(xù)性和物體持久性、與世界互動(dòng)的技術(shù)特點(diǎn),是文生視頻領(lǐng)域取得的重大進(jìn)步和突破?!盵6]
雖然OpenAI公司尚未發(fā)布Sora的公開使用版本,但人們可以通過其官方網(wǎng)站發(fā)布的48個(gè)演示視頻一睹Sora的技術(shù)魅力。其中有一個(gè)是根據(jù)文字“一位時(shí)尚女性自信且隨意地走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上”生成的長達(dá)60秒穩(wěn)定輸出的多鏡頭高清視頻(見圖1、圖2)。舉凡細(xì)膩的人物表情、復(fù)雜的場景、完美的服裝搭配、炫目的燈光效果,抑或清晰可見的積水街道上的建筑和人物的倒影、晃動(dòng)的耳環(huán)、飄動(dòng)的裙擺、人物臉上的雀斑、街道兩邊的廣告招牌和商鋪、各色路人等,無一不更新著人們對(duì)生成式人工智能——文生視頻創(chuàng)作能力的認(rèn)知。讓虛擬和現(xiàn)實(shí)融為一體的概念,真的不再是紙上談兵了。
盡管強(qiáng)大的智能技術(shù)讓Sora在理解人類語言和文字方面實(shí)現(xiàn)了質(zhì)的飛躍,并提供了理解、重建和模擬這個(gè)世界的可能性。但現(xiàn)象學(xué)的本質(zhì)還原告訴我們,技術(shù)不能擺脫其發(fā)展水平的限制,也無法等同于人的智力,Sora的可供性因此是有限的。艾倫·圖靈提出的具身智能指出,只有具備和人一樣的身體并與世界交互,才能完全理解物理世界的基本法則。意識(shí)一開始就是主體間性的,意向性來自人們互動(dòng)的意向性實(shí)踐。通過與他人的實(shí)際互動(dòng)而形成的意向性具有物理和社會(huì)的雙重屬性,恰如海德格爾所言,意向性意味著我們“在世界中存在”。人類生活在豐富多彩、變化萬千的生活世界中,那里是非科學(xué)的世界,充滿了偶然性、多變性和不可預(yù)測(cè)性。當(dāng)Sora以理論的方式對(duì)待事物時(shí),這種重要的或原始的在世界中存在的方式就被錯(cuò)失了。建立在數(shù)據(jù)模型基礎(chǔ)上的Sora主要同理想化和精確的對(duì)象打交道,沒有與生活世界發(fā)生交集,意向性無法形成,生成的是刻板的、模式化的虛擬世界或數(shù)字世界,其視頻也只是生活世界的摹本或副本,與豐富而深刻的真實(shí)世界差之千里,其意向相關(guān)項(xiàng)(意義等)相當(dāng)有限。例如,由于視頻包含了靜態(tài)圖像的空間信息和時(shí)間維度,要求文生視頻模型能夠理解和預(yù)測(cè)隨時(shí)間變化的動(dòng)態(tài)場景和事件,但目前的智能技術(shù)尚不具備這個(gè)可供性。
筆者也從該演示視頻中發(fā)現(xiàn)了不少技術(shù)空洞的痕跡,如圖2中的時(shí)尚女性表情(即便有微笑)單一僵硬且無變化,嘴巴(口型)、眼睛(眨眼等)等具有豐富微表情表達(dá)能力的部位也始終未發(fā)生哪怕是極為細(xì)小的變化;圖1中街道上行人的步態(tài)及頻率節(jié)奏基本一致,無速度和肢體動(dòng)作上的區(qū)別,顯示出虛擬數(shù)字人的同質(zhì)化痕跡。從整體上看,畫面上人物及其動(dòng)作還留有較深的動(dòng)漫印記??偟目磥恚玳_發(fā)Sora模型的OpenAI公司所言,Sora難以準(zhǔn)確模擬復(fù)雜場景的物理原理(如玻璃破碎),無法完成對(duì)事件因果關(guān)系的呈現(xiàn)和解釋,混淆了空間細(xì)節(jié),不能精確描述隨著時(shí)間推移發(fā)生的事件等。那么,Sora現(xiàn)實(shí)表現(xiàn)的不足和缺陷背后的原因是什么?現(xiàn)象學(xué)的時(shí)間性理論或許能從哲學(xué)層面上指點(diǎn)迷津。
二、外在時(shí)間性結(jié)構(gòu)殘缺:Sora無法描述復(fù)雜事件和完成情節(jié)敘事
現(xiàn)象學(xué)研究的所有事物,包括意向?qū)ο蠡蛞庀蚧顒?dòng),都滲透著時(shí)間。正是在時(shí)間性領(lǐng)域,現(xiàn)象學(xué)達(dá)到了被它考察的事物的第一原理的高度。時(shí)間性結(jié)構(gòu)也適用于所有的主觀和客觀的事物。現(xiàn)象學(xué)認(rèn)為,時(shí)間性包括世界時(shí)間(客觀時(shí)間)、內(nèi)時(shí)間(主觀時(shí)間)和內(nèi)在時(shí)間意識(shí)三個(gè)結(jié)構(gòu)層次。然而,生成式人工智能都是以數(shù)據(jù)為基礎(chǔ),“數(shù)據(jù)是智能成長的‘營養(yǎng)或技術(shù)推進(jìn)的‘燃料”。[7]Sora也不例外,其技術(shù)原理是,先將大量的視頻數(shù)據(jù)集壓縮到一個(gè)低維潛在空間,然后將其分解為時(shí)空嵌入,從而將視頻轉(zhuǎn)化為一系列的編碼塊(視覺塊嵌入代碼),相當(dāng)于小方塊的形式,最后,Sora再根據(jù)客戶提供的文字描述提取包含時(shí)間和空間信息的小方塊生成新的視頻。Sora內(nèi)容生產(chǎn)所依賴的技術(shù)主要是算量、算法和算力,在規(guī)則和技術(shù)理性中將現(xiàn)實(shí)世界簡化為模型,將抽象的問題變成可以量化、計(jì)算的對(duì)象。如此一來,作為沒有意識(shí)和意向性(依靠人類將意向性設(shè)計(jì)在模型中)的技術(shù)載體,Sora只具有客觀時(shí)間,而不能自主地運(yùn)用主觀時(shí)間和內(nèi)在時(shí)間意識(shí)來呈現(xiàn)事件和組織事件。外在時(shí)間性結(jié)構(gòu)的殘缺,導(dǎo)致Sora在呈現(xiàn)事件和事件關(guān)系以及構(gòu)建情節(jié)方面無能為力。
(1)沒有主觀時(shí)間的參與,Sora難以呈現(xiàn)復(fù)雜的事件。主觀時(shí)間“屬于心靈活動(dòng)和經(jīng)驗(yàn)即意識(shí)生活事件的綿延和序列”,[8]主體的意向和感覺按照時(shí)間順序被安排的方式都發(fā)生在主觀時(shí)間中,它圍繞著知覺、感覺經(jīng)驗(yàn)、回憶、想象等活動(dòng)展開。作為一種現(xiàn)象,客觀時(shí)間依賴于主觀時(shí)間,事件或事物之所以能用鐘表來度量從而成為一個(gè)持續(xù)性的存在,是因?yàn)槲覀冎饔^經(jīng)驗(yàn)到一連串心理活動(dòng)。正是因?yàn)橹黧w擁有主觀的內(nèi)時(shí)間,客觀時(shí)間的流動(dòng)才得以對(duì)世界呈現(xiàn)。對(duì)于世界時(shí)間的顯現(xiàn)而言,我們意識(shí)經(jīng)驗(yàn)的時(shí)間之流是顯現(xiàn)得以進(jìn)行的前提。
其一,由于主觀時(shí)間的缺席,Sora無法模仿人類感覺經(jīng)驗(yàn)生成回憶、夢(mèng)境、心理活動(dòng)、幻想、想象等內(nèi)容,難以完成對(duì)復(fù)雜而有意義的事件的敘述。如果Sora既不預(yù)期也不回憶,也就不可能把事件組織成時(shí)間性模式。事件的真相、結(jié)果、意義或發(fā)展趨勢(shì)依賴于主觀時(shí)間上的記憶、心理活動(dòng)、想象等協(xié)同完成,以形成豐富的意義極。敘事不僅是對(duì)過去的回顧,還在前瞻的意向中形成,包含著對(duì)未來可能發(fā)生也可能不發(fā)生的一些行動(dòng)的敘事。[9]即便這些事件可能發(fā)生在過去,抑或發(fā)生在將來,甚至從未發(fā)生過,它們都處于與敘事者的時(shí)間關(guān)系中。這正是Sora不能解釋事件因果關(guān)系和描述復(fù)雜物理事件的原因,演示視頻中也只能展現(xiàn)人物簡單的動(dòng)作(漫步)。其二,Sora不能描述人物的心理體驗(yàn),人物形象塑造的方式單一。Sora對(duì)時(shí)間的體驗(yàn)只有物理時(shí)間而沒有心理時(shí)間。作為心靈的體驗(yàn),心理時(shí)間依賴于主觀時(shí)間(正是Sora不具備的)的存在。在日常生活中,我們有時(shí)候埋怨時(shí)間漫長,有時(shí)候卻責(zé)怪時(shí)光倏忽,這不過是主觀時(shí)間帶給我們的一種心理感受而已。Sora無法像影視制作的編導(dǎo)們那樣,將事件實(shí)際發(fā)生的時(shí)間延長數(shù)倍表現(xiàn)劇中人物的煎熬或無聊,或?qū)?shí)際時(shí)間進(jìn)行壓縮表現(xiàn)時(shí)光易逝和某些人類用肉眼不易覺察的動(dòng)作或細(xì)節(jié),或省略掉無敘事價(jià)值的時(shí)間等。因此,不能處理主觀時(shí)間數(shù)據(jù)模型的Sora無法通過生成相關(guān)場景和事件來描述或呈現(xiàn)人物的心理時(shí)間。演示視頻中的女性的自信和愜意可以從步態(tài)和輕松愉悅的表情中看出,但Sora卻無法通過主觀時(shí)間營造具體場景或鏡頭來展示她的內(nèi)心世界和情感。
(2)內(nèi)在時(shí)間意識(shí)的缺席導(dǎo)致Sora無法解釋事件之間的關(guān)系,難以完成復(fù)雜敘事并建構(gòu)有意義的情節(jié)。內(nèi)在時(shí)間意識(shí)是對(duì)主觀時(shí)間的內(nèi)在時(shí)間性的覺察或意識(shí),是主觀時(shí)間顯現(xiàn)的條件,其建構(gòu)意識(shí)生活中所發(fā)生的各種行為的時(shí)間性,并使得這些內(nèi)在對(duì)象的顯現(xiàn)按照時(shí)間來排序。換言之,主觀時(shí)間事件需要內(nèi)在時(shí)間意識(shí)來組織和安排,后者被賦予一種形而上的優(yōu)先性,極具思辨色彩。只有時(shí)間性的三個(gè)層次同時(shí)在場并形成一個(gè)閉環(huán),才能形成主體的意向性并完成對(duì)復(fù)雜事件的完整敘述。敘事要求具有一種元認(rèn)知能力,即與自身感覺體驗(yàn)拉開一種反思的距離的能力。在拉開反思距離后,Sora要想塑造有意義的情節(jié),完成自身敘事,不單是機(jī)械地在保存有大量視頻數(shù)據(jù)的模型庫尋找和提取某些生活事件并簡單地拼接在一起,而是需要反思性、選擇性地提煉事件的意義,并決定如何將它們按照自身的意圖有序地組織在一起。事件的意義依賴于Sora用以展示這些事件之間關(guān)系的敘事結(jié)構(gòu),從好的敘事結(jié)構(gòu)中還可以獲得超越事件本身的意義。世界本身是以有序的時(shí)間方式被建構(gòu)的,但我們體驗(yàn)這種秩序的方式卻取決于Sora的體驗(yàn)建構(gòu)方式,而這需要Sora運(yùn)用內(nèi)在時(shí)間意識(shí)才能完成。
Sora內(nèi)在時(shí)間意識(shí)的缺失,導(dǎo)致其在將事件組織成一個(gè)有意義的順序(情節(jié))方面束手無策,這就是它無法解釋事件的前因后果和來龍去脈的原因。在理想狀態(tài)下,Sora可以像影視片制作人一樣,先呈現(xiàn)某事件的當(dāng)前狀態(tài),然后通過一個(gè)閃回去描述它過去的狀態(tài),從而解釋事件發(fā)展的原因和經(jīng)過,讓受眾收獲若有所思或恍然大悟的情緒體驗(yàn)。影視劇情節(jié)的張弛有致、波瀾起伏、懸念迭起,依靠的就是非線性的敘事結(jié)構(gòu),這是Sora目前無法做到的。影視工作者大可不必自危,創(chuàng)意性的剪輯工作不是目前階段的智能技術(shù)所能取代的?!皬脑瓌?chuàng)意義上說,人工智能具有從屬的性質(zhì),是基于人的創(chuàng)造而形成和發(fā)展的。‘器屬于工具或手段的層面,而人工智能并未超出這一性質(zhì)?!盵10]如果將上面演示視頻的文本輸入變?yōu)椤耙晃粫r(shí)尚的女性因?yàn)橐颓槿思s會(huì)自信而歡快地走在大街上,昨天與同事吵架的不愉快也隨之煙消云散”,情況就大不一樣了。對(duì)于單獨(dú)呈現(xiàn)“時(shí)尚女性走在大街上”“和情人約會(huì)”“與同事吵架”這三個(gè)事件來說,Sora可能沒有太大的困難,但要根據(jù)該女性目前的情緒表現(xiàn)來組織和安排三件事的時(shí)間順序的話,Sora就會(huì)捉襟見肘、窮于應(yīng)付了,難以生成符合邏輯、能解釋事件原委的視頻。再加上生成視頻時(shí)長的限制,圓滿地完成這項(xiàng)工作還必須借助人工剪輯。因此,遵循智能敘事的Sora既無法形成對(duì)復(fù)雜時(shí)間性事件的完整敘述和情節(jié)建構(gòu),又無法達(dá)成對(duì)世界的實(shí)際把握和深度認(rèn)知。
Sora時(shí)間性結(jié)構(gòu)“陣容”的殘缺導(dǎo)致其時(shí)間排序能力有限,只能描述客觀時(shí)間性事件,完成一個(gè)內(nèi)在于敘事本身的時(shí)間框架,即一個(gè)按照時(shí)間發(fā)生的事件的系列次序。這注定Sora只能停留在線性敘事的層面上,如描述具體的場景、人物、物體及其運(yùn)動(dòng),生成簡單和具有連續(xù)性動(dòng)作的畫面。在前述長達(dá)1分鐘的演示視頻里,盡管場景和細(xì)節(jié)逼真細(xì)膩,但也僅僅展示了時(shí)尚女性和行人漫步街頭的畫面,沒有生成任何有意義的事件。但在真正的敘事中,尤其是虛構(gòu)性敘事(影視、小說)中,為了營造各種戲劇性效果,人們往往在時(shí)間排序上采用多種手段,如文學(xué)中的倒敘、插敘、分?jǐn)ⅲ耙曋械拿商娴戎饔^內(nèi)在意識(shí)手法。在這種外在敘事的時(shí)間框架中,Sora無法將一系列具有確定的客觀次序的事件無序地呈現(xiàn)出來,盡管這種無序呈現(xiàn)經(jīng)常以多種方式和原因被人們使用。
三、內(nèi)在時(shí)間性結(jié)構(gòu)殘缺:Sora難以呈現(xiàn)因果應(yīng)答和動(dòng)態(tài)生成的事件
知覺必須伴隨最近的記憶行為和預(yù)期行為,關(guān)于過去和未來的原始感覺必須從一開始就被給予。我們直接的時(shí)間經(jīng)驗(yàn)包含一個(gè)內(nèi)在的時(shí)間性結(jié)構(gòu),它不只是擁有被給予的當(dāng)下的畫面,還擁有直接被給予的關(guān)于過去和未來的感覺,既延伸到過去,也指向未來?,F(xiàn)象學(xué)用一個(gè)專門的術(shù)語“活的當(dāng)下”意指我們?cè)谌魏螘r(shí)刻擁有的對(duì)于時(shí)間性的充實(shí)體驗(yàn),它由原印象、滯留和前攝三個(gè)要素組成。因此,“活的當(dāng)下”包含著對(duì)在先的、后繼的、當(dāng)下的參照和容納,孤立地談?wù)摐?、原印象、前攝中的任意一個(gè)要素,都會(huì)陷入一種抽象。例如,任何原印象都包含滯留和前攝的結(jié)果,三者相輔相成,共同構(gòu)成“活的當(dāng)下”。但Sora模型設(shè)計(jì)的內(nèi)在時(shí)間性結(jié)構(gòu)不完整,即滯留和前攝兩個(gè)部分是缺席的,以至于它在表達(dá)內(nèi)在時(shí)間性方面心余力絀。
首先,僅具有原印象的Sora由于內(nèi)在時(shí)間性結(jié)構(gòu)殘缺,無法呈現(xiàn)因果應(yīng)答。滯留指向過去的時(shí)間背景,提供了一種對(duì)持存對(duì)象剛剛消失階段的意識(shí);前攝則指向?qū)淼臅r(shí)間背景,它以一種不確定的方式預(yù)期了某個(gè)或某些將被體驗(yàn)的東西;至于原印象,胡塞爾認(rèn)為,它具有“現(xiàn)在”一詞所指的內(nèi)容,[11]“現(xiàn)在”是“通過持留‘先前、預(yù)期‘后來看到運(yùn)動(dòng)本身”。[12]Sora將運(yùn)動(dòng)視為只局限于孤立的原印象的物理事件,因果關(guān)系問題便產(chǎn)生了。在Sora生成的視頻中,身體運(yùn)動(dòng)和行動(dòng)沒有與生俱來的或內(nèi)在的時(shí)間性。亨利·希德在對(duì)身體圖式的定義中指出,身體圖式以這樣一種方式動(dòng)態(tài)地組織感覺運(yùn)動(dòng)反饋,從而使得對(duì)位置的最終感覺“與之前發(fā)生的事情建立起了一種關(guān)聯(lián)”。[13]梅洛-龐蒂也認(rèn)為,運(yùn)動(dòng)是一種將過去的時(shí)刻和現(xiàn)在的時(shí)刻進(jìn)行整合的活動(dòng),“在運(yùn)動(dòng)的每個(gè)連續(xù)瞬間,都不能忽略前續(xù)的瞬間。就好像前續(xù)的瞬間融入了現(xiàn)在的瞬間”。[14]動(dòng)作的發(fā)出和實(shí)現(xiàn)的結(jié)果在現(xiàn)象學(xué)上是融合在一起的。然而,在依靠視頻數(shù)據(jù)驅(qū)動(dòng)的Sora的時(shí)間結(jié)構(gòu)中,只保留了原印象,失去了過去和將來的參與。這種當(dāng)前的、殘缺的原印象既無對(duì)過去動(dòng)作與事件的保留,也失去了刺激如何發(fā)揮作用的生成預(yù)期,導(dǎo)致視頻先前的畫面與后面將要生成的畫面失去了關(guān)聯(lián)。演示視頻中的事件與事件、動(dòng)作與結(jié)果之間失去了邏輯聯(lián)系,這也是Sora無法呈現(xiàn)因果應(yīng)答的原因,即只有前因沒有后果。
因此,在Sora生成的演示視頻中,不合邏輯的現(xiàn)象比比皆是:一位壽星吹生日蛋糕上點(diǎn)燃的蠟燭,燭焰紋絲不動(dòng);車輛高速駛過積水很深的街道,卻沒有任何水花濺起;被大咬一口的蘋果竟然完好無損……在這里,主體所預(yù)期的東西沒有被他當(dāng)前正在執(zhí)行的動(dòng)作所實(shí)現(xiàn)(動(dòng)作沒有產(chǎn)生結(jié)果或反應(yīng)),觀眾自然無法在畫面看到行動(dòng)產(chǎn)生的結(jié)果或后果。一方面是滯留的缺席:先前的動(dòng)作在消逝中沒有滯留而是被Sora的“意識(shí)”擁有,“每一個(gè)現(xiàn)時(shí)最直接的滯留不僅是對(duì)正好過去著的——過去之物的一同當(dāng)下具有,而且也是對(duì)蘊(yùn)含在其中的剛才——過去之物的滯留”,[15]從而導(dǎo)致Sora無法將過去的經(jīng)驗(yàn)融入當(dāng)下,吹、行駛、咬等動(dòng)作的指向性中斷,與蠟燭、積水和蘋果失去了關(guān)聯(lián),燭焰、積水和蘋果也就沒有任何變化;還有的演示視頻中出現(xiàn)了奔跑的狼群數(shù)量隨著時(shí)間推移無緣無故地減少了的前后不一致的現(xiàn)象。另一方面是前攝的缺席:如果Sora擁有前攝功能,它不僅會(huì)幫助我們有意識(shí)地預(yù)期后續(xù)部分,還會(huì)預(yù)期我們對(duì)即將發(fā)生的事件的體驗(yàn)。在喪失了前攝功能后,Sora不能作出預(yù)期判斷和發(fā)出指令,燭焰、積水和蘋果也自然無法產(chǎn)生程序上的呼應(yīng),故自巋然不動(dòng)或毫發(fā)無損。演示視頻中還出現(xiàn)另一種不連貫的現(xiàn)象,即當(dāng)那位時(shí)尚女性回首或側(cè)首看向別的地方時(shí),鏡頭并沒有跟著其觀看方向進(jìn)行轉(zhuǎn)動(dòng),畫面上也就沒有出現(xiàn)目光所及的相應(yīng)區(qū)域(見下頁圖3、圖4)。這種不連續(xù)性也是Sora沒有解決技術(shù)上前攝的缺席所造成的,因而,Sora不能讓身體系統(tǒng)以時(shí)間的方式去組織其信息處理過程和行為,預(yù)期能力的喪失也使得它對(duì)即將發(fā)生的事情失去了實(shí)踐的定位能力。按常理,就在那位時(shí)尚女性看向左邊或右邊時(shí),技術(shù)成熟的生成式人工智能應(yīng)該給出預(yù)判,指示鏡頭轉(zhuǎn)向目光覆蓋的方向。正如我們彎腰去撿地面上的東西時(shí),身體會(huì)預(yù)料到自身重心和角度即將發(fā)生變化,因而會(huì)適時(shí)作出調(diào)整,避免失去平衡。這就是具身行動(dòng)與智能人的技術(shù)具身行動(dòng)的區(qū)別所在。滯留和前攝同時(shí)缺席導(dǎo)致Sora分不清方位,混淆空間位置。遺憾的是,代表目前生成式人工智能最高水平的Sora還未能攻克這一技術(shù)難題。
其次,原印象、滯留和前攝的組合不是簡單的疊加,而是處在一種發(fā)生的關(guān)系中,其構(gòu)成模式也是一個(gè)動(dòng)態(tài)的過程,三者處于一個(gè)不斷生成的結(jié)構(gòu)中。換言之,原印象、滯留和前攝對(duì)彼此都有一種構(gòu)造自身的影響。就如同人類理解他人不是通過采取一種觀察者的立場,也不是試圖根據(jù)其心理狀態(tài)對(duì)其行為作出解釋的方式,而是在與之工作、嬉戲或互動(dòng)交流的共享情境中理解他人的。所以,在非人工智能生成的視頻中,能看到人物豐富而復(fù)雜的情感表現(xiàn)、多變的言行舉止等。影視劇中人物喜怒哀樂的情感變化,豐富的肢體語言和潛臺(tái)詞的運(yùn)用,都是隨著情節(jié)進(jìn)展、情境變化,原印象、前攝和滯留互動(dòng)生成的結(jié)果。演員的價(jià)值就體現(xiàn)在這個(gè)生成的過程中,其必須根據(jù)劇情的推進(jìn)不斷表演出相應(yīng)的面部表情、做出合適的動(dòng)作和說出應(yīng)景的臺(tái)詞。
然而,從人生成內(nèi)容到人工智能生成內(nèi)容,文生視頻重構(gòu)了內(nèi)容生產(chǎn)的底層邏輯。如前所述,Sora是通過視頻、圖片等多模態(tài)數(shù)據(jù)來理解世界的。它根據(jù)文本指令,通過算法把由視頻轉(zhuǎn)換而來的編碼塊進(jìn)行組合,這種僵硬機(jī)械地生成視頻的組合方式,不是生成性地與世界打交道。Sora創(chuàng)建的原印象是自給自足的,而不是在與滯留和前攝的動(dòng)態(tài)關(guān)聯(lián)中發(fā)生的,沒有三者共同構(gòu)成與被體驗(yàn)世界進(jìn)行一種更廣泛的生成互動(dòng)的可能性,它呈現(xiàn)的只是一個(gè)接一個(gè)的原印象,“這種單個(gè)感知所給予的范例性的個(gè)別之物是一種實(shí)象的現(xiàn)在的當(dāng)下之物”,[16]沒有實(shí)際上的可供性。它的輸出可能是公式化的,可能會(huì)單調(diào)乏味、缺乏想象力。感知從來不是單純的瞬間擁有,而是過渡中或時(shí)間視域中的當(dāng)下具有。沒有視頻數(shù)據(jù)動(dòng)態(tài)生成的技術(shù)支撐,Sora自然無法精確描述隨著時(shí)間推移發(fā)生的事件,只有低級(jí)的重復(fù),而沒有新的事件產(chǎn)生以及隨著事件進(jìn)展而發(fā)生的表情和肢體動(dòng)作變化。在前述1分鐘的演示視頻中,街道上的行人自始至終以同樣的速度、節(jié)奏和步態(tài)行走;因?yàn)闆]有對(duì)即將發(fā)生的事件的預(yù)期體驗(yàn),時(shí)尚女性的表情單一,沒有任何情緒上的變化,智能人的真實(shí)面目原形畢露。在時(shí)間的流逝中,除了人物在漫無目的地行走外,沒有發(fā)生任何其他有意義的事件(情節(jié))。換在由原印象、滯留和前攝動(dòng)態(tài)生成的環(huán)境中,情況則完全不同,里面的人物會(huì)隨著時(shí)間推移、周圍環(huán)境的變化,或者是新事件的發(fā)生,發(fā)生面部表情、步態(tài)、肢體動(dòng)作乃至情緒等方面的變化,如表情可能經(jīng)歷微笑—嚴(yán)肅—驚訝—憤怒,步速由急趨緩,由緩到停,或是相反。在人工拍攝制作的影視劇中,具身演員在情感波動(dòng)比較劇烈或情感張力比較大的戲份中表現(xiàn)出來的情感,是Sora模型塑造的數(shù)字人/智能人無法比擬和完成的。生成式人工智能模型Sora“并不能共享所有人類的藝術(shù)靈感或創(chuàng)作意圖,也無法復(fù)制人類的生活體驗(yàn)”。[17]且觀眾對(duì)具身演員也有一定的情感投射,這種潛在的情感互動(dòng)是數(shù)字人所不具備的。相反,觀眾會(huì)和Sora生成的表情刻板而缺少變化的虛擬人物保持一定的心理和審美距離,從而大大影響他們的情感投入和審美經(jīng)驗(yàn)。文生視頻模型Sora很難呈現(xiàn)復(fù)雜和動(dòng)態(tài)的情感表達(dá),遑論引起觀眾共情了。盡管Sora能對(duì)提供的文字圖片進(jìn)行理解,并根據(jù)相應(yīng)的物理原理在時(shí)空上向過去或未來推演,但這種推演還是基于對(duì)視頻數(shù)據(jù)模型的刻板應(yīng)用?!伴L期來看,需要用心制作的作品,依舊很難用芯完成?!盵18]
四、思考與討論
以上主要從現(xiàn)象學(xué)角度分析了文生視頻模型Sora的現(xiàn)實(shí)表現(xiàn),重點(diǎn)是從時(shí)間性角度對(duì)Sora存在的缺陷與不足進(jìn)行了哲學(xué)思考。由于外在時(shí)間性結(jié)構(gòu)和內(nèi)在時(shí)間性結(jié)構(gòu)的殘缺,Sora無法解釋和呈現(xiàn)因果關(guān)系的事件,不能用場景描述人類的心理時(shí)間,也難以精確地描述隨時(shí)間推移發(fā)生的事件。目前看來 ,Sora生成的視頻在長度、人物情感表達(dá)、事件解釋和呈現(xiàn)以及情節(jié)構(gòu)建方面與人工制作的視頻差距巨大。盡管生成式人工智能標(biāo)榜將創(chuàng)造安全的通用人工智能使全人類受益,[19]但受限于數(shù)據(jù)庫的代表性偏差問題,解決文生視頻技術(shù)上的一系列問題尚需假以時(shí)日。由于現(xiàn)象學(xué)時(shí)間性涉及意識(shí)和意向性,不能僅僅依靠擴(kuò)大視頻數(shù)據(jù)庫模型的數(shù)量(視覺塊嵌入代碼),還需要從技術(shù)上解決Sora數(shù)據(jù)模型的意向性實(shí)踐和意向性設(shè)計(jì)問題,進(jìn)而完善其時(shí)間性結(jié)構(gòu)。相信隨著人工智能技術(shù)的發(fā)展,該問題有望逐步解決。所幸的是,OpenAI公司也非常注意評(píng)估Sora應(yīng)用中的危害和風(fēng)險(xiǎn),如社會(huì)責(zé)任和倫理問題,并開始通過向特定的用戶群體提供服務(wù),以獲得反饋對(duì)模型進(jìn)行持續(xù)改進(jìn),這也是普通大眾的殷殷期盼。
參考文獻(xiàn):
[1] 肖偉. 文生視頻技術(shù)日趨成熟 短劇創(chuàng)作或?qū)⑹芤鎇N]. 證券日?qǐng)?bào),2023-11-20(A3).
[2] 黃锫堅(jiān),曾國屏,孫喜杰,等. 賽博空間的哲學(xué)探索[M]. 北京:清華大學(xué)出版社,2002:61.
[3] 孫那,鮑一鳴. 生成式人工智能的科技安全風(fēng)險(xiǎn)與防范[J]. 陜西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2024(1):108-121.
[4] 孫凝翔,韓松. “可供性”:譯名之辯與范式 / 概念之變 [J].? 國際新聞界,2020(9):122-141.
[5] 何文英. 文生視頻軟件Pika火出圈,或推動(dòng)AIGC加速融入多種業(yè)態(tài)[N]. 證券日?qǐng)?bào),2023-12-04(B3).
[6] 羅茂林. Sora出世 人工智能將引領(lǐng)新一輪行業(yè)變革[N]. 上海證券報(bào),2024-02-19(6).
[7] 彭蘭. 從ChatGPT透視智能傳播與人機(jī)關(guān)系的全景及前景[J]. 新聞大學(xué),2023(4): 1-16,119.
[8] 羅伯特·索科拉夫斯基. 現(xiàn)象學(xué)導(dǎo)論[M]. 張建華,高秉江,譯. 上海:上海文化出版社,2021:145.
[9] 肖恩·加拉格爾. 現(xiàn)象學(xué)導(dǎo)論[M]. 張浩軍,譯. 北京:中國人民大學(xué)出版社,2021:155.
[10] 楊國榮. “生成式人工智能”(AIGC)及其哲學(xué)意蘊(yùn)[J]. 上海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2024(1):110-115.
[11] Husserl E. On the Phenomenology of the Consciousness of Internal Time(1893—1917)[M]. Dordrecht: Kluwer Academic Publishers, 1991: 67.
[12] 馬丁·海德格爾. 現(xiàn)象學(xué)之基本問題[M]. 丁耘,譯. 北京:商務(wù)印書館,2022:319.
[13] Head H. Studies in Nuerology[M]. London:Oxford University Press, 1920: 606.
[14] Merleau-Ponty M. Phenomenology of Percetion[M]. London: Routledge and Kegan Paul, 1962: 140.
[15] 克勞斯·黑爾德. 活的當(dāng)下[M]. 鮑克偉,肖德生,譯. 北京:商務(wù)印書館,2020:35.
[16] 埃德蒙德·胡塞爾. 現(xiàn)象學(xué)的觀念[M]. 倪梁康,譯. 北京:商務(wù)印書館,2017:80.
[17] 高永杰,呂欣. 生成式AI技術(shù)進(jìn)化與圖像藝術(shù)生產(chǎn)范式革新[J]. 現(xiàn)代傳播,2023(9):159-168.
[18] 樊巍,劉揚(yáng),劉彩玉. “眼見為實(shí)”或成過去,AI“文生視頻”如何改變未來[N]. 環(huán)球時(shí)報(bào),2024-02-18(4).
[19] 何祎金. 生成式人工智能技術(shù)治理的三重困境與應(yīng)對(duì)[J]. 北京工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2024(2):124-134.
The Temporal Structure of Text-to-Video Model Sora: A Phenomenological Reflection on Generative Artificial Intelligence
DENG Zhi-wen(School of Humanities and Media, Hubei University of Science and Technology, Xianning 437100, China)
Abstract: Recently, OpenAI launched Sora, a model that represents the current pinnacle of text-to-video technology, marking a milestone in the evolution of generative artificial intelligence. However, Sora still has some technical flaws and shortcomings. From a phenomenological perspective, Sora's external temporal structure is incomplete, featuring only objective time, lacking subjective time and inner time consciousness, which prevents it from depicting human psychological time, explaining causal relationships, and constructing complex, meaningful events and plots. Moreover, the absence of retention and fore-shoot hinders its ability to link actions with outcomes. Without the intervention of the internal temporal dynamic generation structure, Sora is also difficult to show the events that occur over time. Therefore, from a technical standpoint, addressing the model's intentional design issues and enhancing both the internal and external temporal structures become the key to improving Sora's performance in reality.
Key words: text-to-video; Sora; temporal structure; generative artificial intelligence; phenomenology; retention and fore-shoot