文_陳光
2024 年2 月16 日,OpenAI 發(fā)布了其首個文生視頻模型Sora。這一突破性模型的發(fā)布在行業(yè)內(nèi)引起了轟動,重新定義了當前AI 文生視頻技術(shù)的極限,徹底顛覆了生成式AI 在視頻領(lǐng)域的全球市場格局。Sora不僅僅是一個技術(shù)突破,更是對人類敘事方式的一次深刻挑戰(zhàn),預(yù)示著內(nèi)容生產(chǎn)領(lǐng)域未來的無限可能,也讓我們對通用人工智能(AGI)的進步更加期待。
在此之前,盡管AI在圖像和音頻生成方面取得了令人矚目的成果,但高質(zhì)量、長時間的視頻生成仍是一個難以攀越的峰頂。Sora的出現(xiàn),一次性將視頻生成時長提升了15倍,達到60秒,遠超行業(yè)水平。不但如此,Sora還能生成復(fù)雜的多機位視頻,場景連貫,角色豐滿,細節(jié)精致,幾乎可以與現(xiàn)實中的場景媲美,這在以往的技術(shù)中是難以想象的。這種能力不僅極大提高了視頻內(nèi)容的創(chuàng)作效率,也為內(nèi)容創(chuàng)作者提供了前所未有的自由度。想象一下,只需輸入一段描述,Sora 就能為你呈現(xiàn)出一個完整、生動的故事場景,這無疑將極大地激發(fā)創(chuàng)作者的想象力和創(chuàng)造力。
用文字自動生成視頻,其技術(shù)難點主要體現(xiàn)在如何處理并理解視覺信息的高維特性和動態(tài)變化。視頻不僅包含了靜態(tài)圖像的空間信息,還包含時間序列上的動態(tài)信息,因此對計算資源和模型處理能力的要求極高。實現(xiàn)這一技術(shù)需要借助深度學(xué)習(xí)中的生成模型,如擴散模型(Diffusion Model),以及強大的時空變換架構(gòu),例如Transformer。Sora能驚艷亮相,其背后得益于以下方面取得的技術(shù)突破:首先,Sora 采用了將視頻和圖像數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示形式的方法,使得模型能在大規(guī)模數(shù)據(jù)集上進行訓(xùn)練;其次,模型能處理不同持續(xù)時間、分辨率和寬高比的視覺數(shù)據(jù);再次,Sora 利用了擴散Transformer(Diffusion Transformer)結(jié)構(gòu),成功將擴散模型與Transformer結(jié)合起來,以有效處理視頻數(shù)據(jù);最后,Sora在語言理解方面也有所突破,通過DALL·E 3 中采用的視頻再描述(re-captioning)技術(shù)獲得大量配有描述文本的訓(xùn)練視頻數(shù)據(jù),進而提高了文本到視頻生成系統(tǒng)的質(zhì)量。這些技術(shù)能力的結(jié)合,使得Sora能根據(jù)文本提示生成高保真度的視頻內(nèi)容。
除了在長度和質(zhì)量上的量級飛躍,我們還可以從Sora 生成的視頻中,看到它對真實世界物理規(guī)律、運動規(guī)律的部分掌握和遵循,也就是所謂的“世界模型”能力。比如,Sora 生成的視頻中,走路的人會帶起塵土,畫家的筆畫會留在畫布上,這表明Sora 已經(jīng)初步具備通過學(xué)習(xí)對現(xiàn)實世界進行有限的模擬。它不再是簡單地拼湊現(xiàn)成的視頻數(shù)據(jù),而是試圖預(yù)測物體運動對環(huán)境的影響,這為構(gòu)建能像人一樣感知并交互的通用智能奠定了基礎(chǔ)。
OpenAI 在Sora 官方技術(shù)報告中提出“用視頻生成模型作為世界模擬器”,其核心思想在于利用Sora強大的視頻生成能力,創(chuàng)造一個虛擬世界。這個世界可以高度還原甚至超越現(xiàn)實,為人工智能提供一個無限寬廣、可控制且安全的實驗和學(xué)習(xí)空間。在這個模擬環(huán)境中,人工智能可以接受各種任務(wù)和挑戰(zhàn),通過與虛擬世界的互動學(xué)習(xí),不僅能理解物理規(guī)律和世界運行法則,還能進行決策訓(xùn)練、策略優(yōu)化和行為預(yù)測。Sora的文本到視頻映射能力,使這個世界模擬器可以通過自然語言來控制和指導(dǎo),大幅降低了模擬器的使用門檻,擴大了其應(yīng)用范圍。此外,Sora 生成的高保真視頻,使得模擬世界可以非常真實地反映出復(fù)雜的環(huán)境動態(tài),這對于自動駕駛、虛擬現(xiàn)實、機器人學(xué)習(xí)等領(lǐng)域的研究與發(fā)展具有重大意義。因此,Sora不僅僅是視頻生成的工具,更擁有成為下一代人工智能研究和開發(fā)平臺的巨大潛力。
世界模擬器是實現(xiàn)AGI的一個潛在工具。AGI需要能理解和操作物理世界,世界模擬器提供了一個虛擬環(huán)境,AGI可以在其中學(xué)習(xí)物理規(guī)律、社交規(guī)則和其他復(fù)雜的系統(tǒng)動態(tài),進而無風險地探索和理解現(xiàn)實世界的復(fù)雜性。
世界模擬器雖然是實現(xiàn)AGI 的一種強有力的手段,但是不是通向AGI 的必由之路還有待商榷。AGI的發(fā)展可能需要多種技術(shù)和方法的結(jié)合,包括知識表示、推理、規(guī)劃、學(xué)習(xí)、感知和操控等多個方面的進展。世界模擬器可能是這個廣泛技術(shù)組合中的一部分,但未必是唯一或者必要的路徑。然而,世界模擬器無疑為AGI 提供了一個重要的實驗平臺,有助于推動AI朝著更通用、更高層次的智能發(fā)展。
Sora 的問世,不僅提供了顛覆性的視頻生成工具,也為各行各業(yè)帶來了前所未有的創(chuàng)新潛力和變革機遇。
在創(chuàng)意視頻行業(yè),Sora能極大減輕視頻制作的工作量和技術(shù)門檻。傳統(tǒng)的視頻制作需要編劇、導(dǎo)演、攝影師、演員等多方合作完成,耗費時間長、成本高。Sora可以通過理解簡單的文本描述,自動生成視頻內(nèi)容。這讓小型創(chuàng)意工作室甚至個人創(chuàng)作者也能以較低的成本制作高質(zhì)量的視頻作品,極大地激發(fā)了創(chuàng)意產(chǎn)業(yè)的活力。
在教育領(lǐng)域,Sora 可以根據(jù)教學(xué)內(nèi)容需求,創(chuàng)造出生動的教學(xué)視頻,使抽象的知識點變得形象易懂,增強學(xué)習(xí)的趣味性和有效性。學(xué)生們可以通過觀看由AI 生成的教育視頻,獲得更加直觀的學(xué)習(xí)體驗,這對于提高教學(xué)效果、激發(fā)學(xué)生興趣將起到積極作用。
在醫(yī)療領(lǐng)域,Sora的應(yīng)用同樣具有重要價值。例如,它能生成手術(shù)過程的仿真視頻,幫助醫(yī)學(xué)生和專業(yè)醫(yī)生在無風險的環(huán)境中進行學(xué)習(xí)和培訓(xùn),可以提高手術(shù)技能的學(xué)習(xí)效率,降低實際操作中的風險。
對于電影和游戲產(chǎn)業(yè),Sora的視頻生成能力將開辟全新的創(chuàng)作可能性。它可以快速生成復(fù)雜的特效場景或者角色動畫,減少人工制作的需求,使得電影和游戲的生產(chǎn)成本大幅度降低,同時還能加快產(chǎn)品從構(gòu)思到市場的過程。
此外,在新聞報道、旅游、房地產(chǎn)等行業(yè),Sora 都能提供強大的支持。例如,新聞記者可以利用Sora快速生成再現(xiàn)事件現(xiàn)場的視頻,增強新聞報道的可視化和臨場感;旅游公司可以通過Sora 制作虛擬旅游視頻,吸引潛在游客;而房地產(chǎn)商則可以利用Sora 生成房屋內(nèi)外的虛擬漫游視頻,提升客戶的參觀體驗。
Sora開啟了AI賦能視覺內(nèi)容創(chuàng)作的新時代,也將推動更多視覺領(lǐng)域任務(wù)實現(xiàn)自動化,并激發(fā)人類更豐富的創(chuàng)造力。然而,Sora也對現(xiàn)有工作模式帶來的沖擊,尤其是那些重復(fù)性、模式化的創(chuàng)意工作。隨著Sora的發(fā)展和應(yīng)用,我們可能需要重新思考人類與AI在創(chuàng)意工作中的分工與合作方式。
Sora的視頻生成能力表明,AI可以承擔更多的創(chuàng)意執(zhí)行任務(wù),能在短時間內(nèi)嘗試和生成大量不同的創(chuàng)意變體。這不僅能大幅提高工作效率,減少人力成本,還能推動創(chuàng)意界限的拓展。在這種情況下,人類創(chuàng)作者的角色可能會從執(zhí)行者轉(zhuǎn)變?yōu)椴邉澱吆椭笇?dǎo)者,他們需要指導(dǎo)AI 完成具體創(chuàng)意工作,確保生成的內(nèi)容符合創(chuàng)意目標和主旨精神。
其次,Sora的語言理解和視頻生成能力還意味著AI可以參與到更初級的創(chuàng)意決策過程,為人類提供靈感和可能性。這種能力使得人類與AI 的合作更加緊密,人類創(chuàng)作者需要學(xué)會如何與AI 溝通,怎樣有效地利用AI的能力來促進創(chuàng)意過程。
再者,隨著AI技術(shù)在創(chuàng)意工作中的應(yīng)用變得越來越普遍,行業(yè)內(nèi)的工作流程和職業(yè)角色也可能發(fā)生變化。例如,在電影制作中,劇本創(chuàng)作、場景設(shè)計、特效生成等環(huán)節(jié)可能會越來越多地依賴于Sora 這樣的AI工具,從而改變這些工作的傳統(tǒng)方式。這不僅影響了從業(yè)者需要的技能集,也可能帶來新的工作機會,比如AI創(chuàng)意協(xié)調(diào)員或AI創(chuàng)意分析師等職位。
最后,隨著AI在創(chuàng)意領(lǐng)域的能力不斷增強,人類與AI的合作模式也需要不斷創(chuàng)新。我們可能會看到更多的協(xié)作平臺和工具的出現(xiàn),以支持人類與AI之間的互動和合作。同時,也必然會帶來知識產(chǎn)權(quán)、創(chuàng)意歸屬和倫理等一系列新的問題,需要社會各界共同探討和解決。
當然,Sora并非完美無缺。它在生成視頻的連貫性方面并不總是完美,有時會出現(xiàn)物體無緣無故出現(xiàn)或消失的情況。此外,Sora在模擬復(fù)雜場景中的因果關(guān)系和物理交互方面還存在局限,不一定能準確模擬復(fù)雜的物理運動,比如玻璃破碎、液體傾倒等精細物理交互的準確模擬,這些都需要模型對現(xiàn)實世界的物理法則有更深入的理解。這些局限性提醒我們,盡管Sora代表了AI技術(shù)的巨大進步,但距離構(gòu)建真正的世界模型、實現(xiàn)AGI還有很長的路要走。
Sora的技術(shù)細節(jié)目前幾乎沒有公開,其工作原理還不甚清楚。我們無法判斷它是否遵循了安全的開發(fā)方針。如果訓(xùn)練數(shù)據(jù)存在問題,輸出也可能呈現(xiàn)出偏見或不當內(nèi)容。我們不能因為幾個視頻demo就斷定它已經(jīng)完美解決了視頻生成問題。此外,Sora生成的視頻長度和質(zhì)量還無法與專業(yè)電影制作相提并論。它的應(yīng)用受到長度、算力成本等限制,離全面替代人類創(chuàng)作還有一定距離。我們也應(yīng)該清醒地認識到,Sora 仍然處于發(fā)展的初級階段,它所面臨的挑戰(zhàn)和局限性需要我們持續(xù)的關(guān)注和研究。
Sora的出現(xiàn),無疑為內(nèi)容生產(chǎn)領(lǐng)域帶來了新的活力和可能性,開啟了一個嶄新的內(nèi)容創(chuàng)作工具時代。它不僅提高了內(nèi)容創(chuàng)作的效率,也為AI在更廣泛領(lǐng)域的應(yīng)用提供了新思路,使通用智能的遠景更加清晰可見。在未來,隨著技術(shù)的不斷進步,我們有理由相信,Sora及其后繼者將能夠在內(nèi)容生產(chǎn)領(lǐng)域發(fā)揮更加重要的作用,甚至可能改變我們對敘事方式的根本理解。
Sora這樣的AI工具能通過學(xué)習(xí)海量數(shù)據(jù),掌握豐富的敘事元素和風格。在未來,這些工具可以自動生成有吸引力的故事情節(jié)、復(fù)雜的人物關(guān)系和豐富的情感表達,能根據(jù)不同文化背景和觀眾喜好,調(diào)整故事內(nèi)容和敘事風格,使敘事更加個性化和多元化。隨著Sora后繼者能力的增強,它們可以實時根據(jù)觀眾的反饋調(diào)整故事的走向。這種雙向互動的敘事方式將使內(nèi)容生產(chǎn)更加動態(tài)化,參與感更強,觀眾將從被動接收故事變?yōu)閰⑴c創(chuàng)作故事的主體,這將徹底改變我們對敘事主體性的理解。Sora 后繼者在內(nèi)容生產(chǎn)中的應(yīng)用,將促進新敘事形式的誕生。例如,基于AI 的交互式敘事、多線程敘事和非線性敘事等新型敘事結(jié)構(gòu),這些敘事形式能提供更加豐富和立體的故事體驗,允許觀眾從不同角度和路徑探索故事,從而顛覆傳統(tǒng)的線性敘事模式。
此外,人工智能還將能發(fā)掘和創(chuàng)造新的敘事主題和題材,它們可以從大數(shù)據(jù)中挖掘潛在的敘事元素,甚至可以預(yù)測和引領(lǐng)內(nèi)容生產(chǎn)的趨勢。這將使得內(nèi)容生產(chǎn)更加豐富和前瞻,不斷推動敘事藝術(shù)的發(fā)展。
Sora 作為一種工具,其核心價值在于服務(wù)于人類,幫助人們更高效地解決問題、產(chǎn)出創(chuàng)意和處理復(fù)雜信息。然而,我們也必須認識到,盡管Sora 等人工智能技術(shù)極具潛力,它們終究是工具,是由人類設(shè)計和控制的系統(tǒng)。它們的目標和功能,取決于人類的設(shè)定和指引。因此,我們應(yīng)該保持一種積極理性的態(tài)度,既要充分利用AI 帶來的便利和創(chuàng)新,又要深入思考如何正確引導(dǎo)AI的發(fā)展,確保這些技術(shù)能夠符合倫理標準、服務(wù)于人類的長遠利益。
在探索通向通用智能的路途上,Sora僅僅是一個開始。未來的研究應(yīng)當致力于讓AI 系統(tǒng)擁有更好的自適應(yīng)能力、更廣泛的應(yīng)用范圍和更深層次的理解力,最終達到與人類智能相媲美的通用智能。這一過程需要跨學(xué)科的合作,涉及計算機科學(xué)、認知科學(xué)、倫理學(xué)等多個領(lǐng)域,共同探索AI的最佳設(shè)計原則和應(yīng)用方案。在人類與機器的合作中,我們應(yīng)該視AI為伙伴而非對手。未來,人機合作的模式將不斷深化,人類將能夠更加專注于創(chuàng)造性思考、戰(zhàn)略規(guī)劃和情感交流等AI 難以替代的領(lǐng)域,而AI 則在數(shù)據(jù)分析、模式識別和繁瑣任務(wù)的自動化等方面發(fā)揮作用。這種互補式的合作關(guān)系必將極大地提升人類社會的整體生產(chǎn)力和創(chuàng)新能力,開創(chuàng)更加美好的未來。