Sora與未來敘事：AI如何顛覆內(nèi)容創(chuàng)作

2024-05-21 00:40陳光

傳媒評論 2024年3期

文_陳光

2024 年2 月16 日，OpenAI 發(fā)布了其首個文生視頻模型Sora。這一突破性模型的發(fā)布在行業(yè)內(nèi)引起了轟動，重新定義了當前AI 文生視頻技術(shù)的極限，徹底顛覆了生成式AI 在視頻領(lǐng)域的全球市場格局。Sora不僅僅是一個技術(shù)突破，更是對人類敘事方式的一次深刻挑戰(zhàn)，預(yù)示著內(nèi)容生產(chǎn)領(lǐng)域未來的無限可能，也讓我們對通用人工智能（AGI）的進步更加期待。

在此之前，盡管AI在圖像和音頻生成方面取得了令人矚目的成果，但高質(zhì)量、長時間的視頻生成仍是一個難以攀越的峰頂。Sora的出現(xiàn)，一次性將視頻生成時長提升了15倍，達到60秒，遠超行業(yè)水平。不但如此，Sora還能生成復(fù)雜的多機位視頻，場景連貫，角色豐滿，細節(jié)精致，幾乎可以與現(xiàn)實中的場景媲美，這在以往的技術(shù)中是難以想象的。這種能力不僅極大提高了視頻內(nèi)容的創(chuàng)作效率，也為內(nèi)容創(chuàng)作者提供了前所未有的自由度。想象一下，只需輸入一段描述，Sora 就能為你呈現(xiàn)出一個完整、生動的故事場景，這無疑將極大地激發(fā)創(chuàng)作者的想象力和創(chuàng)造力。

還原世界并超出想象的模型

用文字自動生成視頻，其技術(shù)難點主要體現(xiàn)在如何處理并理解視覺信息的高維特性和動態(tài)變化。視頻不僅包含了靜態(tài)圖像的空間信息，還包含時間序列上的動態(tài)信息，因此對計算資源和模型處理能力的要求極高。實現(xiàn)這一技術(shù)需要借助深度學(xué)習(xí)中的生成模型，如擴散模型(Diffusion Model)，以及強大的時空變換架構(gòu)，例如Transformer。Sora能驚艷亮相，其背后得益于以下方面取得的技術(shù)突破：首先，Sora 采用了將視頻和圖像數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示形式的方法，使得模型能在大規(guī)模數(shù)據(jù)集上進行訓(xùn)練；其次，模型能處理不同持續(xù)時間、分辨率和寬高比的視覺數(shù)據(jù)；再次，Sora 利用了擴散Transformer（Diffusion Transformer）結(jié)構(gòu)，成功將擴散模型與Transformer結(jié)合起來，以有效處理視頻數(shù)據(jù)；最后，Sora在語言理解方面也有所突破，通過DALL·E 3 中采用的視頻再描述（re-captioning）技術(shù)獲得大量配有描述文本的訓(xùn)練視頻數(shù)據(jù)，進而提高了文本到視頻生成系統(tǒng)的質(zhì)量。這些技術(shù)能力的結(jié)合，使得Sora能根據(jù)文本提示生成高保真度的視頻內(nèi)容。

除了在長度和質(zhì)量上的量級飛躍，我們還可以從Sora 生成的視頻中，看到它對真實世界物理規(guī)律、運動規(guī)律的部分掌握和遵循，也就是所謂的“世界模型”能力。比如，Sora 生成的視頻中，走路的人會帶起塵土，畫家的筆畫會留在畫布上，這表明Sora 已經(jīng)初步具備通過學(xué)習(xí)對現(xiàn)實世界進行有限的模擬。它不再是簡單地拼湊現(xiàn)成的視頻數(shù)據(jù)，而是試圖預(yù)測物體運動對環(huán)境的影響，這為構(gòu)建能像人一樣感知并交互的通用智能奠定了基礎(chǔ)。

OpenAI 在Sora 官方技術(shù)報告中提出“用視頻生成模型作為世界模擬器”，其核心思想在于利用Sora強大的視頻生成能力，創(chuàng)造一個虛擬世界。這個世界可以高度還原甚至超越現(xiàn)實，為人工智能提供一個無限寬廣、可控制且安全的實驗和學(xué)習(xí)空間。在這個模擬環(huán)境中，人工智能可以接受各種任務(wù)和挑戰(zhàn)，通過與虛擬世界的互動學(xué)習(xí)，不僅能理解物理規(guī)律和世界運行法則，還能進行決策訓(xùn)練、策略優(yōu)化和行為預(yù)測。Sora的文本到視頻映射能力，使這個世界模擬器可以通過自然語言來控制和指導(dǎo)，大幅降低了模擬器的使用門檻，擴大了其應(yīng)用范圍。此外，Sora 生成的高保真視頻，使得模擬世界可以非常真實地反映出復(fù)雜的環(huán)境動態(tài)，這對于自動駕駛、虛擬現(xiàn)實、機器人學(xué)習(xí)等領(lǐng)域的研究與發(fā)展具有重大意義。因此，Sora不僅僅是視頻生成的工具，更擁有成為下一代人工智能研究和開發(fā)平臺的巨大潛力。

世界模擬器是實現(xiàn)AGI的一個潛在工具。AGI需要能理解和操作物理世界，世界模擬器提供了一個虛擬環(huán)境，AGI可以在其中學(xué)習(xí)物理規(guī)律、社交規(guī)則和其他復(fù)雜的系統(tǒng)動態(tài)，進而無風險地探索和理解現(xiàn)實世界的復(fù)雜性。

世界模擬器雖然是實現(xiàn)AGI 的一種強有力的手段，但是不是通向AGI 的必由之路還有待商榷。AGI的發(fā)展可能需要多種技術(shù)和方法的結(jié)合，包括知識表示、推理、規(guī)劃、學(xué)習(xí)、感知和操控等多個方面的進展。世界模擬器可能是這個廣泛技術(shù)組合中的一部分，但未必是唯一或者必要的路徑。然而，世界模擬器無疑為AGI 提供了一個重要的實驗平臺，有助于推動AI朝著更通用、更高層次的智能發(fā)展。

Sora推動了內(nèi)容生產(chǎn)行業(yè)的變革

Sora 的問世，不僅提供了顛覆性的視頻生成工具，也為各行各業(yè)帶來了前所未有的創(chuàng)新潛力和變革機遇。

在創(chuàng)意視頻行業(yè)，Sora能極大減輕視頻制作的工作量和技術(shù)門檻。傳統(tǒng)的視頻制作需要編劇、導(dǎo)演、攝影師、演員等多方合作完成，耗費時間長、成本高。Sora可以通過理解簡單的文本描述，自動生成視頻內(nèi)容。這讓小型創(chuàng)意工作室甚至個人創(chuàng)作者也能以較低的成本制作高質(zhì)量的視頻作品，極大地激發(fā)了創(chuàng)意產(chǎn)業(yè)的活力。

在教育領(lǐng)域，Sora 可以根據(jù)教學(xué)內(nèi)容需求，創(chuàng)造出生動的教學(xué)視頻，使抽象的知識點變得形象易懂，增強學(xué)習(xí)的趣味性和有效性。學(xué)生們可以通過觀看由AI 生成的教育視頻，獲得更加直觀的學(xué)習(xí)體驗，這對于提高教學(xué)效果、激發(fā)學(xué)生興趣將起到積極作用。

在醫(yī)療領(lǐng)域，Sora的應(yīng)用同樣具有重要價值。例如，它能生成手術(shù)過程的仿真視頻，幫助醫(yī)學(xué)生和專業(yè)醫(yī)生在無風險的環(huán)境中進行學(xué)習(xí)和培訓(xùn)，可以提高手術(shù)技能的學(xué)習(xí)效率，降低實際操作中的風險。

對于電影和游戲產(chǎn)業(yè)，Sora的視頻生成能力將開辟全新的創(chuàng)作可能性。它可以快速生成復(fù)雜的特效場景或者角色動畫，減少人工制作的需求，使得電影和游戲的生產(chǎn)成本大幅度降低，同時還能加快產(chǎn)品從構(gòu)思到市場的過程。

此外，在新聞報道、旅游、房地產(chǎn)等行業(yè)，Sora 都能提供強大的支持。例如，新聞記者可以利用Sora快速生成再現(xiàn)事件現(xiàn)場的視頻，增強新聞報道的可視化和臨場感；旅游公司可以通過Sora 制作虛擬旅游視頻，吸引潛在游客；而房地產(chǎn)商則可以利用Sora 生成房屋內(nèi)外的虛擬漫游視頻，提升客戶的參觀體驗。

Sora開啟了AI賦能視覺內(nèi)容創(chuàng)作的新時代，也將推動更多視覺領(lǐng)域任務(wù)實現(xiàn)自動化，并激發(fā)人類更豐富的創(chuàng)造力。然而，Sora也對現(xiàn)有工作模式帶來的沖擊，尤其是那些重復(fù)性、模式化的創(chuàng)意工作。隨著Sora的發(fā)展和應(yīng)用，我們可能需要重新思考人類與AI在創(chuàng)意工作中的分工與合作方式。

Sora的視頻生成能力表明，AI可以承擔更多的創(chuàng)意執(zhí)行任務(wù)，能在短時間內(nèi)嘗試和生成大量不同的創(chuàng)意變體。這不僅能大幅提高工作效率，減少人力成本，還能推動創(chuàng)意界限的拓展。在這種情況下，人類創(chuàng)作者的角色可能會從執(zhí)行者轉(zhuǎn)變?yōu)椴邉澱吆椭笇?dǎo)者，他們需要指導(dǎo)AI 完成具體創(chuàng)意工作，確保生成的內(nèi)容符合創(chuàng)意目標和主旨精神。

其次，Sora的語言理解和視頻生成能力還意味著AI可以參與到更初級的創(chuàng)意決策過程，為人類提供靈感和可能性。這種能力使得人類與AI 的合作更加緊密，人類創(chuàng)作者需要學(xué)會如何與AI 溝通，怎樣有效地利用AI的能力來促進創(chuàng)意過程。

再者，隨著AI技術(shù)在創(chuàng)意工作中的應(yīng)用變得越來越普遍，行業(yè)內(nèi)的工作流程和職業(yè)角色也可能發(fā)生變化。例如，在電影制作中，劇本創(chuàng)作、場景設(shè)計、特效生成等環(huán)節(jié)可能會越來越多地依賴于Sora 這樣的AI工具，從而改變這些工作的傳統(tǒng)方式。這不僅影響了從業(yè)者需要的技能集，也可能帶來新的工作機會，比如AI創(chuàng)意協(xié)調(diào)員或AI創(chuàng)意分析師等職位。

最后，隨著AI在創(chuàng)意領(lǐng)域的能力不斷增強，人類與AI的合作模式也需要不斷創(chuàng)新。我們可能會看到更多的協(xié)作平臺和工具的出現(xiàn)，以支持人類與AI之間的互動和合作。同時，也必然會帶來知識產(chǎn)權(quán)、創(chuàng)意歸屬和倫理等一系列新的問題，需要社會各界共同探討和解決。

Sora可能帶來全新的敘事形式

當然，Sora并非完美無缺。它在生成視頻的連貫性方面并不總是完美，有時會出現(xiàn)物體無緣無故出現(xiàn)或消失的情況。此外，Sora在模擬復(fù)雜場景中的因果關(guān)系和物理交互方面還存在局限，不一定能準確模擬復(fù)雜的物理運動，比如玻璃破碎、液體傾倒等精細物理交互的準確模擬，這些都需要模型對現(xiàn)實世界的物理法則有更深入的理解。這些局限性提醒我們，盡管Sora代表了AI技術(shù)的巨大進步，但距離構(gòu)建真正的世界模型、實現(xiàn)AGI還有很長的路要走。

Sora的技術(shù)細節(jié)目前幾乎沒有公開，其工作原理還不甚清楚。我們無法判斷它是否遵循了安全的開發(fā)方針。如果訓(xùn)練數(shù)據(jù)存在問題，輸出也可能呈現(xiàn)出偏見或不當內(nèi)容。我們不能因為幾個視頻demo就斷定它已經(jīng)完美解決了視頻生成問題。此外，Sora生成的視頻長度和質(zhì)量還無法與專業(yè)電影制作相提并論。它的應(yīng)用受到長度、算力成本等限制，離全面替代人類創(chuàng)作還有一定距離。我們也應(yīng)該清醒地認識到，Sora 仍然處于發(fā)展的初級階段，它所面臨的挑戰(zhàn)和局限性需要我們持續(xù)的關(guān)注和研究。

Sora的出現(xiàn)，無疑為內(nèi)容生產(chǎn)領(lǐng)域帶來了新的活力和可能性，開啟了一個嶄新的內(nèi)容創(chuàng)作工具時代。它不僅提高了內(nèi)容創(chuàng)作的效率，也為AI在更廣泛領(lǐng)域的應(yīng)用提供了新思路，使通用智能的遠景更加清晰可見。在未來，隨著技術(shù)的不斷進步，我們有理由相信，Sora及其后繼者將能夠在內(nèi)容生產(chǎn)領(lǐng)域發(fā)揮更加重要的作用，甚至可能改變我們對敘事方式的根本理解。

Sora這樣的AI工具能通過學(xué)習(xí)海量數(shù)據(jù)，掌握豐富的敘事元素和風格。在未來，這些工具可以自動生成有吸引力的故事情節(jié)、復(fù)雜的人物關(guān)系和豐富的情感表達，能根據(jù)不同文化背景和觀眾喜好，調(diào)整故事內(nèi)容和敘事風格，使敘事更加個性化和多元化。隨著Sora后繼者能力的增強，它們可以實時根據(jù)觀眾的反饋調(diào)整故事的走向。這種雙向互動的敘事方式將使內(nèi)容生產(chǎn)更加動態(tài)化，參與感更強，觀眾將從被動接收故事變?yōu)閰⑴c創(chuàng)作故事的主體，這將徹底改變我們對敘事主體性的理解。Sora 后繼者在內(nèi)容生產(chǎn)中的應(yīng)用，將促進新敘事形式的誕生。例如，基于AI 的交互式敘事、多線程敘事和非線性敘事等新型敘事結(jié)構(gòu)，這些敘事形式能提供更加豐富和立體的故事體驗，允許觀眾從不同角度和路徑探索故事，從而顛覆傳統(tǒng)的線性敘事模式。

此外，人工智能還將能發(fā)掘和創(chuàng)造新的敘事主題和題材，它們可以從大數(shù)據(jù)中挖掘潛在的敘事元素，甚至可以預(yù)測和引領(lǐng)內(nèi)容生產(chǎn)的趨勢。這將使得內(nèi)容生產(chǎn)更加豐富和前瞻，不斷推動敘事藝術(shù)的發(fā)展。

結(jié)語

Sora 作為一種工具，其核心價值在于服務(wù)于人類，幫助人們更高效地解決問題、產(chǎn)出創(chuàng)意和處理復(fù)雜信息。然而，我們也必須認識到，盡管Sora 等人工智能技術(shù)極具潛力，它們終究是工具，是由人類設(shè)計和控制的系統(tǒng)。它們的目標和功能，取決于人類的設(shè)定和指引。因此，我們應(yīng)該保持一種積極理性的態(tài)度，既要充分利用AI 帶來的便利和創(chuàng)新，又要深入思考如何正確引導(dǎo)AI的發(fā)展，確保這些技術(shù)能夠符合倫理標準、服務(wù)于人類的長遠利益。

在探索通向通用智能的路途上，Sora僅僅是一個開始。未來的研究應(yīng)當致力于讓AI 系統(tǒng)擁有更好的自適應(yīng)能力、更廣泛的應(yīng)用范圍和更深層次的理解力，最終達到與人類智能相媲美的通用智能。這一過程需要跨學(xué)科的合作，涉及計算機科學(xué)、認知科學(xué)、倫理學(xué)等多個領(lǐng)域，共同探索AI的最佳設(shè)計原則和應(yīng)用方案。在人類與機器的合作中，我們應(yīng)該視AI為伙伴而非對手。未來，人機合作的模式將不斷深化，人類將能夠更加專注于創(chuàng)造性思考、戰(zhàn)略規(guī)劃和情感交流等AI 難以替代的領(lǐng)域，而AI 則在數(shù)據(jù)分析、模式識別和繁瑣任務(wù)的自動化等方面發(fā)揮作用。這種互補式的合作關(guān)系必將極大地提升人類社會的整體生產(chǎn)力和創(chuàng)新能力，開創(chuàng)更加美好的未來。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Sora與未來敘事：AI如何顛覆內(nèi)容創(chuàng)作

還原世界并超出想象的模型

Sora推動了內(nèi)容生產(chǎn)行業(yè)的變革

Sora可能帶來全新的敘事形式

結(jié)語