国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

作為視頻世界模擬器的Sora:通向AGI的重要里程碑

2024-05-03 09:43:13郭全中張金熠
新聞愛好者 2024年4期
關(guān)鍵詞:生成式人工智能傳媒業(yè)

郭全中 張金熠

【摘要】視頻生成模型Sora表現(xiàn)出驚艷世界的物理世界理解與模仿能力,以視頻世界模擬器的身份成為AGI發(fā)展史上的又一里程碑。通過整理Sora的技術(shù)突破與技術(shù)局限,以Sora為界將AGI發(fā)展歷程劃分為經(jīng)驗(yàn)積累、能力涌現(xiàn)與全面泛化三個(gè)階段,并對(duì)各階段特征進(jìn)行概括梳理。基于上述梳理,歸納分析現(xiàn)階段AGI對(duì)傳媒業(yè)的新機(jī)遇與新挑戰(zhàn),包括生產(chǎn)力再升級(jí)、職業(yè)認(rèn)知更新與市場(chǎng)結(jié)構(gòu)重塑,并對(duì)AGI未來發(fā)展趨勢(shì)進(jìn)行總結(jié),指出AI模型+智能機(jī)器人、元宇宙技術(shù)集成初顯、AI鴻溝加劇與AI鏡像視角拓展人類認(rèn)知邊界等趨勢(shì)。

【關(guān)鍵詞】生成式人工智能;AGI;傳媒業(yè);AI鴻溝;鏡像視角

自2022年底ChatGPT問世以來,AGI(通用人工智能)領(lǐng)域曙光初現(xiàn),以多模態(tài)大模型為技術(shù)路徑的生成式AI推動(dòng)AGI持續(xù)量變,如今,視頻生成模型Sora以更逼真、更穩(wěn)定、更持久的視頻生成效果驚艷世界,Open AI研發(fā)人員更稱其為“構(gòu)建物理世界通用模擬器的一條有前途的途徑”。作為通向AGI的里程碑,Sora以視頻世界模擬器的身份登場(chǎng),在訓(xùn)練量足夠大的基礎(chǔ)上產(chǎn)生涌現(xiàn)能力,其中包括對(duì)物理規(guī)則的初步理解與模仿,盡管尚有不足,卻如孩童般正在快速成長(zhǎng)。伴隨能力突破,高速發(fā)展的AI也在持續(xù)加劇人們對(duì)職業(yè)前景、產(chǎn)業(yè)監(jiān)管、社會(huì)倫理、國(guó)家安全乃至物種存亡等方面的憂慮。站在AI發(fā)展的重要節(jié)點(diǎn),理解Sora及背后的技術(shù)邏輯、厘清AGI的發(fā)展歷程,把握其為行業(yè)發(fā)展帶來的機(jī)遇挑戰(zhàn),對(duì)各行各業(yè),尤其是受到嚴(yán)重沖擊的傳媒業(yè)來說尤為重要。故本文將重點(diǎn)整理Sora的技術(shù)突破與技術(shù)局限,以Sora為節(jié)點(diǎn)梳理AGI發(fā)展歷程,并基于此分析現(xiàn)階段AGI對(duì)傳媒業(yè)的新機(jī)遇與新挑戰(zhàn),以及AGI的未來發(fā)展趨勢(shì)。

一、何為Sora:作為視頻世界模擬器

2024年2月15日,Open AI在其官網(wǎng)發(fā)布了名為《作為世界模擬器的視頻生成模型(Video generation models as world simulators)》,是視頻生成模型Sora與大眾的初次見面。作為一個(gè)能夠根據(jù)文本指令或靜態(tài)圖像生成長(zhǎng)達(dá)1分鐘視頻的擴(kuò)散模型,Sora進(jìn)入了文生視頻領(lǐng)域的技術(shù)前沿,但顯然尚未達(dá)到世界模擬器的預(yù)期水平,故暫且稱之為“視頻世界模擬器”。

(一)Sora的技術(shù)突破

與Meta推出的無(wú)監(jiān)督視頻預(yù)測(cè)模型V-JEPA不同,Sora生成視頻中對(duì)物理世界客觀規(guī)律的理解與呈現(xiàn)均來自規(guī)模效應(yīng),是Sora自身根據(jù)訓(xùn)練內(nèi)容獲得的。盡管Sora與GPT系列、DALL-E系列的底層思路基本一致,均踐行的Scale-Law(規(guī)模標(biāo)度法則),但是前者在數(shù)據(jù)處理、算法架構(gòu)與模型性能方面卻呈現(xiàn)出極具創(chuàng)新性的技術(shù)突破,進(jìn)入視頻領(lǐng)域的生成式AI技術(shù)前沿。

1.提出Patch(補(bǔ)?。└拍畈?yīng)用

在數(shù)據(jù)處理方面,相對(duì)于文本、代碼和圖片生成,文生視頻模型不僅需要理解語(yǔ)言,還需要理解圖像及其背后的時(shí)空關(guān)聯(lián)。對(duì)此,OpenAI團(tuán)隊(duì)從LLM(大語(yǔ)言模型)中汲取靈感,將視頻中的視覺數(shù)據(jù)轉(zhuǎn)化為Patches(補(bǔ)丁,類似LLM的Tokens),從而實(shí)現(xiàn)視覺數(shù)據(jù)的統(tǒng)一表示。這一過程(如圖1所示)借助視頻壓縮網(wǎng)絡(luò)將原始視頻從高維度像素空間壓縮至低維潛在空間(Latent space)并輸出為潛在時(shí)空表示(Spacetime latent patches)實(shí)現(xiàn),可以稱為視頻的patch化(patchifies)。

Patch的提出與應(yīng)用為視覺生成模型提供了一種高度可擴(kuò)展且有效的表示方式,使LLM的成功經(jīng)驗(yàn)得以繼承,并為DiT架構(gòu)的運(yùn)行打下基礎(chǔ),從而開辟出視覺大模型的技術(shù)實(shí)現(xiàn)路徑。Open AI還指出,基于patches的表示方法使Sora能夠訓(xùn)練不同分辨率、時(shí)長(zhǎng)和寬高比的視頻和圖像。

2.采用Diffusion Transformer(DiT)架構(gòu)

在算法架構(gòu)方面,Sora所采用的DiT架構(gòu)創(chuàng)造性融合了Diffusion(擴(kuò)散模型)和Transformer(轉(zhuǎn)換器模型)的技術(shù)架構(gòu)。前者作為生成模型,包含正向擴(kuò)散與逆向擴(kuò)散兩個(gè)過程,簡(jiǎn)言之,正向的擴(kuò)散過程通過添加噪聲擾動(dòng)數(shù)據(jù),將圖片逐步變?yōu)殡S機(jī)噪聲,逆向的擴(kuò)散過程則通過降噪生成新的圖片。[1]此前,Diffusion已廣泛應(yīng)用于圖像生成、視頻生成工具、3D場(chǎng)景生成等技術(shù)領(lǐng)域,主要服務(wù)于AI繪畫、封面制作等業(yè)務(wù)場(chǎng)景,代表模型有Stable Diffusion。后者作為深度學(xué)習(xí)模型,采用Encoder-Decoder(編碼器-解碼器)架構(gòu)并引入自注意力機(jī)制與多頭注意力機(jī)制[2],具有高效性、可拓展性、可解釋性等諸多優(yōu)勢(shì),在NLP(自然語(yǔ)言處理)領(lǐng)域表現(xiàn)尤為出色,GPT系列均采用Transformer的預(yù)訓(xùn)練模式并具有較好的涌現(xiàn)能力。自2020年Google Brain提出的Vision Transformer(ViT)技術(shù)首次將Transformer應(yīng)用到NLP領(lǐng)域之外的圖像識(shí)別場(chǎng)景,Transformer目前也被應(yīng)用于視覺任務(wù)處理,如基于文字生成圖片的Transformer模型DALL-E。

DiT架構(gòu)和patches及其視頻壓縮網(wǎng)絡(luò)共同解決了將視頻從時(shí)空維度壓縮至潛在空間并轉(zhuǎn)化為可輸入Transformer的潛在時(shí)空表示的問題,從而突破了算法模型對(duì)視頻的時(shí)空理解障礙,并通過聯(lián)級(jí)擴(kuò)散模型與視頻潛在擴(kuò)散模型提升了生成視頻的分辨率、可控性以及時(shí)間一致性。經(jīng)驗(yàn)證,伴隨著訓(xùn)練計(jì)算量的增加,樣本質(zhì)量顯著提高。[3]

3.提升文生視頻性能

在模型性能上,相比其他文生視頻模型,如Pika、Runway Gen-2,Sora的性能升級(jí)主要體現(xiàn)在以下三個(gè)方面。一是能夠生成跨越不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像,甚至可以生成一分鐘的高清視頻,從而突破以往文生視頻模型只能執(zhí)行針對(duì)特定類型、較短長(zhǎng)度或固定分辨率的視頻生成局限,并提升了視頻生成的可擴(kuò)展性。二是能夠生成動(dòng)態(tài)視角的視頻,伴隨著視角的移動(dòng)和旋轉(zhuǎn),人物及場(chǎng)景元素在三維空間中仍然保持一致的運(yùn)動(dòng)狀態(tài)。這意味著基于大規(guī)模訓(xùn)練,Sora獲得了模擬物理世界中某些方面的能力,如動(dòng)態(tài)相機(jī)運(yùn)動(dòng)、長(zhǎng)期一致性和對(duì)象持久性,在視頻中則表現(xiàn)為三維一致性與時(shí)間連貫性。三是能夠基于文本、圖像、視頻等多種模態(tài)提示完成視頻生成任務(wù)。語(yǔ)言(即文本指令)理解能力是支撐該性能的關(guān)鍵,Open AI借助高度描述性的標(biāo)題生成器模型訓(xùn)練以提高視頻生成模型的語(yǔ)言理解能力,在執(zhí)行任務(wù)時(shí),用戶輸入的簡(jiǎn)短指令經(jīng)GPT增強(qiáng)描述性后輸入Sora中,從而使Sora能夠生成高質(zhì)量且準(zhǔn)確遵循用戶指令的視頻。在此基礎(chǔ)上,圖像與視頻提示則為Sora的內(nèi)容生成提供了視覺錨點(diǎn),更有利于生成符合用戶意圖的視頻內(nèi)容。

(二)Sora的技術(shù)局限

目前Sora表現(xiàn)出的技術(shù)路徑與性能提升令人瞠目,也展現(xiàn)出成為世界模擬器的潛力,但它在基于視頻模態(tài)理解與呈現(xiàn)物理世界方面仍有局限。例如生成的視頻內(nèi)容中局部自洽但整體荒謬(如南轅北轍跑步機(jī)),運(yùn)動(dòng)主體間缺乏因果聯(lián)系(如老奶奶吹氣后蠟燭不滅),缺乏物體臨界態(tài)呈現(xiàn)(如玻璃破碎時(shí)液體流出但杯體完好)等。上述局限可能來自patch化過程割裂全局觀念,基于概率的模擬器無(wú)法精準(zhǔn)表達(dá)物理定律,以及臨界態(tài)觀察數(shù)據(jù)難以獲取等原因[4],也可能是受到算力需求過大而無(wú)法擴(kuò)大訓(xùn)練規(guī)模的影響。

此外,Sora的局限性還體現(xiàn)在技術(shù)團(tuán)隊(duì)與用戶群體之間存在距離,因而作為視頻生成工具,Sora能否滿足用戶需求從而發(fā)揮更大價(jià)值,還需要Open AI重視與使用群體的對(duì)話交流。目前Sora正在向部分提供反饋的內(nèi)容創(chuàng)作者開放,其中包括視覺藝術(shù)家、設(shè)計(jì)師和電影制作人等。

二、以Sora為界:AGI發(fā)展歷程

在21世紀(jì)的第二個(gè)十年,從ChatGPT“牙牙學(xué)語(yǔ)”到Sora試圖“理解世界”,人工智能通用性顯著提升,進(jìn)入AGI發(fā)展快速路。相較于專注NLP的LLM,作為視頻世界模擬器的Sora對(duì)物理世界的理解與模仿能力雖較為初階,但一定程度上實(shí)現(xiàn)了基于自主學(xué)習(xí)的AI模型世界模擬能力從0到1的突破,推動(dòng)AI向AGI再次靠近。以Sora為界,AGI的發(fā)展歷程可以分為經(jīng)驗(yàn)積累、能力涌現(xiàn)與全面泛化三個(gè)階段,且目前處于能力涌現(xiàn)階段。

(一)經(jīng)驗(yàn)積累階段:持續(xù)深潛的ANI(專用人工智能)

自1950年“圖靈測(cè)試”的提出到1956年通用問題求解器研發(fā)受阻,21世紀(jì)之前的AGI實(shí)踐探索囿于認(rèn)知水平、技術(shù)水平、資金水平等多方不足,一直未取得實(shí)質(zhì)性進(jìn)展。故21世紀(jì)初,人工智能研究者轉(zhuǎn)變思路,開始面向特定領(lǐng)域問題并尋求專用的解決方案,即ANI,并積累了豐富的探索經(jīng)驗(yàn)。作為評(píng)估AI算法智能水平的理想平臺(tái),競(jìng)技游戲不僅具有明確的規(guī)則和目標(biāo),還隱含著人類日常生活所涉及的決策判斷與任務(wù)解決,更提供了與人類表現(xiàn)直接比較的途徑,因此不少性能出色的AI模型往往以在競(jìng)技游戲中擊敗人類對(duì)手作為彰顯其能力的方式。如2017年升級(jí)后的AI圍棋模型AlphaGo擊敗當(dāng)時(shí)世界排名第一的圍棋選手柯潔,同年AI德?lián)淠P蚅ibratus擊敗一組世界級(jí)德州撲克職業(yè)選手,2019年AI模型OpenAI Five在Dota 2國(guó)際賽事中以2∶0打敗上屆世界冠軍OG戰(zhàn)隊(duì),等等。此外,其他領(lǐng)域的ANI發(fā)展也持續(xù)推進(jìn),如用于生產(chǎn)財(cái)報(bào)類新聞的智能寫作平臺(tái)Wordsmith、能夠生成說唱歌詞的AI模型DopeLearning、能夠個(gè)性化分發(fā)信息的智能推薦算法、電子設(shè)備智能助手Siri/Cortana/小藝,等等。

(二)能力涌現(xiàn)階段:具有涌現(xiàn)能力與AGI潛力的AI模型

自2022年末ChatGPT問世起,基于大規(guī)模數(shù)據(jù)訓(xùn)練的生成式AI向世人展現(xiàn)出驚人的涌現(xiàn)能力。與以往基于程序設(shè)定、智能程度有限的ANI不同,該階段的AI模型首先通過大規(guī)模未標(biāo)注數(shù)據(jù)的預(yù)訓(xùn)練,再采用微調(diào)(fine-tuning)、上下文學(xué)習(xí)(in-context learning)、零樣本(zero-shot)等方式使其廣泛應(yīng)用于下游任務(wù),從而獲得初步的自主生成內(nèi)容能力。值得注意的是,AI模型在內(nèi)容生成過程中展現(xiàn)出的理解能力,如ChatGPT的自然語(yǔ)言理解和上下文對(duì)話能力、Sora的基礎(chǔ)物理規(guī)則理解能力等,均來自模型訓(xùn)練,屬于規(guī)模效應(yīng)帶來的能力涌現(xiàn)。此外,2024年1月Open AI推出的GPT Store涵蓋DALL·E(生成圖像)、寫作、學(xué)術(shù)研究、編程、教育和生活等多種類型的自定義ChatGPT助手,相當(dāng)于Open AI版的應(yīng)用商店,體現(xiàn)出ChatGPT作為NLP領(lǐng)域的ANI已經(jīng)能夠勝任多模態(tài)、多場(chǎng)景、多樣化的下游任務(wù),具備較強(qiáng)的可遷移性,而這正是評(píng)估AGI水平的重要指標(biāo)。

Sora通過統(tǒng)一視覺表示,實(shí)現(xiàn)了基于patches的大規(guī)模訓(xùn)練,并涌現(xiàn)出對(duì)基礎(chǔ)物理規(guī)則的理解能力,同時(shí)借助ChatGPT完成對(duì)文本提示的精準(zhǔn)解讀,以達(dá)成用戶需求的準(zhǔn)確理解與呈現(xiàn)。在這一過程中,Sora并非面向特定行業(yè)或領(lǐng)域的ANI,而是力圖實(shí)現(xiàn)對(duì)物理世界普遍理解的通用型視頻生成模型。事實(shí)上,即便是在對(duì)物理世界的二維視覺呈現(xiàn)方面,Sora也遠(yuǎn)未達(dá)成對(duì)基礎(chǔ)物理規(guī)則和交互邏輯的準(zhǔn)確理解。然而Scale-Law在GPT系列中的出色表現(xiàn)令人對(duì)囿于算力局限的Sora抱有期待,伴隨著訓(xùn)練參數(shù)規(guī)模的不斷增大,GPT系列也不斷向NLP領(lǐng)域的AGI靠近,Sora的后續(xù)發(fā)展若能延續(xù)GPT系列的成功,也有望向合格的視頻世界模擬器乃至物理世界通用模擬器的方向邁進(jìn)。

而在物理世界中,AGI發(fā)展的另一方向——人形機(jī)器人也在向更具AGI潛力的方向發(fā)展。在2024年2月舉行的世界移動(dòng)通信大會(huì)(MWC 2024)上,Engineered Arts公司研發(fā)的人形機(jī)器人Ameca二代亮相,GPT-4加持使其能夠?qū)Ω鞣N問題做出實(shí)時(shí)反應(yīng),與之匹配的是Ameca靈動(dòng)的表情、靈活的眼神以及協(xié)調(diào)的肢體(除雙腿),這令人驚訝之余也不由滑向恐怖谷效應(yīng)的情感谷底。

(三)全面泛化階段:具有系統(tǒng)認(rèn)知與整體視野的AGI

當(dāng)人工智能不再局限于某個(gè)特定的任務(wù)或領(lǐng)域,具有廣泛的認(rèn)知能力和自我進(jìn)化能力并在多樣化任務(wù)和復(fù)雜環(huán)境中表現(xiàn)出人類級(jí)別及以上的智能水平時(shí),可以認(rèn)為其達(dá)到了AGI水平,即AGI發(fā)展進(jìn)入全面泛化階段。該階段,AGI是具備感知、理解、學(xué)習(xí)和推理等基礎(chǔ)思維能力且能夠進(jìn)行自我學(xué)習(xí)、自我提升、創(chuàng)造性思考的機(jī)器智能,能夠理解包括物理世界和人類社會(huì)在內(nèi)的復(fù)雜系統(tǒng)并以整體視野分析問題且做出決策。具體而言,AGI將跳出生成式交互邏輯,基于對(duì)復(fù)雜系統(tǒng)的整體性認(rèn)知進(jìn)行人機(jī)互動(dòng)甚至參與社會(huì)運(yùn)行。受限于數(shù)據(jù)豐富度、算法架構(gòu)與算力水平,理想狀態(tài)下的AGI尚未出現(xiàn),Sora通過對(duì)三維物理世界的視頻學(xué)習(xí)初步獲取了創(chuàng)造數(shù)字原生世界的能力,標(biāo)志著AI領(lǐng)域正在向全面泛化階段的AGI靠近。同時(shí),NLP技術(shù)、語(yǔ)音識(shí)別技術(shù)、視覺識(shí)別技術(shù)等不同領(lǐng)域的ANI發(fā)展迅猛且成效顯著,協(xié)同推進(jìn)AGI能力體系建設(shè)。在此基礎(chǔ)上,軟硬件公司積極合作,也將加快以類人形態(tài)為表征的AGI面世。

三、現(xiàn)階段AGI對(duì)傳媒業(yè)的機(jī)遇與挑戰(zhàn)

當(dāng)前,AGI作為具有泛化能力的機(jī)器智能,與現(xiàn)有行業(yè)結(jié)合或創(chuàng)造新生行業(yè),對(duì)經(jīng)濟(jì)社會(huì)的影響是全面且深入的。對(duì)傳媒業(yè)而言,AGI既以更高效生產(chǎn)工具的身份為行業(yè)賦能,又因深刻影響行業(yè)操作系統(tǒng)與基礎(chǔ)設(shè)施而對(duì)行業(yè)認(rèn)知與運(yùn)行邏輯帶來極大挑戰(zhàn)。

(一)生產(chǎn)力再升級(jí):AGI成為新的生產(chǎn)工具

盡管目前AGI尚不成熟,但以GPT、Sora為代表的在特定領(lǐng)域具備泛化任務(wù)處理能力的類AGI正在成為新的生產(chǎn)工具,從而提升行業(yè)生產(chǎn)力。在生產(chǎn)力升級(jí)過程中,AI技術(shù)會(huì)對(duì)行業(yè)現(xiàn)行邏輯與業(yè)務(wù)慣習(xí)產(chǎn)生沖擊,體現(xiàn)為對(duì)生產(chǎn)效率的影響兩極化。一方面,能夠快速掌握AI技術(shù)的專業(yè)人員能夠在AI賦能下實(shí)現(xiàn)生產(chǎn)效率的快速提升,例如語(yǔ)音識(shí)別、智能翻譯、智能生成圖文視頻、虛擬數(shù)字人等AI技術(shù)在專業(yè)人員的運(yùn)用下有效提升訪談對(duì)話、稿件撰寫、封面制作、游戲美術(shù)設(shè)計(jì)、新聞播報(bào)等工作的效率。另一方面,大部分傳媒從業(yè)者對(duì)新技術(shù)的接受、學(xué)習(xí)與熟練使用需要一定的時(shí)間與動(dòng)力,在這一過程中,往往需要從業(yè)者打破舊的業(yè)務(wù)慣習(xí),結(jié)合AI技術(shù)進(jìn)行業(yè)務(wù)流程再造,過渡階段可能會(huì)帶來短期的效率下降。

當(dāng)前,包括Sora在內(nèi)的大部分自稱為AGI的AI模型泛化能力尚不穩(wěn)定,作為新型生產(chǎn)工具,其在有效性與可控性方面還有待提升,與熟練從業(yè)者相比,前者現(xiàn)階段的實(shí)際生產(chǎn)效率未必更佳。以Sora為例,其視頻生成性能遠(yuǎn)高于此前的同類模型,然而其生成的內(nèi)容時(shí)常出現(xiàn)基礎(chǔ)邏輯錯(cuò)誤,如帶有鸚鵡尾巴的猴子與互相穿過身體的狗狗,這都是高度成熟的影視行業(yè)不能容許也不會(huì)出現(xiàn)的低級(jí)問題。但長(zhǎng)期來看,從業(yè)者對(duì)AGI工具的運(yùn)用將逐漸熟練,且AGI能力也將趨于穩(wěn)定可控,AGI將成為傳媒業(yè)不可或缺的重要生產(chǎn)工具,在行業(yè)各個(gè)環(huán)節(jié)發(fā)揮重要作用。對(duì)此,傳媒從業(yè)者需要積極擁抱AI技術(shù),學(xué)習(xí)并掌握運(yùn)用AI的能力,如有效的prompt組合能力與模型微調(diào)能力等,從而在AGI真正到來時(shí)繼續(xù)保持人在生產(chǎn)活動(dòng)中的主導(dǎo)性地位并運(yùn)用AGI工具更高效地開展工作。

(二)職業(yè)認(rèn)知更新:立足反身性進(jìn)行傳媒職業(yè)認(rèn)知的雙重更新

當(dāng)前,以人工智能技術(shù)為核心的智能傳播正在深刻影響信息傳播的傳播模式、生產(chǎn)規(guī)律、組織運(yùn)營(yíng)乃至職業(yè)倫理。以信息傳播活動(dòng)為業(yè)務(wù)核心的傳媒業(yè)在這一過程中受到全方位、深層次的影響,并在實(shí)踐中更新傳媒從業(yè)者的職業(yè)認(rèn)知。一是AGI對(duì)信息傳播模式的影響?;ヂ?lián)網(wǎng)時(shí)代搜索引擎曾改變?nèi)祟惤邮招畔⒌闹饕绞?,而基于NLP技術(shù)和強(qiáng)大上下文理解能力的LLM若能在AIGC信息質(zhì)量、交互性方面有所提升,將促進(jìn)用戶轉(zhuǎn)向使用LLM進(jìn)行信息搜尋的意愿[5],這無(wú)形中改變了用戶的信息搜尋習(xí)慣。同時(shí),AGI通過信息推薦算法等技術(shù)已經(jīng)改變了傳媒消費(fèi)群體的信息接收習(xí)慣,并影響了不同價(jià)值觀的傳遞效果[6]。二是AGI對(duì)傳媒業(yè)務(wù)流程的重塑。以新聞業(yè)為例,AGI的融入有效提升了新聞檢索、內(nèi)容生產(chǎn)、產(chǎn)品分發(fā)、用戶反饋收集等新聞業(yè)務(wù)的效率,并通過模型微調(diào)打造專用智能工具,助力新聞生產(chǎn)業(yè)務(wù)全流程的智能化轉(zhuǎn)型。Sora的出現(xiàn)更是打破傳統(tǒng)影視創(chuàng)作邏輯,壓縮從文本創(chuàng)意到視頻呈現(xiàn)的業(yè)務(wù)距離,對(duì)現(xiàn)有業(yè)務(wù)流程帶來巨大影響。三是AGI對(duì)傳媒組織結(jié)構(gòu)及運(yùn)作管理的影響。伴隨著AGI對(duì)生產(chǎn)業(yè)務(wù)的效率升級(jí)和流程沖擊,傳媒業(yè)的組織架構(gòu)或?qū)⒒贏GI進(jìn)行再次重組,而這意味著傳媒業(yè)急需結(jié)合AGI創(chuàng)新組織運(yùn)行與管理的戰(zhàn)略思路與方式方法,從而實(shí)現(xiàn)制度層面與實(shí)踐層面的動(dòng)態(tài)一致,協(xié)同推進(jìn)傳媒管理智能升級(jí)。四是AGI對(duì)傳媒職業(yè)倫理提出新要求。在AGI為傳媒業(yè)提供新型生產(chǎn)工具并深度影響傳媒業(yè)務(wù)的過程中,新聞?wù)鎸?shí)、信息把關(guān)、人文關(guān)懷等基本職業(yè)倫理也需要在新環(huán)境下進(jìn)行再解讀與再界定。而傳媒從業(yè)者需要在對(duì)AGI保持審慎態(tài)度的同時(shí)培養(yǎng)“通用人工智能素養(yǎng)”,即個(gè)體對(duì)通用人工智能的認(rèn)識(shí)、理解、使用、質(zhì)疑和評(píng)估的能力。[7]

在傳媒業(yè)AI震蕩期,人類信息傳播活動(dòng)在AI影響下具備了新的時(shí)代特征,從業(yè)者受到AI的強(qiáng)勢(shì)沖擊并呈現(xiàn)出適應(yīng)態(tài)勢(shì)。在基于事實(shí)的認(rèn)知更新基礎(chǔ)上,傳媒從業(yè)者也經(jīng)由反身性方式不斷更新對(duì)自我職業(yè)認(rèn)同與職業(yè)認(rèn)知。作為一種更全面的反思,傳媒從業(yè)者的反身性既包括積極運(yùn)用AI工具進(jìn)行新型內(nèi)容生產(chǎn)以獲得對(duì)傳媒業(yè)務(wù)的再認(rèn)識(shí)和對(duì)職業(yè)價(jià)值、職業(yè)責(zé)任的再錨定,又包括在傳媒實(shí)踐中與主體性逐漸增強(qiáng)的AGI互動(dòng),建立與新型工具或者說職業(yè)助手的關(guān)系認(rèn)知。

(三)市場(chǎng)結(jié)構(gòu)重塑:AI輔助的新型生產(chǎn)群體崛起

AGI對(duì)傳媒業(yè)的根本性挑戰(zhàn)是技術(shù)平權(quán)[8]。AGI的前沿推進(jìn)不斷降低內(nèi)容生產(chǎn)的技術(shù)門檻,在高性能LLM問世后,NLP賦能用戶使用自然語(yǔ)言即可實(shí)現(xiàn)文本、圖像、音頻、視頻、3D等多模態(tài)內(nèi)容的創(chuàng)意落地。在視頻化生存時(shí)代,視頻生成模型Sora實(shí)現(xiàn)文生視頻的性能突破,盡管尚未面向公眾開放,但對(duì)非專業(yè)用戶視頻生產(chǎn)力的提升將極其顯著。目前,沒接受過繪畫訓(xùn)練的用戶都能夠借助Midjourney、DALL-E、Stable Diffusion等文生圖AI模型進(jìn)行AIGC(人工智能生產(chǎn)內(nèi)容)創(chuàng)作,而社交平臺(tái)小紅書、抖音等已經(jīng)出現(xiàn)不少借助多樣化生成式AI進(jìn)行賬號(hào)運(yùn)營(yíng)的內(nèi)容生產(chǎn)者??梢韵胂螅谖纳曨lAI模型公測(cè)后,對(duì)視頻模態(tài)的內(nèi)容創(chuàng)作領(lǐng)域,尤其是中低端影視行業(yè)將會(huì)帶來怎樣的沖擊。

正如UGC(用戶生成內(nèi)容)作為互聯(lián)網(wǎng)技術(shù)賦權(quán)的突出體現(xiàn)曾被認(rèn)為是變革傳統(tǒng)媒體的重要力量[9],其生產(chǎn)主體發(fā)展成一類全職從事內(nèi)容生產(chǎn)工作的就業(yè)群體并崛起為傳媒市場(chǎng)的重要組成,同一數(shù)字化轉(zhuǎn)型浪潮下快遞員、外賣員、網(wǎng)約車司機(jī)、直播銷售員等多種基于互聯(lián)網(wǎng)技術(shù)的數(shù)字勞動(dòng)群體也在持續(xù)涌現(xiàn)并形成數(shù)字經(jīng)濟(jì)產(chǎn)業(yè),伴隨著AGI的前沿推進(jìn)與應(yīng)用落地,包括傳媒行業(yè)在內(nèi)的各行各業(yè)也勢(shì)將迎來基于AGI的新型生產(chǎn)群體的涌現(xiàn),并重塑市場(chǎng)結(jié)構(gòu)。對(duì)此,傳媒業(yè)需要汲取互聯(lián)網(wǎng)時(shí)代的經(jīng)驗(yàn)教訓(xùn),在積極擁抱技術(shù)創(chuàng)新的同時(shí),加強(qiáng)對(duì)AI技術(shù)環(huán)境下傳媒倫理與規(guī)范的持續(xù)性思考,形成“發(fā)展-治理”螺旋式上升的市場(chǎng)氛圍。

四、AGI的未來發(fā)展趨勢(shì)

作為視頻世界模擬器的AI模型Sora,與GPT系列相比,學(xué)習(xí)能力和遷移能力并不理想,但360集團(tuán)創(chuàng)始人周鴻祎認(rèn)為,Sora展現(xiàn)的不僅僅是視頻制作的能力,而是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來新的成果和突破。站在AI模型開始通過自主學(xué)習(xí)理解和模仿物理世界的節(jié)點(diǎn),AGI的未來發(fā)展呈現(xiàn)出多元趨勢(shì)。

(一)AI模型+智能機(jī)器人將成為下一階段AGI的發(fā)展亮點(diǎn)

一般來說,實(shí)現(xiàn)AGI包括兩條重要路徑,即AI模型與智能機(jī)器人,目前相關(guān)研究都已經(jīng)取得令人驚嘆的成果。AI模型方面,Open AI連續(xù)推出GPT系列、DALL-E、Sora等多模態(tài)、跨模態(tài)生成式AI模型,不斷證明Scale-Law提升AI性能的有效性。與此同時(shí),奉行非生成式路線的AI模型也有所推進(jìn),自2022年圖靈獎(jiǎng)得主楊立昆(Yann LeCun)提出可以學(xué)習(xí)世界模型和常識(shí)等重要知識(shí)的自我監(jiān)督模型“聯(lián)合預(yù)測(cè)嵌入架構(gòu)”(JEPA),JEPA系列也已涵蓋文本、圖像與視頻模態(tài)。盡管技術(shù)路徑不同,但AI模型的通用性能從NLP領(lǐng)域向圖像、視頻拓展,并試圖理解三維物理世界并模仿,意味著AI模型正在不斷向具有廣泛遷移能力的AGI靠近。智能機(jī)器人方面,2024年初斯坦福三人團(tuán)隊(duì)發(fā)布成功克隆人類行為和任務(wù)能力的移動(dòng)機(jī)器人Mobile ALOHA,其成本僅為3萬(wàn)美元且單個(gè)任務(wù)僅需提供50次示教便可將成功率提高至90%。[10]Mobile ALOHA展示出有效利用已有數(shù)據(jù)集進(jìn)行高效遷移學(xué)習(xí)以提高機(jī)器人在復(fù)雜環(huán)境中操作能力的方式,且具有制作低成本、學(xué)習(xí)效率高、遷移能力強(qiáng)的特點(diǎn)。人形機(jī)器人Ameca二代則在模仿人類面部神情與上肢動(dòng)作方面表現(xiàn)出色,尤其在整體調(diào)動(dòng)面部要素傳遞神態(tài)情緒上仿真性極強(qiáng)。而在上述機(jī)器人都未涉及的行走能力建設(shè)方面,小鵬公司于2023年10月發(fā)布的人形機(jī)器人PX5不僅能夠適應(yīng)多種復(fù)雜地形,還能同時(shí)應(yīng)對(duì)前后左右的沖擊且具有較好的平衡能力,在行走方式上采用“直腿”、大跨步的方式,使其步態(tài)更接近人類且更節(jié)能。

基于上述技術(shù)積累,AGI的下一階段將是把靈魂注入身體,即AI模型與智能機(jī)器人的組合,從而推進(jìn)人工智能領(lǐng)域朝最初的夢(mèng)想——像人一樣的智慧機(jī)器邁進(jìn)。在GPT-4加持下的人形機(jī)器人Ameca二代已經(jīng)證明這一趨勢(shì)的可行性,目前,專注于人形機(jī)器人研發(fā)的Figure AI公司也表示,將與Open AI合作開發(fā)下一代人形機(jī)器人AI模型??梢?,AGI的下半場(chǎng)將是具有高級(jí)智能的人形機(jī)器人之間的較量。

(二)Sora助力元宇宙突破引爆點(diǎn),元宇宙技術(shù)集成體雛形初現(xiàn)

Sora表現(xiàn)出對(duì)物理世界的理解與模仿能力令人看到打造世界模型的可行性,其文生視頻能力極大降低了3D場(chǎng)景、人物、動(dòng)作的創(chuàng)作成本,為元宇宙提供海量的高質(zhì)量?jī)?nèi)容,有望助力元宇宙建設(shè)突破引爆點(diǎn)。

元宇宙不是某一項(xiàng)或是某幾項(xiàng)技術(shù)簡(jiǎn)單相加[11],而需要包括區(qū)塊鏈技術(shù)、交互技術(shù)、電子游戲技術(shù)、人工智能技術(shù)、智能網(wǎng)絡(luò)技術(shù)和物聯(lián)網(wǎng)技術(shù)在內(nèi)的六大支柱技術(shù)和更多相關(guān)技術(shù)支撐實(shí)現(xiàn),目前元宇宙的各項(xiàng)短板基本補(bǔ)齊。在腦機(jī)接口技術(shù)領(lǐng)域,國(guó)內(nèi)外皆有植入芯片(即腦機(jī)接口)后的人類可以通過意念控制光標(biāo)移動(dòng)的成功案例,包括馬斯克的Neuralink公司和清華大學(xué)科研團(tuán)隊(duì);在空間計(jì)算技術(shù)領(lǐng)域,蘋果公司發(fā)布空間計(jì)算設(shè)備Apple Vision Pro,稱“將數(shù)字內(nèi)容無(wú)縫融入真實(shí)世界,讓用戶處在當(dāng)下并與他人保持連接”;在人工智能技術(shù)領(lǐng)域,Sora實(shí)現(xiàn)視覺數(shù)據(jù)的統(tǒng)一表示并推進(jìn)AI模型的物理世界理解能力,英偉達(dá)公司推出面向個(gè)人終端、支持本地運(yùn)行的AI模型Chat With RTX,AI模型正在拓寬其覆蓋范圍,向世界模擬與私人模型邁進(jìn);在智能網(wǎng)絡(luò)技術(shù)領(lǐng)域,華為發(fā)布全系列、全場(chǎng)景的5.5G產(chǎn)品解決方案和通信大模型。以2024年為節(jié)點(diǎn),元宇宙支柱技術(shù)發(fā)展均有所突破,以“世界模型+token/patch+空間計(jì)算+腦機(jī)接口”為雛形的元宇宙技術(shù)集成體正在聚成。

從落地場(chǎng)景來看,元宇宙將依次經(jīng)歷云游戲、數(shù)字孿生和虛實(shí)共生三個(gè)階段[12],數(shù)字孿生階段的核心技術(shù)本質(zhì)上服務(wù)于元宇宙的場(chǎng)景搭建和虛擬主體維護(hù)。而AGI技術(shù)不僅能為元宇宙提供現(xiàn)實(shí)世界的數(shù)字孿生,還能基于AI模型為元宇宙中的虛擬主體注入“智慧新生”,即基于人工智能生成的智慧主體,從而突破現(xiàn)實(shí)世界的孿生局限,引爆元宇宙世界的智慧生態(tài)。此外,作為元宇宙的關(guān)鍵底層技術(shù),AGI將在場(chǎng)景搭建、形象生成、私人助理、虛擬交互等元宇宙落地與運(yùn)行中發(fā)揮持續(xù)影響,并以通用智能屬性為其他技術(shù)領(lǐng)域提供智慧決策。

(三)“AI鴻溝”正在顯化并呈加劇趨勢(shì)

伴隨技術(shù)性能持續(xù)升級(jí)與應(yīng)用落地,Al已成為新基礎(chǔ)設(shè)施,而伴隨著AI與人類生活的緊密聯(lián)系,技術(shù)帶來的社會(huì)不平等終將顯化并持續(xù)加劇,這種由于AI技術(shù)差異造成的社會(huì)差異,可稱之為“AI鴻溝”。“AI鴻溝”的概念引申自“數(shù)字鴻溝”,后者一般分為接入溝、使用溝和知識(shí)溝三道,故基于上述三個(gè)維度對(duì)AI鴻溝展開闡述。

首先,AI鴻溝的接入溝體現(xiàn)在國(guó)家、社會(huì)、個(gè)人三個(gè)層面:在國(guó)家層面,鼓勵(lì)創(chuàng)新和冒險(xiǎn)的Al基礎(chǔ)好的國(guó)家和其他國(guó)家之間將出現(xiàn)巨大的鴻溝;在社會(huì)層面,各個(gè)國(guó)家內(nèi)部的AI資源富有者與AI資源貧窮者之間也將出現(xiàn)差異;在個(gè)人層面,體現(xiàn)為人們能否獲取AI技術(shù)應(yīng)用以便開展生產(chǎn)生活方面的差異。其次,AI鴻溝的使用溝關(guān)注獲取AI技術(shù)應(yīng)用后的使用差異,由于使用時(shí)長(zhǎng)、使用目的以及技能掌握程度的不同,人們對(duì)AI技術(shù)的使用方式與使用效率存在差異,即AI技術(shù)的多用性帶來技術(shù)使用的差異性。再次,AI鴻溝的知識(shí)溝意在回應(yīng)技術(shù)接入和使用上的差異會(huì)帶來怎樣的社會(huì)后果這一問題,韋路和張明新指出其對(duì)知識(shí)獲取的影響并強(qiáng)調(diào)信息和知識(shí)與社會(huì)和政治力量間的轉(zhuǎn)化關(guān)系[13],而在AI鴻溝中,知識(shí)溝的形成更為明顯,因?yàn)锳I技術(shù)直接影響個(gè)人對(duì)信息和知識(shí)的獲取程度,并基于技術(shù)效率快速拉大接入AI技術(shù)應(yīng)用并熟練使用群體與其他群體在知識(shí)獲取效率與知識(shí)積累程度方面的差距,從而加劇AI鴻溝并阻礙其彌合。

(四)AI為人類認(rèn)知提供鏡像視角,加速知識(shí)邊界拓展

AI是指具備與人類智能相似能力的機(jī)器智能,生成式AI模型出現(xiàn)之前,AI始終依據(jù)事先指定的模板或者規(guī)則完成相應(yīng)任務(wù),而生成式AI模型基于對(duì)人類行為的數(shù)據(jù)化學(xué)習(xí)開始具備自主生成能力,盡管較為初級(jí),但拓寬了人類社會(huì)的信息生產(chǎn)方式,同時(shí)也帶來更強(qiáng)的學(xué)習(xí)遷移能力??梢哉f,生成式AI模型將映照人類以及現(xiàn)實(shí)世界的鏡子從黃銅鏡升級(jí)為水銀鏡,人類也終于能夠從AI中看到自己的“影子”。

伴隨著AGI技術(shù)的前沿推進(jìn),人類將獲得審視自己與認(rèn)識(shí)世界的全新視角,即鏡像視角。從宏觀層面看,Sora等大模型的能力涌現(xiàn)來自對(duì)可量化信息的學(xué)習(xí)與理解,其高度復(fù)雜的算法邏輯在靠近人類思維模式的同時(shí)可能生成不同于人類認(rèn)知邏輯的社會(huì)知識(shí),從而反作用于人對(duì)世界的認(rèn)知,以模擬世界與現(xiàn)實(shí)世界的對(duì)照關(guān)系,印證或推翻部分現(xiàn)有認(rèn)知,增加人類社會(huì)的認(rèn)知維度,從而拓展人類知識(shí)邊界。從微觀層面看,個(gè)人的認(rèn)知水平是有限的,而借助AGI工具,能夠壓縮個(gè)體獲取知識(shí)的各項(xiàng)成本,有助于個(gè)人知識(shí)邊界的拓寬;同時(shí),個(gè)人與AI的互動(dòng),某種程度上也反映出潛意識(shí)或無(wú)意識(shí)中的自我欲望,而自我欲望的顯化有助于個(gè)體豐富與完善自我認(rèn)知,從而成長(zhǎng)為更健全的個(gè)體。此外,個(gè)體認(rèn)知的拓展將在集體中積聚,與宏觀層面的認(rèn)知更新一起,助推全人類知識(shí)體系從量變到質(zhì)變的飛躍。

參考文獻(xiàn):

[1]Yang L,Zhang Z L,Song Y,et al.Diffusion models:a comprehensive survey of methods and applications[J].ACM Computing Surveys,2023,56(4):1-39.

[2]劉文婷,盧新明.基于計(jì)算機(jī)視覺的Transformer研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(6):1-16.

[3]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators[J/OL].(2024-02-15)[2024-03-03]. https://openai.com/research/video-generation-models-as-world-simulators.

[4]顧險(xiǎn)峰.Sora物理悖謬的幾何解釋[EB/OL].(2024-02-21)[2024-03-03].https://mp.weixin.qq.com/s/HSZMbiFuNvTmBv26csZFGg.

[5]周濤,李松洮,鄧勝利.用戶信息搜尋轉(zhuǎn)移意向研究:從搜索引擎到生成式AI[J].圖書情報(bào)工作,2024,68(3):49-58.

[6]張守信,張洋.信息推薦算法對(duì)青年主流價(jià)值認(rèn)同的影響及治理策略[J].中國(guó)編輯,2024(2):1-7.

[7]陳昌鳳,袁雨晴.智能新聞業(yè):生成式人工智能成為基礎(chǔ)設(shè)施[J].內(nèi)蒙古社會(huì)科學(xué),2024,45(1):40-48.

[8]郭全中,袁柏林.從GPT看AGI的本質(zhì)突破:傳媒業(yè)新挑戰(zhàn)與未來[J].新聞愛好者,2023(4):30-35.

[9]胡泳,張?jiān)码?互聯(lián)網(wǎng)內(nèi)容走向何方?——從UGC、PGC到業(yè)余的專業(yè)化[J].新聞?dòng)浾撸?016(8):21-25.

[10]Zipeng Fu,Tony Z.Zhao,Chelsea Finn. Mobile ALOHA:Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation[J/OL].(2024-01-04)[2024-03-03].https://mobile-aloha.github.io/resources/mobile-aloha.pdf.

[11]喻國(guó)明,耿曉夢(mèng).元宇宙:媒介化社會(huì)的未來生態(tài)圖景[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2022,43(3):110-118+2.

[12]郭全中.元宇宙的緣起、現(xiàn)狀與未來[J].新聞愛好者,2022(1):26-31.

[13]韋路,張明新.第三道數(shù)字鴻溝:互聯(lián)網(wǎng)上的知識(shí)溝[J].新聞與傳播研究,2006(4):43-53+95.

作者簡(jiǎn)介:郭全中,中央民族大學(xué)新聞與傳播學(xué)院教授,互聯(lián)網(wǎng)平臺(tái)企業(yè)發(fā)展與治理研究中心主任(北京 100081),江蘇紫金傳媒智庫(kù)高級(jí)研究員(南京 211199);張金熠,中央民族大學(xué)新聞與傳播學(xué)院碩士生(北京 100081)。

編校:董方曉

猜你喜歡
生成式人工智能傳媒業(yè)
生成式人工智能的教育啟示:讓每個(gè)人成為他自己
挑戰(zhàn)·融合·變革:“ChatGPT與未來教育”會(huì)議綜述
生成式人工智能時(shí)代的政治傳播走向
黨政研究(2023年3期)2023-05-29 01:10:39
生成式人工智能重塑教育及教師應(yīng)對(duì)之道
人機(jī)共生時(shí)代國(guó)際傳播的理念升維與自主敘事體系構(gòu)建
生成式人工智能的教育應(yīng)用與展望
試論融合發(fā)展語(yǔ)境下文化傳媒業(yè)的新路徑
歐洲傳媒系統(tǒng)面面觀之瑞士傳媒業(yè)圖景下
傳媒業(yè)發(fā)展的必然趨勢(shì)
新聞傳播(2016年20期)2016-07-10 09:33:31
自媒體對(duì)傳統(tǒng)新聞傳播的解構(gòu)與重塑
戲劇之家(2016年7期)2016-05-10 14:07:07
长子县| 泰和县| 西乡县| 彝良县| 石泉县| 萝北县| 左权县| 育儿| 嘉禾县| 库伦旗| 镇平县| 格尔木市| 盐边县| 济阳县| 镇原县| 德钦县| 千阳县| 顺义区| 永春县| 桑植县| 大埔县| 江陵县| 徐汇区| 梅河口市| 观塘区| 元阳县| 嘉善县| 财经| 普安县| 临海市| 左权县| 鹤壁市| 合水县| 大名县| 芦溪县| 金堂县| 措美县| 阜康市| 安平县| 延庆县| 皮山县|