張?jiān)姮? 沈陽
基金項(xiàng)目:國家自然科學(xué)基金青年項(xiàng)目“面向人工智能生成內(nèi)容的風(fēng)險(xiǎn)識別與治理策略研究”(72304290);清華大學(xué)—北京清尚建筑裝飾工程有限公司智慧場景創(chuàng)新設(shè)計(jì)聯(lián)合研究院橫向課題“醫(yī)院建筑裝配式知識圖譜構(gòu)建與大語言模型綜合研究”(20222910003)
作者信息:張?jiān)姮帲?994— ),女,河南鄭州人,清華大學(xué)新聞與傳播學(xué)院博士后,主要研究方向:AIGC、網(wǎng)絡(luò)輿論、媒介與社會;沈陽(1974— ),男,江西贛州人,清華大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師,主要研究方向:AI和大數(shù)據(jù)、新媒體、網(wǎng)絡(luò)輿論。
【摘要】Sora作為革命性的“類世界模型”,以鏡像進(jìn)化的邏輯發(fā)展,引領(lǐng)“天人智一”認(rèn)知融合新紀(jì)元。在文生視頻技術(shù)驅(qū)動下,文章以三組核心矛盾作為切入點(diǎn),探討Sora對未來傳媒生態(tài)認(rèn)知的潛在影響。研究發(fā)現(xiàn),Sora引領(lǐng)我們從“真實(shí)世界美學(xué)”探索到“異世界美學(xué)”等,這標(biāo)志著從標(biāo)準(zhǔn)化資源向個(gè)性化創(chuàng)新的轉(zhuǎn)變。同時(shí),其預(yù)示著傳媒主體將從傳統(tǒng)的半人工編輯轉(zhuǎn)向語義智能體,傳媒場景將更深層次地打破物理時(shí)空區(qū)隔,傳媒產(chǎn)業(yè)價(jià)值將朝向AI自動化等方向發(fā)展。此外,文章通過對Sora官網(wǎng)發(fā)布的48個(gè)視頻進(jìn)行案例分析發(fā)現(xiàn),“AI幻覺”問題開始顯現(xiàn)。未來傳媒從業(yè)者在角色方面,需從生產(chǎn)者轉(zhuǎn)變?yōu)楹瞬檎?;在?yīng)用方面,需重視編碼與解碼過程;在治理層面,需從人工治理邏輯轉(zhuǎn)向機(jī)器治理邏輯。具體而言,“AI幻覺”的治理包括基于博弈理論的幻覺識別技術(shù),利用多角色、多智能體,進(jìn)行AI系統(tǒng)間的博弈與碰撞,有效識別和修正幻覺內(nèi)容。
【關(guān)鍵詞】Sora 傳媒生態(tài) 認(rèn)知融合 “IP的AI化” “AI幻覺”
【中圖分類號】G206 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1003-6687(2024)6-053-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.007
中國傳統(tǒng)哲學(xué)中,大多數(shù)哲學(xué)家都宣揚(yáng)一個(gè)基本觀點(diǎn),即“天人合一”。它不僅是一個(gè)根本性的哲學(xué)命題,而且構(gòu)成了中國哲學(xué)的一種思維模式。在當(dāng)前技術(shù)飛速發(fā)展的背景下,“天人合一”的哲學(xué)意蘊(yùn)展現(xiàn)出更加豐富和復(fù)雜的維度。因此,我們提出“天人智一”的新概念,以強(qiáng)調(diào)在現(xiàn)代科技環(huán)境中,天(自然)、人(人類)、智(人工智能)三者不可割裂,共同構(gòu)成互相依存、相互滲透的統(tǒng)一體。這種內(nèi)在的相通關(guān)系,不僅為人類認(rèn)知融合、思維拓展及全面理解開辟新的可能性,也為解讀標(biāo)志性技術(shù)成果提供了全新視角。隨著人工智能技術(shù)的迭代更新,生成式人工智能(AIGC)日益成熟,并在傳媒行業(yè)中發(fā)揮著越來越重要的作用。在此之前,GPT-4.0和DALL·E3在文生文、文生圖領(lǐng)域已取得顯著成就。2024年,文生視頻模型Sora的問世標(biāo)志著AIGC邁向AGI的新階段。Sora以卓越的視覺內(nèi)容生成能力引發(fā)學(xué)界與業(yè)界的關(guān)注與討論。同時(shí),Sora是否能夠被定義為世界模型的問題也引發(fā)激烈的爭議。一些人認(rèn)為,Sora是數(shù)據(jù)驅(qū)動的物理引擎,能夠模擬真實(shí)或虛構(gòu)的世界。相反,圖靈獎得主Yann LeCun認(rèn)為,生成逼真的視頻并不意味著模型理解了物理世界。他強(qiáng)調(diào),Sora仍是一個(gè)概率模型,其生成內(nèi)容僅是基于輸入數(shù)據(jù)的概率輸出,而不是真正地理解世界。[1]
上述爭議反映出人們對Sora的不同理解和期待,以及對世界模型定義的差異。在此,我們暫且擱置技術(shù)層面的討論,將Sora定義為“類世界模型”,即一種旨在對真實(shí)世界進(jìn)行建模的技術(shù),是能夠模擬現(xiàn)實(shí)世界規(guī)則、邏輯和動態(tài)的復(fù)雜AI系統(tǒng)。若將人類以往的一切認(rèn)知定義為普遍認(rèn)知,那么,AI產(chǎn)生的認(rèn)知則可以定義為人工智能生成認(rèn)知,它意味著我們當(dāng)前處于一個(gè)關(guān)鍵臨界點(diǎn)。“天人智一”的提出,不僅是對中國傳統(tǒng)“天人合一”哲學(xué)的當(dāng)代演繹,更是一次對于科技發(fā)展與人類未來的深刻審思。
Sora的問世引發(fā)諸多思考:其為何能夠激發(fā)人們的關(guān)注與興奮感?現(xiàn)階段人類對此不確定的新技術(shù)是如何認(rèn)知的?未來,Sora的獨(dú)特性將如何影響傳媒生態(tài)的認(rèn)知模式?基于這些問題,本文旨在從人類認(rèn)知與Sora本質(zhì)的交互出發(fā),探討技術(shù)進(jìn)化對傳媒行業(yè)的潛在影響。
一、認(rèn)知融合時(shí)代:Sora的三重進(jìn)化
Sora的興起預(yù)示著信息處理方式的根本變革,它引領(lǐng)我們走向認(rèn)知融合的新時(shí)代。通過模擬人類認(rèn)知、生命及社會復(fù)雜性,Sora標(biāo)志著信息生產(chǎn)的創(chuàng)新,更代表著深刻的技術(shù)進(jìn)化路徑——鏡像式進(jìn)化。這一理論突破了技術(shù)發(fā)展的線性視角,強(qiáng)調(diào)AI的進(jìn)化是一個(gè)嵌套演進(jìn)的過程。AI的進(jìn)化主要分為三個(gè)階段:模擬意識、模擬生命和模擬元宇宙,即生成式進(jìn)化、擬像式進(jìn)化及創(chuàng)新式進(jìn)化。它不僅揭示技術(shù)演變軌跡,也展現(xiàn)了Sora作為“類世界模型”的探索道路(見圖1)。
Sora以鏡像進(jìn)化論的邏輯模擬動態(tài)、互動的虛擬環(huán)境,極大地增強(qiáng)了其在模擬元宇宙階段的功能和范圍,成為元宇宙的技術(shù)載體。它提供了一個(gè)動態(tài)、互動的虛擬環(huán)境,不僅能夠模擬出現(xiàn)實(shí)世界的靜態(tài)屬性,更能捕捉動態(tài)變化和復(fù)雜性。這種能力使Sora成為理解和創(chuàng)建復(fù)雜世界的強(qiáng)大工具。
1. 生成式進(jìn)化:跨模態(tài)的革命
鏡像進(jìn)化論揭示AI整合與處理不同類型信息的能力,為AI模擬人類進(jìn)行多模態(tài)處理與跨模態(tài)轉(zhuǎn)換提供了基礎(chǔ)。生成式進(jìn)化在跨模態(tài)學(xué)習(xí)領(lǐng)域象征著對人類意識模擬的探索,未來可能模擬人類“眼耳鼻舌身意”六識。Sora彌補(bǔ)了既往文本生成、圖像生成中缺失的感知數(shù)據(jù)。
跨模態(tài)表征的目的在于挖掘不同模態(tài)之間的互補(bǔ)性,減少信息冗余,從而實(shí)現(xiàn)更加高效和準(zhǔn)確的數(shù)據(jù)表征。而跨模態(tài)生成則利用各模態(tài)間的語義一致性,實(shí)現(xiàn)數(shù)據(jù)形態(tài)之間的轉(zhuǎn)換,這不僅增強(qiáng)了信息的豐富性,也提升了數(shù)據(jù)的應(yīng)用靈活性。[2]
跨模態(tài)學(xué)習(xí)的進(jìn)化可劃分為三大類型:文本大模型、圖像大模型、音視頻大模型(見圖2)。Sora通過加強(qiáng)模態(tài)間的語義轉(zhuǎn)換和遷移,大幅提升了AI處理復(fù)雜性和長序列數(shù)據(jù)的能力。這一轉(zhuǎn)變意味著人工智能的生成能力從傳統(tǒng)的“本質(zhì)性資料庫”向更為動態(tài)的“或然率資料庫”的關(guān)鍵躍遷,[3]極大地豐富了內(nèi)容創(chuàng)作的廣度與深度。
Sora在提升信息一致性與簡化創(chuàng)作流程方面有著顯著優(yōu)勢,為未來傳媒業(yè)無編輯新聞制作與擴(kuò)展線索式新聞提供了可能性,是跨模態(tài)學(xué)習(xí)領(lǐng)域理論與實(shí)踐相結(jié)合的典范。
2. 擬像式進(jìn)化:虛擬物理實(shí)驗(yàn)室
擬像式進(jìn)化意味著模擬生命的可能性。在高度仿真的環(huán)境中進(jìn)行實(shí)驗(yàn),不僅能夠無風(fēng)險(xiǎn)地探索物理法則,還能夠模擬生命過程和生態(tài)系統(tǒng)的復(fù)雜相互作用。Sora打破了物理時(shí)空區(qū)隔,為模擬真實(shí)世界物理?xiàng)l件提供了可能。它不僅具備強(qiáng)大的內(nèi)容生成能力,還能夠模擬復(fù)雜物理實(shí)驗(yàn)場景,為理論驗(yàn)證、原型設(shè)計(jì)和概念創(chuàng)新提供低風(fēng)險(xiǎn)測試環(huán)境。
Sora能夠模擬出與真實(shí)環(huán)境幾乎無異的復(fù)雜場景,不僅能夠自然地融合背景,流暢地進(jìn)行鏡頭切換,還能夠精準(zhǔn)模擬動態(tài)視角變換,在無須人工干預(yù)的情況下,達(dá)到影視級別的拍攝效果。這一突破大幅提高了視頻制作效率,同時(shí)為視頻創(chuàng)作帶來前所未有的靈活性和沉浸感。與傳統(tǒng)的VR/AR技術(shù)相比,Sora創(chuàng)造的虛擬時(shí)空更像是將現(xiàn)實(shí)與想象無縫結(jié)合的混合現(xiàn)實(shí),多重時(shí)空重組的特性表現(xiàn)為不受物理法則限制,展現(xiàn)模擬物理世界的先進(jìn)性。Sora具備精確的物理規(guī)律模擬和動態(tài)場景再現(xiàn)能力,為各領(lǐng)域發(fā)展帶來革命性影響,為未來傳媒業(yè)的新聞報(bào)道、影視制作、廣告設(shè)計(jì)等應(yīng)用場景賦能。
Sora不僅重塑我們對物理世界模擬的認(rèn)知,也為理論探索與創(chuàng)新實(shí)踐開辟了新路徑。通過深度融合自然語言理解與視覺內(nèi)容生成,在確保精確模擬的同時(shí),也極大地拓展了我們對現(xiàn)實(shí)世界可能性的想象。
3. 創(chuàng)新式進(jìn)化:開拓“反物理美學(xué)”與“異世界美學(xué)”
Sora打破傳統(tǒng)時(shí)空限制,突破固有的認(rèn)知框架,催生創(chuàng)新理念,在人工智能邁向通用人工智能的道路上,發(fā)揮著核心作用。例如,Sora可以生成美人魚及其伙伴評測智能手機(jī)、一頭公牛在精致瓷器店中自由漫步、輪滑馬等視頻敘事。這些視頻敘事不僅具備異想天開的故事情節(jié),還標(biāo)志著智能化增量創(chuàng)新,意味著人工智能從標(biāo)準(zhǔn)化資源向個(gè)性化創(chuàng)新的轉(zhuǎn)變。
在模擬元宇宙的進(jìn)化中,Sora作為元宇宙的載體,通過擴(kuò)散模型能力,能夠從噪聲中預(yù)測并生成“干凈”的視頻補(bǔ)丁,實(shí)現(xiàn)視頻內(nèi)容的前向與后向擴(kuò)展,創(chuàng)造無縫循環(huán)視頻。這一技術(shù)為我們探索“反物理美學(xué)”與“異世界美學(xué)”提供了路徑。Sora能夠創(chuàng)造出超越常規(guī)認(rèn)知的藝術(shù)形態(tài),通過“反物理美學(xué)”可以挑戰(zhàn)既有的物理定律,通過“異世界美學(xué)”可以創(chuàng)造出不受現(xiàn)實(shí)世界約束的想象空間。Sora不僅改變了內(nèi)容創(chuàng)作流程,還為價(jià)值創(chuàng)造提供了新的視角和方法。
未來,Sora將引領(lǐng)定制化創(chuàng)新、自動化創(chuàng)新及應(yīng)用化創(chuàng)新的浪潮,通過不同主體間的資源組合與重新配置,推動新產(chǎn)品、新服務(wù)和新商業(yè)模式的誕生。這些活動不僅是邁向AGI的關(guān)鍵步驟,也是實(shí)現(xiàn)增量創(chuàng)新的重要途徑。Sora技術(shù)的深入應(yīng)用和發(fā)展,預(yù)示著我們正步入一個(gè)由AI驅(qū)動的創(chuàng)新與創(chuàng)造的新紀(jì)元。
二、人類認(rèn)知與Sora的矛盾探索
在探討Sora在現(xiàn)實(shí)社會中的應(yīng)用與影響前,需要厘清三組核心矛盾:同質(zhì)化與異質(zhì)性的平衡、真實(shí)與虛構(gòu)的界限、知識重組與創(chuàng)新的爭論。三組矛盾揭示了人類既有認(rèn)知與Sora發(fā)展的沖突性,以及人機(jī)共生問題的復(fù)雜性。它不僅挑戰(zhàn)人類對技術(shù)本質(zhì)的理解,也促使人類重新審視AI在現(xiàn)實(shí)社會中的角色與影響。
1. 同質(zhì)化與異質(zhì)性的平衡
第一組矛盾引發(fā)的問題為:Sora是推動人類走向極致同質(zhì)化方向,還是強(qiáng)化個(gè)體的個(gè)性化競爭力?我們生活在獨(dú)一無二的現(xiàn)實(shí)世界中,作為現(xiàn)實(shí)世界的生命體,每個(gè)人的存在都是唯一的,這讓我們陷入固有的“是其所是”的狀態(tài)。然而,Sora所建構(gòu)的虛構(gòu)世界為我們提供了一種能夠成為其他可能性的狀態(tài),通過技術(shù)的力量挖掘和放大了存在的多樣性。保羅·萊文森以生物進(jìn)化為隱喻,提出媒介進(jìn)化論,認(rèn)為社會環(huán)境的變化必然引起媒介的演變,新媒介的出現(xiàn)是對現(xiàn)實(shí)世界的一種“補(bǔ)救”手段。Sora作為“類世界模型”,實(shí)際上是對現(xiàn)實(shí)世界的技術(shù)性擬像投射,它提供了一種選擇性的解放——既逼真模擬現(xiàn)實(shí)世界的某些時(shí)空屬性,又超越這些限制,釋放潛在的多樣性。它不單是對現(xiàn)實(shí)世界的三維重建,更是對存在本質(zhì)、知識的界限、文化和社會結(jié)構(gòu)的重新想象。
2. 真實(shí)與虛構(gòu)的界限
第二組矛盾引發(fā)的問題為:如何在創(chuàng)造超真實(shí)體驗(yàn)的同時(shí),保持真實(shí)與虛構(gòu)之間的清晰界限?有學(xué)者指出,Sora生成的影像資料雖然被稱為真實(shí)的虛構(gòu),但其真實(shí)感源自高度發(fā)達(dá)的算法,這些算法使Sora能夠以接近先進(jìn)物理引擎的能力,精確模擬自然和社會現(xiàn)象。然而,其所呈現(xiàn)的事件或現(xiàn)象并未真實(shí)發(fā)生,全由計(jì)算機(jī)生成,因此具有虛構(gòu)的本質(zhì)。[4]
Sora挑戰(zhàn)了基于確定性物理規(guī)則的現(xiàn)實(shí)世界觀,引發(fā)了既基于現(xiàn)實(shí)又超脫現(xiàn)實(shí)的超真實(shí)世界。這種技術(shù)的雙刃劍效應(yīng)在于,盡管它提供了前所未有的逼真體驗(yàn),其背后的生成機(jī)制卻是基于概率推斷而非確切邏輯,有可能導(dǎo)致人們對真實(shí)性的認(rèn)識模糊,影響個(gè)體的世界觀和價(jià)值觀。真、善、美是維系社會秩序的基礎(chǔ)概念,當(dāng)真相變得模糊時(shí),人們對善和美的理解也將遭受沖擊,可能引發(fā)道德和審美準(zhǔn)則的混亂。在Sora等人工智能產(chǎn)品模糊了真實(shí)與虛構(gòu)的邊界后,普遍性的焦慮或許會成為深層的社會現(xiàn)象,即當(dāng)矛盾律不再可靠之時(shí),我們該以何種標(biāo)準(zhǔn)判斷世間對錯(cuò)?
隨著數(shù)字空間的不斷發(fā)展,現(xiàn)實(shí)與虛擬內(nèi)容之間的界限愈發(fā)模糊,部分虛構(gòu)內(nèi)容甚至達(dá)到令人難以辨識的程度。這一現(xiàn)象不僅對社會觀念和群體認(rèn)知造成直接的沖擊,而且將嚴(yán)重破壞人際及系統(tǒng)間的信任,引起社會范圍內(nèi)的普遍不信任,甚至可能導(dǎo)致整個(gè)社會的認(rèn)知架構(gòu)崩潰。在“后真相時(shí)代”,真相和邏輯被邊緣化。隨著Sora的發(fā)展,真相可能會經(jīng)歷再次分割、扭曲和隱藏。道德真相的可塑性被放大,正如鮑德里亞在其擬像理論中提出的“擬像三序列”,在仿真階段,擬像所創(chuàng)造的超真實(shí)打破了傳統(tǒng)對真實(shí)的反映及真實(shí)的規(guī)律,構(gòu)建了一種全新的真實(shí)。[5]
3. 知識重組與創(chuàng)新的爭論
第三組矛盾引發(fā)的問題為:Sora生成的內(nèi)容是知識的重組,還是知識的創(chuàng)新?一方面,Sora依賴現(xiàn)有數(shù)據(jù)和知識模式生成內(nèi)容,滿足用戶對知識準(zhǔn)確性的嚴(yán)格要求;另一方面,這種依賴可能會限制Sora在創(chuàng)新領(lǐng)域的擴(kuò)展,因?yàn)閯?chuàng)新本質(zhì)上是對現(xiàn)有框架的突破與超越。對于上述矛盾,一種觀點(diǎn)認(rèn)為,AIGC本質(zhì)上只是一種模仿,不能進(jìn)行藝術(shù)性的創(chuàng)新,技術(shù)只是對不同主體內(nèi)容的解構(gòu)與重組。相反,另一種觀點(diǎn)認(rèn)為這種重組本身可以被視為一種創(chuàng)新行為,為生成全新的觀點(diǎn)和解讀提供了基礎(chǔ)。他們看好人類與AI合作潛力,預(yù)言借助AIGC會涌現(xiàn)新“浪漫主義運(yùn)動”,這一運(yùn)動將推動人類創(chuàng)造力向更高層次發(fā)展。[6]
筆者認(rèn)為,Sora所具備的關(guān)鍵幀倒推、視頻風(fēng)格轉(zhuǎn)換與圖像差值等技術(shù)特征,不僅凸顯了其與傳統(tǒng)CGI(計(jì)算機(jī)生成圖像)技術(shù)的區(qū)別,還具備推動“反物理美學(xué)”與“異世界美學(xué)”的獨(dú)特潛力。Sora通過創(chuàng)造違反自然規(guī)律的場景和對象,在挑戰(zhàn)現(xiàn)實(shí)世界物理約束的同時(shí),也開拓了對超現(xiàn)實(shí)和幻想邊界的探索。這種美學(xué)追求不僅是對現(xiàn)實(shí)規(guī)律的逆向思維,更是對無限可能性的探索。通過逆反常規(guī),促進(jìn)對存在本質(zhì)、認(rèn)知邊界、文化及社會結(jié)構(gòu)的深度反思和重新想象。
以上三組矛盾展現(xiàn)出人類對Sora的復(fù)雜反應(yīng),也預(yù)示著Sora在推動人類認(rèn)知發(fā)展層面的潛力。針對這些矛盾,有學(xué)者指出,AIGC面臨諸多挑戰(zhàn),如新聞的真實(shí)性難以確保、創(chuàng)造力的逐步減弱以及新聞價(jià)值觀的偏差等。同時(shí),也有學(xué)者認(rèn)為,AIGC不僅為媒體內(nèi)容生產(chǎn)提供新的工具,而且還重新激發(fā)了從業(yè)者對媒體融合現(xiàn)有認(rèn)知框架的思考,引起他們對內(nèi)容世界構(gòu)建和交互方式的深入關(guān)注。[7]
三、Sora對傳媒生態(tài)認(rèn)知的正面影響
Sora不僅重塑了信息傳播的方式,更在認(rèn)知層面為傳媒行業(yè)帶來新的可能性。作為媒介生態(tài)鏈中的核心,認(rèn)知的重要性體現(xiàn)在塑造媒介的生產(chǎn)、傳播及接收模式上。Sora正是在認(rèn)知節(jié)點(diǎn)上施加影響,預(yù)示著整個(gè)媒介生態(tài)系統(tǒng)可能會發(fā)生根本性的變革。
安迪·克拉克和戴維·查爾默斯提出的延展認(rèn)知理論,為分析Sora對媒介生態(tài)影響的可能性提供強(qiáng)有力的理論支撐。該理論認(rèn)為,認(rèn)知過程不僅限于大腦內(nèi)部,而且可以擴(kuò)展到個(gè)體外部的身體、環(huán)境以及使用的工具和技術(shù)中。[8]這一觀點(diǎn)挑戰(zhàn)了傳統(tǒng)心靈與世界二元對立的觀念,提出一種更加開放、互動的認(rèn)知視角。基于此,可以通過SSC框架,分析Sora對傳媒行業(yè)的主體、場景及連接性的潛在影響并進(jìn)行預(yù)測與分析。
1. 主體的轉(zhuǎn)變:從半人工編輯到語義智能體
認(rèn)知主體包括受眾、傳媒從業(yè)者、傳媒平臺及社會環(huán)境等多元概念。本文聚焦傳媒從業(yè)者,如記者、編輯、內(nèi)容創(chuàng)作者等,探討他們未來如何通過Sora提升認(rèn)知能力和生產(chǎn)效率。
目前,傳媒內(nèi)容生成正經(jīng)歷從人工編輯向語義智能體的轉(zhuǎn)變。傳統(tǒng)上,傳媒從業(yè)者依靠個(gè)人的知識、經(jīng)驗(yàn)和判斷來創(chuàng)作內(nèi)容。隨著寫作軟件、搜索引擎等工具的出現(xiàn),傳媒從業(yè)者能夠處理的信息量顯著提升。AI技術(shù),特別是自然語言處理和機(jī)器學(xué)習(xí)的發(fā)展,為認(rèn)知能力的擴(kuò)展提供新的可能性。AI的能力不僅限于理解和處理自然語言,還能生成符合人類閱讀習(xí)慣的內(nèi)容,打破了內(nèi)容創(chuàng)作僅限于人類認(rèn)知能力的局限。目前,AI主要在輔助內(nèi)容創(chuàng)作中發(fā)揮作用,如提供素材、建議和修改意見,最終的創(chuàng)作決策仍由人類完成。
語義智能體在特定環(huán)境下表現(xiàn)為自治性、社會性與思辨性。通過擴(kuò)展人類認(rèn)知的邊界,增強(qiáng)人類的感知能力,從而為傳媒領(lǐng)域帶來新的賦能。在此背景下,智能體的行動過程可以歸納為三個(gè)核心步驟:感知、規(guī)劃和行動。[9]這一過程的基礎(chǔ)邏輯是將AI從模擬人類思維進(jìn)化到模擬人類行為,實(shí)現(xiàn)從思維鏈到行為鏈的轉(zhuǎn)換,即AI能夠進(jìn)行自主化決策,實(shí)現(xiàn)任務(wù)鏈的自動化,達(dá)到“天人智一”。
Sora簡化了工作流程,改變了新聞的生產(chǎn)與消費(fèi)方式,為擴(kuò)展線索式新聞、無編輯新聞、互動式新聞與自動翻譯新聞等新形式提供技術(shù)基礎(chǔ),并為受眾帶來更加豐富、個(gè)性化和互動式的新聞體驗(yàn)。此外,通過多模態(tài)融合、多AI校正與多角色對話的技術(shù)應(yīng)用,Sora能夠提高新聞內(nèi)容的準(zhǔn)確性與可靠性,推動新聞行業(yè)向更高效、更智能的方向發(fā)展。
2. 場景的變革:打破物理時(shí)空局限性
場景體驗(yàn)成為個(gè)體認(rèn)知改變的關(guān)鍵要素,[10]郭全中等指出,Sora作為一款文生視頻的大模型,標(biāo)志著AI發(fā)展進(jìn)入三維階段。它能夠具象化生產(chǎn)場景內(nèi)容,直觀化輸出場景傳播,并全面拓展場景變現(xiàn)的運(yùn)營模式,從而改變未來技術(shù)的使用方式。當(dāng)下,在AI技術(shù)向新階段躍進(jìn)的強(qiáng)力驅(qū)動下,傳媒業(yè)態(tài)將經(jīng)歷深刻變革。新聞行業(yè)在特定環(huán)境下所形成的內(nèi)容生產(chǎn)、傳播方式、運(yùn)營模式是可預(yù)見的關(guān)鍵趨向。
內(nèi)容生產(chǎn)方面,Sora通過降低場景構(gòu)建成本,賦能更具象的新聞呈現(xiàn)方式。它通過高度掌握動態(tài)視角變換,在無須人工干預(yù)的情況下實(shí)現(xiàn)復(fù)雜的鏡頭切換,模擬出與真實(shí)拍攝效果相似的視頻,極大地提升了視頻的觀賞性和沉浸感。這不僅降低了動態(tài)化視頻的制作門檻,也大幅提升了效率,使得以往難以復(fù)現(xiàn)、不便實(shí)拍的新聞現(xiàn)場通過逼真的視頻效果加以還原。這種進(jìn)步不僅加強(qiáng)了新聞具象化呈現(xiàn),也為現(xiàn)場真實(shí)感的再現(xiàn)與受眾認(rèn)知體驗(yàn)提供了新的實(shí)踐路徑。
傳播方式方面,Sora依托直觀化輸出,有效減少新聞傳播的語義灰色空間。通過構(gòu)造的場景,Sora可以增強(qiáng)新聞情感共鳴,使讀者對新聞事件的理解更加準(zhǔn)確和一致。結(jié)合AR、VR等設(shè)備,實(shí)現(xiàn)直觀化的場景呈現(xiàn),使新聞中的抽象概念和復(fù)雜信息能夠更加直觀地傳達(dá)給讀者,從而降低誤解和歧義,促進(jìn)社會共識的形成。在運(yùn)營模式方面,Sora全面拓展場景變現(xiàn)的可能性,豐富新聞行業(yè)的盈利模式。Sora高逼真、高互動、高沉浸的內(nèi)容生產(chǎn)與傳播,以及強(qiáng)大的內(nèi)容個(gè)性化,將提高用戶黏性,刺激受眾需求,為新聞機(jī)構(gòu)提供創(chuàng)造高價(jià)值內(nèi)容的機(jī)會。新聞機(jī)構(gòu)可以通過提供付費(fèi)訂閱或單篇購買的方式,增加直接從內(nèi)容獲取收益的可能性,通過品牌廣告、虛擬活動等形式,開辟新的盈利渠道。Sora的快速、低成本、高效率特性,使新聞機(jī)構(gòu)能夠更加靈活地應(yīng)對突發(fā)新聞,將更多的資源投入創(chuàng)新盈利模式的探索中。
2. “AI幻覺”對Sora在傳媒業(yè)應(yīng)用的限制
在傳媒行業(yè),AI技術(shù)的應(yīng)用受制于對新聞內(nèi)容的真實(shí)性、準(zhǔn)確性和客觀性的嚴(yán)格要求。新聞工作者承擔(dān)著追尋真相、確保報(bào)道準(zhǔn)確性的責(zé)任,這涉及報(bào)道全過程的追蹤、事實(shí)細(xì)節(jié)的呈現(xiàn)與核實(shí)、信息來源的明確,以及避免操縱圖像與聲音產(chǎn)生誤導(dǎo)受眾的行為。遺憾的是,通過對Sora生成視頻的分析,我們發(fā)現(xiàn)未來傳媒業(yè)在AI領(lǐng)域的應(yīng)用將迎來“AI幻覺”的新挑戰(zhàn)。
首先,Sora在解析復(fù)雜空間維度和時(shí)間序列時(shí)具有局限性,影響其在模擬物理世界方面的表現(xiàn)。雖然Sora在某些方面取得了成就,但在處理視頻時(shí)間數(shù)據(jù)和復(fù)雜場景的物理規(guī)律時(shí),表現(xiàn)出性能不足和一致性差異,尤其在生成內(nèi)容中物體與角色位置的準(zhǔn)確性與合理性方面,這些現(xiàn)象限制了其在創(chuàng)造高質(zhì)量影視作品或新聞報(bào)道中的應(yīng)用潛力。例如,在生成的場景中,咬餅干沒留下咬痕、生日蠟燭吹不滅等不符合現(xiàn)實(shí)的細(xì)節(jié)。
其次,Sora在捕捉細(xì)節(jié)方面存在局限性,尤其在生成細(xì)節(jié)豐富和動態(tài)復(fù)雜的視頻內(nèi)容時(shí),在連續(xù)性、流暢性及動態(tài)元素處理(如人物動作、場景變化)中的能力不足。這些限制為追求頂尖視覺效果的電影制作、廣告創(chuàng)意及實(shí)時(shí)新聞報(bào)道等領(lǐng)域帶來了挑戰(zhàn),影響Sora在這些領(lǐng)域的應(yīng)用。
隨著我們逐步接近通用人工智能時(shí)代,Sora構(gòu)建的超真實(shí)世界預(yù)示著傳媒生產(chǎn)者的身份和傳播渠道將變得更加多元化。這種多元化雖然豐富了內(nèi)容生產(chǎn)與傳播方式,但也可能導(dǎo)致AI謠言、AI詐騙等失范現(xiàn)象頻發(fā),對新聞?wù)鎸?shí)性構(gòu)成前所未有的挑戰(zhàn)。
3. 突破“AI幻覺”:AI博弈與核查策略
深入分析“AI幻覺”的過程,實(shí)際上是在探求其背后的真相。新聞的真實(shí)性一直是新聞實(shí)踐和學(xué)術(shù)研究的核心議題。在傳統(tǒng)媒體時(shí)代,新聞從業(yè)人員依托于專業(yè)主義規(guī)范,通過規(guī)范化的新聞生產(chǎn)流程,致力于維護(hù)新聞的真實(shí)性原則。在社會運(yùn)作中,真實(shí)是建立信任體系的基石。社會的真相越是明晰,其信任體系的范圍就越廣泛,社會交易成本隨之降低,反之則增加。然而,在當(dāng)前AI技術(shù)快速發(fā)展的背景下,傳媒行業(yè)面臨著來自“AI幻覺”的挑戰(zhàn),迫切需要采取創(chuàng)新性的策略來突破這一難題。
首先,從技術(shù)層面來說,加強(qiáng)編碼與解碼應(yīng)用過程至關(guān)重要。模型對輸入的語義解釋不足是幻覺現(xiàn)象出現(xiàn)的主要原因,對此,可以通過短語裁剪、去上下文和語法修改等方法修訂數(shù)據(jù)集,構(gòu)建更忠實(shí)的數(shù)據(jù)集;同時(shí),通過篩選和識別幻覺信息,將幻覺檢測器與自動化AI編輯器相結(jié)合,可以在信息到達(dá)用戶之前,修正平行語料庫中的無關(guān)和矛盾內(nèi)容,以上做法不僅能提高數(shù)據(jù)的準(zhǔn)確性,還能夠利用增強(qiáng)的外部信息,獲得更加精確和可靠的源數(shù)據(jù)。同時(shí),采用外部知識、顯式對齊以及額外訓(xùn)練數(shù)據(jù)等方式,不僅能夠增強(qiáng)源語言與目標(biāo)語言之間的關(guān)聯(lián)性,還能幫助模型更加高效地掌握與任務(wù)緊密相關(guān)的特征。在傳媒行業(yè)中,加強(qiáng)語義理解有助于緩解源信息發(fā)散的問題,這種方法不僅對提升內(nèi)容的真實(shí)性至關(guān)重要,還對維護(hù)和增強(qiáng)媒體品牌的信任度發(fā)揮著核心作用。
其次,從傳媒角色的層面出發(fā),需從生產(chǎn)者轉(zhuǎn)變?yōu)楹瞬檎?。與傳統(tǒng)新聞機(jī)構(gòu)在報(bào)道前進(jìn)行事實(shí)核查不同,互聯(lián)網(wǎng)時(shí)代事實(shí)核查新聞的主要做法是對已經(jīng)發(fā)表的報(bào)道或公眾人物的言論進(jìn)行事實(shí)層面的訂正。[16]研究顯示,盡管人類視覺系統(tǒng)在識別幻覺方面顯示出高度的“魯棒性”,但當(dāng)前基于AI的深度學(xué)習(xí)系統(tǒng)相比生物視覺系統(tǒng),還存在本質(zhì)缺陷。這種認(rèn)識揭示了AI在處理復(fù)雜視覺信息時(shí)的局限性,強(qiáng)調(diào)發(fā)展先進(jìn)AI核查工具的必要性,以辨識和糾正AI生成內(nèi)容中的不準(zhǔn)確性。
最后,從治理觀念的層面來說,應(yīng)從人工治理邏輯向機(jī)器治理邏輯演進(jìn)。這包括開發(fā)基于AI博弈理論的幻覺識別技術(shù),即借助訓(xùn)練自動化提示,建立多個(gè)角色,進(jìn)行基于多個(gè)智能體的博弈與碰撞,借此識別和修正幻覺。
結(jié)語
技術(shù)在傳媒產(chǎn)業(yè)中的應(yīng)用,并不僅僅由技術(shù)邏輯本身決定,而是深深植根于社會結(jié)構(gòu)、文化背景和政治環(huán)境等復(fù)雜因素之中。值得注意的是,雖然技術(shù)本身不具備固有的道德屬性,但在進(jìn)入實(shí)際應(yīng)用領(lǐng)域的過程中,不可避免會受到外在因素的深刻影響,進(jìn)而導(dǎo)致一系列多樣化的道德后果。因此,我們必須重新審視對技術(shù)的態(tài)度,尤其是當(dāng)涉及道德問題時(shí),需要保持高度警覺,積極規(guī)避潛在風(fēng)險(xiǎn)。
盡管Sora的基本原理已經(jīng)對外公開,但它在實(shí)際應(yīng)用和普及過程中仍面臨考驗(yàn),尤其是如何將其有效融入現(xiàn)行的生產(chǎn)與創(chuàng)作流程。一方面,Sora在未來傳媒業(yè)的應(yīng)用無疑能夠擴(kuò)展創(chuàng)意表達(dá)的邊界,為受眾提供全新的體驗(yàn);另一方面,鑒于Sora目前存在的一些局限性,傳媒行業(yè)在未來應(yīng)用此類技術(shù)時(shí),需更加仔細(xì)地考量內(nèi)容的真實(shí)性與準(zhǔn)確性,特別是在涉及歷史事件重現(xiàn)、科學(xué)概念解釋和新聞報(bào)道等方面。
面對Sora帶來的種種復(fù)雜影響,全社會都需要對潛在的利益與風(fēng)險(xiǎn)進(jìn)行深入探討。2022年3月,中共中央辦公廳和國務(wù)院辦公廳發(fā)布《關(guān)于加強(qiáng)科技倫理治理的意見》,對科技倫理治理工作進(jìn)行了系統(tǒng)規(guī)劃,反映對此類問題的重視。在全球科技倫理治理機(jī)制尚待完善的背景下,控制這類技術(shù)發(fā)展的速度至關(guān)重要。國際社會正在加快人工智能倫理治理領(lǐng)域的合作步伐,聯(lián)合國教科文組織等國際機(jī)構(gòu)也已就人工智能倫理的共識性原則提出相關(guān)建議和政策,其核心目標(biāo)在于確保人工智能技術(shù)的應(yīng)用能夠尊重、保護(hù)并促進(jìn)人類的權(quán)利、基本自由和尊嚴(yán)。[17]
本論文試圖探索Sora本質(zhì)及其對傳媒行業(yè)的影響,但在分析過程中存在一定的局限性。如對于Sora細(xì)節(jié)和工作機(jī)制的探索尚不充分,盡管論文針對如何應(yīng)對“AI幻覺”問題提出若干策略,但這些建議在當(dāng)前階段更多地體現(xiàn)為理論性探討,而未深入挖掘這些解決方案在現(xiàn)實(shí)操作中所面臨的具體挑戰(zhàn)以及應(yīng)對之道。因此,相關(guān)研究仍待深入。
參考文獻(xiàn):
[1] LeCun怒斥Sora是世界模型,自回歸LLM太簡化了[EB/OL].[2024-02-27].https://www.thepaper.cn/newsDetail_forward_26471467.
[2] 劉華峰,陳靜靜,李亮,等. 跨模態(tài)表征與生成技術(shù)[J]. 中國圖象圖形學(xué)報(bào),2023(6):1608.
[3] 周葆華. 或然率資料庫:作為知識新媒介的生成智能ChatGPT[J]. 現(xiàn)代出版,2023(2):21-32.
[4] 高奇琦,臺潤澤. 基于世界模擬的政治非穩(wěn)態(tài):Sora的智能影像生成與歷史重塑[J/OL].[2024-04-10].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),https://doi.org/10.14100/j.cnki.65-1039/g4.20240318.002.
[5] 陳力丹,陸亨. 鮑德里亞的后現(xiàn)代傳媒觀及其對當(dāng)代中國傳媒的啟示——紀(jì)念鮑德里亞[J]. 新聞與傳播研究,2007(3):75-79.
[6] 鄧建國. 概率與反饋:ChatGPT的智能原理與人機(jī)內(nèi)容共創(chuàng)[J]. 南京社會科學(xué),2023(3):86-94.
[7] 謝湖偉,簡子奇,沈欣怡. 認(rèn)知框架視角下AIGC對媒體融合的影響研究——對30位媒體融合從業(yè)者的深度訪談[J]. 新聞與傳播評論,2023(6):5-18.
[8] 劉曉力. 延展認(rèn)知與延展心靈論辨析[J]. 中國社會科學(xué),2010(1):48-57.
[9] 喻國明,蘇芳. 作為真實(shí)世界模擬器的媒介與后真相時(shí)代的“撥亂反正”——以Sora為例解析數(shù)字文明時(shí)代的媒介新范式[J]. 新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2024(4):143-148.
[10] 喻國明,蘇健威. 從Sora到AGI:智能媒介的升維與全新場景體驗(yàn)時(shí)代的到來[J]. 編輯之友,2024(6):39-45.
[11] 凱瑟琳·海勒. 我們何以成為后人類:文學(xué)、信息科學(xué)和控制論中的虛擬身體[M]. 劉宇清,譯. 北京:北京大學(xué)出版社,2017:154.
[12] 許雪晨,田侃,李文軍. 新一代人工智能技術(shù)(AIGC):發(fā)展演進(jìn)、產(chǎn)業(yè)機(jī)遇及前景展望[J]. 產(chǎn)業(yè)經(jīng)濟(jì)評論,2023(4):5-22.
[13] 彭蘭. 智能生成內(nèi)容如何影響人的認(rèn)知與創(chuàng)造?[J]. 編輯之友, 2023(11): 24.
[14] Jan Dirk Blom.A Dictionary of Hallucinations[M]. Berlin:Springer Science & Business Media, 2009: 216.
[15] Ji Z, Lee N, Frieske R, et al. Survey of hallucination in natural language generation[J]. ACM Computing Surveys, 2013(12): 1-38.
[16] 虞鑫,陳昌鳳. 美國“事實(shí)核查新聞”的生產(chǎn)邏輯與效果困境[J]. 新聞大學(xué),2016(4):27-33.
[17] 中國信通院:人工智能倫理治理研究報(bào)告(2023)[EB/OL].[2023-12-26].https://www.sohu.com/a/747241076_121856455.
Sora: The Mirror Evolution and Cognitive Transformation of Media Ecology
ZHANG Shi-yao, SHEN Yang(School of Journalism and Communication, Tsinghua University, Beijing 100084, China)
Abstract: Sora, as a revolutionary "world-like model", evolves with the logic of mirror evolution, leading the new era of cognitive integration, which means heaven, human, and intelligence are united as "One". Driven by the revolution of text-to-video technology, this study targets three sets of core contradictions as entry points, delves into the potential impacts of Sora on the cognition of future media ecology. It finds that Sora leads the exploration from "otherworldly aesthetics" to "anti-physical aesthetics", signifying a shift from standardized resources to personalized innovation. Concurrently, it forecasts that the media subject will transit from traditional semi-manual editing to semantic intelligent agents, deeply breaking the physical spacetime barriers in media scenarios, and steering the media industry's value towards the direction of AI hardware. Furthermore, a case analysis of 48 videos released on the Sora official website unveiled the emergence of the AI hallucination issue. In the future, media practitioners are required to shift their roles from producers to verifiers. In applications, emphasis should be laid on the encoding and decoding processes; in governance, a transition from manual governance logic to machine governance logic is necessary. Specifically, illusion recognition technologies based on game theory, utilizing multiple roles and agents, are needed for the games and collisions among AI systems to effectively identify and correct hallucinatory content.
Key words: Sora; media ecology; cognitive integration; "AI Empowered IP"; "AI hallucination"