摘要: 世界模型是一種旨在模擬和理解環(huán)境的神經(jīng)網(wǎng)絡(luò)系統(tǒng),其核心思想是通過感知和經(jīng)驗(yàn)構(gòu)建內(nèi)在模型,并以此進(jìn)行推理、規(guī)劃和決策。研究了世界模型的發(fā)展歷程、核心概念和技術(shù)實(shí)現(xiàn),探討了其在人工智能領(lǐng)域的重要性和潛在應(yīng)用。在綜合研究的基礎(chǔ)上介紹了世界模型的基本概念、主要算法以及典型模型,如DreamerV3、STORM、MWM等算法和Sora、Gemini等具有代表性的模型;討論了世界模型在不同領(lǐng)域中的實(shí)際應(yīng)用,如文本和視頻多模態(tài)預(yù)測、機(jī)器人控制、自動駕駛等。最后,展望了世界模型的未來發(fā)展方向。
關(guān)鍵詞: 世界模型; 算法; 應(yīng)用; 人工智能
中圖分類號: TP18
文獻(xiàn)標(biāo)志碼: A
文章編號: 1671-6841(2024)05-0001-12
DOI: 10.13705/j.issn.1671-6841.2024078
Overview of World Models
WANG Jun1,2, CUI Yunye1, ZHANG Yuhang1
(1.Institute of Big Data Science, Zhengzhou University of Aeronautics, Zhengzhou 450015, China;
2.Henan Daily, Zhengzhou 450014, China)
Abstract: The world model is a neural network system designed to simulate and understand the environment. Its core idea is to construct an internal model through perception and experience, and use it for reasoning, planning, and decision-making. The development history, core concepts, and technical implementations of world models were explored.And their importance and potential applications in the field of artificial intelligence were discussed. Based on comprehensive research, the basic concepts, main algorithms, and typical models of world models were introduced, such as DreamerV3, STORM, MWM, Sora, Gemini. The practical applications of world models in various domains were discussed, such as multimodal prediction in text and video, robot control, and autonomous driving. Finally, the future development directions of world models were explored.
Key words: world model; algorithm; application; artificial intelligence
0 引言
在人工智能領(lǐng)域的迅速發(fā)展中,模擬和理解世界的能力成為研究和開發(fā)的重要課題之一。在這個背景下,世界模型的概念應(yīng)運(yùn)而生,它旨在構(gòu)建能夠模擬和理解環(huán)境的大型神經(jīng)網(wǎng)絡(luò)系統(tǒng)。世界模型不僅是對環(huán)境的建模,更是對人類認(rèn)知方式的模仿,其試圖通過感知和經(jīng)驗(yàn)構(gòu)建內(nèi)在模型,并以此進(jìn)行推理、規(guī)劃和決策。世界模型的核心思想是利用神經(jīng)網(wǎng)絡(luò)來構(gòu)建環(huán)境的模型,使其能夠模擬現(xiàn)實(shí)世界的各種特征,并為人工智能系統(tǒng)提供一個更豐富、更準(zhǔn)確的認(rèn)知基礎(chǔ)。這種模型不僅可以處理多種類型的數(shù)據(jù),如圖像、文本等,還可以應(yīng)用于各種任務(wù),如規(guī)劃、決策和控制等。盡管世界模型的概念還處于探索階段,但已經(jīng)引起了廣泛的關(guān)注和研究。研究人員希望通過不斷改進(jìn)和擴(kuò)展世界模型,使其能夠更好地適應(yīng)復(fù)雜多變的現(xiàn)實(shí)世界,并為人工智能技術(shù)的發(fā)展帶來新的突破和機(jī)遇。本文將對世界模型的發(fā)展歷程、核心思想、技術(shù)實(shí)現(xiàn)以及實(shí)際應(yīng)用進(jìn)行探討,旨在為讀者提供一個全面了解世界模型的視角,并展望了其在人工智能領(lǐng)域的潛在應(yīng)用和影響。
1 研究背景
世界模型的概念最早可以追溯到哲學(xué)家伊曼努爾·康德(Immanuel Kant)在18世紀(jì)提出的認(rèn)識論理論。
1971年,系統(tǒng)動力學(xué)之父Forrester[1]提出了心智模型:人類會利用其有限的感官去感知周圍的事物,以此來建立內(nèi)心世界模型,人類做出的決策和行動都是基于這種內(nèi)部模型。人的腦海中攜帶的周圍世界的形象只是一個模型。人們只選擇了概念,以及它們之間的關(guān)系,并用它們來表示真實(shí)的系統(tǒng)。也就是說,為了處理日常生活中流動的大量信息,人類大腦學(xué)習(xí)了這些信息的空間和時間方面的抽象表示,然后建立世界模型[2]。在任何時刻,人類的感知都受大腦內(nèi)部世界模型對未來預(yù)測結(jié)果的支配[3]。
Keller等[4]認(rèn)為,大腦內(nèi)部的模型不僅僅是在預(yù)測未來,也同時在預(yù)測未來的感官數(shù)據(jù),因?yàn)樵谌祟愡\(yùn)動的過程中,會下意識地對即將到來的危險做出反應(yīng),而不是通過預(yù)測未來得到結(jié)果后制訂相應(yīng)的計劃[5]。
世界模型的目的是設(shè)計一個可以更新狀態(tài)的神經(jīng)網(wǎng)絡(luò)模塊,用來記憶和建模環(huán)境,實(shí)現(xiàn)輸入當(dāng)前觀測(圖像、狀態(tài)等)和即將采取的動作,根據(jù)模型對世界的記憶和理解預(yù)測下一個可能的觀測和動作,并通過采取動作將下一時刻的實(shí)際觀測和預(yù)測的觀測之間的差異作為損失(loss)來自監(jiān)督訓(xùn)練模型[6]。在世界模型的訓(xùn)練中,loss是一個用于衡量模型預(yù)測與實(shí)際觀測之間差異的指標(biāo),常見的loss包括均方誤差、平均絕對誤差等。
2 基礎(chǔ)理論
2.1 基于遞歸神經(jīng)網(wǎng)絡(luò)的世界模型
Schmidhuber[7]提出了基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)的世界模型,該模型使用從實(shí)際游戲環(huán)境中收集的觀察結(jié)果進(jìn)行訓(xùn)練。在訓(xùn)練世界模型后,可以使用它們來模擬完整的環(huán)境,并以此來訓(xùn)練智能體。大型RNN是具有高度表現(xiàn)力的模型,可以學(xué)習(xí)數(shù)據(jù)的豐富空間和時間表示。然而,許多無模型強(qiáng)化學(xué)習(xí)方法通常只使用參數(shù)很少的小型神經(jīng)網(wǎng)絡(luò)。強(qiáng)化學(xué)習(xí)算法經(jīng)常受到信用分配問題的影響,使得其很難學(xué)習(xí)大型模型的數(shù)百萬個權(quán)重。因此,在實(shí)踐中經(jīng)常使用較小的網(wǎng)絡(luò),因?yàn)樗鼈冊谟?xùn)練期間迭代到良好策略的速度更快。
Schmidhuber[7]認(rèn)為在理想情況下能夠有效地訓(xùn)練基于RNN的大型世界模型。另外,反向傳播算法[8-10]能夠有效地訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。總的來說,該模型是通過訓(xùn)練一個大型神經(jīng)網(wǎng)絡(luò)來處理強(qiáng)化學(xué)習(xí)任務(wù),方法是將代理劃分為一個大的世界模型和一個小的控制器模型。首先訓(xùn)練一個大型神經(jīng)網(wǎng)絡(luò),以無監(jiān)督的方式學(xué)習(xí)智能體世界的模型,然后訓(xùn)練較小的控制器模型,以學(xué)習(xí)使用這個世界模型執(zhí)行任務(wù)。一個小的控制器讓訓(xùn)練算法專注于小搜索空間上的信用分配問題,同時不會通過更大的世界模型犧牲容量和表現(xiàn)力。
圖1是由視覺、內(nèi)存和控制器組成的智能體,是一個類似人類認(rèn)知系統(tǒng)的簡單模型。在這個模型中,首先,智能體有一個視覺感官組件,它把所看到的壓縮成一個小的代表性代碼。其次,智能體還具有一個內(nèi)存組件,可根據(jù)歷史信息對未來代碼進(jìn)行預(yù)測。最后,智能體有一個決策組件,它僅根據(jù)其視覺和記憶組件創(chuàng)建的表示來決定要采取的行動。圖1中,視覺模型(V)將高維觀測編碼成低維潛在向量;記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(M)整合歷史編碼,創(chuàng)建可預(yù)測未來狀態(tài)的表示形式;一個小的控制器(C)利用來自V和M的表示來選擇良好的動作。代理執(zhí)行這些動作,這些動作會反過來影響環(huán)境。a表示代理采取的行動,例如移動、旋轉(zhuǎn)等。h表示隱藏狀態(tài),它包含了過去的信息,對當(dāng)前時間步的輸出有影響。z表示模型從環(huán)境中接收到的觀測或感知的信息,例如傳感器數(shù)據(jù)、圖像像素等。
2.2 JEPA架構(gòu)
由于RNN無法充分挖掘輸入之間的關(guān)系導(dǎo)致訓(xùn)練效果較差,在大規(guī)模序列學(xué)習(xí)任務(wù)中容易出現(xiàn)性能瓶頸,難以應(yīng)對真實(shí)應(yīng)用的決策挑戰(zhàn)[11]。早期的世界模型已有壓縮神經(jīng)表征的訓(xùn)練思想,但主要存在以下局限:一是模擬環(huán)境下訓(xùn)練缺乏真實(shí)世界適應(yīng)性;二是模型存儲編碼能力有限導(dǎo)致災(zāi)難性遺忘;三是無法突破認(rèn)知壁壘[12-13]。因此,文獻(xiàn)[14]提出了全新的世界模型概念——聯(lián)合嵌入預(yù)測架構(gòu)(joint embedding predictive architecture,JEPA),并基于該模型設(shè)想了自主人工智能架構(gòu),其功能模塊如表1所示。
JEPA是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在實(shí)現(xiàn)聯(lián)合嵌入和預(yù)測任務(wù)。這個架構(gòu)結(jié)合了嵌入學(xué)習(xí)和預(yù)測模型,以便在一個統(tǒng)一的框架下進(jìn)行多種任務(wù),如推薦系統(tǒng)、搜索引擎、自然語言處理等。
JEPA架構(gòu)的核心思想是將輸入數(shù)據(jù)和目標(biāo)數(shù)據(jù)映射到一個共同的嵌入空間,從而使得輸入數(shù)據(jù)和目標(biāo)數(shù)據(jù)能夠在這個嵌入空間中進(jìn)行有效表示和比較。通過這種方式,JEPA能夠同時處理輸入數(shù)據(jù)和目標(biāo)數(shù)據(jù),從而實(shí)現(xiàn)聯(lián)合預(yù)測任務(wù)。
該架構(gòu)的六大模塊分別為:配置器、感知器、世界模型、成本控制器、行動規(guī)劃器和短期記憶。這六大模塊之間相互協(xié)調(diào)和適應(yīng),與人腦的四大腦區(qū)之間的分工具有一定的相似性。自主人工智能模塊與人腦腦區(qū)的聯(lián)系如圖2所示。人腦大體可分為大腦、腦干、小腦和邊緣系統(tǒng)四部分,其中與人的高級認(rèn)知相關(guān)的區(qū)域均位于大腦的額葉、枕葉、頂葉和顳葉區(qū)。
首先,額葉作為大腦中發(fā)育最高級的部分,是人類大部分意識產(chǎn)生的區(qū)域,可直接訪問感覺信息并控制專用于計劃、判斷和運(yùn)動執(zhí)行的區(qū)域[15],這與自主人工智能架構(gòu)的世界模型模塊相對應(yīng)。其次,枕葉是大腦的視覺處理中心,是視覺空間處理、顏色辨別和運(yùn)動感知區(qū)域[16],對應(yīng)感知器。再次,顳葉主要負(fù)責(zé)記憶存儲、語言理解和情緒聯(lián)系方面的處理[17],對應(yīng)成本控制器和短期記憶。最后,頂葉主要負(fù)責(zé)整合內(nèi)外部感覺反饋,并將其整合為連貫的表征,以完成協(xié)調(diào)工作[18],相當(dāng)于配置器的作用。此外,行動規(guī)劃器計算智能體動作序列的先后順序并選擇最優(yōu)動作,與小腦、腦干等對軀體的控制相關(guān)。
3 世界模型的主要算法
3.1 DreamerV3
DreamerV3是一種通用且可擴(kuò)展的算法,它在固定超參數(shù)情況下可應(yīng)用于各種領(lǐng)域,且表現(xiàn)優(yōu)于領(lǐng)域特定的算法[19-20]。DreamerV3從具有豐富感知和圖像訓(xùn)練的經(jīng)驗(yàn)中學(xué)習(xí)世界模型。該算法由3個神經(jīng)網(wǎng)絡(luò)組成:世界模型、評論者(critic)和行動者(actor)。世界模型預(yù)測了潛在動作的未來結(jié)果,評論者判斷每個狀態(tài)的價值,而行動者學(xué)會了達(dá)到有價值的狀態(tài)。這3個網(wǎng)絡(luò)從經(jīng)驗(yàn)回放中共同訓(xùn)練而沒有梯度共享,訓(xùn)練過程如圖3所示。世界模型接收感官輸入,通過遞歸狀態(tài)ht的序列模型生成表示,并使用zt表示來預(yù)測未來的動作。然后,模型通過重新構(gòu)造輸入來生成學(xué)習(xí)信號,以優(yōu)化表示的性能。
世界模型通過自編碼來學(xué)習(xí)感官輸入的緊湊表示,并通過預(yù)測未來和潛在動作的獎勵來實(shí)現(xiàn)計劃。如圖3所示,將世界模型用一個循環(huán)狀態(tài)空間模型——遞歸狀態(tài)空間模型 (recurrent state-space model,RSSM) [21]來實(shí)現(xiàn)。首先,編碼器將感官輸入 xt映射到隨機(jī)表示 zt。然后,具有循環(huán)狀態(tài) ht 的序列模型基于給定的歷史動作 at-1預(yù)測該表示序列,ht和zt的拼接形成了模型狀態(tài),可以從中預(yù)測獎賞 rt和episode聯(lián)系標(biāo)志 ct∈{0,1},并重建輸入以確保信息表示[22],
RSSMSequence model: ht=f(ht-1,zt-1,at-1),
Encoder: zt~q(ztht,xt),
Dynamics predictor: z^t~p(z^tht),
Reward predictor: r^t~p(r^tht,zt),
Continuation predictor: c^t~p(c^tht,zt),
Decoder: x^t~p(x^tht,zt)。(1)
DreamerV3在多個領(lǐng)域表現(xiàn)優(yōu)異,包括連續(xù)和離散動作、視覺和低維輸入、2D和3D世界等,顯示出其通用性和適應(yīng)性。通過調(diào)整模型參數(shù),它可以輕松應(yīng)對不同任務(wù)的需求,并具有良好的擴(kuò)展性,可提高數(shù)據(jù)效率和性能。DreamerV3是首個在沒有人類數(shù)據(jù)訓(xùn)練的情況下,在Minecraft(一款沙盒游戲,提供了大量的數(shù)據(jù)和場景,可用于算法的訓(xùn)練和測試)中收集鉆石的算法,這標(biāo)志著人工智能領(lǐng)域在解決長期挑戰(zhàn)方面取得了重要進(jìn)展。其成功應(yīng)用顯示了DreamerV3在處理復(fù)雜環(huán)境和決策問題時的有效性,算法設(shè)計還允許在訓(xùn)練過程中充分利用經(jīng)驗(yàn)數(shù)據(jù),提高了學(xué)習(xí)效率和穩(wěn)定性。
3.2 TransDreamer
TransDreamer繼承自Dreamer框架、基于Transformer的強(qiáng)化學(xué)習(xí)代理,其重點(diǎn)是引入Transformer的優(yōu)點(diǎn)[23]。TransDreamer的目標(biāo)是實(shí)現(xiàn)以下需求。
1) 直接訪問過去的狀態(tài)。
2) 在訓(xùn)練期間并行更新每個時間步的狀態(tài)。
3) 能夠在測試時順序推出軌跡想象。
4) 成為隨機(jī)潛變量模型。
據(jù)調(diào)查,以往的世界模型還沒有這樣的模式,Dreamer中使用的世界模型的主干是RSSM,RSSM不滿足上述需求1)和2)。因此,引入一種基于Transformer的狀態(tài)空間模型(Transformer state-space model, TSSM)是必要的,圖4展示了其架構(gòu)。
在RSSM中,順序相關(guān)計算的主要來源是基于RNN的狀態(tài)更新,這說明RSSM的所有組件模型都是順序計算的,因?yàn)樗鼈兌紝㈦[藏狀態(tài)作為輸入。
為了消除這種順序計算,能夠直接訪問并和復(fù)雜的歷史狀態(tài)相互作用,采用Transformer作為RNN的替代品,允許Transformer直接訪問隨機(jī)狀態(tài)和動作的序列[23],可以使得預(yù)測更準(zhǔn)確。
3.3 STORM
基于隨機(jī)Transformer的世界模型(stochastic Transformer-based world model, STORM)是一種高效的世界模型架構(gòu)。STORM采用分類變xzbmoe6awDOV+2dfUlo0j2rqLseqXUajk6/PwSsugxE=分自編碼器(variational auto-encoder,VAE)作為圖像編碼器,增強(qiáng)了代理的魯棒性,減少了累積的自回歸預(yù)測誤差。STORM采用類似GPT的Transformer[24]作為序列模型,提高建模和生成質(zhì)量,同時加快訓(xùn)練過程。
STORM基于模型的強(qiáng)化學(xué)習(xí)算法的既定框架,重點(diǎn)在于通過想象力增強(qiáng)代理的策略[25-28],反復(fù)執(zhí)行以下步驟,直至達(dá)到規(guī)定的真實(shí)環(huán)境交互次數(shù)。
1) 通過執(zhí)行當(dāng)前策略來收集真實(shí)的環(huán)境數(shù)據(jù),并將它們附加到重放緩沖區(qū)。
2) 使用從重放緩沖器采樣的軌跡來更新世界模型。
3) 使用由世界模型生成的想象經(jīng)驗(yàn)來改進(jìn)策略,其中從重放緩沖器采樣想象過程的起點(diǎn)。
如式(2)所示,利用VAE[29]將ot轉(zhuǎn)換為潛在隨機(jī)分類分布Zt。將Zt設(shè)置為包括32個類別的隨機(jī)分布,每個類別有32個類。編碼器(q)和解碼器(p)結(jié)構(gòu)被實(shí)現(xiàn)為卷積神經(jīng)網(wǎng)絡(luò)[30]。隨后,從Zt中采樣潛在變量,以表示原始觀測值o。由于從分布中采樣缺乏向后傳播的梯度,應(yīng)用直通梯度技巧[31]來保留它們,
Image encoder: zt~q(ztot)=Zt,
Image decoder: o^t=p(zt)。(2)
STORM的結(jié)構(gòu)和想象過程如圖5所示。
在進(jìn)入序列模型之前,利用多層感知器和拼接操作,將潛在樣本 zt 和動作at 合并成一個單獨(dú)的標(biāo)記 et,這個操作表示為 m,它為序列模型準(zhǔn)備輸入。序列模型f將et 的序列作為輸入,并產(chǎn)生隱藏狀態(tài)ht。
STORM采用類似GPT的 Transformer 結(jié)構(gòu)作為序列模型,其中的自注意力塊使用后續(xù)掩碼進(jìn)行屏蔽,以允許et關(guān)注到序列e1,e2,…,et。通過利用多層感知器gD、gR和gC,依賴ht來預(yù)測當(dāng)前的獎勵 r^t、持續(xù)標(biāo)志 c^t 和下一個分布Z^t+1。這部分世界模型的公式為
Action mixer:et=m(zt,at),
Sequence model:h1:T=f(e1:T),
Dynamics predictor:Z^t+1=gD(z^t+1ht),
Reward predictor:r^t=gR(ht),
Continuation predictor:c^t=gC(ht)。(3)
損失函數(shù)世界模型以自我監(jiān)督的方式進(jìn)行訓(xùn)練,并進(jìn)行端到端優(yōu)化。固定超參數(shù)β1=0.5和β2=0.1,B表示批次大小,T表示批次長度,總損失函數(shù)可表示為
()=1BT∑Bn=1∑Tt=1[rect()+rewt()+cont()+
β1dynt()+β2rept()],(4)
其中:rect()表示原始圖像的重構(gòu)損失;rewt()表示獎勵的預(yù)測損失;cont()表示持續(xù)標(biāo)志的預(yù)測損失。具體公式為
rect()=‖o^t-ot‖2,
rewt()=sym(r^t,rt),
cont()=ctlogc^t+(1-ct)log1-c^t,(5)
其中:sym表示symlog兩熱損耗。該損失函數(shù)將回歸問題轉(zhuǎn)換為分類問題,確保在不同環(huán)境中保持一致的損失縮放。
式(4)中,損失dynt()和rept()表示為Kullback-Leibler(KL)發(fā)散,但它們在梯度反向傳播和權(quán)重分配上有所不同。動態(tài)損失dynt()引導(dǎo)序列模型預(yù)測下一個分布,而表示損失rept()允許編碼器的輸出受到序列模型預(yù)測的微弱影響,這確保了分布式動態(tài)學(xué)習(xí)不會過于具有挑戰(zhàn)性。具體公式為
dynt()=max(1,KL[sg(q(zt+1ot+1))‖gD(z^t+1ht)]),
rept()=max(1,KL[q(zt+1ot+1)‖sg(gD(z^t+1ht))]),(6)
其中:sg()表示停止梯度的運(yùn)算。
3.4 TWM
基于Transformer的世界模型(Transformer-based world model,TWM),其概念是在想象中學(xué)習(xí),不是直接從所收集的經(jīng)驗(yàn)中學(xué)習(xí)行為,而是以(自)監(jiān)督的方式學(xué)習(xí)環(huán)境動態(tài)的生成模型[32]。這種世界模型可以通過迭代預(yù)測下一個狀態(tài)和獎勵來創(chuàng)建新的軌跡,允許用于強(qiáng)化學(xué)習(xí)算法的潛在不確定的訓(xùn)練數(shù)據(jù),而無須與真實(shí)的環(huán)境進(jìn)一步交互。
由于深度神經(jīng)網(wǎng)絡(luò)的性質(zhì),世界模型可以推廣到新的、不可見的情況,這有可能大大提高樣本效率。一個訓(xùn)練成功的世界模型可能會預(yù)測到以前從未訓(xùn)練到的數(shù)據(jù)。
TWM由觀測模型和動力學(xué)模型組成,它們不共享參數(shù)。圖6展示了TWM架構(gòu),其采用DreamerV2的神經(jīng)網(wǎng)絡(luò)架構(gòu)[20] 對觀測模型進(jìn)行了輕微修改。因此,潛在狀態(tài)z是離散的。觀測解碼器重構(gòu)觀測并預(yù)測所有像素的獨(dú)立標(biāo)準(zhǔn)正態(tài)分布的均值。
自回歸動力學(xué)模型根據(jù)其預(yù)測的歷史來預(yù)測下一個時間步。骨干是一個確定性的聚合模型f,它根據(jù)“先前生成的潛在狀態(tài)、動作和獎勵”的預(yù)測歷史來計算確定性的隱藏狀態(tài)h,獎勵、折扣和下一個潛在狀態(tài)的預(yù)測器以隱藏狀態(tài)為條件。動力學(xué)模型由以下組件組成,公式為
Aggregation model: ht=fψ(zt-:t,at-:t,rt-:t-1),
Reward predictor: r^t~pψ(r^tht),
Discount predictor: γ^t~pψ(γ^tht),
Latent state predictor: z^t+1~pψ(z^t+1ht)。(7)
聚合模型被實(shí)現(xiàn)為因果掩蔽的Transformer-XL,顯著增強(qiáng)了原始的Transformer模型(vanilla Transformer),引入了循環(huán)機(jī)制和相對位置編碼。通過這些編碼,TWM可以學(xué)習(xí)與時間步長無關(guān)的動態(tài)。潛在狀態(tài)、動作和獎勵被送入模態(tài)特定的線性嵌入,然后傳遞給Transformer模型。模型接收三種類型的輸入,輸入有三種模態(tài)(潛在狀態(tài)、動作、獎勵),最后一個獎勵不作為輸入的一部分(獎勵的輸入有一個特殊的規(guī)定,即最后一個獎勵不被視為輸入的一部分)。將動作模態(tài)的輸出視為隱藏狀態(tài),而忽略其他兩個模態(tài)的輸出(圖6)。
訓(xùn)練包括:使用當(dāng)前策略在真實(shí)的環(huán)境中收集經(jīng)驗(yàn);使用過去的經(jīng)驗(yàn)改進(jìn)世界模型;使用世界模型產(chǎn)生的新經(jīng)驗(yàn)改進(jìn)策略。
在訓(xùn)練期間,構(gòu)建數(shù)據(jù)集D。在收集了當(dāng)前策略的新經(jīng)驗(yàn)之后,通過從D中采樣N個序列,并使用隨機(jī)梯度下降方法優(yōu)化的損失函數(shù)來改進(jìn)世界模型。在執(zhí)行世界模型更新之后,從N個觀測值中選擇M個,并將它們編碼為潛在狀態(tài),作為新軌跡的初始狀態(tài)。動態(tài)模型基于策略提供的動作迭代地生成長度為H的M個軌跡。隨后,使用標(biāo)準(zhǔn)的無模型目標(biāo)改進(jìn)策略。
由于數(shù)據(jù)集在訓(xùn)練過程中增長緩慢,軌跡的均勻采樣過于關(guān)注早期經(jīng)驗(yàn),這可能導(dǎo)致過度擬合,特別是在低數(shù)據(jù)狀態(tài)下。因此,保持訪問計數(shù),其在每次作為序列的開始對條目進(jìn)行采樣時遞增,使用Softmax函數(shù)將這些計數(shù)轉(zhuǎn)換為概率。
3.5 MWM
掩蔽世界模型(masked world model,MWM)是一種基于視覺模型的強(qiáng)化學(xué)習(xí)算法[33],如圖7所示,它將視覺表示學(xué)習(xí)和動態(tài)學(xué)習(xí)結(jié)合起來,通過分別學(xué)習(xí)視覺表示和環(huán)境動態(tài)來學(xué)習(xí)準(zhǔn)確的世界模型。MWM的關(guān)鍵思想是訓(xùn)練一個自動編碼器,該自動編碼器使用卷積特征掩蔽來重建視覺觀察結(jié)果,并在自動編碼器之上建立一個潛在的動態(tài)模型。通過引入早期卷積層并屏蔽卷積特征而不是像素補(bǔ)丁,MWM使世界模型能夠從復(fù)雜的視覺觀察中捕獲細(xì)粒度的視覺細(xì)節(jié)。此外,為了學(xué)習(xí)那些可能無法僅通過重建目標(biāo)來捕獲的與任務(wù)相關(guān)的信息,MWM引入一個輔助獎勵預(yù)測任務(wù)的自動編碼器。具體來說,通過重復(fù)以下迭代過程分別更新視覺表示和動態(tài):使用卷積特征掩蔽和獎勵預(yù)測訓(xùn)練自動編碼器;學(xué)習(xí)預(yù)測自動編碼器視覺表示的潛在動態(tài)模型。
使用從環(huán)境交互中收集的在線樣本不斷更新視覺表示和動態(tài),自動編碼器參數(shù)在動態(tài)學(xué)習(xí)期間不會更新。
4 世界模型的應(yīng)用
4.1 Sora
2024年2月15日,OpenAI推出了一種新的基礎(chǔ)模型,可以從用戶的文本提示生成視頻。這種名為Sora的模型,人們稱之為ChatGPT的視頻版本。OpenAI聲稱,由于在大規(guī)模的文本-視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,Sora具有令人印象深刻的接近真實(shí)世界的生成能力,包括創(chuàng)建生動的人物、模擬平滑的動作、描繪情感以及提供突出的物體和背景的細(xì)節(jié)。
目前,Sora模型官方只出了一個技術(shù)報告,并沒有公布具體技術(shù)細(xì)節(jié)。但是,從ChatGPT的實(shí)現(xiàn)過程中不難得知,任何AI大型模型都需要“基本粒子”才能得以實(shí)現(xiàn)[34]。ChatGPT技術(shù)原理的起點(diǎn)是將“自然語言”token化,也就是給大語言模型提供了一個可計算、可理解的“基本粒子”,然后用這些“基本粒子”去組合文本語言新世界[35]。Sora的工作原理也應(yīng)如此,其實(shí)現(xiàn)步驟如圖8所示。
與ChatGPT采用token embedding方法以實(shí)現(xiàn)文本數(shù)據(jù)相似,Sora模型將視頻數(shù)據(jù)壓縮至一個低維的潛空間,再將這些壓縮后的數(shù)據(jù)細(xì)分為時空碎片,最后進(jìn)行AI時空建模[36]。
目前,Sora作為世界模擬器表現(xiàn)出許多局限性。例如,它不能精確地模擬如玻璃破碎等復(fù)雜物理相互作用,同時,在類似吃食物這樣的交互中,它也不是總能準(zhǔn)確地反映對象狀態(tài)的變化。并且,當(dāng)視頻過長時會出現(xiàn)不連貫性,或者有其他未提及的對象自發(fā)出現(xiàn)的問題。
4.2 Gemini
為了與GPT-4抗衡,谷歌公司發(fā)布了新一代世界模型Gemini。傳統(tǒng)的多模態(tài)模型通過分別訓(xùn)練處理各類信息類型的組件,然后將它們組合在一起的方式來構(gòu)建。雖然這些模型在某些任務(wù)上表現(xiàn)不錯,比如描述圖像,但在處理更復(fù)雜的概念和推理時,效果并不理想。為了提升多模態(tài)模型的性能,谷歌采用了一種不同的策略,將Gemini設(shè)計成一個原生多模態(tài)模型。這意味著Gemini從一開始就在各種信息類型上進(jìn)行了預(yù)訓(xùn)練,然后通過額外的多模態(tài)數(shù)據(jù)微調(diào),使其更好地理解和推理各種輸入。三種優(yōu)化過后的能力如下[37]。
1) 復(fù)雜的推理能力
Gemini的多模態(tài)推理能力有助于理解復(fù)雜的書面和視覺信息,能在大規(guī)模的數(shù)據(jù)提取中識別微小的差異點(diǎn)。通過閱讀、過濾和理解信息,從成千上萬的文檔中提取獨(dú)到的信息和見解,有利于未來在眾多領(lǐng)域中以數(shù)字化的速度實(shí)現(xiàn)新的突破。
2) 理解文本、圖像、音頻等內(nèi)容的能力
經(jīng)過訓(xùn)練,Gemini可以同時識別和理解文本、圖像、音頻及更多內(nèi)容,因此它能更好地理解細(xì)微信息,回答與復(fù)雜主題相關(guān)的問題,且尤其擅長解釋數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理。
3) 高級編碼能力
谷歌的第1版Gemini可以理解、解釋和生成主流編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼,能夠跨語言工作并推理復(fù)雜的信息。
4.3 Dynalang
Dynalang是一種代理程序,它從在線經(jīng)驗(yàn)中學(xué)習(xí)語言和圖像的世界模型,并利用該模型學(xué)習(xí)如何行動。Dynalang 將學(xué)習(xí)建模世界和語言(通過預(yù)測目標(biāo)進(jìn)行監(jiān)督學(xué)習(xí))及根據(jù)該模型學(xué)習(xí)行動(通過任務(wù)獎勵進(jìn)行強(qiáng)化學(xué)習(xí))分開。在這個應(yīng)用中,世界模型接收視覺和文本輸入作為觀察模態(tài),并將它們壓縮到潛在空間中。訓(xùn)練世界模型使用在線收集的經(jīng)驗(yàn)來預(yù)測未來的潛在表示。訓(xùn)練策略以最大化任務(wù)獎勵的方式采取行動,將世界模型的潛在表示作為輸入。由于世界建模與行動分離,Dynalang 可以在單一模態(tài)(僅文本或僅視頻數(shù)據(jù))上進(jìn)行預(yù)訓(xùn)練,而不涉及行動或任務(wù)獎勵。
簡單來說,Dynalang在接收視頻、文本或多模態(tài)表示后,預(yù)測給定信息的未來表示。預(yù)測未來的表示不僅為視覺體驗(yàn)中的基礎(chǔ)語言提供了豐富的學(xué)習(xí)信號,而且還允許從想象的序列中進(jìn)行規(guī)劃和策略優(yōu)化。Dynalang結(jié)構(gòu)如圖9所示。在每個時間步,它接收圖像x、語言標(biāo)記l和動作a。圖像和語言觀察被壓縮成一個離散的表示z,并與動作一起輸入序列模型,以預(yù)測下一個表示z。
Dynalang將世界模型用一個循環(huán)狀態(tài)空間模型來實(shí)現(xiàn),該世界模型由以下組件組成,公式為
Sequence model:z^t,ht=seq(zt-1,ht-1,at-1),
Multimodal encoder:zt~enc(xt,lt,ht),
Multimodal decoder:x^t,l^t,r^t,c^t=dec(zt,ht)。(8)
其中,序列模型以帶有循環(huán)狀態(tài)ht的GRU來實(shí)現(xiàn)。使用循環(huán)模型的好處在于策略不再需要隨時間積累信息,但也可以使用其他序列模型,如Transformer。在每個時間步,編碼器在觀察模型狀態(tài)ht的條件下進(jìn)行建模,有效地學(xué)習(xí)將觀察壓縮為相對于歷史的代碼zt。然后,序列模型在編碼觀察zt的條件下,將新觀察整合到下一個模型狀態(tài)中。解碼器經(jīng)過訓(xùn)練以重構(gòu)觀察和其他信息,從而塑造模型的表示形式。
該模型的循環(huán)架構(gòu)可能使在極長的視野環(huán)境中的優(yōu)化具有挑戰(zhàn)性。Dynalang的設(shè)計是將視覺和語言標(biāo)記一對一地交錯,允許智能體在通信時采取行動,但可能會導(dǎo)致序列長度成為某些任務(wù)中學(xué)習(xí)的瓶頸。
4.4 SWIM
意向性的結(jié)構(gòu)化世界模型(structured world model for intentionality,SWIM)[38]是一種在真實(shí)的世界中學(xué)習(xí)操作任務(wù),利用這些豐富的數(shù)據(jù)來訓(xùn)練機(jī)器人世界模型,使機(jī)器人能夠預(yù)測其在任何環(huán)境中的行為后果。
SWIM利用大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù),使用結(jié)構(gòu)化的動作空間來訓(xùn)練機(jī)器人世界模型,其結(jié)構(gòu)如圖10所示。在通用的高級結(jié)構(gòu)化動作空間中訓(xùn)練世界模型,使其能夠捕捉人手在試圖抓住和操縱物體時如何與物體交互,可以僅使用少量真實(shí)世界的交互軌跡,對世界模型進(jìn)行微調(diào)。此外,用于微調(diào)的這些交互軌跡不需要任何任務(wù)監(jiān)督,并且可以通過執(zhí)行視覺動作來獲取。無論是在人類視頻上進(jìn)行預(yù)訓(xùn)練,還是在機(jī)器人數(shù)據(jù)上進(jìn)行世界模型微調(diào),都不會對獎勵做出任何假設(shè)。這種無監(jiān)督設(shè)置允許利用與不同任務(wù)相關(guān)的數(shù)據(jù),從而使機(jī)器人能夠在所有數(shù)據(jù)上訓(xùn)練單一的世界模型,培養(yǎng)機(jī)器人或人工智能系統(tǒng)具有多方面、多任務(wù)的能力。
在Mendonca R、 Bahl S、 Pathak D實(shí)驗(yàn)中展示了通過兩個不同的機(jī)器人系統(tǒng)在真實(shí)世界環(huán)境中運(yùn)行,來訓(xùn)練這種聯(lián)合世界模型的方法。在應(yīng)用方面,可以通過指定目標(biāo)圖像來部署微調(diào)后的世界模型,以執(zhí)行特定的任務(wù)。世界模型在動作空間中進(jìn)行規(guī)劃,以找到一系列動作,根據(jù)任務(wù)要求操縱物體。
SWIM的訓(xùn)練過程包括三個階段:利用人類交互的互聯(lián)網(wǎng)視頻來預(yù)訓(xùn)練模型;使用無獎勵數(shù)據(jù)將模型微調(diào)到機(jī)器人設(shè)置;通過模型進(jìn)行規(guī)劃以實(shí)現(xiàn)目標(biāo)。具體情況如下。
1) 預(yù)訓(xùn)練
利用人類視頻數(shù)據(jù)集,需要初始化世界模型和可供性模型(經(jīng)過預(yù)訓(xùn)練的學(xué)習(xí)模型),并對視頻片段進(jìn)行處理,提取像素信息。在動作創(chuàng)建階段,隨機(jī)采樣深度和旋轉(zhuǎn)角度,以增加模型對不同場景的適應(yīng)能力。通過訓(xùn)練可供性模型,能夠從視頻幀中理解動作,并在決策和規(guī)劃中提供支持。同時,通過軌跡序列訓(xùn)練世界模型,能夠理解物體間的關(guān)系和環(huán)境的變化。最終獲得了訓(xùn)練好的世界模型和可供性模型,為后續(xù)任務(wù)提供可靠的基礎(chǔ)。
2) 對機(jī)器人數(shù)據(jù)進(jìn)行無監(jiān)督微調(diào)
在實(shí)際環(huán)境中,通過模仿學(xué)習(xí)和模型預(yù)測,讓機(jī)器人完成特定的任務(wù),從而實(shí)現(xiàn)從仿真到真實(shí)世界的遷移。
獲取經(jīng)過預(yù)訓(xùn)練得到的世界模型和可供性模型,通過對可供性模型進(jìn)行多次查詢,收集機(jī)器人數(shù)據(jù)集,用于訓(xùn)練世界模型。
給定目標(biāo)圖像,使用目標(biāo)圖像對機(jī)器人數(shù)據(jù)集中的軌跡進(jìn)行排序,并使用高斯混合模型對軌跡進(jìn)行擬合;對于每一個軌跡,從可供性模型中查詢提案;通過世界模型使用交叉熵方法選擇最佳提案,選擇最佳的動作,以達(dá)到目標(biāo)圖像;最后執(zhí)行所選擇的最佳提案,讓機(jī)器人達(dá)到目標(biāo)圖像。
3) 機(jī)器人部署以執(zhí)行給定目標(biāo)圖像的任務(wù)
通過運(yùn)行可供性模型來收集機(jī)器人數(shù)據(jù)集,需 要收集一些域內(nèi)機(jī)器人數(shù)據(jù)進(jìn)行微調(diào),這一步不需要以任務(wù)獎勵進(jìn)行任何監(jiān)督。
基于專家設(shè)計的動作空間學(xué)習(xí),能夠?qū)W習(xí)人手如何與環(huán)境交互,利用在標(biāo)記數(shù)據(jù)上訓(xùn)練的檢測器從未標(biāo)記的真實(shí)世界視頻中獲取動作。78lFLWqh0Yu4oLGW2wep/w==
雖然 SWIM 提供了一個可擴(kuò)展的解決方案并顯示出令人驚喜的結(jié)果,但可以執(zhí)行的操作和任務(wù)類型存在一些限制,目前僅包括準(zhǔn)靜態(tài)設(shè)置。在未來的工作中,可以探索不同的動作參數(shù)化和其他類型的操作任務(wù)。如果可以擴(kuò)展到更多的任務(wù),通過從被動和主動數(shù)據(jù)中學(xué)習(xí)構(gòu)建一個真正的多面手代理,該模型可以變得更好。
4.5 MUVO
具有幾何體素表示的多模態(tài)世界模型(multimodal world model with geometric voxel representations,MUVO)[39]是一個具有幾何表示的自動駕駛多模態(tài)生成世界模型。該模型利用來自自動駕駛汽車的高分辨率圖像和激光雷達(dá)傳感器數(shù)據(jù)來預(yù)測原始相機(jī)和激光雷達(dá)數(shù)據(jù)以及未來多個步驟的3D占用表示。MUVO首先對原始相機(jī)圖像和激光雷達(dá)點(diǎn)云進(jìn)行處理、編碼和融合,由此產(chǎn)生潛在表征,然后送入過渡模型,以動作為條件,預(yù)測未來的狀態(tài)。最后,將這些未來狀態(tài)解碼為3D占用網(wǎng)格、原始點(diǎn)云和原始RGB圖像。
MUVO工作流程如圖11所示。首先,處理編碼和融合高分辨率RGB相機(jī)數(shù)據(jù)、激光雷達(dá)點(diǎn)云與基于Transformer的架構(gòu)。其次,將傳感器數(shù)據(jù)的潛在表示饋送到過渡模型,以導(dǎo)出當(dāng)前狀態(tài)的概率模型,然后進(jìn)行采樣,同時預(yù)測未來狀態(tài)的概率模型并從中采樣。最后,從概率模型中解碼當(dāng)前和未來狀態(tài),預(yù)測未來多幀的原始RGB圖像、點(diǎn)云和3D占用網(wǎng)格。
因此,先前的世界模型主要是學(xué)習(xí)數(shù)據(jù)中的模式,而不是對真實(shí)的世界進(jìn)行建模。無監(jiān)督學(xué)習(xí)傳感器無關(guān)的幾何占用表示的方法為模型提供了對物理世界的基本理解。
MUVO雖然創(chuàng)意性地提出模擬真實(shí)汽車行駛狀況,從而預(yù)測駕駛員未來動作。但是,道路交通本身就具有不確定性,在很多情況下,未知事件的發(fā)生是人工智能無法做出判斷的。此外,由于惡劣天氣或者設(shè)備缺陷問題,圖像的清晰度也無法得到保證,圖像的代表性也較為單一。
4.6 LWM
基于語義的世界模型(language-guided world model,LWM)[40]可以通過閱讀語言描述來捕獲環(huán)境動態(tài)。該模型提高了智能體的通信效率,允許人類通過簡潔的語言反饋同時改變其在多個任務(wù)中的行為。LWM還使智能體能夠從最初為指導(dǎo)人類而編寫的文本中進(jìn)行自我學(xué)習(xí)。
圖12展示了智能引導(dǎo)的世界模型。如圖12(a)所示,這些模型使代理能夠編寫直觀的計劃,并邀請人類監(jiān)督員來驗(yàn)證和修改這些計劃。此外,它們還為管理者提供了各種修改計劃的策略:提供行動糾正反饋來更新代理的策略,或者提供描述環(huán)境的語言反饋來修改其世界模型。圖12(b)給出了語言引導(dǎo)世界模型的Transformer架構(gòu),表現(xiàn)出很強(qiáng)的組合概括性,將軌跡轉(zhuǎn)換成一個長序列的令牌,和訓(xùn)練Transformer自動回歸生成這些令牌,實(shí)現(xiàn)了專門注意力機(jī)制,將文本信息納入觀察令牌中。
LWM在很大程度上提升了人工智能處理人類發(fā)布任務(wù)的效率。但現(xiàn)今,人工智能在某些方面并不能識別人類的感情,對待任務(wù)的處理方式也較為單一。此外,模型的精確度也會因?yàn)槊看斡?xùn)練時人類發(fā)布不同任務(wù)的難易程度有所變化。
5 展望
隨著數(shù)據(jù)采集和處理技術(shù)的不斷進(jìn)步,世界模型的發(fā)展將更加依賴大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法。通過分析海量數(shù)據(jù),模型可以更準(zhǔn)確地預(yù)測和解釋現(xiàn)實(shí)世界的各種現(xiàn)象。未來,世界模型的發(fā)展會更加強(qiáng)調(diào)跨學(xué)科的融合,涉及物理學(xué)、生物學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)等多個學(xué)科領(lǐng)域。這種融合將有助于構(gòu)建多維度的模型,更好地反映現(xiàn)實(shí)世界的復(fù)雜性。此外,世界模型將越來越智能化和自主化,能夠根據(jù)外部環(huán)境和輸入自動調(diào)整和更新。這將使模型更具適應(yīng)性和靈活性,能夠更好地應(yīng)對不斷變化的情境,并且能夠自主地進(jìn)行推理和決策。
世界模型的廣泛運(yùn)用將對多個領(lǐng)域產(chǎn)生影響,具體而言包括但不限于以下四個領(lǐng)域。
一是電影創(chuàng)作。在影視制作行業(yè),世界模型可以幫助電影制作者更好地創(chuàng)建場景和情節(jié),以豐富電影的內(nèi)容和表現(xiàn)力。此外,世界模型可以為電影制作提供更加真實(shí)和自然的角色表現(xiàn)以及更逼真的視覺效果。對影視行業(yè)而言,世界模型將帶來革命性的改變。傳統(tǒng)的影視制作流程通常需要大量人力、物力和財力,而世界模型可以幫助影視制作公司降低制作成本和提高效率,并快速生成高質(zhì)量的視頻內(nèi)容。這將使更多的小型制作公司和獨(dú)立制片人進(jìn)入影視制作領(lǐng)域,推動影視產(chǎn)業(yè)的多元化發(fā)展。
二是廣告創(chuàng)意。世界模型可以幫助廣告制作者更好地表達(dá)廣告創(chuàng)意,以提供更加生動和吸引人的視覺效果。它還可以幫助廣告制作者更好地理解目標(biāo)受眾的需求和喜好,以提供更加個性化的廣告體驗(yàn)。對創(chuàng)意產(chǎn)業(yè)而言,世界模型將帶來革命性變革。創(chuàng)意產(chǎn)業(yè)包括廣告、設(shè)計、文學(xué)、藝術(shù)等領(lǐng)域,上述領(lǐng)域需要不斷創(chuàng)新并以新穎的內(nèi)容吸引觀眾和客戶。通過文字生成視頻人工智能技術(shù),創(chuàng)意人才和內(nèi)容創(chuàng)作者將獲得更多靈感和工具,可以更加輕松地創(chuàng)作出高品質(zhì)的視頻內(nèi)容。這將推動創(chuàng)意產(chǎn)業(yè)的發(fā)展,激發(fā)創(chuàng)意人才的能動性和創(chuàng)造力,進(jìn)一步豐富數(shù)字內(nèi)容產(chǎn)業(yè)的多樣性。
三是游戲開發(fā)。世界模型可以幫助游戲開發(fā)者創(chuàng)建更加真實(shí)和自然的游戲場景和角色表現(xiàn),以提供更加沉浸式的游戲體驗(yàn)。此外,還可以幫助游戲開發(fā)者更好地理解游戲玩家的需求和反饋,優(yōu)化游戲設(shè)計和體驗(yàn)。
四是教育和培訓(xùn)。在教育和培訓(xùn)領(lǐng)域,世界模型將推動教育方式的革新和提升學(xué)習(xí)體驗(yàn)。通過將文字描述轉(zhuǎn)換為動態(tài)視頻內(nèi)容,教育者和培訓(xùn)機(jī)構(gòu)可以為學(xué)生提供更加生動有效的教學(xué)內(nèi)容和教學(xué)方式,增強(qiáng)學(xué)習(xí)者的興趣和吸收能力。這將有助于提高教育質(zhì)量和培訓(xùn)效果,實(shí)現(xiàn)個性化、交互性和深度學(xué)習(xí)的目標(biāo)。
值得注意的是,上述影響是否具有顛覆性變革能力或能否給現(xiàn)實(shí)行業(yè)帶來降維打擊,取決于諸多因素,包括技術(shù)本身的成熟度、應(yīng)用場景的限制、人類的創(chuàng)造力和想象力等。盡管現(xiàn)有的世界模型可以生成極其逼真的視頻,但仍無法完全取代人類的創(chuàng)造力和想象力。因此,我們應(yīng)以開放和理性的態(tài)度看待這項技術(shù)的發(fā)展,在抓住發(fā)展機(jī)遇的同時,平衡其中隱藏的風(fēng)險和利益。
參考文獻(xiàn):
[1] FORRESTER J W. Counterintuitive behavior of social systems[J]. Theory and decision, 1971, 2(2): 109-140.
[2] CHANG L, TSAO D Y. The code for facial identity in the primate brain[J]. Cell, 2017, 169(6): 1013-1028.
[3] NORTMANN N, REKAUZKE S, ONAT S, et al. Primary visual cortex represents the difference between past and present[J]. Cerebral cortex, 2015, 25(6): 1427-1440.
[4] KELLER G B, BONHOEFFER T, HBENER M. Sensorimotor mismatch signals in primary visual cortex of the behaving mouse[J]. Neuron, 2012, 74(5): 809-815.
[5] MOBBS D, HAGAN C C, DALGLEISH T,et al. The ecology of human fear: survival optimization and the nervous system[J]. Frontiers in neuroscience,2015,9:1-22.
[6] HA D, SCHMIDHUBER J. Recurrent world models facilitate policy evolution[EB/OL].(2018-09-04) [2024-03-27].http:∥arxiv.org/abs/1809.01999v1.
[7] SCHMIDHUBER J. On learning to think: algorithmic information theory for novel combinations of reinforcement learning controllers and recurrent neural world models[EB/OL]. (2015-11-30)[2024-03-27].http:∥arxiv.org/abs/1511.09249v1.
[8] LINNAINMAA S. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors [D]. Helsinki:University of Helsinki,1970.
[9] KELLEY H J. Gradient theory of optimal flight paths[J]. ARS journal, 1960, 30(10): 947-954.
[10]WERBOS P J. Applications of advances in nonlinear sensitivity analysis[M]∥System Modeling and Optimization. Berlin: Springer Press, 2005: 762-770.
[11]LIPTON Z C, BERKOWITZ J, ELKAN C, et al. A critical review of recurrent neural networks for sequence learning[EB/OL]. (2015-10-17)[2024-03-28].http:∥arxiv.org/abs/1506.00019v4.
[12]HA D, SCHMIDHUBER J. World models[EB/OL].(2018-03-27)[2024-03-28]. https:∥arxiv.org/abs/1803.10122.
[13]VEN G M, SIEGELMANN H T, TOLIAS A S. Brain-inspired replay for continual learning with artificial neural networks[J]. Nature communications, 2020, 11(1): 4069.
[14]LECUN Y. A path towards autonomous machine intelligence version 0.9.2[EB/OL]. (2022-06-27)[2024-03-27]. https:∥openreview.net/pdf?id=BZ5a1r-kVsf.
[15]CATANI M. The anatomy of the human frontal lobe[J]. Handbook of clinical neurology, 2019, 163: 95-122.
[16]MUNDINANO I C, CHEN J, SOUZA M, et al. More than blindsight: case report of a child with extraordinary visual capacity following perinatal bilateral occipital lobe injury[J]. Neuropsychologia, 2019, 128: 178-186.
[17]PATEL A, BISO G M N R, FOWLER J B. Neuroanatomy, temporal lobe[M]. Treasure Island: StatPearls Publishing, 2023.
[18]ANDERSEN R A. The neurobiological basis of spatial cognition: role of the parietal lobe[M]∥Spatial Cognition. New York: Psychology Press, 2022: 57-80.
[19]SUTTON R S. Dyna, an integrated architecture for learning, planning, and reacting[J]. ACM SIGART bulletin, 1991, 2(4): 160-163.
[20]HAFNER D, LILLICRAP T, FISCHER I,et al. Learning latent dynamics for planning from pixels[EB/OL]. (2018-11-12)[2024-03-28]. http:∥arxiv.org/pdf/1811.04551v1.
[21]KE N R, GOYAL A, BILANIUK O, et al. Sparse attentive backtracking:temporal credit assignment through reminding[EB/OL].(2018-09-11)[2024-03-28]. http:∥arxiv.org/abs/1809.03702.
[22]HAFNER D, PASUKONIS J, BA J, et al. Mastering diverse domains through world models[EB/OL].(2023-01-10)[2024-03-28].http:∥arxiv.org/abs/2301.04104v2.
[23]CHEN C, WU Y F, YOON J, et al. TransDreamer: reinforcement learning with transformer world models[EB/OL]. (2022-02-19)[2024-03-29].http:∥arxiv.org/abs/2202.09481v1.
[24]RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[EB/OL].(2018-06-11)[2024-03-29]. https:∥www.cs.ubc.ca/~amuham01/LING530/papers/radford 2018improving.pdf.
[25]TSCHANTZ A, MILLIDGE B, SETH A K, et al. Reinforcement learning through active inference[EB/OL]. (2020-02-28)[2024-04-01].http:∥arxiv.org/abs/2002.12636v1.
[26]HAFNER D, LILLICRAP T, NOROUZI M, et al. Mastering atari with discrete world models[EB/OL].(2022-02-12)[2024-04-01].http:∥arxiv.org/abs/2010.02193v4.
[27]KAISER L, BABAEIZADEH M, MILOS P, et al. Model-based reinforcement learning for atari[EB/OL]. (2019-03-01)[2024-04-01].http:∥arxiv.org/abs/1903.00374v5.
[28]MICHELI V, ALONSO E, FLEURET F. Transformers are sample-efficient world models[EB/OL]. (2022-09-01)[2024-04-03].http:∥arxiv.org/abs/2209.00588v2.
[29]KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2013-12-20)[2024-04-03]. http:∥arxiv.org/abs/1312.6114v11.
[30]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
[31]BENGIO Y, LONARD N, COURVILLE A. Estimating or propagating gradients through stochastic neurons for conditional computation[EB/OL]. (2013-08-15)[2024-04-04].http:∥arxiv.org/abs/1308.3432v1.
[32]ROBINE J, HFTMANN M, UELWER T, et al. Transformer-based world models are happy with 100k interactions[EB/OL]. (2023-03-13)[2024-04-04].http:∥arxiv.org/abs/2303.07109v1.
[33]SEO Y, HAFNER D, LIU H, et al. Masked world models for visual control[EB/OL].(2023-05-27)[2024-04-04]. http:∥arxiv.org/abs/2206.14244.
[34]ASKELL A, BAI Y T, CHEN A N, et al. A general language assistant as a laboratory for alignment[EB/OL]. (2021-12-09) [2024-04-04].http:∥arxiv.org/abs/2112.00861v3.
[35]BAI Y T, JONES A, NDOUSSE K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[EB/OL]. (2022-04-12)[2024-04-04].http:∥arxiv.org/abs/2204.05862v1.
[36]BROOKS T, PEEBLES B, HOMES C, et al. Video generation models as world simulators, 2024[EB/OL].(2024-02-15)[2024-04-05].https:∥openai. com/research/video-generation-models-as-world-simulators.
[37]Google Gemini Team. Gemini: a family of highly capable multimodal models[R/OL].(2023-12-19)[2024-04-05]. https:∥arxiv.org/abs/2312.11805.
[38]MENDONCA R, BAHL S, PATHAK D. Structured world models from human videos[EB/OL].(2023-08-21)[2024-04-05].http:∥arxiv.org/abs/2308.10901v1.
[39]BOGDOLL D, YANG Y T, ZLLNER J M. MUVO: a multimodal generative world model for autonomous driving with geometric representations[EB/OL].(2023-11-20)[2024-04-10].http:∥arxiv.org/abs/2311.11762v2.
[40]ZHANG A, NGUYEN K, TUYLS J, et al. Language-guided world models: a model-based approach to AI control[EB/OL].(2024-01-24)[2024-04-10].http:∥arxiv.org/abs/2402.01695v1.