夏以檸
(北京師范大學(xué),北京 100875)
主題詞:生成式人工智能 大模型 自動駕駛
現(xiàn)代人工智能技術(shù)的快速發(fā)展受益于海量標(biāo)注數(shù)據(jù)的生產(chǎn)和計算能力的提升。其以深度學(xué)習(xí)作為核心技術(shù),深度學(xué)習(xí)[1]的概念最早在機器學(xué)習(xí)領(lǐng)域提出,后推廣至人工神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域。Transformer模型[2]的提出是現(xiàn)代人工智能技術(shù)的里程碑式節(jié)點,該模型能夠保證充足數(shù)據(jù)分辨率,同時實現(xiàn)高精度數(shù)據(jù)擬合,廣泛應(yīng)用于生成式人工智能模型。
生成式人工智能技術(shù)通常包括一個基于大規(guī)模數(shù)據(jù)訓(xùn)練的監(jiān)督網(wǎng)絡(luò)模型(如Transformer 模型)和一個生成器模型[3],前者的主要功能是實現(xiàn)從任意類型的輸入到潛在高維數(shù)據(jù)空間的映射,后者以無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或監(jiān)督學(xué)習(xí)的方式進(jìn)行優(yōu)化,并通過啟發(fā)式的行為以固定的方法論實現(xiàn)內(nèi)容的生成。
自動駕駛技術(shù)是近年來備受關(guān)注的汽車技術(shù)發(fā)展方向,面向復(fù)雜的場景,要求車輛實現(xiàn)對環(huán)境的正確理解,同時做出最優(yōu)的決策。該技術(shù)發(fā)展的初期,以激光雷達(dá)和高精地圖作為主要輸入,視覺和專家系統(tǒng)為輔助手段。隨著人工智能技術(shù)在智能駕駛領(lǐng)域的應(yīng)用,Waymo、Cruise、百度等公司通過模型完成動態(tài)障礙物的實時檢測,配合高精地圖提供的道路結(jié)構(gòu)、車道線和交通標(biāo)志等靜態(tài)信息,實現(xiàn)更有效的智能駕駛。
目前,大模型逐步突破技術(shù)壁壘,成為自動駕駛感知的主流范式。2021 年,特斯拉提出的“BEV+Transformer”的技術(shù)方案,首次引入重感知、輕地圖的自動駕駛解決方案[4]。2022年,特斯拉再次提出基于占用網(wǎng)絡(luò)(Occupancy Network)的技術(shù)方案,開啟大模型在自動駕駛領(lǐng)域應(yīng)用的新篇章[5]。此外,基于生成式人工智能技術(shù),令長尾問題的場景數(shù)據(jù)可以通過模型主動生成,解決自動駕駛面臨的長尾問題,提升算法的可靠性,為自動駕駛的升級優(yōu)化提供保障。
生成式人工智能模型的輸入和輸出數(shù)據(jù)主要包括文本、圖像、三維結(jié)構(gòu)、視頻、音頻和代碼等。根據(jù)數(shù)據(jù)的映射關(guān)系,模型可分為7類,如圖1所示。
圖1 生成式人工智能技術(shù)分類及代表性模型
生成式人工智能技術(shù)可以實現(xiàn)多模態(tài)數(shù)據(jù)間的相互映射,根據(jù)用戶需求輸出內(nèi)容。其中,文本—文本、文本—圖像、本文—視頻和圖像—文本4 類模型是能夠為自動駕駛領(lǐng)域帶來顛覆性技術(shù)革新的生成式模型技術(shù)。
文本—文本模型以文本數(shù)據(jù)為輸入,生成新的文本數(shù)據(jù),是常見序列化數(shù)據(jù)模型之一,多應(yīng)用于自然語言處理技術(shù),如語言翻譯、問答任務(wù)系統(tǒng)等。
文本—圖像模型以具有提示性的文本數(shù)據(jù)作為輸入,輸出滿足對應(yīng)需求的真實圖像數(shù)據(jù)。該模型可實現(xiàn)不同屬性、不同風(fēng)格信息的輸出。OpenAI 提出的DALLE2 模型[6]、Drawbench 公司開源Imagen 模型[7]及由慕尼黑LMU CompVis 小組開發(fā)的Stable Diffusion[8]和Muse[9]均為具有代表性的模型。
文本—視頻模型通過文本數(shù)據(jù)生成連續(xù)的圖像序列。Google開源的Phenaki[10]與Runway開源的Soundify[11]屬于此類模型。
圖像—文本模型可以獲得描述圖像的文本,是文本—圖像的逆映射。Deepmind 創(chuàng)建的視覺語言模型Flamingo[12]是其代表性模型之一,通過小樣本學(xué)習(xí)策略實現(xiàn),具有靈活性強、可執(zhí)行多模態(tài)任務(wù)等優(yōu)勢。該模型利用2個互補的模型實現(xiàn):分析視覺場景的視覺模型與執(zhí)行基本推理形式的大型語言模型。通過無縫攝取圖像或視頻交織的文本標(biāo)記序列,轉(zhuǎn)換為文本數(shù)據(jù)作為輸出。OpenAI提出的圖像字幕模型VisualGPT[13]是現(xiàn)階段最優(yōu)秀的圖像—文本模型之一,其通過預(yù)訓(xùn)練語言模型GPT-2 實現(xiàn)。為了彌合不同模態(tài)之間的語義差距,特別設(shè)計了具有不飽和門控功能的編碼器-解碼器注意力機制。該模型的最大優(yōu)勢在于,它無需其他圖像—文本模型的大規(guī)模數(shù)據(jù),具備小樣本學(xué)習(xí)能力。
隨著生成式人工智能技術(shù)的發(fā)展,基于該技術(shù)衍生的大模型在自動駕駛領(lǐng)域受到廣泛關(guān)注[14]?;谏墒饺斯ぶ悄艿拇竽P驮谧詣玉{駛中規(guī)控模型的應(yīng)用將成為未來產(chǎn)業(yè)新趨勢[15]。Waymo 通過生成式人工智能技術(shù)構(gòu)建世界模型,通過大模型實現(xiàn)自動駕駛領(lǐng)域的整體功能集成[16]。同時,該公司提出基于自動駕駛模型與自然語言處理模型結(jié)合的技術(shù)方案,通過模型以可理解、人機互動的流程方式,達(dá)成清晰有效的溝通,進(jìn)一步增強其結(jié)果的可解釋性。
由數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注和模型訓(xùn)練環(huán)節(jié)組成的數(shù)據(jù)閉環(huán)系統(tǒng)是自動駕駛廠商必須具備的基礎(chǔ)技術(shù)能力。當(dāng)下,隨著高速智能導(dǎo)航輔助駕駛、城市導(dǎo)航輔助駕駛以及城市智慧領(lǐng)航功能等技術(shù)的不斷推進(jìn),自動駕駛公司或整車制造商數(shù)據(jù)量逐年增長,甚至達(dá)到拍字節(jié)(PB)級別。與此同時,數(shù)據(jù)生成的速度較快(以dSPACE 公司的數(shù)據(jù)生產(chǎn)為例,4K 800 萬像素的攝像頭、激光雷達(dá)、毫米波雷達(dá)等傳感器同時工作,每秒的數(shù)據(jù)生產(chǎn)量為40 GB),使用方的數(shù)據(jù)處理能力面臨極大的考驗。由此可見,如何實現(xiàn)數(shù)據(jù)利用的最大化是提升自動駕駛方案穩(wěn)定性的關(guān)鍵問題之一。
3.1.1 數(shù)據(jù)采集與挖掘技術(shù)
為保證自動駕駛場景下采集數(shù)據(jù)的質(zhì)量,提升駕駛模型性能,算法采用特定的觸發(fā)機制實現(xiàn)數(shù)據(jù)的收集與上傳。其中,觸發(fā)機制包括人工干預(yù)自動駕駛、特殊場景(近距離跟車、并線以及明顯的光照變化等)。特斯拉公司在2022年AI DAY上表示其擁有221種觸發(fā)機制[17]。
為了能以最精簡規(guī)模的數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,有效的數(shù)據(jù)挖掘技術(shù)不可忽視,其核心目的是從收集的海量數(shù)據(jù)中提取有效數(shù)據(jù),過濾無效數(shù)據(jù)。傳統(tǒng)的模型采用基于標(biāo)簽的方式實現(xiàn),僅能實現(xiàn)固定類別的分辨,缺少更深層次的特征提取?;谏墒饺斯ぶ悄芗夹g(shù),采用圖像—文本模型即可實現(xiàn),用模型生成的描述檢索圖像的有效特征,實現(xiàn)更高效的數(shù)據(jù)挖掘?;诂F(xiàn)有人工智能技術(shù),當(dāng)前數(shù)據(jù)挖掘方案逐漸以大模型為主。目前,國內(nèi)外主要汽車公司和自動駕駛公司等均致力于開發(fā)基于大模型的數(shù)據(jù)挖掘技術(shù)。
3.1.2 數(shù)據(jù)標(biāo)注技術(shù)
傳統(tǒng)的數(shù)據(jù)標(biāo)注技術(shù)仍以人工標(biāo)注為主,人工成本高、耗時長,速度遠(yuǎn)遠(yuǎn)低于原始數(shù)據(jù)的生產(chǎn)速度,數(shù)據(jù)應(yīng)用面臨瓶頸。此外,由于標(biāo)注人員對標(biāo)注內(nèi)容的理解不一致,存在標(biāo)注數(shù)據(jù)可靠性問題,因此數(shù)據(jù)的二次檢驗仍需要較大的工作量。
生成式模型的顯著優(yōu)勢在于,主動理解視頻內(nèi)容進(jìn)行自動打標(biāo)簽,并形成產(chǎn)品化管理,提取高價值場景并自動篩選。與人工標(biāo)注的方法相比,基于生成式模型的標(biāo)注方法速度更快、精度及標(biāo)注結(jié)果一致性更高,能夠?qū)崿F(xiàn)更加全面的標(biāo)注。
小鵬汽車推出的全自動標(biāo)注大模型的執(zhí)行效率相比于人工標(biāo)注提升約45 000 倍,即大約16.7 天可實現(xiàn)2 000 人/年的標(biāo)注工作量[18]。毫末智行科技有限公司(以下簡稱毫末智行)提出的視覺自監(jiān)督大模型[19]可實現(xiàn)100%的4D Clip 自動標(biāo)注,降低約98%的標(biāo)注成本。商湯科技絕影在自動駕駛產(chǎn)品的感知任務(wù)開發(fā)過程中的標(biāo)注均基于大模型實現(xiàn)[20],相比人工標(biāo)注的方式,相同數(shù)量樣本的標(biāo)注周期和成本都可以縮減90%以上。
現(xiàn)階段,基于人工智能的自動駕駛方案多采用模塊化設(shè)計思路,即感知、預(yù)測、規(guī)劃等子系統(tǒng)獨立實現(xiàn)功能。盡管模塊化能夠簡化研發(fā)人員的工作流程,提供高效的問題回溯、調(diào)試及更新接口,但各子模塊間的信息仍缺少有效傳遞,無法保持模塊之間的優(yōu)化通道。對此,開發(fā)面向自動駕駛系統(tǒng)的多任務(wù)一體化大模型是提升整體算法性能的有效方案。
目前,學(xué)術(shù)界和工業(yè)界均對一體化多任務(wù)大模型的方案進(jìn)行了深入研究。英偉達(dá)(NVIDIA)公司在2016年即提出了基于端到端模型的自動駕駛系統(tǒng),Uber 也在該領(lǐng)域發(fā)表了較多的學(xué)術(shù)研究成果[21-22]。為了使自動駕駛車輛通過平臺“理解世界”,英國Wayve公司也創(chuàng)立并發(fā)表其端到端的自動駕駛方案。同時,特斯拉公司“FSD META V12”版本系統(tǒng)將采用端到端的自動駕駛模型。
商湯科技與上海人工智能實驗室、武漢大學(xué)聯(lián)合提出首個集感知決策一體化的端到端自動駕駛大模型UniAD[23],并指出限制自動駕駛模型性能的根本原因在于任務(wù)的獨立拆解,無法保證豐富的高維信息的提取,由此提出了以最終任務(wù)為導(dǎo)向、多模塊聯(lián)合優(yōu)化的端到端自動駕駛方案。UniAD 充分發(fā)揮數(shù)據(jù)驅(qū)動的系統(tǒng)性優(yōu)勢,達(dá)到感知、預(yù)測、決策多個任務(wù)結(jié)合的最優(yōu)解,將生成式人工智能大模型充分融入任務(wù)的場景理解。
自動駕駛模型的可解釋性是提升其性能與優(yōu)化迭代速度的重要前提。深度學(xué)習(xí)技術(shù)的最大痛點之一是其過程完全隱藏于“黑匣子”中,缺少明確的可解釋性,即使用方無法根據(jù)深度學(xué)習(xí)模型輸出的結(jié)果逆向推導(dǎo)其原理。
基于生成式人工智能技術(shù)的自動駕駛模型在其理解及決策過程中,可以某種方式輸出(例如文本)理解過程及決策原因,即結(jié)果誤判時,可快速地查找對應(yīng)的原因。受益于啟發(fā)式的自監(jiān)督強化學(xué)習(xí)技術(shù),自動駕駛模型可進(jìn)一步逆向?qū)ψ陨磉M(jìn)行優(yōu)化和調(diào)整,實現(xiàn)模型的自動迭代。
長尾問題包括各種零碎的場景、極端情況和無法預(yù)測的人類行為,是自動駕駛系統(tǒng)面臨的難題之一[24]。該領(lǐng)域現(xiàn)有的人工智能技術(shù)大多是用人工采集標(biāo)注的數(shù)據(jù)集訓(xùn)練。由于實際數(shù)據(jù)為復(fù)雜場景,人工標(biāo)注通常無法包含全部場景的數(shù)據(jù)信息支持,從而降低模型的魯棒性。
通常,自動駕駛模型發(fā)現(xiàn)車輛行為存在邊界情況時,需要補全額外的數(shù)據(jù),對模型參數(shù)進(jìn)行優(yōu)化。實際上,該方法一定程度上令長尾問題的場景復(fù)現(xiàn)難度過大,無法保證數(shù)據(jù)采集的有效性,導(dǎo)致采集效率低下。同樣地,雖然傳統(tǒng)的3D建??蓪崿F(xiàn)虛擬場景仿真,但由于建模機制不夠完善,無法保證生成場景數(shù)據(jù)的質(zhì)量,進(jìn)而使生成的場景數(shù)據(jù)無法有效支持模型優(yōu)化。
通過生成式人工智能技術(shù),如文本—圖像,文本—視頻生成模型,可通過對其模型的優(yōu)化與訓(xùn)練實現(xiàn)近似于真實場景的仿真數(shù)據(jù)的生成[25]。同時,上述生成式人工智能技術(shù)可通過其強大的數(shù)據(jù)映射能力實現(xiàn)場景數(shù)據(jù)的快速變換,為自動駕駛模型的快速優(yōu)化與迭代提供最基本的前提保障。
同早期人工智能技術(shù)相比,基于現(xiàn)代生成式人工智能的大模型的主要區(qū)別在于模型參數(shù)和數(shù)據(jù)的提取方式。其中,模型參數(shù)的大幅增長提高了對云端算力的需求,數(shù)據(jù)相關(guān)性提取方式的改變?yōu)橛嬎阈酒軜?gòu)提供了新的設(shè)計導(dǎo)向。
大模型技術(shù)已經(jīng)逐步應(yīng)用于各大汽車制造商和自動駕駛公司的產(chǎn)業(yè)化項目[26]。特斯拉2022年AI DAY表示訓(xùn)練其模型需要14 億幀圖像數(shù)據(jù)。Momenta 公司提出要實現(xiàn)L4 級自動駕駛的產(chǎn)業(yè)化[27],自動駕駛系統(tǒng)達(dá)到人類的安全水平甚至比人類安全水平高一個數(shù)量級,至少需要千億公里的數(shù)據(jù)訓(xùn)練、測試與驗證。
為使模型能夠在海量數(shù)據(jù)中實現(xiàn)快速訓(xùn)練,提升計算資源成為各大汽車廠商與自動駕駛公司亟需解決的首要問題[28]?;A(chǔ)設(shè)施建設(shè)方面,特斯拉在2021 年和2022 年分別擁有約1 萬塊和1.4 萬塊圖形處理器(Graphics Processing Unit,GPU),預(yù)計2024 年將擁有等效10 萬塊NVIDIA A100 GPU 的算力資源。2022 年8月,小鵬汽車成立自動駕駛AI 智算中心“扶搖”,具備60 億億浮點運算能力。此外,國內(nèi)其他公司包括吉利汽車、毫末智行、智己汽車、百度和商湯科技等也都完成了算力的積累,如表1所示。
表1 自動駕駛公司算力對比
基于現(xiàn)代生成式人工智能技術(shù)的大模型需要大量的計算資源,如何實現(xiàn)海量計算資源的最大化利用是汽車制造商、自動駕駛公司和芯片公司面臨的另一難題。前文提出,大模型多是基于Transformer 實現(xiàn)的,內(nèi)部采用的是記憶力機制單元模塊。不同于基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的人工智能模型(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)),Transformer 在提取數(shù)據(jù)之間的相關(guān)性過程中存在更多的訪存密集型算子。因此,為提升大模型的運行效率,芯片的架構(gòu)需進(jìn)行針對性改進(jìn):
a.運算精度要求。Transformer 的建模是通過不斷加權(quán)映射實現(xiàn),因此,對芯片的運算精度存在一定的要求?,F(xiàn)階段,面向人工智能的主流芯片大多采用INT8即整型精度算力,而基于Transformer的大模型需要在浮點運算的芯片平臺上運行,才可取得較高的精度結(jié)果。目前,特斯拉已經(jīng)完成“D1”芯片的自研,并構(gòu)建超算平臺解決自動駕駛大模型的訓(xùn)練與優(yōu)化。
b.運算算子要求。訪存密集是大模型的運算特點,需要針對性地設(shè)計訪存密集型算子,解決芯片的計算效率問題,從而實現(xiàn)穩(wěn)定性高、可移植性高、并行化程度高、計算精度高的高效運算算子。
受ChatGPT的啟發(fā),毫末智行開發(fā)面向自動駕駛的生成式大模型DriveGPT[29],采用無監(jiān)督學(xué)習(xí)進(jìn)行初始模型的訓(xùn)練,強化學(xué)習(xí)實現(xiàn)模型優(yōu)化。通過輸入感知級的激勵數(shù)據(jù)(如障礙物信息、道路環(huán)境以及關(guān)鍵交通要素),DriveGPT 能夠完成障礙物預(yù)測、決策規(guī)劃控制以及決策邏輯鏈的輸出等任務(wù)。目前,生成式大模型已經(jīng)在自動駕駛的部分領(lǐng)域取得了巨大的創(chuàng)新性成果,構(gòu)建多任務(wù)、一體化的大模型將是面向自動駕駛領(lǐng)域的重大技術(shù)創(chuàng)新。
至今,大模型仍受到海量模型參數(shù)與計算資源的限制,由于其運行均在云端實現(xiàn),無法完成車端的獨立運行。如何對大模型進(jìn)行功能解耦,實現(xiàn)車端的運行成為未來要攻克的難題。以知識蒸餾[30]的方式,完成大模型對車端小模型進(jìn)行優(yōu)化是解決上述問題的有效手段之一,亦是大模型到車端功能落地的有效方案。
理論上,基于多任務(wù)生成式人工智能模型可同時實現(xiàn)仿真數(shù)據(jù)生成、標(biāo)注、感知、預(yù)測和決策多種功能。UniAD模型的成功表明,多任務(wù)聯(lián)合優(yōu)化能夠?qū)崿F(xiàn)多源數(shù)據(jù)相關(guān)性的有效提取并提升整體性能。因此,如何通過多任務(wù)生成式大模型實現(xiàn)高效數(shù)據(jù)閉環(huán)、模塊化功能解耦等技術(shù)將是推動自動駕駛技術(shù)走向成熟的關(guān)鍵環(huán)節(jié)。
生成式人工智能技術(shù)在文本、圖像等多個領(lǐng)域均取得了豐富的研究成果,基于生成式人工智能的大模型技術(shù)也為自動駕駛領(lǐng)域提供了新的解決方案。未來,隨著研究人員對技術(shù)研究的深入以及硬件水平的提升,基于輕量化平臺的應(yīng)用將進(jìn)一步拓展技術(shù)的應(yīng)用范圍,擴展其應(yīng)用量產(chǎn)落地能力。