国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種多模態(tài)模型與端到端的雙智融合系統(tǒng)

2024-10-29 00:00:00王飛陳培源張炎磊郭浩田蘇得秀趙一州
汽車電器 2024年10期

【摘 要】雙智融合(Dual-AI)是一種將端到端自動駕駛與多模態(tài)模型(VLAM)相結(jié)合的技術(shù)。本文探討雙智融合(Dual-AI)技術(shù)的應(yīng)用,將端到端自動駕駛和多模態(tài)模型(VLAM)相結(jié)合。希望能夠通過這種融合,創(chuàng)建出能夠直接從原始數(shù)據(jù)中學習并執(zhí)行復(fù)雜任務(wù)的人工智能系統(tǒng)。這種系統(tǒng)可以同時處理圖像、聲音和其他類型的數(shù)據(jù),以執(zhí)行多模態(tài)任務(wù),并能夠更好地理解和響應(yīng)用戶的需求。

【關(guān)鍵詞】雙智融合;多模態(tài)模型;ASR;TTS;SI

中圖分類號:U463.6 文獻標識碼:A 文章編號:1003-8639( 2024 )10-0001-03

A Multimodal Model and End-to-end Dual Intelligence Fusion System

WANG Fei,CHEN Peiyuan,ZHANG Yanlei,GUO Haotian,SU Dexiu,ZHAO Yizhou

(Zhengzhou Nissan Automobile Co.,Ltd.,Technical Center,Zhengzhou 450000,China)

【Abstract】Dual-AI is a technology that combines end-to-end autonomous driving with multimodal models. This paper explores the application of Dual-AI technology,which combines end-to-end autonomous driving and multimodal models(VLAM). The aim is to create an artificial intelligence system that can learn and perform complex tasks directly from raw data. This system can process images,sounds,and other types of data simultaneously to perform multimodal tasks and better understand and respond to user needs.

【Key words】Dual-AI;VLAM;ASR;TTS;SI

作者簡介

王飛(1987—),男,高級工程師,研究方向為整車電子電氣架構(gòu)和雙智融合。

1 引言

在當今社會,人工智能技術(shù)已經(jīng)在各個領(lǐng)域取得了顯著的成果,尤其是在自動駕駛和自然語言處理領(lǐng)域。然而,這些領(lǐng)域的發(fā)展往往是獨立的,各自面臨著一些挑戰(zhàn)。例如,自動駕駛系統(tǒng)在理解復(fù)雜場景和預(yù)測其他車輛行為方面存在困難,而自然語言處理系統(tǒng)在理解上下文和生成自然語言方面也面臨挑戰(zhàn)。因此,將這兩個領(lǐng)域結(jié)合起來,利用各自的優(yōu)勢,成為一種有前景的研究方向。

本文的主要研究內(nèi)容包括以下3個方面。

1)端到端自動駕駛系統(tǒng)的研究。首先對端到端自動駕駛系統(tǒng)進行深入研究,分析其優(yōu)勢和局限性。探討如何利用端到端學習來提高自動駕駛系統(tǒng)的性能和靈活性。

2)多模態(tài)(視覺-語言-動作)模型的研究。對多模態(tài)模型進行研究,分析其在視覺理解、語言理解與生成、交叉模態(tài)學習與推理、上下文感知、人機交互等多方面的能力。探討如何利用多模態(tài)模型來提高自動駕駛和智能座艙系統(tǒng)的性能和用戶體驗,使其能夠更好地理解和響應(yīng)用戶的需求。

3)雙智融合技術(shù)的研究。將端到端自動駕駛和多模態(tài)模型相結(jié)合,研究雙智融合技術(shù)的可行性和有效性。通過試驗驗證雙智融合技術(shù)在多模態(tài)任務(wù)處理方面的優(yōu)勢,并探討其在自動駕駛和智能座艙領(lǐng)域的應(yīng)用前景。

希望通過本文的研究,能夠推動雙智融合技術(shù)的發(fā)展,為自動駕駛和智能座艙領(lǐng)域帶來新的突破。同時,也希望能夠為相關(guān)領(lǐng)域的研究者提供一些有益的啟示和參考。

2 系統(tǒng)外設(shè)配置方案

端到端自動駕駛需要基于導(dǎo)航、定位、路徑規(guī)劃以及車輛周邊環(huán)境的感知結(jié)果,因此主要通過前攝像頭+側(cè)視攝像頭+后視攝像頭+前毫米波雷達+角毫米波雷達+導(dǎo)航地圖+高精定位實現(xiàn)。LLM大模型需要基于麥克風、揚聲器、中控屏、副駕屏等實現(xiàn)。表1為雙智融合配置項。

3 雙智融合系統(tǒng)架構(gòu)

這個系統(tǒng)架構(gòu)是一個多輸入、多輸出的人工智能系統(tǒng),用于實現(xiàn)場景的可解釋性和車輛控制輸出以及與用戶交互。雙智融合系統(tǒng)架構(gòu)如圖1所示。

3.1 輸入(Input Module)

1)多/單輸入(Multi/Single Input):支持多種類型的視覺輸入,包括圖片、視頻、3D點云等視覺信息,這些輸入通過前端采集設(shè)備獲取,例如攝像頭、雷達。

2)多模態(tài)輸入(Mass Modalities Input):系統(tǒng)可以接收和處理多種類型的數(shù)據(jù)輸入,這些數(shù)據(jù)類型可以是語言文本(包括文本、語音、自然語言命令或描述等),也可以是聽覺輸入(包括聲音、音樂、語音識別結(jié)果等音頻信息)。

3.2 處理(Processing Module)

Vision-Language-Action Model是一個核心組件,負責處理多模態(tài)數(shù)據(jù),即融合視覺、語言和行動信息。它可能包括多個子模塊,如場景理解、視覺識別、多模融合、行為決策和路徑規(guī)劃等。這些子模塊協(xié)同工作,使系統(tǒng)能夠理解和執(zhí)行復(fù)雜的任務(wù)。

該模型主要分為3個主要部分:場景理解、多模融合和駕駛策略。具體處理技術(shù)、方法和工作流的詳細描述如下。

3.2.1 場景理解(Scene Understanding)

視覺識別(Visual Recognition):使用計算機視覺技術(shù)來識別和理解圖像或視頻中的物體、場景和活動。常用的技術(shù)包括深度學習模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNNs),用于特征提取和物體分類。

3.2.2 多模融合(Multimodal Integration)

1)知識問答(Knowledge QA):使用自然語言處理(NLP)技術(shù)來理解和回答關(guān)于場景的問題,常用的技術(shù)包括問答系統(tǒng),如基于檢索的方法或基于生成的方法,以及知識圖譜來提供額外的背景信息。

2)邏輯推理(Logical Reasoning):使用邏輯規(guī)則和推理機制來處理和理解復(fù)雜的語義關(guān)系,包括規(guī)則推理、因果推理或情境推理等。

3)語音理解(Speech Understanding):使用語音識別和語義理解技術(shù)來轉(zhuǎn)換和分析語音輸入,常用的技術(shù)包括自動語音識別(ASR)和自然語言理解(NLU)。

4)語音識別(Speech Recognition):將語音信號轉(zhuǎn)換為文本的過程,通常使用深度學習模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)或Transformer模型。

5)文生內(nèi)容(Text to Speech):將文本信息轉(zhuǎn)換為語音輸出,以便與用戶進行交互,通常使用文本到語音(TTS)合成技術(shù),如基于拼接的方法或基于神經(jīng)網(wǎng)絡(luò)的方法。

3.2.3 駕駛策略(Drive Policy)

路徑規(guī)劃(Path Planning):在理解了視覺場景之后,系統(tǒng)需要規(guī)劃出從當前位置到目標位置的最佳路徑,通常涉及到算法,如A*搜索、Dijkstra算法或基于采樣的方法,如RRT(快速探索隨機樹)。

3.2.4 行為決策(Behavior Decision Making)

1)決策制定。在路徑規(guī)劃過程中,系統(tǒng)需要根據(jù)當前的環(huán)境狀態(tài)和預(yù)設(shè)的目標,選擇最合適的路徑搜索算法??赡苌婕暗綑?quán)衡搜索效率、路徑品質(zhì)和算法的計算復(fù)雜度。

2)策略選擇。在執(zhí)行路徑規(guī)劃時,系統(tǒng)需要根據(jù)當前的交通狀況、車輛狀態(tài)和外部環(huán)境因素,選擇最合適的駕駛策略,如速度控制、車道保持和變道等。

3)動態(tài)調(diào)整。在路徑執(zhí)行過程中,系統(tǒng)需要不斷監(jiān)測環(huán)境變化和車輛狀態(tài),以動態(tài)調(diào)整路徑和策略,確保安全、高效地完成任務(wù)。

3.3 輸出(Output Module)

1)控制輸出(Control Output):根據(jù)處理后的數(shù)據(jù),系統(tǒng)生成相應(yīng)的控制輸出,如轉(zhuǎn)向(Steer)、加速(Accel)和制動(Brake)等指令,用于指導(dǎo)實際的動作或設(shè)備的操作。

2)場景模型可解釋(Scene Interpretability):系統(tǒng)能夠理解和解釋圖像或視頻內(nèi)容的能力,如行車解說(Driving Commentary)系統(tǒng)自動駕駛模式下想超越一輛停在路邊的車輛,會在車輛中控屏幕依次顯示文字,文字如下。

系統(tǒng):由于車流緩慢,我正在超車。

系統(tǒng):我正在超越一輛停在路邊的汽車。

系統(tǒng):由于前方道路暢通,我正在加速。

如視覺問答(Visual Question Answer)用戶提問(User Ask):現(xiàn)在是什么天氣?會對駕駛產(chǎn)生什么影響?

系統(tǒng)回答:現(xiàn)在是雨天,我開車時需要極其小心,因為雨天路面濕滑,能見度降低。

提高了系統(tǒng)與人類或其他智能體交互的能力,增加了系統(tǒng)的透明度,使得系統(tǒng)的決策過程更加可理解和可追溯。

3)多模交互(Mass Modalities Output):系統(tǒng)還可以輸出其他形式的數(shù)據(jù),如任務(wù)列表、知識問答、邏輯推理結(jié)果、語言理解內(nèi)容和文生內(nèi)容等,這些數(shù)據(jù)可以服務(wù)于不同的應(yīng)用場景和用戶需求。整個模型工作流程可以描述如下。

輸入:系統(tǒng)接收視覺和語言輸入,如攝像頭捕獲的圖像、用戶的語音指令或文本查詢。

處理:視覺輸入通過計算機視覺模型進行處理,以識別和理解場景。同時,語音輸入通過語音識別模型轉(zhuǎn)換為文本。然后這些信息被傳遞到多模融合層,其中知識問答、邏輯推理和自然語言理解模塊共同工作,以提供對場景的更深層次理解。行為決策層接收到這些融合后的信息,并決定如何響應(yīng),例如通過生成內(nèi)容或駕駛策略。

輸出:系統(tǒng)根據(jù)決策生成控制指令或語音響應(yīng),以執(zhí)行任務(wù)或與用戶交互。

這個模型的關(guān)鍵在于它的多模態(tài)能力,能夠同時處理和理解視覺和語言信息,從而在自動駕駛、機器人技術(shù)、虛擬助手等應(yīng)用中提供更豐富的交互和決策能力。

4 雙智融合技術(shù)棧

4.1 ASR自動語音識別

ASR(Automatic Speech Recognition,自動語音識別)技術(shù)能夠?qū)⑷祟惖恼Z音轉(zhuǎn)換為計算機可理解的文本形式。ASR系統(tǒng)通常包括6個組成部分:①麥克風,用于捕捉用戶的語音輸入;②聲學模型,用于處理和分析語音信號;③語言模型,用于理解和生成文本;④算法,用于匹配和識別語音模式;⑤前端處理,用于預(yù)處理語音信號,提高其質(zhì)量;⑥后端處理:用于處理識別出的文本,如糾錯、補充等。如圖2所示。

4.2 TTS文本轉(zhuǎn)語音

TTS是將計算機生成的文本轉(zhuǎn)換為人類可聽聲音的技術(shù)。TTS文本轉(zhuǎn)語音流程如圖3所示。

1)文本分析。需要對輸入的文本進行處理和分析,通常包括分詞、詞性標注、語義分析等步驟,以便更好地理解文本的內(nèi)容和結(jié)構(gòu)。

2)發(fā)音規(guī)則和聲學模型。系統(tǒng)需要知道如何正確地發(fā)音每個單詞或字符,這涉及到建立一套發(fā)音規(guī)則和聲學模型,以確保輸出的語音品質(zhì)。

3)語音合成器。在有了文本分析和發(fā)音規(guī)則的基礎(chǔ)上,系統(tǒng)可以使用語音合成器來生成語音。語音合成器會根據(jù)文本和發(fā)音規(guī)則,生成一系列的聲音樣本,這些聲音樣本會被組合起來形成完整的語音輸出。

4)音調(diào)、節(jié)奏和情感控制。為了使輸出的語音更加自然和流暢,系統(tǒng)還需要考慮音調(diào)、節(jié)奏和情感等因素。通過調(diào)整聲音的頻率、幅度和持續(xù)時間等參數(shù),可以使語音輸出更具人性化。

5)音頻處理。生成的語音樣本還需要經(jīng)過一些音頻處理技術(shù),如回聲消除、噪聲減少等,以提高語音的清晰度和品質(zhì)。

4.3 E2E端到端

E2E端到端是一種直接將感知數(shù)據(jù)(如攝像頭捕獲的圖像)與控制指令(如車輛的轉(zhuǎn)向和加速)關(guān)聯(lián)起來的方法,而不需要傳統(tǒng)的復(fù)雜中間步驟(如預(yù)先定義的地圖、特定的傳感器數(shù)據(jù)處理或手工設(shè)計的特征提取)。這種方法通常依賴于深度學習模型,特別是神經(jīng)網(wǎng)絡(luò),它們可以從原始傳感器數(shù)據(jù)中學習如何駕駛。

在端到端自動駕駛中,車輛的攝像頭、激光雷達或其他傳感器捕獲的數(shù)據(jù)被輸入到一個單一的深度學習模型中,該模型同時處理感知和決策。這種模型通過大量數(shù)據(jù)進行訓(xùn)練,學習如何識別道路、車輛、行人、交通標志等,并預(yù)測它們的行為,然后決定如何控制車輛以安全、高效地行駛。E2E端到端示意圖如圖4所示。

5 結(jié)論

本文探索并實現(xiàn)了一種創(chuàng)新的融合系統(tǒng),即大語言模型與端到端的雙智融合系統(tǒng)。通過將大型語言模型與端到端自動駕駛技術(shù)相結(jié)合,構(gòu)建了一個能夠直接從原始數(shù)據(jù)中學習并執(zhí)行復(fù)雜任務(wù)的人工智能系統(tǒng)。該系統(tǒng)不僅提高了靈活性和性能,還顯著提升了多模態(tài)任務(wù)的執(zhí)行能力。本研究的獨創(chuàng)性體現(xiàn)在成功地將兩個先進的人工智能技術(shù)領(lǐng)域相結(jié)合,為人工智能的發(fā)展和應(yīng)用開辟了新的道路。這種雙智融合系統(tǒng)在自動駕駛、智能交互等領(lǐng)域具有廣泛的應(yīng)用前景,預(yù)期將對這些領(lǐng)域的發(fā)展產(chǎn)生深遠影響。

參考文獻:

[1] L Chen,O Sinavski,J Hunermann,et al. Driving With LLMs:Fusing Object-Level Vector Modality for Explainable Autonomous Driving[C]//IEEE,Oct 13,2024.

[2] L Chen,P Wu,K Chitta,et al. End to End Autonomous Driving:Challenges and Frontiers[C]//IEEE,Jun 29,2023.

(編輯 楊凱麟)

连江县| 通化县| 丽水市| 崇左市| 资兴市| 宁乡县| 东宁县| 宁津县| 于田县| 荣成市| 沽源县| 连江县| 江油市| 昔阳县| 东至县| 团风县| 弥勒县| 丹凤县| 油尖旺区| 根河市| 互助| 喀什市| 福贡县| 双桥区| 江门市| 龙南县| 黄骅市| 县级市| 武夷山市| 洛川县| 永康市| 大荔县| 卢氏县| 务川| 吉安县| 康马县| 客服| 望奎县| 永嘉县| 三明市| 阿拉善左旗|