国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)大模型的智能無人機(jī)系統(tǒng):總結(jié)與展望

2024-12-25 00:00:00劉暢行陳思衡楊峰
無線電工程 2024年12期
關(guān)鍵詞:人機(jī)交互

摘 要:多模態(tài)大模型的出現(xiàn)和發(fā)展帶來了無人機(jī)系統(tǒng)智能化的方向,將其高效集成進(jìn)無人機(jī)系統(tǒng)能夠顯著提升無人機(jī)智能體的自主性和靈活性,在多個(gè)領(lǐng)域發(fā)揮無人機(jī)的作用。為促進(jìn)相關(guān)研究,說明了多模態(tài)大模型和無人機(jī)系統(tǒng)集成的重要性,詳細(xì)介紹了多模態(tài)大模型的發(fā)展和應(yīng)用現(xiàn)狀,列舉了多模態(tài)大模型能為無人機(jī)系統(tǒng)提供的人機(jī)交互、智能感知、自主決策和群體協(xié)同上的革新能力,闡明了其應(yīng)用范圍和面臨的挑戰(zhàn),為無人機(jī)智能化發(fā)展提供了一定參考。

關(guān)鍵詞:多模態(tài)大模型;無人機(jī)系統(tǒng);自主決策;智能感知;人機(jī)交互

中圖分類號(hào):TP181;V279 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1003-3106(2024)12-2923-10

0 引言

隨著技術(shù)發(fā)展,無人機(jī)因其具備靈活性、時(shí)效性和自主性的特點(diǎn),已成為多領(lǐng)域應(yīng)用的重要工具。從農(nóng)業(yè)監(jiān)測(cè)、災(zāi)難救援,到交通管理和安全監(jiān)視等領(lǐng)域,無人機(jī)不僅革新了許多任務(wù)的完成方式,還擴(kuò)展了人類的作業(yè)范圍、執(zhí)行效率。尤其在一些高風(fēng)險(xiǎn)或人類難以觸及的環(huán)境中,無人機(jī)可以執(zhí)行傳統(tǒng)方式難以完成的任務(wù),如在災(zāi)難現(xiàn)場(chǎng)進(jìn)行快速偵查和數(shù)據(jù)收集,或在大范圍農(nóng)田上進(jìn)行精準(zhǔn)施肥。越來越多的企業(yè)開始探索使用無人機(jī)進(jìn)行快遞服務(wù),期望通過降低成本和提高配送速度,為消費(fèi)者提供更優(yōu)質(zhì)的服務(wù)。在此背景下,如何提升無人機(jī)的智能化水平,進(jìn)一步擴(kuò)大其應(yīng)用范圍,顯著提高任務(wù)執(zhí)行的精確性、經(jīng)濟(jì)性和適應(yīng)性,是當(dāng)前無人機(jī)發(fā)展的關(guān)鍵方向。

人工智能是本世紀(jì)生產(chǎn)力和社會(huì)變革的重要?jiǎng)恿?,近年來出現(xiàn)的大模型更是將其推入飛速發(fā)展的軌道。大模型以大語言模型(Large Language Model,LLM)為基礎(chǔ),通過預(yù)訓(xùn)練得到了廣泛的知識(shí),能夠理解人類語言并做出思考和回應(yīng),完成給定的復(fù)雜任務(wù)。近年來,多模態(tài)大模型的出現(xiàn)標(biāo)志著大模型發(fā)展到一個(gè)新階段,它們能同時(shí)處理并融合來自不同數(shù)據(jù)源的信息,如文本、圖像、聲音和視頻,從而提供更為全面和精準(zhǔn)的分析結(jié)果。這種能力極大地推動(dòng)了智能系統(tǒng)的發(fā)展,多源信息的加入極大豐富了如無人機(jī)等具身智能體的感知能力。這種多模態(tài)的智能加持使得無人機(jī)不局限于執(zhí)行預(yù)設(shè)的簡(jiǎn)單任務(wù),而是能夠在執(zhí)行過程中實(shí)時(shí)處理和分析復(fù)雜的環(huán)境信息,做出更為智能的決策。例如,在災(zāi)害救援任務(wù)中,通過多模態(tài)大模型處理的影像和聲音數(shù)據(jù),無人機(jī)能夠獨(dú)立識(shí)別被困人員的位置并評(píng)估環(huán)境風(fēng)險(xiǎn),從而指導(dǎo)救援隊(duì)有效地進(jìn)行人員疏散。隨著技術(shù)的進(jìn)一步發(fā)展和應(yīng)用的深化,多模態(tài)大模型和無人機(jī)的結(jié)合預(yù)計(jì)將開辟更多創(chuàng)新應(yīng)用。未來,無人機(jī)將成為自主運(yùn)行的智能節(jié)點(diǎn),不僅能夠高效完成針對(duì)性的單一任務(wù),也能在更為復(fù)雜的環(huán)境中進(jìn)行多任務(wù)協(xié)作和群體智能作業(yè),如城市交通管理、大規(guī)模公共安全監(jiān)控等領(lǐng)域。這一進(jìn)步不僅將極大提高無人機(jī)系統(tǒng)的操作效率和安全性,更將為其在商業(yè)和民用領(lǐng)域的廣泛應(yīng)用提供新的可能。

本文首先具體介紹從大模型到多模態(tài)大模型的發(fā)展歷程,并介紹當(dāng)前主流應(yīng)用的和最先進(jìn)的多模態(tài)大模型;其次介紹在無人機(jī)的各功能模塊中,引入多模態(tài)大模型可以帶來的全新能力和變革;然后著重說明智能化無人機(jī)在新時(shí)代的應(yīng)用范圍,舉例說明當(dāng)前已有的研究探索;最后詳細(xì)指出多模態(tài)大模型和無人機(jī)結(jié)合過程中面臨的重大挑戰(zhàn),指出可能的解決方法和發(fā)展途徑,并總結(jié)全文,旨在為相關(guān)領(lǐng)域研究人員提供參考。

1 多模態(tài)大模型

1. 1 多模態(tài)大模型的發(fā)展歷程

人工智能從傳統(tǒng)的機(jī)器學(xué)習(xí)起步。早期的機(jī)器學(xué)習(xí)模型如決策樹、支持向量機(jī)等,通過人為尋找特征和統(tǒng)計(jì)方法,在處理較為簡(jiǎn)單的數(shù)據(jù)和任務(wù)時(shí)表現(xiàn)出色,但在處理大規(guī)?;蚋呔S數(shù)據(jù)時(shí)往往能力有限。深度學(xué)習(xí)技術(shù)的崛起標(biāo)志著人工智能的新時(shí)代。通過構(gòu)建深層的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)模型能夠處理和學(xué)習(xí)復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。典型的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)等。

但是,現(xiàn)有深度學(xué)習(xí)模型依然存在若干難題,首先是其通常設(shè)置為從頭開始深度學(xué)習(xí),網(wǎng)絡(luò)收斂緩慢、時(shí)間成本高[1];其次,大多數(shù)視覺識(shí)別研究高度依賴訓(xùn)練中的人工標(biāo)記數(shù)據(jù),在訓(xùn)練網(wǎng)絡(luò)時(shí)收集大規(guī)模、特定任務(wù)的人工標(biāo)記數(shù)據(jù)十分費(fèi)力[2];最后,通常需要為每個(gè)特定任務(wù)訓(xùn)練一個(gè)網(wǎng)絡(luò),不具備廣泛的適應(yīng)性。

隨著研究的發(fā)展,一種新的學(xué)習(xí)范式“預(yù)訓(xùn)練、微調(diào)和預(yù)測(cè)”表現(xiàn)十分出色。通過在大量無監(jiān)督相關(guān)領(lǐng)域知識(shí)上預(yù)訓(xùn)練一個(gè)通用模型,再針對(duì)特定任務(wù)進(jìn)行微調(diào),模型能顯著提升性能[3]。隨著計(jì)算資源的增加,以及Transformer 結(jié)構(gòu)[4]帶來的訓(xùn)練大規(guī)模模型的可能性,研究者開始訓(xùn)練參數(shù)量更大的模型,這些嘗試從自然語言處理領(lǐng)域的LLM 開始,如GPT 系列[5]和BERT[6]。這些模型不僅能夠捕捉語言的深層次語義,還能在多種下游任務(wù)中遷移學(xué)習(xí),展示出驚人的通用性和靈活性。

為進(jìn)一步拓展這種通用理解能力的應(yīng)用范圍,多模態(tài)大模型應(yīng)運(yùn)而生,能夠接收多源類型的數(shù)據(jù),除常規(guī)的文字外還包括圖像、音頻和視頻,甚至觸覺等,使得模型能夠理解更加高維和豐富的信息,更加向“人”靠近。上述模態(tài)中,視覺模態(tài)是最重要和優(yōu)先發(fā)展的,視覺的接入代表了對(duì)環(huán)境信息的獲取,除拓展了人機(jī)交互的維度外,更為具身智能體理解世界和所處環(huán)境提供渠道。視覺語言模型(VisualLanguage Model,VLM)如CLIP[2]、GPT4V[5],通過聯(lián)合訓(xùn)練圖像和文本數(shù)據(jù),使得模型能夠同時(shí)理解視覺信息和語言信息,從而在諸如圖像標(biāo)注和視覺問答等任務(wù)中取得了顯著成果。除了多源的輸入外,多模態(tài)大模型還可能產(chǎn)生多源的輸出,例如,OpenAI 的DALLE[7]能生成與文本描述相符的圖像,展示了創(chuàng)造性與理解力的結(jié)合;GPT4o[5]能夠?qū)崟r(shí)生成類人語氣的語音輸出。這種多模態(tài)的理解和生成能力,為AI 在更廣泛領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。

圖1 概述了一個(gè)多模態(tài)大模型的通用架構(gòu),分為理解和生成兩階段。在理解輸入時(shí),多種模型如ViT 等被用來提取和處理多種類型的數(shù)據(jù),并映射到語言模型主結(jié)構(gòu)的特征空間,深入分析和處理輸入數(shù)據(jù),適應(yīng)不同的應(yīng)用需求。在生成輸出時(shí),獲得的理解被映射到生成器中,可以生成不同形式的媒體輸出,如圖像、視頻和音頻。

多模態(tài)大模型憑借其獨(dú)特的架構(gòu)與算法設(shè)計(jì),在多個(gè)維度上展現(xiàn)了卓越的能力,不僅深化了人工智能的應(yīng)用范疇,也重新定義了技術(shù)與現(xiàn)實(shí)世界互動(dòng)的邊界。具體而言,這些能力涵蓋了以下幾個(gè)核心方面:

① 場(chǎng)景深度理解。通過對(duì)圖像、視頻等多媒體數(shù)據(jù)的深入解析,多模態(tài)大模型能夠準(zhǔn)確識(shí)別場(chǎng)景中的元素、理解復(fù)雜布局與對(duì)象間的關(guān)系,進(jìn)而為智慧城市管理、虛擬現(xiàn)實(shí)體驗(yàn)等領(lǐng)域提供高度情境化的智能支持。

② 目標(biāo)定位與識(shí)別?;谏疃葓D像理解能力,模型在復(fù)雜背景中可以實(shí)現(xiàn)精確的目標(biāo)鎖定,無論是用于物流追蹤、安防監(jiān)控還是自動(dòng)駕駛車輛的避障系統(tǒng),都顯著提高了系統(tǒng)的準(zhǔn)確性和深度。

③ 自然語言交互。結(jié)合強(qiáng)大的自然語言處理能力,多模態(tài)大模型能夠流暢地理解并回應(yīng)人類語言指令,支持多樣化的人機(jī)交互場(chǎng)景,增強(qiáng)了用戶體驗(yàn)的自然度與便利性,方便快速實(shí)時(shí)的指令部署。

④ 音視頻分析。通過分析音頻特征與視頻內(nèi)容的同步信息,模型能夠識(shí)別聲音來源、情緒變化乃至特定事件的發(fā)生,為內(nèi)容審核、情緒分析和遠(yuǎn)程健康監(jiān)護(hù)等應(yīng)用提供了新的洞察視角。

⑤ 跨模態(tài)融合。整合不同模態(tài)信息,如將文本描述與圖像內(nèi)容相結(jié)合,模型能夠?qū)崿F(xiàn)更加全面和深入的信息理解和生成,促進(jìn)了在教育、娛樂和科研等多領(lǐng)域的創(chuàng)新應(yīng)用。

⑥ 自適應(yīng)學(xué)習(xí)與優(yōu)化。可以賦予多模態(tài)大模型以持續(xù)學(xué)習(xí)機(jī)制,根據(jù)新數(shù)據(jù)自我調(diào)整和優(yōu)化模型參數(shù),不斷適應(yīng)變化的環(huán)境和任務(wù)需求,不僅提升了模型的魯棒性和泛化能力,也為未來的個(gè)性化服務(wù)與智能決策系統(tǒng)奠定了堅(jiān)實(shí)的基礎(chǔ)。

1. 2 主流多模態(tài)大模型及其特點(diǎn)

國(guó)外商業(yè)機(jī)構(gòu)的閉源模型處在行業(yè)前沿,尤其是OpenAI 的GPT 系列模型在業(yè)界處于領(lǐng)先地位。GPT4V[5]主要集中于將視覺能力整合到傳統(tǒng)語言模型框架中,擴(kuò)展了模型處理圖像輸入與文本的能力,適用于更廣泛的應(yīng)用場(chǎng)景,如醫(yī)學(xué)影像分析、多媒體內(nèi)容創(chuàng)建和增強(qiáng)的交互式用戶界面。這個(gè)版本的模型在生成和理解結(jié)合視覺與文字元素內(nèi)容方面顯示了相當(dāng)?shù)膬?yōu)勢(shì)。GPT4o[5]則進(jìn)一步在多模態(tài)技術(shù)上取得了進(jìn)展,不僅包含視覺能力,還加入了音頻輸入,模型能夠理解并生成跨文本、視覺和音頻的響應(yīng),使其非常適合需要深入整合這些模態(tài)的應(yīng)用。GPT4o 在處理音頻任務(wù)方面表現(xiàn)出色,超越了以往的模型,在語音識(shí)別和音頻翻譯任務(wù)中具有優(yōu)勢(shì)。

Gemini 1. 5 Pro[8]是一款由Google DeepMind 開發(fā)的先進(jìn)的多模態(tài)LLM。該模型特別優(yōu)化了處理和理解多種語言和模態(tài)的能力,使其在自然語言處理領(lǐng)域表現(xiàn)卓越,具備理解和生成長(zhǎng)文本的能力,不僅在文本處理上表現(xiàn)卓越,還支持圖像和視頻等多種輸入模態(tài),進(jìn)一步增強(qiáng)了其多模態(tài)處理能力。例如,它能夠從上傳的講座視頻中生成基于內(nèi)容的測(cè)驗(yàn),顯示出其在視頻內(nèi)容理解和生成應(yīng)用方面的強(qiáng)大功能。

國(guó)內(nèi)的大模型研究起步稍晚,但產(chǎn)出的模型性能正在穩(wěn)步提升。上海AI 實(shí)驗(yàn)室開源了新一代書生·視覺大模型(InternVL)[9],在視覺能力上能夠逼近GPT4V 的表現(xiàn)。其視覺編碼器參數(shù)量達(dá)60 億,首次提出了對(duì)比-生成融合的漸進(jìn)式對(duì)齊技術(shù),實(shí)現(xiàn)了在互聯(lián)網(wǎng)級(jí)別數(shù)據(jù)上視覺大模型與語言大模型的精細(xì)對(duì)齊。InternVL 不僅能處理復(fù)雜圖片中細(xì)微的視覺信息并完成圖生文任務(wù),還可以識(shí)別和解讀復(fù)雜頁面中的信息,甚至解決其中的數(shù)理問題。

2 基于多模態(tài)大模型的智能無人機(jī)系統(tǒng)的基本架構(gòu)

多模態(tài)大模型帶來了視覺等多源數(shù)據(jù)接口,賦予智能體對(duì)環(huán)境的分析和理解能力,這對(duì)具備廣域感知能力的無人機(jī)而言意義重大。同樣,多模態(tài)大模型也繼承了LLM 所具備的人機(jī)交互的便捷性特點(diǎn),以及對(duì)復(fù)雜任務(wù)的理解和處理,能夠全面支持無人機(jī)的智能化發(fā)展?;诙嗄B(tài)大模型的智能無人機(jī)系統(tǒng)由人機(jī)交互、智能感知、自主決策和群體協(xié)同4 個(gè)方面組成其基本架構(gòu),各方面之間的關(guān)系如圖2所示。

2. 1 人機(jī)交互

多模態(tài)大模型為無人機(jī)領(lǐng)域帶來的首要改變是能夠革新人與無人機(jī)系統(tǒng)的交互模式。傳統(tǒng)的無人機(jī)系統(tǒng)通常只能接收預(yù)設(shè)的輸入指令,限制了人機(jī)交互的自由度,對(duì)預(yù)設(shè)任務(wù)的豐富性和適應(yīng)性提出了很高的要求。引入多模態(tài)大模型作為系統(tǒng)的主體或人機(jī)交互的接口后,由于模型具備泛化的知識(shí)和理解能力,并且可以接收自然語言輸入,生成自然語言的輸出,這使得操控者對(duì)無人機(jī)系統(tǒng)可以直接通過語言進(jìn)行交互并獲得容易理解的反饋,而系統(tǒng)可以直接對(duì)人類語言指令進(jìn)行解析,對(duì)具體執(zhí)行進(jìn)行后續(xù)的組織安排。由此,人機(jī)交互的自由度大大拓展,使無人機(jī)可以執(zhí)行更廣泛的任務(wù),操作者和無人機(jī)系統(tǒng)間的交互變得高效和易理解。文獻(xiàn)[10]引入大模型接收語音的指令輸入,其系統(tǒng)能夠理解并實(shí)現(xiàn)簡(jiǎn)單任務(wù)和給予反饋。

2. 2 智能感知

無人機(jī)運(yùn)行的場(chǎng)景多為室外場(chǎng)景,具備復(fù)雜、高動(dòng)態(tài)和開放的特征,使得高效精確的智能感知十分重要。無人機(jī)需要即時(shí)地獲取對(duì)環(huán)境的感知,可能包括視覺、雷達(dá)信息和音頻信息等,并且對(duì)這些信息進(jìn)行整合和理解,做出完整、準(zhǔn)確的總結(jié)和評(píng)估。智能感知賦予了無人機(jī)“感官”,是一切后續(xù)任務(wù)的基石。

傳統(tǒng)的感知多局限在預(yù)訓(xùn)練好的有限的目標(biāo)識(shí)別、目標(biāo)跟蹤等任務(wù)中,而有了多模態(tài)大模型的加入,無人機(jī)的感知可以革新地向人們想象中的智能化靠近?;诙嗄B(tài)大模型的視覺理解能力,無人機(jī)可以獲取環(huán)境信息,并對(duì)其進(jìn)行理解和分析,從而獲得對(duì)環(huán)境的整體理解。利用VLM 對(duì)單目相機(jī)獲取的圖像進(jìn)行操作環(huán)境安全性的判斷,保障無人機(jī)運(yùn)行時(shí),不對(duì)人和環(huán)境造成危害。文獻(xiàn)[11]聯(lián)合LLM 和VLM,連同最先進(jìn)的檢測(cè)方式,提供精準(zhǔn)的零樣本無人機(jī)場(chǎng)景文字描述。文獻(xiàn)[12]提出了零樣本理解的無人機(jī)系統(tǒng)的視頻理解方法,創(chuàng)建了一個(gè)基于語言的世界狀態(tài)歷史記錄,記錄了無人機(jī)捕捉到的場(chǎng)景中出現(xiàn)的事件和物體。特定多模態(tài)大模型具備多源數(shù)據(jù)融合能力,可以結(jié)合聲音、視頻和雷達(dá)等信息綜合地對(duì)環(huán)境進(jìn)行理解。AeroAgent[13]接收?qǐng)D像、聲音的輸入,在救援行動(dòng)中識(shí)別出求救人的信息,并在后續(xù)執(zhí)行中完成對(duì)人員的搜救。

部分多模態(tài)大模型還具備語義聯(lián)合定位能力,如CogVLM[14]、QwenVL[15]等,即輸入對(duì)目標(biāo)的語言描述,輸出目標(biāo)在圖像中的檢測(cè)框。將這種能力集成進(jìn)無人機(jī)系統(tǒng)中,可以打破僅能識(shí)別預(yù)訓(xùn)練目標(biāo)類別的局限,從而可以對(duì)具有詳細(xì)描述的目標(biāo)進(jìn)行識(shí)別和跟蹤,使任務(wù)目標(biāo)更加具體和精確。AeroAgent[13]利用多模態(tài)大模型尋找視覺中的森林火源位置和搜救對(duì)象定位,并儲(chǔ)存在記憶中輔助后續(xù)任務(wù)執(zhí)行。

2. 3 自主決策

傳統(tǒng)的無人機(jī)決策和規(guī)劃主要依賴于預(yù)先編程的算法和規(guī)則,這些方法通?;跔顟B(tài)機(jī)、人工勢(shì)場(chǎng)法、圖搜索算法以及經(jīng)典的路徑規(guī)劃算法等技術(shù)實(shí)現(xiàn)。這些傳統(tǒng)方法雖然在一定程度上能夠滿足基本的無人機(jī)操作需求,但對(duì)規(guī)則和邊界條件的設(shè)置提出了很高的要求,往往缺乏對(duì)環(huán)境的動(dòng)態(tài)適應(yīng)能力和對(duì)復(fù)雜決策場(chǎng)景的處理能力,使得無人機(jī)能夠執(zhí)行的任務(wù)較為單一。

大模型發(fā)展帶來的革新之一是以大模型本身作為智能體,具備自主決策和規(guī)劃的能力。將多模態(tài)大模型集成進(jìn)無人機(jī)系統(tǒng),賦予了無人機(jī)分析和思考的智能。結(jié)合自由的人機(jī)交互和智能化的感知,無人機(jī)能夠自主理解操作者的指令,將其拆分為自身可執(zhí)行的任務(wù),高效調(diào)度下游模塊完成執(zhí)行,并且在遇到意外情況或復(fù)雜環(huán)境變化時(shí),可以靈活變通,調(diào)整任務(wù)的執(zhí)行計(jì)劃。文獻(xiàn)[10]將LLM 與傳統(tǒng)路徑規(guī)劃模塊相結(jié)合,令大模型調(diào)整規(guī)劃模塊的輸入?yún)?shù)以控制任務(wù)完成,展示了卓越的零樣本泛化能力。TypeFly[16]將大模型應(yīng)用在任務(wù)規(guī)劃和決策中,設(shè)置了專門的編程模塊輔助大模型完成對(duì)任務(wù)的指揮執(zhí)行。在大模型智能體的系統(tǒng)設(shè)計(jì)中通常包含記憶模塊,這賦予了系統(tǒng)終身學(xué)習(xí)的能力,能夠記憶過往的任務(wù)經(jīng)驗(yàn)并有效做出反思,提高后續(xù)任務(wù)執(zhí)行的魯棒性和適應(yīng)性。

2. 4 群體協(xié)同

群體協(xié)同應(yīng)用廣泛,在自動(dòng)駕駛[17-20]、無人機(jī)[21]等場(chǎng)景均有前景。無人機(jī)群體協(xié)同是指多架無人機(jī)通過相互之間的通信與合作,共同完成一項(xiàng)或多項(xiàng)復(fù)雜任務(wù)的能力。這種協(xié)同不僅包括空間上的編隊(duì)飛行、任務(wù)區(qū)域的高效覆蓋,還包括時(shí)間上的任務(wù)調(diào)度與資源分配。群體協(xié)同顯著增強(qiáng)了無人機(jī)系統(tǒng)的整體效能,使其能夠在搜索與救援、環(huán)境監(jiān)測(cè)和農(nóng)業(yè)植保等領(lǐng)域展現(xiàn)出前所未有的應(yīng)用潛力。部分研究通過深度學(xué)習(xí)已經(jīng)能實(shí)現(xiàn)一定的協(xié)同效果,如Where2comm[21]在無人機(jī)間通過空間置信度圖分享感知信息,提升性能并降低通信量。

多模態(tài)大模型在無人機(jī)群體協(xié)同中扮演著橋梁和智腦的角色,極大地提升了協(xié)同作業(yè)的智能化水平和效率。其應(yīng)用方向首先在于高效的信息共享方式,各無人機(jī)可以自主分析和選擇重點(diǎn)目標(biāo)進(jìn)行分享,共享的信息除目標(biāo)位置外還可以包括對(duì)目標(biāo)的詳細(xì)描述、所處區(qū)域的環(huán)境概況等。其次,基于多模態(tài)數(shù)據(jù)的深入分析,大模型能夠?qū)崟r(shí)評(píng)估任務(wù)需求、無人機(jī)狀態(tài)以及環(huán)境條件,動(dòng)態(tài)調(diào)整任務(wù)分配和路徑規(guī)劃,確保任務(wù)執(zhí)行的高效性和靈活性。協(xié)同過程中,既能以無人機(jī)編隊(duì)為整體進(jìn)行統(tǒng)一動(dòng)態(tài)規(guī)劃,也可以通過各無人機(jī)之間的自主溝通和協(xié)調(diào)實(shí)現(xiàn)。此外,多模態(tài)大模型具有一定的自學(xué)習(xí)能力,能夠從群體協(xié)同的實(shí)踐中不斷優(yōu)化決策模型,適應(yīng)新場(chǎng)景和新任務(wù)。FlockGPT[22]第一個(gè)通過大模型使用自然語言進(jìn)行快速無人機(jī)群控制,所描述的方法可以直觀地編排任何規(guī)模的無人機(jī)群以實(shí)現(xiàn)所需的幾何形狀。

3 基于多模態(tài)大模型的智能無人機(jī)系統(tǒng)的任務(wù)場(chǎng)景

3. 1 物流運(yùn)輸

集成了多模態(tài)大模型的無人機(jī)可以革新快遞服務(wù)和物流行業(yè),通過優(yōu)化配送路線、增強(qiáng)與顧客的交互以及提升運(yùn)營(yíng)效率實(shí)現(xiàn)轉(zhuǎn)型[23]。這些模型能夠處理交通、氣候以及地理等復(fù)雜數(shù)據(jù),從而動(dòng)態(tài)地優(yōu)化配送路徑,不僅縮短了配送時(shí)間,還有效減少了運(yùn)營(yíng)成本[24]。此外,無人機(jī)還可以通過語言模型與客戶互動(dòng),實(shí)時(shí)更新配送狀態(tài)、解答疑問,甚至處理投訴或特殊指令,這種增強(qiáng)的互動(dòng)能提高客戶滿意度,并簡(jiǎn)化配送流程,減少人工客服的需求。LLM 還賦予無人機(jī)在配送過程中進(jìn)行自主決策的能力,在遇到突發(fā)障礙或緊急情況時(shí),無人機(jī)能夠自主選擇最佳應(yīng)對(duì)策略,如改變路線、等待清除或返回基地,這種自主性保證了即使在不可預(yù)見的情況下,配送服務(wù)也能可靠且一致。多模態(tài)大模型還可以幫助進(jìn)行負(fù)載均衡、包裝尺寸調(diào)整和優(yōu)先級(jí)設(shè)置,確保每架無人機(jī)高效裝載,最大化配送量,減少必要的飛行次數(shù)。它們不斷分析交通和天氣信息,實(shí)時(shí)調(diào)整飛行計(jì)劃,特別是在惡劣天氣或空域擁擠的情況下,確保安全、準(zhǔn)時(shí)的配送。智能多模態(tài)無人機(jī)的應(yīng)用如圖3 所示。

3. 2 偵察監(jiān)控

多模態(tài)大型模型賦予無人機(jī)前所未有的認(rèn)知和分析能力,顯著提升了無人機(jī)監(jiān)控系統(tǒng)的效率、準(zhǔn)確度與有效性[25]。這種技術(shù)整合使無人機(jī)能夠高效處理和分析海量視覺數(shù)據(jù),支持實(shí)時(shí)圖像識(shí)別、物體偵測(cè)與環(huán)境感知。多模態(tài)大型模型精于從視頻流或圖像中識(shí)別特定物體、人員、車輛或活動(dòng),為軍事及民用的監(jiān)控任務(wù)提供關(guān)鍵的細(xì)節(jié)洞察。此外,這種模型提高了無人機(jī)的自主運(yùn)行能力,使其能在復(fù)雜或惡劣環(huán)境中迅速響應(yīng),減少了對(duì)人工持續(xù)監(jiān)管的依賴。配備多模態(tài)大型模型的無人機(jī)也能根據(jù)任務(wù)需求和地面實(shí)際情況的變化,實(shí)時(shí)調(diào)整飛行路線、關(guān)注的區(qū)域及拍攝關(guān)鍵畫面的時(shí)機(jī)。通過理解和處理人類語言,無人機(jī)可以接收并解析更復(fù)雜的指令和問詢。多模態(tài)大型模型可以通過歷史數(shù)據(jù)預(yù)測(cè)潛在安全威脅或重點(diǎn)監(jiān)控區(qū)域,這種預(yù)測(cè)功能使無人機(jī)能主動(dòng)進(jìn)行監(jiān)控,密切關(guān)注可疑地區(qū),或向操作員報(bào)告基于已學(xué)習(xí)模式的異常行為。它還能將收集的大量數(shù)據(jù)轉(zhuǎn)化為可行的情報(bào),增強(qiáng)實(shí)時(shí)決策支持,使無人機(jī)在快速變化的監(jiān)視和偵查任務(wù)中能夠做出關(guān)鍵的迅速而明智的決策[26]。

3. 3 應(yīng)急管理

結(jié)合多模態(tài)大型模型的無人機(jī)在應(yīng)急響應(yīng)和災(zāi)害管理中的應(yīng)用可以極大提升行動(dòng)的效率、準(zhǔn)確性和效果。這些模型能迅速分析無人機(jī)收集的圖像與傳感器數(shù)據(jù),評(píng)估災(zāi)害后損毀狀況,如識(shí)別堵塞道路、受損建筑及洪水區(qū)域[27]。在搜救任務(wù)中,時(shí)間至關(guān)重要,配備了LLM 的無人機(jī)能自動(dòng)搜索廣闊區(qū)域,利用物體識(shí)別和模式檢測(cè)技術(shù)定位幸存者,并能獨(dú)立導(dǎo)航通過復(fù)雜地形,加速搜救進(jìn)程,提高救援成功率。具備實(shí)時(shí)態(tài)勢(shì)感知能力的無人機(jī)能幫助應(yīng)急人員優(yōu)先處理緊急區(qū)域并規(guī)劃有效的應(yīng)對(duì)策略[28]。它們還能通過分析歷史數(shù)據(jù)和當(dāng)前天氣狀況預(yù)測(cè)潛在災(zāi)害,提前做好準(zhǔn)備,提示管理者監(jiān)控危險(xiǎn)區(qū)域并提前實(shí)施疏散或其他預(yù)防措施。當(dāng)災(zāi)害破壞通信網(wǎng)絡(luò)時(shí),這些無人機(jī)還能建立臨時(shí)通信網(wǎng)絡(luò),作為空中通信中繼,促進(jìn)救援人員與受災(zāi)群眾的通信。此外,這些模型在后勤管理中也發(fā)揮作用,通過需求評(píng)估和資源調(diào)配,確保無人機(jī)高效地分配和運(yùn)送救援物資(如食物、水和醫(yī)療設(shè)備)到難以通過常規(guī)手段到達(dá)的地區(qū)[29]。通過將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為可操作的洞察和直觀報(bào)告,這些模型增強(qiáng)了無人機(jī)與人類操作員之間的互動(dòng),使應(yīng)急響應(yīng)人員能夠根據(jù)無人機(jī)提供的全面分析迅速且有效地做出明智決策。

3. 4 環(huán)境監(jiān)測(cè)和動(dòng)物保護(hù)

多模態(tài)大模型能夠處理和分析無人機(jī)收集的豐富環(huán)境數(shù)據(jù),如圖像、溫度讀數(shù)和污染水平。這些數(shù)據(jù)有助于識(shí)別環(huán)境變化趨勢(shì)和異常情況,例如植被的變化、水質(zhì)變動(dòng)或污染物的檢測(cè)[30-33]。多模態(tài)大模型能迅速對(duì)這些信息進(jìn)行分析,為自然資源保護(hù)者和環(huán)境科學(xué)家提供實(shí)用的建議。此外,多模態(tài)大型模型可以利用多架無人機(jī)捕獲的視頻和音頻數(shù)據(jù)追蹤和研究野生動(dòng)物,辨識(shí)個(gè)體動(dòng)物,追蹤其移動(dòng),并在無人干擾的條件下觀察它們的行為模式,從而減少人為接觸對(duì)動(dòng)物造成的壓力和行為變化[34-35]。

結(jié)合LLM 的無人機(jī)相比傳統(tǒng)方法能夠更有效地繪制廣闊且難以接近的區(qū)域地圖。多模態(tài)大型模型能分析收集的地理數(shù)據(jù),制作詳盡的棲息地地圖,并監(jiān)測(cè)其隨時(shí)間的變化,這對(duì)于管理自然保護(hù)區(qū)、規(guī)劃重造林項(xiàng)目或評(píng)估人類活動(dòng)對(duì)生態(tài)環(huán)境的影響至關(guān)重要。此外,這種模型利用歷史和持續(xù)的監(jiān)測(cè)數(shù)據(jù),可以預(yù)測(cè)未來環(huán)境條件和野生動(dòng)物的變化趨勢(shì)。這些預(yù)測(cè)為采取保護(hù)措施提供依據(jù),如確定物種保護(hù)措施的最佳實(shí)施時(shí)間和地點(diǎn),或預(yù)測(cè)可能影響生物多樣性的生態(tài)變化。

4 基于多模態(tài)大模型的智能無人機(jī)系統(tǒng)的關(guān)鍵技術(shù)

4. 1 大模型可靠性

模型的可靠性對(duì)于部署無人機(jī)通信至關(guān)重要,特別是當(dāng)基于模型的輸出決策影響重大時(shí)[36]。例如,由于模型通常依賴于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的模式,它們?cè)诿鎸?duì)新穎或異常情況時(shí)可能會(huì)產(chǎn)生不可預(yù)測(cè)或錯(cuò)誤的輸出,因?yàn)檫@些模式可能未能完全覆蓋所有現(xiàn)實(shí)情景[37]。在需要迅速而準(zhǔn)確做出決策的動(dòng)態(tài)環(huán)境中,這種風(fēng)險(xiǎn)尤為突出[38]。通過持續(xù)使用新數(shù)據(jù)來更新和重新訓(xùn)練模型,可以幫助模型從最新經(jīng)驗(yàn)中學(xué)習(xí),適應(yīng)可能遇到的變化或新情景。

此外,當(dāng)依賴于大型模型執(zhí)行關(guān)鍵任務(wù)時(shí),進(jìn)行基于模擬的測(cè)試和驗(yàn)證變得至關(guān)重要。在多種模擬環(huán)境下測(cè)試這些模型,對(duì)于發(fā)現(xiàn)模型在復(fù)雜場(chǎng)景(如惡劣天氣、通信中斷或不常見任務(wù)參數(shù))下可能的故障或弱點(diǎn)是必不可少的。如果模型輸出不確定或超出預(yù)期,還應(yīng)建立人工干預(yù)的閾值或條件,實(shí)施強(qiáng)大的故障安全機(jī)制,防止因模型錯(cuò)誤輸出引發(fā)的不利后果。通過實(shí)施冗余系統(tǒng),可以在執(zhí)行關(guān)鍵決策前進(jìn)行仔細(xì)檢查,增強(qiáng)的錯(cuò)誤處理能力能夠應(yīng)對(duì)大型模型的意外輸出,確保無人機(jī)操作的連續(xù)性[39]。

4. 2 大模型與傳統(tǒng)系統(tǒng)集成

多模態(tài)大型模型需要與無人機(jī)的現(xiàn)有硬件和軟件模塊(如飛行控制、導(dǎo)航系統(tǒng)、通信協(xié)議和數(shù)據(jù)處理單元)進(jìn)行無縫交互,每個(gè)模塊均具有自己的獨(dú)特規(guī)范和操作要求[40]。這些要求的多樣性使得將大型模型整合進(jìn)這些系統(tǒng)變得復(fù)雜且耗時(shí),因此,采用模塊化設(shè)計(jì)方法對(duì)系統(tǒng)進(jìn)行設(shè)計(jì)顯得尤為重要,它允許在不干擾整個(gè)系統(tǒng)運(yùn)行的情況下,方便地集成、移除或更新大型模型的各個(gè)組件,從而大幅簡(jiǎn)化大型模型的集成過程。此外,開發(fā)一種能夠定期進(jìn)行更新和維護(hù)的系統(tǒng)策略也是必要的,以確保集成的大型模型持續(xù)有效,并使整個(gè)系統(tǒng)能夠適應(yīng)新技術(shù)進(jìn)展或操作需求的變化[37]。

4. 3 計(jì)算負(fù)載與延時(shí)

大型模型的運(yùn)行依賴于大量的計(jì)算力和能源[41-42]。然而,由于無人機(jī)的機(jī)載計(jì)算能力和電源容量有限,且需滿足輕型設(shè)計(jì)的要求以保證較長(zhǎng)的飛行時(shí)間和較高的運(yùn)行效率,處理這些模型所需的大量電力會(huì)迅速消耗無人機(jī)的電池,縮短關(guān)鍵任務(wù)的可操作時(shí)間[43]。為了克服這些挑戰(zhàn),采用裁剪不必要參數(shù)和應(yīng)用量化技術(shù)以縮小模型規(guī)模和降低能耗是至關(guān)重要的[44]。常見的解決方案是將數(shù)據(jù)處理任務(wù)外包給云端服務(wù)器,盡管這種方法能夠借助強(qiáng)大的云計(jì)算能力,但無人機(jī)與云服務(wù)器之間的通信延遲可能引入額外的延時(shí),這在需要關(guān)鍵即時(shí)響應(yīng)的任務(wù)中可能影響任務(wù)的執(zhí)行效率和安全性[45]。為減輕這一問題,無人機(jī)可以通過集成如微處理器、GPU 或定制的專用集成電路等高級(jí)計(jì)算資源來提升機(jī)載處理能力,從而更有效地處理復(fù)雜算法。采用混合處理策略至關(guān)重要,即將緊急且實(shí)時(shí)的處理任務(wù)在無人機(jī)上直接完成,而將較復(fù)雜、對(duì)時(shí)間敏感度較低的任務(wù)外包給云處理。這種策略有助于平衡計(jì)算負(fù)擔(dān),并根據(jù)任務(wù)的緊急程度和復(fù)雜性調(diào)整響應(yīng)時(shí)間。此外,通過建立強(qiáng)大的近場(chǎng)通信網(wǎng)絡(luò)并采用邊緣計(jì)算方案可以進(jìn)一步降低延遲。將處理能力配置在離無人機(jī)更近的位置,無論是本地服務(wù)器還是附近的邊緣服務(wù)器設(shè)備,都能顯著減少通信距離和時(shí)間,增強(qiáng)無人機(jī)操作的響應(yīng)能力[46-47]。

4. 4 數(shù)據(jù)安全與隱私

基于無人機(jī)強(qiáng)大的感知和監(jiān)控能力,對(duì)數(shù)據(jù)安全和隱私的關(guān)注日益增長(zhǎng),主要是因?yàn)檫@些模型常處理包括監(jiān)控任務(wù)中收集的個(gè)人信息在內(nèi)的敏感數(shù)據(jù)。這類數(shù)據(jù)容易遭受攻擊,一旦泄露,可能導(dǎo)致嚴(yán)重的隱私侵權(quán)和其他安全風(fēng)險(xiǎn)。因此,采取堅(jiān)固的數(shù)據(jù)安全措施是降低這些風(fēng)險(xiǎn)的關(guān)鍵。強(qiáng)化數(shù)據(jù)加密是確保數(shù)據(jù)在傳輸和存儲(chǔ)過程中不被未經(jīng)授權(quán)用戶訪問的重要策略[48]。此外,建立嚴(yán)格的訪問控制機(jī)制,限制數(shù)據(jù)訪問權(quán)限僅限于授權(quán)人員,是防止未授權(quán)的數(shù)據(jù)操作或泄露的有效手段。遵循數(shù)據(jù)保護(hù)法規(guī)也極為關(guān)鍵,這些法規(guī)設(shè)計(jì)用以保護(hù)數(shù)據(jù)隱私和完整性,要求組織采取嚴(yán)格措施以保障個(gè)人信息的安全。通過符合這些法律標(biāo)準(zhǔn),無人機(jī)操作員能夠保護(hù)由大型模型處理的敏感數(shù)據(jù),最大程度地減少違規(guī)風(fēng)險(xiǎn),維護(hù)數(shù)據(jù)的機(jī)密性和完整性[49]。同時(shí),也應(yīng)當(dāng)限制無人機(jī)的移動(dòng)范圍,使其不輕易進(jìn)入引起隱私侵犯的區(qū)域或機(jī)密場(chǎng)所,杜絕引起他人不適。文獻(xiàn)[50]提出的NetGPT 賦予系統(tǒng)攻擊性無人機(jī)攔截和良性無人機(jī)通信保持的能力,提出對(duì)無人機(jī)通信中數(shù)據(jù)安全和隱私保護(hù)的問題。

5 結(jié)束語

隨著多模態(tài)大模型能力的快速增長(zhǎng)和拓展[51],將其集成進(jìn)無人機(jī)系統(tǒng)是勢(shì)在必行的趨勢(shì)。這種集成能夠顯著發(fā)揮無人機(jī)作為智能體的自主性和靈活性,在多個(gè)領(lǐng)域彰顯無人機(jī)的作用。未來,基于多模態(tài)大模型的無人機(jī)智能系統(tǒng)研究將聚焦于多模態(tài)數(shù)據(jù)融合、自適應(yīng)學(xué)習(xí)、模型輕量化和模型安全性等關(guān)鍵方向,持續(xù)發(fā)展,并著力關(guān)注其在復(fù)雜應(yīng)用場(chǎng)景中的實(shí)際部署[52]。

本文首先說明了多模態(tài)大模型和無人機(jī)二者集成的重要性,并詳細(xì)介紹了多模態(tài)大模型的發(fā)展和應(yīng)用現(xiàn)狀,然后列舉了多模態(tài)大模型能為無人機(jī)系統(tǒng)提供的革新能力,最后闡明了其應(yīng)用范圍和面臨的挑戰(zhàn)。本文全面地對(duì)多模態(tài)大模型及其與無人機(jī)結(jié)合的角度和前景進(jìn)行了分析和闡釋,期待為無人機(jī)的智能化發(fā)展提供參考并起到一定推動(dòng)作用。

參考文獻(xiàn)

[1] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual

Learning for Image Recognition[C]∥2016 IEEE Confe

rence on Computer Vision and Pattern Recognition

(CVPR). Las Vegas:IEEE,2016:770-778.

[2] RADFORD A,KIM J W,HALLACY C,et al. Learning

Transferable Visual Models from Natural Language Super

vision[EB/ OL]. (2021-02-26)[2024-05-15]. https:∥

arxiv. org / abs / 2103. 00020.

[3] GIRSHICK R. Fast RCNN[C]∥Proceedings of the 2015

IEEE International Conference on Computer Vision. San

tiago:IEEE,2015:1440-1448.

[4] VASWANI A,SHAZEER N,PARMAR N,et al.

Attentionis Is All You Need[C]∥Proceedings of the 31st

International Conference on Neural Information Processing

Systems (NIPS’17). New York:ACM,2017:6000-6010.

[5] OpenAI. GPT4 Technical Report [EB / OL]. (2024 - 03 -

04)[2024-05-01]. https:∥arxiv. org / abs/ 2303. 08774.

[6] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre

training of Deep Bidirectional Transformers for Language

Understanding[EB / OL]. (2018 - 10 - 11)[2024 - 03 -

10]. https:∥arxiv. org / abs / 1810. 04805.

[7] RAMESH A,PAVLOV M,GOH G,et al. Zeroshot Text

toImage Generation[EB / OL]. (2021 -02 -26)[2024 -

05-01]. https:∥arxiv. org / abs / 2102. 12092.

[8] Gemini Team Google. Gemini 1. 5:Unlocking Multimodal

Understanding Across Millions of Tokens of Context[EB /

OL]. (2024 - 04 - 25)[2024 - 05 - 01]. https:∥ arxiv.

org / abs / 2403. 05530.

[9] CHEN Z,WU J N,WANG W H,et al. InternVL:Scaling

up Vision Foundation Models and Aligning for Generic

VisualLinguistic Tasks [C ] ∥ 2024 IEEE / CVF

Conference on Computer Vision and Pattern Recognition.

Seattle:IEEE,2024:24185-24198.

[10] ZHONG J G,LI MING,CHEN Y L,et al. A Safer Vision

based Autonomous Planning System for Quadrotor UAVs

with Dynamic Obstacle Trajectory Prediction and Its Ap

plication with LLMs[C]∥2024 IEEE / CVF Winter Con

ference on Applications of Computer Vision. Waikoloa:

IEEE,2024:920-929.

[11] DE CURT? J,DE ZARZ? I,CALAFATE C T. Semantic

Scene Understanding with Large Language Models on Un

manned Aerial Vehicles[J]. Drones,2023,7(2):114.

[12] DE ZARZ? I,DE CURT? J,CALAFATE C T. Socratic

Video Understanding on Unmanned Aerial Vehicles[J].

Procedia Computer Science,2023,225:144-154.

[13] ZHAO H R,PAN F X,PING H Q Y,et al. Agent as Cere

brum, Controller as Cerebellum: Implementing an

Embodied LMMbased Agent on Drones [EB / OL ].

(2023-11-25)[2024-05-01]. https:∥arxiv. org / abs /

2311. 15033.

[14] WANG W H,LV Q S,YU W M,et al. Cogvlm:Visual Ex

pert for Pretrained Language Models[EB / OL]. (2024 -

02 - 04 ) [2024 - 06 - 01 ]. https:∥ arxiv. org / abs /

2311. 03079.

[15] BAI J Z,BAI S,YANG S S,et al. QwenVL:A Frontier

Large Visionlanguage Model with Versatile Abilities

[EB / OL]. (2023 - 10 - 13)[2024 - 05 - 01]. https:∥

arxiv. org / abs / 2308. 12966.

[16] CHEN G J,YU X J,LING N W,et al. TypeFly:Flying

Drones with Large Language Model [EB / OL]. (2023 -

12 - 08 ) [2024 - 05 - 01 ]. https:∥ arxiv. org / abs /

2312. 14950.

[17] HU Y,CHEN S H,ZHANG Y,et al. Collaborative Motion

Prediction via Neural Motion Message Passing[C]∥2020

IEEE / CVF Conference on Computer Vision and Pattern

Recognition. Seattle:IEEE,2020:6318-6327.

[18] HU Y,PENG J T,LIU S F,et al. Communicationefficient

Collaborative Perception via Information Filling with Co

debook[C]∥2024 IEEE / CVF Conference on Computer

Vision and Pattern Recognition. Seattle:IEEE,2024:

15481-15490.

[19] LU Y F,HU Y,ZHONG Y Q,et al. An Extensible Frame

work for Open Heterogeneous Collaborative Perception

[EB / OL]. (2024 - 04 - 01)[2024 - 05 - 01]. https:∥

arxiv. org / abs / 2401. 13964.

[20] LU Y F,LI Q H,LIU B A,et al. Robust Collaborative 3D

Object Detection in Presence of Pose Errors[C]∥2023

IEEE International Conference on Robotics and Automa

tion. London:IEEE,2023:4812-4818.

[21] HU Y,FANG S F,LEI Z X,et al. Where2comm:Commu

nicationefficient Collaborative Perception via Spatial Con

fidence Maps[EB / OL]. (2022 - 09 - 26 )[2024 - 05 -

02]. https:∥arxiv. org / abs / 2209. 12836.

[22] LYKOV A,KARAF S,MARTYNOV M,et al. FlockGPT:

Guiding UAV Flocking with Linguistic Orchestration[EB /

OL]. (2024 - 05 - 09)[2024 - 06 - 01]. https:∥ arxiv.

org / abs / 2405. 05872.

[23] LUO S C,YAO Y X,ZHAO H H,et al. A Language

Modelbased Finegrained Address Resolution Framework

in UAV Delivery System [J]. IEEE Journal of Selected

Topics in Signal Processing,2024,18(3):529-539.

[24] SHE R F,OUYANG Y F. Efficiency of UAVbased Last

mile Delivery Under Congestion in Lowaltitude Air[J].

Transportation Research Part C:Emerging Technologies,

2021,122:102878.

[25] THAKUR N,NAGRATH P,JAIN R,et al. Artificial Intel

ligence Techniques in Smart Cities Surveillance Using

UAVs:A Survey[EB / OL]. (2021 -06 -01)[2024 -03 -

10]. https:∥link. springer. com / chapter / 10. 1007 / 978 -

3-030-72065-0_18.

[26] KUWERTZ A,MHLENBERG D,SANDER J,et al. Ap

plying Knowledgebased Reasoning for Information Fusion

in Intelligence,Surveillance,and Reconnaissance [EB /

OL]. (2018 - 07 - 05 )[2024 - 03 - 10 ]. https:∥ link.

springer. com / chapter / 10. 1007 / 978-3-319-90509-9_7.

[27] MAHARANI W. Sentiment Analysis During Jakarta Flood

for Emergency Responses and Situational Awareness in

Disaster Management Using BERT[C]∥2020 8th Inter

national Conference on Information and Communication

Technology (ICoICT). Yogyakarta:IEEE,2020:1-5.

[28] GOECKS V G,WAYTOWICH N R. DisasterResponseGPT:

Large Language Models for Accelerated Plan of Action

Development in Disaster Response Scenarios [EB / OL].

(2023-06-29)[2024-05-01]. https:∥arxiv. org / abs /

2306. 17271.

[29] LEE M,MESICEK L,BAE K,et al. AI Advisor Platform

for Disaster Response Based on Big Data[J]. Concurrency

and Computation:Practice and Experience,2023,35

(16):6215.

[30] ASADZADEH S,DE OLIVEIRA W J,DE SOUZA F C R.

UAVbased Remote Sensing for the Petroleum Industry

and Environmental Monitoring:Stateoftheart and Per

spectives[J]. Journal of Petroleum Science and Engineer

ing,2022,208:109633.

[31] NOVA K. AIenabled Water Management Systems:An

Analysis of System Components and Interdependencies for

Water Conservation[EB / OL]. [2024-05-01]. https:∥

studies. eigenpub. com / index. php / erst / article / download /

12 / 11 / 24.

[32] MASHALA M J,DUBE T,MUDERERI B T,et al. A Sys

tematic Review on Advancements in Remote Sensing for

Assessing and Monitoring Land Use and Land Cover

Changes Impacts on Surface Water Resources in Semiarid

Tropical Environments [J ]. Remote Sensing,2023,15

(16):3926.

[33] ADUMANU K S,TAPPARELLO C,HEINZELMAN W,et

al. Water Quality Monitoring Using Wireless Sensor Net

works:Current Trends and Future Research Directions

[J]. ACM Transactions on Sensor Networks (TOSN),

2017,13(1):1-41.

[34] STEPHENSON P J. Integrating Remote Sensing into Wild

life Monitoring for Conservation[J]. Environmental Con

servation,2019,46(3):181-183.

[35] CHANEV M,DOLAPCHIEV N,KAMENOVA I,et al. Ap

plication of Remote Sensing Methods For Monitoring Wild

Life Populations:A Review[C]∥Ninth International Con

ference on Remote Sensing and Geoinformation of the Envi

ronment (RSCy2023). Ayia Napa:SPIE,2023:2681760.

[36] SCHWARTZ S,YAELI A,SHLOMOV S. Enhancing Trust

in LLMbased AI Automation Agents:New Considerations

and Future Challenges [EB / OL ]. (2023 - 08 - 10 )

[2024-05-01]. https:∥arxiv. org / pdf / 2308. 05391.

[37] TELLI K,KRAA O,HIMEUR Y,et al. A Comprehensive

Review of Recent Research Trends on Unmanned Aerial

Vehicles (UAVs)[J]. Systems,2023,11(8):400.

[38] DE CURT? J,DE ZARZA I,CALAFATE C T. Semantic

Scene Understanding with Large Language Models on Un

manned Aerial Vehicles[J]. Drones,2023,7(2):114.

[39] MISHRA S,PALANISAMY P. Autonomous Advanced

Aerial Mobility—An EndtoEnd Autonomy Framework

for UAVs and Beyond [J ]. IEEE Access,2023,11:

136318-136349.

[40] ULLAH A,QI G,HUSSAIN S,et al. The Role of LLMs in

Sustainable Smart Cities:Applications,Challenges,and

Future Directions[EB / OL]. (2024-02-07)[2024-05-

01]. https:∥arxiv. org / abs / 2402. 14596.

[41] WAN L J,HUANG Y B,LI Y H,et al. Software / Hardware

Codesign for LLM and Its Application for Design Verifi

cation[C]∥ 2024 29th Asia and South Pacific Design

Automation Conference (ASPDAC ). Incheon:IEEE,

2024:435-441.

[42] YANG J F,JIN H Y,TANG R X,et al. Harnessing The

Power of LLMs In Practice:A Survey on ChatGPT and

Beyond[EB / OL]. (2023 - 04 - 26 ) [2024 - 05 - 01 ].

https:∥arxiv. org / abs / 2304. 13712.

[43] JAVAID S,SAEED N,QADIR Z,et al. Communication

and Control in Collaborative UAVs:Recent Advances and

Future Trends [J ]. IEEE Transactions on Intelligent

Transportation Systems,2023,24(6):5719-5739.

[44] MA X Y,FANG G F,WANG X C. LLMpruner:On the

Structural Pruning of Large Language Models [J ].

Advances in Neural Information Processing Systems,

2023,36:21702-21720.

[45] RONG B,RUTAGEMWA H. Leveraging Large Language

Models for Intelligent Control of 6G Integrated TNNTN

with IoT Service [J ]. IEEE Network,2024,38 (4 ):

136-142.

[46] HASSAN S S,PARK Y M,TUN Y K,et al. Satellitebased

ITS Data Offloading & Computation in 6G Networks:A

Cooperative Multiagent Proximal Policy Optimization

DRL with Attention Approach[J]. IEEE Transactions on

Mobile Computing,2023,23(5):4956-4974.

[47] CHEN Q,GUO Z,MENG W X,et al. A Survey on

Resource Management in Joint Communication and Com

putingembedded SAGIN [EB / OL ]. (2024 - 05 - 14 )

[2024-05-01]. https:∥arxiv. org / html / 2403. 17400v2.

[48] YAO Y F,DUAN J H,XU K D,et al. A Survey on Large

Language Model (LLM)Security and Privacy:The Good,

the Bad,and the Ugly[J]. HighConfidence Computing,

2024,4(2):100211.

[49] WU F Z,ZHANG N,JHA S,et al. A New Era in LLM Se

curity:Exploring Security Concerns in Realworld LLM

based Systems[EB / OL]. (2024 - 02 - 28)[2024 - 05 -

01]. https:∥arxiv. org / abs / 2402. 18649.

[50] PIGGOTT B,PATIL S,FENG G H,et al. NetGPT:A LLM

empowered Maninthemiddle Chatbot for Unmanned Aerial

Vehicle[C]∥2023 IEEE / ACM Symposium on Edge Com

puting (SEC). Wilmington:IEEE,2023:287-293.

[51] 羅錦釗,孫玉龍,錢增志,等. 人工智能大模型綜述及

展望[J]. 無線電工程,2023,53(11):2461-2472.

[52] 趙林,張宇飛,姚明C,等. 無人機(jī)集群協(xié)同技術(shù)發(fā)展

與展望[J]. 無線電工程,2021,51(8):823-828.

作者簡(jiǎn)介

劉暢行 男,(2002—),博士研究生。主要研究方向:自主無人系統(tǒng)、具身智能。

陳思衡 男,(1989—),博士,副教授。主要研究方向:自主無人系統(tǒng)、協(xié)同感知。

楊 峰 男,(1978—),博士,研究員。主要研究方向:無線通信、人工智能。

猜你喜歡
人機(jī)交互
某型柴油機(jī)虛擬維修系統(tǒng)研究
基于虛擬現(xiàn)實(shí)技術(shù)的九江城市交通事故模擬系統(tǒng)設(shè)計(jì)
人機(jī)交互課程創(chuàng)新實(shí)驗(yàn)
人形交互式服務(wù)機(jī)器人研究現(xiàn)狀及發(fā)展趨勢(shì)
基于任務(wù)規(guī)劃的家庭仿真服務(wù)機(jī)器人的研究
多點(diǎn)噪聲遠(yuǎn)程自動(dòng)采集系統(tǒng)設(shè)計(jì)
基于智能手機(jī)的盲人語言應(yīng)用軟件的設(shè)計(jì)與開發(fā)
基于Intel Realsense技術(shù)的感知展示系統(tǒng)的設(shè)計(jì)與開發(fā)
一種靜態(tài)手勢(shì)數(shù)字識(shí)別的實(shí)現(xiàn)及應(yīng)用
圖像處理耦合模板定位的答題卡識(shí)別研究與應(yīng)用
宁蒗| 郸城县| 朝阳区| 道真| 寿光市| 延寿县| 张掖市| 湄潭县| 汨罗市| 崇文区| 句容市| 三台县| 大荔县| 济阳县| 广东省| 江陵县| 博兴县| 万盛区| 遵义市| 雷波县| 甘洛县| 临沭县| 龙口市| 香港 | 土默特左旗| 周至县| 科尔| 遵义县| 东宁县| 呈贡县| 介休市| 阳山县| 靖边县| 浦江县| 尉氏县| 黔西| 霍州市| 呼伦贝尔市| 汶上县| 监利县| 宿松县|