国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人機(jī)協(xié)同的無人系統(tǒng)自主性評估方法

2024-01-05 06:50:44郭虎生牛軼峰
無人系統(tǒng)技術(shù) 2023年6期
關(guān)鍵詞:人機(jī)自主性無人

王 菖,郭虎生,柏 航,牛軼峰*

(1. 國防科技大學(xué)智能科學(xué)學(xué)院,長沙 410073;2.32382部隊(duì),武漢 430000)

1 引 言

隨著智能無人系統(tǒng)技術(shù)的持續(xù)創(chuàng)新,美軍陸續(xù)提出了分布式作戰(zhàn)、馬賽克戰(zhàn)、忠誠僚機(jī)、無人機(jī)蜂群等新型作戰(zhàn)概念,無人作戰(zhàn)樣式正向著智能化、協(xié)同化、集群化不斷發(fā)展[1]。例如,馬賽克戰(zhàn)具備低成本、靈活自主、分布式和抗抵消等特點(diǎn),推動以“分布式?jīng)Q策為中心”的體系作戰(zhàn)樣式發(fā)展,代表了當(dāng)今世界作戰(zhàn)概念的先進(jìn)水平[2]。智能無人系統(tǒng)是諸如馬賽克戰(zhàn)的無人作戰(zhàn)基礎(chǔ)單元,無人系統(tǒng)的自主程度將直接影響無人作戰(zhàn)的整體效能。然而,無人系統(tǒng)的自主程度并非越高越好,而是需要根據(jù)作戰(zhàn)意圖和戰(zhàn)場態(tài)勢進(jìn)行動態(tài)調(diào)整,高效的有人/無人系統(tǒng)協(xié)同、人機(jī)協(xié)同是貫徹作戰(zhàn)意圖和實(shí)現(xiàn)態(tài)勢理解的重要保障。

無人系統(tǒng)的自主性(Autonomy)是指其憑借自身平臺的感知、決策、規(guī)劃、行動、學(xué)習(xí)等基本能力,獨(dú)立完成指定任務(wù)的綜合能力水平。由于任務(wù)的復(fù)雜性、環(huán)境的動態(tài)不確定性,以及可能引發(fā)的倫理和法律等問題,無人系統(tǒng)仍需在操作人員的監(jiān)督和干預(yù)下自主運(yùn)行[3]。研究無人系統(tǒng)的自主性評估問題可以避免關(guān)于自主性描述上的模糊性,有助于無人系統(tǒng)的工程實(shí)現(xiàn)和性能提升,對于政策制定者、研制和設(shè)計(jì)者以及相關(guān)用戶都有非常重要的意義[4]。無人系統(tǒng)的自主性評估需要選取合理的評價(jià)指標(biāo),采用定性或定量方法劃分其自主能力水平。文獻(xiàn)中對于自主性和自主等級(Levels of Autonomy,LOA)的定義主要是從機(jī)器平臺的操控視角出發(fā),考慮人機(jī)功能分配[5-6]和人機(jī)控制權(quán)限[7]等問題。然而,隨著無人系統(tǒng)自主控制和學(xué)習(xí)能力的持續(xù)提升,有人系統(tǒng)與無人系統(tǒng)的協(xié)作模式逐漸從“遙控”向“主從協(xié)同”的方向發(fā)展[8],因而需要將無人系統(tǒng)抽象成高級的智能體(Agent),從自主協(xié)同和自主學(xué)習(xí)的角度考慮其自主性評估問題。

基于OODA(即Observe 觀察、Orient 判斷、Decide 決策、Act 行動)循環(huán)理論[9],本文主要從感知與認(rèn)知、決策與規(guī)劃、行動與控制等三個(gè)維度評估無人系統(tǒng)的基礎(chǔ)能力,每個(gè)維度都采用協(xié)同性和學(xué)習(xí)性評估指標(biāo)。其中,協(xié)同性評估是基于人機(jī)協(xié)同模型中的OPD[8](即Observability 可觀察性、Predictability 可預(yù)測性、Directability 可干預(yù)性)準(zhǔn)則,主要考慮人機(jī)之間能否觀察彼此內(nèi)部狀態(tài)的表示、能否預(yù)測彼此的意圖和計(jì)劃,以及能否干預(yù)彼此的行動過程;另一方面,學(xué)習(xí)性評估是基于機(jī)器學(xué)習(xí)方法的特點(diǎn)(訓(xùn)練樣本監(jiān)督程度、學(xué)習(xí)可持續(xù)性、知識可遷移性等),主要考慮無人系統(tǒng)自主學(xué)習(xí)過程中需要人工參與的程度。在此基礎(chǔ)上,構(gòu)建了基于人機(jī)協(xié)同的無人系統(tǒng)自主性評估表,并提出了一種自主等級量化評估方法。

2 自主性評估方法

目前,國內(nèi)外無人系統(tǒng)自主性評估方法主要包括描述法、坐標(biāo)軸法、查表法、公式法、圖形法等,上述方法及其代表性案例如表1所示。

表1 無人系統(tǒng)自主性評估方法Table 1 Autonomy evaluation for unmanned systems

2.1 描述法

當(dāng)前很多關(guān)于自主等級的定義都源自于美國麻省理工學(xué)院Sheridan等提出的自動化等級劃分理論[5]。該理論描述了操作人員與自動化機(jī)器之間的交互方式,包括完全由人操控、需要人同意、人默認(rèn)同意、機(jī)器自動運(yùn)行等10 個(gè)等級。由于自主無人系統(tǒng)也屬于一種自動化機(jī)器,因此可以借鑒自動化等級理論進(jìn)行自主等級劃分。然而,該理論側(cè)重于描述人機(jī)功能分配問題,尚未考慮自主無人系統(tǒng)與任務(wù)相關(guān)的感知、規(guī)劃、決策等方面的能力。因此,該理論不宜直接用于評價(jià)無人系統(tǒng)的自主水平[8]。

針對高空長航程無人機(jī),美國航空航天局(National Aeronautics and Space Administration,NASA)描述了從低到高的6 個(gè)自主等級及其特征[6]:遙控(人在回路中,100%掌控時(shí)間)、簡單自動控制(基于自動駕駛儀,80%掌控時(shí)間)、執(zhí)行預(yù)編程任務(wù)(無人機(jī)綜合管理、預(yù)設(shè)航路點(diǎn)飛行,50%掌控時(shí)間)、半自主(可自主起降,具有基本態(tài)勢感知能力,具有常規(guī)決策能力和權(quán)限,鏈路中斷后可繼續(xù)原任務(wù),20%掌控時(shí)間)、完全自主(具有廣泛的自身及環(huán)境態(tài)勢感知能力,具有全面決策能力和權(quán)限,能夠自動進(jìn)行任務(wù)重規(guī)劃,小于5%掌控時(shí)間)、協(xié)同操作(多無人機(jī)協(xié)同飛行)。需要人操作的時(shí)間與自主等級為反相關(guān)。NASA的分級標(biāo)準(zhǔn)較為簡潔,初步提供了高空長航程無人機(jī)的自主等級劃分依據(jù)。

針對人機(jī)合作感知型任務(wù),國防科技大學(xué)的研究人員提出了更為簡潔的4個(gè)自主等級描述:H(人控制)、HR(人監(jiān)督)、RH(人輔助)、R(全自主)。Zhao 等[7]考慮低人機(jī)比監(jiān)督控制條件下(1 人控4 機(jī))的無人機(jī)目標(biāo)偵察問題,自主等級可根據(jù)任務(wù)復(fù)雜度、環(huán)境復(fù)雜度、人的狀態(tài)等因素自適應(yīng)調(diào)整。吳雪松[10]假設(shè)機(jī)器具備一定的自動目標(biāo)檢測與識別能力,但仍在遮擋、運(yùn)動、混淆等條件下存在不足,通過對比各自主等級下的目標(biāo)識別正確率,表明RH在多目標(biāo)檢測與識別任務(wù)中效果較好。針對無人機(jī)毀傷評估任務(wù),王治超[11]將無人機(jī)偵察圖像變化檢測與數(shù)值仿真方法相結(jié)合,從人機(jī)功能分配的視角描述自主等級。上述研究主要側(cè)重于研究機(jī)器感知能力受限情況下的無人系統(tǒng)自主等級調(diào)整問題,尚未全面考慮決策、規(guī)劃、控制等方面的任務(wù)能力。

2.2 坐標(biāo)軸法

坐標(biāo)軸法主要包括雙坐標(biāo)軸法和三坐標(biāo)軸法。其中,雙坐標(biāo)軸法的典型代表是美國軍方提出的10 個(gè)自主控制等級(Autonomous Control Level,ACL)路線圖[12],三坐標(biāo)軸法的典型代表是美國國家標(biāo)準(zhǔn)和技術(shù)研究所智能系統(tǒng)部提出的無人系統(tǒng)10 個(gè)自主等級(Autonomy Levels for Unmanned Systems,ALFUS)框架[13]。ACL 雙坐標(biāo)軸法來源于美軍發(fā)布的《無人機(jī)路線圖》,橫軸是時(shí)間節(jié)點(diǎn),縱軸是自主能力目標(biāo),主要用于規(guī)劃特定無人系統(tǒng)應(yīng)在特定時(shí)間節(jié)點(diǎn)達(dá)到怎樣的自主等級。ACL 倡導(dǎo)發(fā)展分布式自主無人機(jī)集群。與此不同,ALFUS三坐標(biāo)軸法是從任務(wù)復(fù)雜性、環(huán)境復(fù)雜性、人機(jī)交互性等三個(gè)方面進(jìn)行自主性評估,總體自主等級是由這三個(gè)方面的評估結(jié)果加權(quán)得到。與此前的方法相比,ALFUS 三坐標(biāo)軸法考慮較為全面。但是,每個(gè)坐標(biāo)軸上的因素應(yīng)如何選擇、量化和加權(quán)仍存在一定的不確定性。

2.3 查表法

查表法通常是在表格中設(shè)置多種自主性評價(jià)因素,可以比較全面地描述自主無人系統(tǒng)的自主能力。美國Draper 實(shí)驗(yàn)室研究人員[14]提出了4 個(gè)自主等級的三維智能空間圖表,從運(yùn)動控制、任務(wù)規(guī)劃、情景感知等3 個(gè)方面綜合評價(jià)無人系統(tǒng)的自主性。針對感知、協(xié)調(diào)、決策、控制4個(gè)維度,美國空軍實(shí)驗(yàn)室(Air Force Research Laboratory,AFRL)提出了具備11 個(gè)等級的自主能力分級表[15],從低到高的等級描述如下:執(zhí)行預(yù)先規(guī)劃任務(wù)、可變?nèi)蝿?wù)、實(shí)時(shí)故障/事件的魯棒響應(yīng)、故障/事件自適應(yīng)平臺、實(shí)時(shí)多平臺協(xié)調(diào)、實(shí)時(shí)多平臺協(xié)同、戰(zhàn)場戰(zhàn)術(shù)認(rèn)識、戰(zhàn)場戰(zhàn)略認(rèn)知、戰(zhàn)場集群認(rèn)知、完全自主。同樣基于OODA 理論,國防科技大學(xué)Wu 等[16]將AFRL 的自主等級精簡為8 個(gè),并增加了對協(xié)同和交互能力(人機(jī)交互、協(xié)同觀測、協(xié)同分析、協(xié)同決策以及協(xié)同行動)的評估維度,提出了Cooperation-OODA模型。

2.4 公式法

公式法主要是針對特定的無人系統(tǒng),通過構(gòu)建經(jīng)驗(yàn)公式來計(jì)算無人系統(tǒng)的自主能力。公式的結(jié)構(gòu)設(shè)計(jì)和參數(shù)設(shè)置都對計(jì)算結(jié)果有較大影響。Curtin 等[17]使用控制量、總信息量、控制時(shí)間、總控制時(shí)間等因素計(jì)算了水下機(jī)器人的自主性。

2.5 圖形法

考慮到不同任務(wù)中無人系統(tǒng)自主等級的差異性,中國科學(xué)院沈陽自動化研究所的王越超等[4]提出了一種無人系統(tǒng)自主等級蛛網(wǎng)評價(jià)模型。蛛網(wǎng)評價(jià)模型從一個(gè)原點(diǎn)向外輻射幾條軸,每條軸代表一個(gè)技術(shù)因素,且都有 9 個(gè)技術(shù)成熟程度等級。針對每個(gè)指定的無人系統(tǒng),每個(gè)技術(shù)因素對應(yīng)一個(gè)確定的級別,最后把每條軸上的對應(yīng)點(diǎn)連接起來,形成的蛛網(wǎng)緯線可用于評價(jià)該無人系統(tǒng)的自主性。蛛網(wǎng)模型具有較好的普適性和直觀性,但缺乏對每個(gè)技術(shù)因素的詳細(xì)解釋,且難以判別各因素間的耦合和獨(dú)立性。

2.6 小結(jié)與分析

文獻(xiàn)中的自主性評估方法源自于人與自動化機(jī)器協(xié)作中的功能分配問題,然后針對特定任務(wù)和特定類型的無人系統(tǒng)進(jìn)行了個(gè)性化設(shè)計(jì)。隨著無人系統(tǒng)的應(yīng)用模式向無人集群和人機(jī)協(xié)同方向發(fā)展,交互性與協(xié)同性成為了必須考慮的評估因素。此外,此前的研究尚未考慮無人系統(tǒng)的自主性評估與無人系統(tǒng)的內(nèi)部實(shí)現(xiàn)方式(體系結(jié)構(gòu)、算法程序等)之間的關(guān)系,而是更加關(guān)注如何評估自主無人系統(tǒng)完成任務(wù)的能力。然而,隨著人工智能技術(shù)自2015 年以來的飛速發(fā)展,機(jī)器學(xué)習(xí)技術(shù)對無人系統(tǒng)的感知與認(rèn)知、決策與規(guī)劃、行動與控制、交互與協(xié)同等基礎(chǔ)能力產(chǎn)生了全方位影響,因此也應(yīng)作為自主性評估的重要考量。

由于自主性評估涉及的要素不斷增加,且每種要素的內(nèi)涵也越來越復(fù)雜,因此難以構(gòu)建通用的無人系統(tǒng)自主性評估方法。與此前的研究不同,本文兼顧無人系統(tǒng)的感知與認(rèn)知、決策與規(guī)劃、行動與控制能力評估以及機(jī)器學(xué)習(xí)技術(shù)對上述基礎(chǔ)能力的影響,從傳統(tǒng)人機(jī)功能分配視角轉(zhuǎn)變?yōu)槿藱C(jī)智能協(xié)同視角,重點(diǎn)運(yùn)用表格法和公式法分別進(jìn)行無人系統(tǒng)的自主性分析與量化評估。

3 自主性評估指標(biāo)

3.1 協(xié)同性

協(xié)同性主要考察人機(jī)之間從“感知”到“行動”環(huán)節(jié)的OPD準(zhǔn)則,如圖1所示。

圖1 人機(jī)內(nèi)部模型表示及其協(xié)同性[8]Fig.1 Internal models for human-robot teamwork[8]

3.1.1 可觀察性

可觀察性用來評估人機(jī)之間內(nèi)部狀態(tài)的共享程度和互理解程度,即“對方看到的是什么”“對方認(rèn)為看到的是什么”,主要涉及感知與認(rèn)知方面的問題。一方面,人通過讀取機(jī)器的傳感器數(shù)據(jù),使用可視化、機(jī)器學(xué)習(xí)等技術(shù)來觀察機(jī)器的感知與認(rèn)知信息。例如,可以使用無人機(jī)遙控終端觀看無人機(jī)攝像頭拍攝的畫面,并標(biāo)記機(jī)器檢測、識別與跟蹤的物體。此外,機(jī)器的感知與認(rèn)知方式是由人預(yù)先定義和設(shè)計(jì)的,具有較好的可理解性和可操作性。另一方面,可以通過眼動、語音、手勢、腦機(jī)接口等智能交互方式獲取多模態(tài)人機(jī)交互數(shù)據(jù),然后使用人工智能算法提取人的內(nèi)部狀態(tài)。例如,可以從眼動數(shù)據(jù)中判斷人的注視點(diǎn)、疲勞和繁忙程度[18]。

3.1.2 可預(yù)測性

可預(yù)測性用于評估人機(jī)之間意圖和計(jì)劃的互理解和互預(yù)測程度,即“對方將要做什么”“對方將要怎么做”,主要涉及決策與規(guī)劃方面的問題。

機(jī)器決策與規(guī)劃的方法多樣,因而機(jī)器決策與規(guī)劃結(jié)果的表示形式也不盡相同。其中,貝葉斯網(wǎng)絡(luò)、規(guī)則集、表格等形式較為直觀,具有較好的可理解性和可預(yù)測性,而神經(jīng)網(wǎng)絡(luò)的形式難以理解和預(yù)測。

規(guī)劃結(jié)果通??梢允褂脠D表化的形式來表達(dá),具有較好的可理解性和可預(yù)測性。例如,任務(wù)管理軟件可以實(shí)時(shí)監(jiān)控每架無人機(jī)的任務(wù)進(jìn)度,地面控制軟件可以顯示無人機(jī)規(guī)劃的航線,任務(wù)規(guī)劃軟件可以輸出帶時(shí)間窗約束的復(fù)雜任務(wù)分解和分配結(jié)果[19]。

相對而言,人的意圖和計(jì)劃較難被機(jī)器理解和預(yù)測。雖然人的意圖和計(jì)劃可以通過鼠標(biāo)、鍵盤、觸摸屏等傳統(tǒng)二維交互方式直接輸入到機(jī)器中,但是未來的人機(jī)協(xié)同作業(yè)需要更加自然的智能人機(jī)交互方式。例如,在語音交互中,語音識別技術(shù)可以將口頭下達(dá)的指令轉(zhuǎn)化為文本形式,語義理解技術(shù)可以分析文本的含義,例如實(shí)現(xiàn)基于語音的無人機(jī)自動路徑規(guī)劃[20]。

此外,可以從多智能體系統(tǒng)的角度考慮,采用人機(jī)統(tǒng)一的認(rèn)知模型來表示意圖和計(jì)劃,并通過智能體之間的消息傳遞機(jī)制實(shí)現(xiàn)互理解和互預(yù)測。例如,在人機(jī)混合多智能體協(xié)作采集任務(wù)中,Belief-desire-intention(BDI)智能體通過共享意圖和信念,可以有效提升團(tuán)隊(duì)協(xié)作效率[21]。

3.1.3 可干預(yù)性

可干預(yù)性用于評估人機(jī)相互控制的程度,即“誰主導(dǎo)控制”,主要涉及行動與控制方面的問題。一般而言,人機(jī)協(xié)同系統(tǒng)是由人主導(dǎo)控制,例如由人操控的防御性自主武器可用于人類難以做出快速反應(yīng)的作戰(zhàn)場景[22]。

由人主導(dǎo)控制能夠降低由于自主無人系統(tǒng)行動失控引發(fā)的安全風(fēng)險(xiǎn)。但有些情況下可以允許機(jī)器主導(dǎo)控制權(quán),并防止人的不當(dāng)干預(yù)。例如,假設(shè)固定翼無人機(jī)的自主降落程序可以安全穩(wěn)定運(yùn)行,如果人按照自己的觀察和判斷而施加錯誤干預(yù),反而可能會導(dǎo)致飛機(jī)墜毀。

3.2 學(xué)習(xí)性

考慮機(jī)器學(xué)習(xí)方法的主要特點(diǎn),本文將訓(xùn)練樣本監(jiān)督程度(強(qiáng)監(jiān)督、弱監(jiān)督、自監(jiān)督)、學(xué)習(xí)可持續(xù)性(離線學(xué)習(xí)、持續(xù)學(xué)習(xí)、終身學(xué)習(xí))、知識可遷移性(不可遷移、手動遷移、自動遷移)作為無人系統(tǒng)自主學(xué)習(xí)能力的主要評價(jià)指標(biāo)。

3.2.1 訓(xùn)練樣本監(jiān)督程度

訓(xùn)練樣本監(jiān)督程度是指無人系統(tǒng)在自主學(xué)習(xí)過程中獲取訓(xùn)練樣本所需要的人工參與程度,主要涉及樣本標(biāo)簽、樣本獲取方式等問題。監(jiān)督程度的分級如下:

(1)強(qiáng)監(jiān)督:所有的訓(xùn)練樣本由人選擇,且樣本都有人工標(biāo)注的標(biāo)簽,主要使用監(jiān)督學(xué)習(xí)方法;

(2)弱監(jiān)督:訓(xùn)練樣本主要由人選擇,部分樣本具有人工標(biāo)注的標(biāo)簽,主要使用半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)方法;

(3)自監(jiān)督:訓(xùn)練樣本由機(jī)器自主選擇,樣本無需人工標(biāo)注,主要使用主動學(xué)習(xí)、無監(jiān)督學(xué)習(xí)方法。

從自主性的角度來看,訓(xùn)練樣本需要人監(jiān)督的程度越低,意味著無人系統(tǒng)自主學(xué)習(xí)能力越強(qiáng)。特別指出,當(dāng)前的強(qiáng)監(jiān)督、弱監(jiān)督、自監(jiān)督學(xué)習(xí)方法各有特色,并無優(yōu)劣之分。此外,訓(xùn)練樣本量暫不作為自主學(xué)習(xí)能力評價(jià)指標(biāo)。

3.2.2 學(xué)習(xí)可持續(xù)性

學(xué)習(xí)可持續(xù)性是指自主無人系統(tǒng)在預(yù)先訓(xùn)練、任務(wù)執(zhí)行、全壽命周期內(nèi)的可持續(xù)學(xué)習(xí)程度,主要涉及模型更新方式、樣本獲取方式等問題。可持續(xù)性的分級如下:

(1)離線學(xué)習(xí):模型和樣本都由人選擇,學(xué)習(xí)是在任務(wù)執(zhí)行前完成,學(xué)習(xí)完成后不再收集新樣本或更新模型;

(2)持續(xù)學(xué)習(xí):模型和樣本可以由人選擇或機(jī)器自己選擇,可以在特定環(huán)境和任務(wù)中持續(xù)收集新樣本,已經(jīng)學(xué)習(xí)的模型可以持續(xù)更新;

(3)終身學(xué)習(xí):模型和樣本主要由機(jī)器自己選擇,可以在開放環(huán)境中按需持續(xù)收集新樣本,已經(jīng)學(xué)習(xí)的模型可以持續(xù)更新。

無人系統(tǒng)學(xué)習(xí)的可持續(xù)性越好,意味著自主學(xué)習(xí)能力越強(qiáng)。當(dāng)前的無人系統(tǒng)學(xué)習(xí)模式主要是由人選擇模型和樣本,并且以離線學(xué)習(xí)為主。例如,主流的深度學(xué)習(xí)方法需要預(yù)先訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,且模型越復(fù)雜越難以持續(xù)更新。此外,當(dāng)前的學(xué)習(xí)方法主要考慮的是特定的學(xué)習(xí)環(huán)境。終身學(xué)習(xí)需要考慮復(fù)雜、動態(tài)、不確定、非合作環(huán)境下的自適應(yīng)模型選擇和樣本獲取問題,是實(shí)現(xiàn)機(jī)器高自主學(xué)習(xí)水平的必由之路。

3.2.3 知識可遷移性

知識可遷移性是指無人系統(tǒng)在解決新任務(wù)時(shí)能夠使用已學(xué)習(xí)知識的程度,主要涉及遷移學(xué)習(xí)、課程學(xué)習(xí)、多任務(wù)學(xué)習(xí)等方法。分級如下:

(1)不可遷移:僅考慮單任務(wù)學(xué)習(xí)問題,樣本、模型、參數(shù)、策略都不可以在新任務(wù)中重新使用;

(2)手動遷移:考慮存在多個(gè)任務(wù)的學(xué)習(xí)問題,可以由人手動選擇遷移有用的樣本、模型、參數(shù)、策略,并由人評估遷移效果;

(3)自動遷移:考慮存在多個(gè)任務(wù)的學(xué)習(xí)問題,由機(jī)器自主選擇遷移哪些樣本、模型、參數(shù)、策略,并由機(jī)器自主評估遷移效果。

學(xué)習(xí)的可遷移性越好,意味著自主學(xué)習(xí)能力越強(qiáng)。當(dāng)前很多學(xué)習(xí)方法只考慮單任務(wù)學(xué)習(xí),未來必須考慮從單任務(wù)到多任務(wù)、從簡單任務(wù)到復(fù)雜任務(wù)的遷移學(xué)習(xí)和知識重用問題[23]。

4 自主性評估表

基于所提出的自主性評估指標(biāo),本文設(shè)計(jì)了基于人機(jī)協(xié)同的自主性評估表,如表2所示。

表2 基于人機(jī)協(xié)同的自主性評估表(基于OPD準(zhǔn)則和學(xué)習(xí)能力)Table 2 Autonomy evaluation table based on human-robot teamwork (OPD Criteria and Learning,OPDL)

4.1 零級L0——人操控

無人系統(tǒng)不具備自主性,感知與認(rèn)知、決策與規(guī)劃、行動與控制等各個(gè)環(huán)節(jié)都完全由人操控,不考慮OPD準(zhǔn)則,且不具備學(xué)習(xí)能力。

4.2 初級L1——人委派

OPD 準(zhǔn)則滿足“人觀察機(jī)、人預(yù)測機(jī)、人干預(yù)機(jī)”,感知與認(rèn)知、決策與規(guī)劃、行動與控制能力的學(xué)習(xí)都是“強(qiáng)監(jiān)督、離線學(xué)習(xí)、不可遷移”。下面通過例子進(jìn)行說明。

4.2.1 L1的OPD準(zhǔn)則滿足度

在地面站控制單架無人機(jī)執(zhí)行對地偵察任務(wù)中,地面站操作人員可以通過空地?cái)?shù)據(jù)鏈路,獲取無人機(jī)光電吊艙拍攝的偵察圖像,并通過地面站軟件界面觀察無人機(jī)的航線以及任務(wù)時(shí)間線,從而預(yù)測無人機(jī)的航向以及即將執(zhí)行的任務(wù)序列。此外,在無人機(jī)遇到突發(fā)惡劣天氣威脅、地面雷達(dá)或?qū)椡{等情況時(shí),操作人員可以干預(yù)無人機(jī)繞飛威脅區(qū)域。

4.2.2 L1感知與認(rèn)知學(xué)習(xí)能力

在無人機(jī)對地面車輛目標(biāo)的識別任務(wù)中[14],可以使用大量人工標(biāo)注樣本,采用深度神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行離線訓(xùn)練,所學(xué)的模型不可遷移至其他目標(biāo)的識別任務(wù)中。

4.2.3 L1決策與規(guī)劃學(xué)習(xí)能力

在無人機(jī)導(dǎo)航與避障任務(wù)中[24],可以使用基于Q-學(xué)習(xí)的DQN、DDQN 等強(qiáng)化學(xué)習(xí)算法,在給定的仿真環(huán)境中進(jìn)行大量的離線訓(xùn)練,訓(xùn)練樣本由訓(xùn)練人員采集,且所學(xué)策略不能遷移至其他任務(wù)中。

4.2.4 L1行動與控制學(xué)習(xí)能力

在固定數(shù)量的無人機(jī)群編隊(duì)飛行控制策略學(xué)習(xí)任務(wù)中[25],可以使用深度強(qiáng)化學(xué)習(xí)框架和深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行離線訓(xùn)練,所學(xué)模型不可遷移至其他規(guī)模的無人機(jī)群飛行控制任務(wù)中。

綜上所述,L1適用于靜態(tài)環(huán)境中的特定任務(wù),需要消耗大量的人力成本,難以適應(yīng)高動態(tài)環(huán)境中的復(fù)雜任務(wù)。

4.3 中級L2——人監(jiān)督

OPD 準(zhǔn)則滿足“互觀察、人預(yù)測機(jī)、人干預(yù)機(jī)”,感知與認(rèn)知、決策與規(guī)劃、行動與控制能力的學(xué)習(xí)都是“弱監(jiān)督、離線學(xué)習(xí)、手動遷移”。與L1 相比,L2 在OPD 準(zhǔn)則滿足度方面的提升主要體現(xiàn)在支持人機(jī)“互觀察”,即人與無人系統(tǒng)可相互觀察彼此的內(nèi)部狀態(tài);學(xué)習(xí)能力方面的提升體現(xiàn)在從“強(qiáng)監(jiān)督”變?yōu)椤叭醣O(jiān)督”,且從“不可遷移”變?yōu)椤笆謩舆w移”。下面通過例子進(jìn)行說明。

4.3.1 L2的OPD準(zhǔn)則滿足度

在有人機(jī)/無人機(jī)協(xié)同對地偵察任務(wù)中[11],有人機(jī)可以通過機(jī)間數(shù)據(jù)鏈獲取無人機(jī)偵察的目標(biāo)信息、航線、任務(wù)時(shí)間線,同時(shí)無人機(jī)也可以通過機(jī)間數(shù)據(jù)鏈獲取有人機(jī)偵察的目標(biāo)信息、航線、任務(wù)時(shí)間線,從而支撐有人機(jī)/無人機(jī)協(xié)同動態(tài)任務(wù)分配。此外,在無人機(jī)遇到突發(fā)惡劣天氣威脅、地面雷達(dá)/導(dǎo)彈威脅等,有人機(jī)飛行員可以干預(yù)無人機(jī)繞飛威脅區(qū)域。有人機(jī)可以預(yù)測無人機(jī)的計(jì)劃和行為,但無人機(jī)不能預(yù)測有人機(jī)的計(jì)劃和行為。有人機(jī)具有對無人機(jī)的飛行控制權(quán)限,但無人機(jī)不能干預(yù)有人機(jī)的飛行控制。

4.3.2 L2感知與認(rèn)知學(xué)習(xí)能力

在無人機(jī)對車輛目標(biāo)的圖像識別任務(wù)中[26],可以使用少量的人工標(biāo)注樣本和大量的未標(biāo)注樣本,采用半監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)等方法進(jìn)行離線訓(xùn)練,所學(xué)的模型和參數(shù)可手動遷移至相關(guān)的目標(biāo)識別任務(wù)中。

4.3.3 L2決策與規(guī)劃學(xué)習(xí)能力

在無人車集群導(dǎo)航與避障任務(wù)中[27],可以使用DDPG 強(qiáng)化學(xué)習(xí)算法,將仿真環(huán)境中預(yù)先訓(xùn)練好的4輛車的導(dǎo)航避障策略遷移至8輛車的導(dǎo)航避障場景中,從而提升新環(huán)境中的策略學(xué)習(xí)速度。

4.3.4 L2行動與控制學(xué)習(xí)能力

在規(guī)??勺兊臒o人機(jī)群編隊(duì)飛行控制策略學(xué)習(xí)任務(wù)中,可以使用特殊的機(jī)制將可變數(shù)量的輸入映射為固定長度的向量,可以使用深度強(qiáng)化學(xué)習(xí)框架和深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行離線訓(xùn)練,所學(xué)的模型可遷移至任意規(guī)模的無人機(jī)群編隊(duì)飛行控制任務(wù)中[28]。

綜上所述,L2 適用于低動態(tài)環(huán)境中的特定任務(wù),需要消耗一定的人工成本,能夠應(yīng)對簡單的突發(fā)事件,卻難以適應(yīng)高動態(tài)環(huán)境中的復(fù)雜任務(wù)。

4.4 高級L3——混合主動

OPD 準(zhǔn)則滿足“互觀察、互預(yù)測、人干預(yù)機(jī)”,感知與認(rèn)知、決策與規(guī)劃、行動與控制能力的學(xué)習(xí)都是“弱監(jiān)督、持續(xù)學(xué)習(xí)、手動遷移”。與L2相比,L3在OPD 準(zhǔn)則滿足度方面的提升主要體現(xiàn)在支持人機(jī)“互預(yù)測”,即人與無人系統(tǒng)可相互觀察彼此的意圖和計(jì)劃;學(xué)習(xí)能力方面的提升體現(xiàn)在從“離線學(xué)習(xí)”變?yōu)椤俺掷m(xù)學(xué)習(xí)”。下面通過例子進(jìn)行說明。

4.4.1 L3的OPD準(zhǔn)則滿足度

在多智能體協(xié)作采集任務(wù)中[8],基于BDI 模型的多智能體系統(tǒng)統(tǒng)一表示了人與虛擬機(jī)器人的內(nèi)部模型,智能體之間可以分享彼此的意圖、狀態(tài)、行動計(jì)劃,有效提升了團(tuán)隊(duì)任務(wù)的完成效率。

4.4.2 L3感知與認(rèn)知學(xué)習(xí)能力

在無人機(jī)對車輛目標(biāo)的圖像識別任務(wù)中[29],無人機(jī)可以基于少量不同視角拍攝的車輛圖片,學(xué)習(xí)車輛不同部件的輪廓特征,并結(jié)合概率推理模型,用于持續(xù)提升車輛識別的正確率。

4.4.3 L3決策與規(guī)劃學(xué)習(xí)能力

在基于交互式深度強(qiáng)化學(xué)習(xí)的無人車導(dǎo)航任務(wù)中,導(dǎo)航策略可以在人的引導(dǎo)下持續(xù)更新[30]。在人形機(jī)器人學(xué)習(xí)如何使用工具物品的任務(wù)中,可以基于自驅(qū)動強(qiáng)化學(xué)習(xí)方法自主學(xué)習(xí)探索策略[31],并將所學(xué)知識遷移到新物品的使用中[32]。

4.4.4 L3行動與控制學(xué)習(xí)能力

在大規(guī)模無人機(jī)集群避碰飛行控制策略學(xué)習(xí)任務(wù)中[33],可以使用課程學(xué)習(xí)方法將復(fù)雜的學(xué)習(xí)任務(wù)分解為一系列從小規(guī)模到大規(guī)模、從簡單到復(fù)雜的持續(xù)性課程,從而提升學(xué)習(xí)效率。

L3 能夠適應(yīng)高動態(tài)環(huán)境中的復(fù)雜任務(wù),需要較少的人工成本,是當(dāng)前技術(shù)發(fā)展的最高水平。

4.5 超級L4——全自主

OPD 準(zhǔn)則滿足“互觀察、互預(yù)測、互干預(yù)”,感知與認(rèn)知、決策與規(guī)劃、行動與控制能力的學(xué)習(xí)都是“自監(jiān)督、終身學(xué)習(xí)、自動遷移”。與L3相比,L4 在OPD 準(zhǔn)則滿足度方面的提升主要體現(xiàn)在支持人機(jī)“互干預(yù)”,即人與無人系統(tǒng)可相互引導(dǎo)甚至控制對方的行動;學(xué)習(xí)能力方面的提升體現(xiàn)在從“弱監(jiān)督、手動遷移”變?yōu)椤白员O(jiān)督、自動遷移”。下面通過例子進(jìn)行說明。

4.5.1 L4的OPD準(zhǔn)則滿足度

在有人機(jī)/無人機(jī)群對地偵察打擊任務(wù)中,有人機(jī)與無人機(jī)群間可以共享彼此的內(nèi)部狀態(tài),能夠預(yù)測彼此的意圖和計(jì)劃。當(dāng)無人機(jī)發(fā)現(xiàn)有人機(jī)處于危險(xiǎn)狀態(tài)時(shí),可以先提醒有人機(jī),如果無效或情況緊急,則可以臨時(shí)接管有人機(jī)的控制權(quán)限,協(xié)助其逃離危險(xiǎn)區(qū)域。

4.5.2 L4感知與認(rèn)知學(xué)習(xí)能力

發(fā)展型機(jī)器人[34]倡導(dǎo)模仿幼兒探索未知世界的方式,通過自主探索和自我確認(rèn),持續(xù)更新對環(huán)境和自身的認(rèn)知。

4.5.3 L4決策與規(guī)劃學(xué)習(xí)能力

在空戰(zhàn)決策問題中[35],智能體可以自學(xué)習(xí)和演化空戰(zhàn)規(guī)則,能夠判斷對手策略是否變化,并且可以重用已有知識或按需繼續(xù)學(xué)習(xí)新策略。

4.5.4 L4行動與控制學(xué)習(xí)能力

野外地面無人運(yùn)輸車可以在新的復(fù)雜地形環(huán)境中按需收集有價(jià)值的數(shù)據(jù)樣本,持續(xù)提升其在導(dǎo)航、避障、跟隨、運(yùn)輸?shù)刃袨榈淖灾骺刂扑?,并且自適應(yīng)調(diào)整已有策略。

綜上所述,L4 能夠適應(yīng)高動態(tài)、強(qiáng)對抗、不確定環(huán)境,除了必要的交互外,無人系統(tǒng)幾乎可以完全自主運(yùn)行。

5 自主等級量化評估

針對感知與認(rèn)知、決策與規(guī)劃、行動與控制不同能力視角下的每個(gè)等級,以及協(xié)同性和學(xué)習(xí)性指標(biāo),OPDL定性給出了自主等級的描述性評估方法。然而,如何綜合評估無人系統(tǒng)的自主等級仍然存在困難。

例如,如果某個(gè)無人系統(tǒng)的OPD 準(zhǔn)則滿足度都是L2級,感知與認(rèn)知學(xué)習(xí)能力是L2級,決策與規(guī)劃學(xué)習(xí)能力是L3級,行動與控制學(xué)習(xí)能力是L2級,應(yīng)當(dāng)如何評估其自主等級?一種可行的方法是由最低的基礎(chǔ)自主等級決定綜合自主等級,即L2。但該方法缺乏定量的分析過程,難以精確計(jì)算。

本節(jié)設(shè)計(jì)了一種基于加權(quán)求和的無人系統(tǒng)自主性評估的定量計(jì)算方法為

式中,EO、ED、EA分別表示感知與認(rèn)知、決策與規(guī)劃、行動與控制三個(gè)方面的學(xué)習(xí)能力指標(biāo)(參見表3),其取值范圍是[0,1]區(qū)間中的實(shí)數(shù);εo、εD、εA分別表示感知與認(rèn)知、決策與規(guī)劃、行動與控制的OPD 準(zhǔn)則滿足度,取值范圍也是[0,1]區(qū)間中的實(shí)數(shù)(參見表4)。

表3 學(xué)習(xí)能力量化表Table 3 Quantification table of learning ability

表4 OPD準(zhǔn)則滿足度量化表Table 4 Quantification table of OPD criteria satisfaction

學(xué)習(xí)性和協(xié)同性能力指標(biāo)EO、ED、EA、εo、εD、εA的離散化參考值是將[0,1]區(qū)間按因素等級的數(shù)量平均得到。由于本文采用5 個(gè)自主等級描述,因此學(xué)習(xí)能力量化表也選擇相應(yīng)的5 級。OPD 準(zhǔn)則主要考慮人機(jī)間的交互,因而分為3級。

為了合理計(jì)算綜合自主等級,應(yīng)當(dāng)參考HROPDL 自主性評估表的定性分級標(biāo)準(zhǔn)。因此,將表3 和表4 的數(shù)值代入表2 中進(jìn)行計(jì)算,得到自主等級分級參考表,如表5所示。

表5 自主等級分級參考表Table 5 Reference table for autonomy level grading

根據(jù)式(1)和每項(xiàng)能力指標(biāo)查表對應(yīng)的數(shù)值,計(jì)算得出E后按下列規(guī)則評判綜合等級:

(1)當(dāng)E= 0 時(shí),綜合自主等級為L0;

(2)當(dāng)0 <E≤ 0.375時(shí),綜合自主等級為L1;

(3)當(dāng) 0.375<E≤ 1時(shí),綜合自主等級為L2;

(4)當(dāng) 1 <E≤ 1.5 時(shí),綜合自主等級為L3;

(5)當(dāng) 1.5 <E≤ 3 時(shí),綜合自主等級為L4。

針對本節(jié)開始提出的某自主無人系統(tǒng)的量化評估問題,計(jì)算得出E= 0.875,因此屬于L2。

特別指出,本文采用均勻長度的區(qū)間量化學(xué)習(xí)性和協(xié)同性能力指標(biāo),其主要原因在于較為簡潔直觀。非均勻的區(qū)間分割也是可行的,例如可以將更高能力等級對應(yīng)的數(shù)值增大,從而使得表5中更高自主等級的參考值更高,即使得能力等級參考值分布更為均勻。換而言之,不同的區(qū)間分割方式將會影響綜合量化自主等級的參考值。然而,在給定的區(qū)間分割方式下,表5 的能力等級參考值可以作為綜合評估的參考閾值。由于自主性評估采用的是式(1)的加權(quán)求和方式進(jìn)行計(jì)算,綜合自主能力的量化值應(yīng)當(dāng)能夠落在相應(yīng)的等級區(qū)間中。類似的,能力因素等級數(shù)量也會影響綜合量化自主等級的參考值,但最終得到的綜合自主等級評估數(shù)值也仍應(yīng)能夠落在相應(yīng)的等級區(qū)間中。綜上所述,本文提出的方法具有一定的普適性,可以根據(jù)需要進(jìn)行相應(yīng)調(diào)整。

與文獻(xiàn)中針對具體無人系統(tǒng)的OODA 各環(huán)節(jié)能力或者人機(jī)功能分配方式的自主性評估方法不同(參見表1),本文提出的方法更側(cè)重于無人系統(tǒng)的人機(jī)協(xié)同能力和自主學(xué)習(xí)能力,尤其是在人機(jī)協(xié)同關(guān)系和機(jī)器學(xué)習(xí)方式方面的劃分更細(xì)致。例如,美國NASA 飛行器自主等級[6]、美空軍實(shí)驗(yàn)室AFRL 自主等級[15]、國防科大Cooperation-OODA 模型[16]等方法雖然提到了“協(xié)同操作”“戰(zhàn)場認(rèn)知”“完全自主”等概念,都需要有效的協(xié)同和機(jī)器學(xué)習(xí)技術(shù)作為支撐,然而上述文獻(xiàn)并沒有明確描述涉及的協(xié)同關(guān)系或者機(jī)器學(xué)習(xí)方式。以“忠誠僚機(jī)”為代表的現(xiàn)役無人系統(tǒng)仍以遙操作控制方式為主,其OPD 準(zhǔn)則滿足程度仍以人觀察機(jī)、人預(yù)測機(jī)、人干預(yù)機(jī)為主(不高于L1),且朝著互觀察、互預(yù)測、互干預(yù)(L4)的方向發(fā)展,但是其學(xué)習(xí)能力主要以強(qiáng)監(jiān)督、離線學(xué)習(xí)、不可遷移為主(不高于L2),因此其綜合自主等級目前難以突破L2。未來的無人系統(tǒng)如果具備持續(xù)學(xué)習(xí)和自動遷移學(xué)習(xí)能力,則可能達(dá)到本文提出的L4。

6 結(jié) 論

本文研究了基于人機(jī)協(xié)同的無人系統(tǒng)的自主性評估問題,提出將感知與認(rèn)知、決策與規(guī)劃、行動與控制等三個(gè)能力維度的協(xié)同性和學(xué)習(xí)性作為自主性評估的主要因素。其中,協(xié)同性主要考慮人機(jī)之間的可觀察性、可預(yù)測性和可判斷性;學(xué)習(xí)性主要考慮無人系統(tǒng)自主學(xué)習(xí)過程中需要人參與的程度。綜合運(yùn)用描述法、表格法和公式法,設(shè)計(jì)了人操控、人委派、人監(jiān)督、混合主動、全自主等五個(gè)等級的自主性評估表,并提出了一種自主性量化計(jì)算方法。所提出的方法充分考慮了無人系統(tǒng)應(yīng)用和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展現(xiàn)狀與趨勢,有望廣泛應(yīng)用于各類無人系統(tǒng)的自主性評估。

猜你喜歡
人機(jī)自主性無人
人機(jī)“翻譯員”
從內(nèi)到外,看懂無人機(jī)
南都周刊(2021年3期)2021-04-22 16:43:49
無人戰(zhàn)士無人車
反擊無人機(jī)
詩到無人愛處工
岷峨詩稿(2017年4期)2017-04-20 06:26:43
無人超市會流行起來嗎?
“人機(jī)大戰(zhàn)”人類智慧遭遇強(qiáng)敵
海外星云(2016年7期)2016-12-01 04:17:50
未來深空探測中的人機(jī)聯(lián)合探測
太空探索(2016年5期)2016-07-12 15:17:58
英語學(xué)習(xí)的自主性及其教學(xué)應(yīng)用
實(shí)用英語教材與藝術(shù)生自主性培養(yǎng)
太原市| 巍山| 阳城县| 蛟河市| 介休市| 大姚县| 德钦县| 图片| 东明县| 绵阳市| 门头沟区| 临清市| 南川市| 黄大仙区| 湾仔区| 土默特右旗| 卢氏县| 新化县| 文登市| 新乡县| 广饶县| 怀集县| 宝鸡市| 柳州市| 泰宁县| 锦州市| 日喀则市| 大渡口区| 澄迈县| 吉林市| 彝良县| 漳州市| 宝兴县| 石家庄市| 益阳市| 甘泉县| 乐亭县| 灵璧县| 德兴市| 木兰县| 滕州市|