張騰,張小棟,2,張英杰,2,陸竹風(fēng),朱文靜,蔣永玉
(1.西安交通大學(xué)機(jī)械工程學(xué)院,710049,西安;2.西安交通大學(xué)陜西省智能機(jī)器人重點(diǎn)實(shí)驗(yàn)室,710049,西安)
隨著人工智能技術(shù)的發(fā)展,對(duì)具有仿人高級(jí)認(rèn)知能力、能在復(fù)雜環(huán)境中執(zhí)行非設(shè)定任務(wù)的智能機(jī)器人的需求日趨緊迫,但是單憑人工智能技術(shù)尚無法滿足。因此,研究者提出了人-機(jī)智能融合方法,該方法結(jié)合了人的直觀推理、自組織學(xué)習(xí)以及處理非結(jié)構(gòu)化信息的能力,同時(shí)兼具機(jī)器強(qiáng)大的計(jì)算能力、存儲(chǔ)容量和不知疲倦的特性,目的在于充分發(fā)揮人和機(jī)器兩者的優(yōu)勢(shì)。隨著人-機(jī)智能融合系統(tǒng)所面臨任務(wù)和場(chǎng)景的復(fù)雜化,研究者在人-機(jī)智能融合的基礎(chǔ)之上,提出了一系列腦-機(jī)智能融合增強(qiáng)技術(shù),例如腦控汽車[1]、腦控?zé)o人機(jī)[2]、腦控外骨骼機(jī)器人[3]、腦控輪椅[4]以及腦控假肢[5-6]等。然而,在精密操控領(lǐng)域(例如醫(yī)療、軍事和太空探索等),與肢體操控方式相比,腦控方式在穩(wěn)定性和安全性上還存在風(fēng)險(xiǎn)。因此,目前在精密操控領(lǐng)域依然以人的肢體操控方式為主,例如手術(shù)機(jī)器人[7]、排爆機(jī)器人[8]、武器操控系統(tǒng)[9]以及在軌對(duì)星球表面遙操作系統(tǒng)[10]等。經(jīng)過研究發(fā)現(xiàn),在人-機(jī)交互的精密操控領(lǐng)域,由于缺乏操控者和機(jī)器之間信息的雙向交互,無法實(shí)現(xiàn)對(duì)操控者意圖的精密感知;同時(shí),由于人腦精神狀態(tài)(例如疲勞、專注度和腦力負(fù)荷等)的變化會(huì)影響肢體操控的精度和安全性。
對(duì)此,有關(guān)學(xué)者在精密操控領(lǐng)域引入腦-機(jī)接口技術(shù),在不改變肢體操控方式的前提下,使用表面腦電信號(hào)(EEG)檢測(cè)操控者的精神狀態(tài),并根據(jù)操控者的精神狀態(tài)對(duì)機(jī)器人的指令進(jìn)行補(bǔ)償調(diào)控,以實(shí)現(xiàn)精密操控。目前國(guó)內(nèi)外相關(guān)的研究主要分為兩個(gè)方面:操控者精神狀態(tài)檢測(cè)研究和基于精神狀態(tài)的補(bǔ)償控制研究。
在操控者精神狀態(tài)檢測(cè)研究方面:Dijksterhuis等要求駕駛員在駕駛?cè)蝿?wù)中,執(zhí)行不同難度等級(jí)的駕駛?cè)蝿?wù),利用EEG識(shí)別駕駛員的腦力負(fù)荷,平均識(shí)別精度達(dá)到95%[11];朱成杰等提出在飛行任務(wù)中EEG的各種節(jié)律波會(huì)隨著飛行員疲勞狀態(tài)和腦力負(fù)荷的變化而改變,因此利用EEG檢測(cè)技術(shù)可有效識(shí)別飛行員的疲勞狀態(tài)和腦力負(fù)荷[12];Wang等在多屬性任務(wù)組(MATB)中,要求受試者執(zhí)行3種難度等級(jí)的MATB任務(wù),以2~100 Hz的EEG傅里葉變換系數(shù)為特征,對(duì)受試者腦力負(fù)荷的識(shí)別精度進(jìn)行測(cè)試,結(jié)果表明其識(shí)別精度可達(dá)80%左右[13]。上述研究均證明了EEG可有效地反映操控者的精神狀態(tài),但是目前的研究還僅停留在精神狀態(tài)的檢測(cè)和識(shí)別方法上,并未考慮精神狀態(tài)和操控品質(zhì)之間的聯(lián)系。
在基于精神狀態(tài)的補(bǔ)償控制研究方面:Wilson提出了一種自適應(yīng)自動(dòng)化系統(tǒng),該系統(tǒng)可根據(jù)人的腦力負(fù)荷動(dòng)態(tài)分配機(jī)器和人之間的任務(wù)屬性和等級(jí),目的在于提高操控品質(zhì)[14];Jia等在遙操作任務(wù)下,根據(jù)操控者的精神狀態(tài)實(shí)時(shí)調(diào)控機(jī)器人的速度和響應(yīng)時(shí)間參數(shù),目的在于提高操控的精度和安全性[15];楊少增采用模糊建模方法建立了人的精神狀態(tài)估計(jì)和預(yù)測(cè)模型,以使操作員所承擔(dān)的任務(wù)與其當(dāng)前的狀態(tài)兩者相匹配[16]。然而,目前大多數(shù)的研究,多預(yù)先設(shè)定所謂的精神狀態(tài)“好與壞”的表現(xiàn)特征,從而主觀認(rèn)為當(dāng)檢測(cè)到精神狀態(tài)“好”的特征時(shí)就增加任務(wù)難度,反之則降低任務(wù)難度,忽略了精神狀態(tài)的多樣性(尤其是在跨個(gè)體和跨時(shí)間角度上精神狀態(tài)的多樣性更強(qiáng)),從而導(dǎo)致精神狀態(tài)和控制指令之間失匹配,無法有效提高操控品質(zhì)和安全性。
綜合上述兩方面的研究現(xiàn)狀,發(fā)現(xiàn)兩個(gè)方面多單獨(dú)研究,沒有形成一體化的腦-機(jī)協(xié)作模型;同時(shí),基于精神狀態(tài)的補(bǔ)償控制方面主觀性強(qiáng),未考慮到精神狀態(tài)的多樣性。因此,針對(duì)人-機(jī)交互精密操控領(lǐng)域亟待解決的這兩大基礎(chǔ)共性問題,本文以機(jī)器人最基本的軌跡跟蹤任務(wù)為應(yīng)用目標(biāo),提出一種引入深度強(qiáng)化學(xué)習(xí)思想的腦-機(jī)協(xié)作精密操控方法。首先結(jié)合人在上層規(guī)劃與機(jī)器在精細(xì)控制上的優(yōu)勢(shì),提出雙環(huán)路的人-機(jī)之間信息交互機(jī)制,進(jìn)而建立一種基于深度強(qiáng)化學(xué)習(xí)的一體化的腦-機(jī)協(xié)作方法模型;然后設(shè)計(jì)相應(yīng)的精神狀態(tài)實(shí)時(shí)監(jiān)控方法,開發(fā)一套具有工程應(yīng)用價(jià)值的腦-機(jī)協(xié)作精密操控算法;最后擬搭建具有3種難度等級(jí)的軌跡跟蹤虛擬環(huán)境,并設(shè)計(jì)訓(xùn)練實(shí)驗(yàn)、驗(yàn)證實(shí)驗(yàn)和對(duì)照實(shí)驗(yàn),以驗(yàn)證腦-機(jī)協(xié)作精密操控方法的有效性。
本文融合人在上層規(guī)劃與機(jī)器在精細(xì)控制上的各自優(yōu)勢(shì),提出了由主動(dòng)操控環(huán)路和被動(dòng)調(diào)控環(huán)路組成的雙環(huán)路人-機(jī)信息交互機(jī)制,如圖1所示??紤]到人在上層決策、突發(fā)情況處理方面的優(yōu)勢(shì),因此在軌跡跟蹤任務(wù)中,使操控者對(duì)機(jī)器人方向指令的控制具有優(yōu)先權(quán)。在主動(dòng)操控環(huán)路中,操控者通過操控裝置發(fā)送方向指令給機(jī)器人,同時(shí)通過視覺等信息對(duì)機(jī)器人的運(yùn)行狀態(tài)進(jìn)行監(jiān)督,實(shí)時(shí)地調(diào)整方向指令,并對(duì)突發(fā)的錯(cuò)誤進(jìn)行糾正;考慮到機(jī)器在精細(xì)控制上的優(yōu)勢(shì),使計(jì)算機(jī)對(duì)機(jī)器人速度指令的控制具有優(yōu)先權(quán)。在被動(dòng)調(diào)控環(huán)路中,引入深度強(qiáng)化學(xué)習(xí)思想[17],創(chuàng)新性的將操控者大腦作為環(huán)境對(duì)象,將控制算法作為智能體對(duì)象,建立一體化腦-機(jī)協(xié)作方法模型,其以反應(yīng)操控者精神狀態(tài)的EEG微分熵特征作為輸入,以機(jī)器人速度指令作為輸出。模型經(jīng)過多次自主訓(xùn)練,將多樣性的精神狀態(tài)和機(jī)器人的控制指令相匹配,從而促進(jìn)人-機(jī)之間相互適應(yīng)和監(jiān)督,實(shí)現(xiàn)人腦和計(jì)算機(jī)協(xié)同合作(簡(jiǎn)稱腦-機(jī)協(xié)作)執(zhí)行精密操控任務(wù)。
圖1 雙環(huán)路人機(jī)信息交互機(jī)制
在一體化腦-機(jī)協(xié)作模型訓(xùn)練階段:操控者通過肢體操控方式發(fā)送方向指令的同時(shí),腦電設(shè)備采集大腦EEG并傳給控制算法,控制算法根據(jù)當(dāng)前EEG生成相應(yīng)的速度指令,機(jī)器人根據(jù)方向指令和速度指令執(zhí)行相應(yīng)任務(wù)。此外,操控者在監(jiān)視和操控機(jī)器人時(shí),會(huì)引發(fā)精神狀態(tài)變化(例如:機(jī)器人犯錯(cuò)會(huì)引發(fā)大腦警覺;操控任務(wù)復(fù)雜且長(zhǎng)時(shí)間執(zhí)行任務(wù)會(huì)由于高腦力負(fù)荷而引發(fā)大腦疲勞;操控任務(wù)過于單一會(huì)引發(fā)大腦專注度下降等)。精神狀態(tài)的變化會(huì)影響肢體操控的精度和安全性,因此腦電采集設(shè)備將EEG實(shí)時(shí)輸入控制算法,控制算法及時(shí)決策機(jī)器人的速度指令。機(jī)器人每執(zhí)行一次完整實(shí)驗(yàn),控制算法會(huì)根據(jù)任務(wù)完成精度和時(shí)間兩個(gè)指標(biāo)計(jì)算獎(jiǎng)勵(lì)值并更新模型中網(wǎng)絡(luò)參數(shù),直到控制算法中網(wǎng)絡(luò)模型收斂并達(dá)到獎(jiǎng)勵(lì)最大化。在一體化腦-機(jī)協(xié)作模型驗(yàn)證階段:將訓(xùn)練好的控制算法參數(shù)導(dǎo)入到機(jī)器人的控制器中,通過所建立深度神經(jīng)網(wǎng)絡(luò)感知操控者精神狀態(tài),利用強(qiáng)化學(xué)習(xí)方法根據(jù)精神狀態(tài)決策機(jī)器人的速度指令,從而實(shí)現(xiàn)腦-機(jī)協(xié)作精密操控。此模型利用深度強(qiáng)化學(xué)習(xí)理論建立腦-機(jī)之間一體化的架構(gòu),真正實(shí)現(xiàn)了雙環(huán)路的交互機(jī)制。
本文所建立的腦-機(jī)協(xié)作方法模型屬于“免模型強(qiáng)化學(xué)習(xí)”范疇,因此,本文根據(jù)蒙特卡羅采樣原理[18],從任意起始精神狀態(tài)s1出發(fā),使用某種策略G進(jìn)行采樣,執(zhí)行該策略i步并獲得軌跡τ,詳細(xì)的采樣過程如圖2所示。獲得采樣軌跡τ的概率可由下式表示
pθ(τ)=p(s1)pθ(a1|s1)p(s2|s1,a1)pθ(a2|s2)
p(s3|s2,a2)…pθ(ai|si)p(si+1|si,ai)=
(1)
式中:si(i=1,…,k)表示第i時(shí)刻的精神狀態(tài)(以下簡(jiǎn)稱狀態(tài));ai(i=1,…,k)表示第i時(shí)刻的機(jī)器人速度調(diào)節(jié)動(dòng)作(以下簡(jiǎn)稱動(dòng)作);pθ(τ)是指給定策略神經(jīng)網(wǎng)絡(luò)參數(shù)θ的情況下,出現(xiàn)采樣軌跡τ的概率;p(s1)是指初始狀態(tài)s1出現(xiàn)的概率;pθ(ai|si)是指給定當(dāng)前狀態(tài)si,采取動(dòng)作ai的概率;p(si+1|si,ai)是指采取當(dāng)前狀態(tài)si和動(dòng)作ai之后,基于該條件概率返回下一個(gè)狀態(tài)si+1的概率。
圖2 腦-機(jī)協(xié)作方法模型蒙特卡羅采樣示意圖
對(duì)于某一個(gè)采樣軌跡τ,可以得到其對(duì)應(yīng)的獎(jiǎng)勵(lì),通過優(yōu)化控制算法,可以得到不同的獎(jiǎng)勵(lì)。由于控制算法采取的動(dòng)作以及出現(xiàn)某一個(gè)狀態(tài)是隨機(jī)的,最終的目標(biāo)是找到一個(gè)具有最大期望獎(jiǎng)勵(lì)的策略神經(jīng)網(wǎng)絡(luò)參數(shù),因此目標(biāo)函數(shù)如下
(2)
(3)
式中:n為采樣次數(shù);N為總采樣數(shù)。由式(1)和式(3)可得
(4)
為了使獎(jiǎng)勵(lì)值R(τ)不受采樣隨機(jī)性的影響,這里引入一個(gè)基準(zhǔn)線b,因此梯度公式優(yōu)化為
(5)
式中:精神狀態(tài)si由所采集到的EEG的微分熵特征來表示;機(jī)器人速度指令ai由神經(jīng)網(wǎng)絡(luò)的輸出值而獲得;獎(jiǎng)勵(lì)值R根據(jù)機(jī)器人執(zhí)行任務(wù)品質(zhì)評(píng)分獲得,詳細(xì)介紹見第3節(jié)。首先將原始EEG進(jìn)行濾波和降采樣預(yù)處理;其次進(jìn)行小波分解與重構(gòu);最后計(jì)算微分熵特征。其中,小波分解與重構(gòu)過程如下
(6)
式中:xj表示第j個(gè)頻帶的EEG;L表示分解層數(shù);Aj表示近似分量;Dj表示不同尺度的細(xì)節(jié)分量[19]。
對(duì)于固定長(zhǎng)度的腦電序列可進(jìn)行如下近似處理計(jì)算微分熵[20]
(7)
式中:s(x)表示微分熵特征值;f(x)表示時(shí)間序列的概率密度函數(shù);μ和σ分別表示高斯分布的均值和標(biāo)準(zhǔn)差。
最后,利用梯度下降法更新策略神經(jīng)網(wǎng)絡(luò)的參數(shù)θ,直到網(wǎng)絡(luò)模型收斂,具體算法如下
(8)
為了將反映精神狀態(tài)的實(shí)時(shí)EEG輸入給控制算法的模型,每次實(shí)驗(yàn)總是提取計(jì)算機(jī)內(nèi)存中最后1 000 ms長(zhǎng)的EEG作為輸入信號(hào)。對(duì)輸入信號(hào)的處理主要分為3個(gè)階段:①預(yù)處理,采用4階巴特沃茲帶通濾波器處理EEG,保留0.5~45.0 Hz的頻帶信號(hào),然后進(jìn)行降采樣處理;②小波變換處理,采用5階Daubechies小波基函數(shù),從EEG中分解并重構(gòu)出5種節(jié)律波,小波分解原理如圖3所示;③特征提取,分別計(jì)算32個(gè)通道的5種節(jié)律波的微分熵特征,形成160維的特征數(shù)據(jù)矩陣S,S即作為反映操控者精神狀態(tài)的特征輸入給腦-機(jī)協(xié)作方法模型。
圖3 5層小波分解原理圖
在腦-機(jī)協(xié)作方法模型中為了兼顧算法精度和響應(yīng)速度,本文建立了3層全連接神經(jīng)網(wǎng)絡(luò),詳細(xì)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)輸入為精神狀態(tài)(即表征精神狀態(tài)的特征矩陣S),輸出為機(jī)器人速度指令ai。其中輸入層有160個(gè)神經(jīng)元,隱含層有80個(gè)神經(jīng)元,輸出層有4個(gè)神經(jīng)元,分別表示4種無量綱的速度等級(jí)(0.5、1、2和2.5)。隱含層采用tanh激活函數(shù)[21],輸出層經(jīng)過softmax函數(shù)[22]處理之后,利用隨機(jī)策略選擇速度指令ai,其中概率值高的被選中幾率高,反之,被選中的幾率低,目的在于符合“探索”和“利用”平衡的原則(EEb),從而獲得最大的獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)值R由軌跡跟蹤精度和完成時(shí)間兩項(xiàng)指標(biāo)組成,詳細(xì)表達(dá)式如下
(9)
式中:Y表示機(jī)器人的行走軌跡;O表示目標(biāo)軌跡;T表示每實(shí)驗(yàn)一次完成的時(shí)間;g表示時(shí)間系數(shù);M表示整個(gè)軌跡的總步數(shù)。將數(shù)據(jù)組(s,a,R)輸入給目標(biāo)函數(shù),根據(jù)自適應(yīng)矩估計(jì)梯度下降法(ADAM)[23]更新神經(jīng)網(wǎng)絡(luò)參數(shù),其中學(xué)習(xí)率(rL)設(shè)置為0.001。訓(xùn)練階段每執(zhí)行一次完整實(shí)驗(yàn),模型更新一次,直到模型收斂為止。
圖4 腦-機(jī)協(xié)作方法模型參數(shù)更新原理圖
(a)軌跡跟蹤環(huán)境
為了驗(yàn)證腦-機(jī)協(xié)作方法的有效性,本文以精密操控機(jī)器人執(zhí)行軌跡跟蹤任務(wù)為例。此任務(wù)作為遠(yuǎn)程操控特種機(jī)器人排爆、消防、救援等領(lǐng)域關(guān)鍵的任務(wù)之一受到廣泛關(guān)注。本實(shí)驗(yàn)搭建了一個(gè)腦-機(jī)協(xié)作操控的軌跡跟蹤環(huán)境平臺(tái),具體如圖5a所示,操控者通過鼠標(biāo)控制機(jī)器人執(zhí)行軌跡跟蹤任務(wù)。為了增加實(shí)驗(yàn)的多樣性,設(shè)計(jì)了水平直線、斜線和曲線3種難度等級(jí)的軌跡。實(shí)驗(yàn)場(chǎng)景如圖5b所示,其中機(jī)器人的方向指令由操控者通過鼠標(biāo)控制,速度指令由計(jì)算機(jī)中的控制算法根據(jù)操控者精神狀態(tài)的變化不斷地調(diào)節(jié),機(jī)器人結(jié)合方向和速度兩項(xiàng)指令,執(zhí)行規(guī)定的任務(wù)。在軌跡跟蹤任務(wù)中,操控者通過觀察機(jī)器人的運(yùn)行狀態(tài),不斷調(diào)整方向指令,同時(shí)計(jì)算機(jī)中的控制算法通過檢測(cè)人腦精神狀態(tài)實(shí)時(shí)調(diào)整機(jī)器人的速度指令,從而通過腦-機(jī)協(xié)作,實(shí)現(xiàn)對(duì)機(jī)器人的精密操控。每完成一次完整實(shí)驗(yàn),控制算法會(huì)記錄機(jī)器人行走的軌跡和完成時(shí)間,并根據(jù)此兩項(xiàng)指標(biāo)計(jì)算獎(jiǎng)勵(lì)值,具體計(jì)算方法如式(9)。控制算法中的神經(jīng)網(wǎng)絡(luò)模型根據(jù)獎(jiǎng)勵(lì)值更新參數(shù),直到神經(jīng)網(wǎng)絡(luò)模型收斂。
實(shí)驗(yàn)采用博??倒?Neuracle)開發(fā)的32通道的腦電采集設(shè)備,如圖6a所示,其采樣頻率為1 000 Hz,通過無線路由與電腦相連。本實(shí)驗(yàn)按照國(guó)際10-20系統(tǒng)選擇腦電通道,具體電極分布位置如圖6b所示。
(a)采集設(shè)備
本次實(shí)驗(yàn)共有5名受試者(標(biāo)記為Sub1~Sub5,其中1名為女性),年齡均在23~30歲,無精神疾病史,視力或矯正視力在1.0以上。實(shí)驗(yàn)過程中要求受試者靜坐在電腦屏幕前,通過鼠標(biāo)控制屏幕中的機(jī)器人執(zhí)行軌跡跟蹤的任務(wù)。每完成3種預(yù)設(shè)軌跡(水平直線、斜線及曲線)的跟蹤任務(wù)即為完成一次實(shí)驗(yàn)的全過程。實(shí)驗(yàn)共分為3個(gè)階段,分別為訓(xùn)練階段、驗(yàn)證階段和對(duì)照階段。訓(xùn)練階段用來訓(xùn)練腦-機(jī)協(xié)作方法模型參數(shù);驗(yàn)證階段是將訓(xùn)練好的腦-機(jī)協(xié)作方法模型輸入到機(jī)器人的控制器中,進(jìn)行驗(yàn)證實(shí)驗(yàn);對(duì)照階段不使用腦-機(jī)協(xié)作方法(即傳統(tǒng)方法),其他設(shè)置與驗(yàn)證階段相同。訓(xùn)練階段實(shí)驗(yàn)執(zhí)行65次,前5次用來練習(xí)軌跡跟蹤任務(wù),防止因?yàn)椴僮鞯氖炀毝炔煌绊憣?shí)驗(yàn)結(jié)果,后60次為正式實(shí)驗(yàn)。每20次中間有1 min的休息時(shí)間。對(duì)照階段實(shí)驗(yàn)和驗(yàn)證階段實(shí)驗(yàn)各執(zhí)行25次,前5次均用來練習(xí)軌跡跟蹤任務(wù),后20次為正式實(shí)驗(yàn),具體實(shí)驗(yàn)步驟如圖7所示。
考慮到精神狀態(tài)的多樣性,每名受試者在一天之中不同的時(shí)間段進(jìn)行實(shí)驗(yàn)(例如Sub1的實(shí)驗(yàn)時(shí)間為20:00~22:00;Sub2和Sub5的實(shí)驗(yàn)時(shí)間為9:00~11:00;Sub3的實(shí)驗(yàn)時(shí)間為14:30~16:30;Sub4的實(shí)驗(yàn)時(shí)間為16:30~18:30),適當(dāng)增加了表征精神狀態(tài)的EEG數(shù)據(jù)的多樣性??紤]到每名受試者實(shí)驗(yàn)的舒適度,實(shí)驗(yàn)時(shí)長(zhǎng)為2 h。
圖7 實(shí)驗(yàn)步驟示意圖
通過研究發(fā)現(xiàn)ADAM優(yōu)化器中學(xué)習(xí)率會(huì)影響腦-機(jī)協(xié)作方法模型的訓(xùn)練效果。分析其原因是由于在模型收斂過程中發(fā)生了梯度消失或梯度爆炸的現(xiàn)象。因此為了驗(yàn)證此猜測(cè),這里進(jìn)行一個(gè)離線的測(cè)試,選擇受試者Sub1的對(duì)照組實(shí)驗(yàn)數(shù)據(jù),以圖4中的3層全連接神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),建立精神狀態(tài)影響下的操控品質(zhì)預(yù)測(cè)網(wǎng)絡(luò),分別設(shè)置6種ADAM優(yōu)化器學(xué)習(xí)率rL參數(shù),分析學(xué)習(xí)率與損失函數(shù)值之間的關(guān)系,具體如圖8所示。損失函數(shù)值越小,代表神經(jīng)網(wǎng)絡(luò)收斂性越好,訓(xùn)練效果越好,反之損失函數(shù)值越大,則神經(jīng)網(wǎng)絡(luò)收斂性差,訓(xùn)練效果差。當(dāng)rL≥0.1時(shí),由于梯度爆炸原因使誤差曲線出現(xiàn)了二次震蕩的現(xiàn)象,并且rL值越大,震蕩越劇烈,波峰的橫坐標(biāo)值越大,從而造成收斂速率慢,訓(xùn)練效果差。當(dāng)rL≤0.01時(shí),由于避免了梯度爆炸而使震蕩現(xiàn)象消失。在0.001~0.01之間,rL值越小,初始損失函數(shù)值越低,整體收斂效果越好,但是當(dāng)rL值降低至0.000 1時(shí),由于梯度消失的原因使收斂速率驟然變慢,當(dāng)?shù)?0次時(shí),損失函數(shù)值是rL=0.001時(shí)的15倍,是rL=0.01的28倍;當(dāng)?shù)?00次時(shí),損失函數(shù)值是rL=0.001時(shí)的5.8倍,是rL=0.01時(shí)的5倍。實(shí)驗(yàn)結(jié)果顯示:當(dāng)rL在0.001附近時(shí),既可以避免由于梯度爆炸造成的訓(xùn)練模型魯棒性差的問題,又可以避免由于梯度消失造成的訓(xùn)練模型收斂過緩的問題,因此可達(dá)到最優(yōu)的訓(xùn)練效果。
圖8 學(xué)習(xí)率與損失函數(shù)值間關(guān)系
為了驗(yàn)證面向精密操控軌跡跟蹤任務(wù)的腦-機(jī)協(xié)作方法的有效性,這里主要通過腦-機(jī)協(xié)作方法模型收斂性和軌跡跟蹤任務(wù)完成品質(zhì)兩個(gè)方面分析。選擇具有代表性的受試者Sub1為例進(jìn)行討論,該受試者一共進(jìn)行了8組訓(xùn)練實(shí)驗(yàn),其模型收斂曲線如圖9所示,縱坐標(biāo)為獎(jiǎng)勵(lì)值,代表操控品質(zhì)。圖中置信區(qū)間的上限和下限分別為95%。前22次實(shí)驗(yàn)曲線呈現(xiàn)劇烈震蕩狀態(tài),并且置信區(qū)間范圍較大,說明數(shù)據(jù)概率分布不穩(wěn)定。之后模型逐漸穩(wěn)定,并達(dá)到收斂,獎(jiǎng)勵(lì)值穩(wěn)定在相對(duì)較高的1.92水平,其置信區(qū)間范圍變窄,說明數(shù)據(jù)概率分布穩(wěn)定,操控品質(zhì)維持在相對(duì)較高水平。但是,其中仍然存在輕微波動(dòng),例如第39和第49次實(shí)驗(yàn)的獎(jiǎng)勵(lì)值出現(xiàn)明顯的降低,這是因?yàn)樵谟?xùn)練過程中,腦-機(jī)協(xié)作方法模型在輸出動(dòng)作指令時(shí)按照EEb原則,存在輸出非最優(yōu)速度的概率,會(huì)導(dǎo)致受試者的操控品質(zhì)降低。
圖9 訓(xùn)練模型收斂曲線圖
將受試者Sub1訓(xùn)練實(shí)驗(yàn)中的腦-機(jī)協(xié)作方法模型參數(shù)導(dǎo)入到驗(yàn)證實(shí)驗(yàn)中,對(duì)操控品質(zhì)進(jìn)行分析,驗(yàn)證實(shí)驗(yàn)與對(duì)照實(shí)驗(yàn)對(duì)比曲線如圖10所示。由圖10可以看到,對(duì)照實(shí)驗(yàn)曲線在20次實(shí)驗(yàn)中劇烈振蕩,這是由于對(duì)照實(shí)驗(yàn)中機(jī)器人的速度無法與操控者的精神狀態(tài)匹配,導(dǎo)致獎(jiǎng)勵(lì)值變化劇烈,且大多數(shù)獎(jiǎng)勵(lì)值很低,操控品質(zhì)很差。相反,驗(yàn)證實(shí)驗(yàn)曲線在20次實(shí)驗(yàn)中始終保持在一個(gè)相對(duì)較高的獎(jiǎng)勵(lì)值水平上輕微浮動(dòng),說明操控品質(zhì)良好。原因在于腦-機(jī)協(xié)作方法可根據(jù)操控者的精神狀態(tài)匹配最優(yōu)的機(jī)器人速度,從而有效提高了操控品質(zhì)。
圖10 操控品質(zhì)曲線對(duì)比圖
為了更直觀的討論腦-機(jī)協(xié)作方法在軌跡跟蹤任務(wù)中的有效性,分別記錄了受試者Sub1在驗(yàn)證實(shí)驗(yàn)和對(duì)照實(shí)驗(yàn)中的10次軌跡,具體如圖11所示。從對(duì)照實(shí)驗(yàn)相對(duì)波動(dòng)的軌跡上可知,由于其頻繁出現(xiàn)目標(biāo)軌跡缺失現(xiàn)象,從而操控者需要不斷地調(diào)整方向指令,這不僅導(dǎo)致機(jī)器人與障礙物碰撞的次數(shù)增加、整個(gè)任務(wù)所花費(fèi)的時(shí)間變長(zhǎng),而且增加了腦力負(fù)荷和負(fù)面情緒。而對(duì)于使用了該方法的驗(yàn)證實(shí)驗(yàn),其軌跡跟蹤精度要優(yōu)于對(duì)照實(shí)驗(yàn),目標(biāo)軌跡缺失現(xiàn)象較少,不需要操控者頻繁調(diào)整方向指令,操作更精準(zhǔn)和高效。
(a)驗(yàn)證實(shí)驗(yàn)結(jié)果
為了進(jìn)一步證明腦-機(jī)協(xié)作方法的普遍有效性,對(duì)所有受試者的操控品質(zhì)進(jìn)行了對(duì)比分析,結(jié)果如表1所示。表1中各指標(biāo)計(jì)算公式如下
(10)
式中:H表示水平直線軌跡的步數(shù);B表示斜線軌跡的步數(shù);C表示曲線軌跡的步數(shù);Rh、Rb、Rc和Rave(為3者之和)分別代表水平直線、斜線、曲線以及整條軌跡的歸一化獎(jiǎng)勵(lì)值,其值越大代表軌跡跟蹤精度越好,反之,軌跡跟蹤精度越差;Rt代表時(shí)間指標(biāo)獎(jiǎng)勵(lì)值,其值越大代表完成時(shí)間越短,反之,完成時(shí)間越長(zhǎng)。因此,Rave+Rt的值越大表示操控品質(zhì)越好,反之,操控品質(zhì)越差。表1結(jié)果顯示:相比較于對(duì)照實(shí)驗(yàn),5名受試者驗(yàn)證實(shí)驗(yàn)的平均操控品質(zhì)提高了59.36%,證明了腦-機(jī)協(xié)作方法的普遍有效性。其中平均軌跡跟蹤精度和完成時(shí)間兩項(xiàng)指標(biāo)分別提高了36.55%和22.81%,說明此方法不僅提高了軌跡跟蹤任務(wù)的控制精度,而且縮短了操控的時(shí)間。
表1 軌跡跟蹤任務(wù)操控品質(zhì)對(duì)比表
本文面向人-機(jī)交互的精密操控領(lǐng)域,針對(duì)人、機(jī)之間缺乏信息雙向交互,以及操控精度和安全性受操控者精神狀態(tài)影響的兩大問題,通過引入腦-機(jī)接口技術(shù),提出了一種腦-機(jī)協(xié)作精密操控方法研究。通過人機(jī)信息交互機(jī)制創(chuàng)建、腦-機(jī)協(xié)作精密操控?cái)?shù)學(xué)模型推導(dǎo)與算法研究,以及實(shí)驗(yàn)驗(yàn)證分析,得出如下主要結(jié)論:①結(jié)合人在上層規(guī)劃與機(jī)器在精細(xì)控制上的各自優(yōu)勢(shì),可以創(chuàng)建一種雙環(huán)路人-機(jī)之間信息交互機(jī)制;②通過引入深度強(qiáng)化學(xué)習(xí)思想,以表征操控者精神狀態(tài)的EEG微分熵特征作為模型的輸入,以機(jī)器人速度指令作為模型的輸出,可以獲得一體化的腦-機(jī)協(xié)作方法模型;③基于精神狀態(tài)實(shí)時(shí)監(jiān)控,采用3層全連接神經(jīng)網(wǎng)絡(luò)感知模型,可以實(shí)現(xiàn)腦-機(jī)協(xié)作精密操控算法;④通過軌跡跟蹤虛擬環(huán)境和任務(wù)場(chǎng)景創(chuàng)建,能夠?qū)崿F(xiàn)對(duì)腦-機(jī)協(xié)作方法的實(shí)驗(yàn)驗(yàn)證分析。實(shí)驗(yàn)結(jié)果表明:本文方法明顯提高了軌跡跟蹤任務(wù)的控制精度,縮短了任務(wù)執(zhí)行時(shí)間。本文方法不僅實(shí)現(xiàn)了腦-機(jī)協(xié)作精密操控軌跡跟蹤任務(wù),而且借助此項(xiàng)任務(wù)的研究,探討了一體化的腦-機(jī)協(xié)作模型的構(gòu)建,促進(jìn)了腦-機(jī)之間的信息雙向、實(shí)時(shí)交互,實(shí)現(xiàn)人-機(jī)交互系統(tǒng)的互適應(yīng)、互監(jiān)督和互增長(zhǎng)。