国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于狀態(tài)轉(zhuǎn)移學(xué)習(xí)的機(jī)器人行為決策認(rèn)知模型

2021-12-14 06:15王東署
關(guān)鍵詞:小車神經(jīng)元發(fā)育

王東署, 楊 凱

(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)

0 引言

類腦智能一直都是人工智能和機(jī)器人領(lǐng)域的研究重點(diǎn)。目前,已經(jīng)出現(xiàn)的具有仿生機(jī)制的計算方法主要有蟻群算法[1]、神經(jīng)網(wǎng)絡(luò)算法[2]、遺傳算法[3]、粒子群算法[4]等,這些方法都存在任務(wù)確定、離線學(xué)習(xí)、智能擴(kuò)展性差、無法適應(yīng)多變的環(huán)境等局限。針對這些缺點(diǎn),受人腦神經(jīng)系統(tǒng)、記憶機(jī)能及其信息加工機(jī)制的啟發(fā),研究人員提出了多種生物啟發(fā)的認(rèn)知計算模型,為實(shí)現(xiàn)更高層的認(rèn)知和突破傳統(tǒng)方法的局限提供了重要的研究思路。

Shanahan[5]將全局工作空間理論與內(nèi)部模擬相結(jié)合,模擬人腦基底神經(jīng)節(jié)、杏仁體、丘腦皮質(zhì)等結(jié)構(gòu),構(gòu)建了外部世界交互的外層回路和系統(tǒng)內(nèi)部高層回路。Weng等[6]提出了自主心智發(fā)育的概念,構(gòu)建了SAIL和Dav這2個人形機(jī)器人。Dirafzoon等[7]模擬螳螂的行為建立了可學(xué)習(xí)未知環(huán)境拓?fù)湫畔⒌哪P?,?yīng)用于機(jī)器人導(dǎo)航,驗(yàn)證了模型的高效性。Liu等[8]從情景記憶和生物啟發(fā)的注意力系統(tǒng)的角度解決了機(jī)器人行為選擇問題。Kawamura等[9]基于仿生發(fā)育機(jī)理提出一種大腦啟發(fā)神經(jīng)結(jié)構(gòu)與空間認(rèn)知和導(dǎo)航的計算模型,利用類海馬電路存儲目標(biāo)位置,回憶出現(xiàn)的類似視覺模式,使機(jī)器人自主移動到目標(biāo)位置。Islam等[10]提出一種基于拓?fù)涞牡貓D框架,實(shí)現(xiàn)了機(jī)器人在智慧城市中的自主導(dǎo)航,并且具有很高的決策效率和靈活的可操作性。針對動態(tài)環(huán)境中機(jī)器人的導(dǎo)航問題,Olcay等[11]設(shè)計了一種多機(jī)器人協(xié)作的導(dǎo)航框架,通過多個機(jī)器人的信息共享,為每個機(jī)器人找到一條合理的無碰撞路線,準(zhǔn)確到達(dá)目標(biāo)。Zeng等[12]提出一種貝葉斯吸引網(wǎng)絡(luò)模型,模擬哺乳動物空間記憶回路的頭朝向細(xì)胞和網(wǎng)格細(xì)胞的神經(jīng)編碼機(jī)制,通過積分單元和校準(zhǔn)單元之間的競爭動力學(xué)來解決沖突,在室內(nèi)和大型室外環(huán)境中均具有出色的性能。這些方法都在一定程度上解決了機(jī)器人導(dǎo)航問題,但都不具備通用性。為了找到一種通用的計算模型,Weng[13]通過對認(rèn)知科學(xué)與神經(jīng)生物學(xué)的研究,提出了一種類腦仿生計算模型,稱為發(fā)育網(wǎng)絡(luò)。

本文模型在發(fā)育網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)。將發(fā)育網(wǎng)絡(luò)內(nèi)部的神經(jīng)元個數(shù)以及連接由靜態(tài)改為動態(tài),模擬大腦皮層內(nèi)部神經(jīng)元的可塑性與再生功能。添加短時記憶區(qū),模擬人腦長時記憶和短時記憶相互協(xié)調(diào)機(jī)理。機(jī)器人在執(zhí)行任務(wù)時,利用狀態(tài)轉(zhuǎn)移機(jī)制不斷地更新和積累知識。在非任務(wù)過程,機(jī)器人將自主學(xué)習(xí)到的環(huán)境和決策數(shù)據(jù)遷移到發(fā)育網(wǎng)絡(luò)成為長時記憶。通過門限自組織機(jī)制確定網(wǎng)絡(luò)中哪些神經(jīng)元發(fā)生側(cè)向激勵,最后產(chǎn)生新的連接并記憶新的知識,實(shí)現(xiàn)與人類相似的自主學(xué)習(xí)與發(fā)育。網(wǎng)絡(luò)的運(yùn)行過程分為在線的自主探索學(xué)習(xí)過程和線下的非任務(wù)過程。在線探索過程主要進(jìn)行新知識的短期記憶和學(xué)習(xí),非任務(wù)過程主要進(jìn)行更改或產(chǎn)生新的連接及短期記憶轉(zhuǎn)為長期記憶。

1 算法原理

1.1 發(fā)育網(wǎng)絡(luò)結(jié)構(gòu)

發(fā)育網(wǎng)絡(luò)[14-16]是一種模擬人腦發(fā)育規(guī)律的神經(jīng)網(wǎng)絡(luò),最簡單的發(fā)育網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示。輸入層模擬人類的感知系統(tǒng),可以感知任何模態(tài)的信息,如視覺,聽覺,味覺或觸覺等;隱含層連接輸入層和輸出層,類似人類的大腦,指揮輸出層輸出相應(yīng)的動作。輸出層對應(yīng)于人類的肌肉或腺體,直接與外界接觸執(zhí)行動作。

圖1 最簡單的發(fā)育網(wǎng)絡(luò)結(jié)構(gòu)示意圖Figure 1 Schematic diagram of the simplest developmental network structure

發(fā)育網(wǎng)絡(luò)中,層與層之間均為靜態(tài)或動態(tài)的雙向連接。網(wǎng)絡(luò)運(yùn)行過程中,可根據(jù)需要對不同層之間的權(quán)值連接進(jìn)行動態(tài)調(diào)節(jié)。但原始發(fā)育網(wǎng)絡(luò)功能有限,對新環(huán)境的適應(yīng)性較差。針對這些問題,對網(wǎng)絡(luò)的結(jié)構(gòu)和運(yùn)行機(jī)理進(jìn)行了改進(jìn)。

圖2為改進(jìn)的發(fā)育網(wǎng)絡(luò)結(jié)構(gòu)圖。輸入層與隱含層、隱含層與輸出層均為雙向連接。若神經(jīng)元之間連接權(quán)重為1,則表示2個神經(jīng)元建立連接;若連接權(quán)重為0,則表示2個神經(jīng)元之間沒有連接。

圖2 改進(jìn)的發(fā)育網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 2 Improved developmental network structure diagram

從圖2可以看出,神經(jīng)元之間的連接有3種:輸入層到隱含層、隱含層到輸出層的連接稱為自底向上的連接;由輸出層到隱含層的連接稱為自頂向下的連接;隱含層內(nèi)的橫向連接代表側(cè)向競爭作用。紅色矩形方框內(nèi)的3個神經(jīng)元是隱含層某一個神經(jīng)元的放大圖,層2和層4是功能層,依次處理自底向上的輸入和自頂向下的輸入。血清素來源于腦干中縫核(RN)釋放的神經(jīng)遞質(zhì),與人所厭惡的動作有關(guān),作用于幾乎所有前腦區(qū)域,在網(wǎng)絡(luò)中,具有懲罰作用。多巴胺來源于腹側(cè)被蓋區(qū)(VTA)或黑質(zhì)致密部,與人所偏好或喜歡的動作有關(guān),在網(wǎng)絡(luò)中,具有獎勵作用。這2種神經(jīng)遞質(zhì)對網(wǎng)絡(luò)的輸出有微調(diào)作用。

1.2 網(wǎng)絡(luò)計算

在時刻ta=0,設(shè)A={X,Y,Z},N={V,G},V代表神經(jīng)元的權(quán)重信息,G代表神經(jīng)元的年齡信息。X、Y、Z分別表示輸入層、隱含層、輸出層的信息。

在時刻ta=1,2,…,n,對網(wǎng)絡(luò)3個區(qū)域重復(fù)進(jìn)行如下2個步驟。

步驟1計算區(qū)域函數(shù)f:

(r′,N′)=f(b,t,N)。

(1)

式中:b和t分別為計算區(qū)域中響應(yīng)向量為r時的自底向上和自頂向下的輸入;r′、N′為更新后的變量。

步驟2進(jìn)行更新:N←N′,r←r′。

若X為智能體的傳感器接口,那么x∈X,x一直處于被外界監(jiān)督的狀態(tài);若Z為智能體的執(zhí)行器接口,當(dāng)且僅當(dāng)在“教師”選擇的情況下,Z才會處于被外界監(jiān)督狀態(tài),如果不能被外界“教師”選擇,Z會給出執(zhí)行器的輸出。只有當(dāng)X、Y、Z至少都更新一次以后,整個發(fā)育網(wǎng)絡(luò)才完成一次更新過程。

下面討論區(qū)域函數(shù)f。A中的任一神經(jīng)元有權(quán)值向量v=(vb,vt),對應(yīng)區(qū)域的輸入(b,t)。隱含層不僅有自底向上的輸入b,還有自頂向下的輸入t。隱含層中每一個神經(jīng)元激活之前,要計算其能量值:

(2)

為模擬區(qū)域隱含層的側(cè)向競爭機(jī)制,前k個獲勝的神經(jīng)元(前k個神經(jīng)元的能量最大)被激活并進(jìn)行更新。本文只考慮k=1,被激活的神經(jīng)元可通過式(3)得到辨識:

(3)

式中:c為隱含層神經(jīng)元的個數(shù);vbi為隱含層第i個神經(jīng)元自底向上的權(quán)重向量;vti為隱含層第i個神經(jīng)元自頂向下的權(quán)重向量,計算得出第j個神經(jīng)元的能量值最大,從而被激活。被激活神經(jīng)元發(fā)放yj=1,其余神經(jīng)元不發(fā)放。對于某個神經(jīng)元,只有其前突觸作用和后突觸作用同時被激活,該神經(jīng)元才能被激活,此時神經(jīng)元的突觸向量產(chǎn)生突觸增益yjp,p為輸入。其他沒達(dá)到激活能量的神經(jīng)元保持初始狀態(tài)不變。激活后的神經(jīng)元產(chǎn)生連接關(guān)系,隨后其權(quán)值將被更新。當(dāng)某個神經(jīng)元j被激活后,它的權(quán)值更新依據(jù)Hebbian規(guī)則:

vj←ω1(nj)vj+ω2(nj)yjp。

(4)

式中:ω2(nj)為學(xué)習(xí)率,與神經(jīng)元激活的次數(shù)有關(guān);ω1(nj)為保持率。ω1(nj)+ω2(nj)=1,ω2(nj)的最簡單形式是ω2(nj)=1/nj。輸入p采樣均值的遞歸計算方法:

(5)

式中:t′i為神經(jīng)元的激活時間,神經(jīng)元每激活一次,年齡增加1,有nj←nj+1。機(jī)器人在運(yùn)動過程中受到血清素和多巴胺2種神經(jīng)遞質(zhì)的調(diào)節(jié),分別用獎勵和懲罰來模擬2種神經(jīng)遞質(zhì)的作用,β、α分別為懲罰值和獎勵值, 機(jī)器人的決策方向與懲罰、獎勵的方向的合成便是機(jī)器人最終的運(yùn)動方向。

z=zi+αe1+βe2。

(6)

式中:z為最終決策方向;zi為智能體根據(jù)已學(xué)到的知識做出的決策;e2為獎勵方向的單位向量;e1為懲罰方向的單位向量。

1.3 狀態(tài)轉(zhuǎn)移機(jī)制

在人類感知環(huán)境過程中,在第1個環(huán)境下訓(xùn)練感知任務(wù),若將其放置在與第1個環(huán)境有相似特征的第2個環(huán)境下,通過認(rèn)知學(xué)習(xí)機(jī)制,將導(dǎo)致學(xué)習(xí)效果遷移到第2個環(huán)境,這個過程稱為狀態(tài)轉(zhuǎn)移。

研究表明,感知學(xué)習(xí)與決策相關(guān)的高級區(qū)域內(nèi)的神經(jīng)元活動變化相關(guān)聯(lián)[17]。人腦在感知環(huán)境過程中,可以在線學(xué)習(xí)認(rèn)知事物,并將自己記憶的環(huán)境和得出的決策變成短時記憶,在無外界輸入信號也無對外輸出時,仍可以進(jìn)行回憶、推理、整理和保存短時記憶。如此反復(fù),將短時記憶轉(zhuǎn)換為長時記憶。模擬這種工作機(jī)理,使機(jī)器人在進(jìn)行環(huán)境探索的過程中在線學(xué)習(xí)認(rèn)知,此時發(fā)生狀態(tài)轉(zhuǎn)移,在執(zhí)行任務(wù)的間隙或非工作狀態(tài)下,即無感知信息輸入和對外動作輸出時,進(jìn)行數(shù)據(jù)遷移,將感知到的環(huán)境位置信息與相應(yīng)的決策建立關(guān)聯(lián)。在后續(xù)的環(huán)境認(rèn)知中,遇到類似的環(huán)境信息時,機(jī)器人可以做出比上次更好的決策,無須重新學(xué)習(xí)。

當(dāng)發(fā)生狀態(tài)轉(zhuǎn)移時,在神經(jīng)網(wǎng)絡(luò)中會產(chǎn)生新的知識,該知識表現(xiàn)為環(huán)境和動作的組合信息。該組合是否正確、是否最佳,需要通過評價機(jī)制來決定,最終轉(zhuǎn)換為長期記憶的知識均為最佳的組合。機(jī)器人在環(huán)境中運(yùn)行時,不可避免會遇到未學(xué)習(xí)過的環(huán)境,因而做出的決策很差,此時會觸發(fā)在線認(rèn)知學(xué)習(xí)過程。將環(huán)境信息轉(zhuǎn)化為輸入信息p,神經(jīng)元權(quán)重向量為v,計算環(huán)境信息與網(wǎng)絡(luò)中記憶的環(huán)境信息的相似度:

(7)

(8)

其中,x1,x2,…,xn在不同的領(lǐng)域所代表的意義不同,狀態(tài)中的元素個數(shù)及意義人為確定。例如在導(dǎo)航應(yīng)用中,可使用x1和x2為智能體的橫縱坐標(biāo)。

狀態(tài)轉(zhuǎn)移機(jī)制可大幅減少訓(xùn)練需要的標(biāo)記樣本。在導(dǎo)航應(yīng)用中,用F表示機(jī)器人決策方向,L表示環(huán)境信息(機(jī)器人、障礙物、目標(biāo)的相對位置關(guān)系),不同的L和F代表不同的狀態(tài)。圖3中A代表的是源域,在源域的訓(xùn)練任務(wù)為源任務(wù),B為目標(biāo)域,C為目標(biāo)任務(wù)。源域和目標(biāo)域的特征空間不同但又存在相似特征,機(jī)器人在源域中進(jìn)行訓(xùn)練,獲得經(jīng)驗(yàn),將經(jīng)驗(yàn)轉(zhuǎn)移到另一種具有相似特征的目標(biāo)域,源域和目標(biāo)域具有相似的特征L,而具有不同的F,源域和目標(biāo)任務(wù)具有相同的特征F,但具有不同的特征L。即從L1F2的學(xué)習(xí)效果轉(zhuǎn)移到了L1F8和L2F2。

圖3 狀態(tài)轉(zhuǎn)移示意圖Figure 3 Schematic diagram of state transition

智能體每一步都根據(jù)已經(jīng)記憶的知識做出決策,因此,實(shí)際的位置情況和識別出來的位置情況是有差別的。假設(shè)實(shí)際輸入向量x={x1,x2,x3,x4,x5,x6},輸入網(wǎng)絡(luò)后,根據(jù)top-k競爭法則,隱含層獲勝神經(jīng)元被激活,它的權(quán)重信息w={w1,w2,w3,w4,w5,w6},此時的識別誤差為

(9)

設(shè)m為機(jī)器人在某環(huán)境下到達(dá)目標(biāo)的過程中感知范圍內(nèi)有障礙物時步數(shù)的累加,則智能體完成整個復(fù)雜任務(wù)的平均識別誤差為

(10)

式中:ψ表示環(huán)境最大直徑與步長的比值;φ′表示平均識別誤差,φ′越小,任務(wù)完成得越好,反之則越差。

1.4 非任務(wù)過程

非任務(wù)過程是指網(wǎng)絡(luò)不關(guān)注任何刺激或任務(wù)時的神經(jīng)交互,用來模擬當(dāng)不關(guān)注或沒有感知輸入時候的大腦內(nèi)部神經(jīng)活動。這個過程是否改變網(wǎng)絡(luò)連接取決于網(wǎng)絡(luò)最近的經(jīng)驗(yàn)。

當(dāng)機(jī)器人處于空閑狀態(tài)或執(zhí)行任務(wù)結(jié)束后,進(jìn)入數(shù)據(jù)處理非任務(wù)狀態(tài)。在工作結(jié)束后,與該任務(wù)相關(guān)的大腦區(qū)域仍存在神經(jīng)活動,該區(qū)域中被激活頻率高的神經(jīng)元在一段時間內(nèi)仍保持著活躍狀態(tài),并且被重新激活的概率也高,這可能是由神經(jīng)遞質(zhì)擴(kuò)散引起的,例如活躍神經(jīng)元釋放的去甲腎上腺素[18]。這種機(jī)制減輕了人在執(zhí)行任務(wù)時大腦的數(shù)據(jù)處理量。在智能體一次運(yùn)動結(jié)束后進(jìn)行非任務(wù)過程,如果沒有其他神經(jīng)元在同一概念區(qū)域內(nèi)放電,則概念神經(jīng)元(代表特定概念的輸出層神經(jīng)元)在非任務(wù)過程中觸發(fā)的概率被建模為一個單調(diào)增長函數(shù)。

(11)

(12)

式中:nZi為輸出層第i個神經(jīng)元的激活次數(shù);NZ為輸出層神經(jīng)元的激活次數(shù)總和。按照激活概率大小排序,激活前k個概率高于設(shè)定的閥值的輸出層神經(jīng)元,假設(shè)有4個神經(jīng)元概率高于閥值,概率從大到小排序?yàn)閜nr1、pnr3、pnr2、pnr5,則進(jìn)入4次循環(huán),依次進(jìn)行反向輸入數(shù)據(jù)、激活隱含層神經(jīng)元、側(cè)向激勵、保存數(shù)據(jù)、建立新的連接。如第1次循環(huán),輸出層到隱含層的輸入為[1,0,0,0,0,0,0,0],計算隱含層神經(jīng)元響應(yīng),根據(jù)top-k競爭法則,激活前k個神經(jīng)元(這些被激活的隱含層神經(jīng)元均是屬于第1類,即方向1的神經(jīng)元,即只與輸出層第1個神經(jīng)元有連接且它們的能量值均為1),將這些神經(jīng)元進(jìn)行能量值縮放:

(13)

式中:ri為第i個神經(jīng)元的能量值;k為激活的神經(jīng)元總數(shù)。這些被激活的神經(jīng)元發(fā)生側(cè)向激勵,激發(fā)出更多的神經(jīng)元用于記憶新的知識,側(cè)向激勵的激活范圍如圖4所示。

圖4 側(cè)向激勵范圍Figure 4 Lateral excitation range

圖4中每個方格代表1個神經(jīng)元,里面的數(shù)字表示與激活神經(jīng)元的距離,顏色越深代表激發(fā)出的神經(jīng)元能量值越大,反之,則越小。側(cè)向激勵出的神經(jīng)元能量值為

(14)

式中:r′ij表示第i個神經(jīng)元激發(fā)出的第j個神經(jīng)元;ri表示最初激活的第i個神經(jīng)元。然后將隱含層所有神經(jīng)元按照能量值大小排序,依次將上次測試運(yùn)行過程中遇到的實(shí)際的未訓(xùn)練過的位置數(shù)據(jù)保存進(jìn)激活的神經(jīng)元中年齡為1的神經(jīng)元,之后年齡加1(選擇年齡為1的神經(jīng)元可防止數(shù)據(jù)覆蓋),然后將激發(fā)出的且保存了知識的隱含層神經(jīng)元與輸出層神經(jīng)元建立連接,短時記憶變?yōu)殚L時記憶。

2 結(jié)果與分析

2.1 實(shí)驗(yàn)參數(shù)

根據(jù)輸入向量的大小,設(shè)置了輸入層6個神經(jīng)元,隱含層10 000個神經(jīng)元,輸出層8個神經(jīng)元。輸出層的神經(jīng)元分別代表8個行走方向。將輸入層到隱含層、隱含層到輸出層的權(quán)重向量初始化為0~1的隨機(jī)數(shù),從輸出層到隱含層的權(quán)重向量初始化為0,隱含層和輸出層每個神經(jīng)元賦予年齡為1。輸入的環(huán)境信息為

(15)

如圖5所示,以智能體(小車)為坐標(biāo)原點(diǎn)建立坐標(biāo)系,θf表示由原點(diǎn)到目標(biāo)的線段與x軸的夾角,θe表示由原點(diǎn)到障礙物的線段與x軸的夾角,df表示目標(biāo)和智能體距離,de表示障礙物和智能體的距離。

圖5 相對位置示意圖Figure 5 Relative position diagram

2.2 結(jié)果與分析

啟動小車之后,在MATLAB上訓(xùn)練控制小車的發(fā)育網(wǎng)絡(luò)。 圖6(a)為真實(shí)環(huán)境中小車的位置,圖6(b)為與圖6(a)對應(yīng)的智能小車運(yùn)行過程在RViz中的監(jiān)控界面。圖6(b)和實(shí)際的智能小車的運(yùn)行路徑一致,實(shí)時在電腦端顯示智能小車的運(yùn)動狀態(tài)以及智能小車感知到的環(huán)境。

圖6 機(jī)器人運(yùn)行場景Figure 6 Real scene of robot operation

在MATLAB上監(jiān)控智能小車的實(shí)際位置,將智能小車的實(shí)際運(yùn)行軌跡在MATLAB上進(jìn)行繪制,智能小車5次運(yùn)行路徑圖如圖7所示。藍(lán)色正方形代表智能小車,黑色形狀代表實(shí)際環(huán)境中的障礙物,目標(biāo)點(diǎn)為綠色五角星所在位置。

圖7 智能小車運(yùn)行軌跡Figure 7 Smart car running track

由圖7可以看出,由于機(jī)器人每次運(yùn)行結(jié)束后都發(fā)生了狀態(tài)轉(zhuǎn)移,學(xué)習(xí)到了新的知識,所以每次運(yùn)行的軌跡有所不同,智能體對路徑所做出的調(diào)整趨于好的方向,到第4次和第5次時路徑重合,網(wǎng)絡(luò)做出的決策已不會再發(fā)生改變。

智能小車在環(huán)境中運(yùn)行的各項(xiàng)數(shù)據(jù)如表1所示。由表1可以看出,隨著運(yùn)行次數(shù)的增加,智能小車所走的步數(shù)越來越少,知識量越來越多,平均識別誤差也越來越小,最終趨于穩(wěn)定。這也表明,智能小車在每次運(yùn)行完,都進(jìn)行了線下過程的轉(zhuǎn)移學(xué)習(xí),最終發(fā)生了位置環(huán)境的轉(zhuǎn)移,學(xué)習(xí)到了更多新的環(huán)境信息,并可以做出一個好的決策。

表1 實(shí)驗(yàn)結(jié)果Table 1 Test results

2.3 對比實(shí)驗(yàn)

圖8為所走的路徑對比。在圖8所示的仿真環(huán)境下用不同的方法來實(shí)現(xiàn)導(dǎo)航,路徑對比見表2。表2中的步數(shù)表示學(xué)習(xí)或者訓(xùn)練完成之后的最終步數(shù)。平均識別誤差表示在環(huán)境中的最終誤差情況,由式(9)、(10)計算得出。由表2中數(shù)據(jù)可以得出,本文方法和Q-learning算法的路徑相對較短,且與Q-learning方法得出的步數(shù)相差不大,雖然Q-learning不需要訓(xùn)練樣本,但達(dá)到穩(wěn)定狀態(tài)的耗時較長,需要30次步數(shù)才穩(wěn)定,而本文方法僅需要6次。由于Q-learning維護(hù)的是1張Q表,無法計算平均識別誤差。發(fā)育網(wǎng)絡(luò)算法的路徑比較長,且不具有連續(xù)學(xué)習(xí)能力,所需訓(xùn)練樣本多,每次運(yùn)行都會選擇一樣的路徑。因此,本文方法綜合性能較好。

圖8 路徑對比Figure 8 Path comparison

表2 不同方法結(jié)果對比Table 2 Comparison of different methods

3 結(jié)論

本文提出一種仿生的機(jī)器人行為決策認(rèn)知計算模型。該模型通過改進(jìn)原始發(fā)育網(wǎng)絡(luò)的結(jié)構(gòu),并增加非任務(wù)過程的運(yùn)行機(jī)制,以及狀態(tài)轉(zhuǎn)移的方法,使改進(jìn)的發(fā)育網(wǎng)絡(luò)可以通過半監(jiān)督的方法實(shí)現(xiàn)行為決策,克服了傳統(tǒng)行為決策方法存在的未知環(huán)境適應(yīng)性差以及針對不同環(huán)境需要重新編程等問題。未知環(huán)境下的自主機(jī)器人導(dǎo)航結(jié)果表明,本文方法在未知環(huán)境中經(jīng)過3~5次的決策調(diào)整即可收斂到穩(wěn)定狀態(tài),且決策效果不斷改善。機(jī)器人可以通過不斷積累知識應(yīng)對各種復(fù)雜環(huán)境,在未知環(huán)境中具有很強(qiáng)的適應(yīng)性。

目前的研究只考慮了距離智能體最近的障礙物的影響,只能保證局部的決策效果,所提模型難以保證整體的決策效果,考慮智能體感知范圍的所有障礙物對智能體行為決策的影響是下一步研究的重點(diǎn)。

猜你喜歡
小車神經(jīng)元發(fā)育
早期綜合干預(yù)對小于胎齡兒生長發(fā)育、體格發(fā)育和智能發(fā)育等影響觀察
青春期乳房發(fā)育困惑咨詢——做決定
AI講座:神經(jīng)網(wǎng)絡(luò)的空間對應(yīng)
快樂語文(2020年36期)2021-01-14
青春期乳房發(fā)育困惑咨詢探究
仿生芯片可再現(xiàn)生物神經(jīng)元行為
劉老師想開小車
兩輪自平衡小車的設(shè)計與實(shí)現(xiàn)
這個神經(jīng)元負(fù)責(zé)改變我們的習(xí)慣
去修理廠