国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于認(rèn)知發(fā)育的移動(dòng)機(jī)器人自主導(dǎo)航

2018-01-18 09:18:56,,,,
計(jì)算機(jī)工程 2018年1期
關(guān)鍵詞:神經(jīng)元發(fā)育動(dòng)態(tài)

,,, ,

(1.北京工業(yè)大學(xué) 電子信息與控制工程學(xué)院,北京 100124; 2.防災(zāi)科技學(xué)院 防災(zāi)儀器系,河北 三河 065201; 3.計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124)

0 概述

近年來,科學(xué)技術(shù)的發(fā)展對(duì)移動(dòng)機(jī)器人的自主導(dǎo)航技術(shù)提出越來越高的要求,自主導(dǎo)航成為移動(dòng)機(jī)器人的基本任務(wù),特別是當(dāng)面臨復(fù)雜的、動(dòng)態(tài)的、非結(jié)構(gòu)化環(huán)境時(shí),需要機(jī)器人具有自主性和適應(yīng)性,這依賴于機(jī)器人的認(rèn)知學(xué)習(xí)能力。人和動(dòng)物具有很好的環(huán)境認(rèn)知能力,模擬這種認(rèn)知學(xué)習(xí)機(jī)能,賦予移動(dòng)式機(jī)器人類似的環(huán)境認(rèn)知功能,是實(shí)現(xiàn)自主導(dǎo)航,成為真正智能系統(tǒng)的最佳途徑[1-2]。相關(guān)的研究已有諸多文獻(xiàn)報(bào)道:文獻(xiàn)[3]基于強(qiáng)化學(xué)習(xí)提出一種移動(dòng)機(jī)器人反應(yīng)式導(dǎo)航方法,成功地應(yīng)用于CIT-AVT-VI移動(dòng)機(jī)器人平臺(tái);文獻(xiàn)[4]設(shè)計(jì)了動(dòng)態(tài)環(huán)境導(dǎo)航中的多步學(xué)習(xí)算法;文獻(xiàn)[5]為NAO機(jī)器人在未知環(huán)境下的自主行走設(shè)計(jì)了基于KEF-SLAM的Q學(xué)習(xí)避障算法;文獻(xiàn)[6]構(gòu)建的機(jī)器人StalkerBot能預(yù)測(cè)人的行為,自主跟隨導(dǎo)航;文獻(xiàn)[7]研究了基于模糊邏輯和強(qiáng)化學(xué)習(xí)的自主導(dǎo)航;文獻(xiàn)[8]提出了 Task Graph 算法,通過學(xué)習(xí)實(shí)現(xiàn)自主導(dǎo)航;文獻(xiàn)[9]創(chuàng)建了條件轉(zhuǎn)移圖,一種能學(xué)習(xí)動(dòng)態(tài)環(huán)境知識(shí)的導(dǎo)航策略;文獻(xiàn)[10]模擬蟑螂的行為建立了可學(xué)習(xí)未知環(huán)境拓?fù)湫畔⒌哪P?實(shí)現(xiàn)自主導(dǎo)航,取得了理想的效果。

雖然模擬生物的認(rèn)知與行為學(xué)習(xí)對(duì)移動(dòng)機(jī)器人自主導(dǎo)航的研究已取得了一些研究成果,但是,這些成果僅模擬了生物的認(rèn)知學(xué)習(xí)特性,讓機(jī)器人只是具備了一定的學(xué)習(xí)能力,實(shí)現(xiàn)的只是感知-動(dòng)作匹配學(xué)習(xí),缺乏解決復(fù)雜問題的能力,導(dǎo)致機(jī)器人在未知環(huán)境中的自主性和自適應(yīng)性較差。歸其原因,主要是現(xiàn)有的認(rèn)知學(xué)習(xí)模型還不能完全反映生物神經(jīng)系統(tǒng)的真實(shí)結(jié)構(gòu)和功能,例如生物的另一重要特性——心智發(fā)育。日本大阪大學(xué)的Asada教授等人提出了認(rèn)知發(fā)育機(jī)器人學(xué)的概念。認(rèn)知發(fā)育機(jī)器人學(xué)中的“發(fā)育”主要指心智發(fā)育或認(rèn)知發(fā)育,即機(jī)器人知識(shí)和技能的形成和發(fā)展。Asada 領(lǐng)導(dǎo)了日本的JST ERATO淺田人工合成智能工程,構(gòu)造了具有仿生肌體的孩童機(jī)器人 CB2,用于認(rèn)知發(fā)育機(jī)器人學(xué)的研究[11]。美國(guó)密歇根大學(xué)的翁巨揚(yáng)教授提出了自主心智發(fā)育的概念[12]。基于這一理論,翁巨揚(yáng)教授及其團(tuán)隊(duì)建造了SAIL[13]和Dav[14]2個(gè)人形機(jī)器人,相關(guān)研究工作持續(xù)至今。北京工業(yè)大學(xué)阮曉鋼教授設(shè)計(jì)了一種新的斯金納自動(dòng)機(jī),并成功應(yīng)用在其團(tuán)隊(duì)制作的仿生兩輪機(jī)器人上,機(jī)器人能夠以類似人的認(rèn)知和發(fā)育特性,自主地認(rèn)知學(xué)習(xí)平衡控制技能[15]。但是,目前模擬生物的發(fā)育特性實(shí)現(xiàn)機(jī)器人自主導(dǎo)航的相關(guān)文獻(xiàn)較少。

機(jī)器人本質(zhì)上是一種仿生系統(tǒng),應(yīng)如同人和動(dòng)物一樣具有認(rèn)知學(xué)習(xí)和發(fā)育的智能行為,其中,尤為重要的是發(fā)育特性和學(xué)習(xí)能力,以適應(yīng)復(fù)雜的外界環(huán)境。因此,針對(duì)移動(dòng)機(jī)器人自主導(dǎo)航問題,本文以神經(jīng)網(wǎng)絡(luò)為框架,基于生物學(xué)的認(rèn)知和發(fā)育機(jī)理,構(gòu)建一種移動(dòng)機(jī)器人可計(jì)算認(rèn)知發(fā)育模型,使機(jī)器人可以模擬動(dòng)物從環(huán)境中自動(dòng)獲取知識(shí)和積累經(jīng)驗(yàn),通過認(rèn)知發(fā)育,自組織地逐漸形成、發(fā)展和完善自主導(dǎo)航技能。

1 認(rèn)知發(fā)育模型

認(rèn)知發(fā)育模型結(jié)構(gòu)如圖1所示,其通過與環(huán)境的互動(dòng),形成一個(gè)閉環(huán)反饋連接。行為a(t)是認(rèn)知發(fā)育模型t時(shí)刻的輸出,也是認(rèn)知學(xué)習(xí)的結(jié)果,行為一方面作用在環(huán)境上引起強(qiáng)化刺激,一方面與強(qiáng)化刺激共同作用,使t時(shí)刻狀態(tài)s(t)轉(zhuǎn)移到s(t+1)。動(dòng)態(tài)發(fā)育神經(jīng)網(wǎng)絡(luò)在行為a(t)及狀態(tài)s(t+1)的作用下,產(chǎn)生認(rèn)知發(fā)育模型的能量E(t),表征認(rèn)知發(fā)育系統(tǒng)趨向性。根據(jù)趨向性,神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)會(huì)動(dòng)態(tài)調(diào)整,模擬類似于生物的發(fā)育特性。在動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)發(fā)育結(jié)果和強(qiáng)化刺激的指引下,基于認(rèn)知學(xué)習(xí)機(jī)制更新行為發(fā)生概率P(t+1),學(xué)習(xí)下一個(gè)行為a(t+1)。

圖1 認(rèn)知發(fā)育模型結(jié)構(gòu)

可以看到,圖1所示的認(rèn)知發(fā)育模型模擬了生物的2個(gè)特性:發(fā)育特性和認(rèn)知學(xué)習(xí)特性。

1)發(fā)育特性。動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)通過隱含層所含的神經(jīng)元個(gè)數(shù)的調(diào)整,來模擬生物的發(fā)育特性。發(fā)育特性是心理學(xué)和熱力學(xué)的混合,參考生物能量學(xué),可以通過生物熱力學(xué)來刻畫。由于心理動(dòng)力學(xué)和生物熱力學(xué)都受到熱力學(xué)的啟發(fā)并與能量有關(guān),因此可以認(rèn)為在發(fā)育的過程中,心理的與生理的狀態(tài)需要能量來保持,并且行為也需要能量來執(zhí)行。因此,在發(fā)育過程中,將生物視為一個(gè)能量系統(tǒng),其能量E(t)包括狀態(tài)的能量和行為的能量,變化的能量用一個(gè)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)來逼近。同時(shí),能量E(t)的變化,反饋回動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),構(gòu)成一個(gè)反饋系統(tǒng),指引動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)發(fā)育的方向。

2)認(rèn)知學(xué)習(xí)特性。在任意時(shí)刻,認(rèn)知發(fā)育模型通過與環(huán)境的交互獲得環(huán)境的強(qiáng)化刺激,進(jìn)而獲得表征認(rèn)知趨向的能量變化,基于此,認(rèn)知學(xué)習(xí)機(jī)制可以通過更新行為選取概率p(t)實(shí)現(xiàn)認(rèn)知學(xué)習(xí)。下一個(gè)行為的概率由環(huán)境的強(qiáng)化刺激及當(dāng)前行為的概率共同決定??梢钥闯?認(rèn)知發(fā)育模型的認(rèn)知學(xué)習(xí)不是盲目的,是用認(rèn)知的方式來進(jìn)行強(qiáng)化學(xué)習(xí),強(qiáng)化刺激總是試圖獎(jiǎng)勵(lì)好的行為并且懲罰壞的行為。

強(qiáng)化在形成或者改變?nèi)撕蛣?dòng)物的行為中扮演了重要的角色。如果認(rèn)為強(qiáng)化不是正的就是負(fù)的,那么可以將獎(jiǎng)勵(lì)和懲罰看作是強(qiáng)化,其中正的強(qiáng)化刺激代表獎(jiǎng)勵(lì),負(fù)的代表懲罰[15]。

2 學(xué)習(xí)算法設(shè)計(jì)

2.1 認(rèn)知學(xué)習(xí)算法

按照生物的認(rèn)知發(fā)育特性,機(jī)器人的認(rèn)知發(fā)育系統(tǒng)可以視為一個(gè)能量系統(tǒng),總能量為E(t),包括狀態(tài)能量函數(shù)Es(t)和行為能量函數(shù)Ea(t),其中,Es(t)表示狀態(tài)的非負(fù)能量值,Ea(t)表示行為的非負(fù)能量值??偰芰勘磉_(dá)式如下:

E(t)=ΔEs(t)+Ea(t)

(1)

其中,ΔEs(t)=Es(t+1)-Es(t)是狀態(tài)能量從t到(t+1)時(shí)刻的增量,表征狀態(tài)能量的變化,其變化由行為能量Ea(t)所致,而狀態(tài)能量的變化表示狀態(tài)發(fā)生了轉(zhuǎn)移。

2.1.1 行為概率的更新

假設(shè)低能量的狀態(tài)與生物的趨向性一致,則在生物的認(rèn)知發(fā)育過程中,趨向性的含義就是通過低能量的行為來保持低能量的狀態(tài)。因此,可以將能量變換變化的趨向性作為發(fā)育和認(rèn)知學(xué)習(xí)的強(qiáng)化刺激,其計(jì)算形式如下:

(2)

其中,p(a(t)|s(t))是行為a(t)在狀態(tài)s(t)下的發(fā)生概率,Δp(a(t)|s(t))是發(fā)生概率p(a(t)|s(t))的增量。

文獻(xiàn)[16]提出了用于全局優(yōu)化的模擬退火算法。模擬退火算法定義如下:模擬退火其實(shí)是一種貪心算法,在搜索過程中,引入了隨機(jī)因素,以一定的概率來接受一個(gè)比當(dāng)前解要差的解,因此,有可能會(huì)跳出這個(gè)局部的最后解,達(dá)到全局的最優(yōu)解。按照該定義,顯然模擬退火算法和認(rèn)知學(xué)習(xí)過程具有相似的特性,模擬退火算法中的降溫可看作認(rèn)知學(xué)習(xí)過程中的強(qiáng)化。本文結(jié)合蒙特卡洛算法[17]和模擬退火算法來設(shè)計(jì)認(rèn)知學(xué)習(xí)算法。

在認(rèn)知發(fā)育過程中,狀態(tài)s(t+1)為行為a(t)執(zhí)行的結(jié)果,如果狀態(tài)s(t+1)的能量比狀態(tài)s(t)的能量高,則調(diào)節(jié)行為a(t)在狀態(tài)s(t)下出現(xiàn)的概率,使s(t+1)出現(xiàn)在s(t)之后的機(jī)會(huì)概率減小,反之依然。因此,行為a(t)在狀態(tài)s(t)下出現(xiàn)的概率設(shè)計(jì)如式(3)所示。

(3)

其中:E(a|s)=ΔES(a|s)+EA(a|s)為認(rèn)知發(fā)育系統(tǒng)的能量,A為行為集合,S為狀態(tài)集合,EA(a|s)是行為a∈A在狀態(tài)s∈S下的行為能量,ΔES(a|s)是在行為a∈A的作用下引起的狀態(tài)能量增量;〈·〉為在認(rèn)知學(xué)習(xí)過程中,行為a在狀態(tài)s下反復(fù)出現(xiàn)時(shí)的系統(tǒng)能量統(tǒng)計(jì)量;T是溫度;KB是玻爾茲曼常數(shù);R(t)為強(qiáng)化刺激信號(hào)。把強(qiáng)化刺激信號(hào)R(t)加入到概率更新公式中,一方面,結(jié)合溫度變化,引導(dǎo)概率改變的方向,使機(jī)器人更傾向于選取對(duì)自己有利的行為;另一方面,能使設(shè)計(jì)的認(rèn)知發(fā)育學(xué)習(xí)模型體現(xiàn)出更類似于動(dòng)物的取向特性。

2.1.2 行為熵

熵的概念是從熱力學(xué)第二定律得出,被推廣為系統(tǒng)無序度的量度。在信息論中,熵可用作某事件不確定度的量度。信息量越大,體系結(jié)構(gòu)越規(guī)則,功能越完善,熵就越小。利用熵的概念,可以從理論上研究信息的計(jì)量、傳遞、變換、存儲(chǔ)[18]。本文引入行為熵的概念來描述認(rèn)知發(fā)育模型中行為的不確定性。

(4)

此處利用行為熵用來表征機(jī)器人行為的不確定性。由熵的定義可以推理出,當(dāng)溫度降低時(shí),認(rèn)知發(fā)育模型的熵隨之降低,并逐漸收斂為0。這說明在認(rèn)知發(fā)育模型中,認(rèn)知學(xué)習(xí)的過程是一個(gè)自治的過程。

2.2 動(dòng)態(tài)發(fā)育算法

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程模仿了高等生物探索、調(diào)節(jié)、總結(jié)的學(xué)習(xí)規(guī)律,其映射關(guān)系具有高度的非線性和不確定性。而動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以根據(jù)學(xué)習(xí)的經(jīng)驗(yàn)動(dòng)態(tài)調(diào)整,與生物的發(fā)育特性很相似。本文設(shè)計(jì)了一種動(dòng)態(tài)結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),產(chǎn)生機(jī)器人總能量E(t),結(jié)合熱力學(xué)過程來模擬生物的發(fā)育特性。該網(wǎng)絡(luò)在發(fā)育過程中可以動(dòng)態(tài)地插入和刪除神經(jīng)元節(jié)點(diǎn),最終得到與應(yīng)用需求相匹配的網(wǎng)絡(luò)規(guī)模。

動(dòng)態(tài)結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)為一個(gè)三層感知器網(wǎng)絡(luò),包括輸入層、輸出層和隱層,輸入層和輸出層根據(jù)實(shí)際問題確定其各自的維度,假設(shè)網(wǎng)絡(luò)的輸入是n維向量,用S={s1,s2,…,sn}表示,此處選取機(jī)器人的狀態(tài)信息作為輸入;輸出是n×r維向量,用E={E1,E2,…,En×r}表示,此處選取認(rèn)知發(fā)育系統(tǒng)的能量E(a|s)作為輸出;隱層個(gè)數(shù)以及每個(gè)隱層所包的神經(jīng)元個(gè)數(shù)在訓(xùn)練過程中進(jìn)行動(dòng)態(tài)調(diào)整,包括在鄰接輸出層的隱層插入新的神經(jīng)元節(jié)點(diǎn)或者創(chuàng)建新的隱層。初始隱層只有一個(gè)神經(jīng)元,如圖2所示。

圖2 網(wǎng)絡(luò)初始化結(jié)構(gòu)

隱層神經(jīng)元的激發(fā)函數(shù)采用雙極性sigmoid函數(shù):

(5)

為了增加動(dòng)作選擇的區(qū)分度,輸出層采用線性函數(shù):

(6)

其中,w、N、p均為正實(shí)數(shù),可根據(jù)情況設(shè)定。用Net(l,n)表示神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),l為神經(jīng)網(wǎng)絡(luò)隱層數(shù),n為隱層神經(jīng)元的個(gè)數(shù)。

當(dāng)前時(shí)刻t網(wǎng)絡(luò)Net(l,n)的訓(xùn)練誤差表示為式(7)。

(7)

其中:ΔE(a,s)表示認(rèn)知發(fā)育系統(tǒng)能量的變化量;τ是一個(gè)很大的正整數(shù),表明網(wǎng)絡(luò)會(huì)滾動(dòng)計(jì)算誤差,進(jìn)行訓(xùn)練調(diào)整;r表示輸出層神經(jīng)元個(gè)數(shù)。在訓(xùn)練過程中,通過認(rèn)知發(fā)育,動(dòng)態(tài)調(diào)整隱含層l的值和每個(gè)隱含層所含的神經(jīng)元n的值,其他層神經(jīng)元的個(gè)數(shù)不發(fā)生變化,

若當(dāng)前神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練誤差ε(l,n)滿足式(8),在隱層中插入神經(jīng)元節(jié)點(diǎn)(如圖3所示),則隱層的神經(jīng)元個(gè)數(shù)由n變?yōu)閚+1。

(8)

其中:ε0表示誤差水平;ξ為一小正數(shù),表征誤差變化的程度;q為一小正整數(shù)。新神經(jīng)元與鄰層神經(jīng)元產(chǎn)生的權(quán)值初始化為隨機(jī)數(shù):

ωij=random(-0.5,0.5)

(9)

圖3 新節(jié)點(diǎn)插入過程

若在同一隱層內(nèi)連續(xù)插入q個(gè)神經(jīng)元仍不能使誤差顯著減小,如式(10)所示,向網(wǎng)絡(luò)中插入新的隱層及對(duì)應(yīng)的神經(jīng)元(如圖4所示),則網(wǎng)絡(luò)的隱層數(shù)由l變?yōu)閘+1。

(10)

圖4 新隱層插入過程

新插入的神經(jīng)元節(jié)點(diǎn)和相鄰的神經(jīng)元均為全連接,權(quán)值同樣按式(9)的方式初始化。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)每變化一次,都要進(jìn)行足夠次數(shù)的訓(xùn)練,直至網(wǎng)絡(luò)的誤差變化不再明顯。

2.3 學(xué)習(xí)算法收斂性分析

定理當(dāng)t→時(shí),認(rèn)知發(fā)育學(xué)習(xí)模型的行為熵H(t)收斂至極小,即:式中Hmin為小常數(shù)。

證明:

2)當(dāng)t→時(shí),任意狀態(tài)的行為熵為:

(11)

(12)

證畢。

上述定理表明,隨著時(shí)間的延長(zhǎng),溫度逐漸降低,行為熵不斷減小,直至收斂至極小值,直至最終溫度。這也說明,認(rèn)知發(fā)育學(xué)習(xí)是一個(gè)自治的過程。

3 移動(dòng)機(jī)器人學(xué)習(xí)導(dǎo)航

3.1 機(jī)器人學(xué)習(xí)導(dǎo)航原理

機(jī)器人配備檢測(cè)裝置,獲取機(jī)器人導(dǎo)航所需要的信息。機(jī)器人與工作環(huán)境關(guān)系示意如圖5所示。

圖5 機(jī)器人和障礙物及目標(biāo)點(diǎn)間關(guān)系

機(jī)器人狀態(tài)包括:機(jī)器人位于障礙物左方、前方和右方3個(gè)方向的距離信息;機(jī)器人與目標(biāo)點(diǎn)的距離信息及與目標(biāo)點(diǎn)間的夾角。因此,參看文獻(xiàn)[19]機(jī)器人的狀態(tài)空間定義如下:

定義1機(jī)器人的狀態(tài)空間s為:

s={dr_l,dr_f,dr_r,dr_tar,θ}

(13)

其中,dr_l為機(jī)器人左側(cè)距障礙物的距離,dr_f為機(jī)器人前方距障礙物的距離,dr_r為機(jī)器人右側(cè)距障礙物的距離,dr_tar為機(jī)器人與目標(biāo)點(diǎn)之間的距離,θ為機(jī)器人運(yùn)動(dòng)方向和目標(biāo)點(diǎn)的夾角。

滿足下式:

dmin≤min(dr_l,dr_f,dr_r)

其中,dmin表示最小危險(xiǎn)距離,當(dāng)任一探測(cè)距離小于dmin時(shí)表示移動(dòng)機(jī)器人避障失敗,dmax表示最大安全距離,當(dāng)各方向探測(cè)距離均大于dmax時(shí)機(jī)器人可以以最大速度安全行走。

本文將機(jī)器人的行為分解為5個(gè),行為空間定義如下:

定義2機(jī)器人的行為空間A為:

A={a1,a2,a3,a4,a5}

其中,a1表示機(jī)器人轉(zhuǎn)動(dòng)+20°同時(shí)向前移動(dòng)0.1 m,a2表示機(jī)器人轉(zhuǎn)動(dòng)-20°同時(shí)向前移動(dòng)0.1 m,a3表示機(jī)器人轉(zhuǎn)動(dòng)+10°同時(shí)向前移動(dòng)0.1 m,a4表示機(jī)器人轉(zhuǎn)動(dòng)-10°同時(shí)向前移動(dòng)0.1 m,a5表示機(jī)器人向前移動(dòng)0.1 m。

1)機(jī)器人和目標(biāo)點(diǎn)的距離縮小,表現(xiàn)為:

(14)

2)機(jī)器人和障礙物之間的距離擴(kuò)大,表現(xiàn)為:

(15)

3)機(jī)器人朝著目標(biāo)點(diǎn)運(yùn)動(dòng),表現(xiàn)為:

(16)

機(jī)器人的強(qiáng)化信號(hào)定義為:

R(t)=-αRr_tar(t)+βRr(t)-ηRθ(t)

(17)

其中,0<α,β,η<1。

因此,機(jī)器人的狀態(tài)能量函數(shù)定義如下:

Es(t)=R2(t)+ρRr_tar·Rr(t)·Rθ(t)

(18)

其中,R2(t)代表了機(jī)器人對(duì)朝著目標(biāo)點(diǎn)方向、避開障礙物、離目標(biāo)越來越近的3個(gè)趨向,ρRr_tar·Rr(t)·Rθ(t)是考慮3個(gè)趨向之間的耦合,ρ為耦合系數(shù),滿足0<ρ<1。

機(jī)器人以認(rèn)知發(fā)育的方式完成未知環(huán)境下避障導(dǎo)航,具體過程如下:

1)機(jī)器人依據(jù)檢測(cè)裝置獲取環(huán)境信息,包括機(jī)器人和目標(biāo)點(diǎn)之間的距離、夾角、機(jī)器人周圍的障礙物距離等,將其作為認(rèn)知發(fā)育模型的狀態(tài),輸入到動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)中。

2)計(jì)算動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的輸出,得到認(rèn)知發(fā)育模型的能量及能量變化情況,獲得認(rèn)知發(fā)育系統(tǒng)發(fā)育和認(rèn)知學(xué)習(xí)的趨向。

3)根據(jù)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的發(fā)育和認(rèn)知學(xué)習(xí)的趨向,更新行為概率,并按照概率從行為空間選擇一個(gè)行為。

4)執(zhí)行選中的行為,改變環(huán)境狀態(tài)。

5)獲得強(qiáng)化刺激信號(hào),訓(xùn)練動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。當(dāng)滿足停止條件時(shí),退出學(xué)習(xí)過程,否則進(jìn)入下一輪學(xué)習(xí)。

機(jī)器人通過檢測(cè)裝置檢測(cè)環(huán)境獲取信息,之后根據(jù)行為概率從行為空間選擇一個(gè)“合理”的行為執(zhí)行。隨后,根據(jù)行為執(zhí)行前后環(huán)境反饋的強(qiáng)化刺激訓(xùn)練動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。按照這樣的順序循環(huán)執(zhí)行,直到網(wǎng)絡(luò)訓(xùn)練完成,然后將神經(jīng)網(wǎng)絡(luò)的權(quán)值和結(jié)構(gòu)固化,退出學(xué)習(xí)過程。

機(jī)器人通過檢測(cè)裝置檢測(cè)環(huán)境獲取信息,之后根據(jù)行為概率從行為空間選擇一個(gè)“合理”的行為執(zhí)行。隨后,根據(jù)行為執(zhí)行前后環(huán)境反饋的強(qiáng)化刺激訓(xùn)練動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。按照這樣的順序循環(huán)執(zhí)行,直到網(wǎng)絡(luò)訓(xùn)練完成,然后將神經(jīng)網(wǎng)絡(luò)的權(quán)值和結(jié)構(gòu)固化,退出學(xué)習(xí)過程。

3.2 物理實(shí)驗(yàn)與分析

物理實(shí)驗(yàn)采用的是一款簡(jiǎn)易仿生機(jī)器魚,如圖6所示,該機(jī)器人是一款簡(jiǎn)易移動(dòng)機(jī)器人,適合于水中環(huán)境下的導(dǎo)航實(shí)驗(yàn)。機(jī)器人通過外置攝像頭感知環(huán)境,攝像頭攝像范圍必須能覆蓋到整個(gè)場(chǎng)地,因此,設(shè)置了2個(gè)位于導(dǎo)航環(huán)境中心的攝像頭,攝像頭為大恒水星系列MER-040-60UC型號(hào)(如圖7所示),可以完成視覺定位,通過在場(chǎng)地建立的坐標(biāo)系推算出仿生魚實(shí)時(shí)的位置。

圖6 仿生機(jī)器魚示意圖圖7 攝像頭示意圖

圖8 實(shí)驗(yàn)環(huán)境俯視圖

圖9 實(shí)驗(yàn)環(huán)境

在物理實(shí)驗(yàn)中,基于采集到的機(jī)器魚導(dǎo)航過程中的實(shí)際數(shù)據(jù)繪制其導(dǎo)航軌跡,如圖10所示。

圖10 機(jī)器魚導(dǎo)航軌跡

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),經(jīng)過5次學(xué)習(xí)之后,機(jī)器魚經(jīng)過發(fā)育和學(xué)習(xí),已習(xí)得自主導(dǎo)航技能,能自主地從出發(fā)點(diǎn)無障礙的巡航至目的地。從第6次實(shí)驗(yàn)開始,機(jī)器人能準(zhǔn)確的前往目的地,巡航路徑變得穩(wěn)定。對(duì)機(jī)器人避障導(dǎo)航過程進(jìn)行了視頻錄制,圖11展示了某次成功實(shí)驗(yàn)的部分截圖。

圖11 機(jī)器人避障導(dǎo)航過程

為了進(jìn)一步驗(yàn)證本文設(shè)計(jì)方案的有效性,繪制了人工勢(shì)場(chǎng)方法導(dǎo)航軌跡,如圖12所示,與圖10(f)相比可以看出,與模擬仿真結(jié)果類似,基于人工勢(shì)場(chǎng)法的軌跡不平滑,路徑并非最優(yōu)。

圖12 人工勢(shì)場(chǎng)法實(shí)驗(yàn)結(jié)果

更改出發(fā)點(diǎn)和障礙物位置,變換實(shí)驗(yàn)環(huán)境如圖13所示,重復(fù)以上實(shí)驗(yàn),為了測(cè)試機(jī)器人的認(rèn)知能力,障礙物個(gè)數(shù)增加,變得更復(fù)雜,使得機(jī)器魚的可行路徑更狹窄,增加環(huán)境復(fù)雜度。實(shí)驗(yàn)結(jié)果如圖14所示,從實(shí)驗(yàn)結(jié)果中可以看到,機(jī)器人仍然能夠?qū)崿F(xiàn)從起點(diǎn)開始穿越障礙抵達(dá)終點(diǎn)的自主巡航。這說明設(shè)計(jì)的自主認(rèn)知發(fā)育模型對(duì)于機(jī)器人的自主認(rèn)知導(dǎo)航具有一定的泛化能力,即使環(huán)境信息有所變化,機(jī)器人也能很快地適應(yīng),重新發(fā)現(xiàn)規(guī)律。對(duì)機(jī)器人避障導(dǎo)航過程進(jìn)行了視頻錄制,圖15展示了某次成功實(shí)驗(yàn)的部分截圖。

圖13 改變后的實(shí)驗(yàn)環(huán)境

圖14 改變環(huán)境后的導(dǎo)航軌跡

圖15 改變環(huán)境后的機(jī)器人避障導(dǎo)航過程

上述實(shí)驗(yàn)結(jié)果表明,機(jī)器人在巡航過程中,每到一處位置便通過傳感器獲得與障礙物、目的地的距離信息,然后經(jīng)過認(rèn)知發(fā)育模型處理之后,轉(zhuǎn)換成對(duì)應(yīng)的行為選擇,實(shí)現(xiàn)從感知到運(yùn)動(dòng)的映射轉(zhuǎn)換。如果行為選擇有利于避開障礙、靠近目的地,則通過調(diào)整網(wǎng)絡(luò)權(quán)值,降低系統(tǒng)能量,行為選擇的幾率增大;反之,則系統(tǒng)能量增大,行為選擇的概率變小。同時(shí),機(jī)器人將這些習(xí)得經(jīng)驗(yàn)以增加神經(jīng)網(wǎng)絡(luò)隱層節(jié)點(diǎn)的方式,記憶在網(wǎng)絡(luò)中。機(jī)器人在整個(gè)過程中沒有監(jiān)督信號(hào)的指引,自主的完成對(duì)環(huán)境的認(rèn)知,習(xí)得最優(yōu)行為。因此,機(jī)器人的自主認(rèn)知巡航過程也是一個(gè)自學(xué)習(xí)、自組織和漸近發(fā)育的過程。機(jī)器人某狀態(tài)下行為熵和能量的變化證明了機(jī)器人自學(xué)習(xí)、自組織的過程,如圖16所示。隨著學(xué)習(xí)的進(jìn)行,內(nèi)能均值隨著溫度降低也越來越低,同時(shí)它的行為熵也在不斷減小,直至最終收斂至最小值。行為熵和內(nèi)能的不斷減小反映了自組織程度的不斷提升。同時(shí),也說明機(jī)器人的認(rèn)知發(fā)育學(xué)習(xí)是自治的。

圖16 行為熵和能量的變化曲線

4 結(jié)束語

本文構(gòu)建一種模擬生物學(xué)認(rèn)知和發(fā)育機(jī)理的認(rèn)知發(fā)育模型,以實(shí)現(xiàn)機(jī)器人的自主導(dǎo)航。根據(jù)應(yīng)用環(huán)境的需要,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以實(shí)現(xiàn)動(dòng)態(tài)調(diào)整和自組織,類似生物的發(fā)育過程,網(wǎng)絡(luò)的復(fù)雜程度和環(huán)境保持匹配,確保神經(jīng)網(wǎng)絡(luò)可解決應(yīng)用問題同時(shí)保持緊湊結(jié)構(gòu)。認(rèn)知發(fā)育算法用Metropolis Monte Carlo方法和模擬退火的方式模擬認(rèn)知學(xué)習(xí)以及行為選擇過程,使得機(jī)器人可以像熱力學(xué)系統(tǒng)一樣運(yùn)行。對(duì)機(jī)器魚的多種導(dǎo)航任務(wù)進(jìn)行了實(shí)驗(yàn)分析,結(jié)果證明,機(jī)器人可以模擬動(dòng)物從環(huán)境中自動(dòng)獲取知識(shí)、積累經(jīng)驗(yàn),通過保持和環(huán)境的互動(dòng)以及重復(fù)的學(xué)習(xí)和訓(xùn)練,達(dá)到預(yù)期的導(dǎo)航目標(biāo)。本文主要目的是尋求一種可行性的自主導(dǎo)航方法,最優(yōu)性退居次要位置,但在實(shí)驗(yàn)中發(fā)現(xiàn),機(jī)器人運(yùn)行的軌跡有些抖動(dòng),并未實(shí)現(xiàn)嚴(yán)格意義上的路徑最優(yōu),因此,尋求最優(yōu)性將是下一步的研究方向。

[1] LAKE B M,SALAKHUTDINOW R,TENENNBAUM J B.Human-level Concept Learning Through Probabilistic Program Induction[J].Science,2015,350(6266):1332-1338.

[2] 王子強(qiáng),武繼剛.基于學(xué)習(xí)算法的移動(dòng)機(jī)器人路徑規(guī)劃[J].計(jì)算機(jī)工程,2014,40(6):211-214.

[3] 徐 昕.增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃[M].1版.北京:科學(xué)出版社,2010.

[4] YU C,WANG C C.Multi-step Learning to Search for Dynamic Environment Navigation[J].Journal of Information Science and Engineering,2014,30(3):637-652.

[5] WEN Shuhuan,CHEN Xiao,MA Chunli.The Q-learning Obstacle Avoidance Algorithm Based on EKF-SLAM for NAO Autonomous Walking Under Unknown Environments[J].Robotics and Autonomous Systems,2015,72(C):29-36.

[6] MURPHY L,CORKE P.STALKERBOT:Learning to Navigate Dynamic Human Environments by Following People[C]//Proceedings of Australasian Conference on Robotics and Automation.Wellington,New Zealand:Australasian Robotics and Automation Association,2012:1-9.

[7] CHERROUN L,BOUMEHRAZ M.Fuzzy Logic and Reinforcement Learning Based Approaches for Mobile Robot Navigation in Unknown Environment [J].Journal of Measurement and Control,2013,9(3):109-117.

[8] KOREIN M.Scheduling Mobile Exploration Tasks for Environment Learning[C]//Proceedings of the 12th International Conference on Autonomous Agents and Multiagent Systems.Saint Paul,USA:International Foundation for Autonomous Agents and United States,2013:1-2.

[9] KUCNER T,SAARINEN J,MAGNUSSON M,et al.Conditional Transition Maps:Learning Motion Patterns in Dynamic Environments[C]//Proceedings of IEEE International Conference on Intelligent Robots and Systems.Tokyo,Japan:Institute of Electrical and Electronics Engineers Inc.,2013:1196-1201.

[10] DIRAFZOON A,LOBATON E.Topological Mapping of Unknown Environments Using an Unlocalized Robotic Swarm[C]//Proceedings of IEEE International Conference on Intelligent Robots and Systems.Washington D.C.,USA:IEEE Press,2013:5545-5551.

[11] ASADA M,HOSODA K,KUNIYOSHI Y,et al.Cognitive Developmental Robotics:A Survey[J].IEEE Transactions on Autonomous Mental Development,2009,1(1):12-34.

[12] WENG J,MCCLELLAND J,PENTLAND A,et al.Artificial Intelligence:Autonomous Mental Development by Robots and Animals[J].Science,2001,291(5504):599-600.

[13] ZHANG Yilu,WENG Juyang,HWANG W S.Auditory Learning:A Developmental Method[J].IEEE Transactions on Neural Networks,2005,16(3):601-616.

[14] WENG J.Teachable Robots[J].Technology Review,2008,106:64-67.

[15] RUAN Xiaogang,WU Xuan.The Skinner Automaton:A Psychological Model Formalizing the Theory of Operant Conditioning[J].Science China Technological Sciences,2013,56(11):2745-2761.

[16] KIRKPATRICK S,GELATT C D,VECCHI M P.Optimization by Simulated Annealing[J].Science,1983,220:671-680.

[17] NICHOLLS D G,FERGUSON S J.Bioenergetics[M].[S.l.]:Academic Press,2013.

[18] 阮曉鋼.神經(jīng)計(jì)算科學(xué):在細(xì)胞的水平上模擬腦功能(人工智能之路)[M].北京:國(guó)防工業(yè)出版社,2006.

[19] 喬俊飛,樊瑞元,韓紅桂,等.機(jī)機(jī)器人動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)導(dǎo)航算法的研究和實(shí)現(xiàn)[J].控制理論與應(yīng)用,2010,27(1):111-115.

猜你喜歡
神經(jīng)元發(fā)育動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
《從光子到神經(jīng)元》書評(píng)
自然雜志(2021年6期)2021-12-23 08:24:46
動(dòng)態(tài)
孩子發(fā)育遲緩怎么辦
中華家教(2018年7期)2018-08-01 06:32:38
躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
刺是植物發(fā)育不完全的芽
基于二次型單神經(jīng)元PID的MPPT控制
毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
灵宝市| 甘肃省| 泸溪县| 罗山县| 晋城| 江达县| 丰城市| 镇巴县| 肇州县| 孟州市| 璧山县| 保康县| 平果县| 思南县| 会宁县| 英超| 九寨沟县| 嘉禾县| 济南市| 黄石市| 博爱县| 云和县| 班戈县| 阿巴嘎旗| 周至县| 宜城市| 府谷县| 东宁县| 秭归县| 长寿区| 金阳县| 白玉县| 新和县| 江阴市| 齐河县| 四川省| 南木林县| 周至县| 梅州市| 舞钢市| 盐山县|