国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人工情感的Q-學(xué)習(xí)算法在機(jī)器人行為決策中的應(yīng)用

2015-01-27 03:02谷學(xué)靜高貝貝朱朝月
自動(dòng)化與儀表 2015年7期
關(guān)鍵詞:決策狀態(tài)機(jī)器人

谷學(xué)靜,高貝貝,朱朝月

(華北理工大學(xué) 電氣工程學(xué)院,唐山 063009)

隨著計(jì)算機(jī)和人工智能技術(shù)的發(fā)展,智能機(jī)器人在人類(lèi)的生產(chǎn)生活方面應(yīng)用愈加廣泛。為使機(jī)器人能夠產(chǎn)生擬人情感并與人類(lèi)自然和諧地進(jìn)行人機(jī)交互[1],將人工情感引入到機(jī)器人智能控制中逐漸成為人工智能領(lǐng)域一個(gè)新的研究方向。

目前大部分人工情感的研究集中在情感識(shí)別、情感建模及情感表達(dá)[2],人工情感的研究不應(yīng)僅局限在和諧的人機(jī)交互,而應(yīng)充分發(fā)揮情感因素對(duì)機(jī)器人自主學(xué)習(xí)和行為決策的作用。在機(jī)器人的行為決策中引入人工情感,能夠使機(jī)器人更逼真地模擬人類(lèi)智能行為。

強(qiáng)化學(xué)習(xí)是有效的機(jī)器學(xué)習(xí)方法之一。在強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)上引入情感因素,有了情感模型的指導(dǎo),學(xué)習(xí)和決策過(guò)程將具有更加明確的目的性和方向性,而不是在龐大的求解空間中盲目地嘗試[3]。首先,機(jī)器人根據(jù)外界環(huán)境的刺激模擬產(chǎn)生特定狀態(tài)下的情感值,并反向抉擇出引發(fā)正向情緒的經(jīng)驗(yàn)知識(shí)。然后,機(jī)器人從擇優(yōu)的經(jīng)驗(yàn)知識(shí)中學(xué)習(xí)最優(yōu)控制策略,以改善機(jī)器人行為決策中的學(xué)習(xí)效率和收斂速度,提高機(jī)器人的自主學(xué)習(xí)和自主行為決策能力。

1 人工情感建模

情感是人類(lèi)對(duì)客觀事物的態(tài)度體驗(yàn),同人的切身需求有關(guān)。它能夠幫助人們?cè)诓煌男枨笙逻x擇恰當(dāng)?shù)男袨?,增?qiáng)人類(lèi)對(duì)周?chē)h(huán)境的自適應(yīng)能力[4]。文獻(xiàn)[5-6]的研究表明情感在智能決策中起著重要作用,位于大腦皮層邊緣系統(tǒng)的杏仁核能夠快速獲得感覺(jué)輸入,并做出迅速的情緒反應(yīng)。情緒自身便可激發(fā)行為動(dòng)作,而不需理智思維的調(diào)控。這種急速的反應(yīng)可以幫助人類(lèi)快速做出趨利避害的行動(dòng)。

本文仿效情緒本身即可觸發(fā)行為的機(jī)制,實(shí)現(xiàn)機(jī)器人自然情感調(diào)控行為的功能,構(gòu)建了基于隨機(jī)事件處理的情感模型。機(jī)器人利用傳感器采集外界環(huán)境中的離散信號(hào)(如壓力、溫度、高度),將獲得的信號(hào)傳到情感模型中產(chǎn)生與之對(duì)用的情感狀態(tài)。其中情感模型的情感輸出符合人類(lèi)的情感變化規(guī)律。積極的情緒狀態(tài)會(huì)成為行為的積極誘因,消極的情緒狀態(tài)則起消極誘因作用,情感在自主學(xué)習(xí)和自主行為決策中扮演著驅(qū)動(dòng)角色。

情感模型系統(tǒng)的工作過(guò)程如下:首先將采集的一組傳感器信息作為一個(gè)離散事件 et(e1,e2,…en),根據(jù)當(dāng)前情感狀態(tài)把 et(e1,e2,…en)轉(zhuǎn)換為基本情緒向量 Xt(x1,x2,x3,x4)。 然后將基本情緒向量 Xt(x1,x2,x3,x4)輸入到情感空間,得到模型輸出 Yt(y1,y2,y3,y4),嵌入該模型的機(jī)器人可以根據(jù)Yt做出帶有情感的決策。為了方便機(jī)器人在行為決策中應(yīng)用情感模型,將情感模型產(chǎn)生的情感均值Yt轉(zhuǎn)化為可以直接利用的數(shù)值,因此設(shè) μt, μt∈[0,1]為情感均值變換后的情感系數(shù)值。其情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)如圖1所示。

圖1 情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)Fig.1 Emotional factor model framework and emotional transformation function

圖中第一個(gè)節(jié)點(diǎn)代表正向與負(fù)向情緒分類(lèi)函數(shù),其中k+,k-分別為正向和負(fù)向情感函數(shù)的系統(tǒng)反饋系數(shù),εt為對(duì)采集到外界刺激進(jìn)行修正后的值,η(+,-(i))為正向與負(fù)向情緒分類(lèi)函數(shù)值。 圖中第二個(gè)節(jié)點(diǎn)代表情感輸出值變換為情感系數(shù)的變換函數(shù)。具體情感模型系統(tǒng)原理論述見(jiàn)文獻(xiàn)[7]。

2 Q-學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論演化出來(lái)的[8]。強(qiáng)化學(xué)習(xí)的目的是要學(xué)習(xí)從狀態(tài)到動(dòng)作的最佳映射,以便獲得獎(jiǎng)賞信號(hào)最大[9]。其中Q-學(xué)習(xí)算法在機(jī)器人行為最優(yōu)控制策略中應(yīng)用廣泛,它是Markov決策過(guò)程的一種演化形式。Q-學(xué)習(xí)的目標(biāo)是尋找一個(gè)策略π,使在學(xué)習(xí)的時(shí)間內(nèi)獲得的累積折扣回報(bào)Rdπ最大:

式中:γ(0<γ<1)為折扣因子;t=1,2,…,為每個(gè)時(shí)間步;rt為執(zhí)行每一步動(dòng)作后的立即回報(bào);i為到達(dá)最優(yōu)策略π時(shí)所經(jīng)歷的時(shí)間步數(shù)值。

Q(s,a)值是機(jī)器人在環(huán)境狀態(tài)下選擇對(duì)應(yīng)動(dòng)作后執(zhí)行策略π的回報(bào)折扣和的數(shù)學(xué)期望:

式中:S=[s1,s2,…,st]為機(jī)器人在環(huán)境中的狀態(tài)集;A=[a1,a2,…,at]為對(duì)應(yīng)狀態(tài)選擇的動(dòng)作集;rt為在狀態(tài) st下執(zhí)行動(dòng)作 at得到的立即回報(bào);P(st,at,st+1)為機(jī)器人在狀態(tài)st下執(zhí)行動(dòng)作at轉(zhuǎn)移到下一個(gè)狀態(tài)st+1的概率。

實(shí)現(xiàn)在線Q-學(xué)習(xí)方法按如下的遞歸公式進(jìn)行:

式中:λ為學(xué)習(xí)率,控制學(xué)習(xí)速度,λ越大則收斂越快。但是,過(guò)大的λ有可能導(dǎo)致不收斂。在一定條件下當(dāng)t→∞ 時(shí),式(3)進(jìn)行無(wú)窮次迭代,Qt(s,a)以概率 1收斂到關(guān)于最優(yōu)策略的Q*(s,a)。

3 基于人工情感改進(jìn)的Q-學(xué)習(xí)算法

Q-學(xué)習(xí)的目標(biāo)是在不確定的環(huán)境下根據(jù)評(píng)價(jià)信號(hào)來(lái)選擇最優(yōu)控制策略,可以理解為是一個(gè)在線最優(yōu)決策學(xué)習(xí)過(guò)程。由于Q-學(xué)習(xí)是一種不依靠環(huán)境模型進(jìn)行的自學(xué)習(xí)的算法,也就是機(jī)器人一點(diǎn)都不熟知外環(huán)境信息。它只能通過(guò)有限的試錯(cuò)法來(lái)學(xué)習(xí),因此學(xué)習(xí)的效率非常低。對(duì)于強(qiáng)化學(xué)習(xí)收斂速度較慢問(wèn)題,本文在利用環(huán)境模型提高強(qiáng)化學(xué)習(xí)收斂速度的基礎(chǔ)上[10],將人類(lèi)情感具有的趨利避害生存機(jī)理引入到環(huán)境模型經(jīng)驗(yàn)知識(shí)的學(xué)習(xí)中。利用情感決策調(diào)整經(jīng)驗(yàn)知識(shí)的學(xué)習(xí)強(qiáng)度,進(jìn)而加快機(jī)器人在線地完善環(huán)境模型的收斂速度。

環(huán)境模型是從一個(gè)狀態(tài)動(dòng)作對(duì)(si+1,a)轉(zhuǎn)換到鄰近狀態(tài)強(qiáng)度值(si+1,r)的函數(shù),確定環(huán)境模型有2種方法:一是在學(xué)習(xí)的開(kāi)始狀態(tài)時(shí),根據(jù)已知數(shù)據(jù)離線確定模型;二是機(jī)器人在與環(huán)境接觸時(shí)在線構(gòu)建或完善環(huán)境模型。環(huán)境模型可以利用之前完成過(guò)的任務(wù)獲取的經(jīng)驗(yàn)來(lái)構(gòu)建,機(jī)器人再反向的從模型中獲得經(jīng)驗(yàn)知識(shí),進(jìn)而幫助它學(xué)習(xí)最優(yōu)控制策略。因此在標(biāo)準(zhǔn)的Q-學(xué)習(xí)算法中引入自定義的經(jīng)驗(yàn)知識(shí)函數(shù)H:S×A→R,此函數(shù)可在線保存狀態(tài)st下執(zhí)行相關(guān)動(dòng)作at的經(jīng)驗(yàn)信息。然后機(jī)器人利用人類(lèi)情感具有的趨利避害生存機(jī)理,通過(guò)經(jīng)驗(yàn)函數(shù)H(st,at)選擇最優(yōu)控制策略的經(jīng)驗(yàn)信息,其相應(yīng)環(huán)境下情感-狀態(tài)-動(dòng)作選擇規(guī)則如下:

步驟1初始化狀態(tài)st動(dòng)作at下回報(bào)折扣和的數(shù)學(xué)期望Q(st,at),初始化情感模型離散事件et(e1,e2,…,en)值和個(gè)性因子ki值;

步驟2觀察當(dāng)前狀態(tài)st,更新et;

步驟3根據(jù) μt←et(e1,e2,…,en)更新情感輸出值;

步驟4使用行動(dòng)選擇規(guī)則選擇出環(huán)境模型中記錄的經(jīng)驗(yàn)知識(shí)引發(fā)積極情緒的狀態(tài)st動(dòng)作at:

步驟5得到回報(bào)率r(st,at),同時(shí)觀察下一個(gè)狀態(tài)st+1;

步驟6根據(jù)式(3)更新Qt(st,at)函數(shù)值;

步驟7更新?tīng)顟B(tài)st到st+1狀態(tài);

步驟8如果滿(mǎn)足學(xué)習(xí)結(jié)束條件,則轉(zhuǎn)到步驟9,否則轉(zhuǎn)到步驟2;

步驟9結(jié)束。

基于人工情感改進(jìn)的Q-學(xué)習(xí)算法描述的程序?qū)崿F(xiàn)流程如圖2所示。

圖2 改進(jìn)的Q-學(xué)習(xí)算法程序流程圖Fig.2 Flow chart of improved Q-learning algorithm

4 改進(jìn)Q-學(xué)習(xí)算法在機(jī)器人行為決策應(yīng)用及仿真

4.1 仿真試驗(yàn)描述

機(jī)器人的任務(wù)是在的二維有障礙的柵格環(huán)境中路徑尋優(yōu),實(shí)驗(yàn)環(huán)境如圖3所示。機(jī)器人在環(huán)境中的基本動(dòng)作有上行、下行、左行、右行4種行進(jìn)動(dòng)作,圖中每個(gè)柵格代表機(jī)器人的一種狀態(tài)。其中黑色部分為障礙物,為機(jī)器人的起始位置,T1,T2為機(jī)器人的目標(biāo)位置。環(huán)境中的所有事物都是靜止的,初始時(shí)對(duì)于機(jī)器人而言環(huán)境模型是未知的。機(jī)器人4個(gè)方向上配有探測(cè)障礙物的傳感器,傳感器將環(huán)境中每個(gè)狀態(tài)采集的信息記為離散事件 et(e1,e2,…,en)。機(jī)器人在行進(jìn)過(guò)程中如果與障礙物或邊界相碰,則返回上一狀態(tài)。實(shí)驗(yàn)初始時(shí)機(jī)器人的目標(biāo)在T1位置,30個(gè)學(xué)習(xí)周期后,目標(biāo)變?yōu)闁鸥裆系腡2位置。

圖3 有障礙的二維柵格環(huán)境Fig.3 Two-dimensional grid environment barrier

在目標(biāo)導(dǎo)航任務(wù)時(shí),立即回報(bào)設(shè)計(jì)為r={100,-50,-1},每個(gè)動(dòng)作都是正確的,執(zhí)行后會(huì)得-1的獎(jiǎng)勵(lì)(可以理解為消耗),完成導(dǎo)航任務(wù)可以獲得+100的獎(jiǎng)勵(lì),如果錯(cuò)誤的執(zhí)行了基本動(dòng)作則將得到-50的獎(jiǎng)勵(lì)(相當(dāng)于懲罰)。折扣因子γ=0.9,學(xué)習(xí)效率η=0.1。

4.2 仿真試驗(yàn)結(jié)果分析

實(shí)驗(yàn)仿真結(jié)果如圖4所示。實(shí)驗(yàn)開(kāi)始的前30個(gè)學(xué)習(xí)周期,機(jī)器人使用帶情感系數(shù)的Q-學(xué)習(xí)算法,但不啟用情感輸出系數(shù),此時(shí)用常數(shù)代替情感系數(shù)μt,故其算法過(guò)程同利用環(huán)境模型的Q-學(xué)習(xí)算法一樣。此后的30個(gè)學(xué)習(xí)周期(即第31個(gè)學(xué)習(xí)周期開(kāi)始),機(jī)器人分別使用利用環(huán)境模型的Q-學(xué)習(xí)算法和基于情感模型改進(jìn)的Q-學(xué)習(xí)算法,依次完成二維有障礙的柵格環(huán)境中路徑尋優(yōu)任務(wù)。

圖4 實(shí)驗(yàn)仿真結(jié)果Fig.4 Experimental simulation result

實(shí)驗(yàn)仿真結(jié)果可見(jiàn)第15個(gè)學(xué)習(xí)周期,2種學(xué)習(xí)算法的收斂性趨于平穩(wěn),第30個(gè)學(xué)習(xí)周期時(shí)已經(jīng)收斂到最優(yōu)。在圖4中可以看出機(jī)器人的目標(biāo)改變后(第31學(xué)習(xí)周期開(kāi)始),需要消耗很多的步數(shù)到達(dá)新的目標(biāo),這是因?yàn)榍捌讷@得的經(jīng)驗(yàn)知識(shí)使機(jī)器人再次移動(dòng)到原來(lái)的目標(biāo)T1。路徑S→T1→T2不是最佳的尋優(yōu)路徑,所以機(jī)器人再次重新嘗試新的策略。在第30到第40學(xué)習(xí)周期之間學(xué)習(xí)策略躍遷較大,直至算法收斂到最優(yōu)狀態(tài)。機(jī)器人路徑尋優(yōu)目標(biāo)T1的最優(yōu)策略回報(bào)為Vπ*(s1)=89,目標(biāo) T2最優(yōu)策略回報(bào)為Vπ*

(s2)=86。為了進(jìn)一步研究2種學(xué)習(xí)算法的收斂情況,利用最小二乘法對(duì)32到45周期內(nèi)的離散數(shù)據(jù)進(jìn)行3次多項(xiàng)式曲線擬合,得到的結(jié)果如圖5所示。

圖5 最小二乘法曲線擬合結(jié)果Fig.5 Least squares curve fitting result

從圖5的仿真結(jié)果不難看出,加入情感決策的Q-學(xué)習(xí)算法在第37學(xué)習(xí)周期趨于收斂到最優(yōu)策略,而利用環(huán)境模型的Q-學(xué)習(xí)算法在第42學(xué)習(xí)周期趨于收斂到最優(yōu)策略,由此說(shuō)明前者用了較少的學(xué)習(xí)時(shí)間使算法收斂。2種學(xué)習(xí)算法的擬合曲線結(jié)果顯示,在32到38周期內(nèi)改進(jìn)Q-學(xué)習(xí)算法的曲線斜率要大于利用環(huán)境模型的Q-學(xué)習(xí)算法的擬合曲線斜率,也就是說(shuō)前者較后者在最優(yōu)控制策略的學(xué)習(xí)收斂速度快。

雖然標(biāo)準(zhǔn)Q-學(xué)習(xí)算法利用環(huán)境模型較多的經(jīng)驗(yàn)知識(shí),縮短了機(jī)器人的學(xué)習(xí)周期,但是在線完善環(huán)境模型消耗較長(zhǎng)時(shí)間。而本文提出的基于情感模型的Q-學(xué)習(xí)算法充分利用了情感決策,使機(jī)器人在線學(xué)習(xí)過(guò)程中動(dòng)作的選擇由情感因素調(diào)控,而非單純的知識(shí)推理和邏輯判斷方法,加快了機(jī)器人在線完善環(huán)境模型的收斂速度。

5 結(jié)語(yǔ)

本文在基于環(huán)境模型的Q-學(xué)習(xí)算法基礎(chǔ)上引入情感行為決策,通過(guò)利用人類(lèi)情感產(chǎn)生的趨利避害生存機(jī)理,來(lái)強(qiáng)化執(zhí)行任務(wù)過(guò)程中有利的經(jīng)驗(yàn)信息,加快機(jī)器人在線完善環(huán)境模型的收斂速度。此外,降低了機(jī)器人在龐大的求解空間中盲目試錯(cuò)的次數(shù),縮短了機(jī)器人的學(xué)習(xí)時(shí)間。實(shí)驗(yàn)仿真結(jié)果證明了該算法可以提高機(jī)器人的自主決策及學(xué)習(xí)能力,驗(yàn)證了該算法的有效性和實(shí)用性。將人工情感與人工智能相結(jié)合,設(shè)計(jì)出更智能化和擬人化的機(jī)器人,是智能及和諧機(jī)器人的發(fā)展趨勢(shì)。

[1]王志良.人工心理與人工情感[J].智能系統(tǒng)學(xué)報(bào),2006,1(1):38-43.

[2]王國(guó)江,王志良,楊國(guó)亮,等.人工情感研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006(11):7-11.

[3]張迎輝,林學(xué)誾.情感可以計(jì)算—情感計(jì)算綜述[J].計(jì)算機(jī)科學(xué),2008,35(5):5-8.

[4]Mochida T,Ishiguro A,Aoki T,et al.Behavior arbitration for autonomous mobile robots using emotion mechanisms[C]//IEEE/RSJ International Conference on Intelligent Robots&Systems 95 Human Robot Interaction&Cooperative Robots,1995:516-521.

[5]LeDoux J,Bemporad J R.The emotional brain[J].Journal of the American Academy of Psychoanalysis,1997,25(3):525-528.

[6]王為.基于情感計(jì)算的機(jī)器人學(xué)習(xí)系統(tǒng)研究[D].浙江:浙江工業(yè)大學(xué),2009.

[7]王飛,王志良,趙積春,等.基于隨機(jī)事件處理的情感建模研究[J].微計(jì)算機(jī)信息,2005(3):101-102.

[8]王雪松,程玉虎.機(jī)器學(xué)習(xí)理論方法及應(yīng)用[M].北京:科學(xué)出版社,2009:56-57.

[9]高陽(yáng),陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),2004,30(1):86-100.

[10]張汝波.提高強(qiáng)化學(xué)習(xí)速度的方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2001(22):38-40.

猜你喜歡
決策狀態(tài)機(jī)器人
為可持續(xù)決策提供依據(jù)
狀態(tài)聯(lián)想
決策為什么失誤了
生命的另一種狀態(tài)
堅(jiān)持是成功前的狀態(tài)
機(jī)器人來(lái)幫你
認(rèn)識(shí)機(jī)器人
機(jī)器人來(lái)啦
關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
湘贛邊秋收起義的決策經(jīng)過(guò)
四子王旗| 左贡县| 神木县| 宝应县| 麻城市| 营口市| 高雄市| 保靖县| 扎赉特旗| 仁布县| 兴化市| 凭祥市| 大化| 普洱| 长汀县| 龙山县| 麻城市| 仙游县| 金溪县| 金乡县| 武陟县| 宁南县| 察雅县| 自贡市| 晴隆县| 玉环县| 格尔木市| 桃江县| 宁津县| 锡林浩特市| 莆田市| 称多县| 武平县| 喀喇| 滕州市| 民和| 分宜县| 天门市| 莱西市| 周口市| 新乡市|