国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度增強(qiáng)學(xué)習(xí)的智能體行為演進(jìn)研究綜述

2017-10-16 23:37郭憲
中國(guó)新通信 2017年17期
關(guān)鍵詞:訓(xùn)練策略人工智能

郭憲

【摘要】 智能體行為演進(jìn)技術(shù)是人工智能方面一個(gè)新興且具有潛力的領(lǐng)域。隨著AlphaGo勝利,基于深度增強(qiáng)學(xué)習(xí)的智能體行為演進(jìn)技術(shù)被大量應(yīng)用。首先介紹深度增強(qiáng)學(xué)習(xí)的基本概念及原理,然后介紹當(dāng)前主流的智能體訓(xùn)練策略,著重分析單智能體提升以及多智能體協(xié)作問(wèn)題的解決方法并對(duì)其優(yōu)缺點(diǎn)進(jìn)行全面的闡述,最后在深入分析多智能體協(xié)作技術(shù)目前存在的問(wèn)題的基礎(chǔ)上,對(duì)未來(lái)發(fā)展趨勢(shì)進(jìn)行展望。

【關(guān)鍵詞】 智能體 行為演進(jìn) 人工智能 深度增強(qiáng)學(xué)習(xí) 訓(xùn)練策略

Overview of agent behaviors evolution based on deep reinforcement learning GUO Xian (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)

Abstract: agent behaviors evolution technology is a new and emerging field for artificial intelligence. With the victory of AlphaGo, agent behaviors evolution technology based on deep reinforcement learning has been widely used. Firstly, concepts and principles of deep reinforcement learning were introduced, then the current mainstream training strategies of multi-agent were discussed. This paper analyzed the solution to multi-agent cooperation problem and made an overview about their advantages and disadvantages.Finally, the direction of future work was proposed based on in-depth study of current multi-agent collaboration technology researches.

Key words: multiagent;artificial intelligence; deep reinforcement learning; training strategy; collaborative technology

引言

目前,單智能體的研究已取得了重大的進(jìn)展,包括下圍棋的AlphaGo[1]、打德州撲克的Libratus[2]以及用于醫(yī)療診斷的Watson[3]。但是,智能的提升一方面來(lái)自個(gè)體,另一方面群體交流、協(xié)作也是提升智能水平的重要手段;尤其針對(duì)人類(lèi)不擅長(zhǎng)的復(fù)雜問(wèn)題,多智能體協(xié)作、共同決策可能是個(gè)有效途徑[4],在電商、游戲、醫(yī)療健康等領(lǐng)域都有廣泛應(yīng)用前景。

如何訓(xùn)練機(jī)器人進(jìn)行相互協(xié)作,在對(duì)信息進(jìn)行高效整合利用的同時(shí),對(duì)敵對(duì)方機(jī)器人做出打擊和摧毀。在訓(xùn)練中,期望讓機(jī)器人根據(jù)對(duì)抗訓(xùn)練的動(dòng)態(tài)反饋,自我生成出一套應(yīng)對(duì)的智能體戰(zhàn)術(shù),配合彼此,完成戰(zhàn)役設(shè)想。

一、深度增強(qiáng)學(xué)習(xí)

1.1增強(qiáng)學(xué)習(xí)的基本理念架構(gòu)

目前,解決智能體行為演進(jìn)的基本思路是把這一問(wèn)題作為一個(gè)增強(qiáng)學(xué)習(xí)[5]問(wèn)題來(lái)解決。不同于分類(lèi)學(xué)習(xí)根據(jù)類(lèi)別結(jié)果評(píng)價(jià)智能體表現(xiàn),增強(qiáng)學(xué)習(xí)利用狀態(tài)下的環(huán)境反饋來(lái)改善自己的行為。一個(gè)增強(qiáng)學(xué)習(xí)問(wèn)題,一般可以被抽象為:在環(huán)境狀態(tài)s下尋求合理行為a,利用環(huán)境反饋r來(lái)做出修正。這里,狀態(tài)s是指隨著行動(dòng)發(fā)生,個(gè)體與相關(guān)區(qū)域所處的狀態(tài)(state);行為a是指在環(huán)境狀態(tài)s下,智能體所做出的對(duì)應(yīng)行為(action);反饋r是指智能體在環(huán)境s中做出行為a的評(píng)價(jià)激勵(lì)(reward)。在增強(qiáng)學(xué)習(xí)問(wèn)題中,智能體可以通過(guò)行為a來(lái)改變環(huán)境狀態(tài)s;提升手段利用評(píng)價(jià)反饋r來(lái)改變行為a;行為a和狀態(tài)s聯(lián)合起來(lái),決定對(duì)應(yīng)的反饋值r[6]。

二、智能體訓(xùn)練策略

基于環(huán)境反饋信息自主形成應(yīng)對(duì)策略,一直是智能體研究領(lǐng)域里的核心話題。在過(guò)去的一段時(shí)間中,計(jì)算能力不足和提升策略的限制使得這一領(lǐng)域一直缺乏根本性的進(jìn)展。近年來(lái),由于摩爾定律以及深度神經(jīng)網(wǎng)絡(luò)方法的應(yīng)用[9-11],硬件性能和提升算法有了長(zhǎng)足的進(jìn)步。隨著神經(jīng)網(wǎng)絡(luò)在增強(qiáng)學(xué)習(xí)任務(wù)中投入應(yīng)用,業(yè)界不斷發(fā)展出來(lái)一系列相對(duì)成熟的智能體訓(xùn)練策略。

2.1單智能體訓(xùn)練策略

到目前為止,滿(mǎn)足實(shí)踐檢驗(yàn)的單智能體策略演進(jìn)機(jī)理,可分為DQN (Deep Q Network, 深度Q值網(wǎng)絡(luò)) [12]和DDPG(Deep Deterministic Policy Gradient,深度決定策略梯度)[13]兩類(lèi)。為了加速神經(jīng)網(wǎng)絡(luò)收斂速度,兩者采用了逐步優(yōu)化的TD(Time Difference,時(shí)間差)方法[14-16]取代了整體優(yōu)化的MC(Monte-Carlo,蒙特卡洛)方法[17-18]。

DQN使用Q值網(wǎng)絡(luò)對(duì)步驟行為的逐步長(zhǎng)期回報(bào)進(jìn)行預(yù)計(jì),在有限離散的行動(dòng)策略中選取長(zhǎng)期回報(bào)最大的一個(gè)選項(xiàng);DDPG則在DQN的基礎(chǔ)上更進(jìn)一步,使用Actor-Critic(行動(dòng)-評(píng)價(jià))[19-20]的雙網(wǎng)絡(luò)架構(gòu)對(duì)智能體行動(dòng)策略進(jìn)行優(yōu)化:使用值網(wǎng)絡(luò)生成連續(xù)行動(dòng),使得策略總體長(zhǎng)期回報(bào)J最大;再使用Q值網(wǎng)絡(luò)對(duì)逐步長(zhǎng)期回報(bào)進(jìn)行實(shí)時(shí)評(píng)價(jià),以輔助對(duì)總體長(zhǎng)期回報(bào)J的更新優(yōu)化。DQN與DDPG方法作為單智能體行動(dòng)策略的基本訓(xùn)練方法,已經(jīng)在多種機(jī)器人的行為訓(xùn)練如機(jī)器臂取物[21]、機(jī)器腿行走[22]中起到了顯著的效果。DQN由于原理限制,能夠處理活動(dòng)速度固定的少數(shù)離散自由度的訓(xùn)練問(wèn)題;而DDPG由于原理上的優(yōu)勢(shì),能夠進(jìn)一步處理活動(dòng)速度變化的大量連續(xù)自由度的訓(xùn)練問(wèn)題。目前,業(yè)內(nèi)很多智能個(gè)體的訓(xùn)練方法正在從人為給定行為策略轉(zhuǎn)變?yōu)楦鶕?jù)反饋?zhàn)詣?dòng)生成的DQN乃至DDPG方法。因此,應(yīng)用DQN和 DDPG的自動(dòng)訓(xùn)練方法替代人為給定方法,解決多智能體問(wèn)題,被認(rèn)為有更大的前景和空間。

2.2多智能體訓(xùn)練策略

智能單體策略訓(xùn)練的進(jìn)展,使得關(guān)于智能群體協(xié)作訓(xùn)練的探討,變得日益重要。同時(shí),現(xiàn)實(shí)中的大量零和博弈[23-24]使得團(tuán)體間的對(duì)抗十分常見(jiàn)。由此,多智能體的協(xié)作問(wèn)題[25]應(yīng)運(yùn)而生。

相對(duì)于以往的單體環(huán)境問(wèn)題,這里探討的多智能體協(xié)作具有更高的復(fù)雜度:一方面在于智能團(tuán)體協(xié)同對(duì)抗相對(duì)于智能單體任務(wù),不但要考慮環(huán)境因素,還要考慮到己方、敵方、中立方的行動(dòng)和意圖;另一方面在于考慮個(gè)體行動(dòng)策略的以外,智能團(tuán)體間的神經(jīng)元網(wǎng)絡(luò)聯(lián)結(jié)模式[26]也應(yīng)納入考慮。

現(xiàn)有的多智能體協(xié)作方法,大都是2016之后提出的。CommNet(Communication Neural Net,交流神經(jīng)網(wǎng))[27]默認(rèn)智能體一定范圍內(nèi)的全聯(lián)結(jié),對(duì)多個(gè)同類(lèi)的智能體采用了同一個(gè)網(wǎng)絡(luò),用當(dāng)前態(tài)(隱態(tài))和交流信息得出下一時(shí)刻的狀態(tài),信息交流從利用隱態(tài)的均值得出。其優(yōu)點(diǎn)能夠根據(jù)現(xiàn)實(shí)位置變化對(duì)智能體聯(lián)結(jié)結(jié)構(gòu)做出自主規(guī)劃,而缺點(diǎn)在于信息采用均值過(guò)于籠統(tǒng),不能夠處理多個(gè)種類(lèi)的智能體。除此以外,RIAL(Reinforced Inter-agent Learning,增強(qiáng)智能體間學(xué)習(xí))[28]和DIAL(Differentiable Inter-agent Learning,差異智能體間學(xué)習(xí))[29]個(gè)體行為中采取了類(lèi)DQN的解決方式,在智能體間進(jìn)行單向信息交流,采用了單向環(huán)整體架構(gòu)[30]兩者的區(qū)別在于RIAL向一個(gè)智能體傳遞的是Q網(wǎng)絡(luò)結(jié)果中的極大值,DIAL則傳遞的是Q網(wǎng)絡(luò)的所有結(jié)果。在實(shí)驗(yàn)中,兩者均可以解決多種類(lèi)協(xié)同的現(xiàn)實(shí)問(wèn)題,且DIAL表現(xiàn)出了很好的抗信號(hào)干擾能力。但是,在處理非靜態(tài)環(huán)境的快速反應(yīng)問(wèn)題上,RIAL與DIAL的表現(xiàn)仍舊不足。借鑒之前CommNet和DIAL的研究,阿里巴巴團(tuán)隊(duì)為了解決多智能體的協(xié)作問(wèn)題,提出了使用BiCNet(Bidirectionally - Coordinated Nets,雙向協(xié)作網(wǎng)絡(luò))[31]決多智能體協(xié)作的方法。相較于之前的研究,BiCNet在個(gè)體行為上采取了DDPG取代DQN作為提升方法,在群體連接中采用了雙向循環(huán)網(wǎng)絡(luò)取代單向網(wǎng)絡(luò)進(jìn)行聯(lián)結(jié)。這一方法在DIAL的基礎(chǔ)上利用了雙向信息傳遞取代單向信息傳遞,在多種類(lèi)協(xié)同的基礎(chǔ)上一定程度上解決了快速反應(yīng)的問(wèn)題。然而,BiCNet的組織架構(gòu)思想仍舊沒(méi)有擺脫鏈狀拓?fù)浠蛘攮h(huán)狀拓?fù)浣Y(jié)構(gòu),且不具有動(dòng)態(tài)規(guī)劃能力,在現(xiàn)實(shí)實(shí)踐中會(huì)有很大問(wèn)題。在相互摧毀的真實(shí)戰(zhàn)術(shù)背景下,不具有動(dòng)態(tài)規(guī)劃能力的網(wǎng)絡(luò)中一點(diǎn)的破壞會(huì)導(dǎo)致所有經(jīng)過(guò)該點(diǎn)的所有信息交流徹底終止。在無(wú)恢復(fù)的前提下,鏈狀拓?fù)浜铜h(huán)狀拓?fù)鋵?duì)于網(wǎng)絡(luò)中的每一端點(diǎn)過(guò)分依賴(lài),導(dǎo)致少量幾點(diǎn)的破壞會(huì)對(duì)智能體交流網(wǎng)絡(luò)造成毀滅性影響,團(tuán)體被徹底拆分失去交流協(xié)同能力。

三、單智能體策略提升的基本方法

3.1深度Q值網(wǎng)絡(luò)DQN

3.1.1 DQN的基本方法

在策略的生成中,由于DDPG的神經(jīng)網(wǎng)絡(luò)能夠自主產(chǎn)生解,取代了在DQN的已知枚舉結(jié)果中選擇最大的值,DDPG彌補(bǔ)了DQN只能選擇有限離散行動(dòng)的不足,能夠解決連續(xù)策略生成的訓(xùn)練提升問(wèn)題。在處理對(duì)象自由度提升時(shí),所要做的僅僅是線性加寬μ和Q網(wǎng)絡(luò)的輸入層,而不是指數(shù)性地增加Q網(wǎng)絡(luò)輸入層中的行動(dòng)對(duì)應(yīng)項(xiàng)。在處理多復(fù)雜度問(wèn)題[32]和連續(xù)行動(dòng)策略的表現(xiàn)上,DDPG相較于DQN有著顯著的優(yōu)勢(shì)。

DQN和DDPG中的Q網(wǎng)絡(luò),因?yàn)殡x散枚舉和連續(xù)求解的區(qū)別,在形式上稍有不同,但兩種表述等價(jià)。DQN采用的是枚舉多個(gè)Q值,輸入層的是狀態(tài) ,輸出層是所有行動(dòng) 對(duì)應(yīng)的多個(gè)Q值 。DDPG的輸入層是狀態(tài) 和行動(dòng) ,輸出層是一個(gè)Q值 。兩者的區(qū)別僅僅是前者未定行動(dòng)但能有限枚舉,后者行動(dòng)既定允許連續(xù)變化。在其他方面,例如Bellman公式終止環(huán)節(jié)的處理以及神經(jīng)網(wǎng)絡(luò)反向傳播的方法,DQN和DDPG并不存在本質(zhì)上的差異。

四、多智能體協(xié)同問(wèn)題的解決方法

受到單智能體策略演進(jìn)方法的啟發(fā),當(dāng)前較先進(jìn)的多智能體協(xié)同問(wèn)題多采用DQN[12]或者DDPG[13]作為個(gè)體行動(dòng)策略,在此基礎(chǔ)上進(jìn)行個(gè)體間神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)與規(guī)劃。在多智能體協(xié)作問(wèn)題的研究中[33],相對(duì)主流的實(shí)現(xiàn)方法是2016年提出的CommNet[27]和DIAL(RIAL)[28],基于二者發(fā)展出的最新方法是2017年提出的BiCNet[31]。

4.1交流神經(jīng)網(wǎng)CommNet

4.1.1CommNet技術(shù)原理

CommNet(Communication Neural Net,交流神經(jīng)網(wǎng))是最早提出的一類(lèi)多體問(wèn)題解決方案,不同于為每一個(gè)個(gè)體分配一個(gè)不同的神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行決策,CommNet利用同一個(gè)網(wǎng)絡(luò)解決所有個(gè)體的行動(dòng)。在網(wǎng)絡(luò)中的每一層中,CommNet進(jìn)行了一次信息的范圍交互。而且每一層之間的輸入和輸出可以形成迭代關(guān)系[34]。

然而其缺點(diǎn)是只能處理同種智能體。CommNet在交流公式遞推中采取了平均值的形式,假設(shè)了所有智能體的權(quán)重相同。這其實(shí)意味著,CommNet描述的問(wèn)題默認(rèn)了智能體的一致性[35]。

4.2差異(增強(qiáng))智能體間學(xué)習(xí)

4.2.1 DIAL(RIAL)的基本方法

RIAL(Reinforced Inter-agent Learning,增強(qiáng)智能體間學(xué)習(xí))和DIAL(Differentiable Inter-agent Learning,差異智能體間學(xué)習(xí))是單智能體策略演進(jìn)方法DQN在多體問(wèn)題上擴(kuò)展。就具體進(jìn)步而言,RIAL和DIAL在智能個(gè)體的DQN步驟間構(gòu)建了網(wǎng)絡(luò)聯(lián)結(jié),使得智能體的DQN評(píng)價(jià)Q和行動(dòng)a對(duì)應(yīng)的最大Q做到了信息的單向共享。

RIAL和DIAL的思路是,將第i智能體中的步驟結(jié)果,輸出到i+1智能體的原始數(shù)據(jù)中,作為和si+1相同作用的一部分。DIAL將第i智能體諸多{Qk}作為信息進(jìn)行傳遞,RIAL僅僅將行動(dòng)對(duì)應(yīng)最大值maxQk進(jìn)行傳遞。

4.2.2 DIAL(RIAL)的優(yōu)劣

在實(shí)際的表現(xiàn)中,DIAL表現(xiàn)出了優(yōu)于RIAL的性質(zhì),這一方面是因?yàn)閭鬟f的信息更多,另一方面是因?yàn)镼網(wǎng)絡(luò)的全部結(jié)果體現(xiàn)了行動(dòng)的全部可能性,勝過(guò)某一個(gè)結(jié)果所內(nèi)含的可能性。DIAL相對(duì)RIAL在智能體間的信號(hào)傳遞過(guò)程中表現(xiàn)出極好的噪聲容忍性,對(duì)于傳遞信號(hào)添加的適當(dāng)噪聲,仍然能保證訓(xùn)練的正常進(jìn)行[36-37]。

不過(guò),DIAL(RIAL)在通信架構(gòu)上實(shí)際上采取了單向環(huán)狀的通信架構(gòu),而且動(dòng)態(tài)規(guī)劃能力不足??傃灾珼IAL解決了多種智能體協(xié)作的問(wèn)題,但是在處理快速變化環(huán)境上的表現(xiàn)不佳。另外,聯(lián)結(jié)結(jié)構(gòu)僵化脆弱,無(wú)法處理動(dòng)態(tài)強(qiáng)的問(wèn)題,無(wú)法耐受網(wǎng)絡(luò)架構(gòu)上的破壞,也是DIAL不足之處。

4.3雙向協(xié)作網(wǎng)絡(luò)BiCNet

4.3.1BiCNet的基本方法

BiCNet(Bidirectionally-Coordinated Nets, 雙向協(xié)作網(wǎng)絡(luò)),是迄今為止實(shí)現(xiàn)方法最為先進(jìn)的多智能體協(xié)同方法,結(jié)合了 CommNet和DIAL的優(yōu)點(diǎn),在能夠處理多種類(lèi)智能體協(xié)作問(wèn)題的同時(shí),在快速變化問(wèn)題的表現(xiàn)上有了提高。

BiCNet以雙向循環(huán)網(wǎng)絡(luò)(Bi-Directional RNN)[38]作為智能體間的聯(lián)結(jié)方式,這樣做一方面是為了在智能體間信息交互,另一方面是為了產(chǎn)生局域記憶。在智能個(gè)體的行動(dòng)策略上,BiCNet采用DDPG作為智能體的個(gè)體策略。這也就意味著B(niǎo)iCNet實(shí)際上使用了兩個(gè)網(wǎng)絡(luò)來(lái)處理多智能體訓(xùn)練問(wèn)題,μ網(wǎng)絡(luò)形成行動(dòng)策略[39Q網(wǎng)絡(luò)評(píng)價(jià)行動(dòng)??傮w來(lái)看,BiCNet的μ網(wǎng)絡(luò),在作用上等于DDPGμ網(wǎng)絡(luò)形成策略、雙向RNN進(jìn)行交流、智能體局域關(guān)聯(lián)進(jìn)行組織三者的有機(jī)組合。

4.3.2 BiCNet的優(yōu)劣

BiCNet的改進(jìn)之處在于使用了雙向循環(huán)網(wǎng)絡(luò)代替了單向網(wǎng)絡(luò),使得信息可以進(jìn)行雙向的交流。這樣使得智能體的信息交流速度變快,處理動(dòng)態(tài)問(wèn)題表現(xiàn)更好。同時(shí),BiCNet采用了DDPG而非DQN作為智能體個(gè)體策略,一方面能夠處理連續(xù)策略問(wèn)題,一方面復(fù)雜度有所降低。另外,又因?yàn)槠浔旧聿](méi)有做出一些特別的智能體假設(shè)限制,使得其對(duì)于多種類(lèi)智能體有處理能力。

五、結(jié)束語(yǔ)

現(xiàn)有多智能體協(xié)作方法大多具有的結(jié)構(gòu)脆弱以及組織僵化的弱點(diǎn)[40在網(wǎng)絡(luò)中,信息傳遞只能按照固有的智能體編號(hào)進(jìn)行傳遞:以1,2,…,i,…,I,1,…的順序往復(fù)循環(huán)。當(dāng)智能體數(shù)量增大時(shí),一次信息遍歷需要?dú)v經(jīng)比較長(zhǎng)的時(shí)間,在這段時(shí)間內(nèi)智能體狀態(tài)一旦大幅改變,會(huì)造成網(wǎng)絡(luò)失去實(shí)時(shí)性,進(jìn)而失效無(wú)法有效訓(xùn)練多智能體。這一問(wèn)題是單向環(huán)狀通信導(dǎo)致的,i+1對(duì)i的通信需要多種連接繞環(huán)一周,影響傳遞的速度可以想見(jiàn)是非常慢的。另外,如果環(huán)狀網(wǎng)絡(luò)上的某點(diǎn)出現(xiàn)問(wèn)題,通信序列在后的智能體將永遠(yuǎn)無(wú)法將信息傳給通信在前的智能體,智能體的交流徹底失效。

因此,在智能體連接的信息交換方面,信息交換網(wǎng)絡(luò)的端點(diǎn)和內(nèi)容,有很大的探討的空間。就具體而言,可以在BiCNet的DDPG方法基礎(chǔ)上,嘗試仿照DIAL(RIAL)中對(duì)DQN網(wǎng)絡(luò)做出的調(diào)整,為智能體內(nèi)部的 網(wǎng)絡(luò)和Q網(wǎng)絡(luò),提供更多種類(lèi)的交互信息,找尋對(duì)應(yīng)信息的提取源頭和最佳的輸出點(diǎn)。

綜上所述,為多智能體協(xié)作提供一種能夠耐受打擊破壞的有效聯(lián)結(jié)架構(gòu),并且為之提供一種動(dòng)態(tài)組織方式。使多智能體架構(gòu)能夠在高破壞烈度的戰(zhàn)場(chǎng)環(huán)境中保證有效運(yùn)轉(zhuǎn)并具有自我恢復(fù)、調(diào)配和規(guī)劃能力,是未來(lái)多智能體協(xié)作技術(shù)的研究重點(diǎn)。

參 考 文 獻(xiàn)

[1]田淵棟. 阿法狗圍棋系統(tǒng)的簡(jiǎn)要分析[J]. 自動(dòng)化學(xué)報(bào),2016,42(5):671-675.

[2] Matej Morav?ík,Martin Schmid,,Neil Burch,et al. DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker[J]. Science,2017,356 (6337):508

[3]Murthy Devarakonda, Ching-Huei Tsou. Automated Problem List Generation from Electronic Medical Records in IBM Watson[C]. Proceedings of the 27th Conference on Innovative Applications of Artificial Intelligence. 2015: 3942-3947.

[4] Burt Wilsker. A Study of Multi-Agent Collaboration Theories [R]. Information Science Institute,Research Report. 1996

[5] L. Busoniu, R. Babuska, B. De Schutter. A comprehensive survey of multiagent reinforcement learning[J]. IEEE Transactions on Systems Man & Cybernetics Part C,2008,38(2):156-172.

[6] 劉佳,陳增強(qiáng),劉忠信. 多智能體系統(tǒng)及其協(xié)同控制研究進(jìn)展[J]. 智能系統(tǒng)學(xué)報(bào),2010, 5(1):1-9.

[7]Christopher JCH Watkins,Peter Dayan. Q-learning[J]. Machine learning,1992,8(3-4):279-292,

[8]Hu J L, Wellman M P. Nash. Q-learning for general-sum stochastic games[J]. Journal of Machine Learning Research,2004,4(6):1039-1069.

[9]郭麗麗,丁世飛. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué). 2015,42(5):28-33.

[10] C. J. Maddison, A. Huang, I. Sutskever, et al. Move evaluation in go using deep convolutional neural networks[C]. ICLR. 2015.

[11]A. Tampuu, T. Matiisen, D. Kodelja, et al. Multiagent cooperation and competition with deep reinforcement learning[J]. Plos One,2017,12(4):e0172395.

[12]V. Mnih, K. Kavukcuoglu, D. Silver, et al. Playing Atari with deep reinforcement learning[C]. In Deep Learning, Neural Information Processing Systems Workshop. 2013.

[13] TP. Lillicrap,JJ. Hunt, A. Pritzel. Continuous control with deep reinforcement learning[C]. ICLR. 2016

[14]Jordan B. Pollack,Alan D. Blair. Why did td-gammon work[C]. International Conference on Neural Information Processing Systems. 1996,10-16.[15]Gerald Tesauro. Temporal difference learning and td-gammon[J]. Communications of the ACM,1995,38(3):58-68.

[16] J. Schmidhuber. Deep learning in neural networks: An overview[J]. Neural Networks,2014,61-85.

[17]L. Kocsis,C. Szepesvari. Bandit based Monte-Carlo planning[C]. European Conference on Machine Learning,2006:282-293.

[18] X. Guo, S. Singh, H. Lee. Deep learning for real-time atari game play using offline monte-carlo tree search planning[C]. NIPS. 2014

[19]Xin Xu, Chunming Liu, Dewen Hu. Continuous-action reinforcement learning with fast policy search and adaptive basis function selection[J]. Soft Computing - A Fusion of Foundations, Methodologies and Applications,2011,15(6):1055-1070.

[20]陳興國(guó), 高陽(yáng), 范順國(guó). 基于核方法的連續(xù)動(dòng)作Actor-Critic學(xué)習(xí)[J]. 模式識(shí)別與人工智能, 2017,27(2):103-110.

[21]祁若龍,周維佳,王鐵軍. 一種基于遺傳算法的空間機(jī)械臂避障軌跡規(guī)劃方法[J]. 機(jī)器人, 2014 , 36 (3) :263-270.

[22]任陳俊. 基于機(jī)器視覺(jué)的場(chǎng)景目標(biāo)檢測(cè)與分類(lèi)研究[D]. 杭州:杭州電子科技大學(xué),2016.

[23]黎萍,楊宜民. 基于博弈論的多機(jī)器人系統(tǒng)任務(wù)分配算法[J]. 計(jì)算機(jī)應(yīng)用研究,2013,30(2):392-395.

[24]葉曄,岑豫皖,謝能剛. 基于博弈論的多移動(dòng)機(jī)器人聚集任務(wù)路徑規(guī)劃[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009,45(06):216-218.

[25]段勇,徐心和. 基于多智能體強(qiáng)化學(xué)習(xí)的多機(jī)器人協(xié)作策略研究[J]. 系統(tǒng)工程理論與實(shí)踐,2014,34(5):1305-1310.

[26]D. Maravall, J. De Lope, R. Domnguez. Coordination of communication in robot teams by reinforcement learning[J]. Robotics and Autonomous Systems,2013,61(7):661-666.

[27] S. Sukhbaatar, A. Szlam, R. Fergus. Learning Multiagent Communication with Backpropagation[C]. NIPS. 2016

[28]JN Foerster , YM Assael , ND Freitas. Learning to Communicate with Deep Multi-Agent Reinforcement Learning[C]. NIPS. 2016

[29]S. Ioffe,C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]. ICML,2015:448-456.

[30] F. S. Melo, M. Spaan, S. J. Witwicki. QueryPOMDP: POMDP-based communication in multiagent systems[C]. European Conference on Multi-agent Systems,2011,7541 :189-204.

[31] Peng Pengy, Quan Yuany, YingWen.Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games[EB/OL].https://arxiv. org/abs/1703.10069,2017-03-29.

[32] Angeliki Lazaridou, Alexander Peysakhovich, Marco Baroni. Multi-agent cooperation and the emergence of (natural) language[EB/OL].https://arxiv. org/abs/1612.07182,2017-03-05.

[33] Caroline Claus,Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems[C]. AAAI/IAAI, 1998:746-752.

[34]Y. Li, D. Tarlow, M. Brockschmidt, et al. Gated graph sequence neural networks. ICLR, 2015

[35]袁坤. 多智能體網(wǎng)絡(luò)一致性問(wèn)題的分布式算法研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué),2014.

[36]M. Courbariaux,Y. Bengio. BinaryNet: Training deep neural networks with weights and activations constrained to +1 or -1[EB/OL]. https://arxiv.org/ abs/1602.02830,2016-03-17.

[37] G. Hinton,R. Salakhutdinov.Discovering binary codes for documents by learning deep generative models[J]. Topics in Cognitive Science,2011,3(1):74-91.

[38]Mike Schuster,Kuldip K Paliwal.Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

[39]Nicolas Usunier, Gabriel Synnaeve,Zeming Lin, et al. Episodic exploration for deep deterministic policies: An application to starcraft micromanagement tasks[EB/OL].https://arxiv.org/abs/1609.02993,2016-11-26.

[40] Long-Ji Lin. Reinforcement learning for robots using neural networks[R]. Technical report, DTIC Document, 1993.

猜你喜歡
訓(xùn)練策略人工智能
人工智能之父
2019:人工智能
人工智能與就業(yè)
數(shù)讀人工智能
核心力量在短跑運(yùn)動(dòng)中的作用及其訓(xùn)練策略
淺議初中英語(yǔ)聽(tīng)力障礙及訓(xùn)練策略
下一幕,人工智能!
下一幕,人工智能!
高職選修課《演講與口才》訓(xùn)練策略與原則探析
高三體育特長(zhǎng)生田徑訓(xùn)練的策略
沙田区| 托克托县| 霍城县| 黄骅市| 秀山| 乐昌市| 尤溪县| 汉中市| 武强县| 郧西县| 延长县| 右玉县| 罗源县| 卫辉市| 石屏县| 元阳县| 旺苍县| 盐源县| 衡阳县| 桐城市| 大城县| 马关县| 定南县| 屯留县| 城固县| 鱼台县| 大庆市| 夏河县| 扶沟县| 谢通门县| 榆树市| 咸丰县| 澄江县| 辽阳市| 晋江市| 石狮市| 高密市| 郑州市| 霍林郭勒市| 苏尼特左旗| 二连浩特市|