国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度強(qiáng)化學(xué)習(xí)在智能制造中的應(yīng)用展望綜述

2021-01-22 05:59孔松濤劉池池
計算機(jī)工程與應(yīng)用 2021年2期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)深度函數(shù)

孔松濤,劉池池,史 勇,謝 義,王 堃

重慶科技學(xué)院 機(jī)械與動力工程學(xué)院,重慶401331

以人工智能為代表的第四次科技革命取得了眾多成果,眾多行業(yè)正進(jìn)行著智能化的轉(zhuǎn)變。機(jī)器學(xué)習(xí)領(lǐng)域的深度學(xué)習(xí)(Deep Learning,DL)[1],已經(jīng)能實(shí)現(xiàn)圖像識別[2]、音頻識別[3]、自然語言處理[4]等功能,出色體現(xiàn)深度學(xué)習(xí)在信息感知方面的能力[5]。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)[6]是人工智能的另一發(fā)展成果,含義是讓智能體在訓(xùn)練中根據(jù)得到的獎勵和懲罰不斷學(xué)習(xí),最終根據(jù)學(xué)習(xí)經(jīng)驗(yàn)做出高水平?jīng)Q策。目前在機(jī)器控制、機(jī)器人等領(lǐng)域應(yīng)用廣泛[7]。人工智能的發(fā)展目標(biāo)是實(shí)現(xiàn)具有觀察環(huán)境信息、獨(dú)立思考決策的智能體(Agent)[8],智能體不僅需要智能提取信息,還需要做出智能決策,并且可以積累經(jīng)驗(yàn),保持學(xué)習(xí)的能力。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[8]是實(shí)現(xiàn)這一目標(biāo)的理論基礎(chǔ),DRL作為人工智能的最新成果之一,功能強(qiáng)大且發(fā)展迅速。人工智能的眾多工作領(lǐng)域,如無人駕駛和智能流程控制,要實(shí)現(xiàn)智能體獨(dú)立完成觀察到動作的完整工作流程,單一的DL 或者RL 都對此無能為力,兩者結(jié)合才能完成任務(wù)。

DRL 的控制水平在很多領(lǐng)域的表現(xiàn)不輸人類甚至超越人類。阿爾法狗(AlphaGo)戰(zhàn)勝職業(yè)棋手李世石,顯示了智能體強(qiáng)大的學(xué)習(xí)能力。DRL 可以無監(jiān)督的情況下獨(dú)立學(xué)習(xí),可以學(xué)習(xí)人類專家的經(jīng)驗(yàn),最終達(dá)到專家水平,甚至在某些方面超越人類。與人腦相比,計算機(jī)在連續(xù)控制中穩(wěn)定性更高。以無人駕駛為例,智能體可以杜絕人類駕駛員的主觀錯誤,如疲勞、酒駕、分神等潛在事故因素。成熟的無人駕駛技術(shù)可降低事故率、保障交通安全,對于維護(hù)人民生命財產(chǎn)安全具有重要意義[9]。除了控制水平,在經(jīng)驗(yàn)遷移方面,智能體也更有優(yōu)勢。智能體能通過直接的復(fù)制模型、數(shù)據(jù)分享等,完成批量的經(jīng)驗(yàn)傳遞。對于不同的設(shè)備和控制流程,只要有一定的相似性,都可以進(jìn)行經(jīng)驗(yàn)遷移。遷移學(xué)習(xí)[10]為這種經(jīng)驗(yàn)復(fù)制提供了理論支撐,并產(chǎn)生了新的研究方向。

除了無人駕駛方面的應(yīng)用,DRL 在計算機(jī)博弈、人機(jī)交互、機(jī)器人控制、文本生成等領(lǐng)域,都表現(xiàn)出較強(qiáng)的學(xué)習(xí)能力。

智能制造是由智能機(jī)器和人類專家組成的人機(jī)集成智能系統(tǒng),它可以在制造過程中進(jìn)行分析、推理、判斷、概念和決策等智能活動[11]。在智能制造中,DRL 可用于建立自學(xué)習(xí)、自適應(yīng)、高效的智能機(jī)器。隨著DRL算法的發(fā)展和應(yīng)用,越來越多的生產(chǎn)過程通過智能機(jī)器實(shí)現(xiàn),真正實(shí)現(xiàn)無人化和規(guī)?;a(chǎn)。深度強(qiáng)化學(xué)習(xí)的算法研究和在智能制造中應(yīng)用研究,對人類跨入智能制造時代具有重要意義。

1 深度強(qiáng)化學(xué)習(xí)的基本原理

1.1 深度學(xué)習(xí)

深度學(xué)習(xí)(Deep Learning,DL)是神經(jīng)網(wǎng)絡(luò)、人工智能、圖形建模、優(yōu)化、模式識別和信號處理等研究領(lǐng)域的交叉領(lǐng)域。深度學(xué)習(xí)的提出受到視覺機(jī)理啟發(fā),2006年,Hinton提出的一種稱為深度置信網(wǎng)絡(luò)的深度學(xué)習(xí)模型,揭開了深度學(xué)習(xí)發(fā)展的序幕。2012 年Hilton 團(tuán)隊(duì)提出的AlexNet 模型在Imagenet 競賽中取得冠軍[12],帶來了深度學(xué)習(xí)的發(fā)展熱潮。深度學(xué)習(xí)提高了計算機(jī)對高緯度信息的提取能力,在此基礎(chǔ)上完成分類、識別等工作。

深度學(xué)習(xí)在信息提取方面的強(qiáng)大能力,主要是通過多層神經(jīng)網(wǎng)絡(luò)內(nèi)部的非線性變換實(shí)現(xiàn)的[1]。在深度強(qiáng)化學(xué)習(xí)算法中,目前主要有基于卷積神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)和基于遞歸神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí),分別代表卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的結(jié)合。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在計算機(jī)視覺應(yīng)用有突出表現(xiàn),是近年來深度學(xué)習(xí)發(fā)展的熱門。在圖像處理時,網(wǎng)絡(luò)通過層層計算,提取圖像信息并對圖像信息降維,實(shí)現(xiàn)對圖像信息的計算機(jī)語言映射。常用的卷積神經(jīng)網(wǎng)絡(luò)有LeNet[13]、AlexNet[14]、VggNet[15]、ResNet[16]等。

遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)在自然語言處理中有突出應(yīng)用,是一種擁有“記憶能力的神經(jīng)網(wǎng)絡(luò)”。遞歸神經(jīng)網(wǎng)絡(luò)雖然擁有這種“短期記憶”的優(yōu)勢,但也存在不足,比如梯度消失和梯度爆炸帶來的影響[17];網(wǎng)絡(luò)訓(xùn)練每一步都保留前面每一步的價值信息,而不是最近的和關(guān)系最大的。為了改善這些問題,Hochreiter 等[18]提出了長短期記憶網(wǎng)絡(luò),通過增加線性干擾,讓網(wǎng)絡(luò)對信息選擇性地增加或減少,比如降低對較遠(yuǎn)信息的權(quán)重,增加關(guān)系強(qiáng)的信息權(quán)重。對于遞歸神經(jīng)網(wǎng)絡(luò)只向前反饋,目前狀態(tài)只依賴前面的輸出,而忽視了后面的影響,為了解決這個問題,Schuster等[19]提出了雙向遞歸網(wǎng)絡(luò),可以對兩個方向進(jìn)行學(xué)習(xí)。

1.2 強(qiáng)化學(xué)習(xí)

1.2.1 強(qiáng)化學(xué)習(xí)與馬爾科夫決策過程

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的決策過程是智能體(Agent)與環(huán)境交互做出的馬爾科夫決策過程。其過程為智能體根據(jù)環(huán)境即時狀態(tài)St,為了獲得環(huán)境反饋給智能體的最大獎勵,做出智能體認(rèn)為的最優(yōu)動作a,其獎勵依據(jù)是,采取動作a 之后的狀態(tài)St+1的價值Rt(St,at,St+1),再加上后續(xù)所有可能采取的動作和導(dǎo)致的狀態(tài)的價值乘以一個折扣因子γ,求得的累積獎勵Gt為:

其中折扣因子γ 用于削減遠(yuǎn)期決策對應(yīng)的獎勵權(quán)重,原因是離當(dāng)前狀態(tài)越遠(yuǎn),不確定性就越高,決策最終目標(biāo)是為了達(dá)到目標(biāo)狀態(tài)并實(shí)現(xiàn)累積獎勵最大化。強(qiáng)化學(xué)習(xí)的基本構(gòu)架如圖1所示。

圖1 強(qiáng)化學(xué)習(xí)基本框架

強(qiáng)化學(xué)習(xí)根據(jù)模型是否已知,可以分為基于模型的強(qiáng)化學(xué)習(xí)(Model-Based Reinforcement Learning,Model-Based RL)和無模型強(qiáng)化學(xué)習(xí)(Model-Free Reinforcement Learning,Model-Free RL)。兩種強(qiáng)化學(xué)習(xí)方法各有優(yōu)勢,基于模型的強(qiáng)化學(xué)習(xí)擁有較高的學(xué)習(xí)效率,最典型的就是AlphaGo和AlphaZero。但大多數(shù)實(shí)際控制領(lǐng)域都是未知復(fù)雜環(huán)境,在模型未知的情況下完成控制任務(wù),因此應(yīng)用較多的是無模型強(qiáng)化學(xué)習(xí)。

1.2.2 價值函數(shù)

對于連續(xù)控制環(huán)境,狀態(tài)信息非常巨大,無法對每一個狀態(tài)和行為都采用查表式的方法存儲每個狀態(tài)和行為的價值。強(qiáng)化學(xué)習(xí)解決此類問題需要引入適當(dāng)?shù)膮?shù),恰當(dāng)?shù)剡x取描述狀態(tài)的特征,通過構(gòu)建一定的函數(shù),來近似計算得到狀態(tài)或行為價值。連續(xù)控制中這些由特征描述的狀態(tài),通過近似價值函數(shù)計算價值,而不必存儲每一個狀態(tài)的價值,大大提高了算法效率。帶參數(shù)的價值函數(shù),確定參數(shù)才能確定價值函數(shù),參數(shù)求解多采用梯度下降法訓(xùn)練求解,例如經(jīng)典的強(qiáng)化學(xué)習(xí)算法:深度Q學(xué)習(xí)。

基于價值的強(qiáng)化學(xué)習(xí)存在一些不足:在空間規(guī)模龐大和連續(xù)行為的狀況下不適用;對隨機(jī)策略的求取能力差,無法單獨(dú)應(yīng)付連續(xù)動作問題,導(dǎo)致強(qiáng)化學(xué)習(xí)的學(xué)習(xí)能力差。

1.2.3 策略函數(shù)

解決連續(xù)控制問題可以進(jìn)行策略的直接學(xué)習(xí),即將策略看成是狀態(tài)和行為的帶參數(shù)的策略函數(shù)。通過建立恰當(dāng)?shù)哪繕?biāo)函數(shù),利用智能體與環(huán)境的交互產(chǎn)生的獎勵,學(xué)習(xí)策略函數(shù)的參數(shù)?;诓呗院瘮?shù)的強(qiáng)化學(xué)習(xí)可以省略對狀態(tài)的價值的學(xué)習(xí)過程,針對連續(xù)行為空間可以直接產(chǎn)生具體的行為值。

基于策略的強(qiáng)化學(xué)習(xí)存在的最明顯的缺點(diǎn)是:在一些復(fù)雜問題的求解中,計算難度大,迭代時間過長。

1.2.4 演員評論家方法

Actor-Critic算法是基于價值函數(shù)和策略函數(shù),分別創(chuàng)建網(wǎng)絡(luò)?;诓呗院瘮?shù)的網(wǎng)絡(luò),代替策略函數(shù)充當(dāng)演員(Actor),產(chǎn)生行為與環(huán)境進(jìn)行交互;基于價值函數(shù)的網(wǎng)絡(luò),代替行為價值函數(shù)充當(dāng)評論家(Critic),評價演員的表現(xiàn),并指導(dǎo)演員的后續(xù)動作。這種算法一方面基于價值函數(shù)進(jìn)行策略評估和優(yōu)化,另一方面優(yōu)化的策略函數(shù)又會使價值函數(shù)更加準(zhǔn)確地反應(yīng)狀態(tài)的價值,兩者互相促進(jìn)最終得到最優(yōu)策略。

2 深度強(qiáng)化學(xué)習(xí)主要算法

深度強(qiáng)化學(xué)習(xí)的主要算法有兩種類型:基于值函數(shù)的DRL和基于策略梯度的DRL。主要算法如表1所列。

2.1 深度Q學(xué)習(xí)算法及其改進(jìn)

深度Q網(wǎng)絡(luò)[25](Deep Q-Network,DQN)是基于使用卷積神經(jīng)網(wǎng)絡(luò)來代替強(qiáng)化學(xué)習(xí)的近似價值函數(shù),原理是:利用神經(jīng)網(wǎng)絡(luò)的非線性表示能力,表示出某一確定環(huán)境下所有可能行為及其對應(yīng)的價值。參數(shù)Q(s,a)是針對特定狀態(tài)產(chǎn)生的狀態(tài)行為價值對,其中s 表示狀態(tài),a 表示行為。DQN算法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò),替換對非線性函數(shù)的參數(shù)的求解。DQN算法的核心是目標(biāo)函數(shù)、目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回放,使DQN算法較好地學(xué)習(xí)得到強(qiáng)化學(xué)習(xí)任務(wù)的價值函數(shù)。

DQN算法使用一個權(quán)重參數(shù)為θ 的深度卷積神經(jīng)網(wǎng)作為動作值函數(shù)的網(wǎng)絡(luò)模型,通過該模型Q(s,a,θ)模擬動作值函數(shù)Qπ(s,a),即:

DQN 使用均方誤差(Mean-square Error)定義目標(biāo)函數(shù),作為深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù),公式為:

式中,參數(shù)s′和a′為下一時間步的狀態(tài)和動作,γ 為折扣因子。該目標(biāo)Q值使用目標(biāo)網(wǎng)絡(luò)(Target Net)進(jìn)行預(yù)測,而當(dāng)前Q 值使用預(yù)測網(wǎng)絡(luò)(Predict Net)進(jìn)行預(yù)測,使用均方誤差計算Q-learning的時間差分誤差。計算網(wǎng)絡(luò)模型參數(shù)θ 的梯度公式為:

式中,i 代表迭代次數(shù)。DQN使用小批量隨機(jī)梯度下降法實(shí)現(xiàn)網(wǎng)絡(luò)模型對目標(biāo)函數(shù)的優(yōu)化。每產(chǎn)生一個行為a 和環(huán)境實(shí)際交互后,神經(jīng)網(wǎng)絡(luò)都會進(jìn)行一次學(xué)習(xí)并更新一次參數(shù)。

DQN 算法可以通過Q 值實(shí)現(xiàn)對環(huán)境的端對端控制,在Atari2600游戲中取得超越人類的成績[26]。其主要不足為:不能保證一直收斂,因?yàn)檫@種估計目標(biāo)值的算法過于樂觀,高估了一些情況下的最優(yōu)值,導(dǎo)致算法將次優(yōu)行為價值認(rèn)定為最優(yōu)行為價值。后續(xù)對DQN的改進(jìn)方法中,根據(jù)側(cè)重點(diǎn)的不同,改進(jìn)方向可以分為:改進(jìn)訓(xùn)練算法、改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)學(xué)習(xí)機(jī)制、新提出RL算法這四大類,不少改進(jìn)方法在解決舊問題的同時,也帶來了新問題。比如:Van Hasselt等提出雙價值網(wǎng)絡(luò)的DDQN[27]被認(rèn)為較好地解決了價值高估問題,但帶來了新的價值低估問題,還需要進(jìn)一步的研究。Anschel等[28]提出平均DQN,基于過去一定步數(shù)學(xué)習(xí)的Q值的平均,再取最大值作為新的目標(biāo)值,這種方法提高了穩(wěn)定性,在眾多游戲測試中優(yōu)于DQN 和DDQN,但也帶來了訓(xùn)練時間大、成本高的問題。DQN 算法和主要擴(kuò)展及其所屬方法分類如表2所示。

除了在游戲控制方面,DQN 及其擴(kuò)展算法在其他連續(xù)控制領(lǐng)域中有很多應(yīng)用嘗試。Liu等[37]提出一種基于DQN 的無人機(jī)空戰(zhàn)智能決策方法,采用Q 網(wǎng)絡(luò)實(shí)現(xiàn)動作值函數(shù)的精確擬合,仿真結(jié)果證明了DNQ 算法在行為與獎勵兩方面都有突出表現(xiàn);Huang 等[38]設(shè)計了一種DQN 算法來優(yōu)化無人機(jī)的導(dǎo)航與路線,數(shù)值結(jié)果表明,設(shè)計的DQN導(dǎo)航可以給出較好的測量;Sharma等[39]提出一種基于視覺的DQN算法來控制四旋翼無人機(jī)的自主著陸,模擬結(jié)果表明,僅需低分辨率的相機(jī)就能實(shí)現(xiàn)著陸,在某些狀況下優(yōu)于人類駕駛員。Ao[40]提出了一種基于DQN(Deep Q-learning Network)的熱過程控制方法,通過設(shè)計的DQN 控制器的水箱水位控制系統(tǒng)仿真實(shí)驗(yàn)證明,DQN 算法可以很好地應(yīng)用于熱過程控制。可預(yù)見,DQN及其改進(jìn)型號,將會在更多控制領(lǐng)域得到實(shí)際應(yīng)用,但這些控制任務(wù),過于依賴狀態(tài)控制,尤其是最終狀態(tài),所以這些應(yīng)用還停留在實(shí)驗(yàn)階段。

表1 主要深度強(qiáng)化學(xué)習(xí)算法分類

表2 DQN算法的改進(jìn)算法、解決問題和實(shí)驗(yàn)驗(yàn)證結(jié)果

DQN 算法實(shí)現(xiàn)了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合,對深度強(qiáng)化學(xué)習(xí)的發(fā)展有重要意義。但DQN算法及其改進(jìn)類型在實(shí)際應(yīng)用中存在不足:無法處理連續(xù)動作控制任務(wù)。

2.2 基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法

2.2.1 深度確定性策略梯度算法及其改進(jìn)

深度確定性策略梯度(DDPG)算法是基于深度學(xué)習(xí)、DQN 算法、Actor-Critic 網(wǎng)絡(luò)的確定性策略算法,2016 年DeepMind 團(tuán)隊(duì)首次提出。相對于DPG,DDPG的核心改變是采用深度神經(jīng)網(wǎng)絡(luò)建立Actor 和Critic 的近似價值函數(shù),并使用深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò),Actor網(wǎng)絡(luò)直接生成確定的行為,Critic網(wǎng)絡(luò)評估策略的優(yōu)劣。DDPG具有更高的學(xué)習(xí)效率,將復(fù)雜的控制問題直接與策略行為掛鉤,是目前應(yīng)用于復(fù)雜、連續(xù)控制的重要算法。

DDPG 結(jié)合了之前算法的優(yōu)點(diǎn),特別是DQN 的改進(jìn)方案,具有更高的學(xué)習(xí)效率,將復(fù)雜的控制問題直接與策略行為掛鉤,應(yīng)用領(lǐng)域有:機(jī)器人控制、自動駕駛、無人機(jī)等。Casas[41]使用DDPG優(yōu)化控制交通信號燈,將區(qū)域而非單獨(dú)路口車輛檢測器的信息當(dāng)作輸入,智能處理交通信號燈問題,改善了各個路口信號燈固定不變引起的交通不協(xié)調(diào)問題;Phaniteja 等[42]使用DDPG 進(jìn)行具有27 個自由度的機(jī)器人保持平衡的關(guān)節(jié)空間軌跡訓(xùn)練;Do等[43]開發(fā)的機(jī)器人澆筑實(shí)驗(yàn),在避免碰撞和傾灑的情況下將液體倒入指定高度。應(yīng)用較多還有無人駕駛領(lǐng)域,眾多的無人汽車與無人飛行器基于DDPG進(jìn)行使用,也在實(shí)際應(yīng)用中推動DDPG的發(fā)展。

DDPG 最重要的突破就是在解決連續(xù)控制問題上具有較高效率,缺點(diǎn)有訓(xùn)練時間過長、訓(xùn)練數(shù)據(jù)需求大、訓(xùn)練初期的學(xué)習(xí)策略不穩(wěn)定等。

Houn等[44]提出一種基于知識的DDPG算法(Knowledgedriven Deep Deterministic Policy Gradient,KDDPG),能夠在沒有大量數(shù)據(jù)的情況下,較穩(wěn)定地讓機(jī)器人完成裝配學(xué)習(xí)。Zheng等[45]提出一種自適應(yīng)雙引導(dǎo)DDPG算法(Self-Adaptive Double Bootstrapped DDPG,SOUP),將一根DDPG算法擴(kuò)展到多個演員評論即架構(gòu),通過多對搭配使用的演員和評論家,學(xué)習(xí)多個策略并評估,從而得到更高的學(xué)習(xí)效率。Zhang等[46]針對DDPG算法訓(xùn)練數(shù)據(jù)需求大、訓(xùn)練效率低的問題,提出了異步章節(jié)式DDPG(Asynchronous Episodic DDPG,AE-DDPG),AE-DDPG 中的智能體可以同時與多個隨機(jī)環(huán)境交互,從而實(shí)現(xiàn)很高的數(shù)據(jù)吞吐量,并采用情景控制思維[47]重新設(shè)計DDPG的經(jīng)驗(yàn)回放,使智能體能夠快速鎖定高回報政策。

2.2.2 優(yōu)勢函數(shù)

優(yōu)勢函數(shù)是衡量一個動作帶來的回報的重要手段,是計算A3C算法、TRPO算法的重要組成。已知Q值函數(shù)Qπ(St,at)和狀態(tài)值函數(shù)Aπ(St),優(yōu)勢函數(shù)Aπ(s,a)的計算公式為:

值函數(shù)V(s)可以理解為在該狀態(tài)下所有可能動作所對應(yīng)的動作值函數(shù)乘以采取該動作的概率之和。動作值函數(shù)Q(s,a)是單個動作所對應(yīng)的值函數(shù),Qπ(s,a)-Vπ(s)能評價當(dāng)前動作值函數(shù)相對于平均值的大小。這里的優(yōu)勢值指的是動作值函數(shù)相對于當(dāng)前狀態(tài)的值函數(shù)的優(yōu)勢。如果優(yōu)勢函數(shù)大于零,則說明該動作比平均動作好,如果優(yōu)勢函數(shù)小于零,這說明當(dāng)前動作還不如平均動作好。

2.2.3 信賴域策略優(yōu)化算法及其改進(jìn)

策略梯度的方法存在問題:不能保證得到合適的步長使學(xué)習(xí)最有效,方法迭代的效果受步長影響較大,如步長太小,訓(xùn)練效率太低,如步長過大,噪聲影響反饋信號,學(xué)到的可能是更壞的策略。找到合適的步長,保證學(xué)習(xí)效果最起碼不會變差,即保證策略更新后的回報函數(shù)單調(diào)遞增,John Schulman 提出了信任域策略優(yōu)化方法(Trust Region Policy Optimization,TRPO)。

TRPO 算法最大的優(yōu)勢在于確保策略模型在優(yōu)化模型時單調(diào)提升,穩(wěn)定地改進(jìn)策略。TRPO算法的核心思想是建立在優(yōu)勢函數(shù)上,主要支撐是找到一種衡量策略之間優(yōu)劣的計算方法,并以此為目標(biāo)最大化新策略和舊策略相比的優(yōu)勢。單調(diào)提升算法的整體思路簡單,但具體的設(shè)計和計算非常復(fù)雜。

TRPO 算法最大的優(yōu)點(diǎn)是能保證策略始終朝著好的方向持續(xù)更新,缺點(diǎn)主要有:計算過程復(fù)雜、對策略與環(huán)境的交互依賴大、缺乏步長選擇準(zhǔn)則。

Jha等[48]針對TRPO算法步長選取準(zhǔn)則不足、收斂速度慢等缺點(diǎn),提出準(zhǔn)牛頓信賴域策略優(yōu)化算法(Quasi-Newton Trust Region Policy Optimization,QNTRPO),QNTRPO 與TRPO 的主要不同在于每次策略迭代的計算步驟,QNTRPO在相同的計算成本下比TRPO有更大的計算速度;Gupta等[49]提出一種合作強(qiáng)化學(xué)習(xí)算法,將信賴域策略優(yōu)化算法擴(kuò)展到大型智能體控制任務(wù),可以讓幾十個、數(shù)百個智能體合作來完成任務(wù),并可以在連續(xù)動作空間縮放,稱為PS-TRPO。實(shí)驗(yàn)證明,PS-TRPO算法在多智能體協(xié)同領(lǐng)域,比DQN 和DDPG 擁有更多優(yōu)勢。根據(jù)PS-TRPO 算法開發(fā)的三個智能體學(xué)習(xí)系統(tǒng),在連續(xù)動作空間也有很好的表現(xiàn);為提高TRPO 在稀疏獎勵的強(qiáng)化學(xué)習(xí)中的表現(xiàn),Zhang 等[50]提出了后見信任區(qū)域策略優(yōu)化算法(Hindsight Trust Region Policy Optimization,HTRPO),HTRPO使用二次KL估計逼近,減少方差,提高學(xué)習(xí)穩(wěn)定性,設(shè)計了后知目標(biāo)過濾機(jī)制,縮小后知目標(biāo)空間與原始目標(biāo)空間的差異,獲得更好的學(xué)習(xí)效果。HTRPO 在一些離散和連續(xù)的控制任務(wù),比TRPO有更強(qiáng)的學(xué)習(xí)能力。

Schulman 等[51]在TRPO 算法基礎(chǔ)上提出了最近策略優(yōu)化算法(Proximal Policy Optimization,PPO),與TRPO 算法最大的不同是PPO 算法可以實(shí)現(xiàn)多個時期的小批量更新,實(shí)現(xiàn)比TRPO 更簡單的計算,也具有更好的樣本復(fù)雜度。Heess 等[52]提出了分步式PPO 算法(Distribute PPO,DPPO),提高智能體在獎勵信號有限的條件下的學(xué)習(xí)水平。在控制實(shí)驗(yàn)中,DPPO在更高的效率下實(shí)現(xiàn)了類似于TRPO的性能。除此之外,Shani[53]、Liu H[54]、Liu B[55]等都對TRPO 信任域策略算法做了改進(jìn),在算法或者應(yīng)用上取得了一定進(jìn)展。

2.2.4 異步優(yōu)勢演員評論家網(wǎng)絡(luò)算法及其改進(jìn)

Mnih 等人基于異步強(qiáng)化學(xué)習(xí)(Asynchronous Reinforcement Learning,ARL)的思想,提出一種輕量級的深度強(qiáng)化學(xué)習(xí)框架:異步優(yōu)勢的演員評論家算法(Asynchronous Advantage Actor-Critic,A3C),A3C 算法使用異步梯度下降算法優(yōu)化深度網(wǎng)絡(luò)模型,并結(jié)合多種強(qiáng)化學(xué)習(xí)算法,能夠使深度強(qiáng)化學(xué)習(xí)算法基于CPU 快速地進(jìn)行學(xué)習(xí)。

A3C算法核心是:優(yōu)勢函數(shù)演員評論家算法和異步算法的結(jié)合。演員評論家算法在A3C算法中,包括基于策略學(xué)習(xí)的演員和基于價值學(xué)習(xí)的評論家。優(yōu)勢演員評論家算法,是在演員評論家算法基礎(chǔ)上,對評論家模型進(jìn)行更新時,引入優(yōu)勢函數(shù)的概念,以確定其網(wǎng)絡(luò)模型輸出動作的好壞程度,使得對策略梯度的評估偏差更少。A3C的異步操作是指:利用多個智能體與多個環(huán)境進(jìn)行交互,提高學(xué)習(xí)效率。異步構(gòu)架主要由環(huán)境、工人和全局網(wǎng)絡(luò)組成,其中每個工人作為一個智能體與一個獨(dú)立的環(huán)境進(jìn)行交互,并有屬于自身的網(wǎng)絡(luò)模型。不同的工人同時與環(huán)境進(jìn)行交互,其執(zhí)行的策略和學(xué)習(xí)到的經(jīng)驗(yàn)都獨(dú)立于其他工人。因此該多智能體異步探索的方式能夠比使用單個工人進(jìn)行探索的方式更好、更快、更多樣性地工作。

A3C算法可以得到更好的收斂性,在高維控制和連續(xù)空間的表現(xiàn)更好。Lin 等[56]在A3C 算法基礎(chǔ)上,提出一種協(xié)同異步優(yōu)勢演員-評論家算法(collaborative Asynchronous Advantage Actor-Critic,cA3C),智能體在線學(xué)習(xí)深度知識提取,實(shí)現(xiàn)自適應(yīng)的知識轉(zhuǎn)移。實(shí)驗(yàn)表明,cA3C算法的收斂水平比A3C更高,也獲得了更高的獎勵;針對A3C算法的優(yōu)勢函數(shù)存在方差,影響性能的問題,Chen 等[57]提出了一種平均異步優(yōu)勢演員-評論家算法(Averaged Asynchronous Advantage Actor-Critic,Averaged-A3C),降低優(yōu)勢函數(shù)的方差。Averaged-A3C主要改進(jìn)是對已經(jīng)學(xué)習(xí)過的狀態(tài)值取平均來計算優(yōu)勢函數(shù),提高訓(xùn)練過程的穩(wěn)定性。實(shí)驗(yàn)表明,Averaged-A3C比A3C算法擁有更好的性能和穩(wěn)定性。Kartal等[58]將A3C算法與末端預(yù)測(Terminal Prediction,TP)結(jié)合,提出了一種末端預(yù)測的異步優(yōu)勢演員評論即算法(A3C-TP),主要改進(jìn)是智能體在學(xué)習(xí)控制策略時,預(yù)測目前狀態(tài)到最終狀態(tài)的距離從而促進(jìn)學(xué)習(xí)。在Atari游戲和雙足步行者領(lǐng)域的實(shí)驗(yàn)結(jié)果表明:在大多數(shù)測試領(lǐng)域中,A3C-TP 的表現(xiàn)優(yōu)于標(biāo)準(zhǔn)A3C;Labao 等[59]提出一種融合梯度(Gradient Sharing)共享的異步優(yōu)勢演員-評論家算法(A3C-GS),A3C-GS算法具有在短期內(nèi)自動分散員工政策進(jìn)行探索的特性,在政策多樣化的情況下,理論上算法長期收斂于最優(yōu)政策。實(shí)驗(yàn)表明,A3C-GS算法在高維環(huán)境中比其他基于策略梯度的算法表現(xiàn)更好,取得了更高的分?jǐn)?shù)。Hernandez-Leal[60]、Wang[61]、Holliday[62]等都對A3C 算法進(jìn)行了改進(jìn)實(shí)驗(yàn),取得了一定進(jìn)展。

總的來說,A3C算法,降低了DRL對計算機(jī)計算性能的要求,并且在效果、時間和資源消耗上都優(yōu)于傳統(tǒng)方法。但對于實(shí)際問題,計算機(jī)計算能力仍然限制了A3C算法的潛力。

表3 主要研究結(jié)果提煉表

2.3 其他相關(guān)研究

除了基于值函數(shù)和基于策略梯度的算法進(jìn)展的研究,通過其他角度對深度強(qiáng)化學(xué)習(xí)的研究也取得了一些進(jìn)展?;谀P偷膹?qiáng)化學(xué)習(xí)(Model-Based RL)算法能夠更高效地學(xué)習(xí),但很難擴(kuò)展到深度神經(jīng)網(wǎng)絡(luò)這種表達(dá)能力強(qiáng)的模型,無法應(yīng)用到復(fù)雜、高維的控制任務(wù)。將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到Model-Based RL上的研究很有價值。Luo等[63]提出了一種基于模型的隨機(jī)下界優(yōu)化算法(Stochastic Lower Bounds Optimization,SLBO),通過實(shí)驗(yàn)表明,在一系列連續(xù)控制基準(zhǔn)測試任務(wù)中,SLBO只需要較少樣本就達(dá)到了比原算法更高的學(xué)習(xí)率。Nagabandi[64]、Ebert[65]、Huang[66]等都對Model-Based RL應(yīng)用在高維控制任務(wù)上做了一些研究。

強(qiáng)化學(xué)習(xí)是基于獎勵調(diào)整策略,但在一些復(fù)雜任務(wù)中,環(huán)境在到達(dá)最終結(jié)果前回報稀疏,強(qiáng)化學(xué)習(xí)任務(wù)面臨反饋稀疏的問題,影響學(xué)習(xí)效率。Kulkarni 等[67]提出一種分層DQN算法(hierarchical-DQN,h-DQN),開創(chuàng)了層次強(qiáng)化學(xué)習(xí)算法(Hierarchical Reinforcement Learning,HRL),層次強(qiáng)化學(xué)習(xí)將控制任務(wù)分成若干層次,從多層策略中學(xué)習(xí),每一層都負(fù)責(zé)在不同的時間和行為抽象層面進(jìn)行控制。最低級別的策略負(fù)責(zé)輸出行動,使更高級別的策略可以在更抽象的目標(biāo)和更長的時間尺度上自由運(yùn)作。Vezhnevets[68]、Nachum[69]、Rafati[70]等都對HRL做了研究。

對于復(fù)雜任務(wù),獎勵稀疏問題會導(dǎo)致設(shè)定獎勵函數(shù)非常困難,給出的獎勵函數(shù)也并非完全可以衡量決策的好壞?;贜g 等[71]提出的假設(shè)專家最優(yōu)思想,利用專家數(shù)據(jù)采用函數(shù)近似的方法建立獎勵函數(shù),這種稱為深度逆向?qū)W習(xí)[72]的方法,可以作為研究復(fù)雜環(huán)境下的獎勵函數(shù)的新方法。You 等[73]在無人駕駛中,通過收集專家駕駛員的大量演示,使用深度逆向強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)基于數(shù)據(jù)的最優(yōu)駕駛策略,利用神經(jīng)網(wǎng)絡(luò)逼近專家駕駛員數(shù)據(jù)的獎勵函數(shù),實(shí)現(xiàn)期望的駕駛行為。Fahad 等[74]研究了機(jī)器人學(xué)習(xí)人類導(dǎo)航的深度逆向強(qiáng)化學(xué)習(xí)方法。此外,在過程控制領(lǐng)域,某些復(fù)雜控制任務(wù),通過逆向強(qiáng)化學(xué)習(xí)方法,讓機(jī)器學(xué)習(xí)專家知識,獲得較高的控制水平,也是很有價值的研究方向。

2.4 主要研究成果對比分析

上述深度強(qiáng)化學(xué)習(xí)的研究,都取得了一定成果,但這些研究的原理和研究角度的不同,決定了每種方法的特性和應(yīng)用場景。主要提煉內(nèi)容如表3所示。

除了從應(yīng)用性能角度,DRL 算法的改進(jìn),對設(shè)備的要求程度和學(xué)習(xí)時間也是重要評判依據(jù)。這也是DQN發(fā)展到A3C算法的推動力之一,即提高學(xué)習(xí)速度和減少對硬件系統(tǒng)的依賴。其中一些算法的學(xué)習(xí)時間、計算機(jī)設(shè)備,以及在雅達(dá)利游戲中與原始實(shí)驗(yàn)的得分對比率[24],如表4所示。

表4 一些改進(jìn)算法的學(xué)習(xí)時間和設(shè)備表

綜上,DRL 算法發(fā)展的趨勢是更高的表現(xiàn)、更高的學(xué)習(xí)效率以及對硬件的更低依賴。

3 在智能制造中的應(yīng)用展望

3.1 智能裝配

智能機(jī)器人控制是人工智能的標(biāo)志性成果之一,可以分擔(dān)人類工作。工業(yè)機(jī)器人可以取代人類在一些高溫、高壓或者其他不適環(huán)境下工作,也可以完成一些體力工作。除此之外,還發(fā)展到一些高精度裝配工作。傳統(tǒng)的機(jī)器人編程通過定義裝備位置和動作進(jìn)行工作,這種編程比較復(fù)雜,且不能適應(yīng)環(huán)境變化,只能執(zhí)行程序固定的工作內(nèi)容,如果環(huán)境發(fā)生改變或者調(diào)整生產(chǎn)線,就需要重新編程。深度強(qiáng)化學(xué)習(xí)提供了解決這些問題的途徑,已經(jīng)得到了多次驗(yàn)證。Inoue 等[75]針對傳統(tǒng)機(jī)器人編程復(fù)雜、調(diào)參困難的問題,提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)的DRL算法模型,通過使用一個7軸鉸接機(jī)器人手臂,完成精度較高的插孔實(shí)驗(yàn),驗(yàn)證模型的有效性,并計劃利用模型學(xué)習(xí)不同的生產(chǎn)環(huán)境參數(shù),縮短適應(yīng)新生產(chǎn)時間。Schoettler 等[76]針對傳統(tǒng)工業(yè)機(jī)器人缺乏自適應(yīng)的特點(diǎn),提出了利用DRL算法的解決方案,并通過一些復(fù)雜規(guī)格和形狀的實(shí)驗(yàn),證明DRL 可以解決復(fù)雜的工業(yè)裝配任務(wù)。Zhao 等[77]提出一種基于DRL 的工件裝配序列規(guī)劃系統(tǒng)(Assembly Sequence Planning for Workpieces,ASPW)的設(shè)計方法,對復(fù)雜裝配產(chǎn)品進(jìn)行自動排序,提高裝配效率。在建立的實(shí)驗(yàn)平臺上,設(shè)計出了一種新的ASPW-DQN算法,克服DRL算法缺乏獎勵和缺乏培訓(xùn)環(huán)境的困難,在實(shí)驗(yàn)中取得了較高的準(zhǔn)確度。Wu[78]、Vecerik[79]、Xu[80]、Luo[81]等都對DRL算法應(yīng)用在裝配機(jī)器人上做了實(shí)驗(yàn)研究,取得了一定成果。相信在未來,工作精度高、適應(yīng)能力強(qiáng)、崗位轉(zhuǎn)換容易的裝配機(jī)器人會出現(xiàn)。

3.2 智能運(yùn)輸與路徑規(guī)劃

運(yùn)輸機(jī)器人極大減輕了人類繁重的搬運(yùn)工作,檢測機(jī)器人可到人類不能到達(dá)的地方對工業(yè)設(shè)備進(jìn)行檢測,這都離不開機(jī)器人路徑規(guī)劃。傳統(tǒng)機(jī)器人主要依靠編程或者利用傳感器進(jìn)行固定路徑行駛,可以滿足簡單的貨物運(yùn)輸。傳統(tǒng)機(jī)器人在較復(fù)雜的工廠中,易受干擾;在出發(fā)點(diǎn)、目的地或者路徑狀況導(dǎo)致的運(yùn)輸線路改變時,需要重新編程、調(diào)試,靈活性、經(jīng)濟(jì)性較差;由于對一些惡劣環(huán)境掌握有限,傳統(tǒng)算法對未知環(huán)境的適用性較差。此外,研究人員還提出了蟻群優(yōu)化[82]、粒子群優(yōu)化[83]、模擬退火[84]和遺傳算法[85]等智能方法來解決全局路徑規(guī)劃問題[86],但這些方法在高維環(huán)境下表現(xiàn)不佳。DRL算法可以賦予機(jī)器人根據(jù)環(huán)境狀態(tài)和任務(wù)變化,自主規(guī)劃路徑的能力。比如在某一通道占用的情況下,仍能找到另一條道路到達(dá)目的地。Zhou 等[87]提出并驗(yàn)證了一種基于DQN 的全局路徑規(guī)劃方法,能夠使機(jī)器人在密集的環(huán)境中獲得最優(yōu)路徑。機(jī)器人的輸入方式是直接攝入圖像,能夠有效避開障礙物。Sui 等[88]設(shè)計了一種并行深度DQN 算法,求解多智能體約束的編隊(duì)路徑規(guī)劃問題。Wang 等[89]提出了一種基于雙DQN 和經(jīng)驗(yàn)優(yōu)先重放的移動機(jī)器人路徑規(guī)劃方法,能夠通過感知周圍環(huán)境的局部信息,在未知環(huán)境下規(guī)劃路徑,通過實(shí)驗(yàn)驗(yàn)證了可靠性。這些研究表明,智能路徑規(guī)劃能夠讓工業(yè)機(jī)器人擁有更強(qiáng)的工作能力,應(yīng)用廣泛,是人工智能研究的熱點(diǎn)領(lǐng)域之一。

3.3 智能過程控制

過程控制任務(wù)的主流控制器,包括單回路和多回路PID 控制器、模型預(yù)測控制器和各種非線性控制器,大多數(shù)現(xiàn)代工業(yè)控制器都是基于模型的,因此良好的性能需要高質(zhì)量的過程模型。PID 控制器和基于模型的控制器需要定期維護(hù)以保持性能。通常的做法是持續(xù)監(jiān)控控制器的性能,并在性能下降時啟動補(bǔ)救模型重新識別程序,維修過程通常是復(fù)雜的和資源密集型的,并且會導(dǎo)致工作中斷,代價較高。此外,在高級的控制任務(wù)中,很難建立高質(zhì)量的模型,導(dǎo)致這些控制器很難適用于非線性或者高維控制任務(wù)。DRL 應(yīng)用在過程控制領(lǐng)域,可以同時接受數(shù)據(jù)信息和高維信息,對環(huán)境的理解更具體,能夠根據(jù)獎勵不斷學(xué)習(xí),提高控制水平,在一定程度上時間越久,學(xué)習(xí)水平越高,保持較高的控制性能,節(jié)省維護(hù)成本。Andersen 等[90]對DRL 應(yīng)用在過程控制做了相關(guān)理論研究。Spielberg 等[91]提出一個基于數(shù)據(jù)的DRL控制器,通過與過程交互學(xué)習(xí)控制策略,并且通過大量仿真驗(yàn)證了DRL控制器的有效性和優(yōu)越性。在未來,除了現(xiàn)有的自動控制環(huán)節(jié),更多目前需要人工控制的崗位,也可以通過DRL算法取代。

3.4 新智能調(diào)度

傳統(tǒng)的智能調(diào)度方法有:基于知識的系統(tǒng)、專家系統(tǒng)、遺傳算法、模擬退火、神經(jīng)網(wǎng)絡(luò)和混合系統(tǒng)等,這些調(diào)度方式過于依賴人工調(diào)度的淺顯知識[92],不能解決復(fù)雜的調(diào)度問題,并且實(shí)時控制性較差,將DRL應(yīng)用于智能調(diào)度的新智能調(diào)度可以解決上述問題。新智能調(diào)度在智能制造中可以完成資源分配工作和任務(wù)分配工作,并且擁有一定實(shí)時反應(yīng)能力。Singh等[93]針對運(yùn)輸資源的分配問題,提出一種基于DRL的車輛調(diào)度框架,通過與外部環(huán)境的相互,分別為每輛車輛學(xué)習(xí)最優(yōu)策略。實(shí)驗(yàn)結(jié)果表明,該框架可以提高20%的車輛利用率,乘客等待時間與車輛巡航時間降低34%。這種方法沒有考慮每個車輛間的相互影響,雖然降低了計算難度,但調(diào)度策略對于全局來說不能保證是最優(yōu)策略,不適用智能制造全局調(diào)度的要求。Hua 等[94]采用DRL 算法進(jìn)行資源調(diào)度,對分配任務(wù)中的限制條件進(jìn)行考慮,采用無模型方法解決一些限制條件沒有明確公式關(guān)系的問題。研究對既需要全局調(diào)度,又存在子區(qū)域調(diào)度的問題,采用A3C 算法進(jìn)行最優(yōu)控制,在仿真實(shí)驗(yàn)中驗(yàn)證了有效性。但這種方法沒有考慮子區(qū)域之間的相互影響,仍然存在全局最優(yōu)考慮不足的情況。對于調(diào)度任務(wù),調(diào)度環(huán)境越大,全局性越強(qiáng),對計算的要求越高。在計算能力有限的情況下,適當(dāng)將大區(qū)域調(diào)度分割為子區(qū)域調(diào)度,可以平衡計算與策略最優(yōu)程度的關(guān)系。Mao 等[95]的研究在智能調(diào)度中加入了有限考慮考慮級別。在智能制造中,某些生產(chǎn)或者資源需要優(yōu)先考慮。具體方法是使用前饋神經(jīng)網(wǎng)絡(luò)結(jié)合演員評論家算法,實(shí)驗(yàn)結(jié)果表明,該算法都收斂于最優(yōu)性間隙小于4%的理論上界。在考慮了優(yōu)先性和公平性的情況下,該算法具有較大實(shí)用價值。在未來可以繼續(xù)考慮劃分更多優(yōu)先等級,并根據(jù)實(shí)際生產(chǎn)狀況,自動調(diào)節(jié)優(yōu)先等級。Guan等[96]研究了利用DRL算法解決在資源分配中的近實(shí)時性問題,即在單位時間里根據(jù)環(huán)境調(diào)整一下分配策略。該研究基于DRL算法設(shè)計了一種經(jīng)濟(jì)電力調(diào)度模型,利用DRL 的連續(xù)控能力在單位時間間隔調(diào)整一次分配狀態(tài)。這種方法既節(jié)省了計算資源,又具有一定實(shí)時控制性能,在大型資源分配中有較大應(yīng)用前景。但這種方法不能保證收斂性,未來需要繼續(xù)改善計算性能。Li[97]、Waschneck[98]、Liu[99]等從不同角度對DRL 在智能調(diào)度中的應(yīng)用進(jìn)行研究。

3.5 其他應(yīng)用展望

DRL擁有獨(dú)特優(yōu)勢,在智能制造中擁有較大應(yīng)用空間,除了上述應(yīng)用展望之外,DRL還可以結(jié)合傳統(tǒng)專家系統(tǒng),產(chǎn)生新一代反饋學(xué)習(xí)專家系統(tǒng),能夠在給出專家知識之后,根據(jù)反饋繼續(xù)學(xué)習(xí),提升診斷水平和決策水平,這可以更好發(fā)揮專家系統(tǒng)的潛力。專家系統(tǒng)的建議一般假設(shè)為最優(yōu),限制性在于對問題的診斷水平,結(jié)合DRL的專家系統(tǒng)可以根據(jù)獎勵提高診斷水平,提高故障與對策的匹配水平;DRL可以設(shè)計出一種對工業(yè)設(shè)備壽命或者狀態(tài)的置信預(yù)測器,例如對一些高溫高壓的儲存設(shè)備,將已經(jīng)發(fā)生過的實(shí)際數(shù)據(jù)當(dāng)作輸入進(jìn)行學(xué)習(xí),一次性預(yù)測未來一定時間的各項(xiàng)參數(shù),并在預(yù)測日期到達(dá)之后,與產(chǎn)生的真實(shí)數(shù)據(jù)對比,產(chǎn)生的反饋來修正預(yù)測網(wǎng)絡(luò),這樣隨著時間的增加,預(yù)測水平可以保證一定時間段的準(zhǔn)確性。這種方法可以比傳統(tǒng)檢測更加可靠和經(jīng)濟(jì),擁有較大的研究價值。

4 存在的問題和未來發(fā)展方向

深度強(qiáng)化學(xué)習(xí)(DRL)是比較新的技術(shù),功能強(qiáng)大,但也存在必須解決的問題,并可能催生新的發(fā)展方向。

(1)DRL 是機(jī)器模仿人類的方法,由于對人腦的了解還不夠,還缺乏與之對應(yīng)的人腦機(jī)理知識。比如深度學(xué)習(xí)(DL)的機(jī)器視覺對應(yīng)人腦神經(jīng)元的視覺機(jī)理,但強(qiáng)化學(xué)習(xí)(RL)的策略目前與人腦生物學(xué)知識的對應(yīng)不足,限制了強(qiáng)化學(xué)習(xí)新的發(fā)展突破。未來需要對人腦有進(jìn)一步的研究,并與深度強(qiáng)化學(xué)習(xí)理論對應(yīng),從而突破人造智能體的技術(shù)障礙。

(2)計算能力的提升是將深度強(qiáng)化學(xué)習(xí)應(yīng)用在實(shí)際中的必備條件。目前主流改進(jìn)方案是算法的提升和硬件設(shè)施的進(jìn)步。隨著云計算技術(shù)等網(wǎng)絡(luò)大輸出處理技術(shù)的進(jìn)步,通過這些技術(shù)結(jié)合DRL,將DRL的計算任務(wù)在線分配處理,批次處理某一區(qū)域或者任務(wù)的計算,可以帶來DRL計算速度的大提升。

(3)基于模型強(qiáng)化學(xué)習(xí)雖然目前應(yīng)用受限,但未來發(fā)展?jié)摿薮?。隨著DRL 學(xué)習(xí)能力的提高,智能體能夠?qū)W習(xí)復(fù)雜環(huán)境的模型,并且可通過模型預(yù)測未來。對于一些復(fù)雜但封閉性較強(qiáng)的制造環(huán)境,基于模型的強(qiáng)化學(xué)習(xí)有較大的研究價值。

(4)DRL 訓(xùn)練的支撐是反饋獎勵,應(yīng)用在工業(yè)過程控制中,如何充分利用專家數(shù)據(jù)提高學(xué)習(xí)能力,節(jié)省學(xué)習(xí)成本,是很有價值的研究方向。對于稀疏獎勵任務(wù),可以根據(jù)與專家做法的重合程度,設(shè)置短期獎勵,提高學(xué)習(xí)效率。

(5)DRL 是將DL 和RL 結(jié)合的技術(shù),但DRL 的控制,如機(jī)器人、無人車等,嚴(yán)重依賴DL 的視覺輸入,但DL 目前只能發(fā)揮感知作用,無法取代力學(xué)分析等深層知識,造成DRL 的一些仿真研究與現(xiàn)實(shí)應(yīng)用有較大差距。未來將DL 和RL分開研究,獲得更高的穩(wěn)定性,然后再拼裝,也是很有價值的研究方向。

(6)DRL 算法可以解決智能控制的程序問題,但與之匹配的工業(yè)硬件設(shè)施還沒有相關(guān)標(biāo)準(zhǔn),例如能處理海量工業(yè)數(shù)據(jù)的計算機(jī)、能夠測量數(shù)據(jù)傳輸且接收指令的智能閥門等,都是與理論算法相匹配的研究重點(diǎn)。

5 結(jié)束語

本文對深度強(qiáng)化學(xué)習(xí)的原理進(jìn)行了講述,包括深度強(qiáng)化學(xué)習(xí)的原理,以及深度強(qiáng)化學(xué)習(xí)主要的算法發(fā)展??梢钥吹缴疃葟?qiáng)化學(xué)習(xí)的算法已經(jīng)發(fā)展出了很多成果,應(yīng)用水平也不斷提高。可以得到深度強(qiáng)化學(xué)習(xí)算法的發(fā)展方向有:更高效的學(xué)習(xí)、更快的計算結(jié)論、更準(zhǔn)確的評估獎勵。隨著一些關(guān)鍵問題的解決,在未來的智能制造業(yè)中,深度強(qiáng)化學(xué)習(xí)可以擔(dān)任更多角色。

猜你喜歡
神經(jīng)網(wǎng)絡(luò)深度函數(shù)
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
深度理解一元一次方程
函數(shù)備考精講
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
深度觀察
深度觀察
深度觀察
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
陕西省| 进贤县| 图木舒克市| 太康县| 上杭县| 白沙| 郁南县| 西丰县| 正安县| 铁力市| 云龙县| 盐山县| 怀集县| 班玛县| 特克斯县| 淄博市| 中方县| 孝感市| 盐边县| 中江县| 福州市| 黎城县| 玛纳斯县| 奇台县| 衡阳市| 汾西县| 富民县| 汶上县| 肇东市| 东乌| 都江堰市| 峡江县| 苍溪县| 大石桥市| 申扎县| 慈溪市| 高州市| 长武县| 沾益县| 大方县| 儋州市|