人工智能深度強(qiáng)化學(xué)習(xí)的重要機(jī)制及改進(jìn)技術(shù)

2021-06-24 08:44:49吳英萍耿江濤熊曉波余雪蓮

理論與創(chuàng)新 2021年2期

吳英萍耿江濤熊曉波余雪蓮

【摘? 要】深度強(qiáng)化學(xué)習(xí)引發(fā)了人工智能領(lǐng)域的革命性突破，成為問題解決的通用框架。該學(xué)習(xí)模式將深層神經(jīng)網(wǎng)絡(luò)融入強(qiáng)化學(xué)習(xí)，不但在圖像識(shí)別和自然語言處理等領(lǐng)域取得突破性的進(jìn)展，更在圍棋等復(fù)雜棋類游戲中具有超人的表現(xiàn)。總結(jié)歸納深度強(qiáng)化學(xué)習(xí)模式的優(yōu)勢(shì)在于其具有的6項(xiàng)重要學(xué)習(xí)機(jī)制。然而，這種模式也存在樣本數(shù)據(jù)有效性低的痛點(diǎn)問題。為此提出情景元深度強(qiáng)化學(xué)習(xí)的改進(jìn)技術(shù)，力圖解決困擾深度強(qiáng)化學(xué)習(xí)的慢速和收斂穩(wěn)定問題。這對(duì)深度強(qiáng)化學(xué)習(xí)技術(shù)的實(shí)際應(yīng)用起到有效的推動(dòng)作用。

【關(guān)鍵詞】深度強(qiáng)化學(xué)習(xí);學(xué)習(xí)機(jī)制;情景深度強(qiáng)化學(xué)習(xí);元學(xué)習(xí);人工智能

引言

近幾年人工智能（Artificial Intelligence， AI）的研究取得了革命性的進(jìn)展。神經(jīng)網(wǎng)絡(luò)（Neural Network）或深度學(xué)習(xí)（Deep Learning，DL）方法的復(fù)興推動(dòng)了人工智能在圖像識(shí)別、自然語言處理和許多其他領(lǐng)域的技術(shù)突破。

強(qiáng)化學(xué)習(xí)（Reinforcement learning，RL）與深度學(xué)習(xí)相結(jié)合，產(chǎn)生的深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）近年也取得了令人驚嘆的成就。特別是在圍棋和象棋等復(fù)雜棋類游戲中的超人表現(xiàn)，使其迅速成為人工智能領(lǐng)域的研究熱點(diǎn)。

1.深度強(qiáng)化學(xué)習(xí)的痛點(diǎn)問題及原因

深度強(qiáng)化學(xué)習(xí)不是從更明確的教學(xué)中學(xué)習(xí)，而是一套學(xué)習(xí)獎(jiǎng)懲的方法，如圖所示。表面看來，深度強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)方式與人類截然不同。然而深入探究深度強(qiáng)化學(xué)習(xí)機(jī)制的產(chǎn)生背景，則發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)機(jī)制最初來自動(dòng)物條件的作用研究，并與以多巴胺為中心的基于獎(jiǎng)勵(lì)學(xué)習(xí)的神經(jīng)機(jī)制密切相關(guān)。特別是深度強(qiáng)化學(xué)習(xí)系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)支持環(huán)境的泛化和強(qiáng)大的遷移學(xué)習(xí)能力，這正是生物大腦的關(guān)鍵能力。

1.1深度強(qiáng)化學(xué)習(xí)存在的痛點(diǎn)問題

然而，由于現(xiàn)實(shí)存在的深度強(qiáng)化學(xué)習(xí)系統(tǒng)的樣本數(shù)據(jù)有效性低這一痛點(diǎn)問題，使得大多數(shù)深度強(qiáng)化學(xué)習(xí)系統(tǒng)運(yùn)行太慢。典型的實(shí)例是，為了在國際象棋及圍棋之類的任務(wù)上，深度強(qiáng)化學(xué)習(xí)系統(tǒng)獲得人類專家級(jí)的水平，DRL系統(tǒng)需要比人類專家本身多許多數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)。若將樣本效率定義為一個(gè)學(xué)習(xí)系統(tǒng)達(dá)到任何選定的目標(biāo)性能水平所需的數(shù)據(jù)量，則在樣本效率方面，人類學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)存在顯著的差異。換言之，深度強(qiáng)化學(xué)習(xí)的樣本效率極低，無法為人類的學(xué)習(xí)提供一個(gè)合理的模型。

1.2深度強(qiáng)化學(xué)習(xí)痛點(diǎn)問題的原因

深度強(qiáng)化學(xué)習(xí)中系統(tǒng)收斂速度慢、樣本效率低是其痛點(diǎn)問題，歸結(jié)其原因是：

首要原因是參數(shù)增量小步長調(diào)整的要求。在人工智能研究中廣泛使用的深度強(qiáng)化學(xué)習(xí)系統(tǒng)都使用神經(jīng)網(wǎng)絡(luò)來連通從感知輸入到動(dòng)作輸出，采用梯度下降法對(duì)參數(shù)進(jìn)行迭代更新直到收斂。正如不僅在人工智能領(lǐng)域，而且在心理學(xué)領(lǐng)域廣泛討論的那樣，在這種學(xué)習(xí)形式中所做的參數(shù)增量調(diào)整必須很小，以便最大限度地收斂和泛化。如果參數(shù)增量過大，導(dǎo)致覆蓋早期學(xué)習(xí)的效果，出現(xiàn)災(zāi)難性干擾會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法收斂不穩(wěn)定的情況。深度強(qiáng)化學(xué)習(xí)中對(duì)參數(shù)增量小步長調(diào)整的需求是DRL系統(tǒng)緩慢的原因。

第二個(gè)原因是弱偏置假設(shè)。學(xué)習(xí)理論闡明，任何學(xué)習(xí)過程都必然面臨偏置假設(shè)與方差的權(quán)衡。學(xué)習(xí)過程中需要學(xué)習(xí)的模式的初始偏置假設(shè)越強(qiáng)，即模型的假設(shè)空間越小且與實(shí)際數(shù)據(jù)中的內(nèi)容匹配，學(xué)習(xí)過程的初始模型正確度越高，完成學(xué)習(xí)所需的數(shù)據(jù)就越少。反之，如果學(xué)習(xí)過程中需要學(xué)習(xí)的模式的初始偏置假設(shè)較弱，即模型的假設(shè)空間越大，就能夠適合更廣泛的模式且允許更大的方差，但通常導(dǎo)致樣本效率較低。重要的是，深度強(qiáng)化學(xué)習(xí)使用的泛型神經(jīng)網(wǎng)絡(luò)是一種極弱偏置假設(shè)的學(xué)習(xí)系統(tǒng)，即模型的假設(shè)空間極大，模型有許多表征連接權(quán)重的參數(shù)，且使用這些參數(shù)來擬合廣泛的數(shù)據(jù)。正如偏置假設(shè)與方差權(quán)衡所決定的，這表明普通的深度強(qiáng)化學(xué)習(xí)模型中采用的一般形式的神經(jīng)網(wǎng)絡(luò)往往樣本效率低下，需要大量的數(shù)據(jù)來學(xué)習(xí)。

2.深度強(qiáng)化學(xué)習(xí)重要機(jī)制

深度強(qiáng)化學(xué)習(xí)能夠解決諸多人工智能領(lǐng)域的現(xiàn)實(shí)問題，成為通用的問題解決框架，是因?yàn)榇嬖谝韵掳l(fā)揮重要作用的機(jī)制，包括注意和記憶、無監(jiān)督學(xué)習(xí)、轉(zhuǎn)移學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)和習(xí)得學(xué)習(xí)等機(jī)制。

2.1注意力和存儲(chǔ)機(jī)制

這是一種專注于突出部分的機(jī)制。存儲(chǔ)器提供長時(shí)間的數(shù)據(jù)存儲(chǔ)，而注意力聚焦則是存儲(chǔ)器尋址的一種方法。

可微神經(jīng)計(jì)算機(jī)（Differentiable Neural Computer， DNC）中的神經(jīng)網(wǎng)絡(luò)可以對(duì)外部存儲(chǔ)器進(jìn)行讀寫，因此DNC就可以解決復(fù)雜的結(jié)構(gòu)化問題，而沒有讀寫存儲(chǔ)器的神經(jīng)網(wǎng)絡(luò)無法解決這些問題。DNC將內(nèi)存分配干擾降至最低，并支持長期存儲(chǔ)。與傳統(tǒng)計(jì)算機(jī)類似，在DNC中，神經(jīng)網(wǎng)絡(luò)是控制器，外部存儲(chǔ)器是隨機(jī)存取存儲(chǔ)器;DNC用存儲(chǔ)器來表示和操作復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。不同的是，DNC以一種目標(biāo)導(dǎo)向的方式，通過梯度下降從數(shù)據(jù)端到端地學(xué)習(xí)這種表示和操作。在有監(jiān)督學(xué)習(xí)的訓(xùn)練下，DNC可以解決自然語言推理和推理中的綜合問答問題;它可以解決交通網(wǎng)絡(luò)中兩站之間的最短路徑發(fā)現(xiàn)問題和家譜中的關(guān)系推理問題。當(dāng)使用強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)，DNC可以解決由符號(hào)序列指定的目標(biāo)變化的移動(dòng)塊難題。在進(jìn)行的小規(guī)模實(shí)驗(yàn)中，DNC的表現(xiàn)優(yōu)于正常的神經(jīng)網(wǎng)絡(luò)，如長短時(shí)記憶網(wǎng)絡(luò)（Long Short Term Memory networks， LSTM）或DNC的前體神經(jīng)圖靈機(jī)?？梢灶A(yù)期DNC能得到進(jìn)一步的改進(jìn)和應(yīng)用。

2.2無監(jiān)督學(xué)習(xí)機(jī)制

無監(jiān)督學(xué)習(xí)是一種利用海量數(shù)據(jù)的方法，是實(shí)現(xiàn)通用人工智能的關(guān)鍵機(jī)制。無監(jiān)督學(xué)習(xí)分為非概率模型，如稀疏編碼、自動(dòng)編碼器、k-Means等，以及概率（生成）模型，其中涉及密度函數(shù)（顯式還是隱式）。在具有顯式密度函數(shù)的概率（生成）模型中，有些具有可跟蹤模型，如完全可觀測(cè)的信念網(wǎng)和神經(jīng)自回歸分布估計(jì)器等;有些具有不可跟蹤模型，如Botlzmann機(jī)、變分自編碼器、Helmhotz機(jī)，對(duì)于具有隱式密度函數(shù)的概率（生成）模型，則有生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Networks， GANs）、矩匹配網(wǎng)絡(luò)等。

Horde值函數(shù)：采用一般價(jià)值函數(shù)表示知識(shí)，其中策略、終止函數(shù)、獎(jiǎng)勵(lì)函數(shù)和終端獎(jiǎng)勵(lì)函數(shù)是參數(shù)。這是一種可擴(kuò)展的實(shí)時(shí)體系結(jié)構(gòu)，用于從無監(jiān)督的感覺運(yùn)動(dòng)交互作用（即無向信號(hào)和觀察）中學(xué)習(xí)獨(dú)立智能體的一般值函數(shù)。Horde值函數(shù)可以學(xué)習(xí)預(yù)測(cè)許多傳感器的值，并使用一般的值函數(shù)來最大化這些傳感器值的策略，來回答預(yù)測(cè)性或目標(biāo)導(dǎo)向的問題。Horde值函數(shù)是非策略的，即在遵循其他行為策略的同時(shí)進(jìn)行實(shí)時(shí)學(xué)習(xí)，并采用基于梯度的時(shí)差學(xué)習(xí)方法進(jìn)行學(xué)習(xí)，每一時(shí)間步的時(shí)間和內(nèi)存復(fù)雜度都是恒定的。

輔助學(xué)習(xí)：環(huán)境可能包含豐富的可能訓(xùn)練信號(hào)，有助于加速實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大化的主要目標(biāo)，例如像素變化可能暗示重要事件，輔助獎(jiǎng)勵(lì)任務(wù)有助于實(shí)現(xiàn)獎(jiǎng)勵(lì)狀態(tài)的良好表示。當(dāng)外在的獎(jiǎng)勵(lì)信號(hào)很少被觀察到時(shí)，這有很大的幫助。無監(jiān)督強(qiáng)化學(xué)習(xí)和輔助學(xué)習(xí)（UNsupervised REinforcement and Auxiliary Learning， UNREAL）可以提高學(xué)習(xí)效率，除了通常的累積獎(jiǎng)勵(lì)外，還通過最大化偽獎(jiǎng)勵(lì)函數(shù)來提高學(xué)習(xí)效率，同時(shí)共享一個(gè)共同的表征。UNREAL由RNN-LSTM基代理、像素控制、獎(jiǎng)勵(lì)預(yù)測(cè)和值函數(shù)反饋組成?；局悄荏w通過異步動(dòng)作者-評(píng)判者算法（Asynchronous Actor Critic， A3C）策略訓(xùn)練，觀察、獎(jiǎng)勵(lì)和行動(dòng)的經(jīng)驗(yàn)被儲(chǔ)存在應(yīng)答緩沖區(qū)中，供輔助任務(wù)使用。輔助策略使用基本的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）和LSTM，加上一個(gè)反卷積網(wǎng)絡(luò)，使輸入圖像不同區(qū)域的像素強(qiáng)度變化最大化。獎(jiǎng)勵(lì)預(yù)測(cè)模塊通過觀察后三幀預(yù)測(cè)下一幀的短期外部獎(jiǎng)勵(lì)，以解決獎(jiǎng)勵(lì)稀疏的問題。值函數(shù)反饋進(jìn)一步訓(xùn)練了值函數(shù)。

生成對(duì)抗網(wǎng)絡(luò)：同時(shí)訓(xùn)練兩個(gè)模型，通過對(duì)抗過程估計(jì)生成模型，生成模型G用于捕獲數(shù)據(jù)分布，判別模型D用于估計(jì)來自訓(xùn)練數(shù)據(jù)而非生成模型G的樣本的概率。通過用多層感知器對(duì)G和D進(jìn)行建模，當(dāng)G和D的訓(xùn)練數(shù)據(jù)集有足夠的容量時(shí)，生成對(duì)抗網(wǎng)可以恢復(fù)數(shù)據(jù)生成分布，并通過小批量隨機(jī)梯度下降提供了一種帶反向傳播的G和D訓(xùn)練算法。

2.3遷移學(xué)習(xí)機(jī)制

傳統(tǒng)的機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)只有在特定領(lǐng)域的訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)都來自同一個(gè)特征空間和統(tǒng)一分布的時(shí)候，學(xué)習(xí)和應(yīng)用的效果比較好。因此當(dāng)應(yīng)用領(lǐng)域變化和數(shù)據(jù)集發(fā)生變化時(shí)，都要重新訓(xùn)練模型。

遷移學(xué)習(xí)是指將從不同領(lǐng)域?qū)W到的知識(shí)進(jìn)行遷移，新的應(yīng)用領(lǐng)域可能具有與原來學(xué)習(xí)和訓(xùn)練的數(shù)據(jù)集不同的特征空間和/或不同的數(shù)據(jù)分布。遷移學(xué)習(xí)包括歸納遷移學(xué)習(xí)、轉(zhuǎn)化遷移學(xué)習(xí)及無監(jiān)督遷移學(xué)習(xí)。歸納遷移學(xué)習(xí)包括自學(xué)學(xué)習(xí)和多任務(wù)學(xué)習(xí);而轉(zhuǎn)化遷移學(xué)習(xí)包括領(lǐng)域適應(yīng)和樣本選擇偏置假設(shè)/協(xié)方差偏移。

目前提出的兩個(gè)智能體學(xué)習(xí)多種技能的多技能問題，定義了用于映射狀態(tài)和投射技能執(zhí)行的公共表示，并設(shè)計(jì)了兩個(gè)智能體最大限度地轉(zhuǎn)移信息特征空間以轉(zhuǎn)移新技能的算法，該算法采用相似性損失度量法，自動(dòng)編碼，強(qiáng)化學(xué)習(xí)。通過用兩個(gè)模擬機(jī)器人操作任務(wù)已經(jīng)驗(yàn)證了這種方法。

2.4多智能體強(qiáng)化學(xué)習(xí)機(jī)制

多智能體強(qiáng)化學(xué)習(xí)是多智能體系統(tǒng)（Multi-Agent）與強(qiáng)化學(xué)習(xí)系統(tǒng)的集成，因此處于博弈論與強(qiáng)化學(xué)習(xí)/人工智能社區(qū)的交叉點(diǎn)。除了強(qiáng)化學(xué)習(xí)中的收斂性和維數(shù)爆炸等問題外，還有諸如多重均衡的新問題，甚至還有諸如多智能體學(xué)習(xí)的問題是什么，收斂到均衡點(diǎn)是否是一個(gè)合適的目標(biāo)等基本問題。因此，多智能體學(xué)習(xí)在技術(shù)和概念上都是一個(gè)挑戰(zhàn)，需要清楚地理解待解決的問題、評(píng)估標(biāo)準(zhǔn)和連貫的研究過程。

2.5分層強(qiáng)化學(xué)習(xí)機(jī)制

分層強(qiáng)化學(xué)習(xí)是一種在多個(gè)層次上通過時(shí)空抽象來學(xué)習(xí)、規(guī)劃和表示知識(shí)的方法。分層強(qiáng)化學(xué)習(xí)也是一種解決稀疏報(bào)酬和長期視野問題的方法。專注寫入策略架構(gòu) （STRategic Attentive Writer， STRAW）是一種深度遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)，用于根據(jù)環(huán)境觀察結(jié)果，以端到端的方式學(xué)習(xí)高層時(shí)間抽象宏觀行為。宏動(dòng)作是指發(fā)生的一系列動(dòng)作。STRAW建立了一個(gè)多步驟的動(dòng)作計(jì)劃，根據(jù)觀察到的獎(jiǎng)勵(lì)定期更新，并通過遵循計(jì)劃而無需重新計(jì)劃來學(xué)習(xí)執(zhí)行計(jì)劃的時(shí)間。STRAW學(xué)會(huì)了從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)宏動(dòng)作，這與以前工作中的手動(dòng)方法不同。

分層DQN（hierarchical-DQN， h-DQN），通過分層組織目標(biāo)驅(qū)動(dòng)的內(nèi)在激勵(lì)深度強(qiáng)化學(xué)習(xí)模塊在不同的時(shí)間尺度上工作。h-DQN集成了一個(gè)頂層的動(dòng)作值函數(shù)和一個(gè)較低層次的動(dòng)作值函數(shù);前者學(xué)習(xí)一個(gè)超過內(nèi)在子目標(biāo)或選項(xiàng)的策略;后者學(xué)習(xí)一個(gè)超過原始動(dòng)作的策略來滿足給定的子目標(biāo)。

使用帶有信息論正則化器的隨機(jī)神經(jīng)網(wǎng)絡(luò)對(duì)大跨度的技能進(jìn)行預(yù)訓(xùn)練，然后在這些技能的基礎(chǔ)上，為下階段任務(wù)訓(xùn)練高級(jí)策略。預(yù)訓(xùn)練基于智能體的獎(jiǎng)勵(lì)信號(hào)，這是一種探索智能體自身能力的內(nèi)在動(dòng)機(jī)，其設(shè)計(jì)要求對(duì)下階段任務(wù)領(lǐng)域知識(shí)最少。這種方法將層次分析法與內(nèi)在動(dòng)機(jī)相結(jié)合，并且預(yù)訓(xùn)練遵循無監(jiān)督的方式。此外，還可以采用終身學(xué)習(xí)的分層深層RL網(wǎng)絡(luò)架構(gòu)，進(jìn)行學(xué)習(xí)可重用的技能或子目標(biāo)，將學(xué)習(xí)的知識(shí)遷移到新的任務(wù)中。

2.6習(xí)得學(xué)習(xí)機(jī)制

習(xí)得學(xué)習(xí)也被稱為元學(xué)習(xí)，是學(xué)習(xí)如何快速適應(yīng)新的任務(wù)。它涉及遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、表征學(xué)習(xí)和一次/少量/零次（映射）學(xué)習(xí)。也可以將超參數(shù)學(xué)習(xí)和神經(jīng)結(jié)構(gòu)設(shè)計(jì)看作是習(xí)得學(xué)習(xí)，它是實(shí)現(xiàn)強(qiáng)人工智能的核心，也是深度強(qiáng)化學(xué)習(xí)的發(fā)展方向。

一次/少量/零次（映射）學(xué)習(xí)是指在深度學(xué)習(xí)的訓(xùn)練集中，每個(gè)類別都只有一個(gè)或幾個(gè)的少量樣本、或者沒有某個(gè)類別的樣本，但仍然可以通過習(xí)得學(xué)習(xí)及遷移學(xué)習(xí)等得到一個(gè)映射學(xué)習(xí)模型，實(shí)現(xiàn)對(duì)各個(gè)類別都有較好的泛化效果。

3.深度強(qiáng)化學(xué)習(xí)的改進(jìn)技術(shù)

針對(duì)第一代深度強(qiáng)化學(xué)習(xí)模型收斂緩慢的痛點(diǎn)問題及歸因，可以采用以下兩種具體技術(shù)，即情景深度強(qiáng)化學(xué)習(xí)及元學(xué)習(xí)技術(shù)，更進(jìn)一步，可以將這兩種技術(shù)有機(jī)融合，構(gòu)成情景元深度強(qiáng)化學(xué)習(xí)技術(shù)。

3.1情景深度強(qiáng)化學(xué)習(xí)

考慮到參數(shù)增量調(diào)整是深度強(qiáng)化學(xué)習(xí)中收斂速度慢的重要原因，那么一個(gè)更快學(xué)習(xí)的方法則是避免這種增量更新。根據(jù)以上的分析，如果單純地提高梯度下降優(yōu)化的參數(shù)增量會(huì)導(dǎo)致災(zāi)難性干擾致使神經(jīng)網(wǎng)絡(luò)無法收斂不穩(wěn)定的問題。然而，實(shí)現(xiàn)此目標(biāo)可以采用另一種方法，即明確記錄過去的事件，并直接將其作為制定新決策的參考依據(jù)。這一概念被稱為情景深度強(qiáng)化學(xué)習(xí)，與機(jī)器學(xué)習(xí)中的“非參數(shù)”方法相似，類似于心理學(xué)中的“實(shí)例學(xué)習(xí)”或“范例學(xué)習(xí)”理論，通過情景記憶快速學(xué)習(xí)。當(dāng)遇到新情況時(shí)，必須決定采取什么行動(dòng)，程序是將當(dāng)前情況的內(nèi)部表示與過去情況的存儲(chǔ)表示進(jìn)行比較。然后基于與現(xiàn)在最相似的過去情況的結(jié)果，選擇與最大值函數(shù)相關(guān)聯(lián)的行動(dòng)。當(dāng)用多層神經(jīng)網(wǎng)絡(luò)計(jì)算內(nèi)部狀態(tài)表示時(shí)，這種算法稱為“情景深度強(qiáng)化學(xué)習(xí)”。

在情景深度強(qiáng)化學(xué)習(xí)中，與標(biāo)準(zhǔn)的增量方法不同，通過每個(gè)經(jīng)驗(yàn)事件獲得的信息可以立即用于指導(dǎo)行為。然而，盡管早期的深度強(qiáng)化學(xué)習(xí)方法顯得很“慢”，但是情景性的深度強(qiáng)化學(xué)習(xí)能夠“快”起來，但是這有一個(gè)轉(zhuǎn)折點(diǎn)：情節(jié)性深度強(qiáng)化學(xué)習(xí)的快速學(xué)習(xí)嚴(yán)重依賴于緩慢的增量學(xué)習(xí)。這是對(duì)連接權(quán)重的逐漸學(xué)習(xí)，允許系統(tǒng)形成有用的內(nèi)部表示或每個(gè)新觀察的嵌入。這些表示的格式本身是通過經(jīng)驗(yàn)學(xué)習(xí)的，使用與標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)的主干相同的增量參數(shù)更新。最終，情景深度強(qiáng)化學(xué)習(xí)的速度還是由這種較慢的學(xué)習(xí)形式實(shí)現(xiàn)的。即情景深度強(qiáng)化學(xué)習(xí)的快速學(xué)習(xí)是通過緩慢的深度強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)的。

這種“快速學(xué)習(xí)對(duì)慢學(xué)習(xí)的依賴”并不是巧合。正如將在下面討論的情況，這是一個(gè)基本原則，不但適用于心理學(xué)和神經(jīng)科學(xué)，同樣也適用人工智能領(lǐng)域。

3.2元學(xué)習(xí)：通過學(xué)習(xí)來加速深度強(qiáng)化學(xué)習(xí)

如前所述，除了增量更新之外，標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)過程收斂緩慢的第二個(gè)主要原因是弱偏置假設(shè)。正如偏置假設(shè)與方差權(quán)衡的概念所規(guī)定的那樣，快速學(xué)習(xí)要求學(xué)習(xí)者對(duì)其將要面對(duì)的模式結(jié)構(gòu)提出一套合理規(guī)模的假設(shè)。偏置假設(shè)越強(qiáng)，學(xué)習(xí)的速度就越快。然而，正如前面所預(yù)示的問題：一個(gè)較強(qiáng)的假設(shè)集只有在包含正確假設(shè)的情況下才能加快學(xué)習(xí)速度。雖然強(qiáng)烈的歸納偏置假設(shè)可以加速學(xué)習(xí)，但只有當(dāng)學(xué)習(xí)者采用的特定偏置假設(shè)恰好與要學(xué)習(xí)的材料相匹配時(shí)，才可以實(shí)現(xiàn)這種效果。因此，一個(gè)新的學(xué)習(xí)問題又出現(xiàn)了：學(xué)習(xí)者如何知道應(yīng)該采用什么樣的偏置假設(shè)呢？

對(duì)這個(gè)問題的很自然的回答就是借鑒過去的經(jīng)驗(yàn)。誠然，在日常生活中也經(jīng)常發(fā)生這種情形。例如，考慮學(xué)習(xí)使用新智能手機(jī)的日常任務(wù)。在這種情況下，人們過去使用智能手機(jī)和其他相關(guān)設(shè)備的經(jīng)驗(yàn)將告訴他們關(guān)于新手機(jī)應(yīng)該如何工作的假設(shè)，并將指導(dǎo)其對(duì)手機(jī)操作的探索。這些最初的假設(shè)與偏置假設(shè)-方差權(quán)衡中的“偏置假設(shè)”相對(duì)應(yīng)，這有助于快速學(xué)習(xí)如何使用新手機(jī)。如果沒有這些假設(shè)，就必須考慮更大范圍的學(xué)習(xí)偏置假設(shè)。

利用過去的經(jīng)驗(yàn)加速新的學(xué)習(xí)在機(jī)器學(xué)習(xí)中被稱為習(xí)得學(xué)習(xí)。其實(shí)這一理念源于心理學(xué)，在心理學(xué)中它被稱為“元學(xué)習(xí)”。元學(xué)習(xí)可以在深度強(qiáng)化學(xué)習(xí)中加速學(xué)習(xí)的過程。此時(shí)，用一系列相關(guān)的強(qiáng)化學(xué)習(xí)任務(wù)對(duì)一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)RNN進(jìn)行訓(xùn)練，RNN網(wǎng)絡(luò)中的權(quán)重調(diào)整得非常慢，因此RNN網(wǎng)絡(luò)可以吸收任務(wù)之間的共同點(diǎn)，但無法快速更改以支持任何單個(gè)任務(wù)的解決方案。RNN遞歸神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了各自獨(dú)立的強(qiáng)化學(xué)習(xí)算法，該算法基于過去任務(wù)積累的知識(shí)，能夠快速解決每個(gè)新任務(wù)。

與情景深度強(qiáng)化學(xué)習(xí)一樣，元學(xué)習(xí)又涉及到快速和緩慢學(xué)習(xí)之間的密切聯(lián)系。遞歸網(wǎng)絡(luò)中的連接在任務(wù)間緩慢更新，允許跨任務(wù)的一般原則“嵌入”遞歸網(wǎng)絡(luò)的動(dòng)態(tài)。由此產(chǎn)生的RNN神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了一種新的學(xué)習(xí)算法，可以快速解決新問題，因?yàn)槁龑W(xué)習(xí)的潛在過程賦予了其有用的歸納偏置假設(shè)。這里再次看到，快速學(xué)習(xí)源于慢學(xué)習(xí)，并由緩慢學(xué)習(xí)促成。

3.3情景元深度強(qiáng)化學(xué)習(xí)

以上實(shí)現(xiàn)的兩種技術(shù)并不相互排斥，這非常重要。事實(shí)上，可以整合元學(xué)習(xí)和情景控制的方法，充分利用它們的互補(bǔ)優(yōu)勢(shì)。在情景元深度強(qiáng)化學(xué)習(xí)模式中，在遞歸神經(jīng)網(wǎng)絡(luò)RNN中進(jìn)行元學(xué)習(xí)。同時(shí)，在RNN之上疊加一個(gè)情景記憶系統(tǒng)，其作用是恢復(fù)重復(fù)網(wǎng)絡(luò)中的活動(dòng)模式。與在情景深度強(qiáng)化學(xué)習(xí)中一樣，情景記憶對(duì)一組過去的事件進(jìn)行編目，這些事件可以基于當(dāng)前上下文進(jìn)行查詢。然而，不是將上下文與行動(dòng)值估計(jì)聯(lián)系起來，而是將上下文與遞歸網(wǎng)絡(luò)內(nèi)部或隱藏單元中存儲(chǔ)的活動(dòng)模式聯(lián)系起來。這些模式很重要，因?yàn)橥ㄟ^元深度強(qiáng)化學(xué)習(xí)，總結(jié)了智能體從與單個(gè)任務(wù)的交互中學(xué)到的模式。在情景元深度強(qiáng)化學(xué)習(xí)中，當(dāng)智能體遇到與過去遇到的情況相似的情況時(shí)，它將恢復(fù)先前遇到的內(nèi)部設(shè)置，允許先前獲得的信息立即影響當(dāng)前策略。實(shí)際上，場(chǎng)景內(nèi)存允許系統(tǒng)識(shí)別以前遇到的任務(wù)，檢索存儲(chǔ)的解決方案加以應(yīng)用。

通過模擬工作和導(dǎo)航任務(wù)，顯示出情景元深度強(qiáng)化學(xué)習(xí)，學(xué)會(huì)了強(qiáng)烈的歸納偏置假設(shè)，使其能夠快速解決新任務(wù)。更重要的是，當(dāng)遇到一個(gè)以前遇到的任務(wù)時(shí)，情景元深度強(qiáng)化學(xué)習(xí)會(huì)立即檢索并重新測(cè)試以前發(fā)現(xiàn)的解決方案。當(dāng)遇到新任務(wù)時(shí)，情景元深度強(qiáng)化學(xué)習(xí)系統(tǒng)受益于元深度強(qiáng)化學(xué)習(xí)的快速性;而在第二次及以后的遭遇中，系統(tǒng)又得益于情景控制所賦予的一次性學(xué)習(xí)能力。

4.結(jié)語

深度強(qiáng)化學(xué)習(xí)（DRL）方法的突破推動(dòng)了人工智能領(lǐng)域令人可喜的進(jìn)步。深度強(qiáng)化學(xué)習(xí)的6種重要的學(xué)習(xí)機(jī)制以及2項(xiàng)改進(jìn)技術(shù)，克服了模型收斂速度慢和樣本效率低下的痛點(diǎn)問題，使深度強(qiáng)化學(xué)習(xí)模式在眾多的領(lǐng)域能夠卓有成效的應(yīng)用。在教育領(lǐng)域，深度強(qiáng)化學(xué)習(xí)在基于教育大數(shù)據(jù)的教學(xué)自動(dòng)評(píng)估中發(fā)揮重要和不可替代的作用。

參考文獻(xiàn)

[1] BOTVINICK M， RITTER S， WANG J X， et al. Reinforcement Learning， Fast and Slow [J]. Trends in Cognitive Sciences，?2019， 23（5）： 408-22.

[2]萬里鵬，蘭旭光，張翰博， et al. 深度強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述 [J]. 模式識(shí)別與人工智能， 2019， 32（01）： 67-81.

[3] SILVER D， SCHRITTWIESER J， SIMONYAN K， et al. Mastering the game of Go without human knowledge [J]. Nature，?2017， 550（7676）： 354-+.

[4] SILVER D， HUBERT T， SCHRITTWIESER J， et al. A general reinforcement learning algorithm that masters chess， shogi， and Go through self-play [J]. Science， 2018， 362（6419）： 1140-+.

[5] ARULKUMARAN K， DEISENROTH M P， BRUNDAGE M， et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine， 2017， 34（6）： 26-38.

[6] 汪晨，曾凡玉，郭九霞.記憶增強(qiáng)型深度強(qiáng)化學(xué)習(xí)研究綜述[J].小型微型計(jì)算機(jī)系統(tǒng)， 2021， 42（03）：454-461.

[7] 趙星宇，丁世飛. 深度強(qiáng)化學(xué)習(xí)研究綜述 [J]. 計(jì)算機(jī)科學(xué)， 2018， 45（07）： 1-6.

[8] 秦智慧，李寧，劉曉彤等.無模型強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)科學(xué)， 2021， 48（03）：180-187.

[9] 孫路明，張少敏，姬濤等. 人工智能賦能的數(shù)據(jù)管理技術(shù)研究 [J]. 軟件學(xué)報(bào)， 2020， 31（03）： 600-19.

[10] 唐浪，李慧霞，顏晨倩，鄭俠武，紀(jì)榮嶸.深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索綜述[J].中國圖象圖形學(xué)報(bào)， 2021， 26（02）：245-264.

基金項(xiàng)目：①廣東省教育廳2019年度普通高校特色創(chuàng)新類項(xiàng)目（2019GKTSCX152）; ②廣東省教育廳2018年度重點(diǎn)平臺(tái)及科研項(xiàng)目特色創(chuàng)新項(xiàng)目（2018GWTSCX030）;③廣東省教育廳2018年度省高等職業(yè)教育教學(xué)質(zhì)量與教學(xué)改革工程教育教學(xué)改革研究與實(shí)踐項(xiàng)目（GDJG2019309）;④廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院2020科研項(xiàng)目重點(diǎn)項(xiàng)目（2020KY02）;5.廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院2020年校級(jí)質(zhì)量工程重點(diǎn)項(xiàng)目（SWZL202001）。

作者簡(jiǎn)介：吳英萍（1982.10-），講師，學(xué)士，廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用與軟件技術(shù)教研室專任教師。研究方向?yàn)檐浖夹g(shù)，人工智能;

*通訊作者：耿江濤（1965.12-），教授，高級(jí)工程師，華南師范大學(xué)博士生，廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院教育研究院教授。研究方向?yàn)榇髷?shù)據(jù)應(yīng)用技術(shù)，人工智能，高職教育管理與國際化。

熊曉波（1970.06-），教授，碩士，廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院副校長兼信息工程學(xué)院院長。研究方向?yàn)橛?jì)算機(jī)科學(xué)與技術(shù)，高職教育管理。

余雪蓮（1993.06-），助教，學(xué)士，廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用與軟件技術(shù)教研室專任教師。研究方向?yàn)檐浖夹g(shù)，人工智能。

1.廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院? ? 廣東廣州? ? 510540

2. 華南師范大學(xué)? ? 廣東廣州? ? ?510631

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能深度強(qiáng)化學(xué)習(xí)的重要機(jī)制及改進(jìn)技術(shù)