吳英萍 耿江濤 熊曉波 余雪蓮
【摘? 要】深度強(qiáng)化學(xué)習(xí)引發(fā)了人工智能領(lǐng)域的革命性突破,成為問題解決的通用框架。該學(xué)習(xí)模式將深層神經(jīng)網(wǎng)絡(luò)融入強(qiáng)化學(xué)習(xí),不但在圖像識(shí)別和自然語言處理等領(lǐng)域取得突破性的進(jìn)展,更在圍棋等復(fù)雜棋類游戲中具有超人的表現(xiàn)。總結(jié)歸納深度強(qiáng)化學(xué)習(xí)模式的優(yōu)勢(shì)在于其具有的6項(xiàng)重要學(xué)習(xí)機(jī)制。然而,這種模式也存在樣本數(shù)據(jù)有效性低的痛點(diǎn)問題。為此提出情景元深度強(qiáng)化學(xué)習(xí)的改進(jìn)技術(shù),力圖解決困擾深度強(qiáng)化學(xué)習(xí)的慢速和收斂穩(wěn)定問題。這對(duì)深度強(qiáng)化學(xué)習(xí)技術(shù)的實(shí)際應(yīng)用起到有效的推動(dòng)作用。
【關(guān)鍵詞】深度強(qiáng)化學(xué)習(xí);學(xué)習(xí)機(jī)制;情景深度強(qiáng)化學(xué)習(xí);元學(xué)習(xí);人工智能
引言
近幾年人工智能(Artificial Intelligence, AI)的研究取得了革命性的進(jìn)展。神經(jīng)網(wǎng)絡(luò)(Neural Network)或深度學(xué)習(xí)(Deep Learning,DL)方法的復(fù)興推動(dòng)了人工智能在圖像識(shí)別、自然語言處理和許多其他領(lǐng)域的技術(shù)突破。
強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)與深度學(xué)習(xí)相結(jié)合,產(chǎn)生的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)近年也取得了令人驚嘆的成就。特別是在圍棋和象棋等復(fù)雜棋類游戲中的超人表現(xiàn),使其迅速成為人工智能領(lǐng)域的研究熱點(diǎn)。
1.深度強(qiáng)化學(xué)習(xí)的痛點(diǎn)問題及原因
深度強(qiáng)化學(xué)習(xí)不是從更明確的教學(xué)中學(xué)習(xí),而是一套學(xué)習(xí)獎(jiǎng)懲的方法,如圖所示。表面看來,深度強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)方式與人類截然不同。然而深入探究深度強(qiáng)化學(xué)習(xí)機(jī)制的產(chǎn)生背景,則發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)機(jī)制最初來自動(dòng)物條件的作用研究,并與以多巴胺為中心的基于獎(jiǎng)勵(lì)學(xué)習(xí)的神經(jīng)機(jī)制密切相關(guān)。特別是深度強(qiáng)化學(xué)習(xí)系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)支持環(huán)境的泛化和強(qiáng)大的遷移學(xué)習(xí)能力,這正是生物大腦的關(guān)鍵能力。
1.1深度強(qiáng)化學(xué)習(xí)存在的痛點(diǎn)問題
然而,由于現(xiàn)實(shí)存在的深度強(qiáng)化學(xué)習(xí)系統(tǒng)的樣本數(shù)據(jù)有效性低這一痛點(diǎn)問題,使得大多數(shù)深度強(qiáng)化學(xué)習(xí)系統(tǒng)運(yùn)行太慢。典型的實(shí)例是,為了在國際象棋及圍棋之類的任務(wù)上,深度強(qiáng)化學(xué)習(xí)系統(tǒng)獲得人類專家級(jí)的水平,DRL系統(tǒng)需要比人類專家本身多許多數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)。若將樣本效率定義為一個(gè)學(xué)習(xí)系統(tǒng)達(dá)到任何選定的目標(biāo)性能水平所需的數(shù)據(jù)量,則在樣本效率方面,人類學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)存在顯著的差異。換言之,深度強(qiáng)化學(xué)習(xí)的樣本效率極低,無法為人類的學(xué)習(xí)提供一個(gè)合理的模型。
1.2深度強(qiáng)化學(xué)習(xí)痛點(diǎn)問題的原因
深度強(qiáng)化學(xué)習(xí)中系統(tǒng)收斂速度慢、樣本效率低是其痛點(diǎn)問題,歸結(jié)其原因是:
首要原因是參數(shù)增量小步長調(diào)整的要求。在人工智能研究中廣泛使用的深度強(qiáng)化學(xué)習(xí)系統(tǒng)都使用神經(jīng)網(wǎng)絡(luò)來連通從感知輸入到動(dòng)作輸出,采用梯度下降法對(duì)參數(shù)進(jìn)行迭代更新直到收斂。正如不僅在人工智能領(lǐng)域,而且在心理學(xué)領(lǐng)域廣泛討論的那樣,在這種學(xué)習(xí)形式中所做的參數(shù)增量調(diào)整必須很小,以便最大限度地收斂和泛化。如果參數(shù)增量過大,導(dǎo)致覆蓋早期學(xué)習(xí)的效果,出現(xiàn)災(zāi)難性干擾會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法收斂不穩(wěn)定的情況。深度強(qiáng)化學(xué)習(xí)中對(duì)參數(shù)增量小步長調(diào)整的需求是DRL系統(tǒng)緩慢的原因。
第二個(gè)原因是弱偏置假設(shè)。學(xué)習(xí)理論闡明,任何學(xué)習(xí)過程都必然面臨偏置假設(shè)與方差的權(quán)衡。學(xué)習(xí)過程中需要學(xué)習(xí)的模式的初始偏置假設(shè)越強(qiáng),即模型的假設(shè)空間越小且與實(shí)際數(shù)據(jù)中的內(nèi)容匹配,學(xué)習(xí)過程的初始模型正確度越高,完成學(xué)習(xí)所需的數(shù)據(jù)就越少。反之,如果學(xué)習(xí)過程中需要學(xué)習(xí)的模式的初始偏置假設(shè)較弱,即模型的假設(shè)空間越大,就能夠適合更廣泛的模式且允許更大的方差,但通常導(dǎo)致樣本效率較低。重要的是,深度強(qiáng)化學(xué)習(xí)使用的泛型神經(jīng)網(wǎng)絡(luò)是一種極弱偏置假設(shè)的學(xué)習(xí)系統(tǒng),即模型的假設(shè)空間極大,模型有許多表征連接權(quán)重的參數(shù),且使用這些參數(shù)來擬合廣泛的數(shù)據(jù)。正如偏置假設(shè)與方差權(quán)衡所決定的,這表明普通的深度強(qiáng)化學(xué)習(xí)模型中采用的一般形式的神經(jīng)網(wǎng)絡(luò)往往樣本效率低下,需要大量的數(shù)據(jù)來學(xué)習(xí)。
2.深度強(qiáng)化學(xué)習(xí)重要機(jī)制
深度強(qiáng)化學(xué)習(xí)能夠解決諸多人工智能領(lǐng)域的現(xiàn)實(shí)問題,成為通用的問題解決框架,是因?yàn)榇嬖谝韵掳l(fā)揮重要作用的機(jī)制,包括注意和記憶、無監(jiān)督學(xué)習(xí)、轉(zhuǎn)移學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)和習(xí)得學(xué)習(xí)等機(jī)制。
2.1注意力和存儲(chǔ)機(jī)制
這是一種專注于突出部分的機(jī)制。存儲(chǔ)器提供長時(shí)間的數(shù)據(jù)存儲(chǔ),而注意力聚焦則是存儲(chǔ)器尋址的一種方法。
可微神經(jīng)計(jì)算機(jī)(Differentiable Neural Computer, DNC)中的神經(jīng)網(wǎng)絡(luò)可以對(duì)外部存儲(chǔ)器進(jìn)行讀寫,因此DNC就可以解決復(fù)雜的結(jié)構(gòu)化問題,而沒有讀寫存儲(chǔ)器的神經(jīng)網(wǎng)絡(luò)無法解決這些問題。DNC將內(nèi)存分配干擾降至最低,并支持長期存儲(chǔ)。與傳統(tǒng)計(jì)算機(jī)類似,在DNC中,神經(jīng)網(wǎng)絡(luò)是控制器,外部存儲(chǔ)器是隨機(jī)存取存儲(chǔ)器;DNC用存儲(chǔ)器來表示和操作復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。不同的是,DNC以一種目標(biāo)導(dǎo)向的方式,通過梯度下降從數(shù)據(jù)端到端地學(xué)習(xí)這種表示和操作。在有監(jiān)督學(xué)習(xí)的訓(xùn)練下,DNC可以解決自然語言推理和推理中的綜合問答問題;它可以解決交通網(wǎng)絡(luò)中兩站之間的最短路徑發(fā)現(xiàn)問題和家譜中的關(guān)系推理問題。當(dāng)使用強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),DNC可以解決由符號(hào)序列指定的目標(biāo)變化的移動(dòng)塊難題。在進(jìn)行的小規(guī)模實(shí)驗(yàn)中,DNC的表現(xiàn)優(yōu)于正常的神經(jīng)網(wǎng)絡(luò),如長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory networks, LSTM)或DNC的前體神經(jīng)圖靈機(jī)??梢灶A(yù)期DNC能得到進(jìn)一步的改進(jìn)和應(yīng)用。
2.2無監(jiān)督學(xué)習(xí)機(jī)制
無監(jiān)督學(xué)習(xí)是一種利用海量數(shù)據(jù)的方法,是實(shí)現(xiàn)通用人工智能的關(guān)鍵機(jī)制。無監(jiān)督學(xué)習(xí)分為非概率模型,如稀疏編碼、自動(dòng)編碼器、k-Means等,以及概率(生成)模型,其中涉及密度函數(shù)(顯式還是隱式)。在具有顯式密度函數(shù)的概率(生成)模型中,有些具有可跟蹤模型,如完全可觀測(cè)的信念網(wǎng)和神經(jīng)自回歸分布估計(jì)器等;有些具有不可跟蹤模型,如Botlzmann機(jī)、變分自編碼器、Helmhotz機(jī),對(duì)于具有隱式密度函數(shù)的概率(生成)模型,則有生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs)、矩匹配網(wǎng)絡(luò)等。
Horde值函數(shù):采用一般價(jià)值函數(shù)表示知識(shí),其中策略、終止函數(shù)、獎(jiǎng)勵(lì)函數(shù)和終端獎(jiǎng)勵(lì)函數(shù)是參數(shù)。這是一種可擴(kuò)展的實(shí)時(shí)體系結(jié)構(gòu),用于從無監(jiān)督的感覺運(yùn)動(dòng)交互作用(即無向信號(hào)和觀察)中學(xué)習(xí)獨(dú)立智能體的一般值函數(shù)。Horde值函數(shù)可以學(xué)習(xí)預(yù)測(cè)許多傳感器的值,并使用一般的值函數(shù)來最大化這些傳感器值的策略,來回答預(yù)測(cè)性或目標(biāo)導(dǎo)向的問題。Horde值函數(shù)是非策略的,即在遵循其他行為策略的同時(shí)進(jìn)行實(shí)時(shí)學(xué)習(xí),并采用基于梯度的時(shí)差學(xué)習(xí)方法進(jìn)行學(xué)習(xí),每一時(shí)間步的時(shí)間和內(nèi)存復(fù)雜度都是恒定的。
輔助學(xué)習(xí):環(huán)境可能包含豐富的可能訓(xùn)練信號(hào),有助于加速實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大化的主要目標(biāo),例如像素變化可能暗示重要事件,輔助獎(jiǎng)勵(lì)任務(wù)有助于實(shí)現(xiàn)獎(jiǎng)勵(lì)狀態(tài)的良好表示。當(dāng)外在的獎(jiǎng)勵(lì)信號(hào)很少被觀察到時(shí),這有很大的幫助。無監(jiān)督強(qiáng)化學(xué)習(xí)和輔助學(xué)習(xí)(UNsupervised REinforcement and Auxiliary Learning, UNREAL)可以提高學(xué)習(xí)效率,除了通常的累積獎(jiǎng)勵(lì)外,還通過最大化偽獎(jiǎng)勵(lì)函數(shù)來提高學(xué)習(xí)效率,同時(shí)共享一個(gè)共同的表征。UNREAL由RNN-LSTM基代理、像素控制、獎(jiǎng)勵(lì)預(yù)測(cè)和值函數(shù)反饋組成?;局悄荏w通過異步動(dòng)作者-評(píng)判者算法 (Asynchronous Actor Critic, A3C) 策略訓(xùn)練,觀察、獎(jiǎng)勵(lì)和行動(dòng)的經(jīng)驗(yàn)被儲(chǔ)存在應(yīng)答緩沖區(qū)中,供輔助任務(wù)使用。輔助策略使用基本的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和LSTM,加上一個(gè)反卷積網(wǎng)絡(luò),使輸入圖像不同區(qū)域的像素強(qiáng)度變化最大化。獎(jiǎng)勵(lì)預(yù)測(cè)模塊通過觀察后三幀預(yù)測(cè)下一幀的短期外部獎(jiǎng)勵(lì),以解決獎(jiǎng)勵(lì)稀疏的問題。值函數(shù)反饋進(jìn)一步訓(xùn)練了值函數(shù)。
生成對(duì)抗網(wǎng)絡(luò):同時(shí)訓(xùn)練兩個(gè)模型,通過對(duì)抗過程估計(jì)生成模型,生成模型G用于捕獲數(shù)據(jù)分布,判別模型D用于估計(jì)來自訓(xùn)練數(shù)據(jù)而非生成模型G的樣本的概率。通過用多層感知器對(duì)G和D進(jìn)行建模,當(dāng)G和D的訓(xùn)練數(shù)據(jù)集有足夠的容量時(shí),生成對(duì)抗網(wǎng)可以恢復(fù)數(shù)據(jù)生成分布,并通過小批量隨機(jī)梯度下降提供了一種帶反向傳播的G和D訓(xùn)練算法。
2.3遷移學(xué)習(xí)機(jī)制
傳統(tǒng)的機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)只有在特定領(lǐng)域的訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)都來自同一個(gè)特征空間和統(tǒng)一分布的時(shí)候,學(xué)習(xí)和應(yīng)用的效果比較好。因此當(dāng)應(yīng)用領(lǐng)域變化和數(shù)據(jù)集發(fā)生變化時(shí),都要重新訓(xùn)練模型。
遷移學(xué)習(xí)是指將從不同領(lǐng)域?qū)W到的知識(shí)進(jìn)行遷移,新的應(yīng)用領(lǐng)域可能具有與原來學(xué)習(xí)和訓(xùn)練的數(shù)據(jù)集不同的特征空間和/或不同的數(shù)據(jù)分布。遷移學(xué)習(xí)包括歸納遷移學(xué)習(xí)、轉(zhuǎn)化遷移學(xué)習(xí)及無監(jiān)督遷移學(xué)習(xí)。歸納遷移學(xué)習(xí)包括自學(xué)學(xué)習(xí)和多任務(wù)學(xué)習(xí);而轉(zhuǎn)化遷移學(xué)習(xí)包括領(lǐng)域適應(yīng)和樣本選擇偏置假設(shè)/協(xié)方差偏移。
目前提出的兩個(gè)智能體學(xué)習(xí)多種技能的多技能問題,定義了用于映射狀態(tài)和投射技能執(zhí)行的公共表示,并設(shè)計(jì)了兩個(gè)智能體最大限度地轉(zhuǎn)移信息特征空間以轉(zhuǎn)移新技能的算法,該算法采用相似性損失度量法,自動(dòng)編碼,強(qiáng)化學(xué)習(xí)。通過用兩個(gè)模擬機(jī)器人操作任務(wù)已經(jīng)驗(yàn)證了這種方法。
2.4多智能體強(qiáng)化學(xué)習(xí)機(jī)制
多智能體強(qiáng)化學(xué)習(xí)是多智能體系統(tǒng)(Multi-Agent)與強(qiáng)化學(xué)習(xí)系統(tǒng)的集成,因此處于博弈論與強(qiáng)化學(xué)習(xí)/人工智能社區(qū)的交叉點(diǎn)。除了強(qiáng)化學(xué)習(xí)中的收斂性和維數(shù)爆炸等問題外,還有諸如多重均衡的新問題,甚至還有諸如多智能體學(xué)習(xí)的問題是什么,收斂到均衡點(diǎn)是否是一個(gè)合適的目標(biāo)等基本問題。因此,多智能體學(xué)習(xí)在技術(shù)和概念上都是一個(gè)挑戰(zhàn),需要清楚地理解待解決的問題、評(píng)估標(biāo)準(zhǔn)和連貫的研究過程。
2.5分層強(qiáng)化學(xué)習(xí)機(jī)制
分層強(qiáng)化學(xué)習(xí)是一種在多個(gè)層次上通過時(shí)空抽象來學(xué)習(xí)、規(guī)劃和表示知識(shí)的方法。分層強(qiáng)化學(xué)習(xí)也是一種解決稀疏報(bào)酬和長期視野問題的方法。專注寫入策略架構(gòu) (STRategic Attentive Writer, STRAW)是一種深度遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu),用于根據(jù)環(huán)境觀察結(jié)果,以端到端的方式學(xué)習(xí)高層時(shí)間抽象宏觀行為。宏動(dòng)作是指發(fā)生的一系列動(dòng)作。STRAW建立了一個(gè)多步驟的動(dòng)作計(jì)劃,根據(jù)觀察到的獎(jiǎng)勵(lì)定期更新,并通過遵循計(jì)劃而無需重新計(jì)劃來學(xué)習(xí)執(zhí)行計(jì)劃的時(shí)間。STRAW學(xué)會(huì)了從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)宏動(dòng)作,這與以前工作中的手動(dòng)方法不同。
分層DQN(hierarchical-DQN, h-DQN),通過分層組織目標(biāo)驅(qū)動(dòng)的內(nèi)在激勵(lì)深度強(qiáng)化學(xué)習(xí)模塊在不同的時(shí)間尺度上工作。h-DQN集成了一個(gè)頂層的動(dòng)作值函數(shù)和一個(gè)較低層次的動(dòng)作值函數(shù);前者學(xué)習(xí)一個(gè)超過內(nèi)在子目標(biāo)或選項(xiàng)的策略;后者學(xué)習(xí)一個(gè)超過原始動(dòng)作的策略來滿足給定的子目標(biāo)。
使用帶有信息論正則化器的隨機(jī)神經(jīng)網(wǎng)絡(luò)對(duì)大跨度的技能進(jìn)行預(yù)訓(xùn)練,然后在這些技能的基礎(chǔ)上,為下階段任務(wù)訓(xùn)練高級(jí)策略。預(yù)訓(xùn)練基于智能體的獎(jiǎng)勵(lì)信號(hào),這是一種探索智能體自身能力的內(nèi)在動(dòng)機(jī),其設(shè)計(jì)要求對(duì)下階段任務(wù)領(lǐng)域知識(shí)最少。這種方法將層次分析法與內(nèi)在動(dòng)機(jī)相結(jié)合,并且預(yù)訓(xùn)練遵循無監(jiān)督的方式。此外,還可以采用終身學(xué)習(xí)的分層深層RL網(wǎng)絡(luò)架構(gòu),進(jìn)行學(xué)習(xí)可重用的技能或子目標(biāo),將學(xué)習(xí)的知識(shí)遷移到新的任務(wù)中。
2.6習(xí)得學(xué)習(xí)機(jī)制
習(xí)得學(xué)習(xí)也被稱為元學(xué)習(xí),是學(xué)習(xí)如何快速適應(yīng)新的任務(wù)。它涉及遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、表征學(xué)習(xí)和一次/少量/零次(映射)學(xué)習(xí)。也可以將超參數(shù)學(xué)習(xí)和神經(jīng)結(jié)構(gòu)設(shè)計(jì)看作是習(xí)得學(xué)習(xí),它是實(shí)現(xiàn)強(qiáng)人工智能的核心,也是深度強(qiáng)化學(xué)習(xí)的發(fā)展方向。
一次/少量/零次(映射)學(xué)習(xí)是指在深度學(xué)習(xí)的訓(xùn)練集中,每個(gè)類別都只有一個(gè)或幾個(gè)的少量樣本、或者沒有某個(gè)類別的樣本,但仍然可以通過習(xí)得學(xué)習(xí)及遷移學(xué)習(xí)等得到一個(gè)映射學(xué)習(xí)模型,實(shí)現(xiàn)對(duì)各個(gè)類別都有較好的泛化效果。
3.深度強(qiáng)化學(xué)習(xí)的改進(jìn)技術(shù)
針對(duì)第一代深度強(qiáng)化學(xué)習(xí)模型收斂緩慢的痛點(diǎn)問題及歸因,可以采用以下兩種具體技術(shù),即情景深度強(qiáng)化學(xué)習(xí)及元學(xué)習(xí)技術(shù),更進(jìn)一步,可以將這兩種技術(shù)有機(jī)融合,構(gòu)成情景元深度強(qiáng)化學(xué)習(xí)技術(shù)。
3.1情景深度強(qiáng)化學(xué)習(xí)
考慮到參數(shù)增量調(diào)整是深度強(qiáng)化學(xué)習(xí)中收斂速度慢的重要原因,那么一個(gè)更快學(xué)習(xí)的方法則是避免這種增量更新。根據(jù)以上的分析,如果單純地提高梯度下降優(yōu)化的參數(shù)增量會(huì)導(dǎo)致災(zāi)難性干擾致使神經(jīng)網(wǎng)絡(luò)無法收斂不穩(wěn)定的問題。然而,實(shí)現(xiàn)此目標(biāo)可以采用另一種方法,即明確記錄過去的事件,并直接將其作為制定新決策的參考依據(jù)。這一概念被稱為情景深度強(qiáng)化學(xué)習(xí),與機(jī)器學(xué)習(xí)中的“非參數(shù)”方法相似,類似于心理學(xué)中的“實(shí)例學(xué)習(xí)”或“范例學(xué)習(xí)”理論,通過情景記憶快速學(xué)習(xí)。當(dāng)遇到新情況時(shí),必須決定采取什么行動(dòng),程序是將當(dāng)前情況的內(nèi)部表示與過去情況的存儲(chǔ)表示進(jìn)行比較。然后基于與現(xiàn)在最相似的過去情況的結(jié)果,選擇與最大值函數(shù)相關(guān)聯(lián)的行動(dòng)。當(dāng)用多層神經(jīng)網(wǎng)絡(luò)計(jì)算內(nèi)部狀態(tài)表示時(shí),這種算法稱為“情景深度強(qiáng)化學(xué)習(xí)”。
在情景深度強(qiáng)化學(xué)習(xí)中,與標(biāo)準(zhǔn)的增量方法不同,通過每個(gè)經(jīng)驗(yàn)事件獲得的信息可以立即用于指導(dǎo)行為。然而,盡管早期的深度強(qiáng)化學(xué)習(xí)方法顯得很“慢”,但是情景性的深度強(qiáng)化學(xué)習(xí)能夠“快”起來,但是這有一個(gè)轉(zhuǎn)折點(diǎn):情節(jié)性深度強(qiáng)化學(xué)習(xí)的快速學(xué)習(xí)嚴(yán)重依賴于緩慢的增量學(xué)習(xí)。這是對(duì)連接權(quán)重的逐漸學(xué)習(xí),允許系統(tǒng)形成有用的內(nèi)部表示或每個(gè)新觀察的嵌入。這些表示的格式本身是通過經(jīng)驗(yàn)學(xué)習(xí)的,使用與標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)的主干相同的增量參數(shù)更新。最終,情景深度強(qiáng)化學(xué)習(xí)的速度還是由這種較慢的學(xué)習(xí)形式實(shí)現(xiàn)的。即情景深度強(qiáng)化學(xué)習(xí)的快速學(xué)習(xí)是通過緩慢的深度強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)的。
這種“快速學(xué)習(xí)對(duì)慢學(xué)習(xí)的依賴”并不是巧合。正如將在下面討論的情況,這是一個(gè)基本原則,不但適用于心理學(xué)和神經(jīng)科學(xué),同樣也適用人工智能領(lǐng)域。
3.2元學(xué)習(xí):通過學(xué)習(xí)來加速深度強(qiáng)化學(xué)習(xí)
如前所述,除了增量更新之外,標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)過程收斂緩慢的第二個(gè)主要原因是弱偏置假設(shè)。正如偏置假設(shè)與方差權(quán)衡的概念所規(guī)定的那樣,快速學(xué)習(xí)要求學(xué)習(xí)者對(duì)其將要面對(duì)的模式結(jié)構(gòu)提出一套合理規(guī)模的假設(shè)。偏置假設(shè)越強(qiáng),學(xué)習(xí)的速度就越快。然而,正如前面所預(yù)示的問題:一個(gè)較強(qiáng)的假設(shè)集只有在包含正確假設(shè)的情況下才能加快學(xué)習(xí)速度。雖然強(qiáng)烈的歸納偏置假設(shè)可以加速學(xué)習(xí),但只有當(dāng)學(xué)習(xí)者采用的特定偏置假設(shè)恰好與要學(xué)習(xí)的材料相匹配時(shí),才可以實(shí)現(xiàn)這種效果。因此,一個(gè)新的學(xué)習(xí)問題又出現(xiàn)了:學(xué)習(xí)者如何知道應(yīng)該采用什么樣的偏置假設(shè)呢?
對(duì)這個(gè)問題的很自然的回答就是借鑒過去的經(jīng)驗(yàn)。誠然,在日常生活中也經(jīng)常發(fā)生這種情形。例如,考慮學(xué)習(xí)使用新智能手機(jī)的日常任務(wù)。在這種情況下,人們過去使用智能手機(jī)和其他相關(guān)設(shè)備的經(jīng)驗(yàn)將告訴他們關(guān)于新手機(jī)應(yīng)該如何工作的假設(shè),并將指導(dǎo)其對(duì)手機(jī)操作的探索。這些最初的假設(shè)與偏置假設(shè)-方差權(quán)衡中的“偏置假設(shè)”相對(duì)應(yīng),這有助于快速學(xué)習(xí)如何使用新手機(jī)。如果沒有這些假設(shè),就必須考慮更大范圍的學(xué)習(xí)偏置假設(shè)。
利用過去的經(jīng)驗(yàn)加速新的學(xué)習(xí)在機(jī)器學(xué)習(xí)中被稱為習(xí)得學(xué)習(xí)。其實(shí)這一理念源于心理學(xué),在心理學(xué)中它被稱為“元學(xué)習(xí)”。元學(xué)習(xí)可以在深度強(qiáng)化學(xué)習(xí)中加速學(xué)習(xí)的過程。此時(shí),用一系列相關(guān)的強(qiáng)化學(xué)習(xí)任務(wù)對(duì)一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)RNN進(jìn)行訓(xùn)練,RNN網(wǎng)絡(luò)中的權(quán)重調(diào)整得非常慢,因此RNN網(wǎng)絡(luò)可以吸收任務(wù)之間的共同點(diǎn),但無法快速更改以支持任何單個(gè)任務(wù)的解決方案。RNN遞歸神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了各自獨(dú)立的強(qiáng)化學(xué)習(xí)算法,該算法基于過去任務(wù)積累的知識(shí),能夠快速解決每個(gè)新任務(wù)。
與情景深度強(qiáng)化學(xué)習(xí)一樣,元學(xué)習(xí)又涉及到快速和緩慢學(xué)習(xí)之間的密切聯(lián)系。遞歸網(wǎng)絡(luò)中的連接在任務(wù)間緩慢更新,允許跨任務(wù)的一般原則“嵌入”遞歸網(wǎng)絡(luò)的動(dòng)態(tài)。由此產(chǎn)生的RNN神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了一種新的學(xué)習(xí)算法,可以快速解決新問題,因?yàn)槁龑W(xué)習(xí)的潛在過程賦予了其有用的歸納偏置假設(shè)。這里再次看到,快速學(xué)習(xí)源于慢學(xué)習(xí),并由緩慢學(xué)習(xí)促成。
3.3情景元深度強(qiáng)化學(xué)習(xí)
以上實(shí)現(xiàn)的兩種技術(shù)并不相互排斥,這非常重要。事實(shí)上,可以整合元學(xué)習(xí)和情景控制的方法,充分利用它們的互補(bǔ)優(yōu)勢(shì)。在情景元深度強(qiáng)化學(xué)習(xí)模式中,在遞歸神經(jīng)網(wǎng)絡(luò)RNN中進(jìn)行元學(xué)習(xí)。同時(shí),在RNN之上疊加一個(gè)情景記憶系統(tǒng),其作用是恢復(fù)重復(fù)網(wǎng)絡(luò)中的活動(dòng)模式。與在情景深度強(qiáng)化學(xué)習(xí)中一樣,情景記憶對(duì)一組過去的事件進(jìn)行編目,這些事件可以基于當(dāng)前上下文進(jìn)行查詢。然而,不是將上下文與行動(dòng)值估計(jì)聯(lián)系起來,而是將上下文與遞歸網(wǎng)絡(luò)內(nèi)部或隱藏單元中存儲(chǔ)的活動(dòng)模式聯(lián)系起來。這些模式很重要,因?yàn)橥ㄟ^元深度強(qiáng)化學(xué)習(xí),總結(jié)了智能體從與單個(gè)任務(wù)的交互中學(xué)到的模式。在情景元深度強(qiáng)化學(xué)習(xí)中,當(dāng)智能體遇到與過去遇到的情況相似的情況時(shí),它將恢復(fù)先前遇到的內(nèi)部設(shè)置,允許先前獲得的信息立即影響當(dāng)前策略。實(shí)際上,場(chǎng)景內(nèi)存允許系統(tǒng)識(shí)別以前遇到的任務(wù),檢索存儲(chǔ)的解決方案加以應(yīng)用。
通過模擬工作和導(dǎo)航任務(wù),顯示出情景元深度強(qiáng)化學(xué)習(xí),學(xué)會(huì)了強(qiáng)烈的歸納偏置假設(shè),使其能夠快速解決新任務(wù)。更重要的是,當(dāng)遇到一個(gè)以前遇到的任務(wù)時(shí),情景元深度強(qiáng)化學(xué)習(xí)會(huì)立即檢索并重新測(cè)試以前發(fā)現(xiàn)的解決方案。當(dāng)遇到新任務(wù)時(shí),情景元深度強(qiáng)化學(xué)習(xí)系統(tǒng)受益于元深度強(qiáng)化學(xué)習(xí)的快速性;而在第二次及以后的遭遇中,系統(tǒng)又得益于情景控制所賦予的一次性學(xué)習(xí)能力。
4.結(jié)語
深度強(qiáng)化學(xué)習(xí)(DRL)方法的突破推動(dòng)了人工智能領(lǐng)域令人可喜的進(jìn)步。深度強(qiáng)化學(xué)習(xí)的6種重要的學(xué)習(xí)機(jī)制以及2項(xiàng)改進(jìn)技術(shù),克服了模型收斂速度慢和樣本效率低下的痛點(diǎn)問題,使深度強(qiáng)化學(xué)習(xí)模式在眾多的領(lǐng)域能夠卓有成效的應(yīng)用。在教育領(lǐng)域,深度強(qiáng)化學(xué)習(xí)在基于教育大數(shù)據(jù)的教學(xué)自動(dòng)評(píng)估中發(fā)揮重要和不可替代的作用。
參考文獻(xiàn)
[1] BOTVINICK M, RITTER S, WANG J X, et al. Reinforcement Learning, Fast and Slow [J]. Trends in Cognitive Sciences,?2019, 23(5): 408-22.
[2]萬里鵬, 蘭旭光, 張翰博, et al. 深度強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述 [J]. 模式識(shí)別與人工智能, 2019, 32(01): 67-81.
[3] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature,?2017, 550(7676): 354-+.
[4] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.
[5] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38.
[6] 汪晨,曾凡玉,郭九霞.記憶增強(qiáng)型深度強(qiáng)化學(xué)習(xí)研究綜述[J].小型微型計(jì)算機(jī)系統(tǒng), 2021, 42(03):454-461.
[7] 趙星宇,丁世飛. 深度強(qiáng)化學(xué)習(xí)研究綜述 [J]. 計(jì)算機(jī)科學(xué), 2018, 45(07): 1-6.
[8] 秦智慧,李寧,劉曉彤等.無模型強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)科學(xué), 2021, 48(03):180-187.
[9] 孫路明,張少敏,姬濤等. 人工智能賦能的數(shù)據(jù)管理技術(shù)研究 [J]. 軟件學(xué)報(bào), 2020, 31(03): 600-19.
[10] 唐浪,李慧霞,顏晨倩,鄭俠武,紀(jì)榮嶸.深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索綜述[J].中國圖象圖形學(xué)報(bào), 2021, 26(02):245-264.
基金項(xiàng)目:①廣東省教育廳2019年度普通高校特色創(chuàng)新類項(xiàng)目(2019GKTSCX152); ②廣東省教育廳2018年度重點(diǎn)平臺(tái)及科研項(xiàng)目特色創(chuàng)新項(xiàng)目(2018GWTSCX030);③廣東省教育廳2018年度省高等職業(yè)教育教學(xué)質(zhì)量與教學(xué)改革工程教育教學(xué)改革研究與實(shí)踐項(xiàng)目(GDJG2019309);④廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院2020科研項(xiàng)目重點(diǎn)項(xiàng)目(2020KY02);5.廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院2020年校級(jí)質(zhì)量工程重點(diǎn)項(xiàng)目(SWZL202001)。
作者簡(jiǎn)介:吳英萍(1982.10-),講師,學(xué)士,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用與軟件技術(shù)教研室專任教師。研究方向?yàn)檐浖夹g(shù),人工智能;
*通訊作者:耿江濤(1965.12-),教授,高級(jí)工程師,華南師范大學(xué)博士生,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院教育研究院教授。研究方向?yàn)榇髷?shù)據(jù)應(yīng)用技術(shù),人工智能,高職教育管理與國際化。
熊曉波(1970.06-),教授,碩士,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院副校長兼信息工程學(xué)院院長。研究方向?yàn)橛?jì)算機(jī)科學(xué)與技術(shù),高職教育管理。
余雪蓮(1993.06-),助教,學(xué)士,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用與軟件技術(shù)教研室專任教師。研究方向?yàn)檐浖夹g(shù),人工智能。
1.廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院? ? 廣東廣州? ? 510540
2. 華南師范大學(xué)? ? 廣東廣州? ? ?510631