国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經網絡的強化學習研究概述

2012-12-31 00:00:00尤樹華周誼成王輝
電腦知識與技術 2012年28期


  摘要: 隨著強化學習的日益發(fā)展,研究越來越深入,將神經網絡引入強化學習的研究中已經成為熱點課題之一。本文首先介紹強化學習的定義、原理及一般結構,接著簡單表述神經網絡的基本內容和馬爾科夫決策過程模型;然后將強化學習和神經網絡融合,重點介紹了兩種常見的學習算法,算法都是改進過并且融合了神經網絡的特性;最后,簡單介紹該方式的強化學習在人工智能,控制系統(tǒng),游戲以及優(yōu)化調度等領域的應用情況。
  關鍵詞:強化學習;神經網絡;馬爾科夫決策過程;算法;應用
  中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2012)28-6782-05
  在機器學習領域,大致可以將學習分為監(jiān)督學習、非監(jiān)督學習和強化學習三大類。強化學習以其在線學習能力和具有無導師制的自適應能力,因此被認為設計智能Agent的核心技術之一。從20世紀80年代末開始,隨著數(shù)學基礎日益發(fā)展的支持,應用范圍不斷擴大,強化學習也就成為目前機器學習的研究熱點之一。在研究過程中,隨著各種方法、技術和算法大量應用于強化學習中,其缺陷和問題也就日漸顯現(xiàn)出來,尋找一種更好的方式和算法來促進強化學習的發(fā)展和廣泛應用,是研究人員探討和研究的重點。因此,神經網絡及其算法以其獨特的泛化能力和存儲能力成為眾多研究人員重視的研究對象。
  在此之前,已有大量研究者通過神經網絡的特性來加強強化學習的效果及應用。張濤[2]等人利用將Q學習算法和神經網絡中的BP網絡、S激活函數(shù)相結合,加上神經網絡的泛化能力,不僅解決了倒立擺系統(tǒng)的一系列問題,而且還進一步提高了強化學習理論在實際控制系統(tǒng)的應用。林聯(lián)明在神經網絡的基礎研究Sarsa強化算法,提出用BP網絡隊列保存SAPs,解決由于過大而帶來的Q值表示問題[3]。強化學習理論在機器控制研究中也應用廣泛。段勇在基于行為的移動機器人控制方法基礎上,將模糊神經網絡與強化學習理論相結合,構成模糊強化系統(tǒng),解決了連續(xù)狀態(tài)空間和動作空間的強化學習問題和復雜環(huán)境中的機器人導航問題[4]。由此可見,將神經網絡與強化學習相結合,已經是現(xiàn)今強化學習研究的重點方向,也已經取得了頗豐的成果。但是,如何將神經網絡和強化學習理論更好的融合,選擇何種算法及模型,如何減少計算量和加快學習算法收斂速度,以此來推動強化學習理論研究更向前發(fā)展,解決更多的實際應用問題,這些依然還是待解決的研究課題之一。下面,根據本人對強化學習的研究,朋友給予的指導以及參照前人的研究成果,對基于神經網絡的強化學習作個基本概述。
  1 強化學習
  強化學習(reinforcement),又稱再勵學習或評價學習,它是重要的機器學習方法之一,在機器人控制、制造過程控制、任務調配及游戲中有著廣泛的應用。
  1.1 定義
  所謂強化學習就是智能Agent從環(huán)境狀態(tài)到行為映射的學習,并通過不斷試錯的方法選擇最優(yōu)行為策略,以使動作從環(huán)境中獲得的累積獎賞值最大。
  強化學習狀態(tài)值函數(shù)有三個基本表達式,如下:
  這三個狀態(tài)的值函數(shù)或狀態(tài)—動作對函數(shù)的值函數(shù)是用來表達目標函數(shù),該目標函數(shù)是從長期的觀點確定什么是最優(yōu)的動作。其中[γ]為折扣因子,[rt]是agent從環(huán)境狀態(tài)[st]到[st+1]轉移后所接受到的獎賞值,其值可以為正,負或零。其中式(1)為無限折扣模型,即agent需要考慮未來h([h→∞])步的獎賞,且在值函數(shù)以某種形式進行累積;式(2)為有限模型,也就是說agent只考慮未來h步的獎賞和。式(3)為平均獎賞模型,agent考慮其長期平均的獎賞值。最優(yōu)策略可以由(4)式確定
  1.2 基本原理與一般結構
  強化學習就是能夠和環(huán)境進行交互的智能Agent,通過怎樣的學習選擇能夠達到其目標的最優(yōu)動作。通俗的說,在Agent與環(huán)境進行交互的過程中,每個行為動作都會獲得特定的獎賞值。如果Agent的某個行為策略導致環(huán)境正的獎賞值(強化信號),那么Agent以后產生這個行為策略的趨勢就會加強。Agent的目標就是對每個離散的狀態(tài)發(fā)現(xiàn)最優(yōu)策略以期望的折扣獎賞和最大。
  在上述定義中描述了強化學習的三個狀態(tài)值或函數(shù)動作對函數(shù)來表達目標函數(shù),可以求得最優(yōu)策略(根據(4)式)。但是由于環(huán)境具有不確定性[5],因此在策略[π]的作用下,狀態(tài)[st]的值也可以寫為
  強化學習把學習看作試探評價過程,可用圖1描述。強化學習選擇一個動作作用于環(huán)境,環(huán)境受到作用后其狀態(tài)會發(fā)生變化,從一個狀態(tài)轉換到另一個狀態(tài),同時產生一個強化信號反饋給Agent,即獎懲值。Agent接受到獎懲值和環(huán)境狀態(tài)變化,進行學習更新,并根據獎懲值和環(huán)境當前狀態(tài)選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值,而且影響環(huán)境下一時刻的狀態(tài)及最終的強化值。
  2 神經網絡
  2.1 神經網絡概述
  神經網絡是指模擬人類大腦的神經系統(tǒng)的結構與功能,運用大量的處理部件,采用人工方式構造的一種網絡系統(tǒng)。神經網絡是一種非線性動力學系統(tǒng),并且具有以分布式存儲和并行協(xié)同處理的特點,其理論突破了傳統(tǒng)的、串行處理的數(shù)字計算機的局限。盡管單個神經元的結構和功能比較簡單,但是千千萬萬個神經元構成的神經網絡系統(tǒng)所能表現(xiàn)的行為卻是豐富多彩的。
  單個神經元的模型如圖2所示。
  人工神經元模型由一組連接,一個加法器,一個激活函數(shù)組成。連接強度可由各連接上的值表示,權值為正表示激活,權值為負表示抑制;加法器用于求輸入信號對神經元的相應突觸加權之和。激活函數(shù)用于限制神經元輸出振幅。
  神經元還可以用如下公式表示
  激活函數(shù)主要有閾值函數(shù)、分段線性函數(shù)、非線性轉移函數(shù)三種主要形式。
  一般來說,神經網絡在系統(tǒng)中的工作方式是:接受外界環(huán)境的完全或者不完全的狀態(tài)輸入,并通過神經網絡進行計算,輸出強化系統(tǒng)所需的Q值或V值。人工神經網絡是對人腦若干基本特性通過教學方法進行的抽象和模擬,是一種模仿人腦結構及功能的非線性信息處理系統(tǒng)。
  2.2 強化學習與神經網絡的融合
  經過研究發(fā)現(xiàn),神經網絡的眾多優(yōu)點,可以滿足強化學習研究的需要。首先,由于神經網絡模仿人的大腦,采用自適應算法,使得Agent智能系統(tǒng)更能適應環(huán)境的變化。此外,神經網絡具有較強的容錯能力,這樣可以根據對象的主要特征來進行較為精確的模式識別。最后,神經網絡又有自學習,自組織能力和歸納能力的特點,不僅增強了Agent對不確定環(huán)境的處理能力,而且保證了強化學習算法的收斂性。神經網絡也有無導師學習機制,正好適用于強化學習。
  強化學習和神經網絡的融合重點在于如何運用神經網絡多重特性,能夠快速高效地促進Agent智能系統(tǒng)經歷強化學習后,選擇一條最優(yōu)行為策略來滿足目標需求。強化學習的環(huán)境是不確定的,無法通過正例、反例告知采取何種行為。Agent必須通過不斷試錯才能找到最優(yōu)行為策略。但是在此過程中,會遇到許多問題,比如輸出連續(xù)的動作空間問題,但可利用神經網絡的泛化特征,實現(xiàn)了輸出在一定范圍內的連續(xù)動作空間值[2]。所以,簡單的講,將神經網絡和強化學習相融合,主要是利用神經網絡強大的存儲能力和函數(shù)估計能力。目前,在函數(shù)估計強化學習研究上,神經網絡是研究熱點之一。
  3 馬爾科夫決策過程
  本文主要論述馬爾科夫型環(huán)境下的強化學習,可以通過馬爾科夫決策過程進行建模。下面給出其形式定義:
  基本的POMDP由四個元組成:。S是指一個環(huán)境狀態(tài)集,可以是有限的,可列的或者任意非空集;A為Agent行為集合,用A(s)表示在狀態(tài)s處可用的決策集;獎賞函數(shù)R(s,a):[A×S]->Real;T:[A×S]->PD(S);T(s,a,s')為Agent在狀態(tài)s采用a動作使環(huán)境狀態(tài)轉移到s'的概率。
  一個有限的馬爾科夫決策過程有5元組成:;前四個元與上述是一致的,V為準則函數(shù)或者目標函數(shù)[3],常用準則函數(shù)有期望折扣總報酬、期望總報酬和平均報酬等并且可以是狀態(tài)值函數(shù)或狀態(tài)-動作對值函數(shù)。
  馬爾科夫決策過程的本質是:當前的狀態(tài)轉變?yōu)榱硪粋€狀態(tài)的概率和獎賞值只取決于當前的狀態(tài)和選擇的動作,與過去的動作和狀態(tài)無關。所以,在馬爾科夫環(huán)境下,已知狀態(tài)轉移概率函數(shù)T和獎賞函數(shù)R,可以借助于動態(tài)規(guī)劃技術求解最優(yōu)行為策略。
  4 改進的強化學習算法
  到目前為止,強化學習領域提出的強化學習算法層出不窮,如Sutton提出的TD算法[6],Watkins提出的Q-Learning算法[7],Rummery和Niranjan于1994提出的Sarsa算法[8],以及Dyna-Q學習算法[9]等。致力于這方面研究的研究人員,都在極力尋找一種既能保證收斂性,又能提高收斂速度的新型學習算法。本文主要在基于神經網絡的特性,研究并提出改進的強化學習算法。
  4.1 基于模糊神經網絡的Q([λ])學習算法
  Q學習算法是強化學習領域重要的學習算法之一[7,10],它利用函數(shù)Q(x,a)來表達與狀態(tài)相對應的各個動作的評估。Q學習算法的基本內容為:
  (1)任意初始化一個Q(x,a)
  (2)初始化 s
 ?。?)從決策集中隨即選擇一個動作a
  (4)采取動作策略a,觀察[r,][s]'的值
 ?。?)計算[Qs,a←Qs,a+αr+γmaxa'Qs',a'-Qs,a], (11)
 ?。?)重復(2)-(6)步,直到s終結。
  式(11)使用下一狀態(tài)的估計來更新Q函數(shù),稱為一步Q學習。將TD([λ])的思想引入Q學習過程,形成一種增量式多步Q學習,簡稱Q([λ])學習[11]。步驟與Q算法類似,其計算公式如下:
  如果 [s=st,a=at],則[Qst,at=Qst,at+αtγt+γtetst+at]; (12)
  4.2 基于BP神經網絡的Sarsa算法
  描述如下:(1)H是用于保存最近訪問的Q值,當滿的時候送至神經網絡訓練。
  如果表H已滿,則利用H中的樣本對網絡進行訓練,版本號自動增加1
  若網絡隊列q也已滿,則隊尾元素出隊,把新訓練的神經網絡入隊q;
  清空訓練集;
  該算法的主要貢獻是引入神經網絡隊列保存大量的Q值表,從來降低了保存大量Q值所要花費大量的內存空間,更重要的是解決了單個神經網絡“增量式”學習所帶來的“遺忘”問題。
  5 強化學習應用
  由于強化學習在算法和理論方面的研究越來越深入,在大空間、復雜非線性控制,機器人控制、組合優(yōu)化和調度等領域呈現(xiàn)出良好的學習性能,使得強化學習在人工智能,控制系統(tǒng),游戲以及優(yōu)化調度等領域取得了若干的成功應用,而本文主要介紹基于神經網絡的強化學習算法在某些領域的應用。
  在非線性控制系統(tǒng)方面,張濤等人[2]將BP網絡運用于 Q-Learning算法中,成功解決了連續(xù)狀態(tài)空間的倒立擺平衡控制問題和連續(xù)狀態(tài)空間輸入、連續(xù)動作空間輸出的問題,從而提高了強化學習算法的實際應用價值;在機器人控制方面,應用更為廣泛,Nelson[13]等人考慮了基于模糊邏輯和強化學習的智能機器人導航問題,并且段勇等人[4]基于該理論,成功地將模糊神經網絡和強化學習結合起來,采用殘差算法保證函數(shù)逼近的快速性和收斂性,有效地解決了復雜環(huán)境下機器人導航的問題。在游戲方面,Tesauro采用三層BP神經網絡把棋盤上的棋子位置和棋手的獲勝概率聯(lián)系起來,通過訓練取得了40盤比賽中只輸一盤的好戰(zhàn)績[14]。在優(yōu)化調度方面,主要包括車間作業(yè)調度,電梯調度以及網絡路由選擇等,Robert Crites等[15]將強化學習和前饋神經網絡融合利用,以最終實驗結果表明為依據,證明了該算法是目前高層建筑電梯調度算法中最優(yōu)算法之一。
  6 結束語
  本文將強化學習和神經網絡相融合,介紹利用神經網絡強大的存儲能力、泛化能力及函數(shù)估計能力,可以解決強化學習領域遇到的連續(xù)狀態(tài)和動作輸入、輸出的問題,學習狀態(tài)空間過大的問題以及不確定環(huán)境處理的問題等?;诖?,主要論述了三種神經網絡和強化學習的改進算法,它們都綜合了神經網絡的特性。最后,簡單介紹了目前基于神經網絡的強化學習應用的成功實例。目前,利用神經網絡進行強化學習依然是研究熱點課題之一。
  參考文獻:
  [1] 高陽,陳世福,陸鑫. 強化學習研究綜述[J].自動化學報,2004,30(1):86-100.
  [2] 張濤,吳漢生.基于神經網絡的強化學習算法實現(xiàn)倒立擺控制[J].計算機仿真,2006,23(4):298-300.
  [3] 林聯(lián)明,王浩,王一雄.基于神經網絡的Sarsa強化學習算法[J].計算機技術與發(fā)展,2006,16(1):30-32.
  [4] 段勇,徐心如.基于模糊神經網絡的強化學習及其在機器人導航中的應用[J].控制與決策,2007,22(5):525-529.
  [5] 劉忠,李海紅,劉全.強化學習算法研究[J].計算機工程與設計,2008,29(22):5805-5809.
  [6] Sutton R S.Learning to predict by the methods of temporal dx9iWP7EiPaWbagG8L6JZ5A==ifferences.Machine Learning,1988,3:9-44.
  [7] Watkins P.Dayan.Q-Learning.Machine Learning,1992,8(3):279-292.
  [8] Rummery G,Niranjan M. On-line Q-Learning using connectionist systems. Technical Report CUED/F-INFENG/TR 166,Cambridge University Engineering Department,1994.
  [9] Sutton R S,Barto A G, Williams R. Reinforcement Learning is direct adaptive optional control.IEEE Control Systems Manazine,1991,12(2):19-22.
  [10] Sutton R S, Barto A G. Reinforcement Learning: An introduction[M].Cambridge:MIT Press ,1998.
  [11] Peng J , Dayan P. Q-learning [J]. Machine Learning,1992,8(3):279-292.
  [12] Kelley H J , Cliff E M, Lutze F H. Pursuit/evasion in orbit[J]. J of the Astronautical Sciences, 1981, 29(3):277-288.
  [13] NELSON H C, YUNG. An intelligent mobile vehicle navigator based on fuzzy logic and reinforcement learning [J].IEEE Trans on Systems, Man and Cybernetics, Part B: Cybernetics,1999,29(2):314-321.
  [14] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A Survey[J].Journal of Artificial Intelligence Research, 1996(4): 237-285.
  [15] Crites R H, Barto A G. Elevator group control using multiple reinforcement learning agents. Machine Learning, 1998, 33(2): 235-26

天门市| 三台县| 察隅县| 宜川县| 收藏| 双流县| 怀远县| 无锡市| 长顺县| 瓦房店市| 罗平县| 乌兰浩特市| 黄大仙区| 万载县| 白银市| 广南县| 米脂县| 宁河县| 高阳县| 信丰县| 曲阜市| 金华市| 南通市| 长海县| 通渭县| 望城县| 调兵山市| 青铜峡市| 筠连县| 平舆县| 和顺县| 镇雄县| 陈巴尔虎旗| 潞西市| 鹰潭市| 理塘县| 延吉市| 项城市| 茂名市| 龙山县| 天峨县|