国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

馬爾可夫決策問題的關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法

2016-05-14 09:37白塵
中國管理信息化 2016年7期

白塵

[摘 要] 針對傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的維數(shù)災(zāi)難問題,首先提出了用于識別關(guān)鍵狀態(tài)的“決策收益率”概念及其估算方法,然后借鑒學(xué)習(xí)范圍擴(kuò)展的思想,以經(jīng)典Q-Learning學(xué)習(xí)算法為基礎(chǔ),提出了關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法(Critical States Prioritized Learning,CSPL)。最后本文實現(xiàn)了機(jī)器人尋徑實驗,并比較了CSPL算法與Q-Learning算法的實驗結(jié)果。

[關(guān)鍵詞] 馬爾可夫決策;關(guān)鍵狀態(tài);決策收益率;關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 07. 092

[中圖分類號] TP311 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2016)07- 0198- 05

1 引 言

馬爾可夫決策過程(Markov Decision Process,MDP)模型被廣泛用于描述通訊網(wǎng)絡(luò)、金融工程、制造系統(tǒng)和人工智能等領(lǐng)域的序貫決策問題[1]。強(qiáng)化學(xué)習(xí)算法(Reinforcement Learning,RL)是MDP問題的一類重要解決方法[2]。在解決復(fù)雜MDP問題時,傳統(tǒng)強(qiáng)化學(xué)習(xí)算法面臨著“維數(shù)災(zāi)難”問題,即隨著狀態(tài)空間和行為空間維數(shù)增大,算法的學(xué)習(xí)空間和學(xué)習(xí)時間呈指數(shù)增長[3]。

維數(shù)災(zāi)難問題的常用解決方法是分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning)[4]和學(xué)習(xí)范圍擴(kuò)展(Learning Scale Extension)[5]。分層強(qiáng)化學(xué)習(xí)將原有決策問題分解為由多個子任務(wù)構(gòu)成的層次結(jié)構(gòu)以提高整體效率,但是構(gòu)建層次結(jié)構(gòu)需要依賴大量先驗知識;學(xué)習(xí)范圍擴(kuò)展是通過學(xué)習(xí)狀態(tài)空間結(jié)構(gòu)信息以擴(kuò)大一次學(xué)習(xí)所影響的狀態(tài)范圍,若學(xué)習(xí)范圍設(shè)定不合理,需要耗費大量運算時間和空間記憶額外信息。兩種解決方法的實用性較低。

本文針對傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的維數(shù)災(zāi)難問題,提出了一種新的思路:優(yōu)先學(xué)習(xí)對整體決策效果影響較大的“關(guān)鍵狀態(tài)”,從而提高復(fù)雜狀態(tài)空間下的整體決策效率。本文首先提出“決策收益率”的概念和估計方法,解決了“如何識別關(guān)鍵狀態(tài)”的問題;然后提出“逆向?qū)W習(xí)”的方法,解決了“如何優(yōu)先學(xué)習(xí)關(guān)鍵狀態(tài)”的問題;并借鑒學(xué)習(xí)范圍擴(kuò)展的思想,以經(jīng)典Q-Learning學(xué)習(xí)算法[6]為基礎(chǔ),提出了關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法。

富锦市| 华蓥市| 平定县| 依安县| 娱乐| 定日县| 沅陵县| 霍城县| 荣昌县| 高尔夫| 来安县| 双桥区| 同仁县| 阿荣旗| 浦东新区| 安乡县| 南溪县| 玉树县| 伊吾县| 封开县| 界首市| 化德县| 大化| 平武县| 武陟县| 逊克县| 北川| 茶陵县| 怀安县| 银川市| 三台县| 宝应县| 枝江市| 崇信县| 长垣县| 千阳县| 东海县| 云和县| 龙南县| 慈利县| 松溪县|