国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于值函數(shù)遷移的啟發(fā)式Sarsa算法

2018-09-12 03:05:44陳建平楊正霞劉全吳宏杰徐楊傅啟明
通信學(xué)報(bào) 2018年8期
關(guān)鍵詞:變分貝葉斯度量

陳建平,楊正霞,劉全,吳宏杰,徐楊,傅啟明

?

基于值函數(shù)遷移的啟發(fā)式Sarsa算法

陳建平1,2,3,楊正霞1,2,3,劉全4,吳宏杰1,2,3,徐楊5,傅啟明1,2,3

(1. 蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2. 蘇州科技大學(xué)江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009;3. 蘇州科技大學(xué)蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009;4. 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000;5. 浙江紡織服裝職業(yè)技術(shù)學(xué)院信息工程學(xué)院,浙江 寧波 315000)

針對(duì)Sarsa算法存在的收斂速度較慢的問(wèn)題,提出一種改進(jìn)的基于值函數(shù)遷移的啟發(fā)式Sarsa算法(VFT-HSA)。該算法將Sarsa算法與值函數(shù)遷移方法相結(jié)合,引入自模擬度量方法,在相同的狀態(tài)空間和動(dòng)作空間下,對(duì)新任務(wù)與歷史任務(wù)之間的不同狀態(tài)進(jìn)行相似性度量,對(duì)滿足條件的歷史狀態(tài)進(jìn)行值函數(shù)遷移,提高算法的收斂速度。此外,該算法結(jié)合啟發(fā)式探索方法,引入貝葉斯推理,結(jié)合變分推理衡量信息增益,并運(yùn)用獲取的信息增益構(gòu)建內(nèi)在獎(jiǎng)賞函數(shù)作為探索因子,進(jìn)而加快算法的收斂速度。將所提算法用于經(jīng)典的Grid World問(wèn)題,并與Sarsa算法、Q-Learning算法以及收斂性能較好的VFT-Sarsa算法、IGP-Sarsa算法進(jìn)行比較,實(shí)驗(yàn)表明,所提算法具有較快的收斂速度和較好的穩(wěn)定性。

強(qiáng)化學(xué)習(xí);值函數(shù)遷移;自模擬度量;變分貝葉斯

1 引言

強(qiáng)化學(xué)習(xí)(RL, reinforcement learning)又稱激勵(lì)學(xué)習(xí)、增強(qiáng)學(xué)習(xí),是在未知、動(dòng)態(tài)環(huán)境中通過(guò)agent與環(huán)境的交互實(shí)現(xiàn)從狀態(tài)到動(dòng)作的映射,并獲得最大期望累計(jì)獎(jiǎng)賞的一類在線學(xué)習(xí)方法[1]。在強(qiáng)化學(xué)習(xí)問(wèn)題中,新的強(qiáng)化學(xué)習(xí)任務(wù)與歷史任務(wù)之間會(huì)存在某種相似性,因此可利用兩者之間的相似性來(lái)提高目標(biāo)任務(wù)的學(xué)習(xí)速率,這需要運(yùn)用遷移學(xué)習(xí)(TL, transfer learning)方法。1995年,遷移學(xué)習(xí)被首次以“l(fā)earning to learn”的概念提出,引起學(xué)術(shù)界的廣泛關(guān)注[2]。遷移學(xué)習(xí)主要包括3個(gè)方面:遷移什么、如何進(jìn)行遷移、何時(shí)進(jìn)行遷移。通過(guò)這3個(gè)方面,可以使遷移學(xué)習(xí)達(dá)到提高目標(biāo)任務(wù)收斂速度的目的。然而遷移學(xué)習(xí)是對(duì)以往任務(wù)中學(xué)習(xí)的經(jīng)驗(yàn)進(jìn)行利用,從而提高目標(biāo)任務(wù)的學(xué)習(xí)速率,但對(duì)于強(qiáng)化學(xué)習(xí)任務(wù)而言,其本身長(zhǎng)期存在著平衡探索與利用之間關(guān)系的問(wèn)題,有效地解決探索問(wèn)題使agent獲得最大化環(huán)境信息的軌跡,可以加快目標(biāo)任務(wù)的學(xué)習(xí)速率。

近年來(lái),遷移學(xué)習(xí)在強(qiáng)化學(xué)習(xí)領(lǐng)域已引起廣大研究學(xué)者的關(guān)注。Ammar等[3]通過(guò)優(yōu)化不同任務(wù)間可轉(zhuǎn)移的知識(shí)庫(kù),并通過(guò)對(duì)該知識(shí)庫(kù)間不同任務(wù)構(gòu)建映射關(guān)系,使新任務(wù)快速收斂。Gupta等[4]通過(guò)構(gòu)建狀態(tài)空間到不變特征空間之間的映射關(guān)系,將知識(shí)映射到不變特征空間,并利用構(gòu)建的映射關(guān)系實(shí)現(xiàn)知識(shí)的遷移,從而加快新任務(wù)的收斂速度。Laroche等[5]在假設(shè)不同任務(wù)具有相同狀態(tài)空間與動(dòng)作空間的基礎(chǔ)上,通過(guò)添加探索因子構(gòu)建新的獎(jiǎng)賞函數(shù),實(shí)現(xiàn)不同任務(wù)間的知識(shí)遷移,提高算法在后續(xù)任務(wù)中的收斂性能。Barreto等[6]提出在環(huán)境動(dòng)態(tài)性不變的前提下,對(duì)不同任務(wù)之間的獎(jiǎng)賞函數(shù)進(jìn)行遷移,從而加快算法的收斂速度。

本文針對(duì)經(jīng)典的Sarsa算法存在收斂速度慢的問(wèn)題,提出一種基于值函數(shù)遷移的啟發(fā)式Sarsa算法(VFT-HSA)。針對(duì)經(jīng)典Sarsa算法中值函數(shù)初始值的設(shè)定直接影響算法收斂速度的問(wèn)題,VFT-HSA算法引入知識(shí)遷移,利用自模擬度量的方法,構(gòu)造目標(biāo)任務(wù)與歷史任務(wù)之間的度量關(guān)系,通過(guò)設(shè)定閾值,遷移歷史任務(wù)中的最優(yōu)值函數(shù),提高算法的收斂速度。針對(duì)大量算法問(wèn)題中探索與利用不平衡的問(wèn)題,VFT-HSA引入啟發(fā)式探索方法,利用貝葉斯推理,結(jié)合變分推理衡量信息增益,附加內(nèi)在獎(jiǎng)賞函數(shù),從而提高算法的探索性能,加快算法的收斂速度。將VFT-HSA應(yīng)用于Grid World問(wèn)題,實(shí)驗(yàn)結(jié)果表明,VFT-HSA較其他算法具有更快的收斂速度和較好的穩(wěn)定性。

2 相關(guān)理論

2.1 馬爾可夫決策過(guò)程

式(3)和式(4)也被稱為Bellman最優(yōu)方程。

2.2 Sarsa算法

在強(qiáng)化學(xué)習(xí)算法中,Sarsa算法能夠在未知獎(jiǎng)賞函數(shù)與狀態(tài)轉(zhuǎn)移函數(shù)的情況下,采用狀態(tài)動(dòng)作值迭代找到最優(yōu)策略,是一種在線學(xué)習(xí)算法。在Sarsa算法學(xué)習(xí)過(guò)程中,當(dāng)狀態(tài)動(dòng)作對(duì)被無(wú)數(shù)次訪問(wèn)時(shí),Sarsa以概率1收斂到最優(yōu)策略以及最優(yōu)狀態(tài)動(dòng)作值函數(shù),且策略將在有限的時(shí)間步內(nèi)收斂至貪心策略。然而,Sarsa算法是一種保守算法,為了減少損失,在學(xué)習(xí)過(guò)程中會(huì)選擇相對(duì)安全的動(dòng)作,這使Sarsa算法在選取動(dòng)作時(shí)缺乏一定的探索,進(jìn)而使Sarsa算法收斂速度相對(duì)較慢。Sarsa算法具體流程如算法1所示[1]。

算法1 Sarsa算法

2) repeat (對(duì)于每一個(gè)情節(jié))

3) 初始化狀態(tài)

4) 在狀態(tài)下,根據(jù)行為策略選擇動(dòng)作

5) repeat (對(duì)于情節(jié)中的每一步)

10) end repeat

11) end repeat

12) 輸出:值函數(shù)

2.3 自模擬度量

2003年,Givan等[14]首次將自模擬關(guān)系引入MDP,并利用自模擬關(guān)系度量不同MDP中狀態(tài)之間的距離。其自模擬關(guān)系可簡(jiǎn)單表述為:若2個(gè)狀態(tài)之間滿足自模擬關(guān)系,那么2個(gè)狀態(tài)之間的最優(yōu)值函數(shù)或最優(yōu)動(dòng)作可相互共享。

對(duì)于任意2個(gè)狀態(tài),它們之間的自模擬關(guān)系是“是”或“非”的關(guān)系,要么滿足自模擬關(guān)系,要么不滿足自模擬關(guān)系,但在實(shí)際應(yīng)用中,該方法太過(guò)于嚴(yán)苛。如果2個(gè)狀態(tài)的獎(jiǎng)賞分布與狀態(tài)轉(zhuǎn)移概率分布極其近似,則2個(gè)狀態(tài)極其近似,根據(jù)以上條件可推測(cè)2個(gè)狀態(tài)具有相似的最優(yōu)動(dòng)作和最優(yōu)值函數(shù),但自模擬關(guān)系無(wú)法證明該推測(cè)。因而Ferns等[15]針對(duì)該問(wèn)題,利用Kantorovich距離,提出衡量2個(gè)狀態(tài)之間相似性關(guān)系的自模擬度量方法,并得到定理1。

2.4 變分貝葉斯

變分貝葉斯最早由Beal[16]提出,其可應(yīng)用于隱馬爾可夫模型、混合因子分析、非線性動(dòng)力學(xué)、圖模型等。變分貝葉斯可較好地處理復(fù)雜統(tǒng)計(jì)模型。復(fù)雜統(tǒng)計(jì)模型由觀測(cè)變量、未知參數(shù)和潛變量這3類變量組成,其中,未知參數(shù)和潛變量統(tǒng)稱為不可觀測(cè)變量。

采用變分貝葉斯具有如下優(yōu)點(diǎn):1)將不可觀測(cè)變量的后驗(yàn)概率近似成其他變量,方便不可觀測(cè)變量的推斷;2)對(duì)于一個(gè)模型,給出邊緣似然函數(shù)的下界,當(dāng)邊緣似然函數(shù)值最高時(shí),表明模型擬合程度越好,通過(guò)該方法可獲取最優(yōu)模型。

3 VFT-HAS算法思想及簡(jiǎn)介

3.1 值函數(shù)遷移

通常,對(duì)于MDP,可以通過(guò)迭代方法求出最優(yōu)狀態(tài)值函數(shù)或最優(yōu)動(dòng)作值函數(shù),再由最優(yōu)值函數(shù)求解最優(yōu)策略。但對(duì)于每一個(gè)MDP,求解最優(yōu)值函數(shù)都需要進(jìn)行迭代計(jì)算,這會(huì)造成計(jì)算資源的浪費(fèi),因此考慮將已求解的歷史最優(yōu)值函數(shù)用于后續(xù)的MDP中,進(jìn)而求解最優(yōu)值函數(shù)。若2個(gè)狀態(tài)相似,它們應(yīng)該具有相似的最優(yōu)狀態(tài)值函數(shù),并利用自模擬度量關(guān)系,對(duì)相似狀態(tài)進(jìn)行值函數(shù)遷移。在對(duì)值函數(shù)遷移方法進(jìn)行介紹之前,先做如下假設(shè)。

關(guān)于定理2的證明可參考文獻(xiàn)[17],為了更加充分地說(shuō)明定理2,給出如下說(shuō)明。

圖1 MDP狀態(tài)轉(zhuǎn)移示意

由定理2,給出不同MDP之間基于自模擬度量的值函數(shù)遷移算法,如算法2所示。

算法2 基于自模擬度量的值函數(shù)遷移算法

4) end for

5) end for

10) else

12) end if

13) end for

3.2 基于變分貝葉斯的啟發(fā)式探索

證畢。

圖2 Kullback-Leibler散度關(guān)系

結(jié)合上述原理,給出一種改進(jìn)的啟發(fā)式內(nèi)部獎(jiǎng)賞函數(shù)的更新式,如式(9)所示。

(14)

3.3 VFT-HAS簡(jiǎn)介

基于值函數(shù)遷移的啟發(fā)式Sarsa算法主要利用自模擬度量方法對(duì)相似狀態(tài)之間的以往值函數(shù)知識(shí)進(jìn)行遷移,從而提高初始化值函數(shù)的精確性,并利用變分貝葉斯理論,獲得信息增益作為內(nèi)在獎(jiǎng)賞函數(shù)進(jìn)行啟發(fā)式探索,結(jié)合Sarsa算法框架,利用V-Q算法中的更新方法更新值函數(shù)[18],提高算法收斂速度,具體如算法3所示。

算法3 基于值函數(shù)遷移的啟發(fā)式Sarsa算法

2) repeat (對(duì)于每一個(gè)情節(jié))

4) repeat(對(duì)于情節(jié)中的每一個(gè)時(shí)間步)

12) end repeat

14) 算法終止

15) end if

18) end repeat

基于值函數(shù)遷移的啟發(fā)式Sarsa算法主要分為3個(gè)部分,第一部分利用算法2知識(shí)遷移進(jìn)行初始化狀態(tài)值函數(shù);第二部分對(duì)狀態(tài)和動(dòng)作及下一個(gè)狀態(tài)進(jìn)行采樣,通過(guò)變分貝葉斯理論衡量信息增益作為內(nèi)部獎(jiǎng)賞函數(shù);第三部分在第二部分的基礎(chǔ)上更新狀態(tài)值函數(shù)和狀態(tài)動(dòng)作值函數(shù),求解問(wèn)題最優(yōu)策略,提高算法學(xué)習(xí)速率。

4 實(shí)驗(yàn)及結(jié)果分析

為了研究算法的性能,將VFT-HSA應(yīng)用在Grid World問(wèn)題中,并針對(duì)算法收斂的速度以及算法的穩(wěn)定性等方面進(jìn)行分析,將VFT-HSA與Sarsa算法、Q-Learning算法、VFT-Sarsa算法[17]、IGP-Sarsa[19]算法在相同的實(shí)驗(yàn)環(huán)境中重復(fù)實(shí)驗(yàn)24次,取每次實(shí)驗(yàn)的平均值比較各算法的性能。

4.1 Grid World問(wèn)題介紹

圖4 格子世界(目標(biāo)MDP)

4.2 實(shí)驗(yàn)設(shè)置

圖5 格子世界(原始MDP)

4.3 實(shí)驗(yàn)分析

圖6 5×6的Grid World問(wèn)題中5種算法性能比較

圖7 10×10的Grid World問(wèn)題中5種算法性能比較

為了驗(yàn)證算法采用值函數(shù)遷移方法和啟發(fā)式探索方法的收斂性能,圖8分別表示Sarsa算法、本文提出的VFT-HSA、不采用值函數(shù)遷移算法、不采用啟發(fā)式探索算法在10×10的Grid World問(wèn)題中達(dá)到收斂時(shí)所需的平均時(shí)間的變化趨勢(shì),其中,橫坐標(biāo)為情節(jié)數(shù),縱坐標(biāo)為情節(jié)結(jié)束后到達(dá)目標(biāo)狀態(tài)所需的時(shí)間。在實(shí)驗(yàn)過(guò)程中,每一個(gè)算法都獨(dú)立執(zhí)行24次,取其平均值。在圖8中,Sarsa算法不能保證較好收斂,收斂性能較差;不采用值函數(shù)遷移算法在大約40個(gè)情節(jié)處收斂,而VFT-HSA在大約30個(gè)情節(jié)處收斂,VFT-HSA相比于不采用值函數(shù)遷移算法收斂速度提升近25%,因而不采用值函數(shù)遷移算法收斂速度較慢,這是因?yàn)椴徊捎弥岛瘮?shù)遷移算法使算法運(yùn)行過(guò)程中值函數(shù)的初始值未獲得最優(yōu)設(shè)置,算法收斂需要更多的樣本數(shù)量,最終導(dǎo)致算法收斂速度慢;不采用啟發(fā)式探索算法在大約50個(gè)情節(jié)處收斂,相比較而言,VFT-HSA收斂速度提升近40%,不采用啟發(fā)式探索算法收斂性能不及VFT-HSA,這是因?yàn)閱l(fā)式探索算法在算法收斂過(guò)程中可以提供更多的啟發(fā)式信息,加大agent探索力度,提高算法收斂速度。綜上所述,在值函數(shù)遷移方法與變分貝葉斯啟發(fā)式探索方法共同作用下,VFT-HSA的收斂速度更快,收斂性能更好。

圖8 10×10的Grid World問(wèn)題中4種算法的性能比較

圖9 不同規(guī)模的Grid World問(wèn)題中VFT-HSA取不同η值時(shí)收斂性能比較

表1 不同規(guī)模的Grid World問(wèn)題中VFT-HSA取不同值時(shí)收斂所需平均步數(shù)比較

5 結(jié)束語(yǔ)

本文針對(duì)Sarsa算法在維度較大的狀態(tài)空間和動(dòng)作空間的MDP中存在收斂速度慢的問(wèn)題,提出一種改進(jìn)的VFT-HSA。在不同任務(wù)間具有相同狀態(tài)空間和動(dòng)作空間的MDP中,該算法運(yùn)用自模擬度量的方法構(gòu)建不同任務(wù)下狀態(tài)之間的距離關(guān)系,當(dāng)2個(gè)MDP達(dá)到一定相似度時(shí),進(jìn)行值函數(shù)知識(shí)遷移,減少算法收斂所需的樣本,提高算法的收斂性能;針對(duì)強(qiáng)化學(xué)習(xí)問(wèn)題中存在的探索與利用的平衡問(wèn)題,結(jié)合貝葉斯推理,利用變分推理獲取信息增益并用其構(gòu)建內(nèi)部獎(jiǎng)賞函數(shù)模型,加大agent探索力度,提高算法收斂速度。將本文提出的VFT-HSA與Q-Learning算法、IGP-Sarsa算法用于經(jīng)典的Grid World問(wèn)題,實(shí)驗(yàn)表明,VFT-HSA克服了經(jīng)典的Sarsa算法中存在的收斂速度慢以及收斂不穩(wěn)定的問(wèn)題,在保證收斂精度的情況下,提高了算法的收斂速度和穩(wěn)定性。

本文主要在Grid World仿真平臺(tái)中對(duì)算法進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果表明,本文所提算法具有較快的收斂速度和較好的收斂穩(wěn)定性。本文主要對(duì)較大規(guī)模、離散的問(wèn)題進(jìn)行實(shí)驗(yàn)分析,接下來(lái)的工作是將算法運(yùn)用于更大規(guī)模的問(wèn)題和連續(xù)問(wèn)題中進(jìn)一步驗(yàn)證算法的有效性。

[1] SUTTON R S, BARTO G A. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998.

[2] SCHMIDHUBER J, INFORMATIK T T. On learning how to learn learning strategies[R]. Germany: Technische University, 1995.

[3] AMMAR H B, EATON E, LUNA J M, et al. Autonomous cross-domain knowledge transfer in lifelong policy gradient reinforcement learning[C]//The 15th International Conference on Artificial Intelligence. 2015: 3345-3351.

[4] GUPTA A, DEVIN C, LIU Y X, et al. Learning invariant feature spaces to transfer skills with reinforcement learning[C]//The 5th International Conference on Learning Representations. 2017: 2147-2153.

[5] LAROCHE R, BARLIER M. Transfer reinforcement learning with shared dynamics[C]//The 31th International Conference on the Association for the Advance of Artificial Intelligence. 2017: 2147-2153.

[6] BARRETO A, DABNEY W, MUNOS R, et al. Successor features for transfer in reinforcement learning[C]//The 32th International Conference on Neural Information Processing Systems. 2017: 4055-4065.

[7] DEARDEN R, NIR F, STUART R. Bayesian Q-learning[C]//The 21th International Conference on the Association for the Advance of Artificial Intelligence. 1998: 761-768.

[8] GUEZ A, SILVER D, DAYAN P. Scalable and efficient Bayes- adaptive reinforcement learning based on Monte-Carlo tree search[J]. Journal of Artificial Intelligence Research, 2013, 48(1): 841-883.

[9] LITTLE D Y, SOMMER F T. Learning and exploration in action-perception loops[J]. Frontiers in Neural Circuits, 2013, 7(7): 37-56.

[10] MANSOUR Y, SLIVKINS A, SYRGKANIS V. Bayesian incentive-compatible bandit exploration[C]//The 16th International Conference on Economics and Computation. 2015: 565-582.

[11] VIEN N A, LEE S G, CHUNG T C. Bayes-adaptive hierarchical MDPs[J]. Applied Intelligence, 2016, 45(1): 112-126.

[12] WU B, FENG Y. Monte-Carlo Bayesian reinforcement learning using a compact factored representation[C]//The 4th International Conference on Information Science and Control Engineering. 2017: 466-469.

[13] 傅啟明, 劉全, 伏玉琛, 等. 一種高斯過(guò)程的帶參近似策略迭代算法[J]. 軟件學(xué)報(bào), 2013, 24(11): 2676-2687.

FU Q M, LIU Q, FU Y C, et al. Parametric approximation policy strategy iteration algorithm based on Gaussian process[J]. Journal of Software, 2013, 24(11): 2676-2687.

[14] GIVAN R, DEAN T, GREIG M. Equivalence notions and model minimization in Markov decision processes[J]. Artificial Intelligence, 2003, 147(1): 163-223.

[15] FERNS N, PANANGADEN P, PRECUP D. Metrics for finite Markov decision processes[C]//The 20th International Conference on Uncertainty in Artificial Intelligence. 2004: 162-169.

[16] BEAL M J. Variational algorithms for approximate Bayesian inference[D]. London: University of London, 2003.

[17] 傅啟明, 劉全, 尤樹華, 等. 一種新的基于值函數(shù)遷移的快速Sarsa算法[J]. 電子學(xué)報(bào), 2014, 42(11): 2157-2161.

FU Q M, LIU Q, YOU S H, et al. A novel fast sarsa algorithm based on value function transfer[J]. Acta Electronica Sinica, 2014, 42(11): 2157-2161.

[18] MIERING M, HASSELT H V. The QV family compared to other reinforcement learning algorithms[C]//The 17th International Conference on Approximate Dynamic Programming and Reinforcement Learning. 2008: 101-108.

[19] CHUNG J J, LAWRANCE N R J, SUKKARIEH S. Gaussian processes for informative exploration in reinforcement learning[C]//The 20th International Conference on Robotics and Automation. 2013: 2633-2639.

Heuristic Sarsa algorithm based on value function transfer

CHEN Jianping1,2,3, YANG Zhengxia1,2,3, LIU Quan4, WU Hongjie1,2,3, XU Yang5, FU Qiming1,2,3

1. Institute of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China 2. Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency, Suzhou University of Science and Technology, Suzhou 215009, China 3. Suzhou Key Laboratory of Mobile Networking and Applied Technologies, Suzhou University of Science and Technology, Suzhou 215009, China 4. School of Computer Science and Technology, Soochow University, Suzhou 215000, China 5. Institute of Information Engineering, Zhejiang Fashion Institute of Technology College, Ningbo 315000, China

With the problem of slow convergence for traditional Sarsa algorithm, an improved heuristic Sarsa algorithm based on value function transfer was proposed. The algorithm combined traditional Sarsa algorithm and value function transfer method, and the algorithm introduced bisimulation metric and used it to measure the similarity between new tasks and historical tasks in which those two tasks had the same state space and action space and speed up the algorithm convergence. In addition, combined with heuristic exploration method, the algorithm introduced Bayesian inference and used variational inference to measure information gain. Finally, using the obtained information gain to build intrinsic reward function model as exploring factors, to speed up the convergence of the algorithm. Applying the proposed algorithm to the traditional Grid World problem, and compared with the traditional Sarsa algorithm, the Q-Learning algorithm, and the VFT-Sarsa algorithm, the IGP-Sarsa algorithm with better convergence performance, the experiment results show that the proposed algorithm has faster convergence speed and better convergence stability.

reinforcement learning, value function transfer, bisimulation metric, variational Bayes

TP391

A

10.11959/j.issn.1000?436x.2018133

陳建平(1963?),男,江蘇南京人,博士,蘇州科技大學(xué)教授,主要研究方向?yàn)榇髷?shù)據(jù)分析與應(yīng)用、建筑節(jié)能、智能信息處理。

楊正霞(1992?),女,江蘇揚(yáng)州人,蘇州科技大學(xué)碩士生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、建筑節(jié)能。

劉全(1969?),男,內(nèi)蒙古牙克石人,博士,蘇州大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚?、自?dòng)推理與機(jī)器學(xué)習(xí)。

吳宏杰(1977?),男,江蘇蘇州人,博士,蘇州科技大學(xué)副教授,主要研究方向?yàn)樯疃葘W(xué)習(xí)、模式識(shí)別、生物信息。

徐楊(1980?),女,河北深州人,浙江紡織服裝職業(yè)技術(shù)學(xué)院講師,主要研究方向?yàn)閿?shù)據(jù)分析與應(yīng)用、智能化與個(gè)性化教學(xué)。

傅啟明(1985?),男,江蘇淮安人,博士,蘇州科技大學(xué)講師,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、深度學(xué)習(xí)及建筑節(jié)能。

2018?03?22;

2018?07?13

傅啟明,fqm_1@126.com

國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334);江蘇省自然科學(xué)基金資助項(xiàng)目(No.BK20140283);江蘇省重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.BE2017663);江蘇省高校自然科學(xué)基金資助項(xiàng)目(No.13KJB520020);蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分基金資助項(xiàng)目(No.SYG201422)

The National Natural Science Foundation of China (No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334), The Natural Science Foundation of Jiangsu Province (No.BK20140283), The Key Research and Development Program of Jiangsu Province (No.BE2017663), High School Natural Science Foundation of Jiangsu Province (No.13KJB520020), Suzhou Industrial Application of Basic Research Program Part (No.SYG201422)

猜你喜歡
變分貝葉斯度量
有趣的度量
模糊度量空間的強(qiáng)嵌入
逆擬變分不等式問(wèn)題的相關(guān)研究
求解變分不等式的一種雙投影算法
迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
關(guān)于一個(gè)約束變分問(wèn)題的注記
貝葉斯公式及其應(yīng)用
一個(gè)擾動(dòng)變分不等式的可解性
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
眉山市| 德江县| 安泽县| 布拖县| 榆中县| 黄石市| 怀远县| 北流市| 江都市| 岗巴县| 黑山县| 乳山市| 宣威市| 哈密市| 盱眙县| 柳江县| 禄劝| 平泉县| 江阴市| 舒城县| 澄迈县| 连平县| 开江县| 上饶县| 东乌| 新蔡县| 陈巴尔虎旗| 社旗县| 济南市| 大化| 南平市| 格尔木市| 长沙县| 碌曲县| 石狮市| 万州区| 乌兰浩特市| 武陟县| 修武县| 青阳县| 当涂县|