国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)RMSProp-PPO算法的鋁電解參數(shù)尋優(yōu)模型

2021-06-22 03:32:18張曉李晉宏
電子元器件與信息技術(shù) 2021年3期
關(guān)鍵詞:鋁電解梯度動(dòng)作

張曉,李晉宏

(北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)

0 引言

近些年來(lái),深度學(xué)習(xí)(Deep Learning,DL)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)內(nèi)的兩大研究熱點(diǎn)[1],已經(jīng)在圖像分析、語(yǔ)音識(shí)別、自然語(yǔ)言處理、視頻分類(lèi)等領(lǐng)域取得了令人矚目的成功[2].由此,谷歌的人工智能研究團(tuán)隊(duì)DeepMind創(chuàng)造性的將DL與RL結(jié)合,形成了人工智能新的研究領(lǐng)域,即深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)。

由于深度強(qiáng)化學(xué)習(xí)在連續(xù)動(dòng)作場(chǎng)景中取得了良好的效果,如2016年AlphaGo擊敗了世界頂級(jí)圍棋選手李世石,此后Facebook在DOTA2中擊敗頂級(jí)選手,CMU團(tuán)隊(duì)研發(fā)的德州撲克AI冷撲大師輕松擊敗頂級(jí)玩家,人們開(kāi)始探索深度強(qiáng)化學(xué)習(xí)在工程領(lǐng)域的應(yīng)用,谷歌利用DRL算法來(lái)優(yōu)化數(shù)據(jù)中心服務(wù)器群的參數(shù)設(shè)置,并節(jié)省了40%的電力能源;黃旭等人利用DDQN進(jìn)行、火箭姿態(tài)控制器中的參數(shù)調(diào)整,并進(jìn)行了智能體的前向測(cè)試,結(jié)果顯示使用訓(xùn)練出來(lái)的智能體代替人工設(shè)計(jì)姿態(tài)控制器參數(shù)的思路具有一定的研究?jī)r(jià)值和潛力[3];劉威等人提出一種基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)切機(jī)控制策略,所提控制策略依據(jù)電網(wǎng)運(yùn)行環(huán)境信息,通過(guò)數(shù)據(jù)分析得到切機(jī)控制策略,最后通過(guò)IEEE 39節(jié)點(diǎn)仿真數(shù)據(jù)驗(yàn)證方法正確性[4]等,可以看出深度強(qiáng)化學(xué)習(xí)在工程領(lǐng)域的前景十分廣泛。

鋁電解工藝采用冰晶石-氧化鋁熔融電解法。該方法利用熔融冰晶石做溶劑,氧化鋁做溶質(zhì),接通大的直流電,在950℃~970℃的條件下,進(jìn)行化學(xué)反應(yīng),產(chǎn)出鋁液[5]。針對(duì)整個(gè)電解過(guò)程,可以人為的控制一些參數(shù)對(duì)電解過(guò)程進(jìn)行調(diào)整,以此來(lái)控制最終的出鋁量,但是由于鋁電解參數(shù)的整體關(guān)聯(lián)性目前研究較少,每個(gè)參數(shù)調(diào)節(jié)標(biāo)準(zhǔn)難以衡量,時(shí)序性的影響不易被發(fā)掘,考慮到深度強(qiáng)化學(xué)習(xí)在連續(xù)控制中的優(yōu)秀表現(xiàn),和鋁電解過(guò)程本身具有大時(shí)空性,本文選用在該方面表現(xiàn)較好的PPO算法,該算法是一種新的強(qiáng)化學(xué)習(xí)方法,方法基于AC算法,將策略模擬成神經(jīng)網(wǎng)絡(luò),訓(xùn)練的過(guò)程就是對(duì)神經(jīng)網(wǎng)絡(luò)梯度求解參數(shù)的過(guò)程,使用隨機(jī)梯度下降進(jìn)行參數(shù)更新,該方法具有更新效率低,參數(shù)擺動(dòng)幅度大的缺點(diǎn),本文使用在更新效率和參數(shù)擺動(dòng)幅度上表現(xiàn)較好的RMSProp(Root Mean Square Prop)算法[6],并進(jìn)行部分改進(jìn),將動(dòng)量思想引入該算法,使用鋁電解歷史數(shù)據(jù)訓(xùn)練模型,并應(yīng)用到實(shí)踐中,實(shí)驗(yàn)結(jié)果表明:對(duì)比原始PPO算法,改進(jìn)的RMSProp-PPO算法具有更快的收斂性,訓(xùn)練結(jié)果相對(duì)準(zhǔn)確,具有一定的參考價(jià)值和經(jīng)濟(jì)效益。

1 預(yù)備知識(shí)

1.1 馬爾科夫決策過(guò)程

強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個(gè)馬爾科夫決策過(guò)程,尋找一個(gè)狀態(tài)到動(dòng)作的映射,即最優(yōu)策略,如公式(1)所示:

策略π的含義是在每個(gè)狀態(tài)s指定一個(gè)動(dòng)作a發(fā)生的概率,強(qiáng)化學(xué)習(xí)中一般通過(guò)兩種方式評(píng)價(jià)策略的好壞,具體可分為狀態(tài)值函數(shù)和動(dòng)作值函數(shù),狀態(tài)值函數(shù)定義如公式(2)所示,狀態(tài)動(dòng)作值函數(shù)定義如公式(3)所示[8]:

其中在實(shí)際編程中狀態(tài)動(dòng)作值的Bellman方程如公式(4)所示:

1.2 策略梯度算法

策略梯度方法的目標(biāo)是找到一組最佳的參數(shù)θ*用來(lái)表示策略函數(shù),使得累計(jì)獎(jiǎng)勵(lì)的期望最大,如公式(5)所示:

對(duì)公式(6)求梯度可得策略梯度如公式(7):

根據(jù)梯度上升對(duì)參數(shù)θ進(jìn)行下一步更新,如公式(8):

基于原始的PG算法,考慮到實(shí)際應(yīng)用中出現(xiàn)的問(wèn)題,人們對(duì)PG算法做了幾個(gè)改進(jìn):

(1)增加獎(jiǎng)勵(lì)基線,使用平均獎(jiǎng)賞作為獎(jiǎng)勵(lì)基線,避免因?yàn)槲催x擇到好動(dòng)作而把差的動(dòng)作出現(xiàn)的概率增大的現(xiàn)象。(2)增加折扣因子,原因是未來(lái)等價(jià)的價(jià)值小于當(dāng)前的價(jià)值。(3)使用優(yōu)勢(shì)函數(shù),將一個(gè)時(shí)間步內(nèi)的累計(jì)獎(jiǎng)勵(lì)關(guān)聯(lián)到狀態(tài)值函數(shù),使得獎(jiǎng)勵(lì)更加合理。

1.3 近端策略優(yōu)化算法

PG算法最大的缺陷在于網(wǎng)絡(luò)參數(shù)更新慢,因?yàn)槊看蔚膮?shù)更新都需要重新采樣,會(huì)花費(fèi)大量的時(shí)間。為此,OpenAI于2017年發(fā)布了一類(lèi)新的強(qiáng)化學(xué)習(xí)算法-近端策略優(yōu)化(Proximal Policy Optimization,PPO)[10],該算法引入重要性采樣的概念,使得采樣數(shù)據(jù)可以重復(fù)被利用,同時(shí)引入KL散度作為目標(biāo)函數(shù)的懲罰項(xiàng),相對(duì)于TRPO利用KL散度直接約束目標(biāo)函數(shù)來(lái)說(shuō)更加容易求解。

在PG算法中,我們使用πθ與環(huán)境交互,當(dāng)θ被更新時(shí),需要對(duì)訓(xùn)練數(shù)據(jù)重新采樣,由于PG算法屬于modelfree,模型的概率不可得到,只能通過(guò)與真實(shí)環(huán)境的數(shù)據(jù)分布P(x)中去采樣加和平均求期望,為了使得采樣數(shù)據(jù)可以被重復(fù)使用,PPO算法中使用離線策略技巧[11],利用πθ'進(jìn)行采樣,得到樣本訓(xùn)練θ,θ'是固定的,采樣的樣本可以被重復(fù)使用,從而避免反復(fù)采樣,但是嚴(yán)格意義上PPO算法屬于在線策略。

在PPO算法中,優(yōu)化目標(biāo)函數(shù)梯度如公式(9)所示:

PPO中網(wǎng)絡(luò)參數(shù)的更新與PG算法相同,使用隨機(jī)梯度上升進(jìn)行更新,其中新舊策略的KL散度滿足約束,為一個(gè)常數(shù),公式如公式(11):

實(shí)際研究應(yīng)用中研究人員發(fā)現(xiàn),使用截?cái)囗?xiàng)代替KL散度具有更好的效果,將新舊策略的比值記為:

新的目標(biāo)函數(shù)變?yōu)椋?/p>

其中ε為截?cái)喑?shù),在原論文中取值為0.2,clip函數(shù)為截?cái)嗪瘮?shù),將r(θ)限制在1-ε和1+ε的區(qū)間內(nèi),避免策略突變,增強(qiáng)了PPO算法的訓(xùn)練效果[12]。

2 改進(jìn)RMSProp-PPO的鋁電解參數(shù)模型

本文將改進(jìn)的RMSProp-PPO算法應(yīng)用于鋁電解過(guò)程中,目標(biāo)是:智能體在規(guī)定的步長(zhǎng)內(nèi),找到最終出鋁量最高的執(zhí)行動(dòng)作序列,我們將序列輸出,基于原始輸入狀態(tài)進(jìn)行迭代,可得最終狀態(tài)的狀態(tài),即一組參數(shù)值。

訓(xùn)練過(guò)程如下圖所示:

圖1 智能體訓(xùn)練過(guò)程示意圖

首先依據(jù)鋁電解環(huán)境設(shè)計(jì)了環(huán)境狀態(tài)和動(dòng)作狀態(tài),智能體通過(guò)與環(huán)境狀態(tài)交互獲得數(shù)據(jù),然后將數(shù)據(jù)結(jié)合設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,根據(jù)策略選擇動(dòng)作,轉(zhuǎn)移到下一個(gè)狀態(tài),重復(fù)以上步驟,不斷迭代,直到訓(xùn)練完成為止。

原始的PPO算法是對(duì)PG算法的改進(jìn),在PG算法中使用隨機(jī)梯度上升對(duì)參數(shù)進(jìn)行更新,隨機(jī)梯度上升存在效率低,訓(xùn)練過(guò)早結(jié)束的缺陷,導(dǎo)致最終算法收斂速度變慢并且結(jié)果不準(zhǔn)確,本文使用了對(duì)隨機(jī)梯度上升進(jìn)行了改進(jìn)的RMSProp算法。

RMSProp算法全稱Root Mean Square Prop算法,它與AdaGrad最大的不同在于RMSProp利用衰減系數(shù)控制迭代,將梯度累計(jì)量改為指數(shù)衰減的移動(dòng)量,逐漸放棄歷史梯度,這樣做最大的好處是可以控制模型訓(xùn)練的時(shí)間,從而解決深度強(qiáng)化學(xué)習(xí)過(guò)程中模型過(guò)早訓(xùn)練結(jié)束的問(wèn)題,具體參數(shù)包括:初始值θ,學(xué)習(xí)率η,累計(jì)梯度值r(初始為0),梯度g,衰減系數(shù)ρ和穩(wěn)定系數(shù)δ,每步的迭代過(guò)程如下:

(1)收集若干次訓(xùn)練樣本,每批中樣本分別為{x1,x2,x3,x4,...,xn},相對(duì)應(yīng)的輸出為yi。

(2)從中隨機(jī)抽取一組訓(xùn)練樣本,計(jì)算梯度:

(3)計(jì)算累計(jì)平方梯度(與AdaGrad算法不同的地方):

(4)使用計(jì)算的參數(shù)更新,更新參數(shù):

為了使得梯度在期望的方向上上升的更加理想,本文借鑒動(dòng)量梯度上升算法的思想,在計(jì)算參數(shù)更新時(shí),我們加入初始動(dòng)量v和動(dòng)量衰減系數(shù)α,更新公式如下:

2.1 狀態(tài)空間和動(dòng)作空間

同時(shí)為了使得PPO算法更加適用于鋁電解的參數(shù)尋優(yōu),本文自定義智能體的狀態(tài)空間為歷史數(shù)據(jù)(即模仿電解槽生產(chǎn)狀態(tài)從而判定出鋁量),這樣做的主要目的是由于鋁電解生產(chǎn)參數(shù)的性質(zhì)為高維、連續(xù)、不可預(yù)測(cè),模仿歷史數(shù)據(jù)將使得訓(xùn)練環(huán)境更加接近真實(shí)的鋁電解生產(chǎn)狀況,定義如下:

本文采用離散矢量動(dòng)作空間定義了兩個(gè)基準(zhǔn)動(dòng)作,向上增加0.1%,和向下減少0.1%,針對(duì)時(shí)間步中的每次迭代,隨機(jī)選擇一個(gè)參數(shù)執(zhí)行基準(zhǔn)動(dòng)作,實(shí)驗(yàn)最終目標(biāo)是提高出鋁量,故參數(shù)迭代時(shí),出鋁量不參與執(zhí)行動(dòng)作,所以動(dòng)作空間一共包含18個(gè)動(dòng)作,分別為各個(gè)參數(shù)增加或者減少0.1%。

2.2 獎(jiǎng)懲函數(shù)

深度強(qiáng)化學(xué)習(xí)通過(guò)累計(jì)獎(jiǎng)勵(lì)最大化來(lái)描述實(shí)驗(yàn)?zāi)繕?biāo),智能體通過(guò)選擇合適的策略與環(huán)境產(chǎn)生互動(dòng),環(huán)境返回執(zhí)行選擇策略的結(jié)果即獎(jiǎng)賞值,每次試驗(yàn)包含數(shù)個(gè)回合,為了避免由于獎(jiǎng)勵(lì)稀疏導(dǎo)致學(xué)習(xí)效率低以及訓(xùn)練結(jié)果不準(zhǔn)確的問(wèn)題[13],本文在原始獎(jiǎng)勵(lì)的基礎(chǔ)上進(jìn)行了獎(jiǎng)勵(lì)重構(gòu),增加外部獎(jiǎng)勵(lì)機(jī)制以及好奇心驅(qū)動(dòng)來(lái)提高訓(xùn)練效率和最終性能,本文獎(jiǎng)懲值是基于平均出鋁量的百分比,計(jì)算式為:

其中相似狀態(tài)出鋁量為歷史環(huán)境中尋找到的最接近的某條數(shù)據(jù)參數(shù)中的出鋁量值。

本文設(shè)定如果本次得到的出鋁量高于平均出鋁量的3%,額外增加0.1%的獎(jiǎng)賞,反之則減少0.1%,這是由于原始數(shù)據(jù)分布中絕大多數(shù)出鋁量數(shù)據(jù)是在上下3%的區(qū)間浮動(dòng),整體獎(jiǎng)懲機(jī)制如下:

通過(guò)內(nèi)在獎(jiǎng)懲機(jī)制促進(jìn)智能體更加積極的探索環(huán)境,可以解決獎(jiǎng)勵(lì)稀疏帶來(lái)的學(xué)習(xí)效率低下的問(wèn)題[14]。

2.3 改進(jìn)RMSProp-PPO算法

原始的近端策略優(yōu)化算法是由OpenAI在2017年提出,由于其訓(xùn)練結(jié)果表現(xiàn)優(yōu)良,目前已被廣泛使用[15]。同年,Deepmind通過(guò)訓(xùn)練PPO實(shí)現(xiàn)了智能體在沒(méi)有特殊指示的情況下探索出復(fù)雜技能[16],進(jìn)一步證明PPO算法可以較好地應(yīng)用于連續(xù)控制及連續(xù)性情節(jié)的任務(wù)上。

結(jié)合改進(jìn)的RMSProp,本文算法流程圖:

圖2 改進(jìn)RMSProp-PPO算法流程圖

算法流程如下:

(1)向新演說(shuō)家網(wǎng)絡(luò)(Actor-Net)中輸入環(huán)境信息S,得到兩個(gè)參數(shù)μ,σ,通過(guò)這對(duì)參數(shù)構(gòu)建正態(tài)分布,再通過(guò)正態(tài)分布抽樣出action。將action輸入到鋁電解歷史數(shù)據(jù)中(即環(huán)境)得到相應(yīng)的獎(jiǎng)勵(lì)r和下一步的狀態(tài)S_,存儲(chǔ)該步驟的(S,a,r),重復(fù)此步驟,直至存儲(chǔ)到一定數(shù)量,此過(guò)程中新演說(shuō)家網(wǎng)絡(luò)沒(méi)有更新。

(2)將過(guò)程1中循環(huán)最后一步得到的S_輸入至評(píng)判家網(wǎng)絡(luò)(Critic-Net),得到狀態(tài)值V_并計(jì)算折扣獎(jiǎng)勵(lì)。

(3)將存儲(chǔ)的所有狀態(tài)值輸入到評(píng)判家網(wǎng)絡(luò),得到所有的狀態(tài)值V_,計(jì)算優(yōu)勢(shì)函數(shù)。

(4)根據(jù)優(yōu)勢(shì)函數(shù)計(jì)算評(píng)判家網(wǎng)絡(luò)的損失函數(shù),并根據(jù)損失函數(shù)通過(guò)RMSProp反向傳播更新評(píng)判家網(wǎng)絡(luò)。

(5)將存儲(chǔ)的所有s組合輸入新演說(shuō)家和舊演說(shuō)家網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)一樣),分別得到兩個(gè)正態(tài)分布Normal1,Normal2,將存儲(chǔ)的所有Action組合為Actions分別輸入到兩個(gè)正態(tài)分布中,得到每個(gè)Actions對(duì)應(yīng)的prob1和prob2,然后用prob2除以prob1得到ratio。

(6)根據(jù)原始PPO論文中的cilp函數(shù)計(jì)算新演說(shuō)家網(wǎng)絡(luò)的損失,通過(guò)改進(jìn)的RMSProp反向傳播更新新演說(shuō)家網(wǎng)絡(luò)。

(7)循環(huán)5~6步驟,一定次數(shù)后,循環(huán)結(jié)束,用新演說(shuō)家網(wǎng)絡(luò)的權(quán)重來(lái)更新舊演說(shuō)家網(wǎng)絡(luò)。

(8)循環(huán)步驟1~7,直到達(dá)到規(guī)定的eposide。

3 實(shí)驗(yàn)

本文在戴爾工作站上進(jìn)行仿真實(shí)驗(yàn),工作站配置如下:硬件環(huán)境為 Intel?Xeon? CPU E5- 2620 v4@2.10 GHz的處理器,內(nèi)存64 GB,顯卡NVIDIA TITAN Xp,軟件環(huán)境為Pycharm,python版本3.6。

為驗(yàn)證改進(jìn)算法有效性,本文共進(jìn)行兩個(gè)仿真實(shí)驗(yàn):

(1)基于鋁電解數(shù)據(jù)的原始PPO算法。

(2)基于鋁電解數(shù)據(jù)的改進(jìn)的RMSProp-PPO算法。

本文使用的數(shù)據(jù)集為某鋁廠2018-12-12至2019-03-13,288個(gè)電解槽,共計(jì)27049條鋁電解歷史數(shù)據(jù),參數(shù)分別為Fe含量,分子比,Si含量,鋁水平,電解質(zhì)水平,電解溫度,工作電壓,設(shè)定電壓,出鋁量。

本文實(shí)驗(yàn)所用Actor與Critic網(wǎng)絡(luò)結(jié)構(gòu)相同,本文使用全連接神經(jīng)網(wǎng)絡(luò),共設(shè)計(jì)2個(gè)隱層,每個(gè)隱層神經(jīng)元為128個(gè),神經(jīng)元激活函數(shù)選用Relu激活函數(shù),在Actor網(wǎng)絡(luò)中將狀態(tài)S輸入到網(wǎng)絡(luò),通過(guò)不同的激活函數(shù)預(yù)測(cè)合適的均值和方差,確定正態(tài)分布,然后通過(guò)正態(tài)分布選擇合適的動(dòng)作,在Critic網(wǎng)絡(luò)中,根據(jù)以往數(shù)據(jù)評(píng)價(jià)Actor網(wǎng)絡(luò)執(zhí)行動(dòng)作的好壞,通過(guò)狀態(tài)值函數(shù)表示累計(jì)獎(jiǎng)勵(lì)。

本文涉及到部分超參數(shù),其中包括PPO算法部分超參數(shù)以及RMSProp部分超參數(shù),如表1所示。

表1 實(shí)驗(yàn)超參數(shù)

經(jīng)過(guò)15.8h的訓(xùn)練,智能體獎(jiǎng)賞值趨于穩(wěn)定,初始設(shè)定最大episodes為10000,Max_steps為3000,為保證訓(xùn)練效率節(jié)約時(shí)間,針對(duì)該模型,訓(xùn)練結(jié)果如圖3所示。

圖3 10000episodes訓(xùn)練結(jié)果示意圖

經(jīng)過(guò)多次訓(xùn)練發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果相似,可證明3000episodes以內(nèi),訓(xùn)練結(jié)果趨于穩(wěn)定,最終設(shè)定最大episodes為3000。

對(duì)比算法訓(xùn)練結(jié)果圖4所示:

圖4 (a)原始PPO訓(xùn)練結(jié)果示意圖 (b)改進(jìn)RMSProp-PPO訓(xùn)練結(jié)果示意圖

由上圖可以看出,原始PPO算法(左圖)在1500個(gè)episodes時(shí)趨于穩(wěn)定,穩(wěn)定值累計(jì)獎(jiǎng)賞在15%左右。改進(jìn)RMSProp算法(右圖)在1000個(gè)episodes時(shí)趨于穩(wěn)定,穩(wěn)定值累計(jì)獎(jiǎng)賞在17%左右,稀疏對(duì)比圖如圖5所示。

圖5 訓(xùn)練結(jié)果對(duì)比示意圖

藍(lán)色為原始PPO算法訓(xùn)練結(jié)果,黃色為改進(jìn)RMSProp算法訓(xùn)練結(jié)果,可對(duì)比看出,改進(jìn)的PPO算法具有更快的收斂速度,且訓(xùn)練相對(duì)穩(wěn)定。

最終訓(xùn)練結(jié)果所取得的狀態(tài)值(即鋁電解參數(shù)最優(yōu)結(jié)果)為:[0.1606,2.5401,0.0515,249.7619,162.8467,932.2844,3.8704,4.0384],將該實(shí)驗(yàn)結(jié)果作為參考指標(biāo),連續(xù)一個(gè)月在某鋁廠某臺(tái)電解槽中進(jìn)行實(shí)驗(yàn)驗(yàn)證,工藝人員依據(jù)此參考指標(biāo)進(jìn)行鋁電解過(guò)程的參數(shù)調(diào)節(jié),結(jié)果表明,該槽連續(xù)一個(gè)月的出鋁量同比增長(zhǎng)10%左右,證明該實(shí)驗(yàn)方法具有一定的工藝參考價(jià)值。

本文使用新的思路來(lái)解決鋁電解參數(shù)調(diào)優(yōu)問(wèn)題,針對(duì)鋁電解參數(shù)特征,采用不同的獎(jiǎng)賞機(jī)制和狀態(tài)空間,提高了訓(xùn)練結(jié)果的準(zhǔn)確性,同時(shí)針對(duì)鋁電解參數(shù)連續(xù)性強(qiáng),狀態(tài)空間大,迭代速度慢的問(wèn)題,本文提出的改進(jìn)RMSProp算法有效提高了模型的訓(xùn)練速度,實(shí)驗(yàn)結(jié)果表明,該方法具有有效性和較高的參考價(jià)值。

4 結(jié)語(yǔ)

本文提出了一種基于改進(jìn)RMSProp的近端策略優(yōu)化算法,將該算法應(yīng)用于數(shù)據(jù)具有較高復(fù)雜性的鋁電解行業(yè),同時(shí)針對(duì)鋁電解參數(shù)的數(shù)據(jù)特性,設(shè)計(jì)了狀態(tài)空間和獎(jiǎng)懲函數(shù),使用改進(jìn)RMSProp加快模型迭代速度,最后利用PPO算法的截?cái)鄼C(jī)制優(yōu)化策略的更新幅度。實(shí)驗(yàn)結(jié)果表明本文算法能夠有效地尋優(yōu)出相對(duì)較優(yōu)的參數(shù)標(biāo)準(zhǔn),在實(shí)際生產(chǎn)中能夠有效地提鋁產(chǎn)量。

本文下一步目標(biāo)是近一步完善算法,優(yōu)化單次迭代時(shí)間,并將鋁電解參數(shù)復(fù)雜的關(guān)聯(lián)性加入到算法中,近一步提高訓(xùn)練結(jié)果的實(shí)際效益。

猜你喜歡
鋁電解梯度動(dòng)作
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
復(fù)雜電解質(zhì)體系下鋁電解工藝控制技術(shù)研究
一種自適應(yīng)Dai-Liao共軛梯度法
鋁電解電容器技術(shù)現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)
一類(lèi)扭積形式的梯度近Ricci孤立子
提高鋁電解電容器合格率的多元化工藝技術(shù)
電子制作(2018年12期)2018-08-01 00:47:52
動(dòng)作描寫(xiě)要具體
畫(huà)動(dòng)作
動(dòng)作描寫(xiě)不可少
非同一般的吃飯動(dòng)作
日喀则市| 东乡县| 永宁县| 普安县| 凉山| 察隅县| 阳谷县| 特克斯县| 沁源县| 高碑店市| 滨州市| 克东县| 岗巴县| 江陵县| 凌海市| 上蔡县| 琼结县| 丰县| 淮滨县| 宁晋县| 宜城市| 拉孜县| 北流市| 房产| 大港区| 黑山县| 通辽市| 肃宁县| 绥德县| 闽侯县| 玛曲县| 鹿邑县| 临邑县| 平利县| 德清县| 车险| 芦山县| 迭部县| 申扎县| 江津市| 都匀市|