国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不確定工業(yè)過程運行指標異步更新強化學習決策算法

2023-03-06 13:32李金娜丁進良
自動化學報 2023年2期
關鍵詞:生產(chǎn)指標精礦決策

李金娜 袁 林 丁進良

工業(yè)過程運行指標決策的內(nèi)涵是以工業(yè)過程生產(chǎn)指標優(yōu)化為目標的運行指標決策問題(如圖1 所示).生產(chǎn)指標是指反映企業(yè)或者生產(chǎn)線最終產(chǎn)品的質(zhì)量、產(chǎn)量、成本和能量消耗等相關的指標,運行指標是指反映控制單元的產(chǎn)品在運行周期內(nèi)的質(zhì)量、效率、能耗和物耗等相關的指標[1-2].面對激烈的國內(nèi)外市場競爭,能量節(jié)約和安全生產(chǎn)的民生需求和政策導向,以及原材料和運行工況(生產(chǎn)條件)的動態(tài)波動,研究工業(yè)過程運行指標決策問題,提高產(chǎn)品的質(zhì)量、產(chǎn)量和能量使用效率等生產(chǎn)指標,保證安全運行,這是增強企業(yè)競爭力和可持續(xù)發(fā)展的必然選擇.

圖1 工業(yè)過程運行指標決策問題Fig.1 Decision-making problem of operational indices in industrial processes

關于工業(yè)過程運行指標決策問題的研究一直是工業(yè)界、學術(shù)界研究的熱點.工業(yè)過程運行指標決策是一個復雜的多目標優(yōu)化問題,其復雜性包括:1)工業(yè)過程通常由多個控制單元構(gòu)成,每個控制單元有各自的運行指標需求,目標是協(xié)同優(yōu)化整個工業(yè)過程的多個生產(chǎn)指標;2)生產(chǎn)指標和運行指標之間的動態(tài)關系呈現(xiàn)非線性和不確定性特征.因此,傳統(tǒng)的利用操作人員現(xiàn)場經(jīng)驗協(xié)調(diào)各運行指標的方式無法保證工業(yè)過程生產(chǎn)指標的優(yōu)化[1-3].那么,如何簡化求解此多目標優(yōu)化問題,設計一種減少計算耗時并優(yōu)化生產(chǎn)指標的方法,是本文研究的根本動機.

相比于集中式運行指標決策方法[4-5],分布式運行指標決策方法[6-11]有利于簡化求解的復雜性.文獻[6,8-9]針對多個生產(chǎn)指標優(yōu)化問題,融合性能預測與反饋控制,提出了運行指標動態(tài)校正方法.在此基礎上,文獻[7]引入強化學習思想,基于案例推理策略,給出了數(shù)據(jù)驅(qū)動的運行指標動態(tài)修正方法.但上述方法仍需要利用操作人員的經(jīng)驗調(diào)整運行指標,很難保證生產(chǎn)指標的優(yōu)化.文獻[10]采用強化學習技術(shù),基于博弈理論,給出工業(yè)過程運行指標自學習方法,保證生產(chǎn)指標以近似最優(yōu)的方式跟蹤理想值.注意到,文獻[10]沒有考慮生產(chǎn)條件波動對生產(chǎn)指標性能的影響.但實際工業(yè)過程原料成分、運行工況、設備狀態(tài)等多種不確定因素導致生產(chǎn)條件動態(tài)波動.文獻[11]以最大化產(chǎn)品產(chǎn)量為目標,利用歷史數(shù)據(jù),提出了一種多執(zhí)行網(wǎng)絡集成強化學習算法,自學習決策運行指標.但該研究成果忽略了實際工業(yè)過程運行指標需要滿足的約束條件,并且性能指標為單次采樣時刻獎賞值,無法保證累積生產(chǎn)指標的優(yōu)化.

綜合分析上述分布式運行指標決策方法,在生產(chǎn)條件動態(tài)波動、生產(chǎn)指標和運行指標存在靜態(tài)約束的情況下,如何以數(shù)據(jù)驅(qū)動的方式分布式自學習決策工業(yè)過程運行指標仍是一個挑戰(zhàn)性難題.這是本文研究的第二個動機.

自適應動態(tài)規(guī)劃技術(shù)是智能最優(yōu)控制領域研究的熱點.該方法的本質(zhì)是采用強化學習技術(shù)求解哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman,HJB) 方程,以迭代方式求解最優(yōu)控制策略[12-16].文獻[10,15,17-19]等針對復雜大系統(tǒng),提出了一系列自適應動態(tài)規(guī)劃方法用來分布式自學習最優(yōu)控制策略,優(yōu)化控制系統(tǒng)性能.但現(xiàn)有分布式最優(yōu)控制策略自學習方法,往往忽略了系統(tǒng)不確定性(如環(huán)境動態(tài)波動等) 導致的狀態(tài)不確定性(隨機性),無法在隨機變化的環(huán)境下保證系統(tǒng)性能的優(yōu)化,甚至無法保證系統(tǒng)的穩(wěn)定性.針對隨機最優(yōu)控制問題的自適應動態(tài)規(guī)劃方法還鮮見報道.文獻[20]針對離散隨機過程,提出了一種自適應動態(tài)規(guī)劃方法,自學習最優(yōu)控制策略,但解決的是單變量控制問題,并且要求系統(tǒng)狀態(tài)轉(zhuǎn)移概率矩陣已知.然而,實際工業(yè)過程生產(chǎn)指標狀態(tài)轉(zhuǎn)移概率矩陣無法準確計算.此外,現(xiàn)有的分布式強化學習技術(shù)中策略更新為多個控制變量同步更新,多個執(zhí)行網(wǎng)絡同步訓練將產(chǎn)生較大的時間開銷和計算負載.因此,現(xiàn)有的自適應動態(tài)規(guī)劃技術(shù)仍無法直接用于解決本文研究的兩個動機問題.

文獻[21-23]利用懲罰函數(shù)和Barrier 函數(shù)能解決系統(tǒng)狀態(tài)變量和控制輸入約束問題.受其啟發(fā),本文在效用函數(shù)中引入Barrier 函數(shù)和懲罰函數(shù),用以解決生產(chǎn)指標和運行指標靜態(tài)約束問題.利用樣本均值代替計算生產(chǎn)指標狀態(tài)轉(zhuǎn)移概率矩陣,首次提出了一種策略異步更新強化學習算法,并給出了算法收斂性的理論證明.研究中面臨的挑戰(zhàn)性難題是在保證算法收斂性的前提下,如何實現(xiàn)策略異步更新和如何證明算法的收斂性.為此,本文引入時鐘并定義其閾值,執(zhí)行集中式性能評估,多策略異步更新,并且基于隨機最優(yōu)控制理論,采用數(shù)學歸納法證明了所提算法的收斂性.所提出的方法不要求生產(chǎn)指標狀態(tài)轉(zhuǎn)移概率矩陣已知,多策略異步更新方式提高了學習效率,同時有效地解決了生產(chǎn)指標和運行指標的靜態(tài)約束問題,實現(xiàn)了不確定工業(yè)過程生產(chǎn)指標優(yōu)化,并且保證系統(tǒng)安全運行.實驗驗證了所提方法的有效性和可行性.

本文主要的創(chuàng)新點如下:

1)首次提出了一種策略異步更新強化學習算法,采用集中式性能評估,多策略異步更新,可以減少計算成本和時間,提高學習效率.并且,本文給出了所提算法收斂性的理論證明.

2)本文不要求系統(tǒng)狀態(tài)轉(zhuǎn)移概率矩陣已知,在隨機自適應動態(tài)規(guī)劃框架下,利用樣本均值代替計算生產(chǎn)指標狀態(tài)轉(zhuǎn)移概率矩陣,提出的強化學習算法利用可測量數(shù)據(jù),在生產(chǎn)條件動態(tài)波動的情況下,自學習得到的運行指標能夠優(yōu)化生產(chǎn)指標.

1 工業(yè)過程運行指標決策問題描述

工業(yè)過程的運行指標和生產(chǎn)指標之間的動態(tài)具有強耦合性、非線性、受生產(chǎn)條件變化影響等特征[1-2,10-11].本文研究的目標是在充分考慮上述特征的情況下,給出一種快速地自學習決策運行指標的方法,優(yōu)化生產(chǎn)指標,并且保證生產(chǎn)指標和運行指標滿足靜態(tài)約束條件.本文不研究過程運行優(yōu)化層和回路控制層如何設計設定值和控制輸入,實現(xiàn)運行指標跟蹤理想運行指標(如圖1 所示).為此,本文首先假設生產(chǎn)指標與運行指標之間的動態(tài)關系如下:

式中,sk=s(k)∈Rn和aik=ai(k)∈Rqi(i=1, 2,···,m) 分別表示工業(yè)過程生產(chǎn)指標和運行指標,dk=d(k)∈Rκ表示生產(chǎn)條件,f(·) 為未知非線性連續(xù)函數(shù).運行指標決策問題可以建模為一個部分可觀察馬爾科夫決策過程,并用一個六元組G=<S,A,P,r,O,γ >表示,其中S、A、O分別表示狀態(tài)空間,動作空間和由可觀察數(shù)據(jù)構(gòu)成的觀察空間,r表示立即獎賞,γ(0<γ ≤1) 表示折扣因子.P(sk+1|sk,ak) 表示在當前狀態(tài)sk下,采取動作行為ak產(chǎn)生下一刻狀態(tài)sk+1的狀態(tài)轉(zhuǎn)移概率.在實際的工業(yè)過程中,生產(chǎn)指標采樣周期通常為天和小時等.本文中采樣時刻k=0, 1,···表示第k天或小時.具體的狀態(tài)空間、觀察空間和動作空間說明如下:

1)狀態(tài)空間S: 對于系統(tǒng)(1),生產(chǎn)指標sk為狀態(tài)變量,sk ∈S,S是連續(xù)空間.

2)觀察空間O: 在實際生產(chǎn)中,生產(chǎn)條件dk可以表示單位時間吞吐量、原料質(zhì)量和運行工況等.本文假設狀態(tài)變量和生產(chǎn)條件是可測量的,那么{sk,dk}∈O.工業(yè)生產(chǎn)中生產(chǎn)條件不可能保持不變,通常具有統(tǒng)計特性.受生產(chǎn)條件波動的影響,未來的生產(chǎn)指標sk+1是不確定的.

3)動作空間A:m個運行指標aik(i=1, 2,···,m) 構(gòu)成決策變量,因此aik ∈A.本文假設決策是確定的,即P(ak|sk)=1,決策運行指標,優(yōu)化工業(yè)過程的生產(chǎn)指標.實際工業(yè)過程運行指標是連續(xù)的且需要滿足一定的約束條件,因此A為連續(xù)動作空間.

現(xiàn)有的自適應動態(tài)規(guī)劃方法為解決連續(xù)動作空間的最優(yōu)控制問題提供了可借鑒的理論和方法.因此,本文在自適應動態(tài)規(guī)劃框架下,擬提出一種策略異步更新強化學習算法,自學習運行指標.為實現(xiàn)本文研究目標,本文定義如下性能指標:

式中,c(·) 是效用函數(shù),算子 E{·}表示數(shù)學期望.

注1.本文目標是優(yōu)化不確定工業(yè)過程生產(chǎn)指標,因此效用函數(shù)要刻畫生產(chǎn)指標.為具體明確,本文取生產(chǎn)指標為產(chǎn)品產(chǎn)量s1k和產(chǎn)品質(zhì)量s2k.目標是最大化產(chǎn)品產(chǎn)量,控制產(chǎn)品質(zhì)量在規(guī)定范圍之內(nèi).因此,改寫式(2)得到如下優(yōu)化問題:

問題 1.

式中,s1min、s2min、s2max為正實數(shù).

為滿足生產(chǎn)指標和運行指標的靜態(tài)約束條件,類似文獻[22-23],本文引入一個Barrier 函數(shù):

注2.效用函數(shù)c(a1k,···,amk) 中 1/s1k表示產(chǎn)品產(chǎn)量的倒數(shù),如果想要產(chǎn)品產(chǎn)量最大化,那么需要 1/s1k最小化.不同于文獻[10-11],性能指標(8)包含了通過折扣因子γ衰減作用后累積性能的期望值.折扣因子使得鄰近k時刻的產(chǎn)品產(chǎn)量比未來的值更重要.并且,性能指標中還包含了運行指標和生產(chǎn)指標的靜態(tài)約束信息.

注3.通過引入Barrier 函數(shù)和懲罰函數(shù),本文將靜態(tài)約束轉(zhuǎn)化為性能指標函數(shù).問題2 本質(zhì)上是一個最優(yōu)控制問題,運行指標成為動態(tài)系統(tǒng)(4)的控制輸入,那么最大化產(chǎn)品產(chǎn)量和控制產(chǎn)品質(zhì)量在規(guī)定范圍的多目標多約束優(yōu)化問題1 被轉(zhuǎn)化為單目標無靜態(tài)約束的最優(yōu)控制問題2.

相比于集中式控制或者變量決策,分布式控制具有減輕計算負載的優(yōu)勢.下面將針對優(yōu)化問題2給出具體的求解算法.

2 最優(yōu)運行指標決策

本節(jié)針對優(yōu)化問題2,基于強化學習技術(shù)和隨機優(yōu)化控制理論,提出了一種策略異步更新強化學習算法,并且證明了算法的收斂性.

2.1 隨機最優(yōu)控制方法

由于生產(chǎn)條件dk的隨機性特征,k時刻生產(chǎn)指標取值具有多種可能性.因此,利用貝葉斯法則,性能指標(8)可以改寫為:

上式表明最小化jk可以等價地設計最小化的決策規(guī)則.如果固定k+1 時刻的生產(chǎn)指標sk+1,則有:

基于隨機最優(yōu)控制理論和動態(tài)規(guī)劃理論[10,20,24],當所有運行指標取最優(yōu)策略m)時,k時刻性能的數(shù)學期望為:

由于k+1 時刻工業(yè)過程生產(chǎn)指標sk+1具有不確定性,則有:

利用最優(yōu)性的必要條件,最優(yōu)的運行指標為:

將式(15) 代入式(14),得到離散時間HJB 方程:

注4.由式(15)可知,本文采用分布式狀態(tài)反饋優(yōu)化控制的方式,分布式設計運行指標.與構(gòu)成運行指標增廣向量,采用集中式方法設計運行指標相比,減少計算負載.

注5.根據(jù)隨機最優(yōu)控制理論和動態(tài)規(guī)劃理論,滿足式(16)的運行指標式(15)能夠最小化性能指標式(8).由式(15),有即運行指標滿足靜態(tài)約束條件.

2.2 運行指標自學習決策方法

本節(jié)將拓展現(xiàn)有的自適應動態(tài)規(guī)劃方法,提出一種新的運行指標自學習決策算法,在優(yōu)化性能式(8)的意義下,實現(xiàn): 1)產(chǎn)品產(chǎn)量最大化;2)控制產(chǎn)品質(zhì)量在規(guī)定范圍之內(nèi);3)運行指標限制在規(guī)定范圍之內(nèi),實現(xiàn)工業(yè)過程生產(chǎn)指標優(yōu)化并且保證安全運行.

定義1[20,22,25].如果運行指標aik(i=1, 2,···,m) 滿足: 1)鎮(zhèn)定系統(tǒng)式(4);2)當生產(chǎn)指標sk滿足約束條件式(5)時,jk是有界的,那么運行指標aik稱為是可允許的.

為了用數(shù)值方法求解離散HJB 方程(16),本文提出了策略異步更新強化學習算法1,圖2 給出了算法1 的執(zhí)行機制.

圖2 運行指標自學習機制Fig.2 Self-learning mechanism of operational indices

算法1.策略異步更新強化學習算法

定理 1.假設m)可以由式(17) 和式(18) 得到,則對于所有的sk ∈S和任意迭代指標j如下結(jié)論成立

證明.1) 采用數(shù)學歸納法.當?shù)笜薺=1時,由式(17)定義:

注7.通過引入時鐘和定義其閾值,執(zhí)行策略異步更新,運行指標最終收斂到問題2 的最優(yōu)解.由于算法1 本質(zhì)上是強化學習方法,因此稱為策略異步更新強化學習算法.

注8.不同于現(xiàn)有的多控制策略同步更新強化學習算法[10-11,15,17-18],本文不僅給出多個控制策略(即運行指標)異步更新算法,并且基于隨機最優(yōu)控制理論,采用數(shù)學歸納法給出了算法收斂性的理論證明.各運行指標分布地、異步地更新策略,而不是集中[12-14,25,28]、同步更新方式[10-11,15,17-18],其優(yōu)勢在于提高學習效率.

由式(17)和式(18)可知,要實現(xiàn)運行指標自學習決策,求解是需要解決的關鍵問題.但是在工業(yè)過程生產(chǎn)指標和運行指標動態(tài)未知、生產(chǎn)條件存在頻繁波動的情況下,如何求解是一個難題.下面將基于提出的算法1,在多執(zhí)行-評判網(wǎng)絡結(jié)構(gòu)下提出數(shù)據(jù)驅(qū)動的運行指標自學習決策算法.

2.3 多執(zhí)行-評判網(wǎng)絡結(jié)構(gòu)

式中,sl(k+1)(l=1, 2,···,M) 表示在k+1 時刻隨機變量s的可能取值,N為樣本數(shù),n(s=sl(k+1))表示sl(k+1)出現(xiàn)的次數(shù).對于所有sk ∈Sj,利用梯度下降方法,有:

算法2.多執(zhí)行-評判網(wǎng)絡架構(gòu)下的運行指標自學習決策算法

算法2 給出了具體的決策運行指標的程序.為更清楚理解算法2,圖3給出了算法2 執(zhí)行流程圖.

圖3 多執(zhí)行-評判結(jié)構(gòu)下運行指標自學習決策流程圖Fig.3 Flowchart of self-learning decision making of operational indices with multiple actors-critic structure

注11.現(xiàn)有的自適應動態(tài)規(guī)劃方法,通常忽視系統(tǒng)不確定性引發(fā)的狀態(tài)不確定性.文獻[20]針對離散隨機過程,提出了強化學習方法,用以學習最優(yōu)控制策略,但要求狀態(tài)轉(zhuǎn)移概率矩陣已知.本文提出的方法無需計算狀態(tài)轉(zhuǎn)移概率矩陣,通過計算樣本均值可以計算并且提出了策略異步更新強化學習方法,用以提高學習效率.此外,本文提出的方法應用到工業(yè)過程生產(chǎn)指標優(yōu)化問題,給出了優(yōu)化生產(chǎn)指標并控制運行指標在規(guī)定范圍之內(nèi)的運行指標自學習決策方法.

注12.為計算式(43)中?sk+1/?ai(k),可以采用類似式(35)和式(36)的神經(jīng)網(wǎng)絡估計方法,先估計生產(chǎn)指標動態(tài)sk,然后再計算導數(shù)值.

注13.與經(jīng)典的深度Q 網(wǎng)絡(Deep Q network,DQN)算法以及融合DQN、執(zhí)行-評判網(wǎng)絡結(jié)構(gòu)和策略梯度方法的多智能體深度確定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法[32]相比,本文所提算法的不同之處在于: 1)算法2 中本文利用神經(jīng)網(wǎng)絡擬合的是值函數(shù),而不是代替Q表的Q函數(shù);2)算法2 中多個執(zhí)行網(wǎng)絡異步更新,而經(jīng)典的DQN 算法通常是根據(jù)估計的Q函數(shù)決定一個智能體的動作,MADDPG 算法往往是多執(zhí)行網(wǎng)絡同步更新.本文多個控制策略異步更新避免了部分智能體神經(jīng)網(wǎng)絡估計控制策略用時過長,提高學習效率,并且給出了算法收斂性證明.如何將所提方法擴展到MADDPG 算法是未來擬研究的方向.

3 鐵礦選礦生產(chǎn)指標優(yōu)化試驗

本節(jié)利用從中國西部某大型鐵礦選礦廠獲得的實際數(shù)據(jù),包括生產(chǎn)指標(精礦產(chǎn)量和精礦品位)、7個運行指標變量和5 個生產(chǎn)條件變量,開展本文提出的運行指標自學習決策算法的驗證,具體包括:1)實現(xiàn)生產(chǎn)指標優(yōu)化,即最大化精礦產(chǎn)量,控制精礦品位在理想范圍內(nèi),并且運行指標限制在規(guī)定范圍之內(nèi);2)學習效率和生產(chǎn)指標對比分析.

3.1 選礦過程描述及實驗設置

如圖4 所示,鐵礦選礦由大量工序/設備組成,包括篩分、豎爐焙燒、磨礦、低強度(弱)和高強度(強)磁選以及兩個脫水單元[7,10].本文主要關注兩個生產(chǎn)指標,即精礦產(chǎn)量s1和精礦品位s2.表1 分別給出7 個運行指標a1、a2、a3、a4、a5、a6、a7的含義和需要滿足的約束條件.生產(chǎn)條件由5 個變量組成,可以增廣為一個隨機向量.

表1 運行指標Table 1 Operational indices

圖4 選礦過程流程圖Fig.4 Flow chart of mineral separation process

在本實驗中,采樣周期為天和小時,表示生產(chǎn)指標和運行指標按天或小時來測量.取精礦產(chǎn)量下限s1min=260 噸/小時和s1min=6 000 噸/天,精礦品位下限s2min= 53.5%,精 礦 品位上限s2max=54.5%.本文通過Matlab 軟件實現(xiàn)算法.假設收集到的鐵礦石加工歷史數(shù)據(jù)有足夠的代表性,可以用來反映真實生產(chǎn)過程.現(xiàn)場收集的532 個數(shù)據(jù)被分為兩組,分別用于生產(chǎn)指標動態(tài)神經(jīng)網(wǎng)絡的訓練和驗證.精礦品位和精礦產(chǎn)量的動態(tài)模型均采用16-16-1 的神經(jīng)網(wǎng)絡結(jié)構(gòu)來估計,損失函數(shù)定義為:

式中,sik為實際數(shù)據(jù),為神經(jīng)網(wǎng)絡估計值,m為正整數(shù).圖5 給出了精礦產(chǎn)量和精礦品位的訓練集與驗證集的損失函數(shù)變化圖.由圖5 可以看出,模型在驗證集上的誤差是隨著訓練集的誤差下降而下降的,表明本文訓練得到的神經(jīng)網(wǎng)絡模型不存在過擬合或者欠擬合的現(xiàn)象.

圖5 精礦產(chǎn)量和精礦品位損失函數(shù)Fig.5 Loss functions of the concentrate yield and concentrate grade

對生產(chǎn)條件歷史數(shù)據(jù)做統(tǒng)計分析,生產(chǎn)條件向量近似服從高斯分布 N (μ,σ2),均值μ=[31.70 43.38 13.75 71.14 58.56],方差σ2=[0.92 0.44 0.57 3.62 2.75].

3.2 算法驗證和結(jié)果比較

用蒙特卡洛方法產(chǎn)生與歷史數(shù)據(jù)同分布的生產(chǎn)條件,評判神經(jīng)網(wǎng)絡采用2-10-1 的結(jié)構(gòu),7 個執(zhí)行神經(jīng)網(wǎng)絡均采用2-14-1 的結(jié)構(gòu).神經(jīng)網(wǎng)絡的學習率為0.05,訓練誤差為0.001,取折扣因子γ=0.8.執(zhí)行算法2,圖6 和圖7 分別為執(zhí)行網(wǎng)絡和評判網(wǎng)絡神經(jīng)網(wǎng)絡權(quán)學習過程.圖8 為200 天7 個運行指標實驗結(jié)果,相應地圖9 和圖10 顯示了200 天精礦品位和精礦產(chǎn)量的實驗結(jié)果.圖8 表明采用所提算法2,運行指標限制在規(guī)定范圍之內(nèi).圖9 和圖10表明精礦品位和精礦產(chǎn)量滿足靜態(tài)約束條件.圖6~圖10 表明了本文算法的有效性.

圖6 多執(zhí)行神經(jīng)網(wǎng)絡權(quán)值Fig.6 Evolution of weights of multi-actor neural networks

圖7 評判神經(jīng)網(wǎng)絡權(quán)值Fig.7 Evolution of weights of critic neural network

圖8 200 天的運行指標Fig.8 200-day operational indices

圖9 200 天的精礦品位Fig.9 200-day concentrate grade

為驗證本文算法的優(yōu)勢,做了對比性實驗.表2為采用本文方法、文獻[11] 的多執(zhí)行網(wǎng)絡集成算法(Multi-actor networks ensemble,MAE)和文獻[33]的Reinforce 算法獲得的精礦產(chǎn)量和實際精礦產(chǎn)量的對比性結(jié)果.由表2 和圖10可以看出,本文方法得到的精礦產(chǎn)量高于實際生產(chǎn)精礦產(chǎn)量.通過計算平均值,本文算法2 相比于實際精礦產(chǎn)量提高了約1 000 噸/天、40 噸/小時.不同于文獻[11,33],本文優(yōu)化目標為最大化累積產(chǎn)品產(chǎn)量,不是單次采樣時刻的產(chǎn)量,單次采樣時刻產(chǎn)量高不能保證累積時間內(nèi)產(chǎn)量的最大化.由表2 可以看出,相比于文獻[11]算法,本文算法提高30 天(按天采樣)和1 天(按小時采樣)精礦產(chǎn)量分別為34 167.6 噸和2 299.5 噸;相比于文獻[33]算法,本文算法提高30 天和1 天精礦產(chǎn)量分別為36 462.2 噸和2 381.9 噸.執(zhí)行類似文獻[10-11]的策略同步更新強化學習算法,圖11顯示了10 次運行本文算法2 和策略同步更新算法的時間消耗.10 次實驗中,策略異步更新強化學習算法和策略同步更新強化學習算法平均每次執(zhí)行時間分別為4.83 秒與7.80 秒,表明了本文提出的策略異步更新算法提高了學習效率.實際選礦過程生產(chǎn)條件動態(tài)變化,針對如下三種生產(chǎn)條件變化均值相同μ=[31.74 43.66 13.94 71.68 58.96],不同方差:

圖10 200 天的精礦產(chǎn)量Fig.10 200-day concentrate yield

圖11 策略異步更新和策略同步更新強化學習算法時間消耗對比Fig.11 Comparison of time consumption between asynchronous policy update and synchronous policy update

表2 算法的實驗結(jié)果對比Table 2 Comparison results between different algorithms

工況1:=[0.68 0.64 0.48 3.93 2.59]

工況2:=[2.68 1.67 2.44 5.79 5.42]

工況3:=[2.88 3.73 4.44 8.72 8.32]

執(zhí)行算法2,圖12 顯示了考慮工況變化和不考慮工況變化統(tǒng)計結(jié)果對比.結(jié)果表明: 未考慮工況變化,沒有根據(jù)工況的波動調(diào)節(jié)運行指標,精礦產(chǎn)量變化比較平穩(wěn).而本文算法能根據(jù)生產(chǎn)條件變化自適應調(diào)節(jié)運行指標,優(yōu)化精礦產(chǎn)量,平均精礦產(chǎn)量高于同種工況下的未考慮工況變化的值.

圖12 考慮工況變化和不考慮工況變化統(tǒng)計結(jié)果對比Fig.12 Statistic results with and without consideration of dynamics of production condition

4 結(jié)束語

本文針對不確定工業(yè)過程運行指標決策問題,基于自適應動態(tài)規(guī)劃技術(shù),提出了一種數(shù)據(jù)驅(qū)動的策略異步更新強化學習算法,決策運行指標,并給出了算法收斂性的理論證明.該算法不要求狀態(tài)轉(zhuǎn)移概率矩陣已知,利用樣本均值代替計算生產(chǎn)指標狀態(tài)轉(zhuǎn)移概率矩陣,采用集中式性能評估和多策略異步更新方式,利用可測量數(shù)據(jù),自學習決策運行指標.該算法提高了分布式強化學習的學習效率,實現(xiàn)了生產(chǎn)條件動態(tài)波動環(huán)境下,工業(yè)過程生產(chǎn)指標優(yōu)化并且保證運行指標和生產(chǎn)指標在規(guī)定范圍之內(nèi).仿真實驗驗證了方法的有效性.

猜你喜歡
生產(chǎn)指標精礦決策
AA肉雞生產(chǎn)指標間的多元回歸分析
高硫銅鈷精礦焙燒-酸浸試驗
為可持續(xù)決策提供依據(jù)
決策為什么失誤了
日鋼低堿度燒結(jié)礦生產(chǎn)實踐與改善
關鍵生產(chǎn)指標
——為何每個豬場差異如此之大?
¢12螺三切分工藝優(yōu)化調(diào)整
鉬精礦沸騰焙燒銅、鐵行為研究
高銻金精礦浸出試驗研究
鎳精礦中三氧化二鋁的絡合滴定
唐山市| 壤塘县| 广灵县| 徐州市| 陇川县| 新乡市| 南京市| 正安县| 潜江市| 台湾省| 阳东县| 内丘县| 桑植县| 黔江区| 墨江| 金乡县| 万盛区| 清涧县| 临夏县| 镇原县| 呼图壁县| 莱西市| 台山市| 景洪市| 永昌县| 自贡市| 南召县| 阳高县| 攀枝花市| 南充市| 南安市| 甘泉县| 温州市| 金塔县| 宜兴市| 栾川县| 绵阳市| 东方市| 咸宁市| 阳信县| 洛阳市|