一種基于離線深度強(qiáng)化學(xué)習(xí)的工業(yè)控制優(yōu)化方法

2021-12-30 03:07華電忻州廣宇煤電有限公司高亞磊郝政忠李繼平

電力設(shè)備管理 2021年12期

華電忻州廣宇煤電有限公司高亞磊郝政忠李繼平

1 工業(yè)控制自動(dòng)化現(xiàn)狀與發(fā)展趨勢(shì)

我國(guó)工業(yè)控制自動(dòng)化的發(fā)展道路，大多是在引進(jìn)成套設(shè)備的同時(shí)進(jìn)行消化吸收，然后進(jìn)行二次開發(fā)和應(yīng)用，目前工業(yè)控制自動(dòng)化技術(shù)正在向智能化、網(wǎng)絡(luò)化和集成化方向發(fā)展。智能化主要?dú)w結(jié)于人工智能技術(shù)的發(fā)展與應(yīng)用，如運(yùn)用神經(jīng)網(wǎng)絡(luò)、遺傳算法、進(jìn)化計(jì)算、混沌控制等智能技術(shù)，使儀器儀表實(shí)現(xiàn)高速、高效、多功能、高機(jī)動(dòng)靈活等性能；再如運(yùn)用模糊規(guī)則的模糊推理技術(shù)，對(duì)事物的各種模糊關(guān)系進(jìn)行各種類型的模糊決策；又如充分利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)強(qiáng)有力的自學(xué)習(xí)、自適應(yīng)、自組織能力，聯(lián)想、記憶功能以及對(duì)非線性復(fù)雜關(guān)系的輸入、輸出間的黑箱映射特性等。而人工神經(jīng)網(wǎng)絡(luò)中的深度強(qiáng)化學(xué)習(xí)最適合用于工業(yè)控制自動(dòng)化，實(shí)現(xiàn)智能化。

深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物，集成了深度學(xué)習(xí)在視覺等感知問題上強(qiáng)大的理解能力，以及強(qiáng)化學(xué)習(xí)的決策能力，實(shí)現(xiàn)了端到端學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)使得強(qiáng)化學(xué)習(xí)技術(shù)真正走向?qū)嵱茫靡越鉀Q現(xiàn)實(shí)場(chǎng)景中的復(fù)雜問題。過去幾年間，深度強(qiáng)化學(xué)習(xí)算法在不同領(lǐng)域大顯神通：在視頻游戲[1]、棋類游戲上打敗人類頂尖高手[2]；控制復(fù)雜的機(jī)械進(jìn)行操作[3]；調(diào)配網(wǎng)絡(luò)資源[4]；為數(shù)據(jù)中心大幅節(jié)能[5]；甚至對(duì)機(jī)器學(xué)習(xí)算法自動(dòng)調(diào)參[6]?？刂祁I(lǐng)域是強(qiáng)化學(xué)習(xí)思想的發(fā)源地之一，也是強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用最成熟的領(lǐng)域。一個(gè)常見的例子是使用人工智能來調(diào)優(yōu)機(jī)器和設(shè)備，在這之前這些工作需專家級(jí)操作人員才能完成。如DeepMind 的強(qiáng)化學(xué)習(xí)技術(shù)幫助Google 顯著降低了其數(shù)據(jù)中心的能耗（HVAC）[5]。

2 傳統(tǒng)工業(yè)控制優(yōu)化的弊端

依賴現(xiàn)場(chǎng)試驗(yàn)。傳統(tǒng)優(yōu)化方法主要通過在現(xiàn)場(chǎng)試驗(yàn)中收集不同工況、控制策略下的運(yùn)行情況數(shù)據(jù)，結(jié)合機(jī)理、經(jīng)驗(yàn)公式進(jìn)行優(yōu)化。在大部分情況下，為了收集機(jī)理、經(jīng)驗(yàn)公式要求的相應(yīng)數(shù)據(jù)需額外加裝傳感器測(cè)點(diǎn)，或多或少牽扯到技術(shù)改造。項(xiàng)目投入大、試驗(yàn)數(shù)據(jù)收集費(fèi)時(shí)費(fèi)力，成本高，設(shè)備改造對(duì)實(shí)際的生產(chǎn)運(yùn)行影響也較大?；谏疃葟?qiáng)化學(xué)習(xí)的方法只需使用運(yùn)行一段時(shí)間內(nèi)的歷史數(shù)據(jù)，依賴于已有數(shù)據(jù)，不涉及加裝及硬件改造，成本低，對(duì)正常運(yùn)行影響小。

基于物理方程和機(jī)理模型。傳統(tǒng)控制優(yōu)化方法主要基于物理方程及機(jī)理進(jìn)行建模，包含大量經(jīng)驗(yàn)、假設(shè)性的參數(shù)。傳統(tǒng)控制優(yōu)化方法過于依賴設(shè)備原有的設(shè)計(jì)參數(shù)，然而設(shè)備在運(yùn)行一段時(shí)間后，其真實(shí)運(yùn)行參數(shù)必然會(huì)相較出廠設(shè)計(jì)參數(shù)有一定的偏差，造成對(duì)系統(tǒng)描述的失準(zhǔn)。此外傳統(tǒng)方法建模過程過于理想化，缺乏對(duì)設(shè)備真實(shí)數(shù)據(jù)的利用和考慮?；谏疃葟?qiáng)化學(xué)習(xí)的方法充分使用真實(shí)運(yùn)行的歷史數(shù)據(jù)，在建模過程中較少依賴機(jī)組設(shè)計(jì)參數(shù)，不加入額外假設(shè)或經(jīng)驗(yàn)性參數(shù)，從數(shù)據(jù)本事直接學(xué)習(xí)系統(tǒng)真實(shí)的變化特征，對(duì)于系統(tǒng)刻畫描述的能力更強(qiáng)。

工況適應(yīng)性差。傳統(tǒng)控制優(yōu)化方法建立的模型一旦完成、基本是固化的，不具備自學(xué)習(xí)能力及適應(yīng)后續(xù)工況變化的可調(diào)節(jié)性。然而設(shè)備的工況每天都會(huì)因?yàn)閾p耗、材料特性的改變產(chǎn)生微小的工況變化，長(zhǎng)期積累下來必然會(huì)導(dǎo)致原有固化模型的失準(zhǔn)，如需重新適應(yīng)新的工況特性、則需重新建模?；谏疃葟?qiáng)化學(xué)習(xí)的方法因?yàn)榧償?shù)據(jù)驅(qū)動(dòng)，模型本身具備可學(xué)習(xí)性及很強(qiáng)的適應(yīng)能力。在工況發(fā)生變化后，只需收集最新的歷史運(yùn)行數(shù)據(jù)、在原有模型參數(shù)的基礎(chǔ)上進(jìn)行再訓(xùn)練和調(diào)整，即可適應(yīng)最新的工況特性。

拆解成子系統(tǒng)用簡(jiǎn)化模型優(yōu)化。大部分控制優(yōu)化問題本身復(fù)雜性高，傳統(tǒng)方法解決優(yōu)化問題主要將整個(gè)系統(tǒng)拆解成多個(gè)簡(jiǎn)化的子系統(tǒng)、子模塊，然后對(duì)每個(gè)子系統(tǒng)的少量控制變量做局部?jī)?yōu)化以達(dá)到優(yōu)化目的。然而此種建模方法過度簡(jiǎn)化，缺乏對(duì)系統(tǒng)整體建模的考慮，忽視了各子系統(tǒng)之間復(fù)雜的交互影響。此外每個(gè)子系統(tǒng)達(dá)到最優(yōu)、無法保證系統(tǒng)的全局最優(yōu)，甚至單一子系統(tǒng)本身的優(yōu)化可能對(duì)其他子系統(tǒng)產(chǎn)生不良的影響?；谏疃葟?qiáng)化學(xué)習(xí)的方法對(duì)系統(tǒng)進(jìn)行整體性建模，不做子系統(tǒng)拆解，最大程度上考慮各子系統(tǒng)之間復(fù)雜的依賴、影響關(guān)系。通過對(duì)整個(gè)系統(tǒng)的優(yōu)化目標(biāo)進(jìn)行尋優(yōu)，保證控制量推薦結(jié)果的全局最優(yōu)。

3 離線深度強(qiáng)化學(xué)習(xí)算法框架

實(shí)際應(yīng)用環(huán)境中往往需要滿足一定的安全限制條件，本文引入安全價(jià)值模型來評(píng)估當(dāng)前策略的安全風(fēng)險(xiǎn)，在優(yōu)化策略的同時(shí)滿足安全需求。本算法由數(shù)據(jù)驅(qū)動(dòng)、以最大化長(zhǎng)期價(jià)值為目標(biāo)，同時(shí)受限于安全約束，定義為受限的高維動(dòng)態(tài)優(yōu)化問題。本方法完全基于真實(shí)離線數(shù)據(jù)集，通過安全約束和受限的策略探索方法學(xué)習(xí)出安全有效的策略。

首先構(gòu)建基準(zhǔn)策略分布網(wǎng)絡(luò)，使用真實(shí)數(shù)據(jù)訓(xùn)練、得到歷史策略的分布，作為強(qiáng)化學(xué)習(xí)算法的基準(zhǔn)。然后分別構(gòu)建獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)和安全風(fēng)險(xiǎn)網(wǎng)絡(luò)用于評(píng)估策略的長(zhǎng)期價(jià)值和安全風(fēng)險(xiǎn)。模型訓(xùn)練使用真實(shí)數(shù)據(jù)，首先從基準(zhǔn)策略中采樣得到基準(zhǔn)動(dòng)作，然在基準(zhǔn)動(dòng)作基礎(chǔ)上用擾動(dòng)網(wǎng)絡(luò)進(jìn)行探索，通過價(jià)值網(wǎng)絡(luò)評(píng)估探索策略的價(jià)值和風(fēng)險(xiǎn)，最后通過最大化長(zhǎng)期價(jià)值和最小化風(fēng)險(xiǎn)為目標(biāo)進(jìn)行訓(xùn)練迭代，得到最優(yōu)策略。本方法的最優(yōu)策略是在歷史策略的安全范圍內(nèi)進(jìn)行有效探索得到，分布更接近歷史策略分布，最大化價(jià)值的同時(shí)保證滿足安全約束條件，可以滿足工業(yè)控制領(lǐng)域的需求。

首先從真實(shí)數(shù)據(jù)中采樣一定數(shù)量的樣本訓(xùn)練基準(zhǔn)策略模型。基準(zhǔn)策略模型只用真實(shí)數(shù)據(jù)訓(xùn)練，不是最優(yōu)的策略但可以反映真實(shí)數(shù)據(jù)的分布，然后用擾動(dòng)網(wǎng)絡(luò)進(jìn)行探索、得到最優(yōu)策略。基準(zhǔn)策略模型優(yōu)選方案是使用變分編碼器VAE(Variational Auto-encoder)。VAE 由兩部分的網(wǎng)絡(luò)構(gòu)成，一部分稱為encoder，從一個(gè)高維的輸入映射到一個(gè)低維的隱變量上；另外一部分稱為decoder，從低維的隱變量再映射回高維的輸入。分為模型訓(xùn)練階段和采樣階段，訓(xùn)練階段模型輸入為當(dāng)前狀態(tài)s 和執(zhí)行的動(dòng)作a，輸出為動(dòng)作a，encode 和decoder 兩個(gè)部分協(xié)同訓(xùn)練；采樣階段只使用decoder 部分批量采樣一定數(shù)量的樣本。

接著，從樣本池中采樣一定數(shù)量的樣本，在每個(gè)樣本的狀態(tài)下，從基準(zhǔn)策略分布中采樣得到基準(zhǔn)動(dòng)作，在基礎(chǔ)動(dòng)作基礎(chǔ)上通過擾動(dòng)策略網(wǎng)絡(luò)進(jìn)行探索。按照一定的比例，將擾動(dòng)添加到基準(zhǔn)動(dòng)作上、產(chǎn)生探索動(dòng)作。然后用獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)評(píng)估探索動(dòng)作的長(zhǎng)期價(jià)值，用安全價(jià)值網(wǎng)絡(luò)評(píng)估探索動(dòng)作的安全風(fēng)險(xiǎn)。以最大化長(zhǎng)期價(jià)值和最小化安全風(fēng)險(xiǎn)為目標(biāo)，通過策略梯度的方法來訓(xùn)練擾動(dòng)網(wǎng)絡(luò)。目標(biāo)如下：

其中，Gw是生成模型（本文中為VAE 模型），結(jié)合價(jià)值網(wǎng)絡(luò)Qr可作為策略使用，從Gw采樣得到n個(gè)動(dòng)作，再用Qr篩選出價(jià)值最高的動(dòng)作。為了增加探索，用擾動(dòng)網(wǎng)絡(luò)εφ(s,a,φ)生成在范圍[-φ,φ]內(nèi)針對(duì)動(dòng)作的調(diào)整，擾動(dòng)網(wǎng)絡(luò)提供了安全區(qū)域內(nèi)的有效探索。Qr,Qc分別為獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)和安全價(jià)值網(wǎng)絡(luò)，l 為安全約束。

最后，從樣本池采樣一定數(shù)量的樣本訓(xùn)練學(xué)習(xí)策略模型、獎(jiǎng)勵(lì)價(jià)值模型和安全價(jià)值模型。訓(xùn)練方法采用經(jīng)典的“演員-評(píng)論家”（actor-critic）方法，通過在單步轉(zhuǎn)移數(shù)據(jù)(s,a,r,s)上最小化貝爾曼誤差（Bellman errors）來學(xué)習(xí)一個(gè)動(dòng)作值函數(shù)，然后通過最大化動(dòng)作值函數(shù)來進(jìn)行策略更新。獎(jiǎng)勵(lì)價(jià)值函數(shù)的目標(biāo)為：，其中D 為經(jīng)驗(yàn)池，Qr為所要學(xué)習(xí)的獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)，Q 表示目標(biāo)價(jià)值網(wǎng)絡(luò)，按照目標(biāo)函數(shù)進(jìn)行交替迭代訓(xùn)練。同理可得安全價(jià)值函數(shù)的目標(biāo)。

本算法已實(shí)際應(yīng)用于華電忻州廣宇煤電有限公司50MW 超臨界參數(shù)燃煤汽輪發(fā)電機(jī)組的鍋爐燃燒優(yōu)化系統(tǒng)中。自2020年12月全部開發(fā)調(diào)試完畢，進(jìn)入上機(jī)實(shí)測(cè)階段。在2021年1月份進(jìn)行了多批次、多負(fù)荷段、多工況場(chǎng)景的上機(jī)實(shí)測(cè)。測(cè)試中離線強(qiáng)化學(xué)習(xí)算法運(yùn)行穩(wěn)定、性能可靠，優(yōu)化價(jià)值凸顯。優(yōu)化系統(tǒng)可及時(shí)提供提高鍋爐效率的調(diào)整方向，能夠使機(jī)組在調(diào)整后鍋爐效率得到提升。按提供的控制指導(dǎo)策略進(jìn)行機(jī)組運(yùn)行控制時(shí)，能夠?qū)崿F(xiàn)通過人工智能算法快速提供優(yōu)化指導(dǎo)方案，提高操作人員工作效率，降低勞動(dòng)強(qiáng)度。算法的優(yōu)化效果獲得了專家的一致認(rèn)可。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于離線深度強(qiáng)化學(xué)習(xí)的工業(yè)控制優(yōu)化方法

1 工業(yè)控制自動(dòng)化現(xiàn)狀與發(fā)展趨勢(shì)

2 傳統(tǒng)工業(yè)控制優(yōu)化的弊端

3 離線深度強(qiáng)化學(xué)習(xí)算法框架