華電忻州廣宇煤電有限公司 高亞磊 郝政忠 李繼平
我國(guó)工業(yè)控制自動(dòng)化的發(fā)展道路,大多是在引進(jìn)成套設(shè)備的同時(shí)進(jìn)行消化吸收,然后進(jìn)行二次開發(fā)和應(yīng)用,目前工業(yè)控制自動(dòng)化技術(shù)正在向智能化、網(wǎng)絡(luò)化和集成化方向發(fā)展。智能化主要?dú)w結(jié)于人工智能技術(shù)的發(fā)展與應(yīng)用,如運(yùn)用神經(jīng)網(wǎng)絡(luò)、遺傳算法、進(jìn)化計(jì)算、混沌控制等智能技術(shù),使儀器儀表實(shí)現(xiàn)高速、高效、多功能、高機(jī)動(dòng)靈活等性能;再如運(yùn)用模糊規(guī)則的模糊推理技術(shù),對(duì)事物的各種模糊關(guān)系進(jìn)行各種類型的模糊決策;又如充分利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)強(qiáng)有力的自學(xué)習(xí)、自適應(yīng)、自組織能力,聯(lián)想、記憶功能以及對(duì)非線性復(fù)雜關(guān)系的輸入、輸出間的黑箱映射特性等。而人工神經(jīng)網(wǎng)絡(luò)中的深度強(qiáng)化學(xué)習(xí)最適合用于工業(yè)控制自動(dòng)化,實(shí)現(xiàn)智能化。
深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物,集成了深度學(xué)習(xí)在視覺等感知問題上強(qiáng)大的理解能力,以及強(qiáng)化學(xué)習(xí)的決策能力,實(shí)現(xiàn)了端到端學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)使得強(qiáng)化學(xué)習(xí)技術(shù)真正走向?qū)嵱茫靡越鉀Q現(xiàn)實(shí)場(chǎng)景中的復(fù)雜問題。過去幾年間,深度強(qiáng)化學(xué)習(xí)算法在不同領(lǐng)域大顯神通:在視頻游戲[1]、棋類游戲上打敗人類頂尖高手[2];控制復(fù)雜的機(jī)械進(jìn)行操作[3];調(diào)配網(wǎng)絡(luò)資源[4];為數(shù)據(jù)中心大幅節(jié)能[5];甚至對(duì)機(jī)器學(xué)習(xí)算法自動(dòng)調(diào)參[6]??刂祁I(lǐng)域是強(qiáng)化學(xué)習(xí)思想的發(fā)源地之一,也是強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用最成熟的領(lǐng)域。一個(gè)常見的例子是使用人工智能來調(diào)優(yōu)機(jī)器和設(shè)備,在這之前這些工作需專家級(jí)操作人員才能完成。如DeepMind 的強(qiáng)化學(xué)習(xí)技術(shù)幫助Google 顯著降低了其數(shù)據(jù)中心的能耗(HVAC)[5]。
依賴現(xiàn)場(chǎng)試驗(yàn)。傳統(tǒng)優(yōu)化方法主要通過在現(xiàn)場(chǎng)試驗(yàn)中收集不同工況、控制策略下的運(yùn)行情況數(shù)據(jù),結(jié)合機(jī)理、經(jīng)驗(yàn)公式進(jìn)行優(yōu)化。在大部分情況下,為了收集機(jī)理、經(jīng)驗(yàn)公式要求的相應(yīng)數(shù)據(jù)需額外加裝傳感器測(cè)點(diǎn),或多或少牽扯到技術(shù)改造。項(xiàng)目投入大、試驗(yàn)數(shù)據(jù)收集費(fèi)時(shí)費(fèi)力,成本高,設(shè)備改造對(duì)實(shí)際的生產(chǎn)運(yùn)行影響也較大?;谏疃葟?qiáng)化學(xué)習(xí)的方法只需使用運(yùn)行一段時(shí)間內(nèi)的歷史數(shù)據(jù),依賴于已有數(shù)據(jù),不涉及加裝及硬件改造,成本低,對(duì)正常運(yùn)行影響小。
基于物理方程和機(jī)理模型。傳統(tǒng)控制優(yōu)化方法主要基于物理方程及機(jī)理進(jìn)行建模,包含大量經(jīng)驗(yàn)、假設(shè)性的參數(shù)。傳統(tǒng)控制優(yōu)化方法過于依賴設(shè)備原有的設(shè)計(jì)參數(shù),然而設(shè)備在運(yùn)行一段時(shí)間后,其真實(shí)運(yùn)行參數(shù)必然會(huì)相較出廠設(shè)計(jì)參數(shù)有一定的偏差,造成對(duì)系統(tǒng)描述的失準(zhǔn)。此外傳統(tǒng)方法建模過程過于理想化,缺乏對(duì)設(shè)備真實(shí)數(shù)據(jù)的利用和考慮?;谏疃葟?qiáng)化學(xué)習(xí)的方法充分使用真實(shí)運(yùn)行的歷史數(shù)據(jù),在建模過程中較少依賴機(jī)組設(shè)計(jì)參數(shù),不加入額外假設(shè)或經(jīng)驗(yàn)性參數(shù),從數(shù)據(jù)本事直接學(xué)習(xí)系統(tǒng)真實(shí)的變化特征,對(duì)于系統(tǒng)刻畫描述的能力更強(qiáng)。
工況適應(yīng)性差。傳統(tǒng)控制優(yōu)化方法建立的模型一旦完成、基本是固化的,不具備自學(xué)習(xí)能力及適應(yīng)后續(xù)工況變化的可調(diào)節(jié)性。然而設(shè)備的工況每天都會(huì)因?yàn)閾p耗、材料特性的改變產(chǎn)生微小的工況變化,長(zhǎng)期積累下來必然會(huì)導(dǎo)致原有固化模型的失準(zhǔn),如需重新適應(yīng)新的工況特性、則需重新建模?;谏疃葟?qiáng)化學(xué)習(xí)的方法因?yàn)榧償?shù)據(jù)驅(qū)動(dòng),模型本身具備可學(xué)習(xí)性及很強(qiáng)的適應(yīng)能力。在工況發(fā)生變化后,只需收集最新的歷史運(yùn)行數(shù)據(jù)、在原有模型參數(shù)的基礎(chǔ)上進(jìn)行再訓(xùn)練和調(diào)整,即可適應(yīng)最新的工況特性。
拆解成子系統(tǒng)用簡(jiǎn)化模型優(yōu)化。大部分控制優(yōu)化問題本身復(fù)雜性高,傳統(tǒng)方法解決優(yōu)化問題主要將整個(gè)系統(tǒng)拆解成多個(gè)簡(jiǎn)化的子系統(tǒng)、子模塊,然后對(duì)每個(gè)子系統(tǒng)的少量控制變量做局部?jī)?yōu)化以達(dá)到優(yōu)化目的。然而此種建模方法過度簡(jiǎn)化,缺乏對(duì)系統(tǒng)整體建模的考慮,忽視了各子系統(tǒng)之間復(fù)雜的交互影響。此外每個(gè)子系統(tǒng)達(dá)到最優(yōu)、無法保證系統(tǒng)的全局最優(yōu),甚至單一子系統(tǒng)本身的優(yōu)化可能對(duì)其他子系統(tǒng)產(chǎn)生不良的影響?;谏疃葟?qiáng)化學(xué)習(xí)的方法對(duì)系統(tǒng)進(jìn)行整體性建模,不做子系統(tǒng)拆解,最大程度上考慮各子系統(tǒng)之間復(fù)雜的依賴、影響關(guān)系。通過對(duì)整個(gè)系統(tǒng)的優(yōu)化目標(biāo)進(jìn)行尋優(yōu),保證控制量推薦結(jié)果的全局最優(yōu)。
實(shí)際應(yīng)用環(huán)境中往往需要滿足一定的安全限制條件,本文引入安全價(jià)值模型來評(píng)估當(dāng)前策略的安全風(fēng)險(xiǎn),在優(yōu)化策略的同時(shí)滿足安全需求。本算法由數(shù)據(jù)驅(qū)動(dòng)、以最大化長(zhǎng)期價(jià)值為目標(biāo),同時(shí)受限于安全約束,定義為受限的高維動(dòng)態(tài)優(yōu)化問題。本方法完全基于真實(shí)離線數(shù)據(jù)集,通過安全約束和受限的策略探索方法學(xué)習(xí)出安全有效的策略。
首先構(gòu)建基準(zhǔn)策略分布網(wǎng)絡(luò),使用真實(shí)數(shù)據(jù)訓(xùn)練、得到歷史策略的分布,作為強(qiáng)化學(xué)習(xí)算法的基準(zhǔn)。然后分別構(gòu)建獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)和安全風(fēng)險(xiǎn)網(wǎng)絡(luò)用于評(píng)估策略的長(zhǎng)期價(jià)值和安全風(fēng)險(xiǎn)。模型訓(xùn)練使用真實(shí)數(shù)據(jù),首先從基準(zhǔn)策略中采樣得到基準(zhǔn)動(dòng)作,然在基準(zhǔn)動(dòng)作基礎(chǔ)上用擾動(dòng)網(wǎng)絡(luò)進(jìn)行探索,通過價(jià)值網(wǎng)絡(luò)評(píng)估探索策略的價(jià)值和風(fēng)險(xiǎn),最后通過最大化長(zhǎng)期價(jià)值和最小化風(fēng)險(xiǎn)為目標(biāo)進(jìn)行訓(xùn)練迭代,得到最優(yōu)策略。本方法的最優(yōu)策略是在歷史策略的安全范圍內(nèi)進(jìn)行有效探索得到,分布更接近歷史策略分布,最大化價(jià)值的同時(shí)保證滿足安全約束條件,可以滿足工業(yè)控制領(lǐng)域的需求。
首先從真實(shí)數(shù)據(jù)中采樣一定數(shù)量的樣本訓(xùn)練基準(zhǔn)策略模型。基準(zhǔn)策略模型只用真實(shí)數(shù)據(jù)訓(xùn)練,不是最優(yōu)的策略但可以反映真實(shí)數(shù)據(jù)的分布,然后用擾動(dòng)網(wǎng)絡(luò)進(jìn)行探索、得到最優(yōu)策略。基準(zhǔn)策略模型優(yōu)選方案是使用變分編碼器VAE(Variational Auto-encoder)。VAE 由兩部分的網(wǎng)絡(luò)構(gòu)成,一部分稱為encoder,從一個(gè)高維的輸入映射到一個(gè)低維的隱變量上;另外一部分稱為decoder,從低維的隱變量再映射回高維的輸入。分為模型訓(xùn)練階段和采樣階段,訓(xùn)練階段模型輸入為當(dāng)前狀態(tài)s 和執(zhí)行的動(dòng)作a,輸出為動(dòng)作a,encode 和decoder 兩個(gè)部分協(xié)同訓(xùn)練;采樣階段只使用decoder 部分批量采樣一定數(shù)量的樣本。
接著,從樣本池中采樣一定數(shù)量的樣本,在每個(gè)樣本的狀態(tài)下,從基準(zhǔn)策略分布中采樣得到基準(zhǔn)動(dòng)作,在基礎(chǔ)動(dòng)作基礎(chǔ)上通過擾動(dòng)策略網(wǎng)絡(luò)進(jìn)行探索。按照一定的比例,將擾動(dòng)添加到基準(zhǔn)動(dòng)作上、產(chǎn)生探索動(dòng)作。然后用獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)評(píng)估探索動(dòng)作的長(zhǎng)期價(jià)值,用安全價(jià)值網(wǎng)絡(luò)評(píng)估探索動(dòng)作的安全風(fēng)險(xiǎn)。以最大化長(zhǎng)期價(jià)值和最小化安全風(fēng)險(xiǎn)為目標(biāo),通過策略梯度的方法來訓(xùn)練擾動(dòng)網(wǎng)絡(luò)。目標(biāo)如下:
其中,Gw是生成模型(本文中為VAE 模型),結(jié)合價(jià)值網(wǎng)絡(luò)Qr可作為策略使用,從Gw采樣得到n個(gè)動(dòng)作,再用Qr篩選出價(jià)值最高的動(dòng)作。為了增加探索,用擾動(dòng)網(wǎng)絡(luò)εφ(s,a,φ)生成在范圍[-φ,φ]內(nèi)針對(duì)動(dòng)作的調(diào)整,擾動(dòng)網(wǎng)絡(luò)提供了安全區(qū)域內(nèi)的有效探索。Qr,Qc分別為獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò)和安全價(jià)值網(wǎng)絡(luò),l 為安全約束。
最后,從樣本池采樣一定數(shù)量的樣本訓(xùn)練學(xué)習(xí)策略模型、獎(jiǎng)勵(lì)價(jià)值模型和安全價(jià)值模型。訓(xùn)練方法采用經(jīng)典的“演員-評(píng)論家”(actor-critic)方法,通過在單步轉(zhuǎn)移數(shù)據(jù)(s,a,r,s)上最小化貝爾曼誤差(Bellman errors)來學(xué)習(xí)一個(gè)動(dòng)作值函數(shù),然后通過最大化動(dòng)作值函數(shù)來進(jìn)行策略更新。獎(jiǎng)勵(lì)價(jià)值函數(shù)的目標(biāo)為: ,其中D 為經(jīng)驗(yàn)池,Qr為所要學(xué)習(xí)的獎(jiǎng)勵(lì)價(jià)值網(wǎng)絡(luò),Q 表示目標(biāo)價(jià)值網(wǎng)絡(luò),按照目標(biāo)函數(shù)進(jìn)行交替迭代訓(xùn)練。同理可得安全價(jià)值函數(shù)的目標(biāo)。
本算法已實(shí)際應(yīng)用于華電忻州廣宇煤電有限公司50MW 超臨界參數(shù)燃煤汽輪發(fā)電機(jī)組的鍋爐燃燒優(yōu)化系統(tǒng)中。自2020年12月全部開發(fā)調(diào)試完畢,進(jìn)入上機(jī)實(shí)測(cè)階段。在2021年1月份進(jìn)行了多批次、多負(fù)荷段、多工況場(chǎng)景的上機(jī)實(shí)測(cè)。測(cè)試中離線強(qiáng)化學(xué)習(xí)算法運(yùn)行穩(wěn)定、性能可靠,優(yōu)化價(jià)值凸顯。優(yōu)化系統(tǒng)可及時(shí)提供提高鍋爐效率的調(diào)整方向,能夠使機(jī)組在調(diào)整后鍋爐效率得到提升。按提供的控制指導(dǎo)策略進(jìn)行機(jī)組運(yùn)行控制時(shí),能夠?qū)崿F(xiàn)通過人工智能算法快速提供優(yōu)化指導(dǎo)方案,提高操作人員工作效率,降低勞動(dòng)強(qiáng)度。算法的優(yōu)化效果獲得了專家的一致認(rèn)可。