張汲宇, 夏虹, 彭彬森, 王志超, 姜瑩瑩
(1.哈爾濱工程大學 核安全與先進核能技術工信部重點實驗室,黑龍江 哈爾濱 150001; 2.哈爾濱工程大學 核安全與仿真技術國防重點學科實驗室,黑龍江 哈爾濱 150001)
U形管蒸汽發(fā)生器(U-tube steam generator, UTSG)是壓水堆核動力裝置中常用的關鍵設備之一,是連接一、二回路的樞紐,為了保證核動力裝置的安全運行,其水位必須控制在合理范圍內[1]。當水位過低時,會導致傳熱管束損壞;當水位過高時,會影響汽水分離器的分離效果,造成蒸汽品質惡化,危害汽輪機的葉片[2]。UTSG是一個具有非線性和非最小相位的復雜系統(tǒng),在低功率水平下,呈現(xiàn)出明顯的“虛假水位”現(xiàn)象,這給水位控制器設計帶來了不少難度。為了解決UTSG的水位控制問題,文獻[3-5]分別提出了能準確反映出水位特性的UTSG水位控制模型,其中Irving[5]所提出的模型覆蓋了多種運行功率情況,因此被廣泛應用于控制算法研究,本文也將采用該模型進行控制算法研究。當前研究人員設計了控制算法來對水位進行控制,比如自適應控制器[5],分數(shù)階(proportional-integral-derivative,PID)控制器[6-7]、增益調度動態(tài)滑模控制器[8]、支持向量機預測控制器[9]等,這些控制器均能有效的對蒸汽發(fā)生器的水位進行跟蹤,并能具有較好的魯棒性。
深度強化學習是深度學習和強化學習結合的產(chǎn)物,它不僅具有深度學習的優(yōu)秀數(shù)據(jù)處理能力,而且具有強化學習的優(yōu)秀決策能力,已發(fā)展成為機器學習領域的一個重要分支。其學習過程通過與環(huán)境的相互作用和試錯,從而不斷改進自身策略,最終實現(xiàn)最優(yōu)決策。目前深度強化學習已廣泛應用于自動化控制,文獻[10-12]分別將深度強化學習算法應用于雙足機器人、混合動力汽車和水箱液位等控制問題上,與固定參數(shù)的PID控制器相比,該算法優(yōu)化的變參數(shù)PID控制器具有超調量小、響應跟蹤性能好的優(yōu)點。由于串級PI(cascade PI,CPI)控制器具有直觀、實現(xiàn)簡單和魯棒性好等優(yōu)點,因此目前仍然廣泛應用在核蒸汽發(fā)生器水位控制系統(tǒng)中。
為了實現(xiàn)對CPI控制器參數(shù)進行實時優(yōu)化并降低控制器設計難度,本文提出了基于深度強化學習優(yōu)化的智能分層(intelligent hierarchical, IH)控制器。該控制器以CPI控制器作為初級控制器,并引入深度強化學習來構建具有自主控制能力的智能體控制器,根據(jù)環(huán)境的狀態(tài)不斷的改進CPI的控制策略。本文采用深度殘差神經(jīng)網(wǎng)絡作為Q函數(shù)和動作函數(shù)的逼近器,提出了狀態(tài)指標和評價函數(shù)識別系統(tǒng)運行狀態(tài)和評估控制效果,通過仿真實驗驗證了本文所提出方法的有效性。
強化學習(reinforcement learning, RL)是機器學習領域的一個重要分支[13],可以通過主動學習獲得良好的決策能力,學習過程如圖1所示。在訓練過程中,通過以最大化累計獎勵為目標,強化學習算法根據(jù)狀態(tài)、動作、獎勵等信息持續(xù)優(yōu)化策略,最終找到最優(yōu)狀態(tài)-動作序列。
圖1 強化學習過程Fig.1 Reinforcement learning process
交互過程可以用馬爾可夫決策過程(Markov decision processes,MDP)表示[14]。假設環(huán)境是完全可以觀測,環(huán)境的狀態(tài)空間用S表示,動作空間用A表示;智能體的行為由策略π定義。在t時刻,at為智能體根據(jù)狀態(tài)st(st∈S)所采取的策略動作,其中at∈A,然后在t+1時刻,狀態(tài)轉移到st+1,在這個過程中,智能體得到的即時獎勵可表示為r(st,at)。智能體執(zhí)行動作at后返回的累積折扣獎勵為:
(1)
式中:γ為折扣因子,且γ∈[0,1];st為環(huán)境的狀態(tài)。
為了描述模型在狀態(tài)st下,智能體采取的動作at后,并在策略π的指導下,所帶來的預期回報,常用Q函數(shù)來表示[15],定義為:
Qπ(st,at)=Eri≥t,si≥t~s,ai≥t~π[Rt|st,at]
(2)
通過貝爾曼方程可將式(2)轉換成遞歸形式,為:
Qπ(st,at)=Ert,st+1~s[r(st,at)+
γEat+1~π[Qπ(st+1,at+1)]]
(3)
深度確定性策略梯度(deep deterministic policy gradient,DDPG)是一種基于演員-評論家(actor-critic,AC)框架的深度強化學習方法[16],它是在確定性策略梯度(deterministic policy gradient,DPG)的基礎上發(fā)展而來[17]。在高維狀態(tài)空間和動作空間處理上,DDPG使用深度神經(jīng)網(wǎng)絡作為Q函數(shù)和動作函數(shù)的逼近器,同時也會帶來一個問題,神經(jīng)網(wǎng)絡的訓練過程是需要假設樣本是獨立且均勻分布的,然而按時間順序獲取的樣本顯然是不符合這個要求,為了解決該問題,DDPG借鑒了DQN中的經(jīng)驗回放機制[18]和深度神經(jīng)網(wǎng)絡中的小批量訓練方式,確保大型非線性網(wǎng)絡的訓練過程穩(wěn)定。
在DDPG中,采用確定性策略函數(shù)μ描述狀態(tài)與動作之間的關系,因此可將Q函數(shù)表示為:
Qμ(st,at)=Ert,st+1~s[r(st,at)+γQμ(st+1,μ(st+1))]
(4)
為了解決連續(xù)控制任務中的探索問題,本文通過在策略μ中加入了奧恩斯坦-烏倫貝克(Ornstein-Uhlenbeck,OU)過程的噪聲N,構建了探索策略μ′:
(5)
考慮到神經(jīng)網(wǎng)絡具有較強的適應性,能夠以非線性形式逼近任何函數(shù),因此也是目前應用最多的函數(shù)逼近器,本文通過堆疊多層殘差網(wǎng)絡結構[19]構建了深度殘差神經(jīng)網(wǎng)絡作為函數(shù)逼近器,并針對Q函數(shù)和動作函數(shù)分別構建了評價網(wǎng)絡和動作網(wǎng)絡如圖2所示,網(wǎng)絡逼近器的隱藏層激活函數(shù)為線性整流函數(shù)(rectified linear unit,ReLU),輸出層激活函數(shù)為雙曲線函數(shù)tanh[20],評價網(wǎng)絡與動作網(wǎng)絡中的神經(jīng)元個數(shù)如表1所示。
圖2 網(wǎng)絡結構設計Fig.2 Network structure design
表1 評價網(wǎng)絡神經(jīng)元數(shù)量Table 1 Number of neurons in the critic network
本文將評價網(wǎng)絡,動作網(wǎng)絡,目標評價網(wǎng)絡和目標動作網(wǎng)絡分別定義為Q(s,a|θQ),μ(s|θμ),Q′(s,a|θQ′)和μ′(s|θμ′),其中θQ,θμ,θQ′和θμ′為各個逼近器的參數(shù),行為網(wǎng)絡和目標網(wǎng)絡擁有相同的網(wǎng)絡結構,在第1.3節(jié)中已給出相關定義。DDPG算法的偽代碼為:
隨機初始化評價網(wǎng)絡Q(s,a|θQ)和動作網(wǎng)絡μ(s|θμ)的參數(shù)θQ和θμ。
初始化目標網(wǎng)絡Q′和μ′的參數(shù):θQ′←θQ,θμ′←θμ
初始化經(jīng)驗池R
For episode = 1, 2,Mdo
初始化探索噪聲模型
初始化環(huán)境狀態(tài)s1并保存
Fort=1:Tdo
獲取實時動作at=μ′(st)根據(jù)探索方法.
執(zhí)行動作at,并獲取獎勵rt和下一時刻的狀態(tài)st+1
保存狀態(tài)轉移元組(st,at,rt,st+1)至經(jīng)驗池R
計算損失函數(shù)更新
計算策略梯度
更新動作網(wǎng)絡
更新目標網(wǎng)絡參數(shù)θQ′和θμ′
End for
End for
在訓練過程中,行為網(wǎng)絡需要在每個時間點進行學習更新,為了保證訓練過程平穩(wěn),使用小批量訓練方式對網(wǎng)絡進行訓練。假設每次從經(jīng)驗池中抽取N個樣本組成訓練集R,在訓練過程中,為了使由θQ參數(shù)化的Q函數(shù)最優(yōu),可以通過最小化損失函數(shù)來對其進行優(yōu)化:
(6)
其中:
yi=Ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
(7)
初始狀態(tài)值函數(shù)的分布J(s1)的梯度為:
(8)
(9)
使用軟更新方法對目標網(wǎng)絡Q′(s,a|θQ′)和μ′(s|θμ′)的參數(shù)進行更新:
θQ′=ηθQ+(1-η)θQ′
(10)
θμ′=ηθμ+(1-η)θμ′
(11)
式中η?1,這使得目標網(wǎng)絡更新速度很慢,從而提高了學習過程的魯棒性。
本文使用Irving通過真實運行數(shù)據(jù)辨識出來的蒸汽發(fā)生器模型作為研究對象[5],該模型能準確表示出蒸汽發(fā)生器水位的運行特性,故被廣泛應用于控制器研究。該模型建立了一個與給水流量Qe,蒸汽流量Qv和窄量程水位Y相關的傳遞函數(shù)模型:
(12)
本文針對UTSG分別在低功率(5%)、中功率(50%)和高功率水平(100%)的水位控制展開了研究,該模型參數(shù)在3個功率點處的取值如表2所示。
表2 不同功率水平下UTSG水位模型參數(shù)Table 2 UTSG water level model parameters under different power levels
相對單獨控制回路,串級控制更加可控和安全,且魯棒性更好[21],因此本文采用CPI控制器作為基礎控制器,CPI控制器的工作過程如圖3中初級控制器所示。在外環(huán)控制中,期望水位和模型輸出水位的差作為控制器的輸入,它的作用主要用于控制水位能夠跟蹤期望值的變化;在內環(huán)控制中,外環(huán)控制器的輸出與蒸汽流量的和再減去給水流量的差作為控制器的輸入,該控制器主要用于抑制蒸汽流量擾動。
單個PI控制器的工作原理為:
(13)
式中:e(t)為誤差;Kp為比例系數(shù);Ki為積分系數(shù)。本文中外環(huán)控制器的比例系數(shù)和積分系數(shù)定義為Kp1、Ki1,內環(huán)控制器相應的參數(shù)定義為Kp2、Ki2。
本文所提出的IH控制器采用了2級控制器結構,如圖3所示,初級控制器采用CPI控制器,負責直接控制蒸汽發(fā)生器模型的水位;高級控制器采用具有智能特性的智能體控制器,負責在線調節(jié)CPI控制器的Kp1、Ki1、Kp2和Ki2,在控制過程中,初級控制器與高級控制器共同協(xié)調工作,能夠根據(jù)系統(tǒng)的狀態(tài)實時調節(jié)控制策略,實現(xiàn)智能化的自主控制。
圖3 蒸汽發(fā)生器水位控制流程Fig.3 Steam generator water level control process
圖4 蒸汽發(fā)生器水位智能控制系統(tǒng)結構Fig.4 Structure of intelligent water level control system of steam generator
本文將相對誤差re(t)和re(t)對時間的導數(shù)?re(t)/?t在連續(xù)3 s內的取值作為狀態(tài)信息,從而得到誤差項的狀態(tài)向量s1(t),與導數(shù)項的狀態(tài)向量s2(t)為:
(14)
(15)
(16)
式中:ta為目標參考值;w1和w2分別為歸一化系數(shù),用于將數(shù)值變換到區(qū)間[0,1]左右,以便促進神經(jīng)網(wǎng)絡的訓練效率,在初始時刻t=0;e(t)=?re(t)/?t=0。最后組合狀態(tài)向量s1(t)和s2(t)得到維度為3×2的綜合狀態(tài)矩陣S(t):
S(t)=[s1(t)s2(t)]
(17)
獎勵函數(shù)是強化學習中的重要組成部分,扮演著引導智能體學習的關鍵角色。為了讓智能體有效學習到控制策略,本文構建了分段評價函數(shù)r(t)。本文根據(jù)相對誤差絕對值|re(t)|的不同,指定|re(t)|>200%為異常區(qū),200%≥|re(t)|>15%為大誤差區(qū),|re(t)|≤15%為低誤差區(qū)。在異常區(qū),此時系統(tǒng)偏離目標值太遠,將終止正在執(zhí)行的任務。在大誤差區(qū),該階段系統(tǒng)需要較快的響應速度,獎勵值統(tǒng)一設置為-2。在低誤差區(qū),此時系統(tǒng)輸出值離目標值很近,系統(tǒng)容易發(fā)生超調現(xiàn)象,因此該區(qū)間的獎勵函數(shù)設置尤為重要。
本文同時采用相對誤差評價項r1(t)和相對誤差導數(shù)評價項r2(t)來評價控制效果。其中r1(t)用來評價環(huán)境狀態(tài)偏離目標值的程度,如式(15)所示,當穩(wěn)態(tài)誤差為0時,該項取到最大值0。
r1(t)=-|w1re(t)|0.8
(18)
r2(t)用來評價環(huán)境狀態(tài)的波動程度,當系統(tǒng)狀態(tài)穩(wěn)定時,該項取到最大值0。
(19)
為了防止在控制過程中,參數(shù)突變的影響,尤其是參考值階躍的情況下,誤差的導數(shù)是非常大的,可以將數(shù)值限制在一定范圍內:
(20)
針對r2(t)評價項,采用了clip方法進行處理得到:
(21)
(22)
綜上所述,最終的獎勵函數(shù)為:
(23)
本文中針對水位跟蹤性能進行訓練來獲得最佳的控制性能,在訓練過程中,參考水位在第10 s時從0 mm階躍至100 mm,程序的其他主要參數(shù)為:仿真時間T=600 s,采樣時間Ts=3 s,迭代次數(shù)M=1 500,折扣因子γ=0.993,噪聲模型隨機數(shù)η=1×10-4,噪聲模型方差σ=0.07,噪聲模型均值δ=0.15,噪聲模型常系數(shù)a=1×10-5。
由于不同功率水平下,模型具有相似特性,故均能得到相似的訓練結果,出于篇幅限制,因此本文僅展示了5%滿功率下的訓練結果,訓練結果如圖5所示。在訓練過程的早期,由于智能體的收集經(jīng)驗不足,加上訓練次數(shù)不夠,使得累積獎勵值偏低,說明該階段仍然處于一個探索的過程,隨著迭代次數(shù)的增加,智能體逐漸找到規(guī)律,控制效果逐漸變好,此時累積獎勵值,處于一個上升趨勢,大約1 100次迭代后訓練結果開始收斂,此時累計獎勵值沒有什么明顯的變化趨勢,說明已經(jīng)尋找最優(yōu)的控制方案。
圖5 5%功率水平的訓練結果Fig.5 Training results at 5% power level
為了測試訓練好的控制器性能,本文針對UTSG開展了水位跟蹤測試和抗干擾測試,同時本文將該控制器分別與模糊串級PI控制器(fuzzy cascade PI controller, FCPI)和自適應串級PI控制器(adaptive cascade PI controller, ACPI)的控制效果進行對比。
為測試系統(tǒng)在階躍函數(shù)作用下系統(tǒng)的輸出響應,測試過程中,水位設定值10 s時從0 mm階躍上升至100 mm。圖6顯示了所有功率水平下3種方法的對比結果。3種方法均能有效對水位進行調節(jié),本文所提出的方法相比其他2種方法響應速度更快和超調量低;當功率水平為5%時,IH方法提升是最明顯的,不僅調節(jié)時間短,且超調量控制在2%以內,相比于FCPI調節(jié)時間縮短了14%左右,相比于ACPI縮短了40%左右;當功率水平為50%時,IH的調節(jié)時間略微領先于FCPI,相比于ACPI縮短了30%左右,但ACPI和IH的超調量優(yōu)于FCPI。當功率水平為100%時,IH的調節(jié)時間比FCPI縮短了10%左右,比ACPI縮短了20%左右,此時3種方法的超調量均比較小,振蕩次數(shù)均比較少。
圖6 不同功率水平下水位跟蹤測試結果Fig.6 Water level tracking test results at different power levels
綜上所述,本文提出的控制算法IH在不同的控制階段均有較好的控制效果,這主要得益于在學習過程中,智能控制體通過不斷反復的與環(huán)境進行交互,不斷累積控制經(jīng)驗,自主的去學習控制經(jīng)驗,并在控制策略空間內探索新的策略,智能體逐漸走向成熟。
為了驗證所提出的控制器的抗干擾能力,本文對不同功率模式下的模型進行了蒸汽流量擾動測試。測試過程中,在10 s處加入了35.88 kg/s的蒸汽流量階躍擾動,測試結果如圖7~9所示。
圖7 5%功率水平下水位抗干擾測試結果Fig.7 Water level anti-interference test results at 5% power level
圖8 50%功率水平下水位抗干擾測試結果Fig.8 Water level anti-interference test results at 50% power level
圖9 100%功率水平下水位抗干擾測試結果Fig.9 Water level anti-interference test results at 100% power level
從圖7~9中可以看出3種方法均具有優(yōu)秀的抗干擾能力,能夠快速將水位重新恢復至正常狀態(tài),并且給水流量能夠快速跟隨蒸汽流量變化。當功率水平為5%和50%時,本文所提出的方法比其他2種方法能更快的將水位恢復至正常值,在100%功率水平時的抗干擾能力依舊優(yōu)于其他2種方法。這些充分說明IH控制器具有優(yōu)秀的抗干擾能力。由于低功率情況下,系統(tǒng)存在明顯的非最小相位特征,使得系統(tǒng)恢復時間較長,在不同工況,相同蒸汽流量干擾下,恢復時間排名依次為5%>50%>100%。
1)在水位跟蹤測試中,本文所提出的方法可以快速的對水位進行跟蹤控制,相比于其他智能控制算法,調整時間明顯縮短,超調量小,體現(xiàn)出明顯的優(yōu)勢。在抗干擾測試中,本文所提出的方法可以輕松應對蒸汽流量擾動,以很快的速度將水位恢復至正常狀態(tài),期間給水流量快速跟上蒸汽流量的變化,減少了蒸汽流量擾動對水位的影響,尤其在低功率情況下,恢復時間明顯縮短,具有明顯的優(yōu)勢。
2)本文所提出的控制器訓練方法不需要知道模型的動態(tài)特性,因此減少了對模型的依賴程度,為核動力裝置智能控制器設計提供了一種思路。
本文所提出的控制器是從零控制經(jīng)驗開始學習的,因此需要較長的學習時間。未來將引進專家控制經(jīng)驗對模型進行預訓練,然后再使用強化學習算法進一步優(yōu)化模型,來提高學習效率。